音声変換サービスのVoice.aiが600万米ドルを調達、ゲーム実況に多用されユーザは50万人を突破

Voice.ai は、映像や音声プラットフォームで「AI Stephanie Sun（AI 孫燕姿）」よりも多くの歌を歌っている。AI が Stephanie Sun（孫燕姿）の歌声をマネするのは的を射ていると考える人もいれば、AI が歌手の権利を侵害していると考える人もいる。

声マネや音声変換に AI を使うとなると、ネガティブなイメージから逃れる方法はほとんどない。しかし、ゲーム実況者や VTuber にとっては、AIを使って声を変換することで、大勢のクリエイターの中から目立つことができるだけでなく、ネット上の人格と実生活を切り離す手段にもなる。

Voice.ai はインスタント音声変換に特化した AI 企業で、5万件以上の音声テンプレートを提供し、ユーザが自分の理想の声を組み立てることもできる。2016年以来、Voice.ai は50万人近いユーザを集め、多くのゲームオーナーや Vtuber、コンテンツクリエイターから高く評価されており、その70％は男性ユーザである。

2023年6月、Voice.ai は6月、Mucker Capital と M13 から新たな投資ラウンドで600万米ドルを調達した。同社は音響技術を他の分野と組み合わせ、新たな可能性を生み出すことを目指している。

音声変換の可能性に注目し続ける Heath Ahrens 氏

Voice.ai 創業者の Heath Ahrens 氏は AI と音声変換の分野で15年以上を過ごし、2007年には世界初の音声合成プラットフォーム「iSpeech」、2012年には iSpeech をベースに改良を加え、Amazon の音声アシスタント「Alexa」の前身「iSpeech Home」など、数多くの音声関連製品の立ち上げと開発に携わってきた。

Ahrens 氏はシステム開発だけでなく、音声中心のモバイルアプリを50以上も立ち上げている。AI 技術の民主化を決意し、慣れ親しんだ音声技術の分野で起業することを決意した彼は、AI の力を借りて、ユーザが自分の声を見つけ、自分の声のアイデンティティを確立できるようにしたいと考え、2016年に Voice.ai を設立した。

性別を超えたコミュニティ

音声変換サービスといえば、一般的に市販されているボイスチェンジャーを思い浮かべる。システムが提供する固定のボイステンプレートしか使用できないボイスチェンジャーとは異なり、Voice.ai はユーザが選択できる音声ライブラリを内蔵しているだけでなく、ユーザが使用したい音声テンプレートをアップロードすることで、自分の声、そして、理想の声を作り上げることができるように門戸を開いている。

Voice.ai では、ユーザが使いたい音声テンプレートをアップロードできる。
Image credit: Voice.ai

コミュニティとのコラボレーションにより、Voice.ai は既存の音声データベースを拡張し、有名人、アニメのキャラクタ、政治家など5万件以上の音声テンプレートを収録しており、オープンなコミュニティディスカッションを提供する Discord チャンネルの参加者は10万人を突破した。

Voice.ai はサービス開始以来、有名人、アニメキャラクタ、政治家などの音声テンプレートが用意され、5万件以上のボイステンプレートを利用できる。
Image credit: Voice.ai

Voice.ai の膨大な音声データベースは、ゲームオーナーや VTuber、コンテンツクリエイターの間で人気を博している。直感的でシンプルなユーザインターフェイスを持つ Voice.ai は、ユーザがサービスを利用する際に、視聴者に最も共鳴し、オンライン上の個性にマッチした声を簡単に探すことができる。また、Zoom、Discord、Minecraft など、有名プラットフォームと連携しているるため、ユーザは多くの手順を踏むことなく簡単に声を変えることができる。

Voice.ai は Discord などのプラットフォームと連携している。
Image credit: Voice.ai

TechCrunch によると、Voice.ai ユーザの70％近くが男性だという。男性ユーザだけでなく、トランスジェンダーのコミュニティも Voice.ai ユーザの重要な一部であり、音声変換サービスは、彼らが自分の声を見つけ、声のアイデンティティを探求するのに役立っている。

Voice.ai の音声変換サービスは現在無料で、ユーザは公式ウェブサイトから自分の OS に対応するバージョンを選択してソフトウェアをダウンロードすることができる。

倫理的論争をどう回避するか

多くの企業が音声変換に未来を見出す中、Voice.ai は2023年6月、台湾の起業家 William Hsu（許惟量）氏が設立した Mucker Capital と M13 から600万米ドルの投資を受けた。

Mucker Capital で新規ベンチャー投資を率いる Omar Hamoui 氏は、TechCrunch とのインタビューで、Voice.ai への投資に前向きだったのは、これまで大企業のものだった AI アプリケーションを、シンプルでわかりやすいインターフェースを通じて一般に紹介した点を高く評価したからで、将来的に AI 技術を民主化するという彼らのビジョンにも楽観的だったからだと述べている。

資金提供を受けた Voice.ai は、今後関連技術の人材募集を拡大し、音声変換の利用を日常会話に限定せず、歌唱などのエンターテイメント系にも広げていくという。また、ユーザ同士が Voice.ai を推薦し合っていることで、サーバ容量が徐々に限界に近づいており、Voice.ai は調達した資金の一部をサーバ処理能力の拡張に充て、ユーザ体験の最適化を続けていくという。

システムの処理能力への挑戦に加え、ディープフェイク技術が導入された際の倫理的な使用と同様、AI アプリケーションにとって、どのようになりすましを回避するかは難しい課題となっているが、同様の機能を提供する Voice.ai はそれほど心配する必要はない。

Voice.ai は音声変換システムに防御メカニズムを確立しており、ユーザが音声テンプレートをアップロードすると、システムはサービスが悪用されないよう、テンプレートの信憑性を監視・評価する。また、Ahrens 氏は、Voice.ai のシステムの核心は、誰かの声を完璧にコピーすることではなく、元の話し手の雰囲気、トーン、発音をそのままに、短時間で音声変換できることだと説明した。

しかし、新しい技術の存在は往々にして中立的なものであり、実際の効果はユーザの使い方次第である。音声技術の積極的な活用に力を入れる Voice.ai は、すでにシステムに監視インターフェースを追加し、コミュニティを通じてユーザに適切な使い方を守るよう促し続けているが、こうした予防的アプローチが倫理的論争を回避するのに有効かどうかは、まだ時間がかかりそうだ。

【via Meet Global by Business Next（数位時代）】 @meet_startup

【原文】