創業1年で時価総額1億米ドル、a16zら支援のElevenLabsが生成音声AIのバージョン2公開——30言語で音声クローン作成可能に

SHARE:
Image credit: ElevenLabs

音声のクローン作成と合成に機械学習の力を活用している創業1年のスタートアップ ElevenLabs は8月22日、30言語をサポートする新しい音声合成モデルでプラットフォームを拡張することを発表した。

今回の拡張は、同プラットフォームがベータ段階から正式に終了したことを意味し、世界中の視聴者向けにコンテンツをカスタマイズしたいと考えている企業や個人が利用できるようになる。これは、ElevenLabs が1,900万米ドルのシリーズ A ラウンドを実施し、1億米ドル近い評価を得てから1ヶ月以上経過した後のことである。

同社の CEO 兼共同設立者 Mati Staniszewski 氏は声明で次のように述べた。

ElevenLabs は、あらゆるコンテンツをあらゆる言語で、あらゆる音声で、普遍的に利用できるようにするという夢を持ってスタートしました。「Eleven Multilingual v2」 のリリースにより、私たちはこの夢の実現に一歩近づき、人間品質の AI 音声をあらゆる方言で利用できるようになりました。

最終的には、AIの助けを借りてさらに多くの言語や音声をカバーし、コンテンツに対する言語的障壁をなくしたいと考えています。

Eleven Multilingual v2はどのように便利か

Mati Staniszewski 氏

ElevenLabs は、「Speech Synthesis」と「VoiceLab」という、音声に特化した2つの主要な AI 製品を提供している。

前者は、テキスト入力から自然な音声を生成する合成ツールである。後者はアドオンのようなもので、ユーザが自分の声をクローンしたり、合成ツールで使用するためのまったく新しい合成音声を(ボーカルパラメータをランダムにサンプリングして)生成したりできる。

一度カスタム音声を作成すれば、ユーザはそれを音声合成ツールに差し込むだけで、短文や長文のコンテンツを好きな音声に変換することができる。別の方法として、同社が提供するプリメイドの AI 音声や、コミュニティによって作成・共有された音声を使用することもできる。

初期の合成ツールは、英語だけの音声を生成するモデルからスタートした。その後、テキスト入力と AI 音声を使って6ヶ国語の音声を生成する「Eleven Multilingual version 1」に拡張された。この拡張で英語、ポーランド語、ドイツ語、スペイン語、フランス語、イタリア語、ポルトガル語、ヒンディー語に対応した。

Eleven Multilingual v2 のリリースにより、さらに30ヶ国語の音声合成が可能になった。これには、韓国語、オランダ語、トルコ語、スウェーデン語、インドネシア語、ベトナム語、フィリピン語、ウクライナ語、ギリシャ語、チェコ語、フィンランド語、ルーマニア語、デンマーク語、ブルガリア語、マレー語、ハンガリー語、ノルウェー語、スロバキア語、クロアチア語、クラシック・アラビア語、タミル語が含まれる(編注:日本語も含まれる)。

この動きは本質的に、人が自分の声をクローン化し、それを使ってさまざまな市場をターゲットとする何十もの言語で音声を発することができることを意味する。

ElevenLabs によれば、ユーザは好きな言語でテキストを入力し、必要な音声(既成、合成、クローン)を選択し、いくつかの音声パラメータを調整する必要がある。モデルは自動的に書かれた言語を識別し、設定されたパラメータを使用してその言語で音声を生成する。また、元のアクセントを含め、すべての言語にわたって選択した音声のユニークな特徴を維持します。

私たちのモデルは、単語間の関係を理解し、文脈に基づいて配信を調整することができます(文脈的音声合成)。モデルにはハードコーディングされた音声特徴がないため、AI 音声を作成しながら何千もの音声特徴をロバストに予測することができます。つまり、ElevenLabs のモデルは、各発話を個別に生成するのではなく、生成された各発話の周囲のテキストを考慮して、適切なフローを維持することができるのです。(Staniszewski 氏)

音声合成ツールの普及

ベータ版のローンチ以来、ElevenLabs は企業とクリエイターの両方から関心を集め、世界中で100万人以上のユーザを登録したとしている。今回のローンチにより、同プラットフォームのユーザベースが拡大するだけでなく、日々生成されるコンテンツの量も増加することが期待される。

私たちの製品を使用している企業のクライアントは多数あり、その使用ケースは、ビデオゲームのキャラクターのボイスから顧客サービスのアバターのボイス、オーディオブックの録音から視覚障害者向けコンテンツの作成まで多岐にわたります。(Staniszewski 氏)

最近では、ArXiv と協力し、アクセシビリティを高めるため、すべての論文を音声付きで出版した。また、Storytel とも提携し、オーディオブックのオプションを強化した。将来的には、元の俳優のアクセントや感情を保ちながら、映画全体を完全にシームレスに多言語に吹き替えられるようになるかもしれないとStaniszewski 氏は期待している。

詳細は後日

このミッションの一環として、ElevenLabs はユーザが長文コンテンツの構成と編集を容易にするプロジェクトツールを含む、より多くの言語と機能で製品を拡張する予定である。Staniszewski 氏によれば、このツールは、長文のコンテンツから音声を生成する際に、Google Docsレベルのシンプルさを追加するものだという。

年内には、AI ダビングツールのベータ版もリリースする予定です。このツールを使えば、ユーザは元の話者の声を維持したまま、ある言語から別の言語へ瞬時に音声を変換することができます。(Staniszewski 氏)

ElevenLabsは、AI を活用した音声・スピーチ生成の分野で、MURF.AIPlay.htWellSaid Labs といったプレーヤーと競合している。Market US によると、このようなツールの世界市場は2022年に12億ドルで、2032年には50億ドル近くに達し、年平均成長率は15.40%をやや上回ると推定されている。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する