音声生成AIのElevenLabs、8,000万米ドルをシリーズB調達しユニコーンに——クローン音声のマケプレ開始

SHARE:
Image credit: ElevenLabs

創業からわずか2年で、Google や Palantir の元従業員によって設立された AI 音声スタートアップ ElevenLabs はユニコーンの地位を獲得した。同社は22日、シリーズ B ラウンドで8,000万米ドルを調達し、評価額を10倍の11億ドルに拡大したと発表した。

今回の投資は、既存投資家の Andreessen Horowitz(a16z)、元 GitHub CEO の Nat Friedman 氏、元 Apple の AI リーダー Daniel Gross 氏が共同でリードし、Sequoia Capital と SV Angel が参加した。これは、同社を約1億ドルと評価した1,900万米ドルのシリーズ A ラウンドから6ヶ月後のことである。

ElevenLabs は、異なる言語での音声クローニングと合成のために機械学習を使用する技術を習得しており、同社は、研究を進め、提供する製品を構築するために資本を使用する予定であると述べた。また、長編映画の吹き替えツールや、クローン音声を販売するマーケットプレイスなどの新機能も発表された。

これらは今後数週間で展開される予定だ。

コンテンツへの普遍的なアクセス

ElevenLabs 共同創業者の2人。左から、Mati Staniszewski 氏、Piotr Dabkowski 氏
Image credit: ElevenLabs

地域ごとに方言や言語が変化する世界では、すべての人にコンテンツをローカライズすることは不可能だ。従来は、英語または主流の言語に焦点を当てながら、成長が見込まれる一部の市場向けに吹き替えアーティストを雇うというアプローチがとられてきた。そして、アーティストが対象言語でコンテンツを録音し、配信を可能にする。さて、問題は、こうした手作業による吹き替えは、オリジナルのコンテンツからはほど遠いということだ。さらに、これでも、コンテンツを広範囲に配信するために規模を拡大することは不可能だ——特に、制作チームがそれほど大きくない場合は。

元 Google の機械学習エンジニアの Piotr Dabkowski 氏と元 Palantir のデプロイメントストラテジストの Mati Staniszewski 氏は、共にポーランド出身で、吹き替えが不十分な映画を見て、この問題を目の当たりにした。この課題に触発された2人は、AI の力であらゆるコンテンツをあらゆる言語と音声で普遍的に利用できるようにすることを使命とする会社、ElevenLabs を立ち上げた。

ElevenLabs は2022年にデビューし、以来少しずつ成長してきた。初期段階では、英語の自然な音声を AI が合成する音声合成モデルで話題を呼んだ。その後、ポーランド語、ドイツ語、スペイン語、フランス語、イタリア語、ポルトガル語、ヒンディー語など、より多くの言語の合成をサポートする Eleven Multilingual v1、v2へとモデルを拡大した。同時に、同社はボイス・ラボも開発し、ユーザは自分の声のクローンを作ったり、合成ツールで使用するまったく新しい合成音声を(ボーカル・パラメーターをランダムにサンプリングして)生成したりすることができるようになった。これにより、ポッドキャストの台本のような好みのテキストを、好みの声と言語で音声コンテンツに変換することができる。

Staniszewski 氏は VentureBeat に対し次のように語っている。

ElevenLabs のテクノロジーは、文脈認識と高圧縮を組み合わせて、超リアルな音声を提供します。文章をひとつひとつ生成するのではなく、同社独自のモデルは、単語の関係を理解し、より広い文脈に基づいて配信を調整するように構築されています。また、ハードコードされた機能を持たないため、音声を生成しながら何千もの音声特性を動的に予測することができます。

100万ユーザを突破

ElevenLabs は、ツールをベータ版で発表してから数カ月で、100万人以上のユーザを獲得し、大きな支持を得た。同社はまた、音声合成ツール「AI Dubbing」を発表することで、AI 音声研究を発展させ、元の話者の声や感情を保持したまま、ユーザが音声やビデオを29の異なる言語に翻訳できるようにした。現在のところ、フォーチュン500社の41%を顧客に数える。また、Storytel、The Washington Post、The Soul Publishing といった著名なコンテンツ出版社も含まれている。

我々は常に新しい B2B パートナーシップを結んでおり、現在までに100以上のパートナーシップを結んでいます。AI の音声は、クリエイターが視聴者体験を向上させることから、教育へのアクセスの拡大、出版、エンターテインメント、アクセシビリティにおける革新的なソリューションの提供まで、幅広い応用が可能です。(Staniszewski 氏)

現在、ElevenLabs は、ユーザベースが拡大し続ける中、ユーザに最高の機能セットを提供するため、製品面での革新にも取り組んでいる。そこで登場したのが、新しい Dubbing Studio ワークフローだ。

このワークフローは、AI Dubbing 製品をベースに構築され、プロフェッショナル・ユーザに専用のツールセットを提供し、映画全体を好きな言語で吹き替えるだけでなく、トランスクリプト、翻訳、タイムコードを生成・編集し、制作をさらに実践的にコントロールできるようにする。AI Dubbingと同様に29の言語をサポートしているが、コンテンツのローカライゼーションに欠かせない重要な要素であるリップシンクをサポートしていない。

つまり、このツールで映画がローカライズされた場合、対象となる言語の音声のみがダビングされ、映像の唇の動きはオリジナルのままとなる。Staniszewski 氏は、同社は現在、最高のオーディオ体験を提供することに集中しているが、将来的にはこの機能を追加したいと考えていることを確認した。

AI ボイスを販売するマーケットプレイス、さらに追加予定

Dubbing Studio に加え、ElevenLabs は、テキストや URL を音声に変換するアクセシビリティ・アプリや、ユーザが AI クローン音声を販売できるボイス・ライブラリーやマーケットプレイスも発表している。同社は、AI が生成した音声の利用可能性と報酬条件をユーザが柔軟に定義できるようにしているが、それを共有するには、さまざまな検証レイヤーを含む複数段階のプロセスが必要になると指摘している。この動きにより、ユーザはより幅広い音声モデルを利用できるようになる一方で、音声モデルの作成者には収入を得る機会が与えられることになる。

創業者兼 CEO の Staniszewski 氏は次のように述べている。

音声を共有する前に、ユーザは特定の時間枠内でテキストプロンプトを読むことによって音声キャプチャ検証に合格し、自分の音声がトレーニングサンプルと一致することを確認する必要があります。これは、我々のチームによるモデレーションと手作業による承認とともに、ユーザが検証した本物の音声が共有され、収益化されることを保証します。

これらの機能が今後数週間で一般利用可能になるため、ElevenLabs はさまざまなセグメントからより多くの顧客を引き寄せたいと考えている。同社は、今回の資金調達総額が1億100万ドルに達したことで、AI 音声に関する研究を進め、インフラを拡張し、新たな業種に特化した製品を開発すると同時に、AI音声を識別できる分類器を含む強力な安全管理体制を構築するために使用する予定だという。

今後数年間で、音声 AI の研究と製品展開における世界的リーダーとしての地位を築くことを目指しています。また、プロのユーザやユースケースに合わせた、より高度なツールの開発も計画しています。(Staniszewski 氏)

AI を活用した音声・音声生成の分野では、他に MURF.AIPlay.htWellSaid Labs がある。Market US によると、このようなツールの世界市場は2022年に12億ドルで、2032年には50億ドル近くに達し、年平均成長率は15.40%をやや上回ると推定されている。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する