Meta、音声クローンと環境音を生成するAI「Audiobox」を公開

SHARE:
「Audiobox」
Image credit: Meta Platforms

音声クローニングは、ジェネレーティブ AI のおかげで急速に台頭している分野の一つだ。この用語は、人の声のスタイル(ピッチ、音色、リズム、マナー、独特の発音)をテクノロジーで再現することを指している。

ElevenLabs をはじめとするスタートアップがこの追求に専念することで数千万米ドルの資金を得ている一方で、Facebook、Instagram、WhatsApp、Oculus VR の親会社である Meta Platforms は、独自の無料ボイスクローニングプログラム「Audiobox」をリリースした。

Facebook AI Research (FAIR)ラボの研究者たちによって、Meta の web サイトで11日発表された Audiobox は、この分野での先行研究である「Voicebox」上に構築された「音声生成のための新しい基礎研究モデル」と説明されている。

<関連記事>

Audiobox の web ページには、次のように書かれている。

音声入力と自然言語のテキストプロンプトを組み合わせて、音声や効果音を生成することができます。さまざまなユースケースに対応するカスタム・オーディオを簡単に作成できます。

Audiobox は、クローン音声に言わせたい文章や生成させたい音の説明を入力するだけで、あとは Audiobox がやってくれる。また、自分の声を録音して Audiobox にクローンしてもらうこともできる。

音声ジェネレーティブ AI の「ファミリー」

Meta はさらに、音声を模倣するモデルと、犬の鳴き声やサイレン、子供の遊び声など、より環境的な音や効果音を生成するモデルの 「ファミリー」を作成し、それらはすべて「共有された自己教師ありモデル Audiobox SSL に基づいて構築されている」と述べた。

自己教師あり学習(SSL)とは、機械学習(ML)のディープラーニング(深層学習)の手法のひとつで、データがすでにラベル付けされている可能性のある教師あり学習とは対照的に、ラベル付けされていないデータに対して AI アルゴリズムが独自のラベルを生成するように割り当てられる。

研究者らは、SSL アプローチをとる方法論の一部とその根拠を説明する科学論文を発表し、「ラベル付きデータが常に入手できるとは限らず、高品質でもないため、データのスケーリングが汎用化の鍵となる。」と書いている。

もちろん、ほとんどの主要なジェネレーティブ AI モデルは、新しいコンテンツを作成する方法を訓練するために人間が生成したデータに大きく依存しており、Audiobox も例外ではない。FAIR の研究者は、「16万時間の音声(主に英語)、20万時間の音楽、6,000時間のサウンドサンプルに依存している」ことを明らかにしている。

音声部分は、オーディオブック、ポッドキャスト、朗読文、トーク、会話、さまざまな音響条件や非言語音声を含む野生の録音をカバーしています。さまざまなグループの人々にとって公平で適切な表現を保証するために、200以上の異なる主要言語を話す150カ国以上のスピーカーが含まれています。

この研究論文では、このデータがどこから入手されたのか、またパブリックドメインであるかどうか正確には明記されていないが、さまざまなアーティスト作家音楽出版社が、クリエイター/権利所有者の明示的な同意なしに著作権の可能性のある素材をトレーニングしたとして、多数のAI企業を提訴している現状では、重要な問題であることは間違いない。Meta の広報担当者に問い合わせたところ、明確な回答が得られ次第、更新するとのことだ。

自分の声をクローンすることも可能

Audiobox の機能を紹介するために、Metaはインタラクティブなデモのホストも公開している。

その後、ユーザは自分のクローン音声に言わせたいテキストを入力し、それを自分のクローン音声で読み上げるのを聞くことができる。

ここで自分で試すことができる。私の場合、AI が生成したクローン音声は、自分の声と全く同じではないが、不気味なほど似ていた(それが何であるか知らずに聞いた妻と子供が証言している)。

Meta はまた、ユーザが録音した音声を再形成したり、テキストプロンプトを入力して全く新しい音声を生成することもできる。私は後者の「犬の吠え声」を試してみたが、私の耳には本物と区別がつかない2つのバージョンが届いた。

さて、ここからが大きな問題だ: Meta の Audiobox インタラクティブデモには、「これは研究用デモであり、いかなる商業目的にも使用することはできない」こと、また、Meta がデモのために行っているような音声収集を禁止する州法がある「イリノイ州またはテキサス州」以外の人に制限されていることを示す免責事項が含まれている。

興味深いことに、先週発表された新しい画像生成 web アプリ「Imagine by Meta AI」のように、Audiobox もまたオープンソースではない。これは、大規模言語モデル(LLM)の「Llama 2 ファミリー」のリリースによって証明された Meta のこの分野へのコミットメントに逆らっている。我々はまた、この件と Audiobox がいずれオープンソースになるかどうかについて Meta の担当者に尋ねた。

というわけで、今のところ、このテクノロジーを金儲け/ビジネス目的で使うことはできないし、アメリカで最も人口の多い2つの州の住民が使うこともできない。しかし、AI が急速に進歩している今、この状況は変わり、Meta からでなくとも、他社からすぐに商用版が出ることを期待している。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する