Meta、複数の音声合成タスクに対応する生成モデル「Voicebox」を発表 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

先週、Meta Platforms のAI 研究部門は、テキストから音声を生成できる機械学習モデル「Voicebox」を発表した。Voicebox が他の音声合成モデルと異なるのは、編集、ノイズ除去、スタイル転送など、訓練を受けていない多くのタスクを実行できることだ。

このモデルは、Meta の研究者が開発した特別な手法で学習された。Meta は、悪用に対する倫理的な懸念から Voicebox をリリースしていないが、初期の結果は有望であり、将来的に多くのアプリケーションを強化する可能性がある。

Flow Matching

Voicebox は、英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語の6言語の音声を合成することができる生成モデルだ。大規模言語モデル（LLM）のように、多くのアプリケーションに使用できる非常に一般的なタスクでトレーニングされている。しかし、LLM が単語やテキスト列の統計的な規則性を学習しようとするのに対し、Voicebox は、音声オーディオサンプルとその書き起こしを対応付けるパターンを学習するように訓練されている。

このようなモデルは、その後、ほとんど微調整をすることなく、多くの下流タスクに適用することができる。Meta の研究者らは Voicebox の技術的詳細を説明する論文（PDF）に次のように記述した。

目標は、文脈内学習によって多くのテキストガイド付き音声生成タスクを実行できる単一のモデルを構築することです。

このモデルは、他の生成モデルで用いられる拡散ベースの学習方法よりも効率的で汎用性の高い、Meta の技術「Flow Matching」によって学習された。この手法により、Voicebox はバリエーションに富んだ音声データから、それらのバリエーションが注意深くラベル付けされることなく学習できるようになっている。手動によるラベル付けを必要とせず、研究者たちは50,000時間に及ぶスピーチとオーディオブックの書き起こしで Voicebox を訓練することができたのだ。

このモデルは、「テキストガイド付きスピーチインフィリング」を学習目標としており、周囲の音声と完全なテキスト原稿からスピーチのセグメントを予測する必要がある。基本的には、トレーニング中に、モデルには音声サンプルとそれに対応するテキストが提供されることを意味する。そして、音声の一部がマスクされ、モデルは周囲の音声と書き起こしをコンテキストとして使用して、マスクされた部分を生成しようとする。これを何度も繰り返すことで、モデルは一般化可能な方法でテキストから自然な音声を生成することを学習する。

言語間の音声の複製、音声の間違いの編集など

特定のアプリケーションのために訓練された生成モデルとは異なり、Voicebox は訓練されていない多くのタスクを実行することが可能だ。例えば、2秒間の音声サンプルを使って、新しいテキストの音声を生成することができる。Metaによると、この機能は、話すことができない人に音声を届けたり、プレイすることができないゲームキャラクターやバーチャルアシスタントの声をカスタマイズしたりするために使用できるそうだ。

Voicebox は、さまざまな方法でスタイルトランスファーを行うこともできる。例えば、モデルに2つの音声とテキストのサンプルを提供することがで、1つ目の音声サンプルをスタイルの参考資料として使用し、2つ目の音声サンプルを参考資料の声やトーンに合うように修正する。興味深いことに、このモデルは異なる言語間でも同じことができるため、たとえ同じ言語を話せなくても、自然で本物の方法で人々がコミュニケーションするのを助けるために利用できるかもしれないのだ。

また、このモデルはさまざまな編集作業を行うことができる。例えば、音声の録音中に犬が吠えた場合、音声と書き起こしを Voicebox に提供し、背景ノイズのあるセグメントをマスクすることができる。

同じ手法で音声を編集することもできる。例えば、ある単語を言い間違えた場合、オーディオサンプルのその部分をマスクして、編集したテキストの書き起こしと一緒に Voicebox に渡すことができる。モデルは、周囲の声やトーンに合うように、新しいテキストとともに欠落部分を生成する。

Voicebox の興味深いアプリケーションのひとつに、音声サンプリングがある。このモデルは、1つのテキストシーケンスから様々な音声サンプルを生成することができる。この機能は、他の音声処理モデルを訓練するための合成データを生成するために使用することができる。

論文には次のように書かれている。

我々の結果は、Voicebox が生成した合成音声で訓練した音声認識モデルが、実際の音声で訓練したモデルとほぼ同等の性能を示し、これまでの音声合成モデルによる合成音声では45～70％の劣化があったのに対し、エラーレートが1％の劣化で済んだというものです。

Voicebox にも限界がある。オーディオブックのデータで訓練されているため、カジュアルで非言語的な音を含む会話音声にはうまく対応しない。また、音声スタイル、トーン、感情、音響条件など、生成される音声のさまざまな属性を完全に制御することもできない。Meta の研究チームは、将来的にこれらの制限を克服する技術を模索していくという。

モデルは非公開

AI が生成したコンテンツの脅威に対する懸念が高まっている。例えば、最近、サイバー犯罪者が女性に電話をかけ、AI が生成した音声を使って孫になりすまし、詐欺を行おうとしたこと事件がる。Voicebox のような高度な音声合成システムは、同様の目的や、偽の証拠の作成、本物の音声の操作など、他の悪質な行為に使用される可能性がある。

Meta は AI ブログで次のように書いている。