文字や音声による入出力で100言語の翻訳に対応、MetaがAIモデル「SeamlessM4T」を開発

SHARE:
Image credit: Meta AI

言語の障壁を取り除き、人々のつながりを維持するための広範な努力の一環として、Meta は音声またはテキストからほぼ100の言語を理解し、リアルタイムでどちらか一方または両方への翻訳を生成できる多言語基盤モデルを開発した。

「SeamlessM4T」と正式に名付けられたこのマルチモーダル技術は、研究者が開発を進め、音声から音声、書き起こし、読み上げ、テキストからテキストの翻訳が可能な普遍的なアプリケーションを導入できるよう一般公開された。SeamlessM4T は、265,000時間に及ぶ音声とテキストのアライメントを収集したマルチモーダル翻訳データセット「 SeamlessAlign」と共に公開された。

音声とテキストにまたがる複数のタスクを1つのシステムでこなすという点で、言語学における AI の応用が大きく発展したことになる。これ以前は、音声対音声翻訳専用のシステムなど、タスクごとに異なるシステムを使用するアプローチが主流だった。

SeamlessM4T は何ができるのか?

Meta が説明するように、SeamlessM4T は、別の言語識別モデルを必要とせずに、ソース言語を暗黙的に認識する。ほぼ100言語の音声とテキストを検出し、ほぼ同数のテキストと36言語の音声を生成できる。さらに興味深いことに、同じ文の中に複数の言語が混在している場合、それを把握し、単一のターゲット言語で翻訳を提供することもできる(テルグ語とヒンディ語で話されている文を英語音声に翻訳するような場合)。

音声単位とテキスト単位で評価可能なBLASER 2.0でテストしたところ、このモデルは、音声対テキストタスクの背景雑音と話者のバリエーションに対して、現在の音声対テキストタスクの最先端モデルと比較して優れた性能を発揮した(それぞれ平均37%と48%の改善)。

Meta はブログ投稿で次のように述べている。

SeamlessM4T は、これまでの最先端の競合他社を凌駕しています。また、低リソース言語や中リソース言語(デジタルフットプリントが小さい)のパフォーマンスを大幅に向上させ、高リソース言語(英語など)でも強力なパフォーマンスを維持します。

これが開発されれば、大規模なユニバーサル翻訳システムにつながり、異なる言語を話す人々がより効果的にコミュニケーションできるようになる。

注目すべきことに、Google もこの方向に取り組んでおり、広く話されている言語とリソース不足の言語の両方で自動音声認識(ASR)を実行できる「Universal Speech Model(USM)」を発表した。

その仕組みは?

このモデルを実用化するために、Metaは 公開ソースからウェブデータ(数百億の文章)と音声(400万時間)を収集し、それらをアライメントして SeamlessAlign データセットを作成した。合計で、443,000時間以上の音声とテキストをアライメントし、約29,000時間の音声対音声のアライメントを作成することができたという。このデータを使って、同社はマルチタスク UnitY モデルを訓練し、望ましいマルチモーダル結果を生成した。

マルチタスク UnitY モデルは、3つの主要な連続コンポーネントで構成されています。テキストと音声のエンコーダーは、100近い言語の入力を認識するタスクを持ります。そして、テキストデコーダーがその意味を100近い言語のテキストに変換し、続いてテキストからユニットへのモデルが36の音声言語の離散音響ユニットにデコードします。デコードされた離散ユニットは、多言語 HiFi-GAN ユニットボコーダーを使って音声に変換されます。(Meta)

まだ完璧ではない

しかし、SeamlessM4T は現時点では完璧とは言い難いことに注意する必要がある。評価では、このモデルには毒性(最先端のモデルより63%少ないが)とジェンダーバイアスの問題があることがわかった。

この技術のホワイトペーパーによると、SeamlessM4Tは中立的な用語から翻訳する場合(平均約10%の嗜好性)、男性形に過剰に一般化する一方、性別を3%程度変化させるとロバスト性を欠くという。

デモでは、インプットとアウトプットの両方で毒性を検出します。出力でのみ毒性が検出された場合は、毒性が追加されたことを意味します。この場合、私たちは警告を表示し、出力を表示しません。バイアスに関しては、私たちは言語におけるジェンダーのバイアスをスケールで評価する取り組みを始めました。我々は現在、以前に設計した多言語 HolisticBias データセットを音声に拡張することで、数十の音声翻訳方向におけるジェンダーバイアスを定量化することができます。(Meta)

同社は、これは継続的な取り組みであり、SeamlessM4T モデルの堅牢性と安全性をさらに向上させるため、これらの分野における研究と対策を継続すると強調した。

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。
  • 会員限定記事・毎月3本
  • コミュニティDiscord招待
無料メンバー登録