多様な言語に対応ーーNvidiaが音声AI技術競争でMetaとGoogleに対抗（１） - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

11月2日（現地時間）に開催されたNvidiaのSpeech AI Summitにおいて、同社はMozilla Common Voiceと共同で開発した新しい音声人工知能（AI）エコシステムについて説明した。このエコシステムはクラウドソーシングによる多言語音声コーパスとオープンソースの事前学習済みモデルの開発に重点を置く。NvidiaとMozilla Common Voiceは、世界中のあらゆる言語の話者に対して普遍的に機能する自動音声認識モデルの成長を加速させることを目的としている。

Nvidiaは、Amazon AlexaやGoogle Homeなどの標準的な音声アシスタントが、世界の話し言葉の1%未満しかサポートしていないことを指摘している。この問題を解決するために、同社は音声AIにおける言語的包含を改善し、グローバル言語や低リソース言語の音声データの利用可能性を拡大することを目指す。

NvidiaはMetaとGoogleの両社がすでに始めている競争に参加することになる。最近、両社は異なる言語を話す人々のコミュニケーションを支援する音声AIモデルを発表した。Googleの音声AI翻訳モデル「Translation Hub」は、大量のドキュメントを多くの異なる言語に翻訳することが可能だ。また、400以上の言語で学習させたユニバーサル音声翻訳機を構築中であることを発表し、「現時点において、音声モデルで確認できる最大の言語モデルカバレッジ」という謳い文句を掲げている。

同時に、Meta AIのユニバーサル・スピーチ・トランスレータ（UST）プロジェクトは、すべての言語、例えば話されているが一般的に書かれていない言語でも、リアルタイムで音声から音声への翻訳を可能にするAIシステムの作成を行っている。

グローバルな言語利用者のためのエコシステム

Nvidiaによると、音声AIのための言語的包含は、AIモデルが話者の多様性やノイズプロファイルの特徴を理解するのを助けるなどの利点がある。開発者が言語的包含、ユーザビリティのために音声AIモデルおよびデータセットを構築、維持、改善することをサポートする。ユーザーは、Mozilla Common Voiceデータセットでモデルを訓練し、事前訓練されたモデルを高品質の自動音声認識アーキテクチャとして提供することが可能だ。世界中の様々な組織や個人が、音声AIアプリケーションを構築するために、それらのアーキテクチャを適応して使用することができる。

Nvidiaのプロダクト・マネージャーであるCaroline de Brito Gottlieb氏は次のように述べている。

「人口統計の多様性は、言語の多様性を把握する上で重要です。音声のバリエーションには十分なサービスを受けていない方言、社会方言、英語と現地語の混成語、訛りなど、いくつかの重要な要因が存在します。今回のパートナーシップを通じて、あらゆる言語やコンテキストのための音声データセットとモデルを構築できるようにします」。

Mozilla Common Voiceは現在100言語をサポートしており、世界中の50万人のコントリビューターから提供された2万4,000時間分の音声データが利用可能になっている。最新版のCommon Voiceデータセットでは新たにティグレ語、台湾語（ミンナン）、メドウマリ語、ベンガル語、トキポナ語、広東語の6言語と、女性の話者による音声データが追加された。

Mozilla Common Voiceでは、ユーザーが文章を短い音声クリップとして録音することで、音声データセットを提供することができ、データセットを提出する際にMozillaが品質を検証する。