顧客との会話をリアルタイムで書き起こし、多様な言語を翻訳ーーNvidiaが音声AI技術競争でMetaとGoogleに対抗（２）

Nvidiaが現在実装している音声AI

（前回からのつづき）Nvidaでは現在、自動音声認識（ASR）、人工音声翻訳（AST）、テキスト読み上げなど、いくつかのユースケースを想定した音声AIの開発を進めている。Nvidia AIプラットフォームの一部であるNvidia Rivaは、コンタクトセンターのエージェントアシスト、バーチャルアシスタント、デジタルアバター、ブランドボイス、ビデオ会議の文字起こしなど、アプリケーション向けにカスタマイズ可能なリアルタイムAIパイプラインを構築・展開するための最新鋭のGPUに最適化されたワークフローを提供する。Rivaを通じて開発されたアプリケーションは、あらゆる種類のクラウドやデータセンター、エッジ、または組み込みデバイスに展開することが可能だ。

シンガポール政府の交通技術パートナーであるNCSは、NvidiaのRiva FastPitchモデルをカスタマイズし、現地話者の音声データを使用して英語とシンガポール語用の独自の音声合成エンジンを構築。NCSは最北京語、福建語、マレー語、タミール語などの言語を、ネイティブのシンガポール人が話すのと同じ明瞭さと表現力でシンガポール英語に翻訳する現地ドライバー向けアプリ「Breeze」を設計した。

モバイル通信コングロマリットのT-MobileもNvidiaと提携し、顧客との会話をリアルタイムで書き起こし、顧客体験センター向けのAIベースのソフトウェアを開発した。これにはRivaに加えて、会話型AIモデルのためのオープンソースフレームワークであるNvidia NeMoを利用している。これらのツールによりT-Mobileのカスタムデータセット上でASRモデルを微調整し、ノイズの多い環境でも顧客の専門用語を正確に解釈できる。

Nvidiaが今後注力する音声AIとは

Sharma氏はNvidiaは現在のASTと次世代音声AIの開発をリアルタイムのメタバースユースケースに組み込むことを目指しているという。

翻訳はテキストを通過しなければいけないため、遅いのが現状です。しかし、将来的にはメタバースの中で、さまざまな言語の人々がお互いに瞬時に翻訳できるようになります。次のステップは、すべての言語の音声認識とリアルタイムの音声合成によって、世界中の人々と流動的なやりとりを可能にするシステムを開発することです。

【via VentureBeat】 @VentureBeat

【原文】