声が出ずともAIがコマンド検知、サイレントスピーチのAIトレーニングに成功ーーカリフォルニア大学

カリフォルニア大学バークレー校の研究者によると、口や筋肉の動きからサイレントスピーチ（無発声での発話）の内容をセンサーで読み取り、AIをトレーニングすることに初めて成功したそうだ。電極を顔やのどに装着し、EMG（筋電図）を利用してサイレントスピーチを検出する。このモデルは、単語を予測して合成音声を生成する「デジタル音声」と呼ばれるものに焦点を当てている。

この方法によって、声を出して話すことのできない人々のために多くのアプリケーションを可能にし、音声コマンドに応答するAIアシスタントや他のデバイス用の音声検出をサポートできると研究者らは確信している。

チームの論文は次のように述べている。

デジタル音声によるサイレントスピーチは幅広く応用の可能性をもっています。たとえば、Bluetoothヘッドセットなど、周囲に迷惑をかけることなく電話での会話を可能にするデバイスを作るのに利用できます。そのようなデバイスは、周囲の騒音で声を聞き取れないときや、静粛にしなければならない場面などでも重要な役割を果たすはずです。

この他の例として読唇AIが挙げられる。これはサイレントスピーチから単語を読み取ることができ、監視ツールを強化したり、聴覚障害をもつ人々のユースケースをサポートしたりすることができる。

カリフォルニア大学バークレー校の研究者らはサイレントスピーチの予測に「音声出力ターゲットを音声レコードから同一内容のサイレントレコードへ変換する」というアプローチを使った。次に、WaveNetデコーダを使って音声予測を生成した。

発声ありのEMGデータで訓練されたものをベースラインとすると、このアプローチでは文章の書き起こしにおける単語誤認率が64%から4%へ減少し、エラーは95%減少した。この分野でのさらなる研究を促すため、研究者らは約20時間分の顔面のEMGデータをオープンソース化している。

「Digital Voicing of Silent Speech（サイレントスピーチのデジタル音声化）」モデルに関するDavid Gaddy氏とDan Klein氏の論文は、先週オンライン開催されたEmpirical Methods in Natural Language Processing（EMNLP）のBest Paper賞を受賞した。Hugging Face社はオープンソースのTransformersライブラリに関する取り組みで主催者からBest Demo Paper賞を獲得した。EMNLPの研究としては他に、アフリカの諸言語を翻訳するオープンソースプロジェクト「Masakhane」のメンバーが低リソースでの機械翻訳に関するケーススタディを発表し、中国の研究者はマルチモーダルなTwitterのデータセットにおいて中傷を検出する最新鋭のモデルを発表した。

【via VentureBeat】 @VentureBeat

【原文】