Metaが進める「AIによる読唇術」その方法とは(1)

SHARE:
Photo by Christina Morillo from Pexels

人は音声を聞き取ることと、話し手の唇の動きを見ることの両方によって音声を認識する。実際、言語学習において視覚的な手がかりが重要な役割を担っているという研究結果もある。一方、AIの音声認識システムはほとんど、あるいは完全に音声に基づいて構築されている。そのため、学習には数万時間にも及ぶ膨大なデータが必要だ。

Meta社(旧:Facebook社)の研究者は、ビジュアル(特に口の動きの映像)が音声認識システムの性能を向上させることができるかどうかを調べるために、人が話すのを見て聞くことによって音声を理解するように学習するフレームワーク、Audio-Visual Hidden Unit BERT(AV-HuBERT) を開発した。Meta社は、AV-HuBERTが同じ量の書き起こしを使用する最高の視聴覚音声認識システムよりも75%精度が高いと主張している。さらにAV-HuBERTは、ラベル付けされたデータの10分の1を使用して、かつての最高水準の視聴覚音声認識システムを凌駕しており、音声データの少ない言語にも有効な可能性があるとしている。Meta AI研究者のAbdelrahman Mohamed氏は、VentureBeatのインタビューで次のように答えている。

「将来的にAV-HuBERTのようなAIフレームワークは、騒がしい日常の状況、例えばパーティーでのやりとりや賑やかなストリートマーケットでの音声認識技術の性能向上に利用できるかもしれない。そしてスマートフォン、拡張現実メガネ、カメラを搭載したスマートスピーカー(例:Alexa Echo Show)のアシスタントもこの技術の恩恵を受けることができるだろう」。

AV-HuBERT

読唇術の問題にAIを応用したのはMetaが初めてではない。2016年、オックスフォード大学の研究者たちは、特定のテストにおいて経験豊富な読唇術者の約2倍の精度を持ち、ほぼリアルタイムで映像を処理できるシステムを作り上げた。そして2017年、Alphabet傘下のDeepMindは数千時間に及ぶテレビ番組でシステムを訓練し、テストセットで約50%の単語を誤りなく正しく翻訳し、人間の専門家の12.4%をはるかに上回るという結果を得た。

しかしオックスフォード大学とDeepMindのモデルは、その後の多くの読唇術モデルと同様、認識できる語彙の範囲に限界があった。また、このモデルは学習するためにトランスクリプトと対になったデータセットを必要とし、動画内の話者の音声を処理することができなかったのだ。

そこでAV-HuBERTは、ややユニークなことに、教師なし学習、つまり自己教師あり学習を活用している。教師あり学習では、DeepMindのようなアルゴリズムは、例と特定の出力の間の基本的な関係を検出できるようになるまで、ラベル付けされた例データで訓練される。例えば、コーギーの写真(例)を見せられたら、「犬」という単語(出力)を書くようにシステムを学習させることができる。しかし、AV-HuBERTは、ラベルのないデータを分類することを学習する。つまり、データを処理してその固有の構造から学習する。

AV-HuBERTは音声と唇の動きを手がかりに言語を学習するという意味でも、マルチモーダルである。Metaは会話中の唇や歯の動きなどの手がかりを聴覚情報と組み合わせることで、AV-HuBERTに2つのデータタイプの間の「微妙な関連性」を捉えることができると述べている。

AV-HuBERTの初期モデルは、ラベル付けされた英語のTED Talkビデオを30時間かけて学習したもので、従来の最先端モデルの学習時間である3万1,000時間よりも大幅に少なくなっている。しかし、音声認識性能の指標である単語誤り率(WER)は、より少ないデータで学習したにもかかわらず、話し手が見えても聞こえない場合、旧モデルの33.6%に対してAV-HuBERTは32.5%とわずかに改善された程度に留まった(WERとは誤認識した単語数を単語数で割ったもので、32.5%は約30単語に1個の割合で誤認識していることになる)。さらに433時間分のTED Talksを学習させると、AV-HuBERTのWERは28.6%に低下した。

AV-HuBERTがデータ間の構造と相関を十分に学習した後、研究者はラベルのないデータでさらに学習させることができたとしている。YouTubeにアップロードされた2,442時間分の有名人の英語動画である。これにより、WERは26.9%まで低下しただけでなく、特定の用途(複数人が同時に発言する場合など)や異なる言語に対するフレームワークの学習には、少量のラベル付きデータで済むことが実証されたとMetaは述べている。

実際にMetaは、AV-HuBERTがバックグラウンドで大きな音楽やノイズが流れているときに人のスピーチを認識する際に、音声のみのモデルよりも約50%優れていると主張している。また、音声と背景のノイズが同じ大きさの場合、AV-HuBERTは3.2%のWERを達成し、従来の最高のマルチモーダルモデルの25.5%を下回っている。(次につづく)

 

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録