何千時間ものテレビ視聴を経て、Google AIの読唇術が46.8%の正確性で専門家を上回る

SHARE:
image via. Flickr
image via. Flickr

<ピックアップ>  Google’s AI can now lip read better than humans after watching thousands of hours of TV

GoogleのAI部門「DeepMind」とオックスフォード大学の研究者が、かつてない正確性を誇る読唇術のソフトウェアを開発した。読唇術とは、音声なしに人の唇の動きから発言内容を読み取ることを指す。

BBCの5,000時間以上にも及ぶテレビ映像をニューラルネットワークに視聴させたところ、映像の読唇術は46.8%を記録。これが高いのか低いのか見当がつかないが、同じ映像を読唇術の専門家が読み取ったところ、正しく読み取ることができたのは12.4%にとどまった。

今月頭には、オックスフォード大学の別の研究者が同様の研究結果を発表していた。関連技術を用いて、研究者は「LipNet」と呼ばれる読唇術プログラムを開発。試験結果では、人間の52.3%の正確性をLipNetが93.4%という正確性で大幅に上回った。

LipNetの正確性が今回のニューラルネットワークを上回ったのは、その試験内容が遥かに高度だったため。LipNetの試験に使われた動画に含まれた単語は51語。一方、ニューラルネットワークのトレーニングに使われた映像は、「Newsnight」「Question Time」World Today」など高度な番組で、118,000の文章と17,500を超える単語が含まれた。

こうした技術は、例えば、聴覚障害者が会話を理解するために役立てるといった形で応用できそうだ。または、SiriやAlexaといったデジタルアシスタントをカメラに向かって話しかけることで操作できるようになるかもしれない。

via. The Verge

BRIDGE Members

BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。
  • 会員限定記事・毎月3本
  • コミュニティDiscord招待
無料メンバー登録