何千時間ものテレビ視聴を経て、Google AIの読唇術が46.8%の正確性で専門家を上回る

by Yukari Mitsuhashi Yukari Mitsuhashi on 2016.11.28

image via. Flickr
image via. Flickr

<ピックアップ>  Google’s AI can now lip read better than humans after watching thousands of hours of TV

GoogleのAI部門「DeepMind」とオックスフォード大学の研究者が、かつてない正確性を誇る読唇術のソフトウェアを開発した。読唇術とは、音声なしに人の唇の動きから発言内容を読み取ることを指す。

BBCの5,000時間以上にも及ぶテレビ映像をニューラルネットワークに視聴させたところ、映像の読唇術は46.8%を記録。これが高いのか低いのか見当がつかないが、同じ映像を読唇術の専門家が読み取ったところ、正しく読み取ることができたのは12.4%にとどまった。

今月頭には、オックスフォード大学の別の研究者が同様の研究結果を発表していた。関連技術を用いて、研究者は「LipNet」と呼ばれる読唇術プログラムを開発。試験結果では、人間の52.3%の正確性をLipNetが93.4%という正確性で大幅に上回った。

LipNetの正確性が今回のニューラルネットワークを上回ったのは、その試験内容が遥かに高度だったため。LipNetの試験に使われた動画に含まれた単語は51語。一方、ニューラルネットワークのトレーニングに使われた映像は、「Newsnight」「Question Time」World Today」など高度な番組で、118,000の文章と17,500を超える単語が含まれた。

こうした技術は、例えば、聴覚障害者が会話を理解するために役立てるといった形で応用できそうだ。または、SiriやAlexaといったデジタルアシスタントをカメラに向かって話しかけることで操作できるようになるかもしれない。

via. The Verge

ニュースレターの購読について

毎日掲載される記事の更新情報やイベントに関する情報をお届けします!

----------[AD]----------