MicrosoftのAIは、ビデオクリップの字幕が真実かどうかを判断しようとしている

SHARE:
microsoft-1-e1580261336710.jpg
Microsoft
Image Credit: Khari Johnson / VentureBeat

※本記事は提携するVentureBeat「Microsoft’s AI determines whether statements about video clips are true」の抄訳になります。

プレプリントサーバーArxiv.orgに公開された論文の中で、カーネギーメロン大学、カリフォルニア大学サンタバーバラ校、マイクロソフトのDynamics 365 AIリサーチの研究者たちは、動画と言語の推論について説明している。

これはAIがビデオクリップに含む字幕をもとに、内容が合っているか矛盾しているかを推論するものだ。動画と言語の理解に関する調査をさらに進め、企業で使用される会議用の自動テープ起こしツールを強化することを目的としている。

研究者たちが説明するように、動画と言語の推論には、ビジュアルとテキストの両方の手がかりを徹底的に解釈する必要がある。 そのため研究者らは、 Amazon Mechanical Turkを介したクラウドソーシングワーカーが、字幕付き動画を視聴して作成したステートメントを、現実のシーンでの発言と組み合わせたビデオデータセットとして紹介している。

ワーカーたちは、動画と字幕の両方を理解した上で、動画の中の明らかな情報(オブジェクト、場所、キャラクター、社会活動など)を記述し、さらに複雑なプロット(各出来事の理解、人間の感情や関係性の解釈、出来事の因果関係の推論)への理解度を明らかにするためのステートメントを書いた。

081c9a32-1f1f-47dc-9020-38f07d18d134.png

このデータセットには、「フレンズ」、「デスパレートな妻たち – Desperate Housewives」、「 ママと恋に落ちるまで – How I Met Your Mother」、「モダン・ファミリー」などのYouTubeやテレビドラマシリーズから、合計582時間に及ぶ95,322組以上の動画ステートメントと15,887本の映画が含まれる。

それぞれ約30秒の動画は、ポジティブまたはネガティブな6つのステートメントとセットになっており、それは登場人物を特定したり、行動を認識したり、会話やその理由を推論をしたり、人間の動きについて言及したりしている(偏りを防ぐために、否定的なステートメントを収集する際には肯定的なステートメントを参照し、その一部だけを修正して否定的なものにするように依頼した)。

データセットをベンチマークするために、共同研究者らは、動画の特徴を数値化してエンコードできるよう、長期依存性を学習できるAIモデルの一種である双方向性長期短期記憶モデルを採用し、 別のモデルではステートメントと字幕をエンコードした。 動画、字幕、ステートメントが与えられると、データセットの80%による学習、10%による妥当性の確認、10%によるテストにより学習した別のモデルが、ステートメントが動画と字幕に合っているか矛盾するかを判断する。 人間が行った場合85.20%の精度なのに対して、最も性能の高いベースラインは59.45%の精度を達成したという。

「ベースラインモデルと人間の性能の差は大きい。このタスクにコミュニティにも参加してもらい、マルチモーダル推論の最先端を行くために、より強力なメソッドを発明していきたい。今後の可能性としては、キーフレームをローカライズするモデルの開発や、推論能力を向上させるために動画と字幕のアライメントを改善していくことなどが挙げられる」と研究者は述べている。

この研究は、Microsoft Research Asiaとハルビン工科大学による研究に続いており、コメント、ビデオ、オーディオの間の表現をキャプチャすることで、AIを使って動画のキャプションを生成しようとしている。システムのコードはGitHubで公開されており、候補セットから最も関連性の高いコメントと動画を照合し、クロスモーダル表現を共同で学習する。

【via VentureBeat】 @VentureBeat

【原文】

 

081c9a32-1f1f-47dc-9020-38f07d18d134.png

----------[AD]----------