Alibaba、写真やイラストを元に歌わせたりしゃべらせたりできるAI「EMO」をローンチ - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Alibaba（阿里巴巴）のインテリジェント・コンピューティング研究所（智慧計算連合実験室）の研究者たちは、1枚のポートレート写真をアニメーション化し、その人物が話したり歌ったりする動画を驚くほどリアルに生成できる、「EMO（Emote Portrait Alive の略）」と呼ばれる新しい AI システムを開発した。

arXiv に掲載された研究論文に記載されているこのシステムは、提供された音声トラックのニュアンスに密接にマッチした、流動的で表情豊かな顔の動きや頭のポーズを作り出すことができる。これは、長年 AI 研究者の課題であった音声駆動型のトーキングヘッド映像生成における大きな進歩である。

著者の Linrui Tian 氏は論文でこう述べている。

従来の技術では、人間の表情の全領域と個々の顔のスタイルの独自性を捉えることができないことが多い。これらの問題に対処するために、我々は、中間3D モデルや顔のランドマークの必要性を回避し、直接音声からビデオへの合成アプローチを利用する新しいフレームワークである EMO を提案する。

音声を映像に直接変換

EMO システムは、拡散モデルとして知られる AI 技術を採用しており、リアルな合成画像を生成するのに非常に優れた能力を示している。研究者たちは、スピーチ、映画、テレビ番組、歌唱パフォーマンスから収集した250時間以上のトーキングヘッドの動画データセットでモデルを訓練した。

顔の動きを近似するために3D 顔モデルやブレンド形状に依存する従来の方法とは異なり、EMO は音声波形をビデオフレームに直接変換する。これにより、自然な発話に関連する微妙な動きや本人特有の癖を捉えることができる。

https://twitter.com/StelfieTT/status/1762744324867891261

論文に記載された実験によると、EMO は映像の品質、アイデンティティの保持、表現力を測定する指標において、既存の最先端手法を大幅に上回っている。また、研究者らはユーザ調査を実施し、EMO によって生成された動画は、他のシステムによって生成された動画よりも自然で感情的であることを発見した。

リアルな歌唱動画を生成

EMO は、会話動画だけでなく、歌声に合わせた適切な口の形や表情で、歌唱動画を生成することができる。このシステムは、入力音声の長さに基づいて、任意の長さの動画を生成することができまる。

「実験結果は、EMO が説得力のある会話動画だけでなく、様々なスタイルの歌動画も作成できることを実証しており、表現力とリアリズムの点で既存の最先端手法を大幅に上回っている」と論文では述べられている。

EMO の研究は、写真と音声クリップだけからパーソナライズされたビデオコンテンツを合成できる未来を示唆している。しかし、このような技術が悪用され、同意なしに人になりすましたり、誤った情報を流したりする可能性については、倫理的な懸念が残る。研究者たちは、合成動画を検出する方法を探る予定だという。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。

無料で登録する

音声を映像に直接変換

リアルな歌唱動画を生成

Members

関連記事