一枚の静止画がリアルなビデオにーーGoogle の研究者が画像に命を吹き込むAI「VLOGGER」発表

SHARE:
Image Credit: enriccorona.github.io/vlogger

Google の研究者らが、たった1枚の静止画像から、人物が話したり、ジェスチャーをしたり、動いたりするリアルなビデオを生成できる新しい人工知能システムを開発した。 VLOGGER と呼ばれるこの技術は、高度な機械学習モデルを用いて驚くほどリアルな映像を合成するもので、ディープフェイクや誤情報をめぐる懸念を引き起こしつつも、幅広い応用の可能性を秘めている。

「VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis」と題された研究論文で説明されているこの AI モデルは、人物の写真と音声クリップを入力として受け取り、その音声に合わせて、人物が言葉を話し、対応する表情や頭の動き、手振りをするビデオを出力することができる。ビデオは完璧ではなく、いくつかのアーティファクトがあるが、静止画像をアニメーション化する能力において大きな飛躍を示している。

トーキング・ヘッドを合成する画期的な技術

Google Research の Enric Corona (エンリック・コロナ) 氏らの研究チームは、この新しい成果を達成するために、拡散モデルと呼ばれる機械学習モデルを活用した。拡散モデルは最近、テキストの説明から非常にリアルな画像を生成することで注目すべきパフォーマンスを示している。それをビデオの領域に拡張し、膨大な新しいデータセットで学習させることで、チームは写真に命を吹き込む説得力のある AI システムを作り出すことができた。

著者らは次のように述べている。

「従来の研究とは対照的に、我々の手法は個人ごとの学習を必要とせず、顔の検出やトリミングに依存せず、完全な画像(顔や唇だけでなく)を生成し、人間のコミュニケーションを正しく合成するために重要な幅広いシナリオ(例えば、上半身が見えたり、多様な被写体のアイデンティティなど)を考慮しています」。

応用の可能性と社会的影響

この技術は、さまざまな魅力的なユースケースを切り開く。この論文では、音声トラックを入れ替えるだけで動画を他の言語に自動的に吹き替えたり、動画内の欠けているフレームをシームレスに編集・補完したり、1枚の写真から人物の完全な動画を作成したりする VLOGGER の能力が実証されている。

俳優が自分自身の詳細な3D モデルをライセンス供与し、それを使って新しいパフォーマンスを生成できるようになることが想像できる。また、この技術は、バーチャルリアリティやゲームのためのフォトリアリスティックなアバターの作成にも使用できる可能性がある。そして、より魅力的で表現力豊かな AI を搭載したバーチャルアシスタントやチャットボットの作成を可能にするかもしれない。

Google は、VLOGGER を、スピーチやジェスチャー、アイコンタクトを通じて人間と自然にコミュニケーションを取ることができる「具現化された会話エージェント」への一歩と見なしている。

「VLOGGER は、プレゼンテーション、教育、ナレーション、低帯域幅のオンラインコミュニケーション、テキストのみの人間とコンピュータのインタラクションのインターフェイスとして、スタンドアロンのソリューションとして使用できる」と著者らは述べている。

しかし、この技術には悪用の可能性もある。例えば、動画の中の人物を別の人物の姿に置き換えるディープフェイク(合成メディア)の作成などだ。このような AI が生成するビデオがより現実的になり、作成が容易になると、誤情報やデジタル偽造をめぐる課題が増大する可能性がある。

AI 研究の新たなフロンティア

VLOGGER は印象的ではあるが、まだ限界がある。生成されるビデオは比較的短く、背景は静的だ。個人は3D 環境で動き回ることはない。そして、彼らの仕草や話し方は現実的ではあるが、まだ本物の人間と区別がつかないほどではない。

それでも、VLOGGER は大きな前進を示している。「我々は VLOGGER を3つの異なるベンチマークで評価し、提案モデルが画質、アイデンティティの保存、時間的一貫性において他の最先端の手法を上回ることを示した」と著者らは報告している。

さらなる進歩により、このような AI が生成するメディアは遍在するようになるだろう。近い将来、ビデオの中で我々に話しかけている人物が本物なのか、コンピュータプログラムによって生成されたものなのかを見分けるのが難しい世界に住むことになるかもしれない。

VLOGGER は、そのような未来の早期の一瞥を提供している。それは人工知能の急速な進歩を如実に示すとともに、現実と虚構を見分けることの難しさが増していく兆候でもある。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する