グーグルの新マルチモーダルAI動画生成ツール「VideoPoet」がすごいことに - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Google の VideoPoet web サイト
Image credit: Google Research

つい昨日、私は Google が AI 製品のリリースを最初のトライで成功させることはあるのかと尋ねた。少なくとも、Google の最新の研究の様子からすると、そう尋ねたくもなる。

今週、Google は「VideoPoet」を披露した。VideoPoet は、Google Research の31人の研究者からなるチームが開発した、さまざまな動画生成タスク用に設計された新しい大規模言語モデル（LLM）である。

Google Research チームがこれらのタスクのために LLM を構築したという事実自体が注目に値する。彼らはプレレビューの研究論文にこう書いている。

既存のモデルのほとんどは、拡散（diffusion）ベースの手法を採用している。これらの動画モデルは、通常、個々のフレームに対して忠実度の高い画像を生成する「Stable Diffusion」のような事前トレーニングされた画像モデルから始まり、ビデオフレーム間の時間的一貫性を向上させるためにモデルをファインチューニングする。

これとは対照的に、Google Research チームは、人気のある（そして物議を醸している）Stable Diffusion オープンソースの画像／動画ジェネレーティブ AI に基づく拡散モデルを使用する代わりに、「ChatGPT」「Claude 2」「Llama 2」などのテキストやコード生成に通常使用される Transformer アーキテクチャに基づく別のタイプの AI モデルである LLM を使用することにした。しかし、Google Research チームは、テキストやコードを生成するために LLM をトレーニングするのではなく、動画を生成するために LLM をトレーニングした。

事前トレーニングが鍵

VideoPoet LLM は、「公共のインターネットやその他のソース」から2億7,000万本の動画と10億以上のテキストと画像のペアを「事前トレーニング」し、具体的には、そのデータをテキスト埋め込み、ビジュアルトークン、オーディオトークンに変換し、AI モデルを「条件付け」した。

その結果は、Runway や Pika のような最先端の消費者向け動画生成モデル（前者は Google の投資によるもの）と比較しても、かなり衝撃的だ。

より長く、より高品質で、より一貫した動きのクリップ

それ以上に、Google Research チームは、彼らの LLM ビデオジェネレータアプローチは、実際に長く、より高品質なクリップを可能にする可能性があり、動画内の被写体の動きがわずか数フレームで壊れたり、グリッチになる傾向がある、現在の拡散ベースの動画ジェネレーティブ AI の制約や問題のいくつかを排除することができると指摘している。

チームメンバーの2人 Dan Kondratyuk（ダン・コンドラチュク）氏と David Ross（デビッド・ロス）氏は、この研究を発表した Google Research のブログ投稿に次のように書いている。

動画生成における現在のボトルネックの1つは、首尾一貫した大きな動きを生成する能力にある。多くの場合、現在の主要なモデルでさえ、小さなモーションを生成するか、大きなモーションを生成する際に、顕著なアーチファクトを示す。

Google Research の VideoPoet AI がどのように静止画像をアニメーションさせるかを示すアニメーション GIF
Image credit: Google Research

しかし、VideoPoet は、研究者たちがオンラインに投稿した例に基づいて、16フレームの長い動画にわたって、より大きく、より一貫した動きを生成することができる。VideoPoet はまた、異なるカメラの動き、異なるビジュアルや美的スタイルのシミュレーション、与えられたビデオクリップにマッチする新しいオーディオの生成など、より幅広い機能を最初から使用できる。また、テキスト、画像、プロンプトとなる動画など、さまざまな入力を扱うことができる。

これらすべての動画生成機能を単一の LLM に統合した VideoPoe tは、複数の特殊なコンポーネントを必要とせず、動画作成のためのシームレスでオールインワンのソリューションを提供します。

実際、Google Research チームが行った調査では、視聴者は VideoPoet を好んだ。チームは、VideoPoet によって生成された動画クリップを、不特定多数の「人間の評価者」に見せた。また、動画生成拡散モデル「Source-1」「VideoCrafter」「Phenaki」によって生成されたクリップも見せ、一度に2つのクリップを並べて見せた。人間の評価者は、彼らの目には VideoPoet のクリップが優れていると評価した。

Google Research のブログ投稿には、次のようにまとめられている。