グーグルの新マルチモーダルAI動画生成ツール「VideoPoet」がすごいことに

SHARE:
Google の VideoPoet web サイト
Image credit: Google Research

つい昨日、私は Google が AI 製品のリリースを最初のトライで成功させることはあるのかと尋ねた。少なくとも、Google の最新の研究の様子からすると、そう尋ねたくもなる。

今週、Google は「VideoPoet」を披露した。VideoPoet は、Google Research の31人の研究者からなるチームが開発した、さまざまな動画生成タスク用に設計された新しい大規模言語モデル(LLM)である。

Google Research チームがこれらのタスクのために LLM を構築したという事実自体が注目に値する。彼らはプレレビューの研究論文にこう書いている。

既存のモデルのほとんどは、拡散(diffusion)ベースの手法を採用している。これらの動画モデルは、通常、個々のフレームに対して忠実度の高い画像を生成する「Stable Diffusion」のような事前トレーニングされた画像モデルから始まり、ビデオフレーム間の時間的一貫性を向上させるためにモデルをファインチューニングする。

これとは対照的に、Google Research チームは、人気のある(そして物議を醸している)Stable Diffusion オープンソースの画像/動画ジェネレーティブ AI に基づく拡散モデルを使用する代わりに、「ChatGPT」「Claude 2」「Llama 2」などのテキストやコード生成に通常使用される Transformer アーキテクチャに基づく別のタイプの AI モデルである LLM を使用することにした。しかし、Google Research チームは、テキストやコードを生成するために LLM をトレーニングするのではなく、動画を生成するために LLM をトレーニングした。

事前トレーニングが鍵

VideoPoet LLM は、「公共のインターネットやその他のソース」から2億7,000万本の動画と10億以上のテキストと画像のペアを「事前トレーニング」し、具体的には、そのデータをテキスト埋め込み、ビジュアルトークン、オーディオトークンに変換し、AI モデルを「条件付け」した。

その結果は、RunwayPika のような最先端の消費者向け動画生成モデル(前者は Google の投資によるもの)と比較しても、かなり衝撃的だ。

より長く、より高品質で、より一貫した動きのクリップ

それ以上に、Google Research チームは、彼らの LLM ビデオジェネレータアプローチは、実際に長く、より高品質なクリップを可能にする可能性があり、動画内の被写体の動きがわずか数フレームで壊れたり、グリッチになる傾向がある、現在の拡散ベースの動画ジェネレーティブ AI の制約や問題のいくつかを排除することができると指摘している。

チームメンバーの2人 Dan Kondratyuk(ダン・コンドラチュク)氏と David Ross(デビッド・ロス)氏は、この研究を発表した Google Research のブログ投稿に次のように書いている。

動画生成における現在のボトルネックの1つは、首尾一貫した大きな動きを生成する能力にある。多くの場合、現在の主要なモデルでさえ、小さなモーションを生成するか、大きなモーションを生成する際に、顕著なアーチファクトを示す。

Google Research の VideoPoet AI がどのように静止画像をアニメーションさせるかを示すアニメーション GIF
Image credit: Google Research

しかし、VideoPoet は、研究者たちがオンラインに投稿した例に基づいて、16フレームの長い動画にわたって、より大きく、より一貫した動きを生成することができる。VideoPoet はまた、異なるカメラの動き、異なるビジュアルや美的スタイルのシミュレーション、与えられたビデオクリップにマッチする新しいオーディオの生成など、より幅広い機能を最初から使用できる。また、テキスト、画像、プロンプトとなる動画など、さまざまな入力を扱うことができる。

これらすべての動画生成機能を単一の LLM に統合した VideoPoe tは、複数の特殊なコンポーネントを必要とせず、動画作成のためのシームレスでオールインワンのソリューションを提供します。

実際、Google Research チームが行った調査では、視聴者は VideoPoet を好んだ。チームは、VideoPoet によって生成された動画クリップを、不特定多数の「人間の評価者」に見せた。また、動画生成拡散モデル「Source-1」「VideoCrafter」「Phenaki」によって生成されたクリップも見せ、一度に2つのクリップを並べて見せた。人間の評価者は、彼らの目には VideoPoet のクリップが優れていると評価した。

Google Research のブログ投稿には、次のようにまとめられている。

平均して、人々は VideoPoet の例の24〜35%を、競合モデルの8〜11%に対して、競合モデルよりもプロンプトに従っていると選択しました。評価者はまた、VideoPoet の例の41〜54%を、他のモデルの11〜21%よりも、より興味深い動きとして好みました。

以下でも棒グラフ形式で表示された結果を見ることができる。

縦型動画用に構築

Google Research の VideoPoet 動画生成 LLM で作成された縦型動画の例
Image credit: Google Research

Google Research は、VideoPoet をデフォルトで縦型動画、つまり Snap や TikTok によって普及したモバイル動画市場に対応した「縦型動画」を作成するように調整した。

今後、Google Research は、VideoPoet の機能を拡張し、文字列から音声、音声から動画など、〝any-to-any〟の生成タスクをサポートし、動画と音声の生成で可能なことの限界をさらに押し広げることを想定している。

現在、VideoPoet には1つだけ問題がある。VideoPoet がいつ利用できるようになるのか、Google に問い合わせたので、返答があり次第更新する。

しかしそれまでは、VideoPoet が市場にある他のツールと比較してどうなのか、到着を心待ちにしなければならないだろう。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する