テキストから動画の生成が可能に——Stability AI、「Stable Video Diffusion」の研究プレビュー版を公開

OpenAI が Sam Altman（サム・アルトマン）氏の復帰を祝う一方で、その競合らは AI 競争で一歩も引かない動きを見せている。Anthropic が「Claude 2.1」をリリースし、Adobeが「Rephrase.ai」を買収したと報じられた直後、Stability AI は「Stable Video Diffusion」のリリースを発表した。

Stable Video Diffusion（SVD）は、研究目的でのみ利用可能で、画像から短いクリップを生成する2つの最新 AI モデル（SVD と SVD-XT）が含まれている。SVD と SVD-XT は、画像から短いクリップを生成する最先端の AI モデルである。同社によると、どちらも高品質の出力を生成し、他の AI 動画ジェネレータの性能に匹敵するか、それを上回ることさえあるという。

Stability AI は、研究プレビューの一環として画像から動画へのモデルをオープンソース化しており、ユーザからのフィードバックを活用してさらに改良を加え、最終的には商業利用への道を開く計画だ。

「Stable Video Diffusion」を理解する

同社のブログ投稿によると、SVD と SVD-XT は、静止画像を条件フレームとして取り込み、そこから 576×1024 の動画を生成する潜在拡散モデルである。どちらのモデルも、1秒間に3～30フレームの速度でコンテンツを生成するが、出力は4秒と短い。SVD モデルは静止画から14フレームを生成するように訓練されているが、「後者は25フレームまで」と Stability AI は指摘している。

Stable Video Diffusion を開発するために、同社は約6億のサンプルで構成される体系的にキュレーションされた大規模なビデオデータセットを使用し、それを使ってベースモデルをトレーニングした。その後、このモデルをより小規模で高品質なデータセット（最大100万クリップを含む）でファインチューニングし、テキストから動画へ、画像から動画へといった下流のタスクに取り組み、1つの条件画像から一連のフレームを予測する。

Stability AI によると、モデルの訓練とファインチューニングのためのデータは、正確なソースは不明だが、一般に公開されている研究データセットから得られたという。

さらに重要なことに、SVD の詳細を説明したホワイトペーパーの中で、著者らは、このモデルはマルチビュー合成が可能な拡散モデルをファインチューニングするベースとしても機能すると書いている。これにより、たった1枚の静止画像を使用して、対象物の複数の一貫したビューを生成することが可能になる。

これらすべてが、最終的には広告、教育、エンターテイメントなどの分野にわたる幅広いアプリケーションに結実する可能性があると、同社はブログ記事で付け加えている。

高品質な出力だが限界は残る

有識者による外部評価では、SVD の出力は高品質であり、Runway や Pika Labs の主要なクローズドのテキスト→動画生成モデルを大きく上回ることが判明した。しかし、同社は、これはまだ研究の始まりに過ぎず、モデルは現段階では完璧には程遠いと指摘している。多くの場合、フォトリアリズムの実現に失敗し、動きのない動画や非常に遅いカメラパンで動画を生成し、ユーザが期待するような顔や人物を生成することができない。

最終的には、この研究プレビューを利用して両モデルを改良し、現在のギャップを除外し、テキストプロンプトのサポートや動画内のテキストレンダリングなどの新機能を商用アプリケーションに導入する予定だ。今回のリリースは、モデルのオープンな調査を促すことが主な目的であり、それによって（バイアスなどの）より多くの問題が明らかになり、後の安全な展開に役立つ可能性があることを強調している。

「安定した普及の周りに構築されたエコシステムと同様に、このベースを構築し、拡張する様々なモデルを計画しています」と同社は書いている。同社はまた、ユーザがテキストから動画を生成できるようにする今後のウェブ体験にサインアップするよう、ユーザに呼びかけ始めている。

とはいえ、このエクスペリエンスが具体的にいつ利用可能になるかはまだ不明だ。

Stable Video Diffusion を使うには？

新しいオープンソースの Stable Video Diffusion モデルを使い始めるには、ユーザは同社の GitHub リポジトリでコードを見つけ、Hugging Face ページではローカルでモデルを実行するために必要なウェイトを見つけることができる。同社は、許可されるアプリケーションと除外されるアプリケーションの両方を詳述した利用規約に同意した後にのみ、使用が許可されることに留意している。

現時点では、モデルの研究とプローブとともに、許可された使用例には、デザインや他の芸術的プロセスやアプリケーションのためのアートワークを生成することが含まれる。

【via VentureBeat】 @VentureBeat

【原文】