Stability AI が Stable Video 3D で動画に新たな次元をもたらす

SHARE:
Credit: VentureBeat made with Stable Diffusion XL

Stability AI は本日(3月18日)、Stable Video 3D(SV3D)のリリースにより、生成 AI モデルのポートフォリオを拡大している。

名前が示す通り、この新しいモデルは3D 動画のレンダリング用の生成 AI 動画ツールである。Stability AI は、画像やテキストのプロンプトから短い動画を生成できる Stable Video 技術で動画機能を開発してきた。SV3D は、Stability AI の以前の Stable Video Diffusion モデルを基に、新しいビュー合成と3D 生成のタスクに適応させたものだ。

SV3D では、Stability AIは1つの入力画像から複数ビューの3D メッシュを作成・変換する機能を追加し、動画生成モデルに新たな深みを与えている。

SV3D は、現在 Stability AI Professional Membership(年間収益が100万ドル未満のクリエイターおよび開発者向けに月額20ドル)で商用利用が可能だ。非商用目的の場合、ユーザーは Hugging Face からモデルの重みをダウンロードできる。

以下は、私が素早く生成したサンプル動画だ。わずかな歪みはあるものの、カメラがそれらの周りを回転しても、動画内のすべてのオブジェクトの形状が著しく一貫性があり、しっかりしていることがわかるだろう。

ゲーム制作や E コマースが対象のユースケース

「画像からの動画生成のための Diffusion モデルである Stable Video Diffusion にカメラパスの条件付けを追加することで、Stable Video 3D は物体の複数のビューの動画を生成できるようになりました」と同社は、新しいモデルの詳細を説明したブログ記事で述べている。

Stability AI のリードリサーチャーである Varun Jampani(ヴァルン・ジャンパニ)氏は VentureBeat に対し次のように語った。

「Stable Video 3D は、特にゲーム業界における3D アセットの生成に役立つツールです。さらに、360度のオービタル動画の制作を可能にし、E コマースにおいてより没入感のある対話的なショッピング体験を提供するのに役立ちます」。

Stable Zero123から SV3D へ

Stability AI は、おそらく SDXL や、まだ初期の研究プレビュー段階にある Stable Diffusion 3.0 など、テキストから画像を生成する 生成AI モデルの Stable Diffusion シリーズで最もよく知られている。Stable Diffusion 1.5は、RunwayLeonardo AI など、多くの他の AI 画像生成および動画製品の基礎を形成するオープンソースの画像生成モデルだ。

2023年12月、Stable Zero123 モデルがリリースされ、3D 画像を構築するための新機能が提供された。当時、Stability AI の創設者兼 CEO、Emad Mostaque(エマド・モスタク)氏は VentureBeat に対し、Stable Zero123は一連の3D モデルの最初のものになるだろうと語っていた。

SV3D 技術は、Stable Zero123とは異なるアプローチで3D 生成に取り組んでいる。

「Stable Video 3Dは、私たちの以前の提供物である Stable Zero123の後継であり、改良版と見なすことができます。Stable Video 3D は、1枚の画像を入力として受け取り、新しいビューの画像を出力する新規ビュー合成ネットワークです」(Jampani 氏)。

Jampani 氏は、Stable Zero123は Stable Diffusion に基づいており、一度に1枚の画像を出力すると説明した。Stable Video 3D は Stable Video Diffusion モデルに基づいており、複数の新規ビューを同時に出力する。Stable Video 3D は、はるかに高品質の新規ビューを提供するため、単一の画像からより良い3D メッシュを生成するのに役立つ。

任意の角度から一貫したビュー

研究論文では、Stability AI の研究者が、潜在的な動画拡散を用いて単一の画像から3D を可能にするために使用したいくつかの手法を詳しく説明している。

報告書には次のように書かれている。

「3D 生成に関する最近の研究では、新規ビュー合成(NVS)と3D 最適化のために2D 生成モデルを適応させる手法が提案されています。しかし、これらの手法は、限られたビューまたは一貫性のない NVS のいずれかが原因で、3D オブジェクト生成のパフォーマンスに影響を与えるといういくつかの欠点があります」。

SV3D の主な強みの1つは、物体の一貫した新規マルチビュー画像を生成する能力にある。Stability AI によると、SV3D は任意の角度から一貫したビューを提供できるという。

SV3D に関する研究論文では、この進歩について次のように強調している。

「…限られた視点と出力の不整合に悩まされることが多い以前のアプローチとは異なり、Stable Video 3D は、熟練した一般化により、任意の角度から一貫したビューを提供できます」。

SV3D は、新規ビュー合成機能に加えて、3D メッシュの最適化も目指している。SV3D は、マルチビューの一貫性を利用することで、生成した新規ビューから直接、高品質の3D メッシュを生成できる。

「Stable Video 3D は、そのマルチビューの一貫性を活用して、3D Neural Radiance Fields(NeRF)とメッシュ表現を最適化し、新規ビューから直接生成される3D メッシュの品質を向上させます」と、Stability AI はアナウンス記事で述べている。

2つの強力なバリエーション:SV3D_u と SV3D_p

SV3D には2つのバリエーションがあり、それぞれ特定のユースケースのために設計されている。

SV3D_u は、カメラの条件付けを必要とせずに、単一の画像入力に基づいてオービタル動画を生成する。生成 AI におけるカメラの条件付けとは、多くの場合、カメラの視点やポジションに関連する画像またはパラメータのセットの形で追加の入力を使用して、新しい画像やコンテンツの生成プロセスを導くテクニックを指す。

一方、SV3D_p は、この機能を拡張し、単一の画像とオービタルビューの両方に対応し、ユーザーが指定したカメラパスに沿って3D ビデオを作成できるようにしている。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する