今度はAIが「テキストからビデオ」制作、Metaが公表したMake-a-Videoは次世代ジェネレーティブAIの進化を示す

MetaのCEOであるマーク・ザッカーバーグ氏は今朝、自分のFacebookページにユーザーが記述した「テディベアが自画像を描いている」といったようなテキストを短くて高品質、かつ唯一無二のビデオクリップに変換できる新たなAIシステム「Make-A-Video」を公表した。

DALL-Eのように思えるだろうか？プレスリリースによると、Make-A-VideoはAI画像生成技術（今年初めに示されたMetaのMake-A-Scene）に基づいて構築されている。これは教師なし学習のレイヤーを追加することで物理世界の動きを理解し、それを従来のテキストから画像への生成に応用することが可能になった、というものである。ザッカーバーグ氏は次ように投稿でコメントしている。

「これはかなり驚くべき進歩です。システムは各ピクセルを正しく生成するだけでなく、それらが時間の経過とともにどのように変化するかを予測する必要があるため、写真よりもビデオを生成する方がはるかに困難だからです」。

DALL-Eの1年後

オリジナルのDALL-Eが2021年1月に発表されてからわずか1年しか経っていないとは信じがたい。ユーザーが自然なテキスト記述からリアルな画像やアートを作成できるDALL-E2、Midjourney、Stable Diffusion、そしてそれ以外の大規模な生成モデルの登場によって、2022年はテキストから画像への革命の年になるようだ。

MetaのMake A VideoはAIを利用して想像力をビデオに変換する（動画は原文にて）

Metaの新しいMake-A-Videoは「ジェネレーティブAI」の次のステップとして、テキストからビデオへの変換が主流になることを示しているのだろうか？

今年のテキストから画像への進化のスピードを考えるとあり得なくはない。例えばMidjourneyは、Colorado State Fairのアートコンペティションで優勝したことで論争を巻き起こしている。数週間前、ビデオ編集ソフトウェア会社のRunwayは、やはりこちらも書かれた説明のテキストからビデオを編集する、AIを利用したWebベースのビデオエディタの新機能を紹介するプロモーションビデオを公開している。

今日、ソーシャルメディア広告やビデオブログ、説明ビデオまで、すべてのチャネルでビデオコンテンツが必要とされているため、テキストから画像へのオプションと同じレベルで可能な「テキストからビデオ」という自動生成への需要が高まっている。Metaは、Make-A-Videoにおける研究論文において、「空間的・時間的な革命、テキストへの忠実さ、品質、すべての側面において、定性的・定量的な尺度から判断して、テキストからビデオへの生成における最先端の結果を発表できた」と言及しており、この研究結果に自信を持っているようだ。

【via VentureBeat】 @VentureBeat

【原文】