元Google DeepMind研究者らが創業、英Haiperが新たな動画生成AIを公開 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

AI が生成するコンテンツが人気を集め続けるなか、そのための技術を開発するスタートアップは、製品のレベルを引き上げつつある。つい2週間ほど前、RunwayML が動画生成のための、より現実的な新しいモデルを公開した。現在、ロンドンを拠点とする Haiper は、Google Deepmind の元研究者 Yishu Miao 氏と Ziyu Wang 氏によって設立された AI 動画スタートアップで、新しい映像基盤モデル「Haiper 1.5」を発表した。

同社の web とモバイルプラットフォームで利用可能な Haiper 1.5は、インクリメンタルアップデートで、ユーザはテキスト、画像、動画のプロンプトから8秒のクリップを生成できる。

同社はまた、ユーザがコンテンツの品質を高めることを可能にする新しいアップスケーラー機能と、画像生成に乗り出す計画も発表した。

今回の動きは、Haiper がステルス状態から脱出してわずか4ヶ月後のことである。同社はまだ発展途上の段階にあり、他の AI スタートアップほど多額の資金を調達しているわけではないが、同社のプラットフォームには150万人以上のユーザが登録していると主張している。同社は現在、拡張されたAI製品群によってこのユーザベースを拡大し、Runway や同カテゴリーの他社に対抗しようとしている。

同社の CEO でもある Miao 氏は VentureBeat に対して次のように語った。

動画生成 AI における競争は、必ずしもモデルのパワーだけでなく、これらのモデルが何を再現するためにスケーリングされるかにあります。私たちの分散データ処理とスケーリングされたモデルトレーニングは、この目標を念頭に置いて、私たちの強力な基礎モデルのトレーニングと反復を継続することを可能にします。このアップデートが強調しているように、私たちは、より多くの美しい動画やより長い動画を生成するだけでなく、私たちの周りの世界として私たち全員が本当に認識できる画像を再現できるモデルを構築するために、継続的な進歩を遂げています

Haiper の AI 動画プラットフォームは何をもたらすのか？

3月にローンチされた Haiper は、Runway や Pika に続き、社内で訓練された知覚基盤モデルを搭載した動画生成のための包括的なプラットフォームをユーザに提供している。基本的な使い方はいたって簡単で、ユーザが思いつく限りの内容をテキストで入力すると、それに基づいてモデルがコンテンツを生成し、キャラクターやオブジェクト、背景、アーティスティックなスタイルなどの要素を調整するプロンプトが表示される。

当初、Haiper はテキストプロンプトを処理したり、既存の画像を2～4秒のクリップにアニメーション化したりしていた。しかし、コンテンツの長さは、より幅広いユースケースをターゲットにするには十分ではなかった。現在、最新モデルの発売により、生成する長さを2倍の8秒にすることでこの問題を解決している。

Haiper が生成した8秒間の動画

Luma の新しい Dream Machine モデルのような他の AI 動画ツールに見られるような方法で、以前の2秒や4秒の生成を8秒に延長することもできる。

Miao 氏は声明の中で次のように述べた。

4ヶ月足らず前に発表して以来、私たちの動画生成モデルに対する反響は感動的なものでした。この技術の限界に挑戦し続けるという私たちの目標が、最新の8秒モデルにつながり、プラットフォーム上の動画生成の長さを倍増させました。

しかし、それだけではない。

もともと Haiper は2秒の高画質動画を生成し、それ以上のクリップは標準画質で出力していた。最新のアップデートでは、ユーザが SD または HD 画質で任意の長さのクリップを生成できるようになった。

また、既存のワークフローを邪魔することなく、ワンクリックですべての動画生成を1,080p に強化できるアップスケーラーも統合されている。このツールは、ユーザがすでに持っている画像や動画でも機能する。ユーザはそれらをアップスケーラーにアップロードするだけで、画質を向上させることができる。

アップスケーラーに加え、Haiper は新しい画像モデルをプラットフォームに追加する。これにより、ユーザはテキストプロンプトから画像を生成し、それを text-to-video でアニメーション化することで、完璧な動画結果を得ることができるようになる。Haiper によると、動画生成パイプラインに画像生成を連携することで、ユーザはアニメーションの段階に進む前に、コンテンツのテスト、レビュー、手直しができるようになるという。

Haiper では、ただ単に反復するのではなく、ユーザのアイデアに耳を傾け、それを実現したいと考えています。新しいアップスケーラーと Text2Image ツールのデビューは、私たちがコミュニティのための動画生成 AI プラットフォームであり、ユーザと関わり、ユーザのために積極的に改善していることの証です。（Miao 氏）

世界の認識で AGI（汎用 AI）を構築

Haiper 社の新モデルとアップデートは、特に同社が共有したサンプルを見る限り有望に見えるが、より広いコミュニティによるテストはまだ行われていない。VentureBeat が同社のウェブサイトでツールにアクセスしようとしたところ、画像モデルは利用できず、8秒間のジェネレーションとアップスケーラーは24米ドル／月（年払い）の Pro プランに加入している人だけに制限されていた。

Miao 氏によると、同社はクレジットシステムを含むいくつかの方法で8秒動画をより広く利用できるようにする予定であり、画像モデルは今月末に無料でデビューする予定である。

画質に関しては、このプラットフォームからの2秒動画は、まだ当たり外れがある長い動画よりも安定しているように見える。私たちが作成した4秒の動画は、特に動きの多いコンテンツの場合、被写体やオブジェクトの詳細が欠けて（あるいは使いすぎて）ぼやけることがあった。

しかし、これらのアップデートと今後予定されているアップデートにより、Haiper の世代の品質は向上すると予想される。同社は、知覚基盤モデルの世界理解を強化し、光、動き、テクスチャ、オブジェクト間の相互作用など、ごくわずかな視覚的側面をカバーする、現実の感情的・物理的要素を再現できる AGI（汎用 AI）を基本的に作成し、実生活に忠実なコンテンツを作成する計画だという。

Miao 氏は次のように説明する。

動画の各フレームには、微細な視覚情報の配列が含まれています…… AI が現実に忠実な視覚的に美しいコンテンツを作成するためには、世界とその背後にある物理学に対する固有の理解が必要となります。映像コンテンツにおけるこのような複雑性を理解、解釈、生成できる AI は、AGI に一歩近づく深い知識と知覚能力を持つことになります。このような能力を持つモデルは、コンテンツ制作やストーリーテリングを超越し、ロボット工学や輸送などの分野で広範囲に応用できる可能性があります。

同社がこの方向性をどのように構築し、Runway、Pika、OpenAI のようなライバルに挑むのか、興味深い。

【via VentureBeat】 @VentureBeat

【原文】