Meta、最先端マルチモーダルモデル「Chameleon」を発表 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Credit: VentureBeat made with OpenAI DALL-E 3

生成 AI 分野の競争がマルチモーダルモデルへとシフトする中、Meta は frontier labs が発表したモデルに対する答えとなるプレビューを発表した。Meta の新しいモデルファミリー「Chameleon」は、異なるモダリティのコンポーネントを組み合わせるのではなく、ネイティブにマルチモーダルであるように設計されている。

Meta はまだモデルを発表していないが、彼らが報告した実験によると、Chameleon は画像キャプションや視覚的質問応答（VQA）など、さまざまなタスクで最先端の性能を達成し、一方でテキストのみのタスクでは競争力を維持している。

Chameleon のアーキテクチャは、視覚情報とテキスト情報の両方を深く理解する必要がある新しい AI アプリケーションを解き放つことができる。

マルチモーダルモデル「Early Fusion」

マルチモーダル基礎モデルを作成する一般的な方法は、異なるモダリティ用に訓練されたモデルをつなぎ合わせることである。このアプローチは「Late Fusion」と呼ばれ、AI システムが異なるモダリティを受け取り、別々のモデルでそれらをエンコードした後、推論のためにエンコードを融合する。Late Fusion はうまく機能するが、モダリティ間の情報を連携し、インターリーブされた画像やテキストのシーケンスを生成するモデルの能力には限界がある。

Chameleon は「Early Fusion トークンベースのミックスモーダル」アーキテクチャを採用している。これは、画像、テキスト、コード、その他のモダリティを織り交ぜて学習するように一から設計されていることを意味する。Chameleon は、言語モデルが単語を扱うように、画像を個別のトークンに変換する。また、テキスト、コード、画像のトークンからなる統一された語彙を使用する。これにより、画像とテキストの両方のトークンを含むシーケンスに、同じ変換アーキテクチャを適用することが可能になる。

研究者らによると、Chameleonに最も類似したモデルは「Google Gemini」で、同じく Early Fusion トークンベースのアプローチを使用している。しかし、Gemini は生成段階で別々の画像デコーダーを使用するのに対し、Chameleon はトークンの処理と生成の両方を行うエンドツーエンドのモデルである。

研究者の皆さんは次のように書いている。

Chameleon の統一されたトークン空間は、モダリティ固有のコンポーネントを必要とすることなく、インターリーブされた画像とテキストのシーケンスをシームレスに推論し、生成することを可能にする。

Early Fusion は非常に魅力的であるが、モデルの訓練とスケーリングには大きな課題がある。これらの課題を克服するために、研究者らは一連のアーキテクチャの変更とトレーニング技術を採用した。論文では、さまざまな実験とモデルへの影響について詳しく述べている。

Chameleon の学習は2段階で行われ、4.4兆トークンのテキスト、画像とテキストのペア、テキストと画像のインターリーブシーケンスを含むデータセットを使用する。研究者たちは、Nvidia A100 80GB GPU を500万時間以上使用して、Chameleon の70億パラメータと340億パラメータのバージョンをトレーニングした。

Chameleon の動作

論文で報告された実験によると、Chameleon はテキストのみおよびマルチモーダルなタスクの多様なセットを実行できる。視覚的質問応答（VQA）と画像キャプションのベンチマークにおいて、Chameleon-34B は最先端の性能を達成し、Flamingo、IDEFICS、Llava-1.5などのモデルを凌駕している。

研究者によると、Chameleonは、「訓練前と微調整されたモデルの評価の両方において、より少ないコンテキスト内の訓練例と、より小さいモデルサイズ」で、他のモデルの性能に匹敵する。

マルチモダリティのトレードオフの一つは、シングルモダリティの要求における性能低下である。例えば、視覚言語モデルは、テキストのみのプロンプトでは性能が低下する傾向がある。しかし、Chameleon はテキストのみのベンチマークでは競争力を維持しており、「Mixtral 8x7B」や「Gemini-Pro」のようなモデルと、常識的な推論や読解のタスクで一致している。

興味深いことに、Chameleon は、特にプロンプトがテキストと画像を織り交ぜたミックスモーダルな応答を期待する場合、ミックスモーダルな推論と生成のための新しい能力を解き放つことができる。人間が評価した回答を使った実験によると、全体的にユーザは Chameleon が生成したマルチモーダル文書を好んだ。

先週、OpenAI と Google の両社は、リッチなマルチモーダル体験を提供する新しいモデルを明らかにした。しかし、これらのモデルの詳細についてはあまり発表されていない。 Meta がそのプレイブックに従い、Chameleon の重みを公開し続ければ、プライベートモデルに代わるオープンなモデルになるかもしれない。

Early Fusion は、より高度なモデルの研究、特に、より多くのモダリティがミックスに加えられる際の新たな方向性を刺激することもできる。例えば、ロボティクススタートアップはすでに、言語モデルをロボティクスの制御システムに連携する実験を行っている。Early Fusion がロボティクスの基礎モデルをどのように改善するかも興味深い。