Meta、文言から画像を生成する新ジェネレーティブAI「CM3leon（カメレオン）」を発表 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Meta は、新しい形のジェネレーティブ AI モデルの研究を推進し続けており、14日に「CM3leon（カメレオン）」として知られる最新の取り組みを発表した。

CM3leon は、テキストから画像、画像からテキストを作成するためのマルチモーダルな基礎モデルで、画像のキャプションを自動生成するのに便利だ。

最近のテキストから画像への変換技術は、拡散モデル（拡散＝diffusion、Stable Diffusionの名前の由来）を使って画像を生成している。CM3leon は、トークンベースの自己回帰モデルという異なるものを使っている。

Metaは「Scaling Autoregressive Multi-Modal Models」と題した研究論文に次のように書いている。

拡散モデルは、その強力な性能と比較的控えめな計算コストのために、最近、画像生成の仕事を支配しています。これとは対照的に、トークンベースの自己回帰モデルは、特に大域的な画像のコヒーレンスをさらに向上させるなど、強力な結果をもたらすことが知られているが、学習や推論に使用するにははるかにコストがかかる。

Meta の研究者たちが CM3leon でできたことは、トークンベースの自己回帰モデルが、拡散モデルベースのアプローチよりも効率的であることを実証したことだ。

CM3leon は、従来の Transformer ベースの方法よりも5倍少ない計算量で学習されるにもかかわらず、テキストから画像への生成で最先端の性能を達成した。（Meta のブログ投稿）

Meta のイメージトレーニングに対する倫理的アプローチ

CM3leon がどのように機能するかの基本的なアウトラインは、既存のテキスト生成モデルがどのように機能するかにやや似ている。

Meta の研究者たちは、検索で補強された事前学習段階から始めた。インターネットから一般に公開されている画像をただかき集めるのではなく、拡散ベースのモデルにとって法的な問題を引き起こしたこの方法で、Meta は別の道を歩んだ。

テキストから画像への変換の領域における画像データのソーシングの倫理的な意味合いは、かなり議論の的となっている。本研究では、Shutterstock のライセンス画像のみを使用する。その結果、パフォーマンスを犠牲にすることなく、画像の所有権や帰属に関する懸念を回避することができる。（Meta の研究論文）

事前トレーニングの後、CM3leon モデルは教師あり微調整（SFT）段階を経て、リソースの使用率と画質の両面で、高度に最適化された結果が得られると Meta の研究者は主張している。SFT は OpenAI が「ChatGPT」の訓練に使用しているアプローチだ。Meta は研究論文の中で、SFT は複雑なプロンプトを理解するモデルを訓練するために使用され、これは生成タスクに有用であると述べている。

我々は、画像キャプション生成、視覚的質問応答、テキストベースの編集、条件付き画像生成などの様々なタスクにおいて、命令チューニングがマルチモーダルモデルのパフォーマンスを顕著に増幅することを発見した。（Meta の研究論文）

Meta が CM3leon に関するブログ記事で紹介している生成画像のサンプルセットを見ると、その結果は印象的で、このモデルが複雑で多段階のプロンプトを理解し、結果として非常に高解像度の画像を生成する能力を明らかに示している。

現在、CM3leon は研究的な取り組みであり、Meta がこの技術をいつ、あるいは自社のプラットフォーム上のサービスとして一般に公開するかは明らかではない。CM3leon の強力さと生成効率の高さを考えると、CMleon とそのジェネレーティブ AI へのアプローチが（いずれは）研究の域を超える可能性は高いと思われる。

【via VentureBeat】 @VentureBeat

【原文】