Meta、画像から高レベルの抽象化を学ぶ機械学習モデル「I-JEPA」をリリース - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Meta のチーフ AI サイエンティスト Yann LuCan 氏
Image credit: Meta

Meta のチーフ AI サイエンティスト Yann LeCun 氏は、数年前から、人間の助けをほとんど借りずに世界のモデルを学習できるディープラーニングシステムについて話してきた。現在、そのビジョンは徐々に実現しつつあり、Metaは、画像に対する自己教師あり学習を通じて世界の抽象的な表現を学習する機械学習（ML）モデル「I-JEPA」最初のバージョンをリリースした。

初期テストでは、I-JEPA が多くのコンピュータビジョンタスクで高い性能を発揮することが示された。また、他の最先端モデルよりもはるかに効率的で、トレーニングに必要な計算資源は10分の1である。Metaは、トレーニングコードとモデルをオープンソース化し、来週開催されるCVPR（Computer Vision and Pattern Recognition）で I-JEPA を発表する予定だ。

自己教師あり学習（Self-Supervised Learning）

自己教師あり学習（Self-Supervised Learning）の考え方は、人間や動物が学習する方法にヒントを得ている。私たちは、世界を観察するだけで、多くの知識を得ることができる。同様に、AI システムも、人間が訓練データにラベルを付けることなく、観察を通して学習できるようになるはずだ。

自己教師あり学習は、生成モデルや大規模言語モデル（LLM）など、AIの一部の分野で大きな広がりを見せている。2022年、LeCun 氏は世界のモデルや常識などの重要な知識を学習できる自己教師ありモデル「joint predictive embedding architecture（JEPA）」を提案した。JEPA は、他の自己教師ありモデルと重要な点が異なっている。

DALL-E や GPT のような生成モデルは、きめ細かい予測をするように設計されている。例えば、学習中にテキストや画像の一部が見えなくなると、モデルは正確に欠けている単語や画素を予測しようとする。しかし、すべての情報を埋めようとすると、世界は予測不可能であり、モデルは多くの可能性のある結果の中で行き詰まることが多いという問題が存在する。そのため、手のような詳細なオブジェクトを作成する際に、生成モデルが失敗することがよくあるのだ。

一方、JEPA では、ピクセルレベルの詳細ではなく、シーンに何が含まれていなければならないか、オブジェクトが互いにどのように関連しているかといった高レベルの抽象的な情報を学習し予測しようとするものである。このアプローチにより、環境の潜在的な空間を学習するため、モデルのエラーは少なくなり、コストも大幅に削減される。

Meta の研究者は次のように書いた。

画素値を直接予測するのではなく、抽象度の高い表現を予測することで、生成的アプローチの限界を回避しつつ、直接的に有用な表現を学習することが期待されます。

I-JEPA

I-JEPA は、LeCun 氏の提案するアーキテクチャを画像ベースで実装したものである。I-JEPA は、「不要なピクセルレベルの詳細が潜在的に排除され、それによってモデルがより多くの意味的特徴を学習するように導く抽象的な予測対象」を用いて、欠落情報を予測する。

I-JEPA は、LLM で使用されている変換器アーキテクチャを画像処理用に改良したビジョン変換器（ViT=Vision Transformer）を用いて、既存の情報を符号化する。そして、この情報をコンテキストとして、欠損部分の意味表現を生成する予測器 ViT に渡す。

Meta の研究者らは、I-JEPA が予測した意味データからスケッチを作成する生成モデルを学習させた。以下の画像では、I-JEPA に青枠の外の画素をコンテキストとして与え、青枠の中のコンテンツを予測した。そして、生成モデルは、I-JEPA の予測した内容をスケッチとして作成した。その結果、I-JEPA の抽象化がシーンの実態に合致していることがわかった。

I-JEPA は写実的な画像を生成することはできないが、ロボット工学や自動運転車など、AIエージェントが環境を理解し、いくつかの非常にもっともらしい結果を処理することが求められる分野では、多くの応用が期待される。

非常に効率の良いモデル

I-JEPA の明らかな利点は、そのメモリと計算の効率性である。事前学習段階では、他のタイプの自己教師あり学習手法で用いられるような、計算量の多いデータ増強技術は必要ない。研究者たちは、A100 GPUを16台使って6億3,200万パラメータのモデルを72時間以内に学習させることができるが、これは他の手法の10分の1程度だ。

Meta の研究者らは、次のようにブログに書いた。

経験的に、I-JEPA は、手作業で作られた表示拡張を使用することなく、既製の強力な意味表現を学習することがわかりました。

また、I-JEPA は、分類、オブジェクトカウント、深度予測などのコンピュータビジョンのタスクにおいて、他の最先端モデルを凌駕するために必要な微調整が非常に少ないことも実験から判明している。研究チームは、ImageNet-1K 画像分類データセットにおいて、1クラスあたり12～13枚の画像のみを使用し、トレーニングデータの1%でモデルを微調整することができたと述べている。

研究者らは、次のように書いている。

I-JEPA は、よりシンプルなモデルで、より厳格な誘導バイアスを用いないことで、より幅広いタスクに適用できる。

インターネット上のラベルなしデータの利用可能性が高いことを考えると、I-JEPA のようなモデルは、これまで手作業で大量のラベル付きデータを必要としていたアプリケーションにとって、非常に価値のあるものであることがわかる。学習コードと事前学習済みモデルは GitHub で公開されているが、モデルは非商用ライセンスで公開されている状態だ。

【via VentureBeat】 @VentureBeat

【原文】