Stability AI、最小限のデータで学習させた大規模言語モデル(LLM)「FreeWilly」を公開

SHARE:
Image credit: Stability AI

新しい大規模言語モデル(LLM)が登場した。「FreeWilly1」と「FreeWilly2」だ。

画像ジェネレーティブ AI「Stable Diffusion」を開発したStability AI が21日に発表した、この2つの新しい LLM は、いずれも Meta のオープンソースモデル「LLaMA」と「LLaMA 2」をベースにしているが、合成データ(アルゴリズムによって生成された、限りなく実際のデータに近い人工データ)を含むまったく新しい小規模なデータセットで訓練されている。

どちらのモデルも、複雑な推論や言語的な機微、法律や数学のような専門的な領域に関する複雑な質問に答えることに長けている。

Stability の子会社である CarperAI は、FreeWilly sを「非商用ライセンス」の下でリリースした。つまり、ビジネス目的で使用することはできず、代わりに AI コミュニティにおける研究の促進とオープンアクセスの促進を目的としている。

Orca より環境に優しい

モデルの名前は、Microsoft の研究者たちによって開発された「Orca」と呼ばれる AI のトレーニング手法をもじったもので、より小さなモデル(さらされたデータ量がより限定的)が、より巨大なデータセットにさらされた大規模基礎モデルの性能を達成することを可能にする(これは、Microsoftの 研究者たちによって開発されたAIの学習方法である)。

具体的には、FreeWilly1 と FreeWilly2 は、オリジナルの Orca データセットのわずか10%である60万のデータポイントで、(機械学習エンジニアの)Enrico Shippole 氏によって作成された4つのデータセットのインストラクションを使用して学習した。これは、オリジナルの Orca モデルやほとんどの主要な LLM よりもはるかに低コストで、はるかに環境に優しい(より少ないエネルギーとカーボンフットプリントを使用)ことを意味する。このモデルは、GPT-3.5 上で ChatGPT に匹敵し、場合によってはそれを上回るという、傑出した性能を発揮した。

合成データでのトレーニングが有望

LLM の普及に伴ってひとつの問題が浮上した。LLM を使ってより多くのコンテンツが生成され、将来これらのモデルが更新され、その AI が生成したコンテンツ/データで将来のモデルが学習された場合、どうなるのだろうか。

オープンアクセス論文では、AI が生成したデータで学習させた LLM が、人間が生成したデータで学習させた LLM よりも性能が劣るという「モデル崩壊」のプロセスについて述べられている。

しかし、FreeWillys をトレーニングする際、Stability AI は他の2つの LLM を使って、それぞれ50万例と10万例の合成例を生成した。

安定性 AI で未来へ泳ぐ

Stability AI は、これらのモデルがオープンアクセス LLM の分野で新たな基準を設定し、自然言語理解を強化し、複雑なタスクを可能にすることを想定している。

私たちは、これらのモデルが AI コミュニティに無限の可能性をもたらし、新たなアプリケーションにインスピレーションを与えることに興奮しています。(Stability AI のチーム)

彼らは、このマイルストーンを可能にした研究者、エンジニア、協力者の献身に感謝の意を表した。

研究者や開発者は FreeWilly2 の重みをそのまま利用することができ、FreeWilly1 の重みはオリジナルモデルとの差分として公開されている。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する