Stability AI、最新小型LLM「Stable LM 2 1.6B」を公開——ハードウェア要件を下げ、開発者の利用増に期待

「Stable LM 2 1.6B」と他の LLM とのベンチマーク比較
Image credit: MT-Bench

大規模言語モデル（LLM）に関しては、モデルの実行可能な場所に影響するため、サイズは確かに重要である。

安定した拡散テキストから画像への生成 AI 技術でおそらく最もよく知られているベンダーである Stability AI は19日、「Stable LM 2 1.6B」を発表し、これまでで最小のモデルの1つをリリースした。「Stable LM」は、Stability AI が2023年4月に初めて発表したテキストコンテンツ生成 LLM で、30億と70億のパラメータを持つモデルだ。新しい StableLM モデルは、Stability AI が2024年に発表した2番目のモデルであり、今週初めに発表された Stable Code 3B に続くものである。

コンパクトでありながらパワフルな Stable LM の新モデルは、英語、スペイン語、ドイツ語、イタリア語、フランス語、ポルトガル語、オランダ語の7言語の多言語データを組み込んだジェネレーティブ AI のエコシステムに、障壁を下げ、より多くの開発者が参加できるようにすることを目的としている。このモデルは、言語モデリングにおける最近のアルゴリズムの進歩を利用し、Stability AI が望むスピードとパフォーマンスの最適なバランスを実現している。

Stability AI の言語チーム責任者である Carlos Riquelme 氏は VentureBeat に次のように語った。

一般的に、同じようなデータを同じようなトレーニングレシピでトレーニングした大きなモデルの方が、小さなモデルよりも良い結果を出す傾向があります。しかし、時間が経つにつれて、新しいモデルがより良いアルゴリズムを実装するようになり、より多くの、より質の高いデータで訓練されるようになると、我々は時々、最近の小さなモデルが古い大きなモデルを凌駕するのを目撃します。

なぜ Stable LM では（今回は）小さい方が良いのか？

Stability AI によると、このモデルは、Microsoft の「Phi-2（2.7B）」「TinyLlama 1.1B」「Falcon 1B」など、ほとんどのベンチマークでパラメータ20億以下の他の小規模言語モデルを上回っている。

新しい小規模の Stable LM は、Stability AI が以前開発した Stable LM 3B モデルを含む、いくつかの大型モデルを凌ぐことさえできる。

Stable LM 2 1.6B は、数カ月前に訓練されたいくつかの大規模モデルよりも優れた性能を発揮しています。コンピュータやテレビ、マイクロチップについて考えてみると、だいたい同じような傾向が見られます。（Riquelme 氏）

はっきり言って、より小規模の Stable LM 2 1.6B には、その大きさ故の欠点もある。小規模で低容量の言語モデルの性質上、Stable LM 2 1.6B も同様に、高い幻覚率や潜在的な毒性言語といった一般的な問題を引き起こす可能性がある。

透明性とより多くのデータが新モデルリリースの核心

より小型でより強力な LLM のオプションは、Stability AI がここ数カ月取り組んできたものだ。

2023年12月、StableLM Zephyr 3B モデルがリリースされ、4月にリリースされた初期モデルよりも小型化され、StableLM にさらなるパフォーマンスを提供した。

Riquelme 氏は、新しい Stable LM 2モデルは、英語に加えて6カ国語（スペイン語、ドイツ語、イタリア語、フランス語、ポルトガル語、オランダ語）の多言語文書を含む、より多くのデータでトレーニングされていると説明した。Riquelme 氏が強調したもう一つの興味深い点は、トレーニング中にデータをモデルに見せる順番である。彼は、異なるトレーニング段階で異なるタイプのデータに集中することが有益である可能性があると指摘した。

さらに一歩踏み込んで、Stability AI は新しいモデルを、事前訓練と微調整されたオプション、そして研究者が「事前訓練のクールダウン前の最後のモデルのチェックポイント」と表現するフォーマットで利用できるようにしている。

私たちの目標は、個々の開発者が現在のモデルを革新し、変換し、その上に構築するために、より多くのツールと成果物を提供することです。ここでは、人々が遊べるように、具体的な半調理されたモデルを提供しています。（Riquelme 氏）

Riquelme 氏の説明によれば、トレーニングの間、モデルは順次更新され、性能は向上していく。そのシナリオでは、一番最初のモデルは何も知らないが、最後のモデルはデータのほとんどの側面を消費し、うまくいけば学習している。同時に Riquelme 氏は、学習が終わりに近づくにつれ、モデルの柔軟性が失われる可能性があると言う。