欧州でシード最高額を調達したMistral AI、同社初のLLM「Mistral 7B」を公開——Meta「Llama 2 13B」の性能を上回る

SHARE:
Mistral AI のチーム
Image credit: Mistral AI

ユニークなワードアートのロゴと、ヨーロッパ史上最高額と言われる1億1,800万米ドルのシードラウンドで話題となった、パリを拠点とする創業6ヶ月のスタートアップ Mistral AI は9月27日、初の大規模言語 AI モデル(LLM)「Mistral 7B」をリリースした。

73億のパラメータを持つこのモデルは、Meta の「Llama 2 13B」(Metaの新型モデルの中では小型の部類に入る)など大規模製品を凌駕しており、(現在までのところ)このサイズとしては最も強力な言語モデルだと言われている。

英語のタスクを処理すると同時に、自然なコーディング機能も提供できるため、企業中心の複数のユースケースに対応できる別の選択肢となる。

Mistral AI は、この新しいモデルを Apache 2.0 ライセンスの下でオープンソース化しており、誰でも(ローカルからクラウドまで)制限なく、企業のケースを含め、どこでも微調整して使用することができると述べている。

Mistral 7B

今年初めに Google 傘下の DeepMind と Metaの 卒業生によって設立された Mistral AI は、一般に公開されているデータと顧客から提供されたデータのみを利用することで、企業のために AI を有用なものにすることを使命としている。

現在、Mistral 7B のリリースにより、低レイテンシーのテキスト要約、分類、テキスト補完、コード補完が可能な小型モデルをチームに提供している。

このモデルは発表されたばかりだが、Mistral AI はすでにオープンソースの競合製品よりも優れていると主張している。様々なタスクをカバーするベンチマークにおいて、このモデルは Llama 2 7Bと13B をいとも簡単に凌駕していることがわかった。

例えば、数学、米国史、コンピュータサイエンス、法律など57の科目をカバーする「MMLU(Massive Multitask Language Understanding)」テストでは、新モデルは60.1%の精度を示したが、Llama 2の7B は44%強、13B は55%強だった。

同様に、常識的推論と読解をカバーするテストでは、Mistral 7B が69%、64%の精度で2つの Llama モデルを上回った。Llama 2 13B がMistral 7B に匹敵したのは世界知識のテストだけで、これはモデルのパラメータ数が限られているため、圧縮できる知識の量が制限されているためではないかと Mistral は主張している。

すべての指標について、正確な比較のために、すべてのモデルを我々の評価パイプラインで再評価した。Mistral 7Bは、すべての指標で Llama 13B を大きく上回り、Llama 2 34Bと(多くのベンチマークで)同等です。(Mistral AI のブログ投稿

Mistral 7B と LLaMA の比較(1)
Mistral 7B と LLaMA の比較(2)

コーディングタスクに関しては、Mistral AI は新モデルを圧倒的に優れていると称しているが、ベンチマーク結果によれば、ファインチューニングされた「CodeLlama 7B」を上回ることはまだない。Meta モデルは、0ショットの Humaneval テストと3ショットの MBPP(手作業で検証されたサブセット)テストにおいて、それぞれ31.1%と52.5%の精度を示したが、Mistral 7B はそれぞれ30.5%と47.5%の精度で僅差で続いた。

高業績の小型モデルはビジネスに利益をもたらす可能性がある

これはまだ始まったばかりだが、Mistral AI が示したさまざまなタスクで高いパフォーマンスを発揮する小型モデルのデモンストレーションは、企業にとって大きなメリットをもたらす可能性がある。

例えば、MMLU では、Mistral 7B は、その3倍以上のサイズ(230億のパラメータ)となる Llama 2の性能を発揮する。これは、最終的な出力に影響を与えることなく、直接的にメモリを節約し、コスト面でもメリットがある。

同社によれば、グループ化されたクエリーアテンション(GQA)を使用することでより高速な推論を実現し、スライディングウィンドウアテンション(SWA)を使用することでより小さなコストでより長いシーケンスを処理できるという。

Mistral 7B はスライディングウィンドウアテンション(SWA)メカニズムを採用しており、各層は前の4,096個の隠れ状態にアテンションします。主な改善点、そしてこれが最初に研究された理由は、O(sliding_window.seq_len)という線形計算コストです。実際には、FlashAttention と xFormers に加えられた変更により、4kのウィンドウで16kのシーケンス長で2倍の速度改善が得られました。(Mistral AI)

同社は、より優れた推論と多言語対応が可能な大規模モデルを2024年にリリースする予定だ。

今のところ、Mistral 7B は、同社のリファレンス実装推論サーバ「vLLM」Skypilot を使用して、(ローカルから AWS、GCP、Azure クラウドまで)どこにでもデプロイできる。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する