欧州でシード最高額を調達したMistral AI、同社初のLLM「Mistral 7B」を公開——Meta「Llama 2 13B」の性能を上回る

Mistral AI のチーム
Image credit: Mistral AI

ユニークなワードアートのロゴと、ヨーロッパ史上最高額と言われる1億1,800万米ドルのシードラウンドで話題となった、パリを拠点とする創業6ヶ月のスタートアップ Mistral AI は9月27日、初の大規模言語 AI モデル（LLM）「Mistral 7B」をリリースした。

73億のパラメータを持つこのモデルは、Meta の「Llama 2 13B」（Metaの新型モデルの中では小型の部類に入る）など大規模製品を凌駕しており、（現在までのところ）このサイズとしては最も強力な言語モデルだと言われている。

英語のタスクを処理すると同時に、自然なコーディング機能も提供できるため、企業中心の複数のユースケースに対応できる別の選択肢となる。

Mistral AI は、この新しいモデルを Apache 2.0 ライセンスの下でオープンソース化しており、誰でも（ローカルからクラウドまで）制限なく、企業のケースを含め、どこでも微調整して使用することができると述べている。

Mistral 7B

今年初めに Google 傘下の DeepMind と Metaの卒業生によって設立された Mistral AI は、一般に公開されているデータと顧客から提供されたデータのみを利用することで、企業のために AI を有用なものにすることを使命としている。

現在、Mistral 7B のリリースにより、低レイテンシーのテキスト要約、分類、テキスト補完、コード補完が可能な小型モデルをチームに提供している。

このモデルは発表されたばかりだが、Mistral AI はすでにオープンソースの競合製品よりも優れていると主張している。様々なタスクをカバーするベンチマークにおいて、このモデルは Llama 2 7Bと13B をいとも簡単に凌駕していることがわかった。

例えば、数学、米国史、コンピュータサイエンス、法律など57の科目をカバーする「MMLU（Massive Multitask Language Understanding）」テストでは、新モデルは60.1％の精度を示したが、Llama 2の7B は44％強、13B は55％強だった。

同様に、常識的推論と読解をカバーするテストでは、Mistral 7B が69％、64％の精度で2つの Llama モデルを上回った。Llama 2 13B がMistral 7B に匹敵したのは世界知識のテストだけで、これはモデルのパラメータ数が限られているため、圧縮できる知識の量が制限されているためではないかと Mistral は主張している。

すべての指標について、正確な比較のために、すべてのモデルを我々の評価パイプラインで再評価した。Mistral 7Bは、すべての指標で Llama 13B を大きく上回り、Llama 2 34Bと（多くのベンチマークで）同等です。（Mistral AI のブログ投稿）

コーディングタスクに関しては、Mistral AI は新モデルを圧倒的に優れていると称しているが、ベンチマーク結果によれば、ファインチューニングされた「CodeLlama 7B」を上回ることはまだない。Meta モデルは、0ショットの Humaneval テストと3ショットの MBPP（手作業で検証されたサブセット）テストにおいて、それぞれ31.1%と52.5%の精度を示したが、Mistral 7B はそれぞれ30.5%と47.5%の精度で僅差で続いた。

高業績の小型モデルはビジネスに利益をもたらす可能性がある

これはまだ始まったばかりだが、Mistral AI が示したさまざまなタスクで高いパフォーマンスを発揮する小型モデルのデモンストレーションは、企業にとって大きなメリットをもたらす可能性がある。

例えば、MMLU では、Mistral 7B は、その3倍以上のサイズ（230億のパラメータ）となる Llama 2の性能を発揮する。これは、最終的な出力に影響を与えることなく、直接的にメモリを節約し、コスト面でもメリットがある。

同社によれば、グループ化されたクエリーアテンション（GQA）を使用することでより高速な推論を実現し、スライディングウィンドウアテンション（SWA）を使用することでより小さなコストでより長いシーケンスを処理できるという。

Mistral 7B はスライディングウィンドウアテンション（SWA）メカニズムを採用しており、各層は前の4,096個の隠れ状態にアテンションします。主な改善点、そしてこれが最初に研究された理由は、O（sliding_window.seq_len）という線形計算コストです。実際には、FlashAttention と xFormers に加えられた変更により、4kのウィンドウで16kのシーケンス長で2倍の速度改善が得られました。（Mistral AI）

同社は、より優れた推論と多言語対応が可能な大規模モデルを2024年にリリースする予定だ。

今のところ、Mistral 7B は、同社のリファレンス実装、推論サーバ「vLLM」、Skypilot を使用して、（ローカルから AWS、GCP、Azure クラウドまで）どこにでもデプロイできる。

【via VentureBeat】 @VentureBeat

【原文】