仏Mistral AI、新モデル「Mistral Large 2」をローンチ——Meta「Llama 3.1」に迫る性能、コーディング能力も向上

AI 競争がかつてないほど加速している。クローズドソースの「フロンティア」モデルに対する競争力の高い代替品として、オープンソースの新しい「Llama 3.1」を発表した Meta に続き、フランスの AI スタートアップ Mistral もその土俵に上がった。

同スタートアップは、1,230億のパラメータを持つオープンソースのフラッグシップモデルの次世代「Mistral Large 2」を発表した。しかし、重要な注意点として、このモデルはオープンウェイトを含む非商業的な研究用途にのみ「オープン」としてライセンスされており、サードパーティが好みに合わせてファインチューニングできるようになっている。

商用／エンタープライズグレードのアプリケーションに使用する場合は、Mistral から別途ライセンスと使用契約を取得する必要があると、同社はブログ投稿と研究科学者 Devendra Singh Chaplot 氏の X 投稿で述べている。

Super excited to announce Mistral Large 2
– 123B params – fits on a single H100 node
– Natively Multilingual
– Strong code & reasoning
– SOTA function calling
– Open-weights for non-commercial usage

Blog: https://t.co/5nRrlNH9Sj
Weights: https://t.co/1s94W1NfVR

1/N pic.twitter.com/k2o7FbmYiE

— Devendra Chaplot (@dchaplot) July 24, 2024

Llama 3.1の4,050億と比較すると、パラメータ数（パフォーマンスを導く内部モデル設定）は少ないが、それでも前者のパフォーマンスに近い。

同社のメインプラットフォームとクラウドパートナーを介して利用可能な Mistral Large 2は、オリジナルモデル「Large」をベースに構築され、推論、コード生成、数学のパフォーマンスを向上させ、高度な多言語機能をもたらす。

いくつかのベンチマークで「GPT-4o」「Llama 3.1-405」、Anthropic の「Claude 3.5 Sonnet」とほぼ同等の性能を発揮し、GPT-4 クラスのモデルとして評価されている。

Mistral は、この製品が「コスト効率、速度、性能の限界を押し広げる」一方で、高性能な AI アプリケーションを構築するための高度な関数呼び出しや検索などの新機能をユーザーに提供し続けていると述べている。

しかし、これは Meta や OpenAI が煽る AI のハイプを断ち切るための単発的な動きではないことに注意する必要がある。Mistral はこの領域で積極的に動いており、大規模なラウンドで資金調達し、新しいタスクに特化したモデル（コーディングや数学のモデルを含む）を発表し、業界大手と提携してその範囲を広げている。

「Mistral Large 2」に何を期待するか？

Mistral は2月、32,000トークンのコンテキストウィンドウを持つオリジナルモデル Large を発表し、「文法と文化的コンテキストの微妙な理解」を持ち、英語、フランス語、スペイン語、ドイツ語、イタリア語など、さまざまな言語をネイティブに流暢に推論し、テキストを生成できると主張した。

このモデルの新バージョンは、より大きな128,000のコンテキストウィンドウを備え、OpenAI の GPT-4o と「GPT-4o mini」、Meta の Llama 3.1に匹敵する。

さらに、オリジナル言語だけでなく、ポルトガル語、アラビア語、ヒンディー語、ロシア語、中国語、日本語、韓国語など数十の新しい言語のサポートを誇っている。

Mistral によると、このジェネラリストモデルは、合成テキスト生成、コード生成、RAG（検索拡張生成）など、大規模な推論能力を必要とするタスクや高度に専門化されたタスクに最適だという。

サードパーティベンチマークでの高い性能とコーディング能力の向上

異なる言語をカバーする多言語 MMLU ベンチマークにおいて、Mistral Large 2は Meta の全く新しい Llama 3.1-405B と同等の性能を発揮する一方、サイズが小さいため、より大きなコストメリットを実現した。

Mistral Large 2は、ロングコンテキストのアプリケーションを念頭に置いたシングルノードの推論用に設計されており、1,230億パラメータというサイズにより、シングルノードで大きなスループットで実行することができます。（同社のブログ投稿）

多言語 MMLU ベンチマークテストにおける Mistral Large 2のポジショニング（オレンジ色）

しかし、利点はそれだけではない。

オリジナルモデルの Large はコーディングタスクが苦手だったが、Mistral は最新バージョンを大規模なコードの塊でトレーニングした結果、これを改善したようだ。

新しいモデルは、Python、Java、C、C++、JavaScript、Bash など80以上のプログラミング言語のコードを非常に高い精度で生成できる（MultiPL-E ベンチマークの平均値による）。

コード生成の HumanEval および HumanEval Plusベンチマークでは、Claude 3.5 Sonnet および Claude 3 Opus を上回り、GPT-4oのすぐ後ろに位置している。同様に、数学に特化したベンチマーク（GSM8K と Math Instruct）でも2位を獲得した。

幻覚を最小限に抑え、指示に従うことを重視

企業による AI 導入の高まりを踏まえ、Mistral はまた、応答する際により慎重かつ選択的になるようモデルをファインチューニングすることで、Mistral Larged の幻覚を最小限に抑えることに注力した。答えの裏付けとなる十分な情報がない場合は、その旨をユーザに伝えるだけで、完全な透明性を確保する。

さらに、同社はこのモデルの指示に従う能力を向上させ、ユーザのガイドラインに従い、長い複数ターンの会話に対応できるようにした。さらに、可能な限り簡潔で要領を得た回答を提供するように調整されており、これは企業環境で重宝される。

同社は現在、API エンドポイントプラットフォームや Google Vertex AI、Amazon Bedrock、Azure AI Studio、IBM WatsonX などのクラウドプラットフォームを通じて Mistral Large 2へのアクセスを提供している。ユーザは、同社のチャットボットを使って、実際にどのように動作するかを試すこともできる。

【via VentureBeat】 @VentureBeat

【原文】