Mistral、初のプログラミング特化LLM「Codestral」を発表 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

パリを拠点とする AI スタートアップ Mistral は、1年前にヨーロッパで過去最大のシードラウンドを調達し、それ以来、グローバルな AI 領域で新星となっている。同社は初のコード中心の大規模言語モデル（LLM）「Codestral」を発表し、プログラミングと開発の分野に参入した。

非商用ライセンスで利用可能な「Codestral」は、22B のパラメータを持つオープンウェイトの生成 AI モデルで、生成から完了までのコーディングタスクに特化している。

Mistral によると、このモデルは80以上のプログラミング言語に特化しており、高度な AI アプリケーションを設計しようとするソフトウェア開発者にとって理想的なツールとなっている。

同社は、Codestral はすでに「CodeLlama 70B」や「Deepseek Coder 33B」など、コーディング作業用に設計された以前のモデルを凌駕しており、JetBrains、SourceGraph、LlamaIndex など複数の業界パートナーによって活用されているとしている。

あらゆるコーディングのためのパフォーマンスモデル

Codestral 22B は、32K のコンテキスト長を持ち、様々なコーディング環境やプロジェクトでコードを記述し、対話する能力を開発者に提供する。

このモデルは 80 以上のプログラミング言語のデータセットで学習されているため、ゼロからのコード生成、コーディング関数の完成、テストの記述、フィルインザミドル機構を使用した部分的なコードの完成など、多様なコーディング作業に適している。Codestral がカバーするプログラミング言語には、SQL、Python、Java、C、C++ といった一般的なものから、Swift や Fortran といった特殊なものまで含まれる。

Mistral によれば、Codestral は開発者の「コーディングゲームのレベルアップ」を支援し、ワークフローを加速させ、アプリケーションを構築する際の時間と労力を大幅に節約できるという。言うまでもなく、エラーやバグのリスクを減らすこともできる。

このモデルはローンチされたばかりで、まだ公にテストされていないが、Mistral は、ほとんどのプログラミング言語において、「CodeLlama 70B」「Deepseek Coder 33B」「Llama 3 70B」など既存のコード中心モデルをすでに上回っていると主張している。

異なるプログラミング言語間の HumanEval における Codestral のパフォーマンス

ロングレンジ・リポジトリレベルの Python コード補完を評価するために設計された RepoBench では、Codestral は34％の精度スコアで 3 つのモデルすべてを上回った。同様に、Python コード生成を評価する HumanEval と Python 出力予測をテストする CruxEval では、それぞれ81.1％と51.3％のスコアで競合モデルを上回った。さらに、Bash、Java、PHP の HumanEval のモデルも上回った。

特筆すべきは、C++、C、Typescript の HumanEval でのこのモデルのパフォーマンスで、ベストではありませんでしたが、すべてのテストを合計した平均スコアは61.5％と最も高く、Llama 3 70B の61.2％をわずかに上回った。SQL パフォーマンスの Spider 評価では、63.5％のスコアで2位だった。

開発者の生産性と AI アプリケーション開発のためのいくつかの人気ツールは、すでに Codestral のテストを開始している。これには、LlamaIndex、LangChain、Continue.dev、Tabnine、JetBrains などの大手が含まれる。

LangChain の CEO 兼共同設立者 Harrison Chase 氏は声明の中で次のように述べた。

私たちの最初のテストでは、高速で、有利なコンテキストウィンドウがあり、インストラクターバージョンはツールの使用をサポートしているため、コード生成ワークフローに最適な選択肢です。私たちは LangGraph を使って、出力に instruct Codestral ツールを使った自己修正コード生成をテストしました。

Codestral を始めるには

Mistral は Hugging Face 上で Codestral 22B を独自のノンプロダクションライセンスで提供しており、開発者はこの技術を非商用目的、テスト、研究支援に使用することができる。

同社はまた、codestral.mistral.ai と api.mistral.ai の 2 つの API エンドポイントを通じてモデルを利用できるようにしている。

前者は、IDE 内で Codestral の Instruct または Fill-In-the-Middle ルートを使用したいユーザ向けに設計されている。通常の組織レート制限のない個人レベルで管理される API キーが付属しており、8 週間のベータ期間中は無料で利用できる。一方、後者はより広範なリサーチ、バッチクエリ、またはサードパーティアプリケーション開発のための通常のエンドポイントで、クエリはトークンごとに課金される。

さらに、興味のある開発者は、Mistral の無料会話インターフェースである Le Chat 上で指示されたバージョンのモデルとチャットすることで、Codestral の機能をテストすることもできる。

Codestral を導入する Mistral の動きは、企業の研究者にソフトウェア開発を加速させるための新たな注目すべき選択肢を与えるが、最近導入された StarCoder2 や OpenAI や Amazon が提供するものなど、市場にある他のコード中心モデルに対してこのモデルがどのように機能するかはまだ分からない。

前者は Codex を提供し、GitHub のコパイロット・サービスを強化し、後者はツール「CodeWhisper」を提供している。OpenAI の ChatGPT もコーディングツールとしてプログラマーに利用されており、同社の GPT-4 Turbo モデルは Cognition の半自律コーディングエージェントサービス「Devin」を動かしている。

また、Hugging Face で小規模な AI コーディングモデルをいくつか提供している Replit や、最近5億米ドルの評価額で6,500 万米ドルのシリーズ B 資金を獲得した Codenium との強力な競争もある。

【via VentureBeat】 @VentureBeat

【原文】