中国の「DeepSeek Coder」、「GPT-4 Turbo」の性能を破った初のオープンソースコーディングモデルに

SHARE:
Image credit: DeepSeek(深度求索)

中国の AI スタートアップ DeepSeek(深度求索)は、2兆の英語と中国語のトークンに学習させた ChatGPT の競合で話題になったことがあるが、オープンソースの MoE(Mixture of Experts、タスクに応じて専門家を選ぶ仕組み)コード言語モデル「であるDeepSeek Coder V2」のリリースを発表した。

先月デビューした MoE モデル「DeepSeek-V2」をベースに構築された DeepSeek Coder V2 は、コーディングと数学の両方のタスクに優れている。300以上のプログラミング言語をサポートし、「GPT-4 Turbo」「Claude 3 Opus」「Gemini 1.5 Pro」などの最先端のクローズドソースモデルを凌駕する。同社は、オープンモデルがこの偉業を達成したのはこれが初めてであり、Llama 3-70B や同カテゴリの他のモデルを大きく引き離しているとしている。

また、DeepSeek Coder V2は、一般的な推論と言語能力の面でも同等の性能を維持しているとしている。

「DeepSeek Coder V2」は何をもたらすのか?

「好奇心をもって AGI(汎用人工機能)の謎を解き明かす」という使命を掲げて昨年設立された DeepSeek は、Qwen(通義千問)、01.AI(零一万物)、Baidu(百度)などに続き、AI 競争における中国の注目すべきプレーヤーとなっている。実際、立ち上げから1年以内に、同社はすでに DeepSeek Coder ファミリーを含む多くのモデルをオープンソース化している。

最大330億のパラメータを持つオリジナルの DeepSeek Coder は、プロジェクトレベルのコード補完やインフィルなどの機能を備えたベンチマークではまずまずの結果を出したが、86のプログラミング言語と16Kのコンテキストウィンドウにしか対応していなかった。新しい V2はその成果をもとに、言語サポートを338に、コンテキストウィンドウを128Kに拡張し、より複雑で広範なコーディング・タスクを処理できるようにした。

LLM のコード生成、編集、問題解決能力を評価するために設計された MBPP+、HumanEval、Aider ベンチマークでテストしたところ、DeepSeek Coder V2はそれぞれ76.2、90.2、73.7を記録し、GPT-4 Turbo、Claude 3 Opus、Gemini 1.5 Pro、CodestralLlama-3 70B など、ほとんどのクローズドおよびオープンソースモデルを上回った。モデルの数学的能力を評価するために設計されたベンチマーク(MATH と GSM8K)でも同様のパフォーマンスが見られた。

複数のベンチマークで DeepSeek の製品を上回ったのは「GPT-4o」のみで、HumanEval、LiveCode Bench、MATH、GSM8K でわずかに高いスコアを獲得した。

DeepSeek は、同社の MoE フレームワークを基礎とする DeepSeek V2を使用することで、このような技術的および性能的な進歩を達成したと述べている。基本的に、同社は6兆トークンの追加データセット(主に GitHub と CommonCrawl から入手したコードと数学関連データで構成)で、ベースとなるV2モデルを事前に訓練した。

これにより、16B と236B のパラメータ・オプションが付属するモデルは、2.4Bと21Bの「エキスパート」パラメータのみをアクティブにして、多様なコンピューティングとアプリケーションのニーズに最適化しながら、目の前のタスクに対処することができる。

一般言語、推論で強力なパフォーマンス

DeepSeek Coder V2は、コーディングや数学関連のタスクに優れているだけでなく、一般的な推論や言語理解タスクでも十分なパフォーマンスを発揮する。

例えば、複数のタスクにわたる言語理解を評価するために設計された MMLU ベンチマークでは、79.2のスコアを記録した。これは他のコードに特化したモデルよりもはるかに優れており、Llama-3 70B のスコアとほぼ同じである。GPT-4o と Claude 3 Opus は、それぞれ88.7と88.6のスコアで MMLU カテゴリをリードし続けている。一方、GPT-4 Turbo は僅差で続いている。

この結果は、オープンコーディングに特化したモデルが、(コア・ユースケースだけでなく)あらゆる領域で優れた性能を発揮し、最先端のクローズドソースモデルに迫りつつあることを示している。

https://twitter.com/EMostaque/status/1802694460179931270

現在のところ、DeepSeek Coder V2は MIT ライセンスの下で提供されており、研究利用と無制限の商用利用の両方が可能だ。ユーザは Hugging Face を通じて、16Bと236Bの両方のサイズのインストラクターとベースアバターをダウンロードできる。また、DeepSeek は、API 経由でモデルへのアクセスを、従量課金モデルのプラットフォームを通じて提供している。

最初にモデルの能力を試したい人のために、同社はチャットボットを介して Deepseek Coder V2と対話するオプションを提供している。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する