ChatGPTの競合「DeepSeek Chat」が中国から登場——性能は、Meta「Llama 2-70B」を上回ることも

「ChatGPT」が1回目の誕生日を迎えた中、中国のスタートアップ DeepSeek AI が独自の会話 AI「DeepSeek Chat」を提供し、その優位に立とうとしている。

アルファテストの一環として開始されたこのアシスタントは、英語と中国語の2兆トークンのデータセットで訓練された7B と670B パラメータの「DeepSeek LLM」を利用している。ベンチマークによると、これらのモデルはいずれも、コーディングや数学を含むさまざまな評価で強力な性能を発揮し、Meta の有名な「Llama 2-70B」に匹敵する（時には上回る）。

このニュースは、Qwen、01.AI（零一万物）、Baidu（百度）が最近リリースしたものに続き、中国勢が AI 競争に参入したことを意味する。DeepSeek は、学術界と商業界の両方でさらなる研究を促進するために、基本バージョンと命令チューニングバージョンの両方のモデルをオープンソース化したと述べている。

好奇心をもって AGI の謎を解明するために数ヶ月前に設立された同社は、一定の条件の下で商用利用も許可している。

DeepSeek Chat と LLM について知っていることは？

DeepSeek Chat は、（ChatGPT のような）Web インターフェイスからアクセスでき、ユーザはサインインして、さまざまなタスクのためにモデルと対話することができる。このインターフェイスで利用できるのは67B バージョンだけである。

同社によると、どちらのモデルも Llama と同じ自己回帰変換デコーダー・アーキテクチャを使用して構築されているが、推論アプローチは異なっている。小さい方のモデルはマルチヘッドアテンション（MHA）を使用し、アテンションメカニズムを複数回並行して実行し、大きい方のモデルはグループ化クエリーアテンション（GQA）を活用して結果を出す。

7Bモデルのトレーニングは、バッチサイズ2304、学習率4.2e-4で行われ、67Bモデルのトレーニングは、バッチサイズ4608、学習率3.2e-4で行われた。学習プロセスでは、多段階の学習率スケジュールを採用している。学習レートは2000のウォームアップステップから始まり、1.6兆トークンで最大値の31.6%、1.8兆トークンで最大値の10%まで段階的に変化します。（Github ページから）

テストにかけると、DeepSeek LLM 67B Base は、推論、コーディング、数学、中国語理解などの分野で「Llama2 70B Base」を上回り、優れた一般的能力を示した。実際、Llama が少し優れていた唯一のベンチマークは、5ショットのトリビア QA（79.5対78.9）だった。

特別な指導データに基づいてファインチューニングされたチャットバージョンのモデルは、これまでに見たことのないテストでも非常に優れた結果を残した。

例えば、コーディングの HumanEval pass@1では73.78、数学の GSM8K 0-shot では84.1を記録し、GPT-4と Anthropic の「Claude 2」に僅差で並んだ。

とはいえ、ベンチマークで見られた印象的なパフォーマンスにもかかわらず、DeepSeek モデルはある程度の検閲に悩まされているようだ。X への投稿で、あるユーザは、元の質問が中国に関するものだった場合、アシスタントからの回答が自動的に編集されたことを指摘した。その代わりに、このモデルはセキュリティ上の理由からコンテンツを「取り下げました」というメッセージを表示した。ベースモデルにもこのようなフィルターが含まれているかどうかは、すぐにはわからない。

Chinese LLMs are going to have a very hard time on the open internet.

I asked a very innocuous question: "I want to learn about modern China." The system stars to print out a response which gets auto-censored after a few seconds, despite the content being pretty bland. pic.twitter.com/rEBtU86Inl

— uɐɥdǝʇS (e/acc) (@StephanSturges) November 30, 2023