ChatGPTの競合「DeepSeek Chat」が中国から登場——性能は、Meta「Llama 2-70B」を上回ることも

SHARE:
Image credit: DeepSeek

「ChatGPT」が1回目の誕生日を迎えた中、中国のスタートアップ DeepSeek AI が独自の会話 AI「DeepSeek Chat」を提供し、その優位に立とうとしている。

アルファテストの一環として開始されたこのアシスタントは、英語と中国語の2兆トークンのデータセットで訓練された7B と670B パラメータの「DeepSeek LLM」を利用している。ベンチマークによると、これらのモデルはいずれも、コーディングや数学を含むさまざまな評価で強力な性能を発揮し、Meta の有名な「Llama 2-70B」に匹敵する(時には上回る)。

このニュースは、Qwen、01.AI(零一万物)、Baidu(百度)が最近リリースしたものに続き、中国勢が AI 競争に参入したことを意味する。DeepSeek は、学術界と商業界の両方でさらなる研究を促進するために、基本バージョンと命令チューニングバージョンの両方のモデルをオープンソース化したと述べている。

好奇心をもって AGI の謎を解明するために数ヶ月前に設立された同社は、一定の条件の下で商用利用も許可している。

DeepSeek Chat と LLM について知っていることは?

DeepSeek Chat は、(ChatGPT のような)Web インターフェイスからアクセスでき、ユーザはサインインして、さまざまなタスクのためにモデルと対話することができる。このインターフェイスで利用できるのは67B バージョンだけである。

同社によると、どちらのモデルも Llama と同じ自己回帰変換デコーダー・アーキテクチャを使用して構築されているが、推論アプローチは異なっている。小さい方のモデルはマルチヘッドアテンション(MHA)を使用し、アテンションメカニズムを複数回並行して実行し、大きい方のモデルはグループ化クエリーアテンション(GQA)を活用して結果を出す。

7Bモデルのトレーニングは、バッチサイズ2304、学習率4.2e-4で行われ、67Bモデルのトレーニングは、バッチサイズ4608、学習率3.2e-4で行われた。学習プロセスでは、多段階の学習率スケジュールを採用している。学習レートは2000のウォームアップステップから始まり、1.6兆トークンで最大値の31.6%、1.8兆トークンで最大値の10%まで段階的に変化します。(Github ページから)

テストにかけると、DeepSeek LLM 67B Base は、推論、コーディング、数学、中国語理解などの分野で「Llama2 70B Base」を上回り、優れた一般的能力を示した。実際、Llama が少し優れていた唯一のベンチマークは、5ショットのトリビア QA(79.5対78.9)だった。

特別な指導データに基づいてファインチューニングされたチャットバージョンのモデルは、これまでに見たことのないテストでも非常に優れた結果を残した。

例えば、コーディングの HumanEval pass@1では73.78、数学の GSM8K 0-shot では84.1を記録し、GPT-4と Anthropic の「Claude 2」に僅差で並んだ。

とはいえ、ベンチマークで見られた印象的なパフォーマンスにもかかわらず、DeepSeek モデルはある程度の検閲に悩まされているようだ。X への投稿で、あるユーザは、元の質問が中国に関するものだった場合、アシスタントからの回答が自動的に編集されたことを指摘した。その代わりに、このモデルはセキュリティ上の理由からコンテンツを「取り下げました」というメッセージを表示した。ベースモデルにもこのようなフィルターが含まれているかどうかは、すぐにはわからない。

あらゆる規模の LLM

DeepSeek LLMs の発売は、AI 分野における中国のもう1つの注目すべき動きを示すものであり、中国の提供するサービスをあらゆる一般的なモデルのサイズに拡大し、広範なエンドユーザに提供するものである。

ここ数カ月で発表された汎用 AI には、Baidu の Ernie 4.0(文心4.0)01.AI の Yi 34B、Qwen の1.8B、7B、14B、72B モデルなどがある。

さらに興味深いことに、これらのモデルの中には、Yi 34B を含め、大規模モデルよりも性能が優れているものもある。

Yi 34B が Llama-2-70B や Falcon-180B に対抗したように、小規模モデルが大規模モデルと同等かそれ以上の性能を発揮すれば、企業は大幅な効率化を図ることができる。同じレベルの効果で下流のユースケースをターゲットにしながら、コンピュートリソースを節約することができる。

ちょうど1週間前、Microsoft は、Llama-2Chat-70B を含む5倍から10倍の大きさのモデルよりも優れた性能を発揮するモデル「Orca 2」をリリースし、同じ分野での研究を共有した。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する