Alibabaの数学特化AIモデル「Qwen2-Math」、OpenAI「GPT-4」やAnthropic「Claude」を凌駕 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Qwen2と他の LLM とのパフォーマンス比較
Image credit: Alibaba Cloud（阿里雲）

「Qwen2」を聞いたことがない人もいるかもしれないが、今日から状況が変わるだろう。ソフトウェア開発、エンジニアリング、そして世界中の STEM 分野において非常に重要な科目である数学に関して、他のすべてを凌駕する驚くべき新リリースが登場した。

Qwen2とは何か？

スタートアップやテック企業から次々と登場する新しい AI モデルにより、この分野に注目している人でさえ追いつくのが難しくなっている。

Qwen2は、OpenAI の「GPT」、Meta の「Llama」、Anthropic の「Claude ファミリー」と競合するオープンソースの大規模言語モデル (LLM) だが、中国の e コマース大手 Alibaba（阿里巴巴）のクラウドストレージ部門 Alibaba Cloud（阿里雲）が提供している。

Alibaba Cloud は2023年8月から、「Tongyi Qianwen（通義千問）」または略して Qwen というサブブランド名で独自の LLM をリリースし始めた。これには、オープンソースモデルの「Qwen-7B」「Qwen-72B」「Qwen-1.8B」が含まれ、それぞれ72億、18 億のパラメータ（各モデルの設定、究極的にはインテリジェンスを指す）を持っている。その後、Qwen-Audio や Qwen-VL（映像入力用）などのマルチモーダル変種が続き、最終的に2024年6月初めに Qwen2が 5つの変種（0.5B、1.5B、7B、14B、72B）でリリースされた。全体として、Alibaba はこの期間に Qwen ファミリーの中で 100 以上の異なるサイズと機能を持つ AI モデルをリリースしている。

顧客、特に中国の顧客はこれに注目し、利用開始から1年で9万社以上の企業が Qwen モデルを採用したと報告されている。

これらのモデルの多くがリリース時に最先端またはそれに近いパフォーマンスを誇っていたが、LLM と AI モデルの競争は世界中で非常に速く進んでおり、他のオープンソースや非公開のライバルによってすぐに凌駕されていた。しかし、今回はそうではない。

Qwen2-Math とは何か？

Alibaba Cloud の Qwen チームは8日、「Qwen2-Math」を発表した。これは英語向けに設計された「数学に特化した一連の大規模言語モデル（LLM）」である。これらの中で最も強力なものは、世界中の他のすべてのモデル——有名な OpenAI「GPT-4」、Anthropic「Claude 3.5 Sonnet」、さらには Google「Math-Gemini Specialized 1.5 Pro」を含む——を凌駕している。

具体的には、720億パラメータの Qwen2-Math-72B-Instruct 種が、LLM 用の MATH ベンチマークで84％を記録している。このベンチマークは 12,500の「挑戦的な競争数学問題」を提供し、LLM にとって特に難しいとされる文章題も含まれている（例：9.9 と 9.11 のどちらが大きいかのテスト）。

MATH データセットに含まれる問題の例を以下に示す：

率直に言って、私自身では答えられない問題だし、確実に数秒以内には答えられない。しかし、Qwen2-Math は大半の時間でそれができるようだ。

おそらく驚くべきことではないが、Qwen2-Math-72B Instruct は小学校レベルの数学ベンチマーク GSM8K（8,500問）でも 96.7％、大学レベルの数学（College Math ベンチマーク）でも 47.8％と、競合を凌駕し、優れた性能を示している。

注目すべきは、Alibaba が2024年2月にリリースされた Microsoft の新モデル「Orca-Math」をベンチマークチャートで比較していないことである。この70億パラメータモデル（Mistral-7B の変種で、これ自体が Llama の変種）は、Qwen2-Math-7B-Instruct モデルに近い性能を示しており、Orca-Math が 86.81％、Qwen-2-Math-7B-Instruct が 89.9％となっている。

数学 AI モデルは何に適しているのか

LLM の初期の使用は、チャットボットとしての有用性に焦点を当てており、企業の場合は従業員や顧客の質問に答えたり、文書を作成したり、情報をより迅速に解析したりすることに重点が置かれていた。一方、数学に特化した LLM は、方程式を定期的に解いたり、数字を扱ったりする人々により信頼性の高いツールを提供することを目指している。

皮肉なことに、すべてのコードが数学の基礎に基づいているにもかかわらず、これまでの LLM は数学の問題を解く上で、以前の時代の AI や機械学習、さらには古いソフトウェアほど信頼性が高くなかった。

Qwen2-Math を開発した Alibaba の研究者たちは、「Qwen2-Math が複雑な数学的問題を解決するためのコミュニティに貢献できることを願っている」と述べている。

Qwen2-Math を使用しようとする企業や個人向けのカスタムライセンス条件は、純粋にオープンソースというわけではない。月間アクティブユーザが1億人を超える商業的利用の場合は、開発者から追加の許可とライセンスを取得する必要がある。しかし、これは非常に寛大な上限であり、多くのスタートアップ企業、中小企業、さらには一部の大企業が、Qwen-2 Math を商業的に（利益を得るために）無料で使用することを可能にする。

【via VentureBeat】 @VentureBeat

【原文】