「Qwen2」を聞いたことがない人もいるかもしれないが、今日から状況が変わるだろう。ソフトウェア開発、エンジニアリング、そして世界中の STEM 分野において非常に重要な科目である数学に関して、他のすべてを凌駕する驚くべき新リリースが登場した。
Qwen2とは何か?
スタートアップやテック企業から次々と登場する新しい AI モデルにより、この分野に注目している人でさえ追いつくのが難しくなっている。
Qwen2は、OpenAI の「GPT」、Meta の「Llama」、Anthropic の「Claude ファミリー」と競合するオープンソースの大規模言語モデル (LLM) だが、中国の e コマース大手 Alibaba(阿里巴巴)のクラウドストレージ部門 Alibaba Cloud(阿里雲)が提供している。
Alibaba Cloud は2023年8月から、「Tongyi Qianwen(通義千問)」または略して Qwen というサブブランド名で独自の LLM をリリースし始めた。これには、オープンソースモデルの「Qwen-7B」「Qwen-72B」「Qwen-1.8B」が含まれ、それぞれ72億、18 億のパラメータ(各モデルの設定、究極的にはインテリジェンスを指す)を持っている。その後、Qwen-Audio や Qwen-VL(映像入力用)などのマルチモーダル変種が続き、最終的に2024年6月初めに Qwen2が 5つの変種(0.5B、1.5B、7B、14B、72B)でリリースされた。全体として、Alibaba はこの期間に Qwen ファミリーの中で 100 以上の異なるサイズと機能を持つ AI モデルをリリースしている。
顧客、特に中国の顧客はこれに注目し、利用開始から1年で9万社以上の企業が Qwen モデルを採用したと報告されている。
これらのモデルの多くがリリース時に最先端またはそれに近いパフォーマンスを誇っていたが、LLM と AI モデルの競争は世界中で非常に速く進んでおり、他のオープンソースや非公開のライバルによってすぐに凌駕されていた。しかし、今回はそうではない。
Qwen2-Math とは何か?
Alibaba Cloud の Qwen チームは8日、「Qwen2-Math」を発表した。これは英語向けに設計された「数学に特化した一連の大規模言語モデル(LLM)」である。これらの中で最も強力なものは、世界中の他のすべてのモデル——有名な OpenAI「GPT-4」、Anthropic「Claude 3.5 Sonnet」、さらには Google「Math-Gemini Specialized 1.5 Pro」を含む——を凌駕している。
具体的には、720億パラメータの Qwen2-Math-72B-Instruct 種が、LLM 用の MATH ベンチマークで84%を記録している。このベンチマークは 12,500の「挑戦的な競争数学問題」を提供し、LLM にとって特に難しいとされる文章題も含まれている(例:9.9 と 9.11 のどちらが大きいかのテスト)。
MATH データセットに含まれる問題の例を以下に示す:
率直に言って、私自身では答えられない問題だし、確実に数秒以内には答えられない。しかし、Qwen2-Math は大半の時間でそれができるようだ。
おそらく驚くべきことではないが、Qwen2-Math-72B Instruct は小学校レベルの数学ベンチマーク GSM8K(8,500問)でも 96.7%、大学レベルの数学(College Math ベンチマーク)でも 47.8%と、競合を凌駕し、優れた性能を示している。
注目すべきは、Alibaba が2024年2月にリリースされた Microsoft の新モデル「Orca-Math」をベンチマークチャートで比較していないことである。この70億パラメータモデル(Mistral-7B の変種で、これ自体が Llama の変種)は、Qwen2-Math-7B-Instruct モデルに近い性能を示しており、Orca-Math が 86.81%、Qwen-2-Math-7B-Instruct が 89.9%となっている。
【via VentureBeat】 @VentureBeat
Members
BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。無料で登録する