OpenAIがChatGPTの新モデル「o1」発表ーーPhD レベルの性能を発揮

SHARE:
Credit: VentureBeat made with ChatGPT

OpenAI の強力な独自の大規模言語モデル(LLM)GPT-4 が2023年3月に発表されてから18カ月が経過した。ユーザーや開発者は、シリコンバレーや世界中で生成 AI ブームの火付け役となった同社が、次のバージョン(おそらく GPT-5と呼ばれると予想されていた)をいつ発表するのか注目していた。

しかし、GPT シリーズは今のところ全く新しいモデルファミリーに飛び越されることになった。今日、数カ月にわたる報道や噂が飛び交った後、 OpenAI は「 o1 」 AI モデルファミリーを発表した。まず2つのモデル:o1-previewo1-mini が登場し、これらは GPT シリーズモデルよりも「複雑なタスクを推論し、より難しい問題を解決する」ように設計されていると同社は述べている。

両モデルは本日から ChatGPT Plus ユーザーが利用可能になる。当初は o1-preview が週30メッセージ、 o1-mini が50メッセージに制限されている。ただし、 OpenAI は「初期モデルとして、ウェブブラウジングや画像・ファイルのアップロードなど、 ChatGPT で使える多くの機能をまだ備えていない。当面は多くの一般的なケースで GPT-4o の方が優れた能力を発揮するだろう」と注意を促している。実際、この記事の画像作成を試みた初期テストでは、それができないことがわかっている。

OpenAI の API プラットフォームウェブサイトでは、ベータ版の状態では、このモデルファミリーは「テキストのみをサポートし、画像はサポートしていない」と明記されている。

o1 が GPT より優れている点

OpenAI は、新しい o1シリーズが特に科学、医療、技術などの分野での複雑な問題に取り組むユーザーに適していると述べている。OpenAI は、量子光学の数式を生成する物理学者の支援から、細胞シーケンシングデータの注釈付けを行う医療研究者の支援まで、幅広い用途でこれらのモデルが使用されることを想定している。開発者にとっても、 o1-mini モデルは複数のステップからなるワークフローの構築と実行、コードのデバッグ、プログラミングの課題を効率的に解決するのに効果的だろう。

o1-preview は PhD レベルの性能を発揮

o1-preview モデルは、人間が複雑な問題に取り組むのと同様に、より多くの時間を思考と回答の改善に費やすように設計されている。テストでは物理学、化学、生物学などの分野で PhD の学生に近いレベルの性能を発揮することができた。

さらに、 o1-preview モデルはコーディングにも優れており、 Codeforces の競技では全体の89%よりも高いスコアを獲得し、複数のステップからなるワークフローの処理、複雑なコードのデバッグ、正確な解決策の生成能力を示した。

国際数学オリンピック( IMO )予選試験などのベンチマークタスクでは、 o1-preview は問題の83%を解決し、前身の GPT-4o の13%の成功率から大幅に改善している。

すでに ChatGPT の Plus ユーザーと Team ユーザーが利用可能で、 Enterprise ユーザーと Edu ユーザーは来週アクセスを得る予定だ。また、 API 使用 における Tier-5 の資格を持つ開発者は OpenAI API を通じてモデルを利用できるが、初期のレート制限が適用される。

o1-mini はパワーは劣るが8割安

o1-preview と同時に、 OpenAI は o1-mini モデルも発表した。これはより合理化されたバージョンで、より高速で安価な推論能力を提供するように設計されている。主にコーディングと STEM タスク向けに最適化されているが、 o1-mini は特に数学とプログラミングで優れた性能を発揮する。

IMO 数学ベンチマークでは、 o1-mini は70%のスコアを達成し、 o1-preview の74%にほぼ匹敵する一方、推論コストは大幅に低くなっている。また、コーディング評価でも競争力のある性能を示し、 Codeforces で Elo スコア1650を達成し、プログラマーの上位86%に位置している。

o1-preview と比較して80%低い価格で、 o1-mini は推論能力を必要とするが、より高度な o1-preview モデルが提供する幅広い知識は必要としない開発者や研究者を対象としている。この費用対効果の高いソリューションは、ChatGPT Plus、Team、Enterprise、Edu ユーザーも利用可能になる予定で、将来的には ChatGPT Free ユーザーにもアクセスを拡大する計画だ。

安全性とセキュリティの強化

OpenAI の安全性へのコミットメントに沿って、両モデルは新しい安全性トレーニングアプローチを採用しており、安全性とアライメントのガイドラインに従う能力が向上している。 OpenAI は、 o1-preview が最も厳しいジェイルブレイクテストの1つで84点を獲得したことを強調しており、これは GPT-4o の22点から大幅に改善されている。文脈に応じて安全性ルールを推論する能力により、これらのモデルは安全でないプロンプトをより適切に処理し、不適切なコンテンツの生成を回避できる。

より広範な安全性への取り組みの一環として、 OpenAI は米国と英国の AI 安全性研究所と協定を結んでいる。これらのパートナーシップには、将来の AI システムの評価とテストを支援するために、 o1 モデルの研究バージョンへの早期アクセスを提供することが含まれる。

OpenAI の安全性への取り組みには、包括的な内部ガバナンスと連邦政府との協力も含まれており、定期的なテスト、レッドチーム、同社の安全性・セキュリティ委員会による取締役会レベルの監督によって強化されている。

OpenAI の o1 シリーズの今後

o1-preview と o1-mini モデルは推論と問題解決のための強力なツールだが、 OpenAI はこれが始まりに過ぎないと語る。同社は、これらのモデルを定期的に更新し改善する計画で、現在 API バージョンでは利用できないブラウジング、ファイルと画像のアップロード、関数呼び出しなどの機能を追加する予定だ。

今後、 OpenAI は GPT シリーズと o1 シリーズの両方を継続的に開発し、さまざまな分野での AI の能力をさらに拡大していく。ユーザーは、同社がこれらのモデルのユーザビリティとアクセシビリティを様々なアプリケーションで向上させるにつれて、継続的な進歩を期待できるだろう。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する