Google、「Gemini」を公開——問題を抱える「Bard」を新AIモデルで挽回、OpenAIとの距離は縮まるか

SHARE:
Image credit: Google

競合の OpenAI、Microsoft、Meta、Amazon に対抗する AI の覇権争いで重要な資産になると専門家たちが口を揃える、 Google の注目の新 AI モデル「Gemini」がついに公開された。

Gemini は、 Google の次なる大きな AI ブレイクスルーとして数ヶ月前から期待されていたもので、技術大手としてはこれまでで最大かつ最も野心的な AI モデルのリリースとなる。

CEO の Sundar Pichai(サンダー・ピチャイ)氏によると、Gemini は、人間のように世界を理解し、推論することができる多面的な AI アシスタントの実現に Google を大きく近づけるものだという。

この新モデルは、テキスト、画像、音声、動画、その他のデータ形式を分析・生成できる企業向けAI製品に対する需要の高まりに対する Google の回答でもある。

VentureBeat が報じたように、Forrester Research の調査によると、2024年には従業員の60%が職場で独自の AI ツールを使用すると予想されている。さらに、IDC のレポートによると、多くの企業が AI 投資に対して平均3.5倍のリターンをすでに得ている。

高度な推論のために設計

Google によれば、Gemini はこれまでで最も柔軟な AI モデルであり、大規模データセンターのクラウド上でも、モバイルデバイス上でも効率的に実行することができる。

同社は Gemini を3つの異なるサイズで最適化した。

  • 「Gemini Ultra」は最大のバージョンで、科学研究やデータ分析のような非常に複雑なタスクを対象としている。Gemini Ultra は、科学研究やデータ分析のような非常に複雑なタスクを対象とした最大のバージョンであり、最もコンピュート集約的で高性能である。
  • 「Gemini Pro」は、幅広いアプリケーションのスケーリング用に設計されている。会話型 AI「Bard」のような Google 製品や、Pixel スマートフォンの新機能に搭載される予定だ。
  • 「Gemini Nano」は軽量なオンデバイスモデルで、スマートフォンなどのデバイスでローカルに実行できる。

Google によると、Gemini は意図的にマルチモーダルモデルとして一から構築された。つまり、異なるモダリティの情報(動画、写真、音声、テキストなど)をシームレスに組み合わせ、それぞれの異なるフォーマットで高度な推論や問題解決タスクを実行することができる。

Gemini は厳密なテストを受けており、いくつかの複雑な推論テストにおいて人間の専門家を凌駕している。Gemini は、数学、物理学から歴史、法律、倫理に至る57の科目にわたる能力を評価する「Massive Multitask Language Understanding(MMLU)」など30以上の標準化された AI ベンチマークにおいて、これまでに最高得点を達成している。

このモデルは、「AlphaCode 2」のような高度なコーディングシステムのエンジンとしても使用することができる。

開発者と企業のゲームチェンジャー

Google は6日、幅広い製品とプラットフォームで Gemini の展開を開始するが、それはまず、今年初めに発表され、広く失望を買った AI 搭載のライティングアシスタント「Bard」から始まる。Bard は、詩、物語、エッセイ、歌などを生成するような、より高度な機能のために Gemini Pro のファインチューニングされたバージョンを使用する。

Gemini はまた、アプリ「Recorder」の要約機能や「Gboard」のスマート返信機能など、スマートフォン「Pixel 8 Pro」の新機能も実現するようになる。今後数ヶ月のうちに、Gemini は検索、広告、Chrome、AI を搭載した新しいコラボレーションプラットフォーム「Duet AI」など、より多くのGoogle製品やサービスで利用できるようになる。

影響の評価

Gemini が今日の AIの 舞台に登場したことの意味は、少々深い。開発者や企業の顧客にとって、Gemini の機能は、彼らの武器となる新しく改良されたツールを提供し、AI を構築し拡張する方法に革命をもたらす可能性がある。

さらに、このモデルのネイティブなマルチモーダリティと高度な推論能力は、ヘルスケア、エンターテインメント、自律走行など、マルチフォーマットのデータ分析に大きく依存する業界を変革する可能性がある。

コーディングの領域においても、 Gemini の能力は変革をもたらす可能性がある。一般的なプログラミング言語を理解し、説明し、高品質のコードを生成できるだけでなく、複雑なプログラミング問題の解決にも期待が持てる。これにより、ソフトウェア開発プロセスが大幅に合理化され、より洗練された効率的なソフトウェア・ソリューションにつながる可能性がある。

Gemini で強気に転じる Google

Gemini のような先進的なモデルが、新しいタスクを自動化し、斬新なコンテンツを創造する能力を証明するにつれ、 Google と Meta、Microsoft、OpenAI といった同業者との競争は過熱を続けている。Google は、自分たちがペースを握れることを証明しようと決意しているようだ。

しかし、AI の優位性をめぐる競争はまだ初期段階にある。GPT-4 や Gemini のようなモデルは、インテリジェントな機械によって動かされる未来を指し示しているが、専門家によれば、我々は人工知能ができることの表面をかすめ始めたに過ぎないという。

Gemini が約束通りに機能すれば、 Google は明日の AI のフロントランナーとしてその手腕を発揮するかもしれない。しかし、 AGI(汎用性人工知能)を開発するための長期戦は、まだ大きく開かれている。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する