Google、200万トークン対応のLLM「Gemini 1.5 Flash」と「Gemini 1.5 Pro」を一般公開 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

「Gemini 1.5 Flash」を紹介する Demis Hassabis 氏
Image credit: Google

Google Cloud は、同社のフラッグシップ AI モデル「Gemini 1.5 Flash」と「Gemini 1.5 Pro」の2つのバリエーションを一般公開する。前者は100万コンテキストのウィンドウを持つ小型のマルチモーダルモデルで、狭い範囲の高頻度タスクに取り組む。5月の「Google I/O」で初めて紹介された。後者は、Google のLLMの最も強力なバージョンで、2月にデビューし、その後、200万のコンテキストウィンドウを含むようにアップグレードされた。このバージョンは現在、すべての開発者に公開されている。

これらの Gemini のバリエーションのリリースは、Google の AI 作業が、「説得力のある」AIエージェントとソリューションを開発するために、どのように企業を支援するかを紹介することを目的としている。記者会見で、Google Cloud の CEO Thomas Thomas Kurian 氏は、Accenture、Airbus、Anthropic、Box、Broadcom、Cognizant、Confluent、Databricks、Deloitte、Equifax、Estée Lauder Companies、Ford、GitLab、GM、Golden State Warriors、Goldman Sachs、Hugging Face、IHG Hotels and Resorts、Lufthansa Group、Moody’s、Samsung などの組織が同社のプラットフォーム上で構築しており、同社の生成 AI への取り組みが「信じられないほどの勢い」を見せていると胸を張った。同氏は、Google のモデルが可能なことと、同社の Vertex プラットフォームが組み合わさったことが、この採用拡大につながったとしている。

今後も、この2つのレイヤーで新しい機能を急速なペースで導入していきます。（Kurian 氏）

Google はまた、コンテキストキャッシングとプロビジョンドスループットもリリースしている。これは開発者のエクスペリエンスを向上させるために設計されたモデルの新機能である。

Gemini 1.5 Flash

Gemini 1.5 Flash は、開発者により低いレイテンシ、手頃な価格、そして、リテールチャットエージェント、ドキュメント処理、リポジトリ全体を合成できるボットに含めるのに適したコンテキストウィンドウを提供する。 Google は、Gemini 1.5 Flashは、10,000文字の入力を与えられた場合、「GPT-3.5 Turbo」よりも平均して40%高速であると主張している。また、32,000文字以上の入力ではコンテキストキャッシュが有効になり、OpenAI のモデルよりも4倍低い入力価格を実現している。

Gemini 1.5 Pro

Gemini 1.5 Pro に関しては、開発者はより大きなコンテキストウィンドウを持つことに興奮するだろう。200万トークンを持つ Gemini 1.5 Pro は、著名な AI モデルのどれもがこれほど高い制限を持たないため、独自のクラスである。これは、このモデルがこれまで以上に多くのテキストを処理し、考慮してから応答を生成できることを意味する。

あなたは、「それを実際の言葉で翻訳してください」と尋ねるかもしれません。200万のコンテキストウィンドウは、2時間の高解像度動画をモデルに送り込み、モデルがそれを1つのものとして理解できることを意味します。細切れに分ける必要はない。ひとつのものとして送り込むことができます。ほぼ丸一日の音声、1〜2時間の動画、6万行を超えるコード、150万語を超える単語に対応できます。私たちは、多くの企業がこれに大きな価値を見出すのを目の当たりにしています。（Kurian 氏）

Kurian 氏は、Gemini 1.5 Flash と Gemini 1.5 Proの違いを次のように説明した。

顧客の種類だけでなく、顧客の中の特定の（ユース）ケースです。

彼は実用的で最近の例として、Google I/O の基調講演を挙げている。

基調講演全体を、短いバージョンではなく、2時間の基調講演のすべてを1つの動画として処理したいと思ったら、2時間の動画だったので、（Gemini 1.5）Proを使うデショウう。超低レイテンシで何かをしたいのであれば……Flashを使うでしょう。なぜなら、 Flash はより高速なモデルで、より予測可能なレイテンシで、100万トークンまで推論できるように設計されているからです。

コンテキストキャッシュが登場

開発者が Gemini のさまざまなコンテキストウィンドウを活用できるように、Google は Gemini 1.5 Pro と Gemini 1.5 Flash の両方でコンテキストキャッシングのパブリックプレビューを開始した。コンテキストキャッシングは、モデルがリクエストを受け取るたびにすべてを一から計算し直すことなく、すでに持っている情報を保存して再利用することを可能にする。長い会話や文書に役立ち、開発者の計算コストを下げる。 Google は、コンテキストキャッシングによって入力コストを驚異的な75％削減できると明らかにしている。この機能は、コンテキストウィンドウが増えるにつれて、より重要になるだろう。

Gemini のプロビジョンドスループット

スループットのプロビジョニングにより、開発者は Google の Gemini モデルの使用量をより適切に拡張することができる。この機能は、モデルが時間経過とともに処理できるクエリーやテキストの数を決定する。以前は、開発者は「pay-as-you-go モデル」で課金されていたが（都度課金）、現在はプロビジョンドスループットというオプションがあり、本番ワークロードに関しては、より良い予測可能性と信頼性が得られる。

プロビジョンドスループットでは、基本的に顧客のために推論容量を確保することができます。例えば、ソーシャルメディアプラットフォームの顧客で見られるように、大規模なイベントを開催し、ユーザが急増するような場合に、一度にキャパシティを確保することができます。これは、我々のモデルを一般的な可用性に移行する際の保証や、応答時間や可用性のアップタイムに関してサービスレベルの目標を保証する上で、大きな前進です。（Kurian 氏）

プロビジョンドスループットは、27日より allowlist で一般利用可能だ。

【via VentureBeat】 @VentureBeat

【原文】