Google、100万のコンテキストウィンドウを備えた高速マルチモーダルモデル「Gemini 1.5 Flash」を発表〜Google I/O 2024から

SHARE:
Gemini 1.5 Flash を紹介する Demis Hassabis 氏。
Image credit: Google

Google は、小規模で高頻度のタスクに対応するマルチモーダルモデル「Gemini 1.5 Flash」のリリースを発表した。Gemini 1.5 Flash は、100万トークンのコンテキストウィンドウを持ち、Google AI Studio 内の Gemini API を通じてパブリックプレビューで14日から利用可能だ。

しかし、Gemini のニュースはそれだけではない。2月にデビューした「Gemini 1.5 Pro」は、コンテキストウィンドウが拡大され、100万トークンから200万トークンに拡張される。このアップデートに興味のある開発者は、ウェイティングリストに登録する必要がある。

Image credit: Google

Gemini 1.5 Flash と Gemini 1.5 Pro にはいくつかの注目すべき違いがある。前者は出力速度を重視するユーザ向けで、後者は Google の大規模 1.0 Ultra モデルとほぼ同等の性能を発揮する重量級モデルだ。Google の Google Labs 担当バイスプレジデント  Josh Woodward 氏は、低レイテンシーが重要な簡単なタスクを扱う場合は Gemini 1.5 Flash を使うべきだと指摘する。一方、Gemini 1.5 Pro は、「より一般的な、あるいは複雑な、しばしば多段階の推論タスク」に向いていると同氏は説明する。

開発者は今や、ワンサイズに合わせるアプローチではなく、より幅広い選択肢から AI を選ぶことができる。すべてのアプリが同じデータと AI 機能を必要とするわけではなく、バリエーションがあることで、AI 対応サービスのユーザ体験に違いをもたらす。魅力的な点は、Google が最先端の AI モデルを開発者に提供しながら、その性能を加速させる方法を見つけたことだ。唯一の欠点は、開発者が求めるほど大規模なデータセットで訓練されていないことかもしれない。その場合、次のオプションは Gemini 1.5 Pro に移ることだ。

Google のモデルは、最もライトウェイトな Gemma と Gemma 2 から Gemini Nano、Gemini 1.5 Flash、Gemini 1.5 Pro、Gemini 1.0 Ultra と幅広いスペクトルを網羅している。Woodward 氏は次のように指摘する。

開発者はユースケースに応じて、さまざまなサイズを行き来できます。そのため、同じようにマルチモーダル入力が可能で、同じように長いコンテキストをもち、そして当然同じようなバックエンドで動作します。

この新しい小規模言語モデルの発表の24時間前に、Google の最大の AI 競合企業の一つである OpenAI が、すべてのユーザに提供されデスクトップアプリも含まれるマルチモーダル LLM の GPT-4o を公開した

Gemini 1.5の両モデルは、ヨーロッパ経済地域、イギリス、スイスを含む世界200か国以上で公開プレビューが利用可能だ。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する