Google「世界を理解する」AI エージェントで OpenAI に対抗へーーProject Astra で GPT-4o に挑む【Google I/O 発表】

An AI-generated robot sitting in front of a computer, responding to customer service tickets.

本日、マウンテンビューで開催された年次 I/O デベロッパーカンファレンスで、Google は AI に焦点を当てた多数の発表を行い、その中でも Project Astra が注目を集めた。これは、未来のユニバーサル AI エージェントを構築する取り組みになる。

初期バージョンがデモンストレーションされたが、このアイデアはマルチモーダル AI アシスタントを構築し、ヘルパーとしての役割を果たし、世界のダイナミクスを見て理解し、日常のタスクや質問にリアルタイムで対応するものである。そしてこれはまさに昨日、OpenAI が GPT-4o 搭載の ChatGPT で披露したものと類似している。

We’re sharing Project Astra: our new project focused on building a future AI assistant that can be truly helpful in everyday life. 🤝

Watch it in action, with two parts – each was captured in a single take, in real time. ↓ #GoogleIO pic.twitter.com/x40OOVODdv

— Google DeepMind (@GoogleDeepMind) May 14, 2024

それにもかかわらず、 ChatGPT Plus のサブスクライバー向けに GPT-4o が数週間以内に展開されるのに対し、 Google はやや遅れを取っているようである。同社は依然として Astra に取り組んでおり、完全な AI エージェントのリリース時期については明らかにしていない。ただし、今年後半には Gemini アシスタントにプロジェクトの一部機能が追加される予定であることを示唆している。

Project Astra に何を期待するか？

Gemini Pro 1.5 や他のタスク特化型モデルの進歩を基に、 Project Astra （高度な視覚と対話に対応する応答エージェントの略）は、ユーザーが周囲の複雑なダイナミクスを共有しながら対話できるようにする。このアシスタントは、見聞きしたことを理解し、リアルタイムで正確な回答を提供する。

「本当に役立つためには、エージェントが人間と同じように複雑で動的な世界を理解し、見聞きしたことを記憶して文脈を理解し、行動を起こす必要があります。また、ユーザーが自然に遅延なく話しかけることができるように、積極的で教えられやすく、パーソナルである必要があります」と、Google Deepmind の CEO である Demis Hassabis（デミス・ハサビス）氏はブログ投稿で述べた。

Google が公開したデモ動画の一つでは、 Pixel スマートフォンで動作する Project Astra エージェントのプロトタイプが、物体を識別し、その具体的な構成要素を説明し、ホワイトボードに書かれたコードを理解する様子が記録されていた。カメラのファインダーを通して近所を識別し、ユーザーがメガネを置いた場所を記憶している兆候を示す場面もあった。

2つ目のデモ動画では、システムアーキテクチャの改善を提案するエージェントのケースなど、類似の機能が示され、ユーザーの視界にリアルタイムで結果を重ね合わせるメガネを使った場面が含まれていた。

Hassabis氏は、 Google がマルチモーダル入力における推論の分野で大きな進歩を遂げた一方、エージェントの応答時間を人間の会話レベルまで下げることは困難な技術的課題であると指摘した。この問題を解決するために、同社のエージェントはビデオフレームを継続的にエンコードし、ビデオと音声入力をイベントのタイムラインに結合し、この情報を効率的にキャッシュして再利用するという話だ。

「当社の最先端の音声モデルを活用することで、エージェントの声を幅広いイントネーションに対応するよう強化しました。これにより、エージェントは使用されている文脈をよりよく理解し、会話中に迅速に応答できるようになりました」と彼は付け加えている。

OpenAI は GPT-4o に複数のモデルを使用していない。その代わりに、テキスト、視覚、音声を統合してエンドツーエンドでトレーニングを行い、すべての入力と出力を処理し、平均320ミリ秒で応答を提供できるようにしている。 Google は Astra の応答時間について具体的な数字を共有していないが、作業が進むにつれて遅延が減少することが期待されている。また、 Project Astra のエージェントが OpenAI が GPT-4o で示した同じような感情範囲を持つかどうかは不明である。

可能性

現在のところ、 Astra は日常生活の中で仕事や個人的なタスクを関連する文脈と記憶を持って支援するための完全な AI エージェントとしての Google の初期の取り組みに過ぎない。このビジョンが実際の製品に具体化される時期については明らかにされていないが、現実世界を理解し同時に対話する能力が、 Android 、 iOS 、およびウェブ上の Gemini アプリに追加されることが確認されている。

Google はまず、 Gemini Live をアプリケーションに追加し、ユーザーがチャットボットと双方向の会話を行えるようにする予定である。今年の後半には、今日示された視覚機能の一部が Gemini Live に追加され、ユーザーがカメラを開いて周囲の状況について話し合えるようになる可能性が高い。特に、ユーザーがこれらの対話中に Gemini を中断できるようになることも注目に値する。これは OpenAI が ChatGPT で行っていることに似ている。

「このような技術があれば、人々が電話やメガネを通じて専門の AI アシスタントを常に傍らに持つ未来を想像するのは簡単です」とHassabis氏は付け加えた。

【via VentureBeat】 @VentureBeat

【原文】