Apple 研究者たち、画面の文脈を「見て」理解できる AI を開発

SHARE:
Credit: VentureBeat made with Midjourney

Apple の研究者たちは、画面上の曖昧な実体への参照と会話および背景の文脈を理解できる新しい人工知能システムを開発した。これにより、音声アシスタントとのよりナチュラルなやり取りが可能になるはずーー金曜日に公開された論文にはそう書かれている。

ReALM (Reference Resolution As Language Modeling) と呼ばれるこのシステムは、大規模言語モデル(LLM)を活用して、画面上の視覚的要素への参照の理解を含む、参照解決の複雑なタスクを純粋な言語モデリングの問題に変換する。これにより、ReALM は既存の手法と比較して大幅な性能向上を達成できるのだ。

Apple 研究者チームは「参照を含む文脈を理解できることは、会話型アシスタントにとって不可欠で」、「ユーザーが画面に表示されている内容について質問できるようにすることは、音声アシスタントでの真のハンズフリー体験を確保するための重要なステップになる」と述べている。

会話型アシスタントの強化

画面ベースの参照に取り組むために、ReALM の主要な革新は、解析されたオンスクリーンの実体とそれらの位置を使用して画面を再構築し、視覚的レイアウトをキャプチャするテキスト表現を生成することだ。研究者たちは、この手法と、参照解決のために言語モデルを特別にファインチューニングすることを組み合わせることで、このタスクにおいて GPT-4 を上回る性能を発揮できることを実証した。

Apple の AI システムである ReALM は、このモックアップに示されている「260 Sample Sale」リストなどの画面上の実体への参照を理解できるため、音声アシスタントとのよりナチュラルなやり取りが可能になる。(画像クレジット:arxiv.org)

研究者たちは次のように述べている。「既存のシステムと比較して、さまざまな種類の参照、特にオンスクリーンの参照において5%以上の絶対的な性能向上を示している」「大規模なモデルはGPT-4を大幅に上回る性能を示した」。

実用的な応用と制限

この研究は、大規模なエンドツーエンドモデルを使用することが、レイテンシやコンピューティングの制約により実現不可能な実稼働システムにおいて、参照解決のようなタスクを処理するための、特化した言語モデルの可能性を示している。この研究を公開することで、Apple は Siri やその他の製品をより対話的で、かつ状況を認識できるものにするための継続的な投資になることを示したいのかもしれない。

しかし、研究者たちは、画面の自動解析に依存することには限界があると注意を促している。複数の画像を区別するなどのより複雑な視覚的参照を扱うには、コンピュータビジョンやマルチモーダルな技術を組み込む必要があるだろう。

ライバルが飛躍する中、Appleは人工知能の差を縮めるために奮闘

Apple は、急速に変化する AI の分野を支配するレースでテック企業のライバルに遅れをとっているにもかかわらず、人工知能研究で着実に大きな進歩を遂げている

視覚と言語を融合するマルチモーダルモデルAI 駆動のアニメーションツール低コストで高性能な特殊 AI を構築するためのテクニックなど、同社の研究所からの革新的なブレークスルーが相次いでいることは、その AI への野心が急速にエスカレートしていることを示唆している。

しかし、秘密主義で有名なこのテック企業は、GoogleMicrosoftAmazonOpenAI など、生成 AI を検索、オフィスソフトウェア、クラウドサービスなどに積極的に製品化している企業との厳しい競争に直面している。

Apple は、常に先駆者ではなく後発者だが、今や人工知能によって猛スピードで変革されている市場に直面している。6月の注目度の高いWorldwide Developers Conference では、新しい大規模言語モデルのフレームワーク、「Apple GPT」チャットボット、そしてエコシステム全体にわたるその他の AI 駆動の機能が発表されると予想されている。

「今年後半に、AI での継続的な取り組みの詳細を共有できることを楽しみにしている」と、CEO のTim Cook (ティム・クック) 氏は最近の決算説明会で示唆した。特有の不透明さにもかかわらず、Apple の AI への取り組みが幅広い範囲に及んでいることは明らかだ。

しかし、AI 覇権をめぐる戦いが過熱する中、iPhone メーカーの参戦の遅れは、同社を弱い立場に置いている。潤沢な資金、ブランドへの忠誠心、エリートエンジニアリング、緊密に統合された製品ポートフォリオは、Apple に勝利のチャンスを与えている。しかし、この高いステークスの競争では何の保証もない。

ユビキタスで真に知的なコンピューティングの新時代が目前に迫っている。6月になれば、Apple がその形成に関与できるだけのことをしているかどうかがわかるだろう。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する