Google Deepmind、ロボットをより賢くするAI「RT-2」を公開——訓練無しで行動可能に

SHARE:
Image credit: Google DeepMind

Google のDeepMindは、ロボットが特別な訓練無しに新しいタスクを実行できるようにする、世界初の視覚・言語・行動(VLA)モデル「Robotics Transformer 2(RT-2)」を発表した。

言語モデルがウェブスケールのデータから一般的なアイデアや概念を学習するのと同じように、RT-2 もウェブ上のテキストや画像を使って現実世界のさまざまな概念を理解し、その知識をロボットの動作のための一般化された命令に変換する。

この技術が改善されれば、文脈を認識し、適応可能なロボットが実現し、異なる状況や環境で異なるタスクをこなすことができるようになる。

RT-2の特徴

2022年、DeepMind は「RT-1」を発表した。RT-1 は、130,000のデモンストレーションで学習し、エブリデイロボットが700以上のタスクを97%の成功率で実行できるようにしたマルチタスクモデルである。そして今、RT-1 のロボット・デモンストレーション・データとウェブ・データセットを用いて、このモデルの後継モデル RT-2 を訓練した。

RT-2 の最大の特徴は、RT-1 や他のモデルとは異なり、ロボットを動作させるために何十万ものデータポイントを必要としないことだ。長い間、非常に変化しやすい環境で複雑で抽象的なタスクを処理するために、特定のロボットトレーニング(あらゆる物体、環境、状況をカバーする)が重要であることを見出してきた。

しかしこの場合、RT-2は少量のロボットデータから学習し、基礎モデルで見られるような複雑な推論を実行し、獲得した知識をロボットの行動に移す。

RT-2 は、汎化能力が向上し、ロボット・データを超えた意味的・視覚的理解を示しています。これには、新しいコマンドを解釈することや、オブジェクトのカテゴリや高レベルの記述に関する推論など、初歩的な推論を実行してユーザーのコマンドに応答することが含まれます。(Google の説明

訓練無しで行動を起こす

Google DeepMind のロボット工学責任者 Vincent Vanhoucke 氏によると、ロボットにゴミを捨てさせる訓練とは、以前はゴミを識別し、拾って捨てるように明確に訓練することだった。

しかし、ウェブデータで訓練された RT-2 では、その必要はない。モデルはすでにゴミが何であるかについての一般的な考えを持っており、明示的な訓練無しにゴミを識別することができる。また、ゴミを捨てるという行動をとるように訓練されたことがないにもかかわらず、どのようにゴミを捨てるかというアイデアさえ持っている。

内部テストでは、RT-2 は RT-1 と同程度のパフォーマンスを示した。しかし、新しい未知のシナリオでは、RT-1 の32%から62%へとほぼ倍増した。

応用の可能性

RT-2 のような視覚・言語・行動(VLA)モデルが進化すれば、実世界で状況に応じて多様な行動を行うための情報を推論し、問題解決し、解釈することができる文脈認識ロボットにつながる。

例えば、倉庫で同じ動作を繰り返すロボットの代わりに、対象物の種類や重さ、壊れやすさなどの要素を考慮し、それぞれの対象物を異なる方法で処理する機械が登場する可能性がある。

Markets and Markets によると、AI を使ったロボットの分野は2021年の69億米ドルから2026年には353億米ドルに成長し、年平均成長率(CAGR)は38.6%と予想されている。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する