Google Deepmind、ロボットをより賢くするAI「RT-2」を公開——訓練無しで行動可能に - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Google のDeepMindは、ロボットが特別な訓練無しに新しいタスクを実行できるようにする、世界初の視覚・言語・行動（VLA）モデル「Robotics Transformer 2（RT-2）」を発表した。

言語モデルがウェブスケールのデータから一般的なアイデアや概念を学習するのと同じように、RT-2 もウェブ上のテキストや画像を使って現実世界のさまざまな概念を理解し、その知識をロボットの動作のための一般化された命令に変換する。

この技術が改善されれば、文脈を認識し、適応可能なロボットが実現し、異なる状況や環境で異なるタスクをこなすことができるようになる。

RT-2の特徴

2022年、DeepMind は「RT-1」を発表した。RT-1 は、130,000のデモンストレーションで学習し、エブリデイロボットが700以上のタスクを97％の成功率で実行できるようにしたマルチタスクモデルである。そして今、RT-1 のロボット・デモンストレーション・データとウェブ・データセットを用いて、このモデルの後継モデル RT-2 を訓練した。

RT-2 の最大の特徴は、RT-1 や他のモデルとは異なり、ロボットを動作させるために何十万ものデータポイントを必要としないことだ。長い間、非常に変化しやすい環境で複雑で抽象的なタスクを処理するために、特定のロボットトレーニング（あらゆる物体、環境、状況をカバーする）が重要であることを見出してきた。

しかしこの場合、RT-2は少量のロボットデータから学習し、基礎モデルで見られるような複雑な推論を実行し、獲得した知識をロボットの行動に移す。

RT-2 は、汎化能力が向上し、ロボット・データを超えた意味的・視覚的理解を示しています。これには、新しいコマンドを解釈することや、オブジェクトのカテゴリや高レベルの記述に関する推論など、初歩的な推論を実行してユーザーのコマンドに応答することが含まれます。（Google の説明）

訓練無しで行動を起こす

Google DeepMind のロボット工学責任者 Vincent Vanhoucke 氏によると、ロボットにゴミを捨てさせる訓練とは、以前はゴミを識別し、拾って捨てるように明確に訓練することだった。

しかし、ウェブデータで訓練された RT-2 では、その必要はない。モデルはすでにゴミが何であるかについての一般的な考えを持っており、明示的な訓練無しにゴミを識別することができる。また、ゴミを捨てるという行動をとるように訓練されたことがないにもかかわらず、どのようにゴミを捨てるかというアイデアさえ持っている。

内部テストでは、RT-2 は RT-1 と同程度のパフォーマンスを示した。しかし、新しい未知のシナリオでは、RT-1 の32％から62％へとほぼ倍増した。