Deepmindや33の研究機関、世界中のロボット同士が学習し合うプロジェクト「Open-X Embodiment」をローンチ

ロボティクスの大きな課題のひとつは、ロボットやタスク、環境ごとに機械学習モデルをトレーニングするのに多大な労力がかかることだ。現在、Google DeepMind と他の33の研究機関による新しいプロジェクトは、さまざまなタイプの物理的ロボットと連携し、多くのタスクを実行できる汎用 AI システムを作成することで、この課題に対処することを目指している。

Google Robotics のシニアスタッフソフトウェアエンジニア Pannag Sanketi 氏は、VentureBeat に次のように語った。

私たちが観察したのは、ロボットは優れたスペシャリストではあるが、ジェネラリストとしては弱いということです。通常タスク、ロボット、環境ごとにモデルをトレーニングする必要があります。1つの変数を変えるだけで、ゼロから始めなければならないことがよくあります。

これを克服し、ロボットの訓練と配備をはるかに簡単かつ迅速に行うために、この新しいプロジェクト「Open-X Embodiment」では、2つの重要なコンポーネントが導入されている。研究者たちは、ロボットの訓練に一般的に使用されている方法と比較して、優れた結果を達成するために、ロボットの研究室やさまざまなタイプのロボットでモデルをテストした。

ロボティクスのデータを組み合わせる

一般的に、センサーとアクチュエーターのセットを持つロボットは、それぞれの生物の脳と神経系が、その生物の身体と環境に適応するように進化してきたのと同じように、それぞれのタイプに特化したソフトウェアモデルを必要とする。

Open X-Embodiment プロジェクトは、多様なロボットやタスクから得られたデータを組み合わせることで、特化したモデルよりも優れた、あらゆる種類のロボットに適用可能な一般化されたモデルを作成できるという直感から生まれた。このコンセプトは、大規模で一般的なデータセットで訓練された大規模言語モデル（LLM）にインスパイアされたものでもある。驚くことに、研究者たちは同じ原理がロボット工学にも当てはまることを発見した。

Open X-Embodiment のデータセットを作成するために、研究チームは様々な国の20の研究機関で22のロボットの実施例からデータを収集した。このデータセットには、100万以上のエピソード（エピソードとは、ロボットがタスクを達成しようとするたびにとる一連の動作のこと）にわたる500以上のスキルと15万以上のタスクの例が含まれている。

付随するモデルは、大規模言語モデルにも使用されているディープラーニングアーキテクチャであるトランスフォーマーに基づいている。RT-1-X は「Robotics Transformer 1（RT-1）」の上に構築されており、スケールの大きな実世界のロボット工学のためのマルチタスクモデルである。RT-2-X は、RT-1 の後継モデル「 RT-2」上に構築されており、ロボット工学とウェブデータの両方から学習し、自然言語コマンドに応答できる vision-language-actio（VLA）モデルである。

研究者たちは、RT-1-X を5つの異なる研究所で、一般的に使用されている5つのロボットで様々なタスクをテストした。それぞれのロボットのために開発された特殊なモデルと比較して、RT-1-X は、物体をつまんで移動させたり、ドアを開けたりするタスクで50％高い成功率を示した。また、特定の視覚環境に特化したモデルとは対照的に、このモデルは異なる環境でもスキルを一般化することができた。これは、多様な例で訓練されたモデルは、ほとんどのタスクで専門家モデルよりも優れていることを示唆している。論文によると、このモデルは、ロボットアームから四足歩行まで、幅広いロボットに適用できる。

ロボティクスの研究をしたことのある人なら、これがいかに驚くべきことであるかわかるだろう。このようなモデルが最初の試行でうまくいくことは決してない。

Remarkably, even the smaller RT-1-X model improved across the board *compared to the model each lab was using for their own experiments*! For anyone who has done robotics research you'll know how remarkable this is: such models "never" work on the first try, but this one did. pic.twitter.com/jSdKT1Q5BH

— Sergey Levine (@svlevine) October 3, 2023

RT-2-Xは、訓練データセットに含まれていない新しいタスクである創発スキルにおいて、RT-2の3倍の成功を収めた。特に、RT-2-X は、リンゴを布の上に置くのと布の近くに移動させるのでは違うというような、空間的な理解を必要とするタスクで優れたパフォーマンスを示した。

研究者たちは、OpenXと RT-X について発表したブログの中で、「我々の結果は、他のプラットフォームからのデータとの共同トレーニングによって、RT-2-X に元のデータセットにはなかった新たなスキルが付与され、新たなタスクの実行が可能になることを示唆している。」と書いている。

ロボット研究の未来を拓く

今後、科学者たちは、DeepMind が開発した自己改善モデル「RoboCat」からの洞察と、これらの進歩を組み合わせることを研究の方向性として検討している。RoboCat は、さまざまなロボットアームにまたがるさまざまなタスクの実行を学習し、パフォーマンスを向上させるために新しいトレーニングデータを自動的に生成する。

Sanketi 氏によれば、もうひとつの方向性として、異なるデータセットの混合が、どのようにクロスエンボディメントの一般化に影響を与えるか、また、改善された一般化がどのように実現されるかをさらに調査することが考えられるという。

チームは、Open X-Embodiment のデータセットと RT-1-X モデルの小さなバージョンをオープンソースにしているが、RT-2-X モデルはオープンソースにしていない。

これらのツールは、ロボットのトレーニング方法を変え、この分野の研究を加速させると信じています。データをオープンソース化し、安全だが限定的なモデルを提供することで、障壁を減らし、研究を加速させたいと考えています。ロボティクスの未来は、ロボットが互いに学び合い、そして最も重要なことは、研究者が互いに学び合えるようにすることにかかっていると言えます。（Sanketi 氏）

【via VentureBeat】 @VentureBeat

【原文】