スタンフォード大とMeta、人と物体が自然に同期する動きを生み出すAI「CHOIS」を開発

Image credit: Stanford University, Meta’s FAIR

スタンフォード大学と Meta の Facebook AI Research（FAIR）ラボの研究者らは、テキスト記述のみに基づいて、仮想の人間と物体との間の自然で同期した動きを生成できる画期的な AI システムを開発した。

CHOIS（Controllable Human-Object Interaction Synthesis）と名付けられた新システムは、最新の条件拡散モデル技術を用いて、「テーブルを頭上に持ち上げ、歩き、テーブルを置く」といったシームレスで正確なインタラクションを実現する。

arXiv の論文で発表されたこの研究は、仮想人間が人間と同じように流動的に言語コマンドを理解し反応できる未来を垣間見せてくれる。

3D シーン内の言語記述から連続的な人間とオブジェクトのインタラクションを生成するには、いくつかの課題があると研究者らは指摘している。

生成されたモーションがリアルで同期していること、人間の手と物体の適切な接触が保たれていること、物体の動きが人間の動作と因果関係があることを確認する必要があったのだ。

仕組み

CHOIS は、3D 環境における人間と物体の相互作用を合成するユニークなアプローチだ。CHOIS は、詳細な一連の動きをシミュレートできる生成モデルの一種である条件付き拡散モデルを中核に用いている。

CHOIS は、人間と物体の位置の初期状態と、希望するタスクの言語記述が与えられると、タスクの完了に至る一連の動作を生成する。

例えば、ランプをソファの近くに移動させるという指示があった場合、CHOIS はこの指示を理解し、人間のアバターがランプを手に取り、ソファの近くに置くというリアルなアニメーションを作成する。

CHOIS が特にユニークなのは、これらのアニメーションをガイドするために、まばらなオブジェクトのウェイポイント（経路上の地点情報）と言語記述を使用している部分だ。ウェイポイントは、オブジェクトの軌跡の重要なポイントを示すマーカーとして機能し、動きが物理的にもっともらしいだけでなく、言語入力によって説明された高レベルの目標に沿ったものであることを保証する。

CHOIS の独自性は、言語理解と物理シミュレーションの高度な連携にもある。従来のモデルでは、言語と空間的・物理的な動作との関連付けに苦労することが多く、特に、リアルであることを維持するために多くの要素を考慮しなければならない。より長い期間にわたる相互作用において、言語と空間的および物理的動作を相関させるのに苦労することがよくある。

CHOIS は、言語記述の背後にある意図とスタイルを解釈し、それを人体と対象物の制約を尊重した一連の身体動作に変換することで、このギャップを埋める。

このシステムが特に画期的なのは、物体に触れる手などの接触点が正確に表現され、物体の動きが人間のアバターが及ぼす力と一致することを保証している点である。さらに、このモデルは、これらの物理的制約を強制するために、学習と生成の段階で特殊な損失関数とガイダンスを組み込んでいる。これは、人間のような方法で物理世界を理解し、相互作用できる AI の作成における重要な前進である。

コンピュータグラフィックス、AI、ロボティクスへの影響

CHOIS システムがコンピュータグラフィックスに与える影響は、特にアニメーションとバーチャルリアリティの領域において非常に大きい。AI が自然言語の指示を解釈し、リアルな人間とオブジェクトのインタラクションを生成できるようにすることで、CHOIS は複雑なシーンをアニメーション化するのに必要な時間と労力を大幅に削減できるだろう。

アニメーターは、この技術を使って、従来は手間と時間がかかるキーフレームアニメーションを必要とするシーケンスを作成できる可能性がある。さらに、バーチャルリアリティ環境において、CHOIS は、より没入的でインタラクティブな体験につながる可能性がある。ユーザは、自然言語を通じてバーチャルキャラクターに命令し、彼らが本物そっくりの精度でタスクを実行するのを見ることができるからだ。このようなインタラクションの高度化により、VR 体験は、スクリプト化された堅苦しいイベントから、ユーザの入力にリアルに反応するダイナミックな環境へと変化する可能性がある。

AI とロボティクスの分野において、CHOIS はより自律的で文脈を認識するシステムへの大きな一歩となる。あらかじめプログラムされたルーチンに制限されがちなロボットは、CHOIS のようなシステムを使うことで、現実世界をよりよく理解し、人間の言語で記述されたタスクを実行できるようになるだろう。

これは、医療、接客、家庭環境など、物理的な空間でさまざまなタスクを理解し、実行する能力が重要なサービスロボットにとって、特に大きな変化をもたらす可能性がある。

AIにとって、言語と視覚情報を同時に処理してタスクを実行する能力は、これまでは主に人間の特性であった状況や文脈を理解するレベルの実現に一歩近づくものである。このことは、複雑なタスクにおいて、人間の指示の「何を」だけでなく「どのように」を理解することができ、これまでにない柔軟性をもって新たな課題に適応する、より有用なアシスタントとなる AI システムにつながる可能性がある。

有望な結果と今後の展望

スタンフォード大学と Meta の研究者たちは、コンピュータービジョン（映像解析）、NLP（自然言語処理）、ロボティクスの交差点にある極めて困難な問題で重要な進展を遂げた。

研究チームは、今回の成果は、多様な3D 環境における人間の連続的な行動をシミュレートする高度なAIシステムの実現に向けた重要な一歩であると考えている。また、3D シーンや言語入力から人間とオブジェクトのインタラクションを合成するさらなる研究への扉を開き、将来的にはより洗練された AI システムにつながる可能性もある。

【via VentureBeat】 @VentureBeat

【原文】