DeepMind「MuZero」の破壊力：モデルベースの強化学習（2/4）

Photo by **JESHOOTS.com** from **Pexels**

モデルベースの強化学習

（前回からのつづき）計画を立てる能力によって人間は問題を解決し、迅速に将来について決定を下すことが可能だ。 AI領域ではこれを、先読みツリー探索と呼ばれるアプローチもしくはモデルベースのプランニングによって研究者が再現しようとした。 AlphaZeroなどの先読み探索を用いたプログラムは、チェッカー、チェス、さらにはポーカーなどの古典的なゲームで目覚ましい成功を収めている。

ただし先読み探索では、ゲームのルールや正確な物理シミュレータなど、環境の変化に関する情報が必要だ。モデルベースのシステムは、環境の詳細なモデルを学習しそれを使用したプランニングを目的としている。しかしモデリングの複雑さは、歴史的にもこれらのアルゴリズムが視覚情報が豊富な領域で争うことの困難さを意味している。

この点についてMuZeroは、AlphaZeroのモデルと先読みのツリー探索を組み合わせている。 MuZeroではアルゴリズムを用いて環境全体をモデル化しようとするのではなく、意思決定プロセスにとって重要であると判断した部分のみをモデル化する。

MuZeroでは観測結果（つまり、囲碁の盤面やAtariのゲーム画面の画像）を受け取ると、それらを数学的表現で「非表示状態」と呼ばれる状態に変換する。この非表示状態は、一つ前の状態と仮想的な次のアクションを受け取るプロセスによって繰り返し更新される。すべてのステップで、モデルは行動選択の方策（例：ゲーム内における移動）、価値関数（例：予測上の勝者）、および即時報酬（例：移動によって獲得されるポイント）を予測する。

MuZeroは直感的に、正確なプランニングにつながるゲームのルールや変化を内部で構築する。

これはDeepMindの研究者が説明しているように強化学習の1つの形態ーー MuZeroとAlphaZeroの中心的手法で、報酬によりAIエージェントを目標に向けて駆動させるーーで、ここにはモデルも含まれる。この形式は次のステップを予測する「状態遷移モデル」と報酬を予測する「報酬モデル」を使用し、特定の環境を中間ステップとしてモデル化する。

モデルベースの強化学習は通常、ピクセルレベルで観測するストリームを直接モデリングすることに重点を置くが、このレベルの粒度では大規模な環境下では計算コストが高くなる。実際、Atariのゲームのような視覚的に複雑な領域でのプランニングを容易に行える既存のモデル構築方法は存在しない。そのためデータ効率の点でさえ適切に調整されたモデルフリーの手法に遅れをとる結果となる。

DeepMindはMuZeroでは代わりに、価値関数のエンドツーエンド予測に焦点を当てたアプローチを追求した。アルゴリズムは、報酬の合計として期待される値が実際のアクションに基づく報酬の値と一致するようトレーニングされる。プログラムは環境状態のセマンティクスを持たず、ポリシー、値、および報酬の予測のみを出力する。これは、AlphaZeroの探索と同様のアルゴリズム（シングルエージェントドメインと中間報酬を可能にするよう一般化されているが）を使用し、推奨するポリシーと推定値を生成する。これらは順に、ゲーム内での行動と最終結果を伝えるために使用される。（次につづく）

【via VentureBeat】 @VentureBeat

【原文】