DeepMind「MuZero」の破壊力:データのない現実世界にどう取り組む(3/4)

SHARE:
Photo by JESHOOTS.com from Pexels

トレーニングと実験

(前回からのつづき)DeepMindチームはMuZeroを古典的なボードゲームである囲碁、チェス、将棋で困難な計画問題のベンチマークとして、またオープンソースのAtari Learning Environmentの57のゲームすべてには「視覚的に複雑な」強化学習領域のベンチマークとして用いた。彼らは、ボードゲームではサイズ2,048、Atariのゲームではサイズ1,024の5つの仮想ステップと100万のミニバッチ(トレーニングデータ用の小さなバッチ)でプログラムのトレーニングを行い、囲碁、チェス、将棋では各探索ごとに1手あたり800回のシミュレーション、Atariでは各探索ごとに50回のシミュレーションを行った。

囲碁に関しては、全体的な計算量が少ないにもかかわらず、MuZeroはAlphaZeroのパフォーマンスをわずかに上回った。これは、MuZeroがその位置関係をより深く理解した可能性がある証拠だと研究者は述べている。 Atariに関しては、全57ゲームを通して正規化された平均値と中央値のスコア両方でこれまでを上回る値に達し、57ゲーム中42ゲームで以前の最先端の手法(R2D2)を上回り、全てのゲームでこれまでベストとされているモデルベースアプローチを上回った。

次に、研究者はサンプル効率を向上させるために最適化されたバージョンのMuZero(MuZero Reanalyze)による評価を行った。これは、1ゲームあたり2億から200億フレームセットの経験データを使用し、75個のAtariゲームに用いた。 MuZero Reanalyzeは、環境から新しいデータを収集するのではなく、学習したモデルを繰り返し使用してプランニングを改善することができる。

DeepMindチームによれば、これまでの最先端であるモデルフリーアプローチのIMPALA、Rainbow、およびLASERの正規化された中央値のスコアはそれぞれ192%、231%、および431%だったのと比較して、MuZero Reanalyzeは731%となったことを報告している。チームはまた、MuZero Reanalyzeのトレーニング時間が大幅に短縮されたことにも注目している。トレーニングに必要な時間はRainbowが10日間であるのに対してMuZero Reanalyzeでは12時間だ。DeepMindのスタッフでソフトウェアエンジニアのJulian SchrittwieserはVentureBeatにこう説明してくれた。

「リソースの面では、環境による影響に注意を払えば、実はMuZeroによって学習したモデルの方がはるかに効率的にタスクを覚えることができます。基本的に過去の経験を振り返り、モデルを使用したデータの再計画(再分析)が可能なため、MuZeroは同じデータからより多くのことを繰り返し学習できます。実際に現実世界の問題に取り組みたい場合はデータがほとんどないことも多いため、これは非常に重要なことです」。

最後に、MuZeroでモデルが果たした役割をよりよく理解するため、共著者は囲碁とAtariのゲーム「ミズ・パックマン」にフォーカスしている。彼らは完全なモデルを使用したAlphaZeroでの探索と、学習済みモデルを使用したMuZeroでの探索パフォーマンスを比較し、MuZeroがトレーニング済みモデルよりも大きな探索を行った場合でも、完全なモデルと同等のパフォーマンスになることがわかった。実際、1回の移動あたりのシミュレーション数はわずか6〜7回(これはパックマンで可能な8つのアクションをすべてカバーするために必要なシミュレーション数よりも少ない)で、MuZeroは効果的なポリシーを学び「迅速な改善」を行っている。

囲碁の場合では、研究者が1手あたりにかかる時間を10分の1秒から50秒に増やすと、MuZeroの強さはプレーヤーの相対的なスキル尺度であるEloレーティングで1,000以上増加することが明らかになった(大まかにいうと、強いアマチュアプレーヤーと一流のプロプレーヤー位の差である)。これは、MuZeroがアクションと状況を一般化することが可能であり、効果的に学習するためにすべての可能性を徹底的に探索する必要がないことを示している。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。
  • 会員限定記事・毎月3本
  • コミュニティDiscord招待
無料メンバー登録