タグ 【MuZeroの秘密】

DeepMind「MuZero」の破壊力:知識を学ぶ人工知能、現実世界への応用(4/4)

SHARE:

現実世界への応用 (前回からのつづき)今後数カ月に渡りDeepMindは、MuZeroやモデルベースの強化学習プログラムの現実的な商用化の可能性の見極めにフォーカスする予定だ。 1つはインターネットトラフィックに関してであり、Silver氏によるとそれは動画ストリーミング領域だ。 (2019年には、すべての消費者の帯域幅の推定80%を動画が占めた。)動画はデジタルデータストリームをエンコードおよび…

Photo by JESHOOTS.com from Pexels

現実世界への応用

(前回からのつづき)今後数カ月に渡りDeepMindは、MuZeroやモデルベースの強化学習プログラムの現実的な商用化の可能性の見極めにフォーカスする予定だ。 1つはインターネットトラフィックに関してであり、Silver氏によるとそれは動画ストリーミング領域だ。 (2019年には、すべての消費者の帯域幅の推定80%を動画が占めた。)動画はデジタルデータストリームをエンコードおよびデコードするコーデックを使用して圧縮され、これらのコーデックには動画の種類によって調整する必要のあるパラメータを持っている。

「動画を圧縮してサイズを小さくすることができれば、すべてのインターネットトラフィックを大幅に節約できます。次にどの動画を見るかはわからないため、現実世界の多くの特徴を備えている私たちの学習アルゴリズムを適用できます。この種のプロジェクトは、将来性が非常に期待できるという初期段階での結果が得られ始めた一例にすぎません」(Silver氏)。

これに加えてDeepMindは、個別化医療や捜索救助など、環境の特徴が不明な現実のシナリオでMuZeroが問題を解決することを期待している。これは、MuZeroには制限がないことを意味するものではない。ボードゲームのディプロマシーHanabiのように複数の人々による意思決定が同時に行われ、意思決定にあたっての調整もしなければならないような情報が不完全な状況では、その複雑さゆえにモデル化することは不可能である。 (偶然にも、DeepMindは、ディプロマシーとそれに類似した状況設定に取り組むためのアルゴリズムの別のチームで開発している)。しかしSilver氏は、現在の状況であってもMuZeroは、特に強化学習に関して、AIや機械学習の分野における大きな進歩の象徴であると考えている。

「私たちが行ったことは、ゲームのルールを完璧に理解した上で動作するように設計されたアルゴリズムを採用し、そこからルールに関する知識を取り除き、ゲームをプレイして勝敗を経験しながらトライ&エラーでこのアルゴリズムを学習するようにしたことです。このルールに関する知識を奪ったにもかかわらず、MuZeroは、この完璧な知識が提供された元のバージョンのアルゴリズムと同じくらい迅速に超人的なパフォーマンスを達成することを学びました。私にとって、科学的な観点から見てこれは本当の意味での変化です。これまでよりもはるかに幅広い範囲の現実の問題にこれらのことが適用できるようになるでしょう」(Silver氏)。

【via VentureBeat】 @VentureBeat

【原文】

DeepMind「MuZero」の破壊力:データのない現実世界にどう取り組む(3/4)

SHARE:

トレーニングと実験 (前回からのつづき)DeepMindチームはMuZeroを古典的なボードゲームである囲碁、チェス、将棋で困難な計画問題のベンチマークとして、またオープンソースのAtari Learning Environmentの57のゲームすべてには「視覚的に複雑な」強化学習領域のベンチマークとして用いた。彼らは、ボードゲームではサイズ2,048、Atariのゲームではサイズ1,024の5つ…

Photo by JESHOOTS.com from Pexels

トレーニングと実験

(前回からのつづき)DeepMindチームはMuZeroを古典的なボードゲームである囲碁、チェス、将棋で困難な計画問題のベンチマークとして、またオープンソースのAtari Learning Environmentの57のゲームすべてには「視覚的に複雑な」強化学習領域のベンチマークとして用いた。彼らは、ボードゲームではサイズ2,048、Atariのゲームではサイズ1,024の5つの仮想ステップと100万のミニバッチ(トレーニングデータ用の小さなバッチ)でプログラムのトレーニングを行い、囲碁、チェス、将棋では各探索ごとに1手あたり800回のシミュレーション、Atariでは各探索ごとに50回のシミュレーションを行った。

囲碁に関しては、全体的な計算量が少ないにもかかわらず、MuZeroはAlphaZeroのパフォーマンスをわずかに上回った。これは、MuZeroがその位置関係をより深く理解した可能性がある証拠だと研究者は述べている。 Atariに関しては、全57ゲームを通して正規化された平均値と中央値のスコア両方でこれまでを上回る値に達し、57ゲーム中42ゲームで以前の最先端の手法(R2D2)を上回り、全てのゲームでこれまでベストとされているモデルベースアプローチを上回った。

次に、研究者はサンプル効率を向上させるために最適化されたバージョンのMuZero(MuZero Reanalyze)による評価を行った。これは、1ゲームあたり2億から200億フレームセットの経験データを使用し、75個のAtariゲームに用いた。 MuZero Reanalyzeは、環境から新しいデータを収集するのではなく、学習したモデルを繰り返し使用してプランニングを改善することができる。

DeepMindチームによれば、これまでの最先端であるモデルフリーアプローチのIMPALA、Rainbow、およびLASERの正規化された中央値のスコアはそれぞれ192%、231%、および431%だったのと比較して、MuZero Reanalyzeは731%となったことを報告している。チームはまた、MuZero Reanalyzeのトレーニング時間が大幅に短縮されたことにも注目している。トレーニングに必要な時間はRainbowが10日間であるのに対してMuZero Reanalyzeでは12時間だ。DeepMindのスタッフでソフトウェアエンジニアのJulian SchrittwieserはVentureBeatにこう説明してくれた。

「リソースの面では、環境による影響に注意を払えば、実はMuZeroによって学習したモデルの方がはるかに効率的にタスクを覚えることができます。基本的に過去の経験を振り返り、モデルを使用したデータの再計画(再分析)が可能なため、MuZeroは同じデータからより多くのことを繰り返し学習できます。実際に現実世界の問題に取り組みたい場合はデータがほとんどないことも多いため、これは非常に重要なことです」。

最後に、MuZeroでモデルが果たした役割をよりよく理解するため、共著者は囲碁とAtariのゲーム「ミズ・パックマン」にフォーカスしている。彼らは完全なモデルを使用したAlphaZeroでの探索と、学習済みモデルを使用したMuZeroでの探索パフォーマンスを比較し、MuZeroがトレーニング済みモデルよりも大きな探索を行った場合でも、完全なモデルと同等のパフォーマンスになることがわかった。実際、1回の移動あたりのシミュレーション数はわずか6〜7回(これはパックマンで可能な8つのアクションをすべてカバーするために必要なシミュレーション数よりも少ない)で、MuZeroは効果的なポリシーを学び「迅速な改善」を行っている。

囲碁の場合では、研究者が1手あたりにかかる時間を10分の1秒から50秒に増やすと、MuZeroの強さはプレーヤーの相対的なスキル尺度であるEloレーティングで1,000以上増加することが明らかになった(大まかにいうと、強いアマチュアプレーヤーと一流のプロプレーヤー位の差である)。これは、MuZeroがアクションと状況を一般化することが可能であり、効果的に学習するためにすべての可能性を徹底的に探索する必要がないことを示している。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

DeepMind「MuZero」の破壊力:モデルベースの強化学習(2/4)

SHARE:

モデルベースの強化学習 (前回からのつづき)計画を立てる能力によって人間は問題を解決し、迅速に将来について決定を下すことが可能だ。 AI領域ではこれを、先読みツリー探索と呼ばれるアプローチもしくはモデルベースのプランニングによって研究者が再現しようとした。 AlphaZeroなどの先読み探索を用いたプログラムは、チェッカー、チェス、さらにはポーカーなどの古典的なゲームで目覚ましい成功を収めている。…

Photo by JESHOOTS.com from Pexels

モデルベースの強化学習

(前回からのつづき)計画を立てる能力によって人間は問題を解決し、迅速に将来について決定を下すことが可能だ。 AI領域ではこれを、先読みツリー探索と呼ばれるアプローチもしくはモデルベースのプランニングによって研究者が再現しようとした。 AlphaZeroなどの先読み探索を用いたプログラムは、チェッカー、チェス、さらにはポーカーなどの古典的なゲームで目覚ましい成功を収めている。

ただし先読み探索では、ゲームのルールや正確な物理シミュレータなど、環境の変化に関する情報が必要だ。モデルベースのシステムは、環境の詳細なモデルを学習しそれを使用したプランニングを目的としている。しかしモデリングの複雑さは、歴史的にもこれらのアルゴリズムが視覚情報が豊富な領域で争うことの困難さを意味している。

この点についてMuZeroは、AlphaZeroのモデルと先読みのツリー探索を組み合わせている。 MuZeroではアルゴリズムを用いて環境全体をモデル化しようとするのではなく、意思決定プロセスにとって重要であると判断した部分のみをモデル化する。

MuZeroでは観測結果(つまり、囲碁の盤面やAtariのゲーム画面の画像)を受け取ると、それらを数学的表現で「非表示状態」と呼ばれる状態に変換する。この非表示状態は、一つ前の状態と仮想的な次のアクションを受け取るプロセスによって繰り返し更新される。すべてのステップで、モデルは行動選択の方策(例:ゲーム内における移動)、価値関数(例:予測上の勝者)、および即時報酬(例:移動によって獲得されるポイント)を予測する。

MuZeroは直感的に、正確なプランニングにつながるゲームのルールや変化を内部で構築する。

これはDeepMindの研究者が説明しているように強化学習の1つの形態 ーー MuZeroとAlphaZeroの中心的手法で、報酬によりAIエージェントを目標に向けて駆動させるーーで、ここにはモデルも含まれる。この形式は次のステップを予測する「状態遷移モデル」と報酬を予測する「報酬モデル」を使用し、特定の環境を中間ステップとしてモデル化する。

モデルベースの強化学習は通常、ピクセルレベルで観測するストリームを直接モデリングすることに重点を置くが、このレベルの粒度では大規模な環境下では計算コストが高くなる。実際、Atariのゲームのような視覚的に複雑な領域でのプランニングを容易に行える既存のモデル構築方法は存在しない。そのためデータ効率の点でさえ適切に調整されたモデルフリーの手法に遅れをとる結果となる。

DeepMindはMuZeroでは代わりに、価値関数のエンドツーエンド予測に焦点を当てたアプローチを追求した。アルゴリズムは、報酬の合計として期待される値が実際のアクションに基づく報酬の値と一致するようトレーニングされる。プログラムは環境状態のセマンティクスを持たず、ポリシー、値、および報酬の予測のみを出力する。これは、AlphaZeroの探索と同様のアルゴリズム(シングルエージェントドメインと中間報酬を可能にするよう一般化されているが)を使用し、推奨するポリシーと推定値を生成する。これらは順に、ゲーム内での行動と最終結果を伝えるために使用される。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

DeepMind「MuZero」の破壊力:人工知能がチェスを学ぶ方法(1/4)

SHARE:

昨年末に学術雑誌Scienceに掲載された論文で、Googleの親会社であるAlphabetのDeepMindは、チェスや将棋、囲碁を自身で学習しマスターすることができるAIシステムAlphaZeroについての詳細を公開した。いずれのケースでも、世界チャンピオンを打ち負かす、全ての情報が揃った(つまりゲーム内でそれまでに行われた行動に基づいて次の意思決定が行われる)2人用のゲームを学習させる方法に…

Photo by JESHOOTS.com from Pexels

昨年末に学術雑誌Scienceに掲載された論文で、Googleの親会社であるAlphabetのDeepMindは、チェスや将棋、囲碁を自身で学習しマスターすることができるAIシステムAlphaZeroについての詳細を公開した。いずれのケースでも、世界チャンピオンを打ち負かす、全ての情報が揃った(つまりゲーム内でそれまでに行われた行動に基づいて次の意思決定が行われる)2人用のゲームを学習させる方法について示した。

しかし、AlphaZeroには自分がプレイすることを課せられたゲームのルールを知っているという優位性があった。DeepMindのチームは、ルールを自ら学習することができる高性能の機械学習モデルを追求するために、ツリーベースの探索(ツリーはセット内から情報を見つけるために使用されるデータ構造)と学習済みモデルを組み合わせたMuZeroを考案した。

本日(訳注:原文公開日は12月23日)公開されたNature誌の中で説明されているように、MuZeroはゲーム内容に最も関連する指標を予測することで、Atariの57本のゲームにある囲碁やチェス、将棋におけるAlphaZeroと同等レベルといえる業界屈指のパフォーマンスを達成した。DeepMindの強化学習チームを率いるDave Silver氏によると、MuZeroは、特にシミュレーターや明文化されたルールがない、多くの領域で学習メソッドを確立する道を開くと言う。彼は先週の電話インタビューでVentureBeatにこう語っている。

「世界は非常に混沌とした場所であるため、AIが実際にできることを広げていくためにMuZeroは本当に重要だと思います。世界は未知数であり、誰も私たちに『これがまさに世界の仕組みだ』と言わせてくれるようなルールブックを与えてはくれません。AIを世界に解き放ち、誰もルールブックをくれない問題に対して先を見越した計画を立てたいと望むならMuZeroは本当にとても必要なものです」。

(次につづく)

【via VentureBeat】 @VentureBeat

【原文】