
昨年末に学術雑誌Scienceに掲載された論文で、Googleの親会社であるAlphabetのDeepMindは、チェスや将棋、囲碁を自身で学習しマスターすることができるAIシステムAlphaZeroについての詳細を公開した。いずれのケースでも、世界チャンピオンを打ち負かす、全ての情報が揃った(つまりゲーム内でそれまでに行われた行動に基づいて次の意思決定が行われる)2人用のゲームを学習させる方法について示した。
しかし、AlphaZeroには自分がプレイすることを課せられたゲームのルールを知っているという優位性があった。DeepMindのチームは、ルールを自ら学習することができる高性能の機械学習モデルを追求するために、ツリーベースの探索(ツリーはセット内から情報を見つけるために使用されるデータ構造)と学習済みモデルを組み合わせたMuZeroを考案した。
本日(訳注:原文公開日は12月23日)公開されたNature誌の中で説明されているように、MuZeroはゲーム内容に最も関連する指標を予測することで、Atariの57本のゲームにある囲碁やチェス、将棋におけるAlphaZeroと同等レベルといえる業界屈指のパフォーマンスを達成した。DeepMindの強化学習チームを率いるDave Silver氏によると、MuZeroは、特にシミュレーターや明文化されたルールがない、多くの領域で学習メソッドを確立する道を開くと言う。彼は先週の電話インタビューでVentureBeatにこう語っている。
「世界は非常に混沌とした場所であるため、AIが実際にできることを広げていくためにMuZeroは本当に重要だと思います。世界は未知数であり、誰も私たちに『これがまさに世界の仕組みだ』と言わせてくれるようなルールブックを与えてはくれません。AIを世界に解き放ち、誰もルールブックをくれない問題に対して先を見越した計画を立てたいと望むならMuZeroは本当にとても必要なものです」。
【via VentureBeat】 @VentureBeat
BRIDGE Members
BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。- 会員限定記事・毎月3本
- コミュニティDiscord招待