DeepMind「MuZero」の破壊力:知識を学ぶ人工知能、現実世界への応用(4/4)

SHARE:
Photo by JESHOOTS.com from Pexels

現実世界への応用

(前回からのつづき)今後数カ月に渡りDeepMindは、MuZeroやモデルベースの強化学習プログラムの現実的な商用化の可能性の見極めにフォーカスする予定だ。 1つはインターネットトラフィックに関してであり、Silver氏によるとそれは動画ストリーミング領域だ。 (2019年には、すべての消費者の帯域幅の推定80%を動画が占めた。)動画はデジタルデータストリームをエンコードおよびデコードするコーデックを使用して圧縮され、これらのコーデックには動画の種類によって調整する必要のあるパラメータを持っている。

「動画を圧縮してサイズを小さくすることができれば、すべてのインターネットトラフィックを大幅に節約できます。次にどの動画を見るかはわからないため、現実世界の多くの特徴を備えている私たちの学習アルゴリズムを適用できます。この種のプロジェクトは、将来性が非常に期待できるという初期段階での結果が得られ始めた一例にすぎません」(Silver氏)。

これに加えてDeepMindは、個別化医療や捜索救助など、環境の特徴が不明な現実のシナリオでMuZeroが問題を解決することを期待している。これは、MuZeroには制限がないことを意味するものではない。ボードゲームのディプロマシーHanabiのように複数の人々による意思決定が同時に行われ、意思決定にあたっての調整もしなければならないような情報が不完全な状況では、その複雑さゆえにモデル化することは不可能である。 (偶然にも、DeepMindは、ディプロマシーとそれに類似した状況設定に取り組むためのアルゴリズムの別のチームで開発している)。しかしSilver氏は、現在の状況であってもMuZeroは、特に強化学習に関して、AIや機械学習の分野における大きな進歩の象徴であると考えている。

「私たちが行ったことは、ゲームのルールを完璧に理解した上で動作するように設計されたアルゴリズムを採用し、そこからルールに関する知識を取り除き、ゲームをプレイして勝敗を経験しながらトライ&エラーでこのアルゴリズムを学習するようにしたことです。このルールに関する知識を奪ったにもかかわらず、MuZeroは、この完璧な知識が提供された元のバージョンのアルゴリズムと同じくらい迅速に超人的なパフォーマンスを達成することを学びました。私にとって、科学的な観点から見てこれは本当の意味での変化です。これまでよりもはるかに幅広い範囲の現実の問題にこれらのことが適用できるようになるでしょう」(Silver氏)。

【via VentureBeat】 @VentureBeat

【原文】