DeepMind「MuZero」の破壊力:データのない現実世界にどう取り組む(3/4)

SHARE:
Photo by JESHOOTS.com from Pexels

トレーニングと実験

(前回からのつづき)DeepMindチームはMuZeroを古典的なボードゲームである囲碁、チェス、将棋で困難な計画問題のベンチマークとして、またオープンソースのAtari Learning Environmentの57のゲームすべてには「視覚的に複雑な」強化学習領域のベンチマークとして用いた。彼らは、ボードゲームではサイズ2,048、Atariのゲームではサイズ1,024の5つの仮想ステップと100万のミニバッチ(トレーニングデータ用の小さなバッチ)でプログラムのトレーニングを行い、囲碁、チェス、将棋では各探索ごとに1手あたり800回のシミュレーション、Atariでは各探索ごとに50回のシミュレーションを行った。

囲碁に関しては、全体的な計算量が少ないにもかかわらず、MuZeroはAlphaZeroのパフォーマンスをわずかに上回った。これは、MuZeroがその位置関係をより深く理解した可能性がある証拠だと研究者は述べている。 Atariに関しては、全57ゲームを通して正規化された平均値と中央値のスコア両方でこれまでを上回る値に達し、57ゲーム中42ゲームで以前の最先端の手法(R2D2)を上回り、全てのゲームでこれまでベストとされているモデルベースアプローチを上回った。

次に、研究者はサンプル効率を向上させるために最適化されたバージョンのMuZero(MuZero Reanalyze)による評価を行った。これは、1ゲームあたり2億から200億フレームセットの経験データを使用し、75個のAtariゲームに用いた。 MuZero Reanalyzeは、環境から新しいデータを収集するのではなく、学習したモデルを繰り返し使用してプランニングを改善することができる。

DeepMindチームによれば、これまでの最先端であるモデルフリーアプローチのIMPALA、Rainbow、およびLASERの正規化された中央値のスコアはそれぞれ192%、231%、および431%だったのと比較して、MuZero Reanalyzeは731%となったことを報告している。チームはまた、MuZero Reanalyzeのトレーニング時間が大幅に短縮されたことにも注目している。トレーニングに必要な時間はRainbowが10日間であるのに対してMuZero Reanalyzeでは12時間だ。DeepMindのスタッフでソフトウェアエンジニアのJulian SchrittwieserはVentureBeatにこう説明してくれた。

「リソースの面では、環境による影響に注意を払えば、実はMuZeroによって学習したモデルの方がはるかに効率的にタスクを覚えることができます。基本的に過去の経験を振り返り、モデルを使用したデータの再計画(再分析)が可能なため、MuZeroは同じデータからより多くのことを繰り返し学習できます。実際に現実世界の問題に取り組みたい場合はデータがほとんどないことも多いため、これは非常に重要なことです」。

最後に、MuZeroでモデルが果たした役割をよりよく理解するため、共著者は囲碁とAtariのゲーム「ミズ・パックマン」にフォーカスしている。彼らは完全なモデルを使用したAlphaZeroでの探索と、学習済みモデルを使用したMuZeroでの探索パフォーマンスを比較し、MuZeroがトレーニング済みモデルよりも大きな探索を行った場合でも、完全なモデルと同等のパフォーマンスになることがわかった。実際、1回の移動あたりのシミュレーション数はわずか6〜7回(これはパックマンで可能な8つのアクションをすべてカバーするために必要なシミュレーション数よりも少ない)で、MuZeroは効果的なポリシーを学び「迅速な改善」を行っている。

囲碁の場合では、研究者が1手あたりにかかる時間を10分の1秒から50秒に増やすと、MuZeroの強さはプレーヤーの相対的なスキル尺度であるEloレーティングで1,000以上増加することが明らかになった(大まかにいうと、強いアマチュアプレーヤーと一流のプロプレーヤー位の差である)。これは、MuZeroがアクションと状況を一般化することが可能であり、効果的に学習するためにすべての可能性を徹底的に探索する必要がないことを示している。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

DeepMind「MuZero」の破壊力:モデルベースの強化学習(2/4)

SHARE:

モデルベースの強化学習 (前回からのつづき)計画を立てる能力によって人間は問題を解決し、迅速に将来について決定を下すことが可能だ。 AI領域ではこれを、先読みツリー探索と呼ばれるアプローチもしくはモデルベースのプランニングによって研究者が再現しようとした。 AlphaZeroなどの先読み探索を用いたプログラムは、チェッカー、チェス、さらにはポーカーなどの古典的なゲームで目覚ましい成功を収めている。…

Photo by JESHOOTS.com from Pexels

モデルベースの強化学習

(前回からのつづき)計画を立てる能力によって人間は問題を解決し、迅速に将来について決定を下すことが可能だ。 AI領域ではこれを、先読みツリー探索と呼ばれるアプローチもしくはモデルベースのプランニングによって研究者が再現しようとした。 AlphaZeroなどの先読み探索を用いたプログラムは、チェッカー、チェス、さらにはポーカーなどの古典的なゲームで目覚ましい成功を収めている。

ただし先読み探索では、ゲームのルールや正確な物理シミュレータなど、環境の変化に関する情報が必要だ。モデルベースのシステムは、環境の詳細なモデルを学習しそれを使用したプランニングを目的としている。しかしモデリングの複雑さは、歴史的にもこれらのアルゴリズムが視覚情報が豊富な領域で争うことの困難さを意味している。

この点についてMuZeroは、AlphaZeroのモデルと先読みのツリー探索を組み合わせている。 MuZeroではアルゴリズムを用いて環境全体をモデル化しようとするのではなく、意思決定プロセスにとって重要であると判断した部分のみをモデル化する。

MuZeroでは観測結果(つまり、囲碁の盤面やAtariのゲーム画面の画像)を受け取ると、それらを数学的表現で「非表示状態」と呼ばれる状態に変換する。この非表示状態は、一つ前の状態と仮想的な次のアクションを受け取るプロセスによって繰り返し更新される。すべてのステップで、モデルは行動選択の方策(例:ゲーム内における移動)、価値関数(例:予測上の勝者)、および即時報酬(例:移動によって獲得されるポイント)を予測する。

MuZeroは直感的に、正確なプランニングにつながるゲームのルールや変化を内部で構築する。

これはDeepMindの研究者が説明しているように強化学習の1つの形態 ーー MuZeroとAlphaZeroの中心的手法で、報酬によりAIエージェントを目標に向けて駆動させるーーで、ここにはモデルも含まれる。この形式は次のステップを予測する「状態遷移モデル」と報酬を予測する「報酬モデル」を使用し、特定の環境を中間ステップとしてモデル化する。

モデルベースの強化学習は通常、ピクセルレベルで観測するストリームを直接モデリングすることに重点を置くが、このレベルの粒度では大規模な環境下では計算コストが高くなる。実際、Atariのゲームのような視覚的に複雑な領域でのプランニングを容易に行える既存のモデル構築方法は存在しない。そのためデータ効率の点でさえ適切に調整されたモデルフリーの手法に遅れをとる結果となる。

DeepMindはMuZeroでは代わりに、価値関数のエンドツーエンド予測に焦点を当てたアプローチを追求した。アルゴリズムは、報酬の合計として期待される値が実際のアクションに基づく報酬の値と一致するようトレーニングされる。プログラムは環境状態のセマンティクスを持たず、ポリシー、値、および報酬の予測のみを出力する。これは、AlphaZeroの探索と同様のアルゴリズム(シングルエージェントドメインと中間報酬を可能にするよう一般化されているが)を使用し、推奨するポリシーと推定値を生成する。これらは順に、ゲーム内での行動と最終結果を伝えるために使用される。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

ケニアで深刻化する血液問題に取り組む、デジタルヘルスプラットフォーム「Damu-Sasa」

ピックアップ:Kenyan e-health startup Damu-Sasa secures $20k from Villgro Africa to enhance COVID-19 capabilities – Disrupt Africa 重要なポイント:献血に対する理解不足から国内での協力者が少なく、以前から慢性的に医療用の血液不足が問題視されていたケニアでは、新型コロナウィ…

Photo by cottonbro from Pexels

ピックアップ:Kenyan e-health startup Damu-Sasa secures $20k from Villgro Africa to enhance COVID-19 capabilities – Disrupt Africa

重要なポイント:献血に対する理解不足から国内での協力者が少なく、以前から慢性的に医療用の血液不足が問題視されていたケニアでは、新型コロナウィルスの流行で事態はより深刻となった。そんな中、同国で献血バリューチェーン向けにプラットフォームを提供しているDamu-Sasaが、献血者の増加や効率的な血液管理に貢献している。

詳細な情報:ケニアのナイロビを拠点にするデジタルヘルス・スタートアップDamu-Sasaは、採血、在庫管理、輸血管理、など、エンドツーエンドの医療用血液バリューチェーンを統合的に管理するプラットフォームを同国内向けに提供している。

  • Damu-Sasaのプラットフォームはクラウドベースで、バリューチェーンに関与する全ての人々に関連するアクティビティを一括で情報提供することが可能なため、 データによる意思決定の強化や効率的な血液の管理を支援し、 関連するコストを削減する。
  • 病院が献血協力者や病院間で必要な血液を調達するのを支援し同時に、血液製剤のスクリーニング、準備、在庫管理、輸血管理もサポートするなど、バリューチェーン全体で同プラットフォームは機能する。また、必要に応じた登録者への献血協力の要請や血液のトラッキング、献血履歴の管理もプラットフォーム上で行える。
  • 同社は病院やその他関連する多くの機関やパートナーと協力し、安全な血液を十分に供給することを目的としてプラットフォームの改善を行いながら、国民からの自発的な献血量の増加を増やす取り組みをしている。
  • 現在までにケニア全体の132の病院で同社プラットフォームは利用されるようになり、9,000回を超える献血を促し、プラットフォーム上には7万2,000人を超える登録者がいる。同社は新たにリリースされたAndroidアプリを通じてこの数をさらに大幅に増やすことを目指す。今年の7月に同国内で献血用血液の不足が深刻になった際には、保健省とFacebookが提携して行った献血キャンペーンにも協力するなど、既に同国内では一定の知名度と信頼を得ている。
  • この取り組みを後押しし、また新型コロナウィルスの感染拡大防止への貢献を強化するために、ヘルスケアおよびライフサイエンスセクターのインパクト投資家でもあるVillgro Africaから2万ドルの助成金を確保した。またVillgro Africaは助成金に加え、Damu-Sasaプラットフォーム上の新型コロナウィルスに関連した血液管理機能の強化や、継続的な資金調達活動をサポートするための支援も実施する。

背景:ケニア国内では年間100万ユニット程度の輸血用血液が必要とされているが、献血の重要性に対する理解不足などから積極的に献血を行う人は少なく、国内の献血量は20万ユニットにも満たない状態にあり、医療用の血液は慢性的に不足状態にあった。これまで海外からの支援(輸入)に頼っている状況であったが、その最たるものであった米国からのエイズ救済のための血液提供プログラムが昨年後半の資金削減によって停止状態となり、今年初め頃からケニア国内の医療用血液不足は深刻化していた。新型コロナウィルスの影響により、ロックダウンや外出自粛といった行動の制限により献血センターなどに足を運び献血をする人が激減し、現在世界的に医療用の血液の安定的な確保が難しくなっている。

執筆:椛澤かおり/編集:岩切絹代

40億人の「住所不定」を解決するスマートアドレスサービスのOkHi、ナイジェリアで開始

SHARE:

ピックアップ:Nairobi-based startup OkHi launches in Nigeria ニュースサマリ:物理的な住所のない人々のためにケニアのナイロビを拠点にスマートアドレスサービスを展開するOkHiは12月、アフリカ最大の銀行プラットフォームであるInterswitchと提携してナイジェリアでサービスをローンチした。今年9月にはナイジェリアへの市場拡大などを目的として、Fou…

Image Credit : OhHi

ピックアップ:Nairobi-based startup OkHi launches in Nigeria

ニュースサマリ:物理的な住所のない人々のためにケニアのナイロビを拠点にスマートアドレスサービスを展開するOkHiは12月、アフリカ最大の銀行プラットフォームであるInterswitchと提携してナイジェリアでサービスをローンチした。今年9月にはナイジェリアへの市場拡大などを目的として、Founders Factory AfricaAsian VC Betaron、Interswitchが主導するシードラウンドで約150万ドルの資金調達を実施している。

詳細な情報:OkHiのスマートアドレスシステムを使用すると、個人の名前と電話番号に対してGPSによる家の位置情報、実際の家や家の前の写真、その他住居の特定に役立つ情報を紐付けることができる。通りの名前や番地などが割り当てられていない地域に住む人たちの元へ、郵便物やデリバリーサービスなどの配達員が迷ったり電話をかけて場所を確認しなくても、スムーズに目的の家にたどり着けるようになる。

  • ケニアではOkHiの利用によって配送コストの20%削減し配送時間40%短縮された。ナイジェリアでは同サービスの普及によって年間20億ドル程のコスト削減が見込まれている。また、Interswitchとの提携はナイジェリアの全国民1億9,500万人に物理的住所を提供するというOkHiの支援目的以外にも、eコマースセクターの成長を加速させ、金融包摂を推進するという目的が含まれている。
  • OkHiに限らずスマートアドレスサービス全般では、その情報を参考に郵便や荷物の配達が行われる度に、住所や住人の情報の有効性が確認される(もし情報通りの場所に目的の家や荷物の受け取り人が存在しない場合には、情報が誤っていることをシステムに報告できる)ため、利用者や利用頻度が増えるほどに情報の正確性が担保される。
  • 企業側がOkHiのスマートアドレスを住所証明として信頼に値すると判断すれば、配達関係のサービスに限らず、これまで住所の入力や登録が必須であったサービスへのアクセスが可能になったりKYCとして有効な手段にもなり得るため、同サービスは物理的な住所を持たずに暮らしている人々の生活が大きく向上する可能性を持っている

背景:OkHiは元GoogleのエンジニアでGoogle MapsやChromecastに携わっていたTimbo Drayson氏によって、2014年イギリスとケニアに拠点を置く企業として設立された。世界には推定数十億人(OkHiによれば40億人)にのぼる人が、物理的な住所を持たずに暮らしている。これらの人たちは郵便物などの受け取りに苦労するばかりか、銀行口座や運転免許証、投票権、社会保障、医療、災害支援など様々なサービスへのアクセスが制限されるため、現在GPS機能や衛星画像などを活用してこの問題の解決を試みる様々な取り組みが行われている。

執筆:椛澤かおり/編集:岩切絹代

ポケモンカードなどのオタクグッズをライブ販売ーーWhatnotにみる特化型ライブ・コマースの可能性

SHARE:

  ピックアップ:Whatnot raises 4m as it gets into livestreamed auctions and pokemon cards ニュースサマリー:ポケモンカードなどのオタクグッズをライブ配信経由で販売できるプラットフォーム「Whatnot」は17日、シードラウンドにて400万ドルの資金調達を実施したと発表した。Y CombinatorやLiquid …

 

ピックアップ:Whatnot raises 4m as it gets into livestreamed auctions and pokemon cards

ニュースサマリー:ポケモンカードなどのオタクグッズをライブ配信経由で販売できるプラットフォーム「Whatnot」は17日、シードラウンドにて400万ドルの資金調達を実施したと発表した。Y CombinatorやLiquid Venturesが同ラウンドに参加している。

話題のポイント:ライブ動画配信は徐々にコマース要素を含めたものへと移行し始めています。InstagramもUIが徐々にコマースフォーカスに代わりつつある印象です。

さて、この分野では他にも「Popshop Live」のような個人事業主や商店が販売チャンネルを持てるプラットフォームに注目が集まっています。特にジェネラルなプラットフォームを用意するのでなく、Whatnotのように領域特化型のライブコマースは注目も集めやすく、ひとつのトレンドになりそうです。WhatnotはYCの2020年冬バッチ参加者。そのため、市場としてもまだまだ成長しきっておらずチャンスのある領域です。

また、領域に特化していることに加え同社の特徴には「ミドルマン」が存在していることが挙げられます。仕組みとしてはStockXやGOATのように、商品購入成立後、一度Whatnotが間に入って商品を鑑定、その後バイヤーに配送されるという流れとなっています。これによりプレミアム付加価値をある程度担保することができるので、単なる趣味グッズの売買だけでなく、トレードという別の側面を持たせることが可能になります。

つまり、ライブコマースの流れを汲みながらもStockXやGOATの「目利き付き二次流通市場」に挑戦しているのがWhatnotであると言えるでしょう。上述した通り、この分野はまだまだ余っている領域も多く、StockX・GOATがファンを集めて成長したように大きく躍進する可能性は高そうです。

共同執筆:「.HUMANS」代表取締役、福家隆

2020年のスタートアップたち:カジュアルになった投資、不動産の新しい買い方(後編)

SHARE:

(前回からのつづき)2020年のスタートアップを振り返るシリーズの最終回。最後のテーマは投資と不動産です。 余暇と投資 COVID-19以降、全体的に消費行動は冷え込みましたが、一方でリモートワークや自宅での余暇が増えたことによる投資への需要に注目が集まりました。特にトラクションを伸ばした代表例としては投資アプリ「Robinhood」が挙げられます。その上で、例えば「Public.com」などZ世…

(前回からのつづき)2020年のスタートアップを振り返るシリーズの最終回。最後のテーマは投資と不動産です。

余暇と投資

Image Credit : Robinhood

COVID-19以降、全体的に消費行動は冷え込みましたが、一方でリモートワークや自宅での余暇が増えたことによる投資への需要に注目が集まりました。特にトラクションを伸ばした代表例としては投資アプリ「Robinhood」が挙げられます。その上で、例えば「Public.com」などZ世代にターゲットを絞り、投資とSNS性を組み合わせた投資プラットフォームも登場しています。Publicはウィル・スミス氏のファンドDreamers VCも出資していることで注目されているスタートアップです。ミッションには「Open the Stock Market to Everyone by making it inclusive, educational, and fun」を掲げており、株の取り引きの民主化を目指しています。

Image Credit : Public

例えば「Educational」の観点で投資家の公開ポートフォリオを閲覧出来るなどSNS性を持たせたり、投資方法も1株未満で購入することが可能な「Fractional Investing」を採用するなど、小額から投資を始め金融リテラシーを高められるプラットフォーマーの座を狙っているように感じます。今後は、サブスクリプションサービスの導入も検討していると同社ブログで述べられており、金融リテラシー教育、SNS、投資を包括的に含めたサービス展開が想像されます。

こうしたサービス以外にも、チャレンジャーバンク系も口座と投資サービスを結び付けようとしています。特にGoogleがGoogle Payを通したデジタルバンクサービス「Plex」を発表したことで拡大に白砂がかかりそうです。しかし、投資サービスを0から立ち上げるには開発コストがかかるのも事実です。

Image Credit : K Health

そこで登場したのが、APIを通じて金融事業者に投資機能を提供するFintech as a Serviceの業態です。2020年にこの分野に登場したのが「DriveWealth」で、金融関連の事業者が少額投資サービスを立ち上げられるためのAPIを提供しています。提携企業にはRevolutやMoneylionを筆頭とするチャレンジャーバンクの名前が並んでいて、現在153カ国にサービスを提供しており、米国株の取引を世界中に広めています。競合にはY Combinator出身のAlpacaなどが挙げられます。このように、コロナの在宅生活で掘り起こされた新たな需要に応えるための、インフラ需要に焦点が当たった1年でした。

住宅所有をフレキシブルに

Image Credit : Noah

コロナ禍において、経済停滞により不動産市場全体も活動が鈍ってしまいました。「来月の家賃が払えない」「新居への引っ越しも振り出しに戻って考え直そう」といった心理状態になると、不動産オーナー側も、ローンを貸し出す側の金融機関もお金が回らなくなり、最終的にはマクロ経済的な不振へと繋がってきます。

そこで、注目を集めたのがフレキシブルな支払プランを提案する不動産フィンテック「Noah」です。同社は、住宅所有者の住所・クレジットスコア・債務残高情報を基にローンの事前審査を行います。審査が通り次第、最大35万ドルの資金を、将来的に住宅価値が上がるか下がるかに関わらず提供します。一方、Noahがもらうのは物件のエクイティー(Home Equity)で、このエクイティーを10年後に所有者が買い戻す必要があります。出資額の計算は物件のエクイティー放出額によって算出されますが、一般的に5〜20%をNoah側に渡すそうです。つまり、不動産向けオルタナティブファイナンスの分野であると言えるでしょう。

ということで3回に渡って2020年のスタートアップ・シーンを振り返ってみました。

2020年は世界同時並行的にライフスタイルが移り変わる一年となり、その環境に合わせたスタートアップが数多く台頭しました。しかし、各分野はまだまだ成長フェーズに入ったかどうかの段階で、来年からより一層参入と撤退が激しくなるはずです。大きな動きというのはチャンスの裏返しです。新しい10年に向けてスタートアップ・トレンドを掴もうとされている方の参考になれば幸いです。では良いお年を。

共同執筆:「.HUMANS」代表取締役、福家隆