自己紹介だけで個人を特定できるリザーバコンピューティングのスゴさ、QuantumCore秋吉氏に聞く「深層学習(LSTM)の次」

SHARE:
IMG_0241.jpeg
QuantumCore代表取締役CEOの秋吉信吾氏

2012年の画像認識コンテストILSVRCでの圧勝、Googleの猫認識から巻き起こった第三次AIブームを牽引する技術がディープラーニングであることは周知の通りです。ウェブの発達による大量のデータとそれを処理できる計算機の能力の向上がブームを後押しし、ソフトバンク社長兼CEO宮内謙氏の「データは石油」という言葉は記憶に新しいと思います。

1969年に渡辺慧氏が提唱した「みにくいアヒルの子の定理」によると、人間の識別・認識の本質は特徴の選択・抽出です。機械学習においても「次元の呪い」を避けるために、ビッグデータから特徴の選択・抽出を行う必要がありました。ディープラーニングのブレイクスルーはこの「特徴を自ら抽出できる」部分で、人間が特徴を抽出するより精度が良い結果が生まれ始めています。

一方で、「AI≒ディープラーニング」のブームが加熱してバズワードとして浸透したため、なんでもできるという誤った認識が企業に多くの失敗を生み出しました。当然ですが、ディープラーニングにも得意・不得意があり、十分な精度を出す条件を満たすのは簡単ではありません。

本稿では再帰ニューラルネットワークの一種である「リザーバコンピューティング」を活用して、ディープラーニングが取れない領域を狙うQuantumCore代表取締役CEOの秋吉信吾氏にインタビューを実施し、今後注目すべき「リザーバコンピューティング」とは一体何か、その技術で実現したい社会とは何かを伺ってきました。(太字の質問は全て筆者)

image3.png

2018年4月、エンジニアリングに精通する3人によって創業されたQuantumCoreは、テクノロジードリブンで事業展開をしています。創業2年目にしてR&Dを構え、社会実装に向けた基礎技術の積み上げも行っています。課題解決能力に強みを持つQuantumCoreが目指す社会とはどういうものなのでしょうか。

QuantumCoreが実現したい社会を教えてください

QuantumCoreの究極の目標は、世の中の「一極集中」の解決です。世の中には波動問題が存在すると思っています。どういうことかというと、朝の通勤ラッシュの混み具合、待機児童、長時間労働、介護、子供の見守りなどの問題は絶対的なリソースが不足しているわけではなく、本質的な課題は一極集中していることだと思うんです。これをうまく“ならす”ことが我々の目指すところです。

目標のためにどんなことが必要になりますか

マクロで見ると波動(世の中の流れ)を捉えて、機械学習などで世の中を予測することです。その上でリソースの再配置を行う必要があります。

ミクロで見ると各領域の負担の軽減が必要。たとえば介護見守り系では、24時間365日ご老人を見ておかなくちゃいけないが、カメラを付けるとプライバシーの問題があります。似たような話で、オレオレ詐欺、子供の見守りでも知ってる方の声を登録しておくことで初めて声をかけられたかどうかが分かるようになります。これまでの機械学習ではパーソナルなデータを大量に集めてモデルを作り、その上で製品に適用するため実現できませんでした。

秋吉氏らが目標を実現するために選んだのが「リザーバコンピューティング」と呼ばれる再帰ニューラルネットワークの一種。2000年代初めに Echo State NetworkとLiquid State Machineで提案された学習モデルです。

時系列情報(時間ともに変化する情報。たとえば毎月の売上、音声・映像データなど)の機械学習に適しており学習が極めて早いのが特徴ではあるが、扱うデータに合わせて各要素を調整じづらい側面があります。そのため期待はされつつも深層学習(LSTM)に比べても知名度は高くありませんでした。

IMG_0234
数キロバイト程度のメモリで時系列処理が扱える

Quantum Core のコア技術について教えて下さい

リザーバコンピューティングは複雑系力学といわれる物理分野で研究されてきたものを活用したものです。世界ではまだあまり使われていませんが、少ないデータでリアルタイムで学習ができる強みを持っています。

深層学習を適用した製品は日々正常値が変わる環境では使いづらいのが現状です。チューニングし直したいという要望が出てても、データを取り直して再計算する時間が必要で現実的ではありません。特に、パーソナルヘルスケア分野では製品の購入者ごとに適用させることが求められますが、何万件というオーダで個人のデータは中々取れません。

「少量データ、リアルタイム学習」の特徴を持つリザーバコンピューティングでは、数十秒程度でキャリブレーションをかけてすぐに使えるようにできます。また、現在提案している例でいうと、議事ログを自動作成するシチュエーションで、一人あたり大体十秒以下のデータで学習可能なので自己紹介だけで個人を特定することが可能になります。

もう少しリザーバコンピューティングについて教えてください

リザーバコンピューティングの本質は特徴抽出器です。ディープラーニング全般には特徴抽出する部分と判定する部分があって、特徴抽出する部分が中間層と呼ばれます。リザーバコンピューティングでは中間層(リザーバ層という)を一切更新しません。

出力層だけを学習するため、出力層には何をおいても構いません。(ランダムフォレスト、ディープラーニングなども可能)。普通なら良い特徴を取るために、大量のデータを流し込んで、特徴を捉えるための中間層のフィルタを育てる必要があるんです。

では、なぜ特徴抽出ができるんでしょうか

例えると、水面が複雑系力学と同じです。水面に小石を投げ込んだら波紋が発生します。その波紋は小石の重量・大きさ・形・スピードの特徴を全て含んだ形になるので、ここの波紋を特徴として使いましょう!という発想がリザーバコンピューティング。ただし石一個だとメリットが分かりづらくて面白くないんですが、小石を1,2,3と投げ込むと波紋がどんどん湧いて、2個目の波紋は1個目の波紋を含んだ形になります。最後の波紋を見れば全ての小石の特徴を含んで、かつ時系列の関係を踏まえた波紋が取れるんですよ。

image2

リザーバは日本語にすると溜め池です。リザーバ層は投げ込まれた情報を波紋のようなパターンに変換する装置とみることができます。この波紋を観察することで特徴量を抽出するのです。つまり、リザバーコンピューティングの最大の狙いはリザーバ層が生成する波紋パ ターンから簡便なアルゴリズムを用いて、時系列入力の識別を行うことだということです。

ここで気になることがあります。前述の通りリザーバコンピューティングが提案されてから10年以上が経過しています。なぜ現在まで社会実装されてこなかったのでしょうか。

リザーバコンピューティングの技術が登場したのは2000年代初めです。これまで精度向上を実現できなかったのはなぜですか

マシンパワーが足りないのが問題でした。具体的には、リザーバ層のレイヤーを非常に大きくしないと複雑な問題が解けませんでした。あまりにレイヤーが大きくなると、計算量が大きくなるし、メモリに収まらないし、本末転倒になってしまいます。

そんな中、QuantumCoreは業界で初めて、リザーバコンピューティングを活用した多変量時系列処理ソリューションで深層学習(LSTM)を大きく上回る精度と短学習時間を達成しています。どのようなブレイクスルーがあったのでしょうか

要はリザーバ層のレイヤーを小さくしながら、複雑の問題を解ければいいわけです。特許出願中のため詳細はお伝えできませんが、リザーバ層に適した前処理を加えました。これで小さなリザーバ層のレイヤーで複雑な問題が解けるようになりました。

イメージをお伝えすると、センサーと音の発生源があるとします。音が発生すると物体の中を伝達する波と表層を伝わる波、そして空気中を伝わる波がそれぞれ合わさってセンサーで受信されます。これをそれぞれの波に分解する技術にブレイクスルーがあります。通常はこれをうまく学習アルゴリズム内で分解してやらないといけません。そのため大きなネットワークが必要になってしまうんです。

ディープラーニングであれば、ニューラルネットワークを多段にして高次の特徴量を得るという発想は以前からありましたが、マシンパワーと頑健性という方向性で実現したと思います。これはどういう方向性の発想だったんでしょうか

機械学習に全て任せてしまわない、という発想です。特徴を捉えるところは機械学習に任せる。そして複雑に絡み合った情報をバラしてあげるところはまた違うアルゴリズムを適用すれば良いんです。

入力する前のデータに信号処理を加えることで精度向上ができるということは、使うセンサーの種類が増えれば様々な状態検知できるのでしょうか

レーザーでもできるし、カメラでもできます。現在、R&Dで非接触のバイタル系も取り組んでいます。今は医療機器の扱いになるので製品として出せませんが、カメラを使ったバイタル、レーダーを使ったセンシングを社内でやっています。人間の顔の皮は薄くて血流が見えるので、ここのピクセルを解析することで脈を見たり、血圧を見たりできます。

今までだったら多数の方からその人の見て異常を当てることはできましたが、その人にとっての異常が検知できませんでした。少量データでその人の平常状態がわかるので、異常なデータを推定でき、密接な異常検知の実現を期待しています。

画像の分野ではディープラーニングが強いと感じていますが、そうではなくなる可能性があるんですか

ディープラーニングが流行ってはいますが、適用できるのは画像処理ぐらいだと思っています。当初我々は画像分野以外を取りにいこうと考えていました。

しかし状況が変わって、レーダー技術に独自技術とリザーバコンピューティングを組み合わせることで画像認識領域をカバーできてしまいます。人の検知だったり、動きの検知だったり。更にカメラでは被っていて撮れなかったものがレーダーだと取れるので、今は画像分野でも意外と勝負できると感じています。

ここからは現在の戦略について教えてください。WebAPIを公開していますが、これの狙いはなんでしょうか

リザーバコンピューティングは認知度が低いです。その中で良いじゃんこのアルゴリズム!と思ってもらわなければなりません。そのため導入しやすいWebAPIの形態で、幅広いエンジニアの方に使っていただきたいというのが狙いです。REST APIの形式で提供しているのでWebエンジニアにも含めて親しんでもらい、手軽にWebのサービスに利用していただきたいと考えています。

ターゲットはエンジニアということですね

ハマるところはエンジニアの現場だと考えています。現場は少量データしかないがビッグデータをなんとか作らないといけない、さらに計算量すごいかかると悩んでいました。問題意識を持っているエンジニアと現場に刺したいです。

エッジとして提供を開始しました。同じ狙いでしょうか

WebAPIと同様に取っ掛かりとしています。Raspberry Piに組み込んですぐに使える形です。さらにARMのcoretex m4fに移植開発をして提供します。事業会社とはPoC(Proof of Concept)をEdgeの形で検証して、事業会社が持つ製品に組み込むこともやっています。

事業会社視点だと「導入のしやすさ」にインパクトがあると感じました。実際PoC製作に取り組んでいる事業会社にはどのような点が評価されていますか

今のQuantumCoreは駆け込み寺的なところがあります。ディープラーニングでやってみたけどうまくいかなかった事業会社に刺さっているんです。「手元に少量データしかなくてあってうまくいかなかったんです」「それ貸してください、やってみます」で結果を出してしまうので驚かれます。それに加えてPoCの結果は2カ月程度で出ます。その早さにかなり驚かれますね。

QuantumCoreの開発は時系列を扱う機械学習の発展にインパクトがあると感じます。

実際、時系列データのパターン認識は広い分野で必要とされています。応用できる例を挙げると、医療(心拍、バイオマーカ、fMRI、眼球運動)、機械(車両、ロボット、アクチュエータ)、通信(電波、インターネット通信)、環境(風力、オゾン濃度、廃水、地震)、安全(暗号)、金融(株価、株価指数、為替)など多岐に渡ります。

さらにエッジコンピューティングとも大変相性が良いです。秋吉氏によると、数キロバイト程度のメモリで時系列処理が扱えるそうです。メモリが必要ないとエッジコンピューティングが目指すセキュリティ向上、プライバシーの保護、通信量削減に加えて、消費電力を抑えることが可能になります。ウェアラブルデバイスのように小型化、持ち運び負荷を小さくしたいものにとっては避けては通れない問題です。

要するに、QuantumCoreの技術はソフトウェアがより知性的に振る舞い、IoTの普及にネックだった問題が解決する可能性があるということです。

ここからは、技術の話を離れて最新技術を社会実装するスタートアップとして行ってきたことについて聞きたいと思います。

起業をしたきっかけを教えて下さい

2020年までに自分の事業を持ちたいと考えていました。ベンチャーキャピタルとして他のスタートアップと話をし、手を動かす経験から自分が主体となってやってみたかったのです。

元々AI関連技術に興味を持っていたので、2012年ぐらいに独学でディープラーニングの勉強を始めました。その後、Mistletoeに入社してディープラーニング周りの話者認識や画像認識だったりに携わっていました。その要素技術を使って色々やっていきたいと思っていたんです。

現場では時系列データを扱うことが多かったので、深層学習をする時や既存のアルゴリズムを使う時に、無駄が多いなと感じていました。特にディープラーニングだとデータを画像認識の技術に適用して分析しなければなりません。これは非常に非効率です。

個人的に色々文献を調べているうちに、意外と人間の脳はすべてを学習しているわけではなくて、最後の出力のところだけを学習してるらしいと分かりました。この知見は活かせると感じていたときに、リザーバコンピューティングに出会ったんです。これは自分でやりたい、と思って起業を決意しました。

その後、ブレイクスルーまではどのようにたどり着きましたか

リザーバコンピューティングでいこうと決めて、何もプロダクトはありませんでしたがCEATECに出展することにしました。作る物はデモ受けを考えて話者特定にして2週間でデモを作ったのですが、リアルタイム学習データを見せるために計算量が非常に少なくて済むようにしなければいけませんでした。それはつまりリザーバレイヤーを小さくしないといけないということです。

問題の本質を追及したところ、信号があまりにも複雑すぎるというところに行き着きました。複雑な波形を分解するのを機械学習でやるのは本当に正しいのかと。特徴抽出でやるのが正しいのかと。別アプローチがあるんじゃないかと考えた結果、良いアイディアが生まれました。

image1.png
CEATEC:毎年幕張メッセで開催されるアジア最大級の規模を誇るIT技術とエレクトロニクスの国際展示会。

人工知能学会(JSAI2019)に出展されていたと思います。NIPSなどの国際学会に参加される予定はありますか

R&Dも行ってはいますが、社会実装に持っていきたいと思っています。基本は事業会社の方に来ていただいて、その方と話を進めていきたいと考えているので予定はないです。

東京大学の池上高志教授が2019年1月から技術顧問と参加しています。現在はどのよう関わり方をしていますか

普及とコアの研究開発を推進する、この両輪を揃える目的でコメットメントの依頼をしました。具体的には、シンポジウムの登壇依頼、案件の相談(研究への発展)などです。社会実装へ向けて研究的な視点から多大なお力をお借りしています。

この手の技術は怪しいと思われてしまう可能性があります。実際、リザーバコンピューティングはなぜ上手くいくのかわからないところが多いんです。懸念点を払拭するために、長らく研究されている方に説明いただいた方が信用できるだろう考えています。さらに今後リザーバコンピューティングのコア部分も発展させていきたいので改良ポイントなどをご相談させてもらっています。

最後に今後の展望とそれに必要な要素があれば教えて下さい

リザーバコンピューティングで本格始動して1年経過しました。この技術は何に使えるかはといえば、何にでも使える技術です。そのため、本当に一番当てはまるのはどこだろうと模索してきました。段々とハマりどころが見えてきた中で、進化していくためには事業開発をもっと強化する方針です。

もう一つは、8月に発表した電通国際情報サービスとの取り組みで画像認識アフターで適用できることが分かりました。それに加えてレーダー技術を組み合わせることで、画像認識をディープラーニングを使わないことで置き換えれるんじゃないか、と新しい可能性が見えてきました。そのため新しいセンシング技術を使った研究開発を進めるのは必須だなと考えています。センサの知見がある方は技術者として入ってきていただきたいです。

ありがとうございました

BRIDGE Members

BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。
  • 会員限定記事・毎月3本
  • コミュニティDiscord招待
無料メンバー登録