マシンビジョンが「AIの次のフロンティア」と言われるのはなぜか？

Remi El-Ouazzane氏はMovidiusのCEOである。Movidiusはデバイスにつなげる視覚知能を供給するため、アルゴリズムとカスタムメイドのハードウェアを結合するスタートアップである。

人工知能（AI）をめぐる話題はここ数年増加の一途をたどっている。この技術のメリットがこれほど広く知られるようになったことはかつてない。2016年はAIで最も難しい課題の1つ、すなわちデバイスに見ているものを理解させる技術が進歩を遂げると、新たな種類のAIデバイスを目にすることになろう。

なぜ機械に視覚が必要なのか。視覚は重要な感覚で、私たちが生きていくのに欠かせない要素の1つだ。機械が人間と関わり、必要なサポートができるようにするためには、視覚領域で物を見て行動できなくてはならない。これは例えば、目の見えない人が「見える」よう手助けをして、周りの状況を理解できるような小さなカメラの形態を取るか、野良猫や外で揺れ動く木の枝と強盗の違いを正しく見分けられる自宅監視システムのようなものとなるだろう。

デバイスが私たちの日常生活で不可欠な役割を担うようになるにつれ、無人機が空中で衝突したり、ロボット掃除機が「吸う」べきでないものを吸い込むなど、視覚機能が不十分なためにうまくいかないケースもこれまで私たちは見てきた。

人間と同様の視覚を機械に与えることを目指し、AIの支流である機械の視覚機能の開発は急速に成長している。ニューラルネットワークを活用して、機械が現実世界のイメージを判別し、理解することができるように取り組んでいる研究者たちのおかげで、マシンビジョンはここ数年のうちにすさまじい進歩を遂げてきた。

2012年のスタート地点から考えると、今やコンピュータは、インターネット上で猫を特定したり、写真の海から特定の顔を認識したりすることまで、あらゆることが可能になっており、いまだ進歩し続けている。今日、機械の視覚機能はデータセンターを離れ、自律無人機から食物の仕分けに至るまで、あらゆるものに適用されている。

機械と人間の視覚機能をそれぞれ比較することは、鳥の飛行と飛行機を比較することに類似している。鳥も飛行機も自らを空中に浮かせるために、結局のところ基礎物理学（例えばベルヌーイの定理など）に依存している。しかし、それは飛行機が鳥のように羽ばたくという意味ではない。人と機械も同様である。同じものを見て、イメージを理解する方法にもいくらか共通点があるかもしれないが、最終結果は大いに異なることもあり得るのだ。

基本的イメージの分類はより簡単になる一方で、抽象的な場面から情報や意味を抽出するとなると、機械は新たな一連の課題に直面する。錯視は機械の視覚機能がまだまだ開発途上であることを示す良い例である。

まず、2つのシルエットがお互いの方を向き合っている古典的なトリックアートを知らない人はいないだろう。人がこの絵を見ると、単に抽象的な形を見ているだけではない。脳がさらなる脈略を挿入し、画像のあらゆる部分を特定させ、同じ絵から2つの顔か花瓶の形を認識する。

分類ツール（インターネットで無料のものが見つかる）にこの同じ画像を通せば、機械がこれを理解するのがどれほど難しいか、すぐわかるだろう。基礎的な分類ツールは2つの顔も花瓶も見えず、代わりに斧、フック、防弾チョッキ、アコースティックギターなどに解釈してしまう。システムはそれらのどれも明らかに特定できないため、これが機械にとってどれだけの挑戦となるかがおわかりだろう。

Beverly Doolittleの絵のようなもっと複雑なものについて考えるならば、問題はさらに難解になる。この絵を見る人すべてがキャンバスの中の顔を見つけられるわけではないが、それでも人はその目に映る以上のものが絵の中にあることを瞬時に理解できるだろう。

しかしこの画像を同じ分類ツールに通すと、谷や石垣のようなものから完全に的外れなマイタケやアフリカのカメレオンまで網羅した結果になる。分類ツールは画像の一般的な感覚は理解できるが、絵の中の隠れた顔を見つけることはできないのだ。

視覚力の複雑さを考えるなら、なぜこの機能がそれほど難しいことなのかが理解できるだろう。先ほどの画像のように、世界は乱雑な場所である。この世界に生きていくことは、データを通して解析するアルゴリズムを構築するように単純なものではない。経験を積み、現実の状況を理解し、それに基づいて行動することが求められる。

ロボットと無人機はこうした基準外の障害に何度も直面する。そして、これらの挑戦を克服する方法を見つけることが、AI革命に投資しようと注目している人々にとっての優先事項である。

ニューラルネットワークと視覚機能を使ったハードウェアのような技術の適用を続けることで、私たちは人と機械の視覚機能の間にあるギャップを急速に縮めている。近い将来、複雑かつ多様なタスクをこなし、完全に自律操作の可能な、人の視覚能力を超える視覚力を備えたロボットが登場するかもしれない。

【via VentureBeat】 @VentureBeat
【原文】