バーチャルヒューマンたちはどのようにして生まれる

SHARE:
Soul_Machine.png
Image Credit : The Soul Machines

※本記事は.HUMANS社が運営するメディア「THE .HUMANS MAGAZINE」からの要約転載

ニュージーランド拠点の「Soul Machines」が今年公表したバーチャルヒューマンは、CESで披露されたサムスン傘下のスタートアップ「NEON」と並ぶ、近未来的なアシスタントとして話題になりました。

同社はAI、脳計算モデル、経験学習を組み合わせて自動アニメーションプラットフォームを開発。ユーザーと面と向かって話すことができるほどの個性と性格を持つ、まるで生きているかのように感情を表わすことのできる「デジタルヒーロー」、つまりバーチャルヒューマンを作り出します。

<参考記事>

表面的な「人間らしさ」はいざ知らず、肝心の中身はどのようにして成立するのでしょうか?そのひとつの鍵となるのがAIアシスタントの存在です。

英国オックスフォード大学の社会・コンピュータ科学部門であるオックスフォード・インターネット研究所(OII)は、Googleと提携して、AIに関するまとめサイト「The A-Z of AI」を公開しました。A-Zの26個の項目が並んでいます。

選ばれた26のトピックから本記事ではARグラスが普及した時代「Spatial Computing(空間コンピューティング)時代」に向けて応用できる項目を4つほど選び、バーチャルアシスタントの具体像に迫ってみたいと思います。

Fakes

pexels-photo-1716861
Photo by Carolina Castilla Arias on Pexels.com

ディープフェイクは現実世界の画像や音声を研究、詳細にマッピングおよび操作をして、不気味なほど忠実なフィクション作品を作成することで機能します。

ほんの数年前には不可能と考えられていたこれらの技術は、ハリウッド映画のCGIから音楽制作、ポルノに至るまで、幅広い分野で応用されています。多くは娯楽や想像力をかきたてることを目的としていますが、不適切な使い方をすれば、社会に有害な誤報を生み出す可能性もあります。

Fakes文脈で注目しておきたい事例は2つです:「Ryff」と「Pokemon Go」。

たとえばGoogleが提供する3D検索では、動物のリアルなオブジェクトをその場に表示できます。ただ、未だ一瞬で3Dであると見破れる完成度に留まっています。

DeepFake技術が進めば、カメラが現実世界の環境条件を認識し、リアルタイムでとても高精度の3Dオブジェクトがレンダリングされる世界が実現するでしょう。すでにLA拠点の「Ryff」は映像市場で超高精度のAI画像およびパターン認識を活用したユースケースを提供しています。

次世代フェイクの概念も知っておくべきでしょう。Pokemon Goは仮想世界に住むポケモンとのやり取りをスマホのカメラ越しに実現させました。そしてイベントがあれば街の至る所でユーザーたちが画面を見つめながら必死にモンスターボールを投げている光景を見かけます。

しかし、現実世界に住む私たちから見れば、何をしているのかわからない“小さいコミュニティ”にしか見えません。こうした仮想・虚構の存在に導かれて発生する「フェイクコミュニティ」を今後頻繁に見かけることになるでしょう。昨年、筆者も参加したAppleが主催のARを楽しむウォーキングイベント「[AR]T Walk」でも、複数の参加者が、街行くに人にはわからない3Dオブジェクトを眺めるという楽しい体験がありました。このように、同時多人数でARを楽しむコラボレーション体験が増えるほど「フェイクコミュニティ」の発生数も増してきます。

Image Recognition

pexels-photo-3571093
Photo by Torsten Dettlaff on Pexels.com

コンピュータビジョンとして知られている画像認識システムは、提供された参照画像を調べるだけで、個人から有名なランドマーク、ペットまで何でも認識できるようになります。このシステムは、スマートフォンの写真を整理するなどの日常的な作業を楽にします。例えば、旅行に行った後に休暇の写真の新しいアルバムを自動的に提案します。

それぞれの画像は指紋のようなものです。AIシステムは、色や形などの識別機能を見つけ出し、何千もの画像と相互参照して正確に認識し、ラベルを付けるように訓練されています。また、ランドマークやグループ旅行の写真を認識できるのと同じ技術は、外国語の警告標識を翻訳したり、オンライン上の露骨なコンテンツから子供たちを保護したりするのに役立ったりと、他の場所でもより深く活用されています。

Spatial Computing時代は、ARグラスが広く普及した世界を前提に話が進みます。この時代では一人称視点の高性能カメラを手軽な価格で手にすることができます。そこでは、かつてGoogle Glassが登場した際に人気を集めた視覚障害者向けの音声サービス「Envision」のようなスタートアップが再興するはずです。

画像認識技術が進んでいることや、昨今のGoogle Map ARナビゲーション機能実装のことを考えると、Envisionと比較して、かなりの付加価値を持った市場展開がなされると考えています。

さらに、Google Glassは2Bを中心に市場戦略が進んでいるため、Envisionが手をつけられていないユーザーは多くいると思います。そこで、今のうちから中国の安価ARグラス「Nreal」などを提供しながら、自社音声サポートサービスなどを展開すれば大きな成長が望めるのではないでしょうか。

Speech Recognition

pexels-photo-699122
Photo by Tyler Lastovich on Pexels.com

音声認識システムは、ディクテーションソフトウェアから言語翻訳ツール、音声起動型スマートスピーカーまで、あらゆるもののバックボーンを形成しています。機械は音声を認識することはできても、人間と同じように理解できるわけではありません。人間は、文脈がなくても、文章がごちゃごちゃしていても、言葉を理解することができます。しかし、機械はそれが難しいのです。

“自然言語処理 “は、人間の複雑な話し方をよりよく理解するために、AIが文法的なルールを引き出し、生きた音声を分析することを可能にする、最近の音声認識の進歩である。これにより、AIシステムは、トーンやユーモアなどの何かが文章の意味をどのように変えてしまうのかを把握することができるようになります。

これらの技術は、私たちが何を言うかだけでなく、何を意味するかを理解するために着実に進化しています。AIの設計チームは、システムにより多くのニュアンスを組み込む方法を継続的に模索しているため、人々はこれまで以上にAIとシームレスで自然なやりとりをすることができるようになっています」とのこと。

筆者は直近まで音声サービスのアイデアを模索していたこともあり、今後タイピング入力から音声入力、ジェスチャー入力といったUIへと大きく転換する予感がしています。ARグラスを用いた体験では、スマホのスクリーン上で行うような高速タイピングは想定されていません。その上で、入力コストを圧倒的に下げて、ユーザーが検索したいことを即座に反映させる入力は音声が現実的でしょう。たしかに公共の場で声を発しづらいなどの解決すべき根本課題が存在しますが、何かしらの解決策が登場するのではないかと思います。

音声UIがARグラスと共に台頭することを考えれば、現在のFace IDやTouch IDに並び、「Voice ID」の重要性が高まると考えます。

すでにAmazon Echoは空間内で特定の人物を認識できますが、より音声認識技術が発展すれば、各ユーザー特有の発生をIDとして活用できるようになるかもしれません。冒頭で説明したFakesに絡み、フェイク音声技術はすでに確立しつつあり、いずれバッティングするかもしれませんが、こうしたセキュリティ上の市場課題を乗り越えれば、非常に大きなニーズを獲得するでしょう。この分野では大型スタートアップが登場しそうです。

Virtual Assistants

pexels-photo-3862601
Photo by ThisIsEngineering on Pexels.com

Virtual Assistantsは、基本的には人間のアシスタントをデジタル化したものです。最もよく知られている例は、スマートフォンやスマートスピーカーを介して話す音声アシスタントです。

これらのアシスタントは日常的に、オンラインで情報を検索したり、音楽を再生したり、基本的な質問に答えたりするのに役立っています。人々の生活や家庭がより接続されるようになるにつれ、バーチャル・アシスタントは、新しいタスクをより簡単に実行するのに役立つようになります。

話しかけられたコマンドに反応することで、これらのアシスタントを簡単かつ効率的に使用できるだけでなく、読み書きの問題や障害、その他の理由でキーボードに困難を感じる人にもメリットがあります。AI機会学習を利用して、バーチャルアシスタントが質問の文脈を理解し、人間の声を解釈するために使用する自然言語システムは、人とそのデバイスの間に、より自然な会話を生み出しています。

説明文にもあったように、現在のVirtual Assistantsの好例はSiriやGoogle Assistantに代表される音声アシスタントでしょう。ただ、今後はここまで紹介してきた「Fakes」「Image Recognition」「Speech Recognition」の集大成のような新たなアシスタントが登場します。

それが冒頭で紹介したようなバーチャルヒューマンたちです。

たとえば、GucciやLouis Vuittonのような高級ブランドの背景や世界観を汲み取った音声と容姿をした本物そっくりのバーチャルヒューマンが開発されれば、話す内容や口調はそれぞれのブランドに最適化されたものになるはずです。

ARグラスを通じ、こうした仮想世界のブランドキャラクターとやり取りすることもSpatial時代の特徴です。高いAI画像認識・音声認識を元に、高精度のフェイクヒューマンとコミュニケーションを取る時代がSpatial Computing時代とも言えます。

本稿は次世代コンピューティング時代のコミュニケーションデザイン・カンパニー「.HUMANS」代表取締役、福家 隆氏が手掛ける「 THE .HUMANS MAGAZINE」からの要約転載。Twitterアカウントは@takashifuke。同氏はBRIDGEにて長年コラムニストとして活動し、2020年に.HUMANS社を創業した