仮想空間で文字入力はどうなる?ーーFacebookが「PinchType」で示したその方法とは

SHARE:
RPReplay_Final1588093600 2
Video Credit:ACM SIGCHI

ピックアップ:Facebook Researchers Present ‘PinchType’ Typing System For Hand Tracking

ニュースサマリ:Facebook Reality Labsは4月25日、「PinchType」というVR/AR向けの仮想キーボードを発表した標準のQWERTYキーボードを対象に、親指と各指をつまむように合わせる動作を認識して入力する手法を新たに開発した。

PinchTypeのプロトタイプでユーザーテストを実施したところ、平均タイピング速度が毎分12ワードをわずかに超える結果となった。比較として、QWERTYキーボードの平均は毎分40ワード、スマートフォンでは毎分35ワードであった。ただし従来のVR/AR向け仮想キーボードと比較すると、快適さで上回る結果を示している。

話題のポイント:今回、Facebookが発表したVR/ARのテキスト入力方法であるPinchTypeは「文字群に触れる」という点がユニークです。

26文字のアルファベットを左右の親指を除く8本の指に割当てて、どの指と親指を合わせるかで入力します。左の小指には「Q、A、Z」、右の中指には「I、K」といった具合です。以下の動画を見てていただければイメージできると思います。従来のキーボード入力で担当している指にアルファベットを割り当てているため習得コストは低いでしょう。

3min 6
Video Credit:ACM SIGCHI

仮に「BRIDGE」という文字を入力するとしましょう。その場合「左の人差し指>左の人差し指>右の中指>左の中指>左の人差し指>左の中指」の順にそれぞれの指を親指と合わせるだけで済みます。

ご覧の通り、何れかの指を親指と合わせる時、割り当てられたアルファベットのどれを入力したいかを指定する必要ありません。「BRIDGE」の最初の二文字のB、Rはどちらも左の人差し指が該当しますが、連続で親指に触ることでB、Rと自動で認識する仕組みとなっています。

この文字群を触るだけで入力ができてしまう妙手を支える技術は「言語モデル」と呼ばれるものです。単語同士や文書同士の関係について定式化したもので、自然言語処理の分野でよく用いられます。

残念ながら具体的にどのような定式で動かしているのかは公表されていませんが、公開された動画を見るに、選択された文字群の順番だけでなく、文章全体からワードの予測を行っていることが伺えます。ワード予測精度は自然言語処理に強みを持つFacebookがレバレッジをかけられる要素であると同時に、このテキスト入力方法が普及するかの生命線であることは言うまでもありません。

スマホの予測変換に身を委ねてテキスト交換をすることを想像してもらえればシステムを試すまでもストレスを感じれるはずです。今はまだない高いレベルの予測が必要となります。

2020-04-29 1.58.45
Image Credit:Oculas

そしてもう一つの生命線が「ハンドトラッキング」です。要は手がどのように動いているかを把握する技術のことですが、これまで十分堅牢な把握をカメラ単体で実現できたことはありません。

Facebookはスタンドアローン&カメラ単体、もしくはそれに準ずるハンドトラッキングに強いこだわりを見せています。ハットマウントディスプレイ(HMD)の煩わしさである価格・重量・PC接続を取り除くことを第一優先として、グローブ装着、深度センサーの組込みを採用しない戦術を取ってきました。

2016年のOculus Connect 3のグローブによるトラッキング技術の確立に始まり、2018年の開発者カンファレンスF8ではグローブで正確な手の動きをAIで学習してグローブレスなハンドトラッキングを発表しました。

そして2019年12月に初めてOculas Questにハンドトラッキングが導入され、完全な状態とは言えないものの確実にマイルストーンを達成し続けています。それも公言していた計画を1年近く前倒しのペースで進行しています。

2020-04-29 2.00.11
Oculas Connect 3でグローブによるハンドトラッキングに関する発表の様子ーーImage Credit:Oculas

引き続きハンドトラッキングの精度向上に取り組みつつ、次にFacebookが興味を示している「カメラに写らない場所での手の動きを如何に捉えるか」という課題と、言語モデルが成熟するタイミングが重なった時、彼らの社史の見出しを手にするほどのデバイスと一つの入力インターフェイスの答えが生まれることになるでしょう。

IMG_5735

期待値を込めて執筆している部分もありますが、現在のレーザーポインターで壁に貼ってる文字が書かれた紙を一文字づつ指すような体験では、ユースケースを広げるのが難しいのは明確です。5Gで通信量の制限が解除されてやってくるユースケースを広げる時期までに、足かせにならない答えを見つけなければなりません。

余談ではありますが、日本のテキスト入力はこれまで先鋭的だったと感じます。ガラパゴスだと揶揄されることもあるフリック入力、ガラケーのトグル入力。子音の「あかさたなはまやらわ」をキーとして、母音を指の動きに適応することで濁点・半濁点を含む83文字をたった11マスに閉じ込めた発想は卓越していました。

まさしく発音が豊富だからこそ生まれた日本が誇るべき創意の賜物です。VR/ARに片足を入れた今、もう一度世界に見せつける時がきたのではないでしょうか。

----------[AD]----------