なぜSiriは使われないのか?

SHARE:
Screen Shot 2020-03-06 at 9.59.07 PM
Image Credit: Apple

最近、音声プロダクト開発に向けていろんな人に会わせていただきながら、ざっくりと音声アシスタント(Siri・Google Assisntant・Alexa)の利用状況を聞く機会が増えました。

膨大なボリュームを調べていないため反論もあると思いますが、結論から言うとSiri(もしくはGoogle Assistant)を日常的に使う人はほとんど見当たりません、今のところ。

ここで言う「日常」とは、日々持ち歩くスマホやスマートイヤホン経由で音声アシスタントを少なくとも毎日、2〜3度以上は起動・利用するシチュエーションを指します。

肌感としては自宅でEchoシリーズを使っている方が5人に一人の割合、スマホの音声アシスタントを日常的に利用する人は数十人に一人くらい。ちなみにAlexaはスマホには進出していないため、自宅ユースケースが大半です。Google Assistantもスマートホーム文脈が比較的強いため、持ち歩き外出シーンではあまり使われていない印象でした。AppleのHome Podはほとんど普及していないため、Siriは完全にスマホ利用を想定しています。

日本と音声アシスタントの相性

pexels-photo-699122
Photo by Tyler Lastovich on Pexels.com

なぜ日常的にSiriやGoogle Assistantを使うユーザーにヒットできないのか。私が人を選んで会っていないという理由を除き(選ぶと市場の俯瞰的な定性データが集まらない)、2つほど仮説を立てました。

1つはお国柄。

まず音声アシスタントの利用シーンとして考えられるのは移動時間。しかし、日本(特に公共交通機関が発達した首都圏)では欧米のように、音声やオーディオサービスの価値が発揮されるプライベートが担保された自動車空間にいることがあまりありません。電車内で声を出すこともエチケット違反であると感じるため、使いところはないでしょう(この点、唯一タクシーや自転車移動を頻繁にされる方には刺さるかもしれませんが)。

加えて、タイピング文化が日本に追い風なのも特徴です。

フリック入力文化もあり、高速でGoogle検索できます。メッセージアプリもテキスト入力が比較的多いと思います(要検証項目ですが)。一方、中国ではタイピングフォーマットと言語がマッチしない理由から、音声メモを送り合う文化が形成されていると聞きました。欧米では先述したように、自動車空間に縛り付けられる拘束時間があるため、両手を使うテキスト入力が音声に代替されることに合点がいきます。

まとめると、「日本ではそもそも音声を発する場がない」「タイピング文化がフィットし過ぎている」が1つ目の仮説です。

逆に言えば次の3つのターゲットは1つ目の仮説を反証してくれると考えています。ただ、非常にニッチなのは否めないかもしれません。

  • 音声を発することにためらいをあまり感じない、デジタルネイティブな10代を中心とした「若者世代」
  • 比較的勝手に声を発しても許されるタクシー移動空間や、忙しなく仕事をして多量のタスクを処理する必要性に駆られている「ビジネスプロフェッショナル層」
  • プライベート空間が保たれ、常にパソコンを見つめながら作業をしてスマホを随時チェックする作業に多少の煩わしさを感じる「リモートワーカー層」

ボイスファースト時代の「コミュニケーション・キャズム」

pexels-photo-1647962
Photo by Valdemaras D. on Pexels.com

では、どうすれば音声アシスタントは使われるようになるのでしょうか。

そこで考えたいのが「コミュニケーション・キャズム」です。これは音声アシスタントの利用を多くの人が躊躇してしまう根本的なUX上の問題を指します。

従来のモバイルでは「アプリを開く→特定サービスを受ける」という導線でした。しかし、⾳声コマンドでは「要望を伝える→サービスを受ける」の導線へと変わります。つまり、サービス名やブランドに価値がなくなる世界観があるのです。これまでスマホ画面をタップしてサービスを指定していた習慣を変える必要があるので、ここでキャズムの概念が適応されるのです。

市場には、イノベーター(革新者)・アーリーアダプター(初期採用者)・アーリーマジョリティ(前期追随者)・レイトマジョリティ(後期追随者)・ラガード(遅滞者)の5タイプのユーザーがおり、順にプロダクトを利用するとされています。アーリーアダプターとアーリーマジョリティの間にある“崖”を超えれば、製品利用が爆発的に増える概念です。

スマホの音声アシスタント利用に関しては、イノベーター層は一定数存在すると踏んでいます。なんとかしてSiriやGoogle Homeの活用方法をハックして、自宅でEchoシリーズを使うように工夫する人がいるはず。もしくは音声メモをMessengerやSlack、LINEに頻繁に使ったり、私のように記事執筆の書き起こしに使う人がいるでしょう。

彼らはボイスファースト時代のサービス導線を自ら作る、学習コストの高いサービスを独自に工夫したりして自分なりの利用方法を開拓するイノベーターおよびアーリーアダプタ層「ProConsumer」です。

鶏と卵問題

pexels-photo-3781570
Photo by Andrea Piacquadio on Pexels.com

ProConsumerたちは音声の良さを最大限享受し、恩恵を受けています。しかし、私たちが使うほとんどのサービスがモバイルアプリ体験から⾳声体験へシフトができていないことから、キャズムを超えられていません、爆発的に音声の良さが伝わっていません。

ユーザーにとって⼊⼒やサービスが呼び出しが楽にも関わらず、なぜ⾏われていないのか?

もともと音声は人間が本来持つコミュニケーションであり、ストレスなく情報を入力・取得できるものであるはず。にも関わらず、なぜ体験シフトへ動かないのか?

答えは2つ挙げられます。1つは「鶏と卵の問題」。サービス開発者は市場からの強いニーズがあれば音声体験への最適化へ必然的に動きますが、未だに少数しか音声を使いこなせていません。この堂々巡りが市場を硬直させていると感じます。

ただ、一石を投じたのがAirPodsです。耳元にSiriを持ってきた高性能イヤホン「ヒアラブル」端末の急先鋒として市民権を得ています。AirPodsは硬直状態の市場を少しずつ動かすはずです。

シークレットクエスチョン

pexels-photo-132340
Photo by Burak K on Pexels.com

ここ数年で発生したハードウェアの進出・利用浸透でもなお、シフトが発生しないのはなぜか。それが2つ目の答え「シークレットクエスション」、つまり今は誰もが当たり前に受け入れている問題のことです。

PCからモバイルへと体験がシフトしただけで、インスタグラムやUberなど、潜在的な課題を解決する様々な巨大企業が誕生しました。シークレットクエスチョンにはそれほどのインパクトがあるのです。

何かしら大きな市場がキャズムの先にあるにも関わらず、私たちは未だに制限された音声体験を当たり前に受け止めています。長年使い続けた、生産性の低いタイピングでカバーしようと自然と考えてしまっています。これが私が考え、気付いたシークレットクエスションです。

将来的にFacebookやAppleが開発に注力するARグラス端末が増えれば、音声アシスタントを通じたコミュニケーション手法は主要UIとして採用される可能性が高いです。まさにSF映画のように、音声コマンドだけであらゆるサービスを利用できる環境が2020年代に整うかもしれません。

その下地をモバイルファースト時代に作っておくことで、戦略的に次世代ハードウェアが活躍する「Spatial Computing時代/ミラーワールドが実現された世界」へと打って出ていけると考えています。

BRIDGE Members

BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。
  • 会員限定記事・毎月3本
  • コミュニティDiscord招待
無料メンバー登録