タグ 特集:音声と言語

言語を超えるSNS【M2M-100】:100言語翻訳で少ない言語データを補足する方法(3/4)

SHARE:

(前回からのつづき)Facebookは、逆翻訳を使用してリソースの少ない言語のデータを補足した。これは、ある言語で翻訳モデルをトレーニングしそれを使用して特定の言語に翻訳、その翻訳データから逆翻訳を行い新たなデータを生成する方法だ。 たとえば、目標が中国語からフランス語の翻訳モデルをトレーニングすることであった場合、Facebookの研究者はフランス語から中国語への翻訳モデルをトレーニングし、フラ…

(前回からのつづき)Facebookは、逆翻訳を使用してリソースの少ない言語のデータを補足した。これは、ある言語で翻訳モデルをトレーニングしそれを使用して特定の言語に翻訳、その翻訳データから逆翻訳を行い新たなデータを生成する方法だ。

たとえば、目標が中国語からフランス語の翻訳モデルをトレーニングすることであった場合、Facebookの研究者はフランス語から中国語への翻訳モデルをトレーニングし、フランス語のすべての翻訳データを使用して中国語の逆翻訳データを生成する。 M2M-100の開発過程ではマイニングされた言語データに、このようにして作られたデータを追加しこれまでに見られなかった言語ペアのデータを作成した。

Facebookの研究者によるとM2M-100はモデルの並列処理を活用し、現在の2言語間の翻訳モデルよりも2桁大きいモデルサイズのトレーニングを行なう。大規模なモデルをトレーニングするためのPyTorch向けライブラリFairscaleを使用して、トレーニング中モデルは数百のグラフィックカードに分割されるが基礎となるデータは同じであるため、それぞれのカードはデータの一部ではなくモデルの一部をトレーニングする。

M2M-100がパフォーマンスを低下させることなく拡張できるよう、Facebookの研究者は、モデルのパラメータ(この場合、予測に影響を与える変数のこと)を重複しない言語グループに分割した。この戦略の組み合わせによりモデルの容量は100倍に増加し、Facebookが高精度であると自負する言語翻訳を提供できるようになった。

Facebookは154億のパラメーターによって、追加のモデル容量でトレーニングをした最もデータの多い高リソース言語ペアでの改善がM2M-100で見られたと述べている。 「モデル容量の高密度スケーリングと言語固有のパラメーター(計30億個)を組み合わせることで、大規模モデルの利点と、さまざまな言語に特化したレイヤーを学習する機能を提供します」とFan氏は書いている。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録


言語を超えるSNS【M2M-100】:100言語の翻訳を実現するブリッジマイニング戦略(2/4)

SHARE:

(前回からのつづき)M2M-100はFacebookの多言語モデルであるXLM-Rに基づいて構築されており、1つの言語データから学習し、100の言語でタスクを実行する。 7月、Facebookは51の異なる言語をサポートする音声認識モデルをリリースした。さらに最近では、言語間で文をマイニングするための多数の言語によるラベルなしデータと優れたモデルをトレーニングするCRISSの詳細を明らかにした。F…

(前回からのつづき)M2M-100はFacebookの多言語モデルであるXLM-Rに基づいて構築されており、1つの言語データから学習し、100の言語でタスクを実行する。 7月、Facebookは51の異なる言語をサポートする音声認識モデルをリリースした。さらに最近では、言語間で文をマイニングするための多数の言語によるラベルなしデータと優れたモデルをトレーニングするCRISSの詳細を明らかにした。Facebook AI Research ParisのデータサイエンティストであるAngelaFan氏はブログの投稿で次のように書いている。

「何年もの間AI研究者は、さまざまな異なるタスクをすべての言語で理解できる単一で普遍的なモデルの構築に取り組んできました。すべての言語、方言、モダリティをサポートする単一モデルは、より多くの人々により良いサービスを提供し、翻訳を最新の状態に保ち、何十億人もの人々に対して平等で新しい体験を生み出す手助けとなります」。

M2M-100では、Facebookの研究者はさまざまなソースの表面上高品質なデータでマイニングを行うために新しい言語識別技術を用いた。1つは、自然言語処理モデルのゼロショット転送を実行するオープンソースツールキットであるLanguage-Agnostic Sentence Representations(LASER)だ。ほかにも、翻訳モデルをトレーニングするための”10億スケール”のbitextデータセットCCMatrixと、クロスリンガルなウェブドキュメントペアの大規模テストコレクションであるCCAlignedの2つがある。

Facebookの研究者は、翻訳の需要が統計的にまれなペア(アイスランド語ーネパール語やシンハラ語ージャワ語など)は除いて、分類、地理、文化の類似性に基づき言語を14のファミリーにグループ化する「ブリッジマイニング戦略」を導入した。同じグループに属する言語を使う国に住む人々は、より頻繁にコミュニケーションを取り、高クオリティな翻訳の恩恵がより受けやすいだろうという直感があったからだ。たとえば、あるファミリグループには、ベンガル語、ヒンディー語、マラーティー語、ネパール語、タミル語、ウルドゥー語など、インドで話されているさまざまな言語が含まれる。

Facebookの研究者は、それぞれのファミリーグループの言語をつなぐために、少数の「ブリッジ言語」、つまり各ファミリーグループごとに1〜3つの主要な言語を選定した。たとえば、ヒンディー語、ベンガル語、タミル語は、データセット内のインド・アーリア語のブリッジ言語になっている。次に、これらのブリッジ言語のすべての組み合わせ可能なトレーニングデータをマイニングし、前述の75億個の文のデータを取得した。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録


人とAIで高品質な「人間参加型の機械翻訳」を目指すUnbabel

SHARE:

ピックアップ:Unbabel gets $60M for its blended approach to business translation ニュースサマリー:翻訳サービスを提供するUnbabelは9月25日、シリーズCにて6,000万ドルの資金調達を実施したと発表した。リード投資家にはPoint72 Ventureが参加し、e.ventures、Greycroft、and Indico C…

ピックアップ:Unbabel gets $60M for its blended approach to business translation

ニュースサマリー:翻訳サービスを提供するUnbabelは9月25日、シリーズCにて6,000万ドルの資金調達を実施したと発表した。リード投資家にはPoint72 Ventureが参加し、e.ventures、Greycroft、and Indico Capital Partnersも同ラウンドに参加している。同ラウンドまでの総資金調達額は9,100万ドルに到達している。同社は調達した資金を用いて、米国・欧州・アジアでの成長を加速させAIの向上に活用すると述べている。

重要なポイント:同社は、スピードと低コスト、かつ機械翻訳の強みを生かした翻訳サービスを提供。世界中の10万人以上の翻訳者コミュニティーをベースにした人間の専門知識を組み合わせ、「人間参加型の機械翻訳」というアプローチを実現している点で競合優位性を実現している。

詳細情報:リード投資家でもあるPoint72 Venturesは、「ボタンをクリックするだけでエンタープライズ領域の翻訳を提供するUnbabelのビジョンにインスパイアされ、人間参加型の翻訳技術に感銘を受けた」とコメントする。人間参加型の機械翻訳(機械学習)では、人間がアルゴリズム構築の学習段階で機機械学習のプロセスに関わり、能動的にフィードバッする。これら強みを活かして、同社は主に旅行・ハイテク・ゲーム・eコマースなど150社以上のエンタープライズ顧客にプラットフォームを提供を行っている。他の翻訳方法と比較して、最大76%のコスト削減と顧客満足度の向上が実現すると強調する。

  • このような人間と機械翻訳の組み合わせのソリューションはAlibaba(阿里馬場)pangeanicなどその他にも複数出てきている。中には、元々翻訳のエキスパートのネットワークをグローバルに持っていたLionbridgeが、Gengoのような高度な自然言語処理のAI開発プラットフォームを持つ会社を完全子会社化してシナジーを実現しようとする動きも生まれつつある。
  • 翻訳のローカライズという観点では、上記のように人間参加型でのアプローチに加えて、ローカル企業が対応言語をあえて絞ることで翻訳の精度を極限まで高めるというアプローチがある。
  • そのアプローチで、みらい翻訳は国立研究開発法人情報通信研究機構と共同研究で開発したニューラル機械翻訳の日本語・英語間においてTOEIC960点の日本人ビジネスマンと同等の翻訳精度を実現した例も国内に生まれている。

背景:SMT(統計機械翻訳)で停滞していた翻訳精度の向上が、深層学習ベースのNMT(ニューラル機械翻訳)の登場により急速に加速し一気にビジネスで活用できるレベルまでになってきたため、当記事のような機械翻訳のビジネスが成立するようになった。

執筆:國生啓佑/編集:岩切絹代

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録


言語を超えるSNS【M2M-100】:Facebook、100言語対応の機械翻訳モデルを公開(1/4)

SHARE:

Facebookは英語を中間言語として介さず、100言語の任意ペアを翻訳することが可能なアルゴリズムM2M-100をオープンソース化した。同モデルは、2200の言語ペアで機械学習が施されており、英語中心の他システムと比べてはるかに優れる翻訳性能となっているとする。M2M-100は、今後世界7000以上の言語ペアの翻訳を目指して開発を進める。同モデルは、類似する言語間で情報を共有することができるため…

Facebookは英語を中間言語として介さず、100言語の任意ペアを翻訳することが可能なアルゴリズムM2M-100をオープンソース化した。同モデルは、2200の言語ペアで機械学習が施されており、英語中心の他システムと比べてはるかに優れる翻訳性能となっているとする。M2M-100は、今後世界7000以上の言語ペアの翻訳を目指して開発を進める。同モデルは、類似する言語間で情報を共有することができるため、比較的学習量が少ない言語でも翻訳することが可能となる。

今まで、モデルサイズが大きくなるとより大きなデータセットが必要となったため、英語を中心としたモデリングやデータセットに注目が集まってきていた。(例えば、100言語をサポートするためにはおおよそ1,000億個程度の文章ペアが必要となる)。しかし、そうしたデータとモデリングには実際にどういったシチュエーションで翻訳を利用しているかなどが欠けるためバイアスが生じ、結果として英語以外の翻訳パフォーマンスが悪化すると指摘されていた。

それに対してFacebookのM2M-100モデルでは、100の異なる言語を75億にも渡る文章ペアでが機械学習が実施された。同社リサーチャーは、モデリングの言語選定に際して大きく3つの基準を定めた。一つ目は、地理的多様性があり、かつ世界的に話されている言語である点。2つ目は、モデルパフォーマンスの定量化を考慮し、エヴァリュエーションデータが既に存在している点。最後は、モノリンガルデータが存在しない点。以上を考慮し、言語データの選定を実施した。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録


次の10億ドル企業は「子供の寝かしつけ」市場を狙う

SHARE:

ピックアップ:Moshi, a sleep and mindfulness app for kids, raises $12M Series B led by Accel ニュースサマリ:子供向けの寝かしつけ音声アプリ「Moshi」は、AccelをリードにLatitude VenturesとTriplepoint Capital参加のラウンドで1,200万ドルを調達した。同社は子供の睡眠を助けるア…

pexels-photo-4079281
Photo by Anastasia Shuraeva on Pexels.com

ピックアップ:Moshi, a sleep and mindfulness app for kids, raises $12M Series B led by Accel

ニュースサマリ:子供向けの寝かしつけ音声アプリ「Moshi」は、AccelをリードにLatitude VenturesとTriplepoint Capital参加のラウンドで1,200万ドルを調達した。同社は子供の睡眠を助けるアプリを開発。アプリには150近いオリジナルコンテンツが用意されており、80本の30分就寝ストーリーは、すべて同社が執筆・制作したものだ。

コンテンツ1つ1つの流れは、子供が寝やすいように忠実に練られている。たとえば、同アプリで最も人気のあるストーリーの一つである「Mr.Snoodle’s Twilight Train」では、ストーリー全体の背景に「シュッシュッポッポ」という電車の音が鳴り響く。この効果音は、子供の平均的な安静時心拍数に合わせたもので、子供が安らかな気持ちになれるように工夫されている。

現在10万人以上のサブスクライバーを抱え、8,500万回のストーリーが再生されているという。年間40ドルの利用料で収益化を図る。

もともとMoshiはMindy Candyという会社が名称を変更したもの。評価額10億ドルを超える「ユニコーン企業」の仲間入りをした瞑想アプリ「Calm」の創業者兼CEOであるMichael Acton Smith氏が創業したのだが、Calmに専念するために同社を抜けている(後継として現Moshi CEOのIan Chambers氏が着任)。つまり、流れとしてはCalmと同じDNAを汲んでいることがわかる。

pexels-photo-3536643
Photo by nappy on Pexels.com

話題のポイント:お子さんの寝かしつけに悩まれている方は多いのではないでしょうか?

コロナの影響で子供と一緒に過ごすことが多くなり、寝かしつけ問題(お昼寝含め)がさらに顕著になっているかもしれません。これは長年に渡って親御さんたちの大きなペインポイントでもあり、ここを切り口に、子供を落ち着かせる音声コンテンツを提供するのが「Moshi」です。

室内フィットネス市場では「Peloton」「Mirror」などの大型器具が注目を集めています。一方、自宅で手軽にできる瞑想アプリ領域も「Calm」を筆頭に、「SimpleHabit」のような瞑想版Netflixや、「Journey Meditation」のようなオンデマンドライブ配信が人気です。「自宅 + フィットネス/瞑想」のトレンドが子供市場にもやってきた、と今回のニュースは読んで良いでしょう。

子供独特の精神状態全てに対応するため、まずは寝かしつけという誰もが共感する課題から入り、将来的には自閉症やADHDなどの特定状態に対応するための音声コンテンツを提供することができれば、巨大プラットフォームになる可能性も見えてきます。音声書籍ストアや、Amazon的なマーケットプレースなど色々な展開が予想できるので、まさに「子供向けCalm」の市場を独占できる戦略思考です。チーム背景も文句ないので、急成長が望めるスタートアップの匂いがしてきます。

ちなみに数年前にはAmazon Alexa Fundから出資を受けた、Echoを使った絵本読み聞かせサービス「Novel Effect」が登場しています。同社もまたMoshiと同じ読み聞かせ市場を狙っており、親御さんや教師が読む幼児向け本に合わせて、Amazon Echoやスマホから効果音が出る立体演出サービスを提供します。「音のAR」とも呼べる領域で、累計調達額は310万ドル。Techstartsアクセラレータプログラム出身のスタートアップです。

現在、Novel Effectは保育園を中心にB2B営業をかけてサービス展開させており、Moshiに関しても、仮に寝かしつけの一定の効果がしっかりと検証されたのであれば、保育園に卸せるかもしれません。Cにも、Bにも展開でき、坂路拡大に悩む出版社との提携も考えられます。日本でも十分にトレンドとなる領域だと感じますし、その最前線にいるのがMoshiと言えます。

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録


AirPodsの「声」でいつでも繋がるTTYL、広がる音声グループチャットの可能性

SHARE:

自粛生活を余儀なくされる中、オンライン・コミュニケーションサービスに注目が集まっています。なかでも注目しているのが音声コミュニケーションサービスです。 自宅で1日の大半を過ごしている中では洋服を繕ったり、化粧をする必要が出てきません。そのため、映像通話サービス「Zoom」「Skype」では顔出しをする必要が出てきてしまうこともあり、映像系は最適なサービスではないのでは、という声を聞くようになりまし…

Screen Shot 2020-04-17 at 8.15.01 PM

自粛生活を余儀なくされる中、オンライン・コミュニケーションサービスに注目が集まっています。なかでも注目しているのが音声コミュニケーションサービスです。

自宅で1日の大半を過ごしている中では洋服を繕ったり、化粧をする必要が出てきません。そのため、映像通話サービス「Zoom」「Skype」では顔出しをする必要が出てきてしまうこともあり、映像系は最適なサービスではないのでは、という声を聞くようになりました。

こうした背景を踏まえ、最近ではゲーマー向け通話・チャットアプリ「Discord」をハックする動きが日本で見られています。手軽にサーバーを作成できることから、社内のチームメンバーを招待して、ここで音声会議をするらしいです。会社のオフィスにいるような、その場で会議ができて、その場で誰かに相談できる場を求めているニーズが伺えます。

もともとDiscordは2Cサービスでしたが、うまくハックされて2Bに応用されています。同じような現象が起きて成長をするのではないかと思っているのが、今回ご紹介する「TTYL – Talk To You Later」です。

「TTYL」とは?

Screen Shot 2020-04-17 at 8.18.26 PM

TTYL」とは、AirPodsを通じて利用できる音声通話アプリです。2018年にロサンゼルスで創業し、累計調達額は200万ドル。累計7,000万ドルを調達してエグジットした多人数動画チャットアプリ「Houseparty」の音声版と呼べます。

ユーザーは自分の枠(ルーム)を作成し、友人を将来することでその場で会話を始めることができます。設定をオフにしない限りルームは常にオープンになっており、誰とでも会話できる環境が整っています。リアルタイムで音声配信されている枠にユーザーがジャンプインする体験です。

非常に興味深い点がAirPodsを装着して初めてアプリを利用できることです。ハンズフリー、かつ「ながら会話」の出来るユースケースに特化させようとしているんでしょうね。知り合い同士が集まって気軽に話す音声サービスを、利用機材を限定させることで実現させています。

4月下旬にはGoogle Budsの新型も投入されることから、高機能イヤホンの利用シーンは広がるでしょう。TTYLが目指すのはこうした音声IoTが普及した世界のチャットサービスであることが予想されます。

日本でも音声ライブ配信アプリ「SpoonRadio」「Stand.fm」「Dabel」が登場してきており、音声 + コミュニケーション領域が熱を帯び始めています。いずれのサービスも会話内容がコンテンツ化され、オープンになることを前提に作られていますが、TTYLとは同じ志向を持っていると考えられます。

デジタルネイティブ世代の接続ニーズ

pexels-photo-4144923
Photo by Julia M Cameron on Pexels.com

通信環境整備とAirPodsのような高機能音声デバイスの普及により、とにかく“耳”を通じてネット環境に繋がっていたい、誰かと繋がっていないと不安になってしまうと感じる人が増えてきた印象です。

常時接続の価値観は昨今、急速に理解されてきています。誰もが在宅を強いられている特殊な環境が発生しているため、「一過性の価値観だろう」と考える方もいらっしゃるかもしれませんが、私たちは昔から同じような習慣を身近なところで目にしてきたはずです。

リビングルームでTV番組を付けっ放しにしながら家族と話したり、食事をする「ながら視聴」はご存知の通りですし、私のように自室で音楽を付けっ放しにしていないと気が落ち着かない人も多くいると思います。

こうした視聴習慣が、AirPodsを通じてインターネットサービスを楽しむ習慣にスライドし始めていると感じています。時代に沿って変化する、「デバイス最適化の波」が発生している考えてもよいでしょう。TVやラジオの付けっ放しから、AirPodsを通じたネット環境への常時接続への移行とも言えます。

TTYLの提供価値は、Z世代が抱える根強い「繋がりたいニーズ」です。また、何かをし「ながら」誰かと繋がるUXを作り上げることで、手軽さというニーズにも応えています。

ユースケースの市場移動

pexels-photo-4031818
Photo by Edward Jenner on Pexels.com

ここからはアイデアを昇華させます。冒頭でご紹介したように、ゲーマー向けに提供されていたDiscordの体験シーンが2Bへと応用されています。ユースケースの市場移動が発生している状況下で、同じ流れがTTYLのようなサービスに起こると考えています。

例えば在宅ワークを半ば強制的に導入せざるを得ない環境で、バーチャルオフィス需要も加速しています。a16zが出資する、750万ドルを調達した「Tandem」や、日本の「Teracy」などのオンラインオフィスサービスが勢いづいています。

B市場向けオンライン・コミュニケーションサービスは活気に満ちている印象です。ただ、音声特化サービスはないこともあり、TTYLが参入すれば一定数の需要を掴めるだろうと感じます。また収益化の確かさも2Cよりもあるはずです。

Discordの場合、すでにゲーマーユーザーが基盤として強くなっていますが、TTYLは2Cで爆発的な成長は未だ遂げていません。Sequioa Capitalが出資する1,050万ドルを調達した「Threads」が成長しているように、ビジネス雑談・戦略を気軽に議論できる場の価値はある程度証明されています。こうした業務に関するトピックを音声で話せるユースケースは受け入れられると考えています。

2C向けサービスとして、デジタル世代の習慣とニーズを的確に掴んでいるのがTTYLです。このまま成長すれば、いずれHousepartyのように跳ねる瞬間が訪れると感じますが、収益面とユーザーグロースを両立させるには2B市場での進出が最善なのではと感じています。

今後、日本でも音声サービスが多数登場してくると思いますが、TTYLを代表とした動きは、コミュニケーションサービスの未来を占う上で注目すべきでしょう。

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録


なぜSiriは使われないのか?

SHARE:

最近、音声プロダクト開発に向けていろんな人に会わせていただきながら、ざっくりと音声アシスタント(Siri・Google Assisntant・Alexa)の利用状況を聞く機会が増えました。 膨大なボリュームを調べていないため反論もあると思いますが、結論から言うとSiri(もしくはGoogle Assistant)を日常的に使う人はほとんど見当たりません、今のところ。 ここで言う「日常」とは、日々持…

Screen Shot 2020-03-06 at 9.59.07 PM
Image Credit: Apple

最近、音声プロダクト開発に向けていろんな人に会わせていただきながら、ざっくりと音声アシスタント(Siri・Google Assisntant・Alexa)の利用状況を聞く機会が増えました。

膨大なボリュームを調べていないため反論もあると思いますが、結論から言うとSiri(もしくはGoogle Assistant)を日常的に使う人はほとんど見当たりません、今のところ。

ここで言う「日常」とは、日々持ち歩くスマホやスマートイヤホン経由で音声アシスタントを少なくとも毎日、2〜3度以上は起動・利用するシチュエーションを指します。

肌感としては自宅でEchoシリーズを使っている方が5人に一人の割合、スマホの音声アシスタントを日常的に利用する人は数十人に一人くらい。ちなみにAlexaはスマホには進出していないため、自宅ユースケースが大半です。Google Assistantもスマートホーム文脈が比較的強いため、持ち歩き外出シーンではあまり使われていない印象でした。AppleのHome Podはほとんど普及していないため、Siriは完全にスマホ利用を想定しています。

日本と音声アシスタントの相性

pexels-photo-699122
Photo by Tyler Lastovich on Pexels.com

なぜ日常的にSiriやGoogle Assistantを使うユーザーにヒットできないのか。私が人を選んで会っていないという理由を除き(選ぶと市場の俯瞰的な定性データが集まらない)、2つほど仮説を立てました。

1つはお国柄。

まず音声アシスタントの利用シーンとして考えられるのは移動時間。しかし、日本(特に公共交通機関が発達した首都圏)では欧米のように、音声やオーディオサービスの価値が発揮されるプライベートが担保された自動車空間にいることがあまりありません。電車内で声を出すこともエチケット違反であると感じるため、使いところはないでしょう(この点、唯一タクシーや自転車移動を頻繁にされる方には刺さるかもしれませんが)。

加えて、タイピング文化が日本に追い風なのも特徴です。

フリック入力文化もあり、高速でGoogle検索できます。メッセージアプリもテキスト入力が比較的多いと思います(要検証項目ですが)。一方、中国ではタイピングフォーマットと言語がマッチしない理由から、音声メモを送り合う文化が形成されていると聞きました。欧米では先述したように、自動車空間に縛り付けられる拘束時間があるため、両手を使うテキスト入力が音声に代替されることに合点がいきます。

まとめると、「日本ではそもそも音声を発する場がない」「タイピング文化がフィットし過ぎている」が1つ目の仮説です。

逆に言えば次の3つのターゲットは1つ目の仮説を反証してくれると考えています。ただ、非常にニッチなのは否めないかもしれません。

  • 音声を発することにためらいをあまり感じない、デジタルネイティブな10代を中心とした「若者世代」
  • 比較的勝手に声を発しても許されるタクシー移動空間や、忙しなく仕事をして多量のタスクを処理する必要性に駆られている「ビジネスプロフェッショナル層」
  • プライベート空間が保たれ、常にパソコンを見つめながら作業をしてスマホを随時チェックする作業に多少の煩わしさを感じる「リモートワーカー層」

ボイスファースト時代の「コミュニケーション・キャズム」

pexels-photo-1647962
Photo by Valdemaras D. on Pexels.com

では、どうすれば音声アシスタントは使われるようになるのでしょうか。

そこで考えたいのが「コミュニケーション・キャズム」です。これは音声アシスタントの利用を多くの人が躊躇してしまう根本的なUX上の問題を指します。

従来のモバイルでは「アプリを開く→特定サービスを受ける」という導線でした。しかし、⾳声コマンドでは「要望を伝える→サービスを受ける」の導線へと変わります。つまり、サービス名やブランドに価値がなくなる世界観があるのです。これまでスマホ画面をタップしてサービスを指定していた習慣を変える必要があるので、ここでキャズムの概念が適応されるのです。

市場には、イノベーター(革新者)・アーリーアダプター(初期採用者)・アーリーマジョリティ(前期追随者)・レイトマジョリティ(後期追随者)・ラガード(遅滞者)の5タイプのユーザーがおり、順にプロダクトを利用するとされています。アーリーアダプターとアーリーマジョリティの間にある“崖”を超えれば、製品利用が爆発的に増える概念です。

スマホの音声アシスタント利用に関しては、イノベーター層は一定数存在すると踏んでいます。なんとかしてSiriやGoogle Homeの活用方法をハックして、自宅でEchoシリーズを使うように工夫する人がいるはず。もしくは音声メモをMessengerやSlack、LINEに頻繁に使ったり、私のように記事執筆の書き起こしに使う人がいるでしょう。

彼らはボイスファースト時代のサービス導線を自ら作る、学習コストの高いサービスを独自に工夫したりして自分なりの利用方法を開拓するイノベーターおよびアーリーアダプタ層「ProConsumer」です。

鶏と卵問題

pexels-photo-3781570
Photo by Andrea Piacquadio on Pexels.com

ProConsumerたちは音声の良さを最大限享受し、恩恵を受けています。しかし、私たちが使うほとんどのサービスがモバイルアプリ体験から⾳声体験へシフトができていないことから、キャズムを超えられていません、爆発的に音声の良さが伝わっていません。

ユーザーにとって⼊⼒やサービスが呼び出しが楽にも関わらず、なぜ⾏われていないのか?

もともと音声は人間が本来持つコミュニケーションであり、ストレスなく情報を入力・取得できるものであるはず。にも関わらず、なぜ体験シフトへ動かないのか?

答えは2つ挙げられます。1つは「鶏と卵の問題」。サービス開発者は市場からの強いニーズがあれば音声体験への最適化へ必然的に動きますが、未だに少数しか音声を使いこなせていません。この堂々巡りが市場を硬直させていると感じます。

ただ、一石を投じたのがAirPodsです。耳元にSiriを持ってきた高性能イヤホン「ヒアラブル」端末の急先鋒として市民権を得ています。AirPodsは硬直状態の市場を少しずつ動かすはずです。

シークレットクエスチョン

pexels-photo-132340
Photo by Burak K on Pexels.com

ここ数年で発生したハードウェアの進出・利用浸透でもなお、シフトが発生しないのはなぜか。それが2つ目の答え「シークレットクエスション」、つまり今は誰もが当たり前に受け入れている問題のことです。

PCからモバイルへと体験がシフトしただけで、インスタグラムやUberなど、潜在的な課題を解決する様々な巨大企業が誕生しました。シークレットクエスチョンにはそれほどのインパクトがあるのです。

何かしら大きな市場がキャズムの先にあるにも関わらず、私たちは未だに制限された音声体験を当たり前に受け止めています。長年使い続けた、生産性の低いタイピングでカバーしようと自然と考えてしまっています。これが私が考え、気付いたシークレットクエスションです。

将来的にFacebookやAppleが開発に注力するARグラス端末が増えれば、音声アシスタントを通じたコミュニケーション手法は主要UIとして採用される可能性が高いです。まさにSF映画のように、音声コマンドだけであらゆるサービスを利用できる環境が2020年代に整うかもしれません。

その下地をモバイルファースト時代に作っておくことで、戦略的に次世代ハードウェアが活躍する「Spatial Computing時代/ミラーワールドが実現された世界」へと打って出ていけると考えています。

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録


Spotifyが築く“音の帝国”ーー知っておくべき音声市場45社スタートアップまとめ(後編)

SHARE:

前編ではGAFAMらが一挙にリリースさせたスマートイヤフォンを皮切りに、音声市場の成長性と音声SNSカテゴリーについて語りました。後編では他3つのカテゴリーについて触れていきたいと思います。後編の主役となるのがSpotifyです。同社が描くのは2つの戦略。「音声SNS」と「Podcastストリーミング」です。 2019年5月、Spotifyが「ソーシャルリスニング機能」をテストしていると報じられま…

Screen Shot 2019-11-01 at 9.55.08 PM
Image Credit: Spotify

前編ではGAFAMらが一挙にリリースさせたスマートイヤフォンを皮切りに、音声市場の成長性と音声SNSカテゴリーについて語りました。後編では他3つのカテゴリーについて触れていきたいと思います。後編の主役となるのがSpotifyです。同社が描くのは2つの戦略。「音声SNS」と「Podcastストリーミング」です。

2019年5月、Spotifyが「ソーシャルリスニング機能」をテストしていると報じられました。実際にはユーザーアカウントに紐づいたQRコードを読み込むと、友人のプレイリストを登録できるサービスであった模様です。前編で紹介したリアルタイムで音声対話をするような機能ではなかったようです。

しかしこれでSpotifyがP2Pネットワーク構築に興味を持っていることが推測できました。単にQRコードを通じたネットワークはあまり強固なものになるとは思いません。SNSとして機能させることでユーザーをフックさせることができます。Spotifyがここに賭ける可能性は高いと考えます。将来的に考えられるSNSの形は前編を参考にしていただければと思います。

タイトルにもある、Spotifyが目指す“音の帝国”が指すものは「音楽ストリーミング事業」「音声SNS」「Podcastストリーミング」の3つに集約されます。音楽ストリーミング事業で盤石なビジネスを確立し、次に目指したのはソーシャル要素。そして同時にPodcastストリーミング事業を急拡大させています。ここで話を戻し、3つのカテゴリーを紹介しようと思います。

2. Podcast制作/編集ツール

Screen Shot 2019-11-01 at 9.34.39 PM.png
Image Credit: Gimlet Media

2019年2月、SpotifyがPodcast市場への攻勢をスタートアップ買収を通じて急速に強めました。その1社が『Gimlet Media』です。2014年にニューヨークで創業し、2,850万ドルの調達をしています。

同社はオリジナルPodcastシリーズを配信する制作スタジオ。火星移住の模擬実験プロジェクトの参加者に密着したドキュメンタリー『The Habitat』や、AIアシスタントが登場するSFフィクション番組『Sandra』などの人気作品を続々と配信。eBayがスポンサーを務めるPodcast番組を配信し、ネイティブ広告を成功させています。Spotifyが得意とする音声広告をPodcast市場で成功させている点が評価され、買収に至ったのがGimletといえます。

Gimletのように自社制作スタジオ事業に手を出すスタートアップは多くありません。多大なコストがかかることから長く市場にいる人で無ければスケールすることはないでしょう。そのため大型競合は少なく、『Western Sound』や『Wait,What?』『The Athletic』のような中小規模のスタジオしか目立ったプレイヤーはいない印象です。

Screen Shot 2019-11-01 at 9.37.32 PM
Image Credit: Anchor

SpotifyはPodcast制作プラットフォームも買収しています。それが「Anchor」。2015年にニューヨークで創業し、累計調達額は1,500万ドル。手軽にPodcastを制作でき、Spotifyなどの各種音声プラットフォームに配信まで行える一気通貫サービスを提供。音声広告を展開することもできるワンストップ・プラットフォームと呼べるでしょう。

さて、企業がPodcastを制作をする場合、機材とチームがが揃っているため高品質なコンテンツを収録することができます。しかし個人ではなかなか編集するのに時間がかかりますし、リテイクを何度もする課題が発生します。この市場課題に目を付けたのが「Descript」。2017年にサンフランシスコで創業し、累計2,000万ドルの調達をしています。著名VC「Andreessen Horowitz」も出資している有望スタートアップといえます。

Podcast音声を読み込ませると、AIがデータ分析をしてテキスト表示に変換。単語単位で編集が可能となります。たとえば感嘆表現など、必要のない声を手軽にカット編集できるツールとなっています。筆者も試しに利用しましたが、編集から商用利用可能な音声挿入まで1つのダッシュボードで出来ることから利便性の高い印象でした。同社はテキストをプロのナレータが吹き込んだPodcastに変換するサービス「Lyrebird」を買収。テキストとオーディオの両方を編集できるツールとして市場攻勢を強める戦略です。

少し話が逸れますが、音声アプリを構築するビルダーサービスも登場しています。Amazon AlexaスキルやGoogle Assistant機能を、様々なトリガーを設定してプロトタイプアプリを作成できる「Voiceflow」。2018年にカナダのトロントで創業し、350万ドルを調達しています。

3. Podcastコンテンツ・プラットフォーム

Screen Shot 2019-11-01 at 9.38.57 PM.png
Image Credit: Parcast

世の中には大量のPodcastコンテンツが散らばっています。こうしたコンテンツを集めてネットワークとして束ねるプラットフォーマーの市場ポジションを目指す企業が多数登場しています。Spotifyもこの分野に注目し、「Parcast」を買収しています。

Parcastは提携パートナーから提供されるコンテンツを流通するディストリビューターとしてサービスを展開。SpotifyからすればGimletとParcastの買収を通じてPodcast制作スタジオから流通ネットワークまで、Podcast市場の川上から川下までを抑える戦略に打って出たといえるでしょう。

Parcastの競合は数え切れません。2018年にニューヨークで創業し、すでに1億ドルを調達しているPodcastネットワーク『Luminary Media』は最大の競合と呼べるでしょう。50万以上のPodcastショーへアクセスできるプラットフォームとして展開しているコンテンツホルダー。アジア展開はしておらず、欧米市場のみでサービス提供をしています。同じく1億ドル調達をする、2015年サンフランシスコ創業の『Himalaya Media』は2,400万Podcastコンテンツ(コンテンツ単体ベース)を配信する大手です。

Screen Shot 2019-11-01 at 9.39.55 PM
Image Credit: Castbox

他にも2016年にサンフランシスコで創業し、累計2,970万ドルを調達している「Castbox」も有名です。9,500万に上るPodcastコンテンツを配信しており、その数ではLuminaryに引けを取りません。2013年に北欧で登場した「Acast」も累計9,700万ドルの大型調達をしているPodcast配信プラットフォーム。配信サーバーから分析ツール、広告ネットワークまでを持っており、配信インフラが整っている点が特徴。

2016年にロサンゼルスで創業し、1,500万ドルの調達をした「Wondery」も比較的大手の部類に入るPodcast配信ネットワークサービスです。「Misson.org」などのPodcastネットワーク企業も登場しています。中小規模のスタートアップでは200万ドル超の調達をしている『Entale Media』、UIが優れている印象の「Breaker」や「Brew」、「Overcast」など多数挙げられます。

Screen Shot 2019-11-01 at 9.41.42 PM.png
Image Credit: Blinkist

ビジネス記事や小説を聴く体験も普及しています。Podcastというよりはテキストコンテンツをそのまま読み上げるタイプのサービスです。2012年にドイツで誕生した「Blinkist」は3,480万ドルの調達に成功しています。様々な本の要約オーディオコンテンツを聴くことができます。この領域ではAmazonが展開するオーデイォブックプラットフォーム「Audible」が最大手といえるかもしれません。また、本の要約を一口サイズの音声コンテンツで配信する「Headway」も競合として挙げられます。

膨大なテキストコンテンツを効率的に理解する媒体として音声コンテンツは最適だと考えられます。「Curio」は『The Guardian』や『Financial Times』に代表される大手メディアの配信記事にナレーションをつけて音声配信するメディアプラットフォーム。忙しい若手ビジネスプロフェッショナル層をターゲットにキュレートコンテンツを提供します。テック/ビジネス系Podcast配信では「upside」というアプリも登場しています。

4. 特化型音声コンテンツ

Screen Shot 2019-11-01 at 9.43.25 PM.png
Image Credit: SimpleHabit

特定領域のコンテンツだけを配信する音声メディアがとても多く誕生している印象です。なかでも最近注目市場であるメディテーション(瞑想)市場から多数の音声アプリが登場しています。

2016年にサンフランシスコで創業し、累計1,260万ドルの調達を果たした「SimpleHabit」は好例でしょう。“瞑想版Netflix”をコンセプトに展開しており、全米の瞑想家のクラスを5-10分程度の短尺で聴ける手軽さが特徴です。電車の中やオフィスの仕事場などのシチュエーション別にクラスを選べる使い勝手の良さも評価できるでしょう。

競合には1億ドル以上の調達をしてユニコーン入りをした「Calm」が挙げられます。瞑想分野のコンテンツを幅広く揃えている点では肩を並べる競合はほとんどいないでしょう。2013年にボストンで創業した「10% Happier」も成長株として注目。累計510万ドルを調達しています。加えて2010年にロサンゼルスで創業し、累計7,500万ドル調達に成功している「Headspace」も大手スタートアップに数えられます。

日本でもメンタルヘルス市場に対して関心と需要が年々高まりつつあります。生産性改革に注目が集まる中、忙しい人に特化した短尺メディテーションコンテンツを配信するSimpleHabitを模倣した日本ベンチャーが急成長する可能性が大いにあると感じています。

Screen Shot 2019-11-01 at 9.45.31 PM.png
Image Credit: Aaptiv

コンテンツ領域特化で注目されるのは瞑想以外にスポーツも同様。激しい運動をする際、動画を観ながらレクチャーを受けるシチュエーションは考えにくいです。そこで登場するのがオーディオ。冒頭で説明したAppleやGoogleの完全無線イヤホンがあれば音声を聴きながら運動ができます。

こうしたユースケースに注目したのが「Aaptiv」。2015年にニューヨークで創業し、累計5,210万ドルも調達しているスポーツ特化の音声アプリ。トレーナー毎の運動コンテンツを聴きながら楽しく身体を動かせます。運動中に音楽が流れるため、どこにいてもジムにいるような感覚を得られる点も特徴です。同じようなコンセプトに300万ドルの調達をしている「MoveWith」もいます。

競合には2億ドル超の資金調達をした「ClassPass」が提供する「ClassPass Go」が挙げられます。ClassPassは月会費を払うことで様々なフィットネスクラスに通うことができるサブスクサービス。従来、1つのジムチェーンに会費を払う必要がありましたが、各ジムをネットワーク化して様々なクラスを楽しめる体験を提供しています。同社が最近注力しているのが音声フィットネス。全米のトレーナーが提供するクラスを手軽に楽しめます。ClassPassが音声市場へ参入するのは、ジムに通う人からジムに行かずとも屋外で自分で運動をする人に至るまで、フィットネス市場の全てをカバーする戦略に打って出ている証拠ともいえます。

Screen Shot 2019-11-01 at 9.46.39 PM.png
Image Credit: Tingles

ニッチなコンテンツを配信することで市場ポジション確立を目指す動きも目立ちます。Y Combinatorのプログラムを卒業したASMR配信プラットフォーム「Tingles」はまさにその事例に当たります。

ASMRは聴くだけで快感を持てる音声コンテンツを指します。耳を掃除する音や石鹸を削ると音などが代表的。YouTubeで流れる3-4時間以上の勉強向けBGMや、カフェの音、雨音なども広義にはASMRに入るでしょう。こうしたASMRコンテンツはこの2-3年で徐々に注目を集めており、Tinglesは世界中のASMRユーザーのプラットフォームになっています。

旅行ガイドアプリも登場しています。Skypeの創業者が作ったDetour」は音響機器メーカー「Bose」によって買収されています。旅行ガイド市場は非常に小さいですが、競合には「Audm」と呼ばれるスタートアップも現れています。

最後に、筆者が最も注目している音声スタートアップを紹介しています。それが音声学習コンテンツプラットフォーム「Knowable」です。“音声版Udemy”をコンセプトに、音の学校を作り上げています。各ユーザーが作った学習コンテンツを販売できるマーケットプレイスになっています。

現在は著名な起業家や投資家がコンテンツを吹き込んでいることから、ユーザーが自然とコンテンツをアップする流れにはなっていません。しかし、これから音声市場が成長し、コンテンツの制作のハードルが下がれば大きなビジネスチャンスを獲得できるでしょう。特化型学習コンテンツをたくさん集めることができ、流通総額が上がれば徐々にマーケットプレイスの成長速度も上がると感じます。事実、著名VC「Andreessen Horowitz」のパートナーも出資しており、これからの事業拡大は確実といえると考えます。

apps cellphone communication computer
Photo by John Tekeridis on Pexels.com

ここまで駆け足で音声市場で活躍するスタートアップ約45社を紹介してきました。冒頭で説明したようにSpotifyが目指す“音の帝国”が指すものは「音楽ストリーミング事業」「音声SNS」「Podcastストリーミング」の3つ。コンテンツ量と強固なネットワークエフェクトを武器に完成されるのが音声市場の勝者です。その座を虎視眈々と狙っているのがSpotifyと感じます。

ソフトウェアサイドではSpotifyが最前線にいます。一方、前編でも紹介したスマートイヤフォンを発表したApple・Google・Amazon・Microsoftの4社はハードウェアサイドの最前線にいるといえます。この4社が同様に音声市場を狙いにきたらどうなるでしょう。

視聴体験の入り口となるイヤフォンを抑え、音声コンテンツまでを集めることでビックデータによるスマートアシスタントによるコンテンツレコメンドから自社プラットフォームで配信されるコンテンツを聴かせる綺麗な体験を提供する流れができます。他社プラットフォームへ逃さないユーザーの独占が始まるでしょう。まさに小売市場でAmazonが私たちを独占している構図が音声市場で起きる具合です。

話が飛躍してしまいましたが、2019年はSpotifyの買収劇をきっかけに音声市場が急成長する年になりました。2020年以降はプレイヤーが揃い、先述したような大きなビジョンと戦略を描きながら事業展開できる企業が勝てると感じます。

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録


耳の覇権争い始まるーー知っておくべき音声市場45社スタートアップまとめ(前編)

SHARE:

「こんな魔法、聞いたことがない」 10月30日、Appleから華々しいデビューを飾った「AirPods Pro」。ノイズキャンセル機能が搭載され、より没入感のあるサウンドを味わうことができるようになりました。「Hey Sir」と呼びかけるだけで音楽・通話・音量調節もできるスマートアシスタントの機能も担っています。外部音取り込みモードが追加され、周囲の音も自然と聞こえるように。価格は249ドル。 G…

Screen Shot 2019-11-01 at 11.15.49 PM
Image Credit: Apple

「こんな魔法、聞いたことがない」

10月30日、Appleから華々しいデビューを飾った「AirPods Pro」。ノイズキャンセル機能が搭載され、より没入感のあるサウンドを味わうことができるようになりました。「Hey Sir」と呼びかけるだけで音楽・通話・音量調節もできるスマートアシスタントの機能も担っています。外部音取り込みモードが追加され、周囲の音も自然と聞こえるように。価格は249ドル。

Googleは先んじて「Pixel Buds」を発表しています。従来モデルとは違い、完全無線タイプとなりAirPodsと直接競合となる製品。環境音に合わせて自動的に音量を上げ下げする機能を搭載。「OK Google」でアシスタント機能を呼び出すことができます。最大の特徴は目の前の相手の内容を翻訳するGoogle翻訳機能を搭載している点。2020年春に価格179ドルで販売予定です。

Amazonも9月末に「Echo Buds」を発表。音響アシスタントAlexa機能とノイズリダクション機能を搭載。SiriやGoogleアシスタントと連携可能。価格は129.99ドルとApple、Googleと比較して最も手頃なもの。そしてMicrosoftも完全ワイヤレスイヤホン「Surface Earbuds」を発表。Officeソフトと連携ができ、たとえばPowerPointの資料情報を翻訳できるとのこと。価格は249ドルとAppleと同額。

3つの“聴く”習慣

man holding a skateboard
Photo by Feruz Matkarimov on Pexels.com

こうして直近1か月ほどで発表されたスマートイヤフォン製品を見るとGAFAM5社のなかでFacebookを除く四つ巴状態であることがわかります。世界のインターネットを支配すると言っても過言でもない巨大企業らを急速にキャッチアップさせる音声市場にはどのような魅力や成長性があるのでしょうか。考えられる理由は3つほど挙げられます。

1つはスマートスピーカーの普及。Amazon Echoシリーズが市場シェア約70%を占めている中、次のようなデータが公表されています。こちらの記事によると、全世代平均で週17時間ほどオーディオコンテンツを消費するとのこと。Podcastやラジオ、ストリーミング音楽などが該当します。なかでもスマートスピーカー所有者は、非所有者と比較してプライムアワー(8-10PM)に47%以上多くの時間をオーディオコンテンツに割いているそうです。

スマートスピーカーがプライムアワーに使われるシチュエーションを自宅リビングであると仮定すると、私たちがより多くオーディオコンテンツに増える機会は増えるでしょう。2019年6月時点で7,000万台のスマートスピーカーが流通していますが、次の3-4年で1億台を数えるはずです。こうしたスピーカーによってリビングで消費するオーディオコンテンツ時間は比例して増えると想像できます。

adult beautiful blur casual
Photo by Burst on Pexels.com

2つ目は「観る」から「聴く」行動へ私たちの習慣が変わりつつある点です。これは先述したハードウェアによって提供されるオーディオ体験とは違い、習慣という最も力強い市場成長を支える要素となります。

読者の方で、スクリーンオフにした状態でYouTubeを聴き流した経験のある方はいないでしょうか?筆者はYouTubeの有料ユーザーなのですが、ざっと見積もって利用時間の7-8割は聴き流しており、そのためにお金を支払っています。私がこの記事を書いている間もYouTubeを聴き流しながら4-5時間ほど作業に当たっています。こうしたユーザーの新たな行動様式が自然と構築され、習慣化されることほど強力な市場要因はありません。

実際、著名VCであるMarc Andreessen氏も同じような点を指摘しています。同氏曰く、YouTubeの視聴者は職場で仕事をしながら動画コンテンツを聴く習慣ができていると語ります。1日8時間ほど労働時間があるとすると、週平均40時間ほどオーディオコンテンツの視聴時間が発生する計算です。これは前述した世代平均のオーディオコンテンツ消費時間17時間の6倍にも匹敵する市場です。

action adult blur car
Photo by Tobi on Pexels.com

3つ目は運転時間。米国では月間1.1億回の自動車通勤が発生。合計走行時間は25億時間にも及ぶといいいます。これから自動運転技術がさらなる発展を遂げ、完全自動運転化が実現すれば車内の運転時間がそのまま余暇時間として新たな市場に成り代わります。

そこでオーディオコンテンツは市場シェアの大半を占めると考えられます。というのも、動画視聴をしては仮に事故を起こした際に運転手が過失を取られることが予想され、非常にリスクの高いコンテンツになるためです。オーディオであれば視界を逸らさずにコンテンツ消費できます。

ここまで音声市場の成長性を3つの視点から説明してきました。ここからは音声市場で活躍するスタートアップ45社を4つのカテゴリーから簡単に説明していこうと思います。

1. 音声SNS

Screen Shot 2019-11-01 at 8.47.02 PM
Image Credit: Spoon Radio

声で繋がるSNSが流行の兆しを見せています。その最先鋒が「Spoon Radio」。2013年に韓国で創業したSNSスタートアップ。累計調達額は1,960万ドル。口パク動画SNSとして米国市場で台頭し、後にTikTokに買収されたMusical.lyの投資家も出資しています

Spoon Radioは「音声版SHOWROOM」といえるでしょう。ユーザーはタイトルと背景画像を設定するだけで自分のライブ配信ができます。ホストユーザーは音声で配信をし、ゲストユーザーとチャットをしながらやり取りをします。最大の特徴は音声のみの配信。動画とは違いどんな場所からでも配信ができる手軽さが売りです。

日本上陸初期の頃から私も使っており、ライブ・ランキングTop10位前後に毎回入るほど好んで配信をしていました。Spoon Radioは間違いなくオンラインで友人を最短、かつ最も簡単に作るためのツールであったのは間違いありません。その理由が2つ。「配信体験」と「Facebook・Twitter以上のフレンドネットワーク」です。

たとえば自室のベッドで横になりながら配信・聞けるシチュエーションを独占できる点は、他社ライブ配信アプリにはない大きな強みでした。街を歩きながらでも電話感覚で配信ができます。動画配信より手軽に配信できる参入障壁の低さは大きな魅力。そして前述したように他ユーザーのライブ配信をどんな環境下でも気軽に「聴き流せる」体験は余暇時間の大半を支配できます。この点、Spoon Radioを通じて音声が次なる巨大市場になると確信できました。

魅力的な音声配信体験に加えて、FacebookやTwitter以上のソーシャルフレンドの繋がりが大きな魅力として挙げられます。お互いの配信枠に遊びに行き、手軽に声で直接繋がることで知らないユーザーとより親密になれます。こうした力強いネットワークエフェクトがユーザーを逃がしません。事実、筆者はFacebookやTwitter以上にのめり込んでしまい、ソーシャル中毒状態になるほどはまってしまったためアカウント削除してしまいました。ですが、仕事が一区切りついて時間や気持ちの余裕ができればいつでも戻っていきたいと思わされる製品でした。

Screen Shot 2019-11-01 at 8.51.19 PM
Image Credit: TTYL

さて、アジアにおけるライブ音声市場ではSpoon Radioの独走状態であると感じています。一方、欧米市場では深く浸透していません。この市場機会を狙ったスタートアップが多数登場しています。その1つが「TTYL」です。2018年にロサンゼルスで創業し、累計調達額は200万ドル。

TTYLは累計7,000万ドルを調達してエグジットした多人数動画チャットアプリ「Houseparty」の音声版と呼べます。Spoon Radioが一方的な配信であるのに対して、複数人の双方向音声チャットの場を提供しています。

リアルタイムで音声配信されている枠にユーザーがジャンプインする体験が用意されています。知らない人との会話も楽しめることができます。似たようなプロダクトに「Chalk」が挙げられます。しかしどちらのアプリも近しい友人との会話を想定しているため、ユーザー同士のネットワークが広まるのかという点に課題が残ります。

一方、特定のトピックを事前に設定して配信するのが「Dabel」。日本人起業家である井口尊仁氏が仕掛ける音声SNS。TTYLとは違い、見知らぬ人同士との対話に軸を置く製品。配信枠にタイトルが入っているため事前にある程度どんなトピクが話されているのか想像できます。また、いきなり音声対話が始まるわけではなく、ホストユーザーがゲストユーザーを指名することで双方向の音声チャットが始まるため、ユーザー心理的に自然と会話を始められる導線が用意されています。

Screen Shot 2019-11-01 at 8.53.44 PM.png
Image Credit: Playlist

音声SNS市場の中でも少し違った切り口を出しているスタートアップもいます。たとえば「Playlist」は事前に用意されている音楽ライブラリの中から好きな曲を選んで友人と一緒に聞くサービスを提供。チャットをしながら感想を述べ合ったりできます。

友人が投稿した音声コンテンツを聴くことで繋がるサービスも一般的です。一般ユーザーが投稿するコメントを聞いてやり取りし合います。2014年にニューヨークで創業し、累計600万ドルを調達した「HereMeOut」が代表的。また、同じようなコンセプトの「Koo!」も登場しています。短い音声データをシェアする体験はSnapchatの流れに乗っているといえるかもしれません。

前編はここまで。後編では他3つのカテゴリーを、Spotifyの戦略を説明しながら紹介しようと思います。

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録


拡大する「音声経済圏」に注目ーー月間25億時間の自動車通勤を狙う、音声版トリビアアプリ「DriveTime」が400万ドルを調達

SHARE:

ピックアップ: Drivetime raises $4 million for voice-based trivia game for drivers ニュースサマリー: 音声トリビアアプリ「DriveTime」が400万ドルの資金調達を達成した。同アプリは運転中に声で回答をするクイズアプリ。歴史やエンタメ、科学分野など7つのカテゴリーから毎日3問のクイズが出題される。音声機能はAppleのSir…

Image by Howard Lake

ピックアップ: Drivetime raises $4 million for voice-based trivia game for drivers

ニュースサマリー: 音声トリビアアプリ「DriveTime」が400万ドルの資金調達を達成した。同アプリは運転中に声で回答をするクイズアプリ。歴史やエンタメ、科学分野など7つのカテゴリーから毎日3問のクイズが出題される。音声機能はAppleのSiriやGoogleの音声アシスタントを介して提供される。

想定ユーザーは運転中のドライバー。音声でクイズをやり取りをするUXに安全性の問題が懸念されるが、記事ではスタンフォード大学の研究を紹介。何かしらのタスクをこなしながら運転をしたほうが集中力が上がり危険運転を避けられるのだという。

米国では月間1.1億回の自動車通勤が発生。合計走行時間は25億時間にも及ぶという。2018年内に米国人口の半数がスマートスピーカーを所有するデータがあるが、車内の音声ライフスタイルはラジオを中心としてコンテンツやデジタル環境が未発達。DriveTimeがターゲットとするのはこうした車内エンタメ市場。

話題のポイント: DriveTimeが目指す市場は膨大な可能性を含む「音声経済圏」と言えるでしょう。

TechCrunchの記事では、著名投資家Marc Andreessen氏も音声を次の注目すべき市場として挙げています。たとえば多くの人が新しい好みのYouTuberを探す際、ユーザーは仕事場などの外出先で動画音声を「聴きながら検索をする」行為に注目をしているようです。この点、視る行為より聴くほうが圧倒的にUXとして楽なことには同意できますし、筆者も執筆をしながらであったり、寝る前に動画を聴くことが多いです。

市場規模の成長率も見逃せません。データベースサイト「statista」によると音声関連市場は2024年には71億ドルにまで成長することが見込まれています。2015年度対比で10倍以上の成長を見せている点は音声市場の急速拡大の可能性を示していると言えます。

トリビアアプリ分野は2017年にニューヨークで創業し、累計1,500万ドルを集めた「HQTrivia」の登場と共に一躍脚光を浴びました。日本でもLINEやGunosyが参入していますし、米国でも類似トリビアアプリが乱立している印象です。しかし、単なる類似のコンセプトになってしまい競合差別化を図れていない印象があります。一方、DriveTimeが狙うのは動画ではなく音声でのインタラクション。ターゲット市場及び顧客が全く異なってきます。

私たちが自宅でAmazon AlexaやGoogle Homeを通じて得る体験が車内にもやってくるのは時間の問題です。自動運転社会が到来すれば、音声アシスタントの利用が車内でも大きく広がり、車内エンタメ市場が大きく躍進するでしょう。この点、UXとして最も楽な音声インタラクションが同市場をいち早く席巻できる可能性があります。

仮にHQTriviaが車内エンタメ市場に参入したとしても、DriveTimeの使いやすさに理があることは間違いないでしょう。もちろん車内だけでなく、ランニングや散歩中などの外出中の利用シーンをターゲットに他社トリビアアプリと音声体験で大きく差別化を図れるはずです。

ちなみにSNSアプリ市場ではすでに音声UXの到来によって大きな変革の兆しを見せています。韓国拠点の「Spoon Radio」は1,960万ドルの資金調達を達成しており、音声ライブ配信アプリとして圧倒的な使い心地の良さが評判を得ています。動画ストリーミングアプリとは違い、わざわざ顔を晒したりカメラのセットアップの必要がないためです。

さて、自動運転社会がやってくれば日本でも急速に車内エンタメ市場が成長するはずです。こうした成長性を見込んでDriveTimeのように事前に先行者利益を獲得するのは良いアイデアかもしれません。また、既存市場が音声UXに取って代わられた場合、どのような最適な製品を世に出せるのかを今のうちに考えておくことで大きな市場構造の変化にも対応できるでしょう。

市場規模も大切ですが、最も重要なのは顧客体験や価値観の変化です。音声市場は未だに小さな市場と見られていますが、確実に次なる主流コミュニケーションシャネルになるでしょう。この体験の変化を見逃さないスタートアップが生き残れるはずです。

BRIDGE Members

BRIDGEでは会員制度「BRIDGE Members」を運営しています。会員向けコミュニティ「BRIDGE Tokyo」ではテックニュースやトレンド情報のまとめ、Discord、イベントなどを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。登録は無料です。
  • テックニュース全文購読
  • 月次・テーマまとめ「Canvas」
  • コミュニティDiscord
  • イベント「BRIDGE Tokyo」
無料メンバー登録