GoogleがCloud Speech APIを強化、単語レベルのタイムスタンプや新たに30言語を追加サポート

by Paul Sawers Paul Sawers on 2017.9.1

Google は、同社の Cloud Machine Learning プラットフォームの一部として昨年公表された Cloud Speech API への重要なアップデートを多数発表した。

Cloud Speech API を使えば、簡単に言えばサードパーティの開発者や企業が Google の高度な音声認識機能を自身の製品に組み込むことができる。例えばコールセンターでは、このAPIを用いて発信者の要求を「聞く」ことで、自動的に特定の部門に電話をつなぐのに使えるかもしれない。Twilioは今年の初めにこの API を音声プラットフォームに組み込み、開発者が製品内で話したことを文字起こしできるようにした。

今回 Google は Cloud Speech API に3つのアップデートを行ったと発表した。その中でも目玉となるのはほぼ間違いなく単語レベルの時間オフセット、つまりタイムスタンプである。これは、長めの音声ファイルの中からユーザが特定の単語を検索する必要がある時に特に便利である。基本的には音声が直接テキストにマッピングされるため、インタビューなどである単語やフレーズがどこで使われたのか、研究者からレポーターまで誰でも検索することができる。音声に合わせてリアルタイムでテキストを表示することもできる。

Google のプロダクトマネージャーである Dan Aharon 氏はブログで次のように説明した。

文字起こしした文章の各単語にタイムスタンプ情報を付与してほしいというリクエストが最も多くありました。

これと関連して、Google は今回のアップデートで長いオーディオファイルのサポートも80分から180分に延長する。Aharon 氏によると、もっと長いファイルについても、リクエストがあれば「ケースバイケースで」対応するという。

Google は元の89言語に新たに30言語を追加した、というのが今日(8月14日)の Cloud Speech API アップデートの3つ目のニュースだ。追加された言語には、アフリカでは数百万人の話者がいるスワヒリ語とアムハラ語、2億人以上のネイティブスピーカーがいると言われているベンガル語(バングラデシュおよびインド)、ウルドゥー語(パキスタンとインド)、グジャラート語(インド)、ジャワ語(インドネシア)などがある。今回サポートした言語によって、Google の音声認識技術は世界の10億人が使えるようになったのだ。

今回の言語アップデートは、GboardのAndroid アプリや Voice Search 機能といった Google 自身の消費者向けサービスにも影響を与えるということには注目するべきだろう。

Aharon 氏は次のように続けた。

私たちがサポート言語を新たに追加したことで、Cloud Speech API ユーザはほぼ世界中にまたがるより多くの国のユーザにリーチできるようになりました。さらに、彼らがこれまで使うことのできなかった製品やサービスに声でアクセスできるようになったのです。

あなたの声がパスワードになる

本日(8月14日)出版された Research and Markets のレポートによると、世界の音声認識市場は2017年には61億9,000万米ドルにのぼると試算されており、2023年には183億米ドルに拡大することが期待されている。

5月に開催された年次開発者会議である Google I/O で CEO の Sundar Pichai 氏は、同社の音声認識技術のエラー率は現在4.9%であることを明かした。これは20単語にたった1回しか間違うことがないということを意味している。また、2013年のGoogle I/O で同社が報告した23%のエラー率および2015年に報告した8%のエラー率から大きく改善している。

改善の大部分は、2012年に音声認識プラットフォームにディープラーニングを導入したことが直接的な要因である。これにより、音声ファイルの断片など大量のデータを使ってシステムを訓練し、新しいデータに対してシステムを使って推測させた。

音声認識に賭けているテック企業は Google だけではない。昨年、Microsoft は同社の音声認識技術が人間と同等のレベルに達したと公表した。実際、Microsoft が NIST 2000を用いて試験を行ったところ、文字起こしのプロよりも低いエラー率を記録した。

今年 Facebook はバーチャルリアリティ(VR)デバイスのOculusを用いた音声認識を発表し、Oculus Rift と Samsung Gear VR のユーザがゲームやアプリなどの音声検索をできるようにしている。

【via VentureBeat】 @VentureBeat

【原文】

ニュースレターの購読について

毎日掲載される記事の更新情報やイベントに関する情報をお届けします!

----------[AD]----------