Googleの音声認識エラー率が4.9パーセントに、数年で大きく改善 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Googleのサンダー・ピチャイCEOは、同社の音声認識テクノロジーのエラー率が4.9パーセントまで下がったことを5月17日、発表した。別の言い方をすれば、Googleが文字起こしをした場合、20ワードごとに間違いが生じるということ。2013年のエラー率は23パーセント、2015年にI/Oで共有されたエラー率は8パーセントであったことを踏まえると、大きな改善が見られる。

今回のエラー率は、2017年のGoogle I/O で発表されたものだ。AIの一種である深層学習は、正確な画像認識、音声認識のために使用されている。多くのデータを用いてニューラルネットワークと呼ばれるシステムをトレーニングしていくという方法が用いられる。その後、新しいデータをシステムに投入して、予測をしていくという形になる。

ピチャイCEOはステージ上で次のようにコメントしている。

私たちは多くのプロダクトにおいて、音声入力を用いてきました。なぜなら、コンピュータの音声の理解能力が向上しているからです。目立ったブレイクスルーもありましたが、昨年以降の向上ペースもすばらしいものです。雑音がある環境においても、ワード認識エラーは少なくなっていくでしょう。だからこそ、スマホ上のGoogleやGoogle Homeにユーザーが話しかけても、その音声を正確に理解することができるのです。

他社と比較すると、Microsoftは2016年の10月に、同社の音声認識のレベルが人間と同等のレベルに達したと発表している。その当時のワードエラー率は5.9パーセントだった。とはいえ、両社が同じ評価基準を用いているかは明らかではない。

（本記事は抄訳になります。）

【via VentureBeat】 @VentureBeat

【原文】