日本のビジネス会議音声に対して最高水準の精度を誇る音声認識AI「shirushi」をAI議事録ツールSecureMemoCloudに搭載

SHARE:

様々な業界・組織・録音環境で録られた実際のビジネス会議音声をもとに、独自に作成した訓練データでOpenAI Whisperをチューニング。定量評価を行い、既存サービスに対して明らかな精度の高さを確認。

AI議事録ツールSecureMemo/SecureMemoCloudを提供するNishika株式会社(東京都港区、代表取締役山下達朗・松田裕之、以下Nishika)は、実際のビジネス会議音声に対して最高水準の精度を誇る音声認識AI「shirushi」をリリースいたしました。
shirushiは4/26よりAI議事録サービスSecureMemoCloudに搭載されており、AI議事録オンプレミスソフトウェアSecureMemoへも近日中に搭載されます。

SecureMemoCloud: https://securememo-cloud.com
SecureMemo: https://info.nishika.com/service/securememo

shirushiのオリジナルとなっている音声認識AI、OpenAI Whisperは68万時間の音声を使った多言語音声認識AIで、世界最高水準の音声認識精度を誇ることで知られます。
特に、実際の録音環境でありがちな、ノイズが混ざっていたり、さほど明瞭ではない音声であっても高い精度を誇る点が大きな特徴です。
しかし、実際にビジネス用途で投入される会議音声は、雑音、無音、マイクの指向性に伴う音量の小ささなど、音声認識AIにとって困難なデータが多く投入されます。

AI議事録サービスSecureMemoCloudは24年1月よりβ版を公開、数百社の企業様にご利用いただく中で、リアルな会議音声データを収集させていただきました。
この会議音声を、弊社が独自に策定したアノテーションルールに基づき訓練データ化し、Whisperについてファインチューニングを行いました。
その結果、リアルなビジネス会議音声について、既存サービスに対してはもちろん、オリジナルWhisperに対しても格段に性能の高いAIモデル開発に成功いたしました。

精度評価の結果
AI議事録サービスでは、一般に音声認識精度は90%超の値でアピールされることが多いですが、これはノイズが少なく、明瞭な音声に対して測定された結果です。
実際、音声認識AIの客観評価によく利用されるデータセットFleurs(https://huggingface.co/datasets/google/fleurs)の一部読み上げ音声を用い、 shirushiと既存サービスの音声認識精度を測定すると、以下のようになります。

読み上げ音声による音声認識精度評価:

PR TIMESで本文を見る