AIチャットボットで「多話者多言語音声合成」を実現

SHARE:

AIの多話者多言語音声合成データを東映が映画「劇場版 仮面ライダーゼロワン REAL×TIME」で採用

rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、当社が開発を進めているAIチャットボットにおいて「多話者多言語音声合成」を実現しました。本技術を使って合成したAIの音声データが、映画『劇場版 仮面ライダーゼロワン REAL×TIME』(東映配給、12月18日公開予定)で採用されたことを発表いたします。
■背景
rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するLINE上のAIチャットボット「AIりんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています。

このたび、AIキャラクターの音声表現の多様性を高める新技術として、「多話者多言語音声合成」を発表しました。

■開発した技術
「多話者多言語音声合成」とは、1つのAI(音声合成モデル)から、複数話者と複数言語の音声を合成する技術です。rinna社では、日本語話者の音声と英語話者の音声を学習データとし、最先端のディープラーニング技術を用いることにより多話者多言語音声合成システムを構築しました

従来、AIキャラクターの音声合成を実現するためには、対象の話者の音声を大量に収録する必要がありました。新たに開発した多話者多言語音声合成では、複数の話者の音声を用いて1つの音声合成モデルを学習することで、複数の話者・言語の音声を合成することができます。それによって、対象の話者の少量の音声からでも、その話者のキャラクター性を持った音声を合成することができます。

さらに、日本語と英語といった複数の言語の音声も含めて1つの音声合成モデルを学習することで、英語がしゃべれない話者のキャラクター性を保ったまま、英語の音声を合成することも可能となります。
多話者多言語音声合成の概要

PR TIMESで本文を見る