Amazon Alexa、より自然な口調でテキストを読み上げられるように

Amazon Echo Dot Clock
Image Credit: Khari Johnson / VentureBeat

Amazonは4月16日、サードパーティが提供するAlexaスキル（音声アプリなど）のニュースや音楽コンテンツ向けに、長文用の口調スタイルを発表した。ウェブページや記事、ポッドキャスト、ゲームのストーリーなどといった多様なテキスト情報に対応しており、米国の開発者は今週（4月第3週）から利用開始できる。

テキストをより自然に読み上げ、ユーザのエンゲージメントを上げることで体験の向上が見込まれる。加えて、プロの声優を雇う必要がないので開発者にとってはコスト削減になり、スタジオでレコーディングするよりも時間の節約になる。

Amazonによると、この長文用の口調スタイルは、AIによるテキスト読み上げモデルを採用しており、段落と段落、セリフとセリフのあいだに自然な間が組み込まれている。同様に、Googleアシスタントにも最近、webサイトやAndroidアプリ内でより自然で人間らしい音声で長文コンテンツを読み上げる機能がローンチされた。

聞いてみてほしい。（編集部注：音声データは原文サイトをご確認ください）

【音声１】

こちらがAlexaのデフォルトスタイルだ。

【音声２】

長文用の口調スタイル以外にも、開発者はAmazon Pollyのニュース読み上げ・会話スタイルを利用することができる。Amazon PollyはAmazonのクラウドサービスの1つで、テキストを生き生きとした音声に変換するサービスだ。Alexaスキルの言語は29カ国語に対応しており、声質はMatthew、Joanna、Lupeから選ぶことができる。ニューススタイルはまるでテレビのアナウンサーやラジオのパーソナリティが話しているかのように聞こえる。会話スタイルの場合は堅苦しさがなく、あたかも友達や家族と話しているかのようだ。

昨年、AmazonはAIによって生成された音声に関する詳細な研究論文を発表した。声優が身に付けるには数十時間はかかるであろう口調スタイルを、わずか数時間のトレーニングで習得することができるシステムについて述べている。同社のモデルは、一連の音素をスペクトログラムに変換する生成系ニューラルネットワークからなり、時間軸に沿って変化する音声周波数のスペクトラムを視覚的に表現する。そうしたスペクトログラムを連続的なオーディオ信号に変換するボコーダもついている。

ひいては、AIモデルによって、大量のニュートラルな話し方の音声データと特定の話し方による数時間程度の音声データを結びつけるトレーニング方法を生み出し、口調スタイルとは無関係な要素と固有な要素の両方を識別できるAIシステムを開発している。Amazonはこれを利用してAlexa用の新ボイスやAmazon Pollyで多言語に渡る開発者向けボイスを制作している。

最後に、Amazonによると、Alexa用音声アプリの開発者は、アメリカ英語、アメリカスペイン語、カナダフランス語、ブラジルポルトガル語など、6つの言語による10種類の音声をAmazon Pollyから追加で使用することができる。

これらの開発に先立ち、AmazonはAlexaスキル用の口調として「うれしい・わくわくする」、「がっかり・同情」、短めのニューススタイル、音楽スタイルをリリース。11月にはブログで、感情をもたせた音声によってAlexaの標準音声よりも顧客満足度が30％上昇し、ニューススタイルおよび音楽スタイルについては自然度がそれぞれ31％、84％上昇したとしている。

Amazonは最近、AIを駆使して特注の話者を生成するAmazon Pollyの機能、「Brand Voices」もローンチした。このサービスでは顧客と社内エンジニアが協同して特定のペルソナを表す音声をAIで作り上げる。たとえばカナダのKFCには南米なまりの口調、ナショナルオーストラリア銀行にはオーストラリア英語といった具合だ。

【via VentureBeat】 @VentureBeat

【原文】