タグ Descript

自分の声を多言語化する「音声クローン」技術の可能性

SHARE:

2020年は音声クローン分野でサービスの立ち上げが目立ちました。 たとえばウクライナ拠点の「Respeecher」はエンタメ業界向けの音声変換技術を提供しています。Respeecherを使うと、録音音声を事前にAIに読み込ませておいた人の声そっくりに変換することができます。同社は3月に150万ドルを調達しています。 Text-to-Speechではなく、Speech-to-Speech技術を持つの…

Image Credit:Resemble.ai

2020年は音声クローン分野でサービスの立ち上げが目立ちました。

たとえばウクライナ拠点の「Respeecher」はエンタメ業界向けの音声変換技術を提供しています。Respeecherを使うと、録音音声を事前にAIに読み込ませておいた人の声そっくりに変換することができます。同社は3月に150万ドルを調達しています。

Text-to-Speechではなく、Speech-to-Speech技術を持つのがRespeecherです。テキスト内容をAIが読み上げるのではなく、話者のイントネーションや声の抑揚そのままに、変換したい人の声に変えられます。現在はハリウッドの制作会社を顧客に抱えており、声優の音声データを読み込ませておけば以後、低コストにナレーション作業を進めることができるので、高価格帯の声優を雇う必要がなくなります。

Respeecherは同言語同士であれば利用可能であるため、日本語から日本語への変換であれば対応可能(他の言語でも同様)です。AIに学習させるプロセスに3〜4週間かかり、1回の音声変換当たり100万円からの価格帯がネックとなるかもしれませんが、PVを観る限り完成度はかなりのものです。企業価格からコンシューマ価格へと降りてくることは必至であるため、今後の技術進歩に期待です。

また、7月にはAndreessen Horowitzも出資するPodcast向けオーディオ編集ツール「Descript」がOverdub機能をローンチしています。テキスト内容をAI音声に読み上げさせる合成サービスで、Descriptの編集画面をいじりながら、余分な単語を削り、必要な表現だけを自然な音声として読み上げてくれます。GoogleやAmazonのAI音声読み上げとは違い、高精度の読み上げ技術が売りです。

Image Credit:Resemble.ai

ただ、同2社の課題は言語間の壁を指す“Across Launage”を超えられない点にあります。日本語のコンテンツを英語話者として読み上げることは未だできません。これはアクセントの違いがあり、AIに読み上げさせたとしても違和感の残るものとなるためです。この壁を越えようとするのが「Resemble.ai」になります。

10月、Resemble.aiはローカル言語音声AIサービス「Localize」を発表し、自分の声を多言語化させる一歩を踏み出しました(ただし教師データとなる音声は英語ネイティブ)。英語音声をフランス・ドイツ・オランダ・イタリア・スペイン・中国語へと変換することができます。日本語と韓国語も近々ローンチ予定とのこと。

これがスムーズにいけば海外コンテンツが日本ローカライズした形で渡ってくる日は近いでしょう。Podcastコンテンツを世界中の音声プラットフォームに配信するのがデフォルトになるかもしれません。ディープフェイク技術の市場変革はオーディオから始まり動画へと拡大し、PodcastおよびYouTubeのコンテンツ拡散の流れが大きく変わると考えます。プラットフォーム側の動きも変わってきますし、言語別のローカライズ戦略も変わるはず。こうした技術ブレイクスルーをメディア企業が最大限活かせるのか、動向に注目が集まります。

BRIDGE Members

BRIDGEが運営するメンバー向けイベント「Tokyo Meetup」では新サービスの紹介やノウハウ共有などを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。メンバー登録は無料です。
  • BRIDGE Canvasの購読
  • メンバー向けDiscordご招待
  • BRIDGE Tokyoなどイベントご招待
無料メンバー登録