アンディ・ウォーホルの声復活に一役買ったResemble AI、倫理的リスク回避のため「音声透かし」技術を導入

カナダのスタートアップ Resemble AI は、ジェネレーティブ AI とディープラーニング技術を使い、音声クローンサービスをユーザに提供している。
Image credit: Resemble AI

2022年、Netflix はポップアートの先駆者 Andy Warhol 氏についてのドキュメンタリー「Andy Warhol: The Andy Warhol Diaries」をリリースした。この作品は、Andy Warhol 氏自らが、音声合成を用いたジェネレーティブ AI の助けを借りてナレーションを担当し、視聴者は彼の並外れた人生を見ながら、彼の声を聴くことができる。

この技術を支えているのは、2023年にシリーズ A ラウンドで800万米ドルの調達を発表したカナダのサウンドテックスタートアップ Resemble AI だ。Resemble AI は音声複製とリアルタイム翻訳サービスを提供し、Any Warhol 氏の声を再現するだけでなく、数万人以上のゲーム実況中継配信者に使用されるツールとなっている。

ゲーム実況に端を発した Resemble AI、技術はより日常に入り込む

なぜゲーム実況配信者が「音声変換」サービスを必要とするのか?

それは、効果音を使うことで醸し出される雰囲気が、視聴者をゲームシーンに入りやすくし、体験しやすくし、さらには配信者により際立った個性を与え、ライバルと差別化するのに役立つからだ。

2019年、Resemble AI 創業者 Zohaib Ahmed 氏はキャリアチェンジの最中にゲーム業界で働いていたこともあり、AI の技術なバックグラウンドを持っていたことから、AI を使って音声変換サービスを提供し、音声をユーザ体験の中心に据えた新しい体験を作り出そうと決意し、Resemble AI を創業した。

Resemble AI 創業者 Zohaib Ahmed 氏

Resemble AI は当初、ゲーム実況配信業界と協力し、配信者が元になる3分間程度の参考音源を提供するだけで、ディープラーニング技術によってコンピュータがその配信者の音声を再現するように学習することを特徴としている。配信者が AI に支援してもらいたい文章をリストアップすると、システムが配信者の声でそれを読み上げ、配信者の好みに応じてさまざまな雰囲気を加えたり、声のトーンを変えたりすることもでき、変換された音声はリアルなものとなる。

Ahmed 氏はロイターとのインタビューで、Resemble AI には100万人以上のユーザがいて、音楽プロデューサーやゲームスタジオを含む200以上のビジネスパートナーがいることを明らかにした。

会社の拡大に伴い、Resemble AI は、音声クローンの翻訳分野への応用など、さまざまな音声変換アプリケーションの提供も始めている。ジェネレーティブ AI 技術の助けを借りて、ユーザは変換したい音声ファイルと翻訳テキストを提供するだけで、わずか数分で異なる言語に変換された音声ファイルを受け取ることができる。これにより、多くのコンテンツ制作者が異なる国籍のファンと交流する機会を増やすことができた。

Resemble AI は現在、月額24米ドルのエントリープランと月額449米ドルのプロフェッショナルプランの2つのプランを提供しているほか、企業のニーズに応じたカスタマイズ機能も提供している。

音声透かしで、音声クローンの潜在的な倫理リスクを軽減

このようなジェネレーティブ AI 技術は、現在ホットな分野だ。技術革新は人間の生活に新たな可能性を開くが、2022年に人気 YouTuber の Xiaoyu(小玉)がディープフェイク技術を使った顔差し替え事件が社会に衝撃を与えたように、新技術の使用方法や目的が違えば、社会にとって有益なものになるとは限らない。

Ahmed 氏は、AI を万人に開放して利用させようとする場合、「倫理的な問題」は避けて通れないテーマだと述べた。Resemble AI は、想定されるリスクを回避するための対策も数多く導入している。

ユーザが守るべき利用ルールをシステム内に列挙することに加え、ユーザは新しい音声クローンプロジェクトを作成する都度、AI に再現してほしい元の音声を、ランダムに生成した指定文を読み上げて録音するか、アップロードすることが義務付けられている。ユーザが後に音声ファイルをアップロードした際、システムがその音声と一致しないことを検出すると、ユーザの権限を制限する。

音声変換のためにサウンドファイルをアップロードする前に、システムはユーザにテンプレートとして小さなサウンドファイルを提供するよう求める。アップロードされたサウンドファイルがテンプレートとあまりにも異なる場合、システムは自動的にユーザがそれ以上、音声変換サービスを利用するのをブロックする。
Image credit: Resemble AI

また、多くの企業が自社の画像にロゴを付けて盗用を防ぐように、Resemble AI は、多くの人間が特定の周波数の音しか聞こえない習性を利用し、システムによって作成されたサウンドファイルに、人間が感知できない断続的な小さな音声を付加した音声透かしサービス「PerTh Watermarker」も開始した。これによって、将来、システムが音声スキャンを行う際に、その音声ファイルが実際に音源によって話されたものなのか、それともジェネレーティブ AI によって捏造されたものなのかを識別できるようにする。

Resemble AI は、人間の聴覚の性質を利用し、プログラムだけが検出できる小さな音の断片を挿入することで、そのファイルが AI によって生成されたものであることを示す。
Image credit: Resemble AI

Ahmed 氏は、研究者であり起業家として、自分たちが立ち上げようとしているサービスの潜在的な影響を認識していると述べ、ユーザが自分たちのプラットフォームを使ってお気に入りのサウンドを作成する際には、その音源を保護するために間違いなくさまざまなアプローチを取ると述べた。また、同社は Twitter で PerTh Watermarker を、同様のサービスを必要とする他のソフトウェア開発者向けに近々オープンソース化すると発表した

新技術の登場に向け、最悪の事態に備える

PerTh Watermarker のサービスは現在、Resemble AI によって改変された音声の検出に限定されているが、チームは常に技術を磨いており、ファイルがディープフェイク技術の適用を受けたかどうかを検出するため、ジェネレーティブ AI とディープラーニングの共同作業である「Resemblyzer」プロジェクトを立ち上げている。ソースコードを公開することで、チームはこのような技術交換が活性化し、社会における〝音声窃盗〟の発生が減少することが期待される。

新技術の導入の背後にはまだ多くのリスクがあるが、Resemble AI は、AI を使ったアプリケーションはアルゴリズムを公開し、プログラムの仕組みをユーザに知らせること、さらに重要なことに、生成された成果物が AI によって作られたことを第三者に知らせることができなければならないこと、など、AI アプリケーションの基本原則を常に守っている。

Ahmed 氏は、Netflix とのドキュメンタリー映画公開後、アート雑誌「Frieze」とのインタビューで、ジェネレーティブ AI の使用に関する自身の見解を語った。死んだアーティストの声を蘇らせるために AI を使用することがアート界で話題になっているにもかかわらず、彼はこのテクノロジーがもたらした変化を認識し、次のように述べた。

ジェネレーティブ AI の出現によって、以前なら不可能だったアプリケーションが可能になった。

<関連記事>

【via Meet Global by Business Next(数位時代) 】 @meet_startup

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する