OpenAI、音声クローニングの「Voice Engine」を発表するも限定的なパートナーのみに提供(今のところ)

SHARE:
Credit: VentureBeat made with OpenAI ChatGPT DALL-E 3

ChatGPT を開発した OpenAI は、テキスト生成、画像、ビデオに続き、最後の主要なデジタルメディアである音声、特に音声クローニングにも進出した。

同社は本日(訳註:原文掲載日は3月29日)、2022年から開発を続けてきた最新の AI モデル「Voice Engine」を発表した。このモデルは現在、OpenAI の text-to-speech API と、今月初めに発表された ChatGPT Voice と Read Aloud の機能を支えているという。

Voice Engine の仕組みは以下の通りだ。まず人間が15秒間自分の声を録音し、Voice Engine がその声に酷似した自然な音声を生成する。その後、ユーザーが入力したテキストを、生成された音声で読み上げることができるのだ。

この技術はポッドキャスター、ナレーター、声優、オーディオブックや広告のナレーター、ゲーマー、ストリーマー、カスタマーサービス担当者、営業担当者など、音声を頻繁に録音する職業に大きな影響を与える可能性がある。

また、ElevenLabsCaptionsMetaWellSaid LabsMyShell など、同様の技術に特化した企業にも圧力をかけることになるだろう。

OpenAI は Voice Engine の利用例として、言語障害者や学習に特別なニーズを持つ人々のための療法やプログラムの支援も挙げている。

同社は今日の Voice Engine 発表のブログ記事で、これまでのところ「信頼できる少数のパートナー」にのみ技術を提供してきたと述べている。その中には以下の企業が含まれる。

  • 教育テクノロジー企業の Age of Learning は Voice Engine と GPT-4 を使用し、多様な生徒のための読書支援やインタラクティブ性を拡大している。
  • AI ビジュアルストーリーテリングプラットフォームの HeyGen は Voice Engine を使用し、オリジナルの話者のアクセントを保持しながら、グローバルな視聴者にリーチするためのマルチリンガルな音声でカスタムの人間らしいアバターを作成している。
  • 遠隔地でのサービス提供の改善のため、Voice Engine と GPT-4 を使用して、コミュニティヘルスワーカー向けのツールを開発する Dimagi
  • 発話・聴覚障害者が使用する AAC デバイス用の AI アプリ Livox は、言語を超えて非言語の個人に独自の非ロボット音声を提供するために Voice Engine を統合している。
  • ブラウン大学の非営利の医療・教育機関である The Norman Prince Neurosciences Institute at Lifespan は、神経系の疾患や障害を持つ人々を支援するために Voice Engine を使用している。同院の Rohaid Ali (ロハイド・アリ) 医師と小児神経外科医の Konstantina Svokos (コンスタンティナ・スボコス) 医師は、学校のプロジェクトビデオからの音声サンプルを使用して、脳腫瘍患者の音声を復元することに成功した。

OpenAI は今回の発表に伴い、Voice Engine の人間らしい話し方の能力を示すいくつかの音声サンプルを公開した。

ただし現時点では、この技術は限定的だ。非常にリアルで生き生きとしたビデオ生成 AI モデル Sora と同様に、OpenAI は現在のところ一般に Voice Engine を使用させていない。その代わりに、同社は本日、「信頼できる少数のパートナー」とのプレビューから得られた知見と結果を共有しているのだ。

OpenAI は今日のブログ記事で次のように述べている。

「合成音声の悪用の可能性があるため、私たちは幅広いリリースに対して慎重かつ情報に基づいたアプローチを取っています。合成音声の責任あるデプロイメントと、社会がこれらの新しい機能にどのように適応できるかについての対話を開始したいと考えています。これらの会話と小規模テストの結果に基づいて、私たちはこの技術を大規模に展開するかどうか、そしてどのように展開するかについて、より情報に基づいた決定を下すでしょう」。

Voice Engine のリリースに慎重で着実な限定的アクセスのアプローチを取ることは、ジョゼフ・R・バイデン米大統領が最近「AI 音声の偽装を禁止する」よう呼びかけたことを考えると、特に理にかなっている。

OpenAI の展開戦略の中心は、安全性と倫理的ガイドラインを厳格に順守することだ。Voice Engine のテストに参加しているパートナーは、無断で他人のふりをすることを禁止し、音声提供者からの事前の同意を必要とする利用規約に拘束されている。

さらに OpenAI は、ウォーターマークや積極的なモニタリングなどの安全対策を導入し、技術の責任ある使用を確保している。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する