OpenAI、ChatGPTの声「Sky」を一時停止——スカーレット・ヨハンソンに激似との指摘受け

SHARE:
Scarlett Johansson speaking at the 2019 San Diego Comic-Con International in San Diego, California.
CC BY-SA 3.0 by Gage Skidmore

「ChatGPT」のアップグレードされたアバターを披露したわずか数日後、OpenAI は AI アシスタントとして話題の音声「Sky」を一時停止し、一歩後退した。

同社は、映画「her/世界でひとつの彼女」の俳優 Scarlett Johansson(スカーレット・ヨハンソン)氏に酷似しているとの懸念から、Sky の公開を中止すると発表した。彼女は、her のなかで主人公のガールフレンドとなる AI オペレーティングシステムを演じている。

同社はこの噂を明確に否定し、「自然な話し声を使った別のプロの女優の声」だと述べた。

今のところ、同社がアシスタントの音声オプションをいつ再開するかは不明のままだ。他の4つの音声オプション(Breeze、Cove、Ember、Juniper)は、ChatGPT ユーザが引き続き利用できる。

OpenAI のブログ投稿とこの記事の後、ジャーナリストの Yashar Ali 氏が、Johansson 氏の代理人からのものと確認されたというメッセージを「X」に投稿し、その中で Johansson 氏は、1週間前に ChatGPT の新しい声とモデル「GPT-4o」が発表される前に、OpenAI の CEO Sam Altman(サム・アルトマン)氏に声をかけられ、プロジェクトに声を貸すように頼まれたが、断ったと言っている。

それにもかかわらず、Johansson 氏は次のように述べている。

昨年9月、Sam Altman 氏から、現在の「ChatGPT 4.0」の声優として私を雇いたいというオファーを受けた。彼は、私がこのシステムの声を担当することで、テック企業とクリエイターの橋渡しができ、人間と AI に関する激変を消費者が心地よく感じられるようになると思うと言った。彼は、私の声が人々の慰めになると感じていると言った。

悩んだ末に、個人的な理由でその申し出を断った。

それから9ヵ月後、私の友人、家族、そして一般の人々は皆、「Sky」と名付けられた最新のシステムがいかに私に似ているかを指摘した。

リリースされたデモを聴いたとき、私は衝撃を受け、怒り、そして Altman 氏が私の親しい友人やニュース関係者が見分けがつかないほど不気味に私の声と似ている声を追求することに不信感を抱いた。Altman 氏は、この類似性が意図的なものであるとさえほのめかし、「her」と一言ツイートした。これは、人間との親密な関係を築くチャットシステム「Samantha(サマンサ)」の声を演じた映画への言及である。

ChatGPT 4.0のデモが公開される2日前、Altman 氏は私のエージェントに連絡し、再考を求めた。しかし、私たちが連絡をつける前に、システムは世に出てしまった。

彼らの行動の結果、私は弁護士を雇うことを余儀なくされ、彼らは Altman 氏と OpenAl に2通の手紙を書き、彼らが行ったことを明らかにし、Sky の音声を作成した正確なプロセスを詳しく説明するよう求めた。その結果、OpenAI はしぶしぶ Sky の音声を削除することに同意した。

ディープフェイクや、自分自身の肖像、自分自身の作品、自分自身のアイデンティティの保護と格闘している今、これらの問題は絶対に明らかにされるべきだと思う。私は、個人の権利が確実に守られるよう、透明性と適切な法律の成立という形で解決されることを期待している。

https://twitter.com/yashar/status/1792682664845254683

OpenAI の「ChatGPT」、それとも her の「サマンサ」?

OpenAI は2023年9月に ChatGPT の音声機能をローンチした。この機能はうまく機能したが、3つの異なるモデル(音声をテキストに書き起こすもの、テキストを取り込んで回答を生成する GPT-3.5/GPT-4、テキストを音声に戻す3つ目のモデル)の上で動作するため、ある程度の遅延があった。つまり、回答を提供するモデルは、トーン、複数のスピーカー、バックグラウンドノイズを直接観察することができず、笑いやその他の感情で応答することもできなかった。

この状況を変えるため、先週、OpenAI は GPT-4o を発表した。GPT-4 レベルのインテリジェンスにより、テキスト、音声、視覚をリアルタイムで理由づける統合マルチモーダルAIである。同社は、このモデルによって、ChatGPT が人間の応答時間に匹敵する約320ミリ秒で応答し、Siri や Alexa のようなパーソナルアシスタントとして機能することを示すいくつかのデモを公開した。

このニュースは大きな話題となったが、デモ動画が公開された直後から、GPT-4o の新しいボイスモードの Sky が、映画「her/世界でひとつの彼女」で Johansson 氏が演じたパーソナルアシスタント Samantha(サマンサ)に似すぎているという指摘が多くのユーザから寄せられるようになった。新しいボイスモードが公開された直後、Altman 氏が her という単語を X に 投稿したことで、噂はさらに大きくなった。Reddit のスレッドでは、GPT-4o の声が「her/世界でひとつの彼女」の Johansson 氏の声と、トーンや笑い声に至るまでいかにマッチしているかが議論されている。

当然ながら、Johansson 氏との比較から、多くの人が、OpenAI がどのようにしてこれほど類似した音声を作成できたのか疑問に思い始め、女優の口調や話し方を再現するためにAIを使用したのではないかという推測も含まれている。

https://twitter.com/_Falcon_Fury/status/1791577059791184038

これを受けて、OpenAI は Sky の音声を一時停止し、懸念や疑問の解消に努めることにした。同社は、問題の音声は Johansson 氏の模倣ではなく、5ヶ月間にわたる広範な募集プロセスを通じて選ばれた有償の声優によるものであることを明らかにした。

同社はブログで次のように書いている。

AI の声は、有名人の特徴的な声を意図的に模倣すべきではないと考えている。Sky の声は、Johansson 氏の模倣ではなく、自然な話し声を使った別のプロの女優のものだ。プライバシーを保護するため、私たちは声優の名前を共有することはできない。

また、Sky の声優を含む5人の声優は、タレントエージェンシー、キャスティングディレクタ、業界アドバイザの協力を得て、400人の応募者の中から選ばれたという。これらのグループはまず、ChatGPT の声の基準(多様性、時代性、親しみやすさ、温かさなど)を設定し、これらのパラメータを使って応募者をふるいにかけ、最も適した選択肢を厳選した。最終的に選ばれた俳優たちは、OpenAI 本社に呼ばれ、レコーディングセッションを受け、今回の発表に至った。

私たちは各俳優と、人間と AI による音声対話と OpenAI のビジョンについて話し、技術の能力、限界、リスク、そして私たちが実施した安全策について話し合った。プロジェクトにコミットする前に、各俳優がボイスモードの範囲と意図を理解することが重要だった。

ChatGPT の声はどうなるのか?

Sky の声は一時停止されるが、他の4人の声は引き続き利用可能だ。GPT-4o の新しいボイスモードが今後数週間で ChatGPT に導入され、ユーザは AI と対話するためにこれらのボイスのいずれかを選択することができる。

Sky については、映画 her からの複製や Johansson 氏との類似性の話に終止符を打つために、同社がどのような変更を実施する予定なのかはまだ不明だ。また、声の背後にいる無名の俳優が何を意味するのかも不明なままだ。

同社は、GPT-4o の音声研究と新しい音声機能のために追加作業を提供してくれた俳優とのコラボレーションを継続し、ユーザの多様な趣味や嗜好によりマッチするよう、今後さらに多くの音声を発表してアシスタントを拡張していくと述べるにとどまっている。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する