OpenAI、ChatGPTの声「Sky」を一時停止——スカーレット・ヨハンソンに激似との指摘受け

Scarlett Johansson speaking at the 2019 San Diego Comic-Con International in San Diego, California.
CC BY-SA 3.0 by Gage Skidmore

「ChatGPT」のアップグレードされたアバターを披露したわずか数日後、OpenAI は AI アシスタントとして話題の音声「Sky」を一時停止し、一歩後退した。

同社は、映画「her／世界でひとつの彼女」の俳優 Scarlett Johansson（スカーレット・ヨハンソン）氏に酷似しているとの懸念から、Sky の公開を中止すると発表した。彼女は、her のなかで主人公のガールフレンドとなる AI オペレーティングシステムを演じている。

同社はこの噂を明確に否定し、「自然な話し声を使った別のプロの女優の声」だと述べた。

We’ve heard questions about how we chose the voices in ChatGPT, especially Sky. We are working to pause the use of Sky while we address them.

Read more about how we chose these voices: https://t.co/R8wwZjU36L

— OpenAI (@OpenAI) May 20, 2024

今のところ、同社がアシスタントの音声オプションをいつ再開するかは不明のままだ。他の4つの音声オプション（Breeze、Cove、Ember、Juniper）は、ChatGPT ユーザが引き続き利用できる。

OpenAI のブログ投稿とこの記事の後、ジャーナリストの Yashar Ali 氏が、Johansson 氏の代理人からのものと確認されたというメッセージを「X」に投稿し、その中で Johansson 氏は、1週間前に ChatGPT の新しい声とモデル「GPT-4o」が発表される前に、OpenAI の CEO Sam Altman（サム・アルトマン）氏に声をかけられ、プロジェクトに声を貸すように頼まれたが、断ったと言っている。

それにもかかわらず、Johansson 氏は次のように述べている。

昨年9月、Sam Altman 氏から、現在の「ChatGPT 4.0」の声優として私を雇いたいというオファーを受けた。彼は、私がこのシステムの声を担当することで、テック企業とクリエイターの橋渡しができ、人間と AI に関する激変を消費者が心地よく感じられるようになると思うと言った。彼は、私の声が人々の慰めになると感じていると言った。

悩んだ末に、個人的な理由でその申し出を断った。

それから9ヵ月後、私の友人、家族、そして一般の人々は皆、「Sky」と名付けられた最新のシステムがいかに私に似ているかを指摘した。

リリースされたデモを聴いたとき、私は衝撃を受け、怒り、そして Altman 氏が私の親しい友人やニュース関係者が見分けがつかないほど不気味に私の声と似ている声を追求することに不信感を抱いた。Altman 氏は、この類似性が意図的なものであるとさえほのめかし、「her」と一言ツイートした。これは、人間との親密な関係を築くチャットシステム「Samantha（サマンサ）」の声を演じた映画への言及である。

ChatGPT 4.0のデモが公開される2日前、Altman 氏は私のエージェントに連絡し、再考を求めた。しかし、私たちが連絡をつける前に、システムは世に出てしまった。

彼らの行動の結果、私は弁護士を雇うことを余儀なくされ、彼らは Altman 氏と OpenAl に2通の手紙を書き、彼らが行ったことを明らかにし、Sky の音声を作成した正確なプロセスを詳しく説明するよう求めた。その結果、OpenAI はしぶしぶ Sky の音声を削除することに同意した。

ディープフェイクや、自分自身の肖像、自分自身の作品、自分自身のアイデンティティの保護と格闘している今、これらの問題は絶対に明らかにされるべきだと思う。私は、個人の権利が確実に守られるよう、透明性と適切な法律の成立という形で解決されることを期待している。

https://twitter.com/yashar/status/1792682664845254683

OpenAI の「ChatGPT」、それとも her の「サマンサ」？

OpenAI は2023年9月に ChatGPT の音声機能をローンチした。この機能はうまく機能したが、3つの異なるモデル（音声をテキストに書き起こすもの、テキストを取り込んで回答を生成する GPT-3.5／GPT-4、テキストを音声に戻す3つ目のモデル）の上で動作するため、ある程度の遅延があった。つまり、回答を提供するモデルは、トーン、複数のスピーカー、バックグラウンドノイズを直接観察することができず、笑いやその他の感情で応答することもできなかった。

この状況を変えるため、先週、OpenAI は GPT-4o を発表した。GPT-4 レベルのインテリジェンスにより、テキスト、音声、視覚をリアルタイムで理由づける統合マルチモーダルAIである。同社は、このモデルによって、ChatGPT が人間の応答時間に匹敵する約320ミリ秒で応答し、Siri や Alexa のようなパーソナルアシスタントとして機能することを示すいくつかのデモを公開した。

このニュースは大きな話題となったが、デモ動画が公開された直後から、GPT-4o の新しいボイスモードの Sky が、映画「her／世界でひとつの彼女」で　Johansson 氏が演じたパーソナルアシスタント Samantha（サマンサ）に似すぎているという指摘が多くのユーザから寄せられるようになった。新しいボイスモードが公開された直後、Altman 氏が her という単語を X に投稿したことで、噂はさらに大きくなった。Reddit のスレッドでは、GPT-4o の声が「her／世界でひとつの彼女」の Johansson 氏の声と、トーンや笑い声に至るまでいかにマッチしているかが議論されている。

当然ながら、Johansson 氏との比較から、多くの人が、OpenAI がどのようにしてこれほど類似した音声を作成できたのか疑問に思い始め、女優の口調や話し方を再現するためにAIを使用したのではないかという推測も含まれている。

https://twitter.com/_Falcon_Fury/status/1791577059791184038

これを受けて、OpenAI は Sky の音声を一時停止し、懸念や疑問の解消に努めることにした。同社は、問題の音声は Johansson 氏の模倣ではなく、5ヶ月間にわたる広範な募集プロセスを通じて選ばれた有償の声優によるものであることを明らかにした。

同社はブログで次のように書いている。

AI の声は、有名人の特徴的な声を意図的に模倣すべきではないと考えている。Sky の声は、Johansson 氏の模倣ではなく、自然な話し声を使った別のプロの女優のものだ。プライバシーを保護するため、私たちは声優の名前を共有することはできない。

また、Sky の声優を含む5人の声優は、タレントエージェンシー、キャスティングディレクタ、業界アドバイザの協力を得て、400人の応募者の中から選ばれたという。これらのグループはまず、ChatGPT の声の基準（多様性、時代性、親しみやすさ、温かさなど）を設定し、これらのパラメータを使って応募者をふるいにかけ、最も適した選択肢を厳選した。最終的に選ばれた俳優たちは、OpenAI 本社に呼ばれ、レコーディングセッションを受け、今回の発表に至った。