OpenAI、「ChatGPT Advanced Voice Mode」を有料ユーザに提供開始

Image Credit: OpenAI

OpenAI は、遂に新しい人間らしい会話音声インターフェース「ChatGPT Advanced Voice Mode」を、当初の小規模テストグループや待機リストを超えて、より多くのユーザに提供することとなった。4ヶ月前に一般公開されたこの新機能が、ついに一般ユーザの手に渡ることになった。

「ChatGPT Plus」および Team プランの有料契約者全員が、新しい「ChatGPT Advanced Voice Mode」にアクセスできるようになる。ただし、今後数日かけて徐々にロールアウトされる予定で、まずはアメリカからの提供が開始される。

来週には、OpenAI は同社の Edu および Enterprise プランの購読者にも、ChatGPT Advanced Voice Mode を提供する予定だ。

また、音声アシスタントのための「カスタム命令」や、ユーザが希望する振る舞いの「メモリ」を保存する機能も追加される。これらは、今年初頭にテキスト版のChatGPTに導入されたものと同様の機能だ。

さらに、OpenAI は24日、Arbor、Maple、Sol、Spruce、Vale の5つの新しい音声スタイルも提供開始する。これらは、既存の Breeze、Juniper、Cove、Ember の 4 つの音声に加わるものとなる。

Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.

While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.

It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg

— OpenAI (@OpenAI) September 24, 2024

α版以降、最も人気の外国語での発音の改善や、全般的な会話速度とスムーズさの向上に努めてきました。Advanced Voice Modeのデザインも、アニメーションのある青い球体に変更になりました。（同社）

元々、音声モードには4つの声（Breeze、Juniper、Cove、Ember）が用意されていたが、今回の更新により新たに5つの声（Arbor、Maple、Sol、Spruce、Vale）が加わる。ただし、新しい声のサンプルは提供されていない。

これらの更新は、最近リリースされたプレビューモデル「o1」ではなく、「GPT-4o」モデルでのみ利用可能だ。ChatGPT ユーザは、すべての会話でカスタム命令とメモリを活用し、音声モードをパーソナライズできるようになる。

AI ボイスチャットの競争激化

Apple の「Siri」や Amazon の「Alexa」などの AI 音声アシスタントの台頭以来、開発者たちは、より人間らしい会話体験を実現しようと努力してきた。

ChatGPT にはすでに読み上げ機能「Read-Aloud」として音声が組み込まれていたが、Advanced Voice Mode の目的は、ユーザにより人間らしい対話体験を提供することだ。他のAI開発者も、同様のコンセプトを模倣しようとしている。

Google 出身の Alan Cowan 氏が設立したスタートアップの　Hume AI　は、感情を認識する人間らしい音声アシスタント「Empathic Voice Interface」の第2版をリリースした。

フランスの AI 企業 Kyutai は7月に、オープンソースの AI 音声アシスタント「Moshi」をリリースした。

Google も、Gemini チャットボットにボイスを追加した「Gemini Live」を通じて、OpenAI にキャッチアップしようとしている。ロイターによると、Meta も人気俳優の声を模したボイスを、Meta AI プラットフォームに追加する開発を行っている。

OpenAI は、自社プラットフォームで AI ボイスを広く提供し、他社よりもはるかに多くのユーザの手に届けることを目指している。

遅延と論争を経て公開

しかし、リアルタイムで会話し、適切な感情を表現するAIボイスの概念は、必ずしも良い評価を受けてきたわけではない。

ChatGPT に音声を追加する OpenAI の取り組みは、当初から物議を醸していた。5月のイベントで GPT-4o とボイスモードを発表した際、1つの音声（Sky）が俳優の Scarlett Johansson（スカーレット・ヨハンソン）氏に似ていると指摘されていた。

OpenAI の CEO Sam Altman（サム・アルトマン）が「her」と投稿したことで、Johansson 氏が AI アシスタントの声を務めた同名の映画を連想させ、AI 開発者が著名人の声を模倣することへの懸念が高まった。

OpenAI はこれらの声明を否定し、特定の人物の声を参考にしたわけではないと主張した。ユーザは9つの OpenAI 製の音声に限定されるという。同社は記者団に次のように発表した。

我々は、合計45の異なる言語を話し、29の異なる地域を代表する外部のレッドチーマーとモデルの音声機能をテストしました。

しかし、同社はChatGPT Advanced Voice Mode の提供を、当初予定していた6月下旬から「7月下旬から8月上旬」に延期し、ペンシルバニア大学ウォートン校教授の Ethan Mollick 氏など、OpenAI が選んだ初期ユーザグループのみに限定した。これは、潜在的な詐欺や不正行為への利用を避けるため、音声モードの安全性テストや「read teaming（編注：red teaming =「脆弱性をテストするための体系的な敵対的攻撃の誤り」の可能性あり）」を継続する必要があることを理由にしていた。

明らかに、同社はこのモードを今より広くリリースするのに十分なことをしたと考えている。これは OpenAI の最近の一般的により慎重なアプローチに沿ったもので、アメリカやイギリス政府と手を携えて、o1 シリーズのような新モデルをローンチ前にプレビューすることを許可している。

【via VentureBeat】 @VentureBeat

【原文】