OpenAI が新たな無料モデル GPT-4o とデスクトップ版 ChatGPT を発表ーーアプリはまるで人間と会話するような反応速度に

本日、OpenAIの最高技術責任者（CTO）であるMira Murati（ミラ・ムラティ）氏は、Spring Updatesイベントで、新しい強力なマルチモーダル基礎大規模言語モデル（LLM）であるGPT-4o（GPT-4 Omniの略）を発表した。これは今後数週間で全ての無料ChatGPTユーザーに提供され、MacOS用のChatGPTデスクトップアプリ（後にWindows向けも）も発表された。これにより、ユーザーはウェブやモバイルアプリ外でもアクセス可能になる。

「GPT-4oは音声、テキスト、ビジョンを統合して推論する」とMurati氏は述べた。これは、ChatGPTスマートフォンアプリでユーザーが撮影したリアルタイム動画を受け入れ分析する機能も含まれるが、この機能はまだ一般公開されていない。

https://twitter.com/heyBarsee/status/1790080521839509590?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1790080521839509590%7Ctwgr%5E37a5819e1ee13d7986a49770442d7ff546ccbd0c%7Ctwcon%5Es1_c10&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fopenai-announces-new-free-model-gpt-4o-and-chatgpt-for-desktop%2F

プレゼンテーション中のデモでは、GPT-4oを搭載したChatGPTに、徐々に劇的で演劇的な声で物語を語るように依頼し、それを正確かつ迅速に行った。また、ユーザーが中断したときに話を止め、再び話し始める前にユーザーの指示を聞くこともできた。

OpenAIはデモビデオとGPT-4oの機能の例をウェブサイトで公開し、「232ミリ秒で音声入力に応答し、平均320ミリ秒で応答できる。これは会話における人間の応答時間に近い」と述べた。

同社はGPT-4oが以前のモデルとどのように異なり、新しい体験を可能にするかを説明した。

「GPT-4o以前は、Voice Modeを使用してChatGPTと話すことができ、平均で2.8秒（GPT-3.5）および5.4秒（GPT-4）の遅延があった。これを達成するために、Voice Modeは3つの別々のモデルのパイプラインで構成されている。1つの単純なモデルが音声をテキストに変換し、GPT-3.5またはGPT-4がテキストを入力として受け取りテキストを出力し、3番目の単純なモデルがそのテキストを音声に変換する。このプロセスでは、主な知能源であるGPT-4は多くの情報を失ってしまう。音調、複数の話者、背景音を直接観察することはできず、笑い声、歌、感情を表現することもできない。

GPT-4oでは、テキスト、ビジョン、オーディオ全体を通じて新しいモデルをエンドツーエンドでトレーニングし、全ての入力と出力が同じニューラルネットワークによって処理されるため、これらのモダリティを組み合わせた最初のモデルとして、モデルの可能性と制限についてまだ表面的にしか探っていない」。

それは、単一の画像の複数のビューを生成し、それを3Dオブジェクトに変換することもできる。

3d object synthesis by generating multiple views of the same object from different angles pic.twitter.com/K51258sYT5

— will depue (@willdepue) May 13, 2024

しかし、OpenAIはGPT-4oやその新しいAIモデルのオープンソース化を示唆していない。つまり、ユーザーはOpenAIのウェブサイトやアプリ、アプリケーションプログラミングインターフェース（API）を通じて新しい基盤モデルとその機能を試すことはできるが、カスタマイズのための基礎となる重みへの完全なアクセスはできない。これは、共同創設者であるElon Mask（イーロン・マスク）氏が指摘しているように、OpenAIがその基本的な使命から逸脱している例として批判されている。

新しいモデルが無料ChatGPTユーザーにさらなる力と機能をもたらす

GPT-4oの機能は、現在のChatGPT無料ユーザーの体験を大幅に向上させることが期待されている。これまで、無料ユーザーはテキストのみのGPT-3.5モデルを使用しており、ユーザーがアップロードした画像やドキュメントを分析する強力な機能を欠いていた。

今後、無料ChatGPTユーザーは、より知的なモデル、ウェブブラウジング、データ分析とチャート作成、他のサードパーティが作成したカスタムGPTを使用できるGPTストアへのアクセス、そしてメモリー機能などにアクセスできるようになる。これにより、チャットボットはユーザーの情報や好みに関する情報を保存し、テキストや音声での指示に従って応答できる。

イベント中のデモでは、GPT-4oを搭載したChatGPTがリアルタイム翻訳アプリとして使用され、イタリア語から英語、逆に自動的に翻訳する様子が示された。

https://twitter.com/tomwarren/status/1790074556981403997?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1790074556981403997%7Ctwgr%5E37a5819e1ee13d7986a49770442d7ff546ccbd0c%7Ctwcon%5Es1_c10&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fopenai-announces-new-free-model-gpt-4o-and-chatgpt-for-desktop%2F

ブログ投稿で、OpenAIは「ChatGPTは現在、サインアップとログイン、ユーザー設定などで50以上の言語をサポートしている」と発表した。さらに、OpenAIは「GPT-4oは、共有された画像を理解し、議論する能力において、既存のどのモデルよりも優れている」と述べた。

また、一貫したAIアートキャラクターを作成するためにも使用でき、これは現在までほとんどのAIアート生成ツールが達成できなかったことである。

OpenAIは、最終的には無料ChatGPTユーザーにも提供されるが、最初は有料購読者に展開されることを発表した。

「GPT-4oの展開をChatGPT PlusおよびTeamユーザーに開始し、Enterpriseユーザー向けの提供も近日中に予定している。ChatGPT Freeユーザーには今日から使用制限付きで展開を開始する。Plusユーザーは無料ユーザーの5倍のメッセージ制限があり、TeamおよびEnterpriseユーザーはさらに高い制限がある」。

OpenAIの公式アカウントは、「テキストと画像の入力」はAPIで今日から展開されるが、「音声とビデオの機能は今後数週間で利用可能になる」と投稿した。

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

APIでは、GPT-4oはGPT-4 Turboの半額で2倍の速度で利用でき、サードパーティ開発者が一定期間内に行える呼び出し回数が5倍に増加すると、OpenAIの共同創設者兼CEOであるSam Altman（サム・アルトマン）氏がイベント中に投稿した。

in the API, GPT-4o is half the price AND twice as fast as GPT-4-turbo. and 5x rate limits. pic.twitter.com/vqV8XwNcYp

— Sam Altman (@sama) May 13, 2024

OpenAIの研究者William Fedus（ウィリアム・フェドゥス）氏は、LMSysアリーナオンラインでユーザーに目撃された謎の「gpt2-chatbot」が実際にはGPT-4oだったことを確認した。

https://twitter.com/LiamFedus/status/1790064963966370209?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1790064963966370209%7Ctwgr%5E37a5819e1ee13d7986a49770442d7ff546ccbd0c%7Ctwcon%5Es1_c10&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fopenai-announces-new-free-model-gpt-4o-and-chatgpt-for-desktop%2F

Altman氏は個人ブログで、AI構築に対するOpenAIの考え方が変わったと書いている。

「OpenAIを始めたときの私たちの最初の考えは、AIを作り、それを使って世界に多くの利益をもたらすことだった。しかし、今では私たちがAIを作り、他の人々がそれを使って素晴らしいものを作り、私たち全員がその恩恵を受けるようになると見ている」。

全文をこちらで読むことができる。

「GPT-4o私たちの今日の発表から強調したいことが2つある。

まず、私たちの使命の重要な部分は、非常に優れたAIツールを無料で（または非常に低価格で）提供することである。広告やその他のものなしで、世界最高のモデルを無料でChatGPTで提供できることを誇りに思う。

OpenAIを始めたときの私たちの最初の考えは、AIを作り、それを使って世界に多くの利益をもたらすことだった。しかし、今では私たちがAIを作り、他の人々がそれを使って素晴らしいものを作り、私たち全員がその恩恵を受けるようになると見ている。

私たちはビジネスであり、収益を上げる多くの方法を見つけるだろうが、それが無料で優れたAIサービスを提供する手助けとなることを願っている。

次に、新しい音声（およびビデオ）モードは、私がこれまでに使用した中で最良のコンピュートインターフェースである。それは映画のAIのように感じられる。そして、それが現実であることがまだ少し驚きである。人間レベルの応答時間と表現力に到達することは大きな変化である。

元のChatGPTは言語インターフェースの可能性を示していた。この新しいものは本能的に異なる感じがする。速く、賢く、楽しく、自然で、役立つ。

コンピュータと話すことが本当に自然に感じられたことはないが、今はそれがある。私たちの情報へのアクセス、行動する能力、そしてその他の多くのことを追加することで、コンピュータをこれまで以上に活用できる未来が見えてくる。

最後に、この実現に多大な努力を注いでくれたチームに大きな感謝を」。

macOS向けデスクトップChatGPTアプリ、今年後半にはWindows向けも

ブログ投稿で、OpenAIは新しいChatGPTデスクトップアプリがmacOS向けに先行リリースされ、その後Windows向けにリリースされる予定であることを発表した。

「今日からPlusユーザー向けにmacOSアプリの展開を開始し、今後数週間でより広範な提供を行う予定です。Windowsバージョンも今年後半にリリースする予定です」。

デスクトップアプリについて興味深い点は、ユーザーが選択した場合、ChatGPTが画面のライブビデオキャプチャを表示し、ワークフローを分析できることである。

New chatGPT desktop app!!!

Can see your laptop screen!
One hotkey to copy text pic.twitter.com/FPJdPFjPLn

— Nick Dobos (@NickADobos) May 13, 2024

イベント中にMurati氏は、すでに1億人以上がChatGPTを使用しており、ユーザーによってGPTストアで100万以上のカスタムGPTが作成されていると述べた。

イベントは技術標準としては短い26分で終了し、ライブデモではプレゼンターがChatGPTの音声応答を中断して指示を変更したり、誤って分析したことを訂正したりする場面がいくつかあった。

それでも、このテクノロジーがまもなくユーザーに提供されることで、それがどのように受け入れられるか、そして人々がそれをGPT-4 TurboやChatGPTの最近のバージョンと比較して意味のある違いを提供し、より強力で自然な体験を提供するものと見なすかどうかが興味深い。

【via VentureBeat】 @VentureBeat

【原文】
ChatGPT

本日、 OpenAI の最高技術責任者（ CTO ）である Mira Murati （ミラ・ムラティ）氏は、Spring Updates イベントで、新しい強力なマルチモーダル基礎大規模言語モデル（ LLM ）である GPT-4o （ GPT-4 Omni の略）を発表した。これは今後数週間で全ての無料 ChatGPT ユーザーに提供され、 MacOS 用の ChatGPT デスクトップアプリ（後に Windows 向けも）も発表された。これにより、ユーザーはウェブやモバイルアプリ外でもアクセス可能になる。

「 GPT-4o は音声、テキスト、ビジョンを統合して推論する」と Murati 氏は述べた。これは、 ChatGPT スマートフォンアプリでユーザーが撮影したリアルタイム動画を受け入れ分析する機能も含まれるが、この機能はまだ一般公開されていない。

信頼できる AI の構築: Microsoft のセキュアでスケーラブルな生成 AI の戦略

「まるで魔法のよう。素晴らしいことですが、私たちはその神秘性を取り除き、みなさんにそれを試してもらいたい」と OpenAI の CTO は付け加えた。新しいモデルはリアルタイムオーディオで応答し、音声とビデオからユーザーの感情状態を検出し、感情を伝えるために声を調整することができる。これは競合する AI スタートアップHumeに似ている。
https://twitter.com/heyBarsee/status/1790080521839509590?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1790080521839509590%7Ctwgr%5E37a5819e1ee13d7986a49770442d7ff546ccbd0c%7Ctwcon%5Es1_c10&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fopenai-announces-new-free-model-gpt-4o-and-chatgpt-for-desktop%2F

プレゼンテーション中のデモでは、 GPT-4o を搭載した ChatGPT に、徐々に劇的で演劇的な声で物語を語るように依頼し、それを正確かつ迅速に行った。また、ユーザーが中断したときに話を止め、再び話し始める前にユーザーの指示を聞くこともできた。

OpenAI はデモビデオとGPT-4o の機能の例をウェブサイトで公開し、「 232 ミリ秒で音声入力に応答し、平均 320 ミリ秒で応答できる。これは会話における人間の応答時間に近い」と述べた。

同社は GPT-4o が以前のモデルとどのように異なり、新しい体験を可能にするかを説明した。

「 GPT-4o 以前は、Voice Modeを使用して ChatGPT と話すことができ、平均で 2.8 秒（ GPT-3.5 ）および 5.4 秒（ GPT-4 ）の遅延があった。これを達成するために、 Voice Mode は 3 つの別々のモデルのパイプラインで構成されている。 1 つの単純なモデルが音声をテキストに変換し、 GPT-3.5 または GPT-4 がテキストを入力として受け取りテキストを出力し、 3 番目の単純なモデルがそのテキストを音声に変換する。このプロセスでは、主な知能源である GPT-4 は多くの情報を失ってしまう。音調、複数の話者、背景音を直接観察することはできず、笑い声、歌、感情を表現することもできない。
GPT-4o では、テキスト、ビジョン、オーディオ全体を通じて新しいモデルをエンドツーエンドでトレーニングし、全ての入力と出力が同じニューラルネットワークによって処理されるため、これらのモダリティを組み合わせた最初のモデルとして、モデルの可能性と制限についてまだ表面的にしか探っていない」。

それは、単一の画像の複数のビューを生成し、それを 3D オブジェクトに変換することもできる。

3d object synthesis by generating multiple views of the same object from different angles pic.twitter.com/K51258sYT5

— will depue (@willdepue) May 13, 2024

しかし、 OpenAI は GPT-4o やその新しい AI モデルのオープンソース化を示唆していない。つまり、ユーザーは OpenAI のウェブサイトやアプリ、アプリケーションプログラミングインターフェース（ API ）を通じて新しい基盤モデルとその機能を試すことはできるが、カスタマイズのための基礎となる重みへの完全なアクセスはできない。これは、共同創設者である Elon Mask （イーロン・マスク）氏が指摘しているように、 OpenAI がその基本的な使命から逸脱している例として批判されている。

新しいモデルが無料 ChatGPT ユーザーにさらなる力と機能をもたらす

GPT-4o の機能は、現在の ChatGPT 無料ユーザーの体験を大幅に向上させることが期待されている。これまで、無料ユーザーはテキストのみの GPT-3.5 モデルを使用しており、ユーザーがアップロードした画像やドキュメントを分析する強力な機能を欠いていた。
今後、無料 ChatGPT ユーザーは、より知的なモデル、ウェブブラウジング、データ分析とチャート作成、他のサードパーティが作成したカスタム GPT を使用できる GPT ストアへのアクセス、そしてメモリー機能などにアクセスできるようになる。これにより、チャットボットはユーザーの情報や好みに関する情報を保存し、テキストや音声での指示に従って応答できる。

イベント中のデモでは、 GPT-4o を搭載した ChatGPT がリアルタイム翻訳アプリとして使用され、イタリア語から英語、逆に自動的に翻訳する様子が示された。

ブログ投稿で、 OpenAI は「 ChatGPT は現在、サインアップとログイン、ユーザー設定などで 50 以上の言語をサポートしている」と発表した。さらに、 OpenAI は「 GPT-4o は、共有された画像を理解し、議論する能力において、既存のどのモデルよりも優れている」と述べた。

また、一貫した AI アートキャラクターを作成するためにも使用でき、これは現在までほとんどの AI アート生成ツールが達成できなかったことである。

OpenAI は、最終的には無料 ChatGPT ユーザーにも提供されるが、最初は有料購読者に展開されることを発表した。

「GPT-4o の展開を ChatGPT Plus および Team ユーザーに開始し、 Enterprise ユーザー向けの提供も近日中に予定している。 ChatGPT Free ユーザーには今日から使用制限付きで展開を開始する。 Plus ユーザーは無料ユーザーの 5 倍のメッセージ制限があり、 Team および Enterprise ユーザーはさらに高い制限がある」。

OpenAI の公式アカウントは、「テキストと画像の入力」は API で今日から展開されるが、「音声とビデオの機能は今後数週間で利用可能になる」と投稿した。

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

API では、 GPT-4o は GPT-4 Turbo の半額で 2 倍の速度で利用でき、サードパーティ開発者が一定期間内に行える呼び出し回数が 5 倍に増加すると、 OpenAI の共同創設者兼 CEO である Sam Altman （サム・アルトマン）氏がイベント中に投稿した。

in the API, GPT-4o is half the price AND twice as fast as GPT-4-turbo. and 5x rate limits. pic.twitter.com/vqV8XwNcYp

— Sam Altman (@sama) May 13, 2024

OpenAI の研究者 William Fedus （ウィリアム・フェドゥス）氏は、 LMSys アリーナオンラインでユーザーに目撃された謎の「gpt2-chatbot」が実際には GPT-4o だったことを確認した。

Altman 氏は個人ブログで、 AI 構築に対する OpenAI の考え方が変わったと書いている。

「 OpenAI を始めたときの私たちの最初の考えは、 AI を作り、それを使って世界に多くの利益をもたらすことだった。しかし、今では私たちが AI を作り、他の人々がそれを使って素晴らしいものを作り、私たち全員がその恩恵を受けるようになると見ている」。

全文をこちらで読むことができる。

「 GPT-4o 私たちの今日の発表から強調したいことが 2 つある。
まず、私たちの使命の重要な部分は、非常に優れた AI ツールを無料で（または非常に低価格で）提供することである。広告やその他のものなしで、世界最高のモデルを無料で ChatGPT で提供できることを誇りに思う。

OpenAI を始めたときの私たちの最初の考えは、 AI を作り、それを使って世界に多くの利益をもたらすことだった。しかし、今では私たちが AI を作り、他の人々がそれを使って素晴らしいものを作り、私たち全員がその恩恵を受けるようになると見ている。

私たちはビジネスであり、収益を上げる多くの方法を見つけるだろうが、それが無料で優れた AI サービスを提供する手助けとなることを願っている。

次に、新しい音声（およびビデオ）モードは、私がこれまでに使用した中で最良のコンピュートインターフェースである。それは映画の AI のように感じられる。そして、それが現実であることがまだ少し驚きである。人間レベルの応答時間と表現力に到達することは大きな変化である。

元の ChatGPT は言語インターフェースの可能性を示していた。この新しいものは本能的に異なる感じがする。速く、賢く、楽しく、自然で、役立つ。

コンピュータと話すことが本当に自然に感じられたことはないが、今はそれがある。私たちの情報へのアクセス、行動する能力、そしてその他の多くのことを追加することで、コンピュータをこれまで以上に活用できる未来が見えてくる。

最後に、この実現に多大な努力を注いでくれたチームに大きな感謝を」。