エンタープライズ開発者や優れた企業リーダーが知っているように、アプリケーションプログラミングインターフェース( API )は、最新のソフトウェア開発の中心であり、テクノロジープラットフォームの上に位置し、サードパーティのアプリがそれらと接続・統合できるようにするものだ。そしてOpenAI は、強力な大規模言語モデル( LLM )である GPT-4 Turbo 用の API に大きな改良を加えたのである。
同社は本日(訳註:原文掲載は4月9日)、 X アカウントで、 GPT-4 Turbo with Vision モデルが、 API を通じて「一般提供」されるようになったと発表した。 GPT-4 のビジョン機能は、2023年9月にオーディオアップロードとともに発表され、 GPT-4 Turbo は11月の OpenAI 開発者会議で発表され、速度の向上、入力コンテキストウィンドウの拡大(最大128,000トークン、約300ページの本やドキュメントに相当)、手頃な価格を約束するものだった。
https://twitter.com/OpenAIDevs/status/1777769463258988634?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1777769463258988634%7Ctwgr%5Eea387208b755de6cd19ca1f84af0b3179616c9c9%7Ctwcon%5Es1_c10&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fopenai-makes-gpt-4-turbo-with-vision-generally-available-through-its-api%2F
さらに、モデルのビジョン認識・分析機能を使用するリクエストは、テキスト形式の JSON と関数呼び出しを通じて行えるようになった。これにより、開発者が接続されたアプリ内でのアクションを自動化するために使用できる JSON コードスニペットが生成される。「ユーザーに代わってメールを送信したり、オンラインで何かを投稿したり、購入したりすること」だが、 OpenAI は API ページで「ユーザーに代わって世界に影響を与えるアクションを実行する前に、ユーザー確認フローを組み込むことを強くお勧めします」と述べている。
https://twitter.com/romainhuet/status/1777769796739756128?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1777769796739756128%7Ctwgr%5Eea387208b755de6cd19ca1f84af0b3179616c9c9%7Ctwcon%5Es1_c10&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fopenai-makes-gpt-4-turbo-with-vision-generally-available-through-its-api%2F
OpenAI の広報担当者によると、この変更は開発者のワークフローを合理化し、アプリをより効率的にするのに役立つという。「以前は、テキストと画像に別々のモデルを使用する必要があったが、今では1回の API 呼び出しで、モデルが画像を分析し、推論を適用できるようになった」のだ。
すでに OpenAI は、 GPT-4 Turbo with Vision を利用している顧客の例をいくつか挙げている。ヒットしたスタートアップである Cognition(コグニション)の自律型AIコーディングエージェント Devin(デビン)は、ユーザーに代わってフルコードを自動生成するためにこのモデルに依存している。
Devin, built by @cognition_labs, is an AI software engineering assistant powered by GPT-4 Turbo that uses vision for a variety of coding tasks. pic.twitter.com/E1Svxe5fBu
— OpenAI Developers (@OpenAIDevs) April 9, 2024
また、 Healthify というヘルスアンドフィットネスアプリが GPT-4 Turbo with Vision を使用して、食事の写真の栄養分析と推奨事項を提供している。
Make Real, built by @tldraw, lets users draw UI on a whiteboard and uses GPT-4 Turbo with Vision to generate a working website powered by real code. pic.twitter.com/RYlbmfeNRZ
— OpenAI Developers (@OpenAIDevs) April 9, 2024
最後に、英国のスタートアップである TLDraw は、 GPT-4 Turbo with Vision を使用して、バーチャルホワイトボードを動かし、ユーザーの描画を機能的な Web サイトに変換している。
GPT-4 Turbo は、 Anthropic の Claude 3 Opus や Cohere(コヒア)の Command R+ 、さらには Google の Gemini Advanced など、他の新しいモデルとのベンチマークテストで劣っているが、今日の GPT-4 Turbo with Vision をより多くの潜在的なエンタープライズ顧客や開発者に提供する動きは、世界が次の LLM のリリースを待つ中、 OpenAI のモデルを魅力的な選択肢にし続けるのに役立つはずだ。
【via VentureBeat】 @VentureBeat
Members
BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。無料で登録する