
Open AI の AI 画像生成モデル「DALL-E 」もはや最先端ではない。
同社は20日、最新のテキストから画像を生成するジェネレータ「DALL-E 3」を発表し、画像そのものに直接書かれた読み取り可能なテキストを生成する機能など、その優れた新機能のいくつかを披露した。これらはDALL-E 2 では容易でなかったこと、そして Midjourney のような他の競合する画像ジェネレータ AI モデルが未だに実現に苦戦していることである。
OpenAI は新モデルを説明する Web ページに次のように書いている。
DALL-E 3 は、画像内のテキストや手のような人間のディテールを生成する際に、DALL-E 2 よりも大幅に改善されています。
この機能により、OpenAI は元 Googler が先月立ち上げたスタートアップ Ideogram と直接競合することになる。Ideogramもまた、独自の AI モデルを使ってテキスト/タイポグラフィを組み込んだ画像生成を提供している。
空間的関係を理解する
さらに、OpenAI は、DALL-E 3 はユーザのプロンプトテキストに含まれる空間的な関係をよりよく理解し、ユーザが説明した場所に人物やオブジェクトを互いに関連付けて配置するイメージを生成すると説明した。これは、以下のスクリーンショットの例に見られるように、説明的なプロンプトをはるかに正確にレンダリングできるようになったことを意味する。

Image credit: OpenAI
ChatGPT との連携
OpenAI はまた、ヒットした大規模言語モデル(LLM)の月額20米ドルの有料サブスクリプションプラン「ChatGPT Plus」と、先月発表された新プラン「ChatGPT for Enterprise」に DALL-E 3 が登場することを発表した。
さらに OpenAI によれば、ChatGPT はユーザがプロンプトを自動で絞り込み、より意図にマッチしたイメージを生成するのを助けることができる。
OpenAI の共同設立者兼 CEO Sam Altman 氏 は、ソーシャルネットワークの X(旧 Twitter)に投稿した動画では、ChatGPT 連携により DALL-E 3 で可能になった、印象的な前後の会話によるプロンプトのスタイルが示されている。
also, the video we made for dalle 3 is SO CUTE: pic.twitter.com/k1FOFTOsU5
— Sam Altman (@sama) September 20, 2023
同時に OpenAI は、「以前のバージョンと同様に、我々は DALL-E 3が暴力的、成人向け、または憎悪的なコンテンツを生成する能力を制限するための措置を講じた」と説明している。
この発表に、OpenAI の開発者関係を支持する Logan Kilpatrick 氏は X で、「絶対に信じられない」と喝采を送った。
https://twitter.com/OfficialLoganK/status/1704550847235915880
【via VentureBeat】 @VentureBeat
BRIDGE Members
BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。- 会員限定記事・毎月3本
- コミュニティDiscord招待