OpenAI、テキストとタイポグラフィをサポートした「DALL-E 3」を公開

SHARE:
Image credit: OpenAI

Open AI の AI 画像生成モデル「DALL-E 」もはや最先端ではない。

同社は20日、最新のテキストから画像を生成するジェネレータ「DALL-E 3」を発表し、画像そのものに直接書かれた読み取り可能なテキストを生成する機能など、その優れた新機能のいくつかを披露した。これらはDALL-E 2 では容易でなかったこと、そして Midjourney のような他の競合する画像ジェネレータ AI モデルが未だに実現に苦戦していることである。

OpenAI は新モデルを説明する Web ページに次のように書いている。

DALL-E 3 は、画像内のテキストや手のような人間のディテールを生成する際に、DALL-E 2 よりも大幅に改善されています。

この機能により、OpenAI は元 Googler が先月立ち上げたスタートアップ Ideogram と直接競合することになる。Ideogramもまた、独自の AI モデルを使ってテキスト/タイポグラフィを組み込んだ画像生成を提供している。

空間的関係を理解する

さらに、OpenAI は、DALL-E 3 はユーザのプロンプトテキストに含まれる空間的な関係をよりよく理解し、ユーザが説明した場所に人物やオブジェクトを互いに関連付けて配置するイメージを生成すると説明した。これは、以下のスクリーンショットの例に見られるように、説明的なプロンプトをはるかに正確にレンダリングできるようになったことを意味する。

OpenAIの「DALL-E 3」が生成した画像と使用されたプロンプトのスクリーンショット
Image credit: OpenAI

ChatGPT との連携

OpenAI はまた、ヒットした大規模言語モデル(LLM)の月額20米ドルの有料サブスクリプションプラン「ChatGPT Plus」と、先月発表された新プラン「ChatGPT for Enterprise」に DALL-E 3 が登場することを発表した。

さらに OpenAI によれば、ChatGPT はユーザがプロンプトを自動で絞り込み、より意図にマッチしたイメージを生成するのを助けることができる。

OpenAI の共同設立者兼 CEO Sam Altman 氏 は、ソーシャルネットワークの X(旧 Twitter)に投稿した動画では、ChatGPT 連携により DALL-E 3 で可能になった、印象的な前後の会話によるプロンプトのスタイルが示されている。

同時に OpenAI は、「以前のバージョンと同様に、我々は DALL-E 3が暴力的、成人向け、または憎悪的なコンテンツを生成する能力を制限するための措置を講じた」と説明している。

この発表に、OpenAI の開発者関係を支持する Logan Kilpatrick 氏は X で、「絶対に信じられない」と喝采を送った。

https://twitter.com/OfficialLoganK/status/1704550847235915880

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する