OpenAI、テキストとタイポグラフィをサポートした「DALL-E 3」を公開 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Open AI の AI 画像生成モデル「DALL-E 」もはや最先端ではない。

同社は20日、最新のテキストから画像を生成するジェネレータ「DALL-E 3」を発表し、画像そのものに直接書かれた読み取り可能なテキストを生成する機能など、その優れた新機能のいくつかを披露した。これらはDALL-E 2 では容易でなかったこと、そして Midjourney のような他の競合する画像ジェネレータ AI モデルが未だに実現に苦戦していることである。

OpenAI は新モデルを説明する Web ページに次のように書いている。

DALL-E 3 は、画像内のテキストや手のような人間のディテールを生成する際に、DALL-E 2 よりも大幅に改善されています。

この機能により、OpenAI は元 Googler が先月立ち上げたスタートアップ Ideogram と直接競合することになる。Ideogramもまた、独自の AI モデルを使ってテキスト／タイポグラフィを組み込んだ画像生成を提供している。

空間的関係を理解する

さらに、OpenAI は、DALL-E 3 はユーザのプロンプトテキストに含まれる空間的な関係をよりよく理解し、ユーザが説明した場所に人物やオブジェクトを互いに関連付けて配置するイメージを生成すると説明した。これは、以下のスクリーンショットの例に見られるように、説明的なプロンプトをはるかに正確にレンダリングできるようになったことを意味する。