複数のAIを組み合わせ、グラフィックデザインを生成する「COLE」——マイクロソフトと北京大のチームが開発

AIシステムCOLEにより生成されたグラフィックデザイン
Image Credit: Microsoft Research Asia／北京大学

グラフィックデザイナーとそれに依存する人たちは要注意だ。新しいツールが登場し、この職業を永久に破壊しかねない。

新ツール「COLE」は、1843年に最初のグラフィカルなクリスマスカードを制作したことで知られるHenry Cole 氏にちなんで名づけられたもので、ユーザがグラフィックデザインプロジェクトのアイデアを入力すると、「降りしきる雪の中、暖かい服装で楽器を演奏する人々が描かれたウィンター・ホリデイ・コンサートのポスター」といった具合に、画像だけでなくそれをサポートするテキストも AI が生成してくれる。

COLE は実際には、MetaのLlama2-13B、DeepFloyd IF、LLaVA1.5-13B（Llama の亜種）、GPT-4V をファインチューニングしたもの、オープンソースのグラフィックスレンダラー「Skia」など、さまざまな AI モデルを組み合わせたものだ。Microsoft Research Asia と北京大学の12人の研究者チームによって開発された。

異なるモデルの組み合わせが選択されたのは、グラフィックデザインの複雑さと、この分野の主要フォーマットの1つである.SVG ファイルに関する利用可能な学習データが少なかったためだ。その代わりに、研究者たちは別のアプローチであるすべての SVG 要素と追加装飾を1つの統一された画像レイヤーに統合し、AI に背景レイヤーを抽出させ、それをテキストで記述させるという方法を採用している。

COLE のチームは、背景モデラー AI をインターネット上にある10万枚の高品質な生のグラフィックデザイン画像で訓練している。

フレームワークであって、製品ではない

そのため、COLE は今のところ製品というよりもフレームワークのようなものだ。COLE は、OpenAI の「DALL-E 3」や Midjourney のような現在のテキストから画像を生成するジェネレータのように、テキストプロンプトを入力するだけで、ビジュアルとスタイル化されたテキストを組み合わせた、鮮明で整理されたグラフィックデザインを生成することができる。

Midjourney や Stable Diffusion のようなリーダー的存在も含め、ほとんどの AI アートジェネレータにとって、画像の中にテキストを埋め込むことは困難なことだった。DALL-E 3 はベイクドインテキスト（画像の中へのテキストの埋め込み）を作成することができるが、100％正確ではない。

編集可能なテキストとビジュアル要素を含め、デザインを自動生成

さらに驚くべきことに、COLE は画像内のテキストやオブジェクトを編集可能な明確なブロックを持つ画像を作成する。

これによって、デイジーチェーン接続された AI プログラムがゼロから画像を作成することができ、最終的な結果が気に入らなければ、人間のユーザが戻ってデザイン全体を修正しようとしたり、Adobe Photoshop や InDesign などの別のプログラムにエクスポートして特定の要素を消して新しい要素を取り入れたりする必要がなくなる。

テキストボックスをクリックして表示されるテキストやフォントを変更したり、さまざまな視覚的要素に対して新しいプロンプトを入力したり、例えば食料品の袋を写実的な絵から漫画に変えたりすることができるのだ。

AI が生成したグラフィックデザインの編集可能な要素を示す COLE 論文の画像。
Image credit: Microsoft Research Asia／北京大学

研究者たちは、先週オープンアクセスサイト「arXiv」で発表された論文の中で、このシステムについて次のように説明している。

スケーラブルで高品質なグラフィックデザイン生成システムは、理想的には、ユーザの労力を最小限に抑え、様々な目的に応じた正確で高品質なタイポグラフィ情報を生成し、柔軟な編集スペースを提供する必要があります。

COLE によって、彼らはそれを達成した。

競争力のある有望な結果

それ以上に研究者たちは、COLEの出力結果は最新のDALL-E 3と比べても、非常に競争力のある品質であることを示している。

研究者たちは、広告からイベントプロモーション、マーケティング資料まで、200種類のグラフィック・デザイン・プロジェクトでCOLEをテストし、使用したすべてのプロンプトをこのスプレッドシートに掲載した。

さらに、COLE は表紙やヘッダー、ポスターの作成において最高の品質を実現し、テキストや明確なオブジェクトなど、画像内の特定の要素の編集に関しては、もちろん DALL-E 3や他の競合よりも高性能だ。

しかし、COLE はグラフィックデザインの魔法の弾丸ではない。このシステムでは、ユーザがタイポグラフィブロックの配置を変更することはできないし、複数のタイポグラフィブロックを配置することもできない。しかし、研究者たちは、これらの問題への対処は、今後の研究で追求したい方向であると記述した。

グラフィックデザイナーの終焉か、それとも彼らを強化する新たなツールか？

優れたグラフィックデザインは、多くの人にとって当たり前のものだが、専門的に行われれば、それ自体が芸術となりうる。

それゆえ、人々は映画やコンサートのポスターを集め、家やオフィスに飾るのである。それは、自分が参加した楽しい経験を思い出したり、自分の趣味や忠誠心を誇示したりするためだけでなく、そのポスターが美的感覚に優れ、見て美しいからでもある。道路標識やナンバープレートなど、より機能的なグラフィックデザインも同様だ。

COLE はグラフィックデザイナーを失業させると脅すのか。イエスでもありノーでもある。研究者たちは、必要に応じて人間の専門知識を取り入れながら、ユーザがさらに出力を洗練させることができるように、編集可能なフィールドを持つ画像を作成するよう特別に設計した。

しかし、研究者らは、グラフィックデザイン生成のタスクは、通常、効果的なプロンプトを開発するために高度な専門知識を必要とするとも述べている。研究者が名前を挙げている DALL-E 3のような他のテキストから画像へのジェネレーターと比較すると、COLE は単純なユーザの意図を必要とするだけでありながら、優れた品質のグラフィックデザイン画像を生成することができる。

別の言い方をすれば、研究者たちは、COLE を使えば、グラフィックデザインの訓練や専門知識を持たない 人でも、訓練を受けた専門家と同等の高品質のデザインを生み出すことができると考えているようだ。

もちろん、この「大衆向けグラフィックデザインツール」というアプローチは、Adobe や最近では Canva など、他社がすでに打ち出している。したがって、COLE は、これらの企業やその提供するものに対する脅威というか、ある日突然の賛辞（のような機能）に思えるだろう。

今のところ、COLE は一般には公開されていないが、研究者たちによれば、Github プロジェクトの web ページに近々デモが公開される予定だという。

【via VentureBeat】 @VentureBeat

【原文】