Stability AI、画像生成AI「Stable Diffusion」の機能を大幅向上——画像構成要素増も、プロンプトの長さはそのままで

SHARE:
Image credit: Stability AI

Stability AI は26日、画質を劇的に向上させ、テキストプロンプトだけで非常に詳細な画像を生成できる、新しい Stable Diffusion ベースモデルをローンチした。

Stable Diffusion XL(SDXL)1.0 は、Stability AI が新たに開発した最先端のフラッグシップモデルだ。このリリースは、Midjourney や最近「Firefly」でこの分野に参入した Adobe のようなライバルとの競争に直面している Stability AI がその能力をレベルアップし、モデルをオープン化することを目的として行われた。

Stability AI は、6月から SDXL 1.0 の機能をプレビューしており、このモデルのパワーを実証するための研究専用リリースを発表している。今回の機能強化では、画像精製プロセスが改善され、従来の Stable Diffusion モデルよりも鮮やかな色、照明、コントラストが生成されるとしている。SDXL 1.0 では、ユーザが少ない労力で高度にカスタマイズされた画像を作成できる微調整機能も導入されている。

SDXL 1.0モデル は、35億パラメータのベースモデルの利点を生かし、高度に最適化されたトレーニングアプローチを用いて開発された。Stability AI は、これを強固なベースモデルと位置づけ、その上にツールや機能のエコシステムが構築されることを期待している。

Stability AI の CEO  Emad Mostaque 氏は、VentureBeat に次のように語った。

ベースモデルは本当に面白いもので、Minecraft のリリースのように改造コミュニティ全体が登場するようなものです。しかし、そこから構築するための本当に強固な基盤が必要です。

SDXL 1.0 の ControlNet により、Stable Diffusion はどう改善されたか

テキストから画像への生成で可能な限り最良の画像を得ることは、通常、反復プロセスになるのだが、SDXL 1. 0はこれを大幅に簡単にすることを目指している。

微調整のために取得する画像の量は劇的に減少しました。今では、5枚から10枚程度の画像で、素晴らしいモデルを本当に素早く微調整することができます。(Mostaque 氏)

SDXL 1.0 でより簡単な微調整と構成要素の向上を可能にした重要な革新技術のひとつが、ControlNet として知られるアプローチである。 スタンフォード大学の研究論文は、今年初めにこの技術について詳述している。Mostaque 氏は、ControlNet は、例えばスケルトンフィギュアなどの入力を可能にし、その画像をベースとなる拡散ノイズ基盤にマッピングすることで、より高度な精度と制御を可能にすると説明している。

SDXL 1.0 でパラメータが増えたことが大きな意味を持つ理由

Mostaque 氏は、ジェネレーティブ AI のブームを全体的に盛り上げるのに役立った重要なことの1つはスケーリングであり、それによってパラメータ数が増え、機能が増え、知識が増えることにつながったとコメントした。Mostaque 氏によると、SDXL 1.0の基本モデルには35億ものパラメータがあり、全体的な精度が向上しているという。

あなたはモデルにさまざまなことを教え、より深く教えることになります。モデルはより多くの概念を理解し、より深く理解するのです。(Mostaque 氏)

SDXL 1.0 にはより多くのパラメータがあるが、テキスト生成モデルにありがちな、より良い結果を得るためにユーザが長いトークンやプロンプトを入力する必要はない。Mostaque 氏によると、SDXL 1.0 では、ユーザーが複雑な複数パートの指示を与えても、以前のモデルよりも少ない単語で正確な画像を生成できるという。以前の Stable Diffusion モデルでは、ユーザはより長いテキストプロンプトを必要としていた。

このモデルではそれを行う必要はありません。それは0.9のリリースでは、コミュニティとパートナーとともに、人間のフィードバックによる強化学習(RLHF)段階を行ったからです。(Mostaque 氏)

SDXL 1.0のベースモデルは、「Amazon Bedrock」や「Amazon SageMaker Jumpstart」など、さまざまなサービスを通じて26日から利用できる。

ベースモデルはオープンで、CreativeML の倫理的使用ライセンスでコミュニティ全体が利用できます。Bedrock、Jumpstart、そして私たち自身の API サービス、さらに Clipdrop のようなインターフェースによって、使いやすくなっています。(Mostaque 氏)

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する