フォトリアリズムをAIが追求、Stability AIがAPIおよびStable Diffusion XLベータ版を発表 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

本日、昨年8月にオープンソースの画像生成ツール「Stable Diffusion」で世間の想像力をかき立てたジェネレーティブAI企業「Stability AI」は、企業顧客向けに「フォトリアリズムを得意とする」という最新の画像生成モデルStable Diffusion XL（SDXL）のベータリリースを発表した。

「SDXLは、グラフィックデザインや建築など、いくつかの業界において変革をもたらす豊かな画像生成を実現する」と、Stability AI CTOのTom Mason氏はプレスリリースでコメントしている。

SDXL ベータ版は、エンタープライズ開発者を対象としたStabilityのAPIと DreamStudioプログラミングスイートで利用可能だ。SDXLは、前身のStable Diffusion 2.1よりも、次レベルのフォトリアリズム、画像合成と顔生成の強化、説明的な画像を作成するための短いプロンプトの使用、読みやすいテキストの作成機能の強化など、より詳細な画像と構成を生成するとしている。

また、SDXLはテキストから画像へのプロンプトだけでなく、画像から画像へのプロンプト（ある画像を入力するとその画像のバリエーションが得られる）、インペインティング（画像の欠損部分を再構成する）、アウトペインティング（既存の画像をシームレスに拡張して構築する）にも対応する。

Stable Diffusion 3.0モデルは「まだ開発中」

「我々が「XL」ラベルを使用したのは、先行モデルが9億パラメータの範囲であったのに対し、このモデルは23億パラメータを使用してトレーニングされているため」ーー。こう語るのはStability AI社のエンジニアリング担当VPであるScott Draves氏だ。本誌VentureBeatにメールで回答してくれたDraves氏は、SDXLモデルは2.0モデルのアーキテクチャよりも改善されているものの、3.0モデルはまだ開発中であることを補足した。彼は準備が整い次第、より根本的な改善を行う予定と語っている。

SDXLがAPIとDreamStudioの顧客にベータ版として公開されているのは、同社がモデルを改良するために顧客からフィードバックを受けている最中だからだそうだ。「オープンソースコミュニティにリリースする前に、モデルの機能と性能のあらゆる側面に関するフィードバックに興味がある」と彼は説明している。

困難に直面する画像生成系AI

2019年に設立されたロンドンを拠点とするStability AIは、昨年の夏に大反響を巻き起こして以来、さらに調子をあげている。Stable Diffusion 2.0は、、初期モデルからわずか3カ月後の2022年11月にリリースされた。しかし、Midjourneyのような他のAI画像生成装置との熾烈な競争など、さまざまな課題も抱えている。

また、自分の作品をStable Diffusionモデルの教師データとして使用することに反対するアーティストからの反発もある。昨年9月、教師データをアーティストが所有するためのツールを構築するための団体、「Spawning」が発足した。Stability AIは12月にも、Stable Diffusion 3のトレーニングから外れるというアーティストの要望を尊重すると発表している。

1月には3人のアーティストがStability AIとMidjourneyに対してAIアートに関する初の著作権侵害の集団訴訟を起こし、2月には Getty ImagesがStability AIによって画像が悪用されたとして訴訟を起こしている。

そして先月には、Stability AI CEOのEmad Mostaque氏が会社の上場計画をほのめかしたにもかかわらず、先週にはStability AIが「キャッシュを使い果たし、収益を上げるのが遅れているため、売上を上げるための幹部募集に至った」とSemaforが報じている。

【via VentureBeat】 @VentureBeat

【原文】