画像生成AI「Stable Diffusion」開発元、1億米ドル超を調達——オープンソースAIモデルの開発加速へ

ジェネレーティブ AI を支える画期的な技術には事欠かないが、重要なイノベーションの1つが diffusion model（拡散モデル）だ。熱力学の概念に着想を得た拡散モデルは、AI による画像生成の主流として GAN（敵対的生成ネットワーク）を急速に駆逐し、人々の関心を集めている。

拡散モデルは、学習データに徐々にノイズを加えていき、そのノイズを元に戻すことで学習するモデルである。拡散モデルは学習後、これらのノイズ除去方法を用いて、ランダムな入力から新しく「きれいなデータ」を生成することができる。DALL-E 2、Imagen、Midjourney などの一般的なテキスト→画像生成ツールは、すべて拡散モデルを使用している。このカテゴリにおけるもう一つの重要な参入者は、2022年8月に発売された強力で無料かつオープンソースのテキスト→画像生成ツール「Stable Diffusion」モデルを開発したスタートアップ Stability AI だ。

Emad Mostaque 氏によって2020年に設立された Stability AI は、オープンソース AI コミュニティ内の「組織」の欠如を解決することを目的とした、世界初のコミュニティ主導のオープンソース AI 企業であると主張している。

AI は、人類最大の課題を解決することを約束する。しかし、この可能性を実現できるのは、技術がオープンで、誰もがアクセスできる場合に限られ流。安定した AI は、開発者コミュニティの手に力を取り戻し、画期的な新しいアプリケーションへの扉を開くる。こうしたコミュニティを支援するこの分野の独立した事業体は、真の価値と変化を生み出すことができるのだ。（Mostaque 氏）

同社は最近、1億100万米ドルの資金調達を発表した。このオーバーサブスクリプションラウンドは、Coatue、Lightspeed Venture Partners、O’Shaughnessy Ventures LLC がリードしたものだ。Stability AI は声明の中で、この資金を利用して、消費者と企業のユースケースに向けた、画像、言語、音声、動画、3D などのオープンソース AI モデルの開発をグローバルに加速していくと述べている。

Stable Diffusion はまさに「オープン」

Stable Diffusion は、そのほとんどのものと同様に、何十億人もの人々が見事な芸術を即座に創造できるようにすることを目的としている。このモデル自体は、CompVis と Runway チームの広く使われている潜在拡散モデルの作品と、Stability AI のジェネレーティブ AI 開発責任者 Katherine Crowson 氏の条件付き拡散モデル、OpenAI の Dall-E 2、Google Brain の Imagen、その他多くのものからの洞察をベースにしている。

コアデータセットは、LAION-5B のサブセットである LAION-Aesthetics で学習した。これは、Stable Diffusion のアルファテスターからの評価に基づいて、画像がどれだけ「美しいか」に基づいて LAION-5B をフィルタリングする新しい CLIP ベースのモデルを使って作成されたものだ。Stable Diffusion は、民生用 GPU では10GB以下の VRAM で、512×512 ピクセルの画像を数秒で生成することができる。これにより、研究者、ひいては一般市民がさまざまな条件でプログラムを実行することが可能となり、画像生成の民主化が実現する。

このモデルは、Stability AI の4,000台の A100 Ezra-1 AI ウルトラクラスターで学習した。同社は、1万人以上のベータテスターが1日に170万枚の画像を作成し、このモデルの規模をテストしている。

オープンソースを重視することで、Stable Diffusion は他の AI アートジェネレータと一線を画している。Stability AI は、モデルの重みを含む AI モデルの詳細をすべて公開しており、誰でもアクセスして使用することができる。Stable Diffusion は、DALL-E や Midjourney とは異なり、暴力、ポルノ、人種差別、その他有害なコンテンツを含む、生成できるものにフィルターや制限は無い。

AI 分野の世界的リーダーである Andrew Ng 氏は次のように述べている。彼は、DeepLearning AI の創設者兼 CEO であり、Landing AI の創設者兼 CEO でもある。

Stable Diffusion の画像生成モデルは、API 経由だけでなく、ユーザが自分のマシンで実行できるオープンな方法で公開されたため、AI にとって画期的な出来事となった。

Stable Diffusion はローンチ以来、全世界で20万人以上の開発者にダウンロードされ、ライセンス供与されている。

イマジネーションを現実化する「DreamStudio」

Stability AI は、コンシューマー向け製品として「DreamStudio」も提供している。同社は、”自然言語処理と革新的な入力操作の組み合わせにより、創造性を加速させ、無限の想像力と楽な視覚表現の力をすべての人に付与するために設計された新しい生成メディアツール群 “と表現している。本製品は現在、50カ国以上から100万人の登録ユーザーがおり、合計で1億7千万枚以上の画像を作成している。

Stable Diffusion モデルは Stability AI によってオープンソース化されているが、DreamStudio の Web サイトは、ソフトウェアのインストールやコーディングの知識、負荷の高いローカル GPU を必要とせず、誰でもこうしたクリエイティブツールにアクセスできるように設計されたサービスだ。ただし、それには費用が発生する。すべての新規ユーザには、1回限りのボーナスとして、無料の DreamStudio 200クレジットが提供される。デフォルトの設定では、画像1枚につき1クレジットが課金される。ユーザが選択した画像解像度やステップ数（サイズ、Cfgスケール、シード、ステップ、画像数）により、デフォルト以外の設定での画像あたりのコストは、0.2クレジットから28.2クレジットまでとなる。無料クレジットを使い切ると、ユーザはさらにクレジットを購入する必要がある。生成された画像は常に履歴に保存され、API を使用して既存のアプリケーションと連携することができる。

Stability AI のビジネス戦略はまだ曖昧なままだが、ML 愛好家で YouTuber の Yannic Kilcher 氏との最近のインタビューで、Mostaque 氏は Stable Diffusion の技術を提供するために、「政府や大規模組織とすでに交渉中だ」と述べた。

我々は多くの取引を交渉しているので、ほとんどのお金を失う大企業に比べれば、早い段階で黒字化するだろう。（Mostaque 氏）

Coatue のゼネラルパートナー Sri Viswanath 氏は次のように説明する。

Coatue では、オープンソースの AI 技術には、人間の創造性を引き出し、より広い善を実現する力があると信じている。Stability AI は、AI の目先のアプリケーションを超えたところに夢がある大きなアイデアだ。我々は、Stability AI の旅に参加できることを嬉しく思っており、Stability AI の技術で世界が何を創造するのかを楽しみにしている。

【via VentureBeat】 @VentureBeat

【原文】