Stability AI、音声生成AI「Stable Audio」を公開 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

画像やコードを生成するジェネレーティブ AI 技術を構築した後に来るものは何だろうか。Stability AI にとって、それはテキストからオーディオの生成だ。

Stability AI は13日、Stable Audio 技術の初公開リリースを発表し、誰でも簡単なテキストプロンプトを使って、短いオーディオクリップを生成できるようにした。Stability AI は、テキストから画像に変換する AI 技術「Stable Diffusion」を開発した企業として知られている。

Stable Diffusion は7月、画像合成を改善した新ベースモデル「SDXL」を発表した。同社はこのニュースに続き、8月に「StableCode」を発表し、その範囲を画像からコードへと拡大した。

StableAudio は新しい機能だが、Stable Diffusion が画像を作成するのと同じコア AI 技術の多くに基づいている。すなわち、Stable Audio の技術は、新しいオーディオクリップを生成するために、画像ではなくオーディオに対して学習された拡散モデルを使用する。

Stability AI のオーディオ担当副社長 Ed Newton-Rex 氏は VentureBeat に次のように語った。

Stability AI は画像の分野で最もよく知られているが、我々は今、Stable Audio と呼ばれる音楽とオーディオ生成のための最初の製品を発表する。コンセプトは本当にシンプルで、あなたが聴きたい音楽やオーディオをテキストで記述すると、我々のシステムがあなたのためにそれを生成する。

音楽を生成する「Stable Audio」の仕組み

Newton-Rex 氏は2011年、Jukedeck という自身のスタートアップを立ち上げ、2019年に TikTok に売却している。

しかし、Stable Audio を支える技術のルーツは Jukedeck ではなく、Zach Evans 氏が作った「Harmonai」と呼ばれる音楽生成のための Stability AI 社内の研究スタジオにある。

Evans 氏は VentureBeat に次のように語った。

画像生成の領域から技術的に同じアイデアを取り出し、オーディオ領域に適用したものだ。Harmonaiは私が始めた研究ラボで、Stability AI の完全な一部であり、基本的に、このジェネレーティブオーディオ研究をオープンなコミュニティ活動として行うためのものだ。

テクノロジーを使ってベースとなるオーディオトラックを生成する能力は、今に始まったことではない。これまでも我々は、Evans 氏が「symbolic generation」と呼ぶテクニックを使うことができた。彼は、symbolic generation は一般的に、例えばドラムロールのようなものを表現できる MIDI（Musical Instrument Digital Interface）ファイルで機能すると説明した。Stable Audio のジェネレーティブ AI パワーは、MIDIや symbolic generation にありがちな反復音符を超えた、新しい音楽を生み出すことを可能にする一味違うものだ。

Stable Audio は、生のオーディオサンプルを直接扱うことで、より高品質な出力を実現する。このモデルは、オーディオライブラリ「AudioSparks」の80万曲以上のライセンス音楽でトレーニングされた。

これだけのデータがあれば、非常に完全なメタデータになる。このようなテキストベースのモデルを行う際に、本当に難しいことの1つは、高品質のオーディオであるだけでなく、対応するメタデータも充実しているオーディオデータを持つことだ。（Evans 氏）

Stable Audio で、ビートルズの新曲を作ろうとは思わないで

ユーザが画像生成モデルでよくやることの1つは、特定のアーティストのスタイルで画像を作成することだ。しかし、Stable Audio の場合、ユーザは AI モデルに、例えばビートルズの名曲のような新しい音楽を生成するよう依頼することはできない。

ミュージシャンのためのオーディオサンプル生成では、それは人々が求めるものではない傾向がある。（Newton-Rex 氏）

Newton-Rex 氏は、彼の経験では、ほとんどのミュージシャンは、ビートルズや他の特定の音楽グループのスタイルで何かを要求して新しいオーディオ作品を始めることを望んでおらず、むしろより創造的であることを望んでいると指摘した。

テキストからオーディオの生成に適したプロンプトの学習

Evans 氏によると、Stable Audioモデルには拡散モデルとして約12億のパラメータがあり、これは画像生成用にリリースされたStable Diffusion のオリジナルとほぼ同等だという。

オーディオを生成するプロンプトに使用されるテキストモデルは、すべて Stability AI によって構築され、トレーニングされたものだ。Evans 氏は、テキストモデルには CLAP（Contrastive Language Audio Pretraining）と呼ばれる技術が使われていると説明した。Stable Audio の発表の一環として、Stability AI は、ユーザが生成したいオーディオファイルの種類につながるテキストプロンプトをユーザに提供するためのプロンプトガイドも公開している。

Stable Audio は、無料版と月額12米ドルの Pro 版の両方で利用できる。無料版では、毎月20生成、最大20秒のトラックが可能で、Pro 版ではそれが500生成、90秒のトラックに増加する。