Stability AI、サウンドエフェクトのための音声生成AI「Stable Audio Open」を公開 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

「Stable Audio Open」
Image credit: Stability AI

Stability AI は5日、「Stable Audio Open 1.0」をリリースし、オーディオ向けの生成 AI の取り組みを公開した。

Stability AIは、おそらくテキストから画像への生成 AI 技術「Stable Diffusion」で最もよく知られているが、それはコード、テキスト、オーディオのための複数のモデルを含む同社の広範なポートフォリオの一部に過ぎない。2023年9月、Stability AI はテキストから音声への生成 AI ツールとして、「Stable Audio」を初めて公に発表した。4月3日には「Stable Audio 2.0」がリリースされ、生成される音声がより明瞭に、より長くなった。

Stable Audioツールのフルバージョンは一般的な商用利用が可能で、最大3分の音声を生成できるが、新しい Stable Audio Open は大幅に制限されている。Stable Audio Open の目的は、全曲を作成することではなく、むしろサウンドエフェクトのような短い楽曲に限定されている。

Stable Audio Open は、その名の通りオープンなモデルだが、厳密にはオープンソースではない。実際の Open Source Initiative（OSI）が承認したライセンスを使用するのではなく、Stable Audio Open は Stability AI の non-commercial research community agreement（非営利研究コミュニティ契約）ライセンスの下でユーザが利用できる。このライセンスは、モデルへのオープンなアクセスを提供するが、ユーザがそれを使ってできることは制限される。

Stability AI のオーディオ研究責任者 Zach Evans 氏は VentureBeat に次のように語った。

Stable Audio Openの我々の目標は、オーディオ研究者やプロデューサーに、我々の生成オーディオモデルの1つに実際にアクセスしてもらい、これらの素晴らしい新しいツールの研究、採用、実用的な創造的利用を加速させることです。

「Stable Audio Open」とは一体何なのか？

Stable Audio Open は、ドラムビート、楽器のリフ、アンビエントサウンドなど、音楽制作やサウンドデザイン用のオーディオサンプルを作成するために最適化された専用モデルだ。

Stability AI の商用製品である「Stable Audio」が、長さ3分までのまとまりのある長い音楽トラックを生成するのとは異なり、Stable Audio Open は、テキストプロンプトを使用して長さ47秒までの高品質のオーディオデータを生成することに重点を置いている。

Stability AI は、モデルのトレーニング方法にも責任あるアプローチをとっている。このモデルは、FreeSound と Free Music Archive の音声データで学習され、著作権や所有権のある素材が許可なく使用されないように配慮されている。

ファインチューニングで創造性を解き放つ

Stable Audio Open リリースの主な利点の1つは、ユーザが独自のカスタムオーディオデータでモデルをファインチューニングできることだ。例えば、ドラマーは自分のドラム録音のサンプルでモデルをファインチューニングし、新しいユニークなビートを生成することができる。

Stable Audio のファインチューニングは、実際のオープンソースライセンスの下でライセンスされているライブラリ「Stable Audio Tools」によって可能になる。「Stable Audio Open Model Weights」は、現在 Hugging Face で利用可能だ。

オーディオ研究チームは、生成オーディオモデルの品質と制御性を向上させる方法に常に取り組んでいます。私たちは、私たちの研究による進歩を反映した、さらなる商用およびオープンモデルのリリースを楽しみにしています。（Evans 氏）

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。

無料で登録する

「Stable Audio Open」とは一体何なのか？

ファインチューニングで創造性を解き放つ

Members

関連記事