音声AIのElevenLabs、「Audio Native」をローンチ——スニペット挿入でwebサイト読み上げ＆聴衆分析可能に

一部のウェブページの上部に表示される「この記事を聞くにはここをクリックしてください」という音声スニペットは、視覚や読解力に問題のある人、そして、ペースの速い現代社会ではますます時間のない人にとって非常に便利だ。

音声 AI のスタートアップ ElevenLabs は先日、「Audio Native」を発表し、この市場に参入しようとしている。この埋め込み可能なオーディオプレーヤーは、同社の音声合成技術によってウェブページのコンテンツを自動的にナレーションする。

A few articles currently featuring Audio Native…

The New Yorker: https://t.co/tAFwV7z8JE

Ben's Bites: https://t.co/qCrKeP0JIA

Our blog: https://t.co/9w7QFbWS73

— ElevenLabs (@elevenlabsio) May 17, 2024

これは、ElevenLabs が継続的に提供している機能の最新のものだ。創業2年のユニコーンはまた、ウェブページや文書のテキストを11種類の音声で読み上げることができる「ElevenLabs Reader」をリリースした。同社のモデルは29カ国語を話し、長編映画の吹き替えや、プロンプトを曲の歌詞に変えることもできる。

新しい Audio Native は月額11米ドルの〝クリエイター層〟に提供され、このツールには、視聴者のエンゲージメントを追跡できる内蔵のメトリクスとリスナーダッシュボードも備わっている。

同社は X （旧Twitter）で、自社のブログ、bensbites.com の「SEO のための AI 利用入門（an intro to using AI for SEO）」、2023年11月の New Yorker の記事「アメリカの国家安全保障上の脅威はすべて海外にあるわけではない（Not all of America’s national-security threats are overseas）」など、同社の機能を利用したウェブページを紹介している。ElevenLabs は、The Atlantic や New York Times にも採用されている。

ElevenLabs の Sam Sklar 氏はブログ投稿に次のように書いている。

カスタマイズ可能で、設定も簡単で、世界中の読者（およびリスナー）がコンテンツにアクセスできるようにしながら、読者のエンゲージメントを促進するのに役立ちます。

HTML の〝短いスニペット〟でウェブサイトを音声対応に

Audio Native のユーザは、既存のプロジェクトや ElevenLabs の API 経由で、サイトに音声を埋め込んで自動的に音声対応にすることができる。

ElevenLabs によると、ウェブサイトのコンテンツを音声対応にするには、HTML の「簡単なスニペット」を提供する必要がある。自分のウェブサイトのドメインを「allow」リストに追加し、音声を選択し（おそらく同社の既存の11のパーソナリティから）、プレーヤーの背景とテキストの色をカスタマイズし、埋め込みコードをウェブサイトにコピー＆ペーストする必要がある。

オプションの発音辞書は、ブランド特有の言葉の言い回しを指定することができる。このモデルは、デフォルトではページ上のすべてのテキストコンテンツのボイスオーバーを作成するが、これは CSS セレクタでカスタマイズできる。

この新機能は現在、React、Squarespace、WordPress、Ghost、Webflow、Framer をサポートしている。

初期のユーザは、このツールを「かっこいい」「素晴らしい」と呼び、他のユーザはアクセシビリティの向上に役立つと宣伝している。

Nice! The demand for this is huge, I bet this will perform well. Keep up the groundbreaking work, ElevenLabs! 💪

— Michael Parrish (@thequotedog) May 17, 2024

Whoa, you all are crushing it with all these new features! 💥🦾

— Tom Blake (@Iamtomblake) May 17, 2024

おそらくソーシャルへの投稿から推測するに、ElevenLabs は今後もその機能拡張を続けるつもりなのだろう。X 上で Audio Native を発表したスレッドでは、あるユーザがこう尋ねている。

RSS フィードをくれませんか？そうすれば、書かれたコンテンツからポッドキャストを作ることができる？

これに対し、ElevenLabs のグロース責任者 Luke Harries 氏はこう答えた、

素晴らしいアイデアだ。

Great idea, sharing with the team

— Luke Harries (@LukeHarries_) May 17, 2024

2022年に設立され、評価額11億米ドルを謳う ElevenLabs は、元グーグルのエンジニア Piotr Dabkowski 氏と元 Palantir Technologies の展開ストラテジスト Mati Staniszewski 氏によって設立された。直近の資金調達ラウンドは、1月の8,000万米ドルだった。

同社は、Speechify、Deepgram、Voicemod、Murf、LiSTNR、LOVO といったプレーヤーと並んで、競争が激化する市場で革新を進めている。しかし、世界の AI 音声クローニング市場規模は2032年までに162億米ドルに達すると予想されており、2023年からの年平均成長率（CAGR）は28％近くに達するため、十分な機会があることは間違いない。

注目すべきは、ElevenLabs が HarperCollins Publishers と提携し、AI が生成したオーディオブックを制作していることと、ユーザがクローン音声を販売できるマーケットプレイスを立ち上げたことだ。しかし、同社はまた、特に音楽生成能力に関して、批判を浴びている。具体的には、モデルを訓練するために著作権で保護された素材を使用したかどうかであり、最近ますます論争の的になっている。

【via VentureBeat】 @VentureBeat

【原文】