BRIDGE

特集:音声と言語

特集:音声と言語

音声が大きな市場トレンドになりつつある。例えば著名VC「Andreessen Horowitz」が出資した音声SNS「ClubHouse」に注目が集まる。加えて、自然言語処理技術の進化により、ビジネスシーンでの音声利用も増えてきた。Zoomは文字起こしサービス「Otter」と組み、会議内容のリアルタイム書き起こしサービスの提供を開始した。音声は人が生まれつきもつ、最も自然なインプット手段。この特集では音声関連の話題を紹介していく。

MUGENLABO Magazine

特集:音声と言語の話題

2021年はTwitterが音声SNSを本気でやってきそう

SHARE:

ピックアップ:Twitter acquires social podcasting app Breaker, team to help build Twitter Spaces ニュースサマリー:Twitter4日、ソーシャル・ポッドキャストスタートアップ「Breaker」を買収したと発表している。買収金額などの詳細は明かされていない。同社はSNS型のポッドキャストプラットフォームを展開するスター…

internet connection technology travel
Photo by Solen Feyissa on Pexels.com

ピックアップ:Twitter acquires social podcasting app Breaker, team to help build Twitter Spaces

ニュースサマリー:Twitter4日、ソーシャル・ポッドキャストスタートアップ「Breaker」を買収したと発表している。買収金額などの詳細は明かされていない。同社はSNS型のポッドキャストプラットフォームを展開するスタートアップ。ポッドキャスト配信者を中心としたコミュニティーサービスとして2016年に創業した。

話題のポイント:2020年のまとめとして出した「2020年のスタートアップたち」でも取り上げたように、昨年は音声SNSが大きく台頭した年でした。AirPodsなどのワイヤレスイヤフォンがライフスタイルに溶け込んでその立ち位置を確かなものとしたことがひとつの要因です。

そして、2021年も音声の勢いは止まりそうになさそうです。今回Twitterが買収したBreakerは、友人同士でお気に入りのポッドキャストを見つけ、交流できるSNS機能を備えたコンテンツメディアです。

Twitterがこの領域に参入してきたひとつの背景として、音声SNS「Clubhouse」への対抗が挙げられます。共通の趣味を持つ「メンバー」でルームに入り、おしゃべりをする音声チャット分野は非常に熱を帯びてきており、Twitterもまた「Spaces」という名前で検証中です。こちらの開発チームにBreakerが入ることは明言されており、音声+SNSの知見が同プロジェクトに大いに生かされることになるでしょう。

Breaker

音声SNS機能に加え、ポッドキャスト発見サービスもTwitterが立ち上げれば、Twitterはある意味でSNS要素を軸にした音楽プラットフォームへとシフトすることも考えられます。もしこのような中長期的な戦略があるとすれば、いずれはTwitterとSpotifyが競合するという未来も訪れるかもしれません。

Clubhouseも話題になってからある程度期間が経っているので、2021年には何かしらのアクションがあるはずです。音声市場の全体像を把握するのであれば、今年はTwitter、Clubhouse、そしてSpotifyの動向を注力するとよいでしょう。

共同執筆:「.HUMANS」代表取締役、福家隆

クリエイターの声をAIが自然に翻訳「Papercup」がすごい

SHARE:

ピックアップ:Papercup raises £8M for AI translation ニュースサマリー:AIをベースとしたボイストランスレーションサービスを展開する「Papercup」は総額1,000万ドル(800万ポンド)の資金調達を実施したことを発表している。リード投資家にはLocalGlobeとSands Capiptak Venturesが参加し、Sky、GMG Ventures、E…

ピックアップ:Papercup raises £8M for AI translation

ニュースサマリー:AIをベースとしたボイストランスレーションサービスを展開する「Papercup」は総額1,000万ドル(800万ポンド)の資金調達を実施したことを発表している。リード投資家にはLocalGlobeとSands Capiptak Venturesが参加し、Sky、GMG Ventures、Entrepreneur Firstも同ラウンドに参加している。

話題のポイント:Papercupは世界の動画コンテンツをあらゆる言語で視聴可能なものにすることを目的とした、ロンドンを拠点とする機械学習スタートアップです。例えば次のようなコンテンツを英語・スペイン語の両方で配信したい場合、Papercupを使うと音声翻訳をしてくれます。利用料は1分20ドルのプランか一定の視聴者がいる場合はレベニューシェアが選べます。

英語版(同サービスサンプルから)

スペイン語版(同サービスサンプルから)

YouTubeクリエイターや、Spotifyでポッドキャストコンテンツを配信するクリエイターが、自分と似たような印象のの声で世界各国の言語に翻訳したコンテンツを届けたいと考えるのは至って自然です。YouTubeにも自動生成でキャプションが付く機能はありますが、映像を文字だけで理解しようとすれば体験価値はどうしても落ちてしまいます。

Papercupの技術は映像だけでなく、ポッドキャストのような音声もカバーできるのが音声市場にとってもブレイクスルーとなるでしょう。2021年はこうしたコンテンツの多言語化が新しい一つの音声体験となりそうです。いずれはSpotifyやYouTubeなどのプラットフォームの機能の一つとして、自動リアリスティック翻訳が標準実装されることになるのではと予想しています。

音声市場でいえば、Twitterがソーシャル・ポッドキャストプラットフォーム「Breaker」を買収し、本格的な市場参入を果たしています。また、Amazonがポッドキャスト企業「Wondery」を買収してコンテンツの充実度向上に動いているなど、GAFAと音声の繋がりもさらに強くなる一方、Clubhouseなどスタートアップ新規参入も多くなる1年となりそうです。

共同執筆:「.HUMANS」代表取締役、福家隆

世界で使われることにこだわったHiNativeーーLang-8の喜洋洋氏、1,500万MAU獲得までの道のり

SHARE:

本稿はベンチャーキャピタル、サイバーエージェント・キャピタルが運営するサイトに掲載された記事からの転載 2007年に友人同士で語学を教え合うソーシャルネットワーク「Lang-8」を開始。2012年からは拠点を関西から東京に移し、2014年にサイバーエージェント・ベンチャーズ(現在のサイバーエージェント・キャピタル)からの出資を経て同年11月、語学Q&A「HiNative(ハイネイティブ)」…

Lang-8代表取締役の喜洋洋氏、写真:2018年9月撮影

本稿はベンチャーキャピタル、サイバーエージェント・キャピタルが運営するサイト掲載された記事からの転載

2007年に友人同士で語学を教え合うソーシャルネットワーク「Lang-8」を開始。2012年からは拠点を関西から東京に移し、2014年にサイバーエージェント・ベンチャーズ(現在のサイバーエージェント・キャピタル)からの出資を経て同年11月、語学Q&A「HiNative(ハイネイティブ)」をリリース。

グローバルに利用されるサービスを目指して現在(※)、世界232カ国・113の言語で利用され、月間の利用数は1,500万人のアクティブユーザーを数える。(BRIDGE編集部注:本稿はLang-8代表取締役の喜洋洋氏にスタートアップにおける初期立ち上げについて聞いたインタビュー記事の転載になります。質問はサイバーエージェント・キャピタル編集部、回答は喜氏、です)

※2020年6月時点

このインタビューではサイバーエージェント・キャピタルの出資先のみなさんの成長やカルチャーに焦点を当てて、そのノウハウをお聞きしています。HiNativeは今年6月に1,500万MAUまで成長していますが、元々あったLang-8の次に手掛けた事業ですよね。サービス開発にあたって何か注意したことはありますか

喜:はい、HiNativeはLang-8の次のサービスとして2014年、僕とデザイナーとエンジニアの3人で立ち上げました。当時、シードアクセラレーションプログラムの「Open Network Lab」に採択されていて、そこには日本版「StackOverflow」のQiitaやフリマアプリのFRILL(現・ラクマ)などが在籍していて、彼らがサービスを作る際、ユーザーインタビューを中心に開発を進めていたのを見ていたんです。サービスがまだできる前からユーザーの話を聞きつつ、画面を見てもらいながら進めていた感じでした。

Lang-8から得た気付きとして次の開発に活かしたことはありましたか

喜:実はLang-8の時、色々な機能をごちゃごちゃとつけすぎてしまった反省があったので、HiNativeについては素早い回答をしてもらうということに集中して開発したんです。例えば画面が分かりづらいという意見をもらったらチュートリアルの改善をして対応したり。あと、大切なのは本質的な部分は出してみないと分からないということですね。ただ、当時はこういう質問回答形式のニーズがなかったらピボットしよう、というわけにはいかなかったですけど。

Lang-8のビジョン

世界中のネイティブスピーカーの知と経験の共有

HiNativeの成長過程

2014年11月:HiNativeを開始
2018年05月:500万MAU
2019年12月:1,000万MAU
2020年06月:1,500万MAU

初期のサービス成長はどのような分担で、そして立ち上げの施策はどのようなものでしたか

喜:2014年に開発して、当時はメンバーの人数も少なかったですからそれぞれやることも明確でした。基本的な機能が足りてなかったので開発はそれを追加すること、そして流入についてはLang-8があったので、そちらからの流入とあとは自然流入ですね、こちらで伸ばしていました。

シンプルに広告に資金を投入できるような財務状況じゃなかった、というのもありますが、それ以外にやることが多かったというのが本音です。ただ、2016年に資金調達をしてそこからは意識を変えていきます。

HiNative

喜さんはLang-8での反省として調達した資金の使い方に迷いがあったと過去のインタビューで回答されてました。2014年1月にサイバーエージェント・キャピタルから調達した後、2016年10月に2億円の調達に成功し、2018年9月にはその次のファイナンスに成功されています。資金の使い方と立ち上がり期の成長施策について教えてください

喜:2016年の調達はまだエンジェルラウンドで、個人投資家がメインでした。だから資金はマーケティングというより採用です。ベンチャーキャピタルからの調達がやはり中心の時期でしたから、説得材料を作るのが目的でした。アクセス数やMAU、こういった数字を伸ばすことですね。その後、YJキャピタルさんに6億5000万円を出資してもらったんですが、このタイミングはユニットエコノミクスが見えてきていて、もうすぐ成り立ちそうだ、ということから決めてもらいました。

特にHiNativeの成長を語る上で重要な施策にインフルエンサーを活用したものがありますよね。ちょうど成長グラフの最初の角度が変わったあたりです

喜:はい、2016年のファイナンスのあたりからマーケティングでYouTuberを採用するんですが、まず課金の改善をして、それからですね。たまたま知り合いにYouTubeを使ったマーケティングをしてみたら、ということで紹介してもらったのが始まりです。やってみるとCPAが格段に安くなってしかも再現性がありました。HiNativeと相性がよかったんだと思います。すごくリテンションも高かったので、アルバイトを採用してここを徹底的に伸ばしていきました。

ただ、広告を踏み込むのってそこまで考えてなくて、インフルエンサーマーケティングについてはもう2年前からやっていないです。というのも、やっぱり慣れてくるとCPAって徐々に上がってくるんですね。恐らく取り切ってしまったのだと思います。そこでオーガニックに切り替えてます。

マーケティングで積み上げたユーザーさんが作ってくれた回答がそのままウェブで公開されて、検索流入につながり、そこから入ってきた人たちがまた会員になってくれる、というサイクルです。閲覧する人たちが徐々にダウンロードしてくれるようになるんですね。このぐらいのモデルが回るようになってからマーケティングについては権限移譲を進めて、加速させています。

初期はLang-8のユーザー資産からHiNativeのテスト的な利用を開始し、その後、ファイナンスと共にマーケティングで角度を付けてユーザーがユーザーを生み出すサイクルを作る。その後はオーガニックにSEO中心の施策に移行する、そのような流れということですね

喜:そうですね、(マーケティングも大切ですが)とにかくアプリをよくしていくことばかり考えていました。SEOについても当初は興味がないというか、必要性を感じていなかったんですが、現在は詳しい方に入っていただいて、進めています。これはやるだけ伸びていくので去年は飛躍の年になっています。

これらを支えるチームはどのように作っていますか

喜:今は過去最高に雰囲気がいいですね。特に1on1を導入してから、定期的に設定を細かく共有したり、毎月オンラインで方針を共有しています。僕もみんなからの意見をこれまで聞いていた「つもり」だったのを改善しました。まあ、任せるというと聞こえはいいですが、任せられるモチベーションとスキルの話があるので、モチベーション的にお任せできる方には目標管理までお願いするようになってます。

体験入社を進めていて、エンジニアやデザイナーなどスキルマッチが必要な方については、例えば副業的に土日採用とかを積極的に進めていて、ミスマッチがないか確認してから、コミュニケーションやリファレンスなどを確認して入ってもらうようにしてます。

ありがとうございました。

声が出ずともAIがコマンド検知、サイレントスピーチのAIトレーニングに成功ーーカリフォルニア大学

SHARE:

カリフォルニア大学バークレー校の研究者によると、口や筋肉の動きからサイレントスピーチ(無発声での発話)の内容をセンサーで読み取り、AIをトレーニングすることに初めて成功したそうだ。電極を顔やのどに装着し、EMG(筋電図)を利用してサイレントスピーチを検出する。このモデルは、単語を予測して合成音声を生成する「デジタル音声」と呼ばれるものに焦点を当てている。 この方法によって、声を出して話すことのでき…

カリフォルニア大学バークレー校の研究者によると、口や筋肉の動きからサイレントスピーチ(無発声での発話)の内容をセンサーで読み取り、AIをトレーニングすることに初めて成功したそうだ。電極を顔やのどに装着し、EMG(筋電図)を利用してサイレントスピーチを検出する。このモデルは、単語を予測して合成音声を生成する「デジタル音声」と呼ばれるものに焦点を当てている。

この方法によって、声を出して話すことのできない人々のために多くのアプリケーションを可能にし、音声コマンドに応答するAIアシスタントや他のデバイス用の音声検出をサポートできると研究者らは確信している。

チームの論文は次のように述べている。

デジタル音声によるサイレントスピーチは幅広く応用の可能性をもっています。たとえば、Bluetoothヘッドセットなど、周囲に迷惑をかけることなく電話での会話を可能にするデバイスを作るのに利用できます。そのようなデバイスは、周囲の騒音で声を聞き取れないときや、静粛にしなければならない場面などでも重要な役割を果たすはずです。

この他の例として読唇AIが挙げられる。これはサイレントスピーチから単語を読み取ることができ、監視ツールを強化したり、聴覚障害をもつ人々のユースケースをサポートしたりすることができる。

カリフォルニア大学バークレー校の研究者らはサイレントスピーチの予測に「音声出力ターゲットを音声レコードから同一内容のサイレントレコードへ変換する」というアプローチを使った。次に、WaveNetデコーダを使って音声予測を生成した。

発声ありのEMGデータで訓練されたものをベースラインとすると、このアプローチでは文章の書き起こしにおける単語誤認率が64%から4%へ減少し、エラーは95%減少した。この分野でのさらなる研究を促すため、研究者らは約20時間分の顔面のEMGデータをオープンソース化している。

「Digital Voicing of Silent Speech(サイレントスピーチのデジタル音声化)」モデルに関するDavid Gaddy氏とDan Klein氏の論文は、先週オンライン開催されたEmpirical Methods in Natural Language Processing(EMNLP)のBest Paper賞を受賞した。Hugging Face社はオープンソースのTransformersライブラリに関する取り組みで主催者からBest Demo Paper賞を獲得した。EMNLPの研究としては他に、 アフリカの諸言語を翻訳するオープンソースプロジェクト「Masakhane」のメンバーが低リソースでの機械翻訳に関するケーススタディを発表し、中国の研究者はマルチモーダルなTwitterのデータセットにおいて中傷を検出する最新鋭のモデルを発表した。

【via VentureBeat】 @VentureBeat

【原文】

もはやゲームだけのものではないーー70億ドル評価の「Discord」が得た新たな価値

SHARE:

ピックアップ:Discord is close to closing a round that would value the company at up to $7B ニュースサマリ:オンラインチャットプラットフォームの「Discord」は新たな資金調達ラウンドを間もなく終了する。TechCrunchが関係者の話として報じているもので、今回の調達での価値は最大70億ドルとみられる。6月に行った1…

Image Credit:Discord

ピックアップ:Discord is close to closing a round that would value the company at up to $7B

ニュースサマリ:オンラインチャットプラットフォームの「Discord」は新たな資金調達ラウンドを間もなく終了する。TechCrunchが関係者の話として報じているもので、今回の調達での価値は最大70億ドルとみられる。6月に行った1億ドルでは35億ドルの価値であったため、5ヶ月で2倍の評価を得る。

話題のポイント:2015年5月、Discordはゲーマー向けの音声通話・メッセージングアプリとしてローンチされました。今ではマルチプレーをする際の必需品としてゲーム好きなら知らない人はいない存在となり、コロナの影響もあって2020年の月間アクティブユーザー数は1億2000万人に到達しているそうです。

そんな急成長を遂げるDiscordですが、愛好している筆者自身その役割の変化を感じています。それは、単なるコミュニケーションツールから懐かしく心地よいオンラインのたまり場のような場所になってきているのです。

元々サーバーに招待することでコミュニケーションが始まるDiscordでは、始めるきっかけのほとんどが顔見知りの友人とゲームをするときの通話機能が目当てです。役割として求めるものもSkypeやHangoutと変わりはありません。

それがオンラインでしか知らない友人との待ち合わせ場所になり、同じゲームが好きという共通点しかない人との情報交換の場になり、業界単位で良質で早い情報を交換する場に変わってきています。それまでTwitterでたくさんの人をフォローすることで必死に集めていた業界の流れはもはやなんの苦労もなくDiscordで集められるようになりました。Twitterで発信を繰り返し、影響力がなんとなく強まっているように見える「まやかし」のような数字はそこにはありません。

アニメの聖地である秋葉原に赴くような、中国テクノロジーの聖地深センに赴くような、そんな気持ちにさせてくれるコミュニティがDiscordにはあります。Discordを使わない人の最大の誤解は間違いなく「ゲーム向け」というターゲット設定でしょう。

今年のはじめに35億ドルの評価で1億ドルを調達してから数カ月。今回の調達でさらにコミュニティ向けに洗練されていくDiscordがメンタルを落ち着かせられるオンライン空間を作り上げることに疑いの余地はありません。

タイピングより効率的な音声コーディング「Serenade」の価値ーー病気でもエンジニアとして生きる方法

SHARE:

ピックアップ:Serenade snags $2.1M seed round to turn speech into code ニュースサマリ:音声コーディングアプリを開発する「Serenade」は11月23日、AmplifyPartnersとNeoが主導するシードラウンドで210万ドルの資金調達を公表している。同社は効率を犠牲にすることなく、従来の入力メカニズムに依存しない、よりアクセスしやすい…

Image Credit:serenade

ピックアップ:Serenade snags $2.1M seed round to turn speech into code

ニュースサマリ:音声コーディングアプリを開発する「Serenade」は11月23日、AmplifyPartnersとNeoが主導するシードラウンドで210万ドルの資金調達を公表している。同社は効率を犠牲にすることなく、従来の入力メカニズムに依存しない、よりアクセスしやすい音声によるコード記述方法を提供している。今回の資金はSerenadeチームの強化とプラグインや自動化などの開発強化に使われる予定。

話題のポイント:会話のように自然にOSとしゃべりする。これがSerenadeが生み出す価値です。

Quoraのエンジニアだった共同創業者のMatt Wiethoff氏が同じ動作を繰り返すことで組織損傷や炎症を起こす反復運動過多損傷を発症してコードが書けなくなったことをきっかけに創業されたのが同社だそうです。エンジニアが生産的な開発ができることを前提に作られているため、これまでのディクテーションソフトウェアとは全く異なる新しい音声コーディングアプリと言えます。

ディクテーションソフトウェアはNATOアルファベットを使用して話す必要があったり、単語とキーストロークの独自のマッピングを記憶する必要があったりします。たとえ使いこなせたとしても、ソースコードで発生するすべての文字を口述するのはあまりに面倒です。Pythonで関数を作成するとき「d>e>f>h>e>l>l>o>左括弧>右括弧>コロン>改行>インデント…」と言っていたのでは生産的とは言えません。

Video Credit:serenade

Serenadeの共同創業者Tommy MacWilliam氏はこの音声コーディングアプリが最終的に単なる身体的障害を手助けする救済ツールから飛躍し、コーディングを変えうる発明になるとブログに綴っています。

Ultimately, we don’t think Serenade can be just as fast as typing—we think it can be faster. (Serenadeはタイピングほど開発を速くするとは思いません。もっと速くなると思います)

では具体的に他の音声プログラミングソリューションとはどのように違うのか、特徴をまとめていきます。

コード専用にカスタムモデルした音声テキストエンジン

音声テキスト技術の多くは典型的な会話で訓練されていることがほとんどです。会話の中で「attr」または「enum」と言う頻度を考えれば分かる通り、これはコードには理想的な学習材料とはなりません。一般的なプログラミング構造、変数名、およびプログラミング時に言う他の単語を学習し、編集しているファイルのコンテキストを使用できることさえできます。

たとえば、関数の中に「thebridge」という変数があるとします。コンテキストがない音声テキストエンジンでは一般的な用語でないため「ザブリッジ」という単語を低くランク付けしてしまいます。一方で、コンテキストを使用できるSerenadeでは「ザブリッジ」のように聞こえた言葉が変数である可能性が高いことを知っているため、代替リストのトップにランク付けできます。つまり変数、関数、クラスなどの名前を口にするとき、Serenadeはそれが何を意味するのかを正確に読み取れるのです。

Video Credit:serenade

自然言語でコーディング

たしかに文字ごと単語ごとに口述するのは非効率的で遅いです。それはプログラム言語が自然言語と文法が異なることに起因します。仮に関数の中身を自然言語で構築できるのであれば、口述が日常会話並みの意味伝搬速度を発揮することになるでしょう。

Serenadeは構文や暗記を気にすることなく自然な英語の入力で「create function hello」と言うだけでhello関数を作成できるようになっています。もちろん「クラスの削除」や「パラメータのURLの追加」など既存コードの操作も自然言語に対応しています。

ファイルの上部にある関数を削除したいときには「最初の機能を削除」と言うだけ。関数を書いている最中で、fooという変数を書き忘れていたときには「パラメータfooを追加」と言うだけです。

この機能が改善されていく未来にMacWilliam氏が言う「タイピングを超える効率性」をエンジニアにもたらします。タイピングを完全に置き換える場合でも、キーボードと一緒に使用してワークフローに多様性と柔軟性を導入する場合でも、音声によるコーディングは開発速度の向上に役立つことは間違いなさそうです。

AppleとSONYが買収交渉突入「Wondery」、ポッドキャスト市場に起こる引き抜き合戦

SHARE:

ピックアップ:Apple, Sony both discussed buying podcast network Wondery ニュースサマリー:Podcastコンテンツスタジオ「Wondery」の買収交渉が報じられている。11月前半にFortuneが報じたもので交渉に参加しているのは最大で4社。そのうちの2社はAppleとSonyとされ、両者共に自社コンテンツの拡充に狙いがあるとされている。W…

Image Credit :Wondery

ピックアップ:Apple, Sony both discussed buying podcast network Wondery

ニュースサマリー:Podcastコンテンツスタジオ「Wondery」の買収交渉が報じられている。11月前半にFortuneが報じたもので交渉に参加しているのは最大で4社。そのうちの2社はAppleとSonyとされ、両者共に自社コンテンツの拡充に狙いがあるとされている。Wonderyは2016年創業のスタートアップ。昨年のシリーズBでは1000万ドルを調達し、これまでに合計1500万ドルの資金調達に成功している。また、Crunchbaseによれば同社のバリュエーションは1億ドルから5億ドルの範囲であるとされている。

話題のポイント:北米中心にポッドキャスト配信が当たり前となりつつある今、巨大プラットフォーマーたちによる囲い込み合戦が始まっています。中でも顕著にポッドキャストコンテンツの買収を進めていたのが、Spotifyでした。例えばSpotifyでは、コメディアンのジョー・ローガン氏と1億ドルの専属配信契約したことなどが話題となっています。

Appleにしてみれば強気な囲い込み戦略を進めるSpotifyに対抗し、Apple Musicにおけるポッドキャストのポジショニングを強めたいところです。また、今回のWonderyの買収交渉としては報じられていませんが、Amazonもポッドキャスト配信をAudibleで開始しています。

こうした動きを考えると、ポッドキャストの巨大プラットフォーマーの座を争う「Apple vs Amazon vs Spotify」の構図が浮かび上がってきます。特に3社はいずれもサブスク事業を展開していることから、コンテンツ力を高めてユーザーを引き付ける戦略が有効そうです。Spotifyがコメディアンと大型契約を結んだように、ゲーム配信市場で起きているような有名な配信者の取り合いが始まる可能性は大いに考えられます。

Image Credit : a16z

Andreessen Horowitzが昨年まとめて伝えている、ポッドキャスト市場のデータ分析によれば、米国における1週間当たりの平均的なポッドキャスト利用時間は6時間37分。また、エピソード数に換算すると平均して週に7つのエピソードを消費することを明らかにしています。

巨大プラットフォーマーによる引き抜き合戦によって、コンテンツの質の向上やポッドキャスト機能自体のUXアップデートが進むことになり、より消費しやすい設計に近づいていくのではないでしょうか。

共同執筆:「.HUMANS」代表取締役、福家隆

セールスメールも動画の時代、「Rephrase.ai」が狙う次世代MailChimpの座

SHARE:

ピックアップ:Rephrase.ai raises $1.5M to use synthetic media for personalized sales pitches ニュースサマリー:動画を用いたセールスメールサービスを提供する「Rephrase.ai」は9月にシードラウンドにて150万ドルの資金調達を実施したと発表している。リード投資家にはLightspeed Venture Partne…

Image Credit : Rephrase.ai

ピックアップ:Rephrase.ai raises $1.5M to use synthetic media for personalized sales pitches

ニュースサマリー:動画を用いたセールスメールサービスを提供する「Rephrase.ai」は9月にシードラウンドにて150万ドルの資金調達を実施したと発表している。リード投資家にはLightspeed Venture PartnersとAV8 Venturesが参加した。同社はセールスメールをテキストの代わりに動画を採用し、高水準なコンバージョンを狙うことができるサービスを提供。加えて、アプリ内に動画コンテンツを利用可能なサービスにも着手している。

話題のポイント:動画版Mailchimpの座を狙う「Rephrase.ai」が150万ドルを調達しています。同社はもともと、バンガロールのTechstarsプログラムを2019年に卒業し、今回の調達に至りました。

同社の競合を挙げるとすれば、Sequioaが出資するLoomが挙げられるでしょう。同社では画面の説明を、テキストではなく説明者のウィンドウを付属させることで、リッチなコンテンツを目指しています。

Rephrase.aiでは、ウィンドウ上の人物作成から音声まで全てをGenrative AIを活用し自動生成することが可能な点です(モデルは実際の人間を使用)。ピッチ動画の受け手に合わせて動画内容をパーソナライズ化させるため、背景・人物・音声内容をいくつかのパターンを作って、受け手に合わせた内容に自動編集できます。

ユーザーが配信したいコンテンツ内容に合わせ、人物を選択し、話したいテキストを入力すれば完成なため、労力が全く掛からず動画コンテンツを生成することが可能になっています。また、同社ではアプリ内へのサービス実装をAPIを介して対応しており、例えば英会話アプリのネイティブスピーカー機能を上述したフローに沿うだけで実装することもできてしまいます。

あらゆるコンテンツのリッチ化が求められる中、Rephrase.aiが提供するサービスはtoB向け・toC向けどちらにも適したサービスの可能性を持っているのではないでしょうか。

共同執筆:「.HUMANS」代表取締役、福家隆

自分の声を多言語化する「音声クローン」技術の可能性

SHARE:

2020年は音声クローン分野でサービスの立ち上げが目立ちました。 たとえばウクライナ拠点の「Respeecher」はエンタメ業界向けの音声変換技術を提供しています。Respeecherを使うと、録音音声を事前にAIに読み込ませておいた人の声そっくりに変換することができます。同社は3月に150万ドルを調達しています。 Text-to-Speechではなく、Speech-to-Speech技術を持つの…

Image Credit:Resemble.ai

2020年は音声クローン分野でサービスの立ち上げが目立ちました。

たとえばウクライナ拠点の「Respeecher」はエンタメ業界向けの音声変換技術を提供しています。Respeecherを使うと、録音音声を事前にAIに読み込ませておいた人の声そっくりに変換することができます。同社は3月に150万ドルを調達しています。

Text-to-Speechではなく、Speech-to-Speech技術を持つのがRespeecherです。テキスト内容をAIが読み上げるのではなく、話者のイントネーションや声の抑揚そのままに、変換したい人の声に変えられます。現在はハリウッドの制作会社を顧客に抱えており、声優の音声データを読み込ませておけば以後、低コストにナレーション作業を進めることができるので、高価格帯の声優を雇う必要がなくなります。

Respeecherは同言語同士であれば利用可能であるため、日本語から日本語への変換であれば対応可能(他の言語でも同様)です。AIに学習させるプロセスに3〜4週間かかり、1回の音声変換当たり100万円からの価格帯がネックとなるかもしれませんが、PVを観る限り完成度はかなりのものです。企業価格からコンシューマ価格へと降りてくることは必至であるため、今後の技術進歩に期待です。

また、7月にはAndreessen Horowitzも出資するPodcast向けオーディオ編集ツール「Descript」がOverdub機能をローンチしています。テキスト内容をAI音声に読み上げさせる合成サービスで、Descriptの編集画面をいじりながら、余分な単語を削り、必要な表現だけを自然な音声として読み上げてくれます。GoogleやAmazonのAI音声読み上げとは違い、高精度の読み上げ技術が売りです。

Image Credit:Resemble.ai

ただ、同2社の課題は言語間の壁を指す“Across Launage”を超えられない点にあります。日本語のコンテンツを英語話者として読み上げることは未だできません。これはアクセントの違いがあり、AIに読み上げさせたとしても違和感の残るものとなるためです。この壁を越えようとするのが「Resemble.ai」になります。

10月、Resemble.aiはローカル言語音声AIサービス「Localize」を発表し、自分の声を多言語化させる一歩を踏み出しました(ただし教師データとなる音声は英語ネイティブ)。英語音声をフランス・ドイツ・オランダ・イタリア・スペイン・中国語へと変換することができます。日本語と韓国語も近々ローンチ予定とのこと。

これがスムーズにいけば海外コンテンツが日本ローカライズした形で渡ってくる日は近いでしょう。Podcastコンテンツを世界中の音声プラットフォームに配信するのがデフォルトになるかもしれません。ディープフェイク技術の市場変革はオーディオから始まり動画へと拡大し、PodcastおよびYouTubeのコンテンツ拡散の流れが大きく変わると考えます。プラットフォーム側の動きも変わってきますし、言語別のローカライズ戦略も変わるはず。こうした技術ブレイクスルーをメディア企業が最大限活かせるのか、動向に注目が集まります。

言語を超えるSNS【M2M-100】:100言語対応の機械翻訳、最後のチェックは「人」(4/4)

SHARE:

(前からのつづき)Facebookではネイティブスピーカーのグループが英語以外の20組の言語間での翻訳結果についてクオリティのチェックを行なっている。彼らはM2M-100による翻訳の忠実度を「比較的高い」と評価したが、テキストが意味をなさないようなスラングに対しては直訳する傾向が見られたとしている。また、このモデルはたとえば文章中のコンマ抜けといった文法的な問題によって解釈を誤りがちだということを…

前からのつづき)Facebookではネイティブスピーカーのグループが英語以外の20組の言語間での翻訳結果についてクオリティのチェックを行なっている。彼らはM2M-100による翻訳の忠実度を「比較的高い」と評価したが、テキストが意味をなさないようなスラングに対しては直訳する傾向が見られたとしている。また、このモデルはたとえば文章中のコンマ抜けといった文法的な問題によって解釈を誤りがちだということを発見した。Facebookの研究者はM2M-100に関する論文でこう述べている。

「多くの言語に対して、合理的な翻訳結果が確実に得られるようにするためにはかなりの改善が必要です。たとえばコサ語、ズールー語などのアフリカの言語、カタロニア語、ブルターニュ語などのヨーロッパ言語、イロカノ語、セブアノ語などのアジア言語が挙げられます。これらの多くは、インターネットで得られる単一言語のリソースすら限られており、そのことがトレーニングデータの質と量に大いに影響を与えています」。

確かに、言語モデルはデータセットのバイアスを強化して学習してしまい、暗黙的にバイアスのかかった表現で害を与え続けるという証拠は十分に存在する。MIT、Intelおよびカナダのイニシアチブ「CIFAR」のAI研究者はBERT、XLNet、OpenAIのGPT-2、RoBERTaに高レベルのバイアスを発見している。

Allen Institute for AIの研究者は、現時点の機械学習は有害なアウトプットを十分に防ぐことのできる技量をもっていないと主張し、トレーニングセットおよびモデルアーキテクチャの改善の必要性を強調した。この他にも、GoogleはGoogle Translateの土台となっている翻訳モデルが特にトルコ語、フィンランド語、ペルシャ語、ハンガリー語などのリソースが不足している言語に関してジェンダーバイアスをもつという証拠を発見(そして対処する必要性を主張)した。

M2M-100では潜在的なバイアスを軽減するためにどのようなステップを講じているかという質問に対しFacebook AI研究者のAngela Fan氏はVentureBeatへ次のような回答を寄せている。

「今の研究段階では、モデルの正しい部分と正しくない部分を見極めるテストを行いたいと考えています。具体的には有害な翻訳を防ぐために、不適切な文言のフィルターを使用した研究を行いましたが、正確性が高いという結果は(まだ)得られませんでした・・・。私たちはまだ研究段階にいて、システムをもっと公正なものにしようとしているところです。これがFacebookで未だ稼働させていない理由のひとつです」。

チームは翻訳からジェンダー的な単語を取り除く明確なメカニズムを取り入れていないが、M2M-100が犯したミスの種類を理解するための研究を始めているとFan氏は付け加えた。

「BLEUのスコアだけを見るのではなく、私たちがどれほどうまく翻訳できているかをネイティブスピーカーから教えてもらうことも大切です。全体的にみれば、私たちのモデルは大部分の言語において非常にスコアが高いのですが、ウォロフ語、マラーティー語のような低リソースの言語には改善の余地があります」。

【via VentureBeat】 @VentureBeat

【原文】