AI の次の大きな飛躍は「感情の理解」ーー元 Google DeepMind 研究者が創業 Hume が5,000 万ドル調達

Credit: VentureBeat made with Midjourney V6

3月27日、Hume AI(ヒューム AI) と呼ばれる新しいスタートアップが、EQT Ventures が主導する 5,000 万ドルのシリーズ B ラウンドを完了したと発表した。このラウンドには、Union Square Ventures、Nat Friedman & Daniel Gross、Metaplanet、Northwell Holdings、Comcast Ventures、LG Technology Ventures が参加した。

このスタートアップは、元 Google DeepMind の研究者である Alan Cowen 氏が共同創業者兼 CEO を務めている。Cowen 氏の経歴と、ベンチャーキャピタル業界における AI スタートアップへの全般的な関心の高まりを超えて、一体何がこのような規模のラウンドを可能にしたのだろうか？

Hume AI が他の多数の AI モデルプロバイダーやスタートアップと差別化しているのは、人間の感情を理解し、それに適切に反応し、それをユーザーに伝える AI アシスタントと、他の企業がチャットボットを構築できるそのアシスタントの API、およびその基礎となるデータの一部に焦点を当てていることだ。

ChatGPT や Claude 3 が主にテキストベースのチャットボットとして知られているのとは異なり、Hume AI は音声対話もインターフェースとして使用し、人間のユーザーのイントネーション、ピッチ、ポーズ、その他の音声の特徴だけを聴き取る。

ニューヨーク市に本拠を置き、スコットランドの哲学者 David Hume 氏にちなんで名付けられたこのスタートアップは、「感情知性を備えた初の対話型 AI」と銘打った「Empathic Voice Interface (EVI)」の公開デモも公開した。こちらで実際に試すことができる：demo.hume.ai 。コンピューターやモバイルデバイスを使うかどうかにかかわらず、マイクが正常に動作するデバイスが必要だ。

Meet Hume’s Empathic Voice Interface (EVI), the first conversational AI with emotional intelligence. pic.twitter.com/aAK5lIsegl

— Hume (@hume_ai) March 27, 2024

人間の感情を理解することが、より良い AI 体験を提供するために重要である理由

人間のユーザーと感情を理解した音声対話を行うことは、2024 年の AI アシスタントにとって十分にシンプルなタスクのように思えるかもしれないが、実際には非常に複雑で、ニュアンスに富み、困難な取り組みだ。なぜなら、Hume AI は、ユーザーが「幸せ」「悲しい」「怒っている」「恐れている」といった、文化を越えて普遍的な 5～7 の人間の感情を理解したいだけではないからだ。これらの感情は、心理学博士の Paul Ekman 氏が表情から分類したものだ。

Hume AI は、人間のユーザーのより微妙で、しばしば多次元的な感情を理解しようとしている。同社のウェブサイトには、ユーザーから検出可能な 53 の異なる感情がリストアップされている。

賞賛
崇拝
美的鑑賞
愉快
怒り
いらいら
不安
畏敬
ぎこちなさ
退屈
冷静
集中
困惑
熟考
軽蔑
満足
渇望
欲求
決意
失望
不賛成
嫌悪
苦痛
疑い
エクスタシー
恥ずかしさ
共感的な痛み
熱狂
魅了
羨望
興奮
恐怖
感謝
罪悪感
恐怖
興味
喜び
愛
ノスタルジー
痛み
誇り
気づき
安堵
ロマンス
悲しみ
皮肉
満足感
恥
驚き（ネガティブ）
驚き（ポジティブ）
共感
疲労
勝利感

Hume AI の理論は、人間の感情をより細かく理解し表現できる AI モデルを開発することで、ユーザーにより良いサービスを提供できる。それは、ユーザーの気持ちを聞き、一緒に考える「耳を傾ける存在」としてだけでなく、より現実的で満足のいくカスタマーサポート、情報検索、仲間づくり、知識作業での協力など、多岐にわたる。

Hume AI のスポークスパーソンを通じて送信されたメールで、Cowen 氏は VentureBeat に次のように語っている。

「感情知性には、行動から意図や好みを推測する能力が含まれます。それこそが、AI インターフェースが達成しようとしていることの核心なのです。つまり、ユーザーが何を望んでいるかを推測し、それを実行することです。ですから、感情知性は AI インターフェースにとって最も重要な要件なのです。

音声 AI では、ユーザーの意図や好みの手がかりをより多く得ることができます。研究によると、声の変調や音声のリズム、音色は、言語だけよりも豊かな好みや意図の伝達手段であることが示されています（例えば、https://pure.uva.nl/ws/files/73486714/02699931.2022.pdf を参照）。

声の手がかりを理解することは、感情知性の重要な要素です。それによって、私たちの AI は人間の好みや結果を予測し、いつ話すべきか、何を言うべきか、どのようなトーンで言うべきかを知ることができるようになるのです」。

Hume AI の EVI がどのように声の変化から感情を検出するか

Hume AI の EVI は、ユーザーの声の変調からどのようにユーザーの意図や好みの手がかりを掴むのだろうか？

Cowen 氏によると、この AI モデルは「世界中の何十万人もの人々から得られた制御された実験データ」でトレーニングされたという。同社のウェブサイトでは、「モデルは、大規模で実験的に制御された感情表現データの人間の強度評価でトレーニングされました」と述べられている。

これは、Cowen 氏と同僚が発表した 2 つの科学研究論文、2022年12月の「Deep learning reveals what vocal bursts express in different cultures(ディープラーニングが明らかにする、異文化における声の感情表現)」と今月の「Deep learning reveals what facial expressions mean to people in different cultures(ディープラーニングが明らかにする、異文化における顔の感情表現)」で説明された方法だ。

最初の研究には「米国、中国、インド、南アフリカ、ベネズエラの 1万6,000 人」が参加し、そのうちの一部の人々に、くすくす笑いや「uh huh」などの単語ではない音である「ボーカルバースト」を聞いて録音し、研究者のために感情を割り当ててもらった。参加者はまた、この一部の人々に自分の声のボーカルバーストを録音するよう求められ、別の一部の人々にそれを聞いてもらい、その感情を分類してもらった。

2 つ目の研究には、上記の 5 カ国とエチオピアの 5,833 人の参加者が含まれ、4,659 の表情のデータベースから最大 30 の異なる「シード画像」をコンピュータ上でアンケートに答えてもらった。参加者は、コンピュータ上で見た表情を真似するよう求められ、48 の感情のリストから表情によって伝えられる感情を、1～100 の強度で分類した。下記の動画は、Hume AI が表情の研究で使用した「インド、南アフリカ、ベネズエラ、米国、エチオピア、中国の何十万もの表情と声の爆発音」を示す合成ビデオだ。

Hume AI は、両方の研究の参加者から得られた写真と音声を利用して、独自のディープニューラルネットワークをトレーニングした。

Hume の EVI 自身が、私が行ったインタビューで（ほとんどの対話型 AI アシスタントやチャットボットと同様に、人間ではなく、その答えが常に正確であるとは限らないという免責事項付きで）、「Hume のチームは、これまでに集められた中で最大かつ最も多様な人間の感情表現のライブラリを収集しました。世界中から 100 万人以上の参加者が、あらゆる種類の実生活でのやりとりに参加しているのです」と語った。

Cowen 氏によると、Hume AI の研究の参加者から得られた音声データは、「音声のチューン、リズム、音色を測定し、EVI に組み込まれた音声プロソディモデルを作成するためにも使用され」、最大「48 の異なる感情的意味の次元」を伝えるという。

ここでは、Hume AI の音声プロソディモデルの 25 の異なる声のパターンを使った双方向の例を見ることができる。

音声プロソディモデルは、Hume の EVI オンラインデモサイトの右側のサイドバーに、私が十分に魅力的だと感じた、異なる感情とその割合のバーグラフを親切に表示するために使用されている。

音声プロソディモデルは、企業の顧客がアプリを構築するために使用できる Hume AI の「Expression Measurement API」の一部に過ぎない。Expression Measurement API でアクセス可能なその他の属性には、表情、発声、感情的言語の理解がある。感情的言語は、「書き起こされたテキストの感情的なトーンを 53 の次元に沿って測定する」ものだ。

Hume は、上記の音声アシスタント用の Empathic Voice Interface API（エンドユーザーの音声とマイクのみにアクセスする）と、ユーザーが独自のデータセットに合わせて調整された独自の Hume AI モデルをトレーニングできる「Custom Models API」も提供している。例えば、企業の顧客対応コールの音声や、セキュリティフィードからの表情における人間の感情表現のパターンを認識するなどだ。

倫理的な疑問とガイドライン

では、これらの取り組みは、多額の現金を調達しているスタートアップの創業者以外に、誰の利益になるのだろうか？

Hume AI は2021年に設立されたばかりだが、すでに同社の API とテクノロジーを利用している企業の顧客がいて、Cowen 氏によると、「健康とウェルネス、カスタマーサービス、コーチング/教育技術、ユーザーテスト、臨床研究、デジタルヘルスケア、ロボット工学」にまたがっているという。

スポークスパーソンのメールを通じて送られた声明で、彼は次のように述べている。

「EVI はどんなアプリのインターフェースにもなり得ます。実際、すでに私たちのウェブサイトのインタラクティブなガイドとして使用しています。開発者が私たちの API を使って、ユーザーの日常生活を積極的に改善する方法を見つける、パーソナル AI アシスタント、エージェント、ウェアラブルを構築することに興奮しています。すでに、AI アシスタントから健康とウェルネス、コーチング、カスタマーサービスまで、幅広い製品に EVI を組み込んでいる多くのデザインパートナーと協力しています」。

デモは驚くほど素晴らしいものだったが、私は人々が Hume の EVI に依存したり、不健康な方法で夢中になったりする可能性を感じた。他の人間よりも柔軟で入手しやすい交友関係を提供する可能性があるからだ。また、この種のテクノロジーが、犯罪者、政府機関、ハッカー、軍隊、準軍隊によって、尋問、操作、詐欺、監視、なりすまし、その他の敵対的な行動などの、より暗く、より不吉で、潜在的に有害な目的のために悪用される可能性もある。

この可能性について直接尋ねられた Cowen 氏は、次のような声明を発表した。

「Hume は、社会科学者、倫理学者、サイバー法の専門家、AI 研究者を結集し、共感的 AI の倫理的な使用のための具体的なガイドラインを維持する別の非営利組織である The Hume Initiative をサポートしています。これらのガイドラインは thehumeinitiative.org で公開されており、AI 業界で最も具体的な倫理ガイドラインであり、独立した委員会によって投票されたものです。私たちは The Hume Initiative の倫理ガイドラインを順守し、また私たちの製品を使用するすべての開発者に利用規約で The Hume Initative のガイドラインを順守することを要求しています」。

The Hume Initiative のウェブサイトに掲載されている多くのガイドラインの中には、以下のようなものがある。

「私たちの感情的な行動が、第三者の目的（例えば、購買行動、エンゲージメント、習慣形成など）を最適化する AI への入力として使用される場合、AI は私たちの感情を利用し、操作することを学習する可能性があります。

ユーザーの感情的行動を知る AI は、これらの行動を単なる手段としてではなく、それ自体を目的として扱うべきです。言い換えれば、笑いや怒りなどの感情的行動の発生を増やしたり減らしたりすることは、開発者がユーザーの幸福指標に基づいて積極的に選択すべきであり、第三者の目的を達成するための手段としてアルゴリズムに導入したり、発見されたりすべきではありません。

感情の手がかりを検出するために使用されるアルゴリズムは、幸福と整合性のある目的のみに役立つべきです。これには、エッジケースへの適切な対応、搾取からのユーザーの保護、ユーザーの感情的な気づきと主体性の促進が含まれます」。

このウェブサイトには、操作、欺瞞、「幸福度の低下の最適化」（「心理戦や拷問など」）、「無限の共感的 AI」など、「サポートされていないユースケース」のリストも掲載されている。後者は、The Hume Initiative とその署名者が、「適切な法的および/または技術的制約がない状況で、潜在的な悪意のある者がアクセスできる強力な形態の共感的 AI をサポートしない」ことに同意することを意味する。

ただし、この技術の軍事化は特に禁止されていない。

絶賛の初期反応

Hume の EVI デモに感銘を受けたのは私だけではなかった。資金調達の発表とデモのリリースの後、技術者、起業家、アーリーアダプターなど、多くの人々が、ソーシャルネットワーク X（旧 Twitter）に集まり、そのテクノロジーがいかに自然で高度であるかに対する賞賛と驚きを表明した。

クラウドおよび Web アプリ開発者ソフトウェア企業 Vercel の CEO である Guillermo Rauch 氏は、「これまでに見た中で間違いなく最高の AI デモの 1 つ」と投稿した。

「信じられないほどのレイテンシーと能力です」。

https://twitter.com/rauchg/status/1773046724363186608?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1773046724363186608%7Ctwgr%5E28ca6ecf682cf62331ac6330352285842a29e45e%7Ctwcon%5Es1_c10&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fis-ais-next-big-leap-understanding-emotion-50m-for-hume-says-yes%2F

同様に、先月、非営利の人道的ウェブツール制作会社 InternetActivism.org の創設者兼社長である Avi Schiffmann 氏は、Hume の EVI デモに圧倒されたと書いた。「これはすべてを変えるだろう」と彼は付け加えた。

There's only 2 times I've seen an AI demo that genuinely blew me away.

The first was ChatGPT, the second was whatever @hume_ai just showed me. Holy fuck is this going to change everything

— Avi (@AviSchiffmann) February 1, 2024

OpenAI が ChatGPT で行ったように、他の AI アシスタントやチャットボットも音声対話機能を強化している時期に、Hume AI は人間のような対話性、イントネーション、話し方の質において新たな基準を打ち立てたのかもしれない。

この場合、明らかな潜在的な顧客、ライバル、または買収候補として思い浮かぶのは Amazon だ。Amazon は、Alexa を通じて多くの人々に好まれる音声アシスタントのプロバイダーであり続けているが、社内では音声製品の比重を下げ、その部門の人員を削減すると述べている。

VentureBeat から「Amazon の Alexa と比べて、はるかに優れた音声アシスタントのように思えるので、Amazon などの大手企業とのパートナーシップや買収の話し合いをしたり、アプローチを受けたりしたことはありますか？」と尋ねられた Cowen 氏は、メールで「ノーコメント」と答えた。

【via VentureBeat】 @VentureBeat

【原文】