Metaが進める「AIによる読唇術」メタバースのアバターにも活用可能な技術（２） - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

潜在的な欠点

（前回からのつづき）AV-HuBERTは、複雑なタスクのための教師なしマルチモーダル技術に対するMetaの投資の拡大を象徴している。同社は最近、Few-Shot Learnerと呼ばれるプラットフォーム上の有害コンテンツに取り組むための新たなマルチモーダルシステムを提案し、ラベルのないデータから音声認識、画像分割、テキストのスタイルコピー、オブジェクト認識を学習するモデルをリリースした。教師ありのシステムとは対照的に、教師なしのシステムはより柔軟で安価に導入することができる。ラベル付きデータセットのラベルは人間のアノテーターが一つ一つ丹念に追加する必要があるからだ。

AV-HuBERTは、学習に必要なラベル付きデータが少ないため、ニジェール・コンゴ語族のスス語のような「低リソース」言語の会話モデル開発の可能性を開くとMetaは主張している。また、AV-HuBERTは、音声障害者のための音声認識システムの構築や、ディープフェイクの検出、仮想現実アバター用のリアルな唇の動きの生成にも有用であると同社は提案している。

しかし、ワシントン大学のAI倫理学者であるOs Keyes氏は、AV-HuBERTには階級や障害にまつわる限界がつきまとうと懸念を表明している。電子メールのインタビューでVentureBeatに次のように指摘した。

「唇と歯の動きから人のスピーチパターンを評価するのであれば、例えば障害の結果、顔のスピーチパターンが歪んでいる人はどうするつもりなのでしょうか。耳が聞こえない方に対して不正確となる可能性の高い音声認識用のソフトウェアを作ろうとするのは、なんとも皮肉なことです」。

Microsoftとカーネギーメロン大学は論文で、AIにおける公平性に向けた研究ロードマップを提案しているのだが、ここで共著者達は、AV-HuBERTに似た顔面分析システムの側面が、ダウン症や軟骨形成不全（骨の成長が損なわれる病気）、特徴ある顔の違いをもたらす他の状態の人々にはうまく機能しないかもしれないと指摘しているのだ。そのようなシステムは、脳卒中を患った人、パーキンソン病、ベル麻痺、自閉症、ウィリアムズ症候群の人たちも同様に失敗するかもしれないと、研究者は指摘している。つまり、彼らは、神経型人間と同じ顔の表情を使わない（あるいは使えない）かもしれないのだ。開発を主導するMohamed氏はこの点についてメールで、AV-HuBERTは唇の動きにのみ着目し、顔全体ではなく唇の動きを捉えていることを強調した。そして多くのAIモデルと同様に、AV-HuBERTの性能は「学習データ中の異なる集団の代表的なサンプルの数に比例する」と付け加えている。

「我々のアプローチの評価には、オックスフォード大学の研究者が2018年に一般公開したTED Talkの動画からなる、一般公開されているLRS3データセットを使用しました。このデータセットには障害を持つ話し手が含まれていないため、予想される性能劣化の具体的な割合はわかりません。しかし、今回新たに提案する技術は、トレーニングデータセットにおける現在の話者分布に制限されるものではありません。より広範で多様な集団をカバーする別のトレーニングデータセットがあれば、かなりの性能向上をもたらすと予測しています」（Mohamed氏）。

Metaは「背景の雑音や話者の重複が当たり前の日常的なシナリオにおいて、オーディオビジュアル音声認識モデルを改善するアプローチのベンチマークとして開発を続ける」と語る。この先、AV-HuBERT（Metaは製品化する予定はないとしている）を英語以外の多言語ベンチマークに拡張する予定だ。

【via VentureBeat】 @VentureBeat

【原文】