OpenAI「Sora」が抱える厄介な問題：悪魔は「詳細なデータの中」に宿る - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

OpenAI の CTO、Mira Murati 氏にとって、昨日（訳註：原文掲載日は3月14日）の Wall Street Journal の個人テクノロジーコラムニスト Joanna Stern 氏との独占インタビューは大当たりのはずだった。

先月デモで披露され、数カ月以内に公開される可能性があると Murati 氏が言った OpenAI のテキスト動画モデル「Sora」のクリップは「私たちを驚かせるのに十分だった」が、同時に愛らしさや安心感で私たちを笑顔にさせるほど「無難」な仕上がりだったからだ。

しかし、インタビューは約4分24秒あたりで一変する。

というのもStern 氏は Murati 氏に、 Sora の訓練に使用されたデータについて尋ねたからだ。Murati 氏の答えは「公に利用可能でライセンスを取得したデータを使用した」というものだった。しかし、後に7月に発表された6年間のトレーニングデータ契約の一環として Shutterstock のコンテンツを使用したことを確認したものの、Sora が YouTube、Facebook、Instagram の動画で訓練されたかどうかについての Stern 氏の鋭い質問に苦戦した。

「データの詳細には踏み込まない」

YouTube について尋ねられると、Murati 氏は顔をしかめて「実際のところ、それについては確信がない」と言った。Facebook と Instagram についてはどうだろう？最初は、動画が公に利用可能であれば、「あるかもしれない」が、「確信がない、自信がない」と言葉を濁し、最終的には「使用されたデータの詳細には踏み込まない。ただし、公に利用可能なデータ、またはライセンスを取得したデータだった」と言って、話を打ち切った。

多くの PR 担当者は、このインタビューを PR の傑作とは考えていないだろう。そもそも、OpenAI が現在直面している最大のNewYork Timesが提起した訴訟を含む著作権関連の訴訟があるのだから、Murati 氏が詳細を提供するはずがなかった。

OpenAI が YouTube の動画を使って Sora を訓練したと信じるかどうかは別として（The Information は2023年6月に、OpenAI が「サイトのデータを密かに使用して一部の人工知能モデルを訓練していた」と報じていることを覚えておこう）、多くの人にとって、本当に「悪魔は詳細なデータの中」に宿っているのだ。生成 AI の著作権をめぐる争いは1年以上前から燻っており、作家、写真家、芸術家から弁護士、政治家、規制当局、企業に至るまで、多くの利害関係者が Sora やその他のモデルを訓練したデータを知りたがっており、それらが本当に公に利用可能で、適切にライセンスされているかどうかを調べたいと考えている。

これはOpenAIだけの問題ではない

訓練データの問題は、単に著作権の問題だけではない。信頼と透明性の問題でもある。例えば、OpenAI が「公に利用可能な」 YouTube やその他の動画で訓練を行ったとして「社会」がそれを知らなかったとしたら、それはどういう意味なのだろうか。そして、たとえ法的に許容されたとしても、公衆はそれを理解しているだろうか？

OpenAI だけの問題でもない。どの企業が動画モデルの訓練に一般に共有されている YouTube 動画を確実に使用しているのか。間違いなく、それは YouTube を所有している Google だ。そして、どの企業がモデルの訓練に Facebook や Instagram で一般に共有されている画像や動画を確実に使用しているのか？ Facebook と Instagram を所有する Meta は、そのようなことを行っていることを確認している、社会は本当にそれを認識しているのだろうか？

最後に、これは主要な AI 企業とそのクローズドモデルだけの問題ではない。訓練データの問題は、2023年8月に私が、米国の裁判所だけでなく世論の裁判所でも清算の対象になる可能性があると言った、生成 AI の基本的な問題なのだ。その記事で私は次のように記述している。

「つい最近まで、LLM が膨大な量のデータを処理してテキストや画像を出力できるようにした（この習慣は、おそらく2009年にプリンストン大学助の Fei-Fei Li 教授による ImageNet のリリースに始まった）何百ものデータセットに含まれるクリエイティブな作品の多くにどのような影響を与えるかを、AI コミュニティ以外ではほとんど深く考えられていなかった」。

ヒューマンデータの商業的未来

もちろん、データ収集には長い歴史がある。ほとんどがマーケティングや広告のためだ。少なくとも理論的には、それはある種の give and take（プライバシーを爆発させる何兆ドルもの事業にデータブローカーやオンラインプラットフォームが変えてしまったことは明らかだが）に関するものだった。企業にデータを提供すれば、その見返りに、より個人に合わせた広告、より良い顧客体験などが得られる。Facebook に対価を払わなくても、その代わりにデータを共有すれば、マーケターはフィードに広告を表示できる。

大規模モデル向けに自発的に提供されるのではない生成 AI トレーニングデータに関しては、理論的にも同じような直接的な交換はない。実際、多くの人は真逆のことを感じている。生成 AI モデルは彼らの作品を「盗んだ」り、彼らの仕事を脅かしたり、ディープフェイクや「スロップ」のコンテンツ以外に注目すべきことをほとんどしていないと。

多くの専門家が私に説明してくれたように、モデルを改良する上でよく整理され、文書化されたトレーニングデータセットには非常に重要な位置づけがあり、そうした人々の多くは、公に利用可能な大規模なデータの集合体は適正な対象であると信じている。

しかしこれは裏を返せば、ますます閉鎖的で秘密主義的になっているエコシステムの中で、モデルがどのように機能するかを研究者が理解していることを意味している。

一方でそれについて教育を受けるようになると、人々は自分たちが投稿した YouTube の動画、共有した Instagram のリール、「公開」に設定した Facebook の投稿が、すでにビッグテックに大きな利益をもたらしている商用モデルの訓練に使用されているという事実を受け入れるだろうか？

Sora のモデルが、スポンジ・ボブの動画や10億本の一般公開されている誕生日パーティーのクリップで訓練されていたことを知ったら、Sora の魔法は大幅に薄れるだろうか。

そうではないかもしれない。時間が経てば、もっと違和感が薄れるかもしれない。OpenAI などは、自分たちが考える「AGI」に到達するために突き進む中、「社会」の意見をそれほど気にしないのかもしれない。開発者や、非消費者向けのオプションを使用する企業の獲得に、より重点を置いているのかもしれない。消費者はデータのプライバシーをめぐる問題にとっくに諦めていると考えているのかもしれないし、そう考えるのは正しいのかもしれない。

しかし悪魔は「詳細なデータの中」に宿り続ける。OpenAI、Google、Meta などの企業は短期的には有利かもしれないが、長期的に見れば、今日の AI トレーニングデータをめぐる問題が、最終的に悪魔との取引になってしまうのではないかと私は疑問に思う。

【via VentureBeat】 @VentureBeat

【原文】