
Photo by Gage Skidmore. Used under the CC BY-SA 2.0 license.
大規模言語モデル(LLM)を開発する AI 企業のデータスクレイピング行為を標的にした訴訟は、今日も過熱している。コメディアンで作家の Sarah Silverman氏が、2010年に出版された彼女のユーモラスな回顧録「The Bedwetter」の著作権侵害で OpenAI と Meta を提訴したというニュースがある。
サンフランシスコを拠点とする Joseph Saveri 法律事務所(2022年に GitHub に対しても訴訟を起こしている)が起こしたこの訴訟は、Silverman 氏と他の2人の原告が、彼らの著作権で保護された書籍を OpenAI の「ChatGPT」と Meta の「LLaMA」のトレーニング教材として使用することに同意しておらず、ChatGPT や LLaMA がプロンプトを表示したときに、ツールが著作権で保護された作品の要約を生成するのは、モデルがその作品でトレーニングされた場合にのみ可能なことだと主張している。
著作権とフェアユースをめぐる AI の法的問題
著作権やフェアユースをめぐるこうした法的問題はなくならない。実際、今日の LL Mの核心に関わる問題だ。つまり、学習データである。先週お話ししたように、大量のデータをウェブスクレイピングすることは、間違いなくジェネレーティブ AI のシークレットソースと言える。ChatGPT、LLaMA、Anthropic の「Claude」、Google の「Bard」のような AI チャットボットが首尾一貫したテキストを吐き出すことができるのは、ほとんどがインターネットからスクレイピングされた膨大なデータコーパスで訓練されたからだ。GPT-4の ような今日の LLM の規模がが数千億トークンに膨れ上がるにつれ、データへの渇望も高まっている。
AIのトレーニングという名目でのデータスクレイピング行為は、最近攻撃を受けている。例えば、OpenAI は新たに2つの訴訟を起こされた。一つは、同じく Joseph Saveri 法律事務所が6月28日に起こしたもので、OpenAI が著作権者の同意も得ず、クレジットや補償金も提供せず、書籍のテキストを違法にコピーしたと主張している。もう一つは、Clarkson 法律事務所が十数人の匿名原告を代表して同日提訴したもので、OpenAI の ChatGPT と DALL-Eが プライバシー法に違反してインターネット全体から人々の個人データを収集していると主張している。
これらの訴訟は、1月に提訴された「Andersen ら対 Stability AI」という集団訴訟に続くもので、この訴訟では原告であるアーティストが著作権侵害を含む訴えを提起している。Getty Images も2月に Stability AI を相手取り、著作権および商標の侵害、商標の希釈化を主張する訴訟を起こしている。
Sarah Silverman 氏はもちろん、AI と著作権をめぐる問題に新たなセレブ層を加えることになったが、この新たな訴訟は AI にとって本当は何を意味するのだろうか。以下は私の予測である。
1. これからも多くの訴訟が起こるだろう
先週の私の記事で、Hugging Face の研究者でチーフ倫理サイエンティストの Margaret Mitchell 氏は、AI のデータスクレイピング問題を「振り子の揺れ」と呼び、彼女は以前、年内に OpenAI はこれらのデータ問題のために少なくとも1つのモデルの削除を余儀なくされるかもしれないと予測していたと付け加えた。
確かに、今後も多くの訴訟が起こることが予想される。DALL-E 2 が初めて公開された2022年4月にさかのぼるが、サンフランシスコを拠点とする法律事務所 Orrick のパートナー Mark Davies 氏は、AIとフェアユース(特定の状況下で著作権で保護された作品の無許諾利用を認めることで表現の自由を促進する法理)に関しては、多くの未解決の法的問題があることに同意した。
現実に起きていることは、大きな賭けがあるときには、訴訟を起こすということです。そして、ケースに応じた方法で答えを得るのです。(Davies 氏)
法律事務所 Polsinelli のプライバシー法の専門家 Gregory Leighton 氏は先週、私にこう語った。
OpenAI の訴訟だけでも、他の反発を避けるには十分な火種になっています。我々はまだ大規模言語モデルの時代に入って1年も経っていません。
世界的な法律事務所B aker McKenzie で機械学習と AI の実務を率いる Bradford Newman 氏は昨年10月、私にこう語った。
著作権とフェアユースをめぐる法廷闘争は、最終的に最高裁に持ち込まれる可能性があります。著作権で保護されたデータをLLMのトレーニングデータに使用することがフェアユースにあたるかどうかについては、法的には、今のところ、ほとんど指針がありません。裁判所によって結論は異なり、最終的には、最高裁まで争われることになると思います。
2. データセットはますます精査されるようになるだろうが、それを強制するのは難しい
Silverman 氏の訴訟では、作家らは、OpenAI と Meta が著作権表示やタイトルなどの著作権管理情報を意図的に削除したと主張している。作家らは Meta に対する訴状で次のように主張している。
Meta は、この著作権管理情報の削除が、LLaMA 言語モデルから出力されるすべての出力が著作権を侵害する二次的著作物であるという事実を隠すことによって、著作権侵害を助長することを知っていたか、知る合理的な理由があリました。
作家らの不満はまた、ChatGPT と LLaMA が、Library Genesis や ZLibrary のような「影の図書館」を含む、著作権法を回避する書籍の膨大なデータセットで訓練されたことを推測している。作家らの Meta に対する訴状には次のように書かれている。
これらの影の図書館は、著作権で保護された素材を大量にホストしているため、AI トレーニングコミュニティにとって長い間関心の的でした。そのため、これらの影の図書館は明白に違法です。
しかし、昨年10月の Bloomberg Law の記事では、影の図書館に対して著作権で対抗するには、多くの法的ハードルがあることが指摘されている。たとえば、知的財産権弁護士で Jonathan Band PLLC の創設者 Jonathan Band 氏によれば、サイト運営者の多くはアメリカ以外の国に拠点を置いているという。
(彼らがいるのは)アメリカの著作権法の及ばないところです。理論的には、データベースがホストされている国に行くこともできる。しかし、それには費用がかかるし、その国の裁判所がどれだけ効果的か、あるいはその国に優れた司法制度があるか、命令を執行できる機能的な司法制度があるかなど、さまざまな問題があります。
さらに、著作権で保護された作品を AI のトレーニングに使用した結果、「二次的著作物」になったことを証明する責任は、多くの場合クリエイターにある。昨年11月に「The Verge」に掲載された記事で、ヴァンダービルト大学ロースクール教授の Daniel Gervais 氏は、著作権で保護されたデータでジェネレーティブ AI をトレーニングすることは合法である可能性が高いが、コンテンツを生成することについては必ずしも同じことは言えない、つまり、そのモデルを使って何をするかが侵害になる可能性があると述べている。
また、国際法律事務所 Gunderson Dettmer のパートナー Katie Gardner 氏は先週、フェアユースは著作権侵害に対する抗弁であり、法的権利ではないと私に語った。加えて、どのようなフェアユースのケースでも、裁判所がどのような判断を下すかを予測するのは非常に難しいと彼女は言う。
一見似たような事実関係の2つのケースで、異なる判決が下された判例は数知れずあります。
しかし彼女は、AI を訓練するために著作権で保護された素材を使用することは、そのような使用の変形的性質、つまり元の作品の市場を移植しないことに基づいて、フェアユースになりうると推論する多くの人々を導く最高裁判例があることを強調した。
3. 企業は独自のモデルや補償を求めるだろう
エンタープライズ企業はすでに、AI のトレーニングデータに関連する訴訟のリスクに対処したくないと明言している。彼らは、商用利用においてリスクのない生ジェネレーティブAIコンテンツを作成するための安全なアクセスを求めているのだ。
そこで補償が前面に出てきた。先週、Shutterstock は、企業顧客に対し、同社のプラットフォームにおけるジェネレーティブ AI 画像のライセンスと使用に関する完全な補償を提供し、画像の使用に関連する潜在的なクレームから保護すると発表した。同社は、画像の人間によるレビューを通じて、オンデマンドで補償の要求を満たすと述べた。
このニュースは、Adobe が同様のサービスを発表してからわずか1カ月後のことだった。
もし顧客が権利侵害で訴えられた場合、Adobe は法的防御を引き受け、その請求に対していくらかの金銭的補償を提供します。(Adobe の広報担当者)
また、エンタープライズ MLOps プラットフォーム「Domino Data Lab」の新しい世論調査データによると、データサイエンティストは、ジェネレーティブ AI が今後数年間で企業に大きな影響を与えると信じているが、その力をアウトソースに頼ることはできない。
Domino Data Lab のデータサイエンス戦略責任者 Kjell Carlsson 氏は、データセキュリティの他に、知的財産の保護も問題だと言う。
もしそれが重要で、本当に価値をもたらすものであれば、彼らはそれを所有し、より高度にコントロールしたいと考えるでしょう。
【via VentureBeat】 @VentureBeat
BRIDGE Members
BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。- 会員限定記事・毎月3本
- コミュニティDiscord招待