自身の作品がAIの学習に盗用されるのを防止、AIに〝毒〟を食わせられるツール「Nightshade」

約1年前に「ChatGPT」が登場して以来、ジェネレーティブ AI の時代は一気に加速しているが、その一方で反対勢力も存在する。

多くのアーティスト、芸能人、パフォーマー、そしてレコード会社までもが AI 企業を相手取り訴訟を起こしており、中には ChatGPT のメーカー OpenAI を相手取ったものもある。こうした訴訟は、これらの新しいツールの背後にある秘訣、すなわちトレーニングデータに関するものだ。つまり、これらの AI モデルは、大量のマルチメディアにアクセスし、そこから学習することなしには機能しないということだ。その中には、何の予備知識も持たず、自分たちの作品が新しい商用 AI 製品のトレーニングに使われることに反対する機会も与えられなかったアーティストが制作した文章や画像も含まれている。

これらの AI モデルのトレーニングデータセットの場合、その多くは Web からスクレイピングされた素材を含んでいる。以前は、検索結果のインデックスを作成するために使用されていたため、アーティストたちはこのやり方を支持していたが、現在では、AI によって競合する作品を作成することができるため、多くのアーティストが反対している。

しかし、訴訟を起こさなくても、アーティストにはテクノロジーを使ってAIに反撃するチャンスがある。MIT Technology Review は、「Nightshade」という開発中の新オープンソースツールを独占取材した。このツールは、アーティストが Web にアップロードする前に画像に加えることができ、人間の目には見えない方法でピクセルを変更する。

Nightshade の由来

Nightshade は、シカゴ大学の研究者でコンピュータサイエンスの教授 Ben Zhao 氏によって開発され、先行製品「Glaze」のオプション設定として追加される。

Nightshade の場合、AI に対するアーティストの反撃はもう少し進んでいる。

例えば、研究者たちは犬の画像に毒を塗り、AI モデルには猫に見えるような情報をピクセルに含ませた。

たった50枚の毒入り画像サンプルをサンプリングして学習させたところ、AI は奇妙な足や不穏な外見をした犬の画像を生成し始めた。

毒のサンプルが100個になると、ユーザが犬を要求しても確実に猫を生成するようになった。300回を超えると、猫のリクエストには完璧に近い容姿の犬が返されるようになった。

毒が滴り落ちる

研究者たちは、オープンソースのテキストから画像を生成するモデル「Stable Diffusion」を使って Nightshade をテストし、前述の結果を得た。

概念的に類似した単語やアイデアを「埋め込み」として知られる空間的なクラスターにグループ化するという、ジェネレーティブ AI モデルが機能する方法の性質のおかげで、Nightshade は「ハスキー」「子犬」「オオカミ」という単語でプロンプトが出されたときに、Stable Diffusion をトラックして「猫」を返却することに成功した。

さらに、Nightshade のデータポイズニング技術は防御が難しく、AI モデル開発者は〝毒入りピクセル〟を含む画像を除外する必要がある。

AI のトレーニング用データセットにすでに取り込まれた毒入り画像も検出・除去する必要がある。AI モデルがすでに毒画像でトレーニングされている場合は、再トレーニングが必要になるだろう。

研究者らは自分たちの研究が悪意のある目的に利用される可能性があることを認めているが、MIT Tech Review の記事は彼らの研究について次のように述べている。