AI学習源の著作権問題解消には、AIをunlearnさせるのが効果的?——MS研究者ら、ハリポタを例に出し提案

OpenAIの「ChatGPT」、 Metaの「Llama 2」、 Anthropicの「Claude 2」のような大規模言語モデル（LLM）を訓練するために著作権で保護された作品を使用することについて議論が白熱する中、1つの明白な疑問が生じている。

オープンアクセスで査読のないサイト「arXiv.org」に掲載された新しい論文で、共著者の Microsoft Research の Ronen Eldan 氏と Microsoft Azur の Mark Russinovich 氏は、サンプル LLM から特定の情報を消去することで、著作権で保護された作品を守る新しい方法を提案している。要するに、Meta のオープンソース「Llama 2-7B」から、ハリー・ポッターの本の存在（登場人物やプロットを含む）に関するすべての知識を消去するということだ。

2人の Microsoft の研究者は次のように書いている。

モデルの事前学習に184K GPU 時間以上を要しましたが、約1GPU 時間のファインチューニングで、ハリー・ポッター関連のコンテンツを生成したり想起したりするモデルの能力を効果的に消し去ることができました。

この研究は、適応可能な言語モデルへの重要な一歩となる。変化する組織のニーズに応じて、時間をかけて AI を改良する能力は、長期的で企業にとって安全な展開の鍵となる。

魔法の公式

従来の機械学習モデルは、基本的なファインチューニングを通じて知識を追加したり強化したりすることに主眼を置いているが、知識を「忘れる」あるいは「学習解除する」ためのわかりやすいメカニズムは提供していない。（研究者ら）

彼らは LLM の特定情報の学習解除を近似的に行う3つの技法を開発した。

まず、ターゲットデータ（ハリー・ポッターの本）に対してモデルを訓練し、ベースラインモデルと予測値を比較することで、それに最も関連するトークンを特定した。

第二に、ハリー・ポッター独特の表現を一般的な表現に置き換え、その訓練なしでモデルに近似した代替予測を生成した。

第三に、これらの代替予測でベースラインモデルを微調整し、文脈を促したときに元のテキストを記憶から効果的に消去した。

評価するために、彼らは300の自動生成プロンプトを使い、トークンの確率を調べることで、ハリー・ポッターのコンテンツを生成したり、議論したりするモデルの能力をテストした。Eldan 氏と Russinovich 氏が述べているように、「我々の知る限り、これは生成言語モデルにおける学習解除のための効果的なテクニックを提示した最初の論文だ」。

その結果、オリジナルのモデルはハリー・ポッターの複雑なプロットの詳細を簡単に議論できたが、彼らのテクニックを1時間ファインチューニングしただけで、「モデルはハリー・ポッターシリーズの複雑な物語を本質的に忘れることができる」ことがわかった。ARC、BoolQ、Winogrande のような標準的なベンチマークでの性能は、ほとんど影響を受けていないという。