
OpenAIの「ChatGPT」、 Metaの「Llama 2」、 Anthropicの「Claude 2」のような大規模言語モデル(LLM)を訓練するために著作権で保護された作品を使用することについて議論が白熱する中、1つの明白な疑問が生じている。
オープンアクセスで査読のないサイト「arXiv.org」に掲載された新しい論文で、共著者の Microsoft Research の Ronen Eldan 氏と Microsoft Azur の Mark Russinovich 氏は、サンプル LLM から特定の情報を消去することで、著作権で保護された作品を守る新しい方法を提案している。要するに、Meta のオープンソース「Llama 2-7B」から、ハリー・ポッターの本の存在(登場人物やプロットを含む)に関するすべての知識を消去するということだ。
2人の Microsoft の研究者は次のように書いている。
モデルの事前学習に184K GPU 時間以上を要しましたが、約1GPU 時間のファインチューニングで、ハリー・ポッター関連のコンテンツを生成したり想起したりするモデルの能力を効果的に消し去ることができました。
この研究は、適応可能な言語モデルへの重要な一歩となる。変化する組織のニーズに応じて、時間をかけて AI を改良する能力は、長期的で企業にとって安全な展開の鍵となる。
魔法の公式
従来の機械学習モデルは、基本的なファインチューニングを通じて知識を追加したり強化したりすることに主眼を置いているが、知識を「忘れる」あるいは「学習解除する」ためのわかりやすいメカニズムは提供していない。(研究者ら)
彼らは LLM の特定情報の学習解除を近似的に行う3つの技法を開発した。
まず、ターゲットデータ(ハリー・ポッターの本)に対してモデルを訓練し、ベースラインモデルと予測値を比較することで、それに最も関連するトークンを特定した。
第二に、ハリー・ポッター独特の表現を一般的な表現に置き換え、その訓練なしでモデルに近似した代替予測を生成した。
第三に、これらの代替予測でベースラインモデルを微調整し、文脈を促したときに元のテキストを記憶から効果的に消去した。
評価するために、彼らは300の自動生成プロンプトを使い、トークンの確率を調べることで、ハリー・ポッターのコンテンツを生成したり、議論したりするモデルの能力をテストした。Eldan 氏と Russinovich 氏が述べているように、「我々の知る限り、これは生成言語モデルにおける学習解除のための効果的なテクニックを提示した最初の論文だ」。
その結果、オリジナルのモデルはハリー・ポッターの複雑なプロットの詳細を簡単に議論できたが、彼らのテクニックを1時間ファインチューニングしただけで、「モデルはハリー・ポッターシリーズの複雑な物語を本質的に 忘れることができる」ことがわかった。ARC、BoolQ、Winogrande のような標準的なベンチマークでの性能は、ほとんど影響を受けていないという。
「エクスペリアームス!(武装解除の術)」への期待
著者らが指摘するように、彼らの評価手法には限界があるため、さらなる検証が必要である。また、フィクションの世界にはより多くのユニークな参考文献が含まれているため、彼らの手法はノンフィクションよりもフィクションのテキストに効果的かもしれない。
しかし、この概念実証は、将来より責任感があり、適応性があり、法律に準拠した LLM を作成するための基礎的なステップ “を提供するものである。著者らが結論づけているように、さらに改良を加えれば、倫理的ガイドライン、社会的価値観、あるいは特定のユーザーの要求に対応することができるだろう。
研究結果を要約して、著者らは次のように述べている。
我々の手法は有望なスタートを切ったが、さまざまなコンテンツタイプへの適用性はまだ十分に検証されていない。提示されたアプローチは基礎を提供するが、LLM におけるより広範な学習解除タスクのために方法論を洗練し、拡張するためにはさらなる研究が必要です。
今後、選択的忘却のより一般的で強固な技術は、時間の経過とともにニーズが変化しても、AI システムがビジネスや社会の優先事項に動的に合致し続けることを保証するのに役立つだろう。
【via VentureBeat】 @VentureBeat
BRIDGE Members
BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。- 会員限定記事・毎月3本
- コミュニティDiscord招待