
サマリー:VentureBeatの寄稿コラムとしてRare Connections社の創業エンジニア、Matthew Duffin氏が記述するAIの「アンラーニング」または「忘却」に関するものがあった。これはAIが情報を忘れることの重要性、それを実現するための技術的な課題、およびその進行状況について説明している。
話題のポイント:マシンアンラーニングは、特定のデータセットの影響をMLシステムから消去するプロセスを指す。記事では2015年にマシンアンラーニングに関する初めての言及があり、その後も研究が進行しているとしている。Googleも6月に「Announcing the first Machine Unlearning Challenge」を発表し、取り組みの輪を広げようとしている。
背景:Zoomが3月に規約を変更したことで、オンラインミーティングの内容がトレーニングに使われるのでは、という懸念がHacker Newsを中心に広まった。これを受けて同社では利用規約を更新し、現在、顧客のデータがZoomまたは第三者のAIモデルのトレーニングに使用されていないことを明確にした。これ以外にもOpenAIによるデータの取り扱い論争や、MidjourneyやStability AIによる無秩序なデータトレーニングは度々問題になってきている。
- 一方、機械学習(ML)モデルが情報を忘れることも難しい。例えばこれらのアルゴリズムが古いデータ、不正確なデータ、あるいはプライベートなデータで学習された場合、ゼロから学習しなおすには数百万ドルの予算が必要になると記事では指摘している。
- こういった状況で、情報を効率的に「忘れる」MLシステムの必要性は、企業にとって最重要となってきている。
どうすればいいのか:記事ではマシン「アン」ラーニングの概要について記述している。
- マシンアンラーニングは、特定のデータセットの影響をMLシステムから消去するプロセス。データセットに問題が生じた場合、そのデータセットを変更または削除するのが一般的。しかしMLモデルは基本的にブラックボックスで、訓練中に特定のデータセットがモデルにどのような影響を与えたかを特定することは難しい。
- 問題のあるデータセットを特定し、それを除外してモデルを最初から再訓練するのが最も簡単な方法。この方法は現在最も簡単ではあるが、非常に高価で時間がかかる。
- マシンアンラーニングの目的は、悪いデータを忘れつつも、高い効率でユーティリティを保持すること。
- いくつかの研究では、モデルの性能に最小限の悪影響を与えつつ、特定のデータをモデルから削除する方法が提案されている。
- 効率性、標準化、有効性、プライバシー、互換性、スケーラビリティなど、マシンアンラーニングアルゴリズムが直面するいくつかの課題と制限。これらの課題を解決するためには、AI専門家、データプライバシー弁護士、倫理学者などの異分野のチームの協力が必要。
今後:かつて紡績が蒸気機関を生み出し、人々の働き方や社会構造そのものを変えていったように、ジェネレーティブAIが新たな産業革命のツールとして大きな変化をもたらすのは疑う余地がない。それだけに問題があった時に「忘れる」という機能がいかに実装されるかはとても重要な要素になりそうだ。
BRIDGE Members
BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。- 会員限定記事・毎月3本
- コミュニティDiscord招待