Anthropic、AIの安全性向上のためバグ報奨金プログラムを拡大——最大1.5万米ドルを提供

Amazon が支援する AI スタートアップ Anthropic は8日、バグ報奨金プログラムを拡大し、同社の AI システムの重大な脆弱性を特定した場合に最高1万5,000米ドルの報奨金を提供することを明らかにした。この取り組みは、高度な言語モデルのセキュリティテストをクラウドソーシングで行うという、AI 企業によるこれまでで最も積極的な取り組みのひとつである。

このプログラムは「ユニバーサル・ジェイルブレイク」をターゲットにしている。これは、CBRN（化学、生物、放射性物質、核兵器による）脅威のようなリスクの高い領域において、AI の安全ガードレールを一貫して回避する可能性のある手法である。Anthropic は倫理的な次世代安全性緩和システムを一般に展開する前に、倫理的ハッカーを招いて調査してもらう予定だ。その目的は、AI モデルの悪用につながる可能性を未然に防ぐことである。

テクノロジーセキュリティの新境地

この動きは AI 業界にとって重要な局面を迎えている。イギリスの競争・市場庁（CMA）は、競争上の問題があるとして、Amazon の Anthropic への40億米ドルの投資に対する調査を発表したばかりだ。このような背景から規制当局の監視が強化される中、Anthropic は安全性に重点を置いている。その評判を高め、競合他社との差別化を図ることができるだろう。

このアプローチは、他の大手 AI 企業とは対照的だ。OpenAI と Google はバグ報奨金プログラムを実施しているが、通常、AI に特化した脆弱性ではなく、伝統的なソフトウェアの脆弱性に焦点を当てている。Meta は、AI の安全性研究に対して比較的スタンスが閉鎖的だという批判に直面している。Anthropic は、AI の安全性の問題を明確に対象とし、外部からの監視を呼びかけている。この分野における透明性の新たな基準となっている。

倫理的ハッキングと AI の出会い——諸刃の剣？

しかし、バグの報奨金が AI の安全性に関するあらゆる懸念に対処する上で有効かどうかは、依然として議論の余地がある。特定の脆弱性を特定し、パッチを適用することは価値があるが、AI の整合性と長期的な安全性のより根本的な問題には取り組めないかもしれない。AI システムがより強力になるにつれて、人間の価値観に沿ったものであることを保証するためには、広範なテスト、解釈可能性の向上、潜在的に新しいガバナンス構造を含む、より包括的なアプローチが必要かもしれない。

Anthropic のイニシアチブはまた、AI の安全基準の設定における民間企業の役割の拡大を強調している。政府が急速な進歩に追いつくのに苦労している中、テック企業がベストプラクティスの確立を主導するケースが増えている。このことは、AI ガバナンスの未来を形作る上で、企業のイノベーションと公的監視のバランスについて重要な問題を提起している。

より安全な AI のための競争、バグ報奨金は道を切り開くか？

拡大されたバグ報奨金プログラムは、組織とサイバーセキュリティ研究者をつなぐプラットフォーム「HackerOne」と提携し、招待制の取り組みとして開始される。Anthropicは、将来的にプログラムをより広範に公開することを計画しており、AI の安全性に関する業界全体の協力モデルを構築する可能性がある。

AIシステムが重要インフラに連携されるにつれ、その安全性と信頼性の確保はますます重要になっている。Anthropic の大胆な動きは、重要な前進を意味するが、それはまた、ますます強力になる技術の意味合いに取り組む AI 業界が直面する複雑な課題を強調するものでもある。このプログラムの成否は、今後数年間における AI 企業のセキュリティへの取り組み方にとって重要な先例となるかもしれない。

【via VentureBeat】 @VentureBeat

【原文】