Google DeepMind、事実確認に優れコストを削減する「超人的」AI システムを発表 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Credit: VentureBeat made with Midjourney

Google の DeepMind 研究部門の新しい研究によると、この人工知能は大規模言語モデル（LLM）によって生成された情報の正確性を評価する際、人間の事実確認者よりも優れた性能を発揮するという。

プレプリントサーバー arXiv に掲載された論文「Long-form factuality in large language models (大規模言語モデルにおける長文事実性)」では、Search-Augmented Factuality Evaluator (SAFE) と呼ばれる手法を紹介している。SAFE は大規模な言語モデルを使用して、生成されたテキストを個々の事実に分解し、Google 検索結果を使用して各主張の正確性を判断するのだ。

著者らは次のように説明している。

「SAFE は LLM を利用して、長文の回答を一連の個別の事実に分解し、Google Search に検索クエリを送信し、検索結果によって事実が裏付けられているかどうかを判断するという、複数のステップからなる推論プロセスを用いて、各事実の正確性を評価する」。

「超人的」な性能がもたらす議論

研究者らは、約 1万6,000 件の事実のデータセットを使って、SAFE と人間のアノテーターを対決させたところ、SAFE の評価は 72% の確率で人間の評価と一致したという。さらに注目すべきは、SAFE と人間の評価者との不一致が 100 件あったサンプルでは、SAFE の判断が 76% の確率で正しいと判明したことだ。

論文では「LLM エージェントは超人的な評価性能を達成できる」と主張しているが、一部の専門家は、ここでいう「超人的」とは実際にはどういう意味なのかを疑問視している。

On a quick read I can’t figure out much about the human subjects, but it looks like superhuman means better than an underpaid crowd worker, rather a true human fact checker? That makes the characterization misleading. (Like saying that 1985 chess software was superhuman).…

— Gary Marcus (@GaryMarcus) March 28, 2024

AI 研究者として知られ、大げさな主張を頻繁に批判している Gary Marcus (ゲイリー・マーカス) 氏は X で、この場合の「超人的」とは、「真の人間の事実確認者ではなく、低賃金のクラウドワーカーよりも優れている」ことを意味しているだけかもしれないと示唆した「つまり、この表現は誤解を招くものだ」と彼は言う。

「1985 年のチェスソフトウェアが超人的だと言うようなものだ」。

マーカスの指摘は正当だ。真の超人的なパフォーマンスを実証するためには、SAFE はクラウドソーシングされたワーカーだけでなく、人間の専門家の事実確認者とベンチマークを取る必要がある。人間の評価者の資格、報酬、事実確認プロセスなどの具体的な詳細は、結果を適切に文脈化するために非常に重要だ。

コスト削減とトップモデルのベンチマーク

SAFE の明らかな利点の 1 つはコストだ。研究者らは、AI システムを使用することで、人間の事実確認者よりも約 20 倍安くなることを発見した。言語モデルによって生成される情報量が急増し続ける中、主張を検証する経済的でスケーラブルな方法を持つことは、ますます重要になるだろう。

DeepMind チームは、SAFE を使用して、新しいベンチマークである LongFact で、4 つのファミリー (Gemini、GPT、Claude、PaLM-2) にわたる 13 のトップ言語モデルの事実の正確性を評価した。その結果、一般的に大規模なモデルほど、事実の誤りが少ないことが示された。

しかし、最も性能の高いモデルでさえ、かなりの数の誤った主張を生成したのだ。このことは、不正確な情報を流暢に表現できる言語モデルに過度に依存することのリスクを浮き彫りにしている。SAFE のような自動事実確認ツールは、そのようなリスクを軽減する上で重要な役割を果たす可能性がある。

透明性と人間のベースラインが重要

SAFE のコードと LongFact のデータセットは GitHub でオープンソース化されており、他の研究者が精査し、この研究を基に構築できるようになっているが、この研究で使用された人間のベースラインについては、さらなる透明性が必要だ。クラウドワーカーのバックグラウンドとプロセスの詳細を理解することは、SAFE の能力を適切な文脈で評価するために不可欠だ。

検索から仮想アシスタントに至るまでのアプリケーションのために、ますます強力な言語モデルを開発しようと、大手テック企業が競争する中、これらのシステムの出力を自動的に事実確認する能力は、非常に重要なものになり得る。SAFE のようなツールは、信頼と説明責任の新しいレイヤーを構築するための重要なステップを表しているのだ。

しかし、このような重大な技術の開発は、1 つの企業の壁を越えて、幅広いステークホルダーの意見を取り入れながら、オープンに行われることが重要だ。単なるクラウドワーカーではなく、人間の専門家と比較した厳密で透明性のあるベンチマークは、真の進歩を測るために不可欠となるだろう。そうしてこそ、デマ対策における自動化された事実確認の実世界への影響を測ることができるのだ。

【via VentureBeat】 @VentureBeat

【原文】