人かAIか、判別テストの結果はーーChatGPT時代のテストツール(2)

SHARE:

Open AIの新しい判別ツール

(前回からのつづき)OpenAIは最近のブログで、人間が作成したテキストと様々なAIシステムが生成したテキストを区別できる新しい判別ツールを公開した。しかし、このツールは現段階では完全に信頼できるものではないことを認めている。

すべてのAIが書いたテキストを検出することは不可能かもしれないが、優れた分類であれば、AIの生成を示唆する指標を特定できると研究者は考えている。その投稿によると、このツールは学歴詐称のケースやAIチャットボットが人間を装っている場合に役立つ可能性があるという。

新しい判別ツールは、AIが書いた英文の26%を正しく識別したが、9%の確率で、人間が書いた文章もAIツールで生成された可能性が高いと誤認したという。OpenAIは、このツールの信頼性は一般的に入力テキストの長さに応じて高くなると説明する。1,000文字より短いテキストでは信頼性が低く、一部の人間が書いたテキストをAIが書いたと誤認する可能性があるという。

このツールは、英語のテキストにのみで使用することが推奨されており、コードのチェックには適していない。OpenAIは本ツールを主要な判断材料とするのではなく、他の方法と併用してテキストの出典を判断するよう注意を促している。各文書は、AIが生成したものであれば「非常に可能性が低い」「可能性が低い」「不明確」のいずれかのラベルが貼られる。

正直なところ、マクベスを「AIが生成した」と見なすプラットフォームにはあまり期待していなかったが、結果は期待以上だった。まず、ウィリアム・シェイクスピアの「The Tempest」は、AIによるものである可能性は「非常に低い」、つまり人間が作ったものであると判断された。

2回目の実行では、ChatGPTが書いた記事をプラットフォームに提供したところ、テストがAIによって生成された「可能性が高い」と正確に指摘した。

最後のテストでは、2つのAIツールを同時に使うことで、プラットフォームを騙そうと試みた。ChatGPTが書き、Quillbotが言い換えを行う。ここでも、結果はある程度正確であった。今回、判別ツールはこのテキストを「おそらく」AIが作成したものとみなしたが、これは人間の介入があったということで問題ないだろう。

Content at Scale

2021年に設立されたコンテンツ自動化プラットフォームのContent at Scaleは「AI Detector」を立ち上げ「一般的なAI判別ツールよりも深いレベルで動作し、ロボット的な音のコンテンツを検出する」と謳っている。

興味深いのは、同社がこのツールをどのように位置づけているかということだ。同種のツールとは異なり、自由に利用できるAI Detectorは、Content at Scaleの主力コンテンツジェネレーターを購入するための第一歩として位置づけられており、3つのAIコンポーネントで多層を叩き、「検出不可能な」AI生成コンテンツを生成すると謳っている。

NLP、セマンティック分析アルゴリズム、SERPパーシング機能という3つのAIコンポーネントにより、複数のレイヤーを利用することで「検出不可能な」コンテンツを生成するのだ。彼らの言葉を借りれば、「AIコンテンツの検出を回避するほど人間らしい」ということになる。

何はともあれ、本記者はAI Detectorを試してみたが、結果は不満足なものであった。

まずシェークスピアの「真夏の夜の夢」(ご存知の通り、これは人間が書いたものだ)でテストしたところ、このプラットフォームはほとんどの場合正しい結果を返した。奇妙なことに、AIが生成した可能性がある事例がいくつか指摘されたが、この場合はそうではなかった。

2つ目のテストでは、ChatGPTが書いた記事をプラットフォームに提供したが、失敗だった。この記事の執筆に人間の介入はなかったにもかかわらず、プラットフォームはこの記事に83%のヒューマンコンテンツスコアを付けたのだ。

3回目のテストは必要ないとは思うが、同じ記事を別のAI搭載ソフトウェア(QuillBot)で言い換え、AI Detectorにもう一度挑戦してみた。ポジティブな面では、ヒューマンコンテンツスコアが75%に低下し、AIの介入を示唆する結果を得た。

Copyleaks AI

コネチカット州スタンフォードを拠点とする剽窃防止ソフトウェア会社Copyleaksは最近デジタルコンテンツが人間によって書かれたものか、ChatGPTを含むAIによって生成されたものかを検出するために設計されたエンタープライズソリューションで製品ポートフォリオを拡張した。

このプラットフォームは、99.12%の精度を謳っており、さらにエンタープライズレベルのLMSとAPI統合機能により、教育機関や企業が自社のネイティブプラットフォームにAI Content Detectorを追加することができる。また、多言語検出も大きな特徴で、英語、ドイツ語、スペイン語、フランス語、ポルトガル語に対応している。また、ソーシャルメディア、ニュース記事、消費者レビューなど、インターネット上のコンテンツの検証を支援するAI Content Detector Chrome拡張機能も提供している。

テスト候補の中で、このプラットフォームは最も高い精度を示した。ヒューマンコンテンツのテストでは、テキストが人間によって書かれたものであることを正確に検出したのだ。同様に、ChatGPTのテキストを提供した際も、AIが作成したコンテンツに対して99.7%の精度を示した。AIが作成したテキストを言い換える最後のテストでも、プラットフォームはコンテンツがAIによって書かれた可能性が99.9%であることを示すことができた。

技術の進歩に伴い、AIによるコンテンツ支援制作は主流になるはずだ。それに伴い、AIコンテンツの検出精度も改善されていくと思われる。

私たちがテストしたプラットフォームは、市場に存在する多くのもののうちのほんの一部だ。検出器のリストには、Writer.comCorrectorOriginality.aiなどがある。ぜひ試してみてほしい。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する