
OpenAIのGenerative Pre-Trained Transformer(ChatGPT)は、2022年11月のローンチ以来、話題になっている。このAIチャットボットはわずか4日間で100万人を超えるユーザーを獲得し、2カ月で1億人のアクティブユーザーを突破した。これはTikTokが9カ月以上かけて到達したマイルストーンだ。
しかし、テキスト入力の意味や文脈を理解し、ほとんど人間のような応答を提供するその能力は、人間が作成したオリジナルのコンテンツが評価される多くの分野や業界で困惑を引き起こしている。教育、コンテンツマーケティング、出版、ジャーナリズム、法律などだ。彼らの最大の疑問は、「AIと人間が書いたテキストをどうやって区別するのか?」「AIが生成したコンテンツをどうやって検出するのか?」である。
ChatGPTはどのような仕組みになっているのか。
AIと人間が書いたテキストを区別するためには、ChatGPTのようなプラットフォームがどのように構築されているのかを深く掘り下げる必要がある。
ChatGPTは、自然言語処理(NLP)タスクに特に有効なニューラルネットワークアーキテクチャの一種であるトランスフォーマーと呼ばれる深層学習アルゴリズムを使って動作する。このモデルは、書籍、記事、ウェブサイトなど、インターネット上の膨大なテキストデータのコーパスでトレーニングされている。
このトレーニングデータは、単語やフレーズ間のパターンや関係を学習できるように前処理され、ChatGPTに供給される。ユーザーがChatGPTに質問や発言を入力すると、モデルはテキストを処理し、トレーニングデータと入力の文脈と意味の理解に基づいて応答を生成するのだ。
5つのサンプル特性
ChatGPTは「教師なし学習」と呼ばれる手法を用いており、明示的な指示やラベルを必要としないため、応答の生成方法を学習することができる。ChatGPTは言語モデルとして、テキスト補完、質問応答、言語翻訳、さらにはテキスト生成など、さまざまなNLPタスクを実行することが可能だ。
複雑なプロンプトに対して首尾一貫したリアルなレスポンスを生成できるため、チャットボット、バーチャルアシスタント、言語ベースのゲームやサービスなど、幅広いアプリケーションで重宝されているわけだ。
言うまでもなく、AIが生成したコンテンツを検出するのはまだ極めて困難と言える。手作業で行う方法の1つは、サンプルの5つの重要な特徴を検証することだ。
- 一貫性:AIが生成したテキストは、一般的にスタイル、トーン、語彙が一貫しているのに対し、人間が書いたテキストは、バリエーションやニュアンスが豊富である。
- 辻褄:特に、複雑でニュアンスの異なるプロンプトに応答する場合、コンテンツに一貫性がないことがある。一方、人間が書いた文章は、通常、より首尾一貫しており、論理的な構造に従っている。
- オリジナリティ:AIが作成した文章には、繰り返しや定型的なフレーズやパターンが含まれることがあるが、人間が書いた文章は、より独創的で創造的である可能性が高い。
- 誤字脱字:AIが生成したコンテンツは、人間の書いたテキストよりもエラーが発生しやすく、特にモデルが十分に訓練されていない領域では、エラーが発生しやすい。
- 文脈:人間が書いた文章は、特定の文脈や読者に合わせた文章になる可能性が高いのに対して、プラットフォームは、与えられたプロンプトの文脈を理解するのに苦労することがあり、不適切な回答や無関係な回答につながる可能性がある。
ではなぜこれらの作業を自動化しないのか?
ChatGPTが話題になって以来、OpenAIを含む多くのソフトウェア会社が、AIソフトウェアによって書かれたテキストをユーザーが識別できるようにする認証ツールを発表している。この記事では、自動化されたAIコンテンツ検出ツールのトップクラスをいくつか検証し、テストしている。

後半へつづく:人かAIか、判別テストの結果はーーChatGPT時代のテストツール(2)
【via VentureBeat】 @VentureBeat
BRIDGE Members
BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。- 会員限定記事・毎月3本
- コミュニティDiscord招待