生成AI過熱で注目再び「データラベリング」とは——12万人が登録するProlific／GB Tech Trend

本稿は独立系ベンチャーキャピタル、グローバル・ブレインが運営するサイト「GB Universe」に掲載された記事からの転載

今週の注目テックトレンド

GB Tech Trendでは世界で話題になったテック・スタートアップへの投資事例を紹介します。

ロンドンを拠点とするAIスタートアップ「Prolific」が3,200万ドルの資金調達を発表しました。同社が提供するのは人間のフィードバックによるAI強化学習サービスです。

OpenAIとChatGPTの登場で再びAIに注目が集まっていますが、中でも大きな話題になるのがAIを教育するためのデータの存在です。著作権などの問題も含まれているのでこの扱いは複雑ですが、一旦そのあたりは割愛して、この膨大なデータを「整理」するための作業に着目しましょう。これがデータラベリングです。データにラベルと呼ばれるタグや注釈を付けることで、データの意味や特徴を明確にする作業を意味します。これは機械学習や人工知能のモデルを開発する際に必要な前処理の一つであり、データの品質や量がモデルの精度に大きく影響するものです。

今回ご紹介するProlificはこの領域のスタートアップです。AIが生成した複数のアウトプット（選択肢）を人間が確認し、より安全で心地の良い出力内容をトレーニングさせることでAIにとって「綺麗な」データを提供します。

Prolificは約12万人に及ぶキュレートされたテスターネットワークをヨーロッパ、アメリカ、オーストラリアの7カ国に持っているそうです。元々は学術研究のために信頼性のあるフィードバックを提供してくれる参加者を集めるという課題解決に取り組んでおり、大学や研究機関向けにサービスを提供していました。実際、今回の資金調達ではオックスフォード大学と提携するファンド「Oxford Science Enterprises」が出資に入っています。すでにGoogle、Meta、スタンフォード大学、オックスフォード大学などの大口の顧客を獲得しています。なお、Prolificのサービスを活用することで、人件費にかかる費用を30％削減できるとのことです。

さて、Prolificの登場は、2019年にユニコーン企業になったデータラベリングスタートアップ「Scale AI」を彷彿とさせます。同社は自動運転や自然言語処理に必須となる正確なデータラベリングプロセスを支援するサービスを展開していました。約3万人の契約社員を通じてラベリングサービスを提供。サービス利用企業はAPIを介してデータをScale AI側に提供することで、テキスト、音声、写真、映像のラベリング処理データが返ってくる仕組みです。当時、Waymo、OpenAI、Airbnb、Lyftなどの大手スタートアップ企業を顧客に抱えていました。

今回紹介したProlificの3,200万ドルの調達も、2019年頃を一旦ピークとして迎えたデータラベリング市場の一片だと捉えられるでしょう。ここからの市場はProlificのように徐々にニッチなものへと向かっていくことが予想されますが、だとしても依然としてニーズは大きく、大型調達が望めそうです。

最近ではOpenAIがケニア在住のテスターを安価、かつ大量に雇用してAIの学習プロセスをスケーラブルに進めていることが問題となっています。2019年頃と比べて、世界的にAIの動向が確実に厳しく精査されつつある中、透明性の高い人間によるAI学習サービスの在り方が求められています。Prolificはこの市場動向に正しくアプローチしていると思われます。これからは人種・職種・性別など、よりカテゴリーニッチな人間によって学習された精度の高いAIの登場が待望されていることから、ハイエンドなテスター人材ネットワークを抱えたスタートアップに注目が集まるかもしれません。

7月11日〜7月24日の主要ニュース