データキュレーション自動化のCleanlab、500万米ドルをシード調達——教師データのラベリングミスを効率的に修正

SHARE:
Clearlab の皆さん
Image credit: Clearlab

エンタープライズ AI で使用される大規模言語モデル(LLM)向けのデータキュレーションソリューションを提供するスタートアップ Cleanlab は20日、500万米ドルのシード資金を確保したと発表した。このラウンドは Bain Capital Ventures がリードしたもので、機械学習(ML)分野を悩ませている「ダーティデータ問題」を解消するというCleanlabのミッションに大きな信任を得たことになる。

Curtis Northcutt 氏、Jonas Mueller 氏、Anish Athalye 氏によって設立されたこのスタートアップは、データの不正確なラベルを識別、理解、クリーニングするオープンソース製品を開発した。このユニークなアプローチは、データの質の低さによって阻害されがちな ML モデルの有効性を劇的に改善することを約束する。

Cleanlab の CEO  Northcutt 氏は VentureBeat とのインタビューで次のように語った。

ML の汚い秘密は、あなたのモデルがあなたのデータと同じくらい良いということです 。そして、もしデータに間違ったラベルがあれば、ほとんどの人がそうであるが、それはモデルのパフォーマンスに大打撃を与える可能性があります。

Northcutt 氏は、データキュレーションはしばしば手作業で面倒なプロセスであり、データチームには多くの時間とリソースが必要だと付け加えた。Northcutt 氏は、Cleanlab が MIT(マサチューセッツ工科大学)で博士号を取得した際に考案した「Confident Learning」と呼ばれる手法を用いることで、このプロセスを自動化し、簡素化したいと考えていると語った。

Confident Learning は、真のラベルとノイズの多いラベルの共同分布を推定し、この情報を使ってデータセット中の最も可能性の高い誤りを見つける手法である。また、各ラベルと各例の精度を推定し、各ラベルの信頼スコアを提供することもできる。

私たちがやっているのは、あるクラスの典型的なデータポイントが何であるかについての統計的情報を構築し、そのクラスについてモデルが出力する確率の分布(この例で与えられたものが統計的に適切かどうか、またその分布)を考慮に入れ、理論的に根拠のあるモデルを構築することです。(Northcutt 氏)

データ品質の新たな夜明け

「Clearlab Studio」
Image credit: Clearlab

Northcutt 氏によれば、Cleanlab は2つの製品を提供している。Cleanlab Open SourceCleanlab Studio だ。Cleanlab Open Source はフリーでオープンソースの Python ライブラリで、誰でも自分のデータセットに confident learning を適用するために使うことができる。Cleanlab Studio はクラウドベースの SaaS 製品で、ユーザフレンドリーなインターフェースとデータキュレーションのための高度な機能を提供する。Cleanlab Studio は、Hugging Face Transformers、Google Cloud AI Platform、Amazon SageMaker、Microsoft Azure Machine Learning、IBM Watsonなど、人気のある LLM フレームワークやプラットフォームとも連携している。

Northcutt 氏によると、Cleanlab は オープンソースプロジェクトですでに1万人以上のユーザを獲得しており、クラウド製品では100社以上の顧客を獲得している。その顧客には、フォーチュン500社、政府機関、研究機関、スタートアップなど、e コマース、ヘルスケア、ソーシャルメディア、教育、エンターテインメント、金融など、さまざまな領域や業界の企業が含まれているという。

Northcutt 氏によると、Cleanlab は今回の資金調達でチームを拡大し、製品開発の規模を拡大し、顧客基盤を拡大する計画だという。同氏は、AI スタートアップへの投資で高い実績を持つ Bain Capital Ventures との提携に興奮していると述べた。

データ中心の AI ソリューションに、投資家の信頼が高まる兆し

Bain Capital Ventures のパートナー Aaref Hilaly 氏とプリンシパルの Rak Garg 氏は、Cleanlab のチーム、テクノロジー、ビジョンに感銘を受けたと述べた。彼らは、Cleanlab がエンタープライズ AI の領域で、巨大で十分なサービスを受けていない問題を解決していると信じていると述べた。

Cleanlabは、LLM のデータキュレーションのための主要なソリューションです。データのキュレーションは、モデルのパフォーマンスと信頼性にとって不可欠であり、オープンソースを通じて、よりコントロールしやすく、導入しやすい製品をユーザに提供します。私たちは、Curtis Northcutt 氏と彼の共同設立者の Jonas Mueller 氏とAnish Athalye 氏を支援できることを非常に嬉しく思っています。彼らは、自信に満ちた学習を中心に素晴らしい製品とコミュニティを構築しています。(Hilaly 氏)

Cleanlab は、Bain Capital Ventures で人工知能(AI)をより重視する一環であり、Bain Capital Ventures は基礎モデルとその周辺のインフラの両方に投資していると Garg 氏は付け加えた。Garg 氏によると、Cleanlab は、Contextual AIEvenupUnstructured など、Bain Capital Ventures が今年投資したいくつかの AI スタートアップの一つだという。

私たちは AI に積極的に投資しており、革新的な AI ソリューションを構築できる技術的な創業者やエンジニアを常に探しています。パロアルトにある当社の AI インキュベータ「BCV Labs」が証明しているように、当社はアーリーステージに強い関心を持っており、才能あるAI起業家を支援し、彼らと共同創造しています。また、マルチステージアプローチも採用しており、投資先企業の市場参入、人材、規模拡大の課題を支援しています。(Garg 氏)

エンタープライズ LLM の未来を形作る

Cleanlabは、エンタープライズ AI ソリューション、特に LLM に対する需要の高まりを利用する数多くのスタートアップの一つである。最近の Gartner のレポートによると、現在管理職が行っているルーチンワークの69%は2024年までに完全に自動化されると予想されており、スケジュール管理、レポート作成、意思決定などのタスクに LLM が使用される可能性が高い。企業における LLM の導入と展開に影響を与える最大のハードルの1つは、データの品質とデータのキュレーションである。

Cleanlab のデータキュレーションソリューションは、企業がこれらの課題を克服し、様々なユースケースやアプリケーションでLLMの可能性を最大限に引き出すのに役立つ。Cleanlab を使用することで、企業はデータセットとモデルの品質と信頼性を向上させ、データキュレーションの時間とコストを削減し、LLM の倫理的で責任ある使用を保証することができる。Cleanlab はまた、企業が競争優位性を獲得し、データ資産から価値を創造するのに役立つものだ。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する