企業が AI モデルをテストするためのプラットフォーム「Kolena」公開

SHARE:
Credit: VentureBeat made with DALL-E 3 via ChatGPT Plus

企業が AI モデルを従業員や顧客が使用する業務に展開する際、最も重要な問題の1つは、どのモデルを何に使用するかではなく、選択したモデルをいかに安全に展開できるかである。

バックエンドでどの程度のテストが必要なのか。どのような種類のテストを実行すべきなのか。結局のところ、ほとんどの企業は、ChatGPT を顧客サポートに使用した一部の自動車ディーラーで見られたような恥ずかしい(しかし面白い)失敗を避けたいと考えているはずだ。

というのも、ユーザーがそれらのシステムを騙して、1ドルで車を売ることに同意させた事例もあるからだ。

モデル、特に AI モデルの微調整バージョンをどのようにテストすべきかを知ることは、展開の成功と、評判を落とし、財政的に損失を被る失敗との違いになり得る。

ということで本日(訳註:原文掲載日は3月13日)、元 Amazon のシニアエンジニアリングマネージャーが共同設立した、サンフランシスコを拠点とする3年目のスタートアップである Kolena が、「AIシステムの迅速で正確なテストと検証を可能にする」ように設計されたウェブアプリケーション、AI Quality Platform のリリースを発表した。

これには、「データ品質、モデルのテストと A/B テスト、およびデータドリフトと時間の経過に伴うモデルの劣化の監視」が含まれる。また、デバッグも提供する。

Kolenaのデバッグビューのスクリーンショット。クレジット:Kolena

「我々は企業におけるAI採用のロックを解除するために、この問題を解決することにした」と、Kolena の CEO である Mohamed Elgendy 氏は、Venturebeat 独占のビデオインタビューで述べた。

Elgendy 氏は、日本のコマース大手 Rakuten のエンジニアリング担当VP、機械学習駆動の X 線脅威検出器 Synapse のエンジニアリング責任者、Amazon のシニアエンジニアリングマネージャーを務めた経験から、企業が AI のテストと展開を試みる際に直面する問題を直接目の当たりにしたという。

KolenaのAI Quality Platformの仕組み

Kolena のソリューションは、ソフトウェア開発者と IT 担当者が、実世界のユースケースのために安全で信頼性が高く公正な AI システムを構築するのをサポートするように設計されている。

データセットから詳細なテストケースを迅速に開発できるようにすることで、モデルのパフォーマンスの重要な側面を覆い隠す可能性のある集計統計指標を超えて、実世界で直面するシナリオで AI/ML モデルを綿密に精査することができる。

Kolena の各顧客は、使用したいモデルをその API に接続し、テキスト、画像、コード、オーディオ、その他のコンテンツを操作するかに関わらず、展開時にモデルがどのように動作するかについての顧客独自のデータセットとその AI の「機能要件」を提供する。

Kolenaの品質基準ビューのスクリーンショット。クレジット:Kolena

また、各顧客は、年齢、人種、民族のバイアスや多様性など、数十のメトリックのリストから属性を測定することを決定できる。Kolena は、数百または数千のインタラクションをシミュレートしてモデルをテストし、望ましくない結果が生成されるかどうか、そしてその場合、どのくらいの頻度で、どのような状況や条件下で生成されるかを確認する。

また、プロバイダーまたは顧客によってモデルが更新、トレーニング、再トレーニング、微調整、または変更された後、および使用および展開時に、モデルを再テストする。

「テストを実行し、モデルがどこで劣化したかを正確に教えてくれる」と Elgendy 氏は述べた。「Kolena は推測の部分を取り除き、ソフトウェアのような真のエンジニアリングの規律に変えてくれるのです」。

AI システムをテストする機能は、企業にとって有用であるだけでなく、AI モデルプロバイダー企業自体にとっても有用である。Elgendy 氏は最近、人種的に不正確な画像を生成したことで論争の的となった Google の Gemini は、展開前に同社の AI Quality Platform のテストから恩恵を受けることができたかもしれないと指摘した。

Fortune 500企業やスタートアップとの2年間のクローズドベータテスト

Kolena はその志に忠実に、他の AI モデルをどれだけうまくテストできるかを独自に広範にテストせずに、AI Quality Platform をリリースしているわけではない。同社は過去24か月間、顧客にクローズドベータでプラットフォームを提供し、顧客のユースケース、ニーズ、フィードバックに基づいて改良を重ねてきた。

「我々は意図的に、未知の事項や未知の未知の事項のリストを定義するのに役立つ顧客のセットを選んで協力してまいりました」(Elgendy 氏)。

これらの顧客の中には、スタートアップ、Fortune 500 企業、政府機関、AI 標準化機関などがあるとElgendy 氏は説明する。

すでに、このクローズドベータ顧客のセットでは、合わせて「数万」のテストを Kolena のプラットフォームを通じて実行している。

その上で Elgendy 氏は、Kolena が3つのカテゴリーの顧客を追求していると述べた。

ひとつは AI ファンデーションモデルの「ビルダー」 、次にハイテク業界の買い手、そして最後はハイテク以外の買い手の三つだ。Elgendy 氏は、Kolena と協力している1社が、ファーストフードのドライブスルーに接続して注文を受け取ることができる大規模言語モデル(LLM)ソリューションを提供していると述べた。もう1つのターゲット市場は自動運転車メーカーである。

KolenaのAI Quality Platformにおける自動運転車センサーデータのスクリーンショット。クレジット:Kolena

Kolena の AI Quality Platform は、ソフトウェアサービス(SaaS)モデルに従って価格設定されており、データ品質の検査からモデルのトレーニング、最後に展開までの企業の AI の成長に合わせて設計された3段階の価格体系となっているとのことだ。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する