Arthur、AIモデル評価ツール「Bench」をオープンソースで公開——どのLLMを採用するか、比較検討が可能に

SHARE:

ニューヨークを拠点とする人工知能(AI)スタートアップ Arthur は、OpenAI の「GPT-3.5 Turbo」や Meta の「LLaMA 2」などの大規模言語モデル(LLM)の性能を評価・比較するためのオープンソースツール「Arthur Bench」を公開した。

Arthur の CEO 兼共同設立者 Adam Wenchel 氏は声明で次のように述べた。

Bench では、LLM プロバイダ間の違い、プロンプティングやオーグメンテーション戦略の違い、カスタムトレーニングレジメなどをチームが深く理解できるよう、オープンソースのツールを作りました。

Arthur Bench の仕組み

Adam Wenchel 氏

Arthur Bench は、企業が特定のユースケースについて、さまざまな言語モデルのパフォーマンスをテストすることを可能にする。精度、可読性、ヘッジング、その他の基準でモデルを比較するためのメトリクスを提供する。

LLM を何度か利用したことがある人にとって、「ヘッジング」は特に目立つ問題だ。LLM が利用規約やプログラミング上の制約を要約したり示唆したりする余計な文言を提供することであり、これは通常、ユーザが望む回答とは関係のないものとなる。

Wenchel 氏は VentureBeat との独占インタビューで、「これらは、特定のアプリケーションに関連するかもしれない行動の微妙な違いの一部です」と語った。

Arthurは、LLM のパフォーマンスを比較するためのいくつかの基準を盛り込んでいるが、このツールはオープンソースであるため、使用する企業はニーズに合わせて独自の基準を追加することができる。

ユーザが行った直近の100の質問を取得し、すべてのモデルに照らし合わせることができます。そして、Arthur Bench は、回答が大きく異なっている箇所をハイライトし、手動で見直すことができます。(Wenchel 氏)

そう言って、Wenchel 氏は、その目は企業が AI を採用する際に、十分な情報を得た上で意思決定できるようにすることだと付け加えた。

Arthur Bench はベンチマーキングを加速し、アカデミックな指標を現実のビジネスインパクトに変換する。同社は、統計的指標やスコア、他の LLM の評価を組み合わせて使用し、希望する LLM の反応を並べて評価する。

さまざまな LLM の回答におけるヘッジング傾向を Arthur Bench で比較した画面。
Image credit: Arthur

Arthur Bench の活躍

Wenchel 氏によれば、金融サービスを提供する会社はすでに Arthur Bench を利用して、投資論や分析をより迅速に行なっているという。

自動車メーカーは、非常に具体的な技術ガイダンスが何ページにもわたって記載された機器マニュアルを、Arthur Bench を使用して LLM を作成し、顧客からの問い合わせに答えることができるようにした。

別の顧客であるエンタープライズメディアおよび出版プラットフォーム「Axios HQ」も、製品開発面で Arthur Bench を利用している。

Axios HQ のスタッフデータサイエンティスト Priyanka Oberoi 氏は、VentureBeat の取材に対し次のように答えた。

Arthur Bench は、LLM の評価を機能横断的に拡張・標準化し、プロダクト・チームにパフォーマンスを意味のある解釈可能な指標で説明するための社内フレームワークを開発するのに役立ちます。

Arthur は Bench をオープンソース化しており、誰でも無料で使用・貢献することができる。このスタートアップは、オープンソースのアプローチが最高の製品につながり、チームダッシュボードを通じて収益化する機会をもたらすと考えている。

AWS や Cohere とのコラボレーション

Arthur はまた、Amazon Web Services(AWS)および Cohere と共同で、Arthur Bench 用の新しいメトリクスを開発するためのハッカソンを開催することも発表した。

Wenchel 氏は、さまざまなLLMを選択し展開するための AWS の Bedrock 環境は、Arthur Bench と非常に哲学的に一致していると述べた。

どの LLM が自分に合っているか、どうやって合理的に判断するのですか。これは AWS 戦略を非常にうまく補完しています。(Wenchel 氏)

Arthur は今年初め、Arthur Shield を立ち上げ、LLM の幻覚などを監視している。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する