Nejumi LLMリーダーボードがアップデートされ、安全性評価など多数の評価を追加

SHARE:

最新の評価データセットを活用した、日本語LLM評価のベストプラクティス

Weights & Biases Japan株式会社(以下、W&B Japan)は、2023年7月より運営してきた日本最大級のLLM日本語能力比較サイト、Nejumi LLMリーダーボード(http://nejumi.ai)の2回目のバージョンアップを行い、Nejumi LLMリーダーボード3を公開しました。評価ベンチマークを大幅に再構築することで、用途別に性能を評価するとともに、AIガバナンスにおいて注目の高まる安全性評価が追加されました。また推論の高速化およびライブラリのバージョン管理の簡素化などにより、企業でのプライベート評価もこれまで以上に簡単に実行できます。公開リーダーボードではOpenAIやAnthropicなどの最新の商用APIはもちろん、幅広いオープンソースモデルを含む40以上のモデルの評価結果をインタラクティブに比較することができます。また、本リーダーボードの詳細を解説する、W&B Japanのマンスリーミートアップが7/2に予定されています。
関連リンク:
Nejumi LLM リーダーボード 3:http://nejumi.ai

Nejumi LLM リーダーボード3からの考察ブログ:https://note.com/wandb_jp/n/nd4e54c2020ce

W&Bミートアップ #14 in 東京:https://wandb.connpass.com/event/321967/

今回のアップデートの背景

PR TIMESで本文を見る