ChatGPTに対抗、新オープンソースAIビジョンモデル「Nous Hermes 2 Vision」が登場——しかし問題が残る

SHARE:
「Nous Hermes 2 Vision」
Image credit: Hugging Face

大規模言語モデル(LLM)分野のオープンソース公開で知られる民間の応用研究グループ Nous Research は、軽量のビジョン言語モデル「Nous Hermes 2 Vision」を発表した。

Hugging Face を通じて入手可能なこのオープンソースモデルは、同グループの以前のモデル「OpenHermes-2.5-Mistral-7B」をベースにしている。画像によるプロンプト表示や、視覚コンテンツからテキスト情報を抽出する機能など、視覚機能を搭載している

しかし、ローンチ直後、このモデルは予想以上に幻覚を見ることが判明し、不具合が生じ、最終的にプロジェクト名を「Hermes 2 Vision Alpha」に変更した。同社はこの後、より安定したリリースを行い、同様の利点を提供しつつ、不具合を少なくする見込みである。

Hermes 2 Vision Alpha

ギリシャ神話の神々の使者であるヘルメスにちなんで名付けられたビジョンモデル「Nous」は、「人間の複雑な言説の複雑さを、天空の繊細さで」ナビゲートするシステムとして設計されている。ユーザから提供された画像データをタップし、その視覚情報を学習と組み合わせて、自然言語で詳細な回答を提供する。

例えば、ユーザの画像を分析し、その画像に含まれるさまざまな側面を詳細に説明することができる。Nous の共同創業者(X では「Teknium」と名乗る)は、LLM がハンバーガーの写真を分析し、食べると不健康かどうかを判断し、その理由を説明することができたテストスクリーンショットを共有した。

操作中の「Nous Hermes 2 Vision」

GPT-4V をベースとする「ChatGPT」も画像によるプロンプト機能を提供するが、Nous のオープンソースは2つの重要な機能強化で差別化を図っている。

第一に、実質的な3B ビジョン・エンコーダーに依存する従来のアプローチとは異なり、Nous Hermes 2 Vision は SigLIP-400M を利用している。これにより、モデルのアーキテクチャが合理化され、同種のものよりも軽量化されるだけでなく、視覚言語タスクのパフォーマンスも向上する。

第二に、このモデルは関数呼び出しで強化されたカスタムデータセットでトレーニングされている。これにより、ユーザは タグでモデルを促し、メニューや看板のような画像から文字情報を抽出することができる。

この特徴的な追加機能は、Nous-Hermes-2-VisionをVision-Language Action Modelに変えます。開発者は、無数の独創的な自動化を作成するための汎用ツールを自由に使えるようになりました。(Hugging Face のページから)

モデルのトレーニングに使われた他のデータセットは、LVIS-INSTRUCT4V、ShareGPT4V、OpenHermes-2.5 の会話である。

差別化はされているものの、現段階では問題が残っている

Nousの視覚言語モデルは研究開発に利用可能だが、初期の使用状況から完璧とは言い難いことが分かった。

リリース直後、共同創設者は、このモデルには何か問題があり、「幻覚をよく見る」「EOS トークンをスパムしている」などという投稿が見られた。その後、このモデルはアルファリリースとして名前が変更された。

Nous で AI への取り組みを率いる研究員、Quan Nguyen(クアン・グエン)氏は X に次のように投稿している

幻覚について話している人を見かけるが、たしかにかなりひどい。ベースとなった LLM は無修正モデルなので、私もそれを意識していた。これらの問題を解決するために、今月末までに更新版を作るつもりです。

この問題に関連して VentureBeat が送った質問には、本稿執筆時点で回答が得られていない。

とはいえ、Guen 氏は別の投稿で、ユーザが適切なスキーマを定義すれば、関数呼び出しはまだうまく機能すると述べている。また、ユーザからのフィードバックが十分なものであれば、関数呼び出しのための専用モデルを発表する予定だとも述べている。

これまで Nous Research は、Hermes、YaRN、Capybara、Puffin、Obsidian シリーズの一部として、異なるアーキテクチャと機能を持つ41のオープンソースモデルをリリースしてきた。

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。
  • 会員限定記事・毎月3本
  • コミュニティDiscord招待
無料メンバー登録