LLM巨大化の一方、高まるSLM（小規模言語モデル）への期待感——エッジコンピューティングへの適用で可能性は無限大

テック大手がこれまで以上に巨大な言語モデルの構築にしのぎを削ってきた AI 戦争に、驚くべき新潮流が生まれつつある。大型言語モデル（LLM）の進歩が頭打ちの兆しを見せる中、研究者や開発者は小規模言語モデル（SLM）への関心を高めている。これらのコンパクトで効率的、かつ適応性の高い AI モデルは、大きければ大きいほど良いという概念に挑戦しており、AI 開発へのアプローチ方法を変えることが期待されている。

LLM は停滞し始めているのか？

Vellum と HuggingFace が発表した最近の性能比較では、LLM 間の性能差が急速に縮まっていることが示唆されている。この傾向は、特に多肢選択問題、推論、数学問題などの特定のタスクにおいて顕著であり、上位モデル間の性能差はごくわずかである。例えば、多肢選択問題では、Claude 3 Opus、GPT-4、Gemini Ultra はすべて83%以上のスコアを出しており、推論タスクでは、Claude 3 Opus、GPT-4、Gemini 1.5 Pro は92%の精度を超えている。

興味深いことに、Mixtral 8x7B や Llama 2 – 70B のような小型モデルでさえ、推論や多肢選択問題などの特定の分野で有望な結果を示しており、大型モデルのいくつかを上回っている。このことは、モデルの大きさだけが性能を決定する要因ではなく、アーキテクチャ、学習データ、微調整技術などの他の側面が重要な役割を果たす可能性があることを示唆している。

新しい LLM を発表した最新の研究論文は、すべて同じ方向を示している。Uber AI の元責任者で、信頼できる AI の構築について書かれた「Rebooting AI」の著者 Gary Marcus 氏は、「経験的に見ると、最近発表された十数本の論文は、GPT-4と同じ一般的な領域にある」と言う。Marcus 氏は11日、VentureBeat の取材に応じた。

GPT-4より少し良いものもありますが、飛躍的な進歩はありません。GPT-4は GPT-3.5より飛躍的に進歩していると誰もが言うでしょう。この1年以上、（飛躍的な）進歩はありません。（Marcus 氏）

性能差が縮まり続け、より多くのモデルが競争力のある結果を示す中、LLM は本当にプラトーに入りつつあるのかという疑問が生じる。この傾向が続けば、今後の言語モデルの開発と展開に大きな影響を与える可能性があり、モデルサイズを単純に大きくすることから、より効率的で特化したアーキテクチャを探求することに焦点が移る可能性がある。

LLM アプローチの欠点

LLM は紛れもなく強力であるが、大きな欠点がある。第一に、LLM の学習には膨大な量のデータが必要であり、数十億から数兆ものパラメータが必要となる。このため、学習プロセスには非常に多くのリソースが必要となり、LLM の学習と実行に必要な計算能力とエネルギー消費は途方もないものとなる。これは高いコストにつながり、小規模な組織や個人が中核的な LLM 開発に取り組むことを困難にしている。昨年の MIT のイベントで、OpenAI の CEO である Sam Altman 氏は、GPT-4のトレーニングにかかるコストは少なくとも1億米ドル以上であると述べた。

LLM で作業するために必要なツールやテクニックの複雑さも、開発者に急な学習曲線をもたらし、アクセス性をさらに制限している。開発者にとっては、トレーニングからモデルの構築、デプロイまで、長いサイクルタイムが必要であり、これが開発や実験を遅らせる。ケンブリッジ大学の最近の論文によると、企業が1つの機械学習（ML）モデルをデプロイするのに90日以上を費やす可能性があるという。

LLM のもう1つの重大な問題は、幻覚を見やすいことだ。もっともらしく見えるが、実際には真実でも事実でもない出力を生成してしまう。これは、LLM が情報を真に理解するのではなく、学習データのパターンに基づいて次に最も可能性の高い単語を予測するように訓練されていることに起因する。その結果、LLM は自信満々に虚偽の発言をしたり、事実をでっち上げたり、無関係な概念を無意味に組み合わせたりしてしまう。このような幻覚を検出し、軽減することは、信頼できる言語モデルの開発における継続的な課題である。

「もしあなたがこれを重大な問題に使うのであれば、顧客を侮辱したり、悪い医療情報を得たり、車の運転に使って危険を冒したりしたくはないでしょう。それはまだ問題があります」と Marcus 氏は警告する。

LLM の規模とブラックボックスの性質は、解釈とデバッグを困難にする可能性もある。訓練データとアルゴリズムに偏りがあると、不公平で不正確な、あるいは有害な出力につながる可能性がある。Google Gemini に見られるように、学習データとアルゴリズムに偏りがある場合、その偏りを修正するテクニックが必要だ。

小規模言語モデル（SLM）の登場

小規模言語モデルの登場だ。SLM は LLM をより合理化したもので、パラメータが少なく、設計がシンプルだ。必要なデータとトレーニング時間は、LLM が数日かかるのに対し、SLM は数分から数時間だ。このため、SLMはより効率的で、現場や小型機器での実装が容易である。

SLM の主な利点のひとつは、特定のアプリケーションに適していることだ。SLM は、より焦点を絞ったスコープを持ち、より少ないデータしか必要としないため、大規模な汎用モデルよりも簡単に、特定のドメインやタスクに合わせて微調整することができる。このようなカスタマイズにより、企業は、センチメント分析、名前付きエンティティ認識、ドメイン固有の質問応答など、特定のニーズに対して非常に効果的な SLM を作成することができる。SLM の特化された性質は、より一般的なモデルを使用する場合と比較して、これらのターゲットとするアプリケーションのパフォーマンスと効率の向上につながる。

SLM のもう一つの利点は、プライバシーとセキュリティの強化の可能性である。コードベースが小さく、アーキテクチャが単純な SLM は、監査が容易で、意図しない脆弱性を持つ可能性が低い。このため、データ漏洩が深刻な影響を及ぼす可能性のある医療や金融など、機密データを扱うアプリケーションには魅力的だ。さらに、SLM は計算要件が少ないため、クラウドインフラに依存するのではなく、デバイスやオンプレミスサーバー上でローカルに実行することがより現実的となる。このローカル処理により、データ・セキュリティはさらに向上し、データ転送中に暴露されるリスクも低減できる。

SLM はまた、LLM と比較して、特定領域内での幻覚が検出されにくい。SLM は通常、意図するドメインやアプリケーションに特化した、より狭く的を絞ったデータセットで学習されるため、モデルはそのタスクに最も関連するパターン、語彙、情報を学習しやすくなる。このように焦点を絞ることで、無関係な、予期しない、または一貫性のない出力を生成する可能性が低くなる。SLM は、より少ないパラメータと合理的なアーキテクチャにより、学習データのノイズやエラーを捕捉したり増幅したりする可能性が低くなる。

AI スタートアップ HuggingFace の CEO Clem Delangue 氏は、最大99％のユースケースが SLM を使って対処できると示唆し、2024年は SLM の年になるだろうと予測した。HuggingFace は、開発者が機械学習モデルを構築、訓練、展開できるプラットフォームを提供しており、今年初めに Google との戦略的提携を発表した。両社はその後、HuggingFace を Google の Vertex AI に連携し、開発者が Google Vertex Model Garden を通じて何千ものモデルを迅速に展開できるようにした。

Gemma に愛を、Google

当初 LLM の優位性を OpenAI に奪われた Google は、SLM の機会を積極的に追求している。2月、Google は、より効率的でユーザフレンドリーに設計された小規模言語モデルの新シリーズ「Gemma」を発表した。他の SLM と同様、Gemma モデルは、特別なハードウェアや大規模な最適化を必要とせず、スマートフォン、タブレット、ラップトップなど、日常的に使用されるさまざまなデバイスで実行できる。

Gemma のリリース以来、学習済みモデルは HuggingFace で先月40万件以上のダウンロードを記録し、すでにエキサイティングなプロジェクトがいくつか生まれている。例えば、Cerule は Gemma 2B とGoogle の SigLIP を組み合わせた強力な画像・言語モデルで、画像とテキストの膨大なデータセットで学習される。Cerule は非常に効率的なデータ選択技術を活用しており、膨大な量のデータや計算を必要とせずに高い性能を達成できることを示唆している。このことは、Cerule が新たなエッジコンピューティングのユースケースに適していることを意味する。

もうひとつの例は、コーディングと数学的推論に特化した Gemma の特別バージョンである CodeGemma だ。CodeGemma は、コーディングに関連するさまざまなアクティビティに合わせた3つの異なるモデルを提供し、開発者にとって高度なコーディングツールをより身近で効率的なものにしている。

＜関連記事＞

Googleが新言語モデル「RecurrentGemma」を公開、ハードウェア要件軽減でエッジへのAI実装が容易に

SLM の変革の可能性

AI コミュニティが小規模言語モデルの可能性を探求し続けるにつれ、開発サイクルの高速化、効率性の向上、特定のニーズに合わせてモデルをカスタマイズできるという利点がますます明らかになっている。SLM は、コスト効率に優れ、ターゲットを絞ったソリューションを可能にすることで、AI へのアクセスを民主化し、業界全体のイノベーションを促進する態勢を整えている。SLM をエッジに導入することで、金融、エンターテインメント、自動車システム、教育、電子商取引、ヘルスケアなどさまざまな分野で、リアルタイムでパーソナライズされた安全なアプリケーションの新たな可能性が開ける。

データをローカルで処理し、クラウドインフラへの依存を減らすことで、SLM を用いたエッジコンピューティングは、レスポンスタイムの高速化、データプライバシーの改善、ユーザ体験の向上を可能にする。このような AI への分散型アプローチは、企業や消費者とテクノロジーとの関わり方を変革し、実世界でよりパーソナライズされた直感的な体験を生み出す可能性を秘めている。LLM が計算リソースに関する課題に直面し、性能の頭打ちに陥る可能性がある中、SLM の台頭は AI のエコシステムを素晴らしいペースで進化させ続けることを約束する。

【via VentureBeat】 @VentureBeat

【原文】