ChatGPTで躍進ーー2023年に開花した「オープンソースLLM」を振り返る - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

2022年後半、ChatGPTが登場したことでAI企業やハイテク大手の間で競争が始まった。

それぞれが大規模言語モデル（LLM）アプリケーションの急成長市場を支配しようと競い合っている。そしてこの激しい競争の結果もあり、ほとんどの企業は言語モデルを独自のサービスとして提供することを選択した。

しかし、だ。その多くは基礎となるモデルのパラメーター、トレーニングデータセットやアルゴリズムの詳細を明らかにすることなくAPIアクセスを販売している。

一方、このようなプライベートモデルがトレンドにもかかわらず、2023年にはオープンソースのLLMエコシステムが急増し、サーバーにダウンロードして実行したり、特定のアプリケーション用にカスタマイズしたりできるモデルがリリースされた。オープンソースのエコシステムは、プライベートモデルと歩調を合わせ、LLMのエンタープライズ環境における極めて重要なプレーヤーとしての役割を強めることになった。

2023年、オープンソースのLLMエコシステムがどのように進化したかを紹介したい。

大きい方がいいのか？

2023年以前は、LLMの性能を高めるにはモデルサイズを拡大する必要があるという考えが主流だった。BLOOMやOPTのようなオープンソースのモデルは、1,750億のパラメータを持つOpenAIのGPT-3に匹敵し、このアプローチを象徴した例と言えるだろう。一般に公開されているとはいえ、これらの大規模モデルを効果的に実行するには大規模な計算リソースと専門知識が必要だった。

しかしこのパラダイムは2023年2月、 Metaが70億から650億のパラメータを持つモデル・ファミリーである「Llama」を発表したことで一変する。

Llamaは、より小さな言語モデルがより大きなLLMの性能に匹敵することを実証したのだ。Llamaの成功の鍵は、大幅に大きなコーパスのデータでトレーニングを行ったことだ。GPT-3が約3,000億トークンで学習されたのに対し、Llamaのモデルは最大1兆4,000億トークンで学習された。拡大したトークン・データセットでよりコンパクトなモデルをトレーニングするというこの戦略は、LLMの有効性を高める唯一の要因はサイズであるという概念を覆すものであった。

オープンソースモデルの利点

Llamaの魅力は2つある。

ひとつまたは少数のGPUで動作する能力と、オープンソースである、という点だ。これによって、研究コミュニティはその知見とアーキテクチャを迅速に構築することができた。Llamaのリリースは、一連のオープンソースLLMの出現のきっかけとなり、それぞれがオープンソースのエコシステムに新たな側面を提供することにつながる。

CerebrasのCerebras-GPT、EleutherAIのPythia、MosaicMLのMPT、SalesforceのX-GEN、TIIUAEのFalconなどが有名だ。

7月、MetaはLlama 2をリリースし、瞬く間に数多くの派生モデルの基礎となった。Mistral.AIは、MistralとMixtralという2つのモデルのリリースで大きなインパクトを与えた。特に後者は、その能力と費用対効果が高く評価されている。

Hugging Faceの製品・成長責任者であるJeff Boudier（ジェフ・ブーディエ）氏は次のように語った。

MetaによるオリジナルのLlamaのリリース以来、オープンソースのLLMの進歩は加速度的に伸びており、最新のオープンソースのLLMであるMixtralは、GPT-4とClaudeに次いで、人間の評価で3番目に有用なLLMとしてランクされています。

Alpaca、Vicuna、Dolly、Koalaといった他のモデルは、これらの基礎モデルの上に開発され、それぞれが特定の用途向けに微調整されている。機械学習モデルのハブであるHugging Faceのデータによると、開発者たちはこれらのモデルのフォークや特殊バージョンを何千も作っていることがわかる。

Hugging Faceの「Llama」のモデル検索結果は1万4,500件以上、「Mistral」は3,500件、「Falcon」は2,400件。Mixtralは、12月のリリースにもかかわらず、すでに150のプロジェクトのベースとなっている。これらのモデルのオープンソースとしての性質は、新しいモデルの作成を容易にするだけでなく、開発者が様々な構成でそれらを組み合わせることを可能にし、実用的なアプリケーションにおけるLLMの汎用性と有用性を高めることとなった。

オープンソースモデルの未来

プロプライエタリなモデルが進歩し競争する一方、オープンソースのコミュニティは不動の競争相手であり続けるだろう。このダイナミズムはハイテク大手によってさえ認識されており、オープンソースモデルを自社製品に統合する動きが加速している。

OpenAIの主な出資者であるMicrosoftは、OrcaとPhi-2というふたつのオープンソースモデルをリリースしただけでなく、Azure AI Studioプラットフォーム上でのオープンソースモデルの統合を強化している。同様に、Anthropicの主な出資者の一人であるAmazonは、プロプライエタリモデルとオープンソースモデルの両方をホストするように設計されたクラウドサービスであるBedrockを導入した。

Boudier氏は次のように状況を語る。

2023年に多くの企業はChatGPTの導入と人気の成功を通じて、LLMの能力に驚かされました。すべてのCEOが、生成AIのユースケースを定義するようチームに指示し、企業は実験し、クローズドモデルAPIを使用した概念実証アプリケーションを迅速に構築しています。しかし、コアテクノロジーの外部APIへの依存は、機密性の高いソースコードや顧客データの漏洩など、大きなリスクをもたらします。データのプライバシーとセキュリティを優先する企業にとって、これは持続可能な長期戦略ではなかったのです。

急成長するオープンソースのエコシステムは、他のニーズに対応しながら生成AIの統合を目指す企業にとってユニークなアイデアになるに違いない。

AIがテクノロジーを構築する新しい方法である以上、AIはそれ以前の他のテクノロジーと同様に、顧客情報や規制が要求するプライバシー、セキュリティ、コンプライアンスをすべて自社内で作成し、管理する必要があります。そして、過去の例から察するに、それはオープンソースであることを意味するのです。（Boudier氏）

【via VentureBeat】 @VentureBeat

【原文】