Metaの「LLaMA」データセットを複製し構築、商業利用可能なオープンソース大規模言語モデル「RedPajama」とは

オープンソース AI にラクダ科の動物名をつけ続ける風習は、もう終わったのだろうか。

分散型クラウドとオープンソースモデルの構築に注力するカリフォルニア州メンローパークの企業 Together は17日、RedPajama（そう、Llama Llama Red Pajamaに名前が似ている）を発表した。

「多くの点で、AI は Linux の瞬間を迎えている」と同社はブログ投稿で述べ、Together の共同創業者でスタンフォード大学准教授であり、SambaNova、Snorkel.ai,、Factory の共同創業者の Chris Re 氏が書いた1月の投稿にリンクしている。

RedPajama は、Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research、MILA Québec AI Institute の共同プロジェクトで、主要で完全にオープンソースの大規模言語モデル（LLM）を作成する。この取り組みは17日、LLaMA のレシピに従った1.2兆トークンデータセットを公開されたことから始まった。このデータにより、どのような組織でも、ライセンス供与が可能なモデルを事前に学習させることができる。完全なデータセットは Hugging Face で公開されており、ユーザは Github で公開されている Apache 2.0 スクリプトで結果を再現することができる。

LLaMA は、Meta が2月にリリースした最先端の基礎 LLM（大規模言語モデル）で、研究者へのゲーティングアクセスが可能である。LLaMA をベースにしたモデルは、ここ数週間でAlpaca、Vicuna、Koala などいくつか出てきているが、これらのモデルは商用利用はできないようになっている。また、LLaMAモデルが4chanに流出した際には、LLaMA-drama もあった。

Together は今後数週間のうちに、LLM の完全版と、RedPajamaデータセットに基づくインストラクション・チューニング版をリリースする予定だ。同社は、今後発表されるモデルは完全にオープンソースであり、商業的に利用可能であることを強調している。同社はツイートで、次のように述べている。

クリーンルームで、ドラマのないバージョンになることを期待しています。今後数週間から、私たちがリリースする RedPajama モデルは、Apache 2.0 ライセンスで公開される予定です。

オープンソース AI の波から生まれた「RedPajama」

VentureBeat が先週報じたように、LLM のリリースの波に続き、スタートアップ、コレクティブ、アカデミックが、AI がクローズドで独自の LLM にシフトするのを押し返そうと努力していることから、ここ数週間、オープンソース AI が盛り上がっているようである。

また、ラクダ科に隣接するモデル「Dolly 2.0」（羊のドリーの意）も先週、開発元のDatabricks が「初のオープンな命令追従型 LLM」として商業利用を開始し、大きな話題となった。

しかし、LLaMA のような最大級の最先端オープンソース LLM は、これまで研究コミュニティに限定されていた。Together の創設者兼 CEO で、以前は Cloudmark と Topsy の共同創設者であった Vipul Ved Prakash 氏は次のように述べている。

実際のアプリケーションを構築して出荷することができないという点で制限されています。私たちは、寛容なライセンスモデルを持つことが、オープンソース AI の重要な側面であると考えています。

LLaMA データセットの複製は簡単なことではない

同社は、「オープンベースモデルの代表的なスイート」と呼ぶ LLaMa からスタートした。これは、「品質について慎重にフィルタリングされた非常に大きなデータセットでトレーニングされている」ことが理由である。また、70億パラメータのLLaMA モデルは、「そのモデルサイズで最高の品質を確保するために、チンチラ最適点をはるかに超えて、はるかに長い時間トレーニングされている」という。

データセットもモデルも同一ではないが、開発者たちは、商業的なアプリケーションに利用可能で、「より透明性の高い研究用パイプライン」を提供する、LLaMA の完全オープンソース複製を作ることを目標としている。

開発者たちは LLaMA のデータセットにはアクセスできなかったが、レシピは十分にあった。「LLaMA データセットをゼロから再現するために、非常に慎重にレシピに従いました。」とPrakash氏は言う。このデータセットは、Common Crawl、arxiv、Github、Wikipedia、オープンブックのコーパスのデータを含む7つのデータスライスで構成されている。

各データスライスについて、我々は慎重にデータの前処理とフィルタリングを行い、LLaMA 論文で Meta AI が報告したトークンの数とほぼ一致するように品質フィルタを調整します。（同社のブログ投稿）

LLaMA が学習したデータはすべて公開されているデータですが、課題は実際のデータセットを提供していないことです。例えば、100万件の文書からベスト10,000件を選んだと書かれていても、その10,000件を教えてくれるわけではありません。そこで私たちはレシピに従って、同等のデータセットを作成するために、すべての作業を繰り返しました。（Prakash 氏）

透明性の高いシステム構築のための議論

Prakash 氏は、RedPajama プロジェクトの協力者たちが、システムが透明であることが重要だと考えているという。

このモデルがどのように作られたのか、何が行われたのかを正確に知ることができます。このモデルを改善しようとする場合、データセットから始めることができます。

このプロジェクトは、これらのモデルに対して、より大きなコミュニティを結集させるでしょう。

データから計算まで、必要なリソースのレベルが高いため、基礎モデルの研究からはアカデミアが切り離されていると言えるでしょう。（Prakash 氏）

また、現在、これらの大規模なモデルに取り組んでいる人は世界でも少数であり、もし、より広いアクセスがあれば、世界中の「多くの優秀な人々」が、ニューラルアーキテクチャ、トレーニングアルゴリズム、安全性研究のさまざまな方向性を探求することができるようになるだろう。

また、これはさまざまなタスクに適応できる最初の本当に一般的な AI のひとつであり、その応用範囲は非常に広いと考えています。しかし、多くの異なるアプリケーションは、モデルやモデルの重みにアクセスし、異なるコンピューティング環境に適応させることができる場合にのみ可能です。オープンソース AI のおかげで、このようなことがたくさん起こっているのを我々は見ています。（Prakash 氏）

しかし、オープンソース AI の議論には別の側面もある。例えば、OpenAI のチーフサイエンティストで共同設立者の Ilya Sutskever 氏は最近、「研究をオープンに共有することは間違っている」と述べ、競争への恐れや安全性への懸念は「自明の理」だとした。

ある時点で、もし人が望めば、それらのモデルで大きな害をもたらすことは極めて容易になります。（Sutskever 氏）

また、Meta の AI 研究担当副社長 Joelle Pineau 氏は、VentureBeat とのインタビューで、AI モデルの説明責任と透明性は不可欠だが、Meta にとって重要なのは、モデルの潜在的な害によって変わりうるアクセスレベルのバランスをとることだと述べている。彼は次のように述べ、モデルの潜在的な害のレベルに基づいてアクセスを決定することができるとした。

私の希望、そしてそれはデータアクセスに関する私たちの戦略に反映されていますが、これらのモデルの検証可能性監査のために透明性を認める方法を見つけ出すことです。（Pineau 氏）

一方、オープン化のレベルによっては、行き過ぎたものもあるという。

LLaMA モデルがゲーテッドリリース（一部への限定公開）を採用したのはそのためです。多くの人は、完全にオープンにすることをとても喜んでいたでしょう。私は、それが今日の責任ある行動だとは思いません。（Pineau氏）

倫理的なデータセットをめぐる議論も

また、モデルがオープンなのかクローズドなのか、データセットそのものの倫理観についても議論がなされている。先週の The Guardian の記事では次のように述べられている。

ChatGPT や Stable Diffusion を支えるような、最新世代のこうしたAIシステムの訓練に使われる膨大なデータセットには、インターネットからかき集めた何十億もの画像、何百万もの海賊版電子書籍、欧州議会の16年間の議事録全体、英語版 Wikipedia 全体が含まれていると考えられる。

しかし、Prakash 氏は、「これらのモデルは、ある意味で人間社会のアウトプットを捉えており、それらをオープンにして誰もが使えるようにする一種の義務がある」と考えているそうだ。さらに、これらのモデルの「魔法の大部分」は、「本当に広範で膨大な」データで訓練されていることに由来すると付け加えた。

また、実際のモデルでは、元データが大幅に圧縮されていることも指摘した。RedPajama のデータセットは5テラバイトだが、モデルは14GBと、モデル化する元のデータより500倍ほど小さくすることが可能である。

これは、データからの知識が抽象化され、変換され、ニューラルネットワークモデルのパラメーターの重みと偏りという全く異なる表現でモデル化され、元の形のまま保存・使用されないことを意味します。つまり、トレーニングデータを再現するのではなく、その上に派生的な仕事をするということです。我々の理解では、モデルがデータを再現していない限り、フェアユースとみなされます。（Prakash 氏）

オープンソースの AI に関する議論が非常に複雑であることは間違いないだろう。しかし、同社が新プロジェクトを RedPajama と名付けた理由を尋ねると、その答えはもっとシンプルなものであった。