AIのトレーニングを大幅に安く高速化できるLLM「phi-1.5」が登場 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

「ChatGPT」「LLaMA 2」「Claude 2」「Bard」「Falcon 180B」など、現在エンタープライズソフトウェア市場で話題になっているような AI の大規模言語モデル（LLM）のトレーニングには、大規模で専門的な計算能力が必要だ。そのため、OpenAI、Meta、Cohere、Google、Abu Dhabi の Technology Innovation Institute など、資金力のある大規模な組織がその役割を担っているのは不思議ではない。

しかし、Microsoft Research 機械学習基盤（Machine Learning Foundation）チームのリーダー Sebastien Bubeck 氏は、彼らの新しい非商用の「phi-1.5」のようなオープンソースでリソース効率の良いモデルの研究のおかげで、この状況はすぐにでも変わるだろうと考えている。

既存の LLM（この場合は OpenAI の「ChatGPT」）を使って、キュレートされた高品質の合成データを生成し、これを使って新しいモデルをトレーニングすることで、研究者たちは、主要な LLMに匹敵する結果を、わずかなコストとトレーニング時間で達成することができる。

AI トレーニングの進化

先週論文で発表された phi-1.5 は、Bubeck 氏が今年6月に論文「Textbooks Are All You Need（仮訳：必要なのは教科書だけ）」で発表したコード生成モデル「phi-1」の進化版である。コード生成の経験に基づき、Bubeck 氏のチームは無駄のない効率的な言語モデルを作ろうとした。これを達成するため、チームは ChatGPT で教科書のようなコンテンツのソースを作成し、その合成データを使って phi-1.5 モデルをトレーニングした。

phi-1.5 モデルは10億のパラメータを使用し、1,000億以上の入力を持つ他のモデルから見れば小さいが、通常より大きなモデルに見られるエキサイティングな創発的能力をすでに実証している。

phi-1.5 は Textbooks アプローチによる合成データのみで学習されるため、ウェブスクレイピングや著作権問題をはらむ通常のデータソースを活用する必要はない。

phi-1.5 の目標について尋ねると、Bubeck 氏はどこでも利用できるようにしたいと説明した。たった10億のパラメータを持つモデルに集中することで、「誰でもプレイできるようになり、そうすることでより民主化されます」と彼は VentureBeat に語った。

phi-1.5のトレーニングに要した時間は、8台の A100 GPU でわずか2週間だったが、Bubeck 氏は次のように指摘する。

GPU 8台を1週間借りても1,000米ドルです。基本的に、個人でもこのレベルの計算が可能です。

これは、何百万米ドルもする巨大な GPU リソースを必要とする他のモデルとは対照的だ。

教科書を開く

「Textbooks Are All You Need」という方法論は、より小さなモデルから推論能力を抽出することで、AI の民主化を目指している。

もしあなたが子供に何かを教えたいなら、このトピックに関するランダムなインターネットのページの束を与えるだけではだめです。実際に、子供たちが目を通すことができるように、いくつかの教材を注意深くキュレーションする必要があります。（Bubeck 氏）

phi-1.5 をトレーニングするために作成された合成教科書の多様性をどのように確保したかについて話すとき、Bubeck 氏は Microsoft のもう一人の研究者 Ronen Eldan 氏とカーネギーメロン大学教授の Yunazhi Li 氏による「Tiny Stories」研究と比較した。このチームは、たった1,000万個のパラメータを使って、LLMに童話を変換して出力させることができた。

彼らは3000語のリストを用意しました。そして、ショートストーリーを作るたびに、ランダムに3つの単語を選び、ChatGPTに、その3つの単語を含む子供向けのショートストーリーを書くように依頼しました。

このようにしてデータにシードワードを導入することで、研究者たちは「多種多様な、まったく異なる見た目のストーリー」を実現することができたと Bubeck 氏は言う。このコンビナトリアルアプローチによって、モデルから出力される可能性が大幅に拡大した。

一方、Textbooks のアプローチはより洗練されているが、この2つの手法の間には明確なつながりがある。

Bubeck 氏はまた、教科書を用いた手法でトレーニングデータを作成することで、推論トークンがモデル入力に多く含まれるようになると指摘する。つまり、古典的なトレーニングデータセットに見られるような膨大な情報を処理する必要がなく、ロバストな LLM の出力結果が得られるということだ。

ベンチマークは便利だが、進化する必要がある

開発の過程で、phi-1.5 はすでにいくつかのエキサイティングなベンチマークの数字をもたらした。Winogrande で74％（常識的推理、Llama2-7B より5％高い）、OpenbookQA で37％（読解、Llama2-7B より6％高い）、HumanEval で34％（コーディング、Llama2-7B より20％高い）だ。

このような刺激的で成功的な数字にもかかわらず、従来のベンチマークは批判を浴びていると Bubeck 氏は言う。ベンチマーク phi-1.5に関するコメントからもわかるように、彼はより微妙な評価方法への移行を提唱している。ベンチマークは、LLM で何が起こっているのかというストーリーを教えてくれないと Bubeck 氏は述べている。彼は、静的テストには限界があると見ており、モデルの相互作用や能力の全範囲を捉えることはできないと述べている。

The discussion of the last few days around benchmarks is really fascinating, it points to a fundamental difficulty of LLM benchmarking (you'll note, we wrote 155 pages on precisely this just 6 months ago, remember Sparks? :-)). See Ronen's answer & my youtube video for specifics. https://t.co/uWSs8zuTui

— Sebastien Bubeck (@SebastienBubeck) September 13, 2023

ベンチマークの代わりに、Bubeck 氏はモデルをテストする別の方法が必要だと提案した。具体的には、直接的な会話を通じてモデルと遊ぶことに基づいた方法だ。

LLM の威力は、あなたと対話できることです。前提を修正したり、変動に対するロバスト性を確認したりできます。（Bubeck 氏）

phi-1.5を研究用ライセンス（商業目的ではない）でリリースすることで、他の人々は自分自身の質問をし、モデルがどう答えるかを見ることができるようになったと Bubeck 氏は言う。この究極の除染は、ベンチマークだけでは得られない、より柔軟でニュアンスのある評価を可能にする。

膨大なウェブコーパスではなく、焦点を絞った質の高い合成データから学習できるモデルを開発することで、AI は近い将来、より多くの個人や組織に手が届くようになるかもしれない。Bubeck 氏は、彼らのアプローチは、もはやテック大手に限定されない多くの新しいタイプのアプリケーションへの扉を開くと信じている。もし成功すれば、分散型で民主的な AI 開発の新時代が到来するかもしれない。

【via VentureBeat】 @VentureBeat

【原文】