Spiral.AI、Transformerの限界を克服した次世代LLMアーキテクチャ「RetNet」の学習済みモデルを公開

SHARE:

Spiral.AI株式会社(本社:東京都千代田区、以下「SpiralAI」)は、従来のLLMアーキテクチャであるTransformerの問題点を解決した学習済みモデルを開発・公開しました。

開発・公開したモデルは、RetNetのアーキテクチャを活用しています。RetNetは、入力文字列長が長くなっても計算時間や必要リソースが増加しない特徴を持っており、Transformerの入力文字列長が長くなると計算量が爆発的に増加する課題を解決したものとなっております。

Spiral.AIは今後もTransformerの限界を克服する次世代アーキテクチャの研究に取り組んでまいります。
公開モデルはこちら
RetNetとは 現行の大規模言語モデルはTransformerと呼ばれるアーキテクチャによって構成されています。Transformerは入力文字列長が長くなると計算量が爆発的に増加する性質があるため、与えられる指示内容に制限があったり、大きな計算リソースが要求されるなどの課題を抱えていました。

この課題を解決するため、Transformerの仕組みから脱却した次世代アーキテクチャの探索が進められています。RetNetはその一つのアイデアとしてMicrosoftの研究チームにより2023年8月に提案されました[1]。

主な特徴として、入力文字列長が長くなっても計算時間や必要リソースが増加しないことが挙げられます。そのため、サーバーの計算コストを軽減させたり、エッジ推論を可能にする展望が拓けます。また、長い入力文字列長による柔軟な指示 (プロンプト) の与え方が可能になることや、長期記憶を保持することができるなど、機能的な優位性も保有します [2]。

その特徴はSpiral.AIで追求する「口語会話」のユースケースにおいて、例えばはるか昔に会話した記憶を持ち続けるなど、より人間らしい体験を提供することに繋がります。

公開の目的 優れた特徴を持つRetNetですが、2024年4月現在時点で開発チームから学習済みモデルやパラメーターが公開されていません。そのため、追試や挙動の検証を行いづらく、後続の研究があまり広がっていないという課題がありました。

大規模言語モデルのコミュニティにおけるRetNetの浸透のため、Spiral.AIでは30億パラメータ級のRetNetを新規に学習させ、その学習済みパラメータを公開しました。日英のデータセットで学習させており、日英の2言語を入力することが可能です。

https://huggingface.co/Spiral-AI/Spiral-RetNet-3b-base

30億パラメータ級のモデルは、実用観点では必ずしも十分な性能ではないため、研究目的での公開となります。質疑応答タスク (QA Task) に対する学習は行っておらず、文字列補完タスク (Completion Task) 用のベースモデルの提供となります。

DGX A100を3ノードでおよそ2週間、合計80bnトークン学習しています。今後も継続的な学習を行い、より高い性能のモデルのリリースも予定しています。

今後の展開 Spiral.AIでは、Transformerの限界を克服する次世代アーキテクチャの研究を進めています。本RetNetモデルはその目的で、基礎的な性質の検証に活用する予定です。

下図はその一つの例として、RetNetが入力文字列のうちどの文字に注目しながら文章を生成しているかを可視化したものです。Transformerとは異なる原理で動作しながらも、動的に注目文字を変えている様子がわかります。このような基礎的な挙動確認を行いながら、RetNetをはじめとする次世代アーキテクチャの研究を進めていきます。

PR TIMESで本文を見る