Databricks、命令追従型LLM「Dolly」の商用利用可能版を公開

SHARE:
Image by DALL-E 2

Databricks は12日、同社が2週間前にリリースしたばかりの ChatGPT のような人間のインタラクティブ性(別名:命令追従性)を持つ大規模言語モデル(LLM)の次のバージョン「Dolly 2.0」をリリースした。

同社によると、Dolly 2.0は、透明で自由に利用できるデータセットで微調整された初のオープンソースの命令追従型 LLM であり、商業目的での利用ができ、オープンソース化されているという。つまり、Dolly 2.0は、API アクセスにお金を払ったり、第三者とデータを共有したりすることなく、商業用途に利用できるのということだ。

Databricks CEO のAli Ghodsi 氏によると、商業目的で使用できる LLM は他にもあるが、Dolly 2.0のように話しかけてくることはないと説明する。そして、トレーニングデータはオープンソースライセンスで自由に利用できるようにされているため、ユーザはトレーニングデータを修正・改良することができると説明している。

つまり、あなた自身のバージョンの Dolly を作ることができるのです。(Ghodsi 氏)

Dolly 2.0の微調整に使用したデータセットが公開

Databricks はオープンソースへの継続的なコミットメントの一環として、Dolly 2.0が微調整されたデータセット(databricks-dolly-15k)も公開すると述べている。これは、数千人の Databricks 社員によって生成された15,000以上のレコードからなるコーパスで、Databricks は「ChatGPT の不思議な対話性を LLM が発揮できるように特別に設計された、初のオープンソースで人間が生成した命令コーパス」と述べている。

この2ヶ月の間に、多くの定義でオープンソースとされている(あるいは、ある程度のオープン性やゲーテッドアクセスを提供している)インストラクションに従った ChatGPT のような LLM  のリリースが相次いでいる。そのひとつが Meta の「LLaMA」で、Alpaca、Koala、Vicuna、Databricks の Dolly 1.0といった他の LLM に影響を与えた。

しかし、これらのオープンモデルの多くは、商用利用を制限する規約のあるデータセット(例えば、スタンフォードのプロジェクト「Alpaca」の52,000の質問と回答のデータセットは、OpenAI の ChatGPT の出力で学習されたもの)で学習されたため、Ghodsi 氏は「産業界による支配(industrial capture)」「産業の捕捉」の下にあったと述べている。しかし、OpenAI の利用規約には、OpenAI と競合するサービスの出力を使ってはいけないというルールがあると彼は説明する。

ところが Databricksは、この問題を回避する方法を考え出した。Dolly 2.0は、オープンソースのモデルファミリー「Eleuther AI pythia」をベースにした120億パラメータの言語モデルで、Databricks の社員が作成した命令レコードの小規模なオープンソースコーパス(databricks-dolly-15k)だけで微調整を行っている。このデータセットのライセンス条項により、学術的・商業的な用途を含むあらゆる目的での使用、修正、拡張が可能である。

ChatGPT の出力で学習させたモデルは、これまで法的にはグレーゾーンにあった。

コミュニティ全体がこの問題を避けており、誰もがこれらのモデルをリリースしていますが、どれも商業的に使用することはできません。だから、私たちはとても興奮しているんです。(Ghodsi 氏)

Dolly 2.0は小さくても力強い

Databricks のブログでは、オリジナルの Dolly と同様にバージョン2.0は最先端のものではないが、「トレーニングコーパスのサイズを考えると、驚くほど有能なレベルの命令追従動作を示している。」と強調されている。また、強力なAI技術を構築するために必要な労力と費用のレベルは、「これまで想像していたよりも桁違いに少ない。」とも投稿している。

他の誰もがもっと大きくなりたがっているが、我々は実はもっと小さいことに興味がある。そして高品質であること。すべての答えに目を通しました。(Ghodsi 氏)

さらに Ghodsi 氏は、Dolly 2.0が「雪だるま式」効果を起こすと信じており、つまり AI コミュニティの他の人たちも参加して、他の代替品を考え出すことができると付け加えた。商用利用が制限されていることが、大きな障害になっているという。

ようやくそれを回避する方法が見つかったので、今は興奮しています。15,000の質問を世の中に存在するすべてのモデルに適用し、これらのモデルの多くが突然魔法のような存在になり、対話できるようになるのを見ることになると思います。(Ghodsi 氏)

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。
  • 会員限定記事・毎月3本
  • コミュニティDiscord招待
無料メンバー登録