「RedPajama」開発、2,000万米ドルを調達——ビッグテックは独自LLM開発に注力も、スタートアップからはオープンソースAI公開の嵐

先月、オープンソースの LLM（大規模言語モデル）を構築することを目標に Meta のデータセット「LLaMA」を複製してニュースになった AI スタートアップ Together の創業者らは、オープンソース AI とクラウドプラットフォームを構築するため、シードラウンドで2,000万米ドルを調達した。

最近、オープンソース AI の関係者は皆、成功を祝っているように見える。例えば、オープンソースの LLM が次々とリリースされ、Google や OpenAI の独自モデルに十分近い性能、少なくとも多くのユースケースで十分な性能を持っているため、ほとんどのソフトウェア開発者は無料版を選ぶだろうと言う専門家もいる。このため、オープンソースの AI コミュニティは、過去1年間に AI がクローズドな独自 LLM にシフトしたことに対する反発を支持している。この LLM は、最先端の AI 技術の力が一部の資金力のあるビッグテックに支配される「産業界による支配（industrial capture）」につながると専門家は述べる。

実際のパーティーも存在する。オープンソースのハブ Hugging Face は4月上旬、「Woodstock of AI」という懇親会を開催し、サンフランシスコのダウンタウンにある「エクスプロラトリアム」に5,000人以上を集め、パーティーを行った。そして19日には、人気のオープンソース画像生成ツール「Stable Diffusion」を開発した Stability AI と、「PyTorch Lightning」を開発した Lightning AI が、ニューヨークで「Unite to Keep AI Open Source」という集まりを、非公開の場所で開催する予定だ。

独自 LLM 開発に走るビッグテック各社の今後

オープンソース AI の開発が進む中、ビッグテックはその選択肢を検討している。先週、あるエンジニアからリークされた Google のメモには「We have no moat（直訳すると「堀が無い」、転じて「競合優位性が無い」の意）」と題され、Google も OpenAI もこの軍拡競争に勝つ立場にないことが「不快な真実」であると主張する。

それは、オープンソース AI があるからだとそのエンジニアは言った。メモにはこう書かれていた。

はっきり言って、彼らは我々をなめている。私たちのモデルは、品質という点ではまだ若干の優位性を保っていますが、その差は驚くほど早く縮まっています。

こうした懸念から、ビッグテック各社が LLM 研究を共有する意欲が低下するのではないかという声もある。しかし、Lightning AI の CEO William Falcon 氏は3月、VentureBeat の取材に対し、すでにこのような事態が起きていると語った。OpenAIがリリースした「GPT-4」には、研究に見せかけた98ページのテクニカルレポートが含まれていたと彼は説明する。

GPT-4 のローンチ後、Falcon 氏は次のように語った。

彼らは、コミュニティから自分たちを切り離したのです。

先月、Metaの AI 研究担当副社長である Joelle Pineau 氏は、AI モデルの説明責任と透明性が不可欠であると VentureBeat に語っている。

私の希望、そしてそれはデータアクセスに関する私たちの戦略に反映されていますが、これらのモデルの検証可能性監査のための透明性を可能にする方法を見つけ出すことです。（Pineau 氏）

しかし、（Meta のチーフ AI サイエンティスト Yann LeCu n 氏が2013年に設立した「Fundamental AI Research Team（FAIR）」のおかげで）特にオープンなビッグテックとして知られてきた Meta でさえ、その限界はあるかもしれない。14日の Will Douglas Heaven 氏による MIT Technology Review の記事で、Pineau 氏は、同社が永遠に部外者にコードを開放しないかもしれないと述べている。

これは、今後5年間、我々が採用するのと同じ戦略なのでしょうか？ AI はとても速く動いているので、わかりません。（Pineau氏）

オープンソース AI のパーティーはいつまで続くか？

オープンソース AI が抱える問題点、それは、彼らのパーティースタイルが突然停止してしまう可能性があることだ。Falcon 氏が VentureBeat に語ったように、ビッグテックが自社のモデルへのアクセスを完全にクローズアップすれば、彼らの「秘密のレシピ」を解明するのはさらに難しくなるかもしれない。

Falcon 氏は VentureBeat の取材に対し、次のように述べた。

以前は、ビッグテックのモデルが正確に再現できなくても、オープンソースのコミュニティはレシピの基本的な材料を知っていました。しかし、今は、誰も知らない材料があるかもしれません。

フライドチキンの作り方はみんな知っていますよね。しかし、突然、少し違うことをすると、「待てよ、なぜこれが違うんだ」と思うでしょう。そして、その材料を特定することもできない。もしかしたら、フライドチキンじゃないかもしれない。誰にもわからないんです。

このことは、悪い前例になると彼は言う。

オープンソースを作り、自分たちがやっていることを人々に伝えようという動機付けがなくなってしまう企業ばかりになります。

Falcon 氏は、監視されていないモデルの危険性は現実的であると付け加えた。

もし、このモデルがうまくいかなくなったら、そして、幻覚や偽の情報を与えたりするのをすでに見ているのだから、コミュニティはどのように反応することになるのだろうか？倫理的な研究者は、どのようにして解決策を提案し、この方法はうまくいかないから、別のことをするように調整したらどうかと言うのでしょうか？コミュニティは、このようなことで損をしているのです。（Falcon 氏）

【via VentureBeat】 @VentureBeat

【原文】