テック大手出身研究者ら創業のReka、マルチモーダルAI「Reka Core」をローンチ——訓練1年未満で主要LLMの性能に匹敵

サンフランシスコを拠点とし、DeepMind、Google、Meta の研究者らによって設立された AI スタートアップ Reka は、新しいマルチモーダル言語モデル「Reka Core」を発表した。同社の「最大かつ最も有能なモデル」と銘打たれており、数千の GPU を使用してゼロからトレーニングされている。

API、オンプレミス、またはオンデバイスのデプロイメントオプションを通じて今日利用可能な Core は、Reka の言語モデルファミリーの3番目のメンバーであり、画像、音声、動画を含む複数のモダリティを理解する能力を提供する。最も重要なことは、訓練されたのは1年未満なのにもかかわらず、OpenAI、Google、Anthropic など、AI 分野の主要な、資金力のあるプレイヤーのトップモデルの性能に匹敵するか、それを上回ることだ。

Reka 共同創業者兼 CEO の Dani Yogatama 氏は、VentureBeat とのインタビューで、「非常に短期間で高性能なモデルをトレーニングするこの能力が、Reka を際立たせている」と語った。

Reka は、同社のマルチモーダル言語モデル「Reka Core」を Netflix の「3 Body Problem」でテストしたところ、画面上で起こっていることをテキストに翻訳することができた。
Credit: Reka

Reka のチーフサイエンティストで共同設立者の Yi Tay 氏は、Reka Core の開発には「何千もの H100」を使用したと X に書いている。そして、OpenAI の GPT-4や Claude 3 Opus に匹敵するものをゼロから開発することは、確かに偉業である。彼は、Core はまだ改良中であるが、チームはこれまでの性能に感銘を受けていると注意を促している。

It’s been a wild ride. Just 20 of us, burning through thousands of H100s over the past months, we’re glad to finally share this with the world!

One of the goals we’ve had when starting Reka was to build cool innovative models at the frontier. Reaching GPT-4/Opus level was a… https://t.co/ncheAggoQb

— Yi Tay (@YiTayML) April 15, 2024

Reka Coreは何をもたらすのか？

Reka Core の正確なパラメータ数は明らかにされていないが、Yogatama 氏は、公開データ、ライセンスデータ、テキスト、オーディオ、動画、画像ファイルにまたがる合成データなど、複数のソースから学習させた「非常に大規模なモデル」（前作の Reka Flash は210億パラメータ）であると説明した。

この膨大な学習範囲により、Core は入力として複数のモダリティを理解し、数学やコーディングなどのドメインにまたがる回答を高い推論レベルで提供することができる、と同氏は説明した。また、32の言語をサポートし、128,000トークンのコンテキストウィンドウを備えているため、モデルは膨大な量の多様な情報を一度に取り込み、処理することができる。これは、長い文書を処理するのに適している。Yogatama 氏によると、Core は Google の Gemini Ultra に次いで、テキストからビデオまですべてのモダリティをカバーし、高品質の出力を提供する2番目のモデルだという。

動画の知覚テストでは、Core は唯一のライバルである Gemini Ultra をかなりの差で上回った（スコアは59.3対54.3）。一方、画像タスクの MMMU ベンチマークでは、Claude 3 Opus（59.4）、Gemini Ultra（59.4）、Gemini Pro 1.5（58.5）で、 Core は GPT-4（56.8）に次ぐスコア56.3を記録した。Elon Musk（イーロン・マスク）氏の xAI も最近、Grok の視覚対応バージョンを発表したが、このモデルはまだ53.6点と競合他社に後れを取っている。

独立した第三者機関によるヒューマン評価では、Reka のマルチモーダル性能は第2位だった。
Credit: Reka

他のベンチマークでも、Core は業界をリードするプレーヤーに匹敵することがわかった。例えば、知識タスクの MMLU テストでは83.2点を記録し、GPT-4、Claude 3 Opus、Gemini Ultra に次ぐ成績だった。一方、推論の GSM8K ベンチマークとコーディングの HumanEval では、それぞれ92.2点と76.8点で GPT-4を上回ることができた。

非常に短期間でこのレベルの性能を達成するために、Yogatama 氏によると、同社は逆さまのアプローチを取ったという。つまり、モデルをトレーニングしてその結果を見るのではなく、目標とするパフォーマンス・レベルから始めて、それを達成するための最善かつ最も効率的な方法は何かを逆算したのである。

パイプラインにおける複数のパートナーシップ

すべてのモダリティに焦点を当て、100万インプットトークンあたり10米ドル、100万アウトプットトークンあたり25米ドルという競争力のある価格設定により、Reka は、電子商取引、ゲーム、ヘルスケア、ロボット工学など、さまざまな業界セグメントの顧客向けに、新しくユニークなユースケースを解放したいと考えている。ちなみに、OpenAI の GPT-4 Turbo は、インプット・トークンの価格設定は同じだが、アウトプットは30米ドルである。

Reka はまだ始まったばかりだが、AI 領域における OpenAI、Anthropic、Google の支配に対抗するために全力を尽くしている。このスタートアップはすでに業界パートナーや組織と協力し、そのモデルのリーチを広げ始めている。Snowflake は最近、LLM アプリ開発のための Cortex サービスに Reka Core と Flash を含めることを発表した。Oracle や、シンガポールを拠点とする研究機関や AI ベンチャー企業のエコシステムが集まる AI Singapore も、同社のモデルを利用している。

Yogatama 氏は、Reka ファミリーの最初のモデル（Flash と Edge）が発売されて以来、同社は企業からの強い関心を受けており、強力な顧客パイプラインが整っていると述べた。また、同社は今後数週間のうちにパートナーシップについてさらに詳しく説明する予定だと付け加えた。

Yogatama 氏は、同社が最初の1年間はモデルを市場に投入することに全力を注いだと述べた。そして次のステップとして、この仕事をベースにしながら、同時にビジネス機能を加速させたいと考えている。製品面では、Core の性能をさらに向上させるためのトレーニングを行っており、同時に次期バージョンの開発にも取り組んでいる。

しかし、これだけの作業が行われているにもかかわらず、同社がこの技術をオープンソース化する予定はないことを Yogatama 氏は明言した。彼は、オープンソースの強力な支持者であり続けるが、ビジネスとして成長し続けるためには「何を共有し、何を共有しないか」の適切なバランスを見つけることだと語った。