Cerebras Systems、5,400万コア搭載の世界最大AIトレーニング用スパコンを公開

SHARE:
Image credit: Cerebras

AI アクセラレータのパイオニア Cerebras Systems とアラブ首長国連邦(UAE)を拠点とする技術保持グループ G42 は、世界最大の AI トレーニング用スーパーコンピュータ「Condor Galaxy」を発表した。

Cerebras のCEO Andrew Feldman 氏は、VentureBeat とのインタビューで、ネットワーク上で最初の AI スーパーコンピュータ「Condor Galaxy 1(CG-1)」は4エクサ(エクサは10の18乗=100京のこと)FLOPs と5,400万コアを備えており、相互接続された9台のスーパーコンピュータのネットワークは、合計36エクサ FLOPs の容量で、AI モデルのトレーニング時間を大幅に短縮できると述べた。

Cerebras は、中央演算処理装置(CPU)用のチップを個々に作るのではなく、シリコンウェハーを丸ごと入手し、ピザ大のウェハーにコアをプリントする。このウェハーは、1枚のウェハー上に数百個のチップに相当するコアを搭載している。こうして1台のスーパーコンピュータで5,400万コアを実現するのだ。

AI はアメリカだけでなく、世界をも蝕んでいます。コンピュートには飽くなき需要があります。モデルは増殖しているのです。そしてデータは新たな金で、基盤です。

このスーパーコンピュータを使えば、半分のエネルギーで2倍の速さの結果が得られます。

私たちは世界最大です。アブダビを拠点とする G42 という会社に売却しました。カリフォルニア州サンタクララに配備し、現在 AI を稼動させています。我々のクラウドで管理運用しています。G42 が社内業務に使用し、余った容量は彼らか我々が転売します。これは、我々が来年彼らのために建設する予定の3台のアメリカにあるスパコンのうちの最初のものです。最初の9台は、今後1年半の間に建設する予定です。そして、この9台がつながれば、36エクサ FLOPs のスーパーコンピュータ・コンステレーションとなります。(Feldman 氏)

Cerebras の CEO Andrew Feldman 氏と Condor Galaxy のパッケージ

Condor Galaxy とは、同社の技術「Memory X」と「Swarm X」で実現された、1台から32台の CS-2 コンピュータまで拡張可能なスーパーコンピュータの名前である。このマシンは10日間でサンタクララに設置され、すでに世界最大級のスーパーコンピュータになっている、と Feldman氏 は語った。

第2号機はテキサス州オースティンに、第3号機はノースカロライナ州アッシュビルに設置される。第2段階の取引額は1億米ドルを超える。

かなりクレイジーです。完成した暁には、9台のスーパーコンピュータが4エクサ FLOPsずつ相互接続され、36エクサ FLOPs の分散型 AI コンステレーションを構築することになります。これは、576台の CS-2 に5億近いコアを搭載し、3,490テラバイトの内部帯域幅を持つことになるのです。そして、データを供給するためだけに、5億個以上の AMD Epyc コアが必要になります。(Feldman 氏)

Condor Galaxy 1(サンタクララの Colovore 側)

Cerebras と G42 は、2024年初頭にこのようなスーパーコンピュータ CG-2 と CG-3 をアメリカに配備する予定だ。この前例のないスーパーコンピューティング・ネットワークによって、彼らは AI の進歩に世界的な革命を起こす計画だ。

カリフォルニア州サンタクララに位置する CG-1 は、64台の Cerebras CS-2 システムを連携させ、4エクサ FLOPs の学習能力を持つ使いやすい AI スーパーコンピュータとして、クラウドサービスとして提供される。CG-1 は、G42 とそのクラウド顧客が大規模で画期的なモデルを迅速かつ容易にトレーニングできるように設計されており、イノベーションを加速する。

Cerebras-G42 の戦略的パートナーシップは、アラビア語のバイリンガルチャット、ヘルスケア、気候研究において、すでに最先端の AI モデルを発展させてきた。CG-1 は、特別なソフトウェア・ライブラリを必要とせず、最大50,000トークンまでの長いシーケンス長での学習をネイティブにサポートしている。Feldman 氏によると、CG-1 のプログラミングは複雑な分散プログラミング言語なしで完全に行え、最大規模のモデルであっても、何千もの GPU に作業を分散させるのに何週間も何カ月も費やすことなく実行できるという。

G42 と Cerebras のパートナーシップは、大規模モデルの学習に必要な3つの要素、すなわち膨大な計算能力、膨大なデータセット、専門的なAIの専門知識すべてを提供する。G42 は、ヘルスケア、エネルギー、気候研究にまたがる多様なデータセットと連携することで、このシステムのユーザが新しい最先端の基礎モデルをトレーニングすることを可能にする。

Cerebras と G42 は、ハードウェアエンジニア、データエンジニア、AI サイエンティスト、業界のスペシャリストからなるチームを結集し、顧客の問題を解決するフルサービスの AI を提供する。この組み合わせにより、画期的な成果を生み出し、グローバルで数百の AI プロジェクトを加速させる。

G42 はアブダビにあるコングロマリットで、25カ国にある9つの会社で22,000人の従業員を抱えている。

400億のパラメータを持つ同じモデルを1,000個の GPU で実行しようとすると、さらに27,215行のコードを書かなければなりません。明らかに、それは簡単なことではありません。Cerebras で10億のパラメータを持つモデルを1台のCS-1に載せるには、約1200行のコードが必要です。しかし、400億のパラメータモデルや1,000億のパラメータモデルを実行する場合は、同じ1,200行のコードを使います。だから、27,215行のコードを書く必要はありません。

これで我々のクラウドは新たなレベルに到達しました。クラウドを通じて利用できるようにするのです。我々は AI スーパーコンピュータをサービスとして提供します。通常の AI クラスタが必要であれば、それも用意しています。これは本当に我々のクラウドを新しいレベルに引き上げるものです。(Feldman 氏)

この機械は、我々の天の川銀河の約5倍の大きさを持つコンドル銀河にちなんで名付けられた。

Cerebras は現在335人ほどの従業員を抱え、「狂ったように雇用している」と Feldman 氏は言う。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する