NVIDIA の新しい DGX SuperPOD は1兆パラメータの AI モデルを扱うことができる - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Nvidia は18日の Nvidia GTC カンファレンスにおいて、ハードウェアとソフトウェアの幅広い展開の一環として、新しい DGX SuperPod で最も強力なシステムを発売した。

近年、DGX は Nvidia の主要なサーバーハードウェアおよびクラウドシステムのひとつになっている。新しい DGX SuperPod システムは、Hopper GPU の後継として発表された AI ブースターのための次世代 GPU、Blackwell で動作する。Blackwell は、1兆のパラメーターを持つ AI モデルをサポートするプロダクトとして位置づけられている。

DGX SuperPOD は、CPU と GPU のリソースの両方を含む Blackwell の GB200 スーパーチップバージョンを統合している。Nvidia の以前の Grace Hopper 世代のスーパーチップは、以前の世代の DGX システムの中核である。Nvidia の既存の DGX システムは、創薬、ヘルスケア、不正検知、金融サービス、レコメンダーシステム、コンシューマーインターネットなど、すでに多数のユースケースに広く展開されている。

Nvidia の Hyperscale and HPC 担当 VP である Ian Buck（イアン・バック）氏は、記者会見で次のように述べている。

「これは世界クラスのスーパーコンピューティングプラットフォームであり、ターンキーである。Nvidia の完全な AI ソフトウェアスタックをサポートし、比類のない信頼性とスケールを提供する」。

DGX SuperPOD の中身は？

SuperPOD という用語は、単なるマーケティング上の最上級のように思えるかもしれないが、Nvidia が新しい DGX システムに詰め込んでいる実際のハードウェアは印象的だ。

DGX SuperPOD は単なる1つのラックサーバーではなく、複数の DGX GB200 システムの組み合わせだ。各 DGX GB200 システムには、36個の Nvidia Grace CPU と72個の Nvidia Blackwell GPU を含む36個の Nvidia GB200 スーパーチップが搭載されており、第5世代の Nvidia NVLink を介して単一のスーパーコンピュータとして接続されている。

SuperPOD を超強力にしているのは、DGX SuperPOD が8つ以上の DGX GB200 システムで構成でき、Nvidia Quantum InfiniBand を介して接続された数万個の GB200 スーパーチップにスケールできることだ。

このシステムは240テラバイトのメモリを提供でき、これは大規模な言語モデル（LLM）のトレーニングと大規模な生成 AI 推論にとって重要だ。Nvidia が主張するもう1つの印象的な数値は、DGX SuperPOD には11.5エクサフロップスの AI スーパーコンピューティング能力があることだ。

高度なネットワーキングとデータ処理ユニットが gen AI SuperPOD ファブリックを可能にする

DGX SuperPOD を超強力にしている中核的な要素は、非常に多くの GB200 システムを、統一されたコンピュートファブリックで接続できるという事実だ。

そのファブリックを支えているのが、新たに発表された Nvidia Quantum-X800 InfiniBand ネットワーキングテクノロジーだ。このアーキテクチャは、プラットフォーム内の各 GPU に最大1,800ギガバイト/秒の帯域幅を提供する。

DGX には、Nvidia BlueField-3 DPU（データ処理ユニット）と第5世代の Nvidia NVLink インターコネクトも統合されている。

さらに、新しい SuperPOD には第4世代の Nvidia Scalable Hierarchical Aggregation and Reduction Protocol（SHARP）テクノロジーが含まれている。Nvidia によると、新バージョンの SHARP は14.4テラフロップスのインネットワークコンピューティングを提供し、これは次世代の DGX SuperPOD アーキテクチャにおいて前世代と比較して4倍の増加を表しているという。

Nvidia DGX Cloud に Blackwell が登場

新しい GB200ベースの DGX システムは、Nvidia DGX クラウドサービスにも登場する。GB200の機能は、Amazon Web Services（AWS）、Google Cloud、Oracle Cloud で最初に利用可能になる予定だ。Buck 氏は次のように述べている。

「DGX Cloud は、Nvidia 独自の AI 研究開発や製品だけでなく、お客様にも利用いただけるよう、Nvidia の最先端テクノロジーを提供するために、クラウドパートナーと深く連携し、共同設計したクラウドだ」。

新しい GB200 は、Nvidia が AWS と共同で開発してきた Project Ceiba スーパーコンピュータの進歩にも貢献するだろう。Project Ceiba は2023年11月に最初に発表された。Project Ceiba は、DGX Cloud を使用して世界最大のパブリッククラウドスーパーコンピューティングプラットフォームを構築する取り組みだ。Buck 氏は次のように述べている。