
Image credit: Google
Google のクラウドを利用することで、AI サイエンティストや大規模計算を必要とする人々は、最大 26EFLOPS の計算能力を持つマシンをレンタルすることができるようになるだろう。この新しいクラウドサービスは、5月10日に行われた Google I/O 2023 の基調講演で詳しく説明された。そのマシンは、驚異的な能力と大規模なタスクへの集中力を備えており、そのために「スーパーコンピュータ」という名前が再び使われるほどの選択肢となっている。
このマシンは、Nvidia の H100 GPU と Google 独自の高速インターコネクトを組み合わせて作られている。Google は、高速なデータ経路でつながった高性能なGPUの組み合わせが、大規模言語モデルのトレーニングなどのAIタスクに非常に魅力的であると予測している。
非常に大きな言語モデル
非常に大きなモデルの出現により、効率的に大規模なワークロードを処理できるハードウェアへの関心が再び高まっている。AI サイエンティストたちは、モデルのサイズをできるだけ大きくすると、驚くべき結果を得ることができることを確認した。新しいマシンがあれば、ますます大きなモデルを作成することが容易になる。
Google の新しいマシンは、GPU 間の通信を高速化することができ、学習されたモデルの収束を加速させることができる。Nvidia のGPU は、Google が「カスタム設計の 200Gbps IPU」と呼んでいるものと通信している。GPU 間のデータ転送は CPU ホストをバイパスし、他のVMネットワークやデータトラフィックとは異なるインターフェースを使用して行われる。Google は、データが GPU 間を流れる速度が、いくつかの初期のハードウェアよりも10倍速くなると推定している。
多くのクラウドサービスは、高度な並列性能を持つ GPU や TPU を備えた複数のマシンを提供している。例えば、Amazon Web Services では、6種類のオプションがあり、複数の GPU や新しい ARM ベースのGravitonチップを組み合わせて使用できる。Google 自身も独自の TPU チップをさまざまな組み合わせで提供している。
また、通常の GPU も一般的になりつつある。小規模なクラウドサービスプロバイダ Vultr などでも、1時間あたり13セントという低料金で一部のマシンの GPU をレンタルできるオプションがある。
Google が今回の発表で最大のワークロードを対象にしていることは明らかだ。新マシン A3 は、最大8つの Nvidia の H100 GPU を搭載し、ビデオプロセッサメーカー HOPPER のアーキテクチャで構築される予定だ。また、各マシンは最大2テラバイトのRAMを搭載し、学習データを保存することができる可能性がある。これらのマシンは、第4世代の Xeon プロセッサーによって同期される予定だ。
Google は大きなゲームの一部である
この道を歩む企業はGoogleだけではない。例えば、Microsoft は11月に Nvidia との提携を発表し、独自のスーパーコンピュータを製造することを明らかにした。MicrosoftはH100などのチップを、大規模なモデルのトレーニングに最適化され相互接続された「ファブリック」や「メッシュ」のビルディングブロックとして使用する予定だ。
IBM も2月に、自社の独自バージョン「Vela」を開発中で、NASA などの政府顧客向けに非常に大きなモデルのトレーニングが可能であることを発表した。これらの「基盤モデル」は、創薬やサイバーセキュリティなど、多くの科学分野に役立つものだ。
Googleのもう一つの主要な目標は、この新しいハードウェアを自社のソフトウェアやクラウドサービスと統合することだ。例えば、OpenAI は Azure の計算を再販することで、ユーザが独自の基盤モデルを微調整できるようにしている。
Google は、Vertex AI を通じてこのハードウェアを提供し、メンテナンス不要で複雑な ML モデルを開発したい顧客をサポートすると述べている。同時に、機能の拡張やファウンダリーモデルの充実も発表している。
【via VentureBeat】 @VentureBeat
BRIDGE Members
BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。- 会員限定記事・毎月3本
- コミュニティDiscord招待