NvidiaのGPU不足は、シリコンバレーの〝トップゴシップ〟になりつつある

SHARE:
Image credit: Nvidia

Tesla の元 AI ディレクタで現在は OpenAI のAndrej Karpathy 氏によると、計算負荷の高いジェネレーティブ AI が減速する兆しを見せない中、どの企業が大規模言語モデル(LLM)トレーニング用に、入手困難な超高価な高性能コンピューティング GPU であるNvidia の「H100 GPU」にアクセスできるかは、シリコンバレーの「トップ・ゴシップ」になりつつあるという。

Karpathy 氏のコメントは、GPU アクセスに関する問題が大手テック企業の年次報告書でさえ議論されるようになった矢先のことだ。先週発表された Microsoft の年次報告書では、同社は投資家に対して GPUが「急成長するクラウドビジネスにとって重要な原材料」であることを強調し、GPU について「必要なインフラを入手できない場合に発生する可能性のある機能停止のリスク要因」という文言を追加した。

Karpathy 氏は、ソーシャル ネットワーク X (旧 Twitter)で、Hacker Newsの投稿者が作成したと思われる広く回覧されたブログ投稿を再共有した。その内容は大小のクラウド プロバイダにおける大規模な H100クラスターの容量が不足しており、H100の需要は少なくとも2024年末までその傾向が続くと考えられるというものだ。

著者は、OpenAI は5万個の H100を欲しがり、Inflection は2万2,000個、Metaはおそらく2万5,000個、大手クラウド(Azure、Google Cloud、AWS、Oracle)はそれぞれ3万個を欲しがるかもしれないと推測している。Lambda と CoreWeave、そしてその他のプライベートクラウドは、合計10万個を望むかもしれない。Anthropic、Helsing、Mistral、Character はそれぞれ1万個を要求するかもしれない、と彼は書いている。

著者は、これらの見積もりは「総計であり、推測であり、クラウドとクラウドからレンタルするエンドカスタマーの両方をダブルカウントしている部分もあります。」と述べている。しかし、H100は約43万2000個になる。1個約3万5,000米ドルで、約150億米ドル相当の GPU となる。また、ByteDance(TikTok)、Baidu(百度)、Tencent(騰訊)のような H800を大量に欲しがる中国企業は除外される。また、A100や H100を数百台から始めて、A/H100を数千台まで導入するJane Street、JP Morgan、Two Sigma、Citadel などの金融企業がある。

このブログの著者には、GPU への渇望を強調する新曲と動画が掲載されている。

GPU 不足をめぐる憶測に対して、Box のCEO Aaron Levie 氏のように、たくさんのジョークが飛び交っている。

キャピタリスト曰く、「GPUへの需要は「ゲーム・オブ・スローンズのようだ」

Radical Ventures のパートナー David Katz 氏は最近、VentureBeat の取材に対して次のように答えた

AIチップ を手に入れるための戦いに最も近い例えは、テレビで大ヒットした「ゲーム・オブ・スローンズ」です。これらのモデルや大規模なモデルを実行するために必要なコンピューティングには、飽くなき欲求があります。(Katz 氏)

Radical Ventures は昨年、機械学習(ML)モデルを最適化し、より高速に動作させ、コンピュートコストを削減する CentML に投資した。 CentML の提供は、市場に「もう少し効率化」を生み出すと同氏は言う。さらに、10億パラメータを超える複雑なモデルも従来のハードウェアで実行できることを実証している。

つまり、同じ量の GPU は必要なく、A100も必ずしも必要ではないのです。そのような観点からは、本質的に市場におけるチップの容量や供給量を増やすことになります。(Katz 氏)

GPU ではなく、コンピュータのメモリでより多くの処理を行うことで、推論にかかるコストを削減するプラットフォームを構築している d-Matrix の CEO Sid Sheth 氏によれば、こうした取り組みは、LLMをゼロからトレーニングするよりも、AIの推論に取り組んでいる人々にとってより効果的かもしれないという。

彼は CNBC に次のように語った。

推論の問題点は、ワークロードが急激に急増した場合です。ChatGPT では、5日間で100万人のユーザを獲得しました。GPU はそのために作られたわけではありませんから。GPU はトレーニング用、グラフィック・アクセラレーション用に作られたのです。 (Sheth 氏)

LLM トレーニングに GPU は必須

LLM トレーニング(OpenAI、Anthropic、DeepMind、Google、そして現在はElon Musk 氏の X.ai を含むすべてのラボ大手が行っている)では、Nvidia の H100に代わるものはない。

CoreWeave のような GPU クラウドで数十億米ドルを稼ごうとしているクラウドスタートアップにとっては朗報であり、また、CoreWeave が対抗するために独自の AI チップを製造していないため、Nvidia が GPU をたくさん提供しているという事実もある。

McBee 氏は VentureBeat に対し、CoreWeave の昨年の売上は3000万米ドル、今年は5億米ドル、来年はすでに20億米ドル近くを契約していると語った。CNBC は6月、Microsoft がスタートアップの CoreWeave のクラウドコンピューティングインフラに、複数年にわたって潜在的に数十億米ドルを費やすことに合意したと報じた

われわれは膨大な顧客需要のバックログを抱えています。また、現在12のデータセンターで構築中です。私は、3ヶ月前には聞いたこともなかったような会社で、今日地球上で最大級のインフラ構築に携わっています。(McBee 氏)

さらに、AIの普及曲線は「これまで市場に登場したソフトウェアの中で最も深く、最も速いペースで普及している」と言い、これらのモデルを訓練するのに必要な特定の種類の計算のための必要なインフラが追いつかないと付け加えた。

しかし、CoreWeave は努力を続けていいる。

我々は、この次世代 H100コンピュートを4月から世界有数の AI 研究所の手に渡しています。第4四半期までは Google から手に入れることはできないでしょう。Amazon の予定されているアポイントメントは第4四半期までないと思います。(McBee 氏)

CoreWeave は、Nvidia が製品をより早く市場に投入できるよう支援している。

ハイパースケーラよりも優れた構成で構築するため、顧客がより高いパフォーマンスを引き出せるよう支援している。これがNvidia の当社への投資の原動力となっています。これは、クラウドサービス プロバイダーがこれまでに行った唯一の投資です。(McBee 氏)

Nvidia DGXの責任者、GPU不足はないがサプライチェーンに問題があると発言

Nvidia のある幹部は、問題は GPU 不足というよりも、その GPU がどのように市場に出回るかにあると言う。

Nvidia の DGX Systems 担当副社長兼 GM Charlie Boyle 氏は、「Nvidia は多くの GPU を製造している」としながらも、クラウドプロバイダの間で不足している GPUの 多くは、すでに顧客に販売済みのものであると述べた。

システム面では、我々は常に顧客に対して非常に供給責任を負ってきました。何千ものGPUを要求されると時間がかかるが、我々はその需要の多くに対応しています。(Boyle 氏)

過去7年間で彼が学んだことは、最終的にはサプライチェーンの問題でもあるということだ。

人々がGPU 不足という言葉を使うとき、それは GPU そのものではなく、ボード上のコンポーネントの不足、あるいは滞留のことを指しているのです。しかし、我々は、人々が何を望み、世界が何を作ることができるかを予測します。

GPU不足問題は、時間の経過とともに、不足にまつわる誇大宣伝と、誰かが間違った計画を立てたという現実との間で、物語から外れていくでしょう。(Boyle 氏)

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する