Meta、AIファーストの未来を支える新データセンターとスパコンを公開

SHARE:
Image credit: Meta

かつて Facebookとして知られていたソーシャルメディアの巨人  Meta は、10年以上にわたって AI のパイオニアとして、ニュースフィード、Facebook 広告、メッセンジャー、バーチャルリアリティなどの製品やサービスに AI を活用してきた。しかし、より高度でスケーラブルな AI ソリューションへの需要が高まるにつれ、より革新的で効率的な AI インフラへのニーズが高まっている。

18日に開催されたイベント「AI Infra @ Scale」(Metaのエンジニアリングやインフラストラクチャチームが主催する1日のバーチャルカンファレンス)で、同社は次世代の AI アプリケーションをサポートすることを目的とした一連の新しいハードウェアやソフトウェアプロジェクトを発表した。このイベントでは、Meta のスピーカーが、大規模な AI システムの構築と展開に関する洞察と経験を共有した。

発表の中には、AI モデルの開発と実行の2つの主要なフェーズであるAIトレーニングと推論の両方に最適化された新しいAIデータセンターの設計が含まれている。新しいデータセンターは、コンピュータビジョン、自然言語処理、推薦システムなど、さまざまなドメインにわたるAIワークロードの高速化を支援するチップ「Meta training and inference accelerator(MTIA)」という Meta 独自のシリコンを活用する予定だ。

また、Meta が2月末に発表したプロジェクト「LLaMA」のような大規模言語モデル(LLM)の学習を支援するために、16,000個のGPUを連携した AI スーパーコンピュータ「Research Supercluster(RSC)」を既に構築していることを明らかにした。

2023年、AI インフラの構築はビッグテック各社にとって必須になる

Metaは、目的別のAIインフラを考えている唯一のハイパースケーラー、または大規模ITベンダーとは言い難い。11月、MicrosoftとNvidia は、クラウド 上の AI スーパーコンピュータに関する提携を発表した。このシステムは、Nvidia の GPU と Nvidia の Quantum 2 InfiniBand ネットワーキング技術で接続されており、その恩恵を受けている。

数ヵ月後の2月、IBM はコードネーム「Vela」と呼ばれる AI スーパーコンピュータの詳細を説明した。IBM のシステムは、Nvidia GPUとイーサネットベースのネットワーキングと並んで、x86 シリコンを使用している。Vela の各ノードには、80GB の A100 GPU が8個搭載されている。IBM の目標は、企業の AI ニーズに応えることができる新しい基盤モデルを構築することだ。

それに負けじと、Google も5月10日の発表で、AI スーパーコンピュータ競争に参入してきた。Googleのシステムは、Nvidia の GPU をカスタム設計のインフラストラクチャー・プロセッシング・ユニット(IPU)と共に使用し、迅速なデータフローを可能にする。

Image credit: Meta

Meta の新しい AI 推論アクセラレータがもたらすもの

Meta は現在、MTIA チップでカスタムシリコンの分野にも参入している。カスタムメイドの AI 推論チップもまた、新しいものではない。Google は数年前から TPU(Tensor Processing Unit)を作り込んでおり、Amazon は2018年から独自のチップ「AWS inferentia」を用意している。

Meta にとって、AI 推論はニュースフィード、ランキング、コンテンツ理解、レコメンデーションなど、同社のソーシャルメディアサイトの運用における複数の側面で必要となっている。MTIA シリコンの概要を紹介するビデオの中で、Meta のインフラ担当リサーチサイエンティスト Amin Firoozshahian 氏は、従来の CPU は Meta が実行するアプリケーションからの推論要求に対応できるようには設計されていないとコメントした。そのため、同社は独自のカスタムシリコンを構築することを決定した。

MTIA は、私たちが気にするワークロードに最適化され、そのニーズに特化して作られたチップです。(Firoozshahian 氏)

Meta は、独自に作成したオープンソースの機械学習(ML)フレームワーク「PyTorch」のビッグユーザでもある。2022年以降、PyTorch は Linux Foundation の PyTorch Foundation の取り組みのガバナンス下に置かれている。MTIA の目標の一つは、Metaの大規模なスケールでPyTorchのワークロードを実行するために高度に最適化されたシリコンを持つことだ。

MTIA のシリコンは7nm(ナノメートル)プロセス設計で、最大102.4TOPS(1秒間に1兆回の演算)を提供することができる。MTIA は、ネットワーク、データセンターの最適化、電力利用など、AI 運用を最適化するための Meta 社内の高度に統合されたアプローチの一部だ。

未来のデータセンターは AI のために作られる

Infra@Scale のラウンドテーブル。右から2人目が Rachel Peterson 氏。
Image credit: Meta

Meta は、数十億人のユーザーのニーズに応えるため、10年以上前から独自のデータセンターを構築してきた。これまではうまくいっていたのだが、AI 需要の爆発的に増加しているため、さらに多くのことを行うタイミングが来ている。

Meta のデータセンター戦略担当 VP Rachel Peterson 氏は、Infra@Scale のラウンドテーブルディスカッションで次のように語った。

私たちの現行世代のデータセンター設計は、ワールドクラスで、エネルギーと電力効率に優れています。それは実際に、サーバー、ストレージ、ネットワークの複数の世代を通じて私たちを本当にサポートしており、それは本当に私たちの現在のAIワークロードにうまく対応することができます。

Meta全体でAI利用が進むと、より多くの計算能力が必要になる。Peterson 氏は、Meta は AI チップが Meta の一般的な CPU サーバーの5倍以上の電力を消費すると予想される未来を見ていると指摘した。その期待から、Meta はデータセンターの冷却を見直し、適切なレベルの電力効率を実現するために、チップに液冷を提供することにした。AI を実現するための適切な冷却と電力を可能にすることが、Meta の新しいデータセンター設計の原動力となっている。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する