
Metaが稼働中のデータセンター5棟を統合し巨大AIクラスターを構築
新型ロボットを開発し、数千ラックの大規模移設を敢行
Metaは、隣接する5つのデータセンターにわたって、NvidiaのH100 GPUを129,000基搭載したデータセンタークラスターを展開しました。
同社のインフラ部門のエンジニアリング担当副社長は、当時最大のスーパーコンピューターを開発するために数千のラックを移動し、稼働中の施設を空にしたと説明しました。
Data Center Richnessが最初に報じたコメントに、Yee Jiun SongはAI Infra Summitで次のように語りました。「稼働中のデータセンターを停止するのは非常に高コストです。なぜなら、それらは莫大な投資によって運用されていて、可能な限り稼働を続け、有益な処理を行わせたいからです。」
「我々の場合、これらのデータセンターはライブのワークロードを処理しており、ユーザーに認識される停止を引き起こさずに、可能な限り迅速に停止する必要がありました。」
「これを迅速に行うために、データセンターの搬入口を再設計し、1,000ポンドのラックを移動するための新しいロボットを構築し、移動を加速するためにラックの梱包を不要にする設計も行いました。」
「これらの建物のネットワーク容量を4倍に増やしました。これは、数百メートルのネットワークファイバーを引き抜いて交換し、5つの建物を接続するために新しい溝を掘ることを意味します。そして、これらすべてを数か月で完了させました。」
同氏は、既存のサイトが「大規模なクラスターを構築するために必要な電力を供給できた」ため、この決定を下したと述べました。
同社はAIクラスターの設置場所を公表していませんが、その後さらに大規模なクラスターを展開し、迅速な導入のためにテントを使うことさえありました。
同氏は、次のように述べました。「何年もインフラを構築してきたので、スケールについてはすべて理解していると思っていました。ただ正直なところ、AIには完全に打ちのめされていて、私たちが何も知らなかったことを思い知らされています。」
Metaは今後「数千億ドル規模のコンピューティング投資」を計画しており、来年には1GW規模のクラスター「Prometheus」を、そして今後10年で5GW規模の「Hyperion」を展開する予定です。
この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。
この記事へのコメントはありません。