Meta が2つの新しい24k GPU AIクラスタを発表

Data Center Dynamics
2024.03.13
283 views

AIの研究開発をサポートするために構築

Meta は、同社の大規模言語AIモデル「Llama 3」のトレーニングに使用している2つの新しい24,000GPUデータセンター規模のクラスタを構成するハードウェア、ネットワーク、ストレージ、設計、パフォーマンス、ソフトウェアの詳細を公開しました。

新しいトレーニング・クラスタは、2022年に発表されたMetaのAIリサーチ・スーパークラスター（ Research SuperCluster：RSC）をベースにしています。

自然言語処理、音声認識、画像生成などの分野におけるAIの研究開発をサポートするために開発された今回発表されたクラスタは、いずれも24,576基のNvidia Tensor Core H100 GPUを搭載しています。これは、16,000 Nvidia A100 GPUを搭載していた当初のクラスタよりも大幅に増加しています。

Metaによると、クラスターはRSCよりも大規模で複雑なモデルをサポートできるようになり、ジェネレーティブAI製品開発の進歩に道を開くといいます。

同社は2024年末までに、約60万個のH100に相当する計算能力を備えたポートフォリオの一部として、35万個のNvidia H100を含むインフラ構築の拡大を目指しています。

GPUの数は同じですが、2つのクラスタはネットワークインフラが異なります。どちらのソリューションも400Gbpsのエンドポイントを相互接続しますが、MetaはArista 7800とWedge400およびMinipack2 OCPラックスイッチをベースにしたRoCE（Remote Direct Memory Access）ネットワークファブリックソリューションで1つを構築しました。もう1つのクラスタは、Nvidia Quantum2 InfiniBandファブリックを採用しています。

さらに、どちらのクラスターも、大規模なAIワークロードをサポートするMetaの自社製オープンGPUハードウェア・プラットフォーム「Grand Teton」を使用して構築されています。Zion-EXプラットフォームの後続機であるこのプラットフォームは、前モデルと比較して、ホストからGPUへの帯域幅が4倍、コンピュートとデータネットワークの帯域幅が2倍、パワーエンベロープが2倍となっています。

このクラスタはまた、Grand Tetonのようなソリューションをサポートし、データセンター環境でより高い柔軟性を提供するために特別に設計されたインフラである、MetaのOpen Rack電源およびラックアーキテクチャを使用して開発されました。

同社のOpen Rack v3ハードウェアは、電源棚をバスバーにボルトで固定するのではなく、ラック内の任意の場所に設置するアーキテクチャ・ソリューションを提供し、柔軟なラック構成を可能にします。

Meta によるとこれらの新しいクラスタでは、ラックあたりのサーバー数は、サーバーあたりのスループット容量、ラック数の削減、および関連する電力効率の適切なバランスを可能にするようにカスタマイズされているといいます。

ストレージには、Metaの「Tectonic」分散ストレージ・ソリューションに支えられたLinux Filesystem in Userspace APIを使用しています。同社はまた、Hammerspaceと提携して、並列ネットワークファイルシステム（parallel network file system：NFS）を共同開発しています。

どちらのクラスタも、最新の大容量E1.S SSDを搭載したYV3 Sierra Pointサーバープラットフォームをベースにしています。最適なネットワーク利用は、ネットワーク・トポロジーの変更、ネットワーク・ルーティング、Nvidia Collective Communications Library（NCCL：NvidiaのGPUとネットワーク用に最適化された標準通信ルーチンのライブラリ）の導入によって達成されました。

Meta はまた、何十万ものGPUトレーニングに対応できるよう、基礎となるAIフレームワークPyTorchを進化させ続けていると述べました。

テクニカル・プログラム・マネージャーのKevin Lee、プロダクション・ネットワーク・エンジニアのAdi Gangidi、プロダクション・エンジニアリング・ディレクターのMathew Oldhamが共同執筆したブログで、同社はAIソフトウェアとハードウェアにおけるオープンイノベーションへのコミットメントを維持し、「AI開発に透明性、精査、信頼をもたらし、安全性と責任を最優先に構築された誰もが恩恵を受けられるイノベーションにつながる」オープンなエコシステムを構築する取り組みとして、AI Allianceを立ち上げたと述べています。

ブログ記事はこう続けています。「私たちは将来を見据え、昨日や今日うまくいったことが明日のニーズには十分でないかもしれないことを認識しています。だからこそ私たちは、物理レイヤー、仮想レイヤー、ソフトウェアレイヤー、そしてそれ以上に至るまで、インフラのあらゆる側面を常に評価し、改善しているのです。私たちの目標は、急速に進化する新しいモデルや研究をサポートできる柔軟性と信頼性を備えたシステムを構築することです。」

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。