Facebook/Metaが巨大なNvidia DGX A100システムを構築、「世界最速のAIスーパーコンピュータ 」に

AI研究用スーパークラスターが16,000GPUに拡大

Facebookとして知られていたMeta社は、巨大な人工知能スーパーコンピュータを開発し、2022年半ばに完全に構築されれば世界最速のAIシステムになるとしています。

AI Research SuperCluster(RSC)は現在、自然言語処理(Natural Language Processing: NLP)とコンピュータビジョンの大規模モデルを研究用に訓練するために使用されています。同社は「いつか」何兆ものパラメータを持つモデルを訓練し、大人数へのリアルタイムの音声翻訳を可能にする新しいAIシステムを構築したいと述べています。

Metaによるとスパコンの開発は、Covid-19の大流行による遠隔作業とチップおよび部品のサプライチェーンの制約によって遅れたといいます。

2017年当時、MetaのFacebook AI Researchラボは、22,000個のNvidia V100 Tensor Core GPUを1つのクラスターに搭載したスーパーコンピューターを構築しました。1日に35,000のトレーニングジョブを実行し、同社のメインAIスーパーコンピューターとして機能しました。

しかし、2020年、Facebookは計算能力を高めることを決定し、より高度なAIワークロードを処理するために新しいスパコンを構築しました。現在のRSCシステムは、760台のNvidia DGX A100システムで構成されており、各システムには8つのA100 GPUと2つの64コアAMD CPUが搭載されています。

AI

6,080 個の GPU は、Nvidia Quantum 200Gb/s InfiniBand 2-level Clos ファブリックで接続されています。システムには175ペタバイトのPure Storage FlashArray、46ペタバイトのPenguin Computing Altusシステムのキャッシュストレージ、そして10ペタバイトのPure Storage FlashBladeが搭載されています。

Metaの以前のシステムと比較して、RSCはコンピュータビジョンワークフローを最大20倍高速に実行し、Nvidia Collective Communication Library(NCCL)を9倍以上高速に実行し、大規模NLPモデルの学習を3倍高速化したと社内ベンチマーク(未検証)で発表しています。

Metaによると数百億のパラメータを持つモデルでも、従来は9週間かかっていたのが3週間で学習が完了するといいます。

同社は現在もスパコンを構築中で、最終的には16,000個のGPUをエンドポイントとして接続する予定です。16TB/sの学習データを処理できるキャッシュとストレージシステムを設計しており、1エクサバイトまで拡張する計画です。

最終的なシステムは、5エクサフロップスの混合精度計算が可能であると予測されています。

ベンチマークにもよりますが、現在世界最速のAIスパコンは、エネルギー省の Perlmutter スーパーコンピュータです。4エクサフロップスのAI性能が可能で、6,159個のNvidia A100 GPUと1,536個のAMD Epyc CPUが搭載されています。

イタリアのLeonardoシステムは、3,500個のIntel Sapphire Rapids CPUと14,000個のGPUを搭載しており、間もなく発売されるとPerlmutterを追い抜くことになります。

米国は今年後半に、エクサフロップスを超える性能を持つ2つのシステムを発売する予定です–Metaが使用するAIベンチマークではなく、LINPACKベンチマークです。

1つ目のFrontierは、1.5エクサフロップス以上の性能を持ち、9000個のAMD Epyc CPUと36000個のAMD Radeon Instinct MI200 GPUを搭載すると予想されます。

これに続くのが、2エクサフロップスを超える可能性があるとされ、長らく延期されていた「Aurora」です。CPUにIntel Xeon Sapphire Rapidsを18,000個、GPUにIntel Xeを54,000個搭載する予定です。

しかし中国は昨年、2台のエクサスケール・スーパーコンピュータを密かに立ち上げたとされています。

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。