Nvidia、生成AI向け大容量メモリ「DGX GH200」を発表

Data Center Dynamics
2023.05.29
2,633 views

Nvidiaは、ジェネレーティブAIワークロード向けの新しいDGXクラス、GH200を発表しました。

DGX GH200は、最大256個のGrace Hopper Superchipを接続して、1つの144TB GPUシステムとするものです。 Superchipはそれ自体、NvidiaのGrace Arm CPUとHopper GPUを組み合わせたもので、チップ間インターコネクト「NVLink C2C」で接続されたものです。そして、Superchipは、新しいNVLink Switch Systemインターコネクトで接続されます。

合わせて、256個のSuperchipは、144テラバイトの共有メモリーを搭載しています。このシステムには、32チップ、64チップ、128チップのバリエーションも用意されています。

これと並行して、Nvidiaは、4基のフルスペックのDGX GH200、合計1,024個のGrace Hopper Superchipを搭載した新型スーパーコンピュータ「Helios」を立ち上げる予定です。

Nvidiaは、Google Cloud、Meta、MicrosoftらがDGX GH200にアクセスし、生成AIワークロード用の機能を探求することを計画していると述べています。

Google Cloudのコンピュート担当バイスプレジデントであるMark Lohmeyer氏は、「高度な生成モデルの構築には、AIインフラへの革新的なアプローチが必要だ」と述べています。

「新しいNVLinkスケールとGrace Hopper Superchipsの共有メモリは、大規模AIの主要なボトルネックを解決するため、Google Cloudと我々の生成AIイニシアティブに向けてその能力を探求していくことを楽しみにしている」

これまでのDGXの導入では、2基のx86 CPUと8基のGPUがペアになっていましたが、このシステムでは1：1の割合になっています。 NvidiaのDGXシステム担当VP兼GMのCharlie Boyle氏はDCDに対し、「それがもたらすものは、巨大なメモリフットプリントを超えて、はるかに多くの処理能力である」と語っています。

「AIパイプラインには、非常に高度に並列化されたGPU処理の部分があるが、データ準備や画像変換など、CPUリソースも必要な部分が常にある。そのため、GPUに直接接続された非常に強力なCPUを持つことで、a)処理が向上し、b)以前は異なるシステムで行う必要があったパイプラインの一部を、一貫した1つのシステムアーキテクチャで行うことができ、パイプライン全体をその上で実行できる」

また、マイクロソフトのAzure Infrastructure担当コーポレートVPであるGirish Bablani氏は次のように述べています。「大規模AIモデルのトレーニングは、従来、リソースと時間がかかる作業であった。 DGX GH200がテラバイトサイズのデータセットを扱う可能性があることで、開発者はより大規模かつ加速したスピードで高度な研究を行うことができるようになるだろう」

Boyle氏は、GH200が高密度コンピューティングであるにもかかわらず、依然として完全空冷である点についてDCDに対し次のように語っています。「これは、顧客と会話する際に、システム設計上の大きな考慮事項であった。「人々は最終的に液冷に移行する必要があることは分かっているが、それは困難であるという顧客からのフィードバックも聞いている。データセンターが存在しないため、新たにデータセンターを建設する必要があるのです」

Boyle氏は、次のように付け加えています。「液冷の装置を導入するにしても、私たちはこの先を見越して、液冷の装置を社内で作り、お客様のためにテストできるようにしているが、液体の部品を導入するにしても、そのリードタイムはさらに長くなる。この世代では、いかにして空冷で実現するかということが、設計上の重要な検討事項のひとつであった」

顧客からのもうひとつの要望は、箱から出してすぐに使えるシステムである、ということです。 Boyle氏は、Nvidia が今後、統合施設を使ってすべてを完全にテストし、設置したらすぐに使えるように設定していくことを明らかにしました。

さらに同氏は、生成AIの膨大な要求をサポートするために、顧客はこれまで以上に大規模な導入を求めるようになったと補足しています。「以前は、数台のシステムを購入してテストし、その後、展開をスケールアウトするのが一般的だった。しかし現在では、「いつになったら何百台ものシステムを納品してくれるのか」という顧客からの電話を受けるようになった」とBoyle氏は話しています。

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。