Nvidia、GPU supercomputers-as-a-Serviceを提供する「DGX Cloud」をローンチ

Data Center Dynamics
2023.03.27
688 views

Nvidiaは、企業向けに、生成AIなどの高度なモデルを訓練するためのインフラとソフトウェアへのアクセスを可能にする、新たなクラウド・スーパーコンピューティング・サービスを開始しました。

既存のクラウドプロバイダーを通じて提供されるDGX Cloudサービスは、Nvidia DGXハードウェアの専用クラスタへのアクセスを提供し、月単位でレンタルすることができます。DGX Cloudの各インスタンスは、Nvidia H100またはA100 80GB Tensor Core GPUを8基搭載し、ノードあたり合計640GBのGPUメモリを搭載しています。また、DGX Cloudのインスタンスは、1インスタンスあたり月額36,999ドルから利用できます。

「私たちは今、AIのiPhoneの瞬間にいる。スタートアップ企業は、破壊的な製品とビジネスモデルを構築しようと競い合っており、既存企業はそれに対応しようと考えている。DGX Cloudは、グローバルスケールのクラウドでNvidiaのAIスーパーコンピューティングへの即時アクセスを顧客に提供します」Nvidiaの創業者兼CEOであるJensen Huang氏はこのように述べています。

初期の顧客には、オンプレミスのNvidia DGXスーパーコンピュータと連携したバイオテクノロジー企業Amgen、保険ソフトウェア企業CCC Intelligent Solutions、ServiceNowなどが挙げられます。

「Nvidia DGX CloudとNvidia BioNeMoにより、当社の研究者はAIインフラに対応したりMLエンジニアリングを設定したりする必要がなくなり、より深い生物学に集中できるようになった」とAmgenのbiologics therapeutic discovery center for research acceleration by digital innovation（デジタルイノベーションによる研究促進のための生物製剤治療発見センター）研究担当執行役員のPeter Grandsardは述べています。「DGX Cloudの強力なコンピューティングとマルチノード機能により、BioNeMoによるタンパク質LLMのトレーニングを3倍速く、Nvidia RAPIDSによるトレーニング後の解析を代替プラットフォームと比較して最大100倍速く達成することができた」

DGX Cloudは当初、OracleのOCIクラウドサービスを通じて提供され、そのOCI Superclusterは、専用に構築されたRDMAネットワーク、ベアメタルコンピューティング、高性能ローカルおよびブロックストレージを提供し、32000以上のGPUのスーパークラスタに拡張することができます。

Nvidiaは、Microsoft Azureが来四半期にDGX Cloudのホスティングを開始し、Google Cloudなどにも「すぐに展開する」予定であると述べています。

「OCIは、あらゆる業界の何千もの顧客に、AIスーパーコンピュータを大規模に提供する最初のプラットフォームです。これは、より多くの組織が独自のAIユースケースにコンピューティングリソースを必要とする中、重要な機能である」とOracle Cloud InfrastructureのエグゼクティブバイスプレジデントであるClay Magouyrk氏は述べています。「この需要をサポートするために、私たちはNvidiaとの協業を拡大し続けています」

また、Nvidiaのエンタープライズコンピューティング担当バイスプレジデントであるManuvir Das氏は次のように述べています。「AIを活用したイノベーションの無限の機会は、事実上すべてのビジネスの変革に貢献しています。NvidiaがOracle Cloud Infrastructureと連携することで、Nvidiaの加速コンピューティングプラットフォームの並外れたスーパーコンピューティング性能を、あらゆる企業の手の届くところに置くことができるようになります」

Oracleは自身の発表の中で、NvidiaがDGX Cloudプラットフォーム上のOracle OCIを通じて、新たに発表したAI Foundationsサービスを実行していることを付け加えています。

Oracle によると、OCI Supercluster には、OCI Compute Bare Metal、Nvidia のネットワークに基づくレイテンシー RoCE クラスタ、およびストレージが選択可能であるとしています。このシステムは、32,768基のA100 GPUを搭載したOCI Compute Bare Metalインスタンスを最大4,096基まで拡張することができます。

Oracleはまた、NvidiaのBlueField-3データ処理ユニット（DPU）をネットワークスタックに追加しています。DPUは、CPUから特定のタスクをオフロードすることができ、データセンター内を移動するデータの管理、ネットワークタスクのオフロード、アプリケーションパフォーマンスの最適化を支援するタスクを担います。

Oracle Cloud Infrastructureのエグゼクティブ・バイスプレジデントであるClay Magouyrk氏は、次のように述べています。「NvidiaのBlueField-3 DPUは、最先端の持続可能なクラウドインフラを極めて高いパフォーマンスで提供するという我々の戦略の重要な要素です」

Nvidia Hopper GPUがクラウドに登場

NvidiaのHopper GPUが、多くのクラウドプロバイダーを通じて仮想インスタンスとして利用できるようになりました。

Oracleは今週、Nvidia H100 GPUを搭載したOCI Compute Bare Metalインスタンスが現在限定的に提供されていることを発表しました。また、マイクロソフトは先週、独自のH100搭載仮想マシン「ND H100 v5」のプレビューを発表しました。

AWSは、EC2 P5インスタンスを通じてH100 GPUをまもなく提供する予定です。各P5インスタンスは、16ペタフロップスの混合精度性能を持つH100 GPUを8基搭載し、640GBのメモリ、3,200Gbpsのネットワーク接続を備えています。ユーザーは、P5インスタンスを20,000以上のH100 GPUに拡張することが可能です。

なお、H100インスタンスは、Cirrascale社およびCoreWeave社から一般提供されています。

Nvidiaは、Google Cloud、Lambda、Paperspace、Vultrで将来的にH100インスタンスが提供される予定であると述べています。