Nvidia、GPU supercomputers-as-a-Serviceを提供する「DGX Cloud」をローンチ

Nvidiaは、企業向けに、生成AIなどの高度なモデルを訓練するためのインフラとソフトウェアへのアクセスを可能にする、新たなクラウド・スーパーコンピューティング・サービスを開始しました。

既存のクラウドプロバイダーを通じて提供されるDGX Cloudサービスは、Nvidia DGXハードウェアの専用クラスタへのアクセスを提供し、月単位でレンタルすることができます。DGX Cloudの各インスタンスは、Nvidia H100またはA100 80GB Tensor Core GPUを8基搭載し、ノードあたり合計640GBのGPUメモリを搭載しています。また、DGX Cloudのインスタンスは、1インスタンスあたり月額36,999ドルから利用できます。

「私たちは今、AIのiPhoneの瞬間にいる。スタートアップ企業は、破壊的な製品とビジネスモデルを構築しようと競い合っており、既存企業はそれに対応しようと考えている。DGX Cloudは、グローバルスケールのクラウドでNvidiaのAIスーパーコンピューティングへの即時アクセスを顧客に提供します」Nvidiaの創業者兼CEOであるJensen Huang氏はこのように述べています。

初期の顧客には、オンプレミスのNvidia DGXスーパーコンピュータと連携したバイオテクノロジー企業Amgen、保険ソフトウェア企業CCC Intelligent Solutions、ServiceNowなどが挙げられます。

「Nvidia DGX CloudとNvidia BioNeMoにより、当社の研究者はAIインフラに対応したりMLエンジニアリングを設定したりする必要がなくなり、より深い生物学に集中できるようになった 」とAmgenのbiologics therapeutic discovery center for research acceleration by digital innovation(デジタルイノベーションによる研究促進のための生物製剤治療発見センター)研究担当執行役員のPeter Grandsardは述べています。「DGX Cloudの強力なコンピューティングとマルチノード機能により、BioNeMoによるタンパク質LLMのトレーニングを3倍速く、Nvidia RAPIDSによるトレーニング後の解析を代替プラットフォームと比較して最大100倍速く達成することができた」

DGX Cloudは当初、OracleのOCIクラウドサービスを通じて提供され、そのOCI Superclusterは、専用に構築されたRDMAネットワーク、ベアメタルコンピューティング、高性能ローカルおよびブロックストレージを提供し、32000以上のGPUのスーパークラスタに拡張することができます。

Nvidiaは、Microsoft Azureが来四半期にDGX Cloudのホスティングを開始し、Google Cloudなどにも「すぐに展開する」予定であると述べています。

「OCIは、あらゆる業界の何千もの顧客に、AIスーパーコンピュータを大規模に提供する最初のプラットフォームです。これは、より多くの組織が独自のAIユースケースにコンピューティングリソースを必要とする中、重要な機能である」とOracle Cloud InfrastructureのエグゼクティブバイスプレジデントであるClay Magouyrk氏は述べています。「この需要をサポートするために、私たちはNvidiaとの協業を拡大し続けています」

また、Nvidiaのエンタープライズコンピューティング担当バイスプレジデントであるManuvir Das氏は次のように述べています。「AIを活用したイノベーションの無限の機会は、事実上すべてのビジネスの変革に貢献しています。NvidiaがOracle Cloud Infrastructureと連携することで、Nvidiaの加速コンピューティングプラットフォームの並外れたスーパーコンピューティング性能を、あらゆる企業の手の届くところに置くことができるようになります」

Oracleは自身の発表の中で、NvidiaがDGX Cloudプラットフォーム上のOracle OCIを通じて、新たに発表したAI Foundationsサービスを実行していることを付け加えています。

Oracle によると、OCI Supercluster には、OCI Compute Bare Metal、Nvidia のネットワークに基づくレイテンシー RoCE クラスタ、およびストレージが選択可能であるとしています。このシステムは、32,768基のA100 GPUを搭載したOCI Compute Bare Metalインスタンスを最大4,096基まで拡張することができます。

Oracleはまた、NvidiaのBlueField-3データ処理ユニット(DPU)をネットワークスタックに追加しています。DPUは、CPUから特定のタスクをオフロードすることができ、データセンター内を移動するデータの管理、ネットワークタスクのオフロード、アプリケーションパフォーマンスの最適化を支援するタスクを担います。

Oracle Cloud Infrastructureのエグゼクティブ・バイスプレジデントであるClay Magouyrk氏は、次のように述べています。「NvidiaのBlueField-3 DPUは、最先端の持続可能なクラウドインフラを極めて高いパフォーマンスで提供するという我々の戦略の重要な要素です」

Nvidia Hopper GPUがクラウドに登場

NvidiaのHopper GPUが、多くのクラウドプロバイダーを通じて仮想インスタンスとして利用できるようになりました。

Oracleは今週、Nvidia H100 GPUを搭載したOCI Compute Bare Metalインスタンスが現在限定的に提供されていることを発表しました。また、マイクロソフトは先週、独自のH100搭載仮想マシン「ND H100 v5」のプレビューを発表しました。

AWSは、EC2 P5インスタンスを通じてH100 GPUをまもなく提供する予定です。各P5インスタンスは、16ペタフロップスの混合精度性能を持つH100 GPUを8基搭載し、640GBのメモリ、3,200Gbpsのネットワーク接続を備えています。ユーザーは、P5インスタンスを20,000以上のH100 GPUに拡張することが可能です。

なお、H100インスタンスは、Cirrascale社およびCoreWeave社から一般提供されています。

Nvidiaは、Google Cloud、Lambda、Paperspace、Vultrで将来的にH100インスタンスが提供される予定であると述べています。

オンプレミスのH100 DGXがまもなく登場

NvidiaのCEOであるHuang氏は、今週のGTC基調講演の中で、Hopper GPUを搭載した最新世代のDGX H100スーパーコンピュータをフル生産し、世界中の企業にまもなく提供していく予定であることを説明しました。

各H100 DGXは、8基のH100 GPUを搭載し、FP8精度で32ペタフロップスの演算性能を提供します。このシステムは、スウェーデンのKTH王立工科大学、日本のコングロマリットである三井物産、エクアドルの通信事業者であるTelconetなど、初期の顧客に提供されることになっています。

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。