AWSがNVIDIAのネットワーク機器をバイパスする専用ラックを構築

AWS、自社のカスタムネットワークカードをNVIDIA製ラックに収めることができなかったため、専用ラックを構築しそれを回避

AWS は、NVIDIAの最新ラックスケールシステムで自社のカスタムネットワーク機器を使い続けるため、型破りな回避策を編み出しました。ネットワークカード専用の別ラックを用意したのです。

SemiAnalysis社によると、NVIDIAのフラッグシップ製品であるNVL72ラックスケールシステムは、より背の低い1Uサーバートレイを使用しています。つまり、AWSのようなハイパースケーラーは、このスリムなトレイに物理的にネットワークカードを収めることができません。

前世代のGB200では、AWSはNVL36x2と呼ばれるカスタム設計を採用し、2つの36-GPUクラスターを接続して72-GPUシステムを構築していました。しかし、この回避策では、1トレイあたり約9枚のネットワークカードを収めるために追加のサーバートレイが必要となり、結果としてNVIDIAのネイティブなNVL72設計を使用する場合よりも多くの不具合が発生していました。

NVIDIAの最新ラックスケールシステムで同様の問題を回避し、さらにGB300ではネイティブ設計のみを提供するというNVIDIAの決定を迂回するため、AWSは新たなソリューションを採用しました。その名も「JBOK」——「just a bunch of K2v6 network interface cards(K2v6ネットワークインターフェースカードの単なる寄せ集め)」、つまりNICの集合体です。これはJBOD(just a bunch of disks:ディスクの単なる寄せ集め)をもじった洒落た呼び名です。

カスタムNICをより小さなトレイに無理やり詰め込む代わりに、AWSは創意工夫を凝らしました。エンジニアたちは、GPUからのネットワークケーブルを、ネットワークカードだけが詰まった隣接ラックに接続する方式を考案しました。

この追加されたネットワーク専用ラックには、より背の高い(2U)トレイが約18個収納されており、ハイパースケーラーのカスタムネットワークカード全てを収めるのに十分なスペースが確保されています。これらはAEC(Active Electric Cable)で相互接続されています。

※ 実際のデザインを示す図は原文にてご確認いただけます

創意工夫を凝らす

AWSは、独自のデータセンターハードウェアを設計してきた豊富な実績を持ちます。以前にはBroadcomと提携してカスタムネットワークスイッチを構築してきました。さらに、最近発表されたEC2サービスには、自社開発のネットワークスタックであるElastic Fabric Adapter(EFAv4)が搭載されており、カスタムNitroコントローラーによって駆動されます。これにより、ネットワークパケット処理が最適化され、高スループットアプリケーションの レイテンシ が削減されることになります。

AWSの各施設には、「brick」と呼ばれるものが配置されています。これは複数のサーバーを接続してより強力なクラスターを形成したり、さらには他のAWSデータセンター同士をScale-Across方式で接続するために設計された、AWSネットワークスイッチのラック群です。

SemiAnalysisによると、AWSがカスタム路線を継続する決定を下したのは、NVIDIAのConnectX-8 RoCEv2 NICがAWSのNICに比べて「劣っている」と考えているためだといいます。

GB300で独自のカスタムNICを展開しようとする試みが複雑になっている要因は、RoCEv2イーサネットと比較した場合のEFA (Elastic Fabric Adapter)のサポートにあります。

SemiAnalysisは、EFAベースのNICがパフォーマンスやユーザーエクスペリエンスの面でRoCEv2イーサネットより優れているとは「確信できない」と述べています

AWSがNVIDIAのネットワークスタックからの移行を強く求める背景には、NVIDIAがインフラストラクチャ分野で支配的な地位を確立していることがあります。AWSが独自のカスタムソリューションの採用に注力する決定は、NVIDIAのエコシステムにロックインされることを回避する助けとなるでしょう。

SemiAnalysisの見解では、AWSのGB300再設計は、各GPUが1つのConnectX-8 NICとのみ通信するというNVIDIAのリファレンス設計における単一障害点を取り除くのに役立つと思われます。

「AWSのGB300 NVL72設計では、各GPUが2つのK2v6 NICと通信するため、1つのNICに障害が発生してもワークロードがクラッシュしない」とSemiAnalysisは記しています。「AWSはEFAの未来を強く信じています。この大きな賭けがうまくいくかどうか、世界が見守ることになるでしょう。」

AWSが独自のネットワークコンポーネントに固執しているにもかかわらず、NVIDIAのBlackwellベースのラックスケールシステムは、最近のSemiAnalysisによるAI推論性能を検証するベンチマークで首位に立ちました。

NVIDIAのオリジナルリファレンス設計を使用したGB200サーバーシステムは、1ドルあたりのスループットや1MWあたりのトークン数など、各指標で最強のパフォーマンスを記録し、AMD MI355Xなどの競合システムを上回りました。

この記事は海外The SDxCentral 発の記事をData Centre Dynamicsが転載し、その記事をData Center Cafeが日本向けに抄訳したものです。

関連記事一覧

  1. この記事へのコメントはありません。