Tesla、スパコン「Dojo」の詳細を発表、Dojo D1チップとトレーニングタイルモジュールを公開

Data Center Dynamics
2021.08.23
2,056 views

テスラは、次期スーパーコンピュータ「Dojo」に関する情報を公開し、そのエクサスケールシステムを構成するハードウェアの一部を明らかにしました。

2019年以降、テスラのCEOであるイーロン・マスク氏は、「ニューラルネットワーク・エクサフロップ・スーパーコンピュータ」Dojoについて定期的にツイートしてきましたが、これまで詳細はほとんど公開していませんでした。

しかし先週開催されたイベント「AI Day」で、同社は、システムを駆動する自社製D1チップと「トレーニングタイル」モジュールを公開しました。

テスラのオートパイロット・ハードウェア担当シニアディレクターであり、Project DojoのリーダーであるGanesh Venkataramanan氏は、7nmのD1チップは機械学習に特化して社内で設計され、帯域幅のボトルネックは解消していると述べています。

D1の354チップノードは、それぞれ1テラフロップス（1,024Gflops）の演算能力を持つと言われています。Venkataramanan氏は、チップ全体では最大363テラフロップスの演算能力と、10Tbpsのオンチップ帯域幅/4Tbpsのオフチップ帯域幅を備えていると述べています。

「ダークシリコンもレガシーサポートもない、これは純粋な機械学習マシンです。このチップは、アーキテクチャからパッケージに至るまで、すべてテスラのチームが社内で設計しました。このチップは、CPUレベルの柔軟性と、ネットワークチップレベルの2倍のI/O帯域幅を持つ、GPUレベルのコンピュートのようなものです」

このチップを搭載するために、テスラは「トレーニングタイル」と呼ばれるコンピューティングシステムを構築する仕組みを開発しました。各タイルは、25個のD1チップを集積したマルチチップモジュールで構成され、各タイルで9ペタフロップスの演算能力と36Tbpsのオフタイル帯域幅を実現しています。

Venkataramanan氏によると、先週、最初のトレーニングタイルが納入され、テストが行われたと話しています。Dojoを構築するためには、1台のキャビネットに6つのタイルを組み合わせた2つのトレイを設置し、1つのキャビネットあたり100ペタフロップスの計算能力を持たせる予定だと同社は述べています。システム完成時には、接続された10台のキャビネットを介して、1.1エクサフロップスのAIコンピュートの能力を持つ1台の「Exapod」ができあがります。システム全体では、120個のタイル、3,000個のD1チップ、100万個以上のノードが収容される予定です。

マスク氏は、このシステムは来年には稼働するだろうと述べています。

Dojoがなくとも、テスラの既存のHPC能力は充実しています。6月には、AI担当シニアディレクターAndrej Karpathy氏が、同社が既に使用しているPre-Dojoスーパーコンピュータの詳細について語っています。

このクラスターは、同社が現在運用している3つのクラスターのうちの1つで、720のノードを持ち、それぞれに80GBのNvidia A100 GPUを8基搭載し、システム全体で合計5,760基のA100を搭載しています。Nvidiaのスーパーコンピュータ「Selene」（63ペタフロップス）におけるA100の性能に関する過去のベンチマークによると、8基のA100ノードを720セット搭載することで、最新のTop500リストで5位となる約81.6ペタフロップス（Linpack）を達成しました。

先週のイベントでは、同社は現在、3つのHPCクラスター（以前に言及されたトレーニング用の5670システムに加え、トレーニング用の4032GPUシステム、そしてオートラベリング用の1752GPUシステム）で約10,000基のGPUを稼働させていると発表しました。

AIイベントでは、「Tesla Bot」と呼ばれる5フィート8インチの人型ロボットのコンセプトについての発表も行われました。そのプロトタイプは来年中には完成する予定です。

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。