Cerebras、世界最大のコンピューターチップを発表

15kWのウェハースケールAIチップには、革新的な冷却が必要になる

今週、世界最大のコンピュータープロセッサが、ベールを脱いだCerebras(セレブラス)という企業から発表されました。Cerebrasはカリフォルニア州に本拠を置く注目のスタートアップ企業です。

このCerebrasのAIチップはiPadと同サイズのシリコンウェハーに1.2兆個のトランジスタを搭載しています。これは、AMDのEPYC Rome(320億個)- 現在生産されている最も高密度なプロセッサの約40倍の数量です。また、チップは400,000コア、そして18ギガバイトのオンボードメモリを備えています。ちなみに Intelの最新プロセッサは最大18コアです。

Cerebrasは、ウェハースケールシリコンの製造を阻んでいた根本的な問題を解決したと、今週スタンフォード大学で開催されたHot Chipsカンファレンスで説明しました。 それは、製造時のエラー率(歩留まり)およびオンチップ通信であると言います。

これらの問題をクリアした先に彼らが直面した、より現実的な問題…システムにモンスターチップを実装する際のパッケージング、冷却、熱膨張などの課題に対しても既に解決策を得ている、と記者団に語りました。 しかし、チップの量産体制や実際の稼働システムへの実装にはまだもう少し時間がかかる見込みです。

400,000コア

Cerebrasは、 AI コンピューティング分野で GPU に勝利するために、Wafer Scale Engine(WSE)と呼ばれるこのチップを開発しました。GPUで使用される並列アーキテクチャのレプリカではあるが、彼らはそれを極限まで押し進めました。膨大な数のコアに詰め込み、それぞれに専用のメモリを持たせました。具体的には、全体の400,000のコアは4,800コア毎に7×12のタイル配列のアレイにグループ化され、各コアには48KBのSRAMを持たせています。結果として出来たウェハーのサイズは、現時点で最も大きなNvidia GPUの56倍にもなりました。

Cerebrasは、160億分の1メートル(ナノメートル)スケールのトランジスタからチップを製造しました。 尚、現在実用化されている最先端のチップは、そのおよそ半分のコンポーネントサイズです。 Cerebrasは動作クロックスピードについて言及していませんが、2〜3 GHz未満の比較的低い速度であると想定されます。

Manufacturing the Cerebras chip
– Cerebras

Cerebrasは、ベンチャーファンドから得た1億1,200万ドルで密かにWSEを開発していました。CEOのアンドリュー・フェルドマンやハードウェアアーキテクトのショーン・リーを含む主要メンバーの多くは、以前AMDが買収した最先端のシリコン企業SeaMicro社に勤務していました。

電子機器メーカーは、1980年代に同様のウェハースケールの統合を試みましたが、歩留まりが低すぎたために上手くいきませんでした。 ウェハーには、シリコン自身や製造プロセス段階での フォトリソグラフィ の分解能に起因する欠陥が常に含まれます。 製造業者は、単一のシリコンウェハーに多くのチップを配備し、破損が判明したチップを破棄します。 ほとんどのチップは完璧で使用可能なのですが、ウェハー全体を1つのプロセッサとして使用する場合、役に立たないコアが含まれることはほぼ確実です。

Cerebrasは、プロセッサの動作中に問題のあるコアを無視することで、この問題に対処しました。 また、プロセッサの多くのタイル間でデータフローが走る別の問題を解決するための通信プロトコルを開発しました。 同社はWSEをプロトタイプとして提供します。

システムビルダーは、WSEをコンピューターに実装するために、これ以外の問題も解決する必要があります。 このチップは15 kWもの電力を消費します。これは、平均的なサーバーを収容する42Uラック2架の消費電力を超えています。(補足: 3kWラックで考えると5架分にもなる) この熱を除去する唯一の方法は、チップを垂直に取り付け、液体を上向きに流しながら金属板で冷却することだとフェルドマン氏はインタビューで述べています。

Cerebrasは、製造ロードマップについては発表していません。 しかし、フェルドマン氏はEE Timesへのコメントで、「1000個のNvidia GPUと同等のパフォーマンスを、わずか2%のスペースと電力で実現を目指す」と述べていました。

Data Center Dynamics

原文はこちら