適応型演算アクセラレーションによるコアインフラストラクチャのパフォーマンス向上

【スポンサーコンテンツ】1 / 2 ページ

著者: Mike Thompson氏 (ザイリンクス Virtex UltraScale+ FPGA & Versal プレミアム ACAP 担当シニア プロダクト ライン マネージャー)

あらゆるところに AI、常時オン、そしてデータ中心の時代を迎え、今日のテクノロジやフォーム ファクターの能力を超えた高帯域幅の拡大が求められている中、現在の CPU および GPU テクノロジを超えて拡張できる、より効率的で汎用性の高い演算性能が求められています。

はじめに: 常時オン、データ中心、あらゆるところに AI

お金を抜きにして考えれば、この世界を回しているのはデータだといえます。都市計画、健康状態の記録、環境保護、ビジネスの向上といったさまざまな目的でデータを取り込むリモートの IoT エンドポイントから、コンテンツのストリーミングや日常生活のオンライン共有のニーズ、常時接続されたパーソナル IoT デバイスの民生品利用の拡大、企業リサーチや科学研究を目的とした AI 中心型アプリケーションへの依存増加に至るまで、ありとあらゆるものの中心にデータの移動、管理、分析が存在しています。

デジタル ライフスタイルと新たに出現した IoT は、クラウドでのコンピューティング サービスやデータ サービスの急成長と密接な関係があります。新しい生活スタイルや働き方、外出先からもアクセスする大量のパーソナル コンテンツの保存手段、オンデマンドの音楽や動画ストリーミング サービスのホスト手段、産業データや企業データの収集および分析手段の中心にあるのがクラウドです。また、財務分析やデータベース検索、ゲノム解読などのタスクに高性能なソフトウェア アプリケーションをサイクル ベースの低コストで利用できるものもクラウドの恩恵です。

さらに、大量端末接続 (MMTC) と超低遅延通信 (ULLC) をサポートして新たなリアルタイム セルラー サービスを実現する 5G New Radio (NR) により、バックホール ネットワーク、メトロ ネットワーク、コア ネットワークの容量とパフォーマンスに対する需要は今後ますます増加すると見込まれています。

コアインフラストラクチャに対する需要の増加

今日のすべてのクラウド データセンターや通信ネットワークおよびセルラー バックホール ネットワークは、データセンターへ/からのリンクや、地理的に分散されたデータセンター サイト、インフラストラクチャ インターフェイス カード、アクセラレーター カードをつなぐデータセンター インターコネクト (DCI) などの主要コンポーネントに接しており、データ帯域幅の拡張と演算スループットの向上が強く求められています。実際に、コア インフラストラクチャにおけるデータ帯域幅の需要は、公称では年平均成長率 (CAGR) 51% で増加しており、5G展開だけを要因としてもエリア トラフィック容量の需要は 100 倍に増える見込みです。

プロトコル処理やインターフェイス チップなどのディスクリート コンポーネントでこれらの需要に応えるべく、より高性能な新型機器を開発するのは複雑で時間がかかるだけでなく、パフォーマンスの需要に合わせた拡張が一層難しくなるという問題もあります。しかも、このような設計によるシステムは大型で消費電力が非常に高いため、データセンターやインフラストラクチャ用機器のスペース、消費電力、温度管理に対する制約事項を満たすことができません。次世代の機器は、これまでの物理的、電気的、温度的制限内でパフォーマンスを大幅に向上させる必要があります。

さらに、設計作業では、できるだけ早く市場に出す準備をするため、最終的な仕様が承認される前に最新のプロトコルや規格を使用し始める必要もあります。少しでも早く製品を市場投入したい機器プロバイダーが仕様が成熟するまで待つことはありません。そのため、プロジェクトの進行に伴いハードウェア レベルで適応できる柔軟性も求められます。

革新的なプログラマブルアクセラレーター

高集積度の FPGA やプログラマブル システム オン チップ IC (MPSoC) などのプログラマブル ロジック デバイスは、従来の CPU または GPU アーキテクチャでは十分な速度で実行できないワークロードや、消費電力の制約事項を満たすことのできないワークロード向けのアクセラレーターとして使用されるようになりました。これらのデバイスは、信号処理や最近ではニューラル ネットワークなどといった演算に関する具体的な課題を非常に効果的に解消する高度な並列処理が可能であり、またプログラマブル デバイスとしての適応性も備わっています。

現在は、より新しく厳しいパフォーマンス目標、帯域幅目標、消費電力目標、統合目標を達成するため、ACAP (適応型演算アクセラレーション プラットフォーム) と呼ばれる新しいクラスのプログラマブル デバイスが登場しています。ザイリンクス Versal™ ACAP には、インテリジェントな AI および DSP演算エンジン、FPGA ロジック ファブリックに相当する適応型エンジン、アプリケーション処理エンジン、リアルタイム スカラー エンジンがあり、プログラマブル ネットワーク オン チップ (NoC) インターコネクトを通して密結合されています。また、ソフトウェア制御によるプラットフォーム管理と最新のインターフェイス (DDR4、100G イーサネット、PCIe® Gen 5、数ギガビットの光インターフェイスなど) も統合されています。

Versal DSP エンジンは、INT8 や 32 ビット浮動小数点などのオペランドをネイティブ サポートする改良型 DSP ブロックを特長としています。これにより、デジタル信号処理だけでなく、多入力ダイナミック バス シフター、メモリ アドレス ジェネレーター、多入力バス マルチプレクサー、メモリ マップド I/O レジスタも含むアプリケーションの速度と効率性が向上します。スカラー エンジンは、デュアル コア Arm® Cortex™-A72 アプリケーション プロセッサとデュアル コア Arm® Cortex™-R5F リアルタイム プロセッシング ユニットで構成されています。ACAP のヘテロジニアス エンジンは、経時変化するワークロードに合わせて、あるいはアルゴリズムの実装やニューラル ネットワーク モデルの進化に伴って再プログラミングが可能です。

コネクティビティが最適化された ACAP

Versal プレミアムシリーズは、この新しいクラスのプログラマブル デバイスによって確立されたイノベーションをベースとして、今日のコア インフラストラクチャへの需要に対処するべく誕生しました。この高帯域幅デバイスは、高い演算密度に加えて、専用高速暗号化 (HSC) エンジンおよび最新のネットワーク インターフェイスを兼ね備えています。

これらのネットワーク コネクティビティには、双方向帯域幅合計 9Tb/s まで拡張可能な光トランシーバーが含まれており、最新のイーサネットおよび Interlaken の速度とプロトコル、112Gb/s の PAM4 トランシーバー、最大 400Gb/s の高速暗号化エンジンによる暗号処理、適応型ハードウェアをサポートします (図 1)。

図 1. 112Gb/s PAM4、600G イーサネット、600G Interlaken、400G HSC を備えた Versal プレミアム ACAP

112G PAM4 トランシーバーをコア インフラストラクチャ、メトロ インフラストラクチャ、DCI インフラストラクチャに使用すると、既存の 58Gb/s PAM4 テクノロジと比べてポートあたりの帯域幅密度が倍増し、それによりフロントパネルの占有ラック スペースを減らすことができ、通信アプリケーションやデータセンター アプリケーションのユニットあたりの帯域幅を 2 倍にできます。同時に、所定のデータ ペイロードを送信する際のレイテンシが 50% 低くなるため、アプリケーションの応答性が向上し、地理的に分散されたデータセンターを相互接続する際のレイテンシの影響を軽減できます。

リソースをチップ上で統合することで、ザイリンクス 16nm Virtex® UltraScale+™ FPGAの最大 3 倍の帯域幅、2 倍の演算密度を提供します。一方、アプリケーション固有の専用 OTN (光トランスポート ネットワーク) プロセッサと比べて、アプリケーションのスループットは 3 ~ 5 倍になります。

演算密度の向上

ハイパースケール クラウド サービス プロバイダーの現在および将来の需要に対応するため、Versal ACAP アーキテクチャは、高性能ヘテロジニアス演算エンジンと密結合された非常に高いオンチップ メモリ帯域幅と、Dynamic Function eXchange (DFX) による柔軟なワークロード プロビジョニングを兼ね備えています。DFX は前述の 16nm FPGA に比べて 8 倍の速さでカーネルを切り替えることができ、アクセラレーターを動的にプロビジョニングして、データ解析、機械学習のビジョン処理、ゲノミクス、ビデオ トランスコーディング、暗号処理といった経時変化する演算ワークロード用のデバイス リソースを最大限効率的に利用することを可能にします。

さまざまなタイプの分散型オンチップ RAM を搭載していることで、最大 1Gb の密結合メモリが利用可能となり、オンチップ メモリ帯域幅は最大 123TByte/s に相当します。これにより、現在最高の GPU よりも 9 倍高速な、各種処理エンジンとメモリ間の高速な相互接続が可能になります。加えて、プログラマブル NoC インターコネクトにより、オフチップの DDR4 メモリとの高速な相互接続もサポートされます。

Versal プレミアム ACAP は、セキュアでコスト効率の高いプラットフォームで新しい規格や発展途中の規格に適応できる柔軟性を持ちながら、サーバー側およびトランスポート側のさまざまな光モジュールやプロトコルに対応したいという、DCI 機器に対するニーズを満たすことができます。1RU システムまたはシングル カードだけで、幅広い標準および最新プロトコルや光モジュールをサポートした 3.2Tb/s が実現されます (図 2)。最新のコネクティビティと暗号コアを備えた Versal プレミアム ACAP 1 つで、サーバー側の光モジュールとの 4x25G NRZ 接続を使用した複数の 100G FlexE イーサネット チャネル、4x112G PAM4 接続で実装されたライン側の 400G イーサネット チャネル、1.6Tb/s ライン レートの AES256 暗号化、制御機能およびポート管理機能の実装が可能です。

図 2. Versal プレミアム ACAP を利用した 3.2Tb/s DCI

>> 次ページへ