AWS、Trainium EC2インスタンスを一般提供開始

Data Center Dynamics
2022.10.12
808 views

6.3エクサフロップス相当のスパコンをクラウド上で実現可能と主張

Amazon Web Services（AWS）は今週、同社の機械学習に最適化されたチップであるTrainiumチップを搭載したAmazon Elastic Compute Cloud（Amazon EC2）Trn1インスタンスの一般提供を開始したことを発表しました。

2020年12月に初めて発表されたTrainiumチップは、「クラウドでの高性能なMLトレーニングアプリケーション」向けに作られたものです。

Amazon EC2 Trn1インスタンスのプレビュー版は、AWS re:Invent 2021で発表されました。Amazonは、この新しいインスタンスが、同等のGPUベースのEC2インスタンスと比較して最大50％のコスト削減を実現すると主張しています。

「EC2 Trn1インスタンスを使用して、音声認識、レコメンデーション、不正検出、画像および映像分類、予測などの幅広いアプリケーションセットで自然言語処理（NLP）、コンピュータビジョン、レコメンダーモデルをトレーニングすることができる」と同社は述べています。

AWSのAmazon EC2担当副社長であるDavid Brown氏は次のように述べています。「長年にわたり、私たちは機械学習が大企業が使用するニッチな技術から、多くのお客様のビジネスの中核を占めるようになったことを見てきた。そして今後は、機械学習のトレーニングが急速にコンピューティングニーズの大部分を占めるようになるだろうと予想している。AWS Trainiumは、高性能機械学習チップであるAWS Inferentiaの成功に基づき、高性能トレーニング用に設計された第2世代の機械学習チップである。AWS Trainiumを搭載したTrn1インスタンスは、お客様のトレーニング時間を数ヶ月から数日に短縮し、コスト効率も向上させることができる」

Trn1インスタンスは、AWS Inferentiaに続いてAWSが構築した第2世代MLチップであるAWS Trainiumチップを最大16基搭載しています。

Trn1インスタンスはまた、最大800GbpsのElastic Fabric Adapter（EFA）ネットワーク帯域幅を持つ最初のEC2インスタンスであり、各インスタンスは512GBの広帯域メモリ、最大3.4ペタフロップスのFP16/BF16演算能力、広帯域ノンブロッキングNeuronLinkインターコネクトを備えています。

Trn1インスタンスはEC2 UltraClustersに配置され、最大3万台のTrainiumアクセラレータに拡張可能であり、これは6.3エクサフロップスの計算能力を持つスーパーコンピュータに相当するものです。

昨年、YellowDogはAWS上に分散型スーパーコンピュータを構築し、320万基のvCPU（仮想CPU）をまとめ7時間かけてOMass Therapeutics社の337の潜在的な医療用化合物を分析・スクリーニングしました。その結果において、Top500の136位に相当する1.93ペタフロップスの性能を達成しました。

Amazon EC2 Trn1インスタンスは、単一のアクセラレータで検証し、小規模なモデルをコスト効率よくトレーニングするための「trn1.2xlarge」と、大規模なモデルをトレーニングするための「trn1.32xlarge」の2種類のサイズで提供されています。

ただし、現時点ではUS East (N. Virginia)とUS West (Oregon)のみで利用可能となっています。他のAWSリージョンについては今後追加される予定です。

Amazon SearchのシニアプリンシパルサイエンティストであるTrishul Chilimbi氏は次のように述べています。「我々は、顧客のショッピング体験を向上させるために、マルチモーダル、多言語、マルチロケールで、複数のタスクで事前にトレーニングされ、複数のエンティティ（商品、クエリ、ブランド、レビューなど）にわたる大規模言語モデルのトレーニングを行っている。Amazon EC2 Trn1インスタンスは、他の機械学習ソリューションと比較して最高のパフォーマンス/ワットを提供することで、大規模な言語モデルを訓練するためのより持続可能な方法を提供し、最も低いコストで高いパフォーマンスを提供してくれる。私たちは、新たに設定可能なFP8データ型とハードウェアアクセラレーションのStochastic Roundingについて調査し、学習効率と開発速度をさらに向上させる予定である」

「私たちはAmazon EC2 Inf1インスタンスに大規模なAIチャットボットサービスをローンチし、同等のGPUベースのインスタンスと比較してInference latency（推論レイテンシ）を97%削減するとともに、コストも削減した。

また、マネーフォワードのCTOである中出匠哉氏は、次のように述べています。「テーラード自然言語処理モデルは定期的に微調整を続けているため、モデルの学習時間やコストの削減も重要なポイントです。Inf1インスタンスでの推論ワークロードの移行に成功した経験と、AWS TrainiumベースのEC2 Trn1インスタンスでの初期作業に基づいて、Trn1インスタンスはエンドツーエンドの機械学習パフォーマンスとコストを改善する上でさらなる価値を提供すると期待しています」

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。