Google 、生成AI特化のクラウドサービスを加える中、最新TPUとNvidia H100 GPUの提供を発表

Data Center Dynamics
2023.08.30
734 views

TPU v5eは性能が倍増

Googleは、自社クラウドプラットフォーム向けにいくつものAIに特化したツールやサービスを発表しました。

また同時に同社は、Cloud TPU v5eのプレビュー版の提供を開始したと発表しました。2021年にリリースされたTPU v4と比較し、このチップは大規模言語モデルや生成AIモデルにおいて、1ドルあたりの学習性能が最大2倍、推論性能が最大2.5倍高速になっているとGoogleは述べています。

また、この最新TPUは8種類の仮想マシン構成が用意され、1つのスライスで1～250までのTPUチップの利用が可能となっています。より多くの計算が必要な場合は、数万基のチップに対応する「マルチスライス」を用意しています。

「これまでは、TPUを使ったトレーニングジョブはTPUチップの1スライスに制限されており、TPU v4の最大スライスサイズは3,072チップまででした」GoogleのML・システム・クラウドAI担当副社長Amin Vahdat、コンピュート・MLインフラ担当副社長Mark Lohmeyerの両氏は共同ブログ投稿でこのように述べています。

「マルチスライスを使えば、開発者は単一のポッド内でチップ間相互接続（ICI）を介して、あるいはデータセンターネットワーク（DCN）を介して複数のポッド間で、ワークロードを最大数万チップまで拡張することができます」

この新たなTPUと並行して、Googleは、8基のNvidia H100 GPU、デュアル第4世代Intel Xeon Scalableプロセッサ、2TBのメモリを搭載したA3仮想マシン（VM）を来月から一般提供すると発表しました。このインスタンスは今年5月に発表されていたもので、Nvidia H100 Hopper GPUを26,000基まで増やすことが可能とされています – ただし、依然としてGPU不足が続く中、Googleが何基のH100を用意できるかは不明です。

Googleは、生成AIのスタートアップ企業Anthropicが、このTPU v5eとA3 VMの初期のユーザーであったことを明らかにしました。Googleはこのスタートアップに3億ドルを投資したものの、その一方で同社はAmazon Web Services（AWS）の利用ユーザーでもあります。

Anthropicの共同設立者であるTom Brown氏は次のように述べています。「我々のモデルを効率的にトレーニングし、展開し、共有するために協力してきたGoogle Cloudと協業できることを嬉しく思います。A3とマルチスライス対応のTPU v5eを実装したGoogleの次世代AIインフラは、AIの次の波を構築し続ける我々のワークロードに、価格性能のメリットをもたらすでしょう」

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。