Google Cloud、豪メルボルン新リージョンで障害が発生

Data Center Dynamics
2021.08.26
530 views

Googleの最新のクラウド・リージョンが、ネットワーク機器を再起動させる「トランジェント電圧」の問題により、1時間30分にわたってダウンしました。

この障害は、ちょうど1ヶ月前の7月25日にサービスを開始したオーストラリアのメルボルンにあるGoogleのaustralia-southeast2 リージョンで発生しました。

Googleは、US Pacific time（太平洋標準時）8月23日の19:50（現地時間8月24日）から21:20まで発生した今回の障害について、「クラウドネットワーキングを使用しているサービスが、影響を受ける可能性がある」とステータスレポートで説明しています。

「予備的な分析の結果、障害の根本原因は、ネットワーク機器への給電部分にトランジェント電圧が発生し、機器が再起動したことでした。この問題を軽減するために、australia-southeast2リージョン内のトラフィックを一時的にリダイレクトしました」

Cloud Interconnectでは100%のパケットロスが発生し、Cloud Storage、Cloud Run、Cloud SQL、Cloud Filestore、Cloud Spanner、Cloud Bigtableでは100%のエラー率となりました。

Cloud Networkingでは、19:51から20:41までパブリックIPトラフィックの接続に障害が発生しました。Cloud NATでは、19:51から20:00までコントロールプレーンの障害が発生しました。

Cloud VPN HAでは、19:51から20:21の間に最大83%のトラフィックが遮断され、一方Legacy VPNでは、19:51から20:41の間に100%のトラフィックが遮断されました。

Google Kubernetes Engineのリージョナルクラスターにおけるコントロールプレーンの操作も19:50から20:04の間は動作せず、20:05 から 20:41 までの間は遅延が増加しました。そしてcontainer.googleapis.com へのすべてのリクエストは失敗しました。

Persistent Disk（永続ディスク）では、19:51～20:13の間、最大100%のデバイスが使用不能になりました。

Cloud IAMでは、19:52～20:10の間、約80%のエラーレートが発生しました。Cloud Pub/Subでは、19:50から20:12の間、エラー率と遅延が最大95%に増加しました。

Cloud Dataprocについては、20:09から21:20まで新規クラスタ作成に失敗する不具合が発生しました。

「このサービスの中断によりご迷惑をおかけしたことをお詫びいたします」とGoogleはコメントしています。

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。