
Google Cloudの3月の障害原因はUPSの問題
Google CloudのUS-East5リージョンに影響
Googleは、オハイオ州で3月に発生した障害が、無停電電源装置の問題によるものであったことを明らかにしました。
The Registerが最初に報じたところによると、この障害は3月29日に発生し、オハイオ州コロンバスにあるGoogleのUS Eastクラウドリージョンのus-east5-cゾーンから20以上のサービスが「サービス低下または利用不能」となりました。
Googleは4月11日に同社が共有したインシデントレポートの中によると、この障害は6時間10分続き、根本的な原因は同ゾーンの電力供給が停止したことにあるようです。
同報告書は、停電によって、このような場合に電力を維持する役割を果たすUPSシステムに「カスケード障害」が発生したとし、「ユーティリティ電源の喪失と発電機電源の起動の間のギャップを埋めるためにバッテリーに依存しているUPSシステムが、致命的なバッテリーの故障に見舞われた」と説明しています。
このため、UPSはその中核機能を果たすことができず、ゾーン内の仮想マシンインスタンスは電力を失いました。インシデントレポートは、停電とそれに続くUPSの障害が「us-east5-cゾーン内のパケットロスを含む一連の二次的な問題を引き起こし、ネットワーク通信とパフォーマンスに影響を与えた」とし、一部のストレージディスクをダウンさせたと付け加えています。
停電を解決するため、エンジニアは故障したUPSをバイパスし、問題が通知されてからわずか2時間弱で発電機経由で電力を復旧させました。この時点でほとんどのサービスが復旧しましたが、完全な復旧には手作業が必要なものもありました。
Googleは、このような停電が再び発生しないよう、クラスタの電源障害と復旧経路を強化することを検討し、UPSベンダーと協力してバッテリーバックアップシステムの問題を理解、改善するなどの対策を講じていると述べています。
GoogleのUS East5クラウドリージョンは、2022年に開始されました。2021年12月に初めて発表され、3つのアベイラビリティゾーンを含むこのリージョンは、Googleにとって中西部で2番目、北米で10番目のリージョンとなりました。2024年6月、同社はオハイオ州のデータセンターキャンパスに23億ドルを投資する計画を発表し、2019年以降に同州ですでに費やした44億ドルに上乗せしました。
Googleは2024年後半、ドイツのフランクフルトにあるクラウドリージョンのeurope-west3-cゾーンで停電を経験しました。この停電は解決に12時間以上を要しました。
この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。
この記事へのコメントはありません。