Googleロンドンデータセンターの熱波による障害は、複数の冗長冷却システムの同時故障が原因だった

グーグルは、英国の直近の記録的な熱波中に起きたロンドンのクラウドリージョンの1つをホストしているデータセンター障害は、「複数の冗長冷却システムの同時故障」であったと発表しました。

グーグル、オラクル、そしてロンドンに拠点を置くGuy’s and St Thomas’ NHS Foundation Trust(ガイズ・アンド・セント・トーマスNHS財団トラスト)はいずれも、気温が40℃/104Fまで上昇した熱波の中で、障害を起こしました。

「2022年7月19日(火)06:33 (太平洋標準時)に、ゾーンeurope-west2-aをホストするデータセンターの1つで複数の冗長冷却システムが同時に故障し、複数のGoogle Cloudサービスに影響を及ぼした。この結果、一部のお客様で、影響を受けた製品のサービスの利用ができなくなった」と、グーグル は最近のインシデントレポートの更新で述べています。

「この停止期間中にビジネスに影響を受けたお客様には、心よりお詫び申し上げます。これは、私たちがお客様に提供しようと努めている品質と信頼性のレベルではありません。私たちは、リージョンの耐障害性を向上させるために、直ちに対策(「修復と予防」セクションに詳述)を施しています」

グーグルによると、最近の英国で続く熱波の中、europe-west2-aゾーンをホストするデータセンターの1つが、冷却障害と外気温の高さが相まって安全な動作温度を維持できなかったため、さらなる被害を防ぐために施設をシャットダウンしたとのことです。

グーグルは、障害の内容については明らかにしませんでしたが、同社のエンジニアが今回の事故を引き起こしたシステムの分析を行い、Google Cloudを収容するデータセンター全体で冷却システムの設備と基準の監査を行なっていく予定であると述べています。

「私たちは、障害を長引かせたりマシンの損傷を防ぐために、ゾーンのこの部分の電源を落としました。これにより、ゾーンの容量の一部で障害が発生し、インスタンスの終了、サービスの低下、および一部のお客様のネットワークの問題につながりました」

同社は、関係部門が、今回直接影響のあったeurope-west2-aゾーンだけでなく、europe-west2リージョンの3つのゾーンすべてを回避するよう内部サービスに対し「うっかりトラフィックルーティングを変更した」事実により、多くのリージョンのGoogle Cloudサービスがこの障害の間、影響を受けてしまったと述べています。

GCSやBigQueryを含むリージョン別ストレージサービスは、複数ゾーンにまたがる顧客データを複製しています。リージョン・トラフィックのルーティング変更により、多くのストレージオブジェクトのレプリカにアクセスできなくなり、ルーティングエラーが発生している間、同社は顧客がこれらのオブジェクトを読み取れないようにしました。

この事故の結果、Googleはフェイルオーバーの自動化を修復し、「慎重に再試行を行う」と述べています。

また、単一のデータセンタースペース内の熱負荷を徐々に減少させ、完全なシャットダウンが必要となる確率を減少させる「より高度な方法」についての調査・開発を行うとも述べています。

一方、Guy’s and St Thomas’ NHS Foundation Trustのチーフ・デジタル情報担当者であるBeverley Bryant氏は、病院のITシステムはデータセンターの空調機の故障につながる「ばかげた熱」によって落ちてしまったと説明している、とBBCは伝えています。彼女はこう話しています。「サーバーは熱に耐えられず、管理も調整もされていない状態で崩壊してしまった」

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。