MS Azure UK Southリージョンが冷却障害により停止

Covid-19追跡サイトが停止

9月14日月曜日に、Microsoft Azureデータセンターで、冷却事故に伴う長時間の停止が発生しました。

理由はまだ不明ですが、複数の冷水ポンプが停止したことで、英国南部の施設がオフラインとなり、室温の急激な上昇を止める為、Microsoftは残りの施設の停止も強いられました。データセンターは、UTC 13:54からUTC 00:41の間利用できませんでした。

Everything went south(あらゆる状況が悪化)

Microsoft Azureのステータスページ上では、「複数の冷水ポンプがシャットダウンし、冷却損失イベントが発生した」と報告されました。

「これにより、冷却損失が発生し、データセンター1棟の一部の内部温度がUK Southの運用しきい値を超え始めた。データの耐久性を保護する目的で、自動化システムがネットワーク、コンピューティング、およびストレージリソースのシャットダウンを開始した」

サイトエンジニアは冷却システムを手動モードに切り替え、影響を受けたポンプのリセットを行い、冷却プラントを復旧させました。「この結果、データセンター内の影響を受けるすべてのエリアで、16:40 UTCには室温が安全な動作範囲にまで回復した」とマイクロソフトは述べています。

「温度が安全なしきい値範囲内に復旧したことを確認後、エンジニアは影響を受けたインフラ設備への電力の復旧を開始し、オンラインに戻す段階的なアプローチを開始した。ストレージ及びネットワークインフラの完全な復旧に伴い、依存するコンピューティングスケールユニットは復旧し始めた。そしてコンピューティングスケールユニットは正常に戻り、仮想マシンや他の依存するAzureサービスは回復した」

The Registerの報告によりますと、停止の影響を被ったのは、英国政府のCovid-19情報ポータルでした。「われわれは状況を注意深く監視し、サービス復旧後速やかにウェブサイトを更新する」と政府はコメントしています。

今回の停止は、Microsoft がProject Natickデータセンターを海底から引き上げた同日に発生しました。

Data Center Dynamics

原文はこちら

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください