マイクロソフト、シドニーでの障害復旧に手間取る ~現場の人員不足が原因

障害発生時、現場にいたのはわずか3人

マイクロソフトは、オーストラリア・シドニーで最近発生した障害からの復旧に、現場の人員不足が影響していたことを明らかにしました。

同社が発表した障害後の調査分析によると、オーストラリア・イーストリージョンを管轄するデータセンターの夜間体制は、わずか3人であったといいます。

マイクロソフトは次のように説明しています: 「夜間の人員体制は、冷却装置をタイムリーに再起動するには不十分でした。根本的な問題がよりはっきりし、適切な緩和措置を講じることができるまで、チームの人員を一時的に3名から7名に増やしました」

同社は、障害の原因はデータホールのチラーの故障によるものだと説明しています。データホールには7台のチラーが設置されており、5台が稼働中、2台が待機中でした。雷雨の中でサグ(電圧低下)が発生した、5台すべてのチラーが停止し、冗長用のチラーのうち1台だけが正常に稼働したとのことです。

マイクロソフトは今回の不具合について、次のように分析しています。 「5台のチラーは、対応するポンプがチラーからの運転信号を受け取らなかったため、再起動しませんでした。これは、チラーユニットの再稼働を成功させるために不可欠であり、重要なことです。私たちはOEMベンダーと共同で、なぜチラーがそれぞれのポンプに始動命令を出さなかったのかを調査しています」

冷却されていない時間が長かったため、ハードウェアは熱によるダメージから保護するために電源が落とされました。最終的に、これがチラーの温度を下げ、再稼働を可能にし、この時点でAzureはコンピュートとストレージの再稼動を開始しました。トータルで、AzureのAustralia East Cosmos DCクラスタの約半数が停止あるいは大きく機能低下しました。

人手不足に加えて、Azureの自動化システムが効果的に機能しなかったことが確認されました。同社は、「チラーの再稼働のためのEOPは、このような大きな爆発半径を持つ事象に対しては、実行に時間がかかります。私たちは、様々な電圧降下イベントに対応できるよう、既存の自動化を改善する方法を模索しています」

分析によると、Azureを含め、7社のテナントがこの影響を受けました: 「標準ストレージ・テナントが 5 社、プレミアム・ストレージ・テナントが 2 社」

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。