Microsoft Azureのインドリージョンが長時間停止

停電とオーバーヒートが原因

Microsoft Azureの中央インド リージョン で一晩の停止障害が発生し、インド国内のサービスが混乱しました。

2020年5月18日のUTC 12:41頃から2020年5月19日のUTC 08:30まで続いたこのインシデントは、送電網の故障と続いて発生した空調設備の問題が原因でした。

クラウドは誰かのデータセンター

「地域の公益事業会社の電力問題により、中央インドのデータセンターが自家発電機給電に移行した。」とMicrosoftはステータスページで報告しました。

「この発電機への移行は、データセンターの2か所の内部ゾーン(コロケーション)にある複数の空調ユニットを除き、設計通りに機能した。が結果、これら2エリアの室内温度が運用しきい値を上回り、アラートが引き金となり、自動化システムがデータを保護するために、ネットワークとストレージリソースのシャットダウンを開始してしまった。」

ストレージスケールユニットがオフラインとなったことで、仮想マシンやシステムに依存するAzureサービスが影響を受けました。

「エンジニアは、接続を回復させるためにさまざまなワークストリームを実施した。」とマイクロソフトはコメントしています。

– Azure Status Page

「最初に、エンジニアは異常が発生した空調ユニットを分離して電力を回復し、温度を運用レベルに戻した。温度がしきい値を下回ると、エンジニアはストレージスケールユニットの物理的な回復を開始した。ストレージとネットワークが回復すると、依存するコンピュートスケールユニットが回復し始めた。計算ノードは正常に戻り、仮想マシンや他の依存するAzureサービスも回復した。」

停止の影響を受けたのは、支払い処理会社のPayUとCitrus Payでしたが、どちらもサービスが機能しなくなったという苦情が殺到していました。

Azureデータセンターは、インド西部のマハーラシュトラ州のプネーにあります。同社は、3日以内に今回のインシデントのより詳細な分析結果の提供を約束しています。

Data Center Dynamics

原文はこちら