マイクロソフトのデータセンターで配電システム不具合による障害発生

オランダWest Europeリージョンが電圧低下発生後にダウン

マイクロソフトのデータセンターで配電システムの不具合が発生し、商用電源からバックアップ発電機に切り替えようとしたところ、2時間にわたる障害が発生した模様です。

同社は今週発表したインシデントレポートの中で、オランダの West Europe リージョン 内の単一 アベイラビリティゾーン において、2023年10月20日07:31~09:15(UTC)の間に「電力問題」が一部の顧客に影響を与えたと述べています。なお、App Service、Cosmos DB、SQL DB、ストレージ、仮想マシンを含むAzureサービスがこの問題の影響を受けました。

マイクロソフトは、AZ-01 アベイラビリティゾーン内にある1か所のデータセンターで、 電圧のサグ(低下)/スウェル(うねり)という形で、送電網からの「不安定な状態」を検知したと話しています。

その結果、同社は送電網からバックアップ発電機への切り替えを行うことを決定しましたが、その際、発電機の起動時の不具合により、一部のラックで停電が発生しました。

「処理を進める中、配電システムの一部で致命的な障害が発生し、発電機の10パーセントが負荷を受けられなくなりました。この障害により、メインの配電システムはオフラインとなり、冗長システムはアクセス不能となってしまいました。この障害の結果、このアベイラビリティゾーン内のサーバーラックのおよそ1パーセントが停電しました」

なお、今回の配電障害の内容や原因についての詳細は説明されていません。

その後送電網の状態が安定したため、同社は発電機から商用電源への切り戻しを行いました。

「合計で5台のStorageスケールユニットが今回の障害の影響を受けました。電源復旧後、4台は9:10UTCまでに完全復旧しましたが、5台目はストレージノードのおよそ5パーセントでハードウェア診断と部品交換が必要な状態でした」と同社はインシデントレポート内で説明しています。「その結果、最後の1パーセント未満のストレージ・アカウントの可用性を回復するのに時間がかかり、この最後の Storageスケールユニット に依存している顧客やサービスにダウンストリームでの影響が出ました。14:30UTCまでに、一部のストレージアカウントを除くすべてのストレージアカウントの可用性が回復し、17:10UTCまでに完全復旧が完了しました」

マイクロソフトは、今後数週間以内に、今回の事象に関連する改修項目や、今回のようなシナリオからより迅速に復旧するためのダウンストリームサービスの改修項目など、追加的な詳細や学習事項を含む2回目の影響レポートを発表する予定であると述べています。

West Europe Azureリージョンは2010年にオープンしました。これは3つの アベイラビリティゾーン で運用されています。

8月下旬、オーストラリアでも商用電源のサグが原因で、シドニーのマイクロソフトデータセンターで障害が発生しました。雷雨の中、チラーが停止し、さらに自動再起動に失敗したことで障害に繋がりました。

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。