Microsoft Azure の障害は、WAN ルーターの IP 変更が原因

先週発生した5時間にわたるMicrosoftの障害は、Wide Area Network(WAN)ルーターのIP変更に起因するものであったようです。

この問題により、Microsoft Azureの一部のサービスのほか、Microsoft Teams、Exchange Online、Outlook、SharePoint Online、OneDrive for Business、GitHub、Xbox、Microsoft Graphがダウンしました。

マイクロソフト社は事故後の検証で、「Microsoft Wide Area Network(WAN)に加えられた変更が、インターネット上のクライアントからAzureへの接続、リージョン間の接続、さらにExpressRoute経由のクロスプレミス接続に影響を与えた 」と発表しました。

この変更は、WANルーターのIPアドレスを更新するために計画されたものでしたが、「ルーターに与えられたコマンドによって、WAN内の他のすべてのルーターにメッセージを送信し、その結果、すべてのルーターが隣接テーブルと転送テーブルを計算し直しました」とあります。

「この再計算の過程で、ルーターはそれらを通過するパケットを正しく転送することができなくなりました。この問題を引き起こしたコマンドは、ネットワーク機器によって動作が異なり、そのコマンドが実行されたルーターでは、当社の完全な認証プロセスによる審査を受けていませんでした。」

今後同様のインシデントが発生しないよう、Azureネットワークチームは、デバイス上で実行される影響力の大きいコマンドをブロックし、デバイス上でのすべてのコマンド実行は、安全な変更ガイドラインに従うよう要求する予定です。



この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。



関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。