• HOME
  • すべての記事
  • 障害情報
  • AWS、大規模障害の原因は「自動化アクティビティ」が内部ネットワークで「予期せぬ動作」を引き起こしたためと発表

AWS、大規模障害の原因は「自動化アクティビティ」が内部ネットワークで「予期せぬ動作」を引き起こしたためと発表

ステータスページをマルチリージョン化し、障害時にも実際に機能させる予定

Amazon Web Servicesは、同社のUS-east-1クラウドリージョンが12月7日に大規模な障害に見舞われた理由について詳細を発表しました。

同社によると、監視、内部DNS、認証サービス、EC2コントロールプレーンの一部など、基盤となるサービスをホストするために内部ネットワークを使用しています。このネットワークが、自動化されたシステムの予期せぬ動作により崩壊したとのことです。

事後報告では、内部ネットワークは地理的に分離された複数のネットワーク機器で接続されており、追加のルーティングやネットワークアドレス変換を行うことで、AWSサービスが内部ネットワークとAWSのメインネットワークの間で通信できるようになっているとしています。

「午前7時30分(PST)に、メインのAWSネットワークでホストされているAWSサービスの1つのキャパシティを拡張するための自動化アクティビティが、内部ネットワーク内の多数のクライアントからの予期せぬ動作を引き起こしました」と同社は報告しています。

「この結果、接続アクティビティが急増し、内部ネットワークとメインのAWSネットワークの間にあるネットワーク機器が悲鳴をあげ、ネットワーク間の通信に遅延が生じました。この遅延により、これらのネットワーク間で通信を行うサービスの遅延やエラーが発生し、接続試行回数や再試行回数がさらに増加しました。これにより、2つのネットワークを接続している機器で、持続的な混雑とパフォーマンスの問題が発生しました。」

輻輳によってリアルタイム監視ができなくなり、社内の運用チームは何が起きているのかの把握が困難になったため、障害発生当時、スタッフは外部からの攻撃ではないかと考えました。

「オペレーターはログを頼りに状況を把握し、最初に内部のDNSエラーの上昇を確認しました。内部DNSはすべてのサービスの基盤であり、このトラフィックが輻輳の原因になっていると考えられたため、チームは内部DNSトラフィックを輻輳しているネットワーク経路から遠ざけることに注力しました。午前9時28分(PST)にチームはこの作業を完了し、DNS解決エラーは完全に回復しました」と同社は述べています。

これにより問題は改善されましたが、解決には至りませんでした。いくつかの改善策を講じた後、ネットワーク機器が完全に回復するまでに午後2時22分(PST)までかかりました。

Amazonは、「再発を防止するため、いくつかの対策を講じました。今回の事象の引き金となったスケーリング活動は直ちに無効化し、すべての改善策を実施するまで再開しません。当社のシステムは適切にスケーリングされているため、近い将来にこれらの活動を再開する必要はありません」と述べています。

またネットワーククライアントには、テスト済みのリクエストバックオフ動作があり、このような種類の混雑イベントからシステムが回復できるように設計されていますが、「自動化されたスケーリング活動が、これまで観察されていなかった動作を引き起こした」ため、このような現象は発生しなかったと述べています。

同社は今回の障害と、障害発生中のコミュニケーション不足について謝罪しました。同社は、監視システムを使用できなかったため、サービス・ヘルス・ダッシュボードを更新できなかったとしています。

「来年初めには、サービスへの影響を把握しやすい新バージョンのサービス・ヘルス・ダッシュボードと、複数のAWSリージョンを積極的に横断する新しいサポート・システム・アーキテクチャをリリースし、お客様とのコミュニケーションに遅れが生じないようにする予定です」

この障害により、Disney+からTinder、Amazon独自の倉庫物流ネットワークまで、あらゆるサービスが停止しました。

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。