データセンター停電によりAWSサービスがダウン、米国東海岸で再びクラウド障害発生

Data Center Dynamics
2021.12.23
1,915 views

二度あることは三度ある

Amazon Web Servicesが再びダウンし、今月3回目の障害が発生しています。

AWS US-East-1（バージニア州）のクラウドリージョンでの障害は、現在多くの顧客やユーザーに影響を与えています。影響を受けているサービスは、Coinbase、Fortnite、Hulu、Instacart、Rocket League、Acadly、Peloton、Hinge、Quora、the Epic Games Store、Slack、GitHubの競合Bitbucket、Samsung Smart Lights、Asana、Imgurなどです。

同社はバージニア州北部にあるデータセンターの1つで停電が発生したことが原因であることを確認しています。太平洋標準時（PST)午前5時39分、AWSは同施設の電力を復旧させ、サービスはまもなく復帰する見込みだと述べています。ただ、エンドユーザー自身のサービス修正には更に時間がかかる可能性があります。

AWSステータスページには現在のところエラーは表示されていませんが、本日未明に複数のリージョンでElastic Beanstalkコンソールで障害が発生し、その後修復されたとしています。尚、AWS EC2利用ユーザーは、次のようなメッセージを受け取ったと報告しています。「インスタンスデータを取得する際にエラーが発生した。不明なエラーが発生している」

更新情報：Amazonは、ステータスページに以下を追加しました。「4:35 AM PSTにUS-EAST-1 リージョンの単一アベイラビリティゾーン（USE1-AZ4）において、一部のインスタンスでEC2の起動障害とネットワーク接続の障害が増加しており、現在調査を行っている。US-EAST-1 リージョン内の他のアベイラビリティゾーンは、この問題の影響を受けません」

更新情報2：「5:01 AM PST ：US-EAST-1 リージョンの1つのアベイラビリティゾーン(USE1-AZ4)内の1つのデータセンター内で電源の喪失を確認した。このため、影響を受けたアベイラビリティゾーン内のデータセンターに属するEC2インスタンスの可用性と接続性に影響がある。また影響を受けたアベイラビリティゾーン内で、RunInstance APIエラーの発生率が上昇している事が確認されている。影響を受けたアベイラビリティゾーン内の他のデータセンター、またはUS-EAST-1リージョン内の他のアベイラビリティゾーンへの接続性や電源については、この障害の影響を受けませんが、可能であれば影響を受けたアベイラビリティゾーン（USE1-AZ4）から離れ、問題を避けることを推奨する。私たちは、この問題に対処し、影響を受けたデータセンター内の電力復旧作業を続けている」

更新情報3：「5:18 AM PST： US-EAST-1リージョン内のアベイラビリティゾーン（USE1-AZ4）のデータセンターへの電力復旧は引き続き進めている。現在、障害が発生したデータセンター内の大半のインスタンスとネットワーク機器の電源は復旧し、回復の兆しが見え始めている。アベイラビリティゾーン内で接続やインスタンスの可用性に問題があるお客様は、データセンターの電力が復旧するにつれ、何らかの回復が見られるようになるはずです。RunInstances APIのエラーレートは通常レベルに戻ってきており、現在EC2インスタンスとEBSボリュームの復旧に取り組んでいる段階である。今後1時間で引き続き改善が期待されるが、この問題を軽減するために、アベイラビリティゾーンから離脱することが可能であれば、離脱を引き続き推奨する」

更新情報4：「5:39 AM PST：現在、影響を受けたデータセンター内のすべてのインスタンスとネットワーク機器の電源は復旧し、アベイラビリティゾーン内の大半のEC2インスタンスとEBSボリュームの回復を確認した。また、影響を受けたアベイラビリティゾーン内のネットワーク接続も通常レベルに戻ってきている。すべてのサービスは順調に回復してきているが、単一AZのRDSデータベースやElastiCacheなど、影響を受けたデータセンター内でエンドポイントをホストしていたサービスなどについては回復が遅れている。回復の度合いを考えると、もし影響を受けたアベイラビリティゾーンからまだ離脱していない顧客は、この段階から回復が確認され始めているはずです」

更新情報5：「6:13 AM PST：現在、影響を受けたデータセンター内のすべてのインスタンスとネットワークデバイスの電源は復旧し、アベイラビリティゾーン内の大半のEC2インスタンスとEBSボリュームの回復は確認した。残りのEC2インスタンスとEBSボリュームの復旧については、引き続き進行している。影響を受けたアベイラビリティゾーン内のEC2インスタンスを再起動できれば、復旧を早めることができるかもしれない。まだIOパフォーマンスが低下している少数のEBSボリュームが残っており、現在その復旧に取り組んでいる。AWSサービスの大部分も回復したが、単一アベイラビリティゾーン内のRDSデータベース、ElasticCache、Redshiftなど、お客様のVPC内のエンドポイントをホストしているサービスは引き続き何らかの影響を受けており、完全復旧に向けて努力しています。」

更新情報6：「6:51 AM PST 現在、影響を受けたデータセンター内のすべてのインスタンスとネットワークデバイスの電源を回復し、影響を受けたアベイラビリティゾーン内の大部分のEC2インスタンスとEBSボリュームの回復を確認しています。残りのEC2インスタンスについては、ネットワーク接続の問題が発生しており、完全復旧に時間がかかっています。私たちは、この問題の原因を理解しており、解決に向けて取り組んでいます。この問題が解決されれば、残りのEC2インスタンスとEBSボリュームの復旧が速くなることが期待されます。もし、影響を受けたアベイラビリティゾーン内で、影響を受けたEC2インスタンスを再起動することができれば、回復を早めるのに役立つかもしれません。この段階でインスタンスを再起動しても、基盤となるハードウェアは変更されないため効果が無いことに注意してください。少数の影響を受けたEBSボリュームで、まだIOパフォーマンスが低下しており、回復に努めています。AWSサービスの大部分も回復しましたが、シングルアベイラビリティゾーンの RDSデータベース、ElasticCache、Redshiftなど、お客様のVPC内のエンドポイントをホストしているサービスは引き続き何らかの影響を受けており完全復旧に向けて努力している」

更新情報7：「8:02 AM PST： US-EAST-1リージョンのアベイラビリティゾーン（USE1-AZ4）内で影響を受けたデータセンターの電力は現在安定した状態を維持している。現在US-EAST-1リージョンの単一アベイラビリティゾーン（USE1-AZ4）の一部であるデータセンターにおいて、残りのEC2インスタンスとEBSボリュームで発生している接続障害の解決に取り組んでいる。影響を受けたEBSボリュームについては、接続の問題に対処し、現在、さらなる回復が見られ始めている。影響を受けたデータセンター内のEC2インスタンスのネットワークへの影響を軽減するための作業を現在続けており、今後30分以内にさらなる回復を見込んでいる。EC2 APIは、影響を受けたアベイラビリティゾーン内でしばらくの間健全であったため、現在回復への最速の道は、アベイラビリティゾーン内またはリージョン内の他のアベイラビリティゾーン内で影響を受けたEC2インスタンスを再起動することです」

更新情報8：「9:28 AM PST：残りのEC2インスタンスとEBSボリュームへの接続性の復旧は、引き続き進展している。この1時間で、残りのEC2インスタンスとEBSボリュームの大半に対する基礎的な接続性は復旧したが、現在はホストレベルでの完全復旧に取り組んでいる段階である。影響を受けたAWSサービスの大半は復旧し、この障害の影響を受けた単一アベイラビリティゾーン RDSデータベースの大部分についての復旧が確認されている。もし、アベイラビリティゾーン内で影響を受けたEC2インスタンスの再起動ができれば、復旧を早めることができるかもしれない。尚、現段階でインスタンスを再起動しても、基盤となるハードウェアが変更されないので、役に立たないことに注意してください。私たちは完全復旧に向けて作業を続けている」

更新情報9： AWSはまた「US-EAST-1リージョンでDirectory Services AD ConnectorまたはManaged AD with Amazon SSOを使用している一部のユーザーのエラーレートの上昇を調査している。他のActive Directory機能の利用ユーザーには、現時点で影響はありません」

今回の障害は、12月上旬にバージニア北部（US-East-1）リージョンで発生した大規模障害に続くものです。その障害では、Disney+からTinder、さらにAmazon自身の倉庫物流ネットワークまで、あらゆるものが停止しました。この障害の原因は、同社の内部ネットワークで「予期せぬ動作」を引き起こした「自動化アクティビティ」によるものでした。

更に12月中旬には、米オレゴン州のUS-West-2リージョンと北カリフォルニアのUS-West-1リージョンでも障害が発生しましたが、これは非公開の「インターネット接続」に関する問題によるものでした。

またこの2件の障害の間に、AWSのホームページが一時的にオフラインになる事態も起きました。同社は、その小規模の障害の原因を明らかにしておらず、そして同社の担当者はDCDに対し、「そんなことは起きていない」と話しています。

AWSは最初の障害発生後、「我々は可用性の実績を誇っているが、我々のサービスが顧客、そのアプリケーションとエンドユーザー、そしてそのビジネスにとっていかに重要であるかを知っている」と述べていました。「この出来事は、多くのユーザーに大きな影響を与えたと思う。我々はこの出来事から学び、可用性をさらに向上させるためにできる限りのことをするつもりである」

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。