AWSのフランクフルトAZ障害、消火システム誤作動により入室遮断、復旧対応が出来ず

空気循環システムの故障により、AWSのフランクフルトのアベイラビリティゾーンが3時間にわたり停止しました。通常では日常的に行われている作業が、消火システムが作動したことで不可となり、状況が悪化したようです。

問題は消火システムが空気中の酸素を除去してしまったため、約1時間の間、スタッフは復旧作業でデータホールに立ち入ることができず、停止時間が長引いたことです。Amazon Web Servicesのステータスページによると、現在はすべてのシステムが正常に動作しているとしています。なお、今回は1つの アベイラビリティゾーン での障害であったため、お客様への影響は限定的であったとのことです。

入室抑制システム

障害は13:18PDT(日本時間翌5:18)に始まり、EC2インスタンスの接続障害と高いエラーレートが報告され始めました。根本的な原因は、システム障害によってエアハンドラー(AHU)が停止し、室温が上昇したことによるものでした。

「影響を受けたアベイラビリティゾーンのサーバーとネットワーク機器は、安全でない温度に達したことで電源の遮断を始めた」と、Amazonは障害報告レポートでこのように述べています。複数の冗長化スイッチが停止したことで、事態はより深刻になりました。「この単一のアベイラビリティゾーン内の多数のEC2インスタンスがネットワーク接続を失うこととなった」

AWSのスタッフは、この1つの問題がなければ、ITサービスに影響が出る前に空調の不具合を簡単に解決できたと述べています。「通常であれば、影響が出る前に運用スタッフが冷却状態を正常回復させることができたはずだが、消火システムが作動してしまった」

この消火システムは、煙を検知して作動するものなので、施設内の温度が上がっても作動はしないはずでした。しかし、このシステムが作動したため、データセンターは “封鎖 “されてしまいました。火災発生時には消火することができる、酸素を除去する化学物質が放出されてしまった為です。

火災報知器が鳴ってしまったので、AWSの運用スタッフはしばらく何もできませんでした。まず、消防署がサイトの安全性を確認し、その後、サイト内に再び人間が立ち入れる状態にしなければなりませんでした。「影響を受けたインスタンスやネットワーク機器を復旧するためには、消防署が施設の検査を完了するまで待たなければならなかった。消防署がデータセンター内での火災はなく、戻っても安全であるとの判断をした後に、エンジニアが施設内に立ち入り、影響を受けたネットワーク機器やサーバーを復旧させるためには、施設内の再酸素化が必要であった」

冷却の正常回復後、サーバーやスイッチの電源が再投入され、悪影響を受けたごく少数のボリュームを除くすべてのインスタンスは迅速に回復した、とAWSは報告しています。「現在最後に影響を受けたインスタンスとボリュームの復旧作業を継続しており、影響を受けた残りのお客様に対してはPersonal Health Dashboardによる通知を開始している。これらのリソースを直ちに復旧させるためには、影響を受けたインスタンスやボリュームを可能な限り交換することを推奨する」

一方で、誤動作を起こした消火システムは停止されました。

「このシステムは誤動作の原因が判明するまで、再稼働は行わない」とAWSは述べています。

この措置により、データセンターの火災リスクが少し高まったということでしょうか?AWSによると、その心配はなく、「代替の消火の仕組みが使用される」といいます。

というのも、データセンターの火災事故は幸いにもまれであるが、今年はOVHcloudのストラスブールサイトで2棟のデータセンターが焼失してしまった非常に深刻な火災事故が発生したばかりであるからです。

消火システムは明らかに必要なものですが、それ自身が故障して障害そのものを引き起こす事故はあまりにも頻繁に起きています。2017年にはAzureを停止させ、2018年には消火装置の故障が原因でDigiPlexのデータセンターとNordic Nasdaqが停止し、2018年にはニュージャージー州のデータセンターも同様の事故で停止しています。

Data Center Dynamics

原文はこちら

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。