CenturyLinkのIP障害によりCloudflareサーバがダウン

Data Center Cafe
2020.09.02
840 views

BGP障害が多くのWebサイトに影響。Cloudflare社CEOは、Flowspecの Mitigation（緩和）が原因であると述べている

今週日曜日にCenturyLinkデータセンターで発生したIP停止により、Cloudflareサーバがダウンし、米国および西ヨーロッパでホストされている多くのWebサイトに影響を与えました。

CloudflareのCEOマシュー・プリンス氏は、同社のイベント・タイムラインをブログ投稿で共有し、「インターネット全体に渡るCloudflareの顧客や他の多くのサービスやプロバイダーに影響を及ぼした重大な停止が発生した」とコメントしました。

シングルホーム接続

10:03 UTCに、Cloudflareのエンジニアは522エラーの数が増加したことに気付き、ホストサーバへのネットワーク接続に問題があったことを示しました。

その後、同社の自動緩和システムが機能し、トラフィックがCogent、NTT、GTT、Telia、Tata Communicationsなどの代替ホストに再ルーティングされました。

しかしプリンス氏いわく「多くのホスティングプロバイダーはCenturyLinkを通じたインターネットへのシングルホーム接続しか持っていなかった」為、サービスは更に4時間も回復されませんでした。米国の多くのエンドユーザが同社と契約していることは言うまでもありません。

今回の停止によりグローバルトラフィックが3.5％低下したとCloudflareは説明しています。これは主に、CenturyLinkの顧客がインターネットにアクセスできなかったことによります。

CenturyLinkは、何が起こったのかを説明する公式声明を発表しておらず、単に「IPの停止」であるとツイートしましたが、ボーダーゲートウェイプロトコル（BGP）更新の急増が原因である可能性が高いと述べています。

CloudClareが入手した情報によると、NOCチームがFlowspecルールが引き起こしたボトルネックを特定した後、これはネットワークへの攻撃を緩和するためにCenturyLinkあるいは実際にその顧客の1社によって発行された可能性があることを明らかにしました。 Flowspec（BGPフロー仕様機能）は、分散型サービス拒否（DDoS）攻撃の影響を軽減するために、BGPルータ全体にフィルタリングとポリシングを適用します。

プリンス氏は、なだめるような口調で、サーバをオンラインに戻すのに長い時間がかかった理由を説明しました。「問題が日曜日の早朝に発生した場合、いいことは何もありません。 CenturyLink/Level(3)ネットワークのサイズや規模は非常に複雑です。インシデントは発生します。インシデント全体で何が起こっているのかを知らせてくれた彼らのチームに感謝します」

今週末のサービス停止障害は一部の企業のWebサイトに大きな影響を与えましたが、米国の一部で911の音声通話が停止し、緊急サービスだけでなくVerizon Mobileのデータ、ATMの引き出し、宝くじの抽選、約24時間もの間の入院患者の記録などに影響を及ぼした2018年のインシデントほど重大事件にはならなかったようです。

Cloudflareは、2013年のFlowspecの誤動作によるものであったり、先月にもアトランタデータセンターでのルータ障害がFeedly、Tumblr、Discordなどの多数のサービスを停止させ、そして更に米国全体の12か所の同社データセンターに影響を及ぼしたりと、かなりの数の障害を起こしています。

Data Center Dynamics

原文はこちら

メルマガ配信登録