ネットワークパフォーマンスの問題によるCloudflareの大規模障害

更新:何が起こったのかについては、CloudflareのCEOであるMatthew Princeとのインタビューを読んでください

ネットワークサービスプロバイダのCloudflareは、Discord、Marketo、Down Detector、DigitalOceanなどのサービスを停止し、世界規模のユーザーに影響を及ぼしています。

停止に至った原因は依然不明で、Cloudflareのサポートサイトでは、単に以下についてのみアナウンスしています。 「Cloudflareはネットワークパフォーマンスの問題に対処しています。Cloudflareのサイトへのアクセスの間にも502エラーが発生するかもしれません。」

「各リージョンのインターネット利用ユーザーへの影響を軽減するために現在対応に取り組んでいます。」

CEOのマシュー・プリンス氏は、次のようにツイートしています。「ネットワーク全体に影響を与える重大な問題が発生してます。」

1415 UTC更新: 「Cloudflareはこの問題に対する修正を実施し、現在結果を監視しています。」

「問題が解決したら、ステータスを更新します。」

1445 UTC更新:「サービスは再開しているようです。ただし、Cloudflare Analyticsの処理は遅れています。これは、顧客データのタイムリーな配信に影響します。」

「私たちは影響を軽減するために努力しています。」

1450 UTC更新:

Cloudflareは、次のように説明しています。「プライマリシステムとセカンダリシステムがダウンした原因とされるCPU使用率の急激なスパイク(上昇)が確認できました。CPUスパイクの原因となっていたプロセスをシャットダウンしました。サービスは30分以内に正常に回復しました。現在根本原因を調査中です。」

1457 UTC更新:

「Cloudflareはこの問題を解決し、サービスは通常の運用を再開しました。」

中国政府が DDoS 攻撃 を仕掛けたことが原因であると主張する人もいましたが、CloudflareのCEOはDCDにこれは当てはまらないと述べています。完全なインタビュー記事はこちらです。

デジャヴ

先週、Cloudflareがおよそ1時間42分間利用できなかった際にも、同様の問題が発生していました。

その際、Cloudflareは、ダウンタイムはそのせいではないと指摘していました。「本日未明、広範囲にわたる BGP ルーティングリークが、いくつかのインターネットサービスやCloudflareへのトラフィックの一部に影響を及ぼしました。しかし、一部の我々のドメインについてはアクセスできませんでした。ネットワークの機能停止は解消され、トラフィックレベルは通常時に戻りつつあります。」

「BGPはインターネットのバックボーンとして機能し、インターネット中継プロバイダを経由してCloudflareのようなサービスにトラフィックをルーティングしています。インターネット上には700k以上のルートがあります。元々ルートリークはローカライズされ、エラーまたは悪意の操作によって引き起こされる可能性があります。我々はBGPに関して広範囲に記述しており、そしてよりセキュアにする為に RPKI を採用してきました 」

– Thinkstock / AKodisinghe

過去のDCDのブログ記事で、ネットワーク監視企業ThousandEyesのAlex Henthorne-Iwane氏は、以下のように解説していました。「ルーティングは複雑であり、ルートリークはかなり定期的に起こりえます。MainOneナイジェリアでのISPルートリークで経験したように、人間の設定ミスによりグローバルでグーグルトラフィックのリルート障害を引き起こしました。最近のGoogleの機能停止であったように、自動化システムがサービス停止を引き起こすこともあります。」

ThousandEyesとCloudflareの両社はVerizonに責任があると指摘しています。Henthorne-Iwane氏は、次のように述べています。「Verizonが下流のeye-ballネットワークから大量のルートリークを受け入れて伝播させたという事実が、一つの問題を大規模な機能停止に広げてしまいました。

「この問題について、Cloudflareやその他のインターネット関係者は、Verizonが持つ複数のフィルタリングメカニズムのうちの1つでこの問題を引き起こしている原因ではないかとコメントしています。

しかし今回の障害の原因が何であるかは依然不明のままです。

むしろ拡大している

Cloudflareは、そのステータスページで、この障害の影響範囲について説明しています。

“北アメリカ(Ashburn、VA、アメリカ合衆国 – (IAD)、Atlanta、GA、アメリカ合衆国 – (ATL)、Boston、MA、アメリカ合衆国 – (BOS)、Buffalo、NY、アメリカ合衆国 – (BUF)、Calgary、 AB、カナダ – (YYC)、Charlotte、NC、アメリカ合衆国 – (CLT)、Chicago、IL、アメリカ合衆国 – (ORD)、Columbus、OH、アメリカ合衆国 – (CMH)、Dallas、TX、アメリカ合衆国 – (DFW) )、Denver、CO、アメリカ合衆国 – (DEN)、Detroit、MI、アメリカ合衆国 – (DTW)、Houston、TX、アメリカ合衆国 – (IAH)、Indianapolis、IN、アメリカ合衆国 – (IND)、Jacksonville、FL、アメリカ合衆国 – (JAX)、カンザスシティ、MO、アメリカ合衆国 – (MCI)、ラスベガス、NV、アメリカ合衆国 – (LAS)、ロサンゼルス、CA、アメリカ合衆国 – (LAX)、McAllen、TX、アメリカ合衆国 – (MFE)、メンフィス、TN、アメリカ合衆国 – (MEM)、マイアミ、FL、アメリカ合衆国 – (MIA)、ミネアポリス、MN、アメリカ合衆国 – (MSP)、Montgomery、AL、アメリカ合衆国 – (MGM)、モントリオール、カナダQC – (YUL)Nashville、TN、アメリカ合衆国 – (BNA)、Newark、NJ、アメリカ合衆国 – (EWR)、Norfolk、VA、アメリカ合衆国 – (ORF)、Omaha、NE、アメリカ合衆国 – (OMA)、Phoenix、AZ、アメリカ合衆国 – (PHX)、Pittsburgh、PA、アメリカ合衆国 – (PIT)、Portland、OR、アメリカ合衆国 – (PDX)、Queretaro、MX、メキシコ – (QRO)、Richmond、Virginia – (RIC)、Sacramento、CA、アメリカ合衆国States – (SMF)、ソルトレイクシティ、UT、アメリカ合衆国 – (SLC)、San Diego、CA、アメリカ合衆国 – (SAN)、San Jose、CA、アメリカ合衆国 – (SJC)、Saskatoon、SK、カナダ – (SLC) YXE)、シアトル、WA、アメリカ合衆国 – (SEA)、St. Louis、MO、アメリカ合衆国 – (STL)、Tampa、FL、アメリカ合衆国 – (TPA)、Toronto、ON、カナダ – (YYZ)、バンクーバー、 BC、カナダ – (YVR)、フロリダ州タラハシー – (TLH)、ウィニペグ、MB、カナダ – (YWG))、アジア(バンコク、タイ – (BKK)、セブ、フィリピン – (CEB)、Chengdu、中国 – (CTU)、チェンナイ、インド – (MAA)、コロンボ、スリランカ – (CMB)、東莞、中国 – (SZX)、仏山市 – (FUO)、福州、中国 – (FOC)、広州、中国 – (CAN)、杭州、中国 – (HGH)、ハノイ、ベトナム – (HAN)、衡陽市、中国 – (HNY)、ホーチミン市、ベトナム – (SGN)、ハイデラバード、インド – (HYD)、イスラマバード、パキスタン – (ISB)、済南、中国 – (TNA)、カラチ、パキスタン – (KHI)、ネパールのカトマンズ – (KTM)、マレーシアのクアラルンプール – (KUL)、ラホール、パキスタン – (LHE)、中国廊坊 – (NAY)、洛陽、中国 – (LYA)、マカオ – (MFM)、フィリピンのマニラ – (MNL)、インドのムンバイ – (BOM)、中国の南寧市 – (NNG)、インドのニューデリー – (DEL)、大阪 – (KIX)カンボジア・プノンペン – (PNH) – 中国青島 – (TAO) – 韓国ソウル(ICN) – 中国上海(SHA) – 中国瀋陽市(SHE) – 中国石家荘市 – (SJW) 、シンガポール、シンガポール – (SIN)、中国蘇州 – (SZV)、台北 – (TPE)、天津、中国 – (TSN)、東京 – 日本(NRT)、ウランバートル、モンゴル – (ULN)、中国武漢 – (WUH)、中国無錫 – (WUX)、中国西安市(XIY)、エレバン、アルメニア – (EVN)、鄭州 – 中国(CGO)、洲州 – 中国(CSX))、アフリカ(カイロ、エジプト – (CAI)、カサブランカ、モロッコ – (CMN)、ケープタウン、南アフリカ – (CPT) 、ダルエスサラーム、タンザニア – (DAR)、ジブチ市、ジブチ – (JIB)、南アフリカ – (DUR)、ヨハネスブルグ、南アフリカ – (JNB)、ラゴス、ナイジェリア – (LOS)、ルアンダ、アンゴラ – (LAD)、マプト、MZ – (MPM)、モンバサ、ケニア – (MBA)、ポートルイス、モーリシャス – (MRU)、フランス – (RUN)、キガリ、ルワンダ – (KGL))、オセアニア(オークランド、ニュージーランド – (AKL)、ブリスベン、QLD、オーストラリア – (BNE)、メルボルン、VIC、オーストラリア – (MEL)、パース、WA、オーストラリア – (PER)、シドニー、NSW、オーストラリア – (SYD))、ラテンアメリカカリブ海地域(アスンシオン、パラグアイ – (ASU)、ボゴタ、コロンビア – (BOG)、ブエノスアイレス、アルゼンチン – (EZE)、クリティバ、ブラジル – (CWB)、フォルタレザ、ブラジル – (FOR)、リマ、ペルー – (LIM)、メデジン、コロンビア – (MDE)、メキシコシティ、メキシコ – (MEX)、パナマシティ、パナマ – (PTY)、ポルトアレグレ、ブラジル – (POA)、キト、エクアドル – (UIO)、リオデジャネイロ、ブラジル – (GIG)、サンパウロ、ブラジル – (GRU) 、サンティアゴ、チリ – (SCL)、ウィレムスタット、キュラソー – (CUR)、中東(アンマン、ヨルダン – (AMM)、バグダッド、イラク – (BGW)、バクー、アゼルバイジャン – (GYD)、ベイルート、レバノン – (SCL) BEY)、ドーハ、カタール – (DOH)、ドバイ、アラブ首長国連邦 – (DXB)、クウェートシティ、クウェート – (KWI)、マナマ、バーレーン – (BAH)、マスカット、オマーン – (MCT)、ラマラ – (ZDM) )、リヤド、サウジアラビア – (RUH)、テルアビブ、イスラエル – (TLV))、およびヨーロッパ(アムステルダム、オランダ – (AMS)、アテネ、ギリシャ – (ATH)、バルセロナ、スペイン – (BCN)、ベルグレード、セルビア – (BEG)、ベルリン、ドイツ – (TXL)、ブリュッセル、ベルギー – (BRU)、ブカレスト、ルーマニア – (OTP)、ブダペスト、ハンガリー – (BUD)、キシナウ、モルドバ – (KIV)、コペンハーゲン、デンマーク王国 – (CPH)、ダブリン、アイルランド – (DUB)、デュッセルドルフ、ドイツ – (DUS)、エディンバラ、イギリス – (EDI)、フランクフルト、ドイツ – (FRA)、ジュネーブ、スイス – (GVA)、イェーテボリ、スウェーデン – (GOT)、ハンブルク、ドイツ – (HAM)、ヘルシンキ、フィンランド – ( HEL)、イスタンブール、トルコ – (IST)、キエフ、ウクライナ – (KBP)、リスボン、ポルトガル – (LIS)、ロンドン、イギリス – (LHR)、ルクセンブルク、ルクセンブルク – (LUX)、マドリード、スペイン – ( MAD)、マンチェスター、イギリス – (MAN)、マルセイユ、フランス – (MRS)、ミラノ、イタリア – (MXP)、モスクワ、ロシア – (DME)、ミュンヘン、ドイツ – (MUC)、ニコシア、キプロス – (LCA) )、オスロ、ノルウェー – (OSL)、パリ、フランス – (CDG)、プラハ、チェコ共和国 – (PRG)、レイキャビク、アイスランド – (KEF)、リガ、ラトビア – (RIX)、ローマ、イタリア – (FCO) 、 セントピーターズバーグ、ロシア – (LED)、ソフィア、ブルガリア – (SOF)、ストックホルム、スウェーデン – (ARN)、タリン、エストニア – (TLL)、テッサロニキ、ギリシャ – (SKG)、ウィーン、オーストリア – (VIE)、ビリニュス、リトアニア – (VNO)、ポーランド、ワルシャワ – (WAW)、クロアチア、ザグレブ – (ZAG)、スイスZürich – (ZRH))

Data Center Dynamics

原文はこちら

【補足】 幸い今回、日本国内への影響はありませんが、今後各プロバイダーはこのようなBGPルートリークについては注視していく必要がありそうです。