• 障害情報
  • 世界のデータセンター障害情報をいち早くお届け

Facebookがまたも金曜日に障害

10月8日(金)FacebookとInstagramが、先週の初めに発生した大規模なクラッシュに続き、再び停止しました。

WhatsAppとFacebook Messengerにも断続的な問題が発生しました。障害の原因は公表されていません。

Facebookは障害発生中「一部のお客様が当社のアプリや製品へのアクセスに支障をきたしていることを認識しています」と述べました。「可能な限り早く正常な状態に戻すよう努めており、ご迷惑をおかけしていることをお詫びします。

この障害は1時間以上続き、さらに1~2時間はより広い範囲で問題が発生しました。

月曜日に発生した7時間近くに及ぶ障害よりも状況は改善されています。

月曜日の障害ではFacebookのグローバル・バックボーン・ネットワークの定期メンテナンス中に、グローバル・バックボーン・キャパシティの可用性を評価する目的でコマンドが発行され、同社のVPインフラストラクチャSantosh Janardanのブログによると「意図せずにバックボーン・ネットワークのすべての接続が停止し、世界中のFacebookデータセンターが事実上切断されました。」

「当社のシステムはこのようなミスを防ぐために、このようなコマンドを監査するように設計されていますが、その監査ツールのバグにより、コマンドを適切に停止することができませんでした」

このコマンドにより、Facebookのデータセンターとインターネットを結ぶサーバーの接続が完全に切断されました。Janardanはまた「そして、その完全な接続の切断が、事態をさらに悪化させる第2の問題を引き起こしました」と述べています。

「私たちの小規模施設が行う仕事のひとつに、DNSクエリへの対応があります。DNSはインターネットのアドレス帳であり、私たちがブラウザに入力するシンプルなWeb名を、特定のサーバーのIPアドレスに変換できます。これらのクエリは、よく知られたIPアドレスを占有する当社の権威あるネームサーバーによって回答され、そのIPアドレスは、ボーダーゲートウェイプロトコル(BGP)と呼ばれる別のプロトコルを介してインターネットの他の部分にアドバタイズされます。」

FacebookのDNSサーバーは、自身がデータセンターと通信できない場合、ネットワーク接続が正常でないことを示すため、BGPアドバタイズを無効にしています。今回の障害では、バックボーン全体が不調になり、BGPアドバタイズが取り消されました。

「その結果、DNSサーバは稼働していたにもかかわらず、到達できなくなってしまいました。その結果、インターネット上の他のユーザーが当社のサーバーを見つけることができなくなったのです」とJanardhanは付け加えています。

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。

関連記事一覧

  1. この記事へのコメントはありません。