• 特集
  • ここでしか読めないオリジナル記事

新型コロナでクラウド依存が進む中、DC障害のリスクを考える【特集】

新型コロナが社会のオンライン化を加速

新型コロナウイルス感染症(Covid-19)の感染拡大に伴い、世界的にソーシャルディスタンスが広がり、外出自粛など、人との物理接触は極端に少なくなりました。在宅勤務に伴い会議はオンラインになり、娯楽も自宅で映画鑑賞やオンラインゲームなどオンラインに集約され、人々の行動パターンは新型コロナ以前と比べ本質的に変わりました。

インターネット利用が増加し、クラウド、オンラインへの依存度が史上かつてないほど高まっているのは紛れもない事実です。

幸い、IT技術の発展により、人々は生活や仕事をオンラインでかなりこなせるくらい便利な世の中になりました。この動きは5Gの発展と共に更に加速するでしょう。

人々は常時オンラインに慣れ、データはクラウド上にあるのが当たり前になりました。政府や金融機関などもクラウドへのシフトを進め、もはやクラウドは社会インフラであると言えます。クラウドサービスが停止した場合のインパクトは甚大です。

多発するデータセンター障害

しかし一方では、データセンターでは障害がしばしば発生し、その都度クラウドサービスへの影響を及ぼしています。画像に alt 属性が指定されていません。ファイル名: shutterstock_713347720.jpg

先日(4/20)、AWSの東京リージョンが障害を起こし、Twitter、Youtubeなど様々なネット上のサービスがつながらない、遅いなどのトラブル報告がありました。AWS東京リージョンは昨年の8月にも大規模障害を起こしています。今回の原因はまだ不明ですが、昨年の障害の原因は空調設備の誤動作によるサーバ室内の異常加熱でした。

少し趣は異なりますが、その翌日の4月21日、シャープのサーバにアクセスが集中したためサーバがダウンし、IoT家電が操作不能になる事態が発生しました。これはマスクを購入しようと販売開始直後に人々が大量にアクセスしたことが原因でした。

新型コロナを機に、ネットワークやサーバへの負荷が格段に増加したことに起因する障害もいくつか報告されています。

新型コロナで外出自粛の広がりに伴い、システム開発のTISが提供するテレワーク向けクラウドサービスの利用ユーザーが急増し、システムは徐々に不安定になり、3月26日に障害で約3時間のサービス停止に追い込まれました。これはあくまでも一例ですが、想定を超える高負荷に伴うエラーは、どんなシステムでも起こりえます。

それ以外でも、クラウドデータセンターの停止は日常茶飯事のように起きています。当メディアが取り上げただけでも、今月、Google Cloud(2回)、OVHCloudCloudFlareが停止によるトラブルを起こしています。 物理的な問題、ヒューマンエラー、システム障害など原因は様々です。

対策は?

クラウド はそんなに脆弱なのでしょうか?

例えば、AWSは1 つ以上の データセンター で構成される「 アベイラビリティゾーン (AZ)」 を設け、仮に一か所のデータセンターが停止しても、ほかのデータセンターがバックアップ動作を行えるよう レジリエンス 力を確保しています。同一 リージョン 内に属する複数のAZはそれぞれが冗長光ファイバで接続され、各AZはそれぞれ独立した電力・冷却設備を備え、冗長化構成が組まれています。

それでも、システムの構成によっては、データセンター障害の影響を受けてしまいます。影響を受けないようにするには、ユーザーはシステムを、単一AZではなく、マルチAZ、あるいはマルチリージョンの範囲で設計することが必要となります。(更には マルチクラウド や、 オンプレミス 施設とのハイブリッド構成なども)

オンライン依存が高まる中、重要なサービスを提供する企業は、より堅牢なシステムにしていかなければなりません。しかしより堅牢性が高い構成になればなるほど、維持コストは当然上昇します。

少し話はずれるかもしれませんが、サービス事業者は、短絡的に「 パブリッククラウド 」一本で考えるのではなく、 SLA レベルとコストを総合的に見て、もしかしたらオンプレミスの維持、あるいはクラウドから回帰する選択肢もあるかもしれません。

先行でクラウド移行をした企業がオンプレ回帰をした事例も出てきています。Dropboxは自社のオンラインファイル同期サービスのインフラをAWSからオンプレミスに回帰させました。国内でもNTTぷららが自社の映像配信サービス「ひかりTV」のインフラをAzureからオンプレミスに切り替えました。理由はサービスの特性、コストの問題など様々です。

いずれにせよ、クラウドがダウンすることによる社会インパクトは、数か月前よりもはるかに高くなりました。100%落ちないシステムは存在しませんが、(特に重要サービスを提供する)クラウドサービス事業者や、その基盤を支えるデータセンター事業者は、システム・設備のレジリエンス力をコストを掛けてでもより強化していかなければなりません。

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。