パンデミックが機能停止や減速を引き起こしている【特集】

【原文著者】Andy Lawrence氏 (Uptime Institute

システムはレジリエンス性があるが、要員不足が懸念される

これまで、Covid-19やロックダウンの影響に関するマスコミ報道では、主に称賛がなされてきました。目立った、あるいは深刻な停止障害は僅かで(おそらく通常よりも少ない)、インターネットトラフィックフロー分析では、在宅へのシフトと日中時間帯の混雑と共に起きたアクセスの急増はパフォーマンスに僅かな影響を与えた程度です。 現代インターネットの礎を築いた Arpanet (Advanced Research Projects Agency Network)やインターネットプロトコルのミリタリーグレードの レジリエンス 性は、賞賛に値します。

しかし、穏やかな水面下では、データセンター事業者はサービスを維持する為に猛烈にパドリングを行っており、特に一部のサイトでは、運用要員不足が懸念されています。

真の原因は何か?

我々の最新の調査では、回答者の84%は、Covid-19に起因するとみられるサービスの減速や停止はなかったと答えています。ただし、4%(8事業者)はCovid-19に関連した停止が発生し、10%(20事業者)はCovid-19に関連したサービスの減速を経験したと回答しています(図を参照)。

Uptime Institute

これらの減速や停止の原因を突き止めることは、おそらく容易ではありません。調査によると、要員不足や疲労はインシデントと停止の増加に繋がると見られていますが、慢性的な要因不足(感染、シフトの分離、および自己隔離)が業界全体に広がっています。Uptime Instituteが追跡した直近のデータセンターの停止のいくつかは、明らかに事業者や管理ミスの結果でしたが、これは通常ある出来事です。

一方、減速については、需要と過負荷の突然の変化、あるいは外部のネットワーク問題に関連する可能性が高いです。2つ例を挙げると、DoS攻撃による負荷を見誤った英国のオンライン食料品店、そしてマスクの販売をオンライン家電の管理システムと同居させてしまったシャープ、双方ともシステムクラッシュしました。

急激に人気が高まっているビデオ会議サービスのZoomでも、メンテナンス関連の障害が発生しました。米国内では、CenturyLinkでのケーブル断線、そしてヨーロッパではタタコミュニケーションズで起きたネットワーク関連障害などもあり、停止障害の数は平均値を超えました。

新型コロナウイルスによる影響が続くにつれ、データセンター事業者は更なる負担を感じるようになるでしょう。多くの事業者は計画メンテナンスの実施を延期し、監視や綿密な管理を行っていても、障害増加のリスクにつながる可能性があります。更に、ほとんどではないにせよ多くのサイトが、多くのエンジニアをオンサイト常駐させず、オンコール待機させるなど、オンサイトスタッフのレベルを下げた運用を行っています。業界の伝統的な保守性はこれまで優れた保護バッファを提供してきましたが、リスクが再び軽減されるように制限や慣行を緩和あるいは進化させない限り、時間の経過とともにプレッシャーが高まるでしょう。

Data Center Dynamics

原文はこちら