【特集記事】データセンターのリスク管理

Data Center Cafe
2018.08.31
878 views

本記事は、英国のData Center Dynamicsグループの特集記事「Reducing risk in the data center」（2018/7/18）の翻訳記事です。データセンターのリスク管理と人的要素が、海外ではどのように考えられているか取り上げました。
———————————

リスク管理の重要性

データセンターのリスク管理/低減に向けて取り組む際には、その大きな障壁として
・知識の欠如（一般的な知識、土地固有の知識）
・知識を共有するプロセスの欠如
・土地固有の経験の不足
・無知であるが故の無意識
・人々に対して、また学習に対して取り組む姿勢
などがあげられます。仮に、データセンター設備が複雑で、学習態度もおざなりであれば、必然的にリスクは高くなります。

設計の複雑さ

設計の複雑さについて見当する前に、まず、 SPOF (Single point of Failure)がないレジリエンスシステムであれば、通常、故障などの問題は複数のイベントが同時に発生した結果であると捉える必要があります。機器が故障している可能性もあれば、システム全体がどのように動作するかを理解しないままスイッチングをしてしまうなど、不適切に手を加えてしまった結果ということもあり得ます。

SPOFのない設備を達成するための最低条件として「 2N 構成」があげられます。簡単に説明すると、2N構成がAとB、同一の電気システムと機械システムから成り立つとします。フォルトツリー解析（FTA）を行えば、故障の要因となるイベントの組み合わせを特定できますが、人為的なミスをモデル化するのは非常に困難です。人為的なエラーをモデル化するのに使われるデータは、常に主観的で不安定なものになってしまいがちです。

仮に、2N構成のシステムが物理的に分離されているのならば、一つのシステムをいじっても、他方への影響はありません。しかしながら、よりリスクを低減することを目的に、2N構成を採用したうえで、ディザスタリカバリ用のサイトや、共通のストレージタンクといったさらなる拡張機能を導入することも珍しくはありません。
より大規模な設計においては、単純な機械的インターロックではなく、自動抑制システム（ SCADA 、 BMS など）が導入されることもあります。大規模設計では2N構成という基本的原則は損なわれ、同システムの複雑性は指数関数的に上昇しました。ゆえに、運用チームに必要とされるスキルはより高度なものとなります。

デスクトップパソコン上で見る設計レビューでは、2N設計構成が達成されていると示さていても、システムの複雑さや操作性（運用上）の課題によって、高い可用性を実現するという基本要件が、難しくなっています。

とある研究によると、故障を招くような一連の事象は思いがず発生するものであることが多く、発生するまでは、まさか故障を導くことなど予想できないようです。言い換えれば、これらのインシデントは実際に生じるまで認識されることはありません。したがって、FTA分析には含まれることもないのです。

オーストリアの物理学者であるルードヴィッヒ・ボルツマン氏は、統計力学、特に欠落した情報にエントロピーの等式を発見しました。例えば、とある区画が用意され（4×2あるいは5×4のように）、うち一つの枠にコインが置かれています。同理論によると、利用者はどの枠（グリッド）にコインが置かれているのかを特定できるまでにできる質問の回数を決めることができます。もし仮に、その枠をシステムコンポーネントとし、コインを未知の故障イベントに置き換えれば、複雑さによってシステムの可用性がどのように損なわれるのかを思考することができます。未知の故障イベントが少ないほど、システムが故障するパターンが少なくなるという見方も出来ます。システムに関する細かな知識を増やし、未知のイベントを発見することで、システムが故障する組み合わせを減らし、リスク自体も低減することになるのです。

人的要素

人間の手が加わるシステムはいずれも、脆弱性がゆえに最終的には必ずトラブルを引き起こすということを示す研究があります。
脆弱性とは、設備において故障を引き起こす潜在的な弱点のことです。データセンターにおける脆弱性は、「設備インフラ」と「設備運用」にも関連します。ここでいう「設備インフラ」は機器およびシステムに関連し、顕著な例としては、
・機械的および電気的信頼性
・設備の設計、冗長性そしてトポロジー
などがあげられます。

また、「設備運用」は人的要素や、個人レベルあるいは組織レベルで引き起こされるヒューマンエラーのことを指し、システムの脆弱性と大きく関わります；
・運用チームのレジリエンス
・そのチームの、脆弱性への対応の仕方

システムが複雑になればなるほど、人的要素（人間が故障の原因となる）はより脆弱なものになり、設備を運用する為にはより一層の訓練・学習が求められるようになります。学習は個人に課されるものではなく、組織にも求められるものです。

組織そのものの学習レベルは、成熟度と、プロセスによって特徴づけられます。（下図では、累積的経験=知識の蓄積として示されている。）周囲環境の構成やリソース、メンテナンス、変更管理、文書管理、コミッショニング、そして操作性・保守性についてどれだけの知識を蓄え、活用できているか、等の例が挙げられます。
一方で、個人の学習レベルは、知識や業務経験、学習態度（経験の深さとして下図に示されている）と相関関係にあります。組織・個人の学習双方が開発された環境では、故障率は低くなり、エネルギー消費をより効果的に削減するノウハウがオペレーターに提供されます。

故障と経験の関係は指数関数的な曲線に従うため、前提として（矛盾的ですが）故障を一切なくすことは不可能と理解することは重要です。適切な手続きや経験を積んだオペレーターを有する施設でも、まだ満足とは言えず、未知のイベントのシーケンスによって故障を経験する可能性があります。

結論

トラブルを完全に無くすことは無理でも、組織と個人の知識向上を図る学習環境を提供することで、データセンターにおけるリスクは軽減できます。
成熟したオペレーターは故障率を減らし得る経験を持つ一方で、過度に複雑な設計が適切な訓練なしに実行された場合には、依然として故障を生み出すことになるでしょう。

——————————-
＜データセンタートレーニング案内＞
Data Center Dynamicsでは、世界的なデータセンタートレーニングであるDC Professional Development（DCPro）を展開しており、データセンターの設計、施工、管理のさまざまな側面で専門的な知識を習得し、専門家として認定されることが可能です。

日本では、株式会社DC ASIAがDCProのトレーニングコースを提供しています。DCProのデータセンターコース開講情報はDC ASIAのホームページをご覧ください。

– Data Center Dynamics
原文はこちら