AWSが独自のラック内UPSを開発

Amazon Web Services(AWS)は、ダウンタイムのリスクを最小限に抑えるために、独自のラックマウント UPS システムを開発しました。

同社は、システムを可能な限りシンプルに設計し、複雑さがもたらすリスクを軽減するために、余計な機能を省いたソフトウェアを開発したと説明しています。

DIY

「コンポーネントが複雑になるほど、問題が発生する可能性が高くなる」と、グローバルインフラストラクチャ部門VPのPeter DeSantis氏はAWS re:Inventのインフラストラクチャ基調講演でこのように述べました。

「UPSシステムには非常に複雑な電子部品が数多くあるが、ソフトウェアでは物事が本当に複雑になる。UPSは最初から難しい製品であり、ベンダーは過去20年間、UPSに機能を詰め込んできた。現在我々はこれら多くの機能を無効にしているが、それでも複雑さは増している」

何年もの間、AWSは、鉛蓄電池専用室を設ける標準的なUPS構成を採用してきました。「単一UPS構成が十分な信頼に値しないという結論に達したのは、我々だけではない」とDeSantis氏は言います。 「多くの賢い人間がその課題解決に取り組んできた。設計の冗長性を高める一般的なアプローチとしては、たいてい2台目のUPSが設けられる。そして多くの場合、これは、他のUPSと並列化できるUPS自身の機能を使い実現される。しかし、夜眠れないくらい非常に複雑なコンポーネントは依然として残っている。これは複雑なコンポーネントをもう1つ追加しただけの事に過ぎない」

DeSantis氏は、同社のサーバは2つの独立した電源系統のUPSから電力を供給されていると説明し、「各系統には、独自のスイッチギヤ(開閉装置)、独自の発電機、独自のUPS、さらにその配電線も独自の物を使用している。これらのラインナップを完全に独立させることによって、ラックに至るまで、非常に高い可用性を提供し、UPSの問題から身を守ることができる」

「この設計で動作する当社のデータセンターは、ほぼセブンナイン(99.99997パーセント)の可用性を実現している」

しかし、大規模なUPSシステムを使用するとリスクが生じるため、それでもまだ十分ではない、とDeSantis氏は言います。「我々は現在では、大規模なサードパーティ製UPSは使用せず、すべてのラックに統合する小型のバッテリーパックとカスタマイズ電源を使用するようになった」とDeSantis氏は述べています。 「これはマイクロUPSと考えることができるが、それほど複雑なものではない。そして我々自身がそれを設計したため、我々はそのすべてを把握し、ソフトウェアのあらゆる部分を制御できる。これにより、これにより、我々が不要とする機能による複雑さを排除でき、そして”Amazonスピード“で繰り返しデザインの改善が行える」

「バッテリーは数時間もかからず数秒で取り外しと交換ができ、システムの電源を切らずにこれを行うことができる。これにより、バッテリーラックのメンテナンスリスクを大幅に減らすことができる。この設計により、 99.99997パーセントよりもさらに優れた可用性を実現する」

「これはまさに私を赤ん坊のように眠らせてくれる設計だ」

AWSは他の内部システムも開発しており、どのように同社が独自のスイッチギヤソフトウェアを開発したかをDeSantis氏は詳しく説明しています。これは2016年に同社が明らかにしたものです。

「スイッチギヤはかなり単純な機器だ。これは大きくて非常に重要なものだが、実際には機械的な回路ブレーカー、いくつかの電力検出装置、そしてシンプルなソフトウェア制御システムの集まりにすぎない。制御システムは単純だが、それはソフトウェアだ。多くのベンダーはこれをファームウェアと呼んでいるが、それはパーシステント・メモリモジュールに保存される組み込みソフトウェアであることを意味する。また、インフラストラクチャ内部で保有していないソフトウェアが問題を引き起こす可能性がある」

例えば、AWSがバグを発見した場合、ベンダーと協力し、環境内でそのバグを再現するために数週間を費やすことになります。「その後、ベンダーが修正版を作成し、その検証に数か月も待たされてしまう。インフラの世界では、その修正版を取得してから全てのデバイスに適用する必要があり、その作業を手動で行うため技術者派遣の必要があるかも知れない。そして作業を完了するまでに、問題の修正に1年もかかる場合がある。これは、我々の要求するように機能はしていない」

もう1つの問題として、スイッチギアのファームウェアは様々なユースケースを想定し開発されているため、AWS施設には意味のない無関係な機能が含まれていることです。「我々は何年も前に、独自のスイッチギア制御システムを開発した。現在これはかなりシンプルに見えるかもしれない。そして実際、我々はそれを可能な限りシンプルに保つことに多額の投資を行なってきた。コントローラーに派手な機能を追加するのではなく、非常に重要な処理を完璧に処理できる点に重点を置いている」

「今日、我々は複数パートナーから数十種類のメーカーやモデルのスイッチギアを使用している。しかし、それらは全て当社のファームウェアによって制御されている。つまり、世界中のデータセンターをどこでも全く同じように運用できるということを意味する」

Data Center Dynamics

原文はこちら

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。