Googleでキャスターが潰れラックが過熱

Googleのエッジネットワーク上にある、とある POP (point-of-presence)拠点のサーバーラックのキャスターが破損を起こし、過熱による事故が発生した模様です。

Google CloudソリューションアーキテクトのSteve Mcghee氏の投稿によると、サイトリライアビリティエンジニアリング(SRE)で、名前のないデータセンターから発生する「異常に数多くのエラー」が通知されたと言います。Googleによると、この問題はユーザーに顕著な影響を与える前に修正されたといいいます。

これがいつ、どこで発生したかについては、Googleから詳細は提供されていませんが、誤動作を起こしている機器は撤去され、SREはワークロードを冗長「リソース」に移行したとしています。そして、エンジニアは問題を一つのラックに特定し、ラックのベースシステムログでカーネルメッセージを発見しました。

「パッケージ温度がしきい値を超え、CPUクロックが調整された(合計イベント= 1596886)」というメッセージが表示されていたようです。

グーグルの斜塔

この問題は、後輪キャスターの損傷が原因であったことが判明しました。これにより、ラックが前方に傾き、液体冷却剤の流れが混乱し、一部のCPUがスロットルのポイントまで加熱する結果となりました。Googleは、この問題を修復し、ラックは適切な状態に戻されたと言います。

ラックを支えていた車輪の状態 – Google

その後、問題が二度と発生しないよう、すべてのラックでキャスターが同一のものに交換されたようです。

Data Center Dynamics

原文はこちら