Googleでキャスターが潰れラックが過熱
Googleのエッジネットワーク上にある、とある POP (point-of-presence)拠点のサーバーラックのキャスターが破損を起こし、過熱による事故が発生した模様です。
Google CloudソリューションアーキテクトのSteve Mcghee氏の投稿によると、サイトリライアビリティエンジニアリング(SRE)で、名前のないデータセンターから発生する「異常に数多くのエラー」が通知されたと言います。Googleによると、この問題はユーザーに顕著な影響を与える前に修正されたといいいます。
これがいつ、どこで発生したかについては、Googleから詳細は提供されていませんが、誤動作を起こしている機器は撤去され、SREはワークロードを冗長「リソース」に移行したとしています。そして、エンジニアは問題を一つのラックに特定し、ラックのベースシステムログでカーネルメッセージを発見しました。
「パッケージ温度がしきい値を超え、CPUクロックが調整された(合計イベント= 1596886)」というメッセージが表示されていたようです。
グーグルの斜塔
この問題は、後輪キャスターの損傷が原因であったことが判明しました。これにより、ラックが前方に傾き、液体冷却剤の流れが混乱し、一部のCPUがスロットルのポイントまで加熱する結果となりました。Googleは、この問題を修復し、ラックは適切な状態に戻されたと言います。
その後、問題が二度と発生しないよう、すべてのラックでキャスターが同一のものに交換されたようです。
Data Center Dynamics
コメント ( 0 )
トラックバックは利用できません。
この記事へのコメントはありません。