• HPC/AI/量子
  • HPC - スパコン、AI、量子コンピューティングの最新動向
Kyoto University

京都大学、HPEのバックアッププログラム不具合でスパコンのデータ77TBを喪失

約2500万件のファイルが復元不可能と思われる

京都大学は、HPEのソフトウェア・アップデートによるバックアップ・プログラムの欠陥が原因で、77TBのスーパーコンピュータ・ストレージのデータを失い、大量のデータが削除されました。

「 ストレージシステムのバックアッププログラムの不具合により、/LARGE0 の一部のファイルが消失する事故が発生しました。問題の処理は停止しましたが、100TB近くファイルが消失した可能性があり、影響範囲を調査しております。 」と、同大学は先月、通知で述べています。

その後バックアッププログラムの不具合により、12月14日から16日にかけて14研究グループの約3400万ファイル、合計77TBが失われたことを確認しました。

「スーパーコンピュータシステムのストレージをバックアップするプログラムの不具合により、スーパーコンピュータシステムの大容量ストレージの一部データを意図せず削除してしまう事故が発生しました。皆様に大変なご迷惑をおかけすることになり、深くお詫び申し上げます」と同大学はフォローアップ記事を掲載しました。「今後、再びこのような事態のしょうじることのないよう、再発防止に取り組む所存です。」

backup

同大学によると、現在バックアップは一時停止しており、問題が解決次第、1月中に再開する予定だといいます。また今後このようなデータ消失事故を防ぐために、バックアップのアーキテクチャを改善する予定です。

この事件は、HPEがバックアッププログラムのアップデートを行ったことが原因と思われます。HPEはこの事故の責任を認めています

HPEからの書面には「 この度のファイル消失は 100% 弊社の責であると考えており 」と書かれています。それによると「 バックアップスクリプトには、find コマンドにより 10 日以上古いログファイルを削除する処 理が含まれています。スクリプトの機能改善と合わせて、find コマンドの削除処理に渡す変数名 を視認性・可読性を高めるため変更いたしましたが、この修正したスクリプトのリリース手順に 考慮不足がありました。 」

1月4日のアップデートで、同大学は、バックアップがないために回復できないファイルは、2500万ファイルからなる合計約28TBであると発表しています。

京都大学のスパコンは、Camphor 2(5.48ペタフロップスCray XC40)、Laurel 2(1.03ペタフロップスCray CS400 2820XT)、Cinnamon 2(42.4Teraflops Cray CS400 4840X)の3システムから構成されており、Camphor 2は、そのうちの1つです。

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。

関連記事一覧

  1. この記事へのコメントはありません。