GoogleとSeagateがAIを使ってハードディスクの故障を予測

Google Cloudとシーゲイトは、AIを使ってデータセンター内のハードディスク・ドライブ(HDD)が故障する時期を予測し、Googleがメンテナンス作業を計画したり、ドライブを事前に交換して混乱を最小限に抑えたりできるようにしています。

チームは、どのハードディスク・ドライブが故障するかを予測するために、2種類のAIモデルのテストを行いました。その結果、自動機械学習(AutoML)モデルがカスタマイズ・システムよりも優れ、98%の精度を実現したとしています。

チアを予測できなかった

データセンター業界は現在、HDDやソリッドステートドライブ(SDD)のストレージスペースを独占し、コンシューマーグレード製品の故障時期を早めるほどドライブを非常に酷使することでコインをゲットする「Chia(チア)」と呼ばれる暗号通貨マイニングスキームに襲われており、この技術は非常にタイムリーなものになる可能性があります。これはまた、Azureクラウドデータセンター内にある18万台のスイッチを監視し、どのメーカーとソフトウェアの組み合わせが最も故障しやすいかを発見したマイクロソフトの研究など、AI技術を用いてデータセンターのハードウェアの信頼性を向上させようとする他の取り組みにも追随しています。

「これまでは、ディスクに不具合のフラグが立った場合、ソフトウェアを使って現場で修理することが主な選択肢であった。しかし、この方法ではコストと時間がかかってしまう。ドライブからデータを削除し、ドライブを分離して診断を行い、そして再びトラフィックに戻す必要があった」GoogleのテクニカルプログラムマネージャーのNitin Aggarwal氏とAIエンジニアのRostam Dinyari氏はブログでこのように説明しています。

ML(機械学習)システムでは、もしHDDに修理のフラグが立った場合、SMARTデータやその他のログを使って、再び故障する可能性が高いかどうかを予測します。

Googleは、HDDの主要サプライヤーであるSeagateと協力して、30日以内に3回以上問題が発生するような再発性障害を起こすHDDを予測する機械学習システムを構築しました。このプロジェクトは、Accentureからの協力も得て行われています。

Googleには何百万台ものハードディスクがあり、それぞれのディスクは、1時間ごとのSMART(self-monitoring, analysis, and reporting technology)データや、修理ログ、オンライン診断、FARM(field accessible reliability metrics)ログなどのホストデータ、HDDの製造データなど、その動作に関する何百ものメタ情報を生成しています。

これらのデータを合わせるとテラバイト(TB)単位のデータになります。「人力だけでこれらすべてのデバイスを監視するのは現実的に不可能」とAggarwal氏とDinyari氏は言います。「この問題を解決するために、私たちはデータセンター内でのHDDの健全性を予測する機械学習システムを構築した」

データ洪水への対処法

AIシステムは、Googleの施設内で最も一般的に使われている2つのシーゲイト製ドライブにフォーカスしました。チームは、すべてのハードディスクから膨大な量のログとパラメータを取得し、それを迅速に処理し、継続的に監視できるデータパイプラインを構築する必要がありました。 「私たちは、さまざまなデータソースのバッチ処理とストリーミング処理の両方に対応できる、拡張性と信頼性を兼ね備えたデータパイプラインを構築する必要があった 」とブログに書かれています。「大量の生データから、MLモデルの精度と性能を確保するために、正確な特徴を抽出する必要があった」

チームは、Terraform、BigQuery、Dataflow、AI Platform Notebooks、AutoML Tables、そしてCloud AI Platform上のCustom TransformerベースのTensorflowモデルなど、Google独自のAIツールの数々を使用しました。

AutoML Tablesは良い近道であったと、プロジェクトリーダーは言います。「我々がしなければならなかったのは、データパイプラインを使って生データをAutoML入力フォーマットに変換することだけであった」

このシステムでは、BigQueryを使用して、行から列への変換、正規化されたテーブルの結合、ラベルの定義などの変換を行い、ペタバイト級のデータを準備してAutoML Tablesに入力し、MLモデルを学習させます。

グループは2つのオプションのテストを行いました。1つは、エラーレートなどの主要な特徴を抽出し、ディスクモデルタイプなどの特徴を連結する「AutoML Tables classifier」です。プロジェクトリーダーは、「トレーニング、検証、テストのサブセットを作成するために、時間ベースの分割を使用した」と述べています。

比較のために、同グループはTensorflowを使ってTransformerベースのカスタムモデルについてもゼロから構築を行いました。このモデルには機能工学は必要なく、生の時系列データを扱い、ディープニューラルネットワーク(DNN)を用いてディスクタイプなどの他データと関連付けました。そして、モデルとDNNの両方からの出力を連結しました。

そして将来の故障を予測したそれぞれのモデルと、30日後の実際のディスク修理記録との比較が行われました。AutoMLでは精度98%、再現率35%、Transformerベースのモデルでは精度70〜80%、再現率20〜25%という結果になりました。

また、システムは繰り返し発生する障害の主な原因も特定したため、チームは今後の運用で障害を減らすための事前対策を講じることが可能となります。

チームは、インフラ全体にシステムを展開するためにTerraformを使用し、ソースコントロールのバージョン管理にはGitLabを使用しました。また、開発バージョンと本番バージョンをリポジトリの2つのブランチに保存するMLOps(DevOpsスタイルのアプローチ)を採用しました。

シーゲイトのquality data analytics tools & automation(品質データ分析ツールおよび自動化)部門ディレクターであるElias Glavinas氏は、次のように述べています。「GoogleのMLOps環境により、データの取り込みから監視しやすいエグゼクティブ・ダッシュボードまで、シームレスなエクスペリエンスを実現することができた」

この結果は非常に素晴らしいもので、シーゲイトとGoogleは、Google内部でこのプロジェクトを拡大していきたいと考えています。「エンジニアの、故障したディスクを特定するための手段が増えれば、コストを削減できるだけでなく、エンドユーザーに影響を与える前に問題を防ぐことができるようになる。私たちは既に、システムを拡張し、すべてのシーゲイト製ディスクをサポートしていく計画を立てており、これが当社のOEMや顧客にどのようなメリットをもたらしていくかを見るのが楽しみだ」

Data Center Dynamics

原文はこちら

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。