ハードディスクドライブ故障予測装置、ハードディスクドライブ故障モデル生成装置、及びハードディスクドライブ故障予測方法
【課題】ハードディスクドライブ内部の流体動圧軸受スピンドルモータの異常を高精度に検出する。
【解決手段】学習フェーズに係るハードディスクドライブ(HDD)100に搭載されたセンサから取得されるセンサ情報を所望の期間蓄積した履歴情報に基づき、センサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデル並びに潤滑油の劣化度の時系列における変化とHDDの生存確率との関係を表すHDD生存モデルを生成する。そして、予測フェーズに係るHDD101に搭載されたセンサから取得されるセンサ情報を生成された劣化推定モデルに当てはめて潤滑油の劣化度を推定すると共に、推定された潤滑油の劣化度に基づいてHDD生存モデルによる傾向分析を行い、HDD101の故障時間を予測する。
【解決手段】学習フェーズに係るハードディスクドライブ(HDD)100に搭載されたセンサから取得されるセンサ情報を所望の期間蓄積した履歴情報に基づき、センサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデル並びに潤滑油の劣化度の時系列における変化とHDDの生存確率との関係を表すHDD生存モデルを生成する。そして、予測フェーズに係るHDD101に搭載されたセンサから取得されるセンサ情報を生成された劣化推定モデルに当てはめて潤滑油の劣化度を推定すると共に、推定された潤滑油の劣化度に基づいてHDD生存モデルによる傾向分析を行い、HDD101の故障時間を予測する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ハードディスクドライブにおける流体動圧軸受スピンドルモータの異常を検出するハードディスクドライブ故障予測装置、ハードディスクドライブ故障モデル生成装置、及びハードディスクドライブ故障予測方法に関する。
【背景技術】
【0002】
S.M.A.R.T.(Self−Monitoring, Analysis and Reporting Technology)は、ハードディスクドライブの障害の早期発見・故障の予測を目的としてハードディスクドライブに搭載された機能である。この機能は、各種検査項目をリアルタイムに自己診断し、その状態を数値化する。端末コンピュータを利用するユーザはその数値を各種のツールを用いることで知ることができる。全ての故障を予知することはできないが、安定した利用環境における経年劣化による故障を知るには非常に有効である。
【0003】
このS.M.A.R.T.機能を利用した故障予測方法としては、(1)S.M.A.R.T.機能の各項目に閾値を設定し、その閾値を超えた場合に警告を行う方法(例えば特許文献1〜2)、(2)S.M.A.R.T.項目の起動時間、起動回数、起動リトライ回数から故障予測モデルを作成し、外部的な振動・衝撃によってスピンドルモータに故障が発生しているかを診断・予測し、モデルの出力結果によって警告を行う方法(例えば特許文献3)、(3)データ記憶装置自体に特別なセンサを設置し、そのセンサ値から総合的に故障を判断する方法(例えば特許文献4〜7)などが挙げられる。
【特許文献1】特開2007−213670号公報
【特許文献2】特開2007−335016号公報
【特許文献3】特開2006−236524号公報
【特許文献4】特開2005−55296号公報
【特許文献5】特開2002−272172号公報
【特許文献6】特開2002−131188号公報
【特許文献7】特開平11−2669号公報
【非特許文献1】Eduardo.P. et al, “Failure Trends in a Large Disk Drive Population”, 2007
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、上記従来技術においては、以下の問題点があった。上記(1)の方法の場合、各項目の閾値をチェックする方法であるので、誤り警告や故障の見逃しが多く発生するという問題がある。上記(2)の方法の場合、非特許文献1に記述されているように、起動リトライの発生頻度は極めて低く、起動リトライが発生する前に故障することが殆どであるため、有効性に欠ける。上記(3)の場合には、特殊なセンサを必要とするため、現在流通している多くのハードディスクドライブに適用できない問題がある。その中において、特許文献4では電流・温度・規定回転数を項目として利用している。これら3つの項目は、現在の一部のハードディスクドライブにおいても取得可能な項目であるが、電流に関しては真値を取得することができず、定格電流より低い値であった場合のみ標準化された項目値から減算する仕様であるため、軸受の劣化を適切に表現できないという問題が残る。
【0005】
そこで、本発明は、上記従来技術の問題を鑑み、殆どのハードディスクドライブにおいてS.M.A.R.T.機能などによって取得可能なセンサ項目を利用して流体動圧軸受スピンドルモータの劣化により発生する故障の診断・予測を行うハードディスクドライブ故障予測装置、ハードディスクドライブ故障モデル生成装置、及びハードディスクドライブ故障予測方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係るハードディスクドライブ故障予測装置は、学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第1のデータ取得部と、前記取得されるセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ情報とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成部と、前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成部と、予測フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第2のデータ取得部と、前記取得されたセンサ情報を前記生成された劣化推定モデルに当てはめて前記予測フェーズに係るハードディスクドライブの前記潤滑油の劣化度を推定する劣化推定部と、前記推定された潤滑油の劣化度を前記生成されたハードディスクドライブ生存モデルに当てはめて傾向分析を行い、前記予測フェーズに係るハードディスクドライブの故障時間を予測する故障予測部と、を具備することを特徴とする。
【0007】
本発明に係るハードディスクドライブ故障モデル生成装置は、学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納するデータ取得部と、前記取得されるセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成部と、前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成部と、を具備することを特徴とする。
【0008】
本発明に係るハードディスクドライブ故障予測方法は、学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第1のデータ取得ステップと、前記取得されたセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成ステップと、前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成ステップと、予測フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第2のデータ取得ステップと、前記取得されたセンサ情報を前記生成された前記劣化推定モデルに当てはめて前記潤滑油の劣化度を推定する劣化推定ステップと、前記推定された潤滑油の劣化度に基づいて前記ハードディスクドライブ生存モデルによる傾向分析を行い、前記予測フェーズに係るハードディスクドライブの故障時間を予測する故障予測ステップと、を有することを特徴とする。
【発明の効果】
【0009】
本発明によれば、S.M.A.R.T.機能などの取得可能なセンサ項目を利用することで、殆どのハードディスクドライブにおいて流体動圧軸受スピンドルモータの劣化により発生する故障の診断・予測を行うハードディスクドライブ故障予測装置、ハードディスクドライブ故障モデル生成装置、及びハードディスクドライブ故障予測方法が提供される。
【発明を実施するための最良の形態】
【0010】
(実施形態1)
以下、本発明の実施形態について図面を用いて説明する。図1は、本発明の実施形態1に係るハードディスクドライブ(以下、「HDD」と表す。)故障モデル生成装置1及びHDD故障予測装置2の全体構成例を示すブロック図である。HDD故障モデル生成装置1は、HDD故障モデル生成過程(学習フェーズ)に係る装置であり、HDD故障予測装置2は、HDD故障予測過程(予測フェーズ)に係る装置である。
【0011】
HDD故障モデル生成装置1は、データ取得部11、履歴情報記憶部12、モデル生成部13、劣化推定モデル記憶部14、及びHDD生存モデル記憶部15を含む汎用計算機などのコンピュータであり、複数台の学習フェーズ用のHDD100が接続されている。尚、学習フェーズ用のHDDは大量の履歴情報を収集するために複数台、複数種設けると好適であるが、これに限られない。
【0012】
データ取得部11は、学習フェーズに係る複数台のHDD100から内部状態の情報として、少なくとも規定回転数、通電時間(PowerOnHours)、ディスク温度(Temperature)、スピンアップ時間(SpinUpTime)、スピンアップ電流量(SpinHighCurrent)を定期的に取得し、これらの取得された情報を計算機が処理しやすい形式の履歴情報(例えばCSV形式)に変換して、故障が発生するまでの履歴情報を履歴情報記憶部12に記憶するプログラムである。規定回転数は、定常状態におけるディスク回転数(例えばカタログスペック)である。スピンアップ時間は、ディスクが通電回転を開始してから規定回転数に達するまで(スピンアップ)に要した時間である。スピンアップ電流量は、ディスクのスピンアップに使用した最大電流量である。ディスク温度は、ディスク内部の温度である。尚、通電時間(PowerOnHours)、ディスク温度(Temperature)、及びスピンアップ時間(SpinUpTime)は、HDD100に予め備えられたS.M.A.R.T.機能との連携によって取得される。また、規定回転数は、ディスク内に記憶されたファイル(例えば環境設定ファイル)などから読込まれ、スピンアップ電流量は専用に設けられたセンサなどによって取得される。以下、これらS.M.A.R.T.機能などによって取得されたデータの項目、あるいは、データ取得部11によって格納された情報の項目をセンサ項目という。
【0013】
モデル生成部13は、履歴情報記憶部12に記憶された履歴情報を読み込み、規定回転数毎に劣化推定モデル及びHDD生存モデルを生成して、劣化推定モデル記憶部14及びHDD生存モデル記憶部15にそれぞれ記憶するプログラムである。劣化推定モデルは、履歴情報のセンサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す数理モデルである。HDD生存モデルは、劣化推定モデルと履歴情報によって求められるスピンドルモータの潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表す数理モデルである。また、複数の種類のハードディスクドライブの情報から規定回転数毎にモデルを作成する理由は、規定回転数によってスピンアップ時間が変動するからである。このように分類することで、生成されるモデルの精度が向上する。
【0014】
HDD故障予測装置2は、データ取得部21、劣化推定部22、故障予測部23、結果通知部24、劣化推定モデル記憶部14´、HDD生存モデル記憶部15´、履歴情報記憶部25、及び劣化推定履歴記憶部26を含む汎用計算機などのコンピュータであり、予測フェーズに係るHDD101が接続されている。
【0015】
データ取得部21は、監視対象である単数若しくは複数台のHDD101から内部状態の情報として、少なくとも規定回転数と、S.M.A.R.T.機能で取得できる通電時間(PowerOnHours)、ディスク温度(Temperature)、スピンアップ時間(SpinUpTime)を定期的に取得し、計算機が処理しやすい履歴情報(例えばCSV形式)に変換して、故障が発生するまでの履歴情報を履歴情報記憶部12に記憶するプログラムである。尚、HDD故障予測過程に用いるHDD101はスピンアップ電流量を取得できる機能を有さないものとする。
【0016】
劣化推定モデル記憶部14´及びHDD生存モデル記憶部15´は、故障モデル生成装置1の劣化推定モデル記憶部14及びHDD生存モデル記憶部15と同一のモデルをそれぞれ記憶する記憶装置である。
【0017】
劣化推定部22は、履歴情報記憶部25の最後のレコードを、劣化推定モデル記憶部14´に記憶された劣化推定モデルに適用して、現在のHDD101の劣化度を推定し、この推定された劣化度(以下、「推定劣化度」という。)を時刻とペアにした推定結果を劣化推定履歴情報として劣化推定履歴記憶部26に記憶するプログラムである。
【0018】
故障予測部23は、ディスク生存率が著しく減少する故障判定劣化度を自動的に同定、或いは、HDD生存モデルをディスプレイ(図示省略する)上に提示して利用者にディスクドライブ生存率の閾値θの入力を促すことで、予め故障判定劣化度dθを決定しておき、劣化推定履歴記憶部26に新たな情報が追加された時、HDD生存モデル記憶部15′に記憶されたHDD生存モデルを利用して、劣化推定履歴記憶部17に記憶された情報を傾向分析することによって、現在監視しているHDD101の推定劣化度が故障判定劣化度dθに到達するまでの余寿命を計算するプログラムである。
【0019】
結果通知部24は、余寿命が予め定めた時間を下回った場合に、故障予測部23で計算された余寿命、或いは、余寿命から計算可能な故障予測時間(日付や時刻)をディスプレイ(図示省略する)やメールソフトに出力し、ユーザに通知するプログラムである。
【0020】
以下、HDD故障モデル生成装置1の動作について図面を参照して説明する。図2は、HDD故障モデル生成装置1における処理の具体例を示すフローチャートである。
【0021】
先ず、データ取得部11は、HDD電源OFFシーケンスが開始されるまで待機する(S201)。HDD電源OFFシーケンスが開始されると、データ取得部11は、HDDから少なくとも「データ取得日時」「ディスク温度」を取得し(S202)、所定の形式で履歴情報記憶部12に追加保存する(S203)。図3は、履歴情報の形式の具体例を示す図である。図3(a)は、履歴情報スキーマを示しており、ここではデータ取得日時(Date)、ハードディスクの識別子(ID)、電源OFF時のディスク温度(PowerOffTemp)、電源ON時のディスク温度(PowerOnTemp)、規定回転数(RPM)、通電時間(PowerOnHours)、停止時間(PowerOffHours)、スピンアップ時間(SpinUpTime)、スピンアップ電流量(SpinHighCurrent)などから構成されている。図3(b)は、HDD電源OFFシーケンス時の履歴情報の更新を示す図である。ここでは、最終行が更新された情報を示している。
【0022】
次に、データ取得部11は、HDD電源ONシーケンスが開始されるまで待機する(S204)。HDD電源ONシーケンスが開始され、かつ、接続されているHDDのいずれかが起動しているかチェックする(S205)。
【0023】
S205において、いずれかのHDDが起動していた場合、データ取得部11は、起動しているすべてのHDDから少なくとも「取得日時」「規定回転数」「ディスク温度」「スピンアップ電流量」「スピンアップ時間」「通電時間」を取得し(S206)、S203で記憶した情報とマージして、所定の形式に沿って履歴情報記憶部12に追加保存する(S207)。図3(c)は、HDD電源ONシーケンス時の履歴情報の更新を示す図である。ここでは、最終行が更新された情報を示している。
【0024】
また、S205において、すべてのHDDが起動していない場合(すなわち故障した場合)、或いは、所定の数のHDDが起動していない場合には、データ取得部11は、履歴情報記憶部12に記憶された情報から、「規定回転数」「ディスク温度(ON時)」「ディスク温度(OFF時)」「スピンアップ電流量」「スピンアップ時間」「通電時間」「停止時間」を読み込む(S208)。
【0025】
次に、モデル生成部13は、ベイジアンネットワークのCPT(条件付確率表)を規定回転数毎にカテゴリ分けして作成し、劣化推定モデルとして劣化推定モデル記憶部14に記憶する(S209)。
【0026】
最後に、モデル生成部13は、劣化推定モデルの「潤滑油の古さ」のノードの時系列情報とHDDの生存率をペアにしたHDD生存モデルをHDD生存モデル記憶部15に記憶し(S210)、処理を終了する。
【0027】
図4は、劣化推定モデル(ベイジアンネットワーク)の構造を説明する図である。ベイジアンネットワークは、複数の確率変数の間の定性的な依存関係をグラフ構造によって表し、個々の変数の間の定量的な関係を条件付確率で表した確率モデルである。ここでは、総稼働時間(t1)、停止時ディスク温度(T1)、総停止時間(t2)の3つの要素からスピンドルモータの潤滑油の古さ(劣化度)が求められ、この潤滑油の古さと起動時ディスク温度(T0)から潤滑油の粘度が求められる。そして、潤滑油の粘度とスピンアップ電流量からディスクの角速度が求められ、この角速度からスピンアップ時間が求められることが示されている。尚、白丸で表されたノードは学習フェーズにおいて観測可能な項目であり、黒丸で表されたノードは観測不可能な項目であるが、ベイジアンネットワークのグラフ構造によって観測可能な項目から観測不可能な項目を推定することが可能である。
【0028】
図5及び図6は、図4の依存関係を与えるにあたって、HDDの劣化傾向を実験により分析した結果を示す図である。図5は、スピンアップ時間とディスク温度の関係を示す図である。ここでは、丸印は初期状態のHDDにおけるデータを、四角印は経年劣化したHDDにおけるデータを示し、これらをデータ別に結ぶと2つの二次曲線状の帯となる。この二つの帯を比較することで、劣化方向が矢印の方向であると推定される。図6は、スピンアップ時間、ディスク温度、及びスピンアップ電流量の関係を示す図である。ここでは、電流値が一定の場合には図5の同様の結果を示すが、電流値を変更した場合には、スピンアップ時間が大幅に変わるという結果が示されている。すなわち、スピンアップ時間は、ディスクの温度だけでなくスピンアップ電流量にも依存して決定されることが分かる。
【0029】
また、現在多く利用されているディスクドライブのスピンドルモータの軸受け部分には、微少な溝が掘られており、溝が狭くなる方向にオイルが集められて、回転軸がスリーブから浮き上がり、オイルの粘性でディスクが巻き込まれる形で回転する仕組みとなっている。よって、ある一定以上の粘性効果が必要であるが、あまりに高すぎると起動トルクを満たすことができず、回転しない現象が起こる。以上のことから、スピンアップ時間は温度が直接的に影響しているのではなく、オイルの粘性と深い関わりがあることが分かる。図7は、ディスク温度と粘度の関係を示す図である。同図に示されるように、オイルの粘性は、温度が高いほど小さくなる特性を持っており、温度が60℃変化すると、粘性は1桁近く変化する。また、酸化・不純物の混入・高温といった要因によってオイルの劣化が進行し、粘性が高くなる。このことから、起動時のディスク温度と現在のオイルの劣化状態によって、起動時の粘性が決定することも分かる。このとき、現在のオイルの劣化状態である酸化は時間経過によるものである。同様に、高温はディスクドライブが通電されている状態の温度を獲得すれば判断できる。したがって、通電時間、停止時間、停止時ディスク温度(すなわち、通電されていた状態のディスク温度)が、オイル劣化の要因となることが分かる。
【0030】
また、混入する不純物としては、(1)非常に微細な埃、(2)結露による水滴、(3)ディスク表面の損傷などによる金属片が考えられる。(1)に関しては経過時間によって代用でき、(2)に関しては極度な温度差がない環境であれば考慮しなくても良い。また、(3)に関しては、衝撃・振動がない環境であれば考慮しなくても良いと考えられる。以上のことを総合的に鑑みて、図4の劣化推定モデルの構造を与えられる。
【0031】
図8は、HDD生存モデルの具体例を示す図である。ここでは、HDDの生存率(=1−HDD故障率)は、潤滑油の古さが所定の劣化度を境として急速に低下することが示されている。
【0032】
以下、HDD故障予測装置2の動作について図面を参照して説明する。図9は、HDD故障予測装置2における処理の具体例を示すフローチャートである。
【0033】
先ず、HDD故障モデル生成装置1で生成した劣化モデル及びHDD生存モデルをHDD故障予測装置2にコピーする(S901)。尚、コピーする手段は、LAN、インターネット、外部記憶媒体などどのような手段を用いても良い。
【0034】
次に、故障予測部23は、HDD生存モデル記憶部15′に記憶されたHDD生存モデルを利用して、生存率が著しく減少する劣化度を自動的に同定、或いは、図8に示されるようなHDD生存モデルをディスプレイ(図示省略する)上に提示し、利用者にディスクドライブ生存率の閾値θを入力してもらうことで、故障判定劣化度dθを決定する(S902)。
【0035】
次に、データ取得部21は、HDD電源OFFシーケンスが開始されるまで待機する(S903)。HDD電源OFFシーケンスが開始されると、HDDから少なくとも「データ取得日時」「ディスク温度」を取得し(S904)、加工して履歴情報記憶部25に追加保存する(S905)。図10は、履歴情報の形式の具体例を示す図である。図10(a)は、履歴情報スキーマを示しており、ここではデータ取得日時(Date)、ハードディスクの識別子(ID)、電源OFF時のディスク温度(PowerOffTemp)、電源ON時のディスク温度(PowerOnTemp)、規定回転数(RPM)、通電時間(PowerOnHours)、停止時間(PowerOffHours)、スピンアップ時間(SpinUpTime)、スピンアップ電流量(SpinHighCurrent)などから構成されている。図10(b)は、HDD電源OFFシーケンス時の履歴情報の更新を示す図である。ここでは、最終行が更新されたデータを示している。
【0036】
次に、データ取得部21は、HDD電源ONシーケンスが開始されるまで待機する(S906)。HDD電源ONシーケンスが開始されると、起動しているすべてのHDDから少なくとも「取得日時」「規定回転数」「ディスク温度」「スピンアップ時間」「通電時間」を取得し(S907)、S905で記憶したデータとマージし、所定の形式に沿って履歴情報記憶部25に追加保存する(S908)。図10(c)は、HDD電源ONシーケンス時の履歴情報の更新を示す図である。ここでは、最終行が更新されたデータを示している。
【0037】
次に、劣化推定部22は、履歴情報記憶部25に記憶されたデータから、最終レコードの「規定回転数(R)」「ディスク温度_ON(T0)」「ディスク温度_OFF(T1)」「スピンアップ時間(S)」「通電時間(t1)」「停止時間(t2)」を読み込む(S909)。
【0038】
次に、劣化推定部22は、S909で読み込んだデータを劣化推定モデル14′に記憶された劣化推定モデルに適用して、「潤滑油の古さ」の期待値(ガウス分布に従う)を推定し、この推定された期待値(推定劣化度)を時刻とペアにした推定結果を劣化推定履歴情報として劣化推定履歴記憶部26へ記憶する(S910)。図11は、ベイジアンネットワークに基づいて潤滑油の古さを推定する場合の入出力(エビデンスとクエリ)を説明する図である。ここでは、白丸で表される観測可能な項目(e:エビデンス)を条件に、潤滑油の古さの事後確率であるP(X|e)を推定する。尚、予測フェーズにおいてはスピンアップ電流量を取得することはできないが、学習フェーズにおいて強固なグラフ構造が構築できているならばベイジアンネットワークの特性上、推定可能である。
【0039】
次に、故障予測部23は、劣化推定履歴記憶部26に記憶された劣化推定履歴情報を傾向分析し、図12に示すように故障予測時刻(dθ到達時刻)tbを求め、現在時刻tとの差分により余寿命を計算する(S911)。図12は、ディスクの潤滑油劣化曲線を傾向分析し、故障予測時刻tbを求める方法を説明する図である。
【0040】
そして、結果通知部24は、予め利用者が指定した値より余寿命が短いか否かを判定し(S912)、指定した値よりも余寿命が短い場合に、利用者のディスプレイに直接警告を表示、或いは、メールなどによって警告通知し(S913)、S903へ戻る。これに対し、余寿命が指定した値以上の場合には、警告を行わずにS903へ戻る。
【0041】
上記のように構成することにより、殆どのハードディスクドライブにおいてS.M.A.R.T.機能で取得可能なセンサ項目を利用して流体動圧軸受スピンドルモータの劣化により発生する故障の診断・予測を行うことができる。また、HDD故障モデル生成装置1で生成した劣化モデル及びHDD生存モデルをHDD故障予測装置2に外部記憶媒体などによって予めコピーする形式であるので、ネットワーク接続されていない場合にも故障予測ができる利点がある。
【0042】
(実施形態2)
図13は、実施形態2に係るHDD故障モデル生成装置1及びHDD故障予測装置2の全体構成例を示すブロック図である。図1と共通する符号は、同一のものを表すので説明を省略し、実施形態1と異なる点について詳細に説明する。同図に示されるように、本実施形態においては、実施形態1と異なり、HDD故障モデル生成過程(学習フェーズ)に係る故障モデル生成装置1とHDD故障予測過程(予測フェーズ)に係るHDD故障予測装置2がLANなどのネットワーク3を介して接続されている。
【0043】
また、HDD故障モデル生成装置1で生成した劣化推定モデル及びHDD生存モデルをHDD故障予測装置3にコピーするのではなく、HDD故障予測装置2の劣化推定部22及び故障予測部23がHDD故障モデル生成装置1側の劣化推定モデル記憶部14及びHDD生存モデル記憶部15にネットワーク経由でそれぞれアクセスして取得する。
【0044】
したがって、HDD故障モデル生成装置1の構成に関しては、実施形態1と同様であるが、HDD故障予測装置2に関しては、モデルを記憶するための劣化推定モデル記憶部14´及びHDD生存モデル記憶部15´を有さない。
【0045】
また、本実施形態のHDD故障モデル生成装置1の動作は、実施形態1の動作(図2)と同様であり、HDD故障予測装置2の動作は、図9のS901においてモデルをコピーする代わりに、HDD故障予測装置2の劣化推定部22及び故障予測部23がHDD故障モデル生成装置1側の劣化推定モデル記憶部14及びHDD生存モデル記憶部15にネットワーク経由でそれぞれアクセスして取得すること以外は同様である。
【0046】
上記のように構成することにより、HDD故障モデル生成装置1において最新の履歴情報に基づいて劣化推定モデルとHDD生存モデルの更新が行われた場合にも、HDD故障予測装置2において迅速に取得可能な利点がある。
【0047】
尚、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0048】
具体的には、HDD故障モデル生成過程(学習フェーズ)に係る故障モデル生成装置1とHDD故障予測過程(予測フェーズ)に係るHDD故障予測装置2を別々の装置ではなく、一つの装置としても良い。
【0049】
また、ハードディスクドライブから種々の情報を取得する方法としてS.M.A.R.T.機能を利用しているが、スピンアップ時間、スピンアップ電流量、ディスク温度、通電時間、及び規定回転数を取得可能な別のセンサ機能を利用しても良い。
【0050】
更に、上記実施形態においては、予測フェーズにおいてスピンアップ電流量を取得できない場合を想定しているが、スピンアップ電流量を測定できるセンサなどが設けられている場合には、劣化推定モデルに対して当てはめるセンサ項目に測定されたスピンアップ電流量を加えることで、推定される劣化度の精度を更に向上させることができる。
【図面の簡単な説明】
【0051】
【図1】本発明の実施形態1に係るHDD故障モデル生成装置1及びHDD故障予測装置2の全体構成例を示すブロック図。
【図2】HDD故障モデル生成装置1における処理の具体例を示すフローチャートである。
【図3】履歴情報の形式の具体例を示す図。
【図4】劣化推定モデル(ベイジアンネットワーク)の構造を説明する図。
【図5】図4の依存関係を与えるにあたって、HDDの劣化傾向を実験により分析した結果を示す図。
【図6】図4の依存関係を与えるにあたって、HDDの劣化傾向を実験により分析した結果を示す図。
【図7】ディスク温度と粘度の関係を示す図。
【図8】HDD生存モデルの具体例を示す図。
【図9】HDD故障予測装置2における処理の具体例を示すフローチャート。
【図10】履歴情報の形式の具体例を示す図。
【図11】ベイジアンネットワークに基づいて潤滑油の古さを推定する方法を説明する図。
【図12】ディスクの潤滑油劣化曲線を傾向分析し、故障予測時刻を求める方法を説明する図。
【図13】本発明の実施形態2に係るHDD故障モデル生成装置1及びHDD故障予測装置2の全体構成例を示すブロック図。
【符号の説明】
【0052】
1…HDD故障モデル生成装置、
2…HDD故障予測装置、
3…ネットワーク、
11…データ取得部、
12…履歴情報記憶部、
13…モデル生成部、
14,14´…劣化推定モデル記憶部、
15,15´…HDD生存モデル記憶部、
21…データ取得部、
22…劣化推定部、
23…故障予測部、
24…結果通知部、
25…履歴情報記憶部、
26…劣化推定履歴記憶部。
【技術分野】
【0001】
本発明は、ハードディスクドライブにおける流体動圧軸受スピンドルモータの異常を検出するハードディスクドライブ故障予測装置、ハードディスクドライブ故障モデル生成装置、及びハードディスクドライブ故障予測方法に関する。
【背景技術】
【0002】
S.M.A.R.T.(Self−Monitoring, Analysis and Reporting Technology)は、ハードディスクドライブの障害の早期発見・故障の予測を目的としてハードディスクドライブに搭載された機能である。この機能は、各種検査項目をリアルタイムに自己診断し、その状態を数値化する。端末コンピュータを利用するユーザはその数値を各種のツールを用いることで知ることができる。全ての故障を予知することはできないが、安定した利用環境における経年劣化による故障を知るには非常に有効である。
【0003】
このS.M.A.R.T.機能を利用した故障予測方法としては、(1)S.M.A.R.T.機能の各項目に閾値を設定し、その閾値を超えた場合に警告を行う方法(例えば特許文献1〜2)、(2)S.M.A.R.T.項目の起動時間、起動回数、起動リトライ回数から故障予測モデルを作成し、外部的な振動・衝撃によってスピンドルモータに故障が発生しているかを診断・予測し、モデルの出力結果によって警告を行う方法(例えば特許文献3)、(3)データ記憶装置自体に特別なセンサを設置し、そのセンサ値から総合的に故障を判断する方法(例えば特許文献4〜7)などが挙げられる。
【特許文献1】特開2007−213670号公報
【特許文献2】特開2007−335016号公報
【特許文献3】特開2006−236524号公報
【特許文献4】特開2005−55296号公報
【特許文献5】特開2002−272172号公報
【特許文献6】特開2002−131188号公報
【特許文献7】特開平11−2669号公報
【非特許文献1】Eduardo.P. et al, “Failure Trends in a Large Disk Drive Population”, 2007
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、上記従来技術においては、以下の問題点があった。上記(1)の方法の場合、各項目の閾値をチェックする方法であるので、誤り警告や故障の見逃しが多く発生するという問題がある。上記(2)の方法の場合、非特許文献1に記述されているように、起動リトライの発生頻度は極めて低く、起動リトライが発生する前に故障することが殆どであるため、有効性に欠ける。上記(3)の場合には、特殊なセンサを必要とするため、現在流通している多くのハードディスクドライブに適用できない問題がある。その中において、特許文献4では電流・温度・規定回転数を項目として利用している。これら3つの項目は、現在の一部のハードディスクドライブにおいても取得可能な項目であるが、電流に関しては真値を取得することができず、定格電流より低い値であった場合のみ標準化された項目値から減算する仕様であるため、軸受の劣化を適切に表現できないという問題が残る。
【0005】
そこで、本発明は、上記従来技術の問題を鑑み、殆どのハードディスクドライブにおいてS.M.A.R.T.機能などによって取得可能なセンサ項目を利用して流体動圧軸受スピンドルモータの劣化により発生する故障の診断・予測を行うハードディスクドライブ故障予測装置、ハードディスクドライブ故障モデル生成装置、及びハードディスクドライブ故障予測方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係るハードディスクドライブ故障予測装置は、学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第1のデータ取得部と、前記取得されるセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ情報とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成部と、前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成部と、予測フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第2のデータ取得部と、前記取得されたセンサ情報を前記生成された劣化推定モデルに当てはめて前記予測フェーズに係るハードディスクドライブの前記潤滑油の劣化度を推定する劣化推定部と、前記推定された潤滑油の劣化度を前記生成されたハードディスクドライブ生存モデルに当てはめて傾向分析を行い、前記予測フェーズに係るハードディスクドライブの故障時間を予測する故障予測部と、を具備することを特徴とする。
【0007】
本発明に係るハードディスクドライブ故障モデル生成装置は、学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納するデータ取得部と、前記取得されるセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成部と、前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成部と、を具備することを特徴とする。
【0008】
本発明に係るハードディスクドライブ故障予測方法は、学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第1のデータ取得ステップと、前記取得されたセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成ステップと、前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成ステップと、予測フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第2のデータ取得ステップと、前記取得されたセンサ情報を前記生成された前記劣化推定モデルに当てはめて前記潤滑油の劣化度を推定する劣化推定ステップと、前記推定された潤滑油の劣化度に基づいて前記ハードディスクドライブ生存モデルによる傾向分析を行い、前記予測フェーズに係るハードディスクドライブの故障時間を予測する故障予測ステップと、を有することを特徴とする。
【発明の効果】
【0009】
本発明によれば、S.M.A.R.T.機能などの取得可能なセンサ項目を利用することで、殆どのハードディスクドライブにおいて流体動圧軸受スピンドルモータの劣化により発生する故障の診断・予測を行うハードディスクドライブ故障予測装置、ハードディスクドライブ故障モデル生成装置、及びハードディスクドライブ故障予測方法が提供される。
【発明を実施するための最良の形態】
【0010】
(実施形態1)
以下、本発明の実施形態について図面を用いて説明する。図1は、本発明の実施形態1に係るハードディスクドライブ(以下、「HDD」と表す。)故障モデル生成装置1及びHDD故障予測装置2の全体構成例を示すブロック図である。HDD故障モデル生成装置1は、HDD故障モデル生成過程(学習フェーズ)に係る装置であり、HDD故障予測装置2は、HDD故障予測過程(予測フェーズ)に係る装置である。
【0011】
HDD故障モデル生成装置1は、データ取得部11、履歴情報記憶部12、モデル生成部13、劣化推定モデル記憶部14、及びHDD生存モデル記憶部15を含む汎用計算機などのコンピュータであり、複数台の学習フェーズ用のHDD100が接続されている。尚、学習フェーズ用のHDDは大量の履歴情報を収集するために複数台、複数種設けると好適であるが、これに限られない。
【0012】
データ取得部11は、学習フェーズに係る複数台のHDD100から内部状態の情報として、少なくとも規定回転数、通電時間(PowerOnHours)、ディスク温度(Temperature)、スピンアップ時間(SpinUpTime)、スピンアップ電流量(SpinHighCurrent)を定期的に取得し、これらの取得された情報を計算機が処理しやすい形式の履歴情報(例えばCSV形式)に変換して、故障が発生するまでの履歴情報を履歴情報記憶部12に記憶するプログラムである。規定回転数は、定常状態におけるディスク回転数(例えばカタログスペック)である。スピンアップ時間は、ディスクが通電回転を開始してから規定回転数に達するまで(スピンアップ)に要した時間である。スピンアップ電流量は、ディスクのスピンアップに使用した最大電流量である。ディスク温度は、ディスク内部の温度である。尚、通電時間(PowerOnHours)、ディスク温度(Temperature)、及びスピンアップ時間(SpinUpTime)は、HDD100に予め備えられたS.M.A.R.T.機能との連携によって取得される。また、規定回転数は、ディスク内に記憶されたファイル(例えば環境設定ファイル)などから読込まれ、スピンアップ電流量は専用に設けられたセンサなどによって取得される。以下、これらS.M.A.R.T.機能などによって取得されたデータの項目、あるいは、データ取得部11によって格納された情報の項目をセンサ項目という。
【0013】
モデル生成部13は、履歴情報記憶部12に記憶された履歴情報を読み込み、規定回転数毎に劣化推定モデル及びHDD生存モデルを生成して、劣化推定モデル記憶部14及びHDD生存モデル記憶部15にそれぞれ記憶するプログラムである。劣化推定モデルは、履歴情報のセンサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す数理モデルである。HDD生存モデルは、劣化推定モデルと履歴情報によって求められるスピンドルモータの潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表す数理モデルである。また、複数の種類のハードディスクドライブの情報から規定回転数毎にモデルを作成する理由は、規定回転数によってスピンアップ時間が変動するからである。このように分類することで、生成されるモデルの精度が向上する。
【0014】
HDD故障予測装置2は、データ取得部21、劣化推定部22、故障予測部23、結果通知部24、劣化推定モデル記憶部14´、HDD生存モデル記憶部15´、履歴情報記憶部25、及び劣化推定履歴記憶部26を含む汎用計算機などのコンピュータであり、予測フェーズに係るHDD101が接続されている。
【0015】
データ取得部21は、監視対象である単数若しくは複数台のHDD101から内部状態の情報として、少なくとも規定回転数と、S.M.A.R.T.機能で取得できる通電時間(PowerOnHours)、ディスク温度(Temperature)、スピンアップ時間(SpinUpTime)を定期的に取得し、計算機が処理しやすい履歴情報(例えばCSV形式)に変換して、故障が発生するまでの履歴情報を履歴情報記憶部12に記憶するプログラムである。尚、HDD故障予測過程に用いるHDD101はスピンアップ電流量を取得できる機能を有さないものとする。
【0016】
劣化推定モデル記憶部14´及びHDD生存モデル記憶部15´は、故障モデル生成装置1の劣化推定モデル記憶部14及びHDD生存モデル記憶部15と同一のモデルをそれぞれ記憶する記憶装置である。
【0017】
劣化推定部22は、履歴情報記憶部25の最後のレコードを、劣化推定モデル記憶部14´に記憶された劣化推定モデルに適用して、現在のHDD101の劣化度を推定し、この推定された劣化度(以下、「推定劣化度」という。)を時刻とペアにした推定結果を劣化推定履歴情報として劣化推定履歴記憶部26に記憶するプログラムである。
【0018】
故障予測部23は、ディスク生存率が著しく減少する故障判定劣化度を自動的に同定、或いは、HDD生存モデルをディスプレイ(図示省略する)上に提示して利用者にディスクドライブ生存率の閾値θの入力を促すことで、予め故障判定劣化度dθを決定しておき、劣化推定履歴記憶部26に新たな情報が追加された時、HDD生存モデル記憶部15′に記憶されたHDD生存モデルを利用して、劣化推定履歴記憶部17に記憶された情報を傾向分析することによって、現在監視しているHDD101の推定劣化度が故障判定劣化度dθに到達するまでの余寿命を計算するプログラムである。
【0019】
結果通知部24は、余寿命が予め定めた時間を下回った場合に、故障予測部23で計算された余寿命、或いは、余寿命から計算可能な故障予測時間(日付や時刻)をディスプレイ(図示省略する)やメールソフトに出力し、ユーザに通知するプログラムである。
【0020】
以下、HDD故障モデル生成装置1の動作について図面を参照して説明する。図2は、HDD故障モデル生成装置1における処理の具体例を示すフローチャートである。
【0021】
先ず、データ取得部11は、HDD電源OFFシーケンスが開始されるまで待機する(S201)。HDD電源OFFシーケンスが開始されると、データ取得部11は、HDDから少なくとも「データ取得日時」「ディスク温度」を取得し(S202)、所定の形式で履歴情報記憶部12に追加保存する(S203)。図3は、履歴情報の形式の具体例を示す図である。図3(a)は、履歴情報スキーマを示しており、ここではデータ取得日時(Date)、ハードディスクの識別子(ID)、電源OFF時のディスク温度(PowerOffTemp)、電源ON時のディスク温度(PowerOnTemp)、規定回転数(RPM)、通電時間(PowerOnHours)、停止時間(PowerOffHours)、スピンアップ時間(SpinUpTime)、スピンアップ電流量(SpinHighCurrent)などから構成されている。図3(b)は、HDD電源OFFシーケンス時の履歴情報の更新を示す図である。ここでは、最終行が更新された情報を示している。
【0022】
次に、データ取得部11は、HDD電源ONシーケンスが開始されるまで待機する(S204)。HDD電源ONシーケンスが開始され、かつ、接続されているHDDのいずれかが起動しているかチェックする(S205)。
【0023】
S205において、いずれかのHDDが起動していた場合、データ取得部11は、起動しているすべてのHDDから少なくとも「取得日時」「規定回転数」「ディスク温度」「スピンアップ電流量」「スピンアップ時間」「通電時間」を取得し(S206)、S203で記憶した情報とマージして、所定の形式に沿って履歴情報記憶部12に追加保存する(S207)。図3(c)は、HDD電源ONシーケンス時の履歴情報の更新を示す図である。ここでは、最終行が更新された情報を示している。
【0024】
また、S205において、すべてのHDDが起動していない場合(すなわち故障した場合)、或いは、所定の数のHDDが起動していない場合には、データ取得部11は、履歴情報記憶部12に記憶された情報から、「規定回転数」「ディスク温度(ON時)」「ディスク温度(OFF時)」「スピンアップ電流量」「スピンアップ時間」「通電時間」「停止時間」を読み込む(S208)。
【0025】
次に、モデル生成部13は、ベイジアンネットワークのCPT(条件付確率表)を規定回転数毎にカテゴリ分けして作成し、劣化推定モデルとして劣化推定モデル記憶部14に記憶する(S209)。
【0026】
最後に、モデル生成部13は、劣化推定モデルの「潤滑油の古さ」のノードの時系列情報とHDDの生存率をペアにしたHDD生存モデルをHDD生存モデル記憶部15に記憶し(S210)、処理を終了する。
【0027】
図4は、劣化推定モデル(ベイジアンネットワーク)の構造を説明する図である。ベイジアンネットワークは、複数の確率変数の間の定性的な依存関係をグラフ構造によって表し、個々の変数の間の定量的な関係を条件付確率で表した確率モデルである。ここでは、総稼働時間(t1)、停止時ディスク温度(T1)、総停止時間(t2)の3つの要素からスピンドルモータの潤滑油の古さ(劣化度)が求められ、この潤滑油の古さと起動時ディスク温度(T0)から潤滑油の粘度が求められる。そして、潤滑油の粘度とスピンアップ電流量からディスクの角速度が求められ、この角速度からスピンアップ時間が求められることが示されている。尚、白丸で表されたノードは学習フェーズにおいて観測可能な項目であり、黒丸で表されたノードは観測不可能な項目であるが、ベイジアンネットワークのグラフ構造によって観測可能な項目から観測不可能な項目を推定することが可能である。
【0028】
図5及び図6は、図4の依存関係を与えるにあたって、HDDの劣化傾向を実験により分析した結果を示す図である。図5は、スピンアップ時間とディスク温度の関係を示す図である。ここでは、丸印は初期状態のHDDにおけるデータを、四角印は経年劣化したHDDにおけるデータを示し、これらをデータ別に結ぶと2つの二次曲線状の帯となる。この二つの帯を比較することで、劣化方向が矢印の方向であると推定される。図6は、スピンアップ時間、ディスク温度、及びスピンアップ電流量の関係を示す図である。ここでは、電流値が一定の場合には図5の同様の結果を示すが、電流値を変更した場合には、スピンアップ時間が大幅に変わるという結果が示されている。すなわち、スピンアップ時間は、ディスクの温度だけでなくスピンアップ電流量にも依存して決定されることが分かる。
【0029】
また、現在多く利用されているディスクドライブのスピンドルモータの軸受け部分には、微少な溝が掘られており、溝が狭くなる方向にオイルが集められて、回転軸がスリーブから浮き上がり、オイルの粘性でディスクが巻き込まれる形で回転する仕組みとなっている。よって、ある一定以上の粘性効果が必要であるが、あまりに高すぎると起動トルクを満たすことができず、回転しない現象が起こる。以上のことから、スピンアップ時間は温度が直接的に影響しているのではなく、オイルの粘性と深い関わりがあることが分かる。図7は、ディスク温度と粘度の関係を示す図である。同図に示されるように、オイルの粘性は、温度が高いほど小さくなる特性を持っており、温度が60℃変化すると、粘性は1桁近く変化する。また、酸化・不純物の混入・高温といった要因によってオイルの劣化が進行し、粘性が高くなる。このことから、起動時のディスク温度と現在のオイルの劣化状態によって、起動時の粘性が決定することも分かる。このとき、現在のオイルの劣化状態である酸化は時間経過によるものである。同様に、高温はディスクドライブが通電されている状態の温度を獲得すれば判断できる。したがって、通電時間、停止時間、停止時ディスク温度(すなわち、通電されていた状態のディスク温度)が、オイル劣化の要因となることが分かる。
【0030】
また、混入する不純物としては、(1)非常に微細な埃、(2)結露による水滴、(3)ディスク表面の損傷などによる金属片が考えられる。(1)に関しては経過時間によって代用でき、(2)に関しては極度な温度差がない環境であれば考慮しなくても良い。また、(3)に関しては、衝撃・振動がない環境であれば考慮しなくても良いと考えられる。以上のことを総合的に鑑みて、図4の劣化推定モデルの構造を与えられる。
【0031】
図8は、HDD生存モデルの具体例を示す図である。ここでは、HDDの生存率(=1−HDD故障率)は、潤滑油の古さが所定の劣化度を境として急速に低下することが示されている。
【0032】
以下、HDD故障予測装置2の動作について図面を参照して説明する。図9は、HDD故障予測装置2における処理の具体例を示すフローチャートである。
【0033】
先ず、HDD故障モデル生成装置1で生成した劣化モデル及びHDD生存モデルをHDD故障予測装置2にコピーする(S901)。尚、コピーする手段は、LAN、インターネット、外部記憶媒体などどのような手段を用いても良い。
【0034】
次に、故障予測部23は、HDD生存モデル記憶部15′に記憶されたHDD生存モデルを利用して、生存率が著しく減少する劣化度を自動的に同定、或いは、図8に示されるようなHDD生存モデルをディスプレイ(図示省略する)上に提示し、利用者にディスクドライブ生存率の閾値θを入力してもらうことで、故障判定劣化度dθを決定する(S902)。
【0035】
次に、データ取得部21は、HDD電源OFFシーケンスが開始されるまで待機する(S903)。HDD電源OFFシーケンスが開始されると、HDDから少なくとも「データ取得日時」「ディスク温度」を取得し(S904)、加工して履歴情報記憶部25に追加保存する(S905)。図10は、履歴情報の形式の具体例を示す図である。図10(a)は、履歴情報スキーマを示しており、ここではデータ取得日時(Date)、ハードディスクの識別子(ID)、電源OFF時のディスク温度(PowerOffTemp)、電源ON時のディスク温度(PowerOnTemp)、規定回転数(RPM)、通電時間(PowerOnHours)、停止時間(PowerOffHours)、スピンアップ時間(SpinUpTime)、スピンアップ電流量(SpinHighCurrent)などから構成されている。図10(b)は、HDD電源OFFシーケンス時の履歴情報の更新を示す図である。ここでは、最終行が更新されたデータを示している。
【0036】
次に、データ取得部21は、HDD電源ONシーケンスが開始されるまで待機する(S906)。HDD電源ONシーケンスが開始されると、起動しているすべてのHDDから少なくとも「取得日時」「規定回転数」「ディスク温度」「スピンアップ時間」「通電時間」を取得し(S907)、S905で記憶したデータとマージし、所定の形式に沿って履歴情報記憶部25に追加保存する(S908)。図10(c)は、HDD電源ONシーケンス時の履歴情報の更新を示す図である。ここでは、最終行が更新されたデータを示している。
【0037】
次に、劣化推定部22は、履歴情報記憶部25に記憶されたデータから、最終レコードの「規定回転数(R)」「ディスク温度_ON(T0)」「ディスク温度_OFF(T1)」「スピンアップ時間(S)」「通電時間(t1)」「停止時間(t2)」を読み込む(S909)。
【0038】
次に、劣化推定部22は、S909で読み込んだデータを劣化推定モデル14′に記憶された劣化推定モデルに適用して、「潤滑油の古さ」の期待値(ガウス分布に従う)を推定し、この推定された期待値(推定劣化度)を時刻とペアにした推定結果を劣化推定履歴情報として劣化推定履歴記憶部26へ記憶する(S910)。図11は、ベイジアンネットワークに基づいて潤滑油の古さを推定する場合の入出力(エビデンスとクエリ)を説明する図である。ここでは、白丸で表される観測可能な項目(e:エビデンス)を条件に、潤滑油の古さの事後確率であるP(X|e)を推定する。尚、予測フェーズにおいてはスピンアップ電流量を取得することはできないが、学習フェーズにおいて強固なグラフ構造が構築できているならばベイジアンネットワークの特性上、推定可能である。
【0039】
次に、故障予測部23は、劣化推定履歴記憶部26に記憶された劣化推定履歴情報を傾向分析し、図12に示すように故障予測時刻(dθ到達時刻)tbを求め、現在時刻tとの差分により余寿命を計算する(S911)。図12は、ディスクの潤滑油劣化曲線を傾向分析し、故障予測時刻tbを求める方法を説明する図である。
【0040】
そして、結果通知部24は、予め利用者が指定した値より余寿命が短いか否かを判定し(S912)、指定した値よりも余寿命が短い場合に、利用者のディスプレイに直接警告を表示、或いは、メールなどによって警告通知し(S913)、S903へ戻る。これに対し、余寿命が指定した値以上の場合には、警告を行わずにS903へ戻る。
【0041】
上記のように構成することにより、殆どのハードディスクドライブにおいてS.M.A.R.T.機能で取得可能なセンサ項目を利用して流体動圧軸受スピンドルモータの劣化により発生する故障の診断・予測を行うことができる。また、HDD故障モデル生成装置1で生成した劣化モデル及びHDD生存モデルをHDD故障予測装置2に外部記憶媒体などによって予めコピーする形式であるので、ネットワーク接続されていない場合にも故障予測ができる利点がある。
【0042】
(実施形態2)
図13は、実施形態2に係るHDD故障モデル生成装置1及びHDD故障予測装置2の全体構成例を示すブロック図である。図1と共通する符号は、同一のものを表すので説明を省略し、実施形態1と異なる点について詳細に説明する。同図に示されるように、本実施形態においては、実施形態1と異なり、HDD故障モデル生成過程(学習フェーズ)に係る故障モデル生成装置1とHDD故障予測過程(予測フェーズ)に係るHDD故障予測装置2がLANなどのネットワーク3を介して接続されている。
【0043】
また、HDD故障モデル生成装置1で生成した劣化推定モデル及びHDD生存モデルをHDD故障予測装置3にコピーするのではなく、HDD故障予測装置2の劣化推定部22及び故障予測部23がHDD故障モデル生成装置1側の劣化推定モデル記憶部14及びHDD生存モデル記憶部15にネットワーク経由でそれぞれアクセスして取得する。
【0044】
したがって、HDD故障モデル生成装置1の構成に関しては、実施形態1と同様であるが、HDD故障予測装置2に関しては、モデルを記憶するための劣化推定モデル記憶部14´及びHDD生存モデル記憶部15´を有さない。
【0045】
また、本実施形態のHDD故障モデル生成装置1の動作は、実施形態1の動作(図2)と同様であり、HDD故障予測装置2の動作は、図9のS901においてモデルをコピーする代わりに、HDD故障予測装置2の劣化推定部22及び故障予測部23がHDD故障モデル生成装置1側の劣化推定モデル記憶部14及びHDD生存モデル記憶部15にネットワーク経由でそれぞれアクセスして取得すること以外は同様である。
【0046】
上記のように構成することにより、HDD故障モデル生成装置1において最新の履歴情報に基づいて劣化推定モデルとHDD生存モデルの更新が行われた場合にも、HDD故障予測装置2において迅速に取得可能な利点がある。
【0047】
尚、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0048】
具体的には、HDD故障モデル生成過程(学習フェーズ)に係る故障モデル生成装置1とHDD故障予測過程(予測フェーズ)に係るHDD故障予測装置2を別々の装置ではなく、一つの装置としても良い。
【0049】
また、ハードディスクドライブから種々の情報を取得する方法としてS.M.A.R.T.機能を利用しているが、スピンアップ時間、スピンアップ電流量、ディスク温度、通電時間、及び規定回転数を取得可能な別のセンサ機能を利用しても良い。
【0050】
更に、上記実施形態においては、予測フェーズにおいてスピンアップ電流量を取得できない場合を想定しているが、スピンアップ電流量を測定できるセンサなどが設けられている場合には、劣化推定モデルに対して当てはめるセンサ項目に測定されたスピンアップ電流量を加えることで、推定される劣化度の精度を更に向上させることができる。
【図面の簡単な説明】
【0051】
【図1】本発明の実施形態1に係るHDD故障モデル生成装置1及びHDD故障予測装置2の全体構成例を示すブロック図。
【図2】HDD故障モデル生成装置1における処理の具体例を示すフローチャートである。
【図3】履歴情報の形式の具体例を示す図。
【図4】劣化推定モデル(ベイジアンネットワーク)の構造を説明する図。
【図5】図4の依存関係を与えるにあたって、HDDの劣化傾向を実験により分析した結果を示す図。
【図6】図4の依存関係を与えるにあたって、HDDの劣化傾向を実験により分析した結果を示す図。
【図7】ディスク温度と粘度の関係を示す図。
【図8】HDD生存モデルの具体例を示す図。
【図9】HDD故障予測装置2における処理の具体例を示すフローチャート。
【図10】履歴情報の形式の具体例を示す図。
【図11】ベイジアンネットワークに基づいて潤滑油の古さを推定する方法を説明する図。
【図12】ディスクの潤滑油劣化曲線を傾向分析し、故障予測時刻を求める方法を説明する図。
【図13】本発明の実施形態2に係るHDD故障モデル生成装置1及びHDD故障予測装置2の全体構成例を示すブロック図。
【符号の説明】
【0052】
1…HDD故障モデル生成装置、
2…HDD故障予測装置、
3…ネットワーク、
11…データ取得部、
12…履歴情報記憶部、
13…モデル生成部、
14,14´…劣化推定モデル記憶部、
15,15´…HDD生存モデル記憶部、
21…データ取得部、
22…劣化推定部、
23…故障予測部、
24…結果通知部、
25…履歴情報記憶部、
26…劣化推定履歴記憶部。
【特許請求の範囲】
【請求項1】
学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第1のデータ取得部と、
前記取得されるセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ情報とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成部と、
前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成部と、
予測フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第2のデータ取得部と、
前記取得されたセンサ情報を前記生成された劣化推定モデルに当てはめて前記予測フェーズに係るハードディスクドライブの前記潤滑油の劣化度を推定する劣化推定部と、
前記推定された潤滑油の劣化度を前記生成されたハードディスクドライブ生存モデルに当てはめて傾向分析を行い、前記予測フェーズに係るハードディスクドライブの故障時間を予測する故障予測部と、
を具備することを特徴とするハードディスクドライブ故障予測装置。
【請求項2】
前記劣化推定モデル生成部は、前記履歴情報のセンサ項目の内、少なくとも前記ディスクへの通電時間、前記ディスクの定常状態における規定回転数、前記ディスクに電源投与されてから前記規定回転数に達するまでの所要時間、前記ディスクの温度、及び前記規定回転数に達するまでに要した最大電流量を利用し、前記劣化推定モデルを生成することを特徴とする請求項1記載のハードディスクドライブ故障予測装置。
【請求項3】
前記劣化推定部は、前記第2のデータ取得部において取得されるセンサ情報の内、少なくとも前記ディスクへの通電時間、前記ディスクの定常状態における規定回転数、前記ディスクに電源投与されてから前記規定回転数に達するまでの所要時間、及び前記ディスクの温度を前記劣化推定モデルに当てはめて前記予測フェーズに係るハードディスクドライブの前記潤滑油の現時点における劣化度を求めることを特徴とする請求項1又は請求項2記載のハードディスクドライブ故障予測装置。
【請求項4】
前記劣化推定モデルは、前記センサ項目及び前記潤滑油の劣化度をノードとするベイジアンネットワークであることを特徴とする請求項1乃至請求項3のいずれか一項に記載のハードディスクドライブ故障予測装置。
【請求項5】
学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納するデータ取得部と、
前記取得されるセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成部と、
前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成部と、
を具備することを特徴とするハードディスクドライブ故障モデル生成装置。
【請求項6】
前記劣化推定モデル生成部は、前記履歴情報のセンサ項目の内、少なくとも前記ディスクへの通電時間、前記ディスクの定常状態における規定回転数、前記ディスクに電源投与されてから前記規定回転数に達するまでの所要時間、前記ディスクの温度、及び前記規定回転数に達するまでに要した最大電流量を利用し、前記劣化推定モデルを生成することを特徴とする請求項5記載のハードディスクドライブ故障モデル生成装置。
【請求項7】
前記劣化推定モデルは、前記センサ項目及び前記潤滑油の劣化度をノードとするベイジアンネットワークであることを特徴とする請求項5又は請求項6記載のハードディスクドライブ故障モデル生成装置。
【請求項8】
学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第1のデータ取得ステップと、
前記取得されたセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成ステップと、
前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成ステップと、
予測フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第2のデータ取得ステップと、
前記取得されたセンサ情報を前記生成された前記劣化推定モデルに当てはめて前記潤滑油の劣化度を推定する劣化推定ステップと、
前記推定された潤滑油の劣化度に基づいて前記ハードディスクドライブ生存モデルによる傾向分析を行い、前記予測フェーズに係るハードディスクドライブの故障時間を予測する故障予測ステップと、
を有することを特徴とするハードディスクドライブ故障予測方法。
【請求項9】
前記劣化推定モデル生成ステップにおいて、前記履歴情報のセンサ項目の内、少なくとも前記ディスクへの通電時間、前記ディスクの定常状態における規定回転数、前記ディスクに電源投与されてから前記規定回転数に達するまでの所要時間、前記ディスクの温度、及び前記規定回転数に達するまでに要した最大電流量を利用し、前記劣化推定モデルを生成することを特徴とする請求項8記載のハードディスクドライブ故障予測方法。
【請求項10】
前記劣化推定モデルは、前記センサ項目及び前記潤滑油の劣化度をノードとするベイジアンネットワークであることを特徴とする請求項8又は請求項9記載のハードディスクドライブ故障予測方法。
【請求項1】
学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第1のデータ取得部と、
前記取得されるセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ情報とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成部と、
前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成部と、
予測フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第2のデータ取得部と、
前記取得されたセンサ情報を前記生成された劣化推定モデルに当てはめて前記予測フェーズに係るハードディスクドライブの前記潤滑油の劣化度を推定する劣化推定部と、
前記推定された潤滑油の劣化度を前記生成されたハードディスクドライブ生存モデルに当てはめて傾向分析を行い、前記予測フェーズに係るハードディスクドライブの故障時間を予測する故障予測部と、
を具備することを特徴とするハードディスクドライブ故障予測装置。
【請求項2】
前記劣化推定モデル生成部は、前記履歴情報のセンサ項目の内、少なくとも前記ディスクへの通電時間、前記ディスクの定常状態における規定回転数、前記ディスクに電源投与されてから前記規定回転数に達するまでの所要時間、前記ディスクの温度、及び前記規定回転数に達するまでに要した最大電流量を利用し、前記劣化推定モデルを生成することを特徴とする請求項1記載のハードディスクドライブ故障予測装置。
【請求項3】
前記劣化推定部は、前記第2のデータ取得部において取得されるセンサ情報の内、少なくとも前記ディスクへの通電時間、前記ディスクの定常状態における規定回転数、前記ディスクに電源投与されてから前記規定回転数に達するまでの所要時間、及び前記ディスクの温度を前記劣化推定モデルに当てはめて前記予測フェーズに係るハードディスクドライブの前記潤滑油の現時点における劣化度を求めることを特徴とする請求項1又は請求項2記載のハードディスクドライブ故障予測装置。
【請求項4】
前記劣化推定モデルは、前記センサ項目及び前記潤滑油の劣化度をノードとするベイジアンネットワークであることを特徴とする請求項1乃至請求項3のいずれか一項に記載のハードディスクドライブ故障予測装置。
【請求項5】
学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納するデータ取得部と、
前記取得されるセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成部と、
前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成部と、
を具備することを特徴とするハードディスクドライブ故障モデル生成装置。
【請求項6】
前記劣化推定モデル生成部は、前記履歴情報のセンサ項目の内、少なくとも前記ディスクへの通電時間、前記ディスクの定常状態における規定回転数、前記ディスクに電源投与されてから前記規定回転数に達するまでの所要時間、前記ディスクの温度、及び前記規定回転数に達するまでに要した最大電流量を利用し、前記劣化推定モデルを生成することを特徴とする請求項5記載のハードディスクドライブ故障モデル生成装置。
【請求項7】
前記劣化推定モデルは、前記センサ項目及び前記潤滑油の劣化度をノードとするベイジアンネットワークであることを特徴とする請求項5又は請求項6記載のハードディスクドライブ故障モデル生成装置。
【請求項8】
学習フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第1のデータ取得ステップと、
前記取得されたセンサ情報を所望の期間蓄積した履歴情報に基づき、前記センサ項目とディスクを回転駆動する流体動圧軸受スピンドルモータの潤滑油の劣化度との関係を表す劣化推定モデルを生成する劣化推定モデル生成ステップと、
前記生成された劣化推定モデルによって推定された前記潤滑油の劣化度の時系列における変化とハードディスクドライブの生存確率との関係を表すハードディスクドライブ生存モデルを生成するハードディスクドライブ生存モデル生成ステップと、
予測フェーズに係るハードディスクドライブに搭載されたセンサからセンサデータを取得し、センサ情報として格納する第2のデータ取得ステップと、
前記取得されたセンサ情報を前記生成された前記劣化推定モデルに当てはめて前記潤滑油の劣化度を推定する劣化推定ステップと、
前記推定された潤滑油の劣化度に基づいて前記ハードディスクドライブ生存モデルによる傾向分析を行い、前記予測フェーズに係るハードディスクドライブの故障時間を予測する故障予測ステップと、
を有することを特徴とするハードディスクドライブ故障予測方法。
【請求項9】
前記劣化推定モデル生成ステップにおいて、前記履歴情報のセンサ項目の内、少なくとも前記ディスクへの通電時間、前記ディスクの定常状態における規定回転数、前記ディスクに電源投与されてから前記規定回転数に達するまでの所要時間、前記ディスクの温度、及び前記規定回転数に達するまでに要した最大電流量を利用し、前記劣化推定モデルを生成することを特徴とする請求項8記載のハードディスクドライブ故障予測方法。
【請求項10】
前記劣化推定モデルは、前記センサ項目及び前記潤滑油の劣化度をノードとするベイジアンネットワークであることを特徴とする請求項8又は請求項9記載のハードディスクドライブ故障予測方法。
【図1】
【図2】
【図3】
【図4】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図5】
【図6】
【図2】
【図3】
【図4】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図5】
【図6】
【公開番号】特開2009−266291(P2009−266291A)
【公開日】平成21年11月12日(2009.11.12)
【国際特許分類】
【出願番号】特願2008−114114(P2008−114114)
【出願日】平成20年4月24日(2008.4.24)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成21年11月12日(2009.11.12)
【国際特許分類】
【出願日】平成20年4月24日(2008.4.24)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]