説明

ハードディスク故障予兆検出方法

【課題】2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出する。
【解決手段】実行時間長記録領域211に記録されたハードディスク11へのデータ書き込みの実行時間長の履歴を参照し、最近の複数個分(例えば10個分)を読み出す(S31)。次に、読み出した複数個の実行時間長の平均値を計算する(S32)。次に、計算した最近のデータ書き込みの実行時間長の平均値が許容値以下であるか判定する(S33)。平均値が許容値を超える場合は、故障の予兆が検出されたとして、警報通知送信を指示する(S34)。例えば、求めた最近の実行時間長の平均値が12秒であった場合、警報通知送信が指示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ハードディスク故障予兆検出方法に関するものである。
【背景技術】
【0002】
近年においては、情報処理装置に搭載されるハードディスクドライブ(以降、HDDまたはハードディスクと表記する)の大容量化の進展はめざましいものがある。それにより、大量のデータをHDDに蓄積できることは歓迎すべき状況であるが、一方でまれに経験するHDDの故障に起因する記憶データの消失が懸念される。特に、HDDの大容量化の進展は失うデータもまた大容量であることを意味する。
【0003】
よって、データが破壊する前にHDDを交換する処置が必要であり、そのためには、蓄積データが消失する前に何らかの警報により保守者に知らせる必要がある。
【0004】
警報という点では、従来のHDDにもSelf Monitoring Analysis and Reporting Technology (SMART)と呼ばれる機能が付加されているものがある。SMART機能とは、HDDの運用履歴、発生エラー履歴等をHDD内に蓄積し、それらのデータを基準値と比較することにより、HDD交換等の警告をパーソナルコンピューターやサーバ等の上位システムに自動的に報告するものである。このSMART機能については、周知であるので、これ以上の説明を割愛する。
【0005】
また、従来技術に関しては、特許文献1「磁気ディスク装置診断方式」において開示されている技術がある。
【0006】
この特許文献1によれば、磁気ディスク媒体の予防保守を目的としたディスク装置診断方式であり、ディスク媒体の診断実行中に一時的故障の発生回数をカウントして一定の閾値を越えた場合に自動通報する磁気ディスク装置診断方式が提案されている。
【0007】
しかし、このような従来技術においても、ハードディスクに一時的故障が発生するようになってからでないと、ハードディスクの故障を予見することができず、ハードディスクに些細な異常でもない限り、ハードディスク故障の予兆を知ることができないという問題があった。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開平05−265663号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
上述の従来のHDD故障検出方法では、HDDにエラーが発生するようになって初めてHDDの故障を予見することが可能となるため、軽微なエラーを含めてエラーが発生しない段階での、HDDの異常や故障が起こる予兆を前もって知ることができないという問題が起こる。
【0010】
この問題は、HDDにエラーが発生する段階になってからでないと、警報が通知されないので、エラーが発生する以前にHDD交換の処置を行えないということである。特に、HDDにエラーが発生してそれを検知してから、HDD交換に要する時間よりも短時間のうちにHDDが故障すれば、HDDに記憶したデータを消失することとなり、情報処理装置を運用する上で問題である。
【0011】
本発明の目的は、2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出できるハードディスク故障予兆検出方法を提供することにある。
【課題を解決するための手段】
【0012】
上記の課題を解決するために、本発明のハードディスク故障予兆検出方法は、情報処理装置と該情報処理装置の故障時に該情報処理装置に代わって情報処理を行う情報処理装置の一方が、該一方の情報処理装置または他方の情報処理装置のハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測するステップと、前記一方の情報処理装置が、前記実行時間長を記憶するステップと、前記一方の情報処理装置が、前記記憶された実行時間長を読み出し、前記ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するステップとを含むことを特徴とする。
【0013】
例えば、前記一方の情報処理装置は、他方の情報処理装置の故障時に情報処理を行う情報処理装置であり、前記実行時間長を当該故障時に情報処理を行う情報処理装置に記憶する。
【発明の効果】
【0014】
本発明によれば、ハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測して記憶し、実行時間長を読み出し、ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するので、2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出することができる。
【0015】
また、故障時に情報処理を行う情報処理装置に実行時間長を記憶することで、他方の情報処理装置に故障が発生し、当該情報処理装置についての実行時間長を参照する必要が生じた場合であっても、故障時に情報処理を行う情報処理装置に記憶された当該実行時間長を参照することができる。
【図面の簡単な説明】
【0016】
【図1】本実施の形態に係るハードディスク故障予兆検出方法を実行する情報処理システムの構成図である。
【図2】待機系装置が、稼働系装置におけるハードディスクへのデータの書き込みの実行時間長を測定する処理のフローチャートである。
【図3】データ書き込みの実行時間長の許容値を算出する処理のフローチャートである。
【図4】図4(a)は、データ書き込みの実行時間長が許容値を超えているか否かを判定する処理のフローチャートであり、図4(b)は、実行時間長が許容値を超えた場合に警報通知を送信する処理のフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明の実施の形態について図面を参照して説明する。
【0018】
図1は、本実施の形態に係るハードディスク故障予兆検出方法を実行する情報処理システムの構成図である。
【0019】
本実施形態の情報処理システムは、2台の情報処理装置1、2からなり、互いに通信ケーブル3で接続されている。冗長構成をとるこれら2台の情報処理装置は、一方は稼働系装置となり、もう一方が待機系装置となり、運転を行っている。つまり、待機系装置は、稼働系装置の故障時に稼働系装置に代わって情報処理を行うのである。
【0020】
情報処理装置1は、データを記録するハードディスク11と、情報処理装置2のハードディスク21へのデータの書き込みまたは読み込みの実行時間長を測定する実行時間長測定部12と、ハードディスク21の故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するハードディスク故障予知検出部13と、実行時間長が許容値を超えている場合において警報通知を送信する警報通知送信部14とを備えている。ハードディスク11には、実行時間長を記録するための実行時間長記録領域111が設けられている。
【0021】
情報処理装置2もまた情報処理装置1と同様の構成をとっており、データを記録するハードディスク21と、情報処理装置1のハードディスク11へのデータの書き込みまたは読み込みの実行時間長を測定する実行時間長測定部22と、ハードディスク11の故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するハードディスク故障予知検出部23と、実行時間長が許容値を超えている場合において警報通知を送信する警報通知送信部24とを備えている。ハードディスク21には、実行時間長を記録するための実行時間長記録領域211が設けられている。
【0022】
情報処理装置1と情報処理装置2とは、上述の通り同様な構成を有し、互いを入れ替えた場合も同じ動作を行う構成となっている。ただし、ここでは説明を簡単にするために、情報処理装置1が稼働系装置であり、情報処理装置2が待機系装置である運転時の処理についてのみを以降説明する。
【0023】
ここでは、情報処理装置2が、情報処理装置1のハードディスク11へのデータの書き込みの実行時間長を測定し、その測定した実行時間長からハードディスク21の故障の予兆を検出した場合に、その警報通知を送信する方法と処理動作について、図2、図3、図4のフローチャートを参照して順次に説明する。
【0024】
まず、図2を用いて、待機系装置が、稼働系装置におけるハードディスクへのデータの書き込みの実行時間長を測定する処理の動作について説明する。
【0025】
待機系装置となっている情報処理装置2の実行時間長測定部21は、稼働系装置となっている情報処理装置1に対し、データ書き込み命令信号とデータ書き込みなし信号とを同時に送信する(S11)。データ書き込み命令は、数十メガバイト程度(例えば50MBytes)の小さいデータ書き込みを実行する命令である。
【0026】
それら2つの信号を受信した情報処理装置1は、データ書き込み命令信号によっては、ハードディスク11にデータを書き込んでから、一方、データ書き込みなし信号によっては何もせずに、応答を情報処理装置2に送信する。
【0027】
このとき、情報処理装置1では、ハードディスクにデータを書き込んでから行う応答の時刻が、何もせずに行う応答の時刻よりも後になる。なぜなら、ハードディスクにデータを書き込む時間分だけ、その応答の送信が遅れるからである。また、この時間差は、ハードディスクにデータを書き込むことに要した時間つまり書き込みの実行時間長である。
【0028】
このようにして、情報処理装置1から送信された、2つの応答、すなわち、データ書き込みなし信号の応答とデータ書き込み命令信号の応答は、それぞれ、情報処理装置2が前述の時間差をもって受信する(S12、S13)。
【0029】
例えば、50MByteのデータ書き込みに5秒を要したとすると、それらの応答を受信した時間差は5秒となる。
【0030】
2つの応答を順次受信した情報処理装置2では、実行時間長測定部22が、その応答を受信した時間差つまり、ハードディスク11へのデータ書き込みの実行時間長(この例では5秒)を算出し(S14)、実行時間長記録領域211に記録する(S15)。
【0031】
このようなデータ書き込みの実行時間長の測定を定期的(例えば30秒毎に)に行って、ハードディスクへのデータ書き込みの実行時間長を記録して履歴を保持する。
【0032】
以上のように、ここでは、待機系装置から稼働系装置におけるハードディスクのデータ書き込みの実行時間長の測定についての一方のみを述べたが、稼働系装置から自系装置における(稼働系装置における)ハードディスクへの書き込みの実行時間長を測定する形態もある。その形態では、データの書き込みの実行時間長の測定は、データ書き込み開始時刻とデータ書き込み完了時刻との差によって算出する。それ以降のステップについては、先に述べた、待機系装置から稼働系装置におけるハードディスクのデータの書き込みの実行時間長の測定のステップと同様である。
【0033】
次に、図3を用いて、データ書き込みの実行時間長の許容値を算出する処理の動作について説明する。
【0034】
良好な状態であるハードディスクに比べて、劣化しているハードディスクは、データの書き込みや読み込みに長時間を要する。データの書き込みに要する時間が増すにつれ、ハードディスクの劣化が進行しているものとし、データの書き込みの実行時間長に対する許容値を次のようにして算出する。
【0035】
ハードディスク故障予知検出部23が、実行時間長記録領域211に記録されたハードディスク11へのデータ書き込みの実行時間長の履歴を参照し、最初から複数個分(例えば10個分)を読み出す(S21)。次に、読み出した複数個の実行時間長の平均値を計算する(S22)。平均値を計算するのは、実行時間長を測定した際の諸条件によるバラツキを抑えるためである。次に、求めた平均値に安全係数(例えば2)を掛けた値をデータ書き込み時間の許容値とする(S23)。これは、良好な状態であるハードディスクを使い始めた、例えば、最初の10回におけるデータ書き込みの実行時間長の平均値に対して、その平均値の2倍までを許容することとし、これを許容値として算出するのである。例えば、求めた平均値が5秒であり、安全係数を2とすれば、許容値は10(=5×2)秒である。
【0036】
このようにして計算した許容値、つまりハードディスク11へのデータ書き込みの実行時間長の許容値をハードディスク21に記録する(S24)。
【0037】
次に、図4を用いて、(a)データ書き込みの実行時間長が許容値を超えているか否かを判定する処理と、(b)実行時間長が許容値を超えた場合に警報通知を送信する処理の動作について説明する。
【0038】
前述の通り、待機系装置となっている情報処理装置2が、稼働系装置となっている情報処理装置1のハードディスク11へのデータ書き込みの実行時間長を定期的に測定しており、その記録を履歴として実行時間長記録領域211に保持している。
【0039】
図4(a)に示すように、ハードディスク故障予知検出部23が、実行時間長記録領域211に記録されたハードディスク11へのデータ書き込みの実行時間長の履歴を参照し、最近の複数個分(例えば10個分)を読み出す(S31)。次に、読み出した複数個の実行時間長の平均値を計算する(S32)。平均値を計算するのは、データ書き込みの実行時間長を測定した際の諸条件によるバラツキを抑えるためである。
【0040】
実行時間長測定部22は、計算した最近のデータ書き込みの実行時間長の平均値が、前述の通りにして算出していた許容値以下であるか判定する(S33)。ここで、許容値以下であれば、ハードディスクの劣化度合は許容されるものとして処理を終了する。例えば、許容値が10秒の時、求めた最近の実行時間長の平均値が10秒以下の値であれば、処理を終了する。
【0041】
しかし、平均値が許容値を超える場合は、ハードディスクの劣化度合は許容されず、つまり、故障の予兆が検出されたとして、警報通知送信を警報通知送信部24へ指示する(S34)。例えば、求めた最近の実行時間長の平均値が12秒であった場合、警報通知送信が指示されることとなる。
【0042】
図4(b)に示すように、実行時間長測定部22からの警報通知送信指示を受信した(S41)警報通知送信部24は、警報通知を送信し(S42)、保守者にハードディスク11の劣化を通知する。
【0043】
以上説明したように、本実施の形態によれば、ハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測して記憶し、実行時間長を読み出し、ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するので、2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出でき、それを保守者に知らしめることができる。
【0044】
また、待機系装置に実行時間長を記憶することで、稼働系装置に故障が発生し、当該稼働系装置についての実行時間長を参照する必要が生じた場合であっても、待機系装置に記憶された当該実行時間長を参照することができる。
【0045】
なお、本発明は、本実施の形態に限定されるものではなく、その主旨を逸脱しない範囲において種々の変形、変更が可能である。例えば、待機系装置のハードディスクについて、前述の故障予兆検出方法を稼働系装置が行ってもよい。また、データの書き込みの代わりにデータの読み込みを行ってもよい。
【0046】
また、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピー(登録商標)ディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置をいう。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【符号の説明】
【0047】
1、2 … 情報処理装置
11、21 … ハードディスク
111、211 … 実行時間長記録領域
12、22 … 実行時間長測定部
13、23 … ハードディスク故障予知検出部
14、24 … 警報通知送信部
3 … 通信ケーブル

【特許請求の範囲】
【請求項1】
情報処理装置と該情報処理装置の故障時に該情報処理装置に代わって情報処理を行う情報処理装置の一方が、該一方の情報処理装置または他方の情報処理装置のハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測するステップと、
前記一方の情報処理装置が、前記実行時間長を記憶するステップと、
前記一方の情報処理装置が、前記記憶された実行時間長を読み出し、前記ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するステップと
を含むことを特徴とするハードディスク故障予兆検出方法。
【請求項2】
前記一方の情報処理装置は、他方の情報処理装置の故障時に情報処理を行う情報処理装置であり、前記実行時間長を当該故障時に情報処理を行う情報処理装置に記憶することを特徴とする請求項1記載のハードディスク故障予兆検出方法。
【請求項3】
前記一方の情報処理装置が、前記実行時間長が前記許容値を超えている場合において警報を発することを特徴とする請求項1または2に記載のハードディスク故障予兆検出方法。
【請求項4】
請求項1ないし3のいずれかに記載のハードディスク故障予兆検出方法をコンピュータに実行させるためのコンピュータプログラム。
【請求項5】
請求項4記載のコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−38362(P2012−38362A)
【公開日】平成24年2月23日(2012.2.23)
【国際特許分類】
【出願番号】特願2010−174506(P2010−174506)
【出願日】平成22年8月3日(2010.8.3)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】