説明

サーバ故障予測システム

【課題】サーバに異常がある可能性があることを事前に予測して、サーバの故障を予防すること。
【解決手段】サーバは、イベントが発生したときの時刻とそのイベントの内容とを含むログを時系列でログエリアに記録する。保守サーバは、ログエリアを監視して、サーバの電源がオンしたときの時刻を含む第1ログと、サーバが利用可能になったときの時刻を含む第2ログとを収集する。保守サーバは、サーバの電源がオンしてからサーバが利用可能になるまでの時間として、第1ログの時刻と第2ログとの差分である時間を算出する。保守サーバは、その時間が設定時間以上である場合、サーバに異常がある可能性があることを保守員に通知する。本発明では、サーバが長く使われることによる劣化具合を考慮して、サーバに異常がある可能性があることを事前に予測している。従って、これを保守員に通知することにより、サーバの故障を予防することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サーバを監視して故障を予測するサーバ故障予測システムに関する。
【背景技術】
【0002】
図1は、一般的なシステムの構成を示している。そのサーバ故障予測システムは、サーバ110と保守サーバ120とを具備している。保守サーバ120は、サーバ110に接続されている。サーバ110は、記憶装置112を備えている。記憶装置112には、ログエリア113が設けられている。
【0003】
サーバ110は、イベントが発生したときの時刻とそのイベントの内容とを含むログ113−1、113−2、…を時系列で記憶装置112のログエリア113に記録する。保守サーバ120は、ログエリア113を監視して、イベントの内容にエラーを表すログが存在するものとする。そのエラーとしては、デバイスの電圧異常や温度以上などが挙げられる。この場合、サーバ110の異常を保守員に通知する。
【0004】
従来では、単一のイベントに対してサーバ110が異常であるか否かを判断している。即ち、異常があるときだけ保守員に通知している。このため、エラーが起きたときに保守員が初めて保守作業を行う。保守作業では、デバイスの交換や修理を行う。サーバに異常がある可能性があることを事前に予測して、サーバの故障を予防することが望まれる。
【0005】
故障の予測や装置の監視に関する文献を紹介する。
【0006】
特開2001−312375号公報には、外部記憶装置の故障予測システムが記載されている。外部記憶装置の故障予測システムは、外部記憶装置と、この外部記憶装置を使用する顧客用コンピュータと、この顧客用コンピュータに通信回線網を介して接続されたサービス提供者用コンピュータとを備えている。顧客用コンピュータは、外部記憶装置の使用状況に関する検査データを取得し、この検査データを通信回線網を介してサービス提供者用コンピュータへ送信する。サービス提供者用コンピュータは、検査データに基づき外部記憶装置の故障予測を行ない、その結果を通信回線網を介して顧客用コンピュータへ送信することを特徴としている。
【0007】
特開2004−213621号公報には、リモート監視システムが記載されている。リモート監視システムは、被監視システムの正常/異常を含む事象情報を受信し、受信した事象情報を含む電子メールをネットワーク経路によって定期または不定期に通報する第1の手段と、第1の手段による電子メールを受信することで被監視システムとネットワーク経路の状態とを併せて監視する第2の手段と、を備えることを特徴としている。
【0008】
特開2002−259130号公報には、情報処理システムが記載されている。情報処理システムは、オペレーティングシステムを起動する手段と、オペレーティングシステムの起動完了を検出する手段と、オペレーティングシステムを起動するための起動信号が発生されてからの経過時間を計時し、起動信号が発生されてから所定の経過時間内にオペレーティングシステムの起動完了が検出されたか否かに基づいて、オペレーティングシステムの起動対象となるブートデバイスの切り換えを制御する手段とを具備することを特徴としている。
【0009】
特開2006−236524号公報には、画像処理装置が記載されている。画像処理装置は、画像処理装置のプログラムや画像データを記憶でき、内部に駆動機構を有する磁気記憶手段と、画像処理装置の制御を行う制御手段とを有している。制御手段は、磁気記憶手段の故障診断情報を取得するため磁気記憶手段へコマンドを送信し、取得した故障診断情報をもとに磁気記憶手段の内部駆動機構の故障予測を行うことを特徴としている。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2001−312375号公報
【特許文献2】特開2004−213621号公報
【特許文献3】特開2002−259130号公報
【特許文献4】特開2006−236524号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明の目的は、サーバに異常がある可能性があることを事前に予測して、サーバの故障を予防することができるサーバ故障予測システムを提供することにある。
【課題を解決するための手段】
【0012】
本発明のサーバ故障予測システムは、サーバと、サーバに接続された保守サーバとを具備している。サーバは、記憶装置を備え、イベントが発生したときの時刻とそのイベントの内容とを含むログを時系列で記憶装置のログエリアに記録する。保守サーバは、監視部と、算出部と、通知部とを備えている。監視部は、ログエリアを監視して、サーバの電源がオンしたときの時刻を含む第1ログと、サーバが利用可能になったときの時刻を含む第2ログとを収集する。算出部は、サーバの電源がオンしてからサーバが利用可能になるまでの時間として、第1ログの時刻と第2ログとの差分である第1時間を算出する。通知部は、第1時間が第1設定時間以上である場合、サーバに異常がある可能性があることを保守員に通知する。
【発明の効果】
【0013】
本発明のサーバ故障予測システムでは、保守サーバは、サーバの電源がオンしてからサーバが利用可能になるまでの時間が設定時間以上であるか否かを判断することにより、サーバに異常がある可能性があるか否かを事前に予測している。即ち、サーバが長く使われることによる劣化具合(ハードディスクのシーク時間の劣化や、熱によるデバイスの応答時間の劣化などに起因する、サーバのトータル起動時間の劣化)を考慮して、サーバに異常がある可能性があることを事前に予測している。従って、サーバに異常がある可能性があることを保守員に通知することにより、サーバの故障を予防することができる。
【図面の簡単な説明】
【0014】
【図1】図1は、一般的なシステムの構成を示している。
【図2】図2は、本発明の実施形態によるサーバ故障予測システムの構成を示している。
【図3】図3は、本発明の実施形態によるサーバ故障予測システムの動作を示すフローチャートである。
【図4】図4は、本発明の実施形態によるサーバ故障予測システムの動作を説明するための図である。
【発明を実施するための形態】
【0015】
以下に添付図面を参照して、本発明の実施形態によるサーバ故障予測システムについて詳細に説明する。
【0016】
図2は、本発明の実施形態によるサーバ故障予測システムの構成を示している。本発明の実施形態によるサーバ故障予測システムは、サーバ10と保守サーバ20とを具備している。保守サーバ20は、サーバ10に接続されている。
【0017】
サーバ10は、コンピュータであり、CPU(Central Processing Unit)11と記憶装置12と複数のデバイスとを備えている。複数のデバイスとしては、ハードディスクなどのメモリや、チップセットなどが挙げられる。
【0018】
記憶装置12には、サーバ10に実行させるためのコンピュータプログラムが記憶されたエリアと、ログエリア13とが設けられている。CPU11は、起動時などに記憶装置12からコンピュータプログラムを読み取って実行する。
【0019】
保守サーバ20は、コンピュータであり、CPU21と記憶装置22と表示装置27とスピーカ28とを備えている。
【0020】
記憶装置22には、CPU21が実行するためのコンピュータプログラム23が記憶されたエリアが設けられている。CPU21は、起動時などに記憶装置22からコンピュータプログラム23を読み取って実行する。
【0021】
そのコンピュータプログラム23は、監視部24、算出部25、通知部26を含んでいる。
【0022】
図3は、本発明の実施形態によるサーバ故障予測システムの動作を示すフローチャートである。
【0023】
まず、サーバ10の動作について説明する。
【0024】
CPU11は、利用者がサーバ10の電源をオンしたときに、サーバ10を起動する(ステップS1)。
【0025】
CPU11は、イベントが発生したときの時刻とそのイベントの内容とを含むログ13−1、13−2、…を時系列で記憶装置12のログエリア13に記録する(ステップS2)。
【0026】
CPU11は、利用者がサーバ10の起動を終了する指示が行われない場合(ステップS3−NO)、ステップS2を実行し、利用者がサーバ10の起動を終了する指示を行った場合、サーバ10の起動を終了する(ステップS3−YES)。
【0027】
次に、保守サーバ20の動作について説明する。
【0028】
ここで、保守サーバ20は、前述の保守サーバ120の動作(以下、エラー処理と称する)に加えて、次の動作(以下、予測処理と称する)を実行する。
【0029】
エラー処理において、監視部24は、ログエリア13を監視して、イベントの内容にエラーを表すログが存在するものとする。そのエラーとしては、デバイスの電圧異常や温度以上などが挙げられる。この場合、通知部26は、サーバ10の異常を保守員に通知する。
【0030】
予測処理について説明する。
【0031】
監視部24は、ログエリア13を監視して、図2に示されるように、利用者によりサーバ10の電源がオンしたときの時刻を含む第1ログ(以下、電源オンログ13−1と称する)と、サーバ10が利用可能になったときの時刻を含む第2ログ(以下、起動完了ログ13−jと称する)とを収集する(ステップS11)。
【0032】
算出部25は、サーバ10の電源がオンしてからサーバ10が利用可能になるまでの時間(特定イベントが所要する時間)として、電源オンログ13−1の時刻と起動完了ログ13−jとの差分である第1時間Δt(以下、時間Δt1と称する)を算出する(ステップS12)。
【0033】
通知部26は、時間Δt1と予め定められた第1設定時間t(以下、設定時間t1と称する)とを比較する(ステップS13)。
【0034】
そこで、時間Δt1が設定時間t1未満である場合(ステップS13−NO)、保守サーバ10はステップS11を実行する。
【0035】
一方、時間Δt1が設定時間t1以上である場合(ステップS13−YES)、通知部26は、サーバ10に異常がある可能性があることを文字により表示装置27に表示し、それをスピーカ28から音により出力して、保守員に通知する(ステップS14)。
【0036】
保守サーバ10は、保守員に1度通知したら予測処理を終了する仕様である場合、ステップS14を実行した後、予測処理を終了する。又は、保守サーバ10は、保守員に1度通知しても更にサーバ10の異常を検出する仕様である場合、ステップS11を実行する(図示しない)。
【0037】
このように、本発明の実施形態によるサーバ故障予測システムでは、保守サーバ20は、サーバ10の電源がオンしてからサーバ10が利用可能になるまでの時間Δt1が設定時間t1以上であるか否かを判断することにより、サーバ10に異常がある可能性があるか否かを事前に予測している。即ち、サーバ10が長く使われることによる劣化具合(ハードディスクのシーク時間の劣化や、熱によるデバイスの応答時間の劣化などに起因する、サーバ10のトータル起動時間の劣化)を考慮して、サーバ10に異常がある可能性があることを事前に予測している。従って、サーバ10に異常がある可能性があることを保守員に通知することにより、サーバ10の故障を予防することができる。
【0038】
ここで、保守サーバ20は、複数のデバイスのうちの特定デバイスについて、以下の動作を実行する。
【0039】
監視部24は、ログエリア13を監視して、図4に示されるように、特定デバイスが起動したときの時刻を含む第3ログ(以下、起動開始ログ13−xと称する)と、特定デバイスが利用可能になったときの時刻を含む第4ログ(以下、起動完了ログ13−yと称する)とを収集する(ステップS11)。
【0040】
算出部25は、特定デバイスが起動してから利用可能になるまでの時間(特定イベントが所要する時間)として、起動開始ログ13−xの時刻と起動完了ログ13−yとの差分である第2時間Δt(以下、時間Δt2と称する)を算出する(ステップS12)。
【0041】
保守サーバ20の通知部26は、時間Δt2と予め定められた第2設定時間t(以下、設定時間t2と称する)とを比較する(ステップS13)。
【0042】
そこで、時間Δt2が設定時間t2未満である場合(ステップS13−NO)、保守サーバ10はステップS11を実行する。
【0043】
一方、時間Δt2が設定時間t2以上である場合(ステップS13−YES)、通知部26は、サーバ10に異常がある可能性として、特定デバイスに異常がある可能性があることを文字により表示装置27に表示し、それをスピーカ28から音により出力して、保守員に通知する(ステップS14)。
【0044】
保守サーバ10は、保守員に1度通知したら予測処理を終了する仕様である場合、ステップS14を実行した後、予測処理を終了する。又は、保守サーバ10は、保守員に1度通知しても更にサーバ10の異常を検出する仕様である場合、ステップS11を実行する(図示しない)。
【0045】
このように、本発明の実施形態によるサーバ故障予測システムでは、特定デバイスが起動してから利用可能になるまでの時間Δt2が設定時間t2以上であるか否かを判断することにより、特定デバイスに異常がある可能性があるか否かを事前に予測している。従って、特定デバイスに異常がある可能性があることを保守員に通知することにより、サーバ10の故障を予防することができる。
【符号の説明】
【0046】
10 サーバ、
11 CPU、
12 記憶装置、
13 ログエリア、
13−1、13−2、13−j、13−x、13−y ログ、
20 保守サーバ、
21 CPU、
22 記憶装置、
23 コンピュータプログラム、
24 監視部、
25 算出部、
26 通知部、
27 表示装置、
28 スピーカ、
110 サーバ、
112 記憶装置、
113 ログエリア、
113−1、113−2 ログ、
120 保守サーバ、

【特許請求の範囲】
【請求項1】
記憶装置を備え、イベントが発生したときの時刻とそのイベントの内容とを含むログを時系列で前記記憶装置のログエリアに記録するサーバと、
前記サーバに接続された保守サーバと
を具備し、
前記保守サーバは、
前記ログエリアを監視して、前記サーバの電源がオンしたときの時刻を含む第1ログと、前記サーバが利用可能になったときの時刻を含む第2ログとを収集する監視部と、
前記サーバの電源がオンしてから前記サーバが利用可能になるまでの時間として、前記第1ログの時刻と前記第2ログとの差分である第1時間を算出する算出部と、
前記第1時間が第1設定時間以上である場合、前記サーバに異常がある可能性があることを保守員に通知する通知部と
を備えるサーバ故障予測システム。
【請求項2】
前記サーバは、複数のデバイスを更に備え、
前記監視部は、前記ログエリアを監視して、前記複数のデバイスのうちの特定デバイスが起動したときの時刻を含む第3ログと、前記特定デバイスが利用可能になったときの時刻を含む第4ログとを収集し、
前記算出部は、前記特定デバイスが起動してから利用可能になるまでの時間として、前記第3ログの時刻と前記第4ログとの差分である第2時間を算出し、
前記通知部は、前記第2時間が第2設定時間以上である場合、前記サーバに異常がある可能性として、前記特定デバイスに異常がある可能性があることを保守員に通知する
請求項1に記載のサーバ故障予測システム。
【請求項3】
前記保守サーバは、
表示装置
を更に備え、
前記通知部は、前記サーバに異常がある可能性があることを文字により前記表示装置に表示して、保守員に通知する
請求項1又は2に記載のサーバ故障予測システム。
【請求項4】
前記保守サーバは、
スピーカ
を更に備え、
前記通知部は、前記サーバに異常がある可能性があることを前記スピーカから音により出力して、保守員に通知する
請求項1〜3のいずれかに記載のサーバ故障予測システム。
【請求項5】
イベントが発生したときの時刻とそのイベントの内容とを含むログを時系列で自己のログエリアに記録するサーバに接続された保守サーバであって、
前記ログエリアを監視して、前記サーバの電源がオンしたときの時刻を含む第1ログと、前記サーバが利用可能になったときの時刻を含む第2ログとを収集する監視部と、
前記サーバの電源がオンしてから前記サーバが利用可能になるまでの時間として、前記第1ログの時刻と前記第2ログとの差分である第1時間を算出する算出部と、
前記第1時間が第1設定時間以上である場合、前記サーバに異常がある可能性があることを保守員に通知する通知部と
を具備する保守サーバ。
【請求項6】
前記監視部は、前記ログエリアを監視して、前記サーバの複数のデバイスのうちの特定デバイスが起動したときの時刻を含む第3ログと、前記特定デバイスが利用可能になったときの時刻を含む第4ログとを収集し、
前記算出部は、前記特定デバイスが起動してから利用可能になるまでの時間として、前記第3ログの時刻と前記第4ログとの差分である第2時間を算出し、
前記通知部は、前記第2時間が第2設定時間以上である場合、前記サーバに異常がある可能性として、前記特定デバイスに異常がある可能性があることを保守員に通知する
請求項5に記載の保守サーバ。
【請求項7】
表示装置
を更に具備し、
前記通知部は、前記サーバに異常がある可能性があることを文字により前記表示装置に表示して、保守員に通知する
請求項5又は6に記載の保守サーバ。
【請求項8】
スピーカ
を更に具備し、
前記通知部は、前記サーバに異常がある可能性があることを前記スピーカから音により出力して、保守員に通知する
請求項5〜7のいずれかに記載の保守サーバ。
【請求項9】
イベントが発生したときの時刻とそのイベントの内容とを含むログを時系列で自己のログエリアに記録するサーバに接続されたコンピュータを用いる方法であって、
前記ログエリアを監視して、前記サーバの電源がオンしたときの時刻を含む第1ログと、前記サーバが利用可能になったときの時刻を含む第2ログとを収集するステップと、
前記サーバの電源がオンしてから前記サーバが利用可能になるまでの時間として、前記第1ログの時刻と前記第2ログとの差分である第1時間を算出するステップと、
前記第1時間が第1設定時間以上である場合、前記サーバに異常がある可能性があることを保守員に通知するステップと
を具備するサーバ故障予測方法。
【請求項10】
前記ログエリアを監視して、前記サーバの複数のデバイスのうちの特定デバイスが起動したときの時刻を含む第3ログと、前記特定デバイスが利用可能になったときの時刻を含む第4ログとを収集するステップと、
前記特定デバイスが起動してから利用可能になるまでの時間として、前記第3ログの時刻と前記第4ログとの差分である第2時間を算出するステップと、
前記第2時間が第2設定時間以上である場合、前記サーバに異常がある可能性として、前記特定デバイスに異常がある可能性があることを保守員に通知するステップと
を更に具備する請求項9に記載のサーバ故障予測方法。
【請求項11】
前記保守員に通知するステップは、
前記サーバに異常がある可能性があることを文字により前記表示装置に表示して、保守員に通知する
請求項9又は10に記載のサーバ故障予測方法。
【請求項12】
前記保守員に通知するステップは、
前記サーバに異常がある可能性があることを前記スピーカから音により出力して、保守員に通知する
請求項9〜11のいずれかに記載のサーバ故障予測方法。
【請求項13】
請求項9〜12のいずれかに記載のサーバ故障予測方法を前記コンピュータに実行させるコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2010−198410(P2010−198410A)
【公開日】平成22年9月9日(2010.9.9)
【国際特許分類】
【出願番号】特願2009−43520(P2009−43520)
【出願日】平成21年2月26日(2009.2.26)
【出願人】(000168285)エヌイーシーコンピュータテクノ株式会社 (572)
【Fターム(参考)】