説明

障害診断システム、障害診断方法、および障害診断プログラム

【課題】 診断を行う装置が1つで済むようにし、また、積極的に障害の発生を検出できるようにする。
【解決手段】 サービスプロセッサ500は、診断プロセッサ100に、所定の時間間隔で、障害が発生しているか否かの判定を指示するパトロール通知を送信する。診断プロセッサ100は、パトロール通知を受信すると、試験プログラム120を実行し、各診断対象装置および診断プロセッサ100自身に障害が発生したか否かを判定する。診断プロセッサ100は、診断対象装置に障害が発生したと判定しても、その診断対象装置自身の処理を継続させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システムの障害を診断する障害診断システム、障害診断方法、および障害診断プログラムに関する。
【背景技術】
【0002】
一般に、情報処理システムは、構成装置が正常に作動しているか否かを診断する診断プログラムを実行する診断プロセッサを備えている。
【0003】
特許文献1に記載されている診断方式は、接続された装置の診断を行う複数の診断プロセッサを備え、複数の診断プロセッサのうち、一の診断プロセッサがエラーを検出すると、他の診断プロセッサがエラーを検出した診断プロセッサの診断を行う。
【0004】
また、特許文献2に記載されている方法は、障害を検知するコンピュータシステムと、コンピュータシステムの障害の状況を監視するリモートセンタシステムとを有し、コンピュータシステムが障害の発生を検知すると、障害の発生回数に応じたコメントをリモートセンタシステムに送信する。
【0005】
【特許文献1】特開平1−154246号公報 (図1)
【特許文献2】特開2002−236599号公報 (段落0017〜0043、図1)
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1に記載されている方法は、診断プロセッサを複数台必要とするが、診断を行う装置の数は少ないことが好ましい。
【0007】
また、特許文献2に記載されている方式は、障害の発生を検知すると障害の発生回数に応じたコメントの生成等を行うが、積極的に障害の発生を検出し、発生した障害の緊急度を保守担当者に認識させることが好ましい。
【0008】
そこで、本発明は、診断を行う装置の数が1つでよく、また、積極的に障害を見つけることができる障害診断システム、障害診断方法、および障害診断プログラムを提供することを目的とする。また、本発明は、発生した障害の緊急度を保守担当者に認識させることができる障害診断システム、障害診断方法、および障害診断プログラムを提供することも目的とする。
【課題を解決するための手段】
【0009】
本発明による障害診断システムは、障害の診断対象となる診断対象装置に対して診断を行う障害診断システムであって、診断対象装置および障害診断システムに障害が発生しているか否かを判定する診断手段と、診断手段に対して、障害が発生しているか否かの判定を所定の時間間隔で指示する診断指示手段とを備え、診断手段は、障害が発生したと判定しても、診断対象装置に診断対象装置自身の処理を継続させることを特徴とする。
【0010】
診断手段は、プログラムに従って動作するプロセッサであり、診断指示手段は、プロセッサに接続される第2のプロセッサであり、診断手段は、診断指示手段の指示に従って診断対象装置および障害診断システムに障害が発生しているか否かを判定してもよい。
【0011】
診断手段が発生していると判定した障害が軽障害であるのか、あるいは重障害であるのかを判断する障害解析手段と、障害解析手段が判断した結果にもとづいて障害の内容を示す情報である障害情報を生成する障害情報生成手段と、障害情報生成手段が生成した障害情報を記憶する記憶手段とを備えてもよい。
【0012】
診断手段が障害が発生していると判定した回数をカウントする障害回数カウント手段を備え、診断手段は、障害回数カウント手段がカウントした回数が所定の回数未満のときに、接続されている診断対象装置および障害診断システムに障害が発生しているか否かを判定してもよい。
【0013】
本発明による障害診断方法は、障害の診断対象となる診断対象装置に対して診断を行う障害診断システムに適用される障害診断方法であって、障害が発生しているか否かの判定の実行を所定の時間間隔で指示する診断指示ステップと、診断対象装置および障害診断システムに障害が発生しているか否かを判定する診断ステップとを備え、診断ステップで、障害が発生したと判定しても、診断対象装置に処理を継続させることを特徴とする。
【0014】
診断ステップで発生していると判定した障害が軽障害であるのか、あるいは重障害であるのかを判断する障害解析ステップと、障害解析ステップで判断した結果にもとづいて障害の内容を示す情報である障害情報を生成する障害情報生成ステップと、障害情報生成ステップで生成した障害情報を記憶手段に記憶させる記憶ステップとを備えてもよい。
【0015】
診断ステップで障害が発生していると判定した回数をカウントする障害回数カウントステップを備え、診断ステップにおいて、障害回数カウントステップでカウントした回数が所定の回数未満のときに、接続されている診断対象装置および障害診断システムに障害が発生しているか否かを判定してもよい。
【0016】
本発明による障害診断プログラムは、障害の診断対象となる診断対象装置に対して診断を行うコンピュータに搭載された障害診断プログラムであって、コンピュータに、診断対象装置およびコンピュータに障害が発生しているか否かを判定させる診断処理と、診断処理で検出した障害が軽障害であるのか、あるいは重障害であるのかを判断させる障害解析処理と、障害解析処理で判断した結果にもとづいて障害の内容を示す情報である障害情報を生成させる障害情報生成処理と、障害情報生成処理で生成した障害情報を記憶手段に記憶させる記憶処理とを実行させることを特徴とする。
【発明の効果】
【0017】
本発明によれば、接続されている診断対象装置および自障害診断システムに障害が発生したことを検出するため、診断手段となる装置(プロセッサ)を複数設ける必要がない。また、本発明によれば、診断指示手段が所定の時間間隔で障害が発生しているか否かの判定を指示するため、診断手段の動作率を高め、積極的に障害を検出することができる。また、診断手段は、障害が発生したと判定しても、診断対象装置に処理を継続させるため、障害の対応を診断対象装置の通常運用時間以外の保守時間等に行うことができる。
【0018】
診断手段が、プログラムに従って動作するプロセッサであるように構成されている場合には、特別なハードウェアを用意することなく、接続されている診断対象装置および自障害診断システムに障害が発生したことを検出することができる。また、診断手段が、診断指示手段の指示に従って診断対象装置および障害診断システムに障害が発生しているか否かを判定するように構成されている場合には、診断手段となるプロセッサは、特別なタイマ機能を有する必要がない。
【0019】
診断手段が発生していると判定した障害が軽障害であるのか、あるいは重障害であるのかを判断する障害解析手段を備えるように構成されている場合には、保守担当者に、障害の対応の緊急度を容易に認識させることができる。
【0020】
診断手段が、障害の回数が所定の回数未満のときに、接続されている診断対象装置および障害診断システムに障害が発生しているか否かを判定するように構成されている場合には、障害の発生回数(頻度)を保守担当者に認識させることができる。すると、保守担当者は、障害の発生回数(頻度)に応じて、障害の対応を行うことができる。
【発明を実施するための最良の形態】
【0021】
本発明の実施の形態について、図面を参照して説明する。図1は、本発明による障害診断システムの実施の形態の一構成例を示すブロック図である。
【0022】
本発明の障害診断システムは、障害が発生しているか否かを診断(判定)する診断プロセッサ100、診断プロセッサ100に診断を指示するパトロール通知を送信するサービスプロセッサ500、および診断プロセッサ100とサービスプロセッサ500とを接続するバス400を含む。そして、診断プロセッサ100には、障害が発生しているか否かを診断(判定)の対象となる診断対象装置300a〜300mが、信号線である診断パス200a〜200mを介して接続されている。
【0023】
診断プロセッサ100は、ファームウェア110を搭載する。ファームウェア110は、診断プログラム120と、ログ採取プログラム130と、障害解析プログラム140と、エラーカウントプログラム160とを含む。
【0024】
診断プログラム120は、診断プロセッサ100に、各診断対象装置および診断プロセッサ100に障害が発生しているか否かを判断させるプログラムである。ログ採取プログラム130は、診断プロセッサ100に、発生した障害の内容を示す障害ログ(障害情報)を生成させて記憶手段(図示せず)に記憶させるプログラムである。エラーカウントプログラム160は、診断プロセッサ100に、障害が発生した回数(障害発生回数)をカウントさせるプログラムである。また、試験中フラグ150は、試験プログラム120が実行中であるか否かを示すフラグである。
【0025】
診断手段は、ファームウェア110の試験プログラム120に従って動作する診断プロセッサ100によって実現される。障害回数カウント手段は、ファームウェア110のエラーカウントプログラム160に従って動作する診断プロセッサ100によって実現される。
【0026】
障害解析手段は、ファームウェア110の障害解析プログラム140に従って動作する診断プロセッサ100によって実現される。障害情報生成手段は、ファームウェア110のログ採取プログラム130に従って動作する診断プロセッサ100によって実現される。
【0027】
なお、実際に処理を行うのは、各プログラム(ファームウェア110が含む各プログラム)に従って動作する診断プロセッサ100であるが、以下の説明では、便宜的に、各プログラム(ファームウェア110が含む各プログラム)の動作として記載する場合がある。例えば、「診断プロセッサ100が障害解析プログラム140に従って、重障害であるのか、あるいは軽障害であるのかを判断する」ことを、単に「障害解析プログラム140が、重障害であるのか、あるいは軽障害であるのかを判断する」等と記す場合がある。
【0028】
障害解析プログラム140は、試験プログラム120が、例えば、診断プロセッサ100自身が故障していることを検出すると重障害であると判断する。また、障害解析プログラム140は、試験プログラム120が、例えば、各診断対象装置や、各診断対象装置と診断プロセッサ100とを接続している診断パス等が故障していることを検出すると、軽障害であると判断する。
【0029】
具体的には、例えば、診断プロセッサ100に、診断プロセッサ100自身が故障しているか否かを示すレジスタを設け、診断プログラム120は、診断プロセッサ100自身が故障していると判断すると、そのレジスタを、診断プロセッサ100自身が故障していることを示すようにセットする。そして、障害解析プログラム140は、そのレジスタが、診断プロセッサ100自身が故障していることを示していると、重障害であると判断する。また、障害解析プログラム140は、そのレジスタが、診断プロセッサ100自身が故障していることを示してないと、軽障害であると判断する。
【0030】
ログ採取プログラム130は、障害解析プログラム140が、発生した障害が重障害であると判断すると、発生した障害が重障害であることを示す障害ログである重障害ログを生成する。また、ログ採取プログラム130は、障害解析プログラム140が、発生した障害が軽障害であると判断すると、発生した障害が軽障害であることを示す障害ログである軽障害ログを生成する。なお、各障害ログは、例えば、故障が発生した際に接続を試みていた装置等を示す情報を含む。
【0031】
サービスプロセッサ500は、ログ採取プログラム130が生成し、診断プロセッサ100の記憶手段が記憶している重障害ログおよび軽障害ログを格納するログ格納部510を含む。ログ格納部510は、重障害ログと軽障害ログとを区別して格納することが好ましい。
【0032】
診断プロセッサ100は、ファームウェア110として、コンピュータに、診断対象装置およびコンピュータに障害が発生しているか否かを判定させる診断処理と、診断処理で検出した障害が軽障害であるのか、あるいは重障害であるのかを判断させる障害解析処理と、障害解析処理で判断した結果にもとづいて障害の内容を示す情報である障害情報を生成させる障害情報生成処理と、障害情報生成処理で生成した障害情報を記憶手段に記憶させる記憶処理とを実行させる障害診断プログラムを搭載している。
【0033】
次に、本発明の障害診断システムの動作について、図面を参照して説明する。図2は本発明による障害診断システムの動作を説明するフローチャートである。
【0034】
サービスプロセッサ500は、例えば、30分毎等の所定の時間間隔で、バス400を介して診断プロセッサ100にパトロール通知を送信する(ステップS101)。
【0035】
診断プロセッサ100のファームウェア110は、パトロール通知を受信すると(ステップS102)、エラーカウントプログラム160がカウントした障害発生回数が、所定の回数以上であるのか否かを判断する(ステップS103)。なお、所定の回数は変更することができる。
【0036】
ファームウェア110は、パトロール通知を受信するとエラーカウントプログラム160がカウントした障害発生回数が所定の回数以上ではない(すなわち、エラーカウントプログラム160がカウントした障害発生回数が所定の回数未満である)と判断すると、試験プログラム120が実行中であることを示すように試験中フラグ150をセットする(ステップS104)。
【0037】
診断プロセッサ100は、試験プログラム120を読み取り、試験プログラム120に従った動作を開始する(ステップS105)。そして、試験プログラム120は、各診断対象装置および診断プロセッサ100自身に障害が発生しているか否かを判定する(ステップS106)。
【0038】
試験プログラム120は、各診断対象装置または診断プロセッサ100に障害が発生していると判定すると、エラーカウントプログラム160がカウントした障害発生回数に1を加える(ステップS107)。
【0039】
そして、障害解析プログラム140が、発生した障害が重障害であるのか、あるいは軽障害であるのかを判断する(ステップS108)。
【0040】
ログ採取プログラム130は、障害解析プログラム140が、発生した障害が重障害であると判断すると、重障害が発生したことを示す障害ログ(重障害ログ)を生成して(ステップS109)、記憶手段に記憶させる。
【0041】
また、ログ採取プログラム130は、障害解析プログラム140が、発生した障害が軽障害であると判断すると、軽障害が発生したことを示す障害ログ(軽障害ログ)を生成して(ステップS110)、記憶手段に記憶させる。
【0042】
ファームウェア110は、試験プログラム120の実行が終了すると、試験プログラム120が実行中でないことを示すように試験中フラグ150を変更(リセット)する(ステップS111)。
【0043】
そして、ファームウェア110は、診断プロセッサ100に、記憶手段が記憶している障害ログをバス400を介してサービスプロセッサ500に送信させる。サービスプロセッサ500は、受信した障害ログをログ格納部510に格納する。
【0044】
なお、診断プロセッサ100は、障害が発生した診断対象装置の診断対象装置自身の処理の実行を停止させない。すなわち、各診断対象装置は、障害が発生しても診断対象装置自身の処理の実行を継続する。
【0045】
以上に述べたように、この実施の形態によれば、所定の時間間隔で試験プログラム120を実行するため、通常運用中に負荷のかかることが少ない診断プロセッサ100の動作率を高め、各診断対象装置および診断プロセッサ100の障害を積極的に検出することができる。
【0046】
また、試験プログラム120は、搭載されている診断プロセッサ100自身の診断を行うため、他の診断プロセッサを使用することなく、診断プロセッサ100の診断を行うことができる。すなわち、複数の診断プロセッサを用意する必要がなくなる。
【0047】
また、診断プロセッサ100は、試験プログラム120が障害の発生を検出しても、通常運用時間中には各診断対象装置や診断プロセッサ100の動作を停止させない。そのため、障害の対応を通常運用時間以外の保守時間等に行うことができる。なお、障害の対応は、例えば、保守担当者が行う。
【0048】
また、ログ採取プログラム130は、発生した障害に応じて重障害ログまたは軽障害ログを生成するため、システムの保守担当者に、発生した障害が重障害であるのか軽障害であるのかを容易に判断させることができ、障害の対応の緊急度を容易に認識させることができる。
【0049】
また、ファームウェア110は、エラーカウントプログラム160がカウントした回数が所定の回数未満のときに障害の診断と、障害発生回数のカウントとを行うため、システムの保守担当者は、障害発生回数を認識することができ、障害発生回数や、障害の発生のの頻度に応じて、障害の対応を行うか否かを判断することができる。
【0050】
診断プロセッサ100は、サービスプロセッサ500からパトロール通知を受信すると診断を行うため、診断プロセッサ100自身がタイマ機能等を有することなく、定期的なシステムの診断を行うことができる。
【0051】
また、診断プロセッサ100は搭載しているファームウェア110の処理にしたがって診断を行うため、特別なハードウェアを用意することなく診断対象装置等の診断を行うことができる。
【産業上の利用可能性】
【0052】
本発明は、診断プロセッサを用いて障害の診断を行うシステムに適用することができる。
【図面の簡単な説明】
【0053】
【図1】本発明による障害診断システムの実施の形態の一構成例を示すブロック図である。
【図2】本発明による障害診断システムの動作を説明するフローチャートである。
【符号の説明】
【0054】
100 診断プロセッサ
110 ファームウェア
120 試験プログラム
130 ログ採取プログラム
140 障害解析プログラム
150 試験中フラグ
160 エラーカウントプログラム
200a〜200m 診断パス
300a〜300m 診断対象装置
400 バス
500 サービスプロセッサ
510 ログ格納部

【特許請求の範囲】
【請求項1】
障害の診断対象となる診断対象装置に対して診断を行う障害診断システムにおいて、
前記診断対象装置および当該障害診断システムに障害が発生しているか否かを判定する診断手段と、
前記診断手段に対して、障害が発生しているか否かの判定を所定の時間間隔で指示する診断指示手段とを備え、
前記診断手段は、障害が発生したと判定しても、前記診断対象装置に当該診断対象装置の処理を継続させる
ことを特徴とする障害診断システム。
【請求項2】
診断手段は、プログラムに従って動作するプロセッサであり、
診断指示手段は、前記プロセッサに接続される第2のプロセッサであり、
前記診断手段は、前記診断指示手段の指示に従って診断対象装置および障害診断システムに障害が発生しているか否かを判定する
請求項1記載の障害診断システム。
【請求項3】
診断手段が発生していると判定した障害が軽障害であるのか、あるいは重障害であるのかを判断する障害解析手段と、
前記障害解析手段が判断した結果にもとづいて障害の内容を示す情報である障害情報を生成する障害情報生成手段と、
前記障害情報生成手段が生成した障害情報を記憶する記憶手段とを備えた
請求項1または請求項2記載の障害診断システム。
【請求項4】
診断手段が障害が発生していると判定した回数をカウントする障害回数カウント手段を備え、
前記診断手段は、前記障害回数カウント手段がカウントした回数が所定の回数未満のときに、接続されている診断対象装置および障害診断システムに障害が発生しているか否かを判定する
請求項1から請求項3のうちいずれか1項記載の障害診断システム。
【請求項5】
障害の診断対象となる診断対象装置に対して診断を行う障害診断システムに適用される障害診断方法において、
障害が発生しているか否かの判定の実行を所定の時間間隔で指示する診断指示ステップと、
前記診断対象装置および当該障害診断システムに障害が発生しているか否かを判定する診断ステップとを備え、
前記診断ステップで、障害が発生したと判定しても、前記診断対象装置に処理を継続させる
ことを特徴とする障害診断方法。
【請求項6】
診断ステップで発生していると判定した障害が軽障害であるのか、あるいは重障害であるのかを判断する障害解析ステップと、
前記障害解析ステップで判断した結果にもとづいて障害の内容を示す情報である障害情報を生成する障害情報生成ステップと、
前記障害情報生成ステップで生成した障害情報を記憶手段に記憶させる記憶ステップとを備えた
請求項5記載の障害診断方法。
【請求項7】
診断ステップで障害が発生していると判定した回数をカウントする障害回数カウントステップを備え、
前記診断ステップにおいて、前記障害回数カウントステップでカウントした回数が所定の回数未満のときに、接続されている診断対象装置および障害診断システムに障害が発生しているか否かを判定する
請求項5または請求項6記載の障害診断方法。
【請求項8】
障害の診断対象となる診断対象装置に対して診断を行うコンピュータに搭載された障害診断プログラムにおいて、
コンピュータに、
前記診断対象装置および当該コンピュータに障害が発生しているか否かを判定させる診断処理と、
前記診断処理で検出した障害が軽障害であるのか、あるいは重障害であるのかを判断させる障害解析処理と、
前記障害解析処理で判断した結果にもとづいて障害の内容を示す情報である障害情報を生成させる障害情報生成処理と、
前記障害情報生成処理で生成した障害情報を記憶手段に記憶させる記憶処理とを実行させる
ための障害診断プログラム。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2007−42017(P2007−42017A)
【公開日】平成19年2月15日(2007.2.15)
【国際特許分類】
【出願番号】特願2005−228023(P2005−228023)
【出願日】平成17年8月5日(2005.8.5)
【出願人】(000168285)エヌイーシーコンピュータテクノ株式会社 (572)
【Fターム(参考)】