説明

障害復旧システム、障害復旧装置、ルール作成方法、および障害復旧プログラム

【課題】 管理者に負担をかけないで、不適切な動作を導くような障害対処ルールを排除できるようにする。
【解決手段】 対話制御手段4は、ユーザの操作に応じて、条件式と復旧処理コマンドとを対応付けたユーザ指定ルールを入力し、ユーザ指定ルール蓄積手段6に記憶させる。共通条件制御手段7は、条件式に共通部分を有する複数のユーザ指定ルールがある場合、そのユーザ指定ルールの条件式が同時に満たされることがないようにユーザ指定ルールの条件式を書き換え、書き換え後のユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させる。対処方法検索手段3は、サービス実行手段10の動作状態に関する情報を動作状態検出手段1から受信する。そして、その情報に基づいてどの条件式が満足されているかを判断し、その条件式に対応する復旧処理コマンドの情報を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、WEBサービスや業務サービスといった情報通信サービスを提供する情報処理装置等に障害が発生した場合に、その情報処理装置等を障害から復旧させるための障害復旧システム、障害復旧装置、およびその障害復旧システムに適用されるルール作成方法、障害復旧プログラムに関する。
【背景技術】
【0002】
WEBサービスのような情報通信サービスの社会インフラストラクチャとしての重要性が高まるにつれて、そのサービスを提供する装置の安定稼動が重要となっている。従来、このような装置の運用管理は、管理者が手作業で行っていたが、装置が大規模化、複雑化するにつれて、知識および操作の面で管理者の負担が飛躍的に増大した。その結果、管理者の判断ミスや操作ミスによるサービス停止といった問題も発生している。
【0003】
このようなミスの防止策として、障害の対処を自動化する技術が紹介されている(例えば、非特許文献1)。非特許文献1には、障害状態を検出し、自動的に障害に対する対処を行うという処理経過が記載されている。また、if−then形式の障害対処ルール群に従って、対処を決定することが記載されている。すなわち、障害状態を検出した場合、if−then形式の障害対処ルール群に従って、障害状態に応じた対処を決定し、その対処を実行することになる。また、システムが対処を実行する際に、管理者との対話を行いつつ対処を実行することも記載されている。非特許文献1に記載の技術によれば、障害発生時に、障害復旧システムが、その障害発生状態を条件として定めた障害対処ルールに基づいて対処手順を自動的に決定し、その手順を実行するので、障害発生時に迅速かつ確実に対処を行うことが可能となり、管理者によるミスを防止することが可能である。
【0004】
【非特許文献1】加藤清志、外2名,「自律運用管理に向けたポリシー適用優先度の制御に関する一考察」,第66回(平成16年)全国大会講演論文集(1),社団法人 情報処理学会,2004年3月9日発行,分冊1,p.51−52
【発明の開示】
【発明が解決しようとする課題】
【0005】
非特許文献1に記載された技術によって障害復旧システムが適切な障害対処を行うためには、各障害対処ルールが矛盾なく正確に記述されている必要がある。しかし、管理者にとっては、矛盾なく正確に各障害対処ルールを記載することは大きな負担である。ここで、「矛盾」とは複数の障害対処ルールが同時に成立してしまう状態を意味する。
【0006】
以下に、管理者にかかる負担を具体的に説明する。図22は、管理者が障害対処ルールを追加する状況を示す説明図である。図22(a)に示すような障害対処ルールが、障害を復旧させるための障害復旧システムに元々記憶されていたとする。障害対処ルールは、障害が発生したと判定するための条件式と、その条件式を満足する状態を検出したときに、復旧させるべき装置(以下、復旧対象装置と記す。例えば、情報通信サービス提供装置等。)に対して実行する復旧処理コマンドの情報とを含む。条件式としては、障害が発生したとみなされる復旧対象装置の動作状態または障害発生の前兆とみなされる復旧対象装置の動作状態が記述される。復旧処理コマンドは、条件式が満たされる状態となったときに、障害からの復旧または障害の回避のための処理を制御するコマンドである。条件式を複数の状態のAND(論理積)によって表してもよい。以下の説明では、条件式に記載される“&”記号は、論理積を意味するものとする。すなわち、図22(a)に示す障害対処ルールでは、状態Aおよび状態Bが共に真ならば(換言すると、状態Aおよび状態Bが共に検出されているならば)、対処手順Aという復旧処理コマンドを実行することを表している。
【0007】
状態Aおよび状態Bが真であり(検出されており)、さらに特別な状態(ここでは状態Cとする。)も真であるときには、対処手順Aとは異なる対処手順Bを実行させることを意図して、管理者が、図22(b)に示す2番目の障害対処ルールを追加したとする。ここで、管理者は、状態Aおよび状態Bは真であるが、状態Cが生じていない場合には、対処手順Aを実行し、状態A,B,Cがいずれも真であるときには対処手順Bを実行することを意図している。ところが、図22(b)に示す2番目の障害対処ルールを追加した場合、障害復旧システムは、状態Aおよび状態Bを検出したときには、状態Cが発生しているか否かによらず対処手順Aを実行してしまうことになる。障害対処ルールを追加するときには、このような意図に反する対処手順が実行されてしまう場合があるということまで、管理者はなかなか気付きにくい。例えば、障害復旧システムが、状態Aおよび状態Bを検出したときに、対処手順Aを実行することの確認を管理者に求めたときに、状態Cが発生しているか否かの判定が完了していないことに管理者が気付き、そのときに初めて、元々存在していた障害対処ルール(図22(a)に示すルール)も変更しなければならないということに気付く。
【0008】
そして、元々存在していた障害対処ルールの変更の必要性に気付いた管理者は、その障害対処ルールを図23に示す1行目の障害対処ルールに変更する。図23に示す“NOT”は、「・・・でないこと」を意味し、「NOT状態C」は、状態Cではないことを意味する。この結果、障害復旧システムは、管理者の意図に従い、状態Aおよび状態Bは真であるが、状態Cが生じていない場合には、対処手順Aを実行し、状態A,B,Cがいずれも真であるときには対処手順Bを実行することになる。このように、管理者は、自身の意図を反映させるために、障害対処ルール追加時に既存の障害対処ルールを確認し、矛盾がなくなるように既存の障害対処ルールに対する変更も行わなければならず、管理者にとっての負担が大きい。また、管理者が、既存の障害対処ルールに対する変更の必要性に気付かなかった場合、複数の障害対処ルールの条件式がともに成立してしまい、自身の意図に反する対処手順が実行されてしまうおそれが生じる。
【0009】
また、追加した障害対処ルールと既存の障害対処ルールとの間に矛盾がなくなるように、管理者が既存の障害対処ルールを変更したとしても(例えば、図23に示すように変更したとしても)、別の問題が生じる。すなわち、対処手順の実行が遅れ、対処に失敗し、障害が波及してしまい復旧が困難になってしまう場合が生じ得るという問題が発生する。新たな障害対処ルールを追加する前(図22(a)参照。)であれば、障害復旧システムは、状態Aおよび状態Bを検出したときに直ちに対処手順Aを実行する。しかし、図23の1番目および2番目に示すような障害対処ルールのもとでは、障害復旧システムは、状態Cが発生しているか否かを判定するまでは、図23に示す対処手順A,Bのいずれも実行しない。そして、状態Cが発生しているか否かの判定が完了するまでの間に、障害が波及してしまうおそれが生じる。このように、新たな障害対処ルールを追加する前であれば、状態Aおよび状態Bの検出時に迅速に対処手順Aを実行していたが、管理者が新たな障害対処ルールを追加して図23に示すように障害対処ルールを変更したことにより、処理手順の実行タイミングが遅れて、対処に失敗してしまうことが生じ得る。このような場合、対処手順に、復旧や障害回避のための対処コマンドと、対処コマンド実行前に実行すべき準備コマンドとが含まれているならば、例えば、図24に示すように、対処手順Aに含まれている対処手順A2(対処コマンド)と対処手順A1(準備コマンド)とを分けて障害対処ルールを作成することが考えられる。すなわち、管理者は、状態Aおよび状態Bが検出されたときに対処手順A1が直ちに実行されるように、図24に示す3番目の障害対処ルールを作成する。また、管理者は、「状態Cが発生していないこと(NOT状態C)」が判定されたときに、対処手順A2が実行されるように、図23に示す1番目のルールを図24に示す1番目のルールのように変更する。
【0010】
この結果、比較的実行時間のかかる準備コマンド(対処手順A1)が、状態Aおよび状態Bの検出時に実行開始される。対処手順A1の実行開始は、図22(a)に示す対処手順Aの実行タイミングと同じであり、実行タイミングの遅れを緩和することができる。ただし、この場合にも、管理者、新たな障害対処ルールを作成したり(図24の3番目参照。)、対処コマンドのみを含むように障害対処ルールを変更したり(図24の1番目参照。)しなければならない。そのため、管理者は、障害対処ルールの追加に伴い、障害対処ルールを新たに作成したり、障害対処ルールを変更したりしなければならず、管理者に負担がかかってしまう。また、管理者は、障害対処ルールの追加に伴い、新しい障害対処ルールを作成することによって、さらに不具合が発生するという悪循環を招くおそれもある。そのため、障害対処ルールの追加時には、管理者は、追加に伴い新たに作成する障害対処ルールの内容や、障害対処ルールの変更内容を十分に検証しなければならず、負担が大きくなってしまう。
【0011】
復旧対象装置が大規模であるために大量の障害対処ルールが存在する場合や、随時追加修正を繰り返したことにより複雑な相関関係を持つ障害対処ルールができてしまった場合等に、以上のような管理者の負担(障害対処ルールの検証、作成、変更等の負担)は、特に大きくなる。
【0012】
また、管理者の負担が大きいだけでなく、障害対処ルールを追加していくことにより、障害復旧システムの処理負荷も大きくなってしまうという問題がある。障害対処ルールを追加して障害対処ルールの数を増加させていくと、各障害対処ルールの条件式に記述される状態の種類も増えていく。すると、障害復旧システムが、復旧対象装置から検出しなければならない状態の種類も増えていく。例えば、図22(a)に示す障害対処ルールに従って、復旧処理コマンドを決定する場合には、障害復旧システムは、状態Cの発生を検出する必要はなかった。しかし、状態Cを条件式に含む障害対処ルールが管理者によって追加されたことにより、障害復旧システムは、復旧対象装置に状態Cが発生しているか否かも検出しなければならなくなり、それだけ障害復旧システムの処理負荷が大きくなる。
【0013】
また、障害復旧システムは、各障害対処ルールの条件式が満たされているか否かを判定して復旧処理コマンドを決定しているので、障害対処ルールが増加すれば、条件式が満たされているか否かの判定処理が増加する。その結果、障害復旧システムの処理負荷が大きくなる。
【0014】
そこで、本発明は、管理者のルール作成負担やルール作成時における既存のルールの検証負担を軽減させることを目的とする。また、障害復旧システムの処理負荷を軽減することを目的とする。
【課題を解決するための手段】
【0015】
本発明による障害復旧システムは、情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドを実行する障害復旧システムであって、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段と、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成手段とを備えたことを特徴とする。
【0016】
そのような構成によれば、同時不成立ルール作成手段が、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、そのユーザ指定ルールの条件式を変更したルールを作成する。従って、管理者は、条件式が同時に満足されるか否かの検証を行わずにユーザ指定ルールを作成することができ、管理者のルール作成負担やルール検証負担が軽減される。
【0017】
ユーザ指定ルール蓄積手段が、復旧処理コマンドの情報として、障害からの復旧または障害回避のための対処コマンドおよび前記対処コマンド実行の準備を行うための準備コマンドの情報を有するユーザ指定ルールを記憶し、ユーザ指定ルールの条件式を変更したルールとして同時不成立ルール作成手段に作成されたルールから準備コマンドの情報を削除するとともに、条件式に共通部分を有する各ユーザ指定ルールにおける前記共通部分を条件式とし、条件式を変更することによって作成されたルールの元となったユーザ指定ルールが有する準備コマンドの情報を有する準備ルールを作成する準備ルール作成手段を備えた構成であってもよい。
【0018】
そのような構成によれば、準備ルール作成手段が、条件式に共通部分を有する各ユーザ指定ルールにおけるその共通部分を条件式とし、条件式を変更することによって作成されたルールの元となったユーザ指定ルールが有する準備コマンドの情報を有する準備ルールを作成するので、管理者にルールの検証負担をかけることなく、共通部分が満たされたときに準備コマンドを実行させることができる。そして、先に準備コマンドを実行させることによって、対処コマンドの実行の遅れを緩和することができる。
【0019】
準備ルール作成手段が、同時不成立ルール作成手段が作成したルールに基づいて選択された対処コマンドの実行に失敗した場合に、ユーザ指定ルールの条件式を変更したルールとして同時不成立ルール作成手段に作成されたルールから準備コマンドの情報を削除するとともに、条件式に共通部分を有する各ユーザ指定ルールにおける前記共通部分を条件式とし、条件式を変更することによって作成されたルールの元となったユーザ指定ルールが有する準備コマンドの情報を有する準備ルールを作成する構成であってもよい。
【0020】
そのような構成によれば、同時不成立ルール作成手段が作成したルールに基づいて選択された対処コマンドの実行に失敗するまでは、準備ルール作成手段は準備コマンドを作成しない。従って、対処コマンドの実行に失敗するまでは、準備コマンドが先に実行されることがなく、準備コマンド同士の競合を防止することができる。
【0021】
準備コマンドおよび対処コマンドの情報を有する準備対処ルールと、準備コマンドの情報を有する準備ルールの条件式が同時に成立することがあり、準備コマンド同士が競合すると定められている場合に、前記準備対処ルールに、前記準備ルールの準備コマンドの実行取消を指示する取消コマンドの情報を付加する取消コマンド情報付加手段を備えた構成であってもよい。
【0022】
そのような構成によれば、取消コマンド情報付加手段が、準備対処ルールに、競合する準備コマンドの実行取消を指示する取消コマンドの情報を付加するので、準備コマンド同士の競合を防止することができる。
【0023】
条件式に共通部分を有する各ユーザ指定ルールにおける前記共通部分を条件式とし、前記各ユーザ指定ルールの条件式のうち前記共通部分以外に示される動作状態が発生しているか否かの検出を指示する検出コマンドの情報を有する検出ルールを作成する検出ルール作成手段を備えた構成であってもよい。
【0024】
一のユーザ指定ルールの条件式全体が、複数のユーザ指定ルールの条件式の共通部分となっている場合に、前記共通部分を条件式とし、前記複数のユーザ指定ルールの条件式のうち前記共通部分以外に示される動作状態が発生しているか否かの検出を指示する検出コマンドの情報と、前記一のユーザ指定ルールが有する準備コマンドの情報とを有する検出ルールを作成するとともに、前記一のユーザ指定ルールから準備コマンドの情報を削除したルールを作成する検出ルール作成手段を備えた構成であってもよい。
【0025】
情報処理システムの動作状態を検出する動作状態検出手段と、前記動作状態検出手段によって検出された動作状態によって条件式が満足されるルールを特定し、前記ルールが有する復旧処理コマンドの情報を出力する対処方法検索手段と、前記対処方法検索手段が復旧処理コマンドの情報として検出コマンドの情報を出力した場合に、前記検出コマンドに応じた動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検出手段に指示する検出要素制御手段とを備えた構成であってもよい。
【0026】
そのような構成によれば、動作状態検出手段は、当初、共通部分に示された動作状態が発生しているか否かだけを検出していればよく、処方法検索手段が復旧処理コマンドの情報として検出コマンドの情報を出力した場合に、その検出コマンドに応じた動作状態が情報処理システムに発生しているか否かの検出を開始すればよい。従って、検出コマンドに応じた動作状態が情報処理システムに発生しているか否かの検出を最初から行う必要がなく、障害復旧システムの処理負荷を軽減することができる。
【0027】
情報処理システムの動作状態を検出する動作状態検出手段と、前記動作状態検出手段によって検出された動作状態によって条件式が満足されるルールを特定し、前記ルールが有する復旧処理コマンドの情報を出力する対処方法検索手段とを備え、前記対処方法検索手段は、検出ルールの条件式が満足されるまでは、前記検出ルールが有する検出コマンドの情報に対応する動作状態を条件式に含むルールを、条件式が満足されているか否かの判定対象から外すように構成されていてもよい。
【0028】
そのような構成によれば、動作状態検出手段は、当初、検出ルールが有する検出コマンドの情報に対応する動作状態を条件式に含むルールを、条件式が満足されているか否かの判定対象から外すので、全てのルールについて条件式が満足されているか否かの判定を行わなくてよい。よって、障害復旧システムの処理負荷を軽減することができる。
【0029】
また、本発明による障害復旧装置は、情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドの情報を出力する障害復旧装置であって、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段と、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成手段とを備えたことを特徴とする。
【0030】
また、本発明による障害復旧装置は、情報処理システムに対し復旧処理コマンドを実行することにより前記情報処理システムに障害からの復旧または障害の回避を行わせる障害復旧装置であって、前記情報処理システムの動作状態を検出する動作状態検出手段と、復旧処理コマンドの情報を受信し、前記情報が示す復旧処理コマンドを実行するコマンド実行手段と、コマンド実行手段が、復旧処理コマンドとして、所定の動作状態が発生しているか否かの検出を指示する検出コマンドを受信した場合に、前記動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検出手段に指示する検出要素制御手段とを備えたことを特徴とする。
【0031】
そのような構成によれば、所定の動作状態が発生しているか否かの検出を指示する検出コマンドを受信するまでは、動作状態検出手段は、その動作状態が発生しているか否かの検出を行わなくてよい。よって、障害復旧装置の処理負荷を軽減することができる。
【0032】
また、本発明によるルール作成方法は、情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドを実行する障害復旧システムに適用されるルール作成方法であって、ユーザ指定ルール蓄積手段が、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶し、同時不成立ルール作成手段が、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成することを特徴とする。
【0033】
また、本発明による障害復旧プログラムは、情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドの情報を出力するコンピュータであって、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段を備えたコンピュータに、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成処理を実行させることを特徴とする。
【0034】
また、本発明による障害復旧プログラムは、情報処理システムに対し復旧処理コマンドを実行することにより前記情報処理システムに障害からの復旧または障害の回避を行わせるコンピュータに、前記情報処理システムの動作状態を検出する動作状態検処理、復旧処理コマンドの情報を受信し、前記情報が示す復旧処理コマンドを実行するコマンド実行処理、および復旧処理コマンドとして、所定の動作状態が発生しているか否かの検出を指示する検出コマンドを受信した場合に、前記動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検処理で開始させる検出要素制御処理を実行させることを特徴とする。
【発明の効果】
【0035】
本発明によれば、管理者のルール作成負担やルール作成時における既存のルールの検証負担を軽減させることができる。また、障害復旧システムの処理負荷を軽減することができる。
【発明を実施するための最良の形態】
【0036】
以下、本発明を実施するための最良の形態を図面を参照して説明する。
【0037】
実施の形態1.
図1は、本発明の第1の実施の形態を示すブロック図である。第1の実施の形態における障害復旧システムは、エージェント装置20と、マネージャ装置30とを備える。エージェント装置20は、復旧対象装置(図1に示すサービス実行手段10)の動作状態を検出するとともに、マネージャ装置30が決定した復旧処理コマンドを復旧対象装置に対して実行する。マネージャ装置30は、エージェント装置20が検出した復旧対象装置の動作状態に基づいて復旧処理コマンドを決定する。マネージャ装置30とエージェント装置20は、通信ネットワーク(図示せず。)によって接続される。図1では、マネージャ装置30とエージェント装置20を1台ずつ図示しているが、マネージャ装置30に対して複数台のエージェント装置20が接続されていてもよい。
【0038】
エージェント装置20は、動作状態検出手段1と、コマンド実行手段5とを備える。また、エージェント装置20は、サービス実行手段10に接続される。
【0039】
サービス実行手段10は、Webサービスや業務サービスといった情報通信サービスを提供する情報処理システムである。サービス実行手段10は、1台の情報処理装置からなる構成であってもよいし、複数台の情報処理装置が接続されたネットワークシステムであってもよい。また、図1では、エージェント装置20がサービス実行手段10を含んでいるように図示しているが、エージェント装置20とサービス実行手段10とが通信ネットワークを介して接続される構成であってもよい。
【0040】
動作状態検出手段1は、サービス実行手段10の動作状態を検出し、対処方法検索手段3に出力(送信)する。検出する動作状態には、サービス実行手段10の起動/停止状態、アプリケーションプログラムの起動/停止状態、アプリケーションプログラムのエラー状態、CPU状態、メモリ状態、ディスク状態など各種の状態がある。サービス実行手段10の動作状態を検出する方法としては、サービス実行手段10にSNMP(Simple Network Management Protocol )エージェントを常駐させ、動作状態検出手段1が定期的にSNMPリクエストをSNMPエージェントへ送信することによって検出する方法や、サービス実行手段10にSNMPトラップの設定を行い、SNMPトラップイベントが発生したときにそのイベント(動作状態)を受信する方法など、任意の方法を使用することができる。
【0041】
コマンド実行手段5は、マネージャ装置30(具体的には、後述する対話制御手段4)から復旧処理コマンドの情報を受信し、サービス実行手段10上でその復旧処理コマンドを実行する。
【0042】
マネージャ装置30は、ルール蓄積手段2と、対処方法検索手段3と、対話制御手段4と、ユーザ指定ルール蓄積手段6と、共通条件制御手段7とを備える。
【0043】
ルール蓄積手段2は、障害対処ルールを蓄積する記憶装置である。既に説明したように、障害対処ルールは、障害が発生したと判定するための条件式と、その条件式を満足する状態を検出したときにサービス実行手段10に対して実行する復旧処理コマンドの情報とを含む。条件式としては、障害が発生したとみなされるサービス実行手段10の状態または障害発生の前兆とみなされるサービス実行手段10の状態が記述される。条件式として記述される状態の具体例として、例えば、サービス実行手段10として使用される情報処理装置の処理負荷、メモリ使用量、エラー発生状況等が挙げられる。以下の説明では、説明を簡単にするために、条件式に記述される状態を、「状態A」、「状態B」等のように記号で示して説明する。復旧処理コマンドは、条件式が満たされる状態となったときに、障害からの復旧または障害の回避のために使われるコマンドである。
【0044】
本発明においても、既に説明した場合と同様に、条件式を複数の状態のAND(論理積)によって表してもよい。図22等に示す場合と同様に、ここでは、論理積を“&”記号によって表すこととする。すなわち、「状態A&状態B」という条件式は、「状態Aおよび状態Bが共に真である(状態Aおよび状態Bがともに検出されている)」ことを意味し、その条件式が満たされたときに、その条件式に対応する復旧処理コマンドを実行することを意味する。なお、複数の状態の論理和を用いて条件式を記述することも可能である。しかし、そのような条件式を含む障害対処ルールは、実質的に複数の障害対処ルールを含んでいるので、論理和を用いない複数の障害対処ルールに分けることができる。例えば、「状態Aまたは状態Bが発生しているならば対処手順Aを実行する。」という障害対処ルールは、「状態Aが発生しているならば対処手順Aを実行する。」、「状態Bが発生しているならば対処手順Aを実行する。」という論理和を用いない2つの障害対処ルールに分けられる。本発明では、ルール蓄積手段2は、論理和を用いずに条件式が記述された障害対処ルールを記憶しているものとする。また、本実施の形態では、ある状態が発生していないこと(ある状態の否定)を、図23等に示す場合と同様に“NOT”で示すことにする。
【0045】
対処方法検索手段3は、動作状態検出手段1によって検出されたサービス実行手段10の動作状態の情報を動作状態検出手段1から受信する。そして、対処方法検索手段3は、条件式がその動作状態に合致している障害対処ルールをルール蓄積手段2から検索し、その障害対処ルール中の復旧処理コマンドの情報を対話制御手段4に出力する。
【0046】
対話制御手段4は、例えば、ディスプレイ装置や入力デバイス(例えば、キーボード等)を備え、対処方法検索手段3の出力情報が示す復旧処理コマンドを実行するか否かを、ユーザ(例えば、サービス実行手段10および障害復旧システムの管理者)との対話により決定する。すなわち、対話制御手段4は、その復旧処理コマンドを実行するか否かの決定を促すGUIをディスプレイ装置(図示せず。)に表示し、実行する旨の指示が入力された場合、復旧処理コマンドを実行することを決定し、その復旧処理コマンドを示す情報をコマンド実行手段5に出力(送信)する。
【0047】
また、対話制御手段4は、ユーザが作成したルールを入力し、ユーザ指定ルール蓄積手段6に記憶させる。ユーザが作成するルールも、障害対処ルールと同様の形式で記述され、条件式および復旧処理コマンドの情報を対応付けた形式になっている。ユーザが作成したルールは、ユーザ指定ルール蓄積手段6に記憶され、そのルールに基づいて、ルール蓄積手段2に記憶される障害対策ルールが生成される。従って、ルール蓄積手段2が記憶する障害対処ルールは、ユーザが作成したルールそのものではない。そこで、ユーザが作成したルールを、ユーザ指定ルールと記し、ルール蓄積手段2が記憶する障害対処ルールと区別する。対話制御手段4は、ユーザの操作に応じて、ユーザ指定ルール蓄積手段6に新たなユーザ指定ルールを追加記憶させたり、既にユーザ指定ルール蓄積手段6が記憶しているユーザ指定ルールを編集したりする。また、対話制御手段4は、ユーザの操作に応じて、ユーザ指定ルール蓄積手段6が記憶しているユーザ指定ルールの削除も行う。
【0048】
ユーザ指定ルール蓄積手段6は、ユーザ指定ルールを記憶する。ユーザ指定ルールは、ユーザが作成したルールそのものである。従って、図22(b)で説明したような、実際にはユーザの意図に反する復旧処理コマンドの情報を導出してしまうようなルールになっている可能性が高い。
【0049】
共通条件制御手段7は、ユーザ指定ルール蓄積手段6に新たなユーザ指定ルールが記憶された場合(新たにユーザ指定ルールが追加された場合や、ユーザ指定ルールの編集が行われた場合)、ルール蓄積手段2が記憶している障害対処ルール全体を消去する。そして、共通条件制御手段7は、ユーザ指定ルール蓄積手段6に記憶されているユーザ指定ルールに基づいて、矛盾のない障害対処ルールの集合を作成し、その障害対処ルールの集合をルール蓄積手段2に記憶させる。ユーザ指定ルールに基づいて障害対処ルールを作成する処理については後述する。なお、ここで「矛盾のない」とは、複数の障害対処ルールの条件式が同時に成立してしまうことがないことを意味する。
【0050】
動作状態検出手段1およびコマンド実行手段5は、例えば、コンピュータと障害復旧プログラムによって実現することができる。この障害復旧プログラムは、コンピュータ(エージェント装置20)の立ち上げ時等にコンピュータに読み取られ、コンピュータが障害復旧プログラムに従って動作することにより、コンピュータが動作状態検出手段1およびコマンド実行手段5として機能する。障害復旧プログラムは、エージェント装置20が備える磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に予め記録される。
【0051】
対処方法検索手段3、対話制御手段4、および共通条件制御手段7も、例えば、コンピュータと障害復旧プログラムによって実現することができる。この障害復旧プログラムは、コンピュータ(マネージャ装置30)の立ち上げ時等にコンピュータに読み取られ、コンピュータが障害復旧プログラムに従って動作することにより、コンピュータが対処方法検索手段3、対話制御手段4、および共通条件制御手段7として機能する。障害復旧プログラムは、マネージャ装置30が備える磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に予め記録される。また、ルール蓄積手段2およびユーザ指定ルール蓄積手段6は、例えば、マネージャ装置30が備える記憶装置によって実現される。
【0052】
また、動作状態検出手段1、コマンド実行手段5、対処方法検索手段3、対話制御手段4、および共通条件制御手段7をそれぞれハードウェア装置として実現してもよい。
【0053】
次に、動作について説明する。
図2は、ユーザ指定ルールが修正されたときにおけるマネージャ装置30(主に共通条件制御手段7)による処理経過の例を示すフローチャートである。また、図3は、ユーザ指定ルールに基づく矛盾解消の具体例を示す説明図である。本例では、ユーザ指定ルール蓄積手段6には、初期状態として、図3に示すユーザ指定ルール501が記憶されているものとする。
【0054】
まず、対話制御手段4は、ユーザの操作に応じて、ユーザ指定ルール蓄積手段6内のユーザ指定ルールに対して追加や変更等を行う(ステップS211)。ここでは、対話制御手段4は、ユーザの操作に応じて、図3に示すユーザ指定ルール502をユーザ指定ルール蓄積手段6に追加記憶させる。この結果、ユーザ指定ルール蓄積手段6は、ユーザ指定ルール501,502を記憶する。
【0055】
ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールが変更されると、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールの有無を判定する(ステップS212)。ステップS212において、条件式に共通部分を有するユーザ指定ルールがないと判定した場合(ステップS212におけるNo)、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶しているユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させる(ステップS214)。このとき、共通条件制御手段7は、ステップS212においてNoと判定した後、ルール蓄積手段2の記憶内容(障害対処ルール)を全て削除してからステップS214の処理を実行する。
【0056】
一方、ステップS212において、条件式に共通部分を有するユーザ指定ルールがあると判定した場合(ステップS212におけるYes)、共通条件制御手段7は、そのユーザ指定ルールを収集して、そのユーザ指定ルール間に矛盾がなくなるように、収集したユーザ指定ルールの条件式を変更する(ステップS213)。そして、共通条件制御手段7は、条件式を変更したユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させる(ステップS214)。なお、このとき、条件式に他のユーザ指定ルールとの共通部分がないユーザ指定ルールが存在していた場合、共通条件制御手段7は、そのユーザ指定ルールについては、そのまま障害対処ルールとしてルール蓄積手段2に記憶させる。
【0057】
図4は、ステップS213の処理(ユーザ指定ルール間に矛盾がなくなるように、ユーザ指定ルールの条件式を変更することによって障害対処ルールを作成する処理)の処理経過の一例を示すフローチャートである。共通条件制御手段7は、まず、ルール蓄積手段2に記憶された障害対処ルールを全て削除する(ステップS301)。次に、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールを収集する(ステップS302)。
【0058】
共通条件制御手段7は、ステップS302で収集したユーザ指定ルールから、条件式の変更検証対象ルールを1つずつ選択する。以下、条件式の変更検証対象となるルールを第1ルールと記す。また、共通条件制御手段7は、第1ルールの条件式を変更するか否かを、他のユーザ指定ルールの条件式と比較しながら決定していく。この他のユーザ指定ルールを第2ルールと記す。第2ルールも1つずつ順次選択される。
【0059】
共通条件制御手段7は、ステップS302の後、収集したユーザ指定ルールのうち、第1ルール(条件式の変更検証対象となるルール)として選択されていないユーザ指定ルールがあるか否かを判定する(ステップS303)。第1ルールとして選択されていないユーザ指定ルールがなければ(ステップS303におけるNo)、ステップS213(図2参照。)の処理を終了する。収集したユーザ指定ルール中に未だ第1ルールとして選択されていないユーザ指定ルールがあれば、そのユーザ指定ルールの中から1つを選択して第1ルールとする(ステップS304)。ステップS302で収集されたユーザ指定ルールのうち、ステップS304で選択された第1ルール以外の全ユーザ指定ルールが順次第2ルールとして選択される。
【0060】
共通条件制御手段7は、ステップS304の後、ステップS302で収集されたユーザ指定ルールであって、ステップS304で選択された第1ルール以外のユーザ指定ルールの中に、第2ルールとして選択されていないユーザ指定ルールがあるか否かを判定する(ステップS305)。第2ルールとして選択されていないユーザ指定ルールがなければ(ステップS305におけるNo)、ステップS303に移行し、ステップS303以降の処理を繰り返す。第2ルールとして選択されていないユーザ指定ルールがあれば(ステップS305におけるYes)、そのユーザ指定ルールの中から1つを選択して第2ルールとする(ステップS306)。
【0061】
共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得るか否かを判定する(ステップS307)。ステップS307では、任意の状態Pについて、第1ルールと第2ルールのいずれかの条件式に「状態Pになっていること」が条件として記述され、他方の条件式に「状態Pになっていないこと」が条件として記述されているならば、第1ルールと第2ルールとが同時に成立し得ないと判定すればよい。また、そうでなければ、第1ルールと第2ルールとが同時に成立し得ると判定すればよい。例えば、一方の条件式に「・・・&状態P&・・・」と記述され、他方の条件式に「・・・&(NOT状態P)&・・・」と記述されていれば、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得ないと判定する。第1ルールと第2ルールとが同時に成立し得ないと判定した場合(ステップS307におけるNo)、ステップS305に移行し、ステップS305以降の処理を繰り返す。
【0062】
また、第1ルールと第2ルールとが同時に成立し得ると判定した場合(ステップS307におけるYes)、共通条件制御手段7は、第2ルールの条件式内の共通部分以外の条件を抽出し、その否定を第1ルールの条件式に追加する(ステップS308)。このとき、共通条件制御手段7は、第1ルールの条件式に記述されていた条件式と、第2ルールから抽出した条件の否定とを“&”で結べばよい。すなわち、第1ルールの条件式に記述されていた条件式と、第2ルールから抽出した条件の否定との論理積を、第1ルールの新たな条件式とすればよい。
【0063】
共通条件制御手段7が、第2ルールの条件式内の共通部分以外の条件を抽出し、その否定を第1ルールの条件式に追加する(ステップS308)ことによって、第1ルールと第2ルールとは同時に成立し得ない(第1ルールの条件式と第2ルールの条件式とが同時に満たされ得ない)ことになる。このように複数のルールが同時に成立しないことを、各ルールが「一意に識別される」と表現することがある。
【0064】
共通部分を有するユーザ指定ルールのグループが複数存在した場合、それらの各グループについて、図4に示すステップS301以降の処理を行えばよい。そして、各グループについて、ステップS301以降の処理が終了した後、ステップS214に移行すればよい。
【0065】
なお、図2および図4の処理を行ったとしても、共通条件制御手段7は、ユーザ指定ルール蓄積手段6に記憶されているユーザ指定ルール自体については書き換えない。共通条件制御手段7は、ステップS302で収集したユーザ指定ルールをバッファ等(図示せず。)に記憶させ、そのバッファ等において条件式の変更などを行う。従って、ステップS211以降、ユーザ指定ルール蓄積手段6に記憶されているユーザ指定ルールの内容は変わらない。ただし、ユーザの操作に応じて、再度ステップS211の処理が行われれば、当然に、ユーザ指定ルール蓄積手段6に記憶されているユーザ指定ルールの内容は変更される。
【0066】
図3に示すユーザ指定ルールを用いて、以上の処理を説明する。ユーザ指定ルール502が追加された(ステップS211)後、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールの有無を判定する(ステップS212)。図3に示すユーザ指定ルール501,502を参照すると、条件式において“状態A & 状態B”の部分が共通する(ステップS212におけるYes)。
【0067】
その結果、共通条件制御手段7は、ステップS213の処理を開始する。具体的には、まず、ルール蓄積手段2の記憶内容を削除する(ステップS301)。そして、共通条件制御手段7は、ユーザ指定ルール蓄積手段6から、条件式に共通部分(本例では、“状態A & 状態B”)を有するユーザ指定ルール501,502を収集する。この時点で、ユーザ指定ルール501,502は、いずれも第1ルールとして選択されていない。よって、ステップS303の判定後、ステップS304に移行する。ステップS304では、共通条件制御手段7は、第1ルールとして未だ選択されていないユーザ指定ルール501,502の中から1つを選択する(ここでは、ユーザ指定ルール501を選択するものとする。)。この時点で、ユーザ指定ルール502は第2ルールとして選択されていない。よって、ステップS305の判定後、ステップS306に移行する。ステップS306では、共通条件制御手段7は、ユーザ指定ルール502を第2ルールとして選択する。
【0068】
次に、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得るか否かを判定する(ステップS307)。第1ルール(ここでは、ユーザ指定ルール501)および第2ルール(ここでは、ユーザ指定ルール502)との間には、いずれかの条件式に「状態Pになっていること」が条件として記述され、他方の条件式に「状態Pになっていないこと」が条件として記述されているという関係は成立していない(状態Pは、任意の障害発生状態)。そのため、第1ルールと第2ルールとが同時に成立し得ると判定し、ステップS308に移行する。ステップS308では、共通条件制御手段7は、第2ルールの条件式内の共通部分以外の条件を抽出する。共通部分は“状態A & 状態B”であるので、それ以外の条件である“状態C”を第2ルールから抽出する。そして、共通条件制御手段7は、その否定である“(NOT状態C)”と、第1ルールの条件式に記述されていた条件式“状態A & 状態B”とを“&”で結び、第1ルールの条件式を“状態A & 状態B & (NOT状態C)”とする。この変更後のユーザ指定ルールを、図3では、ユーザ指定ルール501aとして示している。これまでユーザ指定ルールとして501と記していたユーザ指定ルールを、以降、ユーザ指定ルール501aと記す。
【0069】
続いて、ステップS305に移行したときには、第2ルールとして選択されていないユーザ指定ルールは存在していない(なお、第1ルールとして選択されているユーザ指定ルールは、第2ルールとして選択されない。)。よって、ステップS303に移行する。このとき、図3に示すユーザ指定ルール502は、未だ第1ルールとして選択されていない。よって、ステップS303からステップS304に移行し、共通条件制御手段7は、ユーザ指定ルール502を第1ルールとして選択する。この時点で、ユーザ指定ルール501aは第2ルールとして選択されていない。よって、ステップS305の判定後、ステップS306に移行する。ステップS306では、共通条件制御手段7は、ユーザ指定ルール501a(図3参照。)を第2ルールとして選択する。
【0070】
次に、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得るか否かを判定する(ステップS307)。第1ルール(ここでは、ユーザ指定ルール502)および第2ルール(ここでは、ユーザ指定ルール501a)を参照すると、一方の条件式には、“状態C”が記述され、他方の条件式には“(NOT状態C)”が記述されている。よって、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得ないと判定し(ステップS307におけるNo)、ステップS305に移行する。
【0071】
続いて、ステップS305に移行したときには、第2ルールとして選択されていないユーザ指定ルールは存在していない。よって、ステップS303に移行する。この時点で、第1ルールとして選択されていないユーザ指定ルールは存在しないので(ステップS303におけるNo)、処理(図2に示すステップS213の処理)を終了する。この結果、本例では、ユーザ指定ルール502は変更されない。ステップS213に続く、ステップS214(図2参照。)では、共通条件制御手段7は、図3に示すユーザ指定ルール501a,502を、障害対処ルールとしてルール蓄積手段2に記憶させる。
【0072】
ユーザが作成したユーザ指定ルール501,502は、矛盾する状態(条件式が同時に成立してしまうことがある状態)であったが、図2および図4に示す処理を実行することにより、ユーザ指定ルール501,502という集合は、ユーザ指定ルール501a,502(図3参照。)という集合に修正され、ユーザ指定ルール501a,502が障害対処ルールとしてルール蓄積手段2に記憶される。よって、ユーザが、自身の作成したユーザ指定ルールに対する検証を行わなくても、矛盾のない障害対処ルールを作成することができ、ユーザの負担を軽減することができる。
【0073】
図3では、条件式に共通部分を有するユーザ指定ルールが2つある場合を示したが、そのようなユーザルールが3つ以上ある場合でも、図2および図4に示す処理により、矛盾のない障害対処ルールを作成することができる。図5は、条件式に共通部分を有するユーザ指定ルールが3つある場合における矛盾解消の具体例を示す説明図である。ステップS301までの処理は、既に説明した場合と同様である。ステップS302では、共通条件制御手段7は、図5に示すユーザ指定ルール501〜503を収集する。
【0074】
続く処理(ステップS304)で、ユーザ指定ルール501を第1ルールとして選択したとする。また、ステップS306で、ユーザ指定ルール502を第2ルールとして選択したとする。ステップS307では、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得るか否かを判定する。このとき、第1ルール(ここでは、ユーザ指定ルール501)および第2ルール(ここでは、ユーザ指定ルール502)との間には、いずれかの条件式に「状態Pになっていること」が条件として記述され、他方の条件式に「状態Pになっていないこと」が条件として記述されているという関係は成立していない。よって、第1ルールと第2ルールとが同時に成立し得ると判定し、ステップS308に移行する。ステップS308では、共通条件制御手段7は、第2ルールの条件式内の共通部分以外の条件を抽出する。共通部分は“状態A & 状態B”であるので、それ以外の条件である“状態C”を第2ルールから抽出する。そして、共通条件制御手段7は、その否定である“(NOT状態C)”と、第1ルールの条件式に記述されていた条件式“状態A & 状態B”とを“&”で結び、第1ルールの条件式を“状態A & 状態B & (NOT状態C)”とする。その後のステップS306で、ユーザ指定ルール503を第2ルールとして選択したとする。この場合も、ステップS307において、共通条件制御手段7は、第1ルールの条件式“状態A & 状態B & (NOT状態C)”と、第2ルールの条件式“状態A & 状態B & 状態D”とを参照し、第1ルールと第2ルールとが同時に成立し得ると判定する。そして、ステップS308では、共通条件制御手段7は、第2ルールの条件式内の共通部分以外の条件を抽出する。共通部分は“状態A & 状態B”であるので、それ以外の条件である“状態D”を第2ルールから抽出する。そして、共通条件制御手段7は、その否定である“(NOT状態D)”と、第1ルールの条件式に記述されていた条件式“状態A & 状態B & (NOT状態C)”とを“&”で結び、第1ルールの条件式を“状態A & 状態B & (NOT状態C) & (NOT状態D)”とする。この変更後のユーザ指定ルールを、図5では、ユーザ指定ルール501bとして示している。これまでユーザ指定ルールとして501と記していたユーザ指定ルールを、以降、ユーザ指定ルール501bと記す。
【0075】
次に、ユーザ指定ルール502を第1ルールとして選択したとする。また、ステップS306で、ユーザ指定ルール501bを第2ルールとして選択したとする。すると、第1ルールの条件式の中には“状態C”が記述され、第2ルールの条件式には“(NOT状態C)”が記述されている。よって、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得ないと判定し、ステップS305に移行する。次に、共通条件制御手段7は、ユーザ指定ルール503を第2ルールとして選択する。このとき、第1ルール(ここでは、ユーザ指定ルール502)および第2ルール(ここでは、ユーザ指定ルール503)との間には、いずれかの条件式に「状態Pになっていること」が条件として記述され、他方の条件式に「状態Pになっていないこと」が条件として記述されているという関係は成立していない(状態Pは、任意の障害発生状態)。よって、第1ルールと第2ルールとが同時に成立し得ると判定し、ステップS308に移行する。ステップS308では、共通条件制御手段7は、第2ルールの条件式内の共通部分以外の条件を抽出する。共通部分は“状態A & 状態B”であるので、それ以外の条件である“状態D”を第2ルールから抽出する。そして、共通条件制御手段7は、その否定である“(NOT状態D)”と、第1ルールの条件式に記述されていた条件式“状態A & 状態B & 状態C”とを“&”で結び、第1ルールの条件式を“状態A & 状態B & 状態C & (NOT状態D)”とする。この変更後のユーザ指定ルールを、図5では、ユーザ指定ルール502bとして示している。これまでユーザ指定ルールとして502と記していたユーザ指定ルールを、以降、ユーザ指定ルール502bと記す。
【0076】
次に、ユーザ指定ルール503を第1ルールとして選択したとする。また、ステップS306で、ユーザ指定ルール501bを第2ルールとして選択したとする。すると、第1ルールの条件式の中には“状態D”が記述され、第2ルールの条件式には“(NOT状態D)”が記述されている。よって、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得ないと判定し、ステップS305に移行する。次に、共通条件制御手段7は、ユーザ指定ルール502bを第2ルールとして選択したとする。この場合も、第1ルールの条件式の中には“状態D”が記述され、第2ルールの条件式には“(NOT状態D)”が記述されている。よって、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得ないと判定し、ステップS305に移行する。従って、ユーザ指定ルール503の条件式は変更されない。共通条件制御手段7は、収集した3つのユーザ指定ルールをそれぞれ第1ルールとして選択したので、次にステップS303に移行したときにはNoと判定し、ステップS213(図2参照。)の処理を終了する。そして、ステップ214において、図5に示すユーザ指定ルール501b,502b,503を障害対処ルールとしてルール蓄積手段2に記憶させる。
【0077】
障害復旧システムは、サービス実行手段10の状態を検出し、その状態と、以上のようにルール蓄積手段2に記憶された障害対処ルールとに基づいて復旧処理コマンドを決定し、サービス実行手段10に対し、その復旧処理コマンドを実行する。図6は、サービス実行手段10の状態検出から、復旧処理コマンド実行までの処理経過を示すフローチャートである。
【0078】
動作状態検出手段1は、サービス実行手段10の動作状態を検出し、通信ネットワークを介して対処方法検索手段3に動作状態の情報を送信する(ステップS201)。対処方法検索手段3は、動作状態検出手段1から現在の動作状態の情報を受信し、ルール蓄積手段2に蓄積されている各障害対処ルールの中に、条件式が満たされている障害対処ルールがあるか否かを判定する(ステップS202)。サービス実行手段10の動作状態によっていずれの障害対処ルールの条件式も満たされていない場合(ステップS202におけるNo)、障害が発生していないものとしてステップS201に移行し、ステップS201移行の処理を繰り返す。
【0079】
サービス実行手段10の動作状態によって条件式が満たされる障害対処ルールが存在する場合には(ステップS202におけるYes)、対処方法検索手段3は、障害発生とみなして、その障害対処ルールに含まれる復旧処理コマンドの情報を抽出し、その情報を対話制御手段4に出力する。対話制御手段4は、GUIによって、その復旧処理コマンドの情報を出力し、その復旧処理コマンドを実行するか否かの決定をユーザ(管理者)に促す(ステップS203)。復旧処理コマンドを実行しない旨が管理者によって入力された場合、ステップS201に移行し、ステップS201以降の処理を繰り返す。なお、ユーザに適切な判断を行わせるために、GUIと併せて、サービス実行手段10の動作状態や、その動作状態によって満たされた条件式の情報等を表示出力してもよい。また、特定の復旧処理コマンドについては、管理者に問い合わせることなく自動的に実行してよいという設定を対話制御手段4に対して施しておいてもよい。この場合、対話制御手段4は、その特定の復旧処理コマンドの情報が入力されると、その復旧処理コマンドを実行するか否かの決定を促すGUIを表示することなく、その特定の復旧処理コマンドの情報をコマンド実行手段5に送信する。
【0080】
復旧処理コマンドを実行する旨が管理者によって入力された場合(ステップS203におけるYes)、対話制御手段4は、その復旧処理コマンドの情報をコマンド実行手段5に送信し、コマンド実行手段5はサービス実行手段10上でその復旧処理コマンドを実行する(ステップS204)。
【0081】
例えば、図3に示すルール501a,502が障害対処ルールとしてルール蓄積手段2に記憶されているとする。この場合、動作状態検出手段1によって、状態A,B,Cのいずれもが発生している場合、障害対処ルール502の条件式が満たされる。従って、対処方法検索手段3は、障害対処ルール502における復旧処理コマンドの情報である「対処手順B」を対話制御手段4に出力する。対話制御手段4は、GUIによって「対処手順B」の実行可否の決定を管理者に促し、実行する旨の指示が入力されると、「対処手順B」という情報をコマンド実行手段5に送信する。そして、コマンド実行手段5は、対処手順Bを実行する。その結果、状態A,B,Cがいずれも発生してしまっているという障害が復旧または回避されることになる。
【0082】
本実施の形態によれば、ユーザ指定ルールの修正(追加や変更等)の結果、条件式に共通部分を有するユーザ指定ルールが存在した場合、共通条件制御手段7が、ステップS301以降の処理を行い、矛盾がなくなるようにユーザ指定ルールの条件式を修正する。そして、共通条件制御手段7が、修正後のユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させる。従って、ユーザ(管理者)にとって、自らが作成したユーザ指定ルールに対する無矛盾性検証、ユーザ指定ルールの変更等の負担が大幅に軽減される。
【0083】
また、管理者は自らが意図したユーザ指定ルールを作成すれば、そのユーザ指定ルールに基づく矛盾のない障害対処ルールが作成される。そして、障害復旧システムが図6に示す処理を実行する際には、障害対処ルールが作成されていればよく、管理者が障害対処ルールの全てを理解している必要はない。よって、管理者の負担が軽減される。障害対処ルールは、ステップS308で条件が新たに追加されている場合があるので、必ずしも管理者にとって理解しやすい記述とはなっていない。例えば、図5に示す例では、条件式に“(NOT状態C) & (NOT状態D)”が追加されているが、この追加条件は、管理者自身が記述したものではない。このような条件追加が多く行われた障害対処ルールを管理者が参照しても、本来何を目的としたルールであったのかを理解することが困難となる。しかし、上記のように、管理者はそのような障害対処ルールを理解する必要がないので、負担が軽減される。
【0084】
また、共通条件制御手段7は、ステップS302で収集したユーザ指定ルールをバッファ等(図示せず。)に記憶させ、そのバッファ等においてユーザ指定ルールを行う。よって、ユーザ指定ルール蓄積手段6には、管理者によって入力されたユーザ指定ルールが変更されることなく記憶されている。対話制御手段4は、ユーザ指定ルール蓄積手段6に記憶されたユーザ指定ルールを管理者に提示する。この結果、管理者に、管理者自身が入力した理解容易なユーザ指定ルールを提示することになる。従って、管理者は、そのような理解容易なユーザ指定ルールを参照して、新たなユーザ指定ルールの追加やユーザ指定ルールの変更を効率よく行える。
【0085】
また、本発明では、条件式が満たされた障害対処ルールが存在した場合、対処方法検索手段3が、その条件式に対応する復旧処理コマンドの情報を出力し、その情報は対話制御手段4を介して、コマンド実行手段5に送信される。コマンド実行手段5は、受信した情報が示す復旧処理コマンドをサービス実行手段10に対して実行する。従って、サービス実行手段10における障害復旧や障害回避を迅速に行うことができる。
【0086】
実施の形態2.
本発明の第2の実施の形態における障害復旧システムの構成は、図1に例示する構成と同様であり、図1を用いて第2の実施の形態について説明する。ただし、第2の実施の形態では、共通条件制御手段7は、第1の実施の形態における動作に加え、さらに他の動作も行う。
【0087】
サービス実行手段10の状態検出から、復旧処理コマンド実行までの処理経過は、第1の実施の形態(図6参照。)と同様である。
【0088】
また、第2の実施の形態では、ユーザ指定ルールにおける復旧処理コマンドには、対処コマンドおよび準備コマンドが含まれているものとする。すなわち、対話制御手段4が、ユーザ(管理者)の操作に応じてユーザ指定ルールを入力する場合、その個々のユーザ指定ルールには、復旧処理コマンドの情報として対処コマンドおよび準備コマンドの情報がそれぞれ含まれているものとする。対処コマンドは、サービス実行手段10を障害から復旧させたり、障害発生を回避させたりするためのコマンドである。準備コマンドは、対処コマンド実行の準備を行うためのコマンドである。
【0089】
準備コマンドによる事前準備の例として、データのバックアップ、コマンドのダウンロード、切替用情報処理装置に対する準備等が挙げられる。切替用情報処理装置に対する準備の例として、例えば、サービス実行手段10が、障害発生時に用いられる切替用情報処理装置を含む複数の情報処理装置によって構成されるシステムである場合おける、切替用情報処理装置に対するソフトウェアインストール等が挙げられる。対処コマンドによる対処の例としては、サービス実行手段10の設定変更や、切替用情報処理装置への切り替え等が挙げられる。切替用情報処理装置への切り替えとは、障害が発生した情報処理装置ではなく切替用情報処理装置にデータが流れるようにサービス実行手段10内のデータ転送経路を切り替えることである。
【0090】
準備コマンドの特徴として、実行時間が比較的長いことが挙げられる。また、サービス実行手段10に対して準備コマンドを実行したとしても、サービス実行手段10を準備コマンド実行前の状態に戻すことができるという特徴がある。一方、対処コマンドの特徴として、対処コマンド実行後にサービス実行手段10が情報通信サービスを提供した場合、サービス実行手段10を対処コマンド実行前の状態に戻すことができないということが挙げられる。例えば、対処コマンドを実行したことにより、サービス実行手段10の設定が変更され、その後、サービス実行手段10が情報通信サービスを提供したとする。すると、情報通信サービスを提供に伴い、変更後の設定に基づいた新たなデータが生成されることになる。このとき、サービス実行手段10の設定自体は元の設定に戻すことができるが、その状態では、新たに生成されたデータに対する処理を行うことができない。このように設定を戻したとしても、設定変更後に生成されたデータが既に発生した状態になっているため、サービス実行手段10を対処コマンド実行前の状態に戻すことができない。よって、対処コマンドは、サービス実行手段10に対して不可逆な変更を加えるコマンドであると言える。
【0091】
ユーザ自身が作成したユーザ指定ルールにおける復旧処理コマンドの情報には、対処コマンドおよび準備コマンドの両方の情報が含まれているが、ルール蓄積手段2が記憶する復旧処理コマンドでは、対処コマンドと準備コマンドのうちのいずれか一方のみの情報が含まれていてもよい。また、復旧処理コマンドでは、対処コマンドと準備コマンドの両方の情報が含まれていてもよい。
【0092】
共通条件制御手段7は、第1の実施の形態と同様に、ユーザ指定ルールの矛盾を解消して、ユーザ指定ルールが一意に識別されるようにする処理(図4に示すステップS301〜S308の処理)を実行する。本実施の形態では、共通条件制御手段7は、さらに以下の処理を行う。すなわち、一意に識別できるように条件式が変更されたユーザ指定ルールと、変更前のユーザ指定ルールとを比較し、変更されているユーザ指定ルールを特定する。そして、共通条件制御手段7は、その変更されたユーザ指定ルールの変更前の条件式を条件式とし、変更前の復旧処理コマンドに含まれる準備コマンドのみを復旧処理コマンドとする新たな障害対処ルールを作成する。また、共通条件制御手段7は、変更されたユーザ指定ルールにおいて復旧処理コマンドとして含まれている準備コマンドの情報を削除し、対処コマンドが残るように、さらにユーザ指定コマンドを変更する。共通条件制御手段7は、以上の処理を行ったユーザ指定コマンドおよび新たに作成した障害対処ルールを、障害対処ルールとしてルール蓄積手段2に記憶させる。
【0093】
以下、第2の実施の形態の動作について説明する。図7は、ユーザ指定ルールが修正されたときにおけるマネージャ装置30(主に共通条件制御手段7)による処理経過の例を示すフローチャートである。また、図8は、ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。
【0094】
まず、対話制御手段4は、ユーザの操作に応じて、ユーザ指定ルール蓄積手段6内のユーザ指定ルールに対して追加や変更等を行う(ステップS221)。ここでは、元々図8(a)に示すユーザ指定ルール601が記憶されていて、ステップS221において、対話制御手段4がユーザの操作に応じてユーザ指定ルール602を追加したものとする。ステップS221の結果、ユーザ指定ルール蓄積手段6には、ユーザ指定ルール601,602が記憶されている。本実施の形態では、ユーザ指定ルールにおける復旧処理コマンドの情報には、対処コマンドおよび準備コマンドの両方の情報が含まれる。図8(a)に示す例では、ユーザ指定ルール601は、「準備A(準備コマンド)」および「対処A(対処コマンド)」の情報を含んでいる。同様に、ユーザ指定ルール602は、「準備B(準備コマンド)」および「対処B(対処コマンド)」の情報を含んでいる
【0095】
ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールが変更されると、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールの有無を判定する(ステップS222)。この処理は、第1の実施の形態におけるステップS212の処理と同様である。また、ステップS222において、条件式に共通部分を有するユーザ指定ルールがないと判定した場合(ステップS222におけるNo)、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶しているユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させる(ステップS225)。ステップS222においてNoと判定し、ステップS225に移行する際の共通条件制御手段7の動作は、第1の実施の形態で、ステップS212の次にステップS214に移行する動作と同様である。
【0096】
一方、ステップS222において、条件式に共通部分を有するユーザ指定ルールがあると判定した場合(ステップS222におけるYes)、共通条件制御手段7は、そのユーザ指定ルールを収集して、そのユーザ指定ルール間に矛盾がなくなるように、収集したユーザ指定ルールの条件式を変更する(ステップS223)。ステップS223の処理は、第1の実施の形態におけるステップS213の処理と同様である。より詳細には、ステップS223の処理として、第1の実施の形態で示したステップS301〜S308(図4参照。)と同様の処理を実行すればよい。ステップS223の結果、図8(a)に示すユーザ指定ルール601,602から、図8(b)に示すユーザ指定ルール601a,602aが生成される。
【0097】
ステップS223の後、共通条件制御手段7は、復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成や、対処コマンドのみを含むようにユーザ指定ルールを変更する処理を実行する(ステップS224)。そして、共通条件制御手段7は、ステップS224の結果得られた各ルール(ユーザ指定ルールや新たに作成した障害対処ルール)を、障害対処ルールとしてルール蓄積手段2に記憶させる(ステップS225)。なお、このとき、条件式に他のユーザ指定ルールとの共通部分がないユーザ指定ルールが存在していた場合、共通条件制御手段7は、そのユーザ指定ルールについては、そのまま障害対処ルールとしてルール蓄積手段2に記憶させる。
【0098】
図9は、ステップS224の処理(復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成や、対処コマンドのみを含むようにユーザ指定ルールを変更する処理)の処理経過の一例を示す説明図である。ステップS223の処理により、図8(b)に例示するような一意に識別されるユーザ指定ルールを導出した後、共通条件制御手段7は、ステップS223の矛盾解消処理において条件式が変更されたユーザ指定ルールから準備コマンドの情報を削除する(ステップS321)。
【0099】
ステップS321の後、共通条件制御手段7は、ステップS223の処理において条件式が変更されたユーザ指定ルールにおける元の(変更前の)ユーザ指定ルールを抽出する(ステップS322)。ユーザ指定ルール蓄積手段6には、ユーザによって作成されたユーザ指定ルールがそのまま記憶されているので、共通条件制御手段7は、ユーザ指定ルール蓄積手段6から変更前のユーザ指定ルールを読み込めばよい。
【0100】
ステップS322の後、共通条件制御手段7は、ステップS322で抽出したユーザ指定ルール(条件式が変更されたユーザ指定ルールにおける元のユーザ指定ルール)の条件式と同一の条件式を有し、復旧処理コマンドの情報として、ステップS322で抽出したユーザ指定ルールに含まれる準備コマンドの情報を有する障害対処ルールを作成する(ステップS323)。
【0101】
共通部分を有するユーザ指定ルールのグループが複数存在した場合、それらの各グループについて、図9に示すステップS321以降の処理を行えばよい。そして、各グループについて、ステップS321以降の処理が終了した後、ステップS225に移行すればよい。
【0102】
図8を用いて、以上の処理を説明する。共通条件制御手段7は、ユーザ自身が作成したユーザ指定ルール601,602に基づいて、ステップS223の処理(より具体的には図4に示すステップS301〜S308の処理)を実行することにより、ユーザ指定ルール601a,602a(図8(b)参照。)を作成する。この作成過程は、第1の実施の形態において図3を用いて説明した場合と同様である。なお、図8(c)は、図9に示すステップS321〜S323の処理の後における各ルールを示す。
【0103】
ユーザ指定ルール601a,602a作成後、共通条件制御手段7は、ステップS223の処理において条件式が変更されたユーザ指定ルールから準備コマンドの情報を削除する(ステップS321)。図8(b)に示すユーザ指定ルール601aは、図8(a)に示す条件式を変更し、“(NOT状態C)”をいう条件を追加して作成されている。従って、共通条件制御手段7は、ユーザ指定ルール601aから準備コマンドである「準備A」の情報を削除する。この結果を、図8(c)においてユーザ指定ルール601bとして示している。また、図8(b)に示すユーザ指定ルール602aは、元のユーザ指定ルール602と同一であり、変更されていない。従って、共通条件制御手段7は、ユーザ指定ルール602aからは準備コマンドの情報を削除しない。よって、図8(c)にユーザ指定ルール601bとして示しているように、復旧処理コマンドの情報として「準備B」が残される。
【0104】
続く、ステップS322において、共通条件制御手段7は、ステップS223の処理において条件式が変更されたユーザ指定ルールにおける元の(変更前の)ユーザ指定ルールを抽出する。本例では、条件式が変更されたユーザ指定ルール601aの元のユーザ指定ルール601をユーザ指定ルール蓄積手段6から抽出すればよい。ユーザ指定ルール602aに関しては条件式が変更されていないので、その元のユーザ指定ルール602を抽出する必要はない。
【0105】
次のステップS323では、共通条件制御手段7は、抽出したユーザ指定ルール601の条件式と同一の条件式“状態A & 状態B”を有し、復旧処理コマンドの情報として、抽出したユーザ指定ルール601に含まれる準備コマンドの情報(「準備A」)を有する障害対処ルールを作成する。図8(c)では、この障害対処ルールを、障害対処ルール603bとして示している。
【0106】
以上の処理の結果、図8(c)に示すルール601b、602b、603bが生成される。共通条件制御手段7は、これらのルール601b、602b、603bを障害対処ルールとしてルール蓄積手段2に記憶させる(図7に示すステップS225)。
【0107】
図8(b)に示すユーザ指定ルール601a,602aを障害対処ルールとした場合、「対処B」の実行タイミングは、「状態Aかつ状態Bかつ状態C」が検出された時点である。これは、ユーザ自身が作成したユーザ指定ルール602において規定されている「対処B」の実行タイミングと同一である。一方、「対処A」の実行タイミングは、「状態Aおよび状態Bであることが検出され、かつ状態Cでないこと」が検出された時点である。このタイミングは、ユーザ自身が作成したユーザ指定ルール601において規定されている「対処A」の実行タイミングよりも遅れる。状態Cが発生していないことを判定する分だけ条件式の判定時間がかかるためのである。
【0108】
第2の実施の形態によれば、図8(a),(b)に示すユーザ指定ルールを用いてステップS224(より具体的には図9に示すステップS321〜S323)を行い、図8(c)に例示するルール601b,602b,603cを生成する。そして、このルール群を障害対処ルールとする。この場合、「状態Aかつ状態B」が検出された時点で、「準備A」が実行される。その後、状態Cが発生しているか否かが判定された時に、「準備B、対処B」または「対処A」が選択的に実行される。「準備A」の実行タイミングは、ユーザ自身が作成したユーザ指定ルール601において規定されている「準備A、対処A」の実行タイミングと同一である。従って、第2の実施の形態によれば、比較的実行時間のかかる「準備A」の実行タイミングを、ユーザ自身が作成したユーザ指定ルールにおいて規定されている実行タイミングにあわせることができ、対処の実行の遅れを緩和することができる。
【0109】
図8では、ステップS221(図7参照。)後において、条件式に共通部分を有するユーザ指定ルールが2つある場合を示したが、そのようなユーザルールが3つ以上ある場合でも、同様に処理を行う。以下、ステップS221(図7参照。)後において、条件式に共通部分を有するユーザ指定ルールが3つである場合を例に説明する。図10は、ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。図10(a)は、ステップS221後におけるユーザ指定ルールを表し、図10(b)は、ステップS223の矛盾解消処理後のユーザ指定ルールを表す。図10(a)に示すユーザ指定ルール611〜613に基づいて、図10(b)に示すユーザ指定ルール611a〜613aを導出する処理は、図5を用いて説明した場合と同様である。
【0110】
図10(b)に示すユーザ指定ルール611a〜613aの作成後、共通条件制御手段7は、ステップS223で条件式が変更されたユーザ指定ルールから準備コマンドの情報を削除する(ステップS321)。図10(b)に示すユーザ指定ルール611aは、図10(a)に示す条件式を変更し、“(NOT状態C) & (NOT状態D)”という条件を追加して作成されている。従って、共通条件制御手段7は、ユーザ指定ルール611aから「準備A」の情報を削除する。この結果を図10(c)においてユーザ指定ルール611bとして示している。同様に、共通条件制御手段7は、ユーザ指定ルール612aから「準備B」の情報を削除する。この結果を図10(c)においてユーザ指定ルール612bとして示している。また、図10(b)に示すユーザ指定ルール613aは、元のユーザ指定ルール613と同一であり、変更されていない。従って、共通条件制御手段7は、ユーザ指定ルール613aからは準備コマンドの情報を削除しない。よって、図10(c)にユーザ指定ルール613bとして示しているように、復旧処理コマンドの情報として「準備C」が残される。
【0111】
続く、ステップS322において、共通条件制御手段7は、ステップS223の処理で条件式が変更されたユーザ指定ルールにおける元の(変更前の)ユーザ指定ルールを抽出する。本例では、条件式が変更されたユーザ指定ルール611a,612aの元のユーザ指定ルール611,612をユーザ指定ルール蓄積手段6から抽出すればよい。ユーザ指定ルール613aに関しては条件式が変更されていないので、その元のユーザ指定ルール613を抽出する必要はない。
【0112】
次のステップS323では、共通条件制御手段7は、抽出したユーザ指定ルール611の条件式と同一の条件式“状態A & 状態B”を有し、復旧処理コマンドの情報として、抽出したユーザ指定ルール611に含まれる準備コマンドの情報(「準備A」)を有する障害対処ルールを作成する。図10(c)では、この障害対処ルールを、障害対処ルール614bとして示している。同様に、共通条件制御手段7は、抽出したユーザ指定ルール612の条件式と同一の条件式“状態A & 状態B & 状態C”を有し、復旧処理コマンドの情報として、抽出したユーザ指定ルール612に含まれる準備コマンドの情報(「準備B」)を有する障害対処ルールを作成する。図10(c)では、この障害対処ルールを、障害対処ルール615bとして示している。
【0113】
以上の処理の後、共通条件制御手段7は、図10(c)に示す各ルールを障害対処ルールとしてルール蓄積手段2に記憶させる。
【0114】
第2の実施の形態によれば、共通条件制御手段7が、ユーザ指定ルールの矛盾を解消した後、ステップS224(より具体的には図9に示すステップS321〜S323)の処理を行う。従って、ユーザが作成したユーザ指定ルールが規定するタイミングで準備コマンドを実行して対処コマンドの実行の遅れを緩和することができる。
【0115】
次に、第2の実施の形態の変形例について説明する。図8(c)に示すような障害対処ルールを作成した場合、状態A,B,Cを全て検知した場合には、「準備A」を実行し、「準備B、対処B」も実行することになる。この場合、「準備A」と「準備B」の実行が何らかの競合を引き起こし、サービス実行手段10に好ましくない動作を行わせる場合が発生する場合もある。また、図8(b)に例示するユーザ指定ルール(ステップS223後のユーザ指定ルール)を障害対処ルールとして使用した場合であっても、「対処A」の遅れが問題にならない場合もある。そこで、まず、ステップS223の矛盾解消処理の結果得られるユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させてもよい。そして、ステップS223の矛盾解消処理において条件式に変更を加えたルールにおける対処コマンドの実行に失敗したときに、復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成等(図7に示すステップS224に相当する処理)を実行してもよい。
【0116】
図11は、上記の変形例におけるマネージャ装置30(主に共通条件制御手段7)による処理経過の例を示すフローチャートである。図7に示す処理と同様の処理に関しては、図7と同様の符号を付して、詳細な説明を省略する。本変形例では、図11に示すように、矛盾解消処理(ステップS223)の結果得られるユーザ指定ルールを障害対処ルールとして記憶する(ステップS225)。すなわち、ステップS225では、図8(b)や図10(b)に例示するルールを障害対処ルールとしてルール蓄積手段に蓄積する。
【0117】
その後、矛盾解消処理(ステップS223)において条件式が変更されたルールにおける準備コマンドおよび対処コマンドを、対処方法検索手段3が検索し、対話制御手段4がその準備コマンドおよび対処コマンドの情報をコマンド実行手段5に送信して、その準備コマンドおよび対処コマンドが実行されたとする。動作状態検出手段1は、対処コマンド実行後の動作状態を検出して、その動作状態の情報を対処方法検索手段3に送信する。対処方法検索手段3は、その動作状態の情報と、各障害対処ルールの条件式とを照合して、障害が発生している状態か否かを判定する。障害が発生している状態であれば、対処コマンドの実行が遅れ、対処コマンドの実行に失敗したことになる。障害が発生していなければ、対処コマンドの実行タイミングが、ユーザ自身が作成したユーザ指定ルールにおいて規定されているタイミングより遅れても、対処コマンドの実行に成功したことになる。対処方法検索手段3は、このように、対処コマンドの実行に成功したか否かを判定する(ステップS226)。ステップS226で、対処コマンドの実行に成功したと判定した場合には、ステップS221に移行し、ステップS221以降の処理を繰り返せばよい。
【0118】
一方、ステップS226で、対処コマンドの実行に失敗したとする(ステップS226におけるNo)。この場合、共通条件制御手段7は、ステップS227の処理として以下の処理を実行する。共通条件制御手段7は、ルール蓄積手段2に記憶させた障害対処ルールのうち、ステップS223の矛盾解消処理において条件式に変更が加えられていたルールから、準備コマンドの情報を削除する。例えば、ステップS223,S225の処理の結果、図8(b)に示す各ルール601a,602aが障害対処ルールとしてルール蓄積手段2に記憶されていたとする。この例では、ステップS223の矛盾解消処理において条件式に変更が加えられていたルールは、ルール601aである。従って、共通条件制御手段7は、障害対処ルールとしてルール蓄積手段2に記憶されたルール601から準備コマンドの情報である「準備A」を削除し、図8(c)に示すルール601bになるように障害対処ルールを書き換える。
【0119】
また、復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールを作成し、その障害対処ルールをルール蓄積手段2に追加記憶させる。この障害対処ルール作成処理は、図9に示すステップS322,323と同様に行えばよい。すなわち、共通条件制御手段7は、ステップS223の処理において条件式が変更されたユーザ指定ルールにおける元の(変更前の)ユーザ指定ルールを抽出する。そして、共通条件制御手段7は、その抽出したユーザ指定ルールの条件式と同一の条件式を有し、復旧処理コマンドの情報として、抽出したユーザ指定ルールに含まれる準備コマンドの情報を有する障害対処ルールを作成すればよい。以上の処理を、ステップS227の処理として行い、その後ステップS221に移行する。
【0120】
以上のような変形例によれば、準備コマンド同士の競合により、サービス実行手段10に好ましくない動作を行わせることを防止できる。
【0121】
また、第2の実施の形態の他の変形例は、図9に示す処理において、ステップS323の後、競合する準備コマンドが同時に実行されることがある場合に、準備コマンドの前に、競合する準備コマンドの実行を取り消す取消コマンドの情報を付加する形態である。なお、準備コマンドの実行を取り消すとは、その準備コマンド実行前の状態に戻すことである。
【0122】
図12は、本変形例におけるステップS224の処理(復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成や、対処コマンドのみを含むようにユーザ指定ルールを変更する処理)の処理経過の一例を示す説明図である。図9に示す処理と同様の処理については、図9と同一の符号を付して説明を省略する。
【0123】
ステップS323の後、共通条件制御手段7は、ステップS323によって得られた各ルールのうち、準備コマンドが競合するルールが存在するか否かを判定する(ステップS324)。ステップS324において、共通条件制御手段7は、まず、準備コマンドの情報を含むルールであって、同時に成立し得るルールを選択する。ここで同時に成立し得ることは、あるルールの条件式では「状態Pになっていること」が条件として記述され、他のルールの条件式では「状態Pになっていないこと」が条件として記述されていることに基づいて判定すればよい(状態Pは、任意の障害発生状態)。そして、共通条件制御手段7は、選択した各ルールの準備コマンドが競合するか否かを判定すればよい。なお、競合する準備コマンドの情報は、例えば、マネージャ装置が備える記憶装置(図示せず。)に予め記憶させておけばよい。
【0124】
準備コマンドの情報を含むルールであって、同時に成立し得るルールを選択し、そのルールの準備コマンドが競合するものでなければ(ステップS324におけるNo)、処理を終了する。
【0125】
準備コマンドが競合する場合(ステップS324におけるYes)、共通条件制御手段7は、準備コマンドが競合するルールに、準備コマンドの実行を取り消す取消コマンドの情報を追加する(ステップS325)。具体的には、共通条件制御手段7は、対処コマンドの情報を含むルールの準備コマンドの情報の前に、その準備コマンドと競合する準備コマンドの取消コマンドの情報を追加する。その後、共通条件制御手段7は、以上の処理の結果得られるルールを障害対処ルールとしてルール蓄積手段2に記憶させる(図7に示すステップS225)。なお、共通部分を有するユーザ指定ルールのグループが複数存在した場合、それらの各グループについて、図12に示すステップS321以降の処理を行えばよい。そして、各グループについて、ステップS321以降の処理が終了した後、ステップS225に移行すればよい。
【0126】
例えば、ステップS323の結果、図8(c)に示すルール601b,602b,603bが生成されていたとする。ステップS323の後、共通条件制御手段7は、準備コマンドの情報を含むルールであって、同時に成立し得るルールを選択する。本例では、共通条件制御手段7は、図8(c)に示すルール602b,603bを選択する。そして、共通条件制御手段7は、選択したルールの準備コマンドが競合するか否かを判定する(ステップS324)。ここでは、ルール602bにおける「準備B」とルール603bにおける「準備A」とが競合するか否かを判定する。
【0127】
「準備B」と「準備A」とが競合しなければ、処理を終了する。「準備B」と「準備A」とが競合する場合には、共通条件制御手段7は、対処コマンドの情報を含むルール602bの準備コマンド「準備B」の情報の前に、その準備コマンドと競合する準備コマンド「準備A」の取消コマンド「取消A」の情報を追加する。この結果得られるルール群の例を図13に示す。対処コマンドの情報を含むルール602bの準備コマンドの前に取消コマンド「取消A」を追加したルールを、図13では、ルール602cとして示している。
【0128】
なお、図11に示すステップS227において、図12に示すステップS321〜S325の処理を実行してもよい。
【0129】
また、図7に示すフローチャートでは、ステップS222においてYesと判定した場合、矛盾解消処理(ステップS223)を実行する。第2の実施の形態の他の変形例として、共通条件制御手段7が、ステップS222においてYesと判定した場合、条件式に共通部分を有する各ユーザ指定ルールを、準備コマンドの情報を有するユーザ指定ルールと、対処コマンドの情報を有するユーザ指定ルールに分離し、その後、ステップS223の処理を実行し、ステップS225に移行してもよい。
【0130】
本変形例では、ステップS222においてYesと判定した場合、共通条件制御手段7は、例えば、図8(a)に例示するユーザ指定ルール601を、条件式が“状態A & 状態B”であり、「準備A」の情報を含むルールと、条件式が“状態A & 状態B”であり、「準備B」の情報を含むルールとに分離する。同様に、図8(a)に例示するユーザ指定ルール602についても分離する。そして、ステップS223の処理を実行し、ステップS225に移行する。
【0131】
実施の形態3.
図14は、本発明の第3の実施の形態を示すブロック図である。第1の実施の形態や第2の実施の形態と同様の構成部については、図1と同一の符号を付し、説明を省略する。ただし、第2の実施の形態では、共通条件制御手段7は、第2の実施の形態における動作に加え、さらに他の動作も行う。また、本実施の形態では、エージェント装置20は、検出要素制御手段8を備える。
【0132】
本実施の形態では、第2の実施の形態と同様に、ユーザ自身が作成したユーザ指定ルールにおける復旧処理コマンドの情報には、対処コマンドおよび準備コマンドの両方の情報が含まれる。また、ユーザ指定ルールに基づいて作成される復旧処理コマンドには、準備コマンドや対処コマンドの他に、検出コマンドが含まれる場合がある。検出コマンドは、サービス実行手段10の動作状態の検出を動作状態検出手段1に変更させるためのコマンドである。例えば、動作状態検出手段1が、サービス実行手段10に「状態C」が発生しているか否かを検出していないとする。この場合、検出要素制御手段8が、検出コマンド(ここでは「検出C」とする。)を受け取ると、検出要素制御手段8が動作状態検出手段1に対し「状態C」が発生しているか否かの検出を指示する。動作状態検出手段1は、この指示に応じて「状態C」が発生しているか否かの検出を開始し、その検出結果を対処方法検索手段3に出力する。
【0133】
共通条件制御手段7は、複数のユーザ指定ルールの条件式の共通部分を条件式とし、その複数のユーザ指定ルールの共通部分以外に記述された状態が発生しているか否かを検出するための検出コマンドの情報を含む障害対処ルールを作成する。
【0134】
また、共通条件制御手段7は、第1の実施の形態や第2の実施の形態と同様に、ユーザ指定ルールの矛盾を解消して、ユーザ指定ルールが一意に識別されるようにする処理(図4に示すステップS301〜S308の処理)を実行する。ただし、共通条件制御手段7は、対処コマンドの情報を含むユーザ指定ルールを対象として、上記の矛盾解消処理を行う。従って、検出コマンドの情報を含んでいるが対処コマンドの情報を含んでいないルール等は、矛盾解消処理の対象外となる。
【0135】
また、共通条件制御手段7は、第2の実施の形態におけるステップS224(より具体的には図9に示すステップS321〜S323)と同様の処理を行い、ユーザ指定ルールから準備コマンドを削除したり、準備コマンドを含む新たな障害対処ルールを作成したりする。
【0136】
また、共通条件制御手段7は、導出した各ルールを障害対処ルールとしてルール蓄積手段2に記憶させる前に、条件式が同一であるルールを1つにまとめる処理を行う。
【0137】
対処方法検索手段3が、検出コマンドの情報を対話制御手段4に出力し、対話制御手段4もその検出コマンドの情報をコマンド実行手段5に出力したとする。コマンド実行手段5は、検出コマンドの情報を受信した場合には、その情報が示す検出コマンドを検出要素制御手段8に出力する。検出要素制御手段8は、コマンド実行手段5から検出コマンドを受け取ると、その検出コマンドに応じて、動作状態検出手段1に検出する動作を変更させる。例えば、動作状態検出手段1に新たな動作状態の検出を行わせる。
【0138】
検出要素制御手段8は、例えば、動作状態検出手段1等と同様に、コンピュータと障害復旧プログラムによって実現することができる。また、検出要素制御手段8をハードウェア装置によって実現してもよい。
【0139】
以下、第3の実施の形態の動作について説明する。図15は、ユーザ指定ルールが修正されたときにおけるマネージャ装置30(主に共通条件制御手段7)による処理経過の例を示すフローチャートである。図7に示す処理と同様の処理については、図7と同様の符号を付して説明を省略する。
【0140】
ステップS222において、条件式に共通部分を有するユーザ指定ルールがあると判定した場合(ステップS222におけるYes)、共通条件制御手段7は、共通部分を条件式とし、検出コマンドを含む障害対処ルールを作成する(ステップS222a)。図16は、この検出コマンドを含む障害対処ルール作成処理(ステップS222a)の処理経過の例を示すフローチャートである。共通条件制御手段7は、検出コマンドを含む障害対処ルールを作成する際、まず、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールを収集する(ステップS341)。次に、共通条件制御手段7は、収集したユーザ指定ルールの条件式の共通部分を条件式とし、その各ユーザ指定ルールの条件式の共通部分以外に記述された状態が発生しているか否かを検出するための検出コマンドの情報を含む障害対処ルールを作成する(ステップS342)。以上の処理によって、ステップS222aの処理を終了する。なお、共通部分を有するユーザ指定ルールのグループが複数存在した場合、それらの各グループについて、ステップS342の処理を実行すればよい。
【0141】
ステップS222aの後、共通条件制御手段7は、各ユーザ指定ルール間に矛盾がなくなるように、収集したユーザ指定ルールの条件式を変更する(ステップS223)。この処理は、第2の実施の形態におけるステップS223(図7参照。)と同様である。すなわち、図4に示すステップS301〜S308と同様の処理を実行すればよい。ただし、ユーザ指定ルールの収集処理(図4に示すステップS302)に相当する処理は、図16に示すステップS341で実行しているので、ステップS302の処理は省略してよい。また、本実施の形態では、共通条件制御手段7は、条件式に共通部分を有するユーザ指定ルールであって、対処コマンドの情報を含むユーザ指定ルールを対象として、ステップS223の矛盾解消処理を行う。上記のステップS222aで作成されたルールには、対処コマンドの情報は含まれないので、ステップS222aで作成されたルールの条件式が、ステップS223で変更されることはない。
【0142】
ステップS223の後、共通条件制御手段7は、復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成や、対処コマンドのみを含むようにユーザ指定ルールを変更する処理を実行する(ステップS224)。この処理は、第2の実施の形態におけるステップS224(図7参照。)と同様である。すなわち、図9に示すステップS321〜S323と同様の処理を実行すればよい。ただし、共通条件制御手段7は、ステップS222aで作成した検出コマンドの情報を含む障害対処ルールに対しては、何ら処理を行わない。従って、ステップS222aで作成されたルールの条件式が、ステップS224で変更されることはない。
【0143】
続いて、共通条件制御手段7は、ステップS224の結果得られた各ルールと、ステップS222aで作成した障害対処ルールのうち、条件式が同一のものがあれば、そのルールを1つのルールにまとめる(ステップS224a)。例えば、条件式が“状態A & 状態B”であり、「検出C」という検出コマンドの情報を含むルールと、条件式が“状態A & 状態B”であり、「準備A」という準備コマンドの情報を含むルールとが存在したとする。この場合、共通条件制御手段7は、この2つのルールをまとめて、条件式が“状態A & 状態B”であり、「検出C、準備A」を含むルールを作成する。
【0144】
ステップS224aにおいてまとめられるルールをまとめた後、各ルールを、障害対処ルールとしてルール蓄積手段2に記憶させる(ステップS225)。なお、このとき、条件式に他のユーザ指定ルールとの共通部分がないユーザ指定ルールが存在していた場合、共通条件制御手段7は、そのユーザ指定ルールについては、そのまま障害対処ルールとしてルール蓄積手段2に記憶させる。
【0145】
図17および図18を用いて、以上の処理を説明する。図17および図18は、ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。ユーザ指定ルール蓄積手段6は、初期状態において、図17(a)に示すユーザ指定ルールを記憶しているとする。そして、ステップS221において、対話制御手段4が、ユーザの操作に応じて、図17(b)に示すユーザ指定ルール702を追加したとする。すると、ステップS222aにおいて、共通条件制御手段7は、ユーザ指定ルール701,702を収集する。そして、共通条件制御手段7は、その2つのユーザ指定ルール701,702の条件式の共通部分である“状態A & 状態B”を条件式とし、ユーザ指定ルール701,702の条件式の共通部分以外に記述された状態(本例では状態C)が発生しているか否かを検出するための検出コマンド(「検出C」とする。)の情報を含む障害対処ルールを作成する。図17(c)では、このルールを障害対処ルール751として示している。
【0146】
次のステップS223では、共通条件制御手段7は、図17(c)に示すユーザ指定ルール701,702に基づいて、図18(a)に示すユーザ指定ルール701a,702aを導出する。この導出過程は、図8(a)に示すユーザ指定ルールから図8(b)に示すユーザ指定ルールを導出する過程と同様である。なお、障害対処ルール751には対処コマンドの情報が含まれないので、ステップS223の処理対象とされない。
【0147】
次のステップS224では、共通条件制御手段7は、図18(a)に示すユーザ指定ルール701a,702aに基づいて、図18(b)に示すルール701b,702b,703bを導出する。この導出過程は、図8(b)に示すユーザ指定ルールから、図8(c)に示す各ルールを導出する過程と同様である。なお、ステップS224において、共通条件制御手段7は、検出コマンドの情報を含む障害対処ルール751に対しては、何ら処理を行わない。
【0148】
次の、ステップS224aでは、共通条件制御手段7は、ステップS224で得られた各ルール701b,702b,703bと、ステップS222aで作成した障害対処ルール751のうち、条件式が同一のものがあれば、そのルールを1つにまとめる。本例では、図18(b)に示す障害対処ルール751,703bの条件式が同一であるので、この2つのルールをまとめ、図18(c)に示す障害対処ルール752を生成する。その後、共通条件制御手段7は、図18(c)に示す各ルールを障害対処ルールとして、ルール蓄積手段2に記憶させる。
【0149】
他の具体例について説明する。図19および図20も、ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。ステップS221の後、ユーザ指定ルール蓄積手段6に、図19(a)に示すユーザ指定ルール801,802が記憶されているとする。すると、ステップS222aにおいて、共通条件制御手段7は、ユーザ指定ルール801,802を収集する。そして、共通条件制御手段7は、その2つのユーザ指定ルール801,802の条件式の共通部分である“状態A & 状態B”を条件式とし、ユーザ指定ルール801,802の条件式の共通部分以外に記述された状態(本例では状態C、状態D)が発生しているか否かを検出するための各検出コマンドの情報を含む障害対処ルールを作成する。ここでは、状態Cが発生しているか否かを検出するための検出コマンドを「検出C」、状態Dが発生しているか否かを検出するための検出コマンドを「検出D」とする。図19(b)では、このルールを障害対処ルール851として示している。
【0150】
次のステップS223では、共通条件制御手段7は、図19(b)に示すユーザ指定ルール801,802に基づいて、図20(a)に示すユーザ指定ルール801a,802aを導出する。なお、障害対処ルール851には対処コマンドの情報が含まれないので、ステップS223の処理対象とされない。
【0151】
次のステップS224では、共通条件制御手段7は、図20(a)に示すユーザ指定ルール801a,802aに基づいて、図20(b)に示すルール801b,802b,803bを導出する。なお、ステップS224において、共通条件制御手段7は、検出コマンドの情報を含む障害対処ルール751に対しては、何ら処理を行わない。
【0152】
ステップS224aでは、共通条件制御手段7は、ステップS224で得られた各ルール801b,802b,803bと、ステップS222aで作成した障害対処ルール851のうち、条件式が同一のものがあれば、そのルールを1つにまとめる。本例では、条件式が同一となるものがないので、ルールをまとめることはない。続いて、共通条件制御手段7は、図20(b)に示す各ルールを障害対処ルールとして、ルール蓄積手段2に記憶させる。
【0153】
なお、図17に示す具体例では、初期状態として“状態A & 状態B”を条件式とするユーザ指定ルール701が記憶され、続いて、その条件式“状態A & 状態B”を包含する条件式“状態A & 状態B & 状態C”を有するユーザ指定ルール702が追加された場合を示している。一方、図19(a)に示すユーザ指定ルール801,802では、一方の条件式が他方の条件式を包含しているわけではない。
【0154】
既に記憶されているユーザ指定ルールの条件式を包含する条件式を有するユーザ指定ルールを追加した場合、元々記憶されていたユーザ指定ルールの条件式全体が、条件式の共通部分となる。例えば、図17に示す例では、元々記憶されていたユーザ指定ルール701の条件式全体(“状態A & 状態B”)が、追加されたユーザ指定ルール702の条件式との共通部分になっている。
【0155】
ユーザ(管理者)が、新たにユーザ指定ルールを追加する場合、既にユーザ指定ルール蓄積手段6に記憶されているユーザ指定ルールの条件式を包含する条件式を有するユーザ指定ルールを追加することが多いと考えられる。従って、元々記憶されていたユーザ指定ルールの条件式全体が、条件式の共通部分となることが多いと考えられる。
【0156】
あるユーザ指定ルールの条件式全体が、複数のユーザ指定ルールの条件式の共通部分となる場合、図15に示すステップS222aにおいて、以下のような処理を行ってもよい。共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールを収集する。このユーザ指定ルールの中には、条件式全体が、各ユーザ指定ルールの条件式の共通部分となっているユーザ指定ルールが存在する。このユーザ指定ルールをKとし、ユーザ指定ルールKの条件式をJとする。Jは、条件式の共通部分でもある。共通条件制御手段7は、Jを条件式とし、各ユーザ指定ルールの条件式のうちJ以外の部分に記述された状態が発生しているか否かを検出するための検出コマンドの情報を含む障害対処ルールを作成する。さらに、共通条件制御手段7は、作成した障害対処ルールに対し、ユーザ指定ルールKに含まれる準備コマンドの情報も付加する。この結果、検出コマンドおよび準備コマンドの情報を有する障害対処ルールが作成される。また、共通条件制御手段7は、ユーザ指定ルールKから準備コマンドの情報を削除する。共通条件制御手段7は、以上の処理をステップS222aとして行う。
【0157】
この後、ステップS223に移行するが、ステップS223終了後は、ステップS224,S224aの処理を行わずに、ステップS225に移行する。
【0158】
図21を用いて、以上の処理の具体例を説明する。図21は、ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。ユーザ指定ルール蓄積手段6は、初期状態において、図21(a)に示すユーザ指定ルール901を記憶していて、その後、図21(a)に示すユーザ指定ルール902が追加記憶されたとする。本例では、ユーザ指定ルール901の条件式全体が、複数のユーザ指定ルール901,902の条件式の共通部分となる。従って、ユーザ指定ルール901が、上記の説明におけるユーザ指定ルールKとなり、その条件式“状態A & 状態B”が上記の説明におけるJに相当する。
【0159】
共通条件制御手段7は、ステップS222aにおいて、図21(a)に示すユーザ指定ルール901,902を収集する。そして、共通条件制御手段7は、ユーザ指定ルール901の条件式J(すなわち、“状態A & 状態B”)を条件式とし、各各ユーザ指定ルールの条件式のうちJ以外の部分に記述された状態(本例では状態C)が発生しているか否かを検出するための検出コマンド(「検出C」とする。)の情報を含む障害対処ルールを作成する。さらに、共通条件制御手段7は、ユーザ指定ルール901に含まれる準備コマンドの情報(準備A)を、その障害対処ルールに付加する。この結果得られるルールを、図21(b)において障害対処ルール951として示している。
【0160】
また、共通条件制御手段7は、ユーザ指定ルール901(ユーザ指定ルールK)から準備コマンドの情報を削除する。この結果得られるルールを、図21(b)において障害対処ルール901aとして示している。図21(b)は、ステップS222a終了後の各ルールの状態を示している。なお、図21(b)に示すユーザ指定ルール902aは、図21(a)に示すユーザ指定ルール901と同一である。
【0161】
次のステップS223では、共通条件制御手段7は、図21(b)に示すユーザ指定ルール901a,902aに基づいて、図21(c)に示すユーザ指定ルール901b,902bを導出する。なお、障害対処ルール951には対処コマンドの情報が含まれないので、ステップS223の処理対象とされない。
【0162】
本例では、ステップS224,S224aの処理を行わない。よって、ステップS223の結果得られた各ルール(図21(c)参照。)を障害対処ルールとしてルール蓄積手段2に記憶させる。
【0163】
次に、本実施の形態における障害復旧動作の例について説明する。本実施の形態における障害復旧動作は、図6に示す動作と同様である。ただし、ステップS203において、復旧処理コマンドを実行する旨が入力され、対話制御手段4は、その復旧処理コマンドの情報をコマンド実行手段5に送信するときに、復旧処理コマンドの情報として検出コマンドの情報が含まれていたとする。この場合、対話制御手段4は、検出コマンドを含む復旧処理コマンドの情報を送信し、コマンド実行手段5は、その情報を受信する。コマンド実行手段5は、受信した情報が示す復旧処理コマンドのうち、準備コマンド、対処コマンドについては、第1の実施の形態と同様に、サービス実行手段10上でそれらのコマンドを実行する(ステップS204)。ただし、コマンド実行手段5は、検出コマンドについては、ステップS204で検出要素制御手段8に出力する。
【0164】
検出要素制御手段8は、コマンド実行手段5が出力する検出コマンドに応じて、動作状態検出手段1に動作状態検出手段1に検出する動作状態を変更させる。すると、動作状態検出手段1は、新たにサービス実行手段10の動作状態を検出し、その動作状態の情報を対処方法検索手段3に送信する(ステップS201)。以降、同様の動作を繰り返す。
【0165】
以下に、具体例を示す。図21(c)に示すルール901b,902b,951が障害対処ルールとして、ルール蓄積手段2に記憶されているものとする。
【0166】
動作状態検出手段1は、サービス実行手段10の動作状態として「状態Aかつ状態B」を検出すると、その動作状態の情報を対処方法検索手段3に送信する(ステップS201)。対処方法検索手段3は、その動作状態の情報を受信し、ルール蓄積手段2に蓄積されている各障害対処ルールの中に、条件式が満たされている障害対処ルールがあるか否かを判定する(ステップS202)。本例では、図21(c)に示す障害対処ルール951の条件式が満たされる(ステップS202におけるYes)。そこで、対処方法検索手段3は、障害対処ルール951に含まれる「検出C、準備A」という復旧処理コマンドの情報を、対話制御手段4に出力する。対話制御手段4は、「検出C、準備A」を実行する旨の指示をユーザから受けると(ステップS203におけるYes)、「検出C、準備A」という情報をコマンド実行手段5に送信する。コマンド実行手段5は、サービス実行手段10上で「準備A」を実行するとともに、検出コマンドである「検出C」を検出要素制御手段8に出力する(ステップ204)。
【0167】
検出要素制御手段8は、この検出コマンド「検出C」を受け取り、動作状態検出手段1に状態検出方法の変更を指示する。本例では、「検出C」を受け取った場合は、動作状態検出手段1に対して、新たに「状態C」が発生しているか否かを検出するようにに指示するものとする。動作状態検出手段1は、この指示に応じて「状態C」が生じているか否かの検出を開始し、その検出結果を対処方法検索手段3に送信する(ステップ201)。このとき、対処方法検索手段3は、既に「状態Aかつ状態B」が生じていることを認識している。従って、「状態C」の真偽によって、対処方法検索手段3は、図21(c)に示す障害対処ルール901b,902bのいずれの条件式が満たされているかを判定する(ステップS202)。そして、条件式が満たされている方の障害対処ルールに含まれる復旧処理コマンドの情報(「対処A」または「準備B、対処B」)を出力する。対話制御手段4は、その復旧処理コマンドを実行するか否かの決定をユーザに促し、復旧処理コマンドを実行する旨の指示を受けたならば(ステップS203におけるYes)、復旧処理コマンドの情報をコマンド実行手段5に送信する。コマンド実行手段5は、受信した情報が示す復旧処理コマンド(ここでは「対処A」または「準備B、対処B」)をサービス実行手段10上で実行する(ステップS204)。
【0168】
このように本実施の形態によれば、第1、第2の実施の形態で説明した条件式の修正に加えて、動作状態検出手段1が検出対象とする動作状態を変更することができる。例えば、図21に示すユーザ指定ルール902が追加される前では、動作状態検出手段1は、「状態A」が生じているか否かおよび「状態B」が生じているか否かを検出していればよかった。新たに図21に示すユーザ指定ルール902の追加に伴い、仮に障害対処ルール901b,902bだけがルール蓄積手段2に追加されると、「状態C」が発生しているか否かについても検出しなければならないため、エージェント装置20の処理負荷が大きくなる。このように、障害対処ルールの数が増加すると、検出すべき要素の種類も増加し、障害復旧システムの処理負荷が大きくなり、その結果、サービス実行手段10の効率低下を引き起こす場合がある。本実施の形態では、共通条件制御手段7が、ユーザ指定ルールの条件式の共通部分を条件式とし、その各ユーザ指定ルールの条件式の共通部分以外に記述された状態が発生しているか否かを検出するための検出コマンドの情報を含む障害対処ルールを作成する。従って、常時監視する動作状態は、条件式の共通部分に記述された動作状態のみとすることができる。そして、各条件式の共通部分に相当する条件が満たされたときに、対処方法検索手段3が、各条件式の共通部分を条件式とする障害対処ルールに含まれる検出コマンドの情報を出力し、その検出コマンドに応じた動作状態の検出が開始される。このように、常時監視する動作状態を、条件式の共通部分に記述された動作状態のみとすることができるので、障害復旧システム(特にエージェント装置20)の監視負荷を大幅に低減することができる。
【0169】
また、上記の第3の実施の形態の説明では、ステップS202(図6参照。)において、対処方法検索手段3が、ルール蓄積手段2に蓄積されている各障害対処ルールの中に、条件式が満たされている障害対処ルールがあるか否かを判定するものとして説明した。対処方法検索手段3は、条件式が満たされているか否かを判定する際、ルール蓄積手段2に記憶されている障害対処ルールの一部を判定の対象外とし、条件式が満たされた障害対処ルールが生じたときに、条件式が満たされているか否かの判定対象となる障害対処ルールを増加していってもよい。具体的には、対処方法検索手段3は、検出コマンドの情報が復旧処理コマンドの情報として含まれている障害対処ルールが存在する場合、その検出コマンドによって検出が開始される動作状態を条件式に含む障害対処ルールを、条件式が満たされているか否かの判定対象から外していてもよい。そして、検出コマンドの情報が復旧処理コマンドの情報として含まれている障害対処ルールの条件式が満たされた後、その検出コマンドによって検出が開始される動作状態を条件式に含む障害対処ルールを、条件式が満たされているか否かの判定対象に含めてもよい。
【0170】
例えば、図21(c)に示す3つの障害対処ルール901b,902b,951が、ルール蓄積手段2に記憶されているとする。この場合、検出コマンドの情報「検出C」が含まれている障害対処ルール951が存在する。従って、対処方法検索手段3は、当初、「検出C」によって検出が開始される動作状態(本例では、“状態C”、“NOT状態C”)を条件式に含む障害対処ルール901b,902bを、条件式が満たされているか否かの判定対象から外していてもよい。このとき、対処方法検索手段3は、図21(c)に示す全ての障害対処ルールについて、条件式が満たされているか否かを判定する必要がないので、対処方法検索手段3の処理負荷は軽減される。
【0171】
その後、「検出C」という情報を含む障害対処ルール951の条件式が満たされた後、対処方法検索手段3は、その検出コマンドによって検出が開始される動作状態(“状態C”、“NOT状態C”)を条件式に含む障害対処ルール901b,902bを、条件式が満たされているか否かの判定対象に含める。
【0172】
このように、条件式が満たされているか否かの判定対象外となる障害対処ルールを定めておき、条件式が満たされた障害対処ルールが生じたときに、条件式が満たされているか否かの判定対象となる障害対処ルールを増加させることにより、当初は、条件式が満たされているか否かの判定対象となる障害対処ルールの数を抑えることができ、対処方法検索手段3の処理負荷を抑えることができる。
【0173】
また、上記の説明では、コマンド実行手段5が検出コマンドの情報を受信して検出要素制御手段8に対して検出コマンドを出力することにより、検出要素制御手段8が、動作状態検出手段1に、検出コマンドに応じた動作状態が発生しているか否かの検出開始を指示する場合を示した。すなわち、検出コマンドが、その検出コマンドに応じた動作状態の検出開始のトリガとなるものとして説明した。検出コマンドの情報を含む障害対処ルールの条件式が満たされている間は、対処方法検索手段1から、対処制御手段4、コマンド実行手段5、検出要素制御手段8を介して、動作状態検出手段1に検出クエリを出力し続けてもよい。そして、動作状態検出手段1は、検出クエリが出力され続けている間、その検出クエリに応じた動作状態が発生しているか否かを検出する構成であってもよい。ただし、対話制御手段4が、検出クエリを出力しない旨の指示を受けた場合には、対話制御手段4は、検出クエリの出力を停止する。
【0174】
また、検出コマンドの情報の含む障害対処ルールの条件式が満たされなくなった時には、対処方法検索手段3は、その検出コマンドに応じて開始された動作状態の検出を中止させる中止コマンドの情報を出力してもよい。対話制御手段4は、他のコマンドの情報と同様に、中止コマンドの情報をコマンド実行手段に送信する。コマンド実行手段5は、中止コマンドの情報を受信した場合、その中止コマンドを検出要素制御手段8に出力する。検出要素制御手段8は、中止コマンドを受けると、その中止コマンドに対応する動作状態の検出中止を動作状態検出手段1に指示する。動作状態検出手段1は、この指示に応じて、動作状態が発生しているか否かの検出を中止する。
【0175】
例えば、状態Aおよび状態Bが真となり、図21(c)に示す障害対処ルール951に基づいて、対処方法検索手段3が、「検出C、準備A」という情報を出力したとする。その結果、動作状態検出手段1は、「状態C」が発生しているか否かの検出を開始する。その後、状態Aおよび状態Bのいずれかが偽(発生していない状態)となり、障害対処ルール951の条件式が満たされなくなったとする。このとき、対処方法検索手段3は、「状態C」が発生しているか否かの検出を中止させる中止コマンドの情報を対話制御手段4に出力する。対話制御手段4は、他のコマンドの情報と同様に、この中止コマンドの情報をコマンド実行手段5に送信する。コマンド実行手段5は、この情報を受信すると、「状態C」が発生しているか否かの検出を中止させる中止コマンドを検出要素制御手段8に出力する。すると、検出要素制御手段8は、「状態C」が発生しているか否かの検出の中止を動作状態検出手段1に出力し、動作状態検出手段1は、「状態C」が発生しているか否かの検出を中止する。
【0176】
検出クエリを出力したり、中止コマンドを出力したりする場合であっても、第3の実施の形態と同様の効果を得ることができる。
【0177】
なお、上記の各実施の形態では、マネージャ装置30とエージェント装置20とを備える構成として説明したが、マネージャ装置30とエージェント装置20とを一体化した装置として、障害復旧システムを実現してもよい。
【図面の簡単な説明】
【0178】
【図1】本発明の第1の実施の形態を示すブロック図である。
【図2】ユーザ指定ルールが修正されたときにおけるマネージャ装置による処理経過の例を示すフローチャートである。
【図3】ユーザ指定ルールに基づく矛盾解消の具体例を示す説明図である。
【図4】ユーザ指定ルール間に矛盾がなくなるように、ユーザ指定ルールの条件式を変更することによって障害対処ルールを作成する処理の一例を示すフローチャートである。
【図5】条件式に共通部分を有するユーザ指定ルールが3つある場合における矛盾解消の具体例を示す説明図である。
【図6】サービス実行手段の状態検出から復旧処理コマンド実行までの処理経過を示すフローチャートである。
【図7】ユーザ指定ルールが修正されたときにおけるマネージャ装置による処理経過の例を示すフローチャートである。
【図8】ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。
【図9】復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成や、対処コマンドのみを含むようにユーザ指定ルールを変更する処理の一例を示す説明図である。
【図10】ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。
【図11】第2の実施の形態の変形例におけるマネージャ装置による処理経過の例を示すフローチャートである。
【図12】復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成や、対処コマンドのみを含むようにユーザ指定ルールを変更する処理の一例を示す説明図である。
【図13】取消コマンドが追加されたルールを含むルール群の例を示す説明図である。
【図14】本発明の第3の実施の形態を示すブロック図である。
【図15】ユーザ指定ルールが修正されたときにおけるマネージャ装置による処理経過の例を示すフローチャートである。
【図16】検出コマンドを含む障害対処ルール作成の処理経過の例を示すフローチャートである。
【図17】ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。
【図18】ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。
【図19】ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。
【図20】ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。
【図21】ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。
【図22】管理者が障害対処ルールを追加する状況を示す説明図である。
【図23】管理者によって変更された障害対処ルールの例を示す説明図である。
【図24】管理者によって変更された障害対処ルールの例を示す説明図である。
【符号の説明】
【0179】
1 動作状態検出手段
2 ルール蓄積手段
3 対処方法検索手段
4 対話制御手段
5 コマンド実行手段
6 ユーザ指定ルール蓄積手段
7 共通条件制御手段
8 検出要素制御手段
10 サービス実行手段
20 エージェント装置
30 マネージャ装置

【特許請求の範囲】
【請求項1】
情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドを実行する障害復旧システムであって、
障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段と、
条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成手段とを備えた
ことを特徴とする障害復旧システム。
【請求項2】
ユーザ指定ルール蓄積手段は、復旧処理コマンドの情報として、障害からの復旧または障害回避のための対処コマンドおよび前記対処コマンド実行の準備を行うための準備コマンドの情報を有するユーザ指定ルールを記憶し、
ユーザ指定ルールの条件式を変更したルールとして同時不成立ルール作成手段に作成されたルールから準備コマンドの情報を削除するとともに、条件式に共通部分を有する各ユーザ指定ルールにおける前記共通部分を条件式とし、条件式を変更することによって作成されたルールの元となったユーザ指定ルールが有する準備コマンドの情報を有する準備ルールを作成する準備ルール作成手段を備えた
請求項1に記載の障害復旧システム。
【請求項3】
準備ルール作成手段は、同時不成立ルール作成手段が作成したルールに基づいて選択された対処コマンドの実行に失敗した場合に、ユーザ指定ルールの条件式を変更したルールとして同時不成立ルール作成手段に作成されたルールから準備コマンドの情報を削除するとともに、条件式に共通部分を有する各ユーザ指定ルールにおける前記共通部分を条件式とし、条件式を変更することによって作成されたルールの元となったユーザ指定ルールが有する準備コマンドの情報を有する準備ルールを作成する
請求項2に記載の障害復旧システム。
【請求項4】
準備コマンドおよび対処コマンドの情報を有する準備対処ルールと、準備コマンドの情報を有する準備ルールの条件式が同時に成立することがあり、準備コマンド同士が競合すると定められている場合に、前記準備対処ルールに、前記準備ルールの準備コマンドの実行取消を指示する取消コマンドの情報を付加する取消コマンド情報付加手段を備えた
請求項2または請求項3に記載の障害復旧システム。
【請求項5】
条件式に共通部分を有する各ユーザ指定ルールにおける前記共通部分を条件式とし、前記各ユーザ指定ルールの条件式のうち前記共通部分以外に示される動作状態が発生しているか否かの検出を指示する検出コマンドの情報を有する検出ルールを作成する検出ルール作成手段を備えた
請求項2に記載の障害復旧システム。
【請求項6】
一のユーザ指定ルールの条件式全体が、複数のユーザ指定ルールの条件式の共通部分となっている場合に、前記共通部分を条件式とし、前記複数のユーザ指定ルールの条件式のうち前記共通部分以外に示される動作状態が発生しているか否かの検出を指示する検出コマンドの情報と、前記一のユーザ指定ルールが有する準備コマンドの情報とを有する検出ルールを作成するとともに、前記一のユーザ指定ルールから準備コマンドの情報を削除したルールを作成する検出ルール作成手段を備えた
請求項1に記載の障害復旧システム。
【請求項7】
情報処理システムの動作状態を検出する動作状態検出手段と、
前記動作状態検出手段によって検出された動作状態によって条件式が満足されるルールを特定し、前記ルールが有する復旧処理コマンドの情報を出力する対処方法検索手段と、
前記対処方法検索手段が復旧処理コマンドの情報として検出コマンドの情報を出力した場合に、前記検出コマンドに応じた動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検出手段に指示する検出要素制御手段とを備えた
請求項5または請求項6に記載の障害復旧システム。
【請求項8】
情報処理システムの動作状態を検出する動作状態検出手段と、
前記動作状態検出手段によって検出された動作状態によって条件式が満足されるルールを特定し、前記ルールが有する復旧処理コマンドの情報を出力する対処方法検索手段とを備え、
前記対処方法検索手段は、検出ルールの条件式が満足されるまでは、前記検出ルールが有する検出コマンドの情報に対応する動作状態を条件式に含むルールを、条件式が満足されているか否かの判定対象から外す
請求項5から請求項7のうちのいずれか1項に記載の障害復旧システム。
【請求項9】
情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドの情報を出力する障害復旧装置であって、
障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段と、
条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成手段とを備えた
ことを特徴とする障害復旧装置。
【請求項10】
情報処理システムに対し復旧処理コマンドを実行することにより前記情報処理システムに障害からの復旧または障害の回避を行わせる障害復旧装置であって、
前記情報処理システムの動作状態を検出する動作状態検出手段と、
復旧処理コマンドの情報を受信し、前記情報が示す復旧処理コマンドを実行するコマンド実行手段と、
コマンド実行手段が、復旧処理コマンドとして、所定の動作状態が発生しているか否かの検出を指示する検出コマンドを受信した場合に、前記動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検出手段に指示する検出要素制御手段とを備えた
ことを特徴とする障害復旧装置。
【請求項11】
情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドを実行する障害復旧システムに適用されるルール作成方法であって、
ユーザ指定ルール蓄積手段が、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶し、
同時不成立ルール作成手段が、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する
ことを特徴とするルール作成方法。
【請求項12】
情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドの情報を出力するコンピュータであって、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段を備えたコンピュータに、
条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成処理
を実行させるための障害復旧プログラム。
【請求項13】
情報処理システムに対し復旧処理コマンドを実行することにより前記情報処理システムに障害からの復旧または障害の回避を行わせるコンピュータに、
前記情報処理システムの動作状態を検出する動作状態検処理、
復旧処理コマンドの情報を受信し、前記情報が示す復旧処理コマンドを実行するコマンド実行処理、および
復旧処理コマンドとして、所定の動作状態が発生しているか否かの検出を指示する検出コマンドを受信した場合に、前記動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検処理で開始させる検出要素制御処理
を実行させるための障害復旧プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate


【公開番号】特開2006−244404(P2006−244404A)
【公開日】平成18年9月14日(2006.9.14)
【国際特許分類】
【出願番号】特願2005−62817(P2005−62817)
【出願日】平成17年3月7日(2005.3.7)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】