説明

障害管理プログラム、障害管理装置および障害管理方法

【課題】対象装置で発生した未知障害の対処を効率化する。
【解決手段】(1)障害対処対象装置であるサーバa、・・・、サーバxから出力された障害情報が障害管理装置へと入力される。(2)入力された障害情報を、対処法が確立されていない未知障害と対処法が確立されている既知障害とに切り分ける。(3)未知障害を、過去に未知障害と判定された既存の未知障害との関連性に基づきグループ化し、各グループに対処優先度を付与する。(4)グループ化された未知障害を、対処優先度の順序で各問題解決チームへと振り分ける。各問題解決チームは、障害の原因の特定をおこない、対処法を確立する。(5)各問題解決チームによって対処法が確立された未知障害は、既知障害として対処法とともに各問題対処チームへと送られる。対処法が確立され解決された未知障害は、問題対処チームが確立された対処法を実行することによって解消される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象装置において発生した障害を管理する障害管理処理おこなう障害管理プログラム、障害管理装置および障害管理方法に関し、特に、既知障害とともに、対処法の確立していない未知障害に対しても、対処の効率化を行い、複数の未知障害処理を並列に実行しつつ、関連する未知障害については、対処を重複することなく並列して速やかにおこなうことが可能な障害管理プログラム、障害管理装置および障害管理方法に関する。
【背景技術】
【0002】
一般に、顧客のコンピュータシステムを保守管理するサポート担当者は、コンピュータシステムにおいて、サービスの質を低下させる、もしくは低下させる可能性のある問題(以下、インシデントと呼ぶ)が発生すると、その対処法が既知であれば、その既知の対処法を実行してインシデントを取り除く。対処法が未知であれば、原因を究明し、対処法を確立したあと、その確立した対処法を実行してインシデントを取り除く。そして、一旦確立された対処法があるインシデントについては、別のインシデント発生時にその対処法を再利用することで、問題に対して効率的に対処するのが一般的である。
【0003】
例えば、上記の手順の一例として、ITIL v2 (Information Technology Infrastructure Library version 2、イギリス政府が策定したコンピュータシステムの運用管理のガイドライン)におけるインシデント管理プロセスが挙げられる。このインシデント管理プロセスは、インシデントの起票、過去事例の調査、対処法の調査と立案、対処法の実行、インシデントのクローズといった流れからなる。
【0004】
なお、インシデントという呼び方は上記ITILに準拠する。また、ITILでは「次善策(workaround)、代替策、確立された対処法があるインシデント」を「既知障害(KE:Known Error)」と呼ぶ。以下は、ITILに準拠するとともに、既知障害でないインシデントは「未知障害」(UE:Unknown Error)と呼ぶことにする。
【0005】
ところで、ICT(Information and Communication Technology)の運用管理の現場では、近年の技術進歩により技術が益々複雑化かつ複合化している。また、コンピュータシステムのセキュリティの問題も増加している。これらの事情により、インシデントは複雑になるとともに、発生数が増加の傾向にある。そのため、インシデントへの対処時間は増え、あるインシデントの対処中に別のインシデントが発生することも珍しくない。さらに、複数のインシデントは、同じ原因に基づくことも増えている。
【0006】
インシデントは、特に、セキュリティなどのパッチ適用といった何らかの変更をきっかけに、多発する可能性が高い。例えば、二つの未知障害Aおよび障害Bを考える。先行して対処を始めたAと、その後で発生したBについて、両方が同じ原因から発生したものだとする。
【0007】
しかし、障害Aおよび障害Bが同じ原因であるにもかかわらず、別の「未知障害」として扱うと(例えば、高速化のために障害Aおよび障害Bを並列処理するなど)、障害Aの対処法が確立する(解決策を発見し、適用し、顧客がそれで満足する結果を得たことを確認すること。これを契機に、インシデントがクローズされる)までは、障害B以降のインシデントに対し障害Aの知見を利用できない。そのため、同じ原因調査を繰り返すことがあり、無駄な作業となってしまう。これは、インシデントをクローズしないと、対処法が知識として有効かどうかわからないためである。
【0008】
一方、上記のように、同じ原因調査を繰り返さずに済むよう、障害Aおよび障害Bを順番に処理すると、時間がかかる。障害Aのインシデントがクローズされた後、障害Bの対処を始めることとなり、解決に時間が掛かるためである。インシデントの数が増えれば増えるほど遅くなるのは明らかである。
【0009】
このように、従来技術では、ある未知障害の対処中に原因を同じくする別の障害の発生を特に想定していないため、効率的な処理ができなかった。そこで、特許文献1に開示されるような、複数の障害情報に優先度を付与して、障害影響を算定し、最も優先度が高い障害情報と、他の障害情報との関連性を解析し、障害の原因がいずれの障害情報に対応する障害であるかを特定することによって、障害対処の効率性を高めることが可能な障害情報管理方式が提案されている。
【0010】
【特許文献1】特開平10−303897号公報
【発明の開示】
【発明が解決しようとする課題】
【0011】
しかしながら、上記特許文献1に代表される従来技術では、複数の既知障害のうちのいずれが根本原因であるかを特定することを前提としており、未知障害は想定していない。そのため、ある未知障害の対処中に原因を同じくする別の障害が発生しても、それぞれ個別に対処するため、効率的ではなかった。
【0012】
本発明は、上記問題点(課題)を解消するためになされたものであって、対象装置で発生した障害に関し、既知障害とともに、対処法の確立していない未知障害の対処の効率化を行い、複数の未知障害処理を並列に実行しつつ、関連する未知障害については、対処を重複することなく並列して速やかにおこなうことが可能な障害管理プログラム、障害管理装置および障害管理方法を提供することを目的とする。
【課題を解決するための手段】
【0013】
上述した問題を解決し、目的を達成するため、本発明は、対象装置において発生した障害を管理する障害管理処理をコンピュータ装置に実行させる障害管理プログラムであって、前記対象装置において発生した障害が、対処法が確立されている既知障害であるか否かを判定する既知障害判定手順と、前記既知障害判定手順によって既知障害であると判定されなかった場合に、前記障害を未知障害とし、過去に未知障害と判定された既存の未知障害との関連性の有無を判定する未知障害関連性判定手順と、前記未知障害関連性判定手順によって、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化する未知障害グループ化手順と、前記未知障害グループ化手順によってグループ化された未知障害のグループの対処優先度を決定する対処優先度決定手順と、前記対処優先度決定手順によって対処優先度が決定された前記未知障害のグループを未知障害グループデータベースに登録する未知障害グループ登録手順とを前記コンピュータ装置に実行させることを特徴とする。
【0014】
また、本発明は、上記発明において、前記未知障害関連性判定手順は、前記対象装置において発生した障害の発生現象および該対象装置のシステム構成に基づき、未知障害の発生現象およびシステム構成に既存の未知障害の識別情報が対応付けられて格納されている未知障害グループ化データベースを検索して、前記対象装置において発生した未知障害と、該既存の未知障害との関連性の有無を判定し、前記未知障害グループ化手順は、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化して前記未知障害グループ化データベースに登録することを特徴とする。
【0015】
また、本発明は、上記発明において、前記未知障害グループ化データベースは、障害の発生現象およびシステム構成に既存の未知障害の識別情報、該未知障害のグループの識別情報および該未知障害のグループの対処優先度が対応付けられて格納されており、前記対処優先度決定手順は、前記対象装置において発生した障害の発生現象および該対象装置のシステム構成に基づき、障害の発生現象およびシステム構成に障害への対処優先度が対応付けられて格納されている対処優先度判定データベースを検索して、前記未知障害グループ化手順によってグループ化された未知障害のグループの対処優先度を決定し、該決定された対処優先度を前記未知障害グループ化データベースに格納される前記未知障害のグループの対処優先度に設定することを特徴とする。
【0016】
また、本発明は、上記発明において、前記未知障害グループ登録手順によって前記未知障害グループデータベースに登録された前記未知障害のグループは、対処優先度の高い順序で対処がおこなわれ、前記対処の結果である前記未知障害のグループの未知障害の対処法および対処コストの入力を受け付ける対処結果入力受け付け手順と、前記対処結果入力受け付け手順によって対処法および対処コストの入力が受け付けられた前記未知障害のステータスを対処完了と更新するステータス更新手順とを前記コンピュータ装置にさらに実行させることを特徴とする。
【0017】
また、本発明は、上記発明において、前記ステータス更新手順によって前記未知障害のステータスが対処完了と更新された場合に、前記未知障害を既知障害として既知障害判定データベースへ登録する既知障害登録手順を前記コンピュータ装置にさらに実行させることを特徴とする。
【0018】
また、本発明は、上記発明において、前記ステータス更新手順によって前記未知障害のステータスが対処完了と更新された場合に、前記対処結果入力受け付け手順によって入力が受け付けられた該未知障害の対処法および対処コストに基づき、前記対処優先度判定データベースの前記対処優先度を更新する対処優先度更新手順を前記コンピュータ装置にさらに実行させることを特徴とする。
【0019】
また、本発明は、対象装置において発生した障害を管理する障害管理処理をおこなう障害管理装置であって、障害の発生現象およびシステム構成に既知障害の識別情報が対応付けられて格納されている既知障害判定データベースと、未知障害の発生現象およびシステム構成に既存の未知障害の識別情報が対応付けられて格納されている未知障害グループ化データベースと、障害の発生現象およびシステム構成に障害への対処優先度が対応付けられて格納されている対処優先度判定データベースと、未知障害のグループを登録する未知障害グループデータベースと、前記対象装置において発生した障害が、対処法が確立されている既知障害であるか否かを、前記既知障害判定データベースを検索して判定する既知障害判定手段と、前記既知障害判定手段によって既知障害であると判定されなかった場合に、前記障害を未知障害とし、過去に未知障害と判定された既存の未知障害との関連性の有無を、前記未知障害グループ化データベースを検索して判定する未知障害関連性判定手段と、前記未知障害関連性判定手段によって、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化して前記未知障害グループ化データベースに登録する未知障害グループ化手段と、前記未知障害グループ化手段によってグループ化されて前記未知障害グループ化データベースに登録された未知障害のグループの対処優先度を、前記対処優先度判定データベースを検索して決定する対処優先度決定手段と、前記対処優先度決定手段によって対処優先度が決定された前記未知障害のグループを前記未知障害グループデータベースに登録する未知障害グループ登録手段とを有することを特徴とする。
【0020】
また、本発明は、対象装置において発生した障害を管理する障害管理を障害管理装置が実行する障害管理方法であって、前記対象装置において発生した障害が、対処法が確立されている既知障害であるか否かを判定する既知障害判定ステップと、前記既知障害判定ステップによって既知障害であると判定されなかった場合に、前記障害を未知障害とし、過去に未知障害と判定された既存の未知障害との関連性の有無を判定する未知障害関連性判定ステップと、前記未知障害関連性判定ステップによって、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化する未知障害グループ化ステップと、前記未知障害グループ化ステップによってグループ化された未知障害のグループの対処優先度を決定する対処優先度決定ステップと、前記対処優先度決定ステップによって対処優先度が決定された前記未知障害のグループを未知障害グループデータベースに登録する未知障害グループ登録ステップとを前記障害管理装置が実行することを特徴とする。
【発明の効果】
【0021】
本発明によれば、対象装置において発生した障害を既知障害と未知障害とに切り分け、対処法の確立していない未知障害については、過去に未知障害と判定された既存の未知障害との関連性に基づきグループ化し、未知障害のグループの対処優先度を決定するので、未知障害の対処を重複することなく平行に対処させ、全体として速やかに未知障害の対処をおこなうことが可能になるという効果を奏する。
【0022】
また、本発明によれば、対象装置において発生した障害を、障害の発生現象およびシステム構成に基づいて既知障害判定データベースを検索することによって、既知障害と未知障害とに切り分けることが可能になるという効果を奏する。
【0023】
また、本発明によれば、対象装置において発生した障害を、障害の発生現象およびシステム構成に基づいて未知障害グループ化データベースを検索することによって、関連性のある未知障害をグループ化することが可能になるという効果を奏する。
【0024】
また、本発明によれば、未知障害のグループの対処優先度を、障害の発生現象およびシステム構成に基づき対処優先度判定データベースを検索することによって決定し、決定された対処優先度を未知障害グループ化データベースの未知障害のグループの対処優先度に設定するので、対処優先度が高い順序で未知障害のグループに効率的に対処することが可能になるという効果を奏する。
【0025】
また、本発明によれば、対処結果入力受け付け手順によって対処法および対処コストの入力が受け付けられた未知障害のステータスを対処完了と更新するので、未知障害の対処状況を把握することが可能になるという効果を奏する。
【0026】
また、本発明によれば、未知障害のステータスが対処完了と更新された場合に、未知障害を既知障害として既知障害判定データベースへ登録するので、未知障害の対処結果を新たな障害が既知障害であるか否かの判定にフィードバックさせることが可能になるという効果を奏する。
【0027】
また、本発明によれば、未知障害のステータスが対処完了と更新された場合に、未知障害を既知障害として前記未知障害データベースから前記既知障害データベースへと移動させるので、対処済みの未知障害を既知障害として対処法を実行させることが可能になるという効果を奏する。
【0028】
また、本発明によれば、未知障害のステータスが対処完了と更新された場合に、入力が受け付けられた未知障害の対処法および対処コストに基づき、対処優先度判定データベースの対処優先度を更新するので、未知障害の対処結果を新たな障害が既知障害であるか否かの判定にフィードバックさせ、さらに効率的に障害に対処することが可能になるという効果を奏する。
【0029】
また、本発明によれば、未知障害のステータスが対処完了と更新された場合に、未知障害グループ化データベースから該未知障害の識別情報を削除するので、当該未知障害グループの障害原因を絞り込み、対処を効率化させることが可能になるという効果を奏する。
【0030】
また、本発明によれば、同一の未知障害のグループ中にステータスが対処完了と更新されなかった未知障害が存在する場合に、該同一の未知障害のグループの該ステータスが対処完了と更新されていない未知障害すべてについて再度既知障害であるか否かを判定するので、対処法が確立できなかった障害を放置することなく、より確実に対処法を確立させることが可能になるという効果を奏する。
【発明を実施するための最良の形態】
【0031】
以下に添付図面を参照し、本発明の障害管理プログラム、障害管理装置および障害管理方法にかかる実施例を詳細に説明する。なお、本発明の障害管理プログラム、障害管理装置および障害管理方法が対象とする対象装置は、各種サービスを提供するサーバであるとするが、これに限定されず、障害情報を出力する電子機器であれば広く一般的に適用可能である。
【実施例】
【0032】
先ず、実施例の概要について説明する。図1は、実施例の概要を示す図である。同図に示すように、先ず、障害管理装置は、(1)障害対処管理装置であるサーバa、・・・、サーバxから出力された障害情報が、実施例の障害管理装置へと入力される。(2)そして、障害管理装置は、入力された障害情報を、対処法が確立されていない未知障害と、対処法が確立されている既知障害とに切り分ける。
【0033】
障害管理装置は、既知障害を、各問題対処チームに割り振る。各問題対処チームは、既に確立されている既知の技術を利用して対処法の実行をおこなう。一方、障害管理装置は、未知障害を、(3)過去に未知障害と判定された既存の未知障害との関連性に基づきグループ化し、各グループに対処優先度を付与する。
【0034】
(4)続いて、障害管理装置は、グループ化された未知障害を、対処優先度の順序で、各問題解決チームへと振り分ける。各問題解決チームは、障害が発生したサーバの各種ログや設定ファイルを調査して原因の特定をおこない、対処法を確立する。
【0035】
(5)そして、各問題解決チームによって対処法が確立され解決された未知障害は、既知障害として、各問題対処チームへ対処法とともに送られることとなる。各問題解決チームによって対処法が確立され解決された未知障害は、最終的に、問題対処チームが、問題解決チームによって確立された対処法を実行することによって、解消されることとなる。なお、問題対処チームと問題解決チームを同一の担当者が兼ねる場合もある。
【0036】
ここで、関連性に基づいて未知障害をグループ化されることによって、原因が同一であろうと推定される未知障害は、グループ化されて、1つの問題解決チームへと振り分けられることとなる。これにより、原因が同一であろうと推定される未知障害が複数の問題解決チームによって重複して原因の特定がおこなわれるという手順の無駄を回避することができる。
【0037】
また、原因が同一であろうと推定される未知障害は同一のグループにグループ化され、原因が同一ではないであろうと推定される未知障害は別のグループにグループ化されることから、未知障害のグループ単位で未知障害を複数の問題解決チームに割り振ることにより、原因の特定の作業の重複なしに、平行して複数の未知障害のグループの原因の特定が可能となり、効率的に問題解決作業をおこなうことができる。
【0038】
さらに、未知障害のグループを、対処優先度の順序で複数の問題解決チームに割り振ることから、より対処の緊急性および重要性が高い未知障害から原因が特定され、対処法が確立される可能性が高まる。
【0039】
次に、障害管理装置の構成について説明する。図2は、障害管理装置の構成を示す機能ブロック図である。同図に示すように、実施例にかかる障害管理装置100は、インシデントにかかる情報を起票したインシデント情報を管理するインシデントDB(Data Base、データベース)装置200と、確立された対処法を障害が発生した障害対処対象装置に適用して問題に対処する作業をおこなう問題対処チームのインターフェースである問題対処チーム端末400と、対処法が確立されていない障害の原因特定と対処法を確立する作業をおこなう問題解決チームのインターフェースである問題解決チーム端末500と通信可能に接続されている。
【0040】
なお、図示は省略しているが、問題対処チーム端末400および問題解決チーム端末500は、複数の問題対処チームおよび複数の問題解決チームそれぞれに対応して複数台が設置されていることが一般的である。
【0041】
また、インシデントDB装置200は、インシデントDB装置200で管理されるインシデント情報に関わる入出力操作をおこなうためのインシデント情報入出力端末300と通信可能に接続されている。
【0042】
障害対処対象装置600a、・・・600xから出力されたインシデントに基づき、作業者によるインシデント情報入出力端末300の操作によって、インシデントDB202にインシデント情報が追加される。インシデントDB装置200は、データベース管理システムであるインシデント情報管理処理部201と、インシデントDB202とを含む。
【0043】
障害対処対象装置600a、・・・600xから出力されたインシデントが新規のインシデントであれば、インシデント情報入出力端末300から、障害の発生現象や障害が発生したシステム構成などが入力されたことに基づいて、インシデント情報管理処理部201は、新規のインシデント情報のエントリを生成する。そして、インシデント情報管理処理部201は、新規のエントリのインシデントID(インシデントを一意に識別するための情報)、発生現象、システム構成などを障害管理装置100へと送信する。
【0044】
一方、障害対処対象装置600a、・・・600xから出力されたインシデントが既存のインシデントであれば、インシデント情報入出力端末300からの操作に基づき、インシデント情報管理処理部201は、既存のインシデント情報のエントリに情報を追加する。
【0045】
インシデント情報管理処理部201は、障害管理装置100から出力されてきたインシデント情報を、インシデントDB202に格納されている、対応するインシデント情報のエントリに追加する。また、インシデント情報管理処理部201は、インシデント情報のステータス(インシデントへの対応状況)を管理する。
【0046】
インシデントDB202は、図3に例示するようなインシデント情報テーブルを格納している。インシデント情報テーブルは、少なくとも「インシデントID」と、「発生現象」と、「システム構成」と、「登録日時」と、「報告者情報」と、「ステータス」と、「障害原因分析結果」と、「対処法」と、「解決日時」とのカラムを有する。
【0047】
「インシデントID」は、当該インシデント情報のエントリを一意に識別するための情報である。「発生現象」が、障害対処対象装置で発生した障害の現象である。「システム構成」は、障害が発生した障害対処対象装置のハードウェアおよびソフトウェアの構成である。「登録日時」は、当該インシデント情報のエントリが作成された日時である。
【0048】
「報告者情報」は、当該インシデント情報を報告した報告者の識別情報および連絡先などである。「ステータス」は、当該インシデント情報への対応状況を示し、例えば、対処法未確立状態であれば“オープン”、対応保留状態であれば“ターミネート”、対処法確立状態であれば“クローズ”がセットされる。
【0049】
「障害原因分析結果」は、問題解決チームによって特定されて、問題解決チーム端末500から入力された障害の原因である。「対処法」は、問題解決チームによって確立されて、問題解決チーム端末500から入力された障害への対処法である。「解決日時」は、障害への対処法が確立されて、「対処法」がインシデント情報に追加された日時である。
【0050】
障害管理装置100は、制御部101と、記憶部102と、インシデントDB装置200、問題対処チーム端末400および問題解決チーム端末500と通信をおこなうための通信インターフェースである入出力インターフェース部103とを有する。
【0051】
制御部101は、障害管理装置100の全体制御をつかさどるマイクロ・コンピュータなどの制御装置であり、実施例に関連する構成として、既知障害判定処理部101aと、既知障害振り分け処理部101bと、未知障害グループ化処理部101cと、未知障害グループ対処優先度設定処理部101dと、未知障害振り分け処理部101eと、対処法入力受け付け処理部101fと、インシデントクローズ処理部101gとを有する。
【0052】
既知障害判定処理部101aは、インシデントDB装置200から入力された新たなインシデントID、障害の発生現象およびシステム構成などを含むインシデント情報が、既知障害であるか否かを、後述する既知障害DB102aを検索して判定する。
【0053】
インシデントDB装置200から入力された新たなインシデント情報が既知障害判定処理部101aによって既知であると判定された場合は、該インシデント情報は、後述する既知障害プールDB102bに、既知障害として登録される。
【0054】
既知障害振り分け処理部101bは、既知障害プールDB102bに登録されている既知障害を、所定のルールに従って問題対処チームに振り分けるために、いずれかの問題対処チームの問題対処チーム端末400へと送信する。そして、問題対処チーム端末400で既知障害の内容を確認した問題対処チームによって、対象となる障害対処対象装置へ確立された対処法が適用され、障害への対処がおこなわれる。
【0055】
インシデントDB装置200から入力された新たなインシデント情報が既知障害判定処理部101aによって既知であると判定されなかった場合は、該新たなインシデント情報は、未知障害として、未知障害グループ化処理部101cによってグループ化される。
【0056】
具体的には、未知障害グループ化処理部101cは、障害の発生現象およびシステム構成などが一致するインシデント情報は、同一の原因に基づくと推定されることから、後述する未知障害グループ化DB102cを検索して、障害の発生現象およびシステム構成などが同一の未知障害グループに新たなインシデント情報を追加する。
【0057】
また、未知障害グループ化処理部101cは、未知障害グループ化DB102cを検索しても、障害の発生現象およびシステム構成などが同一の未知障害グループが存在しない場合には、新規に未知障害グループを作成し、この新規の未知障害グループに新たなインシデント情報を追加する。
【0058】
未知障害グループ化処理部101cによって、新たなインシデント情報が未知障害グループ化DB102cに追加されると、未知障害グループ対処優先度設定処理部101dは、後述する対処優先度判定DB102dを検索して、未知障害グループ化DB102cに登録されている未知障害グループそれぞれに優先度を設定する。
【0059】
そして、未知障害グループ対処優先度設定処理部101dは、未知障害グループそれぞれに優先度を設定したのち、後述する未知障害プールDB102eに登録されている未知障害グループのうち新たなインシデント情報が追加された未知障害グループおよび優先度が変更された未知障害グループのエントリを更新し、新規に作成された未知障害グループのエントリを未知障害プールDB102eに追加する。
【0060】
未知障害振り分け処理部101eは、未知障害プールDB102eに登録されている未知障害グループを、未知障害グループ対処優先度設定処理部101dによって設定された対処優先度の順序で取り出し、問題解決チームに振り分けるために、いずれかの問題対処チームの問題解決チーム端末500へと送信する。そして、問題解決チーム端末500で未知障害の内容を確認した問題対処チームによって、対象となる障害対処対象装置の障害原因の特定と、対処法の確立と、対処工数の算定とがおこなわれる。
【0061】
なお、上記対処工数は、当該障害の重要度を示す指標の一例であり、これに限定されず、当該障害の影響範囲、影響度、損害額など、損害の重要性や影響度を示す指標であれば、いずれであってもよい。
【0062】
問題解決チームは、未知障害の障害原因を特定し、対処法を確立したならば、該障害原因および該対処法を問題解決チーム端末500から入力して障害管理装置100へと送信する。障害管理装置100の対処法入力受け付け部101fは、問題解決チーム端末500から送信されてきた該障害原因および該対処法を受け付けて、未知障害グループ化DB102cに登録されている、対応する未知障害グループのインシデント情報に追加する。
【0063】
インシデントクローズ処理部101gは、原因が特定され対処法が確立された未知障害のインシデント情報をクローズするように、インシデントDB装置200に対して指示する。また、インシデントクローズ処理部101gは、クローズされたインシデント情報の対処工数に基づき、対処優先度判定DB102dの対処優先度判定テーブルの対処優先度を更新する。
【0064】
また、インシデントクローズ処理部101gは、同一の未知障害グループのすべての未知障害の原因が特定され対処法が確立されたならば、未知障害グループ化DB102cから対応する該未知障害グループのエントリを削除する。
【0065】
さらに、インシデントクローズ処理部101gは、未知障害プールDB102eから、すべての未知障害の原因が特定され対処法が確立された未知障害グループのエントリを、既知障害プールDB102bへと移動させる。また、未知障害プールDB102eから、すべての未知障害の原因が特定され対処法が確立された未知障害グループの発生現象、システム構成およびインシデントIDを抽出して、既知障害DB102aに登録する。
【0066】
記憶部102は、DBを構成する記憶装置である。記憶部102は、具体的には、既知障害DB102aと、既知障害プールDB102bと、未知障害グループ化DB102cと、対処優先度判定DB102dと、未知障害プールDB102eとを含む。
【0067】
既知障害DB102aは、図4に例示するような既知障害判定テーブルを格納している。既知障害判定テーブルは、少なくとも「発生現象」と、「システム構成」と、「既知障害」とのカラムを有する。「発生現象」は、インシデント情報に含まれる、障害対処対象装置で発生した障害の現象である。「システム構成」は、障害が発生した障害対処対象装置のハードウェアおよびソフトウェアの構成である。「既知障害」は、障害への対処法が確立されているインシデント情報を一意に識別するための情報である。
【0068】
既知障害プールDB102bは、図5に例示するような既知障害プールテーブルを格納している。既知障害プールテーブルは、「既知障害」のカラムを有する既知障害のインシデントIDのリストである。このリストにインシデントIDが登録されているインシデント情報は、既知障害に対応する。
【0069】
未知障害グループ化DB102cは、図6に例示するような未知障害グループ化テーブルを格納している。未知障害グループ化テーブルは、未知障害グループのエントリを有し、少なくとも「発生現象」と、「システム構成」と、「ユーザ」と、「エリア」と、「関連する未知障害」と、「未知障害グループID」と、「対処優先度」とのカラムを有する。「発生現象」は、インシデント情報に含まれる、障害対処対象装置で発生した障害の現象である。
【0070】
また、「システム構成」は、障害が発生した障害対処対象装置のハードウェアおよびソフトウェアの構成である。「ユーザ」は、当該インシデント情報を報告した報告者の識別情報である。「エリア」は、当該インシデント情報に対応する障害が発生した障害対処対象装置が設置されているエリアに関する情報である。なお、「ユーザ」および「エリア」は、一つのエントリに複数格納されてもよい。
【0071】
「関連する未知障害」は、「発生現象」および「システム構成」が同一であるインシデント情報のインシデントIDを格納する。「未知障害グループID」は、当該インシデント情報の未知障害グループを一意に識別するための識別情報である。「対処優先度」は、未知障害グループへの対応優先度を示す。
【0072】
既知障害プールテーブルによって、「発生現象」および「システム構成」が同一であるインシデント情報が同一のグループにグループ化される。「発生現象」および「システム構成」が同一であれば、障害原因および対処法が同一である可能性が高いので、未知障害グループ単位で問題解決チームに割り振ることで、障害原因特定および対処法の確立の作業が複数の問題解決チームによって重複してなされる無駄を回避することができる。また、複数の問題解決チームによって、異なる未知障害グループ他の対応を平行しておこなうことができる。
【0073】
また、既知障害プールテーブルにおいては、各未知障害グループに対処優先度が設定されているので、対処優先度の順序で対応して、緊急性や重要性が高い障害を早期に解決する可能性を高めることができる。
【0074】
対処優先度判定DB102dは、図7に例示するような対処優先度判定テーブルを格納している。対処優先度判定テーブルは、少なくとも「発生現象」と、「システム構成」と、「対処優先度」とのカラムを有する。前述のインシデントグループ化テーブルの「発生現象」または「システム構成」のうちの少なくとも一つが対処優先度判定テーブルの「発生現象」および「システム構成」と一致する場合に、対応する対処優先度を、インシデントグループ化テーブルの「対処優先度」に設定することになる。
【0075】
未知障害プールDB102eは、図8に例示するような未知障害プールテーブルを格納している。未知障害プールテーブルは、「未知障害グループID」と、「未知障害」のカラムを有する未知障害のインシデントIDのリストである。「未知障害グループID」は、当該インシデント情報の未知障害グループを一意に識別するための識別情報である。「未知障害」は、未知障害に対応するインシデントIDである。このリストにインシデントIDが登録されているインシデント情報は、未知障害に対応する。
【0076】
次に、実施例にかかる障害管理装置100で実行される未知障害登録処理について説明する。図9は、未知障害登録処理手順を示すフローチャートである。同図に示すように、先ず、既知障害判定処理部101aは、新規のインシデント情報がインシデントDB202に登録されたことを通知されたか否かを判定する(ステップS101)。
【0077】
新規のインシデント情報がインシデントDB202に登録されたことを通知されたと判定された場合に(ステップS101肯定)、ステップS102へ移り、新規のインシデント情報がインシデントDB202に登録されたことを通知されたと判定されなかった場合に(ステップS101否定)、ステップS101を繰り返す。
【0078】
ステップS102では、既知障害判定処理部101aは、既知障害DB102aの既知障害判定テーブルを参照して、新規のインシデント情報が既知障害であるか、未知障害であるかを判定する。
【0079】
ステップS102の判定結果が、新規のインシデント情報が既知障害であるとされた場合に(ステップS103肯定)、ステップS104へ移り、新規のインシデント情報が未知障害であるとされた場合に(ステップS103否定)、ステップS105へ移る。ステップS104では、既知障害判定処理部101aは、新規のインシデント情報を既知障害プールDB102bの既知障害プールテーブルに追加する。
【0080】
一方、ステップS105では、未知障害グループ化処理部101cは、未知障害グループ化DB102cの未知障害グループ化テーブルを参照して、新規のインシデント情報の「発生現象」および「システム構成」が一致する未知障害グループが存在するか否かを判定する。「発生現象」および「システム構成」が一致する未知障害グループが存在する場合には(ステップS106肯定)、新規のインシデント情報のインシデントIDを該未知障害グループに追加する(ステップS107)。この処理が終了すると、ステップS109へ移る。
【0081】
未知障害グループ化処理部101cは、未知障害グループ化DB102cの未知障害グループ化テーブルを参照して、新規のインシデント情報の「発生現象」および「システム構成」が一致する未知障害グループが存在しない場合には(ステップS106否定)、新規の未知障害グループを作成して、新規のインシデント情報のインシデントIDを該新規の未知障害グループに追加する(ステップS108)。この処理が終了すると、ステップS109へ移る。
【0082】
ステップS109では、未知障害グループ対処優先度設定処理部101dは、対処優先度判定DB102dの対処優先度判定テーブルを参照して、未知障害グループ化テーブルの「発生現象」または「システム構成」のうちの少なくとも一つが対処優先度判定テーブルの「発生現象」および「システム構成」と一致する場合に、対応する対処優先度を、インシデントグループ化テーブルの「対処優先度」に設定する。
【0083】
続いて、未知障害グループ対処優先度設定処理部101dは、未知障害グループそれぞれに優先度を設定したのち、未知障害プールDB102eの未知障害プールテーブルに登録されている既存の未知障害グループのうち新たなインシデント情報が追加された未知障害グループおよび優先度が変更された未知障害グループのエントリを更新し、新規に作成された未知障害グループのエントリを未知障害プールDB102eに追加する(ステップS110)。
【0084】
次に、実施例にかかる障害管理装置100で実行される未知障害対処後処理について説明する。図10は、未知障害対処後処理手順を示すフローチャートである。同図に示すように、先ず、未知障害振り分け処理部101eは、未知障害プールDB102eの未知障害プールテーブルに登録されている未知障害グループを、未知障害グループ対処優先度設定処理部101dによって設定された対処優先度の順序で取り出し、問題解決チームに振り分けるために、いずれかの問題対処チームの問題解決チーム端末500へと送信する(ステップS201)。そして、問題解決チーム端末500で未知障害の内容を確認した問題対処チームによって、対象となる障害対処対象装置の障害原因の特定と、対処法の確立と、対処工数の算定がおこなわれる。
【0085】
続いて、対処法入力受け付け処理部101fは、対象となる障害対処対象装置の障害原因、対処法および対処工数が入力されたか否かを判定する(ステップS202)。対象となる障害対処対象装置の障害原因、対処法および対処工数が入力されたと判定された場合(ステップS202肯定)、ステップS203へ移り、対象となる障害対処対象装置の障害原因、対処法および対処工数が入力されたと判定されなかった場合(ステップS202否定)、ステップS202を繰り返す。
【0086】
続いて、インシデントクローズ処理部101gは、当該未知障害グループのうち、障害原因、対処法および対処工数が入力されたインシデント情報をクローズする(ステップS203)。続いて、インシデントクローズ処理部101gは、クローズされたインシデント情報の対処にかかる工数に基づき、優先度判定テーブルの対処優先度を更新する(ステップS204)。
【0087】
続いて、インシデントクローズ処理部101gは、クローズされたインシデント情報の現象およびシステム構成に基づき未知障害グループ化DB102cのインシデントグループ化テーブルを更新する。具体的には、問題解決チーム端末500から送信されてきた障害原因および対処法を、未知障害グループ化DB102cに登録されている、対応する未知障害グループのインシデント情報に追加する(ステップS205)。
【0088】
続いて、インシデントクローズ処理部101gは、クローズされたインシデント情報を、既知障害DB102aの既知障害判定テーブルに登録する(ステップS206)。続いて、クローズされたインシデント情報を、未知障害プールDB102eから既知障害プールDB102bへ移動させる(ステップS207)。
【0089】
続いて、インシデントクローズ処理部101gは、当該未知障害グループの全てのインシデント情報がクローズされたか否かを判定する(ステップS208)。当該未知障害グループの全てのインシデント情報がクローズされたと判定された場合(ステップS208肯定)、ステップS209へ移り、当該未知障害グループの全てのインシデント情報がクローズされたと判定されなかった場合(ステップS208否定)、ステップS210へ移る。
【0090】
ステップS209では、未知障害プールDB102eに登録されている全ての未知障害グループが解決されたか否かを判定する。未知障害プールDB102eに登録されている全ての未知障害グループが解決されたと判定された場合(ステップS209肯定)、未知障害対処後処理は終了する。未知障害プールDB102eに登録されている全ての未知障害グループが解決されたと判定されなかった場合(ステップS209否定)、ステップS201へ移る。
【0091】
一方、ステップS210では、既知障害判定処理部101aは、当該未知障害グループのクローズされていない全てのインシデント情報が既知障害または未知障害であるかを再び判定する。ステップS210の判定結果が、すべてのインシデント情報が既知障害であるとされた場合に(ステップS211肯定)、未知障害対処後処理は終了する。
【0092】
インシデント情報のうち未知障害であるとされたものが存在する場合に(ステップS211否定)、ステップS212へ移る。ステップS212では、未知障害グループ化処理部101cは、当該未知障害グループのクローズされていないすべてのインシデント情報の、既存の未知障害のグループのインシデント情報との関連を判定する(ステップS212)。
【0093】
当該未知障害グループのクローズされていないインシデント情報が、既存の未知障害グループのインシデント情報と関連があると判定された場合に(ステップS213肯定)、ステップS214へ移り、当該未知障害グループのクローズされていないインシデント情報が、既存の未知障害グループのインシデント情報と関連があると判定されなかった場合に(ステップS213否定)、ステップS215へ移る。
【0094】
ステップS214では、未知障害グループ化処理部101cは、当該未知障害グループのクローズされていないインシデント情報を、未知障害グループ化DB102cの未知障害グループ化テーブルの既存の未知障害グループに追加する。
【0095】
続いて、未知障害グループ対処優先度設定処理部101dは、当該未知障害グループの優先度を設定する(ステップS216)。一方、ステップS215では、未知障害グループ化処理部101cは、新規の未知障害グループを作成し、当該未知障害グループのクローズされていないインシデント情報を追加する。ステップS215が終了すると、ステップS216へ移る。
【0096】
続いて、未知障害グループ対処優先度設定処理部101dは、当該未知障害グループのクローズされていないインシデント情報を含む未知障害グループの情報を、未知障害プールDB102eに登録する(ステップS217)。続いて、未知障害グループ対処優先度設定処理部101dは、当該未知障害グループのクローズされていない全てのインシデント情報が未知障害プールDB102eに登録されたか否かを判定する(ステップS218)。
【0097】
当該未知障害グループのクローズされていない全てのインシデント情報が未知障害プールDB102eに登録されたと判定された場合(ステップS218肯定)、未知障害対処後処理は終了し、当該未知障害グループのクローズされていない全てのインシデント情報が未知障害プールDB102eに登録されたと判定されなかった場合(ステップS218否定)、ステップS213へ移る。
【0098】
ステップS201以降の処理をおこなう目的は、次のようなものである。すなわち、ある未知障害のインシデント情報がクローズされたならば、未知障害プール内の未知障害の幾つかは既知障害になっている可能性がある。また、対処優先度も変化する可能性がある。そのため、未知障害プール内の未知障害を、既知障害判定処理部101aに送り、既知障害判定をやり直す。これにより、既知になった障害は未知障害プール内に存在しなくなり、対処優先度の見直しにより、問題解決チームは、常に最も重要な障害から対処することになる。
【0099】
上記実施例によれば、対処法の確立していない未知障害が複数同時に発生しても、当該未知障害の調査を重複せず対応することができるとともに、互いに原因が無関係である可能性が高い未知障害に平行して対応することができる。
【0100】
すなわち、原因が同じである可能性が高い未知障害を一つのグループにし、そのグループに属する未知障害に同時に一つのみ対処することで、原因が同じである未知障害の原因調査を重複して行うことを低減できる。また、別のグループについては原因が同じである可能性が低いので、平行して対処することができる。
【0101】
また、ある未知障害の対処法が確立したとき、それを契機として同一グループの残りの未知障害について優先的に対処するようにすることで、重要な未知障害の対処を、対処法確立までにかかる時間を削減して、効率的に行うことが可能になる。
【0102】
以上、本発明の実施例を説明したが、本発明は、これに限られるものではなく、特許請求の範囲に記載した技術的思想の範囲内で、更に種々の異なる実施例で実施されてもよいものである。また、実施例に記載した効果は、これに限定されるものではない。
【0103】
既知障害判定テーブルは、これを作成せずに、インシデント情報を登録したインシデントDB202を検索して既知障害であるか否かを判定することとしてもよい。また、既知障害判定は、検索の効率化のために、既知障害判定テーブルに代えて、失敗木(Fault Tree)などの木構造のデータでおこなってもよい。
【0104】
未知障害グループ化テーブルは、未知障害が新たに未知障害プールに登録されるごとに作成し直す際は、全てではなく部分的にのみ作成し直してもよい。また、未知障害グループ化テーブルは、未知障害のインシデント情報がクローズされるごとに作成し直す際は、全てではなく部分的にのみ作成し直してもよい。また、優先度判定テーブルは、未知障害のインシデント情報がクローズされるごとに作成し直す際は、全てではなく部分的にのみ作成し直しても良い。
【0105】
また、上記実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記実施例で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0106】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0107】
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現されてもよい。
【0108】
(付記1)対象装置において発生した障害を管理する障害管理処理をコンピュータ装置に実行させる障害管理プログラムであって、
前記対象装置において発生した障害が、対処法が確立されている既知障害であるか否かを判定する既知障害判定手順と、
前記既知障害判定手順によって既知障害であると判定されなかった場合に、前記障害を未知障害とし、過去に未知障害と判定された既存の未知障害との関連性の有無を判定する未知障害関連性判定手順と、
前記未知障害関連性判定手順によって、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化する未知障害グループ化手順と、
前記未知障害グループ化手順によってグループ化された未知障害のグループの対処優先度を決定する対処優先度決定手順と、
前記対処優先度決定手順によって対処優先度が決定された前記未知障害のグループを未知障害グループデータベースに登録する未知障害グループ登録手順と
を前記コンピュータ装置に実行させることを特徴とする障害管理プログラム。
【0109】
(付記2)前記既知障害判定手順は、前記対象装置において発生した障害の発生現象および該対象装置のシステム構成に基づき、障害の発生現象およびシステム構成に既知障害の識別情報が対応付けられて格納されている既知障害判定データベースを検索して、前記対象装置において発生した障害が、対処法が確立されている既知障害であるか否かを判定することを特徴とする付記1に記載の障害管理プログラム。
【0110】
(付記3)前記未知障害関連性判定手順は、前記対象装置において発生した障害の発生現象および該対象装置のシステム構成に基づき、未知障害の発生現象およびシステム構成に既存の未知障害の識別情報が対応付けられて格納されている未知障害グループ化データベースを検索して、前記対象装置において発生した未知障害と、該既存の未知障害との関連性の有無を判定し、
前記未知障害グループ化手順は、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化して前記未知障害グループ化データベースに登録することを特徴とする付記1または2に記載の障害管理プログラム。
【0111】
(付記4)前記未知障害グループ化データベースは、障害の発生現象およびシステム構成に既存の未知障害の識別情報、該未知障害のグループの識別情報および該未知障害のグループの対処優先度が対応付けられて格納されており、
前記対処優先度決定手順は、前記対象装置において発生した障害の発生現象および該対象装置のシステム構成に基づき、障害の発生現象およびシステム構成に障害への対処優先度が対応付けられて格納されている対処優先度判定データベースを検索して、前記未知障害グループ化手順によってグループ化された未知障害のグループの対処優先度を決定し、該決定された対処優先度を前記未知障害グループ化データベースに格納される前記未知障害のグループの対処優先度に設定することを特徴とする付記1、2または3に記載の障害管理プログラム。
【0112】
(付記5)前記未知障害グループ登録手順によって前記未知障害グループデータベースに登録された前記未知障害のグループは、対処優先度の高い順序で対処がおこなわれ、
前記対処の結果である前記未知障害のグループの未知障害の対処法および対処コストの入力を受け付ける対処結果入力受け付け手順と、
前記対処結果入力受け付け手順によって対処法および対処コストの入力が受け付けられた前記未知障害のステータスを対処完了と更新するステータス更新手順と
を前記コンピュータ装置にさらに実行させることを特徴とする付記1〜4のいずれか一つに記載の障害管理プログラム。
【0113】
(付記6)前記ステータス更新手順によって前記未知障害のステータスが対処完了と更新された場合に、前記未知障害を既知障害として前記既知障害判定データベースへ登録する既知障害登録手順を前記コンピュータ装置にさらに実行させることを特徴とする付記5に記載の障害管理プログラム。
【0114】
(付記7)前記既知障害判定手順によって、対処法が確立されている既知障害であると判定された前記対象装置において発生した障害を既知障害として既知障害データベースに登録する既知障害データベース登録手順を前記コンピュータ装置にさらに実行させ、
前記既知障害データベース登録手順は、前記ステータス更新手順によって前記未知障害のステータスが対処完了と更新された場合に、前記未知障害を既知障害として前記未知障害グループデータベースから前記既知障害データベースへと移動させることを特徴とする付記5または6に記載の障害管理プログラム。
【0115】
(付記8)前記ステータス更新手順によって前記未知障害のステータスが対処完了と更新された場合に、前記対処結果入力受け付け手順によって入力が受け付けられた該未知障害の対処法および対処コストに基づき、前記対処優先度判定データベースの前記対処優先度を更新する対処優先度更新手順を前記コンピュータ装置にさらに実行させることを特徴とする付記5、6または7に記載の障害管理プログラム。
【0116】
(付記9)前記ステータス更新手順によって前記未知障害のステータスが対処完了と更新された場合に、前記未知障害グループ化データベースから該未知障害の識別情報を削除する未知障害識別情報削除手順を前記コンピュータ装置にさらに実行させることを特徴とする付記5〜8のいずれか一つに記載の障害管理プログラム。
【0117】
(付記10)前記既知障害判定手順は、前記ステータス更新手順によって同一の未知障害のグループ中にステータスが対処完了と更新されなかった未知障害が存在する場合に、該同一の未知障害のグループの該ステータスが対処完了と更新されていない未知障害すべてについて再度既知障害であるか否かを判定することを特徴とする付記5〜9のいずれか一つに記載の障害管理プログラム。
【0118】
(付記11)対象装置において発生した障害を管理する障害管理処理をおこなう障害管理装置であって、
障害の発生現象およびシステム構成に既知障害の識別情報が対応付けられて格納されている既知障害判定データベースと、
未知障害の発生現象およびシステム構成に既存の未知障害の識別情報が対応付けられて格納されている未知障害グループ化データベースと、
障害の発生現象およびシステム構成に障害への対処優先度が対応付けられて格納されている対処優先度判定データベースと、
未知障害のグループを登録する未知障害グループデータベースと、
前記対象装置において発生した障害が、対処法が確立されている既知障害であるか否かを、前記既知障害判定データベースを検索して判定する既知障害判定手段と、
前記既知障害判定手段によって既知障害であると判定されなかった場合に、前記障害を未知障害とし、過去に未知障害と判定された既存の未知障害との関連性の有無を、前記未知障害グループ化データベースを検索して判定する未知障害関連性判定手段と、
前記未知障害関連性判定手段によって、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化して前記未知障害グループ化データベースに登録する未知障害グループ化手段と、
前記未知障害グループ化手段によってグループ化されて前記未知障害グループ化データベースに登録された未知障害のグループの対処優先度を、前記対処優先度判定データベースを検索して決定する対処優先度決定手段と、
前記対処優先度決定手段によって対処優先度が決定された前記未知障害のグループを前記未知障害グループデータベースに登録する未知障害グループ登録手段と
を有することを特徴とする障害管理装置。
【0119】
(付記12)対象装置において発生した障害を管理する障害管理を障害管理装置が実行する障害管理方法であって、
前記対象装置において発生した障害が、対処法が確立されている既知障害であるか否かを判定する既知障害判定ステップと、
前記既知障害判定ステップによって既知障害であると判定されなかった場合に、前記障害を未知障害とし、過去に未知障害と判定された既存の未知障害との関連性の有無を判定する未知障害関連性判定ステップと、
前記未知障害関連性判定ステップによって、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化する未知障害グループ化ステップと、
前記未知障害グループ化ステップによってグループ化された未知障害のグループの対処優先度を決定する対処優先度決定ステップと、
前記対処優先度決定ステップによって対処優先度が決定された前記未知障害のグループを未知障害グループデータベースに登録する未知障害グループ登録ステップと
を前記障害管理装置が実行することを特徴とする障害管理方法。
【産業上の利用可能性】
【0120】
本発明は、対象装置で発生した障害が、既知障害であっても、対処法の確立していない未知障害であっても、効率的に対処を行い、複数の未知障害処理を並列に実行しつつ、関連する未知障害については、対処を重複することなく速やかにおこないたい場合に有用である。
【図面の簡単な説明】
【0121】
【図1】実施例の概要を示す図である。
【図2】障害管理装置の構成を示す機能ブロック図である。
【図3】インシデント情報テーブルの例を示す図である。
【図4】既知障害判定テーブルの例を示す図である。
【図5】既知障害プールテーブルの例を示す図である。
【図6】インシデントグループ化テーブルの例を示す図である。
【図7】対処優先度判定テーブルの例を示す図である。
【図8】未知障害プールテーブルの例を示す図である。
【図9】未知障害登録処理手順を示すフローチャートである。
【図10】未知障害対処後処理手順を示すフローチャートである。
【符号の説明】
【0122】
100 障害管理装置
101g インシデントクローズ処理部
101 制御部
101a 既知障害判定処理部
101b 既知障害振り分け処理部
101c 未知障害グループ化処理部
101d 未知障害グループ対処優先度設定処理部
101e 未知障害振り分け処理部
101f 対処法入力受け付け処理部
102 記憶部
102a 既知障害DB
102b 既知障害プールDB
102c 未知障害グループ化DB
102d 対処優先度判定DB
102e 未知障害プールDB
103 入出力インターフェース部
200 インシデントDB装置
201 インシデント情報管理処理部
202 インシデントDB
300 インシデント情報入出力端末
400 問題対処チーム端末
500 問題解決チーム端末
600a、・・・、600x 障害対処対象装置

【特許請求の範囲】
【請求項1】
対象装置において発生した障害を管理する障害管理処理をコンピュータ装置に実行させる障害管理プログラムであって、
前記対象装置において発生した障害が、対処法が確立されている既知障害であるか否かを判定する既知障害判定手順と、
前記既知障害判定手順によって既知障害であると判定されなかった場合に、前記障害を未知障害とし、過去に未知障害と判定された既存の未知障害との関連性の有無を判定する未知障害関連性判定手順と、
前記未知障害関連性判定手順によって、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化する未知障害グループ化手順と、
前記未知障害グループ化手順によってグループ化された未知障害のグループの対処優先度を決定する対処優先度決定手順と、
前記対処優先度決定手順によって対処優先度が決定された前記未知障害のグループを未知障害グループデータベースに登録する未知障害グループ登録手順と
を前記コンピュータ装置に実行させることを特徴とする障害管理プログラム。
【請求項2】
前記未知障害関連性判定手順は、前記対象装置において発生した障害の発生現象および該対象装置のシステム構成に基づき、未知障害の発生現象およびシステム構成に既存の未知障害の識別情報が対応付けられて格納されている未知障害グループ化データベースを検索して、前記対象装置において発生した未知障害と、該既存の未知障害との関連性の有無を判定し、
前記未知障害グループ化手順は、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化して前記未知障害グループ化データベースに登録することを特徴とする請求項1に記載の障害管理プログラム。
【請求項3】
前記未知障害グループ化データベースは、障害の発生現象およびシステム構成に既存の未知障害の識別情報、該未知障害のグループの識別情報および該未知障害のグループの対処優先度が対応付けられて格納されており、
前記対処優先度決定手順は、前記対象装置において発生した障害の発生現象および該対象装置のシステム構成に基づき、障害の発生現象およびシステム構成に障害への対処優先度が対応付けられて格納されている対処優先度判定データベースを検索して、前記未知障害グループ化手順によってグループ化された未知障害のグループの対処優先度を決定し、該決定された対処優先度を前記未知障害グループ化データベースに格納される前記未知障害のグループの対処優先度に設定することを特徴とする請求項2に記載の障害管理プログラム。
【請求項4】
前記未知障害グループ登録手順によって前記未知障害グループデータベースに登録された前記未知障害のグループは、対処優先度の高い順序で対処がおこなわれ、
前記対処の結果である前記未知障害のグループの未知障害の対処法および対処コストの入力を受け付ける対処結果入力受け付け手順と、
前記対処結果入力受け付け手順によって対処法および対処コストの入力が受け付けられた前記未知障害のステータスを対処完了と更新するステータス更新手順と
を前記コンピュータ装置にさらに実行させることを特徴とする請求項1、2または3に記載の障害管理プログラム。
【請求項5】
前記ステータス更新手順によって前記未知障害のステータスが対処完了と更新された場合に、前記未知障害を既知障害として既知障害判定データベースへ登録する既知障害登録手順を前記コンピュータ装置にさらに実行させることを特徴とする請求項4に記載の障害管理プログラム。
【請求項6】
前記ステータス更新手順によって前記未知障害のステータスが対処完了と更新された場合に、前記対処結果入力受け付け手順によって入力が受け付けられた該未知障害の対処法および対処コストに基づき、前記対処優先度判定データベースの前記対処優先度を更新する対処優先度更新手順を前記コンピュータ装置にさらに実行させることを特徴とする請求項4または5に記載の障害管理プログラム。
【請求項7】
対象装置において発生した障害を管理する障害管理処理をおこなう障害管理装置であって、
障害の発生現象およびシステム構成に既知障害の識別情報が対応付けられて格納されている既知障害判定データベースと、
未知障害の発生現象およびシステム構成に既存の未知障害の識別情報が対応付けられて格納されている未知障害グループ化データベースと、
障害の発生現象およびシステム構成に障害への対処優先度が対応付けられて格納されている対処優先度判定データベースと、
未知障害のグループを登録する未知障害グループデータベースと、
前記対象装置において発生した障害が、対処法が確立されている既知障害であるか否かを、前記既知障害判定データベースを検索して判定する既知障害判定手段と、
前記既知障害判定手段によって既知障害であると判定されなかった場合に、前記障害を未知障害とし、過去に未知障害と判定された既存の未知障害との関連性の有無を、前記未知障害グループ化データベースを検索して判定する未知障害関連性判定手段と、
前記未知障害関連性判定手段によって、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化して前記未知障害グループ化データベースに登録する未知障害グループ化手段と、
前記未知障害グループ化手段によってグループ化されて前記未知障害グループ化データベースに登録された未知障害のグループの対処優先度を、前記対処優先度判定データベースを検索して決定する対処優先度決定手段と、
前記対処優先度決定手段によって対処優先度が決定された前記未知障害のグループを前記未知障害グループデータベースに登録する未知障害グループ登録手段と
を有することを特徴とする障害管理装置。
【請求項8】
対象装置において発生した障害を管理する障害管理を障害管理装置が実行する障害管理方法であって、
前記対象装置において発生した障害が、対処法が確立されている既知障害であるか否かを判定する既知障害判定ステップと、
前記既知障害判定ステップによって既知障害であると判定されなかった場合に、前記障害を未知障害とし、過去に未知障害と判定された既存の未知障害との関連性の有無を判定する未知障害関連性判定ステップと、
前記未知障害関連性判定ステップによって、前記未知障害が、前記既存の未知障害と関連性があると判定された場合に、該未知障害を、該既存の未知障害とグループ化する未知障害グループ化ステップと、
前記未知障害グループ化ステップによってグループ化された未知障害のグループの対処優先度を決定する対処優先度決定ステップと、
前記対処優先度決定ステップによって対処優先度が決定された前記未知障害のグループを未知障害グループデータベースに登録する未知障害グループ登録ステップと
を前記障害管理装置が実行することを特徴とする障害管理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate