説明

インシデント管理システム及びインシデント管理方法

【課題】既知インシデントに対する対応を自動的に行うインシデント管理システムの提供。
【解決手段】インシデント管理システム1がユーザコンピュータシステムから受信したインシデントに含まれるエラーメッセージに紐付けされたテンプレートIDを抽出して運用自動化システム2へ送信し、運用自動化システム2が受け取ったテンプレートIDから運用テンプレートの実行に必要な引数情報を運用管理データベース6から抽出してインシデント管理システム1に返信し、インシデント管理システム1が、引数情報を基に構成管理データベース5から運用テンプレートの引数を抽出して運用自動化システム2に送信し、運用自動化システム2が運用プロセスを実行するもの。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータシステムにおけるソフトウェア製品などの障害を表すインシデントを管理するインシデント管理システム及びインシデント管理方法に係り、特に既知のインシデントに対する障害回復等の対応を容易に行うことができるインシデント管理システム及びインシデント管理方法に関する。
【背景技術】
【0002】
近年、企業におけるIT関連予算が主に横ばいにかかわらず、ユーザからの要求は高まる一方であり、例えば、企業内のIT部門は、コスト削減と効率向上を継続的に図りながら、ユーザにより良い迅速なサービスを提供していかなければならず、このために技術領域全体に渡ったITシステム運用プロセスの自動化による運用SE1人あたりの管理サーバ数の増加が必要となってきている。
【0003】
このコンピュータシステムにおけるソフトウェア製品などの障害であるインシデントの解決に関しては、多くの場合人手による作業が必要であり、既知のインシデントの場合、解決事例を基に解決策の策定、運用手順書の作成、復旧作業の実施、相互による実施確認の各手順が必要である。これには多くの工数が必要であり、また作業実施者が“人”であることにより、作業が複雑化するにつれ作業ミスが発生する可能性が高くなるものであった。
【0004】
また、インシデント(障害)発生時に通知されるインシデントデータとは、インシデント番号、日時(障害の発生時刻又は障害通知の受付時刻)、障害が発生したシステムを使用する顧客の顧客コード、障害が発生した機器の機種を表す機種コード、障害が発生した機器を特定するための装置番号、障害の状態(例えば、S:システムダウン、M:マシンダウン、N:ノーダウン[障害が発生したがシステムは動作している状態])と障害がシステムに対して与える影響度のレベル(例えば、A:全社の基幹システムがダウンし、全社的又は社会的な影響が出ているレベル、B:Aより低いが業務に影響があるレベル、C:業務影響なし)を示すエラーコードが含まれる。
【0005】
なお、前記インシデントの解決に関する技術が記載された文献としては、例えば下記特許文献1が挙げられ、この特許文献1には、障害の受け付け時刻等の基準時刻と顧客IDと対象物IDと障害状態と障害の影響度を含む第1インシデント情報の新規登録を検出する工程と、インシデント情報格納部から第1インシデント情報に含まれる顧客IDと対象物IDと一致する対象物IDとを含み且つ基準時刻から所定期間内に受け付けたインシデント情報を抽出する工程と、所定件数以上のインシデント情報が抽出された場合、第1インシデント情報及び抽出インシデント情報の各々について、インシデント情報に含まれる障害状態及び影響度が該当するリスクポイントを取得して、当該リスクポイントを合計することにより総合リスクポイントを算出する工程と、総合リスクポイントが所定の閾値を超えた場合、第1インシデント情報等を含むアラームを出力する工程とを含むことによって、障害が発生したシステム等に内在する問題の根本解決及び顧客対策の観点で対処すべき顧客等を特定する障害対応処理方法が記載されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2010−211674号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
前述の従来技術によるインシデントの解決技術は、インシデント顧客等を特定することによって、障害が発生したシステムなどに内在する問題の根本解決及び当該システムの顧客対策の観点でどのように対処すべき顧客又は機種若しくは機器を特定することができるものの、運用SE1人あたりの管理サーバ数の増加に対応することが困難であるという課題があった。
【0008】
本発明の目的は、前述の従来技術による課題を解決しようとするものであり、既知のインシデントにおいて、解決策の策定と運用手順書の作成と復旧作業の実施と作業実施確認の一連のインシデント解決のプロセスを自動化することができるインシデント管理システム及びインシデント管理方法を提供することである。
【課題を解決するための手段】
【0009】
前記目的を達成するために請求項1記載の本発明は、過去に発生したユーザコンピュータシステムのインシデント事例を格納するための事例管理データベースと、既知インシデントのインシデント番号、日時、顧客コード、機種コード、装置番号、障害の状態を示すエラーコードを格納するインシデントデータベースと、ユーザ毎のコンピュータシステムの構成情報を格納した構成管理データベースと、運用手順を示す運用テンプレート及び引数情報を格納する運用管理データベースを含む運用管理システムとに接続され、インシデントの管理を行うインシデント管理システムであって、
該インシデント管理システムが、ユーザコンピュータシステムからのインシデントを受信したとき、該インシデントに含まれるエラーメッセージを抽出し、該エラーメッセージに紐付けされたテンプレートIDを抽出する第1工程と、該第1工程によって抽出したテンプレートIDを運用自動化システムへと送信する第2工程と、該運用自動化システムが、受け取ったテンプレートIDから運用テンプレートを抽出し、該抽出した運用テンプレートの実行に必要な引数情報を運用管理データベースから抽出する第3工程と、該第3工程によって抽出した引数情報をインシデント管理システムに送信する第4工程と、該第4工程による引数情報を受け取ったインシデント管理システムが、受け取った引数情報を基に構成管理データベースから運用テンプレートの引数となる構成情報を抽出する第5工程と、該第5工程によって抽出した構成情報を運用自動化システムに送信する第6工程と、該第6工程によって構成情報を受け取った運用自動化システムが、障害に対する対策の実施日時をスケジューリングする第7工程と、該第7工程によるスケジュールに従って運用プロセスを実行し、正常に終了したことを確認する第9工程と、該第9工程により正常終了が確認されたとき、実行結果をインシデント管理システムに送信する第10工程と、該第10工程によって実行結果を受信したインシデント管理システムが、実行結果を保存する第11工程とを実行することを第1の特徴とし、該インシデント管理システムにおいて、前記インシデント管理システムが、ユーザコンピュータシステムから受信した複数のインシデントを受信したとき、同一のインシデントをフィルタリングする第12工程を実行することを第2の特徴とする。
【0010】
また、本発明は、過去に発生したユーザコンピュータシステムのインシデント事例を格納するための事例管理データベースと、既知インシデントのインシデント番号、日時、顧客コード、機種コード、装置番号、障害の状態を示すエラーコードを格納するインシデントデータベースと、ユーザ毎のコンピュータシステムの構成情報を格納した構成管理データベースと、運用手順を示す運用テンプレート及び引数情報を格納する運用管理データベースを含む運用管理システムとに接続され、インシデント管理システムによってインシデント管理を行うインシデント管理方法であって、
該インシデント管理システムに、ユーザコンピュータシステムからのインシデントを受信したとき、該インシデントに含まれるエラーメッセージを抽出させ、該エラーメッセージに紐付けされたテンプレートIDを抽出させる第1工程と、該第1工程によって抽出したテンプレートIDを運用自動化システムへと送信させる第2工程と、該運用自動化システムに、受け取ったテンプレートIDから運用テンプレートを抽出させ、該抽出した運用テンプレートの実行に必要な引数情報を運用管理データベースから抽出させる第3工程と、該第3工程によって抽出した引数情報をインシデント管理システムに送信させる第4工程と、該第4工程による引数情報を受け取ったインシデント管理システムに、受け取った引数情報を基に構成管理データベースから運用テンプレートの引数となる構成情報を抽出させる第5工程と、該第5工程によって抽出した構成情報を運用自動化システムに送信させる第6工程と、該第6工程によって構成情報を受け取った運用自動化システムに、障害に対する対策の実施日時をスケジューリングさせる第7工程と、該第7工程によるスケジュールに従って運用プロセスを実行させ、正常に終了したことを確認させる第9工程と、該第9工程により正常終了が確認されたとき、実行結果をインシデント管理システムに送信させる第10工程と、該第10工程によって実行結果を受信したインシデント管理システムに、実行結果を保存する第11工程とを実行させることを第3の特徴とし、該インシデント管理方法において、前記インシデント管理システムに、ユーザコンピュータシステムから受信した複数のインシデントを受信したとき、同一のインシデントをフィルタリングさせる第12工程を実行させることを第4の特徴とする。
【発明の効果】
【0011】
本発明によるインシデント管理システム及びインシデント管理方法は、既知のインシデントに対応するための運用テンプレートに、障害が発生したユーザのコンピュータシステムの構成情報に基づく引数を適用して障害対策を行うように構成したため、既知のインシデントに対する障害対応を自動的に行うことができ、従って既知のインシデントに対する解決策の策定と運用手順書の作成と復旧作業の実施と作業実施確認の一連のインシデント解決のプロセスを自動化し、運用SE1人あたりの管理サーバ数の増加に対応することができる。
【図面の簡単な説明】
【0012】
【図1】本発明の実施形態によるインシデント管理システムを含むコンピュータシステムを示す図。
【図2】本発明の実施形態によるインシデント管理システムの動作説明図。
【図3】本発明の実施形態による運用自動化システムの動作説明図。
【図4】本発明の実施形態による動作シーケンスを示す図。
【発明を実施するための形態】
【0013】
以下、本発明によるインシデント管理システム及びインシデント管理方法の一実施形態を図面を参照して詳細に説明する。
【0014】
本実施形態によるインシデント管理システムを含むコンピュータシステムは、図1に示す如く、過去に発生した障害のインシデント事例を格納するための事例管理データベース3と、既知のインシデントデータ(インシデント番号、日時、顧客コード、機種コード、装置番号、障害の状態を示すエラーコード)を格納するインシデントデータベース4と、ユーザのコンピュータシステムの構成情報を格納した構成管理データベース5と、発生したインシデントをフィルタリングして前記事例管理データベース3からの事例情報とインシデントデータベース4からのインシデントデータとを基にインシデントの管理を行うインシデント管理システム1と、該インシデント管理システム1が抽出した既知のインシデントに対する障害の解決策の策定及び運用手順書の作成を行う運用自動化システム2とから構成される。
【0015】
前記インシデント管理システム1は、図2に示す如く、イベント管理部202とフィルタリング部204とインシデント管理部206と問題管理部207と変更・リリース管理部208とを備え、イベント管理部202がコンピュータシステムに発生した複数のイベント201を入力する工程と、入力としたイベントがインシデント(障害)か否かを判定する工程と、この判定によりインシデントと判定したとき、フィルタリング部204が同一内容のインシデントをフィルタリングする工程と、前記事例管理データベース3に格納した既知のイベントを参照して過去に同様の事例があるか否かを判定する工程と、該工程において過去に同様の事例がないと判定したとき、インシデントメッセージを基に新規インシデントとしてインシデント管理部206に登録し、過去に同様の事例があると判定したとき、事例と結びつけて既知インシデントとしてインシデント管理部206に登録する工程と、インシデントを解決するためのワークアラウンド及び解決策をインシデント管理部206によって策定する工程と、該策定した解決策を変更・リリース管理部208によって実施する工程とを実行することによって、既知のインシデントを自動的に解決することができる。
【0016】
前記運用自動化システム2は、図2に示す如く、ユーザが、運用手順書定義部301を用いて構成管理データベース5の構成情報を参照して運用手順書302を作成して運用管理データベース6に格納する工程と、作成した運用手順書302の実行日時をスケジューリング部303を用いてスケジューリングする工程と、運用手順実行部304が前記運用手順書302に基づいて運用を実行する工程とを実行する。
【0017】
このように構成されたインシデント管理システムを含むコンピュータシステムは、図4に示す如く、インシデント管理システム1が、受け取った既知のインシデントからインシデントに含まれるエラーメッセージを抽出し、該エラーメッセージに紐付けされたテンプレートIDを抽出するステップ401と、該ステップ401によって抽出したテンプレートIDを運用自動化システム2へと送信するステップ402と、運用自動化システム2が受け取ったテンプレートIDから運用テンプレートを抽出し、該抽出した運用テンプレートの実行に必要な引数情報を抽出するステップS403と、該ステップ403によって抽出した引数情報をインシデント管理システム1に送信するステップ404と、このステップ404による引数情報を受け取ったインシデント管理システム1が受け取った引数情報を基に運用管理データベース6から運用テンプレートの引数となる構成情報を抽出するステップ405と、該ステップ405によって抽出した構成情報を運用自動化システム2に送信するステップ406と、該ステップ406によって構成情報を受け取った運用自動化システム2が障害に対する対策の実施日時をスケジューリングするステップ407と、該ステップ407によるスケジュールに従って運用プロセスを実行し、正常に終了したことを確認するステップ408と、該ステップ408により正常終了が確認されたとき、実行結果をインシデント管理システム1に送信するステップ409と、該ステップ409によって実行結果を受信したインシデント管理システム1が実行結果を保存するステップ410を実行することによって、既知のインシデントに対する障害対応を自動的に行うことができる。
【0018】
このように本実施形態によるインシデント管理システム及びインシデント管理方法は、既知のインシデントに対応するための運用テンプレートに、障害が発生したユーザのコンピュータシステムの構成情報に基づく引数を適用して障害対策を行うように構成したため、既知のインシデントに対する障害対応を自動的に行うことができ、従って既知のインシデントに対する解決策の策定と運用手順書の作成と復旧作業の実施と作業実施確認の一連のインシデント解決のプロセスを自動化し、運用SE1人あたりの管理サーバ数の増加に対応することができる。
【符号の説明】
【0019】
1 インシデント管理システム、2 運用自動化システム、
3 事例管理データベース、4 インシデントデータベース、
5 構成管理データベース、6 運用管理データベース、
201 イベント、202 イベント管理部、204 フィルタリング部、
206 インシデント管理部、207 問題管理部、
208 変更・リリース管理部、301 運用手順書定義部、
302 運用手順書、303 スケジューリング部、304 運用手順実行部

【特許請求の範囲】
【請求項1】
過去に発生したユーザコンピュータシステムのインシデント事例を格納するための事例管理データベースと、既知インシデントのインシデント番号、日時、顧客コード、機種コード、装置番号、障害の状態を示すエラーコードを格納するインシデントデータベースと、ユーザ毎のコンピュータシステムの構成情報を格納した構成管理データベースと、運用手順を示す運用テンプレート及び引数情報を格納する運用管理データベースを含む運用管理システムとに接続され、インシデントの管理を行うインシデント管理システムであって、
該インシデント管理システムが、ユーザコンピュータシステムからのインシデントを受信したとき、該インシデントに含まれるエラーメッセージを抽出し、該エラーメッセージに紐付けされたテンプレートIDを抽出する第1工程と、該第1工程によって抽出したテンプレートIDを運用自動化システムへと送信する第2工程と、該運用自動化システムが、受け取ったテンプレートIDから運用テンプレートを抽出し、該抽出した運用テンプレートの実行に必要な引数情報を運用管理データベースから抽出する第3工程と、該第3工程によって抽出した引数情報をインシデント管理システムに送信する第4工程と、該第4工程による引数情報を受け取ったインシデント管理システムが、受け取った引数情報を基に構成管理データベースから運用テンプレートの引数となる構成情報を抽出する第5工程と、該第5工程によって抽出した構成情報を運用自動化システムに送信する第6工程と、該第6工程によって構成情報を受け取った運用自動化システムが、障害に対する対策の実施日時をスケジューリングする第7工程と、該第7工程によるスケジュールに従って運用プロセスを実行し、正常に終了したことを確認する第9工程と、該第9工程により正常終了が確認されたとき、実行結果をインシデント管理システムに送信する第10工程と、該第10工程によって実行結果を受信したインシデント管理システムが、実行結果を保存する第11工程とを実行することを特徴とするインシデント管理システム。
【請求項2】
前記インシデント管理システムが、ユーザコンピュータシステムから受信した複数のインシデントを受信したとき、同一のインシデントをフィルタリングする第12工程を実行することを特徴とする請求項1記載のインシデント管理システム。
【請求項3】
過去に発生したユーザコンピュータシステムのインシデント事例を格納するための事例管理データベースと、既知インシデントのインシデント番号、日時、顧客コード、機種コード、装置番号、障害の状態を示すエラーコードを格納するインシデントデータベースと、ユーザ毎のコンピュータシステムの構成情報を格納した構成管理データベースと、運用手順を示す運用テンプレート及び引数情報を格納する運用管理データベースを含む運用管理システムとに接続され、インシデント管理システムによってインシデント管理を行うインシデント管理方法であって、
該インシデント管理システムに、ユーザコンピュータシステムからのインシデントを受信したとき、該インシデントに含まれるエラーメッセージを抽出し、該エラーメッセージに紐付けされたテンプレートIDを抽出させる第1工程と、該第1工程によって抽出したテンプレートIDを運用自動化システムへと送信させる第2工程と、該運用自動化システムに、受け取ったテンプレートIDから運用テンプレートを抽出させ、該抽出した運用テンプレートの実行に必要な引数情報を構成管理データベースから抽出させる第3工程と、該第3工程によって抽出した引数情報をインシデント管理システムに送信させる第4工程と、該第4工程による引数情報を受け取ったインシデント管理システムに、受け取った引数情報を基に運用管理データベースから運用テンプレートの引数となる構成情報を抽出させる第5工程と、該第5工程によって抽出した構成情報を運用自動化システムに送信させる第6工程と、該第6工程によって構成情報を受け取った運用自動化システムに、障害に対する対策の実施日時をスケジューリングさせる第7工程と、該第7工程によるスケジュールに従って運用プロセスを実行させ、正常に終了したことを確認させる第9工程と、該第9工程により正常終了が確認されたとき、実行結果をインシデント管理システムに送信させる第10工程と、該第10工程によって実行結果を受信したインシデント管理システムに、実行結果を保存させる第11工程とを実行することを特徴とするインシデント管理方法。
【請求項4】
前記インシデント管理システムに、ユーザコンピュータシステムから受信した複数のインシデントを受信したとき、同一のインシデントをフィルタリングする第12工程を実行させることを特徴とする請求項3記載のインシデント管理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2013−8178(P2013−8178A)
【公開日】平成25年1月10日(2013.1.10)
【国際特許分類】
【出願番号】特願2011−140099(P2011−140099)
【出願日】平成23年6月24日(2011.6.24)
【出願人】(000233491)株式会社日立システムズ (394)