インシデント管理システム、障害影響範囲可視化方法
【課題】インシデント管理システム等に係わり、クラウド環境や障害許容性などを考慮した構成の対象システムにおける障害影響範囲などの状況を可視化する技術を提供する。
【解決手段】本インシデント管理システム10は、構成管理システム20等と連携し、対象システム1の構成及び障害影響範囲を含むインシデント状況を可視化する画面(G1)を構成情報及びインシデント情報を用いて作成し、担当者3の端末に提供する第1の機能(101)と、対象システム1における障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして構成情報に設定する第2の機能(102)とを有する。画面(G1)では、構成アイテムをリンクで接続した構造で表示し、障害影響範囲などを色などを変えて表示する。
【解決手段】本インシデント管理システム10は、構成管理システム20等と連携し、対象システム1の構成及び障害影響範囲を含むインシデント状況を可視化する画面(G1)を構成情報及びインシデント情報を用いて作成し、担当者3の端末に提供する第1の機能(101)と、対象システム1における障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして構成情報に設定する第2の機能(102)とを有する。画面(G1)では、構成アイテムをリンクで接続した構造で表示し、障害影響範囲などを色などを変えて表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ITサービス運用管理におけるインシデント管理システムなどの技術に関し、特に、対象システムの構成や障害状況などを把握・可視化する技術などに関する。
【背景技術】
【0002】
ITサービス運用管理におけるインシデント管理などに係わる基準として、ITIL(Information Technology Infrastructure Library)Version3などがある。インシデント管理システムでは、管理対象の情報処理システム(対象システム)で発生する障害などのインシデントをインシデント情報として記録・管理し、インシデントへの対策(対応)やエスカレーションに連携する。
【0003】
対象システムでは、クラウド環境の発展などに伴い、仮想サーバや並列分散処理などの技術が適用されている。また、対象システムでは、サービスレベルなどに基づいて、サーバやデータベースなどの構成部位(構成アイテム)は、障害許容性(フォールト・トレランス等)や性能などを考慮して、多重化構成などで設計・実装されている。
【0004】
先行技術例として、特開2007−257244号公報(特許文献1)(障害影響範囲特定システム等)、特開2009−181537号公報(特許文献2)(インシデント管理システム等)などがある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−257244号公報
【特許文献2】特開2009−181537号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来のインシデント管理システム(及び構成管理システム等の関連システム)では、課題として、対象システムでの障害(インシデント)の発生時の影響範囲や影響先(上位のサービスなど)、及び緊急度やインパクトレベルなどを、担当者(インシデント管理者)が即座に把握することが難しい。よって、それらの把握に基づく優先度などに即した迅速なエスカレーション及び対策の実施などが難しい。特に、対象システムの構成部位が障害許容性などに応じた多重化構成などを採る場合、構成部位(構成アイテム)間での影響関係などが複雑であるため、上記の課題が顕著である。
【0007】
上記課題に対し、対象システムの障害影響範囲などの状況や構成(インシデント状況や運用状況)を画面で可視化する技術などが有効なものとして考えられる。しかし、従来技術では、クラウド環境や障害許容性などを考慮して設計・実装された構成の対象システムにおける障害影響範囲などの状況や構成を画面でわかりやすく可視化する技術について検討・実現が不十分である。
【0008】
本発明の主な目的は、上記インシデント管理システム等に係わり、クラウド環境や障害許容性などを考慮した構成の対象システムにおける、障害影響範囲などの状況や構成、及びインシデント・対策の優先度などの情報を画面で可視化することで、担当者が上記状況などを即座にわかりやすく把握でき、迅速なエスカレーション及び対策の実施などが実現できる技術を提供することである。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本発明の代表的な実施の形態は、インシデント管理システム等であって、以下に示す構成を有することを特徴とする。
【0010】
本インシデント管理システムは、対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理し、前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システムと連携し、担当者の端末に対して情報の画面を提供するサービスポータルシステムと連携し、前記対象システムの障害を含むインシデントを監視する障害監視システムと連携する。本インシデント管理システムは、前記対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、前記担当者の端末に提供する第1の機能と、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する第2の機能と、を有する。
【0011】
そして、前記構成管理モデルでは、前記障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、前記第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定する。前記第1の機能による画面では、前記構成アイテムをリンクで接続した構造で、前記対象システムの構成管理モデル、障害影響範囲及び障害影響先サービスを含むインシデント状況を表示する。
【発明の効果】
【0012】
本発明の代表的なものによれば、インシデント管理システム等に係わり、クラウド環境や障害許容性などを考慮した構成の対象システムにおける、障害影響範囲などの状況や構成、及びインシデント・対策の優先度などの情報を画面で可視化することで、担当者が上記状況などを即座にわかりやすく把握でき、迅速なエスカレーション及び対策の実施などが実現できる。
【図面の簡単な説明】
【0013】
【図1】本発明の一実施の形態のインシデント管理システムを含むコンピュータシステム全体の概要構成例を示す図である。
【図2】本実施の形態のインシデント管理システムに係わる各部の構成例を示す図である。
【図3】本実施の形態における対象システムの構成管理モデル及び正常時の状況を可視化する画面例を示す図である。
【図4】本実施の形態における対象システムの構成管理モデル及び障害時の状況を可視化する画面例を示す図である。
【図5】(a)〜(f)は、本実施の形態における対象システムの障害許容性構成アイテム(FTCI)の障害許容情報の例を示す図である。
【図6】本実施の形態における構成情報(構成アイテム情報)等の例を示す図である。
【図7】本実施の形態における構成アイテムのステータス決定方法の例を示す図である。
【図8】本実施の形態における構成アイテム間の依存関係性の情報の例を示す図である。
【図9】本実施の形態における構成管理モデル(一部)の例を示す図である。
【図10】本実施の形態における優先度算出方法などを示す図である。
【図11】本実施の形態におけるインシデント情報の例を示す図である。
【図12】本実施の形態におけるインシデント画面の例を示す図である。
【図13】従来技術例における画面例を示す図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態(インシデント管理システム、障害影響範囲可視化方法)を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。
【0015】
[概要等]
本実施の形態の概要や特徴などは以下である(図1,図3,図4等)。主な特徴として、本インシデント管理システム10は、障害影響範囲可視化機能101を有し、また、構成管理システム20は、障害許容性構成アイテム(FTCI)設定機能102を有する(図1)。障害影響範囲可視化機能101は、対象システム1の構成及び障害状況(障害影響範囲など)を画面で可視化する機能である。FTCI設定機能102は、対象システム1の構成情報(構成管理モデル)において、サーバ等の構成部位(構成アイテム:CI)の「障害許容性」(障害許容性などを考慮した設計・実装の構成)を、一種の構成アイテム(障害許容性構成アイテム:FTCI)として設定する機能である。
【0016】
構成アイテム(CI)とは、構成管理モデル(構成情報)及び画面(図3等)において、対象システム1を構成するサーバ等の構成部位であり、画面に表示する対象となる要素である。CIは、カテゴリ等に応じて、特定のアイコンなどの表現で表示される。CI間の依存関係性(リンク)も線などで可視化される。CI及びリンクを含んで成る構成管理モデルが設定される。
【0017】
「障害許容性」とは、本技術分野における公知の用語(フォールト・トレランス等)に従ったものであり、対象システム1における障害許容性や性能やサービスレベルなどを考慮した設計・実装の構成に相当し、例えば冗長構成など(物理的・仮想的な多重化・クラスタリングなど)の公知の各種技術が該当する。「障害許容性」は、対象システム1(CI)の設計情報の1つであり、FTCI設定機能102を用いて、担当者3等により、FTCIとして設定が可能となっている。
【0018】
画面(図3,図4等)では、FTCIを含む構成管理モデル上に、本システムでの分析結果など(障害状況など)がマッピングされた情報が可視化される。これにより担当者3は障害影響範囲やエスカレーション先などをわかりやすく即座に把握することができる。
【0019】
[システム構成]
図1で、本インシデント管理システム10を含むコンピュータシステム全体の概要構成例を示す。本インシデント管理システム10は、構成管理システム20、サービスポータルシステム30、障害監視システム40等と連携するシステムである。運用管理・監視、インシデント管理、及び構成管理などのプロセス間の連携がシステム化されている。対象システム1は、インシデント管理運用の対象となる情報処理システム(稼働システム)である。担当者3は、サービスポータルシステム30を利用するユーザやその端末などである。図1のように各システム間は通信可能に接続される。なお各システム(10,20,30,40等)を一体化したシステムとしてもよいし、適宜分割した構成としてもよい。
【0020】
○対象システム1: 対象システム1は、例えば、ネットワーク機器(スイッチ等)、サーバ、ストレージ、データベース、ミドルウェア、アプリケーション、等の構成部位を含んで成り、所定のサービス(サービス処理)を実現する。各構成部位は、例えばログ情報や障害メッセージを保持または出力する。
【0021】
○インシデント管理システム10: インシデント管理システム10は、サーバシステム等により構成され、基本的な機能として、インシデント管理データベース(DB)51に障害情報を含むインシデント情報を管理(登録・検索など)する。インシデント情報は、障害情報、稼働情報(初期診断実行結果情報)、分析結果(優先度など)、等の情報が含まれる(後述、図11等)。またインシデント情報は、対策情報、担当者情報などが含まれ得る(又は関連付けられる)。DB51のインシデント情報(b2)をもとにインシデント画面G2が構成される。
【0022】
またインシデント管理システム10では、構成管理システム20で管理される対象システム1の構成(構成管理モデル)に関して、障害監視システム40での対象システム1の障害監視に基づき、初期診断や分析処理により、構成・運用状況、障害などのインシデントの状況を把握する(障害構成情報b3やインシデント情報b2に反映される)。
【0023】
担当者3等により、インシデント画面G2を通じて、対象システム1での障害などのインシデントに関して、対策情報(対策手順、説明など)や関連情報などを登録したり、検索したりすることができる。
【0024】
図2には、インシデント管理システム10の各部の詳細構成例などを示す。インシデント管理システム10は、障害情報取得部11、構成情報取得部12、初期診断部13、分析部14{障害影響範囲CI抽出部15、FTCI状況把握部16、優先度算出部17}、情報登録部18、等を有する構成である。各部はソフトウェアプログラム等により実現される。
【0025】
分析部14は、インシデント分析の一部(FTCIを含む対象システム1の障害(インシデント)の影響などの分析)をシステム化した処理部である。分析部14は、検知された障害(インシデント)について障害影響範囲などを把握する機能、及び複数の障害(インシデント)について優先順位付けのための優先度などを算出する機能などを含む。各部の詳細については後述のフローで説明する。
【0026】
○構成管理システム20: 構成管理システム20は、サーバシステム等により構成され、基本的な機能として、対象システム1や障害監視システム40等から取得・収集した構成情報や、担当者3等により設定される構成情報を、構成管理データベース(DB)52に管理(登録・検索など)する。構成情報は、CI情報(FTCI情報を含む)などが含まれる。構成情報を用いて、対象システム1の障害許容性などを含む構成が、構成管理モデルとしてモデル化される。また構成情報は、担当者情報などが含まれ得る(又は関連付けられる)。DB52の構成情報(b1)をもとに構成情報画面G1が構成される。
【0027】
担当者3等により、構成情報画面G1を通じて、対象システム1の構成(構成管理モデル)に関して、構成アイテム(CI)及びCI間の依存関係性(リンク)、上位のサービスとの関係性、などを構成情報(構成管理モデル情報)として設定することができる。特に、担当者3等により、FTCI設定機能102を用いて、構成管理モデルに、CIの冗長構成の関係性など、FTCIの情報(後述、図5)を設定することができる。
【0028】
また例えば構成管理システム20では、対象システム1の構成部位(CI)やそのカテゴリ等に対して、所定の担当者3(エスカレーション先を含む)を関連付け管理することができる。担当者情報は、例えば、通知先のアドレス、組織における所属、名前、担当の構成部位(CI)などの情報を有する。構成情報やインシデント情報には、必要に応じて担当者情報が関連付けられる。
【0029】
また上記の構成情報は、担当者3等による手動操作での設定に限らず、一部自動的な処理による登録なども可能である。例えば、構成管理システム20は、対象システム1から構成情報を取得・収集してDB52に反映する(a2)。また障害監視システム40との連携により同様に構成情報を取得してもよい(図1のa3)。例えば対象システム1の構成部位間での公知のディスカバリコマンド実行などによって構成情報の自動収集なども可能である。
【0030】
○サービスポータルシステム30: サービスポータルシステム30は、サーバシステム等により構成され、図2の画面提供部31(例えばWebサーバ等による)を有し、各システム(10,20)の情報(構成情報b1,インシデント情報b2,障害構成情報b3等)を用いて、担当者3等が閲覧するための各種の画面(G1,G2等)をWebページ等で構成し、担当者3の端末に提供する。画面を構成する元となる情報は、インシデント管理システム10(情報登録部18)側から提供される。
【0031】
本実施の形態では、画面として、構成情報画面G1,インシデント画面G2を有する。特に、構成情報画面G1では、構成情報b1、障害構成情報b3をもとに、対象システム1に関する従来の構成情報(FTCI等は無し)を表示可能とするだけでなく、FTCIを含む各CI及びリンクの構成(構成管理モデル)、及びその上にマッピングされる障害状況など(障害箇所・障害影響範囲・障害影響先サービスなど、及び担当者情報など)を可視化する(後述、図3,図4等)。インシデント画面G2では、インシデント情報b2をもとに、優先度、目標解決時間、担当者情報などを含むインシデント情報を表示する(後述、図11,図12等)。障害構成情報b3は、構成管理モデル(構成情報b1)上に、分析部14での分析結果による障害状況(障害影響範囲などを含む)や関連情報などをマッピングした情報である。
【0032】
なお、障害構成情報b3については、インシデント管理システム10からサービスポータルシステム30へ提供する形に限らず、構成管理システム20から提供する形などとしてもよい。その場合、構成管理システム20内(DB52)で、障害構成情報b3を含む構成管理モデルを管理する。また構成情報画面G1とは別に障害構成情報b3用の画面などを提供してもよい。
【0033】
担当者3の端末に対する画面の提供の仕方(GUI)としては、対象システム1の構成・状況の変動に応じて画面表示内容を更新表示する。例えば、所定のWebページのウィンドウ(画面G1等)で常に対象システム1の構成や障害状況を表示する。そして構成や障害状況の変動に応じて上記表示内容を更新する。あるいはユーザ操作に応じて必要な時だけ画面を表示してもよい。また例えば障害検知(S1)に伴うアラートによって自動的に画面を表示してもよい。また画面G1と画面G2の間で表示を遷移してもよいし、表示内容を統合してもよい。また例えば、時点ごとに構成・状況を履歴(スナップ)として保存しておき、指定の時点の情報を表示可能としてもよい。
【0034】
○障害監視システム40: 障害監視システム40は、公知の各種技術により構成可能であり、例えば、対象システム1に対して、サーバ・ストレージの監視及び構成情報収集、ネットワークの監視及び構成情報収集、及び監視に基づく障害ログ解析、等の処理機能を有する。なお他のシステム(10,20)に障害監視システム40の処理機能を備えてもよい。障害監視システム40は、対象システム1の構成部位からログ・障害メッセージ(a1)等を収集し、それによる障害情報(例えば障害ログ解析による障害検知・障害箇所情報など)をインシデント管理システム10に通知する(S1)。また障害監視システム40は、対象システム1の構成部位の構成情報を収集し、構成管理システム20に提供してもよい(a3)。
【0035】
○担当者3: 担当者3は、サービスポータルシステム30を利用する担当者及びその端末等を示す。担当者3は、エスカレーション先を含む。担当者3は、Webブラウザ等を備える端末から、サービスポータルシステム30へアクセスし、構成情報画面G1、インシデント画面G2を含む各種の画面(Webページ等)を閲覧することができる。担当者3の端末は、画面提供部31への要求に応じて上記画面を取得して表示したり、あるいは自動的に画面の表示更新内容データを取得して表示内容を更新する。
【0036】
担当者3として、Uは、初期診断担当者である。A,B,Cは、各種のエスカレーション先の担当者である。Aは機能的エスカレーション先を示し、対象システム1の構成部位に関連付けられる開発者・保守運用者などである。B,Cは階層的エスカレーション先を示し、組織の上司−部下といった階層的な関係者を示す。エスカレーション先は各種を設けて管理してもよい。例えば、階層的エスカレーション先の第1の種別(B)として管理(本システム)側の担当者、第2の種別(C)として顧客(対象システム1)側の担当者、等である。E1はUからAへのエスカレーション(通知など)を示す。E2はUからBまたはCへのエスカレーション(通知など)を示す。
【0037】
[管理運用フロー]
本実施の形態のインシデント管理システム10及び障害影響範囲可視化方法におけるインシデント管理運用フローの概要は以下である。なお本管理運用フローは、ITIL Version3に準拠したものとなっている。
【0038】
(0)FTCIを含む構成管理モデルの設定 (その他、構成情報(b1)の取得等)
(1−1)障害(インシデント)の検知 (その他、インシデントの識別・記録等)
(1−2)初期診断 (その他、障害ログ解析等)
(2−1)分析による障害状況などの把握: 障害影響範囲・影響先、FTCI状況などの把握
(2−2)分析によるインシデントの優先順位付け(対策方針決定): 優先度・目標解決時間・エスカレーション先などの決定
(3−1)上記分析結果などを反映した情報の作成・登録: 構成管理モデル上に障害状況などをマッピング(障害構成情報b3)、及び対応するインシデント情報(b2)
(3−2)画面提供: 上記の情報(b3,b2)を可視化する画面(構成情報画面G1,インシデント画面G2)を構成し担当者3へ提供
(4−1)1次対応: 担当者3(初期診断担当者Uなど)により上記画面(G1,G2)で構成・障害状況・対策方針などを把握し、必要に応じて各種のエスカレーション(E1,E2)を実行
(4−2)2次対応: エスカレーション先の担当者3(A,B,C)により、上記画面(G1,G2)で構成・障害状況・対策方針などを把握し、必要に応じて対策などを実施。
【0039】
上記(4−2)では、例えば、機能的エスカレーション先の担当者(A)により、画面G2での障害メッセージの確認や、画面G1の障害影響範囲などを対象とした調査などを行い、例えばサーバプログラム修正など、障害への対策を実施する。これにより、当該障害の復旧など(問題解決)の場合、当該インシデントがクローズされる。なおインシデント情報(b2)の登録(更新)は随時行われ、インシデントのステータスは随時更新される。
【0040】
[処理フロー]
図1,図2を用いて、上記管理運用フローに基づく本システムの処理フローにおける、対象システム1での障害発生時における主な処理の流れ(ステップS0〜S9で示す)について説明する。
【0041】
(S0:構成設定) 準備・前提の1つとして、構成管理システム20(DB52)に対し、対象システム1の構成(構成管理モデル)を設定する。例えば、担当者3等により、構成情報画面G1を用いて、各構成要素をCIとして設定し、CI間の依存関係性(リンク)を設定し、またFTCI設定機能102を用いて、構成要素(CI)の障害許容性をFTCIとして設定することにより、構成管理モデルを構成情報として設定する。
【0042】
(S1:障害検知) インシデント管理システム10(障害情報取得部11)は、障害監視システム40を用いて対象システム1の障害を検知する。障害検知をトリガにしてS2以降の処理を実行する。例えば、対象システム1から障害監視システム40へ障害情報(障害メッセージ等)が出力される(図2のa1)。障害監視システム40から障害情報取得部11へ障害情報(障害メッセージ等)が出力される。障害情報取得部11は、受信(取得)した障害情報をDB51へインシデント情報として登録してもよい。障害情報取得部11は、例えば、障害ログ解析などにより、障害メッセージから障害箇所のCIを抽出してもよい。
【0043】
(S2:構成情報取得) インシデント管理システム10(構成情報取得部12)は、構成管理システム20(DB52)から、日次などの所定のタイミングで、対象システム1の構成情報(構成管理モデル情報)を取得する。あるいは、構成が変更されたタイミングなどで構成情報を取得してもよい。取得した構成情報を以下の処理で用いる。
【0044】
(S3:初期診断実行) S1をもとに、インシデント管理システム10(初期診断部13)は、対象システム1(S1の障害検知箇所を含む、診断対象とする例えば対象システム1の全体または一部)に対して、初期診断(初期診断スクリプト)を実行する。初期診断スクリプトは、診断対象の部位のカテゴリ(サーバ、データベース等)毎に対応したスクリプトプログラムである。
【0045】
(S4:初期診断結果取得) インシデント管理システム10(初期診断部13)は、対象システム1から、上記S3の初期診断スクリプトの実行結果(稼働情報)を取得する。これにより対象システム1の稼働状況を把握する(障害箇所(CI)の把握を含む)。S4の結果情報は、DB51の該当インシデント情報に反映してもよい。
【0046】
次に、S4までの情報に基づき、以下のS5〜S7で、分析部14により、当該障害(インシデント)に関する分析処理を行う。これにより、S5では障害影響範囲のCIを把握し、S6ではFTCIの状況(ステータス)を把握し、S7では、優先度(P)や目標解決時間(T)などを決定する。
【0047】
(S5:障害影響範囲CI抽出) 障害影響範囲CI抽出部15は、S4,S2の情報などを用いて、当該障害箇所に係わる障害影響範囲のCI(FTCIを含む)を抽出する(後述、図4等)。
【0048】
(S6:FTCI状況把握) FTCI状況把握部16は、S4,S5,S2の情報などを用いて、FTCIの状況(障害許容状況)をステータスとして決定する(後述、図4,図7等)。
【0049】
また上記S5,S6の処理に基づいて、分析部14は、下位のFTCIのステータス等に応じて、障害影響先となる上位のサービス(サービスCI)のステータスや数(N)などを把握する。
【0050】
(S7:優先度算出) 優先度算出部17は、S4〜S6,S2の情報などを用いて、対象システム1の現在のサービスレベルやFTCIを含む各CIの状況(例えばCIのステータス:「正常」、「縮退」、「低下」、「停止」等)などを総合的に考慮して、緊急度(α)やインパクトレベル(β)を算出する。そして、これらの情報(α,β)を用いて、当該障害(インシデント)への対策の優先度(P)を算出する。更に、優先度(P)に応じた目標解決時間(T)や、エスカレーション有無などを決定する(後述、図10等)。
【0051】
(S8:情報登録) インシデント管理システム10(情報登録部18)は、上記S7までの処理で得た各種情報(障害箇所、障害影響範囲、CI及びリンクのステータス、障害影響先サービス数(N)、優先度(P)、目標解決時間(T)など)を用いて、障害構成情報b3やインシデント情報b2を作成または更新し、DB51,DB52等に対して登録する。S5〜S7の分析結果(障害状況など)は、S2の構成管理モデル(構成情報b1)上にマッピングされ、障害構成情報b3となる。
【0052】
サービスポータルシステム30側は、インシデント管理システム10(情報登録部18)等に対して上記の情報(b3,b2)を必要に応じて要求して取得する。あるいは、サービスポータルシステム30側で障害構成情報b3の作成などを行う形態の場合は、情報登録部18は、上記の情報(b3,b2)をサービスポータルシステム30へ送信して登録してもよい。これにより画面(G1,G2)が構成・提供可能となる。
【0053】
(S9:画面提供) サービスポータルシステム30(画面提供部31)は、上記の障害構成情報b3を用いることで、構成・障害状況などを可視化する構成情報画面G1を構成し担当者3に対して提供する。また、インシデント情報b2を用いることでインシデント画面G2を構成し担当者3に対して提供する。初期診断担当者Uなどの担当者3は、構成情報画面G1の参照により、対象システム1の構成・障害状況(障害影響範囲を含む)・関連情報(担当者情報などを含む)などを把握でき、インシデント画面G2の参照により、詳細なインシデント情報を把握できる。
【0054】
[処理例(a)]
前記初期診断(S3,S4)〜FTCI状況把握(S6)に係わる詳細処理例は以下である。これは、対象システム1の状況に応じて各CI及びリンクのステータスを更新する処理例であり、図6〜図8等のデータ情報(後述)を用いる。
【0055】
(1)初期診断スクリプト実行: 前記S3で、初期診断部13は、障害検知(S1)に基づく診断対象の各構成部位(CI)に対し、当該CIのカテゴリ毎に対応付けられたスクリプトを、図6の初期診断スクリプトパラメータを引数にして実行する。前記S4で、S3の実行結果(稼働情報)は図6の構成情報に格納される。
【0056】
(2)CIステータスの登録: 障害影響範囲CI抽出部15は、障害箇所に関係する各CI(ここではFTCIを除くCI)に対し、上記(1)の結果情報をもとに、図6,図7のステータス決定方法に従い決定されるステータスを、当該CIのステータスとして登録する。
【0057】
(3)依存関係性ステータスの登録: 障害影響範囲CI抽出部15は、障害箇所に関係する各CI間の依存関係性(リンク)に対し、当該CIのレイヤ番号(図6)の大きい方(即ち下位)のCIのステータスを、当該依存関係性(リンク)のステータス(「依存関係性ステータス」)として登録する(図8,図9)。
【0058】
(4)FTCIステータスの登録: FTCI状況把握部16は、障害箇所・障害影響範囲に関係する各FTCIに対し、図6,図7のステータス決定方法に従い決定されるステータスを、当該FTCIのステータスに登録する。
【0059】
[処理例(b)]
前記情報登録(S8)〜画面提供(S9)の詳細処理例は以下である。図6〜図8等のデータ情報(後述)を用いる。インシデント管理システム10(情報登録部18等)は、DB51,DB52等に対して、随時(例えば構成・状況の変動に応じたタイミング)、画面(G1,G2等)の提供・内容更新のための情報(b1〜b3等)を作成・登録・提供する処理を行う。以下例えば情報登録部18による処理である。
【0060】
(1)画面G1(障害構成情報b3)におけるCIアイコン(FTCIアイコンを含む)の表示状態を、当該CI(FTCI)のステータス(図6)の変動に応じて変更する。例えば、該当CIのステータスが「正常」から「異常」/「停止」へ変動したことに応じて、該当CIアイコンの表示色を青から赤へ変更する処理を行う。
【0061】
(2)画面G1(障害構成情報b3)におけるCI間の依存関係性(リンク)の表示状態を、当該依存関係性(リンク)のステータス(図8)の変動に応じて変更する。上記(1)の変更に併せて(2)の変更を行う。例えば、該当の依存関係性のステータスを、下位CIのステータスに応じて決定・変更する処理を行う。
【0062】
(3)上記(1),(2)の変更の情報を用いて、画面G1用の障害構成情報b3、及び画面G2用のインシデント情報b2等を作成または更新し、DB51,DB52等に対して登録する。これにより、サービスポータルシステム30(画面提供部31)では、上記情報を用いて、図3,図4の例のような画面G1等を提供可能とする。
【0063】
また上記情報の他にも同様に、画面内に表示する各種の情報(例えば、図3内の担当者のアイコンの表示用の情報や、CIステータスの表示用の情報や、障害箇所、障害影響範囲、障害影響先サービスなどの表示用の情報など)を作成・登録・提供する。
【0064】
[画面(1)]
図3,図4等は表示画面例を示し、あわせて対象システム1の構成例も示されている。図3には、障害構成情報b3を可視化する画面(構成情報画面G1)の第1の例(対象システム1が正常時の場合)を示す。本画面では、障害構成情報b3等に基づき、複数のCI(CIアイコン)間が依存関係性を示すリンク(線)で接続された構造を表示する。
【0065】
画面の上方ほどレイヤ番号(図6)が小さい上位のCI(“Service”,“Cluster”等)を示し、下方ほどレイヤ番号が大きい下位のCI(“Physical Server”,“L2Switch”等)を示す。論理的な単位・仮想的な単位(サービス、仮想サーバ、アプリケーション等)ほどレイヤが上位に設定され、物理的な単位(サーバ機器やネットワーク機器など)ほどレイヤが下位に設定される。図3では、下位から順に例えば、“Terminal”(端末),“L3Switch”,“L2Switch”,“Physical Server”(物理サーバ),“Hypervisor”(サーバ仮想化ソフトウェア),“DB Server”(仮想化サーバ),“DataBase”,“Cluster”(障害許容性)等のCIを有する。雲のアイコンは対象システム1で提供される上位のサービス(サービスCI)を示す。
【0066】
各CIやリンクについては、名称、カテゴリ、ステータス、その他に応じて、色やアイコンや文字情報、大きさ、その他など、表現を変えて表示する。例えば図3では、ステータスが「正常」であるCI及びリンクを実線や青で表示する。
【0067】
またFTCIについては、通常のCI(非FTCI)と区別できるように特定のアイコン(図3の例では八角形のアイコン)で表示する。401〜414等はFTCIを示す。それ以外は通常のCI(非FTCI)を示す。FTCIに付随する障害許容情報については後述する(図5)。
【0068】
各CIやリンクの表示の仕方は、本システムに対して入力・設定が可能である。
【0069】
また各CIアイコンに対しては、当該CIに関連付けられる関連情報を適宜表示する。例えば担当者3のマウス操作(CIアイコンへのマウスオーバやクリック等)により、当該CIの関連情報をポップアップなどの形で表示する。例えば、当該CIに関連付けられるインシデント情報を表示、あるいはインシデント画面G2へリンクする。また例えば、当該FTCIに関連付けられる障害許容情報を表示する。
【0070】
また例えば、当該CIに関連付けられる担当者3の情報を表示する。図3の例では、CIアイコンの右上(A:例えばオレンジ色)や左上(B,C:例えば緑色)などに担当者アイコンを表示し、当該担当者アイコンの操作により担当者3の情報を表示する。FTCIアイコンや、サービスCIアイコン毎に、存在する種別の担当者3のアイコンが表示される。
【0071】
[画面(2)]
図4には、図3と同じ前提で、障害構成情報b3を可視化する画面(構成情報画面G1)の第2の例(対象システム1での障害発生時の場合)を示す。図3の構成管理モデル上に障害状況(障害影響範囲など)などが反映された内容である。CI名称などは略す。図4の例では、各リンクの線をステータスに応じた線種(「正常」は実線、「縮退」は破線、「低下」は1点鎖線、「停止」は点線)で表示している。
【0072】
障害箇所、障害影響範囲、障害影響先サービスなどを、特定のアイコンや囲み等の表現によって表示する。表現は例えば障害度合いが深刻なもの(ステータス値が大きいものに対応する)ほど目立つようにする。
【0073】
501〜505等は、前記S1等に基づく障害箇所(CI,リンク)を示す。また、障害影響範囲CI(前記S5)については、例えば、該当の各CIが囲みで表示される。囲みの種類や色はステータスに応じたものにする。図4の例では、ステータスが「停止」中の障害影響範囲のCIをそれぞれ実線の囲みで強調するように表示している。同様に「低下」や「縮退」の範囲についてもそれぞれ表示してもよい。色で表現する場合は例えば、CI及びリンクのステータスが「正常」の場合は青、「縮退」は紫、「低下」は黄、「停止」は赤、などで表示する。また各CIのステータス等の情報をポップアップ等で表示してもよい。
【0074】
500は、障害影響範囲の一例(一部のみ)であり、501の障害箇所(物理サーバ)から上位への障害影響によりFTCI401,402までの範囲を示している。このように複数のCIやリンクを包含した範囲を表示してもよい。また、FTCIの上位のサービス(本例では601,602の2つ)も障害影響を受けている。図4の例では、ステータスが「停止」の各サービス(601,602)について、障害影響先サービスとして囲みで表示している。また、障害影響サービス数(N)などのサービス状況の情報をポップアップ等で表示してもよい。
【0075】
図4の例では、FTCI401,402等は、ステータスが「停止(3)」である。FTCI403は「縮退(1)」である。FTCI404は「低下(2)」である。FTCI405〜408は「正常(0)」である。FTCI409は「縮退(1)」である。FTCI411,412,413,414は「正常(0)」である。上位の2つのサービス601,602は、ステータスが「停止(3)」である。障害影響サービス数(N)(「停止」のもの)は2である。
【0076】
担当者3は、画面G1で、色の違いや囲みや特定のアイコンや表示情報を見ることで、障害影響範囲などをわかりやすく把握することができる。構成部位(CI)に関連付けられた形で各種情報が参照可能であるため、担当者3による状況把握などが容易化・迅速化できる。例えば初期診断担当者Uは、障害影響範囲などに該当しているCIアイコンやその担当者アイコンに触れると、対応するインシデント情報や、存在する各種のエスカレーション先(A,B,C)などの担当者3の情報を見ることができ、また対応するエスカレーション動作(通知)へ連携することもできる。
【0077】
[画面(3)]
図13は、一般的な従来技術例における対象システム構成を可視化する画面例を示す。従来技術例ではCI間の依存関係性(リンク)が表示されていないので、障害箇所の影響先が把握できない。また、従来技術例ではFTCIは無いので、冗長構成箇所が障害になった場合の上位レイヤへの影響度などが把握できない。一方、本実施の形態ではCI間の依存関係性(リンク)とFTCIがあるため、障害箇所の影響先とサービス等の上位レイヤへの影響度などを把握することができる。なお特許文献1,2等の先行技術例でも、FTCI等を表示する機能は持っていない。
【0078】
[FTCI情報]
図5には、図3の構成に対応した各FTCIの障害許容情報の例について示す。FTCIでは、それぞれ、属性情報として、障害許容性に関する設計情報(「障害許容情報」)が入力・設定される。障害許容情報は、対象システム1の構成に応じて異なる設計情報であり、担当者3等により設定可能である(FTCI設定機能102)。また、関連するCI(上位、下位)との関係性なども依存関係性(リンク)の形で設定される。またFTCIに関する担当者3(A,B,C等)が存在する場合はその担当者情報が関連付けられる。
【0079】
図5(a)に示した、401,402等のFTCI(アイコン表示名称:“Cluster”)では、DBアクセス(ServiceからDBへのアクセス)に関して負荷分散などのための二重化構成(クラスタリング構成)である。この二重化構成で、片方の系のみが障害状態(片系障害)の場合は「縮退」(サービス許容)、両方の系が障害状態(両系障害)の場合は「停止」(サービス停止)、といった情報が設定される。
【0080】
図5(b)に示した、403,404等のFTCI(“Cluster”)では、Middleware(MW)アクセス(ServiceからMiddlewareへのアクセス)に関して負荷分散などのための三重化構成(クラスタリング構成)である。この三重化構成で、一重障害の場合は「縮退」(サービス許容)、二重障害の場合は「低下」(サービス低下)、三重障害の場合は「停止」(サービス停止)、といった情報が設定される。
【0081】
図5(c)に示した、405〜409等のFTCI(“Cluster”)では、L2Switch−Physical Server(PS)間が二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「上位のFTCIに依存」(上位のFTCIのステータスに応じて当該ステータスが決定される等)、といった情報が設定される。
【0082】
図5(d)に示した、411,412等のFTCI(“Cluster”)では、L2Switch−Storage間が二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「停止」(サービス停止(全体))、といった情報が設定される。
【0083】
図5(e)に示した、413のFTCI(“Cluster”)では、L2Switchが二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「停止」(サービス停止(全体))、といった情報が設定される。
【0084】
図5(f)に示した、414のFTCI(“Cluster”)では、L3Switchが二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「停止」(サービス停止(全体))、といった情報が設定される。
【0085】
[CI情報]
図6は、構成情報(CI情報)のデータ構造例(テーブル)を示す。項目として、CI_ID、カテゴリ名、レイヤ番号、初期診断スクリプトパラメータ、機能的エスカレーション(A)、階層的エスカレーション#1(B)、階層的エスカレーション#2(C)、ステータス決定方法、ステータス、初期診断スクリプト実行結果、等を有する。
【0086】
CI_IDはCIの識別子である。カテゴリ名は、CIのカテゴリ(種別)を示し、DBサーバ、DB、ミドルウェア、サービス、等の他に、「障害許容性」(FTCI)を有する。FTCIについては更にFTCIの種別など(例えば図5のような各FTCI)を設けて管理してもよい。
【0087】
レイヤ番号は、CIの属するレイヤを示し、CI間の上位・下位などの関係性に関する情報である。レイヤの数値が小さい方が上位、大きい方が下位である。レイヤに応じて構成管理モデルが作成・表示される。またCIのステータスなどはレイヤを考慮して決定される。本例では、レイヤ1:サービス、レイヤ1.5:FTCI、レイヤ2:DB,ミドルウェア等、レイヤ3:DBサーバ,Webサーバ等、といったように規定されている。
【0088】
初期診断スクリプトパラメータは、初期診断処理(S3)で引数として用いるパラメータ情報を示す。例えばIPやユーザ・パスワードなどの情報である。初期診断スクリプト実行結果は、初期診断処理の結果(S4)の情報を示す。これらはインシデント情報にも格納される。
【0089】
機能的エスカレーション(A)は、当該CI(構成部位)に関連付けられる、機能的エスカレーション先の担当者3の情報を示す。A1〜A3は個別の担当者を示す。階層的エスカレーション(B)は、第1種の階層的エスカレーション先として、管理(本システム)側の担当者(例えば上司)の情報を示す。B1〜B3は個別の担当者を示す。階層的エスカレーション(C)は、第2種の階層的エスカレーション先として、顧客(対象システム1)側の担当者(例えば上司)の情報を示す。C1は個別の担当者を示す。
【0090】
ステータス決定方法は、次の項目であるステータスの値の決定方法を示す(詳しくは図7)。例えば、カテゴリがDBサーバ,DB,ミドルウェア等のCIでは、(a)の方法を適用し、IDが“0126”のFTCI(401)では(b)の方法を適用し、IDが“0130”のFTCI(403)では(c)の方法を適用し、サービスCIでは(d)の方法を適用する等、CI及びカテゴリ毎に異なる設定が可能である。ステータスは、当該CIの状況を示し、例えば「正常(0)」、「縮退(1)」、「低下(2)」、「停止(3)」、「異常(1)」などを有する。特にFTCIの場合、ステータスは障害許容状況を示す。ステータスの括弧の値は、カテゴリや方法ごとに、ステータスを識別する番号を示す。障害度合い等が大きいほどこのステータス値(ステータス番号)が大きくなるように定義されている。
【0091】
図7は、ステータス決定方法の例を示す。
【0092】
(a)の方法では、対象CIの初期診断スクリプト実行結果において、正常終了の場合は、ステータスを「正常(0)」とし、異常終了の場合はステータスを「異常(1)」とする。これは単純な2値の定義の例であるが、CIや方法に応じて多値で定義する形にしてもよい。
【0093】
(b)の方法では、下位CIの正常稼働率(rとする)において、100%の場合は「正常(0)」、50%以上で100%未満の場合は「縮退(1)」、0%の場合は「停止(3)」とする。rは各CIのステータス値から算出できる。
【0094】
(c)の方法では、下位CIの正常稼働率(r)において、100%の場合は「正常(0)」、65%以上で100%未満の場合は「縮退(1)」、1%以上で65%未満の場合は「低下(2)」、0%の場合は「停止(3)」とする。
【0095】
(d)の方法では、下位CIのステータス番号が1番大きいステータス(障害度合い等が1番大きいもの)を継承する。例えば、図4の左側のサービスCI(601)の場合、一方の下位CI(401)は「停止(3)」、他方の下位CI(403)は「縮退(1)」であるため、大きい方である「停止(3)」の方が継承されて当該サービスCIのステータスに設定される。
【0096】
[依存関係性]
図8は、CI間の依存関係性(リンク)のデータ構造例(テーブル)を示す。図8の値は、図9の構成管理モデルの例(一部)と対応した値である。図9でCI及びリンク(線)の隣の数値はIDを示す。各CI間の線が依存関係性(リンク)を示している。なお依存関係性(リンク)についてもCIの一種に含める(依存関係性CIとする)。
【0097】
図8で、項目として、依存関係性(リンク)_ID,第1のCI(下位CI)_ID、第2のCI(上位CI)_ID、依存関係性ステータス(=下位CIステータス)を有する。
【0098】
図9の例では、あるサービス(0131)の下位に、FTCIとして“Cluster”(0126)と“Cluster”(0130)の2つがある。FTCI“Cluster”(0126)は、二重化構成であり、下位に、2つのDB(0124,0125)がある。DB(0124)の下位にDBサーバ(0123)がある。FTCI“Cluster”(0130)は、三重化構成であり、下位に、3つのミドルウェア(0127,0128,0129)がある。各CI・リンクをステータスに応じた表現で示している。吹き出しはステータスを示す。特にステータスが「異常」のCIを点線で示している。
【0099】
図9のように、例えばID“1233”の依存関係性(リンク)は、ID“0123”のDBサーバである第1のCI(下位CI)と、ID“0124”のDBである第2のCI(上位CI)との依存関係性(リンク)を示し、当該依存関係性(リンク)ステータスは、下位CIのステータスと同じ「異常」(例:赤)である。
【0100】
ステータスの例として、“Cluster”(0126)における一方側のDBサーバ(0123)及びそのDB(0124)では「異常」(例:赤)であり、他方側のDB(0125)では「正常」(例:青)である。“Cluster”(0126)は、片系障害であるため、「縮退」(例:紫)である。また、“Cluster”(0130)における第1のミドルウェア(0127)は「正常」(例:青)であり、第2、第3のミドルウェア(0128,0129)は「異常」(例:赤)である。“Cluster”(0130)は、二重障害であるため、「低下」(例:黄)である。サービス(0131)は、“Cluster”(0130)の方のステータスの継承により「低下」(例:黄)となる。
【0101】
[優先度などの算出]
図10に、優先度算出部17(前記S7)における優先度(P)などの算出方法を示す。図10(a)は、緊急度(α)の算出方法(一例)を示す。障害影響範囲(前記S5)におけるFTCIのステータスや障害許容情報に応じて緊急度(α)を決定する。条件として、FTCIのステータスにおいて、「正常(0)」か「縮退(1)」がある場合は、α=1とする。「停止(3)」が無く「低下(2)」がある場合は、α=2とする。「停止(3)」がある場合は、α=3とする。
【0102】
図10(b)は、インパクトレベル(β)の算出方法(一例)を示す。ステータス決定方法(図7)に応じて異なる。FTCIのステータスや障害許容情報などを用いて、各ステータスのFTCIの数や障害影響サービス数などの状況に応じてインパクトレベル(β)を算出する。例えば図7の(c)の方法の場合(ステータス値は正常(0),縮退(1),低下(2),停止(3)の4値)、条件(式)として、FTCIのステータスにおいて、[縮退(1)のFTCI数(n1)]×係数a1(例:1)+[低下(2)のFTCI数(n2)]×係数a2(例:5)+[停止(3)のFTCI数(n3)]×係数a3(例:10)である。本式による数値をインパクトレベル(β)とする。各重み付け係数(a1〜a3)の値は一例である。
【0103】
同様に例えば(b)の方法の場合(ステータス値は正常(0),縮退(1),停止(3)の3値)、上記式は、β=[縮退(1)のFTCI数(n1)]×係数a1+[停止(3)のFTCI数(n3)]×係数a3といったようになる。
【0104】
図10(c)は、優先度(P)などの算出方法(一例)を示す。上記α,βの値を用いる。条件として、α×β≦9の場合、優先度(P)=「低」とする。10≦α×β≦29の場合、優先度(P)=「中」とする。30≦α×βの場合、優先度(P)=「高」とする。
【0105】
また、優先度(P)に対応して、当該障害(インシデント)への対策における目標解決時間(T)を求める。本例では、P=「低」の場合は12時間、P=「中」の場合は6時間、P=「高」の場合は2時間、といったように対応付けている。
【0106】
また、優先度(P)に対応して、前述の各種のエスカレーション(A〜C)の有無などを求める。例えば、P=「低」の場合、階層的エスカレーション#1(B)及び階層的エスカレーション#2(C)ともに無しである。P=「中」の場合、#1(B)(管理側への連絡等)を有りにする。更に、P=「高」の場合、#2(C)(顧客側への連絡等)も有りにする。
【0107】
またその他、前記S5で抽出した障害影響範囲CIや前記S6で決定したFTCIステータス等をもとに、障害影響サービス数(N)を算出する。例えば、サービスCIの下位のFTCIのステータスなどに応じて当該サービスCIのステータスを決定する。そしてサービスCIのステータス(「縮退」、「低下」、「停止」など)毎に、障害影響サービス数(N)をカウントする。
【0108】
情報登録部18等は、上記で得た各情報を含めて記述したインシデント情報b2を、DB51等に登録する。
【0109】
[インシデント情報]
図11に、インシデント情報(b2)のデータ構造例(テーブル)を示す。図12は、図11に対応するインシデント画面G2の例(フォーマット)を示す。インシデント情報において、項目として、インシデントID,緊急度(α),インパクトレベル(β),障害影響サービス数(N),優先度(P),目標解決時間(T),階層的エスカレーション#1(B),#2(C)、等を有する。各項目には前述した処理で得た情報が格納される。インシデントIDやその他の従来のインシデント情報と同様の項目(ステータス、タイトル、カテゴリ、構成部位(CI)、日時、説明情報など)も格納・管理される。障害影響サービス数(N)についてはステータスごとの値を格納する。図12のインシデント画面G2では、図11のインシデント情報をもとに情報が表示される。担当者3は、画面G2でインシデント情報を参照したり、値を入力することができる。他にも例えば、当該CIに関連付けられる担当者3の情報など(機能的エスカレーション(A)の担当者3や当該担当者3(A)による対策情報など)を管理・表示してもよい。
【0110】
[具体例]
前述したフロー(S0〜S9)に沿った具体例を以下に示す。
【0111】
(S0)図3で示されるような構成管理モデルを設定する。
【0112】
(S1)障害検知(障害情報)により、障害箇所のCIが例えば図4の501(物理サーバ)であるとする。他の障害箇所(502等)がある場合も同様の考え方である。
【0113】
(S2)障害箇所(501)を含む関連するCI情報(全部または一部)を取得する。少なくとも上位・下位でつながるCI及びリンクの情報が取得される。
【0114】
(S3),(S4)障害箇所(501)を含む対象に対する初期診断実行結果を得る。
【0115】
(S5)上記結果から、障害箇所(501)を含む障害影響範囲のCIを抽出する。例えば図4の障害影響範囲500のCIが抽出される。障害箇所などの下位CIから、依存関係性(リンク)でつながる上位CIへ、障害の影響が伝播する。処理例としては、上位CIのステータスが、リンクで接続されるすべての下位CIのステータスの値を用いた前述の計算に応じて決定される。障害影響範囲500は、上位のFTCI(例えば401,402)までを含めた場合である。
【0116】
(S6)上記障害影響範囲に係わるFTCI(例えば401,402)について、障害許容状況を把握する。例えば401について、図6,図7の方法(b)を用いてステータスを決定する。まず、401の下位の一方の障害箇所(501)の障害の影響のみを考えた場合、401のステータスは、片系障害なので「縮退(1)」になる。また401の下位のもう一方の障害箇所(502)の障害の影響を加えて考えた場合、401のステータスは、両系障害なので「停止(3)」になる。402のFTCIについても同様に、「停止(3)」になる。
【0117】
また、障害影響範囲500における更に上位のサービス(601,602)についても、障害影響先(障害影響サービス)として、下位のFTCI(401,402)のステータス等をもとに、ステータス(「停止」)やその数(N=2)などが求まる。
【0118】
(S7)上記の障害箇所(501)及びそれに基づくFTCI(401,402)を含む障害影響範囲500に係わるインシデントに関して、優先度(P)を求める。まず、緊急度(α)は、401,402のステータスが共に「停止(3)」の場合、α=3となる。
【0119】
次に、上記障害影響範囲500に係わるインシデントにおけるインパクトレベル(β)は、方法(b)に応じた所定の条件(式)から、例えばβ=2×1+1×5+2×10=27となる。
【0120】
次に、上記障害影響範囲500に係わるインシデントにおける優先度(P)は、α×β=3×27=81,30≦α×βであるから、P=「高」となる。あわせて、T=2時間、階層的エスカレーション#1(B):有り、階層的エスカレーション#2(C):有り、と求まる。
【0121】
(S8)上記S7までの結果を、当該インシデント情報b2に反映・登録し、また、障害構成情報b3(図3の構成管理モデル上に上記障害影響範囲500を含む状況をマッピングした情報など)を構成し、DB51等に登録する。
【0122】
(S9)上記によりサービスポータルシステム30で担当者3に対し図4のような内容を持つ画面G1が提供される。
【0123】
[効果等]
以上、本実施の形態によれば、インシデント管理システム10等に係わり、クラウド環境や障害許容性などを考慮した構成の対象システム1における、障害影響範囲などの状況や構成、及びインシデント・対策の優先度などの情報を画面(G1,G2)で可視化することで、担当者3が上記状況などを即座にわかりやすく把握でき、迅速なエスカレーション(情報伝達)及び対策の実施などが実現できる。
【0124】
担当者3は、障害検知(S1)時、図4等の画面(G1)を見ることで、FTCIを含む構成における障害箇所・障害影響範囲・障害影響先サービス、FTCIステータスなどを、色やアイコンなどによってわかりやすく把握でき、あわせてインシデント情報(G2)を見ることで、当該障害影響範囲や優先度(P)などの情報に基づき、1次切り分けやエスカレーション等の対応を容易化・迅速化できる。
【0125】
本実施の形態では、特に、FTCIを設けた仕組みにより、対象システム1で提供するサービスの継続可能性(サービスレベル等)との兼ね合いで、仮想サーバ等の障害影響範囲のCIだけでなく、それによる障害影響先となるサービス(FTCIの上位のサービスCIなど)の状況を、各サービスのステータスや障害影響サービス数(N)などの可視化によって把握することができる。
【0126】
[他の実施の形態]
(1) 対象システム1の構成部位の障害許容性をCI(FTCI)としてモデル化したが、障害許容性以外にも、構成部位の性能(性能指標)などの他の非機能項目(設計情報)をCIとしてモデル化してもよい。
【0127】
(2) 障害情報(S1)に基づく初期診断(S3,S4)の際に、対象システム1の全CIに対して診断実行し、その結果から障害箇所CIなどを発見・特定する形だけでなく、一部の特定のCIに対して診断を実行する形態としてもよい。例えば、障害情報(S1)から、障害等が推定される一部の特定のCIを特定(絞り込み)し、その特定のCIを診断対象とする。
【0128】
(3) 障害情報(S1)等をもとに、自動的に、DB51内の既存インシデント情報(履歴)を検索したり、障害パターン解析などを行い、インシデント情報に関連付けられる又は含まれる対策手順などの対策情報を取得し、あわせて画面(G1,G2)で提示してもよい。
【0129】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
【産業上の利用可能性】
【0130】
本発明は、統合運用管理システム、インシデント管理システム、構成管理システム、サービスポータルシステム、障害監視システムなどに利用可能である。
【符号の説明】
【0131】
1…対象システム(稼働システム)、3…担当者、10…インシデント管理システム、11…障害情報取得部、12…構成情報取得部、13…初期診断部、15…障害影響範囲CI抽出部、16…FTCI状況把握部、17…優先度算出部、18…情報登録部、20…構成管理システム、30…サービスポータルシステム、31…画面提供部、40…障害監視システム、51…インシデント管理データベース(DB)、52…構成管理データベース(DB)、101…障害影響範囲可視化機能、102…FTCI設定機能。
【技術分野】
【0001】
本発明は、ITサービス運用管理におけるインシデント管理システムなどの技術に関し、特に、対象システムの構成や障害状況などを把握・可視化する技術などに関する。
【背景技術】
【0002】
ITサービス運用管理におけるインシデント管理などに係わる基準として、ITIL(Information Technology Infrastructure Library)Version3などがある。インシデント管理システムでは、管理対象の情報処理システム(対象システム)で発生する障害などのインシデントをインシデント情報として記録・管理し、インシデントへの対策(対応)やエスカレーションに連携する。
【0003】
対象システムでは、クラウド環境の発展などに伴い、仮想サーバや並列分散処理などの技術が適用されている。また、対象システムでは、サービスレベルなどに基づいて、サーバやデータベースなどの構成部位(構成アイテム)は、障害許容性(フォールト・トレランス等)や性能などを考慮して、多重化構成などで設計・実装されている。
【0004】
先行技術例として、特開2007−257244号公報(特許文献1)(障害影響範囲特定システム等)、特開2009−181537号公報(特許文献2)(インシデント管理システム等)などがある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−257244号公報
【特許文献2】特開2009−181537号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来のインシデント管理システム(及び構成管理システム等の関連システム)では、課題として、対象システムでの障害(インシデント)の発生時の影響範囲や影響先(上位のサービスなど)、及び緊急度やインパクトレベルなどを、担当者(インシデント管理者)が即座に把握することが難しい。よって、それらの把握に基づく優先度などに即した迅速なエスカレーション及び対策の実施などが難しい。特に、対象システムの構成部位が障害許容性などに応じた多重化構成などを採る場合、構成部位(構成アイテム)間での影響関係などが複雑であるため、上記の課題が顕著である。
【0007】
上記課題に対し、対象システムの障害影響範囲などの状況や構成(インシデント状況や運用状況)を画面で可視化する技術などが有効なものとして考えられる。しかし、従来技術では、クラウド環境や障害許容性などを考慮して設計・実装された構成の対象システムにおける障害影響範囲などの状況や構成を画面でわかりやすく可視化する技術について検討・実現が不十分である。
【0008】
本発明の主な目的は、上記インシデント管理システム等に係わり、クラウド環境や障害許容性などを考慮した構成の対象システムにおける、障害影響範囲などの状況や構成、及びインシデント・対策の優先度などの情報を画面で可視化することで、担当者が上記状況などを即座にわかりやすく把握でき、迅速なエスカレーション及び対策の実施などが実現できる技術を提供することである。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本発明の代表的な実施の形態は、インシデント管理システム等であって、以下に示す構成を有することを特徴とする。
【0010】
本インシデント管理システムは、対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理し、前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システムと連携し、担当者の端末に対して情報の画面を提供するサービスポータルシステムと連携し、前記対象システムの障害を含むインシデントを監視する障害監視システムと連携する。本インシデント管理システムは、前記対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、前記担当者の端末に提供する第1の機能と、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する第2の機能と、を有する。
【0011】
そして、前記構成管理モデルでは、前記障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、前記第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定する。前記第1の機能による画面では、前記構成アイテムをリンクで接続した構造で、前記対象システムの構成管理モデル、障害影響範囲及び障害影響先サービスを含むインシデント状況を表示する。
【発明の効果】
【0012】
本発明の代表的なものによれば、インシデント管理システム等に係わり、クラウド環境や障害許容性などを考慮した構成の対象システムにおける、障害影響範囲などの状況や構成、及びインシデント・対策の優先度などの情報を画面で可視化することで、担当者が上記状況などを即座にわかりやすく把握でき、迅速なエスカレーション及び対策の実施などが実現できる。
【図面の簡単な説明】
【0013】
【図1】本発明の一実施の形態のインシデント管理システムを含むコンピュータシステム全体の概要構成例を示す図である。
【図2】本実施の形態のインシデント管理システムに係わる各部の構成例を示す図である。
【図3】本実施の形態における対象システムの構成管理モデル及び正常時の状況を可視化する画面例を示す図である。
【図4】本実施の形態における対象システムの構成管理モデル及び障害時の状況を可視化する画面例を示す図である。
【図5】(a)〜(f)は、本実施の形態における対象システムの障害許容性構成アイテム(FTCI)の障害許容情報の例を示す図である。
【図6】本実施の形態における構成情報(構成アイテム情報)等の例を示す図である。
【図7】本実施の形態における構成アイテムのステータス決定方法の例を示す図である。
【図8】本実施の形態における構成アイテム間の依存関係性の情報の例を示す図である。
【図9】本実施の形態における構成管理モデル(一部)の例を示す図である。
【図10】本実施の形態における優先度算出方法などを示す図である。
【図11】本実施の形態におけるインシデント情報の例を示す図である。
【図12】本実施の形態におけるインシデント画面の例を示す図である。
【図13】従来技術例における画面例を示す図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態(インシデント管理システム、障害影響範囲可視化方法)を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。
【0015】
[概要等]
本実施の形態の概要や特徴などは以下である(図1,図3,図4等)。主な特徴として、本インシデント管理システム10は、障害影響範囲可視化機能101を有し、また、構成管理システム20は、障害許容性構成アイテム(FTCI)設定機能102を有する(図1)。障害影響範囲可視化機能101は、対象システム1の構成及び障害状況(障害影響範囲など)を画面で可視化する機能である。FTCI設定機能102は、対象システム1の構成情報(構成管理モデル)において、サーバ等の構成部位(構成アイテム:CI)の「障害許容性」(障害許容性などを考慮した設計・実装の構成)を、一種の構成アイテム(障害許容性構成アイテム:FTCI)として設定する機能である。
【0016】
構成アイテム(CI)とは、構成管理モデル(構成情報)及び画面(図3等)において、対象システム1を構成するサーバ等の構成部位であり、画面に表示する対象となる要素である。CIは、カテゴリ等に応じて、特定のアイコンなどの表現で表示される。CI間の依存関係性(リンク)も線などで可視化される。CI及びリンクを含んで成る構成管理モデルが設定される。
【0017】
「障害許容性」とは、本技術分野における公知の用語(フォールト・トレランス等)に従ったものであり、対象システム1における障害許容性や性能やサービスレベルなどを考慮した設計・実装の構成に相当し、例えば冗長構成など(物理的・仮想的な多重化・クラスタリングなど)の公知の各種技術が該当する。「障害許容性」は、対象システム1(CI)の設計情報の1つであり、FTCI設定機能102を用いて、担当者3等により、FTCIとして設定が可能となっている。
【0018】
画面(図3,図4等)では、FTCIを含む構成管理モデル上に、本システムでの分析結果など(障害状況など)がマッピングされた情報が可視化される。これにより担当者3は障害影響範囲やエスカレーション先などをわかりやすく即座に把握することができる。
【0019】
[システム構成]
図1で、本インシデント管理システム10を含むコンピュータシステム全体の概要構成例を示す。本インシデント管理システム10は、構成管理システム20、サービスポータルシステム30、障害監視システム40等と連携するシステムである。運用管理・監視、インシデント管理、及び構成管理などのプロセス間の連携がシステム化されている。対象システム1は、インシデント管理運用の対象となる情報処理システム(稼働システム)である。担当者3は、サービスポータルシステム30を利用するユーザやその端末などである。図1のように各システム間は通信可能に接続される。なお各システム(10,20,30,40等)を一体化したシステムとしてもよいし、適宜分割した構成としてもよい。
【0020】
○対象システム1: 対象システム1は、例えば、ネットワーク機器(スイッチ等)、サーバ、ストレージ、データベース、ミドルウェア、アプリケーション、等の構成部位を含んで成り、所定のサービス(サービス処理)を実現する。各構成部位は、例えばログ情報や障害メッセージを保持または出力する。
【0021】
○インシデント管理システム10: インシデント管理システム10は、サーバシステム等により構成され、基本的な機能として、インシデント管理データベース(DB)51に障害情報を含むインシデント情報を管理(登録・検索など)する。インシデント情報は、障害情報、稼働情報(初期診断実行結果情報)、分析結果(優先度など)、等の情報が含まれる(後述、図11等)。またインシデント情報は、対策情報、担当者情報などが含まれ得る(又は関連付けられる)。DB51のインシデント情報(b2)をもとにインシデント画面G2が構成される。
【0022】
またインシデント管理システム10では、構成管理システム20で管理される対象システム1の構成(構成管理モデル)に関して、障害監視システム40での対象システム1の障害監視に基づき、初期診断や分析処理により、構成・運用状況、障害などのインシデントの状況を把握する(障害構成情報b3やインシデント情報b2に反映される)。
【0023】
担当者3等により、インシデント画面G2を通じて、対象システム1での障害などのインシデントに関して、対策情報(対策手順、説明など)や関連情報などを登録したり、検索したりすることができる。
【0024】
図2には、インシデント管理システム10の各部の詳細構成例などを示す。インシデント管理システム10は、障害情報取得部11、構成情報取得部12、初期診断部13、分析部14{障害影響範囲CI抽出部15、FTCI状況把握部16、優先度算出部17}、情報登録部18、等を有する構成である。各部はソフトウェアプログラム等により実現される。
【0025】
分析部14は、インシデント分析の一部(FTCIを含む対象システム1の障害(インシデント)の影響などの分析)をシステム化した処理部である。分析部14は、検知された障害(インシデント)について障害影響範囲などを把握する機能、及び複数の障害(インシデント)について優先順位付けのための優先度などを算出する機能などを含む。各部の詳細については後述のフローで説明する。
【0026】
○構成管理システム20: 構成管理システム20は、サーバシステム等により構成され、基本的な機能として、対象システム1や障害監視システム40等から取得・収集した構成情報や、担当者3等により設定される構成情報を、構成管理データベース(DB)52に管理(登録・検索など)する。構成情報は、CI情報(FTCI情報を含む)などが含まれる。構成情報を用いて、対象システム1の障害許容性などを含む構成が、構成管理モデルとしてモデル化される。また構成情報は、担当者情報などが含まれ得る(又は関連付けられる)。DB52の構成情報(b1)をもとに構成情報画面G1が構成される。
【0027】
担当者3等により、構成情報画面G1を通じて、対象システム1の構成(構成管理モデル)に関して、構成アイテム(CI)及びCI間の依存関係性(リンク)、上位のサービスとの関係性、などを構成情報(構成管理モデル情報)として設定することができる。特に、担当者3等により、FTCI設定機能102を用いて、構成管理モデルに、CIの冗長構成の関係性など、FTCIの情報(後述、図5)を設定することができる。
【0028】
また例えば構成管理システム20では、対象システム1の構成部位(CI)やそのカテゴリ等に対して、所定の担当者3(エスカレーション先を含む)を関連付け管理することができる。担当者情報は、例えば、通知先のアドレス、組織における所属、名前、担当の構成部位(CI)などの情報を有する。構成情報やインシデント情報には、必要に応じて担当者情報が関連付けられる。
【0029】
また上記の構成情報は、担当者3等による手動操作での設定に限らず、一部自動的な処理による登録なども可能である。例えば、構成管理システム20は、対象システム1から構成情報を取得・収集してDB52に反映する(a2)。また障害監視システム40との連携により同様に構成情報を取得してもよい(図1のa3)。例えば対象システム1の構成部位間での公知のディスカバリコマンド実行などによって構成情報の自動収集なども可能である。
【0030】
○サービスポータルシステム30: サービスポータルシステム30は、サーバシステム等により構成され、図2の画面提供部31(例えばWebサーバ等による)を有し、各システム(10,20)の情報(構成情報b1,インシデント情報b2,障害構成情報b3等)を用いて、担当者3等が閲覧するための各種の画面(G1,G2等)をWebページ等で構成し、担当者3の端末に提供する。画面を構成する元となる情報は、インシデント管理システム10(情報登録部18)側から提供される。
【0031】
本実施の形態では、画面として、構成情報画面G1,インシデント画面G2を有する。特に、構成情報画面G1では、構成情報b1、障害構成情報b3をもとに、対象システム1に関する従来の構成情報(FTCI等は無し)を表示可能とするだけでなく、FTCIを含む各CI及びリンクの構成(構成管理モデル)、及びその上にマッピングされる障害状況など(障害箇所・障害影響範囲・障害影響先サービスなど、及び担当者情報など)を可視化する(後述、図3,図4等)。インシデント画面G2では、インシデント情報b2をもとに、優先度、目標解決時間、担当者情報などを含むインシデント情報を表示する(後述、図11,図12等)。障害構成情報b3は、構成管理モデル(構成情報b1)上に、分析部14での分析結果による障害状況(障害影響範囲などを含む)や関連情報などをマッピングした情報である。
【0032】
なお、障害構成情報b3については、インシデント管理システム10からサービスポータルシステム30へ提供する形に限らず、構成管理システム20から提供する形などとしてもよい。その場合、構成管理システム20内(DB52)で、障害構成情報b3を含む構成管理モデルを管理する。また構成情報画面G1とは別に障害構成情報b3用の画面などを提供してもよい。
【0033】
担当者3の端末に対する画面の提供の仕方(GUI)としては、対象システム1の構成・状況の変動に応じて画面表示内容を更新表示する。例えば、所定のWebページのウィンドウ(画面G1等)で常に対象システム1の構成や障害状況を表示する。そして構成や障害状況の変動に応じて上記表示内容を更新する。あるいはユーザ操作に応じて必要な時だけ画面を表示してもよい。また例えば障害検知(S1)に伴うアラートによって自動的に画面を表示してもよい。また画面G1と画面G2の間で表示を遷移してもよいし、表示内容を統合してもよい。また例えば、時点ごとに構成・状況を履歴(スナップ)として保存しておき、指定の時点の情報を表示可能としてもよい。
【0034】
○障害監視システム40: 障害監視システム40は、公知の各種技術により構成可能であり、例えば、対象システム1に対して、サーバ・ストレージの監視及び構成情報収集、ネットワークの監視及び構成情報収集、及び監視に基づく障害ログ解析、等の処理機能を有する。なお他のシステム(10,20)に障害監視システム40の処理機能を備えてもよい。障害監視システム40は、対象システム1の構成部位からログ・障害メッセージ(a1)等を収集し、それによる障害情報(例えば障害ログ解析による障害検知・障害箇所情報など)をインシデント管理システム10に通知する(S1)。また障害監視システム40は、対象システム1の構成部位の構成情報を収集し、構成管理システム20に提供してもよい(a3)。
【0035】
○担当者3: 担当者3は、サービスポータルシステム30を利用する担当者及びその端末等を示す。担当者3は、エスカレーション先を含む。担当者3は、Webブラウザ等を備える端末から、サービスポータルシステム30へアクセスし、構成情報画面G1、インシデント画面G2を含む各種の画面(Webページ等)を閲覧することができる。担当者3の端末は、画面提供部31への要求に応じて上記画面を取得して表示したり、あるいは自動的に画面の表示更新内容データを取得して表示内容を更新する。
【0036】
担当者3として、Uは、初期診断担当者である。A,B,Cは、各種のエスカレーション先の担当者である。Aは機能的エスカレーション先を示し、対象システム1の構成部位に関連付けられる開発者・保守運用者などである。B,Cは階層的エスカレーション先を示し、組織の上司−部下といった階層的な関係者を示す。エスカレーション先は各種を設けて管理してもよい。例えば、階層的エスカレーション先の第1の種別(B)として管理(本システム)側の担当者、第2の種別(C)として顧客(対象システム1)側の担当者、等である。E1はUからAへのエスカレーション(通知など)を示す。E2はUからBまたはCへのエスカレーション(通知など)を示す。
【0037】
[管理運用フロー]
本実施の形態のインシデント管理システム10及び障害影響範囲可視化方法におけるインシデント管理運用フローの概要は以下である。なお本管理運用フローは、ITIL Version3に準拠したものとなっている。
【0038】
(0)FTCIを含む構成管理モデルの設定 (その他、構成情報(b1)の取得等)
(1−1)障害(インシデント)の検知 (その他、インシデントの識別・記録等)
(1−2)初期診断 (その他、障害ログ解析等)
(2−1)分析による障害状況などの把握: 障害影響範囲・影響先、FTCI状況などの把握
(2−2)分析によるインシデントの優先順位付け(対策方針決定): 優先度・目標解決時間・エスカレーション先などの決定
(3−1)上記分析結果などを反映した情報の作成・登録: 構成管理モデル上に障害状況などをマッピング(障害構成情報b3)、及び対応するインシデント情報(b2)
(3−2)画面提供: 上記の情報(b3,b2)を可視化する画面(構成情報画面G1,インシデント画面G2)を構成し担当者3へ提供
(4−1)1次対応: 担当者3(初期診断担当者Uなど)により上記画面(G1,G2)で構成・障害状況・対策方針などを把握し、必要に応じて各種のエスカレーション(E1,E2)を実行
(4−2)2次対応: エスカレーション先の担当者3(A,B,C)により、上記画面(G1,G2)で構成・障害状況・対策方針などを把握し、必要に応じて対策などを実施。
【0039】
上記(4−2)では、例えば、機能的エスカレーション先の担当者(A)により、画面G2での障害メッセージの確認や、画面G1の障害影響範囲などを対象とした調査などを行い、例えばサーバプログラム修正など、障害への対策を実施する。これにより、当該障害の復旧など(問題解決)の場合、当該インシデントがクローズされる。なおインシデント情報(b2)の登録(更新)は随時行われ、インシデントのステータスは随時更新される。
【0040】
[処理フロー]
図1,図2を用いて、上記管理運用フローに基づく本システムの処理フローにおける、対象システム1での障害発生時における主な処理の流れ(ステップS0〜S9で示す)について説明する。
【0041】
(S0:構成設定) 準備・前提の1つとして、構成管理システム20(DB52)に対し、対象システム1の構成(構成管理モデル)を設定する。例えば、担当者3等により、構成情報画面G1を用いて、各構成要素をCIとして設定し、CI間の依存関係性(リンク)を設定し、またFTCI設定機能102を用いて、構成要素(CI)の障害許容性をFTCIとして設定することにより、構成管理モデルを構成情報として設定する。
【0042】
(S1:障害検知) インシデント管理システム10(障害情報取得部11)は、障害監視システム40を用いて対象システム1の障害を検知する。障害検知をトリガにしてS2以降の処理を実行する。例えば、対象システム1から障害監視システム40へ障害情報(障害メッセージ等)が出力される(図2のa1)。障害監視システム40から障害情報取得部11へ障害情報(障害メッセージ等)が出力される。障害情報取得部11は、受信(取得)した障害情報をDB51へインシデント情報として登録してもよい。障害情報取得部11は、例えば、障害ログ解析などにより、障害メッセージから障害箇所のCIを抽出してもよい。
【0043】
(S2:構成情報取得) インシデント管理システム10(構成情報取得部12)は、構成管理システム20(DB52)から、日次などの所定のタイミングで、対象システム1の構成情報(構成管理モデル情報)を取得する。あるいは、構成が変更されたタイミングなどで構成情報を取得してもよい。取得した構成情報を以下の処理で用いる。
【0044】
(S3:初期診断実行) S1をもとに、インシデント管理システム10(初期診断部13)は、対象システム1(S1の障害検知箇所を含む、診断対象とする例えば対象システム1の全体または一部)に対して、初期診断(初期診断スクリプト)を実行する。初期診断スクリプトは、診断対象の部位のカテゴリ(サーバ、データベース等)毎に対応したスクリプトプログラムである。
【0045】
(S4:初期診断結果取得) インシデント管理システム10(初期診断部13)は、対象システム1から、上記S3の初期診断スクリプトの実行結果(稼働情報)を取得する。これにより対象システム1の稼働状況を把握する(障害箇所(CI)の把握を含む)。S4の結果情報は、DB51の該当インシデント情報に反映してもよい。
【0046】
次に、S4までの情報に基づき、以下のS5〜S7で、分析部14により、当該障害(インシデント)に関する分析処理を行う。これにより、S5では障害影響範囲のCIを把握し、S6ではFTCIの状況(ステータス)を把握し、S7では、優先度(P)や目標解決時間(T)などを決定する。
【0047】
(S5:障害影響範囲CI抽出) 障害影響範囲CI抽出部15は、S4,S2の情報などを用いて、当該障害箇所に係わる障害影響範囲のCI(FTCIを含む)を抽出する(後述、図4等)。
【0048】
(S6:FTCI状況把握) FTCI状況把握部16は、S4,S5,S2の情報などを用いて、FTCIの状況(障害許容状況)をステータスとして決定する(後述、図4,図7等)。
【0049】
また上記S5,S6の処理に基づいて、分析部14は、下位のFTCIのステータス等に応じて、障害影響先となる上位のサービス(サービスCI)のステータスや数(N)などを把握する。
【0050】
(S7:優先度算出) 優先度算出部17は、S4〜S6,S2の情報などを用いて、対象システム1の現在のサービスレベルやFTCIを含む各CIの状況(例えばCIのステータス:「正常」、「縮退」、「低下」、「停止」等)などを総合的に考慮して、緊急度(α)やインパクトレベル(β)を算出する。そして、これらの情報(α,β)を用いて、当該障害(インシデント)への対策の優先度(P)を算出する。更に、優先度(P)に応じた目標解決時間(T)や、エスカレーション有無などを決定する(後述、図10等)。
【0051】
(S8:情報登録) インシデント管理システム10(情報登録部18)は、上記S7までの処理で得た各種情報(障害箇所、障害影響範囲、CI及びリンクのステータス、障害影響先サービス数(N)、優先度(P)、目標解決時間(T)など)を用いて、障害構成情報b3やインシデント情報b2を作成または更新し、DB51,DB52等に対して登録する。S5〜S7の分析結果(障害状況など)は、S2の構成管理モデル(構成情報b1)上にマッピングされ、障害構成情報b3となる。
【0052】
サービスポータルシステム30側は、インシデント管理システム10(情報登録部18)等に対して上記の情報(b3,b2)を必要に応じて要求して取得する。あるいは、サービスポータルシステム30側で障害構成情報b3の作成などを行う形態の場合は、情報登録部18は、上記の情報(b3,b2)をサービスポータルシステム30へ送信して登録してもよい。これにより画面(G1,G2)が構成・提供可能となる。
【0053】
(S9:画面提供) サービスポータルシステム30(画面提供部31)は、上記の障害構成情報b3を用いることで、構成・障害状況などを可視化する構成情報画面G1を構成し担当者3に対して提供する。また、インシデント情報b2を用いることでインシデント画面G2を構成し担当者3に対して提供する。初期診断担当者Uなどの担当者3は、構成情報画面G1の参照により、対象システム1の構成・障害状況(障害影響範囲を含む)・関連情報(担当者情報などを含む)などを把握でき、インシデント画面G2の参照により、詳細なインシデント情報を把握できる。
【0054】
[処理例(a)]
前記初期診断(S3,S4)〜FTCI状況把握(S6)に係わる詳細処理例は以下である。これは、対象システム1の状況に応じて各CI及びリンクのステータスを更新する処理例であり、図6〜図8等のデータ情報(後述)を用いる。
【0055】
(1)初期診断スクリプト実行: 前記S3で、初期診断部13は、障害検知(S1)に基づく診断対象の各構成部位(CI)に対し、当該CIのカテゴリ毎に対応付けられたスクリプトを、図6の初期診断スクリプトパラメータを引数にして実行する。前記S4で、S3の実行結果(稼働情報)は図6の構成情報に格納される。
【0056】
(2)CIステータスの登録: 障害影響範囲CI抽出部15は、障害箇所に関係する各CI(ここではFTCIを除くCI)に対し、上記(1)の結果情報をもとに、図6,図7のステータス決定方法に従い決定されるステータスを、当該CIのステータスとして登録する。
【0057】
(3)依存関係性ステータスの登録: 障害影響範囲CI抽出部15は、障害箇所に関係する各CI間の依存関係性(リンク)に対し、当該CIのレイヤ番号(図6)の大きい方(即ち下位)のCIのステータスを、当該依存関係性(リンク)のステータス(「依存関係性ステータス」)として登録する(図8,図9)。
【0058】
(4)FTCIステータスの登録: FTCI状況把握部16は、障害箇所・障害影響範囲に関係する各FTCIに対し、図6,図7のステータス決定方法に従い決定されるステータスを、当該FTCIのステータスに登録する。
【0059】
[処理例(b)]
前記情報登録(S8)〜画面提供(S9)の詳細処理例は以下である。図6〜図8等のデータ情報(後述)を用いる。インシデント管理システム10(情報登録部18等)は、DB51,DB52等に対して、随時(例えば構成・状況の変動に応じたタイミング)、画面(G1,G2等)の提供・内容更新のための情報(b1〜b3等)を作成・登録・提供する処理を行う。以下例えば情報登録部18による処理である。
【0060】
(1)画面G1(障害構成情報b3)におけるCIアイコン(FTCIアイコンを含む)の表示状態を、当該CI(FTCI)のステータス(図6)の変動に応じて変更する。例えば、該当CIのステータスが「正常」から「異常」/「停止」へ変動したことに応じて、該当CIアイコンの表示色を青から赤へ変更する処理を行う。
【0061】
(2)画面G1(障害構成情報b3)におけるCI間の依存関係性(リンク)の表示状態を、当該依存関係性(リンク)のステータス(図8)の変動に応じて変更する。上記(1)の変更に併せて(2)の変更を行う。例えば、該当の依存関係性のステータスを、下位CIのステータスに応じて決定・変更する処理を行う。
【0062】
(3)上記(1),(2)の変更の情報を用いて、画面G1用の障害構成情報b3、及び画面G2用のインシデント情報b2等を作成または更新し、DB51,DB52等に対して登録する。これにより、サービスポータルシステム30(画面提供部31)では、上記情報を用いて、図3,図4の例のような画面G1等を提供可能とする。
【0063】
また上記情報の他にも同様に、画面内に表示する各種の情報(例えば、図3内の担当者のアイコンの表示用の情報や、CIステータスの表示用の情報や、障害箇所、障害影響範囲、障害影響先サービスなどの表示用の情報など)を作成・登録・提供する。
【0064】
[画面(1)]
図3,図4等は表示画面例を示し、あわせて対象システム1の構成例も示されている。図3には、障害構成情報b3を可視化する画面(構成情報画面G1)の第1の例(対象システム1が正常時の場合)を示す。本画面では、障害構成情報b3等に基づき、複数のCI(CIアイコン)間が依存関係性を示すリンク(線)で接続された構造を表示する。
【0065】
画面の上方ほどレイヤ番号(図6)が小さい上位のCI(“Service”,“Cluster”等)を示し、下方ほどレイヤ番号が大きい下位のCI(“Physical Server”,“L2Switch”等)を示す。論理的な単位・仮想的な単位(サービス、仮想サーバ、アプリケーション等)ほどレイヤが上位に設定され、物理的な単位(サーバ機器やネットワーク機器など)ほどレイヤが下位に設定される。図3では、下位から順に例えば、“Terminal”(端末),“L3Switch”,“L2Switch”,“Physical Server”(物理サーバ),“Hypervisor”(サーバ仮想化ソフトウェア),“DB Server”(仮想化サーバ),“DataBase”,“Cluster”(障害許容性)等のCIを有する。雲のアイコンは対象システム1で提供される上位のサービス(サービスCI)を示す。
【0066】
各CIやリンクについては、名称、カテゴリ、ステータス、その他に応じて、色やアイコンや文字情報、大きさ、その他など、表現を変えて表示する。例えば図3では、ステータスが「正常」であるCI及びリンクを実線や青で表示する。
【0067】
またFTCIについては、通常のCI(非FTCI)と区別できるように特定のアイコン(図3の例では八角形のアイコン)で表示する。401〜414等はFTCIを示す。それ以外は通常のCI(非FTCI)を示す。FTCIに付随する障害許容情報については後述する(図5)。
【0068】
各CIやリンクの表示の仕方は、本システムに対して入力・設定が可能である。
【0069】
また各CIアイコンに対しては、当該CIに関連付けられる関連情報を適宜表示する。例えば担当者3のマウス操作(CIアイコンへのマウスオーバやクリック等)により、当該CIの関連情報をポップアップなどの形で表示する。例えば、当該CIに関連付けられるインシデント情報を表示、あるいはインシデント画面G2へリンクする。また例えば、当該FTCIに関連付けられる障害許容情報を表示する。
【0070】
また例えば、当該CIに関連付けられる担当者3の情報を表示する。図3の例では、CIアイコンの右上(A:例えばオレンジ色)や左上(B,C:例えば緑色)などに担当者アイコンを表示し、当該担当者アイコンの操作により担当者3の情報を表示する。FTCIアイコンや、サービスCIアイコン毎に、存在する種別の担当者3のアイコンが表示される。
【0071】
[画面(2)]
図4には、図3と同じ前提で、障害構成情報b3を可視化する画面(構成情報画面G1)の第2の例(対象システム1での障害発生時の場合)を示す。図3の構成管理モデル上に障害状況(障害影響範囲など)などが反映された内容である。CI名称などは略す。図4の例では、各リンクの線をステータスに応じた線種(「正常」は実線、「縮退」は破線、「低下」は1点鎖線、「停止」は点線)で表示している。
【0072】
障害箇所、障害影響範囲、障害影響先サービスなどを、特定のアイコンや囲み等の表現によって表示する。表現は例えば障害度合いが深刻なもの(ステータス値が大きいものに対応する)ほど目立つようにする。
【0073】
501〜505等は、前記S1等に基づく障害箇所(CI,リンク)を示す。また、障害影響範囲CI(前記S5)については、例えば、該当の各CIが囲みで表示される。囲みの種類や色はステータスに応じたものにする。図4の例では、ステータスが「停止」中の障害影響範囲のCIをそれぞれ実線の囲みで強調するように表示している。同様に「低下」や「縮退」の範囲についてもそれぞれ表示してもよい。色で表現する場合は例えば、CI及びリンクのステータスが「正常」の場合は青、「縮退」は紫、「低下」は黄、「停止」は赤、などで表示する。また各CIのステータス等の情報をポップアップ等で表示してもよい。
【0074】
500は、障害影響範囲の一例(一部のみ)であり、501の障害箇所(物理サーバ)から上位への障害影響によりFTCI401,402までの範囲を示している。このように複数のCIやリンクを包含した範囲を表示してもよい。また、FTCIの上位のサービス(本例では601,602の2つ)も障害影響を受けている。図4の例では、ステータスが「停止」の各サービス(601,602)について、障害影響先サービスとして囲みで表示している。また、障害影響サービス数(N)などのサービス状況の情報をポップアップ等で表示してもよい。
【0075】
図4の例では、FTCI401,402等は、ステータスが「停止(3)」である。FTCI403は「縮退(1)」である。FTCI404は「低下(2)」である。FTCI405〜408は「正常(0)」である。FTCI409は「縮退(1)」である。FTCI411,412,413,414は「正常(0)」である。上位の2つのサービス601,602は、ステータスが「停止(3)」である。障害影響サービス数(N)(「停止」のもの)は2である。
【0076】
担当者3は、画面G1で、色の違いや囲みや特定のアイコンや表示情報を見ることで、障害影響範囲などをわかりやすく把握することができる。構成部位(CI)に関連付けられた形で各種情報が参照可能であるため、担当者3による状況把握などが容易化・迅速化できる。例えば初期診断担当者Uは、障害影響範囲などに該当しているCIアイコンやその担当者アイコンに触れると、対応するインシデント情報や、存在する各種のエスカレーション先(A,B,C)などの担当者3の情報を見ることができ、また対応するエスカレーション動作(通知)へ連携することもできる。
【0077】
[画面(3)]
図13は、一般的な従来技術例における対象システム構成を可視化する画面例を示す。従来技術例ではCI間の依存関係性(リンク)が表示されていないので、障害箇所の影響先が把握できない。また、従来技術例ではFTCIは無いので、冗長構成箇所が障害になった場合の上位レイヤへの影響度などが把握できない。一方、本実施の形態ではCI間の依存関係性(リンク)とFTCIがあるため、障害箇所の影響先とサービス等の上位レイヤへの影響度などを把握することができる。なお特許文献1,2等の先行技術例でも、FTCI等を表示する機能は持っていない。
【0078】
[FTCI情報]
図5には、図3の構成に対応した各FTCIの障害許容情報の例について示す。FTCIでは、それぞれ、属性情報として、障害許容性に関する設計情報(「障害許容情報」)が入力・設定される。障害許容情報は、対象システム1の構成に応じて異なる設計情報であり、担当者3等により設定可能である(FTCI設定機能102)。また、関連するCI(上位、下位)との関係性なども依存関係性(リンク)の形で設定される。またFTCIに関する担当者3(A,B,C等)が存在する場合はその担当者情報が関連付けられる。
【0079】
図5(a)に示した、401,402等のFTCI(アイコン表示名称:“Cluster”)では、DBアクセス(ServiceからDBへのアクセス)に関して負荷分散などのための二重化構成(クラスタリング構成)である。この二重化構成で、片方の系のみが障害状態(片系障害)の場合は「縮退」(サービス許容)、両方の系が障害状態(両系障害)の場合は「停止」(サービス停止)、といった情報が設定される。
【0080】
図5(b)に示した、403,404等のFTCI(“Cluster”)では、Middleware(MW)アクセス(ServiceからMiddlewareへのアクセス)に関して負荷分散などのための三重化構成(クラスタリング構成)である。この三重化構成で、一重障害の場合は「縮退」(サービス許容)、二重障害の場合は「低下」(サービス低下)、三重障害の場合は「停止」(サービス停止)、といった情報が設定される。
【0081】
図5(c)に示した、405〜409等のFTCI(“Cluster”)では、L2Switch−Physical Server(PS)間が二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「上位のFTCIに依存」(上位のFTCIのステータスに応じて当該ステータスが決定される等)、といった情報が設定される。
【0082】
図5(d)に示した、411,412等のFTCI(“Cluster”)では、L2Switch−Storage間が二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「停止」(サービス停止(全体))、といった情報が設定される。
【0083】
図5(e)に示した、413のFTCI(“Cluster”)では、L2Switchが二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「停止」(サービス停止(全体))、といった情報が設定される。
【0084】
図5(f)に示した、414のFTCI(“Cluster”)では、L3Switchが二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「停止」(サービス停止(全体))、といった情報が設定される。
【0085】
[CI情報]
図6は、構成情報(CI情報)のデータ構造例(テーブル)を示す。項目として、CI_ID、カテゴリ名、レイヤ番号、初期診断スクリプトパラメータ、機能的エスカレーション(A)、階層的エスカレーション#1(B)、階層的エスカレーション#2(C)、ステータス決定方法、ステータス、初期診断スクリプト実行結果、等を有する。
【0086】
CI_IDはCIの識別子である。カテゴリ名は、CIのカテゴリ(種別)を示し、DBサーバ、DB、ミドルウェア、サービス、等の他に、「障害許容性」(FTCI)を有する。FTCIについては更にFTCIの種別など(例えば図5のような各FTCI)を設けて管理してもよい。
【0087】
レイヤ番号は、CIの属するレイヤを示し、CI間の上位・下位などの関係性に関する情報である。レイヤの数値が小さい方が上位、大きい方が下位である。レイヤに応じて構成管理モデルが作成・表示される。またCIのステータスなどはレイヤを考慮して決定される。本例では、レイヤ1:サービス、レイヤ1.5:FTCI、レイヤ2:DB,ミドルウェア等、レイヤ3:DBサーバ,Webサーバ等、といったように規定されている。
【0088】
初期診断スクリプトパラメータは、初期診断処理(S3)で引数として用いるパラメータ情報を示す。例えばIPやユーザ・パスワードなどの情報である。初期診断スクリプト実行結果は、初期診断処理の結果(S4)の情報を示す。これらはインシデント情報にも格納される。
【0089】
機能的エスカレーション(A)は、当該CI(構成部位)に関連付けられる、機能的エスカレーション先の担当者3の情報を示す。A1〜A3は個別の担当者を示す。階層的エスカレーション(B)は、第1種の階層的エスカレーション先として、管理(本システム)側の担当者(例えば上司)の情報を示す。B1〜B3は個別の担当者を示す。階層的エスカレーション(C)は、第2種の階層的エスカレーション先として、顧客(対象システム1)側の担当者(例えば上司)の情報を示す。C1は個別の担当者を示す。
【0090】
ステータス決定方法は、次の項目であるステータスの値の決定方法を示す(詳しくは図7)。例えば、カテゴリがDBサーバ,DB,ミドルウェア等のCIでは、(a)の方法を適用し、IDが“0126”のFTCI(401)では(b)の方法を適用し、IDが“0130”のFTCI(403)では(c)の方法を適用し、サービスCIでは(d)の方法を適用する等、CI及びカテゴリ毎に異なる設定が可能である。ステータスは、当該CIの状況を示し、例えば「正常(0)」、「縮退(1)」、「低下(2)」、「停止(3)」、「異常(1)」などを有する。特にFTCIの場合、ステータスは障害許容状況を示す。ステータスの括弧の値は、カテゴリや方法ごとに、ステータスを識別する番号を示す。障害度合い等が大きいほどこのステータス値(ステータス番号)が大きくなるように定義されている。
【0091】
図7は、ステータス決定方法の例を示す。
【0092】
(a)の方法では、対象CIの初期診断スクリプト実行結果において、正常終了の場合は、ステータスを「正常(0)」とし、異常終了の場合はステータスを「異常(1)」とする。これは単純な2値の定義の例であるが、CIや方法に応じて多値で定義する形にしてもよい。
【0093】
(b)の方法では、下位CIの正常稼働率(rとする)において、100%の場合は「正常(0)」、50%以上で100%未満の場合は「縮退(1)」、0%の場合は「停止(3)」とする。rは各CIのステータス値から算出できる。
【0094】
(c)の方法では、下位CIの正常稼働率(r)において、100%の場合は「正常(0)」、65%以上で100%未満の場合は「縮退(1)」、1%以上で65%未満の場合は「低下(2)」、0%の場合は「停止(3)」とする。
【0095】
(d)の方法では、下位CIのステータス番号が1番大きいステータス(障害度合い等が1番大きいもの)を継承する。例えば、図4の左側のサービスCI(601)の場合、一方の下位CI(401)は「停止(3)」、他方の下位CI(403)は「縮退(1)」であるため、大きい方である「停止(3)」の方が継承されて当該サービスCIのステータスに設定される。
【0096】
[依存関係性]
図8は、CI間の依存関係性(リンク)のデータ構造例(テーブル)を示す。図8の値は、図9の構成管理モデルの例(一部)と対応した値である。図9でCI及びリンク(線)の隣の数値はIDを示す。各CI間の線が依存関係性(リンク)を示している。なお依存関係性(リンク)についてもCIの一種に含める(依存関係性CIとする)。
【0097】
図8で、項目として、依存関係性(リンク)_ID,第1のCI(下位CI)_ID、第2のCI(上位CI)_ID、依存関係性ステータス(=下位CIステータス)を有する。
【0098】
図9の例では、あるサービス(0131)の下位に、FTCIとして“Cluster”(0126)と“Cluster”(0130)の2つがある。FTCI“Cluster”(0126)は、二重化構成であり、下位に、2つのDB(0124,0125)がある。DB(0124)の下位にDBサーバ(0123)がある。FTCI“Cluster”(0130)は、三重化構成であり、下位に、3つのミドルウェア(0127,0128,0129)がある。各CI・リンクをステータスに応じた表現で示している。吹き出しはステータスを示す。特にステータスが「異常」のCIを点線で示している。
【0099】
図9のように、例えばID“1233”の依存関係性(リンク)は、ID“0123”のDBサーバである第1のCI(下位CI)と、ID“0124”のDBである第2のCI(上位CI)との依存関係性(リンク)を示し、当該依存関係性(リンク)ステータスは、下位CIのステータスと同じ「異常」(例:赤)である。
【0100】
ステータスの例として、“Cluster”(0126)における一方側のDBサーバ(0123)及びそのDB(0124)では「異常」(例:赤)であり、他方側のDB(0125)では「正常」(例:青)である。“Cluster”(0126)は、片系障害であるため、「縮退」(例:紫)である。また、“Cluster”(0130)における第1のミドルウェア(0127)は「正常」(例:青)であり、第2、第3のミドルウェア(0128,0129)は「異常」(例:赤)である。“Cluster”(0130)は、二重障害であるため、「低下」(例:黄)である。サービス(0131)は、“Cluster”(0130)の方のステータスの継承により「低下」(例:黄)となる。
【0101】
[優先度などの算出]
図10に、優先度算出部17(前記S7)における優先度(P)などの算出方法を示す。図10(a)は、緊急度(α)の算出方法(一例)を示す。障害影響範囲(前記S5)におけるFTCIのステータスや障害許容情報に応じて緊急度(α)を決定する。条件として、FTCIのステータスにおいて、「正常(0)」か「縮退(1)」がある場合は、α=1とする。「停止(3)」が無く「低下(2)」がある場合は、α=2とする。「停止(3)」がある場合は、α=3とする。
【0102】
図10(b)は、インパクトレベル(β)の算出方法(一例)を示す。ステータス決定方法(図7)に応じて異なる。FTCIのステータスや障害許容情報などを用いて、各ステータスのFTCIの数や障害影響サービス数などの状況に応じてインパクトレベル(β)を算出する。例えば図7の(c)の方法の場合(ステータス値は正常(0),縮退(1),低下(2),停止(3)の4値)、条件(式)として、FTCIのステータスにおいて、[縮退(1)のFTCI数(n1)]×係数a1(例:1)+[低下(2)のFTCI数(n2)]×係数a2(例:5)+[停止(3)のFTCI数(n3)]×係数a3(例:10)である。本式による数値をインパクトレベル(β)とする。各重み付け係数(a1〜a3)の値は一例である。
【0103】
同様に例えば(b)の方法の場合(ステータス値は正常(0),縮退(1),停止(3)の3値)、上記式は、β=[縮退(1)のFTCI数(n1)]×係数a1+[停止(3)のFTCI数(n3)]×係数a3といったようになる。
【0104】
図10(c)は、優先度(P)などの算出方法(一例)を示す。上記α,βの値を用いる。条件として、α×β≦9の場合、優先度(P)=「低」とする。10≦α×β≦29の場合、優先度(P)=「中」とする。30≦α×βの場合、優先度(P)=「高」とする。
【0105】
また、優先度(P)に対応して、当該障害(インシデント)への対策における目標解決時間(T)を求める。本例では、P=「低」の場合は12時間、P=「中」の場合は6時間、P=「高」の場合は2時間、といったように対応付けている。
【0106】
また、優先度(P)に対応して、前述の各種のエスカレーション(A〜C)の有無などを求める。例えば、P=「低」の場合、階層的エスカレーション#1(B)及び階層的エスカレーション#2(C)ともに無しである。P=「中」の場合、#1(B)(管理側への連絡等)を有りにする。更に、P=「高」の場合、#2(C)(顧客側への連絡等)も有りにする。
【0107】
またその他、前記S5で抽出した障害影響範囲CIや前記S6で決定したFTCIステータス等をもとに、障害影響サービス数(N)を算出する。例えば、サービスCIの下位のFTCIのステータスなどに応じて当該サービスCIのステータスを決定する。そしてサービスCIのステータス(「縮退」、「低下」、「停止」など)毎に、障害影響サービス数(N)をカウントする。
【0108】
情報登録部18等は、上記で得た各情報を含めて記述したインシデント情報b2を、DB51等に登録する。
【0109】
[インシデント情報]
図11に、インシデント情報(b2)のデータ構造例(テーブル)を示す。図12は、図11に対応するインシデント画面G2の例(フォーマット)を示す。インシデント情報において、項目として、インシデントID,緊急度(α),インパクトレベル(β),障害影響サービス数(N),優先度(P),目標解決時間(T),階層的エスカレーション#1(B),#2(C)、等を有する。各項目には前述した処理で得た情報が格納される。インシデントIDやその他の従来のインシデント情報と同様の項目(ステータス、タイトル、カテゴリ、構成部位(CI)、日時、説明情報など)も格納・管理される。障害影響サービス数(N)についてはステータスごとの値を格納する。図12のインシデント画面G2では、図11のインシデント情報をもとに情報が表示される。担当者3は、画面G2でインシデント情報を参照したり、値を入力することができる。他にも例えば、当該CIに関連付けられる担当者3の情報など(機能的エスカレーション(A)の担当者3や当該担当者3(A)による対策情報など)を管理・表示してもよい。
【0110】
[具体例]
前述したフロー(S0〜S9)に沿った具体例を以下に示す。
【0111】
(S0)図3で示されるような構成管理モデルを設定する。
【0112】
(S1)障害検知(障害情報)により、障害箇所のCIが例えば図4の501(物理サーバ)であるとする。他の障害箇所(502等)がある場合も同様の考え方である。
【0113】
(S2)障害箇所(501)を含む関連するCI情報(全部または一部)を取得する。少なくとも上位・下位でつながるCI及びリンクの情報が取得される。
【0114】
(S3),(S4)障害箇所(501)を含む対象に対する初期診断実行結果を得る。
【0115】
(S5)上記結果から、障害箇所(501)を含む障害影響範囲のCIを抽出する。例えば図4の障害影響範囲500のCIが抽出される。障害箇所などの下位CIから、依存関係性(リンク)でつながる上位CIへ、障害の影響が伝播する。処理例としては、上位CIのステータスが、リンクで接続されるすべての下位CIのステータスの値を用いた前述の計算に応じて決定される。障害影響範囲500は、上位のFTCI(例えば401,402)までを含めた場合である。
【0116】
(S6)上記障害影響範囲に係わるFTCI(例えば401,402)について、障害許容状況を把握する。例えば401について、図6,図7の方法(b)を用いてステータスを決定する。まず、401の下位の一方の障害箇所(501)の障害の影響のみを考えた場合、401のステータスは、片系障害なので「縮退(1)」になる。また401の下位のもう一方の障害箇所(502)の障害の影響を加えて考えた場合、401のステータスは、両系障害なので「停止(3)」になる。402のFTCIについても同様に、「停止(3)」になる。
【0117】
また、障害影響範囲500における更に上位のサービス(601,602)についても、障害影響先(障害影響サービス)として、下位のFTCI(401,402)のステータス等をもとに、ステータス(「停止」)やその数(N=2)などが求まる。
【0118】
(S7)上記の障害箇所(501)及びそれに基づくFTCI(401,402)を含む障害影響範囲500に係わるインシデントに関して、優先度(P)を求める。まず、緊急度(α)は、401,402のステータスが共に「停止(3)」の場合、α=3となる。
【0119】
次に、上記障害影響範囲500に係わるインシデントにおけるインパクトレベル(β)は、方法(b)に応じた所定の条件(式)から、例えばβ=2×1+1×5+2×10=27となる。
【0120】
次に、上記障害影響範囲500に係わるインシデントにおける優先度(P)は、α×β=3×27=81,30≦α×βであるから、P=「高」となる。あわせて、T=2時間、階層的エスカレーション#1(B):有り、階層的エスカレーション#2(C):有り、と求まる。
【0121】
(S8)上記S7までの結果を、当該インシデント情報b2に反映・登録し、また、障害構成情報b3(図3の構成管理モデル上に上記障害影響範囲500を含む状況をマッピングした情報など)を構成し、DB51等に登録する。
【0122】
(S9)上記によりサービスポータルシステム30で担当者3に対し図4のような内容を持つ画面G1が提供される。
【0123】
[効果等]
以上、本実施の形態によれば、インシデント管理システム10等に係わり、クラウド環境や障害許容性などを考慮した構成の対象システム1における、障害影響範囲などの状況や構成、及びインシデント・対策の優先度などの情報を画面(G1,G2)で可視化することで、担当者3が上記状況などを即座にわかりやすく把握でき、迅速なエスカレーション(情報伝達)及び対策の実施などが実現できる。
【0124】
担当者3は、障害検知(S1)時、図4等の画面(G1)を見ることで、FTCIを含む構成における障害箇所・障害影響範囲・障害影響先サービス、FTCIステータスなどを、色やアイコンなどによってわかりやすく把握でき、あわせてインシデント情報(G2)を見ることで、当該障害影響範囲や優先度(P)などの情報に基づき、1次切り分けやエスカレーション等の対応を容易化・迅速化できる。
【0125】
本実施の形態では、特に、FTCIを設けた仕組みにより、対象システム1で提供するサービスの継続可能性(サービスレベル等)との兼ね合いで、仮想サーバ等の障害影響範囲のCIだけでなく、それによる障害影響先となるサービス(FTCIの上位のサービスCIなど)の状況を、各サービスのステータスや障害影響サービス数(N)などの可視化によって把握することができる。
【0126】
[他の実施の形態]
(1) 対象システム1の構成部位の障害許容性をCI(FTCI)としてモデル化したが、障害許容性以外にも、構成部位の性能(性能指標)などの他の非機能項目(設計情報)をCIとしてモデル化してもよい。
【0127】
(2) 障害情報(S1)に基づく初期診断(S3,S4)の際に、対象システム1の全CIに対して診断実行し、その結果から障害箇所CIなどを発見・特定する形だけでなく、一部の特定のCIに対して診断を実行する形態としてもよい。例えば、障害情報(S1)から、障害等が推定される一部の特定のCIを特定(絞り込み)し、その特定のCIを診断対象とする。
【0128】
(3) 障害情報(S1)等をもとに、自動的に、DB51内の既存インシデント情報(履歴)を検索したり、障害パターン解析などを行い、インシデント情報に関連付けられる又は含まれる対策手順などの対策情報を取得し、あわせて画面(G1,G2)で提示してもよい。
【0129】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
【産業上の利用可能性】
【0130】
本発明は、統合運用管理システム、インシデント管理システム、構成管理システム、サービスポータルシステム、障害監視システムなどに利用可能である。
【符号の説明】
【0131】
1…対象システム(稼働システム)、3…担当者、10…インシデント管理システム、11…障害情報取得部、12…構成情報取得部、13…初期診断部、15…障害影響範囲CI抽出部、16…FTCI状況把握部、17…優先度算出部、18…情報登録部、20…構成管理システム、30…サービスポータルシステム、31…画面提供部、40…障害監視システム、51…インシデント管理データベース(DB)、52…構成管理データベース(DB)、101…障害影響範囲可視化機能、102…FTCI設定機能。
【特許請求の範囲】
【請求項1】
対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理するインシデント管理システムであって、
前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システムと連携し、
担当者の端末に対して情報の画面を提供するサービスポータルシステムと連携し、
前記対象システムの障害を含むインシデントを監視する障害監視システムと連携し、
本インシデント管理システムは、
前記対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、前記担当者の端末に提供する第1の機能と、
前記担当者の操作に基づき、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する第2の機能と、を有し、
前記構成管理モデルでは、前記障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、前記第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定し、
前記第1の機能による画面では、前記構成アイテムをリンクで接続した構造で、前記対象システムの構成管理モデル、障害箇所を含む障害影響範囲の構成アイテム及び障害影響先サービスを含むインシデント状況を表示すること、を特徴とするインシデント管理システム。
【請求項2】
請求項1記載のインシデント管理システムにおいて、
(S1)前記対象システムでの障害を検知し障害情報を取得する処理部、
(S2)前記対象システムの構成情報を取得する処理部、
(S3)前記対象システムの障害箇所を含む構成部位に対する初期診断を実行する処理部、
(S4)前記初期診断の実行結果の情報を取得する処理部、
(S5)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第1の構成アイテム及び第2の構成アイテムを抽出する処理部、
(S6)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第2の構成アイテムのステータスを、障害許容性の設計情報に従って把握する処理部、
(S7)上記(S6)の情報を用いて、前記障害への対策に関する優先度、及び目標解決時間、更にはエスカレーションの有無、を算出する処理部、
(S8)上記(S7)までの結果を前記インシデント情報及び構成情報に反映し、前記構成管理モデル上に前記障害影響範囲及び障害影響先サービスを含む障害状況をマッピングした情報を作成する処理部、
(S9)上記(S8)で作成した情報を用いて、前記対象システムでの障害状況を可視化する画面を前記担当者に対して提供する処理部、を有すること、を特徴とするインシデント管理システム。
【請求項3】
請求項2記載のインシデント管理システムにおいて、
前記(S5),(S6)の処理に係わり、前記第2の構成アイテムについて、前記ステータスの決定方法を前記障害許容性の設計情報として設定しておき、
前記ステータスは、障害許容性の度合いに応じた、正常、縮退、低下、停止を含む複数のステータス値を有し、
前記構成アイテム間のリンクは、上位の構成アイテムと下位の構成アイテムを接続し、
前記リンクのステータスは、下位の構成アイテムのステータスに応じて決定され、
前記構成アイテムは、それぞれレイヤに属し、レイヤの上位の構成アイテムのステータスは、レイヤの下位の構成アイテムのステータスに応じて決定され、
上位の構成アイテムのステータスを、前記リンクで接続されるすべての下位の構成アイテムのステータスの値を用いた計算により決定すること、を特徴とするインシデント管理システム。
【請求項4】
請求項1記載のインシデント管理システムにおいて、
前記画面では、前記構成アイテムを示すアイコンごと、及び前記リンクを示す線ごとに、ステータスに応じた色で表示すること、を特徴とするインシデント管理システム。
【請求項5】
請求項1記載のインシデント管理システムにおいて、
前記画面では、前記構成アイテムを示すアイコンごとに、当該構成アイテムに関連付けられる担当者の情報を表示すること、を特徴とするインシデント管理システム。
【請求項6】
請求項1記載のインシデント管理システムにおいて、
前記画面として、前記構成情報を表示する第1の画面と、前記インシデント情報を表示する第2の画面と、を有し、
前記第1の画面に、前記対象システムの構成管理モデル及び障害影響範囲を含むインシデント状況を表示すること、を特徴とするインシデント管理システム。
【請求項7】
請求項1記載のインシデント管理システムにおいて、
前記障害への対策に関する優先度、及び目標解決時間、更にはエスカレーションの有無、を算出する処理部を含む分析部を有し、
前記分析部の処理では、
前記第2の構成アイテムのステータスを用いて、当該インシデントの対策の緊急度(α)を算出し、
前記第2の構成アイテムのステータスを用いて、当該インシデントの対策のインパクトレベル(β)を算出し、
上記緊急度(α)とインパクトレベル(β)を用いて、前記優先度を算出し、
前記優先度に対応付けて、目標解決時間を決定し、
前記優先度に対応付けて、エスカレーションの有無を決定し、
前記障害影響範囲による障害影響先となる上位のサービスのステータス及び数を含む情報を算出すること、を特徴とするインシデント管理システム。
【請求項8】
対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理するインシデント管理システムにおける障害影響範囲可視化方法であって、
前記インシデント管理システムは、前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システム、担当者の端末に対して情報の画面を提供するサービスポータルシステム、及び、前記対象システムの障害を含むインシデントを監視する障害監視システムと連携し、
前記インシデント管理システムは、前記担当者の操作に基づき、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する機能と、前記対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、前記担当者の端末に提供する機能と、を有し、
前記構成管理モデルでは、前記障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、前記第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定し、
前記画面では、前記構成アイテムをリンクで接続した構造で、前記対象システムの構成管理モデル、障害箇所を含む障害影響範囲の構成アイテム及び障害影響先サービスを含むインシデント状況を表示し、
前記インシデント管理システムは、
(S1)前記対象システムでの障害を検知し障害情報を取得する処理、
(S2)前記対象システムの構成情報を取得する処理、
(S3)前記対象システムの障害箇所を含む構成部位に対する初期診断を実行する処理、
(S4)前記初期診断の実行結果の情報を取得する処理、
(S5)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第1の構成アイテム及び第2の構成アイテムを抽出する処理、
(S6)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第2の構成アイテムのステータスを、障害許容性の設計情報に従って把握する処理、
(S7)上記(S6)の情報を用いて、前記障害への対策に関する優先度、及び目標解決時間、更にはエスカレーションの有無、を算出する処理、
(S8)上記(S7)までの結果を前記インシデント情報及び構成情報に反映し、前記構成管理モデル上に前記障害影響範囲及び障害影響先サービスを含む障害状況をマッピングした情報を作成する処理、
(S9)上記(S8)で作成した情報を用いて、前記サービスポータルシステムで、前記対象システムでの障害状況を可視化する画面を前記担当者に対して提供する処理、を行うこと、を特徴とする障害影響範囲可視化方法。
【請求項1】
対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理するインシデント管理システムであって、
前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システムと連携し、
担当者の端末に対して情報の画面を提供するサービスポータルシステムと連携し、
前記対象システムの障害を含むインシデントを監視する障害監視システムと連携し、
本インシデント管理システムは、
前記対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、前記担当者の端末に提供する第1の機能と、
前記担当者の操作に基づき、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する第2の機能と、を有し、
前記構成管理モデルでは、前記障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、前記第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定し、
前記第1の機能による画面では、前記構成アイテムをリンクで接続した構造で、前記対象システムの構成管理モデル、障害箇所を含む障害影響範囲の構成アイテム及び障害影響先サービスを含むインシデント状況を表示すること、を特徴とするインシデント管理システム。
【請求項2】
請求項1記載のインシデント管理システムにおいて、
(S1)前記対象システムでの障害を検知し障害情報を取得する処理部、
(S2)前記対象システムの構成情報を取得する処理部、
(S3)前記対象システムの障害箇所を含む構成部位に対する初期診断を実行する処理部、
(S4)前記初期診断の実行結果の情報を取得する処理部、
(S5)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第1の構成アイテム及び第2の構成アイテムを抽出する処理部、
(S6)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第2の構成アイテムのステータスを、障害許容性の設計情報に従って把握する処理部、
(S7)上記(S6)の情報を用いて、前記障害への対策に関する優先度、及び目標解決時間、更にはエスカレーションの有無、を算出する処理部、
(S8)上記(S7)までの結果を前記インシデント情報及び構成情報に反映し、前記構成管理モデル上に前記障害影響範囲及び障害影響先サービスを含む障害状況をマッピングした情報を作成する処理部、
(S9)上記(S8)で作成した情報を用いて、前記対象システムでの障害状況を可視化する画面を前記担当者に対して提供する処理部、を有すること、を特徴とするインシデント管理システム。
【請求項3】
請求項2記載のインシデント管理システムにおいて、
前記(S5),(S6)の処理に係わり、前記第2の構成アイテムについて、前記ステータスの決定方法を前記障害許容性の設計情報として設定しておき、
前記ステータスは、障害許容性の度合いに応じた、正常、縮退、低下、停止を含む複数のステータス値を有し、
前記構成アイテム間のリンクは、上位の構成アイテムと下位の構成アイテムを接続し、
前記リンクのステータスは、下位の構成アイテムのステータスに応じて決定され、
前記構成アイテムは、それぞれレイヤに属し、レイヤの上位の構成アイテムのステータスは、レイヤの下位の構成アイテムのステータスに応じて決定され、
上位の構成アイテムのステータスを、前記リンクで接続されるすべての下位の構成アイテムのステータスの値を用いた計算により決定すること、を特徴とするインシデント管理システム。
【請求項4】
請求項1記載のインシデント管理システムにおいて、
前記画面では、前記構成アイテムを示すアイコンごと、及び前記リンクを示す線ごとに、ステータスに応じた色で表示すること、を特徴とするインシデント管理システム。
【請求項5】
請求項1記載のインシデント管理システムにおいて、
前記画面では、前記構成アイテムを示すアイコンごとに、当該構成アイテムに関連付けられる担当者の情報を表示すること、を特徴とするインシデント管理システム。
【請求項6】
請求項1記載のインシデント管理システムにおいて、
前記画面として、前記構成情報を表示する第1の画面と、前記インシデント情報を表示する第2の画面と、を有し、
前記第1の画面に、前記対象システムの構成管理モデル及び障害影響範囲を含むインシデント状況を表示すること、を特徴とするインシデント管理システム。
【請求項7】
請求項1記載のインシデント管理システムにおいて、
前記障害への対策に関する優先度、及び目標解決時間、更にはエスカレーションの有無、を算出する処理部を含む分析部を有し、
前記分析部の処理では、
前記第2の構成アイテムのステータスを用いて、当該インシデントの対策の緊急度(α)を算出し、
前記第2の構成アイテムのステータスを用いて、当該インシデントの対策のインパクトレベル(β)を算出し、
上記緊急度(α)とインパクトレベル(β)を用いて、前記優先度を算出し、
前記優先度に対応付けて、目標解決時間を決定し、
前記優先度に対応付けて、エスカレーションの有無を決定し、
前記障害影響範囲による障害影響先となる上位のサービスのステータス及び数を含む情報を算出すること、を特徴とするインシデント管理システム。
【請求項8】
対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理するインシデント管理システムにおける障害影響範囲可視化方法であって、
前記インシデント管理システムは、前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システム、担当者の端末に対して情報の画面を提供するサービスポータルシステム、及び、前記対象システムの障害を含むインシデントを監視する障害監視システムと連携し、
前記インシデント管理システムは、前記担当者の操作に基づき、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する機能と、前記対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、前記担当者の端末に提供する機能と、を有し、
前記構成管理モデルでは、前記障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、前記第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定し、
前記画面では、前記構成アイテムをリンクで接続した構造で、前記対象システムの構成管理モデル、障害箇所を含む障害影響範囲の構成アイテム及び障害影響先サービスを含むインシデント状況を表示し、
前記インシデント管理システムは、
(S1)前記対象システムでの障害を検知し障害情報を取得する処理、
(S2)前記対象システムの構成情報を取得する処理、
(S3)前記対象システムの障害箇所を含む構成部位に対する初期診断を実行する処理、
(S4)前記初期診断の実行結果の情報を取得する処理、
(S5)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第1の構成アイテム及び第2の構成アイテムを抽出する処理、
(S6)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第2の構成アイテムのステータスを、障害許容性の設計情報に従って把握する処理、
(S7)上記(S6)の情報を用いて、前記障害への対策に関する優先度、及び目標解決時間、更にはエスカレーションの有無、を算出する処理、
(S8)上記(S7)までの結果を前記インシデント情報及び構成情報に反映し、前記構成管理モデル上に前記障害影響範囲及び障害影響先サービスを含む障害状況をマッピングした情報を作成する処理、
(S9)上記(S8)で作成した情報を用いて、前記サービスポータルシステムで、前記対象システムでの障害状況を可視化する画面を前記担当者に対して提供する処理、を行うこと、を特徴とする障害影響範囲可視化方法。
【図2】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図1】
【図3】
【図4】
【図13】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図1】
【図3】
【図4】
【図13】
【公開番号】特開2012−38028(P2012−38028A)
【公開日】平成24年2月23日(2012.2.23)
【国際特許分類】
【出願番号】特願2010−176461(P2010−176461)
【出願日】平成22年8月5日(2010.8.5)
【出願人】(000155469)株式会社野村総合研究所 (1,067)
【Fターム(参考)】
【公開日】平成24年2月23日(2012.2.23)
【国際特許分類】
【出願日】平成22年8月5日(2010.8.5)
【出願人】(000155469)株式会社野村総合研究所 (1,067)
【Fターム(参考)】
[ Back to top ]