説明

障害箇所推定システム、障害箇所推定装置および障害箇所推定方法

【課題】ネットワークの異常の原因となる範囲を絞り込み、システムのトラブル調査を支援すること。
【解決手段】障害箇所推定システム10の関連クラス適用部11は、構成情報21、関連クラス適用ルール22および関連クラス23を参照し、構成情報21に含まれる構成要素間の関係について、関連クラス適用ルール22に基づいて関連クラスを適用する。調査範囲限定部12は、関連クラス23、調査内容24、異常検知情報25を参照して、異常が発生した構成要素の各々について調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める。障害発生箇所候補推定部13は、異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける構成要素の出現頻度に基づいて異常の原因となる障害が発生した箇所の候補を推定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、障害箇所推定システム、障害箇所推定装置および障害箇所推定方法に関する。
【背景技術】
【0002】
従来、構成要素の多い大規模システムでは、異常が発生した場合に原因箇所を特定することが困難であった。そのため、システムの構成要素の因果関係についてマトリクスを作成し、異常が発生した場合にはマトリクスを参照して原因箇所を絞り込むことが行なわれてきた。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平2−244338号公報
【特許文献2】特開平6−324904号公報
【特許文献3】特開2001−222442号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、システムごとに因果関係のマトリクスを作成する従来の技術では、システム構成が変化するたびにマトリクスを作り直すこととなる。また、変更直後のシステムでは障害情報が少なく、マトリクスによる原因箇所の絞込みを行なうことができない場合があった。マトリクスによる原因箇所の絞込みができない場合には、作業者が手作業でトラブルを切り分けることとなり、作業工数の増大を引き起こしていた。
【0005】
また、システムの大規模化に伴い、システムを仮想化した環境、所謂クラウド環境の利用が進んでいる。仮想化したシステムは、サービスの提供に影響を与えることなくシステム構成を動的に変更できることが利点の一つである。このため、システム構成が変更されても原因箇所の特定を支援することのできる技術の実現は、仮想環境でのトラブル調査に特に重要であった。
【0006】
このように従来の技術では、大規模システムや仮想環境でのトラブル調査に対して充分な支援を行なうことができないという問題点が有り、トラブル調査を支援する技術の実現が重要な課題であった。
【0007】
開示の技術は、上記に鑑みてなされたものであって、システムのトラブル調査を支援する障害箇所推定システム、障害箇所推定装置および障害箇所推定方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本願の開示する障害箇所推定システム、障害箇所推定装置および障害箇所推定方法は、ネットワークを構成する構成要素を示す構成情報と、構成要素間における異常の伝播方向に基づいて構成要素間の関連を関連クラスに分類する。また、開示のシステム、装置および方法は、異常の種別と当該異常の原因調査時に辿るべき関連クラス及び方向とを対応付けた調査内容を参照し、異常が発生した構成要素について調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める。そして、開示のシステム、装置および方法は異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける構成要素の出現頻度に基づいて前記異常の原因となる障害が発生した箇所の候補を推定する。
【発明の効果】
【0009】
本願の開示するシステム、装置、方法によれば、システムのトラブル調査を支援する障害箇所推定システム、障害箇所推定装置および障害箇所推定方法を得ることができるという効果を奏する。
【図面の簡単な説明】
【0010】
【図1】図1は、実施例1にかかる障害箇所推定システムの概要構成図である。
【図2】図2は、実施例2にかかる障害箇所推定装置の概要構成図である。
【図3】図3は、ネットワークに発生した障害を調査するトラブル調査システムの概要構成図である。
【図4】図4は、ネットワークの構成例の説明図である。
【図5】図5は、調査範囲限定ツリーの重ねあわせについての説明図である。
【図6】図6は、構成情報21の具体例の説明図である。
【図7】図7は、関連クラス23の具体例の説明図である。
【図8】図8は、関連クラス適用ルール22の具体例の説明図である。
【図9】図9は、システム稼動情報26の実行履歴についての説明図である。
【図10】図10は、システム稼動情報26の通信履歴についての説明図である。
【図11】図11は、関連クラスを適用した構成情報の説明図である。
【図12】図12は、調査内容24の具体例の説明図である。
【図13】図13は、異常検知情報25の具体例の説明図である。
【図14】図14は、障害情報DB32と減衰度について説明する説明図である。
【図15】図15は、調査範囲限定部12が作成する調査範囲限定ツリーの説明図である。
【図16】図16は、関連クラス適用部11の処理動作を説明するフローチャートである。
【図17】図17は、調査範囲限定部12の処理動作を説明するフローチャートである。
【図18】図18は、図17に示した調査範囲限定ツリー作成処理について説明するフローチャートである。
【図19】図19は、障害発生箇所候補推定部13による障害発生箇所候補推定処理について説明するフローチャートである。
【図20】図20は、CIvb02からの調査範囲限定ツリーの作成の説明図である。
【図21】図21は、CIvb02のダウンに関する減衰度の説明図である。
【図22】図22は、CIvb02のダウンについて得られた調査範囲限定ツリーの説明図である。
【図23】図23は、CIvb02のダウンについて得られたCI出現数カウント表の説明図である。
【図24】図24は、CITaからの調査範囲限定ツリーの作成の説明図である。
【図25】図25は、CITaのダウンに関する減衰度の説明図である。
【図26】図26は、CITaのダウンについて得られた調査範囲限定ツリーの説明図である。
【図27】図27は、CITaのダウンについて得られたCI出現数カウント表の説明図である。
【図28】図28は、CITbからの調査範囲限定ツリーの作成の説明図である。
【図29】図29は、CITbのダウンに関する減衰度の説明図である。
【図30】図30は、CITbのダウンについて得られた調査範囲限定ツリーの説明図である。
【図31】図31は、CITbのダウンについて得られたCI出現数カウント表の説明図である。
【図32】図32は、障害候補推定ツリーの作成について説明する説明図である。
【発明を実施するための形態】
【0011】
以下に、本願の開示する障害箇所推定システム、障害箇所推定装置および障害箇所推定方法の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
【実施例1】
【0012】
図1は、実施例1にかかる障害箇所推定システムの概要構成図である。図1に示した障害箇所推定システム10は、関連クラス適用部11、調査範囲限定部12、障害発生箇所候補推定部13を有する。
【0013】
関連クラス適用部11は、構成情報21、関連クラス適用ルール22および関連クラス23を参照する。構成情報21は、ネットワークを構成する構成要素を示す情報である。関連クラス23は、構成要素間における異常の伝播方向に基づいて構成要素間の関連を分類する関連クラスの定義情報である。関連クラス適用ルール22は、構成要素の種別に基づいて構成要素間の関連に関連クラスのいずれを適用するかを定める情報である。関連クラス適用部11は、構成情報21に含まれる構成要素間の関係について、関連クラス適用ルール22に基づいて関連クラスを適用する。
【0014】
調査範囲限定部12は、関連クラス23、調査内容24、異常検知情報25を参照して、調査範囲限定ツリーを求める。調査内容24は、構成要素に発生する異常の種別と当該異常の原因調査時に辿るべき関連クラス及び方向とを対応付けた情報である。異常検知情報25は、システムの構成要素について、異常が発生した構成要素と異常の種別を検知した情報である。調査範囲限定部12は、異常が発生した構成要素の各々について調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める。
【0015】
障害発生箇所候補推定部13は、異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける構成要素の出現頻度に基づいて異常の原因となる障害が発生した箇所の候補を推定する。
【0016】
上述してきたように、本実施例1にかかる障害箇所推定システム10は、システムの構成要素間の関連を関連クラスに分類し、異常発生時に関連クラスに基づいて構成要素を辿って異常の原因となる障害が発生した範囲を絞り込む。
【0017】
このように関連クラスを用いた障害発生箇所の絞込みはネットワークシステムの構成に依存せず、汎用性が高い。そのため、新たに組んだネットワークシステムに対しても適用でき、またネットワークシステムの構成を変更しても適用可能である。
【0018】
また、大規模ネットワークシステムや仮想環境でのトラブル調査に対しても障害発生箇所の絞込みを行なってトラブル調査を支援することができる。
【0019】
なお、関連クラス適用部11、調査範囲限定部12、障害発生箇所候補推定部13は、ネットワークシステム上に分散して配置することができる。また、1つの筐体内に関連クラス適用部11、調査範囲限定部12、障害発生箇所候補推定部13を設けた障害箇所推定装置として実施しても良い。
【実施例2】
【0020】
図2は、実施例2にかかる障害箇所推定装置の概要構成図である。図1に示した障害箇所推定装置30は、関連クラス適用部11、調査範囲限定部12、障害発生箇所候補推定部13を有する。加えて、障害箇所推定装置30は、CMDB(Configuration Management Database)31、障害情報DB(Database)32を有する。
【0021】
CMDB31は、ネットワークを構成する構成要素を示す情報である構成情報21を保持する。障害情報DB(Database)32は、過去の異常発生時に辿った関連の履歴を保持するデータベースである。障害情報DB32は、一例として操作経路履歴情報27および障害対処情報28を保持する。
【0022】
操作経路履歴情報27は、過去の異常発生時に原因となった障害箇所を特定するために辿った関連の経路を示す情報である。また、障害対処情報28は、異常が検知された構成要素から異常の原因として特定された構成要素までの経路情報を含む。
【0023】
また、障害箇所推定装置30は、関連クラス適用ルール22、システム稼動情報26、関連クラス23、調査内容24、異常検知情報25を使用する。これらの情報は、必要に応じて外部から取得しても良いし、障害箇所推定装置30内部の任意の記録媒体に記録してもよい。
【0024】
関連クラス23は、構成要素間における異常の伝播方向に基づいて構成要素間の関連を分類する関連クラスの定義情報である。関連クラス適用ルール22は、構成要素の種別に基づいて構成要素間の関連に関連クラスのいずれを適用するかを定める情報である。
【0025】
システム稼動情報26は、ネットワークシステムの稼動状態に関する情報であり、構成要素の実行や通信の履歴を含む。調査内容24は、構成要素に発生する異常の種別と当該異常の原因調査時に辿るべき関連クラス及び方向とを対応付けた情報である。異常検知情報25は、ネットワークシステムの構成要素について、異常が発生した構成要素と異常の種別を検知した情報である。
【0026】
関連クラス適用部11は、構成情報21、関連クラス適用ルール22、システム稼動情報26および関連クラス23を参照し、構成情報21に含まれる構成要素間の関係について関連クラスを適用する。
【0027】
調査範囲限定部12は、関連クラス23、調査内容24、異常検知情報25、障害情報DB32を参照し、異常が発生した構成要素の各々について調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める。
【0028】
障害発生箇所候補推定部13は、異常が発生した構成要素の各々について求めた調査範囲限定ツリーを重ね合わせて異常の原因となる障害が発生した箇所の候補を推定する。
【0029】
図3は、ネットワークに発生した障害を調査するトラブル調査システムの概要構成図である。図3に示したトラブル調査システム40は、異常検出部41、障害箇所推定部42、障害原因特定部43、対処実施部44を有し、図2に示した障害箇所推定装置30は障害箇所推定部42として機能する。
【0030】
異常検出部41は、ネットワークの構成要素に発生した異常を検知する処理部であり、検知した異常を障害箇所推定部42に通知する。障害箇所推定部42として機能する障害箇所推定装置30は、通知された情報を異常検知情報25として使用する。また、障害箇所推定部42として機能する障害箇所推定装置30は、異常の原因となる障害が発生した箇所の候補を推定し、障害原因特定部43に出力する。
【0031】
障害原因特定部43は、障害箇所推定部42の出力を用い、異常の原因となる障害が発生した箇所を特定する。対処実施部44は、特定された箇所について対処を実行することで、発生した異常を解消する。
【0032】
図4は、ネットワークの構成例の説明図である。図4に示したネットワークは、構成要素としてCI(Configuration Item)pm11〜pm13、CIva01〜03、CIvb01〜03、CITa,Tbを有する。
【0033】
図4に示したネットワークは、CIpm11〜pm13を物理マシン、CIva01〜03およびCIvb01〜03を仮想マシン、CITa,Tbをサービスとして用いる仮想ネットワークである。各CIは、各々が1つのコンピュータであっても良いし、複数のCIが同一のコンピュータ上で動作しても良い。各CIは、ネットワーク上で一意に定まる識別情報を与えられ、個別の構成要素として動作することが出来る。CIを識別する情報をインスタンスとする。
【0034】
CI間には、関連が定められている。このCI間の関連をリレーションという。関連には方向が定められ、関連の元をソース(src)、関連の宛先をターゲット(tgt)もしくはディスティネーション(dst)という。
【0035】
図4に示したネットワークでは、関連re101〜rel24が定められている。
関連re101はCIva01がソース、CIpm11がターゲットである。
関連re102はCIpm11がソース、CIva01がターゲットである。
関連re103はCIpm11がソース、CIvb01がターゲットである。
関連re104はCIvb01がソース、CIpm11がターゲットである。
関連re105はCIva02がソース、CIpm12がターゲットである。
関連re106はCIpm12がソース、CIva02がターゲットである。
関連re107はCIpm12がソース、CIvb02がターゲットである。
関連re108はCIvb02がソース、CIpm12がターゲットである。
関連re109はCIva03がソース、CIpm13がターゲットである。
関連re110はCIpm13がソース、CIva03がターゲットである。
関連re111はCIpm13がソース、CIvb03がターゲットである。
関連re112はCIvb03がソース、CIpm13がターゲットである。
関連re113はCIva01がソース、CITaがターゲットである。
関連re114はCIva02がソース、CITaがターゲットである。
関連re115はCIva03がソース、CITaがターゲットである。
関連re116はCIvb01がソース、CITbがターゲットである。
関連re117はCIvb02がソース、CITbがターゲットである。
関連re118はCIvb03がソース、CITbがターゲットである。
関連re119はCIva02がソース、CIva01がターゲットである。
関連re120はCIva03がソース、CIva02がターゲットである。
関連re121はCIvb02がソース、CIvb01がターゲットである。
関連re122はCIvb03がソース、CIvb02がターゲットである。
関連re123はCIva01がソース、CITaがターゲットである。
関連re124はCIvb01がソース、CITbがターゲットである。
【0036】
このネットワークにおいて、CITaおよびCITbは、図示しないクライアントからのアクセスを受け、所定のサービスを提供する。仮想マシンであるCIva01は、CITaが提供するサービスのウェブ層を担当する。また、仮想マシンであるCIva02は、CITaが提供するサービスのアプリ層を担当する。そして、仮想マシンであるCIva03は、CITaが提供するサービスのデータベース層を担当する。
【0037】
同様に、仮想マシンであるCIvb01は、CITbが提供するサービスのウェブ層を担当する。また、仮想マシンであるCIvb02は、CITbが提供するサービスのアプリ層を担当する。そして、仮想マシンであるCIvb03は、CITbが提供するサービスのデータベース層を担当する。
【0038】
ウェブ層を担当する仮想マシンCIva01と仮想マシンCIvb01は、物理マシンであるCIpm11を使用する。アプリ層を担当する仮想マシンCIva02と仮想マシンCIvb02は、物理マシンであるCIpm12を使用する。データベース層を担当する仮想マシンCIva03と仮想マシンCIvb03は、物理マシンであるCIpm13を使用する。
【0039】
障害箇所推定装置30は、このネットワークに異常が発生した場合に、異常を検知したCIから関連を辿って調査範囲限定ツリーを作成し、調査範囲限定ツリーを重ね合わせて異常の原因となる障害が発生した箇所の候補を推定する。
【0040】
図5は、調査範囲限定ツリーの重ねあわせについての説明図である。図5は、CITa,CIva01,CIpm11で異常を検知した場合を例示している。障害箇所推定装置30は、CITaから関連を辿ることで調査範囲限定ツリーA01を作成する。調査範囲限定ツリーA01は、CITaをルートとし、CIva01〜03をCITaに接続したノードとして有する。さらに、調査範囲限定ツリーA01は、CIva01に接続したノードとしてCIpm11を有し、CIva02に接続したノードとしてCIpm12を有する。ここで、調査範囲限定ツリーA01は、CIpm13を含まない。これは、調査範囲限定ツリーの作成時に辿る関連の範囲を制限することで調査範囲限定ツリーが過度に大きくなることを防いだためである。調査範囲限定ツリーの作成時に辿る関連の範囲に対する制限は、ホップ値と減衰度を定めることで行なうが、ホップ値と減衰度についての説明は後述する。
【0041】
障害箇所推定装置30は、CIva01から関連を辿ることで調査範囲限定ツリーA02を作成する。調査範囲限定ツリーA02は、CIva01をルートとし、CIpm11をCIva01に接続したノードとして有する。
【0042】
障害箇所推定装置30は、CIpm11から関連を辿ることで調査範囲限定ツリーA03を作成する。図5に示した例では、CIpm11から辿ることのできる関連がなく、調査範囲限定ツリーA03はCIpm11のみを有する。
【0043】
障害箇所推定装置30は、調査範囲限定ツリーA01〜03を重ね合わせ、重複が最大となるCIpm11を障害が発生した箇所の候補として推定する。
【0044】
図6は、構成情報21の具体例の説明図である。図6に示した構成情報は、cmdbタグ内にCIを定義するCisタグと関連を定義するRelationsタグを有する。Cisタグ内には、各CIのidと種別が記述されている
【0045】
図6に示した例では、Cisタグ内にCIpm11〜13,CIva01,CITbを例示している。CIpm11〜13は、種別として物理マシンであることを示すPMが対応付けられている。同様に、CIva01には、種別として仮想マシンであることを示すVAが対応付けられている。そして、CITbには種別としてサービスであることを示すServiceが対応付けられている。
【0046】
図6に示した例では、Relationsタグ内に関連rel01,02,24を例示している。関連rel01は、ソースsrcがva01,ターゲットに対応するdstがpm11であり、ソースとターゲットの種別の組み合わせを示すタイプとしてvm−pmが対応付けられている。関連rel02は、ソースsrcがpm11,ターゲットに対応するdstがva01であり、ソースとターゲットの種別の組み合わせを示すタイプとしてpm−vmが対応付けられている。また、関連rel24は、ソースsrcがvb01,ターゲットに対応するdstがTbであり、ソースとターゲットの種別の組み合わせを示すタイプとしてtenant−vmが対応付けられている。
【0047】
図7は、関連クラス23の具体例の説明図である。関連クラス23は、依存クラス、影響クラス、p−cクラスの3つの関連クラスを定義している。依存クラスは、関連のソースとなるCIがダウンして動作を停止した場合に当該関連のターゲットとなるCIがダウンする関係である。具体例としては、物理マシン(PM)がソースであり、仮想マシン(VM)がターゲットである関連に依存クラスが適用される。
【0048】
影響クラスは、関連のソースとなるCIの性能異常が当該関連のターゲットとなるCIの同一項目の性能に影響を与える関係である。具体例としては、仮想マシン(VM)がソースであり、物理マシン(PM)がターゲットである関連に影響クラスが適用される。
【0049】
p−cクラスは、関連のターゲットとなるCIが当該関連のソースを利用する関係である。具体的には、仮想マシン(VM)がソースであり、サービスを提供するtenantがターゲットである関連に利用クラスが適用される。また、アプリ層の仮想マシン(VM)がソースであり、ウェブ層の仮想マシン(VM)がターゲットである関連に利用クラスが適用される。同様に、データベース層の仮想マシン(VM)がソースであり、アプリ層の仮想マシン(VM)がターゲットである関連に利用クラスが適用される。
【0050】
図8は、関連クラス適用ルール22の具体例の説明図である。図8には、関連クラス適用ルールとしてルールid01〜04の4つのルールを例示する。
【0051】
ルールid01は、ソースが物理マシン(PM)、ターゲットが仮想マシン(VM)であって、ソースのCIがターゲットのCIを実行するexecute(src,dst)である場合に関連クラスとして依存クラスを適用することを規定している。
【0052】
ルールid02は、ソースが仮想マシン(VM)、ターゲットが物理マシン(PM)であって、ソースのCIがターゲットのCIを実行するexecute(src,dst)である場合に関連クラスとして影響クラスを適用することを規定している。
【0053】
ルールid03は、ソースが仮想マシン(VM)、ターゲットが仮想マシン(VM)であって、ソースのCIがターゲットのCIに要求を行なうrequest(src,dst)である場合に関連クラスとしてp−cクラスを適用することを規定している。
【0054】
ルールid04は、ソースが仮想マシン(VM)、ターゲットがサービスであって、ソースのCIがターゲットのCIに要求を行なうrequest(src,dst)である場合に関連クラスとしてp−cクラスを適用することを規定している。
【0055】
図9は、システム稼動情報26の実行履歴についての説明図である。図9は、CIpm11の実行履歴を示している。図9に示した例では、CIpm11は、2009年5月29日の0時にCIvb01をシャットダウンし、2009年5月29日の9時にCIva01を起動している。
【0056】
図10は、システム稼動情報26の通信履歴についての説明図である。図10に示した例では、2009年5月29日の0時にCIva01がCITaに対してHttp GET fromの通信を行なっている。
【0057】
図11は、関連クラスを適用した構成情報の説明図である。図6に示した構成情報に加え、各関連に対して関連クラスが付加されている。具体的には、関連rel01の関連クラスを示す記述として class=“Impact”が追加されている。ここで、Impactは影響クラスを示す。また、関連rel02の関連クラスを示す記述として class=“DependOn”が追加されている。ここで、DependOnは依存クラスを示す。そして、関連rel24の関連クラスを示す記述として class=“p−c”が追加されている。
【0058】
図4に示したネットワークの各関連について関連クラスを適用すると、関連re101,04,05,08,09,12は影響クラスである。影響クラスの関連は、図4に破線矢印で示している。関連re102,03,06、07,10,11,13〜18は依存クラスである。依存クラスの関連は、図4に実線矢印で示している。関連re119〜24はp−cクラスである。p−cクラスの関連は、図4に一点鎖線で示している。
【0059】
図12は、調査内容24の具体例の説明図である。調査内容24は、CIに発生した異常のタイプがダウン系である場合には、依存クラスの関連をソースに側に辿ることを規定する。また、調査内容24は、CIに発生した異常のタイプが性能異常系である場合には、影響クラスの関連をソース側に辿ることを規定する。そして調査内容24は、CIに発生した異常のタイプが遅延系である場合には、p−cクラスの関連をソース側に辿り、辿った先のCIから影響クラスの関連をターゲット側に辿り、さらに辿った先のCIから影響クラスの関連をソース側に辿ることを規定している。
【0060】
図13は、異常検知情報25の具体例の説明図である。異常検知情報25は、異常を発生したCIと発生した異常の症状の種別を有する。図13に示した例では、CIva01にダウン系の異常が発生したことを示している。
【0061】
図14は、障害情報DB32と減衰度について説明する説明図である。障害情報DB32は、操作経路履歴情報27と障害対処情報28を有する。操作経路履歴情報27は、CITaにサービスエラーが発生した時に最初の操作01−1として関連rel13と関連rel02を辿り、次の操作01−2として関連rel14と関連rel06を辿って障害箇所を調査したことを示している。また、操作経路履歴情報27は、CITbにサービスエラーが発生した時に操作02−1として関連rel17を辿って障害箇所を調査したことを示している。この操作は、作業者が手作業で調査したものであっても良いし、障害箇所推定装置30が過去に辿ったものであっても良い。
【0062】
障害対処情報28は、CITaに発生したサービスエラーの原因がCIpm12の障害であったこと、このCIpm12までのCITaからの経路が関連rel14,06であったこと、障害の対処の内容を示している。同様に、障害対処情報28は、CITbに発生したサービスエラーの原因がCIvb02の障害であったこと、このCIvb02までのCITbからの経路が関連rel17であったこと、障害の対処の内容を示している。
【0063】
調査範囲限定部12は、障害情報DB32を調査範囲限定ツリーの作成時に辿る関連の範囲を決定する際に使用する。障害箇所推定装置30は、所定のポップ値を定めておき、関連を辿るたびにホップ値を減らす。そして、ホップ値が0以下とならない範囲で関連を辿って調査範囲限定ツリーを作成する。関連を辿った際にホップ値から減じる値を減衰度とする。
【0064】
調査範囲限定部12は、障害情報DB32に登録されている関連については減衰度を小さくする。このように履歴を参照して減衰度を変化させることで、過去に調査した範囲や過去の異常の原因となった障害の近傍を重点的に辿る調査範囲限定ツリーを得ることができる。
【0065】
図14を参照して、Taのサービスエラーに対する減衰度の算出を説明する。調査範囲限定部12は、Taのサービスエラーについて操作経路履歴情報27および障害対処情報28に登録された関連を計数する。操作経路履歴情報27および障害対処情報28には、関連rel02が1回、関連rel06が2回、関連rel13が1回、関連rel14が2回出現する。その他の関連は出現回数0である。
【0066】
調査範囲限定部12は、各関連の出現回数に1を加えた値を重要度として求める。この結果、関連rel02は重要度2、関連rel06は重要度3、関連rel13は重要度2、関連rel14は重要度3、その他の関連は重要度1となる。
【0067】
調査範囲限定部12は、その他の関連、すなわち障害情報DB32の対応するエラーに登録されていない関連の減衰度をαとし、αを重要度で除算した値を各関連の減衰度とする。この結果、関連rel02は減衰度α/2、関連rel06は減衰度α/3、関連rel13は減衰度α/2、関連rel14は減衰度α/3となる。
【0068】
図15は、調査範囲限定部12が作成する調査範囲限定ツリーの説明図である。調査範囲限定部12は、検知された異常ごとに調査範囲限定ツリーを作成する。図15に示した例では、調査範囲限定部12はCIpm12で検知した性能異常について調査範囲限定ツリーtree1を作成し、CIva01で検知した遅延について調査範囲限定ツリーtree2を作成している。
【0069】
調査範囲限定ツリーtree1は、CIpm11がルートであり、ルートにCIva02とCIvb02がノードとして接続したツリーである。調査範囲限定ツリーtree2は、CIva01がルートであり、ルートにCIva02とCIpm11がノードとして接続している。さらに調査範囲限定ツリーtree2は、CIva02にCIpm12とCIva03がノードとして接続している。そして、調査範囲限定ツリーtree2は、CIpm12にCIvb02がノードとして接続し、CIva03にCIpm13がノードとして接続している。加えて、調査範囲限定ツリーtree2は、CIpm11にCIvb01がノードとして接続し、CIvb01にCIvb02がノードとして接続している。
【0070】
次に障害箇所推定装置30の処理動作について説明する。図16は、関連クラス適用部11の処理動作を説明するフローチャートである。関連クラス適用部11は、まず、構成情報21から関連を選択し(S101)、選択した関連$relのソースのCIタイプとターゲット、すなわちdestinationのCIタイプの組み合わせを取得する(S102)。
【0071】
関連クラス適用部11は、取得した組み合わせと同一の組み合わせに対応するルールを関連クラス適用ルール22から検索する(S103)。検索の結果、該当するルールが存在する場合(S104,Yes)、該当ルールのsrcとdstの関係を参照する。
【0072】
該当ルールのsrcとdstの関係がexecuteであれば(S105,Yes)、関連クラス適用部11は、srcのCIの実行履歴をシステム稼動情報26から参照し、dstのCIを実行した履歴があるか否かを確認する(S106)。そしてdstのCIの実行を確認できた場合(S107,Yes)には、関連クラス適用部11は、関連$relに関連クラスを適用する(S111)。
【0073】
一方、該当ルールのsrcとdstの関係がexecuteで無い場合、すなわちsrcとdstの関係がrequestである場合(S105,No)、関連クラス適用部11は、srcからdstにリクエストが流れているかを通信履歴から確認する(S109)。そしてdstからdstへのリクエストを確認できた場合(S110,Yes)には、関連クラス適用部11は、関連$relに関連クラスを適用する(S111)。
【0074】
関連クラスの適用(S111)の後、dstの起動を確認できなかった場合(S107,No)、リクエストを確認できなかった場合(S110,No)、該当するルールが存在しなかった場合(S104,No)、関連クラス適用部11は、構成情報21の全ての関連について確認を行なったかを判定する(S108)。確認を行なっていない関連が存在する場合(S108,No)、関連クラス適用部11は、次の関連を選択する(S101)。そして、構成情報21の全ての関連について確認を行なった(S108,Yes)後、関連クラス適用部11は処理を終了する。
【0075】
図17は、調査範囲限定部12の処理動作を説明するフローチャートである。調査範囲限定部12は、異常検知情報25から発生した異常のリストを取得し(S201)、異常を1つ選択する(S202)。調査範囲限定部12は、選択した異常のCIと異常タイプを取得し(S203)、調査範囲限定ツリー作成処理を行なう(S204)。
【0076】
調査範囲限定部12は、作成した調査範囲限定ツリーを調査範囲限定ツリーリストに追加(S205)し、全ての以上について処理を行なったか否かを判定する(S206)。処理を行なっていない異常が残っている場合(S206,No)には、調査範囲限定部12は、異常のリストから次の異常を選択する(S202)。
【0077】
全ての異常について処理が終了した場合(S206,Yes)には、調査範囲限定部12は、作成した調査範囲限定ツリーリストを障害発生箇所候補推定部13に出力し、障害箇所候補推定処理を行なわせて(S207)、処理を終了する。
【0078】
図18は、図17に示した調査範囲限定ツリー作成処理について説明するフローチャートである。調査範囲限定部12は、ホップ値を初期化し(S301)、異常タイプに合った調査内容を選択する(S302)。そして、異常が発生したCIをルートとしてノードに追加する(S303)。
【0079】
調査範囲限定部12はノードからCIを選択し、(S304)、選択したCIをターゲットとする関連のうち調査内容が指定するクラスの関連を検索してリスト化する(S305)。
【0080】
リストに関連が残っていれば(S306,Yes)、調査範囲限定部12は、リストから関連を一つ選択し(S308)、選択した関連の減衰度を計算する(S309)。計算した減衰度がホップ値未満であれば(S310,Yes)、調査範囲限定部12は、ホップ値から減衰度を減算し、ホップ値を更新する(S311)。そして調査範囲限定部12は、選択した関連のソースであるCIを取得し(S312)。取得したCIがノードのリストに登録済みであるかを判定する(S313)。
【0081】
取得したCIがノードのリストに登録済みでなければ(S313,No)、調査範囲限定部12は、取得したCIを子ノードとしてノードのリストに追加する(S314)。子ノードの追加後、もしくは取得したCIが既に登録済みである場合(S313,Yes)、調査範囲限定部12は、調査範囲限定ツリーを更新する(S315)。なお、子ノードを追加した場合には、子ノードにはその時点でのホップ値を対応付けて記憶する。
【0082】
調査範囲限定ツリーを更新した(S315)後、もしくは減衰度がホップ値以上である場合(S310,No)、調査範囲限定部12は、選択したCIの関連がリストに残っているかを判定する(S306)。
【0083】
選択したCIの関連がリストに残っていなければ(S306,No)、調査範囲限定部12は、未選択のCIがノードとして残っているかを判定する(S307)。未選択のCIが残っていれば(S307,Yes)、調査範囲限定部12はCIの選択に戻る(S304)。そして、未選択のCIが残っていなければ(S307,No)、調査範囲限定部12は処理を終了する。
【0084】
図19は、障害発生箇所候補推定部13による障害発生箇所候補推定処理について説明するフローチャートである。障害発生箇所候補推定部13は、CI出現数カウント表を作成する(S401)。作成時点のCI出現数カウント表は、CIが登録されていない空データである。
【0085】
障害発生箇所候補推定部13は、調査範囲限定部12が作成した調査範囲限定ツリーリストから調査範囲限定ツリーを1つ選択する(S402)。次に、障害発生箇所候補推定部13は、選択した調査範囲限定ツリーからノードを1つ選択する(S403)。
【0086】
障害発生箇所候補推定部13は、選択したノードがCI出現数カウント表に登録されているかを確認する(S404)。選択したノードがCI出現数カウント表に登録されていなければ(S404,No)、障害発生箇所候補推定部13は、選択したノードをCI出現数カンウト表に登録し、カウンタを1にセットする(S405)。一方、選択したノードがCI出現数カンウト表に登録されている場合(S404,Yes)、障害発生箇所候補推定部13は、選択したノードのカウンタを1増加する(S406)。
【0087】
ステップS405またはステップS406の後、障害発生箇所候補推定部13は、選択した調査範囲限定ツリーの全ノードについてチェックが終了したかを判定する(S407)。選択した調査範囲限定ツリーにチェックしていないノードが存在する場合(S407,No)には、障害発生箇所候補推定部13は、選択した調査範囲限定ツリーからのノード選択に戻る(S403)。
【0088】
選択した調査範囲限定ツリーの全ノードについてチェックが終了した場合(S407,Yes)には、障害発生箇所候補推定部13は、全ての調査範囲限定ツリーについてチェックを終了したかを判定する(S408)。
【0089】
チェックしていない調査範囲限定ツリーが残っている場合(S408,No)、障害発生箇所候補推定部13は調査範囲限定ツリーの選択に戻る(S402)。そして、全ての調査範囲限定ツリーについてチェックを終了した場合(S408,Yes)には、障害発生箇所候補推定部13はCI出現数カウント表に登録したCIをカウンタの値でソートする(S409)。
【0090】
障害発生箇所候補推定部13は、ソートしたCIのうちカウンタの値が大きい上位3つのCIを取得する(S410)。障害発生箇所候補推定部13は、取得した上位3つのCIの関係を取得し(S411)、上位3つのCIとその関係から障害発生箇所候補ツリーを作成して(S412)、処理を終了する。
【0091】
次に、障害箇所推定装置30の動作について具体例を挙げて説明する。ここでは、図4に示したネットワークにおいて、CIvb02、CITa、CITbがダウンし、CITa、CITbでサービスエラーが発生した状況を例とする。また、ホップ値の初期値を10とし、減衰度の基本値αを6とする。
【0092】
調査範囲限定部12は、CIvb02のダウンについて調査範囲限定ツリーを作成する。調査範囲限定部12は、調査内容24を参照し、ダウン系の異常であるので、CIvb02から依存クラスをソース側に辿ることを決定する。図20に示したように、CIvb02をターゲットとする依存クラスは、関連rel07である。
【0093】
調査範囲限定部12は、障害情報DB32を参照し、関連rel07の減衰度を求める。図21は、調査範囲限定部12が求めた関連rel07の減衰度である。関連rel07は、障害情報DB32での出現回数が0であり、重要度は1、減衰度は6となる。
【0094】
減衰度6がホップ値10よりも小さいので、調査範囲限定部12は、CIvb02から関連rel07を辿ってCIpm12をノードとして登録する。CIpm12をターゲットとする依存クラスの関係は無いので、調査範囲限定部12はCIpm12をノードとして障害発生箇所候補ツリーの作成を終了する。
【0095】
図22は、CIvb02のダウンについて得られた調査範囲限定ツリーである。CIvb02がルートとなり、CIpm12がノードとして接続されている。この調査範囲限定ツリーについてCI出現数カウント表を作成すると図23に示したように、CIvb02とCIpm12の値が1となる。
【0096】
同様に、調査範囲限定部12は、CITaのダウンについて調査範囲限定ツリーを作成する。調査範囲限定部12は、調査内容24を参照し、ダウン系の異常であるので、CITaから依存クラスをソース側に辿ることを決定する。図24に示したように、CITaをターゲットとする依存クラスは、関連rel13〜15である。
【0097】
調査範囲限定部12は、障害情報DB32を参照し、関連rel13〜15の減衰度を求める。図25は、調査範囲限定部12が求めた減衰度である。関連rel13は、障害情報DB32での出現回数が1であり、重要度は2、減衰度は3となる。関連rel14は、障害情報DB32での出現回数が2であり、重要度は3、減衰度は2となる。関連rel15は、障害情報DB32での出現回数が0であり、重要度は1、減衰度は6となる。
【0098】
調査範囲限定部12は、関連rel13の減衰度が3であり、CITaでのホップ値10よりも小さいので、関連rel13を辿ってCIva01をノードとして登録する。CIva01でのホップ値は減衰度3を減算されて7となる。
【0099】
調査範囲限定部12は、関連rel14の減衰度が2であり、CITaでのホップ値10よりも小さいので、関連rel14を辿ってCIva02をノードとして登録する。CIva02でのホップ値は減衰度2を減算されて8となる。
【0100】
調査範囲限定部12は、関連rel15の減衰度が6であり、CITaでのホップ値10よりも小さいので、関連rel15を辿ってCIva03をノードとして登録する。CIva03でのホップ値は減衰度6を減算されて4となる。
【0101】
さらに、ノードとした登録したCIva01をターゲットとする依存クラスは、関連rel02である。また、CIva02をターゲットとする依存クラスは、関連rel06である。そして、CIva03をターゲットとする依存クラスは、関連rel10である。
【0102】
調査範囲限定部12は、障害情報DB32を参照し、関連rel02,06,10の減衰度を求める。図25には、関連rel02,06,10の減衰度を合わせて示している。関連rel02は、障害情報DB32での出現回数が1であり、重要度は2、減衰度は3となる。関連rel06は、障害情報DB32での出現回数が2であり、重要度は3、減衰度は2となる。関連rel10は、障害情報DB32での出現回数が0であり、重要度は1、減衰度は6となる。
【0103】
調査範囲限定部12は、関連rel02の減衰度が3であり、CIva01でのホップ値7よりも小さいので、関連rel02を辿ってCIpm11をノードとして登録する。CIpm11でのホップ値は減衰度3を減算されて4となる。CIpm11をターゲットとする依存クラスの関連は無いので、調査範囲限定部12はCIpm11で関連を辿ることを停止する。
【0104】
調査範囲限定部12は、関連rel06の減衰度が2であり、CIva02でのホップ値8よりも小さいので、関連rel06を辿ってCIpm12をノードとして登録する。CIpm12でのホップ値は減衰度2を減算されて6となる。CIpm12をターゲットとする依存クラスの関連は無いので、調査範囲限定部12はCIpm12で関連を辿ることを停止する。
【0105】
調査範囲限定部12は、関連rel10の減衰度が6であり、CIva03でのホップ値4以上であるので、CIva03で関連を辿ることを停止する。
【0106】
図26は、CITaのダウンについて得られた調査範囲限定ツリーである。CITaがルートとなり、CIva01〜03がノードとして接続されている。さらにCIva01にはCIpm11がノードとして接続され、CIva02にはCIpm12がノードとして接続されている。この調査範囲限定ツリーについてCI出現数カウント表を作成すると図27に示したように、CITa,CIva01〜03,CIpm11〜12の値が1となる。
【0107】
同様に、調査範囲限定部12は、CITbのダウンについて調査範囲限定ツリーを作成する。調査範囲限定部12は、調査内容24を参照し、ダウン系の異常であるので、CITbから依存クラスをソース側に辿ることを決定する。図28に示したように、CITbをターゲットとする依存クラスは、関連rel16〜18である。
【0108】
調査範囲限定部12は、障害情報DB32を参照し、関連rel16〜18の減衰度を求める。図29は、調査範囲限定部12が求めた減衰度である。関連rel16は、障害情報DB32での出現回数が0であり、重要度は1、減衰度は6となる。関連rel17は、障害情報DB32での出現回数が4であり、重要度は5、減衰度は1となる。関連rel18は、障害情報DB32での出現回数が0であり、重要度は1、減衰度は6となる。
【0109】
調査範囲限定部12は、関連rel16の減衰度が6であり、CITbでのホップ値10よりも小さいので、関連rel16を辿ってCIvb01をノードとして登録する。CIvb01でのホップ値は減衰度6を減算されて4となる。
【0110】
調査範囲限定部12は、関連rel17の減衰度が1であり、CITbでのホップ値10よりも小さいので、関連rel17を辿ってCIvb02をノードとして登録する。CIvb02でのホップ値は減衰度1を減算されて9となる。
【0111】
調査範囲限定部12は、関連rel18の減衰度が6であり、CITaでのホップ値10よりも小さいので、関連rel18を辿ってCIvb03をノードとして登録する。CIvb03でのホップ値は減衰度6を減算されて4となる。
【0112】
さらに、ノードとした登録したCIvb01をターゲットとする依存クラスは、関連rel03である。また、CIvb02をターゲットとする依存クラスは、関連rel07である。そして、CIvb03をターゲットとする依存クラスは、関連rel11である。
【0113】
調査範囲限定部12は、障害情報DB32を参照し、関連rel03,07,11の減衰度を求める。図29には、関連rel03,07,11の減衰度を合わせて示している。関連rel03は、障害情報DB32での出現回数が0であり、重要度は1、減衰度は6となる。関連rel07は、障害情報DB32での出現回数が2であり、重要度は3、減衰度は2となる。関連rel11は、障害情報DB32での出現回数が0であり、重要度は1、減衰度は6となる。
【0114】
調査範囲限定部12は、関連rel03の減衰度が6であり、CIvb01でのホップ値7以上であるので、CIvb01で関連を辿ることを停止する。
【0115】
調査範囲限定部12は、関連rel07の減衰度が2であり、CIvb02でのホップ値9よりも小さいので、関連rel07を辿ってCIpm12をノードとして登録する。CIpm12でのホップ値は減衰度2を減算されて7となる。CIpm12をターゲットとする依存クラスの関連は無いので、調査範囲限定部12はCIpm12で関連を辿ることを停止する。
【0116】
調査範囲限定部12は、関連rel11の減衰度が6であり、CIva03でのホップ値4以上であるので、CIvb03で関連を辿ることを停止する。
【0117】
図30は、CITbのダウンについて得られた調査範囲限定ツリーである。CITbがルートとなり、CIvb01〜03がノードとして接続されている。さらにCIvb02にはCIpm12がノードとして接続されている。この調査範囲限定ツリーについてCI出現数カウント表を作成すると図31に示したように、CITb,CIvb01〜03,CIpm12の値が1となる。
【0118】
障害発生箇所候補推定部13は、CIvb02、CITa、CITbについて得られた調査範囲限定ツリーを重ね合わせて障害候補推定ツリーを作成する。図32は、障害候補推定ツリーの作成について説明する説明図である。障害発生箇所候補推定部13は、CIvb02、CITa、CITbについて得られたCI出現数カウント表を集計し、カウンタの値が大きい順にソートする。障害発生箇所候補推定部13は、ソート結果が上位のCIから障害候補ツリーを作成する。
【0119】
図32の説明では、障害発生箇所候補推定部13は、上位2つのCIを選択し、選択したCIの関連を構成情報21から得ることで、障害候補推定ツリーを得る。この障害候補推定ツリーに含まれるCIや関連が、障害箇所の可能性が高い箇所である。例えば、CIpm12で障害が発生した結果、CIvb02、CITa、CITbに異常が発生した場合など、障害箇所での異常が検知されていない状態であっても、障害箇所候補ツリーを参照することでCIpm12に障害が発生した可能性が高いと推定することができる。
【0120】
上述してきたように、本実施例2にかかる障害箇所推定装置30は、システムの構成要素間の関連を関連クラスに分類し、異常発生時に関連クラスに基づいて構成要素を辿って以上の原因となる障害が発生した範囲を絞り込む。
【0121】
このように関連クラスを用いた障害発生箇所の絞込みはネットワークシステムの構成に依存せず、汎用性が高い。そのため、新たに組んだネットワークシステムに対しても適用でき、またネットワークシステムの構成を変更しても適用可能である。
【0122】
また、開示の技術は、大規模ネットワークシステムや仮想環境でのトラブル調査に対しても障害発生箇所の絞込みを行なってトラブル調査を支援することができる。
【0123】
具体的には、構成要素として物理マシン、仮想マシン、サービスを有する仮想ネットワークに開示の技術を適用可能である。また、関連のソースとターゲットの関係から依存クラス、影響クラス、利用クラスを定義し、クラスによって辿る方向を規定することで、実際の構成に依存することなく異常の伝播を定義し、障害箇所を推定することかできる。
【0124】
さらに、開示の技術は、ネットワークの稼動情報を参照し、実際の稼動状態に基づいて関連のクラス分けを行なうことで、関連クラスの分類における精度を向上し、もって障害箇所の推定精度を向上することができる。
【0125】
また、開示の技術は、構成要素を辿る数を制限するホップ値を定めることで、障害の発生箇所の候補を効率的に絞り込むことができる。さらに、開示の技術は、過去の異常発生時に辿った関連の履歴を参照し、履歴に残された関連に基づいて構成要素を辿る数に重み付けを行なうことで、障害箇所の推定精度を向上することができる。
【0126】
なお、実施例に開示の方法、装置、プログラムはあくまで一例であり、構成および動作を適宜変更して実施することができる。例えば、実施例2に開示した装置は、関連クラス適用部11、調査範囲限定部12、障害発生箇所候補推定部13をネットワークシステム上に分散して配置し、障害箇所推定システムとして実施することができる。また、CMDBや障害情報DBは、ネットワークシステム上で参照可能に配置してもよい。さらに、CMDBや障害情報DBは、他の装置やシステムと共用することもできる。
【0127】
また、実施例2では、関連を依存クラス、影響クラス、p−cクラスの3つの関連クラスに分類する場合を例示したが、関連クラスの数や定義はこれに限定されるものではなく、任意の数および内容の関連クラスを適宜設定することができる。同様に、関連クラスの適用ルールや利用する稼動情報、調査内容についても、適宜変更して実施可能であることは言うまでもない。また、ホップ値や減衰度による調査範囲限定ツリー作成範囲の限定についても、適宜変更して実施可能である。例えば、ホップ値に変えて辿る構成要素の数の上限を定めてもよい。
【0128】
また、実施例2に開示したフローチャートは、その処理の追加、削除、順序の入れ替えを適宜行なって実施することができる。
【0129】
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0130】
(付記1)ネットワークを構成する構成要素を示す構成情報と、構成要素間における異常の伝播方向に基づいて前記構成要素間の関連を関連クラスに分類する関連クラス情報と、構成要素の種別に基づいて構成要素間の関連に前記関連クラスのいずれを適用するかを定める関連クラス適用ルールと、を参照し、前記構成情報に含まれる構成要素間の関係について関連クラスを適用する関連クラス適用部と、
前記構成要素に発生する異常の種別と当該異常の原因調査時に辿るべき関連クラス及び方向とを対応付けた調査内容を参照し、異常が発生した構成要素の各々について前記調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める調査範囲限定部と、
前記異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける前記構成要素の出現頻度に基づいて前記異常の原因となる障害が発生した箇所の候補を推定する障害発生箇所候補推定部と
を備えたことを特徴とする障害箇所推定システム。
【0131】
(付記2)前記ネットワークは、前記構成要素として物理マシン、仮想マシン、サービスを有する仮想ネットワークであることを特徴とする付記1に記載の障害箇所推定システム。
【0132】
(付記3)前記関連クラスは、前記関連のソースとなる構成要素の停止が当該関連のターゲットとなる構成要素の停止を引き起こす依存クラス、前記関連のソースとなる構成要素の性能異常が当該関連のターゲットとなる構成要素の性能に影響を与える影響クラス、前記関連のターゲットとなる構成要素が当該関連のソースを利用する利用クラスのうち、少なくともいずれかを含むことを特徴とする付記1または2に記載の障害箇所推定システム。
【0133】
(付記4)前記調査内容は、前記異常の種別が構成要素の停止である場合に前記依存クラスの関連をソース側に辿ることを規定し、前記異常の種別が構成要素の性能異常である場合に前記影響クラスの関連をソース側に辿ることを規定し、前記異常の種別が構成要素の動作遅延である場合に前記利用クラスの関連をソース側に辿り、当該ソース側の構成要素から前記影響クラスの関連をターゲット側に辿ることを規定することを特徴とする付記3に記載の障害箇所推定システム。
【0134】
(付記5)前記関連クラス適用ルールは、構成要素間の関係をさらに用いて構成要素間の関連に前記関連クラスのいずれを適用するかを定め、前記関連クラス適用部は、前記ネットワークの稼動情報を参照して構成要素間の関係に対応する稼動状態が存在する場合に前記関連クラスの適用を行なうことを特徴とする付記1〜4のいずれか一つに記載の障害箇所推定システム。
【0135】
(付記6)前記調査範囲限定部は、前記構成要素を辿る数を制限する所定値を定めたことを特徴とする付記1〜5のいずれか一つに記載の障害箇所推定システム。
【0136】
(付記7)前記調査範囲限定部は、過去の異常発生時に辿った関連の履歴を参照し、履歴に残された関連に基づいて前記構成要素を辿る数に重み付けを行なうことを特徴とする付記6に記載の障害箇所推定システム。
【0137】
(付記8)ネットワークを構成する構成要素を示す構成情報と、構成要素間における異常の伝播方向に基づいて前記構成要素間の関連を関連クラスに分類する関連クラス情報と、構成要素の種別に基づいて構成要素間の関連に前記関連クラスのいずれを適用するかを定める関連クラス適用ルールと、を参照し、前記構成情報に含まれる構成要素間の関係について関連クラスを適用する関連クラス適用部と、
前記構成要素に発生する異常の種別と当該異常の原因調査時に辿るべき関連クラス及び方向とを対応付けた調査内容を参照し、異常が発生した構成要素の各々について前記調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める調査範囲限定部と、
前記異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける前記構成要素の出現頻度に基づいて前記異常の原因となる障害が発生した箇所の候補を推定する障害発生箇所候補推定部と
を備えたことを特徴とする障害箇所推定装置。
【0138】
(付記9)ネットワークを構成する構成要素を示す構成情報と、構成要素間における異常の伝播方向に基づいて前記構成要素間の関連を関連クラスに分類する関連クラス情報と、構成要素の種別に基づいて構成要素間の関連に前記関連クラスのいずれを適用するかを定める関連クラス適用ルールと、を参照し、前記構成情報に含まれる構成要素間の関係について関連クラスを適用するステップと、
前記構成要素に発生する異常の種別と当該異常の原因調査時に辿るべき関連クラス及び方向とを対応付けた調査内容を参照し、異常が発生した構成要素の各々について前記調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める調査範囲限定ステップと、
前記異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける前記構成要素の出現頻度に基づいて前記異常の原因となる障害が発生した箇所の候補を推定する障害発生箇所候補推定ステップと
を含んだことを特徴とする障害箇所推定方法。
【符号の説明】
【0139】
10 障害箇所推定システム
11 関連クラス適用部
12 調査範囲限定部
13 障害発生箇所候補推定部
21 構成情報
22 関連クラス適用ルール
23 関連クラス
24 調査内容
25 異常検知情報
26 システム稼動情報
27 操作経路履歴情報
28 障害対処情報
30 障害箇所推定装置
31 CMDB
32 障害情報DB
40 トラブル調査システム
41 異常検知部
42 障害箇所推定部
43 障害原因特定部
44 対処実施部
pm11〜13,va01〜03,vb01〜03,Ta,Tb CI
rel01〜24 関連

【特許請求の範囲】
【請求項1】
ネットワークを構成する構成要素を示す構成情報と、構成要素間における異常の伝播方向に基づいて前記構成要素間の関連を関連クラスに分類する関連クラス情報と、構成要素の種別に基づいて構成要素間の関連に前記関連クラスのいずれを適用するかを定める関連クラス適用ルールと、を参照し、前記構成情報に含まれる構成要素間の関係について関連クラスを適用する関連クラス適用部と、
前記構成要素に発生する異常の種別と当該異常の原因調査時に辿るべき関連クラス及び方向とを対応付けた調査内容を参照し、異常が発生した構成要素の各々について前記調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める調査範囲限定部と、
前記異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける前記構成要素の出現頻度に基づいて前記異常の原因となる障害が発生した箇所の候補を推定する障害発生箇所候補推定部と
を備えたことを特徴とする障害箇所推定システム。
【請求項2】
前記ネットワークは、前記構成要素として物理マシン、仮想マシン、サービスを有する仮想ネットワークであることを特徴とする請求項1に記載の障害箇所推定システム。
【請求項3】
前記関連クラスは、前記関連のソースとなる構成要素の停止が当該関連のターゲットとなる構成要素の停止を引き起こす依存クラス、前記関連のソースとなる構成要素の性能異常が当該関連のターゲットとなる構成要素の性能に影響を与える影響クラス、前記関連のターゲットとなる構成要素が当該関連のソースを利用する利用クラスのうち、少なくともいずれかを含むことを特徴とする請求項1または2に記載の障害箇所推定システム。
【請求項4】
前記調査内容は、前記異常の種別が構成要素の停止である場合に前記依存クラスの関連をソース側に辿ることを規定し、前記異常の種別が構成要素の性能異常である場合に前記影響クラスの関連をソース側に辿ることを規定し、前記異常の種別が構成要素の動作遅延である場合に前記利用クラスの関連をソース側に辿り、当該ソース側の構成要素から前記影響クラスの関連をターゲット側に辿ることを規定することを特徴とする請求項3に記載の障害箇所推定システム。
【請求項5】
前記関連クラス適用ルールは、構成要素間の関係をさらに用いて構成要素間の関連に前記関連クラスのいずれを適用するかを定め、前記関連クラス適用部は、前記ネットワークの稼動情報を参照して構成要素間の関係に対応する稼動状態が存在する場合に前記関連クラスの適用を行なうことを特徴とする請求項1〜4のいずれか一つに記載の障害箇所推定システム。
【請求項6】
ネットワークを構成する構成要素を示す構成情報と、構成要素間における異常の伝播方向に基づいて前記構成要素間の関連を関連クラスに分類する関連クラス情報と、構成要素の種別に基づいて構成要素間の関連に前記関連クラスのいずれを適用するかを定める関連クラス適用ルールと、を参照し、前記構成情報に含まれる構成要素間の関係について関連クラスを適用する関連クラス適用部と、
前記構成要素に発生する異常の種別と当該異常の原因調査時に辿るべき関連クラス及び方向とを対応付けた調査内容を参照し、異常が発生した構成要素の各々について前記調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める調査範囲限定部と、
前記異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける前記構成要素の出現頻度に基づいて前記異常の原因となる障害が発生した箇所の候補を推定する障害発生箇所候補推定部と
を備えたことを特徴とする障害箇所推定装置。
【請求項7】
ネットワークを構成する構成要素を示す構成情報と、構成要素間における異常の伝播方向に基づいて前記構成要素間の関連を関連クラスに分類する関連クラス情報と、構成要素の種別に基づいて構成要素間の関連に前記関連クラスのいずれを適用するかを定める関連クラス適用ルールと、を参照し、前記構成情報に含まれる構成要素間の関係について関連クラスを適用するステップと、
前記構成要素に発生する異常の種別と当該異常の原因調査時に辿るべき関連クラス及び方向とを対応付けた調査内容を参照し、異常が発生した構成要素の各々について前記調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める調査範囲限定ステップと、
前記異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける前記構成要素の出現頻度に基づいて前記異常の原因となる障害が発生した箇所の候補を推定する障害発生箇所候補推定ステップと
を含んだことを特徴とする障害箇所推定方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate


【公開番号】特開2011−138405(P2011−138405A)
【公開日】平成23年7月14日(2011.7.14)
【国際特許分類】
【出願番号】特願2009−298877(P2009−298877)
【出願日】平成21年12月28日(2009.12.28)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】