ネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラム

【課題】システムの構成要素に異常が発生した場合のトラブル調査を支援すること。
【解決手段】分類部６１は、ネットワークを構成する構成要素と構成要素間の関連とを示す構成情報２１と、構成要素に発生した異常の履歴情報である異常履歴５１とを参照し、ともに異常が発生し、かつ関連を有する２つの構成要素の組み合わせを抽出する。また、分類部６１は、抽出した構成要素の組み合わせについて、当該組み合わせのソースとなる構成要素の種別とターゲットとなる構成要素の種別とを異常が伝播する構成要素の関係を示す関連クラスの候補として分類する。集計部６２は、分類部６１による分類の結果を集計し、関連クラスの候補の出現数を求める。関連クラス決定部６３は、集計部６２による集計の結果に基づいて関連クラスの候補のうち、構成要素間における異常の伝播方向を示す関連クラスを決定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラムに関する。
【背景技術】
【０００２】
従来、複数の構成要素が接続されたネットワークシステムでは、構成要素の数が多いほど異常が発生した場合に原因箇所を特定することが困難であった。そのため、システムの構成要素の因果関係についてマトリクスを作成し、異常が発生した場合にはマトリクスを参照して原因箇所を絞り込むことが行なわれてきた。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開平２−２４４３３８号公報
【特許文献２】特開平６−３２４９０４号公報
【特許文献３】特開２００１−２２２４４２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、ネットワークシステムごとに因果関係のマトリクスを作成する従来の技術では、ネットワークシステムの構成が変化するたびにマトリクスを作り直すこととなる。また、変更直後のシステムでは障害情報が少なく、マトリクスによる原因箇所の絞込みを行なうことができない場合があった。マトリクスによる原因箇所の絞込みができない場合には、作業者が手作業でトラブルを切り分けることとなり、作業工数の増大を引き起こしていた。
【０００５】
また、システムの大規模化に伴い、システムを仮想化した環境、所謂クラウド環境の利用が進んでいる。仮想化したシステムは、サービスの提供に影響を与えることなくシステム構成を動的に変更できることが利点の一つである。このため、システム構成が変更されても原因箇所の特定を支援することのできる技術の実現は、仮想環境でのトラブル調査に特に重要であった。
【０００６】
このように従来の技術では、大規模システムや仮想環境でのトラブル調査に対して充分な支援を行なうことができないという問題点が有り、トラブル調査を支援する技術の実現が重要な課題であった。
【０００７】
開示の技術は、上記に鑑みてなされたものであって、システムのトラブル調査を支援するネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
本願の開示するネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラムは、複数の構成要素を含むネットワーク内で発生した、複数の異常に関する情報であって、該複数の異常の各々に対応する構成要素の種別を特定可能な異常履歴情報に基づいて、該複数の異常に対応する１又は複数の構成要素の種別の組み合わせのうち、記憶部に記憶された関連情報によって、互いに関連性のあるものとして関連づけられた構成要素の種別の組を抽出する。
【発明の効果】
【０００９】
本願の開示するシステム、装置、方法およびプログラムによれば、システムのトラブル調査を支援するネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラムを得ることができるという効果を奏する。
【図面の簡単な説明】
【００１０】
【図１】図１は、実施例１にかかるネットワーク管理支援システムの概要構成図である。
【図２】図２は、異なるシステム間での関連クラスの利用についての説明図である。
【図３】図３は、実施例２にかかるネットワーク管理支援システムの概要構成図である。
【図４】図４は、ネットワークに発生した障害を調査するトラブル調査システムの概要構成図である。
【図５】図５は、ネットワークの構成例の説明図である。
【図６】図６は、調査範囲限定ツリーの重ねあわせについての説明図である。
【図７】図７は、構成情報２１の具体例の説明図である。
【図８】図８は、異常履歴５１の具体例の説明図である。
【図９】図９は、分類部６１が抽出した構成要素の組み合わせについての説明図である。
【図１０】図１０は、分類部６１が作成した関連クラスの候補リストの具体例である。
【図１１】図１１は、決定した関連クラスのソースとなるＣＩの種別とターゲットとなるＣＩの種別を示す図である。
【図１２】図１２は、関連と適用する関連クラスの説明図である。
【図１３】図１３は、関連クラス適用後の構成情報の説明図である。
【図１４】図１４は、障害対処情報２８の具体例についての説明図である。
【図１５】図１５は、調査内容作成部６５が作成した調査内容２４の具体例である。
【図１６】図１６は、異常検知情報２５の具体例の説明図である。
【図１７】図１７は、障害情報ＤＢ３２と減衰度について説明する説明図である。
【図１８】図１８は、調査範囲限定部１２が作成する調査範囲限定ツリーの説明図である。
【図１９】図１９は、関連クラスの作成を説明するフローチャートである。
【図２０】図２０は、調査内容の作成を説明するフローチャートである。
【発明を実施するための形態】
【００１１】
以下に、本願の開示するネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
【実施例１】
【００１２】
・実施例１の構成
図１は、実施例１にかかるネットワーク管理支援システムの概要構成図である。図１に示したネットワーク管理支援システム６０は、分類部６１、集計部６２、関連クラス決定部６３を有する。
【００１３】
分類部６１は、ネットワークを構成する構成要素と構成要素間に設けた関連とを示す構成情報２１と、構成要素に発生した異常の履歴情報である異常履歴５１とを参照し、ともに異常が発生し、かつ関連を有する２つの構成要素の組み合わせを抽出する。分類部６１は、抽出した構成要素の組み合わせについて、当該組み合わせのソースとなる構成要素の種別とターゲットとなる構成要素の種別とを異常が伝播する構成要素の関係を示す関連クラスの候補として分類する。
【００１４】
集計部６２は、分類部６１による分類の結果を集計し、関連クラスの候補の出現数を求める。関連クラス決定部６３は、集計部６２による集計の結果に基づいて関連クラスの候補のうち、ネットワークに異常が発生した場合に原因となる箇所の推定に使用する関連クラスを決定する。
【００１５】
このようにして決定された関連クラスは、構成要素間における異常の伝播方向を示す。そこで、ネットワークの構成要素に異常が発生した場合には、異常が発生した構成要素から関連クラスを辿ることで原因となる障害が発生した箇所を推定することができる。
【００１６】
・実施例１のまとめ
上述したように、本実施例１にかかるネットワーク管理支援システムは、ネットワークの構成情報と異常の履歴情報から、異常の伝播方向を構成要素の種別に基づいて抽象化した関連クラスを作成することで、システムのトラブル調査を支援することができる。
【００１７】
関連クラスを用いた障害発生箇所の絞込みはネットワークシステムの構成に依存せず、汎用性が高い。そのため、新たに組んだネットワークシステムに対しても適用でき、またネットワークシステムの構成を変更しても適用可能である。
【００１８】
また、大規模ネットワークシステムや仮想環境でのトラブル調査に対しても障害発生箇所の絞込みを行なってトラブル調査を支援することができる。
【００１９】
図２は、異なるシステム間での関連クラスの利用についての説明図である。図２に示したように、システムｉ＿１〜ｉ＿ｎから事前準備として関連クラスを作成する。この関連クラスは、他のシステムｏ＿１〜ｏ＿ｍに障害が発生した場合に使用して、システムｏ＿１〜ｏ＿ｍにおける障害箇所を推定することができる。
【００２０】
なお、分類部６１、集計部６２、関連クラス決定部６３は、ネットワークシステム上に分散して配置することができる。また、１つの筐体内に分類部６１、集計部６２、関連クラス決定部６３を設けたネットワーク管理支援装置として実施しても良い。
【実施例２】
【００２１】
・実施例２の構成
図３は、実施例２にかかるネットワーク管理支援システムの概要構成図である。図２に示したネットワーク管理支援システムは、ネットワーク管理情報作成装置７０、障害箇所推定装置３０、ＣＭＤＢ（Configuration Management Database）３１、障害情報ＤＢ（Database）３２を有する。
【００２２】
ＣＭＤＢ３１は、ネットワークを構成する構成要素と構成要素間の関係を示す情報である構成情報２１を保持する。障害情報ＤＢ３２は、過去に発生した異常の履歴を示す異常履歴５１と過去の異常発生時に辿った関連の履歴とを保持するデータベースである。障害情報ＤＢ３２は、過去の異常発生時に辿った関連の履歴の一例として操作経路履歴情報２７および障害対処情報２８を保持する。
【００２３】
操作経路履歴情報２７は、過去の異常発生時に原因となった障害箇所を特定するために辿った関連の経路を示す情報である。また、障害対処情報２８は、異常が検知された構成要素から異常の原因として特定された構成要素までの経路情報を含む。
【００２４】
ネットワーク管理情報作成装置７０は、分類部６１、集計部６２、関連クラス決定部６３、関連クラス適用部６４、調査内容作成部６５を有する。
【００２５】
分類部６１は、ＣＭＤＢ３１が保持する構成情報２１と、異常情報ＤＢ３２が保持する異常履歴５１とを参照し、ともに異常が発生し、かつ関連を有する２つの構成要素の組み合わせを抽出する。分類部６１は、抽出した構成要素の組み合わせについて、当該組み合わせのソースとなる構成要素の種別とターゲットとなる構成要素の種別とを異常が伝播する構成要素の関係を示す関連クラスの候補として分類する。
【００２６】
集計部６２は、分類部６１による分類の結果を集計し、関連クラスの候補の出現数を求める。関連クラス決定部６３は、集計部６２による集計の結果に基づいて関連クラスの候補のうち、ネットワークに異常が発生した場合に原因となる箇所の推定に使用する関連クラス２３を決定し、障害箇所推定装置３０に出力する。
【００２７】
関連クラス適用部６４は、ＣＭＤＢ３１が保持する構成情報２１に関連クラスを適用して抽象化する。調査内容作成部６５は、異常の種別に対して辿るべき関連クラスを対応付ける調査内容を作成する。具体的には、調査内容作成部６５は、異常が発生した構成要素から当該異常の原因となった障害が発生した箇所に至る経路を特定した対処の履歴である障害対処情報２８を参照し、対処の履歴に示された経路に関連クラスを適用して調査内容２４とする。調査内容作成部６５は、作成した調査内容２４を障害箇所推定装置３０に出力する。
【００２８】
障害箇所推定装置３０は、関連クラス適用部１１、調査範囲限定部１２、障害発生箇所候補推定部１３を有する。また、障害箇所推定装置３０は、関連クラス２３、調査内容２４、異常検知情報２５を使用する。異常検知情報２５は、ネットワークシステムの構成要素について、異常が発生した構成要素と異常の種別を検知した情報である。
【００２９】
関連クラス適用部１１は、構成情報２１と関連クラス２３を参照し、構成情報２１に含まれる構成要素間の関係について関連クラスを適用する。
【００３０】
調査範囲限定部１２は、関連クラス２３、調査内容２４、異常検知情報２５、障害情報ＤＢ３２を参照し、異常が発生した構成要素の各々について調査内容２４に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める。
【００３１】
障害発生箇所候補推定部１３は、異常が発生した構成要素の各々について求めた調査範囲限定ツリーを重ね合わせて異常の原因となる障害が発生した箇所の候補を推定する。
【００３２】
図４は、ネットワークに発生した障害を調査するトラブル調査システムの概要構成図である。図３に示したトラブル調査システム４０は、異常検出部４１、障害箇所推定部４２、障害原因特定部４３、対処実施部４４を有し、図３に示した障害箇所推定装置３０は障害箇所推定部４２として機能する。
【００３３】
異常検出部４１は、ネットワークの構成要素に発生した異常を検知する処理部であり、検知した異常を障害箇所推定部４２に通知する。障害箇所推定部４２として機能する障害箇所推定装置３０は、通知された情報を異常検知情報２５として使用する。また、障害箇所推定部４２として機能する障害箇所推定装置３０は、異常の原因となる障害が発生した箇所の候補を推定し、障害原因特定部４３に出力する。
【００３４】
障害原因特定部４３は、障害箇所推定部４２の出力を用い、異常の原因を特定する。処実施部４４は、特定された箇所について対処を実行することで、発生した異常を解消する。
【００３５】
・ネットワークの具体例
図５は、ネットワークの構成例の説明図である。図４に示したネットワークは、構成要素としてＣＩ（Configuration Item）ｐｍ１１〜ｐｍ１３、ＣＩｖａ０１〜０３、ＣＩｖｂ０１〜０３、ＣＩＴａ，Ｔｂを有する。
【００３６】
図５に示したネットワークは、ＣＩｐｍ１１〜ｐｍ１３を物理マシン、ＣＩｖａ０１〜０３およびＣＩｖｂ０１〜０３を仮想マシン、ＣＩＴａ，Ｔｂをサービスとして用いる仮想ネットワークである。各ＣＩは、各々が１つのコンピュータであっても良いし、複数のＣＩが同一のコンピュータ上で動作しても良い。各ＣＩは、ネットワーク上で一意に定まる識別情報を与えられ、個別の構成要素として動作することが出来る。ＣＩを識別する情報をインスタンスとする。
【００３７】
ＣＩ間には、関連が定められている。このＣＩ間の関連をリレーションという。関連には方向が定められ、関連の元をソース（ｓｒｃ）、関連の宛先をターゲット（ｔｇｔ）もしくはディスティネーション（ｄｓｔ）という。
【００３８】
図５に示したネットワークでは、関連ｒｅ１０１〜ｒｅｌ２４が定められている。
関連ｒｅ１０１はＣＩｖａ０１がソース、ＣＩｐｍ１１がターゲットである。
関連ｒｅ１０２はＣＩｐｍ１１がソース、ＣＩｖａ０１がターゲットである。
関連ｒｅ１０３はＣＩｐｍ１１がソース、ＣＩｖｂ０１がターゲットである。
関連ｒｅ１０４はＣＩｖｂ０１がソース、ＣＩｐｍ１１がターゲットである。
関連ｒｅ１０５はＣＩｖａ０２がソース、ＣＩｐｍ１２がターゲットである。
関連ｒｅ１０６はＣＩｐｍ１２がソース、ＣＩｖａ０２がターゲットである。
関連ｒｅ１０７はＣＩｐｍ１２がソース、ＣＩｖｂ０２がターゲットである。
関連ｒｅ１０８はＣＩｖｂ０２がソース、ＣＩｐｍ１２がターゲットである。
関連ｒｅ１０９はＣＩｖａ０３がソース、ＣＩｐｍ１３がターゲットである。
関連ｒｅ１１０はＣＩｐｍ１３がソース、ＣＩｖａ０３がターゲットである。
関連ｒｅ１１１はＣＩｐｍ１３がソース、ＣＩｖｂ０３がターゲットである。
関連ｒｅ１１２はＣＩｖｂ０３がソース、ＣＩｐｍ１３がターゲットである。
関連ｒｅ１１３はＣＩｖａ０１がソース、ＣＩＴａがターゲットである。
関連ｒｅ１１４はＣＩｖａ０２がソース、ＣＩＴａがターゲットである。
関連ｒｅ１１５はＣＩｖａ０３がソース、ＣＩＴａがターゲットである。
関連ｒｅ１１６はＣＩｖｂ０１がソース、ＣＩＴｂがターゲットである。
関連ｒｅ１１７はＣＩｖｂ０２がソース、ＣＩＴｂがターゲットである。
関連ｒｅ１１８はＣＩｖｂ０３がソース、ＣＩＴｂがターゲットである。
関連ｒｅ１１９はＣＩｖａ０２がソース、ＣＩｖａ０１がターゲットである。
関連ｒｅ１２０はＣＩｖａ０３がソース、ＣＩｖａ０２がターゲットである。
関連ｒｅ１２１はＣＩｖｂ０２がソース、ＣＩｖｂ０１がターゲットである。
関連ｒｅ１２２はＣＩｖｂ０３がソース、ＣＩｖｂ０２がターゲットである。
関連ｒｅ１２３はＣＩｖａ０１がソース、ＣＩＴａがターゲットである。
関連ｒｅ１２４はＣＩｖｂ０１がソース、ＣＩＴｂがターゲットである。
【００３９】
このネットワークにおいて、ＣＩＴａおよびＣＩＴｂは、図示しないクライアントからのアクセスを受け、所定のサービスを提供する。仮想マシンであるＣＩｖａ０１は、ＣＩＴａが提供するサービスのウェブ層を担当する。また、仮想マシンであるＣＩｖａ０２は、ＣＩＴａが提供するサービスのアプリ層を担当する。そして、仮想マシンであるＣＩｖａ０３は、ＣＩＴａが提供するサービスのデータベース層を担当する。
【００４０】
同様に、仮想マシンであるＣＩｖｂ０１は、ＣＩＴｂが提供するサービスのウェブ層を担当する。また、仮想マシンであるＣＩｖｂ０２は、ＣＩＴｂが提供するサービスのアプリ層を担当する。そして、仮想マシンであるＣＩｖｂ０３は、ＣＩＴｂが提供するサービスのデータベース層を担当する。
【００４１】
ウェブ層を担当する仮想マシンＣＩｖａ０１と仮想マシンＣＩｖｂ０１は、物理マシンであるＣＩｐｍ１１を使用する。アプリ層を担当する仮想マシンＣＩｖａ０２と仮想マシンＣＩｖｂ０２は、物理マシンであるＣＩｐｍ１２を使用する。データベース層を担当する仮想マシンＣＩｖａ０３と仮想マシンＣＩｖｂ０３は、物理マシンであるＣＩｐｍ１３を使用する。
【００４２】
・障害が発生した箇所の推定
障害箇所推定装置３０は、このネットワークに異常が発生した場合に、異常を検知したＣＩから関連を辿って調査範囲限定ツリーを作成し、調査範囲限定ツリーを重ね合わせて異常の原因となる障害が発生した箇所の候補を推定する。
【００４３】
図６は、調査範囲限定ツリーの重ねあわせについての説明図である。図５は、ＣＩＴａ，ＣＩｖａ０１，ＣＩｐｍ１１で異常を検知した場合を例示している。障害箇所推定装置３０は、ＣＩＴａから関連を辿ることで調査範囲限定ツリーＡ０１を作成する。調査範囲限定ツリーＡ０１は、ＣＩＴａをルートとし、ＣＩｖａ０１〜０３をＣＩＴａに接続したノードとして有する。さらに、調査範囲限定ツリーＡ０１は、ＣＩｖａ０１に接続したノードとしてＣＩｐｍ１１を有し、ＣＩｖａ０２に接続したノードとしてＣＩｐｍ１２を有する。ここで、調査範囲限定ツリーＡ０１は、ＣＩｐｍ１３を含まない。これは、調査範囲限定ツリーの作成時に辿る関連の範囲を制限することで調査範囲限定ツリーが過度に大きくなることを防いだためである。調査範囲限定ツリーの作成時に辿る関連の範囲に対する制限は、ホップ値と減衰度を定めることで行なうが、ホップ値と減衰度についての説明は後述する。
【００４４】
障害箇所推定装置３０は、ＣＩｖａ０１から関連を辿ることで調査範囲限定ツリーＡ０２を作成する。調査範囲限定ツリーＡ０２は、ＣＩｖａ０１をルートとし、ＣＩｐｍ１１をＣＩｖａ０１に接続したノードとして有する。
【００４５】
障害箇所推定装置３０は、ＣＩｐｍ１１から関連を辿ることで調査範囲限定ツリーＡ０３を作成する。図５に示した例では、ＣＩｐｍ１１から辿ることのできる関連がなく、調査範囲限定ツリーＡ０３はＣＩｐｍ１１のみを有する。
【００４６】
障害箇所推定装置３０は、調査範囲限定ツリーＡ０１〜０３を重ね合わせ、重複が最大となるＣＩｐｍ１１を障害が発生した箇所の候補として推定する。
【００４７】
・各種情報の具体例
図７は、構成情報２１の具体例の説明図である。図７に示した構成情報２１は、ｃｍｄｂタグ内にＣＩを定義するＣｉｓタグと関連を定義するＲｅｌａｔｉｏｎｓタグを有する。Ｃｉｓタグ内には、各ＣＩのｉｄと種別が記述されている。
【００４８】
図７に示した例では、Ｃｉｓタグ内にＣＩｐｍ１１〜１３，ＣＩｖａ０１，ＣＩＴｂを例示している。ＣＩｐｍ１１〜１３は、種別として物理マシンであることを示すＰＭが対応付けられている。同様に、ＣＩｖａ０１には、種別として仮想マシンであることを示すＶＡが対応付けられている。そして、ＣＩＴｂには種別としてサービスであることを示すＳｅｒｖｉｃｅが対応付けられている。
【００４９】
図７に示した例では、Ｒｅｌａｔｉｏｎｓタグ内に関連ｒｅｌ０１，０２，２４を例示している。関連ｒｅｌ０１は、ソースｓｒｃがｖａ０１，ターゲットに対応するｄｓｔがｐｍ１１であり、ソースとターゲットの種別の組み合わせを示すタイプとしてｖｍ−ｐｍが対応付けられている。関連ｒｅｌ０２は、ソースｓｒｃがｐｍ１１，ターゲットに対応するｄｓｔがｖａ０１であり、ソースとターゲットの種別の組み合わせを示すタイプとしてｐｍ−ｖｍが対応付けられている。また、関連ｒｅｌ２４は、ソースｓｒｃがｖｂ０１，ターゲットに対応するｄｓｔがＴｂであり、ソースとターゲットの種別の組み合わせを示すタイプとしてｔｅｎａｎｔ−ｖｍが対応付けられている。
【００５０】
図８は、異常履歴５１の具体例の説明図である。異常履歴５１は、異常ｉｄ、発生時刻、検出箇所、異常内容の項目を有する。異常ｉｄは、異常履歴５１のエントリの識別に試用する情報である。発生時刻は、異常が発生した時刻を示す。検出箇所は、異常が発生したＣＩの識別情報と、ＣＩの種別を示す情報を有する。異常内容は、発生した異常の内容を示す。
【００５１】
図８に示した例では、異常ｉｄが０１のエントリは、０９／０７／０１００：０１：３０にＣＩタイプがＰＭであるインスタンスｐｍ１１にｐｉｎｇｔｉｍｅｏｕｔの異常が発生したことを示している。同様に、異常ｉｄが０２のエントリは、０９／０７／０１００：０１：４０にＣＩタイプがＶＭであるインスタンスｖａ０１にｐｉｎｇｔｉｍｅｏｕｔの異常が発生したことを示している。そして、異常ｉｄが０３のエントリは、０９／０７／０１００：０２：００にＣＩタイプがＳｖｃであるインスタンスＴａにｓｅｒｖｉｃｅｅｒｒｏｒの異常が発生したことを示している。
【００５２】
図９は、分類部６１が抽出した構成要素の組み合わせについての説明図である。分類部６１は、異常履歴５１から２つの異常を選び、選んだ２つの異常の構成要素に関連が設定されている場合に、異常が発生した時刻が早い構成要素を異常の伝播元の構成要素とし、異常が発生した時刻が遅い構成要素を異常の伝播先の構成要素とする。分類部６１は、例えば異常履歴５１に示された全ての異常の組み合わせについて、組み合わせた２つの異常の構成要素に関連が設定されているかを確認する。また、異常の発生時刻の差が所定時間以内の２つの異常の組み合わせについて組み合わせた２つの異常の構成要素に関連が設定されているかを確認することとしてもよい。
【００５３】
図９に示した例では、抽出した２つ構成要素の関連に対し、伝播元のＣＩの種別と発生した異常の種別、異常の伝播先のＣＩの種別と発生した異常の種別、関連の方向と異常の伝播方向の対応関係を示している。
【００５４】
関連ｒｅｌ０２は、伝播元のＣＩがＰＭ、異常タイプがｐｉｎｇｔｉｍｅｏｕｔであり、伝播先のＣＩがＶＭ、異常タイプがｐｉｎｇｔｉｍｅｏｕｔである。また、関連ｒｅｌ０２のリレーションの方向は伝播元から伝播先である。すなわち、関連ｒｅｌ０２のソースであるタイプがＰＭのＣＩにｐｉｎｇｔｉｍｅｏｕｔが発生した後、関連ｒｅｌ０２のターゲットであるタイプがＶＭのＣＩにｐｉｎｇｔｉｍｅｏｕｔが発生したことが示されている。
【００５５】
関連ｒｅｌ０６は、伝播元のＣＩがＰＭ、異常タイプがｐｉｎｇｔｉｍｅｏｕｔであり、伝播先のＣＩがＶＭ、異常タイプがｐｉｎｇｔｉｍｅｏｕｔである。また、関連ｒｅｌ０６のリレーションの方向は伝播元から伝播先である。すなわち、関連ｒｅｌ０６のソースであるタイプがＰＭのＣＩにｐｉｎｇｔｉｍｅｏｕｔが発生した後、関連ｒｅｌ０６のターゲットであるタイプがＶＭのＣＩにｐｉｎｇｔｉｍｅｏｕｔが発生したことが示されている。
【００５６】
関連ｒｅｌ１３は、伝播元のＣＩがＶＭ、異常タイプがｐｉｎｇｔｉｍｅｏｕｔであり、伝播先のＣＩがＳｖｃ、異常タイプがｓｅｒｖｉｃｅｅｒｒｏｒである。また、関連ｒｅｌ１３のリレーションの方向は伝播元から伝播先である。すなわち、関連ｒｅｌ１３のソースであるタイプがＶＭのＣＩにｐｉｎｇｔｉｍｅｏｕｔが発生した後、関連ｒｅｌ１３のターゲットであるタイプがＳｖｃのＣＩにｓｅｒｖｉｃｅｅｒｒｏｒが発生したことが示されている。
【００５７】
関連ｒｅｌ０１は、伝播元のＣＩがＰＭ、異常タイプがｐｉｎｇｔｉｍｅｏｕｔであり、伝播先のＣＩがＶＭ、異常タイプがｐｉｎｇｔｉｍｅｏｕｔである。また、関連ｒｅｌ０１のリレーションの方向は伝播先から伝播元である。すなわち、関連ｒｅｌ０１のターゲットであるタイプがＶＭのＣＩにｐｉｎｇｔｉｍｅｏｕｔが発生した後、関連ｒｅｌ０１のソースであるタイプがＰＭのＣＩにｐｉｎｇｔｉｍｅｏｕｔが発生したことが示されている。
【００５８】
分類部６１は、抽出した関連を、伝播元のＣＩの種別、異常の種別、伝播先のＣＩの種別、異常の種別、リレーションの方向で抽象化し、関連クラスの候補として分類する。図９に示した例では、関連ｒｅｌ０２と関連ｒｅｌ０６は、伝播元のＣＩの種別、異常の種別、伝播先のＣＩの種別、異常の種別、リレーションが全て一致する。分類部６１は、関連ｒｅｌ０２と関連ｒｅｌ０６に示された情報から関連クラスの候補ｃ０１を作成する。従って、関連クラスの候補ｃ０１は、伝播元のＣＩの種別がＰＭ、異常の種別がｐｉｎｇｔｉｍｅｏｕｔ、伝播先のＣＩの種別がＶＭ、異常の種別がｐｉｎｇｔｉｍｅｏｕｔ、リレーションの方向が伝播元から伝播先となる。
【００５９】
図１０は、分類部６１が作成した関連クラスの候補リストの具体例である。図１０に示した例では、上述の関連クラスの候補ｃ０１に加え、候補ｃ０２〜ｃ０５を示している。関連クラスの候補ｃ０２は、伝播元のＣＩの種別がＶＭ、異常の種別がｐｉｎｇｔｉｍｅｏｕｔ、伝播先のＣＩの種別がＳｖｃ、異常の種別がａｐｐｅｒｒｏｒ、リレーションの方向が伝播元から伝播先である。
【００６０】
関連クラスの候補ｃ０３は、伝播元のＣＩの種別がＶＭ、異常の種別がｃｐｕｏｖｅｒｌｏａｄ、伝播先のＣＩの種別がＳｖｃ、異常の種別がｓｌｏｗｄｏｗｎ、リレーションの方向が伝播元から伝播先である。
【００６１】
関連クラスの候補ｃ０４は、伝播元のＣＩの種別がＶＭ、異常の種別がｃｐｕｏｖｅｒｌｏａｄ、伝播先のＣＩの種別がＶＭ、異常の種別がａｐｐｓｌｏｗｄｏｗｎ、リレーションの方向が伝播元から伝播先である。
【００６２】
関連クラスの候補ｃ０５は、伝播元のＣＩの種別がＶＭ、異常の種別がｒｅｑｕｅｓｔｂｕｒｓｔ、伝播先のＣＩの種別がＰＭ、異常の種別がｎｗｏｖｅｒｌｏａｄ、リレーションの方向が伝播先から伝播元である。
【００６３】
集計部６２は、関連クラスの候補ｃ０１〜ｃ０５について、その出現回数を求める。図１０に示した例では、関連クラスの候補ｃ０１の出現回数は１０、関連クラスの候補ｃ０２の出現回数は８、関連クラスの候補ｃ０３の出現回数は７、関連クラスの候補ｃ０４の出現回数は５、関連クラスの候補ｃ０５の出現回数は５である。
【００６４】
関連クラス決定部６３は、出現回数が閾値以上である関連クラスの候補を関連クラスとして決定する。例えば、図１０に示した例で出現回数の閾値が５である場合、関連クラスの候補ｃ０１〜ｃ０５のうち、全てが関連クラスｃ０１〜ｃ０４として決定される。
【００６５】
図１１は、決定した関連クラスのソースとなるＣＩの種別とターゲットとなるＣＩの種別を示す図である。関連クラスｃ０１は、ソースとなるＣＩの種別がＰＭであり、ターゲットとなるＣＩの種別がＶＭである。関連クラスｃ０２は、ソースとなるＣＩの種別がＶＭであり、ターゲットとなるＣＩの種別がＳｖｃである。関連クラスｃ０３は、ソースとなるＣＩの種別がＶＭであり、ターゲットとなるＣＩの種別がＳｖｃである。関連クラスｃ０４は、ソースとなるＣＩの種別がＶＭであり、ターゲットとなるＣＩの種別がＶＭである。関連クラスｃ０５は、ソースとなるＣＩの種別がＶＭであり、ターゲットとなるＣＩの種別がＰＭである。
【００６６】
関連クラス適用部６４は、構成情報２１に示された各関連についてソース及びターゲットのＣＩの種別に基づいて関連クラスを適用する。図１２は、関連と適用する関連クラスの説明図である。
【００６７】
図１２に示した例では、関連ｒｅｌ０１，０４には、関連クラスｃ０５が適用されている。関連ｒｅｌ０２〜０３には、関連クラスｃ０１が適用されている。関連ｒｅｌ１９〜２０には、関連クラスｃ０４が適用されている。関連ｒｅｌ２３〜２４には、関連クラスｃ０２，ｃ０３の双方が適用されている。
【００６８】
関連クラス適用部６４は、各関連について、適用した関連クラスを構成情報２１に追加する。図１３は、関連クラス適用後の構成情報の説明図である。図７に示した構成情報に加え、各関連に対して関連クラスが付加されている。具体的には、関連ｒｅｌ０１の関連クラスを示す記述としてｃｌａｓｓ＝“ｃ０５”が追加されている。また、関連ｒｅｌ０２の関連クラスを示す記述としてｃｌａｓｓ＝“ｃ０１”が追加されている。そして、関連ｒｅｌ２４の関連クラスを示す記述としてｃｌａｓｓ＝“ｃ０２，ｃ０３”が追加されている。
【００６９】
図１４は、障害対処情報２８の具体例についての説明図である。障害対処情報２８は、ＣＩＴａに発生したサービスエラーの原因がＣＩｐｍ１２の障害であったこと、このＣＩｐｍ１２までのＣＩＴａからの経路が関連ｒｅｌ１４，０６であったこと、障害の対処の内容を示している。同様に、障害対処情報２８は、ＣＩＴｂに発生したサービスエラーの原因がＣＩｖｂ０２の障害であったこと、このＣＩｖｂ０２までのＣＩＴｂからの経路が関連ｒｅｌ１７であったこと、障害の対処の内容を示している。
【００７０】
調査内容作成部６５は、障害対処情報２８を参照して調査内容２４を作成する。具体的には、調査内容作成部６５は、障害対処情報２８に示された経路に関連クラスを適用し、障害対処情報２８に示された情報のうち、異常が発生したＣＩをＣＩタイプに抽象化して置き換え、原因障害箇所のＣＩをＣＩタイプに抽象化して置き換える。
【００７１】
図１５は、調査内容作成部６５が作成した調査内容２４の具体例である。図１５に示した例では、異常が発生したＣＩの種別はＳｖｃとし、原因となる障害が発生した箇所の種別はＰＭもしくはＶＭである。そして、原因となる障害が発生した箇所の種別がＰＭである場合の切り分けに用いる経路の関連クラスは、ｃ０２＋ｃ０３からｃ０１である。また、原因となる障害が発生した箇所の種別がＶＭである場合の切り分けに用いる経路の関連クラスは、ｃ０２＋ｃ０３である。
【００７２】
この調査内容２４を参照することで、種別がＳｖｃのＣＩにｓｅｒｖｉｃｅｅｒｒｏｒが発生したならば、ＰＭもしくはＶＭが原因である可能性があることが示される。加えて、原因がＰＭである場合には、関連クラスがｃ０２，ｃ０３である関連を辿った後、関連クラスがｃ０１である関連を辿ることで、原因となるＣＩに到達する可能性があることが示される。同様に、原因がＶＭである場合には、関連クラスがｃ０２，ｃ０３である関連を辿ることで、原因となるＣＩに到達する可能性があることが示される。
【００７３】
図１６は、異常検知情報２５の具体例の説明図である。異常検知情報２５は、異常を発生したＣＩと発生した異常の症状の種別を有する。図１３に示した例では、ＣＩＴａにｓｅｒｖｉｃｅｅｒｒｏｒが発生したことを示している。
【００７４】
図１７は、障害情報ＤＢ３２と減衰度について説明する説明図である。障害情報ＤＢ３２は、操作経路履歴情報２７と障害対処情報２８を有する。操作経路履歴情報２７は、ＣＩＴａにサービスエラーが発生した時に最初の操作０１−１として関連ｒｅｌ１３と関連ｒｅｌ０２を辿り、次の操作０１−２として関連ｒｅｌ１４と関連ｒｅｌ０６を辿って障害箇所を調査したことを示している。また、操作経路履歴情報２７は、ＣＩＴｂにサービスエラーが発生した時に操作０２−１として関連ｒｅｌ１７を辿って障害箇所を調査したことを示している。この操作は、作業者が手作業で調査したものであっても良いし、障害箇所推定装置３０が過去に辿ったものであっても良い。
【００７５】
障害対処情報２８は、既に述べたように、ＣＩＴａに発生したサービスエラーの原因がＣＩｐｍ１２の障害であったこと、このＣＩｐｍ１２までのＣＩＴａからの経路が関連ｒｅｌ１４，０６であったこと、障害の対処の内容を示している。同様に、障害対処情報２８は、ＣＩＴｂに発生したサービスエラーの原因がＣＩｖｂ０２の障害であったこと、このＣＩｖｂ０２までのＣＩＴｂからの経路が関連ｒｅｌ１７であったこと、障害の対処の内容を示している。
【００７６】
調査範囲限定部１２は、障害情報ＤＢ３２を調査範囲限定ツリーの作成時に辿る関連の範囲を決定する際に使用する。障害箇所推定装置３０は、所定のポップ値を定めておき、関連を辿るたびにホップ値を減らす。そして、ホップ値が０以下になるまでの範囲で関連を辿って調査範囲限定ツリーを作成する。関連を辿った際にホップ値から減じる値を減衰度とする。
【００７７】
調査範囲限定部１２は、障害情報ＤＢ３２に登録されている関連については減衰度を小さくする。このように履歴を参照して減衰度を変化させることで、過去に調査した範囲や過去の異常の原因となった障害の近傍を重点的に辿る調査範囲限定ツリーを得ることができる。
【００７８】
図１７を参照して、Ｔａのサービスエラーに対する減衰度の算出を説明する。調査範囲限定部１２は、Ｔａのサービスエラーについて操作経路履歴情報２７および障害対処情報２８に登録された関連を計数する。操作経路履歴情報２７および障害対処情報２８には、関連ｒｅｌ０２が１回、関連ｒｅｌ０６が２回、関連ｒｅｌ１３が１回、関連ｒｅｌ１４が２回出現する。その他の関連は出現回数０である。
【００７９】
調査範囲限定部１２は、各関連の出現回数に１を加えた値を重要度として求める。この結果、関連ｒｅｌ０２は重要度２、関連ｒｅｌ０６は重要度３、関連ｒｅｌ１３は重要度２、関連ｒｅｌ１４は重要度３、その他の関連は重要度１となる。
【００８０】
調査範囲限定部１２は、その他の関連、すなわち障害情報ＤＢ３２の対応するエラーに登録されていない関連の減衰度をαとし、αを重要度で除算した値を各関連の減衰度とする。この結果、関連ｒｅｌ０２は減衰度α／２、関連ｒｅｌ０６は減衰度α／３、関連ｒｅｌ１３は減衰度α／２、関連ｒｅｌ１４は減衰度α／３となる。
【００８１】
図１８は、調査範囲限定部１２が作成する調査範囲限定ツリーの説明図である。調査範囲限定部１２は、検知された異常ごとに調査範囲限定ツリーを作成する。図１８に示した例では、調査範囲限定部１２はＣＩｐｍ１２で検知した性能異常について調査範囲限定ツリーｔｒｅｅ１を作成し、ＣＩｖａ０１で検知した遅延について調査範囲限定ツリーｔｒｅｅ２を作成している。
【００８２】
調査範囲限定ツリーｔｒｅｅ１は、ＣＩｐｍ１１がルートであり、ルートにＣＩｖａ０２とＣＩｖｂ０２がノードとして接続したツリーである。調査範囲限定ツリーｔｒｅｅ２は、ＣＩｖａ０１がルートであり、ルートにＣＩｖａ０２とＣＩｐｍ１１がノードとして接続している。さらに調査範囲限定ツリーｔｒｅｅ２は、ＣＩｖａ０２にＣＩｐｍ１２とＣＩｖａ０３がノードとして接続している。そして、調査範囲限定ツリーｔｒｅｅ２は、ＣＩｐｍ１２にＣＩｖｂ０２がノードとして接続し、ＣＩｖａ０３にＣＩｐｍ１３がノードとして接続している。加えて、調査範囲限定ツリーｔｒｅｅ２は、ＣＩｐｍ１１にＣＩｖｂ０１がノードとして接続し、ＣＩｖｂ０１にＣＩｖｂ０２がノードとして接続している。
【００８３】
・処理動作の説明
図１９は、関連クラスの作成を説明するフローチャートである。ネットワーク管理情報作成装置７０の分類部６１は、異常情報ＤＢ３２が保持する異常履歴５１から２つの異常の組み合わせを取り出す（Ｓ１０１）。分類部６１は、ＣＭＤＢ３１が保持する構成情報２１を参照し、取り出した２つの異常について、異常が発生したＣＩ間における関連（リレーション）の有無を確認する（Ｓ１０２）。関連がある場合（Ｓ１０３，Ｙｅｓ）、分類部６１は、当該関連を関連クラスの候補として抽出する（Ｓ１０４）。
【００８４】
ステップＳ１０４の後、もしくは関連がない場合（Ｓ１０３，Ｎｏ）、分類部６１は、異常の全ての組み合わせについて確認を行なったかを判定する（Ｓ１０５）。確認を行なっていない異常の組み合わせが残っている場合（Ｓ１０５，Ｎｏ）、分類部６１は、ステップＳ１０１に戻る。
【００８５】
異常の全ての組み合わせについて確認を行なったならば（Ｓ１０５，Ｙｅｓ）、集計部６２が関連クラスの候補を集計する（Ｓ１０６）。関連クラス決定部６３は、集計の結果、出現回数が一定数以上の関連クラス候補を抜粋し（Ｓ１０７）、抜粋した関連クラスの候補を関連クラスとして出力して（Ｓ１０８）、処理を終了する。
【００８６】
図２０は、調査内容の作成を説明するフローチャートである。ネットワーク管理情報作成装置７０の調査内容作成部６５は、異常情報ＤＢ３２から障害対処情報２８を取り出す（Ｓ２０１）。調査内容作成部６５は、障害対処情報２８に示された、異常が発生したＣＩと原因のＣＩをＣＩの種別で抽象化する（Ｓ２０２）。調査内容作成部６５は、障害対処情報２８に示された、切り分けを行なった経路の関連を関連クラスで抽象化し、調査内容として登録する（Ｓ２０３）。
【００８７】
調査内容作成部６５は、障害対処情報２８に示された全ての異常について処理を行なったかを判定し（Ｓ２０４）、処理を行なっていない異常が残っている場合には（Ｓ２０４，Ｎｏ）、ステップＳ２０２に戻る。そして、全ての異常について処理を行なった場合に（Ｓ２０４，Ｙｅｓ）、調査内容作成部６５は、調査内容を出力して（Ｓ２０５）、処理を終了する。
【００８８】
・実施例２のまとめ
上述してきたように、本実施例２にかかるネットワーク管理支援システム、ネットワーク管理支援装置およびネットワーク管理支援方法は、ネットワークの構成情報と異常の履歴情報から、異常の伝播方向を構成要素の種別に基づいて抽象化した関連クラスを作成する。加えて、開示のシステム、装置、方法は、システムの構成要素間の関連を関連クラスに分類し、異常発生時に関連クラスに基づいて構成要素を辿って異常の原因となる障害が発生した範囲を絞り込む。
【００８９】
このように関連クラスを用いた障害発生箇所の絞込みはネットワークシステムの構成に依存せず、汎用性が高い。そのため、新たに組んだネットワークシステムに対しても適用でき、またネットワークシステムの構成を変更しても適用可能である。
【００９０】
また、開示の技術は、大規模ネットワークシステムや仮想環境でのトラブル調査に対しても障害発生箇所の絞込みを行なってトラブル調査を支援することができる。
【００９１】
具体的には、構成要素として物理マシン、仮想マシン、サービスを有する仮想ネットワークに開示の技術を適用可能である。また、過去の異常に対する対処履歴に関連クラスを適用することで、異常発生時に辿るべき範囲を調査範囲として求めることで、実際の構成に依存することなく異常の伝播を辿り、障害箇所を推定することかできる。
【００９２】
なお、実施例に開示のシステム、装置、方法およびプログラムはあくまで一例であり、構成および動作を適宜変更して実施することができる。例えば、実施例２に開示した装置は、関連クラス適用部１１、調査範囲限定部１２、障害発生箇所候補推定部１３をネットワークシステム上に分散して配置し、障害箇所推定システムとして実施することができる。
【００９３】
また、ネットワーク管理情報作成装置７０、障害箇所推定装置３０、ＣＭＤＢ３１、障害情報ＤＢ（Database）３２を１つの筐体に収めた装置として実施することもできる。さらに、ＣＭＤＢや障害情報ＤＢは、他の装置やシステムと共用することもできる。また、実施例２に開示したフローチャートは、その処理の追加、削除、順序の入れ替えを適宜行なって実施することができる。
【符号の説明】
【００９４】
１０障害箇所推定システム
１１関連クラス適用部
１２調査範囲限定部
１３障害発生箇所候補推定部
２１構成情報
２３関連クラス
２４調査内容
２５異常検知情報
２８障害対処情報
３０障害箇所推定装置
３１ＣＭＤＢ
３２障害情報ＤＢ
４０トラブル調査システム
４１異常検知部
４２障害箇所推定部
４３障害原因特定部
４４対処実施部
５１異常履歴
６０ネットワーク管理支援システム
６１分類部
６２集計部
６３関連クラス決定部
６４関連クラス適用部
６５調査内容作成部
７０ネットワーク管理情報作成装置
ｐｍ１１〜１３，ｖａ０１〜０３，ｖｂ０１〜０３，Ｔａ，ＴｂＣＩ
ｒｅｌ０１〜２４関連

【特許請求の範囲】
【請求項１】
コンピュータに、
複数の構成要素を含むネットワーク内で発生した、複数の異常に関する情報であって、該複数の異常の各々に対応する構成要素の種別を特定可能な異常履歴情報に基づいて、該複数の異常に対応する１又は複数の構成要素の種別の組み合わせのうち、記憶部に記憶された関連情報によって、互いに関連性のあるものとして関連づけられた構成要素の種別の組を抽出する、
処理を実行させることを特徴とするプログラム。
【請求項２】
ネットワークを構成する複数の構成要素について、関連する構成要素がいずれの構成要素であるかを示す関連情報を記憶する記憶部と、
前記ネットワーク内で発生した、複数の異常に関する情報であって、該複数の異常の各々に対応する構成要素の種別を特定可能な異常履歴情報に基づいて、該複数の異常に対応する１又は複数の構成要素の種別の組み合わせのうち、前記関連情報によって、互いに関連性のあるものとして関連づけられた構成要素の種別の組を抽出する抽出部と
を備えたことを特徴とするネットワーク管理支援システム。
【請求項３】
前記抽出部が抽出した構成要素の種別の組の出現数を集計する集計部と、
前記出現数に基づいて、前記構成要素の種別の組のうち、ネットワークに異常が発生した場合に原因となる箇所の推定に使用する構成要素の種別の組を関連クラスとして決定する関連クラス決定部と
を備えたことを特徴とする請求項２に記載のネットワーク管理支援システム。
【請求項４】
前記ネットワークは、前記構成要素として物理マシン、仮想マシン、サービスを有する仮想ネットワークであることを特徴とする請求項２または３に記載のネットワーク管理支援システム。
【請求項５】
前記抽出部は、所定の時間の範囲内に異常が発生した２つの構成要素であって、かつ前記２つの構成要素間に前記関連性が設けられている構成要素の組を抽出して、当該構成要素の組に定められた関連性のうち、処理を依頼する側の構成要素の種別と処理の依頼を受ける側の構成要素の種別との組み合わせを抽出することを特徴とする請求項２〜４のいずれか一つに記載のネットワーク管理支援システム。
【請求項６】
異常が発生した構成要素から当該異常の原因となった障害が発生した箇所に至る経路を特定した対処の履歴を参照し、前記対処の履歴に示された経路に前記関連クラスを適用して異常の種別に対して辿るべき関連クラスを対応付ける調査内容を作成する調査内容作成部を更に備えたことを特徴とする請求項２〜５のいずれか一つに記載のネットワーク管理支援システム。
【請求項７】
前記関連情報と、前記関連クラスとを参照し、前記関連情報に含まれる構成要素間の関係について関連クラスを適用する関連クラス適用部と、
前記調査内容を参照し、異常が発生した構成要素の各々について前記調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める調査範囲限定部と、
前記異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける前記構成要素の出現頻度に基づいて前記異常の原因となる障害が発生した箇所の候補を推定する障害発生箇所候補推定部と
を更に備えたことを特徴とする請求項２〜６のいずれか一つに記載のネットワーク管理支援システム。
【請求項８】
ネットワークを構成する複数の構成要素について、関連する構成要素がいずれの構成要素であるかを示す関連情報を記憶する記憶部と、
前記ネットワーク内で発生した、複数の異常に関する情報であって、該複数の異常の各々に対応する構成要素の種別を特定可能な異常履歴情報に基づいて、該複数の異常に対応する１又は複数の構成要素の種別の組み合わせのうち、前記関連情報によって、互いに関連性のあるものとして関連づけられた構成要素の種別の組を抽出する抽出部と
を備えたことを特徴とするネットワーク管理支援装置。
【請求項９】
複数の構成要素を含むネットワーク内で発生した、複数の異常に関する情報であって、該複数の異常の各々に対応する構成要素の種別を特定可能な異常履歴情報を参照するステップと、
前記異常履歴情報に基づいて、前記複数の異常に対応する１又は複数の構成要素の種別の組み合わせのうち、記憶部に記憶された関連情報によって、互いに関連性のあるものとして関連づけられた構成要素の種別の組を抽出するステップと
を含んだことを特徴とするネットワーク管理支援方法。

【図１】