説明

ネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラム

【課題】システムの構成要素に異常が発生した場合のトラブル調査を支援すること。
【解決手段】分類部61は、ネットワークを構成する構成要素と構成要素間の関連とを示す構成情報21と、構成要素に発生した異常の履歴情報である異常履歴51とを参照し、ともに異常が発生し、かつ関連を有する2つの構成要素の組み合わせを抽出する。また、分類部61は、抽出した構成要素の組み合わせについて、当該組み合わせのソースとなる構成要素の種別とターゲットとなる構成要素の種別とを異常が伝播する構成要素の関係を示す関連クラスの候補として分類する。集計部62は、分類部61による分類の結果を集計し、関連クラスの候補の出現数を求める。関連クラス決定部63は、集計部62による集計の結果に基づいて関連クラスの候補のうち、構成要素間における異常の伝播方向を示す関連クラスを決定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラムに関する。
【背景技術】
【0002】
従来、複数の構成要素が接続されたネットワークシステムでは、構成要素の数が多いほど異常が発生した場合に原因箇所を特定することが困難であった。そのため、システムの構成要素の因果関係についてマトリクスを作成し、異常が発生した場合にはマトリクスを参照して原因箇所を絞り込むことが行なわれてきた。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平2−244338号公報
【特許文献2】特開平6−324904号公報
【特許文献3】特開2001−222442号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ネットワークシステムごとに因果関係のマトリクスを作成する従来の技術では、ネットワークシステムの構成が変化するたびにマトリクスを作り直すこととなる。また、変更直後のシステムでは障害情報が少なく、マトリクスによる原因箇所の絞込みを行なうことができない場合があった。マトリクスによる原因箇所の絞込みができない場合には、作業者が手作業でトラブルを切り分けることとなり、作業工数の増大を引き起こしていた。
【0005】
また、システムの大規模化に伴い、システムを仮想化した環境、所謂クラウド環境の利用が進んでいる。仮想化したシステムは、サービスの提供に影響を与えることなくシステム構成を動的に変更できることが利点の一つである。このため、システム構成が変更されても原因箇所の特定を支援することのできる技術の実現は、仮想環境でのトラブル調査に特に重要であった。
【0006】
このように従来の技術では、大規模システムや仮想環境でのトラブル調査に対して充分な支援を行なうことができないという問題点が有り、トラブル調査を支援する技術の実現が重要な課題であった。
【0007】
開示の技術は、上記に鑑みてなされたものであって、システムのトラブル調査を支援するネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本願の開示するネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラムは、複数の構成要素を含むネットワーク内で発生した、複数の異常に関する情報であって、該複数の異常の各々に対応する構成要素の種別を特定可能な異常履歴情報に基づいて、該複数の異常に対応する1又は複数の構成要素の種別の組み合わせのうち、記憶部に記憶された関連情報によって、互いに関連性のあるものとして関連づけられた構成要素の種別の組を抽出する。
【発明の効果】
【0009】
本願の開示するシステム、装置、方法およびプログラムによれば、システムのトラブル調査を支援するネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラムを得ることができるという効果を奏する。
【図面の簡単な説明】
【0010】
【図1】図1は、実施例1にかかるネットワーク管理支援システムの概要構成図である。
【図2】図2は、異なるシステム間での関連クラスの利用についての説明図である。
【図3】図3は、実施例2にかかるネットワーク管理支援システムの概要構成図である。
【図4】図4は、ネットワークに発生した障害を調査するトラブル調査システムの概要構成図である。
【図5】図5は、ネットワークの構成例の説明図である。
【図6】図6は、調査範囲限定ツリーの重ねあわせについての説明図である。
【図7】図7は、構成情報21の具体例の説明図である。
【図8】図8は、異常履歴51の具体例の説明図である。
【図9】図9は、分類部61が抽出した構成要素の組み合わせについての説明図である。
【図10】図10は、分類部61が作成した関連クラスの候補リストの具体例である。
【図11】図11は、決定した関連クラスのソースとなるCIの種別とターゲットとなるCIの種別を示す図である。
【図12】図12は、関連と適用する関連クラスの説明図である。
【図13】図13は、関連クラス適用後の構成情報の説明図である。
【図14】図14は、障害対処情報28の具体例についての説明図である。
【図15】図15は、調査内容作成部65が作成した調査内容24の具体例である。
【図16】図16は、異常検知情報25の具体例の説明図である。
【図17】図17は、障害情報DB32と減衰度について説明する説明図である。
【図18】図18は、調査範囲限定部12が作成する調査範囲限定ツリーの説明図である。
【図19】図19は、関連クラスの作成を説明するフローチャートである。
【図20】図20は、調査内容の作成を説明するフローチャートである。
【発明を実施するための形態】
【0011】
以下に、本願の開示するネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
【実施例1】
【0012】
・実施例1の構成
図1は、実施例1にかかるネットワーク管理支援システムの概要構成図である。図1に示したネットワーク管理支援システム60は、分類部61、集計部62、関連クラス決定部63を有する。
【0013】
分類部61は、ネットワークを構成する構成要素と構成要素間に設けた関連とを示す構成情報21と、構成要素に発生した異常の履歴情報である異常履歴51とを参照し、ともに異常が発生し、かつ関連を有する2つの構成要素の組み合わせを抽出する。分類部61は、抽出した構成要素の組み合わせについて、当該組み合わせのソースとなる構成要素の種別とターゲットとなる構成要素の種別とを異常が伝播する構成要素の関係を示す関連クラスの候補として分類する。
【0014】
集計部62は、分類部61による分類の結果を集計し、関連クラスの候補の出現数を求める。関連クラス決定部63は、集計部62による集計の結果に基づいて関連クラスの候補のうち、ネットワークに異常が発生した場合に原因となる箇所の推定に使用する関連クラスを決定する。
【0015】
このようにして決定された関連クラスは、構成要素間における異常の伝播方向を示す。そこで、ネットワークの構成要素に異常が発生した場合には、異常が発生した構成要素から関連クラスを辿ることで原因となる障害が発生した箇所を推定することができる。
【0016】
・実施例1のまとめ
上述したように、本実施例1にかかるネットワーク管理支援システムは、ネットワークの構成情報と異常の履歴情報から、異常の伝播方向を構成要素の種別に基づいて抽象化した関連クラスを作成することで、システムのトラブル調査を支援することができる。
【0017】
関連クラスを用いた障害発生箇所の絞込みはネットワークシステムの構成に依存せず、汎用性が高い。そのため、新たに組んだネットワークシステムに対しても適用でき、またネットワークシステムの構成を変更しても適用可能である。
【0018】
また、大規模ネットワークシステムや仮想環境でのトラブル調査に対しても障害発生箇所の絞込みを行なってトラブル調査を支援することができる。
【0019】
図2は、異なるシステム間での関連クラスの利用についての説明図である。図2に示したように、システムi_1〜i_nから事前準備として関連クラスを作成する。この関連クラスは、他のシステムo_1〜o_mに障害が発生した場合に使用して、システムo_1〜o_mにおける障害箇所を推定することができる。
【0020】
なお、分類部61、集計部62、関連クラス決定部63は、ネットワークシステム上に分散して配置することができる。また、1つの筐体内に分類部61、集計部62、関連クラス決定部63を設けたネットワーク管理支援装置として実施しても良い。
【実施例2】
【0021】
・実施例2の構成
図3は、実施例2にかかるネットワーク管理支援システムの概要構成図である。図2に示したネットワーク管理支援システムは、ネットワーク管理情報作成装置70、障害箇所推定装置30、CMDB(Configuration Management Database)31、障害情報DB(Database)32を有する。
【0022】
CMDB31は、ネットワークを構成する構成要素と構成要素間の関係を示す情報である構成情報21を保持する。障害情報DB32は、過去に発生した異常の履歴を示す異常履歴51と過去の異常発生時に辿った関連の履歴とを保持するデータベースである。障害情報DB32は、過去の異常発生時に辿った関連の履歴の一例として操作経路履歴情報27および障害対処情報28を保持する。
【0023】
操作経路履歴情報27は、過去の異常発生時に原因となった障害箇所を特定するために辿った関連の経路を示す情報である。また、障害対処情報28は、異常が検知された構成要素から異常の原因として特定された構成要素までの経路情報を含む。
【0024】
ネットワーク管理情報作成装置70は、分類部61、集計部62、関連クラス決定部63、関連クラス適用部64、調査内容作成部65を有する。
【0025】
分類部61は、CMDB31が保持する構成情報21と、異常情報DB32が保持する異常履歴51とを参照し、ともに異常が発生し、かつ関連を有する2つの構成要素の組み合わせを抽出する。分類部61は、抽出した構成要素の組み合わせについて、当該組み合わせのソースとなる構成要素の種別とターゲットとなる構成要素の種別とを異常が伝播する構成要素の関係を示す関連クラスの候補として分類する。
【0026】
集計部62は、分類部61による分類の結果を集計し、関連クラスの候補の出現数を求める。関連クラス決定部63は、集計部62による集計の結果に基づいて関連クラスの候補のうち、ネットワークに異常が発生した場合に原因となる箇所の推定に使用する関連クラス23を決定し、障害箇所推定装置30に出力する。
【0027】
関連クラス適用部64は、CMDB31が保持する構成情報21に関連クラスを適用して抽象化する。調査内容作成部65は、異常の種別に対して辿るべき関連クラスを対応付ける調査内容を作成する。具体的には、調査内容作成部65は、異常が発生した構成要素から当該異常の原因となった障害が発生した箇所に至る経路を特定した対処の履歴である障害対処情報28を参照し、対処の履歴に示された経路に関連クラスを適用して調査内容24とする。調査内容作成部65は、作成した調査内容24を障害箇所推定装置30に出力する。
【0028】
障害箇所推定装置30は、関連クラス適用部11、調査範囲限定部12、障害発生箇所候補推定部13を有する。また、障害箇所推定装置30は、関連クラス23、調査内容24、異常検知情報25を使用する。異常検知情報25は、ネットワークシステムの構成要素について、異常が発生した構成要素と異常の種別を検知した情報である。
【0029】
関連クラス適用部11は、構成情報21と関連クラス23を参照し、構成情報21に含まれる構成要素間の関係について関連クラスを適用する。
【0030】
調査範囲限定部12は、関連クラス23、調査内容24、異常検知情報25、障害情報DB32を参照し、異常が発生した構成要素の各々について調査内容24に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める。
【0031】
障害発生箇所候補推定部13は、異常が発生した構成要素の各々について求めた調査範囲限定ツリーを重ね合わせて異常の原因となる障害が発生した箇所の候補を推定する。
【0032】
図4は、ネットワークに発生した障害を調査するトラブル調査システムの概要構成図である。図3に示したトラブル調査システム40は、異常検出部41、障害箇所推定部42、障害原因特定部43、対処実施部44を有し、図3に示した障害箇所推定装置30は障害箇所推定部42として機能する。
【0033】
異常検出部41は、ネットワークの構成要素に発生した異常を検知する処理部であり、検知した異常を障害箇所推定部42に通知する。障害箇所推定部42として機能する障害箇所推定装置30は、通知された情報を異常検知情報25として使用する。また、障害箇所推定部42として機能する障害箇所推定装置30は、異常の原因となる障害が発生した箇所の候補を推定し、障害原因特定部43に出力する。
【0034】
障害原因特定部43は、障害箇所推定部42の出力を用い、異常の原因を特定する。処実施部44は、特定された箇所について対処を実行することで、発生した異常を解消する。
【0035】
・ネットワークの具体例
図5は、ネットワークの構成例の説明図である。図4に示したネットワークは、構成要素としてCI(Configuration Item)pm11〜pm13、CIva01〜03、CIvb01〜03、CITa,Tbを有する。
【0036】
図5に示したネットワークは、CIpm11〜pm13を物理マシン、CIva01〜03およびCIvb01〜03を仮想マシン、CITa,Tbをサービスとして用いる仮想ネットワークである。各CIは、各々が1つのコンピュータであっても良いし、複数のCIが同一のコンピュータ上で動作しても良い。各CIは、ネットワーク上で一意に定まる識別情報を与えられ、個別の構成要素として動作することが出来る。CIを識別する情報をインスタンスとする。
【0037】
CI間には、関連が定められている。このCI間の関連をリレーションという。関連には方向が定められ、関連の元をソース(src)、関連の宛先をターゲット(tgt)もしくはディスティネーション(dst)という。
【0038】
図5に示したネットワークでは、関連re101〜rel24が定められている。
関連re101はCIva01がソース、CIpm11がターゲットである。
関連re102はCIpm11がソース、CIva01がターゲットである。
関連re103はCIpm11がソース、CIvb01がターゲットである。
関連re104はCIvb01がソース、CIpm11がターゲットである。
関連re105はCIva02がソース、CIpm12がターゲットである。
関連re106はCIpm12がソース、CIva02がターゲットである。
関連re107はCIpm12がソース、CIvb02がターゲットである。
関連re108はCIvb02がソース、CIpm12がターゲットである。
関連re109はCIva03がソース、CIpm13がターゲットである。
関連re110はCIpm13がソース、CIva03がターゲットである。
関連re111はCIpm13がソース、CIvb03がターゲットである。
関連re112はCIvb03がソース、CIpm13がターゲットである。
関連re113はCIva01がソース、CITaがターゲットである。
関連re114はCIva02がソース、CITaがターゲットである。
関連re115はCIva03がソース、CITaがターゲットである。
関連re116はCIvb01がソース、CITbがターゲットである。
関連re117はCIvb02がソース、CITbがターゲットである。
関連re118はCIvb03がソース、CITbがターゲットである。
関連re119はCIva02がソース、CIva01がターゲットである。
関連re120はCIva03がソース、CIva02がターゲットである。
関連re121はCIvb02がソース、CIvb01がターゲットである。
関連re122はCIvb03がソース、CIvb02がターゲットである。
関連re123はCIva01がソース、CITaがターゲットである。
関連re124はCIvb01がソース、CITbがターゲットである。
【0039】
このネットワークにおいて、CITaおよびCITbは、図示しないクライアントからのアクセスを受け、所定のサービスを提供する。仮想マシンであるCIva01は、CITaが提供するサービスのウェブ層を担当する。また、仮想マシンであるCIva02は、CITaが提供するサービスのアプリ層を担当する。そして、仮想マシンであるCIva03は、CITaが提供するサービスのデータベース層を担当する。
【0040】
同様に、仮想マシンであるCIvb01は、CITbが提供するサービスのウェブ層を担当する。また、仮想マシンであるCIvb02は、CITbが提供するサービスのアプリ層を担当する。そして、仮想マシンであるCIvb03は、CITbが提供するサービスのデータベース層を担当する。
【0041】
ウェブ層を担当する仮想マシンCIva01と仮想マシンCIvb01は、物理マシンであるCIpm11を使用する。アプリ層を担当する仮想マシンCIva02と仮想マシンCIvb02は、物理マシンであるCIpm12を使用する。データベース層を担当する仮想マシンCIva03と仮想マシンCIvb03は、物理マシンであるCIpm13を使用する。
【0042】
・障害が発生した箇所の推定
障害箇所推定装置30は、このネットワークに異常が発生した場合に、異常を検知したCIから関連を辿って調査範囲限定ツリーを作成し、調査範囲限定ツリーを重ね合わせて異常の原因となる障害が発生した箇所の候補を推定する。
【0043】
図6は、調査範囲限定ツリーの重ねあわせについての説明図である。図5は、CITa,CIva01,CIpm11で異常を検知した場合を例示している。障害箇所推定装置30は、CITaから関連を辿ることで調査範囲限定ツリーA01を作成する。調査範囲限定ツリーA01は、CITaをルートとし、CIva01〜03をCITaに接続したノードとして有する。さらに、調査範囲限定ツリーA01は、CIva01に接続したノードとしてCIpm11を有し、CIva02に接続したノードとしてCIpm12を有する。ここで、調査範囲限定ツリーA01は、CIpm13を含まない。これは、調査範囲限定ツリーの作成時に辿る関連の範囲を制限することで調査範囲限定ツリーが過度に大きくなることを防いだためである。調査範囲限定ツリーの作成時に辿る関連の範囲に対する制限は、ホップ値と減衰度を定めることで行なうが、ホップ値と減衰度についての説明は後述する。
【0044】
障害箇所推定装置30は、CIva01から関連を辿ることで調査範囲限定ツリーA02を作成する。調査範囲限定ツリーA02は、CIva01をルートとし、CIpm11をCIva01に接続したノードとして有する。
【0045】
障害箇所推定装置30は、CIpm11から関連を辿ることで調査範囲限定ツリーA03を作成する。図5に示した例では、CIpm11から辿ることのできる関連がなく、調査範囲限定ツリーA03はCIpm11のみを有する。
【0046】
障害箇所推定装置30は、調査範囲限定ツリーA01〜03を重ね合わせ、重複が最大となるCIpm11を障害が発生した箇所の候補として推定する。
【0047】
・各種情報の具体例
図7は、構成情報21の具体例の説明図である。図7に示した構成情報21は、cmdbタグ内にCIを定義するCisタグと関連を定義するRelationsタグを有する。Cisタグ内には、各CIのidと種別が記述されている。
【0048】
図7に示した例では、Cisタグ内にCIpm11〜13,CIva01,CITbを例示している。CIpm11〜13は、種別として物理マシンであることを示すPMが対応付けられている。同様に、CIva01には、種別として仮想マシンであることを示すVAが対応付けられている。そして、CITbには種別としてサービスであることを示すServiceが対応付けられている。
【0049】
図7に示した例では、Relationsタグ内に関連rel01,02,24を例示している。関連rel01は、ソースsrcがva01,ターゲットに対応するdstがpm11であり、ソースとターゲットの種別の組み合わせを示すタイプとしてvm−pmが対応付けられている。関連rel02は、ソースsrcがpm11,ターゲットに対応するdstがva01であり、ソースとターゲットの種別の組み合わせを示すタイプとしてpm−vmが対応付けられている。また、関連rel24は、ソースsrcがvb01,ターゲットに対応するdstがTbであり、ソースとターゲットの種別の組み合わせを示すタイプとしてtenant−vmが対応付けられている。
【0050】
図8は、異常履歴51の具体例の説明図である。異常履歴51は、異常id、発生時刻、検出箇所、異常内容の項目を有する。異常idは、異常履歴51のエントリの識別に試用する情報である。発生時刻は、異常が発生した時刻を示す。検出箇所は、異常が発生したCIの識別情報と、CIの種別を示す情報を有する。異常内容は、発生した異常の内容を示す。
【0051】
図8に示した例では、異常idが01のエントリは、09/07/01 00:01:30にCIタイプがPMであるインスタンスpm11にping timeoutの異常が発生したことを示している。同様に、異常idが02のエントリは、09/07/01 00:01:40にCIタイプがVMであるインスタンスva01にping timeoutの異常が発生したことを示している。そして、異常idが03のエントリは、09/07/01 00:02:00にCIタイプがSvcであるインスタンスTaにservice errorの異常が発生したことを示している。
【0052】
図9は、分類部61が抽出した構成要素の組み合わせについての説明図である。分類部61は、異常履歴51から2つの異常を選び、選んだ2つの異常の構成要素に関連が設定されている場合に、異常が発生した時刻が早い構成要素を異常の伝播元の構成要素とし、異常が発生した時刻が遅い構成要素を異常の伝播先の構成要素とする。分類部61は、例えば異常履歴51に示された全ての異常の組み合わせについて、組み合わせた2つの異常の構成要素に関連が設定されているかを確認する。また、異常の発生時刻の差が所定時間以内の2つの異常の組み合わせについて組み合わせた2つの異常の構成要素に関連が設定されているかを確認することとしてもよい。
【0053】
図9に示した例では、抽出した2つ構成要素の関連に対し、伝播元のCIの種別と発生した異常の種別、異常の伝播先のCIの種別と発生した異常の種別、関連の方向と異常の伝播方向の対応関係を示している。
【0054】
関連rel02は、伝播元のCIがPM、異常タイプがping timeoutであり、伝播先のCIがVM、異常タイプがping timeoutである。また、関連rel02のリレーションの方向は伝播元から伝播先である。すなわち、関連rel02のソースであるタイプがPMのCIにping timeoutが発生した後、関連rel02のターゲットであるタイプがVMのCIにping timeoutが発生したことが示されている。
【0055】
関連rel06は、伝播元のCIがPM、異常タイプがping timeoutであり、伝播先のCIがVM、異常タイプがping timeoutである。また、関連rel06のリレーションの方向は伝播元から伝播先である。すなわち、関連rel06のソースであるタイプがPMのCIにping timeoutが発生した後、関連rel06のターゲットであるタイプがVMのCIにping timeoutが発生したことが示されている。
【0056】
関連rel13は、伝播元のCIがVM、異常タイプがping timeoutであり、伝播先のCIがSvc、異常タイプがservice errorである。また、関連rel13のリレーションの方向は伝播元から伝播先である。すなわち、関連rel13のソースであるタイプがVMのCIにping timeoutが発生した後、関連rel13のターゲットであるタイプがSvcのCIにservice errorが発生したことが示されている。
【0057】
関連rel01は、伝播元のCIがPM、異常タイプがping timeoutであり、伝播先のCIがVM、異常タイプがping timeoutである。また、関連rel01のリレーションの方向は伝播先から伝播元である。すなわち、関連rel01のターゲットであるタイプがVMのCIにping timeoutが発生した後、関連rel01のソースであるタイプがPMのCIにping timeoutが発生したことが示されている。
【0058】
分類部61は、抽出した関連を、伝播元のCIの種別、異常の種別、伝播先のCIの種別、異常の種別、リレーションの方向で抽象化し、関連クラスの候補として分類する。図9に示した例では、関連rel02と関連rel06は、伝播元のCIの種別、異常の種別、伝播先のCIの種別、異常の種別、リレーションが全て一致する。分類部61は、関連rel02と関連rel06に示された情報から関連クラスの候補c01を作成する。従って、関連クラスの候補c01は、伝播元のCIの種別がPM、異常の種別がping timeout、伝播先のCIの種別がVM、異常の種別がping timeout、リレーションの方向が伝播元から伝播先となる。
【0059】
図10は、分類部61が作成した関連クラスの候補リストの具体例である。図10に示した例では、上述の関連クラスの候補c01に加え、候補c02〜c05を示している。関連クラスの候補c02は、伝播元のCIの種別がVM、異常の種別がping timeout、伝播先のCIの種別がSvc、異常の種別がapp error、リレーションの方向が伝播元から伝播先である。
【0060】
関連クラスの候補c03は、伝播元のCIの種別がVM、異常の種別がcpu overload、伝播先のCIの種別がSvc、異常の種別がslowdown、リレーションの方向が伝播元から伝播先である。
【0061】
関連クラスの候補c04は、伝播元のCIの種別がVM、異常の種別がcpu overload、伝播先のCIの種別がVM、異常の種別がapp slowdown、リレーションの方向が伝播元から伝播先である。
【0062】
関連クラスの候補c05は、伝播元のCIの種別がVM、異常の種別がrequest burst、伝播先のCIの種別がPM、異常の種別がnw overload、リレーションの方向が伝播先から伝播元である。
【0063】
集計部62は、関連クラスの候補c01〜c05について、その出現回数を求める。図10に示した例では、関連クラスの候補c01の出現回数は10、関連クラスの候補c02の出現回数は8、関連クラスの候補c03の出現回数は7、関連クラスの候補c04の出現回数は5、関連クラスの候補c05の出現回数は5である。
【0064】
関連クラス決定部63は、出現回数が閾値以上である関連クラスの候補を関連クラスとして決定する。例えば、図10に示した例で出現回数の閾値が5である場合、関連クラスの候補c01〜c05のうち、全てが関連クラスc01〜c04として決定される。
【0065】
図11は、決定した関連クラスのソースとなるCIの種別とターゲットとなるCIの種別を示す図である。関連クラスc01は、ソースとなるCIの種別がPMであり、ターゲットとなるCIの種別がVMである。関連クラスc02は、ソースとなるCIの種別がVMであり、ターゲットとなるCIの種別がSvcである。関連クラスc03は、ソースとなるCIの種別がVMであり、ターゲットとなるCIの種別がSvcである。関連クラスc04は、ソースとなるCIの種別がVMであり、ターゲットとなるCIの種別がVMである。関連クラスc05は、ソースとなるCIの種別がVMであり、ターゲットとなるCIの種別がPMである。
【0066】
関連クラス適用部64は、構成情報21に示された各関連についてソース及びターゲットのCIの種別に基づいて関連クラスを適用する。図12は、関連と適用する関連クラスの説明図である。
【0067】
図12に示した例では、関連rel01,04には、関連クラスc05が適用されている。関連rel02〜03には、関連クラスc01が適用されている。関連rel19〜20には、関連クラスc04が適用されている。関連rel23〜24には、関連クラスc02,c03の双方が適用されている。
【0068】
関連クラス適用部64は、各関連について、適用した関連クラスを構成情報21に追加する。図13は、関連クラス適用後の構成情報の説明図である。図7に示した構成情報に加え、各関連に対して関連クラスが付加されている。具体的には、関連rel01の関連クラスを示す記述として class=“c05”が追加されている。また、関連rel02の関連クラスを示す記述として class=“c01”が追加されている。そして、関連rel24の関連クラスを示す記述として class=“c02,c03”が追加されている。
【0069】
図14は、障害対処情報28の具体例についての説明図である。障害対処情報28は、CITaに発生したサービスエラーの原因がCIpm12の障害であったこと、このCIpm12までのCITaからの経路が関連rel14,06であったこと、障害の対処の内容を示している。同様に、障害対処情報28は、CITbに発生したサービスエラーの原因がCIvb02の障害であったこと、このCIvb02までのCITbからの経路が関連rel17であったこと、障害の対処の内容を示している。
【0070】
調査内容作成部65は、障害対処情報28を参照して調査内容24を作成する。具体的には、調査内容作成部65は、障害対処情報28に示された経路に関連クラスを適用し、障害対処情報28に示された情報のうち、異常が発生したCIをCIタイプに抽象化して置き換え、原因障害箇所のCIをCIタイプに抽象化して置き換える。
【0071】
図15は、調査内容作成部65が作成した調査内容24の具体例である。図15に示した例では、異常が発生したCIの種別はSvcとし、原因となる障害が発生した箇所の種別はPMもしくはVMである。そして、原因となる障害が発生した箇所の種別がPMである場合の切り分けに用いる経路の関連クラスは、c02+c03からc01である。また、原因となる障害が発生した箇所の種別がVMである場合の切り分けに用いる経路の関連クラスは、c02+c03である。
【0072】
この調査内容24を参照することで、種別がSvcのCIにservice errorが発生したならば、PMもしくはVMが原因である可能性があることが示される。加えて、原因がPMである場合には、関連クラスがc02,c03である関連を辿った後、関連クラスがc01である関連を辿ることで、原因となるCIに到達する可能性があることが示される。同様に、原因がVMである場合には、関連クラスがc02,c03である関連を辿ることで、原因となるCIに到達する可能性があることが示される。
【0073】
図16は、異常検知情報25の具体例の説明図である。異常検知情報25は、異常を発生したCIと発生した異常の症状の種別を有する。図13に示した例では、CITaにservice errorが発生したことを示している。
【0074】
図17は、障害情報DB32と減衰度について説明する説明図である。障害情報DB32は、操作経路履歴情報27と障害対処情報28を有する。操作経路履歴情報27は、CITaにサービスエラーが発生した時に最初の操作01−1として関連rel13と関連rel02を辿り、次の操作01−2として関連rel14と関連rel06を辿って障害箇所を調査したことを示している。また、操作経路履歴情報27は、CITbにサービスエラーが発生した時に操作02−1として関連rel17を辿って障害箇所を調査したことを示している。この操作は、作業者が手作業で調査したものであっても良いし、障害箇所推定装置30が過去に辿ったものであっても良い。
【0075】
障害対処情報28は、既に述べたように、CITaに発生したサービスエラーの原因がCIpm12の障害であったこと、このCIpm12までのCITaからの経路が関連rel14,06であったこと、障害の対処の内容を示している。同様に、障害対処情報28は、CITbに発生したサービスエラーの原因がCIvb02の障害であったこと、このCIvb02までのCITbからの経路が関連rel17であったこと、障害の対処の内容を示している。
【0076】
調査範囲限定部12は、障害情報DB32を調査範囲限定ツリーの作成時に辿る関連の範囲を決定する際に使用する。障害箇所推定装置30は、所定のポップ値を定めておき、関連を辿るたびにホップ値を減らす。そして、ホップ値が0以下になるまでの範囲で関連を辿って調査範囲限定ツリーを作成する。関連を辿った際にホップ値から減じる値を減衰度とする。
【0077】
調査範囲限定部12は、障害情報DB32に登録されている関連については減衰度を小さくする。このように履歴を参照して減衰度を変化させることで、過去に調査した範囲や過去の異常の原因となった障害の近傍を重点的に辿る調査範囲限定ツリーを得ることができる。
【0078】
図17を参照して、Taのサービスエラーに対する減衰度の算出を説明する。調査範囲限定部12は、Taのサービスエラーについて操作経路履歴情報27および障害対処情報28に登録された関連を計数する。操作経路履歴情報27および障害対処情報28には、関連rel02が1回、関連rel06が2回、関連rel13が1回、関連rel14が2回出現する。その他の関連は出現回数0である。
【0079】
調査範囲限定部12は、各関連の出現回数に1を加えた値を重要度として求める。この結果、関連rel02は重要度2、関連rel06は重要度3、関連rel13は重要度2、関連rel14は重要度3、その他の関連は重要度1となる。
【0080】
調査範囲限定部12は、その他の関連、すなわち障害情報DB32の対応するエラーに登録されていない関連の減衰度をαとし、αを重要度で除算した値を各関連の減衰度とする。この結果、関連rel02は減衰度α/2、関連rel06は減衰度α/3、関連rel13は減衰度α/2、関連rel14は減衰度α/3となる。
【0081】
図18は、調査範囲限定部12が作成する調査範囲限定ツリーの説明図である。調査範囲限定部12は、検知された異常ごとに調査範囲限定ツリーを作成する。図18に示した例では、調査範囲限定部12はCIpm12で検知した性能異常について調査範囲限定ツリーtree1を作成し、CIva01で検知した遅延について調査範囲限定ツリーtree2を作成している。
【0082】
調査範囲限定ツリーtree1は、CIpm11がルートであり、ルートにCIva02とCIvb02がノードとして接続したツリーである。調査範囲限定ツリーtree2は、CIva01がルートであり、ルートにCIva02とCIpm11がノードとして接続している。さらに調査範囲限定ツリーtree2は、CIva02にCIpm12とCIva03がノードとして接続している。そして、調査範囲限定ツリーtree2は、CIpm12にCIvb02がノードとして接続し、CIva03にCIpm13がノードとして接続している。加えて、調査範囲限定ツリーtree2は、CIpm11にCIvb01がノードとして接続し、CIvb01にCIvb02がノードとして接続している。
【0083】
・処理動作の説明
図19は、関連クラスの作成を説明するフローチャートである。ネットワーク管理情報作成装置70の分類部61は、異常情報DB32が保持する異常履歴51から2つの異常の組み合わせを取り出す(S101)。分類部61は、CMDB31が保持する構成情報21を参照し、取り出した2つの異常について、異常が発生したCI間における関連(リレーション)の有無を確認する(S102)。関連がある場合(S103,Yes)、分類部61は、当該関連を関連クラスの候補として抽出する(S104)。
【0084】
ステップS104の後、もしくは関連がない場合(S103,No)、分類部61は、異常の全ての組み合わせについて確認を行なったかを判定する(S105)。確認を行なっていない異常の組み合わせが残っている場合(S105,No)、分類部61は、ステップS101に戻る。
【0085】
異常の全ての組み合わせについて確認を行なったならば(S105,Yes)、集計部62が関連クラスの候補を集計する(S106)。関連クラス決定部63は、集計の結果、出現回数が一定数以上の関連クラス候補を抜粋し(S107)、抜粋した関連クラスの候補を関連クラスとして出力して(S108)、処理を終了する。
【0086】
図20は、調査内容の作成を説明するフローチャートである。ネットワーク管理情報作成装置70の調査内容作成部65は、異常情報DB32から障害対処情報28を取り出す(S201)。調査内容作成部65は、障害対処情報28に示された、異常が発生したCIと原因のCIをCIの種別で抽象化する(S202)。調査内容作成部65は、障害対処情報28に示された、切り分けを行なった経路の関連を関連クラスで抽象化し、調査内容として登録する(S203)。
【0087】
調査内容作成部65は、障害対処情報28に示された全ての異常について処理を行なったかを判定し(S204)、処理を行なっていない異常が残っている場合には(S204,No)、ステップS202に戻る。そして、全ての異常について処理を行なった場合に(S204,Yes)、調査内容作成部65は、調査内容を出力して(S205)、処理を終了する。
【0088】
・実施例2のまとめ
上述してきたように、本実施例2にかかるネットワーク管理支援システム、ネットワーク管理支援装置およびネットワーク管理支援方法は、ネットワークの構成情報と異常の履歴情報から、異常の伝播方向を構成要素の種別に基づいて抽象化した関連クラスを作成する。加えて、開示のシステム、装置、方法は、システムの構成要素間の関連を関連クラスに分類し、異常発生時に関連クラスに基づいて構成要素を辿って異常の原因となる障害が発生した範囲を絞り込む。
【0089】
このように関連クラスを用いた障害発生箇所の絞込みはネットワークシステムの構成に依存せず、汎用性が高い。そのため、新たに組んだネットワークシステムに対しても適用でき、またネットワークシステムの構成を変更しても適用可能である。
【0090】
また、開示の技術は、大規模ネットワークシステムや仮想環境でのトラブル調査に対しても障害発生箇所の絞込みを行なってトラブル調査を支援することができる。
【0091】
具体的には、構成要素として物理マシン、仮想マシン、サービスを有する仮想ネットワークに開示の技術を適用可能である。また、過去の異常に対する対処履歴に関連クラスを適用することで、異常発生時に辿るべき範囲を調査範囲として求めることで、実際の構成に依存することなく異常の伝播を辿り、障害箇所を推定することかできる。
【0092】
なお、実施例に開示のシステム、装置、方法およびプログラムはあくまで一例であり、構成および動作を適宜変更して実施することができる。例えば、実施例2に開示した装置は、関連クラス適用部11、調査範囲限定部12、障害発生箇所候補推定部13をネットワークシステム上に分散して配置し、障害箇所推定システムとして実施することができる。
【0093】
また、ネットワーク管理情報作成装置70、障害箇所推定装置30、CMDB31、障害情報DB(Database)32を1つの筐体に収めた装置として実施することもできる。さらに、CMDBや障害情報DBは、他の装置やシステムと共用することもできる。また、実施例2に開示したフローチャートは、その処理の追加、削除、順序の入れ替えを適宜行なって実施することができる。
【符号の説明】
【0094】
10 障害箇所推定システム
11 関連クラス適用部
12 調査範囲限定部
13 障害発生箇所候補推定部
21 構成情報
23 関連クラス
24 調査内容
25 異常検知情報
28 障害対処情報
30 障害箇所推定装置
31 CMDB
32 障害情報DB
40 トラブル調査システム
41 異常検知部
42 障害箇所推定部
43 障害原因特定部
44 対処実施部
51 異常履歴
60 ネットワーク管理支援システム
61 分類部
62 集計部
63 関連クラス決定部
64 関連クラス適用部
65 調査内容作成部
70 ネットワーク管理情報作成装置
pm11〜13,va01〜03,vb01〜03,Ta,Tb CI
rel01〜24 関連

【特許請求の範囲】
【請求項1】
コンピュータに、
複数の構成要素を含むネットワーク内で発生した、複数の異常に関する情報であって、該複数の異常の各々に対応する構成要素の種別を特定可能な異常履歴情報に基づいて、該複数の異常に対応する1又は複数の構成要素の種別の組み合わせのうち、記憶部に記憶された関連情報によって、互いに関連性のあるものとして関連づけられた構成要素の種別の組を抽出する、
処理を実行させることを特徴とするプログラム。
【請求項2】
ネットワークを構成する複数の構成要素について、関連する構成要素がいずれの構成要素であるかを示す関連情報を記憶する記憶部と、
前記ネットワーク内で発生した、複数の異常に関する情報であって、該複数の異常の各々に対応する構成要素の種別を特定可能な異常履歴情報に基づいて、該複数の異常に対応する1又は複数の構成要素の種別の組み合わせのうち、前記関連情報によって、互いに関連性のあるものとして関連づけられた構成要素の種別の組を抽出する抽出部と
を備えたことを特徴とするネットワーク管理支援システム。
【請求項3】
前記抽出部が抽出した構成要素の種別の組の出現数を集計する集計部と、
前記出現数に基づいて、前記構成要素の種別の組のうち、ネットワークに異常が発生した場合に原因となる箇所の推定に使用する構成要素の種別の組を関連クラスとして決定する関連クラス決定部と
を備えたことを特徴とする請求項2に記載のネットワーク管理支援システム。
【請求項4】
前記ネットワークは、前記構成要素として物理マシン、仮想マシン、サービスを有する仮想ネットワークであることを特徴とする請求項2または3に記載のネットワーク管理支援システム。
【請求項5】
前記抽出部は、所定の時間の範囲内に異常が発生した2つの構成要素であって、かつ前記2つの構成要素間に前記関連性が設けられている構成要素の組を抽出して、当該構成要素の組に定められた関連性のうち、処理を依頼する側の構成要素の種別と処理の依頼を受ける側の構成要素の種別との組み合わせを抽出することを特徴とする請求項2〜4のいずれか一つに記載のネットワーク管理支援システム。
【請求項6】
異常が発生した構成要素から当該異常の原因となった障害が発生した箇所に至る経路を特定した対処の履歴を参照し、前記対処の履歴に示された経路に前記関連クラスを適用して異常の種別に対して辿るべき関連クラスを対応付ける調査内容を作成する調査内容作成部を更に備えたことを特徴とする請求項2〜5のいずれか一つに記載のネットワーク管理支援システム。
【請求項7】
前記関連情報と、前記関連クラスとを参照し、前記関連情報に含まれる構成要素間の関係について関連クラスを適用する関連クラス適用部と、
前記調査内容を参照し、異常が発生した構成要素の各々について前記調査範囲に従って辿った構成要素及び関連を調査範囲限定ツリーとして求める調査範囲限定部と、
前記異常が発生した構成要素の各々について求めた調査範囲限定ツリーにおける前記構成要素の出現頻度に基づいて前記異常の原因となる障害が発生した箇所の候補を推定する障害発生箇所候補推定部と
を更に備えたことを特徴とする請求項2〜6のいずれか一つに記載のネットワーク管理支援システム。
【請求項8】
ネットワークを構成する複数の構成要素について、関連する構成要素がいずれの構成要素であるかを示す関連情報を記憶する記憶部と、
前記ネットワーク内で発生した、複数の異常に関する情報であって、該複数の異常の各々に対応する構成要素の種別を特定可能な異常履歴情報に基づいて、該複数の異常に対応する1又は複数の構成要素の種別の組み合わせのうち、前記関連情報によって、互いに関連性のあるものとして関連づけられた構成要素の種別の組を抽出する抽出部と
を備えたことを特徴とするネットワーク管理支援装置。
【請求項9】
複数の構成要素を含むネットワーク内で発生した、複数の異常に関する情報であって、該複数の異常の各々に対応する構成要素の種別を特定可能な異常履歴情報を参照するステップと、
前記異常履歴情報に基づいて、前記複数の異常に対応する1又は複数の構成要素の種別の組み合わせのうち、記憶部に記憶された関連情報によって、互いに関連性のあるものとして関連づけられた構成要素の種別の組を抽出するステップと
を含んだことを特徴とするネットワーク管理支援方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate


【公開番号】特開2011−145773(P2011−145773A)
【公開日】平成23年7月28日(2011.7.28)
【国際特許分類】
【出願番号】特願2010−4389(P2010−4389)
【出願日】平成22年1月12日(2010.1.12)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】