説明

障害検出装置、ネットワーク構成推定装置および障害検出方法

【課題】少ないコストで構成変更に追随しながら短時間で障害検出を行うことができる障害検出装置を得ること。
【解決手段】ネットワークの構成の変化を示す構成変化通知を取得するトラップ取得部11と、ネットワークの構成を示す情報と構成変化通知とに基づいてネットワークの構成情報を求める構成取得部13と、ネットワークを構成する機器から取得した冗長構成に基づいてネットワークの予測される構成である予測構成を求める構成予測部14と、障害の内容を示す障害発生通知と構成情報と障害の内容ごとの原因箇所である確率を示す障害確率表とに基づいて対応する障害箇所を推定し、予測構成における構成変化の内容ごとの障害確率表を予測障害確率表として求めておき、構成変化通知を受けた場合に、障害箇所の推定で用いる障害確率情報を当該通知に基づく構成変化の内容に対応する予測障害確率表に置き換える障害確率表管理部12と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、障害検出装置、ネットワーク構成推定装置および障害検出方法に関する。
【背景技術】
【0002】
仮想化技術の発展を背景として、従来は企業や団体などの組織が個別に保有・管理していた情報システムを集約して共用型情報システムを構築することが考えられている。共用型情報システムを円滑に運用するためには、ネットワーク管理コストの圧縮が重要であり、特に、現在のネットワーク管理において大きな割合を占める障害発生時の対処の効率化が重要になる。
【0003】
共用型情報システムでは、管理対象の拡大に伴う障害情報の量的増加、またサーバやスイッチの仮想化に伴う障害影響範囲の複雑化により、障害情報を得てから原因箇所の検出に至るまでに掛かる時間が個別の情報システムに比べて増える。オペレータは1件のトラブルを処理するのにより多くの時間を要することになり、ネットワーク管理コストの増大を招く。
【0004】
このような状況に対処する方法として、例えば、特許文献1には、障害確率表と呼ばれるテーブルを利用し、障害情報からその原因となった障害箇所を確率的に求めることで、アラートから原因箇所の特定に至るまでの処理を自動化して時間短縮する試みが開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−124057号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の障害確率表を用いるネットワーク障害監視方法によれば、ネットワーク構成が変わると通知内容との因果関係も変わるため確率表を更新して用いることになる。このため、新しい構成に基づく確率表が生成されるまではこのネットワーク障害監視方法を使用できないか、または使用できたとしても推定精度が低下しオペレータによる作業を伴う。従って、その間に発生した障害の検出には時間を要し、平均的な障害対処時間が増加する、という問題がある。構成変更が頻繁に発生する共用型情報システムでは、推定精度を維持しつつ更なる時間短縮を達成することが求められる。
【0007】
一方、多くのネットワーク機器では電源,回線などの冗長化を行っている。従って、現在の構成における冗長化設定において予備構成として設定されている構成の障害確率表を事前に生成しておくことにより、予備構成への構成変更発生時の推定精度の低下を防いで障害検出時間を短縮することができる。しかし、ネットワークを構成する機器は多数存在し、全ての冗長切り替えパターンに対応する障害確率表を最初から生成しておくのは現実的でない、という問題がある。
【0008】
本発明は、上記に鑑みてなされたものであって、少ないコストで構成変更に追随しながら短時間で障害検出を行うことができる障害検出装置、ネットワーク構成推定装置および障害検出方法を得ることを目的とする。
【課題を解決するための手段】
【0009】
上述した課題を解決し、目的を達成するために、本発明は、前記ネットワークの構成の変化を示す構成変化通知を取得するネットワーク情報取得部と、あらかじめ定められた前記ネットワークの構成を示す情報と前記構成変化通知とに基づいて前記ネットワークの構成情報を求める構成取得部と、前記ネットワークを構成する機器から当該機器に設定されている冗長構成を取得し、前記冗長構成に基づいて前記ネットワークの予測される構成である予測構成を求める構成予測部と、障害の内容を示す障害発生通知と前記構成情報と障害の内容ごとの原因箇所である確率を示す障害確率情報とに基づいて、前記障害発生通知に対応する障害箇所を推定する障害箇所検出部と、前記予測構成に基づいて、前記予測構成における構成変化の内容ごとの前記障害確率情報を予測障害確率情報として求めておき、前記構成変化通知を受けた場合に、前記障害箇所検出部で用いる障害確率情報を当該通知に基づく構成変化の内容に対応する前記予測障害確率情報に置き換える障害確率管理部と、を備えることを特徴とする。
【発明の効果】
【0010】
本発明によれば、少ないコストで構成変更に追随しながら短時間で障害検出を行うことができるという効果を奏する。
【図面の簡単な説明】
【0011】
【図1】図1は、本発明にかかる障害検出装置を含む通信システムの構成例を示す図である。
【図2】図2は、障害検出装置の構成例を示す図である。
【図3】図3は、障害確率表の一例を示す図である。
【図4】図4は、機器情報を管理するテーブルの一例を示す図である。
【図5】図5は、隣接情報を管理するテーブルの一例を示す図である。
【図6】図6は、構成予測手順の一例を示すフローチャートである。
【図7】図7は、予測される構成とそれに対応して生成する障害確率表との関係を管理するテーブルの一例を示す図である。
【図8】図8は、障害確率表管理部が構成変化通知を受けた場合の動作手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下に、本発明にかかる障害検出装置および方法の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0013】
実施の形態.
図1は、本発明にかかる障害検出装置を含む通信システムの構成例を示す図である。図1に示すように本実施の形態の通信システムは、通信機器1−1〜1−6と、ネットワーク機器2−1〜2−3と、障害検出装置3と、を備える。なお、図1の構成は一例であり、通信機器およびネットワーク機器の台数は図1の例に限定されない。
【0014】
通信機器1−1〜1−6は、IP(Internet Protocol)による通信機能を有する機器であり、具体的にはパーソナルコンピュータ,サーバなどが該当する。ネットワーク機器2−1〜2−3は、複数の通信機器1を相互に接続して通信する機能を提供する機器であり、これらの機器は固有のハードウェアを備える物理機器であってもよく、またはソフトウェア化された仮想アプライアンスであってもよい。本実施の形態では、これらの各機器によって構成されるネットワークに障害検出装置3を接続して用いる。図中では障害検出装置3をネットワーク機器2−3に接続しているが、他のネットワーク機器(ネットワーク機器2−1またはネットワーク機器2−3)に接続してもよい。
【0015】
図2は、本実施の形態の障害検出装置3の構成例を示す図である。障害検出装置3は、トラップ取得部(ネットワーク情報取得部)11と、障害確率表管理部(障害確率管理部)12と、構成取得部13と、構成予測部14と、を備える。障害検出装置3は、通信機器1−1〜1−6およびネットワーク機器2−1〜2−3で構成されるネットワークを障害監視対象とする。図2では、障害検出装置3が接続されるネットワーク機器2−1〜2−3のいずれかを、代表してネットワーク機器2として示している。
【0016】
トラップ取得部11は、ネットワークに接続された機器からメッセージを取得し、その内容に応じて障害確率表管理部12または構成取得部13に振り分けて通知する。具体的には、例えば、メッセージが現在のネットワークの状態に関する情報(状態情報)であった場合には、構成予測部14へ通知し、メッセージが、ネットワーク構成が変化したことを示す情報であった場合には障害確率表管理部12と構成取得部13の両方に構成変化通知を出力し、メッセージが障害発生通知であった場合には、障害確率表管理部12に通知する。
【0017】
障害検出装置3は、ネットワークの障害箇所を推定して、障害箇所推定結果15を出力する。また、障害検出装置3は、外部入力としてネットワーク構成データベース(DB)16を使用することができる。構成取得部13はネットワーク構成データベース16から取得した構成情報を保持・管理し、トラップ取得部11から構成変化通知を受け取った場合には、構成変化通知に基づいて構成情報を更新して構成予測部14へ通知する。
【0018】
構成予測部14は、構成取得部13が管理する構成情報とネットワークの状態を示す状態情報とに基づいて構成予測を行い、予測結果を予測構成情報として障害確率表管理部12へ通知する。
【0019】
障害確率表管理部12は、障害確率表を保持・管理し、トラップ取得部11からネットワーク構成の状態情報変化を示す状態情報を、当該通知に基づいて障害確率表を更新する。また、障害確率表管理部12は、障害発生通知を受け取った場合、当該通知と障害確率表に基づいて障害箇所を推定し、推定した結果を障害箇所推定結果15として出力する。なお、ここでは障害発生通知と障害確率表に基づく障害箇所の推定方法を用いるとして説明するが、障害発生通知に基づいて確率的に障害箇所の推定する方法であればどのような方法でもよい。なお、本実施の形態では、障害確率表管理部12が障害確率表を保持・管理と、障害箇所検出の両方を行う例を示しているが、障害箇所検出を行う障害箇所検出部を別途備える構成としてもよい。
【0020】
図3は、障害確率表管理部12が保持する障害確率表の一例を示す図である。図3の列には検出され得る障害の種類を示し、行には障害の原因箇所となり得る機器や回線などの構成要素をそれぞれ示している。図3の表内では、機器ごとに、各障害に対して自機器が原因である確率を示している。図中で網掛けとなっているマスは、例えば「障害#3」が検出されたときにその原因箇所が「機器C」である確率が0.8であることを示している。障害#1、障害#2等は、障害の識別子であり、障害の内容と識別子との対応が定められているとする。なお、障害発生通知の内容により障害の識別(障害#1、障害#2等)が可能なように、障害の内容が定義されているとする。障害確率表の生成方法に特に制約はなく、一般的な方法を用いることができる。
【0021】
図4は、構成取得部13が保持する構成情報のうち機器情報を管理するテーブルの一例を示す図である。図4では、管理対象となるネットワークを構成する通信機器1−1〜1−6およびネットワーク機器2−1〜2−3に対して、それぞれ一意な識別番号を割り当てて管理を行い、機器情報として種別、名称およびアドレスを含む例を示している。
【0022】
図5は、構成取得部13が保持する構成情報のうち隣接情報を管理するテーブルの一例を示す図である。隣接情報では、管理対象となるネットワークを構成する通信機器1−1〜1−6およびネットワーク機器2−1〜2−3に対して、それぞれ当該機器が直接接続する機器との関係を管理する。1台の機器が複数台の機器と接続している場合には、同じ機器識別番号に対して複数のエントリを有し、同じ機器識別番号に複数の隣接機器識別番号が対応づけられる。
【0023】
なお、図3〜図5で示した各情報を示す表またはテーブルは一例であり、同様の情報を管理できる構成であれば、図3〜図5の構成に限定されない。
【0024】
図6は、本実施の形態の構成予測手順の一例を示すフローチャートである。まず構成予測部14は、現在のネットワークの状態に関する情報(状態情報)をトラップ取得部11から直接または構成取得部13経由で取得する(ステップS1)。状態情報の具体例として、機器動作エラー通知の増加や生存確認(ICMP Echo)に対する応答の劣化,連続稼働時間,片系故障による切替え発生の通知などがあげられる。
【0025】
次に、構成予測部14は、取得した状態情報の内容を予め設定した閾値と比較し、構成変更が起こり得るかどうかの判断を行う(ステップS2)。例えば、機器動作エラー通知の場合、一定時間内に報告されるエラー通知の回数が予め設定した値を超過した場合に構成変更の可能性ありと判断する。構成変更なしと判断した場合(ステップS2 No)は、後続の予測処理を行わずにステップS1へ戻る。
【0026】
構成変更ありと判断した場合(ステップS2 Yes)、構成予測部14は、構成取得部13が管理する隣接情報を用いて、対象機器に隣接する機器の一覧を取得する(ステップS3)。次いで、構成予測部14は取得した機器一覧の各エントリに対応する機器に対してトラップ取得部11経由で問い合わせを行い、その機器に設定されている冗長構成の情報(冗長設定情報)を取得し(ステップS4)、全ての機器の冗長設定情報を取得したか否かを判断し(ステップS5)、全ての機器から情報を取得した場合(ステップS5 Yes)はステップS6へ進む。未取得の機器がある場合(ステップS5 No)、ステップS4へ戻る。
【0027】
そして、構成予測部14は、対象機器が離脱したと仮定した場合に当該対象機器の隣接機器が取り得る冗長設定情報を元に予測されるネットワーク構成を求める(ステップS6)。例えば対象機器を第1接続先として設定され、他の機器を第2接続先として接続設定している機器がある場合、接続先を第1接続先である対象機器から第2接続先の機器に変更したとしてネットワーク構成を求める。予測構成は各機器が個別に持つ冗長設定情報に基づいて生成するため、予測構成を求めた後、構成予測部14はネットワーク全体の構成の妥当性評価として予測構成にループや分断がないことを確認する(ステップS7)。妥当でないと判断した場合(ステップS7 No)、ステップS6へ戻り、予測構成の生成をやり直す。妥当と判断した場合(ステップS7 Yes)、求めた予測構成を予測構成情報として障害確率表管理部12に通知し、障害確率表管理部12は予測構成情報に基づいて障害確率表(予測障害確率表)を生成し(ステップS8)、処理を終了する。なお、この時点では、障害発生通知を受信した場合に障害箇所の推定に用いる障害確率表は置き換えない。
【0028】
以上のように、障害検出装置3は、ネットワーク構成を予測するネットワーク構成予測装置としての機能を有する。
【0029】
図7は、障害確率表管理部12が保持する、予測される構成とそれに対応して生成する障害確率表(予測障害確率表)との関係を管理するテーブル(障害確率表取得テーブル)の一例を示す図である。図7では、予測される構成が複数存在する(構成変化箇所が複数予測される)場合のテーブルの例を示している。構成変化箇所が複数予測される場合は、構成変化箇所ごとに障害確率表(予測障害確率表)を作成して、各々の障害確率表(予測障害確率表)に識別番号を割り当てておく。図7の構成変化箇所は、図4および図5のテーブルで用いた機器の識別番号を使用して機器を示し、障害確率表番号は、その箇所(その機器)で構成変化が発生した場合の障害確率表(予測障害確率表)の識別番号を示している。
【0030】
図8は、障害確率表管理部12がトラップ取得部11から構成変化通知を受けた場合の動作手順の一例を示すフローチャートである。障害確率表管理部12は、トラップ取得部11から構成変化通知を受けると、障害確率表取得テーブルを検索し(ステップS11)、通知された内容に対応するエントリがあるか否かを判断する(ステップS12)。対応するエントリがある場合(ステップS12 Yes)、直ちに障害箇所の推定に用いる障害確率表を当該エントリの識別子が示す障害確率表に置き換え(ステップS15)、処理を終了する。
【0031】
対応するエントリがない場合(ステップS12 No)、障害確率表管理部12は、構成取得部13に現在の構成情報の再取得を行う指示を通知し、構成取得部13は現在の構成情報の再取得を実施する(ステップS13)。そして、構成情報の再取得後、当該構成情報に基づいて再計算して障害確率表を求め(ステップS14)、ステップS15へ進み、障害箇所の推定に用いる障害確率表を求めた障害確率表に置き換える(ステップS15)。
【0032】
なお、本実施の形態では、障害検出装置3を障害検出の監視対象のネットワークに接続して、障害検出装置3は、直接、通信により障害検出通知等の各種情報を取得するようにしたが、これに限らず、障害検出装置3を監視対象のネットワークに接続せず、ネットワークから取得した必要な情報をオフラインで障害検出装置3へ入力ようにしてもよい。
【0033】
このように、本実施の形態では、予測構成を求めておき、予測構成に対応した障害確率表を(予測障害確率表)を生成して保持しておき、構成変化が発生した場合に、当該構成変化に対応する予測障害確率表で障害箇所の推定に用いる障害確率表を置き換えるようにした。このため、障害発生から間を空けることなく障害確率表の差し替えを行い、構成変更発生時における推定精度の低下を防ぐことができる。
【産業上の利用可能性】
【0034】
以上のように、本発明にかかる障害検出装置、ネットワーク構成推定装置および障害検出方法は、ネットワークの障害を検出する障害検出装置に有用であり、特に、予備構成が設定されているネットワークの障害を検出する障害検出装置に適している。
【符号の説明】
【0035】
1−1〜1−6 通信機器
2−1〜2−3 ネットワーク機器
3 障害検出装置
11 トラップ取得部
12 障害確率表管理部
13 構成取得部
14 構成予測部
15 障害箇所推定結果
16 ネットワーク構成データベース(DB)

【特許請求の範囲】
【請求項1】
ネットワークの構成の変化を示す構成変化通知を取得するネットワーク情報取得部と、
あらかじめ定められた前記ネットワークの構成を示す情報と前記構成変化通知とに基づいて前記ネットワークの構成情報を求める構成取得部と、
前記ネットワークを構成する機器から当該機器に設定されている冗長構成を取得し、前記冗長構成に基づいて前記ネットワークの予測される構成である予測構成を求める構成予測部と、
障害の内容を示す障害発生通知と前記構成情報と障害の内容ごとの原因箇所である確率を示す障害確率情報とに基づいて、前記障害発生通知に対応する障害箇所を推定する障害箇所検出部と、
前記予測構成に基づいて、前記予測構成における構成変化の内容ごとの前記障害確率情報を予測障害確率情報として求めておき、前記構成変化通知を受けた場合に、前記障害箇所検出部で用いる障害確率情報を当該通知に基づく構成変化の内容に対応する前記予測障害確率情報に置き換える障害確率管理部と、
を備えることを特徴とする障害検出装置。
【請求項2】
前記ネットワーク情報取得部は、さらにネットワークを構成する機器の状態変化に関する情報である状態情報を前記ネットワークから取得し、
前記構成情報に、前記ネットワーク内の機器の隣接機器に関する情報である隣接情報を含むこととし、
前記構成予測部は、前記状態情報に基づいて前記ネットワークの構成が変化する可能性があると判断した場合に前記予測構成を求める処理を実施し、前記冗長構成として前記隣接情報を用いて変化対象の機器に隣接する隣接機器を求め、前記隣接機器から当該隣接機器に設定されている冗長構成を取得する、ことを特徴とする請求項1に記載の障害検出装置。
【請求項3】
前記ネットワークと接続し、前記障害発生通知を前記ネットワークから通信により取得する、ことを特徴とする請求項1または2に記載の障害検出装置。
【請求項4】
ネットワークの構成の変化を示す構成変化通知を取得するネットワーク情報取得部と、
あらかじめ定められた前記ネットワークの構成を示す情報と前記構成変化通知とに基づいて前記ネットワークの構成情報を求める構成取得部と、
前記ネットワークを構成する機器から当該機器に設定されている冗長構成を取得し、前記冗長構成に基づいて前記ネットワークの予測される構成である予測構成を求める構成予測部と、
を備えることを特徴とするネットワーク構成推定装置。
【請求項5】
前記ネットワーク情報取得部は、さらにネットワークを構成する機器の状態変化に関する情報である状態情報を取得し、
前記構成情報に、前記ネットワーク内の機器の隣接機器に関する情報である隣接情報を含むこととし、
前記構成予測部は、前記状態情報に基づいて前記ネットワークの構成が変化する可能性があると判断した場合に前記予測構成を求める処理を実施し、前記冗長構成として前記隣接情報を用いて変化対象の機器に隣接する隣接機器を求め、前記隣接機器から当該隣接機器に設定されている冗長構成を取得する、ことを特徴とする請求項4に記載のネットワーク構成推定装置。
【請求項6】
ネットワークの構成の変化を示す構成変化通知を取得するネットワーク情報取得ステップと、
あらかじめ定められた前記ネットワークの構成を示す情報と前記構成変化通知とに基づいて前記ネットワークの構成情報を求める構成取得ステップと、
前記ネットワークを構成する機器から当該機器に設定されている冗長構成を取得し、前記冗長構成に基づいて前記ネットワークの予測される構成である予測構成を求める構成予測ステップと、
障害の内容を示す障害発生通知と前記構成情報と障害の内容ごとの原因箇所である確率を示す障害確率情報とに基づいて、前記障害発生通知に対応する障害箇所を推定する障害箇所検出ステップと、
前記予測構成に基づいて、前記予測構成における構成変化の内容ごとの前記障害確率情報を予測障害確率情報として求めておき、前記構成変化通知を受けた場合に、前記障害箇所検出部で用いる障害確率情報を当該通知に基づく構成変化の内容に対応する前記予測障害確率情報に置き換える障害確率管理ステップと、
を備えることを特徴とする障害検出方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−46372(P2013−46372A)
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願番号】特願2011−185018(P2011−185018)
【出願日】平成23年8月26日(2011.8.26)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】