説明

ネットワーク監視装置

【課題】エンドツーエンドのユーザ回線に対する影響度合いを正確に判定する。
【解決手段】ネットワークおよび当該ネットワークを構成する機器から障害の警報を受信し、障害の主原因の判定および下位への影響を展開するネットワーク監視装置であって、ネットワーク構成情報に基づき、主原因と判定されたトレイルから下位のトレイルに向かって警報情報を検索し、停止判定を行う手段と、前記下位停止判定の途中のトレイルが単ルートによる冗長構成の下位に仮想的に設定されたトレイル群である場合に、ネットワーク構成情報に基づき、上位のトレイルに向かって警報情報を検索し、前記トレイル群に対して設定された切替時間、切替保護時間および停止条件に基づいて停止判定を行う手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機器およびネットワーク(通信ネットワーク)を監視するためのネットワーク監視装置に関する。
【背景技術】
【0002】
ネットワークを構成する機器において、機器障害および機器の作業で停止が発生した場合、ネットワークに対して影響が発生し、複数の使用ユーザに対して回線停止が発生する場合がある。そのため、ネットワークの運用者はネットワークおよび機器を常時監視するためのネットワーク監視システムを構築し、障害が発生した場合に迅速な対応が行えるようにしている。
【0003】
図1は従来から用いられている一般的なネットワーク監視システムの構成例を示す図である。
【0004】
図1において、監視対象1は交換機、伝送装置、IP(Internet Protocol)装置等の機器から構成されるネットワークであり、この監視対象1から障害情報(故障情報)を収集する収集装置2と、収集装置2により収集された障害情報に基づいて主原因判定および影響展開を行うネットワーク監視装置3と、管理者に対して障害情報を表示する監視端末4と、ネットワーク構成情報を管理するネットワーク構成管理装置5とが設けられている。ここで、ネットワークを構成する物理的なつながりや論理的なつながりは「トレイル」と呼ばれ、主原因判定とは、障害を示す複数の警報(アラーム)の中から最も上位に位置するトレイルについての障害原因を特定することである。また、影響展開とは、上位のトレイルに障害が発生した場合に下位のトレイルに対して及ぼす影響を解析することである。
【0005】
ネットワーク監視装置3は、処理に必要な情報を格納する部分として、設備管理データベースDB1、名称データベースDB2、状変ロギングデータベースDB3、発生中データベースDB4、判定結果データベースDB5、ネットワーク構成データベースDB6を備えている。このうち、設備管理データベースDB1、名称データベースDB2、ネットワーク構成データベースDB6はネットワーク構成管理装置5にマスターデータベースが存在し、必要な範囲がネットワーク監視装置3に自動的にダウンロードされるものである。
【0006】
また、ネットワーク監視装置3は、主としてコンピュータプログラムによって実現される機能部として、情報収集部31、発生中管理部32、主原因判定部33、影響展開部34を備えている。
【0007】
図1の下部に監視対象1の例を示しており、L2リンク101〜104、VLAN105、106、データサービス107はいずれもネットワークを構成するトレイルである。
【0008】
以下、L2リンク101が主原因故障と判定された場合の動作を説明する。
【0009】
情報収集部31は監視対象1の機器11から発生される故障情報を収集装置2より受信し(ステップS1)、発生中管理部32に引き渡す(ステップS2)。
【0010】
設備管理データベースDB1には機器情報のキーのみがあり、その日本語名称は名称データベースDB2に格納されており、発生中管理部32は故障情報より名称データベースDB2を検索し、運用者がわかりやすい日本語名への名称変換を行う(ステップS3)。
【0011】
次いで、発生中管理部32は、故障情報のロギング情報を状変ロギングデータベースDB3に格納する(ステップS4)。
【0012】
次いで、発生中管理部32は、故障情報の発生中管理を行い、発生中の故障情報を発生中データベースDB4に格納する(ステップS5)。
【0013】
次いで、発生中管理部32は、機器11の故障情報ロギングの発生を監視端末4に表示する(ステップS6)。この際、トレイル名称がある場合は、併せて表示する。
【0014】
次いで、発生中管理部32は、機器11の故障発生中を監視端末4に表示する(ステップS7)。この際、トレイル名称がある場合は、併せて表示する。
【0015】
次いで、主原因判定部33は、所定周期(例:30秒)を単位に集約された故障情報(警報)の中からその主原因となる階層(最上位)を特定する(ステップS8)。
【0016】
次いで、主原因判定部33は、主原因判定した結果のトレイル情報(L2リンク101)および機器故障情報(機器11)を判定結果データベースDB5に格納する(ステップS9)。
【0017】
次いで、主原因判定部33は、主原因判定した結果を監視端末4に表示する(ステップS10)。
【0018】
次いで、影響展開部34は、主原因判定された結果(トレイル名称がある場合のみ)より、その配下に収容されているパス、回線、サービスの影響展開を行う(ステップS11)。この際、影響展開を実施するために、ネットワーク構成データベースDB6を参照する(ステップS12)。
【0019】
次いで、影響展開部34は、影響展開した結果を監視端末4に表示する(ステップS13)。この例の場合、影響展開結果として判定され表示されるトレイルはVLAN105とデータサービス107である。
【0020】
なお、出願人は出願時点までに本発明に関連する公開された先行技術文献を発見することができなかった。よって、先行技術文献情報を開示していない。
【発明の開示】
【発明が解決しようとする課題】
【0021】
従来における影響展開は上述したように行われるものであったが、近年、IP機器の導入により、単ルートを複数構成しての切替が可能になり、冗長構成手法を考慮する必要性が出てきた。単ルートとは、両端にそれぞれ機器が設けられたものであり、一組の機器により複数のルートが提供される複ルートとは異なる形態である。単ルートを複数束ねることで複ルートと同等の冗長構成をとることができるが、複ルートの場合のように一つの機器から各ルートについての総合的な情報を取得することができないため、影響展開においては困難が伴う。
【0022】
また、FTTH(Fiber To The Home)の普及により一般ユーザも多数収容されるようになり、影響の度合いを厳密に知る必要性があり、ネットワークの品質劣化や冗長構成における切替/切戻し時間も考慮する必要が出てきた。
【0023】
現状において、影響展開の結果からは、影響がある場合の影響時間を割り出すことができないため、運用者(監視者)は冗長構成から人手による影響の有無を判定し、影響のあるユーザへ連絡すべきか否かの判断を行っている。そのため、新たな影響展開機能が必要とされる。
【0024】
以下、その問題点につき、より詳細に説明する。
【0025】
図1において説明した従来のネットワーク監視システムでは、影響するトレイルの表示は可能であるが、L2リンク101の停止時間やL2リンク102への切替時間は考慮していないため、データサービス107に影響有と判断してしまい、データサービス107に対して本当に影響があったのか、影響があったとしたら影響時間を割り出すことが困難であった。
【0026】
また、従来方式では、影響展開ができるモデルも限定されており、近年のIP機器のネットワークモデルに対しては対応ができていないという問題があった。
【0027】
図2は従来方式で停止判定および影響展開が可能なモデルの例を示す図である。
【0028】
図2(a)は単ルート構成の場合を示しており、セクション#1の停止で、影響展開結果としてパス#1および回線#1が停止と判定され表示される。
【0029】
図2(b)は複ルートによる冗長構成の場合を示しており、セクションR1とセクションR2の両系停止で、影響展開結果としてパス#1および回線#1が停止と判定され表示される。また、セクションR1とセクションR2の片系停止で、影響展開結果としてパス#1および回線#1が無停止(正常)と判定され表示される。
【0030】
図3は図2(b)と同様の構成において冗長構成による切替/切戻しで停止が発生する場合の例を示す図であり、(a)はネットワーク構成を示し、(b)は異常発生前から切替完了後までのタイムチャートを示している。
【0031】
すなわち、従来、セクションR1からセクションR2への切替時間と切替保護時間は考慮しておらず、冗長構成における切替/切戻しで停止が発生する場合の支障時間の割り出しができないため、正常と判定され、回線には影響がないことになる。なお、切替時間とは切替開始から切替完了までの時間であり、切替保護時間とはその時間内に障害が解消すれば切替が行なわれない時間である。
【0032】
仮に切替時間と切替保護時間を考慮した場合、この例では4つのパターンに分かれる。パターン#1はセクションR1が継続故障の場合であり、この場合は切替開始から切替完了までが回線#1の支障時間となる。パターン#2はセクションR1の故障が切替保護時間より短い場合であり、この場合は切替開始からセクションR1の故障復旧までが回線#1の支障時間となる。パターン#3はセクションR1の故障が切替保護時間より長く切替時間より短い場合であり、この場合は切替開始から切替完了までが回線#1の支障時間となる。パターン#4はセクションR1の故障時間が切替時間より長く支障時間が割り出せる場合であり、この場合は切替開始から切替完了までが回線#1の支障時間となる。
【0033】
図4は従来方式で停止判定および影響展開ができないモデルの例を示す図である。
【0034】
図4(a)は複ルートによる冗長構成の場合を示している。この場合、全てのセクションR1〜セクションR4が正常である場合と、全てのセクションR1〜セクションR4が停止した場合とを除き、その他については判定を行なうことができない。すなわち、セクションR1〜セクションR4のうち2〜3本の停止で、パス#1および回線#1の品質停止判定ができない。品質停止とは、冗長構成の全本数のうち所定の本数が停止したことによる停止である。また、セクションR1〜セクションR4のうち1本の停止で、パス#1および回線#1の停止判定ができない。
【0035】
図4(b)は単ルートによる冗長構成の場合を示している。この場合、単ルートではルート毎に機器があるため、全ての場合について停止判定ができない。すなわち、リンク#1〜リンク#4のうち2〜3本停止で、VLAN#1およびサービス#1の品質停止判定ができない。また、リンク#1〜リンク#4のうち全て停止で、VLAN#1およびサービス#1の停止判定ができない。また、リンク#1〜リンク#4のうち1本停止で、VLAN#1およびサービス#1の停止判定ができない。
【0036】
上記の従来の問題点に鑑み、エンドツーエンド(End to End)のユーザ回線に対する影響度合いを正確に判定することのできるネットワーク監視装置を提供することを目的とする。
【課題を解決するための手段】
【0037】
このネットワーク監視装置の一実施態様では、ネットワークおよび当該ネットワークを構成する機器から障害の警報を受信し、障害の主原因の判定および下位への影響を展開するネットワーク監視装置であって、ネットワーク構成情報に基づき、主原因と判定されたトレイルから下位のトレイルに向かって警報情報を検索し、停止判定を行う手段と、前記下位停止判定の途中のトレイルが単ルートによる冗長構成の下位に仮想的に設定されたトレイル群である場合に、ネットワーク構成情報に基づき、上位のトレイルに向かって警報情報を検索し、前記トレイル群に対して設定された切替時間、切替保護時間および停止条件に基づいて停止判定を行う手段とを備える。
【0038】
好ましくは、前記停止条件として、複数で構成されたトレイルが全て停止した場合に、収容されるトレイルを停止として扱う「AND」と、複数で構成されたトレイルが1つでも停止した場合に、収容されているトレイルを停止として扱う「OR」と、複数で構成されたトレイルm本のうちn本以上が停止した場合に、収容されているトレイルを停止として扱い、構成されているトレイルm本中停止が1以上n未満の場合は、品質低下として扱う「mCn」とを定義する。
【0039】
好ましくは、冗長切替時間と切替保護時間の組み合わせパターンに応じ、配下のトレイルの停止時間を割り出す。
【発明の効果】
【0040】
開示のネットワーク監視装置にあっては、エンドツーエンドのユーザ回線に対する影響度合いを正確に判定することができる。
【発明を実施するための最良の形態】
【0041】
以下、本発明の好適な実施形態につき説明する。
【0042】
<概要>
本実施形態のネットワーク監視システムは、機器やネットワークの状態を把握し、主原因判定の結果より、主原因である機器の部位またはトレイルを割り出した後、その配下に収容されている回線の影響を把握するものである。その際、新たな仮想トレイルの概念を設け、停止条件、切替時間、切替保護時間、冗長構成(多段冗長構成も含む)の支障時間パターンをもとにした新たな影響展開方式を実現している。
【0043】
より具体的には次の機能を備えている。
(1)品質劣化による影響で停止したか否かの判定(品質停止)を行う機能
(2)冗長構成による切替/切戻しで停止したか否かの判定(切替/切戻し時間や保護時間を加味し判定)を行う機能
(3)冗長構成で複数のルートがある場合、全て停止したか、何分のいくつ停止したかの判定を行う機能
(4)上記の(1)〜(3)により、回線に影響があった(停止)か、無かった(正常)かの判定を行う機能
(5)回線に影響があった場合は、支障時間(影響時間)の判定を行い、継続的な停止か、時間が割り出せる場合は時間の表示を行う機能
これらの機能により、機器故障、機器作業、トレイル故障、トレイル作業が原因でエンドツーエンドのユーザの回線にどのような影響があるかを把握することができる。
【0044】
<構成>
図5は本発明の一実施形態にかかるネットワーク監視装置の構成例を示す図である。
【0045】
図5においては、ネットワーク監視装置3における影響展開部34の処理に関するもののみを図示してあり、その他の構成および基本的な動作は図1に示したものと同様である。
【0046】
図5において、影響展開部34は、主にコンピュータプログラムにより実現される影響展開前処理メソッド341、影響展開結果取得メソッド342、影響情報設定メソッド343、影響展開件数取得メソッド344と、メソッド間の情報授受に用いられる影響展開共有メモリ345とを備えている。また、データベースとして、影響展開帳票データベースDB7、影響展開結果データベースDB8がネットワーク監視装置3に示され、ネットワーク構成管理装置5内にトレイル収容構成データベースDB9が示されている。更に、状変ロギングデータベースDB3、判定結果データベースDB5、ネットワーク構成データベースDB6、トレイル収容構成データベースDB9等に対し、上位方向に検索を行なう上位検索メソッド35と、下位方向に検索を行なう下位検索メソッド36とが示されている。
【0047】
図6および図7は状変ロギングデータベースDB3および判定結果データベースDB5のデータ構造例を示す図である。状変ロギングデータベースDB3と判定結果データベースDB5のデータ構造は同じであるが、状変ロギングデータベースDB3は監視対象の機器からの警報(発生、復旧)が全て格納されるのに対し、判定結果データベースDB5は状変ロギングデータベースDB3から判定された主原因の警報のみ(発生のみ)が格納される点で異なる。
【0048】
図8はネットワーク構成データベースDB6のパス収容関係情報のデータ構造例を示す図であり、自トレイルインスタンスID、下位トレイルインスタンスID、発生件数の項目を含んでいる。
【0049】
図9はトレイル収容構成データベースDB9のデータ構造例を示す図であり、更新区分、更新時刻、自トレイルインスタンスID、上位トレイルインスタンスID、上位トレイル重複時識別番号、開始日、終了日の項目を含んでいる。
【0050】
図10はトレイル群の概念およびトレイル群の保持する情報の例を示す図である。(a)は単ルートのリンク#1、#2による冗長構成の下位にVLAN#1、サービス#1が位置するネットワークを示している。この場合、単ルートではあるが、上位トレイルの切替(切離方式)が発生するものであるため、トレイル群を仮想的に設け、このトレイル群に切替時間、切替保護時間、停止条件を対応付け、この情報をもとに影響展開を行う。トレイル群はLAG(ラグ)とも呼ばれる。トレイル群に対応する切替時間、切替保護時間、停止条件はネットワーク構成データベースDB6に保持される。
【0051】
停止条件としては、以下のものがある。
AND:複数で構成されたトレイル(複ルート構成および単ルートの冗長構成)が全て停止した場合に、収容されるトレイルを停止として扱う。
OR:複数で構成されたトレイル(複ルート構成および単ルートの冗長構成)が1つでも停止した場合に、収容されているトレイルを停止として扱う。
mCn:複数で構成されたトレイルm本(複ルート構成および単ルートの冗長構成)のうちn本以上が停止した場合に、収容されているトレイルを停止として扱う。また、構成されているトレイルm本中停止が1以上n未満の場合は、品質低下として扱う。
【0052】
<動作>
以下、図5を参照して処理の概要を説明する。
【0053】
ステップS11:監視端末4より、影響展開前処理メソッド341が呼び出される。
【0054】
ステップS12:影響展開前処理メソッド341は、影響情報設定メソッド343を呼び出す。
【0055】
ステップS13:影響情報設定メソッド343は、正常に呼び出されたことを影響展開共有メモリ345に書き込む。
【0056】
ステップS14:影響展開前処理メソッド341は、影響情報設定メソッド343が正常に呼び出されたことを影響展開共有メモリ345から読み込む。
【0057】
ステップS15:影響展開前処理メソッド341より監視端末4に復帰する。
【0058】
ステップS16:影響情報設定メソッド343は、影響展開結果データベースDB8から過去の影響展開結果を削除する。
【0059】
ステップS17:影響情報設定メソッド343は、影響展開帳票データベースDB7から過去の影響展開結果を削除する。
【0060】
ステップS18:影響情報設定メソッド343は、下位検索メソッド36を呼び出し、結果を取得する。影響情報設定メソッド343は取得した下位検索結果に基づき、下位停止判定処理を行う。トレイルが冗長構成である場合は、次のステップS19を実施しその結果にもとづき停止判定を行う。
【0061】
ステップS19:影響情報設定メソッド343は上位検索メソッド35を呼び出し、結果を取得する。取得した上位検索結果に基づき、上位停止判定処理を行う。
【0062】
ステップS20:影響情報設定メソッド343は、影響展開結果を影響展開結果データベースDB8に挿入する。
【0063】
ステップS21:影響情報設定メソッド343は、影響展開結果を影響展開共有メモリ345に書き込む。
【0064】
ステップS22:監視端末4より、影響展開件数取得メソッド344が呼び出される。
【0065】
ステップS23:影響展開件数取得メソッド344は、影響展開共有メモリ345より影響展開結果件数を読み込む。
【0066】
ステップS24:影響展開件数取得メソッド344より監視端末4に復帰する。
【0067】
ステップS25:監視端末4より、影響展開結果取得メソッド342が呼び出される。
【0068】
ステップS26:影響展開結果取得メソッド342は、影響展開結果データベースDB8より影響展開結果を取得する。
【0069】
ステップS27:影響展開結果取得メソッド342より監視端末4に復帰することで、監視端末4の影響展開結果画面に結果が表示される。
【0070】
以下、主要なメソッドの処理内容を示す。
【0071】
〔影響展開前処理メソッド341〕
・パラメータチェックを行う。
・影響展開処理が多重起動されないように排他処理を行う。
・タイマ解除処理を行う。
・影響展開共有メモリ345を初期化する。
・影響展開共有メモリ345に端末識別IDを設定する。
・影響情報設定メソッド343のINパラメータを設定する。INパラメータには主原因数、開始時間、終了時間、インスタンスIDが含まれる。
・影響情報設定メソッド343を呼び出す。
・影響情報設定メソッド343の起動を影響展開共有メモリ345により監視する。
・OUTパラメータを設定する。OUTパラメータには処理結果(OK/NG)が含まれる。
・メソッドより復帰する。
【0072】
〔影響情報設定メソッド343〕
・パラメータチェックを行う。
・影響展開結果データベースDB8から過去の影響展開結果を削除する。
・影響展開帳票データベースDB7から過去の影響展開帳票出力結果を削除する。
・警報分析より集約開始時間と集約終了時間を取得する。
・INパラメータの主原因数分、以下の処理を繰り返す。
・・アラーム検索開始、終了時間の設定を行う。主原因の復旧時間が0である場合は、
検索開始時間=集約開始時間 検索終了時間=集約終了時間
主原因の復旧時時間が0でない場合は、
検索開始時間=主原因発生時間 検索終了時間=主原因復旧時間
となる。
・・下位検索メソッド36を呼び出し、下位検索結果を取得する。
・・下位検索結果に有効日による重複行が存在する場合は、停止判定対象外とする。
・・下位検索結果が件数オーバの場合は、影響展開共有メモリ345の件数オーバフラグをONにする。
・・下位検索結果件数分、以下の処理を繰り返す。
・・・停止判定を行い、冗長停止率、現状、支障時間を算出する。下位検索結果が冗長構成の場合は、上位検索を行い、上位停止判定を行う。そうでない場合は、上位の停止判定結果を引継ぐ。
・・・上位検索結果が件数オーバの場合は、影響展開共有メモリ345の件数オーバフラグをONにする。
・・・停止判定結果が影響展開結果画面の表示件数に達した場合、影響展開結果データベースDB8に結果を挿入し、影響展開共有メモリ345に表示可能件数を書き込む。
・影響展開結果データベースDB8に結果を挿入する。
・影響展開共有メモリ345に表示可能件数および停止判定済全件数を書き込む。
・影響展開前処理メソッド341が行った排他を解除する。
【0073】
〔影響展開結果取得メソッド342〕
・パラメータチェックを行う。
・影響展開結果データベースDB8を参照し、影響展開結果を取得する。
・OUTパラメータを設定する。
【0074】
〔影響展開件数取得メソッド344〕
・パラメータチェックを行う。
・影響展開共有メモリ345より影響展開結果件数を読み込む。
・影響展開共有メモリ345より件数オーバフラグを読み込む。
・OUTパラメータを設定する。
・件数オーバフラグがONの場合は「5」を、正常終了の場合は「0」を返却する。
【0075】
次に、上述した下位停止判定処理(図5のステップS18)について説明する。
【0076】
下位停止判定処理は次の手順で行われる。
(1)下位停止判定は、主原因配下の収容階層をたどり、現状、冗長停止率、支障時間を上位から下位に引き継ぐ。
(2)上位停止判定実施対象のルートであれば、上位停止判定を実施し、冗長停止率、現状、支障時間を取得し設定する。
(3)判定結果を上位から下位に引き継ぐために、収容階層分の判定結果を保持する配列を確保し、収容階層毎に保持する。
(4)上位トレイルは、自トレイルの判定結果を配列の自階層位置に書き込む。
(5)下位トレイルは、配列の上位階層位置を読み込むことにより、上位トレイルの結果を取得する。
【0077】
図11は下位停止判定の処理例を示す図であり、(a)はネットワーク構成、(b)は判定結果を書き込む配列、(c)は冗長種別と停止判定方法の関係を示している。
【0078】
図11において、各トレイル(ルート)A〜Eは次のように処理を行なう。なお、各トレイルの処理において、冗長種別をもとに上位停止判定実施の要否判定と、自トレイル結果の判定方法と下位への引渡し内容も判断する。
トレイルAで障害が発生し、停止した場合の例を記載する。
・トレイルAは階層「0」に書く。
・トレイルC−1は階層「0」を読む。
・トレイルC−1は階層「1」に書く。
・トレイルDは階層「1」を読む。
・トレイルDは階層「2」に書く。
・トレイルEは階層「2」を読む。
・トレイルEは階層「3」に書く。
【0079】
次に、上述した上位停止判定処理(図5のステップS19)について説明する。
【0080】
上位停止判定処理は次の手順で行われる。
(1)上位停止判定は、上位検索結果に対してアラーム有無の判定を行い、各構成の冗長停止率、現状、支障時間を算出する。
(2)上位検索結果の最下位構成から処理を開始し、ルートに上位構成があれば再帰的に検索し、上位構成の停止判定結果をルートに反映する。
(3)最終的に最下位構成の冗長停止率、現状、支障時間を算出する。
【0081】
図12は上位停止判定の処理例を示す図であり、次の手順で処理が行なわれる。なお、破線の四角は構成(ネットワーク上の要素としての機器)、実線の四角はルート、その中の横線はトレイルをそれぞれ示している。
【0082】
すなわち、
ステップS31:ルートAの上位構成検索
ステップS32:ルートB−1の上位構成検索
ステップS33:ルートCの判定
ステップS34:構成Cの判定
ステップS35:構成Cの判定結果返却
ステップS36:ルートB−1の判定
ステップS37:ルートB−1の他ルート検索
ステップS38:ルートB−2の上位構成検索
ステップS39:ルートDの判定
ステップS40:構成Dの判定
ステップS41:構成Dの判定結果返却
ステップS42:ルートB−2の判定
ステップS43:構成Bの判定
ステップS44:構成Bの判定結果返却
ステップS45:ルートAの判定
ステップS46:構成Aの判定(=上位停止判定結果)
となる。
【0083】
また、上位検索結果のたどり方には、次の3種類が存在する。
(1)上位構成検索:下位インスタンスIDが自インスタンスIDと同一である行を検索。この場合は上位構成数分繰返す。
(2)リング検索:ルート通番が自ルート通番と同一である行を検索。この場合は同一ルート通番分繰返す。
(3)ルート検索:ルート通番が自ルート通番+1である行を検索。この場合はルート数分繰返す。
【0084】
図13は上位検索結果のたどり方の例を示す図であり、(a)はルートの階層構造、(b)はトレイル群Aでの上位検索結果を示している。
【0085】
処理手順は、
ステップS51:トレイル群Aの上位構成検索で、ルートB−1にヒット
ステップS52:ルートB−1の上位構成検索で、ルートCにヒット
ステップS53:ルートCからルートB−1に戻る
ステップS54:ルートB−1のルート検索で、ルートB−2にヒット
ステップS55:ルートB−2の上位構成検索でルートDにヒット
ステップS56:ルートDからルートB−2に戻る
ステップS57:ルートB−2からトレイル群Aに戻る
となる。
【0086】
次に、停止条件について説明する。
(1)停止条件が「AND」の場合
判定対象のトレイルが、複ルート配下のトレイルのときは上位の複ルートの現状、トレイル群のときは上位トレイルの現状をもとに判定を行う。
・現状[自トレイル]:停止の判定
条件[上位トレイルの現状]:正常数なし
・現状[自トレイル]:品質低下
条件[上位トレイルの現状]:正常数なし かつ 品質低下数あり
・現状[自トレイル]:正常の判定
条件[上位トレイルの現状]:停止数なし かつ 品質低下数なし
(2)停止条件が「OR」の場合
判定対象のトレイルが、複ルート配下のトレイルのときは上位の複ルートの現状、トレイル群のときは上位トレイルの現状をもとに判定を行う。
・現状[自トレイル]:停止の判定
条件[上位トレイルの現状)]:停止数が1以上の場合
・現状[自トレイル]:品質低下の判定
条件[上位トレイルの現状]:停止数なし かつ 品質低下数ありの場合
・現状[自トレイル]:正常の判定
条件[上位トレイルの現状]:停止数なし かつ 品質低下数なし(全て正常)
(3)停止条件が「mCn」の場合
判定対象のトレイルが、複ルート配下のトレイルのときは上位の複ルートの現状、トレイル群のときは上位トレイルの現状をもとに判定を行う。
・現状[自トレイル]:停止の判定
条件[上位トレイルの現状]:停止数および品質低下数がn以上の場合
(品質低下数だけでn以上の場合も停止と判定する)
・現状[自トレイル]:品質低下の判定
条件[上位トレイルの現状]:停止数および品質低下数が1以上でn未満の場合
・現状[自トレイル]:正常の判定
条件[上位トレイルの現状]:停止数および品質低下数が0の場合
【0087】
次に、上述した上位停止判定処理(図5のステップS19)について、より詳細に説明する。
(1)ルートの現状・冗長停止率取得
図14は現状・冗長停止率取得の手法を示す図である。
【0088】
図14に示される処理を自構成のルート毎に実施し、ルートの現状と冗長停止率を取得する。
(2)構成の正常数・品質停止数・停止数設定
正常数、品質停止数、もしくは停止数をルート毎の現状をもとに加算する。その際、自構成のルート数分繰返し、自構成の正常数、品質停止数、停止数を算出する。
(3)ルートの支障時間取得・構成の中間支障時間算出
図15は支障時間と継続停止フラグ取得の手法を示す図である。また、図16は中間支障時間と中間支障時間(継続停止)取得の手法を示す図である。
【0089】
支障時間は、中間支障時間と中間支障時間(継続停止)の2つの項目で保持する。構成のルートが全て継続停止の場合と、そうでない場合とで、支障時間の算出方法が違うため、2項目で保持する。また、継続停止か否かは継続停止フラグで保持する。
【0090】
これらを自構成のルート数分繰返し、算出する。
【0091】
中間支障時間と中間支障時間(継続停止)は繰返し毎に、・算出した中間支障時間、中間支障時間(継続停止)を保持値と比較し、大きい方を保持値とする。
(4)構成の現状設定
図17は自構成および下位構成の冗長種別をもとにした停止条件取得の手法を示す図である。また、図18は正常数、品質停止数、停止数とルート数および停止条件をもとにした自構成の現状算出の手法を示す図である。
【0092】
算出した正常数、品質停止数、停止数およびルート数をもとに、自構成の現状を設定する。
(5)構成の冗長停止率設定
図19は上位構成の品質停止数、停止数およびルート数をもとにした冗長停止率算出の手法を示す図である。
【0093】
算出した品質停止数、停止数およびルート数をもとに、自構成の冗長停止率を算出する。
【0094】
影響展開内部では、分子と分母を2つの数値項目として保持する。分母に「0」が設定されていることが、冗長構成でないことを意味する。
(6)構成の支障時間設定
図20は自構成の現状をもとにした継続停止フラグ設定の手法を示す図である。
【0095】
算出した中間支障時間と中間支障時間(継続停止)および現状設定で算出した現状をもとに、自構成の支障時間と継続停止フラグを設定する。
【0096】
次に、具体例を用いて説明する。
【0097】
図21は停止判定の具体例のネットワーク構成を示す図である。図中、トレイル群Eには、切替時間:8s、切替保護時間:5s、停止条件:ANDが設定されているものとする。例として、セクションAで障害が発生した場合の影響展開を説明する。また、図22はトレイル群Eでの上位検索結果を示す図であり、図23はセクションAから見た影響展開結果を示す図である。
【0098】
ステップS61:セクションAで障害が発生し、主原因結果として判定されるため、セクションAの下位を検索し、リンクC(単ルート)がヒットする。
【0099】
ステップS62:リンクC(単ルート)の下位を検索し、トレイル群Eがヒットする。
【0100】
ステップS63:トレイル群Eの下位を検索し、回線#1、回線#2、回線#3がヒットする。
【0101】
ステップS64:下位検索の途中でトレイル群Eが検索されたため、上位検索を開始する。トレイル群Eはアラームなし。リンクC(単ルート)を検索する。
【0102】
ステップS65:リンクC(単ルート)はアラームなし。セクションAを検索する。
【0103】
ステップS66:セクションAにアラームあり。次のように値を取得する。V1〜V20は図22の同符号を付した欄の値に対応している。
a.ルートの現状=停止 ⇒ V1
ルートの冗長停止率=1/0 ⇒ V2
b.構成の停止数=1 品質停止数=0 正常数=0
c.ルートの支障時間=0m0s0ms ⇒ V3
ルートの継続停止フラグ=ON ⇒ V4
d.ルートの中間支障時間=0m0s0ms
ルートの中間支障時間(継続停止)=0m0s0ms
e.構成の中間支障時間=0m0s0ms
構成の中間支障時間(継続停止)=0m0s0ms
f.構成の停止条件=AND
g.構成の現状=停止
h.構成の冗長停止率=1/0
i.構成の支障時間=0m0s0ms
構成の継続停止フラグ=ON
ステップS67:セクションAからリンクC(単ルート)に戻る。次のように値を取得する。
a.ルートの現状=停止 ⇒ V5
ルートの冗長停止率=1/0 ⇒ V6
b.構成の停止数=1 品質停止数=0 正常数=0
c.ルートの支障時間=0m0s0ms ⇒ V7
ルートの継続停止フラグ=ON ⇒ V8
d.ルートの中間支障時間=0m8s0ms
ルートの中間支障時間(継続停止)=0m0s0ms
e.構成の中間支障時間=0m0s0ms
構成の中間支障時間(継続停止)=0m0s0ms
ステップS68:リンクC(単ルート)からリンクD(単ルート)を検索する。
【0104】
ステップS69:リンクD(単ルート)はアラームなし。セクションBを検索する。
【0105】
ステップS70:セクションBはアラームなし。次のように値を取得する。
a.ルートの現状=正常 ⇒ V9
ルートの冗長停止率=1/0 ⇒ V10
b.構成の停止数=0 品質停止数=0 正常数=1
c.ルートの支障時間=0m0s0ms ⇒ V11
ルートの継続停止フラグ=OFF ⇒ V12
d.ルートの中間支障時間=0m0s0ms
ルートの中間支障時間(継続停止)=0m0s0ms
e.構成の中間支障時間=0m0s0ms
構成の中間支障時間=0m0s0ms
f.構成の停止条件=AND
g.構成の現状=正常
h.構成の冗長停止率=0/0
i.構成の支障時間=0m0s0ms
構成の継続停止フラグ=OFF
ステップS71:セクションBからリンクD(単ルート)に戻る。次のように値を取得する。
a.ルートの現状=正常 ⇒ V13
ルートの冗長停止率=1/0 ⇒ V14
b.構成の停止数=1 品質停止数=0 正常数=1
c.ルートの支障時間=0m0s0ms ⇒ V15
ルートの継続停止フラグ=OFF ⇒ V16
d.ルートの中間支障時間=0m0s0ms
ルートの中間支障時間(継続停止)=0m0s0ms
e.構成の中間支障時間=0m8m0ms
構成の中間支障時間(継続停止)=0m0s0ms
f.構成の停止条件=AND
g.構成の現状=正常
h.構成の冗長停止率=1/2
i.構成の支障時間=0m8s0ms
構成の継続停止フラグ=OFF
ステップS72:『リンクD(単ルート)』から『トレイル群E』に戻る。次のように値を取得する。
a.ルートの現状=正常 ⇒ V17
ルートの冗長停止率=1/2 ⇒ V18
b.構成の停止数=0 品質停止数=0 正常数=1
c.ルートの支障時間=0m8s0ms ⇒ V19
ルートの継続停止フラグ=OFF ⇒ V20
d.ルートの中間支障時間=0m0s0ms
ルートの中間支障時間(継続停止)=0m0s0ms
e.構成の中間支障時間=0m8s0ms
構成の中間支障時間(継続停止)=0m0s0ms
f.構成の停止条件=AND
g.構成の現状=正常
h.構成の冗長停止率=1/2
i.構成の支障時間=0m8s0ms
構成の継続停止フラグ=OFF
図23は、上記のステップS61〜S63で作成された下位検索結果に、上位検索結果を反映させた影響展開結果を示す。
【0106】
次に、図24は切替が多段にある場合のネットワーク構成の例を示す図である。
【0107】
この場合も上述した処理を適用することで支障時間を算出することができる。例として、図25に、VLAN Aに対して、支障時間が生じた場合のトレイル群(LAG Z)の支障時間算出例をパターン毎に示す。また、図26に、VLAN AとVLAN Bの両方に支障時間が生じた場合のトレイル群(LAGZ)の支障時間算出例をパターン毎に示す。
【0108】
<総括>
以上説明したように、本発明の実施形態によれば、次のような利点がある。
(1)機器故障、機器作業、トレイル故障、トレイル作業にて発生するエンドツーエンドのユーザ回線に対しての影響、ならびに、故障時/作業時にて冗長切替が発生した場合の影響回線の割り出しと支障時間が算出されるため、運用者(監視者)は、従来人手による影響の有無を判定していた負担を軽減することができる。
(2)支障時間の割り出しにおいては、多段切替の構成にも対応ができるため、汎用性のある影響展開となっている。
(3)現状の状態を「正常」「停止」「品質停止」で表示し、更に冗長構成がとられている場合は、「正常」でも切替で生じる支障時間を表示するなど、運用者(監視者)に対してわかり易く迅速に表示することができる。
【0109】
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。
【図面の簡単な説明】
【0110】
【図1】ネットワーク監視システムの構成例を示す図である。
【図2】従来方式で停止判定および影響展開が可能なモデルの例を示す図である。
【図3】冗長構成による切替/切戻しで停止が発生する場合の例を示す図である。
【図4】従来方式で停止判定および影響展開ができないモデルの例を示す図である。
【図5】本発明の一実施形態にかかるネットワーク監視装置の構成例を示す図である。
【図6】状変ロギングデータベースおよび判定結果データベースのデータ構造例を示す図(その1)である。
【図7】状変ロギングデータベースおよび判定結果データベースのデータ構造例を示す図(その2)である。
【図8】ネットワーク構成データベースのパス収容関係情報のデータ構造例を示す図である。
【図9】トレイル収容構成データベースのデータ構造例を示す図である。
【図10】トレイル群の概念およびトレイル群の保持する情報の例を示す図である。
【図11】下位停止判定の処理例を示す図である。
【図12】上位停止判定の処理例を示す図である。
【図13】上位検索結果のたどり方の例を示す図である。
【図14】現状・冗長停止率取得の手法を示す図である。
【図15】支障時間と継続停止フラグ取得の手法を示す図である。
【図16】中間支障時間と中間支障時間(継続停止)取得の手法を示す図である。
【図17】停止条件取得の手法を示す図である。
【図18】現状算出の手法を示す図である。
【図19】冗長停止率算出の手法を示す図である。
【図20】継続停止フラグ設定の手法を示す図である。
【図21】停止判定の具体例のネットワーク構成を示す図である。
【図22】トレイル群Eでの上位検索結果を示す図である。
【図23】セクションAから見た影響展開結果を示す図である。
【図24】切替が多段にある場合のネットワーク構成の例を示す図である。
【図25】VLAN Aに対して支障時間が生じた場合のトレイル群の支障時間を示す図である。
【図26】VLAN A、VLAN B両方に支障時間が生じた場合のトレイル群(LAG Z)の支障時間を示す図である。
【符号の説明】
【0111】
1 監視対象
2 収集装置
3 ネットワーク監視装置
31 情報収集部
32 発生中管理部
33 主原因判定部
34 影響展開部
341 影響展開前処理メソッド
342 影響展開結果取得メソッド
343 影響情報設定メソッド
344 影響展開件数取得メソッド
345 影響展開共有メモリ
35 上位検索メソッド
36 下位検索メソッド
DB1 設備管理データベース
DB2 名称データベース
DB3 状変ロギングデータベース
DB4 発生中データベース
DB5 判定結果データベース
DB6 ネットワーク構成データベース
DB7 影響展開帳票データベース
DB8 影響展開結果データベース
DB9 トレイル収容構成データベース
4 監視端末
5 ネットワーク構成管理装置

【特許請求の範囲】
【請求項1】
ネットワークおよび当該ネットワークを構成する機器から障害の警報を受信し、障害の主原因の判定および下位への影響を展開するネットワーク監視装置であって、
ネットワーク構成情報に基づき、主原因と判定されたトレイルから下位のトレイルに向かって警報情報を検索し、停止判定を行う手段と、
前記下位停止判定の途中のトレイルが単ルートによる冗長構成の下位に仮想的に設定されたトレイル群である場合に、ネットワーク構成情報に基づき、上位のトレイルに向かって警報情報を検索し、前記トレイル群に対して設定された切替時間、切替保護時間および停止条件に基づいて停止判定を行う手段と
を備えたことを特徴とするネットワーク監視装置。
【請求項2】
前記停止条件として、
複数で構成されたトレイルが全て停止した場合に、収容されるトレイルを停止として扱う「AND」と、
複数で構成されたトレイルが1つでも停止した場合に、収容されているトレイルを停止として扱う「OR」と、
複数で構成されたトレイルm本のうちn本以上が停止した場合に、収容されているトレイルを停止として扱い、構成されているトレイルm本中停止が1以上n未満の場合は、品質低下として扱う「mCn」と
を定義することを特徴とする請求項1に記載のネットワーク監視装置。
【請求項3】
冗長切替時間と切替保護時間の組み合わせパターンに応じ、配下のトレイルの停止時間を割り出す
ことを特徴とする請求項1または2のいずれか一項に記載のネットワーク監視装置。
【請求項4】
ネットワークおよび当該ネットワークを構成する機器から障害の警報を受信し、障害の主原因の判定および下位への影響を展開する方法であって、
ネットワーク構成情報に基づき、主原因と判定されたトレイルから下位のトレイルに向かって警報情報を検索し、停止判定を行う工程と、
前記下位停止判定の途中のトレイルが単ルートによる冗長構成の下位に仮想的に設定されたトレイル群である場合に、ネットワーク構成情報に基づき、上位のトレイルに向かって警報情報を検索し、前記トレイル群に対して設定された切替時間、切替保護時間および停止条件に基づいて停止判定を行う工程と
を備えたことを特徴とする影響展開判定方法。
【請求項5】
前記停止条件として、
複数で構成されたトレイルが全て停止した場合に、収容されるトレイルを停止として扱う「AND」と、
複数で構成されたトレイルが1つでも停止した場合に、収容されているトレイルを停止として扱う「OR」と、
複数で構成されたトレイルm本のうちn本以上が停止した場合に、収容されているトレイルを停止として扱い、構成されているトレイルm本中停止が1以上n未満の場合は、品質低下として扱う「mCn」と
を定義することを特徴とする請求項4に記載の影響展開判定方法。
【請求項6】
冗長切替時間と切替保護時間の組み合わせパターンに応じ、配下のトレイルの停止時間を割り出す
ことを特徴とする請求項4または5のいずれか一項に記載の影響展開判定方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate


【公開番号】特開2010−161713(P2010−161713A)
【公開日】平成22年7月22日(2010.7.22)
【国際特許分類】
【出願番号】特願2009−3603(P2009−3603)
【出願日】平成21年1月9日(2009.1.9)
【出願人】(000005223)富士通株式会社 (25,993)
【出願人】(598069423)株式会社ケイ・オプティコム (9)
【Fターム(参考)】