説明

ネットワーク障害原因解析方法

【課題】複数のネットワークから構成されているネットワークシステムにおいて、障害が発生した場合、効率的に障害の根本原因およびサービスへの影響範囲を一意に特定可能な方法を提供する。
【解決手段】ネットワーク構成情報を保持している統合管理装置と、警報情報を集約する統合監視装置とを備えているネットワークにおいて、統合監視装置が、障害に関する警報を受信し、警報からアラーム情報を作成し、警報から端点情報を取得し、統合管理装置に端点情報に関連する回線情報を問い合わせ、統合管理装置に回線情報の上位回線および下位回線を問い合わせ、上位回線および下位回線に基づいて、アラーム情報に障害原因フラグを付与することを受信した警報分繰り返し、アラーム情報の障害原因フラグから障害の根本原因を特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複雑化するネットワークの中から、障害時に障害原因を一意に特定し、サービスへの影響範囲を特定するための技術に関する。
【背景技術】
【0002】
現状、ネットワークシステムは複数のネットワークで構成され、エンドエンドでユーザサービスが提供されている。このため、1つの障害(特に伝送網障害など)は複数のサービスや回線に影響を及ぼすだけでなく、この障害により数多くの警報情報が監視装置側に転送される。例えば、物理回線に障害が発生した場合、物理回線からだけでなく、仮想回線等からも警報が転送される。ネットワーク及びサービスの監視において、ネットワークやサービスを監視している運用者はこれらの膨大な警報情報から障害原因の特定や影響するサービスの特定を行わなければならない。しかしながら、これらの多くの警報情報から、障害の原因となる警報を特定したり、影響するサービス(顧客)情報を特定するのは非常に困難である。
【0003】
このため、障害原因特定手法としては、ネットワークごと・装置ごと・サービスごとに存在する管理装置(NMS:Network Management SystemやEMS:Element Management System)内で特定する(図1、特許文献1〜3)手法がある。
【0004】
また、それらの管理装置が収集した警報またはネットワーク内の装置の警報を、直接上位警報装置(統合監視装置)へ転送し、この警報情報をもとに統合監視装置が特定する手法もある(特許文献4)。
【0005】
【特許文献1】特開平5−114899号公報
【特許文献2】特開2007−189615号公報
【特許文献3】特開2007−235897号公報
【特許文献4】特開2006−13625号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、前者の手法では、運用管理者が複数台の管理装置の表示画面を見て、経験を元に解析しているのが現状であり、非常に効率が悪い。複数台の管理装置の表示画面を統合する装置があるが、単に警報を閲覧するだけの機能しかない。後者の手法では、統合監視装置が全てのネットワークノードおよびサービスのインベントリ情報を保持する必要があり、構築するためには膨大な装置となってしまう。
【0007】
したがって、本発明は複数のネットワークから構成されているネットワークシステムにおいて、障害が発生した場合、効率的に障害の根本原因およびサービスへの影響範囲を一意に特定可能な方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明におけるネットワーク障害原因解析方法によれば、
ネットワーク構成情報を保持している統合管理装置と、警報情報を集約する統合監視装置とを備えているネットワークにおけるネットワーク障害原因解析方法であって、前記統合監視装置が、障害に関する警報を受信し、該警報からアラーム情報を作成するステップと、前記統合監視装置が、前記警報から端点情報を取得し、前記統合管理装置に該端点情報に関連する回線情報を問い合わせるステップと、前記統合監視装置が、前記統合管理装置に前記回線情報の上位回線および下位回線を問い合わせるステップと、前記統合監視装置が、前記上位回線および下位回線に基づいて、アラーム情報に障害原因フラグを付与するステップと、を受信した警報分繰り返し、前記アラーム情報の障害原因フラグから障害の根本原因を特定する。
【0009】
また、本発明のネットワーク障害原因解析方法における他の実施形態によれば、
前記障害原因フラグを付与するステップは、前記統合監視装置が、前記上位回線のアラーム情報が既に存在するか確認し、存在していた場合、前記上位回線のアラーム情報に非障害原因のフラグを付与し、現在のアラーム情報に障害原因のフラグを付与するサブステップと、前記統合監視装置が、前記下位回線のアラーム情報が既に存在するか確認し、存在していた場合、前記下位回線のアラーム情報に障害原因のフラグを付与し、現在のアラーム情報に非障害原因のフラグを付与するサブステップと、を含み、前記障害原因のフラグのみが付与されたアラーム情報を障害の根本原因と特定する。
【0010】
また、本発明のネットワーク障害原因解析方法における他の実施形態によれば、
前記統合管理装置は、サービス情報を更に保持しており、前記統合監視装置が、前記統合管理装置に前記回線情報に関するサービス情報を問い合わせるステップと、前記統合監視装置が、前記アラーム情報に前記サービス情報を付与するステップと、をさらに含んでいる。
【発明の効果】
【0011】
本願発明は、統合管理装置(OSS)等が有する構成情報を有効活用することにより、統合監視装置側で構成情報を保持することなく障害の原因究明を行うことが可能となり、システムのスリム化を図ることができる。また、新しいネットワークもしくはサービスを新たに監視対象として追加する場合、構成情報の変更をせず、警報情報のみの登録で使用可能となるために、迅速に監視対象を追加することが可能になる。
【発明を実施するための最良の形態】
【0012】
本発明を実施するための最良の実施形態について、以下では図面を用いて詳細に説明する。
【0013】
図2は、本実施形態におけるネットワーク環境と障害管理を示す。本実施形態では、ネットワークA、B、Cから構成されるネットワークでユーザ端末間のエンドエンドのサービスを行っている。本ネットワークは、統合管理装置1、統合監視装置2、サービス監視装置3、ネットワーク監視装置4を備えている。
【0014】
統合管理装置1(OSS:Operation Support System)は、ネットワークノードのサービスの情報を統合的に管理するシステムであり、関連する情報(ネットワーク構成情報及びサービス情報)を全て保持している。
【0015】
統合監視装置2は、警報情報を集約する装置であり、ネットワーク監視装置4が収集した警報情報、またはネットワーク内の装置が直接送ってくる警報情報を集約する。
【0016】
サービス監視装置3は、サービスに関する情報を収集し、統合管理装置1に転送する装置である。
【0017】
ネットワーク監視装置4は、ネットワーク毎に設置されている。対応するネットワークの情報を収集し、OSS1に転送している(図2の矢印)。また、障害発生時、対応するネットワークから警報情報を受けとり、統合監視装置2に転送する。
【0018】
統合監視装置2は、障害発生時、障害原因及びサービスへの影響範囲を特定するための情報をOSS1から取得し、取得したネットワーク・装置・サービス情報を元に障害原因及びサービスへの影響範囲を特定する。
【0019】
図3は、統合監視装置2からOSS1への情報問い合わせを示す。統合監視装置2は警報を受信するたびに、障害根本原因およびサービス影響範囲を特定するため、OSS1側に、受信した警報に関する回線情報、その回線を使用しているサービス情報、その回線の上位及び下位に位置している回線情報を取得する。以下のように、2つの装置間で3種類の情報のやり取りが行われる。第1のやり取りは、統合監視装置2が受信した警報情報から取得した端点情報をOSS1に渡し、OSS1が保持する回線情報を取得する「回線情報問合せ」である。第2のやり取りは、取得した回線情報からこの回線情報に関連するサービス情報をOSS1から収集する「サービス情報問合せ」である。第3のやり取りは、取得した回線情報からこの回線の上下に位置している回線情報を特定する「上下回線情報問合せ」である。
【0020】
統合監視装置2は、収集した情報を基に、警報情報に「サービス情報」、「障害原因フラグ」を付加し、最終的にその付加情報により障害根本原因およびサービス影響範囲を特定する。
【0021】
なお、サービス情報を取得する第2のやり取りは、障害によるサービス影響範囲を特定するために必要であり、障害の根本原因のみを特定するときは、このやり取りを省略することが可能である。
【0022】
また、サービス情報を取得する第2のやり取りは、OSS1からではなく、サービスを管理している管理装置から取得することも可能である。
【0023】
図4および図5は、統合監視装置2が障害根本原因およびサービス影響範囲を特定するためのフローチャートである。なお、このフローチャートは、統合監視装置2が受信した警報1つ1つに対して動作する。
(S1)ネットワーク内の装置、サービス監視装置3またはネットワーク監視装置4から警報情報が統合監視装置2に送出される。
(S2)統合監視装置2が、それらの警報情報を受信する。
(S3)統合監視装置2が、受信した警報情報をアラーム情報として登録する(警報情報を装置内のデータベースに登録する)。
(S4)統合監視装置2は、警報情報に含まれる装置の端点情報を特定する。例えば、ルータなどのインターフェース障害の場合、障害箇所のインターフェース情報(ルータのIPアドレス)が警報情報に含まれている。
(S5)統合監視装置2は、端点情報に関連する回線情報をOSS1側に問合せを行う。回線情報とは、物理端点(物理インターフェース)、論理端点(IPアドレス)に関係する物理リンク、IPリンク、Ethernet(登録商標)リンク、MPLSパスを示す。
(S6)OSS1は、取得した端点情報を基に、自分が保持するデータベースを検索し、関係する回線情報を特定する。特定後、その情報を統合監視装置2側へ返送する。回線情報の内容は、回線名(回線ID)、両端の装置名、物理(論理)端点などであり、OSS1が保持する情報を全て取得可能である。
(S7)統合監視装置2が、OSS1側から送信された回線情報を受信し、アラーム情報に付加する。
(S8)統合監視装置2が、受信した警報がどのサービスに関連するかを特定するため、回線を一意に特定する回線ID(回線名)をキーに、サービス情報取得要求をOSS1もしくはサービスを管理している管理装置に要求する。
(S9)OSS1もしくはサービスを管理している管理装置は、統合監視装置2から受信した回線ID(回線名)を基に、装置内のデータベースを検索し、関連するサービス情報を特定する。例えば、MPLSパスの情報に関して、MPLSパスを利用しているイーサVPN等のサービス名、MPLSパスを使用している顧客情報等のサービス情報が特定される。特定後、その情報を統合監視装置2側へ返送する。
(S10)統合監視装置2は、サービス情報を受信する。
(S11)統合監視装置2は、受信したサービス情報をアラーム情報に付加する。これにより、受信した警報情報が、どのサービスに影響を及ぼしているかを特定することができる。
(S12)統合監視装置2は、該当回線の上位に位置する回線情報を取得するため、OSS1側に回線ID(回線名)をキーに上位回線情報取得要求を行う。
(S13)OSS1は、統合監視装置2から受信し取得した回線ID(回線名)をキーに、装置内のデータベースを検索し、回線ID(回線名)の上位に位置する回線情報を特定する。特定後、上位回線情報を統合監視装置2側へ返送する。
(S14)統合監視装置2は、上位の回線情報を受信する。
(S15)統合監視装置2は、受信した上位の回線情報に関係するアラーム情報を既に取得しているか否かを確認する。つまり、統合監視装置2が保持しているアラーム情報の中に、上位の回線情報の回線ID(回線名)に関するアラーム情報があるかどうかを確認する。保持している場合には(S16)に、保持ない場合には(S17)に移行する。なお、上位回線がない場合は、(S17)に移行する。
(S16)統合監視装置2は、上位回線のアラーム情報を既に取得している場合、上位回線に関係するアラーム情報に障害の根本原因ではないことを示す「非障害原因」というフラグ(識別子)を付加する。また、ここで解析中のアラーム情報には根本原因であることを示す「障害原因」というフラグを付加する。
(S17)統合監視装置2は、該当回線の下位に位置する回線情報を取得するため、OSS1側に回線ID(回線名)をキーに下位回線情報取得要求を行う。
(S18)OSS1は、統合監視装置2から受信し取得した回線ID(回線名)をキーに、装置内のデータベースを検索し、回線ID(回線名)の下位に位置する回線情報を特定する。特定後、下位回線情報を統合監視装置2側へ返送する。
(S19)統合監視装置2は、下位の回線情報を受信する。
(S20)統合監視装置2は、受信した下位の回線情報に関係するアラーム情報を既に取得しているか否かを確認する。つまり、統合監視装置2が保持しているアラーム情報の中に、下位の回線情報の回線ID(回線名)に関するアラーム情報があるかどうかを確認する。保持している場合には(S21)に、保持ない場合には(S22)に移行する。なお、下位回線がない場合は、(S22)に移行する。
(S21)統合監視装置2は、下位回線のアラーム情報を既に取得している場合、下位回線に関係するアラーム情報に障害の根本原因であることを示す「障害原因」というフラグ(識別子)を付加する。また、ここで解析中のアラーム情報には障害の根本原因ではないことを示す「非障害原因」というフラグを付加する。
(S22)終了
なお、ネットワーク内にOSS1が複数ある場合は、複数台のOSS1に問い合わせを行う。OSS1が機能別にサービスを管理するOSS1、ネットワークの構成を管理するOSS1と複数ある場合、問い合わせに必要なOSS1に問い合わせを行う。
【0024】
上記のS1からS22を受信した警報分繰り返す。警報分アラーム情報が統合監視装置2内に作成される。このアラーム情報から「障害原因」というフラグのみが付与されたアラーム情報を検索する。この検索されたアラーム情報が障害の根本原因であり、その他のアラーム情報は、根本原因の障害により影響を受け通知されたものと判明する。
【0025】
また、アラーム情報には、サービス情報が付与されているため、障害によるサービス影響範囲を特定することが可能になる。
【0026】
次に、以上のフローチャートの具体例を示す。例えば、ルータ間にIPリンクが張られ、MPLSパスがこのIPリンクを使用して、MPLSパス上にIP−VPNが提供されている場合を考える。この場合、IPリンクに障害が発生した場合、3つの警報が通知される。第1はIPリンクからの警報であり、第2はMPLSパスからの警報であり、第3はIP−VPNからの警報である。
【0027】
まず、第2の警報(MPLSパスの警報)が来た場合、統合監視装置2はこの警報情報からアラーム情報を作成する(S3〜S11)。S12で上位回線を問い合わせ、上位回線がIP−VPNであることを取得する。S15で既存のアラームにIP−VPNのアラームがあるかどうか確認するが無いため、フラグの設定は行わない。次にS17で下位回線を問い合わせ、下位回線がIPリンクであることを取得する。S20で既存のアラームにIPリンクのアラームがあるかどうか確認するが無いため、フラグの設定は行わない。これで、このアラームに対する処理は終了する。
【0028】
次に、第1の警報(IPリンクの警報)が来た場合、統合監視装置2はこの警報情報からアラーム情報を作成する(S3〜S11)。S12で上位回線を問い合わせ、上位回線がMPLSパスであることを取得する。S15で既存のアラームにMPLSパスのアラームがあるかどうか確認する。このアラームは既に存在するため、S16に進み、MPLSパスのアラームに「非障害原因」というフラグを付加し、IPリンクのアラームに「障害原因」というフラグを付与する。次にS17で下位回線を問い合わせるが、下位回線は存在しないため、S20の判定は必ずNOになり、このアラームに対する処理は終了する。
【0029】
最後に、第3の警報(IP−VPNの警報)が来た場合、統合監視装置2はこの警報情報からアラーム情報を作成する(S3〜S11)。S12で上位回線を問い合わせるが、上位回線がないため、S15の判定は必ずNOになる。次にS17で下位回線を問い合わせ、下位回線がMPLSパスであることを取得する。S20で既存のアラームにMPLSパスのアラームがあるかどうか確認する。このアラームは既に存在するため、S21に進み、MPLSパスのアラームに「障害原因」というフラグを付加し、IP−VPNのアラームに「非障害原因」というフラグを付与する。
【0030】
以上の結果により、IPリンクのアラームは「障害原因」のフラグが付与され、MPLSパスのアラームは「非障害原因」および「障害原因」のフラグが付与され、IP−VPNのアラームに「非障害原因」のフラグが付与される。ここで「障害原因」のフラグのみが付与されたアラームは、IPリンクのアラームであるため、障害の根本原因がIPリンクの障害であることが判明する。
【0031】
なお、本例では、第2の警報、第1の警報、第3の警報の順に、警報が統合監視装置2に来た場合であるが、この順序以外でも障害の根本原因がIPリンクの障害という同じ結果になる。
【0032】
また、MPLSパスに論理的な障害が発生した場合、MPLSパスからの警報とIP−VPNからの警報が発生し、統合監視装置2内では、MPLSパスのアラームは「障害原因」のフラグが付与されるため、障害の根本原因がMPLSパスの障害であることが判明する。
【0033】
また、以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様および変更態様で実施することができる。従って本発明の範囲は特許請求の範囲およびその均等範囲によってのみ規定されるものである。
【図面の簡単な説明】
【0034】
【図1】現状のネットワーク環境と障害管理を示す。
【図2】本実施形態におけるネットワーク環境と障害管理を示す。
【図3】統合監視装置から統合管理装置への情報問い合わせを示す。
【図4】統合監視装置が障害根本原因およびサービス影響範囲を特定するためのフローチャートである。
【図5】統合監視装置が障害根本原因およびサービス影響範囲を特定するためのフローチャートである(続き)。
【符号の説明】
【0035】
1 統合管理装置(OSS)
2 統合監視装置
3 サービス監視装置
4 ネットワーク監視装置

【特許請求の範囲】
【請求項1】
ネットワーク構成情報を保持している統合管理装置と、警報情報を集約する統合監視装置とを備えているネットワークにおけるネットワーク障害原因解析方法であって、
前記統合監視装置が、障害に関する警報を受信し、該警報からアラーム情報を作成するステップと、
前記統合監視装置が、前記警報から端点情報を取得し、前記統合管理装置に該端点情報に関連する回線情報を問い合わせるステップと、
前記統合監視装置が、前記統合管理装置に前記回線情報の上位回線および下位回線を問い合わせるステップと、
前記統合監視装置が、前記上位回線および下位回線に基づいて、アラーム情報に障害原因フラグを付与するステップと、
を受信した警報分繰り返し、前記アラーム情報の障害原因フラグから障害の根本原因を特定することを特徴とするネットワーク障害原因解析方法。
【請求項2】
前記障害原因フラグを付与するステップは、
前記統合監視装置が、前記上位回線のアラーム情報が既に存在するか確認し、存在していた場合、前記上位回線のアラーム情報に非障害原因のフラグを付与し、現在のアラーム情報に障害原因のフラグを付与するサブステップと、
前記統合監視装置が、前記下位回線のアラーム情報が既に存在するか確認し、存在していた場合、前記下位回線のアラーム情報に障害原因のフラグを付与し、現在のアラーム情報に非障害原因のフラグを付与するサブステップと、
を含み、前記障害原因のフラグのみが付与されたアラーム情報を障害の根本原因と特定することを特徴とする請求項1に記載のネットワーク障害原因解析方法。
【請求項3】
前記統合管理装置は、サービス情報を更に保持しており、
前記統合監視装置が、前記統合管理装置に前記回線情報に関するサービス情報を問い合わせるステップと、
前記統合監視装置が、前記アラーム情報に前記サービス情報を付与するステップと、
をさらに含んでいることを特徴とする請求項1または2に記載のネットワーク障害原因解析方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2009−246679(P2009−246679A)
【公開日】平成21年10月22日(2009.10.22)
【国際特許分類】
【出願番号】特願2008−90783(P2008−90783)
【出願日】平成20年3月31日(2008.3.31)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】