説明

ネットワーク監視システム及びネットワーク監視方法

【課題】NEを監視する監視サーバが監視処理を停止し、他の監視サーバへのバランシングが行なわれた場合にも、状態変化を検出して警告情報を出力する。
【解決手段】第1の監視サーバが、第1のネットワークエレメントに対する監視処理を停止する際、自身に記憶された第1のネットワークエレメントの第1の状態情報を出力し、第2の監視サーバが、第1の監視サーバから出力された第1の状態情報を受信し、監視処理が停止された第1のネットワークエレメントを自身の監視対象に加え、第1のネットワークエレメントと通信を行って第1のネットワークエレメントから第2の状態情報を取得し、取得した第2の状態情報と、第1の状態情報とに基づいて、第1のネットワークエレメントの状態に変化があったか否かを判定し、変化があったと判定した場合に警告情報を生成して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、IPネットワークを構成する複数のネットワークエレメントの状態を監視するネットワーク監視システム及びネットワーク監視方法に関する。
【背景技術】
【0002】
従来、IP(Internet Protocol)ネットワークを構成するスイッチやルータ、ホストといったネットワーク機器、コンピュータ装置などのネットワークエレメント(以下、NEともいう)と遠隔から通信を行い、NEの状態を監視するように構成されたネットワーク監視システムが利用されている。例えば、図9は、ネットワークを構成する複数台のNE1100(NE1100−1、NE1100−2、NE1100−3、・・・)の状態を、複数の監視サーバ1200(監視サーバ1200−1、監視サーバ1200−2、・・・)により監視するネットワーク監視システム1000の例を示す図である。
【0003】
ここでは、大量のNE1100を監視対象とするため、複数台の監視サーバ1200が、異なるNE1100を監視対象とするようにして監視処理の負荷分散を図っている。監視サーバ1200は、自身に割り振られた監視対象のNE1100に定期的に情報取得要求を行って、NE1100の状態を示す状態情報を取得して記憶する。監視サーバ1200は、監視対象のNE1100から取得した状態情報の値が変化した場合には、NE1100に何らかの事象が発生したものとして、警告情報を生成して管理サーバ1300に出力する。
【0004】
管理サーバ1300は、複数の監視サーバ1200から出力された警告情報を受信し、自身の記憶領域に記憶させる。管理サーバ1300に記憶された警告情報は、ウェブサーバの機能を備えるAP(アプリケーション)サーバ1400によって読み出される。APサーバ1400は、読み出した警告情報を、監視用クライアント端末1500(監視用クライアント端末1500−1、監視用クライアント端末1500−2、・・・)からの取得要求に応じて送信する。監視用クライアント端末1500は、監視対象となっている複数のNE1100の管理者に利用され、APサーバ1400から送信された警告情報を自身が備える画面に出力する。管理者は、監視用クライアント端末1500の画面に表示される警告情報を参照することで、監視対象のNE1100の状態に変化があったか否かを監視することができる。特許文献1には、ホストシステムからクライアント端末に送信されるメッセージがクライアント端末にメッセージが送信される際、クライアント端末に障害が発生した記録があれば二重出力の可能性がある旨の情報とともにメッセージを出力する技術が示されている。これにより、障害が発生したクライアント端末において、障害発生時と障害回復時に同一のメッセージが二重に表示されることを防止している。
【0005】
ところで、このようなネットワーク監視システムにおいて、複数の監視サーバのうち、いずれかの監視サーバが故障等の理由でNEの監視処理を停止する場合がある。ネットワーク監視システムでは、このような場合にも継続してNEの監視処理を行うようにするため、監視対象NEのバランシングが行われる。バランシングでは、NEの監視処理を停止した監視サーバが監視対象としていたNEを、監視処理を継続して動作している他の監視サーバ1200に振り分ける。監視サーバ1200は、バランシングによって振り分けられた監視対象のNEの監視処理を行う。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平2−53162号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、上述のように、NEの監視処理を行う監視サーバは、監視対象のNEから取得する状態情報の値が変化したことを契機として警告情報を出力している。一方で、上述のようなバランシングが行なわれた際、新たに監視対象のNEを振り分けられた監視サーバには、振り分けられたNEがバランシングの前にどのような状態であったかを示す情報が記憶されておらず、状態情報の比較ができないためにNEの状態変化を検出することができない。例えば、新たな監視対象のNEが振り分けられた監視サーバでは、監視対象のNEに対応する状態情報は、NEの状態を示す情報が対応付けられておらず初期値となっていることが考えられる。この場合、監視サーバが監視処置を開始してバランシングにより振り分けられたNEから状態情報を取得すれば、状態情報は初期値から他の状態へ変化し、警告情報が出力される。
【0008】
このため、バランシングが行なわれた後には、振り分けられた監視対象のNEの数と同程度の警告情報が監視サーバから出力され、APサーバを経由して監視用クライアント端末に表示される。このようなバランシングに基づく警告情報は、監視用クライアント端末が監視処理を停止したことに起因して生成されたものであり、監視対象のNEの状態変化に起因して生成されたものではない。すなわち、NEの状態変化の監視を目的として警告情報を参照する管理者にとって、このようなバランシングに基づく警告情報はノイズとなる場合があった。特に、数千台、数万台を超える大量のNEを監視対象とする場合、数千件、数万件のバランシングに基づく警告情報が出力されるため、NEの状態変化に基づく警告情報がバランシングに基づく大量の警告情報に埋もれることとなり、NEの状態変化を発見する手間がかかったり、発見が遅れたりすることが考えられる。
【0009】
本発明は、このような状況に鑑みてなされたもので、複数の監視サーバがそれぞれに振り分けられた監視対象のNEを監視するネットワーク監視システムにおいて、故障等により特定の監視サーバが監視処理を停止し、特定のNEを監視対象とする監視サーバがバランシングにより異なるものとなった場合でも、バランシング前後でのNEの状態変化を検出し、警告情報を出力することを可能とするネットワーク監視システム及びネットワーク監視方法を提供する。
【課題を解決するための手段】
【0010】
上述した課題を解決するために、本発明は、通信ネットワークを構成する複数のネットワークエレメントのうち、予め割り振られた監視対象である第1のネットワークエレメントと通信を行って第1のネットワークエレメントの状態を示す状態情報を取得し、自身が備える第1の状態情報記憶部に記憶させる監視処理を行う第1の監視サーバと、複数のネットワークエレメントのうち、第1のネットワークエレメントとは異なる第2のネットワークエレメントを監視対象とし、第2のネットワークエレメントの状態を示す状態情報を第2のネットワークエレメントから受信して自身が備える第2の状態情報記憶部に記憶させる監視処理を行う第2の監視サーバとを備えたネットワーク監視システムであって、第1の監視サーバは、第1のネットワークエレメントに対する監視処理を停止する際、第1の状態情報記憶部に記憶された第1の状態情報を出力する状態情報出力部を備え、第2の監視サーバは、第1の監視サーバが監視処理を停止した第1のネットワークエレメントを自身の監視対象に加えるバランシング処理部と、第1の監視サーバの状態情報出力部から出力された第1の状態情報を受信する状態情報受信部と、バランシング処理部によって第1のネットワークエレメントが自身の監視対象に加えられると、第1のネットワークエレメントと通信を行って第1のネットワークエレメントから第2の状態情報を取得し、取得した第2の状態情報と、状態情報受信部が受信した第1の状態情報とに基づいて、第1のネットワークエレメントの状態に変化があったか否かを判定し、変化があったと判定した場合に警告情報を生成して出力する第1の警告情報出力部と、を備えることを特徴とする。
【0011】
また、本発明は、第2の監視サーバの第2の状態情報記憶部には、監視対象のネットワークエレメント毎にネットワークエレメントの状態情報が対応付けられて記憶され、状態情報は、監視対象のネットワークエレメントから状態情報を取得していないことを示す初期値と、監視対象のネットワークエレメントから取得したネットワークエレメントの状態を示す複数の情報とのいずれかであり、第2の監視サーバは、監視処理において取得された第2の状態情報と、第2の状態情報記憶部に記憶された第3の状態情報とを比較し、第2の状態情報と第3の状態情報とが示す情報が異なり、かつ第3の状態情報が初期値でない場合に、警告情報を出力する第2の警告情報出力部を備えることを特徴とする。
【0012】
また、本発明は、第2の監視サーバのバランシング処理部は、第1の監視サーバが監視処理を停止した複数の第1のネットワークエレメントのうち、定められた数のネットワークエレメントを自身の監視対象に加え、状態情報受信部は、定められた数のネットワークエレメントに対応する状態情報を受信することを特徴とする。
【0013】
また、本発明は、通信ネットワークを構成する複数のネットワークエレメントのうち、予め割り振られた監視対象である第1のネットワークエレメントと通信を行って第1のネットワークエレメントの状態を示す状態情報を取得し、自身が備える第1の状態情報記憶部に記憶させる監視処理を行う第1の監視サーバと、複数のネットワークエレメントのうち、第1のネットワークエレメントとは異なる第2のネットワークエレメントを監視対象とし、第2のネットワークエレメントの状態を示す状態情報を第2のネットワークエレメントから受信して自身が備える第2の状態情報記憶部に記憶させる監視処理を行う第2の監視サーバとを備えたネットワーク監視システムの、第1の監視サーバが、第1のネットワークエレメントに対する監視処理を停止する際、第1の状態情報記憶部に記憶された第1の状態情報を出力し、第2の監視サーバが、第1の監視サーバにより監視処理が停止された第1のネットワークエレメントを自身の監視対象に加え、第1の監視サーバから出力された第1の状態情報を受信し、第1のネットワークエレメントが自身の監視対象に加えられると、第1のネットワークエレメントと通信を行って第1のネットワークエレメントから第2の状態情報を取得し、取得した第2の状態情報と、第1の状態情報とに基づいて、第1のネットワークエレメントの状態に変化があったか否かを判定し、変化があったと判定した場合に警告情報を生成して出力することを特徴とするネットワーク監視方法である。
【発明の効果】
【0014】
以上説明したように、本発明によれば、第1の監視サーバが、第1のネットワークエレメントに対する監視処理を停止する際、自身に記憶された第1のネットワークエレメントの第1の状態情報を出力し、第2の監視サーバが、第1の監視サーバから出力された第1の状態情報を受信し、監視処理が停止された第1のネットワークエレメントを自身の監視対象に加え、第1のネットワークエレメントと通信を行って第1のネットワークエレメントから第2の状態情報を取得し、取得した第2の状態情報と、第1の状態情報とに基づいて、第1のネットワークエレメントの状態に変化があったか否かを判定し、変化があったと判定した場合に警告情報を生成して出力するようにしたので、第1の監視サーバが監視処理を停止し、第2の監視サーバが監視処理を行う場合にも、第1の監視サーバに記憶されていた第1のネットワークエレメントの状態情報と、第2の監視サーバが新たに取得した第1のネットワークエレメントの状態情報とを比較して、第1のネットワークエレメントの状態変化を判定することができる。これにより、故障等により第1の監視サーバが監視処理を停止し、バランシングにより第1のネットワークエレメントを監視対象とする監視サーバが異なるものとなった場合でも、バランシング前とバランシング後での監視対象の第1のネットワークエレメントの状態を比較した結果に基づいて、警告情報を出力することが可能となる。
【図面の簡単な説明】
【0015】
【図1】本発明の一実施形態によるネットワーク監視システムの構成例を示すブロック図である。
【図2】本発明の一実施形態による状態情報記憶部に記憶される情報のデータ例を示す図である。
【図3】本発明の一実施形態による状態情報記憶部に記憶される情報のデータ例を示す図である。
【図4】本発明の一実施形態による状態情報記憶部に記憶される情報のデータ例を示す図である。
【図5】本発明の一実施形態によるネットワーク監視システムの動作例を示すフローチャートである。
【図6】本発明の一実施形態による監視サーバのポーリング処理の動作例を示すフローチャートである。
【図7】本発明の一実施形態による状態情報記憶部に記憶される情報のデータ例を示す図である。
【図8】本発明の一実施形態による監視サーバのファイル比較処理の動作例を示すフローチャートである。
【図9】従来のネットワーク監視システムの構成例を示す図である。
【発明を実施するための形態】
【0016】
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態によるネットワーク監視システムの構成を示すブロック図である。本実施形態によるネットワーク監視システム1は、複数台のNE(ネットワークエレメント)100−N(NE100−1、NE100−2、NE100−3、NE100−4、・・・)と、複数台の監視サーバ200−N(監視サーバ200−1、監視サーバ200−2、・・・)と、管理サーバ300と、APサーバ400と、複数台の監視用クライアント端末500(監視用クライアント端末500−1、監視用クライアント端末500−2、・・・)とのコンピュータ装置を備えている。以下、符号の末尾に「−N」(Nは、任意の数)が付加されたコンピュータ装置または機能部は、同一の名称の他のコンピュータ装置または機能部と同様の構成であり、個別に説明する必要がない場合には「−N」を付加せずに説明する。ここで、NE100、監視サーバ200、管理サーバ300、APサーバ400、監視用クライアント端末500のそれぞれの台数は、NE100により構成されるネットワークの規模や、各機器の性能等に応じて定められ、構成されるようにして良い。
【0017】
複数台のNE100は、ネットワークを構成するスイッチやルータといったネットワーク機器やホストサーバなどのコンピュータ装置であり、これらを総称してネットワークエレメントと呼ぶ。NE100は、自身を監視対象とする監視サーバ200から送信されるSNMP(Simple Network Management Protocol)に基づく情報取得要求を受信し、応答情報を送信する。ここでは、NE100は、自身が備えるIF(インタフェース)毎に、そのIFの通信状態を示す情報を監視サーバ200に応答情報として送信する。応答情報には、例えば、「アップリンク」、「ダウンリンク」、または「テスト中」のいずれかの通信状態を示す情報や、ハードウェアの稼働状況を示す情報等が含まれる。図には、複数台のNE100のうち、NE100−1〜NE100−8が示されているが、示された台数以上のNE100がネットワーク監視システム1に含まれ監視対象とされることとして良い。
【0018】
複数台の監視サーバ200は、自身の監視対象として割り振られたNE100との間でSNMPに基づく通信を行い、監視対象のNE100の状態変化を監視するコンピュータ装置である。本実施形態における初期状態では、監視サーバ200−1は、少なくともNE100−1と、NE100−2と、NE100−3と、NE100−4とを監視対象とする。監視サーバ200−2は、少なくともNE100−5と、NE100−6と、NE100−7と、NE100−8とを監視対象とする。図には、複数台の監視サーバ200のうち、監視サーバ200−1と監視サーバ200−2とが示されているが、示された台数以上の監視サーバ200がネットワーク監視システム1に含まれることとして良い。
【0019】
複数台の監視サーバ200は同様の構成であるが、ここでは、監視サーバ200−1は、故障等の原因によりNE100の監視処理を停止する監視サーバ200であるとして機能部を説明する。監視サーバ200−1は、NE監視部210−1と、状態情報記憶部220−1と、第2の警告情報出力部230−1と、状態情報出力部240−1とを備えている。
【0020】
NE監視部210−1は、監視サーバ200−1に割り振られた監視対象のNE100との間でSNMPに基づく通信を行い、監視対象のNE100を監視する。ここで、NE監視部210−1は、定められた周期(例えば、5分)ごとに監視対象のNE100に情報取得要求を送信し、情報取得要求に応じてNE100から送信される応答情報を受信し、受信した応答情報に基づいてNE100の状態を示す状態情報を生成するポーリング処理を行う。NE監視部210−1は、ポーリング処理によって生成した状態情報を状態情報記憶部220−1に記憶させる。
【0021】
例えば、NE監視部210−1は、監視対象のNE100に、NE100が備えるSNMPの管理情報データベース(MIB)に記憶された複数の情報のうち、いずれかの情報を識別するオブジェクト識別子(OID)を指定した情報取得要求(GetRequest)を送信し、オブジェクト識別子に対応する情報が含まれる応答情報を受信する。NE監視部210−1は、受信した応答情報に含まれる情報が、そのIFが通信可能であることを示す場合には「on」を示す状態情報を生成する。ここで、IFが通信可能であることを示す場合とは、例えば、応答情報が示すIFの状態が「アップリンク」または「テスト中」となっている場合である。一方、そのIFが通信不可能であることを示す場合には「off」を示す状態情報を生成する。ここで、IFが通信可能であることを示す場合とは、例えば、応答情報が示すIFの状態が「ダウンリンク」となっている場合である。また、NE監視部210−1は、NE100に情報取得要求を送信することにより、NE100のCPU使用率、メモリ使用率、ディスク使用率などハードウェアの稼働状況を示す情報を取得し、状態情報記憶部220−1に記憶させるようにしても良い。
【0022】
状態情報記憶部220−1には、監視サーバ200−1に割り振られた監視対象のNE100の状態を示す状態情報が含まれるNE情報が記憶される。図2は、状態情報記憶部220−1に記憶されるNE情報のデータ例を示す図である。図2に示されるように、状態情報記憶部220−1には、NE識別情報と、IF識別情報と、IFアドレスと、状態情報との情報が対応付けられて記憶される。NE識別情報は、ネットワーク監視システム1に接続される複数のNE100のうち、監視サーバ200−1に監視対象として割り振られたNE100を識別する情報である。NE識別情報は、連番等の数字により表されるようにしても良いし、NE100のIP(Internet Protocol)アドレスにより表されるようにしても良い。
【0023】
IF識別情報は、対応するNE識別情報によって識別されるNE100が備える1つ以上のIF(インタフェース)を識別する情報であり、1つのNE識別情報に1つ以上のIF識別情報が対応付けられる。IFアドレスは、IF識別情報によって識別されるIFに付与されたIPアドレスを示す情報である。状態情報は、対応するIFの通信状態を示す情報である。状態情報には、例えば、稼働情報と、CPU使用率と、メモリ使用率と、ディスク使用率との情報が含まれる。稼働情報とは、例えば、対応するIFが通信可能であることを示す「on」と、対応するIFが通信不可能であることを示す「off」と、監視対象のNE100が割り振られた後にそのNE100に対してポーリング処理を行っておらず、状態情報を取得していないことを示す初期値であることを示す「init」とのうちいずれかの情報である。
【0024】
第2の警告情報出力部230−1は、NE監視部210−1がポーリング処理によって生成した状態情報と、状態情報記憶部220−1に記憶された状態情報とに基づいて、監視対象のNE100の状態に変化があったか否かを判定し、変化があったと判定した場合には警告情報を出力する。例えば、第2の警告情報出力部230−1は、NE監視部210−1がポーリング処理によって生成した状態情報と、状態情報記憶部220−1に記憶された状態情報とが一致すれば、NE100の通信状態の変化はないと判定する。
【0025】
一方、第2の警告情報出力部230−1は、NE監視部210−1がポーリング処理によって生成した状態情報と、状態情報記憶部220−1に記憶された状態情報とが一致しなければ、NE100の通信状態の変化があったと判定し、NE100の状態変化があったことを示す警告情報を生成して、管理サーバ300に送信する。この際、第2の警告情報出力部230−1は、ポーリング処理によって生成した状態情報と、状態情報記憶部220−1に記憶された状態情報とが一致しない場合でも、状態情報記憶部220−1に記憶された状態情報が初期値である場合には、警告情報を生成しない。ここで、第2の警告情報出力部230−1は、稼働情報については、例えば「on」が「off」に変化したことを検知することにより警告情報を生成するが、CPU使用率と、メモリ使用率と、ディスク使用率などについては、予め定められた閾値を超えて値が変化した場合に、NE100に異常が発生したと判定し、警告情報を生成するようにしても良い。ここで、CPU使用率、メモリ使用率、ディスク使用率などの変化の閾値は、第2の警告情報出力部230−1の記憶領域に予め記憶される。第2の警告情報出力部230−1は、警告情報を生成すると、管理サーバ300に送信する。
【0026】
このように、第2の警告情報出力部230−1は、ポーリング処理によって生成した状態情報と、状態情報記憶部220−1に記憶された状態情報とが異なり、かつ状態情報記憶部220−1に記憶された状態情報が初期値でない場合に警告情報を出力する。すなわち、バランシングによって監視サーバ200−2に新たなNE100が監視対象として割り振られた場合、状態情報記憶部220−2に記憶された状態情報が初期値であるため、NE監視部210−2によってポーリング処理が行われると、状態情報の値が初期値から他の値に変化することとなる。ここで、この状態情報の値の変化は、バランシングが行なわれたことに起因するものであり、NE100の状態の変化に起因するものでない。このため、状態情報が変化しても、その変化が初期値から他の値への状態情報の変化である場合には、警告情報を出力しないようにする。
【0027】
状態情報出力部240−1は、故障等により監視サーバ200−1に異常が発生し、NE監視部210−1によるNE100の監視処理が継続できず停止すると判定すると、状態情報記憶部220−1に記憶された情報を出力する。例えば、状態情報出力部240−1は、状態情報記憶部220−1に記憶された状態情報が含まれるファイル(以下、第1のファイル)を生成して、他の監視サーバ200に送信する。
【0028】
次に、複数台の監視サーバ200のうち、監視サーバ200−2の構成を説明する。監視サーバ200−2は、監視処理を停止した監視サーバ200−1の監視対象となっていたNE100をバランシングにより割り振られ、割り振られたNE100の監視処理を行う監視サーバ200である。監視サーバ200−2は、NE監視部210−2と、状態情報記憶部220−2と、第2の警告情報出力部230−2と、バランシング処理部250−2と、状態情報受信部260−2と、第1の警告情報出力部270−2とを備えている。ここで、NE監視部210−2と、状態情報記憶部220−2と、第2の警告情報出力部230−2とは、それぞれ監視サーバ200−1が備える同名の機能部と同様の構成である。図3は、状態情報記憶部220−2に記憶されるデータ例を示す図である。状態情報記憶部220−2には、監視対象として割り振られたNE100のNE情報が記憶され、ここでは、NE識別情報が「5」、「6」、「7」、「8」であるNE情報が記憶されている。
【0029】
バランシング処理部250−2は、管理サーバ300から送信されるNE振分情報に基づいて、監視処理を停止した監視サーバ200−1の監視対象となっていたNE100を、監視サーバ200−2の監視対象に加える。例えば、バランシング処理部250−2は、監視処理を停止する監視サーバ200−1が監視対象としていたNE100のうち、バランシングによって監視サーバ200−2に振り分けられたNE100を識別するNE識別情報が含まれるNE振分情報を受信し、受信した監視対象のNE100のNE情報を状態情報記憶部220−2に追加して記憶させる。例えば、バランシング処理部250−2は、監視サーバ200−1が監視対象としていた複数のNE100のうち、自身に振り分けられるNE100−1とNE100−2とを示すNE識別情報が含まれるNE振分情報を受信し、受信したNE識別情報に基づくNE情報を状態情報記憶部220−2に追加して記憶させる。図4は、バランシング処理部250−2によってNE情報が追加された状態情報記憶部220−2のデータ例を示す図である。ここでは、NE識別情報が「1」のNE情報と、「2」のNE情報とが追加され記憶されている。追加されたNE情報については、監視サーバ200−2においてポーリング処理を行なっておらず状態情報が生成されていないため、状態情報には初期状態であることを示す初期値「init」が対応付けられて記憶される。
【0030】
状態情報受信部260−2は、監視サーバ200−1の状態情報出力部240−1によって出力された第1のファイルを受信する。
第1の警告情報出力部270−2は、バランシング処理が行われた後のポーリング結果に基づいて、バランシングによって振り分けられた監視対象のNE100の状態変化を検出した場合、警告情報を生成して管理サーバ300に送信する。第1の警告情報出力部270−2は、バランシング処理部250−2がNE振分情報を受信した後、NE監視部210−2によって初回のポーリング処理が行われて状態情報記憶部220−2に状態情報が記憶されると、状態情報記憶部220−2に記憶された状態情報が含まれるファイル(以下、第2のファイル)を生成する。第1の警告情報出力部270−2は、生成した第2のファイルと、状態情報受信部260−2が受信した第1のファイルとに基づいて、監視対象のNE100の状態が変化したか否かを判定し、変化したと判定した場合には警告情報を出力する。
【0031】
ここで、NE監視部210−2によって行われたポーリング処理が、NE振分情報を受信した後に初回に行われたものであるか否かは、例えば以下のように判定する。すなわち、バランシング処理部250−2がNE振分情報を受信した際に、第1の警告情報出力部270−2の記憶領域にバランシングが行なわれたことを示す情報(フラグ)を記憶させておく。第1の警告情報出力部270−2は、バランシング処理部250−2によって記憶されたフラグを参照し、バランシングが行なわれたことを示していれば初回であると判定する。この際、第1の警告情報出力部270−2は、ファイル比較による警告情報の出力処理を完了した際には、バランシング処理部250−2によって記憶されたフラグを削除する。
【0032】
このように、第1の警告情報出力部270−2は、バランシングにより振り分けられたNE100に対するポーリング処理が行なわれ、ポーリング結果が状態情報記憶部220−2に記憶された後に、状態情報記憶部220−2に記憶された状態情報を第2のファイルとして出力し、出力した第2のファイルと、監視処理を停止した監視サーバ200−1−から受信した第2のファイルとに基づいて監視対象のNE100の状態変化を検知するようにした。このため、監視サーバ200−2は、監視サーバ200−1に記憶されていた監視対象のNE100の過去の状態情報と、自身が新たに取得した監視対象のNE100の状態情報とを比較して、NE100の状態が変化したことを検出することが可能となる。
【0033】
管理サーバ300は、複数台の監視サーバ200に接続されたコンピュータ装置であり、監視サーバ200から出力される警告情報を受信して記憶するとともに、複数台の監視サーバ200の動作を管理する。管理サーバ300には、複数の監視サーバ200毎に、その監視サーバ200が監視対象とするNE100を識別するNE識別情報が対応付けられて記憶される。管理サーバ300は、監視サーバ200−1が監視処理を停止したことを検出すると、監視サーバ200−1に対応付けられたNE識別情報を、他のいずれの監視サーバ200に振り分けるかを判定する。管理サーバ300は、監視処理を継続する他の監視サーバ200毎に、その監視サーバ200に新たに振り分けるNE100のNE識別情報が含まれるNE振分情報を生成して送信する。
【0034】
APサーバ400は、監視用クライアント端末500からの要求に応じて管理サーバ300に記憶された警告情報を読み出し、監視用クライアント端末500に送信する。本実施形態では、APサーバ400はウェブサービス機能部を備えており、管理サーバ300から読み出した異常通知を、HTTP(HyperText Transfer Protocol)などの通信により監視用クライアント端末500に送信する。
【0035】
監視用クライアント端末500は、APサーバ400から送信される複数のNE100の状態を出力するコンピュータ端末である。監視用クライアント端末500は、監視対象のNEの管理者に利用され、管理者から入力される操作情報に応じてAPサーバ400から警告情報を読み出して表示する。本実施形態では、監視用クライアント端末500は、ウェブブラウザ機能部を備えており、APサーバ400と通信を行って、APサーバ400から送信される警告情報を自身が備えるディスプレイに出力する。ネットワークの管理者は、監視用クライアント端末500に表示される警告情報によって監視対象のNE100の状態変化を知ることができる。
【0036】
次に、図5〜図7を参照して、本実施形態によるネットワーク監視システム1が、NE100の監視を行なう動作例を説明する。ここで、初期状態では、監視サーバ200−1は、少なくともNE100−1〜NE100−3を監視対象としており、監視サーバ200−2は、少なくともNE100−4〜NE100−5を監視対象としていることとする。すなわち、初期状態では、監視サーバ200−1の状態情報記憶部220−1には図2に示されたNE情報が記憶されている。監視サーバ200−2の状態情報記憶部220−2には、図3に示されたNE情報が記憶されている。
【0037】
図5において、監視サーバ200−1のNE監視部210−1は、自身の計時機能により、予め定められたポーリング周期に基づく時刻になったことを検出すると、自身の監視対象であるNE100に対するポーリング処理を行なう(ステップS10)。ここで、図6を参照して、監視サーバ200−1が行なうポーリング処理を説明する。監視サーバ200−1は、状態情報記憶部220−1に記憶された監視対象のNE100に対応付けられた全てのIFについて、以下のステップS210からステップS250までの処理を繰り返し行う(ステップS200)。NE監視部210−1は、監視対象のNE100に、SNMPに基づく情報取得要求を送信し(ステップS210)、NE100から送信される応答情報を受信し(ステップS220)、受信した応答情報に基づいて状態情報を生成する。第2の警告情報出力部230−1は、ステップS220でNE監視部210−1が受信した応答情報に基づいて生成された状態情報と、状態情報記憶部220−1に記憶された状態情報(前回値)とを比較する(ステップS230)。第2の警告情報出力部230−1は、ステップS220において生成された状態情報と、状態情報の前回値とが一致すると判定した場合には(ステップS230:YES)、ステップS200に戻る。
【0038】
一方、ステップS230において、第2の警告情報出力部230−1が、ステップS220において生成された状態情報と、状態情報の前回値とが一致しない(CPU使用率、メモリ使用率、ディスク使用率などハードウェアの稼働状況を示す状態情報の場合、予め定められた閾値を超える変化があった)と判定した場合には(ステップS230:NO)、前回値が初期値(init)であるか否かを判定する(ステップS240)。ステップS240で、第2の警告情報出力部230−1が、前回値が初期値であると判定した場合(ステップS240:YES)、ステップS200に戻る。一方、ステップS240において、第2の警告情報出力部230−1が、前回値が初期値でないと判定した場合(ステップS240:NO)、警告情報を生成して管理サーバ300に送信する(ステップS250)。第2の警告情報出力部230−1は、状態情報記憶部220−1に記憶された監視対象のNE100に対応付けられた全てのIFについて、ステップS210からステップS250までの処理を繰り返し行う(ステップS260)。
【0039】
図5に戻り、NE監視部210−1は、ポーリング処理によって取得した状態情報であるポーリング結果を、状態情報記憶部220−1に記憶させる(ステップS20)。また、同様に、監視サーバ200−2は、監視対象のNE100にポーリング処理を行い(ステップS30)、取得したポーリング結果を状態情報記憶部220−2に記憶させる(ステップS40)。ここで、監視サーバ200−1に異常が発生し、NE100の監視処理を停止すると判定すると(ステップS50)、状態情報出力部240−1が、状態情報記憶部220−1に記憶された状態情報を読み出して第1のファイルを生成する(ステップS60)。状態情報出力部240−1は、ステップS60において生成した第1のファイルを、他の監視サーバ200の全てに対して送信する(ステップS70)。
【0040】
監視サーバ200−1は、NE100の監視処理を停止すると、管理サーバ300に対して監視処理を停止したことを示す停止通知を送信する(ステップS80)。管理サーバ300は、監視サーバ200−1から送信された停止通知を受信すると、監視サーバ200−1の監視対象となっていたNE100の監視処理を、他の監視サーバ200に振り分けるNE振分情報を生成する。管理サーバ300は、監視サーバ200毎に生成したNE振分情報を、監視処理を停止した監視サーバ200−1以外の監視サーバ200に送信する(ステップS90)。本実施形態では、管理サーバ300は、監視サーバ200−2に対しては、監視サーバ200−1が監視対象としていた複数のNE100のうち、少なくともNE100−1とNE100−2とを振り分けることとして、NE振分情報を監視サーバ200−2に送信する。
【0041】
監視サーバ200−2が、管理サーバ300から送信されたNE振分情報を受信すると、監視サーバ200−2のバランシング処理部250−2は、受信したバランシング情報に基づいて自身に新たに振り分けられた監視対象のNE100のNE情報を状態情報記憶部220−2に記憶させ、バランシングを行う(ステップS100)。この時点で、監視サーバ200−2の状態情報記憶部220−2には、図4に示されたNE情報が記憶される。監視サーバ200−2のNE監視部210−2は、バランシングにより監視対象が追加され状態情報記憶部220−2に記憶されたNE情報に基づいてポーリング処理を行い(ステップS110)、第2の警告情報出力部230−2は、NE監視部210−2が取得した状態情報と状態情報記憶部220−2に記憶された状態情報とが異なる場合には警告情報を出力する。この際、NE監視部210−2は、NE識別情報が「1」であるNE100と、NE識別情報が「2」であるNE100とから状態情報を取得し、取得した状態情報と状態情報記憶部220−2に記憶された状態情報とが異なると判定するが、状態情報記憶部220−2に記憶されたNE識別情報が「1」であるNE100と、NE識別情報が「2」であるNE100とは「init」であり初期値であるため、これらについては警告情報を出力しない。そして、NE監視部210−2は、ポーリング結果を状態情報記憶部220−2に記憶させる(ステップS120)。この時点で、監視サーバ200−2の状態情報記憶部220−2には、図7に示されたNE情報が記憶される。
【0042】
第1の警告情報出力部270−2は、ステップS110において行なわれたポーリング処理が、バランシング処理の後に初回であるか否かを判定する(ステップS130)。第1の警告情報出力部270−2が、ステップS110において行なわれたポーリング処理が、バランシング処理の後に初回であると判定すると(ステップS130:YES)、第1の警告情報出力部270−2は、状態情報記憶部220−2に記憶されたNE情報を読み出して第2のファイルを生成する(ステップS140)。第1の警告情報出力部270−2は、生成した第2のファイルと、ステップS70において監視サーバ200−1から送信され状態情報受信部260−2が受信した第1のファイルとの比較処理を行う(ステップS150)。ここで、図8を参照して、第1の警告情報出力部270−2が行なうファイル比較処理を説明する。
【0043】
第1の警告情報出力部270−2は、第1のファイルに含まれるNE情報の全てについて、ステップS151からステップS158までの処理を繰り返す(ステップS151)。まず、第1の警告情報出力部270−2は、第1のファイルに含まれるNE情報と、第2のファイルに含まれるNE情報とを読み出し、第1のファイルから読み出したNE情報に含まれるNE識別情報と、第2のファイルから読み出したNE情報に含まれるNE識別情報とが一致するか否かを判定する(ステップS152)。第1の警告情報出力部270−2は、第1のファイルに含まれるNE識別情報と第2のファイルに含まれるNE識別情報とが一致しないと判定すると(ステップS152:NO)、ステップS151に戻り、第2のファイルに含まれる他のNE情報を読み出す。
【0044】
一方、ステップS152で、第1の警告情報出力部270−2が、第1のファイルに含まれるNE識別情報と第2のファイルに含まれるNE識別情報とが一致すると判定すると(ステップS152:YES)、そのNE識別情報に対応付けられて第1のファイルに含まれるIFアドレスの全てについて、ステップS153からステップS157までの処理を繰り返す(ステップS153)。第1の警告情報出力部270−2は、そのNE識別情報に対応付けられて第1のファイルに含まれるIFアドレスと、第2のファイルに含まれるIFアドレスとを比較する(ステップS154)。第1の警告情報出力部270−2は、第1のファイルに含まれるIFアドレスと、第2のファイルに含まれるIFアドレスとが一致しないと判定すると(ステップS154:NO)、ステップS153に戻り、第2のファイルに含まれる他のIFアドレスを読み出す。
【0045】
一方、ステップS154で、第1の警告情報出力部270−2が、第1のファイルに含まれるIFアドレスと、第2のファイルに含まれるIFアドレスとが一致すると判定すると(ステップS154:YES)、そのIFアドレスに対応付けられて第1のファイルに含まれる状態情報と、第2のファイルに含まれる状態情報とが一致するか否かを判定する(ステップS155)。第1の警告情報出力部270−2は、第1のファイルに含まれる状態情報と、第2のファイルに含まれる状態情報とが一致すると判定すると(ステップS155:YES)、ステップS153に戻る。一方、第1の警告情報出力部270−2は、第1のファイルに含まれる状態情報と、第2のファイルに含まれる状態情報とが一致しないと判定すると(ステップS155:NO)、警告情報を生成し、管理サーバ300に出力する(ステップS156)。ここでは、第1の警告情報出力部270−2は、第1のファイルに含まれるNE識別情報が「1」でIF識別情報が「1」のNE情報に対応する状態情報は「on」であり、第2のファイルに含まれるNE識別情報が「1」でIF識別情報が「1」のNE情報に対応する状態情報は「off」であるから、NE識別情報を「1」、IF識別情報を「1」とするIFに状態の変化があったことを示す警告情報を出力する。第1の警告情報出力部270−2は、第1のファイルに含まれるNE識別情報に対応付けられて第1のファイルに含まれるIFアドレスの全てについてステップS154からステップS156までの処理を行い(ステップS157)、第1のファイルに含まれるNE情報の全てについて、ステップS152からステップS157までの処理を行う(ステップS158)。
【0046】
図5に戻り、ステップS130において、第1の警告情報出力部270−2が、ステップS110において行なわれたポーリング処理がバランシング処理の後に初回でないと判定すれば(ステップS130:NO)ステップS140とステップS150との処理を行わずに、以降、一定周期毎にポーリング処理を継続して行なう。
【0047】
なお、本実施形態では、監視サーバ200−1が監視処理を停止する際に、状態情報記憶部220−1に記憶された状態情報の全てが含まれる第1のファイルを生成し、生成した第1のファイルが監視処理を継続する監視サーバ200に送信されるようにしたが、監視処理を継続する監視サーバ200には、その監視サーバ200に振り分けられたNE100の状態情報のみが含まれるファイルが送信されるようにしても良い。この場合、監視サーバ200−2の状態情報受信部260−2は、監視サーバ200−1が監視処理を停止した複数のNE100のうち、管理サーバ300によって自身に割り振られた数のNE100に対応する状態情報を受信する。ここで、管理サーバ300は、監視処理が停止され再振り分けの対象となったNE100が備えるIF数の総和と、監視サーバ200の数とに基づいてNE振分情報を生成する。
【0048】
そして、バランシング処理部250−2は、状態情報受信部260−2が受信したNE100の状態情報のみを、自身の監視対象のNE100として状態情報記憶部220−2に記憶させる。この場合、例えば、監視サーバ200−1は、ステップS70における他の監視サーバ200への第1のファイルの送信処理を行なわず、ステップS80にて、停止通知とともに第1のファイルを管理サーバ300に送信する。管理サーバ300は、ステップS90においてNE振分情報を監視サーバ200に送信する際に、監視サーバ200毎に、その監視サーバ200に振り分けるNE100に対応する状態情報を第1のファイルから読み出し、その監視サーバ200に振り分けるNE100の状態情報のみが含まれるファイルを生成して、監視サーバ200に送信する。ここで、管理サーバ300が監視サーバ200に送信するファイルは、NE100の識別情報やIFIPアドレス等に基づいて生成され、監視サーバ200のIPアドレスに基づいて、新たにNE100を監視する監視サーバ200に送信される。このようにすれば、新たに監視対象のNE100が割り振られる監視サーバ200におけるバランシング処理の負荷を軽減できるとともに、ファイルを送信する際のネットワーク負荷を軽減することができる。監視サーバ200より管理サーバ300の方が、処理速度や記憶容量が大きく性能の高いコンピュータ装置を適用している場合には、監視サーバ200の処理負荷を管理サーバ300に負担させることができるため、効率よくバランシングを行なうことができる。
【0049】
また、本実施形態では、監視サーバ200−1は故障等の原因によりNE100の監視処理を停止する監視サーバ200であり、監視サーバ200−2はバランシングにより割り振られたNE100の監視処理を行う監視サーバ200であるとして機能部を分けて説明したが、複数台の監視サーバ200−Nは同様の機能部を備えて良い。すなわち、全ての監視サーバ200−Nが、NE監視部210−Nと、状態情報記憶部220−Nと、第2の警告情報出力部230−Nと、状態情報出力部240−Nと、バランシング処理部250−Nと、状態情報受信部260−Nと、第1の警告情報出力部270−Nとを備えるように構成して良い。
【0050】
また、本実施形態では、NE監視部210は、NE100から送信された応答情報に応じて、応答情報が「アップリンク」または「テスト中」である場合には「on」を示す状態情報を生成し、「ダウンリンク」である場合には「off」状態情報を示す状態情報を生成するとしたが、応答情報をそのまま状態情報として状態情報記憶部220に記憶させるようにしても良い。また、NE監視部210は、NE100から複数の種別の状態情報を取得するようにしても良い。例えば、NE100が備えるIFの設定情報(例えば、SNMPにおけるifAdminStatusによって取得される値)と、IFの現在の情報(例えば、SNMPにおけるifOperStatusによって取得される値)とを取得してそれぞれ記憶し、双方の情報のいずれかが変化した場合には警告情報を出力するようにしても良い。すなわち、NE監視部210は、第2の警告情報出力部230または状態情報出力部240によってNE100の状態変化を検出できるような情報を、NE100から定期的に取得して状態情報記憶部220に記憶させるようにすれば良い。また、NE監視部210は、例えば、ICMP(Internet Control Message Protocol)などに基づいて取得したNE100の状態を示す状態情報を状態情報記憶部220に記憶させるようにしても良い。
【0051】
このように、本実施形態によれば、複数のNE100を複数の監視サーバ200で分散して監視するネットワーク監視システム1において、監視サーバ200が故障等によりダウンして監視対象NEがバランシングされ、監視処理を継続する他の監視サーバ200に再割り振りが行なわれた場合に、新たな監視対象のNE100を割り振られたNE100は、バランシング前のNE100の状態情報とバランシング後のNE100の状態情報とを比較して、NE100の状態変化を判定することが可能となる。これにより、バランシングにより新たな監視対象が振り分けられた監視サーバ200において、振り分けられたNE100の状態情報が初期値になり、ポーリング処理が行われた際に状態情報が変化して、大量の警告情報が生成されて送信されることを防ぐことができる。これにより、バランシングが行われた際に監視用クライアント端末500に大量の警告情報が出力されることを防ぎ、実質的なNE100の状態変化が起きたことを示す場合のみに絞って警告情報を出力することができ、現実的な管理者による監視業務の継続が可能となる。
【0052】
なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりネットワークの監視を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0053】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0054】
1 ネットワーク監視システム
100 NE
200 監視サーバ
210 NE監視部
220 状態情報記憶部
230 第2の警告情報出力部
240 状態情報出力部
250 バランシング処理部
260 状態情報受信部
270 第1の警告情報出力部
300 管理サーバ
400 APサーバ
500 監視用クライアント端末

【特許請求の範囲】
【請求項1】
通信ネットワークを構成する複数のネットワークエレメントのうち、予め割り振られた監視対象である第1のネットワークエレメントと通信を行って当該第1のネットワークエレメントの状態を示す状態情報を取得し、自身が備える第1の状態情報記憶部に記憶させる監視処理を行う第1の監視サーバと、前記複数のネットワークエレメントのうち、前記第1のネットワークエレメントとは異なる第2のネットワークエレメントを監視対象とし、当該第2のネットワークエレメントの状態を示す状態情報を当該第2のネットワークエレメントから受信して自身が備える第2の状態情報記憶部に記憶させる監視処理を行う第2の監視サーバとを備えたネットワーク監視システムであって、
前記第1の監視サーバは、
前記第1のネットワークエレメントに対する前記監視処理を停止する際、前記第1の状態情報記憶部に記憶された第1の状態情報を出力する状態情報出力部を備え、
前記第2の監視サーバは、
前記第1の監視サーバが監視処理を停止した前記第1のネットワークエレメントを自身の監視対象に加えるバランシング処理部と、
前記第1の監視サーバの前記状態情報出力部から出力された前記第1の状態情報を受信する状態情報受信部と、
前記バランシング処理部によって前記第1のネットワークエレメントが自身の監視対象に加えられると、前記第1のネットワークエレメントと通信を行って当該第1のネットワークエレメントから第2の状態情報を取得し、取得した第2の状態情報と、前記状態情報受信部が受信した前記第1の状態情報とに基づいて、前記第1のネットワークエレメントの状態に変化があったか否かを判定し、変化があったと判定した場合に警告情報を生成して出力する第1の警告情報出力部と、
を備えることを特徴とするネットワーク監視システム。
【請求項2】
前記第2の監視サーバの前記第2の状態情報記憶部には、監視対象のネットワークエレメント毎に当該ネットワークエレメントの状態情報が対応付けられて記憶され、当該状態情報は、前記監視対象のネットワークエレメントから前記状態情報を取得していないことを示す初期値と、前記監視対象のネットワークエレメントから取得した当該ネットワークエレメントの状態を示す複数の情報とのいずれかであり、
前記第2の監視サーバは、
前記監視処理において取得された前記第2の状態情報と、前記第2の状態情報記憶部に記憶された第3の状態情報とを比較し、前記第2の状態情報と前記第3の状態情報とが示す情報が異なり、かつ前記第3の状態情報が初期値でない場合に、警告情報を出力する第2の警告情報出力部
を備えることを特徴とする請求項1に記載のネットワーク監視システム。
【請求項3】
前記第2の監視サーバのバランシング処理部は、前記第1の監視サーバが監視処理を停止した複数の前記第1のネットワークエレメントのうち、定められた数の前記ネットワークエレメントを自身の監視対象に加え、
前記状態情報受信部は、前記定められた数の前記ネットワークエレメントに対応する前記状態情報を受信する
ことを特徴とする請求項1または請求項2に記載のネットワーク監視システム。
【請求項4】
通信ネットワークを構成する複数のネットワークエレメントのうち、予め割り振られた監視対象である第1のネットワークエレメントと通信を行って当該第1のネットワークエレメントの状態を示す状態情報を取得し、自身が備える第1の状態情報記憶部に記憶させる監視処理を行う第1の監視サーバと、前記複数のネットワークエレメントのうち、前記第1のネットワークエレメントとは異なる第2のネットワークエレメントを監視対象とし、当該第2のネットワークエレメントの状態を示す状態情報を当該第2のネットワークエレメントから受信して自身が備える第2の状態情報記憶部に記憶させる監視処理を行う第2の監視サーバとを備えたネットワーク監視システムの、
前記第1の監視サーバが、
前記第1のネットワークエレメントに対する前記監視処理を停止する際、前記第1の状態情報記憶部に記憶された第1の状態情報を出力し、
前記第2の監視サーバが、
前記第1の監視サーバにより監視処理が停止された前記第1のネットワークエレメントを自身の監視対象に加え、
前記第1の監視サーバから出力された前記第1の状態情報を受信し、
前記第1のネットワークエレメントが自身の監視対象に加えられると、前記第1のネットワークエレメントと通信を行って当該第1のネットワークエレメントから第2の状態情報を取得し、取得した第2の状態情報と、前記第1の状態情報とに基づいて、前記第1のネットワークエレメントの状態に変化があったか否かを判定し、変化があったと判定した場合に警告情報を生成して出力する
ことを特徴とするネットワーク監視方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate