説明

ネットワーク監視システム

【課題】複数の監視サーバのいずれかが停止したときにも、監視処理を停止した監視サーバが監視対象としていたネットワークエレメントの監視を途切れさせずに監視を続ける。
【解決手段】通信ネットワークを構成する複数のネットワークエレメントのうち、予め定められた監視対象のネットワークエレメントを監視する複数の監視サーバは、複数のネットワークエレメントから自身の監視対象のネットワークエレメントを抽出する割り振り情報を受信して、割り振り情報に応じた監視対象のネットワークエレメントを監視し、複数の監視サーバに接続された管理サーバは、複数の監視サーバのうち、いずれかの監視サーバによる監視処理が停止したことを検知すると、監視処理を停止した監視サーバ以外の監視サーバに監視処理を停止した監視サーバが監視対象としていたネットワークエレメントを含むネットワークエレメントを監視対象として抽出する割り振り情報を送信する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、IPネットワークを構成する複数のネットワークエレメントの状態を監視するネットワーク監視システムに関する。
【背景技術】
【0002】
従来、IP(Internet Protocol)ネットワークを構成するスイッチやルータ、ホストといったネットワーク機器、コンピュータ装置などのネットワークエレメント(以下、NEともいう)と遠隔から通信を行い、NEの状態を監視するように構成されたネットワーク監視システムが利用されている。
【0003】
例えば、図9は、ネットワークを構成する複数台のNE600(NE600−1、NE600−2、NE600−3、・・・)の状態を監視サーバ700が監視するネットワーク監視システムの例を示す図である。監視サーバ700は、例えば5分間隔の周期でNE600のそれぞれにICMP(Internet Control Message Protocol)やSNMP(Simple Network Management Protocol)に基づいて、定期的に情報取得のための要求を送信する。NE600は、このような情報取得要求を受信した際に自身に何らかの異常が発生していれば、異常が発生したことを示すエラー情報を応答として送信する。監視サーバ700は、受信したエラー情報をエラーリストとして記憶して蓄積し、蓄積したエラーリストを自身のディスプレイに表示させる。ネットワークの管理者は、監視サーバ700のディスプレイに表示されるエラーリストを見ることで、NE600に発生した異常を知ることができ、故障の早期発見と復旧等の適切な処置を行うことができる。
【0004】
ここで、NE600と監視サーバ700とを接続する回線や監視サーバ700自体のハードウェア性能には限りがあるため、一台の監視サーバ700により監視可能なNE600の台数には限りがある。そこで、一台の監視サーバ700で監視できない程に大量のNE600を監視する場合、複数台の監視サーバ700を用いてNE600を監視することになる。例えば、図10は、大量のNE600(NE600−1〜NE600−9、・・・)を、複数台の監視サーバ700(監視サーバ700−1、監視サーバ700−2、監視サーバ700−3、・・・)により監視する例を示す図である。図10の例では、複数台の監視サーバ700が、ネットワークを構成する複数のNE600を分担して監視する。例えば、監視サーバ700−1は、NE600−1、NE600−2、NE600−3、・・・を監視対象とし、監視サーバ700−2は、NE600−4、NE600−5、NE600−6、・・・を監視対象とし、監視サーバ700−3は、NE600−7、NE600−8、NE600−9、・・・を監視対象としている。このように、複数台の監視サーバ700が大量のNE600の監視を分担することで、1台の監視サーバ700では監視しきれない数のNE600を監視することができる。
【0005】
特許文献1には、監視サーバからネットワークエレメントへの監視経路が切断された場合に、他の通信経路を通して監視を継続する技術が提案されている。
特許文献2には、VRRP(Virtual Router Redundancy Protocol)に基づく通信を行うネットワークシステムにおいて、ルータの処理負荷に応じて稼動するルータを切り替え、不可分散を行う技術が提案されている。
【特許文献1】特開2000−13373号公報
【特許文献2】特開2003−46539号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、複数の監視サーバ700がそれぞれ異なるNE600を監視する場合、監視サーバ700の故障時には、故障した監視サーバ700が監視対象とするNE600の状態監視が行えず、NE600に異常が発生したことを検知できない。そこで、監視サーバ700によるネットワーク監視システムの可用性を向上させるための対策として、同一の監視対象のNE600に対する監視サーバ700を複数台用意してデュアルシステムやデュプレックスシステムを構成することが考えられる。しかし、監視サーバ700を構成するコンピュータ装置は高価である場合が多く、特に大量のNE600を監視対象とする複数台の監視サーバ700のそれぞれのコンピュータ装置を複数台用意するのは導入、運用に多大なコストがかかるという問題がある。
【0007】
本発明は、このような状況に鑑みてなされたもので、ネットワークを監視する複数の監視サーバのいずれかが故障した場合の対策として、予め監視サーバ700を増設しておくことなく、監視対象となっているNE600への監視を途切れさせずに可用性を向上させるネットワーク監視システムを提供する。
【課題を解決するための手段】
【0008】
上述した課題を解決するために、本発明は、通信ネットワークを構成する複数のネットワークエレメントのうち、予め定められた監視対象のネットワークエレメントを監視し、ネットワークエレメントから送信されるエラー情報を受信する複数の監視サーバと、複数の監視サーバのそれぞれから送信されるエラー情報が記憶される管理サーバとを備えたネットワーク監視システムであって、監視サーバは、管理サーバから、複数のネットワークエレメントから自身の監視対象のネットワークエレメントを抽出する割り振り情報を受信する受信部と、受信部が受信した割り振り情報に応じた監視対象のネットワークエレメントを監視するネットワークエレメント監視部と、を備え、管理サーバは、複数の監視サーバのうち、いずれかの監視サーバによるネットワークエレメントの監視処理が停止したことを検知する検知部と、検知部がネットワークエレメントの監視処理が停止したことを検知すると、監視処理を停止した監視サーバ以外の監視サーバに、監視処理を停止した監視サーバが監視対象としていたネットワークエレメントを含むネットワークエレメントを監視対象として抽出する割り振り情報を送信する割り振り情報送信部と、を備えることを特徴とする。
【0009】
また、本発明は、上述の管理サーバの割り振り情報送信部が送信する割り振り情報は、通信ネットワークを構成する複数のネットワークエレメントの全てから、監視サーバ以外の監視サーバのそれぞれが監視対象とするネットワークエレメントを抽出する割り振り情報であることを特徴とする。
【0010】
また、本発明は、上述の管理サーバの割り振り情報送信部が送信する割り振り情報は、監視処理を停止した監視サーバが監視対象としていたネットワークエレメントのみを、監視サーバ以外の監視サーバが追加の監視対象として抽出する割り振り情報であることを特徴とする。
【0011】
また、本発明は、上述の監視サーバは、予め定められた監視周期ごとに監視対象のネットワークエレメントの監視処理を行い、管理サーバは、監視サーバの処理能力を示す監視サーバ情報が記憶される監視サーバ情報記憶部と、割り振り情報送信部によって送信される割り振り情報により監視サーバに監視対象として割り振られるネットワークエレメントと、監視サーバに対応する監視サーバ情報とに基づく監視サーバの監視処理の処理負荷が、予め定められた閾値を超える場合、監視サーバに、監視周期を延伸することを示す情報を送信することを特徴とする。
【0012】
また、本発明は、上述の管理サーバの監視サーバ情報記憶部に記憶される監視サーバ情報には、監視サーバのCPU使用率とメモリ量とによって監視サーバの処理能力を示す情報が含まれることを特徴とする。
【0013】
また、本発明は、上述の管理サーバの監視サーバ情報記憶部に記憶される監視サーバ情報には、監視サーバによるネットワークエレメントの監視処理の所要時間によって監視サーバの処理能力を示す情報が含まれることを特徴とする。
【発明の効果】
【0014】
以上説明したように、本発明によれば、通信ネットワークを構成する複数のネットワークエレメントのうち、予め定められた監視対象のネットワークエレメントを監視する複数の監視サーバは、複数のネットワークエレメントから自身の監視対象のネットワークエレメントを抽出する割り振り情報を受信して、割り振り情報に応じた監視対象のネットワークエレメントを監視し、複数の監視サーバのそれぞれから送信されるエラー情報が記憶される管理サーバは、複数の監視サーバのうち、いずれかの監視サーバによる監視処理が停止したことを検知すると、監視処理を停止した監視サーバ以外の監視サーバに、監視処理を停止した監視サーバが監視対象としていたネットワークエレメントを含むネットワークエレメントを監視対象として抽出する割り振り情報を送信するようにしたので、複数の監視サーバのいずれかが停止したときにも、監視処理を停止した監視サーバが監視対象としていたネットワークエレメントの監視を他の監視サーバが行うことができ、監視対象のネットワークエレメントの監視を途切れさせずに続けることが可能となる。
【発明を実施するための最良の形態】
【0015】
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態によるネットワークシステム1の構成を示す図である。本実施形態によるネットワークシステム1は、複数台のNE(ネットワークエレメント)100(NE100−1〜NE100−9、・・・)と、複数台の監視サーバ200(監視サーバ200−1、監視サーバ200−2、監視サーバ200−3、・・・)と、管理サーバ300と、APサーバ400と、複数台の監視用クライアント端末500(監視用クライアント端末500−1、監視用クライアント端末500−2、監視用クライアント端末500−3、・・・)とを備えている。ここで、NE100、監視サーバ200、管理サーバ300、APサーバ400、監視用クライアント端末500のそれぞれの台数は、NE100により構成されるIPネットワーク(a)の規模や、各機器の性能等に応じて定められ、構成されるようにして良い。
【0016】
複数台のNE100は、IPネットワーク(a)を構成するスイッチやルータ、ホストサーバといったネットワーク機器、コンピュータ装置などであり、これらを総称してネットワークエレメントと呼ぶ。NE100は、自身を監視対象とする監視サーバ200から送信されるSNMPやICMPに基づく情報取得要求を受信し、応答する。ここで、NE100は、自身にエラーが発生している場合には、受信する情報取得要求に対してエラー情報を送信する。エラー情報には、NE100自身の識別情報やエラー内容などの情報が含まれる。
【0017】
複数台の監視サーバ200は、CPU(中央演算装置)、メモリ、HDD(ハードディスク)などを備え、それぞれに自身の監視対象として定められたNE100との間でICMPやSNMPに基づく通信を行い、監視対象のNE100の状態を監視するコンピュータ装置である。本実施形態における初期状態では、監視サーバ200−1の監視対象は、IPネットワーク(a)のうち、NE100−3、NE100−6、NE100−9、・・・により構成されるIPネットワーク(a−1)である。同様に、監視サーバ200−2の監視対象は、IPネットワーク(a)のうち、NE100−1、NE100−4、NE100−7、・・・により構成されるIPネットワーク(a−2)である。同様に、監視サーバ200−3の監視対象は、IPネットワーク(a)のうち、NE100−2、NE100−5、NE100−8、・・・により構成されるIPネットワーク(a−3)である。
【0018】
図2は、複数台の監視サーバ200と管理サーバ300との構成を詳細に示す図である。監視サーバ200−1は、NE情報記憶部210−1と、監視対象NE抽出部220−1と、通信部230−1と、NE監視部240−1と、OS(オペレーティングシステム)250−1とを備えている。複数台の監視サーバ200は同様の構成であるので、ここでは監視サーバ200−1の構成を代表して説明し、複数台の監視サーバ200のうち特定の監視サーバ200を識別する「−1」等の表記は省略して説明する。
【0019】
NE情報記憶部210には、自身の監視サーバ200が監視対象とするか否かに関わらず、IPネットワーク(a)が備える全てのNE100に関するNE情報が記憶される。図3は、NE情報記憶部210に記憶されるNE情報のデータ例を示す図である。NE情報は、NE100を識別するNE識別情報と、NE識別情報に対応するIPアドレスなどの情報が対応付けられた情報である。本実施形態では、NE識別情報が「1」である場合には図1におけるNE100−1を示し、NE識別情報が「2」である場合にはNE100−2を示すといったように、NE識別情報の数字(N)と、図1においてNE100の後に付された数字(NE100−N)とが対応することとする。NE情報記憶部210には、監視サーバ200の起動時に管理サーバ300からNE情報が送信され、記憶される。
【0020】
図2に戻り、監視対象NE抽出部220は、管理サーバ300から送信される割り振り情報と、予め定められた割り振り条件とに基づいて、NE情報記憶部210に記憶されたNE情報のうち、自身の監視サーバ200が監視対象とするNE100の識別情報を抽出する。例えば、管理サーバ300から送信される割り振り情報として、起動状態にある監視サーバ200の台数と、監視サーバ200毎の割り振り番号と、NE情報とを受信する。予め定められた割り振り条件には、NE情報に含まれるNE識別情報を、起動状態にある監視サーバ200の台数で割った余り(剰余)の値が、自身の割り振り番号に一致するNE識別情報を自身の監視対象とする条件を適用することができる。
【0021】
例えば、監視サーバ200−1と、監視サーバ200−2と、監視サーバ200−3との3台が起動状態にあり、監視サーバ200−1には割り振り番号として「0」が割り振られ、監視サーバ200−2には割り振り番号として「1」が割り振られ、監視サーバ200−3には割り振り番号として「2」が割り振られ、NE情報に含まれるNE識別情報が1〜9であるとする割り振り情報が送られる。監視サーバ200が、この割り振り情報と上述の割り振り条件とに基づいて監視対象のNE100を抽出すると、監視サーバ200−1の監視対象は、NE情報に含まれるNE識別情報「1〜9」を起動状態にある監視サーバ200の台数「3」で割った余りが「0」となるNE100−3、NE100−6、NE100−9となる。同様に、監視サーバ200−2の監視対象はNE100−1、NE100−4、NE100−7となる。同様に、監視サーバ200−3の監視対象はNE100−2、NE100−5、NE100−8となる。
【0022】
通信部230は、ネットワークを介して管理サーバ300と情報の送受信を行う。
NE監視部240は、監視対象NE抽出部220によって監視対象として抽出されたNE識別情報に対応するNE100とICMPやSNMPに基づく通信を行い、監視対象のNE100を監視する。NE監視部240は、定められた周期ごとに監視対象のNE100に情報取得要求のポーリングを行い、NE100からエラーが発生したことを示すエラー情報を受信すると、通信部230を介して管理サーバ300に送信する。また、NE監視部240が通信部230を介して管理サーバ300に送信するエラー情報には、監視サーバ200からNE100への情報取得要求に対する応答として送信されるエラー情報の他に、情報取得要求に対してNE100が応答せず、応答がタイムアウトした場合のエラー情報や、NE100が、自身に異常が発生した場合に自発的に送信し、自身の変化を通知するSNMPトラップと呼ばれるエラー情報がある。
【0023】
OS250は、監視サーバ200が備えるCPU、メモリ、HDDなどのハードウェアリソースを管理し、監視サーバ200が備える各機能部からの要求に応じてハードウェアリソースの資源割り当てを行う基本ソフトウェアである。OS250には、CPU、メモリ、HDDなどの各ハードウェアリソースの性能、容量、使用率、空き容量などがリアルタイムに記憶される。また、OS250は監視サーバ200が備えるNE監視部240などの各機能部にハードウェアリソースの資源割り当てを行っており、資源割り当てを行っているか否かによって各機能部のプロセスが起動状態にあるか否かを判定することが可能である。
【0024】
図1に戻り、管理サーバ300は、複数台の監視サーバ200に接続されたコンピュータ装置であり、監視サーバ200から送信されるエラー情報を受信して記憶するとともに、複数台の監視サーバ200の動作を管理する。図2を参照して、管理サーバ300の詳細な構成を説明する。管理サーバ300は、NE情報記憶部310と、通信部320と、監視サーバ状態取得部330と、監視サーバ情報記憶部340と、割り振り情報送信部350と、エラー情報記憶部360と、OS370とを備えている。
【0025】
NE情報記憶部310には、図3に示したNE情報が記憶されている。NE情報は、管理者からの操作情報の入力に応じて記憶される。NE情報記憶部310に記憶されたNE情報は、監視サーバ状態取得部330が、監視サーバ200が起動したことを検知すると、通信部320によって監視サーバ200に送信される。
通信部320は、ネットワークを介して複数台の監視サーバ200のそれぞれと情報の送受信を行う。通信部320は、例えば、監視サーバ200にNE情報を送信し、また、各監視サーバ200がNE100から受信したエラー情報を受信する。また、通信部320は、図1に示したAPサーバ400からの要求に応じて、エラー情報記憶部360に記憶されたNE100のエラー情報を送信する。
監視サーバ状態取得部330は、通信部320を介して監視サーバ200と通信を行い、監視サーバ200の状態を示す情報を取得して監視サーバ情報記憶部340に記憶させる。図4は、監視サーバ情報記憶部340に記憶される監視サーバ情報のデータ例を示す図である。監視サーバ情報には、監視サーバ識別情報に対応付けられて、起動フラグと、ポーリング所要時間と、CPU数と、CPU使用率と、メモリ容量と、HDD容量などの情報が含まれる。
【0026】
監視サーバ情報に含まれる監視サーバ識別情報は、複数台の監視サーバ200のそれぞれを識別する情報である。起動フラグは、監視サーバ識別情報に示される監視サーバ200のNE監視部240が起動状態にあるか停止状態にあるかを示す情報である。例えば、起動フラグには、監視サーバ200のNE監視部240が起動状態であれば「1」が、停止状態であれば「0」が記憶される。例えば、監視サーバ状態取得部330は、監視サーバ200のOS250を介してNE監視部240のプロセスに通信要求を行い、応答があればNE監視部240は起動状態であると判定し、応答がなければNE監視部240は停止状態であると判定する。
【0027】
監視サーバ情報に含まれるポーリング所要時間は、監視サーバ200が監視対象とするNE100にポーリングを行い、監視対象の全てのNE100から応答を受信するまでの実績の所要時間である。監視サーバ状態取得部330は、通信部320を介して監視サーバ200のNE監視部240からポーリング所要時間を取得して監視サーバ情報記憶部340に記憶させる。
【0028】
監視サーバ情報に含まれるCPUは、監視サーバ200に備えられるCPUの個数やクロック数などの性能を示す情報である。CPU使用率は、監視サーバ200にて実行されているソフトウェアが単位時間あたりにCPUを占有している時間の割合であり、例えば0%付近であれば何も実行されていないことを示し、100%であれば継続して処理が実行されており、100%付近の状態が続く場合にはCPUの処理能力を超えた処理要求が行われていることを示す。メモリ容量は、監視サーバ200に備えられるメモリの容量を示す情報である。HDD空き容量は、監視サーバ200に備えられるHDDのうち、空き容量を示す情報である。ここで、起動フラグや、CPU、CPU使用率、メモリ容量、HDD空き容量等のマシン性能情報は、監視サーバ200のOS250と通信を行うことにより取得することができる。
【0029】
割り振り情報送信部350は、監視サーバ状態取得部330が監視サーバ200のNE監視部240が起動または停止し、起動状態が変化したことを検知すると、NE情報記憶部310に記憶されたNE情報と、監視サーバ情報記憶部340に記憶された監視サーバ情報とに基づいて割り振り情報を生成し、起動状態にある監視サーバ200に送信する。例えば、割り振り情報には、上述のように、起動状態にある監視サーバ200の台数と、NE情報記憶部310に記憶されたNE情報と、監視サーバ200への割り振り番号とが含まれる。ここで、割り振り番号には、0以上かつ起動状態にある監視サーバ200の台数以下の数字であって、監視サーバ200のそれぞれに一意となる数字が付与される。
エラー情報記憶部360には、監視サーバ200から送信され、通信部320が受信したNE100のエラー情報が記憶される。
OS370は、監視サーバ200が備えるCPU、メモリ、HDDなどのハードウェアリソースを管理し、監視サーバ200が備える各機能部からの要求に応じてハードウェアリソースの資源割り当てを行う基本ソフトウェアである。
【0030】
図1に戻り、APサーバ400は、監視用クライアント端末500からの要求に応じて管理サーバ300のエラー情報記憶部360に記憶されたNE100のエラー情報を読み出し、監視用クライアント端末500に送信する。本実施形態では、APサーバ400はウェブサービス機能部を備えており、管理サーバ300から読み出した異常通知を、HTTP(HyperText Transfer Protocol)などの通信により監視用クライアント端末500に送信する。
【0031】
監視用クライアント端末500は、APサーバ400から送信される複数のNE100の状態を出力するコンピュータ端末である。監視用クライアント端末500は、IPネットワーク(a)の管理者に利用され、管理者からの要求に応じてAPサーバ400から監視対象のNE100のエラー情報を受信して表示する。本実施形態では、監視用クライアント端末500は、ウェブブラウザ機能部を備えており、APサーバ400と通信を行って、APサーバ400から送信されるエラー情報を自身が備えるディスプレイに出力する。ここで、監視用クライアント端末500は、例えば、NE100にエラーが発生した発生日時、エラー情報に対応するエラーメッセージ、エラー情報を送信したNE100のIPアドレスなどを表示する。IPネットワーク(a)の管理者は、監視用クライアント端末500に表示される異常通知によって監視対象のNE100の状態や発生した異常を知ることができ、故障の早期発見と復旧等の適切な処置を行うことができる。
【0032】
次に、図5を参照して、監視サーバ200−1のNE監視部240−1が停止した場合に監視対象の再割り振りが行われる動作例を説明する。
初期状態では、監視サーバ200−1、監視サーバ200−2、監視サーバ200−3のいずれもが起動状態であり、図1に示したそれぞれの監視対象のNE100に情報取得要求を送信してポーリングによる監視を行っているとする。監視サーバ200−1のNE監視部240−1にエラーが発生し、動作が停止すると(ステップS1)、管理サーバ300の監視サーバ状態取得部330が、監視サーバ200−1のNE監視部240−1が停止したことを検知する(ステップS2)。
【0033】
管理サーバ300の割り振り情報送信部350は、NE情報記憶部310から読み出したNE情報に基づいて、監視サーバ200−2と監視サーバ200−3とに対応する割り振り情報を生成して送信する(ステップS3)。ここで、割り振り情報に含まれる起動状態の監視サーバ200の台数を示す情報は2台であり、NE情報に含まれるNE識別情報は1〜9であり、監視サーバ200−2の割り振り番号は0であり、監視サーバ200−3の割り振り番号は1であるとする。
【0034】
監視サーバ200−2は、送信された割り振り情報を受信すると、割り振り情報に含まれるNE情報をNE情報記憶部210−2に記憶させる。監視サーバ200−2の監視対象NE抽出部220−1は、管理サーバ300から受信した割り振り情報と、予め定められ自身の記憶領域に記憶された割り振り条件とに基づいて、NE情報記憶部210−2に記憶させたNE情報のうち、自身の監視対象とするNE識別情報を抽出する(ステップS4)。ここで、監視対象NE抽出部220−2が抽出する監視対象のNE識別情報は、NE情報に含まれるNE識別情報「1〜9」を、起動状態にある監視サーバ200の台数「2」で割った余りが「0」となるNE100−2、NE100−4、NE100−6、NE100−8である。NE監視部240−2は、監視対象NE抽出部220−2が抽出したNE識別情報に対応する監視対象のNE100の監視を行う(ステップS5)。
【0035】
同様に、監視サーバ200−3の監視対象NE抽出部220−3が、監視対象のNE識別情報を抽出する(ステップS6)。ここで、監視対象NE抽出部220−3が抽出する監視対象のNE識別情報は、NE情報に含まれるNE識別情報「1〜9」を、起動状態にある監視サーバ200の台数「2」で割った余りが「1」となるNE100−1、NE100−3、NE100−5、NE100−7、NE100−9である。NE監視部240−3は、監視対象NE抽出部220−3が抽出したNE識別情報に対応する監視対象のNE100の監視を行う(ステップS7)。図6は、このように監視対象の再割り振りが行われた後のネットワークシステム1の監視状態を示す図である。
【0036】
このように、大量のNE100の監視を複数台の監視サーバ200が分担して監視するネットワークシステム1において、複数台の監視サーバ200のうちのいずれかの監視サーバ200にエラーが発生して停止した場合に、停止した監視サーバ200の監視対象とするNE100の監視を他の監視サーバ200に再割り振りを行うようにすれば、監視サーバ200が故障した場合にも、監視対象とする全てのNE100に対する監視を途切れさせることなく、また予め監視サーバ200を増設しておくことなく、NE100の監視の可用性を高めることが可能となる。なお、監視サーバ200により行われる監視対象の割り振りは、管理サーバ300で行うようにしても良い。この場合、管理サーバにより生成された監視対象の割り振りを示す割り振り結果情報が各監視サーバ200に送信され、各監視サーバ200は、管理サーバ200から受信した割り振り結果情報に基づいて監視対象のNE100を監視する。
【0037】
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。第1の実施形態では、複数の監視サーバ200のうちいずれかの監視サーバ200が停止状態となった場合、稼動中の監視サーバ200に管理サーバ300が割り振り情報を送信し、監視サーバ200の監視対象のNE100の再割り振りを行う例を説明した。ここで、多数の監視サーバ200がエラーの発生や工事などで停止状態となり、稼動中の監視サーバ200の台数が著しく減少した場合、稼動中の監視サーバ200に、その処理能力を超えて監視対象のNE100が割り振られることが考えられる。そこで、監視サーバ200の処理負荷が一定の閾値を超えることが推測される場合、監視サーバ200がNE100を監視する監視周期を延伸し、監視サーバ200に過剰な負荷がかからないように縮退運転を行うようにしても良い。
【0038】
この場合、例えば、図7に示すように、管理サーバ300に監視対象NE抽出部380と監視周期算出部390とを設ける。
監視対象NE抽出部380は、監視サーバ200が備える監視対象NE抽出部220と同様の処理を行う。すなわち、監視対象NE抽出部380は、割り振り情報送信部350によって生成される割り振り情報と、予め定められた割り振り条件とに基づいて、監視サーバ200のそれぞれが監視対象とするNE100の識別情報を抽出する。
【0039】
監視周期算出部390は、監視サーバ200が監視対象のNE100にポーリングを行う周期を算出する。ここで、監視周期算出部390は、監視対象NE抽出部380が抽出した監視サーバ200毎の監視対象のNE100の割り振り台数と、監視サーバ情報記憶部340に記憶された監視サーバ200のマシン性能(CPU使用率、メモリ容量など)とに基づいて監視サーバ200の処理負荷を算出する。監視周期算出部390は、算出した監視サーバ200の処理負荷が予め定められた閾値を超える場合、処理負荷が閾値を下回る監視サーバ200の監視周期を算出する。監視周期算出部390が算出した監視周期は、通信部320を介して監視サーバ200に送信される。監視サーバ200のNE監視部240は、管理サーバ300から送信される監視周期に応じた周期で、監視対象のNE100にポーリングを行う。
【0040】
<第3の実施形態>
次に、本発明の第3の実施形態について説明する。第2の実施形態では、監視対象の再割り振りを行うと、監視サーバ200の処理負荷が予め定められた閾値を超える場合に、監視サーバ200のマシン性能に応じてNE100の監視周期を延伸して縮退運転を行う例を説明した。ここで、監視サーバ200がNE100を監視する監視周期は、監視サーバ情報記憶部340に記憶される監視サーバ情報に含まれるポーリング所要時間に基づき、安全率を考慮して算出するようにしても良い。例えば、監視周期算出部390は、特定の監視サーバ200の監視対象のNE100の台数とポーリング所要時間との比に応じて、再割り振りによって増加する監視対象の台数に応じたポーリング所要時間を推測して算出し、ポーリング時間の推測値に安全率(例えば、1.5倍)を乗じた時間を、NE100を監視する監視周期として算出するようにしても良い。
【0041】
<第4の実施形態>
次に、本発明の第4の実施形態について説明する。第1の実施形態では、複数の監視サーバ200のうちいずれかの監視サーバ200が停止状態となった場合、稼動中の監視サーバ200の全てに管理サーバ300が割り振り情報を送信し、監視サーバ200の監視対象のNE100の再割り振りを行う例を説明した。ここで、監視対象NE100の再割り振りは、停止した監視サーバ200が監視対象としていたNE100のみを、稼動中の監視サーバ200に割り振るようにしても良い。例えば、図8に示すように、図1において監視サーバ200−1の監視対象であったNE100−3を監視サーバ200−2の監視対象として割り振り、監視サーバ200−1の監視対象であったNE100−6、NE100−9を監視サーバ200−3の監視対象に割り振る。これにより、全ての監視サーバ200の監視対象の再割り振りを行うことに比べて、監視対象の割り振りに変動のあるNE100の数が少なくなり、効率よく監視対象の再割り振りを行うことができる。
【0042】
なお、上述の実施形態では、稼動中の監視サーバ200の台数に応じて、監視対象のNE100を割り振るようにしたが、稼動中の監視サーバ200のマシン性能に応じて監視対象のNE100を割り振るようにしても良い。ここで、マシン性能は、例えば、監視サーバ情報記憶部340に記憶される監視サーバ情報に含まれるCPU使用率やメモリ容量などを用いることができる。例えば、監視サーバ200−2のメモリ量が監視サーバ200−2のメモリ量の倍であれば、倍の数のNE100を監視対象として割り振ることが考えられる。
【0043】
また、監視サーバ情報記憶部340に記憶された監視サーバ200のHDD空き容量に応じて監視対象のNE100を割り振るようにしても良い。特に、NE100から送信されるエラー情報が監視サーバ200に一時的に蓄積される場合には、HDD空き容量がより多い監視サーバ200により多くのNE100を監視対象として割り振ることで、複数台の監視サーバ200を有効に利用することができる。
また、予め1台または複数台の待機系の監視サーバ200を停止状態でネットワークシステム1に接続しておき、停止した監視サーバ200が監視対象としていたNE100の監視を、待機系の監視サーバ200に割り振るようにしても良い。
【0044】
また、上述の実施形態では、監視サーバ200のマシン性能、またはポーリング所要時間に応じて監視サーバ200がNE100を監視する監視周期を延伸して縮退運転を行うこととしたが、例えば、一定の台数を超えて監視サーバ200が停止した場合、監視対象のNE100の割り振りを行う稼動中の監視サーバ200がNE100を監視する監視周期を予め定められた一定倍(例えば、2倍)にすることにより縮退運転を行うようにしても良い。また、同様に、1台あたりの監視サーバ200が監視するNE100の数が一定の台数を超えた場合、監視対象のNE100の割り振りを行う稼働中の監視サーバ200の監視周期を予め定められた一定倍(例えば、2倍)にすることにより縮退運転を行うようにしても良い。
【0045】
なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりネットワークの監視を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0046】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【図面の簡単な説明】
【0047】
【図1】本発明の一実施形態によるネットワークシステムの構成を示す図である。
【図2】本発明の一実施形態による管理サーバと監視サーバとの構成を示すブロック図である。
【図3】本発明の一実施形態によるNE情報のデータ例を示す図である。
【図4】本発明の一実施形態による監視サーバ状態情報のデータ例を示す図である。
【図5】本発明の一実施形態によるネットワークシステムの動作例を示す図である。
【図6】本発明の一実施形態により監視対象の再割り振りが行われたネットワークシステムの構成を示す図である。
【図7】本発明の一実施形態による管理サーバと監視サーバとの構成を示すブロック図である。
【図8】本発明の一実施形態により監視対象の再割り振りが行われたネットワークシステムの構成を示す図である。
【図9】従来技術によるネットワークシステムの構成を示す図である。
【図10】従来技術によるネットワークシステムの構成を示す図である。
【符号の説明】
【0048】
1 ネットワークシステム
100 NE
200 監視サーバ
210 NE情報記憶部
220 監視対象NE抽出部
230 通信部
240 NE監視部
250 OS
300 管理サーバ
310 NE情報記憶部
320 通信部
330 監視サーバ状態取得部
340 監視サーバ情報記憶部
350 割り振り情報送信部
360 エラー情報記憶部
370 OS
380 監視対象NE抽出部
390 監視周期算出部
400 APサーバ
500 監視用クライアント端末
600 NE
700 監視サーバ

【特許請求の範囲】
【請求項1】
通信ネットワークを構成する複数のネットワークエレメントのうち、予め定められた監視対象の前記ネットワークエレメントを監視し、当該ネットワークエレメントから送信されるエラー情報を受信する複数の監視サーバと、前記複数の監視サーバのそれぞれから送信される前記エラー情報が記憶される管理サーバとを備えたネットワーク監視システムであって、
前記監視サーバは、
前記管理サーバから、前記複数のネットワークエレメントから自身の監視対象のネットワークエレメントを抽出する割り振り情報を受信する受信部と、
前記受信部が受信した前記割り振り情報に応じた前記監視対象のネットワークエレメントを監視するネットワークエレメント監視部と、を備え、
前記管理サーバは、
前記複数の監視サーバのうち、いずれかの前記監視サーバによる前記ネットワークエレメントの監視処理が停止したことを検知する検知部と、
前記検知部が前記ネットワークエレメントの監視処理が停止したことを検知すると、前記監視処理を停止した前記監視サーバ以外の監視サーバに、前記監視処理を停止した前記監視サーバが監視対象としていた前記ネットワークエレメントを含むネットワークエレメントを監視対象として抽出する割り振り情報を送信する割り振り情報送信部と、
を備えることを特徴とするネットワーク監視システム。
【請求項2】
前記管理サーバの前記割り振り情報送信部が送信する前記割り振り情報は、前記通信ネットワークを構成する複数のネットワークエレメントの全てから、前記監視サーバ以外の監視サーバのそれぞれが監視対象とするネットワークエレメントを抽出する割り振り情報である
ことを特徴とする請求項1に記載のネットワーク監視システム。
【請求項3】
前記管理サーバの前記割り振り情報送信部が送信する前記割り振り情報は、前記監視処理を停止した前記監視サーバが監視対象としていたネットワークエレメントのみを、前記監視サーバ以外の監視サーバが追加の監視対象として抽出する割り振り情報である
ことを特徴とする請求項1に記載のネットワーク監視システム。
【請求項4】
前記監視サーバは、
予め定められた監視周期ごとに前記監視対象のネットワークエレメントの監視処理を行い、
前記管理サーバは、
前記監視サーバの処理能力を示す監視サーバ情報が記憶される監視サーバ情報記憶部と、
前記割り振り情報送信部によって送信される前記割り振り情報により前記監視サーバに監視対象として割り振られる前記ネットワークエレメントと、当該監視サーバに対応する前記監視サーバ情報とに基づく当該監視サーバの監視処理の処理負荷が、予め定められた閾値を超える場合、前記監視サーバに、前記監視周期を延伸することを示す情報を送信する
ことを特徴とする請求項1から請求項3までのいずれか1項に記載のネットワーク監視システム。
【請求項5】
前記管理サーバの前記監視サーバ情報記憶部に記憶される前記監視サーバ情報には、前記監視サーバのCPU使用率とメモリ量とによって前記監視サーバの処理能力を示す情報が含まれる
ことを特徴とする請求項4に記載のネットワーク監視システム。
【請求項6】
前記管理サーバの前記監視サーバ情報記憶部に記憶される前記監視サーバ情報には、前記監視サーバによるネットワークエレメントの監視処理の所要時間によって前記監視サーバの処理能力を示す情報が含まれる
ことを特徴とする請求項4または請求項5に記載のネットワーク監視システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2010−87834(P2010−87834A)
【公開日】平成22年4月15日(2010.4.15)
【国際特許分類】
【出願番号】特願2008−254567(P2008−254567)
【出願日】平成20年9月30日(2008.9.30)
【出願人】(000102728)株式会社エヌ・ティ・ティ・データ (438)
【Fターム(参考)】