説明

監視サーバ、監視プログラムおよび監視方法

【課題】機器のサイレント故障を検査する。
【解決手段】監視サーバ1は、機器データ12aの検査対象の機器に検査データ11aを送信し、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該機器の識別子を結果データ13aに記憶するエラー検査手段21を備える。ここで監視サーバ1はさらに、トポロジーデータ15aに基づいて通信システム3のネットワーク構成を表示装置40に表示するとともに、結果データ13aに含まれる機器の識別子を抽出し、抽出した機器の識別子に基づいて表示装置40に警告を表示する表示手段23を備えても良い。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信システムにおける機器のサイレント故障を検査する監視サーバ、監視プログラムおよび監視方法に関する。
【背景技術】
【0002】
昨今の通信ネットワークの発達に伴い、故障した通信機器の特定や、その故障した通信機器への対応は重要な課題となっている。早期に故障した通信機器を特定し、その機器に対応することにより、通信ネットワークを安定して提供することができる。
【0003】
通信機器の正常な稼働を確認するために、検査データを送信する方法がある(例えば、非特許文献1参照。)。例えば、検査対象の通信機器に、イーサネット(登録商標)ループバックや、pingなどのコマンドを送信し、その応答がある場合に、通信機器は正常と判断することができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】ITU-T Recommendation Y.1731 - OAM functions and mechansims for Ethernet based networks
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の方法では、通信が可能なことは確認できるものの、データが正常に送受信されているかを判定することはできない。
【0006】
一般的に、スイッチは論理回路やSRAMなどを備える。高エネルギー中性子がこれらの半導体基板に衝突し、衝突で放出された重イオンが電流パルスを引き起こすことにより、これらの半導体基板において、データが反転する事象が発生する場合がある。
【0007】
このような事象が発生している状況で、イーサネットループバックや、pingなどのコマンドを送信すると、その応答は、正常に返ってくる。しかし、このようなスイッチ内のメモリエラーを検出することはできない。本明細書において、このような通信機器内のメモリエラーを、サイレント故障と称する。
【0008】
従って本発明の目的は、通信システムにおける機器のサイレント故障を検査する監視サーバ、監視プログラムおよび監視方法を提供することである。
【課題を解決するための手段】
【0009】
上記課題を解決するために、本発明の第1の特徴は、複数の機器と、機器のサイレント故障を検査する監視サーバと、を備える通信システムにおける監視サーバに関する。本発明の第1の特徴に係る監視サーバは、サイレント故障の検査対象の機器の識別子を含む機器データを記憶する機器データ記憶部と、機器に送信する検査データを記憶する検査データ記憶部と、機器データの検査対象の機器に検査データを送信し、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、当該機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該機器の識別子を結果データに記憶するエラー検査手段と、を備える。
【0010】
ここで、機器の識別子とともに、通信システムのトポロジーを示すトポロジーデータを記憶するトポロジーデータ記憶部と、トポロジーデータに基づいて通信システムのネットワーク構成を表示装置に表示するとともに、結果データに含まれる機器の識別子を抽出し、抽出した機器の識別子に基づいて表示装置に警告を表示する表示手段を備えても良い。
【0011】
また、検査データ記憶部は、異なる複数の検査データが記憶され、エラー検査手段は、検査データ記憶部に記憶された複数の検査データをそれぞれ、検査対象の機器に送信しても良い。
【0012】
さらに、エラー検査手段において、いずれかの機器で一致しないと判定された場合、当該機器に隣接する機器のMIPに検査データを送信し、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、当該機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該MIPの識別子に基づいて、サイレント故障が発生した機器を特定する詳細エラー検査手段をさらに備えても良い。
【0013】
ここで詳細エラー検査手段は、結果データおよびトポロジーデータを参照し、隣接する機器のいずれか一方の識別子が、結果データに含まれる場合、当該隣接する機器のMIPに検査データを送信しても良い。
【0014】
情報システムが、運用系の機器と待機系の機器を備える場合、エラー検査手段は、待機系の機器に、検査データを送信しても良い。
【0015】
本発明の第2の特徴は、本発明の第1の特徴のいずれかに係る記載の監視プログラムである。
【0016】
本発明の第3の特徴は、機器のサイレント故障を検査する監視サーバを備える通信システムにおける監視方法に関する。本発明の第3の特徴に係る監視方法は、監視サーバが、第1の検査データと当該第1の検査データに対応する第1の誤り検出データ含む第1のデータを、宛先の機器に送信するステップと、監視サーバおよび宛先の機器に接続され、中継する機器が、第1のデータを受信すると、第1のデータから第1の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第2の検査データから第2の誤り検出データを算出し、当該記憶装置から読み出した第2の検査データと第2の誤り検出データを含む第2のデータを、宛先の機器に送信するステップと、宛先の機器が、第2のデータを受信すると、第2のデータから第2の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第3の検査データから第3の誤り検出データを算出し、当該記憶装置から読み出した第3の検査データと第3の誤り検出データを含む第3のデータを、監視サーバに送信するステップと、中継する機器が、第3のデータを受信すると、第3のデータから第3の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第4の検査データから第4の誤り検出データを算出し、当該記憶装置から読み出した第4の検査データと第4の誤り検出データを含む第4のデータを、監視サーバに送信するステップと、監視サーバが第4のデータを受信すると、第4の検査データと、第4の検査データと、が一致するか否かを判定し、一致しない場合、当該経路においてサイレント故障が発生していると判定するステップを備える。
【発明の効果】
【0017】
本発明によれば、通信システムにおける機器のサイレント故障を検査する監視サーバ、監視プログラムおよび監視方法を提供することができる。
【図面の簡単な説明】
【0018】
【図1】図1は、本発明の実施の形態に係る通信システムの構成図である。
【図2】図2は、本発明の実施の形態に係る通信システムにおける監視方法を説明するシーケンス図である。
【図3】図3は、本発明の実施の形態に係る監視サーバを説明する機能ブロック図である。
【図4】図4は、フレームの長さによって、検知されるエラーを説明する図である。
【図5】図5は、トラヒックによって、検知されるエラーを説明する図である。
【図6】図6は、本発明の実施の形態に係る機器データのデータ構造とデータの一例を説明する図である。
【図7】図7は、本発明の実施の形態に係る監視サーバが表示する結果表示画面の一例である。
【図8】図8は、本発明の実施の形態に係る詳細エラー検査手段の処理を説明する図である。
【図9】図9は、本発明の実施の形態に係る監視サーバの処理を説明するフローチャートである。
【図10】図10は、本発明の実施の形態に係る監視サーバが、サイレント故障を検査する待機系システムを説明する図である。
【発明を実施するための形態】
【0019】
次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。
【0020】
(通信システム)
図1を参照して、本発明の実施の形態に係る通信システム3を説明する。通信システム3は、複数の機器と、監視サーバ1と、を備える。ここで、図1に示す例においては、複数の機器が、第1のスイッチ2aないし第12のスイッチ2lの12のスイッチである場合について説明する。機器の数はこれに限られないし、機器はスイッチでなくても良い。また、本実施形態においてこれらのスイッチを区別する必要のない場合、単にスイッチ2と記載する場合がある。
【0021】
図1に示す例において、スイッチ2間を結ぶリンクは、通信ネットワークが隣接していることを示す。例えば第1のスイッチ2aは、第2のスイッチ2bおよび第3のスイッチ2cと隣あって接続される。第2のスイッチ2bは、第1のスイッチおよび第4のスイッチ2dと隣あって接続される。このように、図1に示すスイッチ2は、双方向に通信可能なネットワークにより、網状に相互に通信可能に接続される。図1に示す例において監視サーバ1は、第1のスイッチ2aにのみ接続されるが、この接続形態には限られない。
【0022】
監視サーバ1は、スイッチ2などの機器のサイレント故障を検査する。監視サーバ1は、検査対象のスイッチ2に、所定の検査データを送信する。検査対象のスイッチ2は、ICMP(Internet Control Message Protocol)のエコー要求機能を利用して、検査データをそのまま返信し、監視サーバ1は、検査対象のスイッチ2から、エコー応答として検査データを受信する。監視サーバ1は、送信した検査データと、受信した検査データと、を比較し、各ビットが一致するか否かを判定する。一致しない場合、監視サーバ1から検査対象のスイッチ2までの経路上のスイッチのいずれかにおいて、サイレント故障が発生していると判定する。監視サーバ1は、すべての検査対象のスイッチ2に同様に検査データを送信し、送信した検査データと、受信した応答データとが一致しなかったスイッチ2を特定する。監視サーバ1は、ネットワーク構成と比較し、隣接するスイッチ2のいずれか一方のみが一致しなかった場合、監視サーバ1は、この隣接するスイッチ2を、サイレント故障の被疑区間として特定する。
【0023】
ここで、本発明の実施の形態において、被疑区間のスイッチ2のMIPに対してイーサネットループバックを利用して検査データを送信する。これにより、いずれのスイッチ2でサイレント故障が発生しているかを検知することができる。
【0024】
スイッチ2は、検査データを含むデータを受信すると、その宛先のスイッチにデータを転送する。このときスイッチ2は、データを受信すると、データに含まれる検査データをスイッチ2のメモリに記憶し、そのメモリから検査データを読み出して、宛先のスイッチに転送する。ここで、検査データが記憶されたメモリに不具合が生じている場合が考えられる。この場合、スイッチ2が検査データを記憶したアドレスに基づいてデータを読み出しても、スイッチ2において書き込んだデータと読み出したデータに差異が生じる場合がある。メモリの所定のビットに不具合が生じている場合、そのビットにデータを記憶しても正しくデータを保持できないため、読み出したデータが、書き込んだデータと異なる事象が発生するからである。本発明の実施の形態に係る監視サーバ1は、このようなサイレント故障を検出することができる。
【0025】
図2を参照して、本発明の実施の形態に係る監視方法を説明する。図2においては、監視サーバ1が、第1のスイッチ2a、第2のスイッチ2bを介して宛先スイッチ2nに検査データを送信する場合を説明する。ここで、宛先スイッチ2nは、図1に示す例において、監視サーバ1と、第1のスイッチ2aおよび第2のスイッチ2bを介して接続される第4のスイッチ2dである。
【0026】
まずステップS1において監視データ1は、pingコマンドを使ってデータD1を、宛先スイッチ2n宛に送信する。このデータD1は、宛先および送信元を示すヘッダと、検査データC1と、このヘッダおよび検査データC1に対するFCS(フレームチェックシーケンス:誤り検出データ)を含む。このFCSは、エラー検出のために、監視サーバ1において算出され、データD1に含まれる。
【0027】
第1のスイッチ2aがデータD1を受信すると、ステップS2において、受信したデータD1をメモリに記憶する。スイッチ2aは、データD1からFCSを外し、メモリから読み出したヘッダおよび検査データC2について、新たにFCSを算出する。ステップS3において第1のスイッチ2aは、メモリから読み出した検査データC2と、ヘッダおよび検査データC2から算出したFCSを含むデータD2を、送信する。
【0028】
第2のスイッチ2bがデータD2を受信すると、ステップS4において、受信したデータD2をメモリに記憶する。スイッチ2bは、データD2からFCSを外し、メモリから読み出したヘッダおよび検査データC3について、新たにFCSを算出する。ステップS5において第2のスイッチ2bは、メモリから読み出した検査データC3と、ヘッダおよび検査データC3から算出したFCSを含むデータD3を、送信する。
【0029】
宛先スイッチ2nはデータD3を受信すると、ステップS6において、宛先スイッチ2nは、ICMPを利用して、発信元と宛先のアドレスを入れ替え、FCSを再計算し、pingコマンドの応答としてデータD4を送信する。
【0030】
ステップS7ないしステップS9において、検査データは、第2のスイッチ2bおよび第1のスイッチ2aを介して、監視サーバ1に送信される、監視サーバ1は、pingコマンドの応答として、第1のスイッチ2aからデータD6を受信すると、データD6に含まれる検査データC6と、ステップS1で送信した検査データC1とを比較する。
【0031】
ここで、データを中継した第1のスイッチ2a、第2のスイッチ2bおよび宛先スイッチ2nのいずれのメモリもエラーが発生しなければ、データD1の検査データC1と、データD6の検査データC6とは一致する。しかし、第1のスイッチ2a、第2のスイッチ2bおよび宛先スイッチ2nのいずれかにおいて、メモリエラーが発生し、そのエラーが発生した記憶領域に検査データが記憶されていた場合、データD1の検査データC1と、データD6の検査データC6とは一致しない。例えば、検査データC1が”1010101”で、検査データC6が”1010111”の場合、監視サーバ1は、第1のスイッチ2a、第2のスイッチ2bおよび宛先スイッチ2nのいずれかの検査データが保持された第5ビットにおいて、メモリエラーが発生していると特定することができる。
【0032】
この後、監視サーバ1は、同様に、サイレント故障が疑われる機器のMIPに対し、イーサループバックコマンドを使って、検査データを送信する。そこで監視サーバ1は、送信した検査データと、イーサループバックの応答として受信した検査データと、を比較して、一致するか否かを判定し、メモリエラーが発生した機器を特定することができる。
【0033】
(監視サーバ)
図3を参照して本発明の実施の形態に係る監視サーバ1を説明する。監視サーバ1は、記憶装置10、中央処理制御装置20、通信制御装置30および表示装置40を備える一般的なコンピュータである。監視サーバ1は、記憶装置10に記憶された監視プログラムが、中央処理制御装置20によって読み出され実行されることにより実現される。通信制御装置30は、例えばLANボードであって、監視サーバ1の通信を制御する。表示装置40は、一般的なディスプレイである。
【0034】
記憶装置10は、検査データ記憶部11、機器データ記憶部12、結果データ記憶部13、詳細結果データ記憶部14およびトポロジーデータ記憶部15を備える。
【0035】
検査データ記憶部11は、記憶装置10のうち、検査データ11aが記憶された記憶領域である。検査データ11aは、スイッチ2等の検査対象の機器に送信されるデータである。この検査データ11aは、例えば、所定のビット数だけ”1”や”0”が連続したフレームデータである。
【0036】
検査データ記憶部11には、異なる複数の検査データ11a、11b、11c…が記憶されても良い。例えば、スイッチ2のメモリにおけるサイレント故障は、そのメモリ領域のいずれの位置にも発生する可能性はある。そこで、本発明の実施の形態においては、ショートフレームの検査データ、ロングフレームの検査データなど、種々の検査データを予め検査データ記憶部11に記憶する。このような種々の検査データを検査対象の機器に送信することにより、監視サーバ1は、メモリのビットの位置を問わず、サイレント故障を検査することができる。
【0037】
例えば、図4(a)は、検査データがショートフレームの場合のスイッチ2のメモリを模式的に示す。ショートフレームの場合、記憶されるメモリ領域も少ない。従って、最大位近辺のビットでサイレント故障が発生すると、サイレント故障が検出されない場合がある。しかし、図4(b)に示すようにロングフレームの場合、メモリ領域のビットを多く使用する。従って、最大位近辺のビットでサイレント故障が発生している場合でも、サイレント故障が発生したビットにフレームが疎通される。これにより監視データ1は、サイレント故障を検出することができる。
【0038】
また、検査データ記憶部11には、ショートフレームとロングフレームを混合した複数の検査データの集合が記憶されても良い。これらの複数の検査データを所定時間内に送出することにより、高トラヒック状態を作り出すことができる。これにより、高トラヒック時にしか使用されないメモリ領域にもフレームが疎通されるので、サイレント故障を検査することができる。
【0039】
例えば図4(b)は、トラヒックが低い場合のスイッチ2のメモリを模式的に示す。低トラヒックの場合、スイッチ2のバッファ蓄積量が少ない。従って、バッファ蓄積量が多いときのみ使用するビットでサイレント故障が発生すると、サイレント故障が検出されない場合がある。しかし、図5(b)に示すように高トラヒックの場合、バッファ蓄積量が多くなりメモリ領域のビットも多く使う。従って、バッファ蓄積量が多いときのみ使用するビットでサイレント故障が発生する場合でも、サイレント故障が発生したビットにフレームが疎通される。これにより監視データ1は、サイレント故障を検出することができる。
【0040】
また、優先度によってスイッチ2において蓄積されるキューが異なる。従って、検査データ記憶部11に、優先度の異なる検査データが記憶されても良い。
【0041】
このように検査データ記憶部11には、監視サーバ1がサイレント故障を送信するために必要な、フレーム長、優先度、トラヒックなどの異なる種々の検査データが記憶される。
【0042】
機器データ記憶部12は、記憶装置10のうち、機器データ12aが記憶された記憶領域である。機器データ12aは、監視データ1のサイレント故障の検査対象の機器の識別子を含むデータである。
【0043】
機器データ12aは、例えば、図6に示すように、スイッチ2の識別子、IPアドレスおよびMIP識別子が対応づけられたデータである。スイッチ識別子として、図1で参照した機器の名称を用いているが、IPアドレスを用いても良い。IPアドレスは、後述するエラー検査手段21および表示手段23によって参照される。MIP識別子は、後述する詳細エラー検査手段22によって参照される。
【0044】
結果データ記憶部13は、記憶装置10のうち、結果データ13aが記憶された記憶領域である。結果データ13aには、後述するエラー検査手段21による検査結果が格納されたデータである。例えば結果データ13aには、エラーの発生したスイッチ2の識別子と、エラーの発生した検査データと、を対応づけて記憶する。例えば、第7のスイッチ2gにロングフレームの検査データを送信し、監視サーバ1が送信した検査データと、監視サーバ1が受信した検査データとが異なる場合、結果データ13aには、第7のスイッチ2gの識別子と、エラーの発生した検査データがロングフレームであることが記憶される。
【0045】
詳細結果データ記憶部14は、記憶装置10のうち、詳細結果データ14aが記憶された記憶領域である。詳細結果データ記憶部14aには、後述する詳細エラー検査手段22による検査結果が記憶された記憶領域である。詳細結果データ14aには、詳細エラー検査手段22において特定された、サイレント故障が発生した機器の識別子が記憶される。
【0046】
トポロジーデータ記憶部14は、スイッチ2などの機器の識別子とともに、通信システム3のトポロジーを示すデータである。トポロジーデータ15aは、図1に示すようなネットワーク構成を表示装置40に表示する際に参照される。トポロジーデータ15aは、スイッチ2の識別子と、そのスイッチ2の接続情報とが含まれる。
【0047】
中央処理制御装置20は、エラー検査手段21、詳細エラー検査手段22および表示手段23を備える。
【0048】
エラー検査手段21は、機器データ12aの検査対象のスイッチ2に検査データ11aを送信し、当該スイッチ2によって検査データがコピーされ返信された応答データを取得するとともに、当該スイッチ2に送信した検査データ11aと応答データとが、一致するか否かを判定する。一致しない場合、エラー検査手段21は、当該スイッチ2の識別子を結果データ13aに記憶する。
【0049】
ここで、検査データ記憶部11に複数の検査データが格納されている場合、エラー検査手段21は、検査データ記憶部11に記憶された複数の検査データ11a、11b、11c…のそれぞれを、機器データ12aの検査対象のスイッチ2に送信し、それぞれの検査データと、それぞれの検査データに対する応答データとが、一致するか否かを判定する。一致しない場合、エラー検査手段21は、当該スイッチ2の識別子および送信した検査データと、を対応づけて結果データ13aに記憶する。
【0050】
さらにエラー検査手段21は、複数の検査データを所定時間内に送信して高トラヒック状態をつくり、高トラヒック状態で送信した各検査データと、その状態で受信した各応答データとが、一致するか否かを判定する。一致しない場合、エラー検査手段21は、エラーが発生したスイッチ2の識別子と、高トラヒック状態でエラーが発生したことを対応づけて結果データ13aに記憶する。
【0051】
結果データ13aに何らデータが記憶されていない場合、すべての検査データが正常に送受信されているので、監視サーバ1によるサイレント故障の検査は終了する。一方、結果データ13aに何らかのデータが記憶されている場合、通信システム3のいずれかのスイッチ2でサイレント故障が発生していると考えられる。この結果データ13aは、表示手段23によって、表示装置40に表示される。
【0052】
表示手段23は、トポロジーデータ15aに基づいて通信システム3のネットワーク構成を表示装置40に表示するとともに、結果データ13aに含まれるスイッチ2の識別子を抽出し、抽出したスイッチ2の識別子に基づいて表示装置40に警告を表示する。
【0053】
表示手段23は、例えば図7に示す結果表示画面P101を表示装置40に表示する。結果表示画面P101は、通信システム3のトポロジーを表示するとともに、エラー検査手段21によってエラーが検出されたスイッチ2のアイコンをハッチングして表示している。
【0054】
例えば、結果データ13aには、第7のスイッチ2gないし第12のスイッチ2lの識別子が含まれる場合を考える。この場合、結果表示画面P101においては、第7のスイッチ2gないし第12のスイッチ2lに対応するアイコンがハッチングされている。これにより作業者は、第7のスイッチ2gないし第12のスイッチ2l宛の検査において検査データの不一致が確認され、これらのスイッチの近傍でサイレント故障が発生していることを認識することができる。図7に示す例では、エラーの発生したスイッチのアイコンをハッチングして表示したが、これに限られない。例えば点滅表示など、作業者にエラーが発生していることを示すことができれば、他の警告表示でも良い。
【0055】
表示手段23はさらに、サイレント故障が発生した被疑区間を結果表示画面P101に表示しても良い。表示手段23は、監視サーバ1は、隣接するスイッチ2のいずれか一方のみが、結果データ13aに含まれている場合、この隣接するスイッチを、被疑区間として特定することができる。図7に示す例では、第3のスイッチ2cおよび第7のスイッチ2g間と、第4のスイッチ2dおよび第8のスイッチ2h間とが、被疑区間として特定される。従って表示手段23は、第3のスイッチ2cおよび第7のスイッチ2g間と、第4のスイッチ2dおよび第8のスイッチ2h間とを、被疑区間として、結果表示画面P101に表示しても良い。
【0056】
エラー検査手段21においてエラーが発生した場合、詳細エラー検査手段22によって、サイレント故障の発生したスイッチ2が特定される。
【0057】
詳細エラー検査手段22は、エラー検査手段21によって何らかのエラーが検出された場合、サイレント故障が発生した機器を特定する。具体的には詳細エラー検査手段22は、エラーが検出された機器、具体的には、結果データ13aに含まれるスイッチ2に隣接するスイッチのMIPに検査データを送信し、当該スイッチ2によって検査データがコピーされ返信された応答データを取得する。詳細エラー検査手段22は、当該スイッチ2に送信した検査データと応答データとが、一致するか否かを判定する。一致しない場合、当該MIPの識別子に基づいて、サイレント故障が発生したスイッチ2を特定する。サイレント故障が発生したスイッチ2が特定されると、詳細エラー検査手段22は、そのスイッチ2の識別子を、詳細結果データ14aに記憶する。
【0058】
ここで詳細エラー検査手段22は、結果データ13aを読み出して、エラーの発生したスイッチ2の識別子を取得するとともに、トポロジーデータ15aを参照し、隣接する機器のいずれか一方の識別子が、結果データ13aに含まれる場合、イーサネットループバックコマンドを利用して、隣接するスイッチのMIPに検査データを送信する。
【0059】
図7に示す例において、第3のスイッチ2cおよび第7のスイッチ2gは一つのリンクで接続され隣接されているところ、第3のスイッチ2cの識別子は結果データ13aに含まれておらず、第7のスイッチ2gの識別子は結果データ13aに含まれている。同様に、第4のスイッチ2dの識別子は結果データ13aに含まれておらず、第8のスイッチ2hの識別子は結果データ13aに含まれている。そこで、詳細エラー検査手段22は、このように、隣接する2つのスイッチのうち、一方が結果データ13aに含まれ一方が結果データ13aに含まれない区間を、被疑区間として抽出し、この抽出した被疑区間のスイッチ2のMIPに対して検査データを送信する。図7に示す例の場合、第3のスイッチ2c、第4のスイッチ2d、第7のスイッチ2gおよび第8のスイッチ2hの各MIPに、検査データが送信される。
【0060】
詳細エラー検査手段22は、その検査データと、各MIPから受信した検査データとが一致するか否かに基づいて、サイレント故障が発生しているスイッチ2を特定することができる。
【0061】
図8を参照して説明する。エラー検査手段21において、監視サーバ1から第3のスイッチ2c宛に送信した場合はエラーが発生せず、第7のスイッチ2g宛に送信した場合にエラーが発生している。従って、第3のスイッチ2cおよび第7のスイッチ2gの区間は、このいずれかにおいてサイレント故障が発生している可能性がある被疑区間となる。そこで詳細エラー検査手段22は、第3のスイッチ2cのMIPおよび第7のスイッチ2gのMIPに検査データを送信する。
【0062】
図8は、第3のスイッチ2cにサイレント故障が発生している場合を示す。監視サーバ1が、第3のスイッチ2cの上流側のMIPに検査データを送信した場合は、送信したデータと受信したデータとは一致する。一方、第3のスイッチ2cの下流側のMIPに検査データを送信した場合は、第3のスイッチ2cのメモリに一度記憶された検査データが返信されるので、送信したデータと受信したデータとは一致しない。なお、第7のスイッチ2gの上流のMIPに検査データを送信しても同様に、送信したデータと受信したデータとは一致しない。そこで詳細エラー検査手段22は、一つのスイッチ2の上流側のMIPと下流側のMIPとで検査結果が異なる場合、このスイッチ2のメモリにおいてサイレント故障が発生していると特定することができる。
【0063】
ここで、結果データ13aに、エラーが発生したときの検査データの種別が含まれている場合、詳細エラー検査手段22は、同様の検査データを、MIPに送信する。例えば、エラー検査手段21においてロングフレームの検査データを送信してエラーが発生した場合、詳細エラー検査手段22は同様に、ロングフレームの検査データをMIPに送信する。またエラー検査手段21において高トラヒックの状態でエラーが発生した場合、詳細エラー検査手段22は同様に、高トラヒック状態で検査データをMIPに送信する。
【0064】
このように、詳細エラー検査手段22が、サイレント故障の発生しているスイッチ2を特定すると、そのスイッチ2の識別子を、詳細結果データ14aに記憶する。表示手段23は、詳細結果データ14aに含まれるスイッチ2の識別子に基づいて、サイレント故障が発生している機器である旨を表示装置40に表示する。
【0065】
図9を参照して、本発明の実施の形態に係る監視サーバ1の処理を説明する。
【0066】
通信システム3のサイレント故障の検査のタイミングになると、すべての対象機器およびすべての検査データについて、ステップS101ないしステップS103を繰り返す。ここで、すべての対象機器とは、図1に示す通信システム3の第1のスイッチ2aないし第12のスイッチ2lである。すべての検査データとは、検査データ記憶部11に記憶された検査データであって、例えば、ショートフレームの検査データ、ロングフレームの検査データ、優先度の異なる検査データなどである。また、高トラヒック状態をつくるために、複数の検査データの集合が含まれていても良い。
【0067】
まずステップS101において監視サーバ1は、対象機器にpingで検査データを送信し、その応答データを受信する。ステップS102において監視サーバ1は、検査データと応答データとを比較し、一致しない場合、当該対象機器の識別子と、当該検査データを、結果データ13aに記憶する。
【0068】
すべての対象機器およびすべての検査データについてステップS101ないしステップS103の処理が終了すると、監視サーバ1は、ステップS104において、サイレント故障が発生した被疑区間を特定する。監視サーバ1は、トポロジーデータ15aを参照し、隣接するスイッチ2のいずれか一方のみが、結果データ13aに含まれている場合、この隣接する2つのスイッチを結ぶ区間を、被疑区間として特定することができる。
【0069】
ステップS105において監視サーバ1は、トポロジーデータ15aに基づいて、通信システム3のトポロジーを表示装置40に表示する。さらに監視サーバ1は、結果データ13aに基づいて検査データと応答データとが一致しなかった検査データの宛先のスイッチ2をエラー表示するとともに、ステップS104で特定した被疑区間を表示装置40に表示する。なお、結果データ13aに何らデータが格納されていない場合、ステップS105において監視サーバ1は、エラーが発生していない旨を、表示装置40に表示しても良い。
【0070】
ステップS106において監視サーバ1は、詳細エラー検査を実施するか否かを決定するために、結果データ13aに記録があるか否かを判定する。記録がない場合、通信システム3の対象機器のいずれもサイレント故障が発生していないので、そのまま処理を終了する。一方、結果データ13aに記録がある場合、ステップS104で特定された被疑区間の機器の各MIPについて、ステップS107およびステップS108の処理が繰り返される。
【0071】
まずステップS107において監視サーバ1は、各MIPに、イーサネットループバックで、検査データを送信する。ステップS108において監視サーバ1は、検査データと応答データが一致するか否かを判定する。各MIPに対して検査データを送信すると、ステップS109においてサイレント故障が発生した被疑装置を特定する。具体的には、機器の上流側のMIP宛に送信した検査データについては一致し、下流側のMIP宛に送信した検査データについては一致しなかった場合、その機器にサイレント故障が発生していると特定することができる。
【0072】
被疑装置が特定されると、ステップS110において監視サーバ1は、特定された被疑装置の名称等を、表示装置40に表示する。ここで監視サーバ1は、トポロジーデータとともに、被疑装置のアイコンを警告表示しても良い。
【0073】
(適用例)
図10に示すように、本発明の実施の形態に係る監視サーバ1によって、待機系の機器についてサイレント故障を検出することが有効である。図10(a)に示すシステムは、待機系のAスイッチ200aと、運用系のBスイッチ200Bと、Aスイッチ200aまたはBスイッチ200bに処理を振り分けるCスイッチ200cを備える。
【0074】
この場合、Cスイッチ200cからBスイッチ200bに接続される第2のインスタンス201bにはトラヒックがあるものの、Cスイッチ200cからAスイッチ200aに接続される第1のインスタンス201aには、トラヒックはない。しかし、図10(b)に示すように、運用系システムの障害に伴い、待機系システムは運用を開始するところ、この待機系システムにサイレント故障が発生している状況では、問題が発生するおそれがある。
【0075】
そこで本発明の実施の形態に係る監視サーバ1が、運用系システムが正常に稼働する間、待機系システムの機器にサイレント故障の検査を実施することが好ましい。これにより、待機系システムは、万全の状態で待機することができる。
【0076】
このように、本発明の実施の形態に係る監視サーバ1によれば、検査データを送信し応答データを比較することにより、通信システム3の機器のメモリの不具合によるサイレント故障も発見することができる。これにより、高品質な通信システム3を提供することができる。
【0077】
また監視サーバ1は、コンピュータ処理として、通信システム3の機器のサイレント故障を予め発見することができる。これにより、例えば、ユーザの申告によって受動的に発見される障害の数を低減させることができる。また、待機系の通信システムに対してサイレント故障を検知することにより、定常的な正常性を確認することができる。
【0078】
さらに、サイレント故障が発生した機器を特定することができるので、り障時間を短縮させることができる。さらに、トポロジーデータを用いて表示装置40に表示することにより、作業者に障害箇所を迅速に特定させ、障害回復アクションを迅速化させることができる。
【0079】
また本発明の実施の形態に係る監視サーバ1は、ICMPを利用して被疑区間を特定し、その被疑区間の機器のMIPに対してイーサネットループバックを利用してサイレント故障の部位を特定することができる。このように段階的に故障箇所を特定することにより、サイレント故障の検査時間を短縮することができる。
【0080】
このように本発明の実施の形態に係る監視サーバ1によれば、高品質な通信システム3を提供し、ユーザの信頼性を向上させることができる。
【0081】
(その他の実施の形態)
上記のように、本発明の実施の形態によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。
【0082】
例えば、本発明の最良の実施の形態に記載したアプリケーションサーバ1は、図3に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。
【0083】
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
【符号の説明】
【0084】
1 監視サーバ
2 スイッチ
3 通信システム
10 記憶装置
11 検査データ記憶部
12 機器データ記憶部
13 結果データ記憶部
14 詳細結果データ記憶部
15 トポロジーデータ記憶部
20 中央処理制御装置
21 エラー検査手段
22 詳細エラー検査手段
23 表示手段
30 通信制御装置
40 表示装置

【特許請求の範囲】
【請求項1】
複数の機器と、機器のサイレント故障を検査する監視サーバと、を備える通信システムにおける監視サーバであって、
サイレント故障の検査対象の機器の識別子を含む機器データを記憶する機器データ記憶部と、
前記機器に送信する検査データを記憶する検査データ記憶部と、
前記機器データの検査対象の機器に前記検査データを送信し、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、当該機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該機器の識別子を結果データに記憶するエラー検査手段と、
を備えることを特徴とする監視サーバ。
【請求項2】
前記機器の識別子とともに、前記通信システムのトポロジーを示すトポロジーデータを記憶するトポロジーデータ記憶部と、
前記トポロジーデータに基づいて前記通信システムのネットワーク構成を表示装置に表示するとともに、前記結果データに含まれる機器の識別子を抽出し、抽出した機器の識別子に基づいて前記表示装置に警告を表示する表示手段
を備えることを特徴とする請求項1に記載の監視サーバ。
【請求項3】
前記検査データ記憶部は、異なる複数の検査データが記憶され、
前記エラー検査手段は、前記検査データ記憶部に記憶された複数の検査データをそれぞれ、前記検査対象の機器に送信する
ことを特徴とする請求項1または2に記載の監視サーバ。
【請求項4】
前記エラー検査手段において、いずれかの機器で一致しないと判定された場合、当該機器に隣接する機器のMIPに前記検査データを送信し、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、当該機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該MIPの識別子に基づいて、サイレント故障が発生した機器を特定する詳細エラー検査手段
をさらに備えることを特徴とする請求項1ないし3のいずれか1項に記載の監視サーバ。
【請求項5】
前記詳細エラー検査手段は、前記結果データおよび前記トポロジーデータを参照し、隣接する機器のいずれか一方の識別子が、前記結果データに含まれる場合、当該隣接する機器のMIPに前記検査データを送信する
ことを特徴とする請求項4に記載の監視サーバ。
【請求項6】
前記情報システムが、運用系の機器と待機系の機器を備える場合、
前記エラー検査手段は、待機系の機器に、前記検査データを送信する
ことを特徴とする請求項1ないし5のいずれか1項に記載の監視サーバ。
【請求項7】
請求項1ないし6のいずれか1項に記載の監視プログラム。
【請求項8】
機器のサイレント故障を検査する監視サーバを備える通信システムにおける監視方法であって、
前記監視サーバが、第1の検査データと当該第1の検査データに対応する第1の誤り検出データ含む第1のデータを、宛先の機器に送信するステップと、
前記監視サーバおよび前記宛先の機器に接続され、中継する機器が、前記第1のデータを受信すると、前記第1のデータから第1の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第2の検査データから第2の誤り検出データを算出し、当該記憶装置から読み出した第2の検査データと前記第2の誤り検出データを含む第2のデータを、前記宛先の機器に送信するステップと、
前記宛先の機器が、前記第2のデータを受信すると、前記第2のデータから第2の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第3の検査データから第3の誤り検出データを算出し、当該記憶装置から読み出した第3の検査データと前記第3の誤り検出データを含む第3のデータを、前記監視サーバに送信するステップと、
前記中継する機器が、前記第3のデータを受信すると、前記第3のデータから第3の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第4の検査データから第4の誤り検出データを算出し、当該記憶装置から読み出した第4の検査データと前記第4の誤り検出データを含む第4のデータを、前記監視サーバに送信するステップと、
前記監視サーバが前記第4のデータを受信すると、前記第4の検査データと、前記第4の検査データと、が一致するか否かを判定し、一致しない場合、当該経路においてサイレント故障が発生していると判定するステップ
を備えることを特徴とする監視方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−209666(P2012−209666A)
【公開日】平成24年10月25日(2012.10.25)
【国際特許分類】
【出願番号】特願2011−72257(P2011−72257)
【出願日】平成23年3月29日(2011.3.29)
【出願人】(399040405)東日本電信電話株式会社 (286)
【Fターム(参考)】