監視サーバ、監視プログラムおよび監視方法

【課題】機器のサイレント故障を検査する。
【解決手段】監視サーバ１は、機器データ１２ａの検査対象の機器に検査データ１１ａを送信し、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該機器の識別子を結果データ１３ａに記憶するエラー検査手段２１を備える。ここで監視サーバ１はさらに、トポロジーデータ１５ａに基づいて通信システム３のネットワーク構成を表示装置４０に表示するとともに、結果データ１３ａに含まれる機器の識別子を抽出し、抽出した機器の識別子に基づいて表示装置４０に警告を表示する表示手段２３を備えても良い。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、通信システムにおける機器のサイレント故障を検査する監視サーバ、監視プログラムおよび監視方法に関する。
【背景技術】
【０００２】
昨今の通信ネットワークの発達に伴い、故障した通信機器の特定や、その故障した通信機器への対応は重要な課題となっている。早期に故障した通信機器を特定し、その機器に対応することにより、通信ネットワークを安定して提供することができる。
【０００３】
通信機器の正常な稼働を確認するために、検査データを送信する方法がある（例えば、非特許文献１参照。）。例えば、検査対象の通信機器に、イーサネット（登録商標）ループバックや、ｐｉｎｇなどのコマンドを送信し、その応答がある場合に、通信機器は正常と判断することができる。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】ITU-T Recommendation Y.1731 - OAM functions and mechansims for Ethernet based networks
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記の方法では、通信が可能なことは確認できるものの、データが正常に送受信されているかを判定することはできない。
【０００６】
一般的に、スイッチは論理回路やＳＲＡＭなどを備える。高エネルギー中性子がこれらの半導体基板に衝突し、衝突で放出された重イオンが電流パルスを引き起こすことにより、これらの半導体基板において、データが反転する事象が発生する場合がある。
【０００７】
このような事象が発生している状況で、イーサネットループバックや、ｐｉｎｇなどのコマンドを送信すると、その応答は、正常に返ってくる。しかし、このようなスイッチ内のメモリエラーを検出することはできない。本明細書において、このような通信機器内のメモリエラーを、サイレント故障と称する。
【０００８】
従って本発明の目的は、通信システムにおける機器のサイレント故障を検査する監視サーバ、監視プログラムおよび監視方法を提供することである。
【課題を解決するための手段】
【０００９】
上記課題を解決するために、本発明の第１の特徴は、複数の機器と、機器のサイレント故障を検査する監視サーバと、を備える通信システムにおける監視サーバに関する。本発明の第１の特徴に係る監視サーバは、サイレント故障の検査対象の機器の識別子を含む機器データを記憶する機器データ記憶部と、機器に送信する検査データを記憶する検査データ記憶部と、機器データの検査対象の機器に検査データを送信し、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、当該機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該機器の識別子を結果データに記憶するエラー検査手段と、を備える。
【００１０】
ここで、機器の識別子とともに、通信システムのトポロジーを示すトポロジーデータを記憶するトポロジーデータ記憶部と、トポロジーデータに基づいて通信システムのネットワーク構成を表示装置に表示するとともに、結果データに含まれる機器の識別子を抽出し、抽出した機器の識別子に基づいて表示装置に警告を表示する表示手段を備えても良い。
【００１１】
また、検査データ記憶部は、異なる複数の検査データが記憶され、エラー検査手段は、検査データ記憶部に記憶された複数の検査データをそれぞれ、検査対象の機器に送信しても良い。
【００１２】
さらに、エラー検査手段において、いずれかの機器で一致しないと判定された場合、当該機器に隣接する機器のＭＩＰに検査データを送信し、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、当該機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該ＭＩＰの識別子に基づいて、サイレント故障が発生した機器を特定する詳細エラー検査手段をさらに備えても良い。
【００１３】
ここで詳細エラー検査手段は、結果データおよびトポロジーデータを参照し、隣接する機器のいずれか一方の識別子が、結果データに含まれる場合、当該隣接する機器のＭＩＰに検査データを送信しても良い。
【００１４】
情報システムが、運用系の機器と待機系の機器を備える場合、エラー検査手段は、待機系の機器に、検査データを送信しても良い。
【００１５】
本発明の第２の特徴は、本発明の第１の特徴のいずれかに係る記載の監視プログラムである。
【００１６】
本発明の第３の特徴は、機器のサイレント故障を検査する監視サーバを備える通信システムにおける監視方法に関する。本発明の第３の特徴に係る監視方法は、監視サーバが、第１の検査データと当該第１の検査データに対応する第１の誤り検出データ含む第１のデータを、宛先の機器に送信するステップと、監視サーバおよび宛先の機器に接続され、中継する機器が、第１のデータを受信すると、第１のデータから第１の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第２の検査データから第２の誤り検出データを算出し、当該記憶装置から読み出した第２の検査データと第２の誤り検出データを含む第２のデータを、宛先の機器に送信するステップと、宛先の機器が、第２のデータを受信すると、第２のデータから第２の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第３の検査データから第３の誤り検出データを算出し、当該記憶装置から読み出した第３の検査データと第３の誤り検出データを含む第３のデータを、監視サーバに送信するステップと、中継する機器が、第３のデータを受信すると、第３のデータから第３の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第４の検査データから第４の誤り検出データを算出し、当該記憶装置から読み出した第４の検査データと第４の誤り検出データを含む第４のデータを、監視サーバに送信するステップと、監視サーバが第４のデータを受信すると、第４の検査データと、第４の検査データと、が一致するか否かを判定し、一致しない場合、当該経路においてサイレント故障が発生していると判定するステップを備える。
【発明の効果】
【００１７】
本発明によれば、通信システムにおける機器のサイレント故障を検査する監視サーバ、監視プログラムおよび監視方法を提供することができる。
【図面の簡単な説明】
【００１８】
【図１】図１は、本発明の実施の形態に係る通信システムの構成図である。
【図２】図２は、本発明の実施の形態に係る通信システムにおける監視方法を説明するシーケンス図である。
【図３】図３は、本発明の実施の形態に係る監視サーバを説明する機能ブロック図である。
【図４】図４は、フレームの長さによって、検知されるエラーを説明する図である。
【図５】図５は、トラヒックによって、検知されるエラーを説明する図である。
【図６】図６は、本発明の実施の形態に係る機器データのデータ構造とデータの一例を説明する図である。
【図７】図７は、本発明の実施の形態に係る監視サーバが表示する結果表示画面の一例である。
【図８】図８は、本発明の実施の形態に係る詳細エラー検査手段の処理を説明する図である。
【図９】図９は、本発明の実施の形態に係る監視サーバの処理を説明するフローチャートである。
【図１０】図１０は、本発明の実施の形態に係る監視サーバが、サイレント故障を検査する待機系システムを説明する図である。
【発明を実施するための形態】
【００１９】
次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。
【００２０】
（通信システム）
図１を参照して、本発明の実施の形態に係る通信システム３を説明する。通信システム３は、複数の機器と、監視サーバ１と、を備える。ここで、図１に示す例においては、複数の機器が、第１のスイッチ２ａないし第１２のスイッチ２ｌの１２のスイッチである場合について説明する。機器の数はこれに限られないし、機器はスイッチでなくても良い。また、本実施形態においてこれらのスイッチを区別する必要のない場合、単にスイッチ２と記載する場合がある。
【００２１】
図１に示す例において、スイッチ２間を結ぶリンクは、通信ネットワークが隣接していることを示す。例えば第１のスイッチ２ａは、第２のスイッチ２ｂおよび第３のスイッチ２ｃと隣あって接続される。第２のスイッチ２ｂは、第１のスイッチおよび第４のスイッチ２ｄと隣あって接続される。このように、図１に示すスイッチ２は、双方向に通信可能なネットワークにより、網状に相互に通信可能に接続される。図１に示す例において監視サーバ１は、第１のスイッチ２ａにのみ接続されるが、この接続形態には限られない。
【００２２】
監視サーバ１は、スイッチ２などの機器のサイレント故障を検査する。監視サーバ１は、検査対象のスイッチ２に、所定の検査データを送信する。検査対象のスイッチ２は、ＩＣＭＰ（Internet Control Message Protocol）のエコー要求機能を利用して、検査データをそのまま返信し、監視サーバ１は、検査対象のスイッチ２から、エコー応答として検査データを受信する。監視サーバ１は、送信した検査データと、受信した検査データと、を比較し、各ビットが一致するか否かを判定する。一致しない場合、監視サーバ１から検査対象のスイッチ２までの経路上のスイッチのいずれかにおいて、サイレント故障が発生していると判定する。監視サーバ１は、すべての検査対象のスイッチ２に同様に検査データを送信し、送信した検査データと、受信した応答データとが一致しなかったスイッチ２を特定する。監視サーバ１は、ネットワーク構成と比較し、隣接するスイッチ２のいずれか一方のみが一致しなかった場合、監視サーバ１は、この隣接するスイッチ２を、サイレント故障の被疑区間として特定する。
【００２３】
ここで、本発明の実施の形態において、被疑区間のスイッチ２のＭＩＰに対してイーサネットループバックを利用して検査データを送信する。これにより、いずれのスイッチ２でサイレント故障が発生しているかを検知することができる。
【００２４】
スイッチ２は、検査データを含むデータを受信すると、その宛先のスイッチにデータを転送する。このときスイッチ２は、データを受信すると、データに含まれる検査データをスイッチ２のメモリに記憶し、そのメモリから検査データを読み出して、宛先のスイッチに転送する。ここで、検査データが記憶されたメモリに不具合が生じている場合が考えられる。この場合、スイッチ２が検査データを記憶したアドレスに基づいてデータを読み出しても、スイッチ２において書き込んだデータと読み出したデータに差異が生じる場合がある。メモリの所定のビットに不具合が生じている場合、そのビットにデータを記憶しても正しくデータを保持できないため、読み出したデータが、書き込んだデータと異なる事象が発生するからである。本発明の実施の形態に係る監視サーバ１は、このようなサイレント故障を検出することができる。
【００２５】
図２を参照して、本発明の実施の形態に係る監視方法を説明する。図２においては、監視サーバ１が、第１のスイッチ２ａ、第２のスイッチ２ｂを介して宛先スイッチ２ｎに検査データを送信する場合を説明する。ここで、宛先スイッチ２ｎは、図１に示す例において、監視サーバ１と、第１のスイッチ２ａおよび第２のスイッチ２ｂを介して接続される第４のスイッチ２ｄである。
【００２６】
まずステップＳ１において監視データ１は、ｐｉｎｇコマンドを使ってデータＤ１を、宛先スイッチ２ｎ宛に送信する。このデータＤ１は、宛先および送信元を示すヘッダと、検査データＣ１と、このヘッダおよび検査データＣ１に対するＦＣＳ（フレームチェックシーケンス：誤り検出データ）を含む。このＦＣＳは、エラー検出のために、監視サーバ１において算出され、データＤ１に含まれる。
【００２７】
第１のスイッチ２ａがデータＤ１を受信すると、ステップＳ２において、受信したデータＤ１をメモリに記憶する。スイッチ２ａは、データＤ１からＦＣＳを外し、メモリから読み出したヘッダおよび検査データＣ２について、新たにＦＣＳを算出する。ステップＳ３において第１のスイッチ２ａは、メモリから読み出した検査データＣ２と、ヘッダおよび検査データＣ２から算出したＦＣＳを含むデータＤ２を、送信する。
【００２８】
第２のスイッチ２ｂがデータＤ２を受信すると、ステップＳ４において、受信したデータＤ２をメモリに記憶する。スイッチ２ｂは、データＤ２からＦＣＳを外し、メモリから読み出したヘッダおよび検査データＣ３について、新たにＦＣＳを算出する。ステップＳ５において第２のスイッチ２ｂは、メモリから読み出した検査データＣ３と、ヘッダおよび検査データＣ３から算出したＦＣＳを含むデータＤ３を、送信する。
【００２９】
宛先スイッチ２ｎはデータＤ３を受信すると、ステップＳ６において、宛先スイッチ２ｎは、ＩＣＭＰを利用して、発信元と宛先のアドレスを入れ替え、ＦＣＳを再計算し、ｐｉｎｇコマンドの応答としてデータＤ４を送信する。
【００３０】
ステップＳ７ないしステップＳ９において、検査データは、第２のスイッチ２ｂおよび第１のスイッチ２ａを介して、監視サーバ１に送信される、監視サーバ１は、ｐｉｎｇコマンドの応答として、第１のスイッチ２ａからデータＤ６を受信すると、データＤ６に含まれる検査データＣ６と、ステップＳ１で送信した検査データＣ１とを比較する。
【００３１】
ここで、データを中継した第１のスイッチ２ａ、第２のスイッチ２ｂおよび宛先スイッチ２ｎのいずれのメモリもエラーが発生しなければ、データＤ１の検査データＣ１と、データＤ６の検査データＣ６とは一致する。しかし、第１のスイッチ２ａ、第２のスイッチ２ｂおよび宛先スイッチ２ｎのいずれかにおいて、メモリエラーが発生し、そのエラーが発生した記憶領域に検査データが記憶されていた場合、データＤ１の検査データＣ１と、データＤ６の検査データＣ６とは一致しない。例えば、検査データＣ１が”１０１０１０１”で、検査データＣ６が”１０１０１１１”の場合、監視サーバ１は、第１のスイッチ２ａ、第２のスイッチ２ｂおよび宛先スイッチ２ｎのいずれかの検査データが保持された第５ビットにおいて、メモリエラーが発生していると特定することができる。
【００３２】
この後、監視サーバ１は、同様に、サイレント故障が疑われる機器のＭＩＰに対し、イーサループバックコマンドを使って、検査データを送信する。そこで監視サーバ１は、送信した検査データと、イーサループバックの応答として受信した検査データと、を比較して、一致するか否かを判定し、メモリエラーが発生した機器を特定することができる。
【００３３】
（監視サーバ）
図３を参照して本発明の実施の形態に係る監視サーバ１を説明する。監視サーバ１は、記憶装置１０、中央処理制御装置２０、通信制御装置３０および表示装置４０を備える一般的なコンピュータである。監視サーバ１は、記憶装置１０に記憶された監視プログラムが、中央処理制御装置２０によって読み出され実行されることにより実現される。通信制御装置３０は、例えばＬＡＮボードであって、監視サーバ１の通信を制御する。表示装置４０は、一般的なディスプレイである。
【００３４】
記憶装置１０は、検査データ記憶部１１、機器データ記憶部１２、結果データ記憶部１３、詳細結果データ記憶部１４およびトポロジーデータ記憶部１５を備える。
【００３５】
検査データ記憶部１１は、記憶装置１０のうち、検査データ１１ａが記憶された記憶領域である。検査データ１１ａは、スイッチ２等の検査対象の機器に送信されるデータである。この検査データ１１ａは、例えば、所定のビット数だけ”１”や”０”が連続したフレームデータである。
【００３６】
検査データ記憶部１１には、異なる複数の検査データ１１ａ、１１ｂ、１１ｃ…が記憶されても良い。例えば、スイッチ２のメモリにおけるサイレント故障は、そのメモリ領域のいずれの位置にも発生する可能性はある。そこで、本発明の実施の形態においては、ショートフレームの検査データ、ロングフレームの検査データなど、種々の検査データを予め検査データ記憶部１１に記憶する。このような種々の検査データを検査対象の機器に送信することにより、監視サーバ１は、メモリのビットの位置を問わず、サイレント故障を検査することができる。
【００３７】
例えば、図４（ａ）は、検査データがショートフレームの場合のスイッチ２のメモリを模式的に示す。ショートフレームの場合、記憶されるメモリ領域も少ない。従って、最大位近辺のビットでサイレント故障が発生すると、サイレント故障が検出されない場合がある。しかし、図４（ｂ）に示すようにロングフレームの場合、メモリ領域のビットを多く使用する。従って、最大位近辺のビットでサイレント故障が発生している場合でも、サイレント故障が発生したビットにフレームが疎通される。これにより監視データ１は、サイレント故障を検出することができる。
【００３８】
また、検査データ記憶部１１には、ショートフレームとロングフレームを混合した複数の検査データの集合が記憶されても良い。これらの複数の検査データを所定時間内に送出することにより、高トラヒック状態を作り出すことができる。これにより、高トラヒック時にしか使用されないメモリ領域にもフレームが疎通されるので、サイレント故障を検査することができる。
【００３９】
例えば図４（ｂ）は、トラヒックが低い場合のスイッチ２のメモリを模式的に示す。低トラヒックの場合、スイッチ２のバッファ蓄積量が少ない。従って、バッファ蓄積量が多いときのみ使用するビットでサイレント故障が発生すると、サイレント故障が検出されない場合がある。しかし、図５（ｂ）に示すように高トラヒックの場合、バッファ蓄積量が多くなりメモリ領域のビットも多く使う。従って、バッファ蓄積量が多いときのみ使用するビットでサイレント故障が発生する場合でも、サイレント故障が発生したビットにフレームが疎通される。これにより監視データ１は、サイレント故障を検出することができる。
【００４０】
また、優先度によってスイッチ２において蓄積されるキューが異なる。従って、検査データ記憶部１１に、優先度の異なる検査データが記憶されても良い。
【００４１】
このように検査データ記憶部１１には、監視サーバ１がサイレント故障を送信するために必要な、フレーム長、優先度、トラヒックなどの異なる種々の検査データが記憶される。
【００４２】
機器データ記憶部１２は、記憶装置１０のうち、機器データ１２ａが記憶された記憶領域である。機器データ１２ａは、監視データ１のサイレント故障の検査対象の機器の識別子を含むデータである。
【００４３】
機器データ１２ａは、例えば、図６に示すように、スイッチ２の識別子、ＩＰアドレスおよびＭＩＰ識別子が対応づけられたデータである。スイッチ識別子として、図１で参照した機器の名称を用いているが、ＩＰアドレスを用いても良い。ＩＰアドレスは、後述するエラー検査手段２１および表示手段２３によって参照される。ＭＩＰ識別子は、後述する詳細エラー検査手段２２によって参照される。
【００４４】
結果データ記憶部１３は、記憶装置１０のうち、結果データ１３ａが記憶された記憶領域である。結果データ１３ａには、後述するエラー検査手段２１による検査結果が格納されたデータである。例えば結果データ１３ａには、エラーの発生したスイッチ２の識別子と、エラーの発生した検査データと、を対応づけて記憶する。例えば、第７のスイッチ２ｇにロングフレームの検査データを送信し、監視サーバ１が送信した検査データと、監視サーバ１が受信した検査データとが異なる場合、結果データ１３ａには、第７のスイッチ２ｇの識別子と、エラーの発生した検査データがロングフレームであることが記憶される。
【００４５】
詳細結果データ記憶部１４は、記憶装置１０のうち、詳細結果データ１４ａが記憶された記憶領域である。詳細結果データ記憶部１４ａには、後述する詳細エラー検査手段２２による検査結果が記憶された記憶領域である。詳細結果データ１４ａには、詳細エラー検査手段２２において特定された、サイレント故障が発生した機器の識別子が記憶される。
【００４６】
トポロジーデータ記憶部１４は、スイッチ２などの機器の識別子とともに、通信システム３のトポロジーを示すデータである。トポロジーデータ１５ａは、図１に示すようなネットワーク構成を表示装置４０に表示する際に参照される。トポロジーデータ１５ａは、スイッチ２の識別子と、そのスイッチ２の接続情報とが含まれる。
【００４７】
中央処理制御装置２０は、エラー検査手段２１、詳細エラー検査手段２２および表示手段２３を備える。
【００４８】
エラー検査手段２１は、機器データ１２ａの検査対象のスイッチ２に検査データ１１ａを送信し、当該スイッチ２によって検査データがコピーされ返信された応答データを取得するとともに、当該スイッチ２に送信した検査データ１１ａと応答データとが、一致するか否かを判定する。一致しない場合、エラー検査手段２１は、当該スイッチ２の識別子を結果データ１３ａに記憶する。
【００４９】
ここで、検査データ記憶部１１に複数の検査データが格納されている場合、エラー検査手段２１は、検査データ記憶部１１に記憶された複数の検査データ１１ａ、１１ｂ、１１ｃ…のそれぞれを、機器データ１２ａの検査対象のスイッチ２に送信し、それぞれの検査データと、それぞれの検査データに対する応答データとが、一致するか否かを判定する。一致しない場合、エラー検査手段２１は、当該スイッチ２の識別子および送信した検査データと、を対応づけて結果データ１３ａに記憶する。
【００５０】
さらにエラー検査手段２１は、複数の検査データを所定時間内に送信して高トラヒック状態をつくり、高トラヒック状態で送信した各検査データと、その状態で受信した各応答データとが、一致するか否かを判定する。一致しない場合、エラー検査手段２１は、エラーが発生したスイッチ２の識別子と、高トラヒック状態でエラーが発生したことを対応づけて結果データ１３ａに記憶する。
【００５１】
結果データ１３ａに何らデータが記憶されていない場合、すべての検査データが正常に送受信されているので、監視サーバ１によるサイレント故障の検査は終了する。一方、結果データ１３ａに何らかのデータが記憶されている場合、通信システム３のいずれかのスイッチ２でサイレント故障が発生していると考えられる。この結果データ１３ａは、表示手段２３によって、表示装置４０に表示される。
【００５２】
表示手段２３は、トポロジーデータ１５ａに基づいて通信システム３のネットワーク構成を表示装置４０に表示するとともに、結果データ１３ａに含まれるスイッチ２の識別子を抽出し、抽出したスイッチ２の識別子に基づいて表示装置４０に警告を表示する。
【００５３】
表示手段２３は、例えば図７に示す結果表示画面Ｐ１０１を表示装置４０に表示する。結果表示画面Ｐ１０１は、通信システム３のトポロジーを表示するとともに、エラー検査手段２１によってエラーが検出されたスイッチ２のアイコンをハッチングして表示している。
【００５４】
例えば、結果データ１３ａには、第７のスイッチ２ｇないし第１２のスイッチ２ｌの識別子が含まれる場合を考える。この場合、結果表示画面Ｐ１０１においては、第７のスイッチ２ｇないし第１２のスイッチ２ｌに対応するアイコンがハッチングされている。これにより作業者は、第７のスイッチ２ｇないし第１２のスイッチ２ｌ宛の検査において検査データの不一致が確認され、これらのスイッチの近傍でサイレント故障が発生していることを認識することができる。図７に示す例では、エラーの発生したスイッチのアイコンをハッチングして表示したが、これに限られない。例えば点滅表示など、作業者にエラーが発生していることを示すことができれば、他の警告表示でも良い。
【００５５】
表示手段２３はさらに、サイレント故障が発生した被疑区間を結果表示画面Ｐ１０１に表示しても良い。表示手段２３は、監視サーバ１は、隣接するスイッチ２のいずれか一方のみが、結果データ１３ａに含まれている場合、この隣接するスイッチを、被疑区間として特定することができる。図７に示す例では、第３のスイッチ２ｃおよび第７のスイッチ２ｇ間と、第４のスイッチ２ｄおよび第８のスイッチ２ｈ間とが、被疑区間として特定される。従って表示手段２３は、第３のスイッチ２ｃおよび第７のスイッチ２ｇ間と、第４のスイッチ２ｄおよび第８のスイッチ２ｈ間とを、被疑区間として、結果表示画面Ｐ１０１に表示しても良い。
【００５６】
エラー検査手段２１においてエラーが発生した場合、詳細エラー検査手段２２によって、サイレント故障の発生したスイッチ２が特定される。
【００５７】
詳細エラー検査手段２２は、エラー検査手段２１によって何らかのエラーが検出された場合、サイレント故障が発生した機器を特定する。具体的には詳細エラー検査手段２２は、エラーが検出された機器、具体的には、結果データ１３ａに含まれるスイッチ２に隣接するスイッチのＭＩＰに検査データを送信し、当該スイッチ２によって検査データがコピーされ返信された応答データを取得する。詳細エラー検査手段２２は、当該スイッチ２に送信した検査データと応答データとが、一致するか否かを判定する。一致しない場合、当該ＭＩＰの識別子に基づいて、サイレント故障が発生したスイッチ２を特定する。サイレント故障が発生したスイッチ２が特定されると、詳細エラー検査手段２２は、そのスイッチ２の識別子を、詳細結果データ１４ａに記憶する。
【００５８】
ここで詳細エラー検査手段２２は、結果データ１３ａを読み出して、エラーの発生したスイッチ２の識別子を取得するとともに、トポロジーデータ１５ａを参照し、隣接する機器のいずれか一方の識別子が、結果データ１３ａに含まれる場合、イーサネットループバックコマンドを利用して、隣接するスイッチのＭＩＰに検査データを送信する。
【００５９】
図７に示す例において、第３のスイッチ２ｃおよび第７のスイッチ２ｇは一つのリンクで接続され隣接されているところ、第３のスイッチ２ｃの識別子は結果データ１３ａに含まれておらず、第７のスイッチ２ｇの識別子は結果データ１３ａに含まれている。同様に、第４のスイッチ２ｄの識別子は結果データ１３ａに含まれておらず、第８のスイッチ２ｈの識別子は結果データ１３ａに含まれている。そこで、詳細エラー検査手段２２は、このように、隣接する２つのスイッチのうち、一方が結果データ１３ａに含まれ一方が結果データ１３ａに含まれない区間を、被疑区間として抽出し、この抽出した被疑区間のスイッチ２のＭＩＰに対して検査データを送信する。図７に示す例の場合、第３のスイッチ２ｃ、第４のスイッチ２ｄ、第７のスイッチ２ｇおよび第８のスイッチ２ｈの各ＭＩＰに、検査データが送信される。
【００６０】
詳細エラー検査手段２２は、その検査データと、各ＭＩＰから受信した検査データとが一致するか否かに基づいて、サイレント故障が発生しているスイッチ２を特定することができる。
【００６１】
図８を参照して説明する。エラー検査手段２１において、監視サーバ１から第３のスイッチ２ｃ宛に送信した場合はエラーが発生せず、第７のスイッチ２ｇ宛に送信した場合にエラーが発生している。従って、第３のスイッチ２ｃおよび第７のスイッチ２ｇの区間は、このいずれかにおいてサイレント故障が発生している可能性がある被疑区間となる。そこで詳細エラー検査手段２２は、第３のスイッチ２ｃのＭＩＰおよび第７のスイッチ２ｇのＭＩＰに検査データを送信する。
【００６２】
図８は、第３のスイッチ２ｃにサイレント故障が発生している場合を示す。監視サーバ１が、第３のスイッチ２ｃの上流側のＭＩＰに検査データを送信した場合は、送信したデータと受信したデータとは一致する。一方、第３のスイッチ２ｃの下流側のＭＩＰに検査データを送信した場合は、第３のスイッチ２ｃのメモリに一度記憶された検査データが返信されるので、送信したデータと受信したデータとは一致しない。なお、第７のスイッチ２ｇの上流のＭＩＰに検査データを送信しても同様に、送信したデータと受信したデータとは一致しない。そこで詳細エラー検査手段２２は、一つのスイッチ２の上流側のＭＩＰと下流側のＭＩＰとで検査結果が異なる場合、このスイッチ２のメモリにおいてサイレント故障が発生していると特定することができる。
【００６３】
ここで、結果データ１３ａに、エラーが発生したときの検査データの種別が含まれている場合、詳細エラー検査手段２２は、同様の検査データを、ＭＩＰに送信する。例えば、エラー検査手段２１においてロングフレームの検査データを送信してエラーが発生した場合、詳細エラー検査手段２２は同様に、ロングフレームの検査データをＭＩＰに送信する。またエラー検査手段２１において高トラヒックの状態でエラーが発生した場合、詳細エラー検査手段２２は同様に、高トラヒック状態で検査データをＭＩＰに送信する。
【００６４】
このように、詳細エラー検査手段２２が、サイレント故障の発生しているスイッチ２を特定すると、そのスイッチ２の識別子を、詳細結果データ１４ａに記憶する。表示手段２３は、詳細結果データ１４ａに含まれるスイッチ２の識別子に基づいて、サイレント故障が発生している機器である旨を表示装置４０に表示する。
【００６５】
図９を参照して、本発明の実施の形態に係る監視サーバ１の処理を説明する。
【００６６】
通信システム３のサイレント故障の検査のタイミングになると、すべての対象機器およびすべての検査データについて、ステップＳ１０１ないしステップＳ１０３を繰り返す。ここで、すべての対象機器とは、図１に示す通信システム３の第１のスイッチ２ａないし第１２のスイッチ２ｌである。すべての検査データとは、検査データ記憶部１１に記憶された検査データであって、例えば、ショートフレームの検査データ、ロングフレームの検査データ、優先度の異なる検査データなどである。また、高トラヒック状態をつくるために、複数の検査データの集合が含まれていても良い。
【００６７】
まずステップＳ１０１において監視サーバ１は、対象機器にｐｉｎｇで検査データを送信し、その応答データを受信する。ステップＳ１０２において監視サーバ１は、検査データと応答データとを比較し、一致しない場合、当該対象機器の識別子と、当該検査データを、結果データ１３ａに記憶する。
【００６８】
すべての対象機器およびすべての検査データについてステップＳ１０１ないしステップＳ１０３の処理が終了すると、監視サーバ１は、ステップＳ１０４において、サイレント故障が発生した被疑区間を特定する。監視サーバ１は、トポロジーデータ１５ａを参照し、隣接するスイッチ２のいずれか一方のみが、結果データ１３ａに含まれている場合、この隣接する２つのスイッチを結ぶ区間を、被疑区間として特定することができる。
【００６９】
ステップＳ１０５において監視サーバ１は、トポロジーデータ１５ａに基づいて、通信システム３のトポロジーを表示装置４０に表示する。さらに監視サーバ１は、結果データ１３ａに基づいて検査データと応答データとが一致しなかった検査データの宛先のスイッチ２をエラー表示するとともに、ステップＳ１０４で特定した被疑区間を表示装置４０に表示する。なお、結果データ１３ａに何らデータが格納されていない場合、ステップＳ１０５において監視サーバ１は、エラーが発生していない旨を、表示装置４０に表示しても良い。
【００７０】
ステップＳ１０６において監視サーバ１は、詳細エラー検査を実施するか否かを決定するために、結果データ１３ａに記録があるか否かを判定する。記録がない場合、通信システム３の対象機器のいずれもサイレント故障が発生していないので、そのまま処理を終了する。一方、結果データ１３ａに記録がある場合、ステップＳ１０４で特定された被疑区間の機器の各ＭＩＰについて、ステップＳ１０７およびステップＳ１０８の処理が繰り返される。
【００７１】
まずステップＳ１０７において監視サーバ１は、各ＭＩＰに、イーサネットループバックで、検査データを送信する。ステップＳ１０８において監視サーバ１は、検査データと応答データが一致するか否かを判定する。各ＭＩＰに対して検査データを送信すると、ステップＳ１０９においてサイレント故障が発生した被疑装置を特定する。具体的には、機器の上流側のＭＩＰ宛に送信した検査データについては一致し、下流側のＭＩＰ宛に送信した検査データについては一致しなかった場合、その機器にサイレント故障が発生していると特定することができる。
【００７２】
被疑装置が特定されると、ステップＳ１１０において監視サーバ１は、特定された被疑装置の名称等を、表示装置４０に表示する。ここで監視サーバ１は、トポロジーデータとともに、被疑装置のアイコンを警告表示しても良い。
【００７３】
（適用例）
図１０に示すように、本発明の実施の形態に係る監視サーバ１によって、待機系の機器についてサイレント故障を検出することが有効である。図１０（ａ）に示すシステムは、待機系のＡスイッチ２００ａと、運用系のＢスイッチ２００Ｂと、Ａスイッチ２００ａまたはＢスイッチ２００ｂに処理を振り分けるＣスイッチ２００ｃを備える。
【００７４】
この場合、Ｃスイッチ２００ｃからＢスイッチ２００ｂに接続される第２のインスタンス２０１ｂにはトラヒックがあるものの、Ｃスイッチ２００ｃからＡスイッチ２００ａに接続される第１のインスタンス２０１ａには、トラヒックはない。しかし、図１０（ｂ）に示すように、運用系システムの障害に伴い、待機系システムは運用を開始するところ、この待機系システムにサイレント故障が発生している状況では、問題が発生するおそれがある。
【００７５】
そこで本発明の実施の形態に係る監視サーバ１が、運用系システムが正常に稼働する間、待機系システムの機器にサイレント故障の検査を実施することが好ましい。これにより、待機系システムは、万全の状態で待機することができる。
【００７６】
このように、本発明の実施の形態に係る監視サーバ１によれば、検査データを送信し応答データを比較することにより、通信システム３の機器のメモリの不具合によるサイレント故障も発見することができる。これにより、高品質な通信システム３を提供することができる。
【００７７】
また監視サーバ１は、コンピュータ処理として、通信システム３の機器のサイレント故障を予め発見することができる。これにより、例えば、ユーザの申告によって受動的に発見される障害の数を低減させることができる。また、待機系の通信システムに対してサイレント故障を検知することにより、定常的な正常性を確認することができる。
【００７８】
さらに、サイレント故障が発生した機器を特定することができるので、り障時間を短縮させることができる。さらに、トポロジーデータを用いて表示装置４０に表示することにより、作業者に障害箇所を迅速に特定させ、障害回復アクションを迅速化させることができる。
【００７９】
また本発明の実施の形態に係る監視サーバ１は、ＩＣＭＰを利用して被疑区間を特定し、その被疑区間の機器のＭＩＰに対してイーサネットループバックを利用してサイレント故障の部位を特定することができる。このように段階的に故障箇所を特定することにより、サイレント故障の検査時間を短縮することができる。
【００８０】
このように本発明の実施の形態に係る監視サーバ１によれば、高品質な通信システム３を提供し、ユーザの信頼性を向上させることができる。
【００８１】
（その他の実施の形態）
上記のように、本発明の実施の形態によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。
【００８２】
例えば、本発明の最良の実施の形態に記載したアプリケーションサーバ１は、図３に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。
【００８３】
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
【符号の説明】
【００８４】
１監視サーバ
２スイッチ
３通信システム
１０記憶装置
１１検査データ記憶部
１２機器データ記憶部
１３結果データ記憶部
１４詳細結果データ記憶部
１５トポロジーデータ記憶部
２０中央処理制御装置
２１エラー検査手段
２２詳細エラー検査手段
２３表示手段
３０通信制御装置
４０表示装置

【特許請求の範囲】
【請求項１】
複数の機器と、機器のサイレント故障を検査する監視サーバと、を備える通信システムにおける監視サーバであって、
サイレント故障の検査対象の機器の識別子を含む機器データを記憶する機器データ記憶部と、
前記機器に送信する検査データを記憶する検査データ記憶部と、
前記機器データの検査対象の機器に前記検査データを送信し、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、当該機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該機器の識別子を結果データに記憶するエラー検査手段と、
を備えることを特徴とする監視サーバ。
【請求項２】
前記機器の識別子とともに、前記通信システムのトポロジーを示すトポロジーデータを記憶するトポロジーデータ記憶部と、
前記トポロジーデータに基づいて前記通信システムのネットワーク構成を表示装置に表示するとともに、前記結果データに含まれる機器の識別子を抽出し、抽出した機器の識別子に基づいて前記表示装置に警告を表示する表示手段
を備えることを特徴とする請求項１に記載の監視サーバ。
【請求項３】
前記検査データ記憶部は、異なる複数の検査データが記憶され、
前記エラー検査手段は、前記検査データ記憶部に記憶された複数の検査データをそれぞれ、前記検査対象の機器に送信する
ことを特徴とする請求項１または２に記載の監視サーバ。
【請求項４】
前記エラー検査手段において、いずれかの機器で一致しないと判定された場合、当該機器に隣接する機器のＭＩＰに前記検査データを送信し、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、当該機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該ＭＩＰの識別子に基づいて、サイレント故障が発生した機器を特定する詳細エラー検査手段
をさらに備えることを特徴とする請求項１ないし３のいずれか１項に記載の監視サーバ。
【請求項５】
前記詳細エラー検査手段は、前記結果データおよび前記トポロジーデータを参照し、隣接する機器のいずれか一方の識別子が、前記結果データに含まれる場合、当該隣接する機器のＭＩＰに前記検査データを送信する
ことを特徴とする請求項４に記載の監視サーバ。
【請求項６】
前記情報システムが、運用系の機器と待機系の機器を備える場合、
前記エラー検査手段は、待機系の機器に、前記検査データを送信する
ことを特徴とする請求項１ないし５のいずれか１項に記載の監視サーバ。
【請求項７】
請求項１ないし６のいずれか１項に記載の監視プログラム。
【請求項８】
機器のサイレント故障を検査する監視サーバを備える通信システムにおける監視方法であって、
前記監視サーバが、第１の検査データと当該第１の検査データに対応する第１の誤り検出データ含む第１のデータを、宛先の機器に送信するステップと、
前記監視サーバおよび前記宛先の機器に接続され、中継する機器が、前記第１のデータを受信すると、前記第１のデータから第１の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第２の検査データから第２の誤り検出データを算出し、当該記憶装置から読み出した第２の検査データと前記第２の誤り検出データを含む第２のデータを、前記宛先の機器に送信するステップと、
前記宛先の機器が、前記第２のデータを受信すると、前記第２のデータから第２の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第３の検査データから第３の誤り検出データを算出し、当該記憶装置から読み出した第３の検査データと前記第３の誤り検出データを含む第３のデータを、前記監視サーバに送信するステップと、
前記中継する機器が、前記第３のデータを受信すると、前記第３のデータから第３の検査データを抽出して記憶装置に記憶するとともに、当該記憶装置から読み出した第４の検査データから第４の誤り検出データを算出し、当該記憶装置から読み出した第４の検査データと前記第４の誤り検出データを含む第４のデータを、前記監視サーバに送信するステップと、
前記監視サーバが前記第４のデータを受信すると、前記第４の検査データと、前記第４の検査データと、が一致するか否かを判定し、一致しない場合、当該経路においてサイレント故障が発生していると判定するステップ
を備えることを特徴とする監視方法。

【図１】