ネットワーク監視方法

【課題】クラスタシステムの冗長切替えに際してＴＲＡＰの受信不能期間を短縮できるようにし、これにより監視機能の充実を図ったネットワーク監視方法を提供すること。
【解決手段】運用系システムがサービスＩＰアドレスを無効にした直後に、待機系システムのサービスＩＰアドレスを有効にする。その後運用系システムにおいてアプリケーションの停止および共有ディスクのアンマウントを行ない、待機系システムで共有ディスクのマウント、アプリケーションの起動を行なうことで運用系と待機系のシステムを切替える。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、ＳＮＭＰ（Simple Network Management Protocol）を用いてネットワーク監視を行うシステムに用いられるネットワーク監視方法に関する。特にこの発明は、共有ディスクを利用するクラスタシステムにより監視装置を構成するシステムの改良に関する。
【背景技術】
【０００２】
ＩＰ（Internet Protocol）網のようなネットワークを監視するプロトコルには、実装が容易なＳＮＭＰが用いられることが多い（例えば特許文献１を参照）。ＳＮＭＰではＴＲＡＰと称するメッセージを用いて被監視装置からネットワーク監視装置に管理情報が通知される。
ところで、耐障害性能を高めるためネットワーク監視装置は冗長化されることが多い（例えば特許文献１〜３を参照）。そのなかに、共有ディスクを利用するクラスタシステムがある。
【特許文献１】特開平８−２１２０９５
【特許文献２】特開平８−３２８８９１
【特許文献３】特開平１０−２２４３７８
【発明の開示】
【発明が解決しようとする課題】
【０００３】
クラスタシステムでは、冗長切替えの際に運用系のアプリケーションが停止してから待機系でアプリケーションが起動されるまでの時間が比較的長い。その間に被監視装置からＴＲＡＰが発出された場合、このメッセージを受信できずに重要な情報が失われる虞がある。
この発明は上記事情によりなされたもので、その目的は、クラスタシステムの冗長切替えに際してＴＲＡＰの受信不能期間を短縮できるようにし、これにより監視機能の充実を図ったネットワーク監視方法を提供することにある。
【課題を解決するための手段】
【０００４】
上記目的を達成するためにこの発明の一態様によれば、運用系システムと待機系システムとが共有ディスクを用いて情報を共有するクラスタシステム化された監視装置により、複数の被監視装置を備えるネットワークをＳＮＭＰ（Simple Network Management Protocol）を用いて監視するネットワーク監視方法において、前記複数の被監視装置からそれぞれ通知されるＴＲＡＰを受信するメッセージ受信機能を、監視制御アプリケーションを分割して前記待機系システムにおいて稼動させ、前記運用系システムと前記待機系システムとの各々において、自システムが運用系であるか待機系であるかを判定し、待機系と判定したシステムにおいて、受信するＴＲＡＰをバッファメモリに蓄積して前記共有ディスクへの保存処理を保留し、前記運用系システムと前記待機系システムとの冗長切替え時に、当該運用系システムのサービスＩＰを無効にするとともに当該待機系システムのサービスＩＰを有効にして当該待機系システムからＧＡＲＰを発行し、前記ＧＡＲＰの発行の後、前記運用系システムにおけるアプリケーションの停止および共有ディスクのアンマウントを行うとともに、前記待機系システムにおける前記保留を解除し、共有ディスクのマウントおよびアプリケーションの起動を行い、新たに運用系となる制御を行うことを特徴とするネットワーク監視方法が提供される。
【０００５】
上記手段は、監視制御アプリケーションを分割し、ＴＲＡＰ受信に関わるプロセスを待機系で動作可能とするものである。そして、冗長切替え時には運用系のアプリケーションを停止する前に待機系がメッセージを受信するようにサービスＩＰ切替えの手順を変更する。すなわちサービスＩＰの切替え直後に待機系システムがＴＲＡＰを受信できるようにすることで当該メッセージを受信できない時間帯を大幅に短縮することが可能となる。
【発明の効果】
【０００６】
この発明によれば、クラスタシステムの冗長切替えに際してＴＲＡＰの受信不能期間を短縮できるようにし、これにより監視機能の充実を図ったネットワーク監視方法を提供することができる。
【発明を実施するための最良の形態】
【０００７】
図１は、この発明に係わるネットワーク監視方法が用いられるネットワーク監視システムの実施の形態を示す機能ブロック図である。図１において、監視装置１００は運用系システム１０、待機系システム２０、およびこれらのシステムにより共有される共有ディスク３０を備える。すなわち監視装置１００は２つのコンピュータシステムにより冗長化され、いずれのシステムもＩＰ網を介して複数の被監視装置Ｎ１〜Ｎｎと接続される。監視装置１００は被監視装置Ｎ１〜Ｎｎから通知されるＴＲＡＰを受信して処理する機能を備える。
【０００８】
運用系システム１０は、被監視装置Ｎ１〜Ｎｎとの通信を行なう通信処理部１２、受信したＴＲＡＰを処理するメッセージ処理部１３、監視機能を司るアプリケーション機能部１５、および、システムの冗長切替えを制御する冗長制御部１１を備える。待機系システム２０も同様に、被監視装置Ｎ１〜Ｎｎとの通信を行なう通信処理部２２、受信したＴＲＡＰを処理するメッセージ処理部２３、監視機能を司るアプリケーション機能部２５、および、システムの冗長切替えを制御する冗長制御部２１を備える。
【０００９】
運用系システム１０、待機系システム２０は共有ディスク３０を用いて種々の情報を互いに共有し、冗長制御部１１により運用系システム１０が共有ディスク３０にアクセスするように制御されている。
運用系システム１０の通信処理部１２は、ＴＲＡＰを受信するメッセージ受信部１２ｂと、ＳＮＭＰコマンドや、ＦＴＰ、ＴＥＬＮＥＴを用いて被監視装置Ｎ１〜Ｎｎを制御するコマンド通信部１２ａとを備える。メッセージ受信部１２ｂは受信したＴＲＡＰをメモリ上に構成した内部バッファ１４に蓄積する。メッセージ処理部１３は内部バッファ１４に蓄積されたＴＲＡＰに被監視装置Ｎ１〜Ｎｎの状態や設置場所などの情報を付加して共有ディスク３０に保存したり、複数のＴＲＡＰを関連付けるなどの機能を持つ。
【００１０】
システムが運用系として稼動している場合には、これらすべての機能が動作するが、待機系システム２０においては冗長制御部２１と通信処理部２２のみが稼動できる状態になっている。運用系システム１０と待機系システム２０とは同一のＩＰアドレス（サービスＩＰアドレス）をもつが、どちらか一方のサービスＩＰアドレスのみが有効になり、他方は無効になるように冗長制御部１１，２１により制御される。次に、運用系と待機系の切替え動作について図２を用いて説明する。
【００１１】
なお、運用系システム１０と待機系システム２０とは、冗長切り替えが実施されるとそれぞれ待機系、運用系に切り替わる。運用系システム１０と待機系システム２０とは、いずれも自システムが運用系であるか、待機系であるかを常時認識している。すなわち図１に示すように監視装置１００は両システムの冗長制御部１１，２１を結ぶ内部ＬＡＮ（Local Area Network）、およびコマンド用ＬＡＮを備え、さらに両システムはＩＰ網を介しても通信することができる。これらの３つのルートを用いて常時セルフチェックが実施されており、いずれか２つのルートを介したチェックパケットの授受が途絶えると冗長切り替えが実行される。自システムが運用系であるか待機系であるかはそれぞれ両システムの冗長制御部１１，２１によるこのような処理により認識されており、その認識の結果はアプリケーション機能部１５，２５にそれぞれ通知されて運用系、あるいは待機系としてのアプリケーションが機能する。
【００１２】
図２（ａ）を参照して、まず既存のシステムの動作につき説明する。既存のシステムにおいては、運用系（システム０）と待機系（システム１）とを切替える場合には、運用系システムはサービスＩＰアドレスを無効にしたのち直ちにアプリケーションを停止する。その後共有ディスクをアンマウントして制御を待機系に移行する。切替え動作開始前に待機系であったシステムは、運用系システムにおいて共有ディスクのアンマウントが完了した後に自システムに共有ディスクをマウントし、次いでアプリケーションを起動した後にサービスＩＰアドレスを有効にする。この手順が完了したのちに運用系システムとして動作を開始する。
【００１３】
図２（ｂ）はこの発明に係わるネットワーク監視システムでの切替え動作を説明する図である。この実施形態では運用系システムがサービスＩＰアドレスを無効にした直後に、待機系システムのサービスＩＰアドレスを有効にする。その後運用系システムにおいてアプリケーションの停止および共有ディスクのアンマウントを行ない、待機系システムで共有ディスクのマウント、アプリケーションの起動を行なうことで運用系と待機系のシステムを切替えるようにする。
【００１４】
待機系システムは、サービスＩＰアドレスを有効にすると同時にネットワークにむけてＧＡＲＰメッセージを発行する。これに応じて監視装置１００の周辺のネットワーク機器（ルータなど）がサービスＩＰアドレスに対応するＭＡＣアドレスを更新することで、被監視装置Ｎ１〜ＮｎからのＴＲＡＰは待機系システムで受信されるようになる。この実施形態では、メッセージ受信部２２ｂを待機系システムにおいても稼動させているので、受信されたＴＲＡＰは内部バッファ２４に蓄積され、アプリケーションが起動したときに処理される。
【００１５】
既存のシステムでは運用系システム１０でサービスＩＰアドレスを無効にしてから待機系システム２０で有効にするまでの間に、アプリケーションの停止／起動、共有ディスクのアンマウント／マウントを行なっていた。これに対しこの実施形態では運用系システム１０でサービスＩＰアドレスを無効にした直後に待機系２０のサービスＩＰアドレスを有効にする、すなわち冗長切替え手順においてサービスＩＰアドレスの切替えを最初に行なうようにしている。従ってＴＲＡＰを受信できない時間（ＴＲＡＰ受信不能時間帯）を大幅に短縮することが可能になる。
【００１６】
次に、ＴＲＡＰがバースト的に発生した場合の監視装置１００における処理手順を説明する。図１の運用系システム１０のメッセージ処理部１３は、被監視装置Ｎ１〜Ｎｎの状態をＴＲＡＰに付加したり、共有ディスク３０への保存を行なうなど処理負荷が大きいので、メッセージ受信部１２ｂが受信可能なＴＲＡＰ数よりもメッセージ処理部１３が処理可能なＴＲＡＰ数が少ない。このためメッセージ処理部１３の処理能力を上回るＴＲＡＰがバースト的に受信された場合、内部バッファ１４に多量のＴＲＡＰが蓄積されることになり、この状態が長時間にわたって継続すると内部バッファ１４がオーバーフローする。
【００１７】
そこでこの実施形態では、内部バッファ１４に未処理のまま蓄積されているＴＲＡＰの数をチェックすることによりバッファオーバーフローを検出するようにする。そして、内部バッファ１４がオーバーフローする直前にＴＲＡＰを待機系システム２０で受信するように切替える。図３を参照してこの動作を説明する。
【００１８】
図３において、運用系システム１０のメッセージ受信部１２ｂは、内部バッファ１４がオーバーフローすることを検出すると冗長制御部１１に通知する。冗長制御部１１はサービスＩＰアドレスを運用系システム１０で無効にするとともに待機系システム２０で有効にすることで、それ以後のＴＲＡＰを待機系システム２０で受信するように切替える。運用系システム１０ではＴＲＡＰが受信されなくなるので、メッセージ処理部１３は内部バッファ１４に蓄積されたＴＲＡＰの処理を継続する。そして、全てのＴＲＡＰの処理が完了した時点で運用系と待機系を切替えることにより、切替え前に待機系の内部バッファ２４に蓄積されたＴＲＡＰの処理を行なう。このようにこの実施形態では、運用系システム１０の内部バッファ１４がオーバーフローする前に、運用系でＴＲＡＰを受信しなくなるので、メッセージ受信部１２ｂのＣＰＵ処理負荷がなくなり、これによりメッセージ処理部１３の処理速度を向上することができる。
【００１９】
既存のシステムでは、内部バッファがオーバーフローした場合にはＴＲＡＰの受信を停止するか、内部バッファをクリアしてＴＲＡＰの受信を継続するなどの動作を行なうしかなかった。これに対しこの実施形態では待機系システムでＴＲＡＰの受信が継続されるので、実効的に内部バッファを２倍の容量にしたのと同じ効果を得ることができる。
【００２０】
次に、メッセージ受信部１２ｂ、２２ｂ以外のプログラムファイルを更新する場合につき説明する。既存のシステムでは、待機系のプログラムファイルを更新した後に運用系システムと待機系システムとを切替えるか、または、運用系システムのプログラムファイルを更新してリブートするなどの方法をとっていた。これに対しこの実施形態では、待機系システムのプログラムファイルを更新した後にアプリケーションと共有ディスク３０のみを待機系システム２０に切替え、運用系システム１０のプログラムファイルを更新して切戻すようにする。これによりＴＲＡＰ受信を中断せずにプログラムファイルを更新することが可能になる。
【００２１】
図４は、プログラムファイル更新の手順を示す図である。この実施形態では、まず待機系システム（システム１）のプログラムファイルを更新する。次いで運用系システム（システム０）でアプリケーションの停止および共有ディスクのアンマウントをした後に、待機系システムで共有ディスクをマウントしアプリケーションを起動する。この時点で、運用系システム１０は受信したＴＲＡＰを内部バッファ１４に蓄積しており、アプリケーションは待機系システムで動作している。次に、運用系システム１０のプログラムファイルを更新し、アプリケーションを切戻すことにより、運用系システム１０の内部バッファ１４に蓄積されていたＴＲＡＰの処理が再開され、アプリケーションも運用系システム１０で動作するようになり、プログラムファイルの更新は完了する。この手順においてサービスＩＰアドレスの無効／有効の制御は行なわないので、内部バッファ１４がオーバーフローしない限りＴＲＡＰが損失することはない。
【００２２】
また、アプリケーションで障害が発生した場合の一例についても次のように対処できる。例えば運用系システム１０のローカルディスク（図示せず）でディスクフルが発生し、アプリケーションが動作できなくなったとする。この時にもアプリケーションと共有ディスク３０のみを待機系システム２０に切替えた状態でアプリケーションを動作させ、運用系システム１０で発生しているディスクフル障害を復旧させた後に切戻す手順とする。この場合にもサービスＩＰアドレスの無効／有効の制御は行なわずにアプリケーションを動作させることができる。
【００２３】
次に、ＴＲＡＰがバースト的に発生した状態でアプリケーション機能を動作させる場合につき説明する。バースト的に発生したＴＲＡＰを受信し処理すると、ＣＰＵ負荷が重くなるのでアプリケーションの動作が緩慢になることがある。この実施形態によればこのような状況でアプリケーション動作を優先させて機能させたい場合にも、メッセージ受信部を待機系に切替えることによりアプリケーション機能を継続させることができる。
【００２４】
図５は、ＴＲＡＰがバースト的に発生した状態でアプリケーション機能を動作させるための手順を説明する図である。メッセージ受信部１２ｂを運用系から待機系に切替えるには、運用系システム１０においてサービスＩＰアドレスを無効にし、待機系システム２０でサービスＩＰアドレスを有効にすればよい。この状態で運用系システム１０は新たなＴＲＡＰを受信することはないので、アプリケーション機能にＣＰＵ処理時間を十分に割り当てる事ができる。待機系システム２０はＴＲＡＰを内部バッファ２４に蓄積するが、処理はできない。このため切替えた状態を長期間継続すると内部バッファ２４がオーバーフローする。そこでこの実施形態では、メッセージ受信部１２ｂのみを切替えた場合、アプリケーションの操作を完了した後にオペレータ操作によりメッセージ受信部１２ｂを切戻すようにする。このようにすることで、バースト的にＴＲＡＰが発生した場合にもアプリケーション機能は動作を中断することなく機能することが可能である。
【００２５】
なおオペレータが切戻しを行なわない場合、またはアプリケーション機能が完了する前に内部バッファがオーバーフローしてしまう場合には、自動的に切替えもしくは切戻しを行なうことによりＴＲＡＰが損失することを防止することができる。待機系システム２０は内部バッファ２４がオーバーフローすることを検出すると、そのことを冗長制御部２１に通知する。冗長制御部２１はメッセージ受信部１２ｂを切戻すか、アプリケーションを切替えるかを選択し、いずれか一方を切替える。
【００２６】
メッセージ受信部１２ｂを切替える場合には、待機系システム２０のサービスＩＰアドレスを無効にし、内部バッファ２４の内容を運用系システム１０に転送した後に運用系システム１０のサービスＩＰアドレスを有効にする。アプリケーションを切替える場合には、運用系システム１０でアプリケーションを停止し共有ディスク３０をアンマウントした後に、待機系システム２０で共有ディスク３０をマウントしたのちアプリケーションを起動する。
【００２７】
メッセージ受信部１２ｂまたはアプリケーションのどちらを切替えるかを判断するためには、冗長制御部２１が最後に切替えを行なった部分がどちらであるかを記憶しておき、最後に切替えを行なった部分を切戻すことが基本動作である。図６を参照してこの処理手順につき説明する。
【００２８】
図６においてシステムが待機系として動作している状態からメッセージ受信部の切替え指示が発生すると、サービスＩＰアドレスを有効として（ステップＳ１）ＴＲＡＰの受信に備える。この状態から内部バッファのオーバーフローが検出されると（ステップＳ２でＹｅｓ）、最終切替えを行った部分がメッセージ受信部またはアプリケーション部のいずれであるかが判定される（ステップＳ３）。ステップＳ３でアプリケーション部と判定されれば、アプリケーションが停止されたのち共有ディスク３０がアンマウントされる（ステップＳ５）。その後、アプリケーション切替え指示が送出されたのち運用系システムとしての動作が開始される（ステップＳ５）。
一方、ステップＳ３でメッセージ受信部と判定されれば、サービスＩＰアドレスが無効とされ（ステップＳ６）、内部バッファの記憶内容の転送およびメッセージ受信部の切替え指示が送出されたのち待機系システムとしての動作が開始される（ステップＳ７）。
【００２９】
以上をまとめるとこの実施形態では、運用系システムがサービスＩＰアドレスを無効にした直後に、待機系システムのサービスＩＰアドレスを有効にする。その後運用系システムにおいてアプリケーションの停止および共有ディスクのアンマウントを行ない、待機系システムで共有ディスクのマウント、アプリケーションの起動を行なうことで運用系と待機系のシステムを切替えるようにしている。
またこの実施形態では、待機系システムのプログラムファイルを更新した後にアプリケーションと共有ディスク３０のみを待機系システム２０に切替え、運用系システム１０のプログラムファイルを更新して切戻すようにする。
【００３０】
また、例えば運用系システム１０のローカルディスクでディスクフルが発生し、アプリケーションが動作できなくなったとする。この時にもアプリケーションと共有ディスク３０のみを待機系システム２０に切替えた状態でアプリケーションを動作させ、運用系システム１０で発生しているディスクフル障害を復旧させた後に切戻す手順とする。この場合にもサービスＩＰアドレスの無効／有効の制御は行なわずにアプリケーションを動作させることができる。
【００３１】
また、メッセージ受信部１２ｂのみを切替えた場合、アプリケーションの操作を完了した後にオペレータ操作によりメッセージ受信部１２ｂを切戻すようにする。このようにすることで、バースト的にＴＲＡＰが発生した場合にもアプリケーション機能は動作を中断することなく機能することが可能である。
【００３２】
これらのことから、クラスタシステムの冗長切替えに際してＴＲＡＰの受信不能期間を短縮できるようにし、これにより監視機能の充実を図ったネットワーク監視方法を提供することが可能になる。
なおこの発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
【図面の簡単な説明】
【００３３】
【図１】この発明に係わるネットワーク監視システムの実施の形態を示す機能ブロック図。
【図２】運用系システム１０と待機系システム２０の切替え動作につき説明するための図。
【図３】バッファオーバーフローへの対処を説明するための図。
【図４】プログラムファイル更新の手順を示す図。
【図５】ＴＲＡＰがバースト的に発生した状態でアプリケーション機能を動作させるための手順を説明する図。
【図６】この発明の実施の形態における処理手順を示すフローチャート。
【符号の説明】
【００３４】
１０…運用系システム、１１…冗長制御部、１２…通信処理部、１２ａ…コマンド通信部、１２ｂ…メッセージ受信部、１３…メッセージ処理部、１４…内部バッファ、１５…アプリケーション機能部、２０…待機系システム、２１…冗長制御部、２２…通信処理部、２２ａ…コマンド通信部、２２ｂ…メッセージ受信部、２３…メッセージ処理部、２４…内部バッファ、２５…アプリケーション機能部、３０…共有ディスク、１００…監視装置、Ｎ１〜Ｎｎ…被監視装置

【特許請求の範囲】
【請求項１】
運用系システムと待機系システムとが共有ディスクを用いて情報を共有するクラスタシステム化された監視装置により、複数の被監視装置を備えるネットワークをＳＮＭＰ（Simple Network Management Protocol）を用いて監視するネットワーク監視方法において、
前記複数の被監視装置からそれぞれ通知されるＴＲＡＰを受信するメッセージ受信機能を、監視制御アプリケーションを分割して前記待機系システムにおいて稼動させ、
前記運用系システムと前記待機系システムとの各々において、自システムが運用系であるか待機系であるかを判定し、
待機系と判定したシステムにおいて、受信するＴＲＡＰをバッファメモリに蓄積して前記共有ディスクへの保存処理を保留し、
前記運用系システムと前記待機系システムとの冗長切替え時に、当該運用系システムのサービスＩＰを無効にするとともに当該待機系システムのサービスＩＰを有効にして当該待機系システムからＧＡＲＰを発行し、
前記ＧＡＲＰの発行の後、前記運用系システムにおけるアプリケーションの停止および共有ディスクのアンマウントを行うとともに、前記待機系システムにおける前記保留を解除し、共有ディスクのマウントおよびアプリケーションの起動を行い、新たに運用系となる制御を行うことを特徴とするネットワーク監視方法。
【請求項２】
サービスＩＰアドレスの切替え、または、前記メッセージ受信機能以外のアプリケーションの冗長切替えをそれぞれ単独で実行可能としたことを特徴とする請求項１に記載のネットワーク監視方法。
【請求項３】
前記サービスＩＰ、またはメッセージ受信部以外のアプリケーションのいずれか一方のみを切り替える場合には、バッファオーバーフローを生じた場合に他系との通信によりメッセージ受信機能を切替えるか、またはメッセージ受信機能以外のアプリケーションを切替えることを特徴とする請求項２に記載のネットワーク監視方法。

【図１】