説明

ネットワーク監視方法

【課題】クラスタシステムの冗長切替えに際してTRAPの受信不能期間を短縮できるようにし、これにより監視機能の充実を図ったネットワーク監視方法を提供すること。
【解決手段】運用系システムがサービスIPアドレスを無効にした直後に、待機系システムのサービスIPアドレスを有効にする。その後運用系システムにおいてアプリケーションの停止および共有ディスクのアンマウントを行ない、待機系システムで共有ディスクのマウント、アプリケーションの起動を行なうことで運用系と待機系のシステムを切替える。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、SNMP(Simple Network Management Protocol)を用いてネットワーク監視を行うシステムに用いられるネットワーク監視方法に関する。特にこの発明は、共有ディスクを利用するクラスタシステムにより監視装置を構成するシステムの改良に関する。
【背景技術】
【0002】
IP(Internet Protocol)網のようなネットワークを監視するプロトコルには、実装が容易なSNMPが用いられることが多い(例えば特許文献1を参照)。SNMPではTRAPと称するメッセージを用いて被監視装置からネットワーク監視装置に管理情報が通知される。
ところで、耐障害性能を高めるためネットワーク監視装置は冗長化されることが多い(例えば特許文献1〜3を参照)。そのなかに、共有ディスクを利用するクラスタシステムがある。
【特許文献1】特開平8−212095
【特許文献2】特開平8−328891
【特許文献3】特開平10−224378
【発明の開示】
【発明が解決しようとする課題】
【0003】
クラスタシステムでは、冗長切替えの際に運用系のアプリケーションが停止してから待機系でアプリケーションが起動されるまでの時間が比較的長い。その間に被監視装置からTRAPが発出された場合、このメッセージを受信できずに重要な情報が失われる虞がある。
この発明は上記事情によりなされたもので、その目的は、クラスタシステムの冗長切替えに際してTRAPの受信不能期間を短縮できるようにし、これにより監視機能の充実を図ったネットワーク監視方法を提供することにある。
【課題を解決するための手段】
【0004】
上記目的を達成するためにこの発明の一態様によれば、運用系システムと待機系システムとが共有ディスクを用いて情報を共有するクラスタシステム化された監視装置により、複数の被監視装置を備えるネットワークをSNMP(Simple Network Management Protocol)を用いて監視するネットワーク監視方法において、前記複数の被監視装置からそれぞれ通知されるTRAPを受信するメッセージ受信機能を、監視制御アプリケーションを分割して前記待機系システムにおいて稼動させ、前記運用系システムと前記待機系システムとの各々において、自システムが運用系であるか待機系であるかを判定し、待機系と判定したシステムにおいて、受信するTRAPをバッファメモリに蓄積して前記共有ディスクへの保存処理を保留し、前記運用系システムと前記待機系システムとの冗長切替え時に、当該運用系システムのサービスIPを無効にするとともに当該待機系システムのサービスIPを有効にして当該待機系システムからGARPを発行し、前記GARPの発行の後、前記運用系システムにおけるアプリケーションの停止および共有ディスクのアンマウントを行うとともに、前記待機系システムにおける前記保留を解除し、共有ディスクのマウントおよびアプリケーションの起動を行い、新たに運用系となる制御を行うことを特徴とするネットワーク監視方法が提供される。
【0005】
上記手段は、監視制御アプリケーションを分割し、TRAP受信に関わるプロセスを待機系で動作可能とするものである。そして、冗長切替え時には運用系のアプリケーションを停止する前に待機系がメッセージを受信するようにサービスIP切替えの手順を変更する。すなわちサービスIPの切替え直後に待機系システムがTRAPを受信できるようにすることで当該メッセージを受信できない時間帯を大幅に短縮することが可能となる。
【発明の効果】
【0006】
この発明によれば、クラスタシステムの冗長切替えに際してTRAPの受信不能期間を短縮できるようにし、これにより監視機能の充実を図ったネットワーク監視方法を提供することができる。
【発明を実施するための最良の形態】
【0007】
図1は、この発明に係わるネットワーク監視方法が用いられるネットワーク監視システムの実施の形態を示す機能ブロック図である。図1において、監視装置100は運用系システム10、待機系システム20、およびこれらのシステムにより共有される共有ディスク30を備える。すなわち監視装置100は2つのコンピュータシステムにより冗長化され、いずれのシステムもIP網を介して複数の被監視装置N1〜Nnと接続される。監視装置100は被監視装置N1〜Nnから通知されるTRAPを受信して処理する機能を備える。
【0008】
運用系システム10は、被監視装置N1〜Nnとの通信を行なう通信処理部12、受信したTRAPを処理するメッセージ処理部13、監視機能を司るアプリケーション機能部15、および、システムの冗長切替えを制御する冗長制御部11を備える。待機系システム20も同様に、被監視装置N1〜Nnとの通信を行なう通信処理部22、受信したTRAPを処理するメッセージ処理部23、監視機能を司るアプリケーション機能部25、および、システムの冗長切替えを制御する冗長制御部21を備える。
【0009】
運用系システム10、待機系システム20は共有ディスク30を用いて種々の情報を互いに共有し、冗長制御部11により運用系システム10が共有ディスク30にアクセスするように制御されている。
運用系システム10の通信処理部12は、TRAPを受信するメッセージ受信部12bと、SNMPコマンドや、FTP、TELNETを用いて被監視装置N1〜Nnを制御するコマンド通信部12aとを備える。メッセージ受信部12bは受信したTRAPをメモリ上に構成した内部バッファ14に蓄積する。メッセージ処理部13は内部バッファ14に蓄積されたTRAPに被監視装置N1〜Nnの状態や設置場所などの情報を付加して共有ディスク30に保存したり、複数のTRAPを関連付けるなどの機能を持つ。
【0010】
システムが運用系として稼動している場合には、これらすべての機能が動作するが、待機系システム20においては冗長制御部21と通信処理部22のみが稼動できる状態になっている。運用系システム10と待機系システム20とは同一のIPアドレス(サービスIPアドレス)をもつが、どちらか一方のサービスIPアドレスのみが有効になり、他方は無効になるように冗長制御部11,21により制御される。次に、運用系と待機系の切替え動作について図2を用いて説明する。
【0011】
なお、運用系システム10と待機系システム20とは、冗長切り替えが実施されるとそれぞれ待機系、運用系に切り替わる。運用系システム10と待機系システム20とは、いずれも自システムが運用系であるか、待機系であるかを常時認識している。すなわち図1に示すように監視装置100は両システムの冗長制御部11,21を結ぶ内部LAN(Local Area Network)、およびコマンド用LANを備え、さらに両システムはIP網を介しても通信することができる。これらの3つのルートを用いて常時セルフチェックが実施されており、いずれか2つのルートを介したチェックパケットの授受が途絶えると冗長切り替えが実行される。自システムが運用系であるか待機系であるかはそれぞれ両システムの冗長制御部11,21によるこのような処理により認識されており、その認識の結果はアプリケーション機能部15,25にそれぞれ通知されて運用系、あるいは待機系としてのアプリケーションが機能する。
【0012】
図2(a)を参照して、まず既存のシステムの動作につき説明する。既存のシステムにおいては、運用系(システム0)と待機系(システム1)とを切替える場合には、運用系システムはサービスIPアドレスを無効にしたのち直ちにアプリケーションを停止する。その後共有ディスクをアンマウントして制御を待機系に移行する。切替え動作開始前に待機系であったシステムは、運用系システムにおいて共有ディスクのアンマウントが完了した後に自システムに共有ディスクをマウントし、次いでアプリケーションを起動した後にサービスIPアドレスを有効にする。この手順が完了したのちに運用系システムとして動作を開始する。
【0013】
図2(b)はこの発明に係わるネットワーク監視システムでの切替え動作を説明する図である。この実施形態では運用系システムがサービスIPアドレスを無効にした直後に、待機系システムのサービスIPアドレスを有効にする。その後運用系システムにおいてアプリケーションの停止および共有ディスクのアンマウントを行ない、待機系システムで共有ディスクのマウント、アプリケーションの起動を行なうことで運用系と待機系のシステムを切替えるようにする。
【0014】
待機系システムは、サービスIPアドレスを有効にすると同時にネットワークにむけてGARPメッセージを発行する。これに応じて監視装置100の周辺のネットワーク機器(ルータなど)がサービスIPアドレスに対応するMACアドレスを更新することで、被監視装置N1〜NnからのTRAPは待機系システムで受信されるようになる。この実施形態では、メッセージ受信部22bを待機系システムにおいても稼動させているので、受信されたTRAPは内部バッファ24に蓄積され、アプリケーションが起動したときに処理される。
【0015】
既存のシステムでは運用系システム10でサービスIPアドレスを無効にしてから待機系システム20で有効にするまでの間に、アプリケーションの停止/起動、共有ディスクのアンマウント/マウントを行なっていた。これに対しこの実施形態では運用系システム10でサービスIPアドレスを無効にした直後に待機系20のサービスIPアドレスを有効にする、すなわち冗長切替え手順においてサービスIPアドレスの切替えを最初に行なうようにしている。従ってTRAPを受信できない時間(TRAP受信不能時間帯)を大幅に短縮することが可能になる。
【0016】
次に、TRAPがバースト的に発生した場合の監視装置100における処理手順を説明する。図1の運用系システム10のメッセージ処理部13は、被監視装置N1〜Nnの状態をTRAPに付加したり、共有ディスク30への保存を行なうなど処理負荷が大きいので、メッセージ受信部12bが受信可能なTRAP数よりもメッセージ処理部13が処理可能なTRAP数が少ない。このためメッセージ処理部13の処理能力を上回るTRAPがバースト的に受信された場合、内部バッファ14に多量のTRAPが蓄積されることになり、この状態が長時間にわたって継続すると内部バッファ14がオーバーフローする。
【0017】
そこでこの実施形態では、内部バッファ14に未処理のまま蓄積されているTRAPの数をチェックすることによりバッファオーバーフローを検出するようにする。そして、内部バッファ14がオーバーフローする直前にTRAPを待機系システム20で受信するように切替える。図3を参照してこの動作を説明する。
【0018】
図3において、運用系システム10のメッセージ受信部12bは、内部バッファ14がオーバーフローすることを検出すると冗長制御部11に通知する。冗長制御部11はサービスIPアドレスを運用系システム10で無効にするとともに待機系システム20で有効にすることで、それ以後のTRAPを待機系システム20で受信するように切替える。運用系システム10ではTRAPが受信されなくなるので、メッセージ処理部13は内部バッファ14に蓄積されたTRAPの処理を継続する。そして、全てのTRAPの処理が完了した時点で運用系と待機系を切替えることにより、切替え前に待機系の内部バッファ24に蓄積されたTRAPの処理を行なう。このようにこの実施形態では、運用系システム10の内部バッファ14がオーバーフローする前に、運用系でTRAPを受信しなくなるので、メッセージ受信部12bのCPU処理負荷がなくなり、これによりメッセージ処理部13の処理速度を向上することができる。
【0019】
既存のシステムでは、内部バッファがオーバーフローした場合にはTRAPの受信を停止するか、内部バッファをクリアしてTRAPの受信を継続するなどの動作を行なうしかなかった。これに対しこの実施形態では待機系システムでTRAPの受信が継続されるので、実効的に内部バッファを2倍の容量にしたのと同じ効果を得ることができる。
【0020】
次に、メッセージ受信部12b、22b以外のプログラムファイルを更新する場合につき説明する。既存のシステムでは、待機系のプログラムファイルを更新した後に運用系システムと待機系システムとを切替えるか、または、運用系システムのプログラムファイルを更新してリブートするなどの方法をとっていた。これに対しこの実施形態では、待機系システムのプログラムファイルを更新した後にアプリケーションと共有ディスク30のみを待機系システム20に切替え、運用系システム10のプログラムファイルを更新して切戻すようにする。これによりTRAP受信を中断せずにプログラムファイルを更新することが可能になる。
【0021】
図4は、プログラムファイル更新の手順を示す図である。この実施形態では、まず待機系システム(システム1)のプログラムファイルを更新する。次いで運用系システム(システム0)でアプリケーションの停止および共有ディスクのアンマウントをした後に、待機系システムで共有ディスクをマウントしアプリケーションを起動する。この時点で、運用系システム10は受信したTRAPを内部バッファ14に蓄積しており、アプリケーションは待機系システムで動作している。次に、運用系システム10のプログラムファイルを更新し、アプリケーションを切戻すことにより、運用系システム10の内部バッファ14に蓄積されていたTRAPの処理が再開され、アプリケーションも運用系システム10で動作するようになり、プログラムファイルの更新は完了する。この手順においてサービスIPアドレスの無効/有効の制御は行なわないので、内部バッファ14がオーバーフローしない限りTRAPが損失することはない。
【0022】
また、アプリケーションで障害が発生した場合の一例についても次のように対処できる。例えば運用系システム10のローカルディスク(図示せず)でディスクフルが発生し、アプリケーションが動作できなくなったとする。この時にもアプリケーションと共有ディスク30のみを待機系システム20に切替えた状態でアプリケーションを動作させ、運用系システム10で発生しているディスクフル障害を復旧させた後に切戻す手順とする。この場合にもサービスIPアドレスの無効/有効の制御は行なわずにアプリケーションを動作させることができる。
【0023】
次に、TRAPがバースト的に発生した状態でアプリケーション機能を動作させる場合につき説明する。バースト的に発生したTRAPを受信し処理すると、CPU負荷が重くなるのでアプリケーションの動作が緩慢になることがある。この実施形態によればこのような状況でアプリケーション動作を優先させて機能させたい場合にも、メッセージ受信部を待機系に切替えることによりアプリケーション機能を継続させることができる。
【0024】
図5は、TRAPがバースト的に発生した状態でアプリケーション機能を動作させるための手順を説明する図である。メッセージ受信部12bを運用系から待機系に切替えるには、運用系システム10においてサービスIPアドレスを無効にし、待機系システム20でサービスIPアドレスを有効にすればよい。この状態で運用系システム10は新たなTRAPを受信することはないので、アプリケーション機能にCPU処理時間を十分に割り当てる事ができる。待機系システム20はTRAPを内部バッファ24に蓄積するが、処理はできない。このため切替えた状態を長期間継続すると内部バッファ24がオーバーフローする。そこでこの実施形態では、メッセージ受信部12bのみを切替えた場合、アプリケーションの操作を完了した後にオペレータ操作によりメッセージ受信部12bを切戻すようにする。このようにすることで、バースト的にTRAPが発生した場合にもアプリケーション機能は動作を中断することなく機能することが可能である。
【0025】
なおオペレータが切戻しを行なわない場合、またはアプリケーション機能が完了する前に内部バッファがオーバーフローしてしまう場合には、自動的に切替えもしくは切戻しを行なうことによりTRAPが損失することを防止することができる。待機系システム20は内部バッファ24がオーバーフローすることを検出すると、そのことを冗長制御部21に通知する。冗長制御部21はメッセージ受信部12bを切戻すか、アプリケーションを切替えるかを選択し、いずれか一方を切替える。
【0026】
メッセージ受信部12bを切替える場合には、待機系システム20のサービスIPアドレスを無効にし、内部バッファ24の内容を運用系システム10に転送した後に運用系システム10のサービスIPアドレスを有効にする。アプリケーションを切替える場合には、運用系システム10でアプリケーションを停止し共有ディスク30をアンマウントした後に、待機系システム20で共有ディスク30をマウントしたのちアプリケーションを起動する。
【0027】
メッセージ受信部12bまたはアプリケーションのどちらを切替えるかを判断するためには、冗長制御部21が最後に切替えを行なった部分がどちらであるかを記憶しておき、最後に切替えを行なった部分を切戻すことが基本動作である。図6を参照してこの処理手順につき説明する。
【0028】
図6においてシステムが待機系として動作している状態からメッセージ受信部の切替え指示が発生すると、サービスIPアドレスを有効として(ステップS1)TRAPの受信に備える。この状態から内部バッファのオーバーフローが検出されると(ステップS2でYes)、最終切替えを行った部分がメッセージ受信部またはアプリケーション部のいずれであるかが判定される(ステップS3)。ステップS3でアプリケーション部と判定されれば、アプリケーションが停止されたのち共有ディスク30がアンマウントされる(ステップS5)。その後、アプリケーション切替え指示が送出されたのち運用系システムとしての動作が開始される(ステップS5)。
一方、ステップS3でメッセージ受信部と判定されれば、サービスIPアドレスが無効とされ(ステップS6)、内部バッファの記憶内容の転送およびメッセージ受信部の切替え指示が送出されたのち待機系システムとしての動作が開始される(ステップS7)。
【0029】
以上をまとめるとこの実施形態では、運用系システムがサービスIPアドレスを無効にした直後に、待機系システムのサービスIPアドレスを有効にする。その後運用系システムにおいてアプリケーションの停止および共有ディスクのアンマウントを行ない、待機系システムで共有ディスクのマウント、アプリケーションの起動を行なうことで運用系と待機系のシステムを切替えるようにしている。
またこの実施形態では、待機系システムのプログラムファイルを更新した後にアプリケーションと共有ディスク30のみを待機系システム20に切替え、運用系システム10のプログラムファイルを更新して切戻すようにする。
【0030】
また、例えば運用系システム10のローカルディスクでディスクフルが発生し、アプリケーションが動作できなくなったとする。この時にもアプリケーションと共有ディスク30のみを待機系システム20に切替えた状態でアプリケーションを動作させ、運用系システム10で発生しているディスクフル障害を復旧させた後に切戻す手順とする。この場合にもサービスIPアドレスの無効/有効の制御は行なわずにアプリケーションを動作させることができる。
【0031】
また、メッセージ受信部12bのみを切替えた場合、アプリケーションの操作を完了した後にオペレータ操作によりメッセージ受信部12bを切戻すようにする。このようにすることで、バースト的にTRAPが発生した場合にもアプリケーション機能は動作を中断することなく機能することが可能である。
【0032】
これらのことから、クラスタシステムの冗長切替えに際してTRAPの受信不能期間を短縮できるようにし、これにより監視機能の充実を図ったネットワーク監視方法を提供することが可能になる。
なおこの発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
【図面の簡単な説明】
【0033】
【図1】この発明に係わるネットワーク監視システムの実施の形態を示す機能ブロック図。
【図2】運用系システム10と待機系システム20の切替え動作につき説明するための図。
【図3】バッファオーバーフローへの対処を説明するための図。
【図4】プログラムファイル更新の手順を示す図。
【図5】TRAPがバースト的に発生した状態でアプリケーション機能を動作させるための手順を説明する図。
【図6】この発明の実施の形態における処理手順を示すフローチャート。
【符号の説明】
【0034】
10…運用系システム、11…冗長制御部、12…通信処理部、12a…コマンド通信部、12b…メッセージ受信部、13…メッセージ処理部、14…内部バッファ、15…アプリケーション機能部、20…待機系システム、21…冗長制御部、22…通信処理部、22a…コマンド通信部、22b…メッセージ受信部、23…メッセージ処理部、24…内部バッファ、25…アプリケーション機能部、30…共有ディスク、100…監視装置、N1〜Nn…被監視装置

【特許請求の範囲】
【請求項1】
運用系システムと待機系システムとが共有ディスクを用いて情報を共有するクラスタシステム化された監視装置により、複数の被監視装置を備えるネットワークをSNMP(Simple Network Management Protocol)を用いて監視するネットワーク監視方法において、
前記複数の被監視装置からそれぞれ通知されるTRAPを受信するメッセージ受信機能を、監視制御アプリケーションを分割して前記待機系システムにおいて稼動させ、
前記運用系システムと前記待機系システムとの各々において、自システムが運用系であるか待機系であるかを判定し、
待機系と判定したシステムにおいて、受信するTRAPをバッファメモリに蓄積して前記共有ディスクへの保存処理を保留し、
前記運用系システムと前記待機系システムとの冗長切替え時に、当該運用系システムのサービスIPを無効にするとともに当該待機系システムのサービスIPを有効にして当該待機系システムからGARPを発行し、
前記GARPの発行の後、前記運用系システムにおけるアプリケーションの停止および共有ディスクのアンマウントを行うとともに、前記待機系システムにおける前記保留を解除し、共有ディスクのマウントおよびアプリケーションの起動を行い、新たに運用系となる制御を行うことを特徴とするネットワーク監視方法。
【請求項2】
サービスIPアドレスの切替え、または、前記メッセージ受信機能以外のアプリケーションの冗長切替えをそれぞれ単独で実行可能としたことを特徴とする請求項1に記載のネットワーク監視方法。
【請求項3】
前記サービスIP、またはメッセージ受信部以外のアプリケーションのいずれか一方のみを切り替える場合には、バッファオーバーフローを生じた場合に他系との通信によりメッセージ受信機能を切替えるか、またはメッセージ受信機能以外のアプリケーションを切替えることを特徴とする請求項2に記載のネットワーク監視方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2008−77216(P2008−77216A)
【公開日】平成20年4月3日(2008.4.3)
【国際特許分類】
【出願番号】特願2006−253295(P2006−253295)
【出願日】平成18年9月19日(2006.9.19)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】