監視システムおよび監視方法
【課題】障害発生を示すトラップを確実にSNMPマネージャに通知する。
【解決手段】監視対象サーバ8は、障害発生時にSNMPマネージャ部22に対してSNMPトラップを送信し、SNMPマネージャ部22からの応答が無い場合に再送待ち時間が経過する度にSNMPトラップを送信するSNMPエージェント部6と、SNMPマネージャ部22からの応答が無い場合に再送待ち時間が経過する度に、業務用LAN31とは別の管理用LAN30を利用してPETをSNMPマネージャ部22に送信するBMC2を有する。監視サーバ24は、トラップを受信したときに業務用LAN31を利用してSNMPエージェント部6に応答し、PETを受信したときに管理用LAN30を利用して応答するSNMPマネージャ部22を有する。再送待ち時間は、トラップの重要度に応じて設定される。
【解決手段】監視対象サーバ8は、障害発生時にSNMPマネージャ部22に対してSNMPトラップを送信し、SNMPマネージャ部22からの応答が無い場合に再送待ち時間が経過する度にSNMPトラップを送信するSNMPエージェント部6と、SNMPマネージャ部22からの応答が無い場合に再送待ち時間が経過する度に、業務用LAN31とは別の管理用LAN30を利用してPETをSNMPマネージャ部22に送信するBMC2を有する。監視サーバ24は、トラップを受信したときに業務用LAN31を利用してSNMPエージェント部6に応答し、PETを受信したときに管理用LAN30を利用して応答するSNMPマネージャ部22を有する。再送待ち時間は、トラップの重要度に応じて設定される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、SNMPを用いた監視システムに関するものである。
【背景技術】
【0002】
従来、サーバ等の機器の障害監視を行う場合、監視対象サーバにエージェントプログラムをインストールし、そのエージェントが監視対象サーバのハードウェア(以下、H/W)の状態やOS(Operating System)の状態をチェックし、異常発生時には、管理マネージャへSNMP(Simple Network Management Protocol)トラップを通知することにより機器の障害監視を行ってきた。ここで、トラップ(Trap)とは、状況通知用の情報のことを言う。
【0003】
SNMPトラップは、負荷の軽いコネクションレス型のプロトコルであるUDP(User Datagram Protocol)を利用し通信されるため、処理速度が速い半面、通信の信頼性が低い。パケットが消失してしまった場合には、トラップの発生を検出することができなくなる。そのため、トラップが消失したことにより障害の検出ができなかったり、障害検知が遅れたりする可能性があり、重要な管理が行えないという問題があった。信頼性のある通信(例えばTCP/IP)を利用しトラップを送信すれば確実に送信することができるが、この場合、エージェントとマネージャ間で独自の通信方法となってしまう。それゆえに、標準管理プロトコルであるSNMPトラップを利用して監視を行うシステムが望まれるケースも多い。
【0004】
SNMPトラップの通信信頼性を向上させる技術が特許文献1に開示されている。特許文献1に開示された方式では、SNMPエージェントにトラップ受信確認用のMIB(Management Information Base)を定義し、SNMPマネージャがエージェントからトラップを受け取った際には、受信済みを表す値にセットするためのSetリクエスト要求をエージェントに対し送信し、管理対象サーバ上のトラップ受信確認用MIBを更新する。エージェントは、トラップ受信確認用のMIB値を監視し、一定時間待っても更新されない場合、トラップの再送処理を行う。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平9−101929号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に開示された方式では、SNMPエージェントはMIBが更新されるのを一定時間待つことになる。しかしながら、H/Wの障害などを検出していた場合、いち早いSNMPマネージャへの通知を行う必要があるが、一定時間トラップの再送を待つ方式では処理効率が悪いという問題点があった。さらに、特許文献1に開示された方式では、ネットワーク障害によりパケットが消失していた場合、同じ方法でトラップを再送すると再送トラップも再度消失してしまう可能性があるため、トラップが確実にマネージャに再送されるとは言えないという問題点があった。
【0007】
本発明は、上記課題を解決するためになされたもので、障害発生を示すトラップを確実にSNMPマネージャに通知することができる監視システムおよび監視方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の監視システムは、監視対象機器と、この監視対象機器を監視する監視機器とを備え、前記監視対象機器は、前記監視対象機器の障害発生時に前記監視機器のSNMPマネージャ手段に対してSNMPトラップを送信し、前記SNMPマネージャ手段からの応答が無い場合には再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPエージェント手段と、前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するBMC手段とを有し、前記監視機器は、前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答するSNMPマネージャ手段を有し、前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とするものである。
【0009】
また、本発明の監視システムの1構成例において、前記再送待ち時間は、重要な障害を示すSNMPトラップであるほど短く設定されることを特徴とするものである。
また、本発明の監視システムの1構成例において、前記監視対象機器は、さらに、SNMPトラップの種類とSNMPトラップの重要度と再送待ち時間とを対応付けて記憶するトラップ重要度管理テーブルを有し、前記SNMPエージェント手段は、SNMPトラップの種類に応じた重要度と再送待ち時間とを前記トラップ重要度管理テーブルから取得することを特徴とするものである。
また、本発明の監視システムの1構成例において、前記SNMPエージェント手段は、前記SNMPトラップの重要度の情報をこのSNMPトラップに埋め込んで送信し、前記SNMPマネージャ手段は、受信したSNMPトラップから重要度の情報を抽出し、SNMPトラップの重要度が所定の重要度よりも高い場合には、他の処理よりも優先的に前記SNMPエージェント手段に応答を返すことを特徴とするものである。
【0010】
また、本発明の監視方法は、監視対象機器のSNMPエージェント手段が、前記監視対象機器の障害発生時に監視機器のSNMPマネージャ手段に対してSNMPトラップを送信するSNMPトラップ送信ステップと、前記SNMPエージェント手段が、前記SNMPマネージャ手段からの応答が無い場合に再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPトラップ再送ステップと、前記監視対象機器のBMC手段が、前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するPET送信ステップと、前記監視機器のSNMPマネージャ手段が、前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答する応答ステップとを備え、前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とするものである。
【発明の効果】
【0011】
本発明によれば、SNMPを用いた監視システムにおいて、監視対象機器のSNMPエージェント手段でSNMPトラップの重要度に応じて再送待ち時間を変えることにより、重要なSNMPトラップほど高速に再送することが可能となる。また、BMC手段からのPETの送信を併用することで、確実にSNMPマネージャ手段にトラップを通知することが可能となる。本発明では、負荷の低いSNMPエージェント手段でSMMPトラップの再送の管理を行うため、SNMPマネージャ手段に負荷をかけることがない。
【図面の簡単な説明】
【0012】
【図1】本発明の第1の実施の形態に係る監視システムの構成を示すブロック図である。
【図2】本発明の第1の実施の形態に係るトラップ状態管理テーブルの例を示す図である。
【図3】本発明の第1の実施の形態に係るトラップ重要度管理テーブルの例を示す図である。
【図4】本発明の第1の実施の形態に係る監視システムの動作を示すフローチャートである。
【図5】本発明の第1の実施の形態に係る監視システムの動作を示すフローチャートである。
【図6】本発明の第1の実施の形態に係る監視システムの動作を示すフローチャートである。
【図7】本発明の第1の実施の形態に係る監視システムの動作を示すフローチャートである。
【図8】本発明の第1の実施の形態においてBMCに登録されるSELの内容を示す図である。
【図9】本発明の第1の実施の形態においてBMCに登録されるSELの内容を示す図である。
【図10】本発明の第1の実施の形態においてBMCに登録されるSELの内容を示す図である。
【図11】本発明の第1の実施の形態においてBMCに登録されるSELの内容を示す図である。
【図12】本発明の第1の実施の形態においてSELリポジトリの内部イメージを示す図である。
【発明を実施するための形態】
【0013】
[発明の原理]
SNMPエージェントは、自身が動作する管理対象サーバ上で障害が発生した場合、送信したSNMPトラップを一意に識別できるシーケンス番号をSNMPトラップに埋め込み、SNMPマネージャに対し送信を行う。その後、SNMPマネージャからSNMPトラップを受信したことを通知するSNMPセット(Set)リクエストを待ち合わせるが、本発明では、重要なSNMPトラップの再送待ち時間は短くし、かつSNMPトラップと同時に管理用LAN(Local Area Network)を利用したBMC(Baseboard Management Controller)からのPET(Platform Event Trap)も送信する。
【0014】
このような構成により、本発明では、重要なイベントを表すSNMPトラップほど高速に再送されるため、SNMPマネージャ側はより早く再送されたSNMPトラップを受け取ることが可能となる。また、SNMPエージェントとSNMPマネージャが通信に利用する業務用LANとは異なる管理用LANを利用したBMCからのPETにより、業務用LANのネットワーク障害時も確実にSNMPマネージャに通知することができるようになる。
【0015】
[第1の実施の形態]
以下、本発明の実施の形態について図面を参照して説明する。図1は本発明の第1の実施の形態に係る監視システムの構成を示すブロック図である。本実施の形態では、図1に示すように、監視対象サーバ8と、監視対象サーバ8を監視する監視サーバ24とが存在する環境を例に説明する。監視対象サーバ8は、NIC(Network Interface Card)1を介して管理用LAN30に接続され、またNIC7を介して業務用LAN31に接続されている。監視サーバ24は、NIC20を介して管理用LAN30に接続され、またNIC23を介して業務用LAN31に接続されている。監視サーバ24と監視対象サーバ8とは、管理用LAN30および業務用LAN31を介して互いに通信することができる。
【0016】
監視対象サーバ8のOS(Operating System)5上ではSNMPエージェント部6が動作している。監視対象サーバ24のOS21上ではSNMPマネージャ部22が動作している。監視対象サーバ8のSNMPエージェント部6は、業務用LAN31を介して監視サーバ24のSNMPマネージャ部22と通信を行う。
【0017】
監視対象サーバ8は、BMC2を搭載している。BMC2は、イベントログ情報やセンサ情報を保持するための記憶部3と、IPMI(Intelligent Platform Management Interface)コマンドを処理する処理部4とを備えている。BMC2へのアクセスは、OS5上で動作する専用のドライバを利用し、SNMPエージェント部6から行うものとする。
【0018】
SNMPエージェント部6は、さまざまな処理を行う処理部6−1と、SNMPマネージャ部22と通信するためのマネージャ通信部6−2と、トラップの送受信状態を管理するトラップ状態管理テーブル格納部6−3と、各SNMPトラップの重要度や再送待ち時間を管理するトラップ重要度管理テーブル格納部6−5と、テーブル格納部6−3,6−5と処理部6−1とのインターフェースを実現すると共に、各種設定情報などを保持する記憶部6−4とからなる。
【0019】
トラップ状態管理テーブル格納部6−3には、各トラップの送信状態を記録するトラップ状態管理テーブルが格納される。図2にトラップ状態管理テーブルの例を示す。トラップ状態管理テーブルは、管理されるSNMPマネージャ部毎に複数存在し、シーケンス番号、応答の状態情報、トラップ送信のリトライ回数を保持する。
【0020】
トラップ重要度管理テーブル格納部6−5には、各トラップ(イベント)の重要度を示すトラップ重要度管理テーブルが格納される。図3にトラップ重要度管理テーブルの例を示す。トラップ重要度管理テーブルには、イベントの種類、トラップの重要度、SNMPマネージャ部22からの応答を待つ再送待ち時間、PET通報の要否情報が格納されている。
【0021】
監視サーバ24のSNMPマネージャ部22は、管理対象サーバ8に搭載されるBMC2から送信されるPETを受信したり、RMCPプロトコルを利用してリモートからIPMIコマンドを実行したりするBMC通信部22−1と、ユーザが監視サーバ24を操作するためのGUI(Graphical User Interface)22−2と、さまざまな処理を行う処理部22−3と、設定情報などを保持する記憶部22−4と、SNMPエージェント部6と通信するためのエージェント通信部22−5とからなる。
【0022】
次に、図4、図5、図6、図7を利用し、本実施の形態の監視システムの動作について説明する。なお、SNMPエージェント部6からのSNMPトラップやBMC2からのPETを利用するためには、予めSNMPマネージャ部22のIPアドレス等の設定が必要であるが、この設定はすでに実施されているものとする。
【0023】
まず、図4を利用してSNMPエージェント部6が監視対象サーバ8上で障害を検出し、SNMPマネージャ部22にSNMPトラップを送信するまでの処理を説明する。
SNMPエージェント部6の処理部6−1は、監視対象サーバ8上で監視を行い、障害が発生していないかチェックする(図4ステップS2−1)。処理部6−1は、SNMPマネージャ部22に対しSNMPトラップを送信すべき障害が監視対象サーバ8上で発生した場合(ステップS2−2においてYES)、ステップS2−3に進む。処理部6−1は、監視対象サーバ8に障害が発生していないか、あるいはSNMPトラップ対象外の障害であった場合、ステップS2−1に戻る。
【0024】
次に、処理部6−1は、SNMPトラップを送信すべき障害を検出した場合、検出した障害の種類を判別して、SNMPマネージャ部22に通知するためのSNMPトラップデータを生成する(ステップS2−3)。処理部6−1は、トラップ状態管理テーブル上に登録されている最後のシーケンス番号に1足した値を新たなシーケンス番号として採用する(ステップS2−4)。そして、処理部6−1は、ステップS2−4で採番したシーケンス番号をトラップ状態管理テーブルに登録すると共に、このシーケンス番号に対応する応答の状態情報として、SNMPマネージャ部22からの応答が未だ無いことを示す「応答無」をトラップ状態管理テーブルに登録する(ステップS2−5)。このとき、処理部6−1は、トラップ状態管理テーブルにリトライ回数として初期値0を登録しておく。
【0025】
続いて、処理部6−1は、ステップS2−4で採番したシーケンス番号を、ステップS2−3で生成したSNMPトラップデータ内に埋め込む(ステップS2−6)。そして、処理部6−1は、ステップS2−6で生成したSNMPトラップをマネージャ通信部6−2を介してSNMPマネージャ部22に送信する(ステップS2−7)。以上で、SNMPエージェント部6がSNMPマネージャ部22にSNMPトラップを送信するまでの処理が終了する。
【0026】
次に、SNMPエージェント部6がSNMPトラップを送信した後の動作について、図5、図6を利用して説明する。
SNMPエージェント部6の処理部6−1は、自身がステップS2−7で送信したSNMPトラップの種類をキーにしてトラップ重要度管理テーブルを検索し、SNMPトラップの種類に対応する重要度を取得する(図5ステップS3−1)。処理部6−1は、重要度が高いSNMPトラップかどうかを判定し、重要度が高いSNMPトラップの場合、SNMPマネージャ部22からの応答を待ち合わせる必要があると判定し(ステップS3−2においてYES)、ステップS3−3に進む。また、処理部6−1は、重要度の低いSNMPトラップであれば、処理を終了する。
【0027】
どの程度の重要度であればSNMPトラップを待ち合わせすべきかは可変であるべきだが、本実施の形態では、SNMPトラップの重要度を「高」、「中」、「低」の3つに分類し、重要度が「高」または「中」のSNMPトラップであった場合には、SNMPマネージャ部22からの応答を待ち合わせることにし、重要度が「低」のSNMPトラップであった場合には、待ち合わせを行わないことにする。
【0028】
続いて、処理部6−1は、自身がステップS2−7で送信したSNMPトラップの種類をキーにしてトラップ重要度管理テーブルを検索し、SNMPトラップの種類に対応する再送待ち時間を取得する(ステップS3−3)。なお、監視対象サーバ8が停止するような重要な障害を示すSNMPトラップであるほど、再送待ち時間は少なくなる。そして、処理部6−1は、SNMPエージェント部6内部で動作する図示しないタイマをステップS3−3で取得した再送待ち時間にセットし、再送待ち時間からのカウントダウンを開始する(ステップS3−4)。
【0029】
処理部6−1は、自身がステップS2−7で送信したSNMPトラップのシーケンス番号をキーにしてトラップ状態管理テーブルを検索し、自身がステップS2−7で送信したSNMPトラップの状態情報を確認する(ステップS3−5)。処理部6−1は、ステップS3−5で取得したSNMPトラップの状態情報がSNMPマネージャ部22からの応答が有った場合に更新される「応答有」であった場合(ステップS3−6においてYES)、処理を終了する。また、処理部6−1は、SNMPトラップの状態情報がSNMPマネージャ部22からの応答が無いことを示す「応答無」であった場合、ステップS3−7に進む。
【0030】
処理部6−1は、SNMPトラップの状態情報が「応答無」で、ステップS3−4でセットしたタイマの値が0でなく、残っている場合、すなわちタイマをセット時点から再送待ち時間が経過していない場合(ステップS3−7においてYES)、ステップS3−5に戻り、トラップ状態管理テーブルの状態を監視する。また、処理部6−1は、タイマのカウント値が既に0で、残っていない場合、すなわちタイマをセット時点から再送待ち時間が経過した場合、ステップS3−8に進む。
【0031】
処理部6−1は、自身がステップS2−7で送信したSNMPトラップの種類をキーにしてトラップ重要度管理テーブルを検索し、SNMPトラップの種類に対応するPET通報要否情報を取得する(ステップS3−8)。処理部6−1は、ステップS3−8で取得したPET通報要否情報を確認し、PET通報要否情報が「要」となっていれば(ステップS3−9においてYES)、ステップS3−10に進む。また、処理部6−1は、PET通報要否情報が「不要」となっていれば、ステップS3−12に進む。PET通報が必要な障害としては、主にH/W障害がある。
【0032】
処理部6−1は、PET通報が必要な場合、BMC2の処理部4にPET通報を実行させる(ステップS3−10)。BMC2からのPET通報には、受信システムからACK(Acknowledge)を受け取らない限り再送を行う機能が備わっているため、この機能を利用して、SNMPマネージャ部22がPETを受け取りACKを返却するまでPET再送を繰り返すものとする。すなわち、毎回ステップS3−10のステップで新たにIPMIコマンド等を利用してPET通報を行わないものとする。
【0033】
処理部6−1は、PET通報の実行後、SNMPマネージャ部22がPET通報を受け取ったことを示すSEL(System Event Log)がBMC2に登録されているかチェックする(ステップS3−11)。処理部6−1は、SNMPマネージャ部22がPET通報を受け取ったことを示すSELがBMC2に登録されていない場合(ステップS3−11においてNO)、次の処理であるステップS3−12に進む。また、処理部6−1は、SNMPマネージャ部22がPET通報を受け取ったことを示すSELがBMC2に登録されている場合、ステップS3−16に進む。なお、SELのフォーマットについては、図8〜図12において後述する。
【0034】
ここでは、ステップS3−16について先に説明する。処理部6−1は、SNMPマネージャ部22がPET通報を受け取ったことを示すSELがBMC2に登録されている場合、自身がステップS2−7で送信したSNMPトラップのシーケンス番号に対応する、トラップ状態管理テーブルの応答状態情報を「応答有」に変更し、処理を終了する(ステップS3−16)。
【0035】
一方、処理部6−1は、SNMPマネージャ部22がPET通報を受け取ったことを示すSELがBMC2に登録されていない場合、SNMPマネージャ部22に対し、ステップS2−7で送信したSNMPトラップの再送を行う(ステップS3−12)。続いて、処理部6−1は、自身がステップS2−7,S3−12で送信したSNMPトラップのシーケンス番号に対応する、トラップ状態管理テーブルのリトライ回数を1増やし、テーブルの値を更新する(ステップS3−13)。
【0036】
次に、処理部6−1は、自身がステップS2−7,S3−12で送信したSNMPトラップのシーケンス番号をキーにしてトラップ状態管理テーブルを検索し、自身がステップS2−7,S3−12で送信したSNMPトラップの送信リトライ回数が規定の回数以内であるかチェックする(ステップS3−14)。処理部6−1は、ステップS3−14でチェックした送信リトライ回数が規定の回数以内であれば、ステップS3−4に戻り、再度待ち合わせを開始する。また、処理部6−1は、送信リトライ回数が規定の回数を超えていた場合、再送処理では解決できない問題が発生したと判定し、再送処理が全て失敗した旨をログに記録して、処理を終了する(ステップS3−15)。
【0037】
次に、監視サーバ24のSNMPマネージャ部22がSNMPトラップを受信するまでの動作について、図7を利用して説明する。
SNMPマネージャ部22の処理部22−3は、SNMPエージェント部6から管理対象サーバ8を一意に識別するためのGUID(UUID)情報を取得する(ステップS4−1)。このGUID(Global Unique Identifier)は、SNMPエージェント部6とBMC2とを結びつけるために利用される。
【0038】
続いて、処理部22−3は、監視対象サーバ8のSNMPエージェント部6からのSNMPトラップまたはBMC2からのPET通報を待ち受ける(ステップS4−2)。処理部22−3は、SNMPトラップを受信した場合(ステップS4−3においてYES)、ステップS4−4に進む。また、処理部22−3は、SNMPトラップを受信できなかった場合、ステップS4−7へと進む。
【0039】
処理部22−3は、SNMPトラップを受信した場合、受信したSNMPトラップを解析する(ステップS4−4)。そして、処理部22−3は、受信したSNMPトラップから、シーケンス番号と、障害(イベント)の内容を示す情報と、このSNMPトラップを送信したSNMPエージェント部6のIPアドレスとを抽出する(ステップS4−5)。さらに、処理部22−3は、抽出したIPアドレスのSNMPエージェント部6に対して、SNMPトラップから抽出したシーケンス番号をSNMPセット(Set)リクエストを利用して設定し、受信処理を終了する(ステップS4−6)。
【0040】
SNMPエージェント部6では、SNMPマネージャ部22からシーケンス番号が設定されたことにより、このシーケンス番号に対応する、トラップ状態管理テーブルの応答状態情報を「応答有」に変更する。
【0041】
一方、処理部22−3は、ステップS4−3においてSNMPトラップを受信できなかった場合、PETの受信が行われたかチェックする(ステップS4−7)。処理部22−3は、PETを受信できなかった場合(ステップS4−7においてNO)、再度ステップS4−2に戻り、SNMPトラップまたはPETを待ち受ける。また、処理部22−3は、PETを受信した場合、ステップS4−8に進む。
【0042】
処理部22−3は、PETを受信した場合、受信したPETを解析する(ステップS4−8)。そして、処理部22−3は、受信したPETから得られるGUIDとステップS4−1で取得した監視対象サーバ8のGUIDとを基に、PET通報を行ったBMC2を含む監視対象サーバ8を特定し、どのSNMPエージェント部6が管理する監視対象サーバ8かを特定する(ステップS4−9)。さらに、処理部22−3は、PETを受信したことを示すSEL(以下、応答SELと呼ぶ)を、ステップS4−9で特定した監視対象サーバ8のBMC2に対してIPMIコマンドを利用して設定する(ステップS4−10)。
【0043】
登録するSELの内容は、ステップS4−8で解析したPETのイベント内容をそのままSELのフォーマットに変換すればよい。このとき、BMC2が登録するSELと区別する必要があるため、センサータイプ(SENSOR TYPE)を独自のタイプに変えれば、区別することが可能となる。SELの例を図8、図9に示す。
【0044】
さらに、PETを複数のSNMPマネージャ部22に送信する場合があることを考えると、SNMPマネージャ部22のIPアドレスもSELに登録する必要がある。そこで、応答SELを補足するSEL(以下、マネージャ情報SELと呼ぶ)をさらに追加することを考える。マネージャ情報SELの例を図10、図11に示す。SELのOEMフォーマットを利用し、11−12byteには応答SELのレコードID(RECORD ID)を格納し、13−16byteにはSNMPマネージャ部22のIPアドレス(MANAGER IP)を格納したSELを、マネージャ情報SELとしてBMC2に登録する。
【0045】
SELリポジトリの内部イメージを図12に示す。図12では、レコード0001が応答SELを示し、レコード0002,0003がマネージャ情報SELであることを示している。
【0046】
以上のように、本実施の形態では、発生した障害毎に再送待ち時間が異なるため、重大な障害ほど早く確実にSNMPマネージャ部22に通知することができる。また、本実施の形態では、SNMPトラップを送信すると同時にBMC2から管理用LAN30を利用してPETを送信するため、SNMPマネージャ部22に対してトラップが到着する可能性を高めることができる。本実施の形態では、負荷の低いSNMPエージェント部6側でSMMPトラップの再送の管理を行うため、SNMPマネージャ部22に負荷をかけることがない。
【0047】
[第2の実施の形態]
第1の実施の形態において、SNMPエージェント部6は、最初のSNMPトラップ送信時にシーケンス番号と共にトラップの重要度をSNMPトラップに埋め込むようにしてもよい。SNMPマネージャ部22は、SNMPトラップを受信した段階で、SNMPトラップから重要度の情報を抽出し、SNMPトラップの重要度が所定の重要度よりも高い場合には、他の処理よりも優先的にSNMPセットリクエストを返却するようにしてもよい。
【0048】
優先度の高いSNMPトラップは再送間隔が短いため、SNMPエージェント部6に負荷をかけることになる。優先度の高いSNMPトラップに関する応答を優先的にSNMPマネージャ部22から返却することによって、SNMPエージェント部6の処理効率を向上させることができる。
【0049】
第1、第2の実施の形態で説明した監視対象サーバ8と監視サーバ24の各々は、CPU、記憶装置および外部とのインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。各装置のCPUは、記憶装置に格納されたプログラムに従って第1、第2の実施の形態で説明した処理を実行する。
【0050】
上記の実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0051】
(付記1)監視対象機器と、この監視対象機器を監視する監視機器とを備え、前記監視対象機器は、前記監視対象機器の障害発生時に前記監視機器のSNMPマネージャ手段に対してSNMPトラップを送信し、前記SNMPマネージャ手段からの応答が無い場合には再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPエージェント手段と、前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するBMC手段とを有し、前記監視機器は、前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答するSNMPマネージャ手段を有し、前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とする監視システム。
【0052】
(付記2)付記1記載の監視システムにおいて、前記再送待ち時間は、重要な障害を示すSNMPトラップであるほど短く設定されることを特徴とする監視システム。
【0053】
(付記3)付記1または付記2記載の監視システムにおいて、前記監視対象機器は、さらに、SNMPトラップの種類とSNMPトラップの重要度と再送待ち時間とを対応付けて記憶するトラップ重要度管理テーブルを有し、前記SNMPエージェント手段は、SNMPトラップの種類に応じた重要度と再送待ち時間とを前記トラップ重要度管理テーブルから取得することを特徴とする監視システム。
【0054】
(付記4)付記1乃至付記3のいずれか1項に記載の監視システムにおいて、前記SNMPエージェント手段は、前記SNMPトラップの重要度の情報をこのSNMPトラップに埋め込んで送信し、前記SNMPマネージャ手段は、受信したSNMPトラップから重要度の情報を抽出し、SNMPトラップの重要度が所定の重要度よりも高い場合には、他の処理よりも優先的に前記SNMPエージェント手段に応答を返すことを特徴とする監視システム。
【0055】
(付記5)監視対象機器のSNMPエージェント手段が、前記監視対象機器の障害発生時に監視機器のSNMPマネージャ手段に対してSNMPトラップを送信するSNMPトラップ送信ステップと、前記SNMPエージェント手段が、前記SNMPマネージャ手段からの応答が無い場合に再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPトラップ再送ステップと、前記監視対象機器のBMC手段が、前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するPET送信ステップと、前記監視機器のSNMPマネージャ手段が、前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答する応答ステップとを備え、前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とする監視方法。
【産業上の利用可能性】
【0056】
本発明は、SNMPを用いた監視システムに適用することができる。
【符号の説明】
【0057】
1,7,20,23…NIC、2…BMC、3…記憶部、4…処理部、5…OS、6…SNMPエージェント部、6−1…処理部、6−2…マネージャ通信部、6−3…トラップ状態管理テーブル格納部、6−4…記憶部、6−5…トラップ重要度管理テーブル格納部、8…監視対象サーバ、22…SNMPマネージャ部、22−1…BMC通信部、22−2…GUI、22−3…処理部、22−4…記憶部、22−5…エージェント通信部、24…監視サーバ、30…管理用LAN、31…業務用LAN。
【技術分野】
【0001】
本発明は、SNMPを用いた監視システムに関するものである。
【背景技術】
【0002】
従来、サーバ等の機器の障害監視を行う場合、監視対象サーバにエージェントプログラムをインストールし、そのエージェントが監視対象サーバのハードウェア(以下、H/W)の状態やOS(Operating System)の状態をチェックし、異常発生時には、管理マネージャへSNMP(Simple Network Management Protocol)トラップを通知することにより機器の障害監視を行ってきた。ここで、トラップ(Trap)とは、状況通知用の情報のことを言う。
【0003】
SNMPトラップは、負荷の軽いコネクションレス型のプロトコルであるUDP(User Datagram Protocol)を利用し通信されるため、処理速度が速い半面、通信の信頼性が低い。パケットが消失してしまった場合には、トラップの発生を検出することができなくなる。そのため、トラップが消失したことにより障害の検出ができなかったり、障害検知が遅れたりする可能性があり、重要な管理が行えないという問題があった。信頼性のある通信(例えばTCP/IP)を利用しトラップを送信すれば確実に送信することができるが、この場合、エージェントとマネージャ間で独自の通信方法となってしまう。それゆえに、標準管理プロトコルであるSNMPトラップを利用して監視を行うシステムが望まれるケースも多い。
【0004】
SNMPトラップの通信信頼性を向上させる技術が特許文献1に開示されている。特許文献1に開示された方式では、SNMPエージェントにトラップ受信確認用のMIB(Management Information Base)を定義し、SNMPマネージャがエージェントからトラップを受け取った際には、受信済みを表す値にセットするためのSetリクエスト要求をエージェントに対し送信し、管理対象サーバ上のトラップ受信確認用MIBを更新する。エージェントは、トラップ受信確認用のMIB値を監視し、一定時間待っても更新されない場合、トラップの再送処理を行う。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平9−101929号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に開示された方式では、SNMPエージェントはMIBが更新されるのを一定時間待つことになる。しかしながら、H/Wの障害などを検出していた場合、いち早いSNMPマネージャへの通知を行う必要があるが、一定時間トラップの再送を待つ方式では処理効率が悪いという問題点があった。さらに、特許文献1に開示された方式では、ネットワーク障害によりパケットが消失していた場合、同じ方法でトラップを再送すると再送トラップも再度消失してしまう可能性があるため、トラップが確実にマネージャに再送されるとは言えないという問題点があった。
【0007】
本発明は、上記課題を解決するためになされたもので、障害発生を示すトラップを確実にSNMPマネージャに通知することができる監視システムおよび監視方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の監視システムは、監視対象機器と、この監視対象機器を監視する監視機器とを備え、前記監視対象機器は、前記監視対象機器の障害発生時に前記監視機器のSNMPマネージャ手段に対してSNMPトラップを送信し、前記SNMPマネージャ手段からの応答が無い場合には再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPエージェント手段と、前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するBMC手段とを有し、前記監視機器は、前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答するSNMPマネージャ手段を有し、前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とするものである。
【0009】
また、本発明の監視システムの1構成例において、前記再送待ち時間は、重要な障害を示すSNMPトラップであるほど短く設定されることを特徴とするものである。
また、本発明の監視システムの1構成例において、前記監視対象機器は、さらに、SNMPトラップの種類とSNMPトラップの重要度と再送待ち時間とを対応付けて記憶するトラップ重要度管理テーブルを有し、前記SNMPエージェント手段は、SNMPトラップの種類に応じた重要度と再送待ち時間とを前記トラップ重要度管理テーブルから取得することを特徴とするものである。
また、本発明の監視システムの1構成例において、前記SNMPエージェント手段は、前記SNMPトラップの重要度の情報をこのSNMPトラップに埋め込んで送信し、前記SNMPマネージャ手段は、受信したSNMPトラップから重要度の情報を抽出し、SNMPトラップの重要度が所定の重要度よりも高い場合には、他の処理よりも優先的に前記SNMPエージェント手段に応答を返すことを特徴とするものである。
【0010】
また、本発明の監視方法は、監視対象機器のSNMPエージェント手段が、前記監視対象機器の障害発生時に監視機器のSNMPマネージャ手段に対してSNMPトラップを送信するSNMPトラップ送信ステップと、前記SNMPエージェント手段が、前記SNMPマネージャ手段からの応答が無い場合に再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPトラップ再送ステップと、前記監視対象機器のBMC手段が、前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するPET送信ステップと、前記監視機器のSNMPマネージャ手段が、前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答する応答ステップとを備え、前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とするものである。
【発明の効果】
【0011】
本発明によれば、SNMPを用いた監視システムにおいて、監視対象機器のSNMPエージェント手段でSNMPトラップの重要度に応じて再送待ち時間を変えることにより、重要なSNMPトラップほど高速に再送することが可能となる。また、BMC手段からのPETの送信を併用することで、確実にSNMPマネージャ手段にトラップを通知することが可能となる。本発明では、負荷の低いSNMPエージェント手段でSMMPトラップの再送の管理を行うため、SNMPマネージャ手段に負荷をかけることがない。
【図面の簡単な説明】
【0012】
【図1】本発明の第1の実施の形態に係る監視システムの構成を示すブロック図である。
【図2】本発明の第1の実施の形態に係るトラップ状態管理テーブルの例を示す図である。
【図3】本発明の第1の実施の形態に係るトラップ重要度管理テーブルの例を示す図である。
【図4】本発明の第1の実施の形態に係る監視システムの動作を示すフローチャートである。
【図5】本発明の第1の実施の形態に係る監視システムの動作を示すフローチャートである。
【図6】本発明の第1の実施の形態に係る監視システムの動作を示すフローチャートである。
【図7】本発明の第1の実施の形態に係る監視システムの動作を示すフローチャートである。
【図8】本発明の第1の実施の形態においてBMCに登録されるSELの内容を示す図である。
【図9】本発明の第1の実施の形態においてBMCに登録されるSELの内容を示す図である。
【図10】本発明の第1の実施の形態においてBMCに登録されるSELの内容を示す図である。
【図11】本発明の第1の実施の形態においてBMCに登録されるSELの内容を示す図である。
【図12】本発明の第1の実施の形態においてSELリポジトリの内部イメージを示す図である。
【発明を実施するための形態】
【0013】
[発明の原理]
SNMPエージェントは、自身が動作する管理対象サーバ上で障害が発生した場合、送信したSNMPトラップを一意に識別できるシーケンス番号をSNMPトラップに埋め込み、SNMPマネージャに対し送信を行う。その後、SNMPマネージャからSNMPトラップを受信したことを通知するSNMPセット(Set)リクエストを待ち合わせるが、本発明では、重要なSNMPトラップの再送待ち時間は短くし、かつSNMPトラップと同時に管理用LAN(Local Area Network)を利用したBMC(Baseboard Management Controller)からのPET(Platform Event Trap)も送信する。
【0014】
このような構成により、本発明では、重要なイベントを表すSNMPトラップほど高速に再送されるため、SNMPマネージャ側はより早く再送されたSNMPトラップを受け取ることが可能となる。また、SNMPエージェントとSNMPマネージャが通信に利用する業務用LANとは異なる管理用LANを利用したBMCからのPETにより、業務用LANのネットワーク障害時も確実にSNMPマネージャに通知することができるようになる。
【0015】
[第1の実施の形態]
以下、本発明の実施の形態について図面を参照して説明する。図1は本発明の第1の実施の形態に係る監視システムの構成を示すブロック図である。本実施の形態では、図1に示すように、監視対象サーバ8と、監視対象サーバ8を監視する監視サーバ24とが存在する環境を例に説明する。監視対象サーバ8は、NIC(Network Interface Card)1を介して管理用LAN30に接続され、またNIC7を介して業務用LAN31に接続されている。監視サーバ24は、NIC20を介して管理用LAN30に接続され、またNIC23を介して業務用LAN31に接続されている。監視サーバ24と監視対象サーバ8とは、管理用LAN30および業務用LAN31を介して互いに通信することができる。
【0016】
監視対象サーバ8のOS(Operating System)5上ではSNMPエージェント部6が動作している。監視対象サーバ24のOS21上ではSNMPマネージャ部22が動作している。監視対象サーバ8のSNMPエージェント部6は、業務用LAN31を介して監視サーバ24のSNMPマネージャ部22と通信を行う。
【0017】
監視対象サーバ8は、BMC2を搭載している。BMC2は、イベントログ情報やセンサ情報を保持するための記憶部3と、IPMI(Intelligent Platform Management Interface)コマンドを処理する処理部4とを備えている。BMC2へのアクセスは、OS5上で動作する専用のドライバを利用し、SNMPエージェント部6から行うものとする。
【0018】
SNMPエージェント部6は、さまざまな処理を行う処理部6−1と、SNMPマネージャ部22と通信するためのマネージャ通信部6−2と、トラップの送受信状態を管理するトラップ状態管理テーブル格納部6−3と、各SNMPトラップの重要度や再送待ち時間を管理するトラップ重要度管理テーブル格納部6−5と、テーブル格納部6−3,6−5と処理部6−1とのインターフェースを実現すると共に、各種設定情報などを保持する記憶部6−4とからなる。
【0019】
トラップ状態管理テーブル格納部6−3には、各トラップの送信状態を記録するトラップ状態管理テーブルが格納される。図2にトラップ状態管理テーブルの例を示す。トラップ状態管理テーブルは、管理されるSNMPマネージャ部毎に複数存在し、シーケンス番号、応答の状態情報、トラップ送信のリトライ回数を保持する。
【0020】
トラップ重要度管理テーブル格納部6−5には、各トラップ(イベント)の重要度を示すトラップ重要度管理テーブルが格納される。図3にトラップ重要度管理テーブルの例を示す。トラップ重要度管理テーブルには、イベントの種類、トラップの重要度、SNMPマネージャ部22からの応答を待つ再送待ち時間、PET通報の要否情報が格納されている。
【0021】
監視サーバ24のSNMPマネージャ部22は、管理対象サーバ8に搭載されるBMC2から送信されるPETを受信したり、RMCPプロトコルを利用してリモートからIPMIコマンドを実行したりするBMC通信部22−1と、ユーザが監視サーバ24を操作するためのGUI(Graphical User Interface)22−2と、さまざまな処理を行う処理部22−3と、設定情報などを保持する記憶部22−4と、SNMPエージェント部6と通信するためのエージェント通信部22−5とからなる。
【0022】
次に、図4、図5、図6、図7を利用し、本実施の形態の監視システムの動作について説明する。なお、SNMPエージェント部6からのSNMPトラップやBMC2からのPETを利用するためには、予めSNMPマネージャ部22のIPアドレス等の設定が必要であるが、この設定はすでに実施されているものとする。
【0023】
まず、図4を利用してSNMPエージェント部6が監視対象サーバ8上で障害を検出し、SNMPマネージャ部22にSNMPトラップを送信するまでの処理を説明する。
SNMPエージェント部6の処理部6−1は、監視対象サーバ8上で監視を行い、障害が発生していないかチェックする(図4ステップS2−1)。処理部6−1は、SNMPマネージャ部22に対しSNMPトラップを送信すべき障害が監視対象サーバ8上で発生した場合(ステップS2−2においてYES)、ステップS2−3に進む。処理部6−1は、監視対象サーバ8に障害が発生していないか、あるいはSNMPトラップ対象外の障害であった場合、ステップS2−1に戻る。
【0024】
次に、処理部6−1は、SNMPトラップを送信すべき障害を検出した場合、検出した障害の種類を判別して、SNMPマネージャ部22に通知するためのSNMPトラップデータを生成する(ステップS2−3)。処理部6−1は、トラップ状態管理テーブル上に登録されている最後のシーケンス番号に1足した値を新たなシーケンス番号として採用する(ステップS2−4)。そして、処理部6−1は、ステップS2−4で採番したシーケンス番号をトラップ状態管理テーブルに登録すると共に、このシーケンス番号に対応する応答の状態情報として、SNMPマネージャ部22からの応答が未だ無いことを示す「応答無」をトラップ状態管理テーブルに登録する(ステップS2−5)。このとき、処理部6−1は、トラップ状態管理テーブルにリトライ回数として初期値0を登録しておく。
【0025】
続いて、処理部6−1は、ステップS2−4で採番したシーケンス番号を、ステップS2−3で生成したSNMPトラップデータ内に埋め込む(ステップS2−6)。そして、処理部6−1は、ステップS2−6で生成したSNMPトラップをマネージャ通信部6−2を介してSNMPマネージャ部22に送信する(ステップS2−7)。以上で、SNMPエージェント部6がSNMPマネージャ部22にSNMPトラップを送信するまでの処理が終了する。
【0026】
次に、SNMPエージェント部6がSNMPトラップを送信した後の動作について、図5、図6を利用して説明する。
SNMPエージェント部6の処理部6−1は、自身がステップS2−7で送信したSNMPトラップの種類をキーにしてトラップ重要度管理テーブルを検索し、SNMPトラップの種類に対応する重要度を取得する(図5ステップS3−1)。処理部6−1は、重要度が高いSNMPトラップかどうかを判定し、重要度が高いSNMPトラップの場合、SNMPマネージャ部22からの応答を待ち合わせる必要があると判定し(ステップS3−2においてYES)、ステップS3−3に進む。また、処理部6−1は、重要度の低いSNMPトラップであれば、処理を終了する。
【0027】
どの程度の重要度であればSNMPトラップを待ち合わせすべきかは可変であるべきだが、本実施の形態では、SNMPトラップの重要度を「高」、「中」、「低」の3つに分類し、重要度が「高」または「中」のSNMPトラップであった場合には、SNMPマネージャ部22からの応答を待ち合わせることにし、重要度が「低」のSNMPトラップであった場合には、待ち合わせを行わないことにする。
【0028】
続いて、処理部6−1は、自身がステップS2−7で送信したSNMPトラップの種類をキーにしてトラップ重要度管理テーブルを検索し、SNMPトラップの種類に対応する再送待ち時間を取得する(ステップS3−3)。なお、監視対象サーバ8が停止するような重要な障害を示すSNMPトラップであるほど、再送待ち時間は少なくなる。そして、処理部6−1は、SNMPエージェント部6内部で動作する図示しないタイマをステップS3−3で取得した再送待ち時間にセットし、再送待ち時間からのカウントダウンを開始する(ステップS3−4)。
【0029】
処理部6−1は、自身がステップS2−7で送信したSNMPトラップのシーケンス番号をキーにしてトラップ状態管理テーブルを検索し、自身がステップS2−7で送信したSNMPトラップの状態情報を確認する(ステップS3−5)。処理部6−1は、ステップS3−5で取得したSNMPトラップの状態情報がSNMPマネージャ部22からの応答が有った場合に更新される「応答有」であった場合(ステップS3−6においてYES)、処理を終了する。また、処理部6−1は、SNMPトラップの状態情報がSNMPマネージャ部22からの応答が無いことを示す「応答無」であった場合、ステップS3−7に進む。
【0030】
処理部6−1は、SNMPトラップの状態情報が「応答無」で、ステップS3−4でセットしたタイマの値が0でなく、残っている場合、すなわちタイマをセット時点から再送待ち時間が経過していない場合(ステップS3−7においてYES)、ステップS3−5に戻り、トラップ状態管理テーブルの状態を監視する。また、処理部6−1は、タイマのカウント値が既に0で、残っていない場合、すなわちタイマをセット時点から再送待ち時間が経過した場合、ステップS3−8に進む。
【0031】
処理部6−1は、自身がステップS2−7で送信したSNMPトラップの種類をキーにしてトラップ重要度管理テーブルを検索し、SNMPトラップの種類に対応するPET通報要否情報を取得する(ステップS3−8)。処理部6−1は、ステップS3−8で取得したPET通報要否情報を確認し、PET通報要否情報が「要」となっていれば(ステップS3−9においてYES)、ステップS3−10に進む。また、処理部6−1は、PET通報要否情報が「不要」となっていれば、ステップS3−12に進む。PET通報が必要な障害としては、主にH/W障害がある。
【0032】
処理部6−1は、PET通報が必要な場合、BMC2の処理部4にPET通報を実行させる(ステップS3−10)。BMC2からのPET通報には、受信システムからACK(Acknowledge)を受け取らない限り再送を行う機能が備わっているため、この機能を利用して、SNMPマネージャ部22がPETを受け取りACKを返却するまでPET再送を繰り返すものとする。すなわち、毎回ステップS3−10のステップで新たにIPMIコマンド等を利用してPET通報を行わないものとする。
【0033】
処理部6−1は、PET通報の実行後、SNMPマネージャ部22がPET通報を受け取ったことを示すSEL(System Event Log)がBMC2に登録されているかチェックする(ステップS3−11)。処理部6−1は、SNMPマネージャ部22がPET通報を受け取ったことを示すSELがBMC2に登録されていない場合(ステップS3−11においてNO)、次の処理であるステップS3−12に進む。また、処理部6−1は、SNMPマネージャ部22がPET通報を受け取ったことを示すSELがBMC2に登録されている場合、ステップS3−16に進む。なお、SELのフォーマットについては、図8〜図12において後述する。
【0034】
ここでは、ステップS3−16について先に説明する。処理部6−1は、SNMPマネージャ部22がPET通報を受け取ったことを示すSELがBMC2に登録されている場合、自身がステップS2−7で送信したSNMPトラップのシーケンス番号に対応する、トラップ状態管理テーブルの応答状態情報を「応答有」に変更し、処理を終了する(ステップS3−16)。
【0035】
一方、処理部6−1は、SNMPマネージャ部22がPET通報を受け取ったことを示すSELがBMC2に登録されていない場合、SNMPマネージャ部22に対し、ステップS2−7で送信したSNMPトラップの再送を行う(ステップS3−12)。続いて、処理部6−1は、自身がステップS2−7,S3−12で送信したSNMPトラップのシーケンス番号に対応する、トラップ状態管理テーブルのリトライ回数を1増やし、テーブルの値を更新する(ステップS3−13)。
【0036】
次に、処理部6−1は、自身がステップS2−7,S3−12で送信したSNMPトラップのシーケンス番号をキーにしてトラップ状態管理テーブルを検索し、自身がステップS2−7,S3−12で送信したSNMPトラップの送信リトライ回数が規定の回数以内であるかチェックする(ステップS3−14)。処理部6−1は、ステップS3−14でチェックした送信リトライ回数が規定の回数以内であれば、ステップS3−4に戻り、再度待ち合わせを開始する。また、処理部6−1は、送信リトライ回数が規定の回数を超えていた場合、再送処理では解決できない問題が発生したと判定し、再送処理が全て失敗した旨をログに記録して、処理を終了する(ステップS3−15)。
【0037】
次に、監視サーバ24のSNMPマネージャ部22がSNMPトラップを受信するまでの動作について、図7を利用して説明する。
SNMPマネージャ部22の処理部22−3は、SNMPエージェント部6から管理対象サーバ8を一意に識別するためのGUID(UUID)情報を取得する(ステップS4−1)。このGUID(Global Unique Identifier)は、SNMPエージェント部6とBMC2とを結びつけるために利用される。
【0038】
続いて、処理部22−3は、監視対象サーバ8のSNMPエージェント部6からのSNMPトラップまたはBMC2からのPET通報を待ち受ける(ステップS4−2)。処理部22−3は、SNMPトラップを受信した場合(ステップS4−3においてYES)、ステップS4−4に進む。また、処理部22−3は、SNMPトラップを受信できなかった場合、ステップS4−7へと進む。
【0039】
処理部22−3は、SNMPトラップを受信した場合、受信したSNMPトラップを解析する(ステップS4−4)。そして、処理部22−3は、受信したSNMPトラップから、シーケンス番号と、障害(イベント)の内容を示す情報と、このSNMPトラップを送信したSNMPエージェント部6のIPアドレスとを抽出する(ステップS4−5)。さらに、処理部22−3は、抽出したIPアドレスのSNMPエージェント部6に対して、SNMPトラップから抽出したシーケンス番号をSNMPセット(Set)リクエストを利用して設定し、受信処理を終了する(ステップS4−6)。
【0040】
SNMPエージェント部6では、SNMPマネージャ部22からシーケンス番号が設定されたことにより、このシーケンス番号に対応する、トラップ状態管理テーブルの応答状態情報を「応答有」に変更する。
【0041】
一方、処理部22−3は、ステップS4−3においてSNMPトラップを受信できなかった場合、PETの受信が行われたかチェックする(ステップS4−7)。処理部22−3は、PETを受信できなかった場合(ステップS4−7においてNO)、再度ステップS4−2に戻り、SNMPトラップまたはPETを待ち受ける。また、処理部22−3は、PETを受信した場合、ステップS4−8に進む。
【0042】
処理部22−3は、PETを受信した場合、受信したPETを解析する(ステップS4−8)。そして、処理部22−3は、受信したPETから得られるGUIDとステップS4−1で取得した監視対象サーバ8のGUIDとを基に、PET通報を行ったBMC2を含む監視対象サーバ8を特定し、どのSNMPエージェント部6が管理する監視対象サーバ8かを特定する(ステップS4−9)。さらに、処理部22−3は、PETを受信したことを示すSEL(以下、応答SELと呼ぶ)を、ステップS4−9で特定した監視対象サーバ8のBMC2に対してIPMIコマンドを利用して設定する(ステップS4−10)。
【0043】
登録するSELの内容は、ステップS4−8で解析したPETのイベント内容をそのままSELのフォーマットに変換すればよい。このとき、BMC2が登録するSELと区別する必要があるため、センサータイプ(SENSOR TYPE)を独自のタイプに変えれば、区別することが可能となる。SELの例を図8、図9に示す。
【0044】
さらに、PETを複数のSNMPマネージャ部22に送信する場合があることを考えると、SNMPマネージャ部22のIPアドレスもSELに登録する必要がある。そこで、応答SELを補足するSEL(以下、マネージャ情報SELと呼ぶ)をさらに追加することを考える。マネージャ情報SELの例を図10、図11に示す。SELのOEMフォーマットを利用し、11−12byteには応答SELのレコードID(RECORD ID)を格納し、13−16byteにはSNMPマネージャ部22のIPアドレス(MANAGER IP)を格納したSELを、マネージャ情報SELとしてBMC2に登録する。
【0045】
SELリポジトリの内部イメージを図12に示す。図12では、レコード0001が応答SELを示し、レコード0002,0003がマネージャ情報SELであることを示している。
【0046】
以上のように、本実施の形態では、発生した障害毎に再送待ち時間が異なるため、重大な障害ほど早く確実にSNMPマネージャ部22に通知することができる。また、本実施の形態では、SNMPトラップを送信すると同時にBMC2から管理用LAN30を利用してPETを送信するため、SNMPマネージャ部22に対してトラップが到着する可能性を高めることができる。本実施の形態では、負荷の低いSNMPエージェント部6側でSMMPトラップの再送の管理を行うため、SNMPマネージャ部22に負荷をかけることがない。
【0047】
[第2の実施の形態]
第1の実施の形態において、SNMPエージェント部6は、最初のSNMPトラップ送信時にシーケンス番号と共にトラップの重要度をSNMPトラップに埋め込むようにしてもよい。SNMPマネージャ部22は、SNMPトラップを受信した段階で、SNMPトラップから重要度の情報を抽出し、SNMPトラップの重要度が所定の重要度よりも高い場合には、他の処理よりも優先的にSNMPセットリクエストを返却するようにしてもよい。
【0048】
優先度の高いSNMPトラップは再送間隔が短いため、SNMPエージェント部6に負荷をかけることになる。優先度の高いSNMPトラップに関する応答を優先的にSNMPマネージャ部22から返却することによって、SNMPエージェント部6の処理効率を向上させることができる。
【0049】
第1、第2の実施の形態で説明した監視対象サーバ8と監視サーバ24の各々は、CPU、記憶装置および外部とのインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。各装置のCPUは、記憶装置に格納されたプログラムに従って第1、第2の実施の形態で説明した処理を実行する。
【0050】
上記の実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0051】
(付記1)監視対象機器と、この監視対象機器を監視する監視機器とを備え、前記監視対象機器は、前記監視対象機器の障害発生時に前記監視機器のSNMPマネージャ手段に対してSNMPトラップを送信し、前記SNMPマネージャ手段からの応答が無い場合には再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPエージェント手段と、前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するBMC手段とを有し、前記監視機器は、前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答するSNMPマネージャ手段を有し、前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とする監視システム。
【0052】
(付記2)付記1記載の監視システムにおいて、前記再送待ち時間は、重要な障害を示すSNMPトラップであるほど短く設定されることを特徴とする監視システム。
【0053】
(付記3)付記1または付記2記載の監視システムにおいて、前記監視対象機器は、さらに、SNMPトラップの種類とSNMPトラップの重要度と再送待ち時間とを対応付けて記憶するトラップ重要度管理テーブルを有し、前記SNMPエージェント手段は、SNMPトラップの種類に応じた重要度と再送待ち時間とを前記トラップ重要度管理テーブルから取得することを特徴とする監視システム。
【0054】
(付記4)付記1乃至付記3のいずれか1項に記載の監視システムにおいて、前記SNMPエージェント手段は、前記SNMPトラップの重要度の情報をこのSNMPトラップに埋め込んで送信し、前記SNMPマネージャ手段は、受信したSNMPトラップから重要度の情報を抽出し、SNMPトラップの重要度が所定の重要度よりも高い場合には、他の処理よりも優先的に前記SNMPエージェント手段に応答を返すことを特徴とする監視システム。
【0055】
(付記5)監視対象機器のSNMPエージェント手段が、前記監視対象機器の障害発生時に監視機器のSNMPマネージャ手段に対してSNMPトラップを送信するSNMPトラップ送信ステップと、前記SNMPエージェント手段が、前記SNMPマネージャ手段からの応答が無い場合に再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPトラップ再送ステップと、前記監視対象機器のBMC手段が、前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するPET送信ステップと、前記監視機器のSNMPマネージャ手段が、前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答する応答ステップとを備え、前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とする監視方法。
【産業上の利用可能性】
【0056】
本発明は、SNMPを用いた監視システムに適用することができる。
【符号の説明】
【0057】
1,7,20,23…NIC、2…BMC、3…記憶部、4…処理部、5…OS、6…SNMPエージェント部、6−1…処理部、6−2…マネージャ通信部、6−3…トラップ状態管理テーブル格納部、6−4…記憶部、6−5…トラップ重要度管理テーブル格納部、8…監視対象サーバ、22…SNMPマネージャ部、22−1…BMC通信部、22−2…GUI、22−3…処理部、22−4…記憶部、22−5…エージェント通信部、24…監視サーバ、30…管理用LAN、31…業務用LAN。
【特許請求の範囲】
【請求項1】
監視対象機器と、
この監視対象機器を監視する監視機器とを備え、
前記監視対象機器は、
前記監視対象機器の障害発生時に前記監視機器のSNMPマネージャ手段に対してSNMPトラップを送信し、前記SNMPマネージャ手段からの応答が無い場合には再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPエージェント手段と、
前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するBMC手段とを有し、
前記監視機器は、
前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答するSNMPマネージャ手段を有し、
前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とする監視システム。
【請求項2】
請求項1記載の監視システムにおいて、
前記再送待ち時間は、重要な障害を示すSNMPトラップであるほど短く設定されることを特徴とする監視システム。
【請求項3】
請求項1または2記載の監視システムにおいて、
前記監視対象機器は、さらに、SNMPトラップの種類とSNMPトラップの重要度と再送待ち時間とを対応付けて記憶するトラップ重要度管理テーブルを有し、
前記SNMPエージェント手段は、SNMPトラップの種類に応じた重要度と再送待ち時間とを前記トラップ重要度管理テーブルから取得することを特徴とする監視システム。
【請求項4】
請求項1乃至3のいずれか1項に記載の監視システムにおいて、
前記SNMPエージェント手段は、前記SNMPトラップの重要度の情報をこのSNMPトラップに埋め込んで送信し、
前記SNMPマネージャ手段は、受信したSNMPトラップから重要度の情報を抽出し、SNMPトラップの重要度が所定の重要度よりも高い場合には、他の処理よりも優先的に前記SNMPエージェント手段に応答を返すことを特徴とする監視システム。
【請求項5】
監視対象機器のSNMPエージェント手段が、前記監視対象機器の障害発生時に監視機器のSNMPマネージャ手段に対してSNMPトラップを送信するSNMPトラップ送信ステップと、
前記SNMPエージェント手段が、前記SNMPマネージャ手段からの応答が無い場合に再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPトラップ再送ステップと、
前記監視対象機器のBMC手段が、前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するPET送信ステップと、
前記監視機器のSNMPマネージャ手段が、前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答する応答ステップとを備え、
前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とする監視方法。
【請求項1】
監視対象機器と、
この監視対象機器を監視する監視機器とを備え、
前記監視対象機器は、
前記監視対象機器の障害発生時に前記監視機器のSNMPマネージャ手段に対してSNMPトラップを送信し、前記SNMPマネージャ手段からの応答が無い場合には再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPエージェント手段と、
前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するBMC手段とを有し、
前記監視機器は、
前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答するSNMPマネージャ手段を有し、
前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とする監視システム。
【請求項2】
請求項1記載の監視システムにおいて、
前記再送待ち時間は、重要な障害を示すSNMPトラップであるほど短く設定されることを特徴とする監視システム。
【請求項3】
請求項1または2記載の監視システムにおいて、
前記監視対象機器は、さらに、SNMPトラップの種類とSNMPトラップの重要度と再送待ち時間とを対応付けて記憶するトラップ重要度管理テーブルを有し、
前記SNMPエージェント手段は、SNMPトラップの種類に応じた重要度と再送待ち時間とを前記トラップ重要度管理テーブルから取得することを特徴とする監視システム。
【請求項4】
請求項1乃至3のいずれか1項に記載の監視システムにおいて、
前記SNMPエージェント手段は、前記SNMPトラップの重要度の情報をこのSNMPトラップに埋め込んで送信し、
前記SNMPマネージャ手段は、受信したSNMPトラップから重要度の情報を抽出し、SNMPトラップの重要度が所定の重要度よりも高い場合には、他の処理よりも優先的に前記SNMPエージェント手段に応答を返すことを特徴とする監視システム。
【請求項5】
監視対象機器のSNMPエージェント手段が、前記監視対象機器の障害発生時に監視機器のSNMPマネージャ手段に対してSNMPトラップを送信するSNMPトラップ送信ステップと、
前記SNMPエージェント手段が、前記SNMPマネージャ手段からの応答が無い場合に再送待ち時間が経過する度に前記SNMPトラップを送信するSNMPトラップ再送ステップと、
前記監視対象機器のBMC手段が、前記SNMPマネージャ手段からの応答が無い場合に前記再送待ち時間が経過する度に、前記SNMPエージェント手段と前記SNMPマネージャ手段とが通信に利用する業務用ネットワークとは別の管理用ネットワークを利用して、PETを前記SNMPマネージャ手段に送信するPET送信ステップと、
前記監視機器のSNMPマネージャ手段が、前記SNMPトラップを受信したときに前記業務用ネットワークを利用して前記SNMPエージェント手段に対して応答し、前記PETを受信したときに前記管理用ネットワークを利用して前記SNMPエージェント手段に対して応答する応答ステップとを備え、
前記SNMPトラップの重要度に応じて前記再送待ち時間を変えることを特徴とする監視方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2012−177987(P2012−177987A)
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願番号】特願2011−39616(P2011−39616)
【出願日】平成23年2月25日(2011.2.25)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願日】平成23年2月25日(2011.2.25)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】
[ Back to top ]