説明

サーバの監視装置

【課題】
サーバ(映像配信サーバ等)を用いたシステムにおいて、汎用のSNMPマネージャから、サーバの状態について警告もしくは異常の通知、更には、稼働情報を確認できるようにする。
【解決手段】
サーバ(映像配信サーバ等)の稼働情報を運用監視サーバにて一定時間間隔で収集し、稼働情報ファイルに保存する。稼働情報ファイルを一定時間間隔にて稼働情報判定部で、判定し、警告もしくは異常の通知をSNMPプロトコル変換部へ送付し、SNMPプロトコル変換部にて、SNMPプロトコルに変換し、SNMPマネージャへ通知を行う。さらには、サーバの稼働情報収集は、稼働情報ファイルを一定時間間隔で取得し、SNMPプロトコル変換部にて、SNMPプロトコルでやり取り可能な形式に変換し、SNMPマネージャからのリクエストに応じた値を返却する。

【発明の詳細な説明】
【技術分野】
【0001】
ストリーミング配信システム等における複数のサーバの稼働情報や障害情報を、汎用のSNMPマネージャとの連携により監視する方法に関する。
【背景技術】
【0002】
通常、映像配信などを行う場合は映像配信用のサーバを含む配信システム用意する必要がある。これを商用サービスとして利用する場合、複数台のサーバを用意し、ユーザからの要求に応える場合がある。それと同時に、これらのサーバに異常や障害が発生していないか監視するための仕組みが必要となる。なぜなら、ネットワークシステムが正常に稼働しない、もしくは障害が発生すると、ユーザに対してサービスが提供できず損失が発生するためである。また、普段から配信システムを監視しておくことで、障害の発生率を下げ、システムのパフォーマンス低下を抑制できる。そのため、常に配信システムを何らかの方法で監視する必要がある。監視対象の一例として、システムを構成する各機器の稼働状況 やリソースの消費状況、ネットワークトラフィック、システムログなどが挙げられる。
【0003】
多くの場合、ネットワークシステムの監視にはSNMP(Simple Network Management Protocol)が利用される。SNMPとはネットワークシステムを監視し管理するためのプロトコルであり、広く普及している。SNMPは監視対象となる機器に常駐するSNMPエージェントと監視する機器上のSNMPマネージャから構成される。SNMPエージェントは監視対象となる機器の情報を、MIB(Management Information Base)と呼ばれる管理情報を参照して取得する。SNMPマネージャとSNMPエージェントとのやり取りはこのMIBで行われる。
【0004】
SNMPを利用する場合、監視対象となる機器から得られる情報をSNMPプロトコルでやり取りできる形式に変換する必要がある。例えば、特許文献1では、監視対象サーバの情報をSNMPプロトコルでやり取り可能な形式に変換するものがある。
【0005】
【特許文献1】特開2000−267961号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
映像配信サーバ等を商用サービスで使用するには、稼働情報や障害情報の監視が必須である。しかし、SNMPエージェントや稼動情報などを収集変換する監視機能を映像配信サーバ等に搭載しようとすると、ハードウェアリソースをSNMPエージェント等の監視ソフトソフトウェアに割り当てる必要が生じ、性能劣化をもたらし、結果としてパフォーマンスを発揮出来ないという問題があった。特に、映像配信サーバのような高いパフォーマンスを要求されるような場合は、この性能劣化が大きな問題となる。そのため、映像配信サーバ等の極めて高い処理能力が要求されるサーバにおいて、SNMPエージェント機能を搭載することが出来ないという問題があった。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明では、映像配信サーバ等の稼働情報や障害情報を収集して、SNMPマネージャへ通知する運用監視方法を特徴としている。
【発明の効果】
【0008】
本発明は、運用監視サーバにて映像配信サーバ等から稼働情報や障害情報を収集/保持し、サーバ上に異常が発生してないか検査しているため、サーバの負荷を少なくし、適用可能となる利点がある。また、汎用のSNMPマネージャからの要求に応じてサーバの稼働情報や障害情報のやり取りを行うことが可能となる。
【発明を実施するための最良の形態】
【0009】
以下、図面を参照して本発明の実施の形態を説明する。
【実施例1】
【0010】
図1は、本発明を適用した映像配信サーバ等の運用監視システムの一実施例を示すブロック構成図である。本実施例のサーバ監視システムは、SNMPマネージャサーバ10と、運用監視サーバ20と、監視対象サーバ30を有する。運用監視サーバ20とSNMPマネージャサーバ10はIPネットワーク回線60で接続されている。また、運用監視サーバ20と監視対象サーバ30はIPネットワーク回線70で接続されている。運用監視サーバ20は複数の監視対象サーバ30を接続可能である。
【0011】
運用監視サーバ20は、監視対象サーバ30との通信インタフェースであり、監視対象サーバ30の稼動情報と障害情報を収集する情報収集部27と、収集した稼動情報を格納する稼動情報ファイル26と、収集した障害情報を格納する障害情報ファイル25と、稼動情報ファイル26を監視し、CPUの使用率など予め設定してある稼動情報に関する閾値と収集した稼動情報を比較し、閾値を超過した稼動情報が一定数以上存在すれば、SNMPプロトコル変換部21に異常データを通知する稼動情報判定部23と、障害情報ファイル25を監視し、予め設定してある監視対象の障害情報と一致する障害情報が存在すれば、SNMPプロトコル変換部21に障害データを通知する障害情報判定部22と、稼動情報判定部23と障害情報判定部22から受け取ったにデータ(異常と判断した稼動情報や検出された監視対象の障害情報)をSNMPプロトコルで利用可能な形式に変換し、SNMPマネージャサーバ10に送信するSNMPプロトコル変換部21と、SNMPプロトコル変換部21がデータの形式変換に利用するMIB定義ファイル24を有する。
【0012】
障害情報ファイル25は、図11に示すようにサーバ名1102、障害の発生した日時1103、障害レベル1104が格納されている。
【0013】
稼動情報ファイル26は、図12に示すようにサーバ名1202、稼動情報を収集した日時1203、監視項目の種類1204、検出した値1205が格納されている。
【0014】
SNMPプロトコル変換部21は、図2に示すとおり、サーバの稼働情報を保持した稼働状況ファイル26からデータを取得する稼働状況ファイル取得処理部214と、稼働情報判定部23からの異常データを受け取る異常通知取得処理部213と、障害情報判定部22からの障害情報を受け取る障害通知取得処理部216と、取得した監視対象サーバ30の障害情報及び稼働情報とをSNMPプロトコルでやり取り可能なデータに変換するためのMIB(Management Information Base)定義ファイル24を取得するMIB定義ファイル取得処理部212と、取得した障害情報及び稼動情報をSNMPプロトコルでやり取り可能な形式へ変換をするSNMPプロトコル処理部211を有している。また、変換したデータをSNMPマネージャサーバ10に送信し、SNMPマネージャサーバ10からの稼動情報の要求を受け付けるSNMP送受信部215を有している。
【0015】
障害情報判定部22は、図3に示すとおり、障害情報ファイル25から値を取得する障害情報ファイルデータ取得処理部223と、取得した障害情報がSNMPマネージャサーバ10に送信すべきであるかを判定する障害データ判定処理部222と、障害データ判定処理部で障害を検出した場合は、SNMPプロトコル変換部21内の障害通知取得処理部216へ障害があったことの通知を行う障害通知処理部221を有している。取得した障害情報をSNMPマネージャに送信するかの判定の際、障害データ判定処理部222は、図13に示すような、どの障害データをSNMPマネージャエージェント10に送信するかのルールを記述した設定情報1300をコンフィグファイル28から読み出し、読み出した設定情報に基づいて障害データをSNMPマネージャエージェント10に送信するかの判定を行う。設定情報1300は、監視対象のサーバ名1302と、監視対象のエラーメッセージ1303を含む。例えば、図13に示すように、サーバ「Serv01」に関して、障害情報(サーバのログ)である「Criticalical」「Error」を監視対象とした場合、複数の監視対象サーバ30中の「Serv01」から障害情報「Info」と「Error」を取得したとすると、「Info」は監視対象でないためSNMPマネージャエージェント10には送信しない。「Error」は監視対象であるためSNMPマネージャエージェント10に送信する。
【0016】
次に稼働情報判定部23は、図4に示すとおり、稼働情報ファイル26から値を取得する稼働情報ファイルデータ処理部233と、取得したデータの値に異常がないかを判定する異常データ判定処理部232と、異常データ判定処理部232で異常がある場合は、SNMPプロトコル変換部21内の異常通知取得処理部213へ異常があったことの通知を行う異常通知処理部231を有している。取得した稼動情報に異常があるかの判定の際、異常データ判定処理部232は稼動情報を判定するための設定情報1400をコンフィグファイル28から読み出し、読み出した設定情報に基づいて、稼動情報に異常があるかを判定する。設定情報1400は、監視対象のサーバ名と、監視項目1403と、監視項目1403に対する閾値1404と、監視項目1403が何回閾値を超過するとSNMPマネージャサーバ10に通報するかを表す上限回数1405を含む。図14の例では、一番上の行では、サーバ「Serv01」の監視項目「CPU使用率」を監視しておき、監視項目「CPU使用率」の値が閾値「90%」を超過していた場合、カウントしておき、このカウントが上限回数「20」に達するとSNMPマネージャサーバ10に通知する処理が行われる。上限回数1405を用いることにより、突発的に起きた異常だけでなく、ある程度まとまった期間におきた異常や定常的な異常を発見することが可能となる。
【0017】
情報収集部27は、図5に示すとおり、監視対象サーバ30から稼働情報と障害情報を収集するサーバデータ取得処理部273と、障害情報ファイル25へ出力を行う障害情報ファイル書き込み処理部272を有している。稼働情報ファイル26へ出力を行う稼働情報ファイル書き込み処理部271を有している。
【0018】
監視対象サーバ30は、映像配信サーバ等の監視対象となるサーバであり、監視対象サーバの稼動情報や障害情報を収集し、外部に送信するための収集I/F31を有する。収集I/F31は、図6に示すように稼動情報や障害情報を要求するメッセージを受信するための受信部32と、稼動情報や障害情報を送信する送信部33と、監視対象サーバ30内の稼動情報や障害情報を収集する情報収集部34を含む。
【0019】
サーバの障害情報を収集し、サーバの障害を管理者に通知する方法について図8を用いて説明する。情報収集部27は、定期的に収集I/F31に監視対象サーバ30の障害情報の要求を行う(701)。障害情報を要求する際、現時点での障害情報、つまり、監視対象サーバ30のログファイルを全て要求する。要求を受けた収集I/F31は障害情報を返信する(702)。収集I/F31から障害情報を受信した情報収集部27は、受信した障害情報から前回までの障害情報の差分を読み出して障害情報ファイル25に追記する(703)。障害情報判定部22は、予めコンフィグファイル28からどの障害を通報するかなどの設定情報1300を読み出しておく(706、707)。図13に設定情報1300の一例を示す。例えば、Serv01が示すサーバに関しては、エラーメッセージ「Critical」が通知対象であり、Serv02が示すサーバに関しては、エラーメッセージ「Error」が通知対象である。次に、障害情報判定部22は、障害情報ファイル25のデータを読み出し(704、705)、読み出したデータに通知すべき障害情報がないか定期的に判定を行う。具体的には、読み出した障害情報を検索し(708)、読み出した設定情報1300と前回判定した障害情報との差分の障害情報を比較し、通知すべき障害が存在しなければ(704)の処理に戻る(709)。通知すべき障害が存在すれば障害の発生した日時や障害のレベルなどを含む通知をSNMPプロトコル変換部に21に通知する(710)。
【0020】
SNMPプロトコル変換部21は、予めMIB定義ファイル24からMIB情報を取得しておき(711、712)、MIB情報をメモリに格納しておく(713)。次に、障害情報判定部22からの通知をMIB情報と照合し(714)、SNMPで扱える形式に変換し(715)、変換した通知をSNMPマネージャサーバに送信する(716)。MIB情報とは、SNMPで扱うことのできるデータ形式であり、ツリー構造となっている。各ノードを識別するために番号が付与されている。この番号をたどることで一意に識別する番号列(ツリーの葉に該等する)をオブジェクトIDと呼ぶ。各障害情報は該等するオブジェクトIDの示すノードに格納される。この処理により、管理者は障害が起きた場合に、必要な通知のみを受け取ることが可能となる。
【0021】
サーバの稼動情報を収集し、サーバの異常を管理者に通知する方法について図9を用いて説明する。情報収集部27は、定期的に収集I/F31に監視対象サーバ30の稼動情報の要求を行う(801)。要求を受けた収集I/F31は要求を受けた時点での稼動情報を返信する(802)。稼動情報の一例を図7に示す。項目の一例として、取得した日付、取得時刻、その他リソース情報(ネットワークI/Oレート、CPU使用率、メモリ使用量など)を収集している。
【0022】
次に、収集I/F31から稼動情報を受信した情報収集部27は、受信した稼動情報を稼動情報ファイル26に新しく受信した稼動情報を前回までの書き込みの差分として追記する(803)。稼動情報判定部23は、予めコンフィグファイル28から図14に示すような異常と判断するための閾値情報と閾値を越える異常が何回発生したらSNMPマネージャサーバ10に通報するかなどの設定情報1400を読み出しておく(806、807)。前回の判定から新たに追加されたデータの差分を抽出し(808)、設定情報内の閾値とデータを照合し(809)、閾値を超過したデータが存在しない場合は(804)の処理に戻る(810)。閾値を超過したデータが存在する場合は超過回数をカウントアップし(811)、超過回数のカウントが設定情報で定めた回数に達していなければ(804)の処理に戻る(812)。超過回数のカウントが設定情報で定めた回数に達していれば、SNMPプロトコル変換部21に異常の起こった日時、サーバ名、異常箇所などの通知を行う(813)。
【0023】
SNMPプロトコル変換部21は、予めMIB定義ファイル24からMIB情報を取得しておき(814、815)、MIB情報をメモリに格納しておく(816)。次に、稼動情報判定部23からの通知をMIB情報と照合し(817)、SNMPで扱える形式に変換し(818)、変換した通知をSNMPマネージャサーバ10に送信する(819)。この処理により、管理者は異常が起きた場合に、必要な通知のみを受け取ることが可能となる。この際、カウントは判定を一定回数繰り返すとクリアする。
【0024】
SNMPマネージャサーバ10が、監視対象サーバ30に要求することにより、稼働情報を取得する方法ついて図10を用いて説明する。情報収集部27は、定期的に収集I/F31に監視対象サーバ30の稼動情報の要求を行う(901)。要求を受けた収集I/F31は要求を受けた時点での稼動情報を返信する(902)。収集I/F31から稼動情報を受信した情報収集部27は、受信した稼動情報を稼動情報ファイル26に追記する(903)。 SNMPプロトコル変換部21は、予めMIB定義ファイル24からMIB情報を取得しておき(904、905)、MIB情報をメモリに格納しておく(906)。次に、SNMPプロトコル変換部21は、稼動情報ファイルから稼動情報を読み出し(907、908)、図8の(715)の手順と同様にSNMPで扱える形式に変換する(909)。ここまでの処理でSNMPマネージャサーバ10に提供できるデータを用意できたことになる。次に、SNMPプロトコル変換部21は、SNMPマネージャサーバ10からの稼動情報の要求を受信すると(910)、(909)で作成したデータを返信する(911)。SNMPマネージャサーバ10は、受信したMIB形式で保存されている稼動情報のオブジェクトIDを指定することにより必要な情報を参照することができる(912)。この一連の処理により、異常や障害が起きた場合だけでなく、管理者の必要に応じて稼動情報を取り出すことが可能となる。
【産業上の利用可能性】
【0025】
本発明は、複数のサーバ(映像配信サーバ等)を汎用のSNMPマネージャへ通知する監視方法に関し、特に高性能が要求されるサーバの監視において、サーバに余計な負荷をかけることなく、汎用のSNMPマネージャへ通知する監視システムの監視方法に関する。
【図面の簡単な説明】
【0026】
【図1】サーバ監視システムの一例
【図2】SNMPプロトコル変換部のブロック図の一例
【図3】障害情報判定部のブロック図の一例
【図4】稼働情報判定部のブロック図の一例
【図5】情報収集部のブロック図の一例
【図6】収集I/Fのブロック図の一例
【図7】サーバの稼働情報収集項目一覧の一例
【図8】障害情報通知シーケンスの一例
【図9】異常情報通知シーケンスの一例
【図10】稼動情報収集シーケンスの一例
【図11】障害情報テーブルの一例
【図12】稼動情報テーブルの一例
【図13】障害情報監視の設定情報の一例
【図14】稼動情報監視の設定情報の一例
【符号の説明】
【0027】
10 SNMPマネージャサーバ
20 運用監視サーバ
21 SNMPプロトコル変換部
22 障害情報判定部
23 稼働情報判定部
24 MIB定義ファイル
25 障害情報ファイル
26 稼働情報ファイル
27 情報収集部
28 コンフィグファイル
30 監視対象サーバ(映像配信サーバ等)
31 収集I/F
32 受信部
33 送信部
34 情報収集部
60、70 IPネットワーク回線
211 SNMPプロトコル処理部
212 MIB定義ファイル取得処理部
213 異常通知取得処理部
214 稼働状況ファイル取得部
215 SNMP送受信部
216 障害通知取得処理部
221 障害通知処理部
222 障害データ判定処理部
223 障害情報ファイルデータ取得処理部
231 異常通知処理部
232 異常データ判定処理部
233 稼働情報ファイルデータ取得部
271 稼動情報書き込み処理部
272 障害情報書き込み処理部
273 サーバデータ取得処理部

【特許請求の範囲】
【請求項1】
サーバ監視装置であって、
監視対象サーバから稼動情報を収集する情報収集部と、
前記稼動情報が予め設定してある閾値を超過しているか否かを監視する稼動情報判定部と、
前記稼動判定部により前記稼動情報が前記予め設定してある閾値を一定回数超過したと判断された場合、前記稼動情報のデータ形式を変換し、外部情報機器に送信する変換部を備えることを特徴とするサーバ監視装置。
【請求項2】
請求項1記載のサーバ監視装置であって、
前記変換部は、前記稼動情報をSNMPプロトコルで扱える形式に変換することを特徴とするサーバ監視装置。
【請求項3】
請求項1記載のサーバ監視装置であって、
変換部により前記予め設定してある閾値を超過した稼動情報のデータ形式を変換し、外部情報機器に送信することを特徴とするサーバ監視装置。
【請求項4】
サーバ監視装置であって、
監視対象サーバから障害情報を収集する情報収集部と、
前記障害情報が予め設定してある障害情報であるか否かを監視する障害情報判定部と、
前記障害判定部により前記障害情報が前記予め設定してある障害情報と一致した場合、前記障害情報のデータ形式を変換し、外部情報機器に送信する変換部を備えることを特徴とするサーバ監視装置。
【請求項5】
請求項4記載のサーバ監視装置であって、
前記変換部は、前記障害情報をSNMPプロトコルで扱える形式に変換することを特徴とするサーバ監視装置。
【請求項6】
サーバ監視装置であって、
監視対象サーバから稼動情報を収集する情報収集部と、
前記稼動情報のデータ形式を変換する変換部とを備え、
前記変換部は、外部情報機器から稼動情報の要求を受信すると、前記データ形式を変換した稼動情報を前記外部情報機器へ送信することを特徴とするサーバ監視装置。
【請求項7】
請求項6記載のサーバ監視装置であって、
前記変換部は、前記稼動情報をSNMPプロトコルで扱える形式に変換することを特徴とするサーバ監視装置。
【請求項8】
サーバ監視システムであって、
自身の稼動状況を収集し、外部情報機器に送信する稼動情報収集部を備えたサーバと、
前記サーバから稼動情報収集部を介して稼動情報を収集する情報収集部と、前記稼動情報が予め設定してある閾値を超過しているか否かを監視する稼動情報判定部と、前記稼動判定部により前記稼動情報が前記予め設定してある閾値を一定回数超過したと判断された場合、前記稼動情報のデータ形式を変換し、外部情報機器に送信する変換部を備える監視装置とを有することを特徴とするサーバ監視システム。
【請求項9】
請求項8記載のサーバ監視装置であって、
前記変換部は、前記障害情報をSNMPプロトコルで扱える形式に変換することを特徴とするサーバ監視装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2009−187230(P2009−187230A)
【公開日】平成21年8月20日(2009.8.20)
【国際特許分類】
【出願番号】特願2008−25843(P2008−25843)
【出願日】平成20年2月6日(2008.2.6)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】