説明

監視システム及びプログラム

【課題】 被監視装置を監視する監視システムにおいて、ユーザの監視に係る負担を軽減する。
【解決手段】 本発明は、被監視装置を監視する監視システムに関する。そして、監視システムは、被監視装置に係るイベントの発生を検知する手段と、イベント発生検知手段が検知したイベントを、所定の対象イベントであるか、対象イベント以外の非対象イベントであるかを分類する手段と、非対象イベントの発生を検知すると、その旨をユーザに通知し、対象イベントの発生を検知しても、その対象イベントの発生の通知を行わない手段と、被監視装置に係る対象イベントが発生するタイミングの分布状況に応じて、被監視装置の、固定的障害又は間欠的障害の発生を検知する障害検知手段とを有することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、監視システム及びプログラムに関し、例えば、ネットワーク装置を監視するシステムに適用することができる。
【背景技術】
【0002】
従来、ネットワークを監視するシステムとしては、特許文献1に記載のネットワーク管理システムがある。
【0003】
特許文献1に記載のネットワーク管理システムでは、被監視装置は、故障・障害検出部と、それによる故障或いは障害の発生の検出から設定時間をカウントするタイマと、タイマによる設定時間のカウントが終了するまでの間に故障・障害検出部により故障或いは障害の復旧が検出されていない場合には、故障・障害検出部により発生を検出した故障或いは障害が固定的な固定故障或いは固定障害に至ったと判断し、固定故障或いは固定障害の発生を知らせるイベントメッセージを生成、生成されたイベントメッセージを監視装置に通知するイベントメッセージ生成部を有する。そして、被監視装置側での方法により、間欠的障害に対するイベントメッセージと固定的障害に対するイベントメッセージとを切り分け、速やかに保守をする必要性が高い固定的障害に対するイベントメッセージを容易に選択することができ、保守作業の作業量を軽減する、ネットワーク管理システム方法であった。
【0004】
また、監視装置などのコンピュータシステムにおいては、特許文献2に記載されたメッセージ抑止制御があり、コンピュータシステムの使用者がコンソールヘ出力するメッセージをメッセージの識別子によりコンソール毎に抑止することを集中的に行うことにより、使用者各々が、システムやコンソールの負荷状態を考慮する必要がなくなるというものであった。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2000−307605号公報
【特許文献2】特開平5−189208号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1、2の記載技術では、被監視装置のタイマによる設定時間のカウントが終了するまでの間に故障・障害検出部により故障或いは障害の復旧が検出されると固定的障害に至らず、間欠的障害と判断され、間欠的障害のイベントメッセージが繰り返し出力されることになり、それが短期間に繰り返されるような場合は、速やかに保守をする必要性が高い一種の固定的障害として判断し、取り扱うことができないという問題があった。
【0007】
また、被監視装置からイベントメッセージが繰り返し出力されることで、監視装置に多量に蓄積かつ画面表示されるため、多量のイベントメッセージが逐次表示される画面や多量のイベントメッセージの履歴情報から、速やかに保守をする必要性が高い固定的障害のイベントメッセージを選別する妨げになり、監視装置を使用する保守作業としてはユーザ(保守者等)の作業量を軽減することができないという問題もあった。
【0008】
さらに、被監視装置の障害の特性や被監視装置の構成、実装により、被監視装置に固定障害と間欠障害を切り分ける手段がなく、間欠的障害のイベントメッセージを監視装置に送出し、保守者にてイベントメッセージが一定期間繰り返すか否かを監視するリアクションを行う被監視装置も存在するが、この方法では現実的には監視装置を使用するユーザ(保守者等)の保守作業の軽減に結びつかない場合もあった。
【0009】
さらにまた、特許文献2の記載技術では、イベントメッセージを受信する監視装置から保守端末(コンソール)に、繰り返し発生するイベントメッセージの表示を抑止・除外する機能でしかないため、間欠的障害の出方・状況から、速やかに保守をする必要性が高い固定的障害を検知することができなかった。
【0010】
そのため、ユーザの監視に係る負担を軽減することができる監視システム及びプログラムが望まれている。
【課題を解決するための手段】
【0011】
第1の本発明は、被監視装置を監視する監視システムにおいて、(1)上記被監視装置に係るイベントの発生を検知するイベント発生検知手段と、(2)上記イベント発生検知手段が検知したイベントを、所定の対象イベントであるか、対象イベント以外の非対象イベントであるかを分類するイベント分類手段と、(3)非対象イベントの発生を検知すると、その旨をユーザに通知し、対象イベントの発生を検知しても、その対象イベントの発生の通知を行わない通知手段と、(4)上記被監視装置に係る対象イベントが発生するタイミングの分布状況に応じて、上記被監視装置の、固定的障害又は間欠的障害の発生を検知する障害検知手段と備えることを特徴とする。
【0012】
第2の本発明の監視プログラムは、(1)被監視装置を監視する監視システムを構成するコンピュータを、(2)上記被監視装置に係るイベントの発生を検知するイベント発生検知手段と、(3)上記イベント発生検知手段が検知したイベントを、所定の対象イベントであるか、対象イベント以外の非対象イベントであるかを分類するイベント分類手段と、(4)非対象イベントの発生を検知すると、その旨をユーザに通知し、対象イベントの発生を検知しても、その対象イベントの発生の通知を行わない通知手段と、(5)上記被監視装置に係る対象イベントが発生するタイミングの分布状況に応じて、上記被監視装置の、固定的障害又は間欠的障害の発生を検知する障害検知手段として機能させることを特徴とする。
【発明の効果】
【0013】
本発明によれば、被監視装置を監視する監視システムにおいて、ユーザの監視に係る負担を軽減することができる。
【図面の簡単な説明】
【0014】
【図1】実施形態に係る監視システムの全体構成について示したブロック図である。
【図2】実施形態に係る各種装置の接続関係などの説明図である。
【図3】実施形態に係る障害状況テーブルが有する情報の例について示した説明図である。
【図4】実施形態に係る監視システムの動作について示したフローチャート(1)である。
【図5】実施形態に係る監視システムの動作について示したフローチャート(2)である。
【図6】実施形態に係る監視システムにおける間欠的障害及び固定的障害の検知に係る動作を示した説明図(1)である。
【図7】実施形態に係る監視システムにおける間欠的障害及び固定的障害の検知に係る動作を示した説明図(2)である。
【図8】実施形態に係るアラーム出力部により出力される画面内容の例について示した説明図である。
【図9】実施形態の間欠アラーム検索入出力部により出力される画面内容の例について示した説明図である。
【図10】監視登録情報入出力部に表示される画面内容の例について示した説明図である。
【発明を実施するための形態】
【0015】
(A)主たる実施形態
以下、本発明による監視システム10の一実施形態を、図面を参照しながら詳述する。
【0016】
(A−1)実施形態の構成
図2は、この実施形態に関係する各種装置の接続関係などの説明図である。
【0017】
監視システム10は、監視装置20及び保守端末30を有している。
【0018】
監視システム10では、監視装置20により、被監視装置から送信される監視に係るイベントメッセージを受信すること等により、被監視装置の状態を監視し、その監視結果を保守端末30によりユーザに出力する。
【0019】
この実施形態では、保守端末30による監視結果のユーザへの出力は、少なくともディスプレイによる表示出力が行われるものとして説明する。保守端末30によるユーザへの出力方法は、その他にも音声による出力、印刷装置による出力、ユーザが使用する端末(携帯電話端末等)へのメール送信等限定されないものである。
【0020】
監視システム10における被監視装置は、図2の例では、3つの通信装置40(40−1〜40−3)及び3つの通信端末50(50−1〜50−3)であるものとして説明しているが、その数や種類は限定されないものである。図2において、監視装置20は、ネットワークN1を介して通信装置40−1〜40−3と接続し、通信端末50−1〜50−3は、ネットワークN2を介して通信端末50−1〜50−3に接続しているが、監視システム10の監視対象となる被監視装置のネットワーク構成は限定されないものである。
【0021】
図2において、被監視装置は、それぞれ、SNMP(Simple Network Management Protocol)及びMIB(Management Information Base)に対応しており、監視装置20の要求、又は、自装置における所定の条件に応じたイベント発生に応じて、監視装置20へ、SNMPを用いてイベントメッセージ等を送信するものとして説明する。そして、監視装置20では、被監視装置から受信したイベントメッセージ等を用いて、被監視装置の状態を把握する。
【0022】
被監視装置(通信装置40−1〜40−3、通信端末50−1〜50−3)としては、既存のSNMP及びMIBに対応した通信装置を適用することができる。なお、この実施形態においては、ネットワーク管理にSNMP及びMIBを用いた例について説明しているが、これに限定されず、その他のプロトコルやデータベースを用いて被監視装置を管理するようにしても良い。
【0023】
次に、監視装置20及び保守端末30の詳細構成について説明する。
【0024】
図1は、監視装置20及び保守端末30の機能的構成について示したブロック図である。
【0025】
監視装置20は、イベントメッセージ受信処理部201、障害検出処理部202、イベントメッセージ処理部203、アラーム履歴DB204、アラーム検索表示処理部205、アラーム表示処理部206、障害状況監視処理部207、間欠アラーム履歴DB208、監視登録モニタ処理部209、間欠アラーム検索表示処理部210を有している。
【0026】
保守端末30は、アラーム検索入出力部31、アラーム出力部32、監視登録情報入出力部33、間欠アラーム検索入出力部34を有している。
【0027】
なお、図1及び図2において、監視装置20と保守端末30は、別装置であるものとして説明しているが、全て監視装置20側にまとめて、一つの装置で監視システムを構築するようにしても良い。また、監視システム10(監視装置20及び保守端末30)は、パソコンやワークステーションなどの情報処理装置(1台に限定されず、複数台を分散処理し得るようにしたものであっても良い。)上に、実施形態の監視プログラム(固定データを含む)をインストールすることにより、構築するようにしても良く、その場合でも機能的には図1のように表すことができる。
【0028】
障害検出処理部202は、監視装置20自体も被監視装置の一つとして監視する場合に、他の被監視装置と同様にSNMP及びMIBに係る処理を行うものであり、監視装置20に係るイベントメッセージ等を、イベントメッセージ受信処理部201に与える。
【0029】
イベントメッセージ受信処理部201は、被監視装置、障害検出処理部202、障害状況監視処理部207から与えられるイベントメッセージを受信し、イベントメッセージ処理部203に与える。
【0030】
イベントメッセージ処理部203は、イベントメッセージ受信処理部201から与えられたイベントメッセージについて、所定の被監視装置に関する所定の種類のイベントメッセージ(以下、「対象イベントメッセージ」という)であるか否かを判定し、対象イベントメッセージについては、障害状況監視処理部207に与え、対象イベントメッセージでないイベントメッセージ(以下、「非対象イベントメッセージ」という)である場合には、そのイベントメッセージをアラーム履歴DB204、アラーム表示処理部206に与える。イベントメッセージ処理部203において、対象イベントメッセージであるか否かを判定する方法については後述する。
【0031】
アラーム履歴DB204は、イベントメッセージ処理部203から与えられたイベントメッセージに基づいて、被監視装置に係るアラーム情報を長期間、時系列に蓄積記憶する手段である。また、アラーム履歴DB204は、アラーム検索表示処理部205の要求に応じたアラームの内容を返答する。
【0032】
アラーム表示処理部206は、イベントメッセージ処理部203から与えられたイベントメッセージを、保守端末30のアラーム出力部32に与える。そして、アラーム出力部32では、アラーム表示処理部206から与えられたイベントメッセージに基づくアラームの内容がディスプレイに出力され、ユーザに供される。
【0033】
アラーム検索表示処理部205は、保守端末30(アラーム検索入出力部31)から与えられた検索条件(例えば、被監視装置の識別情報や、発生時間帯等)に一致するアラームの情報をアラーム履歴DB204から検索し、検索したイベントメッセージの内容を、保守端末30(アラーム検索入出力部31)に与える。
【0034】
そして、アラーム検索入出力部31では、アラーム検索表示処理部205から与えられたイベントメッセージの内容をディスプレイに出力し、ユーザに供する。また、アラーム検索入出力部31は、ユーザにイベントメッセージの検索条件を入力させる入力手段も備えており、検索条件が入力手段(例えば、マウスやキーボード)により入力されると、監視装置20(アラーム検索表示処理部205)に与える。
【0035】
障害状況監視処理部207は、イベントメッセージ処理部203から与えられるイベントメッセージの内容を分析して、固定的障害又は間欠的障害の発生を検知する。
【0036】
なお、固定的障害とは、例えば、当該被監視装置について、速やかに保守をする必要性が高い障害が該当し、間欠的障害は、例えば、速やかに保守をする必要性が低い障害が該当する。
【0037】
障害状況監視処理部207は、所定の被監視装置に関する所定の種類のイベントメッセージ(以下、「対象イベントメッセージ」という)の発生タイミングの分布の状況に応じて、当該被監視装置について固定的障害又は間欠的障害の発生を検知する。
【0038】
障害状況監視処理部207において、対象イベントメッセージとしては、例えば、当該被監視装置における所定の部位の寿命(劣化)や、外部環境の変化による影響から部位の動作が不安定になっていることを示すものが該当する。言い換えると、対象イベントメッセージは、一度でもそのイベントメッセージが発生したら、即刻、速やかに保守をする必要があるものではなく、発生頻度が高くなったときに、はじめて保守を必要とするものが該当する。具体的には、対象イベントメッセージとしては、メモリエラー(例えば、自己修復可能なECCエラーなど)、ディスクエラー(例えば、SMARTエラー(障害予測)等)、電源系のエラー(例えば、温度/電圧/電流の変異、ファン回転数の低下等)、ネットワーク系のエラー(例えば、代替ルートが多数ある中の一部のリンクダウン(有線・無線)、データの再送により救済可能な伝送路(CRC)エラー等)が該当する。
【0039】
このように、障害状況監視処理部207は、被監視装置に関する対象イベントメッセージの発生タイミングの分布状況を監視し、被監視装置について固定的障害又は間欠的障害を検知するが、その監視を行う条件に係る情報(以下、「障害判断基準情報」という)は、監視登録モニタ処理部209から読込んで利用する。
【0040】
なお、上述のイベントメッセージ処理部203が、受信したイベントメッセージを対象イベントメッセージであるか否かを判定する方法としては、監視登録モニタ処理部209又は障害状況監視処理部207が保持する障害判断基準情報の内容に応じて判断される。すなわち、上述のイベントメッセージ処理部203が、受信したイベントメッセージが、間欠的障害の監視対象となっているイベントメッセージとして、障害判断基準情報に登録されている場合には、そのイベントメッセージは対象イベントメッセージとなる。
【0041】
障害状況監視処理部207は、イベントメッセージの種類及び被監視装置の識別情報の組み合わせごとに、障害判断基準情報と、その障害基準情報に基づく管理状況に関する情報を保持する障害状況テーブル207aを有し、障害状況テーブルの内容を更新する。
【0042】
障害状況監視処理部207は、固定的障害の発生を検知した場合には、その固定的障害に係るイベントメッセージ(少なくとも、固定的障害の内容及び該当する被監視装置の識別情報等を含む)を生成して、イベントメッセージ受信処理部201に与える。
【0043】
また、障害状況監視処理部207は、任意の被監視装置について間欠的障害を検知すると、その間欠的障害に係る情報(少なくとも、固定的障害の内容及び該当する被監視装置の識別情報等を含む)(以下、「間欠的障害アラーム情報」という)に与える。
【0044】
なお、障害状況監視処理部207における具体的な処理内容及び、障害状況テーブル207aの情報等については後述する動作説明において詳述する。
【0045】
間欠アラーム履歴DB208は、障害状況監視処理部207から与えられた間欠的障害アラーム情報を長期間、時系列に蓄積記憶する手段である。また、間欠アラーム履歴DB208は、間欠アラーム検索表示処理部210の要求に応じた間欠的障害アラーム情報の内容を返答する。
【0046】
間欠アラーム検索表示処理部210は、保守端末30(間欠アラーム検索入出力部34)から与えられた検索条件(例えば、被監視装置の識別情報や、発生時間帯等)に一致する間欠的障害アラーム情報を間欠アラーム履歴DB208から検索し、検索した間欠的障害アラーム情報の内容を、保守端末30(間欠アラーム検索入出力部34)に与える。
【0047】
そして、間欠アラーム検索入出力部34では、間欠アラーム検索表示処理部210から与えられた間欠的障害アラーム情報の内容をディスプレイに出力し、ユーザに供する。また、間欠アラーム検索入出力部34は、ユーザに間欠的障害アラーム情報の検索条件が、入力手段(例えば、マウスやキーボード)により入力されると、監視装置20(間欠アラーム検索入出力部34)に与える。
【0048】
監視登録モニタ処理部209は、障害判断基準情報を保持しており、保守端末30(監視登録情報入出力部33)の要求に応じて、保持している障害判断基準情報を更新する。また、監視登録モニタ処理部209は、保持している障害判断基準情報を、障害状況監視処理部207及び保守端末30(監視登録情報入出力部33)に供給する。
【0049】
そして、監視登録情報入出力部33では、監視登録モニタ処理部209から与えられた間欠的障害アラーム情報を含む内容をディスプレイに出力し、ユーザに供する。また、監視登録情報入出力部33は、ユーザに障害判断基準情報が、入力手段(例えば、マウスやキーボード)により入力されると、監視装置20(監視登録モニタ処理部209)に与える。
【0050】
なお、イベントメッセージ受信処理部201、障害検出処理部202、イベントメッセージ処理部203(対象イベントメッセージに係る処理を除く)、アラーム履歴DB204、アラーム検索表示処理部205、アラーム表示処理部206、アラーム検索入出力部31及びアラーム出力部32は、既存のSNMP及びMIBを利用したネットワーク管理システム(Network Management System;NMS)と同様の構成を適用することができる。すなわち、監視システム10は、既存のネットワーク管理システムに、障害状況監視処理部207、間欠アラーム履歴DB208、監視登録モニタ処理部209、間欠アラーム検索表示処理部210、監視登録情報入出力部33、間欠アラーム検索入出力部34に係る構成を付加して構築するようにしても良い。また、監視システム10において用いられるイベントメッセージの形式も、既存のNMSにおいて用いられるイベントメッセージと同様の形式を用いるようにしても良い。
【0051】
また、保守端末30において、上述のアラーム検索入出力部31、アラーム出力部32、監視登録情報入出力部33、間欠アラーム検索入出力部34のそれぞれに対応する出力手段(例えば、ディスプレイ等)や入力手段(例えば、マウス、キーボード等)を個別に備えるようにしても良いし、一部又は全部について共有するようにしても良く、構成方法は限定されないものである。
【0052】
(A−2)実施形態の動作
次に、以上のような構成を有するこの実施形態の監視システム10の動作を説明する。
【0053】
(A−2−1)障害状況テーブルの内容について
図3は、障害状況テーブル207aに記憶される情報の例について示した説明図である。
【0054】
図3に示すように、障害状況テーブル207aには、大きく分けて、「イベン情報」、「障害判断基準情報」、「監視状況情報」が含まれている。
【0055】
まず、「イベント情報」に含まれる情報について説明する。「イベン情報」には、対象イベントを特定するための情報(イベント名、ホスト名)や、メッセージの情報が含まれている。
【0056】
イベント名は、イベントメッセージの種類を示す識別情報であり、ホスト名は被監視装置の識別情報である。
【0057】
図3では。イベントメッセージの種類を示す識別情報については、説明を簡易にするために、A、B、C等の表記により示されるイベント名により示しているが、図3に示す表記に限定されず、監視装置20において用いられる表記を適用するようにしても良い。例えば、イベントメッセージの種類を示す識別情報として、イベントIDや当該イベントに対応する変数等と組み合わせて表記するようにしても良い。
【0058】
図3では、被監視装置の識別情報としてホスト名を用いているが、これに限定されず、被監視装置を識別できる情報であればIPアドレス等他の情報を用いるようにしても良い。又、図3では、被監視装置の識別情報としてホスト名、イベントメッセージの種類を示す識別情報として、イベント名の両方を用いているが、いくつかの被監視装置が電源、ファン等の部位を共用する構成の場合には、被監視装置の識別情報としてホスト名を省略し、イベントメッセージの種類を示すイベント名だけを用いてもよい。例えば、電源、ファン等の共通モジュール部を搭載するひとつの筐体(シャーシ)に、いくつかの基板部(ブレード)を搭載する構成の場合には、各々の基盤部が被監視装置となり、被監視装置が共用する電源、ファン等の共通モジュール部の異常を、各々の被監視装置で、同じアラームとして検出する可能性がある。このような場合、ホスト名は異なるが、同じイベント名のアラームが検出される場合があり、ホスト名を省略し、イベント名だけで識別する方が効果的である。
【0059】
メッセージは、間欠アラーム履歴DB208や間欠アラーム検索入出力部34に保持される当該イベントメッセージに係る説明(例えば、「電圧障害」、「メモリ障害」等)である。なお、図3に示すイベント情報において、メッセージの項目は省略するようにしても良い。
【0060】
次に、「障害判断基準情報」に含まれる情報について説明する。「障害判断基準情報」には、監視種別、監視時間t、リセット時間r、間欠的障害判断回数e、固定的障害判断回数fの項目の情報が含まれている。
【0061】
監視種別は、当該イベント情報に係るイベントメッセージについて、間欠的障害又は固定的障害を監視する対象とするか否かを設定する情報である。監視種別には、「監視」又は「非監視」のいずれかの情報が設定され「監視」と設定されている場合には、当該イベント情報に係るイベントメッセージについて、間欠的障害又は固定的障害を監視する対象である旨を示す。「非監視」と設定されている場合には、間欠的障害又は固定的障害を監視せず、無条件にユーザへのアラームを抑制する対象である旨を示す。このとき、「非監視」と設定した監視種別以降の項目の情報は省略することができる。
【0062】
監視時間t、リセット時間r、間欠的障害判断回数e、固定的障害判断回数fは、当該イベント情報に係る障害判断基準情報を示すパラメータである。これらのパラメータに係る具体的な処理については後述する。
【0063】
次に、「監視状況情報」に含まれる情報について説明する。「監視状況情報」には、被監視装置の状態を示すパラメータとして、最終受信日時、監視タイマ値、エラーカウンタ値、エラー過多カウンタ値の情報が含まれる。
【0064】
最終受信日時は、当該イベント情報に係るイベントメッセージについて最後に受信した日時を示すものであり、初期状態では「未設定」が設定される。
【0065】
監視タイマ値、エラーカウンタ値、エラー過多カウンタ値は、当該イベント情報に係る監視状況情報を示すパラメータである。これらのパラメータに係る具体的な処理については後述する。
【0066】
なお、監視登録モニタ処理部209が保持する障害判断基準情報は、図3における、イベント情報及び障害判断基準情報を含む情報が該当する。
【0067】
(A−2−2)間欠的障害又は固定的障害を検知する処理について
次に、監視装置20において、被監視装置からイベントメッセージが与えられ、間欠的障害又は固定的障害を検知する処理について、図4及び図5を用いて説明する。
【0068】
まず、監視装置20では、任意の被監視装置からイベントメッセージが与えられると、イベントメッセージ受信処理部201を介して、イベントメッセージ処理部203に到達し、イベントメッセージ処理部203において、そのイベントメッセージが対象イベントメッセージ(間欠的障害の監視対象のイベントメッセージ)となっているか否かが判定され(S101)、対象イベントメッセージであると判定された場合には、後述するステップS104から動作し、対象イベントメッセージでない場合には、後述するステップS102から動作する。
【0069】
ステップS101では、具体的には、イベントメッセージ処理部203では、受信したイベントメッセージが、障害状況テーブル207aに監視対象として登録されているイベントメッセージであるか否かが判定される。例えば、図3に示すように、障害状況テーブル207aには、イベント識別情報が「A」、ホスト名が「通信装置a」となっている情報が登録されているが、上述のステップS101において受信したイベントメッセージの識別情報がAで、そのイベントメッセージの送信元の識別情報が「通信装置a」であった場合には、障害状況テーブル207aに監視対象として登録されているイベントメッセージであると判定される。
【0070】
上述のステップS101において、受信したイベントメッセージが対象イベントメッセージでないと判定された場合には、イベントメッセージ処理部203は、そのイベントメッセージに係る情報を、アラーム履歴DB204に書き込む(S102)。イベントメッセージ処理部203は、そのイベントメッセージに係る情報を、アラーム表示処理部206に与えられ、アラーム表示処理部206により、その情報が、保守端末30(アラーム出力部32)に与えられて、保守端末30(アラーム出力部32)より出力され(S103)、処理が終了する。
【0071】
一方、上述のステップS101で、イベントメッセージ処理部203において、受信したイベントメッセージが間欠的障害の監視対象となっていると判定された場合には、そのイベントメッセージに係る情報が、障害状況監視処理部207に与えられ、障害状況監視処理部207により、間欠アラーム履歴DB208に書きこまれる(S104)。
【0072】
そして、障害状況監視処理部207により、障害状況テーブル207aの登録情報が参照され、受信したイベントメッセージに係る監視種別の内容確認が行われ、監視種別の情報が「監視」であった場合には、後述するステップS106の情報から動作し、「非監視」であった場合には、当該イベントメッセージに係る処理は終了する。
【0073】
一方、上述のステップS104で、障害状況監視処理部207により、受信したイベントメッセージに係る監視種別の確認結果が、「監視」であった場合には、障害状況監視処理部207により、障害状況テーブル207aの登録情報について、受信したイベントメッセージに係るエラーカウンタ値の値に1加算される(S106)
次に、障害状況監視処理部207では、障害状況テーブル207aの登録情報において、受信したイベントメッセージに係るエラーカウンタ値と、間欠的障害判断回数eとが比較される(S107)。
【0074】
ステップS107において、障害状況監視処理部207で、エラーカウンタ値が間欠的障害判断回数eより小さいと判定された場合には、後述するステップS110の処理から動作し、エラーカウンタ値が間欠的障害判断回数e以上と判定された場合には、後述するステップS108から動作する。
【0075】
上述のステップS107において、障害状況監視処理部207で、エラーカウンタ値が間欠的障害判断回数e以上と判定された場合には、障害状況監視処理部207では、さらに、障害状況テーブル207aの登録情報における、受信したイベントメッセージに係るエラー過多カウンタ値と、固定的障害判断回数fとが比較される(S108)。
【0076】
ステップS108において、障害状況監視処理部207で、エラーカウンタ値が固定的障害判断回数fより小さいと判定された場合には、受信したイベントメッセージに係るエラー過多カウンタ値に1加算される(S109)。
【0077】
次に、障害状況監視処理部207では、受信したイベントメッセージに係る「最終受信日時」の情報について「未設定」であるか「設定済」であるかが判定され(S110)、「未設定」である場合には、後述するステップS112の処理から動作し、「設定済」である場合には、後述するステップS111の処理から動作する。
【0078】
上述のステップS110で、障害状況監視処理部207において、受信したイベントメッセージに係る「最終受信日時」の情報が「設定済」であると判定された場合には、最新に受信したイベントメッセージの受信時刻と、現在登録されている「最終受信日時」の時刻の差分が、時間差TDとして求められる。
【0079】
一方、上述のステップS110で、障害状況監視処理部207において、受信したイベントメッセージに係る「最終受信日時」の情報が「未設定」であると判定された場合には、上述の時間差TDとして「0」が求められたものとして、以降の処理が行われる(S112)。
【0080】
次に、障害状況監視処理部207では、上述のステップS111又はS112で求められた時間差TDが、受信したイベントメッセージに係る監視タイマ値に加算され(S113)、受信したイベントメッセージに係る「最終受信日時」に、最新に受信したイベントメッセージの受信時刻が設定される(S114)。
【0081】
次に、障害状況監視処理部207では、受信したイベントメッセージに係る監視タイマ値と、監視時間tとが比較される(S115)。
【0082】
上述のステップS115において、障害状況監視処理部207で、監視タイマ値が、監視時間tよりも大きいと判定された場合には、後述するステップS118から動作し、監視タイマ値が、監視時間t以下と判定された場合には、後述するステップS116の処理から動作する。
【0083】
上述のステップS115において、障害状況監視処理部207で、監視タイマ値が、監視時間t以下と判定された場合には、さらに、障害状況監視処理部207で、受信したイベントメッセージに係るエラーカウンタ値と間欠的障害判断回数eとが比較される(S116)。
【0084】
上述のステップS116において、エラーカウンタ値が間欠的障害判断回数eと異なると判定された場合には、受信したイベントメッセージに係る処理が終了される。
【0085】
一方、上述のステップS116において、エラーカウンタ値が間欠的障害判断回数eと等しいと判定された場合には、さらに、障害状況監視処理部207で、受信したイベントメッセージに係るエラー過多カウンタ値と、固定的障害判断回数fとが比較される(S117)。
【0086】
上述のステップS117において、障害状況監視処理部207で、受信したイベントメッセージに係るエラー過多カウンタ値が、固定的障害判断回数f以上であった場合には、障害状況監視処理部207では、受信したイベントメッセージの送信元の被監視装置は、固定的障害と判断され、受信したイベントメッセージに係る固定的障害イベントメッセージが生成され、イベントメッセージ受信処理部201に与えられ(S122)、受信したイベントメッセージに係る処理が終了する。
【0087】
一方、上述のステップS117において、障害状況監視処理部207で、受信したイベントメッセージに係るエラー過多カウンタ値が、固定的障害判断回数fより小さい場合には、障害状況監視処理部207では、受信したイベントメッセージの送信元の被監視装置は、間欠的障害と判断され、受信したイベントメッセージに係る間欠的障害イベントメッセージが生成され、イベントメッセージ受信処理部201及び間欠アラーム履歴DB208に与えられ(S123)、受信したイベントメッセージに係る処理が終了する。
【0088】
一方、上述のステップS115において、障害状況監視処理部207で、監視タイマ値が、監視時間tよりも大きいと判定された場合には、障害状況監視処理部207により、受信したイベントメッセージに係る監視タイマ値が「0」にリセットされ(S118)、さらに、受信したイベントメッセージに係るエラーカウンタ値に「1」が設定される(S119)。
【0089】
次に、障害状況監視処理部207では、上述のステップS111又はS112で求められた時間差TDと、リセット時間rとが比較され(S120)、時間差TDがリセット時間rより大きいと判定された場合には、受信したイベントメッセージに係るエラー過多カウンタ値が0にリセットされて(S121)受信したイベントメッセージに係る処理を終了し、時間差TDがリセット時間rより小さいと判定された場合には、そのまま受信したイベントメッセージに係る処理を終了する。
【0090】
次に、監視装置20において、被監視装置から複数のイベントメッセージを受信し、上述の図4、図5の処理が行われた場合の処理について説明する。
【0091】
図6、図7では、例として、通信装置40−1(ホスト名が「通信装置a」であるものとする)から、イベント名が「A」のイベントメッセージが、間欠的に監視装置20に与えられ、監視システム10において、上述の図4、図5のフローチャートの処理が行われた場合の処理について説明している。
【0092】
図6(a)は、通信装置40−1(ホスト名:通信装置a)から監視システム10に、イベント名が「A」のイベントメッセージが与えられたタイミング、及び、通信装置40−1に係る間欠的障害又は固定的障害を検知したタイミングを示すタイミングチャートであり。図6(a)では、T1〜T18のそれぞれのタイミングで、通信装置40−1から監視システム10にイベント名が「A」のイベントメッセージが与えられた場合について説明している。
【0093】
図6(b)は、T1〜T18のそれぞれのタイミングで、障害状況テーブル207aにおける、図6(a)に示すイベントメッセージに係る監視状況情報、すなわち、イベント名が「A」、ホスト名が「通信装置a」の行に係る、の監視タイマ値、エラーカウンタ値、エラー過多カウンタ値を示している。
【0094】
図6(b)に示すように、T1〜T4の間は、監視時間tよりも短く、T3の時点で、エラーカウンタ値は3となり、間欠的障害判断回数e(3回)に達するので、監視装置20では、T3の時点で間欠的障害が検知され、エラー過多カウンタ値に1が加算され、1となっている。そして、T5の時点で、監視タイマ値が監視時間tに達しているので、監視タイマ値は0に初期化され、エラーカウンタ値が1となっている(すなわち、エラーカウンタ値が初期化されて0になり、さらに、1加算された状態である)。
【0095】
次に、T5〜T8の間も、監視時間tよりも短く、T7の時点で、エラーカウンタ値は3となり、間欠的障害判断回数e(3回)に達するので、監視装置20では、T7の時点で間欠的障害が検知され、エラー過多カウンタ値に1が加算され、2となっている。そして、T9の時点で、監視タイマ値が監視時間tに達しているので、監視タイマ値は0に初期化され、エラーカウンタ値が1となっている。
【0096】
次に、T9〜T12の間も、監視時間tよりも短く、T11の時点で、エラーカウンタ値は3となり、間欠的障害判断回数e(3回)に達するが、T11の時点で、エラー過多カウンタ値に1が加算され、固定的障害判断回数f(3回)に達するので、間欠的障害ではなく、固定的障害が検出される。
【0097】
このように、監視装置20では、最初にイベントメッセージを受信すると、監視タイマにより監視時間tの計時を開始し、監視時間tに達するまでの間に受信したイベントメッセージの数を、エラーカウンタ値によりカウントする。そして、監視装置20では、エラーカウンタ値の数が、間欠的障害判断回数eに達した時点で、間欠的障害を検知すると共に、エラー過多カウンタ値をインクリメントし、エラー過多カウンタ値が固定的障害判断回数fに達した時点で固定的障害を検知する。
【0098】
また、図6に示すように、監視装置20では、T1〜T18の全てのタイミングで、イベントメッセージを受信しているが、間欠的障害の監視対象となっているイベントメッセージについては、直接アラーム出力部32から出力されるわけではなく、障害状況監視処理部207において間欠的障害又は固定的障害と判定された場合にのみ、その間欠的障害又は固定的障害を示すイベントメッセージに基づくアラームのみがアラーム出力部32により出力されるため、間欠的障害又は固定的障害を検知した場合以外のユーザへのアラーム通知が抑制される。なお、障害状況監視処理部207において間欠的障害と判定された場合、ユーザにアラーム通知するか、抑制するかを、監視登録時の条件として選択させてもよい。
【0099】
次に、監視システム10(障害状況テーブル207a)において、監視タイマ値、エラーカウンタ値、エラー過多カウンタ値がリセット(初期化)される動作について説明する。
【0100】
図7(a)は、通信装置40−1から監視システム10に、イベント名が「A」のイベントメッセージが与えられたタイミング、及び、障害状況テーブル207aにおいて当該イベントメッセージに係る監視タイマ値、エラーカウンタ値、エラー過多カウンタ値がリセットされる状況について示している。また、図7(a)では、T1〜T14のそれぞれのタイミングで、通信装置40−1から監視システム10にイベント名が「A」のイベントメッセージが与えられた場合について説明している。
【0101】
図7(b)は、T1〜T14のそれぞれのタイミングで、障害状況テーブル207aにおける、図7(a)に示すイベントメッセージに係る監視状況情報、すなわち、イベント名が「A」、ホスト名が「通信装置a」の行に係る、の監視タイマ値、エラーカウンタ値、エラー過多カウンタ値を示している。
【0102】
図7(b)に示すように、T4の時点で、エラー過多カウンタ値が1となっているが、T4とT5までの期間がリセット時間rよりも長くなっているため、T5の時点で、監視タイマ値、エラーカウンタ値及びエラー過多カウンタ値がリセットされ、エラーカウンタ値だけが1加算された状態となっている。
【0103】
すなわち、リセット時間r以上の期間、当該イベントメッセージが、通信装置40−1から監視装置20に与えられない場合には、監視装置20では、該当する監視タイマ値、エラーカウンタ値及びエラー過多カウンタ値をリセットする。なお、リセット時間rは、監視時間tよりも長い時間を設定する必要がある。なお、図7ではT3の時点を間欠的障害検知としているが、固定的障害検知の場合でも同じ動作である。
【0104】
(A−2−3)アラーム出力部、及びアラーム検索入出力部の出力内容について
図8は、アラーム出力部32により出力される情報の例について示した説明図である。
【0105】
アラーム出力部32には、図8に示すように、イベントごとに、重要度、日時、ホスト名、メッセージ等の項目の情報がリスト表示されるようにしても良い。
【0106】
重要度は、監視装置20において、イベントメッセージの種類ごとに予め設定された情報(例えば、「重大」、「警戒」、「注意」等)が入力されるようにしても良い。
【0107】
日時は、当該イベントが発生した時刻、すなわち、非対象イベントメッセージに係るアラームについては、被監視装置から当該イベントに係るイベントメッセージを受信した時刻が設定され、対象イベントメッセージに係る固定的障害を示すアラームについては、障害状況監視処理部207により、固定的障害と判定され、固定的障害発生を示すイベントメッセージが生成された時刻が設定される。
【0108】
ホスト名は、当該イベントが発生した被監視装置の識別情報、すなわち、当該イベントに係るイベントメッセージの送信元の被監視装置の識別情報が設定される。
【0109】
メッセージは、監視装置20において、イベントメッセージの種類ごとに予め設定された情報が入力されるようにしても良いし、障害状況テーブル207aに登録されたメッセージの情報を設定するようにしても良い。
【0110】
アラーム検索入出力部31により出力される情報も、上述の図8に示すアラーム表示処理部206と同様の項目により構成するようにしても良い。すなわち、アラーム履歴DB204にも、上述の図8に示すアラーム表示処理部206と同様の項目の情報を蓄積し、アラーム検索表示処理部205が、検索条件(例えば、日時の範囲やホスト名等)に応じた情報だけを、抽出してアラーム検索入出力部31に与えるようにしても良い。
【0111】
(A−2−4)間欠アラーム検索入出力部の出力内容について
図9は、間欠アラーム検索入出力部34により出力される情報の例について示した説明図である。
【0112】
アラーム出力部32には、図9に示すように、イベントごとに、重要度、日時、ホスト名、メッセージ等の項目の情報がリスト表示されるようにしても良い。すなわち、間欠アラーム履歴DB208にも、上述の図9に示す間欠アラーム検索表示処理部210と同様の項目の情報を蓄積し、間欠アラーム検索表示処理部210が、検索条件(例えば、日時の範囲やホスト名等)に応じた情報だけを、抽出して間欠アラーム検索入出力部34に与えるようにしても良い。
【0113】
重要度は、上述の図8と同様に、監視装置20において、イベントメッセージの種類ごとに予め設定された情報(例えば、「重大」、「警戒」、「注意」等)が入力されるようにしても良いが、間欠的障害は固定的障害よりも重要度が低いもの(例えば、「注意」等)が設定されることが望ましい。
【0114】
日時は、当該イベントが発生した時刻、すなわち、障害状況監視処理部207により、間欠的障害と判定された時刻が設定される。
【0115】
ホスト名は、間欠的障害を検知した被監視装置の識別情報が設定される。
【0116】
(A−2−5)監視登録情報入出力部の入出力内容について
図10は、監視登録情報入出力部33によりディスプレイ表示される画面内容の例である。
【0117】
監視登録情報入出力部33では、図10に示すように、監視登録・モニタに係る情報の表示及び入力が行われるリストLと、リストLの情報の操作に係る登録ボタンB1、変更ボタンB2、削除ボタンB3等が備えられている。なお、監視登録情報入出力部33における画面の内容や操作方法については、図10の例に限定されないものである。
【0118】
保守端末30が、ディスプレイ、キーボード及びマウス等を有するパソコンを用いて構成されている場合、そのパソコンのディスプレイに図10のような画面を表示し、マウス及びキーボードを用いて、リストLの内容の編集や、各ボタンの押下をユーザに行わせることにより、監視登録情報入出力部33を実現するようにしても良い。
【0119】
そして、ユーザにより、リストLに、新しい行の情報(イベント情報及び障害判断基準情報)がキーボード操作等により追加され、マウス操作により登録ボタンB1を押下する操作が行われると、保守端末30(監視登録情報入出力部33)により、その新しい行の情報(イベント情報及び障害判断基準情報)を追加する通知が、監視登録モニタ処理部209を介して障害状況監視処理部207に与えられ、障害状況テーブル207aに反映される。
【0120】
また、ユーザにより、リストLのいずれかの行の情報がキーボード操作等により変更され、さらに、変更ボタンB2を押下する操作が行われると、保守端末30(監視登録情報入出力部33)により、その変更された行の情報が、監視登録モニタ処理部209を介して障害状況監視処理部207に与えられ、障害状況テーブル207aに反映される。
【0121】
また、ユーザにより、リストLのいずれかの行の情報が、マウス操作により選択され、さらに、削除ボタンB3を押下する操作が行われると、保守端末30(監視登録情報入出力部33)により、その選択された行の削除が、監視登録モニタ処理部209を介して障害状況監視処理部207に与えられ、障害状況テーブル207aに反映される。
【0122】
上述のように、監視登録情報入出力部33では、上述の図10のような画面を用いて、ユーザにイベント情報及び障害判断基準情報の情報を入力させ、その情報が、障害状況テーブル207aに反映される。
【0123】
(A−3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0124】
監視装置20では、被監視装置から間欠的障害の監視対象となるイベントメッセージを受けると、障害状況監視処理部207により、予め設定された基準で間欠的障害と固定的障害を切り分けることによって、速やかに保守をする必要性が高い固定的障害に対するイベントメッセージを容易に選択することができ、保守作業の作業量等の、ユーザの監視負担を軽減することができる。
【0125】
また、監視装置20の障害状況監視処理部207では、エラーカウンタ値及びエラー過多カウンタ値を用いて、間欠的障害又は固定的障害を検知することにより、図6に示すように、全てのイベントメッセージについて出力(間欠アラーム履歴DB208への蓄積等)する必要がないため、間欠的障害の監視対象となるイベントメッセージが多発した場合でも、ユーザが間欠的障害の確認を容易にすることができる。
【0126】
さらに、多発する可能性のある間欠的障害に係るイベントメッセージを、直接ユーザに出力するのではなく、それ以外のイベントに係るアラームを表示する構成(アラーム検索表示処理部205及びアラーム表示処理部206)とは独立した構成(間欠アラーム履歴DB208等)を有し、ユーザへの通知を抑制することにより、速やかに保守をする必要性が高いイベントメッセージとの選別の妨げを回避でき、個別に間欠的障害の状況分析も容易にできる。
【0127】
さらにまた、障害状況監視処理をモニタする処理(監視登録情報入出力部33等)を設けたので、間欠的障害、固定的障害の判断基準に対する効果の確認および判断基準のチューニングも保守者での実施が容易になる。
【0128】
(B)他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0129】
(B−1)上記の実施形態においては、アラーム履歴DB204、アラーム検索表示処理部205、アラーム検索入出力部31を設けて、アラーム履歴の蓄積及び検索出力をするようにしているが、これらの構成を省略するようにしても良い。
【0130】
(B−2)上記の実施形態においては、間欠アラーム履歴DB208、間欠アラーム検索表示処理部210、間欠アラーム検索入出力部34を設けて、ユーザが間欠的障害について履歴を検索できるようにしているが、これらの構成を省略し、アラーム表示処理部206及びアラーム出力部32と同様に単に間欠的障害のアラームをユーザに出力するようにしても良い。この際、例えば、アラーム出力部32がアラーム出力を行う際には、デスプレイ表示と共に警告音声と共に出力し、間欠的障害に係るアラーム出力を行う際には、ディスプレイ表示だけで警告音声は流さないようにする等、アラーム出力部32のアラーム出力と、間欠的障害のアラーム出力で、出力方法に差異を設けることにより、ユーザの監視負担を軽減するようにしても良い。
【0131】
(B−3)上記の実施形態において、監視装置20では、エラーカウンタ値及びエラー過多カウンタ値を用いて、固定的障害又は間欠的障害を検知しているが、対象イベントメッセージの分布の状況に応じて検知する方法であれば、その具体的な処理は限定されないものである。
【0132】
例えば、エラーカウンタ値だけを用いて、第1の閾値に達した場合に間欠的障害と判定し、第1の閾値よりも大きい第2の閾値に達した場合に固定的障害と判定すること等が挙げられる。
【符号の説明】
【0133】
10…監視システム、20…ネットワーク、201…イベントメッセージ受信処理部、202…障害検出処理部、203…イベントメッセージ処理部、204…アラーム履歴DB、205…アラーム検索表示処理部、206…アラーム表示処理部、207…障害状況監視処理部、207a…障害状況テーブル、208…間欠アラーム履歴DB、209…監視登録モニタ処理部、210…間欠アラーム検索表示処理部、30…保守端末、31…アラーム検索入出力部、32…アラーム出力部、33…監視登録情報入出力部、34…間欠アラーム検索入出力部、40、40−1〜40−3…通信装置、50、50−1〜50−3…通信端末、N1、N2…ネットワーク。

【特許請求の範囲】
【請求項1】
被監視装置を監視する監視システムにおいて、
上記被監視装置に係るイベントの発生を検知するイベント発生検知手段と、
上記イベント発生検知手段が検知したイベントを、所定の対象イベントであるか、対象イベント以外の非対象イベントであるかを分類するイベント分類手段と、
非対象イベントの発生を検知すると、その旨をユーザに通知し、対象イベントの発生を検知しても、その対象イベントの発生の通知を行わない通知手段と、
上記被監視装置に係る対象イベントが発生するタイミングの分布状況に応じて、上記被監視装置の、固定的障害又は間欠的障害の発生を検知する障害検知手段と
を備えることを特徴とする監視システム。
【請求項2】
上記通知手段は、上記障害判定手段により、固定的障害の発生を検知すると、その旨を上記ユーザに通知し、上記障害判定手段により間欠的障害の発生を検知しても、その旨の通知をしないことを特徴とする請求項1に記載の監視システム。
【請求項3】
上記通知手段は、上記障害判定手段により、固定的障害を検知した場合と間欠的障害の発生を検知した場合とで、異なる通知方法を用いて、その旨を上記ユーザへ通知することを特徴とする請求項1に記載の監視システム。
【請求項4】
初期状態で上記被監視装置に係る対象イベントが発生すると、所定の監視期間を計時するタイマであって、タイマ値が上記監視期間に達すると初期状態となる監視タイマと、
上記被監視装置に係る対象イベントが発生した回数をカウントし、上記監視タイマが、上記監視期間に達すると、カウンタ値を初期化する第1のカウンタと、
上記第1のカウンタのカウンタ値が、第1の閾値に達すると、カウンタ値をインクリメントする第2のカウンタと、第2の閾値をさらに有し、
上記障害検知手段は、上記第1のカウンタ及び上記第2のカウンタのカウンタ値に基づいて、上記被監視装置の、固定的障害又は間欠的障害の発生を検知する
ことを特徴とする請求項1〜3のいずれかに記載の監視システム。
【請求項5】
上記障害検知手段は、上記第1のカウンタのカウンタ値が、第1の閾値を超えた場合に、上記被監視装置で間欠的障害発生が発生したと検知し、上記第2のカウンタのカウンタ値が、第2の閾値を超えた場合に、上記被監視装置で固定的障害が発生したと検知することを特徴とする請求項4に記載の監視システム。
【請求項6】
上記監視期間よりも長いリセット期間以上の間、上記被監視装置に係る上記対象イベントが発生しない場合、上記第1のカウンタ、上記第2のカウンタ及び上記監視タイマを初期化するリセット手段を、さらに有することを特徴とする請求項5に記載の監視システム。
【請求項7】
被監視装置を監視する監視システムを構成するコンピュータを、
上記被監視装置に係るイベントの発生を検知するイベント発生検知手段と、
上記イベント発生検知手段が検知したイベントを、所定の対象イベントであるか、対象イベント以外の非対象イベントであるかを分類するイベント分類手段と、
非対象イベントの発生を検知すると、その旨をユーザに通知し、対象イベントの発生を検知しても、その対象イベントの発生の通知を行わない通知手段と、
上記被監視装置に係る対象イベントが発生するタイミングの分布状況に応じて、上記被監視装置の、固定的障害又は間欠的障害の発生を検知する障害検知手段と
して機能させることを特徴とする監視プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2011−66522(P2011−66522A)
【公開日】平成23年3月31日(2011.3.31)
【国際特許分類】
【出願番号】特願2009−213471(P2009−213471)
【出願日】平成21年9月15日(2009.9.15)
【出願人】(308033722)株式会社OKIネットワークス (165)
【Fターム(参考)】