説明

監視装置、監視システム、監視方法、及び監視プログラム

【課題】 監視対象に異常が発生し異常が瞬間的な異常であった場合に、監視装置が障害メッセージを通知することを抑止しつつ、その異常が瞬間的な異常ではなかった場合に、監視装置が速やかに障害メッセージを通知することができる監視装置を提供する。
【解決手段】 本発明の監視装置は、監視対象の異常を検出する異常検出部と、異常が検出されるまでの監視対象の監視結果値を基に、監視対象の異常が瞬間的な異常か否かを判断する瞬間的異常判断部と、監視対象の異常が瞬間的な異常ではなかった場合に、障害メッセージを通知する障害メッセージ通知部とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は監視装置、監視システム、監視方法、及び監視プログラムに関し、特に、監視対象の異常が瞬間的な異常か否かを判断する監視装置、監視システム、監視方法、及び監視プログラムに関する。
【背景技術】
【0002】
運用監視システムの重要な機能のひとつとして、監視装置が監視対象の異常を検知した際に管理者に障害メッセージを通知する機能がある。ここで、監視装置が検出した異常の内、監視装置がメッセージの通知を必要とする場合としない場合がある。例えば、アプリケーションが処理を行うことで発生するCPU(Central Processing Unit)への負荷が長時間に亘り高い場合は運用に影響を与える可能性があり、監視装置は管理者に通知する必要がある。しかし、瞬間的な高負荷の場合は運用へ与える影響はほとんどなく、監視装置が障害メッセージを通知することで、逆に管理者に余計な作業が発生する可能性がある。
【0003】
ここで、監視システムの一例が特許文献1に記載されている。特許文献1の監視装置は、例えば、CPUの高負荷を示すメッセージを受信すると初回はそれを提示せず、同じメッセージを7回受信するまでメッセージを提示せず抑止する。監視装置が、最初のメッセージを受信してから560秒が経過するまでに同じメッセージを8回受信すると、監視装置は、そのメッセージをオペレータに提示するとともに連続抑止機能を解除する。
【0004】
【特許文献1】特開2006−252460号公報(段落番号0030)
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述の特許文献1の監視装置では、瞬間的な高負荷ではなくオペレータに速やかにメッセージを提示できるときであっても、メッセージを提示しないという問題点があった。例えば、CPUの負荷が徐々に上昇し所定の閾値を超過した場合、CPUに瞬間的に高い負荷がかかっているわけではないので、監視装置がオペレータに速やかにメッセージを通知することが望ましい。しかしながらこのような場合でも、特許文献1の監視装置は最初のメッセージを受信してから560秒が経過するまでに同じメッセージを8回受信するまでメッセージをオペレータに通知できない。
【0006】
本発明の目的は、上記課題を解決する監視装置、監視システム、監視方法、及び監視プログラムを提供することにある。
【課題を解決するための手段】
【0007】
本発明の監視装置は、監視対象の異常を検出する異常検出部と、異常が検出されるまでの監視対象の監視結果値を基に、監視対象の異常が瞬間的な異常か否かを判断する瞬間的異常判断部と、監視対象の異常が瞬間的な異常ではなかった場合に、障害メッセージを通知する障害メッセージ通知部とを含む。
【0008】
本発明の監視システムは、監視対象の異常を検出する異常検出部と、異常が検出されるまでの監視対象の監視結果値を基に、監視対象の異常が瞬間的な異常か否かを判断する瞬間的異常判断部と、監視対象の異常が瞬間的な異常ではなかった場合に、障害メッセージを通知する障害メッセージ通知部とを含む監視装置と、監視装置が監視する監視対象とを含む。
【0009】
本発明の監視方法は、監視対象の異常を検出し、異常が検出されるまでの監視対象の監視結果値を基に、監視対象の異常が瞬間的な異常か否かを判断し、監視対象の異常が瞬間的な異常ではなかった場合に、障害メッセージを通知する。
【0010】
本発明のプログラムは、コンピュータに、監視対象の異常を検出する異常検出手段と、異常が検出されるまでの監視対象の監視結果値を基に、監視対象の異常が瞬間的な異常か否かを判断する瞬間的異常判断手段と、監視対象の異常が瞬間的な異常ではなかった場合に、障害メッセージを通知する障害メッセージ通知手段として機能させる。
【発明の効果】
【0011】
本発明は、監視対象に異常が発生しその異常が瞬間的な異常であった場合に、監視装置が障害メッセージを通知することを抑止しつつ、異常が瞬間的な異常ではなかった場合に、監視装置が速やかに障害メッセージを通知することができる、という効果を有する。
【発明を実施するための最良の形態】
【0012】
まず、本発明の概要について説明する。図1は、本発明の監視システム100の概要構成を示す図である。
【0013】
本発明の監視システム100は、監視装置010と、監視対象020とを含む。
【0014】
監視装置010は、異常検出部012と、瞬間的異常判断部014と、障害メッセージ通知部015とを含む。異常検出部012は、監視対象020の異常を検出する。瞬間的異常判断部014は、異常が検出されるまでの監視対象020の監視結果値を基に、監視対象020の異常が瞬間的な異常か否かを判断する。障害メッセージ通知部015は、監視対象020の異常が瞬間的な異常ではなかった場合に、障害メッセージを通知する。
【0015】
本発明の監視システム100は、以下の効果を有する。即ち、監視対象020に異常が発生しその異常が瞬間的な異常であった場合に、監視装置010が障害メッセージを通知することを抑止することができる。一方、異常が瞬間的な異常ではなかった場合に、監視装置010が速やかに障害メッセージを通知することができる。
【0016】
その理由は、本発明の監視装置010は、異常が検出されるまでの監視対象020の監視結果値を基に、監視対象020の瞬間的な異常を検出する瞬間的異常判断部014を含むためである。
【0017】
次に、本発明の実施の形態について図面を参照して詳細に説明する。図2は、本発明の実施の形態における監視システム100の構成を示す図である。
【0018】
本発明の実施の形態における監視システム100は、監視装置010と、監視対象020とを含む。
【0019】
監視装置010は、サーバなどの情報処理装置であり、プログラム制御で動作するCPU(Central Processing Unit)を含み、CPUがプログラム記憶媒体に記憶されたプログラムを実行することにより各種機能を実現する。監視装置010は、所定の監視間隔で監視対象020に監視結果値の出力を命令し、監視対象020から監視結果値を入力する。監視装置010は、実績テーブル書き込み部011と、異常検出部012と、実績テーブル読み出し部013と、瞬間的異常判断部014と、障害メッセージ通知部015と、記憶部016とを含む。
【0020】
実績テーブル書き込み部011は、監視時間、監視間隔、監視結果値を記憶部016に含まれる実績テーブルに書き込む。
【0021】
異常検出部012は、監視結果値が監視結果閾値を超過したか判断する。
【0022】
実績テーブル読み出し部013は、監視結果値が監視結果閾値を超過した場合、適用回数分の監視結果が存在するか判断する。適用回数とは、後述の瞬間的異常判断部014が利用する、今回の監視結果値より前の直近の監視結果値の数である。監視装置010の操作者が予め記憶部016に適用回数を格納する。そして、実績テーブル読み出し部013は、適用回数分の監視結果値を記憶部016の実績テーブルから読み出す。
【0023】
瞬間的異常判断部014は、監視結果値の増加度を算出する。又、瞬間的異常判断部014は、監視結果値の増加度が増加度閾値を超過したか否かを判断する。
【0024】
障害メッセージ通知部015は、適用回数分の監視結果値が存在しなかった場合、又は、監視結果値の増加度が増加度閾値を超過しなかった場合、障害メッセージを通知する。
【0025】
監視対象020は、例えば、サーバなどの監視対象装置である。監視対象020は、監視装置010からの監視結果値の出力命令を受けると、監視装置010に監視結果値を出力する。
【0026】
図3は、本発明の実施の形態における実績テーブルの例を示す図である。実績テーブルは、監視時間、監視間隔、監視結果値を含む。記憶部016が実績テーブルを含み、実績テーブル書き込み部011が監視間隔ごとに各値を実績テーブルに書込む。図3(a)と図3(b)の具体的な値の例の内容については、後述する。
【0027】
図4は、本発明の実施の形態における記憶部016に予め登録される値の例を示した図である。
【0028】
図4(a)は、監視間隔の値の例である。
【0029】
図4(b)は、適用回数の値の例である。実績テーブル読み出し部013は、記憶部016から監視結果値を読み出すが、監視結果値の内、この適用回数の値に示された数の直近の監視結果値を読み出す。
【0030】
図4(c)は、監視結果閾値と増加度閾値の例である。監視結果閾値は、異常検出部012が監視対象020の異常を検出するため、監視結果値との比較に用いられる閾値である。増加度閾値は、瞬間的異常判断部014が瞬間的異常を検出するために監視結果値の増加度との比較に用いる閾値である。
【0031】
図5は、本発明の実施の形態における監視装置010の動作を示すフローチャートである。監視装置010が運用を開始する前に、操作者が予め図4(a)(b)(c)に示す監視間隔、適用回数、監視結果閾値、増加度閾値を記憶部016に格納する。監視装置010は、運用開始と共に記憶部016に格納された監視間隔ごとに監視結果値を監視対象020から入力する。そして、監視装置010は、次に示すフローチャートに示した動作を開始する。
【0032】
まず、実績テーブル書き込み部011が、監視時間、監視間隔、監視結果値を実績テーブルに書き込む(S101)。
【0033】
次に、異常検出部012が、監視結果値が監視結果閾値を超過したか否かを判断する(S102)。即ち、異常検出部012は、図3に示す監視結果値と図4(c)に示す監視結果閾値とを比較し、監視結果値が監視結果閾値を超過したか否かを判断する。監視結果値が監視結果閾値を超過していない場合(S102,No)、本発明の実施の形態は、今回の監視タイミングにおける監視装置010の動作を終了する。
【0034】
監視結果値が監視結果閾値を超過していた場合(S102,Yes)、実績テーブル読み出し部013が、適用回数分の監視結果値が存在するか否かを判断する(S103)。
【0035】
適用回数分の監視結果値が存在した場合(S103,Yes)、実績テーブル読み出し部013が、適用回数分の監視結果値を読み出す(S104)。即ち、実績テーブル読み出し部013は、図4(b)に示す適用回数分(3回分)であり、図3に示す直近の監視結果値(例、100%を上限とするCPU使用率)を読み出す。例えば、図3(a)に示す例では、実績テーブル読み出し部013は、監視結果値(「50」「60」「70」)を読み出す。図3(b)に示す例では、実績テーブル読み出し部013は、監視結果値(「20」「20」「20」)を読み出す。
【0036】
次に、瞬間的異常判断部014が、監視結果値の増加度を算出する(S105)。即ち、瞬間的異常判断部014は、監視結果値の内、適用回数分の直近の監視結果値それぞれと今回の監視結果値との差分を算出する。
【0037】
図3(a)に示す例では、瞬間的異常判断部014は、適用回数分(3回分)の直近の監視結果値それぞれ(「50」「60」「70」)と今回の監視結果値「85」との差分(「35」「25」「15」)を算出する。
【0038】
図3(b)に示す例では、瞬間的異常判断部014は、適用回数分(3回分)の直近の監視結果値それぞれ(「20」「20」「20」)と今回の監視結果値「85」との差分(「65」「65」「65」)を算出する。
【0039】
次に、瞬間的異常判断部014が、監視結果値の増加度が増加度閾値を超過したか否かを判断する(S106)。即ち、瞬間的異常判断部014は、適用回数分の直近の監視結果値それぞれと今回の監視結果値との差分の内、いずれか一つでも図4(c)に示す監視結果値の増加度に対する閾値(増加度閾値)を超過したか判断する。
【0040】
図3(a)に示す例では、S105で算出した差分(増加度)は、「35」「25」「15」であるので、いずれも図4(c)に示す増加度閾値「60」よりも小さい。そのため、監視結果値の増加度が増加度閾値を超過していない。図3(a)に示す例では、S105で算出した差分(増加度)は、「65」「65」「65」であるので、いずれも図4(c)に示す増加度閾値(「60」)よりも大きい。そのため、監視結果値の増加度が増加度閾値を超過している。このように、瞬間的異常判断部014は、実績テーブル(異常が検出されるまでの監視対象020の監視結果値)を基に、監視結果値の増加度が増加度閾値を超過したか(瞬間的な異常であるか)判断する。
【0041】
監視結果値の増加度が増加度閾値を超過した場合(S106,Yes)、本発明の実施の形態は、今回の監視タイミングにおける監視装置010の動作を終了する。
【0042】
適用回数分の監視結果値が存在しなかった場合(S103,No)、又は、監視結果値の増加度が増加度閾値を超過していなかった場合(S106,No)、監視装置010は、障害メッセージを通知する(S107)。例えば、監視装置010は、障害が発生したことを監視装置010のディスプレイ(図示せず)に表示する。
【0043】
本発明の実施の形態は、監視対象020に異常が発生し(監視結果値が監視結果閾値を超過し)たけれども、その異常が瞬間的な異常であった場合に、監視装置010が障害メッセージを通知することを抑止することができる。一方、異常が瞬間的な異常ではなかった場合に、監視装置010が速やかに障害メッセージを通知することができる。
【0044】
その理由は、監視装置010が、異常が検出されるまでの監視対象020の監視結果値を基に、監視対象020の瞬間的な異常を検出する瞬間的異常判断部014を含むためである。
【0045】
具体的には、瞬間的異常判断部014は、監視結果値の増加度と増加度閾値とを比較し瞬間的な異常であるか否かを判断し、瞬間的な異常である場合、障害メッセージの通知を抑制する。このとき、瞬間的異常判断部014は、異常が検出されるまでの監視対象020の監視結果値を基に、瞬間的な異常であるか判断する。即ち、瞬間的異常判断部014は、実績テーブルに既に格納されている監視結果値を用いて判断している。
【0046】
特許文献1(特開2006−252460号公報)に記載された監視装置は、CPUの高負荷の増加度ではなくCPUの高負荷を示すメッセージを8回受信するか否かを基に判断している。又、特許文献1に記載された監視装置は、初回のCPUの高負荷を示すメッセージ受信後に受信するメッセージを用いて判断しているため、速やかに瞬間的な異常であるか否かを判断できない。
【0047】
次に、本発明の実施の形態の変形例を示す。
【0048】
図5に示したS106の処理では、瞬間的異常判断部014は、適用回数分の直近の監視結果値それぞれと今回の監視結果値との差分(増加度)の内、いずれか一つでも図4(c)に示す増加度閾値を超過したか判断した。これに代えて、変形例は、瞬間的異常判断部014が、特定の数の、或いは、全ての差分(増加度)が増加度閾値を超過したか判断する、としてもよい。
【0049】
又、変形例は、図5に示したS105,106の処理に代えて、図6に示すS205,206の処理を採用してもよい。即ち、変形例は、瞬間的異常判断部014が、監視結果値の平均を算出する(S205)、即ち、適用回数分の監視結果値から監視結果値の平均を算出する。そして、変形例は、瞬間的異常判断部014が、監視結果値の平均が平均閾値を超過したか否かを判断(S206)してもよい。この場合、操作者は、図4(c)に示した増加度閾値に代えて平均閾値を予め記憶部016に格納する。そして、変形例では、監視結果値の平均が平均閾値を超過していなかった場合ではなく、監視結果値の平均が平均閾値を超過していた場合(S206,Yes)に、障害メッセージ通知部015が障害メッセージを通知する(S207)。
【0050】
又、変形例は、図5に示したS105,106の処理に代えて、図7に示すS305,306の処理を採用してもよい。即ち、変形例は、瞬間的異常判断部014が、適用回数分の監視結果値から監視結果値の合計を算出する(S305)、即ち、適用回数分の監視結果値から監視結果値の合計を算出する。そして、変形例は、瞬間的異常判断部014が、監視結果値の合計が合計閾値を超過したか否かを判断(S306)してもよい。この場合、操作者は、図4(c)に示した増加度閾値に代えて合計閾値を予め記憶部016に格納する。そして、変形例では、監視結果値の合計が合計閾値を超過していなかった場合ではなく、監視結果値の平均が平均閾値を超過していた場合(S306,Yes)に、障害メッセージ通知部015が障害メッセージを通知する(S307)。
【0051】
図6、図7に示した変形例における瞬間的異常判断部014も、異常が検出されるまでの監視対象020の監視結果値を基に、監視対象020異常が瞬間的な異常であるか否かを判断できる。
【図面の簡単な説明】
【0052】
【図1】本発明の監視システム100の概要構成を示す図である。
【図2】本発明の実施の形態における監視システム100の構成を示す図である。
【図3】本発明の実施の形態における実績テーブルの例を示す図である。
【図4】本発明の実施の形態における記憶部016に予め登録される値の例を示した図である。
【図5】本発明の実施の形態における監視装置010の動作を示すフローチャートである。
【図6】本発明の実施の形態における監視装置010の動作の変形例を示すフローチャートである。
【図7】本発明の実施の形態における監視装置010の動作の変形例を示すフローチャートである。
【符号の説明】
【0053】
010 監視装置
011 実績テーブル書き込み部
012 異常検出部
013 実績テーブル読み出し部
014 瞬間的異常判断部
015 障害メッセージ通知部
016 記憶部
020 監視対象
100 監視システム

【特許請求の範囲】
【請求項1】
監視対象の異常を検出する異常検出部と、
異常が検出されるまでの前記監視対象の監視結果値を基に、前記監視対象の異常が瞬間的な異常か否かを判断する瞬間的異常判断部と、
前記監視対象の異常が瞬間的な異常ではなかった場合に、障害メッセージを通知する障害メッセージ通知部と
を含む監視装置。
【請求項2】
前記異常検出部は、前記監視対象の監視結果値が監視結果値に対する閾値(監視結果閾値)を超過したことを検出し、
前記瞬間的異常判断部は、前記監視結果値が瞬間的に監視結果値に対する閾値を超過したか否かを判断し、
前記障害メッセージ通知部は、前記監視結果値が瞬間的に監視結果値に対する閾値を超過していなかった場合に障害メッセージを通知する
請求項1に記載の監視装置。
【請求項3】
前記瞬間的異常判断部は、監視結果値の増加度が、監視結果値の増加度に対する閾値(増加度閾値)を超過していなかった場合に、障害メッセージを通知する
請求項2に記載の監視装置。
【請求項4】
前記瞬間的異常判断部は、監視結果値の平均が、監視結果値の平均に対する閾値(平均閾値)を超過した場合に、障害メッセージを通知する
請求項2に記載の監視装置。
【請求項5】
前記瞬間的異常判断部は、監視結果値の合計が、監視結果値の合計に対する閾値(合計閾値)を超過した場合に、障害メッセージを通知する
請求項2に記載の監視装置。
【請求項6】
監視対象の異常を検出する異常検出部と、
異常が検出されるまでの前記監視対象の監視結果値を基に、前記監視対象の異常が瞬間的な異常か否かを判断する瞬間的異常判断部と、
前記監視対象の異常が瞬間的な異常ではなかった場合に、障害メッセージを通知する障害メッセージ通知部と
を含む監視装置と、
監視装置が監視する前記監視対象と
を含む監視システム。
【請求項7】
監視対象の異常を検出し、
異常が検出されるまでの前記監視対象の監視結果値を基に、前記監視対象の異常が瞬間的な異常か否かを判断し、
前記監視対象の異常が瞬間的な異常ではなかった場合に、障害メッセージを通知する
監視方法。
【請求項8】
前記監視対象の監視結果値が監視結果値に対する閾値(監視結果閾値)を超過したことを検出し、
前記監視結果値が瞬間的に監視結果値に対する閾値を超過したか否かを判断し、
前記監視結果値が瞬間的に監視結果値に対する閾値を超過していなかった場合に障害メッセージを通知する
請求項7に記載の監視方法。
【請求項9】
監視結果値の増加度が、監視結果値の増加度に対する閾値(増加度閾値)を超過していなかった場合に、障害メッセージを通知する
請求項8に記載の監視方法。
【請求項10】
監視結果値の平均が、監視結果値の平均に対する閾値(平均閾値)を超過した場合に、障害メッセージを通知する
請求項8に記載の監視方法。
【請求項11】
監視結果値の合計が、監視結果値の合計に対する閾値(合計閾値)を超過した場合に、障害メッセージを通知する
請求項8に記載の監視方法。
【請求項12】
コンピュータに、
監視対象の異常を検出する異常検出手段と、
異常が検出されるまでの前記監視対象の監視結果値を基に、前記監視対象の異常が瞬間的な異常か否かを判断する瞬間的異常判断手段と、
前記監視対象の異常が瞬間的な異常ではなかった場合に、障害メッセージを通知する障害メッセージ通知手段
として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2009−258955(P2009−258955A)
【公開日】平成21年11月5日(2009.11.5)
【国際特許分類】
【出願番号】特願2008−106589(P2008−106589)
【出願日】平成20年4月16日(2008.4.16)
【出願人】(000213301)中部日本電気ソフトウェア株式会社 (56)
【Fターム(参考)】