説明

運用管理装置、運用管理方法、及び運用管理プログラム

【課題】管理対象ノードの性能情報を収集することなく、異常を検知する。
【解決手段】運用管理装置21のメッセージ取得部201は、管理対象ノードが出力したメッセージを取得してメッセージDB202に記録する。学習情報生成部204が、指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位時間毎のメッセージの数の最大値、又は最小値を算出して学習結果情報DB205に記録する。分析情報生成部206が、対象ノード毎、メッセージの識別情報毎、単位時間毎のメッセージ出力数を算出して分析結果情報DB207に記録する。分析判定部208は、学習結果情報DB205に記録された最大最小値情報と、分析結果情報DB207から読み出した分析データ情報とに基づいて、分析対象の各管理対象ノードが正常であるか否かを判定し、判定結果を分析結果情報DB207に記録し、出力部209に出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、運用管理装置、運用管理方法、及び運用管理プログラムに関する。
【背景技術】
【0002】
情報システムを安定的かつ効率的に運用するために、情報システムを構成する管理対象ノード群を一元的に監視、制御する運用管理システムが知られている。運用管理システムは、管理対象ノードから、「ハードウェア故障発生」や「ソフトウェアの処理エラー発生」といったハードウェアやソフトウェアに関する様々な情報をオンラインで取得、蓄積すると共に、運用管理端末に表示する。そして、管理者は、運用管理端末に表示されたメッセージの内容を元に、管理対象ノード群を監視、制御する。
しかし、情報システムが大規模化、複雑化するにつれて、管理者には知識面での負担が飛躍的に増大し、その結果、判断ミスによるサービス停止の長時間化といった事態も発生している。
これに対し、特許文献1記載の技術がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−199533号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の技術では、運用管理システムは、CPU使用率やメモリ残量といった管理対象ノードの性能情報を用いて運用管理を行う。そのため、運用者が管理対象ノードに対して、性能情報を収集、送信するための設定を行わなければ、性能情報を取得できないという問題があった。また、性能情報を収集するための処理負荷や、管理対象ノードから運用管理システムへの性能情報を送信するためのネットワーク負荷を負わないと、管理対象ノードの異常を検知できないという問題があった。
【0005】
本発明は上記の点に鑑みてなされたものであり、簡易に管理対象ノードの異常を検知することができる運用管理装置、運用管理方法、及び運用管理プログラムを提供する。
【課題を解決するための手段】
【0006】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、管理対象ノードが出力したメッセージを取得するメッセージ取得部と、前記メッセージ取得部が取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定部と、を備えることを特徴とする運用管理装置である。
【0007】
(2)また、本発明の一態様は、上記の運用管理装置において、前記メッセージの数を算出する学習情報生成部を備え、前記分析判定部は、前記学習情報生成部が算出した前記メッセージの数の履歴と、現在のメッセージの数とに基づいて前記管理対象ノードの状態を検知することを特徴とする。
【0008】
(3)また、本発明の一態様は、上記の運用管理装置において、前記学習情報生成部は、指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位時間毎のメッセージの数の最大値、又は最小値を算出し、前記分析判定部は、前記現在のメッセージの数が、前記最大値と前記最小値の間の値であるか否かに基づいて前記管理対象ノードの状態を検知することを特徴とする。
【0009】
(4)また、本発明の一態様は、上記の運用管理装置において、前記分析判定部は、前記現在のメッセージの出力数が前記最大値と前記最小値の間の値でないと判定した場合に、前記管理対象ノードの状態を診断する診断プログラムを起動し、診断した結果を表示することを特徴とする。
【0010】
(5)また、本発明の一態様は、上記の運用管理装置において、前記分析判定部は、前記診断プログラムが診断した状態に基づいて、前記最大値又は最小値を補正し、補正後の最大値又は補正後の最小値に基づいて前記管理対象ノードの状態を検知することを特徴とする。
【0011】
(6)また、本発明の一態様は、メッセージ取得部が、管理対象ノードが出力したメッセージを取得するメッセージ取得過程と、分析判定部が、前記メッセージ取得部が取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定過程と、を有する運用管理方法である。
【0012】
(7)また、本発明の一態様は、運用管理装置のコンピュータに管理対象ノードが出力した情報を取得するメッセージ取得手順、前記メッセージ取得手順で取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定手順を実行させるための運用管理プログラムである。
【発明の効果】
【0013】
本発明によれば、簡易に管理対象ノードの異常を検知することができる。
【図面の簡単な説明】
【0014】
【図1】本発明の第1の実施形態に係る運用管理システムの概念図である。
【図2】本実施形態に係る運用管理装置の一例を示す概略ブロック図である。
【図3】本実施形態に係る取得メッセージ情報テーブルの一例を説明する概略図である。
【図4】本実施形態に係る学習結果情報テーブルの一例を説明する概略図である。
【図5】本実施形態に係る最大最小値テーブルの一例を説明する概略図である。
【図6】本実施形態に係る分析情報テーブルの一例を示す概略図である。
【図7】本実施形態に係る学習情報生成部の一例を示したブロック図である。
【図8】本実施形態に係る分析情報生成部の一例を示したブロック図である。
【図9】本実施形態に係る分析判定部の一例を示したブロック図である。
【図10】本実施形態に係る運用管理システムの動作の一例を示すフローチャートである。
【図11】本実施形態に係る学習処理の動作の一例を示すフローチャートである。
【図12】本実施形態に係る集計処理の動作の一例を示すフローチャートである。
【図13】本実施形態に係る分析処理の動作の一例を示すフローチャートである。
【図14】本実施形態に係る学習結果を表示させるための条件入力画面の一例を示す説明図である。
【図15】本実施形態に係る学習結果表示の一例を示す説明図である。
【図16】本実施形態に係る分析結果を表示させるための条件入力画面の一例を示す説明図である。
【図17】本実施形態に係る学習結果表示の一例を示す説明図である。
【図18】本発明の第2の実施形態に係る運用管理装置の一例を示す概略ブロック図である。
【図19】本実施形態に係る学習情報生成部の一例を示したブロック図である。
【図20】本実施形態に係る分析情報生成部の一例を示したブロック図である。
【図21】本実施形態に係る分析判定部の一例を示したブロック図である。
【図22】本実施形態に係る取得メッセージ情報テーブルの一例を説明する概略図である。
【図23】本実施形態に係る運用管理システムの処理の一例を示すフローチャートである。
【図24】本実施形態に係る処理の一例を示すフローチャートである。
【図25】本実施形態に係る処理の一例を示すフローチャートである。
【図26】本実施形態に係る処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の第1の実施形態について詳しく説明する。
図1は、本発明の第1の実施形態に係る管理対象システム10と運用管理システム20の関係を示す概念図である。
管理対象システム10は、管理対象ネットワーク100と、管理対象ノード101〜103を具備する。
管理対象ネットワーク100は、運用管理装置21が運用管理を行う対象のネットワークである。管理対象ネットワーク100は、LAN(Local Area Network)やWAN(Wide Area Network)などから構成される。
管理対象ノード101〜103は、ネットワークインターフェイスを介して管理対象ネットワーク100に接続された電子機器である。管理対象ノード101〜103は、例えば、コンピュータ、ネットワークインターフェイスを備えた家電製品、ハブ、ルータ、スイッチなどである。
【0016】
運用管理システム20は、運用管理装置21及び運用管理端末22を具備する。
運用管理装置21は、管理対象ネットワーク100に接続される。運用管理装置21は、管理対象ネットワーク100を介して各管理対象ノード101〜103からのメッセージを取得する。運用管理装置21は、取得したメッセージの数に基づいて管理対象ノードの状態を検知する。
【0017】
運用管理装置21による管理対象ノードの異常の検出の処理の概略について説明する。符号Aを付したものは、運用管理端末22の画面イメージである。この画面イメージで、横軸は時刻、縦軸はメッセージ数を表す。符号a及び符号bを付した線は、それぞれ、測定時間(学習集計単位時間と呼ぶ)毎のメッセージ出力数の履歴について、学習集計単位時間毎の最小値及び最大値を表す。分析対象とする測定時間(分析集計単位時間と呼ぶ)におけるメッセージ出力数が、符号cを付した線のように、メッセージ出力数の最小値及び最大値で囲まれる範囲を逸脱した場合に、その管理対象ノードが異常であると検知する。これにより、運用管理装置21は、管理対象システムに新たな設定変更や情報収集負荷を加えることなく、簡易に管理対象ノードの異常を検知できる。
【0018】
運用管理端末22は、利用者が、運用管理装置21との間で情報の入出力を行う端末である。運用管理端末22は、符号Aを付した画面等を表示し、利用者に情報提供を行うと共に、利用者から運用管理装置21に対する命令を入力される。
【0019】
図2は、本発明の運用管理装置21の構成を示す概略ブロック図である。図示する例では、運用管理装置21は、メッセージ取得部201、メッセージDB(メッセージ記憶部)202、入力部203、学習情報生成部204、学習結果情報DB(学習結果情報記憶部)205、分析情報生成部206、分析結果情報DB(分析結果情報記憶部)207、分析判定部208、及び出力部209を含んで構成される。
【0020】
メッセージ取得部201は、管理対象ネットワーク100に接続されている。メッセージ取得部201は、送信されたメッセージを取得する。ここで、メッセージとは、例えば、コールデータ転送完了、認証エラー発生、パッケージリセット発生などの事象が発生したときに、管理対象ノード101〜103から管理対象ネットワーク100に出力される情報である。メッセージ取得部201は、管理対象ノード101〜103の各々から取得したメッセージに基づいて、取得メッセージ情報を生成する。
ここで、取得メッセージ情報とは、メッセージID、タイムスタンプ、ノード名、メッセージ本文などを含む情報である(図3参照)。メッセージIDとは、メッセージの識別情報である。タイムスタンプとは、管理対象ノード101〜103がメッセージを生成した時刻(年月日、時、分、秒)である。ノード名とは、メッセージを送信した管理対象ノードを一意に示す識別番号である。メッセージ本文には、メッセージに関する情報が入力される。メッセージ取得部201は、生成した取得メッセージ情報をメッセージDB202に記録する。
メッセージDB202が記録する取得メッセージ情報の詳細については後述する。
【0021】
入力部203は、運用管理端末22を介して利用者から情報を入力される。例えば、入力部203は、利用者から学習条件情報を入力される。ここで、学習条件情報とは、メッセージ学習を行う期間であるメッセージ学習対象期間、メッセージの総数を集計する期間の単位である学習集計単位時間(メッセージ学習対象期間及び学習集計単位時間を合わせて学習条件と呼ぶ)を示す情報である。入力部203は、入力された学習条件情報を学習情報生成部204に出力する。
また、例えば、入力部203は、利用者から分析条件情報を入力される。ここで、分析条件情報とは、メッセージ分析を行う期間であるメッセージ分析対象期間、メッセージ数を集計する時間の単位である分析集計単位時間(メッセージ分析対象期間及び分析集計単位時間を合わせて分析条件と呼ぶ)を示す情報である。入力部203は、入力された分析条件情報を分析情報生成部206に出力する。
【0022】
学習情報生成部204は、メッセージDB202に記録された取得メッセージ情報の中から、入力部203から入力された学習条件情報が示す学習条件に合致した取得メッセージ情報を抽出する。学習情報生成部204は、取得メッセージ情報に基づいて、ノード名、メッセージID、学習集計単位時間毎のメッセージ出力数を示す学習データ情報を生成する。学習情報生成部204は、生成した学習データ情報を学習結果情報DB205に記録する。
学習情報生成部204は、生成した学習データ情報に基づいて、ノード名、メッセージID、学習集計単位時間毎のメッセージ数の最大値、最小値を算出し、算出した最大値、最小値を示す最大最小値情報を生成する。学習情報生成部204は、生成した最大最小値情報を学習結果情報DB205に記録する。ここで、学習データ情報を生成する処理及び最大最小値情報を生成する処理を合わせて学習処理と呼ぶ。学習情報生成部204は、学習結果情報DB205から読み出した学習データ情報及び最大最小値情報を出力部209に出力する。なお、学習情報生成部204及び学習結果情報DB205の詳細については後述する。
【0023】
分析情報生成部206は、メッセージDB202に記録された取得メッセージ情報の中から、入力部203から入力された分析条件情報が示す分析条件に合致した取得メッセージ情報を抽出する。分析情報生成部206は、抽出した取得メッセージ情報に基づいて、ノード名、メッセージID、分析集計単位時間毎のメッセージ出力数を算出し、算出したメッセージ数を示す分析データ情報を生成する。分析情報生成部206は、生成した分析データ情報を分析結果情報DB207に記録する。なお、分析情報生成部206の詳細については後述する。
分析結果情報DB207で記憶する情報の詳細については後述する。
【0024】
分析判定部208は、学習結果情報DB205に記録された最大最小値情報と、分析結果情報DB207から読み出した分析データ情報とに基づいて、分析対象の各管理対象ノードが正常であるか否かを判定する。分析判定部207は、判定結果を分析結果情報DB207に記録し、出力部209に出力する。なお、分析判定部208の詳細については後述する。
出力部209は、学習情報生成部204及び分析判定部208から入力された情報を運用管理端末22に出力する。
【0025】
図3は、メッセージDB202に記録される取得メッセージ情報テーブルの一例を説明する概略図である。
図示するようにメッセージ情報テーブルは、タイムスタンプ、メッセージID、ノード名、及びメッセージ本文の各項目の列を有している。メッセージ情報テーブルは、タイムスタンプ毎にメッセージID、ノード名、メッセージ本文が格納される行と列からなる2次元の表形式のデータである。
【0026】
例えば、符号3aを付したメッセージ情報は、タイムスタンプが、「2007年7月15日7時51分11秒」に、メッセージIDが「.10.10.10.10」であるメッセージを、IPアドレス「192.168.11.30」を持つ管理対象ノードから送信され、そのメッセージ本文が、「コールデータ転送終了」であることを示す。
【0027】
図4は、学習結果情報テーブルの一例を説明する概略図である。図示するように学習結果情報テーブルは、ノード名、メッセージID、学習集計単位時間、及び集計値の各項目の列を有している。学習結果情報テーブルは、ノード名、メッセージID、学習集計単位時間毎に集計値が格納される行と列からなる2次元の表形式のデータである。
例えば、符号4aを付した学習データ情報は、ノード名は「192.168.11.30」、メッセージIDは「.10.10.10.10」、学習集計単位時間は「2007年7月15日7時〜7時59分59秒」、集計値は「312」であることを示している。
【0028】
図5は、最大最小値テーブルの一例を説明する概略図である。図示するように最大最小値テーブルは、符号51〜符号5Nを付したN個の管理対象ノード別データテーブルから構成される。ここで、Nは運用管理対象ネットワーク10に接続された管理対象ノードの数である。符号51を付した管理対象ノード別データテーブルは、符号511〜符号51Mを付したメッセージID別データテーブルから構成される。ここで、MはメッセージIDの種類の数である。符号511を付したメッセージ別データテーブルは、学習集計単位時間、最大値、及び最小値の各項目の列を有している。メッセージ別データテーブルは、学習集計単位時間毎に最大値、最小値が格納される行と列からなる2次元の表形式のデータである。
例えば、符号511aを付した最大最小値情報は、ノード名は「192.168.11.30」、メッセージIDは「.10.10.10.10」、学習集計単位時間は「2007年7月15日7時〜7時59分59秒」、最大値は「232」、最小値は「181」であることを示している。
【0029】
図6は、分析情報テーブルの一例を示す概略図である。図示するように分析情報テーブルは、ノード名、メッセージID、分析集計単位時間、集計値、及び分析結果情報の各項目の列を有している。分析情報テーブルは、ノード名、メッセージID、分析集計単位時間毎に集計値、分析結果情報が格納される行と列からなる2次元の表形式のデータである。
【0030】
例えば、符号6aを付した分析情報は、ノード名は「192.168.1.30」、メッセージIDは、「.10.10.10.10」、分析集計単位時間は「2007年7月15日7時〜7時59分59秒」、分析結果情報は「正常」であることを示している。符号6aを付した分析情報は、ノード名は「192.168.1.30」、メッセージIDは、「.10.10.10.10」、分析集計単位時間は「2007年7月15日8時〜8時59分59秒」、分析結果情報は「異常」であることを示している。
【0031】
図7は、学習情報生成部204の構成を示す概略ブロック図である。
学習情報生成部204は、学習メッセージ情報抽出部2040、学習出力数集計部2041、及び最大最小値抽出部2042を含んで構成される。
学習メッセージ情報抽出部2040は、メッセージDB202に記録された取得メッセージ情報に含まれるタイムスタンプが、入力部203から入力された学習条件情報が示すメッセージ学習対象期間に含まれるか否かを判定する。分析メッセージ情報抽出部2060は、メッセージ学習対象期間に含まれると判定した取得メッセージ情報を順次学習出力数集計部2041に出力する。学習メッセージ情報抽出部2040は、学習出力数集計部2041から後述する学習集計終了情報が入力されたときに、最大最小値抽出情報を最大最小値抽出部2042に出力する。ここで、最大最小値抽出情報とは、最小値抽出部2042に、メッセージ情報数の最大値、最小値を抽出させる情報である。
【0032】
学習出力数集計部2041は、取得メッセージ情報の数を、ノード名、メッセージID、及び学習集計単位時間毎に集計する(集計処理と呼ぶ)。学習出力数集計部2041は、集計された値を示す学習集計値情報と、ノード名と、メッセージIDと、学習集計単位時間とを関連付けた情報(学習データ情報)を学習結果情報DB205に記録する。学習出力数集計部2041は、集計を終了したときに学習集計終了情報を学習メッセージ情報抽出部2040に出力する。
【0033】
最大最小値抽出部2042は、学習メッセージ情報抽出部2040から最大最小値抽出情報を入力されると、学習結果情報DB205に記録された学習データ情報に基づいて、ノード名、メッセージID、及び学習集計単位時間毎にメッセージ集計数の最大値及び最小値を抽出する。最大最小値抽出部2042は、最大最小値情報を学習結果情報DB205に記録する。
【0034】
図8は、分析情報生成部206の構成を示す概略ブロック図である。
分析情報生成部206は、分析メッセージ情報抽出部2060及び分析出力数集計部2061を含んで構成される。
分析メッセージ情報抽出部2060は、メッセージDB202(図2)に記録された取得メッセージ情報に含まれるタイムスタンプが、入力部203から入力された分析条件情報が示すメッセージ分析対象期間に含まれるか否かを判定する。分析メッセージ情報抽出部2060は、メッセージ分析対象期間に含まれると判定した取得メッセージ情報を順次分析出力数集計部2061に出力する。
分析メッセージ情報抽出部2060は、後述する分析集計終了情報が入力されたときに、分析を開始することを示す分析開始情報を分析判定部208に出力する。
【0035】
分析出力数集計部2061は、取得メッセージ情報の数を、ノード名、メッセージID、及び分析集計単位時間毎に集計する(集計処理と呼ぶ)。分析出力数集計部2061は、集計された値を示す分析集計値情報と、ノード名と、メッセージIDと、分析集計単位時間とを関連付けた情報(分析データ情報)を分析結果情報DB207(図2)に記録する。分析出力数集計部2061は、集計を終了したときに分析集計終了情報を分析メッセージ情報抽出部2060に出力する。ここで、分析集計終了情報とは、分析出力数集計部2061が出力数の集計を終了したことを分析メッセージ情報抽出部2060に示す情報である。
【0036】
図9は、分析判定部208の構成を示す概略ブロック図である。
分析判定部208は、学習分析比較部2080を含んで構成される。分析判定部208は、学習結果情報DB205から読み出した最大最小値情報と、分析結果情報DBから読み出した分析データ情報に基づいて、分析集計値が、最大最小値情報が示す最大値、最小値の間に含まれるか否かを判定する。
学習分析比較部2080は、学習結果情報DB205から読み出した最大最小値情報と、分析結果情報DB207から読み出した分析データ情報と、をノード名、メッセージID、及び分析単位時間毎に比較する。
具体的には、学習分析比較部2080は、分析集計値情報が示す分析集計値が、最大最小値情報が示す最大値と最小値の間に含まれるか否かを判定する。分析集計値が最大最小値情報が示す最大値と最小値の間に含まれないと判定した場合は、学習分析比較部2080は、分析集計値が最大値と最小値の間に含まれないことを示す判定不合格情報を生成する。最大最小値情報が示す最大値と最小値の間に含まれると判定した場合は、学習分析比較部2080は、分析集計値が最大値と最小値の間に含まれることを示す判定合格情報を生成する。学習分析比較部2080は、分析結果情報を分析結果情報DB207に記録する。ここで、分析結果情報には、ノード名と、メッセージIDと、分析集計単位時間と、判定不合格情報又は判定合格情報が含まれる。
【0037】
図10は、本実施形態に係る運用管理システム20の動作の一例を示すフローチャートである。
(ステップS101)メッセージ取得部201は、管理対象ノード101〜103から送信されたメッセージを取得する。メッセージ取得部201は、取得したメッセージに基づいて取得メッセージ情報を生成し、メッセージDB202に記録する。その後ステップS102に進む。
(ステップS102)入力部203は、利用者から学習条件情報を入力されたか否かを判定する。学習条件情報を入力されたと判定された場合(Yes)は、ステップS103に進む。学習条件情報を入力されたと判定されなかった場合(No)は、ステップS104に進む。
【0038】
(ステップS103)学習情報生成部204は、学習処理を行う。ステップS103における学習処理の詳細については後述する。
(ステップS104)入力部203は、利用者から分析条件情報を入力されたか否かを判定する。分析条件情報を入力されたと判定された場合(Yes)は、ステップS105に進む。分析条件情報を入力されたと判定されなかった場合(No)は、ステップS101に進む。
【0039】
(ステップS105)分析情報生成部206は、分析処理を行う。ステップS105における分析処理の詳細については後述する。その後ステップS101に進む。
【0040】
図11は、本実施形態に係る学習処理の動作の一例を示すフローチャートである。図11は図10におけるステップS103の学習処理を示すフローチャートである。
(ステップS201)学習情報生成部204は、ステップS102で入力されたと判定した学習条件情報及び取得メッセージ情報に基づいて、メッセージ学習対象期間内の学習ノード数Ln、学習メッセージID数Lm、学習単位集計時間数Lt、及び学習日数Ldを算出する。ここで、学習ノード数Lnは、メッセージ学習対象期間内にメッセージを発信した管理対象ノードの数である。学習メッセージID数Lmは、メッセージ学習対象期間内に受信したメッセージIDの種類の数である。学習単位集計時間数Ltは、一日あたりの学習集計単位時間の数である。学習日数Ldは、メッセージ学習対象期間内の日数である。その後ステップS202に進む。
【0041】
(ステップS202)学習情報生成部204は、学習ノード数カウンタLnc、学習メッセージID数カウンタLmc、学習単位集計時間数カウンタLtc、及び学習日数カウンタLdcに「0」を代入する。その後ステップS203に進む。
(ステップS203)学習情報生成部204は、メッセージ学習期間内に未学習の管理対象ノードが残っているか否かを判定する。つまり、Lnc<Lnであるか否かを判定する。Lnc<Lnであると判定された場合(Yes)は、ステップS204に進む。Lnc≧Lnであると判定された場合(No)は、ステップS213に進む。
(ステップS204)学習情報生成部204は、ステップS203で未学習と判定された管理対象ノード(対象ノード)について未学習のメッセージIDが残っているか否かを判定する。つまり、Lmc<Lmであるか否かを判定する。Lmc<Lmであると判定された場合(Yes)は、ステップS205に進む。Lnc≧Lnであると判定された場合(No)は、ステップS206に進む。
【0042】
(ステップS205)学習情報生成部204は、ステップS204で未学習と判定されたメッセージID(対象メッセージID)について、未学習の学習集計単位時間(対象学習集計単位時間)が残っているか否かを判定する。つまり、Ltc<Ltであるか否かを判定する。Ltc<Ltであると判定された場合(Yes)は、ステップS206に進む。Lnc≧Lnであると判定された場合(No)は、ステップS208に進む。
(ステップS206)学習情報生成部204は、Ltcに「1」を加える。その後ステップS207に進む。
(ステップS207)学習出力数集計部2041は、対象ノード、対象メッセージIDについて、学習集計単位時間内の取得メッセージ情報の数を計算する(集計処理と呼ぶ)。ステップS207における集計処理の詳細については後述する。その後ステップS205に進む。
【0043】
(ステップS208)学習情報生成部204は、対象メッセージ識別情報について、未学習の学習対象日が残っているか否かを判定する。つまり、Ldc<Ldであるか否かを判定する。Ldc<Ldであると判定された場合(Yes)は、ステップS209に進む。Ldc≧Ldであると判定された場合(No)は、ステップS210に進む。
(ステップS209)学習情報生成部204は、Ldcに「1」を加える。その後ステップS205に進む。
【0044】
(ステップS210)最大最小値抽出部2042は、最大最小値抽出情報に基づいて、対象ノード、対象メッセージID、及び対象学習集計単位時間毎の最大出力数と最小出力数を計算する。最大最小値抽出部2042は、計算した最大出力数と最小出力数を示す最大最小値情報を学習結果情報DB205に記録する。その後ステップS211に進む。
(ステップS211)学習情報生成部204は、Lmcに「1」を加える。その後ステップS204に進む。
(ステップS212)学習情報生成部204は、Lncに「1」を加える。その後ステップS203に進む。
(ステップS213)出力部209は、学習情報生成部204から入力された学習情報及び最大最小値情報を表示する。
【0045】
図12は、本実施形態に係る集計処理の一例を示すフローチャートである。図12は図11におけるステップS207の集計処理を示すフローチャートである。
(ステップS301)学習出力数集計部2041は、集計値に「0」を代入する。その後ステップS302に進む。
(ステップS302)学習出力数集計部2041は、対象ノード、対象メッセージについて、対象集計単位時間内の未集計のメッセージがあるか否かを判定する。未集計のメッセージがあると判定された場合(Yes)は、ステップS303に進む。未集計のメッセージがないと判定された場合(No)は、ステップS304に進む。
(ステップS303)学習出力数集計部2041は、集計値に「1」を加える。その後ステップS302に進む。
(ステップS304)学習出力数集計部2041は、集計値(学習データ情報)を学習結果情報DB205に記録する。その後終了処理に進む。
【0046】
図13は、本実施形態に係る分析処理の動作の一例を示すフローチャートである。
(ステップS401)分析情報生成部206は、入力部203から入力された分析条件情報及び取得メッセージ情報に基づいて、メッセージ分析対象期間内の分析ノード数An、分析メッセージID数Am、分析単位集計時間数At、及び分析日数Adを算出する。ここで、分析ノード数Anは、メッセージ分析対象期間内にメッセージを発信した管理対象ノードの数である。分析メッセージの識別情報数Amは、メッセージ分析対象期間内に受信したメッセージの種類の数である。分析単位集計時間数Atは、一日あたりの分析集計単位時間の数である。分析日数Adは、メッセージ分析対象期間内の日数である。その後ステップS402に進む。
【0047】
(ステップS402)分析情報生成部204は、分析ノード数カウンタAnc、分析メッセージの識別情報数カウンタAmc、分析単位集計時間数カウンタAtc、及び分析日数カウンタAdcに「0」を代入する。その後ステップS403に進む。
(ステップS403)分析情報生成部204は、メッセージ分析期間内に未分析の管理対象ノードが残っているか否かを判定する。つまり、Anc<Anであるか否かを判定する。Anc<Anであると判定された場合(Yes)は、ステップS404に進む。Anc≧Anであると判定された場合(No)は、ステップS415に進む。
(ステップS404)分析情報生成部204は、ステップS403で未分析と判定された管理対象ノード(対象ノード)について未分析のメッセージの識別情報が残っているか否かを判定する。つまり、Amc<Amであるか否かを判定する。Amc<Amであると判定された場合(Yes)は、ステップS405に進む。Anc≧Anであると判定された場合(No)は、ステップS406に進む。
【0048】
(ステップS405)分析情報生成部204は、ステップS404で未分析と判定されたメッセージの識別情報(対象メッセージ識別情報)について、未分析の分析集計単位時間(対象分析集計単位時間)が残っているか否かを判定する。つまり、Atc<Atであるか否かを判定する。Atc<Atであると判定された場合(Yes)は、ステップS406に進む。Atc≧Atであると判定された場合(No)は、ステップS408に進む。
(ステップS406)分析情報生成部204は、Atcに「1」を加える。その後ステップS407に進む。
(ステップS407)分析出力数集計部2041は、対象ノード、対象メッセージについて、分析集計単位時間内の取得メッセージ情報の数を計算する(集計処理と呼ぶ)。ステップS407における集計処理の詳細については後述する。その後ステップS205に進む。
【0049】
(ステップS408)分析情報生成部204は、対象メッセージ識別情報について、未分析の分析対象日が残っているか否かを判定する。つまり、Adc<Adであるか否かを判定する。Adc<Adであると判定された場合(Yes)は、ステップS409に進む。Adc≧Adであると判定された場合(No)は、ステップS410に進む。
(ステップS409)分析情報生成部204は、Adcに「1」を加える。その後ステップS405に進む。
【0050】
(ステップS410)分析判定部208は、学習結果情報DB205から最大最小値情報を読み出す。分析判定部208は、最大最小値情報が示す最大値と、ステップS407で計算した対象ノード、対象メッセージIDについての、対象分析集計単位時間内の分析集計値情報が示す分析集計値の数と、を比較する。分析集計値が最大値よりも大きいと判定した場合(Yes)はステップS412に進む。分析集計値が最大値よりも大きくないと判定した場合(No)は、ステップS411に進む。
(ステップS411)分析判定部208は、最大最小値情報が示す最小値と、ステップS407で計算した対象ノード、対象メッセージIDについての、対象分析集計単位時間内の分析集計値情報が示す分析集計値の数と、を比較する。分析集計値が最小値よりも小さいと判定した場合(Yes)はステップS412に進む。分析集計値が最小値よりも小さくない判定した場合(No)は、ステップS413に進む。
【0051】
(ステップS412)分析判定部208は、分析集計値が最大値と最小値の間に含まれないことを示す判定不合格情報を生成する。分析判定部208は、判定不合格情報を含む分析結果情報を分析結果情報DB207に記録する。
(ステップS413)分析判定部208は、分析集計値が最大値と最小値の間に含まれることを示す判定合格情報を生成する。分析判定部208は、判定合格情報を含む分析結果情報を分析結果情報DB207に記録する。
【0052】
(ステップS414)分析情報生成部204は、Amcに「1」を加える。その後ステップS404に進む。
(ステップS415)分析情報生成部204は、Ancに「1」を加える。その後ステップS415に進む。
(ステップS416)出力部209は、学習情報生成部204から、学習結果情報DB205に記録された学習データ情報及び最大最小値情報を入力される。出力部209は、分析判定部208から、分析結果情報DB207に記録された分析結果情報を入力される。出力部209は、学習データ情報、最大最小値情報、及び分析結果情報を表示する。その後終了処理に進む。
【0053】
図14は、出力部209が出力する学習結果を表示させるための条件入力画面の一例を示す説明図である。符号14aを付した表示は、メッセージ学習対象期間が2011年7月1日から2011年7月10日であることを示している。符号14bを付した表示は、学習対象とするノード名が「node01」であることを示している。符号14cを付した表示は、学習対象とするメッセージIDが「.20.20.20.20」であることを示している。符号14dを付した表示は、メッセージ本文が「認証エラー発生」であることを示している。つまり、メッセージID「.20.20.20.20」は「認証エラー発生」に対応することを示している。符号14eを付した表示は、学習結果を24時間単位で表示することを示している。
【0054】
図15は、出力部209が出力する学習結果表示の一例を示す説明図である。符号15aを付した表示は、メッセージ学習対象期間が2011年7月1日から2011年7月10日であることを示している。符号15bを付した表示は、学習対象とするノード名が「node01」であることを示している。符号15cを付した表示は、学習対象とするメッセージIDが「.20.20.20.20」であることを示している。符号15dを付した表示は、メッセージ本文が「認証エラー発生」であることを示している。符号15eを付した点は、7月3日の1時〜2時の間のノード名が「node01」、メッセージIDが「.20.20.20.20」のメッセージ数が「23」であったことを示している。符号15fを付した点は、7月10日の7時〜8時の間のノード名が「node01」、メッセージIDが「.20.20.20.20」のメッセージ数が「19」であったことを示している。符号15gを付した線は、メッセージ学習対象期間内の管理対象ノード、及びメッセージID毎のメッセージ数の最大値を結ぶ線を示している。符号15hを付した線は、メッセージ学習対象期間内の管理対象ノード、及びメッセージ毎、のメッセージ数の最小値を結ぶ線を示している。
【0055】
図16は、出力部209が出力する分析結果を表示させるための条件入力画面の一例を示す説明図である。符号14aを付した表示は、メッセージ分析対象期間が2011年7月1日から2011年7月10日であることを示している。符号14bを付した表示は、分析対象とするノード名が「node01」であることを示している。符号14cを付した表示は、分析対象とするメッセージIDが「.20.20.20.20」であることを示している。符号14dを付した表示は、メッセージ本文が「認証エラー発生」であることを示している。つまり、メッセージID「.20.20.20.20」は「認証エラー発生」に対応することを示している。符号14eを付した表示は、分析結果を24時間単位で表示することを示している。
【0056】
図17は、出力部209が出力する分析結果表示の一例を示す説明図である。符号17aを付した表示は、メッセージ学習対象期間が2011年7月1日から2011年7月10日であることを示している。符号17bを付した表示は、学習対象とするノード名が「node01」であることを示している。符号17cを付した表示は、学習対象とするメッセージIDが「.20.20.20.20」であることを示している。符号17dを付した表示は、メッセージ本文が「認証エラー発生」であることを示している。符号17eを付した点は、「7月3日の1時〜2時」の間のノード名が「node01」、メッセージIDが「.20.20.20.20」のメッセージ数が「23」であったことを示している。符号17fを付した点は、7月10日の7時〜8時の間のノード名が「node01」、メッセージIDが「.20.20.20.20」のメッセージ数が「19」であったことを示している。符号17gを付した線は、メッセージ学習対象期間内の管理対象ノード、及びメッセージ毎のメッセージ数の最大値を結ぶ線を示している。符号17hを付した線は、メッセージ学習対象期間内の管理対象ノード、及びメッセージ毎のメッセージ数の最小値を結ぶ線を示している。
【0057】
符号17iを付した表示は、分析対象日を「7月11日」としたことを示している。符号17jを付した点は、分析対象日が「7月11日」、ノード名が「node01」、メッセージIDが「.20.20.20.20」の集計値が「25」であることを示している。符号17kを付した点は、メッセージ学習対象期間内の管理対象ノード、及びメッセージ毎のメッセージ数の最大値が「24」であることを示している。符号17lを付した表示は、分析対象日に、メッセージ学習対象期間内の管理対象ノード、及びメッセージ毎のメッセージ数の最大値を超える集計値があったため、「分析結果:普段と異なる振る舞いを検出しました」と表示している。これにより、利用者は、指定した分析対象日、ノード名、メッセージIDにおいて、メッセージ学習期間に学習した最大値より大きな集計値となったことを知ることができる。
【0058】
このように、本実施形態によれば、メッセージ取得部201が、管理対象ノード11〜13が出力した情報を取得する。分析判定部208が、メッセージ取得部201が取得したメッセージの数に基づいて、管理対象ノード11〜13の異常を検知する。本構成によれば、運用管理システム20は、運用管理システム20は、管理対象ノード11〜13が元来するメッセージに基づいて管理対象ノード11〜13の異常を検知する。これにより、管理対象システムに新たな設定変更や情報収集負荷を加えることなく、簡易に管理対象ノードの異常を検知することが可能となる。
【0059】
また、本実施形態によれば、学習情報生成部204は、メッセージの数を記憶する。分析判定部208は、学習情報生成部204が算出したメッセージの数の履歴と、現在のメッセージの数とに基づいて、管理対象ノード11〜13の異常を検知する。これにより、メッセージ数の履歴に基づいて管理対象ノード11〜13が異常であるか否かを検知するため、異常の検知精度が向上する。
【0060】
また、本実施形態によれば、学習情報生成部204は、指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位学習集計時間毎のメッセージの数の最大値、又は最小値を算出する。分析判定部208は、現在のメッセージ数が、最大値、最小値の間の値であるか否かに基づいて管理対象ノード11〜13の異常を検知する。これにより、現在のメッセージの数が学習期間におけるメッセージの数の最大値、最小値を逸脱したか否かに基づいて管理対象ノード11〜13が異常であるか否かを検知するため、異常の検知精度が向上する。
【0061】
なお、分析判定部208は、学習結果情報DB205から読み出した最大最小値情報と分析情報生成部206が生成した分析データ情報とに基づいて分析対象が正常であるか否かを判定した。しかしながら、判定の仕方は上記に限られず、例えば、分析データ情報が、予め定めた閾値よりも大きい、または、予め定めた閾値よりも小さいことに基づいて正常であるか否かを判定してもよい。
なお、タイムスタンプとは、管理対象ノード11〜13がメッセージを生成した時刻に限られず、管理対象ノード11〜13がメッセージを送信した時刻でも、運用管理システム20がメッセージを取得した時刻でもよい。
【0062】
なお、学習情報生成部204及び分析情報生成部206は、メッセージの識別情報毎に出力数を計算したが、メッセージの識別情報及びメッセージ本文に記載されたメッセージの内容が示す情報に基づいてメッセージを識別し、その出力数を計算してもよい。
なお、本実施形態では、メッセージ情報の蓄積と、蓄積された情報を用いた学習、分析を同一の運用管理装置20で行ったが、各々を別の端末装置で行ってもよい。この場合、メッセージ情報蓄積を行うサーバと、学習、分析を行う端末と、をネットワークによって接続してもよい。
【0063】
(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について詳しく説明する。
本実施形態では、運用管理装置が、分析処理の中で判定プログラムを実行し、判定プログラムによって異常が起こっていると判定された時間に取得されたメッセージを学習結果情報に反映させない場合について説明する。
図18は、本実施形態に係る運用管理装置21aの構成を示す概略ブロック図である。
運用管理装置21aは、第1の実施形態における運用管理装置21とは、メッセージDB202a、学習情報生成部204a、学習情報生成部206a、分析判定部208aが異なる。しかし、他の構成は、第1の実施形態における運用管理装置21と同様であるため、説明を省略する。
【0064】
メッセージDB202aは、メッセージ取得部201から入力された取得メッセージ情報を記録する。メッセージDB202aは、分析判定部208aから取得メッセージ情報が異常であることを示すメッセージ異常情報を入力されたとき、その対応する取得メッセージ情報にメッセージ異常フラグを付する。なお、メッセージ異常情報については後述する。取得メッセージ情報とメッセージ異常フラグを関連付けた情報をメッセージ情報と呼ぶ。また、メッセージDB202が記録するメッセージ情報の詳細については後述する。
【0065】
学習情報生成部204aは、学習出力数集計部2041aの構成が第1の実施形態と異なる。学習情報生成部204aの詳細については後述する。
分析情報生成部206aは、分析出力数集計部2061aの構成が第1の実施形態と異なる。分析情報生成部206aの詳細については後述する。
【0066】
分析判定部208aは、学習分析比較部2080及び診断プログラム実行部2081aを含んで構成される。
分析判定部208aは、分析データ情報が正常であるか否かを判定する。分析判定部208aは、学習結果情報DB205に記録された最大最小値情報と、分析結果情報DB207から読み出した分析データ情報に基づいて、分析対象が正常であるか否かを判定する。
分析判定部208aは、分析データ情報が異常であると判定された場合には、診断プログラムを実行する。分析判定部208aは、診断プログラムが診断した診断結果が異常と判定された場合には、メッセージ異常情報をメッセージDB202aに記録する。また、分析判定部208aは、診断プログラムが診断した診断結果に基づいて、最大最小値情報を補正する。分析判定部208aは、分析結果を分析結果情報DB207に記録し、出力部209に出力する。
なお、分析判定部208aの詳細については後述する。
【0067】
図19は、学習情報生成部204aの構成の一例を示したブロック図である。本実施形態における学習情報生成部204aは、学習出力数集計部2041aが異なることを除いて第1の実施形態の学習情報生成部204と同様である。第1の実施形態と同様である部分については説明を省略する。
学習出力数集計部2041aは、学習メッセージ情報抽出部2040から入力された特定の管理対象ノード、特定のメッセージ、及び特定の学習集計単位時間毎に収集したメッセージ情報の数を集計する。この際、メッセージ異常フラグが付されたメッセージ情報は集計に加えない。学習出力数集計部2041は、集計された値を示す集計値情報と、ノードIDと、メッセージの識別情報とを関連付けた情報(学習データ情報)を学習結果情報DB205に記録する。学習出力数集計部2041aは、集計終了情報を学習メッセージ情報抽出部2040に出力する。
【0068】
図20は、分析情報生成部206aの構成の一例を示したブロック図である。本実施形態における分析情報生成部206aは、分析出力数集計部2061aが異なることを除いて第1の実施形態の学習情報生成部204と同様である。第1の実施形態と同様である部分については説明を省略する。
分析出力数集計部2061aは、分析メッセージ情報抽出部2060から入力された特定の管理対象ノード、特定のメッセージ、特定の学習集計単位時間に収集したメッセージ情報の数を集計する。この際、メッセージ異常フラグが付されたメッセージ情報は集計に加えない。分析出力数集計部2061は、集計された値を示す集計値情報と、ノード名と、メッセージIDと、学習集計単位時間と、を関連付けた情報(分析データ情報)を分析結果情報DB207aに記録する。
【0069】
図21は、分析判定部208aの構成の一例を示したブロック図である。
分析判定部208aは、学習分析比較部2080a及び診断プログラム実行部2081aを含んで構成される。
学習分析比較部2080aは、学習結果情報DB205から最大最小値情報を読み出す。学習分析比較部2080aは、分析結果情報DB207から分析データ情報を読み出す。学習分析比較部2080aは、最大最小値情報が示す学習メッセージ集計値情報と、分析メッセージ集計値情報と、をノード名、メッセージID、及び分析単位時間毎に比較する。
学習分析比較部2080は、分析集計値情報が示す分析集計値が、最大最小値情報が示す最大値と最小値の間に含まれるか否かを判定する。分析集計値が、最大最小値情報が示す最大値と最小値の間に含まれないと判定された場合は、診断プログラム実行部2081aに診断プログラムを実行させる逸脱情報を出力する。逸脱情報には、ノード名、メッセージID、分析単位時間情報が含まれる。
【0070】
診断プログラム実行部2081aは、学習分析比較部2080aから逸脱情報を入力されたときに、逸脱情報が示す管理対象ノードに対する診断プログラムを実行する。診断プログラム実行部2081aは、例えば、Pingプログラムにより診断を行う。つまり、診断プログラム実行部2081aは、逸脱情報が示す管理対象ノードに対して、応答要求パケットを送信する。診断プログラム実行部2081aは、対象となる管理対象ノードから応答パケットを受信することで、その管理対象ノードへの到達を確認し、逸脱情報が示す管理対象ノードが正常に稼動しているか否かを判定する。管理対象ノードが正常に稼動していないと判定された場合は、診断プログラム実行部2081は、その管理対象ノードが異常であることを示すメッセージ異常情報をメッセージDB202に記録する。
【0071】
図22は、メッセージDB202aに記録される取得メッセージ情報テーブルの一例を説明する概略図である。メッセージ取得部201から入力された取得メッセージ情報及び診断プログラム実行部2081から入力されたメッセージ異常情報は、メッセージ情報テーブルに記録される。
図示するようにメッセージ情報テーブルは、タイムスタンプ、メッセージID、ノード名、メッセージ本文、及びメッセージ異常フラグの各項目の列を有している。メッセージ情報テーブルは、タイムスタンプ毎にメッセージID、ノード名、メッセージ本文、メッセージ異常フラグが格納される行と列からなる2次元の表形式のデータである。
【0072】
符号22aを付したメッセージ情報は、タイムスタンプが、「2007年7月15日7時51分11秒」に、メッセージIDが「.10.10.10.10」であるメッセージを、IPアドレス「192.168.11.30」を持つ管理対象ノードから送信され、そのメッセージ本文が、「コールデータ転送終了」であることを示す。メッセージ異常フラグは、このメッセージ情報が正常であることを示している。
符号22bを付したメッセージ情報は、タイムスタンプが、「2007年7月16日22時34分13秒」に、メッセージIDが「.20.20.20.20」であるメッセージを、IPアドレス「192.168.11.50」を持つ管理対象ノードから送信され、そのメッセージ本文が、「認証エラー発生」であることを示す。メッセージ異常フラグは、このメッセージ情報が異常であることを示している。
【0073】
図23は、本実施形態に係る運用管理システム20aの処理の一例を示すフローチャートである。本実施形態に係る運用管理システム20aの処理は、ステップS103a及びステップS105aを除いて、第1の実施形態における運用管理システム20の処理(図10)と同様であるので説明は省略する。ステップS103a及びステップS105aの処理については後述する。
【0074】
図24は、図23におけるステップS103aの処理の一例を示すフローチャートである。本実施形態に係るステップS103aの処理は、ステップS207aを除いて、第1の実施形態におけるステップS103の処理(図11)と同様であるので説明は省略する。ステップS207aの処理については後述する。
【0075】
図25は、図23におけるステップS105aの処理の一例を示すフローチャートである。本実施形態に係るステップS103aの処理は、ステップS407a、ステップS410a、ステップS411a、ステップS4111a、ステップS4112a、及びステップS412aを除いて、第1の実施形態におけるステップS103の処理(図11)と同様である。ステップS407aは図24におけるステップS207aの処理と同様である。
(ステップS410a)分析判定部208は、最大最小値情報が示す最大値と、ステップS407で計算した集計値とを比較する。集計値が最大値よりも大きいと判定した場合(Yes)はステップS4111aに進む。集計値が最大値よりも大きくないと判定した場合(No)は、ステップS411aに進む。
【0076】
(ステップS411a)分析判定部208は、最小値とステップS407で計算した集計値の数とを比較する。集計値が最小値よりも小さいと判定した場合(Yes)はステップS4111aに進む。分析集計値が最大値よりも小さくない判定した場合(No)は、ステップS413に進む。
(ステップS4111a)学習分析比較部2080aは、診断プログラム実行部2081aに、逸脱情報を出力する。診断プログラム実行部2081aは、入力された逸脱情報が示す管理対象ノードに対して、Pingプログラムを実行する。診断プログラム実行部2081aは、Pingプログラムに対する応答パケットを予め定めた時間内に受信したか否かを判定する。予め定めた時間内に受信した場合(Yes)は、ステップS412に進む。予め定めた時間内に受信しなかった場合(No)は、ステップS4112aに進む。
(ステップS4112a)分析判定部208aは、メッセージDB202aに、逸脱情報が示す分析対象日に出力されたすべてのメッセージが異常であることを示すメッセージ異常情報を記録する。その後ステップS414に進む。
【0077】
図26は、図24におけるステップS207a及び図25におけるステップS407aの処理(集計処理)を示すフローチャートである。
ステップS301〜ステップS304の処理は、図12におけるステップS301〜ステップS304と同様の処理であるので説明は省略する。
(ステップS3011a)学習出力数集計部2041は、メッセージ情報にメッセージ異常フラグが設定されているか否かを判定する。メッセージ異常フラグが設定されている場合(Yes)は、ステップS3011cに進む。メッセージ異常フラグが設定されていない場合(No)は、ステップS303に進む。
(ステップS3011b)学習出力数集計部2041は、最大最小値情報が示す最大値より集計値が大きいか否かを判定する。最大値より集計値が大きい場合(Yes)は、ステップS3011cに進む。最大値が集計値以下の場合(No)は、ステップS3011dに進む。
(ステップS3011c)学習出力数集計部2041は、最大値を変更する。具体的には、その対応するノード名、メッセージID、及び学習集計単位時間毎に設けられた最大値に集計値を代入する。その後ステップS302に進む。
(ステップS3011d)学習出力数集計部2041は、学習結果情報DB205から最大最小値情報を読み出す。学習出力数集計部2041は、最大最小値情報が示す最大値より学習集計値が大きいか否かを判定する。最大値より集計値が小さい場合(Yes)は、ステップS3011eに進む。最大値が集計値以下の場合(No)は、ステップS303に進む。
(ステップS3011e)学習出力数集計部2041は、最小値を変更する。具体的には、その対応するノード名、メッセージID、及び学習集計単位時間毎に設けられた最小値に集計値を代入する。その後ステップS303に進む。
【0078】
このように、本実施形態によれば、分析判定部208aは、現在のメッセージの出力数が最大値と最小値の間の値でないと判定した場合に、管理対象ノード11〜13の異常を診断する診断プログラムを自動的に起動し、診断した結果を表示する。これにより、分析判定部208aは、現在のメッセージの出力数が最大値と最小値の間の値でないと判定した場合であっても、診断プログラムが正常であると判定した場合には、管理者に異常でないことを報知する。したがって、管理者の知識や経験に頼ることなく管理対象ノードの異常を検知することができる。
【0079】
また、本実施形態によれば、分析判定部208aは、診断プログラムが診断した結果に基づいて、最大値又は最小値を補正する。分析判定部208aは、以後補正後の最大値または補正後の最小値に基づいて管理対象ノード11〜13の異常を診断する。これにより、より確実な判定を行うことが可能となる。
【0080】
また、分析判定部208aは、診断プログラムが診断した状態に基づいて、最大値又は最小値を補正し、補正後の最大値、又は補正後の最小値に基づいて管理対象ノードの状態を検知する。これにより、現在の集計値が最大値よりも大きい、又は最小値よりも小さい値を得た場合であっても、診断の結果、管理対象ノードが正常であると判定された場合は、最大値、または最小値を集計値の値で置き換える。これにより、以後より確実な判定を行うことが可能となる。
【0081】
なお、本実施形態では、逸脱情報が示す分析対象日に出力されたすべてのメッセージが異常であると判定し、メッセージDB202aに記録されたメッセージ情報のメッセージ異常フラグを異常としたが、例えば、逸脱情報が示す時刻の前後の予め定められた時間内のメッセージ情報のメッセージ異常フラグを異常としてもよい。また、実際に異常と判定されたメッセージの識別情報のみについて、メッセージ情報のメッセージ異常フラグを異常としてもよい。
【0082】
なお、メッセージ異常情報は、異常が発生した分析実行日のすべての取得データを異常とするものでもよい。また、異常が発生した分析実行日の異常が発生した管理対象ノードからの取得データを異常とするものでもよい。また、異常が発生した分析実行日の異常が発生した管理対象ノードからの、異常が発生したメッセージのみを異常とするものでもよい。また、異常が発生した分析実行日の異常が発生した管理対象ノードからの、異常が発生したメッセージの、異常が発生した時刻の前後のある定められた時間、又は、発生した時刻から予め定められた時間に取得した取得データのみを異常とするものであってもよい。また、これらの組み合わせであってもよい。
【0083】
なお、分析指示を入力されたときに、まず学習処理を行い、その後分析処理を行うようにしてもよい。分析処理の直前に学習処理を行うことにより、最新の学習結果に基づいて分析処理を行うことが可能となり、判定の信頼性が高まる。
なお、本実施形態では、集計値が正常範囲から逸脱した場合、その学習集計単位時間の最大値、最小値のみを変更したが、集計値が正常範囲から逸脱した場合、その分析対象日のすべての学習集計単位時間の最大値、最小値を変更してもよい。
【0084】
なお、分析集計単位時間は、その時間を分析集計単位時間として指定された時間より長くしてもよい。その場合、時間的に連続する分析集計単位時間同士には時間的に重なる部分が生ずる。これにより、分析集計単位時間が切り替わる(次の分析主計時間が開始する)瞬間に発生するメッセージが、ある場合は前の分析集計単位時間に集計され、またある場合は、後の分析集計単位時間に集計されることにより学習データ情報が不正確になることを防ぐことができる。
なお、診断プログラム実行部2081aが実行するプログラムは、管理対象ノード101〜103の自己診断プログラムを実行させるプログラムや、管理対象ノード101〜103が生成したコアファイルを取得するプログラムでもよい。
【符号の説明】
【0085】
10・・・管理対象システム、20・・・運用管理システム、11〜13・・・管理対象ノード、21、21a・・・運用管理装置、22・・・運用管理端末、201・・・メッセージ取得部、202、202a・・・メッセージ記憶部、203・・・入力部、204、204a・・・学習情報生成部、205・・・学習結果情報記憶部、206、206a・・・分析情報生成部、207・・・分析結果情報記憶部、208、208a・・・分析判定部、209・・・出力部、2040・・・学習メッセージ情報抽出部、2041、2041a・・・学習出力数集計部、2042・・・最大最小値抽出部、2060・・・分析メッセージ情報抽出部、2061、2061a・・・分析出力数集計部、2080、2080a・・・学習分析比較部、2081a・・・診断プログラム実行部

【特許請求の範囲】
【請求項1】
管理対象ノードが出力したメッセージを取得するメッセージ取得部と、
前記メッセージ取得部が取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定部と、
を備えることを特徴とする運用管理装置。
【請求項2】
前記メッセージの数を算出する学習情報生成部を備え、
前記分析判定部は、前記学習情報生成部が算出した前記メッセージの数の履歴と、現在のメッセージの数とに基づいて前記管理対象ノードの状態を検知する
ことを特徴とする請求項1に記載の運用管理装置。
【請求項3】
前記学習情報生成部は、指定した期間内における管理対象ノード毎、メッセージの識別情報毎、単位時間毎のメッセージの数の最大値、又は最小値を算出し、
前記分析判定部は、前記現在のメッセージの数が、前記最大値と前記最小値の間の値であるか否かに基づいて前記管理対象ノードの状態を検知する
ことを特徴とする請求項2に記載の運用管理装置。
【請求項4】
前記分析判定部は、前記現在のメッセージの出力数が前記最大値と前記最小値の間の値でないと判定した場合に、前記管理対象ノードの状態を診断する診断プログラムを起動し、診断した結果を表示する
ことを特徴とする請求項3に記載の運用管理装置。
【請求項5】
前記分析判定部は、前記診断プログラムが診断した状態に基づいて、前記最大値又は最小値を補正し、補正後の最大値又は補正後の最小値に基づいて前記管理対象ノードの状態を検知する
ことを特徴とする請求項4に記載の運用管理装置。
【請求項6】
メッセージ取得部が、管理対象ノードが出力したメッセージを取得するメッセージ取得過程と、
分析判定部が、前記メッセージ取得部が取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定過程と、
を有する運用管理方法。
【請求項7】
運用管理装置のコンピュータに
管理対象ノードが出力した情報を取得するメッセージ取得手順、
前記メッセージ取得手順で取得した前記メッセージの数に基づいて前記管理対象ノードの状態を検知する分析判定手順
を実行させるための運用管理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate