ベースライン生成装置、異常検出装置、ベースライン生成方法、及びベースライン生成プログラム
【課題】異常の検出を確実にできる。
【解決手段】監視対象システムの動作状況を表す測定値のうち、監視対象システムの故障発生期間以外の測定値を抽出し、抽出した測定値に基づき、測定値の正常範囲を示すベースライン情報を生成するベースライン生成部を具備する。
【解決手段】監視対象システムの動作状況を表す測定値のうち、監視対象システムの故障発生期間以外の測定値を抽出し、抽出した測定値に基づき、測定値の正常範囲を示すベースライン情報を生成するベースライン生成部を具備する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ベースライン生成装置、異常検出装置、ベースライン生成方法、及びベースライン生成プログラムに関する。
【背景技術】
【0002】
ネットワークに接続された機器の故障を検出する手法として、ベースライン分析が知られている。例えば、特許文献1には、ネットワークから得られた現在の実時間性能データから、異常と相関する時間的な目的関数を導出し、ネットワークから得られた履歴性能データから目的関数の時間変動に対するする最大しきい値を導出し、現在の実時間性能データから導出された目的関数を、現在の実時間性能データに連関する時点に時間的に対応する時点における最大しきい値と比較し、現在の実時間性能データから導出された目的関数が、予め定められた時間よりも長い間、最大しきい値よりも大きいことを示す場合に、異常が存在すると定めるベースライン分析方法が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−057555号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術に係るベースライン分析を用いた故障検出法は、エラーとして検出されないサイレント故障を検知する目的に用いられてきた。そのため、従来技術では、ベースライン分析時にサイレント故障が発生しているか否かに関する情報は利用されていなかった。また、従来技術では、各機器のデータの測定値を一定間隔のタイムスパン毎にベースラインと比較する機械的な統計処理を行っていた。従って、従来技術では、検出時のタイムスパンの設定が故障発生時のタイムスパンと合っていないため、また、正常値の基準となるベースラインが、異常時の値をも含んで生成されているため、ベースラインの信頼性が確かでなかった。つまり、異常の検出をできない場合があるという問題があった。
【0005】
本発明は上記の点に鑑みてなされたものであり、異常の検出を確実にできるベースライン生成装置、異常検出装置、ベースライン生成方法、及びベースライン生成プログラムを提供する。
【課題を解決するための手段】
【0006】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障発生期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成部を具備することを特徴とするベースライン生成装置である。
【0007】
(2)また、本発明の一態様は、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成部と、監視対象システムに対する操作に関する情報を記憶する操作履歴記憶部と、前記操作に関する情報に基づき、故障期間を決定する故障期間抽出部と、前記故障期間に測定された前記測定値について、前記ベースライン情報に基づき、異常値であるか否かを判定する異常値判定部とを具備することを特徴とする異常検出装置である。
【0008】
(3)また、本発明の一態様は、上記の異常検出装置において、前記故障期間抽出部は、操作者から入力された情報に対応する情報であって、前記操作に関する情報に基づき、前記故障期間を決定することを特徴とする。
【0009】
(4)また、本発明の一態様は、上記の異常検出装置において、前記監視対象システムは、複数の機器から構成され、前記測定値は、複数の測定項目各々に対する測定値であり、前記ベースライン生成部は、前記測定項目の各々に関するベースライン情報を生成し、前記異常検出装置は、前記異常値と判定された測定値の測定項目に基づき、前記複数の機器の中から異常が発生している機器を検出する異常機器検出部を具備することを特徴とする。
(5)また、本発明の一態様は、ベースライン生成装置における方法において、前記ベースライン生成装置が、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障発生期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成過程を有することを特徴とするベースライン生成方法である。
(6)また、本発明の一態様は、ベースライン生成装置のコンピュータに、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障発生期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成手順を実行させるためのベースライン生成プログラムである。
【発明の効果】
【0010】
本発明によれば、異常の検出を確実にできる。
【図面の簡単な説明】
【0011】
【図1】本実施形態に係る故障検出システムの概念図である。
【図2】本実施形態に係る故障検出装置の構成を示す概略ブロック図である。
【図3】本実施形態に係る操作情報収集の動作の一例を示すフローチャートである。
【図4】本実施形態に係る操作情報の一例を示す概略図である。
【図5】本実施形態に係る測定値収集の動作の一例を示すフローチャートである。
【図6】本実施形態に係る操作情報の一例を示す概略図である。
【図7】本実施形態に係る故障期間情報テーブルの一例を示す概略図である。
【図8】本実施形態に係るベースライン生成処理を示すフローチャートである。
【図9】本実施形態に係るベースラインテーブルの一例を示す概略図である
【図10】本実施形態に係る異常値故障箇所対応テーブルの一例を示す概略図である。
【図11】本実施形態に係る故障箇所特定処理を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本実施形態に係る故障検出システム1の概念図である。図示する例では、故障検出システム1は、監視対象ネットワーク10、ネットワーク機器11a〜11e、入出力装置12、故障検出装置13を含んで構成される。
監視対象ネットワーク10は、故障検出システム1が故障の検出をする対象のネットワークである。監視対象ネットワーク10は、家庭内LAN(Local Area Network)や、ネットワークプロバイダが提供するLANやWAN(Wide Area Network)などである。監視対象ネットワーク10は、ゲートウェイGW、ルータRT、スイッチSW、ハブHubなどのネットワーク管理機器及び一般のPCなどのネットワーク機器11a〜11e(各々をネットワーク機器11とも称する)を含んで構成される。ゲートウェイGW、ルータRT、スイッチSW、ハブHubは、監視対象ネットワーク10に測定値情報を出力する。測定値情報には、UPnP(Universal Plag and Play)情報、SNMP(Simple Network Management Protocol)情報、DHCP(Dynamic Host Configulation Protocol)情報等の測定値内容情報(測定項目及び測定値)及び測定が行われた時刻(測定時刻とも称する)を示す測定時刻情報が含まれる。
【0013】
ネットワーク機器11a〜11e(各々をネットワーク機器11とも称する)は、監視対象ネットワーク10にネットワークインターフェイスを介して接続された電子機器である。ネットワーク機器11は、ネットワークインターフェイスを介して監視対象ネットワーク10に対して操作情報及び測定値情報を出力する。ここで、操作情報とは、ネットワーク機器11に利用者から操作が行われたことに起因してネットワーク機器11が出力する情報である。操作情報には、操作が行われた時刻を示す操作時刻情報、操作の内容を示す操作内容情報、操作の結果エラーが発生したか否かを示す操作状況情報が含まれる。
【0014】
入出力装置12は、キーボードやタッチパネル等の入力装置とディスプレイなどの出力装置から構成される。入出力装置12は、故障検出装置13に接続されている。入出力装置12には、サポートセンタのオペレータ又は利用者(以後操作者と呼ぶ)から障害が起こった時刻を含む障害発生情報を入力される。入出力装置12は、障害が起こった箇所やその障害に対する対処法等を表示する。
【0015】
故障検出装置13は、監視対象ネットワーク10から操作情報及び測定値情報を収集する。故障検出装置13は、収集した操作情報の履歴及び測定値情報の履歴を記録する。故障検出装置13は、入出力装置12から入力された障害発生情報と、記録した操作情報の履歴とに基づいて、障害が発生した時間である故障期間を抽出する。故障検出装置13は、抽出した故障期間以外の測定時刻における測定値情報を用いて、ベースラインを生成する。
このベースラインは、測定項目が同一又は類似するものを、予め定めた時間で計数した数を時系列に並べたものである。
故障検出装置13は、予め生成したベースラインと故障発生時の通信状況を比較して、通信異常箇所を判定する。故障検出装置13は、判定した結果を入出力装置12に表示させる。
【0016】
図2は本実施形態に係る故障検出装置13の構成を示す概略ブロック図である。
図示する例では、故障検出装置13は、操作情報収集部101、入力部102、操作履歴DB(Data Base;操作履歴記録部)103、操作履歴抽出部104、故障期間抽出部105、故障期間DB106、測定値情報収集部107、測定値履歴DB108、ベースライン生成部109、ベースラインDB110、異常値判定部111、異常値/故障箇所対応DB112、及び出力部(異常機器検出部)113を含んで構成される。
【0017】
操作情報収集部101は、監視対象ネットワーク10から操作情報を収集する。ここで、操作情報には、操作内容情報、操作時刻情報、及び操作状況情報が含まれる。操作内容情報とは、例えば以下の(ア)〜(オ)のような情報である。
(ア)監視対象ネットワークにネットワーク機器11が接続された又は切断されたことを示す情報。
(イ)監視対象ネットワークのネットワーク機器11の電源がOnになった又はOffになったことを示す情報。
(ウ)監視対象ネットワークのネットワーク機器11がサービス開始となった又はサービス停止となったことを示す情報。
(エ)監視対象ネットワークのネットワーク機器11にてサービスYが実施されたことを示す情報。
(オ)監視対象ネットワークのネットワーク機器11にてサービスYが実施され、エラーが発生したことを示す情報。
ここで、サービスYとは、例えば、ウェブブラウザ、UPnP、DHCPなどである。
操作情報収集部101は、操作情報を操作履歴DB103に書き込む。操作情報収集部101は、操作履歴DB103に記憶した操作情報が予め定めた数に達した場合は、最も古いタイムスタンプを持つ操作情報を削除して、新たに入力された操作情報を記録する。
【0018】
入力部102は、入出力装置12を介して操作者から障害発生情報を入力される。ここで、障害発生情報とは、ネットワーク利用者が遭遇した障害を示す情報である。例えば、障害発生情報とは、「6月上旬」「Webブラウザアクセス」「エラー」といった操作者に利用者が伝達する情報である。入力部102は、入力された障害発生情報に基づいて、障害時間情報、障害内容情報、及び障害状況情報の候補を生成する。ここで、障害時間情報とは、障害があった時間(故障期間)を示す情報である。障害内容情報とは、障害が起こった操作(例えば、ftpアクセス、Webアクセス)と、その障害が起こったネットワーク機器11のIPアドレス、MACアドレスとを示す情報である。障害状況情報とは、例えば、エラー発生などの障害の状況を示す情報である。入力部102は、例えば、入出力装置12に障害時間情報、障害内容情報、及び障害状況情報の候補を表示させ、操作者が選択した障害時間情報、障害内容情報、及び障害状況情報を生成する。
入力部102は、生成した障害時間情報、障害内容情報、及び障害状況情報を操作履歴抽出部104に出力する。
【0019】
操作履歴DB103は、操作情報収集部101から入力された操作情報を操作履歴情報テーブルに記憶する。操作履歴情報テーブルとは、過去に入力された操作情報の履歴から構成されるテーブルである。なお、なお、操作履歴DB103が記憶する操作履歴情報テーブルの詳細については、図面を参照しながら後述する。
【0020】
操作履歴抽出部104は、入力部102から入力された障害時間情報、障害内容情報、障害状況情報と、操作履歴DB103に記録された操作時刻情報、操作内容情報、操作状況情報を比較し、操作履歴DB103から次の(ア)〜(ウ)の全ての条件を満たす操作情報を抽出する。
(ア)操作時刻情報が、障害時間情報が示す時間の範囲内に含まれる。
(イ)操作内容情報が、障害内容情報と一致する、もしくは、予め設定された所定のルールで導かれるものと一致する。
(ウ)操作状況情報が、障害状況情報と一致する。
操作履歴抽出部104は、抽出した操作情報を故障期間抽出部105に出力する。
【0021】
故障期間抽出部105は、操作履歴抽出部104で抽出された操作情報に基づいて故障期間、及び対応するIPアドレス、MACアドレスを抽出する。ここで、故障期間とは、抽出した操作情報のうち、操作時刻情報が示す時刻が最も古い時刻から、操作時刻情報が示す時刻が最も新しい時刻までの期間を指す。故障期間抽出部105は、抽出した故障期間を示す故障期間情報を故障期間DB106及び異常値判定部111に出力する。
【0022】
故障期間DB106は、故障期間抽出部105から入力された故障期間情報を故障期間情報テーブルに記憶する。なお、故障期間DB106が記憶する故障期間情報テーブルの詳細については、図面を参照しながら後述する。
【0023】
測定値情報収集部107は、監視対象ネットワーク10から測定値情報を収集する。ここで、測定値情報は、測定値時刻情報及び測定値内容情報を含む。測定値時刻情報は、測定ポイントで測定値を測定した測定時刻を示す。また、測定値内容情報は、例えば、測定ポイントが生成したUPnP情報(例えば、BBR(ブロードバンドルータ)のWAN(Wide Area Network)側のパケット数、LAN側のパケット数)、SNMP情報(例えば、ハブ、スイッチのポート毎の入出力パケット数、コリジョンパケット数など)、DHCP情報(例えば、Discoverコマンド送信数、OFFER応答数など)などである。
測定値情報収集部107は、測定値情報を測定値履歴DB108に書き込む。なお、測定値情報の詳細については、図面を参照しながら後述する。
【0024】
測定値履歴DB108は、測定値情報収集部107から入力された測定値情報を測定値情報テーブルに記憶する。つまり、測定値履歴テーブルとは、過去に入力された測定値情報の履歴から構成されるテーブルである。なお、測定値履歴DB108が記憶する測定値履歴情報テーブルの詳細については、図面を参照しながら後述する。
【0025】
ベースライン生成部109は、故障期間DB106から故障期間情報を読み出す。ベースライン生成部109は、故障期間情報が示す故障期間以外の期間(正常動作期間と呼ぶ)における各測定値情報を測定値履歴DB108から読み出す。ベースライン生成部109は、各測定値情報から各測定値を抽出する。ベースライン生成部109は、例えば、過去1ヶ月間に渡る各日の各測定値のうち、正常動作期間に含まれる各測定値について、予め定めたベースライン単位時間(例えば、10分)毎の平均値、及び分散(ベースライン単位時間毎の各測定値の平均値、及び分散を総称してベースラインとも呼ぶ)を算出する(ベースライン作成処理と呼ぶ)。ベースライン生成部109は、算出したベースラインを示すベースライン情報をベースラインDB110に書き込む。つまり、ベースライン生成部109は、正常動作期間に測定された測定値に基づいてベースラインを生成する。
ベースラインDB110は、ベースライン生成部109が生成したベースライン情報を記録する。
【0026】
異常値判定部111は、測定値情報が示す測定値が異常値であるか否かを判定する。具体的には、異常値判定部111は、故障期間抽出部105から故障期間情報を入力される。異常値判定部111は、故障期間情報が示す故障期間に対応する測定値情報を測定値履歴DB108から読み出す。異常値判定部111は、故障期間情報が示す故障期間に対応するベースライン情報をベースラインDB110から読み出す。異常値判定部111は、故障期間における測定値及びベースライン情報が示すベースライン(例えば、平均値、分散)に基づいて、測定値が異常であるか否かを判定する。例えば、異常値判定部111は、故障期間における測定値が平均値−n×分散≦測定値≦平均値+n×分散(nは予め定めた正の数)の関係を満たしている場合は、測定値は正常であると判断する。異常値判定部111は、この関係を満たさない場合は、測定値は異常であると判断する。異常値判定部111は、各測定値について、それに対応するベースラインを用いて上記の判定を行い、各測定項目の正常、異常を判定する。異常値判定部111は、各測定項目の判定結果を出力部113に出力する。
【0027】
異常値/故障箇所対応DB112は、MACアドレス、測定項目、及び故障箇所との関係を示す異常値/故障箇所対応テーブルを記憶する。異常値/故障箇所対応テーブルの詳細は図面を参照しながら後述する。
【0028】
出力部113は、異常値判定部111から各測定項目の判定結果を入力される。出力部113は、各測定値の判定結果が異常と判定された場合は、異常値/故障箇所対応DB112に記録された異常値/故障箇所対応テーブルを参照して、異常であると判定された測定項目に対応する装置の故障箇所の情報を抽出し、抽出した情報を入出力装置12に出力する。出力部113は、測定値の判定結果が異常と判定されなかったときは、異常が発見できなかったことを示す情報を入出力装置12に出力する。
【0029】
図3は、本実施形態に係る操作情報収集の動作の一例を示すフローチャートである。
(ステップS101)操作情報収集部101は、監視対象ネットワーク10から操作情報を取得する。その後ステップS102に進む。
(ステップS102) 操作情報収集部101は、操作履歴DB103に記録された操作履歴情報テーブル内の操作情報の数が予め定めた数より大きいか否かを判定する。操作情報の数が予め定めた数より大きいと判定した場合(Yes)はステップS103に進む。操作情報の数が予め定めた数より大きくないと判定した場合(No)はステップS104に進む。
(ステップS103)操作情報収集部101は、操作履歴情報テーブルから最も古い操作情報を削除する。その後ステップS104に進む。
(ステップS104)操作情報収集部101は、ステップS101で取得した操作情報を操作履歴DB103に書き込む。その後ステップS101に戻る。
【0030】
なお、ステップS102では、操作情報の数が予め定めた数より大きいか否かで判定を行ったが、操作情報のタイムスタンプが予め定めた期間より古いか否かに基づいて判定を行ってもよい。
【0031】
図4は、本実施形態に係る操作履歴DB103に記憶される操作情報の一例を示す概略図である。図示するように操作履歴テーブルは、操作時刻情報が示す時刻であるタイムスタンプ、IPアドレス、MACアドレス、機器名、操作内容情報が示す操作内容、操作状況情報が示すエラー状況の各項目の列を有している。操作履歴テーブルは、タイムスタンプ毎に操作情報が格納される行と列からなる2次元の表形式のデータである。
【0032】
例えば、符合4aを付した操作情報は、タイムスタンプが2011/6/3 17:03:40、IPアドレスは未定、MACアドレスは不明、機器名が「CenterSW」、操作内容は「Link Up」、エラー状況は正常であることを示している。
符合4bを付した操作情報は、タイムスタンプが2011/6/3 17:04:20、IPアドレスが192.168.1.30、MACアドレスが00:1b:ba:e0:b4:9c、機器名が「AsyaTV」、操作内容が「DHCPにてアドレス取得」、エラー状況は正常であることを示している。
符合4cを付した操作情報は、タイムスタンプが2011/6/3 17:10:05、IPアドレスが192.168.1.30、MACアドレスが00:1b:ba:e0:b4:9c、機器名が「AsyaTV」、操作内容が「DLANで動画を視聴」、エラー状況は正常であることを示している。
【0033】
図5は、本実施形態に係る測定値収集の動作の一例を示すフローチャートである。
(ステップS201)測定値情報収集部107は、監視情報ネットワーク10から測定値情報を取得する。その後ステップS202に進む。
(ステップS202) 測定値情報収集部107は、測定値履歴DB108に記録された測定値情報テーブル内の測定値情報の数が予め定めた数より大きいか否かを判定する。測定値情報の数が予め定めた数より大きいと判定した場合(Yes)はステップS203に進む。測定値情報の数が予め定めた数より大きくないと判定した場合(No)はステップS204に進む。
(ステップS203)測定値情報収集部107は、測定値履歴DB108から、最も古い測定値情報を削除する。その後ステップS204に進む。
(ステップS204)測定値情報収集部107は、ステップS201で取得した測定値情報を測定値履歴DB108に書き込む。その後ステップS201に進む。
【0034】
図6は、本実施形態に係る測定値履歴DB108に記憶される測定値履歴テーブルの一例を示す概略図である。図示するように測定値履歴テーブルは、測定値時刻情報であるタイムスタンプ、IPアドレス、MACアドレス、測定項目、及び測定値の各項目の列を有している。測定値履歴テーブルは、タイムスタンプ毎に測定値情報が格納される行と列からなる2次元の表形式のデータである。
例えば、符号6aを付した測定値情報は、タイムスタンプが2011/6/3 17:00:01、IPアドレスは192.168.1.28、MACアドレスは00:1b:ba:e0:b4:9c、操作項目が「Wan側パケット送出」、測定値が「25」であることを示している。
符号6bを付した測定値情報は、タイムスタンプが2011/6/3 17:00:10、IPアドレスは192.168.1.28、MACアドレスは00:1b:ba:e0:b4:9c、操作項目が「パケット入力」、測定値が「55」であることを示している。
符号6cを付した測定値情報は、タイムスタンプが2011/6/3 17:02:11、IPアドレスは192.168.1.42、MACアドレスは00:22:15:df:69:83、操作内容が「パケットコリジョン」、測定値が「10」であることを示している。
【0035】
図7は、本実施形態に係る故障期間DB106に記憶される故障期間情報テーブルの一例を示す概略図である。図示するように故障期間情報テーブルは、故障期間情報が示す故障開始時刻、故障終了時刻、及びIPアドレス、MACアドレスの各項目の列を有している。故障期間情報テーブルは、故障開始時刻毎に、故障終了時刻、IPアドレス、MACアドレスが格納される行と列からなる2次元の表形式のデータである。
例えば、符合7aを付した故障期間情報は、故障開始時刻が2011/6/3 17:02:11、故障終了時刻が2011/6/3 17:35:00、IPアドレスは192.168.1.42、MACアドレスは00:22:15:df:69:83であることを示している。
符合7bを付した故障期間情報は、故障開始時刻が2011/6/3 18:25:37、故障終了時刻が2011/6/3 19:14:20、IPアドレスは192.168.1.28、MACアドレスは00:1b:ba:e0:b4:9cであることを示している。
【0036】
図8は、本実施形態に係るベースラインテーブルの一例を示す概略図である。図示するようにベースラインテーブルは、ベースライン単位時間毎に、測定値の平均値と分散の各項目の列を有している行と列からなる2次元の表形式のデータである。ここで、測定値の種類と測定対象のMACアドレス毎に測定値の平均値と分散の各項目の列が設けられている。ベースラインテーブルには、例えば、過去1ヶ月間の各日における測定値のうち、正常動作期間に含まれる測定値についての平均値と分散が記録されている。
符合9aを付したデータは、時間00:00:00〜00:10:00において、MACアドレスが00:1a:ba:e0:b4:9cのパケット入力数の平均値が750、分散が78、パケットコリジョンの平均値が12、分散が3、MACアドレスが00:22:15:df:69:83のパケット数の平均値が2645、分散が230、パケットコリジョンの平均値が45、分散が9であることを示している。実際は、全ての測定ポイントにおける全ての測定値についてベースラインが記憶されるが、本図では煩雑となるため省略している。
【0037】
図9は、本実施形態に係るベースライン生成処理を示すフローチャートである。
(ステップS301)ベースライン生成部109は、予め定めた一定期間が経過したか否かを判定する。ここで、一定期間とは、例えば、10分である。予め定めた一定期間が経過したと判定した場合(Yes)は、ステップS302に進む。予め定めた一定期間が経過していないと判定した場合(No)は、ステップS301に進む。
(ステップS302)ベースライン生成部109は、故障期間DB106から故障期間情報を読み出し、故障期間情報が示す故障期間を抽出する。ベースライン生成部109は、故障期間に基づいて正常動作期間を算出する。その後ステップS303に進む。
【0038】
(ステップS303)ベースライン生成部109は、測定値履歴DB108に記録された測定値情報から、ステップS302で算出した正常動作期間に含まれる測定値を読み出す。その後ステップS304に進む。
(ステップS304)ベースライン生成部109は、ステップS303で読み出した各測定値について、ベースライン単位時間毎に各測定値の平均値、及び分散(ベースライン)を算出する。ベースライン生成部109は、算出したベースラインをベースラインDB110に書き込む。その後ステップS301に進む。
【0039】
図10は、本実施形態に係る異常値/故障箇所対応テーブルの一例を示す概略図である。図示するように異常値/故障箇所対応テーブルは、異常値毎に、故障箇所の項目を有する行と列からなる2次元の表形式のデータである。
符合10aを付したデータは、MACアドレスが00:22:15:df:69:83の測定ポイントのWebサーバアクセス回数が異常値を示した場合には、MACアドレスが11:22:33:44:55:66のHTTPサーバが故障している可能性が高いことを示している。符合10bを付したデータは、MACアドレスが00:1b:ba:e0:b4:9cの測定ポイントのパケット数が異常値を示した場合には、MACアドレスが22:33:44:55:66:77のルータが故障している可能性が高いことを示している。符合10cを付したデータは、MACアドレスが00:02:c1:4a:7d:b6の測定ポイントのパケットコリジョン数が異常値を示した場合には、MACアドレスが33:44:55:66:77:88のDHCPサーバが故障している可能性が高いことを示している。
異常値/故障箇所対応テーブルは、測定項目と故障の相関が高い組み合わせに基づいて予め作成しておく。
【0040】
図11は、本実施形態に係る故障箇所特定処理を示すフローチャートである。
(ステップS401)入力部102は、操作者から障害発生情報を入力される。ここで、障害発生情報とは、例えば、障害時間情報(「6月上旬」)、障害内容情報(「Webブラウザアクセス」)障害状況情報(「エラー」)である。その後ステップS402に進む。
(ステップS402)操作履歴抽出部104は、操作履歴DB103から、ステップS401で入力された、障害発生情報に対応するイベントを抽出する。例えば、操作履歴DBから、操作時刻情報が「6月上旬」に含まれ、操作内容情報が「Webブラウザアクセス」であり、操作状況情報が「エラー」である操作情報を抽出する。操作履歴抽出部104は、抽出した操作情報を故障期間抽出部105に出力する。その後ステップS403に進む。
【0041】
(ステップS403)故障期間抽出部105は、ステップS402で抽出した操作情報のうち、最もタイムスタンプの古い時刻と、最もタイムスタンプの新しい時刻との間の時間を故障期間として抽出する。故障期間抽出部105は、抽出した故障期間を示す故障期間情報を故障期間DB106に書き込み、異常値判定部111に出力する。その後ステップS404に進む。
(ステップS404)異常値判定部111は、ステップS403で抽出した故障期間情報が示す故障期間に対応する測定値情報を測定値履歴DB108から読み出す。異常値判定部111は、ステップ403で抽出した故障期間に対応するベースライン情報をベースラインDB110から読み出す。その後ステップS405に進む。
【0042】
(ステップS405)異常値判定部111は、各測定ポイント、測定値の種類毎に、測定値情報が示す測定値とベースライン情報が示すベースラインとを比較し、測定値が異常であるか否かを判定する。具体的には、異常値判定部111は、故障期間における測定値が平均値−n×分散≦測定値≦平均値+n×分散(nは予め定めた正の数)の関係を満たすか否かを判定する。関係を満たすと判定された場合(Yes)はステップS405に進む。関係を満たさないと判定された場合(No)はステップS407に進む。
【0043】
(ステップS406)出力部113は、異常値/故障箇所対応テーブルから、ステップS405で異常と判定された測定値に対応する故障箇所を抽出する。その後ステップS407に進む。
(ステップS407)出力部113は、ステップS405において測定が異常値であると判定された場合は、ステップS406で抽出した故障個所を示す表示情報を入出力装置12に出力する。出力部113は、ステップS405において測定が異常値であると判定されなかった場合は、異常が見つからなかったことを示す表示情報を入出力装置12に出力する。入出力装置12は、出力部113から入力された表示情報を表示する。その後終了処理に進む。
【0044】
このように、本実施形態では、故障検出装置13は、ネットワーク機器11の操作に関する情報とネットワーク機器11に対する操作が行われた時刻とを紐付けた操作履歴情報を記録する操作履歴DB103と、ネットワーク機器11の動作状況を表す測定値と測定値が測定された時刻とを紐付けた測定履歴情報を記録する測定値履歴DB108と、操作履歴情報に基づいて、ネットワーク機器11の故障期間を特定する故障期間抽出部105と、故障期間と測定履歴情報とに基づいて故障期間以外の時刻に紐付けられた測定値を抽出し、抽出した測定値のベースライン情報を生成するベースライン生成部109と、ベースライン生成部109が生成したベースライン情報と、故障発生期間に時刻に紐付けられた測定値とを比較してネットワーク機器11の異常を検出する異常値判定部111とを備える。これにより、故障検出装置13は、故障が発生している時間帯でのデータに対し、故障が発生していない期間のデータを元に作成されたベースラインと比較することで、異常値の抽出率が向上し、故障箇所の推定能力を向上させることができる。すなわち、故障検出装置13は、異常の検出を確実にできる。
【0045】
また、本実施形態では、抽出部105は、利用者からの情報と、操作履歴とに基づいて故障発生時間を特定する。これにより、利用者の記憶に基づいて、操作履歴DBから、ネットワーク機器11が出力した正確な操作履歴を抽出し、抽出した操作履歴に基づいて故障発生時間を特定することができる。これにより、真に故障が発生していた時間における異常値判定をおこなうことができるため、異常値判定の精度が向上する。
【0046】
なお、本実施形態では、操作履歴抽出部104は、操作者から入力された障害発生情報に基づいて操作情報を抽出し、故障期間抽出部105は、抽出された操作情報に基づいて故障期間情報を抽出した。しかし、故障期間情報の抽出はこれに限られず、操作履歴DB103に記録された操作状況情報に基づいて操作履歴抽出部104が抽出した操作情報に基づいて、故障期間抽出部105が故障期間情報を抽出してもよい。
【0047】
なお、故障検出装置13の各部及び各DBはネットワークにて接続された別の装置の一部であってもよい。
【0048】
なお、本実施形態では、測定値は、UPnP情報、SNMP情報、DHCP情報等に含まれている情報を用いたが、例えば、ネットワーク機器11が単位時間に送信したパケットの数などを測定値としてもよい。
【0049】
なお、故障期間の抽出は、例えば以下のように行ってもよい。
(ア)あるイベント発生から予め定めた一定時間を故障期間とする。
(イ)あるイベントと別のあるイベントとの発生時刻の間の時間を故障期間とする。
(ウ)あるイベントと別のあるイベントとの発生時刻の間の時間の前後に一定時間を加えたものを故障期間とする。
【0050】
なお、故障期間抽出部105は、あるイベントが一定時間内に発生した頻度が予め定めた値を超えた場合又は予め定めた値を下回った場合に、その期間を故障期間としてもよい。
【0051】
なお、ベースライン生成部109は、ベースライン生成処理において、故障期間に含まれる全ての機器に関する、全ての測定値を除外してベースラインを生成したが、故障期間における故障と判定された装置に関する測定値のみを除外してベースラインを作成してもよい。また、故障期間における故障と判定された装置、故障と判定された測定値のみを除外してベースラインを作成してもよい。
【0052】
なお、操作情報または測定値情報に時刻が記録されていない場合には、故障検出装置13が操作情報または測定値情報を収集した時刻を操作時刻情報または測定値時刻情報としてもよい。その場合には、収集した時刻を操作を行った時刻または測定値を測定した時刻として取り扱う。
【0053】
なお、上述した実施形態における故障検出装置13の一部、例えば、故障期間抽出部105、ベースライン生成部109、異常値判定部111をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、故障検出装置13に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における故障検出装置13の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。故障検出装置の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
【0054】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0055】
1・・・故障検出システム、10・・・監視対象ネットワーク、11、11a〜11e・・・ネットワーク機器、12・・・入出力装置、13・・・故障検出装置、101・・・操作情報収集部、102・・・入力部、103・・・操作履歴DB、104・・・操作履歴抽出部、105・・・故障期間抽出部、106・・・故障期間DB、107・・・測定値情報収集部、108・・・測定値履歴DB、109・・・ベースライン生成部、110・・・ベースラインDB、111・・・異常値判定部、112・・・異常値/故障箇所対応DB、113・・・出力部、GW・・・ゲートウェイ、Hub・・・ハブ、RT・・・ルータ、SW・・・スイッチ
【技術分野】
【0001】
本発明は、ベースライン生成装置、異常検出装置、ベースライン生成方法、及びベースライン生成プログラムに関する。
【背景技術】
【0002】
ネットワークに接続された機器の故障を検出する手法として、ベースライン分析が知られている。例えば、特許文献1には、ネットワークから得られた現在の実時間性能データから、異常と相関する時間的な目的関数を導出し、ネットワークから得られた履歴性能データから目的関数の時間変動に対するする最大しきい値を導出し、現在の実時間性能データから導出された目的関数を、現在の実時間性能データに連関する時点に時間的に対応する時点における最大しきい値と比較し、現在の実時間性能データから導出された目的関数が、予め定められた時間よりも長い間、最大しきい値よりも大きいことを示す場合に、異常が存在すると定めるベースライン分析方法が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−057555号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術に係るベースライン分析を用いた故障検出法は、エラーとして検出されないサイレント故障を検知する目的に用いられてきた。そのため、従来技術では、ベースライン分析時にサイレント故障が発生しているか否かに関する情報は利用されていなかった。また、従来技術では、各機器のデータの測定値を一定間隔のタイムスパン毎にベースラインと比較する機械的な統計処理を行っていた。従って、従来技術では、検出時のタイムスパンの設定が故障発生時のタイムスパンと合っていないため、また、正常値の基準となるベースラインが、異常時の値をも含んで生成されているため、ベースラインの信頼性が確かでなかった。つまり、異常の検出をできない場合があるという問題があった。
【0005】
本発明は上記の点に鑑みてなされたものであり、異常の検出を確実にできるベースライン生成装置、異常検出装置、ベースライン生成方法、及びベースライン生成プログラムを提供する。
【課題を解決するための手段】
【0006】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障発生期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成部を具備することを特徴とするベースライン生成装置である。
【0007】
(2)また、本発明の一態様は、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成部と、監視対象システムに対する操作に関する情報を記憶する操作履歴記憶部と、前記操作に関する情報に基づき、故障期間を決定する故障期間抽出部と、前記故障期間に測定された前記測定値について、前記ベースライン情報に基づき、異常値であるか否かを判定する異常値判定部とを具備することを特徴とする異常検出装置である。
【0008】
(3)また、本発明の一態様は、上記の異常検出装置において、前記故障期間抽出部は、操作者から入力された情報に対応する情報であって、前記操作に関する情報に基づき、前記故障期間を決定することを特徴とする。
【0009】
(4)また、本発明の一態様は、上記の異常検出装置において、前記監視対象システムは、複数の機器から構成され、前記測定値は、複数の測定項目各々に対する測定値であり、前記ベースライン生成部は、前記測定項目の各々に関するベースライン情報を生成し、前記異常検出装置は、前記異常値と判定された測定値の測定項目に基づき、前記複数の機器の中から異常が発生している機器を検出する異常機器検出部を具備することを特徴とする。
(5)また、本発明の一態様は、ベースライン生成装置における方法において、前記ベースライン生成装置が、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障発生期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成過程を有することを特徴とするベースライン生成方法である。
(6)また、本発明の一態様は、ベースライン生成装置のコンピュータに、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障発生期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成手順を実行させるためのベースライン生成プログラムである。
【発明の効果】
【0010】
本発明によれば、異常の検出を確実にできる。
【図面の簡単な説明】
【0011】
【図1】本実施形態に係る故障検出システムの概念図である。
【図2】本実施形態に係る故障検出装置の構成を示す概略ブロック図である。
【図3】本実施形態に係る操作情報収集の動作の一例を示すフローチャートである。
【図4】本実施形態に係る操作情報の一例を示す概略図である。
【図5】本実施形態に係る測定値収集の動作の一例を示すフローチャートである。
【図6】本実施形態に係る操作情報の一例を示す概略図である。
【図7】本実施形態に係る故障期間情報テーブルの一例を示す概略図である。
【図8】本実施形態に係るベースライン生成処理を示すフローチャートである。
【図9】本実施形態に係るベースラインテーブルの一例を示す概略図である
【図10】本実施形態に係る異常値故障箇所対応テーブルの一例を示す概略図である。
【図11】本実施形態に係る故障箇所特定処理を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本実施形態に係る故障検出システム1の概念図である。図示する例では、故障検出システム1は、監視対象ネットワーク10、ネットワーク機器11a〜11e、入出力装置12、故障検出装置13を含んで構成される。
監視対象ネットワーク10は、故障検出システム1が故障の検出をする対象のネットワークである。監視対象ネットワーク10は、家庭内LAN(Local Area Network)や、ネットワークプロバイダが提供するLANやWAN(Wide Area Network)などである。監視対象ネットワーク10は、ゲートウェイGW、ルータRT、スイッチSW、ハブHubなどのネットワーク管理機器及び一般のPCなどのネットワーク機器11a〜11e(各々をネットワーク機器11とも称する)を含んで構成される。ゲートウェイGW、ルータRT、スイッチSW、ハブHubは、監視対象ネットワーク10に測定値情報を出力する。測定値情報には、UPnP(Universal Plag and Play)情報、SNMP(Simple Network Management Protocol)情報、DHCP(Dynamic Host Configulation Protocol)情報等の測定値内容情報(測定項目及び測定値)及び測定が行われた時刻(測定時刻とも称する)を示す測定時刻情報が含まれる。
【0013】
ネットワーク機器11a〜11e(各々をネットワーク機器11とも称する)は、監視対象ネットワーク10にネットワークインターフェイスを介して接続された電子機器である。ネットワーク機器11は、ネットワークインターフェイスを介して監視対象ネットワーク10に対して操作情報及び測定値情報を出力する。ここで、操作情報とは、ネットワーク機器11に利用者から操作が行われたことに起因してネットワーク機器11が出力する情報である。操作情報には、操作が行われた時刻を示す操作時刻情報、操作の内容を示す操作内容情報、操作の結果エラーが発生したか否かを示す操作状況情報が含まれる。
【0014】
入出力装置12は、キーボードやタッチパネル等の入力装置とディスプレイなどの出力装置から構成される。入出力装置12は、故障検出装置13に接続されている。入出力装置12には、サポートセンタのオペレータ又は利用者(以後操作者と呼ぶ)から障害が起こった時刻を含む障害発生情報を入力される。入出力装置12は、障害が起こった箇所やその障害に対する対処法等を表示する。
【0015】
故障検出装置13は、監視対象ネットワーク10から操作情報及び測定値情報を収集する。故障検出装置13は、収集した操作情報の履歴及び測定値情報の履歴を記録する。故障検出装置13は、入出力装置12から入力された障害発生情報と、記録した操作情報の履歴とに基づいて、障害が発生した時間である故障期間を抽出する。故障検出装置13は、抽出した故障期間以外の測定時刻における測定値情報を用いて、ベースラインを生成する。
このベースラインは、測定項目が同一又は類似するものを、予め定めた時間で計数した数を時系列に並べたものである。
故障検出装置13は、予め生成したベースラインと故障発生時の通信状況を比較して、通信異常箇所を判定する。故障検出装置13は、判定した結果を入出力装置12に表示させる。
【0016】
図2は本実施形態に係る故障検出装置13の構成を示す概略ブロック図である。
図示する例では、故障検出装置13は、操作情報収集部101、入力部102、操作履歴DB(Data Base;操作履歴記録部)103、操作履歴抽出部104、故障期間抽出部105、故障期間DB106、測定値情報収集部107、測定値履歴DB108、ベースライン生成部109、ベースラインDB110、異常値判定部111、異常値/故障箇所対応DB112、及び出力部(異常機器検出部)113を含んで構成される。
【0017】
操作情報収集部101は、監視対象ネットワーク10から操作情報を収集する。ここで、操作情報には、操作内容情報、操作時刻情報、及び操作状況情報が含まれる。操作内容情報とは、例えば以下の(ア)〜(オ)のような情報である。
(ア)監視対象ネットワークにネットワーク機器11が接続された又は切断されたことを示す情報。
(イ)監視対象ネットワークのネットワーク機器11の電源がOnになった又はOffになったことを示す情報。
(ウ)監視対象ネットワークのネットワーク機器11がサービス開始となった又はサービス停止となったことを示す情報。
(エ)監視対象ネットワークのネットワーク機器11にてサービスYが実施されたことを示す情報。
(オ)監視対象ネットワークのネットワーク機器11にてサービスYが実施され、エラーが発生したことを示す情報。
ここで、サービスYとは、例えば、ウェブブラウザ、UPnP、DHCPなどである。
操作情報収集部101は、操作情報を操作履歴DB103に書き込む。操作情報収集部101は、操作履歴DB103に記憶した操作情報が予め定めた数に達した場合は、最も古いタイムスタンプを持つ操作情報を削除して、新たに入力された操作情報を記録する。
【0018】
入力部102は、入出力装置12を介して操作者から障害発生情報を入力される。ここで、障害発生情報とは、ネットワーク利用者が遭遇した障害を示す情報である。例えば、障害発生情報とは、「6月上旬」「Webブラウザアクセス」「エラー」といった操作者に利用者が伝達する情報である。入力部102は、入力された障害発生情報に基づいて、障害時間情報、障害内容情報、及び障害状況情報の候補を生成する。ここで、障害時間情報とは、障害があった時間(故障期間)を示す情報である。障害内容情報とは、障害が起こった操作(例えば、ftpアクセス、Webアクセス)と、その障害が起こったネットワーク機器11のIPアドレス、MACアドレスとを示す情報である。障害状況情報とは、例えば、エラー発生などの障害の状況を示す情報である。入力部102は、例えば、入出力装置12に障害時間情報、障害内容情報、及び障害状況情報の候補を表示させ、操作者が選択した障害時間情報、障害内容情報、及び障害状況情報を生成する。
入力部102は、生成した障害時間情報、障害内容情報、及び障害状況情報を操作履歴抽出部104に出力する。
【0019】
操作履歴DB103は、操作情報収集部101から入力された操作情報を操作履歴情報テーブルに記憶する。操作履歴情報テーブルとは、過去に入力された操作情報の履歴から構成されるテーブルである。なお、なお、操作履歴DB103が記憶する操作履歴情報テーブルの詳細については、図面を参照しながら後述する。
【0020】
操作履歴抽出部104は、入力部102から入力された障害時間情報、障害内容情報、障害状況情報と、操作履歴DB103に記録された操作時刻情報、操作内容情報、操作状況情報を比較し、操作履歴DB103から次の(ア)〜(ウ)の全ての条件を満たす操作情報を抽出する。
(ア)操作時刻情報が、障害時間情報が示す時間の範囲内に含まれる。
(イ)操作内容情報が、障害内容情報と一致する、もしくは、予め設定された所定のルールで導かれるものと一致する。
(ウ)操作状況情報が、障害状況情報と一致する。
操作履歴抽出部104は、抽出した操作情報を故障期間抽出部105に出力する。
【0021】
故障期間抽出部105は、操作履歴抽出部104で抽出された操作情報に基づいて故障期間、及び対応するIPアドレス、MACアドレスを抽出する。ここで、故障期間とは、抽出した操作情報のうち、操作時刻情報が示す時刻が最も古い時刻から、操作時刻情報が示す時刻が最も新しい時刻までの期間を指す。故障期間抽出部105は、抽出した故障期間を示す故障期間情報を故障期間DB106及び異常値判定部111に出力する。
【0022】
故障期間DB106は、故障期間抽出部105から入力された故障期間情報を故障期間情報テーブルに記憶する。なお、故障期間DB106が記憶する故障期間情報テーブルの詳細については、図面を参照しながら後述する。
【0023】
測定値情報収集部107は、監視対象ネットワーク10から測定値情報を収集する。ここで、測定値情報は、測定値時刻情報及び測定値内容情報を含む。測定値時刻情報は、測定ポイントで測定値を測定した測定時刻を示す。また、測定値内容情報は、例えば、測定ポイントが生成したUPnP情報(例えば、BBR(ブロードバンドルータ)のWAN(Wide Area Network)側のパケット数、LAN側のパケット数)、SNMP情報(例えば、ハブ、スイッチのポート毎の入出力パケット数、コリジョンパケット数など)、DHCP情報(例えば、Discoverコマンド送信数、OFFER応答数など)などである。
測定値情報収集部107は、測定値情報を測定値履歴DB108に書き込む。なお、測定値情報の詳細については、図面を参照しながら後述する。
【0024】
測定値履歴DB108は、測定値情報収集部107から入力された測定値情報を測定値情報テーブルに記憶する。つまり、測定値履歴テーブルとは、過去に入力された測定値情報の履歴から構成されるテーブルである。なお、測定値履歴DB108が記憶する測定値履歴情報テーブルの詳細については、図面を参照しながら後述する。
【0025】
ベースライン生成部109は、故障期間DB106から故障期間情報を読み出す。ベースライン生成部109は、故障期間情報が示す故障期間以外の期間(正常動作期間と呼ぶ)における各測定値情報を測定値履歴DB108から読み出す。ベースライン生成部109は、各測定値情報から各測定値を抽出する。ベースライン生成部109は、例えば、過去1ヶ月間に渡る各日の各測定値のうち、正常動作期間に含まれる各測定値について、予め定めたベースライン単位時間(例えば、10分)毎の平均値、及び分散(ベースライン単位時間毎の各測定値の平均値、及び分散を総称してベースラインとも呼ぶ)を算出する(ベースライン作成処理と呼ぶ)。ベースライン生成部109は、算出したベースラインを示すベースライン情報をベースラインDB110に書き込む。つまり、ベースライン生成部109は、正常動作期間に測定された測定値に基づいてベースラインを生成する。
ベースラインDB110は、ベースライン生成部109が生成したベースライン情報を記録する。
【0026】
異常値判定部111は、測定値情報が示す測定値が異常値であるか否かを判定する。具体的には、異常値判定部111は、故障期間抽出部105から故障期間情報を入力される。異常値判定部111は、故障期間情報が示す故障期間に対応する測定値情報を測定値履歴DB108から読み出す。異常値判定部111は、故障期間情報が示す故障期間に対応するベースライン情報をベースラインDB110から読み出す。異常値判定部111は、故障期間における測定値及びベースライン情報が示すベースライン(例えば、平均値、分散)に基づいて、測定値が異常であるか否かを判定する。例えば、異常値判定部111は、故障期間における測定値が平均値−n×分散≦測定値≦平均値+n×分散(nは予め定めた正の数)の関係を満たしている場合は、測定値は正常であると判断する。異常値判定部111は、この関係を満たさない場合は、測定値は異常であると判断する。異常値判定部111は、各測定値について、それに対応するベースラインを用いて上記の判定を行い、各測定項目の正常、異常を判定する。異常値判定部111は、各測定項目の判定結果を出力部113に出力する。
【0027】
異常値/故障箇所対応DB112は、MACアドレス、測定項目、及び故障箇所との関係を示す異常値/故障箇所対応テーブルを記憶する。異常値/故障箇所対応テーブルの詳細は図面を参照しながら後述する。
【0028】
出力部113は、異常値判定部111から各測定項目の判定結果を入力される。出力部113は、各測定値の判定結果が異常と判定された場合は、異常値/故障箇所対応DB112に記録された異常値/故障箇所対応テーブルを参照して、異常であると判定された測定項目に対応する装置の故障箇所の情報を抽出し、抽出した情報を入出力装置12に出力する。出力部113は、測定値の判定結果が異常と判定されなかったときは、異常が発見できなかったことを示す情報を入出力装置12に出力する。
【0029】
図3は、本実施形態に係る操作情報収集の動作の一例を示すフローチャートである。
(ステップS101)操作情報収集部101は、監視対象ネットワーク10から操作情報を取得する。その後ステップS102に進む。
(ステップS102) 操作情報収集部101は、操作履歴DB103に記録された操作履歴情報テーブル内の操作情報の数が予め定めた数より大きいか否かを判定する。操作情報の数が予め定めた数より大きいと判定した場合(Yes)はステップS103に進む。操作情報の数が予め定めた数より大きくないと判定した場合(No)はステップS104に進む。
(ステップS103)操作情報収集部101は、操作履歴情報テーブルから最も古い操作情報を削除する。その後ステップS104に進む。
(ステップS104)操作情報収集部101は、ステップS101で取得した操作情報を操作履歴DB103に書き込む。その後ステップS101に戻る。
【0030】
なお、ステップS102では、操作情報の数が予め定めた数より大きいか否かで判定を行ったが、操作情報のタイムスタンプが予め定めた期間より古いか否かに基づいて判定を行ってもよい。
【0031】
図4は、本実施形態に係る操作履歴DB103に記憶される操作情報の一例を示す概略図である。図示するように操作履歴テーブルは、操作時刻情報が示す時刻であるタイムスタンプ、IPアドレス、MACアドレス、機器名、操作内容情報が示す操作内容、操作状況情報が示すエラー状況の各項目の列を有している。操作履歴テーブルは、タイムスタンプ毎に操作情報が格納される行と列からなる2次元の表形式のデータである。
【0032】
例えば、符合4aを付した操作情報は、タイムスタンプが2011/6/3 17:03:40、IPアドレスは未定、MACアドレスは不明、機器名が「CenterSW」、操作内容は「Link Up」、エラー状況は正常であることを示している。
符合4bを付した操作情報は、タイムスタンプが2011/6/3 17:04:20、IPアドレスが192.168.1.30、MACアドレスが00:1b:ba:e0:b4:9c、機器名が「AsyaTV」、操作内容が「DHCPにてアドレス取得」、エラー状況は正常であることを示している。
符合4cを付した操作情報は、タイムスタンプが2011/6/3 17:10:05、IPアドレスが192.168.1.30、MACアドレスが00:1b:ba:e0:b4:9c、機器名が「AsyaTV」、操作内容が「DLANで動画を視聴」、エラー状況は正常であることを示している。
【0033】
図5は、本実施形態に係る測定値収集の動作の一例を示すフローチャートである。
(ステップS201)測定値情報収集部107は、監視情報ネットワーク10から測定値情報を取得する。その後ステップS202に進む。
(ステップS202) 測定値情報収集部107は、測定値履歴DB108に記録された測定値情報テーブル内の測定値情報の数が予め定めた数より大きいか否かを判定する。測定値情報の数が予め定めた数より大きいと判定した場合(Yes)はステップS203に進む。測定値情報の数が予め定めた数より大きくないと判定した場合(No)はステップS204に進む。
(ステップS203)測定値情報収集部107は、測定値履歴DB108から、最も古い測定値情報を削除する。その後ステップS204に進む。
(ステップS204)測定値情報収集部107は、ステップS201で取得した測定値情報を測定値履歴DB108に書き込む。その後ステップS201に進む。
【0034】
図6は、本実施形態に係る測定値履歴DB108に記憶される測定値履歴テーブルの一例を示す概略図である。図示するように測定値履歴テーブルは、測定値時刻情報であるタイムスタンプ、IPアドレス、MACアドレス、測定項目、及び測定値の各項目の列を有している。測定値履歴テーブルは、タイムスタンプ毎に測定値情報が格納される行と列からなる2次元の表形式のデータである。
例えば、符号6aを付した測定値情報は、タイムスタンプが2011/6/3 17:00:01、IPアドレスは192.168.1.28、MACアドレスは00:1b:ba:e0:b4:9c、操作項目が「Wan側パケット送出」、測定値が「25」であることを示している。
符号6bを付した測定値情報は、タイムスタンプが2011/6/3 17:00:10、IPアドレスは192.168.1.28、MACアドレスは00:1b:ba:e0:b4:9c、操作項目が「パケット入力」、測定値が「55」であることを示している。
符号6cを付した測定値情報は、タイムスタンプが2011/6/3 17:02:11、IPアドレスは192.168.1.42、MACアドレスは00:22:15:df:69:83、操作内容が「パケットコリジョン」、測定値が「10」であることを示している。
【0035】
図7は、本実施形態に係る故障期間DB106に記憶される故障期間情報テーブルの一例を示す概略図である。図示するように故障期間情報テーブルは、故障期間情報が示す故障開始時刻、故障終了時刻、及びIPアドレス、MACアドレスの各項目の列を有している。故障期間情報テーブルは、故障開始時刻毎に、故障終了時刻、IPアドレス、MACアドレスが格納される行と列からなる2次元の表形式のデータである。
例えば、符合7aを付した故障期間情報は、故障開始時刻が2011/6/3 17:02:11、故障終了時刻が2011/6/3 17:35:00、IPアドレスは192.168.1.42、MACアドレスは00:22:15:df:69:83であることを示している。
符合7bを付した故障期間情報は、故障開始時刻が2011/6/3 18:25:37、故障終了時刻が2011/6/3 19:14:20、IPアドレスは192.168.1.28、MACアドレスは00:1b:ba:e0:b4:9cであることを示している。
【0036】
図8は、本実施形態に係るベースラインテーブルの一例を示す概略図である。図示するようにベースラインテーブルは、ベースライン単位時間毎に、測定値の平均値と分散の各項目の列を有している行と列からなる2次元の表形式のデータである。ここで、測定値の種類と測定対象のMACアドレス毎に測定値の平均値と分散の各項目の列が設けられている。ベースラインテーブルには、例えば、過去1ヶ月間の各日における測定値のうち、正常動作期間に含まれる測定値についての平均値と分散が記録されている。
符合9aを付したデータは、時間00:00:00〜00:10:00において、MACアドレスが00:1a:ba:e0:b4:9cのパケット入力数の平均値が750、分散が78、パケットコリジョンの平均値が12、分散が3、MACアドレスが00:22:15:df:69:83のパケット数の平均値が2645、分散が230、パケットコリジョンの平均値が45、分散が9であることを示している。実際は、全ての測定ポイントにおける全ての測定値についてベースラインが記憶されるが、本図では煩雑となるため省略している。
【0037】
図9は、本実施形態に係るベースライン生成処理を示すフローチャートである。
(ステップS301)ベースライン生成部109は、予め定めた一定期間が経過したか否かを判定する。ここで、一定期間とは、例えば、10分である。予め定めた一定期間が経過したと判定した場合(Yes)は、ステップS302に進む。予め定めた一定期間が経過していないと判定した場合(No)は、ステップS301に進む。
(ステップS302)ベースライン生成部109は、故障期間DB106から故障期間情報を読み出し、故障期間情報が示す故障期間を抽出する。ベースライン生成部109は、故障期間に基づいて正常動作期間を算出する。その後ステップS303に進む。
【0038】
(ステップS303)ベースライン生成部109は、測定値履歴DB108に記録された測定値情報から、ステップS302で算出した正常動作期間に含まれる測定値を読み出す。その後ステップS304に進む。
(ステップS304)ベースライン生成部109は、ステップS303で読み出した各測定値について、ベースライン単位時間毎に各測定値の平均値、及び分散(ベースライン)を算出する。ベースライン生成部109は、算出したベースラインをベースラインDB110に書き込む。その後ステップS301に進む。
【0039】
図10は、本実施形態に係る異常値/故障箇所対応テーブルの一例を示す概略図である。図示するように異常値/故障箇所対応テーブルは、異常値毎に、故障箇所の項目を有する行と列からなる2次元の表形式のデータである。
符合10aを付したデータは、MACアドレスが00:22:15:df:69:83の測定ポイントのWebサーバアクセス回数が異常値を示した場合には、MACアドレスが11:22:33:44:55:66のHTTPサーバが故障している可能性が高いことを示している。符合10bを付したデータは、MACアドレスが00:1b:ba:e0:b4:9cの測定ポイントのパケット数が異常値を示した場合には、MACアドレスが22:33:44:55:66:77のルータが故障している可能性が高いことを示している。符合10cを付したデータは、MACアドレスが00:02:c1:4a:7d:b6の測定ポイントのパケットコリジョン数が異常値を示した場合には、MACアドレスが33:44:55:66:77:88のDHCPサーバが故障している可能性が高いことを示している。
異常値/故障箇所対応テーブルは、測定項目と故障の相関が高い組み合わせに基づいて予め作成しておく。
【0040】
図11は、本実施形態に係る故障箇所特定処理を示すフローチャートである。
(ステップS401)入力部102は、操作者から障害発生情報を入力される。ここで、障害発生情報とは、例えば、障害時間情報(「6月上旬」)、障害内容情報(「Webブラウザアクセス」)障害状況情報(「エラー」)である。その後ステップS402に進む。
(ステップS402)操作履歴抽出部104は、操作履歴DB103から、ステップS401で入力された、障害発生情報に対応するイベントを抽出する。例えば、操作履歴DBから、操作時刻情報が「6月上旬」に含まれ、操作内容情報が「Webブラウザアクセス」であり、操作状況情報が「エラー」である操作情報を抽出する。操作履歴抽出部104は、抽出した操作情報を故障期間抽出部105に出力する。その後ステップS403に進む。
【0041】
(ステップS403)故障期間抽出部105は、ステップS402で抽出した操作情報のうち、最もタイムスタンプの古い時刻と、最もタイムスタンプの新しい時刻との間の時間を故障期間として抽出する。故障期間抽出部105は、抽出した故障期間を示す故障期間情報を故障期間DB106に書き込み、異常値判定部111に出力する。その後ステップS404に進む。
(ステップS404)異常値判定部111は、ステップS403で抽出した故障期間情報が示す故障期間に対応する測定値情報を測定値履歴DB108から読み出す。異常値判定部111は、ステップ403で抽出した故障期間に対応するベースライン情報をベースラインDB110から読み出す。その後ステップS405に進む。
【0042】
(ステップS405)異常値判定部111は、各測定ポイント、測定値の種類毎に、測定値情報が示す測定値とベースライン情報が示すベースラインとを比較し、測定値が異常であるか否かを判定する。具体的には、異常値判定部111は、故障期間における測定値が平均値−n×分散≦測定値≦平均値+n×分散(nは予め定めた正の数)の関係を満たすか否かを判定する。関係を満たすと判定された場合(Yes)はステップS405に進む。関係を満たさないと判定された場合(No)はステップS407に進む。
【0043】
(ステップS406)出力部113は、異常値/故障箇所対応テーブルから、ステップS405で異常と判定された測定値に対応する故障箇所を抽出する。その後ステップS407に進む。
(ステップS407)出力部113は、ステップS405において測定が異常値であると判定された場合は、ステップS406で抽出した故障個所を示す表示情報を入出力装置12に出力する。出力部113は、ステップS405において測定が異常値であると判定されなかった場合は、異常が見つからなかったことを示す表示情報を入出力装置12に出力する。入出力装置12は、出力部113から入力された表示情報を表示する。その後終了処理に進む。
【0044】
このように、本実施形態では、故障検出装置13は、ネットワーク機器11の操作に関する情報とネットワーク機器11に対する操作が行われた時刻とを紐付けた操作履歴情報を記録する操作履歴DB103と、ネットワーク機器11の動作状況を表す測定値と測定値が測定された時刻とを紐付けた測定履歴情報を記録する測定値履歴DB108と、操作履歴情報に基づいて、ネットワーク機器11の故障期間を特定する故障期間抽出部105と、故障期間と測定履歴情報とに基づいて故障期間以外の時刻に紐付けられた測定値を抽出し、抽出した測定値のベースライン情報を生成するベースライン生成部109と、ベースライン生成部109が生成したベースライン情報と、故障発生期間に時刻に紐付けられた測定値とを比較してネットワーク機器11の異常を検出する異常値判定部111とを備える。これにより、故障検出装置13は、故障が発生している時間帯でのデータに対し、故障が発生していない期間のデータを元に作成されたベースラインと比較することで、異常値の抽出率が向上し、故障箇所の推定能力を向上させることができる。すなわち、故障検出装置13は、異常の検出を確実にできる。
【0045】
また、本実施形態では、抽出部105は、利用者からの情報と、操作履歴とに基づいて故障発生時間を特定する。これにより、利用者の記憶に基づいて、操作履歴DBから、ネットワーク機器11が出力した正確な操作履歴を抽出し、抽出した操作履歴に基づいて故障発生時間を特定することができる。これにより、真に故障が発生していた時間における異常値判定をおこなうことができるため、異常値判定の精度が向上する。
【0046】
なお、本実施形態では、操作履歴抽出部104は、操作者から入力された障害発生情報に基づいて操作情報を抽出し、故障期間抽出部105は、抽出された操作情報に基づいて故障期間情報を抽出した。しかし、故障期間情報の抽出はこれに限られず、操作履歴DB103に記録された操作状況情報に基づいて操作履歴抽出部104が抽出した操作情報に基づいて、故障期間抽出部105が故障期間情報を抽出してもよい。
【0047】
なお、故障検出装置13の各部及び各DBはネットワークにて接続された別の装置の一部であってもよい。
【0048】
なお、本実施形態では、測定値は、UPnP情報、SNMP情報、DHCP情報等に含まれている情報を用いたが、例えば、ネットワーク機器11が単位時間に送信したパケットの数などを測定値としてもよい。
【0049】
なお、故障期間の抽出は、例えば以下のように行ってもよい。
(ア)あるイベント発生から予め定めた一定時間を故障期間とする。
(イ)あるイベントと別のあるイベントとの発生時刻の間の時間を故障期間とする。
(ウ)あるイベントと別のあるイベントとの発生時刻の間の時間の前後に一定時間を加えたものを故障期間とする。
【0050】
なお、故障期間抽出部105は、あるイベントが一定時間内に発生した頻度が予め定めた値を超えた場合又は予め定めた値を下回った場合に、その期間を故障期間としてもよい。
【0051】
なお、ベースライン生成部109は、ベースライン生成処理において、故障期間に含まれる全ての機器に関する、全ての測定値を除外してベースラインを生成したが、故障期間における故障と判定された装置に関する測定値のみを除外してベースラインを作成してもよい。また、故障期間における故障と判定された装置、故障と判定された測定値のみを除外してベースラインを作成してもよい。
【0052】
なお、操作情報または測定値情報に時刻が記録されていない場合には、故障検出装置13が操作情報または測定値情報を収集した時刻を操作時刻情報または測定値時刻情報としてもよい。その場合には、収集した時刻を操作を行った時刻または測定値を測定した時刻として取り扱う。
【0053】
なお、上述した実施形態における故障検出装置13の一部、例えば、故障期間抽出部105、ベースライン生成部109、異常値判定部111をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、故障検出装置13に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における故障検出装置13の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。故障検出装置の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
【0054】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0055】
1・・・故障検出システム、10・・・監視対象ネットワーク、11、11a〜11e・・・ネットワーク機器、12・・・入出力装置、13・・・故障検出装置、101・・・操作情報収集部、102・・・入力部、103・・・操作履歴DB、104・・・操作履歴抽出部、105・・・故障期間抽出部、106・・・故障期間DB、107・・・測定値情報収集部、108・・・測定値履歴DB、109・・・ベースライン生成部、110・・・ベースラインDB、111・・・異常値判定部、112・・・異常値/故障箇所対応DB、113・・・出力部、GW・・・ゲートウェイ、Hub・・・ハブ、RT・・・ルータ、SW・・・スイッチ
【特許請求の範囲】
【請求項1】
監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成部を具備することを特徴とするベースライン生成装置。
【請求項2】
監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成部と、
前記監視対象システムに対する操作に関する情報を記憶する操作履歴記憶部と、
前記操作に関する情報に基づき、故障期間を決定する故障期間抽出部と、
前記故障期間に測定された前記測定値について、前記ベースライン情報に基づき、異常値であるか否かを判定する異常値判定部と
を具備することを特徴とする異常検出装置。
【請求項3】
前記故障期間抽出部は、操作者から入力された情報に対応する情報であって、前記操作に関する情報に基づき、前記故障期間を決定することを特徴とする請求項2に記載の異常検出装置。
【請求項4】
前記監視対象システムは、複数の機器から構成され、
前記測定値は、複数の測定項目各々に対する測定値であり、
前記ベースライン生成部は、前記測定項目の各々に関するベースライン情報を生成し、
前記異常検出装置は、
前記異常値と判定された測定値の測定項目に基づき、前記複数の機器の中から異常が発生している機器を検出する異常機器検出部
を具備することを特徴とする請求項2に記載の異常検出装置。
【請求項5】
ベースライン生成装置における方法において、
前記ベースライン生成装置が、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障発生期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成過程を有することを特徴とするベースライン生成方法。
【請求項6】
ベースライン生成装置のコンピュータに、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障発生期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成手順を実行させるためのベースライン生成プログラム。
【請求項1】
監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成部を具備することを特徴とするベースライン生成装置。
【請求項2】
監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成部と、
前記監視対象システムに対する操作に関する情報を記憶する操作履歴記憶部と、
前記操作に関する情報に基づき、故障期間を決定する故障期間抽出部と、
前記故障期間に測定された前記測定値について、前記ベースライン情報に基づき、異常値であるか否かを判定する異常値判定部と
を具備することを特徴とする異常検出装置。
【請求項3】
前記故障期間抽出部は、操作者から入力された情報に対応する情報であって、前記操作に関する情報に基づき、前記故障期間を決定することを特徴とする請求項2に記載の異常検出装置。
【請求項4】
前記監視対象システムは、複数の機器から構成され、
前記測定値は、複数の測定項目各々に対する測定値であり、
前記ベースライン生成部は、前記測定項目の各々に関するベースライン情報を生成し、
前記異常検出装置は、
前記異常値と判定された測定値の測定項目に基づき、前記複数の機器の中から異常が発生している機器を検出する異常機器検出部
を具備することを特徴とする請求項2に記載の異常検出装置。
【請求項5】
ベースライン生成装置における方法において、
前記ベースライン生成装置が、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障発生期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成過程を有することを特徴とするベースライン生成方法。
【請求項6】
ベースライン生成装置のコンピュータに、監視対象システムの動作状況を表す測定値のうち、前記監視対象システムの故障発生期間以外の測定値を抽出し、該抽出した測定値に基づき、該測定値の正常範囲を示すベースライン情報を生成するベースライン生成手順を実行させるためのベースライン生成プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2013−66113(P2013−66113A)
【公開日】平成25年4月11日(2013.4.11)
【国際特許分類】
【出願番号】特願2011−204607(P2011−204607)
【出願日】平成23年9月20日(2011.9.20)
【出願人】(397065480)エヌ・ティ・ティ・コムウェア株式会社 (187)
【Fターム(参考)】
【公開日】平成25年4月11日(2013.4.11)
【国際特許分類】
【出願日】平成23年9月20日(2011.9.20)
【出願人】(397065480)エヌ・ティ・ティ・コムウェア株式会社 (187)
【Fターム(参考)】
[ Back to top ]