説明

監視装置、監視方法及びプログラム

【課題】従来技術より処理時間が短く、かつ、経験者によりあらかじめ作成する“ルール”等を必要としない監視装置を提供する。
【解決手段】監視装置は、各装置から警報又は警告メッセージを取得する監視装置であって、取得したメッセージを、該メッセージの送信元アドレスごとのメッセージテーブルに保存するグループ化手段と、メッセージテーブル内の重複したメッセージを1つに集約する圧縮手段と、各メッセージテーブルの互いに関連するメッセージを、メッセージに含まれる内容情報に基づき判定し、判定した互いに関連する一連のメッセージをクラスタにグループ化するクラスタリング手段と、各クラスタに含まれる警報メッセージの内、最下位のレイヤの警報メッセージを原因警報として判定する原因分析手段とを備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワークの監視技術に関し、より詳しくは、ネットワークの各構成装置から取得する多数のメッセージ間の相関を判定して障害原因を通知しているメッセージを特定し、さらに、障害原因の警報メッセージに付随する警告メッセージに基づき、障害の発生を予測する監視装置に関する。
【背景技術】
【0002】
管理対象のネットワーク規模が大きくなるにつれて、ある障害が発生したときに、監視装置がネットワーク内の各装置から受信する警報メッセージや警告メッセージの数は膨大なものとなるが、障害に対する対応を行うためには、受信した各メッセージの相互関係を判定し、根本的な障害原因を示しているメッセージを判断することが必要となり、このための種々の方法が提案されている(例えば、非特許文献1〜11、参照。)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Hanemann A, et al.,“Algorithm Design and Application of Service−oriented Event Correlation”、3rd IEEE/IFIP International Workshop,2008年4月,pp. 61−70
【非特許文献2】Risto,et al.,“Tools and Techniques for Event Log Analysis”,PhD thesis、Tallinn University of Technology、Department of Computer Engineering,Estonia,2005年6月
【非特許文献3】Banerjee D,et al.,“A Framework for Distributed Monitoring and Root Cause Analysis for Large IP Networks”,28th IEEE International Symposium on Reliable Distributed Systems,2009年9月,pp.246−255
【非特許文献4】White Paper,“Automating Root−Cause Analysis:EMC Ionix Codebook Correlation Technology vs. Rules−based Analysis”,2000年11月
【非特許文献5】Qiuhua Zheng et al.,“An Event Correlation Approach Based on the Combination of IHU and Codebook”,Lecture Notes in Computer Science,2005年,Vol.3802,pp.757−763
【非特許文献6】M. Steinder et al.,“A Survey of Fault Localization Techniques in Computer Networks”,Science of Computer Programming,Special Edition on Topics in System Administration,2004年11月,Vol.53,pp.165−194
【非特許文献7】AL−MAMORY Safaa O,et al.,“Intrusion Detection Alarms Reduction UsingRoot Cause Analysis and Clustering”,Journal of Computer Communications,,2009年2月,Vol.32,No.2,pp.419−430
【非特許文献8】Jukic et al.,“LogicalInventory Database Integration into Network Problems Frequency Detection Process”,ConTEL 2009,2009年6月,pp.361−365
【非特許文献9】Wu Jian,et al,“A Novel Algorithm for Dynamic Mining of Association Rules”,International Workshop on Knowledge Discovery and Data Mining,2008年1月,PP.94−99
【非特許文献10】Qingguo Zheng,et al.,“Intelligent Search of Correlated Alarms from Database Containing Noise Data”,Network Operations and Management Symposium,2002年4月,pp.405−419
【非特許文献11】Risto Vaarandi,“A Data Clustering Algorithm for Mining Patterns from Event Logs”,IPOM 2003,2003年10月,pp.119−126
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1、2、3及び6には、あらかじめ定めた“ルール”に基づきメッセージ間の相関を判定することが、非特許文献1、4、5及び6には、あらかじめ定めた“コードブック”に基づきメッセージ間の相関を判定することが、非特許文献1及び6には、“事例”に基づきメッセージ間の相関を判定することが記載されている。しかしながら、“ルール”、“コードブック”、“事例”の作成においては、それらを作成する者の経験や能力に依存する部分が大きく、判定の精度は、作成された“ルール”等により大きく変動するという問題がある。
【0005】
また、非特許文献7〜11には、データマイニング技術を利用して、根本的な障害原因を示すメッセージを判定する構成が記載されている。しかしながら、提案されているデータマイニング・アルゴリズムは、いずれもその処理に時間がかかり、受信した多数のメッセージから直ちに障害原因を判定することはできないという問題がある。
【0006】
したがって、本発明は、従来技術より処理時間が短く、かつ、経験者によりあらかじめ作成する“ルール”等を必要としない監視装置、監視方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明における監視装置によれば、
各装置から警報及び警告メッセージを取得する監視装置であって、取得したメッセージを、該メッセージの送信元アドレスに基づき分類し、送信元アドレスごとのメッセージテーブルに保存するグループ化手段と、メッセージテーブル内の重複したメッセージを1つに集約する圧縮手段と、各メッセージテーブルの互いに関連するメッセージを、メッセージに含まれる内容情報に基づき判定し、判定した互いに関連する一連のメッセージをクラスタにグループ化するクラスタリング手段と、各クラスタに含まれるメッセージの内、最下位のレイヤの警報メッセージを原因警報として判定する原因分析手段とを備えていることを特徴とする。
【0008】
本発明における監視装置の他の実施形態によると、
原因警報として判定した警報メッセージの警報内容と、前記警報メッセージと同一クラスタの警告メッセージのうち、前記警報メッセージの発生時刻との差が所定時間以内である警告メッセージの警告内容に基づき、警報内容と、該警報内容で特定される障害が発生する際に付随して発生する可能性が高い警告内容の組合せを示す頻発イベントテーブルを作成するパターン分析手段を、さらに、備えており、前記圧縮手段は、メッセージテーブルに含まれる警告メッセージの警告内容が、前記頻発イベントテーブルの警告内容の組合せと所定数以上一致する場合、前記所定数以上一致する頻発イベントテーブル内の警告内容の組合せに対応する警報内容が示す障害の発生を警告する予備警告を出力することも好ましい。
【0009】
また、本発明における監視装置の他の実施形態によると、
前記クラスタリング部は、同一クラスタに含まれるメッセージのうち、送信元アドレスは異なるが、内容情報は同じであるメッセージを1つに集約することも好ましい。
【0010】
本発明における監視方法によれば、
グループ化部が、各装置から取得したメッセージを送信元アドレスにより分類し、該メッセージを、送信元アドレスごとのメッセージテーブルに保存する第1のステップと、圧縮部が、メッセージテーブル内の重複したメッセージを1つに集約する第2のステップと、クラスタリング部が、各メッセージテーブルの互いに関連するメッセージを、メッセージに含まれる内容情報に基づき判定し、判定した互いに関連する一連のメッセージをクラスタにグループ化する第3のステップと、原因分析部が、各クラスタに含まれるメッセージの内、最下位のレイヤの警報メッセージを原因警報として出力する第4のステップとを備えていることを特徴とする。
【0011】
本発明におけるプログラムによれば、コンピュータを前記監視装置として機能させることを特徴とする。
【発明の効果】
【0012】
本発明による監視装置は、“ルール”、“コードブック”、“事例”等をあらかじめ作成する必要がなく、さらに、複雑なアルゴリズムを使用するものではなく、よって、素早く障害原因を判定することができる。
【図面の簡単な説明】
【0013】
【図1】本発明による監視装置の概略的な構成図である。
【図2】メッセージテーブルを示す図である。
【図3】圧縮後のメッセージテーブルを示す図である。
【図4】クラスタテーブルへの変換を説明する図である。
【図5】クラスタテーブルを示す図である。
【図6】圧縮後のクラスタテーブルを示す図である。
【図7】本発明による監視方法を実行するシステム構成図である。
【図8】図7の構成において発生するメッセージを示す図である。
【図9】図8に示すメッセージ取得時のメッセージテーブルを示す図である。
【図10】図8に示すメッセージ取得時のクラスタテーブルを示す図である。
【図11】図8に示すメッセージ取得時の圧縮後のクラスタテーブルを示す図である。
【図12】図8に示すメッセージ取得時の原因警報リストを示す図である。
【図13】図8に示すメッセージ取得時のイベントセットを示す図である。
【発明を実施するための形態】
【0014】
本発明を実施するための形態について、以下では図面を用いて詳細に説明する。なお、本発明において、警報メッセージとはネットワークの監視対象である端点や機能が停止していることを通知するメッセージであり、警告メッセージとはネットワークの監視対象である端点や機能が停止している訳ではないが、不安定な状況又は異常な状態にあることを通知するメッセージであり、警報メッセージと警告メッセージを区別する必要がない場合には単にメッセージと呼ぶものとする。また、メッセージには、そのメッセージを生成した装置のIPアドレスの他に、メッセージが生成された時刻(タイムスタンプ)や、警報内容(警報メッセージの場合)又は警告内容(警告メッセージの場合)を示す内容情報が含まれており、監視装置は、内容情報から障害/異常状態が生じているレイヤを判定できるものとする。
【0015】
なお、内容情報は、その警告又は警報内容に他の装置が関係する場合には、当該他の装置を示す対向装置情報も含んでいる。例えば、あるWebサーバで、Port80 Down警報が発生した場合、このWebサーバと通信している他のノード装置は、Web Errorをその内容とするメッセージを生成するが、このメッセージの内容情報には、前記Webサーバを示す対向装置情報が含まれることになる。なお、レイヤは、本実施形態においては、下位側から順に、システム、リンク、ネットワーク、トランスポート、アプリケーションの5つとする。なお、システム・レイヤとは、CPUやメモリ等、装置共通部分のことである。
【0016】
図1は、本発明による監視装置の概略的な構成図である。図1に示す様に、監視装置は、グループ化部1と、圧縮部2と、クラスタリング部3と、原因分析部4と、通知部5と、パターン分析部6と、記憶部7とを備えている。また、記憶部7は、メッセージテーブル71と、クラスタテーブル72と、原因警報リスト73と、多発イベントテーブル(FET)74とを保存している。
【0017】
グループ化部1は、ネットワーク内の各装置からメッセージを取得し、取得メッセージを、送信元IPアドレスとレイヤに基づき分類し、送信元IPアドレスに対応するメッセージテーブル71に保存する。図2は、メッセージテーブル71を示す図である。図2には、例えば、IPアドレスがAである装置から、リンクレイヤにおいては、メッセージML1とML2を、それぞれ、1回と4回受信していることが示されている。
【0018】
圧縮部2は、メッセージ内のタイムスタンプ以外が全く同じであるメッセージを1つのメッセージに集約する。つまり、重複して受信したメッセージを1つに集約する。図3は、図2のメッセージテーブル71を、圧縮部2が集約した状態を示している。例えば、トランスポートレイヤにおいては、メッセージMT1を3回、メッセージMT2を2回受信していたが、それぞれ、1つに集約されている。
【0019】
また、FET74は、ある警報内容を示す警報メッセージが発出されるときに、付随して発出される可能性が高い警告メッセージの警告内容の組合せを示すテーブルであり、圧縮部2は、FET74が保持する警告内容の組合せに、集約後のメッセージテーブル71の警告メッセージの警告内容の組合せと相関が高いものがある場合には、相関が高い組合せに対応する警報内容が示す障害が発生する可能性が高いと判定し、図示しない表示部及び/又はネットワーク管理装置に予備警告を出力する。
【0020】
クラスタリング部3は、各IPアドレスに対して設けられた集約後のメッセージテーブル71の各メッセージから、ネットワーク構成に基づき互いに関連するメッセージを判定し、関連する一連のメッセージをクラスタとして、グループ化する。例えば、図4に示す様に、リンク#2が断となった場合、リンク#2に接続するルータのみならず、このリンク#2を経由した通信を行っている両端の装置においてもネットワークレイヤや、トランスポートレイヤの障害を検出してメッセージを監視装置に送信することになるが、クラスタリング部3は、メッセージの内容情報及び/又はネットワーク構成に基づき、例えば、図2の両端の装置からのネットワークレイヤや、トランスポートレイヤのメッセージは、ルータからのリンク#2の障害を示すメッセージと同じクラスタに属するものと判定する。なお、監視装置が監視するネットワークの構成に関する情報は、ネットワーク内で既知であるものとし、監視装置のクラスタリング部3は、例えば、ネットワークの構成に関する情報を保持している装置にアクセスしてこれら情報を取得する。
【0021】
クラスタリング部3は、同じクラスタに属すると判定したメッセージ群を、クラスタテーブル72として保存する。なお、通知されている内容情報は同一であるが、送信元のIPアドレスが違うメッセージについては1つに集約する。例えば、各メッセージテーブルから互いに関連するメッセージを抜き出して図5に示すクラスタテーブルが作成されたとする。図5に示す様に、アプリケーションレイヤにおいては、IPアドレスAの装置から受信したメッセージMA1と、IPアドレスB、C、Dの装置からそれぞれ受信したメッセージMA5が含まれているが、メッセージMA5は、送信元の装置が異なるがメッセージが示す内容は同じであるため、図6に示す様に1つに集約する。
【0022】
原因分析部4は、各クラスタテーブルにおいて最下位のレイヤにある警報メッセージを根本原因として、これらを原因警報リスト73として記憶部7に出力し、通知部5は、原因警報リスト73を図示しない表示部に出力及び/又はネットワーク管理装置等に送信する。また、原因分析部4は、クラスタテーブルの警告メッセージの警告内容と、当該クラスタの根本原因として選択した警報メッセージの警報内容をイベントセットとしてパターン分析部6に出力し、パターン分析部6は、既に作成したFET74と新たなイベントセットから、例えば、アプリオリ・アルゴリズム等を使用してFET74を更新する。なお、イベントセットには、根本原因として選択した警報メッセージのタイムスタンプとの時間差が所定値以内の警告メッセージの内容のみを含めるものとする。
【0023】
続いて、本発明による監視方法の具体例を以下に説明する。図7は、以下の説明に使用するシステム構成図であり、ルータ#A、#B及び#Cが相互に接続し、Webサーバ#D及び#Eがルータ#Bと接続し、ノード#1及び#2がルータ#Cと接続している。また、プローブ装置とは、他の各装置に反復してアクセスして、各装置の障害や状態に関するメッセージを取得する装置である。なお、本例において、本発明による監視装置は、プローブ装置と同じコンピュータ上に実現されているものとするが、例示であり、本発明による監視装置を、プローブ装置とは異なる装置として実現し、プローブ装置を含むネットワークの各装置から、メッセージを受信する形態であっても良い。
【0024】
図7に示す構成において、ルータ#Aそのものと、Webサーバ#Dのサーバ機能が障害により停止し、監視装置は、図8に示すメッセージを取得したものとする。なお、プローブ装置は、反復して各装置の状態を監視しており、例えば、ルータ#AのCPU Warning等、ルータ#Aが停止する以前のメッセージも監視装置は取得している。図8において、例えば、“Web Error (#D)”は内容情報であり、その内の(#D)は対向装置情報である。
【0025】
図8に示すメッセージを取得した場合における、グループ化部1及び圧縮部2による集約後のメッセージテーブルを図9に示す。図9は、図8に示すメッセージを、その送信元のIPアドレス、よって、装置別に分類し、さらに、内容情報から判定したレイヤ別に記録したものである。続いて、クラスタリング部3は、図9に示すメッセージテーブルから図10に示すクラスタテーブルを作成する。例えば、ノード#1及びノード#2のWeb Error(#D)メッセージは、そのメッセージの内容情報からWebサーバ#Dに対するものであることが判明するため、Webサーバ#DのPort80 DownメッセージとWeb Error(#D)メッセージは、同一のクラスタに属するものと判定できる。なお、リンクレイヤとネットワークレイヤ間の関係は、上述した様に、ネットワークの構成情報を参照して判定する。
【0026】
図10に示すクラスタテーブルにおいて、例えば、クラスタ#1のルータ#Aに対するDevice Unreachable(#A)メッセージは、それぞれ、ルータ#Bと#Cから通知されているが、これらは、送信元が異なるが同じ内容情報を有するメッセージであるから、クラスタリング部3は、これらを集約して1つに纏める。よって、クラスタリング部3は、図11に示すクラスタリングテーブルを最終的に記憶部7に出力する。
【0027】
原因分析部4は、各クラスタの警報メッセージのうち、一番下位のレイヤにあるものを根本原因として抽出する。したがって図12に示す原因警報リスト73を記憶部7に出力する。また、原因分析部4は、各クラスタの警告メッセージの内、当該クラスタの原因警報の発生時刻に対して所定の時間差で発生した警告メッセージの警告内容を、原因警報の警報内容と共に、イベントセットとしてパターン分析部6に出力する。図13は、本例において原因分析部4が出力するイベントセットを示している。
【0028】
最後に、圧縮部2における予備警告の出力について説明を行う。例えば、FET74に、警報内容Xに対してM個の警告内容が特定されているものとする。この場合において、ある装置(IPアドレス)に対応するメッセージテーブル内に、その警告内容が所定の割合又は数以上一致する警告メッセージが存在する場合、圧縮部2は、その割合又は数に応じた内容の予備警告を出力する。
【0029】
具体的には、警報内容Xに対応するものとして警告内容W1〜W6がFET74において特定されており、3つの一致でWarningを、4つ以上の一致でCriticalを出力するものとする。この場合、あるメッセージテーブル内の警告メッセージが、警告内容W1、W2、W7、W9、W10を示していたとしても、一致する警告内容の数はW1、W2の2つであり予備警告は発出されない。これに対して、メッセージテーブル内の警告メッセージが、警告内容W1、W2、W3、W7、W9を示している場合には、W1、W2、W3の3つの警告内容が一致し、よって、警報内容Xで特定される障害が、当該メッセージテーブルのIPアドレスに対応する装置に発生する可能性を警告するWarningメッセージが出力される。さらに、メッセージテーブル内の警告メッセージが、警告内容W1、W2、W3、W4、W5、W7、W9、W10を示している場合には、W1、W2、W3、W4の4つの警告内容が一致し、よって、警報内容Xで特定される障害が、当該メッセージテーブルのIPアドレスに対応する装置に発生する可能性を警告するCriticalメッセージが出力される。
【0030】
以上、本発明による監視装置は、“ルール”、“コードブック”、“事例”等をあらかじめ作成する必要がなく、さらに、複雑なアルゴリズムを使用するものではなく、よって、素早く障害原因を判定することができる。
【0031】
なお、上述した実施形態は、TCP/IPネットワークに対して本発明を適用するものであったが、本発明は上述した実施形態に限定されるものではなく、センサネットワークや、ホームネットワークや、クラウドネットワーク等、レイヤ構造を有する総てのネットワークに対して適用可能である。
【0032】
なお、本発明による監視装置は、コンピュータを図1の各部として機能させるプログラムにより実現することができる。これらコンピュータプログラムは、コンピュータが読み取り可能な記憶媒体に記憶されて、又は、ネットワーク経由で配布が可能なものである。さらに、本発明は、ハードウェア及びソフトウェアの組合せによっても実現可能である。
【符号の説明】
【0033】
1 グループ化部
2 圧縮部
3 クラスタリング部
4 原因分析部
5 通知部
6 パターン分析部
7 記憶部
71 メッセージテーブル
72 クラスタテーブル
73 原因警報リスト
74 多発イベントテーブル

【特許請求の範囲】
【請求項1】
各装置から警報及び警告メッセージを取得する監視装置であって、
取得したメッセージを、該メッセージの送信元アドレスに基づき分類し、送信元アドレスごとのメッセージテーブルに保存するグループ化手段と、
メッセージテーブル内の重複したメッセージを1つに集約する圧縮手段と、
各メッセージテーブルの互いに関連するメッセージを、メッセージに含まれる内容情報に基づき判定し、判定した互いに関連する一連のメッセージをクラスタにグループ化するクラスタリング手段と、
各クラスタに含まれるメッセージの内、最下位のレイヤの警報メッセージを原因警報として判定する原因分析手段と、
を備えている監視装置。
【請求項2】
原因警報として判定した警報メッセージの警報内容と、前記警報メッセージと同一クラスタの警告メッセージのうち、前記警報メッセージの発生時刻との差が所定時間以内である警告メッセージの警告内容に基づき、警報内容と、該警報内容で特定される障害が発生する際に付随して発生する可能性が高い警告内容の組合せを示す頻発イベントテーブルを作成するパターン分析手段を、さらに、備えており、
前記圧縮手段は、メッセージテーブルに含まれる警告メッセージの警告内容が、前記頻発イベントテーブルの警告内容の組合せと所定数以上一致する場合、前記所定数以上一致する頻発イベントテーブル内の警告内容の組合せに対応する警報内容が示す障害の発生を警告する予備警告を出力する、
請求項1に記載の監視装置。
【請求項3】
前記クラスタリング手段は、同一クラスタに含まれるメッセージのうち、送信元アドレスは異なるが、内容情報は同じであるメッセージを1つに集約する、
請求項1又は2に記載の監視装置。
【請求項4】
グループ化部が、各装置から取得したメッセージを送信元アドレスにより分類し、該メッセージを、送信元アドレスごとのメッセージテーブルに保存する第1のステップと、
圧縮部が、メッセージテーブル内の重複したメッセージを1つに集約する第2のステップと、
クラスタリング部が、各メッセージテーブルの互いに関連するメッセージを、メッセージに含まれる内容情報に基づき判定し、判定した互いに関連する一連のメッセージをクラスタにグループ化する第3のステップと、
原因分析部が、各クラスタに含まれるメッセージの内、最下位のレイヤの警報メッセージを原因警報として出力する第4のステップと、
を備えている監視方法。
【請求項5】
請求項1から3のいずれか1項に記載の監視装置としてコンピュータを機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2011−176554(P2011−176554A)
【公開日】平成23年9月8日(2011.9.8)
【国際特許分類】
【出願番号】特願2010−38456(P2010−38456)
【出願日】平成22年2月24日(2010.2.24)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成21年度、総務省、「セキュアクラウドネットワーキング技術の研究開発」委託事業、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(599108264)株式会社KDDI研究所 (233)
【Fターム(参考)】