説明

メッセージ分析システム及びメッセージ分析プログラム

【課題】 障害時等に発生するメッセージの分析手法の提供。
【解決手段】 メッセージを受信するメッセージ受信部101と、この受信したメッセージを蓄積するメッセージ蓄積部102と、複数のメッセージの事例を予め蓄積する事例蓄積部104と、読み込んだ事例を基にメッセージ分析をおこなうメッセージ分析部103とを備え、例えば事例蓄積部104が、事例に対応して発生するメッセージの時間的要素として有効時間帯/メッセージの組合せによる事例/前記組合せによる事例対応の全体監視時間とを蓄積し、前記メッセージ分析部103が、事例蓄積部104に蓄積した有効時間帯内の時刻にメッセージが発現したとき、又は全体時間的間隔内に前記事例対応のメッセージの組合せが発現したとき、当該事例に集約するシステム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば複数のコンピュータシステムから収集したメッセージから、障害の発生を検知し、分析することができるメッセージ分析システム及びメッセージ分析プログラムに係り、特にある事象に関連するメッセージを自動的且つ継続的に集約して出力することができるメッセージ分析システム及びメッセージ分析プログラムに関する。
【背景技術】
【0002】
近年、顧客コンピュータシステムのハードウェアを預かって運用管理や障害管理を請け負うデータセンタ事業が拡大してきており、このデータセンタ事業においては、日々の運用作業、定期・非定期に行われるシステムのバージョンアップ作業、障害の未然防止、万が一障害が発生した場合の迅速な対応等が24時間体制で実施されている。
【0003】
このようなデータセンタにおいては、監視対象となる多数のコンピュータシステムで発生するメッセージを収集し、運用担当者がその複数メッセージ内容から総合的に判断して、システムの稼動状況の把握や障害の検出を行っており、この作業は一部の熟練運用担当者のノウハウとなっていることが多く、データセンタ全体の作業の効率化、品質の安定性の確保という点で、好ましくないものであった。
【0004】
このような状況を改善する対策として、下記特許文献記載の如く、コンピュータシステムから自動的に収集したメッセージをもとにさまざまな手法を用いて分析を行うことが提案されている。
【特許文献1】特開2000−183881号公報
【特許文献2】特開2004−266541号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
前記特許文献記載の技術は、メッセージをもとにした障害分析などの効率性を向上させることができるものの、文献記載技術はメッセージの発生順序のみに注目しているため、ある事象を把握する際に、必ずしも発生順序が決定していない場合には適用できず、また、必ずしも発生するとは限らない付随的なメッセージを同一事象として捕らえることが困難となると言う不具合があった。これを具体的に説明すると、例えば、あるディスクシステムからライトエラー/リードエラー/タイムオーバーエラー(所定時間内に処理が実行できなかったエラー)が発生した場合、これらエラーの発生順序が一定とは限らないために当該ディスクシステムが障害により停止する可能性が高いことを捕らえることや同一のディスクシステムからのメッセージを同一事象として捕らえることが困難であると言う不具合があった。
【0006】
本発明の目的は、前述の従来技術による不具合を除去することであり、リアルタイムに受信するメッセージを、様々な形式で定義された事例とのマッチング処理により分析しその結果を、様々な手段や形式で出力することができるメッセージ分析システム及びメッセージ分析プログラムに関する。
【課題を解決するための手段】
【0007】
前記目的を達成するため本発明は、複数のメッセージを受信し、該複数のメッセージを事象毎に集約して分析するメッセージ分析システムにおいて、前記メッセージを受信するメッセージ受信部と、該メッセージ受信部より受信したメッセージを蓄積するメッセージ蓄積部と、複数のメッセージの事例を予め蓄積する事例蓄積部と、該事例蓄積部から読み込んだ事例を基にメッセージ分析をおこなうメッセージ分析部とを備え、前記事例蓄積部が、事例に対応して発生するメッセージの時間的要素を格納し、前記メッセージ分析部が、受信したメッセージの時刻と前記事例蓄積部に蓄積した時間的要素とを用いて事例を集約することを第1の特徴とする。
【0008】
また本処理は、前記メッセージ分析システムにおいて、前記事例蓄積部が、メッセージの時刻に対応した有効時間帯を時間的要素として蓄積し、前記メッセージ分析部が、前記事例蓄積部に蓄積した前記有効時間帯内の時刻にメッセージが発現したとき、当該事例に集約することを第2の特徴とし、前記第1の特徴のメッセージ分析システムにおいて、事例に応じて複数のメッセージが発生するとき、前記事例蓄積部が、メッセージの組合せによる事例と、時間的要素として前記組合せによる事例対応の全体監視時間とを蓄積し、前記メッセージ分析部が、前記全体時間的間隔内に、前記事例対応のメッセージの組合せが発現したとき、当該メッセージの組合せによる当該事例に集約することを第3の特徴とし、このメッセージ分析システムにおいて、前記事例蓄積部が、前記時間的要素として前記全体時間的間隔より短い間隔の第一報時間間隔を含むと共にメッセージの組合せによる事例を蓄積し、前記メッセージ分析部が、前記メッセージの組合せが前記第一報時間間隔内に発現したとき、当該事例に集約することを第4の特徴とする。
【0009】
また本発明は、前記第1〜第4何れかの特徴のメッセージ分析システムにおいて、前記事例蓄積部は、複数のメッセージ対応の事例毎に最小発現回数及び最大発現回数を蓄積し、前記メッセージ分析部は、前記メッセージが、所定の時間内に前記最小発現回数から最大発現回数の間の回数だけ発現したとき、当該事例に集約することを第5の特徴とし、前記何れかの特徴のメッセージ分析システムにおいて、前記事例蓄積部が、複数のメッセージの組合せが所定回数以上発現したときの事例を蓄積し、前記メッセージ分析部が、前記メッセージの組合せが所定回数以上発現したとき、当該事例に集約することを第6の特徴とする。
【0010】
更に本発明は、メッセージを受信するメッセージ受信部と、該メッセージ受信部より受信したメッセージを蓄積するメッセージ蓄積部と、複数のメッセージの事例を予め蓄積する事例蓄積部と、該事例蓄積部から読み込んだ事例を基にメッセージ分析をおこなうメッセージ分析部とを備え、受信した複数のメッセージを事象毎に集約して分析するメッセージ分析システムのメッセージ分析プログラムにおいて、メッセージ分析システムに、前記事例蓄積部を用いて事例に対応して発生するメッセージの時間的要素を格納する機能と、前記メッセージ分析部を用いて受信したメッセージの時刻と前記事例蓄積部に蓄積した時間的要素とを用いて事例を集約する機能とを実行させることを第7の特徴とする。
【0011】
また本発明は、前記メッセージ分析プログラムにおいて、受信したメッセージの時刻に対応した有効時間帯を時間的要素として蓄積する機能と、前記メッセージ分析部を用いて前記蓄積した前記有効時間帯内の時刻にメッセージが発現したとき、当該事例に集約する機能を含むことを第8の特徴とし、前記第7の特徴のメッセージ分析プログラムにおいて、事例に応じて複数のメッセージが発生するとき、前記事例蓄積部を用いて、メッセージの組合せによる事例及び時間的要素として前記組合せによる事例対応の全体監視時間とを蓄積する機能と、前記メッセージ分析部を用いて、前記全体時間的間隔内に前記事例対応のメッセージの組合せが発現したとき、当該メッセージの組合せによる当該事例に集約する機能を含むことを第9の特徴とし、該第9の特徴のメッセージ分析プログラムにおいて、前記事例蓄積部を用いて前記全体時間的間隔より短い間隔の第一報時間間隔を含ませると共にメッセージの組合せによる事例を蓄積する機能と、前記メッセージ分析部を用いて前記メッセージの組合せが前記第一報時間間隔内に発現したとき、当該事例に集約する機能を含むことを第10の特徴とする。
【0012】
更に本発明は、前記第9〜10何れかの特徴のメッセージ分析プログラムにおいて、前記事例蓄積部を用いて、複数のメッセージ対応の事例毎に最小発現回数及び最大発現回数を蓄積する機能と、前記メッセージ分析部を用いて、前記メッセージが所定の時間内に前記最小発現回数から最大発現回数の間の回数だけ発現したとき、当該事例に集約する機能を含むことを第11の特徴とし、前記第8〜10何れかのメッセージ分析プログラムにおいて、前記事例蓄積部を用いて、複数のメッセージの組合せが所定回数以上発現したときの事例を蓄積する機能と、前記メッセージ分析部を用いて、前記メッセージの組合せが所定回数以上発現したとき、当該事例に集約する機能を含むことを第12の特徴とする。
【発明の効果】
【0013】
本発明によるメッセージ分析システムによれば、複数マシンが出力した複数メッセージに対して、経験に基づいた事例をもとにリアルタイムに分析しその結果を出力するため、システム運用保守の担当者による日常稼動管理や障害対応などの作業効率や運用品質の安定性を向上させることができる。また、本発明によれば、分析結果として、ある一つの事象に関連するメッセージを自動的・継続的に集約して出力することができるため、システム運用保守担当者の作業の対象数を減らすことができ、結果的に、より多くのマシンを管理対象下におくことができる。
【0014】
また、本発明によれば、メッセージ分析に利用する事例を定義する要素を、属人的な要素が大きいセンタ運用業務をもとに定義しているため実際の業務に携わる運用担当者によって蓄積されていノウハウを様々な事例ルールとして定義することができる。この様に本発明によれば、既に出力済みの分析結果を、その後受信したメッセージの内容によって随時補正する機構を持つことにより、刻々と状況が変化するシステム稼動状況を監視し続けるデータセンタの運用に有効である。
【発明を実施するための最良の形態】
【0015】
以下、本発明の一実施形態によるメッセージ分析プログラムを適用したメッセージ分析システムを図面を参照して詳細に説明する。図1は、本実施形態によるメッセージ分析システム構成を示す図、図2は本実施形態に適用されるメッセージ情報の構成図、図3は本実施形態に適用される事例情報の構成例図、図4は前記事例情報の中の条件属性情報の構成図、図5は前記事例情報の中の条件メッセージ情報の構成図、図6は前記事例情報の中のアクション情報の構成図、図7は本実施形態による分析結果情報の構成図、図8は本メッセージ分析システムの処理動作例を示すフローチャート図、図9は本システムにおけるメッセージ受信部の処理動作例を示すフローチャート図、図10は本分析システムにおけるメッセージ分析部の処理動作例を示すフローチャート図、図11は本システムにおけるメッセージ分析部の事例マッチング動作例を示すフローチャート図、図12は本システムにおけるメッセージ分析部の事例有効時間タイマ動作例を示すフローチャート図、図13は本システムにおける分析結果出力部の処理動作を示すフローチャート図である。
【0016】
本実施形態によるメッセージ分析システム100は、図1に示す如く、顧客システムから収集したメッセージを受信するメッセージ受信部101と、該メッセージ受信部101により収集したメッセージを蓄積するメッセージ蓄積部102と、複数のメッセージの事例を予め蓄積する事例蓄積部104と、該事例蓄積部104から読み込んだ事例をもとにメッセージ分析(事例毎に集約)をおこなうメッセージ分析部103と、該メッセージ分析部103により分析した分析結果を蓄積する分析結果蓄積部106と、前記分析結果をさまざまな手段で出力する分析結果出力部105とから構成され、図示しない複数のコンピュータシステムからエラーメッセージとを受信する様に構成されている。
<メッセージ情報の説明>
【0017】
前記メッセージ受信部101が受信するメッセージ情報は、例えば図2に示す如く、メッセージを一意に識別するためのメッセージ識別子201と、監視対象機器においてメッセージが発生した時刻を示す発生時刻202と、メッセージの発生元を示す発生元機器203と、メッセージの具体的な内容である発生メッセージ文字列204といった要素で構成されている。該発生メッセージ文字列204は、発生元機器の種類により文字列長や文字コードなどが異なる場合もあり、これに対応するためには、可変長で情報を管理したり、文字コード種別を別要素として用意する。
<事例情報の説明>
【0018】
前記メッセージ分析システム100における事例蓄積部104に蓄積している事例情報は、例えば図3に示す如く、事例を一意に識別するための事例識別子301と、事例への合致を判定するための合致ルール部302と、事例の具体的な内容を説明する事例内容部303とから構成される。
【0019】
該合致ルール部302は、ルール全体の属性を示すルール属性部304と、条件となる複数のメッセージに関する情報を格納する条件メッセージ集合305と、分析結果として出力する手段やタイミングに関する情報を格納する結果アクション集合309とから構成される。
【0020】
前記条件メッセージ集合305は、受信したメッセージとのマッチング対象となる条件メッセージ部306と、対応する条件メッセージに合致したメッセージを受信した際になんらかの出力をする場合に設定する条件アクション集合307とから構成され、この条件メッセージ集合305は、条件メッセージ部306と条件アクション集合307の対を複数設定することができる。この条件アクション集合307は、複数のアクションを設定することができるが、1つも設定しなくともよい。また条件アクション集合307は、複数のアクション部310から構成される。
【0021】
他方、前記事例内容部303は、エラー内容等の事例名称を示す事例名称311と、この事例の説明を示す事例説明312と、この事例の詳細内容である詳細313とから構成される。該事例内容部303は、本実施形態によるメッセージ分析システムがどのような用途で使用されるかによって柔軟に定義することができ、例えば、本実施形態の如く障害分析に利用されるのであれば、事例説明312の中には障害の原因や対応手順などの情報が格納される。
<事例情報の説明>
【0022】
前記事例蓄積部104に蓄積すべき事例情報の中の条件メッセージ部306は、図4に示す如く、メッセージを発生した機器を特定するためのメッセージ発生元マシン名401と、そのメッセージ内容であるメッセージ文字列402と、メッセージ数により1つの障害事例を纏める(集約する)ための最低発現回数である最低発現回数403と、逆にメッセージ数により1つの障害事例を纏める(集約する)ための最高発現回数である最高発現回数404と、1つの障害事例を纏める(集約する)ためのメッセージの発現順序である発現順序405と、発現インターバル406と、ステータス407とにより構成される。
【0023】
前記メッセージ発生元マシン名401及びメッセージ文字列402は、各々に受信した実メッセージの発生元機器203と発生メッセージ文字列204と比較する条件として使用するためのものである。
【0024】
後述する事例マッチング処理においては、受信した実メッセージと、メッセージ発生元マシン名401/メッセージ文字列402に定義されている文字列とを比較する際、実メッセージの中に時刻情報や処理件数等の必ずしも常に同じ文字ではない部分も含まれ、単純に条件メッセージに定義されている文字列との比較の対象にすることができないため、前記メッセージ発生元マシン名401とメッセージ文字列402は、固定文字列部と変数文字列部を区別して定義可能とし、実メッセージとの比較時には前記変数文字列部に相当する部分は比較対象としない処理を行う。
【0025】
また本実施形態においては、前記変数文字列部分に相当する実メッセージ内の文字列を分析結果として出力したい場合に備え、メッセージ発生元マシン名401及びメッセージ文字列402の変数文字列部には、実メッセージ内の文字列を埋め込む対象となる変数(バインド変数と呼ぶ)を定義できるようにしておき、1つの障害事例の中で、複数のバインド変数を指定したり、1つのバインド変数を複数箇所に指定することが好ましい。前記1つの事例の中、複数の条件メッセージにまたがって1つのバインド変数を指定した場合、変数文字列部はどんな文字列でもかまわないが、複数のメッセージにまたがって同じ文字列である必要が有ることを条件とする事例を定義することができる。
【0026】
また前記最低発現回数403は、例えば1つの同一障害原因と判定するために最低必要と想定される最小メッセージ発現回数、例えばディスクシステムから3回のライトエラーが出現したときにディスク障害と分析するための最小メッセージ発現回数であり、最高発現回数404は、前記最低発現回数403の上限値を決めるためのものである。これを説明すると前記最低発現回数403及び最高発現回数404は、対応する条件メッセージの発生回数をルールに定義する際に指定するものであって、例えば、ある条件メッセージにおいて、メッセージ[a]に対して、最低発現回数403に「2」、最高発現回数404に「10」を定義した場合、メッセージ[a]を2メッセージ受信した時点で結果出力条件を満足し、「10」メッセージ分だけを同一事象として集約(判定)することを意味する。また、ある条件メッセージにおいて、メッセージ[a]に対して、最低発現回数403に「1」、最高発現回数404に「1」を定義した場合は、メッセージ[a]を受信した数分だけ別々の事象として分析することを意味する。また、ある条件メッセージにおいて、メッセージ[a]に対して、最低発現回数403に「0」、最高発現回数504に「0」を定義した場合は、後述する事例全体監視時間604内にメッセージ[a]を1メッセージも受信しなかった場合に、結果出力条件を満足することを意味する。また、条件メッセージにおいて、メッセージ[a]に対して、最低発現回数503に0、最高発現回数504に1以上を定義した場合は、後述する事例全体監視時間604内にメッセージ[a]を受信した場合は、同一事象に関連する付随メッセージとして結果出力の一部に加えることを意味する。
【0027】
更に前記発現順序405は、何かの障害要因が発生した際に発生するメッセージの発生順序が条件となるルールを定義する際に指定するものであって、該発現順序505を利用して、例えばメッセージ[a]とメッセージ[b]とメッセージ[c]がこの順序で発生した場合に結果出力条件を満足する(集約する)といったルールを定義できる。また、例えば、メッセージ[a]とメッセージ[b]とメッセージ[c]がこの順序で発生することを前提として、メッセージ[a]の次にメッセージ[c]が発生した際、即ちメッセージ[b]を追い越した場合に結果出力条件を満足するといったルールも定義することができる。
【0028】
前記発現インターバル406は、同一メッセージが頻発するような事象を捕捉し、同一現象として関連する同一メッセージを集約するルールを定義する際に指定するものである。この発現インターバル506の指定には、一定時間内に同一メッセージが指定された回数以上発生したことを条件とするものと、同一メッセージの発生間隔がある一定時間内であることが指定された回数以上継続したことを条件するものなどを定義できる。
【0029】
前記ステータス407は、対応するメッセージの受信がどのようなステータスを意味するかを指定するものであって、例えばネットワーク通信を利用したアプリケーションなどにおいて、通信エラー/リトライ/通信エラーを繰り返した結果、最終的には正常終了で終わるメッセージが発生する、あるいは通信エラーのままとなるといった状況が発生するため、これらのメッセージを一連した事象として集約する際に、出力結果に最新メッセージに定義されたステータスを設定して、逐次更新することによって、現在の状況がエラーなのか、リトライ中なのか、正常終了したのかを示すことができる。
<アクション部情報の説明>
【0030】
前記事例蓄積部104に蓄積すべき事例情報の中のアクション部情報は、図5に示す如く、どのような形式/手段でメッセージや分析結果を出力するかを示すアクション種別501と、その出力のどのタイミングで実施するかを指定するアクションタイミング502とから成るアクション部308から構成される。
【0031】
前記アクション種別501は、例えばメール送信/ファイル出力/警報機器鳴動等の他システム連携を選択できる機構を持ち、前記他システム連携の一例としては、データセンタ等で運用されているヘルプデスクシステムに対するインシデント(対処しなければならない事象)の発行処理が挙げられる。また前記アクションタイミング502は、結果出力が確定した分析結果を、即時に出力するか又は翌朝7時に出力するか等を指定するものである。例えば前述したデータセンタ等の例においては、警報機鳴動がトリガとなって対応がとられることが多いが、例えばサービス保証時間帯外の軽微な障害については、発生時点でなくても後からその内容を知ればよいということが多々あるため、前述のようにアクションタイミングの設定において出力したい時刻を設定すればよい。
<ルール属性の説明>
【0032】
前記事例蓄積部104に蓄積する事例情報の中のルール属性部304は、図6に示す如く、条件パタンを一意に識別するための条件パタン識別子601と、後述するルール有効時間帯602と、第一報時間603と、事例全体監視時間とから構成され、これらの要素は、受信したメッセージと事例が合致するかどうかを判定する事例マッチング処理において、時間に関わる判定をする際に使用する要素である。
【0033】
前記ルール有効時間帯602は、事例マッチング処理において、その事例を受信メッセージとの合致判定対象とする時間帯を示すものであって、例えば、日中の場合は分析対象であり深夜の場合は分析対象ではないといった事例を定義する際には、ルール有効時間帯を設定するものである。これは、例えばコンピュータシステムの標準稼働時間帯が9:00〜17:00の場合、このシステムの保守は前記標準稼働時間帯外に行われ、この時間外の保守に伴うメッセージ(システム再起動時の各種メッセージ他)は分析対象外と設定することによって、対応するメッセージを深夜に受信しても分析対象にはならず、無駄な分析をせずに済むと言う効果がある。
【0034】
前記事例全体監視時間は、ある事例に合致する最初のメッセージを受信してからその事例に関連するメッセージを待つ最大待ち時間であり、例えば条件メッセージにメッセージ[a]とメッセージ[b]、全体監視時間に30秒が定義されている事例の場合、該事例ではメッセージ[a]とメッセージ[b]の組合せが30秒として短時間の中で発生することがルールとして定義されていることを意味する。逆に述べれば前記30秒以上の間隔をおいてメッセージ[a]とメッセージ[b]が発生した場合は異なる事例と定義されることを意味する。
【0035】
この事例では、メッセージ[a]というメッセージを受信した時点で事例オブジェクトという分析単位を生成し分析を開始し、その後、分析開始時点から30秒間にメッセージ[b]を受信した場合は、当該事例オブジェクトに関連するメッセージと判断し、逆に分析開始時点から例えば1日後にメッセージ[b]を受信した場合は、このメッセージ[b]は当該事例オブジェクトに関連するメッセージではなく、事例識別子は同じ別の事例オブジェクトとして新たに生成し分析を開始する様に処理を行う。このとき、先に生成された事例オブジェクトによる分析は、全体監視時間30秒が経過した時点で分析を終了し、合致率50%として分析結果を出力する。この事例を概念的に述べれば、例えばディスクシステムのリードエラーとタイムオーバーが全体監視時間30秒以内に連続して発生した場合はディスクシステムに障害事例が発生している可能性があると判定し、両エラー間隔が全体監視時間30秒を越えて発生した場合は、両エラー間に直接の関係はないと判定するものである。このように事例単位に事例全体監視時間を設けることによって、本実施形態は複数のメッセージを集約するために必要な時間を事例内容の質に合わせて設定でき、さらに時間的に無関係なメッセージを関連付けないようにすることができる。
【0036】
前記ルール属性部304に含まれる第一報時間603は、あるメッセージの受信により分析が開始したが、その後関連付けられるメッセージを受信しないために、結果出力条件に合致せず、そのまま埋もれている事例オブジェクトが見切りで途中結果を出力するまでの時間である。この事例は、例えば条件メッセージにメッセージ[c]が10メッセージ以上あること/第一報通報時間が1分/全体監視時間が1時間の条件を第一報時間603に定義した場合、メッセージ[c]を受信した時点で、事例オブジェクトという分析単位を生成し分析を開始し、その後、メッセージ[c]を受信する毎に関連するメッセージであるものとして当該事例オブジェクトに追加されていくが、受信メッセージが9メッセージでは結果出力条件を満足しないため、メッセージ最大するまでは出力回以上を分析開始時点から30秒間に受信した場合、当該事例オブジェクトに関連するメッセージと判定する処理である。
【0037】
このように本実施形態では、事例単位にこの第一報時間603を設けることにより、結果出力条件に完全に合致しない場合もメッセージを取りこぼすことなく、途中でも必ず出力することができると共に、また結果出力後に受信したメッセージについても、事例全体監視時間内であれば同一事象に関連するメッセージとして扱うことができる。
<分析結果情報の説明>
【0038】
前記分析結果蓄積部106に蓄積する分析結果情報は、図7に示す如く、分析結果を一意に識別する分析結果識別子701と、この結果を出力した時刻を示す分析結果出力時刻702と、更新した時刻を示す分析結果更新時刻703と、更新結果に付属する関連メッセージである関連メッセージ集合704と、同様に関連する事例を示す関連事例集合705とから構成される。
【0039】
前記関連メッセージ集合704は、関連付けられた受信メッセージに関する発生メッセージ(情報)706と、そのメッセージについて出力済みかどうかを示す出力フラグ707といった要素情報を複数保持できるものであり、関連事例集合705は、関連付けられた事例を参照するための事例識別子708と、該事例に対する合致率709と、その事例に合致するとされた実メッセージを参照できる情報であるメッセージ識別子711を持つ該当メッセージ集合710とから構成される。
<動作説明>
【0040】
次に前述のように構成されたメッセージ分析システムの動作を図8以降を参照して説明する。
<全体動作>
図8は、本実施形態によるメッセージ分析システムの処理動作例を示すフローチャートであり、本メッセージ分析システムは、監視対象機器のコンピュータシステムから収集したメッセージがメッセージ受信部101に入力(ステップ801)されると、予め読み込んでいる事例を基にメッセージ分析部103がメッセージを分析(ステップ802)し、分析結果出力部105が分析結果を出力(ステップ803)する様に動作する。
【0041】
<メッセージ受信部動作>
前記メッセージを収集するメッセージ受信部101は、図9に示す如く、常時受信メッセージを受け付ける状態においてメッセージを受信したと判定(ステップ901)したとき、そのメッセージを受信((ステップ902)し、メッセージ蓄積部102に受信メッセージを格納(ステップ903)した後、メッセージ分析部103へメッセージを送信(ステップ904)する様に動作する。このように本実施形態によるメッセージ受信部101が、内部のメッセージ蓄積部102に蓄積した受信メッセージをメッセージ分析部103に送信することによって、メッセージ分析の再試行や検証時に利用することができる。
【0042】
<メッセージ分析部動作>
次いで本システムは、メッセージ分析部103が、図10に示す如く、メッセージ受信部101からメッセージを受信(ステップ1001)して障害事例マッチング処理(ステップ1002)によるメッセージの分析を行うと共に、該受信メッセージとのマッチングより分析の対象となった事例の有効時間を監視するタイマ監視(ステップ1003)とを同時に行い、該ステップ1002及び1003から分析結果を出力することが決定したか否かを判定(ステップ1004)し、決定したと判定した場合、分析結果を分析結果出力部に送信(ステップ1005)する様に動作する。尚、前記ステップ1004において、メッセージを受信する間、あるいはマッチング中の事例が有効時間内の間、上記動作を繰り返し実行する。
【0043】
<マッチング処理詳細動作>
前記ステップ1002によるマッチング処理は、その詳細を図11に示す如く、メッセージを受け取ると、当該メッセージが既存の事例オブジェクトマッチング集合内の事例オブジェクト中に合致条件を満足する事例オブジェクトが存在するかを判定(ステップ1101)し、該合致条件を満足する事例オブジェクトを含む既存の事例オブジェクトマッチング集合が存在しないと判定したとき、次に予め事例蓄積部104から読み込んだ事例情報の中で事例有効時間帯を満足する事例の中から当該メッセージが合致する条件を持つ事例の有無を判定(ステップ1102)し、合致する事例が存在しないと判定したとき、合致事例無しという分析結果の出力を決定(ステップ1103)する。
【0044】
前記ステップ1101において、合致条件を満足する事例オブジェクトを含む既存の事例オブジェクトマッチング集合が存在すると判定したとき、本システムは、当該メッセージをその事例オブジェクトマッチング集合に追加(ステップ1107)し、予め事例蓄積部104から読み込んだ事例情報の中の事例有効時間帯を満足する事例から当該メッセージが合致する条件を持つ事例が存在するか否かを判定(ステップ1108)し、存在すると判定したとき、合致する事例分だけ事例オブジェクトを生成(ステップ1109)し、当該事例オブジェクトマッチング集合に追加(ステップ1110)する処理を実行する。
【0045】
他方、前記ステップ1102において、事例有効時間帯を満足する事例の中から当該メッセージが合致する条件を持つ事例が存在したと判定したとき、本システムは、当該事例の内容を持つ事例オブジェクトを新規に生成(ステップ1104)し、該新規に生成した事例オブジェクトマッチング集合(ステップ1105)を行い、次いで該生成した事例オブジェクトと当該メッセージとを格納(ステップ1106)する処理を実行する。このとき、当該メッセージが合致する条件を持つ事例は1事例とは限らず、該当する事例に対してすべて事例オブジェクトを生成し、事例オブジェクトマッチング集合に格納するものとする。この事例オブジェクトマッチング集合はメッセージ分析部の中に保持され、受け取った1メッセージを評価する際には、ステップ1101による判定の対象となるものである。
【0046】
前記ステップ1106/1110/1108に次いで本システムは、今回受け取ったメッセージが合致条件を満足する事例オブジェクトの中で,分析結果を出力することを確定するか否かを判定(ステップ1111)し、確定しないと判定したときには処理を終了し、確定したと判定したときには当該事例オブジェクトを含む事例オブジェクトマッチング集合において、過去に分析結果を出力済みかどうかを判定(ステップ1012)し、未出力と判定した場合は新規の分析結果出力を確定(ステップ1113)し、出力済みと判定した場合は既に出力済みの分析結果に対して内容を更新することを確定(ステップ1114)して処理を終了する。
【0047】
このように、本実施形態においては、既に出力済みの分析結果を、その後受信したメッセージの内容によって随時補正する機構を持つことにより、刻々と状況が変化するシステム稼動状況を監視し続けるデータセンタの運用にとって有効である。
【0048】
<有効時間タイマ監視動作>
前記メッセージ分析部103の中の、各事例オブジェクトマッチング集合における有効時間タイマ監視(図10のステップ1103)の詳細動作は、図12に示す如く、各事例オブジェクトマッチング集合単位に、ある事例オブジェクトマッチング集合内に割り当てられた各事例の最初に当該事例に合致したメッセージの時刻からの経過時間を計測し、あらかじめ当該事例に定義されている第一報時間に到達したかどうかを判定(ステップ1201)し、該第一報時間に到達した事例を含む事例マッチング集合と判定したとき、当該事例オブジェクトマッチング集合が他の割り当てられている事例に対するメッセージ分析がトリガとなって既に分析結果出力が決定され出力済みかどうかを判定(ステップ1202)し、分析結果が未出力と判定したときには当該事例オブジェクトマッチング集合の分析途中結果の出力を決定(ステップ1203)して処理を終了する。
【0049】
他方、本処理は、前記ステップ1201において事例オブジェクト経過時間が第一報時間に到達していないと判定したとき及びステップ1202において分析結果が出力済みと判定したとき、ある事例オブジェクトマッチング集合内に割り当てられた各事例オブジェクトの、最初に当該事例に合致したメッセージの時刻からの経過時間が、あらかじめ当該事例に定義されている全体監視時間に到達したかどうかを判定(ステップ1204)し、達していないと判定したときには処理を終了する。同ステップ1204において達していると判定したときには、当該全体監視時間に到達した事例オブジェクトについての分析を終了(ステップ1205)し、事例オブジェクトマッチング集合に含まれる全事例オブジェクトにおいて最初に各事例に合致したメッセージの時刻からの経過時間が全体監視時間に到達したか否かを判定(ステップ1206)し、到達していると判定したときには当該事例オブジェクトマッチング集合を消滅(ステップ1207)する。前記ステップ1204において全体監視時間が事例オブジェクト経過時間を超えていないと判定したとき又は前記ステップ1206において全事例オブジェクトの経過時間が全体監視時間に到達していないと判定したとき、処理を終了する。
【0050】
本実施形態によれば、事例オブジェクト毎に第一報時間により設定した時間内において前述の障害事例マッチング処理(図10のステップ1002)を行うと共に、前事例の全体監視時間により設定した時間内に障害事例マッチング処理を行うことができる。更に本実施形態によれば、有効時間監視タイマが参照する時刻はシステム時刻に限るものではなく、メッセージ識別子201に格納されているメッセージ発生時刻202も参照することにより、過去に発生したメッセージ情報の一括分析や、複数の監視対象機器から収集したメッセージをメッセージの発生時刻順に受信できない場合の分析にも対応することができる。
【0051】
<分析結果出力部動作>
前記分析結果出力部105の詳細動作(図8のステップ803)は、図13に示す如く、メッセージ分析部103から分析結果情報を入力(ステップ1301)すると、当該分析結果情報に格納されている出力タイミング情報を参照し、即時出力か時刻指定による出力かを判定(ステップ1302)し、時刻指定出力と判定したとき、タイマを起動(ステップ1303)して出力時刻が到達するまで待機し、出力時刻に到達したと判定(ステップ1304)したとき、分析結果情報に格納されている事例情報の中のアクション種別にあわせて分析結果を編集・出力(ステップ1305)し、これを分析結果蓄積部106に格納(ステップ1306)して処理を終了する。
前記ステップ1302において、出力タイミングが即時出力と判定したとき、本処理は、前記ステップ1305〜1306の如く分析結果の編集・出力並びに格納を実行する。
【0052】
本実施形態によれば、例えばアクション種別にメールが設定されている場合、予め指定されたメールサーバや送信先に対して、指定時刻又は即時にタイトル・本文を編集の上、メールを送信することができ、例えば緊急に対処する障害事例の場合は即メール送信を行い、時間的余裕がある事例の場合は指定時刻(例えば就業時間帯の開始時刻)にメール送信を行う等の障害事例の緊急度に応じたメール送信を行うことができる。また、1分析結果情報の中には、複数の事例情報や、その事例情報の中には複数のアクションが指定されることもあり、この場合、1分析結果情報から複数の方法での分析結果を出力し、メール配信することができる。
【0053】
この様に本実施形態によるメッセージ分析システム及び方法は、例えば、(1)事例蓄積部にメッセージの時刻に対応した有効時間帯を蓄積しておき、前記有効時間帯内の時刻にメッセージが発現したとき、当該事例に集約することによって、例えばシステムの通常稼働時間帯以外に発生した保守等に伴うメッセージを区別することができ、これにより不要なメッセージ分析や保守員の呼び出し等を防止することができ、(2)事例に応じて複数のメッセージが発生するとき、このメッセージの組合せによる事例と前記組合せによる事例対応の全体監視時間とを蓄積しておき、全体時間的間隔内に前記事例対応のメッセージの組合せが発現したとき、当該メッセージの組合せによる当該事例に集約することにより、複数のメッセージの組合せにより判別可能な障害事例を容易に集約することができ、(3)前記時間的要素として前記全体時間的間隔より短い間隔の第一報時間間隔を含ませると共にメッセージの組合せによる事例を蓄積しておき、前記メッセージの組合せが前記第一報時間間隔内に発現したとき、当該事例に集約することによって、障害事例に対応する全てのメッセージが発現する前に当該障害の可能性を保守員に通報することができ、(4)複数のメッセージ対応の事例毎に最小発現回数及び最大発現回数を蓄積しておき、メッセージが所定の時間内に前記最小発現回数から最大発現回数の間の回数だけ発現したとき、当該事例に集約することによって、一定時間(例えば24時間)内における所定範囲回数のメッセージを障害事例として集約することができ、(5)複数のメッセージの組合せが所定回数以上発現したときの事例を蓄積しておき、前記メッセージの組合せが所定回数以上発現したとき、当該事例に集約することによって、エラー発生の遂移、例えば送信エラーとリトライが繰り返され、最後には送信が完了するといった事象(メッセージ)が刻々と変化する遂移を分析することができ、更に(6)収集する実メッセージ文字列に条件となるメッセージ発生元マシン名や発生メッセージ文字列に、固定文字列部と変数文字列部を併せ持つことにより、メッセージ中で刻々と変化する時刻等を除いたメッセージ内容のみを要素として事例を集約することができる。
【産業上の利用可能性】
【0054】
本発明は、例えば、多数のコンピュータやネットワーク機器から構成される顧客システムを預かり、24時間体制で障害管理・運用管理をおこなうデータセンタにおいて、収集したログやメッセージをもとに早期障害検知・運用管理の妥当性の保証を行う際に有用であるが、これに限らず、電子メール/各種通話等の各種メッセージ通知・交換をなんらかの事例/内容毎に集約するシステムにも適用することができる。例えば、特定のワード/声紋の組合せを含むメール/通話が全体監視時間内に同一の通信者間でやり取りされた際、そのワードの組合せによる事例/内容等として集約することや宗教的な休息日/祈り時間帯の集約は行わない等のシステム、例えばエシュロン等の通信傍受システムにも適用することができる。
【図面の簡単な説明】
【0055】
【図1】本発明の一実施形態によるメッセージ分析システム構成を示す図。
【図2】本実施形態に適用されるメッセージ情報の構成図。
【図3】本実施形態に適用される事例情報の構成例図。
【図4】前記事例情報の中の条件属性情報の構成図。
【図5】前記事例情報の中の条件メッセージ情報の構成図。
【図6】前記事例情報の中のアクション情報の構成図。
【図7】本実施形態による分析結果情報の構成図。
【図8】本メッセージ分析システムの処理動作例を示すフローチャート図。
【図9】本実施形態によるメッセージ受信部の処理動作例のフローチャート図。
【図10】本実施形態によるメッセージ分析部の処理動作のフローチャート図。
【図11】前記メッセージ分析部の事例マッチング動作のフローチャート図。
【図12】前記メッセージ分析部の事例有効時間タイマ動作例を示すフローチャート図。
【図13】本実施形態による分析結果出力部の処理動作を示すフローチャート図。
【符号の説明】
【0056】
30:全体監視時間、50:合致率、100:メッセージ分析システム、101:メッセージ受信部、102:メッセージ蓄積部、103:メッセージ分析部、104:事例蓄積部、105:分析結果出力部、106:分析結果蓄積部、201:メッセージ識別子、202:メッセージ発生時刻、203:発生元機器、204:発生メッセージ文字列、301:事例識別子、302:合致ルール部、303:事例内容部、304:ルール属性部、305:条件メッセージ集合、306:条件メッセージ部、307:条件アクション集合、308:アクション部、309:結果アクション集合、310:アクション部、311:事例名称、312:事例説明、313:詳細、401:メッセージ発生元マシン名、402:メッセージ文字列、403:最低発現回数、404:最高発現回数、405:発現順序、406:発現インターバル、407:ステータス、501:アクション種別、502:アクションタイミング、503:最低発現回数、504:最高発現回数、505:発現順序、506:発現インターバル、601:条件パタン識別子、602:ルール有効時間帯、603:第一報時間、604:事例全体監視時間、701:分析結果識別子、702:分析結果出力時刻、703:分析結果更新時刻、704:関連メッセージ集合、705:関連事例集合、706:発生メッセージ、707:出力フラグ、708:事例識別子、709:合致率、710:メッセージ集合、711:メッセージ識別子。

【特許請求の範囲】
【請求項1】
複数のメッセージを受信し、該複数のメッセージを事象毎に集約して分析するメッセージ分析システムであって、
前記メッセージを受信するメッセージ受信部と、該メッセージ受信部より受信したメッセージを蓄積するメッセージ蓄積部と、複数のメッセージの事例を予め蓄積する事例蓄積部と、該事例蓄積部から読み込んだ事例を基にメッセージ分析をおこなうメッセージ分析部とを備え、
前記事例蓄積部が、事例に対応して発生するメッセージの時間的要素を格納し、前記メッセージ分析部が、受信したメッセージの時刻と前記事例蓄積部に蓄積した時間的要素とを用いて事例を集約することを特徴とするメッセージ分析システム。
【請求項2】
前記事例蓄積部が、メッセージの時刻に対応した有効時間帯を時間的要素として蓄積し、前記メッセージ分析部が、前記事例蓄積部に蓄積した前記有効時間帯内の時刻にメッセージが発現したとき、当該事例に集約することを特徴とする請求項1記載のメッセージ分析システム。
【請求項3】
事例に応じて複数のメッセージが発生するとき、前記事例蓄積部が、メッセージの組合せによる事例と、時間的要素として前記組合せによる事例対応の全体監視時間とを蓄積し、前記メッセージ分析部が、前記全体時間的間隔内に、前記事例対応のメッセージの組合せが発現したとき、当該メッセージの組合せによる当該事例に集約することを特徴とする請求項1記載のメッセージ分析システム。
【請求項4】
前記事例蓄積部が、前記時間的要素として前記全体時間的間隔より短い間隔の第一報時間間隔を含むと共にメッセージの組合せによる事例を蓄積し、前記メッセージ分析部が、前記メッセージの組合せが前記第一報時間間隔内に発現したとき、当該事例に集約することを特徴とする請求項3記載のメッセージ分析システム。
【請求項5】
前記事例蓄積部は、複数のメッセージ対応の事例毎に最小発現回数及び最大発現回数を蓄積し、前記メッセージ分析部は、前記メッセージが、所定の時間内に前記最小発現回数から最大発現回数の間の回数だけ発現したとき、当該事例に集約することを特徴とする請求項2〜4何れかに記載のメッセージ分析システム。
【請求項6】
前記事例蓄積部が、複数のメッセージの組合せが所定回数以上発現したときの事例を蓄積し、前記メッセージ分析部が、前記メッセージの組合せが所定回数以上発現したとき、当該事例に集約することを特徴とする請求項2〜5何れかに記載のメッセージ分析システム。
【請求項7】
メッセージを受信するメッセージ受信部と、該メッセージ受信部より受信したメッセージを蓄積するメッセージ蓄積部と、複数のメッセージの事例を予め蓄積する事例蓄積部と、該事例蓄積部から読み込んだ事例を基にメッセージ分析をおこなうメッセージ分析部とを備え、受信した複数のメッセージを事象毎に集約して分析するメッセージ分析システムのメッセージ分析プログラムであって、
メッセージ分析システムに、前記事例蓄積部を用いて事例に対応して発生するメッセージの時間的要素を格納する機能と、前記メッセージ分析部を用いて受信したメッセージの時刻と前記事例蓄積部に蓄積した時間的要素とを用いて事例を集約する機能とを実行させることを特徴とするメッセージ分析プログラム。
【請求項8】
受信したメッセージの時刻に対応した有効時間帯を時間的要素として蓄積する機能と、前記メッセージ分析部を用いて前記蓄積した前記有効時間帯内の時刻にメッセージが発現したとき、当該事例に集約する機能を含むことを特徴とする請求項7記載のメッセージ分析プログラム。
【請求項9】
事例に応じて複数のメッセージが発生するとき、前記事例蓄積部を用いて、メッセージの組合せによる事例及び時間的要素として前記組合せによる事例対応の全体監視時間とを蓄積する機能と、前記メッセージ分析部を用いて、前記全体時間的間隔内に前記事例対応のメッセージの組合せが発現したとき、当該メッセージの組合せによる当該事例に集約する機能を含むことを特徴とする請求項7記載のメッセージ分析プログラム。
【請求項10】
前記事例蓄積部を用いて前記全体時間的間隔より短い間隔の第一報時間間隔を含ませると共にメッセージの組合せによる事例を蓄積する機能と、前記メッセージ分析部を用いて前記メッセージの組合せが前記第一報時間間隔内に発現したとき、当該事例に集約する機能を含むことを特徴とする請求項9記載のメッセージ分析プログラム。
【請求項11】
前記事例蓄積部を用いて、複数のメッセージ対応の事例毎に最小発現回数及び最大発現回数を蓄積する機能と、前記メッセージ分析部を用いて、前記メッセージが所定の時間内に前記最小発現回数から最大発現回数の間の回数だけ発現したとき、当該事例に集約する機能を含むことを特徴とする請求項9〜10何れかに記載のメッセージ分析プログラム。
【請求項12】
前記事例蓄積部を用いて、複数のメッセージの組合せが所定回数以上発現したときの事例を蓄積する機能と、前記メッセージ分析部を用いて、前記メッセージの組合せが所定回数以上発現したとき、当該事例に集約する機能を含むことを特徴とする請求項9〜11何れかに記載のメッセージ分析プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2006−331026(P2006−331026A)
【公開日】平成18年12月7日(2006.12.7)
【国際特許分類】
【出願番号】特願2005−152898(P2005−152898)
【出願日】平成17年5月25日(2005.5.25)
【出願人】(000152985)株式会社日立情報システムズ (409)
【Fターム(参考)】