説明

監視システム

【課題】監視対象装置のメモリ容量の増大と保守性の低下を解決すること。
【解決手段】本発明である監視システムは、監視対象装置にて実行される処理状態を表す統計ログを所定の時間間隔にて採取する統計ログ採取手段と、監視対象装置から出力された当該監視対象装置の状態を表すイベントログを採取してバッファメモリに蓄積するイベントログ採取手段と、取得した統計ログが予め設定された異常状態であるか否かを判断する統計ログ解析手段と、統計ログ解析手段の判断により統計ログが異常状態となったときに、統計ログを採取する時間間隔が短くなるよう統計ログ採取手段に変更設定するログ採取間隔変更手段と、を備え、上記イベントログ採取手段は、上記統計ログ解析手段の判断により統計ログが異常状態となったときに、バッファメモリに蓄積した現時点以前のイベントログの少なくとも一部を所定の記憶装置に記憶する、という構成をとる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、監視システムにかかり、特に、監視対象装置が出力するログ情報を監視する監視システムに関する。
【背景技術】
【0002】
ミッションクリティカル環境で使用されるコンピュータシステムは、高機能化が進んでいる。高機能なコンピュータシステムの内部は、複数のコンポーネントが連動する構造になっていて複雑に絡み合っていることが多い。このような複雑な内部構造を持つコンピュータシステムには、次のような問題がある。
【0003】
ミッションクリティカル環境で使用されるコンピュータシステムは、問題発生時の調査のために運用を停止させることができない場合が多く、ログのみを使用して詳細な調査を行う必要がある。そのため、ログの採取間隔は短く固定されている場合が多く、問題解析に必要でないログも大量に採取している。すると、ログサイズが膨大になり、ディスクスペースを圧迫する、という問題がある。
【0004】
また、高機能なコンピュータシステムの場合、機能を実現するために内部の処理が必然的に複雑になってしまう。複雑な処理をするコンピュータシステムの場合、ログの採取ポイントもそれに伴って多くなってしまう。その結果、ログサイズが肥大化してしまう。そして、採取されるログのサイズが膨大になるため、装置からログを抜き出す作業や、問題発生後の解析作業でオーバーヘッドが発生する。その結果、装置全体の保守性に影響を与える。なお、ログを用いて装置の以上を監視するシステムの一例が、特許文献1に開示されている。
【0005】
一方、ログ出力のオーバーヘッドを軽減するために、メモリ上に一時的にログをバッファする方式がある。かかる方法により、メモリ上に一時的にログをバッファすることで、システムの運用への影響を最小限にすることができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2005−211451号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、問題発生後の解析を行うためには大量のログを採取する必要がある。これらのログを一時的にメモリ上に格納するためには、それだけ大きいメモリを使用する必要がある。さらに、ログサイズが肥大化することによって、上述同様に、装置全体の実行効率、保守性が低下する、という問題が生じる。
【0008】
このため、本発明の目的は、上述した課題である、監視対象となる装置に搭載するメモリ容量の増大と、かかる装置の実行効率及び保守性が低下する、という問題を解決することにある。
【課題を解決するための手段】
【0009】
本発明の一形態である監視システムは、
監視対象装置にて実行される所定の処理の処理状態を表す統計ログを、設定された所定の時間間隔にて採取する統計ログ採取手段と、
前記監視対象装置から出力された当該監視対象装置の状態を表すイベントログを採取してバッファメモリに蓄積するイベントログ採取手段と、
前記統計ログ採取手段にて取得した前記統計ログが予め設定された異常状態であるか否かを判断する統計ログ解析手段と、
前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記監視対象装置の統計ログを採取する時間間隔が短くなるよう前記統計ログ採取手段に変更設定するログ採取間隔変更手段と、を備え、
前記イベントログ採取手段は、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積した現時点以前のイベントログの少なくとも一部を所定の記憶装置に記憶する、
という構成をとる。
【0010】
また、本発明の他の形態であるプログラムは、
情報処理装置に、
監視対象装置にて実行される所定の処理の処理状態を表す統計ログを、設定された所定の時間間隔にて採取する統計ログ採取手段と、
前記監視対象装置から出力された当該監視対象装置の状態を表すイベントログを採取してバッファメモリに蓄積するイベントログ採取手段と、
前記統計ログ採取手段にて取得した前記統計ログが予め設定された異常状態であるか否かを判断する統計ログ解析手段と、
前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記監視対象装置の統計ログを採取する時間間隔が短くなるよう前記統計ログ採取手段に変更設定するログ採取間隔変更手段と、を実現させると共に、
前記イベントログ採取手段は、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積した現時点以前のイベントログの少なくとも一部を所定の記憶装置に記憶する、
ことを実現させるためのプログラムである。
【0011】
また、本発明の他の形態である監視方法は、
監視対象装置にて実行される所定の処理の処理状態を表す統計ログを、設定された所定の時間間隔にて採取し、
前記監視対象装置から出力された当該監視対象装置の状態を表すイベントログを採取してバッファメモリに蓄積すると共に、
取得した前記統計ログが予め設定された異常状態であるか否かを判断し、
前記統計ログが異常状態となったときに、前記監視対象装置の統計ログを採取する時間間隔が短くなるよう前記統計ログ採取手段に変更設定すると共に、前記バッファメモリに蓄積した現時点以前のイベントログの少なくとも一部を所定の記憶装置に記憶する、
という構成をとる。
【発明の効果】
【0012】
本発明は、以上のように構成されることにより、監視対象装置を監視する装置におけるメモリ容量を抑制すると共に、ログの解析作業を容易かつ効率的に行うことができる。
【図面の簡単な説明】
【0013】
【図1】本発明の構成を示す機能ブロック図である。
【図2】図1に開示した処理ユニットの構成を示す図である。
【図3】図1に開示した処理ユニットにおけるメッセージの処理の様子を示す図である。
【図4】本発明の動作を示すフローチャートである。
【発明を実施するための形態】
【0014】
本発明の第1の実施形態を、図1乃至図4を参照して説明する。図1乃至図2は、本実施形態における情報処理システムの構成を示す図であり、図3乃至図4は、情報処理システムにおける動作を説明する図である。
【0015】
[構成]
本実施形態における情報処理システムは、サーバコンピュータであるノードを複数備えたストレージシステムである。但し、本発明の情報処理システムは、ストレージシステムであることに限定されない。
【0016】
本実施形態におけるストレージシステムは、図1に示すように、監視機能1と処理機能2とから構成されており、処理機能2の各種処理を行うユニット4自体が、監視対象装置である。なお、監視機能1と処理機能2とは、相互に区別できるコンピュータやシステムにて構成されていてもよく、同一システム内に構築されていてもよい。
【0017】
上記処理機能2は、統計ログファイル21と、イベントログファイル22と、ログ書き出し部23と、マネジメントユニット3と、ユニット4と、を備える。
【0018】
上記ユニット4は、クライアントから処理の命令であるメッセージを実際に処理する機能であり、本実施形態では、複数のユニット4を備えている。これに伴い、処理機能2は、クライアントからのメッセージを受け付け、そのメッセージをユニット4に送る機能を有する。なお、本実施形態における処理機能2は、ユニット4を複数装備しているが、1つのユニット4が装備されているだけでもよい。
【0019】
そして、各ユニット4は、所定の処理を実行する機能を有し、例えば、本実施形態における重複排除機能を持ったストレージシステムでは、処理するタスクのみを実行する構造を持つ。具体的に、各ユニット4は、図2に示すように、階層構造を有する処理ユニットを構成しており、例えば重複排除機能を実現する構造として、書き込み/読み取りを受け付けるユニットA1、書き込み/読み取りの流量をコントロールするユニットA2、論理的な書き込み先を制御するユニットA3、書き込み/読み取りを制御するユニットA4、論理的なI/Oを制御するユニットA5、重複排除機能を提供するユニットA6、物理的な書き込みを制御するユニットA7、冗長性、性能向上のためにデータ配置を最適にするユニットA8、データを削除する機能を提供するユニットA9、を有する。但し、各ユニット4は、上述した処理を実行するユニットであることに限定されない。
【0020】
また、ユニット4間の処理の命令は、図3に示すように、処理の内容が記載されたメッセージを送信/受信することで行う。各ユニット4は、メッセージを溜めておくキューを持ち、そのキューにメッセージを溜める。そして、各ユニット4は、他のユニットから送信されたメッセージを処理するための処理部40を持ち、キューの中にあるタスクを順番に処理していく。
【0021】
そして、各ユニット4は、ユニット構造のフレームワークに基づいて構成されている。具体的に、各ユニット4は、図2に示すように、上述した処理部40のほか、統計ログ採取部41と、イベントログ採取部42と、リクエスト処理時間測定手段43と、を備える。
【0022】
上記統計ログ採取部41(統計ログ採取手段)は、各ユニット4の処理部40における処理状態を表す統計ログを、設定された所定の時間間隔にて採取する機能を有する。このとき、統計ログを採取する時間間隔は、最初は長く設定されている。但し、後述する監視機能1のログ採取間隔変更部15からの指示により変更設定された場合には、その設定に従った時間間隔で統計ログの採取を行う。例えば、通常時には、長く設定された時間間隔にて統計ログを採取し、統計ログの異常時には、通常時よりも短く設定された時間間隔にて統計ログを採取する。また、異常時から通常時に戻った場合には、異常時に設定された短い時間間隔から通常時の長い時間間隔に戻って、かかる時間間隔にて統計ログの採取を行う。
【0023】
ここで、統計ログ採取部41にて取得する統計ログは、まず、リクエスト処理時間測定部43にて測定された「メッセージがキューの中に挿入されてから処理部40にはいるまでの時間」であり、換言すると、ユニット4内におけるメッセージの処理待ち時間である。また、統計ログ採取部41にて取得する統計ログは、「メッセージが処理部40で処理を開始される時から終了した時の時間」であり、換言すると、メッセージに応じた処理部40による実際の処理時間である。これら計測した2つの各時間を、統計ログ採取部41が統計ログとして採取する。但し、統計ログは、上述したいずれか一方の時間だけであってもよく、あるいは、ユニット4における他の処理にかかる時間であってもよい。
【0024】
また、ユニット4の統計ログ採取部41は、異常フラグとバッファとを有している。バッファは、上述したリクエスト処理時間測定部43にて測定され、リクエスト処理時間測定部43から渡された各統計ログを一時的に記憶するメモリである。また、異常フラグは、後述するように、監視機能1の統計ログ解析部12にて解析された結果として統計ログが異常であると判断された場合に、この統計ログを採取したユニット4が異常状態であることを表す情報が設定されるフラグである。
【0025】
なお、統計ログ取得部41は、バッファに一時的に保存した統計ログを、マネジメントユニット3にある統計ログ収集部32に渡す。ここで、マネジメントユニット3が有する統計ログ収集部32は、各ユニット4の各統計ログ採取部41から出力された統計ログを収集し、ログ書き出し部23に送る機能を有する。また、ログ書き出し部23は、統計ログを統計ログファイル21として書き出す機能を有する。なお、統計ログ収集部41は、各ユニット4の異常フラグのリスト、つまり、異常状態であると判断されたユニット4のリストを持つ。
【0026】
また、各ユニット4が有する上記イベントログ採取部42(イベントログ採取手段)は、各ユニット4の処理部40が出力した当該ユニット4自体の状態を表すイベントログを採取して、装備されたバッファに蓄積する。なお、採取したイベントログは、ある一定のサイズになるまでバッファに格納される。ここで、本実施形態におけるイベントログとは、例えば、ユニット4の稼働状況を表す警告、エラーなどの情報である。
【0027】
そして、イベントログ採取部42にて採取され、バッファに蓄積されたイベントログは、マネジメントユニット3のイベントログ収集部31によって収集される。そして、イベントログ収集部31は、ログ書き出し部23によって実際のイベントログファイル22に出力を行う。
【0028】
ここで、ユニット4に装備されたイベントログ採取部42のバッファは、ユニット毎に分散して持つため、分散化された各イベントを発生した順番に並べ替える必要がでてくる。これを実現するために、以下の2種類の方法がある。一つ目は、システムタイムスタンプをノード間で定期的に同期をとる方法がある。ノード間のタイムスタンプが常に同期がとれている状態となるため、容易にイベントの発生順序に並べ替えることが可能となる。二つ目は、各ユニットは他のユニットからのメッセージを処理するときにログを出力する。そのため、各ユニットでメッセージを処理する場合の時間のみが正しく出力されていれば処理を追うことができる。その結果、時刻が大幅にずれていない限り、処理をログから追うことは可能となる。これにより、イベントログは、出力された時刻も併せてバッファに記憶され、当該時刻が各ユニットにて同期がとれているため、発生順序に従って並べ替えた状態でバッファに蓄積することができる。
【0029】
次に、監視機能1の構成について説明する。図1に示すように、監視機能1は、統計ログ吸出し部11と、統計ログ解析部12と、閾値テーブル13と、異常フラグ収集部14と、ログ採取間隔変更部15と、各ログの採取間隔のテーブル16と、を備える。
【0030】
上記統計ログ吸出し部11は、処理機能2の統計ログファイル21から統計ログ情報を取得する。上記統計ログ解析部12(統計ログ解析手段)は、統計ログが予め設定された閾値内におさまっているかを、閾値テーブル13内の値と比較する。そして、閾値の範囲内におさまっていない統計ログを異常状態であると判断し、そのリストを作成し、異常フラグ収集部14に送る。ここで、閾値テーブル13は、統計ログと閾値(上限値、下限値)が記載されている。例えば、閾値の上限値は、上述した統計ログのうち処理部40によるメッセージの実際の処理時間が長い(処理が遅い)と判断される予め設定された値である。但し、閾値の上限値や下限値はいかなる値であってもよいが、当該上限値あるいは下限値を統計ログの値が超えた場合には、当該統計ログが異常状態であると判断できる値である。
【0031】
上記異常フラグ収集部14は、統計ログ収集部32が持つ各ユニット4の異常フラグリストを採取する。そして、統計ログ解析部12にて判断された閾値の範囲内におさまっていない統計ログのリストと、異常フラグのリストを比較して、範囲内におさまっていない統計ログのリストのみに存在しているユニット4について、設定されている統計ログを採取する時間間隔を短くする指示をログ採取間隔変更部15に出す。また、異常フラグのリスト内のみに存在しているユニット4は、既に短く設定されている統計ログを採取する時間間隔を、元に戻して長くする指示をログ採取間隔変更部15に出す。つまり、異常フラグ収集部14は、統計ログを採取する時間間隔を短くするユニット、あるいは、統計ログを採取する時間間隔を長い時間に戻すユニット4、のリストをログ採取間隔変更15に送る。
【0032】
そして、上記ログ採取間隔変更部15(ログ採取間隔変更手段)は、渡されたリストに記載されたユニット4の統計ログ採取部41に対して、統計ログを採取する時間間隔を変更するように命令をする。統計ログを採取する時間間隔を短くする場合、どの統計ログの採取間隔を短くするかは、各統計ログを採取する時間間隔のテーブル16を基に決定される。各統計ログを採取する時間間隔のテーブル16は、ある統計ログが閾値を超えたとき、つまり、異常状態となったときに、統計ログを採取する時間間隔を変更する統計ログのリストが記載されている。
【0033】
ここで、上述した各ユニット4は、処理を命令するメッセージのみで結合されているため、各ユニットが独立的に動作している。このため、あるユニットで問題が発生すると、そのユニットはメッセージの処理時間の増加や、メッセージがキューの中で待ち状態になることがある。そのため、どのユニットで問題が発生したかを切り分けるために、メッセージの処理時間を採取する必要がある。
【0034】
また、性能問題などのメッセージの処理時間が異常値を示していないが、全体として処理が遅いという問題がある。このような問題の傾向として、問題の発生している時間が長時間ということが挙げられる。このような場合は、採取間隔の短い統計ログは必要ないが、採取間隔を長めにとった統計ログを採取する必要がある。
【0035】
このようなことと、上述した構成により、処理機能2、つまり、各ユニット4では、次のような効率的なログ採取が可能となる。
【0036】
まず、通常時は、十分に長い時間間隔で統計ログを採取するよう、各ユニットの統計ログ採取部41が設定されている。同時に、上述した監視機能1の統計ログ解析部12等により、各ユニット4のメッセージ処理時間が監視され、メッセージの処理時間があらかじめ決められた閾値を超えた場合に、その問題が発生したユニット4の統計ログを採取する時間間隔を、通常時よりも短い時間間隔とするよう設定する。これにより、問題が発生したことがメッセージの処理時間を見ることで可能となるため、通常時に十分長い時間間隔で統計ログを採取していたとしても、問題発生時の統計ログを採取することが可能となる。
【0037】
また、通常時は、イベントログ採取部42のバッファに溜めたログの中から一部しか保存しないようにする。そして、監視機能1の統計ログ解析部12等によって統計ログの異常が検出されたときに、イベントログ採取部42のバッファに保存されているイベントログを問題が発生した時刻にさかのぼってイベントログ収集部31に出力して、イベントログファイル22として所定の記憶装置に保存する。このとき、バッファのサイズを大きくすればするほど、イベントログをさかのぼって保存する時間を長くすることができる。また、統計ログで異常を検出後にイベントログをさかのぼるため、さかのぼることができる時間だけ統計ログの採取間隔を長くすることができる。その結果、全てのイベントログを保存する必要はなくなり、問題発生時の重要なイベントログのみを取得することができる。なお、上述したイベントログの保存処理は、ログ採取間隔変更部15にて統計ログを採取する時間間隔が変更設定された統計ログ採取部41がイベントログ採取部42に指示することにより、当該イベントログ採取部42にて実行される。但し、上述したイベントログの保存処理は、他の方法にて実行されてもよい。
【0038】
そして、上述したイベントログの保存処理では、例えば、統計ログが異常状態であると判断された現時点から、統計ログを採取する時間間隔の1間隔分だけさかのぼった時点までのイベントログを、バッファから読み出して保存してもよい。但し、イベントログの保存期間は、いかなる期間であってもよい。
【0039】
なお、上述した構成による監視対象装置の監視は、特に、監視対象装置がストレージシステムである場合に効果的である。まず、データを保存する特性上、装置の信頼性が最も重要となる。ストレージシステムの中で最も故障する確率が高い箇所がディスクである。一般的にディスクの障害は、故障の前には動作が遅くなる、一時的に読めなくなるなどの異常な動作を示すことが多い。そのため、本発明を使用して定期的に統計ログを確認することで、実際にはまだ故障していないディスクの異常な動作を発見することが可能となり、ディスク障害を未然に防ぐことができ、耐障害性を向上させることができる。
【0040】
そして、本発明を適用したストレージシステムでは、問題発生時に特化したログ採取を行うため、採取されたログは、問題解析に必要のあるログのみとなる。そのため、従来のような問題発生後に大量のログの中から問題と関係がありそうなログを探す作業が省かれ、問題発生後の原因究明が容易にできるようになる。その結果、装置の保守性を大幅に向上させることができる。
【0041】
また、耐障害性に優れたストレージ装置は、ディスク障害が発生したとしても、装置としての動作を維持することができる。しかし、ハードウェアの故障でシステムのバランスが崩れた装置では書き込み/読み取り性能に影響を与える場合がある。その結果、予期せぬ障害が発生する可能性が出てくる。その場合にも、本発明を適用することで異常な状態を検知できるようになる。
【0042】
さらに、高機能なストレージシステムは、多くの機能を持っているが、それらの機能が運用中、常に稼動しているわけではない。ある処理で動作する機能は限られるため、本発明を適用することで、稼動している処理ユニットに限定してログ採取ができるようになる。結果として、全体のログサイズを削減することができる。
【0043】
[動作]
次に、上述した情報処理システムによる監視動作を、図1乃至3や、図4のフローチャートを参照して説明する。はじめに、監視機能1が異常を検出し、問題が生じたユニットの統計ログの採取時間間隔を変更するときの動作について説明する。
【0044】
各ユニット4は、クライアントからの要求された処理を実行する。そして、各ユニット4は、図2に示すような各処理ユニットから統計ログやイベントログを採取して、ログ書き出し部23に統計ログやイベントログを送る。ログ書き出し部23は、統計ログファイル21、イベントログファイル22にログを出力する。統計ログが出力されると、統計ログ吸出し部11が統計ログ情報を取得する(ステップS1)。
【0045】
続いて、統計ログ解析部12が、取得した統計ログの値が閾値テーブル13内の値の範囲にはいっているかを解析する(ステップS2)。解析の結果、範囲外となった統計ログのリストを異常フラグ収集部14に送る。
【0046】
異常フラグ収集部14は、統計ログ収集部32が持っている異常フラグリストを取得する(ステップS3)。そして、異常フラグリストに記載されているユニットと統計ログ解析部12から送られてきたリストを比較する。そして、上記統計ログ収集部32からの異常フラグリストには、現在、統計ログを採取する時間間隔が短くなっている状態のユニットを表している。従って、この異常フラグリストに設定されておらず、統計ログ解析部12から閾値の範囲外となったユニットのリストに存在しているユニットは、ログ採取間隔変更部15に統計ログを採取する時間間隔を短くするように命令をする(ステップS4)。このとき、ログ採取間隔変更部15は、各統計ログの採取間隔のテーブル16からどの採取間隔を短くするかを取得して、統計ログ採取部41に命令を送ることで変更する。
【0047】
その後、統計ログ採取部41は、変更設定された採取間隔で統計ログを採取する。また、異常を検出した場合に、当該異常が発生したユニットのイベントログ採取部42内にあるバッファから、異常が発生した時間にさかのぼってイベントログを出力するようイベントログファイル22に保存する。
【0048】
次に、ユニットの異常を検出後、ユニットが正常に戻り、採取間隔が長くなるまでの動作について説明する。まず、異常フラグリストに記載されているユニット4と統計ログ解析部12から送られてきたリストとを比較する。異常フラグリストに記載されているユニットであるにも関わらず、統計ログ解析部12から送られてきたユニットリストに記載されていない場合は、そのユニットは異常状態から通常状態に戻ったことになる。そのため、ログ採取間隔変更部15によって、統計ログを採取する時間間隔を長くする、つまり、元に戻すように命令を送る。
【0049】
すると、ログ採取間隔変更部15は、統計ログ採取部41に対して統計ログを採取する時間間隔を長くする命令を送る。それと同時に、異常フラグを解除する。また、問題発生時は常に異常の状態ではなく、異常と正常の状態で振動する場合が考えられる。その場合の対策として、異常フラグの作成された時間を見て、ある一定の時間が経ったユニットの異常フラグのみを解除する動作をする。
【0050】
以上のように、本発明によると、統計ログやイベントログの出力量を削減することができると共に、ログを一時的に格納するバッファの容量の小さくすることができる。これまでの方式では、常に全てのユニットが出力したログを保存していたため、必然的にログサイズが大きくなってしまっていた。しかし、本発明により、統計ログを監視することで、問題が発生したユニットを検出して、当該問題が発生したユニットのイベントログをバッファに溜められたログをさかのぼることで保存することが可能となり、常に全てのログを採取する必要がなくなる。
【0051】
また、本発明によると、問題発生後の解析作業が簡易化される。つまり、問題の発生したユニットに絞ったログ採取が可能となる。その結果、問題発生後のログ解析作業を効率的に行うことができるようになる。
【0052】
また、本発明によると、ログサイズが削減できるため、装置からログを抜き出す作業が容易にできるようになり、問題発生後の保守作業の簡易化を図ることができる。また、ログサイズを小さくできるため、現地作業ではなくネットワーク経由でログを採取して、リモートで保守作業を行うことができるようになる。
【0053】
さらに、本発明では、異常を検出すると、統計ログ、イベントログの採取を行うため異常な状態の箇所をいち早く検出することができ、障害の事前保守が可能となる。また、障害が発生したことが原因で異常になった機能も検出することができる。検出されたログを定期的に確認することでストレージ装置の異常に気づくことができ、故障の前の事前保守が可能となる。
【0054】
なお、上記では、監視機能1と処理機能2を別の機能とした構成としているが、監視機能1を処理機能2内に実装した構成とすることもできる。また、上記では、マネジメントユニット3が統計ログを集めて監視機能1によって統計ログを取得して監視するという方法をとっていたが、各ユニット4が自ユニットの監視を自律的に行い、統計ログを採取する時間間隔を変更する構成をとることもできる。
【0055】
また、上記では、イベントログ、統計ログをバッファしておく場所を各ユニット4としていたが、マネジメントユニット3の統計ログ収集部31、イベントログ収集部32内にバッファを持つ構成とすることもできる。さらに、上記では、各ユニット4が同一のシステムや情報処理装置上に実装されている構成としているが、各ユニット4を別々のシステムや情報処理装置に配置した構成とすることもできる。
【0056】
<付記>
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における監視システム等の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
【0057】
(付記1)
監視対象装置にて実行される所定の処理の処理状態を表す統計ログを、設定された所定の時間間隔にて採取する統計ログ採取手段と、
前記監視対象装置から出力された当該監視対象装置の状態を表すイベントログを採取してバッファメモリに蓄積するイベントログ採取手段と、
前記統計ログ採取手段にて取得した前記統計ログが予め設定された異常状態であるか否かを判断する統計ログ解析手段と、
前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記監視対象装置の統計ログを採取する時間間隔が短くなるよう前記統計ログ採取手段に変更設定するログ採取間隔変更手段と、を備え、
前記イベントログ採取手段は、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積した現時点以前のイベントログの少なくとも一部を所定の記憶装置に記憶する、
監視システム。
【0058】
(付記2)
付記1に記載の監視システムであって、
前記イベントログ採取手段は、前記監視対象装置から出力された前記イベントログと共に当該イベントログが出力された時刻を前記バッファメモリに蓄積し、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積したイベントログのうち、現時点から所定時間だけさかのぼった時点の間に出力された前記イベントログを所定の記憶装置に記憶する、
監視システム。
【0059】
(付記3)
付記2に記載の監視システムであって、
前記イベントログ採取手段は、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積したイベントログのうち、現時点から前記統計ログ採取手段にて前記統計ログを採取する時間間隔の1間隔分だけさかのぼった時点の間に出力された前記イベントログを所定の記憶装置に記憶する、
監視システム。
【0060】
(付記4)
付記1乃至3のいずれかに記載の監視システムであって、
前記統計ログ採取手段は、前記監視対象装置にて実行される所定の処理の処理時間を含む前記統計ログを採取し、
前記統計ログ解析手段は、前記統計ログ採取手段にて取得した前記統計ログに含まれる処理時間が予め設定された基準値を超えた状態である場合に、前記異常状態となったと判断する、
監視システム。
【0061】
(付記5)
付記4に記載の監視システムであって、
前記統計ログ採取手段は、前記監視対象装置に対する処理命令の当該監視対象装置内における処理待ち時間、及び/又は、前記処理命令に応じた実際の処理時間、を表す前記処理時間を含む前記統計ログを採取する、
監視システム。
【0062】
(付記6)
付記1乃至5のいずれかに記載の監視システムであって、
前記ログ採取間隔変更手段は、前記統計ログ解析手段の判断により前記統計ログが異常状態から異常状態でなくなったときに、前記監視対象装置の統計ログを採取する時間間隔が長くなるよう前記統計ログ採取手段に変更設定する、
監視システム。
【0063】
(付記7)
付記4乃至5のいずれかに記載の監視システムであって、
前記監視対象装置は、ストレージシステムであり、
前記統計ログ採取手段は、前記ストレージシステムにて実行される記憶再生処理の処理時間を含む前記統計ログを採取し、
前記イベントログ採取手段は、前記ストレージシステムから出力された当該ストレージシステムの状態を表す前記イベントログを採取してバッファメモリに蓄積する、
監視システム。
【0064】
(付記8)
情報処理装置に、
監視対象装置にて実行される所定の処理の処理状態を表す統計ログを、設定された所定の時間間隔にて採取する統計ログ採取手段と、
前記監視対象装置から出力された当該監視対象装置の状態を表すイベントログを採取してバッファメモリに蓄積するイベントログ採取手段と、
前記統計ログ採取手段にて取得した前記統計ログが予め設定された異常状態であるか否かを判断する統計ログ解析手段と、
前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記監視対象装置の統計ログを採取する時間間隔が短くなるよう前記統計ログ採取手段に変更設定するログ採取間隔変更手段と、を実現させると共に、
前記イベントログ採取手段は、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積した現時点以前のイベントログの少なくとも一部を所定の記憶装置に記憶する、
ことを実現させるためのプログラム。
【0065】
(付記9)
付記8に記載のプログラムであって、
前記イベントログ採取手段は、前記監視対象装置から出力された前記イベントログと共に当該イベントログが出力された時刻を前記バッファメモリに蓄積し、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積したイベントログのうち、現時点から所定時間だけさかのぼった時点の間に出力された前記イベントログを所定の記憶装置に記憶する、
プログラム。
【0066】
(付記10)
監視対象装置にて実行される所定の処理の処理状態を表す統計ログを、設定された所定の時間間隔にて採取し、
前記監視対象装置から出力された当該監視対象装置の状態を表すイベントログを採取してバッファメモリに蓄積すると共に、
取得した前記統計ログが予め設定された異常状態であるか否かを判断し、
前記統計ログが異常状態となったときに、前記監視対象装置の統計ログを採取する時間間隔が短くなるよう前記統計ログ採取手段に変更設定すると共に、前記バッファメモリに蓄積した現時点以前のイベントログの少なくとも一部を所定の記憶装置に記憶する、
監視方法。
【0067】
(付記11)
付記10に記載の監視方法であって、
前記監視対象装置から出力された前記イベントログと共に当該イベントログが出力された時刻を前記バッファメモリに蓄積し、
前記統計ログが異常状態となったときに、前記バッファメモリに蓄積したイベントログのうち、現時点から所定時間だけさかのぼった時点の間に出力された前記イベントログを所定の記憶装置に記憶する、
監視方法。
【符号の説明】
【0068】
1 監視機能
11 統計ログ吸出し部
12 統計ログ解析部
13 閾値テーブル
14 異常フラグ収集部
15 ログ採取間隔変更部
16 各ログの採取間隔のテーブル
2 処理機能
21 統計ログファイル
22 イベントログファイル
23 ログ書き出し部
3 マネジメントユニット
31 イベントログ収集部
32 統計ログ収集部
4 ユニット
40 処理部
41 統計ログ採取部
42 イベントログ採取部
43 リクエスト処理時間測定部


【特許請求の範囲】
【請求項1】
監視対象装置にて実行される所定の処理の処理状態を表す統計ログを、設定された所定の時間間隔にて採取する統計ログ採取手段と、
前記監視対象装置から出力された当該監視対象装置の状態を表すイベントログを採取してバッファメモリに蓄積するイベントログ採取手段と、
前記統計ログ採取手段にて取得した前記統計ログが予め設定された異常状態であるか否かを判断する統計ログ解析手段と、
前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記監視対象装置の統計ログを採取する時間間隔が短くなるよう前記統計ログ採取手段に変更設定するログ採取間隔変更手段と、を備え、
前記イベントログ採取手段は、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積した現時点以前のイベントログの少なくとも一部を所定の記憶装置に記憶する、
監視システム。
【請求項2】
請求項1に記載の監視システムであって、
前記イベントログ採取手段は、前記監視対象装置から出力された前記イベントログと共に当該イベントログが出力された時刻を前記バッファメモリに蓄積し、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積したイベントログのうち、現時点から所定時間だけさかのぼった時点の間に出力された前記イベントログを所定の記憶装置に記憶する、
監視システム。
【請求項3】
請求項2に記載の監視システムであって、
前記イベントログ採取手段は、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積したイベントログのうち、現時点から前記統計ログ採取手段にて前記統計ログを採取する時間間隔の1間隔分だけさかのぼった時点の間に出力された前記イベントログを所定の記憶装置に記憶する、
監視システム。
【請求項4】
請求項1乃至3のいずれかに記載の監視システムであって、
前記統計ログ採取手段は、前記監視対象装置にて実行される所定の処理の処理時間を含む前記統計ログを採取し、
前記統計ログ解析手段は、前記統計ログ採取手段にて取得した前記統計ログに含まれる処理時間が予め設定された基準値を超えた状態である場合に、前記異常状態となったと判断する、
監視システム。
【請求項5】
請求項4に記載の監視システムであって、
前記統計ログ採取手段は、前記監視対象装置に対する処理命令の当該監視対象装置内における処理待ち時間、及び/又は、前記処理命令に応じた実際の処理時間、を表す前記処理時間を含む前記統計ログを採取する、
監視システム。
【請求項6】
請求項1乃至5のいずれかに記載の監視システムであって、
前記ログ採取間隔変更手段は、前記統計ログ解析手段の判断により前記統計ログが異常状態から異常状態でなくなったときに、前記監視対象装置の統計ログを採取する時間間隔が長くなるよう前記統計ログ採取手段に変更設定する、
監視システム。
【請求項7】
請求項4乃至5のいずれかに記載の監視システムであって、
前記監視対象装置は、ストレージシステムであり、
前記統計ログ採取手段は、前記ストレージシステムにて実行される記憶再生処理の処理時間を含む前記統計ログを採取し、
前記イベントログ採取手段は、前記ストレージシステムから出力された当該ストレージシステムの状態を表す前記イベントログを採取してバッファメモリに蓄積する、
監視システム。
【請求項8】
情報処理装置に、
監視対象装置にて実行される所定の処理の処理状態を表す統計ログを、設定された所定の時間間隔にて採取する統計ログ採取手段と、
前記監視対象装置から出力された当該監視対象装置の状態を表すイベントログを採取してバッファメモリに蓄積するイベントログ採取手段と、
前記統計ログ採取手段にて取得した前記統計ログが予め設定された異常状態であるか否かを判断する統計ログ解析手段と、
前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記監視対象装置の統計ログを採取する時間間隔が短くなるよう前記統計ログ採取手段に変更設定するログ採取間隔変更手段と、を実現させると共に、
前記イベントログ採取手段は、前記統計ログ解析手段の判断により前記統計ログが異常状態となったときに、前記バッファメモリに蓄積した現時点以前のイベントログの少なくとも一部を所定の記憶装置に記憶する、
ことを実現させるためのプログラム。
【請求項9】
監視対象装置にて実行される所定の処理の処理状態を表す統計ログを、設定された所定の時間間隔にて採取し、
前記監視対象装置から出力された当該監視対象装置の状態を表すイベントログを採取してバッファメモリに蓄積すると共に、
取得した前記統計ログが予め設定された異常状態であるか否かを判断し、
前記統計ログが異常状態となったときに、前記監視対象装置の統計ログを採取する時間間隔が短くなるよう前記統計ログ採取手段に変更設定すると共に、前記バッファメモリに蓄積した現時点以前のイベントログの少なくとも一部を所定の記憶装置に記憶する、
監視方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate