説明

障害情報収集システムと方法およびプログラム

【課題】発生した障害の早急な復旧や根本原因解明のため、障害発生時の情報収集および情報の整理作業、原因箇所の特定作業の効率を上げる。
【解決手段】システム障害情報収集システム10は、ログ収集機能102により、複数の監視対象機器1a〜1d(情報処理機器)において障害発生時に生成されるログ情報から、予め定められた障害メッセージに合致する情報を含むログ情報を特定して収集すると共に、各監視対象機器1a〜1dにおいて障害発生時に生成されるログ情報から、予め定められた検索用語を含むログ情報を特定して収集し、ログ表示機能103により、ログ収集機能102が収集したログ情報をログ表示画面106に表示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ装置からなる情報処理システムにおける障害発生時の障害原因の追求技術に係り、特に、障害原因の追求に必要なログ情報を効率的に収集するのに好適な技術に関するものである。
【背景技術】
【0002】
情報処理システムにおける障害が発生すると、その度に、原因追求のため様々なログを収集し、時系列等で並べる作業が必要となる。また、ログから障害に関するキーワードを検索する際に、別の文言で記載されている類似のキーワードも1つ1つ検索する必要がある。
【0003】
このような情報を効率的に収集することを可能とする従来技術として、例えば、特許文献1に記載の技術がある。この特許文献1においては、障害メッセージを階層インデックスに基づいて階層表示する技術が記載されている。これによって、発生した障害に関連するコンポーネントを容易に特定することができ、必要な情報を収集する作業の効率化を図ることができる。
【0004】
しかしながら、この技術においては、必要なログは手動で収集する必要があるため、収集には時間を要する。さらに、収集した情報の整理やログの検索において、類似のキーワードも検索することができず、原因の特定作業にも時間を要するという問題が残る。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2001−256032号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
解決しようとする問題点は、従来の技術では、コンピュータ処理システムにおける障害発生時の障害の原因分析において、必要な情報を収集して整理する作業を全て手動で行っている点、および、類似用語の検索を1つ1つ行っている点である。
【0007】
本発明の目的は、これら従来技術の課題を解決し、発生した障害の早急な復旧や根本原因解明のため、障害発生時の情報収集および情報の整理作業、原因箇所の特定作業の効率を上げることを実現することが可能である。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明においては、コンピュータ処理を実行する情報処理システムにおいて発生した障害の原因究明に必要となるログ情報を、障害メッセージの内容に基づいて自動的に収集し、時系列および構成機器のアドレス別等で整理して表示し、さらに、整理して表示した各ログに対して構成情報等の類似用語を含めて検索を行うことを特徴とする。
【発明の効果】
【0009】
本発明によれば、障害メッセージの内容から自動でログを収集・整理すること、および、類似用語の検索を自動で行うことが可能となり、障害の原因追及における情報収集および情報整理、原因特定作業の効率を向上させることができ、障害からの復旧や根本原因の解明に要する時間を短縮することが可能となる。
【図面の簡単な説明】
【0010】
【図1】本発明に係るシステム障害情報収集システムの構成例を示すブロック図である。
【図2】図1におけるシステム障害情報収集システムの本発明に係る第1の処理動作例を示すフローチャートである。
【図3】図1におけるシステム障害情報収集システムの本発明に係る第2の処理動作例を示すフローチャートである。
【図4】図1におけるシステム障害情報収集システムの本発明に係る第3の処理動作例を示すフローチャートである。
【図5】図1におけるシステム障害情報収集システムの本発明に係る第4の処理動作例を示すフローチャートである。
【図6】図1における事例DBのテーブル構成例を示す説明図である。
【図7】図1における検索DBのテーブル構成例を示す説明図である。
【図8】図1におけるログDBのテーブル構成例を示す説明図である。
【図9】図1における構成DBのテーブル構成例を示す説明図である。
【発明を実施するための形態】
【0011】
以下、図を用いて本発明を実施するための形態例を説明する。図1において、1a〜1dは監視対象機器、2はデータベースサーバ(図中および以降「DBサーバ」と記載)、3は利用者端末(図中「本ツール利用者」と記載)、10は本発明に係るシステム障害情報収集システム(図中「ログ収集システム」と記載)であり、このシステム障害情報収集システム10は、LAN等のネットワークを介して監視対象機器1a〜1dに接続されている。
【0012】
図1における監視対象機器1a〜1dとDBサーバ2、利用者端末3およびシステム障害情報収集システム10は、CPU(Central Processing Unit)や主メモリ、表示装置、入力装置、外部記憶装置からなるコンピュータ構成からなり、光ディスク駆動装置等を介してCD−ROM等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みCPUで処理することにより、各処理部の機能を実行する。
【0013】
例えば、システム障害情報収集システム10は、プログラムされたコンピュータ処理を実行する手段として、監視機能101、ログ収集機能102、ログ表示機能103、構成機器別表示機能104、キーワード検索機能105を有する。
【0014】
DBサーバ2は、利用者端末3から入力される設定情報を、事例DB151、検索DB152、ログDB153、構成DB154として記憶管理する。
【0015】
図6においては、事例DB151の事例定義テーブル60の項目を示しており、この事例定義テーブル60は、障害メッセージの内容と収集するログとの関連を定義するテーブルである。障害メッセージの項目名がerror_message602であり、収集するログの項目名がcollect_logs603であり、また、各関連付けを一意に表すcase_id601と説明を記載するcomment604を管理する。
【0016】
図7においては、検索DB152の検索用語定義テーブル70の項目を示しており、この検索用語定義テーブル70は、収集するログを取捨選択する為に用いる検索用語を定義するテーブルである。検索用語を定義する項目名がsearch_words702であり、検索用語を一意に表すsearch_id701を管理する。
【0017】
図8は、ログDB153のログ定義テーブル80の項目を示しており、このログ定義テーブル80は、ログを時系列に表示する為に、各ログの時刻フィールドを定義するテーブルである。収集したログがどのレコードに合致するかを判定する為に定義するログファイル名の項目名がlog_file_name802であり、ログの区切り形式(カンマやタブ等)を定義する項目名がend_point_kind803であり、時刻が記載されているフィールドを示す項目名がtime_field804である。また、これらの各定義のレコードを一意に表すlog_id801を管理する。
【0018】
図9は、構成DB154の構成定義テーブル90の項目を示しており、構成定義テーブル90は、ログ表示画面のキーワード検索において、入力値に類似した用語も含めて検索する為に、類似用語や構成情報を定義するテーブルである。類似の単語を定義する項目名がsimilar_words902であり、類似用語を一意に表すconf_id901を管理する。
【0019】
これらの事例DB151、検索DB152、ログDB153、構成DB154で記憶管理している各情報を用いて、図1に示す構成からなるシステム障害情報収集システム10は、監視対象機器1a〜1dにおいて発生した障害の原因究明に必要となるログ情報を、障害メッセージの内容に基づいて自動的に収集し、時系列および構成機器のアドレス別等で整理して表示し、さらに、整理して表示した各ログに対して構成情報等の類似用語を含めて検索を行う。
【0020】
すなわち、システム障害情報収集システム10は、ログ収集機能102により、複数の監視対象機器1a〜1d(情報処理機器)において障害発生時に生成されるログ情報から、予め定められた障害メッセージに合致する情報を含むログ情報を特定して収集すると共に、各監視対象機器1a〜1dにおいて障害発生時に生成されるログ情報から、予め定められた検索用語を含むログ情報を特定して収集し、ログ表示機能103により、ログ収集機能102が収集したログ情報をログ表示画面106に表示する。
【0021】
また、ログ収集機能102は、障害発生したアプリケーションのフォルダを検索して、当該障害の発生時刻から予め定められた時間内に更新されたログ情報を抽出し、この抽出したログ情報から、予め定められた検索用語を含むログ情報を特定して収集する。
【0022】
また、ログ表示機能103は、収集されたログ情報を、各ログ情報の発生時刻に基づき時系列に並べてログ表示画面106に表示する。
【0023】
また、システム障害情報収集システム10は、構成機器別表示機能104により、操作者からの指示があれば、画面表示した全てのログ情報の生成元の各情報処理機器を特定し、特定した各情報処理機器の識別情報をログ表示画面106に表示する。
【0024】
また、システム障害情報収集システム10は、キーワード検索機能105により、ログ表示画面106に表示したログ情報から、操作者から入力された検索キーワードを含むログ情報を特定し、特定したログ情報をログ表示画面106において強調表示すると共に、
ログ表示画面106に画面表示したログ情報から、操作者から入力された検索キーワードの類似用語を含むログ情報を特定し、特定したログ情報をログ表示画面106において強調表示する。
【0025】
以下、このようなシステム障害情報収集システム10の本発明に係る処理動作の詳細を説明する。
【0026】
システム障害情報収集システム10は、監視機能101により、監視対象機器1a〜1dにおける指定のログの発生を常時監視し、ログにメッセージが書きこまれた場合、ログ収集機能102を呼び出す。
【0027】
ログ収集機能102は、障害メッセージおよび収集するログが定義されている事例DB151を参照し、発生した障害メッセージの内容が事例DB151に定義されているか否かを判断する。
【0028】
定義されている場合、指定のログを監視対象機器1から収集し、ログ表示機能103へ渡す。定義されていない場合は、収集するログを絞り込む為の検索用語が定義されている検索DB152を参照し、収集するログの絞り込みを行った上で監視対象機器1a〜1dからログを収集し、ログ表示機能103へ渡す。
【0029】
ログ表示機能103は、各ログの時刻の記述場所(フィールド)が定義されているログDB153を参照し、受信したログを時系列に並べて、ログ表示画面106に表示する。
【0030】
構成機器別表示機能104は、各ログの出力ホスト名が定義されているログDB153を参照し、表示しているログを、構成機器のアドレス別に時系列で、ログ表示画面106に表示する。
【0031】
キーワード検索機能105は、入力されたキーワードを元に類似用語が定義されている構成DB154を参照し、シソーラスとして定義した類似用語を含めて、ログ表示画面106に反転表示する。
【0032】
図2を用いて、ログ収集機能102の処理動作を説明する。
【0033】
図1の監視機能101からエラー発生通知を受信した場合、事例検索(ステップ201)の処理において、障害メッセージと収集するログが定義されている事例DB251におけるテーブル251aを参照し、発生した障害メッセージが定義されているか否かを判定する。
【0034】
定義されていた場合、指定ログ収集(ステップ202)の処理において、合致した事例に定義したログを収集し、図1のログ表示機能103へ渡す。定義されていない場合は、収集するログを絞り込む為に、APフォルダ検索(ステップ203)の処理において、エラーが発生したAPのフォルダを検索する。無ければ表示しない。
【0035】
有れば、ログファイル検索(ステップ204)の処理において、ステップ203のAPフォルダ検索処理において該当したAPフォルダ下のエラー発生時刻から1時間以内に更新されたログを抽出する。1つも無ければ表示しない。
【0036】
あれば、検索DBの全レコードを比較する処理(ステップ205〜205a)処理を繰り返す。この繰り返し処理では、障害内容と検索DB(ステップ206)の処理において、検索DB252におけるテーブル252aの検索用語を参照し、障害メッセージの内容に各検索用語レコードに定義した複数の用語のうち、何れかの単語が含まれているか否かを判定し、含まれていた場合、該当したレコードの番号を保持する(ステップ207)。
【0037】
ステップ205〜205aでの繰り返し処理の後、ステップ204の処理で抽出した全てのログに対して(ステップ208〜208a)、および、ステップ207の処理で保持した検索DBの全レコードに対して(ステップ209〜209a)、ログ内容と検索DB252におけるテーブル252aの検索用語を照合し、合致するログが存在するか否かを判別し(ステップ210)、あれば、当該ログを収集対象ログとする(ステップ211)。
【0038】
すなわち、ステップ210での処理においては、先ほど抽出した各ログの内容に対して障害メッセージに含まれていた検索用語レコードの何れかの単語が記載されているか否かを検索し、記載されていた場合は、ステップ211での処理で、収集対象ログとして図1のログ表示機能103へ渡す。ログ表示機能103では、図3に示す処理により、収集対象のログを時系列で表示する。
【0039】
このログ表示機能103の処理動作を、図3を用いて説明する。
【0040】
ログ表示機能103は、図1のログ収集機能102から収集したログを受信すると、受信した全てのログに対しての以下の検索処理を繰り返し実行する(ステップ301〜301a)。まず、ログDB検索(ステップ302)の処理において、各ログにおける時刻のフィールドが記載されているログDB351におけるテーブル351aを参照し、ログファイル名を基に、合致するレコードを検索する。
【0041】
そして、ログの全行に対しての時刻検索を繰り返(ステップ303〜303a)し、まず、時刻抽出(ステップ304)の処理において、ログの各行に対してログDB検索302にて合致したレコード内の時刻フィールドの項目を元に時刻を抽出し、次に、時系列表示(ステップ305)の処理において、抽出した時刻を元に昇順(時系列)に並べる。このように、時系列状に並んだログ一覧を表示させる。
【0042】
次に、図4を用いて、構成機器別表示機能104の処理動作を説明する。
【0043】
構成機器別表示機能104は、利用者が、ログ表示画面106において、図示していない構成機器別表示ボタンを押下すると、表示している全てのログに対して検索を行い以下の処理を繰り返し実行する(ステップ401〜401a)。
【0044】
まず、ログDB検索(ステップ402)の処理において、各ログにおける時刻のフィールドと各ログの出力ホスト名が記載されているログDB451におけるテーブル451aを参照し、ログファイル名を元に合致するレコードを検索し、次に、出力ホスト抽出(ステップ403)の処理において、ステップ402でのログDB検索処理の結果で合致したレコード内のホスト名の項目を抽出する。
【0045】
そして、ログの全行に対して時刻の検索を行い、以下の処理を繰り返し実行する(ステップ404〜404a)。まず、時刻抽出(ステップ405)の処理において、ログの各行に対して、ステップ402のログDB検索処理で合致したレコード内の時刻フィールドの項目を基に時刻を抽出し、次に、時系列表示(ステップ406)の処理において、ステップ405での時刻抽出処理で抽出した時刻を、ステップ403での出力ホスト抽出処理で抽出した各ホスト毎に昇順(時系列)に並べる。このようにして、時系列状に並んだログ一覧を表示させる。
【0046】
次に、図5を用いて、キーワード検索機能105の処理動作を説明する。
【0047】
キーワード検索機能105は、利用者が、ログ表示画面106においてキーワード項目に値を入力して図示していない表示ボタンを押下すると、構成DBにおける全レコードを比較して以下の処理を繰り返し実行する(ステップ501〜501a)。
【0048】
まず、入力値と構成DB(ステップ502)の処理において、類似用語が定義されている構成DB551におけるテーブル551aを参照し、入力値と合致するレコードの有無を判別し、合致したレコードの番号を保持する(ステップ503)。
【0049】
ステップ501〜501aの処理の繰り返しの結果、ステップ503の処理で保持したレコードが存在するか否かを判別する(ステップ504)。その結果、存在しない場合、すなわち、入力値が定義されていなかった場合には、表示しているログに対して入力値のみを検索し、該当行のみを反転表示させ、また、存在する場合、すなわち、入力値が構成DB551におけるテーブル551aに定義されていた場合には、ログに対して類似用語を含めて検索を行い、用語が存在する行を反転表示する。
【0050】
以上、図1〜図9を用いて説明したように、本例のシステム障害情報収集システム10では、コンピュータ処理を実行する情報処理システムである監視対象機器1a〜1dにおいて発生した障害の原因究明に必要となるログ情報を、障害メッセージの内容に基づいて自動的に収集し、時系列および構成機器のアドレス別等で整理して表示し、さらに、整理して表示した各ログに対して構成情報等の類似用語を含めて検索を行う。
【0051】
すなわち、ネットワークで接続された複数のコンピュータ装置である監視対象機器1a〜1dから発生した障害メッセージの内容を基に、障害原因の分析に必要な追加情報を特定し、自動収集する。
【0052】
また、自動収集した複数の追加情報を時系列に並び替えて表示すると共に、構成機器のアドレスでメッセージを収集。表示する。また、構成機器のアドレス情報または同様の意味を指す類似用語をシソーラスとして定義することで、検索時にシソーラスとして定義した用語を含めて検索する。
【0053】
このように、本例のシステム障害情報収集システム10によれば、障害メッセージの内容から自動でログを収集・整理すること、および、類似用語の検索を、自動で行うことが可能となり、障害の原因追及における情報収集および情報整理、原因特定作業の効率を向上させることができ、障害からの復旧や根本原因の解明に要する時間を短縮することが可能となる。
【0054】
尚、本発明は、図1〜図9を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、本例のシステムは、各種業務運用処理サービスを提供するサーバシステムを運用・管理するデータセンタ等の障害復旧作業に利用することができる。
【0055】
また、本例のコンピュータ構成に関しても、キーボードや光ディスクの駆動装置の無いコンピュータ構成としても良い。また、本例では、光ディスクを記録媒体として用いているが、FD(Flexible Disk)等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。
【符号の説明】
【0056】
1a〜1d:監視対象機器、2:DBサーバ、3:利用者端末、10:システム障害情報収集システム、60:事例定義テーブル、601: case_id(各関連付けを一意に表す識別情報)、602:error_message(障害メッセージの項目名)、603:collect_logs(収集するログの項目名)、604:comment(説明を記載する項目)、70:検索用語定義テーブル、701:search_words(検索用語を定義する項目名)、702:search_id(検索用語を一意に表す識別情報)、80:ログ定義テーブル、801:log_id(定義のレコードを一意に表す識別情報)、802:log_file_name(定義ログファイル名の項目名)、803:end_point_kind(ログの区切り形式定義項目名)、804:time_field(時刻フィールド項目名)、90:構成定義テーブル、901:conf_id(類似用語を一意に表す識別情報)、902:similar_words(類似単語定義項目名)、101:監視機能、102:ログ収集機能、103:ログ表示機能、104:構成機器別表示機能、105:キーワード検索機能、106:ログ表示画面、151:事例DB、152:検索DB、153:ログDB、154:構成DB、251:事例DB、251a:事例DBのテーブル、252:検索DB、252a:検索DBのテーブル、351,451:ログDB、351a,451a:ログDBのテーブル、551:構成DB、551a:構成DBのテーブル。

【特許請求の範囲】
【請求項1】
複数の情報処理機器において生成されるログ情報を、コンピュータ処理により収集する障害情報収集システムであって、
プログラムされたコンピュータ処理を実行する手段として、
上記複数の情報処理機器において障害発生時に生成されるログ情報から、予め定められた障害メッセージに合致する情報を含むログ情報を特定して収集する第1の手段と、
上記複数の情報処理機器において障害発生時に生成されるログ情報から、
予め定められた検索用語を含むログ情報を特定して収集する第2の手段と、
収集したログ情報を画面表示する第3の手段と
を有することを特徴とする障害情報収集システム。
【請求項2】
請求項1に記載の障害情報収集システムであって、
プログラムされたコンピュータ処理を実行する手段として、
障害発生したアプリケーションのフォルダを検索して、当該障害の発生時刻から予め定められた時間内に更新されたログ情報を抽出し、
該抽出したログ情報から、上記予め定められた検索用語を含むログ情報を特定して収集する第4の手段
を有することを特徴とする障害情報収集システム。
【請求項3】
請求項1もしくは請求項2のいずれかに記載の障害情報収集システムであって、
上記第3の手段は、収集されたログ情報を、各ログ情報の発生時刻に基づき時系列に並べて画面表示することを特徴とする障害情報収集システム。
【請求項4】
請求項1から請求項3のいずれかに記載の障害情報収集システムであって、
プログラムされたコンピュータ処理を実行する手段として、
操作者からの指示があれば、上記画面表示した全てのログ情報の生成元の各情報処理機器を特定し、特定した各情報処理機器の識別情報を画面表示する第5の手段を有することを特徴とする障害情報収集システム。
【請求項5】
請求項1から請求項4のいずれかに記載の障害情報収集システムであって、
プログラムされたコンピュータ処理を実行する手段として、
上記画面表示したログ情報から、操作者から入力された検索キーワードを含むログ情報を特定し、特定したログ情報を強調表示する第6の手段と、
上記画面表示したログ情報から、操作者から入力された検索キーワードの類似用語を含むログ情報を特定し、特定したログ情報を強調表示する第7の手段と
を有することを特徴とする障害情報収集システム。
【請求項6】
コンピュータを、請求項1から請求項5のいずれかに記載の障害情報収集システムにおける各手段として機能させるためのプログラム。
【請求項7】
複数の情報処理機器において生成されるログ情報を、コンピュータ処理により収集するシステムの障害情報収集方法であって、
プログラムされたコンピュータ処理を実行する手段として、第1の手段と第2の手段および第3の手段を具備し、
上記第1の手段は、
上記複数の情報処理機器において障害発生時に生成されるログ情報から、予め定められた障害メッセージに合致する情報を含むログ情報を特定して収集する処理を実行し、
上記第2の手段は、
上記複数の情報処理機器において障害発生時に生成されるログ情報から、予め定められた検索用語を含むログ情報を特定して収集する処理を実行し、
上記第3の手段は、収集したログ情報を画面表示する処理を実行する
ことを特徴とする障害情報収集方法。
【請求項8】
請求項7に記載の障害情報収集方法であって、
プログラムされたコンピュータ処理を実行する手段として、第4の手段を具備し、
該第4の手段は、
障害発生したアプリケーションのフォルダを検索して、当該障害の発生時刻から予め定められた時間内に更新されたログ情報を抽出し、
該抽出したログ情報から、上記予め定められた検索用語を含むログ情報を特定して収集する処理を実行する
ことを特徴とする障害情報収集方法。
【請求項9】
請求項7もしくは請求項8のいずれかに記載の障害情報収集方法であって、
上記第3の手段は、収集されたログ情報を、各ログ情報の発生時刻に基づき時系列に並べて画面表示する処理を実行することを特徴とする障害情報収集方法。
【請求項10】
請求項7から請求項9のいずれかに記載の障害情報収集方法であって、
プログラムされたコンピュータ処理を実行する手段として、第5の手段を具備し、
該第5の手段は、
操作者からの指示があれば、上記画面表示した全てのログ情報の生成元の各情報処理機器を特定し、特定した各情報処理機器の識別情報を画面表示する処理を実行することを特徴とする障害情報収集方法。
【請求項11】
請求項7から請求項10のいずれかに記載の障害情報収集方法であって、
プログラムされたコンピュータ処理を実行する手段として、第6の手段と第7の手段を具備し、
上記第6の手段は、
上記画面表示したログ情報から、操作者から入力された検索キーワードを含むログ情報を特定し、特定したログ情報を強調表示する処理を実行し、
上記第7の手段は、
上記画面表示したログ情報から、操作者から入力された検索キーワードの類似用語を含むログ情報を特定し、特定したログ情報を強調表示する処理を実行する
ことを特徴とする障害情報収集方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−203911(P2011−203911A)
【公開日】平成23年10月13日(2011.10.13)
【国際特許分類】
【出願番号】特願2010−69355(P2010−69355)
【出願日】平成22年3月25日(2010.3.25)
【出願人】(000152985)株式会社日立情報システムズ (409)
【Fターム(参考)】