説明

障害調査支援装置、方法およびプログラム

【課題】障害発生時の事象(現象)の再現確認を容易に行えるようにする。
【解決手段】障害調査業務を支援する障害調査支援装置(100)は、想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を蓄積する蓄積手段(10,20)と、障害発生時にログファイルからエラーメッセージを抽出する抽出手段(30)と、この抽出したエラーメッセージに基づいて、蓄積手段(10,20)に蓄積された操作・現象関連情報を検索し、検索された一連の操作を、エラーを発生させた現象を再現させる手順として出力する検索手段(40)と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、障害発生時の事象(現象)の再現確認を容易とする障害調査支援装置、方法およびプログラムに関する。
【背景技術】
【0002】
障害発生時の調査方法として、一般的には各装置が出力するログの内容を確認することにより、どのような事象(現象)が発生していたのかを確認する方法がある。この際、調査担当者が持つ環境で同様の事象(現象)を再現させることにより、その環境を利用して様々な角度からの調査を行える。そのため、事象(現象)を再現させることは、障害調査上重要な事項である。
【0003】
事象(現象)を再現させるためには、障害発生時に利用者がどのような操作を行っていたのかが重要となる。ここで、利用者が行った操作を逐一ログに出力していれば、現象発生時の利用者の操作を追うことができる。
【0004】
しかしながら、現実には、そのような頻度でログ出力を行うと、装置の性能に大きく影響する。そのため、利用者の操作レベルの情報はログに出力しないことが多い。その結果、障害発生に至るまでの利用者の操作が分からないため、事象(現象)の再現に時間を要していたり、事象(現象)を再現させられないことも発生していた。
【0005】
本発明に関連する先行技術文献が従来から種々知られている。
【0006】
例えば、特許文献1は、エラーコードとエラー発生回数により、障害の発生を検出する「障害情報管理方式」を開示している。
【0007】
また、特許文献2は、エラーログを管理し、製品にフィードバックさせるためのログ採取、収集、編集、転送する「エラーログ情報管理方法」を開示している。
【0008】
さらに、特許文献3は、システム負荷が小さく、かつ、採取した操作手順情報を再利用しやすい形で保存する「障害解析支援装置」を開示している。この特許文献3に開示された障害解析支援装置は、客先側システムと開発側システムとを備える。客先側システムは、監視対象となるアプリケーションの起動、終了を監視するアプリケーション起動監視プログラムと、アプリケーションに組み込まれてアプリケーションでの操作手順を即時情報として記号化し記録する手順監視プログラムと、操作手順であるログファイルを一時的に格納するメモリと、ディスプレイとを有する。開発側システムは、操作手順を記録したログファイルから操作手順を再現しやすいように、固定的なキーワードを持つ手順スクリプトファイルと、操作手順を再現できる手順再現プログラムと、監視対象のアプリケーションと、ディスプレイとを有し、客先側システムで発生した障害を解析する。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開平7−262054号公報
【特許文献2】特開平7−21059号公報
【特許文献3】特開2000−10829号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
上述したように、利用者の操作を逐一記録していない装置の場合、その装置で障害が発生した場合に、現象(事象)を再現させるための手順が不明な状態となる。そのため、現象(事象)を再現させるためには、ログから推測される操作を解析したり、対応者の知識に頼ることとなる。その結果、対応者によって現象(事象)を再現させるまでに時間を要したり、現象(事象)の再現自体が行えないことがあった。これにより、障害対応に時間がかかったり、原因不明となってしまう問題点があった。
【0011】
一方、上記特許文献1〜3に開示された方法では、それぞれ、以下に述べるような問題がある。
【0012】
特許文献1に開示された方法は、単に、エラーコードとエラー発生回数とを管理する技術思想を開示しているに過ぎず、操作手順とエラーとの対応関係については何ら開示も示唆もしていない。
【0013】
特許文献2に開示された方法も、エラーログを管理して、それを製品にフィードバックさせる技術思想を開示しているに過ぎず、操作手順とエラーとの対応関係については何ら開示も示唆もしていない。
【0014】
特許文献3に開示された方法は、操作手順を採取することを開示するのみで、その採取した操作手順とエラーとの対応関係について何ら開示も示唆もしていない。
【0015】
本発明の目的は、障害発生時の事象(現象)の再現確認を容易に行える障害調査支援装置、方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0016】
本発明に係る障害調査支援装置は、障害調査業務を支援する障害調査支援装置であって、想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を蓄積する蓄積手段と、障害発生時にログファイルからエラーメッセージを抽出する抽出手段と、この抽出したエラーメッセージに基づいて、蓄積手段に蓄積された操作・現象関連情報を検索し、検索された一連の操作を、エラーを発生させた現象を再現させる手順として出力する検索手段と、を備える。
【0017】
また、本発明に係る障害調査支援方法は、障害調査業務を支援する障害調査支援方法であって、想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を記憶装置に蓄積するステップと、障害発生時にログファイルからエラーメッセージを抽出するステップと、この抽出したエラーメッセージに基づいて、記憶装置に蓄積された操作・現象関連情報を検索し、検索された一連の操作を、エラーを発生させた現象を再現させる手順として出力するステップと、を含む。
【発明の効果】
【0018】
本発明に係る障害調査支援装置は、障害発生時の事象(現象)の再現確認を容易に行うことができる。
【図面の簡単な説明】
【0019】
【図1】本発明の第1の実施例に係る障害調査支援装置の構成を示すブロック図である。
【図2】図1に示した障害調査支援装置のエラー情報蓄積装置に蓄積される格納情報を示す図である。
【図3】図1に示した障害調査支援装置の動作を説明するためのタイムチャートである。
【発明を実施するための形態】
【0020】
以下、本発明の実施の形態について、説明する。
先ず、本発明の特徴について説明する。
【0021】
本発明は、障害調査を含む保守対応業務において、障害発生時の各装置が出力するログの内容から、現象発生時の想定される操作情報を蓄積データより抽出し、障害発生までの再現確認方法を提示することにより、障害対応者に再現確認を容易にさせ、障害調査を支援する装置である。
【0022】
あらかじめ操作とそれによって引き起こされるエラー内容との対応付けを行っておくことにより、エラーの内容からその発生に至るまでの操作を検索することができる。
【0023】
換言すれば、本発明では、あらかじめ利用者の操作情報とその際に発生するエラーの現象情報との間の関係を関連付けて蓄積した、操作・現象関連情報を用いることにより、発生した障害(エラー)の内容から利用者の操作を検索する。これにより、利用者が行ったと想定される操作が分かるため、その操作を元に再現確認を行うことができる。
【0024】
各製品に対し、どのような操作を行った場合にどのようなエラーが発生するのか、あらかじめ想定されうる多数の操作を行い、発生する現象情報を蓄積する。これにより、利用者の操作や状況と発生する現象が関連付けられる。その関連付けられた蓄積情報(操作・現象関連情報)を用いることにより、障害発生時の現象の内容から現象発生に至るまでの利用者の操作やその際の状況を把握することができる。これにより、今まで時間を要していた現象(事象)の再現確認の方法の確立が容易となる。
【実施例1】
【0025】
図1を参照して、本発明の第1の実施例に係る障害調査支援装置100について説明する。図示の障害調査支援装置100は、障害調査業務を支援する装置であって、自動実行装置10と、エラー情報蓄積装置(記憶装置)20と、ログ解析装置30と、ケース検索装置40とから構成されている。
【0026】
自動実行装置10は、ユーザが行える操作を製品(保守対象装置)に対して自動的に実行する。エラー情報蓄積装置20は、利用者の操作の内容や状況とエラーを関連付けて保存する。ログ解析装置30は、障害発生時のログを解析することでエラーメッセージを抽出する。ケース検索装置40は、エラーの内容から操作内容や状況の検索をエラー情報蓄積装置20に対して行う。
【0027】
自動実行装置10では、本発明の実施例の実現に必要な利用者が行う操作と、その操作の際に発生するエラーの情報を蓄積するために、利用者が行うことができるあらゆる操作を保守対象装置(図示せず)に対して行う。その際に、保守対象装置がエラーログを出力した場合、自動実行装置10は、その行った操作情報とそれを一連の流れで纏めたケース情報、およびエラーの発生した現象情報をセットにして、後述するエラー情報蓄積装置(記憶装置)20に格納する。
【0028】
エラー情報蓄積装置(記憶装置)20では、保守対象装置に対して行った操作情報、それを一連の流れで纏めたケース情報、エラーの発生した個別現象情報、および個別現象情報を纏めた現象情報を、関連付けて保存する。
【0029】
すなわち、自動実行装置10とエラー情報蓄積装置20との組合せは、想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を蓄積する蓄積手段(10,20)として働く。
【0030】
エラー情報蓄積装置20に格納される操作・現象関連情報については、図2のようになっている。操作情報ごとに1つの番号(操作ID)が割り当てられ、それら操作情報の一連の流れを纏めたケース情報に対してもそれぞれ番号(ケースID)が割り当てられる。また、エラーが発生した個別現象情報についてもそれぞれ一意の番号(個別現象ID)が割り当てられ、それらを纏めた現象情報に対しても番号(現象ID)が割り当てられる。これらの情報は、ケースIDと現象IDの関連情報とともに、操作・現象関連情報として、エラー情報蓄積装置20に格納される。
【0031】
すなわち、操作・現象関連情報は、図2に示すように、操作の内容を示す操作情報と、エラーが発生した場合に当該現象が発生するまでの一連の操作を纏めたケース情報と、発生したエラーの内容を示す個別現象情報と、ケース情報と個別現象情報とを関連付けた現象情報と、を含む。
【0032】
ログ解析装置30では、障害発生時のログを解析し、エラーメッセージをログから抽出する。すなわち、ログ解析装置30は、障害発生時にログファイルからエラーメッセージを抽出する抽出手段(30)として働く。
【0033】
ケース検索装置40では、渡されたエラーメッセージから、エラー情報蓄積装置20に蓄積されている操作・現象関連情報を検索し、エラーメッセージを発生させる一連の操作を返す。したがって、ケース検索装置40は、抽出したエラーメッセージに基づいて、蓄積手段(10,20)で蓄積された操作・現象関連情報を検索し、検索された一連の操作を、エラーを発生させた現象を再現させる手順として出力する検索手段(40)として動作する。
【0034】
このような自動実行装置10、エラー情報蓄積装置(記憶装置)20、ログ解析装置30、およびケース検索装置40から成る障害調査支援装置100は、コンピュータによって実現され得る。そして、コンピュータに、障害調査支援プログラムをインストールすることによって、障害調査支援装置100として動作させ得る。
【0035】
図示の障害調査支援装置100において、あらかじめ保守対象装置に対して、利用者が行うことができる操作を、自動実行装置10を利用して実行しておく。この自動実行装置10では、画面上に表示されているボタンのクリックなどユーザが操作可能なものについて、操作を実行する。これらの操作については「どの製品に対し、どのオブジェクトを、どのように操作したか」という内容ごとに、一意の番号(以降、「操作ID」と呼ぶ)が割り当てられている。
【0036】
例えば、「ポータルシステムに対し、ログインボタンを、ダブルクリックする」といった内容(操作情報)に対し、操作IDが割り当てられている。各操作を製品に対して行った際にエラーが発生した場合、自動実行装置10は、当該エラーが発生した場合の当該現象が発生するまでの一連の操作について纏めたもの(これを「ケース情報」と呼ぶ)に対して一意の番号(以降、「ケースID」と呼ぶ)を割り当てる。また、自動実行装置10は、発生したエラーの内容(個別現象情報)についても同様に「どの製品に対し、どのような内容が出力されたか」という内容(個別現象情報)ごとに、一意の番号(以降、「個別現象ID」と呼ぶ)を割り当てる。そして、自動実行装置10は、これらの個別現象のうち操作により発生した1つ以上を纏めたもの(現象情報)に対しても一意の番号(以降、「現象ID」と呼ぶ)を割り当て、ケースIDと現象IDとを関連付けて、エラー情報蓄積装置20に格納する。
【0037】
例えば「システムAにログインし、左上のアイコンをダブルクリックすると、ログイン後の情報取得に失敗した旨が2つの製品のログに出力される」という現象が発生したとする。この場合、以下のような情報が、エラー情報蓄積装置20に操作・現象関連情報として格納される。
【0038】
1) 次のような操作情報が、エラー情報蓄積装置20に記録される。
「システムAに対し、ID入力欄に、IDを入力する」(操作ID:1001)
「システムAに対し、ログインボタンを、クリックする」 (操作ID:1002)
「システムAに対し、左上のアイコンを、ダブルクリックする」 (操作ID:1003)
2) これらを纏めた以下のケース情報が、エラー情報蓄積装置20に記録される。
ケースID:2001 { 操作ID:1001,1002,1003}
3) 次のような個別現象情報が、エラー情報蓄積装置20に記録される。
「システムAのログに、『ログイン後の情報取得に失敗しました。』と出力される」 (個別現象ID:3001)
「システムBのログに、『ログイン後の情報取得に失敗しました。』と出力される」 (個別現象ID:3002)
4) 次のような現象情報が、エラー情報蓄積装置20に記録される。
現象ID:4001 { 個別現象ID:3001,3002}
5) ケースID:2001と現象ID:4001とが関連付けられて、エラー情報蓄積装置20に格納される。
【0039】
このようにして、操作とそれによって引き起こされるエラーの内容を関連付けた、操作・現象関連情報をエラー情報蓄積装置20に格納しておく。
【0040】
次に、障害(エラー)が発生した際には、対応者は、発生した装置のログをログ解析装置30に入力する。ログ解析装置30では、障害(エラー)の発生時間帯などをもとに、ログファイルからエラーメッセージを抽出する。
【0041】
障害(エラー)の調査を行うために、この現象を再現させる必要があるが、そのために抽出したログの内容をケース検索装置40に入力する。ケース検索装置40では、ログのエラーメッセージに基づいて、エラー情報蓄積装置20から合致する個別現象を検索する。合致する個別現象が存在する場合、ケース検索装置40は、その個別現象が含まれている現象、およびその現象に関連付けられているケースを検索する。
【0042】
この検索により、ログに記録されていたエラーを発生させるケース、つまり一連の操作が検索されるため、対応者は、エラー現象を発生させる一連の操作を確認でき、それを元に再現確認を行うことが可能となる。
【0043】
例えば「システムAに『ログイン後の情報取得に失敗しました』と出力される」現象が抽出されたとする。この場合、ケース検索装置40では、まずこのエラー出力内容にてエラー情報蓄積装置20に対して検索をかける。この場合、個別現象ID:3001が検索される。
【0044】
次に、ケース検索装置40は、この個別現象を含む現象を検索すると、現象ID:4001だとわかる。さらに、ケース検索装置40は、現象ID:4001と関連付けられているケースを検索すると、ケースID:2001だと分かり、そのケースに含まれる操作が操作ID:1001、操作ID:1002、操作ID:1003であると分かる。
【0045】
対応者は、操作ID:1001、1002、1003の操作を順に行えば、今回のエラーメッセージの内容の現象が発生すると判断でき、それを元に現象(事象)の再現確認を行うことができる。
【0046】
次に、図3のタイムチャートを参照して、図1に示した障害調査支援装置100の動作について説明する。
【0047】
まず、保守対象装置に対して、自動実行装置10を利用して、想定されうる利用者の操作を行う。例えば、自動実行装置10は、『システムAに対し、ログインIDにIDを入力し、ログインボタンをクリックし、その後の画面でアイコンをダブルクリックする』などの操作を、保守対象装置に対して行う。その際に、保守対象装置がエラーメッセージをログに出力した場合、自動実行装置10は、エラー情報蓄積装置20に対し、行った一連の操作と発生したエラーメッセージを格納する。
【0048】
例えば、「『システムAのログインID入力欄にログインIDを入力する』『システムAのログインボタンをクリックする』『表示されたアイコンをダブルクリックする』という操作に対し、『システムAのエラーログにログイン情報の取得に失敗しましたというエラーメッセージが出力される』」といった内容を、自動実行装置10は、エラー情報蓄積装置20に送信する(図3のステップ(1))。
【0049】
エラー情報蓄積装置20では、各操作に対し自身の格納している操作情報と比較して、すでに番号づけられているものであればその番号を用い、されていなければ新たに採番し、操作情報を格納するという動作を行う。同様に、個別現象情報に対しても格納されていない場合、エラー情報蓄積装置20は、採番し、個別現象情報を格納する。さらに、エラー情報蓄積装置20は、操作をまとめたケース情報を採番し、同様に個別現象情報を纏めた現象情報を採番し、ケースと現象の関連情報を作成して格納する(図3のステップ(2))。
【0050】
障害(エラー)が発生した際に、障害調査の対応者(以降、単に「対応者」と呼ぶ)は、障害発生時に保守対象装置が出力したログファイルを、ログ解析装置30に入力する。ログ解析装置30ではログの解析を行い、現象発生時間帯に出力されているエラーメッセージを出力する(図3のステップ(3))。
【0051】
例えば、「ログイン情報の取得に失敗しました」というエラーメッセージが該当時間帯に出力されていた場合、ログ解析装置30は、このメッセージを抽出する。そして、ログ解析装置30は、エラーメッセージを出力した製品情報と、そのエラーメッセージの内容をケース検索装置40に入力する(図3のステップ(4))。
【0052】
ケース検索装置40では、入力された製品情報とエラーメッセージの内容とに基づいて、エラー情報蓄積装置20が格納している操作・現象関連情報から該当するものを検索する(図3のステップ(5))。
【0053】
ケース検索装置10は、製品のマッチングとメッセージの文字列マッチングにより、該当する個別現象情報を検索する。それにより、ケース検索装置10は、その個別現象情報を含む現象情報を判断することができる。さらに、ケース検索装置40は、現象情報と関連付けられているケース情報を検索するため、該当ケース情報が参照している各操作情報を検索することができる。このようにして、ケース検索装置40は、エラー情報蓄積装置20の格納データ(操作・現象関連情報)より、エラーメッセージを発生させる一連の操作を取得する(図3のステップ(6))。
【0054】
次に、本第1の実施例の効果について説明する。
【0055】
本発明の第1の実施例は、エラーメッセージの内容から障害(エラー)の再現を行うことが難しい場合でも、エラーを発生させた現象を再現させる再現手順を確立することができる。
【0056】
以上、実施例を参照して本発明を説明したが、本発明は上記実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0057】
例えば、検索に際し、1つのログメッセージだけではなく、複数のエラーメッセージや、複数の装置のエラーメッセージから検索を行ってもよい。それらのエラーメッセージの全てが個別現象情報として含まれている現象情報を検索することにより、より精度の高い検索を行うことが可能である。また、すべて含まなくても、発生しているメッセージのうち多くの個別現象情報を含む現象情報であれば、同一現象の可能性が高い、とみなすことも可能である。
【0058】
また、ケースと現象の関連について、1対1ではなく、多対多の状態となってもよい。つまり、あるケースによって発生する現象は複数あり、逆にある現象を発生させるケースは複数ある、としてもよい。本発明のデータ格納方式では、ケースと現象の関連について、多対多にも対応できるようになっている。
【0059】
1種類のログの内容では手順が絞れない(エラーメッセージを発生させるために複数の操作が存在する)場合、エラー蓄積情報を用いて、他に必要なログを確認することができる。例えば、『操作Aと操作Bを行うと、装置AでメッセージAが、装置BでメッセージBが出力される』という情報と『操作Cと操作Dを行うと、装置AでメッセージAが、装置BでメッセージCが出力される』という情報があったとする。この場合、装置Aのエラーメッセージだけでは上記2つが検索されてしまい、正しい再現手順が不明となる。ここで、この2つの事例を確認することにより、装置Bのログ情報が分かれば、現象を再現させるための操作を1つに絞ることができる。これにより現象の切り分けの支援を行うことができる。
【符号の説明】
【0060】
10 ・・・ 自動実行装置
20 ・・・ エラー情報蓄積装置(記憶装置)
30 ・・・ ログ解析装置
40 ・・・ ケース検索装置
100 ・・・ 障害調査支援装置

【特許請求の範囲】
【請求項1】
障害調査業務を支援する障害調査支援装置であって、
想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を蓄積する蓄積手段と、
障害発生時にログファイルからエラーメッセージを抽出する抽出手段と、
該抽出したエラーメッセージに基づいて、前記蓄積手段に蓄積された前記操作・現象関連情報を検索し、検索された一連の操作を、前記エラーを発生させた現象を再現させる手順として出力する検索手段と、
を備える障害調査支援装置。
【請求項2】
前記操作・現象関連情報は、
前記操作の内容を示す操作情報と、
前記エラーが発生した場合に当該現象が発生するまでの一連の操作を纏めたケース情報と、
発生したエラーの内容を示す個別現象情報と、
前記ケース情報と前記個別現象情報とを関連付けた現象情報と、
を含む、請求項1に記載の障害調査支援装置。
【請求項3】
障害調査業務を支援する障害調査支援方法であって、
想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を記憶装置に蓄積するステップと、
障害発生時にログファイルからエラーメッセージを抽出するステップと、
該抽出したエラーメッセージに基づいて、前記記憶装置に蓄積された前記操作・現象関連情報を検索し、検索された一連の操作を、前記エラーを発生させた現象を再現させる手順として出力するステップと、
を含む障害調査支援方法。
【請求項4】
前記操作・現象関連情報は、
前記操作の内容を示す操作情報と、
前記エラーが発生した場合に当該現象が発生するまでの一連の操作を纏めたケース情報と、
発生したエラーの内容を示す個別現象情報と、
前記ケース情報と前記個別現象情報とを関連付けた現象情報と、
を含む、請求項3に記載の障害調査支援方法。
【請求項5】
コンピュータに障害調査業務を支援させる障害調査支援プログラムであって、
前記コンピュータに、
想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を記憶装置に蓄積する手順と、
障害発生時にログファイルからエラーメッセージを抽出する手順と、
該抽出したエラーメッセージに基づいて、前記記憶装置に蓄積された前記操作・現象関連情報を検索し、検索された一連の操作を、前記エラーを発生させた現象を再現させる手順として出力する手順と、
を実行させるための障害調査支援プログラム。
【請求項6】
前記操作・現象関連情報は、
前記操作の内容を示す操作情報と、
前記エラーが発生した場合に当該現象が発生するまでの一連の操作を纏めたケース情報と、
発生したエラーの内容を示す個別現象情報と、
前記ケース情報と前記個別現象情報とを関連付けた現象情報と、
を含む、請求項5に記載の障害調査支援プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−212283(P2012−212283A)
【公開日】平成24年11月1日(2012.11.1)
【国際特許分類】
【出願番号】特願2011−77134(P2011−77134)
【出願日】平成23年3月31日(2011.3.31)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】