説明

障害対策支援システム

【課題】障害の発生原因の特定と障害回復までの時間がシステム管理者の個人的なスキルによってばらつき易い。
【解決手段】監視システムから障害通知メールを受けると、障害通知メールから障害が発生した機能を特定すると共に、対応する障害ログから原因の特定に有益な情報をキーワード検索により取得する。この後、受信したメールと、取得したログに関する情報を関連付けて蓄積する。後日同様の障害が発生した場合には、過去の障害履歴をシステム管理者に迅速に通知する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、新たに発生した障害の解決を過去の障害事例に基づいて支援するシステムに関する。
【背景技術】
【0002】
コンピュータシステムの運用管理では、障害の発生原因、その特定方法、その対策方法等に関するノウハウの蓄積と伝達が重要とされる。従来、ノウハウの蓄積や伝達は、自身の経験による獲得、口頭による伝達、「障害管理シート」と呼ばれる障害の原因と対策をまとめたドキュメント等により行われている。また、システム障害の発生は、監視システムからシステム管理者に宛てた障害通知メールにより通知され、通知を受けたシステム管理者が障害内容の特定と回復作業を行う仕組みになっている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平8−314751号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
コンピュータシステムに障害が発生した場合、システム管理者は、まず障害の適切な回復方法を決定する必要がある。この際、システム管理者は、障害が発生した機能の特定、障害が発生した機能のログの参照、「障害管理シート」のようなドキュメントの参照を実行し、場合によっては、過去に同様の障害が発生した際のメールのやりとりを検索する等の作業を実行する。そして、障害の発生原因の特定後に障害の回復手順を確立する作業手順が採用されている。
【0005】
しかし、このような従来手法では、障害対策の正しさや障害回復までの早さがシステム管理者個人のスキルに依存しやすい。
【0006】
例えばログを参照して障害対策を検索しようとしても、ログには、障害の発生原因以外の情報(例えばシステムの稼働状況等を記した正常なログ)も数多く含まれている。従って、ログの中から、障害の発生原因が出力されている箇所をいかに早く特定できるかは、システム管理者個人のスキルに依存することが多い。更に、障害の発生原因を特定できるほどの正確なログがそもそも出力されていないこともある。その場合は、経験から障害発生原因を推測する必要があるが、経験には大きな個人差が存在する。
【0007】
また、過去にやりとりされたメールには、障害が回復されるまでの知識その他の有益な情報が多く含まれることが経験的に知られている。しかし、経験の浅いメンバの場合には、該当するメールを探しきれない可能性もある。
【0008】
そこで、本発明では、システム管理者個人のスキル差を前提としながらも、障害回復の早さと正確さのばらつきを少なくできる機能を提供することを目的とする。
【課題を解決するための手段】
【0009】
この目的のため、本発明は、障害発生時に出力される障害ログのうち障害の特定に有益な部分(概要)と障害が回復されるまでのメールのやりとり等とを関連付けて自動的に蓄積する。そして、同様の障害が後日発生した場合には、発生した障害に基づいて蓄積データを検索し、関連する過去の障害ログの概要をシステム管理者に自動的に通知する仕組みを提案する。
【発明の効果】
【0010】
本発明によれば、システム管理者が複数の作業を経て取得する必要があった情報を、障害通知メールを通じて自動的に通知することができる。これにより、作業の手間を大幅に軽減することができる。また、システム管理者は、障害通知メールを通じて過去の対策例に容易にアクセスできるため、障害回復の早さと正確さのばらつきを少なくすることができる。
【図面の簡単な説明】
【0011】
【図1】形態例に係る障害対策支援システムの概略構成を示す図である。
【図2】障害通知メールの一例を示す図である。
【図3】メールフォーマットの一形態例を示す図である。
【図4】メール解析結果ファイルの一形態例を示す図である。
【図5】機能別ログ配置場所DBのデータ構成例を示す図である。
【図6】機能別監視文字DBのデータ構成例を示す図である。
【図7】ログ解析結果ファイルの一形態例を示す図である。
【図8】メールDBのデータ構成例を示す図である。
【図9】ログDBのデータ構成例を示す図である。
【図10】メール/ログ関連DBのデータ構成例を示す図である。
【図11】対策方法DBのデータ構成例を示す図である。
【図12】障害履歴通知メールの形態例を示す図である。
【図13】障害対策履歴参照/対策詳細登録画面の一形態例を示す図である。
【図14】障害通知メールの受信から障害履歴の通知までに実行される処理手順の概要を示すフローチャートである。
【図15】システム管理者による障害通知メールの受信から障害対策の完了までに実行される作業手順の概要を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、発明に係る障害対策支援システムの形態例を図面に基づいて説明する。なお、図面は、専ら発明の説明を目的として作図したものであり、発明の範囲を限定するものではない。
【0013】
(1)システムの全体構成
図1に、形態例に係る障害対策支援システム100の全体構成例を示す。障害対策支援システム100は、メール受信部101、メール解析部102、ログ解析部103、メール/ログ履歴登録部104、障害対策履歴検索部105、メール送信部106、障害対策履歴参照/対策詳細登録部107、メールフォーマットファイル108、ログ監視情報登録部109、機能別ログ配置場所DB110、機能別監視文字DB111、障害情報蓄積DB部112、取得ログ配置フォルダ117で構成される。
【0014】
ここで、メール受信部101は、当システム宛のメールの受信に用いられる。メール解析部102は、受信したメールが障害通知メールか否かを解析する処理部である。解析結果はメール解析結果ファイルとして出力される。ログ解析部103は、障害通知メールと解析されたメールを解析対象として、メール内に障害解析に有益なログが含まれるか否かを解析する処理部である。解析結果はログ解析結果ファイルとして出力される。
【0015】
メール/ログ履歴登録部104は、メール解析結果ファイルとログ解析結果ファイルの情報を、障害情報蓄積DB部112の対応するデータベースに登録する処理部である。障害対策履歴検索部105は、受信したメールが障害通知メールであった場合に、当該メールや障害ログの解析結果に基づいて、関連性が高い過去の障害履歴を検索する処理部である。メール送信部106は、検索された障害履歴を障害履歴通知メールとしてシステム管理者に通知する処理部である。
【0016】
障害対策履歴参照/対策詳細登録部107は、検索された障害履歴とそれに紐付けられた対策方法の参照処理と編集処理を分担する処理機能部である。メールフォーマットファイル108は、受信したメールの解析時に参照するフォーマット情報が格納されるストレージ領域である。ログ監視情報登録部109は、機能別ログ配置場所DB110及び機能別監視文字DB111に対する情報の登録処理を分担する処理部である。
【0017】
機能別ログ配置場所DB110と機能別監視文字DB111は、ログファイルの解析に使用する情報を格納するデータベースである。なお、機能別ログ配置場所DB110には、外部システムにおけるログファイル(障害ログ)の格納場所が機能別に格納される。また、機能別監視文字DB111には、監視対象とする文字列が機能別に格納される。障害情報蓄積DB部112は、解析されたメール情報と、解析されたログ情報を蓄積するストレージ装置又はストレージ領域である。取得ログ配置フォルダ117は、外部システムのログファイルをローカルエリアに保存するために使用されるストレージ装置又はストレージ領域である。
【0018】
なお、障害対策支援システム100には、ネットワーク経由で障害対策を支援したい外部システム118と、監視対象の外部システム118が正常に動作しているか否かを監視する監視システム119とが接続されている。なお、支援対象としての外部システム118の数は1つに限らず、複数の場合も考えられる。一方、監視システム119は、外部システム118に対して一対一に配置されても良いし、複数の外部システム118に対して1つ配置されても良い。
【0019】
ここで、監視システム119は、外部システム118のログ、ジョブの終了コード、OS(オペレーションシステム)のイベントログ等に基づいて障害の発生を検知し、管理者メンバに対して障害通知メールを送信するように機能する。
【0020】
図2に、障害通知メールの一例を示す。図2に示すように、障害通知メールには、障害が発生した機能、障害が発生した時間、監視システムが検知した情報等が記述される。例えば送信元「From」には監視システムのメールアドレスが記述され、宛先「To」には管理者メンバのメールアドレスが記述され、タイトル「Subject」には障害が発生した機能、本文「body」には検知された情報の概要が記される。
【0021】
ところで、この形態例の場合、障害通知メールは、監視システム119から管理者メンバと障害対策支援システム100の両方に宛てて送信される。このため、前述したメール受信部101では、障害通知メールを受信することができる。なお、障害対策支援システム100に対する障害通知メールの送信は、管理者用メーリングリストに当システムを加える等の方法により実現することができる。
【0022】
(2)各部の詳細動作
続いて、障害対策支援システムを構成する各部において実行される詳細動作の内容を説明する。
(2−1)メール解析部の詳細動作
メール解析部102は、受信したメールとメールフォーマットファイル108とを比較することにより、受信したメールが監視システム119から受信された障害通知メールか否かを判定する処理を実行する。障害通知メールであると判定された場合、メール解析部102は、障害が発生した機能が何かをメールから取得し、取得された情報をログ解析部103に渡す機能を提供する。一方、障害通知メールであると判定された場合、メール解析部102は、受信したメールをメール/ログ履歴登録部104に渡す機能を提供する。
【0023】
図3にメールフォーマットの一例を示す。メールフォーマットには、障害通知メールの形式情報(例えば送信元「From」、送信先「To」、タイトル、本文がどのような形式となっているか)と、障害通知メールから障害が発生した機能を抜き出すために必要な情報とが記述されている。ここでは、図2に示す障害通知メールと、図3に示すメールフォーマットを使用して解析処理を実行する例を考える。
【0024】
最初に、メール解析部102は、受信したメールがメールフォーマットと一致するか否かを確認する。この場合、メール解析部102は、障害通知メール(図2)の「From」、「To」と、メールフォーマット(図3)の「From」、「To」とを比較する。両者が一致する場合、受信されたメールには、メールフォーマット(図3)と同じメールアドレスが記述されていることが分かる。
【0025】
次に、メール解析部102は、「Subject」の5文字目がアルファベットで、続く4文字が数値で記載されているか否かを判定する。図2の例の場合、先頭から5文字目の文字が「B」であり、続く4文字が「1005」である。以上の通り、図2の受信されたメールは、「From」、「To」、「Subject」の全てがメールフォーマット(図3)と一致する。この一致検出により、メール解析部102は、図2に示すメールが監視システム119から発せられた障害通知メールであると判断する。
【0026】
次に、メール解析部102は、受信されたメールの「Subject」の先頭から5文字目から9文字目までに位置する計5文字を障害が発生した機能の識別子(ID)として抽出する。なお、この形態例に係る監視システム119には、該当位置に対して、障害の発生した機能を特定する識別子(ID)を付与する機能が搭載されているものとする。図2の場合、「B1005」が識別子(ID)として抽出される。なお、この形態例の場合には、英数字と4文字の数字で識別子(ID)を定義しているが、言うまでもなくこれは一例である。また、識別子の配置場所についても一例である。
【0027】
このように、障害が発生した機能を特定する識別子(ID)が抽出されると、メール解析部102は、メール解析結果ファイルを生成する。図4に、メール解析結果ファイルの一例を示す。メール解析結果ファイルは、障害発生機能欄401と、受信したメールの全文402で構成される。なお、受信したメールが監視システム119から受信した障害通知メールでなかった場合、障害発生機能欄401は空欄のままとする。ここで、受信メールの全文402を付加するのは、後で説明するメールDB113にメールを登録するためである。
【0028】
メール解析部102は、障害通知メールであると判定した場合、メール解析結果ファイル(図4)をログ解析部103に出力し、障害通知メールでなかった場合、障害発生機能欄401が空欄のメール解析結果ファイルをメール/ログ履歴登録部104に出力する。なお、障害通知メールの判定に使用するメールフォーマットの作成とメールフォーマットファイル108への登録は、監視対象システム100の稼動前に、システム管理者によって事前に行われる。
【0029】
(2−2)ログ解析部の詳細動作
ログ解析部103は、外部システム118にアクセスして、障害通知メールに対応するログファイル(障害ログ)から障害の発生原因を特定するために有益な情報が含まれていないか否かを検索する処理を実行する。
【0030】
この動作に先立ち、ログ解析部103は、メール解析結果ファイル(図4)を受信すると、その障害発生機能欄401の内容に基づいて障害が発生した機能を識別子(ID)により特定する。
【0031】
障害が発生した機能が特定されると、ログ解析部103は、当該機能をキーとして機能別ログ配置場所DB110を参照し、特定した機能に対応するログの配置場所を取り出す。
【0032】
図5に、機能別ログ配置場所DB110のデータ構造例を示す。機能別ログ配置場所DB110には、機能ID501に対応付けるように、配置サーバ502、取得方法503、配置サーバに対するログインユーザ504、パスワード505、ログファイル名506が保持されている。
【0033】
ログ解析部103は、この機能別ログ配置場所DB110の記述内容に従い、障害が発生した外部システム118に所定の方法でログインし、ログファイルを障害対策支援システム100のローカルフォルダである取得ログ配置フォルダ117に配置する。ただし、外部システム118の種類やログファイルの配置場所等により、ログファイルの取得方法には多くのパターンがある。このため、図5に示す機能別ログ配置場所DB110が保持する情報は一例である。
【0034】
次に、ログ解析部103は、外部システム118から取得したログファイルをキーワードで検索し、障害の発生原因を特定するために有益な情報を取得する処理を実行する。この際、ログ解析部103は、機能別監視文字DB111より、機能IDについて登録されている任意の文字列を検索用のキーワードとして取り出す。
【0035】
図6に、機能別監視文字DB111のデータ構造例を示す。機能別監視文字DB111には、機能ID601に対応付けるように、ログファイルに検索をかけるためのキーワードである監視対象文字列602と、監視対象文字602がヒットした箇所から前後何行のログを合わせて取得するかを指定する前後取得行数603が保持されている。
【0036】
この形態例の場合、特定の機能IDに限定せずに使用するキーワードを、機能ID601に“−”を設定することで登録できるものとする。従って、図6の場合、「Exception」、「エラーが発生しました。」、「処理をスキップします。」の3つが、全ての機能IDに共通に使用する監視対象文字として登録されている。
【0037】
ログ解析部103は、機能ID601を指定して取得できた複数の監視対象文字列602と、全機能に共通する監視対象文字列を使用してログファイルを検索する。そして、ログファイル内に監視対象文字と同じ文字列が存在した場合、その監視対象文字の一覧と、前後取得行数603により指定された行数分の文字列をログ情報として取得する。このログ情報が、特許請求の範囲における「障害履歴の概要」の一部に対応する。図6の場合には、監視対象文字列が出現する行と、その前後各1行の計3行が取得範囲であることを意味している。
【0038】
このように、前後の行もログ情報の取得範囲として指定するのは、監視対象文字列の近くには障害対策に有益な情報が出現する可能性が高いためである。また、取得する範囲を限定することにより、障害対策時おける作業の効率性を高めるためである。例えば障害通知メールに対応する障害ログをそのまま蓄積する場合、たとえ関連する障害ログにアクセスできたとしても、障害原因に関連する障害ログを、人手を解して実行する必要がある。
【0039】
なお、この形態例の場合には、前後各1行を含めた計3行を指定しているが、取得範囲を更に増やすこともできる。ただし、取得範囲を増やしすぎると閲覧負荷も増加する。従って、取得範囲は、ログ監視情報登録部109を通じて変更できることが望ましい。また、取得範囲は、監視対象文字列が出現する行に対して前方側だけ又は後方側だけとしても良い。
【0040】
図7に、ログ解析部103によって実行されたキーワード検索の結果を書き出したログ解析結果ファイルの一例を示す。ログ解析結果ファイルには、障害の発生した機能を特定する機能ID701に対応付けるように、ヒットした監視対象文字列702と、検索にヒットした行とその前後の行から取得される前後ログ情報703と、検索したログファイルのローカル配置場所である元ログファイル名704とが保持されている。
【0041】
なお、1つのログの中から同一の監視対象文字が複数回ヒットした場合も、ヒットした全ての箇所について同様の情報が保存される。図7の場合には、「納品書送付履歴がありません。」が2回ヒットした例を表している。このような保存形態を採用するのは、同じ原因で複数回の障害が発生していることを管理者に通知するためである。なお、ログ解析部103は、ログファイル内にヒットした監視文字が存在しない場合でも、機能ID以外の情報項目が全て空白のログ解析結果ファイルを作成するものとする。
【0042】
このようにログ解析結果ファイル(図7)の作成が完了すると、ログ解析部103は、作成されたログ解析結果ファイルを、メール解析部102から受け取ったメール解析結果ファイル(図4)と共に、メール/ログ履歴登録部104に出力する。
【0043】
(2−3)メール/ログ履歴登録部の詳細動作
メール/ログ履歴登録部104は、受け取ったメール解析結果ファイル(図4)と、ログ解析結果ファイル(図7)の内容を障害情報蓄積DB部112に登録する処理を実行する。なお、障害情報蓄積DB部112は、メールDB113、ログDB114、メール/ログ関連DB115、対策方法DB116で構成される。メール/ログ履歴登録部104は、これら4つのDB(データベース)のうちメールDB113、ログDB114及びメール/ログ関連DB115の3つにデータを登録する機能を分担する。
【0044】
また、メール/ログ履歴登録部104は、データの登録後、今回登録したログIDの一覧を障害履歴検索部105に引き渡す処理を実行する。以下、メール/ログ履歴登録部104によるデータの登録先となる3つのテーブルのデータ構造を図8〜図10に示す。
【0045】
図8は、メールDB113のデータ構造例である。メールDB113は、障害対策支援システム100が受信した全てのメール(メール解析結果ファイル)を蓄積するデータベースである。メールDB113は、各メールを管理するために、一意のコードであるメールID801を振り出すことによりメールの情報を管理する。メールDB113には、メールID801に対応付けるように、メール解析結果ファイル(図4)のメール本文402の情報が登録される。具体的には、メール本文807と、メールのヘッダ情報を構成する基本的な情報802〜806を個別に保持する。ただし、後述する障害対策履歴参照/対策詳細登録部107において、過去の障害発生メールのやりとりをツリー形式で見れるように、メールのツリーを作成するための情報である「In-Replay-To」ヘッダ804と、「References」ヘッダ805は必ず個別に保持しておく。この情報は必須の情報である。
【0046】
図9は、ログDB114のデータ構造例である。ログDB114は、ログ解析結果ファイル(図7)を蓄積するデータベースである。ログDB114は、各ログを管理するために、一意のコードであるログID901を振り出すことによりログの情報を管理する。ログDB114には、ログID901に対応付けるように、機能ID902、監視対象文字列903、前後ログ情報904、元ログファイル905が登録される。なお、機能ID902は、図7に示すログ解析結果ファイルの機能ID701に対応する。同様に、監視対象文字列903は図7における監視対象文字列702に対応し、前後ログ情報904は図7における前後ログ情報703に対応し、元ログファイル905は図7における元ログファイル704に対応する。
【0047】
図10は、メール/ログ関連DB115のデータ構造例である。メール/ログ関連DB115は、メール/ログ履歴登録部104に対してメール解析結果ファイル(図4)と、ログ解析結果ファイル(図7)が同時に渡された場合に、これら2つのファイルを関連付ける情報を登録するデータベースである。図10に示すように、メール/ログ関連DB115は、メールID1001と、ログID1002と、この2つの関連に対して対策方法(後述する)を紐付けるための対策方法ID1003とを保持している。
【0048】
(2−4)障害対策履歴検索部の詳細動作
障害対策履歴検索部105は、メール解析結果ファイル(図4)とログ解析結果ファイル(図7)とに基づいて、過去の障害履歴を検索する処理機能を実行する。障害対策履歴検索部105は、メールDB113と、ログDB114と、メール/ログ関連DB115を関連付けた仮想テーブルを検索対象として、ログ解析結果ファイル(図7)の機能ID701と監視対象文字列702を検索キーにした検索動作を実行する。この検索動作により、障害対策履歴検索部105は、メールIDとログIDの組み合わせで特定される障害履歴を取得する。
【0049】
複数の取得結果が検出された場合、障害対策履歴検索部105は、対策方法ID1003が紐付いている障害履歴、又は、対策方法ID1003に紐付けられている対策方法DB116の重要度1103が高い障害履歴を優先的に取得する手法を採用する。図11に、対策方法DB116のデータ構造例を示す。対策方法DB116には、対策方法の登録時に対策方法IDが振り出され、この対策方法DB116に対応付けるように、対策方法1102と重要度1103とが関連付けられて保存されている。因みに、対策方法1102と重要度1103は、システム管理者によって個別に登録される情報である。
【0050】
障害対策履歴検索部105は、取得できた情報を過去の障害履歴として管理者メンバに通知する。ただし、取得できた情報量が多い場合、メールでの通知が困難な場合も考えられる。そこで、この形態例の場合には、障害対策履歴検索部105は、取得した情報を参照できる画面にアクセスするための情報を通知する方法を採用する。例えば参照画面をインターネット上のWEB画面で実現する場合、障害対策履歴検索部105は、取得したメールIDとログIDをURLのGETパラメータに設定し、URLの一覧形式により通知する。このURLの一覧はメール送信部106に渡され、管理者メンバに対して障害履歴通知メールとして送付される。
【0051】
(2−5)メール送信部の詳細動作
図12に、メール送信部106が送信する障害履歴通知メールの一例を示す。障害履歴通知メールには、障害対策履歴検索部105によって取得されたメールIDとログIDの組み合わせをパラメータとするURLが[過去履歴]として一覧される。一方、障害履歴通知メールには、メール/ログ履歴登録部104により渡されるメールIDをパラメータとするURLが[今回ログ]として一覧表示される。このように、今回ログと過去履歴とを区別することにより、メールを受け取った管理者メンバが情報を参照しやすい構造を実現する。なお、[今回ログ]については、メールIDだけをパラメータとするのは(図12参照)、メールに対応する全てのログを表示する必要があり、特定のログだけに限定する必要がないためである。
【0052】
なお、この形態例の場合には、障害履歴通知メールを、[今回ログ]にアクセスするためのURLと、[過去履歴]にアクセスするためのURLと、対応する障害通知メールの情報(ヘッダ及び本文の全てを含む。)とで形成する場合について説明したが、障害通知メールを特定できるのであれば、必ずしも図12に示す構成を採用する必要はない。例えば障害履歴通知メールを、[今回ログ]にアクセスするためのURLと、[過去履歴]にアクセスするためのURLだけで構成し、メールの「Subject」等に障害通知メールを特定する情報を記述したり、メールの本文に障害通知メールにアクセスにするためのURL等を記述しても良い。
【0053】
(2−6)障害対策履歴参照/対策詳細登録部の詳細動作
障害対策履歴参照/対策詳細登録部107は、管理者メンバ側の端末に対するユーザインターフェース機能を提供する。前述したように、管理者メンバには、障害履歴通知メール(図12)として過去の障害履歴等がURLとして通知される。障害対策履歴参照/対策詳細登録部107は、管理者メンバ側の端末に過去の障害履歴に対する情報をネットワーク経由で提供するためのユーザインターフェース機能を提供する。
【0054】
図13に、障害対策履歴参照/対策詳細登録部107によって管理者メンバ側に提供される表示画面例を示す。この画面は、障害履歴通知メール(図12)において、[過去履歴]のURLの一つがクリックされた場合の表示例である。図13に示す画面例は、メール履歴参照欄1303、ログ履歴参照欄1304、登録/変更ボタン1305を有している。なお、ログ履歴参照欄1304は、障害対策コメント登録欄1301と重要度登録欄1302を一組とする1つ又は複数の表示欄で構成される。
【0055】
また、ログ履歴参照欄1304には、監視文字毎に取得ログ配置フォルダ117内のログファイルにアクセスするためのリンク情報1306が埋め込まれた状態で表示される。このリンク情報1306をクリックすると、対応するログファイルの全体を取得することができる。
【0056】
なお、ログ履歴参照欄1304に表示する情報は、通知されたメールIDとログIDの組み合わせに基づいて、メールDB113、ログDB114、メール/ログ関連DB115、対策方法DB116を検索することにより取得することができる。
【0057】
また、メールDB113から取得できたメールID801に紐付けられたメールはツリー情報として取得しておく。メールのツリー化は、メールのヘッダ情報を構成する「In-Replay-To」と「References」に基づいて実行する。因みに、「In-Replay-To」と「References」は、メールDB113に個別に保持されている。また、ツリー化を実現するための詳細な方法は周知であるため、ここでは説明を省略する。ツリー化されたメールは、図13に示すように、メール履歴参照欄1303に一覧的に表示される。
【0058】
こここで理解すべき点は、図13に示す画面は、1つの障害通知メールに対して自動的に生成される点である。従って、管理者メンバは、1つの障害通知メールの発生時に、過去の障害通知メール、それらに紐付けられているメールのやりとり、ログ情報の抜粋(3行分)、元のログファイル、登録された対策情報を1組として取得することが可能になる。すなわち、障害対策に必要な情報を1まとめにして一度に確認することができる。
【0059】
また、障害対策履歴参照/対策詳細登録部107は、図13に示す画面を通じて受け付けた障害対策コメント登録欄1301及び障害の重要度登録欄1302に対する情報の入力又は選択に基づいて、入力情報を対策方法DB116に保存する機能も提供する。情報の登録又は変更は、登録/変更ボタン1305のクリック操作の受け付けにより確定する。
【0060】
(3)システム全体における処理動作の流れ
図14に、障害対策支援システム100において実行される処理動作のうち、障害履歴通知メールが管理者メンバに送信されるまでの動作の概要を示す。
【0061】
まず、障害対策支援システム100は、当システム宛の障害通知メールをメール受信部101で受信する(ステップ1401)。
【0062】
メール解析部102は、受信したメールとメールフォーマットとが一致するか否かを判定する(ステップ1402)。
【0063】
ここで、メールフォーマットと一致した場合(肯定結果の場合)、メール解析部102は、受信したメールから障害が発生した機能を特定し、メール解析結果ファイル(図4)を作成する。一方、メールフォーマットと一致しない場合(否定結果の場合)、メール解析部102は、監視システム119からの障害通知メールではないと判断し、ログの検索(ステップ1403)は実施しない。
【0064】
ステップ1402で障害が発生した機能が特定された場合、ログ解析部103は、特定された機能のログファイルを取得し、ログファイル内を機能毎の監視対象文字で検索する。この検索により、ログ解析部103は、障害発生原因を特定するために有益と考えられる情報を取得し、ログ解析結果ファイル(図7)を作成する(ステップ1403)。
【0065】
ステップ1402で作成されたメール解析結果ファイル(図4)と、ステップ1403で作成されたログ解析結果ファイル(図7)の情報は、メール/ログ履歴登録部104により障害情報蓄積DB部112のメールDB113、ログDB114、メール/ログ関連DB115に登録される(ステップ1404)。
【0066】
なお、ステップ1403で実行されたログ内の検索において、監視対象文字列がヒットしない場合でも、ログ解析結果ファイル(図7)は保存される。この場合、ログ解析結果ファイル(図7)には機能ID701しか設定されず、監視対象文字列702、前後ログ情報703、元ログファイル704には空情報が登録される。これは、登録したメール情報がどの機能に関するものかを特定するためである。また、ログDB114でも機能ID902を登録するためである。
【0067】
また、ステップ1402の判定結果が否定結果であった場合、メール/ログ履歴登録部104は、受信したメールをメールDB113に登録する。このメール情報は、障害機能とは結びつかないが、監視システム119から発せられた障害通知メールに対してツリーで紐付ける可能性があると考えられるためである。
【0068】
以上、ステップ1404の登録処理が完了すると、障害対策履歴検索部105が、障害の発生した機能とログファイル内を検索してヒットした監視対象文字列とをキーワードに使用して障害情報蓄積DB部112を検索し、過去に同様の障害が発生した事例がないか否か確認する(ステップ1405)。
【0069】
ステップ1405で過去の障害発生事例が検索された場合、その情報を管理者メンバに通知する(ステップ1406)。以上が、障害対策支援システム100の処理動作のおおよその流れである。
【0070】
図15に、監視者メンバが障害対策支援システム100から障害履歴通知メールを受信した以降に、管理者メンバによって実行される操作手続の流れを示す。
【0071】
前述したように、管理者メンバは、メール送信部106より障害履歴通知メールを受信する(ステップ1501)。管理者は過去の障害発生事例で通知された対策方法、過去のメールのやりとり、ログ情報を参考に障害対策を実施する(ステップ1502)。
【0072】
障害対策後、管理者メンバは、通知された過去の障害発生事例が有益であったかどうか、また、今後はより詳細な情報を通知して欲しいか等、通知された情報について検討する(ステップ1503)。通知内容が有益であったと判断した場合は、肯定結果を得て処理を終了する。
【0073】
一方、ステップ1503で、管理者メンバが、同様の障害の発生時により良い情報が通知されるように通知情報の内容を見直したいと考えた場合(否定結果の場合)、対策方法の追加や編集、監視対象文字列の見直し等を行う(ステップ1504)。
【符号の説明】
【0074】
100…障害対策支援システム、101…メール受信部、102…メール解析部、103…ログ解析部、104…メール/ログ履歴登録部、105…障害対策履歴検索部、106…メール送信部、107…障害対策履歴参照/対策詳細登録部、108…メールフォーマットファイル、109…ログ監視情報登録部、110…機能別ログ配置場所DB、111…機能別監視文字DB、112…障害情報蓄積DB部、113…メールDB、114…ログDB、115…メール/ログ関連DB、116…対策方法DB、117…取得ログ配置フォルダ、118…外部システム、119…監視システム。

【特許請求の範囲】
【請求項1】
受信したメールが障害通知メールである場合、障害が発生した機能を特定する情報を受信したメールから抜き出す手段と、
受信したメールが障害通知メールである場合、事前に定めた文字列により、当該障害通知メールに対応する障害ログを検索する手段と、
受信した障害通知メールと対応する障害ログについての検索結果をデータベースに登録する手段と、
受信した障害通知メールの情報と対応する障害ログに対応する検索結果に基づいて過去の障害履歴を検索する手段と、
検索された過去の障害履歴の概要にアクセスするための情報と今回の障害ログにアクセスするための情報とを管理者端末に通知する手段と
を有することを特徴とする障害対策支援システム。
【請求項2】
前記障害履歴の概要は、障害ログの検索時にヒットした文字列が存在する行の情報と、その前及び又は後に位置する少なくとも1行の情報である
ことを特徴とする請求項1に記載の障害対策支援システム。
【請求項3】
前記管理者端末から前記障害履歴の概要の読み出しを受け付けた場合において、障害通知メールと障害履歴の概要との組み合わせについて登録されているコメント文が存在するとき、当該コメント文をデータベースより検索して前記管理者端末に通知する手段
を更に有することを特徴とする請求項1に記載の障害対策支援システム。
【請求項4】
前記コメント文に優先度が登録されている場合、前記コメント文と共に優先度を前記管理者端末に通知する
ことを特徴とする請求項3に記載の障害対策支援システム。
【請求項5】
検索された過去の障害履歴の概要にアクセスするための前記情報と、今回の障害ログにアクセスするための前記情報と、前記障害通知メールの情報とを合成した障害履歴通知メールを管理者端末に通知する
ことを特徴とする請求項1に記載の障害対策支援システム。
【請求項6】
前記障害通知メールを一意に特定する識別子と、前記障害通知メールについて検出された1つ又は複数の障害ログを一意に特定する識別子との組み合わせに基づいて、過去の障害履歴の概要にアクセスするための前記情報と今回の障害ログにアクセスするための前記情報を取得する
ことを特徴とする請求項1に記載の障害対策支援システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2010−257066(P2010−257066A)
【公開日】平成22年11月11日(2010.11.11)
【国際特許分類】
【出願番号】特願2009−104173(P2009−104173)
【出願日】平成21年4月22日(2009.4.22)
【出願人】(000233055)日立ソフトウエアエンジニアリング株式会社 (1,610)
【Fターム(参考)】