説明

障害分析システム、障害分析方法

【課題】障害分析を行うために必要な最小限の情報を収集して解析先へ送信することのできる障害分析手法を得る。
【解決手段】ゲートウェイ装置200は、第1ネットワーク100上の1ないし複数の機器401〜404の動作情報を取得して解析装置300に送信する動作情報取得部204を備え、解析装置300は、動作情報を用いて機器401〜404の障害解析を行う障害解析部301を備え、動作情報取得部204は、取得した動作情報のうち重要度の高いものをあらかじめ定められた重要度にしたがって絞り込んだ上で解析装置300に送信する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワークに接続された機器の障害を解析する手法に関するものである。
【背景技術】
【0002】
ネットワークの発達および情報通信機器の普及により、様々な機器がネットワークに接続され、情報を交換し合うようになってきている。このような状況は、一般家庭にも徐々に浸透し始め、各家庭内でネットワークを構築したホームネットワークという言葉も生まれた。
また、このホームネットワークに接続される機器も、従来のパーソナルコンピュータの他、テレビや冷蔵庫といった一般的な家電製品や、人間の存在を検知するセンサといったものまで含まれるようになってきている。
【0003】
しかし、一般家庭におけるネットワークは、従来の専門家によって管理されてきたインターネットやイントラネットとは異なり、プライバシ等の問題から、外部の人間が無断でネットワークにアクセスできるようにすることは好ましくない。
そのため、ホームネットワーク内で障害が発生した場合、ユーザ自身がそれを発見して対処する必要がある。しかし、専門家ではないユーザが自らこれらを全て行うことは困難である。
【0004】
そこで、パーソナルコンピュータやその他の通信機器をはじめとした各メーカ等は、サポートセンターやコールセンターを設け、ホームネットワーク上での障害に対する対処を行っている。
ユーザは、メーカ等のコールセンター等に電話をかける。コールセンター等のオペレータは、ユーザから発生状況を直接聞き取り、障害状況や原因、対処方法を、過去の事例や専門家の経験・勘などを元に導き出す。
【0005】
一方、ネットワークの障害診断に関し、『ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置において、管理対象ネットワークとの間のトラフィックを削減すること。』を目的とした技術として、『因果関係テーブル104が障害とイベントの因果関係を記憶し、監視イベント選択部105が、因果関係テーブル104を参照し、障害を特定するために必要最低限のイベントを抽出して監視イベントに設定し、取得イベント選択部107が、最新の障害候補に基づいて因果関係テーブル104からイベントを選択し、選択した各イベントに対して障害を効率よく特定できる順番に優先度を設定し、イベント取得部102が、設定された優先度の順番にイベントを要求し、要求に対して応答されるイベントをイベント受信部103が受信し、順次受信されるイベントをもとに障害判定部108が障害の候補を絞り込むよう構成する。』というものが提案されている(特許文献1)。
【0006】
また、障害予測に関し、『予測対象装置で生じたイベントの種類やその発生順序に基づいて障害発生の予測をすることができる障害予測システム等を提供すること』を目的とした技術として、『障害予測システム1は、予測対象装置10に生じたイベントに関するイベントログ35に対しデータマイニングを実施して、たとえばイベントの発生順序によって特定される前兆パターンを抽出し、解析対象ログに前兆パターンが検出されたときに予測対象装置10に障害が発生すると予測するログ解析部39を備えている。』というものが提案されている(特許文献2)。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2007−96796号公報
【特許文献2】特開2007−172131号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上記特許文献1や特許文献2に記載の技術では、ホームネットワーク上での機器障害を検知してユーザに通知することはできるが、ユーザがその通知を受けて障害に自ら対処することは一般に困難である。
【0009】
また、ユーザがメーカ等のコールセンター等に障害復旧を依頼する場合でも、一般にユーザは機器や障害分析の知識をもっておらず、障害状況や原因をオペレータが判断するために必要な情報を的確に伝えることは困難である。したがって、オペレータが障害状況等を把握して障害復旧を完了するまでに時間がかかる。
【0010】
一方、コールセンター側で、ホームネットワーク内に設置した機器からログ等の動作情報を取得して、障害状況の解析に用いることも考えられるが、プライバシ等の観点から家庭内の機器に関する情報を全てコールセンターに送信することは好ましくない。
さらには、仮に全ての情報を送信するとしても、送信のための通信量が膨大になってしまう懸念がある。
【0011】
そのため、障害分析を行うために必要な最小限の情報を収集して解析先へ送信することのできる障害分析手法が望まれていた。
【課題を解決するための手段】
【0012】
本発明に係る障害分析システムは、第1ネットワークに接続されたゲートウェイ装置と、第2ネットワークに接続された解析装置と、を有し、前記ゲートウェイ装置は、前記第1ネットワーク上の1ないし複数の機器の動作情報を取得して前記解析装置に送信する動作情報取得部を備え、前記解析装置は、前記動作情報を用いて前記機器の障害解析を行う障害解析部を備え、前記動作情報取得部は、取得した前記動作情報のうち重要度の高いものをあらかじめ定められた重要度にしたがって絞り込んだ上で前記解析装置に送信するものである。
【発明の効果】
【0013】
本発明に係る障害分析システムは、障害が発生した機器が過去に通信を行った相手機器が障害に関係しているという想定の下、その相手機器の動作情報を解析装置に送信する。
即ち、ネットワーク上の全ての機器の動作情報を解析装置に送信することになるので、障害に関係していると思われる機器の動作情報のみを解析装置に送信し、通信量を抑えることができる。
また、障害解析に必要ない情報を送信せずに済み、送信する情報を必要最低限に抑えることができるので、情報漏えい・プライバシーの保護の観点からも好適に用いることができる。
【図面の簡単な説明】
【0014】
【図1】実施の形態1に係る障害解析システムの構成図である。
【図2】実施の形態1に係る障害解析システムの動作フローである。
【図3】ステップS206の詳細動作を説明する動作フローである。
【図4】ゲートウェイ装置200が機器401〜404の動作情報501〜504を記録する動作のフローチャートである。
【図5】通信記録部203が格納する通信記録の形式例である。
【図6】実施の形態3に係る障害解析システムの構成図である。
【図7】実施の形態3に係る障害解析システムの動作フローである。
【図8】フィルタ規則格納部206が格納しているフィルタ規則の例である。
【図9】動作情報501のデータ例である。
【図10】フィルタリング部205が行うフィルタリング処理のフローである。
【図11】図10の動作フローの処理結果として得られるフィルタリング後の動作情報501を示すものである。
【発明を実施するための形態】
【0015】
実施の形態1.
図1は、本発明の実施の形態1に係る障害解析システムの構成図である。
本実施の形態1に係る障害解析システムは、ゲートウェイ装置200、解析サーバ300を有する。以下、各装置等の構成を説明し、その後に本実施の形態1に係る障害解析システムの動作を説明する。
【0016】
ゲートウェイ装置200と解析サーバ300は、ネットワーク600を介して接続されている。また、ゲートウェイ装置200の配下には、ローカルネットワーク100が敷設されている。
図1では、記載の簡易の観点から、ネットワーク600と解析サーバ300が直接接続されているように記載したが、解析サーバ300は、ローカルネットワーク100と同様に組織内ネットワークに接続されていてもよい。
【0017】
ローカルネットワーク100は、ある組織内で閉じたネットワークである。例えば、家庭内のネットワーク(ホームネットワーク)がこれに相当する。
【0018】
ゲートウェイ装置200は、ローカルネットワーク100とネットワーク600の接続点に設置され、配下には機器401〜404が接続されている。
ゲートウェイ装置200は、機器401〜404同士、または機器401〜404と解析サーバ300の間の通信を仲介するルータとしての機能を備えている。また、ゲートウェイ装置200自身も、機器401〜404、および解析サーバ300と通信する機能を備える。
【0019】
ゲートウェイ装置200は、障害検知部201、通信観測部202、通信記録部203、動作情報取得部204を備える。
【0020】
障害検知部201は、例えば特許文献1〜2に記載されているような技術を用いて、機器401〜404で発生する障害を検知する。
通信観測部202は、後述の図4で説明する手順を用いて、機器401〜404間の通信を観測し、その状況を通信記録部203に格納する。
【0021】
通信記録部203は、機器401〜404間の通信状況を記録する。通信記録の具体例については、後述の図4で改めて説明する。
動作情報取得部204は、機器401〜404がそれぞれ保持している動作情報501〜504を取得する。動作情報取得部204の詳細動作については、後述の図3で改めて説明する。
【0022】
解析サーバ300は、ローカルネットワーク100とは異なるネットワークに属するサーバ装置であり、機器401〜404で発生した障害を解析する役割を有する。解析サーバ300は、障害解析部301、動作情報要求部302を備える。
【0023】
障害解析部301は、動作情報501〜504を解析してその機器に発生した障害の原因を絞り込む。
動作情報要求部302は、機器401〜404からそれぞれの動作情報501〜504を取得して解析サーバ300に送信するよう、ゲートウェイ装置200に要求する。
【0024】
機器401〜404は、相互に通信する機能を有する。図1では4台構成の例を示したが、台数はこれに限られるものではない。また、機器401〜404は、内部プロセスのログを出力する機能や、当該機器の外部にプロセス一覧を出力する機能を備える。
動作情報501〜504は、機器401〜404がそれぞれ記録または出力する、各機器の動作状況を表す情報である。
【0025】
ネットワーク600は、ローカルネットワーク100と、解析サーバ300が属するネットワークを接続する、例えばインターネット等のネットワークである。
【0026】
障害検知部201、通信観測部202、動作情報取得部204、障害解析部301、動作情報要求部302は、これらの機能を実現する回路デバイスのようなハードウェアで構成することもできるし、マイコンやCPU(Central Processing Unit)のような演算装置とその動作を規定するソフトウェアで構成することもできる。また、必要な通信インターフェース等を適宜備える。
【0027】
通信記録部203は、HDD(Hard Disk Drive)のような記憶装置で構成することができる。
【0028】
本実施の形態1における「通信状況記録部」は、通信観測部202、通信記録部203が相当する。
【0029】
以上、本実施の形態1に係る障害解析システムの各装置等の構成を説明した。
次に、本実施の形態1に係る障害解析システムの動作を説明する。
【0030】
本実施の形態1に係る障害解析システムは、全体としては後述の図2で説明する動作を行う。また、ゲートウェイ装置200は、障害解析システムの全体動作と並行して、後述の図4で説明する通信記録動作を行う。
以下では、まず始めに障害解析システムの全体動作を図2で説明し、個別の動作については図3〜図5で説明する。
【0031】
図2は、本実施の形態1に係る障害解析システムの動作フローである。以下、図2の各ステップについて説明する。
【0032】
(S201)
図1の機器401で障害が発生したものと仮定する。
(S202)
ゲートウェイ装置200の障害検知部201は、機器401で発生した障害を検知する。検知する手法としては、例えば動作情報取得部204が取得した動作情報501を解析する、機器401のプロセスを監視する、といった手法が考えられる。また、特許文献1〜2に記載されているような公知の手法を用いてもよい。
【0033】
(S203)
障害検知部201は、機器401に障害が発生した旨を、ネットワーク600を介して解析サーバ300に送信する。あるいは、障害検知部201は、機器401に障害が発生した旨を適当な手法でユーザに通知し、ユーザはその通知を受けて電話や電子メールでコールセンターにその旨を連絡する。
なおここでは、コールセンターのオペレータは、解析サーバ300に対し操作指示を行うことができる端末等を有しているものと仮定する。
【0034】
(S204)
コールセンターのオペレータは、ステップS203で受けた障害発生の通知に基づき、障害原因の分析等を行うために必要な動作情報を取得するよう、解析装置300に指示する。
なお、コールセンターのオペレータではなく、障害発生の通知に基づき、動作情報を取得するように自動的に指示する装置にしてもよい。
解析装置300の動作情報要求部302は、その取得要求が、障害発生機器(ここでは機器401)の動作情報501を取得する要求であるか、それとも障害に関連する機器(例えば402、403、404)の動作情報(例えば502、503、504)を取得する要求であるかを判定する。
障害発生機器401についての取得要求であればステップS205へ進み、関連機器402等についての取得要求であればステップS211へ進む。
【0035】
(S205)
解析装置300の動作情報要求部302は、ゲートウェイ装置200に対し、機器401の動作情報501を送信するよう要求する。
【0036】
(S206)
ゲートウェイ装置200の動作情報取得部204は、ステップS205の要求を受け取ったときは、機器401の動作情報501を取得する。また、ステップS211の要求を受け取ったときは、関連機器の動作情報を取得する。本ステップの詳細は、後述の図3で改めて説明する。
以下のステップS207〜S210の説明では、本ステップでステップS205の要求を受け取ったものと仮定する。
【0037】
(S207)
動作情報取得部204は、ステップS206で取得した動作情報501を、ネットワーク600を介して解析サーバ300に送信する。
このとき、動作情報取得部204は、AES(Advanced Encryption Standard)のような共通鍵暗号や、RSAのような公開鍵暗号を用いて送信データを暗号化したり、SSL(Secure Socket Layer)やIPsecのような通信路暗号化技術を用いたりして、送信する内容に何らかのセキュリティ対策を施す。
【0038】
(S208)
解析サーバ300の障害解析部301は、機器401の動作情報501を受信する。次に、障害解析部301は、その動作情報501を解析し、障害原因などの分析を行う。
(S209)
障害解析部301は、より詳細な解析を行うために、動作情報501以外の動作情報(図1の例では502〜504)が更に必要であるか否かを判断する。必要であると判断するときはステップS204へ戻り、必要でないと判断するときはステップS210へ進む。
【0039】
(S210)
解析サーバ300の障害解析部301は、障害分析を完了し、コールセンターのオペレータに結果を通知する。オペレータは、その結果に基づき、ユーザにアドバイスを行うなどの対処を取る。これらを自動で行ってもよいが、セキュリティ等の観点から、このような手法用いる方が望ましい。
(S211)
一方、上記ステップ204において、関連機器402等についての取得要求であれば、解析装置300の動作情報要求部302は、ゲートウェイ装置200に対し、機器401の障害発生と関連のある動作情報を送信するよう要求し、上記S206に進む。
【0040】
以上、本実施の形態1に係る障害解析システムの動作フローを説明した。
次に、ステップS206の詳細動作を説明する。
【0041】
図3は、ステップS206の詳細動作を説明する動作フローである。以下、図3の各ステップについて説明する。なお、図3では、図2と同様に機器401に障害が発生した場合を想定する。
【0042】
(S301)
ゲートウェイ装置200の動作情報取得部204は、図2のステップS205またはS211で、機器401〜404のいずれかの動作情報を取得するよう要求を受け取る。次に、この取得要求が、障害発生機器(図2の例では機器401)についての動作情報取得要求であるか否かを判定する。
障害発生機器についての動作情報取得要求であればステップS304へ進み、それ以外の場合はステップS302へ進む。
【0043】
(S302)
動作情報取得部204は、通信記録部203が格納している通信記録の中から、機器401の通信記録を検索する。次に、機器401と過去に通信を行った機器(例えば、402、403、404)を、その検索結果に基づき抽出する。通信記録の具体例は後述の図5で示す。
本ステップは、機器401と過去に通信を行った機器が、機器401の障害発生に関連しているだろうとの想定の下、それらの機器を通信記録の中から検索する意義がある。
【0044】
(S303)
動作情報取得部204は、ステップS302で検索した機器(例えば、402、403、404)の動作情報(例えば502、503、504)を取得する。このとき、当該機器のIPアドレス等、機器の個体識別を行うことのできる情報を併せて取得して動作情報に含めてもよい。ステップS304でも同様である。
(S304)
動作情報取得部204は、機器401の動作情報501を取得する。
【0045】
以上、図2のステップS206の詳細動作について説明した。
次に、ゲートウェイ装置200が機器401〜404の通信状況を通信記録部203に記録する動作を説明する。
【0046】
図4は、ゲートウェイ装置200が常時行っている、機器401〜404の通信状況を記録する動作のフローチャートである。ゲートウェイ装置200は、図4の動作を、例えば所定時間間隔で実行し、機器401〜404の通信状況を定常的に記録する。
以下、図4の各ステップについて説明する。なお、通信記録の記録形式の例については、後述の図5で改めて説明する。
【0047】
(S400)
ゲートウェイ装置200の通信観測部202は、図2〜図3で説明した各部の動作と並行して、機器401〜404間の通信を常時観測している。
(S401)
通信観測部202は、機器401〜404間で通信が行われると、その通信パケットを捕捉する。
【0048】
(S402)
通信観測部202は、ステップS401で捕捉したパケットから、送信元アドレスと送信先アドレスのペアを抽出する。ここではIPアドレスを抽出するものとする。
(S403)
通信観測部202は、ステップS401で抽出した送信元アドレスと送信先アドレスのペアが、通信記録部203に既に記録済みであるか否かを判定する。記録済みであればステップS405へ進み、記録済みでなければステップS404へ進む。
【0049】
(S404)
通信観測部202は、ステップS402で抽出した送信元アドレスと送信先アドレスのペアを、抽出時刻とともに通信記録部203に格納する。
(S405)
通信観測部202は、ステップS402で抽出した送信元アドレスと送信先アドレスに該当する通信記録部203内の通信記録を、ステップS402の抽出時刻で時刻のみ更新する。
【0050】
(S406)
通信観測部202は、現在時刻よりも所定時間以上前に通信記録部203に記録された通信記録を削除する。具体的には、現在時刻と、通信記録部203に記録されている通信記録の記録時刻とを比較し、所定時間以上前の通信記録を削除する。これにより、最新の通信状況だけが通信記録部203に残り、障害に関連する機器だけの情報が残せるとともに、通信記録部203の記憶領域が膨大なることを防ぐことができる。
【0051】
以上、通信観測部202の動作を説明した。本動作フローを繰り返し実行することにより、機器401〜404間の通信記録が通信記録部203に追加更新されていく。
【0052】
図5は、通信記録部203が格納する通信記録の形式例である。ここではテーブル形式で記録する例を示したが、記録形式はこれに限られるものではない。
【0053】
通信記録は、「IPアドレス」列、「記録時刻」列を有する。
「IPアドレス」列には、通信観測部202が捕捉した通信パケットの送信元IPアドレスと送信先IPアドレスのペアが格納される。本実施の形態1における「識別情報」は本列の値がこれに相当する。
「記録時刻」列には、「IPアドレス」列のアドレスペアの通信を記録した最新時刻が格納される。
【0054】
以下、図5のデータ例において、機器401のIPアドレスを「192.168.0.5」であると仮定し、図3のステップS302〜S303における動作例を説明する。
【0055】
(S302_1)
図3のステップS302において、動作情報取得部204は、IPアドレス「192.168.0.5」をキーにして、機器401の通信記録を検索する。図5のデータ例では、1行目と2行目のデータが検索にヒットする。
【0056】
(S302_2)
図3のステップS302において、動作情報取得部204は、上記ステップで取得した各行の相手方機器のアドレスを取得する。図5のデータ例では、「192.168.0.7」「192.168.0.9」を取得することになる。
このステップにより、過去に機器401の通信相手となって連係動作していた機器のアドレスを特定することができる。
【0057】
(S303)
図3のステップS303において、動作情報取得部204は、上記ステップ(S302_2)で取得したアドレス「192.168.0.7」「192.168.0.9」の各機器の動作情報を取得する。
【0058】
以上、本実施の形態1に係る障害分析システムおよび各装置等の動作を説明した。
なお、図2のステップS204において、既に同じ機器についての動作情報を要求済みであるか否かにより、いずれの機器についての動作情報を要求するかを区別したが、区別する手順はこれに限られるものではない。
【0059】
例えば、解析サーバ300側では常に障害発生機器(本実施の形態1では機器401)についての動作情報を要求しておき、ゲートウェイ装置200側で、既に機器401の動作情報501を送信したか否かに基づき、いずれの機器についての動作情報を要求するかを判定するようにしてもよい。
具体的には、以下のような手法が考えられる。
【0060】
(ゲートウェイ装置200側で送信済みか否かを判定する手法例)
ゲートウェイ装置200の動作情報取得部204は、動作情報を送信した機器のリストを一定時間保持しておく。その一定時間内に再び同じ機器について動作情報を要求されたときは、その機器についての動作情報は既に送信済みであると判断する。
動作情報取得部204は、当該機器についての動作情報を既に送信済みであると判断したときは、通信記録部203の通信記録から、当該機器に関連する機器のアドレスを検索し、その機器の動作情報を代わりに送信する。
【0061】
以上のように、本実施の形態1に係る障害分析システムは、機器401〜404間の通信記録を一定時間通信記録部203に格納しておく。
また、例えば機器401に障害が発生したとき、動作情報取得部204は、その通信記録を用いて、直近で機器401と通信していた機器を特定することにより、障害に関連すると想定される機器を絞り込んだ上で、その関連機器の動作情報を解析サーバ300に送信する。
【0062】
これにより、解析サーバ300は、障害が発生した機器401のみならず、障害に関連すると思われる機器の動作情報も解析することができるので、障害をより詳細に解析することができる。
【0063】
また、本実施の形態1によれば、ローカルネットワーク100上の全ての機器から動作情報を解析サーバ300に送信するのではなく、障害に関連すると思われる機器の動作情報のみを送信するので、通信量を抑えることができる。
同時に、障害解析に関係しない動作情報がローカルネットワーク100の外部へ流れることを抑制できるので、プライバシーの観点から好ましい。
【0064】
また、本実施の形態1によれば、解析サーバ300が解析すべき動作情報の量も、同様に抑えることができるので、障害解析部301が行う解析時間を短縮することができる。
【0065】
実施の形態2.
実施の形態1では、ゲートウェイ装置200の通信観測部202は、ローカルネットワーク100上の全てのパケットを観測して通信相手機器のアドレスを抽出することとしたが、これ以外にも以下のようなアドレス抽出手法が考えられる。
【0066】
(アドレス抽出手法1)
通信観測部202は、ローカルネットワーク100上のパケットを適宜サンプリングした上で、そのサンプリングしたパケットから、送信元アドレスと送信先アドレスを抽出する。
【0067】
(アドレス抽出手法2)
通信観測部202は、SIP(Session Initiation Protocol)のような、機器401〜404間で通信が開始される時にローカルネットワーク100上を流れるパケットを捕捉し、そのパケットから送信元アドレスと送信先アドレスを抽出する。
【0068】
(アドレス抽出手法3)
通信観測部202は、DLNA(Digital Living Network Alliance)やEchonetのようなホームネットワーク向けの通信規格などで定められている、ネットワーク内の機器を発見するためのパケットを捕捉し、そのパケットからローカルネットワーク100上の機器401〜404のアドレスを取得する。
【0069】
実施の形態3.
図6は、本発明の実施の形態3に係る障害解析システムの構成図である。
本実施の形態3において、ゲートウェイ装置200は、実施の形態1の図1で説明した構成に加え、新たにフィルタリング部205、フィルタ規則格納部206を備える。その他の各装置等の構成は、実施の形態1〜2と同様である。
【0070】
フィルタリング部205は、動作情報取得部204が取得した動作情報を、フィルタ規則格納部206が格納しているフィルタ規則にしたがってフィルタリングし、重要度の高い項目のみを抽出する。
フィルタ規則格納部206は、フィルタリング部205がフィルタリングを行うための規則を格納している。具体例は後述の図8で説明する。
【0071】
フィルタリング部205は、その機能を実現する回路デバイスのようなハードウェアで構成することもできるし、マイコンやCPUのような演算装置とその動作を規定するソフトウェアで構成することもできる。
【0072】
フィルタ規則格納部206は、HDDのような記憶装置で構成することができる。
【0073】
フィルタリング部205は、動作情報取得部204と一体的に構成してもよい。また、フィルタ規則格納部206は、通信記録部203と一体的に構成してもよい。
【0074】
図7は、本実施の形態3に係る障害解析システムの動作フローである。以下、図7の各ステップについて説明する。なお、図2と同様に、機器401で障害が発生したものと仮定する。
【0075】
(S701)〜(S706)
図2のステップS201〜S206と同様である。
(S707)
フィルタリング部205は、ステップS706で動作情報取得部204が取得した動作情報をフィルタリングし、重要度の高い項目を抽出する。本ステップの詳細は、後述の図10で改めて説明する。
(S708)〜(S712)
図2のステップS207〜S211と同様である。
【0076】
以上、本実施の形態3に係る障害解析システムの動作フローを説明した。
次に、フィルタリングに関して詳細を説明する。
【0077】
図8は、フィルタ規則格納部206が格納しているフィルタ規則の例である。ここではテーブル形式で格納している例を示したが、フィルタ規則の形式はこれに限られるものではない。
【0078】
フィルタ規則は、「抽出規則」列、「重要度」列を有する。
「抽出規則」列には、動作情報から項目を抽出する規則が格納される。
「重要度」列では、「抽出規則」列で抽出される動作情報項目の重要度が指定される。図8では、重要度「1」を最重要とし、数値が増えるほど重要度が下がるものとした。
重要度とは、当該動作情報項目の深刻度と概ね同義である。即ち、重要度が高い動作情報項目は深刻な障害もしくはその前兆を示している可能性が高い。
【0079】
なお、図8では、説明の便宜上、日本語で各列の値を記載したが、実際には正規表現などの機械可読形式で各列を表した方が、処理の上では都合よい。
【0080】
図9は、動作情報501のデータ例である。ここでは、機器401の内部プロセスのログを動作情報501とした例を示す。
動作情報501は、1行で1つのログ項目を表す。1つのログ項目には、そのログ項目の重要度を表す文字列(図9のINFO、ERRORなど)と、ログの内容を表す文字列とが記載される。
【0081】
図10は、フィルタリング部205が行うフィルタリング処理のフローである。以下、図10の各ステップについて説明する。なお、説明に際し、フィルタ規則は図8、動作情報501は図9のデータ例を用いる。
【0082】
(S1001)
フィルタリング部205は、フィルタ規則格納部206から、重要度が高い順にフィルタ規則を選択する。図8のフィルタ規則例では、本ステップを最初に実行するときは1行目と4行目のフィルタ規則を選択し、2回目に実行するときは2行目のフィルタ規則を選択することになる。
(S1002)
フィルタリング部205は、図9の動作情報501に、ステップS1001で選択したフィルタ規則を適用する。
【0083】
(S1003)
フィルタリング部205は、図9の動作情報501の各行に記載されている動作情報項目のうち、ステップS1001で選択したフィルタ規則に適合するものを抽出する。
(S1004)
フィルタリング部205は、図8の全てのフィルタ規則について以上のステップを実行したか否かを確認する。未処理のフィルタ規則が残っていればステップS1001に戻って同様の処理を実行し、全て処理済であれば本動作フローを終了する。
【0084】
図11は、図10の動作フローの処理結果として得られるフィルタリング後の動作情報501を示すものである。
図8のフィルタ規則を図9の動作情報501に適用すると、「重要度」が「FATAL」「ERROR」「WARN」の3種類のログ項目が抽出され、図11の3行が最終的に残ることになる。
【0085】
なお、図8〜図11では、全てのフィルタ規則を適用する例を説明したが、フィルタ規則格納部206が格納しているフィルタ規則のうち一部のみを動作情報に適用するようにしてもよい。
【0086】
以上のように、本実施の形態3によれば、フィルタリング部205は、フィルタ規則格納部206が格納しているフィルタ規則を用いて、動作情報取得部204が取得した動作情報から重要度が高いものを抽出した上で、解析サーバ300に送信する。
これにより、ゲートウェイ装置200は、解析サーバ300が障害解析を行うために有用な、即ち重要度の高い動作情報のみを絞り込んで解析サーバ300に送信することができるので、通信量をさらに抑えることができる。
また、ローカルネットワーク100外に送信する情報を最小限に抑えることができるので、プライバシーの観点からも好ましい。
【0087】
実施の形態4.
実施の形態3では、フィルタ規則格納部206はフィルタ規則をあらかじめ格納済みであることを想定したが、フィルタ規則を以下に述べる手法で生成することもできる。
いずれの手法であっても、フィルタ規則は、障害解析を行うに際して有用である項目に高い重要度が割り当てられるように生成される。
【0088】
(フィルタ規則生成手法1)
コールセンターのオペレータや技術者等は、過去に障害解析を行った経験に基づき、障害解析に有用であった共通的な動作情報パターンを抽出する。抽出したパターンをフィルタ規則の形式に整形し、解析サーバ300よりゲートウェイ装置200のフィルタ規則格納部206に宛てて送信する。
【0089】
(フィルタ規則生成手法2)
解析サーバ300の障害解析部301は、障害解析結果に基づき、障害解析に有用であった動作情報の項目に重要度の値を割り当てる。次に、障害解析部301は、その重要度と動作情報の項目を用いてフィルタ規則を生成し、ゲートウェイ装置200のフィルタ規則格納部206に宛てて送信する。
【0090】
(フィルタ規則生成手法3)
障害解析に有用であった動作情報の項目にマークを付与する重要情報指示部を、解析サーバ300に設けておく。具体的には、例えばオペレータが動作情報と障害解析結果を画面上で確認しながら、目視確認により動作情報の項目の中で重要なものを選別し、重要項目を画面上でクリックするなどしてマークする。
解析サーバ300の障害解析部301は、オペレータが指示したマークの統計を取り、多くマークが付与された動作情報の項目に高い重要度を割り当てて、フィルタ規則を作成する。また、作成したフィルタ規則を、ゲートウェイ装置200のフィルタ規則格納部206に宛てて送信する。
【0091】
(フィルタ規則生成手法4)
ゲートウェイ装置200の障害検知部201は、機器401〜404の障害を検知すると、その時刻を解析サーバ300の障害解析部301に通知する。
障害解析部301は、後に動作情報を用いてフィルタ規則を生成する。このとき、障害発生時刻から時間的に離れている動作情報項目ほど重要度が低くなるよう、フィルタ規則を生成する。
【0092】
(フィルタ規則生成手法5)
フィルタ規則は、障害発生時刻から時刻が離れている動作情報ほど重要度が低くなるように構成することもできる。
この場合、フィルタ規則は、ゲートウェイ装置200から解析サーバ300へ障害発生時刻を通知して解析サーバ300で生成することもできるし、ゲートウェイ装置200で生成することもできる。
【0093】
以上の(フィルタ規則生成手法1)〜(フィルタ規則生成手法5)は、適宜組み合わせて用いることもできる。
【0094】
実施の形態5.
実施の形態1〜4では、解析サーバ300の動作情報要求部302は、ゲートウェイ装置200に対し、障害発生機器に関連する機器についての動作情報を送信するよう要求することを説明した。これは、先に送信した動作情報のみでは、障害解析に不十分であったことを示唆する。
【0095】
しかし、実施の形態3〜4で説明した場合のように、そもそも重要度の高い動作情報のみをフィルタリング抽出して解析サーバに送信しているときは、フィルタリングで排除された動作情報を改めて解析サーバ300に送信すれば足りる可能性がある。
【0096】
そこで、ゲートウェイ装置200の動作情報取得部204は、解析サーバ300の動作情報要求部302よりさらに動作情報を送信するよう要求されたとき、フィルタリング部205がフィルタリング処理で排除した動作情報を、解析サーバ300に送るようにしてもよい。
その上でなお、さらに動作情報を送信するよう要求されたときは、改めて実施の形態1で説明したように関連機器の動作情報を取得し、解析サーバ300に送信するとよい。
【0097】
実施の形態6.
以上の実施の形態1〜5で説明した解析サーバ300に、障害を検知した機器401〜404の復旧を試みるようゲートウェイ装置200に要求する、復旧要求部303(図示せず)を設けることもできる。
【0098】
復旧要求部303は、その機能を実現する回路デバイスのようなハードウェアで構成することもできるし、マイコンやCPUのような演算装置とその動作を規定するソフトウェアで構成することもできる。また、必要な通信インターフェース等を適宜備える。
【0099】
ゲートウェイ装置200は、復旧要求部303より障害発生機器の復旧要求を受けるとその機器を再起動するなどして復旧を試みる。その後、動作情報取得部204は、その機器の動作情報を改めて取得し、解析サーバ300に送信する。
解析サーバ300は、その動作情報を受け取り、復旧が成功したか否かを知ることができる。オペレータはその結果に基づき、次の対処を行う。
【符号の説明】
【0100】
100 ローカルネットワーク、200 ゲートウェイ装置、201 障害検知部、202 通信観測部、203 通信記録部、204 動作情報取得部、205 フィルタリング部、206 フィルタ規則格納部、300 解析サーバ、301 障害解析部、302 動作情報要求部、303 復旧要求部、401〜404 機器、501〜504 動作情報、600 ネットワーク。

【特許請求の範囲】
【請求項1】
第1ネットワークに接続されたゲートウェイ装置と、
第2ネットワークに接続された解析装置と、
を有し、
前記ゲートウェイ装置は、
前記第1ネットワーク上の1ないし複数の機器の動作情報を取得して前記解析装置に送信する動作情報取得部を備え、
前記解析装置は、
前記動作情報を用いて前記機器の障害解析を行う障害解析部を備え、
前記動作情報取得部は、
取得した前記動作情報のうち重要度の高いものをあらかじめ定められた重要度にしたがって絞り込んだ上で前記解析装置に送信する
ことを特徴とする障害分析システム。
【請求項2】
前記障害解析部は、
前記動作情報の内容とその重要度を対応付ける対応規則情報を前記ゲートウェイ装置にあらかじめ送信しておき、
前記動作情報取得部は、
取得した前記動作情報のうち重要度の高いものを前記対応規則情報にしたがって絞り込んだ上で前記解析装置に送信する
ことを特徴とする請求項1記載の障害分析システム。
【請求項3】
前記障害解析部は、
前記機器の障害解析結果に基づき前記動作情報に重要度を付与し、
その重要度を用いて前記対応規則情報を作成し前記ゲートウェイ装置に送信する
ことを特徴とする請求項2記載の障害分析システム。
【請求項4】
前記解析装置は、
前記動作情報のうち前記障害解析部が障害解析を行うに際して有意であったものにマークを付与する重要情報指示部を備え、
前記障害解析部は、
前記重要情報指示部がマークを付与した頻度が高い前記動作情報ほど重要度が高くなるように前記対応規則情報を作成して前記ゲートウェイ装置に送信する
ことを特徴とする請求項3記載の障害分析システム。
【請求項5】
前記対応規則情報は、
障害発生時刻から時刻が離れている前記動作情報ほど重要度が低くなるように構成されている
ことを特徴とする請求項1ないし請求項4のいずれかに記載の障害分析システム。
【請求項6】
前記解析装置は、
前記ゲートウェイ装置に前記動作情報を要求する動作情報要求部を備え、
前記動作情報取得部は、
前記動作情報要求部の要求にしたがって前記動作情報のうち重要度の高いものを絞り込んだ上で前記解析装置に送信し、
既に前記動作情報を送信済みであるときは、
先に送信した前記動作情報よりも重要度の低い動作情報を送信する
ことを特徴とする請求項1ないし請求項5のいずれかに記載の障害分析システム。
【請求項7】
前記解析装置は、
前記ゲートウェイ装置に対し障害が発生した機器の復旧を試みるよう要求する復旧要求部を備え、
前記動作情報取得部は、
前記復旧要求部から要求された機器の復旧を試みた後、
その機器の動作情報を取得して前記解析装置に送信する
ことを特徴とする請求項1ないし請求項6のいずれかに記載の障害分析システム。
【請求項8】
前記動作情報取得部は、
前記機器内で動作しているプロセスの一覧、そのプロセスのログ、またはこれらの双方を前記動作情報として取得する
ことを特徴とする請求項1ないし請求項7のいずれかに記載の障害分析システム。
【請求項9】
前記動作情報取得部は、
前記動作情報を取得する際に当該機器の個体識別情報を取得して当該動作情報に含める
ことを特徴とする請求項1ないし請求項8のいずれかに記載の障害分析システム。
【請求項10】
第1ネットワークに接続された1ないし複数の機器の障害を分析する方法であって、
前記第1ネットワークとは異なる第2ネットワークに解析装置を接続しておき、
前記第1ネットワーク上の1ないし複数の機器の動作情報を取得して前記解析装置に送信する動作情報取得ステップを有し、
前記解析装置は、
前記動作情報を用いて前記機器の障害解析を行う障害解析ステップを実行し、
前記動作情報取得ステップでは、
取得した前記動作情報のうち重要度の高いものをあらかじめ定められた重要度にしたがって絞り込んだ上で前記解析装置に送信する
ことを特徴とする障害分析方法。
【請求項11】
前記障害解析ステップでは、
前記動作情報の内容とその重要度を対応付ける対応規則情報を前記ゲートウェイ装置にあらかじめ送信しておき、
前記動作情報取得ステップでは、
取得した前記動作情報のうち重要度の高いものを前記対応規則情報にしたがって絞り込んだ上で前記解析装置に送信する
ことを特徴とする請求項10記載の障害分析方法。
【請求項12】
前記障害解析ステップでは、
前記機器の障害解析結果に基づき前記動作情報に重要度を付与し、
その重要度を用いて前記対応規則情報を作成し前記ゲートウェイ装置に送信する
ことを特徴とする請求項11記載の障害分析方法。
【請求項13】
前記解析装置は、
前記動作情報のうち前記障害解析ステップで障害解析を行うに際して有意であったものにマークを付与する重要情報指示ステップを実行し、
前記障害解析ステップでは、
前記重要情報指示ステップでマークを付与した頻度が高い前記動作情報ほど重要度が高くなるように前記対応規則情報を作成して前記ゲートウェイ装置に送信する
ことを特徴とする請求項12記載の障害分析方法。
【請求項14】
前記対応規則情報は、
障害発生時刻から時刻が離れている前記動作情報ほど重要度が低くなるように構成されている
ことを特徴とする請求項10ないし請求項13のいずれかに記載の障害分析方法。
【請求項15】
前記解析装置は、
前記ゲートウェイ装置に前記動作情報を要求する動作情報要求ステップを実行し、
前記動作情報取得ステップでは、
前記動作情報要求ステップの要求にしたがって前記動作情報のうち重要度の高いものを絞り込んだ上で前記解析装置に送信し、
既に前記動作情報を送信済みであるときは、
先に送信した前記動作情報よりも重要度の低い動作情報を送信する
ことを特徴とする請求項10ないし請求項14のいずれかに記載の障害分析方法。
【請求項16】
前記解析装置は、
前記ゲートウェイ装置に対し障害が発生した機器の復旧を試みるよう要求する復旧要求ステップを実行し、
前記動作情報取得ステップでは、
前記復旧要求ステップで要求された機器の復旧を試みた後、
その機器の動作情報を取得して前記解析装置に送信する
ことを特徴とする請求項10ないし請求項15のいずれかに記載の障害分析方法。
【請求項17】
前記動作情報取得ステップでは、
前記機器内で動作しているプロセスの一覧、そのプロセスのログ、またはこれらの双方を前記動作情報として取得する
ことを特徴とする請求項10ないし請求項16のいずれかに記載の障害分析方法。
【請求項18】
前記動作情報取得ステップでは、
前記動作情報を取得する際に当該機器の個体識別情報を取得して当該動作情報に含める
ことを特徴とする請求項10ないし請求項17のいずれかに記載の障害分析方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2013−34243(P2013−34243A)
【公開日】平成25年2月14日(2013.2.14)
【国際特許分類】
【出願番号】特願2012−237003(P2012−237003)
【出願日】平成24年10月26日(2012.10.26)
【分割の表示】特願2008−230609(P2008−230609)の分割
【原出願日】平成20年9月9日(2008.9.9)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【出願人】(504230604)
【Fターム(参考)】