説明

障害箇所特定方法

【課題】サイレント障害が発生した時点のログ情報を漏れなく収集して解析可能な障害箇所特定方法を提供する。
【解決手段】複数種類の機能カードから構成されるシステムでの障害事象発生に応じて障害事象発生時のログ情報を収集解析する障害箇所特定方法において、複数の障害事例それぞれに対応して、各障害事例に関連する機能カードを示す情報を収集管理テーブルに登録しておき、障害事象の発生に応じて、障害事象に相当する障害事象例に対応して収集管理テーブルを参照し、登録された情報に基づいてログ収集の対象とする対象カードを選択し、選択された対象カードからログ情報を収集し、収集したログ情報をこれに含まれるログ情報項目ごとに解析して、対象カードごとに各ログ情報項目に対応する異常が発生している可能性を示す評価指標を算出し、評価指標に基づいて切替対象カードを特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、移動通信システムの無線ネットワーク制御装置のように、多数の機能ユニットが回路基板などに集積されたカードから構成される情報処理装置において、各カードで蓄積されているログ情報に基づいて、障害箇所および要因を特定する障害箇所特定方法に関する。
【背景技術】
【0002】
例えば、移動通信システムの無線ネットワーク制御装置は、図9に示すように、外部インタフェース部401、セル交換装置402、トランク装置403、No.7信号終端部404、信号終端装置共通部405に加えて、様々な機能を果たす機能ブロック1,2(図9において符号406,407を付して示す)およびこれらを制御する制御処理部408を備えている。また、図9に示した無線ネットワーク制御装置は、保守端末制御部409を介して保守端末410に接続されており、障害が発生した際には、保守作業者により、この保守端末410および保守端末制御部409を介して、ネットワーク制御装置に対する保守作業が行われる。なお、図9に示した保守端末410がこの無線ネットワーク制御装置を介して外部装置とやり取りする制御信号は、端末制御信号終端部411によって終端されている。
【0003】
図9に示した外部インタフェース部401、セル交換装置402、トランク装置403、No.7信号終端部404および機能ブロック1,2がそれぞれ集積されたカードは、それぞれ二重化されており、また、これらのカードそれぞれに診断処理部が備えられている。そして、各カードに備えられた診断処理部においてカード内部に障害が検出された際には、アラームが発生し、これに応じて、二重化されたカードの切り替えなどが自動的に行われ、装置全体の可用性の向上が図られている。
【0004】
しかしながら、上述したような様々な種類のカードにおいて発生する障害の中には、発生頻度が非常に低い障害や検出自体が極めて困難な障害もある。このような障害の検出処理は、各カードに備えられた診断処理部に組み込まれていない、あるいは、組み込むことができない。このような障害は、発生してもアラームが通知されないことから、サイレント障害と呼ばれている。とはいえ、このようなサイレント障害の影響で、呼制御関連イベントの処理が正常に完了しないことがあり、そのような事象が多発するとサービス品質が低下する。
【0005】
従来は、アラームが発生していないにもかかわらず、呼制御関連イベントの完了率が低下したり、対向ノードとの間の制御ループの切断が繰り返されたりした場合のように、サイレント障害の影響が疑われる場合には、以下のような対処が行われていた。
【0006】
すなわち、問題となる事象にかかわる信号疎通ルートが経由している疑わしいカードを保守作業者が一つずつ予備系に切り替えていき、上述したような事象が回復したか否かを見極めることで、障害が発生したカードを特定するとともに、疑わしいカードからログ情報を収集し、収集したログ情報を解析することで、ユニット内での障害箇所や障害要因を特定する作業を行っていた。
【0007】
このようなサイレント障害は、多種多様なネットワーク機器から構成されたネットワークシステムにおいても認識されており、サイレント障害を検出するための様々な技術が提案されている(特許文献1、2参照)。
【特許文献1】特開平9−6571号公報(第4、第6頁、図1)
【特許文献2】特開2006−245849号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
ところで、上述したように、保守作業者が二重化されているカードを予備系に切り替える作業と並行してログの収集を行う方法では、予備系への切り替えを実行するカードの選択もログ収集対象とするカードの選択も保守作業者に任されているので、保守作業者の作業負担が大きく、また、保守作業者の知識や経験によって復旧までに要する時間が大きく異なってしまっていた。
【0009】
このように、障害が発生したカードを予備系に切り替えてシステムを復旧するまでの時間が、保守作業者の技量によって左右されてしまう現状では、最終的にサイレント障害が発生したカード特定されたとしても、必要なログ情報を収集するまでに長い時間が経過してしまう場合がある。このような場合には、サイレント障害が発生したカードに蓄積されているログ情報が、時間の経過に伴って上書きされてしまい、サイレント障害が発生した時点におけるログ情報を収集することができなくなってしまう場合がある。サイレント障害が発生している時点でのログ情報は、障害箇所の特定や障害要因の特定のためにまさに必要な情報であり、このログ情報を収集して解析しないまま、単に予備系への切り替えによってシステムの稼動状態を復旧させたのでは、結果的に、そのカードが抱える課題を放置してしまうことになり、障害の再発を招いてしまう。
【0010】
本発明は、サイレント障害が発生した時点のログ情報を漏れなく収集して解析可能な障害箇所特定方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
上述した目的は、以下に開示する障害箇所特定方法によって達成することができる。
【0012】
この障害箇所特定方法の特徴は、複数種類の機能カードから構成されるシステムでの障害事象発生に応じて障害事象発生時のログ情報を収集解析する障害箇所特定方法において、複数の障害事例それぞれに対応して、各障害事例に関連する機能カードを示す情報を収集管理テーブルに登録しておき、障害事象の発生に応じて、障害事象に相当する障害事象例に対応して収集管理テーブルを参照し、登録された情報に基づいてログ収集の対象とする対象カードを選択し、選択された対象カードからログ情報を収集し、収集したログ情報をこれに含まれるログ情報項目ごとに解析して、対象カードごとに各ログ情報項目に対応する異常が発生している可能性を示す評価指標を算出し、評価指標に基づいて切替対象カードを特定する点にある。
【0013】
このように構成された障害箇所特定方法では、例えば、これまでの保守作業の過程において、個々の障害事象への関連性が経験的に知られている機能カード(例えば、信号疎通ルートが経由している機能カード)を示す情報が、各障害事例に対応して収集管理テーブルに登録され、ログ情報の収集処理の際に、ログ情報収集対象とすべき機能カードを選択する処理に供される。このように、収集管理テーブルに登録された情報に基づいて、障害事例の発生に応じて選択された機能カードからログ情報を収集することにより、発生した障害に関連する機能カードのログ情報を、選択的に、しかも迅速に収集することができる。これらの機能カードから収集されたログ情報は、障害事象の発生にかかわったサイレント障害が発生しているときの情報を漏れなく含んでいる。したがって、これらのログ情報を、ログ情報項目(例えば、コネクション情報やNG処理履歴情報、CPU使用率など)ごとに解析することにより、各ログ情報項目に対応する観点から、個々の機能カードにおいてサイレント障害などの異常が発生している可能性を示す評価指標が算出される。例えば、このようにして各機能カードに対応して得られた評価指標を比較することにより、コネクション情報の連続性などの観点から異常が発生している可能性の大小を判断し、切替対象カードを特定する処理を支援することができる。
【発明の効果】
【0014】
上述した障害箇所特定方法によれば、発生した障害事例に対応して、適切なカードの適切なログ情報項目に関するログ情報を自動的に収集することにより、サイレント障害の発生箇所および障害要因の特定に必要な情報を、迅速に、しかも、漏れなく収集して解析処理に供することができる。また、収集したログ情報をログ情報項目ごとに解析することで、これらの項目に対応する観点から各機能カードにおいて異常が発生している可能性の大きさを示す評価指標を算出し、切替対象カードの決定処理に供することができる。
【発明を実施するための最良の形態】
【0015】
以下、図面に基づいて、本発明の実施形態について詳細に説明する。
【0016】
図1に、課題を解決するための手段の項で開示した障害箇所特定方法の一実施形態を示す。
【0017】
なお、図1に示した構成要素のうち、図9に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
【0018】
図1に示した無線ネットワーク制御装置は、図9に示した各部に加えて、ログ情報収集部211と、収集管理テーブル212およびログ解析処理部213とからなる障害箇所特定処理部を備えて構成されている。
【0019】
図2に、障害箇所特定処理部の詳細構成を示す。
【0020】
図1、図2に示した収集管理テーブル212には、図3(a)に示すように、制御ループ切断や完了率低下などの障害事例(図3においては、障害事例a,b,cとして示す)に対応して、ログ情報を収集するカードの種類を示す対象カード情報が格納されている。各障害事例に対応して格納する対象カード情報は、例えば、障害にかかわる通信経路が経由しているか否かや、これまでの同様の障害事例への対処で障害箇所が検出されたか否かなどに基づいて、予め決定しておくことができる。
【0021】
図2に示したログ情報収集部211において、収集処理部214は、図1に示した制御処理部408から受け取った事例指定情報に応じて、収集管理テーブル212で示された各カードからログ情報を収集し、ログ格納部215に格納する。
【0022】
ここで、各カードでは、個々のカードにおいてログ情報が取得された日時を示すタイムスタンプに対応して、図4に示すように、様々な種類のログ情報項目を含むログ情報が蓄積されている。例えば、図4に示した例では、外部インタフェース部のログ情報は、ログ情報項目として、少なくともコネクション情報、信号廃棄情報、障害履歴、NG処理履歴およびCPU使用率を含んでいる一方、リソース情報は含んでいないことが示されている。したがって、収集処理部214が、収集管理テーブル212で示された各カードからログ情報を収集することにより、それぞれのカードに対応する複数種類のログ情報項目からなるログ情報がログ格納部215に格納される。
【0023】
このようにしてログ格納部215に保持されたログ情報は、項目情報抽出部216を介して、ログ解析処理部213のリンク解析部217と集計処理部218とに渡される。そして、このリンク解析部217および集計処理部218による処理結果に基づいて、特定処理部219により、サイレント障害が発生しているカードが特定される。
【0024】
以下、図2に示した障害箇所特定処理部の動作について詳細に説明する。
【0025】
図5に、障害箇所特定動作を表す流れ図を示す。
【0026】
例えば、呼制御イベントの完了率の低下が検出された場合や制御ループの切断が頻繁に検出されたときに、検出された障害事例を示す事例指定情報が図1に示した制御処理部408から図2に示した障害箇所特定処理部の収集処理部214に渡される(ステップ301)。例えば、制御ループの切断に関する障害事例aを示す事例指定情報に応じて、収集処理部214により、指定された障害事例aに対応して収集管理テーブル212に登録された対象カード(外部インタフェース部、セル交換装置、機能ブロック1、トランク装置)からログ情報が収集され、収集されたログ情報がログ格納部215に保持される(ステップ302)。
【0027】
このように、予め、障害事例ごとにログ情報を収集する対象となる対象カードを収集管理テーブル212に登録しておくことにより、障害事例の検出に応じて、即座に、障害事例に関連するカードに蓄積されたログ情報を収集することができる。これにより、必要なログ情報が上書きされてしまう前に、確実にログ情報を収集して解析処理に供することができる。また、障害事例ごとに、ログ収集の対象カードを限定することにより、現実的な容量のメモリなどによって、ログ情報格納部215を実現することができる。なお、収集管理テーブル212に各障害事例に対応して登録する対象カードは、例えば、これまでの障害事例に対処した実績や実験などに基づいて、予め決定しておくことができる。
【0028】
ところで、本出願人は、障害事例に対処した実績に基づいて、障害事例ごとにこれを引き起こす可能性の高い障害要因およびこれらの障害要因に関連するログ情報項目を特定している。したがって、例えば、図3(b)に示すように、障害事例に対応して、上述した障害要因に関連するログ情報項目を収集管理テーブル212に登録しておき、項目情報抽出部216が、ログ格納部215に格納されたログ情報から、この収集管理テーブル212で示されたログ項目情報を抽出することにより(図5のステップ303)、ログ解析処理部213に障害箇所の特定に必要なログ情報を選択的に渡すことができる。
【0029】
このようにして、ログ解析処理部213の処理に供するログ情報を予め絞り込んでおくことにより、後述するログ解析処理の効率を向上し、障害箇所を迅速に特定することができる。
【0030】
このとき、項目情報抽出部216は、収集管理テーブル212に基づいてログ格納部215から抽出した各カードのコネクション情報をリンク解析部217に転送し、その他の項目のログ情報を集計処理部218に転送することができる。
【0031】
例えば、図3(b)に障害事例aに対応して示したように、収集対象項目にコネクション情報が含まれている場合は(図5のステップ304の肯定判定)、その他のログ情報項目についての解析に先立って、コネクション情報に基づくリンク解析処理が行われる(図5のステップ505)。
【0032】
図6に、リンク解析動作を表す流れ図を示す。
【0033】
図2に示したリンク解析部217は、項目情報抽出部216から受け取った各カードのコネクション情報を、まず、図7に示すように、対象カードごとに時系列に従って配列する(ステップ321)。図7においては、障害事例aに対応する対象カードとして登録された外部インタフェース部、セル交換装置、機能ブロック1およびトランク装置から収集されたコネクション情報が配列された例を示した。
【0034】
次に、リンク解析部217は、上述したようにして配列されたコネクション情報において、各カードで設定された出力仮想チャネルインデックス(VCI)が、リンク先のカードの入力VCIと一致することに着目し、各コネクションのリンクを辿ってリンクの不連続箇所を探索する(ステップ322)。
【0035】
例えば、図7に太線で示すように、外部インタフェース部のコネクションCに設定された出力VCIから順にリンクを辿っていくと、セル交換装置を経由して機能ブロック1で折り返され、セル交換装置において、出力VCI(55)が割り当てられたにもかかわらず、トランク装置ではリンクが設定されていないことが分かる(図7において、符号「×」を付して示した)。
【0036】
このようにしてリンクを辿っていくことにより、図8(a)に示すようなリンクチェック表を作成し、リンクが不連続となっている箇所、すなわち、コネクション情報の異常箇所を障害要因として検出することができる。なお、図8(a)に示した例では、不連続箇所は符号「−」で示した。
【0037】
全てのコネクションについての探索が終了した後に、リンク解析部217により、リンクの不連続箇所の検出度数がカードごとに集計され(ステップ323)、この集計結果が特定処理部219に報告され(ステップ324)、後述する障害箇所の特定処理に供される。
【0038】
その後、図2に示した集計処理部218により、その他の収集対象項目についての集計処理が行われる。なお、収集対象項目にコネクション情報が含まれていない場合(ステップ304の否定判定)には、上述したリンク解析処理がスキップされ、その他の収集対象項目についての集計処理が開始される。
【0039】
集計処理部218は、まず、項目抽出部216から受け取った各対象カードのログ情報をログ情報項目ごとに分類し、更に、例えば、各ログ情報項目のデータ(例えば、CPU使用率を示すデータ)から対応する閾値(例えば、CPU使用率の閾値Thc)を超える値を示すデータを障害要因として検出する(ステップ306)。なお、ログ情報項目の一つであるNG処理履歴のように、ログ情報項目のデータが事象の発生の有無を示している場合に、集計処理部218は、事象の発生を示すデータを障害要因として検出することができる。
【0040】
次いで、集計処理部218により、各ログ収集項目について障害要因を検出した度数が対象カードごとに集計され(ステップ307)、この集計結果が特定処理部219による特性処理に供される。
【0041】
このようにして、例えば、図8(b)に示すように、3つの障害要因(コネクション情報異常、NG処理数、CPU使用率異常)について、4つの対象カード(外部インタフェース部、セル交換装置、機能ブロック1およびトランク装置)ごとに障害要因の検出度数の集計結果が特定処理部219に報告される。
【0042】
図2に示した特定処理部219は、まず、ログ情報項目ごとに、各対象カードについて得られた検出度数を比較し(ステップ308)、比較結果に基づいて、例えば、検出度数が集中しているカードを障害カードとして特定する(ステップ309)。例えば、各カードでの障害要因それぞれの検出度数と全ての対象カードについての平均値とを比較し、いずれかのカードの検出度数が平均値を大幅に上回っているか否かを判定することで、コネクション情報の異常など障害要因の検出度数が集中しているカードを判別することができる。
【0043】
例えば、図8(b)に示した例では、トランク装置について検出されたコネクション情報の異常とNG処理数との双方が、それぞれの平均値を上回っていることから、トランク装置に障害要因の検出度数が集中していると判断することができる。また、このとき、検出度数が集中しているとされた障害要因(例えば、コネクション情報の異常)を、このカード(トランク装置)における障害要因として特定することができる。また、各ログ情報項目の検出度数について、あらかじめ閾値を決定しておき、この閾値を超えた検出度数が得られたカードを障害カードとして特定することもできる。
【0044】
このように、図1、図2に示した障害箇所特定処理部によれば、障害事例の発生に応じて、これに関連するカードからログ情報を即座に収集し、これを解析することにより、障害箇所および障害要因を迅速かつ確実に特定することができる。
【0045】
特に、信号疎通ルートが経由している各カードから収集されたコネクション情報に基づいて、上述したリンク解析処理を行うことにより、コネクション異常の発生箇所を迅速かつ確実に検出することができる。このようなコネクション異常の検出作業は、人手で行う場合にはきわめて煩雑であることから、この作業を自動化したことにより、障害箇所の特定および障害カードの切り替えを含む復旧作業に要する時間を大幅に短縮することが可能となり、サイレント障害による障害事例の発生がサービスに与える影響を抑制することができる。
【0046】
更に、上述したようにして特定したカード(例えば、トランク装置)についてアラームを検出した旨を制御処理部408に通知して、このカードについてのアラーム処理を起動することにより、サイレント障害が発生したカード迅速なシステムの復旧を図ることができる。
【0047】
一方、上述したようにして特定されたカードをサイレント障害の発生が疑われる被疑カードとして解析結果とともに制御処理部408に通知するにとどめ、最終的な判断を保守作業者にゆだねることもできる。この場合に、保守作業者は、タイムリーに収集されたログ情報について行われた解析結果を参照しつつ、特定された被疑カードについてアラーム処理を実行するか否かを判断することができる。上述したようにして得られた解析結果は、被疑カードにおいてサイレント障害が発生している可能性を示す明確な指標であるので、これを保守作業者に提供することにより、特定された被疑カードについての最終的な判断を支援し、迅速で正確な判断を促すことができる。
【0048】
また更に、図2に示したログ格納部215には、各対象カードから収集された全てのログ情報が保持されているので、上述したようにして、障害カードおよび障害要因が特定された後に、リンク解析部217や集計処理部218による処理対象とならなかったログ情報項目のデータも含めて詳細な解析を行うことにより、サイレント障害が発生したときの障害カードの挙動を調査することも可能である。
【0049】
ところで、上述した例のように(図8(b)参照)、コネクション情報の異常が一つのカード(例えば、トランク装置)で集中的に検出された場合には、このカードにおいてコネクション設定にかかわるサイレント障害が発生している可能性が極めて高い。したがって、他のログ情報項目に関する解析結果を待たずに、リンク解析部217によるリンク解析処理に基づいて障害カードの特定が可能である場合は、他のログ情報項目の解析処理を省略して、障害箇所の特定の迅速化を図ることもできる。
【0050】
また一方、リンク解析処理とその他のログ情報項目についての集計処理とを並行して実行することも可能であり、また、リンク解析処理の結果と、その他のログ情報項目についての解析結果とを総合的に評価し、この評価結果に基づいて障害箇所の特定を行うこともできる。
【0051】
例えば、図8(c)に示すように、各障害要因(例えば、コネクション情報異常、NG処理数、CPU使用率異常)に重みを設定しておき、各対象カードの障害要因検出度数にそれぞれ対応する重みを乗じた値を積算することにより、各対象カードにおける障害の重大さを表す評価値を求めることができる。このようにして得られた評価値には、上述した複数の障害要因の検出度数と個々の障害要因の重大性が反映されているので、この評価値の大小を比較することにより、障害が発生している可能性が高さを確実に判断することができる。例えば、この評価値に基づいて、障害カードである可能性が高い順に被疑順位を決定し(図8(c)参照)、例えば、最も高い被疑順位が与えられた対象カードを障害カードとして特定することができる。
【図面の簡単な説明】
【0052】
【図1】障害箇所特定方法の実施形態を示す図である。
【図2】障害箇所特定処理部の詳細構成を示す図である。
【図3】収集管理テーブルの例を示す図である。
【図4】ログ情報の例を示す図である。
【図5】障害箇所特定動作を表す流れ図である。
【図6】リンク解析動作を表す流れ図である。
【図7】リンク解析処理を説明する図である。
【図8】ログ情報解析処理を説明する図である。
【図9】無線ネットワーク制御装置の構成例を示す図である。
【符号の説明】
【0053】
211 ログ情報収集部
212 収集管理テーブル
213 ログ解析処理部
214 収集処理部
215 ログ格納部
216 項目情報抽出部
217 リンク解析部
218 集計処理部
219 特定処理部
401 外部インタフェース(I/F)部
402 セル交換装置
403 トランク装置
404 No.7信号終端部
405 信号終端装置共通部
406 機能ブロック1
407 機能ブロック2
408 制御処理部
409 保守端末制御部
410 保守端末
411 端末制御信号終端部


【特許請求の範囲】
【請求項1】
複数種類の機能カードから構成されるシステムでの障害事象発生に応じて障害事象発生時のログ情報を収集解析する障害箇所特定方法において、
複数の障害事例それぞれに対応して、各障害事例に関連する機能カードを示す情報を収集管理テーブルに登録しておき、
障害事象の発生に応じて、前記障害事象に相当する障害事象例に対応して前記収集管理テーブルを参照し、登録された情報に基づいてログ収集の対象とする対象カードを選択し、
選択された対象カードからログ情報を収集し、
収集したログ情報をこれに含まれるログ情報項目ごとに解析して、前記対象カードごとに各ログ情報項目に対応する異常が発生している可能性を示す評価指標を算出し、
前記評価指標に基づいて切替対象カードを特定する
ことを特徴とする障害箇所特定方法。
【請求項2】
請求項1に記載の障害箇所特定方法において、
前記複数の障害事例それぞれに対応して、収集対象とするログ情報項目を収集管理テーブルに登録しておき、
障害事象の発生に応じて、前記ログ収集対象カードからログ情報を収集する際に、前記収集管理テーブルに登録されたログ情報項目に関する情報を抽出して解析処理に供する
ことを特徴とする障害箇所特定方法。
【請求項3】
請求項1に記載の障害箇所特定方法において、
特定された切替対象カードについてアラーム処理を実行する
ことを特徴とする障害箇所特定方法。
【請求項4】
請求項1に記載の障害箇所特定方法において、
コネクション情報を含むログ情報を解析する際に、
収集されたログ情報に含まれているコネクション情報を時系列に従って配列し、
前記配列されたコネクション情報で示されるリンクを辿ることにより、リンクが不連続となっている箇所を検出し、
前記リンクの不連続箇所の数をログ収集対象カードごとに集計した結果に基づいて、各ログ収集対象カードのコネクション情報の異常に関する評価指標を求める
ことを特徴とする障害箇所特定方法。
【請求項5】
請求項1に記載の障害箇所特定方法において、
切替対象カードを特定する際に、
前記各ログ情報項目に対応して、対応する異常の重要度に応じた重みを与えておき、
ログ収集の対象となった機能カードごとに、算出された評価指標に各ログ情報項目に対応する重みを与えて加算し、
得られた加算結果が最も大きい機能カードを切替対象として選択する
ことを特徴とする障害箇所特定方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2009−225131(P2009−225131A)
【公開日】平成21年10月1日(2009.10.1)
【国際特許分類】
【出願番号】特願2008−67634(P2008−67634)
【出願日】平成20年3月17日(2008.3.17)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】