説明

障害検出システム

【課題】障害発生状況に基づいて障害箇所を特定可能な障害検出システムを提供する。
【解決手段】情報処理を複数のそれぞれ異なる機能を果たす機能ユニットに分担する構成の情報処理装置であって、対向する情報処理装置ごとに異なる組み合わせの機能ユニットを経由するルートを設定して負荷分散を図っている情報処理装置において、各ルートが経由している機能ユニットの組み合わせを示すルート情報を保持するルート情報保持手段と、ルートごとに対向する情報処理装置との間の通信状態を監視する監視手段と、監視手段によって障害が検出されたルートの組み合わせと各ルートが経由にしている機能ユニットの組み合わせとに基づいて、これらのルートが共通して経由している機能ユニットを検出し、検出した機能ユニットを障害が発生した可能性の高い機能ユニットとして特定する特定手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信装置などのように、複数の機能ユニットにより機能分散が図られており、かつ、各機能ユニットをそれぞれ複数個備えて負荷分散が図られている情報処理装置において、障害が発生したユニットを特定する障害検出システムに関する。
【背景技術】
【0002】
例えば、図9に示した通信装置では、プロトコル終端装置、中継装置およびインタフェースカードに通信処理機能が機能分散されており、また、これらの機能ユニットをそれぞれ3系統備え、うち、2系統を現用系として複数の対向する通信装置との間の通信処理を割り当て、残りの1系統を予備系とすることで負荷分散と可用性の向上が図られている。
【0003】
図9に示した通信装置#0では、例えば、通信装置#1〜#4のそれぞれとの間の通信処理は、プロトコル終端装置#0、中継装置#0およびインタフェースカード#0とからなる系統#0の機能ユニット群に分担され、通信装置#5〜#8のそれぞれとの間の通信処理は、プロトコル終端装置#1、中継装置#2およびインタフェースカード#3とからなる系統#1の機能ユニット群に分担されている。
【0004】
図9に示したような通信装置#0に備えられた制御機能部によって、対向する通信装置(例えば、通信装置#1)との間の通信に障害が検出されたときに、従来は、保守管理者により、対向する通信装置#1に近い側の機能ユニット、つまり、インタフェースカード#0から順次に予備系に切り替えていき、切り替えたことによって障害が復旧したときに、切り替えられていた機能ユニットが障害箇所として特定されていた。
【0005】
一方、複数のネットワーク機器を用いて構成されたネットワークによって通信装置相互が接続された通信システムの分野では、ネットワークにおいて設定された通信経路の一部に障害が検出された際に、障害が発生したネットワーク機器を特定する技術が提案されている(特許文献1参照)。
【特許文献1】特開平8−251218
【発明の開示】
【発明が解決しようとする課題】
【0006】
上述したように、障害の検出に応じて、各機能ユニットを順次に手動で切り替えて障害箇所を特定する試行錯誤的な手法では、障害箇所の特定までに要する時間が長くなってしまう。
【0007】
また、このような図9に示したような通信システムでの負荷分散では、通信装置#0と対向する通信装置#1〜#8間を結ぶ各ルートが、一揃いの機能分散ユニットからなる系統ごとにグループ化されて振り分けられているとは限らない。つまり、系統#0に属するプロトコル終端装置#0、中継装置#0およびインタフェースカード#0によって、グループ#0に属する通信装置#1〜#4との間のルートにおける全ての通信処理が行われ、系統#1に属するプロトコル終端装置#1、中継装置#1およびインタフェースカード#1によってグループ#1に属する通信装置#5〜#8との間のルートにおける全ての通信処理が行われるというように、各ルートの通信処理負荷が振り分けられているとは限らない。
【0008】
例えば、図9に太い破線で示したように、グループ#0に属する通信装置#2に至るルートのプロトコル終端処理が系統#1に属するプロトコル終端装置#1に分担されていたり、グループ#1に属する通信装置#7に至るルートの中継処理が系統#0に属する中継装置#0に分担されていたりする場合がある。
【0009】
このような場合に、障害箇所の特定のために、正常に動作している可能性もある機能ユニットを予備系に切り替えると、この切り替え処理のために、切り替え対象となった機能ユニットの動作が中断され、正常に継続されていた別のルートの通信が影響を受けてしまう可能性がある。
【0010】
本発明は、障害発生状況に基づいて障害箇所を特定可能な障害検出システムを提供することを目的とする。
【課題を解決するための手段】
【0011】
上述した目的は、以下に開示する障害検出システムによって達成することができる。
【0012】
この障害検出システムの特徴は、情報処理を複数のそれぞれ異なる機能を果たす機能ユニットに分担する構成の情報処理装置であって、対向する情報処理装置ごとに異なる組み合わせの機能ユニットを経由するルートを設定して負荷分散を図っている情報処理装置において、各ルートが経由している機能ユニットの組み合わせを示すルート情報を保持するルート情報保持手段と、ルートごとに対向する情報処理装置との間の通信状態を監視する監視手段と、監視手段によって障害が検出されたルートの組み合わせと各ルートが経由にしている機能ユニットの組み合わせとに基づいて、これらのルートが共通して経由している機能ユニットを検出し、検出した機能ユニットを障害が発生した可能性の高い機能ユニットとして特定する特定手段とを備える点にある。
【0013】
このように構成された障害検出システムでは、監視手段によって複数の対向する情報処理装置との間の通信に障害が検出されたときに、ルート情報保持手段に保持されたルート情報に基づいて、特定手段により、これらの情報処理装置との間の通信処理を共通して分担している機能ユニットが検出される。
【0014】
この障害検出システムが対象としている情報処理装置では、対向する情報処理装置ごとに異なる組み合わせの機能ユニットを経由するルートが設定されているので、上述したようにして、障害が発生した通信経路における通信処理を共通して分担している機能ユニットを検出することにより、高い確率で障害が発生している機能ユニットを特定することができる。
【0015】
また、上述した目的は、以下に開示する障害検出システムによって達成することができる。
【0016】
この障害検出システムの特徴は、上述した障害検出システムにおいて、特定手段によって障害箇所として特定された機能ユニットをその機能ユニットについて設けられた予備系の機能ユニットに切り替える切り替え手段を備える点にある。
【0017】
このように構成された障害検出システムでは、特定手段による障害箇所の特定に応じて、特定された機能ユニットを即座に予備系に切り替えることができるので、正常に継続されている通信に悪影響を及ぼすことなく、情報処理装置の機能を迅速に復旧することができる。
【0018】
また、上述した障害検出システムにおいて、特定手段によって障害が発生した可能性が高いとされた機能ユニットを示す情報を情報処理装置の外部に通知する通知手段を備えた障害検出システムを構成することも可能である。
【0019】
このように構成された障害検出システムでは、通知手段により、特定手段によって特定された障害箇所を、例えば、オペレータ端末を介して通信システムを管理するオペレータに通知し、オペレータに、高い確度を持って特定された障害箇所を示す情報を提供することができる。
【発明の効果】
【0020】
上述した障害検出システムによれば、障害検出対象の情報処理装置におけるルート設定の特徴を利用して、障害が発生している可能性の高い機能ユニットを非常に高い確度で特定することができるので、保守作業の際の試行錯誤を不要とするとともに、正常に動作している機能ユニットを切り替えてしまうことによって発生する悪影響を防ぐことができる。
【0021】
更に、障害箇所として特定された機能ユニットを自動的に予備系に切り替えたり、障害が強く疑われる機能ユニットをオペレータに通知したりすることにより、オペレータによる保守作業を強力に支援し、通信システムの信頼性を大幅に向上することができる。
【発明を実施するための最良の形態】
【0022】
以下、図面に基づいて、上述した障害検出システムの実施形態のひとつについて詳細に説明する。
【0023】
図1に、障害検出システムの実施形態の一つを示す。
【0024】
図1に示した通信装置210では、3種類の機能ユニット、すなわち、プロトコル終端装置、中継装置およびインタフェースカードによって機能分散が図られている。また、この通信装置210では、上述した3種類の機能ユニットをそれぞれ3系統設け、プロトコル終端装置#0,#1,中継装置#0,#1およびインタフェース(I/F)カード#0,#1を現用系として動作させることにより負荷分散を図るとともに、機番#2が付与された各装置を予備系として待機させることにより、冗長構成がとられている。
【0025】
また、この通信装置210において、制御機能部211から対向する通信装置#0〜#7にいたる各ルート#1〜#8(図1において、矢印の太さ、線の種類および線の色を変えて示した)は、それぞれ異なる組み合わせでプロトコル終端装置、中継装置およびインタフェースカードを経由するように設定されている。
【0026】
図1に示した各ルートが経由している機能ユニットを示すルート情報は、例えば、図2(a)に示すように、図1に示したルート情報テーブル215に、各ルートを示すルート番号に対応して、プロトコル終端装置、中継装置およびインタフェースカードの機番を保持することによって示される。このルート情報テーブル215は、課題を解決するための手段の項において述べたルート情報保持手段に相当する。
【0027】
なお、図2(b)に示すように、各ルートについて、現用系の2系統のプロトコル終端装置、中継装置およびインタフェースカードのどちらがそのルートを収容しているかを示すルート情報テーブルを用いて、ルート情報を示すこともできる。
【0028】
図1に示した通信装置210においては、各ルートを介して通知される障害情報を障害情報収集部212によって収集することによって、課題を解決するための手段の項において述べた監視手段の機能が果たされ、収集された障害情報が、検出制御部213の処理に供される。この検出制御部213は、障害情報の通知に応じて、ルート情報テーブル215を参照し、障害が発生したことが示されたルートに対応するルート情報に基づいて、障害が通知されたルートを収容している各機能ブロック(プロトコル終端装置、中継装置およびインタフェースカード)について、障害が発生している可能性を示す検出情報を障害検出テーブル214に格納する。
【0029】
検出制御部213により、例えば、図3に示すように、障害検出テーブル214の障害が通知されたルートに対応して、ルート情報によってそのルートを収容していることが示されたプロトコル終端装置、中継装置およびインタフェースカードについて設けられた検出情報フラグ(図3において、符号DkP,DkT,DkI(k=1〜8)で示す)に論理「1」をセットする操作を行うことにより、障害が発生している可能性を示し、障害特定部216の処理に供することができる。
【0030】
図1に示した障害特定部216は、上述したようにして障害検出テーブル214に格納された検出情報に基づいて、例えば、3以上のルートについて検出情報フラグがセットされ、障害が発生している可能性が高い機能ユニットを障害箇所として特定する。また、この障害特定部216によって特定された障害箇所を示す情報は、必要に応じて、障害通知部217および切替制御部218のいずれかまたは両方に通知され、それぞれオペレータ端末(図示せず)に特定した障害箇所を通知する処理および障害箇所として特定された機能ユニットを予備系に切り替える処理に供される。つまり、図1に示した通実施形態では、検出制御部213、障害検出テーブル214および障害特定部216により、課題を解決するための手段の項において述べた特定手段の機能が果たされる。
【0031】
以下、図1に示した障害検出システムの動作について詳細に説明する。
【0032】
図4に、障害検出動作を表す流れ図を示す。
【0033】
例えば、図1に示した通信装置#0と通信装置210とを結ぶ通信経路の通信が切断されると、障害情報収集部212によって定期的に行われるヘルスチェックなど際に、この通信経路に対応するルート#1についての障害が検出される(図4のステップ301)。このとき、検出制御部213により、障害通知で示されたルート#1に対応するルート情報で示される機能ユニットであるプロトコル終端装置#0,中継装置#0およびインタフェースカード#0に対応する検出情報フラグDP1,DT1,DI1が論理「1」に設定され(ステップ302)、これらの装置に障害が発生した可能性があることが示される。検出制御部213が上述したようにして障害検出テーブル214の操作を行うことにより、課題を解決するための手段の項において述べたテーブル操作手段の機能が果たされる。
【0034】
このようにして、障害検出テーブル214に格納された検出情報フラグが操作される毎に、障害特定部216は、機能の種類および機番で区別される機能ユニットごとに、論理「1」がセットされた検出情報フラグの数を示す障害指数NCM(機能の種類を示す添え字C=P,T,I,機番を示す添え字M=0,1)を集計し(ステップ303)、収容しているすべてのルートについて検出情報フラグが論理「1」に設定された機能ユニットが存在するか否かを判定する(ステップ304)。
【0035】
ステップ305において、障害特定部216は、上述したようにして求められた障害指数NCMに基づいてその最大値NMAXを求め、この最大値NMAXが所定の閾値Nth(例えば、Nth=3)以上であるか否かに基づいて、障害が発生している可能性が極めて高い被疑ユニットを特定可能であるか否かを判断する(ステップ305)。
【0036】
例えば、図5に示すように、通信装置#0との間の通信経路に対応するルート#1についての障害通知(図5において、符号R#1を付して示す)に応じて検出情報フラグDP1,DT1,DI1が論理「1」に設定される (図5において、太い矢印を付して示す)。この段階では、このルート#1が収容されたプロトコル終端装置#0、中継装置#0およびインタフェースカード#0についての集計で得られた障害指数NP0,NT0,NI0のみが数値「1」となり、プロトコル終端装置#1、中継装置#1およびインタフェースカード#1についての障害指数NP1,NT1,NI1は全て数値「0」となっている(図5参照)。この場合に、障害特定部216は、上述したステップ304およびステップ305の否定判定として、ステップ301に戻り、新たな障害通知を待って、検出情報の集計を繰り返す。
【0037】
その後、図5に示すように、通信装置#5との間の通信経路に対応するルート#3および通信装置#3との間の通信経路に対応するルート#4についての障害通知(図5において、符号R#3、R#4を付して示す)に応じて、図5において、太い矢印を付して示すように、図3に示した障害検出テーブル214の検出情報フラグDP3,DT3,DI3と検出情報フラグDP4,DT4,DI4が論理「1」に設定される。このとき、障害特定部216による集計処理でプロトコル終端装置#0に対応する集計結果として、障害指数NP0=3が得られる(図5参照)。
【0038】
ここで、図3に示した障害検出テーブル214から分かるように、例えば、3つのルートの組み合わせについて障害が通知された場合に、これらの障害通知に応じた検出情報フラグの操作によって論理「1」が設定された検出情報フラグの数の集計結果において最大値「3」が得られる機能ユニットはただひとつであり、その機能ユニットに障害が発生している可能性はきわめて高いといえる。したがって、上述した閾値Nthとして数値「3」を設定し、障害特定部216により、いずれかの集計結果として上述した閾値Nth=3を超える障害指数NCMが得られた場合に(図4のステップ305の肯定判定)、図1に示した障害通知部217を介して対応する機能ユニット(上の例では、プロトコル終端装置#0)を被疑装置としてオペレータ端末に通知することにより(図4のステップ306)、保守作業者に障害箇所に関して信頼性の高い情報を提供することができる。図1に示した実施形態では、障害特定部216が、上述したステップ303からステップ305の処理を行うことにより、課題を解決するための手段の項において述べたユニット検出手段の機能が果たされる。また、障害特定部216からの指示に応じて障害通知部217がオペレータ端末への通知を行うことにより、課題を解決するための手段の項において述べた通知手段の機能が果たされる。
【0039】
このようにして、被疑ユニットをオペレータ端末に通知した後は、図4に示すように、再びステップ301に戻って、障害通知に応じて検出情報の集計が繰り返される。
【0040】
そして、上述したルート#1、#3、#4に続いてルート#2についての障害が通知され (図5において、符号R#2を付して示す)、この障害通知に応じて対応する検出情報フラグDP2,DT2,DI2が論理「1」に設定される。このとき障害特定部216によって実行される集計処理によって、例えば、プロトコル終端装置#0について得られた障害指数が数値「4」となると (ステップ304の肯定判定)、障害特定部216は、その機能ユニットに収容された全てのルートについて障害が検出されたことが示されたことから、この機能ユニットを障害箇所として特定する。
【0041】
このように、図1に示した障害検出システムでは、障害通知に応じて、障害検出テーブル214に設けられた検出情報フラグをセットするといった単純なテーブル操作を検出制御部213が実行することによって、情報処理システムを構成する機能ユニットごとに、障害の発生が疑われる事象の発生履歴が蓄積される。また、障害検出テーブル214に設けられた検出情報フラグを機能ユニットごとに集計することにより、全てのルートについてフラグが設定された機能ユニットを単純な処理によって検出し、障害が発生している機能ユニットを迅速かつ確実に特定することができる。
【0042】
この場合に、障害特定部216により、障害箇所として特定した機能ユニット(例えば、プロトコル終端装置#0)を予備系に切り替える旨が切替制御部218に指示され、これに応じて、機能ユニットの切替制御が実行される(ステップ307)。つまり、図1に示した実施形態では、障害特定部216からの指示に応じて、切替制御部218が切替制御を実行することにより、課題を解決するための手段の項において述べた切り替え手段の機能が果たされる。
【0043】
図1に示したように各ルートがそれぞれ異なる組み合わせの機能ユニットに収容されるように設定された情報処理システムでは、上述したように、障害特定部216によって特定された障害箇所が真の障害箇所である可能性は非常に高い。したがって、このようにして、オペレータの判断を経ることなく予備系への切り替えを行うことにより、信頼性を確保しつつ障害に対する迅速な対処を可能とすることができる。
【0044】
なお、上述したように、障害特定部216によって障害箇所が特定された場合には、その機能ユニットに収容された全てのルートについて通信が既に切断されているので、この機能ユニットを予備系に切り替えることにより、正常に継続していた通信が切断されることはない。
【0045】
また、このようにして予備系の機能ユニットへの切り替えが行われ、以降のヘルスチェックなどによって通信経路の復旧が検出され、その旨の復旧通知が受信されたときに(ステップ308の肯定判定)、検出制御部213により、復旧通知によって通信が再開されたことが示された通信経路に対応するルートを収容している各機能ユニットに対応する検出情報フラグがクリアされる(ステップ309)。例えば、ルート#1についての復旧通知に応じて、検出情報フラグDP1,DT1,DI1がクリアされ、同様に、ルート#2についての復旧通知に応じて、検出情報フラグDP2,DT2,DI2がクリアされる。
【0046】
このように、ルートの復旧が通知されるごとに、そのルートに対応する検出情報フラグについて上述した操作を繰り返すことにより、これらの機能ユニットについての被疑が解消される。例えば、図5に示したように、ルート#1、#2についての復旧通知に応じて検出情報フラグDT1,DT2がクリアされると、中継装置#0に対応する検出情報フラグの全てが論理「0」となり、中継装置#0の被疑が解消される。なお、図5においては、各機能ユニットに対応する少なくともひとつの検出情報フラグに論理「1」が設定されている状態が継続している期間を白抜きの矢印で示した。
【0047】
このようにして、切替対象となった機能ユニットに収容された全てのルートについての復旧通知に応じて、これらのルートに対応して設けられた全ての検出情報フラグがクリアされたときに(ステップ310の肯定判定)、障害特定処理が終了する。
【0048】
なお、上述したステップ306で行われたオペレータ端末への通知に応じて、保守作業者が、手動で被疑ユニットを予備系に切り替えた場合は、不通となっていた通信経路が復旧した旨の復旧通知が返されるごとに、上述したステップ308〜ステップ310と同様にして検出情報フラグがクリアされ、以降の障害監視処理に供される。
【0049】
また、図3(a)に示した構成の障害検出テーブルを採用した場合は、この障害検出テーブル自体にルート情報が含まれているので、図1に示したルート情報テーブル215を省略することも可能である。
【0050】
また一方、図3(a)に示した構成の障害検出テーブルの代わりに、図3(b)に示すように、各機能ユニットに対応して、障害が検出されたルートの識別情報を格納していく構成の障害検出テーブルを備えて、障害検出システムを構成することも可能である。なお、図3(b)においては、上述したようにして、ルート#1、#3、#4、#2についての障害通知に応じてこれらのルートの識別情報が格納された状態を一例として示した。
【0051】
ところで、図1に示した各ルートについての障害通知は、通信装置210を構成する各装置に障害が発生した場合だけでなく、例えば、対向する通信装置#0から#7およびその下位の装置(例えば、基地局装置)に何らかの障害が発生した場合にも通知される。
【0052】
以下、このような外部要因による障害通知と監視対象である通信装置210内の内部要因による障害通知を切り分けて、適切に障害を検出する方法について説明する。
【0053】
図6に、障害検出システムの別実施形態の主要部を示す。また、図7に、障害検出動作を表す流れ図を示す。
【0054】
なお、図6に示した構成要素のうち、図1に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
【0055】
図6に示した制御機能部211は、図1に示した各部に加えて、図1に示した各機能ユニット(プロトコル終端装置#0、#1、中継装置#0、#1およびインタフェースカード#0、#1)に対応する監視タイマ219P0,219P1,219T0,219T1,219I0,219I1を備えて構成されている。以下、これらの監視タイマ219P0,219P1,219T0,219T1,219I0,219I1を総称する際は、単に、監視タイマ219と称する。
【0056】
図6に示した監視タイマ219は、検出制御部213からの起動指示に応じて計時動作を開始し、所定の監視時間tの経過後にタイムアウト通知を検出制御部213に通知する。上述した監視時間tは、例えば、対応する機能ユニットに障害が発生した場合に、その機能ユニットに収容されている複数のルートについての障害が通知される間隔として考えられる最長の時間を考慮して決定することができる。
【0057】
また、図6に示した検出制御部213は、新たな障害通知を受信するごとに、障害が通知されたルートが収容されている各機能ユニットに対応する監視タイマ219を起動あるいはリセットして、これらの機能ユニットが被疑ユニットとして監視されている期間を新たに設定または延長する(図7に示したステップ311)。また一方、検出制御部213は、監視タイマ219からのタイムアウト通知に応じて、障害検出テーブル214の対応する機能ユニットの検出情報フラグをクリアすることにより(図7に示したステップ312,313)、障害通知に応じて障害検出テーブル214に障害が発生している可能性を示す検出情報フラグが設定されている期間を制限する。つまり、図6に示した実施形態では、監視タイマ219により、課題を解決するための手段の項において述べた制限手段の機能が果たされる。
【0058】
図8に、障害検出テーブルに保持された検出情報の変化の説明図を示す。
【0059】
例えば、ルート#1、#2、#3、#4が共通して収容されているプロトコル終端装置#0に障害が発生した場合は、図8に矢印を付して示すように、これらのルートについての障害通知が比較的短い間隔で通知される。そして、これらの障害通知に応じて、図8において太い矢印で示すタイミングで、各ルートを収容している機能ユニットに対応する検出情報フラグが順次に論理「1」に設定されていき、各機能ユニットに対応して設けられた検出情報フラグの少なくともひとつに論理「1」が設定されている状態が発生し、また、この状態が継続する(図8において、白抜きの矢印で示す)。そして、ルート#4についての障害通知に応じて、上述した検出情報フラグの集計結果に基づいて、障害箇所が迅速かつ確実に特定され、特定された機能ユニット(例えば、プロトコル終端装置#0)が予備系に切り替えられる。このようにして予備系への切り替えが行われた場合には、上述した監視時間tの経過を待たずに、その後に収集される復旧通知に応じて、対応する検出情報フラグがクリアされていき、これにより、障害検出テーブル214に保持された検出情報の履歴がクリアされる。
【0060】
一方、図8に太い破線で示したルート#6についての障害通知から上述した監視時間tが経過するまでの間に、例えば、このルート#6が収容されている機能ユニットのひとつであるプロトコル終端装置#1に収容されている他のルートについての障害が通知されなかった場合には、このプロトコル終端装置#1について格納された検出情報フラグはクリアされ、プロトコル終端装置#1に対する被疑は解消される。なお、この時点で、ルート#6を収容している中継装置#1およびインタフェースカード#1に対応する検出情報フラグDT6,DI6もクリアされ、これに応じて、中継装置#1およびインタフェースカード#1に対する被疑も解消される。
【0061】
このように構成された障害検出システムでは、検出制御部213が監視タイマ219からのタイムアウト通知に応じて障害検出テーブル214を操作することにより、障害検出テーブルに障害が検出された旨の検出情報が格納されている期間あるいは、検出情報によって障害が検出された旨を示している期間が適切に制限される。これにより、外部要因による障害のように、監視対象の情報処理装置内の機能ユニットが正常である場合にも検出される通信障害と情報処理装置内の機能ユニットに障害がある場合に検出される通信障害とを切り分けて、適切に対処することが可能となる。
【0062】
なお、一般に機能ユニットに障害が発生した場合にその機能ユニットを経由する全てのルートにおいて障害が検出されるまでの期間に関する知見が得られていれば、このような期間を監視時間tとして各監視タイマ219に設定することができる。
【0063】
この場合は、各機能ユニットについて最初に障害が通知された際に対応する監視タイマ219を起動し、以降の処理において、同一の機能ユニットについての障害通知に応じた監視タイマ219のリセットは不要となる。
【図面の簡単な説明】
【0064】
【図1】障害検出システムの実施形態を示す図である。
【図2】ルート情報テーブルの例を示す図である。
【図3】障害検出テーブルの例を示す図である。
【図4】障害検出動作を表す流れ図である。
【図5】検出情報フラグの操作を説明する図である。
【図6】障害検出システムの別実施形態の主要部を示す図である。
【図7】障害検出動作を表す流れ図である。
【図8】障害検出テーブルに保持された検出情報の変化の説明図である。
【図9】機能分散および負荷分散を説明する図である。
【符号の説明】
【0065】
210 通信装置
211 制御機能部
212 障害情報収集部
213 検出制御部
214 障害検出テーブル
215 ルート情報テーブル
216 障害特定部
217 障害通知部
218 切替制御部



【特許請求の範囲】
【請求項1】
情報処理を複数のそれぞれ異なる機能を果たす機能ユニットに分担する構成の情報処理装置であって、対向する情報処理装置ごとに異なる組み合わせの機能ユニットを経由するルートを設定して負荷分散を図っている情報処理装置において、
前記各ルートが経由している機能ユニットの組み合わせを示すルート情報を保持するルート情報保持手段と、
前記ルートごとに対向する情報処理装置との間の通信状態を監視する監視手段と、
前記監視手段によって障害が検出されたルートの組み合わせと各ルートが経由にしている機能ユニットの組み合わせとに基づいて、これらのルートが共通して経由している機能ユニットを検出し、検出した機能ユニットを障害が発生した可能性の高い機能ユニットとして特定する特定手段と
を備えたことを特徴とする障害検出システム。
【請求項2】
請求項1に記載の障害検出システムにおいて、
前記特定手段は、
前記情報処理装置を構成している各機能ユニットについて、それぞれの機能ユニットを経由しているルートごとに障害が検出されたか否かを示す検出情報を保持する障害検出テーブルと、
前記監視手段によって障害が検出されたルートに対応して前記ルート情報保持手段に示された各機能ユニットに対応して、そのルートについて障害が検出された旨を示す検出情報を前記障害検出テーブルに格納するテーブル操作手段と、
前記障害検出テーブルから複数のルートについて障害が検出された旨の検出情報が格納された機能ユニットを検出するユニット検出手段と
を備えたことを特徴とする障害検出システム。
【請求項3】
請求項2に記載の障害検出システムにおいて、
前記テーブル操作手段は、前記監視手段による障害検出に応じて、前記障害検出テーブルに機能ユニット対応に障害が検出された旨の検出情報が格納されている期間を制限する制限手段を備える
ことを特徴とする障害検出システム。
【請求項4】
請求項1に記載の障害検出システムにおいて、
前記特定手段によって障害箇所として特定された機能ユニットをその機能ユニットについて設けられた予備系の機能ユニットに切り替える切り替え手段を備えた
ことを特徴とする障害検出システム。
を備える点にある。
【請求項5】
請求項1に記載の障害検出システムにおいて、
前記特定手段によって障害が発生した可能性が高いとされた機能ユニットを示す情報を前記情報処理装置の外部に通知する通知手段を備えた
ことを特徴とする障害検出システム。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2009−135579(P2009−135579A)
【公開日】平成21年6月18日(2009.6.18)
【国際特許分類】
【出願番号】特願2007−307673(P2007−307673)
【出願日】平成19年11月28日(2007.11.28)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】