説明

運用管理装置、運用管理方法、運用管理プログラム

【課題】システムを構成する各ノードのシステムの動作に対する影響度を提示する。
【解決手段】サービスシステムを構成する各ノード40の健全動作率を用いて、ネットワークシステムの論理トポロジに基づく演算を行うことにより、直属関係にあるノードそれぞれの健全動作率の算出する健全動作率算出部11と、各ノードで動作障害が生じた場合に最上位ノードの健全動作率を低下させる影響の度合いを示す各ノードのインパクト値を健全動作率に基づき算出するインパクト値算出部12を備えた運用管理装置20。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、異なるノードから構成されるネットワークシステムの動作状態を管理する管理システムに関する。
【背景技術】
【0002】
複数の異なるコンピュータやサーバ装置などのノードからなるネットワークシステム(ビジネスサービスシステム)では、ノード間で相互に通信される通信情報に基づく処理を各ノードが実行することにより、利用者に対してビジネスサービスの提供を行う。
また、このネットワークシステム(以下「サービスシステム」)における運用状態(動作状態)を管理する運用管理システムでは、一般に、監視対象であるサービスシステムの構成要素(ノード)の動作異常をアラートとして取得し、このアラートの内容や予め設定されたサービスシステム内における各ノードの重要度に基づき、動作異常に対する対処(処理)が行われるノードの優先度が決定され、この優先度に基づき動作異常に対する処理が行われる。
【0003】
ここで、一般に運用管理システムでは、サービスシステムを構成するノードの優先度は、監視対象である各ノード単体を基準として決定されている。
しかしながら、ビジネスサービスシステムを構成する各ノードの優先度は、ビジネスサービスシステム全体の動作状態に与える影響の度合い(インパクト値)を考慮して決定されることが望ましい。
例えば、ウェブ(Web)サーバとAP(アクセスポイント)サーバを含むサービスシステムを監視している場合、各サーバにおける動作停止などの動作異常が異なるサーバで同時に発生した場合、動作異常に対するノードの対処優先順位は、ネットワークシステムの接続構成により確保されている冗長度に応じて決定されることが望ましい。
【0004】
しかしながら、監視対象ノードそれぞれを基準として決定された、動作異常に対するノードの対処優先順位(優先度)では、上記の例においては、動作停止が生じたサーバであるAPサーバの両者で、動作異常に対するノードの対処優先順位は同程度として扱われてしまい、この場合、サービスシステム全体に対する影響度の大きさを基準とした、対処優先順には、動作異常に対する対処処理が行われない、といった不都合が生じ得る。
【0005】
これに対する関連技術として、システムにおける業務に及ぼす影響の大きさを示す影響度を、1−(各装置が通常の動作を行う割合)により算出する手法が開示されている(特許文献1)。
また、この関連技術として、故障率を変動させて重要度分析を行い、予め設定された閾値以上の値を示す事象をリスク表示する手法が開示されている(特許文献2)。
【0006】
さらに、これに対する関連技術として、システムの構成要素における動作障害がシステムに与える影響度を、ノードの実行依存関係に基づき算出し、システムにおけるサービス停止への影響をインパクトシミュレータにより分析する手法が開示されている(特許文献3)。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2008−217285号公報
【特許文献2】特開2009−176315号公報
【特許文献3】特開2005−538459号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上記特許文献1〜3に開示された関連技術では、サービスシステムの論理構成(ネットワーク構成)とノードなどのシステム構成要素の対処優先度を示す監視ポリシーとを連動させることができないため、ネットワーク構成に変更が生じた場合に、監視ポリシーを、新たに設定されたネットワーク構成に基づき決定するといった煩雑な設定変更を行う必要があり、これには、膨大な手間がかかるため、運用コストが増大してしまうといった不都合がある。
[発明の目的]
本発明は、上記関連技術の有する不都合を改善し、異なるノードからなるネットワークシステム全体の動作状態を監視すると共に各ノードのネットワークシステムにおける重要度を提示し得る運用管理装置、運用管理方法、運用管理プログラムを提供することを、その目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本発明に係る運用管理装置は、異なる複数のノード間の接続関係が階層構造を有し前記各ノードで行われる実行処理によりサービス提供を行うサービスシステムにおける動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置であって、前記システム動作監視部は、前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出する健全動作率取得手段と、前記下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより前記下位ノードと直属関係にある前記上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出手段と、前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出するインパクト値算出手段とを備えた構成をとっている。
【0010】
また、本発明にかかる運用管理方法は、異なる複数のノード間の接続関係が階層構造を有し前記ノード間で通信が行われることによりサービス提供を行うサービスシステムの動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置にあって、前記動作異常に対する前記各ノードの処理優先度を決定する運用管理方法であって、前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出し、前記下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより前記下位ノードと直属関係にある前記上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出し、前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出することを特徴としている。
【0011】
又、本発明にかかる運用管理プログラムは、異なる複数のノード間の接続関係が階層構造を有し前記ノード間で通信が行われることによりサービス提供を行うサービスシステムの動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置にあって、前記動作異常に対する前記各ノードの処理優先度を決定するための運用管理プログラムであって、前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出する健全動作率取得機能と、前記下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより前記下位ノードと直属関係にある前記上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出機能と、前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出するインパクト値算出機能とをコンピュータに実行させることを特徴としている。
【発明の効果】
【0012】
本発明は、以上のように構成され機能するので、これによると、サービスシステムを構成する各ノードの健全動作率を用いて、ネットワークシステムの論理トポロジに基づく演算を行うことにより、直属関係にあるノードそれぞれの健全動作率の算出する健全動作率算出部と、各ノードで動作障害が生じた場合に最上位ノードの健全動作率を低下させる影響の度合いを示す各ノードのインパクト値を算出するインパクト値算出部を備えた構成とすることにより、異なるノードからなるネットワークシステムの動作状態を監視し、各ノードのネットワークシステムにおける重要度を提示する運用管理装置、運用管理方法、および運用管理プログラムを提供することができる。
【図面の簡単な説明】
【0013】
【図1】本発明による運用管理システムにおける一実施形態を示す概略ブロック図である。
【図2】図1に開示した運用管理システムにおける管理対象であるビジネスサービスシステムの一実施形態を示す概略ブロック図である。
【図3】図1に開示した運用管理システムにおける管理対象であるビジネスサービスシステムの一実施形態を示す概略ブロック図である。
【発明を実施するための形態】
【0014】
[実施形態]
次に、本発明の実施形態について、その基本的構成内容を説明する。
【0015】
本実施形態である運用管理システムは、図1に示すように、ノード間の接続関係が階層構造を有し、このノード間で通信が行われることによりサービス提供を行うビジネスサービスシステム(以下「サービスシステム」という)における動作異常を検知するシステム監視部01および51と、このシステム監視部01または51を介して取得したサービスシステムにおける動作異常に係る情報を管理する監視制御サーバ(運用管理装置)20と、この監視制御サーバ20による管理内容を出力表示する運用管理画面03を有する監視端末30を備えた構成を有する。
【0016】
ここで、システム監視部01および51それぞれは、監視制御サーバ20による監視対象であるサービスシステム内に設置された被監視サーバ40および50内にそれぞれ設定されているものとする。
尚、この被監視サーバ40および50は、それぞれが設置されたサービスシステムを構成する各ノードの動作異常の検出を行うものとする。
【0017】
ここで、本実施形態におけるビジネスサービスシステムの論理構成は、例えば、図2に示すように、ビジネス1サーバに対して接続されたWebグループサーバ、AP(アクセスポイント)グループサーバ、およびDBグループサーバを備え、Webグループサーバに対して並列で冗長に接続されたWebサーバ1〜5と、APグループサーバに対して機能的に並列で冗長に接続されたAPサーバ1および2と、DBグループサーバに接続されたDBサーバ1と、Webサーバ1〜5それぞれに対して子ノードとして接続されたホスト端末1〜5と、APサーバ1〜2それぞれに子ノードとして接続されたホスト端末6,7と、DBサーバに対して子ノードとして接続されたホスト端末8を備えた、ツリー構成を有するものとする。
ここでは、ビジネスサービスシステムを構成する子ノードは親ノードに対する接続の仕方を示す接続属性として、AND依存またはOR依存の何れかの属性を有するものとする。
【0018】
尚、AND依存の場合、そのノード(子ノード)の正常性(正常動作状態)が親ノードの正常性に必須である接続属性であり、OR依存の場合は、同一の親ノードに接続されたその他のノード(兄弟ノード)で機能代用が可能である、機能的に冗長的な接続属性を有するものとする。これは、例えば、回路で説明をすると、AND依存は直列接続、OR依存は並列接続であるといえる。
【0019】
具体的には、図2に示すように、Webサーバ1〜5はWebグループサーバに対して機能的に冗長構成(並列接続)を取っており、これは、Webグループサーバに対するOR依存にあたる。
一方、Webグループサーバ、APグループサーバ、およびDBグループサーバは、これら3要素でビジネス1サーバに対して機能的にAND依存であるものとする。
尚、本実施形態の監視制御サーバ20では、ビジネスサービスシステムの論理構成に変更があった場合に、この変更に追随して新たに設定されたシステム論理構成を取得することが可能であるものとする。
【0020】
監視制御サーバ20は、システム監視部01および51それぞれの監視動作を制御すると共にシステム監視部01および51それぞれを介して送り込まれたサービスシステムにおける動作異常に係る情報(動作情報)をアラートとして取得するシステム監視管理部02と、システム監視管理部02により取得されたアラートを記憶保持するアラートストア04と、ビジネスサービスシステムにおけるノードの接続関係(論理構成情報)を論理トポロジとして記憶する論理トポロジ記憶部(論理構成記憶部)05と、ビジネスサービスシステムの各ノードにおける動作状態の健全性の度合いを論理トポロジに基づき計算する動作状態計算本体部10を有する。
【0021】
システム監視管理部02は、ビジネスサービスシステムを構成する上位および下位ノードそれぞれにおける予め設定された健全動作率を取得する健全動作率取得機能を有する。
動作状態計算本体部10は、システム監視管理部02により取得されたアラートに基づきサービスシステムにおけるノードが健全に動作する割合を示す健全動作率を計算する健全率計算部11と、サービスシステム全体の健全動作率に与える各ノードの影響の度合い(ビジネスインパクト)をインパクト値として算出するインパクト値計算部12と、算出されたインパクト値を記憶保持するインパクト値情報記憶部13を備えている。
【0022】
健全率計算部11は、下位ノードの健全動作率を用いて論理トポロジに基づく演算を行うことにより、下位ノードと直属関係にある上位ノードの健全動作率の算出し、これによりサービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出手段を有する。
【0023】
インパクト値計算部12は、ビジネスサービスシステムにおける各ノードで動作障害が生じた場合に、算出された最上位ノードの健全動作率を低下させる度合いを示す各ノードのインパクト値を、各ノードの健全動作率に基づき算出する(インパクト値算出手段)
【0024】
尚、監視制御サーバ20は、CPU(Central Processing Unit)、メモリ、記憶装置としてのHDD(Hard Disk Drive)などを備えた、一般のコンピュータ装置であり、上記CPUが予め設定されたプログラムに基づく実行処理を行うことにより各機能動作を実現するものとする。
【0025】
また、健全率計算部11は、予め記憶された論理トポロジに基づいて、サービスシステムにおける上位ノードおよび下位ノード間の接続状態が直列である場合に、上位ノードにおける健全動作率を下位ノードの健全動作率(以下「健全率」という)の積として算出する。また、上位および下位ノード間の接続状態が並列である場合には、上位ノードにおける健全率を下位ノードの健全動作率の相加平均として算出する(健全率演算機能)。
【0026】
ここで、健全率計算部11の健全率演算機能について説明する。
まず、末端ノード(Host:ホスト端末)それぞれにおける健全率を算出する健全率演算機能について、説明する。
【0027】
健全率計算部11は、ビジネスサービスシステム(図2)における各末端ノード(Host1〜8)からシステム監視管理部02が取得したアラートに基づき、各末端ノード単体の健全率を算出する。
【0028】
ここで、各末端ノード(Host1〜8)から異なる複数のアラートが検知されている場合が生じうる。ここでは、検知されたアラートのうち最も重要度の高いアラートを、各ノードにおける健全率として設定するものとする。例えば、サーバダウン状態の健全率は0であるものとする。
尚、検知されたどのアラートに対して、どのような重要度を割り当てるか(重み付けを行うか)は、監視制御サーバ20のオペレータが手動により予め設定するものとする。
【0029】
次に、健全率が算出された下位ノードに対する上位ノードにおける健全率を算出する健全率計算部11の健全率演算機能について、説明する。
具体的には、健全率計算部11は、子ノードである末端ノード(Host)に対する親ノードとしてのWebサーバ(1〜5)、APサーバ1〜2、DBサーバ1それぞれにおける健全率を算出する。
また、健全率計算部11は、子ノードとしてのWebサーバ(1〜5)、APサーバ1〜2、DBサーバ1それぞれに対するWebグループサーバ、APグループサーバ、DBグループサーバそれぞれにおける健全率と、子ノードとしてのWebグループサーバ、APグループサーバ、DBグループサーバに対する親ノードであるビジネス1サーバの健全率の算出を行う。
【0030】
ここでは、ある親ノード(例えば、Webグループサーバ)に、n個の子ノード(親ノードがWebグループサーバである場合、n=5)が接続されており、これら子ノードそれぞれにおける予め算出された健全率をそれぞれA1、A2、・・・Anとする。
【0031】
このとき、親ノードの健全率は、子ノードが親ノードに対してAND依存に接続されている場合は、接続された子ノードそれぞれにおける健全率の積(A1×A2×A3×・・・×An)として算出されるものとする。
【0032】
また、子ノードがOR依存に接続されている場合は、親ノードの健全率は、接続された子ノードそれぞれの相加平均{(A1+A2+A3+・・・+An)÷n}として算出されるものとする。
【0033】
健全率計算部11は、ビジネスサービスシステムにおける末端ノード(子ノード)から親ノードへと階層ごとに各ノードの健全率を算出する。そして、最終的に、最上位ノード(ビジネス1サーバ)における健全率を、ビジネスサービスシステム全体の健全率として算出する。
【0034】
論理トポロジ記憶部(論理構成記憶部)05は、システム監視管理部02により取得された、各ノード直属のノードを示す接続ノード特定情報を記憶する。
また、動作状態計算本体部10は、サービスシステムにおけるノードの接続関係が変更された場合に、システム監視管理部02が取得した接続ノード特定情報に基づき論理トポロジ記憶部内に記憶された論理トポロジの更新を行う(論理トポロジ更新機能)。
【0035】
インパクト値計算部12は、上述のように、ビジネスサービスシステムに含まれるノード(上位ノードを有する子ノード)におけるインパクト値として算出するインパクト値算出機能を有する。
ここで、インパクト値とは、上述のように、ビジネスサービスシステム全体の健全動作率(健全率)に与える各ノードの影響の度合いを数値化した値を示す。
【0036】
ここで、インパクト値計算部12のインパクト値算出機能について、説明する。
尚、ビジネスサービスシステム(図2)に含まれる、あるノード(例えば、Webグループサーバ)には、n個の子ノードが接続されており、各子ノードの健全率はそれぞれ、A1,A2,...,Anであるものとする。このとき、j番目の子ノードのインパクト値Pは、以下に示す[式1]により算出されるものとする。
【0037】
[式1]
=P×(1−A)÷{Σ(−A)}
【0038】
また、インパクト値計算部12は、ノードの健全動作率が検知されないことに起因して各ノードのインパクト値が算出できない場合に、各ノードのインパクト値として予め設定された値より大きい値を、インパクト値として設定する暫定インパクト値設定機能を有する。
【0039】
例えば、図3に示すように、APグループサーバに対して子ノードであるAP1サーバおよびAP2サーバそれぞれの健全率が0.0である場合は、APグループサーバにおける健全率を正確に算出することができない。
【0040】
この場合、インパクト値計算部12は、検知された健全率が0.0であるノードのインパクト値としてDeadマーク(D)を割当てるものとする。例えば、親ノードと子ノードの両方の健全率がそれぞれ0.0である場合、それぞれのノードのインパクト値を算出する代わりに各ノードに対してDeadマーク(D)を割当てる。
ここでは、APグループサーバのインパクト値は0.66D、AP1サーバおよびAP2サーバそれぞれのインパクト値は0.33Dに設定される。
【0041】
これにより、Deadマークが割当てられた各ノードは、サービスシステムを構成するノードの中でも他のノードに対する非常にインパクト値が高いノードとして設定され、判別することが容易となる。
尚、Webグループサーバにおける健全率(0.5)およびインパクト値(0.33)は、図3に示すように、このWebグループサーバに対して子ノードであるWeb1サーバとWeb2サーバそれぞれの健全率(0と1.0)およびインパクト値(共に0.33)に基づき算出される。
また、ビジネス1サーバにおける健全率(0.0)およびインパクト値(1.00)も同様に、Webグループサーバ、APグループサーバ、およびDB1グループサーバそれぞれの健全率およびインパクト値に基づき算出される(図3)。
【0042】
本実施形態の監視制御サーバ20では、ビジネスサービスシステム(ネットワーク)を構成する各ノードの論理的な構成に基づき、ノード異常発生時において系全体がどの程度正常にサービスを提供しているかの健全率を求め、さらには、その健全率に基づき各ノードがどの程度系全体に対する影響を与えるかを算出することができる。
そのインパクト値を基にすれば、システム管理者は、ビジネスサービスシステムにおけるノードに対する適切な対処優先度を判断することが可能になる。
【0043】
尚、本発明に述べる健全率の計算式は、信頼性工学における故障率の計算式と同等または類似のものであるものとする。
また、一般に信頼性工学では、各ノードの故障率は静的に定まっており、それらに基づいて系全体の故障率を求めるが、本実施形態では故障率を求めるのではなく、各ノードの稼働状況が動的に変化するシステムにおいて、ある時点でのビジネスサービスがどの程度の割合でサービスを提供できるかの健全性を求めるものである。
【0044】
また、本実施形態では、求めた健全率に基づき各ノードがどれくらいの割合で系にインパクトを与えているかを示す、各ノードのインパクト値を求める。
これにより、ノードの健全率が低いものは、系全体に対してより多くのインパクトを与えていると考えられる。
また、本実施形態では、予め取得したビジネスサービスシステムの論理構成を利用することにより、ビジネスサービスシステムを構成する各ノードの健全率とビジネスサービスシステム全体の健全動作に対するインパクト値の算出することができる。
【0045】
[実施形態の動作説明]
次に、本実施形態の動作について、その概略を説明する。
まず、健全率計算部11は、ビジネスサービスシステムから取得したアラートに基づき、ビジネスサービスシステムを構成する各ノードにおける健全動作率を算出する(健全動作率取得工程)。
次いで、健全率計算部11は、予め取得された前記ビジネスサービスシステムの論理トポロジに基づき、下位ノードと直属関係にある上位ノードの健全動作率の算出することにより、最上位ノードの健全動作率をビジネスサービスシステム全体の健全動作率として決定する(健全動作率算出行程)。
次いで、インパクト値計算部12は、各ノードで動作障害が生じた場合に各ノードが最上位ノードの健全動作率に対して及ぼす影響の度合いを示すインパクト値を前記前記各ノードの健全動作率に基づき算出する(インパクト値算出行程)。
【0046】
ここで、上記健全動作率取得工程、健全動作率算出工程、およびインパクト値算出工程については、その実行内容をプログラム化し、コンピュータに実行させるように構成してもよい。
【0047】
次に、本実施形態にかかる運用管理システムの動作について詳説する。
まず、システム監視管理部02が、被監視サーバ40のシステム監視部01を介して、ビジネスサービスシステム(図2)を構成する各ノードにおける動作状態を示す動作情報(アラート)を取得し、アラートストア04に格納する。
【0048】
健全率計算部11は、アラートストア04からホスト端末(下位ノード)の動作情報を取得すると共に、この動作情報に基づきホスト端末が通常動作状態にある度合いを示す健全率を算出する。
また、健全率計算部11は、算出したホスト端末の健全率を用いて、予め設定された論理トポロジに基づき、下位ノード(ここでは、ホスト端末)と直属関係にある親ノードの健全率を算出する。
【0049】
更に、健全率計算部11は、下位ノードと直属関係にある親ノードの健全率を算出していくことにより、ビジネスサービスシステムにおける最上位ノードであるビジネスサーバの健全率を、ビジネスサービスシステム全体の健全率として算出する。これにより、健全率計算部11は、サービスシステムにおける末端ノードから最上位ノードまで、順次、健全率を算出する。
【0050】
ここで、インパクト値計算部12は、算出された各ノードの健全率に基づき、各ノードで動作障害が生じた場合に最上位ノード(ビジネス1サーバ)の健全動作率、つまり、サービスネットワークシステム全体の健全率(サービス稼働率)に対して及ぼす影響の度合いを示す各ノードのインパクト値を算出し、インパクト値情報記憶部13に格納する。
ここで、各ノードのインパクト値は、例えば、最上位ノード(ビジネス1サーバ)の健全動作率を低下させる割合を示す値であってもよい。
【0051】
次いで、システム監視管理部02は、インパクト値情報記憶部13にインパクト値に基づき、ビジネスサービスシステムの動作異常(アラート)が検知された場合における対処優先度を示す情報を、監視端末30の運用管理画面に対して出力する。
【0052】
以上のように、本実施形態の運用管理システムでは、ビジネスサービスシステム(ネットワーク)を構成するノードにおける動作異常の発生時に、動作異常に対する対処処理を行うためのノード間の対処優先度を、常時算出することができ、更には、ノード単体の重要度ではなく、ビジネス全体としての影響度を基にした優先度を算出し出力表示することができるため、システム管理者(監視制御サーバ20のオペレータ)は、ビジネスサービスシステムのシステム構成に応じて、検出されたアラートに対する対処優先度を、適切に判断することを可能とする。
【0053】
また、本実施形態では、ビジネスサービスシステムの論理構成(ネットワーク構成)に変更があった場合でも、ビジネスサービスシステムの論理構成(ネットワーク構成)が定まった場合に、サービスシステム全体に対する各ノードの健全率およびインパクト値が再計算されるため、新たな論理構成に基づくノード間の優先度の再計算、監視ポリシー変更、新たな監視ポリシーの適用等を行うことなく、新たに設定された論理構成に基づくノードの優先度が一意に決定される。
つまり、ビジネスサービスを構成する論理トポロジを活用して、アラート発生時における各ノードの健全性と系全体へのインパクトを数値化して提示することができる。
【0054】
これにより、システム管理者(監視制御サーバ20のオペレータ)は、サービスシステムを構成する、各ノードにおける動作異常が系全体に対して及ぼす影響の度合いを把握することができ、且つ、その影響の度合いの順番に基づき動作異常に対しての対処を行うことを可能とする。
【産業上の利用可能性】
【0055】
本発明は、ノードにより構成され複数の階層構造を有する大規模なネットワークシステムの動作状態を、通信回線を介して遠隔管理するネットワーク管理システムに対して有用に適用することができる。
【符号の説明】
【0056】
01、51 システム管理部
02 システム監視管理部
03 運用管理画面
04 アラートストア
05 論理トポロジ
10 動作状態計算本体部
11 健全率計算部
12 インパクト値計算部
13 インパクト値情報記憶部
20 監視制御サーバ
30 監視端末
40、50 被監視サーバ

【特許請求の範囲】
【請求項1】
異なる複数のノード間の接続関係が階層構造を有し前記各ノードで行われる実行処理によりサービス提供を行うサービスシステムにおける動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置であって、
前記システム動作監視部は、
前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出する健全動作率取得手段と、
前記下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより前記下位ノードと直属関係にある前記上位ノードの健全動作率を算出すると共に前記サービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出手段と、
前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出するインパクト値算出手段とを備えたことを特徴とする運用管理装置。
【請求項2】
請求項1に記載の運用管理装置において、
前記健全率算出手段は、
前記論理トポロジにおける上位ノードおよび下位ノード間の接続状態が直列である場合に前記上位ノードにおける健全動作率を下位ノードの健全動作率の積として算出し、上位および下位ノード間の接続状態が並列である場合に前記上位ノードにおける健全動作率を下位ノードの健全動作率の相加平均として算出する演算機能を備えたことを特徴とする運用管理装置。
【請求項3】
請求項1または2に記載の運用管理装置において、
前記論理構成記憶部は、システム動作監視部により取得された前記各ノード直属のノードを示す接続ノード特定情報を記憶するノード特定情報記憶機能を備え、
前記健全率算出手段は、前記サービスシステムにおけるノードの接続関係が変更された場合に、前記接続ノード特定情報に基づき前記サービスシステムの論理トポロジを更新する論理トポロジ更新手段を備えたことを特徴とする運用管理装置。
【請求項4】
請求項1または2に記載の運用管理装置において、
前記インパクト値算出手段は、前記ノードの健全動作率が検知されないことにより前記各ノードのインパクト値が算出できない場合に、前記各ノードのインパクト値として予め設定された値より大きい値を前記インパクト値として設定する暫定インパクト値設定機能を備えたことを特徴とする運用管理装置。
【請求項5】
異なる複数のノード間の接続関係が階層構造を有し前記ノード間で通信が行われることによりサービス提供を行うサービスシステムの動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置にあって、前記動作異常に対する前記各ノードの処理優先度を決定する運用管理方法であって、
前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出し、
前記下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより前記下位ノードと直属関係にある前記上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出し、
前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出することを特徴とした運用管理方法。
【請求項6】
異なる複数のノード間の接続関係が階層構造を有し前記ノード間で通信が行われることによりサービス提供を行うサービスシステムの動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置にあって、前記動作異常に対する前記各ノードの処理優先度を決定するための運用管理プログラムであって、
前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出する健全動作率取得機能と、
前記下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより前記下位ノードと直属関係にある前記上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出機能と、
前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出するインパクト値算出機能とをコンピュータに実行させることを特徴とした運用管理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate