説明

分散資源監視システム、方法および装置

【課題】階層的な情報処理を実施する広域分散配置された複数の処理ノードの詳細な性能情報の取得と障害発生部位の特定を可能とする。
【解決手段】管理サーバ14と、複数の処理ノード11、12、13からなる分散資源がネットワーク15、16、17を介して階層的情報処理を実施してサービスを提供する。複数の処理ノード11、12、13は、情報処理を実施する本番アプリケーション(AP)111と、本番APの動作を模擬する擬似APを備え、サービスに対応する擬似パケットを受信した際、擬似APが、擬似パケットに順序情報を付加して他の処理ノードに送信する。管理サーバ14は、複数の処理ノードの擬似AP各々が擬似パケットを送受信したときの稼動情報を取得し、取得した順序情報と稼動情報に基づき、ネットワーク上の障害部位を推定する。

【発明の詳細な説明】
【技術分野】
【0001】
社会基盤に適用される情報システム、特に広域分散資源利用を行うシステムの性能・障害監視を行う技術に関する。
【背景技術】
【0002】
電子マネーや鉄道制御、電力制御のように情報通信技術(Information and Communication Technology:ICT)利用のサービスが普及し社会基盤の一部となっている。社会基盤を支えるICTには、増加し続けるデータや処理要求に対して、高信頼かつ低遅延な応答が必要となる。さらに、昨今の社会的、地球的要請から、ICTにもエネルギー効率の向上が求められている。また、社会基盤を支えるシステムである以上は、障害を含む稼動状況や性能の監視も必要不可欠である。
【0003】
従来のICTシステムを対象とした稼動状況(障害含む)や性能を監視する方法として、以下にあげる3つの従来技術がある。これらは、主にデータセンタや企業内の情報システムを対象とした監視技術である。
【0004】
まず、第1の従来技術として、監視対象となる情報システムに対し、一般ユーザと同等のアクセス手段により仮想的な利用を実施することにより、情報システムが正常動作しているか否かの障害監視、及び応答時間による性能監視が可能とする方法がある。
【0005】
また、第2の従来技術として、監視対象となる情報システムを構成する個々のサーバやルータ、ストレージを対象として、資源の利用状況を監視する方法がある。本方法は各機器の性能関連のデータを統計的に収集することで情報システムの性能や障害監視を可能とする。
【0006】
更に、第3の従来技術として、仮想的な利用を行うのに際し、多数のユーザを模擬するストレステストのプログラムを利用する方法がある。これにより、情報システムの耐負荷性能の監視を可能とする。
【0007】
以上のような先行技術文献としては、例えば特許文献1、2、3等がある。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特表2005−506605号公報
【特許文献2】特開2003−283565号公報
【特許文献3】特開2000−315198号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
第一の従来技術では、外部からの仮想的な利用に基づく監視を行うため、情報システム内部の動作について詳細な性能情報が得られない。さらに、障害発生時においても、情報システムのどの部分で障害は発生しているか判定不能である。また、広域分散し、階層的な情報システムでは情報処理要求元の位置に依存した要求を発生させなければならず、実現が困難となる。また、実サービスとの独立性が保たれていないため、障害を伴う監視においては社会への影響を鑑みると実サービスを停止せざるをえない。
【0010】
第二の従来技術では、機器毎の詳細な統計的性能情報が取得可能であり、障害発生部位の特定、ある程度の動作推定が可能ではあるが、特定の処理要求に対する個々の機器の動作との関連付けが不明であり「推定」の域を出られない。
【0011】
第三の従来技術では、情報システムの耐負荷性を判定するのみであり、障害監視には利用できない。また、社会基盤を支える情報処理システムでは、耐負荷性確認を行うと社会基盤を麻痺させる可能性があるため、実施不可である可能性が高い。
【0012】
本発明の目的は、分散配置される情報通信機器の稼働状況や性能を、稼働する実業務に影響を与えることなく測定する分散資源監視システムを提供することにある。
【0013】
本発明の他の目的は、サービスを実現するアプリケーションやデータに変更を加えず、広域分散された情報システムの詳細な性能情報を得つつ、障害発生時に正確な部位の特定を可能にする性能・障害の監視方法、及び装置を提供することにある。
【課題を解決するための手段】
【0014】
上記の目的を達成するため、本発明においては、管理サーバと、複数の処理ノードからなる分散資源がネットワークを介して階層的な情報処理を実施して所望のサービスを提供する分散資源の監視システムであって、複数の処理ノードは、情報処理を実施する本番アプリケーションと、本番アプリケーションの動作を模擬する擬似アプリケーションを備え、サービスに対応する擬似パケットを受信した際、擬似アプリケーションが、擬似パケットに順序情報を付加して、他の処理ノードに送信し、管理サーバは、複数の処理ノードの擬似アプリケーション各々が擬似パケットを送受信した際の稼動情報を取得し、取得した擬似パケットの順序情報と稼動情報を評価することにより、ネットワーク上の障害部位を推定する分散資源監視システムを提供する。
【0015】
また、上記の目的を達成するため、本発明においては、複数の処理ノードからなる分散資源がネットワークを介して階層的な情報処理を実施してサービスを提供するシステムにおける障害発生部位を推定する分散資源監視方法であって、複数の処理ノードに情報処理を実施する本番アプリケーションと、本番アプリケーションの動作を模擬する擬似アプリケーションを設定し、処理ノードはネットワークを介して提供するサービスに対応する擬似パケットを受信し、擬似アプリケーションが模擬動作の後、擬似パケットに順序情報を添付し、他の処理ノードに順次送信し、管理マネージャは、複数の処理ノードの擬似アプリケーション各々が擬似パケットを送受信したときの稼動情報を取得し、取得した擬似パケットの順序情報に基づいて稼動情報を評価することにより、ネットワーク上の障害部位を推定する分散資源監視方法を提供する。
【0016】
更に、上記の目的を達成するため、本発明においては、複数の処理ノードがネットワークを介して階層的な情報処理を実施して所望のサービスを提供するシステムの分散資源監視装置であって、それぞれ情報処理を実施する本番アプリケーションと、本番アプリケーションの動作を模擬する擬似アプリケーションを備えた複数の処理ノードが、サービスに対応する擬似パケットを受信し、擬似アプリケーションが擬似パケットに順序情報を付加して、他の処理ノードに送信する際の順序情報と稼働情報を収集し、取得した擬似パケットの順序情報と稼動情報に基づき、障害部位を推定する分散資源監視装置を提供する。
【0017】
すなわち、上記の目的を達成するため、本発明においては、階層的な情報処理を実施する広域分散配置された処理ノード内において、本番アプリケーションと同一資源上に擬似アプリケーションを配置し、この擬似アプリケーションにより処理の流れを模擬することにより、詳細な性能情報から、問題となる処理経路の特定や、障害部位を特定することを可能にする。
【発明の効果】
【0018】
本発明によれば、分散配置される情報通信機器の稼働状況や性能を、稼働する実業務に影響を与えることなく測定する分散資源監視システムを提供することができる。また、サービスを実現するアプリケーションやデータに変更を加えず、広域分散された情報システムの詳細な性能情報の取得、障害発生部位の特定を行う性能・障害監視方法、及び装置を提供することができる。
【図面の簡単な説明】
【0019】
【図1】第1の実施例に係る、性能・障害監視システムの一構成例を示す図である。
【図2】第1の実施例に係る、監視システムが適用される情報処理システムの一例を示す図である。
【図3】第1の実施例に係る、性能・障害監視システムの機能動作を模式的に示した図である。
【図4】第1の実施例に係る、性能・障害監視システムの処理フローを示すフローチャート図である。
【図5】第1の実施例に係る、処理サーバの擬似APの一構成例を示す図である。
【図6】第1の実施例に係る、管理サーバの管理マネージャの一構成例を示す図である。
【図7】第1の実施例に係る、性能・障害監視システムに用いるパケットの一構成例を示す図である。
【図8】第1の実施例に係る、擬似アプリケーション(Application;AP)の擬似パケット受信時の処理の詳細フローを示す図である。
【図9】第1の実施例に係る、擬似パケットの流れを説明するための図である。
【図10】第1の実施例に係る、管理マネージャ141の処理フローを示す図である。
【図11】第1の実施例に係る、性能・障害監視システムが適用される実際の情報処理システムの他の構成例を示す図である。
【図12】第1の実施例に係る、擬似APの動作のバリエーションのテーブルを示す図である。
【図13】第1の実施例に係る、擬似APの滞在時間のバリエーションのテーブルを示す図である。
【図14A】第1の実施例に係わる情報処理システムの処理の流れの全体を説明するシーケンス図である。
【図14B】第1の実施例に係わる情報処理システムの処理の流れの全体を説明するシーケンス図である。
【図15】第1の実施例に係わる、情報処理システムの具体的構成の一例を示す図である。
【図16】第1の実施例に係わる、稼働情報蓄積部に蓄積される種々の稼働情報のテーブル例を示す図である。
【発明を実施するための形態】
【0020】
以下、本発明を実施するための形態を図面に従い説明する。なお、本明細書において、階層的情報処理とは、実世界における所望のサービスを複数のアプリケーション(Application;AP)が実現する処理を言う。好適にはこの複数のAPは、ネットワークに接続される複数の処理ノードで実行されるものであり、本明細書においては、特に本番APと称する。個々のサービスでは、実世界で取得した情報を元に複数の処理ノード内の本番APが連携して情報処理を行い、処理結果を実世界にフィードバックする。
【0021】
また、同一資源上(筐体、ブレード、中央処理部、メモリなど)の擬似APが本番APの動作を模擬し、サービスが利用している経路を特定する。さらに、擬似APはデータ送受信時の時刻を次の処理ノードへの送信パケットに付加し、その時刻周辺の稼動情報を処理ノード内に蓄積する。蓄積した各処理ノードの稼動情報を管理サーバ内の管理マネージャが収集し、関連付けを行うことでサービスの一連の情報処理の流れを追うことが可能になり、障害発生時における問題部位の特定を可能にできる。
【実施例1】
【0022】
第1の実施例は、階層的な情報処理を実施する広域分散配置された複数の処理ノード内において、本番APと同一資源上に擬似APを配置し、処理の流れを模擬することにより、問題となる処理経路の特定と、詳細な性能情報から障害部位を特定する性能・障害監視システムである。
【0023】
図1に第1の実施例の性能・障害監視システムの概要を示す図である。同図において、11、12、13は広域に分散配置された処理ノード、14は管理サーバ、15、16、17は公衆網・イントラネットなどのネットワークを示している。この広域に分散配置された複数の処理ノード11、12、13にまたがって複数の情報処理APである本番APが連携することにより各種のサービスを提供する。処理ノード11、12、13では、各々の情報処理結果に応じ、処理結果の送信先がそれぞれ発生する。
【0024】
処理ノード11は、本番AP111、擬似AP112、オペレーティングシステム(Operating System;OS)あるいはAP実行基盤113、ハードウェア114で構成される。ハードウェア114は、記憶部であるメモリ(Memory;MM)115、入出力部(Input/Output;I/O)116、処理部である中央処理部(Central Processing Unit:CPU)117、記憶部であるハードディスクドライブ(Hard Disk Drive:HDD)118、ネットワークとのインタフェース(Interface;I/F)119から構成される。他の処理ノード12、13、管理サーバ14のハードウェア構成も同様であり、後でその一例を示す。管理サーバ14上では管理マネージャ141が動作する。
【0025】
図1の性能・障害監視システム構成において、実サービスでは、実世界で取得した情報を元に処理ノード11、12、13内の各本番APが連携して情報処理を行い、処理結果を実世界にフィードバックする。また、処理ノード11、12、13において、本番APの動作を模擬する擬似APが動作する。処理ノード11を例に説明すると、ハードウェア114からなる同一資源上の擬似AP112が本番AP111の動作を模擬し、サービスが利用している経路を特定する。すなわち、本実施例における擬似AP112は、情報処理を担う本番AP111と同一資源を利用し、本番AP111の動作を模擬しつつ稼動情報を集約する機能を提供する。
【0026】
また、擬似AP112はデータ送受信時の時刻を次の処理ノードへの送信パケットに付加し、その時刻周辺の稼動情報を処理ノード11内に蓄積する。蓄積した各処理ノード11、12、13の稼動情報を管理サーバ14内の管理マネージャ141が全て収集し、関連付けを行うことでサービスの一連の情報処理の流れを追うことが可能になり、障害発生時における問題部位の特定を可能にする。
【0027】
ここで、本実施例における本番APによる具体的なサービスについて一例を挙げて説明する。本番APの具体的なサービスとしては、例えば公的な映像監視や、企業によるセキュリティサービスなどがある。このような監視サービスにおいて、中央監視室では各拠点の映像監視を行っているが、人の目では高々数か所の映像を監視するのがせいぜいである。そこで、階層化な監視処理を行うことにより、問題行動を起こした監視対象である被写体を自動的に検知し、中央監視室のディスプレイにアラート表示する。このときの管理ノード14の役割は、処理ノード11、12、13やネットワーク15、16、17の障害を事前に検知して、サービスが停止しないような対策を実施することにある。
【0028】
本システム構成では、監視映像の階層化処理により常に各拠点からの映像を中央監視室に送信する必要はない。ただ、問題行動を起こした被写体を検知した場合には、優先的に中央監視室へ当該映像を送信し、監視室のディスプレイに表示する必要が出てくる。このとき、本システムでは、例えば、処理ノード11で取得した映像データをいくつかの処理ノード12、13等を経て、中央監視室まで送信する際のネットワーク帯域の確保、送信データの優先度切替、他拠点から送信されてくる映像データとのネットワークパス調停等が必要となる。
【0029】
上記の具体的な監視サービスを例にとって、本実施例の階層化処理機能をより詳細に説明する。従来のシステムでは、処理ノード11のカメラ映像は全て中央監視室へ送信していたが、本実施例の性能・障害監視システム構成において、中間に分散配置された処理ノードで処理を実施することにより、必要な分だけの映像データを中央監視室へ送信することが可能になる。つまり、ネットワーク帯域を無駄に消費することなくなり、これまでと同じネットワーク帯域でさらに多くの拠点を監視することが可能になる。
【0030】
監視サービスを行う本システムの処理フローの一例は下記の通りである。
【0031】
(1)処理ノード11には、例えばWebカメラと人感センサが搭載され、人感センサ情報と、カメラ映像データをパケットとして送信するAPが搭載されている。
【0032】
(2)処理ノード12には、カメラ映像データから被写体の問題行動の検知する検知APが搭載されている。
【0033】
(3)処理ノード11でセンサの近くに人が来たのを検知し、カメラ映像データを処理ノード12へ送信開始する。
【0034】
(4)処理ノード12の問題行動検知APによって取得した映像を処理し、問題行動と判断された映像を中央監視室へ送信する。問題行動と判断されなかった場合には、処理ノード12で映像を終端し、中央監視室への送信は行われない。このような階層化処理により、ネットワーク帯域を無駄に消費することなくなり、これまでと同じネットワーク帯域でさらに多くの拠点を監視することが可能になる。このような本実施例が適用される実際の情報処理システムは、色々な構成を取りうる。
【0035】
図2は、本実施例の性能・障害監視システムが適用される実際の情報処理システムの一構成例を示している。同図において、21〜28は処理ノードで、図1の処理ノード11,12、13等に対応する。29は公衆網・イントラネットなどのネットワークを示す。処理ノード21〜28の内、幾つかの処理ノード21、22、23、24等は、上述のように実世界30に存在する各種の通信端末として機能するセンサ31、32やアクチュエータ33、34、或いはWebカメラ等からセンシング情報、映像データを受信し、また制御情報を送信する。
【0036】
図11に本実施例の性能・障害監視システムが適用される実際の情報処理システムの他の構成例を示した。同図において、処理ノード1101、1102、1103、1104の内、処理ノード1101、1102は情報処理が可能なインテリジェントノードであり、処理ノード1103、1104は広域ネットワーク1105に接続された情報処理が可能なデータセンタなどのサーバである。処理ノード1101、1102が接続されるローカルネットワーク1107、1108には、センサやカメラなどの各種の通信端末1109が接続される。また、ローカルネットワーク1207には情報のフィルタ機能を有するエッジノード1210が接続され、このエッジノード1110を介して、通信端末である複数のセンサ1111、1112、アクチュエータ1113との間で、センシング情報の吸い上げや、制御情報の伝達を行う。このような情報処理システムにおいては、エッジノード1110、処理ノード1101〜1104が、図1における処理ノード11、12、13に対応し、管理サーバ1106は管理サーバ14に対応する。
【0037】
続いて本実施例の性能・障害監視システムの機能動作を模式的に示した図である図3に基づき、本実施例の処理ノード11、12、13による情報処理の連携によりサービスを行う情報処理システムの性能・障害監視方法を具体的に説明する。
【0038】
図3は、図1で説明した、分散配置された複数の処理ノード11、12、13内において、本番APと同一資源上に擬似APを配置し、処理の流れを模擬するためのシステム構成を示している。なお、処理ノード11、12、13の各ハードウェア構成は図1に示した処理ノード11のハードウェア構成と同様な構成を有するが、図3においては主要な要素のみを簡略的に図示した。また管理サーバ14も図示が省略した。
【0039】
図3において、実世界中のアドレスDの端末(Address;Addr=D)から本番系処理時のパケットが入力され、処理ノード11、12、13での本番AP111、121、131による情報処理の結果、本番パケットが実世界の端末(アドレス=D)に送出される。同様に、擬似パケットが端末(Addr=D)から入力し、処理ノード11、12、13における擬似AP112、122、132による模擬処理の結果に基づき、擬似パケットが端末(Addr=D)に送出される。
【0040】
図3に示したように、本番AP111の送信先アドレスBは、処理ノード11内の擬似AP112に、滞留時間(0.4)と共に、本番AP111の所有者であるユーザや管理者から入手して実装される。同様に、処理ノード12、処理ノード13の情報処理である本番AP121、131の送信先アドレスC、アドレスDは、それぞれの滞留時間(0.1)、(0.2)と共に擬似AP122、132に設定される。なお、送信先アドレスや滞留時間等のデータは、ユーザから入手する代わりに、各処理サーバにおいて、後で説明するように本番APを一定時間モニタリングして、滞留時間とその送信先を推定しても良い。
【0041】
図4に本実施例の全体処理シーケンスを説明する概略フローチャートを示した。図4において、性能・障害監視の処理フローが開始すると、まず管理マネージャ141が各処理ノード11、12、13に対して擬似APを設定する(ステップ41、以下括弧内ではステップを省略)。続いて、実世界中の該当するクライアント端末が後で説明する擬似パケットを送信する(42)。各処理ノードは、該当する擬似パケットの送受信時に擬似APで階層的に情報処理されたことを識別できる情報処理順序情報を擬似パケットに付与する(43)。
【0042】
擬似APは擬似パケット送受信時の処理ノードの稼働情報を取得する(44)。擬似パケットを受信した処理ノードが擬似パケットを蓄積する(45)。管理マネージャ141が、各擬似APが擬似パケットを送受信したときの稼働情報を取得する(46)。管理マネージャ141は、クライアント端末が受信した擬似パケットの情報処理順序情報を元に処理ノードの稼働情報を取得する(47)。管理マネージャ141は取得した稼働情報を評価してネットワーク上の障害部位を推定する(48)。
【0043】
本実施例の性能・障害監視処理シーケンスにおいて、ステップ42でクライアント端末が擬似パケットの送信を行うが、この擬似パケットは、クライアント端末に提供するサービス品質を評価し、品質に問題となる箇所を特定するための情報を提供するものである。この擬似パケットにより通信時間、情報処理時間の内訳を明確にし、遅延が発生している処理ノードやネットワークを調査することが可能になる。よって、サービスそのものの問題点を調査することよりも、サービスが動作するプラットフォームに問題がないかを調査するためのツールとして機能する。
【0044】
また、この擬似パケットは複数の処理ノード上の情報処理を経由することで、ノード識別子及び到着時間と送出時間をペイロードに追記していき、End-to-Endを流れた擬似パケットを管理ノード14が集計し、管理マネージャ141が持つシステムのネットワークトポロジーと照らし合わせ経路情報と遅延の原因となる滞留箇所を調査する。
【0045】
本実施例の性能・障害監視システムにおいて、End-to-Endは実世界に存在し、サービスを利用するクライアント端末、通信端末がこのEndの部分である。すなわち、End-to-Endとはクライアント端末がサービスに対してリクエストを送信し、応答が帰ってくるまでの区間を想定している。そのため擬似パケットの送出/受信元は実世界に擬似パケットを送出/受信する情報処理装置である端末を配置する。あるいは、次に近い処理ノードの管理ミドルウェアから処理ノード上のアプリケーションに対して擬似パケットを入力する方法もある。
【0046】
前者は、実サービスの利用と同じ状況で検証が可能であり、より精度のよい検証が可能になるが検証の際に、処理ノード11が存在する場所へ赴き、擬似パケットを入力する必要がある。一方、後者は検証の処理ノードに擬似パケットを送出/受信する仕組みを配置することになるが、すべての操作が管理ノードの操作で終わるため検証が容易である。この場合、擬似APのデプロイ(41)と同時に、送信する擬似パケットもデプロイされる。各種設定および擬似アプリのインストールの実行に加え、処理ノード11の管理ミドルウェアに擬似パケットを登録する。管理ミドルウェアは各処理ノードにおいて管理ノード14とのインタフェースを持つソフトウェアであり、管理ノード14からのサービス開始指示により、擬似APが入力待ちの状態になり、処理ノード11の管理ミドルウェアに登録された擬似パケットを入力データとして擬似APに流し込む処理を実行する。
【0047】
図5に実施例1の性能・障害監視システムにおける擬似APの一実施例を示した。同図において、51、52、53はそれぞれ稼動情報蓄積部、擬似AP、擬似パケット蓄積部を示す。稼動情報蓄積部51、擬似パケット蓄積部53は先に説明したハードウェアの記憶部に形成される。擬似AP112はパケット到着時刻採集部54、稼動情報採集部55、本番AP動作模擬部56、パケット送信時刻採集部57、採取データ保持部58、管理マネージャIF部59、プロファイル情報付与部60の各機能ブロックで構成される。これらの機能ブロックはハードウェアの処理部で実行されるプログラムで構成される。
【0048】
図6に、同様に実施例1の性能・障害監視システムにおける管理マネージャの一実施例を示した。同図において、61、62はそれぞれ採取データ蓄積部、管理マネージャを示し、管理マネージャ62は、採取データ収集部63、擬似API/F部64、擬似AP制御部65、採取データ関連付け処理部66の機能ブロックからなる。この機能ブロックの詳細は後で説明する。
【0049】
図7に、本実施例の情報処理システムで用いられるパケットの構成の一例を図7に示した。図7の71は通信ヘッダ部、72はペイロード部を示す。ペイロード部72は、情報処理順序情報#1−−−#nが順次記録される。この情報処理順序情報73は、ノード識別情報74、サービス識別情報75、アプリケーション識別情報76、受信時刻情報77、送信時刻情報78から構成される。
【0050】
さて図5に戻り、擬似AP52の本番AP動作模擬部56では、本番AP111による情報処理の典型的な処理時間(無負荷時の時間など)分をスリープする等して、本番AP111に影響のない形で消費し模擬する。当該時間は、管理サーバIF部59経由で模擬負荷として指定する。すなわち、本番AP動作模擬部56は、管理マネージャIF部59を経由して、管理マネージャ14から擬似AP52の送信先指定、模擬負荷を指示される。この送信先指定は、送信先固定、一定確率での送信先振り分け、条件指定型複数送信先振り分け(メモリ使用率が閾値が超えたなど)、複数送信(送信先固定)、複数送信(送信先が一定確率で変化)などが存在する。また、模擬負荷は、スリープ処理時間を指定、一定確率でスリープ時間が変化、本番APの稼働状況を反映(リアルタイム、非リアルタイムなど)などが存在する。
【0051】
パケット到着時刻採取部54は、情報処理を行う処理ノードであるサーバにパケットが到着した時間を、採取データ保持部58にて保持するよう機能する。また、パケット送信時刻採取部57は、到着時のCPUやメモリ、IOの利用率か稼動情報(障害情報含む)、本番AP動作模擬部56での時間消費の後、管理マネージャIF部59経由で、指定される送信先に処理要求(パケット)を送信する際の時刻を、採取データ保持部58にて保持するよう機能する。なお、指定される送信先が複数ある場合には実動作に基づく確率ベースで送信先決定を行う。
【0052】
模擬AP52の採集データ保持部58は、各採取部54、57採取されたデータをwrap aroundで記録しつづけるとともに、障害発生などのイベント発生時にはwrap aroundを停止するよう機能する。どのようなイベントで採取を停止するかは管理マネージャIF部59経由で指定する。なお、プロファイル情報付与部60は、後で説明するように、受け取った擬似パケットのペイロード部72に処理ノードの識別子と一次記憶した受信時刻情報と送信時刻情報を付与する機能である。
【0053】
擬似パケット蓄積部53では、受信した擬似パケットをその受信時刻情報、送信時刻情報とともに保持する。送信時刻情報は、パケット送信時刻採取部57から直接記憶するように構成できる。それと共に、管理マネージャIF部59を介して、管理マネージャ14に擬似パケット情報を送信する。擬似パケット情報は、管理マネージャ14で、どのパスを通って、すなわちどの処理ノードを経由してサービスが提供されているかを調査する情報として利用する。また、管理マネージャ14と各処理ノードの時刻差を補正することで、ネットワークの遅延箇所を調査する情報として利用する。
【0054】
稼動情報蓄積部51では、パケット到着時刻採取部54が擬似パケットを受信したタイミングから任意時間までのハードウェア稼働情報やネットワークの統計情報を蓄積する。収集については稼働情報採取部55が行う。ハードウェア稼働情報はたとえば、CPUやメモリ、IOの利用率、障害情報などを想定している。また、ネットワークの統計情報は、RFC1213に規定されるMIB(Management Information Base)などの統計情報を用いることができる。
【0055】
図16の1601〜1604は、それぞれ処理ノード11のHDD118中の稼働情報蓄積部51に蓄積される、サーバ稼働情報、プロセス稼働情報、ネットワーク稼働情報、ストレージ稼働情報のテーブルの一例を示した。サーバ稼働情報1601は図示の通り、サーバ稼働についての種々の情報を、プロセス稼働情報1602は、プロセス稼働についての種々の情報を、ネットワーク稼働情報1603は、ネットワーク稼働についての種々の情報を、ストレージ稼働情報1604は、記憶部であるストレージ稼働を示す種々の情報を蓄積する。
【0056】
図8は、擬似AP52の擬似パケット受信時の処理の詳細フローを示している。本詳細フローは、図4に示した本実施例の全体フローのステップ43〜45に対応している。
【0057】
さて、処理ノードの擬似AP522は、クライアント端末が送信した擬似パケット受信(801)すると、パケット到着時刻採取部54が時刻情報取得装置127から現在時刻を取得し、パケット受信時刻情報として一次記憶(802)する。稼働情報採取部55は、CPU負荷率、ネットワークスループット、メモリ使用率、HDD使用量等の処理ノードの稼働情報の収集を開始(803)する。
【0058】
本番AP動作模擬部56は、擬似パケットが送信される前に、管理マネージャIF部59を経由して、管理マネージャ141から送信されてきた模擬動作指示を実行(804)する。これにより、処理ノード11において、模擬動作が実行(805)される。この稼働情報は、アプリケーションのデプロイ時に管理マネージャ141から設定された滞留時間分、擬似AP52内で滞留すると、管理マネージャ141に事前に指示された送信先IPアドレスへ擬似パケットとして送信する。
【0059】
パケット送信時刻採取部57は、時刻情報取得装置127から現在時刻を取得し、擬似AP52内部に送信時刻情報として一時記憶(806)する。擬似パケット送信時において、パケット送信時刻情報をログに出力し、プロファイル情報付与部60は、受け取った擬似パケットのペイロード部に、処理ノードの識別子と一時記憶した受信時刻情報と送信時刻情報を付与(807)し、情報を付与した擬似パケットを送信する(808)。
【0060】
以上説明した擬似AP52の本番AP動作部模擬部56がどのように本番APをモニタするかについて、その動作内容を説明する。
【0061】
(1) サービス管理者が擬似APの動作定義データを作成し、指定する。
【0062】
(2) 本番APをモニタリングし、送信元に対する送信先の確率分布を求める。モニタリングは、本番APを監視する管理ミドルウェアが行い、モニタリング結果を一定周期で管理マネージャ141が収集する。管理マネージャ141は収集結果から、本番APごとに動作定義データ(送信元のIPアドレス、滞留時間、送信先アドレス1、確率1、送信先アドレス2、確率2・・・)を作成し、擬似AP52の本番AP動作模擬部56に送信する。
【0063】
この動作定義データは、処理の開始時に擬似APの管理マネージャIF部59を通して各擬似APが受信し、本番AP動作模擬部56に登録する。サービス管理者が指定する場合には、振る舞い動作データを作成して、各擬似APへ振る舞い動作データを送信する。
【0064】
この動作定義データフォーマットの一例は下記の通りである。
<time=滞留時間&送信元IPアドレス数=2&送信元IPアドレス1=xxx.xxx.xxx.xxx&送信元IPアドレス2=yyy.yyy.yyy.yyy&送信先IPアドレス数=2&送信先アドレス1=zzz.zzz.zzz.zzz&確率1=10&送信先アドレス2=qqq.qqq.qqq.qqq&確率2=90>
ここで、動作定義データの動作のバリエーションを図12のテーブル1201に示した。番号1〜4に動作のバリエーションを示したが、その動作の内容は図示の通りである。また、同様に、滞留時間のバリエーションを図13のテーブル1301に示した。番号1〜4に滞留時間のバリエーションを示したが、その時間の内容は図示の通りである。
【0065】
図9は、本実施例において、各処理ノード11、12、13での処理の結果、プローブパケットとして機能する擬似パケットがどの様に転送されていくかを示している。同図において、94、95、96、97はそれぞれ順次転送されるパケットを示している。パケット94は実世界から最初に転送される擬似パケットを示している。図7に示した通信ヘッダ部71に、宛先が記述され、ペイロード部72には処理ノード11、12、13を経由する度に、情報処理順序情報が追加されていく。例えば、実世界の端末(アドレス=D)に送られる擬似パケット97には、処理ノード11、12、13で記録された情報処理順序情報が全て記述されていることになる。
【0066】
続いて、図10に示した、管理マネージャ141の処理フローに基づき、本実施例の管理マネージャ141の動作を説明する。
【0067】
同図において、管理マネージャ62の採取データ収集部63は、各処理ノードから擬似APが採取したデータを擬似API/F部64経由で収集する。擬似AP制御部65は、擬似APの次送信先アドレスや本番APの動作模擬情報を擬似APに送信する。例えば、滞留時間、確率による複数の擬似AP振り分けなどである。
【0068】
まず、採取データ収集部63が擬似API/F部64を介して各処理ノードの擬似AP52の擬似パケット蓄積部に蓄積された擬似パケット情報等を収集する(1001)。収集した各処理ノードの擬似パケット情報を採取データ蓄積部61に蓄積し(1002)、管理ノード14と各処理ノード11、12、13の時刻情報を補正する(1003)。採取データ関連付け処理部66は、擬似パケットに付与した時刻情報と各処理ノードの時刻補正により、サービスのroundtrip timeと擬似AP間の通信時間を算出する。また、同じタイミングでのネットワーク稼動情報、ハードウェア稼動情報を関連付けする。そして、採取データ関連付け処理部66で取得した擬似パケット情報を時刻情報順にソートし(1004)、ソート結果を図示を省略した表示部に提示する(1005)。
【0069】
以上説明した管理マネージャ構成における採取データ関連付け処理部66の処理内容を整理すると下記の通りである。
【0070】
(1)まず、採取データ収集部が擬似API/F部64を利用し、各擬似APからの擬似パケットのログを取得する。擬似パケットのログは擬似パケットの最終到着処理ノードから取得する。
【0071】
(2)採取データ収集部63が擬似API/F部64を利用し、各種稼働情報を取得し、採取データ蓄積部61に登録する。データ取得完了を採取データ関連つけ処理部66に通知する。
【0072】
(3)採取データ関連付け処理部61は、各処理ノードの時刻補正を行う。この補正の方法については、あとで説明するGPS(Global Positioning System)等の利用により補正することができる。
【0073】
(4)続いて、サービスのラウンドトリップタイムを算出する。このサービスのラウンドトリップタイムは擬似パケットが最初の擬似APに入力され、いくつかの擬似APを経由して、最終処理ノードに到着し、ログが出力されるまでの時間に対応する。
【0074】
(5)処理時間内訳を算出し、擬似AP間の通信時間を算出する。
【0075】
(6)擬似パケットが通過した時刻周辺のネットワーク稼働情報、擬似パケットが到着し、送出する周辺時刻のハードウェア稼働情報を採取データ蓄積部61から取得する。同時に同じ稼働情報取得場所での同データの統計情報を採取データ蓄積部61から取得する。
【0076】
(7)処理時間内訳と(5)で取得したネットワーク稼働情報とハードウェア稼働情報を割り付けし、グラフィカル・ユーザ・インタフェース(Graphical User Interface:GUI)で表示部に表示する。
【0077】
(8)擬似パケットが通過した時刻周辺の稼働情報(1)と統計情報とを比較する。滞留時間の分布を統計情報から求めた際に、ある一定範囲に(1)情報が入らなかった場合はエラー箇所としてGUIに表示などを行う。
【0078】
なお、上述した管理サーバ、処理ノードにGPSを搭載、もしくはGPSからの時刻情報を取得するI/Fを持つことで定期的にノードの時刻情報を更新することにより、時刻補正を実現することができる。これによって、広域的に分散配置された複数の処理ノードである場合でも、同様な方法によって時差分の時間差が無視できる。
【0079】
図14A、図14Bは、以上詳述した第1の実施例における情報処理システムにおける処理の流れの全体を説明するシーケンス図である。図14Aの処理に続いて、図14Bの処理が行われる。同図において、管理マネージャ1401、処理ノード1402、1403、1404はそれぞれ、管理マネージャ141、処理ノード11、12、13に対応する。
【0080】
図14Aにおいて、上述の図4を用いた説明のとおり、管理マネージャ1401は、まず処理ノード1402に擬似パケットを登録する(1405〜1407)。続いて、管理マネージャ1401は、それぞれの処理ノード1402、1403、1404に対して、サービス開始指示(1408、1411、1414)を行い、擬似APを起動(1409、1412、1415)する。その後、処理ノード1402の擬似APが擬似パケットを取得(1417)、送信時刻を付与(1418)、擬似パケット蓄積部に保持(1419)、稼働情報取得を開始する(1420)。そして、処理ノード1402の擬似APが擬似パケットを処理ノード1403に送信する(1421)。
【0081】
続いて、処理ノード1403の擬似APは擬似パケットを受信し、稼働情報取得開始、受信時刻、送信時刻の付与、擬似パケット蓄積部に保持し、擬似パケットを処理ノード1404に送信する(1422〜1427)。処理ノード1404においても同様な処理(1428〜1432)が行われる。
【0082】
更に、図14Bに移り、処理ノード1404が擬似パケットを処理ノード1403に送信(1433)すると、処理1434〜1442が実行される。
【0083】
以上の処理を受けて、管理マネージャ1401は各処理ノードに対してサービス停止指示を行い、稼働情報取得が停止される(1443〜1451)。その後、管理マネージャ1401は、各処理ノード1402、1403、1404から稼働情報と擬似パケット情報を取得し(1452〜1454)、採取データ蓄積部に保存(1455)する。そして、各処理ノード間の時刻情報の補正(1456)を行い、図示を省略した管理サーバ14のディスプレイ等の表示部に、擬似パケットが通過した経路及び処理/通過にかかった時間を重ねて表示する(1457)。管理サーバ14の管理マネージャ141を稼働するサービス管理者は、この表示データと統計情報と比較し、大きく異なっている箇所を特定したり、評価(1458)を行ったりする。これにより、上述したネットワーク上の障害部位を推定することができる。
【0084】
図15に、上述してきた本実施例の情報処理システムの具体的な構成の一例を示す。同図に見るように、LAN等のネットワーク150に処理ノード151と管理サーバ152が接続されている。このネットワーク150、処理ノード151、管理サーバ152は、上述した公衆網・イントラネット17、処理ノード11、12、13、及び管理サーバ14に対応している。管理サーバ152は、内部バス146に接続されたメモリ142、HDD等のデータ蓄積部143、ネットワークI/FであるLANアダプタ144、及びCPU145で構成されるコンピュータである。管理マネージャ62の内部は図6に示したとおりの機能構成を備えている。
【0085】
一方、処理ノード151は、図1に示したとおり、メモリ115、CPU117,データ蓄積部であるHDD118、LANアダプタ等のI/F119を有し、更にバス125にはI/F126を介して時刻情報取得装置127が接続されている。HDD118中には、図5で説明した稼働情報蓄積部51、擬似パケット蓄積部53が形成される。また、メモリ(MM)115中には、本番AP111と図5にその詳細を示した擬似AP112が記憶されている。
【0086】
なお、先に図11を用いて説明した情報処理システムにおいても、同様な具体的なシステム構成で構築されることは言うまでもない。
【0087】
以上本発明の実施例を説明したが、本発明は、以上説明した実施例に限定されるものでなく、階層的情報処理を行う他のシステムにも広く適用できる。
【産業上の利用可能性】
【0088】
本発明は、社会基盤に適用される情報システム、特に広域分散資源利用を行うシステムにおける、性能情報の取得、及び障害発生部位の監視を行う技術として有用である。
【符号の説明】
【0089】
11、12、13、21〜28、1101〜1104…処理ノード
14,1106…管理サーバ
15、16、17、1107、1108、150…ネットワーク
30…実世界
31、32、1111、1112…センサ
33、34、1113…アクチュエータ
62、141…管理マネージャ
71…通信ヘッダ部
72…ペイロード部
111、121、131…本番AP
52、112、122、132…擬似AP
113、123、133…OS又はAP実行基盤
114、124、134…ハードウェア
115、142…メモリ(MM)
116…I/O
117、145…CPU
118、143…HDD
119、144…I/F
1109…端末
1110…エッジノード。

【特許請求の範囲】
【請求項1】
管理サーバと、複数の処理ノードからなる分散資源がネットワークを介して階層的情報処理を実施してサービスを提供する分散資源監視システムであって、
複数の前記処理ノードは、
前記情報処理を実施する本番アプリケーションと、前記本番アプリケーションの動作を模擬する擬似アプリケーションを備え、
前記サービスに対応する擬似パケットを受信した際、前記擬似アプリケーションが、前記擬似パケットに順序情報を付加して、他の前記処理ノードに送信し、
前記管理サーバは、
複数の前記処理ノードの前記擬似アプリケーション各々が前記擬似パケットを送受信したときの稼動情報を取得し、取得した前記擬似パケットの前記順序情報に基づき前記稼動情報を評価することにより、前記ネットワーク上の障害部位を推定する、
ことを特徴とする分散資源監視システム。
【請求項2】
請求項1に記載の分散資源監視システムであって、
前記管理サーバは、前記ネットワークを介して、複数の前記処理ノードに前記擬似アプリケーションを設定する、
ことを特徴とする分散資源監視システム。
【請求項3】
請求項1に記載の分散資源監視システムであって、
前記管理サーバは、前記ネットワークを介して、複数の前記処理ノードにサービス停止指示を行い、前記サービス停止指示の後、前記処理ノード各々から前記稼働情報と前記擬似パケットを取得する、
ことを特徴とする分散資源監視システム。
【請求項4】
請求項1に記載の分散資源監視システムであって、
複数の前記処理ノードは、前記擬似パケットと前記稼働情報を蓄積する蓄積部を備え、前記蓄積部に蓄積した前記擬似パケットと前記稼働情報を前記ネットワークを介して、前記管理サーバに送信する、
ことを特徴とする分散資源監視システム。
【請求項5】
請求項1に記載の分散資源監視システムであって、
前記稼働情報は、サーバ稼働情報、ネットワーク稼働情報、ストレージ稼働情報を含む、
ことを特徴とする分散資源監視システム。
【請求項6】
管理サーバと、複数の処理ノードからなる分散資源がネットワークを介して階層的な情報処理を実施してサービスを提供するシステムの障害発生部位を推定する分散資源監視方法であって、
複数の前記処理ノードに前記情報処理を実施する本番アプリケーションと、前記本番アプリケーションの動作を模擬する擬似アプリケーションを設定しておき、
前記処理ノードは前記サービスに対応する擬似パケットを受信し、
前記擬似アプリケーションが、前記擬似パケットに順序情報を付加して、他の前記処理ノードに送信し、
前記管理サーバの管理マネージャが、
複数の前記処理ノードの前記擬似アプリケーション各々が前記擬似パケットを送受信したときの稼動情報を取得し、取得した前記擬似パケットの前記順序情報に基づき前記稼動情報を評価することにより、前記ネットワーク上の障害部位を推定する、
ことを特徴とする分散資源監視方法。
【請求項7】
請求項6に記載の分散資源監視方法であって、
前記管理マネージャは、前記ネットワークを介して、複数の前記処理ノードに前記擬似アプリケーションを設定する、
ことを特徴とする分散資源監視方法。
【請求項8】
請求項7に記載の分散資源監視方法であって、
前記管理マネージャは、前記処理ノードに設定された前記擬似アプリケーションの送信先指定、及び模擬負荷を指示可能である、
ことを特徴とする分散資源監視方法。
【請求項9】
請求項6に記載の分散資源監視方法であって、
前記処理ノードで動作する前記擬似アプリケーションは、前記擬似パケットを受信し、送信する間の前記処理ノードの前記稼働情報を収集する、
ことを特徴とする分散資源監視方法。
【請求項10】
請求項6に記載の分散資源監視方法であって、
前記管理マネージャは、前記ネットワークを介して、複数の前記処理ノードにサービス停止指示を行い、前記サービス停止指示の後、前記処理ノード各々から前記稼働情報と前記擬似パケットを取得する、
ことを特徴とする分散資源監視方法。
【請求項11】
複数の処理ノードがネットワークを介して階層的な情報処理を実施して所望のサービスを提供するシステムの分散資源監視装置であって、
それぞれ情報処理を実施する本番アプリケーションと、前記本番アプリケーションの動作を模擬する擬似アプリケーションを備えた複数の前記処理ノードが、サービスに対応する擬似パケットを受信し、前記擬似アプリケーションが前記擬似パケットに順序情報を付加して、他の前記処理ノードに送信する際の順序情報と稼働情報を収集する収集部と、
収集した擬似パケットの順序情報と稼動情報に基づき、障害部位を推定する処理部を備えた、
ことを特徴とする分散資源監視装置。
【請求項12】
請求項11に記載の分散資源監視装置であって、
前記ネットワークを介して、前記順序情報と前記稼働情報とを複数の前記処理ノードから受信するインタフェース部を備えた、
ことを特徴とする分散資源監視装置。
【請求項13】
請求項12に記載の分散資源監視装置であって、
前記インタフェース部と前記ネットワークを介して、前記擬似アプリケーションを複数の前記処理ノードに設定する擬似アプリケーション制御部を備えた、
ことを特徴とする分散資源監視装置。
【請求項14】
請求項11に記載の分散資源監視装置であって、
前記収集部と前記処理部として機能する管理マネージャと、収集した前記順序情報と前記稼働情報とを蓄積する蓄積部とから構成される、
ことを特徴とする分散資源監視装置。
【請求項15】
請求項11に記載の分散資源監視装置であって、
前記稼働情報は、サーバ稼働情報、ネットワーク稼働情報、ストレージ稼働情報を含む、
ことを特徴とする分散資源監視装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14A】
image rotate

【図14B】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2011−170411(P2011−170411A)
【公開日】平成23年9月1日(2011.9.1)
【国際特許分類】
【出願番号】特願2010−31012(P2010−31012)
【出願日】平成22年2月16日(2010.2.16)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成21年度、総務省、セキュアクラウドネットワーキング技術の研究開発 委託事業、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】