分散資源監視システム、方法および装置

【課題】階層的な情報処理を実施する広域分散配置された複数の処理ノードの詳細な性能情報の取得と障害発生部位の特定を可能とする。
【解決手段】管理サーバ１４と、複数の処理ノード１１、１２、１３からなる分散資源がネットワーク１５、１６、１７を介して階層的情報処理を実施してサービスを提供する。複数の処理ノード１１、１２、１３は、情報処理を実施する本番アプリケーション（ＡＰ）１１１と、本番ＡＰの動作を模擬する擬似ＡＰを備え、サービスに対応する擬似パケットを受信した際、擬似ＡＰが、擬似パケットに順序情報を付加して他の処理ノードに送信する。管理サーバ１４は、複数の処理ノードの擬似ＡＰ各々が擬似パケットを送受信したときの稼動情報を取得し、取得した順序情報と稼動情報に基づき、ネットワーク上の障害部位を推定する。

【発明の詳細な説明】
【技術分野】
【０００１】
社会基盤に適用される情報システム、特に広域分散資源利用を行うシステムの性能・障害監視を行う技術に関する。
【背景技術】
【０００２】
電子マネーや鉄道制御、電力制御のように情報通信技術（Information and Communication Technology：ＩＣＴ）利用のサービスが普及し社会基盤の一部となっている。社会基盤を支えるＩＣＴには、増加し続けるデータや処理要求に対して、高信頼かつ低遅延な応答が必要となる。さらに、昨今の社会的、地球的要請から、ＩＣＴにもエネルギー効率の向上が求められている。また、社会基盤を支えるシステムである以上は、障害を含む稼動状況や性能の監視も必要不可欠である。
【０００３】
従来のＩＣＴシステムを対象とした稼動状況（障害含む）や性能を監視する方法として、以下にあげる３つの従来技術がある。これらは、主にデータセンタや企業内の情報システムを対象とした監視技術である。
【０００４】
まず、第１の従来技術として、監視対象となる情報システムに対し、一般ユーザと同等のアクセス手段により仮想的な利用を実施することにより、情報システムが正常動作しているか否かの障害監視、及び応答時間による性能監視が可能とする方法がある。
【０００５】
また、第２の従来技術として、監視対象となる情報システムを構成する個々のサーバやルータ、ストレージを対象として、資源の利用状況を監視する方法がある。本方法は各機器の性能関連のデータを統計的に収集することで情報システムの性能や障害監視を可能とする。
【０００６】
更に、第３の従来技術として、仮想的な利用を行うのに際し、多数のユーザを模擬するストレステストのプログラムを利用する方法がある。これにより、情報システムの耐負荷性能の監視を可能とする。
【０００７】
以上のような先行技術文献としては、例えば特許文献１、２、３等がある。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特表２００５−５０６６０５号公報
【特許文献２】特開２００３−２８３５６５号公報
【特許文献３】特開２０００−３１５１９８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００９】
第一の従来技術では、外部からの仮想的な利用に基づく監視を行うため、情報システム内部の動作について詳細な性能情報が得られない。さらに、障害発生時においても、情報システムのどの部分で障害は発生しているか判定不能である。また、広域分散し、階層的な情報システムでは情報処理要求元の位置に依存した要求を発生させなければならず、実現が困難となる。また、実サービスとの独立性が保たれていないため、障害を伴う監視においては社会への影響を鑑みると実サービスを停止せざるをえない。
【００１０】
第二の従来技術では、機器毎の詳細な統計的性能情報が取得可能であり、障害発生部位の特定、ある程度の動作推定が可能ではあるが、特定の処理要求に対する個々の機器の動作との関連付けが不明であり「推定」の域を出られない。
【００１１】
第三の従来技術では、情報システムの耐負荷性を判定するのみであり、障害監視には利用できない。また、社会基盤を支える情報処理システムでは、耐負荷性確認を行うと社会基盤を麻痺させる可能性があるため、実施不可である可能性が高い。
【００１２】
本発明の目的は、分散配置される情報通信機器の稼働状況や性能を、稼働する実業務に影響を与えることなく測定する分散資源監視システムを提供することにある。
【００１３】
本発明の他の目的は、サービスを実現するアプリケーションやデータに変更を加えず、広域分散された情報システムの詳細な性能情報を得つつ、障害発生時に正確な部位の特定を可能にする性能・障害の監視方法、及び装置を提供することにある。
【課題を解決するための手段】
【００１４】
上記の目的を達成するため、本発明においては、管理サーバと、複数の処理ノードからなる分散資源がネットワークを介して階層的な情報処理を実施して所望のサービスを提供する分散資源の監視システムであって、複数の処理ノードは、情報処理を実施する本番アプリケーションと、本番アプリケーションの動作を模擬する擬似アプリケーションを備え、サービスに対応する擬似パケットを受信した際、擬似アプリケーションが、擬似パケットに順序情報を付加して、他の処理ノードに送信し、管理サーバは、複数の処理ノードの擬似アプリケーション各々が擬似パケットを送受信した際の稼動情報を取得し、取得した擬似パケットの順序情報と稼動情報を評価することにより、ネットワーク上の障害部位を推定する分散資源監視システムを提供する。
【００１５】
また、上記の目的を達成するため、本発明においては、複数の処理ノードからなる分散資源がネットワークを介して階層的な情報処理を実施してサービスを提供するシステムにおける障害発生部位を推定する分散資源監視方法であって、複数の処理ノードに情報処理を実施する本番アプリケーションと、本番アプリケーションの動作を模擬する擬似アプリケーションを設定し、処理ノードはネットワークを介して提供するサービスに対応する擬似パケットを受信し、擬似アプリケーションが模擬動作の後、擬似パケットに順序情報を添付し、他の処理ノードに順次送信し、管理マネージャは、複数の処理ノードの擬似アプリケーション各々が擬似パケットを送受信したときの稼動情報を取得し、取得した擬似パケットの順序情報に基づいて稼動情報を評価することにより、ネットワーク上の障害部位を推定する分散資源監視方法を提供する。
【００１６】
更に、上記の目的を達成するため、本発明においては、複数の処理ノードがネットワークを介して階層的な情報処理を実施して所望のサービスを提供するシステムの分散資源監視装置であって、それぞれ情報処理を実施する本番アプリケーションと、本番アプリケーションの動作を模擬する擬似アプリケーションを備えた複数の処理ノードが、サービスに対応する擬似パケットを受信し、擬似アプリケーションが擬似パケットに順序情報を付加して、他の処理ノードに送信する際の順序情報と稼働情報を収集し、取得した擬似パケットの順序情報と稼動情報に基づき、障害部位を推定する分散資源監視装置を提供する。
【００１７】
すなわち、上記の目的を達成するため、本発明においては、階層的な情報処理を実施する広域分散配置された処理ノード内において、本番アプリケーションと同一資源上に擬似アプリケーションを配置し、この擬似アプリケーションにより処理の流れを模擬することにより、詳細な性能情報から、問題となる処理経路の特定や、障害部位を特定することを可能にする。
【発明の効果】
【００１８】
本発明によれば、分散配置される情報通信機器の稼働状況や性能を、稼働する実業務に影響を与えることなく測定する分散資源監視システムを提供することができる。また、サービスを実現するアプリケーションやデータに変更を加えず、広域分散された情報システムの詳細な性能情報の取得、障害発生部位の特定を行う性能・障害監視方法、及び装置を提供することができる。
【図面の簡単な説明】
【００１９】
【図１】第１の実施例に係る、性能・障害監視システムの一構成例を示す図である。
【図２】第１の実施例に係る、監視システムが適用される情報処理システムの一例を示す図である。
【図３】第１の実施例に係る、性能・障害監視システムの機能動作を模式的に示した図である。
【図４】第１の実施例に係る、性能・障害監視システムの処理フローを示すフローチャート図である。
【図５】第１の実施例に係る、処理サーバの擬似ＡＰの一構成例を示す図である。
【図６】第１の実施例に係る、管理サーバの管理マネージャの一構成例を示す図である。
【図７】第１の実施例に係る、性能・障害監視システムに用いるパケットの一構成例を示す図である。
【図８】第１の実施例に係る、擬似アプリケーション（Application；ＡＰ）の擬似パケット受信時の処理の詳細フローを示す図である。
【図９】第１の実施例に係る、擬似パケットの流れを説明するための図である。
【図１０】第１の実施例に係る、管理マネージャ１４１の処理フローを示す図である。
【図１１】第１の実施例に係る、性能・障害監視システムが適用される実際の情報処理システムの他の構成例を示す図である。
【図１２】第１の実施例に係る、擬似ＡＰの動作のバリエーションのテーブルを示す図である。
【図１３】第１の実施例に係る、擬似ＡＰの滞在時間のバリエーションのテーブルを示す図である。
【図１４Ａ】第１の実施例に係わる情報処理システムの処理の流れの全体を説明するシーケンス図である。
【図１４Ｂ】第１の実施例に係わる情報処理システムの処理の流れの全体を説明するシーケンス図である。
【図１５】第１の実施例に係わる、情報処理システムの具体的構成の一例を示す図である。
【図１６】第１の実施例に係わる、稼働情報蓄積部に蓄積される種々の稼働情報のテーブル例を示す図である。
【発明を実施するための形態】
【００２０】
以下、本発明を実施するための形態を図面に従い説明する。なお、本明細書において、階層的情報処理とは、実世界における所望のサービスを複数のアプリケーション（Application；ＡＰ）が実現する処理を言う。好適にはこの複数のＡＰは、ネットワークに接続される複数の処理ノードで実行されるものであり、本明細書においては、特に本番ＡＰと称する。個々のサービスでは、実世界で取得した情報を元に複数の処理ノード内の本番ＡＰが連携して情報処理を行い、処理結果を実世界にフィードバックする。
【００２１】
また、同一資源上（筐体、ブレード、中央処理部、メモリなど）の擬似ＡＰが本番ＡＰの動作を模擬し、サービスが利用している経路を特定する。さらに、擬似ＡＰはデータ送受信時の時刻を次の処理ノードへの送信パケットに付加し、その時刻周辺の稼動情報を処理ノード内に蓄積する。蓄積した各処理ノードの稼動情報を管理サーバ内の管理マネージャが収集し、関連付けを行うことでサービスの一連の情報処理の流れを追うことが可能になり、障害発生時における問題部位の特定を可能にできる。
【実施例１】
【００２２】
第１の実施例は、階層的な情報処理を実施する広域分散配置された複数の処理ノード内において、本番ＡＰと同一資源上に擬似ＡＰを配置し、処理の流れを模擬することにより、問題となる処理経路の特定と、詳細な性能情報から障害部位を特定する性能・障害監視システムである。
【００２３】
図１に第１の実施例の性能・障害監視システムの概要を示す図である。同図において、１１、１２、１３は広域に分散配置された処理ノード、１４は管理サーバ、１５、１６、１７は公衆網・イントラネットなどのネットワークを示している。この広域に分散配置された複数の処理ノード１１、１２、１３にまたがって複数の情報処理ＡＰである本番ＡＰが連携することにより各種のサービスを提供する。処理ノード１１、１２、１３では、各々の情報処理結果に応じ、処理結果の送信先がそれぞれ発生する。
【００２４】
処理ノード１１は、本番ＡＰ１１１、擬似ＡＰ１１２、オペレーティングシステム（Operating System；ＯＳ）あるいはＡＰ実行基盤１１３、ハードウェア１１４で構成される。ハードウェア１１４は、記憶部であるメモリ（Memory；ＭＭ）１１５、入出力部（Input/Output；Ｉ／Ｏ）１１６、処理部である中央処理部（Central Processing Unit：ＣＰＵ）１１７、記憶部であるハードディスクドライブ（Hard Disk Drive：ＨＤＤ）１１８、ネットワークとのインタフェース(Interface；Ｉ／Ｆ)１１９から構成される。他の処理ノード１２、１３、管理サーバ１４のハードウェア構成も同様であり、後でその一例を示す。管理サーバ１４上では管理マネージャ１４１が動作する。
【００２５】
図１の性能・障害監視システム構成において、実サービスでは、実世界で取得した情報を元に処理ノード１１、１２、１３内の各本番ＡＰが連携して情報処理を行い、処理結果を実世界にフィードバックする。また、処理ノード１１、１２、１３において、本番ＡＰの動作を模擬する擬似ＡＰが動作する。処理ノード１１を例に説明すると、ハードウェア１１４からなる同一資源上の擬似ＡＰ１１２が本番ＡＰ１１１の動作を模擬し、サービスが利用している経路を特定する。すなわち、本実施例における擬似ＡＰ１１２は、情報処理を担う本番ＡＰ１１１と同一資源を利用し、本番ＡＰ１１１の動作を模擬しつつ稼動情報を集約する機能を提供する。
【００２６】
また、擬似ＡＰ１１２はデータ送受信時の時刻を次の処理ノードへの送信パケットに付加し、その時刻周辺の稼動情報を処理ノード１１内に蓄積する。蓄積した各処理ノード１１、１２、１３の稼動情報を管理サーバ１４内の管理マネージャ１４１が全て収集し、関連付けを行うことでサービスの一連の情報処理の流れを追うことが可能になり、障害発生時における問題部位の特定を可能にする。
【００２７】
ここで、本実施例における本番ＡＰによる具体的なサービスについて一例を挙げて説明する。本番ＡＰの具体的なサービスとしては、例えば公的な映像監視や、企業によるセキュリティサービスなどがある。このような監視サービスにおいて、中央監視室では各拠点の映像監視を行っているが、人の目では高々数か所の映像を監視するのがせいぜいである。そこで、階層化な監視処理を行うことにより、問題行動を起こした監視対象である被写体を自動的に検知し、中央監視室のディスプレイにアラート表示する。このときの管理ノード１４の役割は、処理ノード１１、１２、１３やネットワーク１５、１６、１７の障害を事前に検知して、サービスが停止しないような対策を実施することにある。
【００２８】
本システム構成では、監視映像の階層化処理により常に各拠点からの映像を中央監視室に送信する必要はない。ただ、問題行動を起こした被写体を検知した場合には、優先的に中央監視室へ当該映像を送信し、監視室のディスプレイに表示する必要が出てくる。このとき、本システムでは、例えば、処理ノード１１で取得した映像データをいくつかの処理ノード１２、１３等を経て、中央監視室まで送信する際のネットワーク帯域の確保、送信データの優先度切替、他拠点から送信されてくる映像データとのネットワークパス調停等が必要となる。
【００２９】
上記の具体的な監視サービスを例にとって、本実施例の階層化処理機能をより詳細に説明する。従来のシステムでは、処理ノード１１のカメラ映像は全て中央監視室へ送信していたが、本実施例の性能・障害監視システム構成において、中間に分散配置された処理ノードで処理を実施することにより、必要な分だけの映像データを中央監視室へ送信することが可能になる。つまり、ネットワーク帯域を無駄に消費することなくなり、これまでと同じネットワーク帯域でさらに多くの拠点を監視することが可能になる。
【００３０】
監視サービスを行う本システムの処理フローの一例は下記の通りである。
【００３１】
(1)処理ノード１１には、例えばWebカメラと人感センサが搭載され、人感センサ情報と、カメラ映像データをパケットとして送信するＡＰが搭載されている。
【００３２】
(2)処理ノード１２には、カメラ映像データから被写体の問題行動の検知する検知ＡＰが搭載されている。
【００３３】
(3)処理ノード１１でセンサの近くに人が来たのを検知し、カメラ映像データを処理ノード１２へ送信開始する。
【００３４】
(4)処理ノード１２の問題行動検知ＡＰによって取得した映像を処理し、問題行動と判断された映像を中央監視室へ送信する。問題行動と判断されなかった場合には、処理ノード１２で映像を終端し、中央監視室への送信は行われない。このような階層化処理により、ネットワーク帯域を無駄に消費することなくなり、これまでと同じネットワーク帯域でさらに多くの拠点を監視することが可能になる。このような本実施例が適用される実際の情報処理システムは、色々な構成を取りうる。
【００３５】
図２は、本実施例の性能・障害監視システムが適用される実際の情報処理システムの一構成例を示している。同図において、２１〜２８は処理ノードで、図１の処理ノード１１，１２、１３等に対応する。２９は公衆網・イントラネットなどのネットワークを示す。処理ノード２１〜２８の内、幾つかの処理ノード２１、２２、２３、２４等は、上述のように実世界３０に存在する各種の通信端末として機能するセンサ３１、３２やアクチュエータ３３、３４、或いはWebカメラ等からセンシング情報、映像データを受信し、また制御情報を送信する。
【００３６】
図１１に本実施例の性能・障害監視システムが適用される実際の情報処理システムの他の構成例を示した。同図において、処理ノード１１０１、１１０２、１１０３、１１０４の内、処理ノード１１０１、１１０２は情報処理が可能なインテリジェントノードであり、処理ノード１１０３、１１０４は広域ネットワーク１１０５に接続された情報処理が可能なデータセンタなどのサーバである。処理ノード１１０１、１１０２が接続されるローカルネットワーク１１０７、１１０８には、センサやカメラなどの各種の通信端末１１０９が接続される。また、ローカルネットワーク１２０７には情報のフィルタ機能を有するエッジノード１２１０が接続され、このエッジノード１１１０を介して、通信端末である複数のセンサ１１１１、１１１２、アクチュエータ１１１３との間で、センシング情報の吸い上げや、制御情報の伝達を行う。このような情報処理システムにおいては、エッジノード１１１０、処理ノード１１０１〜１１０４が、図１における処理ノード１１、１２、１３に対応し、管理サーバ１１０６は管理サーバ１４に対応する。
【００３７】
続いて本実施例の性能・障害監視システムの機能動作を模式的に示した図である図３に基づき、本実施例の処理ノード１１、１２、１３による情報処理の連携によりサービスを行う情報処理システムの性能・障害監視方法を具体的に説明する。
【００３８】
図３は、図１で説明した、分散配置された複数の処理ノード１１、１２、１３内において、本番ＡＰと同一資源上に擬似ＡＰを配置し、処理の流れを模擬するためのシステム構成を示している。なお、処理ノード１１、１２、１３の各ハードウェア構成は図１に示した処理ノード１１のハードウェア構成と同様な構成を有するが、図３においては主要な要素のみを簡略的に図示した。また管理サーバ１４も図示が省略した。
【００３９】
図３において、実世界中のアドレスＤの端末（Address；Ａｄｄｒ＝Ｄ）から本番系処理時のパケットが入力され、処理ノード１１、１２、１３での本番ＡＰ１１１、１２１、１３１による情報処理の結果、本番パケットが実世界の端末（アドレス＝Ｄ）に送出される。同様に、擬似パケットが端末（Ａｄｄｒ＝Ｄ）から入力し、処理ノード１１、１２、１３における擬似ＡＰ１１２、１２２、１３２による模擬処理の結果に基づき、擬似パケットが端末（Ａｄｄｒ＝Ｄ）に送出される。
【００４０】
図３に示したように、本番ＡＰ１１１の送信先アドレスＢは、処理ノード１１内の擬似ＡＰ１１２に、滞留時間（０．４）と共に、本番ＡＰ１１１の所有者であるユーザや管理者から入手して実装される。同様に、処理ノード１２、処理ノード１３の情報処理である本番ＡＰ１２１、１３１の送信先アドレスＣ、アドレスＤは、それぞれの滞留時間（０．１）、（０．２）と共に擬似ＡＰ１２２、１３２に設定される。なお、送信先アドレスや滞留時間等のデータは、ユーザから入手する代わりに、各処理サーバにおいて、後で説明するように本番ＡＰを一定時間モニタリングして、滞留時間とその送信先を推定しても良い。
【００４１】
図４に本実施例の全体処理シーケンスを説明する概略フローチャートを示した。図４において、性能・障害監視の処理フローが開始すると、まず管理マネージャ１４１が各処理ノード１１、１２、１３に対して擬似ＡＰを設定する（ステップ４１、以下括弧内ではステップを省略）。続いて、実世界中の該当するクライアント端末が後で説明する擬似パケットを送信する（４２）。各処理ノードは、該当する擬似パケットの送受信時に擬似ＡＰで階層的に情報処理されたことを識別できる情報処理順序情報を擬似パケットに付与する（４３）。
【００４２】
擬似ＡＰは擬似パケット送受信時の処理ノードの稼働情報を取得する（４４）。擬似パケットを受信した処理ノードが擬似パケットを蓄積する（４５）。管理マネージャ１４１が、各擬似ＡＰが擬似パケットを送受信したときの稼働情報を取得する（４６）。管理マネージャ１４１は、クライアント端末が受信した擬似パケットの情報処理順序情報を元に処理ノードの稼働情報を取得する（４７）。管理マネージャ１４１は取得した稼働情報を評価してネットワーク上の障害部位を推定する（４８）。
【００４３】
本実施例の性能・障害監視処理シーケンスにおいて、ステップ４２でクライアント端末が擬似パケットの送信を行うが、この擬似パケットは、クライアント端末に提供するサービス品質を評価し、品質に問題となる箇所を特定するための情報を提供するものである。この擬似パケットにより通信時間、情報処理時間の内訳を明確にし、遅延が発生している処理ノードやネットワークを調査することが可能になる。よって、サービスそのものの問題点を調査することよりも、サービスが動作するプラットフォームに問題がないかを調査するためのツールとして機能する。
【００４４】
また、この擬似パケットは複数の処理ノード上の情報処理を経由することで、ノード識別子及び到着時間と送出時間をペイロードに追記していき、End-to-Endを流れた擬似パケットを管理ノード１４が集計し、管理マネージャ１４１が持つシステムのネットワークトポロジーと照らし合わせ経路情報と遅延の原因となる滞留箇所を調査する。
【００４５】
本実施例の性能・障害監視システムにおいて、End-to-Endは実世界に存在し、サービスを利用するクライアント端末、通信端末がこのEndの部分である。すなわち、End-to-Endとはクライアント端末がサービスに対してリクエストを送信し、応答が帰ってくるまでの区間を想定している。そのため擬似パケットの送出/受信元は実世界に擬似パケットを送出/受信する情報処理装置である端末を配置する。あるいは、次に近い処理ノードの管理ミドルウェアから処理ノード上のアプリケーションに対して擬似パケットを入力する方法もある。
【００４６】
前者は、実サービスの利用と同じ状況で検証が可能であり、より精度のよい検証が可能になるが検証の際に、処理ノード１１が存在する場所へ赴き、擬似パケットを入力する必要がある。一方、後者は検証の処理ノードに擬似パケットを送出/受信する仕組みを配置することになるが、すべての操作が管理ノードの操作で終わるため検証が容易である。この場合、擬似ＡＰのデプロイ（４１）と同時に、送信する擬似パケットもデプロイされる。各種設定および擬似アプリのインストールの実行に加え、処理ノード１１の管理ミドルウェアに擬似パケットを登録する。管理ミドルウェアは各処理ノードにおいて管理ノード１４とのインタフェースを持つソフトウェアであり、管理ノード１４からのサービス開始指示により、擬似ＡＰが入力待ちの状態になり、処理ノード１１の管理ミドルウェアに登録された擬似パケットを入力データとして擬似ＡＰに流し込む処理を実行する。
【００４７】
図５に実施例１の性能・障害監視システムにおける擬似ＡＰの一実施例を示した。同図において、５１、５２、５３はそれぞれ稼動情報蓄積部、擬似ＡＰ、擬似パケット蓄積部を示す。稼動情報蓄積部５１、擬似パケット蓄積部５３は先に説明したハードウェアの記憶部に形成される。擬似ＡＰ１１２はパケット到着時刻採集部５４、稼動情報採集部５５、本番ＡＰ動作模擬部５６、パケット送信時刻採集部５７、採取データ保持部５８、管理マネージャIF部５９、プロファイル情報付与部６０の各機能ブロックで構成される。これらの機能ブロックはハードウェアの処理部で実行されるプログラムで構成される。
【００４８】
図６に、同様に実施例１の性能・障害監視システムにおける管理マネージャの一実施例を示した。同図において、６１、６２はそれぞれ採取データ蓄積部、管理マネージャを示し、管理マネージャ６２は、採取データ収集部６３、擬似ＡＰＩ／Ｆ部６４、擬似ＡＰ制御部６５、採取データ関連付け処理部６６の機能ブロックからなる。この機能ブロックの詳細は後で説明する。
【００４９】
図７に、本実施例の情報処理システムで用いられるパケットの構成の一例を図７に示した。図７の７１は通信ヘッダ部、７２はペイロード部を示す。ペイロード部７２は、情報処理順序情報＃１−−−＃ｎが順次記録される。この情報処理順序情報７３は、ノード識別情報７４、サービス識別情報７５、アプリケーション識別情報７６、受信時刻情報７７、送信時刻情報７８から構成される。
【００５０】
さて図５に戻り、擬似ＡＰ５２の本番ＡＰ動作模擬部５６では、本番ＡＰ１１１による情報処理の典型的な処理時間（無負荷時の時間など）分をスリープする等して、本番ＡＰ１１１に影響のない形で消費し模擬する。当該時間は、管理サーバＩＦ部５９経由で模擬負荷として指定する。すなわち、本番ＡＰ動作模擬部５６は、管理マネージャIF部５９を経由して、管理マネージャ１４から擬似ＡＰ５２の送信先指定、模擬負荷を指示される。この送信先指定は、送信先固定、一定確率での送信先振り分け、条件指定型複数送信先振り分け（メモリ使用率が閾値が超えたなど）、複数送信（送信先固定）、複数送信(送信先が一定確率で変化)などが存在する。また、模擬負荷は、スリープ処理時間を指定、一定確率でスリープ時間が変化、本番ＡＰの稼働状況を反映（リアルタイム、非リアルタイムなど）などが存在する。
【００５１】
パケット到着時刻採取部５４は、情報処理を行う処理ノードであるサーバにパケットが到着した時間を、採取データ保持部５８にて保持するよう機能する。また、パケット送信時刻採取部５７は、到着時のＣＰＵやメモリ、ＩＯの利用率か稼動情報（障害情報含む）、本番ＡＰ動作模擬部５６での時間消費の後、管理マネージャIF部５９経由で、指定される送信先に処理要求（パケット）を送信する際の時刻を、採取データ保持部５８にて保持するよう機能する。なお、指定される送信先が複数ある場合には実動作に基づく確率ベースで送信先決定を行う。
【００５２】
模擬ＡＰ５２の採集データ保持部５８は、各採取部５４、５７採取されたデータをwrap aroundで記録しつづけるとともに、障害発生などのイベント発生時にはwrap aroundを停止するよう機能する。どのようなイベントで採取を停止するかは管理マネージャIF部５９経由で指定する。なお、プロファイル情報付与部６０は、後で説明するように、受け取った擬似パケットのペイロード部７２に処理ノードの識別子と一次記憶した受信時刻情報と送信時刻情報を付与する機能である。
【００５３】
擬似パケット蓄積部５３では、受信した擬似パケットをその受信時刻情報、送信時刻情報とともに保持する。送信時刻情報は、パケット送信時刻採取部５７から直接記憶するように構成できる。それと共に、管理マネージャＩＦ部５９を介して、管理マネージャ１４に擬似パケット情報を送信する。擬似パケット情報は、管理マネージャ１４で、どのパスを通って、すなわちどの処理ノードを経由してサービスが提供されているかを調査する情報として利用する。また、管理マネージャ１４と各処理ノードの時刻差を補正することで、ネットワークの遅延箇所を調査する情報として利用する。
【００５４】
稼動情報蓄積部５１では、パケット到着時刻採取部５４が擬似パケットを受信したタイミングから任意時間までのハードウェア稼働情報やネットワークの統計情報を蓄積する。収集については稼働情報採取部５５が行う。ハードウェア稼働情報はたとえば、ＣＰＵやメモリ、ＩＯの利用率、障害情報などを想定している。また、ネットワークの統計情報は、ＲＦＣ１２１３に規定されるＭＩＢ（Management Information Base）などの統計情報を用いることができる。
【００５５】
図１６の１６０１〜１６０４は、それぞれ処理ノード１１のＨＤＤ１１８中の稼働情報蓄積部５１に蓄積される、サーバ稼働情報、プロセス稼働情報、ネットワーク稼働情報、ストレージ稼働情報のテーブルの一例を示した。サーバ稼働情報１６０１は図示の通り、サーバ稼働についての種々の情報を、プロセス稼働情報１６０２は、プロセス稼働についての種々の情報を、ネットワーク稼働情報１６０３は、ネットワーク稼働についての種々の情報を、ストレージ稼働情報１６０４は、記憶部であるストレージ稼働を示す種々の情報を蓄積する。
【００５６】
図８は、擬似ＡＰ５２の擬似パケット受信時の処理の詳細フローを示している。本詳細フローは、図４に示した本実施例の全体フローのステップ４３〜４５に対応している。
【００５７】
さて、処理ノードの擬似ＡＰ５２２は、クライアント端末が送信した擬似パケット受信（８０１）すると、パケット到着時刻採取部５４が時刻情報取得装置１２７から現在時刻を取得し、パケット受信時刻情報として一次記憶（８０２）する。稼働情報採取部５５は、ＣＰＵ負荷率、ネットワークスループット、メモリ使用率、ＨＤＤ使用量等の処理ノードの稼働情報の収集を開始（８０３）する。
【００５８】
本番ＡＰ動作模擬部５６は、擬似パケットが送信される前に、管理マネージャＩＦ部５９を経由して、管理マネージャ１４１から送信されてきた模擬動作指示を実行（８０４）する。これにより、処理ノード１１において、模擬動作が実行（８０５）される。この稼働情報は、アプリケーションのデプロイ時に管理マネージャ１４１から設定された滞留時間分、擬似ＡＰ５２内で滞留すると、管理マネージャ１４１に事前に指示された送信先ＩＰアドレスへ擬似パケットとして送信する。
【００５９】
パケット送信時刻採取部５７は、時刻情報取得装置１２７から現在時刻を取得し、擬似ＡＰ５２内部に送信時刻情報として一時記憶（８０６）する。擬似パケット送信時において、パケット送信時刻情報をログに出力し、プロファイル情報付与部６０は、受け取った擬似パケットのペイロード部に、処理ノードの識別子と一時記憶した受信時刻情報と送信時刻情報を付与（８０７）し、情報を付与した擬似パケットを送信する（８０８）。
【００６０】
以上説明した擬似ＡＰ５２の本番ＡＰ動作部模擬部５６がどのように本番ＡＰをモニタするかについて、その動作内容を説明する。
【００６１】
(1) サービス管理者が擬似ＡＰの動作定義データを作成し、指定する。
【００６２】
(2) 本番ＡＰをモニタリングし、送信元に対する送信先の確率分布を求める。モニタリングは、本番ＡＰを監視する管理ミドルウェアが行い、モニタリング結果を一定周期で管理マネージャ１４１が収集する。管理マネージャ１４１は収集結果から、本番ＡＰごとに動作定義データ（送信元のＩＰアドレス、滞留時間、送信先アドレス１、確率１、送信先アドレス２、確率２・・・）を作成し、擬似ＡＰ５２の本番ＡＰ動作模擬部５６に送信する。
【００６３】
この動作定義データは、処理の開始時に擬似ＡＰの管理マネージャIF部５９を通して各擬似ＡＰが受信し、本番ＡＰ動作模擬部５６に登録する。サービス管理者が指定する場合には、振る舞い動作データを作成して、各擬似ＡＰへ振る舞い動作データを送信する。
【００６４】
この動作定義データフォーマットの一例は下記の通りである。
＜time=滞留時間&送信元ＩＰアドレス数=2&送信元ＩＰアドレス１＝xxx.xxx.xxx.xxx&送信元ＩＰアドレス２=yyy.yyy.yyy.yyy&送信先ＩＰアドレス数=2&送信先アドレス１=zzz.zzz.zzz.zzz&確率１=10&送信先アドレス２=qqq.qqq.qqq.qqq&確率２=90＞
ここで、動作定義データの動作のバリエーションを図１２のテーブル１２０１に示した。番号１〜４に動作のバリエーションを示したが、その動作の内容は図示の通りである。また、同様に、滞留時間のバリエーションを図１３のテーブル１３０１に示した。番号１〜４に滞留時間のバリエーションを示したが、その時間の内容は図示の通りである。
【００６５】
図９は、本実施例において、各処理ノード１１、１２、１３での処理の結果、プローブパケットとして機能する擬似パケットがどの様に転送されていくかを示している。同図において、９４、９５、９６、９７はそれぞれ順次転送されるパケットを示している。パケット９４は実世界から最初に転送される擬似パケットを示している。図７に示した通信ヘッダ部７１に、宛先が記述され、ペイロード部７２には処理ノード１１、１２、１３を経由する度に、情報処理順序情報が追加されていく。例えば、実世界の端末（アドレス＝Ｄ）に送られる擬似パケット９７には、処理ノード１１、１２、１３で記録された情報処理順序情報が全て記述されていることになる。
【００６６】
続いて、図１０に示した、管理マネージャ１４１の処理フローに基づき、本実施例の管理マネージャ１４１の動作を説明する。
【００６７】
同図において、管理マネージャ６２の採取データ収集部６３は、各処理ノードから擬似ＡＰが採取したデータを擬似ＡＰI/F部６４経由で収集する。擬似ＡＰ制御部６５は、擬似ＡＰの次送信先アドレスや本番ＡＰの動作模擬情報を擬似ＡＰに送信する。例えば、滞留時間、確率による複数の擬似ＡＰ振り分けなどである。
【００６８】
まず、採取データ収集部６３が擬似ＡＰＩ／Ｆ部６４を介して各処理ノードの擬似ＡＰ５２の擬似パケット蓄積部に蓄積された擬似パケット情報等を収集する（１００１）。収集した各処理ノードの擬似パケット情報を採取データ蓄積部６１に蓄積し（１００２）、管理ノード１４と各処理ノード１１、１２、１３の時刻情報を補正する（１００３）。採取データ関連付け処理部６６は、擬似パケットに付与した時刻情報と各処理ノードの時刻補正により、サービスのroundtrip timeと擬似ＡＰ間の通信時間を算出する。また、同じタイミングでのネットワーク稼動情報、ハードウェア稼動情報を関連付けする。そして、採取データ関連付け処理部６６で取得した擬似パケット情報を時刻情報順にソートし（１００４）、ソート結果を図示を省略した表示部に提示する（１００５）。
【００６９】
以上説明した管理マネージャ構成における採取データ関連付け処理部６６の処理内容を整理すると下記の通りである。
【００７０】
(1)まず、採取データ収集部が擬似ＡＰI/F部６４を利用し、各擬似ＡＰからの擬似パケットのログを取得する。擬似パケットのログは擬似パケットの最終到着処理ノードから取得する。
【００７１】
(2)採取データ収集部６３が擬似ＡＰI/F部６４を利用し、各種稼働情報を取得し、採取データ蓄積部６１に登録する。データ取得完了を採取データ関連つけ処理部６６に通知する。
【００７２】
(3)採取データ関連付け処理部６１は、各処理ノードの時刻補正を行う。この補正の方法については、あとで説明するＧＰＳ(Global Positioning System)等の利用により補正することができる。
【００７３】
(4)続いて、サービスのラウンドトリップタイムを算出する。このサービスのラウンドトリップタイムは擬似パケットが最初の擬似ＡＰに入力され、いくつかの擬似ＡＰを経由して、最終処理ノードに到着し、ログが出力されるまでの時間に対応する。
【００７４】
(5)処理時間内訳を算出し、擬似ＡＰ間の通信時間を算出する。
【００７５】
(6)擬似パケットが通過した時刻周辺のネットワーク稼働情報、擬似パケットが到着し、送出する周辺時刻のハードウェア稼働情報を採取データ蓄積部６１から取得する。同時に同じ稼働情報取得場所での同データの統計情報を採取データ蓄積部６１から取得する。
【００７６】
(7)処理時間内訳と(5)で取得したネットワーク稼働情報とハードウェア稼働情報を割り付けし、グラフィカル・ユーザ・インタフェース（Graphical User Interface：ＧＵＩ）で表示部に表示する。
【００７７】
(8)擬似パケットが通過した時刻周辺の稼働情報(1)と統計情報とを比較する。滞留時間の分布を統計情報から求めた際に、ある一定範囲に(1)情報が入らなかった場合はエラー箇所としてGUIに表示などを行う。
【００７８】
なお、上述した管理サーバ、処理ノードにＧＰＳを搭載、もしくはＧＰＳからの時刻情報を取得するＩ／Ｆを持つことで定期的にノードの時刻情報を更新することにより、時刻補正を実現することができる。これによって、広域的に分散配置された複数の処理ノードである場合でも、同様な方法によって時差分の時間差が無視できる。
【００７９】
図１４Ａ、図１４Ｂは、以上詳述した第１の実施例における情報処理システムにおける処理の流れの全体を説明するシーケンス図である。図１４Ａの処理に続いて、図１４Ｂの処理が行われる。同図において、管理マネージャ１４０１、処理ノード１４０２、１４０３、１４０４はそれぞれ、管理マネージャ１４１、処理ノード１１、１２、１３に対応する。
【００８０】
図１４Ａにおいて、上述の図４を用いた説明のとおり、管理マネージャ１４０１は、まず処理ノード１４０２に擬似パケットを登録する（１４０５〜１４０７）。続いて、管理マネージャ１４０１は、それぞれの処理ノード１４０２、１４０３、１４０４に対して、サービス開始指示（１４０８、１４１１、１４１４）を行い、擬似ＡＰを起動（１４０９、１４１２、１４１５）する。その後、処理ノード１４０２の擬似ＡＰが擬似パケットを取得（１４１７）、送信時刻を付与（１４１８）、擬似パケット蓄積部に保持（１４１９）、稼働情報取得を開始する（１４２０）。そして、処理ノード１４０２の擬似ＡＰが擬似パケットを処理ノード１４０３に送信する（１４２１）。
【００８１】
続いて、処理ノード１４０３の擬似ＡＰは擬似パケットを受信し、稼働情報取得開始、受信時刻、送信時刻の付与、擬似パケット蓄積部に保持し、擬似パケットを処理ノード１４０４に送信する（１４２２〜１４２７）。処理ノード１４０４においても同様な処理（１４２８〜１４３２）が行われる。
【００８２】
更に、図１４Ｂに移り、処理ノード１４０４が擬似パケットを処理ノード１４０３に送信（１４３３）すると、処理１４３４〜１４４２が実行される。
【００８３】
以上の処理を受けて、管理マネージャ１４０１は各処理ノードに対してサービス停止指示を行い、稼働情報取得が停止される（１４４３〜１４５１）。その後、管理マネージャ１４０１は、各処理ノード１４０２、１４０３、１４０４から稼働情報と擬似パケット情報を取得し（１４５２〜１４５４）、採取データ蓄積部に保存（１４５５）する。そして、各処理ノード間の時刻情報の補正（１４５６）を行い、図示を省略した管理サーバ１４のディスプレイ等の表示部に、擬似パケットが通過した経路及び処理／通過にかかった時間を重ねて表示する（１４５７）。管理サーバ１４の管理マネージャ１４１を稼働するサービス管理者は、この表示データと統計情報と比較し、大きく異なっている箇所を特定したり、評価（１４５８）を行ったりする。これにより、上述したネットワーク上の障害部位を推定することができる。
【００８４】
図１５に、上述してきた本実施例の情報処理システムの具体的な構成の一例を示す。同図に見るように、ＬＡＮ等のネットワーク１５０に処理ノード１５１と管理サーバ１５２が接続されている。このネットワーク１５０、処理ノード１５１、管理サーバ１５２は、上述した公衆網・イントラネット１７、処理ノード１１、１２、１３、及び管理サーバ１４に対応している。管理サーバ１５２は、内部バス１４６に接続されたメモリ１４２、ＨＤＤ等のデータ蓄積部１４３、ネットワークＩ／ＦであるＬＡＮアダプタ１４４、及びＣＰＵ１４５で構成されるコンピュータである。管理マネージャ６２の内部は図６に示したとおりの機能構成を備えている。
【００８５】
一方、処理ノード１５１は、図１に示したとおり、メモリ１１５、ＣＰＵ１１７，データ蓄積部であるＨＤＤ１１８、ＬＡＮアダプタ等のＩ／Ｆ１１９を有し、更にバス１２５にはＩ／Ｆ１２６を介して時刻情報取得装置１２７が接続されている。ＨＤＤ１１８中には、図５で説明した稼働情報蓄積部５１、擬似パケット蓄積部５３が形成される。また、メモリ（ＭＭ）１１５中には、本番ＡＰ１１１と図５にその詳細を示した擬似ＡＰ１１２が記憶されている。
【００８６】
なお、先に図１１を用いて説明した情報処理システムにおいても、同様な具体的なシステム構成で構築されることは言うまでもない。
【００８７】
以上本発明の実施例を説明したが、本発明は、以上説明した実施例に限定されるものでなく、階層的情報処理を行う他のシステムにも広く適用できる。
【産業上の利用可能性】
【００８８】
本発明は、社会基盤に適用される情報システム、特に広域分散資源利用を行うシステムにおける、性能情報の取得、及び障害発生部位の監視を行う技術として有用である。
【符号の説明】
【００８９】
１１、１２、１３、２１〜２８、１１０１〜１１０４…処理ノード
１４，１１０６…管理サーバ
１５、１６、１７、１１０７、１１０８、１５０…ネットワーク
３０…実世界
３１、３２、１１１１、１１１２…センサ
３３、３４、１１１３…アクチュエータ
６２、１４１…管理マネージャ
７１…通信ヘッダ部
７２…ペイロード部
１１１、１２１、１３１…本番ＡＰ
５２、１１２、１２２、１３２…擬似ＡＰ
１１３、１２３、１３３…ＯＳ又はＡＰ実行基盤
１１４、１２４、１３４…ハードウェア
１１５、１４２…メモリ（ＭＭ）
１１６…Ｉ／Ｏ
１１７、１４５…ＣＰＵ
１１８、１４３…ＨＤＤ
１１９、１４４…Ｉ／Ｆ
１１０９…端末
１１１０…エッジノード。

【特許請求の範囲】
【請求項１】
管理サーバと、複数の処理ノードからなる分散資源がネットワークを介して階層的情報処理を実施してサービスを提供する分散資源監視システムであって、
複数の前記処理ノードは、
前記情報処理を実施する本番アプリケーションと、前記本番アプリケーションの動作を模擬する擬似アプリケーションを備え、
前記サービスに対応する擬似パケットを受信した際、前記擬似アプリケーションが、前記擬似パケットに順序情報を付加して、他の前記処理ノードに送信し、
前記管理サーバは、
複数の前記処理ノードの前記擬似アプリケーション各々が前記擬似パケットを送受信したときの稼動情報を取得し、取得した前記擬似パケットの前記順序情報に基づき前記稼動情報を評価することにより、前記ネットワーク上の障害部位を推定する、
ことを特徴とする分散資源監視システム。
【請求項２】
請求項１に記載の分散資源監視システムであって、
前記管理サーバは、前記ネットワークを介して、複数の前記処理ノードに前記擬似アプリケーションを設定する、
ことを特徴とする分散資源監視システム。
【請求項３】
請求項１に記載の分散資源監視システムであって、
前記管理サーバは、前記ネットワークを介して、複数の前記処理ノードにサービス停止指示を行い、前記サービス停止指示の後、前記処理ノード各々から前記稼働情報と前記擬似パケットを取得する、
ことを特徴とする分散資源監視システム。
【請求項４】
請求項１に記載の分散資源監視システムであって、
複数の前記処理ノードは、前記擬似パケットと前記稼働情報を蓄積する蓄積部を備え、前記蓄積部に蓄積した前記擬似パケットと前記稼働情報を前記ネットワークを介して、前記管理サーバに送信する、
ことを特徴とする分散資源監視システム。
【請求項５】
請求項１に記載の分散資源監視システムであって、
前記稼働情報は、サーバ稼働情報、ネットワーク稼働情報、ストレージ稼働情報を含む、
ことを特徴とする分散資源監視システム。
【請求項６】
管理サーバと、複数の処理ノードからなる分散資源がネットワークを介して階層的な情報処理を実施してサービスを提供するシステムの障害発生部位を推定する分散資源監視方法であって、
複数の前記処理ノードに前記情報処理を実施する本番アプリケーションと、前記本番アプリケーションの動作を模擬する擬似アプリケーションを設定しておき、
前記処理ノードは前記サービスに対応する擬似パケットを受信し、
前記擬似アプリケーションが、前記擬似パケットに順序情報を付加して、他の前記処理ノードに送信し、
前記管理サーバの管理マネージャが、
複数の前記処理ノードの前記擬似アプリケーション各々が前記擬似パケットを送受信したときの稼動情報を取得し、取得した前記擬似パケットの前記順序情報に基づき前記稼動情報を評価することにより、前記ネットワーク上の障害部位を推定する、
ことを特徴とする分散資源監視方法。
【請求項７】
請求項６に記載の分散資源監視方法であって、
前記管理マネージャは、前記ネットワークを介して、複数の前記処理ノードに前記擬似アプリケーションを設定する、
ことを特徴とする分散資源監視方法。
【請求項８】
請求項７に記載の分散資源監視方法であって、
前記管理マネージャは、前記処理ノードに設定された前記擬似アプリケーションの送信先指定、及び模擬負荷を指示可能である、
ことを特徴とする分散資源監視方法。
【請求項９】
請求項６に記載の分散資源監視方法であって、
前記処理ノードで動作する前記擬似アプリケーションは、前記擬似パケットを受信し、送信する間の前記処理ノードの前記稼働情報を収集する、
ことを特徴とする分散資源監視方法。
【請求項１０】
請求項６に記載の分散資源監視方法であって、
前記管理マネージャは、前記ネットワークを介して、複数の前記処理ノードにサービス停止指示を行い、前記サービス停止指示の後、前記処理ノード各々から前記稼働情報と前記擬似パケットを取得する、
ことを特徴とする分散資源監視方法。
【請求項１１】
複数の処理ノードがネットワークを介して階層的な情報処理を実施して所望のサービスを提供するシステムの分散資源監視装置であって、
それぞれ情報処理を実施する本番アプリケーションと、前記本番アプリケーションの動作を模擬する擬似アプリケーションを備えた複数の前記処理ノードが、サービスに対応する擬似パケットを受信し、前記擬似アプリケーションが前記擬似パケットに順序情報を付加して、他の前記処理ノードに送信する際の順序情報と稼働情報を収集する収集部と、
収集した擬似パケットの順序情報と稼動情報に基づき、障害部位を推定する処理部を備えた、
ことを特徴とする分散資源監視装置。
【請求項１２】
請求項１１に記載の分散資源監視装置であって、
前記ネットワークを介して、前記順序情報と前記稼働情報とを複数の前記処理ノードから受信するインタフェース部を備えた、
ことを特徴とする分散資源監視装置。
【請求項１３】
請求項１２に記載の分散資源監視装置であって、
前記インタフェース部と前記ネットワークを介して、前記擬似アプリケーションを複数の前記処理ノードに設定する擬似アプリケーション制御部を備えた、
ことを特徴とする分散資源監視装置。
【請求項１４】
請求項１１に記載の分散資源監視装置であって、
前記収集部と前記処理部として機能する管理マネージャと、収集した前記順序情報と前記稼働情報とを蓄積する蓄積部とから構成される、
ことを特徴とする分散資源監視装置。
【請求項１５】
請求項１１に記載の分散資源監視装置であって、
前記稼働情報は、サーバ稼働情報、ネットワーク稼働情報、ストレージ稼働情報を含む、
ことを特徴とする分散資源監視装置。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４Ａ】

【図１４Ｂ】

【図１５】

【図１６】

【公開番号】特開２０１１−１７０４１１（Ｐ２０１１−１７０４１１Ａ）
【公開日】平成２３年９月１日（２０１１．９．１）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - エラー検出；エラー訂正；監視 (10,741)
      - 監視 (3,872)
        
        コンピュータ動作，例．故障時間または入出力動作の記録または統計... (1,771)
    - メモリ，入力／出力装置または中央処理ユニットの間の情報または他... (29,400)

【出願番号】特願２０１０−３１０１２（Ｐ２０１０−３１０１２）
【出願日】平成２２年２月１６日（２０１０．２．１６）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２１年度、総務省、セキュアクラウドネットワーキング技術の研究開発　委託事業、産業技術力強化法第１９条の適用を受ける特許出願
【出願人】（０００００５１０８）株式会社日立製作所 (27,607)
【Ｆターム（参考）】

[ Back to top ]

分散資源監視システム、方法および装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

分散資源監視システム、方法および装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク