説明

メツセージ集中管理方式

【目的】分散処理システムを構成する各計算機からのメッセージを集中管理できるようにし、分散処理システムの運用性の向上、保守員の負荷軽減を図る。
【構成】計算機ネットワーク中に分散するコンピュータ群をある論理的な集合に形成させ、ドメイン中の各監視対象ノード11〜13中のプロセスから発行するメッセージをドメイン中に1つ存在する集中管理ノード14に転送し、集中管理ノード14においてメッセージを統一的に管理する。集中監視ノード14でドメイン中の全監視ノードの状態を把握することができ、障害時、応答待ちプロセスへの迅速な対応が可能となり、また、保守員の人数および負荷の低減を実現できる。

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は分散処理システムに関し、特に分散処理システムの運用性向上、および保守員の負荷軽減を図り得るメッセージの集中管理方式に関する。
【0002】
【従来の技術】近年、コンピュータの利用形態は、汎用機に多数のワークステーションを集中させて業務を遂行する集中処理型から、計算機ネットワークを利用して多数の目的別の計算機を配置することにより、業務を分散して遂行する分散処理型へ移行してきている。
【0003】分散処理型の利用形態は、集中処理型に比べ、業務運用の容易性、柔軟性、拡張性の点で優れている。しかし、逆に保守面では、分散処理型の利用形態は、計算機数が多くなるため、集中処理型に比べ、保守作業(障害時の対応、構成変更に対する対応等)が繁雑化するという問題がある。
【0004】特に、地理的に分散されたシステム形態を有する分散処理型では、各計算機毎に保守員を配置する必要があるので、人件費の増大が招かれる。また、各計算機毎に保守員を配置したとしても、各保守員は個々の計算機の状況についてのみ監視しているだけであるので、分散処理システム全体の保守管理を統一的に行うことは困難である。
【0005】さらに、保守員の負荷増大によって人為的なミスや、保守作業の遅れといった事態も発生し易くなり、分散処理システムの正常運用に障害を来たす様々な状況が引き起こされる。
【0006】具体的には、次のような問題が生じる。すなわち、保守員は、保守対象の計算機の稼働状況を監視し、各種の業務に対応するプロセスからのメッセージや、基本ソフトウェアが発行する警告メッセージに応答する。しかし、保守員が不在であったり、他の各種保守作業に従事していている時には、それらメッセージに対する応答が遅れる事があり、この場合、メッセージ応答待ちのプロセスについては、保守員から応答があるまでその動作が停止される。また、警告メッセージに対して長い期間何等応答がなかった場合には、その計算機が障害に陥るという状況の発生も考えられる。
【0007】分散処理システムでは、各計算機に業務が分散されるので、1つのプロセスの動作停止が分散処理システム全体に悪影響を及ぼすこともある。このため、保守員の負荷の増大は、分散処理システムの正常運用に障害を来たす大きな原因となっている。
【0008】
【発明が解決しようとする課題】従来では、分散処理システム全体の保守管理を統一的に行うことが困難であり、また保守員の負荷増大によって分散処理システムの正常運用に障害が来たされるといった問題があった。
【0009】この発明はこのような点に鑑みてなされたもので、分散処理システムを構成する各計算機からのメッセージを集中管理できるようにし、分散処理システムの運用性の向上、および保守員の負荷軽減を実現することができるメッセージ集中管理方式を提供することを目的とする。
【0010】
【課題を解決するための手段および作用】この発明によるメッセージ集中管理方式は、ネットワークを介して結合された複数の電子計算機から構成される分散処理システムにおいて、前記複数の電子計算機の中の1台を集中管理ノード、他の複数の電子計算機をそれぞれ監視対象ノードとして割り当て、各監視対象ノード中の業務プロセスから発行される稼働状況メッセージを前記集中管理ノードに転送し、前記集中管理ノードにおいてそれら稼働状況メッセージを集中管理することを特徴とする。
【0011】このメッセージ集中管理方式においては、計算機ネットワーク中に分散するコンピュータ群の中の1台のノードを集中管理ノードとして割り当て、他のノードからのメッセージをその集中管理ノードで集中管理する。このため、集中管理ノードは、全ての監視対象ノードの状態を把握することができ、監視対象ノード内の応答待ちプロセスへの迅速な対応が可能となると共に、また、保守員の人数および負荷の低減を実現できる。
【0012】
【実施例】以下、図面を参照してこの発明の実施例を説明する。
【0013】図1にはこの発明の一実施例に関わる分散処理システムのシステム構成が示されている。この分散処理システムは、LAN、WAN、または公衆回線網等のネットワーク10を介して結合された複数の電子計算機11〜14…によって構成されている。電子計算機11〜14はそれぞれ地域的に分散配置されているが、論理的には共通のドメイン内に存在している。
【0014】これら電子計算機11〜14は、監視対象ノードと、集中管理ノードとに区分されており、ここでは、電子計算機11〜13が監視対象ノード、電子計算機14が集中管理ノードとして割り当てられている。
【0015】監視対象ノード11〜13、および集中管理ノード14の各々は、ワークステーション等からそれぞれ構成される複数のデータ処理端末を制御下におき、それらデータ処理端末からの要求等に応じて各種業務処理を実行する。この業務処理において、各ノード11〜14は、必要に応じて他のノードと通信を実行し、例えばデータベースの参照等を行う。
【0016】監視対象ノード11〜13は、自装置の稼働状況に関する情報をメッセージとして集中管理ノード14に転送する。一方、集中管理ノード14は、監視対象ノード11〜13から転送されるメッセージを集中的に管理し、監視対象ノード11〜13の保守に必要な動作監視を行う。以下、監視対象ノード11〜13、および集中管理ノード14について、メッセージの送受信に関わる構成を説明する。
【0017】監視対象ノード11〜13はどれも同様の構成を有しているので、ここでは、第1の監視対象ノード11の構成について代表して説明する。監視対象ノード11は、複数のプロセス実行部21a,21b,…、メッセージ制御部22、ネットワーク制御部23、磁気ディスク装置24、および複数のデータ処理端末25a,25b、…を備えている。
【0018】プロセス実行部21a,21b,…は、それぞれ固有の業務処理を実行するものであり、その業務処理の実行は各種のアプリケーションソフトウェアに従って制御される。これら各プロセス実行部は、その業務の処理状況にしたがって、例えば、正常終了、エラー終了、さらには警告等のメッセージを発行する。これらメッセージは、データ処理端末25aへの画面表示のみを要求するもの、応答を要求するもの、または出力先のデータ処理端末を指定するもの等、各種属性を有している。メッセージを発行すると、各プロセス実行部は、その発行したメッセージに対する応答(表示完了通知、応答完了通知等)がメッセージ制御部22を介して返却されるまで、業務処理を中断する。
【0019】メッセージ制御部22は、プロセス実行部21a,21b,…からメッセージを受取り、そのメッセージをデータ処理端末25aに画面表示するか、あるいは集中管理ノード14に転送するかを選択する。このメッセージ出力先の選択は、ディスク装置24に格納されている運用定義情報と、受け取ったメッセージの属性とに基づいて制御される。すなわち、大別すると、運用定義情報に予め規定されている属性を有するメッセージ、つまり監視対象ノード11の保守運用に関係するメッセージについては、それを集中管理ノード14に転送し、監視対象ノード11の保守運用に直接関係しないメッセージについては、その監視対象ノード11内のデータ処理端末25aに画面表示する。また、メッセージ制御部22は、データ処理端末25aまたは集中管理ノード14から応答を受け取り、それを対応するプロセスに返却する。
【0020】ネットワーク制御部23は、監視対象ノード11とネットワーク10との通信インターフェースを司るものであり、監視対象ノード11と集中管理ノード14間のメッセージ転送を制御する。また、ネットワーク制御部23は、ネットワーク10の障害を検出する機能も有しており、障害検出時にはそれをメッセージ制御部22に通知して、その障害状況や、集中管理ノード14へ送出すべきメッセージを、データ処理端末25aに画面表示させる。
【0021】集中管理ノード14は、監視対象ノード11〜13を統一的に保守管理するために、ネットワーク制御部31、磁気ディスク装置32、メッセージ制御部33、入出力制御部34、データ処理端末35a,35b…、およびプリンタ36を備えている。
【0022】ネットワーク制御部31は、集中管理ノード14とネットワーク10との通信インターフェースを司るものであり、監視対象ノード11〜13と集中管理ノード14間のメッセージ転送を制御する。また、ネットワーク制御部31は、ネットワーク10の障害を検出する機能も有しており、障害検出時にはそれをメッセージ制御部33に通知して、その障害状況をデータ処理端末35aに画面表示させる。
【0023】メッセージ制御部33は、監視対象ノード11〜13からのメッセージをネットワーク制御部31を介して受取り、それらメッセージを統一管理するための編集処理等を行った後、データ処理端末35aに画面表示させる。この場合、メッセージ制御部33は、受取ったメッセージが監視対象ドメインに属すノードからのものであるか否かを検出する。この検出は、ディスク24に定義された運用定義情報にしたがって制御される。また、メッセージ制御部33は、データ処理端末35からの応答メッセージを受取り、そのメッセージを所望の監視対象ノードに返送する。
【0024】入出力制御部34は、メッセージ制御部33から転送されるメッセージを、表示または印字に適した形式に加工し、データ処理端末35a、またはプリンタ36に出力する。データ処理端末35aは、監視対象ノード11〜13からのメッセージを画面表示すると共に、管理者によるキーボード等の入力操作に応じて所定の応答メッセージを発行する。プリンタ36は、監視対象ノード11〜13から受取ったメッセージの履歴情報を印刷出力する。
【0025】次に、図2および図3を参照して、集中管理ノード14で使用される運用定義情報、および各監視対象ノード11〜13で使用される運用定義情報の具体的内容について説明する。
【0026】図2には、集中管理ノード14で使用される運用定義情報Aが示されている。図2に示されているように、集中管理ノード14で使用される運用定義情報Aは、ドメイン名B、集中管理ノード名C、監視対象ノードリストDから構成されている。ここでは、ドメイン名Bとして「TOKYO−DOMAIN」、集中管理ノード名Cとして集中管理ノード11の識別名「HAMAMATSU」、監視対象ノードリストDとして監視対象ノード11〜13の識別名「OME」,「GINZA」,「KAWASAKI」が登録されている。これらノードの識別名は、それぞれそのノードが配置されている事業所の所在地名を示している。ここでは、東京地区のドメインに分散配置されたノード、つまり青梅地区に配置された“OME”ノード、銀座地区に配置された“GINZA”ノード、浜松町に配置された“HAMAMATSU”ノード、川崎地区に配置された“KAWASAKI”ノードのうち、浜松町の本社事業部に配置された“HAMAMATSU”ノードが集中管理ノードとなっている。
【0027】また、監視対象ノードリストDには、各監視対象ノードの識別名に対応して運用情報が定義されている。この運用情報は、各監視対象ノードが、メッセージの出力先を決定するために参照する情報である。
【0028】図3には、各監視対象ノード11〜13で使用される運用定義情報として、監視対象ノード11で使用される運用定義情報A´が代表して示されている。図3から分かるように、この運用定義情報A´には、集中管理ノード14で使用される運用定義情報Aと同様に、ドメイン名B´として「TOKYO−DOMAIN」、集中管理ノード名C´として集中管理ノード11の識別名「HAMAMATSU」が定義されており、また監視対象ノード名D´としては監視対象ノード11の識別名「OME」か定義されている。さらに、この運用定義情報A´には、監視対象ノード11がメッセージの出力先を決定するために使用する運用情報が定義されている。
【0029】この運用情報は、監視対象ノード11の保守管理に関係するメッセージとそれ以外のメッセージとにメッセージ属性を区分し、その区分されたメッセージ属性毎に出力先を指定するものであり、模式的には、例えば、図4のように、メッセージ出力先とメッセージ属性との対応関係を示すテーブルで表現することができる。
【0030】次に、図5を参照して、集中管理ノード14に設けられたデータ処理端末35aの画面表示内容の一例を説明する。ここでは、監視対象ノード11〜13から集中管理ノード14に対して、メッセージM1〜M3が順番に転送された場合を想定する。
【0031】この場合、データ処理端末35aの表示画面35a´には、図示のように、メッセージM1〜M3が一定形式で順番に配列された状態で一覧表示される。各メッセージM1〜M3の表示情報は、メッセージ受信の日付、時刻、メッセージ転送元ノード名、応答メッセージの出力先ワークステーション名、およびメッセージ内容を示すステートメント情報から構成される。
【0032】ここでは、メッセージ内容を示すステートメント情報の一例として、「ディスクでエラーリトライ(Y/N)」が示されている。このステートメントは、監視対象ノード11のディスク装置24に対するデータ入出力動作においてエラーが発生し、再試行を行うか否かの問い合わせを示している。このような応答付きメッセージについては、管理者は再試行を行うか否かを画面上で指示し(例えば、YESとNOのいずれか一方をカーソルで指定)、その指示結果を応答メッセージM1´として監視対象ノード11に返送する。一方、応答を要求しない単なる通知だけのメッセージについては、管理者はそのメッセージ内容を履歴情報としてディスク装置32に保存するだけで、メッセージに対する動作指示は行わず、画面表示が完了したことを示す応答メッセージだけを返却する。次に、図6、図7のフローチャートを参照して、図1の分散処理システムにおけるメッセージ転送動作について説明する。
【0033】図6のフローチャートは監視対象ノード11によるメッセージの転送処理が示され、図7のフローチャートは集中管理ノード14によるメッセージ管理処理が示されている。
【0034】監視対象ノード11において、例えばプロセス実行部21aがメッセージを発行すると、メッセージ制御部22は、そのメッセージを受け付け、メッセージ要求者キューに登録する(ステップS1)。ここで、複数のプロセス実行部21a,21b,…がメッセージの発行を行った場合、メッセージ制御部22では、プロシジャーロックを行ってキューに登録するため、プロセス実行部21a,21b,…は同時に受け付けられることが可能となり、プロセス実行部21aが処理されてなければプロセス実行部21bが受け付けられないということはない。
【0035】これ以降、メッセージを発行した各プロセス実行部は、表示完了または応答完了通知が返却されるまでウエイト状態となる。ここで、重要なことは、各プロセス実行部は、メッセージの出力先を意識する必要がないことであり、この事は、各プロセス実行部の改造を必要としないことを意味し、従来から運用されている業務アプリケーションソフトウェアをそのまま利用できることである。
【0036】メッセージ制御部22は、メッセージの属性(表示のみ、応答付き、出力ワークステーション等)と、運用定義情報A´とからメッセージの出力先を判断する(ステップS2)。メッセージが集中管理対象外のメッセージである場合、メッセージ制御部22は、それらを監視対象ノード11のデータ処理端末25aに出力する(ステップS5)。ここで、応答付きメッセージであるならば、監視対象ノード11の管理者がそのデータ処理端末25aのキーボードを操作して、応答をプロセス実行部に返す(ステップS6)。
【0037】メッセージが集中管理対象である場合には、メッセージ制御部22は、ネットワーク制御部23にメッセージの転送を依頼する(ステップS3)。ネットワーク制御部23は、集中管理ノード14のネットワーク制御部31とネットワーク接続し、通信回線を設定(アソシエーション)する。そして、メッセージの転送が正常に終了すると(ステップS4)、ネットワーク制御部23は、集中管理ノード14から返送される応答をメッセージ制御部22に通知して、それをプロセス実行部に返却する(ステップS6)。
【0038】ネットワーク制御部23,31のもう1つの重要な仕事は、ネットワークの障害検出である。例えば、回線障害により、監視対象ノード11と集中管理ノード14が交信できない場合、両ノードで保守する管理情報に矛盾が生じ、監視対象ノードのウエイト中のプロセス実行部が永遠に停止されたまま起動されないという事態が考えられる。このような事態の発生を回避するため、ネットワーク制御部23、31は、障害があったことを、メッセージ制御部22に通知する。この通知があった場合、メッセージ制御部22は、ウエイト中のすべてのプロセス実行部の代替処理を行う。つまり、具体的には、メッセージ制御部22は、メッセージを監視対象ノード11のデータ処理端末25aに出力し(ステップS5)、これによって、そのデータ処理端末25aからプロセス実行部に応答を返せるようにする(ステップS6)。
【0039】次に、図7に示されているように、集中管理ノード14のネットワーク制御部31は、監視対象ノード11からのメッセージ転送要求を受け取ると(ステップS11)、メッセージ制御部33に通知し、メッセージ制御部33の編集処理を起動する(ステップS12)。この編集処理において、メッセージ制御部33は、受け取ったメッセージを内部バッファに保持すると共に、メッセージに一連番号を付加し、属性別にメッセージを編集する。そして、メッセージ制御部33は、入出力制御部34と連動し、データ処理端末35aへの画面表示、プリンタ36への印刷出力を実行制御する(ステップS13)。データ処理端末35aでの画面表示、プリンタ36での印刷出力においては、メッセージはその付与された一連番号順に矛盾なく出力される。
【0040】この場合、データ処理端末35aの表示画面には、複数の監視対象ノードからのメッセージが図5で説明したように順番に一覧表示される。このため、集中管理ノード14の管理者は、そのデータ処理端末35aの表示画面、あるいはプリンタ36での印刷出力を見ることにより、すべての監視対象ノードの状態を統合的に監視することができる。
【0041】応答付きメッセージにおいては、管理者はキーボードの操作を行ってメッセージ制御部33に応答メッセージを返送する(ステップS15)。メッセージ制御部33は、表示完了した場合、または応答付きメッセージにおいては応答が完了した場合に、ネットワーク制御部31、23を介して、メッセージ制御部22に、結果、または応答データを返却する(ステップS16)。メッセージ制御部22は、メッセージ発行者キューから完了メッセージに対応するプロセス実行部をデキューし、且つ、そのプロセス実行部をウエイト状態からアクティブ状態に変化させ、結果を通知する。
【0042】以上のように、この実施例においては、計算機ネットワーク中に分散するコンピュータ群の中の1台のノードを集中管理ノード14として割り当て、他のノード11〜13からのメッセージをその集中管理ノード14で集中管理する。このため、集中管理ノード14は、全ての監視対象ノード11〜13の状態を把握することができ、各監視対象ノード11〜13内の応答待ちプロセスへの迅速な対応が可能となると共に、また、分散処理システム全体の保守員の人数および負荷の低減を実現できる。
【0043】
【発明の効果】以上のように、この発明によれば、分散処理システムを構成する各計算機からのメッセージを集中管理できるようになり、分散処理システムの運用性の向上、および保守員の負荷軽減を実現することができる。
【図面の簡単な説明】
【図1】この発明の一実施例に係わる分散処理システムのシステム構成を示すブロック図。
【図2】同実施例に設けられた集中管理ノードによって参照される運用定義情報の具体的内容の一例を示す図。
【図3】同実施例に設けられた監視対象ノードによって参照される運用定義情報の具体的内容の一例を示す図。
【図4】図3に示した運用定義情報がメッセージ出力先の決定のために使用されることを模式的に示す図。
【図5】同実施例の集中管理ノードにおける画面表示の一例を示すブロック図。
【図6】同実施例の監視対象ノードにおけるメッセージ転送動作を説明するフローチャート。
【図7】同実施例の集中管理ノードにおけるメッセージ管理動作を説明するフローチャート。
【符号の説明】
11,12,13…監視対象ノード、14…集中管理ノード、21a,21b…プロセス実行部、22,33…メッセージ制御部、23,31…ネットワーク制御部、34…入出力制御部。

【特許請求の範囲】
【請求項1】 ネットワークを介して結合された複数の電子計算機から構成される分散処理システムにおいて、前記複数の電子計算機の中の1台を集中管理ノード、他の複数の電子計算機をそれぞれ監視対象ノードとして割り当て、各監視対象ノード中の業務プロセスから発行される稼働状況メッセージを前記集中管理ノードに転送し、前記集中管理ノードにおいてそれら稼働状況メッセージを集中管理することを特徴とするメッセージ集中管理方式。
【請求項2】 ネットワークを介して結合された複数の電子計算機から構成される分散処理システムにおいて、前記複数の電子計算機の中の1台を集中管理ノード、他の複数の電子計算機をそれぞれ監視対象ノードとして割り当て、各監視対象ノードは、このノードに各種データ処理を依頼する端末と、ノード内で実行される業務プロセスから発行される稼働状況メッセージを、そのメッセージの属性にしたがって、前記集中管理ノードまたは前記端末のどちらに送出するかを選択するメッセージ制御手段と、前記ネットワークを介して前記稼働状況メッセージを前記集中管理ノードに転送する転送制御手段とを具備し、前記集中管理ノードは、前記各監視対象ノードから転送される稼働状況メッセージを所定の端末に画面表示する手段と、前記稼働状況メッセージを発行した監視対象ノードに対し、前記端末の操作にしたがって応答を返却する手段とを具備し、前記集中管理ノードにおいて前記各監視対象ノードからの稼働状況メッセージを集中管理することを特徴とするメッセージ集中管理方式。
【請求項3】 前記各監視対象ノードの転送制御手段は、前記ネットワークを介したメッセージ転送の障害の有無を検出し、障害発生時には、前記稼働状況メッセージの送出先を、前記集中管理ノードから前記ノード内端末に切り替える手段を具備していることを特徴とする請求項2記載のメッセージ集中管理方式。

【図1】
image rotate


【図2】
image rotate


【図3】
image rotate


【図4】
image rotate


【図5】
image rotate


【図6】
image rotate


【図7】
image rotate


【公開番号】特開平5−20281
【公開日】平成5年(1993)1月29日
【国際特許分類】
【出願番号】特願平3−176580
【出願日】平成3年(1991)7月17日
【出願人】(000003078)株式会社東芝 (54,554)