説明

通信システム

【課題】第1ノードが複数の第2ノードに第2ノードの動作の制御のために接続されている通信システムにおいて、第1ノードの第2ノードの制御能力のボトルネックを解消する。
【解決手段】複数の第2ノードが物理的相互接続のトポロジーとは異なる1つ又は複数の論理的相互接続内に配置されていて、第2ノードの各々がその論理的後側の第2ノードへ状態メッセージを送信する手段及びその論理的前側の第2ノードから受信した状態メッセージを監視してその状態を決定する手段を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信システム(分散計算システムを含む)の分野に関し、さらに詳細には、このような通信システムにおけるノード(又はコンピュータ)の障害処理のシステムに関する。
【背景技術】
【0002】
分散計算システムにおいては、複数の相互接続されたコンピュータの各々がアプリケーション・プログラムの部分を実行する。アプリケーション・プログラムの全体は、複数の相互接続されたコンピュータ上で同時に実行される分散ソフトウェア・システムにより実現される。コンピュータは通信システム(例えば、インターネット・プロトコル(IP)ネットワーク内のホスト)により相互接続されるノードを形成する。柔軟性の有る分散システムでは、1つ又は複数のコンポーネント・コンピュータの障害は、アプリケーションにより許容でき、そして別のコンピュータ(例えば、全く不使用の予備又は予備の能力を持つ現在使用中のコンピュータ)に置換えられて、それが分散計算システムで障害を発生したコンピュータの役割を引き継ぐことができるように適当なコード及びデータをロードすることにより、回復できる。従って、柔軟性の有る分散計算システムの構成は変化をし、マネージメント・システムにより制御される。
【0003】
典型的に遠隔のコンピュータに位置するマネージメント・システムは、分散アプリケーションを実行するコンピュータのオペレーションを監視し、そして、分散アプリケーション自身のオペレーションを監視する責任を有する。マネージメント・システムは、分散アプリケーションを実行するコンピュータの集まりの中にどんな新しいコンピュータを導入すること(例えば、全体の処理能力を増大するために)、及び必要ならばこの集まりからコンピュータを引退させること(例えば、ハードウェアのアップグレード又は置換えのために)、に関与する。マネージメント・システムはまた、分散アプリケーションの構成に関与し、そしてどのコンピュータが特定の処理タスクに割当てられるか及びどのようにコンピュータの集まりの中で処理負荷が分配されるかを制御する。このコンピュータの集まりの中の1つコンピュータが障害を発生した時、マネージメン・システムはこれを通知して、そしてこれを考慮してコンピュータ及び分散アプリケーションを再構成しなければならない。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2000−82053号公報
【特許文献2】特開平2−52538号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従って、このような分散システムにおいて、コンピュータの障害を効率的に検知する必要性がある。この問題への1つの可能な解決は、マネージメント・システムがインターネット・コントロール・メッセージ・プロトコル(ICMP)エコー要求メッセージを送ることにより、アプリケーション・コンピュータの各々を定期的に「ピング」することである。ICMPがメッセージ配達内にエラーを報告し、トラフイックを再度向け直する等のために使用される。ICMPエコー要求メッセージ(普通、「ピング」として知られている)は、受取ったコンピュータが直ちにICMPエコー・メッセージ(「ピング応答」)で返事をすることを要求する。これは、遠隔のコンピュータが合理的に正しく機能しているかどうか、そして、このような遠隔のコンピュータに使用できるネットワーク経路が利用可能であるかどうか(すなわち、コンピュータがその到達を必要としているどんな他のコンピュータへ到達するために使用可能な経路をアクセスできるかどうか)を決定する使用される。IPインターフェイスが機能しているコンピュータは、これらのメッセージに対してICMPエコー返答メッセージで応答することが要求される。これは、オペレーティング・システムの低レベルで生じ、そして、コンピュータが動作しているか否かを見るために普通に使用される。インターネット・エンジニアリング・タスク・フォース発行RFC1122「ホスト要件」1989年10月は、ICMP動作を記載している(3.2.2.6節、42−43頁参照)。
【0006】
これらのメッセージを頻繁に送ることにより(例えば、1秒間に複数回)、マネージメント・システムはアプリケーション・コンピュータの各々が機能していことを確証する。もし、応答が期限内に受信されない場合、これはコンピュータが障害を発生したかもしれないことを示す。しかし、メッセージはネットワーク内で失われることがあり、これは完全な信頼性がない。もし、いくつかの応答が到着しない場合、コンピュータ障害はより大きい自信でもって予測できるであろう。しかし、ネットワーク障害の可能性があり、そして回復プロセスの一部として探査されるべきである。もし、障害を起こしたと疑われるコンピュータの近辺のコンピュータからの応答が受信される場合、障害は疑わしいコンピュータ内にあることが合理的に想像される。一方、いくつかの近辺のコンピュータからの応答が受信されない場合は、ネットワーク自身が障害を有すると想像することが合理的である。
【0007】
アプリケーション・コンピュータがマネージメント・システムにより「ピング」(ICMPエコー要求メッセージ)されるのではない、代替的な解決はアプリケーション・コンピュータ自身が定期的にまだ稼動していることを知らせるメッセージ(必ずしも、ICMPメッセージでない)をマネージメント・システムに送ることである。再度、このように記載されたメッセージのいくつかが来ないとアプリケーション・コンピュータの障害を示すことになる。
【0008】
困ったことに、上記の両解決は同じ問題を有する。すなわち、各アプリケーション・コンピュータの負荷は大変小さいが、マネージメント・システムはアプリケーション・コンピュータ(この数は大きくなり得る)の各々とネットワーク・トラフイックを交換しなければならないため、ずっと大きな負荷をこうむる。このトラフイックは、マネージメント・システムが他の仕事を実行するための能力を低下させ、そして全体システムの大きさを制約する重要な要素となり、若しくは障害回復が所望よりも長い時間を要する重要な要素となるであろう。
【課題を解決するための手段】
【0009】
本発明は、第1ノード及び複数の第2ノードを含む通信システムを提供する。第1ノードは第2ノードの動作を制御するために複数の第2ノードに接続されている。複数の第2ノードは物理的相互接続されている。複数の第2ノードは1つ又は複数の論理的相互接続内に配置されていて、1つ又は複数の論理的相互接続のトポロジーは物理的相互接続のトポロジーとは異なる。第2ノードの各々は、状態メッセージをその論理的後側第2モードに送信するための手段及びその論理的前側第2ノードから受取った状態メッセージを監視してその状態を決定するための手段を含む。
【0010】
好適な実施の形態によれば、本発明は、第2ノードの各々がその論理的前側第2ノードへそれからの状態メッセージを要求するための制御メッセージを定期的に送信する手段と、その論理的後側ノードからの制御メッセージの受信を検知して検知された受信された制御メッセージに応答してその論理的後側ノードへ状態メッセージを送信する手段とを含んだシステムを提供する。
【図面の簡単な説明】
【0011】
【図1】従来技術による分散計算システムを示す図。
【図2】本発明による論理的リング内に配置された分散計算システムを示す図。
【図3】本発明による双方向論理的リングを示す図。
【発明を実施するための形態】
【0012】
以下に、本発明の実施の形態を添付図面を参照しながら、一例として説明する。
【0013】
図1は、IPネットワークを示し、ここではマネージメント・システム(すなわち、マネージメント・コンピュータ上で実行されるソフトウェア・システム)がマネージメント・ノード1に設けられていて、そして各々が複数の第2ノード2の異なる1つに設けられた複数のアプリケーション・コンピュータに、IPネットワーク3により接続されている。IPネットワークは、例えば、星、ツリー、バス又はメッシュ構成、あるいは、例えば、無線ネットワークの場合の無定形的に配置された接続媒体(例えば、銅、光ファイバーあるいは無線)を含む。実際には、IPネットワークは典型的に、これらの媒体の構成のいくつか又は全てが一緒に接続された組合せである。
【0014】
図2は、図1のシステムと同じ物理的トポロジーを持った分散計算システムである。しかし、第2ノード2は今度は矢印4に示されるように論理的リング内に配置されている。矢印4は論理的リング内の状態メッセージの流れる方向を示す。
【0015】
図2において、コンピュータの物理的配置及び接続は図1のそれから変更されていない。しかし、第2ノードの各々のアプリケーション・コンピュータは状態メッセージを送信することが要求されるその論理的後側(すなわち、論理的リング内で矢印4方向に並んだ次ぎのコンピュータ)を知り、それが状態メッセージを受取ることを期待するその論理的前側(すなわち、論理的リング内で反対方向に並んだ次ぎのコンピュータ)を知ることができるように、マネージメント・システムにより構成されたソフトウェアによりアプリケーション・コンピュータの各々は修正されている。論理的リング・トポロジー(すなわち、コンピュータ間の論理的接続の構成)は、物理的トポロジー(すなわち、コンピュータ間の物理的接続の構成)とは異なっていることに注意する。
【0016】
図2の実施の形態によれば、各アプリケーション・コンピュータは定期的にリング内のその論理的前側にICMPエコー要求メッセージを送り、そしてそこからのICMPエコー応答メッセージを待つ。応答は、論理的リング内でエコー要求メッセージの流とは反対向きに送られる。もし、有効な応答が所定の時間内に受信された場合、全てが順調である。もし、そうでなければ、ICMPエコー要求メッセージを送信したコンピュータはマネージメント・システム(適当なプロトコルを使用して)にその前側ノードが障害を起こしたようであることを通知する。この適当なプロトコルは、例えば、インターネット・エンジニアリング・タスク・フォースにより発行されたRFC1155「マネージメント情報の構造(SMI)」1990年5月及びRFC1157「シンプル・ネットワーク・マネージメント・プロトコル(SNMP)」1990年5月のシンプル・ネットワーク・マネージメント・プロトコル(SNMP)であり、特に、そのプロトコルの「トラップ」操作がマネージメント・コンピュータによりマネージメント・システムの注意を引くために、そして選択的にある興味有るデータをマネージメント・システムに配達するために使用される。このように、各アプリケーション・コンピュータが別の特定のアプリケーション・コンピュータに対する監視者として動作し、そしてコンピュータはそれ自身の障害をマネージメント・システムに警告するためのメッセージの発生はできないが、正常に機能しているその監視者がそのようなメッセージを発生できる。マネージメント・システムはまた、「登録」プロトコルを実行する(典型的には、SNMPを使用して)。これにより、新規に開始されたホスト・コンピュータにリング内の彼らの場所を知らせ、そしてリング内の既存のホストの前側−後側関係を調節して、新ホストの登場及び既存のホストの制御された引退(例えば、ハードウェア・アップグレード又は置換え)の両方を容易にする。このプロセスは、これらのホスト・コンピュータ上の分散アプリケーションの開始及び停止と密接に同期している。
【0017】
有利的に、本発明はマネージメント・システムへ周期的に監視メッセージを送信するルーチンを回避する。事実、全てのノードが動作している時(ほとんど、いつも)、マネージメント・システム上には余分な負荷がない。従って、より安くてパワフルでないコンピュータがこのマネージメント役割のために完全に十分に使用できる。
【0018】
本発明によるネットワークは、全体として見れば、従来の解決法と同数のメッセージを運んでいる。しかし、実際は、ネットワークはいくつかの「ローカル」サブネットワークから構成されていて、この場合の仮想リング回りのトラフイックはそれが発生した同じサブネットワーク内で終了し、そしてこれらサブネットワーク間で均等に分配されているトラフイックから主としてなる。結果として、ネットワーク回りのトラフイック負荷は大いに改良される。従って、IPネットワークの構造及び通信システム内のネットワーク下部のそれらの支持により、本発明による要求メッセージ及び対応する応答の大部分は<典型的に、全体のIPネットワークの一部に限定され、そしてIPネットワークの他の部分のネットワーク・インフラストラクチャー又は他のコンピュータに僅かな負荷又は負荷を課さない(各アプリケーション・コンピュータからの全ての障害検知トラフイックが単一点、すなわち、マネージメント・システム、に集中しなければならなかった従来の解決法とは異なる)。
【0019】
この理由のため、システムは全体として規模が可変である。一方、従来の解決法はマネージメント・システムに性能のボトルネックを有していた。これは、能力のボトルネックに達した時、全システムはそれ以上は成長できなかったことを意味する。本発明によるシステムにおいては、各コンピュータは小さな障害−検知関連負荷しか有さず、アプリケーション・コンピュータの数によってコンピュータ当りの負荷は大きくならないので、システムの大きさのこのような限界は存在しない。
【0020】
図3に示される本発明の別の実施の形態によれば、矢印4、5に示されるように、論理的リングは双方向的に動作する。図3の実施の形態によれば、各アプリケーション・コンピュータは周期的にリング内のその論理的前側及び論理的後側の両方にICMPエコー要求メッセージを送って、それらからのICMPエコー応答メッセージを待つ。応答は典型的には、論理リング内を対応するエコー要求メッセージの方向とは反対向きに送られる。図3から理解されるように、別のノードに論理的に隣接した(論理的リング内で)両ノードがその別のノードを監視して、それが障害を発生したかどうかを検知する。もし、ノードの障害が発生した場合、論理的に隣接したノードが独立にマネージメント・システムに通知する。このようにして、この実施の形態では、マネージメント・システムが実際のノード障害とは異なる単なるメッセージ損失を容易に区別できるため、信頼性を増すことができるという利点を有する。
【0021】
別の実施の形態によれば、同じ別のノードを検査している2つのノード間の通信が、マネージメント・システムに通知する前に、この別のノードの状態をより大きな自信でもって確立することを可能にする。
【0022】
別の実施の形態によれば、第2ノードの各々がアプリケーション・データを含み、そしてアプリケーション・メッセージが分散システムの部分の障害の際にデータ損失に対する保護方法として、ノード間でアプリケーション・データを転送するために使用される。この実施の形態によれば、ICMPではなくアプリケーション・メッセージが宛先ノードからの応答を要求するために使用され、そして通常は宛先ノードにより論理的リング構造を使用して承認される。もし、ある時間間隔にわたりデータ交換される必要が無い場合(すなわち、もし、状態の変化がない場合)、ナルアプリケーション・メッセージ又は従来のエコー要求が送られる。
【0023】
要求メッセージを送信して有効な応答を待つ代わりに、各ノードは単に規則的に状態メッセージをその上記の論理的後側へ送信して、そしてその論理的前側から受信された状態メッセージを監視することができる。
【0024】
状態メッセージは、発生したノード状態に関連した情報を含んでよく、又は、代替的に、状態メッセージの単なる到着をその発生ノードの状態の指示として使用してもよい。
【0025】
論理的リングの構造及び、特に、論理的リングの回りに配置される第2ノードの順序は、ノードの物理的配置及び相互接続により一切制限されない。
【0026】
本発明の別の実施の形態によれば、複数の第2ノードはリング以外の形、すなわち、メッシュ又は他の構成のある形、の論理的相互接続で構成できる。そして、各第2ノードに対する論理的後側及び論理的前側の識別は、論理的相互接続の設定の際に割当てられる。論理的相互接続のトポロジー(すなわち、コンピュータ間の論理的接続の配置)は物理的トポロジーとは異なる。

【特許請求の範囲】
【請求項1】
第1ノード及び複数の第2ノードを含み、第1ノードが複数の第2ノードに接続されていて第2ノードの動作を制御し、複数の第2ノードが物理的相互接続されている通信システムであって、
複数の第2ノードが1つ又は複数の論理的相互接続内に配置されており、1つ又は複数の論理的相互接続のトポロジーが物理的相互接続のトポロジーとは異なり、
第2ノードの各々が、その論理的後側第2ノードへ状態メッセージを送信する手段及びその論理的前側第2ノードから受信した状態メッセージを監視してその状態を決定する手段を含んでいる通信システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−85339(P2012−85339A)
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願番号】特願2011−277098(P2011−277098)
【出願日】平成23年12月19日(2011.12.19)
【分割の表示】特願2001−582969(P2001−582969)の分割
【原出願日】平成13年5月1日(2001.5.1)
【出願人】(306045626)エリクソン アクチボラゲット (6)
【氏名又は名称原語表記】Ericsson AB
【住所又は居所原語表記】Torshamngaten 23,SE−164 80 Stockholm,Sweden
【Fターム(参考)】