説明

管理システムおよびその管理方法

【課題】 処理システムに接続された負荷率の低い処理手段が管理手段の機能を代行できるようにする管理システムを提供する。
【解決手段】 処理手段100−1〜100−nのそれぞれは、負荷を処理する第1の制御部と、所定期間における平均的な負荷率を算出する平均負荷算出部とを具備し、管理手段200は、処理手段100−1〜100−nを管理する第2の制御部と、第2の制御部の動作状態から障害を検出する障害検出部とを具備し、平均負荷算出部は、算出した負荷率平均を管理手段の第2の制御部および指定手段の第1の制御部へ送出し、障害検出部は、第2の制御部に障害が発生したことを検出するとその旨を送出し、指定手段の第1の制御部は、第2の制御部での障害の発生が通知されると、算出された負荷率平均が最も低い処理手段を管理手段の代わりとして指定する管理システムである。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータシステムに係り、特にシステム管理のための管理モジュールの機能切替方式に関する。
【背景技術】
【0002】
従来、複数のサーバもしくはコンピュータが接続された処理システムがある場合に、この処理システムは処理システムを管理するための管理システムの機能を併せて有していることが多く、この管理システムのために管理用のサーバが設けられている。
【0003】
管理用のサーバは、この処理システム全体の電源制御を行ったり、各サーバ、コンピュータモジュールの電源制御を個別に行ったり、各サーバもしくは各コンピュータの稼働状況などに関する情報の一括管理を行っている。
【0004】
この管理用のサーバに障害が発生して処理システムの管理が行えないような事態が発生した場合に対処するため、管理用のサーバをもう1台追加して管理用のサーバを二重化することにより、この追加された管理用のサーバが既に設置されている管理用のサーバの機能を代行して、ネットワーク管理システムの信頼性を向上させる技術が公知となっている。
【0005】
例えば、ネットワーク管理を行うマネージャを現用系マネージャと予備系マネージャとしてそれぞれ設け、この現用系マネージャと予備系マネージャとの間の通信量を削減しつつ、現用系マネージャに重大な障害が発生した場合にも確実に予備系マネージャへの切り換えが可能なネットワーク管理システムが提案されている(特許文献1参照)。
【0006】
また、稼働側親局と待機側親局とを設けて、この稼働側親局と待機側親局とが入れ替わる二重化切換を必要最小時間で確実に行う二重化制御システムの二重化切換方法が提案されている(特許文献2参照)。
【0007】
また、管理アプリケーションおよび被管理アプリケーションを有しており、管理装置が故障したり負荷が高くて十分に機能が発揮できないときでも、被管理アプリケーションに稼動状況を問い合わせ、他の被管理アプリケーションと同期を取るためにロックをし、その稼動状況の報告から稼働率が低い管理アプリケーションに管理させることを決める分散システム管理方式及び分散システム管理方法が提案されている(特許文献3参照)。
【特許文献1】特開2000−307579号公報
【特許文献2】特開2004−078425号公報
【特許文献3】特開平8−123768号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、現用系マネージャと予備系マネージャとを有するネットワーク管理システムもしくは、稼働側親局と待機側親局とを有した二重化制御システムなどの冗長系システムでは、マネージ用のサーバとして現用系マネージャと予備系マネージャとの2台必要であったり、管理用のサーバとして稼働側親局と待機側親局との2台必要であるため、この2台のマネージ用もしくは管理用のサーバを設けるためのコストが大きくなってしまうという問題があった。
【0009】
また、管理アプリケーションおよび被管理アプリケーションを用いた分散システム管理方式の場合には、他の被管理アプリケーションと同期を取るためにロックをし、その稼動状況の報告から稼働率が低い管理アプリケーションに管理させることを決めるため、ロックしたときにたまたま稼動率が低いというだけで管理が移行されることがあり、管理移行後すぐに稼働率が上がることで、再度他の管理アプリケーションに管理を移行する必要が生じるという問題があった。
【0010】
そこで本発明の目的は、管理サーバを二重化することを不要とし、処理システムに接続された負荷率の低いサーバが管理サーバの機能を代行できるようにする管理システムを提供することにある。
【課題を解決するための手段】
【0011】
上記目的を達成するために、本発明の管理システムの第1の発明は、それぞれ独立に負荷の処理を行う複数の処理手段と、該複数の処理手段を管理する管理手段とが接続手段を介して接続された管理システムであって、
前記複数の処理手段のそれぞれは、
前記負荷を処理する第1の制御部と、
前記第1の制御部の所定期間における平均的な負荷率を算出する平均負荷算出部と、を具備し、
前記管理手段は、
前記複数の処理手段を管理する第2の制御部と、
前記第2の制御部の動作状態から障害を検出する障害検出部と、を具備し、
前記複数の処理手段のうち1つは、前記第2の制御部に障害が発生したときに、前記複数の処理手段のいずれかを前記管理手段の代わりとして指定する指定手段とされ、
前記平均負荷算出部のそれぞれは、算出した前記負荷率を前記指定手段の前記第1の制御部または前記管理手段の前記第2の制御部へ送出し、
前記障害検出部は、前記第2の制御部に障害が発生したことを検出するとその旨を前記指定手段の第1の制御部へ送出し、
前記指定手段の前記第1の制御部は、前記第2の制御部での障害の発生が前記障害検出部から通知されると、算出された前記負荷率が最も低い前記処理手段を前記管理手段の代わりとして指定する管理システムである。
【0012】
第2の発明は、第1の発明に記載の管理システムにおいて、
前記平均負荷算出部が、
前記障害検出部の前記障害検出の時刻を含む前記所定期間の前記負荷率を示す第1の負荷率と、
前記第1の負荷率の前記所定期間よりも所定時間前の前記所定期間の前記負荷率を示す第2の負荷率平均と、を算出し、
前記指定手段の前記第1の制御部が、
前記複数の処理手段のおのおのの前記第1の負荷率と、前記第2の負荷率とを比較して、それぞれの前記処理手段の前記第2の負荷率から前記第1の負荷率への変化に基づいて、前記複数の処理手段のそれぞれの前記第1の負荷率平均の後の前記所定時間の前記負荷率を予測するものである。
【0013】
第3の発明は、第1の発明に記載の管理システムにおいて、
前記第1の制御部は、
前記負荷率を前記指定手段または前記管理手段に読み書き可能であるものである。
【0014】
第4の発明は、第1の発明に記載の管理システムにおいて、
前記第2の制御部は、
複数の処理手段を管理する情報を前記処理手段から収集し、該情報を前記指定手段または前記管理手段に読み書き可能であるものである。
【0015】
第5の発明は、第1の発明に記載の管理システムにおいて、
前記障害検出部の障害の検出が、ウォッチドッグタイマにより行われるものである。
【0016】
第6の発明は、第1の発明に記載の管理システムにおいて、
前記管理手段と、前記複数の処理手段の1つとが前記接続手段を介して接続され、
前記複数の処理手段の1つと、前記複数の処理手段の他の1つとが前記接続手段を介して接続され、
前記複数の処理手段の他の1つと、前記複数の処理手段のさらに他の1つとが前記接続手段を介して接続され、
同様に、前記複数の処理手段が順次接続されたものである。
【0017】
第7の発明は、それぞれ独立に負荷の処理を行う複数の処理手段と、該複数の処理手段を管理する管理手段とが接続手段を介して接続された管理システムの管理方法であって、
前記複数の処理手段のそれぞれは、
前記負荷を処理するステップと、
前記複数の処理手段の所定期間における平均的な負荷率を算出するステップと、を有し、
前記管理手段は、
前記複数の処理手段を管理するステップと、
前記管理手段の動作状態から障害を検出するステップと、を有し、
前記複数の処理手段のうち1つは、前記管理手段に障害が発生したときに、前記複数の処理手段のいずれかを前記管理手段の代わりとして指定する指定手段とされ、
前記複数の処理手段のそれぞれは、算出した前記負荷率を前記指定手段または前記管理手段へ送出し、
前記管理手段は、前記管理手段に障害が発生したことを検出するとその旨を前記指定手段へ送出し、
前記指定手段は、前記管理手段での障害の発生が前記管理手段から通知されると、算出された前記負荷率が最も低い前記処理手段を前記管理手段の代わりとして指定する管理システムの管理方法である。
【0018】
本発明において、複数の処理手段である処理サーバもしくはコンピュータが、接続手段を介して接続された処理システムがあり、この処理システムを管理するための管理手段としての管理サーバが処理システムに接続されて管理システムが構成されている。
【0019】
処理システムに接続されている各処理サーバもしくは各コンピュータは、一般的な処理サーバの機能を有するほか、処理システムの管理を行う機能を備えている。
【0020】
通常は、従来同様に管理サーバが処理システムの管理を行い、この管理サーバは、処理システムの管理を行うに際しては、複数の処理サーバのうちから1台をあらかじめ仮の管理サーバである指定手段として決めておく。
【0021】
この指定手段は、管理サーバが正常に稼働しているときには、管理サーバが収集した情報の内システム管理に必要な情報を管理サーバから受け取り、記憶しておく。
【0022】
管理サーバが何らかの原因で障害を発生して、この障害が障害検出部により検出されると、この障害検出の情報は、指定手段に指定された処理サーバに通知される。
【0023】
指定手段は、障害を検出したという通知を管理サーバから受けると、各処理サーバの所定期間における平均的な負荷率である負荷率平均を比較する。
【0024】
この負荷率平均を算出するにあたっては、先ず、接続手段に接続されている各処理サーバごとに、負荷の軽重に基づいて時刻ごとの負荷率が算出される。この時刻ごとの負荷率は、処理サーバ自身の稼働状況を時刻ごとに示したものである。
【0025】
負荷率平均は、さらにこの算出した時刻ごとの負荷率をもとに所定期間における単位時間当たりの負荷率の平均を算出したものである。
【0026】
指定手段は、この各処理サーバの負荷率平均を比較して、算出された負荷率平均が最も低い処理サーバを管理手段の代わりとして指定する。
【0027】
このため、本発明の管理システムは、負荷率の変動の大きい処理サーバが代わりの管理サーバになる可能性が低く、処理サーバである代わりの管理サーバがもとの管理サーバからの管理を移管された後、安定して処理システムの管理ができる管理システムとなっている。
【発明の効果】
【0028】
本発明によれば、コストを大幅に増加させることなく処理システムを管理する管理システムを実現できるので、低コストで管理システムの信頼性をより向上させることができる。
【発明を実施するための最良の形態】
【0029】
本発明を実施するための形態について図面を参照して詳細に説明する。
【0030】
図1は、本実施形態の管理システムの構成例を示すブロック図である。
【0031】
図示したように管理システムは、それぞれ独立に負荷を処理する複数の処理手段としての処理サーバ100−1〜100−nと、処理サーバ100−1〜100−nを備えて構成される処理システムを管理する管理手段としての管理サーバ200とが、接続手段であるバス901及び障害専用パス902を介して接続され、構成される。
【0032】
本実施形態では、これらの処理サーバ100−1〜100−nは、互いに同様の構成部位・機能を有しており、特に断らない限り処理サーバ100−1〜100−nは、互換性を有しているものとする。
【0033】
処理サーバ100−1〜100−nおよび管理サーバ200は、図に示したとおり接続手段であるバス901及び障害専用パス902を介して順次接続されて、管理システムを形成している。
【0034】
このような管理システムの接続は、IEEE(Institute of Electrical and Electronic Engineers:電気電子学会)の定めた規格IEEE1394に明記されたデージィーチェイン(daisy chain:数珠繋ぎ)接続と同様の接続となっている。
【0035】
バス901は、例えばサーバ管理ハードウェアのための内部バス仕様であるIPMB(Intelligent Platform Management Bus)、サーバに他のIPMBを接続するための外部バス仕様であるICMB(Intelligent Chassis Management Bus)などのバスインタフェイスで構成されている。
【0036】
障害通知パス902は、管理サーバ200で発生した障害を管理サーバ200から処理サーバ100−1〜100−nに通知する専用のパスとなっており、例えば障害通知パス902の信号がレベル「高」のとき管理サーバ200に障害が発生していることを示し、障害通知パス902の信号がレベル「低」のとき管理サーバ200に障害が発生していないことを示すものとする。
【0037】
この管理システムにおいて、あらかじめ管理サーバ200によって、複数の処理手段のうち1つは、管理手段200の第2の制御部に障害が発生したときに、複数の処理サーバ100−1〜100−nのいずれかを管理手段200の代わりとして指定する指定手段とされる。
【0038】
図2は、本実施形態の管理システムの処理サーバの構成例を示すブロック図である。
【0039】
図を参照すると、処理サーバ100−1は、処理サーバ100−1に負荷として供給されたデータなどの処理を行い処理サーバ100−1の各構成部位などを制御・管理する第1の制御部としてのサーバ制御部105−1と、サーバ制御部105−1でデータ処理されたデータもしくは他のサーバから送信されたデータを記憶する読み書き可能な第1の制御情報部102−1と、サーバ制御部105−1の処理する負荷により負荷率を算出する負荷率算出部103−1と、負荷率算出部103−1で算出された負荷率をもとにしてサーバ制御部105−1の所定期間における平均的な負荷率を算出する平均負荷算出部104−1とを備えて構成されている。
【0040】
制御情報部102−1はサーバ制御部105−1に接続されており、制御情報部102−1はバス901に接続されており、負荷率算出部103−1はサーバ制御部105−1に接続されており、平均負荷算出部104−1はサーバ制御部105−1に接続されており、負荷率算出部103−1は平均負荷算出部104−1に接続されており、サーバ制御部105−1は、バス901を介して他の処理サーバ100−1〜100−nのサーバ制御部と接続されており、サーバ制御部105−1は、障害通知パス902を介して管理サーバ200の障害検出部に接続されている。
【0041】
制御情報部102−1は、処理サーバ100−1〜100−nでデータ処理されたデータもしくは管理サーバ200から送信されたシステム管理情報などのデータを記憶し、記憶されたデータを処理サーバ100−1〜100−n、200の要求に応じて読み出すことのできるデータベースの機能を有している。
【0042】
このシステム管理情報の管理サーバ200から制御情報部102−1への書き込みは、処理サーバ100−1が管理サーバ200からあらかじめ管理サーバ200の代わりとして指定手段の指定を受けているときに行われる。
【0043】
負荷率算出部103−1は、例えば処理サーバ100−1のサーバ制御部105−1内に設けられている図示しない中央演算処理装置の稼働状況を監視して中央演算処理装置の負荷率をあらかじめ定めたサンプリングタイムで定期的に得たり、処理サーバ100−1と処理サーバ100−1の接続されているバス901とのトラフィック量を監視してトラフィック量による処理サーバ100−1の負荷量を得る演算処理を行うことにより処理サーバ100−1の稼働状態を示す負荷の軽重を負荷率として算出する機能を有する。
【0044】
以降、この負荷率算出部103−1で算出された時刻ごとの負荷率を、平均負荷算出部104−1で算出される平均的な負荷率と区別するために、瞬時負荷率と称する。
【0045】
負荷率算出部103−1で算出された瞬時負荷率は、この瞬時負荷率が得られた時刻とともに制御情報部102−1に記憶され、指定手段の第1の制御部(サーバ制御部)、管理手段200の第2の制御部(サーバ制御部)または制御情報部へ送出される。
【0046】
これに対して、平均負荷算出部104−1で算出された平均的な負荷率を以降、負荷率平均と呼ぶ。この負荷率平均も、負荷率算出部103−1で算出された瞬時負荷率と同様に制御情報部102−1に記憶され、指定手段の第1の制御部(サーバ制御部)、管理手段200の第2の制御部(サーバ制御部)または制御情報部へ送出される。
【0047】
または、この制御情報部102−1に記憶された瞬時負荷率もしくは制御情報部102−1に記憶された負荷率平均は、他の処理サーバ100−1〜100−n、管理サーバ200からの問い合わせ要求に応じて、問い合わせのあった処理サーバ100−1〜100−n、管理サーバ200に出力されることでもよい。
【0048】
このように負荷率平均を他のサーバに対して回答することにより、処理サーバ100−1〜100−nの瞬時負荷率の変動が著しく時間的な偏った負荷にも対応して管理サーバ200から管理サーバ200を代行する処理サーバ100−1〜100−nへの切り替えを円滑に行うことができる。
【0049】
サーバ制御部105−1は、制御情報部102−1もしくは他の処理サーバ100−2〜100−n、管理サーバ200の制御情報部に処理サーバ100−1に関するシステム管理情報などのデータを送って記憶させ、また、制御情報部102−1もしくは他の処理サーバ100−2〜100−n、管理サーバ200の制御情報部に記憶されたシステム管理情報などのデータを読み出す機能を有している。
【0050】
このサーバ制御部105−1の読み書き可能な機能のため、管理サーバ200のサーバ制御部205、処理サーバ100−1〜100−nのサーバ制御部の負荷を軽くし、また処理サーバ100−1〜100−nで得られた電圧監視情報、温度情報などのシステム管理情報を温度データ取得後などの適切なタイミングで管理サーバ200に送信することができる。
【0051】
図3に示す処理サーバ100−nは、図2に示した処理サーバ100−1と同様の構成・機能を有するn台目のサーバである。
【0052】
処理サーバ100−nの各構成部位の説明については、処理サーバ100−1と同様であるため省略する。
【0053】
なお、この処理サーバ100−nの各構成部位は、処理サーバ100−1と同様の表記をし、他の2台目の処理サーバ100−2〜n−1台目の処理サーバ100−n−1についても同様の表記とする。例えば、処理サーバ100−nの制御情報部の表記は、制御情報部102−nである。
【0054】
図4は、本実施形態の管理システムの管理サーバの構成例を示すブロック図である。
【0055】
図示したように管理サーバ200は、処理システムの各処理サーバ100−1〜100−nなどから収集した処理サーバ100−1〜100−nの障害情報、電圧監視情報、温度情報などのシステム管理情報により処理システムを監視し、管理システムの管理を行う第2の制御部としてのサーバ制御部205と、サーバ制御部205で収集したシステム管理情報もしくは他の処理サーバ100−1〜100−nのサーバ制御部から送信されたシステム管理情報などのデータを読み書きする第2の制御情報部202と、サーバ制御部205の動作状態からサーバ制御部205で生じた障害を検出して他の処理サーバ100−1〜100−nに通知する障害検出部203とを備えて構成されている。
【0056】
管理サーバ200は、収集したシステム管理情報に基づいて、処理サーバ100−1〜100−nなどの障害を示す障害情報から、処理システムの障害の有無を監視したり、電圧監視情報から処理サーバ100−1〜100−nの電源電圧の正常/異常などを監視したりすることにより、処理システムの管理を行い、システム管理情報に異常が認められる場合には、この異常を管理サーバ200の図示しないモニタに表示したり、アラームを鳴動させることでシステム管理者に通知する。
【0057】
また管理サーバ200は、障害情報の示す障害の程度が軽く可能な場合には障害の除去を行い、電源電圧の制御、電源の切/断などの制御が可能な場合には電源電圧の制御を行って処理システムを復帰させることで、処理システムの管理を行う。
【0058】
制御情報部202はサーバ制御部205に接続されており、制御情報部202はバス901に接続されており、障害検出部203はサーバ制御部205に接続されている。障害検出部203は、障害通知パス902を介して他の処理サーバ100−1〜100−nのサーバ制御部105−1〜105−nに接続され、サーバ制御部205は、バス901を介して他の処理サーバ100−1〜100−nのサーバ制御部105−1〜105−nに接続されている。
【0059】
ここで、サーバ制御部205が収集するシステム管理情報は、例えば次に説明するデータである。
【0060】
障害情報は、サーバ制御部205が、各処理サーバ100−1〜100−nの稼働状況を監視して得た情報であり、何らかの原因で処理サーバ100−1〜100−nの稼働が低下したり、処理サーバ100−1〜100−nが稼働しなくなったなどの処理サーバ100−1〜100−nに生じた異常、障害の内容を示すデータである。
【0061】
電圧監視情報は、サーバ制御部205が、各処理サーバ100−1〜100−nに供給される電源電圧を監視して得た情報であり、この電源電圧の監視により処理サーバ100−1〜100−nに規定の電圧の電源が供給されているかを示すデータである。
【0062】
温度情報は、サーバ制御部205が、各処理サーバ100−1〜100−nの筐体内の温度を監視して得た情報であり、この温度の監視により処理サーバ100−1〜100−nの筐体内が何度になっているかを示すデータである。
【0063】
サーバ制御部205は、システム管理情報などのデータを制御情報部202もしくは制御情報部102−1〜102−nに送って記憶させたり、制御情報部202もしく制御情報部102−1〜102−nに記憶されたシステム管理情報などのデータを読み出す機能も有しており、管理サーバ200の各構成品の制御を行う機能も有する。
【0064】
障害検出部203は、例えば、サーバ制御部205の稼働状態、サーバ制御部205内に設けられている図示しない中央演算処理装置の稼働状況、管理サーバ200内の各部の稼働状態やサーバ制御部205とバス901とのトラフィック状態やトラフィック量を監視することにより、サーバ制御部205などの管理サーバ200内の構成部位が障害になったことを検出する。この検出された障害の発生もしくは障害内容は、仮に定めた指定手段に通知される。
【0065】
障害検出部203の具体的な障害検出の方法は、例えば管理サーバ200のサーバ制御部205などが自ら発する重障害報告を障害検出部203が受けることによったり、あらかじめ管理サーバ200内に設置されたウォッチドッグタイマ(watchdog timer:監視タイマ)による監視により障害検出部203が障害を検出したり、あらかじめ設置されたエラーレジスタ、ハードビットなどによる監視によって、この監視結果から障害を検出する。
【0066】
オペレーティングシステムや使用されているアプリケーション(ソフトウェアプログラム)のウォッチドッグタイマによる動作監視の場合には、このウォッチドッグタイマに一定時間間隔ごとにあらかじめ定めた初期値を設定するようにしておく。初期設定されたウォッチドッグタイマの初期設定からのカウントダウン値が零になったときに、監視されているオペレーティングシステム、アプリケーションが障害を起こしていることが分かる。
【0067】
障害検出部203は、例えばこのウォッチドッグタイマのカウント値が零になったことを検出して、障害が発生したことを検知し、指定手段に通知する。
【0068】
次に、この管理システムの動作について図1〜図4を参照して詳細に説明する。
【0069】
管理サーバ200は、あらかじめ処理サーバ100−1〜100−nの中から任意に、処理サーバ100−1〜100−nのいずれか1台を指定手段に指定する。
【0070】
または、管理サーバ200が、処理サーバ100−1〜100−nの瞬時負荷率または負荷率平均を定期的に収集し、この瞬時負荷率または負荷率平均に基づいて、処理サーバ100−1〜100−nのいずれか1台を指定手段に指定するとよい。この場合には、各処理サーバ100−1〜100−nの稼働状況が、時が経つにつれて変動するので、定期的に指定手段の指定を更新するとよい。
【0071】
また、負荷率算出部103−1〜103−nの算出した各負荷率平均をもとにサーバ制御部205が指定手段を決定してもよい。
【0072】
ここでは説明の都合上、管理サーバ200が指定する処理サーバ100−nを指定手段として説明を続ける。
【0073】
サーバ制御部205は、処理システムをマネージメントするためにバス901を介して各処理サーバ100−1〜100−nからシステム管理情報などを収集して、システム管理情報を制御情報部202、指定手段の制御情報部102−nに書き込む。
【0074】
このシステム管理情報は、制御情報部102−nにも格納されていることで、管理サーバ200と指定手段である処理サーバ100−nは、同じシステム管理情報を共有することができる。
【0075】
また、障害などのなんらかの理由で管理サーバ200の制御情報部202に格納されているシステム管理情報が読み出せなくなった場合には、処理サーバ100−nもしくは管理サーバ200は、システム管理情報を制御情報部202から読み出す代わりに、格納されているシステム管理情報をバス901を介して制御情報部102−nから読み出すことができる。
【0076】
処理サーバ100−1〜100−nは、供給された負荷の処理をサーバ制御部105−1〜105−nで行い、必要に応じて自身のシステム管理情報を制御情報部102−1〜102−n、202に格納する。
【0077】
各負荷率算出部103−1〜103−nは、このサーバ制御部105−1〜105−nの稼働状態を検出して、演算により時々刻々変化する瞬時負荷率をおのおの求める。
【0078】
負荷率算出部103−1〜103−nは、求めた瞬時負荷率とこの負荷率を稼働状態を検出した時刻とを逐次制御情報部102−1〜102−nに格納し、平均負荷算出部104−1〜104−nにも送信する。
【0079】
平均負荷算出部104−1〜104−nは、負荷率算出部103−1〜103−nから送信された瞬時負荷率とこの瞬時負荷率を稼働状態を検出した時刻とのデータから、このデータを所定期間(例えば、所定期間を10分とする)ごとにまとめて、この所定期間ごとに負荷率の平均を算出する。
【0080】
このようにして算出された負荷率平均は、指定手段の問い合わせに応じて、平均負荷算出部104−1〜104−nからサーバ制御部105−1〜105−n及びバス901を介して指定手段に出力される。
【0081】
また、処理サーバ100−1〜100−nは、あらかじめ決められた時間毎に、算出された瞬時負荷率および負荷率平均をサーバ制御部105−1〜105−n及びバス901を介して管理サーバ200および指定手段に出力するようにしておいてもよい。
【0082】
このようにして、管理サーバ200は、システム管理情報および負荷率平均などを常時収集しているが、何らかの原因でサーバ制御部205に障害が発生して、この障害の発生のためサーバ制御部205などが動作できない状態になったとする。
【0083】
この場合、例えば障害の発生により、管理サーバ200に設けられた図示しないウォッチドッグタイマのカウントダウンが進行してカウントが零となり、カウントが零になったことで障害検出部203は発生した障害を検出する。
【0084】
この障害を検出した障害検出部203は、管理サーバ200に障害が発生したことを障害通知パス902を介して指定手段のサーバ制御部105−nに通知する。
【0085】
サーバ制御部105−nは、障害検出部203から障害検出の通知である障害通知パス902の信号のレベル「高」を受信すると、処理サーバ100−1〜100−nで算出された負荷率平均を互いに比較することにより、負荷率平均が最も軽い処理サーバ100−1〜100−nを管理サーバ200に代わる正式な管理サーバとして決める。
【0086】
例えば、指定手段が処理サーバ100−3を管理サーバ200に代わる管理サーバに決めたとする。
【0087】
サーバ制御部105−nは、処理サーバ100−3が管理サーバ200に代わる管理サーバになったことを処理サーバ100−3のサーバ制御部105−3にバス901を介して通知し、同様に他のサーバ制御部105−1、105−2、105−4〜105−nにもバス901を介して通知する。
【0088】
処理サーバ100−3は、指定手段からこの管理サーバの代行になった通知を受領すると、この通知により管理サーバとして処理システムのシステム管理を開始する。
【0089】
この管理サーバ200に代わる管理サーバを以降、代管理サーバと称する。
【0090】
処理サーバ100−3が代管理サーバとしてシステム管理を開始するに当たり、これまで指定手段であった処理サーバ100−nを引き続き指定手段としてもよい。
【0091】
また、指定手段である処理サーバ100−nが管理サーバ200に代わる代管理サーバを決める際に、処理サーバ100−nが収集し比較した各処理サーバ100−1〜100−nの負荷率平均により、処理サーバ100−3に次いで軽い負荷率平均を示す処理サーバ100−1〜100−nを新たに指定手段としてもよい。
【0092】
指定手段は、それまで管理サーバ200が収集し、管理サーバ200の制御情報部202および制御情報部102−nに格納していたシステム管理情報を、制御情報部102−nから読み出し、代管理サーバである処理サーバ100−3の制御情報部102−3に書き込むとともに、代管理サーバ決定後に指定手段に指定された処理サーバ100−1〜100−nの制御情報部102−1〜102−nにも同様の書き込みを行う。
【0093】
処理サーバ100−3は、この制御情報部102−3に書き込まれたシステム管理情報およびサーバ制御部105−3が収集を開始したシステム管理情報をもとにして、管理サーバ200に代わって処理システムのシステム管理を行う。
【0094】
この代管理サーバである処理サーバ100−3のシステム管理下においても、各処理サーバ100−1〜100−nは、管理サーバ200がシステム管理を行っていたときと同様に算出した瞬時負荷率および負荷率平均を自身の制御情報部102−3に格納し、新たな指定手段の制御情報部にも格納する。
【0095】
これにより、サーバ100−3の負荷が重くなり、管理サーバ200に代わって代管理サーバの役割を果たすことが難しくなった場合には、サーバ100−3は指定手段に負荷の増加を通知する。
【0096】
指定手段は、この通知を受けると各処理サーバ100−1〜100−nの負荷率平均を互いに比較して、最も負荷率平均の低い処理サーバ100−1〜100−nを選択することで、処理サーバ100−3の代わりに管理サーバ200のシステム管理の代行を行う処理サーバ100−1〜100−nを選択することができる。
【0097】
この場合、処理サーバ100−3が、負荷が重くなったが障害に到っていない場合には、処理サーバ100−3が、指定手段の代わりに代管理サーバを決定してもよい。
【0098】
このように、平均負荷算出部104−1〜104−nで算出した負荷率平均を比較して各処理サーバ100−1〜100−nの負荷を比較することにより、単に負荷率算出部103−1〜103−nにより算出された瞬時負荷率を比較して瞬時負荷率の最も低い処理サーバ100−1〜100−nを代管理サーバとして選択することにより管理サーバ200に障害が発生したときに、たまたま短時間だけ急激に負荷が軽くなった処理サーバ100−1〜100−nが代管理サーバとなる弊害を回避することができる。
【0099】
このように、管理システムは、管理モジュールである管理サーバ200内に他の処理サーバ100−1〜100−nからも読み書き可能な制御情報部202を有しており、また、管理サーバ200は、他の処理サーバ100−1〜100−nの制御情報部102−1〜102−nに読み書きできるサーバ制御部205を有している。
【0100】
また、管理システムは、処理サーバ100−1〜100−n内に他のサーバ100−1〜100−n、管理サーバ200からも読み書き可能な制御情報部102−1〜102−nを有しており、また、処理サーバ100−1〜100−nは、他の制御情報部102−1〜102−n、202に読み書きできるサーバ制御部105−1〜105−nを有している。
【0101】
このため、本実施形態の管理システムは、従来のような管理サーバの二重化のための管理モジュールを不要としており、処理サーバ100−1〜100−nが管理サーバ200の代わりをすることができる。
【0102】
また、処理サーバ100−1〜100−nに負荷算出部103−1〜103−nおよび平均負荷算出部104−1〜104−nを設け、各サーバ制御部105−1〜105−nの負荷を正確に把握することで、サーバ制御部105−1〜105−nの負荷を軽減したり、サーバ制御部105−1〜105−nの性能低下を防止することができる。
【0103】
このような管理システムが実現されることで、管理サーバ200に関わる管理サーバの二重化のコストを低く抑えることができる。
【0104】
次に、管理システムが、さらに求めた負荷率平均の変化から各処理サーバ100−1〜100−nの負荷率平均を予測する動作について詳細に説明する。
【0105】
ここで、各平均負荷算出部104−1〜104−nで求めた各処理サーバ100−1〜100−nのある時点での負荷率平均を比較して、例えば処理サーバ100−3の負荷率平均が最も低く、2番目に負荷率平均の低かったサーバが処理サーバ100−1であったとする。
【0106】
図5は、平均負荷算出部104−1、104−3によってそれぞれ算出された処理サーバ100−1、100−3の負荷率平均の変化を示す図である。
【0107】
図示したように、横軸は時間を示し、縦軸は負荷率平均を示し、図中折れ線701は処理サーバ100−1の負荷率平均の変化を示し、折れ線703は処理サーバ100−3の負荷率平均の変化を示す。
【0108】
図中で、時間T2は、障害検出部203が障害を検出して、指定手段に通知した時刻を含む所定期間であり、時間T1は、障害検出部203がサーバ制御部205から障害を検出しておらず、管理サーバ200が動作していた時間T2よりも所定期間前の時間とする。
【0109】
また、時間T3は、障害検出部203が障害を検出したのち、管理サーバ200から処理サーバ100−1〜100−nのうちの1台が代管理サーバに指定され、この代管理サーバが正常にシステム管理を行っている状態での所定期間を示す。
【0110】
ここでは、説明の簡単のため、時間T1と時間T2との間隔および時間T2と時間T3との間隔は、等しいものとして説明する。
【0111】
この時間T2の負荷率平均は、請求項2および第2の発明に記載の前記障害検出部の前記障害検出の時刻を含む前記所定期間の前記負荷率を示す第1の負荷率に相当し、時間T1の負荷率平均は、請求項2および第2の発明に記載の前記第1の負荷率の前記所定期間よりも所定時間前の前記所定期間の前記負荷率を示す第2の負荷率平均に相当し、この時間T3の負荷率平均は、請求項2および第2の発明に記載の前記複数の処理手段のそれぞれの前記第1の負荷率平均の後の前記所定時間の前記負荷率に相当する。
【0112】
図に示した負荷率平均L1〜L5は、処理サーバ100−1、100−3の負荷率平均の値を示しており、例えば、負荷率平均L1は、時間T1での処理サーバ100−3の負荷率平均の値を示し、負荷率平均L4は、時間T1での処理サーバ100−1の負荷率平均の値を示している。
【0113】
ここで、処理サーバ100−nが上で説明した負荷率平均を比較したときの負荷率平均が時間T2の値であったとする。図中から分かるように、時間T2における処理サーバ100−3の負荷率平均は負荷率平均L2であり、時間T2における処理サーバ100−1の負荷率平均は負荷率平均L3である。
【0114】
このように、時間T2の処理サーバ100−3の負荷率平均L2は、処理サーバ100−1の負荷率平均L3よりも低いことが分かる。
【0115】
また、時間T2より前の時間T1における両処理サーバ100−1、100−3のそれぞれの負荷率平均を見てみると、図中から分かるように、時間T1における処理サーバ100−3の負荷率平均は負荷率平均L1であり、時間T1における処理サーバ100−1の負荷率平均は負荷率平均L4である。
【0116】
この時間T1においても、処理サーバ100−3の負荷率平均L1は、処理サーバ100−1の負荷率平均L4よりも低いことが分かる。
【0117】
しかしながら、処理サーバ100−1の負荷率平均の変化に着目すると、時間T1に負荷率平均L4であった処理サーバ100−1は、時間T2においては負荷率平均L3と負荷率平均が下がっていることが分かる。
【0118】
これに対して、処理サーバ100−3の負荷率平均の変化に着目すると、時間T1に負荷率平均L1であった処理サーバ100−3は、時間T2においては負荷率平均L2と負荷率平均が急激に上昇していることが分かる。
【0119】
仮に、このような処理サーバ100−1、100−3の負荷率平均の変化が暫く継続すると想定すると、図中から分かるように、時間T2に負荷率平均L3であった処理サーバ100−1は、時間T3においては負荷率平均L2と負荷率平均が下がるであろうと予測されることが分かる。
【0120】
これに対して、時間T2に負荷率平均L2であった処理サーバ100−3は、時間T3においては負荷率平均L5と負荷率平均が急激に上昇するであろうと予測されることが分かる。
【0121】
したがって、処理サーバ100−1、100−3において時間T1から時間T2に生じた負荷率平均の変化が時間T3まで継続する場合には、時間T3においては処理サーバ100−3の負荷率平均L5は、処理サーバ100−1の負荷率平均L2よりも遙かに高い負荷率になってしまう。
【0122】
このように、時間T2における各処理サーバ100−1〜100−nの負荷率平均を算出して、仮に最も負荷率平均の低いサーバが処理サーバ100−3であった場合に、図5に示したような変化が認められるとすると、処理システムの管理を時間T2から時間T3の間に管理サーバ200から処理サーバ100−3に切り替えた後の時間T3において、処理サーバ100−3の負荷がL5まで上昇し、この傾向がその後も継続した場合には、処理サーバ100−3の負荷は直ぐに処理サーバ100−3の負荷能力を越えてしまう。
【0123】
このサーバの負荷能力の超過のため、処理サーバ100−3は、管理サーバ200に代わって行っているシステム管理を負荷の軽い他の処理サーバ100−1、100−2、100−4〜100−nに移行する必要が生じる。
【0124】
図5の時間T1から時間T2の負荷率平均の変化から、このことは容易に予測できることである。
【0125】
平均負荷算出部104−1〜104−nは、所定期間ごとの負荷率平均を演算により求めるとともに、この所定期間ごとの負荷率平均の変化を演算によって求めておく。この演算結果が、既に説明したように図5で示した負荷率平均の変化である。
【0126】
平均負荷算出部104−1〜104−nによって得られたこの負荷率平均の変化を参照することで、例えば時間T2に含まれる時刻において管理サーバ200の障害検出部203が障害を検出して、各処理サーバ100−1〜100−nのサーバ制御部105−1〜105−nに通知した場合に、時間T2では、処理サーバ100−3の負荷率平均L2が処理サーバ100−1の負荷率平均L3よりも低いという結果が得られる。
【0127】
平均負荷算出部104−1〜104−nは、求めた時間T2の負荷率平均以外に時間T2よりも前の時間T1との負荷率平均の変化の状態を演算により求め、この負荷率平均の変化により時間T3での予測される負荷率平均を出力する。
【0128】
この演算結果により、時間T3の負荷率平均が処理サーバ100−3では負荷率平均L5と予測され、時間T3の負荷率平均が処理サーバ100−1では負荷率平均L2と予測され、負荷率平均L2と負荷率平均L5との比較により負荷率平均L2が負荷率平均L5よりも低いと判定された場合には、この時間T3において負荷率平均の低いと予測される処理サーバ100−1が、管理サーバ200からシステム管理の機能を管理サーバ200から引き継ぎシステム管理を代行するとよい。
【0129】
これにより、時間T3において負荷の軽い処理サーバ100−1によるシステム管理を行うことが可能であり、処理サーバ100−3がシステム管理を引き継いだ場合に直ぐに処理サーバ100−3の負荷を超過し、他のサーバにシステム管理の引き継ぎをしなければならないような事態を避けることができる。
【0130】
以上説明したように、本発明によれば以下に示すような優れた効果を得られる。
(1)管理システムは、各サーバの稼働状態を、サーバごとの所定期間当たりの負荷率平均として算出して、この負荷率平均を比較して負荷率平均の低いサーバもしくは負荷率平均が低くなると予測される処理サーバを管理サーバの代わりに管理サーバとして選定することができる。このため、ロックしたときにたまたま稼動率が低いというだけで管理が移行され、管理移行後すぐに稼働率が上がることで、再度他の管理アプリケーションに管理を移行する必要が生じるという従来技術の問題を解消し、代行の管理サーバが煩雑に代わらないことでこの代行の管理サーバを安定した管理サーバとして使用することができる。
(2)管理システムは、従来の現用系マネージャと予備系マネージャを有するネットワーク管理システムもしくは、稼働側親局と待機側親局とを有した二重化制御システムなどの冗長システムとは異なり、管理サーバは1台のみ処理システムを管理して、必要な場合に他のサーバが管理サーバに代わり処理システムの管理を行うことを可能にしている。このため、2台の管理サーバを設けるためのコストが大きくなってしまうという問題を解消し、低コストで管理サーバと一般のサーバを管理サーバの代行として使用する管理システムを実現できる。
(3)管理システムは、管理サーバが故障になった場合、管理システムに接続され管理されている処理サーバのうちの1つが管理サーバの機能を代行できることで、管理サーバの二重化を不要としており、管理サーバのコストを低く抑えることができる。
(4)管理システムは、平均負荷算出部により算出される各処理サーバの稼働状態を示す負荷率平均を利用して各処理サーバの負荷率平均を予測することにより、サーバ制御部の負荷の増加などの影響を避けることができ、管理モジュールである管理サーバにかかわるコストを小さくする効果が得られる。
(5)本発明は、処理システムに接続された処理サーバが、いずれも管理サーバの機能を代行することができるので、管理システムの信頼性を低コストで向上することができる。
【図面の簡単な説明】
【0131】
【図1】本実施形態の管理システムの構成例を示すブロック図である。
【図2】本実施形態の管理システムのサーバの構成例を示すブロック図である。
【図3】本実施形態の管理システムのサーバの構成例を示すブロック図である。
【図4】本実施形態の管理システムの管理サーバの構成例を示すブロック図である。
【図5】サーバの負荷率平均の変化を示す図である。
【符号の説明】
【0132】
100−1、100−2、100−3、・・・、100−n 処理サーバ(処理手段)
102−1、102−2、102−3、・・・、102−n 制御情報部(第1の制御情報部)
103−1、103−2、103−3、・・・、103−n 負荷率算出部
104−1、104−2、104−3、・・・、104−n 平均負荷算出部
105−1、105−2、105−3、・・・、105−n サーバ制御部(第1の制御部)
200 管理サーバ(管理手段)
202 制御情報部(第2の制御情報部)
203 障害検出部
205 サーバ制御部(第2の制御部)
901 バス
902 障害通知パス

【特許請求の範囲】
【請求項1】
それぞれ独立に負荷の処理を行う複数の処理手段と、該複数の処理手段を管理する管理手段とが接続手段を介して接続された管理システムであって、
前記複数の処理手段のそれぞれは、
前記負荷を処理する第1の制御部と、
前記第1の制御部の所定期間における平均的な負荷率を算出する平均負荷算出部と、を具備し、
前記管理手段は、
前記複数の処理手段を管理する第2の制御部と、
前記第2の制御部の動作状態から障害を検出する障害検出部と、を具備し、
前記複数の処理手段のうち1つは、前記第2の制御部に障害が発生したときに、前記複数の処理手段のいずれかを前記管理手段の代わりとして指定する指定手段とされ、
前記平均負荷算出部のそれぞれは、算出した前記負荷率を前記指定手段の前記第1の制御部または前記管理手段の前記第2の制御部へ送出し、
前記障害検出部は、前記第2の制御部に障害が発生したことを検出するとその旨を前記指定手段の第1の制御部へ送出し、
前記指定手段の前記第1の制御部は、前記第2の制御部での障害の発生が前記障害検出部から通知されると、算出された前記負荷率が最も低い前記処理手段を前記管理手段の代わりとして指定することを特徴とする管理システム。
【請求項2】
請求項1に記載の管理システムにおいて、
前記平均負荷算出部が、
前記障害検出部の前記障害検出の時刻を含む前記所定期間の前記負荷率を示す第1の負荷率と、
前記第1の負荷率の前記所定期間よりも所定時間前の前記所定期間の前記負荷率を示す第2の負荷率平均と、を算出し、
前記指定手段の前記第1の制御部が、
前記複数の処理手段のおのおのの前記第1の負荷率と、前記第2の負荷率とを比較して、それぞれの前記処理手段の前記第2の負荷率から前記第1の負荷率への変化に基づいて、前記複数の処理手段のそれぞれの前記第1の負荷率平均の後の前記所定時間の前記負荷率を予測する管理システム。
【請求項3】
請求項1に記載の管理システムにおいて、
前記第1の制御部は、
前記負荷率を前記指定手段または前記管理手段に読み書き可能である管理システム。
【請求項4】
請求項1に記載の管理システムにおいて、
前記第2の制御部は、
複数の処理手段を管理する情報を前記処理手段から収集し、該情報を前記指定手段または前記管理手段に読み書き可能である管理システム。
【請求項5】
請求項1に記載の管理システムにおいて、
前記障害検出部の障害の検出が、ウォッチドッグタイマにより行われる管理システム。
【請求項6】
請求項1に記載の管理システムにおいて、
前記管理手段と、前記複数の処理手段の1つとが前記接続手段を介して接続され、
前記複数の処理手段の1つと、前記複数の処理手段の他の1つとが前記接続手段を介して接続され、
前記複数の処理手段の他の1つと、前記複数の処理手段のさらに他の1つとが前記接続手段を介して接続され、
同様に、前記複数の処理手段が順次接続された管理システム。
【請求項7】
それぞれ独立に負荷の処理を行う複数の処理手段と、該複数の処理手段を管理する管理手段とが接続手段を介して接続された管理システムの管理方法であって、
前記複数の処理手段のそれぞれは、
前記負荷を処理するステップと、
前記複数の処理手段の所定期間における平均的な負荷率を算出するステップと、を有し、
前記管理手段は、
前記複数の処理手段を管理するステップと、
前記管理手段の動作状態から障害を検出するステップと、を有し、
前記複数の処理手段のうち1つは、前記管理手段に障害が発生したときに、前記複数の処理手段のいずれかを前記管理手段の代わりとして指定する指定手段とされ、
前記複数の処理手段のそれぞれは、算出した前記負荷率を前記指定手段または前記管理手段へ送出し、
前記管理手段は、前記管理手段に障害が発生したことを検出するとその旨を前記指定手段へ送出し、
前記指定手段は、前記管理手段での障害の発生が前記管理手段から通知されると、算出された前記負荷率が最も低い前記処理手段を前記管理手段の代わりとして指定することを特徴とする管理システムの管理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2007−41763(P2007−41763A)
【公開日】平成19年2月15日(2007.2.15)
【国際特許分類】
【出願番号】特願2005−223942(P2005−223942)
【出願日】平成17年8月2日(2005.8.2)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】