説明

故障予測・対策方法及びクライアントサーバシステム

【課題】装置の情報を収集して劣化の度合いを算出し、劣化の度合いにより早期に故障対策を行って、予測を早回る故障発生による被害を抑えることを可能とする。
【解決手段】保守対象とする装置200にネットワーク500を介して接続された管理サーバ100を有し、管理サーバ100は、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段70を有する。管理手段70は、取得した保守対象とする装置の情報に基づいて、保守対象とする装置の劣化進行度を算出し、算出した劣化進行度が予め定めた進行度となった場合、あるいは、保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する故障対策を実施する。故障対策は、予備の装置210とのミラーリング、予備の装置210への運用切り替えである。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、故障予測・対策方法及びクライアントサーバシステムに係り、特に、情報処理装置等の保守対象とする装置の故障を事前に予測し、故障に対する対策を実施することを可能とした故障予測・対策方法及び該方法を適用したクライアントサーバシステムに関する。
【背景技術】
【0002】
装置の故障を予測する従来技術として、例えば、特許文献1等に記載された技術が知られている。この従来技術は、保守対象の装置に接続された監視端末から定期的に送信されてくる保守対象装置の稼動状況の情報に基づいて、保守対象装置の故障を予測し、故障時期が近いことを検出してユーザーに通知するというものである。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−217770号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
前述した保守対象装置の故障予測を行う従来技術は、故障時期が近いことをユーザーに知らせるだけのものであるため、ユーザが実際に装置に対する対処を行うまでの間に障害が発生してしまう危険性があるという問題点を有している。また、前述した従来技術は、予測よりも早期に故障が発生した場合の対処について考慮されておらず、このような場合に、データ損失やシステムダウンの危険性ががあるという問題点を有している。
【0005】
本発明の目的は、前述した従来技術の問題点を解決し、装置の情報を収集して劣化の度合いを算出し、劣化の度合いにより早期に故障対策を行って、予測を早回る故障発生による被害を抑えることを可能とした故障予測・対策方法及びクライアントサーバシステムを提供することにある。
【課題を解決するための手段】
【0006】
本発明によれば前記目的は、保守対象とする装置の故障を事前に予測し、故障に対する対策を実施する装置の故障予測・対策方法において、前記保守対象とする装置にネットワークを介して接続された管理サーバを有し、前記管理サーバは、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段を有し、前記管理手段は、前記取得した前記保守対象とする装置の情報に基づいて、前記保守対象とする装置の劣化進行度を算出し、算出した劣化進行度が予め定めた進行度となった場合、あるいは、前記保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する故障対策を実施することにより達成される。
【発明の効果】
【0007】
本発明によれば、情報処理装置等の保守対象とする装置の故障が発生する危険性が高いと判断すると、その故障を回避するための対処を行ことができるので、装置管理者の手間を削減すると共に、故障の危険性を予測していたにもかかわらず装置を故障させてしまうような事態を避けることができる。
【図面の簡単な説明】
【0008】
【図1】本発明の一実施形態によるクライアントサーバシステムの構成を示すブロック図である。
【図2】本発明の実施形態によるクライアントサーバシステムにおけるブレードモジュールと管理サーバとの機能構成を示すブロック図である。
【図3】管理サーバがブレードモジュールの劣化を判定し故障を予測を行うために用いる情報を取得する経路を説明する図である。
【図4】本発明の実施形態によるクライアントサーバシステムにおいて、監視対象ブレードモジュールの劣化を判定し故障対策を行う処理の例を説明するシーケンスチャート(その1)である。
【図5】本発明の実施形態によるクライアントサーバシステムにおいて、監視対象ブレードモジュールの劣化を判定し故障対策を行う処理の例を説明するシーケンスチャート(その2)である。
【図6】1次故障対策のための1次劣化判定に使用する情報ついて説明する図である。
【図7】2次故障対策を実施する事象の情報を説明する図である。
【図8】本発明の実施形態によるクライアントサーバシステムにおいて、監視対象ブレードモジュールの劣化を判定し故障対策を行う処理の他の例を説明するシーケンスチャート(その1)である。
【図9】本発明の実施形態によるクライアントサーバシステムにおいて、監視対象ブレードモジュールの劣化を判定し故障対策を行う処理の他の例を説明するシーケンスチャート(その2)である。
【発明を実施するための形態】
【0009】
以下、本発明による故障予測・対策方法及びクライアントサーバシステムの実施形態を図面により詳細に説明する。
【0010】
図1は本発明の一実施形態によるクライアントサーバシステムの構成を示すブロック図である。
【0011】
図1に示す本発明の実施形態によるクライアントサーバシステムは、複数のブレードモジュール200を備えるサーバ300と、管理者が使用する管理端末600が接続された管理サーバ100と、ユーザが使用する複数のクライアント端末400とがイントラネット等のネットワーク500により接続されて構成されている。複数のブレードモジュール200のそれぞれは、少なくとも、HDD30、RAM40、CPUを有する情報処理装置であり、ネットワーク500を介してクライアント端末400に接続され、ユーザに対して各種の情報処理サービスを提供する機能を有している。また、管理サーバ100は、ブレードモジュール200と同様に、HDD、RAM、CPU等を備えて構成される情報処理装置であり、ブレードモジュール200からの情報を取得し、ブレードモジュール200の管理、制御を行う機能を有している。また、クライアント端末400は、少なくとも、キーボード等の入力装置、表示装置、メモリ、CPUを備えて構成されるシンクライアントとしての情報処理装置であり、ブレードモジュール200と接続して、ブレードモジュール200に各種の情報処理を実行させて実行結果を受け取る機能を有している。
【0012】
図2は本発明の実施形態によるクライアントサーバシステムにおけるブレードモジュール200と管理サーバ100との機能構成を示すブロック図である。本発明の実施形態によるクライアントサーバシステムにおけるブレードモジュールには、監視対象となるブレードモジュールと予備のブレードモジュールとがあり、図2には、1台の監視対象ブレードモジュール200と1台の予備ブレードモジュール210とが示されている。
【0013】
本発明の実施形態によるクライアントサーバシステムにおけるサーバ300は、監視対象ブレードモジュール200を複数台備え、監視対象ブレードモジュール200の数より少ない数の予備ブレードモジュール210を備えている。監視対象ブレードモジュール200は、外部からアクセスされることによりパーソナルコンピューターとして使用される情報処理装置であり、複数のブレードモジュールを使用したサーバを運用するに当り通常使用される装置である。また、予備のブレードモジュール210は、外部からアクセスされることによりパーソナルコンピューターとして使用可能な情報処理装置であり、複数のブレードモジュール使用したシステムに本発明による故障予測・対策方法を適用して運用するに当り監視対象ブレードモジュール200の故障対策時に使用される装置である。
【0014】
前述の監視対象ブレードモジュール200及び予備ブレードモジュール210は、図2に示すように、同一の機能構成を有している。すなわち、これらのモジュールのそれぞれは、Agent 10,11、OS20,21、HDD(またはSSD)30,31、ECC付きRAM40,41を有するモジュール本体部45,46と、監視制御装置BMC50,51と、通信装置NIC60,61とを備えて構成されている。また、管理サーバ100は、Manager 70を有する制御部75と、通信装置NIC60とを備えて構成されている。これらのブレードモジュー200、210、管理サーバ70は、例えば、プログラム制御により動作し、イントラネット等のネットワーク500を介して相互に接続されている。
【0015】
管理サーバ100は、ブレードモジュール200、210を管理するための情報処理装置であり、インストールされているManager 70を使用することにより、管理下のブレードモジュール200、210の情報の取得・管理、管理下のブレードモジュール200、210の制御を行うことが可能である。Manager 70は、ブレードモジュール200、210の管理を行うソフトウェアであり、ブレードモジュール200、210のBMC50、51と通信を行うことによるブレードモジュールの電源制御機能、Agent 10、11にブレードモジュール200、210の各種情報を要求する機能、ブレードモジュール200、210の情報を記録・管理する機能を備えている。
【0016】
ブレードモジュール200、210のAgent 10、11は、管理サーバ100のManager 70とブレードモジュール200、210との間での情報の授受を補助するソフトウェアであり、ブレードモジュール200、210にインストールして使用される。そして、Agent 10、11は、ブレードモジュール200、210の電源状態遷移をManager 70へ通知する機能、Manager 70からの要求によりブレードモジュール200、210の情報を取得し、Manager 70へ送信する機能を備えている。
【0017】
HDD(SSD)30、31は、ブレードモジュール200、210に内蔵されている補助記憶装置であり、自己診断情報である、S.M.A.R.T.情報を有している。また、ECC付きRAM40、41は、ブレードモジュール200、210に内蔵されている主記憶装置であり、64ビットの内1ビットのエラーを検出・訂正することができ、64ビットの内の2ビットのエラーを検出することができる機能を備えている。そして、ECC付きRAM40、41は、エラーの検出時に、その情報をECCエラーログとしてOS20、21に伝達する。
【0018】
NIC60、61、62は、ネットワーク500を介して情報処理装置相互間での通信を制御する装置であり、BMC50、51を有するブレードモジュール200、210におけるNIC60、61は、ブレードモジュール本体45、46とBMC50、51とのそれぞれと、管理サーバ400及び外部の情報処理装置であるクライアント端末400等との間の通信の制御を行う。
【0019】
BMC50、51は、ブレードモジュール200、210に内蔵された監視・制御装置であり、ブレードモジュール200、210内においてBMC50、51のみが独立した電源で稼働し、ブレードモジュール200、210の電源制御機能、ブレードモジュール200、210の基板の電圧値や温度値を取得する機能を備えている。また、BMC50、51は、IPMIコマンドを用いることにより、外部の情報処理装置からネットワーク500を介した指示により、自ブレードモジュール200、210の電源制御や情報取得を行う機能をも備えている。ブレードモジュール200、210のOS20、21は、IPアドレスと呼ばれるネットワーク500における情報処理装置の識別子を有しているが、BMC50、51は、ブレードモジュール200、210のOS20、21のものとは異なる独自のIPアドレスを有している。
【0020】
図3は管理サーバ100がブレードモジュール200の劣化を判定し故障を予測を行うために用いる情報を取得する経路を説明する図である。
【0021】
管理サーバ100は、監視対象ブレードモジュール200の故障予測を行うに当たり、監視対象ブレードモジュール200の(1)HDD(SSD)30のS.M.A.R.T.情報、(2)ECC付きRAM40のECCエラーログ、(3)ハードウェアモニターログ、(4)自管理サーバ100のManager 70が行ったブレードモジュール200の強制電源OFF・強制リセットの累計実行回数、(5)基板の電圧・温度、(6)累計起動時間を使用する。
【0022】
そして、管理サーバ100は、(1)HDD(SSD)30のS.M.A.R.T.情報、(2)ECC付きRAM40のECCエラーログ、(3)ハードウェアモニターログの各情報を、Manager 70からAgent 10への通信を行い、Agent 10を経由して取得し、(5)基板の電圧・温度、(6)累計起動時間の各情報を、Manager 70からBMC50への通信を行ってBMC50から取得する。また、(4)自管理サーバ100のManager 70が行ったブレードモジュール200の強制電源OFF・強制リセットの累計実行回数については、Manager 70自身が行ったものであるのでManager 70自身で記録する。
【0023】
図4、図5は本発明の実施形態によるクライアントサーバシステムにおいて、監視対象ブレードモジュール200の劣化を判定し故障対策を行う処理の例を説明するシーケンスチャート、図6は1次故障対策のための1次劣化判定に使用する情報ついて説明する図、図7は2次故障対策を実施する事象の情報を説明する図であり、次に、これらについて説明する。ここで説明する図4、図5に示すシーケンスの処理は、通常運用時から2段階の故障対策を行う処理の例であり、一連の処理であるので、図4、図5が連続したものであるとして説明する。
【0024】
(1)いま、ユーザは、クライアント端末400をサーバ300のブレードモジュールの1つに接続して、そのブレードモジュールを使用しているものとする。この場合、使用中のブレードモジュールが監視対象ブレードモジュール200となり、また、予備ブレードモジュール210は、その電源がOFFとされている(シーケンスA1、A2)。
【0025】
(2)前述の状態で、管理サーバ100のManager 70は、監視対象ブレードモジュール200に対して、一定時間周期毎に図3を参照して前述で説明した各情報の送信を要求してそれらの情報を取得し、それらの情報に基づいて監視対象ブレードモジュール200の1次劣化判定を行う(シーケンスA3〜A6)。
【0026】
シーケンスA6の1次劣化判定を行う処理では、管理サーバ100のManager 70が図6に示す情報を使用するので、ここで図6に示す情報について説明する。
【0027】
管理サーバ100のManager 70は、監視対象ブレードモジュール200から図6のブレードモジュールの情報として示している欄の情報と、値として示している欄のその情報の値とを取得する。そして、Manager 70は、自身が保持している閾値として示している欄のその情報の閾値と、取得したその情報の値とを比較し、比較の結果により、劣化度判定に使用するその情報に対するの変数として示している欄の変数を、“0”とするか“1”とするかを決定している。
【0028】
管理サーバ100のManager 70が、監視対象ブレードモジュール200から取得するブレードモジュールの情報、自身で保持している情報の例としては、図6に示すように、
S.M.A.R.T.情報に含まれる5.代替処理済不良セクタ数、値Vs5、閾値Ts5、
S.M.A.R.T.情報に含まれる7.磁気ヘッドシークエラー率、値Vs7、閾値Ts7、
S.M.A.R.T.情報に含まれる12.電源ON/OFF回数、値Vs12、閾値Ts12、
S.M.A.R.T.情報に含まれる193.ロード/アンロード回数、値Vs193、閾値Ts193、
S.M.A.R.T.情報に含まれる196.セクタ代替処理発生回数、値Vs196、閾値Ts196、
S.M.A.R.T.情報に含まれる197.代替処理待ちセクタ数、値Vs197、閾値Ts197、
S.M.A.R.T.情報に含まれる198.回復不可能なセクタ数、値Vs198、閾値Ts198、
強制電源OFF・強制リセットの累計実行回数、値Vp 、閾値Tp 、
1ビットECCエラーログの個数、値Ve1、閾値Te1、
基板の電圧、値Vv 、閾値TvL(最低電圧閾値)、TvH(最大電圧閾値)、
基板の温度、値Vt 、閾値Tt 、
累計起動時間、値Va 、閾値Ta
がある。
【0029】
管理サーバ100のManager 70は、前述した各情報の値と、閾値とを比較し、F=0となる条件の欄、F=1となる条件の欄に示す条件式に従ってFの値0または1を各情報の変数として示している欄の変数の値として決定する。変数として示している欄の各情報の変数は、Fは、Fs5、Fs7、Fs12、Fs193、Fs196、Fs197、Fs198、Fp 、Fe1、
Fv 、Ft 、Fa であり、これらは管理サーバ100のManager 70により値0または1に決定される。
【0030】
そして、管理サーバ100のManager 70は、シーケンスA6の判定の処理で各情報の重要度によって各変数F毎に予め定めた重みW=Ws5、Ws7、Ws12、Ws193、Ws196、Ws197、Ws198、Wp 、We1、Wv 、Wt 、Wa (0<W≦1)を乗じ、得られた値を総和して劣化進行度Eを、式(1)により算出し、Eが1次劣化判定値TE1を超えたか否かにより、後述の1次故障対策を行うべかき否かを判定している。
【0031】
E=Σ(F・W) ……(1)
(3)管理サーバ100のManager 70は、シーケンスA6の判定で、劣化進行度Eが1次劣化判定値TE1を超えておらず、1次故障対策を行わないと判定した場合、シーケンスA3からの処理に戻り、監視対象ブレードモジュール200からの情報を要求する処理からの動作を繰り返し、劣化進行度Eが前記1次劣化判定値TE1を超えて1次劣化判定条件を満たしたとき、1次故障対策を行うために待機状態に遷移する(シーケンスA8)。
【0032】
(4)管理サーバ100のManager 70は、ユーザが使用中の監視対象ブレードモジュール200の使用が終了し、前述の1次故障対策待機状態で監視対象ブレードモジュール200のAgent10から監視対象ブレードモジュール200の電源OFF通知を受信すると、受信した電源OFF通知が再起動等によるものでないことを判断するため、一定時間待機を続け、もし、待機中に監視対象ブレードモジュール200からの電源ON通知を受信した場合、何もせず、再び電源OFF通知を受信するまで1次故障対策待機状態を続ける。また、Manager 70は、待機中に電源ON通知を受信しなければ、1次故障対策として、監視対象ブレードモジュール200と予備ブレードモジュール210とのミラー化を開始する(シーケンスA7、A9〜A11)。
【0033】
(5)Manager 70は、監視対象ブレードモジュール200と予備ブレードモジュール210のそれぞれのBMC50、51と通信を行い、IPMIによる電源ON命令を発して、監視対象ブレードモジュール200と予備ブレードモジュール210の電源ON操作を行う(シーケンスA12〜A14)。
【0034】
(6)その後、Manager 70は、両ブレードモジュールのAgentからブレードモジュールの電源ON通知を受信すると、ミラー化を開始するためにデータ複製命令を両ブレードモジュール200、210に送信する(シーケンスA15〜A17)。
【0035】
(7)ミラー化開始のためのデータ複製命令を受け取った監視対象ブレードモジュール200は、自モジュール200内のHDD(SSD)30のシステム領域以外の領域のデータを予備ブレードモジュール210のHDD(SSD)31へ複製する。複製開始時、監視対象ブレードモジュール200のAgent 10は、Manager 70へ複製の開始を通知する(シーケンスA18、A19)。
【0036】
(8)システム領域以外の領域のデータの複製が完了すると、予備ブレードモジュール210のAgent 11は、監視対象ブレードモジュール200のAgent 10へ複製の完了を通知する(シーケンスA20)。
【0037】
(9)データ複製の完了通知の送受信後、両ブレードモジュール200、210は、再起動を開始し、電源OFFをManager 70に通知し、一旦、電源をOFFした後、電源をONとする(シーケンスA21〜A26)。
【0038】
(10)監視対象ブレードモジュール200は、自モジュールのOS20、予備ブレードモジュール210のOS21の起動前に、システム領域のデータを予備ブレードモジュール210に複製し、以後、監視対象ブレード200のHDD(SSD)30へのデータの書き込みが予備ブレード210においても全く同一の内容で行われるようにミラー設定を行う(シーケンスA27、A28)。
【0039】
(11)前述までの処理が完了すると、予備ブレードモジュール210のAgent 11は、監視対象ブレードモジュール200のAgent 10へ処理の完了を通知しOSを起動してミラー化処理を完了する(シーケンスA29)。
【0040】
(12)両ブレードモジュール200、210は、電源ONをManager 70に通知し、これ以降、両ブレードモジュール200、210のHDD(SSD)30、31のデータが常に同一の内容となるミラーリングを開始し、ミラーリング状態で動作する(シーケンスA30〜A32、A34)。
【0041】
(13)前述までの処理で1次故障対策の処理が済んだことになり、管理サーバ100のManager 70は、1次故障対策が済んだ監視対象ブレードモジュール200に対し、引き続き一定周期で前記各情報の取得を行い取得した情報を基にした2次劣化判定を行う。この2次劣化判定の処理は、前述で説明した劣化進行度Eの値が2次劣化判定値TE2(TE2>TE1)以上となったとき、または、図7に示す事象が発生した場合に、Manager 70が後述の2次故障対策を行うと決定する判定処理である(シーケンスA33、A35〜A37)。
【0042】
シーケンスA37の2次劣化判定を行う処理では、管理サーバ100のManager 70が図7に示す事象の情報を使用するので、ここで図7に示す事象の情報について説明する。
【0043】
管理サーバ100のManager 70は、監視対象ブレードモジュール200から取得した情報として示す欄の情報及びその情報の内容を示す欄の内容とにより定義される事象が生じたとき、2次劣化が生じていると判定して、2次故障対策を行うと決定する。
【0044】
その事象は、図7に示しているように、
1.ECCエラーの情報が、2ビットECCエラーの検出時、
2.S.M.A.R.T.情報に含まれる1.読み込みエラー率の情報が、既定の閾値を超過している時(S.M.A.R.T.エラーログの発生時)、
3.S.M.A.R.T.情報に含まれる2.ハードディスクの処理能力の情報が、既定の閾値を超過している時(S.M.A.R.T.エラーログの発生時)、
4.S.M.A.R.T.情報に含まれる3.スピンアップタイムの情報が、既定の閾値を超過している時(S.M.A.R.T.エラーログの発生時)、
5.S.M.A.R.T.情報に含まれる5.代替処理済不良セクタ数の情報が、過去数回の情報取得に渡る値の増加時、
6.S.M.A.R.T.情報に含まれる196.セクタ代替処理発生回数の情報が、過去数回の情報取得に渡る値の増加時、
7.S.M.A.R.T.情報に含まれる198.回復不可能セクタ数の情報が、過去数回の情報取得に渡る値の増加時
である。
【0045】
(14)管理サーバ100のManager 70は、シーケンスA37の判定で、劣化進行度Eが2次劣化判定値TE2を超えておらず、また、図7に示して説明した事象も発生しておらず、2次故障対策を行わないと判定した場合、シーケンスA33からの処理に戻り、監視対象ブレードモジュール200からの情報を要求する処理からの動作を繰り返し、劣化進行度Eが前記2次劣化判定値TE2を超えて2次劣化判定条件を満たしたとき、または、図7に示して説明した事象の少なくとも1つが発生していた場合、2次故障対策を行うために待機状態に遷移する(シーケンスA39)。
【0046】
(15)管理サーバ100のManager 70は、ユーザが使用中の監視対象ブレードモジュール200の使用が終了し、前述の1次故障対策待機状態で監視対象ブレードモジュール200のAgent10から監視対象ブレードモジュール200の電源OFF通知を受信すると、受信した電源OFF通知が再起動等によるものでないことを判断するため、一定時間待機を続け、もし、待機中に監視対象ブレードモジュール200からの電源ON通知を受信した場合、何もせず、再び電源OFF通知を受信するまで1次故障対策待機状態を続ける。また、Manager 70は、待機中に電源ON通知を受信しなければ、2次故障対策として、監視対象ブレードモジュール200を予備ブレードモジュール210に切り替える処理を開始する。この切り替えの処理は、監視対象ブレードモジュール200と予備ブレードモジュール21と0のコンピューター名とIPアドレスとを変更することにより、運用するブレードモジュールを予備ブレードモジュール210に切り替え、それまで予備ブレードモジュール210であったブレードモジュールを監視対象ブレードモジュール200として保守対応ができるようにする処理である(シーケンスA38、A40〜A42)。
【0047】
(16)Manager 70は、切り替え処理の開始前に、まず、監視対象ブレードモジュール200のBMC50と通信を行い、IPMIによる電源ON命令を発して、監視対象ブレードモジュール200の電源ON操作を行う(シーケンスA43〜A44)。
【0048】
(17)その後、Manager 70は、監視対象ブレードモジュール200のAgent10からブレードモジュールの電源ON通知を受信すると、ミラーリング解除の命令を両ブレードモジュール200、210に送信し、両ブレードモジュール200、210にミラーリングを終了させる(シーケンスA45、A46、A48、A49)。
【0049】
(18)そして、管理サーバ100のManager 70は、両ブレードモジュール200、210のコンピューター名、及び、OSとBMCとのIPアドレスを書き換えるバッチファイルを生成し、両ブレードモジュール200、210に時間差を設けて送信する。この送信は、ブレードモジュール200への送信が早く行われる。生成したバッチファイルに記述される処理の内容は、自身のコンピューター名を変更し、自身のOSのIPアドレスを書き換え、自身のBMCのIPアドレスを書き換え、BMCのリセットを行うというものである(シーケンスA47、A50)。
【0050】
(19)管理サーバ100のManager 70からバッチファイルを受け取った監視対象ブレードモジュール200のAgent 10は、ファイルに記述された内容に従って、監視対象ブレードモジュール200のコンピューター名をダミーのコンピューター名に変更し、OS20とBMC50とのIPアドレスをダミーのIPアドレスに変更する処理を行い、BMC50をリセットする。なお、ダミーのコンピューター名とダミーのIPアドレスとは、システム内に存在する予備ブレードの台数以上の個数を予め確保しておき、その1つを用いる(シーケンスA51〜A54)。
【0051】
(20)管理サーバ100のManager 70からブレードモジュール200より少し遅くバッチファイルを受け取った予備ブレードモジュール210のAgent11は、ファイルに記述された内容に従って、予備ブレードモジュール210のコンピューター名を監視対象ブレード200の元のコンピューター名に変更し、OS21とBMC51とのIPアドレスを監視対象ブレードモジュール200に当てられていた元のIPアドレスに変更する処理を行い、BMC51をリセットする(シーケンスA55〜A58)。
【0052】
(21)その後、監視対象ブレードモジュールとなった予備ブレードモジュール210は、コンピューター名とIPアドレスとの変更が完了ことを管理サーバ100のManager 70に通知する(シーケンスA59)。
【0053】
(22)予備ブレードモジュール210からコンピューター名とIPアドレスとの変更が完了したことの通知を受け取った管理サーバ100のManager 70は、今まで監視対象ブレードモジュールであったブレードモジュール200のBMC50と通信を行い、IPMIにより、BMC50に電源OFF操作を行うように指示し、ブレードモジュール200のBMC50にブレードモジュール200の電源をOFFさせてここでの処理を終了する(シーケンスA60〜A62)。
【0054】
以上説明した処理により、ブレードモジュールの故障予測・切り換えの処理が完了することになる。
【0055】
図8、図9は本発明の実施形態によるクライアントサーバシステムにおいて、監視対象ブレードモジュール200の劣化を判定し故障対策を行う処理の他の例を説明するシーケンスチャートであり、次に、これについて説明する。ここで説明する図8、図9に示すシーケンスの処理は、通常運用時からの故障対策を1回だけ行う処理の例であり、一連の処理であるので、図8、図9が連続したものであるとして説明する。なお、図8、図9により説明する処理の他の例は、劣化判定条件として、図4、図5により説明した例における2次劣化判定条件と同一の条件、すなわち、劣化進行度Eの値が2次劣化判定値TE2以上となったとき、または、図7に示す事象が発生した場合であるとする。
【0056】
図8、図9に示すシーケンスにおいて、ブレードモジュールの監視から故障対策開始までのシーケンスB1〜B11での処理動作は、図4、図5により説明した例におけるシーケンスA1〜A11での処理動作と同様である。
【0057】
その後の、具体的な故障対策の内容としては、まず、監視対象ブレードモジュール200のデータの予備ブレードモジュール210への複製を行う(シーケンスB12〜B30)。この処理は、図4、図5により説明した例の1次故障対策におけるシーケンスA12〜A27、A29〜A31の処理でのデータ複製の処理と同様の動作である。
【0058】
そして、図8、図9に示すシーケンスの処理では、データの複製後、ミラーリングではなく、運用するブレードモジュールの切り替えを行う(シーケンスB31〜B41)。この処理は、図4、図5により説明したシーケンスA47、A50〜A59の処理における2次故障対策としてのブレードモジュールの切り替え処理と同様の動作である。
【0059】
以上説明した処理により、ブレードモジュールの故障予測・切り換えの処理が完了することになる。
【0060】
図8、図9により説明した処理の他の例は、劣化判定条件として、図4、図5により説明した例における2次劣化判定条件と同一の条件、すなわち、劣化進行度Eの値が2次劣化判定値TE2以上となったとき、または、図7に示す事象が発生した場合であるとしたが、劣化進行度Eの値がTE3(TE2>TE3>TE1)以上である場合としてもよく、また、図7に示す事象が図7に示す例とは異なるものであってもよいし、劣化進行度Eの値がTE3以上である場合だけとしてもよい。
【0061】
前述した本発明の実施形態によれば、情報処理装置等の保守対象とする装置の故障が発生する危険性が高いと判断すると、その故障を回避するための対処を行ことができるので、装置管理者の手間を削減すると共に、故障の危険性を予測していたにもかかわらずブレードモジュールを故障させてしまうような事態を避けることができる。
【0062】
また、本発明の実施形態によれば、故障が発生する危険性があると判断した装置に対してのみミラー化を行うこととしているので、通常の冗長構成と比べ必要な装置数を少なくすることができ、設置スペース・管理の手間・TCO等を削減することができる。
【0063】
また、本発明の実施形態によれば、通常の故障予測では、予測した故障日時よりも早く実際の故障が発生する場合が考えられるが、故障対策としてのミラーリングを早期に行うことができるため、予測を早回る故障発生による被害を抑えることができる。
【0064】
通常の故障予測では、装置の交換などの対策を早期に行う場合、実際に装置の故障が発生する危険性が低く安全であるが、装置の保守作業を行う頻度が上がり、費用が増大し、一方、装置の交換などの対策を遅めに行う場合、装置の保守作業を行う頻度が下がるが、予測故障日時よりも先に装置の故障が発生する危険性が高くなる。本発明の実施形態によれば、2段階の故障対策を行い、第1段階としてやや早期にミラー化を行い、第2段階の故障対策として装置の交換を行うこととしているので、これら2つの懸念を解消することができる。
【0065】
前述した本発明の実施形態での各処理は、プログラムにより構成し、本発明が備えるCPUに実行させることができ、また、それらのプログラムは、FD、CDROM、DVD等の記録媒体に格納して提供することができ、また、ネットワークを介してディジタル情報により提供することができる。
【符号の説明】
【0066】
10、11 Agent
20、21 OS
30、31 HDD(SSD)
40、41 ECC付きRAM
45、46 モジュール本体部
50、51 BMC
60〜62 NIC
70 Manager
75 制御部
100 管理サーバ
200、210 ブレードモジュール
300 サーバ
400 クライアント端末
500 ネットワーク
600 管理者用端末

【特許請求の範囲】
【請求項1】
保守対象とする装置の故障を事前に予測し、故障に対する対策を実施する装置の故障予測・対策方法において、
前記保守対象とする装置にネットワークを介して接続された管理サーバを有し、
前記管理サーバは、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段を有し、
前記管理手段は、前記取得した前記保守対象とする装置の情報に基づいて、前記保守対象とする装置の劣化進行度を算出し、算出した劣化進行度が予め定めた進行度となった場合、あるいは、前記保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する故障対策を実施することを特徴とする故障予測・対策方法。
【請求項2】
前記保守対象とする装置に対する故障対策は、前記保守対象とする装置を、保守対象とする装置とは別の予備の装置へ切り替えて運用する対策であることを特徴とする請求項1記載の故障予測・対策方法。
【請求項3】
前記管理手段が前記保守対象とする装置から収集する情報は、装置のS.M.A.R.T.情報、ハードウェアモニターログ、ECC付きRAMのECCエラーログ、基板の電圧値・温度値、ブレードモジュールに対して行った強制電源OFF・強制リセットの累計回数を含む情報であることを特徴とする請求項1または2記載の故障予測・対策方法。
【請求項4】
保守対象とする装置の故障を事前に予測し、故障に対する対策を実施する装置の故障予測・対策方法において、
前記保守対象とする装置にネットワークを介して接続された管理サーバを有し、
前記管理サーバは、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段を有し、
前記管理手段は、前記取得した前記保守対象とする装置の情報に基づいて、前記保守対象とする装置の劣化進行度を算出し、算出した劣化進行度が予め定めた第1の進行度となった場合、あるいは、前記保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する第1の故障対策を実施し、その後、算出した劣化進行度が予め定めた第2の進行度となった場合、前記保守対象とする装置に対する第2の故障対策を実施することを特徴とする故障予測・対策方法。
【請求項5】
前記保守対象とする装置に対する第1の故障対策は、前記保守対象とする装置と保守対象とする装置とは別の予備の装置とをミラーリングして運用する対策であり、前記保守対象とする装置に対する第2の故障対策は、前記保守対象とする装置を、保守対象とする装置とは別の予備の装置へ切り替えて運用する対策であることを特徴とする請求項4記載の故障予測・対策方法。
【請求項6】
前記管理手段が前記保守対象とする装置から収集する情報は、装置のS.M.A.R.T.情報、ハードウェアモニターログ、ECC付きRAMのECCエラーログ、基板の電圧値・温度値、ブレードモジュールに対して行った強制電源OFF・強制リセットの累計回数を含む情報であることを特徴とする請求項4または5記載の故障予測・対策方法。
【請求項7】
保守対象とする装置の故障を事前に予測し、故障に対する対策を実施することが可能なクライアントサーバシステムにおいて、
前記保守対象とする装置にネットワークを介して接続された管理サーバを有し、
前記管理サーバは、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段を有し、
前記管理手段は、前記取得した前記保守対象とする装置の情報に基づいて、前記保守対象とする装置の劣化進行度を算出する手段と、算出した劣化進行度が予め定めた進行度となった場合、あるいは、前記保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する故障対策を実施する手段とを備えることを特徴とするクライアントサーバシステム。
【請求項8】
保守対象とする装置の故障を事前に予測し、故障に対する対策を実施することが可能なクライアントサーバシステムにおいて、
前記保守対象とする装置にネットワークを介して接続された管理サーバを有し、
前記管理サーバは、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段を有し、
前記管理手段は、前記取得した前記保守対象とする装置の情報に基づいて、前記保守対象とする装置の劣化進行度を算出する手段と、算出した劣化進行度が予め定めた第1の進行度となった場合、あるいは、前記保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する第1の故障対策を実施する手段と、その後、算出した劣化進行度が予め定めた第2の進行度となった場合、前記保守対象とする装置に対する第2の故障対策を実施する手段とを備えることを特徴とするクライアントサーバシステム。

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図1】
image rotate