説明

再開始制御システム

【目的】 障害が発生した場合、情報処理装置を自動的に再び立上げる。このとき、障害要因に応じた再開始のための環境設定を行なう。
【構成】 障害が発生すると障害再開始制御部28が必要な障害情報を収集し、過去の障害情報を消去することなくフリーズファイル7に蓄積する。一方、そのときの障害要因に応じ、再開始のためのレベルを設定する。再開始レベルが深ければ、装置の起動の際と同様の立上げ処理が行なわれ、再開始レベルが浅いと、多くの立上げ処理を省略して必要な初期処理のみを実行する。また、再開始レベルに応じて立上げ環境も選択する。従って、障害の種類に応じ、可能な限り迅速な再開始処理が進められる。

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、情報処理装置の運転中に何らかの障害が発生した後、その再立上げ処理等を行なう場合の制御に使用される再開始制御システムに関する。
【0002】
【従来の技術】情報処理装置においては、ソフトウェアあるいはハードウェア上の障害が発生し、装置の運転が継続できないような場合、システムダウンとなる。こうして装置の運転が中断すると保守員が障害情報を収集し、リセットキーの押し下げ等によって運転再開を行なうようにしている。
【0003】このような場合、具体的には次のように処理される。図2に、従来処理のフローチャートを示す。まず、情報処理装置を最初に起動する場合には、情報処理装置に設けられた起動用のメモリ、即ちIPL(イニシャルプログラムローダ)ROMが初期動作を制御する。即ち、ステップS1において、IPLROMによる初期診断が行なわれる。更に、ステップS2において、IPLROMによる初期処理が実行され、ステップS3において、システムの立上げ処理が実行される。
【0004】このような状態でシステムの立上げが完了し、システムが運転中の状態となる。ここで、ステップS4において、例えば何らかの障害が発生したものとする。この場合、従来システムでは保守員が到着するのを待ち、その保守員によってステップS5において、障害情報の収集操作が行なわれる。即ち、障害原因の探索等のために必要なデータが各部から集められる。更に、ステップS6において、保守員による再立上げ操作が行なわれる。これによって、再びステップS1の状態に戻り、その後はIPLROMによる立上げ処理が実行される。
【0005】
【発明が解決しようとする課題】ところで、上記のような従来の再開始制御システムには次のような解決すべき課題があった。従来システムでは、障害の発生後、情報処理装置の再開始のために保守員が指示を行なう。この場合に、保守員による障害情報の収集が要求されるが、その場合の操作ミスによって、障害情報が消滅し、障害解析ができないことがある。また、障害発生の際、情報処理装置の近くに保守員が待機していない場合には、再開始を行なうことができない。また、保守員が遠距離にいる場合に、保守員が到着するまで長時間、装置の動作を中断させなければならない。また、障害発生に気付かないような場合や、再開始のための操作に手間取るような場合には、装置の動作中断時間が長くなってしまう。
【0006】情報処理装置の利用度が高いような場合には、できるだけ障害発生によるシステムダウンから再開始までの時間を短縮したい。しかしながら、図2に示したような手順では、情報処理装置を起動する場合と同一の立上げ時間が要求され、再開始のための時間を短縮することが容易でなかった。また、障害要因の種類によっては、そのままの状態で動作を再開するより、装置の動作環境を変更した方が好ましい場合がある。しかしながら、IPLROMに立上げ制御のためのプログラムが格納され、その手順が確定しているような情報処理装置ではこのような動作環境の再構築は容易でない。
【0007】本発明は以上の点に着目してなされたもので、障害が発生した場合、情報処理装置を自動的に立上げ、更に障害要因に応じた再開始のための環境設定を容易に行なうことができる再開始制御システムを提供することを目的とするものである。
【0008】
【課題を解決するための手段】本発明の再開始制御システムは、障害発生時、自動的に立上げ処理を実行して、動作を再開始させるための制御を行なう障害再開始制御部と、障害発生の都度、障害情報を収集して、複数世代にわたり障害情報の蓄積制御を行なう障害後処理制御部と、障害要因に応じて設定された再開始のためのレベルを含む情報を記憶するシステムパラメータメモリとを備え、前記障害再開始制御部は、前記システムパラメータメモリを参照して、複数の障害再開始の手順の中から任意の手順を選択することを特徴とするものである。
【0009】
【作用】このシステムは、障害が発生すると障害開始制御部が必要な障害情報を収集し、過去の障害情報を消去することなくフリーズファイルに格納する。一方、そのときの障害要因に応じ、再開始のためのレベルを設定する。再開始レベルが深ければ、装置の起動の際と同様の立上げ処理が行なわれ、再開始レベルが浅いと、多くの立上げ処理を省略して必要な初期処理のみを実行する。このとき、再開始レベルに応じて立上げ環境も選択する。これにより、障害の種類に応じ、可能な限り迅速な再開始処理が進められる。
【0010】
【実施例】以下、本発明を図の実施例を用いて詳細に説明する。図1は、本発明のシステム実施例を示すブロック図である。このシステムは、バスライン1に対し、ユーザー操作パネル(UOP)2と、プロセッサ(CPU)3と、IPLROM4と、システムパラメータメモリ(SPM)5と、RAM6と、フリーズファイル7が接続されている。ユーザー操作パネル2は装置の保守運用のために保守員が操作するためのパネルで、キーボードやディスプレイ等から構成された会話型の操作盤である。
【0011】プロセッサ3は、この再開始制御システム全体の制御処理を実行する部分である。IPLROM4は、装置の立上げの際の初期動作用プログラムを格納したメモリで、この実施例では、IPLROM用ローディングファイル21と、システム初期処理ファイル制御部22とを格納している。
【0012】図3に、IPLROM用ローディングファイルの構成説明図を示す。このIPLROM用ローディングファイルは、装置の電源投入の際に最初に実行されるプログラムから構成されている。これは、例えば図に示すように、共通ローダ11、ブートローダ12、SGファイル13、ドライバファイル14及びシステムファイル15から構成される。これらのファイルがIPLROMのプログラムに従って、例えば図示しないハードディスク等から図1に示すRAM6に順番にローディングされ実行される。
【0013】なお、本発明においては、このような電源投入の際、基本的に実行される処理を再立上げレベルの最も深い処理ということにし、これらのファイルには図に示すようにファイル名と再開始レベルが“A”であることを示す識別子とを使用することにする。
【0014】図4に、システム用初期処理ファイルの構成説明図を示す。これらのファイルはIPLROM用ローディングファイルによる立上げ処理実行後、引き続いて実行されるプログラムファイルである。これらも図示しないハードディスク装置等に格納される。そして、IPLROMのシステム初期処理ファイル制御部22によってローディングされる。ここには、初期処理定義と立上げ環境定義が含まれる。初期処理定義にはハード診断情報とチェック情報の定義が含まれる。ハード診断情報は実装するハードの初期診断の実施の有無や実施する場合の診断の範囲等を指定するものである。
【0015】また、チェック情報としては、実装メモリの用量チェック、メモリのチェック、外部キャッシュのチェック、組込み,切離し等の制御、BBMのチェック等の診断が必要かどうかの指定が含まれる。立上げ環境定義には環境定義とプログラム定義が含まれる。環境定義はプログラムの動作環境を定義するための情報から構成される。また、プログラム定義はローディングするアプリケーションプログラムを定義する。
【0016】システム立上げの際、これらの情報や定義の設定や一定の処理を行なうために、これらのファイルにはそれぞれ図に示すように、再開始レベルが“B”の識別子をファイル名とともに使用する。即ち、障害原因によってはIPLROM用ローディングファイルについての再実行から始めなくても、システム用初期処理ファイルの設定等の処理から再開すればよい場合がある。このような再開始レベルの相違に応じた処理を実行するため、各ファイル名の識別子を予め相違させるようにしている。なお、システム用初期処理ファイルは、障害の再発生防止のため、後で説明するように、必要に応じて書き換えることもできる。
【0017】再び図1に戻って、システムパラメータメモリ5には、障害の種別23と、再開始カウンタ24と、再開始コード25と、再開始レベル26と、再開始詳細情報27が格納される構成となっている。図6に、システムパラメータメモリ記憶内容説明図を示す。図に示すように、例えば開始/再開始種別には、障害が発生した場合に、電源を投入する際と同様の開始立上げを行なうか、本発明において新たに設定された再開始レベルに応じた再開始立上げを行なうかを示す情報が格納される。例えば、開始立上げの場合はこの情報が“0”、再開始立上げの場合にはこの情報が“1”となる。なお、開始立上げは、システムの電源投入あるいは保守者の介入によるリセットキーの押し下げによって実行される従来通りの立上げ方法である。また、再開始立上げは、障害要因に応じた本発明による立上げである。
【0018】再開始カウンタは、開始立上げの際に初期化されるカウンタで、再開始立上げの際には“1”が加算される。再開始立上げ後、再び障害が発生し、その後、再開始立上げが実行された場合には、再び“1”が加算される。即ち、再開始立上げが連続して繰り返された場合の回数がこの再開始カウンタに表示される。なお、この実施例の場合、再開始カウンタの値が一定回数を越えると、システムダウンとなる。
【0019】また、再開始コードは、再開始の原因に応じ、即ち障害要因に応じて設定された情報である。この情報に基づいて再開始レベルが設定される。この実施例中の再開始レベルA,Bは、再開始カウンタの値と再開始コードの内容の組み合せに合わせて設定される。このレベルが深ければ開始立上げに近い立上げ処理が実行され、浅ければ初期設定の一部を実行するだけで立上げが完了し再開始となる。再開始詳細情報は保守員向けの情報であって、障害発生後、自動的に再開始処理が行なわれた場合においても、保守員がその内容を読み、障害の詳細やその対処手順等を認識することができる。なお、再開始カウンタ以降の情報は再開始のときのみ有効な情報である。
【0020】また、この実施例において、システムパラメータメモリ5の内容はソフトウェア制御やユーザー操作パネル2等を用いて書換えが可能である。また、IPLROM4の動作によって書き換えられるようにしてもよい。RAM6には、本発明のシステムの再開始立上げ動作を制御するための障害再開始制御部28が設けられている。この障害再開始制御部28は、システムパラメータメモリ5に格納された先に説明した各種の情報を読み取り、再開始レベル26の設定内容に応じて、適切な深さの再開始処理を選択して実行する部分である。なお、これは、具体的には再開始のための動作を実行するプログラムから構成され、実際の動作はプロセッサ3で実行することになる。
【0021】また、障害後処理制御部29は、障害発生の際、情報処理装置各部から障害情報を収集し、フリーズファイル7に格納する部分である。これも情報格納処理のためのプログラムから構成される。なお、本発明においては、フリーズファイル7には、これまで過去に繰り返された障害の際収集された障害情報が、複数世代にわたり消去されず順番に蓄積される構成となっている。これは、過去の障害情報等を元に装置の診断や復旧のための手順決定を行なうことを目的とするもので、データ量が膨大になる場合にはデータの圧縮処理等を実行する。格納量の上限はハードウェアの許容量により選択される。
【0022】以下、本発明のシステムの動作を具体的なフローチャートを用いて説明する。図6は、本発明のシステムによる情報処理装置の立上げ動作フローチャートである。まず、ステップS1、S2は装置の電源オン等の際の開始立上げ動作を示している。ステップS1において、システムのインストールがされるかどうかが判断される。インストールされる場合にはステップS2において、必要な動作開始の情報等を設定する。インストールが不要かあるいは開始情報が設定された後にはIPLROMによる立上げ動作が実行される。なお、ステップS1、S2は保守員の介入による電源等投入等で実行される。
【0023】ステップS3以降は再開始立上げにおいて実行される処理である。まず、ステップS3において、IPLROMによる初期診断が行なわれる。次に、ステップS4において、IPLROMによる初期処理が実行される。その後ステップS5において、再開始情報の初期設定が行なわれる。この再開始情報というのはシステムパラメータメモリ5に格納した各種の情報を示す。ここでは、例えば種別23を再開始立上げに設定し、再開始カウンタ24の初期化を行なう。これ以外の情報は、特にシステムの運転に影響を与えないため初期化しない。
【0024】次に、ステップS6において、システムの立上げが行なわれ、システムの立上げが完了する。その後、ステップS7において、システム運転中の状態となり、障害監視が開始される。なお、上記のように種別23を再開始立上げとし、再開始カウンタ24をリセットしておくのは、その後、予期しない障害が発生した場合、開始立上げでなく再開始立上げが実行されるようにしておくためである。また、再開始詳細情報27や再開始レベル26、再開始詳細情報27をそのままにしておくのは、常に直前に発生した障害内容が分かるように障害履歴として残しておくためである。
【0025】なお、ステップS7で正常に運転中状態となった場合には、再開始カウンタの初期化を行なう。再開始カウンタは、システムの再立上げも行なっても直ちに障害発生が繰り返されたときのリトライ回数をカウントし、障害の重大性を確認するためのものだからである。
【0026】図7に、図6の処理に続く障害監視動作フローチャートを示す。システム運転中に障害が発生すると、まずステップS8において、自動再開始立上げを実行するかどうかが判断される。自動再開始立上げでない場合には、従来通り保守員による再開始指示が実行される。この場合にはステップS9において、保守員が再開始コードをマニュアル設定し、ステップS10において、システムがリセットされる。その後は、図6に示すステップS3に移る。
【0027】一方、自動立上げの場合には、ステップS11において、再開始情報の設定が行なわれる。即ち、システムパラメータメモリ5の再開始カウンタ24を更新し、例えばこれまで1であったものを2というように1ずつ加算する。また、再開始コード25を設定し、再開始詳細情報27の内容を設定する。次に、ステップS12において、再開始カウンタがオーバーしたかどうかを判断する。もし、再開始カウンタがオーバーしていれば、先に説明した通り、一定以上再開始をリトライしても正常な立上げが不可能と判断し、最も深いレベルである再開始レベルに設定し直す(ステップS13)。こうして、図6に示す再開始立上げ処理、即ち図6のステップS3に戻るようにする。
【0028】一方、ステップS12において、再開始カウンタがオーバーしていないと判断された場合、ステップS14に移り、再開始コードの内容に応じた分岐処理が行なわれる。例えば、再開始コードがハード障害という内容を表わしていた場合、ステップS15に移り、ソフトへの割り込みが可能かどうかを判断する。ソフトへの割り込みが不可能な場合には、ステップS16に移り、ステップS13と同様の再開始レベルにダウン設定し、再開始立上げ処理へ移る。
【0029】一方、再開始コードによる分岐の判断の際、これがソフト障害であるという判断がなされた場合と、ステップS15においてソフトへの割り込みが可能と判断された場合、いずれもステップS17に移り、再開始コードの内容に応じた再開始レベルを設定する。更に、ステップS18において、再開始カウンタによるレベルと再開始レベルとを比較し、チェックを行なう。そして、例えば再開始カウンタが大きな数値を示しているような場合には、必要に応じて再開始コードにより設定した再開始レベルより深いレベルにダウン設定する。これによって、再開始立上げ処理へ移る。
【0030】図8に、本発明による障害後の再開始立上げ動作フローチャートを示す。図7に示す処理が完了すると、この図に示すような再開始立上げ処理が実行される。まず、ステップS19において、障害が発生した際の障害情報が図1に示す障害後処理制御部29によって収集され、フリーズファイル7に格納される。一方、処理が継続できないような状況となった場合には、システムリセットの後、このようなフリーズ取得処理が実行されてもよい。ステップS21のシステムリセットの後、メモリを初期化しない状態ならばフリーズ取得が可能となる。このフリーズ取得は世代管理され、フリーズファイル7に格納される。
【0031】次に、ステップS20において、再開始レベルが最低値にダウンしたかどうかが判断される。即ち、重大な障害で再開始レベルが最低値にダウンした場合においては、ここでシステムの再開を行なわず、情報処理装置の動作を完全に停止するシステムダウンとなる。一方、ステップS20で再開始レベルが最低値でない場合には、ステップS21に移り、自動的にシステムリセットが実行される。
【0032】ステップS22において、IPLROMによる初期化診断が行なわれ、ステップS23において、IPLROMによる初期処理が実行される。なお、この場合の処理は再開始レベルに応じて選択的に実行される。ステップS24におけるシステムの立上げ処理も同様である。
【0033】即ち、再開始レベルが深い場合にはIPLROM用ローディングファイルを全て実行し、浅い場合にはこれらのうち必要なファイルのみを選択的に実行する。また、全くこのローディングファイルを実行しない場合も生じる。更に、ステップS24におけるシステムの立上げの際に、図4に示したような初期処理ファイル等が参照され、必要なレベルの処理のみが選択される。従って、例えばローディングされたアプリケーションプログラム自体の障害であれば、プログラムのローディングのみが立上げ処理の際に行なわれるが、主記憶装置の一部のメモリ障害等の場合には、障害部分を排除するような処理とともにローディングファイルと初期処理ファイル等を使用した深い立上げ処理が実行される。
【0034】ステップS24のシステムの立上げが完了すると、システムの運転が再開される。そして、ステップS25において、保守員に対し障害の情報を表示し、また必要に応じて自動的に再立上げが行なわれた旨を保守員に知らせるためのブザー等を鳴らす。
【0035】なお、このような再立上げの際の再開始レベルの設定は、ユーザー操作パネルからも行なうことができるため、情報処理装置の環境の選択や切換え、拡張、移行、あるいは移行失敗時の戻し作業等も容易に実行することができる。また、フリーズファイル7に格納された障害情報は、情報処理装置運転中にいつでも保守員が必要に応じて出力することができるようにしておくことが好ましい。
【0036】本発明は以上の実施例に限定されない。上記システムパラメータメモリ5はRAM6と別構成としたが、RAM6の中にシステムパラメータメモリ5の内容を適当に移してもよい。また、再開始処理等の動作手順は必要に応じて適宜変更して差し支えない。
【0037】
【発明の効果】以上説明した本発明の再開始制御システムは、障害が発生した際、自動的に立上げ処理を実行して動作を再開始させる障害再開始制御部と、障害情報を収集して、複数世代、障害情報の蓄積制御を行なう障害後処理制御部と、障害原因に応じて再開始のためのレベルを設定し、これを障害再開始制御部が参照し、複数の障害再開始のための手順の中から任意の手順を選択するようにしたので、保守員の介在無しに自動的に、最適なしかも迅速な装置の立上げが可能となる。
【0038】しかも複数世代の障害情報が蓄積されることによって障害の解析等が正確に行なわれ、これによって障害原因による立上げ環境の変更を自由に適切に行なうことができる。また、再開始のためのレベルを含む情報を格納するシステムパラメータメモリの内容を自由に変更できるようにすれば、障害発生時だけでなくシステムの設置条件の変更、切換え、選択、移行等の際の作業も容易に行なうことができる。
【図面の簡単な説明】
【図1】本発明の再開始制御システム実施例を示すブロック図である。
【図2】従来処理のフローチャートである。
【図3】IPLROM用ローディングファイルの構成説明図である。
【図4】システム用初期処理ファイルの構成説明図である。
【図5】システムパラメータメモリ記憶内容説明図である。
【図6】本発明による再立上げ動作のフローチャートである。
【図7】本発明による障害監視動作のフローチャートである。
【図8】本発明による障害後の再立上げ動作フローチャートである。
【符号の説明】
1 バスライン
2 ユーザー操作パネル
3 プロセッサ
4 IPLROM
5 システムパラメータメモリ
6 RAM
7 フリーズファイル

【特許請求の範囲】
【請求項1】 障害発生時、自動的に立上げ処理を実行して、動作を再開始させるための制御を行なう障害再開始制御部と、障害発生の都度、障害情報を収集して、複数世代にわたり障害情報の蓄積制御を行なう障害後処理制御部と、障害要因に応じて設定された再開始のためのレベルを含む情報を記憶するシステムパラメータメモリとを備え、前記障害再開始制御部は、前記システムパラメータメモリを参照して、複数の障害再開始の手順の中から任意の手順を選択することを特徴とする再開始制御システム。

【図1】
image rotate


【図2】
image rotate


【図3】
image rotate


【図4】
image rotate


【図5】
image rotate


【図8】
image rotate


【図6】
image rotate


【図7】
image rotate


【公開番号】特開平7−168729
【公開日】平成7年(1995)7月4日
【国際特許分類】
【出願番号】特願平5−342866
【出願日】平成5年(1993)12月15日
【出願人】(000000295)沖電気工業株式会社 (6,645)