計算機システム及び障害情報管理方法

【課題】各計算機の物理的経路を二重化構成とすることで上記の正常動作の計算機を誤って再起動してしまう問題を回避し、さらに複数台の計算機の障害発生情報を管理する。
【解決手段】複数の計算機１００は、通信制御装置１１２を制御するＢＭＣ１１４を有し、ＳＶＰ１４０は、ネットワークを介してＢＭＣ１１４と接続し、ＢＭＣ１１４の監視をする。ＲＡＳ−Ｕ１４１は、複数の計算機１００から送出される障害情報をＳＶＰ１４０から収集すると共に、障害情報に対する処理を行いながら障害情報を管理する。操作機１４３は、障害情報の処理結果に基づいてＲＡＳ−Ｕ１４１に対して障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、汎用ネットワークに接続される汎用電子計算機において、障害が発生した計算機を停止させると共に複数台の計算機に関する障害情報の収集や、その復旧のための操作を一括管理する計算機システム及び障害情報管理方法に関するものである。
【背景技術】
【０００２】
鉄道運行管理、電力系統制御、プラント制御を始めとする高い信頼性が要求される用途に計算機を用いる場合、処理を行う稼動系計算機に加えて、稼動系の計算機に障害が発生した場合に稼動系の計算機の処理を引き継ぐ待機系の計算機を備えた多重系のシステムが期待されている。
【０００３】
従来の電子計算機システムでは、専用ネットワークと専用機能拡張ボードを用いて多重系のシステムを構築してきた。多重系システムにおける系切り替え方法としては、障害の発生した稼動系計算機は、障害発生時は本来の処理を停止して障害情報を保存し、待機系計算機は自律的に処理の引継ぎを実施する方法が提案されている（特許文献１、図１、図２参照）。
【０００４】
また、複数の汎用計算機からなる多重系汎用計算機システムにおいて、計算機と別にシステム監視装置を設け、各計算機からシステム監視装置に一定周期で運転情報を送信し、システム監視装置では運転情報を一定周期内に受信しないとき、当該計算機を異常と判断し、当該計算機に停止指令を送信すると共に、他の計算機にシステムバックアップ発生情報を送信し、他の計算機内の制御処理を行うシステム監視方法が提案されている（特許文献２参照）。
【特許文献１】国際公開第９９／２６１３８号パンフレット
【特許文献２】特開２００３−６７２１９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
上述した特許文献１に記載した技術は、一般的な多重系システムの系切り替え方法であり、このような多重系システムではシステム全体の障害に対する対処のみを可能とするものである。従って、各障害の程度、発生頻度、どの処理中かなどの詳細な障害情報を得ることができないため、詳細な障害に対する管理や対策ができないという不都合があった。
【０００６】
また、上述した特許文献２に記載したシステム監視方法では、各計算機は１つの物理的通信経路によって接続されている。このため、他周辺機器からの大量電文到達によってネットワーク負荷が大きくなったときに、正常動作の第１計算機から送信されるべき生存通知電文が送信できない。従って、第２計算機によって障害と判断され、正常動作の第１計算機が再起動されてしまうため、障害監視の信頼性を向上させることができないという問題がある。
【０００７】
さらに、上述した特許文献１に記載した技術と同様に、特許文献２に記載された技術も、システム全体の障害に対する対処のみを可能とするものである。このため、各障害の程度、発生頻度、どの処理中かなどの詳細な障害情報を得ることができない。従って、詳細な障害に対する管理や対策ができないという不都合もある。
【０００８】
そこで、本発明では、各計算機の物理的経路を二重化構成とすることで上記の正常動作の計算機を誤って再起動してしまう問題を回避し、さらに複数台の計算機の障害発生情報を管理することにより、障害発生の計算機を切替、停止、再起動を含む操作を一括管理する多重系の計算機システム及び障害情報管理方法を構築することを目的とする。
【課題を解決するための手段】
【０００９】
上記課題を解決し、本発明の目的を達成するため、本発明は、複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおいて、他の計算機を互いに監視するための他系監視プログラムと、ネットワークを介して他の計算機との通信を制御する通信制御装置と、前記通信制御装置を制御する管理装置とををと有する複数の計算機と、他のネットワークを介して前記複数の計算機の管理装置と接続し、前記複数の計算機の管理装置の監視をする監視装置と、前記複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら前記障害情報を管理する障害情報管理装置と、前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出する操作機とを備えたことを特徴とする計算機システムである。
【００１０】
また、本発明は、複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおけるに障害情報管理方法であって、複数の計算機が、他系監視プログラムにより他の計算機を互いに監視し、ネットワークを介して通信制御装置により他の計算機との通信を制御すると共に、管理装置により前記通信制御装置を制御するステップと、監視装置が、他のネットワークを介して接続される前記複数の計算機の管理装置の監視をすることにより、前記複数の計算機から送出される障害情報に基づく処理要求を送信するステップと、障害情報管理装置が、前記処理要求に対応した複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら、前記障害情報を管理するステップと、操作機が、前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出するステップとを含むことを特徴とする障害情報管理方法である。
【発明の効果】
【００１１】
本発明によれば、多重系の計算機システムにおいて、各計算機の物理的経路を二重化構成とすることで正常動作の計算機を誤って再起動してしまう問題を回避することができる。さらに複数台の計算機の障害発生情報を収集して管理することにより、障害発生のある計算機に対する切替、停止、再起動を含む操作を一括管理することができる。
【００１２】
これにより、多重系システムの汎用ネットワーク負荷とは無関係に、障害が発生した計算機を停止させ、さらに外的要因等による他系監視プログラムのエラーの発生確率を低減させて、障害監視の信頼性を向上させることができる。
【発明を実施するための最良の形態】
【００１３】
以下、本発明に関わる計算機の構成及び方式の実施形態について詳細を示す。
まず、実施の形態例１について説明する。
図１に本実施形態に関わる多重系計算機システムの構成を示す。
図示する通り、本実施形態に関わる多重系システムは２台の計算機で構成された二重系システムである。ただし、計算機は３台以上の複数台で構成してもよい。
【００１４】
図１において、１００、１０１はそれぞれ稼動系計算機、待機系計算機を示している。
両系の切り替えにより、稼動系計算機１００は待機系計算機として、待機系計算機１０１は稼動系計算機としても動作する。すなわち、多重系汎用計算機システムにおいて、各計算機は互いに監視し、監視結果が異常であるとき当該計算機を異常と判断し、当該計算機に停止指令を送信すると共に、他の計算機にシステムバックアップ発生情報を送信する処理を行うように計算機１００、１０１は構成されている。
【００１５】
各計算機の構成要素は計算機１００を例に以下に示す。
計算機１００は中央演算処理装置（以下ＣＰＵと記す）１１０と、主記憶装置であるメインメモリ１１１と、入出力制御装置１１２と、を備える。入出力制御装置１１２には、ディスク装置１１３や割り込み処理装置１１８、拡張バス１０７が接続される。また、入出力制御装置１１２には、管理バス１０６を介してメインメモリ１１１が接続される。メインメモリ１１１には、制御プログラムを含むソフトウエア１１９が格納されている。
【００１６】
管理装置（ＢＭＣ：Baseboard Management Controller、以下ＢＭＣとする）１１４は拡張管理バス１０８によって入出力制御装置１１２に接続されている。ＢＭＣ１１４は入出力制御装置１１２を制御する。
拡張バス１０７には、計算機の機能を拡張するための回路が接続される。一般的には回路が実装された拡張ボードを、拡張バス１０７のスロットコネクタに挿入する形態で拡張バス１２１に接続される。ただし、一部の機能は計算機本体内に実装され、拡張バス１０７に直接内部で接続されている場合もある。
【００１７】
本実施形態に係る計算機１００は、拡張ボードとして拡張バス１０７に接続されるＬＡＮ（Local Area Network）ボード１１５、１１６、１１７を備える。ＬＡＮボード１１７は管理バス１０６を通じて入出力制御装置１１２にも接続されている。計算機１００内のＢＭＣ１１４は、汎用ネットワークであるＬＡＮ１−１０２に接続され、このＬＡＮ１−１０２に接続された計算機１０１内の管理装置であるＢＭＣ１３４と監視装置（ＳＶＰ：Service Processor、以下ＳＶＰとする）１４０を介して通信を行う。
【００１８】
ここでは計算機１００、１０１相互間での相手計算機の機能上の生存監視と、相手計算機のＬＡＮ制御装置１１５、１１６、１１７、１３５、１３６、１３７の再起動、動作停止、さらに系切り替えに必要な強制割り込み、動作停止、計算機再起動等の各指示電文の送信を行う。
【００１９】
ＬＡＮボード１１５、１１６は汎用ネットワーク１０４、１０５に接続され、計算機１００は、この汎用ネットワーク１０４、１０５に接続された他の計算機などと通信を行う。汎用ネットワークとしては広く普及しているＥｔｈｅｒｎｅｔ（登録商標）などがある。
【００２０】
ＬＡＮボード１１７は、ここでは主に上述した生存監視のための生存通知電文の送受信を行う。このため、ＬＡＮボード１１７は、汎用ネットワークであるＬＡＮ２−１０３に接続される。計算機１００は、この汎用ネットワークＬＡＮ２−１０３に接続された他の計算機などと通信を行う。
【００２１】
ＳＶＰ１４０は障害情報管理装置（以下、ＲＡＳ−Ｕとする）１４１とシリアル線１４２にて接続されており、ＲＡＳ−Ｕ１４１の先には操作機１４３が接続される。操作機１４３は、システムを構成する計算機１００、１０１の切替、停止、再起動等の操作処理を一括管理する。
【００２２】
図２に、計算機１００、１０１のＢＭＣ１１４、１３４に接続されるＳＶＰ１４０の構成を示す。
ＳＶＰ１４０は、ＣＰＵ２０１、主記憶装置であるメインメモリ２０２、入出力制御装置２０４を備える。入出力制御装置２０４には、システムバス２０６を介してディスク装置２０５やデータ制御装置（Ｉ２Ｃ：Inter Integrated Circuit、以下Ｉ２Ｃとする）２１０が接続される。メインメモリ２０２には、制御プログラムを含むソフトウエア２０３が格納されている。
【００２３】
ＳＶＰ１４０は、拡張ボードとして拡張バス２０７に接続されるＬＡＮボード２０８、２０９、２２０を備える。
Ｉ２Ｃ２１０は、データバス２１１を介して、Ｉ２Ｃ制御装置２１２、２１３、センサ２１４等と接続されている。また、Ｉ２Ｃ２１０は、シリアル線１４２を介してＲＡＳ−Ｕ１４１とも接続されている。Ｉ２Ｃ制御装置２１２、２１３は外部Ｉ／Ｏ機器２１５や表示器２１５と接続され、センサ２１４はＦＡＮ２１７等に接続される。
【００２４】
図３にＲＡＳ−Ｕ１４１の構成を示す。
ＲＡＳ−Ｕ１４１は、ＣＰＵ３０１、主記憶装置であるメインメモリ３０２、入出力制御装置３０４を備える。メインメモリ３０２には、制御プログラムを含むソフトウエア３０３が格納されている。
【００２５】
ＣＰＵ３０１にはシステムバス３０６を介してメインメモリ３０２、入出力制御装置３０４が接続される。ＣＰＵ３０１にはＳＶＰ１４０とのインターフェースを行うＩ／Ｆ３０７が接続される。また、入出力制御装置３０４には、ディスク装置３０５や表示器３０８、外部接点３０９、３１０が接続される。
ＲＡＳ−Ｕ１４１は外部接点３０９、３１０を介して操作機１４３と接続される。以下では操作機１４３の操作処理例として、表示器３１２や操作部３１１を用いる例を示す。
【００２６】
図４に前記主記憶装置であるメインメモリ１１１内に格納しているソフトウェア１１９の構成を示す。
前述の二重系システムにおいて、稼動系計算機１００の主記憶装置であるメインメモリ１１１内のソフトウェア１１９にはＯＳ（Operating System）４０４、アプリケーション４０１、管理プログラム４０２、及び他系監視プログラム４０３が格納されている。このソフトウェア１１９では、アプリケーション４０１、管理プログラム４０２、及び他系監視プログラム４０３が読み出され、読み出されたアプリケーション４０１、管理プログラム４０２、及び他系監視プログラム４０３がＯＳ４０４上で実行されている。
【００２７】
待機系計算機１０１の主記憶装置であるメインメモリ１３１内のソフトウェア１３９の構成は上述と同様であるが、ソフトウェア１３９ではアプリケーション４０１はＯＳ４０４上で待機系として動いている点が異なる。
【００２８】
管理プログラム４０２は、稼働系計算機と待機系計算機の系切り替え処理を行うプログラムである。本管理プログラム４０２はＢＭＣ１１４に対して電文送受信要求や動作指示を行い、また、他系監視プログラム４０３に対して生存通知電文の送受信要求を行う。他系監視プログラム４０３はＢＭＣ１１４を使い、ＬＡＮ１−１０２を介してＳＶＰ１４０経由で他計算機と生存通知電文の送受信を行う。電文送受信は汎用通信プロトコルを使って行われる。
【００２９】
管理プログラム４０２は、汎用通信プロトコルでデータを送受信するために予め決められたアドレス（以下、ポートと記す）で他計算機からの接続を待つ。他計算機がポートに接続された場合には電文を受信して管理プログラム４０２内でこの電文の内容を保持する。そして、他計算機の管理プログラム４０２からの読み出し要求に対して保持している電文の内容を返す。
【００３０】
また、管理プログラム４０２は他計算機の管理プログラム４０２からの生存確認電文送信要求を受け、二重系を構成している他計算機上の管理プログラム４０２が待機しているポートに対して電文を送信する。
【００３１】
割り込み処理プログラム４０８は、ＣＰＵ１１０に対してマスク不可能割り込み（以下、ＮＭＩ（non musk able interrupt）とする）信号が入力されたときに起動される。そして、ＮＭＩ信号発生時に障害情報の保存等、障害発生時の処理を実行する。
以下、本実施の形態の特有の動作について、前記計算機を用いて多重系システムを構築し、障害発生時にＳＶＰ１４０が障害を検知し、障害系の計算機を停止させる手順を説明する。
【００３２】
図５は、ＳＶＰによる障害系停止のタイムチャートである。
ＳＶＰ１４０は５０１に示す障害発生を検知すると、障害発生システム情報（System Event Log、以下ＳＥＬとする）書込み指示５０２を障害系計算機内のＢＭＣ１１４へ送信する。
【００３３】
ＳＶＰ１４０から障害発生ＳＥＬ書込み指示５０２を受け取ると、ＢＭＣ１１４は、他系監視プログラム４０３に対して５０３に示すように障害発生ＳＥＬを書き込む。ＢＭＣ１１４から他系監視プログラム４０３に対する障害発生ＳＥＬの書き込みは５０４に示すように他のタイミングでも実行される。
【００３４】
障害系の他系監視プログラム４０３は、ＢＭＣ１１４によって書き込まれたＳＥＬを５０５で示すように上述したＮＭＩの割込処理によって読み込む。他系監視プログラム４０３は、ＢＭＣ１１４に対して５０６で示すようにＯＳシャットダウン要求を発行する。
【００３５】
他系監視プログラム４０３から５０６で示すＯＳシャットダウン要求を受け取ると、ＢＭＣ１１４は、ＳＶＰ１４０に対してＣＰＵ停止要求５０７を発行する。ＢＭＣ１１４から送信されたＣＰＵ停止要求５０７を受け取ると、ＳＶＰ１４０は、障害系計算機のＣＰＵの電源ＯＦＦ５０８の処理を実行する。
【００３６】
また、５００で示すようにＢＭＣ１１４は自らも障害発生ＳＥＬの検出を行う。ＢＭＣ１１４は検出した障害発生ＳＥＬが重度の場合には他系監視プログラム４０３に障害発生ＳＥＬの読み込みをさせて、他系監視プログラム４０３に障害発生ＳＥＬに対する判断をさせる。ＢＭＣ１１４は検出した障害発生ＳＥＬが軽度の場合にはＳＶＰ１４０に障害発生ＳＥＬの読み込みをさせて、ＳＶＰ１４０に障害発生ＳＥＬに対する処理をさせる。
以上説明したＳＶＰ１４０、ＢＭＣ１１４及び他系監視プログラム４０３の各動作により、障害系計算機を停止させる。
【００３７】
このようにして、監視装置であるＳＶＰ１４０により障害系計算機を停止させることができる。
この場合、複数の計算機から構成される多重系システムにおいて、計算機の障害発生を検知した管理装置であるＢＭＣ１１４が、監視装置であるＳＶＰ１４０を介して障害発生の計算機の他系監視プログラム４０３へ計算機内で障害が発生したことを示す情報を送信する。そして、その情報を受け取った障害系の他系監視プログラム４０３が、管理装置であるＢＭＣ１１４に対してＯＳシャットダウンを要求する。ＯＳシャットダウン要求を受け取った管理装置であるＢＭＣ１１４は、障害系の計算機のＣＰＵへの給電を遮断し、障害系の計算機を停止させる。
【００３８】
ここで、管理装置であるＢＭＣ１１４と監視装置であるＳＶＰ１４０は、汎用ネットワークとは物理的な経路を別にしている。このため、ある計算機に障害が発生したとき、ネットワーク負荷が大きくなって、ＢＭＣ１１４による生存監視が期待通り働かない場合でも、上記のような処理を経ることにより、障害系の計算機を停止させることができる。
以下に述べる動作は、このようなＢＭＣ１１４による生存監視、ＳＶＰによる障害検知、他系監視プログラム４０３による障害系停止の動作を前提としたものである。
【００３９】
次に、複数台の計算機の障害発生情報を管理する機器を追加し、障害発生の計算機を切替、停止、再起動等の操作処理を一括管理する方法を示す。
図６にＳＶＰ１４０からの情報に応じて操作機１４３により計算機の切替、停止、再起動の操作処理を行う際の情報の送受信のタイムチャートを示す。
ＳＶＰ１４０は、６０１に示すようにＲＡＳ−Ｕ１４１に対して処理要求送信６０１を実施する。ＲＡＳ−Ｕ１４１は、６０２に示すように処理要求を受信すると、操作機１４３に対して表示器制御信号６０３を送信する。
【００４０】
操作機１４３は、ＲＡＳ−Ｕ１４１からの表示器制御信号６０３に応じて表示器制御６０４を実施する。操作機１４３は、表示器３１２の内容によって入力操作されることにより、６０５に示すように入力操作に対応するように操作部３１１を動作させる。そして、操作機１４３の操作部３１１に対する操作により計算機の切替、停止、再起動等の動作指示が発行されると、ＲＡＳ−Ｕ１４１は、６０６に示すように動作情報をＳＶＰ１４０に送信する。ＳＶＰ１４０は、６０７に示すように動作情報を受信すると、その動作情報に応じた計算機の切替、停止、再起動等の処理を実行する。
【００４１】
図７は、ＲＡＳ−Ｕの処理に関するフローチャートである。
以下では、操作機１４３の操作部３１１に対する入力操作の動作の例として、操作機１４３の操作部３１１は計算機の停止、再起動の処理を行う指示を出せるものとする。他には計算機の切替、ディスク装置の切替等がある。
【００４２】
ＲＡＳ−Ｕ１４１は、ＳＶＰ１４０からの処理要求電文を受信すると（ステップＳ７０１）、表示器３１２の制御、操作部３１１の動作信号の受信といった操作部３１１の確認動作を実施する（ステップＳ７０３）。
次に、ＲＡＳ−Ｕ１４１は、操作部３１１の動作が計算機のＣＰＵ停止要求か否を確認する（ステップＳ７０５）。ステップＳ７０１で受信した処理要求がステップＳ７０５でＣＰＵの停止要求であることが確認された場合は、ＲＡＳ−Ｕ１４１は、ＣＰＵ停止要求電文を作成する（ステップＳ７０７）。
【００４３】
ステップＳ７０１で受信した処理要求がステップＳ７０５でＣＰＵ停止要求ではない場合は、ＲＡＳ−Ｕ１４１は、ＣＰＵ起動確認要求か否を確認する（ステップＳ７０９）。ステップＳ７０１で受信した処理要求がステップＳ７０９でＣＰＵの起動要求であることが確認された場合は、ＲＡＳ−Ｕ１４１は、ＣＰＵ起動要求電文を作成する（ステップＳ７１０）。ステップＳ７０１で受信した処理要求がＣＰＵ起動要求ではない場合は、ＲＡＳ−Ｕ１４１は、動作要求なし電文を作成する（ステップＳ７１１）。
【００４４】
ＲＡＳ−Ｕ１４１は、上記ステップＳ７０７、ステップＳ７１０又はステップＳ７１１により作成された電文をＳＶＰ１４０に送信する（ステップＳ７１２）。
上述したステップＳ７０１とステップＳ７０３、ステップＳ７０３とステップＳ７０５、ステップＳ７０５とステップＳ７０７、７０５とステップＳ７０９の各処理間にはＡチェックポイント（ステップＳ７０２）、Ｂチェックポイント（ステップＳ７０４）、Ｃチェックポイント（ステップＳ７０６）が設置される。
【００４５】
ステップＳ７０７とステップＳ７１２、ステップＳ７０９とステップＳ７１０、ステップＳ７０９とステップＳ７１１の各処理間にはＤチェックポイント（ステップＳ７０８）が設置される。各処理の最後にはＲＡＳ−Ｕ１４１は、これらすべてのチェックポイントをクリアする（ステップＳ７１３）。なお、ＣチェックポイントＳ７０６、ＤチェックポイントＳ７０８は、同列の複数の各処理間に対して同時に設定される。
【００４６】
次に、チェックポイント設置による逐次処理確認の手順を示す。
図８は、ＲＡＳ−Ｕの各処理間にチェックポイントを設置した時の処理に関するフローチャートである。
ＲＡＳ−Ｕ１４１は、操作部３１１のある操作１に対するＲＡＳ−Ｕ１４１とＳＶＰ１４０間の処理後に（ステップＳ８０１）、Ａチェックポイントを設ける（ステップＳ８０２）。次に、ＲＡＳ−Ｕ１４１は、プログラムがステップＳ８０２で設定したＡチェックポイントを通過したか否を確認する（ステップＳ８０３）。
【００４７】
ステップＳ８０３でＡチェックポイントを通過したことを確認した後に、ＲＡＳ−Ｕ１４１は、次の操作部３１１の操作２に対するＲＡＳ−Ｕ１４１とＳＶＰ１４０間の処理に遷移する（ステップＳ８０４）。
ＲＡＳ−Ｕ１４１は、操作部３１１の操作２に対するＲＡＳ−Ｕ１４１とＳＶＰ１４０間の処理後に（ステップＳ８０４）、Ｂチェックポイントを設ける（ステップＳ８０５）。以下、同様にして、ＲＡＳ−Ｕ１４１は、各チェックポイントを設ける。
【００４８】
ステップＳ８０３のＡチェックポイントを通過したことの確認時にＡチェックポイントの通過を確認できない場合、ＲＡＳ−Ｕ１４１は、それ以降のＲＡＳ−Ｕ１４１とＳＶＰ１４０間の処理を停止する（ステップＳ８０６）。以下、同様にして、ＲＡＳ−Ｕ１４１は、各チェックポイントの通過を確認できない場合、それ以降のＲＡＳ−Ｕ１４１とＳＶＰ１４０間の処理を停止する。
【００４９】
以上の方法により、不正ジャンプ等による処理の抜けが発生した時でも処理を止めることで、期待しない動作の実行を防止することができる。
上述したようにチェックポイント設置により逐次処理の確認を行うことができる。
この場合、複数台の計算機の障害発生状況を監視する監視装置であるＳＶＰ１４０と障害発生状況の管理装置であるＲＡＳ−Ｕ１４１を汎用ネットワークとは別に設けたシリアル接続線１４２にて結ぶようにしている。これにより、ＲＡＳ−Ｕ１４１は、ＳＶＰ１４０から確実に障害情報を収集することができる。
【００５０】
ここで、障害発生状況管理装置であるＲＡＳ−Ｕ１４１と監視装置であるＳＶＰ１４０間の処理において、ＲＡＳ−Ｕ１４１は、各処理が終わる度にチェックポイントを設ける。ＲＡＳ−Ｕ１４１は、一つ前の処理が完了していることを検出してから次の処理を行う。このとき、不正ジャンプによりチェックポイントを通過しない場合は、ＲＡＳ−Ｕ１４１は、次の処理が実施される前段の条件分岐により検出され処理を停止する。
【００５１】
図９は、本実施の形態例を用いたサービス例を示したものである。
本多重系システムは高い信頼性を要求される社会インフラ向けに適用されることが期待される。その利用価値の向上方法として、障害の発生、リセット、停止、復旧等を含めた通知情報を９００で示すようにシステム全体で共有する。
【００５２】
このように情報の通知をシステム全体に行うことにより、９０１で示すように顧客毎に障害発生情報のデータベース化を図ることができる。このような障害発生情報のデータベースを設けることにより、発生頻度などの統計情報から先に発生する障害を予測することができる。さらに９０２で示すように遠方一元監視によるシステム管理を行うことができる。これにより、上記のような高信頼のシステムの提供が期待される。
【００５３】
次に、実施の形態例２について説明する。
実施形態例２は、上述した実施の形態例１に対してさらに外的要因によるプログラムエラーを防止する方法を取り込んだものであり、以下、その処理のフローチャートに基づいて説明する。
図１０は、反転照合を用いたビットエラー検出とチェックポイント設置による不正ジャンプ防止を実現する処理のフローチャートである。
【００５４】
ＲＡＳ−Ｕ１４１は、操作部３１１のある操作１に対するＲＡＳ−Ｕ１４１とＳＶＰ１４０間の処理後に（ステップＳ８５１）、操作１に対する処理データをある番地Ａに格納する（ステップＳ８５２）。このとき、ＲＡＳ−Ｕ１４１は、その操作１に対する処理データを反転したものを別の番地Ｂに格納する（ステップＳ８５３）。
【００５５】
これらのステップＳ８５１、ステップＳ８５２及びステップＳ８５３の処理の後、ＲＡＳ−Ｕ１４１は、Ａチェックポイントを設けて、プログラムがこのＡチェックポイントを通過する（ステップＳ８５４）。
Ａチェックポイント通過後に、ＲＡＳ−Ｕ１４１は、Ａ番地のデータをリードし（ステップＳ８５５）、次にＢ番地のデータをリードする（ステップＳ８５６）。ＲＡＳ−Ｕ１４１は、リードしたＡ番地とＢ番地の２つのデータを排他的論理和演算し、演算結果が１であるか否かを判断する（ステップＳ８５７）。
【００５６】
ステップＳ８５７の演算結果が０の時にはビットエラーが発生していることを意味するため、ＲＡＳ−Ｕ１４１は、ＲＡＳ−Ｕ１４１とＳＶＰ１４０間の処理を停止する（ステップＳ８５８）。ステップＳ８５７の排他的論理和演算の演算結果が１の場合は、処理を継続し、プラグラムがチェックポイントＡを通過したか否かを判断する（ステップＳ８５９）。
【００５７】
ステップＳ８５９でチェックポイントＡを通過した確認して、ＲＡＳ−Ｕ１４１は、操作部３１１の操作２に対するＲＡＳ−Ｕ１４１とＳＶＰ１４０間の処理を実行する（ステップＳ８６０）。ＲＡＳ−Ｕ１４１は、操作２に対する処理後に（ステップＳ８６０）、Ｂチェックポイントを設けて、プラグラムがこのＢチェックポイントを通過する（ステップＳ８６１）。
【００５８】
以下、同様にして、ＲＡＳ−Ｕ１４１は、各チェックポイントを設けて、プラグラムがこの各チェックポイントを通過する。
ステップＳ８５９でＡチェックポイントの通過が確認できない時には、ＲＡＳ−Ｕ１４１は、ＲＡＳ−Ｕ１４１とＳＶＰ１４０間の処理を停止する（ステップＳ８６２）。
【００５９】
汎用的なプログラムにおいては不正ジャンプ、ビットエラー検出等を一つ一つの処理間に行うことは稀である。これに対して、本実施の形態では高い信頼性を要求される社会インフラ向けに適用するため、障害情報管理機能を拡充する観点より前記の処理を実施する。
これにより、操作機１４３の操作部３１１の操作に対する処理データの反転照合によりビットエラーを防止することができる。
【００６０】
この場合、障害発生状況管理装置であるＲＡＳ−Ｕ１４１と監視装置であるＳＶＰ１４０間の処理において、ＲＡＳ−Ｕ１４１は、ビットエラーによる誤動作を防止するために各処理間で操作部３１１の操作に対する処理データの反転照合によるエラー検出を行う。ＲＡＳ−Ｕ１４１とＳＶＰ１４０間の処理において操作機１４３の操作部３１１の操作に対する処理データにより送出された電文とその電文の反転したものを排他的論理和演算してその結果が１のときのみ、次の処理へ進むようにする。演算結果が０の場合は処理を停止する。
【００６１】
以上、本発明の実施形態例について説明したが、本発明は、上述した実施の形態に限らず、特許請求の範囲に記載した本発明の要旨を逸脱しない限り、適宜、変更し得ることはいうまでもない。
【図面の簡単な説明】
【００６２】
【図１】本発明の多重系システム構成を示すハードウェアブロック図である。
【図２】本発明の多重系システムを構成する計算機のＬＡＮ制御の管理装置であるＳＶＰの構成を示すハードウェアブロック図である。
【図３】本発明の多重系システムを構成する計算機の障害情報管理装置であるＲＡＳ−Ｕの構成を示すハードウェアブロック図である。
【図４】本発明の多重系システムを構成する計算機の主記憶装置であるメインメモリ内に格納されているソフトウェアの構成を示すブロック図である。
【図５】本発明の多重系システムを構成する計算機に対して、ＳＶＰによる障害発生計算機の停止処理を示すタイムチャートである。
【図６】本発明の多重系システムを構成する計算機に対して、ＳＶＰとＲＡＳ−Ｕ間の情報の送受信処理を表すタイムチャートである。
【図７】本発明の多重系システムを構成する計算機に対して、ＲＡＳ−Ｕ内の処理を示すフローチャートである。
【図８】本発明の多重系システムを構成する計算機に対して、ＲＡＳ−Ｕの各処理間に設置したチェックポイントの処理を示すフローチャートである。
【図９】本発明の多重系システムを用いたサービス例の概念図である。
【図１０】本発明の多重系システムを構成する計算機に対して、ＲＡＳ−Ｕの各処理間に設置したチェックポイント及び反転照合処理を示すフローチャートである。
【符号の説明】
【００６３】
１００・・・計算機
１０２、１０３・・・ＬＡＮ
１０４、１０５・・・Ｅｔｈｅｒｎｅｔ
１１０・・・中央演算処理装置
１１１・・・主記憶装置
１１２・・・入出力装置
１１３・・・ディスク装置
１１４・・・管理装置
１１５、１１６、１１７・・・ＬＡＮボード
１１８・・・割り込み処理装置
１１９・・・ソフトウェア
１４０・・・ＳＶＰ
１４１・・・ＲＡＳ−Ｕ
１４３・・・操作機
２１０・・・Ｉ２Ｃ
４０４・・・ＯＳ
４０１・・・アプリケーション
４０２・・・管理プログラム
４０３・・・他系監視プログラム
５０２・・・障害発生ＳＥＬ書込み指示
６０１・・・処理要求送信
７０５・・・ＣＰＵ停止要求確認
８０２・・・チェックポイントＡ
９００・・・通知情報の共有
９０１・・・障害情報のデータベース化
９０２・・・遠方での一元監視
８５３・・・反転処理
８５７・・・照合処理

【特許請求の範囲】
【請求項１】
複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおいて、
他の計算機を互いに監視するための他系監視プログラムと、ネットワークを介して他の計算機との通信を制御する通信制御装置と、前記通信制御装置を制御する管理装置とを有する複数の計算機と、
他のネットワークを介して前記複数の計算機の管理装置と接続し、前記複数の計算機の管理装置の監視をする監視装置と、
前記複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら、前記障害情報を管理する障害情報管理装置と、
前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出する操作機と
を備えたことを特徴とする計算機システム。
【請求項２】
請求項１に記載の計算機システムにおいて、
前記監視装置は、前記管理装置を介して前記計算機内の前記他系監視プログラムに前記障害情報を送出し、前記他系監視プログラムは、常時前記障害情報の格納領域を監視し、前記障害情報を確認すると前記管理装置を介して前記障害情報に対応する計算機を停止させることを特徴とする計算機システム。
【請求項３】
請求項２に記載の計算機システムにおいて、
前記他系監視プログラムは、割込処理により前記障害情報の格納領域を監視し、前記障害情報を確認することを特徴とする計算機システム。
【請求項４】
請求項２に記載の計算機システムにおいて、
前記管理装置は、前記計算機内の前記他系監視プログラムに比較的重度の障害情報を送出し、前記監視装置に比較的軽度の障害情報を送出することを特徴とする計算機システム。
【請求項５】
請求項１に記載の計算機システムにおいて、
前記障害情報管理装置は、前記操作機からの前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を受け取り、前記管理装置へ前記操作要求信号を送信し、前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求に応じた動作を実行させると共に、
前記障害情報管理装置は、前記操作機からの各操作要求信号を受け取り、その各操作要求に応じた動作を実行させるそれぞれの各処理間に各チェックポイントを設け、各チェックポイントに対応する各処理を実行したか否かを確認することを特徴とする計算機システム。
【請求項６】
請求項５に記載の計算機システムにおいて、
前記障害情報管理装置は、前記各チェックポイント間に各処理のデータ反転照合処理を加え、前記データ反転照合処理にビットエラーが発生した場合には当該処理を停止することを特徴とする障害情報管理装置を有する計算機システム。
【請求項７】
請求項１に記載の計算機システムにおいて、
各計算機における前記障害情報の発生、リセット、停止、復旧を含めた障害復旧情報の通知を、前記ネットワークを介してシステム全体に行い、
各計算機に対応する顧客毎に前記障害復旧情報のデータベースを設け、前記障害復旧情報に基づいて先の障害を予測し、過去の障害に対応する対策を可能にすると共に、遠方監視によるシステム管理サービスを提供することを特徴とする計算機システム。
【請求項８】
複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおけるに障害情報管理方法であって、
複数の計算機が、他系監視プログラムにより他の計算機を互いに監視し、ネットワークを介して通信制御装置により他の計算機との通信を制御すると共に、管理装置により前記通信制御装置を制御するステップと、
監視装置が、他のネットワークを介して接続される前記複数の計算機の管理装置の監視をすることにより、前記複数の計算機から送出される障害情報に基づく処理要求を送信するステップと、
障害情報管理装置が、前記処理要求に対応した複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら、前記障害情報を管理するステップと、
操作機が、前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出するステップと
を含むことを特徴とする障害情報管理方法。

【図１】