計算機システム及び障害情報管理方法
【課題】各計算機の物理的経路を二重化構成とすることで上記の正常動作の計算機を誤って再起動してしまう問題を回避し、さらに複数台の計算機の障害発生情報を管理する。
【解決手段】複数の計算機100は、通信制御装置112を制御するBMC114を有し、SVP140は、ネットワークを介してBMC114と接続し、BMC114の監視をする。RAS−U141は、複数の計算機100から送出される障害情報をSVP140から収集すると共に、障害情報に対する処理を行いながら障害情報を管理する。操作機143は、障害情報の処理結果に基づいてRAS−U141に対して障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出する。
【解決手段】複数の計算機100は、通信制御装置112を制御するBMC114を有し、SVP140は、ネットワークを介してBMC114と接続し、BMC114の監視をする。RAS−U141は、複数の計算機100から送出される障害情報をSVP140から収集すると共に、障害情報に対する処理を行いながら障害情報を管理する。操作機143は、障害情報の処理結果に基づいてRAS−U141に対して障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、汎用ネットワークに接続される汎用電子計算機において、障害が発生した計算機を停止させると共に複数台の計算機に関する障害情報の収集や、その復旧のための操作を一括管理する計算機システム及び障害情報管理方法に関するものである。
【背景技術】
【0002】
鉄道運行管理、電力系統制御、プラント制御を始めとする高い信頼性が要求される用途に計算機を用いる場合、処理を行う稼動系計算機に加えて、稼動系の計算機に障害が発生した場合に稼動系の計算機の処理を引き継ぐ待機系の計算機を備えた多重系のシステムが期待されている。
【0003】
従来の電子計算機システムでは、専用ネットワークと専用機能拡張ボードを用いて多重系のシステムを構築してきた。多重系システムにおける系切り替え方法としては、障害の発生した稼動系計算機は、障害発生時は本来の処理を停止して障害情報を保存し、待機系計算機は自律的に処理の引継ぎを実施する方法が提案されている(特許文献1、図1、図2参照)。
【0004】
また、複数の汎用計算機からなる多重系汎用計算機システムにおいて、計算機と別にシステム監視装置を設け、各計算機からシステム監視装置に一定周期で運転情報を送信し、システム監視装置では運転情報を一定周期内に受信しないとき、当該計算機を異常と判断し、当該計算機に停止指令を送信すると共に、他の計算機にシステムバックアップ発生情報を送信し、他の計算機内の制御処理を行うシステム監視方法が提案されている(特許文献2参照)。
【特許文献1】国際公開第99/26138号パンフレット
【特許文献2】特開2003−67219号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
上述した特許文献1に記載した技術は、一般的な多重系システムの系切り替え方法であり、このような多重系システムではシステム全体の障害に対する対処のみを可能とするものである。従って、各障害の程度、発生頻度、どの処理中かなどの詳細な障害情報を得ることができないため、詳細な障害に対する管理や対策ができないという不都合があった。
【0006】
また、上述した特許文献2に記載したシステム監視方法では、各計算機は1つの物理的通信経路によって接続されている。このため、他周辺機器からの大量電文到達によってネットワーク負荷が大きくなったときに、正常動作の第1計算機から送信されるべき生存通知電文が送信できない。従って、第2計算機によって障害と判断され、正常動作の第1計算機が再起動されてしまうため、障害監視の信頼性を向上させることができないという問題がある。
【0007】
さらに、上述した特許文献1に記載した技術と同様に、特許文献2に記載された技術も、システム全体の障害に対する対処のみを可能とするものである。このため、各障害の程度、発生頻度、どの処理中かなどの詳細な障害情報を得ることができない。従って、詳細な障害に対する管理や対策ができないという不都合もある。
【0008】
そこで、本発明では、各計算機の物理的経路を二重化構成とすることで上記の正常動作の計算機を誤って再起動してしまう問題を回避し、さらに複数台の計算機の障害発生情報を管理することにより、障害発生の計算機を切替、停止、再起動を含む操作を一括管理する多重系の計算機システム及び障害情報管理方法を構築することを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決し、本発明の目的を達成するため、本発明は、複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおいて、他の計算機を互いに監視するための他系監視プログラムと、ネットワークを介して他の計算機との通信を制御する通信制御装置と、前記通信制御装置を制御する管理装置とををと有する複数の計算機と、他のネットワークを介して前記複数の計算機の管理装置と接続し、前記複数の計算機の管理装置の監視をする監視装置と、前記複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら前記障害情報を管理する障害情報管理装置と、前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出する操作機とを備えたことを特徴とする計算機システムである。
【0010】
また、本発明は、複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおけるに障害情報管理方法であって、複数の計算機が、他系監視プログラムにより他の計算機を互いに監視し、ネットワークを介して通信制御装置により他の計算機との通信を制御すると共に、管理装置により前記通信制御装置を制御するステップと、監視装置が、他のネットワークを介して接続される前記複数の計算機の管理装置の監視をすることにより、前記複数の計算機から送出される障害情報に基づく処理要求を送信するステップと、障害情報管理装置が、前記処理要求に対応した複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら、前記障害情報を管理するステップと、操作機が、前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出するステップとを含むことを特徴とする障害情報管理方法である。
【発明の効果】
【0011】
本発明によれば、多重系の計算機システムにおいて、各計算機の物理的経路を二重化構成とすることで正常動作の計算機を誤って再起動してしまう問題を回避することができる。さらに複数台の計算機の障害発生情報を収集して管理することにより、障害発生のある計算機に対する切替、停止、再起動を含む操作を一括管理することができる。
【0012】
これにより、多重系システムの汎用ネットワーク負荷とは無関係に、障害が発生した計算機を停止させ、さらに外的要因等による他系監視プログラムのエラーの発生確率を低減させて、障害監視の信頼性を向上させることができる。
【発明を実施するための最良の形態】
【0013】
以下、本発明に関わる計算機の構成及び方式の実施形態について詳細を示す。
まず、実施の形態例1について説明する。
図1に本実施形態に関わる多重系計算機システムの構成を示す。
図示する通り、本実施形態に関わる多重系システムは2台の計算機で構成された二重系システムである。ただし、計算機は3台以上の複数台で構成してもよい。
【0014】
図1において、100、101はそれぞれ稼動系計算機、待機系計算機を示している。
両系の切り替えにより、稼動系計算機100は待機系計算機として、待機系計算機101は稼動系計算機としても動作する。すなわち、多重系汎用計算機システムにおいて、各計算機は互いに監視し、監視結果が異常であるとき当該計算機を異常と判断し、当該計算機に停止指令を送信すると共に、他の計算機にシステムバックアップ発生情報を送信する処理を行うように計算機100、101は構成されている。
【0015】
各計算機の構成要素は計算機100を例に以下に示す。
計算機100は中央演算処理装置(以下CPUと記す)110と、主記憶装置であるメインメモリ111と、入出力制御装置112と、を備える。入出力制御装置112には、ディスク装置113や割り込み処理装置118、拡張バス107が接続される。また、入出力制御装置112には、管理バス106を介してメインメモリ111が接続される。メインメモリ111には、制御プログラムを含むソフトウエア119が格納されている。
【0016】
管理装置(BMC:Baseboard Management Controller、以下BMCとする)114は拡張管理バス108によって入出力制御装置112に接続されている。BMC114は入出力制御装置112を制御する。
拡張バス107には、計算機の機能を拡張するための回路が接続される。一般的には回路が実装された拡張ボードを、拡張バス107のスロットコネクタに挿入する形態で拡張バス121に接続される。ただし、一部の機能は計算機本体内に実装され、拡張バス107に直接内部で接続されている場合もある。
【0017】
本実施形態に係る計算機100は、拡張ボードとして拡張バス107に接続されるLAN(Local Area Network)ボード115、116、117を備える。LANボード117は管理バス106を通じて入出力制御装置112にも接続されている。計算機100内のBMC114は、汎用ネットワークであるLAN1−102に接続され、このLAN1−102に接続された計算機101内の管理装置であるBMC134と監視装置(SVP:Service Processor、以下SVPとする)140を介して通信を行う。
【0018】
ここでは計算機100、101相互間での相手計算機の機能上の生存監視と、相手計算機のLAN制御装置115、116、117、135、136、137の再起動、動作停止、さらに系切り替えに必要な強制割り込み、動作停止、計算機再起動等の各指示電文の送信を行う。
【0019】
LANボード115、116は汎用ネットワーク104、105に接続され、計算機100は、この汎用ネットワーク104、105に接続された他の計算機などと通信を行う。汎用ネットワークとしては広く普及しているEthernet(登録商標)などがある。
【0020】
LANボード117は、ここでは主に上述した生存監視のための生存通知電文の送受信を行う。このため、LANボード117は、汎用ネットワークであるLAN2−103に接続される。計算機100は、この汎用ネットワークLAN2−103に接続された他の計算機などと通信を行う。
【0021】
SVP140は障害情報管理装置(以下、RAS−Uとする)141とシリアル線142にて接続されており、RAS−U141の先には操作機143が接続される。操作機143は、システムを構成する計算機100、101の切替、停止、再起動等の操作処理を一括管理する。
【0022】
図2に、計算機100、101のBMC114、134に接続されるSVP140の構成を示す。
SVP140は、CPU201、主記憶装置であるメインメモリ202、入出力制御装置204を備える。入出力制御装置204には、システムバス206を介してディスク装置205やデータ制御装置(I2C:Inter Integrated Circuit、以下I2Cとする)210が接続される。メインメモリ202には、制御プログラムを含むソフトウエア203が格納されている。
【0023】
SVP140は、拡張ボードとして拡張バス207に接続されるLANボード208、209、220を備える。
I2C210は、データバス211を介して、I2C制御装置212、213、センサ214等と接続されている。また、I2C210は、シリアル線142を介してRAS−U141とも接続されている。I2C制御装置212、213は外部I/O機器215や表示器215と接続され、センサ214はFAN217等に接続される。
【0024】
図3にRAS−U141の構成を示す。
RAS−U141は、CPU301、主記憶装置であるメインメモリ302、入出力制御装置304を備える。メインメモリ302には、制御プログラムを含むソフトウエア303が格納されている。
【0025】
CPU301にはシステムバス306を介してメインメモリ302、入出力制御装置304が接続される。CPU301にはSVP140とのインターフェースを行うI/F307が接続される。また、入出力制御装置304には、ディスク装置305や表示器308、外部接点309、310が接続される。
RAS−U141は外部接点309、310を介して操作機143と接続される。以下では操作機143の操作処理例として、表示器312や操作部311を用いる例を示す。
【0026】
図4に前記主記憶装置であるメインメモリ111内に格納しているソフトウェア119の構成を示す。
前述の二重系システムにおいて、稼動系計算機100の主記憶装置であるメインメモリ111内のソフトウェア119にはOS(Operating System)404、アプリケーション401、管理プログラム402、及び他系監視プログラム403が格納されている。このソフトウェア119では、アプリケーション401、管理プログラム402、及び他系監視プログラム403が読み出され、読み出されたアプリケーション401、管理プログラム402、及び他系監視プログラム403がOS404上で実行されている。
【0027】
待機系計算機101の主記憶装置であるメインメモリ131内のソフトウェア139の構成は上述と同様であるが、ソフトウェア139ではアプリケーション401はOS404上で待機系として動いている点が異なる。
【0028】
管理プログラム402は、稼働系計算機と待機系計算機の系切り替え処理を行うプログラムである。本管理プログラム402はBMC114に対して電文送受信要求や動作指示を行い、また、他系監視プログラム403に対して生存通知電文の送受信要求を行う。他系監視プログラム403はBMC114を使い、LAN1−102を介してSVP140経由で他計算機と生存通知電文の送受信を行う。電文送受信は汎用通信プロトコルを使って行われる。
【0029】
管理プログラム402は、汎用通信プロトコルでデータを送受信するために予め決められたアドレス(以下、ポートと記す)で他計算機からの接続を待つ。他計算機がポートに接続された場合には電文を受信して管理プログラム402内でこの電文の内容を保持する。そして、他計算機の管理プログラム402からの読み出し要求に対して保持している電文の内容を返す。
【0030】
また、管理プログラム402は他計算機の管理プログラム402からの生存確認電文送信要求を受け、二重系を構成している他計算機上の管理プログラム402が待機しているポートに対して電文を送信する。
【0031】
割り込み処理プログラム408は、CPU110に対してマスク不可能割り込み(以下、NMI(non musk able interrupt)とする)信号が入力されたときに起動される。そして、NMI信号発生時に障害情報の保存等、障害発生時の処理を実行する。
以下、本実施の形態の特有の動作について、前記計算機を用いて多重系システムを構築し、障害発生時にSVP140が障害を検知し、障害系の計算機を停止させる手順を説明する。
【0032】
図5は、SVPによる障害系停止のタイムチャートである。
SVP140は501に示す障害発生を検知すると、障害発生システム情報(System Event Log、以下SELとする)書込み指示502を障害系計算機内のBMC114へ送信する。
【0033】
SVP140から障害発生SEL書込み指示502を受け取ると、BMC114は、他系監視プログラム403に対して503に示すように障害発生SELを書き込む。BMC114から他系監視プログラム403に対する障害発生SELの書き込みは504に示すように他のタイミングでも実行される。
【0034】
障害系の他系監視プログラム403は、BMC114によって書き込まれたSELを505で示すように上述したNMIの割込処理によって読み込む。他系監視プログラム403は、BMC114に対して506で示すようにOSシャットダウン要求を発行する。
【0035】
他系監視プログラム403から506で示すOSシャットダウン要求を受け取ると、BMC114は、SVP140に対してCPU停止要求507を発行する。BMC114から送信されたCPU停止要求507を受け取ると、SVP140は、障害系計算機のCPUの電源OFF508の処理を実行する。
【0036】
また、500で示すようにBMC114は自らも障害発生SELの検出を行う。BMC114は検出した障害発生SELが重度の場合には他系監視プログラム403に障害発生SELの読み込みをさせて、他系監視プログラム403に障害発生SELに対する判断をさせる。BMC114は検出した障害発生SELが軽度の場合にはSVP140に障害発生SELの読み込みをさせて、SVP140に障害発生SELに対する処理をさせる。
以上説明したSVP140、BMC114及び他系監視プログラム403の各動作により、障害系計算機を停止させる。
【0037】
このようにして、監視装置であるSVP140により障害系計算機を停止させることができる。
この場合、複数の計算機から構成される多重系システムにおいて、計算機の障害発生を検知した管理装置であるBMC114が、監視装置であるSVP140を介して障害発生の計算機の他系監視プログラム403へ計算機内で障害が発生したことを示す情報を送信する。そして、その情報を受け取った障害系の他系監視プログラム403が、管理装置であるBMC114に対してOSシャットダウンを要求する。OSシャットダウン要求を受け取った管理装置であるBMC114は、障害系の計算機のCPUへの給電を遮断し、障害系の計算機を停止させる。
【0038】
ここで、管理装置であるBMC114と監視装置であるSVP140は、汎用ネットワークとは物理的な経路を別にしている。このため、ある計算機に障害が発生したとき、ネットワーク負荷が大きくなって、BMC114による生存監視が期待通り働かない場合でも、上記のような処理を経ることにより、障害系の計算機を停止させることができる。
以下に述べる動作は、このようなBMC114による生存監視、SVPによる障害検知、他系監視プログラム403による障害系停止の動作を前提としたものである。
【0039】
次に、複数台の計算機の障害発生情報を管理する機器を追加し、障害発生の計算機を切替、停止、再起動等の操作処理を一括管理する方法を示す。
図6にSVP140からの情報に応じて操作機143により計算機の切替、停止、再起動の操作処理を行う際の情報の送受信のタイムチャートを示す。
SVP140は、601に示すようにRAS−U141に対して処理要求送信601を実施する。RAS−U141は、602に示すように処理要求を受信すると、操作機143に対して表示器制御信号603を送信する。
【0040】
操作機143は、RAS−U141からの表示器制御信号603に応じて表示器制御604を実施する。操作機143は、表示器312の内容によって入力操作されることにより、605に示すように入力操作に対応するように操作部311を動作させる。そして、操作機143の操作部311に対する操作により計算機の切替、停止、再起動等の動作指示が発行されると、RAS−U141は、606に示すように動作情報をSVP140に送信する。SVP140は、607に示すように動作情報を受信すると、その動作情報に応じた計算機の切替、停止、再起動等の処理を実行する。
【0041】
図7は、RAS−Uの処理に関するフローチャートである。
以下では、操作機143の操作部311に対する入力操作の動作の例として、操作機143の操作部311は計算機の停止、再起動の処理を行う指示を出せるものとする。他には計算機の切替、ディスク装置の切替等がある。
【0042】
RAS−U141は、SVP140からの処理要求電文を受信すると(ステップS701)、表示器312の制御、操作部311の動作信号の受信といった操作部311の確認動作を実施する(ステップS703)。
次に、RAS−U141は、操作部311の動作が計算機のCPU停止要求か否を確認する(ステップS705)。ステップS701で受信した処理要求がステップS705でCPUの停止要求であることが確認された場合は、RAS−U141は、CPU停止要求電文を作成する(ステップS707)。
【0043】
ステップS701で受信した処理要求がステップS705でCPU停止要求ではない場合は、RAS−U141は、CPU起動確認要求か否を確認する(ステップS709)。ステップS701で受信した処理要求がステップS709でCPUの起動要求であることが確認された場合は、RAS−U141は、CPU起動要求電文を作成する(ステップS710)。ステップS701で受信した処理要求がCPU起動要求ではない場合は、RAS−U141は、動作要求なし電文を作成する(ステップS711)。
【0044】
RAS−U141は、上記ステップS707、ステップS710又はステップS711により作成された電文をSVP140に送信する(ステップS712)。
上述したステップS701とステップS703、ステップS703とステップS705、ステップS705とステップS707、705とステップS709の各処理間にはAチェックポイント(ステップS702)、Bチェックポイント(ステップS704)、Cチェックポイント(ステップS706)が設置される。
【0045】
ステップS707とステップS712、ステップS709とステップS710、ステップS709とステップS711の各処理間にはDチェックポイント(ステップS708)が設置される。各処理の最後にはRAS−U141は、これらすべてのチェックポイントをクリアする(ステップS713)。なお、CチェックポイントS706、DチェックポイントS708は、同列の複数の各処理間に対して同時に設定される。
【0046】
次に、チェックポイント設置による逐次処理確認の手順を示す。
図8は、RAS−Uの各処理間にチェックポイントを設置した時の処理に関するフローチャートである。
RAS−U141は、操作部311のある操作1に対するRAS−U141とSVP140間の処理後に(ステップS801)、Aチェックポイントを設ける(ステップS802)。次に、RAS−U141は、プログラムがステップS802で設定したAチェックポイントを通過したか否を確認する(ステップS803)。
【0047】
ステップS803でAチェックポイントを通過したことを確認した後に、RAS−U 141は、次の操作部311の操作2に対するRAS−U141とSVP140間の処理に遷移する(ステップS804)。
RAS−U141は、操作部311の操作2に対するRAS−U141とSVP140間の処理後に(ステップS804)、Bチェックポイントを設ける(ステップS805)。以下、同様にして、RAS−U141は、各チェックポイントを設ける。
【0048】
ステップS803のAチェックポイントを通過したことの確認時にAチェックポイントの通過を確認できない場合、RAS−U141は、それ以降のRAS−U141とSVP140間の処理を停止する(ステップS806)。以下、同様にして、RAS−U141は、各チェックポイントの通過を確認できない場合、それ以降のRAS−U141とSVP140間の処理を停止する。
【0049】
以上の方法により、不正ジャンプ等による処理の抜けが発生した時でも処理を止めることで、期待しない動作の実行を防止することができる。
上述したようにチェックポイント設置により逐次処理の確認を行うことができる。
この場合、複数台の計算機の障害発生状況を監視する監視装置であるSVP140と障害発生状況の管理装置であるRAS−U141を汎用ネットワークとは別に設けたシリアル接続線142にて結ぶようにしている。これにより、RAS−U141は、SVP140から確実に障害情報を収集することができる。
【0050】
ここで、障害発生状況管理装置であるRAS−U141と監視装置であるSVP140間の処理において、RAS−U141は、各処理が終わる度にチェックポイントを設ける。RAS−U141は、一つ前の処理が完了していることを検出してから次の処理を行う。このとき、不正ジャンプによりチェックポイントを通過しない場合は、RAS−U141は、次の処理が実施される前段の条件分岐により検出され処理を停止する。
【0051】
図9は、本実施の形態例を用いたサービス例を示したものである。
本多重系システムは高い信頼性を要求される社会インフラ向けに適用されることが期待される。その利用価値の向上方法として、障害の発生、リセット、停止、復旧等を含めた通知情報を900で示すようにシステム全体で共有する。
【0052】
このように情報の通知をシステム全体に行うことにより、901で示すように顧客毎に障害発生情報のデータベース化を図ることができる。このような障害発生情報のデータベースを設けることにより、発生頻度などの統計情報から先に発生する障害を予測することができる。さらに902で示すように遠方一元監視によるシステム管理を行うことができる。これにより、上記のような高信頼のシステムの提供が期待される。
【0053】
次に、実施の形態例2について説明する。
実施形態例2は、上述した実施の形態例1に対してさらに外的要因によるプログラムエラーを防止する方法を取り込んだものであり、以下、その処理のフローチャートに基づいて説明する。
図10は、反転照合を用いたビットエラー検出とチェックポイント設置による不正ジャンプ防止を実現する処理のフローチャートである。
【0054】
RAS−U141は、操作部311のある操作1に対するRAS−U141とSVP140間の処理後に(ステップS851)、操作1に対する処理データをある番地Aに格納する(ステップS852)。このとき、RAS−U141は、その操作1に対する処理データを反転したものを別の番地Bに格納する(ステップS853)。
【0055】
これらのステップS851、ステップS852及びステップS853の処理の後、RAS−U141は、Aチェックポイントを設けて、プログラムがこのAチェックポイントを通過する(ステップS854)。
Aチェックポイント通過後に、RAS−U141は、A番地のデータをリードし(ステップS855)、次にB番地のデータをリードする(ステップS856)。RAS−U141は、リードしたA番地とB番地の2つのデータを排他的論理和演算し、演算結果が1であるか否かを判断する(ステップS857)。
【0056】
ステップS857の演算結果が0の時にはビットエラーが発生していることを意味するため、RAS−U141は、RAS−U141とSVP140間の処理を停止する(ステップS858)。ステップS857の排他的論理和演算の演算結果が1の場合は、処理を継続し、プラグラムがチェックポイントAを通過したか否かを判断する(ステップS859)。
【0057】
ステップS859でチェックポイントAを通過した確認して、RAS−U141は、操作部311の操作2に対するRAS−U141とSVP140間の処理を実行する(ステップS860)。RAS−U141は、操作2に対する処理後に(ステップS860)、Bチェックポイントを設けて、プラグラムがこのBチェックポイントを通過する(ステップS861)。
【0058】
以下、同様にして、RAS−U141は、各チェックポイントを設けて、プラグラムがこの各チェックポイントを通過する。
ステップS859でAチェックポイントの通過が確認できない時には、RAS−U141は、RAS−U141とSVP140間の処理を停止する(ステップS862)。
【0059】
汎用的なプログラムにおいては不正ジャンプ、ビットエラー検出等を一つ一つの処理間に行うことは稀である。これに対して、本実施の形態では高い信頼性を要求される社会インフラ向けに適用するため、障害情報管理機能を拡充する観点より前記の処理を実施する。
これにより、操作機143の操作部311の操作に対する処理データの反転照合によりビットエラーを防止することができる。
【0060】
この場合、障害発生状況管理装置であるRAS−U141と監視装置であるSVP140間の処理において、RAS−U141は、ビットエラーによる誤動作を防止するために各処理間で操作部311の操作に対する処理データの反転照合によるエラー検出を行う。RAS−U141とSVP140間の処理において操作機143の操作部311の操作に対する処理データにより送出された電文とその電文の反転したものを排他的論理和演算してその結果が1のときのみ、次の処理へ進むようにする。演算結果が0の場合は処理を停止する。
【0061】
以上、本発明の実施形態例について説明したが、本発明は、上述した実施の形態に限らず、特許請求の範囲に記載した本発明の要旨を逸脱しない限り、適宜、変更し得ることはいうまでもない。
【図面の簡単な説明】
【0062】
【図1】本発明の多重系システム構成を示すハードウェアブロック図である。
【図2】本発明の多重系システムを構成する計算機のLAN制御の管理装置であるSVPの構成を示すハードウェアブロック図である。
【図3】本発明の多重系システムを構成する計算機の障害情報管理装置であるRAS−Uの構成を示すハードウェアブロック図である。
【図4】本発明の多重系システムを構成する計算機の主記憶装置であるメインメモリ内に格納されているソフトウェアの構成を示すブロック図である。
【図5】本発明の多重系システムを構成する計算機に対して、SVPによる障害発生計算機の停止処理を示すタイムチャートである。
【図6】本発明の多重系システムを構成する計算機に対して、SVPとRAS−U間の情報の送受信処理を表すタイムチャートである。
【図7】本発明の多重系システムを構成する計算機に対して、RAS−U内の処理を示すフローチャートである。
【図8】本発明の多重系システムを構成する計算機に対して、RAS−Uの各処理間に設置したチェックポイントの処理を示すフローチャートである。
【図9】本発明の多重系システムを用いたサービス例の概念図である。
【図10】本発明の多重系システムを構成する計算機に対して、RAS−Uの各処理間に設置したチェックポイント及び反転照合処理を示すフローチャートである。
【符号の説明】
【0063】
100・・・計算機
102、103・・・LAN
104、105・・・Ethernet
110・・・中央演算処理装置
111・・・主記憶装置
112・・・入出力装置
113・・・ディスク装置
114・・・管理装置
115、116、117・・・LANボード
118・・・割り込み処理装置
119・・・ソフトウェア
140・・・SVP
141・・・RAS−U
143・・・操作機
210・・・I2C
404・・・OS
401・・・アプリケーション
402・・・管理プログラム
403・・・他系監視プログラム
502・・・障害発生SEL書込み指示
601・・・処理要求送信
705・・・CPU停止要求確認
802・・・チェックポイントA
900・・・通知情報の共有
901・・・障害情報のデータベース化
902・・・遠方での一元監視
853・・・反転処理
857・・・照合処理
【技術分野】
【0001】
本発明は、汎用ネットワークに接続される汎用電子計算機において、障害が発生した計算機を停止させると共に複数台の計算機に関する障害情報の収集や、その復旧のための操作を一括管理する計算機システム及び障害情報管理方法に関するものである。
【背景技術】
【0002】
鉄道運行管理、電力系統制御、プラント制御を始めとする高い信頼性が要求される用途に計算機を用いる場合、処理を行う稼動系計算機に加えて、稼動系の計算機に障害が発生した場合に稼動系の計算機の処理を引き継ぐ待機系の計算機を備えた多重系のシステムが期待されている。
【0003】
従来の電子計算機システムでは、専用ネットワークと専用機能拡張ボードを用いて多重系のシステムを構築してきた。多重系システムにおける系切り替え方法としては、障害の発生した稼動系計算機は、障害発生時は本来の処理を停止して障害情報を保存し、待機系計算機は自律的に処理の引継ぎを実施する方法が提案されている(特許文献1、図1、図2参照)。
【0004】
また、複数の汎用計算機からなる多重系汎用計算機システムにおいて、計算機と別にシステム監視装置を設け、各計算機からシステム監視装置に一定周期で運転情報を送信し、システム監視装置では運転情報を一定周期内に受信しないとき、当該計算機を異常と判断し、当該計算機に停止指令を送信すると共に、他の計算機にシステムバックアップ発生情報を送信し、他の計算機内の制御処理を行うシステム監視方法が提案されている(特許文献2参照)。
【特許文献1】国際公開第99/26138号パンフレット
【特許文献2】特開2003−67219号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
上述した特許文献1に記載した技術は、一般的な多重系システムの系切り替え方法であり、このような多重系システムではシステム全体の障害に対する対処のみを可能とするものである。従って、各障害の程度、発生頻度、どの処理中かなどの詳細な障害情報を得ることができないため、詳細な障害に対する管理や対策ができないという不都合があった。
【0006】
また、上述した特許文献2に記載したシステム監視方法では、各計算機は1つの物理的通信経路によって接続されている。このため、他周辺機器からの大量電文到達によってネットワーク負荷が大きくなったときに、正常動作の第1計算機から送信されるべき生存通知電文が送信できない。従って、第2計算機によって障害と判断され、正常動作の第1計算機が再起動されてしまうため、障害監視の信頼性を向上させることができないという問題がある。
【0007】
さらに、上述した特許文献1に記載した技術と同様に、特許文献2に記載された技術も、システム全体の障害に対する対処のみを可能とするものである。このため、各障害の程度、発生頻度、どの処理中かなどの詳細な障害情報を得ることができない。従って、詳細な障害に対する管理や対策ができないという不都合もある。
【0008】
そこで、本発明では、各計算機の物理的経路を二重化構成とすることで上記の正常動作の計算機を誤って再起動してしまう問題を回避し、さらに複数台の計算機の障害発生情報を管理することにより、障害発生の計算機を切替、停止、再起動を含む操作を一括管理する多重系の計算機システム及び障害情報管理方法を構築することを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決し、本発明の目的を達成するため、本発明は、複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおいて、他の計算機を互いに監視するための他系監視プログラムと、ネットワークを介して他の計算機との通信を制御する通信制御装置と、前記通信制御装置を制御する管理装置とををと有する複数の計算機と、他のネットワークを介して前記複数の計算機の管理装置と接続し、前記複数の計算機の管理装置の監視をする監視装置と、前記複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら前記障害情報を管理する障害情報管理装置と、前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出する操作機とを備えたことを特徴とする計算機システムである。
【0010】
また、本発明は、複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおけるに障害情報管理方法であって、複数の計算機が、他系監視プログラムにより他の計算機を互いに監視し、ネットワークを介して通信制御装置により他の計算機との通信を制御すると共に、管理装置により前記通信制御装置を制御するステップと、監視装置が、他のネットワークを介して接続される前記複数の計算機の管理装置の監視をすることにより、前記複数の計算機から送出される障害情報に基づく処理要求を送信するステップと、障害情報管理装置が、前記処理要求に対応した複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら、前記障害情報を管理するステップと、操作機が、前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出するステップとを含むことを特徴とする障害情報管理方法である。
【発明の効果】
【0011】
本発明によれば、多重系の計算機システムにおいて、各計算機の物理的経路を二重化構成とすることで正常動作の計算機を誤って再起動してしまう問題を回避することができる。さらに複数台の計算機の障害発生情報を収集して管理することにより、障害発生のある計算機に対する切替、停止、再起動を含む操作を一括管理することができる。
【0012】
これにより、多重系システムの汎用ネットワーク負荷とは無関係に、障害が発生した計算機を停止させ、さらに外的要因等による他系監視プログラムのエラーの発生確率を低減させて、障害監視の信頼性を向上させることができる。
【発明を実施するための最良の形態】
【0013】
以下、本発明に関わる計算機の構成及び方式の実施形態について詳細を示す。
まず、実施の形態例1について説明する。
図1に本実施形態に関わる多重系計算機システムの構成を示す。
図示する通り、本実施形態に関わる多重系システムは2台の計算機で構成された二重系システムである。ただし、計算機は3台以上の複数台で構成してもよい。
【0014】
図1において、100、101はそれぞれ稼動系計算機、待機系計算機を示している。
両系の切り替えにより、稼動系計算機100は待機系計算機として、待機系計算機101は稼動系計算機としても動作する。すなわち、多重系汎用計算機システムにおいて、各計算機は互いに監視し、監視結果が異常であるとき当該計算機を異常と判断し、当該計算機に停止指令を送信すると共に、他の計算機にシステムバックアップ発生情報を送信する処理を行うように計算機100、101は構成されている。
【0015】
各計算機の構成要素は計算機100を例に以下に示す。
計算機100は中央演算処理装置(以下CPUと記す)110と、主記憶装置であるメインメモリ111と、入出力制御装置112と、を備える。入出力制御装置112には、ディスク装置113や割り込み処理装置118、拡張バス107が接続される。また、入出力制御装置112には、管理バス106を介してメインメモリ111が接続される。メインメモリ111には、制御プログラムを含むソフトウエア119が格納されている。
【0016】
管理装置(BMC:Baseboard Management Controller、以下BMCとする)114は拡張管理バス108によって入出力制御装置112に接続されている。BMC114は入出力制御装置112を制御する。
拡張バス107には、計算機の機能を拡張するための回路が接続される。一般的には回路が実装された拡張ボードを、拡張バス107のスロットコネクタに挿入する形態で拡張バス121に接続される。ただし、一部の機能は計算機本体内に実装され、拡張バス107に直接内部で接続されている場合もある。
【0017】
本実施形態に係る計算機100は、拡張ボードとして拡張バス107に接続されるLAN(Local Area Network)ボード115、116、117を備える。LANボード117は管理バス106を通じて入出力制御装置112にも接続されている。計算機100内のBMC114は、汎用ネットワークであるLAN1−102に接続され、このLAN1−102に接続された計算機101内の管理装置であるBMC134と監視装置(SVP:Service Processor、以下SVPとする)140を介して通信を行う。
【0018】
ここでは計算機100、101相互間での相手計算機の機能上の生存監視と、相手計算機のLAN制御装置115、116、117、135、136、137の再起動、動作停止、さらに系切り替えに必要な強制割り込み、動作停止、計算機再起動等の各指示電文の送信を行う。
【0019】
LANボード115、116は汎用ネットワーク104、105に接続され、計算機100は、この汎用ネットワーク104、105に接続された他の計算機などと通信を行う。汎用ネットワークとしては広く普及しているEthernet(登録商標)などがある。
【0020】
LANボード117は、ここでは主に上述した生存監視のための生存通知電文の送受信を行う。このため、LANボード117は、汎用ネットワークであるLAN2−103に接続される。計算機100は、この汎用ネットワークLAN2−103に接続された他の計算機などと通信を行う。
【0021】
SVP140は障害情報管理装置(以下、RAS−Uとする)141とシリアル線142にて接続されており、RAS−U141の先には操作機143が接続される。操作機143は、システムを構成する計算機100、101の切替、停止、再起動等の操作処理を一括管理する。
【0022】
図2に、計算機100、101のBMC114、134に接続されるSVP140の構成を示す。
SVP140は、CPU201、主記憶装置であるメインメモリ202、入出力制御装置204を備える。入出力制御装置204には、システムバス206を介してディスク装置205やデータ制御装置(I2C:Inter Integrated Circuit、以下I2Cとする)210が接続される。メインメモリ202には、制御プログラムを含むソフトウエア203が格納されている。
【0023】
SVP140は、拡張ボードとして拡張バス207に接続されるLANボード208、209、220を備える。
I2C210は、データバス211を介して、I2C制御装置212、213、センサ214等と接続されている。また、I2C210は、シリアル線142を介してRAS−U141とも接続されている。I2C制御装置212、213は外部I/O機器215や表示器215と接続され、センサ214はFAN217等に接続される。
【0024】
図3にRAS−U141の構成を示す。
RAS−U141は、CPU301、主記憶装置であるメインメモリ302、入出力制御装置304を備える。メインメモリ302には、制御プログラムを含むソフトウエア303が格納されている。
【0025】
CPU301にはシステムバス306を介してメインメモリ302、入出力制御装置304が接続される。CPU301にはSVP140とのインターフェースを行うI/F307が接続される。また、入出力制御装置304には、ディスク装置305や表示器308、外部接点309、310が接続される。
RAS−U141は外部接点309、310を介して操作機143と接続される。以下では操作機143の操作処理例として、表示器312や操作部311を用いる例を示す。
【0026】
図4に前記主記憶装置であるメインメモリ111内に格納しているソフトウェア119の構成を示す。
前述の二重系システムにおいて、稼動系計算機100の主記憶装置であるメインメモリ111内のソフトウェア119にはOS(Operating System)404、アプリケーション401、管理プログラム402、及び他系監視プログラム403が格納されている。このソフトウェア119では、アプリケーション401、管理プログラム402、及び他系監視プログラム403が読み出され、読み出されたアプリケーション401、管理プログラム402、及び他系監視プログラム403がOS404上で実行されている。
【0027】
待機系計算機101の主記憶装置であるメインメモリ131内のソフトウェア139の構成は上述と同様であるが、ソフトウェア139ではアプリケーション401はOS404上で待機系として動いている点が異なる。
【0028】
管理プログラム402は、稼働系計算機と待機系計算機の系切り替え処理を行うプログラムである。本管理プログラム402はBMC114に対して電文送受信要求や動作指示を行い、また、他系監視プログラム403に対して生存通知電文の送受信要求を行う。他系監視プログラム403はBMC114を使い、LAN1−102を介してSVP140経由で他計算機と生存通知電文の送受信を行う。電文送受信は汎用通信プロトコルを使って行われる。
【0029】
管理プログラム402は、汎用通信プロトコルでデータを送受信するために予め決められたアドレス(以下、ポートと記す)で他計算機からの接続を待つ。他計算機がポートに接続された場合には電文を受信して管理プログラム402内でこの電文の内容を保持する。そして、他計算機の管理プログラム402からの読み出し要求に対して保持している電文の内容を返す。
【0030】
また、管理プログラム402は他計算機の管理プログラム402からの生存確認電文送信要求を受け、二重系を構成している他計算機上の管理プログラム402が待機しているポートに対して電文を送信する。
【0031】
割り込み処理プログラム408は、CPU110に対してマスク不可能割り込み(以下、NMI(non musk able interrupt)とする)信号が入力されたときに起動される。そして、NMI信号発生時に障害情報の保存等、障害発生時の処理を実行する。
以下、本実施の形態の特有の動作について、前記計算機を用いて多重系システムを構築し、障害発生時にSVP140が障害を検知し、障害系の計算機を停止させる手順を説明する。
【0032】
図5は、SVPによる障害系停止のタイムチャートである。
SVP140は501に示す障害発生を検知すると、障害発生システム情報(System Event Log、以下SELとする)書込み指示502を障害系計算機内のBMC114へ送信する。
【0033】
SVP140から障害発生SEL書込み指示502を受け取ると、BMC114は、他系監視プログラム403に対して503に示すように障害発生SELを書き込む。BMC114から他系監視プログラム403に対する障害発生SELの書き込みは504に示すように他のタイミングでも実行される。
【0034】
障害系の他系監視プログラム403は、BMC114によって書き込まれたSELを505で示すように上述したNMIの割込処理によって読み込む。他系監視プログラム403は、BMC114に対して506で示すようにOSシャットダウン要求を発行する。
【0035】
他系監視プログラム403から506で示すOSシャットダウン要求を受け取ると、BMC114は、SVP140に対してCPU停止要求507を発行する。BMC114から送信されたCPU停止要求507を受け取ると、SVP140は、障害系計算機のCPUの電源OFF508の処理を実行する。
【0036】
また、500で示すようにBMC114は自らも障害発生SELの検出を行う。BMC114は検出した障害発生SELが重度の場合には他系監視プログラム403に障害発生SELの読み込みをさせて、他系監視プログラム403に障害発生SELに対する判断をさせる。BMC114は検出した障害発生SELが軽度の場合にはSVP140に障害発生SELの読み込みをさせて、SVP140に障害発生SELに対する処理をさせる。
以上説明したSVP140、BMC114及び他系監視プログラム403の各動作により、障害系計算機を停止させる。
【0037】
このようにして、監視装置であるSVP140により障害系計算機を停止させることができる。
この場合、複数の計算機から構成される多重系システムにおいて、計算機の障害発生を検知した管理装置であるBMC114が、監視装置であるSVP140を介して障害発生の計算機の他系監視プログラム403へ計算機内で障害が発生したことを示す情報を送信する。そして、その情報を受け取った障害系の他系監視プログラム403が、管理装置であるBMC114に対してOSシャットダウンを要求する。OSシャットダウン要求を受け取った管理装置であるBMC114は、障害系の計算機のCPUへの給電を遮断し、障害系の計算機を停止させる。
【0038】
ここで、管理装置であるBMC114と監視装置であるSVP140は、汎用ネットワークとは物理的な経路を別にしている。このため、ある計算機に障害が発生したとき、ネットワーク負荷が大きくなって、BMC114による生存監視が期待通り働かない場合でも、上記のような処理を経ることにより、障害系の計算機を停止させることができる。
以下に述べる動作は、このようなBMC114による生存監視、SVPによる障害検知、他系監視プログラム403による障害系停止の動作を前提としたものである。
【0039】
次に、複数台の計算機の障害発生情報を管理する機器を追加し、障害発生の計算機を切替、停止、再起動等の操作処理を一括管理する方法を示す。
図6にSVP140からの情報に応じて操作機143により計算機の切替、停止、再起動の操作処理を行う際の情報の送受信のタイムチャートを示す。
SVP140は、601に示すようにRAS−U141に対して処理要求送信601を実施する。RAS−U141は、602に示すように処理要求を受信すると、操作機143に対して表示器制御信号603を送信する。
【0040】
操作機143は、RAS−U141からの表示器制御信号603に応じて表示器制御604を実施する。操作機143は、表示器312の内容によって入力操作されることにより、605に示すように入力操作に対応するように操作部311を動作させる。そして、操作機143の操作部311に対する操作により計算機の切替、停止、再起動等の動作指示が発行されると、RAS−U141は、606に示すように動作情報をSVP140に送信する。SVP140は、607に示すように動作情報を受信すると、その動作情報に応じた計算機の切替、停止、再起動等の処理を実行する。
【0041】
図7は、RAS−Uの処理に関するフローチャートである。
以下では、操作機143の操作部311に対する入力操作の動作の例として、操作機143の操作部311は計算機の停止、再起動の処理を行う指示を出せるものとする。他には計算機の切替、ディスク装置の切替等がある。
【0042】
RAS−U141は、SVP140からの処理要求電文を受信すると(ステップS701)、表示器312の制御、操作部311の動作信号の受信といった操作部311の確認動作を実施する(ステップS703)。
次に、RAS−U141は、操作部311の動作が計算機のCPU停止要求か否を確認する(ステップS705)。ステップS701で受信した処理要求がステップS705でCPUの停止要求であることが確認された場合は、RAS−U141は、CPU停止要求電文を作成する(ステップS707)。
【0043】
ステップS701で受信した処理要求がステップS705でCPU停止要求ではない場合は、RAS−U141は、CPU起動確認要求か否を確認する(ステップS709)。ステップS701で受信した処理要求がステップS709でCPUの起動要求であることが確認された場合は、RAS−U141は、CPU起動要求電文を作成する(ステップS710)。ステップS701で受信した処理要求がCPU起動要求ではない場合は、RAS−U141は、動作要求なし電文を作成する(ステップS711)。
【0044】
RAS−U141は、上記ステップS707、ステップS710又はステップS711により作成された電文をSVP140に送信する(ステップS712)。
上述したステップS701とステップS703、ステップS703とステップS705、ステップS705とステップS707、705とステップS709の各処理間にはAチェックポイント(ステップS702)、Bチェックポイント(ステップS704)、Cチェックポイント(ステップS706)が設置される。
【0045】
ステップS707とステップS712、ステップS709とステップS710、ステップS709とステップS711の各処理間にはDチェックポイント(ステップS708)が設置される。各処理の最後にはRAS−U141は、これらすべてのチェックポイントをクリアする(ステップS713)。なお、CチェックポイントS706、DチェックポイントS708は、同列の複数の各処理間に対して同時に設定される。
【0046】
次に、チェックポイント設置による逐次処理確認の手順を示す。
図8は、RAS−Uの各処理間にチェックポイントを設置した時の処理に関するフローチャートである。
RAS−U141は、操作部311のある操作1に対するRAS−U141とSVP140間の処理後に(ステップS801)、Aチェックポイントを設ける(ステップS802)。次に、RAS−U141は、プログラムがステップS802で設定したAチェックポイントを通過したか否を確認する(ステップS803)。
【0047】
ステップS803でAチェックポイントを通過したことを確認した後に、RAS−U 141は、次の操作部311の操作2に対するRAS−U141とSVP140間の処理に遷移する(ステップS804)。
RAS−U141は、操作部311の操作2に対するRAS−U141とSVP140間の処理後に(ステップS804)、Bチェックポイントを設ける(ステップS805)。以下、同様にして、RAS−U141は、各チェックポイントを設ける。
【0048】
ステップS803のAチェックポイントを通過したことの確認時にAチェックポイントの通過を確認できない場合、RAS−U141は、それ以降のRAS−U141とSVP140間の処理を停止する(ステップS806)。以下、同様にして、RAS−U141は、各チェックポイントの通過を確認できない場合、それ以降のRAS−U141とSVP140間の処理を停止する。
【0049】
以上の方法により、不正ジャンプ等による処理の抜けが発生した時でも処理を止めることで、期待しない動作の実行を防止することができる。
上述したようにチェックポイント設置により逐次処理の確認を行うことができる。
この場合、複数台の計算機の障害発生状況を監視する監視装置であるSVP140と障害発生状況の管理装置であるRAS−U141を汎用ネットワークとは別に設けたシリアル接続線142にて結ぶようにしている。これにより、RAS−U141は、SVP140から確実に障害情報を収集することができる。
【0050】
ここで、障害発生状況管理装置であるRAS−U141と監視装置であるSVP140間の処理において、RAS−U141は、各処理が終わる度にチェックポイントを設ける。RAS−U141は、一つ前の処理が完了していることを検出してから次の処理を行う。このとき、不正ジャンプによりチェックポイントを通過しない場合は、RAS−U141は、次の処理が実施される前段の条件分岐により検出され処理を停止する。
【0051】
図9は、本実施の形態例を用いたサービス例を示したものである。
本多重系システムは高い信頼性を要求される社会インフラ向けに適用されることが期待される。その利用価値の向上方法として、障害の発生、リセット、停止、復旧等を含めた通知情報を900で示すようにシステム全体で共有する。
【0052】
このように情報の通知をシステム全体に行うことにより、901で示すように顧客毎に障害発生情報のデータベース化を図ることができる。このような障害発生情報のデータベースを設けることにより、発生頻度などの統計情報から先に発生する障害を予測することができる。さらに902で示すように遠方一元監視によるシステム管理を行うことができる。これにより、上記のような高信頼のシステムの提供が期待される。
【0053】
次に、実施の形態例2について説明する。
実施形態例2は、上述した実施の形態例1に対してさらに外的要因によるプログラムエラーを防止する方法を取り込んだものであり、以下、その処理のフローチャートに基づいて説明する。
図10は、反転照合を用いたビットエラー検出とチェックポイント設置による不正ジャンプ防止を実現する処理のフローチャートである。
【0054】
RAS−U141は、操作部311のある操作1に対するRAS−U141とSVP140間の処理後に(ステップS851)、操作1に対する処理データをある番地Aに格納する(ステップS852)。このとき、RAS−U141は、その操作1に対する処理データを反転したものを別の番地Bに格納する(ステップS853)。
【0055】
これらのステップS851、ステップS852及びステップS853の処理の後、RAS−U141は、Aチェックポイントを設けて、プログラムがこのAチェックポイントを通過する(ステップS854)。
Aチェックポイント通過後に、RAS−U141は、A番地のデータをリードし(ステップS855)、次にB番地のデータをリードする(ステップS856)。RAS−U141は、リードしたA番地とB番地の2つのデータを排他的論理和演算し、演算結果が1であるか否かを判断する(ステップS857)。
【0056】
ステップS857の演算結果が0の時にはビットエラーが発生していることを意味するため、RAS−U141は、RAS−U141とSVP140間の処理を停止する(ステップS858)。ステップS857の排他的論理和演算の演算結果が1の場合は、処理を継続し、プラグラムがチェックポイントAを通過したか否かを判断する(ステップS859)。
【0057】
ステップS859でチェックポイントAを通過した確認して、RAS−U141は、操作部311の操作2に対するRAS−U141とSVP140間の処理を実行する(ステップS860)。RAS−U141は、操作2に対する処理後に(ステップS860)、Bチェックポイントを設けて、プラグラムがこのBチェックポイントを通過する(ステップS861)。
【0058】
以下、同様にして、RAS−U141は、各チェックポイントを設けて、プラグラムがこの各チェックポイントを通過する。
ステップS859でAチェックポイントの通過が確認できない時には、RAS−U141は、RAS−U141とSVP140間の処理を停止する(ステップS862)。
【0059】
汎用的なプログラムにおいては不正ジャンプ、ビットエラー検出等を一つ一つの処理間に行うことは稀である。これに対して、本実施の形態では高い信頼性を要求される社会インフラ向けに適用するため、障害情報管理機能を拡充する観点より前記の処理を実施する。
これにより、操作機143の操作部311の操作に対する処理データの反転照合によりビットエラーを防止することができる。
【0060】
この場合、障害発生状況管理装置であるRAS−U141と監視装置であるSVP140間の処理において、RAS−U141は、ビットエラーによる誤動作を防止するために各処理間で操作部311の操作に対する処理データの反転照合によるエラー検出を行う。RAS−U141とSVP140間の処理において操作機143の操作部311の操作に対する処理データにより送出された電文とその電文の反転したものを排他的論理和演算してその結果が1のときのみ、次の処理へ進むようにする。演算結果が0の場合は処理を停止する。
【0061】
以上、本発明の実施形態例について説明したが、本発明は、上述した実施の形態に限らず、特許請求の範囲に記載した本発明の要旨を逸脱しない限り、適宜、変更し得ることはいうまでもない。
【図面の簡単な説明】
【0062】
【図1】本発明の多重系システム構成を示すハードウェアブロック図である。
【図2】本発明の多重系システムを構成する計算機のLAN制御の管理装置であるSVPの構成を示すハードウェアブロック図である。
【図3】本発明の多重系システムを構成する計算機の障害情報管理装置であるRAS−Uの構成を示すハードウェアブロック図である。
【図4】本発明の多重系システムを構成する計算機の主記憶装置であるメインメモリ内に格納されているソフトウェアの構成を示すブロック図である。
【図5】本発明の多重系システムを構成する計算機に対して、SVPによる障害発生計算機の停止処理を示すタイムチャートである。
【図6】本発明の多重系システムを構成する計算機に対して、SVPとRAS−U間の情報の送受信処理を表すタイムチャートである。
【図7】本発明の多重系システムを構成する計算機に対して、RAS−U内の処理を示すフローチャートである。
【図8】本発明の多重系システムを構成する計算機に対して、RAS−Uの各処理間に設置したチェックポイントの処理を示すフローチャートである。
【図9】本発明の多重系システムを用いたサービス例の概念図である。
【図10】本発明の多重系システムを構成する計算機に対して、RAS−Uの各処理間に設置したチェックポイント及び反転照合処理を示すフローチャートである。
【符号の説明】
【0063】
100・・・計算機
102、103・・・LAN
104、105・・・Ethernet
110・・・中央演算処理装置
111・・・主記憶装置
112・・・入出力装置
113・・・ディスク装置
114・・・管理装置
115、116、117・・・LANボード
118・・・割り込み処理装置
119・・・ソフトウェア
140・・・SVP
141・・・RAS−U
143・・・操作機
210・・・I2C
404・・・OS
401・・・アプリケーション
402・・・管理プログラム
403・・・他系監視プログラム
502・・・障害発生SEL書込み指示
601・・・処理要求送信
705・・・CPU停止要求確認
802・・・チェックポイントA
900・・・通知情報の共有
901・・・障害情報のデータベース化
902・・・遠方での一元監視
853・・・反転処理
857・・・照合処理
【特許請求の範囲】
【請求項1】
複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおいて、
他の計算機を互いに監視するための他系監視プログラムと、ネットワークを介して他の計算機との通信を制御する通信制御装置と、前記通信制御装置を制御する管理装置とを有する複数の計算機と、
他のネットワークを介して前記複数の計算機の管理装置と接続し、前記複数の計算機の管理装置の監視をする監視装置と、
前記複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら、前記障害情報を管理する障害情報管理装置と、
前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出する操作機と
を備えたことを特徴とする計算機システム。
【請求項2】
請求項1に記載の計算機システムにおいて、
前記監視装置は、前記管理装置を介して前記計算機内の前記他系監視プログラムに前記障害情報を送出し、前記他系監視プログラムは、常時前記障害情報の格納領域を監視し、前記障害情報を確認すると前記管理装置を介して前記障害情報に対応する計算機を停止させることを特徴とする計算機システム。
【請求項3】
請求項2に記載の計算機システムにおいて、
前記他系監視プログラムは、割込処理により前記障害情報の格納領域を監視し、前記障害情報を確認することを特徴とする計算機システム。
【請求項4】
請求項2に記載の計算機システムにおいて、
前記管理装置は、前記計算機内の前記他系監視プログラムに比較的重度の障害情報を送出し、前記監視装置に比較的軽度の障害情報を送出することを特徴とする計算機システム。
【請求項5】
請求項1に記載の計算機システムにおいて、
前記障害情報管理装置は、前記操作機からの前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を受け取り、前記管理装置へ前記操作要求信号を送信し、前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求に応じた動作を実行させると共に、
前記障害情報管理装置は、前記操作機からの各操作要求信号を受け取り、その各操作要求に応じた動作を実行させるそれぞれの各処理間に各チェックポイントを設け、各チェックポイントに対応する各処理を実行したか否かを確認することを特徴とする計算機システム。
【請求項6】
請求項5に記載の計算機システムにおいて、
前記障害情報管理装置は、前記各チェックポイント間に各処理のデータ反転照合処理を加え、前記データ反転照合処理にビットエラーが発生した場合には当該処理を停止することを特徴とする障害情報管理装置を有する計算機システム。
【請求項7】
請求項1に記載の計算機システムにおいて、
各計算機における前記障害情報の発生、リセット、停止、復旧を含めた障害復旧情報の通知を、前記ネットワークを介してシステム全体に行い、
各計算機に対応する顧客毎に前記障害復旧情報のデータベースを設け、前記障害復旧情報に基づいて先の障害を予測し、過去の障害に対応する対策を可能にすると共に、遠方監視によるシステム管理サービスを提供することを特徴とする計算機システム。
【請求項8】
複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおけるに障害情報管理方法であって、
複数の計算機が、他系監視プログラムにより他の計算機を互いに監視し、ネットワークを介して通信制御装置により他の計算機との通信を制御すると共に、管理装置により前記通信制御装置を制御するステップと、
監視装置が、他のネットワークを介して接続される前記複数の計算機の管理装置の監視をすることにより、前記複数の計算機から送出される障害情報に基づく処理要求を送信するステップと、
障害情報管理装置が、前記処理要求に対応した複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら、前記障害情報を管理するステップと、
操作機が、前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出するステップと
を含むことを特徴とする障害情報管理方法。
【請求項1】
複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおいて、
他の計算機を互いに監視するための他系監視プログラムと、ネットワークを介して他の計算機との通信を制御する通信制御装置と、前記通信制御装置を制御する管理装置とを有する複数の計算機と、
他のネットワークを介して前記複数の計算機の管理装置と接続し、前記複数の計算機の管理装置の監視をする監視装置と、
前記複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら、前記障害情報を管理する障害情報管理装置と、
前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出する操作機と
を備えたことを特徴とする計算機システム。
【請求項2】
請求項1に記載の計算機システムにおいて、
前記監視装置は、前記管理装置を介して前記計算機内の前記他系監視プログラムに前記障害情報を送出し、前記他系監視プログラムは、常時前記障害情報の格納領域を監視し、前記障害情報を確認すると前記管理装置を介して前記障害情報に対応する計算機を停止させることを特徴とする計算機システム。
【請求項3】
請求項2に記載の計算機システムにおいて、
前記他系監視プログラムは、割込処理により前記障害情報の格納領域を監視し、前記障害情報を確認することを特徴とする計算機システム。
【請求項4】
請求項2に記載の計算機システムにおいて、
前記管理装置は、前記計算機内の前記他系監視プログラムに比較的重度の障害情報を送出し、前記監視装置に比較的軽度の障害情報を送出することを特徴とする計算機システム。
【請求項5】
請求項1に記載の計算機システムにおいて、
前記障害情報管理装置は、前記操作機からの前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を受け取り、前記管理装置へ前記操作要求信号を送信し、前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求に応じた動作を実行させると共に、
前記障害情報管理装置は、前記操作機からの各操作要求信号を受け取り、その各操作要求に応じた動作を実行させるそれぞれの各処理間に各チェックポイントを設け、各チェックポイントに対応する各処理を実行したか否かを確認することを特徴とする計算機システム。
【請求項6】
請求項5に記載の計算機システムにおいて、
前記障害情報管理装置は、前記各チェックポイント間に各処理のデータ反転照合処理を加え、前記データ反転照合処理にビットエラーが発生した場合には当該処理を停止することを特徴とする障害情報管理装置を有する計算機システム。
【請求項7】
請求項1に記載の計算機システムにおいて、
各計算機における前記障害情報の発生、リセット、停止、復旧を含めた障害復旧情報の通知を、前記ネットワークを介してシステム全体に行い、
各計算機に対応する顧客毎に前記障害復旧情報のデータベースを設け、前記障害復旧情報に基づいて先の障害を予測し、過去の障害に対応する対策を可能にすると共に、遠方監視によるシステム管理サービスを提供することを特徴とする計算機システム。
【請求項8】
複数の計算機が稼働系又は待機系として組み合わされて相互監視し、稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ多重系の計算機システムにおけるに障害情報管理方法であって、
複数の計算機が、他系監視プログラムにより他の計算機を互いに監視し、ネットワークを介して通信制御装置により他の計算機との通信を制御すると共に、管理装置により前記通信制御装置を制御するステップと、
監視装置が、他のネットワークを介して接続される前記複数の計算機の管理装置の監視をすることにより、前記複数の計算機から送出される障害情報に基づく処理要求を送信するステップと、
障害情報管理装置が、前記処理要求に対応した複数の計算機から送出される障害情報を前記監視装置から収集すると共に、前記障害情報に対する処理を行いながら、前記障害情報を管理するステップと、
操作機が、前記障害情報の処理結果に基づいて前記障害情報管理装置に対して前記障害情報に対応する計算機の切替、停止、再起動を含む操作要求信号を送出するステップと
を含むことを特徴とする障害情報管理方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2008−152552(P2008−152552A)
【公開日】平成20年7月3日(2008.7.3)
【国際特許分類】
【出願番号】特願2006−340158(P2006−340158)
【出願日】平成18年12月18日(2006.12.18)
【出願人】(000005108)株式会社日立製作所 (27,607)
【出願人】(000153443)株式会社日立情報制御ソリューションズ (359)
【Fターム(参考)】
【公開日】平成20年7月3日(2008.7.3)
【国際特許分類】
【出願日】平成18年12月18日(2006.12.18)
【出願人】(000005108)株式会社日立製作所 (27,607)
【出願人】(000153443)株式会社日立情報制御ソリューションズ (359)
【Fターム(参考)】
[ Back to top ]