説明

情報処理装置、情報処理システム、情報処理装置の異常兆候検出方法、及び異常兆候検出プログラム

【課題】他の情報処理装置のCPUとの間で同期ずれが発生したCPUで、異常兆候を検出する。
【解決手段】情報処理装置10は、CPU11と、入出力関連装置13と、同期制御部14と、他の情報処理装置20との間で情報を送受信する通信部17とを備える。同期制御部14は、CPU11を初期化する初期化設定部140と、CPU11と入出力関連装置13間のトランザクションを監視するトランザクション監視部141と、トランザクションの監視情報と他の情報処理装置20から受信したトランザクションの監視情報とからCPU11の同期ずれを判定する同期判定部142と、トランザクションの監視情報に基づき、異常兆候関連情報を取得する異常兆候関連情報取得部143と、同期ずれ有りのとき、異常兆候関連情報に基づき、CPU11の異常兆候の有無を判定する異常判定部144とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、情報処理装置の異常兆候検出方法、及び異常兆候検出プログラムに関する。
【背景技術】
【0002】
フォールトトレラント情報処理システム(以下ではフォールトトレラントをFT(Fault−Torerant)と記す)は、CPU(Central Processing Unit)を備える情報処理装置を複数台使って構成され、CPUの冗長性を確保するため、複数の情報処理装置のCPUをクロックレベルで同期して動作させている。例えば、一方のCPUで動作異常が発生し、CPU間で同期が取れない状態(同期ずれ)となったとき、異常が発生したCPUを同期動作から切り離すことにより、そのCPUの属する情報処理装置をフォールトトレラント情報処理システムから切り離し、フォールトトレラント情報処理システム自体は正常に稼動させ続ける仕組みとなっている。このような情報処理システムの例としては、サーバシステムやコンピュータシステム等があり、それぞれFTサーバシステム、FTコンピュータシステム等と呼ばれる。
【0003】
従来のFT情報処理システムでは、CPU間で同期ずれが発生したとき、CPU障害が検出されればそのCPUを同期動作から切り離す。一方CPU障害が検出されなければCPUに異常はないと判断し、どちらか一方のCPUを同期動作から一旦切り離し再同期させる。
【0004】
特許文献1に記載のコンピュータシステム(二重化コンピュータシステム)では、二重化運転を行いながら、それぞれのコンピュータに対応して修復可能障害情報及び修復不可能障害情報を記録し、同期ずれが発生した場合に、それぞれのコンピュータをアクティブ系、スタンバイ系のどちらに設定するかの判断材料として、記録された障害情報を利用する。このようにしてコンピュータをアクティブ系、スタンバイ系のどちらに設定するかという判断の精度を高めている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−172390号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載の技術では、障害情報を修復可能障害情報と修復不可能障害情報とに分けて記録するが、いずれも障害情報として検出されていなければならない。FT情報処理システムで同期ずれが発生した場合、CPUで障害が明確に検出されないときでもCPUに障害の前段階とも言える何らかの異常兆候が存在することが多い。しかし、CPUの異常兆候に関する情報が存在しないため、異常兆候を内包するCPUを残し、正常なCPUの方を同期動作から切り離して再同期させるという処理を行う恐れがある。このような場合、FT情報処理システムの動作が不安定になるという恐れがある。そのため、CPUの障害検出の有無によらず、CPUの異常兆候の有無を検出できる情報処理装置等が必要とされている。
【0007】
本発明は、上記の事情に鑑みてなされたものであり、他の情報処理装置のCPUとの間でCPUの同期ずれが発生した時に、CPUの異常兆候の有無を検出できる情報処理装置、情報処理システム、情報処理装置の異常兆候検出方法、及び異常兆候検出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
前記の目的を達成するために、本願発明の第1の観点に係る情報処理装置は、
他の情報処理装置の備える他のCPUと同期して動作するCPUと、該CPUの前記他のCPUとの間の同期動作を制御する同期制御部と、前記他の情報処理装置との間で情報の送受信を行う通信部と、記憶部と、情報の入力又は出力を行うために使用される入出力関連装置とを備える情報処理装置において、
前記同期制御部は、
初期化条件を設定し、該初期化条件で前記CPUの初期化を行う初期化設定部と、
同期動作時の前記CPUと前記入出力関連装置との間のトランザクションを監視し、トランザクション情報として取得するトランザクション監視部と、
前記通信部を介して、前記他の情報処理装置との間で、前記トランザクション情報を送受信し、前記情報処理装置及び前記他の情報処理装置のそれぞれの前記トランザクション情報に基づき前記CPUの同期ずれの有無を判定する同期判定部と、
所定の前記初期化条件で前記CPUを初期化した時の前記トランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得し、前記記憶部に格納する異常兆候関連情報取得部と、
前記初期化設定部で、前記CPUと前記他のCPUとが同期動作をするために設定された前記初期化条件である同期化設定条件で前記CPUを初期化した後、前記同期判定部で前記CPUの同期ずれがあると判定されるとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する異常判定部と、
を備えることを特徴とする。
【0009】
本願発明の第2の観点に係る情報処理システムは、
少なくとも2台の前記第1の観点に係る情報処理装置で構成されることを特徴とする。
【0010】
本願発明の第3の観点に係る情報処理装置の異常兆候検出方法は、
他の情報処理装置の備える他のCPUと同期して動作するCPUと、記憶部と、情報の入力又は出力を行うために使用される入出力関連装置とを備える情報処理装置の異常兆候検出方法において、
初期化条件を設定し、該初期化条件で前記CPUの初期化を行う初期化設定ステップと、
同期動作時の前記CPUと前記入出力関連装置との間のトランザクションを監視し、トランザクション情報として取得するトランザクション監視ステップと、
前記他の情報処理装置との間で、前記トランザクション情報を送受信する通信ステップと、
前記情報処理装置及び前記他の情報処理装置のそれぞれの前記トランザクション情報に基づき前記CPUの同期ずれの有無を判定する同期判定ステップと、
所定の前記初期化条件で前記CPUを初期化した時の前記トランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得し、前記記憶部に格納する異常兆候関連情報取得ステップと、
前記初期化設定ステップで、前記CPUと前記他のCPUとが同期動作をするために設定された前記初期化条件である同期化設定条件で前記CPUを初期化した後、前記同期判定ステップで前記CPUの同期ずれがあると判定されるとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する異常判定ステップと、
を備えることを特徴とする。
【0011】
本願発明の第4の観点に係る異常兆候検出プログラムは、
他のコンピュータの備える他のCPUと同期して動作するCPUと、記憶部と、情報の入力又は出力を行うために使用される入出力関連装置とを備えるコンピュータに、
初期化条件を設定し、該初期化条件で前記CPUの初期化を行う初期化設定ステップと、
同期動作時の前記CPUと前記入出力関連装置との間のトランザクションを監視し、トランザクション情報として取得するトランザクション監視ステップと、
前記他のコンピュータとの間で、前記トランザクション情報を送受信する通信ステップと、
前記コンピュータ及び前記他のコンピュータのそれぞれの前記トランザクション情報に基づき前記CPUの同期ずれの有無を判定する同期判定ステップと、
所定の前記初期化条件で前記CPUを初期化した時の前記トランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得し、前記記憶部に格納する異常兆候関連情報取得ステップと、
前記初期化設定ステップで、前記CPUと前記他のCPUとが同期動作をするために設定された前記初期化条件である同期化設定条件で前記CPUを初期化した後、前記同期判定ステップで前記CPUの同期ずれがあると判定されるとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する異常判定ステップと、
を実行させることを特徴とする。
【発明の効果】
【0012】
本発明によれば、他の情報処理装置のCPUとの間でCPUの同期ずれが発生した時に、CPUの異常兆候の有無を検出できる情報処理装置、情報処理システム、情報処理装置の異常兆候検出方法、及び異常兆候検出プログラムを提供することができる。
【図面の簡単な説明】
【0013】
【図1】本発明の実施形態1に係る情報処理装置の構成例を示すブロック図である。
【図2】実施形態1に係る情報処理装置のCPU初期化処理Aの内容を示すフローチャートである。
【図3】実施形態1に係る情報処理装置のCPU同期異常処理Aの内容を示すフローチャートである。
【図4】実施形態1の変形例に係る情報処理装置の構成を示すブロック図である。
【図5】実施形態1の変形例に係る情報処理装置のCPU同期異常処理A’の内容を示すフローチャートである。
【図6】実施形態1に係る情報処理装置の必須の構成を示すブロック図である。
【図7】実施形態1に係る情報処理装置の一般化したCPU初期化処理Bの内容を示すフローチャートである。
【図8】実施形態1に係る情報処理装置の一般化したCPU同期異常処理Bの内容を示すフローチャートである。
【図9】本発明の実施形態2に係る情報処理装置のCPU初期化処理Cの内容を示すフローチャートである。
【図10】実施形態2に係る情報処理装置のCPU切り離し判定の内容を示すフローチャートである。
【図11】実施形態2に係る情報処理装置のCPU同期異常処理Cの内容を示すフローチャートである。
【図12】実施形態2の変形例に係る情報処理装置のCPU同期異常処理C’の内容を示すフローチャートである。
【図13】実施形態に係る情報処理装置のコンピュータとしてのハードウェア構成例を示すブロック図である。
【発明を実施するための形態】
【0014】
(実施形態1)
図1に、本発明の実施形態1に係る情報処理システムの構成例をブロック図で示す。図1に示す情報処理システムは2台の情報処理装置10及び20で構成された例である。情報処理装置10及び20は同様に構成されている。
【0015】
情報処理装置10は、CPU11、CPU11での処理に使用され、各種情報を記憶する記憶部12、入出力関連装置13、同期制御部14、チップセット15、同期制御部14からの情報を保存する記憶部16、情報処理装置20との間で情報の送受信を行う通信部17を備える。
【0016】
情報処理装置20も、情報処理装置10と同じく、CPU21、CPU21での処理に使用され、各種情報を記憶する記憶部22、入出力関連装置23、同期制御部24、チップセット25、同期制御部24からの情報を保存する記憶部26、情報処理装置10との間で情報の送受信を行う通信部27を備える。
【0017】
CPU11は、情報処理装置10全体を制御し、記憶部12を使用して各種の処理を行う。
【0018】
CPU21も同様に情報処理装置20全体を制御し、記憶部22を使用して各種の処理を行う。
【0019】
記憶部12は、CPU11が各種処理を行うときのワークエリアとして使用される主記憶部及び処理の際に使用される情報やプログラムを記録保存する外部記憶部を合わせて示している。従って、二つのハードウェアから構成されており、一つのハードウェアを示しているわけではない。
【0020】
記憶部22も、同様にCPU21が各種処理を行うときのワークエリアとして使用される主記憶部及び処理の際に使用される情報やプログラムを記録保存する外部記憶部を合わせて示している。
【0021】
入出力関連装置13は、情報の入力又は出力の実行に関連する装置を総称し、BIOS(Basic Input/Output System)記憶部130と入出力装置131とを備える。
【0022】
入出力関連装置23も同様に、BIOS記憶部230と入出力装置231とを備える。
【0023】
BIOS記憶部130はBIOSプログラムを記憶する。このBIOS記憶部130には通常フラッシュメモリが利用されているため、BIOS記憶部130はBIOSフラッシュと呼ばれることもある。BIOSとはパーソナルコンピュータ等のコンピュータに接続された機器を制御するシステムで、ウィンドウズ(登録商標)等のオペレーティングシステムやアプリケーションに対して機器にアクセスするシステムとしての役割を担う。BIOSプログラムとは、パーソナルコンピュータ等に搭載されたプログラムのうち、ハードウェアとの入出力を行うための最も低レベルのプログラムである。CPU11は、BIOS記憶部130にアクセスしてこのBIOSプログラムを読み出して実行することにより入出力装置131へのアクセス環境を形成する。BIOS記憶部130は主記憶部に属するとすることが多いが、ここでは入出力装置131との関係を明示するために入出力関連装置13に含まれるとした。
【0024】
BIOS記憶部230は、BIOS記憶部130と同様の機能を有し、CPU21は、BIOS記憶部230にアクセスしてこのBIOSプログラムを読み出して実行することにより入出力装置231へのアクセス環境を形成する。
【0025】
入出力装置131は、入力装置及び出力装置を総称したもので、入力装置では情報の入力、出力装置では情報の出力を行う。CPU11は、入出力装置131にアクセスし、入力装置からの情報の入力、又は出力装置からの情報の出力を制御する。
【0026】
入出力装置231は、入出力装置131と同様の機能を有し、CPU21によりアクセスされ、制御される。
【0027】
同期制御部14は、ハードウェアとしてはCPUで構成され、記憶部16、通信部17と協働してCPU11に対してCPU21との同期動作に関する各種処理を実行する。CPUと記憶部とを有するチップを同期制御チップとし、同期制御部14はこの同期制御チップを利用して構成してもよい。
【0028】
同期制御部24も同期制御部14と同様に、記憶部26、通信部27と協働してCPU11とCPU21との同期動作に関する各種処理を実行する。
【0029】
同期制御部14は、チップセット15を介してCPU11に対する処理を実行する。
【0030】
同期制御部24も同期制御部14と同様に、チップセット25を介してCPU21に対する処理を実行する。
【0031】
同期制御部14を構成するCPUは、機能構成要素として、初期化設定部140、トランザクション監視部141、同期判定部142、異常兆候関連情報取得部143、及び異常判定部144を備える。
【0032】
同期制御部24を構成するCPUも同期制御部14と同様に、機能構成要素として、初期化設定部240、トランザクション監視部241、同期判定部242、異常兆候関連情報取得部243、及び異常判定部244を備える。
【0033】
初期化設定部140は、情報処理装置10のCPU11が情報処理装置20のCPU21と同期して動作を開始する際に、初期化条件を設定してCPU11を初期化する。初期化条件とは、初期化に必要なパラメータの設定値を言い、CPU11の初期化は設定された初期化条件でCPU11に対してリセット発行を行うことにより実行される。なお、CPU11がCPU21と同期して動作するために設定された初期化条件を同期化設定条件と呼ぶ。初期化条件を構成するパラメータは、CPU11の同期動作に利用するクロックの位相(CPUクロック位相と呼ぶ)とCPU11に対するリセット発行のタイミングである。CPUクロック位相とリセット発行のタイミングは初期化条件を構成する成分となる。同期化設定条件では各成分の値は、CPU11をCPU21と同期して動作させるために規定された適正値に設定される。
【0034】
初期化設定部240は、情報処理装置20のCPU21が情報処理装置10のCPU11と同期して動作を開始する際に、CPU21に対して、初期化設定部140の場合と同様に初期化条件の設定を行ってCPU21を初期化する。
【0035】
実施形態1では、初期化条件は最初から同期化設定条件に等しく設定される。CPUクロック位相及びリセット発行のタイミングのそれぞれの適正値はあらかじめ求められており、記憶部16に記録保存されている。初期化設定部140は、記憶部16からこれらの適正値を読み出し、CPUクロック位相をその適正値に設定し、CPU11に対して適正値に基づくタイミングでリセット発行をする。
【0036】
CPU21をCPU11に対して同期動作させる場合も同様に、初期化設定部240は、記憶部26に記録保存されているCPUクロック位相の適正値及びリセット発行タイミングの適正値を読み出し、CPUクロック位相をその適正値に設定し、CPU21に対して適正値に基づくタイミングでリセット発行をする。すなわち、CPU11及びCPU21に対してCPUクロック位相とリセット発行のタイミングを適正値に設定して初期化すればCPU11とCPU21は同期して動作する。
【0037】
トランザクション監視部141は、CPU11と入出力関連装置13との間のトランザクション、具体的にはCPU11とBIOS記憶部130及びCPU11と入出力装置131との間のトランザクションを監視し、監視結果をトランザクション情報として取得する。
【0038】
トランザクション監視部241も同様に、CPU21と入出力関連装置23との間のトランザクション、具体的にはCPU21とBIOS記憶部230及びCPU21と入出力装置231との間のトランザクションを監視し、トランザクション情報を取得する。
【0039】
同期判定部142は、CPU11とCPU21とが同期しているかどうかを判定する。この判定には、トランザクション監視部141で取得されたトランザクション情報と、トランザクション監視部241で取得されたトランザクション情報とを用いる。両トランザクション情報から同期しているかどうかが判定される。これは従来から使用されている技術なので詳細な説明は省略するするが、例えば両トランザクションの推移をシステムクロックごとにチェックする方法がある。なお、同期判定に使用されるトランザクション監視部241で取得されたトランザクション情報は、通信部27を介して同期制御部24から送信され、通信部17を介して同期制御部14で受信されたものである。
【0040】
同期判定部242の機能も同期判定部142と同様であり、同期判定部142の説明を、トランザクション監視部141と241、通信部17と27、同期制御部14と24をそれぞれ入れ替えて読めばよい。
【0041】
異常兆候関連情報取得部143は、所定の初期化条件でCPU11を初期化し、CPU21との同期動作を開始したとき、CPU11と入出力関連装置13との間のトランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得する。具体的には、次の処理を行う。異常兆候関連情報取得部143は、初期化設定部140を介して初期化条件の各成分の値を対応する所定値に設定してリセット発行を行う。実施形態1では、初期化条件の各成分の値はそれぞれに対応する適正値に設定される。すなわち初期化条件は同期化設定条件に等しく設定される。このようにしてCPU11が初期化されたとき、異常兆候関連情報取得部143は、CPU11のリセット時から、CPU11が入出力関連装置13にアクセスするまでの時間(アクセス時間)をCPUのクロックを利用して計測し、計測結果を異常兆候関連情報として、記憶部16の異常兆候関連情報データベースに記録する。このアクセス時間は情報処理システムの運転開始の際を含め、初期化後のCPU11が同期動作を開始したときに計測されるので、計測結果の履歴情報が異常兆候関連情報として、記憶部16に記録される。入出力関連装置13にはBIOS記憶部130と入出力装置131の2種類があるので、アクセス時間も2種類に分類されて記録される。それぞれ、BIOSアクセス時間、入出力アクセス時間と呼ぶ。入出力装置131が複数ある場合の入出力アクセス時間は、例えば、代表となる入出力装置131に対するアクセス時間を入出力アクセス時間として記憶部16に記録する。
【0042】
異常兆候関連情報取得部243も、異常兆候関連情報取得部143と同様に、初期化設定部240を介して初期化条件の各成分の値を対応する適正値に設定して、すなわち初期化条件を同期化設定条件と等しく設定してCPU21を初期化し、CPU11との同期動作を開始したとき、CPU21と入出力関連装置23との間のトランザクション情報に基づき、CPU21のリセット時から、CPU21が入出力関連装置23にアクセスするまでの時間(アクセス時間)を計測し、計測結果を異常兆候関連情報として、記憶部26の異常兆候関連情報データベースに記録する。
【0043】
異常判定部144は、初期化設定部140を介してCPU11を同期化設定条件で初期化した後に判定処理を実行し、同期判定部142でCPU11がCPU21と同期していない、すなわち同期ずれがあると判定された場合、記憶部16に記録されている異常兆候関連情報に基づきCPU11の異常兆候の有無を判定する。
【0044】
実施形態1では異常兆候関連情報は、BIOSアクセス時間及び入出力アクセス時間の2種類アクセス時間の履歴情報である。異常判定部144は、このいずれかの履歴情報中の、最新のアクセス時間と、これを除く他のアクセス時間とに基づき、CPU11の異常兆候の有無を判定する。この判定結果によりCPU11の異常兆候が検出される。また、異常判定部144は、異常兆候の有無の判定の結果、異常兆候有りと判定したとき、すなわち異常兆候が検出されたとき、CPU11を同期動作から切り離す処理をすることができる。なお、記憶部16にはアクセス時間の履歴情報が蓄積されているとする。
【0045】
異常判定部244は、異常判定部144と同様に、同期判定部242でCPU21がCPU11と同期していない、すなわち同期ずれがあると判定された場合、記憶部26に記録されているBIOSアクセス時間及び入出力アクセス時間の2種類のアクセス時間のいずれかの履歴情報中の、最新のアクセス時間と、これを除く他のアクセス時間とに基づき、CPU21の、従って情報処理装置20の異常兆候の有無を判定する。異常判定部244は、異常兆候の有無の判定の結果、異常兆候有りと判定したとき、CPU21を同期動作から切り離す処理をすることができる。なお、記憶部26にはアクセス時間の履歴情報が蓄積されているとする。
【0046】
異常兆候の有無の判定は、記憶部16に記録保存されているCPU11の、ある入出力関連装置13に対するアクセス時間の中の最新のアクセス時間がこれを除く他のアクセス時間に対して特異性を有するかどうかによる。特異性を有すれば異常兆候有りと判定され、特異性を有しなければ異常兆候無しと判定される。特異性とは、最新のアクセス時間がそれ以前のアクセス時間に比べて所定の判定基準以上に異なる値であることを言う。
【0047】
例えば、最新のアクセス時間を除く他のアクセス時間の平均値と最新のアクセス時間との差が、所定の閾値を超える場合に、最新のアクセス時間は、他のアクセス時間に対して特異性を有するとする。所定の閾値は、例えば、最新のアクセス時間を除く他のアクセス時間の標準偏差のk倍(kは正の実数)とする。この場合のkの値は記憶部16に記録保存されている。
【0048】
また、例えば、最新のアクセス時間を除く他のアクセス時間を時系列に配置したときのアクセス時間の変動傾向から予測される値に対して、最新のアクセス時間が所定の大きさ以上に異なる値となったとき、最新のアクセス時間がそれ以前のアクセス時間に対して特異性を有するとすることができる。この場合は、所定の大きさの値が記憶部16に記録保存されている。
【0049】
アクセス時間にはBIOSアクセス時間と入出力アクセス時間の二種類があるので、異常兆候の有無の判定もそれぞれの種類のアクセス時間毎に実施しうる。異常判定部145は、いずれかのアクセス時間で特異性があると判定したときに、CPU11に異常兆候があると判定する。
【0050】
チップセット15は、ある機能を実現するために組み合わせて構成された複数のLSIのことであり、同期制御部14はチップセット15を介してCPU11へのリセット発行等の処理を行う。
【0051】
チップセット25も、チップセット15と同様であり、同期制御部24はチップセット25を介してCPU21へのリセット発行等の処理を行う。
【0052】
記憶部16は、同期制御部14の処理時のワークエリアとして使用する主記憶部、及び同期制御部14の処理に使用する情報と処理で得られた結果とを記録保存する外部記憶部を含む。従って、図1に示す記憶部16は、二つのハードウェアから構成されており、一つのハードウェアで構成されているわけではない。
【0053】
記憶部26は、記憶部16と同様に、同期制御部24の処理時に使用する主記憶部、及び同期制御部24の処理に使用する情報と処理で得られた結果とを記録保存する外部記憶部を含む。
【0054】
通信部17及び27は、同期制御部14と24との間でそれぞれのトランザクション情報を含む情報の送受信を行う。
【0055】
次に、図2、図3のフローチャートを使って、実施形態1に係る情報処理装置10の異常兆候検出に関する動作について説明する。図2は実施形態1に係るCPU初期化処理Aの内容を示すフローチャートで、図3は実施形態1に係るCPU同期異常処理Aの内容を示すフローチャートである。以下では情報処理装置10を同期動作させる場合について説明するが、情報処理装置20を同期動作させる場合も同様である。なお、CPU初期化処理A及びCPU同期異常処理Aの実行は同期制御部14で制御される。
【0056】
情報処理装置10は電源が投入され、動作しているとする。図2において、情報処理装置10では、初期化設定部140がCPU11の初期化を実行する(ステップS10)。初期化設定部140は、チップセット15を介してCPU11に対して所定のCPUクロック位相を設定して所定のタイミングでリセット発行を行う。これによりCPU11の初期化が実行される。
【0057】
所定のCPUクロック位相とはCPUクロック位相の適正値、所定のタイミングとはリセット発行タイミングの適正値のことである。
【0058】
CPU11の初期化が終了した後、CPU11はBIOS記憶部130へのアクセスを開始し(ステップS11)、BIOSプログラムを読み出して実行する。これによりCPU11が入出力装置131にアクセスする環境が形成される。
【0059】
トランザクション監視部141は、CPU11からBIOS記憶部130にアクセスする際のCPU11とBIOS記憶部130との間のトランザクションを監視し、トランザクション情報として取得する。異常兆候関連情報取得部143は、得られたトランザクション情報からBIOSアクセス時間を計測し(ステップS12)、計測結果を異常兆候関連情報として記憶部16に記録保存する(ステップS13)。
【0060】
次に、CPU11は入出力装置131へのアクセスを開始する(ステップS14)。トランザクション監視部141は、CPU11から入出力装置131にアクセスする際のCPU11と入出力装置131との間のトランザクションを監視し、トランザクション情報として取得する。異常兆候関連情報取得部143は、得られたトランザクション情報から入出力アクセス時間を計測し(ステップS15)、得られた入出力アクセス時間を異常兆候関連情報として記憶部16に記録保存する(ステップS16)。なお、BIOSアクセス時間と入出力アクセス時間とは区別して記憶部16に記録保存される。記録保存が終わると同期制御部14はCPU初期化処理Aを終了する。
【0061】
アクセス時間の記録保存は、CPU11を初期化して同期動作を開始する都度実行されるので、記憶部16に記録保存された異常兆候関連情報は、計測で得られたアクセス時間の履歴情報となる。
【0062】
以上の初期化に関する処理が終了した後、同期制御部14は、CPU11の同期動作中に、CPU同期異常処理Aを実行する。
【0063】
CPU同期異常処理Aを図3に示すフローチャートに従って説明する。同期判定部142はCPU11がCPU12と同期して動作しているかどうかを判定する(ステップS20)。
【0064】
同期していると判定された場合(ステップS20;YES)は、ステップS20の処理に戻り、CPU11の同期ずれの有無の監視を継続する
【0065】
同期していないと判定された場合(ステップS20;NO)は、異常判定部144は、記憶部16に記録保存されている異常兆候関連情報から、BIOSアクセス時間の履歴情報を読み出す。そして、最新のBIOSアクセス時間が、これを除いたBIOSアクセス時間に対して特異性を有するかどうかを判定する(ステップS21)。
【0066】
異常判定部144は、最新のBIOSアクセス時間が、これを除いたBIOSアクセス時間に対して特異性を有すると判定した場合(ステップS21;YES)、CPU11の異常兆候が検出されたとして、CPU11を同期動作から切り離す処理を行い(ステップS22)、同期制御部14はCPU同期異常処理Aを終了する。なお、情報処理システムがFT情報処理システムであり情報処理装置10がアクティブ系の場合は、同期制御部14は、通信部17を介して、情報処理装置20をアクティブ系にする指示を同期制御部24に送る。
【0067】
異常判定部144は、最新のBIOSアクセス時間が、これを除いたBIOSアクセス時間に対して特異性を有しないと判定した場合(ステップS21;NO)、記憶部16に保存されている異常兆候関連情報から、入出力アクセス時間の履歴情報を読み出す。そして、最新の入出力アクセス時間が、これを除いた入出力アクセス時間に対して特異性を有するかどうかを判定する(ステップS23)。
【0068】
異常判定部144は、最新の入出力アクセス時間が、これを除いた入出力アクセス時間に対して特異性を有すると判定した場合(ステップS23;YES)、CPU11の異常兆候が検出されたとして、CPU11を同期動作から切り離す処理を行い(ステップS22)、同期制御部14はCPU同期異常処理Aを終了する。なお、情報処理システムがFT情報処理システムであり情報処理装置10がアクティブ系の場合は、同期制御部14は、通信部17を介して、情報処理装置20をアクティブ系にする指示を同期制御部24に送る。
【0069】
異常判定部144は、最新の入出力アクセス時間が、これを除いた入出力アクセス時間に対して特異性を有していないと判定した場合(ステップS23;NO)、CPU11の異常兆候が検出されなかったと判定し、CPU11の同期動作の対象となるCPU21の異常兆候が検出されているかどうかを判定する(ステップS24)。この判定に際して、同期制御部14は、通信部17、27を介して同期制御部24の異常判定部244から、CPU21の異常兆候の有無の検出結果を受信する。異常判定部144は、この受信結果を参照することによりCPU21の異常兆候が検出されているかどうかを判定する。なお、同期制御部14は、通信部17、27を介してCPU11の異常兆候の有無の検出結果を同期制御部24に送信する。従って、同期制御部24でも同様の異常判定を実行することができる。
【0070】
異常判定部144は、CPU21の異常兆候が検出されていないと判定したとき(ステップS24;NO)は、CPU11が、どちらか一方のCPUが選択されるようにあらかじめ定められた選択基準に合致しているかどうかを判定し(ステップS25)、合致していれば(ステップS25;YES)CPU11を同期動作から切り離す(ステップS22)。その後、同期制御部14は、CPU同期異常処理Aを終了する。一方、CPU11が選択基準に合致していない場合(ステップS25;NO)は、CPU21が選択基準に合致することになるため、CPU21が同期動作から切り離されることになる。そのため、同期制御部14は、CPU21との同期動作に関するCPU同期異常処理Aを一旦終了し、CPU11はそのまま動作を継続する。
【0071】
ステップS24でNOの判定がなされるときは、同期ずれが発生しているがCPU11、CPU21のいずれにも異常兆候が見つからない場合である。この場合は、同期ずれの修復のために再同期処理が必要であるから、あらかじめ定められた選択基準に従って選択されたCPUが一旦同期動作から切り離され、再同期処理が実施される。この選択基準は、切り離すCPUを選択できればどの様な選択基準であってもよいが、例えばCPU稼働時間が短い方を選択する等の選択基準が考えられる。
【0072】
異常判定部144が、CPU21の異常兆候が検出されていると判定したとき(ステップS24;YES)は、同期制御部14はCPU同期異常処理Aを一旦終了し、CPU11はそのまま動作を継続する。
【0073】
図2及び図3に示すフローチャートは、実施形態1に係る情報処理装置10の動作を示すと共に、実施形態1に係る異常兆候検出方法をも示す。
【0074】
実施形態1に係る発明によれば、他の情報処理装置のCPUとの間でCPUの同期ずれが発生した時に、CPUの異常兆候を検出することのできる情報処理装置、情報処理システム、及び情報処理装置の異常兆候検出方法を提供することができる。なお、ここで言うCPUの異常兆候にはCPUの障害発生に伴い生じうる異常兆候も含まれる。
【0075】
同期ずれが生じた場合、CPUの障害が検出されていなければ、従来はどちらのCPUを切り離すかという判断材料がなく、正常なCPUを切り離して、将来、障害発生の原因となりうる異常兆候を内包するCPUの動作を継続させて再同期処理を行うという危険性があった。実施形態1に係る発明によればCPUの異常兆候を検出できるので、将来、障害発生の原因となりうる異常兆候の検出されたCPUを切り離すことができ、これにより情報処理システムの信頼性が向上する。
【0076】
実施形態1に係る発明によれば、CPUの初期化時に、当該CPUの入出力関連装置13へのアクセス時間を計測し、計測結果を記録保存し、CPUの同期ずれが発生したとき、記録保存されたアクセス時間計測結果の中の最新のアクセス時間が他のアクセス時間に対して特異性を有するかどうかを利用してCPUの異常兆候を検出する。従って、CPU毎の固有の特性のばらつきの影響を受けないでCPUの異常兆候を検出することができる
【0077】
以上の説明では異常兆候の検出にBIOSアクセス時間の特異性と入出力アクセス時間の特異性の両方を用いるとしたが、いずれか一方にしてもよい。これにより図2、図3に示す同期異常に関する処理が簡略化できる。
【0078】
なお、図3のステップS24、及びS25は異常兆候の検出という点では必須ではなく省略してもよい。また、ステップS22はCPUの切り離し処理ではなく、異常兆候有りという判定結果を示すという内容であってもよい。
【0079】
図1のチップセット15については同期制御部14にその機能を含めることによりこれを省略することができる。チップセット25についても同様である。
【0080】
入出力装置131が複数台ある場合に、代表となる入出力装置131に対する入出力アクセス時間を記憶部16に記録保存するとしたが、複数台の入出力装置131を区別して、それぞれの入出力アクセス時間を計測し(図2のステップS15)、その結果を複数台の入出力装置131それぞれについて区別して記憶部16に記録保存し(図2のステップS16)てもよい。この場合は、図3のステップS23は、複数の入出力装置131毎の入出力アクセス時間についての特異性の判定となる。一つでも特異性有りという判定結果が得られれば異常兆候が検出されたとして、CPU11を同期動作から切り離す(ステップS22)。このように処理することにより、より詳細に異常兆候を検出することができる。
【0081】
図4に実施形態1の変形例に係る情報処理装置の構成のブロック図を示す。この変形例では同期制御部14は更にCPU障害検出部145を備える。
【0082】
CPU障害検出部145は、CPU11と入出力関連装置13との間のトランザクションを監視して得られるトランザクション情報からCPU11の障害を検出し、その結果を記憶部16に記録保存する。この機能は従来から利用され公知の技術であるから説明を省略するが、例えばパリティチェックエラー検出、タイムアウト検出等が挙げられる。
【0083】
CPU障害検出部245も同様に、CPU21と入出力関連装置23との間のトランザクション情報からCPU21の障害を検出し、記憶部26に記録、保存する。
【0084】
異常判定部144は、同期化設定条件でCPU11が初期化された後、同期判定部142でCPU11がCPU21と同期していない、すなわち同期ずれがあると判定された場合で、CPU11の障害が検出されていないとき、記憶部16に記録されている異常兆候関連情報に基づきCPU11の異常兆候の有無を判定する。CPU11の障害が検出されているかどうかは、CPU障害検出部145が検出したCPU障害の検出結果が記憶部16に記録保存されているかどうかにより異常判定部144が判断する。
【0085】
異常判定部144は、異常兆候の有無の判定の結果、異常兆候有りと判定したとき、すなわち異常兆候が検出されたとき、及びCPU11の障害が検出されているときは、CPU11を同期動作から切り離す処理をすることができる。なお、記憶部16にはアクセス時間の履歴情報が蓄積されているとする。
【0086】
この変形例における情報処理装置10の異常兆候検出に関する動作は、図2に示すCPU初期化処理Aと、図5に示すCPU同期異常処理A’に示されている。図5は図3に対応するもので、図3と異なるのはステップS20とS21との間にステップS26が挿入されている点、及びステップS24をステップS27に置き換え、同期対象のCPU21の異常兆候の有無だけでなく障害検出の有無も含めて判定するようにした点である。ステップS26については、同期判定部142が、CPU11とCPU21とが同期していないと判定した場合(ステップS20;NO)、異常判定部144は、CPU障害検出の有無を判定する(ステップS26)。CPU障害が検出されていれば(ステップS26;YES)、CPU11を同期動作から切り離し(ステップS22)、CPU障害が検出されていなければ(ステップS26;NO)、ステップS21に進む。ステップS26の挿入とステップS24をステップS27に置き換えたことを除けば、その他の点では、図3に示す処理と同じである。
【0087】
この変形例では、同期異常がCPUの障害に起因するものか、CPUの障害に至る前のCPUの異常兆候に起因するものかを区別して判定することができる。
【0088】
図6は、実施形態1に係る情報処理装置の必須の構成を示すブロック図である。情報処理装置10は、情報処理装置20のCPU21と同期して動作するCPU11と、入出力関連装置13と、同期制御部14と、記憶部16と、通信部17とを備え、同期制御部14は初期化設定部140、トランザクション監視部141、同期判定部142、異常兆候関連情報取得部143、及び異常判定部144を備える。各部は既に説明したとおりの機能を備える。
【0089】
図6に示す情報処理装置10の異常兆候検出に関する動作を一般化して説明する。図7は実施形態1に係る情報処理装置の一般化されたCPU初期化処理Bの内容を示すフローチャート、図8は実施形態1に係る情報処理装置の一般化されたCPU同期異常処理Bの内容を示すフローチャートである。
【0090】
まず、図7に示すCPU初期化処理Bについて説明する。初期化設定部140は所定の初期化条件でCPU11を初期化する(ステップS30)。所定の初期化条件は実施形態1では同期化設定条件と等しく、初期化条件の各成分は対応する適正値に設定される。ステップS30は、図2のステップS10に対応する。
【0091】
異常兆候関連情報取得部143は、トランザクション情報に基づき異常兆候関連情報を取得し(ステップS31)、取得した異常兆候関連情報を記憶部16に記録保存する(ステップS32)。ステップS31は、図2のステップS11とS12とに、又はステップS14とS15とに対応し、ステップS32は、図2のステップS13又はS16に対応する。
【0092】
初期化設定部140は、同期化設定条件で、すなわち初期化条件の各成分を対応する適正値に設定してCPU11を初期化し(ステップS33)、CPU初期化処理Bを完了する。なお、実施形態1では、ステップS30で既に初期化条件を同期化設定条件としてCPU11の初期化を行っているので、ステップS33は省略することができる。このステップS33は、後述する実施形態2のようにステップS30で設定される初期化条件が同期化設定条件と異なる場合に備えて設けたステップである。
【0093】
以上の処理により、CPU11をCPU21と同期して動作させるためのCPU11の初期化と異常兆候関連情報の記録保存とが完了する。
【0094】
次に、図8に従ってCPU同期異常処理Bについて説明する。同期判定部142は情報処理装置10及び20のそれぞれのトランザクション情報からCPU11と21とが同期しているかどうかを判定し(ステップS40)、同期していれば(ステップS40;YES)ステップS40に戻り、同期ずれの有無の監視を継続する。ステップS40は、図3のステップS20に対応する。
【0095】
同期していなければ(ステップS40;NO)、異常判定部144は異常兆候関連情報に基づいて異常兆候の有無を判定する(ステップS41)。ステップS41は図3のステップS21又はS23に対応する。
【0096】
異常判定部144は、異常兆候があれば(ステップS41;YES)、異常兆候有りと判定し(ステップS42)、異常兆候が無ければ(ステップS41;NO)、異常兆候無しと判定し(ステップS43)、いずれの場合もCPU同期異常処理Bを終了する。ステップS42は、図3のステップS22に代えて判定の内容を明確にしたものである。また、ステップS43は、図3のステップS24とS25に代えて判定の内容を明確にしたものである。
【0097】
図6に示す構成の情報処理装置を図7及び図8に示すフローチャートに従って動作させた場合も、これまでに説明した効果と同様の効果を奏することができる。
【0098】
(実施形態2)
実施形態2に係る情報処理システムの構成は図4に示す構成と同じであるが、同期制御部14、24の機能構成要素の機能の一部が実施形態1の場合と異なる。同期制御部14について異なる点を説明する。同期制御部14と24とは同様の機能を有するので、同期制御部24については異なる点の説明を省略する。
【0099】
初期化設定部140は、実施形態1と同様に、CPU初期化のためにCPUクロック位相の設定とリセット発行とを行う。異なる点は、リセット発行のタイミング、及びCPUクロック位相をそれぞれの適正値から所定値ずらして設定することができるという点である。
【0100】
リセット発行のタイミングをその適正値からずらす量である所定値(ずれの所定値)は、あらかじめ設定された値であり、CPUクロック位相をその適正値に設定したとき、例えば、CPU11と21とが同期して動作できるリセット発行タイミングの設定可能な範囲の境界近傍の値とリセット発行タイミングの適正値との差分に相当する値である。このずれの所定値は例えば記録部16に記憶保存されており、読み出して利用される。
【0101】
CPUクロック位相をその適正値からずらす量であるずれの所定値は、あらかじめ設定された値であり、リセット発行のタイミングをその適正値に設定したとき、CPU11と12とが同期して動作できるCPUクロック位相の設定可能な範囲の境界近傍の値とCPUクロック位相の適正値との差分に相当する値である。このずれの所定値は例えば記録部16に記憶保存されており、読み出して利用される。
【0102】
異常兆候関連情報取得部143は、実施形態1と異なり、初期化設定部140を介して、CPUクロック位相及びリセット発行タイミングのいずれか一方を対応する適正値に設定し、他方を対応する適正値からずれの所定値だけずらして設定することによりCPU11を初期化して、いずれも対応する適正値に設定されて初期化されたCPU21との同期動作を開始する。次に、異常兆候関連情報取得部143は、同期判定部142に同期ずれの有無を判定させる。同期ずれがあると判定された場合に、異常兆候関連情報取得部143は、CPU障害検出部145によりCPU11の障害が検出されているかどうかを判定する。異常兆候関連情報取得部143は、障害検出の判定結果からCPU11に障害があると判定した場合はCPU11の同期動作からの切り離し有りと判定し、CPU11の障害が検出されていないと判定した場合はCPU11の同期動作からの切り離しは無いと判定し、その判定結果を異常兆候関連情報として取得する。また、同期ずれがないと判定された場合には、異常兆候関連情報取得部143は、前記CPUの同期動作からの切り離しはないと判定し、その判定結果を異常兆候関連情報として取得する。すなわち、異常兆候関連情報取得部143は、同期ずれとCPU11の障害の有無の情報とに基づき異常兆候関連情報を取得しているが、いずれもトランザクション情報から得られるので、トランザクション情報に基づき異常兆候関連情報を取得していることになる。
【0103】
異常判定部144は、最新の異常兆候関連情報が他の異常兆候関連情報の傾向と異なる場合に特異性があるとする。特異性の有無の判定という点では実施形態1の場合と同じである。例えば、過去のCPUの切り離し有無の情報が、切り離しなしのとき、最新のCPUの切り離し有無の情報が切り離し有りであったとき、その最新のCPUの切り離し有無の情報は特異性を有するとする。ずれの所定値の設定によっては、この逆の場合もある。
【0104】
以上の点を除けば図4の各構成部は、実施形態1の場合と同様に機能する。
【0105】
次に、図9〜図11のフローチャートを使って、実施形態2に係る情報処理装置10の異常兆候検出に関する動作について説明する。図9は実施形態2に係るCPU初期化処理Cの内容を、図10は実施形態2に係るCPU切り離し判定の内容を、図11は実施形態2に係るCPU同期異常処理Cの内容を示すフローチャートである。以下では情報処理装置10の異常兆候検出について説明するが、情報処理装置20の異常兆候検出についても同様である。なお、CPU初期化処理C、CPU切り離し判定、及びCPU同期異常処理Cの実行は同期制御部14で制御される。
【0106】
図9において、ステップS50〜S55は、異常兆候関連情報取得部143による異常兆候関連情報の取得に関連する。異常兆候関連情報取得部143は、初期化設定部140を介して、CPUクロック位相を適正値に設定し、リセット発行のタイミングを適正値からずれの所定値だけずらしてリセット発行を行うことによりCPU11を初期化する(ステップS50)。これによりCPU11の同期動作が開始される。このとき同期動作の対象となるCPU21はCPUクロック位相及びリセットタイミングのいずれも適正値に設定されていることとする。
【0107】
次に、異常兆候関連情報取得部143は、CPU切り離し判定を実行する(ステップS51)。その内容は後述するが、判定の結果、CPU11の同期動作からの切り離し有無の判定結果が得られる。
【0108】
異常兆候関連情報取得部143は、このとき得られるCPU11の同期動作からの切り離し有無の判定結果を異常兆候関連情報aとして取得し、記憶部16に記録保存する(ステップS52)。なお、以下ではこのときのCPU11の切り離し有無の判定結果を切り離し有無情報aと呼ぶ。すなわち、異常兆候関連情報aは切り離し有無情報aで構成されている。
【0109】
次に、異常兆候関連情報取得部143は、初期化設定部140を介してCPUクロック位相を適正値からずれの所定値だけずらして設定し、リセット発行のタイミングを適正値にしてリセット発行を行うことによりCPU11を初期化する(ステップS53)。これによりCPU11の同期動作が開始される。このとき同期動作の対象となるCPU21はCPUクロック位相及びリセットタイミングのいずれも適正値に設定されていることとする。
【0110】
次に、異常兆候関連情報取得部143は、CPU切り離し判定を実行する(ステップS54)。その内容はステップS51の内容と同じであり、後述する。判定の結果、CPU11の同期動作からの切り離し有無の判定結果が得られる。
【0111】
異常兆候関連情報取得部143は、このとき得られるCPU11の切り離し有無の判定結果を異常兆候関連情報bとして取得し、異常兆候関連情報aと区別して記憶部16に記録保存する(ステップS55)。なお、以下ではこのときのCPU11の切り離し有無の判定結果を切り離し有無情報bと呼ぶ。すなわち、異常兆候関連情報bは切り離し有無情報bで構成されている。
【0112】
次に、初期化設定部140は、CPUクロック位相を適正値に設定し、リセット発行のタイミングを適正値に設定したままでリセット発行を行いCPU11を初期化し(ステップS56)、同期制御部14はCPU初期化処理Cを終了する。これによりCPU11の通常の同期動作が開始される。その後、同期制御部14はCPU同期異常処理Cを実行する。
【0113】
CPU21についても同期化の処理を実施するときはCPU11に対して実施したCPU初期化処理Cと同様の処理を行う。このとき同期動作の対象となるCPU11はCPUクロック位相及びリセットタイミングのいずれも適正値に設定されていることとする。
【0114】
ステップS31とS34で実行されるCPU切り離し判定の内容を図10に従って説明する。異常兆候関連情報取得部143は、同期判定部142に、CPU11がCPU21と同期して動作しているかどうかを判定させる(ステップS60)。この判定は図3又は図5のステップS20の判定内容と同じである。
【0115】
同期していると判定された場合(ステップS60;YES)は、異常兆候関連情報取得部143は、CPU11の同期動作からの切り離し無しと判定し(ステップS63)、その結果を異常兆候関連情報として取得する。その後、同期制御部14は、処理を図9のステップS31又はS34に戻す。
【0116】
同期していないと判定された場合(ステップS60;NO)は、異常兆候関連情報取得部143は、CPU11の障害が検出されているかどうかを判定する(ステップS61)。この判定は図5のステップS26の判定内容と同様であるが、判定主体が異なる。
【0117】
CPU11の障害が検出されていない場合(ステップS61;NO)は、異常兆候関連情報取得部143は、CPU11の同期動作からの切り離し無しと判定し(ステップS63)、その結果を異常兆候関連情報として取得する。同期制御部14は、処理を図9のステップS51又はS54に戻す。
【0118】
CPU11の障害が検出されている場合(ステップS61;YES)は、異常兆候関連情報取得部143は、CPU11の同期動作からの切り離し有りと判定し(ステップS62)、その結果を異常兆候関連情報として取得する。同期制御部14は、処理を図9のステップS51又はS54に戻す。
【0119】
図9のステップS52及びS55で記録保存されるCPU切り離し有無の判定結果はこれらの判定結果である。
【0120】
CPU切り離し有無の判定結果を異常兆候関連情報として取得するのは、CPUに異常兆候がある場合、CPUの初期設定値を適正値からずらして同期動作を開始すると、異常兆候の程度によっては、同期ずれに加えてCPUに障害が生じ、その結果CPUの同期動作からの切り離し有りと判定されることになるからである。
【0121】
CPU同期異常処理Cの内容を図11に従って説明する。同期判定部142は、CPU11がCPU21と同期して動作しているかどうかを判定する(ステップS70)。この判定は図3又は図5のステップS20の判定内容と同じである。
【0122】
同期していると判定された場合(ステップS70;YES)は、ステップS70の処理に戻り、CPU11の同期ずれの有無の監視を継続する
【0123】
同期していないと判定された場合(ステップS70;NO)は、異常判定部144は、記憶部16に保存されているCPU切り離し有無情報aを読み出す。CPU切り離し有無情報aは、CPUクロック位相をその適正値に設定し、リセット発行タイミングをその適正値からずらしてリセットしたときのCPU切り離し有無の判定結果である。そして、読み出したCPU切り離し有無情報aの中の最新のCPU切り離し有無情報aが、これを除いたCPU切り離し有無情報aに対して特異性を有するかどうかを判定する(ステップS71)。ステップS71の判定は図3又は図5のステップS21又はS23の判定と特異性の有無の判定という点で同じ内容である。
【0124】
異常判定部144は、最新のCPU切り離し有無情報aが、これを除いたCPU切り離し有無情報aに対して特異性を有すると判定した場合(ステップS71;YES)、CPU11の異常兆候が検出されたとして、CPU11を同期動作から切り離す処理を行う(ステップS72)。その後同期制御部14はCPU同期異常処理Cを終了する。ステップS72の処理内容は図3又は図5のステップS22の処理内容と同じである。なお、情報処理システムがFT情報処理システムであり情報処理装置10がアクティブ系の場合は、同期制御部14は、通信部17を介して、情報処理装置20をアクティブ系にする指示を同期制御部24に送る。
【0125】
異常判定部144は、最新のCPU切り離し有無情報aが、これを除いたCPU切り離し有無情報aに対して特異性を有しないと判定した場合(ステップS71;NO)、記憶部16に保存されているCPU切り離し有無情報bを読み出す。CPU切り離し有無情報bは、CPUクロック位相をその適正値からずらし、リセット発行のタイミングをその適正値に設定してリセット発行したときのCPU切り離し有無の判定結果である。そして、最新のCPU切り離し有無情報bが、これを除いたCPU切り離し有無情報bに対して特異性を有するかどうかを判定する(ステップS73)。ステップS73の判定は図3又は図5のステップS21又はS23の判定と特異性の有無の判定という点で同じ内容である。
【0126】
異常判定部144は、最新のCPU切り離し有無情報bが、これを除いたCPU切り離し有無情報bに対して特異性を有すると判定した場合(ステップS73;YES)、CPU11の異常兆候が検出されたとして、CPU11を同期動作から切り離す処理を行い(ステップS72)、同期制御部14はCPU同期異常処理Cを終了する。なお、情報処理システムがFT情報処理システムであり情報処理装置10がアクティブ系の場合は、同期制御部14は、通信部17を介して、情報処理装置20をアクティブ系にする指示を同期制御部24に送る。
【0127】
異常判定部144は、最新のCPU切り離し有無情報bが、これを除いたCPU切り離し有無情報bに対して特異性を有していないと判定した場合(ステップS73;NO)、CPU11の異常兆候が検出されなかったとして、CPU11の同期動作の対象となるCPU21の異常兆候が検出されているかどうかを判定する(ステップS74)。この判定は図3のステップS24の判定内容と同じである。
【0128】
異常判定部144は、CPU21の異常兆候が検出されていないと判定したとき(ステップS74;NO)は、CPU11が、あらかじめ定められた選択基準に合致しているかどうかを判定し(ステップS75)、合致していれば(ステップS75;YES)CPU11を同期動作から切り離す(ステップS72)。ステップS75の判定内容は図3又は図5のステップS25の判定内容と同じである。その後、同期制御部14は、CPU同期異常処理Cを終了する。一方、CPU11が選択基準に合致していない場合(ステップS75;NO)は、結果的にCPU21が選択基準に合致することになるため、CPU21が同期動作から切り離されることになる。そのため、同期制御部14は、CPU21との同期動作に関するCPU同期異常処理Cを一旦終了し、CPU11はそのまま動作を継続する。
【0129】
ステップS74でNOの判定がなされるときは、同期ずれが発生しているがCPU11、CPU21のいずれにも異常兆候が見つからない場合である。この場合は、同期ずれの修復のために再同期処理が必要であるから、あらかじめ定められた選択基準に従って選択されたCPUが一旦同期動作から切り離され、再同期処理が実施されることになる。この選択基準は、切り離すCPUを選択できればどの様な選択基準であってもよいが、例えばCPU稼働時間の長短によることが考えられるが、例えばCPU稼働時間が短い方を選択する等の選択基準が考えられる。
【0130】
異常判定部144が、CPU21の異常兆候が検出されていると判定したとき(ステップS74;YES)は、同期制御部14はCPU同期異常処理Cを一旦終了し、CPU11はそのまま動作を継続する。
【0131】
図9〜図11に示すフローチャートは、実施形態2に係る情報処理装置10の動作を示すと共に、実施形態2に係る異常兆候検出方法をも示す。
【0132】
実施形態2に係る発明によれば、他の情報処理装置のCPUとの間でCPUの同期ずれが発生した時に、障害が検出されていないCPUの異常兆候を検出することのできる情報処理装置、情報処理システム、及び情報処理装置の異常兆候検出方法を提供することができる。
【0133】
同期ずれが生じた場合、CPUの障害が検出されていなければ、従来はどちらのCPUを切り離すかという判断材料がなく、正常なCPUを切り離して、将来、障害発生の原因となりうる異常兆候を内包するCPUの動作を継続させて再同期処理を行うという危険性があった。実施形態2に係る発明によればCPUの異常兆候を検出できるので、将来、障害発生の原因となりうる異常兆候の検出されたCPUを同期動作から切り離すことができ、これにより情報処理システムの信頼性が向上する。
【0134】
実施形態2に係る発明によれば、初期化条件の各成分の設定値を適正値からずらしてリセット発行を行うことによりCPUを初期化して同期動作を開始し、そのときに得られるCPU切り離し有無の判定結果を記録保存し、その中の最新のCPU切り離し有無の判定結果が他のCPU切り離し有無の判定結果に対して特異性を有するかどうかを利用してCPUの異常兆候を検出する。従って、CPU毎に有する固有の特性のばらつきの影響を受けないでCPUの異常兆候を検出することができる。
【0135】
なお、ステップS71とS73の実行順序は任意である。更に、ステップS74とS75とは異常兆候の検出という点では必須ではなく省略してもよい。また、ステップS72をCPU異常兆候有りという判定結果を示すものに変更し、ステップS74及びS75をCPU異常兆候無しという判定結果を示すものに変更してもよい。
【0136】
以上の説明では異常兆候の検出に最新のCPU切り離し有無情報aの特異性と最新のCPU切り離し有無情報bの特異性の両方を用いるとしたが、いずれか一方にしてもよい。これにより処理が簡略化できる。
【0137】
以上の説明では、ずれの所定値を、CPU11と21とが同期して動作できる初期化設定情報の設定可能な範囲の境界近傍の値と適正値との差分に相当する値としたが、これに限る必要はない。
【0138】
以上の説明では、初期化設定部140は、一つの適正値に対して一つのずれの所定値を設定したが、ずれの所定値を一つに限定する必要はなく、複数のずれの所定値を設定してずれの所定値毎にこれまで説明した処理を実行してもよい。これにより、より詳細なCPU切り離しの有無の情報が得られるため、異常兆候関連情報の特異性をより確実に把握することができ、異常兆候の早期検出を期待することができる。特に、適正値に対して正と負のずれの所定値を設定すれば、異常兆候をより確実に検出できるという効果が得られる。
【0139】
なお、図11に示すCPU同期異常処理Cを図12に示すCPU同期異常処理C’に替えてもよい。図12は、図11のステップS70とS71との間にステップS76を挿入し、図11のステップS74をステップS77で置き換えている。この置き換えは図3と図5の関係と同じである。図12に示す処理によれば、同期異常がCPUの障害に起因するものか、CPUの障害に至る前のCPUの異常兆候に起因するものかを区別して判定することができる。
【0140】
実施形態1及び2に係る発明は、異常兆候関連情報の内容の違い、従ってその取得方法の違いはあるが、いずれもトランザクション情報に基づき取得された情報であるという点で共通しており、その他についても共通している。従って、実施形態1と2に係る発明のそれぞれは同一の発明の異なる具体例であるといえる。
【0141】
実施形態1及び2ともに、情報処理システムは2台の情報処理装置10、20で構成されているとしたが、3台以上で構成されていてもよい。情報処理システムが3台以上で構成されている場合、その中の任意の2台の組毎に実施形態1又は2に係る発明を適用することができる。なお、3台以上の場合は、切り離されたCPUを除くCPU間で同期動作が継続される。
【0142】
図13は図1に示す実施形態1及び2に係る情報処理装置10のコンピュータとしてのハードウェア構成例を示すブロック図である。この装置は、制御装置30、主記憶装置40、外部記憶装置50、入出力装置60、通信装置70を備える。主記憶装置40、外部記憶装置50、入出力装置60、通信装置70はいずれもバスライン80を介して制御装置30に接続されている。
【0143】
制御装置30は少なくとも2台の、主となるCPUaと従となるCPUbとで構成され、CPUaは外部記憶装置50に記憶されている制御プログラム100を主記憶装置40に読み出して実行することにより各種処理を実行し、また、CPUbの動作もこれにより開始される。CPUaは図1に示すCPU11、CPUbは同期制御部14を構成するCPUである。CPUa(CPU11)は全体制御を、CPUb(同期制御部14を構成するCPU)はCPU11の同期動作に関する制御を行う。制御プログラム100は、各CPUに対応した制御プログラムを含む。図2、図3、図5、図7、及び図8に示すフローチャートは、実施形態1に係る異常兆候検出プログラムの内容をも示し、図9〜12に示すフローチャートは、実施形態2に係る異常兆候検出プログラムの内容をも示している。この異常兆候検出プログラムはCPUb(同期制御部14のCPU)が実行する制御プログラム100に含まれる。
【0144】
異常兆候検出プログラムを含む制御プログラム100は、この制御プログラム100が記録保存された、コンピュータ(ここでは情報処理装置10)による読み取りが可能な記録媒体を、記録媒体読み取り装置(図示省略)に装着し、記録内容を読み出すことにより外部記憶装置50に記録保存することができる。記録媒体に代えてインターネット経由で制御プログラム100を受信して外部記憶装置50に記録保存してもよい。
【0145】
主記憶装置40はRAM(Random−Access Memory)等から構成され、外部記憶装置50に記憶されている制御プログラム100がロードされ、制御装置30の作業領域として用いられる。CPU11に対する主記憶装置40は図1の記憶部12に含まれ、同期制御部14のCPUに対する主記憶装置40は、図1、図4、及び図6に示す記憶部16に含まれる。主記憶装置40で制御プログラム100を破線で表示しているのは、制御プログラム100はシステムの動作時にだけ外部記憶装置50から主記憶装置40に読み出されるためである。
【0146】
外部記憶装置50は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random−Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成される。外部記憶装置50は、CPU11が実行する制御処理及び同期制御部14のCPUが実行する制御プログラム100を記憶する。また、外部記憶装置50は、各種情報を記録情報110として記録保存するとともに記録情報110はCPU11又は同期制御部14のCPUにより読み出されて利用される。記録情報110には、同期制御部14で実施される各種判定に使用される閾値、リセット発行タイミング及びCPUクロック位相のそれぞれの適正値、適正値からのずらし量であるずれの所定値、異常兆候関連情報等が含まれる。このうち、異常兆候関連情報は同期制御部14の指示により外部記憶装置50に記録保存されるが、他の情報はあらかじめ外部記憶装置50に記録保存されている。これを変更するときは入出力装置60を介して、所定の手続きに従って変更内容を入力する。外部記憶装置50は、図1、図4の記憶部12、16に含まれる。図6では記憶部12の図示を省略している。明示してはいないが、図1、図4のBIOS記憶部130に対応するフラッシュメモリ等で構成される記憶装置が図13に含まれる。
【0147】
入出力装置60はコンピュータ(情報処理装置10)内に情報の入力を行う入力装置及びコンピュータ(情報処理装置10)から情報の出力を行う出力装置を総称している。入力装置はキーボード及びマウスなどのポインティングデバイス等と、キーボード及びポインティングデバイス等をバスライン70に接続するインタフェース装置から構成される操作部や各種センサ等からの情報を入力する入力部を含む。出力装置はCRT(Cathode Ray Tube)又はLCD(Liquid Crystal Display)などから構成される表示部等を含む。なお、表示部は入力装置と出力装置とを兼ねたものとして使用されてもよい。図1、図4、及び図6の入出力装置131が入出力装置60に該当する。図1、図4、及び図6に示す入出力関連装置13は、この入出力装置60と図13に明示していないBIOS記憶部130に相当する記憶部とが対応している。
【0148】
通信装置70は、制御装置30の指示に従って、他のコンピュータ(情報処理装置20)との間で情報の送受信を行う。図1、図4、図6の通信部17がこれに該当する。
【0149】
情報処理装置20も、情報処理装置10と同様に構成されているので、コンピュータとして図13と同様のハードウェア構成を有する。図1、図4、及び図6に示す情報処理装置20と図13との対応関係は情報処理装置10の場合と同様である。
【0150】
情報処理装置10、20はコンピュータとしてこのように構成されているので、実施形態1又は2に係る発明によれば、他のコンピュータのCPUとの間でCPUの同期ずれが発生した時に、障害が検出されていないCPUの異常兆候を検出することのできる異常兆候検出プログラムを提供することができる。
【0151】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0152】
(付記1)
他の情報処理装置の備える他のCPUと同期して動作するCPUと、該CPUの前記他のCPUとの間の同期動作を制御する同期制御部と、前記他の情報処理装置との間で情報の送受信を行う通信部と、記憶部と、情報の入力又は出力を行うために使用される入出力関連装置とを備える情報処理装置において、
前記同期制御部は、
初期化条件を設定し、該初期化条件で前記CPUの初期化を行う初期化設定部と、
同期動作時の前記CPUと前記入出力関連装置との間のトランザクションを監視し、トランザクション情報として取得するトランザクション監視部と、
前記通信部を介して、前記他の情報処理装置との間で、前記トランザクション情報を送受信し、前記情報処理装置及び前記他の情報処理装置のそれぞれの前記トランザクション情報に基づき前記CPUの同期ずれの有無を判定する同期判定部と、
所定の前記初期化条件で前記CPUを初期化した時の前記トランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得し、前記記憶部に格納する異常兆候関連情報取得部と、
前記初期化設定部で、前記CPUと前記他のCPUとが同期動作をするために設定された前記初期化条件である同期化設定条件で前記CPUを初期化した後、前記同期判定部で前記CPUの同期ずれがあると判定されたとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する異常判定部と、
を備えることを特徴とする情報処理装置。
【0153】
(付記2)
前記異常判定部は、前記異常兆候関連情報の中の最新の異常兆候関連情報とこれを除く異常兆候関連情報とに基づき、前記CPUの異常兆候の有無を判定する、
ことを特徴とする付記1に記載の情報処理装置。
【0154】
(付記3)
前記初期化条件は、CPUクロック位相と、前記CPUに対するリセット発行のタイミングとを所定値設定の対象となる成分として有し、
前記同期化設定条件では、前記初期化条件の前記成分が、前記CPUと前記他のCPUとが同期動作をするために規定された対応する適正値に設定されている、
ことを特徴とする付記1又は2に記載の情報処理装置。
【0155】
(付記4)
前記トランザクション情報から前記CPUの障害の有無を検出するCPU障害検出部を備え、
前記異常判定部は、前記同期判定部で前記CPUの同期ずれがあると判定され、且つ前記CPU障害検出部で前記CPUの障害が検出されないとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する、
ことを特徴とする付記1乃至3のいずれか1つに記載の情報処理装置。
【0156】
(付記5)
前記異常兆候関連情報は、前記所定の初期化条件を前記同期化設定条件にしたときの前記トランザクション情報に基づき、前記リセット発行から、前記CPUが前記入出力関連装置にアクセスするまでのアクセス時間を前記異常兆候関連情報取得部が計測して得た情報である、
ことを特徴とする付記3又は4に記載の情報処理装置。
【0157】
(付記6)
前記入出力関連装置は、BIOSプログラムを記憶するBIOS記憶部を含み、
前記アクセス時間は、前記CPUが前記リセット発行から前記BIOS記憶部へアクセスするまでの時間である、
ことを特徴とする付記5に記載の情報処理装置。
【0158】
(付記7)
前記入出力関連装置は、情報の入力又は出力を行う入出力装置を含み、
前記アクセス時間は、前記CPUが前記リセット発行から前記入出力装置へアクセスするまでの時間である、
ことを特徴とする付記5に記載の情報処理装置。
【0159】
(付記8)
前記入出力関連装置は、BIOSプログラムを記憶するBIOS記憶部と情報の入力又は出力を行う入出力装置とを含み、
前記アクセス時間は、前記CPUが前記リセット発行から前記BIOS記憶部へアクセスするまでのBIOSアクセス時間、及び前記入出力装置へアクセスするまでの入出力アクセス時間であり、
前記異常判定部は、BIOSアクセス時間について異常兆候の有無を判定し、異常兆候がない場合に、入出力アクセス時間について異常兆候の有無を判定する、
ことを特徴とする付記5に記載の情報処理装置。
【0160】
(付記9)
前記トランザクション情報から前記CPUの障害の有無を検出するCPU障害検出部を備え、
前記異常兆候関連情報取得部は、前記初期化設定部を介して、前記初期化条件の一方の成分に対する前記所定値を、前記一方の成分に対応する前記適正値に設定し、前記初期設定情報の他方の成分に対する前記所定値を、前記他方の成分に対応する前記適正値からずらして設定して前記CPUを初期化したときに、前記同期判定部に同期ずれの有無を判定させ、同期ずれがあると判定された場合に、前記CPU障害検出部で検出される前記CPUの障害の有無に基づき前記CPUの同期動作からの切り離し有無を判定し、且つ、同期ずれがないと判定された場合に、前記CPUの同期動作からの切り離しはないと判定し、切り離しに関する両判定結果を前記異常兆候関連情報として取得する、
ことを特徴とする付記3に記載の情報処理装置。
【0161】
(付記10)
前記異常判定部は、前記同期判定部で前記CPUの同期ずれがあると判定され、且つ前記CPU障害検出部で前記CPUの障害が検出されないとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する、
ことを特徴とする付記9に記載の情報処理装置。
【0162】
(付記11)
前記異常兆候関連情報取得部は、前記適正値からずらすときのずらし値を正と負の値とし、前記ずらし値毎に前記異常兆候関連情報を取得し、
前記異常判定部は、前記ずらし値に対応して取得された前記異常兆候関連情報毎に、異常兆候の有無を判定する、
ことを特徴とする付記9又は10に記載の情報処理装置。
【0163】
(付記12)
付記1乃至11のいずれか1つに記載の少なくとも2台の情報処理装置で構成されることを特徴とする情報処理システム。
【0164】
(付記13)
他の情報処理装置の備える他のCPUと同期して動作するCPUと、記憶部と、情報の入力又は出力を行うために使用される入出力関連装置とを備える情報処理装置の異常兆候検出方法において、
初期化条件を設定し、該初期化条件で前記CPUの初期化を行う初期化設定ステップと、
同期動作時の前記CPUと前記入出力関連装置との間のトランザクションを監視し、トランザクション情報として取得するトランザクション監視ステップと、
前記他の情報処理装置との間で、前記トランザクション情報を送受信する通信ステップと、
前記情報処理装置及び前記他の情報処理装置のそれぞれの前記トランザクション情報に基づき前記CPUの同期ずれの有無を判定する同期判定ステップと、
所定の前記初期化条件で前記CPUを初期化した時の前記トランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得し、前記記憶部に格納する異常兆候関連情報取得ステップと、
前記初期化設定ステップで、前記CPUと前記他のCPUとが同期動作をするために設定された前記初期化条件である同期化設定条件で前記CPUを初期化した後、前記同期判定ステップで前記CPUの同期ずれがあると判定されたとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する異常判定ステップと、
を備えることを特徴とする情報処理装置の異常兆候検出方法。
【0165】
(付記14)
他のコンピュータの備える他のCPUと同期して動作するCPUと、記憶部と、情報の入力又は出力を行うために使用される入出力関連装置とを備えるコンピュータに、
初期化条件を設定し、該初期化条件で前記CPUの初期化を行う初期化設定ステップと、
同期動作時の前記CPUと前記入出力関連装置との間のトランザクションを監視し、トランザクション情報として取得するトランザクション監視ステップと、
前記他のコンピュータとの間で、前記トランザクション情報を送受信する通信ステップと、
前記コンピュータ及び前記他のコンピュータのそれぞれの前記トランザクション情報に基づき前記CPUの同期ずれの有無を判定する同期判定ステップと、
所定の前記初期化条件で前記CPUを初期化した時の前記トランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得し、前記記憶部に格納する異常兆候関連情報取得ステップと、
前記初期化設定ステップで、前記CPUと前記他のCPUとが同期動作をするために設定された前記初期化条件である同期化設定条件で前記CPUを初期化した後、前記同期判定ステップで前記CPUの同期ずれがあると判定されたとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する異常判定ステップと、
を実行させることを特徴とする異常兆候検出プログラム。
【0166】
(付記15)
他のコンピュータの備える他のCPUと同期して動作するCPUと、記憶部と、情報の入力又は出力を行うために使用される入出力関連装置とを備えるコンピュータに、
初期化条件を設定し、該初期化条件で前記CPUの初期化を行う初期化設定ステップと、
同期動作時の前記CPUと前記入出力関連装置との間のトランザクションを監視し、トランザクション情報として取得するトランザクション監視ステップと、
前記他のコンピュータとの間で、前記トランザクション情報を送受信する通信ステップと、
前記コンピュータ及び前記他のコンピュータのそれぞれの前記トランザクション情報に基づき前記CPUの同期ずれの有無を判定する同期判定ステップと、
所定の前記初期化条件で前記CPUを初期化した時の前記トランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得し、前記記憶部に格納する異常兆候関連情報取得ステップと、
前記初期化設定ステップで、前記CPUと前記他のCPUとが同期動作をするために設定された前記初期化条件である同期化設定条件で前記CPUを初期化した後、前記同期判定ステップで前記CPUの同期ずれがあると判定されたとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する異常判定ステップと、
を実行させる異常兆候検出プログラムを記憶したことを特徴とする前記コンピュータによる読み取り可能な記録媒体。
【符号の説明】
【0167】
10、20 情報処理装置
11、21 CPU
12、16、22、26 記憶部
13、23 入出力関連装置
14、24 同期制御部
15、25 チップセット
17、27 通信部
30 制御装置
40 主記憶装置
50 外部記憶装置
60 入出力装置
70 通信装置
80 バスライン
130、230 BIOS記憶部
131、231 入出力装置
140、240 初期化設定部
141、241 トランザクション監視部
142、242 同期判定部
143、243 異常兆候関連情報取得部
144、244 異常判定部
145、245 CPU障害検出部

【特許請求の範囲】
【請求項1】
他の情報処理装置の備える他のCPUと同期して動作するCPUと、該CPUの前記他のCPUとの間の同期動作を制御する同期制御部と、前記他の情報処理装置との間で情報の送受信を行う通信部と、記憶部と、情報の入力又は出力を行うために使用される入出力関連装置とを備える情報処理装置において、
前記同期制御部は、
初期化条件を設定し、該初期化条件で前記CPUの初期化を行う初期化設定部と、
同期動作時の前記CPUと前記入出力関連装置との間のトランザクションを監視し、トランザクション情報として取得するトランザクション監視部と、
前記通信部を介して、前記他の情報処理装置との間で、前記トランザクション情報を送受信し、前記情報処理装置及び前記他の情報処理装置のそれぞれの前記トランザクション情報に基づき前記CPUの同期ずれの有無を判定する同期判定部と、
所定の前記初期化条件で前記CPUを初期化した時の前記トランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得し、前記記憶部に格納する異常兆候関連情報取得部と、
前記初期化設定部で、前記CPUと前記他のCPUとが同期動作をするために設定された前記初期化条件である同期化設定条件で前記CPUを初期化した後、前記同期判定部で前記CPUの同期ずれがあると判定されたとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する異常判定部と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記異常判定部は、前記異常兆候関連情報の中の最新の異常兆候関連情報とこれを除く異常兆候関連情報とに基づき、前記CPUの異常兆候の有無を判定する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記初期化条件は、CPUクロック位相と、前記CPUに対するリセット発行のタイミングとを所定値設定の対象となる成分として有し、
前記同期化設定条件では、前記初期化条件の前記成分が、前記CPUと前記他のCPUとが同期動作をするために規定された対応する適正値に設定されている、
ことを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
前記トランザクション情報から前記CPUの障害の有無を検出するCPU障害検出部を備え、
前記異常判定部は、前記同期判定部で前記CPUの同期ずれがあると判定され、且つ前記CPU障害検出部で前記CPUの障害が検出されないとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する、
ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
【請求項5】
前記異常兆候関連情報は、前記所定の初期化条件を前記同期化設定条件にしたときの前記トランザクション情報に基づき、前記リセット発行から、前記CPUが前記入出力関連装置にアクセスするまでのアクセス時間を前記異常兆候関連情報取得部が計測して得た情報である、
ことを特徴とする請求項3又は4に記載の情報処理装置。
【請求項6】
前記入出力関連装置は、BIOSプログラムを記憶するBIOS記憶部を含み、
前記アクセス時間は、前記CPUが前記リセット発行から前記BIOS記憶部へアクセスするまでの時間である、
ことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記入出力関連装置は、情報の入力又は出力を行う入出力装置を含み、
前記アクセス時間は、前記CPUが前記リセット発行から前記入出力装置へアクセスするまでの時間である、
ことを特徴とする請求項5に記載の情報処理装置。
【請求項8】
前記入出力関連装置は、BIOSプログラムを記憶するBIOS記憶部と情報の入力又は出力を行う入出力装置とを含み、
前記アクセス時間は、前記CPUが前記リセット発行から前記BIOS記憶部へアクセスするまでのBIOSアクセス時間、及び前記入出力装置へアクセスするまでの入出力アクセス時間であり、
前記異常判定部は、BIOSアクセス時間について異常兆候の有無を判定し、異常兆候がない場合に、入出力アクセス時間について異常兆候の有無を判定する、
ことを特徴とする請求項5に記載の情報処理装置。
【請求項9】
前記トランザクション情報から前記CPUの障害の有無を検出するCPU障害検出部を備え、
前記異常兆候関連情報取得部は、前記初期化設定部を介して、前記初期化条件の一方の成分に対する前記所定値を、前記一方の成分に対応する前記適正値に設定し、前記初期設定情報の他方の成分に対する前記所定値を、前記他方の成分に対応する前記適正値からずらして設定して前記CPUを初期化したときに、前記同期判定部に同期ずれの有無を判定させ、同期ずれがあると判定された場合に、前記CPU障害検出部で検出される前記CPUの障害の有無に基づき前記CPUの同期動作からの切り離し有無を判定し、且つ、同期ずれがないと判定された場合に、前記CPUの同期動作からの切り離しはないと判定し、切り離しに関する両判定結果を前記異常兆候関連情報として取得する、
ことを特徴とする請求項3に記載の情報処理装置。
【請求項10】
前記異常判定部は、前記同期判定部で前記CPUの同期ずれがあると判定され、且つ前記CPU障害検出部で前記CPUの障害が検出されないとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する、
ことを特徴とする請求項9に記載の情報処理装置。
【請求項11】
前記異常兆候関連情報取得部は、前記適正値からずらすときのずらし値を正と負の値とし、前記ずらし値毎に前記異常兆候関連情報を取得し、
前記異常判定部は、前記ずらし値に対応して取得された前記異常兆候関連情報毎に、異常兆候の有無を判定する、
ことを特徴とする請求項9又は10に記載の情報処理装置。
【請求項12】
請求項1乃至11のいずれか1項に記載の少なくとも2台の情報処理装置で構成されることを特徴とする情報処理システム。
【請求項13】
他の情報処理装置の備える他のCPUと同期して動作するCPUと、記憶部と、情報の入力又は出力を行うために使用される入出力関連装置とを備える情報処理装置の異常兆候検出方法において、
初期化条件を設定し、該初期化条件で前記CPUの初期化を行う初期化設定ステップと、
同期動作時の前記CPUと前記入出力関連装置との間のトランザクションを監視し、トランザクション情報として取得するトランザクション監視ステップと、
前記他の情報処理装置との間で、前記トランザクション情報を送受信する通信ステップと、
前記情報処理装置及び前記他の情報処理装置のそれぞれの前記トランザクション情報に基づき前記CPUの同期ずれの有無を判定する同期判定ステップと、
所定の前記初期化条件で前記CPUを初期化した時の前記トランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得し、前記記憶部に格納する異常兆候関連情報取得ステップと、
前記初期化設定ステップで、前記CPUと前記他のCPUとが同期動作をするために設定された前記初期化条件である同期化設定条件で前記CPUを初期化した後、前記同期判定ステップで前記CPUの同期ずれがあると判定されたとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する異常判定ステップと、
を備えることを特徴とする情報処理装置の異常兆候検出方法。
【請求項14】
他のコンピュータの備える他のCPUと同期して動作するCPUと、記憶部と、情報の入力又は出力を行うために使用される入出力関連装置とを備えるコンピュータに、
初期化条件を設定し、該初期化条件で前記CPUの初期化を行う初期化設定ステップと、
同期動作時の前記CPUと前記入出力関連装置との間のトランザクションを監視し、トランザクション情報として取得するトランザクション監視ステップと、
前記他のコンピュータとの間で、前記トランザクション情報を送受信する通信ステップと、
前記コンピュータ及び前記他のコンピュータのそれぞれの前記トランザクション情報に基づき前記CPUの同期ずれの有無を判定する同期判定ステップと、
所定の前記初期化条件で前記CPUを初期化した時の前記トランザクション情報に基づき、異常兆候に関連する情報である異常兆候関連情報を取得し、前記記憶部に格納する異常兆候関連情報取得ステップと、
前記初期化設定ステップで、前記CPUと前記他のCPUとが同期動作をするために設定された前記初期化条件である同期化設定条件で前記CPUを初期化した後、前記同期判定ステップで前記CPUの同期ずれがあると判定されたとき、前記記憶部に格納されている前記異常兆候関連情報に基づき、前記CPUの異常兆候の有無を判定する異常判定ステップと、
を実行させることを特徴とする異常兆候検出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2013−45154(P2013−45154A)
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願番号】特願2011−180574(P2011−180574)
【出願日】平成23年8月22日(2011.8.22)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】