説明

コンピュータシステム及びCPUの再組み込み方法

【課題】障害が発生したCPUを再組み込みする際に、障害内容の分析結果に応じた障害再発予防処置を行うことで、再組み込みしたCPUの障害再発の可能性を低下させること。
【解決手段】CPU40に障害が発生した場合に、CPU40を切り離した後、再組み込みを行うコンピュータシステム1であって、CPU40に発生した障害の内容を分析し、障害内容の分析結果に応じた障害再発予防処置を行った後に、コンピュータシステム1に対してCPU40の再組み込みを行う診断部10を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はコンピュータシステム及びCPUの再組み込み方法に関し、特にCPUに障害が発生した場合に、当該CPUを切り離した後、再組み込みを行うコンピュータシステム及びCPUの再組み込み方法に関する。
【背景技術】
【0002】
スーパーコンピュータ等の大規模システムでは、CPU(Central Processing Unit)に障害が発生した場合には、該当CPUをシステムから切り離した後に初期化を行い、再度システムに組み込むという処理が行われている。
【0003】
関連する技術として、特許文献1乃至5には、CPU障害発生時におけるCPUの再組み込み方法や、その障害内容を分析する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平02−129730号公報
【特許文献2】特開平06−051864号公報
【特許文献3】特開平09−034852号公報
【特許文献4】特開平09−128258号公報
【特許文献5】特許2790204号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述したいずれの関連技術においても、障害が発生したCPUについて、その障害内容に対応した障害再発予防処置については開示されていない。このため、障害再発予防処置が行われずにCPUの初期化及び再組み込みがなされていたために、同一の障害が再発する可能性が高いという問題があった。
【課題を解決するための手段】
【0006】
本発明に係るコンピュータシステムは、CPUに障害が発生した場合に、当該CPUを切り離した後、再組み込みを行うコンピュータシステムであって、前記CPUに発生した障害の内容を分析し、当該障害内容の分析結果に応じた障害再発予防処置を行った後に、前記コンピュータシステムに対して前記CPUの再組み込みを行う診断部を備えるものである。
【0007】
また、本発明に係るCPUの再組み込み方法は、CPUに障害が発生した場合に、当該CPUをコンピュータシステムから切り離した後に、再組み込みを行うCPUの再組み込み方法であって、前記CPUに発生した障害の内容を分析するステップと、前記障害内容の分析結果に応じた障害再発予防処置を行うステップと、を有するものである。
【発明の効果】
【0008】
本発明によれば、障害が発生したCPUを再組み込みする際に、障害内容の分析結果に応じた障害再発予防処置を行うことで、再組み込みしたCPUの障害再発の可能性を低下させるコンピュータシステム及びCPUの再組み込み方法を提供することができる。
【図面の簡単な説明】
【0009】
【図1】実施の形態1に係るコンピュータシステムの構成を示すブロック図である。
【図2】実施の形態1に係るコンピュータシステムの動作例を示すフローチャート図である。
【図3】実施の形態1に係る設定電圧決定方法を説明するための図である。
【発明を実施するための形態】
【0010】
実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。図1は、本実施の形態1に係るコンピュータシステム1の構成を示すブロック図である。コンピュータシステム1は、診断プロセッサ10と、電源制御部20と、クロック制御部30と、CPU40_1〜CPU40_n(以下、CPU40と総称する場合がある。)と、MMU(Memory Management Unit)70と、冷却装置80とを備えている。
【0011】
診断部としての診断プロセッサ10は、組み込みソフトウェア11を有している。診断プロセッサ10は、診断パスを介してCPU40とMMU70の診断を行う。電源制御部20は、診断プロセッサ10、CPU40、MMU70、冷却装置80などに電源を供給する。クロック制御部30は、診断プロセッサ10、CPU40、MMU70、冷却装置80などに供給するクロックを制御する。
【0012】
CPU40_1〜CPU40_nは、各CPU40_1〜CPU40_nの温度を測定する温度センサ50_1〜温度センサ50_n(以下、温度センサ50と総称する場合がある。)と、各CPU40_1〜CPU40_nにBIST(Built In Self Test)を実行させるBIST60_1〜BIST60_n(以下、BIST60と総称する場合がある。)と、をそれぞれ有している。
【0013】
組み込みソフトウェア11は、後述するように、CPU40に障害が発生した場合に、該当CPU40をシステム1から切り離した後、その障害内容を分析して、障害内容に対応した障害再発予防処置を行う。また、組み込みソフトウェア11は、電源制御部20が供給する電源の電圧を変更することができる。さらに、組み込みソフトウェア11は、クロック制御部30が供給するクロックを変更することができる。
【0014】
組み込みソフトウェア11は、例えば、障害再発予防処置として、内部ロジック部分の遅延が原因の内部障害であると分析した場合には、該当CPU40に供給する電源の電圧を上昇させる処置を行う。これにより、障害内容に対応した効果的な障害再発予防処置を行うことができる。
【0015】
ここで、供給する電源の電圧を上昇させすぎた場合には、CPU40に温度障害を引き起こす可能性がある。このため、組み込みソフトウェア11は、CPU40に搭載した温度センサ50により温度状況を判断し、温度が所定の設定値に対して余裕がある場合には電圧を上昇させ、余裕がない場合には冷却を強化した後に電圧を上昇させるなどの対応を行うことで、より適切な障害再発予防処置を行うことできる。尚、後述するように、供給する電源の最適な電圧値は、電圧・温度の関係について予め調査を行い、当該調査結果に基づいて導出した値を設定する。
【0016】
また、組み込みソフトウェア11による他の障害再発予防処置としては、ノイズが原因の障害である場合には電圧を低下させる、インタフェースによる障害である場合にはクロックを低下させるなど、障害内容に対応した効果的な障害再発予防処置を行うことができる。
【0017】
さらにまた、障害再発予防処置を行う際には、予め設定されたモードに応じて、CPU40の性能を考慮した障害再発予防処置を行うことができる。ここで、モードとしては、i)CPU40の性能を落とさずに再組み込みを行う(性能が落ちる場合には切り離す)、ii)性能を落としても再組み込みを行う、iii)即、切り離しを行う等のモードが予め設定される。組み込みソフトウェア11は、これらのモードのうちからいずれかのモードを選択して処置を行う。
【0018】
続いて、図2に示すフローチャート図を参照して、システムの動作例について具体的に説明する。
【0019】
まず、CPU40に障害が発生した場合に、組み込みソフトウェア11は、CPU40の障害割込みを検出すると、該当CPU40をシステム1から切り離す(ステップS101)。次いで、組み込みソフトウェア11は、該当CPU40がシステム1に再組み込みが可能か否かを判断し(ステップS102)、再組み込みが可能である場合には、その障害内容を分析する(ステップS103)。尚、再組み込みが可能でない場合には、該当CPU40をシステム1から切り離して(ステップS119)、システム1の運転を継続する。
【0020】
ステップ103における障害内容の分析の結果、例えば、遅延が原因の障害であった場合(ステップS104でYesの場合)には、組み込みソフトウェア11は、該当CPU40についてBISTを実行し(ステップS105)、BIST実行時の温度を測定する(ステップS106)。次いで、組み込みソフトウェア11は、測定した温度を高負荷なJOBの実行時の温度へと変換し(ステップS107)、変換した温度に余裕があるか否かを判断する(ステップS108)。
【0021】
温度に余裕がある場合(ステップS108でYesの場合)には、組み込みソフトウェア11は、障害再発予防処置として、該当CPU40に供給する電源の電圧を上昇させる(ステップS109)。温度に余裕がない場合には、組み込みソフトウェア11は、さらに、該当CPU40の冷却の強化が可能であるか否かを判断し(ステップS111)、冷却が可能である場合(ステップS111でYesの場合)には、冷却を強化(ステップS112)した後、電圧を上昇させる(ステップS113)。次いで、組み込みソフトウェア11は、該当CPU40の初期化及び再組み込みを行い(ステップS110)、システム1の運転を継続する。
【0022】
また、ステップ103における障害内容の分析の結果、遅延が原因の障害でなく(ステップS104でNoの場合)、例えば、ノイズが原因の障害であった場合(ステップS114でYesの場合)には、組み込みソフトウェア11は、電圧を低下させ(ステップS115)、初期化及び再組み込みを行う(ステップS110)。
【0023】
ステップ103における障害内容の分析の結果、遅延が原因の障害でなく(ステップS104でNoの場合)、さらに、ノイズが原因の障害でなかった場合(ステップS114でNoの場合)には、組み込みソフトウェア11は、例えば、障害がインタフェース障害であるか否かを判断する(S116)。
【0024】
インタフェース障害であった場合(ステップS116でYesの場合)には、組み込みソフトウェア11は、さらに、設定されたモードが、例えば、システム1の性能低下を認めるモードであるか否かを判断する(ステップS117)。性能低下を認めるモードである場合(ステップS117でYesの場合)には、組み込みソフトウェア11は、CPU40のクロックを低下させ(ステップS118)、初期化及び再組み込みを行う(ステップS110)。尚、インタフェース障害でなかった場合(ステップS116でNoの場合)、または、設定されたモードがシステム1の性能低下を認めるモードでなかった場合(ステップS117でNoの場合)には、クロックを低下させずに、初期化及び再組み込みを行う(ステップS110)
【0025】
続いて、障害再発予防処置として電圧を上昇させる場合に、設定する電圧の決定方法について説明する。設定する電圧は、障害発生後に電圧を上昇させる際に、高負荷なJOBの実行時の温度が、温度障害が発生する温度以下となるように設定することが好ましい。また、各CPU40の温度上昇率には個体差があるため、高負荷なJOBの実行時の温度を推測する方法として、BISTを利用する。
【0026】
具体的には、まず、BIST実行時と高負荷JOB実行時における、CPU40の電圧及び温度の相関関係を予め調査しておく。調査した相関関係は、図示しない記憶部などに保持しておく。そして、組み込みソフトウェア11は、障害が発生した場合に、システム1から切り離されたCPU40に対してBISTを実行してCPU40の温度を測定する。さらに、組み込みソフトウェア11は、BISTの実行時に測定した温度を、予め調査して保持しておいた相関関係を用いて高負荷JOB実行時の温度へと変換し、変換した温度が温度障害を引き起こさない範囲となるように、電圧値を設定する。すなわち、障害が発生した場合にBISTを実行して、BIST実行時の温度から高負荷JOB実行時の温度を推定して設定電圧を決定することで、システム1を停止することなく、最適な電圧を設定することができる。
【0027】
図3を参照して、障害再発予防処置として電圧を上昇させる場合の設定電圧決定方法について具体的に説明する。図3は、予め調査しておいた、BIST実行時と高負荷JOB実行時における、CPU40の電圧及び温度の相関関係を示すグラフである。図3(a)は、温度上昇率がAである場合の例を示すグラフである。図3(b)は、温度上昇率がBである場合の例を示すグラフである。
【0028】
図3において、設定する電圧は、高負荷JOBの実行時の温度が、障害が発生する温度Tmax以下となるように設定することが好ましい。例えば、電圧V2でBISTを実行した際に測定温度が温度T2である場合には、図3(a)及び図3(b)から、該当CPU40の温度上昇率はAであるものと判断することができる。そして、この場合に、設定する電圧を電圧V4以上としては温度Tmaxを超えてしまうため、電圧V4より小さな電圧に設定することが好ましい。また例えば、電圧V2でBISTを実行した際に測定温度が温度T1である場合には、図3(a)及び図3(b)から、該当CPU40の温度上昇率はBであるものと判断することができる。そしてこの場合には、設定電圧として電圧V4を設定することができる。
【0029】
以上説明したように、本発明によれば、CPU40に障害が発生した場合に、CPU40に発生した障害の内容を分析し、障害内容の分析結果に応じた障害再発予防処置を行った後に、コンピュータシステム1に対してCPU40の再組み込みを行う診断部10を備えることで、再組み込みしたCPU40の障害再発の可能性を低下させることができる。
【0030】
尚、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0031】
1 コンピュータシステム、
10 診断プロセッサ、
11 組み込みソフトウェア、
20 電源制御部、
30 クロック制御部、
40_1〜40_n CPU、
50_1〜50_n 温度センサ、
60_1〜60_n BIST、
70 MMU、
80 冷却装置

【特許請求の範囲】
【請求項1】
CPU(Central Processing Unit)に障害が発生した場合に、当該CPUを切り離した後、再組み込みを行うコンピュータシステムであって、
前記CPUに発生した障害の内容を分析し、当該障害内容の分析結果に応じた障害再発予防処置を行った後に、前記コンピュータシステムに対して前記CPUの再組み込みを行う診断部を備える
コンピュータシステム。
【請求項2】
前記CPUに供給する電源の電圧を制御する電源制御部を更に備え、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合には、前記障害再発予防処置として、前記CPUに供給する電源の電圧を上昇させる
ことを特徴とする請求項1に記載のコンピュータシステム。
【請求項3】
前記CPUにBIST(Built In Self Test)を実行させるBIST部と、
前記CPUの温度を測定する温度測定部と、を更に備え、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合に、
前記CPUにBISTを実行させて温度を測定し、当該測定温度に基づいて、前記CPUに供給する電源の電圧を上昇させる際の電圧値を設定する
ことを特徴とする請求項2に記載のコンピュータシステム。
【請求項4】
前記CPUに供給する電源の電圧変化に対して、前記BIST実行時における前記CPUの温度変化と、高負荷なJOBの実行時における前記CPUの温度変化とを予め測定し、当該測定した前記CPUに供給する電源の電圧変化及び温度変化の相関関係を保持しておき、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合に、
前記CPUにBISTを実行させて温度を測定し、当該BIST実行時における測定温度を、前記保持した電源の電圧変化及び温度変化の相関関係を用いて前記高負荷なJOBの実行時における前記CPUの温度へと変換し、当該変換した温度が、前記CPUに障害が発生する所定の温度よりも小さな電圧値となるように、前記CPUに供給する電源の電圧を上昇させる際の電圧値を設定する
ことを特徴とする請求項3に記載のコンピュータシステム。
【請求項5】
前記CPUを冷却する冷却装置を更に備え、
前記診断部は、前記CPUに供給する電源の電圧を上昇させる際に、前記BIST実行時における測定温度が所定の設定値に対して余裕があるか否かを判断し、余裕がない場合には、前記CPUの冷却を強化した後、前記CPUに供給する電源の電圧を上昇させる
ことを特徴とする請求項2乃至4いずれか1項に記載のコンピュータシステム。
【請求項6】
前記CPUに供給する電源の電圧を制御する電源制御部を更に備え、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムのノイズが原因である場合には、前記障害再発予防処置として、前記CPUに供給する電源の電圧を低下させる
ことを特徴とする請求項1に記載のコンピュータシステム。
【請求項7】
前記CPUに供給するクロックを制御するクロック制御部を更に備え、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムのインタフェース障害である場合には、前記障害再発予防処置として、前記CPUに供給するクロックを低下させる
ことを特徴とする請求項1に記載のコンピュータシステム。
【請求項8】
前記CPUの再組み込みを行った場合の前記CPUの性能低下と、当該性能低下に応じた前記CPUの再組み込み又は切り離し処置との組合せにより定められたモードが予め設定され、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムのインタフェース障害である場合には、前記設定されたモードに応じて、前記CPUに供給するクロックを低下させるか否かを選択する
ことを特徴とする請求項7に記載のコンピュータシステム。
【請求項9】
CPU(Central Processing Unit)に障害が発生した場合に、当該CPUをコンピュータシステムから切り離した後に、再組み込みを行うCPUの再組み込み方法であって、
前記CPUに発生した障害の内容を分析するステップと、
前記障害内容の分析結果に応じた障害再発予防処置を行うステップと、
を有するCPUの再組み込み方法。
【請求項10】
前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合に、
前記障害再発予防処置を行うステップが、前記CPUに供給する電源の電圧を上昇させるステップを有する
ことを特徴とする請求項9に記載のCPUの再組み込み方法。
【請求項11】
前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合に、
前記障害再発予防処置を行うステップが、
前記CPUにBIST(Built In Self Test)を実行させて温度を測定するステップと、
前記測定温度に基づいて、前記CPUに供給する電源の電圧を上昇させる際の電圧値を設定するステップと、を有する
ことを特徴とする請求項10に記載のCPUの再組み込み方法。
【請求項12】
前記CPUに供給する電源の電圧変化に対して、前記BIST実行時における前記CPUの温度変化と、高負荷なJOBの実行時における前記CPUの温度変化とを予め測定し、当該測定した前記CPUに供給する電源の電圧変化及び温度変化の相関関係を保持するステップを更に有し、
前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合に、
前記障害再発予防処置を行うステップが、
前記CPUにBISTを実行させて温度を測定するステップと、
前記BIST実行時における測定温度を、前記保持した電源の電圧変化及び温度変化の相関関係を用いて前記高負荷なJOBの実行時における前記CPUの温度へと変換するステップと、
前記変換した温度が、前記CPUに障害が発生する所定の温度よりも小さな電圧値となるように、前記CPUに供給する電源の電圧を上昇させる際の電圧値を設定するステップと、を有する
ことを特徴とする請求項11に記載のCPUの再組み込み方法。
【請求項13】
前記障害再発予防処置を行うステップが、
前記CPUに供給する電源の電圧を上昇させる際に、前記BIST実行時における測定温度が所定の設定値に対して余裕があるか否かを判断するステップと、
前記判断の結果、余裕がない場合には、前記CPUの冷却を強化した後、前記CPUに供給する電源の電圧を上昇させるステップと、を有する
ことを特徴とする請求項10乃至12いずれか1項に記載のCPUの再組み込み方法。
【請求項14】
前記CPUに発生した障害が、前記コンピュータシステムのノイズが原因である場合には、
前記障害再発予防処置を行うステップが、
前記CPUに供給する電源の電圧を低下させるステップを有する
ことを特徴とする請求項9乃至13いずれか1項に記載のCPUの再組み込み方法。
【請求項15】
前記CPUに発生した障害が、前記コンピュータシステムのインタフェース障害である場合には、
前記障害再発予防処置を行うステップが、
前記CPUに供給するクロックを低下させるステップを有する
ことを特徴とする請求項9乃至14いずれか1項に記載のCPUの再組み込み方法。
【請求項16】
前記CPUの再組み込みを行った場合の前記CPUの性能低下と、当該性能低下に応じた前記CPUの再組み込み又は切り離し処置との組合せにより定められたモードが予め設定されるステップを更に有し、
前記CPUに発生した障害が、前記コンピュータシステムのインタフェース障害である場合には、
前記障害再発予防処置を行うステップが、
前記設定されたモードに応じて、前記CPUに供給するクロックを低下させるか否かを選択するステップを有する
ことを特徴とする請求項15に記載のCPUの再組み込み方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate