説明

情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラム

【課題】短時間に正確に再現試験を実施することが可能な仕組みを有する情報処理装置を提供する。
【解決手段】CPUモジュール100〜103、MMUモジュール200〜203と保守交換単位となるモジュールごとに分割して構成し、各モジュールそれぞれには不揮発性メモリを少なくとも備え、各モジュールの障害の有無を確認する動作を行う障害検出モードの動作と発生した障害の再現動作を行う障害再現モードの動作とを管理するサービスプロセッサ300は、障害検出モードの動作にて障害を検出した場合、障害再現モードにて必要とする各種の再現情報を採取して、障害再現試験情報として、障害被疑部位に特定したモジュール内の前記不揮発性メモリに保存し、障害再現モードの動作においては、障害被疑部位のモジュール内の前記不揮発性メモリに保存されている障害再現試験情報を参照することにより、障害検出時の動作環境を再現して、障害の再現試験を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラムに関する。
【背景技術】
【0002】
通常、情報処理装置は、CPU(Central Processing Unit)やメモリ等、保守交換単位となるモジュールごとに分割し、複数に分割したモジュールによって構成されている。そして、製造した情報処理装置を工場から出荷した後に、納入先の現地において、初期設置時に診断試験を実施して障害がないことを確認して、顧客に納入し、納入後においても、定期的な保守作業を実施して障害の有無を確認している。
【0003】
初期設置時や定期的な保守作業において、障害が検出された場合には、診断試験結果として、障害被疑部位のモジュールを特定し、特定した障害被疑部位のモジュールを正常なモジュールに交換するとともに、特定した障害被疑部位のモジュールを工場の保守部門に戻入する。
【0004】
工場の保守部門においては、例えば、特許文献1の特開2000−259455号公報「設備障害管理装置および設備障害管理方法並びに記録媒体」にも記載されているように、納入先において障害が検出された情報処理装置の構成と実装状況とを再現して、戻入されてきた障害被疑部位のモジュールを組み込んで、障害発生状況を示す情報として保存されている障害情報を用いて、障害の再現試験を実施し、戻入されてきたモジュールの障害を確認するようにしている。
【0005】
而して、納入先において発生した障害原因を分析し、情報処理装置の改良設計に反映したり、部品の選定作業を改善したりするなど、障害原因に応じた対策を講じるようにしている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2000−259455号公報(第4−5頁)
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、前記特許文献1に記載されているような障害再現技術においては、工場の保守部門において、納入先の現地における障害発生時の動作環境条件(例えば、動作電圧や温度等の条件)を取得していないので、現地の動作環境条件を忠実に再現することができなく、正確に障害を再現することができない。
【0008】
また、工場に戻入されてきた障害被疑部位のモジュールを用いて障害の再現試験を行う場合、再現試験用の情報処理装置の構成やモジュールの実装状態を納入先の情報処理装置と同一の状態に正しく構築しているか否かを人手で確認する以外に確認手段がないので、人為的なミスが混入したりして、やはり、正確に障害を再現することができない場合がある。
【0009】
あるいは、一般的な従来の情報処理装置における障害の再現試験環境においても、人手で、障害情報のログ解析や診断試験実行時のコンソール操作を行う必要があるため、人為的なミスが発生する可能性がある。また、再現作業には、人手と時間とが掛かってしまうため、短時間で、かつ、正確に、障害を再現することが困難である。
【0010】
本発明は、かかる問題に鑑みてなされたものであり、短時間に正確に再現試験を実施することが可能な仕組みを有する情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラムを提供することを、その目的としている。
【課題を解決するための手段】
【0011】
前述の課題を解決するため、本発明による情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラムは、主に、次のような特徴的な構成を採用している。
【0012】
(1)本発明による情報処理装置は、保守交換単位となるモジュールの障害の有無を確認し、障害が検出された場合、障害被疑部位の前記モジュールを特定する障害検出モードの動作と、障害被疑部位の前記モジュールに発生した障害の再現を行う障害再現モードの動作と、を少なくとも管理するサービスプロセッサを備えた情報処理装置であって、複数の前記モジュールそれぞれに不揮発性メモリを少なくとも備え、前記サービスプロセッサは、前記障害検出モードの動作において障害を検出した場合、前記障害再現モードの動作において必要とする各種の再現情報を採取して、障害再現試験情報として、障害被疑部位に特定された前記モジュール内に実装されている前記不揮発性メモリに保存し、前記障害再現モードの動作において、障害被疑部位の前記モジュール内の前記不揮発性メモリに保存されている前記障害再現試験情報を参照することにより、障害検出時の動作環境を再現して、障害の再現試験を行うことを特徴とする。
【0013】
(2)本発明による情報処理装置障害再現方法は、保守交換単位となるモジュールの障害の有無を確認し、障害が検出された場合、障害被疑部位の前記モジュールを特定する障害検出モードの動作と、障害被疑部位の前記モジュールに発生した障害の再現を行う障害再現モードの動作と、を少なくとも管理するサービスプロセッサを備えた情報処理装置における障害再現方法であって、複数の前記モジュールそれぞれに不揮発性メモリを少なくとも備え、前記サービスプロセッサは、前記障害検出モードの動作において障害を検出した場合、前記障害再現モードの動作において必要とする各種の再現情報を採取して、障害再現試験情報として、障害被疑部位に特定された前記モジュール内に実装されている前記不揮発性メモリに保存し、前記障害再現モードの動作において、障害被疑部位の前記モジュール内の前記不揮発性メモリに保存されている前記障害再現試験情報を参照することにより、障害検出時の動作環境を再現して、障害の再現試験を行うことを特徴とする。
【0014】
(3)本発明による情報処理装置障害再現プログラムは、少なくとも前記(2)に記載の情報処理装置障害再現方法を、コンピュータによって実行可能なプログラムとして実施していることを特徴とする。
【発明の効果】
【0015】
本発明の情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラムによれば、以下のような効果を奏することができる。
【0016】
第1の効果は、再現試験において必要とする各種の再現情報を、障害再現試験情報として、障害被疑部位となるモジュール内に実装されている不揮発性メモリに保存しているので、該モジュールを戻入してきた工場内において、障害検出時の情報処理装置と同一の環境に設定して、正確な再現試験を実施することができることにある。
【0017】
第2の効果は、障害被疑部位となるモジュール内に実装されている不揮発性メモリに保存した障害再現試験情報の読み出し動作から、再現試験用の情報処理装置の構成実装状態の確認、再現試験用の動作環境の設定、再現試験用の診断試験の実行、再現試験用の診断試験結果である障害情報(ログ情報)の採取と障害検出時の障害情報(ログ情報)との照合動作に至るまで、障害再現モードの各動作を自動的に行っているので、短時間に、かつ、正確に、再現試験を実行することができることにある。
【0018】
第3の効果は、納入先の現地への初期設置時や納入先における定期的な保守作業時のみならず、アプリケーションを使用している通常運用時に発生した障害についても、再現試験用の情報処理装置において障害発生時と同一の環境を再現して、再現試験を実施しているので、納入先における障害の再現の可能性をさらに高めることができることにある。
【図面の簡単な説明】
【0019】
【図1】本発明による情報処理装置のブロック構成の一例を示すブロック構成図である。
【図2】図1に示す情報処理装置を構成する各モジュール内の構成の一例を示す構成図である。
【図3】図1に示す情報処理装置の各モジュール例えばCPUモジュール内の不揮発性メモリに保存する、障害発生時における構成実装情報に関する情報の一例を示す説明図である。
【図4】図1に示す情報処理装置の各モジュール例えばCPUモジュール内の不揮発性メモリに保存する、障害発生時における動作環境条件に関する情報の一例を示す説明図である。
【図5】本発明による情報処理装置における障害検出モードの動作の一例を説明するためのフローチャートである。
【図6】本発明による情報処理装置における障害再現モードの動作の一例を説明するためのフローチャートである。
【発明を実施するための形態】
【0020】
以下、本発明による情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラムの好適な実施形態について添付図を参照して説明する。なお、以下の説明においては、本発明による情報処理装置および情報処理装置障害再現方法について説明するが、かかる情報処理装置障害再現方法をコンピュータにより実行可能な情報処理装置障害再現プログラムとして実施するようにしても良いし、あるいは、情報処理装置障害再現プログラムをコンピュータにより読み取り可能な記録媒体に記録するようにしても良いことは言うまでもない。
【0021】
(本発明の特徴)
本発明の実施形態の説明に先立って、本発明の特徴についてその概要をまず説明する。本発明は、保守交換単位となるモジュールごとに複数に分割して構成された情報処理装置の納入先において障害が発生した場合に、障害被疑部位となるモジュールが戻入されてきた工場内においても、納入先の現地において発生した障害を、短時間に、かつ、正確に再現することが可能な仕組みを実現するものであり、納入先の現地において障害検出モードとして障害の有無を確認するために実施した診断試験による障害の被疑部位の検出作業と、工場内において障害再現モードとして障害を再現するために実施する診断試験によって、納入先の現地において検出された障害を再現する作業との双方の作業を対象とし、納入先の現地において検出された障害を工場内において確実に再現することができる仕組みを実現することを特徴としている。
【0022】
従来の技術においては、前述したように、情報処理装置の納入先の現地における初期設置時に実施する診断試験や納入後に定期的に実施される保守作業時における診断試験において、障害の発生箇所と推定される障害被疑部位のモジュールの検出を行い、該障害被疑部位はモジュール単位で工場に戻入されてくるが、工場においては、障害を検出した現地の情報処理装置の構成と実装状況とを再現して、戻入されてきたモジュールを実装して、障害の再現試験を実施しても、動作環境条件が異なっていたり、構成やモジュールの実装状態が異なっていたり、あるいは、人為的なミス等が生じて、短時間にかつ正確に障害を再現することが困難であった。
【0023】
本発明においては、情報処理装置を構成する各モジュールに不揮発性メモリを備えるとともに、納入先の現地において障害の有無を確認するために実施される診断試験における障害検出時の障害情報(ログ情報)のみならず、再現試験に必要とする各種の再現情報(構成実装情報、動作環境条件、診断試験の試験情報等の情報)も含めて、障害再現試験情報として、保存し、かつ、保存した障害再現試験情報を、再現試験用として確実に利用することができ、誤って書き替えてしまうことがないように、不揮発性メモリの動作モードを障害検出モードから障害再現モードに切り替えることにしている。
【0024】
而して、工場内における障害の再現作業において、再現試験用の情報処理装置を、納入先の現地の情報処理装置の構成と実装状況と同一の構成実装状態に設定していることを確認する作業、納入先の現地において障害を検出した時点の動作環境条件と同一の動作環境に設定する作業、診断試験を実施する作業、再現試験時における診断試験において検出した障害情報と納入先の現地における障害情報(ログ情報)との照合結果から障害の再現を確認する作業までのすべての作業を自動的に行う仕組みを構築している。
【0025】
より具体的には、本発明においては、次のような仕組みを構築している。まず、保守交換単位となるモジュール単位に分割して、情報処理装置を複数のモジュールによって構成し、複数のモジュールそれぞれには、再現試験を行う際に必要となる各種再現情報を障害再現試験情報として保存しておくための不揮発性メモリを実装している。情報処理装置の納入先の現地に初期設置した時点および納入後においては定期的に診断試験が実施される。つまり、情報処理装置が起動される都度、正常に動作しているか否かを確認し、かつ、障害が検出された場合には障害の被疑部位を検出するための診断試験が自動的に実施される。
【0026】
障害が検出された場合には、当該障害が発生したと想定される障害被疑部位となるモジュールを特定し、当該障害に関する障害情報(ログ情報)のみならず、診断試験対象となっている当該情報処理装置の構成やモジュールの実装状況を示す構成実装情報、障害検出時の動作環境条件(温度や電源電圧等の情報処理装置が動作している環境条件)、障害検出時のテストパターンやテストシーケンスや作動タイミング等からなる診断試験の試験情報をも含めて、再現試験を行う際の障害再現試験情報として、障害被疑部位とされたモジュール内の不揮発性メモリに保存する。
【0027】
障害被疑部位として戻入されてきたモジュールを用いて、工場において障害の再現試験を行う場合には、該モジュール内の不揮発性メモリに障害再現試験情報として保存されている各種再現情報を読み出して、再現試験用の情報処理装置の構成とモジュールの実装状態の確認、障害検出時の動作環境条件の再現、障害検出時の診断試験の再現を自動的に行い、再現試験において採取した障害情報と不揮発性メモリに保存されている障害情報(ログ情報)とを自動的に照合することによって、再現試験において同一障害が検出されたか否かを確認する作業に至るまでの各作業を自動的に行う。
【0028】
かくのごとく、不揮発性メモリに保存されている障害再現試験情報を参照することにより、現地における障害検出時の動作環境と同一の動作環境を確実に構築して、障害検出時と同一の条件で診断試験を実施し、診断試験結果として採取した障害情報を現地で収集した障害情報(ログ情報)と自動的に照合して、障害の再現を自動的に確認する仕組みを有しているので、従来の再現試験のような人手による操作や確認を削減するとともに、人為的なミスの混入を防止することにより、短時間で正確に再現試験を実施することができる。
【0029】
(実施形態の構成例)
次に、本発明による情報処理装置および情報処理装置障害再現方法の実施形態について詳細に説明する。まず、図1と図2とを用いて、本発明による情報処理装置の構成例について説明する。図1は、本発明による情報処理装置障害再現システムに適用する情報処理装置のブロック構成の一例を示すブロック構成図であり、本情報処理装置においては、複数に分割した各モジュールに発生する障害を検出する動作や発生した障害の再現試験の動作を少なくとも管理するサービスプロセッサを備えるとともに、障害発生時において保守交換単位となるモジュールそれぞれには、再現試験を行う際に必要となる各種再現情報を障害再現試験情報として保存するための不揮発性メモリを少なくとも実装している。
【0030】
また、図2は、図1に示す情報処理装置を構成する各モジュール内の構成の一例を示す構成図であり、図1の情報処理装置内のCPUモジュール100内の構成例について、本発明の特徴として新たに実装する不揮発性メモリや温度センサに関する部位を中心に示している。
【0031】
図1の情報処理装置においては、主として、情報処理や数値計算等の演算処理を行うCPU(Central Processing Unit)を搭載した4個のCPUモジュール100〜103と、CPUそれぞれからのメモリアクセスを処理するMMU(Memory Management Unit)を搭載した4個のMMUモジュール200〜203とが、それぞれ、インターコネクト500〜503によって接続されている。
【0032】
また、CPUモジュール100〜103の各CPUとは独立して、当該情報処理装置の全体の管理を行うサービスプロセッサ300と、CPUモジュール100〜103とMMUモジュール200〜203とサービスプロセッサ300とに電源を供給する電源ユニット400とが、CPUインターフェース600〜603と、メモリインターフェース610〜613とによって、CPUモジュール100〜103とMMUモジュール200〜203とに、それぞれ、バス接続されている。
【0033】
なお、図1には図示していないが、電源ユニット400は、CPUモジュール100〜103、MMUモジュール200〜203、サービスプロセッサ300の各モジュールへ供給しているそれぞれの電源電圧の電圧値を検知する電圧センサを含み、サービスプロセッサ300から電源ユニット400の電圧センサにアクセスして、各モジュールの電源電圧値を読み取ることができる。また、サービスプロセッサ300から電源ユニット400へアクセスすることにより、CPUモジュール100〜103、MMUモジュール200〜203、サービスプロセッサ300の各モジュールへ供給する電源電圧の電圧値を制御することも可能である。
【0034】
また、図1には図示していないが、再現試験用に用いる情報処理装置には、さらに、冷却ファンやヒーター回路を内蔵しており、再現試験時の動作環境条件の一つであるモジュールの温度を、障害検出時の温度に調整することができる。なお、電源ユニット400から各モジュールに電源として供給する電圧値を検知する電圧センサは、電源ユニット400側ではなく、CPUモジュール100〜103、MMUモジュール200〜203、サービスプロセッサ300の各モジュール側に配置するようにしても良い。
【0035】
次に、図1に示す情報処理装置を構成する各モジュール内の構成例について、図1のCPUモジュール100を例にとって図2を用いて説明する。
【0036】
図2に示すように、図1の情報処理装置内のCPUモジュール100内には、CPUモジュール100として通常の演算処理を行うためのCPU100aの他に、障害再現試験情報として各種再現情報を保存するための不揮発性メモリ100bおよび当該CPUモジュール100内の温度を検知する温度センサ100cとを少なくとも備えており、インターフェース制御部100dを介して、それぞれ、外部のモジュールとの間で情報の送受信を行い、外部から制御を行うことを可能としている。
【0037】
つまり、CPU100aは、インターフェース100iを介して、インターフェース制御部100dに接続されており、CPUインターフェース600を介して電源ユニット400からの電源供給を受け、インターコネクト500を介して外部のMMUモジュール200に対してメモリアクセスを行うことにより演算処理を行うとともに、サービスプロセッサ300との間で情報交換を行うことを可能としている。
【0038】
また、不揮発性メモリ100b、温度センサ100cは、それぞれ、インターフェース100j、インターフェース100kを介して、インターフェース制御部100dに接続されており、CPUインターフェース600を介して電源ユニット400からの電源供給をそれぞれ受けるとともに、サービスプロセッサ300との間でそれぞれ情報交換を行い、外部から制御を行うことを可能としている。
【0039】
なお、CPUモジュール100以外のその他のモジュールすなわちCPUモジュール101〜103、MMUモジュール200〜203の各モジュールについても、全く同様の回路構成を採用しており、それぞれに、各モジュールの機能を実現するための回路部の他に、障害再現試験情報として各種再現情報を保存するための不揮発性メモリおよび内部温度を検知する温度センサとを少なくとも備えており、インターフェース制御部を介して、それぞれ、外部のモジュールとの間で情報の送受信を行い、外部から制御を行うことを可能としている。
【0040】
次に、図2に示したCPUモジュール100内の不揮発性メモリ100bに障害再現試験情報として保存される各種再現情報のうち、障害発生時における構成実装情報として、各モジュールの構成情報と実装情報とに関する情報と、障害発生時における動作環境条件として、温度センサ100cによって検知される障害発生時のCPUモジュール100内の温度および電源ユニット400から供給される障害発生時のCPUモジュール100の電源の電圧値に関する情報と、のそれぞれについて、その一例を、図3と図4とを用いて、説明する。
【0041】
図3は、図1に示す情報処理装置の各モジュール例えばCPUモジュール100内の不揮発性メモリ100bに保存する、障害発生時における構成実装情報に関する情報の一例を示す説明図であり、各モジュールの構成情報と実装情報とに関する情報が2バイトの情報量からなっている例を示している。
【0042】
図3に示す例においては、不揮発性メモリ100bに保存する各モジュールの構成実装情報に関する情報が、各モジュールに関する構成情報と実装情報とからなっており、不揮発性メモリ100b内の構成実装情報用の保存領域の第0ビット目から第15ビット目までに保存される。
【0043】
図3に示すように、構成実装情報用の保存領域内の第0ビット目から第7ビット目までの8ビットには、4個のCPUモジュール100〜103の構成実装情報が保存され、第8ビット目から第15ビット目までの8ビットには、4個のMMUモジュール200〜203の構成実装情報が保存される。
【0044】
例えば、ビット位置11aおよび項目11bに示すように、第0ビットと第1ビットとの組み合わせ([1:0])は、CPUモジュールの実装位置を示しており、値11cに示すように、第1ビット、第0ビットの値が"0b00"の場合は、ソケット(Socket)0としてCPUモジュール100が実装されることを示している。
【0045】
また、第2ビットと第3ビットとの組み合わせ([3:2])は、CPUモジュールに実装されるCPUの種類を示しており、値11cに示すように、第3ビット、第2ビットの値が"0b00"の場合は、リビジョン番号がRev.AのCPUであることを示している。
【0046】
また、第4ビット〜第7ビットのそれぞれは、CPUモジュール100〜103それぞれの状態を示しており、値11cに示すように、第4ビット目が"0"の場合は、CPUモジュール100が無効の状態にあり、"1"の場合は、CPUモジュール100が有効の状態にあることを示している。
【0047】
MMUモジュールの場合も同様であり、例えば、ビット位置11aおよび項目11bに示すように、第8ビットと第9ビットとの組み合わせ([9:8])は、MMUモジュールの実装位置を示しており、値11cに示すように、第9ビット、第8ビットの値が"0b00"の場合は、ソケット(Socket)0としてMMUモジュール200が実装されることを示している。
【0048】
また、第10ビットと第11ビットとの組み合わせ([11:10])は、MMUモジュールに実装されるメモリを構成するDIMM(Dual Inline Memory Module)の種類を示しており、値11cに示すように、第11ビット、第10ビットの値が"0b00"の場合は、RDIMM(Registered Long DIMM)であることを示している。
【0049】
また、第12ビット〜第15ビットのそれぞれは、MMUモジュール200〜203それぞれの状態を示しており、値11cに示すように、第12ビット目が"0"の場合は、MMUモジュール200が無効の状態にあり、"1"の場合は、MMUモジュール200が有効の状態にあることを示している。
【0050】
図4は、図1に示す情報処理装置の各モジュール例えばCPUモジュール100内の不揮発性メモリ100bに保存する、障害発生時における動作環境条件に関する情報の一例を示す説明図であり、障害発生時において各モジュールが置かれている動作環境条件に関して、温度センサ100cによって検知される温度と電源ユニット400から供給される電源の電圧値とに関する情報が2バイトの情報量からなっている例を示している。
【0051】
図4に示す例においては、不揮発性メモリ100bに保存する各モジュールの動作環境条件に関する情報が、各モジュールの温度に関する情報と電源電圧値に関する情報とからなっており、不揮発性メモリ100b内の動作環境条件用の保存領域の第0ビット目から第15ビット目までに保存される。
【0052】
図4に示すように、動作環境条件用の保存領域内の第0ビット目から第7ビット目までの8ビットには、温度に関する情報が保存され、第8ビット目から第15ビット目までの8ビットには、電源電圧値に関する情報が保存される。
【0053】
例えば、ビット位置12aおよび項目12bに示すように、第0ビット〜第7ビットまでの領域([7:0])には、障害発生時における各モジュール内の温度が、値12cに示すように、0℃〜255℃の範囲内の2進数表現で保存される。
【0054】
また、ビット位置12aおよび項目12bに示すように、第8ビット〜第15ビットまでの領域([15:8])には、障害発生時において電源ユニット400から供給されている各モジュールの電源の電圧値が、値12cに示すように、0.01V刻みで0V〜2.55Vまでの範囲内の2進数表現で保存される。
【0055】
情報処理装置が納入された納入先の現地において、図1に示す情報処理装置のサービスプロセッサ300の制御の下、当該情報処理装置の診断試験を実施する都度、サービスプロセッサ300において、CPUモジュール100〜103とMMUモジュール200〜203との各モジュールそれぞれにアクセスして、それぞれのモジュール内に搭載されているCPUとMMUとに関する情報を採取して、障害発生時における各モジュールの構成実装情報に関する情報として、図3に例示するようなフォーマットに編集する。
【0056】
同様に、図1に示すサービスプロセッサ300は、診断試験結果として或るモジュールを障害被疑部位として検出した際に、CPUモジュール100〜103とMMUモジュール200〜203とに搭載されている温度センサと、電源ユニット400に実装されている電圧センサとにそれぞれアクセスして、障害検出時の障害被疑部位となるモジュールの温度と電源ユニット400から当該モジュールに供給している電源の電圧値とを少なくとも採取して、障害発生時における各モジュールの動作環境条件に関する情報として、図4に例示するようなフォーマットに編集する。
【0057】
(実施形態の動作の説明)
次に、図1、図2に示した情報処理装置の動作について、その一例を、図5と図6とに示すフローチャートを用いて詳細に説明する。図5は、本発明による情報処理装置における障害検出モードの動作の一例を説明するためのフローチャートであり、納入先に初期設定した際に実施する診断試験並びに納入後において保守作業として定期的に実施する診断試験において、障害の発生の有無を確認し、障害が発生した場合に、障害が発生したと想定される障害被疑部位のモジュールを特定するとともに、障害の再現試験に必要とする各種再現情報を、障害再現試験情報として収集する動作の一例を示している。
【0058】
また、図6は、本発明による情報処理装置における障害再現モードの動作の一例を説明するためのフローチャートであり、図5の障害検出モードにおいて障害再現試験情報として収集した各種再現情報に基づいて、納入先において障害が発生した情報処理装置の構成および実装状態と同一の状態を再現して、納入先における診断試験と同一の診断試験を再現試験として実施することによって、障害が再現するか否かを確認する動作の一例を示している。
【0059】
まず、図5に示す障害検出モード動作のフローチャートを用いて、障害が発生した場合の障害被疑部位となるモジュールを特定するとともに、再現試験において必要となる障害再現試験情報を収集する動作について、その一例を説明する。
【0060】
図5のフローチャートにおいて、情報処理装置を起動すると(ステップS100)、診断対象となる各モジュール内に実装されている不揮発性メモリのモード情報(例えば、診断対象のモジュールが、図2に示すCPUモジュール100の場合には、不揮発性メモリ100bに設定されているモード情報)を読み込み、障害検出モードか否かを判定する(ステップS101)。納入先において障害の有無を確認するために診断試験の実施を指示する障害検出モードの動作を指定している場合には(ステップS101のYES)、ステップS102へと進み、そうでない場合には(ステップS101のNO)、工場内において納入先で発生した障害を再現するために再現試験の実施を指示する障害再現モードの動作を指定している場合であり、図6に示す障害再現モード(障害再現試験)の動作に移行する(ステップS200)。
【0061】
障害検出モードであった場合には(ステップS101のYES)、図1に示すサービスプロセッサ300において、診断対象となるCPUモジュール100〜103とMMUモジュール200〜203との各モジュールそれぞれにアクセスして、それぞれのモジュール内に搭載されている各CPUと各MMUとに関する構成情報と実装情報とを構成実装情報として採取する(ステップS102)。
【0062】
しかる後、サービスプロセッサ300は、採取した構成実装情報に基づいて、障害被疑部位を検出するための診断試験のメニューを作成するとともに(ステップS103)、各モジュールに関するテストパターンやテストシーケンスや作動タイミング等の診断試験の試験情報を採取する(ステップS104)。サービスプロセッサ300は、採取した試験情報に基づいて、各モジュールの診断試験を実行して(ステップS105)、診断対象の各モジュールについて、診断試験結果として障害を検出したか否かを判定する(ステップS106)。
【0063】
障害を検出した場合は(ステップS106のYES)、ステップS300へと進むが、障害を検出しなかった場合は(ステップS106のNO)、ステップS107へと進み、最後の診断試験まで実施したか否かを確認する(ステップS107)。最後の診断試験まで実施した場合には(ステップS107のYES)、診断対象の情報処理装置の各モジュールは正常に動作しているものと判定して、障害検出モードにおける動作を終了する(ステップS108)。一方、最後の診断試験まで実施していなかった場合には(ステップS107のNO)、次の診断試験へと進む処理を行った後(ステップS400)、ステップS103に戻って、次の診断試験の作成を行う動作を繰り返す。
【0064】
ステップS106において障害を検出した場合は(ステップS106のYES)、サービスプロセッサ300は、障害被疑部位となるモジュールを特定するとともに、当該モジュールに搭載されている温度センサと、電源ユニット400に実装されている電圧センサとにそれぞれアクセスして、当該モジュールの温度と電源ユニット400から当該モジュールに供給している電源の電圧値とを採取して、障害発生時における当該モジュールの動作環境条件に関する情報として採取する(ステップS300)。さらに、特定した障害被疑部位となるモジュールに関する障害情報(ログ情報)として、少なくとも障害の検出箇所と種別とからなる情報を採取する(ステップS301)。
【0065】
しかる後、サービスプロセッサ300は、採取した各種の情報(構成実装情報、動作環境条件、診断試験の試験情報、障害情報(ログ情報)等に関する情報)を、再現試験において必要とする各種の再現情報(すなわち障害再現試験情報)として編集して、障害被疑部位と推定されるモジュール内に実装されている不揮発性メモリの所定の領域に保存する(ステップS302)。
【0066】
さらに、障害被疑部位と推定されるモジュール内の不揮発性メモリに保存した障害再現試験情報が書き換えられないように、当該モジュール内の不揮発性メモリに設定されている動作モードを、障害検出モードから障害再現モードに書き換えた後、当該モジュールを正常なモジュールと交換する(ステップS303)。かかる処理が実施されると、診断対象の情報処理装置において障害が発生している障害被疑部位のモジュールが検出された旨をコンソール画面に表示して、障害検出モードにおける動作を終了する(ステップS108)。
【0067】
次に、図6に示す障害再現モード動作のフローチャートを用いて、納入先の現地で実施した診断試験結果として検出された障害を再現するために、工場内において実施される再現試験の動作について、その一例を説明する。
【0068】
図6のフローチャートにおいて、納入先の現地から障害被疑部位とされたモジュールが戻入されてきたとき、オペレータは、工場に戻入されてきた障害被疑部位のモジュール内に実装されている不揮発性メモリ内に保存されている障害発生時の構成実装情報(構成情報と実装情報)を読み出して、再現試験用として工場内に設置されている情報処理装置の構成とモジュールの実装状態とを、障害発生時の情報処理装置の構成とモジュールの実装状態と同一の状態に設定する(ステップS500)。なお、納入先の現地から戻入された障害被疑部位のモジュール(例えばCPUモジュール100)は、再現試験用の情報処理装置の同一モジュールと差し替えられて、再現試験用の情報処理装置に実装されているので、該モジュール内の不揮発性メモリに保存されている情報は、サービスプロセッサ300によって読み取られて、コンソール画面上に画面表示することができる。
【0069】
しかる後、障害再現用として情報処理装置を起動すると(ステップS501)、障害被疑部位として診断対象とされたモジュール内に実装されている不揮発性メモリのモード情報(例えば、診断対象のモジュールが、図2に示すCPUモジュール100の場合には、不揮発性メモリ100bに設定されているモード情報)を読み込み、障害再現モードか否かを判定する(ステップS502)。
【0070】
図5のフローチャートにおいて説明したように、納入先の現地における障害検出モードの診断試験において障害を検出して、該動作モードを障害再現モードに切り替えていた場合には(ステップS502のYES)、工場内において納入先で発生した障害を再現するために再現試験の実施を指示している場合であり、ステップS503へと進み、そうでない場合には(ステップS502のNO)、納入先の現地において障害の有無を確認するために診断試験を実施すべき障害検出モードの動作を指示している場合であり、図5に示す障害検出モード(障害有無の確認用の診断試験)の動作に移行する(ステップS600)。
【0071】
障害再現モードであった場合には(ステップS502のYES)、図1に示すサービスプロセッサ300により、診断対象となる障害被疑部位のモジュール内の不揮発性メモリ(例えばCPUモジュール100の不揮発性メモリ100b)の所定の領域に保存されている障害再現試験情報を読み出す(ステップS503)。該障害再現試験情報は、図5において前述したように、再現試験において必要とする各種の再現情報(構成実装情報、動作環境条件、診断試験の試験情報、障害情報(ログ情報)等に関する情報)として、納入先の現地における障害検出モードの動作において障害被疑部位のモジュール内の不揮発性メモリ(例えばCPUモジュール100の不揮発性メモリ100b)に設定されている。
【0072】
しかる後、サービスプロセッサ300は、読み出した障害再現試験情報に含まれている構成実装情報と、ステップS500においてオペレータが設定した再現試験用の情報処理装置の構成とモジュールの実装状態が一致しているか否かを確認する(ステップS504)。一致していた場合には(ステップS504のYES)、再現試験用の情報処理装置として構成およびモジュールの実装状態が正しく構築されている場合であり、ステップ505へと進む。
【0073】
一方、一致していなかった場合は(ステップS504のNO)、ステップ700へと進んで、再現試験用の情報処理装置の構成または実装状況が、障害が検出された情報処理装置の構成または実装状況を再現していない旨をコンソール画面上に画面表示して、オペレータに通報した後(ステップS700)、情報処理装置を再現試験用として正しく構築させるために、ステップS500へ復帰する。
【0074】
再現試験用の情報処理装置が正しく構築されているものとして、ステップ505へと進むと、サービスプロセッサ300は、読み出した障害再現試験情報に含まれている動作環境条件(すなわち、障害発生時の温度、供給された電源電圧値等)と同じ動作環境に設定されるように、障害被疑部位である診断対象のモジュール(例えばCPUモジュール100)の温度や電源ユニット400から供給される電源の電圧値を調整する(ステップS505)。すなわち、サービスプロセッサ300は、冷却ファンの回転数やヒーター回路の電流値を制御して、診断対象のモジュール(例えばCPUモジュール100)の温度を調整し、かつ、電源ユニット400を制御して、電源ユニット400からの供給電圧を調整する。
【0075】
読み出した障害再現試験情報に含まれている動作環境条件と同じ動作環境に設定されると、サービスプロセッサ300は、読み出した障害再現試験情報に含まれている診断試験の試験情報を再現して、診断対象とする障害被疑部位のモジュールに関する診断試験を実行して(ステップS506)、診断試験結果として障害を検出したか否かを判定する(ステップS507)。
【0076】
障害を検出した場合は(ステップS507のYES)、ステップS507へと進むが、障害を検出しなかった場合は(ステップS507のNO)、ステップS800へと進み、再現試験においては、障害が再現しなかった旨をコンソール画面に画面表示して、オペレータに通知した後(ステップS800)、再現試験には失敗したものと判定して、障害再現モードにおける動作を終了する(ステップS511)。
【0077】
ステップS507において障害を検出した場合は(ステップS507のYES)、サービスプロセッサ300は、障害被疑部位のモジュールに関する障害の検出箇所と種別とを示す障害情報(ログ情報)を採取し(ステップS508)、障害再現モードにおいて採取した障害情報(ログ情報)が、読み出した障害再現試験情報に含まれている障害検出モードにおける障害情報(ログ情報)と一致しているか否かを確認する(ステップS509)。
【0078】
障害再現モードにおいて採取した障害情報(ログ情報)が障害検出モードにおける障害情報(ログ情報)と一致していた場合には(ステップS509のYES)、納入先の現地における障害検出モードの診断試験において検出された障害が、障害再現モードの診断試験においても再現されたものと判定して、障害が再現された旨をコンソール画面に画面表示して、オペレータに通知した後(ステップS510)、再現試験に成功したものと判定して、障害再現モードにおける動作を終了する(ステップS511)。
【0079】
一方、障害再現モードにおいて採取した障害情報(ログ情報)が障害検出モードにおける障害情報(ログ情報)に一致していなかった場合には(ステップS509のNO)、障害再現モードの診断試験においては、障害が検出されたものの、納入先の現地における障害検出モードの診断試験において検出された障害とは異なる新規の障害が検出されたものと判定して、再現試験において新規の障害が検出された旨をコンソール画面に画面表示して、オペレータに通知した後(ステップS510)、再現試験にて異なる障害要因がさらに発生しているものと判定して、障害再現モードにおける動作を終了する(ステップS511)。
【0080】
以上のような障害検出モードにおける動作は、前述したように、納入先の現地における情報処理装置の初期設置時や定期的な保守作業における診断試験の場合を想定している。しかし、本発明はかかる場合に限るものではない。例えば、アプリケーションを使用している通常運用時において動作が異常になった時点で、各モジュールの障害の有無を確認するために診断試験を実行するようにしても良い。かくのごとく、アプリケーションの動作異常時に実施した診断試験において検出した障害についても、同様に、再現試験において必要とする各種の再現情報(構成実装情報、動作環境条件、診断試験の試験情報、障害情報(ログ情報)等に関する情報)を、障害再現試験情報として採取して、工場内における障害再現モードにおける動作に利用することによって、障害の再現の可能性を高めることができる。
【0081】
(実施形態の効果の説明)
以上に詳細に説明したように、本実施形態においては、以下に記載するような効果を得ることができる。
【0082】
第1の効果は、再現試験において必要とする各種の再現情報を、障害再現試験情報として、障害被疑部位となるモジュール内に実装されている不揮発性メモリに保存しているので、該モジュールを戻入してきた工場内において、障害検出時の情報処理装置と同一の環境に設定して、正確な再現試験を実施することができることにある。
【0083】
第2の効果は、障害被疑部位となるモジュール内に実装されている不揮発性メモリに保存した障害再現試験情報の読み出し動作から、再現試験用の情報処理装置の構成実装状態の確認、再現試験用の動作環境の設定、再現試験用の診断試験の実行、再現試験用の診断試験結果である障害情報(ログ情報)の採取と障害検出時の障害情報(ログ情報)との照合動作に至るまで、障害再現モードの各動作を自動的に行っているので、短時間に、かつ、正確に、再現試験を実行することができることにある。
【0084】
第3の効果は、納入先の現地への初期設置時や納入先における定期的な保守作業時のみならず、アプリケーションを使用している通常運用時に発生した障害についても、再現試験用の情報処理装置において障害発生時と同一の環境を再現して、再現試験を実施しているので、納入先における障害の再現の可能性をさらに高めることができることにある。
【0085】
以上、本発明の好適な実施形態の構成を説明した。しかし、かかる実施形態は、本発明の単なる例示に過ぎず、何ら本発明を限定するものではないことに留意されたい。本発明の要旨を逸脱することなく、特定用途に応じて種々の変形変更が可能であることが、当業者には容易に理解できよう。
【0086】
例えば、上述の実施の形態では、図2に示すように、CPUモジュール100では温度センサ100cがCPU100aとは別に設けてある。しかしながら、本発明では、CPU100aが予め温度センサを内蔵しているときは、温度センサ100cに代えて、その内蔵の温度センサで以ってCPUモジュール100の温度を検知するようにしても差し支えない。そして、このようにCPU100aに内蔵されている温度センサによりCPUモジュール100の温度を検知するときは、サービスプロセッサ300はインターフェース100iを介してCPU100a内蔵の温度センサの温度を取得できるので、インターフェース100kは不要となる。同様に、情報処理装置内の他のモジュールについても、そのモジュール内の素子に予め温度センサが内蔵されており、サービスプロセッサ300がその内蔵温度センサにアクセスできる構成であれば、格別な温度センサを設けることは必要でない。
【0087】
また、上述の実施の形態では、情報処理装置には冷却ファンやヒーター回路を内蔵しており、再現試験においては、サービスプロセッサ300は、診断対象のモジュール(例えばCPUモジュール100)の温度が、読み出した障害再現試験情報に含まれている障害発生時の温度に設定されるように、冷却ファンの回転数やヒーター回路の電流値を制御した。しかしながら、本発明では、再現試験における情報処理装置の温度調整のために冷却ファンやヒーター回路をその情報処理装置に内蔵することは必ずしも必要ではなく、診断対象のモジュールにおけるCPUモジュール(例えば、CPUモジュール100)に負荷プログラムを実行させ、或いはその情報処理装置における診断対象のモジュール以外のモジュールにおけるCPUモジュールにも負荷プログラムを実行させ、その診断対象のモジュールにおけるCPUモジュールの温度を障害発生時の温度に調整するようにしても差し支えない。
【符号の説明】
【0088】
11a ビット位置
11b 項目
11c 値
12a ビット位置
12b 項目
12c 値
100 CPUモジュール
100a CPU100a
100b 不揮発性メモリ
100c 温度センサ
100d インターフェース制御部
101 CPUモジュール
102 CPUモジュール
103 CPUモジュール
200 MMUモジュール
201 MMUモジュール
202 MMUモジュール
203 MMUモジュール
300 サービスプロセッサ
400 電源ユニット
500 インターコネクト
501 インターコネクト
502 インターコネクト
503 インターコネクト
600 CPUインターフェース
601 CPUインターフェース
602 CPUインターフェース
603 CPUインターフェース
610 メモリインターフェース
611 メモリインターフェース
612 メモリインターフェース
613 メモリインターフェース

【特許請求の範囲】
【請求項1】
保守交換単位となるモジュールの障害の有無を確認し、障害が検出された場合、障害被疑部位の前記モジュールを特定する障害検出モードの動作と、障害被疑部位の前記モジュールに発生した障害の再現を行う障害再現モードの動作と、を少なくとも管理するサービスプロセッサを備えた情報処理装置において、複数の前記モジュールそれぞれに不揮発性メモリを少なくとも備え、前記サービスプロセッサは、前記障害検出モードの動作において障害を検出した場合、前記障害再現モードの動作において必要とする各種の再現情報を採取して、障害再現試験情報として、障害被疑部位に特定された前記モジュール内に実装されている前記不揮発性メモリに保存し、前記障害再現モードの動作において、障害被疑部位の前記モジュール内の前記不揮発性メモリに保存されている前記障害再現試験情報を参照することにより、障害検出時の動作環境を再現して、障害の再現試験を行うことを特徴とする情報処理装置。
【請求項2】
前記障害再現試験情報は、前記障害検出モードの動作における障害の発生状況のログ情報を示す障害情報のみならず、前記障害検出モードの動作における障害被疑部位の前記モジュールの動作環境条件を示す情報を少なくとも含んで構成されていることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記動作環境条件を示す情報として、障害検出時における障害被疑部位の前記モジュール内の温度を示す情報、および、障害検出時における障害被疑部位の前記モジュールに供給されている電源電圧値を少なくとも含むことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記障害再現試験情報は、前記障害検出モードの動作における構成と前記モジュールの実装状態とを示す構成実装情報と、障害検出時の診断試験の試験情報とをさらに含んで構成されていることを特徴とする請求項2または3に記載の情報処理装置。
【請求項5】
保守交換単位となるモジュールの障害の有無を確認し、障害が検出された場合、障害被疑部位の前記モジュールを特定する障害検出モードの動作と、障害被疑部位の前記モジュールに発生した障害の再現を行う障害再現モードの動作と、を少なくとも管理するサービスプロセッサを備えた情報処理装置における障害再現方法であって、複数の前記モジュールそれぞれに不揮発性メモリを少なくとも備え、前記サービスプロセッサは、前記障害検出モードの動作において障害を検出した場合、前記障害再現モードの動作において必要とする各種の再現情報を採取して、障害再現試験情報として、障害被疑部位に特定された前記モジュール内に実装されている前記不揮発性メモリに保存し、前記障害再現モードの動作において、障害被疑部位の前記モジュール内の前記不揮発性メモリに保存されている前記障害再現試験情報を参照することにより、障害検出時の動作環境を再現して、障害の再現試験を行うことを特徴とする情報処理装置障害再現方法。
【請求項6】
前記障害再現試験情報は、前記障害検出モードの動作における障害の発生状況のログ情報を示す障害情報のみならず、前記障害検出モードの動作における障害被疑部位の前記モジュールの動作環境条件を示す情報を少なくとも含んで構成されていることを特徴とする請求項5に記載の情報処理装置障害再現方法。
【請求項7】
前記動作環境条件を示す情報として、障害検出時における障害被疑部位の前記モジュール内の温度を示す情報、および、障害検出時における障害被疑部位の前記モジュールに供給されている電源電圧値を少なくとも含むことを特徴とする請求項6に記載の情報処理装置障害再現方法。
【請求項8】
前記障害再現試験情報は、前記障害検出モードの動作における構成と前記モジュールの実装状態とを示す構成実装情報と、障害検出時の診断試験の試験情報とをさらに含んで構成されていることを特徴とする請求項6または7に記載の情報処理装置障害再現方法。
【請求項9】
前記障害再現モードの動作において、障害被疑部位の前記モジュールを実装した際の再現試験用の構成と前記モジュールの実装状態とを、前記障害検出モードの動作時と同一の状態に構成した際に、前記サービスプロセッサは、前記モジュール内の前記不揮発性メモリに保存されている前記障害再現試験情報の中の前記構成実装情報を読み取り、再現試験用の構成と実装状態が前記構成実装情報と一致しているか否かを確認し、一致している場合、前記障害再現試験情報の中の前記動作環境条件を読み取って、該動作環境条件と同一の動作環境を自動的に再現した後、前記障害再現試験情報の中の前記試験診断の試験情報を読み取って、前記障害検出モードの障害検出時と同一の診断試験を実施して、診断試験結果として前記障害再現試験情報の中の前記障害情報と同一の障害情報が得られたか否かを確認することにより、前記障害検出モードの動作時において検出された障害が再現されたか否かを判別することを特徴とする請求項8に記載の情報処理装置障害再現方法。
【請求項10】
請求項5ないし9のいずれかに記載の情報処理装置障害再現方法を、コンピュータによって実行可能なプログラムとして実施していることを特徴とする情報処理装置障害再現プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−128489(P2012−128489A)
【公開日】平成24年7月5日(2012.7.5)
【国際特許分類】
【出願番号】特願2010−276893(P2010−276893)
【出願日】平成22年12月13日(2010.12.13)
【出願人】(000168285)エヌイーシーコンピュータテクノ株式会社 (572)
【Fターム(参考)】