説明

情報処理装置、障害解析方法及び障害解析プログラム

【課題】障害原因となった故障個所を適確に特定することを可能とする情報処理装置、障害解析方法及び障害解析プログラムを提供すること
【解決手段】本発明にかかる情報処理装置2は、第1の記憶部54と、第2の記憶部55と、プロセッサ52と、周辺デバイス53と、管理部51と、を備えた情報処理装置2である。管理部51は、情報処理装置2における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とをプロセッサ52に出力するとともに、周辺デバイス53から第1のログを取得して、取得した第1のログと、識別情報とを対応付けて第1の記憶部54に格納し、プロセッサ52は、管理部51から出力されたログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログと、管理部51から出力された識別情報とを対応付けて第2の記憶部55に格納する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、障害解析方法及び障害解析プログラムに関する。
【背景技術】
【0002】
プロセッサ、メモリ、ホストブリッジ、I/O(Input/Output)ブリッジ、I/O(Input/Output)デバイス等のハードウェア部品と、それらのハードウェア部品を管理・制御するBMC(Baseboard Management Controller)とを搭載したコンピュータサーバがある。コンピュータサーバは、例えば、1つのOS(Operating System)を動作させることによって、所望の処理を行う。このようなコンピュータサーバは、障害発生時に、障害原因となった故障個所を特定する事で高可用性、高保守性を実現することが求められている。
【0003】
このようなコンピュータサーバにおいて、致命的な単一障害が発生した場合、コンピュータサーバ内の主要ハードウェア部品のログを収集して保持する。これは、収集したログを解析して、障害原因となった故障個所を特定して、特定した故障個所を縮退等することによって、OSレベルでのリカバリ処理を可能とするためである。ここで、単一障害とは、コンピュータサーバ内の特定の1箇所が故障したことによって、コンピュータサーバに引き起こされる障害のことである。
【0004】
ハードウェア部品のログを収集・保持する場合、一般的に、プロセッサ上で動作するBIOS(Basic Input/Output System)がプロセッサのログを収集して保持し、プロセッサ以外の主要ハードウェア部品については、BMCがログを収集して保持する。これは、プロセッサのログに関しては、BIOSだけでしか収集することできない情報があるためである。例えば、プロセッサに含まれるコアの情報がこれに該当する。
【0005】
そして、BIOSは、プロセッサから収集したログから故障個所を解析する。また、BMCは、プロセッサ以外のハードウェア部品から収集したログから故障個所を解析する。しかし、このように、単一障害が発生したときに、BMCとBIOSがハードウェア部品のログを分担して分散収集して保持し、BMCとBIOSが互いに独立して障害原因の解析を行う場合、障害原因となった故障個所を適確に特定することができない場合がある。例えば、プロセッサと、このプロセッサと通信するハードウェア部品の間のバスが故障している場合、BIOSが動作するプロセッサ側のログのみでは、通信相手のハードウェア部品が故障しているのか、バスが故障しているのか、特定することができない。
【0006】
ここで、特許文献1には、情報ハンドリングシステムにおける回復可能なエラーをロギングするための装置が開示されている。この装置は、BIOSがステータスレジスタにおけるエラーを見つけた場合に、そのエラーをBMCに通信し、BMCを介してそのエラーをメモリユニットにログしている。
【0007】
また、特許文献2には、関連する事象通知を容易に検索したり、さらに検索条件を付加して、診断情報と照合したりする作業を効率よく行うことを可能とするエラー情報処理装置が開示されている。エラー情報処理装置は、プログラムBの所定の処理中に何らかのエラーが検出されると、識別子を獲得した後、所定の診断情報を収集して識別子を付加して診断情報ファイルに書き出すとともに、識別子を設定した事象通知bをログファイルに格納する。また、獲得した識別子を復帰情報として呼び出し元のプログラムAに通知し、呼び出し元のプログラムAで副次的なエラーを認識すると、復帰情報として渡された識別子を設定した事象通知aをログファイルに格納する。
【0008】
しかし、特許文献1、2に開示の技術は、いずれもハードウェア部品のログを分散して収集・保持する場合における問題を解決する具体的な手段を開示したものではない。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特許第2560892号公報
【特許文献2】特開2007−109238号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
背景技術として説明したように、プロセッサと、プロセッサ以外のハードウェア部品とで、別々にログを収集して故障個所を解析する場合、障害原因となった故障個所を適確に特定することができない場合があるという問題がある。
【0011】
本発明の目的は、このような課題を解決するために、障害原因となった故障個所を適確に特定することを可能とする情報処理装置、障害解析方法及び障害解析プログラムを提供することである。
【課題を解決するための手段】
【0012】
本発明の第1の態様にかかる情報処理装置は、第1の記憶部と、第2の記憶部と、プロセッサと、周辺デバイスと、管理部と、を備えた情報処理装置であって、前記管理部は、前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するとともに、前記周辺デバイスから第1のログを取得して、取得した第1のログと、前記識別情報とを対応付けて前記第1の記憶部に格納し、前記プロセッサは、前記管理部から出力されたログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログと、前記管理部から出力された識別情報とを対応付けて第2の記憶部に格納するものである。
【0013】
本発明の第2の態様にかかる障害解析方法は、プロセッサと、周辺デバイスと、管理部と、を備えた情報処理装置における障害の原因を解析する障害解析方法であって、前記管理部が、前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するステップと、前記管理部が、前記周辺デバイスから第1のログを取得して、取得した第1のログと、前記識別情報とを対応付けて前記第1の記憶部に格納するステップと、前記プロセッサが、前記管理部から出力されたログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログと、前記管理部から出力された識別情報とを対応付けて第2の記憶部に格納するステップと、を備えたものである。
【0014】
本発明の第3の態様にかかる障害解析方法は、プロセッサと、周辺デバイスと、を備えた情報処理装置における障害の原因を解析する障害解析プログラムであって、前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するステップと、前記周辺デバイスから第1のログを取得して、取得した第1のログを解析して生成した第1の解析結果と、前記識別情報とを対応付けて記憶部に格納するステップと、前記プロセッサが、前記出力されたログ取得要求及び識別情報を取得して、当該ログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログを解析して生成した第2の解析結果と、前記取得した識別情報とを出力した場合に、当該第2の解析結果及び識別情報を取得するステップと、前記取得した識別情報に対応付けられた第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定するステップと、を備えたものである。
【0015】
本発明の第4の態様にかかる障害解析プログラムは、プロセッサと、周辺デバイスと、を備えた情報処理装置における障害の原因を解析する障害解析プログラムであって、前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するステップと、前記周辺デバイスから第1のログを取得して、取得した第1のログを解析して生成した第1の解析結果と、前記識別情報とを対応付けて記憶部に格納するステップと、前記プロセッサが、前記出力されたログ取得要求及び識別情報を取得して、当該ログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログを解析して生成した第2の解析結果と、前記取得した識別情報とを出力した場合に、当該第2の解析結果及び識別情報を取得するステップと、前記取得した識別情報に対応付けられた第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定するステップと、をコンピュータに実行させるものである。
【発明の効果】
【0016】
上述した本発明の各態様により、障害原因となった故障個所を適確に特定することを可能とする情報処理装置、障害解析方法及び障害解析プログラムを提供することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の実施の形態にかかる情報処理装置の構成図である。
【図2】本発明の実施の形態にかかるコンピュータサーバの構成図である。
【図3】本発明の実施の形態にかかるコンピュータサーバの処理を示すフローチャートである。
【図4】本発明の実施の形態にかかるコンピュータサーバの処理を説明するための図である。
【図5】本発明の実施の形態にかかるログの格納例を示す図である。
【発明を実施するための形態】
【0018】
図1を参照して、本発明の実施の形態にかかるコンピュータサーバの概要となる情報処理装置の構成について説明する。図1は、本発明の実施の形態にかかる情報処理装置の構成図である。
情報処理装置2は、管理部51と、プロセッサ52と、周辺デバイス53と、第1の記憶部54と、第2の記憶部55とを有する。
【0019】
管理部51は、情報処理装置2における障害を検出した場合に、この障害と対応付けられた識別情報を生成する。そして、生成した識別情報と、ログ取得要求とをプロセッサ52に出力する。また、管理部51は、周辺デバイス53から第1のログを取得して、取得した第1のログと、生成した識別情報とを対応付けて第1の記憶部54に格納する。
プロセッサ52は、管理部51から出力されたログ取得要求に応じて、自身から第2のログを取得する。そして、取得した第2のログと、管理部51から出力された識別情報とを対応付けて第2の記憶部55に格納する。
【0020】
周辺デバイス53は、例えば、ホストブリッジやI/Oブリッジ等のプロセッサ以外のLSIである。
第1の記憶部54は、管理部51が取得したログが格納される。
第2の記憶部55は、プロセッサ52が取得したログが格納される。
【0021】
続いて、本発明の実施の形態にかかる情報処理装置の処理について説明する。
管理部51は、情報処理装置2における障害を検出した場合に、検出した障害と対応付けられた識別情報を生成する。そして、管理部51は、生成した識別情報と、ログ取得要求とをプロセッサ52に出力する。また、管理部51は、周辺デバイス53から第1のログを取得して、取得した第1のログと、生成した識別情報とを対応付けて第1の記憶部54に格納する。
【0022】
プロセッサ52は、管理部51から出力されたログ取得要求と、識別情報とを取得する。プロセッサ52は、管理部51から出力されたログ取得要求を取得した場合、自身から第2のログを取得する。そして、プロセッサ52は、取得した第2のログと、管理部51から出力された識別情報とを対応付けて第2の記憶部55に格納する。
【0023】
続いて、図2を参照して、本発明の実施の形態にかかるコンピュータサーバの構成について説明する。図2は、本発明の実施の形態にかかるコンピュータサーバの構成図である。
【0024】
コンピュータサーバ1は、BMC(Baseboard Management Controller)10と、プロセッサ11、12と、メモリ13と、ホストブリッジ14と、I/Oブリッジ(Input/Output)15と、不揮発性メモリ16、17とを有する。
ホストブリッジ14は、プロセッサ11、12及びメモリ13と、システムバス31によって相互に接続されている。BMC10は、プロセッサ11、12、ホストブリッジ14及びI/Oブリッジ15と、管理バス32によって相互に接続されている。また、ホストブリッジ14は、拡張I/Oデバイス20、21と接続されている。また、I/Oブリッジ15は、ホストブリッジ14、I/Oデバイス22、23と接続されている。
【0025】
BMC10は、コンピュータサーバ1に含まれるプロセッサ11、12、メモリ13、ホストブリッジ14及びI/Oブリッジ15等の主要ハードウェア部品を管理・制御する。BMC10は、例えば、CPU、メモリ等を有し、CPUによって所定のプログラムを実行することによって、ハードウェア部品を管理・制御する。つまり、BMC10は、所定のプログラムを実行することによって、後述するログの収集及び解析を行う。BMC10は、管理部51に相当する。
【0026】
プロセッサ11、12は、メモリ13に格納されるOSやアプリケーションプログラム等の任意のプログラムを実行する。また、プロセッサ11、12は、BMC10からのログ取得要求に応じて、自身からログを収集する。ログには、例えば、自身が有するレジスタ等のハードウェアの値が含まれる。
【0027】
メモリ13は、プロセッサ11、12が実行する任意のプログラムが格納される。
ホストブリッジ14は、プロセッサ11、12、メモリ13、I/Oブリッジ15及び拡張I/Oデバイス20、21間のデータ伝送を行う。
I/Oブリッジ15は、ホストブリッジ14、不揮発性メモリ17、I/Oデバイス22、23間のデータ転送を行う。プロセッサ11、12以外のホストブリッジ14、I/Oブリッジ15等のハードウェア部品は、周辺デバイス53に相当する。
【0028】
不揮発性メモリ16、17は、BMC10又はプロセッサ11、12が収集したログが格納される。不揮発性メモリ16は、BMCによって管理される。不揮発性メモリ17は、BIOSによって管理される。不揮発性メモリ16は、第1の記憶部54に相当し、不揮発性メモリ17は、第2の記憶部55に相当する。
【0029】
拡張I/Oデバイス20、21は、コンピュータサーバ1に追加される任意のI/Oデバイスである。
I/Oデバイス22、23は、例えば、ネットワークデバイス、DISKデバイス等の入出力装置である。
【0030】
続いて、図3〜5を参照して、本発明の実施の形態にかかるコンピュータサーバの処理を説明する。図3は、本発明の実施の形態にかかるコンピュータサーバの処理を示すフローチャートである。より詳細には、図3は、本発明の実施の形態にかかるコンピュータサーバの分散ログ管理及び故障個所の解析(以下、「故障解析」とする)方法における、致命的な障害発生から故障解析までの処理を示すフローチャートである。図4は、本発明の実施の形態にかかるコンピュータサーバの処理順序を示す図である。なお、ここでは、プロセッサ11において致命的な障害を検知した場合の動作について説明する。
【0031】
プロセッサ11は、致命的な障害を検出すると、管理バス32を介して、BMC10に障害発生を通知する(S100)。
BMC10は、プロセッサ11から障害発生が通知されると、自身が管理・保持しているevent tableに障害発生eventを登録すると共に、この障害発生eventに対応したevent IDを算出する(S101)。つまり、BMC10は、プロセッサ11から出力された障害発生の通知によって、プロセッサ11において発生した障害を検出する。ここで、event tableは、コンピュータサーバ1内で発生した様々なeventを時系列に保持しておくものである。したがって、例えば、障害発生eventとして、障害発生時刻、障害内容等を含んだ情報が格納される。また、event tableは、BMC10が有するメモリ等の記憶装置に格納するようにしてもよいし、不揮発性メモリ16に格納するようにしてもよい。
【0032】
event IDは、event table内に保持された様々なeventを識別するためのIDである。event IDは、例えば、event tableのエントリ番号が使用される。しかし、event IDの算出方法はこれに限られず、一意な番号又は文字列等の情報を任意に生成するようにしてもよい。
【0033】
BMC10は、event IDを算出した後、管理バス32を介して、ホストブリッジ14及びI/Oブリッジ15のログを収集する(S102)。つまり、BMC10は、プロセッサ11、12以外のログ(以下、「chipsetログ」とする)を収集する。chipsetログには、例えば、ホストブリッジ14及びI/Oブリッジ15が有するレジスタ等のハードウェアの値が含まれる。
【0034】
BMC10は、chipsetログの収集を完了すると、管理バス32を介して、プロセッサ11、12に対し、BIOS呼び出しを行う。BIOS呼び出しは、例えば、BMC10が割り込み信号線(図示せず)を介して、BIOSの起動を要求する割り込み信号をプロセッサ11、12に出力し、その出力を受けたプロセッサ11、12がBIOSを起動することによって行う。また、BMC10が管理バス32を介して、BIOSの起動を要求する情報を出力するようにしてもよい。
【0035】
また、BMC10は、ステップS101で算出したevent IDをプロセッサ11、12において起動されたBIOSに通知する(S103)。BMC10は、例えば、管理バス32を介して、event IDをプロセッサ11、12に出力することによって、event IDをBIOSに通知する。
【0036】
BMC10は、ステップS102でホストブリッジ14、I/Oブリッジ15から収集したchipsetログについて故障解析を行う(S104)。そして、BMC10は、その解析結果を、ステップS101で算出したevent IDと対応付けて、一時的に保持しておく。ここで、解析結果は、BMC10が有する記憶装置に格納することによって保持するようにしてもよく、不揮発性メモリ16に格納することによって保持するようにしてもよい。
【0037】
BMC10は、ステップS102でホストブリッジ14、I/Oブリッジ15から収集したchipsetログを、不揮発性メモリ16に格納する(S105)。この際、ステップS101で算出したevent IDをchipsetログと対応付けて格納する。これによって、後述するように、同一障害発生を契機にBIOSが収集したプロセッサのログと、chipsetログとを対応付けできるようにしている。
【0038】
プロセッサ11、12で呼び出されたBIOSは、自身が動作するプロセッサのログ(以下、「Processorログ」とする)を収集する(S110)。Processorログには、例えば、プロセッサ11、12が有するレジスタ等のハードウェアの値が含まれる。
【0039】
プロセッサ11、12で動作するBIOSは、ステップS110で収集したProcessorログに対して故障解析を行う。そして、BIOSは、管理バス32を介して、BMC10に解析結果を通知する(S111)。この際、ステップS103でBMC10から渡されたevent IDも同時に通知する。つまり、BIOSには、プロセッサに対してログの収集及び故障解析を行わせる命令が含まれており、プロセッサ11、12は、BIOSに含まれる命令を実行することによって、自身のログの収集及び故障解析を行う。なお、BIOSは、例えば、不揮発性メモリ17又はコンピュータサーバ1が有するROM(Read Only Memory)(図示せず)等の記憶装置に格納されており、プロセッサ11、12が記憶装置からロードすることによって実行される。
【0040】
プロセッサ11、12で動作するBIOSは、自身が収集したProcessorログを、不揮発性メモリ17に格納する(S112)。この際、ステップS103でBMC10から渡されたevent IDをProcessorログと対応付けて同時に格納する。これによって、同一障害発生を契機にBMC10が収集したchipsetログと、Processorログとを対応付けできるようにしている。
【0041】
BMC10は、ステップS104で自身が生成した解析結果と、ステップS111でプロセッサ11、12から渡された解析結果とに基づいて、再度故障解析を行う(S106)。具体的には、ステップS104で記憶装置に格納した解析結果のうち、ステップS111で解析結果とともに渡されたevent IDに対応付けられた解析結果と、プロセッサ11、12から渡された解析結果とに基づいて、再度故障解析を行う。これにより、同一障害発生契機に収集された全てのハードウェア部品を総合的・横断的に判断した故障解析が可能となり、故障解析における精度を向上することができる。
【0042】
ここで、ステップS106の処理における例を詳細に説明する。まず、解析結果には、ログを故障解析によって特定した故障個所を示す情報と、特定した被疑箇所の確実性を示す補助的な中間情報を含む。例えば、プロセッサ11がホストブリッジ14間のシステムバス31が故障している場合、プロセッサ11は、ホストブリッジ14と通信できていなかったことをProcessorログから判断するが、システムバス31が故障している可能性もあるため、ホストブリッジ14を故障個所とし、故障個所が確実ではないとする中間情報を含んだ解析結果を生成する。また、その場合、BMC10は、プロセッサ11と通信できていなかったことをchipsetログから判断するが、プロセッサ11を故障個所とし、故障個所が確実ではないとする中間情報を含んだ解析結果を生成する。
【0043】
よって、ステップS106で、双方の解析結果を突き合わせることによって、プロセッサ11とホストブリッジ14のそれぞれが相手と通信できていなかったことが判断できるため、プロセッサ11がホストブリッジ14間のシステムバス31が故障していると判断することができ、システムバス31を故障個所と特定することができる。また、この例における中間情報として、次に故障個所として可能性のあるシステムバス31を示す情報を解析結果に含めてもよい。このように、同一障害発生契機に収集された全てのハードウェア部品のログを総合的・横断的、かつ、自動的に判断した故障解析が可能となり、故障解析における精度を向上することができる。
【0044】
続いて、図5を参照して、本発明の実施の形態にかかるログの格納例について説明する。図5は、本発明の実施の形態にかかるログの格納例を示す図である。
【0045】
図5は、ステップS105、S112で、ハードウェア部品のログを格納する不揮発性メモリ16、17のそれぞれに格納されたログのデータ構造の一例を示したものである。このように、ログと対応付けてevent IDを格納しておくことで、後に不揮発性メモリ16、17からコンピュータサーバ1外へログを回収した場合でも、どのログ同士が同一障害発生に起因して収集されたものなのかを即座に判断することができる。つまり、対応付けられたevent IDが一致するログが同一障害発生に起因して収集されたものと判断することができる。その結果、同一障害発生契機に収集された全てのハードウェア部品のログが容易かつ確実に判断可能となるため、人手による故障解析時間を短縮することができ、総合的・横断的に判断する場合における故障解析における精度を向上することができる。
【0046】
以上に説明したように、本実施の形態によれば、コンピュータサーバ内の単一障害に起因してBMCとBIOSが分担して分散収集・保持したログを同一のevent IDで対応付けて管理するようにしている。よって、分散収集・保持されたログをコンピュータサーバ外へ回収し、人手による障害原因究明を行う場合でも、どのログが同一障害発生に起因して収集されたものなのかevent IDを用いて容易かつ確実に判断することができる。そのため、人手による障害原因となった故障個所究明の時間短縮を図ることができ、総合的・横断的に故障解析する場合に、障害原因となった故障個所を適確に特定することを可能とする。
【0047】
また、本実施の形態によれば、BMCとBIOSが分担して分散収集・保持したログのうち、同一のevent IDで対応付けたものから生成した解析結果のそれぞれに基づいて、再度故障解析を行うようにしている。そのため、同一障害発生契機に収集された全てのハードウェア部品のログを総合的・横断的、かつ、自動的に判断した故障解析が可能となり、故障解析における精度を向上することができる。つまり、今まで自動的に故障原因を特定できなかった障害に対しても障害原因となった故障個所を適確に特定することを可能とする。
【0048】
したがって、本発明は、特に、上述した実施の形態において例示したように、自身でしか収集することができない情報をログとして収集して解析する機能を有するプロセッサと、ログを収集して解析する機能を有さず、BMCによってログが収集される周辺デバイスとで、別々にログの収集及び解析を行う必要がある場合であっても故障個所を適確に特定することができる点で有効である。
【0049】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
本実施の形態では、プロセッサ11において障害が発生した場合について例示したが、BMC10がプロセッサ以外のハードウェア部品における障害の発生を検出した場合についても上述した処理を実行するようにしてもよい。例えば、ホストブリッジ14、I/Oブリッジ15において障害の発生した場合に、ホストブリッジ14、I/Oブリッジ15から、その旨を示す割り込み信号をBMC10に出力することによってプロセッサ以外のハードウェア部品における障害の発生を検出する。
【0050】
また、本実施の形態では、プロセッサ11、12がProcessorログの解析結果とevent IDをBMC10に出力するようにしているが、BMC10とプロセッサ11、12で共有してアクセス可能な記憶装置を用意して、プロセッサ11、12が解析結果及びevent IDをその記憶装置に格納して、BMC10が記憶装置から解析結果及びevent IDを取得するようにしてもよい。
【0051】
また、BMC10がプロセッサ11、12からProcessorログとevent IDを取得して、取得したProsessorログと、取得したevent IDと対応付けられたchipsetログとを解析して、故障個所を特定するようにしてもよい。
【0052】
また、本実施の形態において例示したように、Processorログとchipsetログが1つのevent IDで対応付けられていなくてもよい。例えば、BMC10で、event IDとして"1"及び"2"を生成して、chipsetログとevent ID="2"とを対応付けて格納するようにし、event ID="2"をプロセッサ11、12に出力して、Processorログとevent ID="2"とを対応付けて格納するようにしてもよい。つまり、Processorログ及びchipsetログを複数のevent IDで対応付けてもよい。
【0053】
以上に説明した本発明にかかるBMCで実行されるプログラムや、プロセッサで実行されるBIOS等のプログラムは様々な種類の記憶媒体に格納することが可能であり、通信媒体を介して伝達されることが可能である。ここで、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)、ROMカートリッジ、バッテリバックアップ付きRAM(Random Access Memory)、メモリカートリッジ、フラッシュメモリカートリッジ、不揮発性RAMカートリッジを含む。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体を含む。また、上述のプログラムは、インターネットを介して伝達することも可能である。
【0054】
また、コンピュータが上述のプログラムを実行することにより、上述の実施の形態の機能が実現されるだけではなく、このプログラムの指示に基づき、コンピュータ上で稼動しているOSもしくはアプリケーションソフトと共同して上述の実施の形態の機能が実現される場合も、発明の実施の形態に含まれる。さらに、このプログラムの処理の全てもしくは一部がコンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットにより行われて上述の実施の形態の機能が実現される場合も、発明の実施の形態に含まれる。
【符号の説明】
【0055】
1 コンピュータサーバ
2 情報処理装置
10 BMC
11、12、52 プロセッサ
13 メモリ
14 ホストブリッジ
15 I/Oブリッジ
16、17 不揮発性メモリ
20、21 拡張I/Oデバイス
22、23 I/Oデバイス
31 システムバス
32 管理バス
51 管理部
53 周辺デバイス
54 第1の記憶部
55 第2の記憶部

【特許請求の範囲】
【請求項1】
第1の記憶部と、第2の記憶部と、プロセッサと、周辺デバイスと、管理部と、を備えた情報処理装置であって、
前記管理部は、前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するとともに、前記周辺デバイスから第1のログを取得して、取得した第1のログと、前記識別情報とを対応付けて前記第1の記憶部に格納し、
前記プロセッサは、前記管理部から出力されたログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログと、前記管理部から出力された識別情報とを対応付けて第2の記憶部に格納する、情報処理装置。
【請求項2】
前記プロセッサは、前記第2のログを解析して第2の解析結果を生成し、
前記管理部は、前記第1のログを解析して第1の解析結果を生成するとともに、前記プロセッサが生成した第2の解析結果と、当該第2の解析結果の生成に用いられた第2のログに対応付けられた識別情報とを取得して、取得した識別情報に対応付けられた第1のログから生成した第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定する請求項1に記載の情報処理装置。
【請求項3】
前記プロセッサは、前記第2のログを解析して生成した第2の解析結果と、当該第2のログに対応付けられた識別情報とを前記管理部に出力し、
前記管理部は、前記プロセッサから出力された第2の解析結果及び識別情報を取得して、前記障害の原因となった故障個所を特定する請求項2に記載の情報処理装置。
【請求項4】
前記プロセッサは、前記第2のログと、当該第2のログに対応付けられた識別情報とを取得して、取得した識別情報に対応付けられた第1のログと、前記取得した第2のログとを解析して、前記障害の原因となった故障個所を特定する請求項1に記載の情報処理装置。
【請求項5】
前記プロセッサは、前記ログの取得及び解析を前記プロセッサに行わせるBIOS(Basic Input/Output System)を実行することによって、前記第2の解析結果を生成する請求項2又は3に記載の情報処理装置。
【請求項6】
前記解析結果は、前記障害の原因となった故障箇所を示す情報である請求項1乃至5のいずれか1項に記載の情報処理装置。
【請求項7】
前記管理部は、BMC(Baseboard Management Controller)であり、
前記周辺デバイスは、ホストブリッジ及びI/O(Input/Output)ブリッジを含み、
前記第1及び第2の記憶部は、1つ又は複数の不揮発性メモリに含まれる請求項1乃至7のいずれか1項に記載の情報処理装置。
【請求項8】
プロセッサと、周辺デバイスと、管理部と、を備えた情報処理装置における障害の原因を解析する障害解析方法であって、
前記管理部が、前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するステップと、
前記管理部が、前記周辺デバイスから第1のログを取得して、取得した第1のログと、前記識別情報とを対応付けて前記第1の記憶部に格納するステップと、
前記プロセッサが、前記管理部から出力されたログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログと、前記管理部から出力された識別情報とを対応付けて第2の記憶部に格納するステップと、を備えた障害解析方法。
【請求項9】
プロセッサと、周辺デバイスと、を備えた情報処理装置における障害の原因を解析する障害解析方法であって、
前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するステップと、
前記周辺デバイスから第1のログを取得して、取得した第1のログを解析して生成した第1の解析結果と、前記識別情報とを対応付けて記憶部に格納するステップと、
前記プロセッサが、前記出力されたログ取得要求及び識別情報を取得して、当該ログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログを解析して生成した第2の解析結果と、前記取得した識別情報とを出力した場合に、当該第2の解析結果及び識別情報を取得するステップと、
前記取得した識別情報に対応付けられた第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定するステップと、を備えた障害解析方法。
【請求項10】
プロセッサと、周辺デバイスと、を備えた情報処理装置における障害の原因を解析する障害解析プログラムであって、
前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するステップと、
前記周辺デバイスから第1のログを取得して、取得した第1のログを解析して生成した第1の解析結果と、前記識別情報とを対応付けて記憶部に格納するステップと、
前記プロセッサが、前記出力されたログ取得要求及び識別情報を取得して、当該ログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログを解析して生成した第2の解析結果と、前記取得した識別情報とを出力した場合に、当該第2の解析結果及び識別情報を取得するステップと、
前記取得した識別情報に対応付けられた第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定するステップと、をコンピュータに実行させる障害解析プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2011−145824(P2011−145824A)
【公開日】平成23年7月28日(2011.7.28)
【国際特許分類】
【出願番号】特願2010−5023(P2010−5023)
【出願日】平成22年1月13日(2010.1.13)
【出願人】(000168285)エヌイーシーコンピュータテクノ株式会社 (572)
【Fターム(参考)】