説明

障害診断方法および電子装置障害診断システム

【課題】電子装置のLSIの構成やその変更に応じて診断プロセッサのファームウェアを変更することなく、電子装置の障害診断を行う
【解決手段】障害発生時に診断プロセッサ003は、障害ログの状況と障害個所とを対応付けた障害指摘辞書を予め有するチップセットから、障害ログデータ013と障害指摘辞書014とを取得し、障害指摘辞書014に従って障害ログデータ013を解析し、障害箇所を特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サーバ装置等の電子装置の障害を診断する障害診断方法および電子装置障害診断システムに関するものである。
【背景技術】
【0002】
従来より、例えばサーバ装置等の電子装置には、障害箇所指摘機能を有する診断プロセッサ(以下、SPとする)が搭載されている(例えば特許文献1、特許文献2参照)。このような従来のSPによる障害箇所指摘方法について図7を参照して説明する。図7において、030はSP、031は障害指摘辞書(BID)、032は診断バス、033はチップセット、034はノースブリッジ、035はサウスブリッジ、036はメモリコントローラである。
サーバ装置に障害が発生すると、SP030は、診断バス032を介してチップセット032から障害ログを採取し、障害指摘辞書031に従って障害箇所を指摘する。
【0003】
【特許文献1】特開平10−187482号公報
【特許文献2】特開2002−342121号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の障害指摘辞書においては、次のような問題点があった。第1の問題点は、障害指摘辞書がSPのファームウェア内に内包されているため、チップセットの変更に対応できないことである。チップセットが変更となった場合、特に障害ログのフォーマットが変更となった場合は、チップセットに対応したファームウェアへアップデートを行う必要がある。
第2の問題点は、チップセットと障害指摘辞書が1対1で対応しているため、バージョンや構成の異なる複数のサーバ装置を運用しているサイトではSPのファームウェアの管理が煩雑になることである。
【0005】
以上のように、従来の障害指摘辞書は、主にSPのファームウェアに内包されているため、サーバ装置を構成するLSIのバージョンアップや新規モジュールの追加などが発生した場合、新たなサーバ構成に対応した辞書を内包するファームウェアへの入れ替えが必要となっていた。このため、構成モジュールのリビジョンが異なるサーバ装置を複数運用するサイトがあった場合、適用するファームウェアの管理が煩雑となり、ファームウェアの適用の誤りによって障害ログの初期解析ができなくなる場合があった。
【0006】
本発明の目的は、電子装置のLSIの構成やその変更に応じて診断プロセッサのファームウェアを変更することなく、電子装置の障害診断を行うことができる障害診断方法および電子装置障害診断システムを提供することにある。
【課題を解決するための手段】
【0007】
本発明の障害診断方法は、障害発生時に診断プロセッサが、障害ログの状況と障害個所とを対応付けた障害指摘辞書を予め有するLSIから障害ログデータと前記障害指摘辞書とを取得する障害指摘辞書取得手順と、前記診断プロセッサが、前記障害指摘辞書に従って前記障害ログデータを解析し、障害箇所を特定する障害個所特定手順とを備えるものである。
また、本発明の障害診断方法の1構成例は、さらに、障害発生時に前記診断プロセッサが、障害処理の手続きを定めた障害処理手続書を前記LSIから取得する障害処理手続書取得手順と、前記診断プロセッサが、前記解析の結果と前記障害処理手続書に従って障害処理を実行する障害処理実行手順とを備えるものである。
【0008】
また、本発明の電子装置障害診断システムは、障害ログの状況と障害個所とを対応付けた障害指摘辞書を予め有する電子装置のLSIと、障害発生時に前記LSIから障害ログデータと前記障害指摘辞書とを取得する障害指摘辞書取得手段と、前記障害指摘辞書に従って前記障害ログデータを解析し、障害箇所を特定する障害個所特定手段とを備えるものである。
また、本発明の電子装置障害診断システムの1構成例は、さらに、障害発生時に前記LSIから障害処理の手続きを定めた障害処理手続書を取得する障害処理手続書取得手段と、前記解析の結果と前記障害処理手続書に従って障害処理を実行する障害処理実行手段とを備えるものである。
【発明の効果】
【0009】
本発明では、障害指摘辞書を、障害ログを提示する電子装置のLSI(チップセット)自身に持たせ、障害発生時に、診断プロセッサが障害ログデータと障害指摘辞書の両方をLSIから取得する。診断プロセッサは、LSIから入手した障害指摘辞書を解釈するインタプリタ機能を有しており、LSIから入手した障害指摘辞書に従って障害ログデータを解析し、障害箇所を特定する。これにより、本発明においては、以下に記載するような効果を奏する。
第1の効果は、障害指摘辞書をLSIに実装しているので、障害ログと障害指摘辞書のミスマッチの発生を防止できることである。
第2の効果は、障害指摘辞書をLSIに実装しているので、LSIのリワークなどで障害ログのフォーマットが変更になったとしても、診断プロセッサのファームウェアを更新することなく、電子装置の障害診断ができることである。
第3の効果は、将来的に電子装置に新しいLSIが実装されたとしても、LSI側に障害指摘辞書を有するので、診断プロセッサのファームウェアを更新することなく、電子装置の障害診断ができることである。
第4の効果は、LSI毎に別々の挿抜可能なモジュールとして電子装置を構成している場合、装置Aを構成するモジュールの組み合わせと、装置Bを構成するモジュールの組み合わせが異なる場合が考えられるが、このような場合であっても、LSI側(モジュール側)に障害指摘辞書が存在するので、電子装置ごとに個別のファームウェアを用意することなく、電子装置の障害診断ができることである。
【0010】
また、本発明では、障害発生時に診断プロセッサが障害処理手続書をLSIから取得し、解析の結果と障害処理手続書に従って障害処理を実行するようにしたので、電子装置の構成と診断プロセッサのファームウェアの不一致による障害処理の誤りを防止することができる。
【発明を実施するための最良の形態】
【0011】
[第1の実施の形態]
以下、本発明の実施の形態について図面を参照して説明する。図1は、本発明の第1の実施の形態に係るサーバ装置の構成を示すブロック図である。
図1において、001はサーバ装置、002はCPU、003は診断プロセッサ(以下、SPとする)、004はサーバ装置001に使用される代表的なLSI(チップセット)の1つであり、CPU002に接続されるノースブリッジ、005はチップセットの1つであり、図示しない他ノードとの接続を可能にするネットワークスイッチ、006はチップセットの1つであり、ネットワークスイッチ005に接続されるサウスブリッジ、007はチップセットの1つであるメモリコントローラ、008はSP003とノースブリッジ004とネットワークスイッチ005とサウスブリッジ006とメモリコントローラ007とを接続するインターフェースである診断バス、009はメモリ、010はサウスブリッジ006に接続される入出力インターフェース(I/O)である。
【0012】
なお、図1では、1例としてCPU002を3個、入出力インターフェース010を2個としている。
SP003は、診断バス008を使用してノースブリッジ004、ネットワークスイッチ005、サウスブリッジ006及びメモリコントローラ007の初期化や、障害発生時のログ採取およびログ解析を行う。このSP003は、障害指摘辞書取得手段と障害個所特定手段とを構成している。
【0013】
図2は、図1のサーバ装置001の構成から障害箇所指摘機能部のみを抜き出したブロック図である。SP003は、障害指摘辞書を解釈するインタプリタ(以下、IPとする)011を有する。IP011は、ファームウェアによって実現することができる。
SP003は、各チップセット(ノースブリッジ004、ネットワークスイッチ005、サウスブリッジ006及びメモリコントローラ007)からの障害報告信号012によって障害を検出すると、診断バス008を使用して各チップセットから障害ログ013及び障害指摘辞書014を読み出す。
【0014】
ここでは、1例としてノースブリッジ004から読み出す障害ログ013、障害指摘辞書014をそれぞれLog1,BID1、サウスブリッジ006から読み出す障害ログ013、障害指摘辞書014をそれぞれLog2,BID2、ネットワークスイッチ005から読み出す障害ログ013、障害指摘辞書014をそれぞれLog3,BID3、メモリコントローラ007から読み出す障害ログ013、障害指摘辞書014をそれぞれLog4,BID4とする。
SP003のファームウェアは、読み出した障害指摘辞書014を解釈するIP011を実装しており、IP011は、各チップセットから読み出した障害指摘辞書014に従って障害ログ013を解釈し、障害箇所を指摘する障害箇所指摘信号015を出力する。
【0015】
このように、本実施の形態では、障害指摘辞書を障害ログを報告するユニット自身に持たせているので、LSIの変更や追加などで障害ログのフォーマットが変更となっても、SP003のファームウェアを入れ替えることなく障害指摘を行うことができる。
以上詳細に実施の形態の構成を述べたが、図1、図2のチップセットは、当業者にとってよく知られており、また本発明とは直接関係しないので、チップセットの詳細な構成は省略する。また、図2のSP003のファームウェアの詳細な構造についても本発明とは直接関係しないので、その詳細な構成は省略する。
【0016】
なお、本実施の形態では、SP003が各チップセット(ノースブリッジ004、ネットワークスイッチ005、サウスブリッジ006、メモリコントローラ007)と1対1のインターフェースで接続されているが、SP003と各チップセットをバス状に接続してもよい。また、チップセットの個数や機能なども、本発明の本質とは直接関係しないので、図1、図2の構成に限るものではない。
【0017】
次に、図2で障害が発生した際のSP003の動作を、図3に示すフローチャートを使用して説明する。
図2において、障害報告信号012がアサートされると、SP003は、この障害報告信号012を障害割り込みの契機とし(図3ステップS015)、診断バス008を通じて、ノースブリッジ004から障害ログLog1と障害指摘辞書BID1を読み出す(ステップS016)。同様に、SP003は、サウスブリッジ006から障害ログLog2と障害指摘辞書BID2を読み出し(ステップS017)、ネットワークスイッチ005から障害ログLog3と障害指摘辞書BID3を読み出し(ステップS018)、メモリコントローラ007から障害ログLog4と障害指摘辞書BID4を読み出す(ステップS019)。
【0018】
図4に、障害ログ013の1例を示す。一般に、LSIの障害ログ013は、数バイトのビット列で構成され、ビット単位に障害の意味が割り当てられている。図4の例は、ノースブリッジ004の障害ログ013を示している。この障害ログ013は、bit0からbit15の16ビットで構成されている。
【0019】
図5に、障害指摘辞書014の1例を示す。障害指摘辞書014は、障害ログを基に障害箇所を指摘するためのもので、障害ログ内の各ビットの点灯/消灯状況により障害箇所を判断するためのものである。図5の例は、ノースブリッジ004の障害指摘辞書014を示している。なお、図5中の「0x**」は**が16進数であることを示している。この障害指摘辞書014では、ノースブリッジ004から読み出した障害ログ013の値が0x01ならば故障個所はAであり、障害ログ013の値が0x02ならば故障個所はBであり、障害ログ013の値が0x03ならば故障個所はCであることを示している。
【0020】
ログ採取対象となる全てのチップセットから障害ログ013及び障害指摘辞書014を読み出したSP003は、障害指摘辞書014を基に障害ログ013を解析し、障害箇所を特定して、例えばサーバ装置のユーザに対して障害箇所を指摘する障害箇所指摘信号015を出力する(ステップS020)。
【0021】
[第2の実施の形態]
次に、本発明の第2の実施の形態について説明する。図6に、本実施の形態のサーバ装置における障害箇所指摘機能部の構成を示す。本実施の形態においても、サーバ装置全体の構成は第1の実施の形態のとおりであるが、本実施の形態ではサーバ装置の障害処理にまで本発明を拡張している。本実施の形態のSP003は、障害指摘辞書取得手段と障害個所特定手段に加えて、障害処理手続書取得手段と障害処理実行手段とを構成している。
【0022】
本実施の形態において、SP003のファームウェア(IP011a)は、障害報告信号012がアサートされると、診断バス008を通じて各チップセット(ノースブリッジ004、ネットワークスイッチ005、サウスブリッジ006、メモリコントローラ007)から障害ログ013及び障害指摘辞書014を読み出すと共に、各チップセットから障害処理手続書016を読み出す。
【0023】
図6の例では、1例としてノースブリッジ004から読み出す障害処理手続書016をProc1、サウスブリッジ006から読み出す障害処理手続書016をProc2、ネットワークスイッチ005から読み出す障害処理手続書016をProc3、メモリコントローラ007から読み出す障害処理手続書016をProc4としている。
【0024】
SP003のファームウェアは、読み出した障害指摘辞書014を基に障害ログ013を解析し、障害箇所を指摘する障害箇所指摘信号015を出力した後、読み出した障害処理手続書016に従って、例えば電源オフやファンの回転数を上げるなどの適当な障害処理を指定する障害処理指示信号017をチップセットに出力する。これにより、チップセットにおいて、障害処理が行われる。
このように、本実施の形態では、障害処理を定めた手続書についてもチップセット(LSI)側に持たせているので、サーバ装置の構成と診断プロセッサのファームウェアの不一致による障害処理の誤りを防止することができる。
【0025】
なお、第1、第2の実施の形態のサーバ装置は、CPU、記憶装置および外部とのインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。このようなコンピュータにおいて、本発明の障害診断方法を実現させるためのプログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供される。CPUは、記録媒体から読み込んだプログラムを記憶装置に書き込み、プログラムに従って前述の処理を実行する。
【0026】
また、第1、第2の実施の形態において、SPはサーバ装置の内部に存在する必要は無く、複数のサーバ装置を制御できるよう、単体の装置としてサーバ装置の外に存在しても良い。
【産業上の利用可能性】
【0027】
本発明は、サーバ装置等の電子装置の障害を診断する技術に適用することができる。
【図面の簡単な説明】
【0028】
【図1】本発明の第1の実施の形態に係るサーバ装置の構成を示すブロック図である。
【図2】図1のサーバ装置における障害箇所指摘機能部の構成を示すブロック図である。
【図3】本発明の第1の実施の形態における障害発生時の診断プロセッサの動作を示すフローチャートである。
【図4】本発明の第1の実施の形態における障害ログの1例を示す図である。
【図5】本発明の第1の実施の形態における障害指摘辞書の1例を示す図である。
【図6】本発明の第2の実施の形態に係る障害箇所指摘機能部の構成を示すブロック図である。
【図7】従来のサーバ装置における障害箇所指摘機能部の構成を示すブロック図である。
【符号の説明】
【0029】
001…サーバ装置、002…CPU、003…診断プロセッサ、004…ノースブリッジ、005…ネットワークスイッチ、006…サウスブリッジ、007…メモリコントローラ、008…診断バス、009…メモリ、010…入出力インターフェース、011,011a…インタプリタ、012…障害報告信号、013…障害ログ、014…障害指摘辞書、015…障害箇所指摘信号、016…障害処理手続書、017…障害処理指示信号。

【特許請求の範囲】
【請求項1】
LSIを有する電子装置の障害診断方法において、
障害発生時に診断プロセッサが、障害ログの状況と障害個所とを対応付けた障害指摘辞書を予め有するLSIから障害ログデータと前記障害指摘辞書とを取得する障害指摘辞書取得手順と、
前記診断プロセッサが、前記障害指摘辞書に従って前記障害ログデータを解析し、障害箇所を特定する障害個所特定手順とを備えることを特徴とする障害診断方法。
【請求項2】
請求項1記載の障害診断方法において、
さらに、障害発生時に前記診断プロセッサが、障害処理の手続きを定めた障害処理手続書を前記LSIから取得する障害処理手続書取得手順と、
前記診断プロセッサが、前記解析の結果と前記障害処理手続書に従って障害処理を実行する障害処理実行手順とを備えることを特徴とする障害診断方法。
【請求項3】
障害ログの状況と障害個所とを対応付けた障害指摘辞書を予め有する電子装置のLSIと、
障害発生時に前記LSIから障害ログデータと前記障害指摘辞書とを取得する障害指摘辞書取得手段と、
前記障害指摘辞書に従って前記障害ログデータを解析し、障害箇所を特定する障害個所特定手段とを備えることを特徴とする電子装置障害診断システム。
【請求項4】
請求項3記載の電子装置障害診断システムにおいて、
さらに、障害発生時に前記LSIから障害処理の手続きを定めた障害処理手続書を取得する障害処理手続書取得手段と、
前記解析の結果と前記障害処理手続書に従って障害処理を実行する障害処理実行手段とを備えることを特徴とする電子装置障害診断システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2008−310567(P2008−310567A)
【公開日】平成20年12月25日(2008.12.25)
【国際特許分類】
【出願番号】特願2007−157411(P2007−157411)
【出願日】平成19年6月14日(2007.6.14)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】