説明

コンピュータシステム故障時における不良部位特定方式

【課題】コンピュータシステムにおいて記録されるログ情報の事象から故障部品を特定することにより、迅速な故障復旧が可能な故障時における不良部位特定方式を提供する。
【解決手段】複数事象照合部200は、コンピュータシステム100のシステム管理用コントローラ(BMC)101のログ記録部111に記録された異常情報400、あるいは、オペレーティングシステム(OS)105のログ記録部107に記録されたエラー情報400を入力し、事象の組み合わせ201、事象の発生順序202、事象の発生間隔(時間)203を考慮して、事象データベース210に予め登録されている複数の事象条件と部品情報と照合して、故障部品を特定して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータシステムの故障時において、複数事象解析により不良部位を特定する方式に関する。
【背景技術】
【0002】
複数事象を処理する方式としては、例えば、特許文献1には複数事象を扱う事象処理システムが記載されている。図8は従来例1の事象処理システムの概念モデルを示している。
【0003】
図8に示す従来例1のモデルは、事象データ項目の2つの入力ストリームが供給される過渡現象検出ブロック10を含んでいる。これらの入力ストリームの1番目は、低電圧事象を表す事象データ項目のストリームであり、一方、2番目は、高電圧事象を表す事象データ項目のストリームである。過渡現象検出ブロック10は、事象データ項目の出力13を生成するように構成される。(ストリーム11の事象データ項目によって示されているように)低電圧事象の後に、0.25秒のような短い時間間隔内で(ストリーム12の事象データ項目によって示されているように)高電圧が続くことを示している。
【0004】
また、例えば、特許文献2には、故障診断解析システムおよび故障診断解析方法が記載されている。図9は、従来例2の故障診断解析システムの概略構成を示すブロック図を示している。
【0005】
図9において、故障診断解析システムは、複数の故障に関する対応内容が各故障を特定可能な事象コード別に登録されたデータベース51と、上記複数の故障の診断が可能な自己診断回路を備える電子機器1と、電子機器1に接続され、上記自己診断回路によって診断された故障を特定する事象コードを少なくとも含む暗号化された故障解析要求メールを所定のアドレスへ送信する携帯通信端末3と、自装置のメールアドレスとして上記所定のアドレスが設定されており、携帯通信端末3から受信した上記故障解析要求メールに含まれている事象コードに基づいてデータベース51を検索して該当する対応内容を取得するとともに、該取得した対応内容を含むメールを携帯通信端末3に返信する故障解析回答装置50とを有している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平7−334438号公報
【特許文献2】特開2006−133868号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記特許文献1に記載された事象処理システムは、複数事象を扱うものだが、データベースとの照合を行うものではない。また、上記特許文献2に記載された故障診断解析システムおよび故障診断解析方法は、複数故障に関するもので、複数事象解析を行うものではない。
【0008】
高信頼性コンピュータシステムでは、マザーボード上にシステム管理用コントローラ(BMC:Baseboard Management Controller)が存在し、BMCが構成部品に取り付けられたセンサを監視しており、部品故障による異常状態を自動的に検出し、ログ情報として記録している。また、OS(Operating System)の状態に伴う、エラーメッセージがOS標準のロギングシステムに記録される。
【0009】
部品故障時の対応としては、BMCやOSのログ情報に記録された事象毎に対処方法が決まっているが、実際には、1つの部品に故障が発生した場合、それに関連する部品でも異常が検出されるため様々な事象が記録されることとなり、不良部品を特定できずに関連部品の全交換となるケースが多々あり、効率が悪いという問題があった。
【0010】
本発明は、事象のみから故障部品を特定することにより、迅速な故障復旧が可能な故障時における不良部位特定方式を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明のコンピュータシステム故障時における不良部位特定方式は、コンピュータシステムのマザーボード上のシステム管理用コントローラまたはオペレーティングシステムのログ情報を記録するログ記録部と、前記ログ記録部に記録された複数の事象を入力し、前記入力された複数の事象を、事象の組み合わせ、事象の発生順序、及び事象間の発生間隔(時間)を含む照合条件により事象データベースと照合し、前記コンピュータシステム内の故障部品を特定する複数事象照合部と、を備えていることを特徴とする。
【0012】
また、本発明のコンピュータシステム故障時における不良部位特定方式は、更に、前記事象データベースには、予め複数の事象条件と部品情報が登録されていることを特徴とする。
【発明の効果】
【0013】
本発明のコンピュータシステム故障時における不良部位特定方式によれば、迅速な故障復旧を行うことができる。
【図面の簡単な説明】
【0014】
【図1】図1は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式のシステム構成図である。
【図2】図2は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式の動作のフローチャートである。
【図3】図3は、本発明の実施例のログ情報のフォーマットを示す図である。
【図4】図4は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式の1定義照合動作のフローチャートである。
【図5】図5は、本発明の実施例の不良部位特定方式による具体的な故障例が発生した場合の不良部位特定方式のシステム構成図である。
【図6】図6は、本発明の実施例の不良部位特定方式による故障例の発生事象の内容とコード化した事象を説明する図である。
【図7】図7は、本発明の実施例の不良部位特定方式の発生事象と事象データベースとの照合を説明する図である。
【図8】図8は、従来例1の事象処理システムである。
【図9】図9は、従来例2の故障診断解析システムおよび故障診断解析方法である。
【発明を実施するための形態】
【0015】
以下、図面を用いて、本発明の実施の形態について説明する。
【実施例】
【0016】
図1は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式のシステム構成図である。図1において、100はコンピュータシステム、101はシステム管理用コントローラ(BMC)、102はベースボード、103はファン、104は電源、105はオペレーティングシステム(OS)、106はドライバ、107及び108はログ記録部を示している。
【0017】
また、200は複数事象照合部、201は(2)事象のコード化、202は(3)事象の照合、210は事象データベース、300は異常情報、301は5V電源の異常、302は12V電源の異常、400はエラー情報、401はI/Oエラー、500は(4)部品の特定、600は部品交換を示している。また、矢印の記号は、事象の記録等を示し、点線の枠は事象の内容を示している。
【0018】
図1において、コンピュータシステム100のシステム管理用コントローラ(BMC)101、ベースボード102、ファン103、電源104はネットワーク接続され、また、電源104により、オペレーティングシステム(OS)105のドライバ106が駆動される。
【0019】
コンピュータシステム100の各種ログ情報が、システム管理用コントローラ(BMC)101のログ記録部108に記録・蓄積され、オペレーティングシステム(OS)105の各種ログ情報が、ログ記録部107に記録・蓄積される。
【0020】
例えば、コンピュータシステム100内の電源104に異常(故障)が発生した場合を考えると、この故障情報は、システム管理用コントローラ(BMC)101のログ記録部108に記録される。一方、電源104の異常によりオペレーティングシステム(OS)105のドライバ106の動作にも入出力の異常(I/Oエラー)が発生し、オペレーティングシステム(OS)105のログ記録部107に入出力の異常(I/Oエラー)が記録される。
【0021】
ログ記録部108に記録された異常情報300、例えば、5V電源の異常301,12V電源の異常302、及び、ログ記録部107に記録されたエラー情報400、例えば、I/Oエラー401が読み出され、複数事象照合部200に入力される。
【0022】
複数事象照合部200では、入力された異常情報300,エラー情報400を基に、(2)事象のコード化201、(3)事象の照合202が行われる。事象の組み合わせ、事象の発生順序、事象の発生間隔(時間)を考慮して、事象データベース210に予め登録されている複数の事象条件と部品情報と照合して、故障部品を特定して出力する。上記の場合、ログ記録部107に記録され、複数事象照合部200に入力されたドライバ106によるI/Oエラー401が、コンピュータシステム100の電源104の異常に起因することを推論して、「電源故障」という故障部品の特定500が行われ、例えば、電源の部品交換600が行われる。
【0023】
図2は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式の動作のフローチャートを示している。本発明のコンピュータシステム故障時における不良部位特定方式が開始(START)される。ステップS201において、故障が発生すると、ステップS202において、発生した複数の事象を記録する。
【0024】
次に、複数の事象を事象データベース210と照合する。この場合に、ステップS2031において、事象のコード化を行い、ステップS2032において、事象データベース210の1定義との照合を行う。(図4の1定義照合フローを参照。)
【0025】
ステップS2032においては、上述のように、事象の組み合わせ、事象の発生順序、事象の発生間隔(時間)を基に事象データベース210に予め登録された複数の事象条件と部品情報と照合する。
【0026】
ステップS2033において、事象が合致(Yes)すれば、ステップS204に移行し、事象が合致しない(No)場合には、ステップS2034に移行する。
【0027】
ステップS2034では、次定義があるか否かの判定がなされ、次定義がある場合には、ステップS2035に移行して次定義に移り、ステップS2032の1定義照合フローを繰り返し、次定義がない(No)場合には、ステップS2036に移行して終了(あるいは難解障害処理)を行う。
【0028】
ステップS2032において事象が合致(Yes)して、ステップS204に移行すると、ステップS204において、照合の結果、故障部品が特定され、指摘されると、ステップS205において、故障部品を交換して、コンピュータシステム故障時における不良部位特定方式を終了(END)する。
【0029】
図3は、本発明の実施例のログ情報のフォーマットを示す図である。ログ情報110には、事象データベース210の記録された事象条件群から事象条件に定義された事象IDを照合する際に指定する順序条件、発生間隔(時間)の情報を含めることができる。
【0030】
順序条件が有効な場合には、1つ前の事象条件の事象コード以降に現事象条件の事象コードが発生している場合に一致と判定し、順序条件が無効な場合には、発生順序に関係なく現定義の事象コードが発生している場合に一致と判定する。
【0031】
また。発生間隔(時間)は、発生の順序条件が有効な場合に指定可能であり、前事象からの発生間隔(時間)が指定値以内の場合に一致と判定する。なお、発生間隔条件を指定しないことも可能である。
【0032】
図4は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式の1定義照合動作のフローチャートである。
【0033】
図4のステップS2032において、1定義照合が開始されると、ステップS20321において、発生順序の条件があるか否かが判定される。
【0034】
ステップS20321において、発生順序の条件がない(No)場合には、ステップS20322に移行し、発生順序の条件がある(Yes)場合には、ステップS20323に移行し、発生間隔の指定があるか否かが判定される。
【0035】
ステップS20323において、発生間隔の指定がない(No)場合には、ステップS20324に移行し、発生間隔の指定がある(Yes)場合には、ステップS20325に移行する。
【0036】
ステップS20322では、実事象群の中に現事象条件に定義された事象が存在するか検索し、ステップS20324では、前事象条件に一致した事象の発生後、現事象条件に定義された事象IDが存在するか検索し、ステップS20325では、前事象条件に一致した事象の発生後、指定された発生間隔以内に、現事象条件に定義された事象IDが存在するか検索して、ステップS20326に移行する。
【0037】
ステップS20326において、検索結果事象があるか否かが判定され、検索結果事象がない(No)場合には、ステップS20327に移行し、不一致ということで終了し、検索結果事象がある(Yes)場合には、ステップS20328に移行する。
【0038】
ステップS20328において、全事象条件を照合したか否かが判定され、全事象条件を照合した(Yes)場合には、ステップS20329に移行し、合致ということで終了し、全事象条件を照合していない(No)場合には、ステップS20330において、次の事象IDに移行して、ステップS20321からの動作フローを繰り返す。
【0039】
図5〜7は、本発明の実施例の不良部位特定方式による具体的な故障例1,2が発生した場合の不良部位特定方式のシステム構成図、事象のコード化、事象の照合の説明図である。
【0040】
図5は、具体的な故障例1(ベースボード故障),故障例2(電源故障)が発生しした場合の不良部位特定方式のシステム構成図を示している。図5において、100はコンピュータシステム、101はシステム管理用コントローラ(BMC)、102はベースボード、103はファン、104は電源、105はオペレーティングシステム(OS)、106はドライバ、107及び108はログ記録部、109はHDDを示している。
【0041】
図6は、本発明の実施例の不良部位特定方式の(2)事象のコード化201の故障例の発生事象の内容とコード化した事象を説明する図である。故障例1(ベースボード故障)の場合に発生した発生事象の内容(事象A,B,C)と発生時刻がコード化されて、事象ID−A,ID−B,ID−Cと時刻情報となり、同様に、故障例2(電源故障)の場合に発生した発生事象の内容(事象A,B,C)と発生時刻がコード化されて、事象ID−A,ID−B,ID−Cと時刻情報となる。
【0042】
図7は、具体的な故障例1(ベースボード故障),故障例2(電源故障)が発生しした場合の不良部位特定方式の(3)事象の照合と(4)部品の特定を示している。
【0043】
図7において、故障例1(ベースボード故障)と故障例2(電源故障)の事象ID−A,ID−B,ID−Cと時刻情報を事象データベース210の事象条件群と照合する。
【0044】
事象の照合は、定義1から定義4のように定義順に照合し一致した時点で照合を終了する。また、一つの定義について、事象条件を、事象ID,順序条件,発生間隔(時間)の順に照合し、一致しなかった時点で現定義の照合を中断し、照合は次の定義に移る。
【0045】
故障例1(ベースボード故障)と故障例2(電源故障)について、事象ID−A,ID−B,ID−Cと時刻情報を基に照合を行うと、定義1の場合には、事象ID−Dが発生していないので発生事象が定義と一致しない。
【0046】
また、定義2の場合には、事象ID−Aが事象ID−B後に発生しているので、発生順序が定義と一致しない。
【0047】
故障例1の場合には、事象Cは発生時刻が00:00:30で、事象Bの発生時刻00:00:05の後、発生間隔が25秒相当であり、事象ID−C(順序有,間隔1分)以内という条件に合致するため、定義3に合致し、部品情報から、故障部品がベースボードであることが特定できる。
【0048】
一方、故障例2の場合には、事象Cは発生時刻が00:02:00で、事象Bの発生時刻00:00:05の後、発生間隔が1分55秒相当であり、事象ID−C(順序有,間隔1分)という条件に合致せず、定義3に合致しない。しかし、定義4の事象ID−C(順序有)という条件に合致するために、定義3に合致し、部品情報から、故障部品が電源であることが特定できる。
【0049】
以上の故障例1,2は一例であるが、故障例の事象IDの組み合わせ、事象の発生順序、事象の発生間隔(時間)により、種々の故障部品を特定し交換することが可能である。
【産業上の利用可能性】
【0050】
本発明のコンピュータシステム故障時における不良部位特定方式は、障害解析ツール(保守ツール)として広範囲な利用が可能である。
【符号の説明】
【0051】
100 コンピュータシステム
101 システム管理用コントローラ(BMC)
102 ベースボード
103 ファン
104 電源
105 オペレーティングシステム(OS)
106 ドライバ
107 ログ記録部
108 ログ記録部
109 HHD
110 ログ情報
200 複数事象照合部
201 (2)事象のコード化
202 (3)事象の照合
210 事象データベース
300 異常情報
301 5V電源の異常
302 12V電源の異常
400 エラー情報
401 1/0エラー
500 (4)部品の特定
600 部品交換

【特許請求の範囲】
【請求項1】
コンピュータシステムのマザーボード上のシステム管理用コントローラまたはオペレーティングシステムのログ情報を記録するログ記録部と、
前記ログ記録部に記録された複数の事象を入力し、前記入力された複数の事象を、事象の組み合わせ、事象の発生順序、及び事象間の発生間隔(時間)を含む照合条件により事象データベースと照合し、前記コンピュータシステム内の故障部品を特定する複数事象照合部と、を備えていることを特徴とするコンピュータシステム故障時における不良部位特定方式。
【請求項2】
請求項1に記載のコンピュータシステム故障時における不良部位特定方式において、前記事象データベースには、予め複数の事象条件と部品情報が登録されていることを特徴とするコンピュータシステム故障時における不良部位特定方式。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−54136(P2011−54136A)
【公開日】平成23年3月17日(2011.3.17)
【国際特許分類】
【出願番号】特願2009−205127(P2009−205127)
【出願日】平成21年9月4日(2009.9.4)
【出願人】(000233491)日立電子サービス株式会社 (394)
【Fターム(参考)】