説明

障害管理システム及び方法

【課題】入力操作等の作業負担を軽減し、設定当初のFRUテーブルを用いて正確な被疑割合を含む情報を提供する。
【解決手段】サービスプロセッサ3により障害事象が検知された場合に、当該障害事象を特定する情報をキーとして障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある障害要因部位2を抽出する。前記誘因履歴のある障害要因部位2が抽出された場合に、当該障害要因部位2の前記誘因頻度に応じて、FRUテーブルの当該障害要因部位2に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出する。当該障害事象と当該障害要因部位2との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システムの障害を管理するシステム及び方法に関する。
【背景技術】
【0002】
情報処理システムの障害に対処するための技術として、FRU(Field Replaceable Unit)テーブルを利用するものがある。このFRUテーブルは、情報処理システムに発生する複数種の障害事象と、各障害事象の要因となる可能性がある障害要因部位(プロセッサ、メモリ、ノードコントローラ、入出力装置、配線、端子等)と、各障害要因部位の被疑割合とが対応付けられて構成された情報である。障害発生時には、前記FRUテーブルから発生した障害事象に対応する障害要因部位が抽出され、それらに関する情報が前記被疑割合と共に保守者等に提供される。
【0003】
特許文献1において、障害発生を検知する複数の障害チェックレジスタの各コードと各障害チェックレジスタに対応する障害要因部位の各コード(FRUコード)を対応付け、且つ各FRUコードの部品交換優先順位情報を含む障害チェックレジスタ情報−FRU情報対応テーブルを1つのファイルに登録する構成が開示されている。
【0004】
特許文献2において、情報処理システムのハードウェア資源のパーティション構造を、各ハードウェア資源の障害履歴に基づいて最適化する構成が開示されている。
【0005】
特許文献3において、サービスプロセッサ、及び障害率データ(被疑割合)を含む故障辞書(FRUテーブル)を用いて情報処理システムの障害管理を行うシステムであって、部品の交換履歴等に基づいて障害率データを更新する構成が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平11−249926号公報
【特許文献2】特開2009−163646号公報
【特許文献3】特開平10−320241号公報(段落0017等参照)
【発明の概要】
【発明が解決しようとする課題】
【0007】
通常、前記被疑割合を含むFRUテーブルは、システム設計者等により一意的に設定登録されるものであるが、上記特許文献3に開示されるように、実際の部品交換履歴等に応じて補正していくことにより、信頼性を向上させることができるものである。
【0008】
しかしながら、上記特許文献3に係る構成は、保守者が入出力装置を操作して入力した実際の部品交換作業に関する情報に基づいて、前記故障辞書(FRUテーブル)自体を更新するものである。そのため、FRUテーブルを信頼性の高い状態に維持するためには、保守者の入力操作が不可欠となり、保守者に入力作業の負担を強いることとなる。また、FRUテーブル自体が更新されるため、設定当初のFRUテーブルが必要となった時に、初期化処理等を行う必要がある。
【0009】
そこで、本発明は、入力操作等の作業負担を軽減し、設定当初のFRUテーブルを用いて正確な被疑割合を含む情報を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明の一態様は、情報処理システムを構成する各部位の動作を監視するサービスプロセッサと、少なくとも、複数種類の障害事象、前記各障害事象を引き起こす可能性のある障害要因部位の識別情報、及び前記各障害要因部位が前記障害事象を引き起こす可能性を示す被疑割合が対応付けられて構成されるFRUテーブルを格納するFRU格納部と、少なくとも、過去に発生した障害事象、各障害事象の要因となった前記障害要因部位、及び前記障害要因部位が対応する障害事象を引き起こした誘因頻度が対応付けられて構成される障害履歴情報を格納する障害履歴格納部と、前記サービスプロセッサにより障害事象が検知された場合に、当該障害事象を特定する情報をキーとして前記障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある前記障害要因部位を抽出する障害履歴抽出部と、前記誘因履歴のある障害要因部位が抽出された場合に、当該障害要因部位の前記誘因頻度に応じて、前記FRUテーブルの当該障害要因部位に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出する補正部と、当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントする障害履歴更新部と、前記補正被疑割合又は前記FRUテーブルの設定当初の被疑割合を表示するコンソール部とを備える障害管理システムである。
【0011】
また、本発明の他の態様は、少なくとも、複数種類の障害事象、各障害事象を引き起こす可能性のある障害要因部位の識別情報、及び前記各障害要因部位が対応する障害事象を引き起こす可能性を示す被疑割合が対応付けられて構成されるFRUテーブルと、少なくとも、過去に発生した障害事象、各障害事象の要因となった前記障害要因部位、及び前記障害要因部位が対応する障害事象を引き起こした誘因頻度が対応付けられて構成される障害履歴情報とを参照し、前記情報処理システムの障害を管理する障害管理方法であって、ある障害事象が検知された場合に、当該障害事象を特定する情報をキーとして前記障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある前記障害要因部位を抽出するステップと、前記誘因履歴のある障害要因部位が抽出された場合に、当該障害要因部位の前記誘因頻度に応じて、前記FRUテーブルの当該障害要因部位に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出するステップと、当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントするステップと、前記補正被疑割合又は前記FRUテーブルの設定当初の被疑割合を表示するステップとを備えるものである。
【発明の効果】
【0012】
上記構成により、被疑割合は、検知された障害事象と過去の障害事象との比較結果に応じて適正に補正される。また、障害履歴情報の誘因履歴は、検知された障害事象が過去の障害事象と一致する場合に自動的にインクリメントされるため、手動による入力作業を軽減することができる。また、FRUテーブルを、初期化等の処理を必要とせずに設定当初の状態で維持することができる。
【図面の簡単な説明】
【0013】
【図1】本実施の形態に係る障害管理システムの機能的な構成を示す図である。
【図2】本実施の形態に係る障害管理システムの具体的構成を例示する図である。
【図3】本実施の形態に係る障害管理システムにおける処理を例示するフローチャートである。
【図4】2つのノードコントローラ間で障害が発生した状況を示す図である。
【図5】FRUテーブルを例示する図表である。
【図6】当初の被疑割合から補正被疑割合を算出する例を示す図である。
【図7】情報処理システムのパーティション構成を変更する状況を例示する図である。
【図8】各部位でのエラー発生回数(誘因頻度)を例示する図表である。
【発明を実施するための形態】
【0014】
実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。図1は、本実施の形態に係る障害管理システム1の機能的な構成を示している。前記障害管理システム1は、プロセッサ、メモリ、ノードコントローラ、入出力装置等の各種部位を含んで構成される情報処理システムの障害を管理するものであって、障害要因部位2、サービスプロセッサ3、FRU格納部4、障害履歴格納部5、障害履歴抽出部6、補正部7、障害履歴更新部8、及びコンソール部9を含んで構成される。
【0015】
前記障害要因部位2は、前記情報処理システムを構成するハードウェア資源であって、各種障害事象の要因となる可能性を有する部位である。
【0016】
前記サービスプロセッサ3は、複数の前記障害要因部位2の動作を監視するものである。前記サービスプロセッサ3は、前記情報処理システムとは独立して動作可能であることが好ましい。
【0017】
前記FRU格納部4は、少なくとも、複数種類の障害事象、各障害事象を引き起こす可能性のある前記障害要因部位2の識別情報、及び前記各障害要因部位2が前記障害事象を引き起こす可能性を示す被疑割合が対応付けられて構成されるFRUテーブルを格納する。
【0018】
前記障害履歴格納部5は、少なくとも、過去に発生した障害事象、各障害事象の要因となった前記障害要因部位2、及び前記障害要因部位2が対応する障害事象を引き起こした誘因頻度が対応付けられて構成される障害履歴情報を格納する。
【0019】
前記障害履歴抽出部6は、前記サービスプロセッサ3により障害事象が検知された場合に、当該障害事象を特定する情報をキーとして前記障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある前記障害要因部位2を抽出する。
【0020】
前記補正部7は、前記誘因履歴のある前記障害要因部位2が抽出された場合に、当該障害要因部位2の前記誘因頻度に応じて、前記FRUテーブルの当該障害要因部位2に対応する設定当所の被疑割合を補正して得られる補正被疑割合を算出する。
【0021】
前記障害履歴更新部8は、当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記要因頻度をインクリメントする。
【0022】
前記コンソール部9は、前記補正被疑割合又は前記FRUテーブルの設定当所の被疑割合を表示する。
【0023】
上記構成により、前記コンソール部9に表示される被疑割合は、今回検知された障害事象と過去の障害事象との比較結果に応じて適正に補正されたものとなる。この補正処理は、前記FRUテーブル自体を変更することなく行われる。また、今回検知された障害事象が過去の障害事象と一致する場合、前記障害履歴情報が自動的にインクリメントされるため、前記障害履歴情報の手動による更新作業を軽減することができる。
【0024】
図2は、本実施の形態に係る障害管理システムの具体的な構成を例示している。同図において、情報処理システム11及び障害情報管理サーバ12が示されている。
【0025】
前記情報処理システム11は、主記憶(MEM)21と複数のプロセッサ(PROC)22と複数のノードコントローラ(NC)23と複数の入出力装置(IO)24より構成され、上記いずれか1つあるいは複数の部位で障害が検出された場合、信号線e001を介してエラーがサービスプロセッサ(SVP)25に報告される。SVP25は、エラー報告により上記MEM21、PROC22、NC23、IO24の障害情報を採取する機構を有する。
【0026】
FRUテーブル30には、予めエラー信号を保持するエラーインディケータフラグと各エラーインディケータフラグが対象とする障害要因部位(MEM21、PROC22、NC23、IO24、配線等)、被疑割合、エラー補助情報、製造ロット番号等が登録されている。
【0027】
第1の障害履歴格納データベース(DB)31は、該情報処理システム11で検出された障害を格納し保持し続け、同一部位でエラーを検出した場合は、エラーカウントフィールドのみが更新される。
【0028】
第2の障害履歴格納DB32は、前記第1の障害履歴格納DB31と同様に障害に関する情報を格納するものであるが、前記障害情報管理サーバ12が保有する他装置障害DB35や電圧・クロックを振ったマージン評価における検査障害DB36に格納された情報が、信号線n001,n002を介して受信され反映される。
【0029】
データ収集部40は、受信したエラー通報をトリガとして前記FRUテーブル30、前記第1の障害履歴DB31、前記第2の障害処理格納DB32のデータを収集する機能を有する。
【0030】
障害要因解析部41は、前記データ収集部40のデータに基づいて、報告されたエラーに関する情報と、過去の障害履歴、他の情報処理システムの障害履歴、製造ロット等とを比較し分析する。
【0031】
障害要因部位被疑割合算出部42は、前記障害要因解析部41で障害履歴の中に今回報告されたエラーと一致するものがあると判定された場合には、前記障害要因部位やその被疑割合を補正する。一方、一致するものがなかった場合には、前記FRUテーブル30からのデータを選択し、上記補正処理を実施しない。
【0032】
コンソール43は、前記障害要因部位被疑割合算出部42を経た情報を表示する。
【0033】
図2に例示する構成においては、構成情報解析部44が備えられている。この構成情報解析部44は、SVP25より情報処理システムの増設あるいは縮退に伴う使用する部位(例えば、複数あるノード間インタフェース)が変更するケースにおいて、その対象部位の障害履歴を参照し、より障害が少ない部位をシステムに組み込む情報を抽出してSVP25に通知する機能を有する。即ち、本例に係る情報処理システム11は、自らの各部位21,22,23,24の論理的又は物理的なパーティション構成を調整する機能を備えている。
【0034】
前記障害情報管理サーバ12は、複数の情報処理システム11とネットワークn001,n002,n003,n004を介して障害情報を送受信する機能を有する。上記ネットワークを介して受信したデータは、他装置障害DB35に格納され、複数の情報処理システム11に配信され情報共有される。また、電圧・クロックを振ったマージン評価における障害情報は、検査障害DB36に格納され、他装置障害DB35と同様に複数の情報処理システムと情報を共有する。
【0035】
図3は、本実施の形態に係る障害管理システム1により行われる処理を例示している。この処理は、MEM21、複数のPROC22、複数のNC23、複数のIO24でエラーを検出した場合の障害要因部位やその被疑割合を決定するものである。各ステップの処理は、後述する。
【0036】
図4は、2つのノードコントローラNC0,NC1で障害を発生したケースを例示している。各ノード0,1は、プロセッサ(PROC0,1)、ノードコントローラ(NC0)、入出力装置(IO 0,1)により構成される。ノード0とノード1は、それぞれNC0,NC1のポート(P1)にCABLE_Aを接続して信号を送受信している。本例では、ノード0から送信したデータにおいて、受信したノード1のNC1がエラーを検出したことを示している。
【0037】
図5は、FRUテーブル30を例示の一例であり、MEM21、PROC22、NC23、IO24、SVP25のエラー通報を格納するエラーインディケータとそのエラーインディケータが点灯した場合の障害要因部位の名称(NAME)、被疑割合(RATE)、製造ロットあるいはパッケージコンプ(REV)、ベンダー(ID)が登録されている。このフォーマットで障害が検出された事項のみが、前記第1及び第2の障害履歴DB31,32、検査障害DB35、他装置障害DB36に蓄積されており、障害通報時にすでに障害履歴が存在した場合は、エラーカウンタ部がインクリメント"+1"される。尚、本例では、4つのFRUを格納した状態が示されているが、本発明はこれに限定されるものではない。
【0038】
図6は、障害通報時に同一箇所の障害履歴にヒットし、被疑割合を補正した場合の計算例である。被疑対象はNC0、NC1、CABLE_A(図4参照)であり、障害履歴がない場合には、障害要因部位と被疑割合は、前記FRUテーブル30の設定当所の値、NC0=50%、NC1=49%、CABLE=1%がコンソールに表示される。一方、障害履歴がある場合には、その回数にも依存するが、例えばNC0の交換により復旧した実績がある場合、設定当所の被疑割合を補正して、NC0=67%、NC1=32%、CABLE=1%としてコンソールに表示する。
【0039】
図7は、情報処理システム11の構成の増設や縮退に伴う新規リソースを組み込むケース、即ちパーティション構成を変更する状況を例示している。ノード0,1の2ノード構成から更にノード2を情報処理システムに組み込む際に、前記SVP25は、ノード0(NC0)のポート2(P2)、ノード2(NC2)のポート2(P2)、ノード0(NC0)のポート3(P3)、ノード2(NC2)のポート3(P3)における障害履歴の頻度を前記第1の障害履歴DB31および第2の障害履歴DB32から索引し、より障害頻度の低い経路を選択して情報処理システムに組み込むことを指示する。
【0040】
以下に、上記構成の障害管理システムにおける動作を説明する。ここでは、情報処理システム1内の複数のノード間を接続し各ノードを制御するNC23間で障害が発生した場合の動作説明を行う。尚、本例では、NC23間を対象としているが、MEM21−PROC22間、PROC22−NC23間、IO24−NC23間、SVP25−MEM21,PROC22,NC23,IO24間において、またMEM21,PROC22,NC23,IO24,SVP25において単体障害が発生した場合でも、同様の処理がなされるものとする。
【0041】
障害通報から障害要因部位およびその被疑割合をコンソールに表示するまでのフローを、図3〜6を参照して説明する。以下、図3のフローについて説明する。
【0042】
S001:障害検出であり情報処理システムのいずれかの部位(MEM21、PROC22、NC23、IO24、SVP25)でエラーを検出する。
【0043】
S002:SVP25へエラーを報告する。
【0044】
S003:サービスプロセッサログを回収する。情報処理システム内のエラーインディケータ(EIF)や各種ステート情報、エラー補助情報を採取する。
【0045】
S004:S003で回収したログのエラーインディケータ(EIF)をキーとしてFRUテーブル30を索引する。FRUテーブル30には、図5に示す様に各エラーインディケータフラグに応じた複数の障害要因部位名(NAME)、被疑割合(RATE)、レビジョン(REV)、ベンダーID(VID)が登録されている。例えば、NO_EIF_3が"1"となった場合、ノード0とノード1間の障害であることを示し、ノード0のポート1(NCO_P1)とノード1のポート1(NC1_P1)およびポート間を接続するケーブル(CABLE_A)が障害要因部位の対象となり、それぞれ被疑割合が49%、50%、1%として読み出される。また、各障害要因部位に付随する情報(NAME,RATE,REV,VID)も同様に読み出される。
【0046】
S005:SVP25からのエラー通報をトリガとしてS004で索引された情報を第1の障害履歴DB31に格納すると同時に、過去に障害履歴があったかを判定し、判定の有無にしたがってS007〜S010の分岐先にデータを送信する。更に、過去に同一の障害履歴があった場合は、N0_EIF_3に対応するエラーカウンタのフィールドが"+1"される。
【0047】
S006:S005と同様に、SVP25からのエラー通報をトリガとして、他装置障害DB35および検査障害DB36の中に今回発生した障害と一致するものが無いかを判定する。
【0048】
S007〜S010は、S005とS006の判定結果により4つの処理に分岐し、いずれか1つの処理が実行される。
【0049】
S007:FRU索引データ、S005およびS006から読み出した障害履歴情報をもとに、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位およびその被疑割合の補正の必要性を判定する。
【0050】
S008:FRU索引データ、S005から読み出した障害履歴情報をもとに、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位およびその被疑割合の補正の必要性を判定する。
【0051】
S009:FRU索引データ、S006から読み出した障害履歴情報をもとに、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位およびその被疑割合の補正の必要性を判定する。
【0052】
S010:S005およびS006で共にヒットする障害履歴情報がなかったためFRUテーブルの情報をそのまま送信する。
【0053】
S011:S007〜S009で被疑割合の補正が必要と判定された場合、被疑割合を補正する。S010の場合は、何もしない。補正方法は、後述する。
【0054】
S012:S011の情報をコンソール表示し、保守員へ障害要因部位に関する情報を通知する。
【0055】
次に、情報処理システム11のシステム構成の拡張あるいは縮退に伴う新規部品やパスを組み込む場合、即ち情報処理システム11の論理的又は物理的なパーティション構成の調整に係る動作を説明する。
【0056】
ここでは、図2、図7、図8を参照する。SVP25により第1及び第2の障害履歴DB31,32の情報をデータ収集部40に読み出し、その情報に新規部品の組み込みロケーションや組み込むパスの障害履歴の有無を構成情報解析部44で解析する。例えば、空きスロットルや空きポートが存在する場合に、障害履歴が少ない部位が情報処理システム11に組み込まれる。図7に示すように、ノード0,1の2ノード構成から更にノード2を情報処理システム11に組み込む際に、ノード0(NC0)のポート2(P2)、ノード2(NC2)のポート2(P2)、ノード0(NC0)のポート3(P3)、ノード2(NC2)のポート3(P3)における障害履歴の頻度を、第1及び第2の障害履歴DB31,32からデータ収集部40を介して収集し、構成情報解析部80において、より障害頻度の低い経路が選択される。図8は、エラー発生頻度を例示している。本例では、NCO_P2−NC2_P2間でのエラー頻度が17であるのに対し、NCO_P3−NC2_P3間でのエラー頻度が3であるため、NCO_P3−NC2_P3の経路が障害頻度の低いものとして選択される。SVP25は、この選択結果に基づいて、その経路を情報処理システム11に組み込むことを指示する。SVP25は、信号線c0001(図2参照)を介して各MEM21、PROC22、NC23、IO24へ構成指示を配信し、より安定した情報処理システム11の構成を行う。
【0057】
上記構成により、前記被疑割合は、検知された障害事象と過去の障害事象との比較結果に応じて適正に補正される。また、前記障害履歴情報の誘因履歴は、検知された障害事象が過去の障害事象と一致する場合に自動的にインクリメントされるため、手動による入力作業を軽減することができる。また、前記FRUテーブルを、初期化等の処理を必要とせずに設定当初の状態で維持することができる。
【0058】
尚、本発明は上記実施の形態に限られるものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0059】
1 障害管理システム
2 障害要因部位
3,25 サービスプロセッサ
4 FRU格納部
5 障害履歴格納部
6 障害履歴抽出部
7 補正部
8 障害履歴更新部
9 コンソール部
11 情報処理システム
12 障害情報管理サーバ
21 主記憶(MEM)
22 プロセッサ(PROC)
23 ノードコントローラ(NC)
24 入出力装置(IO)
30 FRUテーブル
31 第1の障害履歴データベース
32 第2の障害履歴データベース
35 他装置障害データベース
36 検査障害データベース
40 データ収集部
41 障害要因解析部
42 障害要因部位被疑割合算出部
43 コンソール
44 構成情報解析部

【特許請求の範囲】
【請求項1】
情報処理システムを構成する各部位の動作を監視するサービスプロセッサと、
少なくとも、複数種類の障害事象、前記各障害事象を引き起こす可能性のある障害要因部位の識別情報、及び前記各障害要因部位が前記障害事象を引き起こす可能性を示す被疑割合が対応付けられて構成されるFRUテーブルを格納するFRU格納部と、
少なくとも、過去に発生した障害事象、各障害事象の要因となった前記障害要因部位、及び前記障害要因部位が対応する障害事象を引き起こした誘因頻度が対応付けられて構成される障害履歴情報を格納する障害履歴格納部と、
前記サービスプロセッサにより障害事象が検知された場合に、当該障害事象を特定する情報をキーとして前記障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある前記障害要因部位を抽出する障害履歴抽出部と、
前記誘因履歴のある障害要因部位が抽出された場合に、当該障害要因部位の前記誘因頻度に応じて、前記FRUテーブルの当該障害要因部位に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出する補正部と、
当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントする障害履歴更新部と、
前記補正被疑割合又は前記FRUテーブルの設定当初の被疑割合を表示するコンソール部と、
を備える障害管理システム。
【請求項2】
前記障害履歴格納部は、自機の前記情報処理システムに関する前記障害履歴情報を格納する第1の障害履歴格納部と、他機の情報処理システムに関する前記障害履歴情報を格納する第2の障害履歴格納部とを備え、
前記障害履歴抽出部及び前記補正部は、前記第1及び第2の障害履歴格納部に格納された情報に基づいて、前記補正被疑割合を算出する、
請求項1に記載の障害管理システム。
【請求項3】
前記情報処理システムの論理的又は物理的なパーティション構成を調整するものであって、前記被疑割合が低い前記部位の使用頻度が増加するように当該調整を行うパーティション調整部、
を更に備える請求項1又は2に記載の障害管理システム。
【請求項4】
少なくとも、複数種類の障害事象、各障害事象を引き起こす可能性のある障害要因部位の識別情報、及び前記各障害要因部位が対応する障害事象を引き起こす可能性を示す被疑割合が対応付けられて構成されるFRUテーブルと、少なくとも、過去に発生した障害事象、各障害事象の要因となった前記障害要因部位、及び前記障害要因部位が対応する障害事象を引き起こした誘因頻度が対応付けられて構成される障害履歴情報とを参照し、前記情報処理システムの障害を管理する障害管理方法であって、
ある障害事象が検知された場合に、当該障害事象を特定する情報をキーとして前記障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある前記障害要因部位を抽出するステップと、
前記誘因履歴のある障害要因部位が抽出された場合に、当該障害要因部位の前記誘因頻度に応じて、前記FRUテーブルの当該障害要因部位に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出するステップと、
当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントするステップと、
前記補正被疑割合又は前記FRUテーブルの設定当初の被疑割合を表示するステップと、
を備える障害管理方法。
【請求項5】
自機の前記情報処理システムに関する前記障害履歴情報を格納する第1の障害履歴格納部と、他機の情報処理システムに関する前記障害履歴情報を格納する第2の障害履歴格納部とを参照し、前記補正被疑割合を算出する、
請求項4に記載の障害管理方法。
【請求項6】
前記情報処理システムの論理的又は物理的なパーティション構成を調整するものであって、前記補正被疑割合又は前記被疑割合が低い前記部位の使用頻度が増加するように当該調整を行うステップ、
を更に備える請求項4又は5に記載の障害管理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate