説明

コンピュータシステムにおけるログ管理システム、ログ管理方法

【課題】 コンピュータシステム内の単一障害に起因して複数セルノードで収集・保持されたログを1つのログとして統合的に管理できる方法を提供する。
【解決手段】 複数のセルノードを備えたコンピュータシステムにおいて、何れかのセルノードにおける構成部品において障害が検知された場合に、これをセルノード内の管理コントローラに通知し、上記障害の検知をコンピュータシステム内の他のセルノードに転送し、各セルノードにおいて自セルノード内で検知された障害並びに上記他のセルノードから転送された障害の検知をローカルログデータとして保持し、このローカルログデータを、コンピュータシステム内の統括管理コントローラに転送し、転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定し、この推定に従って上記ローカルログデータを集計してグローバルログデータとしてメモリ内に保持する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のセルノードから構成されるコンピュータシステムにおける障害ログを収集し管理する装置、方法およびプログラムに関する。
【背景技術】
【0002】
マイクロプロセッサ、メモリ、I/Oデバイス、インタコネクトコントローラ等のハードウェア部品及びそれらハードウェア部品を管理・制御する管理コントローラを搭載したセルノードと呼ぶ集合体を基本単位とし、このセルノードを単一或いは複数個統合して1つのコンピュータシステムを形成できる拡張性に優れたコンピュータサーバがある。このようなコンピュータサーバの運用管理においては、何れかのセルノードにおいて発生した障害を検知し、その要因を迅速に特定する必要が生じる。
【0003】
このようなコンピュータサーバにおいて、複数セルノードでコンピュータシステムを形成している場合、該コンピュータシステム内で致命障害が発生すると、該コンピュータシステムを形成している各セルノード内の管理コントローラは、互いに独立して、自セルノードに搭載されているハードウェア部品状態(ログ)を収集・保持する。しかし、互いに独立して収集・保持された複数セルノードのログを、それ単一で解析しても障害原因を特定できない障害がある。例えば、コンピュータシステムがストールした障害や、各セルノード間を接続しているインタフェースの障害等の場合である。
【0004】
尚、本書においてコンピュータシステムとは、1つのオペレーティングシステム(OS)で動作する集合体のことと定義し、コンピュータサーバとは、物理的に相互接続されたセルノード全体の集合体と定義する。即ち、1つのコンピュータサーバ内に複数のコンピュータシステムを形成することもできる。
【0005】
このようなコンピュータサーバの一形態として、ブレードサーバと呼ばれるものがある。ブレードサーバの一例とコンピュータシステムとの関連を図9に記載する。
【0006】
ブレードサーバ300は、プロセッサ、メモリ、I/Oデバイス等のハードウェア部品及びそれらハードウェア部品を管理・制御する管理コントローラを搭載したブレード301ー1〜301ー4と呼ぶ集合体を基本単位とし、このブレードを複数個まとめたコンピュータサーバである。
【0007】
また、特開2005−28452号公報(特許文献1)、特開平02−2749号公報(特許文献2)および特開平11−143738号公報(特許文献3)には、複数のプロセッサあるいは計算機間での障害情報を一元管理しあるいは同時監視する技術が開示されている。
【0008】
【特許文献1】特開2005−284520号公報
【特許文献2】特開平02−27449号公報
【特許文献3】特開平11−143738号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながらブレードサーバは、単一ブレードでコンピュータシステムを形成し、複数ブレードを統合して1つのコンピュータシステムを形成しないので、コンピュータシステム内で致命障害が発生した場合、単一ブレードのログを収集するのみであり、複数ブレードでログを収集する必要がない。また、各ブレードで収集されたログは、異なる障害を契機に収集されたログでありそれらログに関連性はない。
【0010】
また、上記特許文献に開示の技術においては、複数のプロセッサにおける障害情報を一元管理することが示されているものの、具体的な障害の種類に応じてこれを分類管理するような機能は示されておらず、従って、複数のセルノードで構成されるコンピュータシステム内の問題箇所を迅速に特定し、適切な処置を施すことは依然として困難を伴う。
【0011】
本発明の目的は、上述した問題点に鑑みてなされたものであり、このようなコンピュータサーバにおいて、コンピュータシステム内の単一障害に起因して複数セルノードで収集・保持されたログを1つのログとして統合的に管理可能なログ管理システム、ログ管理方法を提供することにある。
【課題を解決するための手段】
【0012】
本発明によるログ管理システムは、複数のセルノードを有するコンピュータシステム内で障害が発生した場合のログデータを管理するログ管理システムであって、各セルノード内の構成部品における障害を検知する手段と、何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知する手段と、障害の検知が管理コントローラに通知された場合に、障害の検知をコンピュータシステム内の他のセルノードに転送する手段と、各セルノードにおいて、自セルノード内で検知された障害並びに他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持する手段と、各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送する手段を備え、統括管理コントローラが、各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定する手段と、障害要因の推定に従ってローカルログデータを集計してグローバルログデータとしてメモリ内に保持する手段とを含む。
【0013】
本発明によるログ管理方法は、複数のセルノードを有するコンピュータシステム内で障害が発生した場合のログデータを管理するログ管理方法であって、各セルノード内の構成部品における障害を検知するステップと、何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知するステップと、障害の検知が管理コントローラに通知された場合に、障害の検知をコンピュータシステム内の他のセルノードに転送するステップと、各セルノードにおいて、自セルノード内で検知された障害並びに他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持するステップと、各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送するステップを含み、統括管理コントローラにおいて、各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定するステップと、障害要因の推定に従ってローカルログデータを集計してグローバルログデータとしてメモリ内に保持するステップを含む。
【発明の効果】
【0014】
本発明は、複数のセルノードから構成されるコンピュータシステムにおいて、今まで障害原因を特定できなかった障害に対しても障害原因を高精度に特定できるようになる。
【0015】
その理由は、何れかのセルノードにおいて障害が発生すると、各セルノードにおいて記録保持されるローカルログデータが統括管理コントローラに転送され、そこで同種の障害レベルにあるログデータは、一つの要因に基づく障害であると推定され、その状態で記録保持されることになり、その結果、コンピュータシステムの保守管理において障害原因の特定が極めて容易になるからである。
【発明を実施するための最良の形態】
【0016】
以下本発明を実施するための最良の形態を、図を参照して説明する。
【0017】
(実施の形態の構成)
図1を参照すると、本発明の実施の形態によるコンピュータサーバの一実施例とコンピュータシステムの一実施例とそれらの相関が示されている。
【0018】
コンピュータサーバ100は、4つのセルノード101−1〜101−4から構成されている。これら4つのセルノード101−nは、セルノードを跨いだプロセッサ間、I/Oデバイス間、プロセッサとI/Oデバイス間のデータ送受信を行なう場合、伝送路150を介して行なう。また、セルノードを跨いだ管理コントローラ間の通信を行なう場合、伝送路151を介して行なう。
【0019】
コンピュータサーバ100は、コンピュータシステムAとコンピュータシステムBに分割されている。コンピュータシステムAは、3つのセルノード101−1,101−2,101−3から形成され、コンピュータシステムBは、1つのセルノード101−4から形成されている。コンピュータシステムを跨いだプロセッサ間、I/Oデバイス間、プロセッサとI/Oデバイス間のデータ送受信は行なわれないので、セルノード101−4は、伝送路150を介して他セルノードとデータ送受信を行なわない。
【0020】
コンピュータシステムAは3つのセルノード101−1,101−2,101−3から形成されているため、コンピュータシステムA全体を統括管理する管理コントローラを1つ決める必要がある。本実施例では、セルノード101−1内の管理コントローラ111−1を、コンピュータシステムAの統括管理コントローラとしている。
【0021】
図2を参照すると、本発明に係るコンピュータサーバの主要部品であるセルノードの一実施例が示されている。
【0022】
プロセッサ200−n、メモリ201−n、I/Oデバイス202−nは、コンピュータの主要部品である。これら部品において障害を検知した場合、伝送路260−nを介して管理コントローラ111に障害検知通知が発行される。この障害検知通知には、障害レベルが含まれる。障害レベルとは、障害がコンピュータシステムに与える影響度である。障害レベル区分の一実施例を下記に記載する。
【0023】
[致命障害] コンピュータシステムダウンとなる障害。該障害レベルはコンピュータシステム全体に影響が及ぶため、コンピュータシステム全体のログ収集が必要である。
[警告障害] ハードウェア部品の一部が異常状態であるが、コンピュータシステムは運用継続可能な障害レベル。障害検知セルノードのみのログ収集が必要である。
[訂正可能障害] メモリ1ビットエラー等の訂正可能な障害レベル。障害検知セルノードのみのログ収集が必要である。
【0024】
インタコネクトコントローラ110は、同一セルノード内のプロセッサ200−n間、I/Oデバイス202−n間及びプロセッサ200−nとI/Oデバイス202−n間のデータ送受信の制御や、同一コンピュータシステム内のセルノード間のデータ送受信の制御を司る。また、インタコネクトコントローラ110において障害検知した場合、伝送路260−5を介して管理コントローラに障害検知通知を発行する。この障害検知通知には、障害レベルが含まれる。
【0025】
管理コントローラ111は、本発明を実現するための主要部品である。管理コントローラ111は、自セルノード内のハードウェア部品の管理・制御を司る。そのため、プロセッサ200−n、メモリ201−n、I/Oデバイス202−n、インタコネクトコントローラ110等のセルノード内ハードウェア部品と伝送路260−nで接続されている。
【0026】
また、自セルノード内のログを保持する不揮発性メモリ204や、自セルノードの環境(温度、電源等)を監視する環境監視デバイス203に接続している。さらに、コンピュータシステムを統括管理するために、他セルノード内管理コントローラと伝送路151で接続されている。
【0027】
管理コントローラ111は、プロセッサ200−n、メモリ201−n、I/Oデバイス202−n、インタコネクトコントローラ110等のセルノード内ハードウェア部品から伝送路260−nを介して障害検知通知を受け取ると、該障害検知通知の障害レベルが致命障害であったならば、同一コンピュータシステム内の全セルノード内管理コントローラへ伝送路151を介して該障害検知通知を転送する。
【0028】
また、管理コントローラ111は、自セルノード内ハードウェア部品或いは他セルノードから障害検知通知を受け取ると、自セルノード内のハードウェア部品のログを収集し、不揮発性メモリ204に保持する。このときログを識別するローカルログIDとログ収集時間と受け取った障害検知通知内に埋め込まれている障害レベルもセットで不揮発性メモリに保持する。尚、不揮発性メモリ204に保持するログ構造体の一実施例が図3に示されている。この詳細については後述する。
【0029】
さらに、管理コントローラ111は、自セルノード内のハードウェア部品のログを不揮発性メモリ204に保持した後、ローカルログIDとログ収集時間と障害レベルを添えて、統括管理コントローラ111へログ収集通知を発行する。
【0030】
統括管理コントローラとなっている管理コントローラ111は、同一コンピュータシステム内のある管理コントローラ111から障害レベルが致命障害であるログ収集通知を付け取ると、その後一定時間以内の間に同一コンピュータシステム内の他管理コントローラ111から受け取る障害レベルが致命障害であるログ収集通知を、同一障害に起因したログであると判断し、それら異なる管理コントローラから通知された複数のログ収集通知を1まとまりとして管理する。
【0031】
尚、管理方法の一実施例が図4に示されている。統括管理コントローラとなっている管理コントローラ111は、図4に示すような自コンピュータシステム内で収集・保持されているハードウェア部品ログを一元管理できるログ管理テーブルを持つ。
【0032】
図4に示されているグローバルログID=3は、同一致命障害に起因して収集・保持されたログが、セルノード101−1内不揮発性メモリ204内のローカルログID=2、セルノード101−2内不揮発性メモリ204内のローカルログID=1とセルノード101−3内不揮発性メモリ204内のローカルログID=0であることを示している。
【0033】
(実施の形態の動作)
以下、本実施例の動作について、図5〜8並びに図3、4を用いて説明する。
【0034】
図5は、本発明の分散ログ管理方法における、致命障害発生から分散収集・保持されたログを管理するまでの処理フローチャートであり、図6と図7は、その動作を表したものである。本実施例では、セルノード101−3内のメモリ201−1において致命障害を検知した場合の動作について説明する。
【0035】
セルノード101−3内のメモリ201−1は、致命障害を検知すると(図5におけるステップS501)、障害レベルを致命障害として自セルノード内の管理コントローラ111−3へ伝送路260−1を介して障害検知通知を発行する(ステップS502、図7における1)。
【0036】
セルノード101−3内の管理コントローラ111−3は、障害レベルが致命障害である障害通知を受け取ると、同一コンピュータシステム内である他セルノードの管理コントローラ111−1と111−2へ該障害検知通知を転送する(ステップS503、図7における2)。尚、障害レベルが警告障害或いは訂正可能障害である場合は、他セルノードの管理コントローラへ障害通知を転送しない。なぜならば、障害レベルが警告障害或いは訂正可能障害の場合、障害検知セルノード内のログだけで十分障害箇所を特定できるからである。
【0037】
セルノード101−3内の管理コントローラ111−3は、障害検知通知を受け取ると、自セルノード内のハードウェア部品のログを収集し、自管理コントローラ配下の不揮発性メモリ204に保持する(ステップS504−1、図6における3)。
【0038】
これと並行して、コンピュータシステムA内の他の全てのセルノードにおける管理コントローラ111−1、111−2も、同様に、障害検知通知を受け取ると、自セルノード内のハードウェア部品のログを収集し、自管理コントローラ配下の不揮発性メモリ204に保持する(ステップS504−2、図6における3)。この際、各管理コントローラ111−nは、自セルノード内でユニークなローカルセルIDとログ収集した時間と障害検知通知に埋め込まれて来た障害レベル(致命障害)も一緒に保持する。
【0039】
図3に、この時点で各セルノードの不揮発性メモリ204に保持されている情報の一例を示す。セルノード101−1では、今までに2つのログがローカルログID=0と1に保持されているため、セルノード101−3内のメモリ201−1が検知した致命障害に起因して収集・保持されたログは、ローカルログID=2に保持される。
【0040】
セルノード101−2では、今までに1つのログがローカルログID=0に保持されているため、セルノード101−3内のメモリ201−1が検知した致命障害に起因して収集・保持されたログは、ローカルログID=1に保持される。セルノード101−3では、今までに保持されたログが無いので、セルノード101−3内のメモリ201−1が検知した致命障害に起因して収集・保持されたログは、ローカルログID=0に保持される。
【0041】
セルノード101−3内の管理コントローラ111−3は、自セルノード内のログ収集・保持が完了すると、統括管理コントローラである管理コントローラ111−1へ、ローカルログIDとログ収集時間と障害レベルを添えてログ収集通知を伝送路151を介して発行する(ステップS505−1、図6における4)。
【0042】
これと並行して、コンピュータシステムA内の他の全てのコンピュータシステムA内の他の全てのセルノードにおける管理コントローラ111−1、111−2も、同様に、自セルノード内のログ収集・保持が完了すると、統括管理コントローラである管理コントローラ111−1へ、ローカルログIDとログ収集時間と障害レベルを添えてログ収集通知を伝送路151を介して発行する(ステップS505−2、図6における4)。
【0043】
すなわち、セルノード101−1の管理コントローラ111−1はローカルログID=2を報告し、セルノード101−2の管理コントローラ111−2はローカルログID=1を報告し、セルノード101−3の管理コントローラ111−3はローカルログID=0を報告する。
【0044】
統括管理コントローラである管理コントローラ111−1は、コンピュータシステムA内の何れかのセルノードから障害レベルが致命障害であるログ収集通知を受け取ると、タイマーをスタートさせる。このタイマーはある一定時間経過するとタイムアウトする。統括管理コントローラは、タイマーがタイムアウトするより前に受け取った障害レベルが致命障害である複数のログ収集通知を、セルノード101−3内のメモリ201−1が検知した致命障害に起因して収集・保持されたログであると判断する(ステップS506、図6における5)。
【0045】
統括管理コントローラである管理コントローラ111−1は、図4に示すログ管理テーブルを保持しており、ステップS506で判断した結果を格納する(ステップS507、図6における6)。図4におけるグローバルログID=3のログが、セルノード101−3内のメモリ201−1が検知した致命障害に起因して収集・保持されたログであることを示す。
【0046】
統括管理コントローラが保持するログ管理テーブルと各セルノードが不揮発性メモリ204に保持するログの対応方法を図8に示す。グローバルログID=0は、セルノード101−2が保持するローカルログID=0に対応し、グローバルログID=1は、セルノード101−1が保持するローカルログID=0に対応し、グローバルログID=2は、セルノード101−1が保持するローカルログID=1に対応し、グローバルログID=3は、セルノード101−1が保持するローカルID=2とセルノード101−2が保持するローカルログID=1とセルノード101−3が保持するローカルログID=0に対応している。即ち、統括管理コントローラが保持するログ管理テーブルは、障害検知毎に新たなグローバルIDが付加され、その障害検知に起因して収集・保持されたログがどこに存在するどれなのかが判る。
【0047】
以上により、何れかのセルノード内での障害の発生からログの登録までの一連の処理が完了する。
【0048】
(実施の形態の効果)
以上説明したように、本実施の形態によれば、コンピュータシステム内の単一障害に起因して複数セルノードで収集・保持されたログを1つのログとして管理できるため、これら複数セルノードで収集されたログを横断的に解析することができるようになり、その結果、今まで障害原因を特定できなかった障害に対しても障害原因が特定できるようになるという効果を有する。
【0049】
本発明の実施の形態による各セルノードの管理コントローラについては、ハードウェア的に実現することは勿論として、その機能を提供するログ管理プログラムを、ハードディスク装置やROM等の補助記憶部に格納し、そのプログラムをプロセッサで実行することにより、ソフトウェア的に実現することも可能である。
【0050】
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形して実施することが出来る。
【0051】
例えば、上記実施の形態では、統括管理コントローラを選択された一つのセルノードにおける管理コントローラとして利用したが、これをセルノードの外にある管理コントローラ上で実現するようにしてもよい。
【0052】
また、上記管理コントローラにおける機能を、インタコネクトコントローラに持たせるようにしてもよい。一般的に管理コントローラ間におけるデータ伝送よりも、インタコネクトコントローラ間におけるデータ伝送のほうが高速であるので、各セルノード間におけるログデータの転送時間差を小さくするためには、この例のほうが好ましい。
【図面の簡単な説明】
【0053】
【図1】本発明の一実施の形態によるコンピュータシステムおけるログ管理システムの構成を示すブロック図である。
【図2】図1の実施の形態におけるセルノードの構成を示すブロック図である。
【図3】各セルノードの不揮発性メモリに保持されている情報の一例を示す図である。
【図4】統括管理コントローラを有するセルノード内の不揮発性メモリで収集・保持される、ハードウェア部品ログを一元管理するログ管理テーブルの一例を示す図である。
【図5】本発明の一実施の形態によるログ管理方法における、致命障害発生から分散収集・保持されたログを管理するまでの処理フローチャートを示す図である。
【図6】図5における処理の工程を付記した本発明の一実施の形態によるログ管理システムの構成を示すブロック図である。
【図7】図5における処理の工程を付記したセルノードの構成を示すブロック図である。
【図8】統括管理コントローラが保持するログ管理テーブルと各セルノードが不揮発性メモリに保持するログの対応方法を示す図である。
【図9】関連技術によるブレードサーバの構成を示すブロック図である。
【符号の説明】
【0054】
100:コンピュータサーバ
101−n:セルノード
110−n:インタコネクトコントローラ
111−n:管理コントローラ
111−1:統括管理コントローラ
150:伝送路
151:伝送路
200−n:プロセッサ
201−n:メモリ
202−n:I/Oデバイス
203:環境監視デバイス
204:不揮発性メモリ
260−n:伝送路

【特許請求の範囲】
【請求項1】
複数のセルノードを有するコンピュータシステム内で障害が発生した場合のログデータを管理するログ管理システムであって、
各セルノード内の構成部品における障害を検知する手段と、
何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知する手段と、
前記障害の検知が前記管理コントローラに通知された場合に、前記障害の検知をコンピュータシステム内の他のセルノードに転送する手段と、
前記各セルノードにおいて、自セルノード内で検知された障害並びに前記他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持する手段と、
前記各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送する手段を備え、
前記統括管理コントローラが、
前記各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定する手段と、
前記障害要因の推定に従って前記ローカルログデータを集計してグローバルログデータとしてメモリ内に保持する手段と、
を備えたことを特徴とするコンピュータシステムにおけるログ管理システム。
【請求項2】
前記障害の検知をセルノード内の管理コントローラに通知する手段は、
障害の発生した構成部品を特定する情報、およびその障害のレベルを特定する情報を管理コントローラに通知することを特徴とする請求項1に記載のログ管理システム。
【請求項3】
前記障害のレベルを特定する情報が、
少なくともその障害が、当該コンピュータシステム全体に影響を及ぼす致命的な障害であるか否かの種別を示す情報を含むことを特徴とする請求項2に記載のログ管理システム。
【請求項4】
前記障害の検知をコンピュータシステム内の他のセルノードに転送する手段は、
前記障害のレベルを特定する情報が、致命的な障害であることを示すものである場合にのみ、前記障害の検知をコンピュータシステム内の他のセルノードに転送することを特徴とする請求項2又は請求項3に記載のログ管理システム。
【請求項5】
前記障害をローカルログデータとしてローカルメモリ内に保持する手段は、
各障害ごとに、固有のログID、ログデータの収集時間、および障害のレベルを特定する情報を保持することを特徴とする請求項1から請求項4の何れかに記載のログ管理システム。
【請求項6】
前記統括管理コントローラの各セルノードから転送されるローカルログデータにおける障害の要因を推定する手段は、
最初のローカルログデータにおける障害のレベルが致命的な障害である場合に、その転送から所定時間内に転送される致命的な障害のレベルにあるローカルログデータを、最初の障害と同一の要因によるものと推定することを特徴とする請求項1から請求項5の何れかに記載のログ管理システム。
【請求項7】
前記管理コントローラが、各セルノード内のインタコネクトコントローラであることを特徴とする請求項1から請求項6の何れかに記載のログ管理システム。
【請求項8】
選択された前記何れかのセルノード内の管理コントローラの1つを、前記統括管理コントローラとすることを特徴とする請求項1から請求項7の何れかに記載のログ管理システム。
【請求項9】
複数のセルノードを有するコンピュータシステム内で障害が発生した場合のログデータを管理するログ管理方法であって、
各セルノード内の構成部品における障害を検知するステップと、
何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知するステップと、
前記障害の検知が前記管理コントローラに通知された場合に、前記障害の検知をコンピュータシステム内の他のセルノードに転送するステップと、
前記各セルノードにおいて、自セルノード内で検知された障害並びに前記他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持するステップと、
前記各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送するステップを含み、
前記統括管理コントローラにおいて、
前記各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定するステップと、
前記障害要因の推定に従って前記ローカルログデータを集計してグローバルログデータとしてメモリ内に保持するステップを含むことを特徴とするコンピュータシステムにおけるログ管理方法。
【請求項10】
前記障害の検知をセルノード内の管理コントローラに通知するステップは、
障害の発生した構成部品を特定する情報、およびその障害のレベルを特定する情報を管理コントローラに通知することを特徴とする請求項9に記載のログ管理方法。
【請求項11】
前記障害のレベルを特定する情報が、
少なくともその障害が、当該コンピュータシステム全体に影響を及ぼす致命的な障害であるか否かの種別を示す情報を含むことを特徴とする請求項10に記載のログ管理方法。
【請求項12】
前記障害の検知をコンピュータシステム内の他のセルノードに転送するステップにおいて、
前記障害のレベルを特定する情報が、致命的な障害であることを示すものである場合にのみ、前記障害の検知をコンピュータシステム内の他のセルノードに転送することを特徴とする請求項10又は請求項11に記載のログ管理方法。
【請求項13】
前記障害をローカルログデータとしてローカルメモリ内に保持するステップにおいて、
各障害ごとに、固有のログID、ログデータの収集時間、および障害のレベルを特定する情報を保持することを特徴とする請求項9から請求項12の何れかに記載のログ管理方法。
【請求項14】
前記統括管理コントローラの各セルノードから転送されるローカルログデータにおける障害の要因を推定するステップにおいて、
最初のローカルログデータにおける障害のレベルが致命的な障害である場合に、その転送から所定時間内に転送される致命的な障害のレベルにあるローカルログデータを、最初の障害と同一の要因によるものと推定することを特徴とする請求項9から請求項13の何れかに記載のログ管理方法。
【請求項15】
前記管理コントローラが、各セルノード内のインタコネクトコントローラであることを特徴とする請求項9から請求項14の何れかに記載のログ管理方法。
【請求項16】
選択された前記何れかのセルノード内の管理コントローラの1つを、前記統括管理コントローラとすることを特徴とする請求項9から請求項15の何れかに記載のログ管理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2009−252006(P2009−252006A)
【公開日】平成21年10月29日(2009.10.29)
【国際特許分類】
【出願番号】特願2008−100202(P2008−100202)
【出願日】平成20年4月8日(2008.4.8)
【出願人】(000168285)エヌイーシーコンピュータテクノ株式会社 (572)
【Fターム(参考)】