コンピュータシステムにおけるログ管理システム、ログ管理方法

【課題】コンピュータシステム内の単一障害に起因して複数セルノードで収集・保持されたログを１つのログとして統合的に管理できる方法を提供する。
【解決手段】複数のセルノードを備えたコンピュータシステムにおいて、何れかのセルノードにおける構成部品において障害が検知された場合に、これをセルノード内の管理コントローラに通知し、上記障害の検知をコンピュータシステム内の他のセルノードに転送し、各セルノードにおいて自セルノード内で検知された障害並びに上記他のセルノードから転送された障害の検知をローカルログデータとして保持し、このローカルログデータを、コンピュータシステム内の統括管理コントローラに転送し、転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定し、この推定に従って上記ローカルログデータを集計してグローバルログデータとしてメモリ内に保持する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数のセルノードから構成されるコンピュータシステムにおける障害ログを収集し管理する装置、方法およびプログラムに関する。
【背景技術】
【０００２】
マイクロプロセッサ、メモリ、Ｉ／Ｏデバイス、インタコネクトコントローラ等のハードウェア部品及びそれらハードウェア部品を管理・制御する管理コントローラを搭載したセルノードと呼ぶ集合体を基本単位とし、このセルノードを単一或いは複数個統合して１つのコンピュータシステムを形成できる拡張性に優れたコンピュータサーバがある。このようなコンピュータサーバの運用管理においては、何れかのセルノードにおいて発生した障害を検知し、その要因を迅速に特定する必要が生じる。
【０００３】
このようなコンピュータサーバにおいて、複数セルノードでコンピュータシステムを形成している場合、該コンピュータシステム内で致命障害が発生すると、該コンピュータシステムを形成している各セルノード内の管理コントローラは、互いに独立して、自セルノードに搭載されているハードウェア部品状態（ログ）を収集・保持する。しかし、互いに独立して収集・保持された複数セルノードのログを、それ単一で解析しても障害原因を特定できない障害がある。例えば、コンピュータシステムがストールした障害や、各セルノード間を接続しているインタフェースの障害等の場合である。
【０００４】
尚、本書においてコンピュータシステムとは、１つのオペレーティングシステム（ＯＳ）で動作する集合体のことと定義し、コンピュータサーバとは、物理的に相互接続されたセルノード全体の集合体と定義する。即ち、１つのコンピュータサーバ内に複数のコンピュータシステムを形成することもできる。
【０００５】
このようなコンピュータサーバの一形態として、ブレードサーバと呼ばれるものがある。ブレードサーバの一例とコンピュータシステムとの関連を図９に記載する。
【０００６】
ブレードサーバ３００は、プロセッサ、メモリ、Ｉ／Ｏデバイス等のハードウェア部品及びそれらハードウェア部品を管理・制御する管理コントローラを搭載したブレード３０１ー１〜３０１ー４と呼ぶ集合体を基本単位とし、このブレードを複数個まとめたコンピュータサーバである。
【０００７】
また、特開２００５−２８４５２号公報（特許文献１）、特開平０２−２７４９号公報（特許文献２）および特開平１１−１４３７３８号公報（特許文献３）には、複数のプロセッサあるいは計算機間での障害情報を一元管理しあるいは同時監視する技術が開示されている。
【０００８】
【特許文献１】特開２００５−２８４５２０号公報
【特許文献２】特開平０２−２７４４９号公報
【特許文献３】特開平１１−１４３７３８号公報
【発明の開示】
【発明が解決しようとする課題】
【０００９】
しかしながらブレードサーバは、単一ブレードでコンピュータシステムを形成し、複数ブレードを統合して１つのコンピュータシステムを形成しないので、コンピュータシステム内で致命障害が発生した場合、単一ブレードのログを収集するのみであり、複数ブレードでログを収集する必要がない。また、各ブレードで収集されたログは、異なる障害を契機に収集されたログでありそれらログに関連性はない。
【００１０】
また、上記特許文献に開示の技術においては、複数のプロセッサにおける障害情報を一元管理することが示されているものの、具体的な障害の種類に応じてこれを分類管理するような機能は示されておらず、従って、複数のセルノードで構成されるコンピュータシステム内の問題箇所を迅速に特定し、適切な処置を施すことは依然として困難を伴う。
【００１１】
本発明の目的は、上述した問題点に鑑みてなされたものであり、このようなコンピュータサーバにおいて、コンピュータシステム内の単一障害に起因して複数セルノードで収集・保持されたログを１つのログとして統合的に管理可能なログ管理システム、ログ管理方法を提供することにある。
【課題を解決するための手段】
【００１２】
本発明によるログ管理システムは、複数のセルノードを有するコンピュータシステム内で障害が発生した場合のログデータを管理するログ管理システムであって、各セルノード内の構成部品における障害を検知する手段と、何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知する手段と、障害の検知が管理コントローラに通知された場合に、障害の検知をコンピュータシステム内の他のセルノードに転送する手段と、各セルノードにおいて、自セルノード内で検知された障害並びに他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持する手段と、各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送する手段を備え、統括管理コントローラが、各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定する手段と、障害要因の推定に従ってローカルログデータを集計してグローバルログデータとしてメモリ内に保持する手段とを含む。
【００１３】
本発明によるログ管理方法は、複数のセルノードを有するコンピュータシステム内で障害が発生した場合のログデータを管理するログ管理方法であって、各セルノード内の構成部品における障害を検知するステップと、何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知するステップと、障害の検知が管理コントローラに通知された場合に、障害の検知をコンピュータシステム内の他のセルノードに転送するステップと、各セルノードにおいて、自セルノード内で検知された障害並びに他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持するステップと、各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送するステップを含み、統括管理コントローラにおいて、各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定するステップと、障害要因の推定に従ってローカルログデータを集計してグローバルログデータとしてメモリ内に保持するステップを含む。
【発明の効果】
【００１４】
本発明は、複数のセルノードから構成されるコンピュータシステムにおいて、今まで障害原因を特定できなかった障害に対しても障害原因を高精度に特定できるようになる。
【００１５】
その理由は、何れかのセルノードにおいて障害が発生すると、各セルノードにおいて記録保持されるローカルログデータが統括管理コントローラに転送され、そこで同種の障害レベルにあるログデータは、一つの要因に基づく障害であると推定され、その状態で記録保持されることになり、その結果、コンピュータシステムの保守管理において障害原因の特定が極めて容易になるからである。
【発明を実施するための最良の形態】
【００１６】
以下本発明を実施するための最良の形態を、図を参照して説明する。
【００１７】
（実施の形態の構成）
図１を参照すると、本発明の実施の形態によるコンピュータサーバの一実施例とコンピュータシステムの一実施例とそれらの相関が示されている。
【００１８】
コンピュータサーバ１００は、４つのセルノード１０１−１〜１０１−４から構成されている。これら４つのセルノード１０１−ｎは、セルノードを跨いだプロセッサ間、Ｉ／Ｏデバイス間、プロセッサとＩ／Ｏデバイス間のデータ送受信を行なう場合、伝送路１５０を介して行なう。また、セルノードを跨いだ管理コントローラ間の通信を行なう場合、伝送路１５１を介して行なう。
【００１９】
コンピュータサーバ１００は、コンピュータシステムＡとコンピュータシステムＢに分割されている。コンピュータシステムＡは、３つのセルノード１０１−１，１０１−２，１０１−３から形成され、コンピュータシステムＢは、１つのセルノード１０１−４から形成されている。コンピュータシステムを跨いだプロセッサ間、Ｉ／Ｏデバイス間、プロセッサとＩ／Ｏデバイス間のデータ送受信は行なわれないので、セルノード１０１−４は、伝送路１５０を介して他セルノードとデータ送受信を行なわない。
【００２０】
コンピュータシステムＡは３つのセルノード１０１−１，１０１−２，１０１−３から形成されているため、コンピュータシステムＡ全体を統括管理する管理コントローラを１つ決める必要がある。本実施例では、セルノード１０１−１内の管理コントローラ１１１−１を、コンピュータシステムＡの統括管理コントローラとしている。
【００２１】
図２を参照すると、本発明に係るコンピュータサーバの主要部品であるセルノードの一実施例が示されている。
【００２２】
プロセッサ２００−ｎ、メモリ２０１−ｎ、Ｉ／Ｏデバイス２０２−ｎは、コンピュータの主要部品である。これら部品において障害を検知した場合、伝送路２６０−ｎを介して管理コントローラ１１１に障害検知通知が発行される。この障害検知通知には、障害レベルが含まれる。障害レベルとは、障害がコンピュータシステムに与える影響度である。障害レベル区分の一実施例を下記に記載する。
【００２３】
［致命障害］コンピュータシステムダウンとなる障害。該障害レベルはコンピュータシステム全体に影響が及ぶため、コンピュータシステム全体のログ収集が必要である。
［警告障害］ハードウェア部品の一部が異常状態であるが、コンピュータシステムは運用継続可能な障害レベル。障害検知セルノードのみのログ収集が必要である。
［訂正可能障害］メモリ１ビットエラー等の訂正可能な障害レベル。障害検知セルノードのみのログ収集が必要である。
【００２４】
インタコネクトコントローラ１１０は、同一セルノード内のプロセッサ２００−ｎ間、Ｉ／Ｏデバイス２０２−ｎ間及びプロセッサ２００−ｎとＩ／Ｏデバイス２０２−ｎ間のデータ送受信の制御や、同一コンピュータシステム内のセルノード間のデータ送受信の制御を司る。また、インタコネクトコントローラ１１０において障害検知した場合、伝送路２６０−５を介して管理コントローラに障害検知通知を発行する。この障害検知通知には、障害レベルが含まれる。
【００２５】
管理コントローラ１１１は、本発明を実現するための主要部品である。管理コントローラ１１１は、自セルノード内のハードウェア部品の管理・制御を司る。そのため、プロセッサ２００−ｎ、メモリ２０１−ｎ、Ｉ／Ｏデバイス２０２−ｎ、インタコネクトコントローラ１１０等のセルノード内ハードウェア部品と伝送路２６０−ｎで接続されている。
【００２６】
また、自セルノード内のログを保持する不揮発性メモリ２０４や、自セルノードの環境（温度、電源等）を監視する環境監視デバイス２０３に接続している。さらに、コンピュータシステムを統括管理するために、他セルノード内管理コントローラと伝送路１５１で接続されている。
【００２７】
管理コントローラ１１１は、プロセッサ２００−ｎ、メモリ２０１−ｎ、Ｉ／Ｏデバイス２０２−ｎ、インタコネクトコントローラ１１０等のセルノード内ハードウェア部品から伝送路２６０−ｎを介して障害検知通知を受け取ると、該障害検知通知の障害レベルが致命障害であったならば、同一コンピュータシステム内の全セルノード内管理コントローラへ伝送路１５１を介して該障害検知通知を転送する。
【００２８】
また、管理コントローラ１１１は、自セルノード内ハードウェア部品或いは他セルノードから障害検知通知を受け取ると、自セルノード内のハードウェア部品のログを収集し、不揮発性メモリ２０４に保持する。このときログを識別するローカルログＩＤとログ収集時間と受け取った障害検知通知内に埋め込まれている障害レベルもセットで不揮発性メモリに保持する。尚、不揮発性メモリ２０４に保持するログ構造体の一実施例が図３に示されている。この詳細については後述する。
【００２９】
さらに、管理コントローラ１１１は、自セルノード内のハードウェア部品のログを不揮発性メモリ２０４に保持した後、ローカルログＩＤとログ収集時間と障害レベルを添えて、統括管理コントローラ１１１へログ収集通知を発行する。
【００３０】
統括管理コントローラとなっている管理コントローラ１１１は、同一コンピュータシステム内のある管理コントローラ１１１から障害レベルが致命障害であるログ収集通知を付け取ると、その後一定時間以内の間に同一コンピュータシステム内の他管理コントローラ１１１から受け取る障害レベルが致命障害であるログ収集通知を、同一障害に起因したログであると判断し、それら異なる管理コントローラから通知された複数のログ収集通知を１まとまりとして管理する。
【００３１】
尚、管理方法の一実施例が図４に示されている。統括管理コントローラとなっている管理コントローラ１１１は、図４に示すような自コンピュータシステム内で収集・保持されているハードウェア部品ログを一元管理できるログ管理テーブルを持つ。
【００３２】
図４に示されているグローバルログＩＤ＝３は、同一致命障害に起因して収集・保持されたログが、セルノード１０１−１内不揮発性メモリ２０４内のローカルログＩＤ＝２、セルノード１０１−２内不揮発性メモリ２０４内のローカルログＩＤ＝１とセルノード１０１−３内不揮発性メモリ２０４内のローカルログＩＤ＝０であることを示している。
【００３３】
（実施の形態の動作）
以下、本実施例の動作について、図５〜８並びに図３、４を用いて説明する。
【００３４】
図５は、本発明の分散ログ管理方法における、致命障害発生から分散収集・保持されたログを管理するまでの処理フローチャートであり、図６と図７は、その動作を表したものである。本実施例では、セルノード１０１−３内のメモリ２０１−１において致命障害を検知した場合の動作について説明する。
【００３５】
セルノード１０１−３内のメモリ２０１−１は、致命障害を検知すると（図５におけるステップＳ５０１）、障害レベルを致命障害として自セルノード内の管理コントローラ１１１−３へ伝送路２６０−１を介して障害検知通知を発行する（ステップＳ５０２、図７における１）。
【００３６】
セルノード１０１−３内の管理コントローラ１１１−３は、障害レベルが致命障害である障害通知を受け取ると、同一コンピュータシステム内である他セルノードの管理コントローラ１１１−１と１１１−２へ該障害検知通知を転送する（ステップＳ５０３、図７における２）。尚、障害レベルが警告障害或いは訂正可能障害である場合は、他セルノードの管理コントローラへ障害通知を転送しない。なぜならば、障害レベルが警告障害或いは訂正可能障害の場合、障害検知セルノード内のログだけで十分障害箇所を特定できるからである。
【００３７】
セルノード１０１−３内の管理コントローラ１１１−３は、障害検知通知を受け取ると、自セルノード内のハードウェア部品のログを収集し、自管理コントローラ配下の不揮発性メモリ２０４に保持する（ステップＳ５０４−１、図６における３）。
【００３８】
これと並行して、コンピュータシステムＡ内の他の全てのセルノードにおける管理コントローラ１１１−１、１１１−２も、同様に、障害検知通知を受け取ると、自セルノード内のハードウェア部品のログを収集し、自管理コントローラ配下の不揮発性メモリ２０４に保持する（ステップＳ５０４−２、図６における３）。この際、各管理コントローラ１１１−ｎは、自セルノード内でユニークなローカルセルＩＤとログ収集した時間と障害検知通知に埋め込まれて来た障害レベル（致命障害）も一緒に保持する。
【００３９】
図３に、この時点で各セルノードの不揮発性メモリ２０４に保持されている情報の一例を示す。セルノード１０１−１では、今までに２つのログがローカルログＩＤ＝０と１に保持されているため、セルノード１０１−３内のメモリ２０１−１が検知した致命障害に起因して収集・保持されたログは、ローカルログＩＤ＝２に保持される。
【００４０】
セルノード１０１−２では、今までに１つのログがローカルログＩＤ＝０に保持されているため、セルノード１０１−３内のメモリ２０１−１が検知した致命障害に起因して収集・保持されたログは、ローカルログＩＤ＝１に保持される。セルノード１０１−３では、今までに保持されたログが無いので、セルノード１０１−３内のメモリ２０１−１が検知した致命障害に起因して収集・保持されたログは、ローカルログＩＤ＝０に保持される。
【００４１】
セルノード１０１−３内の管理コントローラ１１１−３は、自セルノード内のログ収集・保持が完了すると、統括管理コントローラである管理コントローラ１１１−１へ、ローカルログＩＤとログ収集時間と障害レベルを添えてログ収集通知を伝送路１５１を介して発行する（ステップＳ５０５−１、図６における４）。
【００４２】
これと並行して、コンピュータシステムＡ内の他の全てのコンピュータシステムＡ内の他の全てのセルノードにおける管理コントローラ１１１−１、１１１−２も、同様に、自セルノード内のログ収集・保持が完了すると、統括管理コントローラである管理コントローラ１１１−１へ、ローカルログＩＤとログ収集時間と障害レベルを添えてログ収集通知を伝送路１５１を介して発行する（ステップＳ５０５−２、図６における４）。
【００４３】
すなわち、セルノード１０１−１の管理コントローラ１１１−１はローカルログＩＤ＝２を報告し、セルノード１０１−２の管理コントローラ１１１−２はローカルログＩＤ＝１を報告し、セルノード１０１−３の管理コントローラ１１１−３はローカルログＩＤ＝０を報告する。
【００４４】
統括管理コントローラである管理コントローラ１１１−１は、コンピュータシステムＡ内の何れかのセルノードから障害レベルが致命障害であるログ収集通知を受け取ると、タイマーをスタートさせる。このタイマーはある一定時間経過するとタイムアウトする。統括管理コントローラは、タイマーがタイムアウトするより前に受け取った障害レベルが致命障害である複数のログ収集通知を、セルノード１０１−３内のメモリ２０１−１が検知した致命障害に起因して収集・保持されたログであると判断する（ステップＳ５０６、図６における５）。
【００４５】
統括管理コントローラである管理コントローラ１１１−１は、図４に示すログ管理テーブルを保持しており、ステップＳ５０６で判断した結果を格納する（ステップＳ５０７、図６における６）。図４におけるグローバルログＩＤ＝３のログが、セルノード１０１−３内のメモリ２０１−１が検知した致命障害に起因して収集・保持されたログであることを示す。
【００４６】
統括管理コントローラが保持するログ管理テーブルと各セルノードが不揮発性メモリ２０４に保持するログの対応方法を図８に示す。グローバルログＩＤ＝０は、セルノード１０１−２が保持するローカルログＩＤ＝０に対応し、グローバルログＩＤ＝１は、セルノード１０１−１が保持するローカルログＩＤ＝０に対応し、グローバルログＩＤ＝２は、セルノード１０１−１が保持するローカルログＩＤ＝１に対応し、グローバルログＩＤ＝３は、セルノード１０１−１が保持するローカルＩＤ＝２とセルノード１０１−２が保持するローカルログＩＤ＝１とセルノード１０１−３が保持するローカルログＩＤ＝０に対応している。即ち、統括管理コントローラが保持するログ管理テーブルは、障害検知毎に新たなグローバルＩＤが付加され、その障害検知に起因して収集・保持されたログがどこに存在するどれなのかが判る。
【００４７】
以上により、何れかのセルノード内での障害の発生からログの登録までの一連の処理が完了する。
【００４８】
（実施の形態の効果）
以上説明したように、本実施の形態によれば、コンピュータシステム内の単一障害に起因して複数セルノードで収集・保持されたログを１つのログとして管理できるため、これら複数セルノードで収集されたログを横断的に解析することができるようになり、その結果、今まで障害原因を特定できなかった障害に対しても障害原因が特定できるようになるという効果を有する。
【００４９】
本発明の実施の形態による各セルノードの管理コントローラについては、ハードウェア的に実現することは勿論として、その機能を提供するログ管理プログラムを、ハードディスク装置やＲＯＭ等の補助記憶部に格納し、そのプログラムをプロセッサで実行することにより、ソフトウェア的に実現することも可能である。
【００５０】
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形して実施することが出来る。
【００５１】
例えば、上記実施の形態では、統括管理コントローラを選択された一つのセルノードにおける管理コントローラとして利用したが、これをセルノードの外にある管理コントローラ上で実現するようにしてもよい。
【００５２】
また、上記管理コントローラにおける機能を、インタコネクトコントローラに持たせるようにしてもよい。一般的に管理コントローラ間におけるデータ伝送よりも、インタコネクトコントローラ間におけるデータ伝送のほうが高速であるので、各セルノード間におけるログデータの転送時間差を小さくするためには、この例のほうが好ましい。
【図面の簡単な説明】
【００５３】
【図１】本発明の一実施の形態によるコンピュータシステムおけるログ管理システムの構成を示すブロック図である。
【図２】図１の実施の形態におけるセルノードの構成を示すブロック図である。
【図３】各セルノードの不揮発性メモリに保持されている情報の一例を示す図である。
【図４】統括管理コントローラを有するセルノード内の不揮発性メモリで収集・保持される、ハードウェア部品ログを一元管理するログ管理テーブルの一例を示す図である。
【図５】本発明の一実施の形態によるログ管理方法における、致命障害発生から分散収集・保持されたログを管理するまでの処理フローチャートを示す図である。
【図６】図５における処理の工程を付記した本発明の一実施の形態によるログ管理システムの構成を示すブロック図である。
【図７】図５における処理の工程を付記したセルノードの構成を示すブロック図である。
【図８】統括管理コントローラが保持するログ管理テーブルと各セルノードが不揮発性メモリに保持するログの対応方法を示す図である。
【図９】関連技術によるブレードサーバの構成を示すブロック図である。
【符号の説明】
【００５４】
１００：コンピュータサーバ
１０１−ｎ：セルノード
１１０−ｎ：インタコネクトコントローラ
１１１−ｎ：管理コントローラ
１１１−１：統括管理コントローラ
１５０：伝送路
１５１：伝送路
２００−ｎ：プロセッサ
２０１−ｎ：メモリ
２０２−ｎ：Ｉ／Ｏデバイス
２０３：環境監視デバイス
２０４：不揮発性メモリ
２６０−ｎ：伝送路

【特許請求の範囲】
【請求項１】
複数のセルノードを有するコンピュータシステム内で障害が発生した場合のログデータを管理するログ管理システムであって、
各セルノード内の構成部品における障害を検知する手段と、
何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知する手段と、
前記障害の検知が前記管理コントローラに通知された場合に、前記障害の検知をコンピュータシステム内の他のセルノードに転送する手段と、
前記各セルノードにおいて、自セルノード内で検知された障害並びに前記他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持する手段と、
前記各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送する手段を備え、
前記統括管理コントローラが、
前記各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定する手段と、
前記障害要因の推定に従って前記ローカルログデータを集計してグローバルログデータとしてメモリ内に保持する手段と、
を備えたことを特徴とするコンピュータシステムにおけるログ管理システム。
【請求項２】
前記障害の検知をセルノード内の管理コントローラに通知する手段は、
障害の発生した構成部品を特定する情報、およびその障害のレベルを特定する情報を管理コントローラに通知することを特徴とする請求項１に記載のログ管理システム。
【請求項３】
前記障害のレベルを特定する情報が、
少なくともその障害が、当該コンピュータシステム全体に影響を及ぼす致命的な障害であるか否かの種別を示す情報を含むことを特徴とする請求項２に記載のログ管理システム。
【請求項４】
前記障害の検知をコンピュータシステム内の他のセルノードに転送する手段は、
前記障害のレベルを特定する情報が、致命的な障害であることを示すものである場合にのみ、前記障害の検知をコンピュータシステム内の他のセルノードに転送することを特徴とする請求項２又は請求項３に記載のログ管理システム。
【請求項５】
前記障害をローカルログデータとしてローカルメモリ内に保持する手段は、
各障害ごとに、固有のログＩＤ、ログデータの収集時間、および障害のレベルを特定する情報を保持することを特徴とする請求項１から請求項４の何れかに記載のログ管理システム。
【請求項６】
前記統括管理コントローラの各セルノードから転送されるローカルログデータにおける障害の要因を推定する手段は、
最初のローカルログデータにおける障害のレベルが致命的な障害である場合に、その転送から所定時間内に転送される致命的な障害のレベルにあるローカルログデータを、最初の障害と同一の要因によるものと推定することを特徴とする請求項１から請求項５の何れかに記載のログ管理システム。
【請求項７】
前記管理コントローラが、各セルノード内のインタコネクトコントローラであることを特徴とする請求項１から請求項６の何れかに記載のログ管理システム。
【請求項８】
選択された前記何れかのセルノード内の管理コントローラの１つを、前記統括管理コントローラとすることを特徴とする請求項１から請求項７の何れかに記載のログ管理システム。
【請求項９】
複数のセルノードを有するコンピュータシステム内で障害が発生した場合のログデータを管理するログ管理方法であって、
各セルノード内の構成部品における障害を検知するステップと、
何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知するステップと、
前記障害の検知が前記管理コントローラに通知された場合に、前記障害の検知をコンピュータシステム内の他のセルノードに転送するステップと、
前記各セルノードにおいて、自セルノード内で検知された障害並びに前記他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持するステップと、
前記各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送するステップを含み、
前記統括管理コントローラにおいて、
前記各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定するステップと、
前記障害要因の推定に従って前記ローカルログデータを集計してグローバルログデータとしてメモリ内に保持するステップを含むことを特徴とするコンピュータシステムにおけるログ管理方法。
【請求項１０】
前記障害の検知をセルノード内の管理コントローラに通知するステップは、
障害の発生した構成部品を特定する情報、およびその障害のレベルを特定する情報を管理コントローラに通知することを特徴とする請求項９に記載のログ管理方法。
【請求項１１】
前記障害のレベルを特定する情報が、
少なくともその障害が、当該コンピュータシステム全体に影響を及ぼす致命的な障害であるか否かの種別を示す情報を含むことを特徴とする請求項１０に記載のログ管理方法。
【請求項１２】
前記障害の検知をコンピュータシステム内の他のセルノードに転送するステップにおいて、
前記障害のレベルを特定する情報が、致命的な障害であることを示すものである場合にのみ、前記障害の検知をコンピュータシステム内の他のセルノードに転送することを特徴とする請求項１０又は請求項１１に記載のログ管理方法。
【請求項１３】
前記障害をローカルログデータとしてローカルメモリ内に保持するステップにおいて、
各障害ごとに、固有のログＩＤ、ログデータの収集時間、および障害のレベルを特定する情報を保持することを特徴とする請求項９から請求項１２の何れかに記載のログ管理方法。
【請求項１４】
前記統括管理コントローラの各セルノードから転送されるローカルログデータにおける障害の要因を推定するステップにおいて、
最初のローカルログデータにおける障害のレベルが致命的な障害である場合に、その転送から所定時間内に転送される致命的な障害のレベルにあるローカルログデータを、最初の障害と同一の要因によるものと推定することを特徴とする請求項９から請求項１３の何れかに記載のログ管理方法。
【請求項１５】
前記管理コントローラが、各セルノード内のインタコネクトコントローラであることを特徴とする請求項９から請求項１４の何れかに記載のログ管理方法。
【請求項１６】
選択された前記何れかのセルノード内の管理コントローラの１つを、前記統括管理コントローラとすることを特徴とする請求項９から請求項１５の何れかに記載のログ管理方法。

【図１】