説明

計算機システムおよび計算機システムの情報保存方法

【課題】冗長化された管理モジュールが保持する管理情報を、より確実にシステム内に保存可能な計算機システムおよび計算機システムにおける管理情報の保存方法を提供する。
【解決手段】計算機システム1000内で管理モジュール1100,1200の外部に外部記憶装置1410を有する。その外部記憶装置1410に、主系の管理モジュール1100が保持する管理情報1111,1311,1321と同じ情報を保存し、管理モジュール1100の交換を行った後は、外部記憶装置1410に保持される管理情報1111,1311,1321を管理モジュール1100にリストアする。また、外部記憶装置と管理モジュールとの間にスイッチ1420を有し、管理モジュールからそのスイッチを制御することで、複数台の管理モジュールから外部記憶装置に対して排他的アクセスを可能とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、計算機システムおよび計算機システムにおける管理情報の保存方法に関する。
【背景技術】
【0002】
昨今の計算機システムでは、例えばブレードサーバのように、複数のサーバを一つの管理モジュールで管理する構成が多く見られる。また、特許文献1には、「計算機システムの電源制御や障害監視等のサービスを行うサービスプロセッサをホットスタンバイ方式で二重化したシステム」が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2000−148525
【発明の概要】
【発明が解決しようとする課題】
【0004】
さて、管理モジュールを二台用意し、一台を主系、もう一台を待機系として冗長化したシステムにおいて、主系と待機系の管理モジュールが障害等で二台同時に交換しなければいけなくなった場合、管理モジュールが保持する管理情報が消失してしまうという問題がある。
【0005】
一般に、管理情報には、ログ情報など頻繁に更新される情報が含まれる。そのため、主系及び待機系の管理モジュールを二台同時に交換するより前に管理情報のバックアップを計算機システム外にある管理サーバに行っていた場合でも、管理情報を管理サーバに保存した後に管理情報が更新されると、管理モジュールが持つ管理情報と管理サーバが持つ管理情報に違いが生じる。この場合、管理モジュールが持つ管理情報と同じ管理情報を管理サーバに保存できないので、管理モジュールが持つ管理情報を回復することは困難である。
【0006】
そこで、本発明では、冗長化された管理モジュールが保持する管理情報を、より確実にシステム内に保存可能な計算機システムおよび計算機システムにおける管理情報の保存方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上述の問題の解決のため、まず、本発明では、管理モジュールとは異なる装置である外部記憶装置に、主系の管理モジュールが有する管理情報を配置する。そして、管理モジュールの交換時に、その管理情報を外部記憶装置からリストアする計算機システムとする。
【0008】
次に、本発明では、管理モジュールが外部記憶装置の管理情報を読み出す場合または書き込む場合において、主系と待機系の管理モジュールが二台同時に外部記憶装置に同時にアクセスすることを防止する機構を備える。これは、仮に主系管理モジュールと外部記憶装置が接続している状態で、待機系管理モジュールが外部記憶装置と接続すると、主系管理モジュールと外部記憶装置の接続が突然切断され、外部記憶装置の破損や管理情報の消失が発生する可能性がある。そのため、上記同時アクセスを防止する必要がある。
【0009】
つまり、本発明の計算機システムは、物理サーバと複数の管理モジュールとを有する計算機システムであり、前記計算機システムを管理する管理情報を格納する外部記憶装置と、前記物理サーバを管理する主系の管理モジュールと前記外部記憶装置とを接続するスイッチと、を有する。前記管理モジュールは、計算機制御部と、前記スイッチの接続の切り替えを制御するスイッチ制御部と、前記管理情報を記憶する管理情報記憶部と、前記複数の管理モジュールにおける前記管理情報の多重化を制御する多重化制御部と、を備える。第一の管理モジュールが主系の管理モジュールである場合、前記第一の管理モジュールのスイッチ制御部は、前記第一の管理モジュールと前記外部記憶装置とが接続するように前記スイッチを制御する。そして、前記第一の管理モジュールの計算機制御部は、前記第一の管理モジュールの管理情報記憶部に記憶される管理情報を前記外部記憶装置に保存する。さらに、前記第一の管理モジュールの多重化制御部は、待機系となる第二の管理モジュールの多重化制御部と通信し、前記第一の管理モジュールの管理情報記憶部に記憶される前記管理情報を、前記第二の管理モジュールの管理情報記憶部に保存する。
【発明の効果】
【0010】
物理サーバと複数の管理モジュールとを有する計算機システムにおいて、外部記憶装置に主系の管理モジュールの管理情報を保存し、また主系と待機系の管理モジュールが二台同時に外部記憶装置にアクセスすることを防止できるので、外部記憶装置の破損による管理情報の消失を抑制できる。
【図面の簡単な説明】
【0011】
【図1】実施例1の計算機システムの構成図
【図2】管理モジュール系決定処理を示したフローチャート
【図3】管理モジュール系情報が有する、系状態管理テーブル
【図4】主系の管理モジュールの管理モジュール管理情報を待機系管理モジュールと外部記憶装置に保存する際のシーケンス
【図5】サーバブレード管理情報を主系管理モジュールと待機系管理モジュールと外部記憶装置に保存する際のシーケンス
【図6】管理モジュール起動時の処理を示したフローチャート
【図7】主系管理モジュールが起動から動作を開始するまでのシーケンス
【図8】管理モジュール起動時の管理モジュール二重化制御部の処理を説明するフローチャート
【図9】主系管理モジュール障害時の、待機系管理モジュールが新主系管理モジュールとして起動する際のフローチャート
【図10】主系管理モジュール障害時の、待機系管理モジュールが新主系管理モジュールとして動作する際の、起動から動作を開始するまでのシーケンス
【図11】管理モジュール交替時の管理モジュール二重化制御部のフローチャート
【図12】交換部品を待機系管理モジュールとして挿入した場合の起動から動作を開始するまでのシーケンス
【図13】リストア判定処理を示すフローチャート
【図14】交換部品を主系管理モジュールとして挿入した場合の起動から、リストア処理を実施し、動作を開始するまでのシーケンス
【図15】実施例2の計算機システムの構成図
【発明を実施するための形態】
【実施例1】
【0012】
本発明を適用した計算機システムにおいて、主系の管理モジュールの管理情報を待機系の管理モジュールおよび外部記憶装置に配置した計算機システムについて、図面を用いて詳細に説明する。
【0013】
本実施例では、計算機システム内で管理モジュールの外部に外部記憶装置を有し、その外部記憶装置に主系の管理モジュールが保持する管理情報と同じ情報を保存する。管理モジュールの交換を行った後は、外部記憶装置に保持される管理情報を管理モジュールにリストアする。さらに、この外部記憶装置を管理モジュールから直接管理情報の読み出しおよび書き込みができるストレージとし、外部記憶装置と管理モジュール間にスイッチを有し、管理モジュールからそのスイッチを制御することで、複数台の管理モジュールから外部記憶装置に対して排他的アクセスを可能とする。
【0014】
図1は、実施例1における計算機システムの構成図である。計算機システム1000は、管理モジュール1100と管理モジュール1200、コンポーネント1300、フロントパネルモジュール1400を有している。管理モジュール1100と1200は、計算機システム1000内各モジュールの管理を行っており、電源の制御、障害状態の監視、管理情報の管理等、計算機システム1000全体の管理を行っている。管理モジュール1100と1200との冗長構成では、主系として動作していた管理モジュールが停止した場合、待機系の管理モジュールは新たに主系となり、これらの管理情報を引き継ぐ。そのため、主系管理モジュールが持つ管理情報を、待機系である管理モジュールにも保持しておく方式を採る。
【0015】
コンポーネント1300とは、管理モジュール1100と1200が管理対象とする計算機システム1000内のモジュールを意味しており、本実施例では、サーバブレード1310とスイッチモジュール1320がコンポーネント1300に含まれる。サーバブレード1310は、サーバブレード管理情報1311とサーバブレードの状態監視を行うBMC(Baseboard Management Controller)1312を有する。スイッチモジュール1320は、スイッチモジュール管理情報1321とスイッチモジュール制御部1322を有する。
【0016】
フロントパネルモジュール1400には、外部記憶装置1410と、その外部記憶装置1410と管理モジュール1100または1200を仲介するスイッチ1420を有する。外部記憶装置1410は、具体例としてUSBメモリが挙げられる。
【0017】
管理モジュール1100は、SDカード1110と計算機制御部1120と管理モジュール系情報1130と外部記憶装置接続部1140を有する。管理モジュール1200は、SDカード1210と計算機制御部1220と管理モジュール系情報1230と外部記憶装置接続部1240を有する。管理モジュール1100、1200は、計算機システム管理機能として、電源の制御、障害状態の監視などに加えて、サーバ等の計算機システム内モジュールの動作に関する設定情報やログ情報などの管理情報を保持している。
【0018】
SDカード1110と1210は、管理モジュール管理情報1111とコンポーネント1300の管理情報とを格納する。本実施例では、コンポーネント1300の管理情報に、サーバブレード管理情報1311とスイッチモジュール管理情報1321が含まれる。SDカード1110と1210は、管理情報を記憶する管理情報記憶部の実施例の一つであり、情報記憶媒体であればSDカードに限定する必要はなく、他の例としてはUSBメモリ、コンパクトフラッシュ(登録商標)、メモリーカード等が挙げられる。
【0019】
計算機制御部1120と1220は、計算機システム管理情報制御部1121と1221、スイッチ制御部1122と1222、外部記憶装置制御部1123と1223、サーバブレード管理情報制御部1124と1224、スイッチモジュール管理情報制御部1125と1225、管理モジュール二重化制御部1126と1226を有する。
【0020】
計算機システム管理情報制御部1121と1221は、サーバブレード管理情報1311またはスイッチモジュール管理情報1321が保存された際に、その情報をSDカード1110、1210内に保存する役割を担う。スイッチ制御部1122と1222は、スイッチ1420を制御し、外部記憶装置1410と管理モジュール1100または1200との接続の切り替えを制御する役割を担う。
【0021】
外部記憶装置制御部1123と1223は、スイッチ1420を介して外部記憶装置1410に接続し、サーバブレード管理情報1311、スイッチモジュール管理情報1321、管理モジュール管理情報1111を格納する役割を担う。また、外部記憶装置制御部1123、1223は、管理モジュール1100、1200と外部記憶装置1410との接続状態を外部記憶装置接続部1140、1240で制御する。
【0022】
サーバブレード管理情報制御部1124と1224は、サーバブレード1310のサーバブレード管理情報1311が更新された際に、BMC1312と通信し、更新されたサーバブレード管理情報1311をSDカード1110と1210に保存する役割を担う。同様に、スイッチモジュール管理情報制御部1125と1225は、スイッチモジュール1320のスイッチモジュール管理情報1321が更新された際に、スイッチモジュール制御部1322と通信し、更新されたスイッチモジュール管理情報1321をSDカード1110と1210に保存する役割を担う。管理モジュール二重化制御部1126、1226は、管理モジュール1100と管理モジュール1200が通信するための役割を担う。
【0023】
管理モジュール系情報1130と1230は、計算機システム内の他の管理モジュール(以下、他系管理モジュール)の存在の有無に関する情報や管理モジュールの系状態の情報を含む。管理モジュール系情報1130と1230は、SDカード、USBメモリ、コンパクトフラッシュ、メモリーカード等の情報記憶媒体に格納される。
【0024】
管理モジュール1100、1200は、前述の通り電源制御、障害監視、情報管理等の計算機システム1000全体の管理の役割を担っている。管理モジュール自身に障害が発生すると、計算機システム1000の管理が不能となる。計算機システム1000の管理が不能となる状態を防ぐために、管理モジュール1100、1200は計算機システム1000に二台搭載して二重化している。
【0025】
管理モジュール1100と1200は、片側の管理モジュールのみが電源制御、障害監視、情報管理等の管理モジュールの機能を実施し(これを主系と呼ぶ)、もう片側の管理モジュールは主系の管理モジュールに障害が発生した際にその処理を引き継ぐために待機状態となっている(これを待機系と呼ぶ)。主系、待機系の決定は管理モジュールの起動後に行う。管理モジュール1100、1200は、起動直後は系状態未定の状態で起動し、どちらの管理モジュールが主系となるかを決定するための系決定処理を行なう。
【0026】
また、管理モジュールを多重化するため、計算機システムが複数の管理モジュールを有していてもよい。この場合、一つの管理モジュールが主系となり、その他の管理モジュールは待機系となる。
【0027】
図2は、管理モジュールの系決定処理の一例を示したフローチャートである。以下、管理モジュール1100の系決定処理を例として説明する。
【0028】
(S2000)管理モジュール1100が系決定処理を開始する。
【0029】
(S2001)管理モジュール1100の管理モジュール二重化制御部1126は、他系管理モジュール二重化制御部1226と通信し、他系管理モジュールが存在するかどうかを判定する。
【0030】
(S2007)S2001の判定の結果、他系管理モジュールが存在しない場合は、管理モジュール1100が主系管理モジュールとして起動することが決定する。
【0031】
(S2002)S2001の判定の結果、他系管理モジュールが存在する場合は、管理モジュール二重化制御部1126は、管理モジュール系情報1130を参照し、他系管理モジュール1200の系は主系に決定しているか判定する。
【0032】
(S2006)S2002の判定の結果、管理モジュール1200の系が主系に決定している場合は、管理モジュール1100が待機系として起動することが決定する。
【0033】
(S2003)S2002の判定の結果、他系管理モジュール1200の系が主系に決定していない場合は、管理モジュール二重化制御部1126は計算機システム管理情報制御部1121にSDカード1110を参照する。次に管理モジュール二重化制御部1126は、他系管理モジュール二重化制御部1226に要求を出し、SDカード1210を参照する。自系管理モジュール1100の管理情報と他系管理モジュール1200の管理情報のタイムスタンプを比較し、どちらのタイムスタンプが新しいか判定する。
【0034】
(S2004)S2003の判定の結果、自系管理モジュール1100の管理情報が他系管理モジュール1200の管理情報のタイムスタンプより新しい場合、管理モジュール1100が主系として起動することが決定する。
【0035】
(S2005)S2003の判定の結果、他系管理モジュール1200の管理情報が自系管理モジュール1100の管理情報のタイムスタンプより新しい場合、管理モジュール1100が待機系として起動することが決定する。
【0036】
(S2008)管理モジュール系決定処理が終了する。
【0037】
系決定処理が終わると二台の管理モジュール1100と1200のうち、一台が主系となり、他方の一台が待機系となる。以下、本実施例において、特に断りのない限り、主系管理モジュールを管理モジュール1100、待機系管理モジュールを管理モジュール1200とする。管理モジュール1100と1200に障害が起きると系状態は障害となる。主系であった管理モジュールが障害状態になると、管理モジュール交替が発生し、待機系であった管理モジュールが主系になる。管理モジュール起動時と交替時には、系決定処理が行われ、管理モジュールの系状態が変化する可能性がある。
【0038】
系決定処理後、管理モジュール二重化制御部1126は、管理モジュールの系状態を、管理モジュール系情報1130に格納する。また、管理モジュール二重化制御部1126は、他系管理モジュールの管理モジュール二重化制御部1226に自系管理モジュール1100の系状態を送信する。管理モジュール二重化制御部1226は、管理モジュール1100の系状態を管理モジュール系情報1230に格納する。
【0039】
その系状態を格納する方法の一例として、図3に、その系状態管理テーブルを示す。系状態管理テーブル3000には、管理モジュール1100と1200の両方の系状態が格納される。また、管理モジュール起動直後には、必ず系状態管理テーブル3000の値は系状態未定を示す値に初期化される。
【0040】
SDカード1110と1210には、計算機システム1000内の管理情報を格納している。主系管理モジュール管理情報1111は、主系管理モジュール1100のユーザ設定やログ情報などの情報を含んでいる。
【0041】
サーバブレード1310は、サーバブレード管理情報1311とBMC1312を有している。サーバブレード管理情報1311はサーバブレード1310のユーザ設定やログ情報などの情報を含んでおり、サーバブレード1310が故障して部品を交換した場合などでは、この情報を復元しなければならない。このために、サーバブレード管理情報1311は更新されると、バックアップとして主系管理モジュール1100のSDカード1110と待機系管理モジュール1200のSDカード1210に保存される。サーバブレード1310が故障した場合は、SDカード1110もしくはSDカード1210の情報からリストアすることで、サーバブレード管理情報1311の情報を復元する。サーバブレード1310は、一つとは限らず、複数あってもよい。
【0042】
同様に、スイッチモジュール1320は、スイッチモジュール管理情報1321とスイッチモジュール制御部1322を有している。スイッチモジュール管理情報1321はスイッチモジュール1320のユーザ設定やログ情報などの情報を含んでおり、スイッチモジュール1320が故障して部品を交換した場合などでも、この情報を復元しなければならない。このために、スイッチモジュール管理情報1321は更新されると、バックアップとして主系管理モジュール1100のSDカード1110と待機系管理モジュール1200のSDカード1210に保存される。スイッチモジュール1320が故障した場合は、SDカード1110もしくはSDカード1210の情報からリストアすることで、スイッチモジュール管理情報1321の情報を復元する。スイッチモジュール1320は、一つとは限らず、複数あってもよい。
【0043】
主系管理モジュール1100がSDカード1110に格納している管理モジュール管理情報1111とサーバブレード管理情報1311とスイッチモジュール管理情報1321は、主系管理モジュール1100と待機系管理モジュール1200の冗長構成で二重化している。以下本実施例において、SDカード1110またはSDカード1210または外部記憶装置1410に格納されている、管理モジュール管理情報1111とサーバブレード管理情報1311とスイッチモジュール管理情報1321を総称して管理情報と呼ぶ。SDカード1110内管理情報を二重化する目的は管理モジュール1100が壊れて交換する場合、管理情報のバックアップが消失することを防ぐためである。
【0044】
一般に、管理モジュールの冗長構成で管理情報を保存する場合、管理モジュールが二台同時に障害状態になり交換するときは、計算機システム内から管理モジュールが管理している管理情報が消失するという問題点がある。また、ハードウェアの不良等の理由により管理モジュールを両方同時に交換するときも、二台同時に交換すると管理情報が消失してしまうため事前にバックアップが必要で、バックアップ作業に多くの時間を費やすという問題点がある。管理モジュールの交換中は、管理モジュールの計算機システム管理機能を継続できないため、稼働している計算機システムを停止させて作業を行うこととなるため、停止期間は最短であることが求められる。
【0045】
本実施例では、上記問題点を解決するために、計算機システム1000内であって、さらに管理モジュール内SDカード1110と1210ではない場所にも管理情報を自動的に保存し、管理モジュール1100と1200を二台同時に交換するときに、管理モジュール1100と1200以外の保存場所から管理情報をリストア出来るようにする。
【0046】
本実施例では、管理情報を自動保存する場所として、フロントパネルモジュール1400中の外部記憶装置1410を選択している。外部記憶装置1410は、管理モジュール1100もしくは1200から、直接ストレージとして認識されている。一つのストレージは、一つのシステム(この場合は管理モジュール)とのみ接続される。そのため、フロントパネルモジュール1400には、外部記憶装置1410と管理モジュール1100、1200を接続するスイッチ1420を有している。本スイッチ1420により、外部記憶装置1410は管理モジュール1100、1200のいずれかとしか接続されないようにし、さらに本スイッチ1420を管理モジュール1100、1200間で切り替えることで、外部記憶装置1410と管理モジュール1100、1200の接続の切り替えを実現する。
【0047】
本実施例では、従来管理モジュール1100と1200の2箇所で冗長化していた管理情報を、管理モジュール1100と1200と外部記憶装置1410の3箇所で冗長化する。それを実現するための管理情報保存要件は以下である。
【0048】
<管理情報保存要件>必ず主系管理モジュール1100内SDカード1110に格納されている管理情報と、待機系管理モジュール1200内SDカード1210に格納されている管理情報と、外部記憶装置1410内に格納されている管理情報とは同じものになるようにする。
【0049】
図4は、主系管理モジュール1100に管理モジュール管理情報1111が保存された場合に、管理モジュール管理情報1111を待機系管理モジュール1200と外部記憶装置1410に保存する際のシーケンスの例である。
【0050】
(S4000)主系管理モジュール1100の計算機システム管理情報制御部1121は、SDカード1110に管理モジュール管理情報格納要求を送信する。
【0051】
(S4001)SDカード1110は、管理モジュール管理情報1111を格納する。
【0052】
(S4002)SDカード1110は、計算機システム管理情報制御部1121に管理モジュール管理情報格納応答を送信する。
【0053】
(S4003)計算機システム管理情報制御部1121は、管理モジュール管理情報格納応答を受信し、管理モジュール二重化制御部1126に待機系管理モジュール状態情報取得要求を送信する。
【0054】
(S4004)管理モジュール二重化制御部1126は、待機系管理モジュール状態情報取得要求を受信し、管理モジュール二重化制御部1126は管理モジュール系情報1130から、待機系管理モジュール状態情報を取得する。管理モジュール二重化制御部1126は、計算機システム管理情報制御部1121に、取得した待機系管理モジュール状態情報を待機系管理モジュール状態情報取得応答として送信する。
【0055】
(S4005)計算機システム管理情報制御部1121は、待機系管理モジュール状態情報取得応答を受信し、待機系管理モジュールが存在することを確認し、管理モジュール二重化制御部1126に管理モジュール管理情報格納要求を送信する。
【0056】
(S4006)管理モジュール二重化制御部1126は、S4005の管理モジュール管理情報格納要求を受信し、待機系の管理モジュール二重化制御部1226に管理モジュール管理情報格納要求を送信する。
【0057】
(S4007)管理モジュール二重化制御部1226は、S4006の管理モジュール管理情報格納要求を受信し、計算機システム管理情報制御部1221に管理モジュール管理情報格納要求を送信する。
【0058】
(S4008)計算機システム管理情報制御部1221は、S4007の管理モジュール管理情報格納要求を受信し、SDカード1210に管理モジュール管理情報格納要求を送信する。
【0059】
(S4009)SDカード1210に管理モジュール管理情報1111が格納される。
【0060】
(S4010)SDカード1210は、計算機システム管理情報制御部1221に管理モジュール管理情報格納応答を送信する。
【0061】
(S4011)計算機システム管理情報制御部1221は、S4010の管理モジュール管理情報格納応答を受信し、管理モジュール二重化制御部1226に管理モジュール管理情報格納応答を送信する。
【0062】
(S4012)管理モジュール二重化制御部1226は、S4011の管理モジュール管理情報格納応答を受信し、主系の管理モジュール二重化制御部1126に管理モジュール管理情報格納応答を送信する。
【0063】
(S4013)管理モジュール二重化制御部1126は、S4012の管理モジュール管理情報格納応答を受信し、計算機システム管理情報制御部1121に管理モジュール管理情報格納応答を送信する。
【0064】
(S4014)計算機システム管理情報制御部1121は、S4013の管理モジュール管理情報格納応答を受信し、外部記憶装置制御部1123に管理モジュール管理情報外部記憶装置格納要求を送信する。
【0065】
(S4015)外部記憶装置制御部1123は、管理モジュール管理情報外部記憶装置格納要求を受信し、外部記憶装置1410に管理モジュール管理情報外部記憶装置格納要求を送信する。
【0066】
(S4016)外部記憶装置1410に管理モジュール管理情報1111が格納される。
【0067】
(S4017)外部記憶装置1410は、外部記憶装置制御部1123に管理モジュール管理情報外部記憶装置格納応答を送信する。
【0068】
(S4018)外部記憶装置制御部1123は、管理モジュール管理情報外部記憶装置格納応答を受信し、計算機システム管理情報制御部1121に管理モジュール管理情報外部記憶装置格納応答を送信する。
【0069】
以上のステップにより、主系の管理モジュール1100が有するSDカード1110に格納された管理モジュール管理情報1111が、待機系管理モジュール1200内SDカード1210、及び外部記憶装置1410に保存される。これにより上述の管理情報保存要件を満たす。
【0070】
図5は、サーバブレード1310にサーバブレード管理情報1311が保存された場合に、それを管理モジュールが管理情報として保存する際のシーケンスである。
【0071】
(S5000)BMC1312は、主系のサーバブレード管理情報制御部1124にサーバブレード管理情報更新通知を送信する。
【0072】
(S5001)サーバブレード管理情報制御部1124は、サーバブレード管理情報更新通知を受信し、BMC1312にサーバブレード管理情報取得要求を送信する。
【0073】
(S5002)BMC1312は、サーバブレード管理情報取得要求を受信し、サーバブレード管理情報制御部1124にサーバブレード管理情報取得応答を送信する。
【0074】
(S5003)サーバブレード管理情報制御部1124は、サーバブレード管理情報取得応答を受信し、計算機システム管理情報制御部1121にサーバブレード管理情報格納要求を送信する。
【0075】
(S5004)計算機システム管理情報制御部1121は、S5003のサーバブレード管理情報格納要求を受信し、SDカード1110にサーバブレード管理情報格納要求を送信する。
【0076】
(S5005)SDカード1110にサーバブレード管理情報が格納される。(S5006)SDカード1110は、計算機システム管理情報制御部1121にサーバブレード管理情報格納応答を送信する。
【0077】
(S5007)計算機システム管理情報制御部1121は、サーバブレード管理情報格納応答を受信し、管理モジュール二重化制御部1126に待機系管理モジュール状態情報取得要求を送信する。
【0078】
(S5008)管理モジュール二重化制御部1126は、待機系管理モジュール状態情報取得要求を受信し、管理モジュール系情報1130から待機系管理モジュール状態情報を取得する。計算機システム管理情報制御部1121に、取得した待機系管理モジュール状態情報を待機系管理モジュール状態情報取得応答として送信する。
【0079】
(S5009)計算機システム管理情報制御部1121は、待機系管理モジュール状態情報取得応答を受信し、待機系管理モジュール1200が存在することを確認し、管理モジュール二重化制御部1126にサーバブレード管理情報格納要求を送信する。
【0080】
(S5010)管理モジュール二重化制御部1126は、サーバブレード管理情報格納要求を受信し、待機系の管理モジュール二重化制御部1226にサーバブレード管理情報格納要求を送信する。
【0081】
(S5011)管理モジュール二重化制御部1226は、S5010のサーバブレード管理情報格納要求を受信し、計算機システム管理情報制御部1221にサーバブレード管理情報格納要求を送信する。
【0082】
(S5012)計算機システム管理情報制御部1221は、S5011のサーバブレード管理情報格納要求を受信し、SDカード1210にサーバブレード管理情報格納要求を送信する。
【0083】
(S5013)SDカード1210にサーバブレード管理情報1311が格納される。すなわち、管理モジュール1100の二重化制御部1126は、待機系となる管理モジュール1200の二重化制御部1226に、管理モジュール1100のSDカード1110に保存される管理情報を送信する。そして、二重化制御部1226は受信した管理情報を、管理モジュール1200のSDカード1210に保存する。
【0084】
(S5014)SDカード1210は、計算機システム管理情報制御部1221にサーバブレード管理情報格納応答を送信する。
【0085】
(S5015)計算機システム管理情報制御部1221は、サーバブレード管理情報格納応答を受信し、管理モジュール二重化制御部1226にサーバブレード管理情報格納応答を送信する。
【0086】
(S5016)管理モジュール二重化制御部1226は、S5015のサーバブレード管理情報格納応答を受信し、管理モジュール二重化制御部1126にサーバブレード管理情報格納応答を送信する。
【0087】
(S5017)管理モジュール二重化制御部1126は、S5016のサーバブレード管理情報格納応答を受信し、計算機システム管理情報制御部1121にサーバブレード管理情報格納応答を送信する。
【0088】
(S5018)計算機システム管理情報制御部1121は、S5017のサーバブレード管理情報格納応答を受信し、外部記憶装置制御部1123にサーバブレード管理情報外部記憶装置格納要求を送信する。
【0089】
(S5019)外部記憶装置制御部1123は、サーバブレード管理情報外部記憶装置格納要求を受信し、外部記憶装置1410にサーバブレード管理情報外部記憶装置格納要求を送信する。
【0090】
(S5020)外部記憶装置1410にサーバブレード管理情報が格納される。
【0091】
(S5021)外部記憶装置1410は、外部記憶装置制御部1123にサーバブレード管理情報外部記憶装置格納応答を送信する。
【0092】
(S5022)外部記憶装置制御部1123は、サーバブレード管理情報外部記憶装置格納応答を受信し、計算機システム管理情報制御部1121にサーバブレード管理情報外部記憶装置格納応答を送信する。
【0093】
管理情報保存要件を満たすために、管理モジュール管理情報1111またはサーバブレード管理情報1311が更新されてそれを管理モジュールが保存する際は、まずSDカード1110に管理情報を保存し(S4001、S5005)、次にSDカード1210に保存し(S4009、S5013)、最後に外部記憶装置1410内に情報を保存する(S4016、S5020)。
【0094】
また、スイッチモジュール1320にスイッチモジュール管理情報1321が保存された場合に、それを管理モジュールが管理情報として保存する際についても、上述の図5とほぼ同様のシーケンスとなる。
【0095】
例えば、図5のシーケンスにおいて、サーバブレード1310をスイッチモジュール1320に、サーバブレード管理情報1311をスイッチモジュール管理情報1321に、BMC1312をスイッチモジュール制御部1322に、サーバブレード管理情報制御部1124をスイッチモジュール管理情報制御部1125と置き換えて、スイッチモジュール管理情報1321をSDカード1110とSDカード1210と外部記憶装置に保存するシーケンスとなる。
【0096】
管理モジュール1100が主系管理モジュールである場合、スイッチ制御部1122は、主系の管理モジュール1100と外部記憶装置1410とが接続するようにスイッチ1420を制御する。このため、主系管理モジュールと待機系管理モジュールが二台同時にアクセスすることによる外部記憶装置の破損を防止して、主系管理モジュール内の管理情報を外部記憶装置に保存できる。
【0097】
外部記憶装置1410は、前述の通り管理モジュール1100または1200から直接ストレージとして認識されているため、管理モジュール1200と外部記憶装置1410が接続している状態で、スイッチ1420を切り替えて管理モジュール1100と接続すると、外部記憶装置1410と管理モジュール1200の接続が突然切れる。
【0098】
このとき、外部記憶装置1410が破損したり、管理モジュール1200において、外部記憶装置1410が突然切断されたなどの期待しないログを取ったりという問題が生じる可能性がある。
【0099】
外部記憶装置1410に更新された管理情報を保存する際に、以下に示すスイッチ接続用件を満たせば、上記の問題点を解決できる。
【0100】
<スイッチ接続要件>外部記憶装置1410は、主系管理モジュールと接続する。また、外部記憶装置1410は、待機系管理モジュールと接続してはならない。さらに、外部記憶装置1410は、系が決定する前に管理モジュールと接続してはならない。
【0101】
このスイッチ接続要件は、前述のスイッチ制御部1122、1222によるスイッチ1420の制御のみでは実現できない。スイッチ1420が必ず主系または待機系どちらかの管理モジュールと接続状態であるとすると、管理モジュール1100,1200が両方存在する状態で起動した場合、その時点で系状態未定のどちらかの管理モジュールと接続してしまうからである。
【0102】
本実施例では、このスイッチ接続要件を実現するために、スイッチ1420の制御とは別に、外部記憶装置制御部1123,1223で、その管理モジュールが外部記憶装置1410と接続するかどうかを制御する。実施例として、管理モジュール1100,1200が、スイッチ1420と接続する外部記憶装置接続部1140,1240を有する計算機システムについて説明する。
【0103】
外部記憶装置制御部1123,1223は、外部記憶装置接続部1140,1240の有する接続ポートを閉じることにより計算機制御部1100,1200とスイッチ1420とが接続しない状態とし、接続ポートを開くことにより計算機制御部1100,1200とスイッチ1420とが接続する状態とする。
【0104】
管理モジュール1100、1200が起動した直後は、外部記憶装置制御部1123、1223はいずれも、管理モジュール1100、1200と外部記憶装置1410とが接続しない状態とする。その後、系決定処理により系状態が決定した時点で、主系管理モジュールとなった1100では、スイッチ制御部1122がスイッチ1420を管理モジュール1100側に向け、次に外部記憶装置制御部1123が管理モジュール1100と外部記憶装置1410とが接続する状態とする。
【0105】
待機系管理モジュールとなった1200では、スイッチ制御部1222はスイッチ1420の制御をせず、外部記憶装置制御部1223は外部記憶装置1410と接続しない状態のままとする。主系管理モジュール1100に障害が発生し、待機系管理モジュールであった管理モジュール1200が主系となった場合、外部記憶装置制御部1123が管理モジュール1100と外部記憶装置1410とが接続しない状態とし、スイッチ制御部1222がスイッチ1420を管理モジュール1200側に向け、次に外部記憶装置制御部1223が外部記憶装置1410と接続する状態とする。
【0106】
具体例として、外部記憶装置1410がUSBメモリであり、管理モジュール1100が外部記憶装置制御部1123と接続されたUSBポートを有し、管理モジュール1200が外部記憶装置制御部1223と接続されたUSBポートを有する場合において、外部記憶装置制御部1123,1223は、USBメモリと接続しない状態とするときUSBポートを閉じ、USBメモリと接続する状態とするときUSBポートを開く。
【0107】
すなわち、管理モジュール1100,1200の系状態が未定のとき、または系状態が変化するときには接続ポートが閉じており、管理モジュール1100,1200の系状態が決定し、スイッチが主系の管理モジュールに向けられた後に主系の管理モジュールの接続ポートを開く。このとき、待機系の管理モジュールの接続ポートは閉じた状態を継続する。このため、外部記憶装置1410と管理モジュール1100,1200との接続が突然切れて、外部記憶装置1410が破損したり、管理モジュール1100,1200において、外部記憶装置1410が突然切断されたなどの期待しないログを取ったりすることを防止できる。
【0108】
また、本実施例では管理情報保存の要件より、主系管理モジュール内管理情報と待機系管理モジュール内管理情報と外部記憶装置内管理情報を同じものにする。外部記憶装置1410に格納されている管理情報は、管理モジュール1100が主系として起動すると決まった直後に、主系管理モジュール1100が、SDカード1110の管理情報と外部記憶装置1410の管理情報を同期する処理を行う。待機系管理モジュール1200に格納されている管理情報は、管理モジュール1200が待機系として起動すると決まった直後に、待機系管理モジュール1200が、SDカード1110の管理情報を取得しに行き、SDカード1210にSDカード1110と同じ管理情報を保存する処理を行う。
【0109】
管理モジュールが障害などで壊れた際、交換部品に交換する必要がある。管理モジュール1100と1200両方が存在する状態で、待機系管理モジュールである1200を交換する場合、交換された待機系管理モジュール1200は待機系として起動するので、主系管理モジュール1100が有する管理情報を同期し、管理情報が消失することは無い。主系管理モジュールである1100を交換する場合も、主系管理モジュール1100が障害となった時点で管理モジュール系交替が行われ、管理モジュール1200が主系となるため、管理モジュール1100は交換する時点で待機系となっている。そのため、管理モジュール1200の交換時と同様となる。
【0110】
一方、管理モジュールとして管理モジュール1100のみが存在する状態で管理モジュール1100を交換する場合、管理モジュール1100を取り外した時点で、計算機システム1000内には外部記憶装置1410にしか管理情報が無い状態となっている。この状態で、交換した管理モジュール1100が主系として起動すると決まった際に、SDカード1110の管理情報を外部記憶装置1410に同期する処理を実施してしまうと、外部記憶装置1410の管理情報がSDカード1110の管理情報で上書きされてしまい、交換前に保持していた管理情報が消失してしまう。本来は、外部記憶装置1410の管理情報で、SDカード1110の管理情報をリストアしなければならない。
【0111】
そのため、管理モジュールは主系として動作することが決まった時点で、管理モジュール自身が交換直後の状態であれば外部記憶装置1410の管理情報でSDカード1110の管理情報をリストアし、そうでない場合はSDカード1110の管理情報を外部記憶装置1410に同期する必要がある。ここでの管理情報の同期処理かリストア処理を行うかの判定処理を、以後リストア判定処理と呼ぶ。
【0112】
図6は、管理モジュールが起動する時の処理を示すフローチャートである。
【0113】
(S6000)管理モジュール1100が起動処理を開始する。
【0114】
(S6001)管理モジュール1100が起動した直後に、管理モジュール自身の初期化処理を行う。管理モジュール自身の初期化処理中では、管理モジュールに含まれるハードウェアの初期診断を実施し、管理モジュール自身に障害が発生していないかの確認を行う。また、他系の管理モジュールの二重化制御部との接続処理を実施する。
【0115】
(S6002)次に、図2に示した系決定処理を行う。
【0116】
(S6003)S6002の系決定処理における、系状態の判定処理を行う。
【0117】
(S6004)S6003の判定の結果、主系となった場合には、スイッチ制御部1122がスイッチ切り替え処理を行う。スイッチ切り替え処理では、スイッチ制御部1122が、スイッチ1420を主系管理モジュール1100側に向ける。また、外部記憶装置制御部1123は、計算機制御部1120とスイッチ1420とが接続するように接続ポートを開いた状態とする。
【0118】
(S6005)次にリストア判定処理を行う。リストア判定処理では、同期処理を行うか、リストア処理を行うかを判定している。リストア判定処理の詳細については後述する。
【0119】
(S6006)S6005のリストア判定処理の結果で次に行う処理判定を行う。
【0120】
(S6007)S6006の判定の結果、管理情報同期処理を行うことになった場合に、管理情報同期処理では、管理情報の同期を外部記憶装置1410に行う。
【0121】
(S6008)S6006の判定の結果、管理情報リストア処理を行うことになった場合は、管理情報リストア処理を実施する。管理情報リストア処理の処理内容の詳細は後述する。
【0122】
(S6010)次に、主系初期化処理を実施する。主系初期化処理では、計算機システム1000内の各モジュールの障害監視の開始や、管理モジュールの管理コンソールの有効化を実施する。主系初期化処理が完了すると、管理モジュールの計算機システム管理機能が動作し始める。
【0123】
(S6009)S6003の判定の結果、系が待機系となった場合は、管理情報取得保存処理を実施する。管理情報取得保存処理では、管理モジュール1100が待機系と決まった時点で、主系管理モジュールに管理情報取得要求を出し、取得した情報を保存することで、主系管理モジュールの有する管理情報と同じ管理情報をSDカード1110に格納し起動する。
【0124】
(S6011)次に、待機系初期化処理を実施する。待機系管理モジュールでは計算機システム管理機能は動作しないので、待機系初期化処理では主系で実施していた障害管理の開始などは実施しない。但し、管理モジュールの管理コンソールの有効化は実施する。待機系初期化処理が完了すると、管理モジュール交替するための準備が整い、これ以降に主系管理モジュールが障害となると、管理モジュール交替が発生し、計算機システム管理機能を停止させることなく計算機システムの稼動を続けることができる。
【0125】
(S6012)管理モジュール起動処理が終了する。
【0126】
図7は、主系管理モジュール1100の起動から動作を開始するまでの処理を説明するシーケンスである。
【0127】
(S7000)管理モジュール1100が起動する。
【0128】
(S7001)この時点では、管理モジュール1100がどちらの系になるか決定していないので、管理モジュール1100と外部記憶装置1410は接続しない状態とする。すなわち、外部記憶装置制御部1123は、計算機制御部1120とスイッチ1420とが接続しないように接続ポートを閉じた状態とする。
【0129】
(S7002)管理モジュール自身の初期化処理を実施する。
【0130】
(S7003)次に、図2に示した系決定処理を行う。管理モジュール1100が主系として起動することに決定する。
【0131】
(S7004)主系の管理モジュール二重化制御部1126は、スイッチ制御部1122にスイッチ切り替え要求を送信する。
【0132】
(S7005)スイッチ制御部1122は、スイッチ切り替え要求を受信し、スイッチ1420を主系管理モジュール1100側に向ける。
【0133】
(S7006)スイッチ制御部1122は、管理モジュール二重化制御部1126にスイッチ切り替え応答を送信する。
【0134】
(S7007)管理モジュール二重化制御部1126は、スイッチ切り替え応答を受信し、外部記憶装置制御部1123に管理モジュールと外部記憶装置の接続制御要求を送信する。
【0135】
(S7008)外部記憶装置制御部1123は、管理モジュールと外部記憶装置の接続制御要求を受信し、接続ポートを開き、管理モジュール1100と外部記憶装置1410とを接続する。
【0136】
(S7009)外部記憶装置制御部1123は、管理モジュール二重化制御部1126に管理モジュールと外部記憶装置の接続制御応答を送信する。
【0137】
(S7010)管理モジュール二重化制御部1126は、管理モジュールと外部記憶装置の接続制御応答を受信し、計算機システム管理情報制御部1121に管理情報同期または管理情報リストア要求を送信する。
【0138】
(S7011)計算機システム管理情報制御部1121は、管理情報同期処理または管理情報リストア処理要求を受信し、リストア判定処理を実施する。リストア判定処理は図6のS6005であり、この処理内容は管理情報リストア方法の説明で後述する。
【0139】
(S7012)S7011の判定の結果、管理情報同期に決定し、計算機システム管理情報制御部1121は、SDカード1110に管理情報取得要求を送信する。
【0140】
(S7013)SDカード1110は、管理情報取得要求を受信し、SDカード1110に保持している管理情報を管理情報取得応答として、計算機システム管理情報制御部1121に送信する。
【0141】
(S7014)計算機システム管理情報制御部1121は、管理情報取得応答を受信し、外部記憶装置制御部1123に、取得した管理情報を管理情報格納要求として送信する。
【0142】
(S7015)外部記憶装置制御部1123は、S7014の管理情報格納要求を受信し、外部記憶装置1410に管理情報格納要求を送信する。
【0143】
(S7016)外部記憶装置1410に管理情報が格納される。すなわち、外部記憶装置制御部1123は、管理モジュール1100のSDカード1110(管理情報記憶部)に記憶される管理情報を、前記外部記憶装置1410に保存する。
【0144】
(S7017)外部記憶装置1410は、外部記憶装置制御部1123に管理情報格納応答を送信する。
【0145】
(S7018)外部記憶装置制御部1123は、S7017の管理情報格納応答を受信し、計算機システム管理情報制御部1121に管理情報格納応答を送信する。
【0146】
(S7019)計算機システム管理情報制御部1121は、S7018の管理情報格納応答を受信し、管理モジュール二重化制御部1126に管理情報同期処理またはリストア処理応答を送信する。
【0147】
(S7020)主系初期化処理を実施する。
【0148】
(S7021)管理モジュールが動作開始する。
【0149】
本実施例において、スイッチ1420の切り替えをするためのスイッチ切り替え要求S7004、外部記憶装置1410との接続をするための管理モジュール1100と外部記憶装置1410の接続制御要求S7007、管理情報同期処理をするための管理情報同期処理または管理情報リストア処理要求S7010の順番・実施を担っているのが管理モジュール二重化制御部1126である。
【0150】
図8は、管理モジュール1100の起動時における管理モジュール二重化制御部1126の処理を説明するフローチャートの例である。
【0151】
(S8000)管理モジュール二重化制御部1126が処理を開始する。
【0152】
(S8001)次に、図2に示した系決定処理を行う。
【0153】
(S8002)S8001の系決定処理の系状態結果を判定する。
【0154】
(S8003)S8002の判定の結果、管理モジュール1100の系が主系となった場合には、スイッチ制御部1122にスイッチ切り替え要求を送信する。一方、S8002の判定の結果、系が主系でない場合は、何もしない。
【0155】
(S8004)次に、外部記憶装置制御部1123に管理モジュール1100と外部記憶装置1410の接続制御要求を送信する。
【0156】
(S8005)計算機システム管理情報制御部1121に管理情報同期処理または管理情報リストア処理要求を出す。
【0157】
(S8006)管理モジュール1100起動時における管理モジュール二重化制御部1126の処理を終了する。
【0158】
次に、管理モジュール交替時について説明する。図9は、主系であった管理モジュール1100が障害となり、待機系であった管理モジュール1200が新しく主系管理モジュール(新主系管理モジュール)として起動する際の、管理モジュール1200の処理を説明するフローチャートである。
【0159】
(S9000)管理モジュールの交替が発生する。例えば、主系であった管理モジュール1100が障害となる場合である。
【0160】
(S9001)まず、管理モジュールの主系処理引き継ぎ処理を行う。管理モジュールの主系処理引き継ぎ処理とは、主系であった管理モジュール1100で実施していた処理を、新主系管理モジュール1200で実施するようにするための処理である。処理の例として、障害監視や外部インターフェースポートのオープンが挙げられる。
【0161】
(S9002)次に、スイッチ1420の切り替え処理では、新主系管理モジュール1200のスイッチ制御部1222が、スイッチ1420を管理モジュール1200側に向ける。
【0162】
(S9003)管理情報同期処理では、管理情報の同期を外部記憶装置1410に行う。
【0163】
(S9004)主系初期化処理を行う。
【0164】
(S9005)管理モジュール交替が終了し、管理モジュール1200が主系の管理モジュールとして動作する。
【0165】
図10は、管理モジュール1100が障害となり、管理モジュール1200が新主系管理モジュールとして動作する際の、管理モジュール1200の処理を説明するシーケンスである。図7と重複する点があるので、ここでは主に図7との相違点を挙げる。
【0166】
(S10000)管理モジュールの系交替契機が検出される。
【0167】
(S10001)新主系管理モジュールの二重化制御部1226が主系の処理を引き継ぐ。
【0168】
(S10008)管理モジュール二重化制御部1226は、計算機システム管理情報制御部1221に管理情報同期処理要求を送信する。
【0169】
(S10016)計算機システム管理情報制御部1221は、管理モジュール二重化制御部1226に管理情報同期処理応答を送信する。
【0170】
(S10017)管理モジュール1200が新主系管理モジュール1200として動作を開始する。
【0171】
本実施例では、スイッチ1420の切り替えをするためのスイッチ1420切り替え要求(S10002)外部記憶装置1410との接続をするための主系管理モジュール1200と外部記憶装置1410の接続制御要求(S10005)、管理情報同期処理をするための管理情報同期処理要求(S10008)の順番、実施を担っているのが管理モジュール二重化制御部1226である。
図11は、管理モジュール二重化制御部1226のフローチャートである。
【0172】
(S11000)管理モジュール二重化制御部1226が処理を開始する。
【0173】
(S11001)スイッチ制御部1222にスイッチ切り替え要求を出す。
【0174】
(S11002)次に、外部記憶装置制御部1223に管理モジュール1200と外部記憶装置1410の接続制御要求を出す。
【0175】
(S11003)計算機システム管理情報制御部1221に管理情報同期処理要求を出す。
【0176】
(S11004)処理を終了する。
【0177】
本実施例の計算機システム1000では、以上の処理により、主系管理モジュール内SDカード1110に格納されている管理情報と待機系管理モジュール内SDカード1210に格納されている管理情報と外部記憶装置1410内に格納されている管理情報の同期を実現している。
【0178】
次に、管理モジュールが障害等で交換部品に交換する場合等において、交換部品に交換した後の、管理モジュール内管理情報のリストア方法についての詳細を説明する。
【0179】
前述の通り、管理モジュールを交換部品に交換するパターンは、待機系管理モジュールを交換する場合と主系管理モジュールを交換する場合の二通りがある。この2パターンについての処理の詳細を順に説明する。まず待機系管理モジュールを交換する場合を説明し、次に主系管理モジュールを交換する場合を説明する。
【0180】
待機系管理モジュールを交換する場合、管理モジュール起動時と同様に、待機系管理モジュールが起動前に主系管理モジュールSDカードから管理情報を取得し、主系管理モジュールSDカード内管理情報と同じ管理情報を待機系管理モジュールSDカードに格納し起動する。
【0181】
図12は、交換部品を待機系管理モジュールとして挿入した場合の起動から動作開始までのシーケンスである。
【0182】
(S12000)管理モジュール1200が起動する。
【0183】
(S12001)管理モジュール1200自身の初期化処理を実施する。
【0184】
(S12002)次に、図2に示した系決定処理を行い、管理モジュール1200が待機系として起動することが決定する。
【0185】
(S12003)待機系の管理モジュール二重化制御部1226は、主系の管理モジュール二重化制御部1126に管理情報格納要求を送信する。
【0186】
(S12004)管理モジュール二重化制御部1126は、S12003の管理情報格納要求を受信し、計算機システム管理情報制御部1121に管理情報格納要求を送信する。
【0187】
(S12005)計算機システム管理情報制御部1121は、管理情報格納要求を受信し、SDカード1110に管理情報取得要求を送信する。
【0188】
(S12006)SDカード1110は、管理情報取得要求を受信し、計算機システム管理情報制御部1121に管理情報格納応答を送信する。
【0189】
(S12007)計算機システム管理情報制御部1121は、S12006の管理情報取得応答を受信し、管理モジュール二重化制御部1126に管理情報格納要求を送信する。
【0190】
(S12008)管理モジュール二重化制御部1126は、S12007の管理情報格納要求を受信し、管理モジュール二重化制御部1226に管理情報格納要求を送信する。
【0191】
(S12009)管理モジュール二重化制御部1226は、S12008の管理情報格納要求を受信し、計算機システム管理情報制御部1221に管理情報格納要求を送信する。
【0192】
(S12010)計算機システム管理情報制御部1221は、S12009の管理情報格納要求を受信し、SDカード1210に管理情報格納要求を送信する。
【0193】
(S12011)SDカード1210に管理情報が格納される。
【0194】
(S12012)SDカード1210は、計算機システム管理情報制御部1221に管理情報格納応答を送信する。
【0195】
(S12013)計算機システム管理情報制御部1221は、S12012の管理情報格納応答を受信し、管理モジュール二重化制御部1226に管理情報格納応答を送信する。
【0196】
(S12014)待機系初期化処理を実施する。
【0197】
(S12015)管理モジュール1200が動作を開始する。
【0198】
次に主系管理モジュールを交換する場合であるが、この際は前述の通りリストア判定処理を実施し、主系管理モジュールが交換直後の状態であれば外部記憶装置の管理情報で管理モジュールの管理情報をリストアし、そうでない場合は管理モジュールの管理情報を外部記憶装置に同期する。但し、管理モジュールの交換が完了し、一度外部記憶装置の管理情報で管理モジュールの管理情報をリストアした後は、次回の起動では管理モジュールの管理情報を外部記憶装置に同期する。
【0199】
図13は、リストア判定処理のフローチャートである。
【0200】
(S13000)リストア判定処理を開始する。
【0201】
(S13001)リストア判定処理において、管理モジュール1100が交換直後の状態であるかどうかを判定するため、本実施例ではSDカード1110に管理情報が保存されているかどうかで判定し、SDカード1110は、管理情報がある状態と管理情報がない状態の二つを持つ。そのために、交換部品はSDカード1110内に管理情報がない状態で出荷することとし、一度でもリストアされればSDカード内に管理情報が保存され、管理情報がある状態となる。SDカード1110に管理情報が保存されたことは、管理情報のファイルがあることで判別できるようにする。
【0202】
(S13003)S13001の判定の結果、主系管理モジュールSDカード1110に管理情報がある場合、管理情報同期処理を実施することに決定する。
【0203】
(S13002)S13001の判定の結果、主系管理モジュールSDカード1110に管理情報がない場合、外部記憶装置1410に管理情報があるかどうかを判定する。
【0204】
(S13004)S13002の判定の結果、外部記憶装置1410に管理情報がある場合、管理情報リストア処理を実施することに決定する。
【0205】
(S13005)S13002の判定の結果、外部記憶装置1410に管理情報がない場合、例えば、計算機システムの生産工程にて計算機システムの組み上げを実施している際である。この際は、外部記憶装置1410からのリストアを実施しても意味を成さないため、管理モジュール1100で管理情報の初期値を作成し、それをSDカード1110に保存した上で、その情報を外部記憶装置1410に同期する処理を行う。
【0206】
(S13006)処理を終了する。
【0207】
管理モジュールを二台とも交換する必要がある場合は、計算機システム1000から管理モジュール1100と1200を両方取り外した後、新しい管理モジュール一台のみを挿入する。このとき、計算機システム1000に存在する管理モジュールは一台のみなので、主系として起動することが決まり、図13の判定の結果、外部記憶装置1410内管理情報からのリストア処理を実施する。次に主系となった管理モジュール1100において管理情報のリストア処理が終了していることを確認した上で、もう一台の管理モジュール1200を挿入する。挿入した管理モジュール1200は、主系管理モジュール1100が起動している状態で挿入したので、待機系として起動することが決まる。図12の処理より、待機系管理モジュール1200が起動する前に、主系管理モジュール1100に対して、主系管理モジュールが有する管理情報の取得要求を出し、取得した情報を格納することで、主系管理モジュール1100と同じ管理情報をSDカード1210に格納し起動する。
【0208】
図14は、交換部品を主系管理モジュールとして挿入した場合の管理情報のリストア処理のシーケンスである。図7と重複する点があるので、ここでは図7との相違点のみを挙げる。
【0209】
(S14011)リストア判定処理で管理情報リストアを実施することに決定する。
【0210】
(S14012)主系の計算機システム管理情報制御部1121は、外部記憶装置制御部1123に管理情報取得要求を送信する。
【0211】
(S14013)外部記憶装置制御部1123は、外部記憶装置に管理情報取得要求を送信する。
【0212】
(S14014)外部記憶装置1410は、S14013の管理情報取得要求を受信し、外部記憶装置制御部1123に管理情報取得応答を送信する。
【0213】
(S14015)外部記憶装置制御部1123は、S14014の管理情報取得要求を受信し、計算機システム管理情報制御部1121に管理情報取得応答を送信する。
【0214】
(S14016)計算機システム管理情報制御部1121は、S14015の管理情報取得応答を受信し、SDカード1110に管理情報格納要求を送信する。
【0215】
(S14017)SDカード1110に管理情報が格納され、管理情報がある状態となるので、次に管理モジュール1100を起動した場合は、リストア判定処理で、同期処理が選択される。
【0216】
(S14018)SDカード1110は、計算機システム管理情報制御部1121に管理情報格納応答を送信する。
【0217】
本実施例の計算機システム1000では、以上の処理を実施することで、外部記憶装置1410内の管理情報のリストア処理を実施している。
【実施例2】
【0218】
実施例1では、外部記憶装置1410とスイッチ1420をフロントパネルモジュール1400に格納したが、外部記憶装置とスイッチは必ずしもフロントパネルモジュール上に存在する必要は無い。
【0219】
例えば、実施例2として、図15のように、管理情報バックアップモジュール15400を計算機システム15000内に内蔵し、外部記憶装置15410とスイッチ15420を格納する専用のモジュールを用意しても良い。
【0220】
管理情報バックアップモジュール15400は、管理モジュール15100と15200と接続している。管理情報を同期、リストアするシーケンス、フローチャートは、実施例1の計算機システムと同様のため、割愛する。
【0221】
以上の実施例1および実施例2で示した計算機システムおよび計算機システムの情報保存方式により、主系と待機系の管理モジュールが障害等で管理モジュールを二台同時に交換する際に、外部記憶装置に保持される管理情報を用いて、計算機システムに管理情報を回復することができる。また、管理モジュールの交換作業において、管理情報のバックアップ作業が不要となるため、サーバが停止する期間が短縮される。
【0222】
また、実施例1と実施例2とは異なる情報保存方式として、サーバと管理モジュールを有する計算機システムにおいて、計算機システム外に外部記憶装置として、サーバを設置して、そこにネットワーク経由で管理情報を格納する方法が考えられる。
【0223】
この方式の場合、計算機システムを導入する際に計算機システム以外で装置が必要となり、余分に費用がかかることや、計算機システムとは別に設置場所が必要となる。また、サーバ自体のメンテナンスのコストがかかるという問題点がある。また、計算機システムと計算機システム外のサーバをネットワークでつないで管理情報を格納するには、サーバ上にネットワーク通信と情報格納用のソフトウェアが必要となる。このソフトウェアでは、消失してはならない管理情報を管理するための機能が必要となるため、ソフトウェア開発コストもかかるという問題点もある。
【0224】
実施例1および実施例2の計算機システムでは、外部記憶装置を計算機システム内にストレージとして設置することで、安価かつ購入者に余分な装置を設置することによる負担をかけない。さらに、外部記憶装置に専用のソフトウェアを必要せずに、外部記憶装置に主系の管理モジュールの管理情報を保存し、主系と待機系の管理モジュールが二台同時に外部記憶装置にアクセスすることによる外部記憶装置破損にともなう管理情報消失を防ぐ計算機システムが実現できる。
【0225】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明をわかりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0226】
また、上記の各構成、機能、処理部、処理手段などは、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、またはICカード、SDカード、DVD等の記録媒体に置くことができる。
【0227】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0228】
1000、15000 計算機システム
1100、1200、15100、15200 管理モジュール
1110、1210 SDカード
1111 管理モジュール管理情報
1120、1220 計算機制御部
1121、1221 計算機システム管理情報制御部
1122、1222 スイッチ制御部
1123、1223 外部記憶装置制御部
1124、1224 サーバブレード管理情報制御部
1125、1225 スイッチモジュール管理情報制御部
1126、1226 管理モジュール二重化制御部
1300 コンポーネント
1310 サーバブレード
1311 サーバブレード管理情報
1312 BMC
1320 スイッチモジュール
1321 スイッチモジュール管理情報
1322 スイッチモジュール制御部
1400 フロントパネルモジュール
1410、15410 外部記憶装置
1420、15420 スイッチ
3000 管理モジュール系状態格納テーブル
15400 管理情報バックアップモジュール

【特許請求の範囲】
【請求項1】
物理サーバと複数の管理モジュールとを有する計算機システムにおいて、
前記物理サーバを管理する管理モジュールと外部記憶装置とがスイッチを介して接続され、
前記管理モジュールは、前記スイッチの接続の切り替えを制御するスイッチ制御部と、前記計算機システムの管理情報を保存する記憶部と、前記複数の管理モジュールにおける前記管理情報の多重化を制御する多重化制御部と、前記外部記憶装置制御部とを備え、
第一の管理モジュールの系状態が主系である場合、
前記第一の管理モジュールのスイッチ制御部は、前記スイッチを制御して、前記第一の管理モジュールと前記外部記憶装置とを接続させ、
前記第一の管理モジュールの外部記憶装置制御部は、前記第一の管理モジュールの記憶部に保存される管理情報を、前記外部記憶装置に格納し、
前記第一の管理モジュールの多重化制御部は、系状態が待機系である第二の管理モジュールの多重化制御部に、前記第一の管理モジュールの記憶部に保存される管理情報を送信し、
前記第二の管理モジュールの多重化制御部は、前記第一の管理モジュールの多重化制御部から受信した前記第一の管理モジュールの記憶部に保存される前記管理情報を、前記第二の管理モジュールの記憶部に保存する
ことを特徴とする計算機システム。
【請求項2】
前記第一の管理モジュールの多重化制御部は、系状態が待機系である第二の管理モジュールの多重化制御部に、前記第一の管理モジュールの記憶部に保存される管理情報を含む管理情報格納要求を送信することを特徴とする請求項1記載の計算機システム。
【請求項3】
前記管理モジュールは、前記計算機システムの有する複数の管理モジュールの系状態を管理する管理モジュール系情報を有し、
前記第二の管理モジュールの多重化制御部は、前記管理モジュール系情報を参照して、前記第一の管理モジュールの系状態が障害であることを検出すると、
前記第二の管理モジュールのスイッチ制御部に、前記外部記憶装置の接続先を前記第一の管理モジュールから前記第二の管理モジュールに切り替えるスイッチ切り替え要求を送信し、
前記第二の管理モジュールのスイッチ制御部は、前記第二の管理モジュールの多重化制御部から受信したスイッチ切り替え要求に基づき、前記スイッチを制御して、前記第二の管理モジュールと前記外部記憶装置とを接続させることを特徴とする請求項2記載の計算機システム。
【請求項4】
前記第一の管理モジュールを新たな管理モジュールに交換し、交換後の第一の管理モジュールの系状態が主系である場合、
前記交換後の第一の管理モジュールは、
前記交換後の第一の管理モジュールの前記記憶部に、前記管理情報が保存されているか判定し、
前記判定により、前記交換後の第一の管理モジュールの記憶部に前記管理情報が保存されていない場合、
前記外部記憶装置から前記外部記憶装置に保存された管理情報を取得し、
前記外部記憶装置から取得した管理情報を、前記交換後の第一の管理モジュールの前記記憶部に保存し、
前記判定により、前記交換後の第一の管理モジュールの記憶部に前記管理情報が保存されている場合、
前記第一の管理モジュールの外部記憶装置制御部は、前記交換後の第一の管理モジュールの記憶部に保存される管理情報を、前記外部記憶装置に格納し、
前記第一の管理モジュールの多重化制御部は、系状態が待機系である第二の管理モジュールの多重化制御部から送信された管理情報格納要求を受信し、前記第二の管理モジュールの多重化制御部に、前記交換後の第一の管理モジュールの記憶部に保存される管理情報を送信し、
前記第二の管理モジュールの多重化制御部は、前記第一の管理モジュールの多重化制御部から受信した前記交換後の第一の管理モジュールの記憶部に保存される前記管理情報を、前記第二の管理モジュールの記憶部に保存することを特徴とする請求項3記載の計算機システム。
【請求項5】
前記管理モジュールは、前記スイッチと前記管理モジュールとの接続状態を制御する接続ポートを有し、
前記外部記憶装置制御部は、
前記管理モジュールの起動時に、前記接続ポートを閉じて、前記管理モジュールと前記スイッチとが接続しない状態とし、
前記起動した管理モジュールの系状態が主系である場合、前記接続ポートを開けて、前記管理モジュールと前記スイッチとが接続する状態とし、
前記起動した管理モジュールの系状態が主系でない場合、前記接続ポートを閉じた状態を継続する
ことを特徴とする請求項4記載の計算機システム。
【請求項6】
前記計算機システムの管理情報は、前記主系の管理モジュールの管理情報、前記物理サーバの管理情報、前記主系の管理モジュールに管理されるスイッチモジュールの管理情報のうち少なくとも一つを含む
ことを特徴とする請求項5記載の計算機システム。
【請求項7】
物理サーバと複数の管理モジュールとを有する計算機システムにおける管理情報の保存方法であって、
前記物理サーバを管理する管理モジュールと外部記憶装置とがスイッチを介して接続され、
前記管理モジュールは、前記スイッチの接続の切り替えを制御するスイッチ制御部と、前記計算機システムの管理情報を保存する記憶部と、前記複数の管理モジュールにおける前記管理情報の多重化を制御する多重化制御部と、前記外部記憶装置制御部とを備え、
第一の管理モジュールの系状態が主系である場合、
前記第一の管理モジュールのスイッチ制御部は、前記スイッチを制御して、前記第一の管理モジュールと前記外部記憶装置とを接続させ、
前記第一の管理モジュールの外部記憶装置制御部は、前記第一の管理モジュールの記憶部に保存される管理情報を、前記外部記憶装置に格納し、
前記第一の管理モジュールの多重化制御部は、系状態が待機系である第二の管理モジュールの多重化制御部に、前記第一の管理モジュールの記憶部に保存される管理情報を送信し、
前記第二の管理モジュールの多重化制御部は、前記第一の管理モジュールの多重化制御部から受信した前記第一の管理モジュールの記憶部に保存される前記管理情報を、前記第二の管理モジュールの記憶部に保存する
ことを特徴とする管理情報の保存方法。
【請求項8】
前記第一の管理モジュールの多重化制御部は、系状態が待機系である第二の管理モジュールの多重化制御部に、前記第一の管理モジュールの記憶部に保存される管理情報を含む管理情報格納要求を送信することを特徴とする請求項7記載の管理情報の保存方法。
【請求項9】
前記管理モジュールは、前記計算機システムの有する複数の管理モジュールの系状態を管理する管理モジュール系情報を有し、
前記第二の管理モジュールの多重化制御部は、前記管理モジュール系情報を参照して、前記第一の管理モジュールの系状態が障害であることを検出すると、
前記第二の管理モジュールのスイッチ制御部に、前記外部記憶装置の接続先を前記第一の管理モジュールから前記第二の管理モジュールに切り替えるスイッチ切り替え要求を送信し、
前記第二の管理モジュールのスイッチ制御部は、前記第二の管理モジュールの多重化制御部から受信したスイッチ切り替え要求に基づき、前記スイッチを制御して、前記第二の管理モジュールと前記外部記憶装置とを接続させることを特徴とする請求項8記載の管理情報の保存方法。
【請求項10】
前記第一の管理モジュールを新たな管理モジュールに交換し、交換後の第一の管理モジュールの系状態が主系である場合、
前記交換後の第一の管理モジュールは、
前記交換後の第一の管理モジュールの前記記憶部に、前記管理情報が保存されているか判定し、
前記判定により、前記交換後の第一の管理モジュールの記憶部に前記管理情報が保存されていない場合、
前記外部記憶装置から前記外部記憶装置に保存された管理情報を取得し、
前記外部記憶装置から取得した管理情報を、前記交換後の第一の管理モジュールの前記記憶部に保存し、
前記判定により、前記交換後の第一の管理モジュールの記憶部に前記管理情報が保存されている場合、
前記第一の管理モジュールの外部記憶装置制御部は、前記交換後の第一の管理モジュールの記憶部に保存される管理情報を、前記外部記憶装置に格納し、
前記第一の管理モジュールの多重化制御部は、系状態が待機系である第二の管理モジュールの多重化制御部に、前記交換後の第一の管理モジュールの記憶部に保存される管理情報を送信し、
前記第二の管理モジュールの多重化制御部は、前記第一の管理モジュールの多重化制御部から受信した前記交換後の第一の管理モジュールの記憶部に保存される前記管理情報を、前記第二の管理モジュールの記憶部に保存することを特徴とする請求項9記載の管理情報の保存方法。
【請求項11】
前記管理モジュールは、前記スイッチと前記管理モジュールとの接続状態を制御する接続ポートを有し、
前記外部記憶装置制御部は、
前記管理モジュールの起動時に、前記接続ポートを閉じて、前記管理モジュールと前記スイッチとが接続しない状態とし、
前記起動した管理モジュールの系状態が主系である場合、前記接続ポートを開けて、前記管理モジュールと前記スイッチとが接続する状態とし、
前記起動した管理モジュールの系状態が主系でない場合、前記接続ポートを閉じた状態を継続する
ことを特徴とする請求項10記載の管理情報の保存方法。
【請求項12】
前記計算機システムの管理情報は、前記主系の管理モジュールの管理情報、前記物理サーバの管理情報、前記主系の管理モジュールに管理されるスイッチモの管理情報のうち少なくとも一つを含む
ことを特徴とする請求項11記載の管理情報の保存方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2013−92956(P2013−92956A)
【公開日】平成25年5月16日(2013.5.16)
【国際特許分類】
【出願番号】特願2011−235602(P2011−235602)
【出願日】平成23年10月27日(2011.10.27)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】