説明

コンピュータシステム、サービスプロセッサ、及びその診断方法

【課題】サービスプロセッサの通信制御部の自己診断の範囲を拡大し、これにより、高い信頼性を備えるコンピュータシステムを提供する。
【解決手段】コンピュータシステム1が、サービスプロセッサSP0、SP1と、サービスプロセッサ間通信路60、70とを具備している。サービスプロセッサSP0は、通信制御部101、103と、折り返し通信路105とを備えている。サービスプロセッサSP1は、通信制御部201、203と、折り返し通信路205とを備えている。通常動作設定に設定されると、通信制御部201、203は、それぞれ、サービスプロセッサ間通信路60、70を介してサービスプロセッサSP0の通信制御部101、103と通信可能になる。一方、自己診断時設定に設定されると、通信制御部201と通信制御部203は、折り返し通信路205を介して相互に通信可能になる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータシステム、サービスプロセッサ及び、その診断方法に関し、特に複数のサービスプロセッサを備えるコンピュータシステム、サービスプロセッサおよび診断の方法に関する。
【背景技術】
【0002】
複数の計算ノードを備えるような大規模なコンピュータシステムにおいては、その管理のために、サービスプロセッサと呼ばれるプロセッサが設けられることがある。このとき、コンピュータシステムの信頼性を高めるために、複数のサービスプロセッサが設けられることがある。あるシステム構成においては、2つのサービスプロセッサがコンピュータシステムに設けられ、一方のサービスプロセッサが主系サービスプロセッサとして計算ノードの制御・管理に用いられると共に、もう一方のサービスプロセッサが従系サービスプロセッサとして主系サービスプロセッサを監視する。この場合、当該2つのサービスプロセッサの間には、それらの間で相互通信を行うためのプロセッサ間通信路が設けられる。
【0003】
このようなコンピュータシステムは、例えば、特許文献1(特開昭62−174839号公報)、特許文献2(特開平10−154085号公報)に開示されている。特許文献1は、現用側と予備側に二重化されたデータ交換システムであって、システムを制御する二重化された制御プロセッサを備えるシステムを開示している。このシステムでは、現用側系制御プロセッサが、予備側系制御プロセッサの状態監視を行うために、制御プロセッサ間インターフェースを通じて予備側系制御プロセッサを診断起動し結果を受け取り、予備側系制御プロセッサの正常性を確認している。
【0004】
また、特許文献2は、ノーストップ・システムを実現するために、二重化された監視/制御プロセッサを備えるシステムを開示している。このシステムでは、二重化された監視/制御プロセッサは、監視/制御プロセッサ間通信バスを通じて相互に状態を把握しながらシステムを監視・制御し、更に他系監視/制御プロセッサから該通信バスを通じて自己診断フェーズ通知を受信することで、他系監視/制御プロセッサのリセット(活性交換)を認識する。
【0005】
図1は、2つのサービスプロセッサを備えるコンピュータシステムの構成例を示している。図1のコンピュータシステム1は、計算ノード30、40、50と、サービスプロセッサSP0、SP1とを備えている。
【0006】
図1において、サービスプロセッサSP0とサービスプロセッサSP1のうちの一方が、主系サービスプロセッサとしてコンピュータシステム1の構成制御、運転制御、障害発生時のログ採取や故障箇所の指摘などの各制御を実行する。他方のサービスプロセッサは、従系サービスプロセッサとして、主系サービスプロセッサに障害が発生した場合に、直ちに処理を引き継ぐべくホットスタンバイしている。
【0007】
サービスプロセッサSP0とサービスプロセッサSP1は、2つのサービスプロセッサ間通信路60、70により相互通信可能である。サービスプロセッサSP0とサービスプロセッサSP1の間の通信路が二重化されているのは、高信頼化のためである。
【0008】
サービスプロセッサSP0は、通信制御部101、103と、CPU104とを備えている。通信制御部101は、サービスプロセッサ間通信路60の通信を制御しており、通信制御部103は、サービスプロセッサ間通信路60上の通信を制御している。図1のサービスプロセッサSP0では、2つのサービスプロセッサ間通信路60、70があることに対応して2つの通信制御部101、103が設けられていることに留意されたい。
【0009】
同様に、サービスプロセッサSP1は、通信制御部201、203と、CPU304とを備えている。通信制御部201は、サービスプロセッサ間通信路60上の通信を制御しており、通信制御部203は、サービスプロセッサ間通信路70の通信を制御している。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開昭62−174839号公報
【特許文献2】特開平10−154085号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
コンピュータシステムの信頼性を向上させるためには、保守交換のように新たなサービスプロセッサを組み込む際、新たに組み込まれるサービスプロセッサの動作の正常性を診断することが望ましい。このとき、新たに組み込まれるサービスプロセッサ自身の自己診断によってなるべく多くの診断項目について診断を行うことができれば、少ない交換作業の労力で高い信頼性を有するコンピュータシステムを構成できる。
【0012】
しかしながら、図1のコンピュータシステム1では、例えば、サービスプロセッサSP1の自己診断においては、通信制御部201、203の自己診断はCPU204とのインターフェース部に限定される。高い信頼性の要求に対応するためには、より広範囲な自己診断がなされるようにサービスプロセッサの自己診断能力を高めることが望ましい。
【0013】
したがって、本発明の目的は、サービスプロセッサの通信制御部の自己診断の範囲を拡大し、これにより、高い信頼性を備えるコンピュータシステムを提供することを可能にすることにある。
【課題を解決するための手段】
【0014】
本発明の一の観点においては、コンピュータシステムが、当該コンピュータシステムの制御を行うための第1及び第2サービスプロセッサと、第1及び第2サービスプロセッサの間に接続された第1及び第2サービスプロセッサ間通信路とを具備する。第1サービスプロセッサは、第1サービスプロセッサ間通信路を通じた通信を制御するための第1通信制御部と、第2サービスプロセッサ間通信路を通じた通信を制御するための第2通信制御部と、第1通信制御部と第2通信制御部との間で通信を行うための第1折り返し通信路とを含む。第2サービスプロセッサは、第1サービスプロセッサ間通信路を通じた通信を制御するための第3通信制御部と、第2サービスプロセッサ間通信路を通じた通信を制御するための第4通信制御部とを含む。第1サービスプロセッサが第1設定に設定されると、第1及び第2通信制御部は、それぞれ、第1及び第2サービスプロセッサ間通信路を介して第3及び第4通信部と通信可能になる。第1サービスプロセッサが第2設定に設定されると、第1通信制御部と第2通信制御部とは、第1折り返し通信路を介して相互に通信可能になる。
【0015】
本発明の他の観点においては、コンピュータシステムの制御を行うためのサービスプロセッサが、第1サービスプロセッサ間通信路を介した通信を制御するための第1通信制御部と、第2サービスプロセッサ間通信路を介した通信を制御するための第2通信制御部と、第1通信制御部と第2通信制御部との間で通信を行うための折り返し通信路とを具備する。サービスプロセッサが第1設定に設定されると、第1及び第2通信制御部は、それぞれ、第1及び第2サービスプロセッサ間通信路を介した通信を実行可能になる。当該サービスプロセッサが第2設定に設定されると、第1通信制御部と第2通信制御部は、折り返し通信路を通じて相互に通信可能になる。
【0016】
本発明の更に他の観点においては、上記のサービスプロセッサの自己診断のための診断方法が、第1通信制御部と第2通信制御部の間で折り返し通信路を通じて通信を実行するステップと、通信の通信結果に基づいて、第1及び第2通信制御部の異常を検出するステップとを備えている。
【0017】
本発明の更に他の観点においては、第1サービスプロセッサ間通信路を介した通信を制御するための第1通信制御部と、第2サービスプロセッサ間通信路を介した通信を制御するための第2通信制御部と、第1通信制御部と第2通信制御部との間で通信を行うための折り返し通信路とを具備するサービスプロセッサを動作させるプログラムが、第1通信制御部と第2通信制御部の間で折り返し通信路を通じて通信を実行するステップと、通信の通信結果に基づいて、第1及び第2通信制御部の異常を検出するステップとをサービスプロセッサに実行させる。
【発明の効果】
【0018】
本発明によれば、サービスプロセッサの通信制御部の自己診断の範囲を拡大し、これにより、高い信頼性を備えるコンピュータシステムを提供することができる。
【図面の簡単な説明】
【0019】
【図1】2つのサービスプロセッサを備えるコンピュータシステムの一構成例を説明するブロック図である。
【図2】本発明の一実施形態におけるコンピュータシステムの構成を説明するブロック図である。
【図3A】本発明の一実施形態のコンピュータシステムの動作を説明するフローチャートである。
【図3B】本発明の一実施形態のコンピュータシステムの動作を説明するフローチャートである。
【発明を実施するための形態】
【0020】
図2は、本発明の一実施形態のコンピュータシステム1の構成を示すブロック図である。コンピュータシステム1は、計算ノード30、40、50と、サービスプロセッサSP0、SP1とを備えている。計算ノード30〜50はそれぞれ独立して動作可能なコンピュータシステム、または、コンピュータシステムとして必要なプロセッサ、メモリ、入出力部を持った論理的な単位である。
【0021】
サービスプロセッサSP0、SP1は、同一の構成を有しており、その一方が主系サービスプロセッサとして動作し、他方が従系サービスプロセッサとして動作する。主系サービスプロセッサは、構成制御、運転制御、障害発生時のログ採取や故障箇所の指摘などの各制御を実行する。従系サービスプロセッサは、主系サービスプロセッサの状態を監視する。従系サービスプロセッサは、主系サービスプロセッサに障害が発生した場合に、コンピュータシステム1を停止させずに直ちに主系サービスプロセッサの処理を引き継ぐべくホットスタンバイする。以下では、サービスプロセッサSP0が主系サービスプロセッサであり、サービスプロセッサSP1が従系サービスプロセッサであるとして説明を行う。
【0022】
サービスプロセッサSP0、SP1は、通信路を介して通信可能である。ここで、サービスプロセッサSP0、SP1の間の通信は二重化されている。即ち、サービスプロセッサSP0、SP1は、サービスプロセッサ間通信路60、70を介して相互に通信可能である。サービスプロセッサSP0、SP1の間の通信の二重化は、コンピュータシステム1の信頼性の向上のために有効である。
【0023】
サービスプロセッサSP0は、通信制御部101、103と、切り替え部102と、CPU104と、折り返し診断通信路105とを備えている。同様に、サービスプロセッサSP1は、通信制御部201、203と、切り替え部202と、CPU204と、折り返し診断通信路205とを備えている。
【0024】
まず、サービスプロセッサSP0の各構成要素について説明する。CPU104は、サービスプロセッサとして機能させるための専用制御プログラムであるサービスプロセッサ制御ファームウエア(以下、「SPFW」と記載)を実行する。このSPFWのサービスプロセッサSP0へのインストールは、SPFWを記録した記録媒体を用いておこなってもよい。なお、SPFWは、図2には図示されていない。
【0025】
通信制御部101は、CPU104による制御の下、サービスプロセッサ間通信路60を介してのサービスプロセッサSP1との通信を制御する。同様に、通信制御部103は、CPU104による制御の下、サービスプロセッサ間通信路70を介してのサービスプロセッサSP1との通信を制御する。
【0026】
折り返し通信路105は、通信制御部101と通信制御部103の間の通信を可能にするための通信路である。後述のように、折り返し通信路105は、サービスプロセッサSP0の通信制御部101、103を自己診断する際に使用される。
【0027】
切り替え部102は、CPU104による制御の下、通信制御部101、103の通信相手を切り替える。より具体的には、サービスプロセッサSP0が第1の設定(以下、「通常通信設定」という)に設定されると、切り替え部102は、通信制御部101、103の通信相手をサービスプロセッサSP1の通信制御部201、203に設定する。即ち、通常通信設定では、サービスプロセッサSP0の通信制御部101、103は、それぞれサービスプロセッサ間通信路60、70を介してサービスプロセッサSP1の通信制御部201、203と通信する。一方、サービスプロセッサSP0が第2の設定(以下、「自己診断時設定」という。)に設定されると、切り替え部102は、通信制御部101、103の通信相手を、それぞれ、通信制御部103、101に設定する。即ち、自己診断時設定では、サービスプロセッサSP0の通信制御部101、103は、折り返し通信路105を介して自サービスプロセッサの通信制御部103、101と通信する。
【0028】
サービスプロセッサSP1の通信制御部201、203、切り替え部202、CPU204、折り返し診断通信路205の機能は、それぞれ、サービスプロセッサSP0の通信制御部101、103、切り替え部102、CPU104、及び折り返し診断通信路105の機能と同一である。サービスプロセッサSP0の切り替え部202と同様に、サービスプロセッサSP1の切り替え部202は、通常通信設定に設定されると、通信制御部201、203の通信相手をサービスプロセッサSP0の通信制御部101、103に設定する。一方、自己診断時設定では、切り替え部202は、通信制御部201、203の通信相手を、それぞれ、通信制御部203、201に設定する。即ち、自己診断時設定では、サービスプロセッサSP1の通信制御部201、203は、折り返し通信路205を介して自サービスプロセッサの通信制御部203、201と通信する。
【0029】
このような構成のコンピュータシステム1においては、折り返し通信路105、205を利用することにより、通信制御部101、103、201、203の自己診断の範囲を拡大することができる。例えば、サービスプロセッサSP1については、サービスプロセッサSP1の自己診断の際に切り替え部202を自己診断時設定に設定することにより、折り返し診断通信路205を用いて通信制御部201と通信制御部203の間で、相互に通信を行うことができる。即ち、サービスプロセッサSP0の通信制御部101、103と実際に通信動作を行わずとも、実際の通信動作と同様の動作をサービスプロセッサSP1の通信制御部201、203に行わせることができる。これにより、通信制御部201、203の自己診断の範囲を拡大し、サービスプロセッサSP1の自己診断能力を向上させることができる。サービスプロセッサSP0についても同様である。以下では、本実施形態におけるコンピュータシステム1の動作、特にサービスプロセッサの自己診断動作について詳細に説明する。
【0030】
図3A、図3Bは、サービスプロセッサSP1の交換の際に、新たなサービスプロセッサSP1をコンピュータシステム1に装着する場合の作業手順を示すフローチャートである。
【0031】
図3Aを参照して、サービスプロセッサSP1が保守交換のためにコンピュータシステム1に搭載され(ステップS301)、サービスプロセッサSP1の電源がオンされると(ステップS302)、CPU204はサービスプロセッサSP1の自己診断を開始する。ここで、サービスプロセッサSP1の自己診断は、SPFWをCPU204が実行することにより行われることに留意されたい。
【0032】
まず、CPU204は通信制御部201の診断を実行する(ステップS303)。ステップS303での診断においては、CPU204から通信制御部201へのアクセスが正常であるか異常であるかが診断される。ステップS303において通信制御部201の異常が検出されると(ステップS304)、サービスプロセッサSP1の保守交換は中止される(ステップS316)。
【0033】
ステップS303における診断により、通信制御部201の異常が検出されなかった場合には、CPU204は通信制御部203の診断を実行する(ステップS305)。ステップS305の診断においては、CPU204から通信制御部203へのアクセスが正常であるか異常であるかが診断される。ステップS305において通信制御部203の異常が検出されると(ステップS306)、サービスプロセッサSP1の保守交換は中止される(ステップS316)。
【0034】
ステップS305において異常が検出されなかった場合には、CPU204は、切り替え部202を自己診断時設定に設定する。これにより、通信制御部201と通信制御部203とは、折り返し診断通信路205を利用して相互に通信可能な状態になる(ステップS307)。このとき、切り替え手段202は、サービスプロセッサ間通信路60、70を通信に使用不能な状態に設定する。
【0035】
続いて、図3Bに図示されているように、折り返し診断通信路205を用いた通信制御部201、203の自己診断が行われる。詳細には、CPU204の制御の下、通信制御部201と通信制御部203の間で、折り返し診断通信路205を用いて相互に通信が実行される(ステップS308)。この通信では、通信制御部201、203を実際にサービスプロセッサSP0と通信する動作と同様に動作させることができる。更に、CPU204は、ステップS308における通信結果が正常であるか判断する(ステップS309)。ステップS308、S309の動作により、サービスプロセッサSP1の通信制御部201、203の信頼性をより高いレベルで自己診断することができる。ステップS308における通信結果が異常であった場合は、サービスプロセッサSP1の保守交換は中止される(ステップS317)。
【0036】
続いて、サービスプロセッサSP0、SP1の間で通信が行われ、サービスプロセッサ間通信路60、70が正常か確認される。より具体的には、CPU204は切り替え部202を通常動作設定にする。これにより、折り返し診断通信路205が使用されない状態になると共に、サービスプロセッサ間通信路60、70が通信に使用可能な状態になる(ステップS310)。
【0037】
続いて、通信制御部201は、CPU204による制御の下、サービスプロセッサ間通信路60を通じて、サービスプロセッサSP0の通信制御部101との通信を実行する(ステップS311)。CPU204は、ステップS311における通信結果が正常であるか判断する(ステップS312)。通信結果が異常であった場合は、サービスプロセッサSP1の保守交換は中止される(ステップS317)。通信結果が正常であった場合は、サービスプロセッサ間通信路60及びサービスプロセッサSP0の通信制御部101も正常に動作していると判断可能である。
【0038】
一方、ステップS312において異常が発見された場合、既に正常と判断されている通信制御部201の障害の可能性は低く、サービスプロセッサ間通信路60又はサービスプロセッサSP0の通信制御部101に異常がある可能性が示唆されることになる。ここで、図1の構成においては、通信制御部201の自己診断がなされないままサービスプロセッサ間通信路60が通信に使用されるので、異常が生じた場合、通信制御部201の障害の可能性は低いとの判断は困難であることに留意されたい。
【0039】
ステップS312で異常が発見されなかった場合、通信制御部203は、CPU204による制御の下、サービスプロセッサ間通信路70を通じて、サービスプロセッサSP0の通信制御部103との通信を実行する(ステップS313)。CPU204は、ステップS313における通信結果が正常であるか判断する(ステップS314)。通信結果が異常であった場合は、サービスプロセッサSP1の保守交換は中止される(ステップS317)。通信結果が正常であった場合は、サービスプロセッサ間通信路70及びサービスプロセッサSP0の通信制御部103も正常に動作していると判断可能である。
【0040】
ここまでの診断結果で異常が発見されなかった場合、サービスプロセッサSP1が従系サービスプロセッサとしてコンピュータシステム1に組み込まれる(ステップS315)。組み込まれたサービスプロセッサSP1は、従系サービスプロセッサとして、主系サービスプロセッサであるサービスプロセッサSP0の動作をサービスプロセッサ間通信路60、70を通じて継続的に監視し始める。
【0041】
以上に説明されているように、本実施形態のコンピュータシステムは、サービスプロセッサの通信制御部に実際と同様の動作をさせて通信制御部を自己診断するので、通信制御部の自己診断の範囲を拡大することができる。これは、サービスプロセッサの信頼性を高いレベルで確認するために有用である。実際と同様の動作をさせて通信制御部を自己診断することは、サービスプロセッサ間の通信において障害を発見した場合に障害の発生箇所を特定するためにも有用である。例えば、本実施形態のコンピュータシステムでは、自己診断でサービスプロセッサSP1の通信制御部201に異常が発見されなかった場合に、サービスプロセッサ間通信路60を介した通信で異常が発見された場合には、サービスプロセッサ間通信路60又はサービスプロセッサSP0の通信制御部101に異常があることが示唆される。これは、障害の発生箇所の特定を容易化する。
【0042】
また、本実施形態のコンピュータシステムでは、通信制御部を実際と同様の動作をさせて自己診断するために、外部の付属部品や人的作業を要しないことにも留意されたい。これは、サービスプロセッサ交換時の作業手順を簡略化でき、更に作業ミスの入る余地を低減できることである。
【0043】
以上、実施形態を参照して本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。例えば、上記の実施形態は、サービスプロセッサSP1の交換時におけるサービスプロセッサSP1の診断について例示しているが、本発明の実施は、交換における診断に限られるものではない。
【符号の説明】
【0044】
1・・・コンピュータシステム
SP0・・・サービスプロセッサ
SP1・・・サービスプロセッサ
30・・・計算ノード
40・・・計算ノード
50・・・計算ノード
60・・・サービスプロセッサ間通信路
70・・・サービスプロセッサ間通信路
101・・・通信制御部
102・・・切り替え手段
103・・・通信制御部
104・・・CPU
105・・・折り返し診断通信路
201・・・通信制御部
202・・・切り替え手段
203・・・通信制御部
204・・・CPU
205・・・折り返し診断通信路

【特許請求の範囲】
【請求項1】
コンピュータシステムの制御を行うための第1及び第2サービスプロセッサと、
前記第1及び第2サービスプロセッサの間に接続された第1及び第2サービスプロセッサ間通信路
とを具備し、
前記第1サービスプロセッサは、
前記第1サービスプロセッサ間通信路を通じた通信を制御するための第1通信制御部と、
前記第2サービスプロセッサ間通信路を通じた通信を制御するための第2通信制御部と、
前記第1通信制御部と前記第2通信制御部との間で通信を行うための第1折り返し通信路
とを含み、
前記第2サービスプロセッサは、
前記第1サービスプロセッサ間通信路を通じた通信を制御するための第3通信制御部と、
前記第2サービスプロセッサ間通信路を通じた通信を制御するための第4通信制御部
とを含み、
前記第1サービスプロセッサが第1設定に設定されると、前記第1及び第2通信制御部は、それぞれ、前記第1及び第2サービスプロセッサ間通信路を介して前記第3及び第4通信部と通信可能になり、
前記第1サービスプロセッサが第2設定に設定されると、前記第1通信制御部と前記第2通信制御部とは、前記第1折り返し通信路を介して相互に通信可能になる
コンピュータシステム。
【請求項2】
請求項1に記載のコンピュータシステムであって、
前記第1サービスプロセッサが、前記第1通信制御部と前記第2通信制御部との間の前記第1折り返し通信路を介した通信の通信結果に基づいて、前記第1通信制御部と前記第2通信制御部の異常の検出を行う診断手段を備える
コンピュータシステム。
【請求項3】
請求項1又は2に記載のコンピュータシステムであって、
前記第2サービスプロセッサが、更に、前記第3通信制御部と前記第4通信制御部との間で通信を行うための第2折り返し通信路を備え、
前記第2サービスプロセッサが第1設定に設定されると、前記第3及び第4通信制御部は、それぞれ、前記第1及び第2サービスプロセッサ間通信路を介して前記第1及び第2通信部と通信可能になり、
前記第2サービスプロセッサが第2設定に設定されると、前記第3通信制御部と前記第4通信制御部とは、前記第2折り返し通信路を介して相互に通信可能になる
コンピュータシステム。
【請求項4】
コンピュータシステムの制御を行うためのサービスプロセッサであって、
第1サービスプロセッサ間通信路を介した通信を制御するための第1通信制御部と、
第2サービスプロセッサ間通信路を介した通信を制御するための第2通信制御部と、
前記第1通信制御部と前記第2通信制御部との間で通信を行うための折り返し通信路
とを具備し、
前記サービスプロセッサが第1設定に設定されると、前記第1及び第2通信制御部は、それぞれ、前記第1及び第2サービスプロセッサ間通信路を介した通信を実行可能になり、
当該サービスプロセッサが第2設定に設定されると、前記第1通信制御部と前記第2通信制御部は、前記折り返し通信路を通じて相互に通信可能になる
サービスプロセッサ。
【請求項5】
請求項3のサービスプロセッサの自己診断のための診断方法であって、
前記第1通信制御部と前記第2通信制御部の間で前記折り返し通信路を通じて通信を実行するステップと、
前記通信の通信結果に基づいて、前記第1及び第2通信制御部の異常を検出するステップ
とを備える
診断方法。
【請求項6】
第1サービスプロセッサ間通信路を介した通信を制御するための第1通信制御部と、第2サービスプロセッサ間通信路を介した通信を制御するための第2通信制御部と、前記第1通信制御部と前記第2通信制御部との間で通信を行うための折り返し通信路とを具備するサービスプロセッサを動作させるプログラムであって、
前記第1通信制御部と前記第2通信制御部の間で前記折り返し通信路を通じて通信を実行するステップと、
前記通信の通信結果に基づいて、前記第1及び第2通信制御部の異常を検出するステップ
とを前記サービスプロセッサに実行させる
プログラム。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate