説明

コンピュータシステムの障害通報方法

【課題】
一方向通信の監視システムを踏襲しながら、システム装置に重度障害が発生した場合においても、監視センタへ障害通報を可能とする。
【解決手段】
情報処理を行うシステム装置と、外部に対して通報する通報装置と、システム装置の電源制御を行う電源制御装置を含むコンピュータシステムにおいて、電源制御装置は、システム装置の稼動状況を監視する監視部と、外部へ障害通報を行う外部通報要求部を有する。監視部はシステム装置に障害が発生したことを検知し、外部通報要求部は障害発生の検知に従って通報要求を発し、通報装置は通報要求に基づいて外部に対して障害の通報を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータシステムの障害通報方法に係り、特にコンピュータシステム内のシステム装置に重度障害が発生した場合でも、障害の通報を行なう障害通報方法に関する。
【背景技術】
【0002】
コンピュータシステムの稼動状況を監視し、その監視状況を監視センタや目的とする端末へ通報する技術が種々提案されている。例えば、特開2001−282690公報(特許文献1)には、コンピュータシステムの監視を容易、確実にするために、監視センタ端末が監視情報をEメールデータに作成して、利用者監視端末へ通知する技術が開示されている。
【0003】
また、特開昭63−196923公報(特許文献2)には、情報処理装置の電源立ち上げ時のインターミッテントな誤動作を検知して、自動的に電源オフ、その後の再オンを行うリモートパワーオンオフ制御が開示されている。
これらの技術は、いずれも高い信頼性を求められる分野で使用されるコンピュータシステムにおいては、重要な機能である。
【0004】
【特許文献1】特開2001−282690公報
【特許文献2】特開昭63−196923公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
一般的に、システム装置を監視して監視センタへ通報する機能は、上記特許文献1の様に、対象となるシステム装置が自律的に行う方法が多く実用化されている。この方法は、システム装置から監視センタへの一方向通信で実現できるため、比較的容易にシステムを構築することができる。また、必要な場合にのみ通報を行うので、通信コストを下げられるメリットもある。
【0006】
しかし乍ら、この方法は、システム装置の中核部分に重大な障害が発生し、障害通報に必要なハードウェアも影響を受けた場合、障害通報が行えなくなるという問題がある。これは、特に、ハードウェア集積度の向上に伴い、複数のデバイスを共通のバスで接続するハードウェア構成の場合に一層顕著となる。その結果、共通バスに影響を与えるような重度な障害ほど通報できる可能性が低くなるという矛盾が起こり得る。
【0007】
本発明の目的は、システム装置に重度障害が発生した場合においても、外部へ障害発生を通報することができるコンピュータシステム及び障害通報方法を提供することにある。
【課題を解決するための手段】
【0008】
本発明は、好ましくは、情報処理を行うシステム装置と、外部に対して通報する通報装置と、システム装置の電源制御を行う電源制御装置を含むコンピュータシステムであって、電源制御装置は、システム装置の稼動状況を監視する監視部と、外部へ障害通報を行う外部通報要求部を有し、監視部はシステム装置に障害が発生したことを検知し、外部通報要求部は障害発生の検知に従って通報要求を発し、通報装置は通報要求に基づいて外部に対して障害の通報を行うコンピュータシステム、及びこのコンピュータシステムにおける障害通報方法として構成される。
【発明の効果】
【0009】
本発明によれば、システム装置に重大な障害が発生した場合においても、システム装置と独立した電源制御装置を用いてシステム装置に障害が発生したことを検知して、監視センタ等の外部に対して障害を通報することができる。
【発明を実施するための最良の形態】
【0010】
図面を参照しながら、本発明の実施例について説明する。
図1は、システム装置を含むコンピュータシステムの構成を示す。
このコンピュータシステムは、システム装置1と電源制御装置2、通報装置3を含んで構成される。システム装置1は、通信ポート4、及びバス8により接続されるポートコントローラ5、サービスプロセッサ6、プロセッサ7、及び電源9を有して構成される。通信ポート4は、外部に対しては通報装置3に接続され、また内部ではポートコントローラ5及びバス8を介して、サービスプロセッサ6及びプロセッサ7に接続される。サービスプロセッサ6またはプロセッサ7が、ポートコントローラ5を制御することで、システム装置1と通報装置3の間でデータの送受信を行うことができる。
【0011】
通報装置3は、サービスプロセッサ6またはプロセッサ7の指示により、通常、遠隔地に設置されている監視センタ12に対して通報する。通信ポート4は、図示のように複数設けても良く、空いているポートに端末装置を接続することで、サービスプロセッサ7と通信することが可能であり、通常、対話形式によるメニュー操作で障害ログの表示、収集等の保守作業が可能である。
【0012】
電源制御装置2は、システム装置1の通信ポート4及び電源9と接続される。システム装置1を立ち上げる場合は、電源制御装置2がシステム装置1の電源9をオンする。また、システム装置1の立ち上げ中に障害が発生し、システム装置1が正常に立ち上がらない場合には、電源制御装置2がシステム装置1の電源9をオフオンし、システム装置1内の間歇的なハードウェア故障を救済する機能を持つ。また、システム装置1の立ち上げ中、正常にシステム装置1が立ち上がったかどうかを判別する為に、通信ポート4を介して、サービスプロセッサ6と通信する機能を持つ。
【0013】
このように、コンピュータシステムの構成は一般的なものであるが、特徴的なことは、電源制御装置2がシステム監視部10及び外部通信要求部11を備えることである。システム監視部10は外部装置にシステム装置1の稼動状況を監視する。外部通報要求部11は監視センタ12へ障害を通報する。システム監視部10及び外部通信要求部11は、一例ではプログラムの実行によってこれらの機能が実現される。詳しくは、図2及び図3を参照してこれらの機能について詳細に説明する。
この構成によれば、図1のコンピュータシステムにおいてシステム装置1内の仕様を変更することなく実現することができる。
【0014】
図2は、サービスプロセッサと電源制御装置2間の処理を示す。
サービスプロセッサ6は、前述した通り、保守作業の為に端末装置との対話式メニューを持つ。電源制御装置2は、端末装置と同じ動作を模倣することで、システム稼動中にサービスプロセッサ6との通信を可能とする。
具体的には、初めに電源制御装置2から、エンター(Enter)キーを入力すると、その入力指令がサービスプロセッサ6に送信される(S000)。サービスプロセッサ6は、保守メニューの一覧を示す情報を電源制御装置2に送信する(S001)。電源制御装置2のシステム監視部10は、この保守メニューを受け取ることで、システム装置1が正常に稼動中であることを認識することができる。システム監視部10はこの動作を一定周期で繰り返すことで、システム装置1の稼動状況を監視することができる。
【0015】
次に、外部通報要求部11の処理として、電源制御装置2は保守メニューの中にあるテスト通報を選択することで通報要求を行う。例えばあるメニュー番号を入力し、その入力したメニュー番号をサービスプロセッサ6に送信する(S002)。これにより、電源制御装置2は、サービスプロセッサ6に対して通報要求を行うことができる。サービスプロセッサ6は、その後通報装置3を介して、監視センタ12へテスト通報を実施する。
テスト通報は、通常、保守員が保守作業中に行わない為、監視センタ12は、システム装置1が業務中にテスト通報を受付けた場合は、障害が発生したものとして、保守員をシステム装置1が配置されている場所へ派遣することができる。
【0016】
次に、図3を参照して監視通報の動作シーケンスについて説明する。
まず、電源制御装置2は、システム監視部10よりサービスプロセッサ6に対して、システム監視要求を送信する(S100)。プロセッサ7およびサービスプロセッサ6が正常に稼動中の場合には、サービスプロセッサ6はシステム監視要求に対して正常に応答する(S101)。
この時、プロセッサ7やサービスプロセッサ6が動作を継続出来ない様な重度な障害、例えば、プロセッサ7が一時的に故障し、バス8にも影響を与え、システム全体がハングアップする様な障害が発生したと仮定する(S102)。この場合、電源制御装置2からのシステム監視要求に対してサービスプロセッサ6は応答を返せなくなる(S103)。
【0017】
電源制御装置2は、システム監視要求に対して一定時間内に応答を受信できないので、タイムアウトが生じる。これにより、システム監視部10はシステム装置1に重大な障害が発生したと認識し、電源9に対して電源オフを指示する(S104)。その結果、システム装置1は一部のハードウェアを除き、補助電源運転モードに切り替わる。この電源オフ操作は、プロセッサ7の障害要因をクリアし、バス8を開放し、サービスプロセッサ6が動作を続行できる状態にすることができる。
【0018】
次に、電源制御装置2は、外部通報要求部11を用いて、サービスプロセッサ6に対して通報要求を行う(S105)。これを受けてサービスプロセッサ6は、通報装置3を介して監視センタ12への通報を行う(S106)。監視センタ12は、システム装置1に障害が発生したことを検知し、保守員を現地へ派遣するなどの処置を講じる。
【0019】
次に、電源制御装置2は電源9に対して電源オンを指示する(S107)。これにより、サービスプロセッサ6は、システム立ち上げ時の診断動作を実行し、障害の詳細情報を収集する(S108)。診断動作の結果問題を検出した場合、サービスプロセッサ6は自発的に監視センタ12への通報を行う(S109)。この通報時に添付される詳細情報は、上記のS106と比較して、障害の詳細情報が追加されたものであるため、保守員が現地に到着した後の保守作業に有用なデータとなる。
【0020】
最後に、電源制御装置2は、システム装置1が立ち上がる前に電源9に対して電源オフを指示する(S110)。これは、障害が間歇的なものであった場合に、システム装置1が正常に立ち上がると、ユーザ業務が開始される恐れがあるためである。本実施例の様な、プロセッサ7が稼動中に突然ハングアップする障害である場合には、業務の再開前に更新中であったファイルの回復等の保守作業が必要であり、電源をオフすることで業務を再開させることを防ぐ。
【0021】
以上のように、本実施例によれば、電源制御装置2に、システム監視部10と外部通報要求部11を設けることで、システム装置1に重大な障害が発生した場合においても、システム装置1と独立した電源制御装置2により、システム装置1に障害が発生したことを検知し、監視センタ12に対して通報することができる。
【0022】
また、本実施例によれば、システム装置のハードウェアを用いることで、電源制御装置に特別なハードウェアを追加する必要が無く、実現することができる。また、監視センタへの通報内容を、障害発生の有無と、障害要因等を示す詳細情報に分離して複数回通報することで、保守員が迅速に保守作業を開始できる。また、電源制御装置がシステム装置の通信ポートを介して、既存の保守メニュー操作を実施することで、システム装置本体に変更を加えること無く、システム装置の稼動状況を監視できる。
【0023】
なお、上記実施例では、システム装置1、通報装置3、および電源制御装置2がそれぞれ独立して構成されるが、システム装置1に標準的な保守員作業用の操作メニューがあれば、電源制御装置2のみの変更で実現できる。
【図面の簡単な説明】
【0024】
【図1】一実施例におけるシステム装置を含むコンピュータシステムの構成を示す図。
【図2】一実施例における電源制御装置2とサービスプロセッサ6間の処理を示す図。
【図3】一実施例における監視通報の動作を説明するためのシーケンス図。
【符号の説明】
【0025】
1:システム装置 2:電源制御装置 3:通報装置 4:通信ポート 5:ポートコントローラ 6:サービスプロセッサ 7:プロセッサ 8:バス 9:電源 10:システム監視部 11:外部通報要求部 12:監視センタ


【特許請求の範囲】
【請求項1】
情報処理を行うシステム装置と、外部に対して通報する通報装置と、該システム装置の電源制御を行う電源制御装置を含むコンピュータシステムであって、該電源制御装置は、該システム装置の稼動状況を監視する監視部と、外部へ障害通報を行う外部通報要求部を有し、該監視部は該システム装置に障害が発生したことを検知し、該外部通報要求部は障害発生の検知に従って通報要求を発し、該通報装置は該通報要求に基づいて外部に対して障害の通報を行うことを特徴とするコンピュータシステム。
【請求項2】
情報処理を行うシステム装置と、外部に対して通報する通報装置と、該システム装置の電源制御を行う電源制御装置を含み、かつ該電源制御装置は該システム装置の稼動状況を監視する監視部と、外部へ障害通報を行う外部通報要求部を有するコンピュータシステムにおける障害通報方法であって、該監視部によって該システム装置に障害が発生したことを検知し、該外部通報要求部によって障害発生の検知に従って通報要求を発し、該通報装置によって該通報要求に基づいて外部に対して障害の通報を行うことを特徴とする障害通報方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2008−59531(P2008−59531A)
【公開日】平成20年3月13日(2008.3.13)
【国際特許分類】
【出願番号】特願2006−239090(P2006−239090)
【出願日】平成18年9月4日(2006.9.4)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】