説明

障害通報システム、障害通報方法及び障害通報プログラム

【課題】監視対象機器の障害に対して効率的に通報を行ない、煩雑さを低減させることができる障害通報システム、障害通報方法及び障害通報プログラムを提供する。
【解決手段】監視システム20の管理コンピュータ21は、監視対象機器10における障害を検知した場合には、この障害の障害事象データ記憶部22から通報グループを特定する。管理コンピュータ21は、特定した通報グループが、通報管理処理中又は確認済みの場合には、障害を記録する。管理コンピュータ21は、通報管理処理中でなく、確認済みでない場合には、管理コンピュータ21は、新たな通報データを記録し、通報管理処理を行なう。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ホストコンピュータやサーバなどに障害が発生したときに担当者に通報を行なうための障害通報システム、障害通報方法及び障害通報プログラムに関する。
【背景技術】
【0002】
今日、企業内では、複数のシステムを使用しているケースが多く、これらシステムの確実な運用を図るために、常時、システムについて監視が行なわれている。これにより、障害の発生を検知した場合には、迅速な復旧作業を行なうことができる。しかしながら、システムに障害が発生したときに、復旧作業を行なう担当者が不在の場合もある。
【0003】
そこで、障害が発生したときに、複数の管理者に対して順番に通知を行なう技術が開示されている(例えば、特許文献1参照。)。この特許文献1に記載の発明では、各管理者の管理権限に基づいてアラートの通知順番を決定する。そして、アラート通知システムが、アプリケーションにアラートを通知すべき事象が発生したことを検出した場合、このアプリケーションの管理者のうち所定の管理権限を有する管理者へアラートを通知する。アラートの通知を受けた管理者が対処を行なえない場合に、決定した通知順に次の管理者へアラートを通知する。これにより、個々の管理者に対して直接関連しない不要なアラートを通知せずに済み、対応をスムーズに行なうことができる。
【特許文献1】特開2005−250760号公報(図7〜図18)
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の技術では、障害発生毎に管理者に対して通知が行なわれることになる。従って、例えば、一つのシステム等において複数の障害が発生した場合、その度に通報が行なわれることになる。この場合、一連の復旧作業で障害を解決できる場合にも、何度も通知が行なわれると煩雑になる。特に、特許文献1に記載の技術のように、通知対象者を変更しながら障害発生の度に通報を行なう場合には、重畳的に通報数が増大してしまう。従って、効率よく通報を行なうことができないという課題があった。
【0005】
本発明は、上述の問題に鑑みてなされ、この目的は、効率的に通報を行ない、煩雑さを低減させることのできる障害通報システム、障害通報方法及び障害通報プログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記問題点を解決するために、請求項1に記載の発明は、監視対象機器の障害事象に応じた通報グループを記録した通報グループデータ記憶手段と、前記通報グループ毎に、優先順位を付与して通報先に関するデータを記録した連絡先データ記憶手段と、前記通報グループ毎に、発生した障害の内容、障害発生時刻及び状況ステータスに関するデータを記録する障害データ記憶手段と、連絡先端末に接続された管理コンピュータとを用いて通報を行なうシステムであって、前記管理コンピュータが、監視対象機器における障害を検知した場合、この障害の障害事象に基づいて、前記通報グループデータ記憶手段を用いて通報グループを特定するグループ特定手段と、前記障害データ記憶手段に記録された状況ステータスを用いて、前記特定した通報グループに対して通報管理状態を特定する状態特定手段と、前記通報グループに対する通報管理処理を行なっている場合には処理を継続し、通報管理処理を行なっていない場合には、前記連絡先データ記憶手段を用いて、優先順位の高い通報先の担当者の連絡先端末への通報を行なう通報管理処理を行なうとともに、前記障害データ記憶手段に通報グループ毎に前記障害に関するデータを記録する処理実行手
段とを備えたことを要旨とする。
【0007】
請求項2に記載の発明は、請求項1に記載の障害通報システムにおいて、前記管理コンピュータは、前記通報を行なった担当者の連絡先端末から通報確認を受信した場合、前記障害データ記憶手段に前記確認情報を記録する確認手段を更に実行し、前記通報管理処理は、前記通報から経過時間を計測し、所定時間が経過する前に前記障害データ記憶手段において確認情報が記録された場合には処理を終了し、前記所定時間が経過しても前記障害データ記憶手段において確認情報が記録されていない場合には、次優先順位の通報先を前記連絡先データ記憶手段から特定し、この次優先順位の通報先を含む担当者の連絡先端末へ通報を行なうことを要旨とする。
【0008】
請求項3に記載の発明は、請求項1又は2に記載の障害通報システムにおいて、前記管理コンピュータは、前記通報グループに対する通報管理処理を行なっている場合に、前記通報グループデータ記憶手段において前記通報グループに関連付けられた障害事象に関する障害が発生した場合には、この発生した障害の内容及び障害発生時刻を、このグループに関連付けて前記障害データ記憶手段に記録することを要旨とする。
【0009】
請求項4に記載の発明は、監視対象機器の障害事象に応じた通報グループを記録した通報グループデータ記憶手段と、前記通報グループ毎に、優先順位を付与して通報先に関するデータを記録した連絡先データ記憶手段と、前記通報グループ毎に、発生した障害の内容、障害発生時刻及び状況ステータスに関するデータを記録する障害データ記憶手段と、連絡先端末に接続された管理コンピュータとを用いて通報を行なう方法であって、前記管理コンピュータが、監視対象機器における障害を検知した場合、この障害の障害事象に基づいて、前記通報グループデータ記憶手段を用いて通報グループを特定するグループ特定段階と、前記障害データ記憶手段に記録された状況ステータスを用いて、前記特定した通報グループに対して通報管理状態を特定する状態特定段階と、前記通報グループに対する通報管理処理を行なっている場合には処理を継続し、通報管理処理を行なっていない場合には、前記連絡先データ記憶手段を用いて、優先順位の高い通報先の担当者の連絡先端末への通報を行なう通報管理処理を行なうとともに、前記障害データ記憶手段に通報グループ毎に前記障害に関するデータを記録する処理実行段階とを実行することを要旨とする。
【0010】
請求項5に記載の発明は、監視対象機器の障害事象に応じた通報グループを記録した通報グループデータ記憶手段と、前記通報グループ毎に、優先順位を付与して通報先に関するデータを記録した連絡先データ記憶手段と、前記通報グループ毎に、発生した障害の内容、障害発生時刻及び状況ステータスに関するデータを記録する障害データ記憶手段と、連絡先端末に接続された管理コンピュータとを用いて通報を行なうプログラムであって、前記管理コンピュータを、監視対象機器における障害を検知した場合、この障害の障害事象に基づいて、前記通報グループデータ記憶手段を用いて通報グループを特定するグループ特定手段、前記障害データ記憶手段に記録された状況ステータスを用いて、前記特定した通報グループに対して通報管理状態を特定する状態特定手段、及び前記通報グループに対する通報管理処理を行なっている場合には処理を継続し、通報管理処理を行なっていない場合には、前記連絡先データ記憶手段を用いて、優先順位の高い通報先の担当者の連絡先端末への通報を行なう通報管理処理を行なうとともに、前記障害データ記憶手段に通報グループ毎に前記障害に関するデータを記録する処理実行手段として機能させることを要旨とする。
【0011】
(作用)
請求項1、4又は5に記載の発明によれば、管理コンピュータは、監視対象機器における障害を検知した場合、この障害の障害事象に基づいて、通報グループデータ記憶手段を用いて通報グループを特定する。管理コンピュータは、障害データ記憶手段に記録された
状況ステータスを用いて、特定した通報グループに対して通報管理状態を特定する。管理コンピュータは、通報グループに対する通報管理処理を行っている場合にはこの通報管理処理を継続する。また、管理コンピュータは、通報管理処理を行なっていない場合には、連絡先データ記憶手段を用いて、優先順位の高い通報先の担当者の連絡先端末への通報を行なう通報管理処理を行ない、前記障害データ記憶手段に、検知した障害に関するデータを記録する。すなわち、管理コンピュータは、新たな障害が発生しても、発生した障害を対処する通報グループが同じであり、この通報グループに対して通報を行なっている場合には、新たな通報を行なわない。従って、管理コンピュータにとっては、無駄な通報を抑制することにより、システム負荷を軽減して、効率的に通報を行なうことができる。一方、担当者にとっては、多数の障害が連続して発生した場合にも個別に通知を受けることがないので、煩雑さを低減させることができる。
【0012】
請求項2に記載の発明によれば、管理コンピュータは、通報を行なった担当者の連絡先端末から通報確認を受信した場合、障害データ記憶手段に確認情報を記録する。通報管理処理においては、通報から経過時間を計測し、所定時間が経過する前に障害データ記憶手段において確認情報が記録された場合には、この通報管理処理を終了する。このため、確認情報により、その通報グループの担当者と連絡が取れたことが把握できるので、同じ通報グループの他の担当者は、同じ障害事象に対して通報を受けることがなくなり、煩雑さを低減させることができる。また、管理コンピュータは、前記所定時間が経過しても前記障害データ記憶手段において確認情報が記録されていない場合には、次優先順位の通報先を前記連絡先データ記憶手段から特定し、この次優先順位の通報先を含む担当者の連絡先端末へ通報を行なう。このため、優先順位の高い担当者に連絡が取れなかった場合には、優先順位の低い担当者へと、通報先を累積的に増やすことができる。従って、できる限り順位の高い通報先を優先する通報を行なう一方で、この通報先に連絡が取れない場合にも、より迅速に発生した障害に対処することが可能となる。
【0013】
請求項3に記載の発明によれば、管理コンピュータは、通報グループに対する通報管理処理を行なっている場合に、通報グループデータ記憶手段において通報グループに関連付けられた障害事象に関する障害が発生した場合には、この発生した障害の内容及び障害発生時刻を、このグループに関連付けて前記障害データ記憶手段に記録する。このため、通報管理処理による通報中に新たな障害が発生した場合には、担当者は、障害データ記憶手段に記録した障害の内容及び障害発生時刻により、発生した障害を確認することができる。従って、発生した障害のそれぞれについて通知を受けなくても、発生したすべての障害に対して確認することができる。
【発明の効果】
【0014】
本発明によれば、監視対象機器の障害に対して効率的に通報を行ない、煩雑さを低減させることができる。
【発明を実施するための最良の形態】
【0015】
以下、本発明を具体化した障害通報システムの一実施形態を図1〜図6に基づいて説明する。
監視対象機器10を監視するために、図1に示すように、本実施形態の障害通報システムとしての監視システム20を用いる。本実施形態では、例えばホストコンピュータやサーバなどを監視対象機器10として、これらの稼動状況や障害発生の有無を監視する。この監視対象機器10は、ネットワークN1を介して監視システム20に接続されている。そして、各監視対象機器10は、障害が発生すると、発生した障害の内容(例えば、障害を特定するための障害コード)に関する障害メッセージを監視システム20に対して送信する。更に、これら監視対象機器10は、定期的に稼動チェック処理をそれぞれ行ない、稼動チェックが終了した場合には、この終了メッセージデータを監視システム20に送信
する。なお、本実施形態では、障害メッセージや終了メッセージには、送信した監視対象機器10を特定するための機器特定データが含まれている。
【0016】
これら監視対象機器10の監視を行なう監視システム20は、管理コンピュータ21を備えており、後述する処理(グループ特定段階、状態特定段階及び処理実行段階等を含む処理)を行なう。このための障害通報プログラムを実行することにより、監視システム20は、グループ特定手段、状態特定手段及び処理実行手段等として機能する。
【0017】
また、管理コンピュータ21は、時間を計測する計時手段を備えている。本実施形態では、システム時刻を利用して時刻を記録したり、時間を計測したりする。
更に、管理コンピュータ21は、担当者特定データ記憶部を備えている。この担当者特定データ記憶部には、担当者特定データが記憶されている。この担当者特定データは、担当者を特定するための担当者識別子データと、この担当者の連絡先データとを関連付けたデータである。担当者識別子データは、監視システム20へのアクセス時に認証を行なうために用いられる。更に、担当者特定データは、担当者識別子に基づいて担当者の連絡先を特定するためにも用いられる。
【0018】
更に、管理コンピュータ21は、通報グループデータ記憶手段としての障害事象データ記憶部22、連絡先データ記憶手段としての連絡先データ記憶部23及び障害データ記憶手段としての通報データ記憶部24に接続されている。
【0019】
図2に示すように、障害事象データ記憶部22には、監視対象機器10に生じた障害に対処するグループを特定するための障害事象データ220が障害事象毎に記録されている。この障害事象データ220は、本実施形態では、各監視対象機器10の管理者が、各障害について対処する担当者を決定し登録した場合に記録される。障害事象データ220は、通報事象及び通報グループ識別子に関するデータを含んで構成される。
【0020】
通報事象データ領域には、監視対象機器10において発生した障害であって、メンテナンスが必要な事象に関するデータが記録されている。本実施形態では、各監視対象機器10における通報事象を特定するために、機器特定データ及び障害コードを用いる。
【0021】
通報グループ識別子データ領域には、この障害に対して通報が行なわれるグループを特定するための識別子に関するデータが記録されている。
図3に示すように、連絡先データ記憶部23には、各障害事象を対処するグループの担当者に対して通報を行なうための通報先に関する連絡先データ230が記録されている。この連絡先データ230は、監視対象機器10のメンテナンスを対処するグループが決定した場合に登録される。この連絡先データ230は、通報グループ識別子、第1優先順位通報先、第2優先順位通報先及び第3優先順位通報先に関するデータを含んで構成される。この連絡先データ230には、第1優先順位通報先に関するデータは必ず含まれる。なお、第2優先順位通報先及び第3優先順位通報先がない場合には、これらのデータが記録されない場合もある。ただし、第2優先順位通報先の登録がない場合には、第3優先順位通報先の登録はできないものとする。
【0022】
通報グループ識別子データ領域には、通報を行なうグループを特定するための識別子に関するデータが記録されている。この通報グループ識別子を介して障害事象データ220と連絡先データ230とが関連付けられることになる。
【0023】
第1優先順位通報先データ領域には、このグループにおいて最初に通報する第1優先順位の通報先に関するデータが記録されている。この第1優先順位通報先データ領域には、複数の通報先データを記録することも可能である。この通報先データとして、メンテナン
スを行なう担当者を特定するための担当者情報(ここでは担当者識別子データ)を用いる。そして、この担当者識別子を用いることにより、担当者特定データ記憶部から担当者の連絡先(携帯電話のメールアドレスや電話番号など)を取得することができる。
【0024】
第2優先順位通報先データ領域には、このグループにおいて2番目に通報する第2優先順位の通報先に関するデータが記録されている。この第2優先順位通報先データ領域にも、複数の通報先データを記録できるようにしてもよい。
【0025】
第3優先順位通報先データ領域には、このグループにおいて3番目に通報する第3優先順位の通報先に関するデータが記録されている。この第3優先順位通報先データ領域にも、複数の通報先データを記録できるようにしてもよい。
【0026】
図4に示すように、通報データ記憶部24には、通報を行なった場合の通報データ240が記録される。この通報データ240は、新たに通報を行なう必要が生じた場合に登録され、その後の障害発生に応じて更新される。この通報データ240は、通報番号、通報グループ識別子、通報状況、障害発生時刻及び障害内容等に関するデータを含んで構成される。
【0027】
通報番号データ領域には、各通報を特定するための識別子としての通報番号に関するデータが記録される。
通報グループ識別子データ領域には、通報を行なうグループを特定するための識別子に関するデータが記録される。この通報グループ識別子を介して通報データ240と連絡先データ230とが関連付けられて、通報を行なう通報先を特定することができる。
【0028】
通報状況データ領域には、この通報における状況に関するデータが記録される。この通報状況データには、「通報中」、「確認済み」又は「回復済み」の状態のいずれかを示すデータを用いる。ここで、「通報中」データは、通報先に対して通報を行なった状態を示す。この「通報中」を示すデータには、通報を行なった通報先(ここでは、担当者識別子)及び通報時刻に関するデータを含んで構成される。「確認済み」を示すデータは、通報先の担当者が通報を確認した状態を示す。確認データを受信した場合、通報状況が「通報中」から「確認済み」に更新される。「回復済み」を示すデータは、担当者が障害に対処したことにより、障害が発生した監視対象機器10が回復した状態を示す。監視対象機器10の復旧を確認した担当者の担当者端末30から、「回復した」ことを示すデータを受信した場合、通報状況が「確認済み」から「回復済み」に更新される。
【0029】
障害発生時刻データ領域には、各障害が発生した時刻(障害発生時刻)に関するデータが記録される。また、障害内容データ領域には、発生した障害の内容(障害内容)に関するデータが、障害発生時刻に対応して記録される。新たに発生した障害について、障害事象に対処する通報グループに対する通報データ240が通報データ記憶部24に登録されており、かつ通報状況が「通報中」又は「確認済み」の場合には、これらの障害発生時刻及び障害内容に関するデータは、この通報データ240に追加して記録される。
【0030】
また、図1に示すように、監視システム20には複数の担当者端末30に通信ネットワークN2を介して接続されている。この担当者端末30は、障害に対して対処する担当者が用いる端末である。この担当者端末30として、具体的には、監視システム20から通報を受ける通報先になっている携帯電話端末や、通報を受けた担当者が監視システム20にアクセスするためのコンピュータ端末などを用いる。また、この担当者端末30を用いることにより、担当者は通報データ240の障害発生時刻及び障害内容データを監視システム20から取得して表示させることができる。これにより、担当者は、後述する通報処理による通報とは別に、監視システム20にアクセスして、障害発生に関する情報を閲覧
することができる。この場合、アクセス時に認証された担当者の担当者識別子を用いて特定された通報データ240のみを抽出して、担当者端末30に表示させてもよい。
【0031】
更に、監視システム20は、システムオペレータ端末(図示せず)にも接続されている。なお、このシステムオペレータ端末は、発生したすべての障害に関する障害内容や障害発生時刻を表示することができる。更に、システムオペレータ端末は、通報データ240の通報状況データを「通報中」、「確認済み」又は「回復済み」のいずれかを示すデータに変更することもできる。また、このシステムオペレータ端末は、緊急連絡先データ及び管理責任者の電話連絡データを記憶しており、これら緊急連絡先又は管理責任者に対して連絡を行なうこともできる。
【0032】
次に、上記のように構成されたシステムにおいて、障害が発生したときの監視システム20の処理手順について、図5及び図6を用いて説明する。
(通報処理)
監視対象機器10は、障害が発生すると、ネットワークN1を介して監視システム20に通知を行なう。具体的には、監視対象機器10は、発生した障害の内容、この障害の発生時刻及びこの監視対象機器10の機器を特定可能な情報(機器特定情報)を含む障害メッセージを監視システム20に送信する。
【0033】
また、監視対象機器10は、定期的に稼動チェックを行ない、稼動チェックの終了メッセージを、監視システム20に送信する。この終了メッセージには、機器特定情報を含む。この場合、監視システム20は、定期的に監視対象機器10から終了メッセージを受信しないと、終了メッセージを受信する予定であった時刻に障害が発生したと検知する。具体的には、監視システム20の管理コンピュータ21は、終了メッセージに含まれる機器特定情報と、この終了メッセージを受信した終了受信時刻とを関連付けて記憶する。そして、この終了受信時刻から所定時間が経過しても新たな終了メッセージを受信しない場合には、障害が発生したと検知する。
【0034】
このように、監視システム20は、監視対象機器10から障害メッセージを受信した場合や定期的な終了メッセージを受信しない場合には、障害発生を検知する(ステップS1−1)。この場合、監視システム20の管理コンピュータ21は、機器特定情報、障害の内容(障害内容)及びこの障害が発生した時刻(障害発生時刻)を特定する。
【0035】
次に、監視システム20は、通報グループを特定する(ステップS1−2)。具体的には、監視システム20の管理コンピュータ21は、検知した障害(機器特定情報、障害内容)に対する障害事象データ220を障害事象データ記憶部22において検索する。この障害に対する障害事象データ220を障害事象データ記憶部22から抽出できた場合には、この障害事象データ220に含まれる通報グループ識別子を特定する。なお、障害事象データ220を抽出できない場合には、監視システム20は通報を行なわない。
【0036】
次に、管理コンピュータ21は、通報データ記憶部24において、特定した通報グループ識別子を含む通報データ240の特定を行なう(ステップS1−3)。
そして、管理コンピュータ21は、通報に対して確認済みかどうかを判断する(ステップS1−4)。具体的には、ステップS1−3において特定した通報データ240の通報状況データ領域に「確認済み」を示すデータが記録されているか否かを判断する。ここで、「確認済み」を示すデータが記録されている場合(ステップS1−4において「YES」の場合)には、管理コンピュータ21は、後述する障害の追加記録処理を行なう(ステップS1−6)。
【0037】
一方、通報状況データ領域に「確認済み」を示すデータが記録されていない場合(ステ
ップS1−4において「NO」の場合)は、管理コンピュータ21は、「通報中」を示すデータが記録されているか否かを判断する(ステップS1−5)。
【0038】
そして、通報状況データ領域に「確認済み」又は「通報中」を示すデータが記録されている場合(ステップS1−4又はS1−5において「YES」の場合)には、検知した障害の追加記録処理を行なう(ステップS1−6)。具体的には、ステップS1−3において特定した通報データ240の障害発生時刻データ領域及び障害内容データ領域に、ステップS1−1で特定した障害内容及び障害発生時刻に関するデータを記録する。
【0039】
一方、通報状況データ領域に「通報中」を示すデータが記録されていない場合、(ステップS1−5において「NO」の場合)には、管理コンピュータ21は、新たな通報データ240を記録する(ステップS1−7)。この場合は、通報グループに対して通報を行なっていない場合、すなわちステップS1−3において特定した通報データ240の通報状況データ領域に「回復済み」を示すデータが記録されている場合の他、ステップS1−2において特定した通報グループ識別子を含む通報データ240を特定できない場合も含む。具体的には、管理コンピュータ21は、この障害に対してユニークな障害番号を付与する。そして、付与した障害番号、ステップS1−2において特定した通報グループ識別子に関するデータを含む新たな通報データ240を生成して通報データ記憶部24に記録する。そして、この通報データ240の通報状況データ領域には、「通報中」を示すデータを記録する。更に、この通報データ240に、今回の障害に関する障害内容及びこの障害発生時刻に関するデータを記録する。
【0040】
そして、管理コンピュータ21は、通報管理処理を行なう(ステップS1−8)。この通報管理処理について、図6を参照しながら説明する。
(通報管理処理)
この通報管理処理において、管理コンピュータ21は、まず、第1優先順位の担当者に通報を行なう(ステップS2−1)。具体的には、管理コンピュータ21は、新たに記録した通報データ240の通報グループ識別子を含む連絡先データ230を抽出する。そして、この連絡先データ230の第1優先順位通報先データ領域に記録されている担当者に対して障害が発生した旨の通報を行なう。具体的には、第1優先順位通報先データ領域に記録されている担当者識別子を用いて、担当者特定データ記憶部から連絡先として、例えばメールアドレスを取得し、このメールアドレスに障害が発生した旨のメールを送信する。また、連絡先が担当者端末30の携帯電話番号であれば、この電話番号に障害が発生した旨の音声メッセージを送信する。なお、本実施形態において、第1優先順位通報先データ領域に複数の担当者情報が記録されていた場合には、管理コンピュータ21は、この複数の担当者情報に基づいて担当者特定データ記憶部に記憶されている連絡先に対して、順次、通報を行なう。通報を行なうと、管理コンピュータ21は、このときの通報グループ識別子が記録されている通報データ240の通報状況データに、通報した担当者識別子及びその通報時刻に関するデータを記録する。
【0041】
ここで、担当者端末30において通報を受けた担当者は、障害内容を確認した場合、担当者端末30を用いて通報確認処理を行なう。具体的には、担当者は、担当者端末30を用いて、通信ネットワークN2を介して監視システム20にアクセスする。この場合、監視システム20は、アクセス時の認証処理を行ない、認証できた担当者の担当者端末30のみからのアクセスを許可する。具体的には、監視システム20の管理コンピュータ21は、担当者端末30から担当者識別子データを取得し、この担当者識別子に含む担当者特定データを担当者特定データ記憶部から抽出することにより担当者を特定して認証する。
【0042】
更に、管理コンピュータ21は、特定した担当者識別子を含む通報データ240を抽出する。この場合、障害が回復していない状況の通報データ240を抽出する。具体的には
、管理コンピュータ21は、通報データ記憶部24から、通報状況が「通報中」又は「確認済み」を示す通報状況の通報データ240であって、この担当者識別子を含むすべての通報データ240を抽出する。そして、抽出した通報データ240に含まれる障害情報を、担当者端末30に送信する。この障害情報には、少なくとも通報番号と障害内容に関する情報を含める。担当者端末30は、受信したデータに基づいて障害内容を表示する。なお、この担当者端末30を用いて、「回復済み」を示すデータがすでに記録されている通報データ240を検索して、この回復した障害内容について表示することもできる。
【0043】
ここで、担当者は、表示された障害内容の中から、「確認済み」にする障害を選択する。そして、担当者端末30を用いて、確認データを監視システム20に送信する。この確認データには、この担当者を特定する情報(例えば担当者識別子データ)や、担当者端末30において選択された障害を特定する情報(ここでは通報番号)を含む。
【0044】
確認データを受信した監視システム20の管理コンピュータ21は、受信した通報番号を用いて通報データ240を特定し、この通報データ240の通報状況データ領域に「確認済み」を示すデータ及び担当者識別子データを記録する。
【0045】
ステップS2−1において通報を行なった管理コンピュータ21は、システム時刻を取得して、最後に通報した通報時刻から所定時間が経過した時刻になったときに、通報データ240の通報状況データ領域に「確認済み」を示すデータが記録されているか否かを確認する。
【0046】
そして、通報確認が行なわれている場合、すなわち所定時間内(例えば10分以内)に、通報状況データ領域に「確認済み」を示すデータが記録されている場合(ステップS2−2において「YES」の場合)、管理コンピュータ21は、通報管理処理を終了させる。
【0047】
一方、所定時間内に通報確認が行なわれていない場合(ステップS2−2において「NO」の場合)には、所定時間を経過しても、通報データ240のデータ領域には「通報中」を示すデータが記録された状態のままである。この場合には、管理コンピュータ21は、通報データ240の第2優先順位に担当者が登録されているか否かを判断する(ステップS2−3)。具体的には、特定した通報グループ識別子を含む連絡先データ230の第2優先順位通報先データ領域における担当者識別子の記録の有無を確認する。
【0048】
そして、該当する連絡先データ230において第2優先順位通報先データの記録がない場合(ステップS2−3において「NO」の場合)、管理コンピュータ21は、3回の通報を繰り返したか否かを判断する(ステップS2−4)。具体的には、管理コンピュータ21は、通報データ240の通報状況データに記録されている担当者識別子と、連絡先データ230に記録されている担当者識別子とを比較する。そして、通報状況データに記録されている最低順位の担当者識別子の記録回数を計数することにより通報回数を算出する。そして、この通報回数と3回とを比較する。
【0049】
通報回数が3回に達していない場合(ステップS2−4において「NO」の場合)、管理コンピュータ21は、ステップS2−1の処理を再度実行する。具体的には、管理コンピュータ21は、再度、第1優先順位の担当者に通報を行なう。この場合、管理コンピュータ21は、通報した担当者識別子及びこの通報時刻に関するデータを記録する。そして、所定時間内に通報確認があったか否かを判断し(ステップS2−2)、3回の通報が行なわれるまで繰り返す。
【0050】
一方、第2優先順位通報先データの記録がある場合(ステップS2−3において「YE
S」の場合)には、管理コンピュータ21は、第1優先順位及び第2優先順位の担当者に通報を行なう(ステップS2−5)。具体的には、管理コンピュータ21は、連絡先データ230の第1優先順位通報先データ領域及び第2優先順位通報先データ領域に記憶されているすべての通報先に通報を行なう。この場合にも、担当者特定データ記憶部を用いて、担当者識別子に対応する連絡先を特定して通報を行なう。そして、通報した担当者識別子及びこの通報時刻に関するデータを記録する。ここで、管理コンピュータ21は、ステップS2−5の処理によって通報を行なった回数を通報回数とする。
【0051】
そして、管理コンピュータ21は、システム時刻を利用して所定時間(例えば10分)、確認データの受信を監視する。所定時間内に通報確認が行なわれ、確認データの受信した場合(ステップS2−6において「YES」の場合)には、通報管理処理を終了させる。
【0052】
一方、所定時間内に通報確認データを受信していない場合(ステップS2−6において「NO」の場合)には、管理コンピュータ21は、第3優先順位に担当者が登録されているか否かを判断する(ステップS2−7)。具体的には、連絡先データ230の第3優先順位通報先データ領域における担当者識別子データの記録の有無を確認する。
【0053】
そして、該当する連絡先データ230において第3優先順位通報先データの記録がない場合(ステップS2−7において「NO」の場合)、管理コンピュータ21は、3回の通報を繰り返したか否かを判断する(ステップS2−8)。具体的には、管理コンピュータ21は、通報状況データに記録されている最低順位の通報先の記録回数を計数することにより通報回数を算出する。そして、この通報回数と3回とを比較する。
【0054】
通報回数が3回に達していない場合(ステップS2−8において「NO」の場合)には、管理コンピュータ21は、上記ステップS2−5の処理を再度実行する。具体的には、管理コンピュータ21は、再度、第1優先順位及び第2優先順位の担当者に通報を行なう。そして、所定時間内に通報確認があったか否かを判断し(ステップS2−6)、3回の通報が行なわれるまで繰り返す。
【0055】
一方、第3優先順位通報先データの記録がある場合(ステップS2−7において「YES」の場合)には、管理コンピュータ21は、第1優先順位、第2優先順位及び第3優先順位の担当者に通報を行なう(ステップS2−9)。具体的には、管理コンピュータ21は、連絡先データ230の第1優先順位通報先データ領域、第2優先順位通報先データ領域及び第3優先順位通報先データ領域に記憶されているすべての通報先に対して通報を行なう。この場合にも、担当者特定データ記憶部を用いて、担当者識別子に対応する連絡先を特定して通報を行なう。そして、通報後、管理コンピュータ21は、通報した通報先及びこの通報時刻に関するデータを記録する。ここで、管理コンピュータ21は、ステップS2−9の処理によって通報を行なった回数を通報回数とする。
【0056】
そして、管理コンピュータ21は、システム時刻を利用して所定時間(例えば10分)、確認データの受信を監視する。所定時間内に通報確認が行なわれ、確認データを受信した場合(ステップS2−10において「YES」の場合)には、通報管理処理を終了する。一方、所定時間内に確認データを受信していない場合(ステップS2−10において「NO」の場合)には、3回の通報が行なわれるまで、ステップS2−9,S2−10の処理を繰り返す。
【0057】
そして、3回の通報を繰り返しても所定時間内に通報確認が行なわれず、確認データを受信しなかった場合(ステップS2−4,S2−8,S2−11において「YES」の場合)には、担当者への通報を中止し、システムオペレータに通報を行なう(ステップS1
−12)。具体的には、監視システム20は、システムオペレータ端末に対して、障害発生のメッセージを出力する。
【0058】
なお、システムオペレータ端末に障害発生のメッセージが出力されると、システムオペレータは、担当者の緊急連絡先に対して緊急連絡を行なう。そして、緊急連絡先を用いて担当者と連絡が取れた場合には、システムオペレータは、通報データ240の通報状況ステータスのデータを「確認済み」にする。一方、緊急連絡先を用いても担当者と連絡が取れず、障害が発生してから長時間(例えば2時間)経過した場合には、管理責任者に電話連絡を行なう。
【0059】
一方、通報確認を行なった担当者は、障害が発生した監視対象機器10を復旧させるために対処する。復旧を確認した担当者は、担当者端末30を用いて通信ネットワークN2を介して監視システム20にアクセスする。この場合も、監視システム20は、アクセス時の認証処理を行ない、認証できた担当者の担当者端末30のみからのアクセスを許可する。具体的には、監視システム20の管理コンピュータ21は、担当者端末30から担当者識別子データを取得し、この担当者識別子に含む担当者特定データを担当者特定データ記憶部から抽出することにより担当者を特定して認証する。
【0060】
更に、管理コンピュータ21は、特定した担当者識別子を含む通報データ240を抽出する。この場合、障害が回復していない状況の通報データ240を抽出する。具体的には、管理コンピュータ21は、通報データ記憶部24から、通報状況が「通報中」又は「確認済み」を示す通報状況の通報データ240であって、この担当者識別子を含むすべての通報データ240を抽出する。そして、抽出した通報データ240に含まれる障害情報を、担当者端末30に送信する。この障害情報には、少なくとも通報番号と障害内容に関する情報を含める。担当者端末30は、受信したデータに基づいて障害内容を表示する。
【0061】
ここで、担当者は、表示された障害内容の中から、復旧させた監視対象機器10の障害を選択する。そして、担当者端末30を用いて、監視システム20に対して「回復した」ことを意味するデータを送信する。このデータには、この担当者を特定する情報(例えば担当者識別子データ)や、担当者端末30において選択された障害を特定する情報(ここでは通報番号)を含む。
【0062】
このデータを受信した管理コンピュータ21は、受信した通報番号を用いて通報データ240を特定し、この通報データ240の通報状況データ領域に「回復済み」を示すデータを記録する。
【0063】
本実施形態の障害通報システムによれば、以下のような効果を得ることができる。
○ 本実施形態では、監視システム20の管理コンピュータ21は、監視対象機器10における障害を検知した場合には、この障害の障害事象データ記憶部22から通報グループを特定する。管理コンピュータ21は、特定した通報グループの通報データ240を特定して(ステップS1−3)、確認済み又は通報中の場合(ステップS1−4又は1−5において「YES」の場合)には、検知した障害の追加記録処理を行なう(ステップS1−6)。一方、通報中でない場合(ステップS1−5において「NO」の場合)には、管理コンピュータ21は、新たな通報データ240を記録し(ステップS1−7)、通報管理処理(ステップS1−8)を行なう。すなわち、管理コンピュータ21は、新たな障害が発生しても、この障害を対処する通報グループに対して通報管理処理が行なわれている場合には、新たな通報を行なわない。従って、管理コンピュータ21は、無駄な通報を抑制することにより、システム負荷を軽減して、効率的に通報を行なうことができる。一方、担当者にとっては、多数の障害が連続して発生した場合にも個別に通知を受けることがないので、煩雑さを低減させることができる。
【0064】
○ 本実施形態では、特定した通報グループに対して、確認済み又は通報中の場合(ステップS1−4又はS1−5において「YES」の場合)には、障害の追加記録処理を行なう(ステップS1−6)。この追加記録処理では、ステップS1−3において特定した通報データ240の障害発生時刻データ領域及び障害内容データ領域に、ステップS1−1で特定した障害内容及び障害発生時刻に関するデータを記録する。このため、通報データ記憶部24に記録された通報データ240を取得することにより、通報中に発生した障害を確認することができる。よって、障害の発生毎に通知を受けなくても、すべての障害を確認することができる。
【0065】
○ 本実施形態では、監視システム20の管理コンピュータ21は、確認データを受信すると、管理コンピュータ21は、通報データ240の通報状況データ領域に「確認済み」を示すデータを記録する。そして、管理コンピュータ21は、通報管理処理(ステップS1−8)において、所定時間内に確認データを受信した場合(ステップS2−2,S2−6,S2−10において「YES」の場合)には、通報管理処理を終了させる。これにより、通報グループの担当者と連絡が取れたことが把握できるので、同じ通報グループの優先順位の低い他の担当者は、同じ障害事象に対して通報を受けることがなくなり、煩雑さを低減させることができる。
【0066】
○ 本実施形態では、監視システム20の管理コンピュータ21は、所定時間内に確認データを受信しなかった場合(ステップS2−2において「NO」の場合)には、第1優先順位及び第2優先順位の担当者に通報を行なう(ステップS2−5)。この場合においても、所定時間内に確認データを受信しなかった場合(ステップS2−6において「NO」の場合)には、管理コンピュータ21は、第1優先順位、第2優先順位及び第3優先順位の担当者に通報を行なう(ステップS2−9)。すなわち、通報を行なっても通報確認が行なわれなかった場合には、優先順位の低い通報先を含む通報を行ない、通報先を累積的に増やす。このため、できる限り順位の高い通報先を優先する通報を行なう一方で、この通報先に連絡が取れない場合にも、より迅速に発生した障害に対処することが可能となる。
【0067】
○ 本実施形態では、担当者端末30を介して、発生した障害を特定するデータ及び回復した旨のデータを入力された後、管理コンピュータ21は、通報データ240の通報状況データ領域に「回復済み」を示すデータを記録する。従って、この通報データ240の通報状況データに基づいて、通報管理処理が終了した後、この通報によって担当者が対処している途中であるのか、対処が終わって監視対象機器10が回復した状態であるのかを把握することができる。
【0068】
○ 本実施形態では、各監視対象機器10は、定期的に稼動チェックを行ない、この稼動チェックのメッセージを監視システム20に送信する。このため、監視対象機器10がダウンしてしまって、障害メッセージを送信できない場合であっても、監視システム20は障害を検知することができる。
【0069】
また、上記実施形態は、以下のように変更してもよい。
・ 上記実施形態では、連絡先データ記憶部23には、第3優先順位の通報先まで記憶させた。これに限らず、より多くの優先順位を付与し、この順位に応じた通報先に関するデータを記憶させてもよい。
【0070】
・ 上記実施形態の通報管理処理においては、第1優先順位の担当者に通報して所定時間内に通報確認がなかった場合には、第1、第2優先順位の担当者に通報する。また、第1、第2優先順位の担当者に通報して所定時間内に通報確認がなかった場合には、第1、
第2及び第3優先順位の担当者に通報する。これに限らず、第1優先順位の担当者に通報して所定時間内に通報確認がなかった場合には、第2優先順位の担当者のみに通報してもよい。また、第2優先順位の担当者に通報して所定時間内に確認データを受信しなかった場合には、第3優先順位の担当者のみに通報してもよい。すなわち、通報先から所定時間内に確認データを受信しなかった場合には、次優先順位の通報先を少なくとも含む通報先に連絡するようにすればよい。
【0071】
・ 上記実施形態では、監視対象機器10として、ホストコンピュータやサーバなどのコンピュータを用いて説明した。監視対象機器10は、これらに限られるものでなく、ネットワークを介して障害発生について監視可能な制御手段であれば、すなわちネットワーク機器であればよい。
【0072】
・ 上記実施形態では、通報グループ識別子を障害事象に関連付けて障害事象データ記憶部22に記録した。障害事象には、障害の種類に応じたものだけでなく、障害をグループ化するための事象であればよい。例えば、障害が発生した監視対象機器10の会社別や監視対象機器10の所在地に応じたグループを障害事象とし、これらに応じて通報グループを決定してもよい。前者の場合には、異なる会社が管理している複数の監視対象機器10を1つの監視システム20で管理することができる。また、後者の場合には、地域毎に担当者を決定することにより、より迅速な復旧作業を期待することができる。
【図面の簡単な説明】
【0073】
【図1】本発明の監視システムの概略構成図。
【図2】障害事象データ記憶部に記録されたデータの説明図。
【図3】連絡先データ記憶部に記録されたデータの説明図。
【図4】通報データ記憶部に記録されたデータの説明図。
【図5】通報処理の処理手順を説明するための説明図。
【図6】通報管理処理の処理手順を説明するための説明図。
【符号の説明】
【0074】
10…監視対象機器、20…障害通報システムとしての監視システム、21…管理コンピュータ、22…通報グループデータ記憶手段としての障害事象データ記憶部、23…連絡先データ記憶手段としての連絡先データ記憶部、24…障害データ記憶手段としての通報データ記憶部。

【特許請求の範囲】
【請求項1】
監視対象機器の障害事象に応じた通報グループを記録した通報グループデータ記憶手段と、
前記通報グループ毎に、優先順位を付与して通報先に関するデータを記録した連絡先データ記憶手段と、
前記通報グループ毎に、発生した障害の内容、障害発生時刻及び状況ステータスに関するデータを記録する障害データ記憶手段と、
連絡先端末に接続された管理コンピュータとを用いて通報を行なうシステムであって、
前記管理コンピュータが、
監視対象機器における障害を検知した場合、この障害の障害事象に基づいて、前記通報グループデータ記憶手段を用いて通報グループを特定するグループ特定手段と、
前記障害データ記憶手段に記録された状況ステータスを用いて、前記特定した通報グループに対して通報管理状態を特定する状態特定手段と、
前記通報グループに対する通報管理処理を行なっている場合には処理を継続し、通報管理処理を行なっていない場合には、前記連絡先データ記憶手段を用いて、優先順位の高い通報先の担当者の連絡先端末への通報を行なう通報管理処理を行なうとともに、前記障害データ記憶手段に通報グループ毎に前記障害に関するデータを記録する処理実行手段と
を備えたことを特徴とする障害通報システム。
【請求項2】
請求項1に記載の障害通報システムにおいて、
前記管理コンピュータは、前記通報を行なった担当者の連絡先端末から通報確認を受信した場合、前記障害データ記憶手段に前記確認情報を記録する確認手段を更に実行し、
前記通報管理処理は、前記通報から経過時間を計測し、
所定時間が経過する前に前記障害データ記憶手段において確認情報が記録された場合には処理を終了し、
前記所定時間が経過しても前記障害データ記憶手段において確認情報が記録されていない場合には、次優先順位の通報先を前記連絡先データ記憶手段から特定し、この次優先順位の通報先を含む担当者の連絡先端末へ通報を行なうことを特徴とする障害通報システム。
【請求項3】
請求項1又は2に記載の障害通報システムにおいて、
前記管理コンピュータは、前記通報グループに対する通報管理処理を行なっている場合に、前記通報グループデータ記憶手段において前記通報グループに関連付けられた障害事象に関する障害が発生した場合には、この発生した障害の内容及び障害発生時刻を、このグループに関連付けて前記障害データ記憶手段に記録することを特徴とする障害通報システム。
【請求項4】
監視対象機器の障害事象に応じた通報グループを記録した通報グループデータ記憶手段と、
前記通報グループ毎に、優先順位を付与して通報先に関するデータを記録した連絡先データ記憶手段と、
前記通報グループ毎に、発生した障害の内容、障害発生時刻及び状況ステータスに関するデータを記録する障害データ記憶手段と、
連絡先端末に接続された管理コンピュータとを用いて通報を行なう方法であって、
前記管理コンピュータが、
監視対象機器における障害を検知した場合、この障害の障害事象に基づいて、前記通報グループデータ記憶手段を用いて通報グループを特定するグループ特定段階と、
前記障害データ記憶手段に記録された状況ステータスを用いて、前記特定した通報グループに対して通報管理状態を特定する状態特定段階と、
前記通報グループに対する通報管理処理を行なっている場合には処理を継続し、通報管理処理を行なっていない場合には、前記連絡先データ記憶手段を用いて、優先順位の高い通報先の担当者の連絡先端末への通報を行なう通報管理処理を行なうとともに、前記障害データ記憶手段に通報グループ毎に前記障害に関するデータを記録する処理実行段階と
を実行することを特徴とする障害通報方法。
【請求項5】
監視対象機器の障害事象に応じた通報グループを記録した通報グループデータ記憶手段と、
前記通報グループ毎に、優先順位を付与して通報先に関するデータを記録した連絡先データ記憶手段と、
前記通報グループ毎に、発生した障害の内容、障害発生時刻及び状況ステータスに関するデータを記録する障害データ記憶手段と、
連絡先端末に接続された管理コンピュータとを用いて通報を行なうプログラムであって、
前記管理コンピュータを、
監視対象機器における障害を検知した場合、この障害の障害事象に基づいて、前記通報グループデータ記憶手段を用いて通報グループを特定するグループ特定手段、
前記障害データ記憶手段に記録された状況ステータスを用いて、前記特定した通報グループに対して通報管理状態を特定する状態特定手段、及び
前記通報グループに対する通報管理処理を行なっている場合には処理を継続し、通報管理処理を行なっていない場合には、前記連絡先データ記憶手段を用いて、優先順位の高い通報先の担当者の連絡先端末への通報を行なう通報管理処理を行なうとともに、前記障害データ記憶手段に通報グループ毎に前記障害に関するデータを記録する処理実行手段
として機能させることを特徴とする障害通報プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate