説明

管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム

【課題】
構成の更新を考慮すると、サーバの異常検出精度が低くなる。
【解決手段】
管理サーバは、システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバに接続され、複数のサーバの各々の構成を格納するサーバ構成格納手段と、サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択するサーバ選択手段と、選択された複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定する異常判定手段と、異常判定手段の判定に基づき異常を通知する異常通知手段と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラムに関する。
【背景技術】
【0002】
特許文献1には、サーバ故障予測システムが記載されている。サーバ故障システムにおいて、保守を担当する保守サーバは、監視対象のサーバのログエリアを監視して、サーバの電源がオンしたときの時刻を含む第一ログと、サーバが利用可能になったときの時刻を含む第二ログとを収集する。保守サーバは、サーバの電源がオンしてからサーバが利用可能になるまでの時間として、第一ログの時刻と第二ログの時刻との差分である時間を算出する。保守サーバは、その時間が設定時間より大きい場合、サーバに異常がある可能性があることを保守員に通知する。
【0003】
特許文献2には、初期化時刻が同じシステムについて、障害発生時にパス切断等の異常が起こった後の復旧処置に関して記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010−198410号公報
【特許文献2】特開平11−212936号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記文献記載の技術においては、サーバの構成が更新されると、そのサーバの異常を正確に予測することはできない。
【0006】
特許文献1のシステムでは、管理者が、BIOS(Basic Input/Output System)およびドライバの設定またはファームウェアおよびドライバの更新などによって起動時間に差異が発生する可能性を考慮し、その差を予めマージンとして確保した上で、異常判断基準となる時間を設定しなくてはならない。そのため、特許文献1のシステムは異常を検出する精度が低いという課題がある。
【0007】
特許文献2に記載された技術は、構成等を更新したコンピュータの異常検出への適用は不可能である。
【課題を解決するための手段】
【0008】
本発明の管理サーバは、システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバに接続され、前記複数のサーバの各々の構成を格納するサーバ構成格納手段と、前記サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択するサーバ選択手段と、選択された前記複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し最大と最小の初期化時間の差分が所定以上であれば異常と判定する異常判定手段と、前記異常判定手段の判定に基づき異常を通知する異常通知手段と、を備える。
【0009】
本発明の異常予測方法は、管理サーバに接続された複数のサーバの各々のシステム初期化の開始と終了の時刻を記録し、前記サーバの各々の構成をサーバ構成格納手段に格納し、前記サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択し、選択された前記複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定し、判定に基づき異常を通知する。
【0010】
本発明のコンピュータプログラムは、システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバに接続されたコンピュータに、前記複数のサーバの各々の構成をサーバ構成格納手段に格納する処理と、前記サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択する処理と、選択された前記複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し最大と最小の初期化時間の差分が所定以上であれば異常と判定する処理と、判定に基づき異常を通知する処理と、を実行させる。
【発明の効果】
【0011】
ファームウェアの更新等、システムの構成変更があっても、システム管理者が異常を検出する精度を向上させることが可能である。
【図面の簡単な説明】
【0012】
【図1】図1は、本発明の第1の実施形態に係る異常予測システムの構成を示す。
【図2】図2は、本発明の第1の実施形態に係るサーバ構成情報の一例を示す。
【図3】図3は、本発明の第1の実施形態に係るサーバの動作を示すフローチャートである。
【図4】図4は、本発明の第1の実施形態に係る管理サーバの動作を示すフローチャートである。
【図5】図5は、本発明の第1の実施形態に係るバージョン情報の構成の一例を示す。
【図6】図6は、本発明の第2の実施形態に係る管理サーバの構成図である。
【発明を実施するための形態】
【0013】
本発明を実施するための第1の形態について、図面を参照して詳細に説明する。
【0014】
図1は、異常予測システム30の構成を示す。
【0015】
図1は、本発明の一実施例として、1台の管理サーバ10、及び、当該サーバに通信路で接続された、N台(Nは例えば3として説明する)のサーバ20による異常予測システム30の構成を示す。
【0016】
管理サーバ10は、サーバ構成格納部11、サーバ選択部12、初期化時間算出部13、異常判定部14、及び、異常通知部15、を備える。
【0017】
サーバ構成格納部11は、各サーバ20の構成情報を格納している。各サーバ20の構成情報は、構成情報が変更された際に更新される。
【0018】
サーバ選択部12は、各サーバ20の構成情報から同一構成とみなすサーバ20を選択する。
【0019】
初期化時間算出部13は、サーバ選択部12が各サーバ20から取得したログ22情報から、各サーバ20でのシステムの起動開始からシステムの起動終了までの起動時間を計算する。
【0020】
異常判定部14は、各サーバ20の起動時間を比較し、比較の結果、起動時間が他のサーバ20と異なるサーバ20が存在する場合、異常と判断する。
【0021】
異常通知部15は、異常判定部14の判定結果を外部に通知する。
【0022】
ここで、サーバ構成格納部11は、ディスク装置、半導体メモリ、等の記憶装置である。また、サーバ選択部12、初期化時間算出部13、異常判定部14、及び、異常通知部15は、論理回路等のハードウェアで構成される。サーバ選択部12、初期化時間算出部13、異常判定部14、及び、異常通知部15は、コンピュータである管理サーバ10のプロセッサが、図示されないメモリ上のプログラムを実行することで実現されても良い。
【0023】
図1において、サーバ20(1〜N)は、サーバ処理部21、及び、ログ22、を備える。
【0024】
サーバ処理部21は、イベントが発生した時刻とそのイベントの内容とを含む情報をログ22に登録する等、サーバ20における情報処理一般を行う。
【0025】
ログ22には、サーバ20のシステム起動開始のイベントとしてシステム起動開始、サーバ20のシステム起動終了のイベントとしてシステム起動終了、のイベントが登録される。
【0026】
図2は、サーバ構成格納部11に記録されたサーバ構成情報の一例を示す。サーバ構成格納部11は、サーバ20の構成要素の分類41とその構成を定義する構成定義42とを対応させて格納する。サーバ構成情報は、例えば、CPU(Central Processing Unit)という分類41に属する構成要素の構成定義42に、型番、台数、及び、クロック周波数の情報を格納している。また、サーバ構成情報は、例えば、OS(Operating System)という分類41に属する構成要素の構成定義42には、種類、及び、バージョンの情報を格納している。
【0027】
図3、及び、図4に示すフローチャートを使用して、異常予測システムの動作を説明する。
【0028】
先ず、図3に示すフローチャートを使用して、サーバ20側の動作を説明する。
【0029】
電源投入されたサーバ20が初期化を開始し(S11)、サーバ処理部21が初期化開始の時刻をログ22に書き込む(S12)。その後、サーバ20が初期化を終了し(S13)、サーバ処理部21が初期化終了の時刻をログ22に書き込む(S14)。サーバ20はシステムの初期化が終了すると管理サーバ10にシステム起動終了を通知する(S15)。
【0030】
次に、図4に示すフローチャートを使用して、管理サーバ10側の動作を説明する。
【0031】
サーバ選択部12が同一構成とみなすサーバ20を選択する(S21)。選択されるサーバ20は、通常、複数台である。例えば、サーバ選択部12は、サーバ構成格納部11に格納されている各サーバ20の構成情報を参照し、所定のCPU等のハードウェアについては、型番が一致し、台数または容量の差が所定以内であり、かつ、所定のOS等のソフトウェアまたはファームウェアについては、種類が一致し、バージョン情報の差が所定以内である、サーバ20を選択する。
【0032】
バージョン情報は、例えば、図5に示すように、バージョンが4桁の数字(N1〜N4)で構成されている。上位2桁をメジャー番号、下位2桁をマイナー番号、とすると、サーバ選択部12は、メジャー番号については、同一、の場合のみ、所定以内、と判断し、マイナー番号については、差異が1以内、の場合、所定以内、と判断する。
【0033】
以下の説明では、異常予測システム30は、同一とみなされた構成を有するサーバA、B、Cの3台のサーバ20を包含するものとする。
【0034】
サーバ選択部12が、選択した各サーバ20のシステム起動終了通知を各サーバ20から受信すると同時に、各サーバ20よりログ22に格納されているデータを採取する(S22)。
【0035】
初期化時間算出部13は、採取された各サーバ20のログ22に格納されているシステム起動開始の時刻およびシステム起動終了の時刻から各サーバ20の初期化時間を算出する(S23)。例えば、初期化時間算出部13は、サーバAの初期化時間Taを「システム起動終了の時刻」−「システム起動開始の時刻」より求める。同様にして、初期化時間算出部13は、同様にサーバB、Cの初期化時間Tb、Tcを各々、「システム起動終了の時刻」−「システム起動開始」より求める。
【0036】
次に、異常判定部14は、全ての初期化時間を比較し、正常か判定する(S24)。例えば、異常判定部14は以下に示す判定方法を用いる。
【0037】
異常判定部14は、各サーバA、B、Cの初期化時間Ta、Tb、Tcから最小値を求め、その値を基準時刻Tminとする。当該サーバ管理者は、基準時刻以降、正常に動作と判定する時刻までの時間として予めタイムアウト時間Δtをパラメータとして異常判定部14に設定している。異常判定部14は、Ta、Tb、Tcについて、条件(1)を満足するか否かの判定を行う。
【0038】
Tmin + Δt 以下 (1)
異常判定部14は、Ta、Tb、Tc全てが条件(1)を満たす場合、それらのサーバ20について正常、条件(1)を満たさない場合、満たさない値を出したサーバ20について異常の可能性あり、と判断する。例えば、時間Tbが条件(1)を満たさない場合、サーバBの初期化時間が想定よりも長いと判断し、サーバBについて異常の可能性があると判断する。
【0039】
なお、異常判定部14は、条件(1)以外の方法で判定してもよい。例えば、当該サーバ管理者は、許容比率Rをパラメータとして異常判定部14に設定し、異常判定部14は、Ta、Tb、Tcについて、条件(2)の比較を行う。
【0040】
Tmin × R 以下 (2)
条件(1)の場合と同様に、条件(2)を用いて、異常判定部14が正常、もしくは、異常の可能性あり、を判断する。
【0041】
上記にて異常の可能性ありと判断された場合、異常通知部15は、異常の可能性を通知する(S25)。例えば、異常通知部15が、サーバBにおける異常の可能性をランプ、ブザー、メッセージ等の方法を用いて外部に通知する。同時に、異常通知部15は、異常を検出したサーバ(例えばサーバB)の識別情報を通知してもよい。
【0042】
以上の説明のように、本発明に係る管理サーバは、以下に記載するような効果を奏する。
ファームウェアの更新等、システムの構成変更があっても、システム管理者が異常を検出する精度を向上させることが可能である。その理由は、異常判定部14が、構成が同一とみなされるサーバ20同士の初期化時間を比較して、異常を検出するからである。
【0043】
図6は、本発明を実施するための第2の実施形態に係る管理サーバ10の構成図である。
【0044】
管理サーバ10は、システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバ20に接続され、複数のサーバ20の各々の構成を格納するサーバ構成格納部11、サーバ構成格納部11を参照し構成が同一とみなされるサーバ20を選択するサーバ選択部12、選択された複数のサーバ20の各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定する異常判定部14、異常判定部14の判定に基づき異常を通知する異常通知部15、を備える。
【0045】
以上の説明のように、本発明に係る管理サーバ10は、以下に記載するような効果を奏する。
【0046】
ファームウェアの更新等、システムの構成変更があっても、システム管理者が異常を検出する精度を向上させることが可能である。その理由は、異常判定部14が、構成が同一とみなされるサーバ20同士の初期化時間を比較して、異常を検出するからである。
【0047】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0048】
10 管理サーバ
11 サーバ構成格納部
12 サーバ選択部
13 初期化時間算出部
14 異常判定部
15 異常通知部
20 サーバ
21 サーバ処理部
22 ログ
30 異常予測システム
41 分類
42 構成定義

【特許請求の範囲】
【請求項1】
システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバに接続され、
前記複数のサーバの各々の構成を格納するサーバ構成格納手段と、
前記サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択するサーバ選択手段と、
選択された前記複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定する異常判定手段と、
前記異常判定手段の判定に基づき異常を通知する異常通知手段と、を備えた、管理サーバ。
【請求項2】
前記サーバ構成格納手段は、ハードウェアの分類に対応して、型番と台数もしくは容量、または、ソフトウェアもしくはファームウェアの分類に対応して、種類とバージョン情報、を含み、
前記サーバ選択手段は、所定のハードウェアについて、型番が一致し、台数または容量の差が所定以内であり、かつ、所定のソフトウェアまたはファームウェアについて、種類が一致し、バージョン情報の差が所定以内である、複数のサーバの構成を同一とみなす、請求項1に記載の管理サーバ。
【請求項3】
前記複数のサーバの各々から初期化開始と終了の時刻を取得し、その差分を前記初期化時間として算出する算出手段を備えた、請求項1または請求項2に記載の管理サーバ。
【請求項4】
前記複数のサーバと、請求項1乃至請求項3のいずれかに記載の管理サーバと、を備えた異常予測システム。
【請求項5】
システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバの各々の構成をサーバ構成格納手段に格納し、
前記サーバ構成格納手段を参照して構成が同一とみなされるサーバを選択し、
選択されたサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定し、
判定に基づき異常を通知する、異常予測方法。
【請求項6】
前記サーバ構成格納手段が、ハードウェアの分類に対応して、型番と台数もしくは容量、または、ソフトウェアもしくはファームウェアの分類に対応して、種類とバージョン情報、を含み、
所定のハードウェアについて、型番が一致し、台数または容量の差が所定以内であり、かつ、所定のソフトウェアまたはファームウェアについて、種類が一致し、バージョン情報の差が所定以内である、複数のサーバの構成を同一とみなす、請求項5に記載の異常予測方法。
【請求項7】
前記複数のサーバの各々から初期化開始と終了の時刻を取得し、その差分を前記初期化時間として算出する、請求項5または請求項6に記載の異常予測方法。
【請求項8】
システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバに接続され、かつ、サーバ構成格納手段を備えたコンピュータに、
前記複数のサーバの各々の構成を前記サーバ構成格納手段に格納する処理と、
前記サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択する処理と、
選択された前記複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定する処理と、
判定に基づき異常を通知する処理と、を実行させるコンピュータプログラム。
【請求項9】
前記サーバ構成格納手段に、ハードウェアの分類に対応して、型番と台数もしくは容量、または、ソフトウェアもしくはファームウェアの分類に対応して、種類とバージョン情報、を格納し、
所定のハードウェアについて、型番が一致し、台数または容量の差が所定以内であり、かつ、所定のソフトウェアまたはファームウェアについて、種類が一致し、バージョン情報の差が所定以内である複数のサーバの構成を同一とみなす処理を行わせる、請求項8に記載のコンピュータプログラム。
【請求項10】
前記サーバの各々から初期化開始と終了の時刻を取得し、その差分を前記初期時間として算出する処理を前記コンピュータに実行させる、請求項8または請求項9に記載のコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−73326(P2013−73326A)
【公開日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願番号】特願2011−210553(P2011−210553)
【出願日】平成23年9月27日(2011.9.27)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】