説明

障害復旧システム、障害復旧方法および障害復旧プログラム

【課題】
最適な復旧計画を迅速に計算することが可能な障害復旧システム、障害復旧方法、および、障害復旧プログラムを提供する。
【解決手段】
本発明の障害復旧システムは、予測手段と手引き作成手段と計算手段とを備える。予測手段は、障害復旧システムにおいて発生しうる障害を予測する。手引き作成手段は、予測された障害と障害復旧システムの状態とから復旧方法を示す手引きを作成する。計算手段は、障害発生時に、該障害発生時の障害復旧システムの状態と手引きとから復旧計画を計算する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、フォールトトレラントシステムに関し、特に、システムで発生した障害を復旧するための最適化計算を行う障害復旧システム、障害復旧方法、および、障害復旧プログラムに関する。
【背景技術】
【0002】
システムの構成要素の一部に障害が発生した場合に、自動的に何らかの復旧処理を行いシステム全体として処理を続行できる能力を、フォールトトレランスといい、またそれを備えたシステムをフォールトトレラントシステムという。
【0003】
フォールトトレラントシステムの中には、障害が発生した際に、最適化計算によって復旧計画を作成し、復旧を行うものがある。最適化計算とは、膨大な数の解空間の中から、可能な限り良い解を見つける計算のことである。その特徴として、品質の良い解を得るためには多くの計算時間を必要とし、逆に、計算時間が限られている場合には得られる解の質が低くなるということが挙げられる。
【0004】
最適化計算を行うフォールトトレラントシステムとしては、例えば、複数の計算機上に分散配置されたタスクが連携して処理を行い、システムに障害が発生した際には全てのタスクを稼働中の計算機に適切に再配置する機能を持つシステムがある。
【0005】
また、特許文献1には、携帯電話システムの保守を行うための遠隔保守卓から、インターネットを介して携帯電話システム集中保守管理システムのWebサーバにアクセスし、障害データ、診断辞書を保管するデータベースサーバを検索し、障害診断、障害復旧に必要なデータを取得する技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2002−132987
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、上述したようなフォールトトレラントシステムにおいて、障害発生時に良質な復旧計画を計算できないという問題がある。その理由は、良質な復旧計画を計算するためには多くの計算時間が必要であるにも関わらず、障害発生時には迅速に復旧しなければならないために、復旧計画のための計算時間を十分に確保できないからである。
【0008】
本発明の目的は、上述の問題点を解決した障害復旧システム、障害復旧方法および障害復旧プログラムを提供することである。
【課題を解決するための手段】
【0009】
本発明の障害復旧システムは、障害復旧システムにおいて発生しうる障害を予測する予測手段と、予測された障害と障害復旧システムの状態とから復旧方法を示す手引きを作成する手引き作成手段と、障害発生時に、該障害発生時の障害復旧システムの状態と手引きとから復旧計画を計算する計算手段と、を備えたことを特徴とする。
【0010】
本発明の障害復旧方法は、障害復旧システムにおける障害復旧方法において、障害復旧システムにおいて発生しうる障害を予測する予測ステップと、予測された障害と障害復旧システムの状態とから復旧方法を示す手引きを作成する手引き作成ステップと、障害発生時に、該障害発生時の障害復旧システムの状態と手引きとから復旧計画を計算する計算ステップと、を有することを特徴とする。
【0011】
本発明の障害復旧プログラムは、コンピュータに、障害復旧システムにおいて発生しうる障害を予測する予測ステップと、予測された障害と障害復旧システムの状態とから復旧方法を示す手引きを作成する手引き作成ステップと、障害発生時に、該障害発生時の障害復旧システムの状態と手引きとから復旧計画を計算する計算ステップと、を実行させることを特徴とする。
【発明の効果】
【0012】
本発明には、障害発生時に、良質な復旧計画を迅速に作成できることができる障害復旧システム、障害復旧方法および障害復旧プログラムを提供することができるという効果がある。
【図面の簡単な説明】
【0013】
【図1】本発明の第1の実施形態における障害復旧システムを示すブロック図である。
【図2】平常時の動作の流れを示すシーケンス図である。
【図3】平常時の動作の流れを示すシーケンス図である(図2の続き)。
【図4】障害発生時の動作の流れを示すシーケンス図である。
【図5】本実施形態の障害復旧システムにおける具体的な動作を示す図である。
【図6】各計算機の保持資源量を示す表である。
【図7】各タスクの必要資源量および優先度を示す表である。
【図8】発生しうる障害に対応した手引きを示す表である。
【発明を実施するための形態】
【0014】
次に、本発明の第1の実施形態について図面を参照して詳細に説明する。
【0015】
図1に、第1の実施形態に係る障害復旧システム100を示す。
【0016】
障害復旧システム100は、障害予測手段110と手引き作成手段120と手引き保存部130と状態取得手段140と復旧計画手段150と障害検知手段160とから構成される。
【0017】
障害予測手段110は、障害復旧システム100で発生しうる全ての障害を予測する。
【0018】
状態取得手段140は、障害復旧システム100の状態を取得する。
【0019】
手引き作成手段120は、障害予測手段110から発生しうる障害を取得し、状態取得手段140から現在の障害復旧システム100の状態を取得し、予測される障害に対応する手引きを作成する。また、手引き作成手段120は、手引き保存部130から手引きを取得し、手引きを更新する。
【0020】
手引き保存部130は、手引きを保存する。
【0021】
復旧計画手段150は、障害検知手段160が障害を検出した際、障害に該当する手引きを手引き保存部130より取得し、現在のシステムの状態を状態取得手段140より取得し、取得した手引きおよび状態をもとに復旧計画を計算する。
【0022】
障害検知手段160は、システム100に生じた障害を検出し、それを復旧計画手段150に通知する。
【0023】
次に、図2、図3および図4を参照して、本実施形態の全体の動作について詳細に説明する。
【0024】
平常時(すなわち障害復旧システム100に異常がない状態では)、障害予測手段110はシステムに発生しうる障害を予測する(図2の200)。
【0025】
次に、手引き作成手段120は、障害予測手段110から予測される障害情報を取得し(図2の210)、状態取得手段140より現在のシステム100の状態を取得する(図2の220)。
【0026】
次に、手引き作成手段120は、現在のシステム100の状態をもとに予測される障害に関連する復旧手引きを計算し(図2の230)、復旧手引きを手引き保存部130に保存する(図2の240)。
【0027】
次に、手引き作成手段120は、手引き保存部130から手引きを取得し(図3の250)、当該手引きを更新し(図3の270)、当該手引きを手引き保存部130に保存する(図3の280)。
【0028】
障害検知手段160が障害を検出した際には(図4の400)、復旧計画手段150は、障害に該当する手引きを手引き保存部130より取得し(図4の410)、現在の障害復旧システムの状態を状態取得手段140より取得し(図4の420)、取得した手引きおよび現在の障害復旧システムの状態をもとに復旧計画を計算する(図4の430)。
【0029】
このように、本発明は、障害発生時に良質な復旧計画を迅速に作成できるという効果を有する。その理由は、障害発生前に復旧計画の一部を計算しその結果を手引きとして保存し、障害発生後には手引きを参照して復旧計画を計算し復旧を行うため、総合的に十分な計算時間で復旧計画を行うことができるからである。
【0030】
次に、 本実施形態の具体的な動作について説明する。
【0031】
図5は、本実施形態に係る障害復旧システム500における具体的な動作を示す図である。障害復旧システム500は、障害予測手段110と手引き作成手段120と手引き保存部130と状態取得手段140と復旧計画手段150と障害検知手段160と計算機1〜3 (511-513)とタスクA〜E(551-555)とから構成される。
【0032】
各計算機には資源があり、各タスクは資源を利用して動作する。各計算機の保有する資源の量及び各タスクが動作するために必要な資源の量は定まっている。同一計算機上では、複数のタスクが同時に動作しうるが、タスクの必要資源量の総和は計算機の保有資源量を超えてはならない。
【0033】
全てのタスクが動作している場合を通常運転、そうでない場合を縮退運転と呼ぶ。各タスクには優先度が付されており、縮退運転時には、低優先度のタスクは動作しない。本実施形態では、手引きの内容は「障害発生後に通常運転で継続するか縮退運転に移行するか」とされる。また、ある計算機上であるタスクが異常終了した場合には、そのタスクは計算機上では再実行されない。
【0034】
次に、本実施形態の動作について説明する。
【0035】
図6に各計算機の保有資源量を示し、図7に各タスクの必要資源量および優先度を示す。今、計算機1(511)上でタスクA(551)およびタスクB(552)が動作しており、計算機2(512)上でタスクC(553)およびタスクD(554)が動作しており、計算機3(513)上でタスクE(555)が動作しているとする。
【0036】
図8に、発生しうる障害に対応した手引きを示す。
【0037】
障害予測手段110は、発生しうる障害を全て予測する(図8左列)。
【0038】
次に、手引き作成手段120は、障害予測手段110から予測される障害(図8左列)を取得し、各予測される障害に関連する復旧手引きを計算し(図8右列)、復旧手引きを手引き保存部130に保存する(図8)。
【0039】
次に、例えば計算機1(511)が故障した場合、障害検知手段160は計算機1に障害が発生したことを復旧計画手段150に通知し、復旧計画手段150は、計算機1の故障に該当する手引きを手引き保存部130より取得する(図8の2行目)。
【0040】
次に、復旧計画手段150は、手引きの内容である「縮退運転へ移行」という指示に従って、復旧計画を計算する(図9)。
【0041】
本実施形態で作成される復旧計画は、「最も優先度の低いタスクDを終了し、タスクAおよびBを計算機3に配置する」というものとなる。
【0042】
次に、第2の実施形態について説明する。
【0043】
本実施形態では、『障害予測手段110が障害の一部のみを予測するよう動作し、復旧計画手段150の動作において、発生した障害に該当する手引きが手引き保存部130に保存されていない場合は、手引きを参考にせずに復旧計画を計算する』点が第1の実施形態と異なる。
【0044】
次に、第3の実施形態について説明する。
【0045】
本実施形態では、手引きの内容を「停止すべきタスクの一覧」とした点が第1の実施形態と異なる。
【0046】
次に、第4の実施形態について説明する。
【0047】
本実施形態では、『手引き作成手段120が、手引き保存部130から手引きを取得し、当該手引きを更新し、当該手引きを手引き保存部130に保存するよう動作し、手引きの内容を「復旧計算の内部状態」とした』点が第1の実施形態と異なる。
【符号の説明】
【0048】
100 障害復旧システム
110 障害予測手段
120 手引き作成手段
130 手引き保存部
140 状態取得手段
150 復旧計画手段
160 障害検知手段
200 発生しうる障害を予測
210 障害情報を取得
220 障害復旧システムの状態を取得
230 手引きを作成
240 手引きを保存
250 手引きを取得
260 障害復旧システムの状態を取得
270 手引きを更新
280 手引きを保存
400 障害発生を検知
410 手引きを取得
420 障害復旧システムの状態を取得
430 復旧計画を作成
411-413 計算機1-3
451-454 タスクA-D

【特許請求の範囲】
【請求項1】
障害復旧システムにおいて、
前記障害復旧システムにおいて発生しうる障害を予測する予測手段と、
前記予測された障害と前記障害復旧システムの状態とから復旧方法を示す手引きを作成する手引き作成手段と、
障害発生時に、該障害発生時の前記障害復旧システムの状態と前記手引きとから復旧計画を計算する計算手段と、
を備えたことを特徴とする障害復旧システム。
【請求項2】
前記手引きを格納する記憶手段を備え、
前記障害発生時に発生した障害に対する手引きが前記記憶手段に格納されていないとき、前記手引きを参考にせずに復旧計画を計算することを特徴とする請求項1記載の障害復旧システム。
【請求項3】
前記手引きには、縮退運転へ移行する旨が示されていることを特徴とする請求項1または2記載の障害復旧システム。
【請求項4】
前記手引きには、停止すべきタスクの一覧が示されていることを特徴とする請求項1ないし3のいずれかに記載の障害復旧システム。
【請求項5】
前記予測手段が、前記障害復旧システムにおいて発生しうる 全てまたは少なくとも一部の障害を予測することを特徴とする請求項1ないし4のいずれかに記載の障害復旧システム。
【請求項6】
前記手引き作成手段は、前記手引きを更新することを特徴とする請求項1ないし5のいずれかに記載の障害復旧システム。
【請求項7】
障害復旧システムにおける障害復旧方法において、
前記障害復旧システムにおいて発生しうる障害を予測する予測ステップと、
前記予測された障害と前記障害復旧システムの状態とから復旧方法を示す手引きを作成する手引き作成ステップと、
障害発生時に、該障害発生時の前記障害復旧システムの状態と前記手引きとから復旧計画を計算する計算ステップと、
を有することを特徴とする障害復旧方法。
【請求項8】
前記手引きを記憶手段に格納する格納ステップを備え、
前記計算ステップにおいて、障害発生時に発生した障害に対する手引きが前記記憶手段に格納されていないとき、前記手引きを参照せずに復旧計画を計算することを特徴とする請求項7記載の障害復旧方法。
【請求項9】
前記手引きには、縮退運転へ移行する旨が示されていることを特徴とする請求項7または8記載の障害復旧システム。
【請求項10】
前記手引きには、停止すべきタスクの一覧が示されていることを特徴とする請求項7ないし9のいずれかに記載の障害復旧方法。
【請求項11】
前記予測手段が、前記障害復旧システムにおいて発生しうる 全てまたは少なくとも一部の障害を予測することを特徴とする請求項7ないし10のいずれかに記載の障害復旧方法。
【請求項12】
前記手引き作成手段は、前記手引きを更新することを特徴とする請求項7ないし11のいずれかに記載の障害復旧方法。
【請求項13】
コンピュータに、
障害復旧システムにおいて発生しうる障害を予測する予測ステップと、
前記予測された障害と前記障害復旧システムの状態とから復旧方法を示す手引きを作成する手引き作成ステップと、
障害発生時に、該障害発生時の前記障害復旧システムの状態と前記手引きとから復旧計画を計算する計算ステップと、
を実行させることを特徴とする障害復旧プログラム。
【請求項14】
前記コンピュータに、前記手引きを記憶手段に格納する格納ステップを実行させ、
前記計算ステップにおいて、発生した障害に対する手引きが前記記憶手段に格納されていないとき、前記手引きを参考にせずに復旧計画を計算することを特徴とする請求項13記載の障害復旧プログラム。
【請求項15】
前記手引きには、縮退運転へ移行する旨が示されていることを特徴とする請求項13または14記載の障害復旧プログラム。
【請求項16】
前記手引きには、停止すべきタスクの一覧が示されていることを特徴とする請求項13ないし15のいずれかに記載の障害復旧プログラム。
【請求項17】
前記予測ステップにおいて、前記障害復旧システムにおいて発生しうる 全てまたは少なくとも一部の障害を予測することを特徴とする請求項13ないし16のいずれかに記載の障害復旧プログラム。
【請求項18】
前記手引き作成ステップにおいて、前記手引きを更新することを特徴とする請求項13ないし17のいずれかに記載の障害復旧プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2010−277248(P2010−277248A)
【公開日】平成22年12月9日(2010.12.9)
【国際特許分類】
【出願番号】特願2009−127844(P2009−127844)
【出願日】平成21年5月27日(2009.5.27)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】