説明

ディスクアレイシステムにおける復旧方式

【課題】 ディスクアレイシステムを実装したシステム装置において、ソフトウェア障害要因によりシステム動作不可能状態となった場合に、ディスクアレイシステムを制御するための必要最低限の構成要素で、自律的に障害検出および復旧操作を行い、自動でシステム動作可能状態へ復旧する。
【解決手段】 上位装置101に接続されたディスクアレイシステム103は、上位装置101のシステムメモリに常駐しているディスクアレイシステム103のOSドライバとの疎通状態の監視制御を行うことで、上位装置101のシステム動作状態を判断する。該監視制御において、ディスクアレイシステム103とOSドライバとの疎通が解除された場合に、ディスクアレイシステム103は、上位装置101がシステム動作不可状態と判断し、自律的に、事前に採取したバックアップデータをもとに上位装置101のシステム復旧処理を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ディスクアレイシステムにおける復旧方式に関するものである。
【背景技術】
【0002】
ディスクアレイとは複数のハードディスクを論理的に1つのハードディスクして認識させる技術であり、信頼性の向上、転送速度の向上等を目的として使用されている。また、ディスクアレイは別名、RAID(Redundant Arrays of Inexpensive(Independent)Disks)とも呼ばれている。
ディスクアレイには、複数のハードディスクに分散して書き込み、読み込み処理を行うRAID0、2台のハードディスクへ同一データを同期して書き込み処理を行うRAID1、3台以上のハードディスクを使用し、データと誤り訂正符号データ(パリティデータとも呼ばれる)を各HDDに対し分散して書き込み処理を行うRAID5、といった種類がある。RAID1、RAID5については、1台のハードディスクが物理故障しても他のハードディスクが正常動作していれば、書き込み、読み込み処理を継続して実施することが可能であり、耐障害性を向上させることができることから、365日24時間稼動が義務付けられているシステム内の装置(サーバ装置等)に広く使用されている。
【0003】
しかし、耐障害性に優れているディスクアレイとはいえ、ハードディスクの物理故障以外の要因で発生したシステム障害については防ぎようがない。例えば、コンピューターウィルス等によりシステム動作の中心となるオペレーティングシステム(以下、OSと記載する。)のシステムファイルが壊されシステム動作不可能状態となった場合が挙げられる。このようにシステムが動作不可能状態となった場合は、迅速にシステムを復旧することが求められる。
【0004】
前述のような問題が発生した場合、従来の技術では、特許文献1に開示されているように、ディスクアレイ内のバックアップデータを事前に別ストレージ内へ専用アプリケーションで適宜保存しておき、ユーザーの手動によりバックアップデータを書き戻す操作を取る。しかし、本手段では、システムが動作不可能状態であることをユーザーが認識した段階で手動によるバックアップデータの書き戻し作業を行うため、システム設置場所とユーザー自身が離れたところに拠点を置いている場合には、システムの復旧に時間を要してしまう問題がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平6−309209
【発明の概要】
【発明が解決しようとする課題】
【0006】
前述のとおり、システム動作不可能状態となった場合、システムを迅速に復旧し、システムのダウンタイムを軽減することが求められる。本発明では、OS、ソフトウェア障害(ハードディスク故障等といった物理故障以外)の要因でシステム動作不可状態となった装置において、ユーザーが介入すること無く、OS上で動作するディスクアレイシステムのOSドライバ、ディスクアレイシステムの制御ファームウェアといったディスクアレイシステムを制御するための必要最低限の構成要素で、自律的に障害を検出、バックアップデータによる復旧作業を実施し、システム復旧までのダウンタイムの軽減を図ることが目的となる。
【課題を解決するための手段】
【0007】
本発明では、ディスクアレイシステムの制御ファームウェアおよびディスクアレイシステム専用OSドライバ(上位装置のOS上でディスクアレイシステムを制御するための必須要素となる)の制御により、課題を解決する。ディスクアレイシステムの制御ファームウェアにより、ディスクアレイシステムとディスクアレイシステム用OSドライバとの疎通状態の監視制御を行うことで、システム動作状態を判断する。当該監視制御により、ディスクアレイシステムとOSドライバとの疎通が切れたことをディスクアレイシステムの制御ファームウェアが検出した場合は、システム動作不可状態と判断し、システムの復旧処理が自動で実行される。当該復旧処理は、ディスクアレイシステムのファームウェア制御により自律的に実行される。
【発明の効果】
【0008】
本発明により、OS・ソフトウェア障害の要因でシステム動作不可能状態となったシステムにおいて、OS上で動作するディスクアレイシステムのOSドライバ、ディスクアレイシステムの制御ファームウェアといったディスクアレイシステムを制御するための必要最低限の構成要素により、ユーザーが介入することなく、自律的に障害検出、バックアップデータによる復旧制御が実施できる。システムダウンからシステム復旧までのダウンタイムの軽減を図ることができる。
【図面の簡単な説明】
【0009】
【図1】本発明の一実施形態であるディスクシステムのブロック図
【図2】ディスクシステムの制御ファームウェアのブロック図
【図3】本発明の一実施形態を示す概略フロー
【図4】図3の処理301の詳細フロー
【図5】図3の処理308の詳細フロー
【図6(a)】図3の処理309の詳細フロー
【図6(b)】図3の処理309の詳細フロー
【図6(c)】図3の処理309の詳細フロー
【図7】不揮発メモリ107の記録情報
【発明を実施するための形態】
【0010】
以下、本発明の一例について図を用いて説明する。
【0011】
図1は本発明における実施形態の一例をブロック図として示したものである。図1に示すとおり、本発明におけるディスクアレイシステム103は、サーバ装置等といった上位装置101、複数のハードディスク(以下、HDDと記載。)108からHDD111を接続して運用する形態をとる。(本図においてHDDは“n”台接続可能とする。)
上位装置101は、CPU、システムメモリといったハードウェアの実装、ならびにOS、ソフトウェアをインストールすることで様々なサービスが提供可能となる情報処理装置であり、サーバ装置等といったものが挙げられる。本発明における実施形態において、上位装置101は、ディスクアレイシステム103により構築されたディスクアレイへ、OSならびにシステム運用に必要なソフトウェアをインストールすることで様々なサービスを提供することが可能となる。また、上位装置101はハードリセット制御部102を有しており、ユーザーのボタン操作等により本制御部102へ信号を送出することで、動作状態に関わらず、強制的に上位装置101に対してシステムリセット処理を行うことが可能である。
【0012】
ディスクアレイシステム103は、制御部104、ローカルメモリ105、ディスクコントローラー106、不揮発メモリ107で構成され、これらのハードウェアとディスクアレイシステム103の制御ファームウェア119により、本発明の制御だけでなくディスクアレイシステムの基本制御(データの入出力制御、各RAIDレベルに応じたディスクアレイの制御等)が実施される。上位装置のハードリセット制御部102とディスクアレイシステム103は物理的に結線されており、ディスクアレイシステム103の制御ファームウェアによりハードリセット制御部102に対して信号を送出することで、上位装置101のシステムリセットを行うことが可能である。
【0013】
不揮発メモリ107には、ユーザーが任意に設定したディスクアレイシステム103の設定値が記録される。図7に不揮発メモリ107に記録される情報を示す。ディスクアレイの設定情報702にはディスクアレイ自身の設定(RAIDレベル等)が記録される。自動復旧設定703には、本発明により実現される自動復旧機能を“有効”または“無効”にするかの情報が記録される。OS動作管理フラグ704には、自動復旧処理を起動するための管理情報である、OSが動作可能状態か動作不可状態かを判定するためのフラグ情報が記録される。ログ管理領域705にはディスクアレイシステム103の制御ファームウェア119により検出された障害ログ、正常処理が行われたことを示すログ等が格納される。本不揮発メモリ107内の情報は、上位装置の電源ON/OFFまたはシステムリセットが発生しても消えることは無く保持される。ここで述べたディスクアレイシステム103の制御ファームウェア119主要機能の詳細については後述に図2を用いて説明する。
【0014】
ディスクアレイシステム103のディスクコントローラー106配下に接続されたHDD108、HDD109、HDD110、HDD111は,ディスクアレイシステム103の制御ファームウェアによりディスクアレイとして構築される。図1および以後の本発明に関する説明において、HDD108、HDD109のHDDを使用して構築したディスクアレイをメインデータ格納ディスクアレイ112として、HDD110、HDD111のHDDを使用して構築したディスクアレイをバックアップデータ格納ディスクアレイ113として定義する。
【0015】
メインデータ格納ディスクアレイ112には、上位装置101をシステム運用するにあたり必要なデータ(OS、専用ソフトウェア、ユーザーデータ等)ならびに、OS上からディスクアレイシステム103を制御するために必要なデータ(管理ソフトウェア115、OSドライバ116)がインストールされ、上位装置101は、メインデータ格納ディスクアレイ112内のデータを元に様々なサービスの提供ならびにディスクアレイシステム103の制御を行うことが可能となる。
【0016】
バックアップデータ格納ディスクアレイ113には、メインデータ格納ディスクアレイ112内のバックアップデータがユーザー処理により適宜格納される。このバックアップ処理は、メインデータ格納ディスクアレイ112にインストールされたディスクアレイシステム管理ソフトウェア115により制御することが可能である。管理ソフトウェア115からバックアップ命令を発行すると、上位装置101のシステムメモリに常駐しているOSドライバ116を経由し、ディスクアレイシステム103が本処理命令を受ける。ディスクアレイシステム103は本処理命令を受けた後、制御ファームウェアにより、メインデータ格納ディスクアレイ112内のバックアップデータがバックアップデータ格納ディスクアレイ113に保存される。
【0017】
ディスクアレイシステムOSドライバ116は、OS上からディスクアレイシステム103を制御するための必須コンポーネントである。上位装置101はメインデータ格納ディスクアレイ112内のOSデータをもとにOS起動処理を開始すると、正常な動作の場合、メインデータ格納ディスクアレイ112内のOSドライバ116が読み込まれ、上位装置101のシステムメモリにOSドライバ116の処理領域を確保ならびにディスクアレイシステム103との疎通を開始する。この処理後、OSドライバ116はシステムメモリ上で動作し、ディスクアレイシステム103に対してOSから発行されたデータの入出力および管理ソフトウェア115から発行した命令を制御する。
【0018】
OSドライバ116経由で命令を受けたディスクアレイシステム103は、メインデータ格納ディスクアレイ112またはバックアップデータ格納ディスクアレイ113へ命令に応じた処理を行う。また、OSドライバ116は本発明を実装するため、データの入出力処理が停止してからの時間を監視する内部タイマーを有しており、規定時間、データの入出力処理が実行されない場合にシステム動作不可状態であると判断し、OSドライバ116がディスクアレイシステム103との疎通を解除する。本処理がシステム自動復旧処理のトリガとなる。
【0019】
次にディスクアレイシステム103の制御ファームウェア119の詳細について説明する。図2はディスクアレイシステム103の制御ファームウェア119をブロック図として示したものである。
【0020】
ディスクアレイシステムの制御ファームウェア201は、大きく分けて202、203、204、205、206、207の6種類の要素で構成されており、本発明において重要な要素は204、205、206、207となる。
【0021】
ディスクアレイ制御部202は各種ディスクアレイのレベル(RAID1、RAID5等)に応じたディスクアレイの構築、処理を行う部位である。当該制御部により、メインデータ格納ディスクアレイ112、バックアップデータ格納ディスクアレイ113の構築や、ディスクアレイとしての制御を行う。
【0022】
データバックアップ制御部203は、ディスクアレイシステム管理ソフトウェア115により、ユーザーが適宜実行するバックアップ処理を制御するための部位である。
OS動作監視制御部204は、上位装置101上で動作しているOSの動作状態を監視するための制御部である。当該制御部ではOSドライバ116の疎通状態を監視しており、ディスクアレイシステム103とOSドライバ116との疎通が一定時間(本発明での一定時間は10分〜15分程度と定義する。)途切れていることを検出した場合、上位装置リセット制御部205へ処理を渡し、自動復旧処理へ移行する。
【0023】
上位装置リセット制御部205は、ディスクアレイシステム103からハードリセット制御部102に対して信号を送出し、上位装置101のシステムリセットを行う処理部である。本処理が自動復旧処理の足掛かりとなる。
【0024】
自動復旧制御部206は、OS動作監視制御部204、上位装置リセット制御部205の規定処理が実施されシステム動作不可状態であることを検出した場合に、バックアップデータ格納ディスクアレイ113内のバックアップデータもとにメインデータ格納ディスクアレイ112へ自動的に復旧処理を行う制御部である。
【0025】
設定値確認制御部207は、ディスクアレイシステム制御ファームウェア201の制御によりディスクアレイシステム103の不揮発メモリ107内に記録される各種設定値の確認制御を行う制御部である。
【0026】
以下、図1の実施形態において処理される動作を、図3、図4、図5、図6(a)、図6(b)、図6(c)を用いて説明する。
【0027】
図3は、図1の実施形態において処理される動作の概略フロー図である。
【0028】
処理301において、ユーザーは、ディスクアレイシステム103に接続された複数のHDD108、HDD109、HDD110、HDD111に対してディスクアレイの構築および構築したディスクアレイの設定を行う。本処理により、メインデータ格納ディスクアレイ112とバックアップデータ格納ディスクアレイ113の構築が行われる。また、本発明において実現される自動復旧機能の有効/無効を設定する。本処理の詳細については後述に図4を用いて説明する。
【0029】
処理302の(1)において、ユーザーは、メインデータ格納ディスクアレイへ上位装置101をシステム運用するにあたり必要なデータ(OS、専用ソフトウェア、ユーザーデータ等)ならびに、OS上からディスクアレイシステム103を制御するために必要なデータ(管理ソフトウェア115、OSドライバ116)をインストールする。また、処理302の(2)において、ユーザーは、処理302の(1)でインストールしたディスクアレイシステム管理ソフトウェア115を使用して、バックアップデータを適宜採取する。
【0030】
以下、本発明において実現される処理303から処理307は、処理301、処理302のユーザー作業の実施が前提となる。処理301、処理302を実施した段階で図1の実施形態と同一条件となる。
【0031】
判断処理303において、コンピューターウィルス等が要因でメインデータ格納ディスクアレイ112内のOSシステムファイルが破損し、上位装置101がシステム動作不可状態(以下、本状態を“OS動作不可状態”と記載する。)へ陥ったと仮定する。OS動作不可状態が発生した場合、ディスクアレイシステム103の制御ファームウェア201のOS動作監視制御部204の制御により、OS動作不可状態であることを検出した後、上位装置リセット制御部205に制御を渡す。
【0032】
そして、上位装置リセット制御部205の制御により処理304が実施される。(点線308で囲んだ処理は本発明の重要な要素となるため、別途、後述に図5を用いて説明する。)
処理304の後、上位装置101にはハードリセットが実行されているため、上位装置101はBIOS(Basic Input Output System)等による初期化処理および、メインデータ格納ディスクアレイ112内のOSデータによるOS起動処理が実行され、判定処理305へ移行する。
【0033】
判定処理305において、前述のとおり、OSシステムファイルが破損しOS動作不可状態に陥っているため、判定処理306へ移る。
【0034】
判定処理306において、処理301で設定した自動復旧機能の有効/無効設定をもとに、ディスクアレイシステム103による自動復旧処理が制御される。処理301で自動復旧機能が“有効”設定されている場合は、処理307へ移り自動復旧処理を開始する。処理301で自動復旧機能が“無効”設定されている場合は、自動復旧処理を実施せずに処理を終了する。(点線309で囲んだ処理は本発明の重要な要素となるため、別途、後述に図6(a)、図6(b)、図6(c)を用いて説明する。)
図4に図3の処理301の詳細フロー(ディスクアレイの構築・設定作業の処理詳細)を示す。
【0035】
処理401において、ユーザーは、ディスクアレイの構築(RAID1、RAID5等)の構築および、構築したディスクアレイの設定を行う。
【0036】
判定処理402において、処理401で構築および設定を行ったディスクアレイが2個の場合には、処理403の自動復旧処理の有効/無効設定処理へ移る。2個未満の場合は、図1の実施形態であるメインデータ格納ディスクアレイ112、バックアップデータ格納ディスクアレイ113の関係が構築できないため、処理406へ移り、自動復旧処理は”無効”として設定される。
【0037】
処理403において、自動復旧処理の“有効”または“無効”設定を行う。ここで“有効”と設定するとOS動作不可状態を検出した場合に自動復旧処理を実施する。“無効”に設定した場合はOS動作不可状態を検出しても自動復旧処理は実施されない。また、処理403で設定した設定値はディスクアレイシステム103の不揮発メモリ107に記録される。
【0038】
判断処理404において、処理403で自動復旧処理を“有効”に設定した場合は処理405へ移る。処理403で自動復旧処理を“無効”に設定した場合は処理406へ移り、自動復旧処理は”無効”で設定される。
【0039】
処理405の設定処理では、処理401で構築、設定された2個のディスクアレイに対し、メインデータ格納ディスクアレイまたはバックアップデータ格納ディスクアレイどちらか一方の役割を与える。本設定処理により、図1のメインデータ格納ディスクアレイ112またはバックアップデータ格納ディスクアレイ113が構築される。
【0040】
以上が、処理301の詳細(ディスクアレイの構築・設定作業の処理詳細)である。次に図3の点線で囲まれた処理308の詳細フローを図5に示す。本詳細フローは、上位装置101がOS動作不可状態に陥り、ディスクアレイシステム103によるOS動作不可状態検出、上位装置101に対してシステムリセットを発行するまでの処理をまとめたものである。
【0041】
処理501において、コンピューターウィルス等が要因でメインデータ格納ディスクアレイ112内のOSシステムファイルが破損し、上位装置101がOS動作不可状態に陥る。OS動作不可状態に陥った場合、メインデータ格納ディスクアレイ112とのデータの入出力処理(以下、I/O処理と記載)は停止してしまう。
【0042】
処理502において、上位装置101のメインメモリ上で制御されているディスクアレイシステムOSドライバ116は、I/O処理が停止してからの経過時間をドライバ内の内部タイマー処理によりカウントする。
【0043】
判定処理503において、OSドライバ116の内部タイマー処理で、I/O処理が停止してからの経過時間が閾値を超えたか判定する。I/O処理が停止してからの経過時間が閾値を超えている場合は処理504の処理へ移る。I/O処理が停止してからの経過時間が閾値を超えていない場合は処理502へ戻る。
【0044】
処理504において、OSドライバ116は、上位装置101がOS動作不可状態でシステム運用を継続することができないと認識しディスクアレイシステム103との疎通を解除する。ディスクアレイシステム103は、制御ファームウェアのOS動作監視制御部204により、常時OSドライバ116との疎通状態を確認しており、当該制御部204が、OSドライバ116との疎通が解除されたことを検出すると処理505へ移る。
【0045】
処理505において、OS動作不可状態を検出したディスクアレイシステム103は、自身が持つ不揮発メモリ107内のログ管理領域へ“OS動作不可状態が発生した”旨のログ内容を記録した後、上位装置リセット制御部205の処理により、上位装置101のシステムリセット処理を行う。以上が、図3の点線で囲まれた処理308の詳細である。
【0046】
次に図3の点線で囲まれた処理309の詳細フローを図6(a)から図6(c)を用いて説明する。本詳細フローは、処理308内の上位装置101のOS動作不可状態検出時におけるリセット処理が実行された後の処理から、自動復旧処理が終了するまでの処理をまとめたものである。また、以下の説明は、上位装置101においてOS動作不可状態を検出し自動復旧処理が行われることを前提に説明する。
【0047】
OS動作不可状態検出時における上位装置のハードリセット処理(図5の505(2)処理)後、図6(a)の処理601へ移る。処理601で上位装置101のBIOS等の初期化処理により、上位装置101およびディスクアレイシステム103に対して初期化処理が行われる。
【0048】
処理602において、ディスクアレイシステム103の初期化処理時、ディスクアレイシステム103の制御ファームウェアの設定値確認制御部207により、ディスクアレイシステム103の不揮発メモリ107内に保存された管理情報および設定情報を確認する。ここで確認される情報は、OSが動作可能状態か動作不可状態かを判定するためのフラグ情報(以下、OS動作管理フラグと記載。ディスクアレイシステム103は、OS動作管理フラグが“有効”の場合、メインデータ格納ディスクアレイ112によるOS動作は不可能状態であると判断する。)と、図4の403で記録された自動復旧処理の“有効”/“無効”設定情報である。
【0049】
判定処理603において、この処理の段階では602(1)のOS動作管理フラグは“無効”となっているため、ディスクアレイシステム103制御ファームウェアの設定値確認制御部207により動作判定を行い処理604へ進む。
【0050】
処理604において、上位装置101のBIOS等の処理により、メインデータ格納ディスクアレイ112内のOSデータをもとにOS起動処理が行われる。また本OS起動処理の過程でメインデータ格納ディスクアレイ112内のOSドライバ116を読み込み、上位装置101のシステムメモリにOSドライバ116の処理領域の確保しディスクアレイシステム103との疎通を試みる。
【0051】
判定処理605において、ディスクアレイシステム103の制御ファームウェアの設定値確認制御部207により、ディスクアレイシステム103とOSドライバ116との疎通状態を判定する。本判定処理605では、OS動作不可状態により、ディスクアレイシステム103とOSドライバ116とが疎通できない状態に陥っている。このため、処理606へ移行する。
【0052】
処理606において、ディスクアレイシステム103とOSドライバ116が疎通できていないことから、ディスクアレイシステム103の制御ファームウェアの設定値確認制御部207より、ディスクアレイシステム103はメインデータ格納ディスクアレイ112内のOSデータがOS動作不可状態に陥っていると判断し、判定処理607へ移行する。
【0053】
判定処理607において、ディスクアレイシステム103の制御ファームウェアの設定値確認制御部207は、ディスクアレイシステムの自動復旧処理が“有効”/“無効”設定を確認する。この処理の流れでは、ディスクアレイシステムの自動復旧処理が“有効”設定されているため、図6(b)の処理611へ移行し引き続き自動復旧処理を実施する。(自動復旧処理が“無効”の場合は、処理610へ進み自動復旧処理をせずに処理を終了する。)
【0054】
図6(b)の処理611は、図6(a)の判定処理607を受けた後、ディスクアレイシステム103の制御ファームウェアにより以下3種類の処理を順番で行う。処理611(1)において不揮発メモリ107内の管理情報であるOS動作管理フラグを“有効”へ設定する。(本処理より、メインデータ格納ディスクアレイ112によるOS動作は不可能状態であると認識される。)処理611(2)において、自身が持つ不揮発メモリ107内のログ管理領域へ“メインデータ格納ディスクアレイ112内のデータによるOS動作は不可能状態である”旨のログ内容を記録する。(以上、処理611(1)、処理611(2)は、ディスクアレイシステム103制御ファームウェアのOS動作監視制御部204により実施される。)処理611(3)において、上位装置リセット制御部205の処理により、上位装置101のシステムリセット処理を行う。
【0055】
上位装置101のシステムリセット後、ディスクアレイシステム103は、処理612(図6(a)の処理601と同じ)、処理613(図6(a)の処理602と同じ)を実施する。
【0056】
判定処理614の段階で、処理611(1)の処理により、不揮発メモリ内の管理情報であるOS動作管理フラグは“有効”となっているため、ディスクアレイシステム103制御ファームウェアの設定値確認制御部207により動作判定を行い判定処理612へ移行する。(OS起動管理フラグが“無効”の場合は、図6(a)の処理604へ移行する。)
判定処理615においては、ディスクアレイシステム103制御ファームウェアの設定値確認制御部207により動作判定を行い、自動復旧処理が“有効”設定されているため、処理616以降の自動復旧処理へ移行する。(自動復旧処理が“無効”の場合は、処理618、処理619へ進み、OS動作管理フラグを“無効”へ設定した後、自動復旧処理をせずに処理を終了する。)
処理616において、ディスクアレイシステム103制御ファームウェアの自動復旧制御部206の制御により、自動復旧処理が開始され、図6(c)の処理620へ移行する。
【0057】
図6(c)の処理620において、ディスクアレイシステム103制御ファームウェアの自動復旧制御部206は、自律的動作により、バックアップデータ格納ディスクアレイ113に保存されたバックアップデータの書き戻し処理をメインデータ格納ディスクアレイ112に対して行う。自動復旧制御部206の作業が終了すると、判定処理621へ移行する。
【0058】
判定処理621において、処理620の自動復旧制御部206による自動復旧処理が正常終了した場合は処理622へ移行する。処理620の自動復旧処理が異常終了した場合は処理624へ移行する。
【0059】
判定処理621において、処理620の自動復旧処理が異常終了したと認識された場合、ディスクアレイシステム103の制御ファームウェアの自動復旧制御部により、処理624の以下2種類の処理を順番で行う。処理624(1)において、自身が持つ不揮発メモリ107内のログ管理領域へ“自動復旧処理が異常終了した”旨のログ内容を記録する。処理624(2)において、自動復旧処理が失敗した旨のメッセージをモニタ等といった画面に表示させユーザーに通知する。(処理624は、ディスクアレイシステム103制御ファームウェアの自動復旧制御部206により実施される。)
【0060】
判定処理621において、処理620の自動復旧処理が正常終了したと認識された場合、ディスクアレイシステム103の制御ファームウェアにより、処理622の以下3種類の処理を順番で行う。処理622(1)において、自身が持つ不揮発メモリ107内のログ管理領域へ“自動復旧処理が正常終了した”旨のログ内容を記録する。処理622(2)において、不揮発メモリ107内の管理情報であるOS動作管理フラグを“無効”へ設定する。(以上、処理622(1)、処理622(2)は、ディスクアレイシステム103制御ファームウェアの自動復旧制御部206により実施される。)処理622(3)において、上位装置リセット制御部205の処理により、上位装置101のシステムリセット処理を行う。
【0061】
処理622(3)のハードリセット処理の後、処理623に記すとおり、上位装置101のBIOS等の処理により、図6(a)の601から処理が実行される。そして、メインデータ格納ディスクアレイ112内のOSデータは、ディスクアレイシステム103制御ファームウェアの自動復旧制御部206によるバックアップデータ書き戻し処理により復旧されているため、メインデータ格納ディスクアレイ112によるOS起動が正常に実行され、システム動作が可能な状態となる。
【0062】
以上に説明した実施形態および処理により、OS・ソフトウェア障害の要因でシステム動作不可能状態となったシステムにおいて、ユーザーが介入することなく、自律的に障害検出、バックアップデータによる復旧制御が実施できる。
【符号の説明】
【0063】
101:上位装置、102:上位装置のハードリセット制御部、103:ディスクアレイシステム、104:制御部、105:ローカルメモリ、106:ディスクコントローラー、107:不揮発メモリ、108、109、110、111:HDD、112:メインデータ格納ディスクアレイ、113:バックアップデータ格納ディスクアレイ、114:OS・ソフトウェア・データ領域(メインデータ格納ディスクアレイ内データ)、115:ディスクアレイシステム管理ソフトウェア、116:ディスクアレイシステムOSドライバ、117:OS・ソフトウェア・データ領域(バックアップデータ格納ディスクアレイ内データ)、118:バックアップデータ格納ディスクアレイ内データ、119:制御ファームウェア
201:ディスクアレイシステム制御ファームウェア、202:ディスクアレイ制御部、203:データバックアップ制御部、204:OS動作監視制御部、205:上位装置リセット制御部、206:自動復旧制御部、207:設定値確認制御部
701:不揮発メモリ107の記録情報、702:ディスクアレイの設定情報、703:自動復旧設定、704:OS動作管理フラグ、705:ログ管理領域

【特許請求の範囲】
【請求項1】
ローカルメモリと、複数のディスクアレイを制御するディスクコントローラと、不揮発メモリと、制御部と、制御ファームウエアとを有し、上位装置と接続されているディスクアレイシステムであって、
前記複数のディスクアレイは、オペレーティングシステム及び前記オペレーティングシステム上からディスクアレイシステムを制御するOSドライバがインストールされているメインのディスクアレイと、前記メインのディスクアレイと同じデータが格納されるバックアップのディスクアレイとを有し、
前記制御ファームウエアは、
前記メインのディスクアレイにおけるオペレーティングシステムが動作不可状態であることを検出し、
前記上位装置のシステムリセットを行い、
前記バックアップのディスクアレイに格納されるデータを、前記メインのディスクアレイに書き戻す
ことを特徴とするディスクアレイシステム。
【請求項2】
前記ディスクアレイシステムの動作中、システムの動作中にソフトウェア要因でOSが動作不可能となりシステム装置が動作できなくなった場合、またはシステム装置の起動処理中にOSデータの破壊によりシステム装置の起動ができなかった場合、システムの動作状態を自律的に判断することが可能であることを特徴する請求項1記載のディスクアレイシステム。
【請求項3】
ローカルメモリと、複数のディスクアレイを制御するディスクコントローラと、不揮発メモリと、制御部と、制御ファームウエアとを有し、上位装置と接続されているディスクアレイシステムにおける復旧方法であって、
前記複数のディスクアレイは、オペレーティングシステム及び前記オペレーティングシステム上からディスクアレイシステムを制御するOSドライバがインストールされているメインのディスクアレイと、前記メインのディスクアレイと同じデータが格納されるバックアップのディスクアレイとを有し、
前記制御ファームウエアは、
前記メインのディスクアレイにおけるオペレーティングシステムが動作不可状態であることを検出し、
前記上位装置のシステムリセットを行い、
前記バックアップのディスクアレイに格納されるデータを、前記メインのディスクアレイに書き戻す
ことを特徴とするディスクアレイシステムの復旧方法。
【請求項4】
前記OSドライバは、
前記上位装置と前記メインのディスクアレイとの間でのデータの入出力処理が停止してからの経過時間をカウントし、
前記経過時間が所定の閾値を越えた場合、前記ディスクアレイシステムとの疎通を解除し、
前記制御ファームウエアは、
前記OSドライバとの疎通の解除を検出することにより、前記メインのディスクアレイにおけるオペレーティングシステムが動作不可状態であることを検出する請求項3記載のディスクアレイシステムの復旧方法。
【請求項5】
前記ディスクアレイシステムの動作中、システムの動作中にソフトウェア要因でOSが動作不可能となりシステム装置が動作できなくなった場合、またはシステム装置の起動処理中にOSデータの破壊によりシステム装置の起動ができなかった場合、システムの動作状態を自律的に判断することを可能とする請求項3記載のディスクアレイシステムの復旧方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6(a)】
image rotate

【図6(b)】
image rotate

【図6(c)】
image rotate

【図7】
image rotate


【公開番号】特開2011−13991(P2011−13991A)
【公開日】平成23年1月20日(2011.1.20)
【国際特許分類】
【出願番号】特願2009−158357(P2009−158357)
【出願日】平成21年7月3日(2009.7.3)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】