ディスクアレイ装置、そのディスク管理方法及びそのディスク管理プログラム

【課題】ＲＡＩＤ装置でドライブが故障した時、冗長化が回復されるまでの時間を短縮する。
【解決手段】データディスク及びスペアディスクの状態を、ハードディスクの自己管理解析報告機能であるＳＭＡＲＴ情報を入手し（Ｓ１０１）、データディスクのうち故障発生の可能性が高いデータディスクを予測し（Ｓ１０３）、故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーする（Ｓ１０４）。データディスクのいずれかが故障した場合に、故障したデータディスクが前記コピーを実施されたか否か判定し（Ｓ１０５）、故障したデータディスクがコピーを実施済みの場合は、スペアディスクをデータディスクとして組み込み（Ｓ１０６）、未だコピーを実施していないデータディスクが故障した場合は、故障したデータディスク以外のデータディスクから復旧データを作成し、スペアディスクに書き込む（Ｓ１０７）。

【発明の詳細な説明】
【技術分野】
【０００１】
ディスクアレイ装置において、ディスクドライブの障害情報、例えば、S.M.A.R.T.情報を利用して、エラーの発生状況を分析し、発生頻度や多発傾向にあるディスクドライブのデータを事前にスペアディスクにコピーさせておくことで、該当ディスクドライブ故障時に事前にコピーしていたディスクをＲＡＩＤ構成に組み込むことにより冗長化の修復時間の短縮を図るディスクアレイ装置、そのディスク管理方法及びそのディスク管理プログラムに関する。
【背景技術】
【０００２】
従来、ディスクアレイ装置は、複数台のハードディスクドライブ（ＨＤＤ）でＲＡＩＤ（Redundant Arrays of Inexpensive Disks）を構成し、データの信頼性向上を図っている。
【０００３】
例えば、ＲＡＩＤ５のディスクアレイ装置は、データを各データディスクにストライプ状に分散して記録するとともに、各データのパリティ情報も分散して記録する。
【０００４】
このようなディスクアレイ装置は、ＲＡＩＤを構成しているデータディスクに故障が発生した場合、冗長性がなくなる。そのため、特許文献１乃至３には、冗長性を回復させるためにスペアディスクを搭載する発明が開示されている。
【特許文献１】特開２００５−１５７７３９号公報
【特許文献２】特開２００６−０７９２１９号公報
【特許文献３】特表２００８−５０９４７４号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、特許文献１に開示されている発明は、ディスクドライブのアクセスエラーを単純に監視するものであり、そのアクセスエラーの詳細な状況まで把握していないという問題点がある。
【０００６】
特許文献２に開示されている発明は、故障する危険率が高いディスクドライブを予備ディスクに設定し、その都度、交換を要求するため、保守作業が繁雑になるだけでなく、統計上の故障率が悪化するという問題点がある。
【０００７】
特許文献３に開示されている発明は、ディスクドライブに生じた訂正可能又は適正不可能なエラー数を監視し、このエラー数が閾値を超えたものを監視対象としているが、エラーの詳細な状況までは把握していないという問題点がある。
【０００８】
又、スペアディスクは、データディスクが故障した場合、故障したデータディスク以外のデータディスクより復元したデータをスペアディスクに書き込むことにより、ＲＡＩＤの冗長性を回復させる機能を持つ（図５参照）。
【０００９】
そのため、スペアディスクを利用してのＲＡＩＤの冗長性の回復までの復旧時間は、データディスクが故障してから、データ復旧を行うため、復旧時間は長時間を要する問題がある。また、スペアディスクへのデータ復旧が完了するまで冗長性がないため、ディスクアレイ装置の信頼性は低くなるという問題点もある。
【００１０】
本発明は上記に鑑みてなされたものであり、エラーの詳細な状況を把握し、統計上の故障率の悪化を防止し、冗長化が回復されるまでの時間を短縮できるディスクアレイ装置、そのディスク管理方法及びそのディスク管理プログラムを得ることを目的とする。
【課題を解決するための手段】
【００１１】
上述の問題を解決するため、本発明に係るディスクアレイ装置は、ＲＡＩＤを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクとを有するディスクアレイ装置において、前記データディスク及び前記スペアディスクを制御するディスク制御部と、前記データディスク及び前記スペアディスクのエラー情報としてハードディスクの自己管理解析報告機能である S.M.A.R.T情報を格納するディスクドライブ管理テーブルと、を備え、前記ディスク制御部は、前記データディスク及び前記スペアディスクの状態を監視して前記エラー情報を入手し、前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断し、該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定し、該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込み、未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込むことを特徴とする。
【００１２】
上述の問題を解決するため、本発明に係るディスク管理方法は、ＲＡＩＤを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクと、前記データディスク及び前記スペアディスクを制御するディスク制御部と、前記データディスク及び前記スペアディスクのエラー情報を格納するディスクドライブ管理テーブルと、を有するディスクアレイ装置のディスク管理方法であって、前記データディスク及び前記スペアディスクの状態を監視して前記としてハードディスクの自己管理解析報告機能であるS.M.A.R.T情報を入手する手順と、前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断する手順と、該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、故障発生の可能性の高いデータディスクのデータをスペアディスクへコピーする手順と、前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定する手順と、該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込む手順と、未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込む手順と、を備えることを特徴とする。
【００１３】
上述の問題を解決するため、本発明に係るディスク管理プログラムは、ＲＡＩＤを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクと、前記データディスク及び前記スペアディスクを制御するディスク制御部と、前記データディスク及び前記スペアディスクのエラー情報を格納するディスクドライブ管理テーブルと、を有するディスクアレイ装置のディスク管理プログラムであって、前記データディスク及び前記スペアディスクの状態を監視して前記としてハードディスクの自己管理解析報告機能であるS.M.A.R.T情報を入手する処理と、前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断する処理と、該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、故障発生の可能性の高いデータディスクのデータをスペアディスクへコピーする処理と、前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定する処理と、該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込む処理と、未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込む処理と、をディスクアレイ装置に実行させることを特徴とする。
【発明の効果】
【００１４】
本発明によれば、ハードディスクの自己管理解析報告機能である S.M.A.R.T情報によりエラーの詳細な状況を把握し、故障の可能性の高いディスクドライブのデータをスペアディスクに事前に書き込むことにより、統計上の故障率の悪化を防止し、データディスクに故障が発生してからＲＡＩＤを構成しているディスクからデータを復旧するのではなく、事前にデータをコピーしているスペアディスクを組み込むことにより冗長化が回復されるまでの時間を短縮できるディスクアレイ装置、そのディスク管理方法及びそのディスク管理プログラムを得ることができる。
【発明を実施するための最良の形態】
【００１５】
［本実施の形態の構成］
次に、本発明の実施の形態（以下、本実施の形態）の構成について図面を参照して詳細に説明する。ここで、図１は、本発明の実施の形態に係るディスクアレイ装置の構成図である。
【００１６】
図１を参照すると、本発明の実施例は、ディスクアレイ装置１は、複数のディスクドライブ１０（データディスク＃０〜＃３）と、スペアディスク２０と、データディスク１０と、スペアディスク２０を制御するディスク制御部３０と、データディスク１０のエラー情報を格納するためのディスクドライブ管理テーブル４０と、を備える。
【００１７】
データディスク１０は複数のデータディスクであるデータディスク＃０〜＃３によりＲＡＩＤで構築されている。
【００１８】
スペアディスク２０は、データディスク１０のディスクドライブで故障が発生したときに復旧データを書き込むためのディスクドライブである。
【００１９】
ディスク制御部３０は、データディスク１０及びスペアディスク２０の状態を監視する手段と、故障が発生したデータディスク以外のディスクから復旧データを作成する手段と、ディスクドライブのエラー情報（S.M.A.R.T情報）を入手する手段と、エラー情報（S.M.A.R.T情報）を分析し、故障の可能性の高いデータディスクのデータをスペアディスクへコピーする手段とを備える。
【００２０】
ディスクドライブ管理テーブル４０はデータディスク１０の各ディスクドライブのエラー情報（S.M.A.R.T情報）を格納するための領域である。
【００２１】
ここで、S.M.A.R.T情報とはSelf-Monitoring Analysis and Reporting Technologyの略であり、日本語ではハードディスクの自己管理解析報告機能を意味する。メーカー毎に多少の違いがあるが１０〜５０個の検査項目があり、ハードディスクの状態を「現在の値」（Value）、「閾値」（Threshold）、「ワースト値」（Worst）、「生の値」（Data）の４つの項目に分けて報告する。現在の値またはワースト値が閾値を下回るようであれば、仮に今正常に見えても余裕がない状態と判断できる。
【００２２】
又、S.M.A.R.T情報で故障発生の可能性が高いハードディスクを判断するのに次の項目があげられる。
・01h Raw Read Error Rate：リードエラーの発生率
・0ah Spin-up Retry Count：スピンアップを再試行した回数
・0bh Calibration Retry Count：キャリブレーション動作を再試行しようとした回数
・C8h Write Error Count：データの書き込み中に発見されたエラーの総数
【００２３】
ディスク制御部３０は、データディスク１０及びスペアディスク２０についてこれら各項目の「現在の値」（Value）及び該「現在の値」の履歴中の最小値である「ワースト値」をそれぞれ記録し、これら各項目のいずれかで「現在の値」又は「ワースト値」が、所定の閾値を下回っているデータディスク１０又はスペアディスク２０を、故障発生の可能性が高いディスクと判断する。
【００２４】
［本実施の形態の動作の説明］
次に、図２のフローチャートを参照しながら本実施の形態の動作について詳細に説明する。
【００２５】
まず、ディスク制御部３０にてデータディスク１０の各データディスク＃０〜＃３のエラー情報（S.M.A.R.T情報）を入手する（図２のステップＳ１０１）。
【００２６】
次いで、入手した情報をディスクドライブ管理テーブル４０に格納する（図２のステップＳ１０２）。
【００２７】
ディスクドライブ管理テーブル４０が格納するエラー情報（S.M.A.R.T情報）より故障の発生可能性の高いデータドライブを選択する（図２のステップＳ１０３）。具体的にはS.M.A.R.T情報の各項目において現在の値またはワースト値が閾値を下回っていれば故障発生の可能性が高いと判断する。本実施の形態で監視対象とするS.M.A.R.T情報の各項目は、以下のものである。
・01h Raw Read Error Rate
・0ah Spin-up Retry Count
・0bh Calibration Retry Count
・C8h Write Error Count
【００２８】
図２のステップＳ１０４では、図３に示すようにステップＳ１０３で故障の発生可能性が高いと判断したデータディスク（図３ではデータディスク＃３）のデータをスペアディスク（図３ではスペアディスク＃０）にコピーする。スペアディスクにデータをコピー中にコピー元であるデータディスクのデータが更新された場合は、スペアディスクに対しても同一内容の更新データを書き込むことでデータの同一性を保障する。
【００２９】
図２のステップＳ１０５では、ディスク制御部３０はデータディスクの状態を監視しており、データディスクのいずれかが故障した場合、この故障したデータディスクがステップＳ１０４にてコピーを実施しているディスクかそれ以外のディスクかを判定する。
【００３０】
図２のステップＳ１０６では、図４に示すようにディスク制御部３０はステップＳ１０３で選択したデータディスクが故障した場合、すなわち、故障したデータディスクがコピーを実施済みの場合は、コピーしていたスペアディスク２０（図４ではスペアディスク＃０）をデータディスク１０（図４ではデータディスク＃０〜＃２）に組み込む。
【００３１】
図２のステップＳ１０７では、図５に示すようにステップＳ１０３以外で選択したデータディスク（図５ではデータディスク＃２）が故障した場合は、データディスク１０の故障した以外のデータディスク（図５ではデータディスク＃０、＃１、＃３）より復旧データを生成し、スペアディスク２０（図５ではスペアディスク＃０）にデータを書き込む。
【００３２】
図２のステップＳ１０８では、故障したディスクドライブを交換する。
【００３３】
図２のステップＳ１０９では、図６に示すようにディスク制御部３０は交換されたディスクをスペアディスク２０（図６ではスペアディスク＃０）に設定する。
【００３４】
なお、本実施の形態はディスクアレイ装置に係るものであるが、このディスクアレイ装置におけるディスク管理方法の発明及びディスク管理プログラムとしても実施可能である。
【産業上の利用可能性】
【００３５】
本発明は、ＲＡＩＤ機能を有する複数のディスクドライブとスペアディスクを持つディスクアレイ装置においてスペアディスクを有効に利用するための用途に適用できる。
【図面の簡単な説明】
【００３６】
【図１】本実施の形態の構成を示す図である。
【図２】本実施の形態の動作を示すフローチャートである。
【図３】本実施の形態において、故障の発生可能性が高いと判断したデータディスクのデータをスペアディスクにコピーすることを示す図である。
【図４】本実施の形態において、スペアディスクをデータディスク１０に組み込むことを示す図である。
【図５】本実施の形態において、故障の発生可能性が高いと判断されたもの以外のデータディスクが故障した場合を示す図である。
【図６】本実施の形態において、交換されたディスクをスペアディスクに設定することを示す図である。
【符号の説明】
【００３７】
１ディスクアレイ装置
１０データディスク
２０スペアディスク
３０ディスク制御部
４０ディスクドライブ管理テーブル

【特許請求の範囲】
【請求項１】
ＲＡＩＤを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクとを有するディスクアレイ装置において、
前記データディスク及び前記スペアディスクを制御するディスク制御部と、
前記データディスク及び前記スペアディスクのエラー情報としてハードディスクの自己管理解析報告機能である S.M.A.R.T情報を格納するディスクドライブ管理テーブルと、
を備え、
前記ディスク制御部は、
前記データディスク及び前記スペアディスクの状態を監視して前記エラー情報を入手し、前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断し、該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定し、該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込み、未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込むことを特徴とするディスクアレイ装置。
【請求項２】
前記ディスク制御部は、前記コピーを実施中にコピー元であるデータディスクのデータが更新された場合は、前記スペアディスクに対しても同一内容の更新データを書き込むことを特徴とする請求項１に記載のディスクアレイ装置。
【請求項３】
前記ディスク制御部は、
前記データディスク及び前記スペアディスクの状態を監視する手段と、
障害が発生したデータディスク以外のデータディスクから前記復旧データを作成する手段と、
前記データディスク及び前記スペアディスクのエラー情報を入手する手段と、
前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性の高いデータディスクのデータをスペアディスクへ前記コピーする手段とを有し、
前記監視する手段は、前記データディスクのいずれかが故障した場合、前記コピーを実施されたか否かを判定し、該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込み、
前記復旧データを作成する手段は、未だ前記コピーを実施していないデータディスクが故障した場合に、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込むことを特徴とする請求項１又は２に記載のディスクアレイ装置。
【請求項４】
前記ディスク制御部は、前記S.M.A.R.T情報のうち、リードエラーの発生率である Raw Read Error Rate、スピンアップを再試行した回数であるSpin-up Retry Count、キャリブレーション動作を再試行しようとした回数であるCalibration Retry Count及びデータの書き込み中に発見されたエラーの総数であるWrite Error Countの各項目に基づいて故障発生の可能性が高い前記データディスクを判断することを特徴とする請求項１乃至３のいずれか１項に記載のディスクアレイ装置。
【請求項５】
前記ディスク制御部は、前記データディスク及び前記スペアディスクについて前記各項目の「現在の値」（Value）及び該「現在の値」の履歴中の最小値である「ワースト値」をそれぞれ記録し、前記各項目のいずれかで前記「現在の値」又は前記「ワースト値」が、所定の閾値を下回っている前記データディスク又は前記スペアディスクを故障発生の可能性が高いディスクと判断することを特徴とする請求項４に記載のディスクアレイ装置。
【請求項６】
ＲＡＩＤを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクと、前記データディスク及び前記スペアディスクを制御するディスク制御部と、前記データディスク及び前記スペアディスクのエラー情報を格納するディスクドライブ管理テーブルと、を有するディスクアレイ装置のディスク管理方法であって、
前記データディスク及び前記スペアディスクの状態を監視して前記としてハードディスクの自己管理解析報告機能であるS.M.A.R.T情報を入手する手順と、
前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断する手順と、
該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、故障発生の可能性の高いデータディスクのデータをスペアディスクへコピーする手順と、
前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定する手順と、
該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込む手順と、
未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込む手順と、
を備えることを特徴とするディスク管理方法。
【請求項７】
前記コピーする手順は、前記コピーを実施中にコピー元であるデータディスクのデータが更新された場合は、前記スペアディスクに対しても同一内容の更新データを書き込むことを特徴とする請求項６に記載のディスク管理方法。
【請求項８】
前記データディスクを判断する手順は、前記S.M.A.R.T情報のうち、リードエラーの発生率であるRaw Read Error Rate、スピンアップを再試行した回数であるSpin-up Retry Count、キャリブレーション動作を再試行しようとした回数であるCalibration Retry Count及びデータの書き込み中に発見されたエラーの総数であるWrite Error Countの各項目に基づいて故障発生の可能性が高い前記データディスクを判断することを特徴とする請求項６又は７に記載のディスク管理方法。
【請求項９】
前記データディスクを判断する手順は、前記データディスク及び前記スペアディスクについて前記各項目の「現在の値」（Value）及び該「現在の値」の履歴中の最小値である「ワースト値」をそれぞれ記録し、前記各項目のいずれかで前記「現在の値」又は前記「ワースト値」が、所定の閾値を下回っている前記データディスク又は前記スペアディスクを故障発生の可能性が高いディスクと判断することを特徴とする請求項８に記載のディスク管理方法。
【請求項１０】
ＲＡＩＤを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクと、前記データディスク及び前記スペアディスクを制御するディスク制御部と、前記データディスク及び前記スペアディスクのエラー情報を格納するディスクドライブ管理テーブルと、を有するディスクアレイ装置のディスク管理プログラムであって、
前記データディスク及び前記スペアディスクの状態を監視して前記としてハードディスクの自己管理解析報告機能であるS.M.A.R.T情報を入手する処理と、
前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断する処理と、
該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、故障発生の可能性の高いデータディスクのデータをスペアディスクへコピーする処理と、
前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定する処理と、
該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込む処理と、
未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込む処理と、
をディスクアレイ装置に実行させることを特徴とするディスク管理プログラム。
【請求項１１】
前記コピーする処理は、前記コピーを実施中にコピー元であるデータディスクのデータが更新された場合は、前記スペアディスクに対しても同一内容の更新データを書き込むことを特徴とする請求項１０に記載のディスク管理プログラム。
【請求項１２】
前記データディスクを判断する処理は、前記S.M.A.R.T情報のうち、リードエラーの発生率であるRaw Read Error Rate、スピンアップを再試行した回数であるSpin-up Retry Count、キャリブレーション動作を再試行しようとした回数であるCalibration Retry Count及びデータの書き込み中に発見されたエラーの総数であるWrite Error Countの各項目に基づいて故障発生の可能性が高い前記データディスクを判断することを特徴とする請求項１０又は１１に記載のディスク管理プログラム。
【請求項１３】
前記データディスクを判断する処理は、前記データディスク及び前記スペアディスクについて前記各項目の「現在の値」（Value）及び該「現在の値」の履歴中の最小値である「ワースト値」をそれぞれ記録し、前記各項目のいずれかで前記「現在の値」又は前記「ワースト値」が、所定の閾値を下回っている前記データディスク又は前記スペアディスクを故障発生の可能性が高いディスクと判断することを特徴とする請求項１２に記載のディスク管理プログラム。

【図１】