説明

ディスクアレイ装置、そのディスク管理方法及びそのディスク管理プログラム

【課題】RAID装置でドライブが故障した時、冗長化が回復されるまでの時間を短縮する。
【解決手段】データディスク及びスペアディスクの状態を、ハードディスクの自己管理解析報告機能であるSMART情報を入手し(S101)、データディスクのうち故障発生の可能性が高いデータディスクを予測し(S103)、故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーする(S104)。データディスクのいずれかが故障した場合に、故障したデータディスクが前記コピーを実施されたか否か判定し(S105)、故障したデータディスクがコピーを実施済みの場合は、スペアディスクをデータディスクとして組み込み(S106)、未だコピーを実施していないデータディスクが故障した場合は、故障したデータディスク以外のデータディスクから復旧データを作成し、スペアディスクに書き込む(S107)。

【発明の詳細な説明】
【技術分野】
【0001】
ディスクアレイ装置において、ディスクドライブの障害情報、例えば、S.M.A.R.T.情報を利用して、エラーの発生状況を分析し、発生頻度や多発傾向にあるディスクドライブのデータを事前にスペアディスクにコピーさせておくことで、該当ディスクドライブ故障時に事前にコピーしていたディスクをRAID構成に組み込むことにより冗長化の修復時間の短縮を図るディスクアレイ装置、そのディスク管理方法及びそのディスク管理プログラムに関する。
【背景技術】
【0002】
従来、ディスクアレイ装置は、複数台のハードディスクドライブ(HDD)でRAID(Redundant Arrays of Inexpensive Disks)を構成し、データの信頼性向上を図っている。
【0003】
例えば、RAID5のディスクアレイ装置は、データを各データディスクにストライプ状に分散して記録するとともに、各データのパリティ情報も分散して記録する。
【0004】
このようなディスクアレイ装置は、RAIDを構成しているデータディスクに故障が発生した場合、冗長性がなくなる。そのため、特許文献1乃至3には、冗長性を回復させるためにスペアディスクを搭載する発明が開示されている。
【特許文献1】特開2005−157739号公報
【特許文献2】特開2006−079219号公報
【特許文献3】特表2008−509474号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示されている発明は、ディスクドライブのアクセスエラーを単純に監視するものであり、そのアクセスエラーの詳細な状況まで把握していないという問題点がある。
【0006】
特許文献2に開示されている発明は、故障する危険率が高いディスクドライブを予備ディスクに設定し、その都度、交換を要求するため、保守作業が繁雑になるだけでなく、統計上の故障率が悪化するという問題点がある。
【0007】
特許文献3に開示されている発明は、ディスクドライブに生じた訂正可能又は適正不可能なエラー数を監視し、このエラー数が閾値を超えたものを監視対象としているが、エラーの詳細な状況までは把握していないという問題点がある。
【0008】
又、スペアディスクは、データディスクが故障した場合、故障したデータディスク以外のデータディスクより復元したデータをスペアディスクに書き込むことにより、RAIDの冗長性を回復させる機能を持つ(図5参照)。
【0009】
そのため、スペアディスクを利用してのRAIDの冗長性の回復までの復旧時間は、データディスクが故障してから、データ復旧を行うため、復旧時間は長時間を要する問題がある。また、スペアディスクへのデータ復旧が完了するまで冗長性がないため、ディスクアレイ装置の信頼性は低くなるという問題点もある。
【0010】
本発明は上記に鑑みてなされたものであり、エラーの詳細な状況を把握し、統計上の故障率の悪化を防止し、冗長化が回復されるまでの時間を短縮できるディスクアレイ装置、そのディスク管理方法及びそのディスク管理プログラムを得ることを目的とする。
【課題を解決するための手段】
【0011】
上述の問題を解決するため、本発明に係るディスクアレイ装置は、RAIDを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクとを有するディスクアレイ装置において、前記データディスク及び前記スペアディスクを制御するディスク制御部と、前記データディスク及び前記スペアディスクのエラー情報としてハードディスクの自己管理解析報告機能である S.M.A.R.T情報を格納するディスクドライブ管理テーブルと、を備え、前記ディスク制御部は、前記データディスク及び前記スペアディスクの状態を監視して前記エラー情報を入手し、前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断し、該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定し、該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込み、未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込むことを特徴とする。
【0012】
上述の問題を解決するため、本発明に係るディスク管理方法は、RAIDを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクと、前記データディスク及び前記スペアディスクを制御するディスク制御部と、前記データディスク及び前記スペアディスクのエラー情報を格納するディスクドライブ管理テーブルと、を有するディスクアレイ装置のディスク管理方法であって、前記データディスク及び前記スペアディスクの状態を監視して前記としてハードディスクの自己管理解析報告機能であるS.M.A.R.T情報を入手する手順と、前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断する手順と、該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、故障発生の可能性の高いデータディスクのデータをスペアディスクへコピーする手順と、前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定する手順と、 該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込む手順と、未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込む手順と、を備えることを特徴とする。
【0013】
上述の問題を解決するため、本発明に係るディスク管理プログラムは、RAIDを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクと、前記データディスク及び前記スペアディスクを制御するディスク制御部と、前記データディスク及び前記スペアディスクのエラー情報を格納するディスクドライブ管理テーブルと、を有するディスクアレイ装置のディスク管理プログラムであって、前記データディスク及び前記スペアディスクの状態を監視して前記としてハードディスクの自己管理解析報告機能であるS.M.A.R.T情報を入手する処理と、前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断する処理と、該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、故障発生の可能性の高いデータディスクのデータをスペアディスクへコピーする処理と、前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定する処理と、該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込む処理と、未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込む処理と、をディスクアレイ装置に実行させることを特徴とする。
【発明の効果】
【0014】
本発明によれば、ハードディスクの自己管理解析報告機能である S.M.A.R.T情報によりエラーの詳細な状況を把握し、故障の可能性の高いディスクドライブのデータをスペアディスクに事前に書き込むことにより、統計上の故障率の悪化を防止し、データディスクに故障が発生してからRAIDを構成しているディスクからデータを復旧するのではなく、事前にデータをコピーしているスペアディスクを組み込むことにより冗長化が回復されるまでの時間を短縮できるディスクアレイ装置、そのディスク管理方法及びそのディスク管理プログラムを得ることができる。
【発明を実施するための最良の形態】
【0015】
[本実施の形態の構成]
次に、本発明の実施の形態(以下、本実施の形態)の構成について図面を参照して詳細に説明する。ここで、図1は、本発明の実施の形態に係るディスクアレイ装置の構成図である。
【0016】
図1を参照すると、本発明の実施例は、ディスクアレイ装置1は、複数のディスクドライブ10(データディスク#0〜#3)と、スペアディスク20と、データディスク10と、スペアディスク20を制御するディスク制御部30と、データディスク10のエラー情報を格納するためのディスクドライブ管理テーブル40と、を備える。
【0017】
データディスク10は複数のデータディスクであるデータディスク#0〜#3によりRAIDで構築されている。
【0018】
スペアディスク20は、データディスク10のディスクドライブで故障が発生したときに復旧データを書き込むためのディスクドライブである。
【0019】
ディスク制御部30は、データディスク10及びスペアディスク20の状態を監視する手段と、故障が発生したデータディスク以外のディスクから復旧データを作成する手段と、ディスクドライブのエラー情報(S.M.A.R.T情報)を入手する手段と、エラー情報(S.M.A.R.T情報)を分析し、故障の可能性の高いデータディスクのデータをスペアディスクへコピーする手段とを備える。
【0020】
ディスクドライブ管理テーブル40はデータディスク10の各ディスクドライブのエラー情報(S.M.A.R.T情報)を格納するための領域である。
【0021】
ここで、S.M.A.R.T情報とはSelf-Monitoring Analysis and Reporting Technologyの略であり、日本語ではハードディスクの自己管理解析報告機能を意味する。メーカー毎に多少の違いがあるが10〜50個の検査項目があり、ハードディスクの状態を「現在の値」(Value)、「閾値」(Threshold)、「ワースト値」(Worst)、「生の値」(Data)の4つの項目に分けて報告する。現在の値またはワースト値が閾値を下回るようであれば、仮に今正常に見えても余裕がない状態と判断できる。
【0022】
又、S.M.A.R.T情報で故障発生の可能性が高いハードディスクを判断するのに次の項目があげられる。
・01h Raw Read Error Rate:リードエラーの発生率
・0ah Spin-up Retry Count:スピンアップを再試行した回数
・0bh Calibration Retry Count:キャリブレーション動作を再試行しようとした回数
・C8h Write Error Count:データの書き込み中に発見されたエラーの総数
【0023】
ディスク制御部30は、データディスク10及びスペアディスク20についてこれら各項目の「現在の値」(Value)及び該「現在の値」の履歴中の最小値である「ワースト値」をそれぞれ記録し、これら各項目のいずれかで「現在の値」又は「ワースト値」が、所定の閾値を下回っているデータディスク10又はスペアディスク20を、故障発生の可能性が高いディスクと判断する。
【0024】
[本実施の形態の動作の説明]
次に、図2のフローチャートを参照しながら本実施の形態の動作について詳細に説明する。
【0025】
まず、ディスク制御部30にてデータディスク10の各データディスク#0〜#3のエラー情報(S.M.A.R.T情報)を入手する(図2のステップS101)。
【0026】
次いで、入手した情報をディスクドライブ管理テーブル40に格納する(図2のステップS102)。
【0027】
ディスクドライブ管理テーブル40が格納するエラー情報(S.M.A.R.T情報)より故障の発生可能性の高いデータドライブを選択する(図2のステップS103)。具体的にはS.M.A.R.T情報の各項目において現在の値またはワースト値が閾値を下回っていれば故障発生の可能性が高いと判断する。本実施の形態で監視対象とするS.M.A.R.T情報の各項目は、以下のものである。
・01h Raw Read Error Rate
・0ah Spin-up Retry Count
・0bh Calibration Retry Count
・C8h Write Error Count
【0028】
図2のステップS104では、図3に示すようにステップS103で故障の発生可能性が高いと判断したデータディスク(図3ではデータディスク#3)のデータをスペアディスク(図3ではスペアディスク#0)にコピーする。スペアディスクにデータをコピー中にコピー元であるデータディスクのデータが更新された場合は、スペアディスクに対しても同一内容の更新データを書き込むことでデータの同一性を保障する。
【0029】
図2のステップS105では、ディスク制御部30はデータディスクの状態を監視しており、データディスクのいずれかが故障した場合、この故障したデータディスクがステップS104にてコピーを実施しているディスクかそれ以外のディスクかを判定する。
【0030】
図2のステップS106では、図4に示すようにディスク制御部30はステップS103で選択したデータディスクが故障した場合、すなわち、故障したデータディスクがコピーを実施済みの場合は、コピーしていたスペアディスク20(図4ではスペアディスク#0)をデータディスク10(図4ではデータディスク#0〜#2)に組み込む。
【0031】
図2のステップS107では、図5に示すようにステップS103以外で選択したデータディスク(図5ではデータディスク#2)が故障した場合は、データディスク10の故障した以外のデータディスク(図5ではデータディスク#0、#1、#3)より復旧データを生成し、スペアディスク20(図5ではスペアディスク#0)にデータを書き込む。
【0032】
図2のステップS108では、故障したディスクドライブを交換する。
【0033】
図2のステップS109では、図6に示すようにディスク制御部30は交換されたディスクをスペアディスク20(図6ではスペアディスク#0)に設定する。
【0034】
なお、本実施の形態はディスクアレイ装置に係るものであるが、このディスクアレイ装置におけるディスク管理方法の発明及びディスク管理プログラムとしても実施可能である。
【産業上の利用可能性】
【0035】
本発明は、RAID機能を有する複数のディスクドライブとスペアディスクを持つディスクアレイ装置においてスペアディスクを有効に利用するための用途に適用できる。
【図面の簡単な説明】
【0036】
【図1】本実施の形態の構成を示す図である。
【図2】本実施の形態の動作を示すフローチャートである。
【図3】本実施の形態において、故障の発生可能性が高いと判断したデータディスクのデータをスペアディスクにコピーすることを示す図である。
【図4】本実施の形態において、スペアディスクをデータディスク10に組み込むことを示す図である。
【図5】本実施の形態において、故障の発生可能性が高いと判断されたもの以外のデータディスクが故障した場合を示す図である。
【図6】本実施の形態において、交換されたディスクをスペアディスクに設定することを示す図である。
【符号の説明】
【0037】
1 ディスクアレイ装置
10 データディスク
20 スペアディスク
30 ディスク制御部
40 ディスクドライブ管理テーブル

【特許請求の範囲】
【請求項1】
RAIDを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクとを有するディスクアレイ装置において、
前記データディスク及び前記スペアディスクを制御するディスク制御部と、
前記データディスク及び前記スペアディスクのエラー情報としてハードディスクの自己管理解析報告機能である S.M.A.R.T情報を格納するディスクドライブ管理テーブルと、
を備え、
前記ディスク制御部は、
前記データディスク及び前記スペアディスクの状態を監視して前記エラー情報を入手し、前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断し、該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定し、該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込み、未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込むことを特徴とするディスクアレイ装置。
【請求項2】
前記ディスク制御部は、前記コピーを実施中にコピー元であるデータディスクのデータが更新された場合は、前記スペアディスクに対しても同一内容の更新データを書き込むことを特徴とする請求項1に記載のディスクアレイ装置。
【請求項3】
前記ディスク制御部は、
前記データディスク及び前記スペアディスクの状態を監視する手段と、
障害が発生したデータディスク以外のデータディスクから前記復旧データを作成する手段と、
前記データディスク及び前記スペアディスクのエラー情報を入手する手段と、
前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性の高いデータディスクのデータをスペアディスクへ前記コピーする手段とを有し、
前記監視する手段は、前記データディスクのいずれかが故障した場合、前記コピーを実施されたか否かを判定し、該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込み、
前記復旧データを作成する手段は、未だ前記コピーを実施していないデータディスクが故障した場合に、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込むことを特徴とする請求項1又は2に記載のディスクアレイ装置。
【請求項4】
前記ディスク制御部は、前記S.M.A.R.T情報のうち、リードエラーの発生率である Raw Read Error Rate、スピンアップを再試行した回数であるSpin-up Retry Count、キャリブレーション動作を再試行しようとした回数であるCalibration Retry Count及びデータの書き込み中に発見されたエラーの総数であるWrite Error Countの各項目に基づいて故障発生の可能性が高い前記データディスクを判断することを特徴とする請求項1乃至3のいずれか1項に記載のディスクアレイ装置。
【請求項5】
前記ディスク制御部は、前記データディスク及び前記スペアディスクについて前記各項目の「現在の値」(Value)及び該「現在の値」の履歴中の最小値である「ワースト値」をそれぞれ記録し、前記各項目のいずれかで前記「現在の値」又は前記「ワースト値」が、所定の閾値を下回っている前記データディスク又は前記スペアディスクを故障発生の可能性が高いディスクと判断することを特徴とする請求項4に記載のディスクアレイ装置。
【請求項6】
RAIDを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクと、前記データディスク及び前記スペアディスクを制御するディスク制御部と、前記データディスク及び前記スペアディスクのエラー情報を格納するディスクドライブ管理テーブルと、を有するディスクアレイ装置のディスク管理方法であって、
前記データディスク及び前記スペアディスクの状態を監視して前記としてハードディスクの自己管理解析報告機能であるS.M.A.R.T情報を入手する手順と、
前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断する手順と、
該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、故障発生の可能性の高いデータディスクのデータをスペアディスクへコピーする手順と、
前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定する手順と、
該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込む手順と、
未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込む手順と、
を備えることを特徴とするディスク管理方法。
【請求項7】
前記コピーする手順は、前記コピーを実施中にコピー元であるデータディスクのデータが更新された場合は、前記スペアディスクに対しても同一内容の更新データを書き込むことを特徴とする請求項6に記載のディスク管理方法。
【請求項8】
前記データディスクを判断する手順は、前記S.M.A.R.T情報のうち、リードエラーの発生率であるRaw Read Error Rate、スピンアップを再試行した回数であるSpin-up Retry Count、キャリブレーション動作を再試行しようとした回数であるCalibration Retry Count及びデータの書き込み中に発見されたエラーの総数であるWrite Error Countの各項目に基づいて故障発生の可能性が高い前記データディスクを判断することを特徴とする請求項6又は7に記載のディスク管理方法。
【請求項9】
前記データディスクを判断する手順は、前記データディスク及び前記スペアディスクについて前記各項目の「現在の値」(Value)及び該「現在の値」の履歴中の最小値である「ワースト値」をそれぞれ記録し、前記各項目のいずれかで前記「現在の値」又は前記「ワースト値」が、所定の閾値を下回っている前記データディスク又は前記スペアディスクを故障発生の可能性が高いディスクと判断することを特徴とする請求項8に記載のディスク管理方法。
【請求項10】
RAIDを構成する複数のデータディスクと、該データディスクで故障が発生したときに該故障したデータディスク以外のディスクから作成された復旧データが書き込まれるスペアディスクと、前記データディスク及び前記スペアディスクを制御するディスク制御部と、前記データディスク及び前記スペアディスクのエラー情報を格納するディスクドライブ管理テーブルと、を有するディスクアレイ装置のディスク管理プログラムであって、
前記データディスク及び前記スペアディスクの状態を監視して前記としてハードディスクの自己管理解析報告機能であるS.M.A.R.T情報を入手する処理と、
前記エラー情報を分析し、前記データディスクのうち、故障発生の可能性が高いデータディスクを判断する処理と、
該故障発生の可能性が高いデータディスクのデータをスペアディスクへコピーし、故障発生の可能性の高いデータディスクのデータをスペアディスクへコピーする処理と、
前記データディスクのいずれかが故障した場合、該故障したデータディスクが前記コピーを実施されたか否かを判定する処理と、
該故障したデータディスクが前記コピーを実施済みの場合は、前記スペアディスクをデータディスクに組み込む処理と、
未だ前記コピーを実施していないデータディスクが故障した場合は、該故障したデータディスク以外のデータディスクから前記復旧データを作成し、前記スペアディスクに書き込む処理と、
をディスクアレイ装置に実行させることを特徴とするディスク管理プログラム。
【請求項11】
前記コピーする処理は、前記コピーを実施中にコピー元であるデータディスクのデータが更新された場合は、前記スペアディスクに対しても同一内容の更新データを書き込むことを特徴とする請求項10に記載のディスク管理プログラム。
【請求項12】
前記データディスクを判断する処理は、前記S.M.A.R.T情報のうち、リードエラーの発生率であるRaw Read Error Rate、スピンアップを再試行した回数であるSpin-up Retry Count、キャリブレーション動作を再試行しようとした回数であるCalibration Retry Count及びデータの書き込み中に発見されたエラーの総数であるWrite Error Countの各項目に基づいて故障発生の可能性が高い前記データディスクを判断することを特徴とする請求項10又は11に記載のディスク管理プログラム。
【請求項13】
前記データディスクを判断する処理は、前記データディスク及び前記スペアディスクについて前記各項目の「現在の値」(Value)及び該「現在の値」の履歴中の最小値である「ワースト値」をそれぞれ記録し、前記各項目のいずれかで前記「現在の値」又は前記「ワースト値」が、所定の閾値を下回っている前記データディスク又は前記スペアディスクを故障発生の可能性が高いディスクと判断することを特徴とする請求項12に記載のディスク管理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−128773(P2010−128773A)
【公開日】平成22年6月10日(2010.6.10)
【国際特許分類】
【出願番号】特願2008−302519(P2008−302519)
【出願日】平成20年11月27日(2008.11.27)
【出願人】(000232140)NECフィールディング株式会社 (373)
【Fターム(参考)】