説明

DNAマイクロアレイデータにおける欠陥を検出する方法

マイクロアレイデータの不均一なハイブリダイゼーションやダストコンタミネーションによって引き起こされる問題を排除する。DNAマイクロアレイデータの各セル値と対応する基準データの各基準値との差の値を取得する。DNAマイクロアレイデータの各セル値を前記差の値で置き換えることで疑似画像を取得する。疑似画像における所定数のセルに対応する窓を用意する。窓を疑似画像上で順次移動させながら各窓のメディアン値を計算して窓の代表値のセットを取得する。棄却限界値を超える指標を有する1つあるいは複数の窓が検出される。検出された窓のセルが廃棄される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、DNAマイクロアレイデータにおけるハイブリダイゼーション問題を検出する方法に関するものである。
【背景技術】
【0002】
ハイブリダイゼーションはマイクロアレイ分析の基礎であり、広く利用されているが、技術的な問題が無いわけではない。例えば、ハイブリダイゼーションが、チップ画像の中心の周りにドーナツ様の幾何パターンを形成することがある。このようなパターンは、ダスト混入に起因する表面スクラッチと同様に表れ、往々にしてチップのある領域における低減したシグナルをもたらす。このような問題を認識する分析プログラムが提案されてはいるものの、この手法は、大きな欠陥が存在する場合にはアレイチップデータ全体をキャンセルすることになってしまって破滅的である。dChipパッケージは、モデルベースのデータ標準化において外れ値(outliers)を認識して除去する自動アルゴリズムを実行する。このアルゴリズムは、各遺伝子のパーフェクトマッチ(PM)プローブとミスマッチ(MM)プローブの間の応答におけるパターンを見出し、結果として得られるパターンと一致しないセルとプローブセットを外れ値(outliers)と認定する。しかしながら、この手法は、生物ファンダメンタルズとデータの組み合わせの単純な観点から導かれた一連の数学モデルに基づくものである。さらに、ノイズを扱うパラメータを不可避的に含むこのモデルは、いかに実験システムを適切に表しているかを示す客観的指標が無いため、このモデル及び計算手法の妥当性を厳格にチェックすることが困難である。
【0003】
ハイブリダイゼーションの欠陥の認識がアドホックに行われている理由の1つは、このような問題がたとえチップ面積の大きな部分に見られたとしても、トランスクリプトレベルを反映するシグナル、すなわちスケール(scaled)されたプローブ値には影響を与えないと信じられていることである。また、GeneChip(登録商標)では、トランスクリプトは、隣り合うPMセルとMMセルとからなる10個程度のペアによって測定され、このペアはチップ全体に亘って分散している。したがって、失敗は関連するペアのPMプローブ及びMMプローブの両方において同時に起こり、1つの遺伝子について1つより多いプローブペアが失敗することがない。シグナルは、異なる原理に基づく幾つもの計算アルゴリズムによって見出されるが、多くはプローブ失敗に起因する外れ値(outliers)に着目している。例えば、Affymetrix MAS5はプローブペア間の重み付け平均としてシグナルを見出し、RMAはPM値のメディアンポリッシュ(median polish)によってシグナルを見つける。
【0004】
シグナルデータにおける正確性の低下を防止するためには分析前にこのような問題を認識してデータから取り除くことが望ましい。重み付け平均やメディアンは、外れ値(outliers)が同じ頻度で両方向(すなわち、ポジティブ及びネガティブ)に生じる場合にのみロバストである。問題の殆どは原因を反映する外れ値(outliers)を生成するため、実際にはそのようなことは稀である。例えば、問題が蛍光材料により引き起こされた場合には明るいスポットが現れ、チップ表面が損傷している場合には暗いスポットが現れる。これらの欠陥のタイプは、計算のロバスト性を損ねることで結果に影響を与える。ターゲットが遺伝子ではなくセルデータの場合には、mRNAの変異体の処理を分析する場合と同じように、このような欠陥は分析に直接影響を与える。マイクロアレイ準備問題は、GeneChipデータの高度な分析について障壁を呈することになる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述のとおり、マイクロアレイデータは不均一なハイブリダイゼーションやダストコンタミネーションによって引き起こされる問題をしばしば含んでいる。分析精度の劣化や結果的なフォルスポジティブを防止するためには、分析に先立ってこのような問題を取り除く必要がある。
【課題を解決するための手段】
【0006】
本発明は、ハイブリダイゼーションの理想的な基準に対する各アレイの比較におけるセルデータの局所傾向(local tendency)として問題を見出す手法を追求するものである。データの標準化の前に、問題として認識された位置のセルはキャンセルされる。このキャンセルはアレイデータの元の分布に影響を与えない。なぜなら、キャンセルはシグナル強度に対して独立しているからである。結果として、残ったデータは分析に用いることができる。
【0007】
本発明の1つの態様では、DNAマイクロアレイデータにおける欠陥の検出方法は、
DNAマイクロアレイから取得されたセル値のセットからなるターゲットDNAマイクロアレイデータを用意するステップ;
基準値のセットからなる基準データを用意するステップであって、各基準値は前記DNAマイクロアレイデータの各セル値に対応しており;
DNAマイクロアレイデータの各セル値と前記基準データの各基準値との差の値を取得するステップ;
前記DNAマイクロアレイデータの各セル値を各差の値で置き換えて疑似画像を取得するステップ;
前記疑似画像において予め決定された数のセルに対応する小領域を代表する値を、当該予め決定された数のセルの差の値に基づいて計算するステップであって、前記小領域を前記疑似画像上で1セルずつ移動させながら前記計算を繰り返して小領域を代表する値のセットを取得するステップ;
前記代表値のセットの期待される正規分布と前記代表値のセットの分布との比較に基づいて外れ代表値を含む1つまたは複数の小領域を検出するステップであって、前記検出された1つまたは複数の小領域は欠陥セル値を含んでいる;
からなる。
【0008】
1つの好ましい態様では、ターゲットDNAマイクロアレイデータ及び基準データは標準化されている。具体的には、セル値及基準値は対数値である。
【0009】
1つの好ましい態様では、基準値は標準化された複数のDNAマイクロアレイデータから取得した各セルを代表する値である。1つの態様では、各セルを代表する値は、平均、メディアン、最頻値を含む代表値(a measure of central tendency)である。好ましい例では、代表値は、トリム平均、メディアン、または重み付け平均である。
【0010】
複数の標準化されたDNAマイクロアレイデータは、ターゲットDNAマイクロアレイデータと同じタイプのDNAマイクロアレイによって取得される。前記複数のDNAマイクロアレイデータは、例えば、6セット〜10セットのDNAマイクロアレイデータである。1つの態様では、前記基準データのためのDNAマイクロアレイデータセットは、同じ組織に基づいて取得される。1つの態様では、前記基準データのためのDNAマイクロアレイデータセットは複数の異なる組織に基づいて取得される。後者において、好ましくは、異なる多様な組織について多くのDNAマイクロアレイデータが用意される。
【0011】
1つの態様では、窓、すなわち小領域、のサイズは、3×3セル〜10×10セルである。1つの好ましい態様では、窓、すなわち小領域のサイズは5×5セルである。1つの態様では、窓を代表する値は、各セルの差の値の代表値(a measure of central tendency)である。具体的には、代表値はメディアン、トリム平均、あるいは重み付け平均である。
【0012】
1つの好ましい態様では、小領域を代表する値のセットは標準化されて指標のセットが取得され、前記指標のセットの期待される正規分布に基づいて予め決定した棄却限界値を超える指標を備えた1つあるいは複数の小領域が検出される。
【0013】
1つの態様では、前記指標及び前記棄却限界値はzスコアである。
【0014】
1つの態様では、検出された1つあるいは複数の窓に属するセルのセル値が棄却される。
【0015】
本発明は、上記DNAマイクロアレイデータにおける欠陥を検出するための方法をコンピュータに実行させるためのコンピュータプログラムに関する。
【0016】
本発明は、上記DNAマイクロアレイデータにおける欠陥を検出し、欠陥を取り除くための方法をコンピュータに実行させるためのコンピュータプログラムに関する。
【0017】
本発明は、上記プログラムを格納するコンピュータ可読媒体に関する。
【図面の簡単な説明】
【0018】
【図1】図1は移動窓のメディアンの標準偏差のヒストグラムである。最頻値は0.31であり、期待値0.25よりも大きかった。
【図2】図2は、2つの異なる研究所で分析された葉の理想的な基準の2つのセットの一致を示す。
【図3A】ハイブリダイゼーションと基準との差の分布を示す。直線y=xは正規分布を示す。データはプロットの中心でより密となっている2.3%、0.1%、0.003%のデータのみが2、3、4よりも大きいzスコアを有している。
【図3B】ハイブリダイゼーションと基準との差の分布を示す。直線y=xは正規分布を示す。データはプロットの中心でより密となっている2.3%、0.1%、0.003%のデータのみが2、3、4よりも大きいzスコアを有している。
【図3C】ハイブリダイゼーションと基準との差の分布を示す。直線y=xは正規分布を示す。データはプロットの中心でより密となっている2.3%、0.1%、0.003%のデータのみが2、3、4よりも大きいzスコアを有している。
【図4A】指標値の分布を示す。
【図4B】指標値の分布を示す。
【図4C】指標値の分布を示す。
【図5】繰り返し実験における再現性を示す。実験の組み合わせが各列に示してある。左:オリジナルデータ、中央:残ったデータ、右:キャンセルされたデータである。指示されたアレイのペアからランダムに選択されたPMデータ(n=10000)が示してある。キャンセルの期待値は2窓である。
【図6】図6は、期待値窓が2つ及び20(それぞれ50および500セル)における複数のキャンセルされたデータを示す。
【図7】図7は再現性測定におけるセルデータの差の標準偏差を示す。
【図8】図8は、dChipパッケージによって処理されたデータの再現性を示す。PM-onlyモデルを用いた結果を示す。対応するオリジナルデータは図5(左)に示してある。左:残ったデータ、右:キャンセルされたデータ、を示す。指示されたアレイのペアからランダムに選択されたPMデータ(n=10000)を示す。
【図9】図9は、チップにおけるキャンセルされた窓の位置を示す。指示された期待値での4つの典型的な実験結果を示す。左上:比較的少ない数のキャンセルを備えたハイブリダイゼーション、右上:不均一なハイブリダイゼーション、左下:直線状の境界を備えた規則的な形状、右下:対称的な位置のクラスタ。
【図10】図10は基準データの生成を示す図である。
【図11】図11はDNAマイクロデータと基準データとの差の値の取得を示す図である。
【図12】図12は疑似画像上の窓の走査を示す図である。
【図13】図13は疑似画像に設けた本発明の窓を示す図である。
【図14】図14は本発明を説明するフローチャートである。
【発明を実施するための形態】
【0019】
A 本発明の一般的な記載
不均一なハイブリダイゼーションやダストコンタミネーションにより引き起こされる問題を検出し除去する方法について、図10乃至14に基づいて説明する。
【0020】
本発明の方法を実行するためのハードウェア構成は、図示しないコンピュータ装置であり、当該コンピュータ装置は、入力装置、出力装置、表示装置、ハードディスク、記憶装置、コンピュータ可読媒体、あるいは他の記憶手段であり得る格納装置、そして、プロセッサを含む。測定データや計算データを含む本発明の数々のデータは、記憶装置に格納される。数々の計算は、プロセッサによって実行される。選択的に、測定データや計算データを含む数々のデータが数々の形式で表示装置に表示されてもよい。
【0021】
ターゲットDNAマイクロアレイデータが用意される(図14 S1)。ターゲットDNAマイクロアレイデータは、セル値のセットである。ターゲットDNAマイクロアレイデータは、当初は、DNAマイクロアレイのプローブセルのシグナル強度のセットとして得られる。1つの好ましい態様では、各セル値は、対数を取り、対数値をz標準化することで得られる標準化された対数値(zスコア)である。メディアン基づく(median-based)標準化が用いられる。ターゲットDNAマイクロアレイデータは、記憶装置に格納される。
【0022】
基準データ(standard data)が用意される。基準データは基準値のセットである。各基準値は、DNAマイクロアレイの各プローブセルに対応している。基準値は、仮想データ(hypothetical data)、ないし参照データ(reference data)であり、基準値のセットは、典型的には、計算結果によって得られる。理想的には、基準データは、最も平均的な値あるいは最もありそうな(most probable)値である期待される仮想値のセットである。典型的には、基準値セットは、ターゲットDNAマイクロアレイデータのz標準化セル値に対応するようにzスコアとして用意される。基準データは、記憶装置に格納される。
【0023】
図10に示すように、1つの態様では、基準データは、同じタイプのターゲットDNAマイクロアレイから取得した複数の標準化データセット(例えば、6〜10セット)から取得される。各基準値は、前記複数の標準化データセットの各セル値を代表する値を計算することで取得される。典型的には、前記代表する値は、平均、メディアン、最頻値を含む代表値(measure of central tendency)である。好ましい態様では、代表値は、トリム平均、メディアン、重み付け平均である。1つの好ましい態様では、基準データは、ターゲットDNAマイクロアレイデータに用いられた組織と同じ組織についての標準化された複数のDNAマイクロアレイデータセットから取得される。基準データのために用いられる組織は、同じ組織に限定はされない。代替的に、基準データは、様々な異なる組織についての多数の標準化されたDNAマイクロアレイデータセットの代表値(たとえば、トリム平均、メディアン、重み付け平均)から取得することができる。メディアン基づく(median-based)標準化が用いられ得る。もし、ターゲットDNAマイクロアレイデータがGeneChipデータの場合には、基準データも複数のGeneChipデータから作成されることが望ましい。もし、全く欠陥やエラーがない完全なDNAマイクロアレイデータが存在すれば、1つのDNAマイクロアレイデータを基準データとして用いることもできる。
【0024】
基準データは、実測に基づいて得られたものに限定されない。基準データの各基準値は同じ値でもよい。基準データの各基準値は0でもよい。この場合、差の値とターゲットDNAマイクロアレイデータの各セル値は同じである。あるいは、基準値は、小さい分散を伴った疑似ランダム数のセットでもよい。
【0025】
ターゲットDNAマイクロアレイデータ及び基準データの標準化手法は、メディアンに基づく(median-based)手法に限定されない。標準化されたデータを(典型的にはzスコア)両者間で比較可能とする他の手法が用いられ得る。例えば、標準化として、3パラメータ手法(Konishi, T., Three-parameter lognormal distribution ubiquitously
found in cDNA microarray data and its application to parametric data treatment.
BMC Bioinformatics, 5:5, 2004, 参照により本明細書に組み込まれる)を用いることができる。この段階では、3パラメータ手法によるバックグランド値を無視してもよい。当業者に知られている他の標準化手法も用いられ得る。
【0026】
図11に示すように、ターゲットDNAマイクロアレイデータの各セル値と基準データの各基準値の差の値が取得される(図14 S2)。この段階において、大きい差の値をキャンセルすることはできない。なぜなら、大きい差の値は、生物学的に意味のある値であるかも知れないからである。差の値は、基準値に対する各セル値の比を含んでいても良い。差の値は、プロセッサによって計算され、記憶装置に格納される。各差の値は、DNAマイクロアレイの各セルに対応している。
【0027】
DNAマイクロアレイデータの各セル値を差の値で置き換えることで疑似画像を取得する(図14 S3)。すなわち、もしDNAマイクロアレイがM×Nのプローブセル(スポットとしても知られている)からなる場合には、疑似画像もまた、M×Nのセルからなり、各セルはそれぞれ対応する差の値を備えている。図13に示すように、疑似画像は、各セルが差の値Δz,Δz,Δz,Δz,Δz,…を備えた画像である。疑似画像は表示装置に表示してもよいが、それは任意である。
【0028】
疑似画像における小領域の予め決定した数のセルに対応する予め決定したサイズの窓が用意される。図12に示すように、窓は疑似画像上を1セル毎移動しながら、前記所定数のセルの差の値に基づく各窓の代表値を逐次計算して、窓の代表値のセットを取得する(図14 S4)。図12は移動する窓の概要を示すが、窓の移動(走査)方向は疑似画像上の水平方向、垂直方向を含むいかなる方向でもよい。図13に示すように、窓Wは、疑似画像上をセル毎に水平に移動する(Wt, Wt+1, Wt+2….)。窓の代表値はプロセッサによって計算され、記憶装置に格納される。
【0029】
本発明の窓アルゴリズムすなわち窓操作は、それ自体は画像処理における近傍処理すなわち局所オペレーションと類似している。すなわち、疑似画像における各セルCに着目し、疑似画像におけるセルCを含む近傍(小領域)の代表値を計算する。しかしながら、本発明に係る窓操作では、セルCの値を代表値で更新する必要はない。本発明においては、窓操作の目的は疑似画像における小領域を代表する値を取得することである。また、本発明では、セルCは必ずしも、窓すなわち小領域の中央に位置する必要はない。各小領域におけるセルCの位置は小領域内で予め決定したいかなる位置でもよい。
【0030】
窓、すなわち予め決定した数のセルからなる小領域、を代表する値(representative value)は、平均、メディアン、最頻値を含む代表値(measure
of central tendency)である。好ましい態様では、代表値は、メディアン、トリム平均、あるいは重み付け平均である。1つの態様では、小領域(窓)のサイズは、3×3〜10×10セルである。1つの好ましい態様では、小領域(窓)のサイズは、5×5セルである。図13において、窓Wは5×5セルの小領域に対応している。疑似画像の25個のセルの代表値(例えば、メディアン)が取得され、取得された値は着目した窓(小領域)を代表する。小領域(例えば、5×5セル)の代表値は、窓Wを疑似画像上で1セル毎に移動させながら計算される。各窓(小領域)について取得された代表値は、記憶装置に格納される。窓の代表値の計算は、疑似画像の表示装置への実際の表示を要しない。
【0031】
ここで、DNAマイクロアレイのプローブセルは、たとえDNAマイクロアレイの隣り合うプローブセルであったとしても、生物学的意義はないようにランダムに配置されているので、窓(予め決められた数のセルからなる小領域)を代表する値は中心極限定理にしたがって正規分布するはずである。
【0032】
窓を代表する値のセットを標準化して代表値のzスコアを取得し、棄却限界値と比較する(図14 S5)。この代表値のzスコアは、予め設定した棄却限界値すなわちカットオフ値(これらはzスコアとして用意される)と比較する際の指標となる。代表値を標準化する際に、代表値セットの分布の幅(width)を取得する必要がある。幅は差の値のセットの分布の幅から間接的に取得してもよい。差の値の分布の幅を取得し、取得した幅を補償係数で補正する。補償係数は代表値によって異なり得る。例えば、代表値が平均の場合には、補償係数は1√nである。補償係数はモンテカルロ法のようなシミュレーションを用いて取得してもよい。代表値セットの分布のwidthは分布から直接取得してもよい。例えば、IQR(Interquartile Range)やMAD(Mean Absolute Deviation)を分布の幅として用いても良い。幅は代表値セットのQ-Qプロットを近似する直線回帰の傾きから取得してもよい。幅は様々な実測に基づいて予め決定してもよい。具体的には、様々な計測から取得した幅のセットを用意し、このセットの最頻値を予め決定した幅として用いても良い。代表値セットの標準化に標準偏差を用いても良い。
【0033】
可能性のある欠陥セル値を含む1つあるいは複数の窓が、指標の予測される正規分布に基づいて予め決定された棄却限界値と各指標値とを比較することで検出される。その指標値が予め決定した棄却限界値を越える窓は、欠陥セル値を含む小領域であるとみなされる(図14 S6)。棄却限界値は、正規分布にしたがってオペレータにより予めzスコアとして決定される。例えば、理想的な正規分布から2つの窓をキャンセルしたい場合には、zスコアとして4.61が予め決定され得る。しかしながら、4.61の棄却限界値が設定された場合には、2つより多い窓が通常検出される。
【0034】
検出された1つあるいは複数の窓の全てのセル値がキャンセルすなわち棄却される(図14 S7)。例えば、窓が25のセル(5×5)に対応する場合には、1つの窓につき25個のセルが廃棄される。もし2つの検出された窓が離隔している場合には、50個のセル値が廃棄される。もし、2つの検出された窓が5×4で重複する場合には、5×6セルの領域が廃棄領域となる。棄却後に残ったデータおよび/あるいは棄却されたデータは、例えば、図表やプローブセルのアレイ画像といった様々な形式で表示装置に表示させてもよい。あるいは、検出された1つあるいは複数の窓のセル値をキャンセルする代わりに補正してもよい。
【0035】
本発明の典型的な実施形態では、予め決定された1つのサイズの窓が用いられる。しかしながら、他の実施形態では、予め決定された異なるサイズの窓を用いても良い。例えば、3×3セルに対応する1つの窓と、7×7セルに対応するもう1つの窓を用い、結果を統合する。すなわち、2つの代表値のセットに基づいて窓が検査される。検出された窓が異なるサイズの窓の結果の間で比較され、重複するセルがキャンセルされる。例えば、検出された窓が完全に重複する場合には、3×3セルのセルデータが棄却される。
【0036】
続く章では、問題を見出して取り除くアルゴリズムについて説明する。問題は、データ分布の手段によって生物学的影響から識別される。アルゴリズムは幾つかの実証可能な仮定に基づいており、これらの仮定の妥当性は、結果の章において、限定しない例示としてのGeneChipデータを用いてテストされた。アルゴリズムの有効性及びデータキャンセルの効果は一連の実験から取得されたGeneChipデータを用いてテストされた。本アルゴリズムは、測定の再現性を大きく向上させ、また、欠陥の無いデータはほんの少ししか除去されないことを示した。
【0037】
B 具体的な手法及び実験
B−1 アルゴリズム
マイクロアレイ問題を同定するための提案する手法は、以降パラメトリックスキャニングアルゴリズム(parametric scanning algorithm)と呼び、以下に説明する。
【0038】
本発明は、データ分布の特徴に基づいて欠陥を検出するパラメトリックスキャニングアルゴリズムを提供する。窓アルゴリズムを用いてセルデータ全体が走査され、棄却限界値(閾値としても知られる)を超える指標値を備えた窓は欠陥として認識され、アレイデータから除去される。指標は、ターゲットと複数の実験におけるトリム平均として得られた理想的基準との差から求められ、各区域における複数の差の統計的中心を表す。閾値はオペレータによって指定されたスクリーニングレベルで導出されるが、データのキャンセルについては限定的な影響しか持たない。
【0039】
基準となる理想的なアレイが選択され、各チップにおいて特有の区域のサイズを代表する指標が決定される。基準に比べて閾値よりも大きい指標を備えた領域が問題領域として認識される。
【0040】
基準(standard)は、複数のハイブリダイゼーションにおけるトリム平均のセットとして得られる。実験結果は、それぞれのメディアン値(PMセルおよびMMセルを含む)を割ることで標準化され、対数を取る。アレイの各セルのデータのトリム平均が計算され、結果として得られた平均のセットがハイブリダイゼーションの理想的な基準として採用される。もし、平均が、十分に大きい数のアレイデータを用いて計算されれば、値は安定的であり基準として適切であると考えることができる。理想的な基準においては特別な分布は期待されない。
【0041】
単純に標準化されたアレイデータと基準との差が各セルについて取得される。これらの差は、生物学的応答及び実験ノイズの両方を表しているであろう。差の分布は概ね正規分布することが予測される。なぜなら、適切に計測されかつ標準化された生物学的変化の対数は正規分布に従うからである。差は、分布パラメータのロバストなエスティメータを用いてz標準化され、分布は、quantile-quantile(Q-Q)プロット上でチェックされる。差の標準化は差の特徴の分析のためのものであり、本発明においては任意の工程である。
【0042】
指標は、アレイ上の窓内の複数のセルに対応する複数の近傍セルにおける差のz標準化された値のメディアンを用いて得られる。差のマトリックスは、チップの物理的な並びを反映するように再配置され、チップの疑似画像に亘って走査するようにシミュレートする移動窓によってデータが収集され、メディアンを求める。窓のメディアンは生物学的応答に対してロバストである。なぜなら、チップ上の隣接するセルは生物学的関係を有していないからである。対照的に、窓においてシグナルを隠したり追加したりする実験上の問題は窓のメディアンに影響を与え得る。窓のメディアンは、中心極限定理により特徴付けられる効果にしたがって、厳密な意味で正規分布に従うであろう。このモデルは問題についての特定の分布は期待しないが、影響を受けた窓はマトリックスメディアンの正規分布における外れ値を生成するであろう。
【0043】
指標は、マトリックスメディアンを標準化することで得られる。標準化には困難が伴う。なぜなら、マトリックスメディアンの分布の幅(width)は問題に対してロバストとは言えないからである。実際、幅は、問題の数の増加に伴って増加し得る。もし、分布が単純にz標準化されれば、認識される問題の数は低減されるであろう。しかしながら、この影響は、複数のセルの差の分布の幅から幅を見出すことによって容易に避けられる。原則として、25個のセルの窓の平均の現研究では、0.25の幅が予測された。ここで、セルの差の分布の幅は問題に対してロバストである。なぜなら、多くの問題が外れ値を生成するものの、これらは中心クオンタイル(the central quantiles)の分布に影響を与えないからである。実際には、セルの分布は完全な正規分布ではなく、データにおけるシステマティックな加法的ノイズに起因するロングテールを有する。しかしながら、適切な幅は、適切なクオンタイル(quantiles)からロバストに見積もることができる。結果として、指標の分布の幅をセルの分布に従って見積もることで問題の影響を排除することができる。システマティックノイズおよびハイブリダイゼーション問題は補償係数0.25を幾分大きい値に変化させ得る。本記述では、実際の測定の最頻値から得られた定数0.31が用いられ、この値は多くの問題の影響を受けたであろう多くの他の値よりも小さい(図1)。全ての指標はこの定数で割ることで調整、すなわち標準化される。
【0044】
閾値は、他の統計テストにおけるスクリーニングレベルと同様に、操作に先立って分析によって決定されたテストレベルから導出される。データハンドリングのパラメトリック特性は、50万の結果から幾つの指標が多いか(少ないか)を見積もることを可能とする。プログラムは、オペレータに幾つの窓を予測するかを尋ねる。もし、アレイがプロブレムフリーであれば、予測される窓の数はチップ上の生物学的応答のランダム近傍によって認識される。実際には、影響を受けた指標は正規分布には従わず、閾値を越える値を取るであろう。
【0045】
B−2 プログラム
パラメトリックスキャニング手法のプログラムは関数Rの形式で提供される。関数はBioC(http://www.bioconductor.org/)から入手可能なライブラリ“affy”を必要とする。アウトソーシングサービスは、データ標準化の部分において利用可能である(http://www.super-norm.com)。
【0046】
B−3 データソース及びデータ処理
シロイヌナズナGeneChipデータはTAIR(http://www.arabidopsis.org/index.jsp)から取得した。ハイブリダイゼーションの理想的な基準の比較に用いた2つの研究グループの葉データは、発現マップを描くのに用いたロゼッタ葉の15個のアレイ(Schmid, M., Davison, T. S., Henz,
S. R., Pape, U. J., Demar, M., Vingron, M., Scholkopf, B., Weigel, D., and
Lohmann, J., A gene expression map of Arabidopsis development. Nature Genetics
37:501-506, 2005)、及び、Dr.F.Ausubelグループの感染実験における0.5〜5日後のコントロール植物の18個のアレイ(http://www.arabidopsis.org/index.jsp)である。ヒューマンデータは、パブリックドメインリソースRCAST, University of Tokyo(http://www.genome.rcast.u-tokyo.ac.jp/normal/)から得た。アレイのPMデータは、3パラメータ手法(Konishi, T., Three-parameter lognormal distribution ubiquitously found
in cDNA microarray data and its application to parametric data treatment. BMC
Bioinformatics, 5:5, 2004)にしたがって標準化した。
【0047】
C 結果
C−1 仮説の検証
C−1−1 ハイブリダイゼーション基準の安定性
本手法は、各データを、サンプル組織の安定したパターンを表すべきであるハイブリダイゼーションの理想的な基準と比較する。もし、パターンが本当に安定的であるならば、パターンは、同一の組織についての異なるデータセットを用いて決定された他の基準のパターンと一致するであろう。この一致を確認するため、2つの研究グループからのデータを用いて取得した基準を比較した。両グループは、葉のトランスクリプトームを決定し、一方は植物のatlasの部分であり、他方は感染実験のコントロールである。基準は、メディアンを用いて標準化された(median-normalized)対数データのトリム平均として取得した。結果を、1000個の対応するセルデータについて散布図上で比較した(図2)。研究所間の一致が確認された。他の幾つかの研究所間及び研究所内の比較でも同様の一致を提示した。このような一致は偶然で得られたものではない。例えば、異なる組織から得た基準は、異なる傾向を有し、プロットにおいてより広い散在として現れる。このような傾向は、基準の組織依存性を示し、このことは本プログラムの実際の使用において注目されるべきである。
【0048】
C−1−2 アレイデータと基準の差の正規性
提案の手法は、各データとハイブリダイゼーションの理想的な基準との差がだいたいにおいて正規分布するであろうことを仮定している。この仮定はデータ分布のQQプロットによって確認された。分布は、システマティック加法的ノイズを反映するであろうロングテールを有している。しかしながら、全ての分布は、−1.5から1.5において理論値と一致しており(図3A、3B、3C)、85%を超えるデータが正規分布に従うことが示されている。問題及びノイズが分布に影響を与えるため、多くの問題を備えたハイブリダイゼーションは図3C(ATGE 14C)の場合に見られるように、より狭い範囲で一致している。
【0049】
C−1−3 指標の分布の正規性
本発明はまた、移動する窓のメディアンから導出された指標が、大きな問題が無い場合には正規分布するであろうということを仮定している。この仮定は、QQプロットによって確認された(図4A、4B、4C)。観測された分布は、中心極限定理から予測されたように、だいだい正規分布となっている。多くのハイブリダイゼーション(図1)から決定した標準偏差0.31は、分布の幅およびプロット(図4A、4B)の傾きを良好に補償することができる。予測されたように、分布の幅は問題の厳しさと共に増加した(図4C ATGE 14C)。
【0050】
C−2 本手法の確認
C−2−1 繰り返し実験における再現性の向上
もしパラメトリックスキャニングが効果的にデータから問題を除去するのであれば、繰り返し実験において見られるばらつきを低減するはずである。この効果をシロイヌナズナの葉(http://www.arabidopsis.org/index.jsp)に基づいた繰り返し実験のセットを用いてチェックした。データのキャンセルの前後において、PMデータは3パラメータ手法に基づくSuperNORM(登録商標)アルゴリズムを用いて標準化した。結果として得られたzスコアは散布図(図5)上で比較され、提案手法はプロットにおいて見られる拡散(図5左)を低減させ、期待した再現性を獲得できることが示された(図5中央)。
【0051】
他の統計的テストでは、パラメトリックスキャニングによってクリーンで欠陥のないデータのキャンセルも見られた。ある意味、これは、統計的テスト手段によって何かを見つけるために必要なコストである。しかしながら、本アルゴリズムにおいて、キャンセルされたクリーンデータの数は多くはない。キャンセルされたデータの特性は実験の再現性からチェックした(図5右)。プロット上のデータの数はハイブリダイゼーションの品質が劣化するにしたがって増加する。キャンセルされたデータはy=x線に対して狭く集中するのではなく、逆に分散した(図5右)。多くのセルデータがキャンセルされた場合にのみ一致が見られ(図5右下)、y=x線上に集中するデータはキャンセルされたデータの限定された部分に過ぎない。
【0052】
図5に示す実験例において、ばらつきが大きいものもある。これらの実験例は多くの試験における例外ではない。図6は、異なる期待値の下でのキャンセルデータを比較したものである。図6のデータソースは以下のとおりである:□(Schmid, M., Davison, T. S., Henz, S.
R., Pape, U. J., Demar, M., Vingron, M., Scholkopf, B., Weigel, D., and
Lohmann, J., A gene expression map of Arabidopsis development. Nature
Genetics 37:501-506, 2005); ○(http://www.arabidopsis.org/index.jsp); △(Ge, X., Yamamoto, S., Tsutsumi,
S., Midorikawa, Y., Ihara S., Wang S., Aburatani H., Interpreting expression
profiles of cancers by genome-wide survey of breadth of expression in normal
tissues, Genomics. 86:127-141, 2005.).極端な実験例は外れ値から取られていないことがわかる。
【0053】
ペアのハイブリダイゼーションの対応するPMセルのzスコアの差の標準偏差の低減から再現性の向上をチェックした。加法的ノイズおよび測定の飽和の影響を最小化するため、標準偏差は標準化された値(0〜1)を用いて計算された。影響は散布図(図7)上でチェックされ、パラメトリックスキャニングは得られたzスコア間の差における標準偏差を低減させることが示された。
【0054】
C−2−2 他のアルゴリズムとの比較
新たらしい実験データではなく同じアレイのセットについてdChipパッケージにおける他の手法を用いて処理することで、本手法を評価した。dChipによって認識された全てのスパイク(spikes)及び外れ値(outliers)がPM-onlyモデルを用いてキャンセルされ、データは同一の手法で標準化された。図8に示すように、dChipはより低い再現性を示し(図8左)、低い検出能力を示している。このことはdChipが欠陥のあるデータを保持することを意味するものではなく、幾つかの遺伝子(全体の0.004〜6.4%)についての全体のセルのセットをキャンセルするものであり、これに対してパラメトリックスキャンでは完全にキャンセルされた遺伝子は1つもない。このような遺伝子においては、いかなる情報も分析のために保持されない。表1はセルの全体がキャンセルされた遺伝子の数を示す(単位は%)。
【表1】

【0055】
C−2−3 閾値パラメータの感度
各ハイブリダイゼーションにおいて実際にキャンセルされたデータ数は、オペレータによって決定された試験レベルの閾値パラメータに明確に依存するものではなかった。棄却されたデータの数は、閾値パラメータから推測された期待数よりもより多く、2つの窓の50個のセルが期待された場合であっても、全セル数(数万)の四分の一にまで達した。しかしながら、キャンセルされたセルの数は、期待では2から20へ増加するとした場合であっても、10倍増加することはなかった。期待数と実際にキャンセルされた数との関係は、キャンセルされたデータ数が増加するだけ弱くなる。3つの異なる研究所から取得したデータを処理することは、2つの期待数でキャンセルされた窓間の安定した関係を示唆している(図7)。プロットにおいて(1.7, 2.7)で現れた期待数は、推測された関係を満たしていることに着目される(図7)。
【0056】
キャンセルされたデータの数はハイブリダイゼーションの品質に依存し得る。大きな問題が見つかった時にキャンセルの数がより多く観測される(図5)。キャンセルされた窓はしばしばチップにおいてクラスタを形成し、クラスタ内に単一の原因があることを示唆する(図9)。このようなクラスタは、期待パラメータの値によらず見られる。キャンセルの頻度および面積は、異なる研究所から得られたデータ間で異なった(図6)。ある特定の研究所(図における△)におけるデータは他の研究所からのデータに比べて明らかに大きい。多くのクラスタは、チップ表面のポリッシング(polishing)や不均一なハイブリダイゼーションを表している。問題の頻度における差は、研究所および準備の時間によって異なるであろうウェット実験におけるプロトコールおよびスキルに起因しがちである。これらの問題は、高い指標値によって強調され、期待数がより少ない時であっても厳しい欠陥セルの場合には、多くのキャンセルされた窓を生成する。
【0057】
上記結果は、期待値パラメータの値に対してパラメトリックスキャニングが影響を受けにくいことを示し、すなわち、提案手法は問題検出に関して正確さを備えている。このような不感応は、本アルゴリズムの客観性を意味している。なぜなら、閾値がオペレータの選択の影響を受ける唯一のパラメータであるからである。
【0058】
上記の見解に基づいて、提案手法は、標準化に先立った全てのGeneChip発現データにおいての実際の使用として奨励される。本手法における仮定は、データ分布の分析を通して実証され、任意のパラメータのみが結果に限定的な影響を与えうることが示された。さらに、多くの追加実験を通して(記載せず)、パラメータスキャニング手法がハイブリダイゼーション問題を排除することに有効であることがわかった。本手法の妥当性は、ソフトウェアによって提供されるチェックプロセスのための必要なデータを備えることで、全ての分析においてチェックすることができる。キャンセルされたデータの数は常に期待数よりも多く、このことは殆どのハイブリダイゼーションは何等かの問題を有していることを示唆している。
【0059】
検出された問題は、表面ポリッシング、不均一なハイブリダイゼーション、作製されたセル構造におけるエラー、を示すパターンを有している。チップの中央を囲む対称状のクラスタ(図9右下)はポリッシングアーチファクト(polishing artifacts)と同定される。このような場合、影響を受けた領域におけるシグナルは常に低く、したがって期待値に対して不感応である。表面ポリッシングの程度が進んだ場合には、共通のドーナツ様のクラスタパターンを形成する。対照的に、不定形のクラスタは不均一なハイブリダイゼーションを示す傾向にある。クラスタ内において、データは増加あるいは減少する傾向にあり、実験的な再現性を伴う散布図における拡散を生成するであろう(図5)。このような不均一は幾つかの原因から派生すると考えられ、幾つかの特有の区域は期待値に対して不感応であるが、そうでないものもある(図9 ATGE_14_C)。感度における差は、欠陥の大きさにおける差に対応する。より小さいクラスタあるいは孤立した窓として検出された欠陥はダストにより形成されたものであり得る。再度述べるが、特徴は特異的であるものもあるが、そうでないものもある。チップ構造におけるエラーは、多数のチップの同じ部分における繰り返しのクラスタとして認識され、しばしば直線によって囲まれた規則的な形状を形成する。問題によって引き起こされたものもあり得るが、これらの欠陥の多くは問題ではなく、設計されチップ上に配置されたセルを制御し、同じバッチ番号(すなわち、同じ製造ロット)の全てのチップに現れる。このような問題は品質管理においては検出されないプロダクトエラーによって引き起こされ得るものであり、深刻な問題をもたらし得る。図5に示す場合において、大きい上向きの拡散はこのような欠陥に起因するものである(図9 左下)。
【0060】
提案手法はマイクロアレイデータ分析におけるフォルスポジティブを低減する。このようなエラーはマイクロアレイ分析に特有なものではなく、マイクロアレイを用いて実施される多重のテストがエラーの重大性を増加させる。ほんの限られた数の遺伝子プロダクトを測定する従来手法に対して、特徴的に異なる分析ターゲットを生成するマイクロアレイや他のポストゲノム分析の広範囲に亘って多重性(Multiplicity)が了解されている。過度の多重比較において、多数のフォルスポジティブは分析を妨げ、研究所間および研究所内において観測の矛盾を生成する。例えば、1%の確率のtype-Iエラーを許容すると、50万回の両面テストは10000個のエラーを生成する。ハイブリダイゼーション問題を無視することは、この期待を大きく向上させるであろう(図5)。また、このような問題はデータの標準化および遺伝子の要約データに影響を与えるであろう。したがって、ハイブリダイゼーション問題を検出し標準化の前に排除する必要がある。提案手法はハイブリダイゼーションの欠陥のない領域からクリーンデータを取り出し、キャンセル後に残ったデータを標準化してさらなる分析に用いることができる。残ったデータセットは再現性実験における対応する対とのだいだいの一致を示した(図5中央)。アレイにおける遺伝子および/あるいはアレイ全体をキャンセルするアドホックな手法と比較して全体としての実験コストを低減することができる。
【0061】
Rプログラムは、ハイブリダイゼーションの理想的な基準の発見における組織の影響を受け得る。すなわち、基準は、サンプルにおける細胞の差異にしたがって変化し得る。このような影響は、異なる組織における多数のアレイと共に少数のアレイを処理する場合に起こり得る。また、4個よりも少ないアレイを用いてデータを処理することは薦められない。基準が安定ではないと考えられるからである。基準の安定性は、図2に示す手法を用いてチェックすることができ、組織の影響は、図9に見られるキャンセルされた窓のクラスタを生成することなくキャンセル数が著しく増加することにより気付くことができる。このような問題は、認識処理と独立させて基準を見出すことによって防ぐことができる。実際には、理想的な基準を発見するためには2つの代替的手法が採用され得る。多くのアレイの多様な組織からランダムに選択されたサンプルを用いる、あるいは、組織特異基準を見出し、これを対応するアレイに用いる。
【産業上の利用可能性】
【0062】
本発明は、例えばmRNAレベルの測定やSNPsを発見することを含むヌクレオチドハイブリダイゼーションの検出のためのマイクロアレイ分析に用いることができる。

【特許請求の範囲】
【請求項1】
DNAマイクロアレイから取得されたセル値のセットからなるターゲットDNAマイクロアレイデータを用意するステップ;
基準値のセットからなる基準データを用意するステップであって、各基準値は前記DNAマイクロアレイデータの各セル値に対応しており;
DNAマイクロアレイデータの各セル値と前記基準データの各基準値との差の値を取得するステップ;
前記DNAマイクロアレイデータの各セル値を各差の値で置き換えて疑似画像を取得するステップ;
前記疑似画像において予め決定された数のセルに対応する小領域を代表する値を、当該予め決定された数のセルの差の値に基づいて計算するステップであって、前記小領域を前記疑似画像上で1セルずつ移動させながら前記計算を繰り返して小領域を代表する値のセットを取得するステップ;
前記代表値のセットの期待される正規分布と前記代表値のセットの分布との比較に基づいて外れ代表値を含む1つまたは複数の小領域を検出するステップであって、前記検出された1つまたは複数の小領域は欠陥セル値を含んでいる;
DNAマイクロアレイデータにおける欠陥の検出方法。
【請求項2】
前記ターゲットDNAマイクロアレイデータ及び前記基準データは標準化されている、請求項1に記載の方法。
【請求項3】
前記セル値及び前記基準値は対数値である、請求項1、2いずれかに記載の方法。
【請求項4】
前記基準値は、複数の標準化されたDNAマイクロアレイデータから取得した各セル値を代表する値である、請求項1に記載の方法。
【請求項5】
前記複数の標準化されたDNAマイクロアレイデータは、前記ターゲットDNAマイクロアレイデータと同じタイプのDNAマイクロアレイデータから取得される、請求項4に記載の方法。
【請求項6】
前記基準値のための前記複数の標準化されたDNAマイクロアレイデータは、同じ組織に基づいて取得される、請求項4、5いずれかに記載の方法。
【請求項7】
前記基準値のための前記複数の標準化されたDNAマイクロアレイデータは、複数の異なる組織に基づいて取得される、請求項4、5いずれかに記載の方法。
【請求項8】
前記各セルを代表する値は、代表値(measure of central tendency)である、請求項4乃至7いずれかに記載の方法。
【請求項9】
前記代表値(measure of central tendency)は、メディアン、トリム平均、あるいは、重み付け平均である、請求項8に記載の方法。
【請求項10】
前記小領域のサイズは、3セル×3セル〜10セル×10セルである、請求項1乃至9いずれかに記載の方法。
【請求項11】
前記小領域を代表する値は、代表値(measure of central tendency)である、請求項1乃至10いずれかに記載の方法。
【請求項12】
前記代表値(measure of central tendency)は、メディアン、トリム平均、あるいは、重み付け平均である、請求項11に記載の方法。
【請求項13】
前記検出ステップは、
前記小領域を代表する値のセットを標準化して指標のセットを取得するステップと、
前記指標のセットの期待される正規分布に基づいて予め決定した棄却限界値を超える指標を備えた1つあるいは複数の小領域を検出するステップと、
を備えた請求項1に記載の方法。
【請求項14】
前記指標及び前記棄却限界値はzスコアである、請求項13に記載の方法。
【請求項15】
さらに、前記検出された1つあるいは複数の小領域に属する複数のセルのセル値を棄却するステップを含む、請求項1乃至14いずれかに記載の方法。
【請求項16】
請求項1乃至15いずれかに記載の方法をコンピュータに実行させるためのコンピュータプログラム。
【請求項17】
DNAマイクロアレイから取得されたセル値のセットからなるターゲットDNAマイクロアレイデータを用意するステップ;
基準値のセットからなる基準データを用意するステップであって、各基準値は前記DNAマイクロアレイデータの各セル値に対応しており;
DNAマイクロアレイデータの各セル値と前記基準データの各基準値との差の値を取得するステップ;
前記DNAマイクロアレイデータの各セル値を各差の値で置き換えて疑似画像を取得するステップ;
前記疑似画像において予め決定された数のセルに対応する小領域を代表する値を、当該予め決定された数のセルの差の値に基づいて計算するステップであって、前記小領域を前記疑似画像上で1セルずつ移動させながら前記計算を繰り返して小領域を代表する値のセットを取得するステップ;
前記代表値のセットの期待される正規分布と前記代表値のセットの分布との比較に基づいて外れ代表値を含む1つまたは複数の小領域を検出するステップであって、前記検出された1つまたは複数の小領域は欠陥セル値を含んでいる;
前記検出された1つまたは複数の小領域に属する全てのセルのセル値を廃棄する;
DNAマイクロアレイデータにおける欠陥の検出・除去方法。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図3C】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図4C】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公表番号】特表2010−510557(P2010−510557A)
【公表日】平成22年4月2日(2010.4.2)
【国際特許分類】
【出願番号】特願2009−520720(P2009−520720)
【出願日】平成19年11月15日(2007.11.15)
【国際出願番号】PCT/JP2007/072605
【国際公開番号】WO2008/062855
【国際公開日】平成20年5月29日(2008.5.29)
【出願人】(306024148)公立大学法人秋田県立大学 (74)
【Fターム(参考)】