ＤＮＡマイクロアレイデータにおける欠陥を検出する方法

マイクロアレイデータの不均一なハイブリダイゼーションやダストコンタミネーションによって引き起こされる問題を排除する。ＤＮＡマイクロアレイデータの各セル値と対応する基準データの各基準値との差の値を取得する。ＤＮＡマイクロアレイデータの各セル値を前記差の値で置き換えることで疑似画像を取得する。疑似画像における所定数のセルに対応する窓を用意する。窓を疑似画像上で順次移動させながら各窓のメディアン値を計算して窓の代表値のセットを取得する。棄却限界値を超える指標を有する１つあるいは複数の窓が検出される。検出された窓のセルが廃棄される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ＤＮＡマイクロアレイデータにおけるハイブリダイゼーション問題を検出する方法に関するものである。
【背景技術】
【０００２】
ハイブリダイゼーションはマイクロアレイ分析の基礎であり、広く利用されているが、技術的な問題が無いわけではない。例えば、ハイブリダイゼーションが、チップ画像の中心の周りにドーナツ様の幾何パターンを形成することがある。このようなパターンは、ダスト混入に起因する表面スクラッチと同様に表れ、往々にしてチップのある領域における低減したシグナルをもたらす。このような問題を認識する分析プログラムが提案されてはいるものの、この手法は、大きな欠陥が存在する場合にはアレイチップデータ全体をキャンセルすることになってしまって破滅的である。dChipパッケージは、モデルベースのデータ標準化において外れ値(outliers)を認識して除去する自動アルゴリズムを実行する。このアルゴリズムは、各遺伝子のパーフェクトマッチ(PM)プローブとミスマッチ(MM)プローブの間の応答におけるパターンを見出し、結果として得られるパターンと一致しないセルとプローブセットを外れ値(outliers)と認定する。しかしながら、この手法は、生物ファンダメンタルズとデータの組み合わせの単純な観点から導かれた一連の数学モデルに基づくものである。さらに、ノイズを扱うパラメータを不可避的に含むこのモデルは、いかに実験システムを適切に表しているかを示す客観的指標が無いため、このモデル及び計算手法の妥当性を厳格にチェックすることが困難である。
【０００３】
ハイブリダイゼーションの欠陥の認識がアドホックに行われている理由の１つは、このような問題がたとえチップ面積の大きな部分に見られたとしても、トランスクリプトレベルを反映するシグナル、すなわちスケール(scaled)されたプローブ値には影響を与えないと信じられていることである。また、GeneChip（登録商標）では、トランスクリプトは、隣り合うPMセルとMMセルとからなる１０個程度のペアによって測定され、このペアはチップ全体に亘って分散している。したがって、失敗は関連するペアのＰＭプローブ及びＭＭプローブの両方において同時に起こり、１つの遺伝子について１つより多いプローブペアが失敗することがない。シグナルは、異なる原理に基づく幾つもの計算アルゴリズムによって見出されるが、多くはプローブ失敗に起因する外れ値(outliers)に着目している。例えば、Affymetrix MAS5はプローブペア間の重み付け平均としてシグナルを見出し、RMAはPM値のメディアンポリッシュ(median polish)によってシグナルを見つける。
【０００４】
シグナルデータにおける正確性の低下を防止するためには分析前にこのような問題を認識してデータから取り除くことが望ましい。重み付け平均やメディアンは、外れ値(outliers)が同じ頻度で両方向（すなわち、ポジティブ及びネガティブ）に生じる場合にのみロバストである。問題の殆どは原因を反映する外れ値(outliers)を生成するため、実際にはそのようなことは稀である。例えば、問題が蛍光材料により引き起こされた場合には明るいスポットが現れ、チップ表面が損傷している場合には暗いスポットが現れる。これらの欠陥のタイプは、計算のロバスト性を損ねることで結果に影響を与える。ターゲットが遺伝子ではなくセルデータの場合には、mRNAの変異体の処理を分析する場合と同じように、このような欠陥は分析に直接影響を与える。マイクロアレイ準備問題は、GeneChipデータの高度な分析について障壁を呈することになる。
【発明の概要】
【発明が解決しようとする課題】
【０００５】
上述のとおり、マイクロアレイデータは不均一なハイブリダイゼーションやダストコンタミネーションによって引き起こされる問題をしばしば含んでいる。分析精度の劣化や結果的なフォルスポジティブを防止するためには、分析に先立ってこのような問題を取り除く必要がある。
【課題を解決するための手段】
【０００６】
本発明は、ハイブリダイゼーションの理想的な基準に対する各アレイの比較におけるセルデータの局所傾向(local tendency)として問題を見出す手法を追求するものである。データの標準化の前に、問題として認識された位置のセルはキャンセルされる。このキャンセルはアレイデータの元の分布に影響を与えない。なぜなら、キャンセルはシグナル強度に対して独立しているからである。結果として、残ったデータは分析に用いることができる。
【０００７】
本発明の１つの態様では、ＤＮＡマイクロアレイデータにおける欠陥の検出方法は、
ＤＮＡマイクロアレイから取得されたセル値のセットからなるターゲットＤＮＡマイクロアレイデータを用意するステップ；
基準値のセットからなる基準データを用意するステップであって、各基準値は前記ＤＮＡマイクロアレイデータの各セル値に対応しており；
ＤＮＡマイクロアレイデータの各セル値と前記基準データの各基準値との差の値を取得するステップ；
前記ＤＮＡマイクロアレイデータの各セル値を各差の値で置き換えて疑似画像を取得するステップ；
前記疑似画像において予め決定された数のセルに対応する小領域を代表する値を、当該予め決定された数のセルの差の値に基づいて計算するステップであって、前記小領域を前記疑似画像上で１セルずつ移動させながら前記計算を繰り返して小領域を代表する値のセットを取得するステップ；
前記代表値のセットの期待される正規分布と前記代表値のセットの分布との比較に基づいて外れ代表値を含む１つまたは複数の小領域を検出するステップであって、前記検出された１つまたは複数の小領域は欠陥セル値を含んでいる；
からなる。
【０００８】
１つの好ましい態様では、ターゲットＤＮＡマイクロアレイデータ及び基準データは標準化されている。具体的には、セル値及基準値は対数値である。
【０００９】
１つの好ましい態様では、基準値は標準化された複数のＤＮＡマイクロアレイデータから取得した各セルを代表する値である。１つの態様では、各セルを代表する値は、平均、メディアン、最頻値を含む代表値（a measure of central tendency）である。好ましい例では、代表値は、トリム平均、メディアン、または重み付け平均である。
【００１０】
複数の標準化されたＤＮＡマイクロアレイデータは、ターゲットＤＮＡマイクロアレイデータと同じタイプのＤＮＡマイクロアレイによって取得される。前記複数のＤＮＡマイクロアレイデータは、例えば、６セット〜１０セットのＤＮＡマイクロアレイデータである。１つの態様では、前記基準データのためのＤＮＡマイクロアレイデータセットは、同じ組織に基づいて取得される。１つの態様では、前記基準データのためのＤＮＡマイクロアレイデータセットは複数の異なる組織に基づいて取得される。後者において、好ましくは、異なる多様な組織について多くのＤＮＡマイクロアレイデータが用意される。
【００１１】
１つの態様では、窓、すなわち小領域、のサイズは、３×３セル〜１０×１０セルである。１つの好ましい態様では、窓、すなわち小領域のサイズは５×５セルである。１つの態様では、窓を代表する値は、各セルの差の値の代表値(a measure of central tendency)である。具体的には、代表値はメディアン、トリム平均、あるいは重み付け平均である。
【００１２】
１つの好ましい態様では、小領域を代表する値のセットは標準化されて指標のセットが取得され、前記指標のセットの期待される正規分布に基づいて予め決定した棄却限界値を超える指標を備えた１つあるいは複数の小領域が検出される。
【００１３】
１つの態様では、前記指標及び前記棄却限界値はｚスコアである。
【００１４】
１つの態様では、検出された１つあるいは複数の窓に属するセルのセル値が棄却される。
【００１５】
本発明は、上記ＤＮＡマイクロアレイデータにおける欠陥を検出するための方法をコンピュータに実行させるためのコンピュータプログラムに関する。
【００１６】
本発明は、上記ＤＮＡマイクロアレイデータにおける欠陥を検出し、欠陥を取り除くための方法をコンピュータに実行させるためのコンピュータプログラムに関する。
【００１７】
本発明は、上記プログラムを格納するコンピュータ可読媒体に関する。
【図面の簡単な説明】
【００１８】
【図１】図１は移動窓のメディアンの標準偏差のヒストグラムである。最頻値は0.31であり、期待値0.25よりも大きかった。
【図２】図２は、２つの異なる研究所で分析された葉の理想的な基準の２つのセットの一致を示す。
【図３Ａ】ハイブリダイゼーションと基準との差の分布を示す。直線ｙ＝ｘは正規分布を示す。データはプロットの中心でより密となっている2.3%、0.1%、0.003%のデータのみが2、3、4よりも大きいｚスコアを有している。
【図３Ｂ】ハイブリダイゼーションと基準との差の分布を示す。直線ｙ＝ｘは正規分布を示す。データはプロットの中心でより密となっている2.3%、0.1%、0.003%のデータのみが2、3、4よりも大きいｚスコアを有している。
【図３Ｃ】ハイブリダイゼーションと基準との差の分布を示す。直線ｙ＝ｘは正規分布を示す。データはプロットの中心でより密となっている2.3%、0.1%、0.003%のデータのみが2、3、4よりも大きいｚスコアを有している。
【図４Ａ】指標値の分布を示す。
【図４Ｂ】指標値の分布を示す。
【図４Ｃ】指標値の分布を示す。
【図５】繰り返し実験における再現性を示す。実験の組み合わせが各列に示してある。左:オリジナルデータ、中央：残ったデータ、右：キャンセルされたデータである。指示されたアレイのペアからランダムに選択されたPMデータ(n＝10000)が示してある。キャンセルの期待値は２窓である。
【図６】図６は、期待値窓が２つ及び２０（それぞれ５０および５００セル）における複数のキャンセルされたデータを示す。
【図７】図７は再現性測定におけるセルデータの差の標準偏差を示す。
【図８】図８は、dChipパッケージによって処理されたデータの再現性を示す。PM-onlyモデルを用いた結果を示す。対応するオリジナルデータは図５（左）に示してある。左：残ったデータ、右：キャンセルされたデータ、を示す。指示されたアレイのペアからランダムに選択されたPMデータ(n＝10000)を示す。
【図９】図９は、チップにおけるキャンセルされた窓の位置を示す。指示された期待値での４つの典型的な実験結果を示す。左上：比較的少ない数のキャンセルを備えたハイブリダイゼーション、右上：不均一なハイブリダイゼーション、左下：直線状の境界を備えた規則的な形状、右下：対称的な位置のクラスタ。
【図１０】図１０は基準データの生成を示す図である。
【図１１】図１１はＤＮＡマイクロデータと基準データとの差の値の取得を示す図である。
【図１２】図１２は疑似画像上の窓の走査を示す図である。
【図１３】図１３は疑似画像に設けた本発明の窓を示す図である。
【図１４】図１４は本発明を説明するフローチャートである。
【発明を実施するための形態】
【００１９】
Ａ本発明の一般的な記載
不均一なハイブリダイゼーションやダストコンタミネーションにより引き起こされる問題を検出し除去する方法について、図１０乃至１４に基づいて説明する。
【００２０】
本発明の方法を実行するためのハードウェア構成は、図示しないコンピュータ装置であり、当該コンピュータ装置は、入力装置、出力装置、表示装置、ハードディスク、記憶装置、コンピュータ可読媒体、あるいは他の記憶手段であり得る格納装置、そして、プロセッサを含む。測定データや計算データを含む本発明の数々のデータは、記憶装置に格納される。数々の計算は、プロセッサによって実行される。選択的に、測定データや計算データを含む数々のデータが数々の形式で表示装置に表示されてもよい。
【００２１】
ターゲットＤＮＡマイクロアレイデータが用意される（図１４Ｓ１）。ターゲットＤＮＡマイクロアレイデータは、セル値のセットである。ターゲットＤＮＡマイクロアレイデータは、当初は、ＤＮＡマイクロアレイのプローブセルのシグナル強度のセットとして得られる。１つの好ましい態様では、各セル値は、対数を取り、対数値をｚ標準化することで得られる標準化された対数値（ｚスコア）である。メディアン基づく(median-based)標準化が用いられる。ターゲットＤＮＡマイクロアレイデータは、記憶装置に格納される。
【００２２】
基準データ(standard data)が用意される。基準データは基準値のセットである。各基準値は、ＤＮＡマイクロアレイの各プローブセルに対応している。基準値は、仮想データ(hypothetical data)、ないし参照データ(reference data)であり、基準値のセットは、典型的には、計算結果によって得られる。理想的には、基準データは、最も平均的な値あるいは最もありそうな(most probable)値である期待される仮想値のセットである。典型的には、基準値セットは、ターゲットＤＮＡマイクロアレイデータのｚ標準化セル値に対応するようにｚスコアとして用意される。基準データは、記憶装置に格納される。
【００２３】
図１０に示すように、１つの態様では、基準データは、同じタイプのターゲットＤＮＡマイクロアレイから取得した複数の標準化データセット（例えば、６〜１０セット）から取得される。各基準値は、前記複数の標準化データセットの各セル値を代表する値を計算することで取得される。典型的には、前記代表する値は、平均、メディアン、最頻値を含む代表値(measure of central tendency)である。好ましい態様では、代表値は、トリム平均、メディアン、重み付け平均である。１つの好ましい態様では、基準データは、ターゲットＤＮＡマイクロアレイデータに用いられた組織と同じ組織についての標準化された複数のＤＮＡマイクロアレイデータセットから取得される。基準データのために用いられる組織は、同じ組織に限定はされない。代替的に、基準データは、様々な異なる組織についての多数の標準化されたＤＮＡマイクロアレイデータセットの代表値（たとえば、トリム平均、メディアン、重み付け平均）から取得することができる。メディアン基づく(median-based)標準化が用いられ得る。もし、ターゲットＤＮＡマイクロアレイデータがGeneChipデータの場合には、基準データも複数のGeneChipデータから作成されることが望ましい。もし、全く欠陥やエラーがない完全なＤＮＡマイクロアレイデータが存在すれば、１つのＤＮＡマイクロアレイデータを基準データとして用いることもできる。
【００２４】
基準データは、実測に基づいて得られたものに限定されない。基準データの各基準値は同じ値でもよい。基準データの各基準値は０でもよい。この場合、差の値とターゲットＤＮＡマイクロアレイデータの各セル値は同じである。あるいは、基準値は、小さい分散を伴った疑似ランダム数のセットでもよい。
【００２５】
ターゲットＤＮＡマイクロアレイデータ及び基準データの標準化手法は、メディアンに基づく(median-based)手法に限定されない。標準化されたデータを（典型的にはｚスコア）両者間で比較可能とする他の手法が用いられ得る。例えば、標準化として、３パラメータ手法(Konishi, T., Three-parameter lognormal distribution ubiquitously
found in cDNA microarray data and its application to parametric data treatment.
BMC Bioinformatics, 5:5, 2004, 参照により本明細書に組み込まれる)を用いることができる。この段階では、３パラメータ手法によるバックグランド値を無視してもよい。当業者に知られている他の標準化手法も用いられ得る。
【００２６】
図１１に示すように、ターゲットＤＮＡマイクロアレイデータの各セル値と基準データの各基準値の差の値が取得される(図１４Ｓ２)。この段階において、大きい差の値をキャンセルすることはできない。なぜなら、大きい差の値は、生物学的に意味のある値であるかも知れないからである。差の値は、基準値に対する各セル値の比を含んでいても良い。差の値は、プロセッサによって計算され、記憶装置に格納される。各差の値は、ＤＮＡマイクロアレイの各セルに対応している。
【００２７】
ＤＮＡマイクロアレイデータの各セル値を差の値で置き換えることで疑似画像を取得する(図１４Ｓ３)。すなわち、もしＤＮＡマイクロアレイがM×Nのプローブセル（スポットとしても知られている）からなる場合には、疑似画像もまた、M×Nのセルからなり、各セルはそれぞれ対応する差の値を備えている。図１３に示すように、疑似画像は、各セルが差の値Δｚ_１,Δｚ_２,Δｚ_３,Δｚ_４,Δｚ_５,…を備えた画像である。疑似画像は表示装置に表示してもよいが、それは任意である。
【００２８】
疑似画像における小領域の予め決定した数のセルに対応する予め決定したサイズの窓が用意される。図１２に示すように、窓は疑似画像上を１セル毎移動しながら、前記所定数のセルの差の値に基づく各窓の代表値を逐次計算して、窓の代表値のセットを取得する(図１４Ｓ４)。図１２は移動する窓の概要を示すが、窓の移動（走査）方向は疑似画像上の水平方向、垂直方向を含むいかなる方向でもよい。図１３に示すように、窓Ｗは、疑似画像上をセル毎に水平に移動する(W_t, W_t+1, W_t+2….)。窓の代表値はプロセッサによって計算され、記憶装置に格納される。
【００２９】
本発明の窓アルゴリズムすなわち窓操作は、それ自体は画像処理における近傍処理すなわち局所オペレーションと類似している。すなわち、疑似画像における各セルＣに着目し、疑似画像におけるセルＣを含む近傍（小領域）の代表値を計算する。しかしながら、本発明に係る窓操作では、セルＣの値を代表値で更新する必要はない。本発明においては、窓操作の目的は疑似画像における小領域を代表する値を取得することである。また、本発明では、セルＣは必ずしも、窓すなわち小領域の中央に位置する必要はない。各小領域におけるセルＣの位置は小領域内で予め決定したいかなる位置でもよい。
【００３０】
窓、すなわち予め決定した数のセルからなる小領域、を代表する値(representative value)は、平均、メディアン、最頻値を含む代表値(measure
of central tendency)である。好ましい態様では、代表値は、メディアン、トリム平均、あるいは重み付け平均である。１つの態様では、小領域（窓）のサイズは、３×３〜１０×１０セルである。１つの好ましい態様では、小領域（窓）のサイズは、５×５セルである。図１３において、窓Ｗは５×５セルの小領域に対応している。疑似画像の２５個のセルの代表値（例えば、メディアン）が取得され、取得された値は着目した窓（小領域）を代表する。小領域（例えば、５×５セル）の代表値は、窓Ｗを疑似画像上で１セル毎に移動させながら計算される。各窓（小領域）について取得された代表値は、記憶装置に格納される。窓の代表値の計算は、疑似画像の表示装置への実際の表示を要しない。
【００３１】
ここで、DNAマイクロアレイのプローブセルは、たとえDNAマイクロアレイの隣り合うプローブセルであったとしても、生物学的意義はないようにランダムに配置されているので、窓（予め決められた数のセルからなる小領域）を代表する値は中心極限定理にしたがって正規分布するはずである。
【００３２】
窓を代表する値のセットを標準化して代表値のｚスコアを取得し、棄却限界値と比較する(図１４Ｓ５)。この代表値のｚスコアは、予め設定した棄却限界値すなわちカットオフ値（これらはｚスコアとして用意される）と比較する際の指標となる。代表値を標準化する際に、代表値セットの分布の幅(width)を取得する必要がある。幅は差の値のセットの分布の幅から間接的に取得してもよい。差の値の分布の幅を取得し、取得した幅を補償係数で補正する。補償係数は代表値によって異なり得る。例えば、代表値が平均の場合には、補償係数は１√nである。補償係数はモンテカルロ法のようなシミュレーションを用いて取得してもよい。代表値セットの分布のwidthは分布から直接取得してもよい。例えば、IQR(Interquartile Range)やMAD(Mean Absolute Deviation)を分布の幅として用いても良い。幅は代表値セットのQ-Qプロットを近似する直線回帰の傾きから取得してもよい。幅は様々な実測に基づいて予め決定してもよい。具体的には、様々な計測から取得した幅のセットを用意し、このセットの最頻値を予め決定した幅として用いても良い。代表値セットの標準化に標準偏差を用いても良い。
【００３３】
可能性のある欠陥セル値を含む１つあるいは複数の窓が、指標の予測される正規分布に基づいて予め決定された棄却限界値と各指標値とを比較することで検出される。その指標値が予め決定した棄却限界値を越える窓は、欠陥セル値を含む小領域であるとみなされる(図１４Ｓ６)。棄却限界値は、正規分布にしたがってオペレータにより予めｚスコアとして決定される。例えば、理想的な正規分布から２つの窓をキャンセルしたい場合には、ｚスコアとして4.61が予め決定され得る。しかしながら、4.61の棄却限界値が設定された場合には、２つより多い窓が通常検出される。
【００３４】
検出された１つあるいは複数の窓の全てのセル値がキャンセルすなわち棄却される(図１４Ｓ７)。例えば、窓が２５のセル(５×５)に対応する場合には、１つの窓につき２５個のセルが廃棄される。もし２つの検出された窓が離隔している場合には、５０個のセル値が廃棄される。もし、２つの検出された窓が５×４で重複する場合には、５×６セルの領域が廃棄領域となる。棄却後に残ったデータおよび／あるいは棄却されたデータは、例えば、図表やプローブセルのアレイ画像といった様々な形式で表示装置に表示させてもよい。あるいは、検出された１つあるいは複数の窓のセル値をキャンセルする代わりに補正してもよい。
【００３５】
本発明の典型的な実施形態では、予め決定された１つのサイズの窓が用いられる。しかしながら、他の実施形態では、予め決定された異なるサイズの窓を用いても良い。例えば、３×３セルに対応する１つの窓と、７×７セルに対応するもう１つの窓を用い、結果を統合する。すなわち、２つの代表値のセットに基づいて窓が検査される。検出された窓が異なるサイズの窓の結果の間で比較され、重複するセルがキャンセルされる。例えば、検出された窓が完全に重複する場合には、３×３セルのセルデータが棄却される。
【００３６】
続く章では、問題を見出して取り除くアルゴリズムについて説明する。問題は、データ分布の手段によって生物学的影響から識別される。アルゴリズムは幾つかの実証可能な仮定に基づいており、これらの仮定の妥当性は、結果の章において、限定しない例示としてのGeneChipデータを用いてテストされた。アルゴリズムの有効性及びデータキャンセルの効果は一連の実験から取得されたGeneChipデータを用いてテストされた。本アルゴリズムは、測定の再現性を大きく向上させ、また、欠陥の無いデータはほんの少ししか除去されないことを示した。
【００３７】
Ｂ具体的な手法及び実験
Ｂ−１アルゴリズム
マイクロアレイ問題を同定するための提案する手法は、以降パラメトリックスキャニングアルゴリズム(parametric scanning algorithm)と呼び、以下に説明する。
【００３８】
本発明は、データ分布の特徴に基づいて欠陥を検出するパラメトリックスキャニングアルゴリズムを提供する。窓アルゴリズムを用いてセルデータ全体が走査され、棄却限界値（閾値としても知られる）を超える指標値を備えた窓は欠陥として認識され、アレイデータから除去される。指標は、ターゲットと複数の実験におけるトリム平均として得られた理想的基準との差から求められ、各区域における複数の差の統計的中心を表す。閾値はオペレータによって指定されたスクリーニングレベルで導出されるが、データのキャンセルについては限定的な影響しか持たない。
【００３９】
基準となる理想的なアレイが選択され、各チップにおいて特有の区域のサイズを代表する指標が決定される。基準に比べて閾値よりも大きい指標を備えた領域が問題領域として認識される。
【００４０】
基準(standard)は、複数のハイブリダイゼーションにおけるトリム平均のセットとして得られる。実験結果は、それぞれのメディアン値（ＰＭセルおよびＭＭセルを含む）を割ることで標準化され、対数を取る。アレイの各セルのデータのトリム平均が計算され、結果として得られた平均のセットがハイブリダイゼーションの理想的な基準として採用される。もし、平均が、十分に大きい数のアレイデータを用いて計算されれば、値は安定的であり基準として適切であると考えることができる。理想的な基準においては特別な分布は期待されない。
【００４１】
単純に標準化されたアレイデータと基準との差が各セルについて取得される。これらの差は、生物学的応答及び実験ノイズの両方を表しているであろう。差の分布は概ね正規分布することが予測される。なぜなら、適切に計測されかつ標準化された生物学的変化の対数は正規分布に従うからである。差は、分布パラメータのロバストなエスティメータを用いてｚ標準化され、分布は、quantile-quantile(Q-Q)プロット上でチェックされる。差の標準化は差の特徴の分析のためのものであり、本発明においては任意の工程である。
【００４２】
指標は、アレイ上の窓内の複数のセルに対応する複数の近傍セルにおける差のｚ標準化された値のメディアンを用いて得られる。差のマトリックスは、チップの物理的な並びを反映するように再配置され、チップの疑似画像に亘って走査するようにシミュレートする移動窓によってデータが収集され、メディアンを求める。窓のメディアンは生物学的応答に対してロバストである。なぜなら、チップ上の隣接するセルは生物学的関係を有していないからである。対照的に、窓においてシグナルを隠したり追加したりする実験上の問題は窓のメディアンに影響を与え得る。窓のメディアンは、中心極限定理により特徴付けられる効果にしたがって、厳密な意味で正規分布に従うであろう。このモデルは問題についての特定の分布は期待しないが、影響を受けた窓はマトリックスメディアンの正規分布における外れ値を生成するであろう。
【００４３】
指標は、マトリックスメディアンを標準化することで得られる。標準化には困難が伴う。なぜなら、マトリックスメディアンの分布の幅(width)は問題に対してロバストとは言えないからである。実際、幅は、問題の数の増加に伴って増加し得る。もし、分布が単純にｚ標準化されれば、認識される問題の数は低減されるであろう。しかしながら、この影響は、複数のセルの差の分布の幅から幅を見出すことによって容易に避けられる。原則として、２５個のセルの窓の平均の現研究では、0.25の幅が予測された。ここで、セルの差の分布の幅は問題に対してロバストである。なぜなら、多くの問題が外れ値を生成するものの、これらは中心クオンタイル(the central quantiles)の分布に影響を与えないからである。実際には、セルの分布は完全な正規分布ではなく、データにおけるシステマティックな加法的ノイズに起因するロングテールを有する。しかしながら、適切な幅は、適切なクオンタイル(quantiles)からロバストに見積もることができる。結果として、指標の分布の幅をセルの分布に従って見積もることで問題の影響を排除することができる。システマティックノイズおよびハイブリダイゼーション問題は補償係数0.25を幾分大きい値に変化させ得る。本記述では、実際の測定の最頻値から得られた定数0.31が用いられ、この値は多くの問題の影響を受けたであろう多くの他の値よりも小さい(図１)。全ての指標はこの定数で割ることで調整、すなわち標準化される。
【００４４】
閾値は、他の統計テストにおけるスクリーニングレベルと同様に、操作に先立って分析によって決定されたテストレベルから導出される。データハンドリングのパラメトリック特性は、５０万の結果から幾つの指標が多いか（少ないか）を見積もることを可能とする。プログラムは、オペレータに幾つの窓を予測するかを尋ねる。もし、アレイがプロブレムフリーであれば、予測される窓の数はチップ上の生物学的応答のランダム近傍によって認識される。実際には、影響を受けた指標は正規分布には従わず、閾値を越える値を取るであろう。
【００４５】
Ｂ−２プログラム
パラメトリックスキャニング手法のプログラムは関数Ｒの形式で提供される。関数はBioC(http://www.bioconductor.org/)から入手可能なライブラリ“affy”を必要とする。アウトソーシングサービスは、データ標準化の部分において利用可能である(http://www.super-norm.com)。
【００４６】
Ｂ−３データソース及びデータ処理
シロイヌナズナGeneChipデータはTAIR(http://www.arabidopsis.org/index.jsp)から取得した。ハイブリダイゼーションの理想的な基準の比較に用いた２つの研究グループの葉データは、発現マップを描くのに用いたロゼッタ葉の１５個のアレイ(Schmid, M., Davison, T. S., Henz,
S. R., Pape, U. J., Demar, M., Vingron, M., Scholkopf, B., Weigel, D., and
Lohmann, J., A gene expression map of Arabidopsis development. Nature Genetics
37:501-506, 2005)、及び、Dr.F.Ausubelグループの感染実験における0.5〜5日後のコントロール植物の１８個のアレイ(http://www.arabidopsis.org/index.jsp)である。ヒューマンデータは、パブリックドメインリソースRCAST, University of Tokyo(http://www.genome.rcast.u-tokyo.ac.jp/normal/)から得た。アレイのＰＭデータは、３パラメータ手法(Konishi, T., Three-parameter lognormal distribution ubiquitously found
in cDNA microarray data and its application to parametric data treatment. BMC
Bioinformatics, 5:5, 2004)にしたがって標準化した。
【００４７】
Ｃ結果
Ｃ−１仮説の検証
Ｃ−１−１ハイブリダイゼーション基準の安定性
本手法は、各データを、サンプル組織の安定したパターンを表すべきであるハイブリダイゼーションの理想的な基準と比較する。もし、パターンが本当に安定的であるならば、パターンは、同一の組織についての異なるデータセットを用いて決定された他の基準のパターンと一致するであろう。この一致を確認するため、２つの研究グループからのデータを用いて取得した基準を比較した。両グループは、葉のトランスクリプトームを決定し、一方は植物のatlasの部分であり、他方は感染実験のコントロールである。基準は、メディアンを用いて標準化された(median-normalized)対数データのトリム平均として取得した。結果を、1000個の対応するセルデータについて散布図上で比較した（図２）。研究所間の一致が確認された。他の幾つかの研究所間及び研究所内の比較でも同様の一致を提示した。このような一致は偶然で得られたものではない。例えば、異なる組織から得た基準は、異なる傾向を有し、プロットにおいてより広い散在として現れる。このような傾向は、基準の組織依存性を示し、このことは本プログラムの実際の使用において注目されるべきである。
【００４８】
Ｃ−１−２アレイデータと基準の差の正規性
提案の手法は、各データとハイブリダイゼーションの理想的な基準との差がだいたいにおいて正規分布するであろうことを仮定している。この仮定はデータ分布のQQプロットによって確認された。分布は、システマティック加法的ノイズを反映するであろうロングテールを有している。しかしながら、全ての分布は、−1.5から1.5において理論値と一致しており(図３Ａ、３Ｂ、３Ｃ)、85%を超えるデータが正規分布に従うことが示されている。問題及びノイズが分布に影響を与えるため、多くの問題を備えたハイブリダイゼーションは図３Ｃ(ATGE 14C)の場合に見られるように、より狭い範囲で一致している。
【００４９】
Ｃ−１−３指標の分布の正規性
本発明はまた、移動する窓のメディアンから導出された指標が、大きな問題が無い場合には正規分布するであろうということを仮定している。この仮定は、QQプロットによって確認された(図４Ａ、４Ｂ、４Ｃ)。観測された分布は、中心極限定理から予測されたように、だいだい正規分布となっている。多くのハイブリダイゼーション（図１）から決定した標準偏差0.31は、分布の幅およびプロット(図４Ａ、４Ｂ)の傾きを良好に補償することができる。予測されたように、分布の幅は問題の厳しさと共に増加した(図４Ｃ ATGE 14C)。
【００５０】
Ｃ−２本手法の確認
Ｃ−２−１繰り返し実験における再現性の向上
もしパラメトリックスキャニングが効果的にデータから問題を除去するのであれば、繰り返し実験において見られるばらつきを低減するはずである。この効果をシロイヌナズナの葉(http://www.arabidopsis.org/index.jsp)に基づいた繰り返し実験のセットを用いてチェックした。データのキャンセルの前後において、ＰＭデータは３パラメータ手法に基づくSuperNORM（登録商標）アルゴリズムを用いて標準化した。結果として得られたｚスコアは散布図(図５)上で比較され、提案手法はプロットにおいて見られる拡散（図５左）を低減させ、期待した再現性を獲得できることが示された（図５中央）。
【００５１】
他の統計的テストでは、パラメトリックスキャニングによってクリーンで欠陥のないデータのキャンセルも見られた。ある意味、これは、統計的テスト手段によって何かを見つけるために必要なコストである。しかしながら、本アルゴリズムにおいて、キャンセルされたクリーンデータの数は多くはない。キャンセルされたデータの特性は実験の再現性からチェックした（図５右）。プロット上のデータの数はハイブリダイゼーションの品質が劣化するにしたがって増加する。キャンセルされたデータはｙ＝ｘ線に対して狭く集中するのではなく、逆に分散した（図５右）。多くのセルデータがキャンセルされた場合にのみ一致が見られ（図５右下）、ｙ＝ｘ線上に集中するデータはキャンセルされたデータの限定された部分に過ぎない。
【００５２】
図５に示す実験例において、ばらつきが大きいものもある。これらの実験例は多くの試験における例外ではない。図６は、異なる期待値の下でのキャンセルデータを比較したものである。図６のデータソースは以下のとおりである:□(Schmid, M., Davison, T. S., Henz, S.
R., Pape, U. J., Demar, M., Vingron, M., Scholkopf, B., Weigel, D., and
Lohmann, J., A gene expression map of Arabidopsis development. Nature
Genetics 37:501-506, 2005); ○(http://www.arabidopsis.org/index.jsp); △(Ge, X., Yamamoto, S., Tsutsumi,
S., Midorikawa, Y., Ihara S., Wang S., Aburatani H., Interpreting expression
profiles of cancers by genome-wide survey of breadth of expression in normal
tissues, Genomics. 86:127-141, 2005.).極端な実験例は外れ値から取られていないことがわかる。
【００５３】
ペアのハイブリダイゼーションの対応するPMセルのｚスコアの差の標準偏差の低減から再現性の向上をチェックした。加法的ノイズおよび測定の飽和の影響を最小化するため、標準偏差は標準化された値(0〜1)を用いて計算された。影響は散布図（図７）上でチェックされ、パラメトリックスキャニングは得られたｚスコア間の差における標準偏差を低減させることが示された。
【００５４】
Ｃ−２−２他のアルゴリズムとの比較
新たらしい実験データではなく同じアレイのセットについてdChipパッケージにおける他の手法を用いて処理することで、本手法を評価した。dChipによって認識された全てのスパイク（spikes）及び外れ値（outliers）がPM-onlyモデルを用いてキャンセルされ、データは同一の手法で標準化された。図８に示すように、dChipはより低い再現性を示し（図８左）、低い検出能力を示している。このことはdChipが欠陥のあるデータを保持することを意味するものではなく、幾つかの遺伝子（全体の0.004〜6.4%）についての全体のセルのセットをキャンセルするものであり、これに対してパラメトリックスキャンでは完全にキャンセルされた遺伝子は１つもない。このような遺伝子においては、いかなる情報も分析のために保持されない。表１はセルの全体がキャンセルされた遺伝子の数を示す（単位は％）。
【表１】

【００５５】
Ｃ−２−３閾値パラメータの感度
各ハイブリダイゼーションにおいて実際にキャンセルされたデータ数は、オペレータによって決定された試験レベルの閾値パラメータに明確に依存するものではなかった。棄却されたデータの数は、閾値パラメータから推測された期待数よりもより多く、２つの窓の５０個のセルが期待された場合であっても、全セル数（数万）の四分の一にまで達した。しかしながら、キャンセルされたセルの数は、期待では２から２０へ増加するとした場合であっても、１０倍増加することはなかった。期待数と実際にキャンセルされた数との関係は、キャンセルされたデータ数が増加するだけ弱くなる。３つの異なる研究所から取得したデータを処理することは、２つの期待数でキャンセルされた窓間の安定した関係を示唆している（図７）。プロットにおいて(1.7, 2.7)で現れた期待数は、推測された関係を満たしていることに着目される(図７)。
【００５６】
キャンセルされたデータの数はハイブリダイゼーションの品質に依存し得る。大きな問題が見つかった時にキャンセルの数がより多く観測される（図５）。キャンセルされた窓はしばしばチップにおいてクラスタを形成し、クラスタ内に単一の原因があることを示唆する（図９）。このようなクラスタは、期待パラメータの値によらず見られる。キャンセルの頻度および面積は、異なる研究所から得られたデータ間で異なった（図６）。ある特定の研究所（図における△）におけるデータは他の研究所からのデータに比べて明らかに大きい。多くのクラスタは、チップ表面のポリッシング(polishing)や不均一なハイブリダイゼーションを表している。問題の頻度における差は、研究所および準備の時間によって異なるであろうウェット実験におけるプロトコールおよびスキルに起因しがちである。これらの問題は、高い指標値によって強調され、期待数がより少ない時であっても厳しい欠陥セルの場合には、多くのキャンセルされた窓を生成する。
【００５７】
上記結果は、期待値パラメータの値に対してパラメトリックスキャニングが影響を受けにくいことを示し、すなわち、提案手法は問題検出に関して正確さを備えている。このような不感応は、本アルゴリズムの客観性を意味している。なぜなら、閾値がオペレータの選択の影響を受ける唯一のパラメータであるからである。
【００５８】
上記の見解に基づいて、提案手法は、標準化に先立った全てのGeneChip発現データにおいての実際の使用として奨励される。本手法における仮定は、データ分布の分析を通して実証され、任意のパラメータのみが結果に限定的な影響を与えうることが示された。さらに、多くの追加実験を通して（記載せず）、パラメータスキャニング手法がハイブリダイゼーション問題を排除することに有効であることがわかった。本手法の妥当性は、ソフトウェアによって提供されるチェックプロセスのための必要なデータを備えることで、全ての分析においてチェックすることができる。キャンセルされたデータの数は常に期待数よりも多く、このことは殆どのハイブリダイゼーションは何等かの問題を有していることを示唆している。
【００５９】
検出された問題は、表面ポリッシング、不均一なハイブリダイゼーション、作製されたセル構造におけるエラー、を示すパターンを有している。チップの中央を囲む対称状のクラスタ（図９右下）はポリッシングアーチファクト(polishing artifacts)と同定される。このような場合、影響を受けた領域におけるシグナルは常に低く、したがって期待値に対して不感応である。表面ポリッシングの程度が進んだ場合には、共通のドーナツ様のクラスタパターンを形成する。対照的に、不定形のクラスタは不均一なハイブリダイゼーションを示す傾向にある。クラスタ内において、データは増加あるいは減少する傾向にあり、実験的な再現性を伴う散布図における拡散を生成するであろう（図５）。このような不均一は幾つかの原因から派生すると考えられ、幾つかの特有の区域は期待値に対して不感応であるが、そうでないものもある(図９ ATGE_14_C)。感度における差は、欠陥の大きさにおける差に対応する。より小さいクラスタあるいは孤立した窓として検出された欠陥はダストにより形成されたものであり得る。再度述べるが、特徴は特異的であるものもあるが、そうでないものもある。チップ構造におけるエラーは、多数のチップの同じ部分における繰り返しのクラスタとして認識され、しばしば直線によって囲まれた規則的な形状を形成する。問題によって引き起こされたものもあり得るが、これらの欠陥の多くは問題ではなく、設計されチップ上に配置されたセルを制御し、同じバッチ番号（すなわち、同じ製造ロット）の全てのチップに現れる。このような問題は品質管理においては検出されないプロダクトエラーによって引き起こされ得るものであり、深刻な問題をもたらし得る。図５に示す場合において、大きい上向きの拡散はこのような欠陥に起因するものである（図９左下)。
【００６０】
提案手法はマイクロアレイデータ分析におけるフォルスポジティブを低減する。このようなエラーはマイクロアレイ分析に特有なものではなく、マイクロアレイを用いて実施される多重のテストがエラーの重大性を増加させる。ほんの限られた数の遺伝子プロダクトを測定する従来手法に対して、特徴的に異なる分析ターゲットを生成するマイクロアレイや他のポストゲノム分析の広範囲に亘って多重性(Multiplicity)が了解されている。過度の多重比較において、多数のフォルスポジティブは分析を妨げ、研究所間および研究所内において観測の矛盾を生成する。例えば、1%の確率のtype-Iエラーを許容すると、５０万回の両面テストは10000個のエラーを生成する。ハイブリダイゼーション問題を無視することは、この期待を大きく向上させるであろう(図５)。また、このような問題はデータの標準化および遺伝子の要約データに影響を与えるであろう。したがって、ハイブリダイゼーション問題を検出し標準化の前に排除する必要がある。提案手法はハイブリダイゼーションの欠陥のない領域からクリーンデータを取り出し、キャンセル後に残ったデータを標準化してさらなる分析に用いることができる。残ったデータセットは再現性実験における対応する対とのだいだいの一致を示した(図５中央)。アレイにおける遺伝子および／あるいはアレイ全体をキャンセルするアドホックな手法と比較して全体としての実験コストを低減することができる。
【００６１】
Ｒプログラムは、ハイブリダイゼーションの理想的な基準の発見における組織の影響を受け得る。すなわち、基準は、サンプルにおける細胞の差異にしたがって変化し得る。このような影響は、異なる組織における多数のアレイと共に少数のアレイを処理する場合に起こり得る。また、４個よりも少ないアレイを用いてデータを処理することは薦められない。基準が安定ではないと考えられるからである。基準の安定性は、図２に示す手法を用いてチェックすることができ、組織の影響は、図９に見られるキャンセルされた窓のクラスタを生成することなくキャンセル数が著しく増加することにより気付くことができる。このような問題は、認識処理と独立させて基準を見出すことによって防ぐことができる。実際には、理想的な基準を発見するためには２つの代替的手法が採用され得る。多くのアレイの多様な組織からランダムに選択されたサンプルを用いる、あるいは、組織特異基準を見出し、これを対応するアレイに用いる。
【産業上の利用可能性】
【００６２】
本発明は、例えばmRNAレベルの測定やSNPsを発見することを含むヌクレオチドハイブリダイゼーションの検出のためのマイクロアレイ分析に用いることができる。

【特許請求の範囲】
【請求項１】
ＤＮＡマイクロアレイから取得されたセル値のセットからなるターゲットＤＮＡマイクロアレイデータを用意するステップ；
基準値のセットからなる基準データを用意するステップであって、各基準値は前記ＤＮＡマイクロアレイデータの各セル値に対応しており；
ＤＮＡマイクロアレイデータの各セル値と前記基準データの各基準値との差の値を取得するステップ；
前記ＤＮＡマイクロアレイデータの各セル値を各差の値で置き換えて疑似画像を取得するステップ；
前記疑似画像において予め決定された数のセルに対応する小領域を代表する値を、当該予め決定された数のセルの差の値に基づいて計算するステップであって、前記小領域を前記疑似画像上で１セルずつ移動させながら前記計算を繰り返して小領域を代表する値のセットを取得するステップ；
前記代表値のセットの期待される正規分布と前記代表値のセットの分布との比較に基づいて外れ代表値を含む１つまたは複数の小領域を検出するステップであって、前記検出された１つまたは複数の小領域は欠陥セル値を含んでいる；
ＤＮＡマイクロアレイデータにおける欠陥の検出方法。
【請求項２】
前記ターゲットＤＮＡマイクロアレイデータ及び前記基準データは標準化されている、請求項１に記載の方法。
【請求項３】
前記セル値及び前記基準値は対数値である、請求項１、２いずれかに記載の方法。
【請求項４】
前記基準値は、複数の標準化されたＤＮＡマイクロアレイデータから取得した各セル値を代表する値である、請求項１に記載の方法。
【請求項５】
前記複数の標準化されたＤＮＡマイクロアレイデータは、前記ターゲットＤＮＡマイクロアレイデータと同じタイプのＤＮＡマイクロアレイデータから取得される、請求項４に記載の方法。
【請求項６】
前記基準値のための前記複数の標準化されたＤＮＡマイクロアレイデータは、同じ組織に基づいて取得される、請求項４、５いずれかに記載の方法。
【請求項７】
前記基準値のための前記複数の標準化されたＤＮＡマイクロアレイデータは、複数の異なる組織に基づいて取得される、請求項４、５いずれかに記載の方法。
【請求項８】
前記各セルを代表する値は、代表値(measure of central tendency)である、請求項４乃至７いずれかに記載の方法。
【請求項９】
前記代表値(measure of central tendency)は、メディアン、トリム平均、あるいは、重み付け平均である、請求項８に記載の方法。
【請求項１０】
前記小領域のサイズは、３セル×３セル〜１０セル×１０セルである、請求項１乃至９いずれかに記載の方法。
【請求項１１】
前記小領域を代表する値は、代表値(measure of central tendency)である、請求項１乃至１０いずれかに記載の方法。
【請求項１２】
前記代表値(measure of central tendency)は、メディアン、トリム平均、あるいは、重み付け平均である、請求項１１に記載の方法。
【請求項１３】
前記検出ステップは、
前記小領域を代表する値のセットを標準化して指標のセットを取得するステップと、
前記指標のセットの期待される正規分布に基づいて予め決定した棄却限界値を超える指標を備えた１つあるいは複数の小領域を検出するステップと、
を備えた請求項１に記載の方法。
【請求項１４】
前記指標及び前記棄却限界値はｚスコアである、請求項１３に記載の方法。
【請求項１５】
さらに、前記検出された１つあるいは複数の小領域に属する複数のセルのセル値を棄却するステップを含む、請求項１乃至１４いずれかに記載の方法。
【請求項１６】
請求項１乃至１５いずれかに記載の方法をコンピュータに実行させるためのコンピュータプログラム。
【請求項１７】
ＤＮＡマイクロアレイから取得されたセル値のセットからなるターゲットＤＮＡマイクロアレイデータを用意するステップ；
基準値のセットからなる基準データを用意するステップであって、各基準値は前記ＤＮＡマイクロアレイデータの各セル値に対応しており；
ＤＮＡマイクロアレイデータの各セル値と前記基準データの各基準値との差の値を取得するステップ；
前記ＤＮＡマイクロアレイデータの各セル値を各差の値で置き換えて疑似画像を取得するステップ；
前記疑似画像において予め決定された数のセルに対応する小領域を代表する値を、当該予め決定された数のセルの差の値に基づいて計算するステップであって、前記小領域を前記疑似画像上で１セルずつ移動させながら前記計算を繰り返して小領域を代表する値のセットを取得するステップ；
前記代表値のセットの期待される正規分布と前記代表値のセットの分布との比較に基づいて外れ代表値を含む１つまたは複数の小領域を検出するステップであって、前記検出された１つまたは複数の小領域は欠陥セル値を含んでいる；
前記検出された１つまたは複数の小領域に属する全てのセルのセル値を廃棄する；
ＤＮＡマイクロアレイデータにおける欠陥の検出・除去方法。

【図１】

【図２】

【図３Ａ】

【図３Ｂ】

【図３Ｃ】

【図４Ａ】

【図４Ｂ】

【図４Ｃ】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【公表番号】特表２０１０−５１０５５７（Ｐ２０１０−５１０５５７Ａ）
【公表日】平成２２年４月２日（２０１０．４．２）
【国際特許分類】

【出願番号】特願２００９−５２０７２０（Ｐ２００９−５２０７２０）
【出願日】平成１９年１１月１５日（２００７．１１．１５）
【国際出願番号】ＰＣＴ／ＪＰ２００７／０７２６０５
【国際公開番号】ＷＯ２００８／０６２８５５
【国際公開日】平成２０年５月２９日（２００８．５．２９）
【出願人】（３０６０２４１４８）公立大学法人秋田県立大学 (74)
【Ｆターム（参考）】

[ Back to top ]

ＤＮＡマイクロアレイデータにおける欠陥を検出する方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ＤＮＡマイクロアレイデータにおける欠陥を検出する方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク