アレイデータ波補正の方法

【課題】アレイデータ波補正の方法を提供すること。
【解決手段】(a) 一組のプローブにハイブリダイズする試験試料および対照試料の実測ハイブリダイゼーションシグナルデータをセグメント化する工程、ここで各プローブは対照試料のプローブ結合セクションをカバーする；
(b) 各プローブについて、少なくとも1つのプローブ結合セクションを含む少なくとも1つのゲノム領域の少なくとも1つのGC含有量値を決定する工程；
(c) 説明変量として工程(b)において決定した少なくとも1つのGC含有量値、および応答変量として実測ハイブリダイゼーションシグナルデータを用いて多変量多項式回帰分析を行ない、各プローブについての予測ハイブリダイゼーションシグナルデータを得る工程；ならびに
(d) 実測ハイブリダイゼーションシグナルデータから予測ハイブリダイゼーションシグナルデータを差し引き、補正ハイブリダイゼーションシグナルデータを得る工程
を含む、ハイブリダイゼーションシグナルデータの波アーチファクトを補正する方法。

【発明の詳細な説明】
【技術分野】
【０００１】
発明の背景
本発明は、ハイブリダイゼーションシグナルデータの波（wave）アーチファクト（artifact）を補正する方法、および試験試料中のコピー数変動を同定する方法に関する。
【背景技術】
【０００２】
アレイ系技術は、ゲノム的現象およびエピゲノミック（epigenomic）な現象ならびにそれらのバリエーションの理解を大きく進歩させた。例えば比較ゲノムハイブリダイゼーション（CGH）は、コピー数変化に関連するゲノムの不均衡を分析するための有用なツールである。クロマチン免疫沈降とマイクロアレイ技術を合わせたChIP-chipは、タンパク質結合部位を同定するために使用され得る。アレイ系技術はまた、配列、ヌクレオチド多型、およびメチル化などの後成的修飾に関する核酸情報を収集するためにも使用され得る。
【０００３】
典型的に、これらの方法は、試験核酸試料を標識する工程、標識試料を固定プローブに、アレイ上でハイブリダイズさせる工程、アレイプローブにハイブリダイズした標識試験核酸により放出されるハイブリダイゼーションシグナルを検出する工程、およびさらなる特定の実験対象についてハイブリダイゼーションシグナルデータを解析する工程を含む。例えば、CGHは、差別的に標識された試験ゲノム試料および対照ゲノム試料を混合する工程、ならびに該混合物を目的のゲノム領域または全ゲノムにわたり得る所定のプローブのアレイにハイブリダイズさせる工程を含む。試験試料が、対照試料に対してコピー数変動（CNV）を何ら有さない場合、両方の試料についてのアレイハイブリダイゼーションシグナルは等しく、すなわち試験試料と対照試料の間の比は1となる。しかしながら、試験試料が、欠失または重複などのCNVを含む場合、試験試料に相関するハイブリダイゼーションシグナルは、CNVの性質に応じて、対照試料よりも低いかまたは高くなり、すなわち比は、＞1または＜1となる。従って、CGHは、1より大きいかまたは小さいシグナル比を有するゲノム領域を同定することにより、CNVを同定する（identify）ために使用され得る。
【０００４】
アレイ系分析の結果は、散布図としてグラフで表され得、各スポットは、ゲノム位置に対するシグナルを示し、解析を補助し得る。CGHの場合、結果は、ゲノム座標に沿って、試験試料と対照試料のハイブリダイゼーションデータの対数比、または個々のシグナルデータとしてプロットされ得る（図1）。CNVの非存在下では、比またはシグナル値は平坦なベースラインを形成する（図1）。平坦なベースラインからの偏差は、ゲノム挿入および欠失などのCNVを示す（図3、下パネル）。
【０００５】
近年、本発明者および他者（例えば、非特許文献１）は、アレイ系データの解析および解釈を妨げる技術的アーチファクトを同定した。具体的に、ゲノムDNAセグメントに沿ったlog2比プロフィールにおいて、自己相関波パターン、すなわち波様パターンを生じるハイブリダイゼーションシグナルの振動性の増加および減少、が実測され得る。これらの波様パターンは、ハイブリダイゼーションデータの解析を妨げ得る。
【０００６】
例えば、CGHについて、これらの波様パターンは、分析されるゲノムセグメントにおけるCNVの存在または非存在に関わらず、予測される平坦なベースラインプロフィールからの偏位を示す。これらの波アーチファクトは、使用されるゲノム試料またはハイブリダイゼーションアレイの種類とは無関係に生じる（非特許文献２）。波アーチファクトは、CGH分析中のCNVの効果的な同定を妨害する。
【０００７】
Marioni et al.には、バクテリア人工染色体マイクロアレイの波アーチファクトは、標的化ゲノムのGC含有量に相関することが報告された。しかしながら、Marioni et al.には、GC含有量について補正するのではなく、log2比-染色体位置プロットにLOWESS曲線をフィッティングさせることにより該アーチファクトを除去することが教示されている。van de Wiel et al.には、多変量回帰を用いて、CNVを有さないと思われる試料由来のlog比を使用する波アーチファクトの補正のための方法が報告された（非特許文献３）。しかしながら、この方法は、大きなセグメントシフトからの混乱（confounding）効果を説明していない。他者は、波アーチファクトの補正のためにGC含有量を考察した（非特許文献２；非特許文献４）。しかしながら、これらの方法はいずれも、大きなセグメントシフトが、GC含有量変動と波パターンの間の相関を混乱させて（confound）、結果を大きく歪め得る事実を説明していない。従って、波アーチファクトの除去のための利用可能な方法は、歪められた回帰による、かかるアーチファクトを導入し得るか、または「盲目」LOWESS平坦化により、真のCNVにより生じたシグナルを除去し得る。
【０００８】
従って、当該技術分野にはハイブリダイゼーションデータ解析を障害することなく、波アーチファクトを同定および除去する効果的な方法の大きなニーズが存在するままである。
【先行技術文献】
【非特許文献】
【０００９】
【非特許文献１】Marioni et al., Genome Biol. 8 (2007) R228
【非特許文献２】Diskin et al., Nucleic Acids Res. 36 (2008) e126
【非特許文献３】van de Wiel et al., Bioinformatics 25 (2009) 1099-1104
【非特許文献４】Lepretre et al., Nucleic Acids Research 38 (2010) e94
【発明の概要】
【発明が解決しようとする課題】
【００１０】
本発明の課題は、アレイデータ波補正の方法を提供することである。
【課題を解決するための手段】
【００１１】
即ち、本発明の要旨は、
〔１〕(a) 一組のプローブにハイブリダイズする試験試料および対照試料の実測ハイブリダイゼーションシグナルデータをセグメント化する工程、ここで各プローブは対照試料のプローブ結合セクションをカバーする；
(b) 各プローブについて、少なくとも1つのプローブ結合セクションを含む少なくとも1つのゲノム領域の少なくとも1つのGC含有量値を決定する工程；
(c) 説明変量として工程(b)において決定した少なくとも1つのGC含有量値、および応答変量として実測ハイブリダイゼーションシグナルデータを用いて多変量多項式回帰分析を行ない、各プローブについての予測ハイブリダイゼーションシグナルデータを得る工程；ならびに
(d) 実測ハイブリダイゼーションシグナルデータから予測ハイブリダイゼーションシグナルデータを差し引き、補正ハイブリダイゼーションシグナルデータを得る工程
を含む、ハイブリダイゼーションシグナルデータの波アーチファクトを補正する方法、
〔２〕ゲノム領域が、約50〜約1,000,000ヌクレオチド長である、〔１〕記載の方法、
〔３〕ゲノム領域が約572ヌクレオチド長である、〔１〕記載の方法、
〔４〕ゲノム領域が約60ヌクレオチド長である、〔１〕記載の方法、
〔５〕ゲノム領域の最適な大きさを実験的に決定する工程をさらに含む、〔１〕記載の方法、
〔６〕実測ハイブリダイゼーションシグナルデータが実験的に決定される、〔１〕記載の方法、
〔７〕試験試料および対照試料の実測ハイブリダイゼーションシグナルデータが、試験試料の対数シグナルおよび対照試料の対数シグナルを含む、〔１〕記載の方法、
〔８〕試験試料および対照試料の実測ハイブリダイゼーションシグナルデータが、試験試料および対照試料のハイブリダイゼーションシグナルデータの対数比を含む、〔１〕記載の方法、
〔９〕実測ハイブリダイゼーションシグナルデータが、比較ゲノムハイブリダイゼーションアッセイにおいて得られる、〔１〕記載の方法、
〔１０〕CGHセグメント化アルゴリズムを用いてデータがセグメント化される、〔９〕記載の方法、
〔１１〕(a) ハイブリダイゼーション中に、試験試料のプローブ結合セグメントをカバーする一組のプローブを提供する工程；
(b) プローブに、第一の標識で標識した対照試料および第二の標識で標識した試験試料を、実測ハイブリダイゼーションシグナルデータが得られるようにハイブリダイズさせる工程；
(c) 試験試料および対照試料の実測ハイブリダイゼーションシグナルデータをセグメント化する工程；
(d) 各プローブについて、少なくとも1つのプローブ結合セクションを含む少なくとも1つのゲノム領域の少なくとも1つのGC含有量値を決定する工程；
(e) 説明変量として工程(d)において決定したGC含有量値、および応答変量として実測ハイブリダイゼーションシグナルデータを使用して、多変量多項式回帰分析を行ない、各プローブについての予測ハイブリダイゼーションシグナルデータを得る工程；ならびに
(f) 実測ハイブリダイゼーションシグナルデータから予測ハイブリダイゼーションシグナルデータを差し引いて、補正ハイブリダイゼーションシグナルデータを得る工程
を含む、試験試料中のコピー数変動を同定する方法、
〔１２〕ゲノム領域が約50〜約1,000,000ヌクレオチド長である、〔１１〕記載の方法、
〔１３〕ゲノム領域が約572ヌクレオチド長である、〔１１〕記載の方法、
〔１４〕ゲノム領域が約60ヌクレオチド長である、〔１１〕記載の方法、
〔１５〕工程(c)〜(f)が、試験試料の対数シグナルおよび対照試料の対数シグナルを実測ハイブリダイゼーションシグナルデータとして用いて行なわれる、〔１１〕記載の方法
に関する。
【発明の効果】
【００１２】
本発明により、アレイデータ波補正の方法が提供される。
【図面の簡単な説明】
【００１３】
【図１】図1は、波アーチファクトのないゲノム座標に沿ったアレイハイブリダイゼーションシグナルデータを示す。
【図２】図2は、波アーチファクトを有するアレイハイブリダイゼーションシグナルデータを示す。
【図３】図3は、等式（4）をモデルとして用いた波アーチファクト補正の前後のハイブリダイゼーションシグナルデータを示す。
【図４】図4は、等式（4）をモデルとして用いた波アーチファクト補正の前後のハイブリダイゼーションシグナルデータを示す。上2つの点軌跡（track）はプローブにおける対数比を示す。2つの線軌跡は、セグメント化（segmentation）アルゴリズムによって作成され、CNVを同定するために使用されるセグメント平均を示す。下の点軌跡は256塩基対隣接領域内の対数GC含有量を示す。囲み領域は、波アーチファクト補正によって除かれるシフト（shift）を示す。
【図５】図5は、等式（4）をモデルとして用いた波アーチファクト補正の前後のハイブリダイゼーションシグナルデータを示す。上2つの点軌跡はプローブにおける対数比を示す。2つの線軌跡は、セグメント化アルゴリズムによって作成され、CNVを同定するために使用されるセグメント平均を示す。下の点軌跡は、256塩基対隣接領域内の対数GC含有量を示す。囲み領域は、波アーチファクト補正に影響されないシフトを示す。
【図６】図6A〜Cは、データうねり（waviness）スコア（図6A）、シグナルノイズ（図6B）、およびセグメント化（図6C）に対する波補正の効果を示す。
【図７】図7は、等式（4）をモデルとして用いた波アーチファクト補正の前後の、単一のチャネルデータ由来のハイブリダイゼーション対数シグナルを示す。最初と3番目の点軌跡は、補正前のCy3およびCy5チャネルの対数シグナルを示す。2番目と4番目の点軌跡は、補正後のCy3およびCy5チャネルの対数シグナルを示す。
【図８】図8は、1つのGC含有量因子（factor）および3つのGC含有量因子を用いた波アーチファクト補正の前後のハイブリダイゼーションシグナルデータを示す。上から：第1パネル：非補正データ；第2パネル：プローブでカバーされた領域内の、GC含有量のみを用いて補正されたデータ；第3パネル：プローブの256塩基対上流および下流の領域内のGC含有量のみを用いて補正されたデータ；第4パネル：プローブの256,000塩基対上流および下流の領域内のGC含有量のみを用いて補正されたデータ；第5パネル：等式（4）の回帰モデルでの、プローブでカバーされる領域内の、プローブの256塩基対上流および下流の領域内の、ならびにプローブの256,000塩基対上流および下流の領域内の、GC含有量を用いて補正されたデータ。
【図９】図9は、波アーチファクト補正方法におけるアルゴリズムの特徴2の使用を示す。上から：第1パネル：非補正データ；第2パネル：特徴2の適用なしで等式（4）を用いて補正されたデータ。補正は、大きなセグメントシフトの存在のためゆがんでいる；第3パネル：特徴2と一緒に等式（4）を用いて補正されたデータ。
【図１０】図10は、特許請求の範囲に記載の方法の可能な一態様の図式的表示を示す。Rmsd=二乗平均偏差。
【図１１】図11は、補正後のうねりスコアの減少を示す。プロット上の各点は個々のアレイに対応する。スコア1はうねりなしであり、1より大きい値はうねりを示すようにうねりスコアを標準化した。うねりスコアは、試験したすべてのアレイで減少し、最大減少は、最も高い初期うねりスコアを有するアレイで観察された。
【図１２】図12は、補正後のノイズスコアの減少を示す。プロット上の各点は個々のアレイに対応する。
【発明を実施するための形態】
【００１４】
簡単な概要
一般的に、本発明は、ハイブリダイゼーションシグナル解析を障害することなく、核酸のグアニン-シトシン（GC）含有量に基づいたアレイシグナルデータの自己相関波アーチファクトを補正する方法に関する。
【００１５】
第一の局面において、アレイシグナルデータにおける波アーチファクトを補正するための方法は、(a) 一組のプローブにハイブリダイズする試験試料および対照試料の実測ハイブリダイゼーションシグナルデータをセグメント化する工程（segmenting）、ここで各プローブは、対照試料のプローブ結合セクションをカバーする（cover）；(b) 各プローブについて、少なくとも1つのプローブ結合セクションを含む少なくとも1つのゲノム領域の少なくとも1つのGC含有量値を決定する工程；(c) 工程(b)において決定した少なくとも1つのGC含有量値を説明変量（explanatory variable）として使用して、かつ実測ハイブリダイゼーションシグナルデータを応答変量（response variable）として使用して、多変量多項式回帰分析を実施し、各プローブについての予測ハイブリダイゼーションシグナルデータを生成する工程；ならびに(d) 実測ハイブリダイゼーションシグナルデータから予測ハイブリダイゼーションシグナルデータを差し引き、補正ハイブリダイゼーションシグナルデータを得る工程を含む方法として要約される。
【００１６】
いくつかの態様において、工程(a)〜(d)は、染色体中の全プローブ由来の対数比、染色体中の最も長いセグメント中のプローブ由来の対数比およびセグメントシフト（segmental shift）を除去した染色体の全プローブ由来の対数比を含む実験的に決定された対数比の異なる組を使用して、数回実施される。各解析は、補正された対数比の候補の組を生じる。最終的な補正された対数比について、最小ノイズである候補の組、すなわち補正の最も強い形跡（evidence）を示し、セグメント平均からの平均二乗偏差によって測定された候補の組が選択される。
【００１７】
いくつかの態様において、ゲノム領域はプローブおよびプローブに隣接するさらなる領域にわたる（span）。
【００１８】
本明細書に記載される方法は、GCH、ChIP-chipおよびメチル化分析などのアレイ系ハイブリダイゼーション法を使用する遺伝学的研究および臨床診断などの種々の応用に有用である。
【００１９】
本発明のこれらおよび他の特徴、目的ならびに利点は、以下の記載からよりよく理解されよう。該記載において、添付の図面に対して参照がなされ、該図面は本発明の記載の一部を形成し、本発明の記載において、本発明の態様は、限定ではなく一例として示される。好ましい態様の記載は本発明の限定を意図せず、全ての変更、均等物および改変を包括する。そのため、本発明の範囲を解釈するためには、本明細書に記載される特許請求の範囲が参照されたい。
【００２０】
以下の詳細説明を考慮すると、本発明がよりよく理解され、上記のもの以外の特徴、局面および利点は明らかとなろう。かかる詳細説明は、以下の図面を参照する。
【００２１】
本発明は、種々の改変および代替形態が可能であるが、その例示的な態様を図面に一例として示し、本明細書に詳細に記載する。しかしながら、例示的な態様の記載は、本発明を、開示した特定の形態に限定することを意図せず、それどころか、その意図は、添付の特許請求の範囲に規定される本発明の範囲に含まれるすべての改変物、均等物および代替物を包含することであることを理解されたい。
【００２２】
好ましい実施形態の詳細説明
他に定義のない限り、本明細書で使用されるすべての科学技術用語は、本発明が関する分野の当業者に一般的に理解されているものと同じ意味を有する。本明細書に記載のものと類似した、または同等の任意の方法および材料が本発明の実施または試験において使用され得るが、好ましい方法および材料をここに記載する。
【００２３】
本発明は、アレイシグナルデータにおける波アーチファクトを補正するための方法に関する。本明細書で使用される場合、用語「波（wave）」または「波（wave）アーチファクト」は、研究下の現象に無関連の、染色体座標に沿ったハイブリダイゼーションデータの波状のデータプロフィールを示す。本発明は、波パターンアーチファクトが、分析されるゲノムの情報を用いて予測され得るという本発明者らの観察に関する。該情報は、各データ点について、波に応じて変化する3つの変数を含む。この情報は、GC含有量の影響を決定するための進んだモデル設計に使用される。この情報を用いたモデルは、大きなセグメントシフトによって引き起こされる問題を解決するためのデータのセグメント化を含む。
【００２４】
DNAをどのようにして調製したか、またはどのようなアレイがハイブリダイゼーション分析に使用されたかとは無関係に、本明細書に記載の方法は、試験試料および対照試料のハイブリダイゼーションデータをセグメント化する工程から始まる。当業者には、セグメント化を行なうためのアルゴリズムを使用することの有利な効率が認識されよう。例えば、CNVを見い出すために設計された任意のアレイCGHセグメント化アルゴリズムが、CGHデータをセグメント化するために使用され得る。i₁、i₁、・・・、i_m-1をセグメント化（segmentation）の区切り点（breakpoint）とし、さらに、i₀=1およびi_m=nと定義する。この表記法の下で、プローブi₀〜i_iは最初のセグメント（segment）を構成する。プローブi_s-1+1〜i_sは、s=2、・・・、m（式中、mは、染色体上に作成されたセグメントの総数である）の場合のs番目のセグメントを構成する。

をs番目のセグメントのセグメント平均とする。上記の表記法によれば、

【００２５】
GC含有量と波アーチファクト発生間の前述の関係のため、各プローブについて、所定のゲノム領域のGC含有量を決定する。本明細書で使用される場合、「GC含有量」は、ゲノム領域内のグアニン-シトシン対形成の数を意味する。GC含有量の決定に使用される各ゲノム領域は、特定のプローブの少なくともプローブ結合セクション（probe-binding section）、すなわち、ハイブリダイゼーション中にプローブにカバーされるゲノムのセクションを含む。したがって、ゲノム領域は、プローブ結合セクションのみからなるものであり得るか、または代替的に、ハイブリダイゼーション中にプローブにカバーされる塩基対と、プローブ結合セクションの両側に隣接するさらなる領域を含むものであり得る。ゲノム領域のサイズは、最適補正結果を得るために実験的に決定され得る。好ましい態様において、各プローブに対して1つより多くのゲノム領域が、GC含有量について、プローブにカバーされる領域ならびに近位および遠位の隣接領域がGC含有量の影響の評価に考慮されるように分析される。例えば、各側に0、256および256000塩基対を有するプローブにカバーされる領域がこの分析のために使用され得る。
【００２６】
X_ijを対数GC含有量またはプローブi,j=1、2、・・・、pのサイズl_jの隣接領域j内のGC含有量の線形変換の対数とする。上記の例示的な詳細に対応させると、p=3およびl₁=0、l₂=256、l₃=256000である。特定の一態様において、
X_ij=log₂(プローブi+2の隣接領域j内のGC塩基の割合)であり、
式中、X_ijは、プローブi周囲のゲノム領域内の相補DNA鎖間の水素結合の密度を表す。
【００２７】
X_ij=log₂(プローブi+2の隣接領域j内のGC塩基の割合)であり、
式中、X_ijは、プローブi周囲のゲノム領域内の相補DNA鎖間の水素結合の密度を表す。
【００２８】
種々の所定のゲノム領域の得られたGC含有量値は、次いで、多変量多項式回帰において説明変量として使用される。プローブ対数比は、応答変量として使用される。回帰分析により、各プローブにカバーされる領域およびその付近のGC含有量に基づいて、各プローブについて予測対数比のモデルが得られる。好ましい態様において、回帰は、モデルのパラメータを確認するために、実験的に決定されたハイブリダイゼーションシグナルデータの対数比の異なる組で行なわれる。かかる実験的に決定されたハイブリダイゼーションシグナルデータの対数比の組は、例えば、染色体におけるすべてのプローブからの対数比、染色体における最長セグメント内のプローブからの対数比、および事前にセグメントシフトを除去した染色体のすべてのプローブからの対数比を含む。一般に、モデルは、

で示され、
式中、Y_i^corrは、
うねりアーチファクトが存在しない場合の比率の値の対数であり、アーチファクト部分

は、X_i1、X_i2、・・・、 X_ip＋ランダム誤差項の多項式である。ここで、β₀、β₁、・・・、β_qは係数である。かかる多項式の具体的な例は、

である。
【００２９】
係数β₀、β₁、・・・、β_qは、いくつかの異なる方法で、（1）モデルを{Y_i、X_ij}，i=1、2、・・・、nにフィットさせることにより；（2）モデルを、染色体の最長セグメント内のすべてのプローブにわたって(run through)iを動かして、{Y_i、X_ij}にフィットさせることにより；および（3）モデルを、{Y_i⁰、X_ij}，i=1、2、・・・、n（式中、Y_i⁰は、プローブの対数比とそのセグメント平均

の差であり、ここで、s=1、2、・・・、mの場合、セグメントs内のプローブにわたってiを動かす）にフィットさせることにより決定され得る。
【００３０】
これらのデータから、β₀、β₁、・・・、β_qのいくつかの候補パラメータセットを用いてモデルが確立される。各パラメータセットを使用し、予測されるうねりベースライン{Y_i^GC}，i=1、2、・・・、nが確立される。次いで、実験的ハイブリダイゼーションシグナルデータを、予測されるうねりベースラインを実験的ハイブリダイゼーションシグナルデータから差し引くことにより補正し、等式（2）に示すようにして、補正されたハイブリダイゼーションシグナルデータを得る。いくつかの候補パラメータセットのそれぞれを補正に使用するので、この工程により、補正された対数比のいくつかの候補セットが得られる。次いで、補正された対数比のこれらの候補セットを比較する。ノイズが最小のセットを、補正された対数比の最終セットとして選択する。本明細書で使用される場合、「ノイズ」は、セグメントシフトが原因でないシグナルの変動を意味する。ノイズの大きさは、例えば、

で定義される、セグメント平均の平均二乗偏差によって測定され得る。
【００３１】
この等式において、

は、補正された対数比のセグメント平均であり、Y_iの代わりにY_i^corrにして等式（1）を用いて計算される。
【００３２】
上記のように、この新規な方法は2つの段階を含む。第1段階では、実験的ハイブリダイゼーションデータをモデルにフィットさせ、関連パラメータを決定する。第2段階では、第1段階で決定されたパラメータを有するモデルを、補正対象のハイブリダイゼーションデータセットに適用する。第1段階で使用した実験的ハイブリダイゼーションデータは補正対象のデータセット全体を含む必要はない、すなわち、補正対象のハイブリダイゼーションデータセットの一部分で充分である。実際、第1段階で使用される実験的ハイブリダイゼーションデータは、補正対象のハイブリダイゼーションデータセットの一部である必要はない。
【００３３】
本発明の一態様では、第1段階においてモデルパラメータを決定するために、実験的ハイブリダイゼーションデータの3つの異なるセットを使用する。例えば、補正対象の所定のデータセットについて、回帰に使用されるパラメータを決定するために、完全なセグメント化データセット、データセットの最長セグメント、およびセグメントシフトなしの完全なデータセットが使用され得る。それぞれがその独自のパラメータセットを有する3つのモデルすべてを、次いで、補正対象のデータセットに適用する。最良、すなわち「ノイズが最小の」アーチファクト補正を生じるモデルを補正に選択する。補正の質は、例えば、補正データの各候補について、非補正データからのセグメントを用いてセグメント平均から標準偏差（SD）を計算することにより評価され得る。任意に、補正データの候補は、SDを決定する前に再セグメント化され得る。SDが小さいほど、補正は良好である。
【００３４】
別の態様において、うねり補正アルゴリズムは、モデルパラメータを決定するためのさらなる測定基準（metric）を含む。例えば、本明細書において「うねりスコア（waviness score）」と称するうねりの基準を用いて、GC含有量と対数比または対数シグナル間の最良モデルが選択され得る。代替的に、またはさらに、本明細書において「ノイズスコア」と称するノイズの基準が、選択工程時に使用され得る。
【００３５】
したがって、記載の方法によって、単に波を平坦化するのではなく、データの固有の特性を用いて波アーチファクトをセグメント化し、補正することにより、セグメントシフトとうねりが識別される。記載の方法は、波パターンの予測のために異なる隣接領域からのGC含有量の情報を組み込むための多変量回帰を含み得る。さらに、記載の方法において、波パターンを予測するために使用されるデータセットは、補正対象のデータセットと異なり得る。前者は、潜在的に混乱性の（confounding）セグメントシフトを除去した、後者に由来するセットであり得るか、またはかかる混乱性のシフトを有しない後者のサブセットであり得る。
【００３６】
さらなる態様は以下の項目に含まれる。
1. （a）一組のプローブにハイブリダイズする試験試料および対照試料の実測ハイブリダイゼーションシグナルデータをセグメント化する工程、各プローブは対照試料のプローブ結合セクションをカバーする；
（b）各プローブについて、少なくとも1つのプローブ結合セクションを含む少なくとも1つのゲノム領域の少なくとも1つのGC含有量値を決定する工程；
（c）説明変量として工程（b）で決定された少なくとも1つのGC含有量値、および応答変量として実測ハイブリダイゼーションシグナルデータを用いて多変量多項式回帰分析を行ない、各プローブについて予測ハイブリダイゼーションシグナルデータを得る工程；ならびに
（d）予測ハイブリダイゼーションシグナルデータを、実測ハイブリダイゼーションシグナルデータから差し引き、補正ハイブリダイゼーションシグナルデータを得る工程
を含む、ハイブリダイゼーションシグナルデータの波アーチファクトの補正方法。
2. ゲノム領域が約50〜約1,000,000ヌクレオチド長である、項目1の方法。
3. ゲノム領域が約572ヌクレオチド長である、項目1の方法。
4. ゲノム領域が約60ヌクレオチド長である、項目1の方法。
5. さらに、ゲノム領域の最適サイズを実験的に決定する工程を含む項目1の方法。
6. 実測ハイブリダイゼーションシグナルデータが実験的に決定される、項目1の方法。
7. 試験試料および対照試料の実測ハイブリダイゼーションシグナルデータが、試験試料の対数シグナルおよび対照試料の対数シグナルを含む、項目1の方法。
8. 試験試料および対照試料の実測ハイブリダイゼーションシグナルデータが、試験試料および対照試料のハイブリダイゼーションシグナルデータの対数比を含む、項目1の方法。
9. 実測ハイブリダイゼーションシグナルデータが、比較ゲノムハイブリダイゼーションアッセイにおいて得られる項目1の方法。
10. データがCGHセグメント化アルゴリズムを用いてセグメント化される、項目9の方法。
11. 実測ハイブリダイゼーションシグナルデータがChIP-chipアッセイにおいて得られる、項目1の方法。
12. 実測ハイブリダイゼーションシグナルデータがDNAメチル化アレイアッセイにおいて得られる、項目1の方法。
13. （a）ハイブリダイゼーション中に、試験試料のプローブ結合セグメントをカバーする一組のプローブを提供する工程；
（b）プローブに、第1の標識で標識した対照試料と第2の標識で標識した試験試料を、実測ハイブリダイゼーションシグナルデータが得られるようにハイブリダイズさせる工程；
（c）試験試料および対照試料の実測ハイブリダイゼーションシグナルデータをセグメント化する工程；
（d）各プローブについて、少なくとも1つのプローブ結合セクションを含む少なくとも1つのゲノム領域の少なくとも1つのGC含有量値を決定する工程；
（e）説明変量として工程（d）で決定されたGC含有量値、および応答変量として実測ハイブリダイゼーションシグナルデータを用いて多変量多項式回帰分析を行ない、各プローブについて予測ハイブリダイゼーションシグナルデータを得る工程；ならびに
（f）予測ハイブリダイゼーションシグナルデータを、実測ハイブリダイゼーションシグナルデータから差し引き、補正ハイブリダイゼーションシグナルデータを得る工程
を含む、試験試料におけるコピー数変動の同定方法。
14. ゲノム領域が約50〜約1,000,000ヌクレオチド長である、項目13の方法。
15. ゲノム領域が約572ヌクレオチド長である、項目13の方法。
16. ゲノム領域が約60ヌクレオチド長である、項目13の方法。
17. 工程（c）〜（f）が、実測ハイブリダイゼーションシグナルデータとして、試験試料の対数シグナルおよび対照試料の対数シグナルを用いて行なわれる、項目13の方法。
18. 工程（c）〜（f）が、実測ハイブリダイゼーションシグナルデータとして、試験試料および対照試料のハイブリダイゼーションデータの対数比を用いて行なわれる、項目13の方法。
19. セグメント化が、CGHセグメント化アルゴリズムを用いて行なわれる、項目13の方法。
【００３７】
本発明は、以下の非限定的な実施例を考慮すると、より充分に理解されよう。
【実施例】
【００３８】
実施例1
波アーチファクトの補正
標準的な条件下でCGHを行ない、ハイブリダイゼーションシグナルデータをCy3およびCy5チャネルの対数比として表した。波アーチファクトを含む対数比は、3種類のGC含有量因子を使用したモデルとして、等式(4)を使用して補正した。補正前は、ハイブリダイゼーションシグナルデータは、真のCNVにより生成されたシフトを曖昧にする波アーチファクトを含んだ（図3上部）。補正により波アーチファクトの除去、すなわちGC含有量変動に関連する対数比におけるシフトがもたらされた（図3底部、図4）。補正により、GC含有量に関係のない対数比のシフトは除去されず（図3、四角で囲った領域；図5、四角で囲った領域）、これらのシフトが真のCNVを示すことが示唆された。CNVに起因し得るデータセグメントの上昇は、補正後はより明白になった。
【００３９】
真のCNVの同定の改善に加えて、波アーチファクトの補正は、ハイブリダイゼーションデータの質の他のパラメーターも改善した。波補正により、うねりスコアで表されるハイブリダイゼーションシグナルデータの全体のうねりが低減し（図6A）、全体のノイズが低減され（図6B）、未補正データ中に存在するセグメントの数が低減した（図6C）。
【００４０】
該補正方法は、単一チャネル、例えばCy3およびCy5チャネル（図7）の対数シグナルにも成功裡に適用された。部分的に、ノイズの一部は補正の際に除去されるGC依存性波アーチファクトに起因するため、補正により、ノイズの著しい低下がもたらされた。
【００４１】
実施例2
多数のGC含有量因子を使用した波アーチファクト補正
補正のために多数のGC含有量因子を使用して、より優れた波アーチファクト除去をもたらす。補正前は、ハイブリダイゼーションシグナルデータは波アーチファクトを含んだ（図8、segMNT）。等式(4)の回帰モデルと共に、(1)プローブによりカバーされた領域内の（図8、上から2番目の点軌跡）、(2)プローブの256塩基対上流および下流の領域内の（図8、上から3番目の点軌跡）、または(3)プローブの256000塩基対上流および下流の領域内の（図8、上から4番目の点軌跡）いずれか由来のGC含有量データを使用してデータを補正した場合、ある程度の波アーチファクトの補正が生じた。3つ全ての領域からのGC含有量情報を等式(4)の回帰モデルに使用した場合に（図8、下の点軌道）、補正は優れていた。
【００４２】
実施例3
特徴2を使用した波アーチファクト補正
図9には、波アーチファクト補正法においてアルゴリズムの特徴2を使用することの利点を示す。「特徴2」は、いくつかの異なるセットのデータ、例えば補正対象の完全データセット、最も長いセグメントを形成するデータ点からなるデータのサブセット、およびセグメントシフトが除去された完全データセットを使用して、回帰モデルについてのいくつかの候補パラメーターの組を決定することをいう。次いで、それぞれの候補パラメーターの組を、補正および最適結果の選択のためのモデルに適用する。
【００４３】
特徴2を適用せずに等式(4)を使用してデータを補正した場合、大きなセグメントシフトの存在のために補正は歪んだ（図9、2番目の点軌跡）。特徴2と共に等式(4)を使用した場合（図9、3番目の点軌跡）、優れた補正が達成された。
【００４４】
実施例4
うねりスコアの計算
特許請求される方法のいくつかの態様において、うねりのパラメーター（「うねりスコア」）を使用して、補正の最良のモデルが決定され得る。種々の方法を使用してうねりスコアを計算し得る。この実施例において、うねりスコアは、ゲノム位置に対する対数比または対数シグナルのプロットの傾きの絶対値の平均を計算することで導かれた。散布図は、しばしば充分定まった傾きを有さないために、それぞれのプロットを局所荷重散布図平坦化（locally weighted scatter plot smoothing）(LOWESS)曲線にフィッティングし、各曲線の傾きを散布図の傾きとして使用した。CGHデータについて、xおよびyについての縮尺は数オーダーの規模で離れている。従って、うねりスコアを都合のよい範囲の値に誘導するために、傾きの値に10000000をかけた。得られた傾きは、log2比単位/10000000塩基対の単位を有する。傾きが1の場合、log2比は、1単位ごとにゲノム内距離が10000000塩基対上がるかまたは下がる。
【００４５】
この実施例において、うねりスコア計算からセグメント区切り点を除外して、データにフィッティングさせたLOWESS曲線の傾きの絶対値の平均に合わされた（scaled）うねりスコアを生成した。標準的なLOWESS曲線フィッティング法（Cleveland, JASA 74 (1979) 829-836）と一致して、潜在的区切り点を除いて平均するために、全てのデータの点を考慮した。
【００４６】
LOWESSフィッティングについて、フィッティング式、スライドウィンドウサイズ、および加重関数は以下のように決定した：
適合式：

式中、xはゲノム位置を表し、yは対数比または対数シグナルを表す。
スライドウィンドウサイズ：1000〜2000データ点。
加重関数：

式中、

はウィンドウの中心に対する縮尺（scaled）ゲノム距離である。
【００４７】
他のフィッティング式、スライドウィンドウサイズ、および加重関数を使用することもできる。
【００４８】
実施例5
うねりスコアを使用した波アーチファクト補正
本質的に図10に示されるように、波アーチファクト補正を行った。それぞれが一緒になってヒトゲノム全体をカバーする複数のプローブを含む9種類のマイクロアレイを使用して、CGH実験を行なった。本質的に実施例4に示されるように、うねりスコアを計算した。波アーチファクト補正により、低減されたうねりスコアがもたらされた（図11）。試験した全てのアレイについてうねりスコアは低減され、最も大きなうねりの低減は、未補正データの高いうねりスコアで実測された。同様に、二乗平均偏差（rmsd）により測定されたノイズも、波アーチファクト補正後に減少した（図12）。rmsdはランダムノイズの指標であり、高いrmsd値は、データ中の高レベルのランダムノイズを示す。うねりスコアと同様に、最初により高いノイズスコアを有したデータにおいてより大きな低減が実測された（図12）。

【特許請求の範囲】
【請求項１】
(a) 一組のプローブにハイブリダイズする試験試料および対照試料の実測ハイブリダイゼーションシグナルデータをセグメント化する工程、ここで各プローブは対照試料のプローブ結合セクションをカバーする；
(b) 各プローブについて、少なくとも1つのプローブ結合セクションを含む少なくとも1つのゲノム領域の少なくとも1つのGC含有量値を決定する工程；
(c) 説明変量として工程(b)において決定した少なくとも1つのGC含有量値、および応答変量として実測ハイブリダイゼーションシグナルデータを用いて多変量多項式回帰分析を行ない、各プローブについての予測ハイブリダイゼーションシグナルデータを得る工程；ならびに
(d) 実測ハイブリダイゼーションシグナルデータから予測ハイブリダイゼーションシグナルデータを差し引き、補正ハイブリダイゼーションシグナルデータを得る工程
を含む、ハイブリダイゼーションシグナルデータの波アーチファクトを補正する方法。
【請求項２】
ゲノム領域が、約50〜約1,000,000ヌクレオチド長である、請求項１記載の方法。
【請求項３】
ゲノム領域が約572ヌクレオチド長である、請求項１記載の方法。
【請求項４】
ゲノム領域が約60ヌクレオチド長である、請求項１記載の方法。
【請求項５】
ゲノム領域の最適な大きさを実験的に決定する工程をさらに含む、請求項１記載の方法。
【請求項６】
実測ハイブリダイゼーションシグナルデータが実験的に決定される、請求項１記載の方法。
【請求項７】
試験試料および対照試料の実測ハイブリダイゼーションシグナルデータが、試験試料の対数シグナルおよび対照試料の対数シグナルを含む、請求項１記載の方法。
【請求項８】
試験試料および対照試料の実測ハイブリダイゼーションシグナルデータが、試験試料および対照試料のハイブリダイゼーションシグナルデータの対数比を含む、請求項１記載の方法。
【請求項９】
実測ハイブリダイゼーションシグナルデータが、比較ゲノムハイブリダイゼーションアッセイにおいて得られる、請求項１記載の方法。
【請求項１０】
CGHセグメント化アルゴリズムを用いてデータがセグメント化される、請求項９記載の方法。
【請求項１１】
(a) ハイブリダイゼーション中に、試験試料のプローブ結合セグメントをカバーする一組のプローブを提供する工程；
(b) プローブに、第一の標識で標識した対照試料および第二の標識で標識した試験試料を、実測ハイブリダイゼーションシグナルデータが得られるようにハイブリダイズさせる工程；
(c) 試験試料および対照試料の実測ハイブリダイゼーションシグナルデータをセグメント化する工程；
(d) 各プローブについて、少なくとも1つのプローブ結合セクションを含む少なくとも1つのゲノム領域の少なくとも1つのGC含有量値を決定する工程；
(e) 説明変量として工程(d)において決定したGC含有量値、および応答変量として実測ハイブリダイゼーションシグナルデータを使用して、多変量多項式回帰分析を行ない、各プローブについての予測ハイブリダイゼーションシグナルデータを得る工程；ならびに
(f) 実測ハイブリダイゼーションシグナルデータから予測ハイブリダイゼーションシグナルデータを差し引いて、補正ハイブリダイゼーションシグナルデータを得る工程
を含む、試験試料中のコピー数変動を同定する方法。
【請求項１２】
ゲノム領域が約50〜約1,000,000ヌクレオチド長である、請求項１１記載の方法。
【請求項１３】
ゲノム領域が約572ヌクレオチド長である、請求項１１記載の方法。
【請求項１４】
ゲノム領域が約60ヌクレオチド長である、請求項１１記載の方法。
【請求項１５】
工程(c)〜(f)が、試験試料の対数シグナルおよび対照試料の対数シグナルを実測ハイブリダイゼーションシグナルデータとして用いて行なわれる、請求項１１記載の方法。

【図６】

【図１０】

【図１１】

【図１２】

【図１】

【図２】

【図３】

【図４】

【図５】

【図７】

【図８】

【図９】

【公開番号】特開２０１２−８４１４７（Ｐ２０１２−８４１４７Ａ）
【公開日】平成２４年４月２６日（２０１２．４．２６）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の用途に特に適合したデジタル計算またはデータ処理の装置また... (2,326)
      - バイオインフォマティクス，すなわち計算分子生物学において遺伝子... (90)
        
        ハイブリダイゼーションまたは遺伝子発現に関するもの，例．マイク... (12)

【外国語出願】
【出願番号】特願２０１１−２２１４５９（Ｐ２０１１−２２１４５９）
【出願日】平成２３年１０月６日（２０１１．１０．６）
【出願人】（５９１００３０１３）エフ．ホフマン−ラ　ロシュ　アーゲー (1,754)
【氏名又は名称原語表記】Ｆ．　ＨＯＦＦＭＡＮＮ−ＬＡ　ＲＯＣＨＥ　ＡＫＴＩＥＮＧＥＳＥＬＬＳＣＨＡＦＴ

[ Back to top ]

アレイデータ波補正の方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

アレイデータ波補正の方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク