説明

DNAコピー数変化を同定するための方法

ゲノムDNAのコピー数における変化を同定する方法が、開示される。ホモ接合性欠失および遺伝子増幅を同定するための方法が、開示される。複数の異なる配列の存在もしくは不在を検出するために設計された、群のプローブが、開示される。上記プローブは、減少した複雑性のサンプルにおいて存在することが予測される配列にハイブリダイズするために設計される。上記方法は、正常組織と比較した癌性組織におけるコピー数変化を検出するのに使用され得る。上記方法は、癌を診断するのに使用され得る。

【発明の詳細な説明】
【技術分野】
【0001】
(関連出願)
本出願は、2003年4月30日に出願された米国仮出願第60/467,105号、2002年11月11日に出願された第60/319,685号、および2002年12月3日に出願された60/319,750号の優先権を主張し、それらの開示は、その全体が参考として本明細書中で援用される。
(発明の分野)
本発明は、サンプル中に存在するゲノム領域のコピー数を推定する方法に関する。具体的には、本発明は、生物学的サンプルからの染色体の増幅領域および欠失領域を検出するための方法、コンピュータソフトウェア製品およびシステムを提供する。
【背景技術】
【0002】
(発明の背景)
正常細胞をガン細胞へと形質転換する遺伝的事象の基礎的進行は、二倍体状態から異数体状態へのシフトによって特徴付けられる(Albertsonら(2003),Nat Genet,Vol.34,pp.369−76およびLengauerら(1998),Nature,Vol.396,pp.643−9)。ゲノムの不安定性の結果として、ガン細胞は、点変異から全染色体異常までの複数のレベルで無作為な変異および原因がある変異を蓄積する。DNAのコピー数変化としては、ヘテロ接合性の喪失(LOH)およびホモ接合性の欠失、これは、腫瘍抑制遺伝子の喪失および遺伝子増幅事象、細胞内の癌原遺伝子の活性化を生じ得るがこれらに限定されない。腫瘍細胞の複雑な核型を解明するための連続したチャレンジの一つが、LOHの獲得及び喪失のリストを全体的に作成し得る、高い分解能と正確性の両方を有し改善された分子方法の開発である。
【0003】
多くの分子アプローチが、腫瘍内でのゲノム全体のLOHおよびコピー数変化を同定するために記載されている。腫瘍と血液サンプルのペアを使用して、対立遺伝子の喪失を同定するために設計された古典的なLOHの研究は、制限断片長多型(RELP)を使用し、多型のマイクロサテライトマーカー(STRS、VNTR)を使用している。網膜芽細胞腫遺伝子であるRb1のLOH分析を使用したKnudsonツーヒット腫瘍形成モデルの実施により変異対立遺伝子のコピー数が、生物学的に異なる第二のヒットメカニズムの結果として1コピーから3コピーまで変化し得ることが示された(Caveneeら(1983),Nature,Vol.305、pp.779〜84)。従って、LOHを起こす領域は、必ずしもDNAコピー数の変化を含むわけではない。ゲノム範囲の増加もしくは減少をDNAコピー数において、測定するためのアプローチとしては、比較ゲノムハイブリダイゼーション(CGH)(Kallioniemiら(1992),Science,Vol.258,pp.818〜21),スペクトル核型分析(SKY)(Schrockら(1996),Science,Vol.273,pp.494〜7),蛍光インサイチュハイブリダイゼーション(FISH)(Pinkelら(1988),Proc Natl Acad Sci USA,Vol.85,pp.9138〜42),RDAのような分子サブトラクション(Lisitsynら(1995),Proc Natl Acad Sci USA,Vol.92,pp.151〜5.;Lucitoら(1988),Proc Natl Acad Sci USA,Vol.95,pp.4487〜92),およびデジタル核型分析(Wangら(2002),Proc Natl Acad Sci USA,Vol.99,pp.16156〜61.)が挙げられる。おそらく最も広範に使用され、強力なアプローチであるCGHは、蛍光色素でそれぞれ標識された正常細胞および腫瘍細胞由来のDNAの混合物を使用する。標的DNAは、中期の染色体、または配列CGHにおいて、cDNAクローン(Pollackら(2002),Proc Natl Acad Sci USA,Vol.99,pp.12963〜8)、または細菌性の人工染色体(BAC)およびP1人工染色体(PAC)(Snijdersら(2001),Nat Genet,Vol.29,pp.263〜4,Pinkelら(1998),Nat Genet,Vol.20,pp.207〜11)に競合的にハイブリダイズされる。しかし、中期の染色体へのハイブリダイゼーションは、10Mb〜20Mbに対する分解能を限定し、わずかな獲得および喪失の検出を不可能にする。整列したcDNAクローンの使用は、ゲノム内の転写的に活性な領域の解析を可能にする一方で、そのハイブリダイゼーションの反応速度論は、大きなゲノムクローンを使用する場合ほど均一ではないかもしれない。現在、ゲノムにわたるBACクローンの利用可能性によって、CGHの分解能は、1Mb〜2Mbに制限されるが、最近のオリゴヌクレオチドの使用は、15kbにまで分解能を改善する(Lucitoら(2003),Genome Res,Vol.,pp.)。しかし、CGHは、一つの対立遺伝子が存在するようなLOHを起こすゲノムの領域の同定には十分には適していないが、コピー数の減少は存在しない。
【0004】
ヒトゲノムの完了とともに、個人間で最も代表的な配列多様性である1塩基多型(SNP)が、その量、安定性ならびに相対的なスコアリングの容易さに起因して、大規模な遺伝的研究におけるマーカーの選択の対象として出現する。これらの同様の特性が、SNPをLOH研究についての強力なマーカーにする。
【発明の開示】
【課題を解決するための手段】
【0005】
(発明の要旨)
本発明は、コピー数における変化を検出し、コピー数を評価するための核酸アレイからの分析に適切な方法、システムおよびコンピュータソフトウェア製品を提供する。例えば、プローブアレイは、個人のSNPの遺伝子型を決定するために複数のSNPの各々に対して複数のプローブを使用する遺伝子型決定アレイであり得るか、あるいはゲノムまたはゲノムの位置、例えば、全染色体にわたって100塩基ごとの同じ距離で間隔をあけられるプローブのアレイであり得る。
【0006】
一つの実施形態において、実験サンプル中のゲノムの増幅領域および欠失領域を同定する方法が、開示される。そのサンプルは、実験サンプル由来の核酸を単離する工程、核酸の少なくともいくつかの領域を増幅する工程;増幅産物を標識する工程によって調製される。標識増幅産物が、遺伝子型決定アレイにハイブリダイズされ、ハイブリダイゼーションパターンを得る。その遺伝子型決定アレイは、複数のSNPについての複数の遺伝子型決定プローブセットを含む。プローブセットは、SNPの第一の対立遺伝子に対する複数の完全一致プローブ、SNPの第二の対立遺伝子に対する複数の完全一致プローブ、SNPの第一の対立遺伝子に対する複数のミスマッチプローブ、およびSNPの第二の対立遺伝子に対する複数のミスマッチプローブ、を含む。ハイブリダイゼーションパターンは、実験サンプルにおけるSNPについての測定値を得るために使用される。測定値Sは、ハイブリダイゼーションパターンにおけるSNPについての完全一致プローブの強度の算術平均の対数である。S値は、遺伝子型呼出しにおける実験サンプルに一致する複数の参照サンプルの各々におけるSNPについてもまた計算される。参照サンプルについての平均および標準偏差は、S値において得られた値を使用して計算され、対数強度差は、参照サンプルおよび実験サンプルについての平均値を減算することで計算される。SNPを含む領域のコピー数は、対数−対数直線モデルにおいて、参照サンプルにおけるSNPについての平均値と実験サンプルにおけるSNPについてのS値との間の差を使用することにより推定される。
【0007】
一つの実施形態において、実験サンプルおよび各参照サンプルにおいて遺伝子型決定された全てのSNPについてのS値は、サンプルにおける全ての常染色体のSNPについての平均が0であり、そしてその分散が1であるように正規化される。
【0008】
別の実施形態においてp値は、推定したコピー数変化について推定され、そのp値が、p値における閾値より小さい場合、コピー数変化の評価した方向は有意である。
【0009】
好ましい実施形態において、S値は、
【0010】
【数28】

を使用して推定される。
ここにおいて、PMは、プローブ対iの完全一致セルの強度であって、Xはある組おける完全一致プローブの数である。Sを計算するために使用される完全一致プローブの数は、1と30の間であり得る。好ましい実施形態において、20PMプローブが、使用される。
【0011】
一つの実施形態においてコピー数は、
【0012】
【数29】

を使用して推定され、ここで、
【0013】
【数30】

は、実験サンプルにおいて遺伝子型決定された全てのSNPのS値に対し正規化された、実験サンプルc中の遺伝子型gのSNPjについての完全一致プローブの強度平均の対数であって、
【0014】
【数31】

は、SNPjでの遺伝子型gの複数の参照サンプル中のSNPjについて正規化されたS値の平均である。
【0015】
別の実施形態において、p値は、
【0016】
【数32】

を使用して推定されるコピー数変化の方向について計算される。得られたp値は、評価の方向が有意であるか否かを決定するのに使用される。
【0017】
実験サンプルは、腫瘍、腫瘍細胞および正常細胞の混合物もしくは疾患を有すると推測される供給源由来であり得る非ガン細胞由来であり得る。
【0018】
別の実施形態においてコピー数は、
【0019】
【数33】

を使用して評価され、ここで、
【0020】
【数34】

は、実験サンプルにおける遺伝子型決定された全てのSNPのS値に対して正規化された、実験サンプルc中の遺伝子型gのSNPjについての完全一致プローブの強度の平均の対数であって、
【0021】
【数35】

は、SNPjでの遺伝子型gの複数の参照サンプル中のSNPjについての正規化されたS値の平均であり、bは、y切片であり、そしてmは、既知のコピー数のSNPに起因した強度値をプロットすることにより規定された直線の傾きである。一つの実施形態において、その直線は、異なる数のX染色体上の変化した数を有するコントロールサンプルを使用してX染色体上のそのSNPからの強度値をプロットすることにより定義される。
【0022】
別の実施形態においてコピー数の第二の推定は、参照サンプルに一致する複数の遺伝子型におけるそのSNPからの平均DRと実験サンプル中の、SNPの判別比であるDRとを比較することで得られ、ここにおいて、20PM/MMプローブ対を有するプローブセットについてのDRは、
【0023】
【数36】

を使用して計算される。
【0024】
別の実施形態において、S値の平均よりも3標準偏差上で得られる各S値は、参照サンプルの平均および分散の推定から除外される。
【0025】
別の実施形態において、少なくとも一つのヘテロ接合性を喪失する領域は以下の工程によって実験サンプル中で同定される:実験サンプルの遺伝子型におけるホモ接合性のSNPの遺伝子型呼出しの少なくとも一つの連続した配列を同定する工程;連続した広がりにおける各SNPについてのホモ接合性の確率
【0026】
【数37】

を得る工程であって、ここで
【0027】
【数38】

である工程;
連続した配列におけるSNPの各々がホモ接合性である確率を、
【0028】
【数39】

を使用することにより、計算する工程;および、
【0029】
【数40】

がp値における閾値より小さい場合、ヘテロ接合性を喪失する領域としてSNPを含む領域を同定する工程。例えば、連続した配列におけるSNPの数は、10〜100である。
【0030】
別の実施形態において、コピー数が、
【0031】
【数41】

を使用して実験サンプルにおいて同定された領域内の少なくとも一つのSNPについてのS値を計算することによりヘテロ接合性を喪失する領域として同定される領域について推定され、ここで、PMは、プローブ対iの完全一致セルの強度であって、Xは、ある組におけるプローブ対の数であり、S値を正規化し;
正規化されたS値は、複数の一致した遺伝子型呼出しの参照サンプル由来の少なくとも一つのSNPについて計算され、参照サンプルの正規化されたS値の平均は、SNPについて計算される。実験サンプルにおけるSNPについての正規化されたS値は、参照サンプルにおけるSNPについての正規化されたS値の平均と比較され、比を得る;実験サンプルにおけるSNPのコピー数は、対数−対数直線モデルを使用して推定される。これは、サンプルにおける2つ以上のSNPについてなされ得、p値が、計算され得る。
【0032】
別の実施形態において、二つ以上の連続したSNPのコピー数の推定が、複数の以下により、その有意性について評価される;参照サンプルに対して、全てがコピー数の減少を示すか、または全てがコピー数増加を示すかのいずれかである二つ以上のSNPの配列を同定する工程;
【0033】
【数42】

を計算する工程;
標準的なφ関数を使用して
【0034】
【数43】

を確率へと転換してp値を得る工程;および、
その推定値が、p値の閾値を使用して有意であることを結論づける工程
別の実施形態において、一つ以上のヘテロ接合性を喪失する領域が、
上記実験サンプル由来の標的配列の収集物を増幅する以下の工程によって、実験サンプルで検出される;
増幅した標的配列を、設計されたプローブのアレイにハイブリダイズし、対立遺伝子特異的ハイブリダイゼーションによって標的配列の集合中の多型の集合を取り出し、実験サンプル由来のハイブリダイゼーションパターンを生じさせる工程であって、ここで、ハイブリダイゼーションパターンは、複数のSNPについての完全一致プローブおよびミスマッチプローブの強度測定を含む工程。実験サンプルにおける各SNPにおいての完全一致プローブの平均ハイブリダイゼーション強度が、計算され、アレイ上の全てのSNPの平均ハイブリダイゼーション強度が、正規化される。アレイ上の各SNPについてのSNPの判別比が、計算される。実験サンプルからの個別のSNPの判別比およびハイブリダイゼーション強度が、複数の参照サンプルからの個別のSNPについてのSNPの判別比の平均ならびにハイブリダイゼーション強度である、SNP判別比およびハイブリダイゼーション強度と比較され、ここで参照サンプル内での可変性が考慮され、実験サンプルにおけるDNAコピー数変化を有する領域が、同定される。
【0035】
(発明の詳細な説明)
((A)概論)
本発明は、多くの好ましい実施形態を有し、当業者に公知の詳細について多くの特許、特許出願および他の参考文献に依存する。それゆえに、特許、特許出願もしくは他の参考文献が引用されるか、または下で繰り返される場合、それが、全ての目的のために、そして記載される主張のために、その全体が参考として援用されると理解されるべきである。
【0036】
本出願で使用されるように、単数形式、「a」、「an」、「and」および「the」は、文脈に、他で明確な指示がない場合、複数の参照を含む。例えば、用語「薬剤」は、複数の薬剤(その混合物を含む)を含む。
【0037】
個体は、ヒトに限定されないが、哺乳類、植物、細菌、もしくは上記のいずれかに由来する細胞を含むがこれに限定されないことを含む他の生物であり得る。
【0038】
本開示を通して、本発明の種々の局面は、範囲を用いた形式において示され得る。範囲を用いた記載は、単に便利さおよび簡潔さのためであり、本発明の範囲について柔軟性のない限定として解釈されるべきでないと理解されるべきである。従って、範囲の記載は、その範囲内で、可能な限りの全ての部分的な範囲および全ての個々の数値を具体的に開示するとして考慮されるべきである。例えば、1〜6といった範囲の記載は、例えば、1〜3、1〜4、1〜5、2〜4、2〜6、3〜6などの部分的な範囲、ならびに1、2、3、4、5および6というその範囲内での個別の数を具体的に開示すると考慮されるべきである。このことは範囲の広さにかかわらず適用される。その対数の関数に関する全ての参照は、他に規定されない場合(log10)、底としてe(自然対数)を採用する。
【0039】
本発明の実施は、他に指示されない場合、当該分野の技術の範囲内である有機化学、ポリマー技術、分子生物学(組み換え技術を含む)、細胞生物学、生物化学および免疫学の通常の技術、および記載を使用し得る。そのような通常の技術は、ポリマーアレイ合成、ハイブリダイゼーション、ライゲーション、および標識を使用したハイブリダイゼーションの検出が挙げられる。適切な技術の詳細な例示は、本明細書中で下記の実施例を参照してなされ得る。しかし、当然、他の等価な通常の手順もまた使用され得る。そのような通常の技術ならびに記載は、標準的な研究所のマニュアルに見出され得る。(例えば、Genome Analysis:A Laboratory Manual Series(Vol.I−IV),Using Antibodies:A Laboratory Manual,Cells:A Laboratory Manual,PCR Primer:A Laboratory ManualならびにMolecular Cloning:A Laboratory Manual(全てCold Spring Harbor Laboratory Pressより),Stryer,L.(1995)Biochemistry(4th Ed.)Freeman,New York,Gait,「Oligonucleotide Synthesis:A Practical Approach」 1984,IRL Press,London,NelsonおよびCox(2000),Lehninger,Principles of Biochemistry 3rd Ed.,W.H.Freeman Pub.,New York,NYおよびBergら(2002)Biochemistry,5th Ed.,W.H.Freeman Pub.,New York,NY、その全ては、本明細書中で、全ての目的のための参考として、その全体が援用される)。
【0040】
本発明は、いくつかの好ましい実施形態におけるアレイを含む、固体の基材を使用し得る。(タンパク質を含む)ポリマーアレイ合成に適用可能な方法および技術は、米国特許出願第09/536,841号、WO公開番号00/58516号、米国特許第5,143,854号、同第5,242,974号、同第5,252,743号、同第5,324,633号、同第5,384,261号、同第5,405,783号、同第5,424,186号、同第5,451,683号、同第5,482,867号、同第5,491,074号、同第5,527,681号、同第5,550,215号、同第5,571,639号、同第5,578,832号、同第5,593,839号、同第5,599,695号、同第5,624,711号、同第5,631,734号、同第5,795,716号、同第5,831,070号、同第5,837,832号、同第5,856,101号、同第5,858,659号、同第5,936,324号、同第5,968,740号、同第5,974,164号、同第5,981,185号、同第5,981,956号、同第6,025,601号、同第6,033,860号、同第6,040,193号、同第6,090,555号、同第6,136,269号、同第6,269,846号および同第6,428,752号中、PCT出願番号PCT/US99/00730号(国際公開番号WO99/36760)および第PCT/US01/04285号中に記載され、これらは全て本明細書中で、全ての目的のためにその全体が、参考としてその全体が援用される。
【0041】
特定の実施形態における合成技術を説明する特許としては、米国特許第5,412,087号、同第6,147,205号、同第6,262,216号、同第6,310,189号、同第5,889,165号、および同第5,959,098号が挙げられる。核酸配列は、上記特許の多くに記載されるが、同様の技術がポリペプチド配列に適用される。
【0042】
本発明で有用である核酸アレイは、商標名GeneChip(登録商標)でAffymetrix(Santa Clara,CA)から市販されるアレイが挙げられる。例示的なアレイは、affymetrix.comでウェブサイト上に示される。
【0043】
本発明はまた、固体基材に結合するポリマーについての多くの使用を意図する。これらの用途としては、遺伝子発現のモニタリング、プロファイリング、ライブラリスクリーニング、遺伝子型の決定ならびに診断が挙げられる。遺伝子発現のモニタリング法、およびプロファイリング法は、米国特許第5,800,992号、同第6,013,449号、同第6,020,135号、同第6,033,860号、同第6,040,138号、同第6,177,248号および同第6,309,822号で示され得る。従って、遺伝子型決定および使用は、米国特許出願同第60/319,253号、同第10/013,598号並びに米国特許第5,856,092号、同第6,300,063号、同第5,858,659号、同第6,284,460号、同第6,361,947号、同第6,368,799号および同第6,333,179号で示される。他の用途は、米国特許第5,871,928号、同第5,902,723号、同第6,045,996号、同第5,541,061号および6,197,506号で具体化される。
【0044】
本発明はまた、特定の好ましい実施形態におけるサンプルの調製方法を意図している。遺伝子型決定より前にまたはそれと同時に、遺伝子サンプルは、種々の機構によって増幅され得、そのいくつかはPCRを使用し得る。例えば、PCR Technology:Principles and Applications for DNA Amplification(Ed.H.A.Erlich, Freeman Press,NY,NY,1992);PCR Protocols:A Guide to Methods and Applications(Eds.Innisら,Academic Press,San Diego,CA,1990);Mattilaら,Nucleic Acids Res.19,4967(1991);Eckertら,PCR Methods and Applications 1,17(1991);PCR(Eds.McPhersonら,IRL Press,Oxford);および米国特許第4,683,202号、同第4,683,195号、同第4,800,159号、同第4,965,188号および同第5,333,675号を参照のこと。その各々は、全ての目的のためにその全体が参考として本明細書中で援用される。サンプルは、アレイ上で増幅され得る。例えば、参考として援用される、米国特許第6,300,070号および米国特許出願第09/513,300号、を参照のこと。
【0045】
他の適切な増幅方法としては、リガーゼ連鎖反応(LCR)(例えば、WuおよびWallace, Genomics 4,560(1989),Landegrenら,Science 241,1077(1988)およびBarringerら Gene 89:117(1990)),転写増幅(Kwohら,Proc.Natl.Acad.Sci.USA,86,(1989)およびWO88/10315)、自己持続性配列複製(Guatelliら,Proc.Natl,Acad.Sci.USA,87,1874(1990)およびWO90/06995),標的ポリヌクレオチド配列の選択的増幅(米国特許第6,410,276号),相同配列プライマーPCR(CP−PCR)(米国特許第4,437,975号)、任意配列プライマーPCR(AP−PCR)(米国特許第5,413,909号、同第5,861,245号)および核酸に基づく配列の増幅(NABSA)が、挙げられる(米国特許第5,409,818号、同第5,554,517号および同第6,063,603号を参照のこと。その各々は、本明細書中に参考として援用される)。使用され得る他の増幅方法は、米国特許第5,242,794号、同第5,494,810号、同第4,988,617号および米国特許出願第09/854,317号に記載され、その各々は、本明細書中で参考として援用される。
【0046】
サンプル調製のさらなる方法(Dongら,Genome Research 11,1418(2001))ならびに核サンプルの複雑性を減少させるための技術は、米国特許第6,361,947号、同第6,391,592号および米国特許出願第09/916,135号、同第09/920,491号、同第09/910,292号および同第10/013,598号における、に記載される。
【0047】
ポリヌクレオチドハイブリダイゼーションアッセイを実行するための方法は、当該分野において十分に開発されしている。ハイブリダイゼーションアッセイの手順ならびに条件は、適用によって変化し、Maniatisら Molecular Cloning:A Laboratory Manual(2nd Ed. Cold Spring Harbor,N.Y,1989);BergerおよびKimmel Methods in Enzymology, Vol.152,Guide to Molecular Cloning Techniques(Academic Press,Inc.,San Diego,CA,1987);YoungおよびDavism,P.N.A.S,80:1194(1983)で言及されるような方法を含む、公知の一般的な結合方法に従って選択される。反復され、制御されたハイブリダイゼーション反応を実行するための方法ならびに装置が、米国特許第5,871,928号、同第5,874,219号、同第6,045,996号および同第6,386,749号、同第6,391,623号に記載され、その各々は、本明細書中で参考として援用される。
【0048】
本発明はまた、特定の好ましい実施形態におけるリガンド間のハイブリダイゼーション信号の検出を考慮する。米国特許第5,143,854号、同第5,578,832号、同第5,631,734号、同第5,834,758号、同第5,936,324号、同第5,981,956号、同第6,025,601号、同第6,141,096号;同第6,185,030号;同第6,201,639号;同第6,218,803号;および同第6,225,625号、米国特許出願第60/364,731号およびPCT出願第PCT/US99/06097号(WO99/47964号として公開中の)を参照のこと。その各々はまた、全ての目的のためにその全体が、参考として本明細書中に援用される。
【0049】
信号の検出および強度データの処理のための方法および装置が、例えば米国特許番号第5,143,854号、同第5,547,839号、同第5,578,832号、同第5,631,734号、同第5,800,992号、同第5,834,758号、同第5,856,092号、同第5,902,723号、同第5,936,324号、同第5,981,956号、同第6,025,601号、同第6,090,555号、同第6,141,096号、同第6,185,030号、同第6,201,639号;同第6,218,803号;および同第6,225,625号;および米国特許出願第60/364,731号、およびPCT出願PCT/US99/06097号(WO99/47964号として公開)中に開示される。その各々はまた、全ての目的のためにその全体が、参考として本明細書中に援用される。
【0050】
本発明の実施は、通常の生物学的方法、ソフトウェアおよびシステムを使用し得る。本発明のコンピュータソフトウェア製品は、通常、本発明の方法の論理的工程を実行するためのコンピュータが実行可能な命令を有するコンピュータの読出し可能な媒体を含む。適切なコンピュータの読出し可能媒体としては、フロッピー(登録商標)ディスク、CD−ROM/DVD/DVD−ROM、ハードディスクドライブ、フラッシュメモリ、ROM/RAM、磁気テープなどが挙げられる。コンピュータが実行可能な命令は、適切なコンピュータ言語もしくは、複数の言語の組み合せにおいて記述され得る。基本的なコンピュータ生物学の方法は、例えば、SetubalおよびMeidanisら,Introduction to Computational Biology Methods(PWS Publishing Company,Boston,1997);Salzberg,Searles,Kasif,(Ed.),Computational Methods in Molecular Biology,(Elsevier,Amsterdam,1998);RashidiおよびBuehler,Bioinformatics Basics:Application in Biological Science and Medicine (CRC Press,London,2000)およびOueletteおよびBzevanis Bioinformatics:A Practical Guide for Analysis of Gene and Proteins(Wiley&Sons,Inc.,2nd ed.,2001)に記載される。
【0051】
本発明は、また、種々のコンピュータプログラム製品ならびにプローブの設計、データの管理、解析および機器の操作といった種々の目的のためのソフトウェアを利用し得る。米国特許第5,593,839号、同第5,795,716号、同第5,733,729号、同第5,974,164号、同第6,066,454号、同第6,090,555号、同第6,185,561号、同第6,188,783号、同第6,223,127号、同第6,229,911号および同第6,308,170号を参照のこと。
【0052】
さらに、本発明は、米国特許出願第10/063,559号、同第60/349,546号、同第60/376,003号、同第60/394,574号、同第60/403,381号において示されるように、インターネットのようなネットワークを介して遺伝的情報を提供するための方法を包含する好ましい実施形態を有し得る。
【0053】
本発明は、米国特許出願第10/264,945および米国の特許仮出願第60/417,190号および同第60/319,685号に関し、それらは、全ての目的のためにその全体が、参考として本明細書中に援用される。
((B)定義)
本発明に従って、核酸は、ピリミジンおよびプリン塩基(好ましくは、シトシン、チミンおよびウラシル、ならびにアデニンおよびグアニン)、任意のポリマー、またはオリゴマーをそれぞれ含み得る(Albert L.Lehninger,Principles of Biochemistry,793〜800(Worth Pub.1982)を参照のこと。この文献は、全ての目的のためにその全体が本明細書中で援用される)。実際に、本発明は、任意のデオキシリボヌクレオチド、リボヌクレオチド、またはペプチド核酸成分、および任意の化学的改変体にこれらの塩基のメチル化様式、ヒドロメチル化様式またはグリコシル化様式などを意図する。ポリマーまたはオリゴマーは、組成において異質または同質であり得、および天然に発生する供給源から単離され得るか、もしくは人工的または合成的に生産され得る。さらに、核酸は、DNAまたはRNAもしくはその混合物であり得、ホモ二重鎖またはヘテロ二重鎖およびそのハイブリッド状態を含む、シングルストランドもしくはダブルストラランド形態において、永久にまたは一過性に存在し得る。
【0054】
オリゴヌクレオチドまたはポリヌクレオチドは、その長さにおいて少なくとも2ヌクレオチド、好ましくは少なくとも8ヌクレオチド,15ヌクレオチドまたは20ヌクレオチドの範囲にある核酸であるが、50ヌクレオチド、100ヌクレオチド、1000ヌクレオチドもしくは5000ヌクレオチド長までであり得るか、またはポリヌクレオチドと特異的にハイブリダイズする化合物である。本発明のポリヌクレオチドとしては、天然の供給源から単離され得るか、組換え産生され得るか、または人工的に合成され得る、デオキシリボ核酸(DNA)配列またはリボ核酸(RNA)配列、またはその模倣物が挙げられる。本発明のポリヌクレオチドのさらなる例は、ペプチド核酸(PNA)であり得る(米国特許第6,156,501号を参照のこと。これは本明細書中に参考としてその全体が援用される)。本発明はまた、特定のtRNA分子において同定され、三重へリックス中に存在すると仮定されるHoogsteen塩基対のような伝統的でない塩基対が存在するような状態を包含する。「ポリヌクレオチド」および「オリゴヌクレオチド」は、本出願において、互換可能で使用される。
【0055】
用語、フラグメントとは、より大きなDNAポリヌクレオチドの一部またはDNAをいう。例えば、ポリヌクレオチドは、複数のフラグメントにバラバラにされ得るか、または断片化され得る。核酸を断片化する様々な方法は、当該分野において周知である。例えば、これらの方法は、本質的に、化学的または物理学的のどちらかであり得る。化学的断片化としては、DNaseによる部分的な分解;酸による部分的脱プリン化;制限酵素の使用;イントロンにコードされエンドヌクレアーゼ;核酸分子における特定の位置に対して切断薬剤を局在化するための核酸断片の特異的ハイブリダイゼーションに依存した、三重鎖形成法やハイブリッド形成法のようなDNA塩基切断方法;あるいはDNAを既知または未知の位置で切断する他の酵素もしくは化合物、が挙げられ得る。物理学的断片化方法としては、DNAを高切断率に供する工程をが挙げられ得る。例えば、高切断率は、窪みやスパイクを有するチャンバーまたはチャネルを通してDNAを移動する工程あるいは、例えばマイクロもしくはマイクロ未満のスケールでの断面積とを有する開口部のような、制限されたサイズの流動通過を通すように、DNAサンプルに力を加える工程によって実現され得る。他の物理学的な方法は、超音波処理および噴霧が挙げられる。熱およびイオン媒介加水分解による断片化のような物理学的に、片化方法および化学的断片化方法の組み合わせが、同様に使用され得る。例えば、Sambrookら,「Molecular Cloning:A Laboratory Manual」3rd Ed. Cold Spring Harbor Laboratory Press,Cold Spring Harbor,New York(2001)(「Sambrookら」)を参照のこと(全ての目的のために本明細書中にその全体が参考として援用される)。これらの方法は、核酸を選択されるサイズの範囲のフラグメントに消化するのに最適化され得る。有用なサイズ範囲は、100塩基対,200塩基対,400塩基対、700塩基対または1000塩基対から、500塩基対,800塩基対,1500塩基対,2000塩基対,4000塩基対または10,000塩基対であり得る。しかし、4000塩基対、10,000塩基対または20,000塩基対から、10,000塩基対、20,000塩基対または500,000塩基対のようなより大きなサイズの範囲もまた、有用であり得る。
【0056】
アダプター配列またはアダプターは、一般的に、少なくとも5、10、または15塩基長、好ましくは50または60塩基長以下のオリゴヌクレオチドであるが、それらは100または200塩基まで、より長くなり得る。アダプター配列は、当業者に公知の任意の方法を使用して合成され得る。本発明の目的のために、これらは、PCRのプライマーのためのテンプレート、制限酵素サイトおよびプロモーターを必要に応じて含み得る。アダプターは、全体的にまたは実質的にダブルストランドであり得る。アダプターは、一方の差においてか、または両方の差において、リン酸化されていても、されていなくても良い。アダプターは、それらが実質的に二本鎖領域、および制限酵素で消化されることにより作成される一本鎖領域に対して相補的である短い一本酸領域領域を含む場合、本発明の一つの実施形態において特に有用である。例えば、DNAが、制限酵素EcoRIで消化され、生じた二本鎖フラグメントが、一本鎖化突出5’−AATT−3’とどちらかの末端で隣接する場合、一本鎖突出5’−AATT−3’を有するアダプターが、突出領域の間の相補性を介してフラグメントとハイブリダイズする。フラグメントへのアダプターの「粘着末端」ハイブリダイゼーションは、フラグメントに対するアダプターの連結を容易にし得るが、平滑末端ライゲーションもまた可能である。
【0057】
「ゲノム」は、生物体のDNAとしてコードされる、生物体についての遺伝的命令の、完全な、1コピーのセットを示すか、または意味する。ゲノムは、DNAが複数の個別の染色体中で、細胞内に分配されるような複数の染色体であり得る。例えば、ヒトにおいて、性別関連のXX対またはXY対に加え、22対の染色体がある。
【0058】
用語「染色体」は、クロマチン由来であり、DNAおよびタンパク質成分(特にヒストン)を含む生細胞の遺伝を保持する遺伝子のキャリアをいう。従来の国際的に認識された個人のヒトゲノム染色体の番号付けが、本明細書中で使用される。個々の染色体のサイズは、ある種類と所与の複数の染色体ゲノムを有する別の種類との間で、およびあるゲノムと別のゲノムとの間で変化する。ヒトゲノムの場合に、所与の染色体の全体のDNA量は、通常、約100,000,000bpより大きい。例えば、ヒトゲノム全体のサイズは、約3×10bpである。最大の染色体である第1番染色体は、約2.4×10bpを含む一方、最少の染色体である第22番染色体は、約5.3×10bpを含む。
【0059】
「染色体領域」は、染色体の一部である。実際の物理学的サイズまたは任意の個々の染色体領域の範囲は、大きく変化し得る。用語「領域」は、領域が、個々の遺伝子の特定のコード断片(エキソン)を特に考慮に入れる必要がないことから、特定の一つ以上の遺伝子を必ずしも決定するわけではない。
【0060】
用語サブセットまたは代表的なサブセットとは、ゲノムの画分をいう。サブセットは、ゲノムの0.1、1、3、5、10、25、50または75%であり得る。サブセットへのフラグメントの分配は、個々のフラグメントの物理学的特性の多様性に従ってなされ得る。例えば、フラグメントは、サイズに従って、フラグメントの終点での制限部位の特定の組み合わせに従ってか、または一つ以上の特定の配列の存在もしくは不在に基づいてサブセットへと分割され得る。
【0061】
「アレイ」は、支持体と付着される核酸のプローブを有する支持体、好ましくは固体を包含する。好ましいアレイは、典型的に、それぞれの既知の位置において機材の表面と結合する複数の異なる核酸プローブを含む。「マイクロアレイ」もしくは、口語的に「チップ」として記載されるこれらのアレイは、一般的に当該分野において、例えば、米国特許第5,143,854号、同第5,445,934号、同第5,744,305号、同第5,677,195号、同第5,800,992号、同第6,040,193号、同第5,424,186号およびFodorら,Science,251:767−777(1991)に記載される。その各々は、全ての目的のために参考としてその全体が援用される。
【0062】
アレイは、一般的に機械的な合成方法または写真平板法および固相合成法の組み合せを組み込む光指向性の合成法といった様々な技術を使用して製造され得る。機械的な合成法を使用したこれらの配列の合成のための技術は、例えば、米国特許第5,384,261号もしくは同第6,040,193号において記載され、これらは、全ての目的のためにその全体が、本明細書中で参考文献として援用される。平面アレイの表面が好ましいが、アレイは、実質的に任意の形状の表面上においてか、または多数の表面上においてさえも作成される。アレイは、ビーズ、ゲル、ポリマーの表面、光ファイバのような線維、ガラスもしくは任意の他の適切な基材上の核酸であり得る(米国特許第5,770,358号、同第5,789,162号、同第5,708,153号、同第6,040,193号、同第5,800,992号を参照のこと、それらは全ての目的のための本明細書中でその全てが参考として援用される)。
【0063】
アレイは、診断使用を考慮するような様式において包装され得るか、または全てを含む様式であり得る;例えば、米国特許第5,856,174号および同第5,922,591号、それらは全ての目的のために本明細書中でその全てが、参考として援用される。
【0064】
好ましいアレイが、商標GeneChip(登録商標)のもとAffymetrixより市販され、種々の真核生物種および原核生物種のための遺伝子型の決定および遺伝子発現の観察を包含する種々の目的に向けられる(Affymetrix Inc.,Santa Claraおよびaffymetrix.comでのそれらのウェブサイトを参照のこと)。
【0065】
ハイブリダイゼーションプローブは、核酸の相補的な鎖に対し塩基特異的な様式における結合の可能なオリゴヌクレオチドである。そのようなプローブとしては、Nielsenら,Science 254,1497−1500(1991)に記載されるようなペプチド核酸、および他の核酸アナログおよび核酸の模倣物が挙げられる。1996年4月3日に出願された米国特許出願第08/630,427号を参照のこと。
【0066】
例えば、ハイブリダイゼーションは、通常、緊縮条件下、1M以下の塩濃度および少なくとも25℃の温度で実行される。例えば、5X SSPEの条件(750mM 塩化ナトリウム,50mM 燐酸ナトリウム、5mM EDTA,pH 7.4)および25℃〜30℃の温度が、対立遺伝子特異的プローブハイブリダイゼーションについて適切である。例えば、緊縮条件については、Sambrook,FritscheおよびManiatis.「Molecular Cloning A laboratory Manual」2nd Ed.Cold Spring Harbor Lab Press(1989)を参照のこと。それらは上記の全ての目的のために本明細書中でその全てが、参考として援用される。
【0067】
対立遺伝子とは、細胞内の、個体内のまたは集団内の(遺伝子といった)遺伝的配列(例えば、遺伝子)のある特定の形態、少なくとも一つの配列における同じ遺伝子の他の形態と異なるある特定の形態および頻繁には、一つよりも多くの遺伝子配列内の変異部位をいう。種々の対立遺伝子間で異なるこれらの変異部位の配列は、「多様性」、「多型」または「変異体」と呼ばれる。各常染色体の特定の染色体位置もしくは「座」で、個体は、一つの片親から遺伝した一つ、ならびにもう1人の親から遺伝した一つ、(例えば、母親からの一つおよび父親からの一つ)といった二つの対立遺伝子を保有する。ある座において2つの異なる対立遺伝子を有する場合、個体は、その座において「ヘテロ接合性」である。ある座において二つの同じ対立遺伝子を有する場合、個体は、その座において「ホモ接合性」である。
【0068】
多型とは、集団における二つ以上の遺伝的に決定された代替的な配列もしくは対立遺伝子の出現をいう。多型のマーカーまたは部位は、分岐が起こる座である。好ましいマーカーは、少なくとも二つの対立遺伝子を有し、それぞれ、好ましくは1%より大きい頻度で、そしてより好ましくは選択した集団の10%もしくは20%より大きい頻度で起こる。多型は、ひとつ以上の塩基の変化、挿入、繰り返しまたは欠失を含み得る。多型の座は、一つの塩基対と同程度に小さくなり得る。多型のマーカーは、制限フラグメント長多型、多様な数の縦列反復配列(VNTR)、超可変領域、ミニサテライト、ジヌクレオチド反復、トリヌクレオチド反復、テトラヌクレオチド反復、単純な配列の反復、およびAluのような挿入要素が挙げられる。第一の同定された対立遺伝子の形態は、参照の形態として任意に指定され、対立遺伝子形態は、代替的な対立遺伝子または改変対立遺伝子として命令される。選択された集合において最も頻繁に起こる他の対立遺伝子の形態は、時折、野生型形態として言及される。二倍体組織体は、対立遺伝子の形態についてホモ接合性であってもヘテロ接合性であってもよい。二つの対立遺伝子の多型は二つの形態を有する。三つの対立遺伝子の多型は、三つの形態を有する。二つの核酸の間の多型は、天然に起こり得るか、あるいは化学物質、酵素もしくは他の薬剤に曝露、もしくは接触することによって、あるいは核酸に対してダメージを生じる薬剤、例えば、紫外線照射、突然変異誘発物質、発癌物質に曝露することにより生じ得る。
【0069】
用語、遺伝子型決定は、ゲノムにおける一つ以上の位置における個体が保有する遺伝情報の決定をいう。例えば、遺伝子型決定は、一つのSNPについて個体が保有する対立遺伝子の決定または複数のSNPについて個体が保有する対立遺伝子の決定を含む。例えば、ゲノムにおける特定のヌクレオチドは、いくつかの個体においてAもであり、他の個体においてCであり得る。その位置でAを有する個体は、A対立遺伝子を有し、Cを有する個体は、C対立遺伝子を有する。二倍体生物において、固体は、その個体がA対立遺伝子およびC対立遺伝子、もしくは代わりに2コピーのA対立遺伝子のまたは2コピーのC対立遺伝子を有するように、多型位置を含む2コピーの配列を有する。2コピーのC対立遺伝子を有する個体は、C対立遺伝子においてホモ接合性であり、2コピーのA対立遺伝子を有する個体は、C対立遺伝子についてホモ接合性であり、1コピーの各対立遺伝子を有する個体は、ヘテロ接合性である。配列は、3つのあり得る結果の各々の間で識別するように設計され得る。多型位置は、二つ以上の可能な対立遺伝子を有し得、そのアレイは、全ての可能な組み合わせを区別するよう設計される。
【0070】
連鎖不均衡もしくは対立遺伝子の関連とは、集合において何らかの特定の対立遺伝子の頻度についての偶然、期待されるよりも高い頻度で付近の染色体の位置での、特定の対立遺伝子もしくは遺伝的マーカーと、特定の対立遺伝子もしくは遺伝的マーカーとが優先的に関連することを意味する。例えば、座Xが、同じ頻度で起こる対立遺伝子aおよびbを有し、連鎖した座Yが、同じ頻度で起こる対立遺伝子cおよびdを有する場合、組み合せacが、頻度0.25で起こることが予期される。acがより頻繁に起こる場合、対立遺伝子aおよびcは、連鎖不均衡である。例えば、連鎖不均衡は、それらの領域が物理的に近いので、もしくは対立遺伝子が連鎖した対立遺伝子と平衡状態に達するには新しく集団に導入されたので、対立遺伝子の特定の組み合わせの天然の選択により生じる。連鎖の不均衡に置けるマーカーは、そのマーカーが疾患を生じないにもかかわらずその疾患(または他の表現型)に対する感受性を検出するのに特に有効であり得る。例えば、それ自体は、疾患の原因要素ではないが、表現型の原因要素である遺伝子(Y)(調節配列を含む)と連鎖不均衡である、マーカー(X)は、遺伝子Yが同定されていないかもしれないか、または容易には検出できないかもしれない状況でその疾患に対する感受性を示すために検出され得る。
【0071】
一つ以上の座でヘテロ接合性である正常細胞は、その座でホモ接合性である腫瘍細胞を生じ得る。このヘテロ接合性の喪失は、正常遺伝子の構造欠失、または正常遺伝子を有する正常細胞の欠失、正常遺伝子と変異遺伝子の間の有糸分裂組み換えとその後の欠失または不活性化(変異)遺伝子についてホモ接合性である娘細胞の形成から生じえるか;あるいは正常遺伝子を有する染色体の喪失、および欠失もしくは不活性化された(変異)遺伝子を有する染色体の重複から生じる。
【0072】
ホモ接合性の欠失は、遺伝子またはゲノム領域の両方のコピーの欠失である。2倍体生物は、2コピーの各常染色体を一般的に有し、従って、2コピーの任意の選択されたゲノム領域の二つのコピーを有する。ゲノム領域の両方のコピーが、存在しない場合、その細胞またはサンプルは、その領域のホモ接合性の欠失を有する。同様に、ヘミ接合性の欠失は、遺伝子またはゲノム領域の一つのコピーの欠失である。
【0073】
遺伝的再配列は、DNAの複製においてエラーが起こる場合におこり、クロスオーバーが、ある染色体の位置から別の位置へ移動する遺伝的物質を生じる非相同性領域の間で起こる。再配列は、その再配列付近でその遺伝子の変化した発現を生じ得る。
【0074】
異数体は、染色体の構成が真の二倍体から変化している細胞(例えば、染色体もしくは染色体領域の余分なコピー)であるような細胞である。
【0075】
個体は、ヒトに限定されないが、他の生物(哺乳動物、植物、細菌もしくは上のどれかに由来する細胞が挙げられるが、これらに限定されない)もまた包含する。
【0076】
全ゲノムサンプリングアッセイ(WGSA)は、サンプルにおけるフラグメントのサブセットを増幅することにより核酸サンプルの複雑性を減少する。核酸サンプルは、一つ以上の制限酵素によって断片化され、アダプターは、それらのフラグメントの両末端と接続される。結合配列と相補的であるプライマーは、PCRを使用してそれらのフラグメントを増幅するのに使用される。PCRの間、選択されるサイズ範囲のフラグメントが、選択的に増幅される。そのサイズの範囲は、例えば、400塩基対〜800塩基対もしくは400塩基対〜2000塩基対であり得る。選択されるサイズの範囲外であるフラグメントは、効率的に増幅されない。
【0077】
WGSAにより増幅されるフラグメントは、インシリコ消化によって予測され得、アレイが、増幅されると予測されるSNPを遺伝子型決定するように設計され得る。遺伝子型決定は、SNPの個別の対立遺伝子に対し完全に相補的であるプローブを使用した対立遺伝子特異的ハイブリダイゼーションによってなされ得る。各SNPを囲む領域に対し相補的であるプローブのセットが、そのアレイ上に存在し得る。完全一致プローブは、そのプローブの全長にわたって標的に対し相補的である。ミスマッチプローブは、一つのミスマッチ塩基以外で、PMプローブと、同一である。そのミスマッチの位置は、一般的には、中央の位置であり、そのため25塩基のプローブについては、ミスマッチが13位である。
【0078】
上記方法は、他のゲノム解析方法および複雑性を減少する方法と組み合わされ得る。例えば、複雑度を減少する他の方法としては、例えば、AFLP(米国特許第6,045,994号(これらは本明細書中で参考として援用される)を参照のこと。任意配列プライマーPCR(AP−PCR)(McClellandおよびWelsh,PCR Primer:A Laboratory Manual,(1995)C.DieffenbachおよびG.Dveksler編,Cold Spring Harbor Lab Press,例えば、p203,これらは、本明細書中で参考としてその全てが援用される)が挙げられる。サンプル調製のさらなる方法および核サンプルの複雑度の減少のための技術は、Dongら,Genome Research 11,1418(2001),米国特許第6,361,947号、同第6,391,592号、同第6,458,530号および米国特許出願第20030039069号、同第09/916,135号、同第09/920,491号、同第09/910,292号、同第10/264,945号に記載され、これらはその全体が本明細書中で参考として援用される。
【0079】
多型を分析するための対立遺伝子特異的プローブの設計および使用は、例えば、Saikiら,Nature 324,163−166(1986);Dattagupta, EP 235,726,Saiki,および WO 89/11548によって記載される。対立遺伝子特異的プローブは、一つの個体由来の標的DNAのセグメントにハイブリダイズするが、別の個体に由来する対応するセグメントには、その二つの個体由来のそれぞれのセグメントにおける異なる多型の形態の存在に起因してハイブリダイズしないように設計され得る。ハイブリダイゼーションの条件は、対立遺伝子の間でハイブリダイゼーション強度における有意差が存在するように、十分に厳密であるべきであり、好ましくは本質的に応答であり、それによってプローブは、それらの対立遺伝子の一つのみにハイブリダイズする。
【0080】
((C)コピー数における変化の検出)
DNAのコピー数における変化のような遺伝的不安定性は、多くのヒトの癌の1つである。高密度のDNAアレイ技術は、腫瘍細胞におけるゲノム変異(最も著しくは)LOHの同定に対して適用される(Lindblad−Toh,ら(2000),Nat Biotechnol,Vol.18,pp.1001−5,Mei,R.,ら(2000),Genome Res,Vol.10,pp.1126−37,Schubert,ら(2002),Am J Pathol,Vol.160,pp.73−9,およびDumurら(2003),Genomics,Vol.81,pp.260−9)。LOHならびにゲノムの増幅および欠失の検出のために高密度アレイを使用するための方法が、開示される。多くの実施形態において、高密度アレイは、遺伝子型決定アレイである。しかし、他のプローブのアレイ、例えば、ヒトゲノムの異なる領域に対して相補的なプローブのアレイ、例えば、Affymetrix,Inc,Santa Claraから入手可能なHuman Genome U133 Plus 2.0が使用され得る。一般的に、上記方法は、完全一致プローブに対する核酸のハイブリダイゼーション強度を比較し、より高い強度を、より高いコピー数と相関付ける。対数強度と対数コピー数の間の関係は、およそ直線にあることが見出された。既知のコピー数のコントロールサンプルを使用して、その直線の傾きおよびy切片が推定され得る。
【0081】
並列に多型の遺伝子型決定する方法が、複数の染色体にわたってDNAの獲得及び喪失を同定するために使用され得る。予測可能な接式でゲノムサンプルの複雑性を減少する方法が、生じる複雑性が減少したゲノムサンプルにおける多型を調べるために設計された一群のプローブ配列と組み合わせて使用され得る。米国特許出願第10/264,945号で開示されるような方法が、遺伝子型を検出するために使用され得、その遺伝子型情報が、ホモ接合性欠失領域または遺伝子増幅領域を同定するのに使用され得る。一つのプライマーが、ゲノムの代表的な部分を増幅した後に、DNAの一本鎖または二本鎖由来の完全一致(PM)プローブまたはミスマッチ(MM)プローブ、を含む高密度のオリゴヌクレオチドアレイへのハイブリダイゼーションを介してSNP遺伝子型決定するSNPにされるのに使用され得る。例えば、対となるPMコピー強度値とMM強度値との間の判別比を使用するアルゴリズムが、ホモ接合性欠失の領域を同定するのに使用され得るか、または中央値PM強度が、遺伝子増幅領域を同定するのに使用され得る。チップ強度の正規化の後、実験サンプルに由来するSNP判別比およびPM強度は、正常個体を含む参照セットに由来する分布と比較され得る。一つの実施形態において、そのサンプルセットは、100個体,400個体,500個体または1000個体より多を含み、DNAコピー数変化を有する統計学的に有意な領域が同定されるのを可能にする。
【0082】
さらに、ヘテロ接合性喪失(LOH)を示す統計学的に有意なゲノムの間隔は、既知の対立遺伝子の頻度に基づいてホモ接合性マーカーの連続する広がりの確率を計算することにより同定され得る。そのSNPは、使用されるアレイ上で遺伝子型決定されるSNPであり、遺伝子型決定されない、遺伝子型決定済みのSNPの間でSNPが存在し得る。対立遺伝子の頻度が、例えば、参照サンプルセットを遺伝子型決定することにより、dbSNPといった公に利用可能なデータベースから、もしくは、対立遺伝子頻度についての任意の利用可能なデータベースから、得られ得る。一つのアレイに由来するデータセットを使用して、サンプルは、LOH、欠失および増幅について分析され得る。一つの実施形態において、平均SNP間距離および中央地DNP間距離それぞれ約250kbおよび約120kbを有するアレイが、使用され得る。別の実施形態において、平均SNP間距離および中間値SNP間距離は、それぞれ100kb未満および20kb未満である。この方法は、任意のサンプルにおいてコピー数変化を検出するのに使用され得る。好ましい実施形態において、組織は、癌性組織(例えば、ヒトの乳癌、前立腺癌、肺癌および結腸癌)であると疑われる組織である。
【0083】
全ゲノムサンプリングアッセイ(WGSA)といった高密度のマイクロアレイ遺伝子型決定法を使用して、高分解能で染色体の獲得および喪失を同定するための方法が、開示される(Kennedyら(2003),Nat Biotechnol,Vol.,pp.1233−1237,および米国特許出願第09/920,492、同第09/904,039号、同第10/681,773号、同第10/316,517号、同第10/442,021号、同第10/463,991号、同第10/316,629号および同第10/264,945号ならびに米国特許第6,361,947号を参照のこと)。WGSAは、アレイ上で合成される完全一致(PM)プローブおよびミスマッチ(MM)プローブに対する対立遺伝子特異的ハイブリダイゼーションによって、並列に10,000個をより多いSNPと同時に遺伝子型決定する。
【0084】
本発明のある局面において、DNAコピー数変化を同定するためにSNP遺伝子型決定を使用するための方法が、提供され得る。SNP遺伝子型決定は、全ゲノムサンプリングアッセイ(WGSA)を使用する(Affymetrix,Santa Clara,CAから入手可能な)10K SNPアレイのような遺伝子型決定アレイ、もしくは複雑性の減少を含んでも含まなくてもよい他の増幅法を含む、多数の適切な方法を使用して実行される。より多数のSNPを有するアレイはまた、利用可能な任意のゲノム増幅方法とともに使用され得る。その方法は、例としてAffymetrixの10K SNPアレイを使用して説明される。しかし、当業者は、その方法がこの10KSNPアレイに限定されないことを理解する。ゲノムの領域と相補的である完全一致プローブを有する任意のアレイが使用され得る。一つの実施形態において、アレイは、ゲノム全体を通して広がっている領域についての完全一致プローブを含むプローブセットを有するように設計される。例えば、そのアレイは、ゲノム全体を通して約25bp、100bp、1kb、5kb、10kb、100kb離れて間隔を空けたプローブセットを有し得る。そのアレイは、1つの生物についてのプローブ、または2つ以上の平均についてのプローブを含み得る。そのプローブセットは、1、2、5、10、15、20または30個以上の間の完全一致プローブを有し得る。プローブは、PMプローブおよびMMプローブを含むプローブ対であり得、またはMMプローブは、そのアレイから離れてないかもしれない。
【0085】
図1は、本発明の実施形態のソフトウェアを実行するのに使用され得るコンピュータシステムの例を示す。図1は、ディスプレイ103、スクリーン105、キャビネット107、キーボード109およびマウス111を含むコンピュータシステム101を示す。マウス111は、グラフィックユーザーインターフェースと相互作用するための一つ以上のボタンを有し得る。キャビネット107は、フロッピー(登録商標)ドライブ112、CD−ROMドライブまたはDVD−ROMドライブ102、システムメモリ、ならびに利用され得るハードドライブ(113)(図2もまた参照のこと)本発明を実行するコンピュータコードを組み込むソフトウェアプログラムを格納および読出すために、本発明とともに使用するためのデータなどを収納する。CD114は、例示的なコンピュータ読出し可能媒体として示されるが、フレキシブルディスク、テープ、フラッシュメモリ、システムメモリ、およびハードドライブを含む、他のコンピュータ読出し可能格納媒体が利用され得る。さらに、搬送波(例えば、インターネットを含むネットワーク)において実施されるデータシグナルは、コンピュータ読出し可能格納媒体であり得る。
【0086】
図2は、本発明の実施形態のソフトウェアを実行するのに使用されるコンピュータシステム101のシステムブロックダイアグラムを示す。図1のように、コンピュータシステム101は、モニター201およびキーボード209を含む。コンピュータシステム101は、さらに、(IntelのPentiumTM III プロセッサーといった)中央プロセッサ203、システムメモリ202、固定記憶装置210(例えば、ハードドライブ)、除去可能保存機208(例えば、フロッピー(登録商標)もしくはCD−ROM)、ディスプレイアダプタ206、スピーカー204、およびネットワークインターフェース211といった、サブシステムを含む。本発明を使用するために適切な他のコンピュータシステムは、さらなるサブシステム、もしくはより少ないサブシステムを含み得る。例えば、別のコンピュータシステムは、一つより多いくのプロセッサ203、もしくはキャッシュメモリを含み得る。本発明を使用するために適切であるコンピュータシステムはまた、測定機器において実施され得る。
【0087】
好ましい実施形態において、コピー数は、実験サンプルにおけるSNPについての強度測定を、複数の参照サンプルにおける同じSNPに起因する強度測定の分布を比較することにより、推定される。一つの実施形態において、参照セットは、例えば、10、100、200、300または500個より多くの正常な個体であり得、統計的に有意な領域の同定を可能にする。好ましい実施形態において、特定のSNPについての正常な分布を計算するために使用される、複数の参照サンプルについて選択されるデータポイントは、実験サンプルに対する遺伝子型呼出しにおいて一致し、例えば、実験サンプルがAAの遺伝子型呼出しを有する場合、AA呼出しを有する参照サンプルは、このSNPについての正常分布を生じるように選択される。遺伝子型呼出しにおける実験サンプルかつ一致する参照サンプルの数が、非常に小さい場合、もしくは、実験サンプルについての遺伝子型呼出しが、「呼出し無し」の場合、全ての参照サンプルは、遺伝子型の呼出しと無関係に使用され得る。
【0088】
一般的に、その方法の工程は、実験サンプルにおけるSNPについての強度測定を得ること、実験サンプルに一致する遺伝子型呼出しを有する複数のサンプルにおけるSNPについての強度測定値を得ること、および複数の正常サンプルにおけるそのSNPについての平均強度を計算すること、それらの測定値を比較して、その正常サンプルにおける強度測定値と実験サンプルにおける強度測定値との間の比を得ること、その強度の対数とコピー数の対数との間の直線関係を使用して実験サンプルにおけるコピー数を推定すること、推定されるコピー数についてのp値を計算してその推定値についての信頼レベルを決定すること、およびそのp値が選択された閾値よりも小さい場合にその信頼レベルは高いと結論付けることである。その閾値は、例えば、10−4または10−6であり得る。
【0089】
その方法は、純粋な腫瘍サンプルまたは正常DNAと腫瘍DNAとを含む混合サンプルを用いて使用され得るが、その方法は任意のサンプルを用いて使用され得る。一つの実施形態において、その方法は、サンプルにおいてコピー数変化を検出して、そのサンプルが正常であるかまたはコピー数変化を有するかの否かを決定するのに使用される。例えば、その方法は、ゲノム領域の増幅または欠失と相関関係がある疾患の出産前診断のために使用され得る。
【0090】
その方法は、癌ゲノムの改善された理解をもたらし得る、増幅領域とともに対立遺伝子の損失を一つの実験領域内で同定するために使用される分子アプローチを開示する。この方法は、疾患(例えば、癌、または対立遺伝子の不均衡から生じる疾患)を診断するのに使用され得る。この方法はまた、特定の処置がゲノム領域におけるコピー数変化を生じるか否かを決定するために、処置レジメンをモニターするのに使用され得る。
【0091】
一つの実施形態において、参照セットからの既知の対立遺伝子頻度は、ホモ接合性マーカーの連続した広がりを含むゲノムの間隔を同定するのに使用され、一致した正常コントロールサンプルを必要とすることなく、ヘテロ接合性の喪失(LOH)領域の検出を可能にする。ゲノムの間隔が同定され得る確率を決定するための方法もまた開示される。
【0092】
一つの実施形態において、ゲノムDNAは、複雑性が減少することなく直接増幅される。ゲノムDNAを増幅する一つの方法である多置換増幅(Multiple Displacement Amplification)(MDA)が、Hosono S,らGenome Res.13:954−64(2003),DeanらProc Natl Acad Sci USA.16;99(8):5261−6(2002)および米国特許第6,617,137号に記載される。MDAは、生じる、ヒトゲノムDNAのわずか1〜10コピーから約20μm〜30μmの産物を生じる、等温性鎖置換増幅である。増幅は、粗製全血および組織培養細胞を含む生物学的サンプルから直接的に実行され得る。
【0093】
一つの実施形態において、種々のX染色体コピー(1X〜5X)を有するDNAサンプルが、コピー数とハイブリダイゼーション強度との間の関係をモデル化するために使用される。
【0094】
(欠失および増幅の検出)
クロスハイブリダイゼーションは、標的が存在しない場合に人工的に高い強度値を与え得、そして単独で強度測定を使用すると、複数の欠失を検出失敗することを生じ得る。一つの実施形態において、判別比(DR)が、単独でか、またはPM強度平均の比を使用する方法と組み合せていずれかで欠失を検出するのに使用され得る。一つの実施形態において、その判別比のデータは、欠失の検出において強度データよりも重み付けされる。
【0095】
SNPが欠失した場合、実験サンプルの判別比は、正常参照サンプルと比較してセンス鎖とアンチセンス鎖の両方で非常に低いことと予期される。従って、非常に有意なp値が得られるはずであり、そのSNPが欠失されているとして標識される。増幅したSNPについて、実験サンプルは、両片の鎖上で正常サンプルと比較して高い強度を有し(PMにより測定)、増幅しているとして標識され得る。この分析は、推定上の欠失および増幅を同定するのに近傍のSNPからの情報を必要とせず、その結果、分解能は、個々のSNPレベルである。
【0096】
一つの実施形態において、p値は、染色体の位置に対してプロットされ得、増幅または欠失した関心のある領域を同定する。アレイによってアッセイされる近隣のSNPによって表わされる別個の有意な増幅領域もしくは欠失領域が、この方法で同定され得る。SNP分解能が高ければ高いほど、同定され得る増幅領域または欠失領域はより洗練され得る。
【0097】
(コピー数変化の推定)
好ましい実施形態において、直線関係は、既知のコピー数のサンプルを使用して同定される。好ましい実施形態において、強度比の対数が、コピー数変化の対数と直線的に関係する。別の実施形態において、直線関係が、コピー数と強度比との間で確認される。好ましい実施形態において、コピー数は、約50までであるが、1000程度の多さのコピー数が、開示された方法を使用して対数強度と相関付けられることが示されている。
【0098】
一つの実施形態において、高密度オリゴヌクレオチドアレイを使用してゲノム全体のコピー数を推定するための方法が、開示される。LOHの分析は、DNAの獲得及び喪失と合わせられ、新規の構造が同定され得る。100人より多い正常個体からなる参照セットに対する比較により、p値を計算することが可能になり、統計的に有意な獲得及び喪失が確認され得る。SNP特異的な参照分布が、プローブセットと全体にわたる正規化シグナル強度における固有の分解を説明するために使用される。
【0099】
一つの実施形態において、個別のSNP分析が、最初のアプローチとして使用される。別の実施形態において、メタアナリシスが使用される。メタアナリシスにおいて獲得または喪失に向かう一貫した傾向を示す連続したSNPに、さらなる重みおよび有意性が、与えられる。メタアナリシスは、X染色体のコピー数変化の例における感度、ならびに常染色体のSNPの場合におけるシグナル対ノイズ比を改善し得る。しかし、メタアナリシスは、コピー数変化の長い領域に対して偏っていることに起因して注意を必要とし得、長距離に広がらない複雑な構造を過小評価し得る。また、軽度であるか一貫したシグナルが検出されるコピー数変化の境界付近の領域は、メタアナリシスによるその変化の絶対長の過大評価をもたらし得る。従って、個別の分析を使用する所定のp値閾値についての完全に偽陽性率は、X染色体と常染色体の両方についてのメタアナリシスよりも低い。両アプローチは、正常な参照セットを使用し、その結果、10,000個より多いマーカーに関する不可避の問題は、複数の仮説を試験するという問題である。部分的解決策として、そのp値閾値は、獲得および喪失に関連する一貫により低い感度(より高い陰性比)を使う高い特異性(低い陽性比)を保証するように厳密に設定され得る。
【0100】
一つの実施形態において、個別の分析が、高い特異性に起因して診断ツールについての好ましい実施形態であり得るのに対し、メタアナリシスは、全ての推定上の軽度の変化(高い陽性率)の同定が必要とされる場合の、スクリーニングツールについての好ましい実施形態であり得る。遺伝子増幅は、神経芽細胞腫において1Kb〜数百Kbの範囲の比較的単純な連続した領域であり得る(Amler,L.C.,およびSchwab,M.,(1989),Mol Cell Biol,Vol.9,pp.4903−13)か、または乳癌において見られるように20Mbまでの複雑な異常領域であり得る(Guanら(1994),Nat Genet,Vol.8,pp.155−61およびSzepetowskiら(1993),Genomics,Vol.16,pp.745−50)ので、1点分析が、必要であり得る。平均近隣点に対するカーネル平滑化、変化点法および隠れマルコフ鎖モデルといった、アレイデータを分析するのに使用され得る複数の代替的な統計学的方法が存在する。一つの実施形態においてこれらのアプローチは、そのモデルを養成するための長さおよびコピー数に関して一定範囲の定義された変化を含む真の正のコントロールサンプルを使用して、開発される。
【0101】
一つの実施形態において、LOHを起こし得る領域が、対のサンプルを使用する従来の方法の代わりに確率ベースモデルを使用して同定され、一致しない癌サンプルの分析を可能にする。このアプローチは、正常な参照セットに由来する対立遺伝子頻度を使用することによりホモ接合性遺伝子型呼出しの広がりの確率を計算する。その結果、このモデルベースアプローチは、正常コントロールサンプルが利用可能でない場合にLOH領域に対する指針として役立ち得る。連鎖不均衡領域は、ゲノム全体にわたって変化し得るので、この確率モデルは、各SNPを独立して処理することにより、LOH領域の有意性を過大評価する傾向があり得る。一旦、ホモ接合性の有意な広がりが、同定されると、それが本当にLOHを表すかどうかを解釈することは、ヒトゲノムにおけるホモ接合性のセグメントの存在に起因して困難となり得る(Clark,J.ら(2002),Genes Chromosomes Cancer, Vol.34,pp.104−14)。8,000個の短い直列反復多型を使用して、複数のCEPHファミリーは、10cMより大きいホモ接合性セグメントを示した(Broman,K.W.,およびWeber,J.L.,(1999),Am J Hum Genet,Vol.65,pp.1493−500)。
【0102】
一つの実施形態において、LOHが、腫瘍細胞と正常細胞との混合物において同定される。例えば、その混合物は、30%までの正常DNAと70%以上の腫瘍DNAとを含み得、およびLOHを起こすSNPのうちの75%より多くが同定され得る。一つの実施形態において、正常DNAは、そのDNAの50%までであり、腫瘍DNAは、そのDNAの50%以上である。
【0103】
複数の実施形態において、DNAは、多重座特異的PCRによって増幅される。好ましい実施形態において、DNAは、アダプターライゲーションおよびシングルプライマーPCRを使用して増幅される。平衡PCR(balanced PCR)(Makrigiorgos,ら(2002),Nat Biotechnol, Vol.20,pp.936−9)といった他の利用可能な増幅方法もまた、使用され得る。
【0104】
別の実施形態において、サンプルの転写プロフィールが、対立遺伝子の不均衡を有するゲノム領域についての機能的役割を同定するために、コピー数変化と組み合わせられる。
【0105】
別の実施形態において、その方法は、100,000、200,000、500,000、または1,000,000個より多いのSNPからのSNPの情報に適応するより拡大され、ゲノム全体にわたる高分解分析により腫瘍細胞の複雑な染色体構成の基礎となるゲノムの変化を解明するのを可能にする。
【0106】
特徴の抽出:Mapping 10k Arrayは、各SNPについてセンス鎖とアンチセンス鎖との間で等しく分割された20個のプローブ対(25マー)、対立遺伝子Aについての10プローブ対および対立遺伝子Bについての10プローブ対を有する。一つのプローブ対は、完全一致セルおよび一塩基ミスマッチセルを含む。20プローブ(S)にわたるPM強度の相加平均の対数が、所定の任意のSNPについての基本的な測定値として使用される。これは、近似のガウシアン(Gaussian)分布を各サンプルに関して有し、以下:
【0107】
【数44】

ここで、PMは、プローブ対iの完全一致セルの強度である。Sが計算された後、サンプルにわたってその比較性を増大するために全ての常染色体SNPについての平均0ならびに分散、を有する規模にされる。
【0108】
【数45】

j=1,...,Jは、チップ上の全ての常染色体SNPである。
【0109】
強度は、非特異的クロスハイブリダイゼーションに起因して、ホモ接合性欠失について高くなるものであり得る。対数平均強度(S)に加えて、完全一致プローブとミスマッチプローブの間の差を測定する判別比(DR)が、補助的基準として使用される(Liuら 2003)。
【0110】
【数46】

好ましい実施形態において、標的癌細胞株におけるコピー数変化の有意性が、正常参照セットとの比較によって推定される。その標的細胞株の遺伝子型は、好ましくは、各SNPについて、癌細胞株が同じ遺伝子型を共有する正常サンプルとのみ比較されるように、そのような比較の前に考慮される。これは、比較が、複数のサブタイプの混合物の代わりに、均一な分布内でなされ得ることを可能にする。標的細胞株の遺伝子型が不明である場合、もしくは特定の遺伝子型を有する参照サンプルの数が小さい場合、全ての参照サンプルが、その分布を推定するために使用され得る(例えば、10未満である)。塩基の想定は、所定の任意のSNPj、およびその遺伝子型g(g=AA、ABまたはBB)について
【0111】
【数47】

が、ガウシアン分布に従い(正規性についてShapiro−Wilk’s W試験に基づいて、一つの例においては、そのSNPの3.3%のみが、それらの参照分布において上で0.001未満のp値を有し、より厳密な0.0001のカットオフが使用される場合、これは、さらに0.7%に減少する(Royston,P.,(1982),Vol.31,pp.115−124を参照のこと);そのような分布の平均および分散が、正常参照サンプルを使用して推定されることである。
【0112】
【数48】

ここでk=1,...,Kは、標的細胞株と同じ、遺伝子型gを有する正常サンプルを表す。正常サンプルが、分離した獲得領域および喪失領域を含み得ることに対し、好ましい実施形態において、平均から3標準偏差より多く離れた値を有するように定義されるアウトライアーデータポイントは、その参照分布の平均および分散の推定から除外される。110個の参照サンプルに由来する1つの例示的分布において、そのSNP分布の90%より多くは、アウトライアーを有さず、約9%が1つのアウトライア−を有し、0.5%未満が2つのアウトライアーを有し、0.01%未満が、3より多くアウトライアーを有する、このことから、取り除かれるアウトライアーの総数は低いことが予期される。
【0113】
実験サンプルが、SNPjに関して、遺伝子型gおよび値
【0114】
【数49】

を有すると仮定すると、正常の参照分布からの
【0115】
【数50】

の差の有意性は、
【0116】
【数51】

のp値によって測定される。
【0117】
(メタアナリシス)
各SNPjについて、遺伝子型gにて、有意性の計算についての個体テストの統計量は、
【0118】
【数52】

でり、ここで、
【0119】
【数53】

は参照サンプルの平均であり、
【0120】
【数54】

は参照サンプルの標準偏差である。以前に説明されたように、
【0121】
【数55】

は、標準正常分布を有すると想定され、SNPは独立していると想定されている。従って、ゲノムにおける、点mで開始して点nで終了する所定の任意の広がりについて、
【0122】
【数56】

である。このスコア
【0123】
【数57】

のスコアは、標準Φ関数を使用することにより確率に変換され得、このスコアはメタp値と称され、適切な場合、各SNPの個別のp値について置換され得る。メタアナリシスは、連続したマーカーが同じ変化方向を示す場合にもっとも適切である。従って、点mで開始して点nで終了する候補の広がりは、
【0124】
【数58】

といったとして定義される。開始点はj=1から、すなわち、染色体の始まりであり、探索は、その染色体の終点までそのような候補広がりについて実施される。個別のp値が、所定の任意のSNPについてのメタp値よりも有意でない場合、前者は、後者によって置換される。
【0125】
(ヘテロ接合性喪失(LOH))
一つの実施形態において、ヘテロ接合性喪失は、ホモ接合性の観察される広がりと比較することより推定される。二つ以上連続するSNPが、ホモ接合性であり、それらのSNPの各々が、観察される対立遺伝子頻度によって決定されるホモ接合性である確率の積である。遺伝子型の情報を使用して、LOHを示す統計的に有意なゲノムの間隔は、正常個体の同じ参照セットを使用して、既知の対立遺伝子頻度に基づいてホモ接合性マーカーの連続した広がりの確率を計算することにより、同定され得る。ホモ接合性である確率は、各個別のSNPiについて、以下の式、
【0126】
【数59】

で計算され得る。
【0127】
各SNPが独立して扱われる場合、全てホモ接合性である連続したSNP(点mから点nまで)の広がりの確率は、
【0128】
【数60】

である。そのようなホモ接合性の広がりが定義された後、その強度情報、(すなわち、p値および傍数変化推定)が、LOH領域のコピー数変化(喪失または増幅)を決定するために、分析され得る。LOHの極端な場合である完全な欠失について、有意なp値を有する低い判別比は、確認測定として使用され得る。
【0129】
別の実施形態において、アレイは、WGSAといったゲノムサンプルの複雑性減少増幅から生じる増幅サンプルにおいて存在すると予測されるフラグメントの存在または不在を検出するために設計され得る。25マーのプローブが、増幅サンプルにおいて存在すると推定される各領域について設計され得る。減少した複雑性のサンプルが、生成され、そのアレイにハイブリダイズされ、そのハイブリダイゼーションパターンは、欠失している領域を同定するために分析される。一つの実施形態において、プローブは、減少した複雑性のサンプルにおいて存在すると推定される、100塩基対領域毎について設計される。実験サンプルは、増幅され、そのアレイにハイブリダイズされ、ハイブリダイゼーションがおこらないかまたは減少する領域は、そのゲノムサンプル由来の領域の喪失を示している。
【0130】
一つの実施形態において、ゲノムサンプルは、ヒトゲノムDNAであり、そのサンプルは、XbaIを使用して消化され、フラグメントが一般的なアダプターに連結され、PCRによって増幅される。生じる増幅された減少した複雑性のサンプルの複雑性は、約40メガベースであると推定される。1つの25マープローブが、その減少した複雑性のサンプルにおいて100塩基対ごとに設計され得る、約400,000個の完全一致プローブおよび別の400,000個のミスマッチコントロールプローブを生じる。プローブ長は変化し得、例えば、プローブは、15nt長、17nt長、21nt長、25nt長、または30〜60nt長であり得る。
【0131】
ゲノムにおける再配列もまた検出され得る。一つの実施形態において、プローブは、増幅された減少した複雑性のサンプルにおける特定のフラグメントの存在または不在を検出するために設計される。この実施形態において、選択された制限部位の付近にあり選択されたサイズ範囲であるフラグメントを検出するために設計されたアレイが、使用され得る。遺伝的再配列は、選択されたフラグメントが選択された条件下でもはや効率的に増幅しないように、フラグメントのサイズにおける変化を生じ得る。これらのフラグメントに対するプローブは、ハイブリダイゼーション後にシグナル強度を減少する。これは、再配列を示し得る。
【0132】
開示された方法は、複数の適用のために使用され得る。例えば、この方法は、細胞分裂を追跡するために使用され得る。細胞分裂の間、DNAは複製され、その結果、常に複数の染色体領域が余分なコピーとして存在する。その方法は、細胞分裂の選択された段階においてどのゲノム領域が複製されたかを決定するのに使用され得る。その方法は、癌または他の疾患状態にしばしば関連するクロスオーバーハイブリダイゼーションおよび遺伝する再配列を追跡するために使用され得る。その方法は、開示された方法によって増幅が検出された場合、患者の結果または予後を予測するため、患者のための処置レジメンを選択するため、またはサンプルを癌性であるような細胞を分類するために、使用され得る。異なる種類の癌が、ゲノムの異なる領域の増幅および異なる程度への対する領域の増幅によって、特徴付けられ得る。その方法は、そのような分類についての基準を確立するのに使用され得、および確率された基準に従って、サンプルを分類するために、使用され得る。
【0133】
好ましい実施形態において、上記の方法は、癌を診断するのに使用される。癌は、組織サンプルにおける一つ以上のゲノム領域の喪失、一つ以上のゲノム領域の増幅または一つ以上のゲノム領域の再配列にしばしば関係する。これらのゲノムの変化の検出は、癌を診断するためまたは腫瘍の悪性度をモニターするために使用され得る。一つの実施形態において、遺伝子増幅の量は、その組織が、前癌性または癌性であるか否かを同定するために決定され得る。
【0134】
一つの実施形態において、プローブは、そのプローブセットが、増幅された減少した複雑性のサンプルにおいて存在すると予測されるフラグメントの存在または不在の区別のために最適であるように、プローブハイブリダイゼーションモデルによって選択される。インシリコ消化を使用して、ゲノムが、所定の酵素または複数の酵素の組み合せにより消化される場合に生じるフラグメントの予測が可能であり、プローブが、インシリコ消化を使用して存在すると予測されるフラグメントの存在または不在を検出するのに使用される。複数の実施形態において、コンピュータシステムが、どの配列が減少した複雑性のサンプルにおいて存在するのかを予測するのに使用され、その複雑性は、選択された方法によって減少する。
【0135】
フラグメントの予測可能なサブセットの増幅を生じる複雑性を減少する任意の方法が、減少した複雑性のサンプルを生成するのに使用され得る。そのアレイは、使用される複雑性の減少方法、および減少した複雑性のサンプルにおいて存在すると予測されるフラグメントに依存して、設計され得る。例えば、複雑性を減少する他の方法としては、AFLP(本明細書中に参考として援用される、米国特許第6,045,994号を参照のこと)および任意配列プライマーPCR(AP−PCR、本明細書中にその全体において参考文献として援用される、McClellandおよびWelsh、PCR Primer:A Laboratory Manual,(1995)編、C.DieffenbachおよびG.Dveksler,Cold Spring Harbor Lab Press,p203を参照のこと)が挙げられる。サンプル調製のさらなる方法、および核サンプルの複雑性の減少のための技術は、Dongら、Genome Research 11,1418(2001)、米国特許第6,361,947号、同第6,391,592号および米国特許出願第09/512,300号、同第09/916,135号、同第09/920,491号、同第09/910,292号、同第10/013,598号、および同第10/264,945号(これらは本明細書中でその全体が参考として援用される)に記載される。
【0136】
増幅方法は、これらのフラグメント、(例えば、400塩基対〜800塩基対のフラグメント)のサブセットを増幅するために最適化され得る。アレイが、選択された断片化および増幅条件のセット下のセットで増幅されると予測されるフラグメントの存在または不在を検出するために設計され得る。そのアレイ上のプローブは、各フラグメント内の選択された領域にハイブリダイズするように設計され得る。一つ以上のプローブが、各フラグメントについて設計され得る。そのプローブは、経験上の基準を使用して、ハイブリダイゼーションについて最適化され得る(例えば、米国特許出願第10/017,034号(本明細書中で、その全体が参考として援用される))を参照のこと。異なるアレイが、複雑性の減少したサンプルを生じるように使用される方法に依存して設計され得る。
【0137】
ハイブリダイゼーションの前に、減少した複雑性のサンプルにおけるそのフラグメントが、標識され得る。別の実施形態において、そのフラグメントは、ハイブリダイゼーションの前にさらに増幅される。複数の実施形態において、そのフラグメントは、DNAであり、RNAが、そのフラグメントから合成され、そして、アレイにハイブリダイズされる。
【0138】
別の実施形態において、複雑性の減少したサンプルはゲノムの全領域を問合わせるように設計された配列にハイブリダイズされる。プローブは、ゲノム全体を通して均一に配置され得る(例えば、約100塩基毎、200塩基毎、1000塩基毎、2500塩基毎、10,000塩基毎および100,000塩基毎に1つのプローブ)。
【0139】
一つの実施形態において、サンプルは、ハイブリダイゼーションの前にサンプルの複雑性を減少することなくアレイへ直接的にハイブリダイズされる。アレイは、ゲノムの各領域について代表的なプローブを使用してゲノムの全領域の存在または不在を検出するように設計され得るか、またはゲノムの選択された領域を検出するように設計され得る。
【0140】
シングルプライマーが、ゲノムの代表的な部分を増幅するの使用され得、次に、そのDNAの一本鎖または二本鎖由来の完全一致(PM)プローブおよびミスマッチ(MM)プローブのセットを含む高密度オリゴヌクレオチドアレイに対するハイブリダイゼーションを介してSNP遺伝子型決定され得る。例えば、対のPM強度値とMM強度値との間の判別比を使用するアルゴリズムが、ホモ接合性の欠失領域を同定するのに使用され得るか、または中間値PM強度が、遺伝子増幅領域を同定するのに使用され得る。チップ強度の正規化の後、実験サンプルに起因するSNPの判別比、およびPM強度値は、正常な個体を含む参照セットから誘導される分布と比較され得る。一つの実施形態において、サンプルセットは、400よりも多い、500よりも多い、または1000よりも多い個体を含み、DNAのコピー数変化を有する共に統計的に有意な領域が同定されることを可能にする。この方法は、任意の癌性組織(例えば、乳癌、前立腺癌、肺癌、肝臓癌、脳癌、骨癌、皮膚癌、胃癌および結腸癌)におけるコピー数変化を検出するのに使用され得る。
【0141】
特定の遺伝子(例えば、腫瘍抑制因子)のホモ接合性の欠失が、腫瘍形成性であることが公知である。p53のホモ接合性の欠失は、種々の腫瘍の型と関連することに対して公知である。特定の遺伝子(例えば、発癌遺伝子)の増幅は、腫瘍形成性でもあり得る遺伝子の過剰発現を生じ得る。種々の腫瘍において増幅される発癌遺伝子の例としては、c−myc、c−abl、c−myb、c−erbB、c−K−rasおよびmdm2が挙げられる(Genes VI、B.Lewin(1997) 1144(本明細書中でその全体が参考として援用される)を参照のこと)。その方法は、癌、または別の疾患、もしくは表現型と関連する新規なホモ接合性欠失を同定するのに使用され得る。別の実施形態において、その方法は、実験サンプルが、癌または別の疾患もしくは表現型と関連することが公知であるかまたは考慮される一つ以上のホモ接合性欠失を有するか否かを決定するのに使用され得る。
【0142】
染色体領域のホモ接合性の欠失は、他の障害(例えば、男性の性腺機能低下症(Gromollら、J Clin Endocrinol Metab 85:2281−2286,2000)、遅発性筋ジストロフィー(Pulkkinen Lら、Hum Mol Genet 1996:5(10):1539−1546))を発症することが、公知である。ホモ接合性の欠失はまた、親のHIV−1感染に対する防御といった有利な表現型を有することが、公知である(Kupferら,AIDS,1999年6月18日;13(9):1025−8を参照のこと)。
【0143】
その方法は、発現することが公知のゲノムの領域または既知遺伝子もしくは疑わしい遺伝子を含む領域に、制限されない。プローブは、任意のゲノム領域に対して設計され得る。複数の実施形態において、さらなるアレイは、既知の反復配列の領域についてのプローブを除外するように設計される。
【0144】
一つの実施形態において、発現されるRNAは、そのアレイにハイブリダイズされ、RNAに起因するハイブリダイゼーションパターンが、ゲノムサンプルに起因するハイブリダイゼーションパターンと比較される。複数の遺伝的領域が変異した発現は、ホモ接合性の欠失に類似した表現型において生じ得る。これらの遺伝子は、ゲノム物質がそのアレイににハイブリダイズされるが、その発現パターンは、正常なものから変異している場合において、正常であるように見える。
【0145】
開示された遺伝子量技術は、複数の疾患および適用のために遺伝子コピー数を測定するのに適用され得る。癌に加えて、巨大な遺伝子の複製および欠失が、α−サラセミア、およびデュシェーヌ型筋ジストロフィーならびにベッカー型筋ジストロフィーといった疾患と関連して見出されている(例えば、Armourら Human Mutat 20:325−337(2002)を参照のこと)。その方法は、例えば、構成的異常、後天性異常、数的異常、構造的異常、およびモザイク現象を含む、複数の染色体異常を同定するのに使用され得る。構成的な異常は、全体にわたって個体に影響を及ぼす。その染色体のエラーは、胚に存在した。それは、受精前または受精した接合体において起こり得る。そのような障害としては、21トリソミーといった染色体の先天的症候群、ターナー症候群等が挙げられる。後天性異常は、癌のように他の組織は正常なままで、一つの器官のみに影響を及ぼす。用語「構成的な(constitutional)」および「後天性」は、本当に全く一般的な用語であり、臨床実務において遭遇する任意の持続性の変化に対して適用され得る。染色体異常はまた、均質であり得、その異常を有する研究された細胞全てを有する。正常細胞は存在し得るが、アッセイしない。複数の細胞のみがその異常を保有し、他が正常である(または別の異常を有する)場合のみ、そのサンプルまたは個体は、モザイクである。個体はまた、数的異常を有し、その場合、一つ以上の染色体は、正常な個体と異なる数で存在する。構造的変化が、染色体内で起こり得る。この変化は、遺伝物質の喪失または獲得がない場合に平衡になり得、染色体セグメントの欠失および/または複製が存在する場合に、不均衡になり得る。
【0146】
さらに、PM強度をコピー数に関連付けるために使用されるさらなる方法としては、近隣のSNPを計上する確率論モデルを使用して、SNPに関する物理学的データをそのモデルに組み込む、アルゴリズムが挙げられる。さらに、隠れマルコフ鎖およびマルコフ鎖といった方法が使用され得る。隠れマルコフ鎖を使用する方法については、Rabiner,L.R.およびJuang,B.H.(1986)IEEE ASSP Mag.3(1)4−16およびRabiner,L.R.(1989)Proceedings of the IEEE.77 257−285を参照のこと。別の実施形態において、1つまたは小数のPMプローブが、増幅または欠失の検出のために使用される。一つの実施形態において、SNPの領域にハイブリダイズする40プローブが、そのSNPの遺伝子型決定のために使用される。特異的ハイブリダイゼーションと非特異的ハイブリダイゼーションとの間の区別においてよく機能するプローブが、遺伝子型決定アレイを使用して遺伝子量の解析のために使用され得る。使用されるプローブは、個別のプローブの経験的な性能によって選択され得る。プローブの振る舞いは、最も大きな区別および最も高いシグナルを与えるプローブを経験的に同定するために分析され得る。プローブ特異的モデルについては、Li,C.およびWong,W.H.(2001)Genome Biology.2(8):research0032.1−0032.11,Li,C.およびWong,W.H.(1998)Proc Natl Acad Sci USA.98:31−36およびMei,R.ら(2003)Proc Natl Acad Sci USA.100:11237−11242を参照のこと。別の実施形態において、変化点分析が使用される。変化点分析の使用方法については、Olshen,A.B.およびVenkatraman,E.S.(2002).Proceedings of the Joint Statistical Meetings,Sen,A.およびSrivastava,M.S.(1975).Ann Statist.3 98−108およびYao,Y−C.(1988)Statistics & Probability Letters.6 181−189を参照のこと。別の実施形態において、LOH領域を同定する場合、連鎖不平衡(LD)についての情報が考慮される。二つの近接するSNPがホモ接合性である確率は、それらSNP間のLDが原因となり、個別の確率の積よりも高い。なぜなら、これらの事象は独立していないからである。LDおよびLOHの推定については、Balding,D.J.,ら Handbook of statistical genetics.(2001)John Wiley & Sons,LTDを参照のこと。
【実施例】
【0147】
(細胞株および核酸の単離)
9種のヒト乳癌細胞株(BT−20,MCF−7,MCF−12A,MDA−MB−157、MDA−MB−436、MDA−MB−468、SK−BR−3、ZR−75−30)および二つの同系のヒト乳癌細胞株(Hs−578TおよびHs−578Bst)(Hackettら(1977)J Natl Cancer Inst,Vol.58、pp.1795−806)をAmerican Type Culture Collection(ATCC)から得た。正常なヒト乳房の上皮細胞株(HMEC)をCloneticsから得た。全ての細胞を、推奨される培養条件下で増殖させた。ゲノムDNAを、QIAGEN QIAamp DNA Blood Mini Kitを使用して単離した。3X染色体(NA04626)、4X染色体(NA01416)、ならびに5X染色体(NA06061)を含む細胞株由来のDNAおよび110個体の正常参照セット(雄48個体および雌62個体)のDNAを、NIGMS Human Genetic Cell Repository、Coriell Institute for Medical Research(Camden,NJ)から購入した。
【0148】
WGSAアッセイを、標的増幅工程に対する改変およびDNA標識工程に対する改変を除いて、Kennedyら(2003)の記載のように実施した。PCRによるDNAの増幅を、1×PCR緩衝液II(ABI)中の25ngのアダプター連続ゲノムDNA、0.75μMのプライマー、250μMのdNTP、2.5mMのMgCl、10単位のAmpliTaq Gold(Applied Biosystems(ABI))を含む各100μlの反応物の条件下で行った。サイクリング、95℃/3分、次に(95℃/30秒、59℃/30秒、72℃/30秒)を35サイクル、および72℃で7分間の伸長のように実施した。PCR産物を、QIAGEN MinElute PCR Purificationキットで精製し濃縮し、DNA濃度を、A260nmによって測定した。フラグメント化されたDNAを、105単位のTdT(Promega)および0.1429mMのDLR(Affymetrix)を含む1×TdT緩衝液中で、37℃にて2時間標識し、次に95℃で15分間熱不活化した。Affymetrix(登録商標)のGeneChip(登録商標)の10K Mapping Xba_131 Arrayに対するDNAハイブリダイゼーション、洗浄、染色およびスキャニングを、製造者(Affymetrix)の指示書に明示されるように実施した。正常参照セットを除く全てのサンプルを、二連で試験した。呼出し率は、全て88%より高かった。再現性は、全ての複製データにおいて高かった。平均の遺伝子型の一致は、99.7%であり、二つの鍵となる測定(対数強度(S)および判別比)はその両方が、複製間で0.97より大きい平均相関関係を有した。
【0149】
WGSA DNA混合実験を下記のように実施した:Hs−578TおよびHs−578Bst由来のゲノムDNAの濃度を、PicoGreen dsDNA Quantitation Assay(Molecular Probes)によって決定し、Hs−578Bst DNAをHs−578T DNAに対し、10%ずつの増分で添加した。
【0150】
定量PCRを、ABI Prism 7700 Sequence Detection System(ABI)を使用して実施した。PCRプライマーを、Primer Express 1.5ソフトウェア(ABI)を使用することにより設計し、QIAGENによって合成した。反応物(25ng DNAを含む25μl)を、SYBR−Green PCR Core Reagentsキット(ABI)を使用して調製した。増幅のための条件は以下の通りであった。50℃/2分間で1サイクル、95℃/10分間で1サイクル、次に(95℃/20秒、56℃/30秒、および72℃/30秒)を35サイクル。閾値のサイクル数を、Sequence Detector v1.7aソフトウェアを使用することにより得た。ヒトゲノムDNA(Roche)を正常コントロールとして使用した。全ての反応を2重で実行し、サイクル数の閾値を平均した。DNA量を、UV分光光度計により測定し、LINE−1エレメントに対して(9)で正規化した。相対的定量を比較Ct法(ABI User Bulletin #2,1997)を使用して実施した。c−MYC遺伝子およびp16遺伝子についての定量PCR反応を、アニーリング温度が60℃であることを除いて、記載されるように実施した。
【0151】
(コピー数の推定および有意性の計算)
下記の実施例において、コピー数および有意性の推定に対する3つの主要な要素:(1)用量応答実験、(2)PCRを使用するアルゴリズム結果の独立した検証、および(3)癌細胞株群を使用する既知の真の正の領域の確認、が存在する。コピー数とチップ強度との間の用量応答を、種々のX染色体のコピー数(例えば1X〜5X)を有するサンプルを使用して、試験し得る。チップ強度を示すために(I)を使用すると、用量応答の想定は、
【0152】
【数61】

であり、ここで、Iは、コピー数aの領域についての強度であり、Iは、コピー数bである同じ領域についての強度であり、Cabは、aおよびbによって決定される強度比である。
【0153】
【数62】

は、対数強度の近似値である。従って、対数変換は、
【0154】
【数63】

を導き、ここで、
【0155】
【数64】

は、aおよびbによって決定される対数強度比である。
【0156】
対数コピー数は、対数のコピー数と対数強度比との間の直線関係を想定することにより、推定し得る。直線は、式y=mx+bを有し、ここで、mは、直線の傾きであり、bはy切片である。好ましい実施形態において、yは対数のコピー数であり、Cは、強度比の対数である。傾きおよびy切片は、既知のコピー数の正常サンプルを使用して推定され得る。一つの実施形態において、傾きおよびy切片は、X染色体の既知のコピー数変化を伴うサンプルを使用して決定される。
【0157】
1X染色体、3X染色体、4X染色体および5X染色体を有するDNAサンプルからの結果を、2Xのサンプルと比較した。高い直線の相関関係が、このサンプル対の間で観察された。任意の所定の対について、直線の傾きはY=Xに対して平衡であり、式
【0158】
【数65】

を確認した。2Xを基準として使用して、各サンプルについて推定された対数強度比、
【0159】
【数66】

は、コピー数の対数強度と強力な直線関係を示した。このコピー数は、強度差を使用して、任意の所定の領域について推定され得る。好ましい実施形態において、X染色体の結果を、全ての常染色体に対して一般化するのに使用した。遺伝子型gおよび対数強度
【0160】
【数67】

について、SNPj
【0161】
【数68】

である。対数−対数直線モデルを、低範囲コピー数推定および高範囲コピー数推定の両方についての一般的な適合性が理由で、使用した。
【0162】
【数69】

は、対数強度比(log x/y=logx−logy)である。高コピー数範囲において、シグナルの強度における増加が、プローブの飽和に起因するアッセイにおいてプラトーに達し、対数−対数の直線関係は、より適切になり得る(Bignellら(2003)、Submitted、Vol.,pp.,)。これらの結果は、強度比が、コピー数変化を表すのに使用され得ることを示し、対数−対数直線モデルが、広い範囲のコピー数に適応するのに最も適切であることを示す。
【0163】
DNAコピー数変化を測定するための独立した定量PCR(qPCR)法を、染色体の獲得または損失の観察される領域を確認するのに使用した。99個の常染色体SNPのセットにおけるPCR反応を、SKBR3および正常な個体由来のゲノムDNAテンプレートを使用して実施した。このSNPセットは、完全には無作為ではなく、以前に既知であった獲得及び喪失、ならびに上記癌細胞株において同定された推定上の新規獲得および喪失の両方を含んだ。第一の定量gPCR確証実験を、7つの独立した染色体SNPに対するプライマー対を使用して実施し、1× DNAサンプルおよび5× DNAサンプルについてのΔCt値を決定した。各プライマー対が、正規化後にΔCtの絶対値においてわずかな差を示す一方、1Xサンプルと5Xサンプルの間に2.23サイクルの平均差が存在した(データは示されない)。増幅効率2.0を想定すると、このCtの差は、理論値2.32に近接する。WGSAを使用して推定されたコピー数は、ほぼΔCtの指数関数であり、ほぼ理論上の推定の式2ΔCt+1と付近にあてはまる。ΔCt値が低く、かつΔCtの増加と共により散乱する場合、その傾向は、緊密である。ΔCtと計算された有意性レベルとの間の強力な正の相関関係が、上記アルゴリズムを使用して観測された。わずかな点を除いては、、大きなΔCtの差を有するSNPの大部分は、非常に強大な有意性を示し、一方、わずかなΔCt差を有するSNPが、中程度〜低い統計学的有意性緩和を示す。その結果はまた、PM強度に対する補助的の測定基準として判別比の値を示す。一つのデータ点について、ΔCt値は、−5未満であり、ホモ接合性欠失を示唆する。しかし、可能なクロスハイブリダイゼーションに起因して、PM強度に基づく有意性は、ほんの中程度である。このSNPは、DRが適用される場合に、10−6未満のp値を有する大きな有意性を示し、その欠失の正確な同定を可能にする。推定されたコピー数と統計学的な有意性との間の関係も、また分析される。予期されるように、コピー数がホモ接合性の欠失を示す0に近づく場合、または高レベルの増幅を示す大きな正数に近づく場合、有意性は非常に大きくなる。これらの組み合せの結果は、その方法が定量技術において、染色体のコピー数変化を検出し得ることを示す。
【0164】
乳癌細胞株群を、二つの良好に特徴付けられた領域(すなわち、染色体8qおよび染色体9p)におけるコピー数変化について調査した。38個の乳癌細胞株のCGH分析は、サンプルの75%において8qの獲得を示し(Forozanら(2000)Cancer Res,Vol.60、pp.4519−25)、染色体9pの喪失が、乳癌において報告されている(Struskiら(2002),Cancer Genet Cytogenet,Vol.135、pp.63−90)。特に、染色体8q24のc−MYC癌遺伝子は、乳癌において共通に増幅されることが示されており(Escotら(1986)、Proc Natl Acad Sci USA、Vol.83、pp.4384−8およびRummukainenら(2001)Cancer Genet Cytogenet、Vol.126、pp.1−7)、一方、染色体9p21上のp16腫瘍サプレッサーは、種々の腫瘍型において欠失されることが示されている(Kambら,(1994),Science,Vol.264、pp.436−40およびCairnsら(1995)、Nat Genet,Vol.11、pp.210−2)。個別のSNPについてのコピー数の推定は、一定領域(例えば染色体)にわたってマッピングされ得る。遺伝子型決定アレイは、ゲノム全体に広がるSNPのサブセットに関する情報を提供し得る。そのアレイによって遺伝子型決定されるSNPのセットにおいて最も近隣に存在するSNPについてのコピー数の推定に注目することにより、より大きな領域のコピー数の推定がなされ得る。一つの実施形態において、推定値を、50Mbから140Mbまでの第8染色体の領域についての4つのサンプルにわたって比較した。c−MYC付近のゲノム領域は、三つの癌細胞株において中程度〜非常に強い有意性で増幅されたようであり、正常コントロール(Hs−578Bst)において増幅されなかったようであった。これは、3つ全ての細胞株が、8q23−q24における獲得を含むことを示す公表されたCGHの結果と一致している(Kalioniemiら(1994)、Proc Natl Acad Sci USA Vol.91、pp.2156−60)。定量PCRを、c−MYCプライマー対を使用して実施し、コピー数の増加を確認した。SK−BR3、MCF−7、ZR−75−30およびHs−578BstについてのqPCRにより推定したc−MYCコピー数は、それぞれ、21、7.5、10.6および3であった。実施例において使用されるアレイは、c−MYC遺伝子それ自体に由来するSNPを含まないが、最も近接する二つのSNPは、c−MYCに対して300Kb近位に位置するSNP55150、およびc−MYCに対して196Kb遠位に位置するSNP511315である。これらのSNPについてWGSAおよび定量PCRの結果を表1において要約する。これらは、c−MYCを取り巻く領域が、上記の4つの細胞株の内3つにおいて増幅されることを確認した。
【0165】
また、上記の4つの細胞株を、0Mbから40Mbの第9染色体の領域にわたって比較した。WGSAの結果は、これら細胞株の内3つが、p16構造遺伝子内に位置するSNP139369によって決定されるようなp16の領域における有意な欠失を有することを示す。このSNPならびに両方のSNPを、さらに定量PCRによって分析した。その結果を表1に要約する。PCRの結果は、独立してp16の欠失を確認する。主に、PCRおよびコピー数のアルゴリズムは、既知の変化を有する二つのゲノム領域(すなわち、c−MYCおよびp16)について高度に相関した結果を示す。
【0166】
SK−BR−3 第8染色体の分析およびBT−20 第9染色体の分析はまた、開示された方法の高度な分解能を示す。SK−BR−3は、二つの近接する増幅セグメントをc−MYC付近に示す。第一の長い方のセグメントは、118.96Mbから125.42Mbに広がる。第二の短い方のセグメントは127.52Mbから127.65Mbの範囲である。第一および第二のセグメント由来の12個の代表的なSNPを、PCRによって分析し、コピー数の増加を確認した。定量PCR(ΔCt=−0.3)とコピー数のアルゴリズム(p値=0.43)の両方を使用して増幅しないとスコア付けされるこれらの二つのセグメントを中断させるような、一つのSNP(719292)が存在する。BT−20は、コピー数変化を示さないSNPによって隣接される一点のホモ接合性の欠失(p16)を含む(表1)。これらの二つの例は、上記の方法が、一点分解で増幅または欠失を検出するのに使用され得、および種々のコピー数で存在するゲノム領域間の境界を示すのに使用され得ることを示す。
【0167】
Mapping 10K Array上のプローブ配列が、対立遺伝子特異的ハイブリダイゼーションによってSNP遺伝子型について特異的に選択され得る一方、コピー数変化についての高感度および特異性に関しては最適化されないかもしれない。しかし、X染色体のSNPのうちの96%よりも多くが、対数(シグナル強度)と対数(コピー数)との間で0.85よりも大きい相関関係を有する。別の実施形態において、コピー数変化の推定について最適化されるプローブとともにアレイが、設計され得る。
【0168】
(メタアナリシス)
複数の実施形態において、その方法は、大きなコピー数の増加を伴うホモ接合性の欠失および増幅を検出するのに使用される。しかし、わずかなコピー数の変化しか伴わない欠失領域の比は、相対的に低い。一つの例において、1%偽陽性率で、1Xサンプル、3Xサンプル、4Xサンプルおよび5Xサンプルについての検出比は、それぞれ22.03%。12.35%、31.27%および54.86%であった。この適度な検出比は、用量応答の欠失よりもむしろ複数のSNPにおける参照セット分布の分散に起因する。全体的に、用量応答は、強力であり、302個全てのX染色体SNPについて、対数(強度)と対数(コピー数)の間に0.72より大きい相関関係を有する。さらに、このグループ間の292個のSNP(96.7%)は、0.85よりも大きい相関関係を有する。メタアナリシスは、同じ型の変化(獲得または喪失)を示す連続したSNPの数が多くなると、信頼性の増加を引き起こし(Salamonら(2000),Genome Res,Vol.10、pp.2044−54)、その結果、検出率の改善に適用されることを想定する。メタアナリシスは、良く改善された感度および特異性を示す受信者動作特性分析(Receiving Operating Characteristic)(ROC)曲線を左上の角へと実質的にシフトする。その結果は、0.2%未満の偽陽性率とともに、1X、4Xおよび5Xについての真の陽性(検出)率は、それぞれ91.06%、91.39%および98.34%であることを示す。3Xについての真陽性率が、1%未満の偽陽性率を使用することにより、50%より多くまで改善される。変化の範囲が連続しかつ大きいので、メタアナリシスは、これらのX染色体の例における個別の分析よりもよりかなり強大な効力を示し、上記SNPの大部分は、獲得または欠失へ向かう一貫した傾向を示すが、散在性の個別のシグナルは、参照セットの分散に起因して有意ではないかもしれない。
【0169】
一定範囲のp値の閾値の範囲にわたって常染色体を使用した個別の分析とメタアナリシス分析との比較を、表2にまとめる。所定のp値のカットオフについて、10個の乳癌サンプルにおいて検出されたSNPの平均数を、110個の正常サンプルで検出されたSNPの平均数で除算した。この値は、任意の所定の信頼閾値について、癌サンプル対正常サンプルのおおよその比(シグナル対ノイズ比)として役立つ。メタアナリシスを使用して、この比は、実質的に改善される(任意の10−10のp値カットオフについて個別の分析およびメタアナリシスについての比、それぞれ、8.6および148.2)。高いノイズ対シグナル比はまた、十分なSNPの密度を有する広範な領域に広がるゲノムの変化の数が、癌細胞株において比較的頻繁である一方、正常な集団においては、比較的まれであることを意味する。
【0170】
(LOH)
一致したHs578サンプルを、従来のLOH同定(一致したサンプル間のWGSAのSNP遺伝子型呼出しの比較)を、LOH同定のための確率モデルの適用と比較するのに使用した。そのモデルは、参照セットについての対立遺伝子頻度の情報を使用し、ホモ接合性の遺伝子型の任意の所定の広がりがランダムな機会に起因して起こり得る確率を計算する。その有意性は、網羅された領域における、ホモ接合性SNPの数が増加すると増幅する。従って、厳密な有意性のカットオフの使用は、多くの連続したホモ接合性呼出しに関するゲノム領域が、LOHの慣習的に定義された領域についての代理として機能することを可能にする。分析のために利用可能な一致した正常コントロールサンプルが存在しない場合、この適用は特に有用であり得る。この方法を、従来的に定義されたLOHマーカーを、この方法がどのように十分に捕捉するかに関して、一致したHs578対を使用して評価した。比較の結果を図3において概説する。従来のLOH分析によって定義される常染色体SNPが、全1293個存在する。これらのSNPは、正常コントロールにおいてヘテロ接合性であり、腫瘍サンプルにおいてホモ接合性である。これらのSNPの間で、70%より多くが、確率モデルを使用して10−8未満の有意性(p値)を有し、80%より多くが、10−6未満の有意性を有する。そのSNPのうちのなお約10%は、有意でないp値(>0.01)を有する。これは、従来的に定義されるLOHのSNPの大部分が、ホモ接合性呼出しの長い広がりに位置する一方、そのSNPのうちの約10%が、多くの連続したホモ接合性呼出しを伴なわずに存在する。対照的に、正常コントロールサンプルにおける11,205個全ての常染色体SNPについて、10−6未満のp値を有する広がりに属するSNPは存在せず、1%未満が、10−4の有意レベルを有する広がりに属する。従って、この特定のサンプル対について、10−6のp値の閾値は、確率モデルを使用して、従来的に定義されたLOHの80%を超える獲得をもたらす一方、このレベルの有意性の領域を含まない。この結果は、確率モデルが、LOHを受けるゲノム領域を同定し得、特に正常な一致サンプルが利用可能ではない場合、LOHを同定に対する代替的アプローチとして機能し得ることを示す。腫瘍細胞株においてLOHを受けるSNPのコピー数の分析は、約32%が1コピーを有し、51%が2コピーを有し、17%が中程度の増幅(8未満のコピー数)を有し、0.2%未満が、ホモ接合性の欠失または多倍数の増幅を示すことを示す。さらに、コピー数の分布は、LOHの同定のための二つのアプローチの使用の間で類似している。
【0171】
一旦ホモ接合性の広がりが定義されると、強度の情報は、その領域のコピー数変化およびその有意性を決定するのに使用され得る。興味深いことに、その一致した対は、明らかなコピー数変化が起こっていないLOHの領域を同定する。腫瘍の遺伝子型呼出しと正常な遺伝子型呼出しとを比較することによって、第12染色体および第17染色体の全長ならびに第5染色体上の90Mb〜170Mbは、LOHとして定義され得るが、有意なコピー数変化は観察されなかった。このパターンはまた、MCF−7において観察され、ここで、57Mbから77Mbまでの確率モデルで定義される77個のSNPを含むLOHの推定上の広がり(p値7.2E−16)は、コピー数の減少を示さない。さらに、SK−BR−3およびZR−75−30の両方は、3.8E−18(80SNP)および1.8E−24(120SNP)というそれぞれのp値で110Mbから125Mb〜135Mbまでの推定LOH領域を示すが、有意なコピー数の増加を示す。コピー数の減少も増加もないこれらのLOHの例は、現在使用される多くの一分子アプローチによって容易には同定されないかもしれず、そしてゲノム範囲のコピー数のプロファイリングとLOHの測定と合せることにおける力を示す。
【0172】
(混合実験)
腫瘍サンプルは、間質起源またはリンパ起源の正常細胞によってしばしば汚染され得る。レーザー捕獲顕微解剖またはフローサイトメトリ−といった方法が、腫瘍細胞について濃縮するために首尾よく使用されているが、生じた集団は、まれに、完全に純粋であり、その結果、ゲノム範囲のDNAコピー数のプロファイリングのために使用される分子方法は、不均一サンプルに適用するのに十分頑強でなければならない。一致した対Hs−578は、癌サンプル(Hs−578T)中に混合される漸増量の正常DNA(Hs−578Bst)の影響を試験することによる混合DNAサンプルに対するWGSAアッセイ、およびアルゴリズムの許容性を評価するために使用した。混合サンプルを、LOHにおける変化およびコピー数変化の検出における変化について、分析した。癌細胞株から誘導したDNAを、WGSAアッセイの前に、0%(純粋な癌サンプル)、10%、20%、30%、40%、50%、60%、70%、80、90%および100%(純粋な正常細胞サンプル)といった漸増する割合で、正常一致DNAと混合した。Hs−578BstおよびHs−578Tの様式的染色体数は、それぞれ46(2倍体)および59(低三倍体)であり、従って、DNA量による混合は、細胞数による混合を近似する。従来のLOH SNPの同定における変化は、確率モデルを使用して推定上のLOH領域と同様に観察された。正常DNAの寄与が増加する、従来的に定義されるLOHのSNP数が、減少する。同じ傾向に従って、上記確率モデルにより定義されるLOHの総数もまた、減少する。全体的に正常DNAの割合が30%以下である場合、LOHの変化の70%より多くが保持される。混合DNAが全量の30%〜50%に達する場合、有意なシフトが発生し、LOHの検出の約60%の喪失を生じる。正常DNAが60%以上で存在する場合、LOHをおこすほとんどのSNP(>98%)が、検出不可能である。
【0173】
LOH検出の遷移点とこれらのSNPのコピー数の間の関係もまた、試験した。この比較は、全量の99.8%を含む種々のコピー数を有するLOHのSNPの3つの群:1コピーの増加((407 SNP)、2コピーの増加((663 SNP)および中程度のコピー数(3〜8)の増加(221 SNP)に関する。平均に、正常DNAの割合が、混合サンプルにおいて増加すると、ホモ接合性呼出しを検出不能なことが、1コピーのSNPについて最初に起こり、次に2コピーのSNP、そして最後に中程度のコピーのSNPについて起こった。3つの群の間の差は、Kruskal Wallis試験を使用して、p値3.292e−05で統計学的に有意である。順位和検定を各対を比較するのに使用した。群の間の差についての下記のp値:0.00742(1コピーおよび2コピー)、0.00487(2コピーおよび中程度のコピー)、および1.349e−05(1コピーおよび中程度のコピー)が見出された。全ての比較は、Bonferroni補正して0.05レベルで有意であり、1コピーおよび中程度のコピーの群が最も有意である。
【0174】
獲得および喪失の検出に対する混合サンプルの効果も試験した。メタアナリシスを用いて関して混合サンプルにおいて検出されるコピー数変化の相対的な割合は、個別のSNP分析よりも大きい。10%、20%および30%の正常DNAの混合レベルで、最初の全量からの残りの検出可能なシグナルは、それぞれ、89.01%、85.65%、57.55%(メタアナリシス)および50%、25%、および21.43%(個別の分析)である。一旦、正常DNAの比率が、全サンプルの40%に達すると、これらの増幅SNPおよび欠失SNPの検出において有意な減少が存在する;混合サンプルが60%より多い正常DNAを含む場合、シグナルのほとんどは、検出不可能である。この傾向は、メタアナリシスおよび個別の分析についてあてはまる。これらの結果は、WGSAアッセイおよびアルゴリズムを使用したLOHの検出およびコピー数変化が、20%〜30%までの正常DNAを含む混合サンプルを許容し得ることを示す。
【0175】
(「正常」サンプルにおけるコピー数変化の測定)
110個の参照サンプルの参照セットを、増幅または欠失が、癌と診断されていない個体においてゲノム領域内において同定され得るかどうかを決定するために分析した。より具体的には、1点除外分析を110個サンプルの各々において実行した;一つのサンプルをこの分析から除外し、他の109サンプルを、参照分布を設計するのに使用し、各SNPの対立遺伝子の頻度を計算するのに使用した。「除外された」サンプルを、コピー数変化の頻度および有意性を評価するため、および除外されたサンプルにおけるホモ接合性呼出しの長い広がりを同定するために参照情報と比較した。その結果は、参照サンプルの実質的な割合が、有意なコピー数変化およびホモ接合性呼出しの長い広がりを有することを示した。110サンプルの間で、43サンプルは、p値が10−6未満で10個より多くの一点変化を有し、それらのうち11サンプルが、20個以上の有意な変化を有した。また、110サンプルの間で、8サンプルがp値が10−10未満で長いホモ接合性の広がりを有することが観察され、そのようなホモ接合性呼出しの長い広がりは、21.36Mbの平均範囲を有する。
【0176】
WGSAの実施例:ゲノムDNAを、5μl中の50ng/μlのヒトゲノムDNA(Coriell Cell Repositories)を、10.5μlのHO(Accugene)、2μlの10×RE緩衝液2(NEB,Beverly,MA)、2μl 10×BSA(NEB,Beverly,MA)、および0.5μlのXbaI(NEB,Beverly,MA)と混合することにより、XbaIで消化した。反応物を、30℃で2時間インキュベートし、次いで、この酵素を70℃で20分インキュベートすることにより不活性化し、そして4℃にした。反応物は−20℃で保管し得る
アダプターの連結のために、消化されたDNAを、1.25μlの、TE(pH8.0)中の5μM アダプター、2.5μlのT4DNAライゲーション緩衝液と混合し、そして1.25μlのT4 DNAリガーゼ(NEB,Beverly,MA)を最後に添加した。反応を、16℃で2時間インキュベートし、次いで、70℃で20分インキュベートし、そして4℃にした。そして25μlのライゲーション混合物を、75μlのHOで希釈し、−20℃で貯蔵し得る。
【0177】
PCRについて、希釈した連結DNA 10μlを、10μlのPCR緩衝液II(Perkin Elmer,Boston,MA)、10μlの2.5mM dNTP(PanVera Takara,Madison,WI),10μlの25mM MgCl、7.5μlの10μMプライマー(最終濃度0.75M)、2μlの5ユニット/μl Taq Gold(Perkin Elmer,Boston,MA)および50.5μlのHOと混合する。各アレイについて、4つの100μlの反応物を調製した。増幅を、以下のプログラムを使用して行った:95℃で3分間;95℃で20秒、59℃で15秒、72℃で15秒を35サイクル;および72℃で7分間の最終インキュベーション。その反応物を4℃で保持した。蓋加熱オプションを選択した。
【0178】
その後、PCR反応を、100μlのPCR反応物を500μlのPB緩衝液またはPM緩衝液と混合し、Qiagenカラム(Valencia,CA)へ導入することにより精製し、そのカラムを13,000rpmで1分間遠心分離した。フロースルーを捨て、エタノールを含む750μlのPE緩衝液をカラムに加えてサンプルを洗浄し、カラムを13,000rpmで1分間遠心分離した。フロースルーを捨て、カラムを13,000rpmでさらに1分間遠心分離した。フロースルーを捨て、カラムを新しいコレクションチューブ内に配置した。4サンプルの内2サンプルについて、30μlのEB溶出緩衝液(pH8.5)をQIAquick膜の中央へ添加し、サンプルを溶出させ、カラムを室温で5分間静置し、次いで13,000rpmで1分間遠心分離した。最初の2つのサンプル由来の溶出緩衝液を使用して、他の2サンプルを溶出させ、溶出液を混合した。DNAを定量し、48μlに20μgのDNAが含まれるように希釈した。
【0179】
上記DNAを、48μl DNA(20μg)、5μlのRE緩衝液4、および2μlの0.09ユニット/μlのDNaseを総量55μl中に混合することでフラグメント化した。反応物を37℃で30分間インキュベートし、次いで95℃で15分間インキュベートし、そして、4℃で保持した。
【0180】
フラグメントを、50μlのフラグメント化されたDNA(20μg)、13μlの5×TdT緩衝液(promega,Madison,WI)、1μlの 1mMのビオチン標識ddATP(NEN Life Science,Boston,MA)、および1μlのTdT(promega,Madison,WI)とともに37℃で一晩インキュベートし、次いで、95℃で1分間インキュベートすることにより標識し、次いで、4℃で保持した。
【0181】
ハイブリダイゼーション混合物は12μlの1.22M MES、13μlのDMSO、13μlの50×Denhart、3μlの0.5M EDTA、3μlの10mg/mlのニシン精子DNA、3μlの10nMオリゴB2、3μlの1mg/mlヒトCot−1、3μlの1% Tween−20、および140μlの5M TMACLである。70μlの標識DNAを、190μlのハイブリダイゼーション混合物と混合した。その混合物を95℃で10分インキュベートし、短く回転させ、47.5℃で保持した。200μlの変性した混合物を、アレイに47.5℃で16時間〜18時間、60rpmでハイブリダイズさせた。
【0182】
染色混合物は、990μlのHO、450μlの20×SSPE、15μlのTween−20、30μlの50%のDenhartであった。第一染色について、495μlの染色混合物を5μlの1mg/mlストレプトアビジン(Pierce Scientific,Rockford,IL)と混合し、第二染色について、495μlの染色混合物を0.5mg/mlのビオチン化抗ストレプトアビジン抗体(Vector Labs,Burlingame,CA)5μlと混合し、第三染色について、495μlの染色混合物を5μlの1mg/mlのストレプトアビジン、R−フィコエリトリン結合体(Molecular Probes、Eugene、OR)と混合する。標準条件下で洗浄し、染色した。
【0183】
(結論)
ゲノムDNAのコピー数における変化を同定する方法が開示される。ヘテロ接合性の喪失、ホモ接合性の欠失および遺伝増幅を同定する方法が開示される。その方法は、正常な組織と比較して癌性組織におけるコピー数変化を検出するのに使用され得る。10,000個より多いヒトSNPについてのプローブを含む遺伝子型決定アレイ対するハイブリダイゼーションによって、ゲノム範囲のコピー数の獲得または喪失を同定するための方法が、開示される。ゲノム全体にわたって、コピー数変化の推定が、SNP遺伝子型呼出しに関連する(LOH分析)。全ての引用された参考文献は、全ての目的のために、本明細書中で参考として援用される。
【0184】
本発明は、ゲノムサンプルにおけるコピー数を推定するための方法及びコンピュータソフトウェア製品を提供する。上記は例示的であって、限定的ではないことが意図されることが理解されるべきである。本発明の多くの変形が、上記の説明を検討すると当業者にとって明白である。例として、本発明は、主に高密度オリゴヌクレオチドアレイの使用に関して記載されているが、他の核酸アレイ、ゲノムDNAから生じるシグナル強度を測定する他の方法が、使用され得ることが、当業者により認識される。それゆえに、本発明の範囲は、上記説明を参照することなく決定されるはずであるが、代わりに、添付の特許請求の範囲を、請求の範囲が権利付与される等価物の全範囲とともに、参照して決定されるべきである。
【0185】
本発明は、上の実施例に関して詳細に記載されているが、種々の改変が、本発明の精神から逸脱すること無くなされ得ることが理解される。従って、本発明は、下記の特許請求の範囲によってのみ制限される。本出願において言及される全ての引用した特許、特許出願および刊行物は、本明細書中でその全体が参考として援用される。
【0186】
【表1】

【0187】
【表2】

【0188】
【表3】

【図面の簡単な説明】
【0189】
本明細書に組み込まれ、本明細書の一部を形成する、添付の図面は、本発明の実施形態を図示し、本明細書の記載とともに、発明の原理を説明するのに役立つ。
【図1】図1は、本発明の実施形態のソフトウェアを実施するのに利用され得る、コンピュータシステムの例を図示する。
【図2】図2は、図1のコンピュータシステムのシステムブロック図を図示する。
【図3A】図3は、2つのコピーX染色体を有する個体と比較して、X染色体の1、3、4、もしくは5コピーを有する個体からのX染色体上のSNPの対数強度のプロットを示す。図3Aは、個体のプロットを示し、図3Bは、実験値について観察される直線の関係を示す、コピー数の対数に対する強度比の対数のプロットを示す。
【図3B】図3は、2つのコピーX染色体を有する個体と比較して、X染色体の1、3、4、もしくは5コピーを有する個体からのX染色体上のSNPの対数強度のプロットを示す。図3Aは、個体のプロットを示し、図3Bは、実験値について観察される直線の関係を示す、コピー数の対数に対する強度比の対数のプロットを示す。

【特許請求の範囲】
【請求項1】
実験サンプルにおけるゲノム領域のコピー数を推定するための方法であって:
(a)該実験サンプルから核酸を単離する工程;
(b)該核酸の少なくとも複数の領域を増幅する工程;
(c)該増幅産物を標識する工程;
(d)ハイブリダイゼーションパターンを得るために、該標識した増幅産物をアレイにハイブリダイズする工程であって、ここで該アレイは、複数のSNPについての複数の遺伝子型決定プローブセットを含み、ここでプローブセットは、
(i)SNPの第一の対立遺伝子に対する複数の完全一致プローブ、
(ii)該SNPの第二の対立遺伝子に対する複数の完全一致プローブ、
(iii)該SNPの第一の対立遺伝子に対する複数のミスマッチプローブ、および
(iV)該SNPの第二の対立遺伝子に対する複数のミスマッチプローブ、
を含む、工程;
(e)該実験サンプルにおける該SNPについての測定値を得る工程であって、ここで測定値Sは、該ハイブリダイゼーションパターンにおける該SNPについての完全一致プローブのうちの少なくとも二つの強度の相加平均の対数である、工程;
(f)遺伝子型呼出しにおいて、実験サンプルに一致する複数の参照サンプルの各々における該SNPについてのS値を得る工程;
(g)(f)で得られた値を使用して、該参照サンプルのS値についての平均および標準偏差を計算する工程;
(h)(e)で得られた値から(g)で得られた平均値を減算することにより対数強度差を得る工程;および
(i)対数強度比と対数コピー数との間で直線関係を呈する該SNPを含む領域のコピー数を推定する工程;
を含む、方法。
【請求項2】
請求項1に記載の方法であって、前記実験サンプルおよび各参照サンプルにおいて遺伝子型決定された全てのSNPについての前記S値は、サンプル内の全ての常染色体のSNPについての平均がゼロでありかつ分散が1であるように、正規化される、方法。
【請求項3】
請求項1に記載の方法であって、前記推定されたコピー数変化についてのp値を計算する工程、ならびに該p値が、p値における閾値未満であるか否かを決定する工程をさらに包含し、該推定されたコピー数変化の方向は、該p値が該閾値未満である場合に有意である、方法。
【請求項4】
請求項2に記載の方法であって、前記推定されたコピー数変化についてのp値を計算する工程、ならびに該p値が、p値における閾値未満であるか否かを決定する工程をさらに包含し、該推定されたコピー数変化の方向は、該p値が該閾値未満である場合に有意である、方法。
【請求項5】
請求項1に記載の方法であって、前記S値が:
【数1】

を使用して計算され、ここで、PMは、プローブ対iの完全一致セルの強度であり、Xはある組における完全一致プローブの数である、方法。
【請求項6】
請求項5に記載の方法であって、Xは、1と30との間である、方法。
【請求項7】
請求項5に記載の方法であって、Xは、20である、方法。
【請求項8】
請求項1に記載の方法であって、コピー数が、
【数2】

を使用して推定され、
【数3】

は、実験サンプルcにおける遺伝子型gのSNPjについての完全一致プローブの強度の平均の対数であり、該実験サンプルにおいて遺伝子型決定された全てのSNPのS値に対して正規化されており、
【数4】

は、SNPjにおいて遺伝子型gの複数の参照サンプルにおけるSNPjについての正規化されたS値の平均値であり、bは、y切片であり、mは、既知のコピー数のSNPからの強度値をプロットすることにより定義される直線の傾きである、方法。
【請求項9】
請求項8に記載の方法であって、
【数5】

を使用して、推定されたコピー数変化の方向についてのp値を計算する工程、およびpがp値における閾値以下であるか否かを決定する工程をさらに包含する、方法。
【請求項10】
請求項8に記載の方法であって、bは、約0.693に等しく、mは、約0.895に等しい、方法。
【請求項11】
請求項10に記載の方法であって:
【数6】

を使用して、推定したコピー数変化の方向についてのp値を計算する工程、および
がp値における閾値以下であるか否か決定する工程、
をさらに包含する方法。
【請求項12】
請求項1に記載の方法であって、前記実験サンプルは、腫瘍サンプルである、方法。
【請求項13】
請求項1に記載の方法であって、前記実験サンプルは腫瘍細胞と正常細胞との混合物である、方法。
【請求項14】
請求項1に記載の方法であって、前記実験サンプルは、非ガン性サンプル由来のサンプルである、方法。
【請求項15】
請求項1に記載の方法であって、前記実験サンプルが、構成的異常、後天性異常、数的異常、構造的異常およびモザイク現象からなる群より選択された染色体異常を有すると推測されるサンプルである、方法。
【請求項16】
請求項8に記載の方法であって、既知のコピー数の前記SNPのうちの少なくともいくつかは、X染色体におけるSNPである、方法。
【請求項17】
請求項1に記載の方法であって、ここで(f)で得られた各S値であって、該S値の平均から3より大きい標準偏差である各S値は、(g)で推定された参照分布の平均および標準偏差の評価から除外される、方法。
【請求項18】
請求項1に記載の方法であって、コピー数の第二の推定が、実験サンプルについてのSNPの平均の判別比(DR)を、遺伝子型が一致している複数の参照サンプルにおける該SNPからの平均DRと比較することにより得られ、ここで20PM/MMプローブ対を有するプローブの組についての該DRは、
【数7】

を使用して計算される、方法。
【請求項19】
実験サンプルにおいて増幅または欠失したゲノム領域を同定する方法であって:
該実験サンプルから誘導された核酸サンプルを遺伝子型決定アレイにハイブリダイズする工程;および
複数の完全一致プローブPMiについてのハイブリダイゼーション強度を測定する工程;
【数8】

を使用して、該アレイによって遺伝子型を決定された各SNPについての値Sを計算する工程であって、ここでXは、個別のSNPについてのPMプローブの数である工程;
複数のS値を正規化して、該S値の平均が0でありかつ分散が1であるように工程;
複数の参照サンプルにおける該アレイによって遺伝子型を決定された各SNPについての正規化された平均のS値を得る工程;
該実験サンプルにおいて少なくとも一つのSNPのコピー数を推定する工程;
該実験サンプルにおける該SNPについての変化の方向を決定する工程;および
該予測された変化の方向における信頼レベルを決定するためにp値を測定する工程;
を包含する、方法;
【請求項20】
請求項19に記載の方法であって、コピー数が、推定コピー数の対数と強度比の対数との間の直線関係を想定することにより推定される、方法。
【請求項21】
請求項19に記載の方法であって、コピー数は:
【数9】

を使用して推定され、ここでbは約0.693であり、およびmは約0.895である、方法。
【請求項22】
請求項19に記載の方法であって、前記核酸サンプルが、全ゲノムサンプリングアッセイ(WGSA)を使用して該実験サンプルから誘導される、方法。
【請求項23】
二つ以上の連続したSNPのコピー数の推定値が、有意であるか否かを決定する方法であって、
複数の参照サンプルに対して、全てが、コピー数の推定された減少を示すか、または全てがコピー数の推定された増加を示すかのいずれかである二つ以上の連続したSNPを同定する工程;
【数10】

を計算する工程;
標準φ関数を使用して
【数11】

を確率へと転換してp値を得る工程;および
p値の閾値を使用して該推定値が有意であることを結論付ける工程;
を包含する、方法。
【請求項24】
少なくとも一つのヘテロ接合性の喪失領域を同定する方法であって、
実験サンプルのゲノムにおいてホモ接合性SNP遺伝子型呼出しの少なくとも一つの連続した広がりを同定する工程;
該連続した広がりにおける各SNPについてホモ接合性の確率
【数12】

を得る工程であって、ここで、
【数13】

であり;
該連続した広がりにおける該SNPの各々がホモ接合性である確率を、
【数14】

を使用することにより計算する工程;および、
【数15】

が、p値の閾値未満である場合、ホモ接合性の損失の領域として該SNPを含む領域を同定する工程;
を包含する、方法。
【請求項25】
請求項24に記載の方法であって、前記連続した広がりが、遺伝子型を決定される少なくとも10個のSNPである、方法。
【請求項26】
請求項24に記載の方法によってホモ接合性喪失領域として同定される領域のコピー数を推定するための方法であって:
【数16】

を使用して、前記実験サンプルにおける同定された領域における前記SNPのうちの少なくとも一つについてS値を計算して該S値を正規化する工程であって、PMは、プローブ対iの完全一致セルの強度であり、Xは、ある組におけるプローブ対の数である、工程;
複数の一致した遺伝子型呼出しの参照サンプル由来の少なくとも一つのSNPについて正規化したS値を計算する工程、および該SNPについて該参照サンプルの正規化したS値の平均を計算する工程;
該実験サンプルにおける該SNPについての正規化したS値を、該参照サンプルにおける該SNPについての正規化されたS値の平均と比較して、比を得る工程;および
該実験サンプルにおける該SNPのコピー数を推定する工程;
を包含する。
【請求項27】
請求項26に記載の方法であって、コピー数が、前記領域における2つ以上の連続したSNPについて推定される、方法。
【請求項28】
請求項26に記載の方法であって、p値が、
【数17】

を使用して、前記コピー数の推定値について計算される、方法。
【請求項29】
請求項26に記載の方法であって、前記複数の一致した遺伝子型の参照サンプルが、少なくとも10個のサンプルを含む、方法。
【請求項30】
コンピュータソフトウェア製品であって:
実験サンプルまたは参照サンプルにおける複数のSNPについての複数の完全一致強度値(PM)を入力するためのコンピュータプログラムコード;
各サンプルにおける個別のSNPの各々についての該強度値の平均の対数を計算するためのコンピュータコードであって、複数の参照サンプルが存在するコンピュータコード;
個別の実験サンプル内の平均値および参照サンプル内の平均値を正規化するコンピュータコード;
個別のSNPの各々についての該強度値の平均の対数を、該個別のSNPでの一致した遺伝子型呼出しの全ての参照サンプルにおいて、計算するためのコンピュータプログラムコード;
実験サンプル由来のSNPの対数平均強度と、該SNPでの遺伝子型呼出しにおける該実験サンプルと一致した参照サンプル由来の該SNPの対数平均強度との間の対数の強度差を計算するためのコンピュータプログラムコード;
対数−対数の直線モデルを使用して該SNPのコピー数を推定するためのコンピュータプログラムコード;
該推定されたコピー数によって示される変化の方向についてのp値を計算するためのコンピュータプログラムコード;
該計算されたp値が、選択された閾値未満であるか否かを決定するためのコンピュータプログラムコード;および
該コンピュータプログラムを格納するためのコンピュータ読出し可能媒体;
を含む、コンピュータソフトウェア製品。
【請求項31】
請求項30に記載のコンピュータソフトウェア製品であって、各SNPについての前期平均強度値の対数は、
【数18】

を使用して計算され、Xは、SNP一つ当たりのPMプローブの数である、コンピュータソフトウェア製品。
【請求項32】
請求項30に記載のコンピュータソフトウェア製品であって、p値が、
【数19】

を使用して計算される、コンピュータソフトウェア製品。
【請求項33】
請求項30に記載のコンピュータソフトウェア製品であって、コピー数は、
【数20】

を使用して推定される、コンピュータソフトウェア製品。
【請求項34】
少なくとも一つのヘテロ接合性の喪失領域を同定するためのコンピュータソフトウェア製品であって:
実験サンプルのゲノムにおいてホモ接合性SNP遺伝子型呼出しの少なくとも一つの連続した広がりを同定するためのコンピュータプログラムコード;
該連続した広がりにおける各SNPについてホモ接合性の確率
【数21】

を得るためのコンピュータプログラムコードであって、ここで、
【数22】

であるコンピュータプログラムコード;
該連続した広がりにおける該SNPの各々がホモ接合性である確率を、
【数23】

を使用することにより計算するためのコンピュータプログラムコード;
【数24】

が、p値の閾値未満である場合、該SNPを含む領域をヘテロ接合性喪失領域として同定するためのコンピュータプログラムコード;および
該コンピュータプログラムコードを格納するためのコンピュータ読出し可能媒体;
を含む、コンピュータソフトウェア製品。
【請求項35】
生物学的実験サンプルにおけるコピー数を推定するためのシステムであって、
プロセッサー;および
該プロセッサーと接続されている
メモリを備え、
該メモリは、該プロセッサーによって実行される場合、該プロセッサーに複数の論理的工程を実施させる複数の機械語命令を格納し、該論理的工程は、
各サンプルにおける個別のSNPの各々について、実験サンプルもしくは参照サンプルおける複数のSNPについての複数の完全一致強度値(PM)の強度値の平均の対数を計算する工程であって、複数の参照サンプルが存在する、工程;
個別の実験サンプルの平均値および参照サンプル内の平均値を正規化する工程;
該個別のSNPで一致した遺伝子型呼出しの全ての参照サンプルにおいて個別のSNPの各々についての対数の平均の強度値を計算する工程;
実験サンプル由来のSNPの対数平均強度と、該SNPでの遺伝子型呼出しにおける該実験サンプルと一致した参照サンプル由来の該SNPの対数平均強度との間の対数強度差を計算する工程;
対数−対数直線モデルを使用して該SNPのコピー数を推定する工程;
該推定したコピー数により示される変化の方向についてのp値を計算する工程;および
該計算したp値が、選択した閾値未満であるか否かを示す工程;
を包含する、システム。
【請求項36】
請求項35に記載のシステムであって、ここで、各SNPについての平均強度値の対数が、
【数25】

を使用して計算され、Xは、SNP一つ当たりのPMプローブの数である、システム。
【請求項37】
請求項35に記載のシステムであって、p値が、
【数26】

を使用して計算される、システム。
【請求項38】
請求項35に記載のシステムであって、ここでコピー数が、
【数27】

を使用して推定される、システム。
【請求項39】
請求項38に記載のシステムであって、bが約0.693であり、mが約0.895である、システム。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate


【公表番号】特表2006−519977(P2006−519977A)
【公表日】平成18年8月31日(2006.8.31)
【国際特許分類】
【出願番号】特願2005−507147(P2005−507147)
【出願日】平成15年11月12日(2003.11.12)
【国際出願番号】PCT/US2003/036018
【国際公開番号】WO2004/044225
【国際公開日】平成16年5月27日(2004.5.27)
【出願人】(399125757)アフィメトリックス インコーポレイテッド (17)
【Fターム(参考)】