説明

ハイスループットシーケンシング技術を使用して複雑なゲノムをシーケンシングするための改善された戦略

少なくとも1つの第1の制限エンドヌクレアーゼでゲノムを消化する工程と、少なくとも1つのアダプターを、第1のサブセットの制限フラグメントにライゲーションさせる工程と、第1のプライマーの組合せを使用してアダプターライゲーション制限フラグメントの第1の組を選択的に増幅させる工程であって、第1のプライマーは、プライマー配列の3’末端に第1の選択配列(1〜10個の選択的ヌクレオチドを含む)を含有する、増幅させる工程と、少なくとも第2のプライマーの組合せを用いてこれらの工程を繰り返す工程であって、プライマーは、異なる第2の選択配列を含有する、繰り返す工程と、増幅されたアダプターライゲーション制限フラグメントのサブセットをそれぞれ断片化する工程であって、それによりシーケンシングライブラリーを生成する、断片化する工程と、フラグメントのヌクレオチド配列を確定する工程と、ライブラリーそれぞれにおけるフラグメントの配列をアラインする工程であって、それによりコンティグを生成する、アラインする工程と、1つの第2の制限エンドヌクレアーゼ及び/又はさらなる制限エンドヌクレアーゼに関してこれらの工程を繰り返す工程と、第2の制限エンドヌクレアーゼ及び/又はさらなる制限エンドヌクレアーゼそれぞれに関して得られるコンティグをアラインする工程であって、それによりゲノムの配列を提供する、アラインする工程とを含む、ゲノム配列を確定する方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分子生物学及び遺伝学の分野に関する。本発明は、ハイスループットシーケンシング技術の使用に基づいて、好ましくは複雑な(即ち、大きな)ゲノムの配列を確定するための改善された戦略に関する。
【背景技術】
【0002】
ドラフトゲノム配列に対する大きなゲノム(100Mbp以上)の全ゲノムショットガン配列のアセンブリは、複雑な問題である。多くの植物及び動物はさらに、多数の反復配列を含有し、それにより問題をさらに複雑にする。この計算問題は、ハイスループットシーケンシング技術の出現により、例えば454 Life Scienceの技術によりさらに拡大する。これらの技術は多くの場合、もはやサンガーダイデオキシシーケンシングに基づかず、固体表面上でより実施しやすい合成によるシーケンシング(sequencing by synthesis)(ピロシーケンシング)に主に基づく。合成によるシーケンシングは、大量の配列を提供するが、サンガーデオキシシーケンシングに関して一般的であるような500〜1000bpの比較的長い長さと比較して、比較的短い長さ(約100bp)の配列を提供する。
【0003】
かかる短いフラグメントの不都合な点の1つは、ゲノム配列を確定するためのコンティグのアセンブリに巨大な計算能力を要することであり、現在のシーケンシング方法を比較的高価で且つ時間のかかる探索にしている。したがって、ときには「1000$ゲノム」と呼ばれるまでに技術を推進するための、複雑な、即ち大きなゲノムをシーケンシングする、安価で、信頼性が高く且つ迅速な方法、即ち1000$以下で複雑なゲノム(特にヒト)の完全配列の確定を可能にする方法が必要とされている。このことは、とりわけオーダーメイド(personalized)医療の発展を可能にする。
【0004】
【特許文献1】欧州特許第0 534 858号明細書
【特許文献2】国際公開第WO03/012118号パンフレット
【特許文献3】国際公開第WO00/24939号パンフレット
【特許文献4】米国特許第6,045,994号明細書
【特許文献5】欧州特許第976835号明細書
【特許文献6】欧州特許第974672号明細書
【特許文献7】国際公開特許第WO01/88189号パンフレット
【特許文献8】国際公開特許第WO03/004690号パンフレット
【特許文献9】国際公開第WO03/054142号パンフレット
【特許文献10】国際公開第WO2004/069849号パンフレット
【特許文献11】国際公開第WO2004/070005号パンフレット
【特許文献12】国際公開第WO2004/070007号パンフレット
【特許文献13】国際公開第WO2005/003375号パンフレット
【特許文献14】国際公開特許第WO0044937号パンフレット(Keygene N.V)
【非特許文献1】Albert L. Lehninger著「生化学の原理(Principles of Biochemistry)」,793-800(Worth Pub. 1982)
【非特許文献2】インデックスリンク(indexed linking)(Unrau et al.)
【非特許文献3】Unrau et al., 1994, Gene, 145:163-169
【非特許文献4】Vos et al. (1995)著「AFLP:DNAフィンガープリントのための新しい技法(AFLP: a new technique for DNA fingerprinting)」Nucleic Acids Research, vol. 23, no. 21, 4407-4414.
【非特許文献5】Vos et al. Nucleic Acids Research, 1995, 23, 4407-4414
【非特許文献6】Seo et al. (2004) Proc. Natl. Acad. Sci. USA 101:5488-93
【非特許文献7】www.biotagebio.com;www.pyrosequencing.com
【非特許文献8】Smith及びWaterman (1981) Adv. Appl. Math. 2:482
【非特許文献9】Needleman及びWunsch (1970) J. Mol. Biol. 48:443
【非特許文献10】Pearson及びLipman (1988) Proc. Natl. Acad. Sci. USA 85:2444
【非特許文献11】Higgins及びSharp (1988) Gene 73:237-244
【非特許文献12】Higgins及びsharp (1989) CABIOS 5:151-153
【非特許文献13】Corpet et al. (1988) Nucl. Acids Res. 16:10881-90
【非特許文献14】Huang et al. (1992) Computer Appl. in the Biosci. 8:155-65
【非特許文献15】Pearson et al. (1994) Meth. Mol. Biol. 24:307-31
【非特許文献16】Altschul et al. (1994) Nature Genet. 6:119-29
【非特許文献17】The NCBI Basic Local Alignment Search Tool(BLAST)(Altschul et al., 1990)
【非特許文献18】Varshney et al. (2005) Trends in Biotechn. 23(1):48-55
【非特許文献19】Zabeau & Vos(1993):「選択的制限フラグメント増幅;DNAフィンガープリンティングに関する一般的な方法(Selective restriction fragment amplification; a general method for DNA fingerprinting)」
【非特許文献20】Vos et al (Vos, P., Hogers, R., Bleeker, M., Reijands, M., van de Lee, T., Hornes, M., Frijters, A., Pot, J., Peleman, J., Kuiper, M. et al. (1995)「AFLP:DNAフィンガープリンティングに関する新たな技法(AFLP: a new technique for DNA fingerprinting)」、 Nucl. Acids Res., 21, 4407-4414)
【発明の開示】
【発明が解決しようとする課題】
【0005】
今回、本発明者等は、異なる戦略によりこの問題を解決することができ、ハイスループットシーケンシング技術をゲノムアセンブリで効率的に使用することができることを見出した。
【課題を解決するための手段】
【0006】
本発明は、制限フラグメントの組を生じるように1つ又は複数の制限エンドヌクレアーゼでゲノムを制限すること、及び次に選択的増幅により制限フラグメントのサブセットを提供することにより、再現性よく且つ相補的な部分でゲノムを分割する技術を用いることを含む。サブセットはシーケンシングされて、コンティグへとアセンブリする。制限エンドヌクレアーゼの1つ又は複数の異なる組に関してこの工程を繰り返すことにより、種々のコンティグが得られる。これらの種々のコンティグを使用して、ドラフトゲノム配列をアセンブリする。本発明は、配列のいかなる知識も必要とせず、いかなるサイズ及び複雑性のゲノムにも適用させることができる。本発明は、ゲノムのいかなる型及びサイズに関しても拡大させることができる。本発明は、所定の任意のゲノムに対するより機敏で信頼性が高く且つ迅速なアクセスを提供し、それによりゲノムの解析の促進を提供する。
【0007】
定義
以下の説明及び実施例において、多くの用語が使用される。そのような用語に与えられる範囲を含む、明細書及び請求項についての明確で一貫した理解を提供するために、以下の定義が提供される。本明細書において別途定義されない限り、使用される全ての技術的用語及び科学的用語は、本発明が属する技術分野における当業者によって一般に理解されるものと同一の意味を有する。全ての出版物、特許出願、特許及び他の参考文献の開示は、参照によりその全体が本明細書において援用される。
【0008】
核酸:本発明に記載の核酸は、ピリミジン塩基及びプリン塩基の任意のポリマー又はオリゴマー、好ましくはシトシン、チミン及びウラシル、並びにアデニン及びグアニンをそれぞれ含んでもよい(非特許文献1を参照、これは全ての目的のためにその全体が参照により本明細書において援用される)。本発明は、下記の塩基のメチル化された形式、ヒドロキシメチル化された形式又は糖鎖が付加した形式等のような、任意のデオキシリボヌクレオチド、リボヌクレオチド又はペプチド核酸成分、及びそれら任意の化学的な変異型も検討する。ポリマー又はオリゴマーは、組成物中で不均質又は均質であってもよく、天然に存在するソースから単離するか又は人為的若しくは合成的に生成されてもよい。さらに核酸は、DNA若しくはRNA、又はそれらの混合物であってもよく、恒久的に又は一時的に、ホモ二本鎖、ヘテロ二本鎖、及びハイブリッド状態を含む、一本鎖型又は二本鎖型で存在してもよい。
【0009】
複雑度の減少:用語「複雑度の減少」は、サンプルのサブセットの生成によって、ゲノムDNAのような核酸サンプルの複雑度を減少させる方法を意味するために使用する。このサブセットはサンプル全体(即ち複雑である)の代表になることができ、好ましくは再現可能なサブセットである。本文脈において、再現可能は、同一の方法を使用して同一のサンプルの複雑度が減少される場合、同じか又は少なくとも同程度のサブセットが得られることを意味する。複雑度の減少のために使用される方法は、当該技術分野において既知である複雑度の減少のための任意の方法であってもよい。複雑度の減少のための方法の例は、例えば、AFLP(登録商標)(Keygene N.V.、オランダ;例えば、特許文献1を参照)、Dongにより記述された方法(例えば、特許文献2、特許文献3を参照)、非特許文献2等を含む。本発明で使用される複雑度の減少方法は、それらが再現可能であることが共通である。同一のサンプルが同一の様式で複雑度が減少される場合に、サンプルの同一のサブセットが得られるという意味における再現性は、顕微解剖、又は選択された組織で転写されたゲノムの一部を表わし、その再現性については、組織の選択、単離時期等へ依存するmRNA(cDNA)の使用のような、より無作為な複雑度の減少に対立するものである。
【0010】
タグ付け:用語「タグ付け」は、核酸サンプルを第2の核酸サンプル又はさらなる核酸サンプルと区別することを可能にするために、核酸サンプルへタグを追加することを指す。タグ付けは、例えば、複雑度の減少の間の配列識別子の追加により、又は当該技術分野において既知である任意の他の手段により行うことができる。そのような配列識別子は、特異的な核酸サンプルの同定のために独自に使用される、例えば一様でないが、定義された長さの特有な塩基配列であり得る。その代表例は、例えばZIP配列である。そのようなタグを使用して、その後の加工に際して、サンプルの起源を決定することができる。異なる核酸サンプルから生じる加工生成物を組み合わせる場合には、異なる核酸サンプルは異なるタグを使用して同定されるべきである。
【0011】
タグ付けしたライブラリー:用語「タグ付けしたライブラリー」は、タグを付けた核酸のライブラリーを指す。
【0012】
シーケンシング:用語「シーケンシング」は、核酸サンプル、例えばDNA又はRNA中のヌクレオチド(塩基配列)の順番を決定することを指す。
【0013】
アラインすること及びアラインメント:用語「アラインすること」及び「アラインメント」により、同一又は同様のヌクレオチドの、短い又は長い一続きのもの(stretches)の存在に基づいた、2つ以上のヌクレオチド配列の比較を意味する。さらに以下で説明されるように、ヌクレオチド配列のアラインメントのためのいくつかの方法は、当該技術分野において既知である。アセンブリすることを同義語として用いる場合もある。
【0014】
ハイスループットスクリーニング:HTSとしばしば略されるハイスループットスクリーニングは、特に生物学分野及び化学分野に関連する、科学的な実験作業のための方法である。最新のロボット工学と他の特殊な研究室ハードウェアとの組合せによって、研究者が効果的に同時に大量のサンプルをスクリーニングすることを可能にする。
【0015】
制限エンドヌクレアーゼ:制限エンドヌクレアーゼ又は制限酵素は、二本鎖DNA分子中の特異的なヌクレオチド配列(標的部位)を認識し、標的部位ごとにDNA分子の両方の鎖を切断する酵素である。
【0016】
制限フラグメント:制限エンドヌクレアーゼによる消化により生成されたDNA分子は制限フラグメントと呼ばれる。任意の所定のゲノム(又はその起源にかかわらず核酸)は、特定の制限エンドヌクレアーゼにより、制限フラグメントの不連続なセットへと消化される。制限エンドヌクレアーゼ切断に由来するDNAフラグメントは、様々な技法の中でさらに使用することができ、例えばゲル電気泳動法により検出することができる。
【0017】
ゲル電気泳動法:制限フラグメントを検出するために、サイズに基づいて二本鎖DNA分子を分画するための分析方法が必要となり得る。そのような分画を達成するために、最も一般に用いられている技法は、(キャピラリー)ゲル電気泳動法である。DNAフラグメントのそのようなゲル中での移動率は、DNAフラグメントの分子量に依存する。したがって、フラグメント長が増加するにつれて、移動距離は減少する。ゲル電気泳動法により分画されたDNAフラグメントは、染色手順、例えば、パターンの中に含まれたフラグメント数が十分に少ない場合には、銀染色法又はエチジウムブロマイドを使用する染色により直接可視化することができる。或いは、DNAフラグメントのさらなる処理では、蛍光色素分子又は放射性標識のような、フラグメントにおいて検出可能な標識を取り込んでもよい。
【0018】
ライゲーション:2つの二本鎖DNA分子を共有結合で共に結合させるリガーゼ酵素により触媒された酵素反応は、ライゲーションと呼ばれる。一般に、両方のDNA鎖は共有結合で共に結合されるが、鎖の末端の一方の化学的修飾又は酵素的修飾によって、2つの鎖のうちの1つの鎖のライゲーションを防ぐことも可能である。その場合には、共有結合が2つのDNA鎖のうちの1つのみにおいて起こる。
【0019】
合成オリゴヌクレオチド:化学的に合成することができる、好ましくは約10〜約50の塩基を有する一本鎖DNA分子は、合成オリゴヌクレオチドと呼ばれる。関連した配列を有する分子のファミリーを合成することは可能であり、それはヌクレオチド配列中の特異的な位置で異なるヌクレオチド組成を有しているが、一般に、これらの合成DNA分子は、特有なヌクレオチド配列又は望ましいヌクレオチド配列を有するように設計される。用語「合成オリゴヌクレオチド」は、設計されたヌクレオチド配列又は望ましいヌクレオチド配列を有するDNA分子を指すために使用される。
【0020】
アダプター:限られた数の塩基対、例えば約10〜約30の塩基対の長さを有する短い二本鎖DNA分子は、制限フラグメントの末端にライゲーションすることができるように設計されている。アダプターは通常、互いに部分的に相補的なヌクレオチド配列を有する2つの合成オリゴヌクレオチドから成る。適切な条件下で溶液中で2つの合成オリゴヌクレオチドを混合した場合、それらはアニーリングして、互いに二本鎖構造を形成する。アニーリング後、アダプター分子の一方の末端は制限フラグメントの末端と適合し、末端でライゲーションすることができるように設計されている。アダプターのもう一方の末端は、ライゲーションできないように設計することができるが、そうである必要はない(二重にライゲーションされたアダプター)。
【0021】
アダプターライゲーション制限フラグメント:ライゲーションの結果としてアダプターによりキャッピングされた制限フラグメント。
【0022】
プライマー:一般に、用語「プライマー」は、DNAの合成をプライミングすることができるDNA鎖を指す。DNAポリメラーゼは、プライマーなしではDNAをデノボ合成することができない:アセンブリされるヌクレオチドの順序を指定するために、鋳型として相補的な鎖が用いられるような反応において、DNAポリメラーゼは既存のDNA鎖のみを伸長することができる。本発明者等は、プライマーとして、ポリメラーゼ連鎖反応(PCR)において用いられる合成オリゴヌクレオチド分子を指す。
【0023】
DNAの増幅:用語「DNAの増幅」は、一般的には、PCRを用いた二本鎖DNA分子のin vitroの合成を示すために用いられる。他の増幅方法が存在し、それらは主旨から外れずに、本発明において用いられてもよいことが留意される。
【発明を実施するための最良の形態】
【0024】
本発明は、ゲノム配列を確定する方法であって、
(a)少なくとも1つの第1の制限エンドヌクレアーゼでゲノムを消化することにより、ゲノムの第1のサブセットを提供する工程であって、それにより制限フラグメントを提供する、提供する工程と、
(b)少なくとも1つのアダプターを、第1のサブセットの制限フラグメントにライゲーションさせる工程であって、それによりアダプターライゲーション制限フラグメントの第1の組を提供する、ライゲーションさせる工程と、
(c)第1のプライマーの組合せを使用して、アダプターライゲーション制限フラグメントの第1の組を選択的に増幅させる工程であって、少なくとも第1のプライマーは、アダプター及び制限エンドヌクレアーゼの認識配列の一部に相補的であり、且つプライマー配列の3’末端に第1の選択配列をさらに含有するセクションを含有し、第1の選択配列は、1〜10個の選択的ヌクレオチドを含み、それにより増幅されたアダプターライゲーション制限フラグメントの第1のサブセットを提供する、選択的に増幅させる工程と、
(d)少なくとも第2のプライマーの組合せ及び/又はさらなるプライマーの組合せ(複数可)を用いて工程(c)を繰り返す工程であって、プライマーは、同じ数の選択的ヌクレオチドを含有する、3’末端に異なる第2の選択配列及び/又はさらなる選択配列を含有し、それにより増幅されたアダプターライゲーション制限フラグメントの第2のサブセット及び/又はさらなるサブセットを提供する、工程(c)を繰り返す工程と、
(e)増幅されたアダプターライゲーション制限フラグメントの第1のサブセット、第2のサブセット及び/又はさらなるサブセットをそれぞれ断片化する工程であって、それに続いて任意に最適なサイズ範囲内でフラグメントのサイズ選択を行い、それにより第1のシーケンシングライブラリー、第2のシーケンシングライブラリー及び/又はさらなるシーケンシングライブラリーを生成し、続いて任意にライブラリーをプールする、断片化する工程と、
(f)第1のシーケンシングライブラリー、第2のシーケンシングライブラリー及び/又はさらなるシーケンシングライブラリーそれぞれに含有されるフラグメント(の少なくとも一部)のヌクレオチド配列(の少なくとも一部)を確定する工程と、
(g)第1のライブラリー、第2のライブラリー及び/又はさらなるライブラリーそれぞれにおけるフラグメントの配列をアラインする工程であって、それによりゲノムのサブセット(複数可)に由来する増幅されたアダプターライゲーション制限フラグメントのコンティグを生成する、アラインする工程と、
(h)少なくとも1つの第2の制限エンドヌクレアーゼ及び/又はさらなる制限エンドヌクレアーゼに関して工程(a)〜工程(g)を繰り返す工程と、
(i)第2の制限エンドヌクレアーゼ及び/又はさらなる制限エンドヌクレアーゼそれぞれに関して工程(g)及び工程(h)で得られるコンティグをアラインする工程であって、それによりゲノムの配列を提供する、アラインする工程と
を含む、ゲノム配列を確定する方法を提供する。
【0025】
上記方法の工程(a)では、関連するゲノムが、1つ又は複数の制限エンドヌクレアーゼに付される。或る特定の実施形態では、少なくとも2つの制限エンドヌクレアーゼが使用される。特に大きなゲノムを用いる或る特定の実施形態では、3つ以上の制限エンドヌクレアーゼが使用され得る。ゲノムの消化は、ゲノムの第1のサブセットを提供する。制限エンドヌクレアーゼは、フリークエントカッター(即ち、通常4カッター及び5カッター、即ちそれぞれ4個又は5個のヌクレオチドの認識配列を有する制限エンドヌクレアーゼ)であってもよく、又はレアカッター(即ち、通常6個以上のカッター(7、8…等)、即ちそれぞれ6個以上のヌクレオチドの認識配列を有する制限エンドヌクレアーゼ)であってもよく、或いはそれらの組合せであってもよい。或る特定の実施形態では、レアカッター及びフリークエントカッターの組合せが使用される。或る特定の実施形態では、2つのレアカッターが使用され得る。制限エンドヌクレアーゼは、認識配列の片側及び両側のいずれかの上でそれらの認識配列の外側のDNAを切断する、IIs型並びにIIsa型を含む任意の型であり得る。
【0026】
上記方法の工程(b)では、少なくとも1つのアダプターが、工程(a)で得られる制限フラグメントにライゲーションされる。好ましくは、アダプターは、アダプターのライゲーション時に制限部位が修復されないようなものである。また、例えば2つ以上の制限エンドヌクレアーゼの場合、2つ以上の異なるアダプターを用いることも可能である。このライゲーション工程により、アダプターライゲーション制限フラグメントが生じる。アダプターは、制限エンドヌクレアーゼに応じて、平滑末端であり得るか、又はオーバーハングを含有してもよい。
【0027】
或る特定の実施形態では、アダプターは、インデキシングリンカーとして既知のアダプターの組であり得る(非特許文献3)。
【0028】
工程(c)では、アダプターライゲーション制限フラグメントの第1の組は、第1のプライマーの組合せを使用して増幅される。プライマーの組合せは、アダプター(の少なくとも一部)及びゲノムの制限に使用される制限エンドヌクレアーゼの認識配列の一部に相補的であるセクションを含有する少なくとも第1のプライマーを含む。通常、認識配列の一部は、制限エンドヌクレアーゼによる配列の制限後に残存する部分である。その3’末端に、プライマーは第1の選択配列を含有する。第1の選択配列は、1〜10個のヌクレオチド、好ましくは1〜8個、好ましくは1〜5個、より好ましくは1〜3個の選択ヌクレオチドの予め選択された組を含む。かかるプライマーは、以下の実例的な構造(2個の選択的ヌクレオチド(AC)に関する)「5’−アダプター特異的領域−制限配列特異的領域−AC−3’」を有し得る。したがって、この例示的な第1のプライマーは、2個の選択的ヌクレオチドACを含有し、制限フラグメントの配列に由来する第1の2つのヌクレオチドとして相補的なTGを含有するアダプターライゲーションフラグメントを増幅するに過ぎない。これは、増幅されたアダプターライゲーション制限フラグメントの第1のサブセットを提供する。
【0029】
第1のプライマーの組合せはまた、それぞれがそれらの3’末端に選択配列を保有する2つの選択的プライマーを含み得る。プライマーは、プーリング戦略を可能にするようにタグ付けすることができる。
【0030】
増幅は好ましくは、PCRを使用して実施される。或る特定の実施形態では、ロングレンジPCRの使用が好ましい。
【0031】
工程(d)では、選択的増幅が、第2のプライマーの組合せ及びさらなるプライマーの組合せを用いて繰り返される。さらなるプライマーの組合せそれぞれにおけるプライマーの少なくとも1つは、その3’末端に異なる選択配列を含有する。選択配列の選択は、選択ヌクレオチドの数を仮定して、選択的ヌクレオチドの全ての考え得る順列が使用されるようなものである。上記例では、このことは、AT、AG、AA、CA、CT、CG、CA等を意味する。実際に、このことは、ゲノムのサブセット内(即ち、1つ又は複数の制限エンドヌクレアーゼを使用して得られる制限フラグメントの組内)の全てのアダプターライゲーション制限フラグメントが増幅されていることを意味する。
【0032】
本発明の好ましい実施形態において、選択的増幅によるゲノムの複雑度の減少は、AFLP(登録商標)(Keygene N.V.、オランダ;例えば、特許文献1及び非特許文献4を参照、これらは参照によってその全体が本明細書において援用される)によって行なわれる。
【0033】
AFLPは選択的制限フラグメント増幅のための方法である。AFLPはいかなる事前配列情報も必要なく、任意の出発DNAで行うことができる。一般にAFLPは、
(a)核酸、特にDNAを1つ又は複数の特異的な制限エンドヌクレアーゼで消化して、対応する一連の制限フラグメントへとDNAを断片化する、消化する工程と、
(b)このように得られた制限フラグメントを、1つの末端が1つ又は両方の制限フラグメントの末端と適合する二本鎖合成オリゴヌクレオチドアダプターとライゲーションして、それによりアダプターでライゲーションされた(好ましくは、タグ付けされた)出発DNAの制限フラグメントを生成する、ライゲーションする工程と、
(c)アダプターでライゲーションされた(好ましくは、タグ付けされた)制限フラグメントを、ハイブリダイズする条件下で、その3’末端で選択的なヌクレオチドを含む1つ又は複数のオリゴヌクレオチドプライマーと接触させる工程と、
(d)プライマーとハイブリダイズされた、アダプターでライゲーションされた(好ましくは、タグ付けされた)制限フラグメントを、プライマーがハイブリダイズする出発DNAの制限フラグメントに沿ってハイブリダイズされたプライマーのさらなる伸長を引き起こすように、PCR又は同様の技法によって増幅する工程と、
(e)このように得られた増幅又は伸長したDNAフラグメントを、検出、同定、又は回収する工程と
を含む。
【0034】
AFLPは、このようにアダプターライゲーションフラグメントの再現可能なサブセットを提供する。1つのAFLP技術の有用な変形は、非選択的なヌクレオチド(即ち+0/+0プライマー)を用い、これはしばしばリンカーPCRと呼ばれる。これは、類似のゲノムに対して非常に適切な複雑度の減少も提供する。
【0035】
AFLP、その利点、その実施形態、並びに技法、酵素、アダプター、プライマー及びさらなる化合物、及び本明細書で使用した道具のさらなる説明のために、特許文献4、特許文献1(B)、特許文献5及び特許文献6、特許文献7、及び非特許文献5が言及され、これらはそれら全体が本明細書に援用される。
【0036】
したがって、本発明の方法の好ましい実施形態において、ゲノムは、
(a)少なくとも1つの制限エンドヌクレアーゼにより核酸サンプルを消化して、制限フラグメントへ断片化する、消化すること、
(b)1つ又は両方の制限フラグメントの末端と合うような1つの末端を有する、少なくとも1つの二本鎖合成オリゴヌクレオチドアダプターで得られた制限フラグメントをライゲーションして、アダプターライゲーション制限フラグメントを生成する、ライゲーションすること、
(c)ハイブリダイズする条件下で、上記アダプターライゲーション制限フラグメントを、1つ又は複数のオリゴヌクレオチドプライマーと接触させること、及び
(d)1つ又は複数のオリゴヌクレオチドプライマーの伸長によって、上記適合された制限フラグメントを増幅することにより複雑度が減少され、
(e)ここで1つ又は複数のオリゴヌクレオチドプライマーの少なくとも1つが、上記制限エンドヌクレアーゼのための標的配列の形成に関与するヌクレオチドを含み、アダプターに存在するヌクレオチドの少なくとも一部を含む、上記適合された上記制限フラグメントの末端で鎖の端末部分と同じヌクレオチド配列を有するヌクレオチド配列を含み、ここで任意で、当該プライマーの少なくとも1つは、その3’末端で、当該制限エンドヌクレアーゼのための標的配列の形成に関与するヌクレオチドにすぐに隣接して位置する少なくとも1つのヌクレオチドを含む選択された配列を含む。
【0037】
AFLPは、複雑度の減少のための高度に再現可能な方法であり、したがって本発明に記載の方法に対して特に適している。
【0038】
これまでシーケンシング技術の分野において、全ゲノムの、特に複雑なゲノムでの配列確定におけるこの選択的増幅の使用は、開示も示唆もされていない。AFLP技術は、フィンガープリンティング技術として当該技術分野で既知であるが、複雑なゲノムのシーケンシングを助長するための解決策としてはいまだ確認されてはいない。特に、所定数の選択的ヌクレオチドに関してヌクレオチドの順列の全て又は大部分を網羅するプライマーの組合せの組(例えば、2個の選択的ヌクレオチドの場合16個のプライマーの組合せ)は、シーケンシングされ得るゲノムの相補的且つ再現性よいサブセットを提供する。或る特定の実施形態では、複雑性低減に使用されるプライマーは、1つ又は複数のチオエート結合を含有して、それらの選択性及び/又は性能を増大させる。
【0039】
或る特定の代替的な実施形態では、複雑性低減は、CHIP法を含む。複雑性低減に関する他の適切な方法は、クロマチン免疫沈降(ChiP)である。このことは、核DNAが単離される一方で、転写因子のようなタンパク質がDNAにライゲーションされることを意味する。ChiPにより、最初にタンパク質に対する抗体が使用されて、Ab−タンパク質−DNA複合体を生じる。この複合体を精製して、それを沈降させることにより、このタンパク質が結合するDNAが選択される。次に、DNAは、ライブラリー構築及びシーケンシングに使用することができる。即ち、これは、特異的な機能的領域、本実施例では特異的な転写因子に対して非ランダム様式で複雑性低減を実施するための方法である。代替的な実施形態は、SSR、NBS領域(ヌクレオチド結合領域)、プロモーター/エンハンサー配列、テロメアコンセンサス配列、MADSボックス遺伝子、ATPアーゼ遺伝子ファミリー及び他の遺伝子ファミリーのような保存モチーフに対するPCRプライマーの設計を使用し得る。
【0040】
工程(e)では、第1のシーケンシングライブラリー、第2のシーケンシングライブラリー及びさらなるシーケンシングライブラリーは、増幅されたアダプターライゲーション制限フラグメントの各サブセットに関して生成される。ライブラリーは通常、増幅されたアダプターライゲーション制限フラグメントの断片化により生成される。断片化は、物理的な技法、即ちせん断、超音波処理又は他のランダム断片化方法により達成され得る。工程(f)では、ライブラリーに含有されるフラグメントの少なくとも一部(但し、好ましくは全てのフラグメント)のヌクレオチド配列の少なくとも一部(但し、好ましくは完全ヌクレオチド配列)が確定される。
【0041】
シーケンシングは、ダイデオキシ連鎖停止法のような、当該技術分野において既知である任意の手段によって、原則としては行われてもよい。しかしながら、シーケンシングは、特許文献8、特許文献9、特許文献10、特許文献11、特許文献12及び特許文献13(非特許文献6に(全て454 Life Sciencesの名で)開示された方法のようなハイスループットシーケンシング法、及びHelios、Solexa、US Genomics等の技術(これらは参照により本明細書において援用される)を用いて行なわれることが好ましい。シーケンシングは、特許文献8、特許文献9、特許文献10、特許文献11、特許文献12、及び特許文献13に(全て454 Life Sciencesの名で)開示された装置及び/又は方法を用いて行なわれることが最も好ましく、それらは参照により本明細書において援用される。記述された技術は、一回の実行において4000万塩基のシーケンシングを可能にし、競合技術よりも100倍速く、より安価である。シーケンシング技術は、1)DNAの切断化及び一本鎖DNA(ssDNA)のライブラリーを形成するための特異的なアダプターのライゲーションと、2)ビーズに対するssDNAのアニーリング、油中水型マイクロリアクター中のビーズの乳化、及びビーズ上に個々のssDNA分子を増幅させるための乳化PCRの実施と、3)ビーズ表面上に増幅したssDNA分子を含むビーズに対する濃縮の選択と、4)ピコタイタープレート(登録商標)におけるDNAを伴うビーズの沈着と、5)ピロリン酸光シグナルの生成による100,000ウェルの同時シーケンシングとのおおまかには5つの工程から成る。この方法はより詳細に以下で説明されるだろう。
【0042】
好ましい実施形態において、シーケンシングは、
(a)各々のビーズが単一の適合されたフラグメントとアニーリングされるビーズに適合されたフラグメントをアニーリングする工程と、
(b)各々の油中水型マイクロリアクターが単一のビーズを含む、油中水型マイクロリアクター中のビーズを乳化する工程と、
(c)各々のウェルが単一のビーズを含む、ウェル中にビーズを充填すると共にピロリン酸シグナルを生成する工程と
を含む。
【0043】
第1の工程(a)において、シーケンシングアダプターは、組合せライブラリー中のフラグメントにライゲーションされる。当該シーケンシングアダプターは、少なくとも、ビーズへのアニーリングのための「キー」領域、シーケンシングプライマー領域、及びPCRプライマー領域を含む。それにより、適合されたフラグメントが得られる。
【0044】
第1の工程において、適合されたフラグメントは、各々のビーズが単一の適合されたフラグメントにアニーリングする、ビーズにアニーリングされる。大多数のビーズについて、1つのビーズ当たり1つの単一の適合されたフラグメントのアニーリングを保証するように、適合されたフラグメントのプールに、ビーズが過剰に加えられる(ポアソン分布)。
【0045】
次の工程において、各々の油中水型マイクロリアクターが単一のビーズを含む、油中水型マイクロリアクターでビーズが乳化される。PCR試薬は、PCR反応がマイクロリアクター中で起こることを可能にする油中水型マイクロリアクターに存在する。続いて、マイクロリアクターは破壊され、DNAを含むビーズ(DNA陽性ビーズ)が濃縮される。
【0046】
続く工程において、各々のウェルが単一のビーズを含む、ウェルにビーズが充填される。ウェルは、好ましくは、大量のフラグメントの同時シーケンシングを可能にするピコタイタープレート(商標)プレートの一部である。
【0047】
酵素を伴うビーズの付加後、フラグメントの配列はピロシーケンシングを用いて決定される。引き続いての工程において、ピコタイター(商標)プレート及びビーズは、その中の酵素ビーズと同様に、従来のシーケンシング試薬の存在下で異なるデオキシリボヌクレオチドに曝され、デオキシリボヌクレオチドの取り込みの際、記録される光シグナルが生成される。正確なヌクレオチドの取り込みにより、検出可能なピロシーケンシングシグナルが生成される。
【0048】
ピロシーケンシング自体は、当該技術分野において既知であり、とりわけ、非特許文献7のtechnologyセクションで記述される。技術は、例えば、特許文献8、特許文献9、特許文献10、特許文献11、特許文献12、及び特許文献13で(全て454 Life Sciencesの名で)、さらに適用され、それらは本明細書において参照により援用される。
【0049】
本発明の方法の工程(g)では、第1のライブラリー、第2のライブラリー及び/又はさらなるライブラリーのフラグメントの確定された配列がアラインされる。アラインメントは、増幅されたアダプターライゲーション制限フラグメントのサブセットにおけるフラグメントのコンティグを提供する。このようにして、各増幅されたアダプターライゲーション制限フラグメントに関して、コンティグは、シーケンシングされたフラグメントから生成され、即ち、1つの増幅されたアダプターライゲーション制限フラグメントのコンティグは、工程(e)における断片化から得られる様々なフラグメントの配列のアラインメントから構築される。ゲノムのごく一部の散在する制限フラグメントを表す配列からコンティグを構築することにより、大量の反復配列に起因するコンティグ構築に関する問題は大いに低減されて、反復配列の偽結合に起因した誤差をあまり含有しない、より高品質のドラフトゲノム配列を導く。さらに、アセンブリプロセスは、計算上あまり複雑でなく、したがってより迅速に実施される。異なるライブラリーにおける配列をアラインすることにより、制限フラグメントの組の各制限フラグメントに関するコンティグは、各プライマーの組合せに関して構築され得る。このことは、それぞれが特定の制限フラグメントに対応するコンティグの組をもたらす。結果として、少なくとも1つの制限エンドヌクレアーゼによるゲノムの制限から得られる各制限フラグメントはここで、確定された(コンティグ)配列を有する。本発明の方法を図1及び図2に示す。
【0050】
比較目的のための配列のアラインメントの方法は、当該技術分野において既知である。様々なプログラム及びアラインメントアルゴリズムは、非特許文献8;非特許文献9;非特許文献11;非特許文献12;非特許文献13; 非特許文献14;及び非特許文献15において記述され、これらは本明細書において参照により援用される。非特許文献16(本明細書において参照により援用される)は、配列アラインメントの方法及び相同性の計算について詳細な考察を提供する。
【0051】
NCBIの基本的局所アラインメント検索ツール(非特許文献17)は、配列解析プログラムのblastp、blastn、blastx、tblastn、及びtblastxに関連する使用について、国立生体情報センター(National Center for Biological Information)(NCBI、メリーランド州ベテスダ)及びインターネット上を含むいくつかのソースから利用可能である。それは<http://www.ncbi.nlm.nih.gov/BLAST/>でアクセスすることができる。このプログラムを用いて、配列同一性を決定する方法の説明は、<http://www.ncbi.nlm.nih.gov/BLAST/blast_help.html>で利用可能である。さらなる適用は、マイクロサテライトの抽出において可能である(非特許文献18を参照)。
【0052】
一般的には、アダプター/プライマー及び/又は識別子に関して調整されている(trimmed)配列データに対してアラインメントが行われるが、制限酵素認識配列が再構築される(即ち、核酸に由来するフラグメントからの配列データのみを使用する)。一般的に、得られた配列データは、フラグメントの起源(即ち、どのサンプル由来であるか)を同定するのに使用され、アダプター及び/又は識別子に由来する配列がデータから取り除かれ、アラインメントがこの調節セットに対して行なわれる。
【0053】
工程(h)では、手順全体を、少なくとも1回、1つ又は複数の異なる制限エンドヌクレアーゼ、即ち好ましくは第1のエンドヌクレアーゼと異なる認識部位を含有する制限エンドヌクレアーゼを用いて繰り返して、続いてアダプターライゲーションされて、独立して選択される選択配列、即ち上記選択配列、つまり(ヌクレオチドの数又は型のいずれかにおいて)第1の制限エンドヌクレアーゼと同じ目的に使用されている配列と関係を持たない選択配列を有するプライマーの組合せを使用して選択的に増幅される制限フラグメントの第2の組又はさらにさらなる組を提供する。例えば、第1のサブセットは、MseI/PstIによる制限により得ることができ、認識部位のMseI残部に関し、且つその3’末端に2個の選択的ヌクレオチドを保有する選択的プライマーを使用して選択的に増幅させることができる。第2のサブセットは、EcoRI/HindIII消化及び1個の選択的ヌクレオチドを有する認識部位のEcoRI残部に関する選択的プライマーを用いた選択的増幅により得ることができる。
【0054】
したがって、全ての制限フラグメントに関するコンティグの第2の(及び/又はさらなる)組は、このようにして本明細書中で先に開示するのと類似した様式で得ることができる。所定の制限エンドヌクレアーゼに関して、シーケンシングされるゲノムの分画が相補的であること、それらが重複しないことが必要である。異なる酵素の組合せを用いて得られるコンティグは重複せず、したがってそこからのコンティグの生成を可能にし、それにより(ドラフト)ゲノム配列の形成を可能にする。
【0055】
上記方法の工程(i)では、各フラグメントに関して上記方法の先の工程から得られるコンティグをアラインして、ゲノムの配列を形成する。
【0056】
或る特定の実施形態では、制限フラグメント又はゲノム配列のいずれかのコンティグ構築は、BAC末端配列、BACショットガン配列、EST配列又は全ゲノムショットガン配列が挙げられる(これらに限定されない)他の供給源に由来するゲノムのヌクレオチド配列の使用により助長され得る。
【0057】
本発明の方法は、DNAの供給源とは無関係であり、即ち、本発明の方法はいかなる以前の配列情報を必要としないため、全ての生物に適用可能である。酵素、アダプター、プライマー及び選択的ヌクレオチドの数の適切な選択により、ゲノムの全てのサイズ及び複雑性に適用可能である拡張可能な技術が提示される。さらに、異なるプライマーの組合せを用いて、及び/又は3’末端にある特異的な選択的ヌクレオチド配列が互いに異なる選択的プライマーを用いて得られるゲノム分画は相補的である。このことは、任意の所定数の選択的ヌクレオチドに関して、全ての順列が使用される(1個の選択的ヌクレオチド=4個の変形体(A、C、T、G)、2個の選択的ヌクレオチド=16個の変形、3個の選択的ヌクレオチド=64個の変形等)場合、組み合わせた制限フラグメントは、制限されたゲノムを構成することを意味する。
【0058】
本発明は以下の実施例を用いて説明することができるが、以下の実施例は、いかなる場合においても本発明を限定するものと意図されず、単に例示として有用である。
【0059】
ロングレンジPCRを使用した全ゲノムシーケンシング。
【0060】
工程1:DNAを、2つの6カッターA及びB(例えば、EcoRI及びHindIII)を使用して制限する。これにより、対象のゲノムのGC含有量及び制限エンドヌクレアーゼの選択に応じて、約3〜4kbの平均長を有する3つの型の制限フラグメント:A−A(25%)、B−B(25%)及びA−B(50%)が生成される。アダプターのライゲーション後、プライマーの組合せ1つ当たり1Mbの配列へと、+X/+Yプライマー(即ち、プライマーの一方がX選択的ヌクレオチドを含有し、他方がY選択的ヌクレオチドを含有する)を用いてロングレンジPCRを実施する。X=2及びY=3である場合、1024個のプライマーの組合せ全てに関してこれを繰り返す。X=1及びY=2である場合、64個のプライマーの組合せ全てに関してこれを繰り返す。
【0061】
A:ゲノムサイズが2700Mbpのトウモロコシ:A−B型フラグメント=1350Mbp。+2/+3選択的増幅(1024個のプライマーの組合せ)により、各プライマーの組合せの増幅生成物は、平均して1350/1024=1.32Mbpの配列を含有する。約3000bpのA−Bフラグメント1つ当たりの平均長を用いると、これにより1320000/3000=440のA−Bフラグメントが生じる。
【0062】
B:130Mbpのシロイヌナズナ:A−B型フラグメント=65Mbp。X=1及びY=2を用いると、あらゆるプライマーの組合せ(PC)は、約1Mbpの配列を含有する。フラグメント1つ当たり3000bpの平均長を用いると、これは、1000000/3000=330のA−Bフラグメントである。
【0063】
工程2:各プライマーの組合せに関する、増幅されたアダプターライゲーション制限フラグメントの各組のせん断及び本明細書中で他の箇所に記載するような454 Technologiesのピロシーケンシングと併用したエマルジョンPCRを使用したシーケンシングによるライブラリーの構築(1024回又は64回)。この技術を使用したシーケンシングは、ライブラリー1つ当たり40Mbpの配列データを提供し、あらゆるライブラリーが40倍冗長的にシーケンシングされることを意味する。ヌクレオチドの数の変動により、種々の量のA−Bフラグメントが増幅されて、種々の冗長性が達成される。これは、実際に確定することができる。
【0064】
工程3:(PC1つ当たりの)配列ライブラリー1つ当たりの配列のアセンブリ
アセンブリを実施して、PC1つにつき増幅された全てのA−Bフラグメントのコンティグを生成する。このことは、PC1つ当たり約300〜500個のコンティグを導き、その平均長はA−Bフラグメントの平均長に相当する。全てのPCのシーケンシングは、数万から最大数十万に及ぶ多数のコンティグを生じる(シロイヌナズナ21000、トウモロコシ450000)。
【0065】
工程4:少なくとも1つの他の酵素の組合せ(EC)(例えば、A−C)に関して工程1〜工程3を繰り返す。EC A−B由来の全てのPCは相補的なコンティグを提供するに過ぎず、重複するコンティグを提供せず、これはゲノムのほんの50%を網羅するため、このことが必須である。ゲノムの対象範囲は、同様に全てのA−A及びB−Bフラグメントをプロセシングすることにより高めることができる。さらなるECを使用することにより、ABのコンティグとACのコンティグとの間で重複が達成され、ゲノムの対象範囲が増大する。
【0066】
工程5:(ドラフト)ゲノム配列に対してA−B(任意に、同様にA−A、B−B)及びA−Cのプライマーの組合せの全てのコンティグをアセンブリする。
【0067】
この方法の利点の1つは、ゲノムアセンブリの問題の1つである反復配列の多岐にわたる存在に起因する誤ったコンティグの形成の可能性は、全ゲノムに代わってゲノムの1〜5Mbp分画内の1〜10kbの小さな散在(即ち、非隣接)コンティグの形成により最低限に抑えられる。はるかに大きな長さを有するコンティグは、偽結合の生成物であるとして初期段階に標識することができ、廃棄することができる。さらなる利点は、初期アセンブリ(工程3)で、ゲノム配列全体が1つの工程でアセンブリされる場合よりも小さな配列が包含されるため、アセンブリが計算上あまり複雑でないことである。さらなる利点は、選択的増幅プロセスがプロセス全体を任意のサイズのゲノムに拡張可能にし、選択的増幅プロセスが普遍的に適用可能であることである。
【0068】
1つのレアカッター及び1つのフリークエントカッターを使用した全ゲノムシーケンシング
工程1:上記の通り、但し6カッター(EcoRI)及び4カッター(MseI)を用いる。平均フラグメント長は約250bpである。A−Bフラグメントは、ゲノムの約8〜15%に相当する。2つの6カッター制限酵素を使用した制限酵素消化と比較して、約1〜5MbpのPC1つ当たりの配列複雑性の量に達するのにより小さな平均約1個の選択的ヌクレオチドが必要とされる。
【0069】
A:ゲノムサイズが2700Mbpのトウモロコシ:A−B型フラグメント=270Mbp(10%)。+2/+2選択的増幅(256個のプライマーの組合せ)により、各プライマーの組合せの増幅生成物は平均して270/256=1.05Mbpの配列を含有する。約250bpのA−Bフラグメント1つ当たりの平均長を用いると、これにより1050000/250=4200のA−Bフラグメント/コンティグが生じる。
【0070】
B:130Mbpのシロイヌナズナ:A−B型フラグメント=13Mbp(10%)。X=1及びY=2を用いると、あらゆるプライマーの組合せ(PC)は、約1Mbpの配列を含有する。フラグメント1つ当たり250bpの平均長を用いると、これは、1000000/3000=4000のA−Bフラグメントである。
【0071】
工程2:上記の通り。短すぎるフラグメントへの傾向を回避するために、サイズ選択を使用して、100〜150bp未満のフラグメントを除去することができる。
【0072】
工程3:(PC1つ当たりの)配列ライブラリー1つ当たりの配列のアセンブリ
アセンブリを実施して、PC1つにつき増幅された全てのA−Bフラグメントのコンティグを生成する。このことは、PC1つ当たりの数千個のコンティグを導き、その平均長はA−Bフラグメントの長さ(250bp)に相当する。全てのPCのシーケンシングは、数万から最大約百万に及ぶ多数のコンティグを生じる(シロイヌナズナ64000、トウモロコシ1000000)。
【0073】
工程4:様々なEC(A−C、B−C、C−C、C−D、A−D等)を用いて工程1〜工程3を繰り返す。酵素の組合せA−BのPCはゲノムの8〜15%以下しか網羅せず、上記の通り、PCのコンティグは重複しないため、このことが必要である。
【0074】
工程5:上記の通り。
【0075】
1つの制限エンドヌクレアーゼを使用した全ゲノムシーケンシング
工程1:1つの制限エンドヌクレアーゼA(例えば、EcoRI)を使用してDNAを消化する。GC含有量及び酵素の選択に応じて、約3〜4kbの制限フラグメント。混合物にアダプターをライゲーションさせて、PC1つ当たりの配列の量を約1Mbに低減させる選択的プライマーを用いたロングレンジPCR(上記を参照)を実施する。X=2及びY=3である場合、1024個のPC全てに関して繰り返す。(X,Y)=(+1/+2)に関しては、64個のPC全てに関して繰り返す。
【0076】
A:ゲノムサイズが2700Mbpのトウモロコシ:A−A型フラグメント=2700Mbp。+2/+3選択的増幅(1024個のプライマーの組合せ)により、各プライマーの組合せの増幅生成物は、平均して2700/1024=2.64Mbの配列を含有する。約3000bpのA−Aフラグメント1つ当たりの平均長を用いると、これにより2640000/300=880のA−Aフラグメント/コンティグが生じる。
【0077】
B:130Mbpのシロイヌナズナ:A−A型フラグメント=130Mb。X=1及びY=2を用いると、あらゆるプライマーの組合せ(PC)は、約2Mbpの配列を含有する。フラグメント1つ当たり3000bpの平均長を用いると、これは、2000000/3000=660のA−Aフラグメントである。
【0078】
工程2:各プライマーの組合せに関する、増幅されたアダプターライゲーション制限フラグメントの各組のせん断及び本明細書中で他の箇所に記載するような454 Technologiesのピロシーケンシングと併用したエマルジョンPCRを使用したシーケンシングによるライブラリーの構築(1024回又は64回)。この技術を使用したシーケンシングは、ライブラリー1つ当たり40Mbpの配列データを提供し、あらゆるライブラリーが20倍冗長的にシーケンシングされることを意味する。
【0079】
工程3:(PC1つ当たりの)配列ライブラリー1つ当たりの配列のアセンブリ
アセンブリを実施して、PC1つにつき増幅された全てのA−Aフラグメントのコンティグを生成する。このことは理論上、PC1つ当たり600〜900個のコンティグを導き、その平均長はA−Aフラグメントの長さ(3000bp)に相当する。全てのPCのシーケンシングは、数万から最大約数十万に及ぶ多数のコンティグを生じる(シロイヌナズナ42000、トウモロコシ900000)。
【0080】
工程4:少なくとも1つの他のEC(B−B)に関して工程1〜工程3を繰り返す。酵素の組合せA−BのPCはゲノムの8〜15%以下しか網羅せず、上記の通り、PCのコンティグは重複しないため、このことが必要である。
【0081】
工程5:上記の通り。
【実施例1】
【0082】
この実施例は、複雑な植物ゲノムのゲノム配列を確定するために、2個の制限酵素の組合せに由来するAFLPフラグメントのハイスループットシーケンシングを使用することができることを記載する。
【0083】
以下の工程がこの実施例で行われた:
A)特許文献14=国際公開特許第WO0044937号(Keygene N.V)に記載されるソフトウェアツールRECOMBを使用したシロイヌナズナゲノム配列(Genbank)のAFLP制限フラグメントのコンピュータ内での予測
シロイヌナズナゲノム(生態型コロンビア)のゲノム配列全体をGenbankからダウンロードした。それぞれ+C及び+G選択的ヌクレオチドを使用した制限酵素の組合せBamHI/XbaIに関するコンピュータ内でのAFLP +1/+1フラグメントを、RECOMBを使用して予測した。同様に、選択的ヌクレオチド+C及び+CTを使用した制限酵素の組合せEcoRI/HindIIIに関するAFLP +1/+2フラグメントを予測した。2つのコンピュータ内での消化物に由来するAFLPフラグメントの回収は、酵素の組合せBamHI/XbaIとEcoRI/HindIIIとの間に様々な(およそ14個の)重複するAFLPフラグメント配列を生じた。重複する制限フラグメントの1つは、コンティグ「606」で表示されるコンティグを形成し、これは、全長662bpを有する。このコンティグの配列を図3に示す。
【0084】
このコンティグにおける予測EcoRI/HindIII AFLP +C/+CTフラグメントは、218bp長であり、全コンティグ長606bpの32.9%を占める。予測BamHI/XbaI AFLP +C/+Gフラグメントは、486bp長であり、全コンティグ長の73.4%に等しい。両方のフラグメントは、図3で表されるように42塩基対分重複する。
【0085】
B)AFLP鋳型調製及び増幅
シロイヌナズナ(生態型コロンビア)のゲノムDNA、並びに制限酵素の組合せEcoRI/HindIII及びBamHI/XbaIに関するAFLP鋳型は、非特許文献19、特許文献1(A1、B1);特許文献4、及び非特許文献20に記載されるプロトコルに基づいて調製した。
【0086】
以下のアダプター配列(5’−3’)を使用した:
【0087】
【化1】

【0088】
選択的(+1/+1)増幅(E/H及びB/X)は、以下のホスホロチオエートプライマー(5’−3’)を使用して実施した:
【0089】
【化2】

【0090】
「s」により、オリゴヌクレオチド上のホスホロチオエート結合の位置を示している。
【0091】
AFLP反応混合物は、以下の組成物を有していた:
MQ中で1/10に希釈したAFLP鋳型 5μl
5×herculase II PCR緩衝液 10μl
dNTP(20mM) 0.5μl
AFLPプライマー1(50ng/μl) 1.5μl
AFLPプライマー2(50ng/μl) 1.5μl
Herculase(登録商標)II融合DNA−ポリメラーゼ 1μl
MQ 30.5μl
PCRサイクリング条件は以下の通りであった:
初期変性 94℃ 2分
変性 94℃ 10秒
アニーリング 56℃ 30秒 10サイクル
伸長 68℃ 2分
変性 94℃ 15秒
アニーリング 56℃ 30秒 20サイクル
伸長 68℃ 2分
変更:1サイクル当たり20秒
AFLP増幅後、製造業者のプロトコルに従って、Qiagenカラムを使用して反応生成物を精製した。
【0092】
C)454配列ライブラリー調製
2つの454配列ライブラリーは、精製されたAFLP反応生成物のネブライゼーション(nebulization)(断片化)を始めとして、Margulies及び共同研究者等により記載されるように、それぞれ出発DNAとして精製されたBamHI/XbaI AFLPフラグメント及びEcoRI/HindIII AFLPフラグメントを使用して調製された。GS20シーケンシング機器(Roche Molecular Diagnostics)を使用して、GS20 ピコタイタープレートの半分に、2つのAFLP酵素の組合せのフラグメントライブラリーそれぞれを適用させて、単一の454配列解析(run)を実施した。
【0093】
D)データプロセシング
配列解析の完了後、GS20のRUNASSEMBLYソフトウェアを使用して、生データをプロセシングした。EcoRI/HindIII及びBamHI/XbaI AFLPフラグメントライブラリーに由来するデータは、個々に及び組み合わせてプロセシングされて、重複する配列読取のコンティグを生成した。
【0094】
次に、コンティグ606に含有されるコンピュータ内での予測BamHI/XbaI +C/+G及びEcoRI/HindIII +C/+CT AFLPフラグメントがどの程度シーケンシングされたかを確認するために、RUNMAPPINGを使用して、RUNASSEMBLYから生じるコンティグを上記参照ゲノム(工程aで予測されるコンティグ606)に対してマッピングした。各々のライブラリーから得られる網羅のパーセントを以下の表に示す。
【0095】
【表1】

【0096】
得られる配列コンティグを図4に示す。
【0097】
これらの結果は、複数のAFLP制限酵素の組合せを用いて総ゲノムDNAを消化すること、続くフラグメントライブラリー1つ当たりのコンティグアセンブリ及びその後の植物ゲノム配列へのコンティグのアセンブリにより、複雑な植物ゲノムのゲノム配列を確定するための実現可能性を実証している。
【図面の簡単な説明】
【0098】
【図1】ゲノムDNAから出発して、制限エンドヌクレアーゼの組合せ(酵素の組合せ1、EC1)による消化が実施されて、制限フラグメントの組を生じることを示す図である。制限フラグメントに、アダプターをライゲーションさせて、その後アダプターライゲーション制限フラグメントを、第1の選択的プライマーの組合せ(PC1)を用いて増幅させて、n個のフラグメントを生じる。各フラグメントはハイスループットシーケンシング用に断片化して、シーケンシング及びアラインメントに付して、制限フラグメントのコンティグを生成する。このようにして、増幅されたアダプターライゲーション制限フラグメント(n)の全て又は大部分の配列が、1つのプライマーの組合せに関して確定される。
【図2】所定の酵素の組合せ(EC1)に関する考え得るプライマーの組合せそれぞれに関して、増幅されたアダプターライゲーション制限フラグメントの断片化、シーケンシング、アラインメント及びコンティグ構築の工程を繰り返すことを示す図である。このことは、例えば選択的増幅が、それぞれそれの3’末端に選択的ヌクレオチドを保有するプライマー(即ち、+1/+1プライマー)を用いて実施される場合、16個のプライマーの組合せ(PC1・・・PCm)は、全ての順列を網羅し、16個のプライマーの組合せを用いて、全てのアダプターライゲーション制限フラグメントが増幅され、続いてシーケンシングされていることを意味する。EC1を用いて生成されるコンティグから、即ちEC1/PC1・・・EC1/PCmから、アセンブリはゲノムの大部分を網羅するが、ゲノム配列を提供するためには固着される必要がある。この目的で、第2の酵素の組合せ(及び必要であれば、第3の酵素の組合せ及び第4の酵素の組合せ等)が使用される。図1及び図2の工程、即ち制限、アダプターライゲーション等は、酵素の組合せ2(EC2)を用いて繰り返される。選択的増幅は、EC1とともに使用されるプライマーとは通常異なり得る(配列及び選択性)選択的プライマーの組を用いて実施される。アダプターライゲーション制限フラグメントは、選択的プライマーの組の全ての考え得る順列を用いて再び増幅されて、異なり且つ相補的なサブセットを生じる。選択的に増幅されたアダプターライゲーション制限フラグメントの各サブセットの断片化、及び続くハイスループットシーケンシング、コンティグ構築等は、再びゲノムの大部分を網羅する第2のアセンブリを導く。大面積に関して互いに重複しないこれらの2つのアセンブリ(及び任意の第3の酵素の組合せ、第4の酵素の組合せ等)から、研究されるゲノムのドラフト配列が生成される。
【図3】重複するEcoRI/HindIII +C/+CT及びBamHI/XbaI +C+G制限フラグメントを含有するコンティグ606のコンピュータ内で予測される662bpの配列を示す図である。
【図4】シーケンシングAFLPフラグメントライブラリーEcoRI/HindIII +C/+CT(r1_9_35974〜36087)及びBamHI/XbaI +C/+G(r2_9_36138〜36200)に基づくコンピュータ内で予測されるコンティグ606の観察される配列コンティグを示す図である。(r1_9_35974〜36087)と(r2_9_36138〜36200)との間の42bpの重複は、両方のフラグメントライブラリーから得られる配列により完全に網羅されることに留意されたい。

【特許請求の範囲】
【請求項1】
ゲノム配列を確定する方法であって、
(a)少なくとも1つの第1の制限エンドヌクレアーゼで前記ゲノムを消化することにより、該ゲノムの第1のサブセットを提供する工程であって、それにより制限フラグメントを提供する、提供する工程と
(b)少なくとも1つのアダプターを、前記第1のサブセットの制限フラグメントにライゲーションさせる工程であって、それによりアダプターライゲーション制限フラグメントの第1の組を提供する、ライゲーションさせる工程と、
(c)第1のプライマーの組合せを使用して、前記アダプターライゲーション制限フラグメントの第1の組を選択的に増幅させる工程であって、少なくとも第1のプライマーは、該アダプター及び前記制限エンドヌクレアーゼの認識配列の一部に相補的であり、且つ該プライマー配列の3’末端に第1の選択配列をさらに含有するセクションを含有し、該第1の選択配列は、1〜10個の選択的ヌクレオチドを含み、それにより増幅されたアダプターライゲーション制限フラグメントの第1のサブセットを提供する、選択的に増幅させる工程と、
(d)少なくとも第2のプライマーの組合せ及び/又はさらなるプライマーの組合せを用いて前記工程(c)を繰り返す工程であって、該プライマーは、同じ数の選択的ヌクレオチドを含有する、3’末端に異なる第2の選択配列及び/又はさらなる選択配列を含有し、それにより増幅されたアダプターライゲーション制限フラグメントの第2のサブセット及び/又はさらなるサブセットを提供する、前記工程(c)を繰り返す工程と、
(e)前記増幅されたアダプターライゲーション制限フラグメントの第1のサブセット、第2のサブセット及び/又はさらなるサブセットをそれぞれ断片化する工程であって、それにより第1のシーケンシングライブラリー、第2のシーケンシングライブラリー及び/又はさらなるシーケンシングライブラリーを生成し、続いて任意に該ライブラリーをプールする、断片化する工程と、
(f)前記第1のライブラリー、前記第2のライブラリー及び/又は前記さらなるライブラリーそれぞれに含有される前記フラグメント(の少なくとも一部)のヌクレオチド配列(の少なくとも一部)を確定する工程と、
(g)前記第1のライブラリー、前記第2のライブラリー及び/又は前記さらなるライブラリーそれぞれにおける前記フラグメントの配列をアラインする工程であって、それにより前記ゲノムの散在分画を表す増幅されたアダプターライゲーション制限フラグメント由来のコンティグを生成する、アラインする工程と、
(h)少なくとも1つの第2の制限エンドヌクレアーゼ及び/又はさらなる制限エンドヌクレアーゼに関して前記工程(a)〜前記工程(g)を繰り返す工程と、
(i)前記第2の制限エンドヌクレアーゼ及び/又はさらなる制限エンドヌクレアーゼそれぞれに関して前記工程(g)及び前記工程(h)で得られるコンティグをアラインする工程であって、それにより前記ゲノムの配列を提供する、アラインする工程と
を含むことを特徴とするゲノム配列を確定する方法。
【請求項2】
請求項1に記載のゲノム配列を確定する方法において、前記第1の制限エンドヌクレアーゼ、前記第2の制限エンドヌクレアーゼ及び/又は前記さらなる制限エンドヌクレアーゼの少なくとも1つはレアカッターであることを特徴とするゲノム配列を確定する方法。
【請求項3】
請求項1又は2に記載のゲノム配列を確定する方法において、前記第1の制限エンドヌクレアーゼ、前記第2のエンドヌクレアーゼ及び/又は前記さらなる制限エンドヌクレアーゼの少なくとも1つはフリークエントカッターであることを特徴とするゲノム配列を確定する方法。
【請求項4】
請求項1〜3のいずれか一項に記載のゲノム配列を確定する方法において、少なくとも2つのレアカッターが使用されることを特徴とするゲノム配列を確定する方法。
【請求項5】
請求項1〜4のいずれか一項に記載のゲノム配列を確定する方法において、1つのレアカッター及び1つのフリークエントカッターが使用されることを特徴とするゲノム配列を確定する方法。
【請求項6】
請求項1〜5のいずれか一項に記載のゲノム配列を確定する方法において、前記増幅方法は、PCR、好ましくはロングレンジPCRであることを特徴とするゲノム配列を確定する方法。
【請求項7】
請求項1〜6のいずれか一項に記載のゲノム配列を確定する方法において、前記プライマーの3’末端にある選択配列は、1〜8個、好ましくは1〜5個、より好ましくは1〜3個の選択ヌクレオチドを含有することを特徴とするゲノム配列を確定する方法。
【請求項8】
請求項1〜7のいずれか一項に記載のゲノム配列を確定する方法において、前記第1の選択配列、前記第2の選択配列及び前記さらなる選択配列は、同じ数のヌクレオチドを有するが、前記プライマーの3’末端に位置する前記選択的配列において互いにヌクレオチド配列が異なることを特徴とするゲノム配列を確定する方法。
【請求項9】
請求項1〜8のいずれか一項に記載のゲノム配列を確定する方法において、シーケンシングは、サンガーダイデオキシシーケンシングにより実施されることを特徴とするゲノム配列を確定する方法。
【請求項10】
請求項1〜8のいずれか一項に記載のゲノム配列を確定する方法において、シーケンシングは、ビーズのような固体支持体上で実施されることを特徴とするゲノム配列を確定する方法。
【請求項11】
請求項1〜8のいずれか一項に記載のゲノム配列を確定する方法において、前記シーケンシングは、ハイスループットシーケンシング、好ましくは合成によるシーケンシング(Sequencing-by-Synthesis)に基づくことを特徴とするゲノム配列を確定する方法。
【請求項12】
請求項1〜8のいずれか一項に記載のゲノム配列を確定する方法において、前記シーケンシングは、合成によるシーケンシング、好ましくはピロシーケンシングに基づくことを特徴とするゲノム配列を確定する方法。
【請求項13】
請求項1〜8のいずれか一項に記載のゲノム配列を確定する方法において、シーケンシングは、
(f1)シーケンシングアダプターを、前記フラグメントにライゲーションさせる工程と、
(f2)シーケンシングアダプターライゲーションフラグメントをビーズへアニーリングさせる工程(各ビーズは、単一のフラグメントとアニーリングする)と、
(f3)油中水型マイクロリアクター中で前記ビーズを乳化させる工程(各油中水型マイクロリアクターは、単一のビーズを含む)と、
(f4)エマルジョンPCRを実施する工程であって、それによりビーズの表面上でアダプターライゲーションフラグメントを増幅させる、エマルジョンPCRを実施する工程と、
(f5)増幅されたアダプターライゲーションフラグメントを含有するビーズを選択/濃縮する工程と、
(f6)ウェル中に前記ビーズを負荷する工程(各ウェルは、単一のビーズを含む)と、
(f7)ピロリン酸シグナルを生成する工程と
を含むことを特徴とするゲノム配列を確定する方法。
【請求項14】
請求項1〜13のいずれか一項に記載のゲノム配列を確定する方法において、コンティグ構築は、BAC末端配列、BACショットガン配列、EST配列又は全ゲノムショットガン配列(これらに限定されない)が挙げられる他の供給源に由来するヌクレオチド配列の使用によりさらに助長されることを特徴とするゲノム配列を確定する方法。
【請求項15】
請求項1〜14のいずれか一項に記載のゲノムを確定する方法において、ゲノムサブセットは、制限フラグメントを提供するように制限エンドヌクレアーゼで前記ゲノムを消化すること、続く非選択的増幅により調製されることを特徴とするゲノムを確定する方法。
【請求項16】
請求項1〜15のいずれか一項に記載のゲノム配列を確定する方法において、前記混合物の複雑性を低減させる方法は、インデキシングリンカー、CHIP又は保存モチーフに対するPCRプライマーに基づくことを特徴とするゲノム配列を確定する方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公表番号】特表2008−546405(P2008−546405A)
【公表日】平成20年12月25日(2008.12.25)
【国際特許分類】
【出願番号】特願2008−518057(P2008−518057)
【出願日】平成18年6月23日(2006.6.23)
【国際出願番号】PCT/NL2006/000312
【国際公開番号】WO2006/137734
【国際公開日】平成18年12月28日(2006.12.28)
【出願人】(505464888)キージーン ナムローゼ フェンノートシャップ (11)
【Fターム(参考)】