説明

制限酵素に基づく全ゲノムシーケンシング

DNA試料の、アダプターとライゲーションされた制限酵素切断断片のシーケンシングと組み合わせた、タグ化された、アダプターとライゲーションされた制限酵素切断断片のエンドシーケンシングに基づく、DNA試料クローンバンクの(配列に基づく)物理地図に基づくde novo全ゲノムシーケンシングのための方法であって、この物理地図の生成で使用される制限酵素の認識配列は、当該DNA試料の生成で使用される制限酵素の認識配列少なくとも一部分と同一である方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、高スループットシーケンシングを使用する、全ゲノム配列またはその一部分の効率的な生成のための方法および戦略に関する。本発明は、大スケールの核酸のシーケンシングに、特に生物のゲノム、またはその一部分をシーケンシングする方法に関する。本発明は、高スループットシーケンシング技術の使用に基づく、好ましくは複雑な(すなわち大きい)ゲノムの配列を決定するための改善された戦略に関する。
【背景技術】
【0002】
多くのシーケンシングプロジェクトのゴールは、標的生物のゲノム配列全体を初めて決定すること(de novoドラフトゲノムシーケンシング)である。ドラフトゲノム配列を手にすることで、例えば種と種の間または同じ種の個体間の遺伝的変異の起源の特定のための、生物の有用な遺伝情報の特定が可能になる。従って、ヒト、動物または植物のいずれであろうと、個体のゲノム配列全体のde novo決定を妥当な費用および労力で可能にする技法に至ることが、当該技術分野での一般的な要望である。この探求は、典型的には、1000ドルゲノム、すなわち最大1000ドル(通貨変動は考慮しない)で個体のゲノム配列全体を決定することへの探求として表される。しかしながら、実際、1000ドルゲノムは、必ずしもde novoゲノムシーケンシングおよびアセンブリ戦略に依るわけではなく、リシーケンシングアプローチに基づく可能性もある。後者の場合、リシーケンシングされるゲノムは、de novoアセンブリングされず、シーケンシングされたそのDNAは、注目する生物についての既存の参照ゲノム配列と比較される(既存の参照ゲノム配列にマッピングされる)。それゆえ、リシーケンシングアプローチは、技術的にそれほど困難ではなく、費用もかからない。分かりやすくするために、本発明の焦点は、参照ゲノム配列が欠けている生物に適用することができるde novoゲノムシーケンシング戦略に当てられる。
【0003】
現在の努力は様々であり、成し遂げられた結果は多く、そして急速に増加している。とはいうものの、上記のゴールはまだ成し遂げられていない。ゲノム全体を直接的にシーケンシングしアセンブリングすることは、まだ経済的に実現可能とは言えない。改良されたde novoゲノムシーケンシング戦略についての要求が当該技術分野でまだある。このような戦略についての一般的な要求事項は、そのような戦略が、より安く、データを配列のリード(sequence read)からアセンブリングされたドラフトゲノムへと処理するために必要な計算能力に関して効率的であり、十分な品質、すなわち、十分に正確なデータを作成するために決定される必要がある配列が持つべき重複性、のデータを生成するための高スループットシーケンシング装置の使用に関して効率的である、などということである。
【0004】
特許文献1は、クローンアレイプールドショットガンシーケンシング(clone−array pooled shotgun sequencing)法(CAPPS)を記載する。この方法は、様々にプールされた(pooled)(BAC)クローンからのランダムな配列のリードを用いる。ランダムなリードの交差アセンブリに基づいて、複数のクローンから配列コンティグを生成することができ、その配列に対する当該クローンの地図を生成することができる。この公開公報は、多次元のプール、例えば各プールおよび列が148個のBACクローンを含有する二次元のフォーマット(148×148フォーマット)でのBACライブラリーの生成を、より詳細に記載する。CAPPSを使用すると、BACプールは、平均で4〜5×カバレッジ(coverage)までシーケンシングされ、これは、二次元プールのスキームの場合、BACあたり8〜10×カバレッジを生成する。コンティグは、1つの列および、二次元のプーリング(pooling)スキームの場合は、1つのプールにおけるそれらの配列の出現に基づいて、そのBACにとって一意的である配列に基づいて、BACごとに別々に作製される。その後、これらのBACは、そのゲノムについてのコンティグにアセンブリングされる。この公開公報は、5つのBACに基づく技術を実証しているにすぎず、データ処理の問題を手付かずのまま残している。この技術の不都合のうちの1つは、ランダムにシアリングされる断片の使用が、8〜10倍の配列重複性レベルでゲノムをカバーする(cover)ために膨大な量のリードを必要とすることであり、このため、この方法は、大規模に行うと非常に面倒なものになる。さらには、この方法は、配列に基づく物理的BAC地図を与えない。
【0005】
特許文献2は、順序付けられている制限酵素地図の作成のために制限酵素を使用する全ゲノムの光学的な制限酵素地図作成と組み合わされた全ゲノムショットガン配列情報を作成するための、一本鎖のゲノムDNAのクローン的に単離および増幅されたライブラリーに基づいた、配列情報のアセンブリの方法を記載する。
【0006】
特許文献3は、部分配列の比較によるBACコンティグ地図作成に関する方法を開示する。この方法は、反復配列、およびリピートリッチの領域にわたるブリッジの作成によるコンティグの生成に関連する困難を回避することを目的とする。
【0007】
BACに基づいて物理地図を決定することは、例えば「全ゲノムプロファイリング(whole genome profiling)」またはWGPとしても示されるKeygeneの特許文献4に記載されている方法を使用して、シーケンシングBACライブラリー(BACクローンの配列に基づく物理地図作成)に基づくことができる。簡潔に言えば、WGPはゲノムの少なくとも一部分の物理地図の生成に関し、WGPは、試料DNAから人工染色体ライブラリーを生成する工程、クローンをプールする工程、プールされたクローンを制限酵素で消化する工程、識別子含有アダプターをライゲーションする工程、この識別子含有の、アダプターとライゲーションされた制限酵素切断断片を増幅する工程、増幅産物をクローンに相関させる工程、および断片を順序付けしてコンティグを生成し、これにより物理地図を作成する工程を含む。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】国際公開第03/027311号パンフレット
【特許文献2】米国特許出願公開第2007/0082358号明細書
【特許文献3】米国特許出願公開第2002/0182630号明細書
【特許文献4】国際公開第2008/007951号パンフレット
【発明の概要】
【発明が解決しようとする課題】
【0009】
高スループットシーケンシングにおけるすべての開発にもかかわらず、高精度でドラフトゲノム配列を決定することは、費用がかかり労力がかかるとまだ考えられており、激しい競争が市場で行われている。従って、ドラフトゲノム配列の生成のための効率的かつ経済的な方法に至るために、現在の既存の方法を補完する必要性がまだ残っている。
【課題を解決するための手段】
【0010】
本発明者らは、シーケンシング技術の最近の発展に基づいて、新規かつ効率的な戦略が既存の方法論の改良をもたらすということを見出した。この戦略は、原理上は、制限酵素切断断片を使用した、クローンバンクからの物理地図に基づく。物理地図の生成で使用された認識配列と同じ認識配列を含有する制限酵素によって得られる、クローン由来またはゲノムDNA由来の制限酵素切断断片が、断片化された制限酵素切断断片のシーケンシング、デコンボリューション(クローンを使用するとき)および物理地図へのアラインメントを使用するその後の工程で、さらなる配列情報を生成するために使用される。その結果は、制限酵素切断断片にリンクされる配列のリードの生成であり、この際、制限酵素切断断片自体が物理地図にリンクされる。この組み合わされたアプローチを使用して、物理地図およびドラフトゲノム配列は、制限酵素切断断片の内部配列のシーケンシングと組み合わされた制限酵素切断断片シーケンシングの組み合わせを通して成し遂げられうる。
【図面の簡単な説明】
【0011】
【図1】本発明のシーケンシング戦略の略図。
【図2】WGPS、全ゲノムプロファイルシーケンシングの略図。
【図3】SDSES、部位特異的なシングルエンドシーケンシングの略図。
【図4】SDPES、部位特異的なペアエンドシーケンシングの略図。
【図5】リード1とWGPタグとの間の関係。
【図6a】リード1はシーケンシングプライマー2(の一部)を含有し、リード2はプールIDおよびシーケンシングプライマー1の組み合わせ(の一部)を含有する。
【図6b】リード2はプールID(の一部)を含有する。
【図7】1506個のペアエンドリードを用いた、WGPタグ「GAATTCAGTGGAGGATTGTGGGGTGG」ビンについてのphrap、Cap3およびVelvetの例示的なアセンブリ結果。
【図8】メロンゲノム配列(=ターゲット)に対してWGPタグ「GAATTCAAATGAAGCCACCCTTTAGA」(=クエリ)について生成されたコンティグのBlast解析の例示的な結果。
【発明を実施するための形態】
【0012】
定義
本願明細書で使用する場合、「ペアエンドシーケンシング」は、高スループットシーケンシングに基づく、特に、IlluminaおよびRocheによって現在販売されているプラットフォームに基づく方法である。Illuminaは、鋳型の両末端のシーケンシングを可能にし、これによりペアエンドリードを生成するアップグレードとして、既存のシーケンサーにインストールすることができるハードウェアモジュール(PE Module)をリリースした。本発明に係る方法においては、特にSolexa技術を使用するペアエンドシーケンシングを使用することが、特に好ましい。ペアエンドシーケンシングの例は、例えば米国特許出願公開大20060292611号明細書に、およびRocheからの刊行物(454シーケンシング)に記載されている。
【0013】
シーケンシング:用語「シーケンシング」は、核酸試料、例えばDNAまたはRNAの中のヌクレオチドの順序(塩基配列)を決定することを指す。Sangerシーケンシングおよび高スループットシーケンシング技術(次世代シーケンシング技術としても知られる)、例えばパイロシークエンス(pyrosequencing)に基づいて、Roche Applied Scienceによって提供されるGS FLXプラットフォームなど、多くの技法が利用できる。
【0014】
制限酵素:制限エンドヌクレアーゼまたは制限酵素は、二本鎖DNA分子の中の特定のヌクレオチド配列(標的部位)を認識し、標的部位ごとにその部位またはその近傍でそのDNA分子の両方の鎖を切断して、平滑末端または付着末端を残すであろう酵素である。
【0015】
タイプIIs制限エンドヌクレアーゼは、制限酵素部位から離れた認識配列を有するエンドヌクレアーゼである。換言すれば、タイプIIs制限エンドヌクレアーゼは、一方の側で、認識配列の外側を切断する。その例は、NmeAIII(GCCGAG(21/19)およびFokI、AlwI、Mme Iである。両側で認識配列の外側を切るタイプIIs酵素がある。
【0016】
フリークエントカッター(frequent cutter)およびレアカッター(rare cutter):制限酵素は、典型的には、4(MseIなど)〜6(EcoRI)およびさらには8(NotI)というヌクレオチドの数が異なる認識配列を有する。使用される制限酵素は、フリークエントカッターおよびレアカッターであることができる。これに関して用語「フリークエント」は、典型的には、用語「レア」に対して使用される。高頻度で切断するエンドヌクレアーゼ(フリークエントカッターとしても知られる)は、比較的短い認識配列を有する制限エンドヌクレアーゼである。フリークエントカッターは、典型的には、それらが認識しその後切断する4または5ヌクレオチドを有する。従って、フリークエントカッターは、平均で、256〜1024ヌクレオチドごとにDNA配列を切断する。レアカッターは、比較的長い認識配列を有する制限エンドヌクレアーゼである。レアカッターは、典型的には、それらが認識しその後切断する6またはこれより多いヌクレオチドを有する。従って、レアの6カッターは、平均で4096ヌクレオチドごとにDNA配列を切断し、より長い断片を導く。ここでも、フリークエントおよびレアの定義は互いに対してのものであるということが認められ、これは、MseIなどの4bp制限酵素がAvaIIなどの5カッターと組み合わせて使用されるとき、AvaIIはレアカッターとして見られ、MseIはフリークエントカッターとして見られるということを意味する。
【0017】
メチル化感受性制限酵素(MSRE)。認識配列の中またはその近傍にあるヌクレオチドのメチル化状態に敏感な制限酵素。特定のメチル化されたヌクレオチド(通常はシトシン)の存在または不存在は、当該酵素の活性にとって、認識配列の次に、重要である。NotI、SmaI、XmaI、MboI、BstBI、ClaI、MM、NaeI、NarI、PstI、PvuI、SacII、SaiI、HpaII、およびHhaIは、MSREの例である。他の有用なMSREは、例えばMcClellandら、Nucl.Acids Res.、1994年、第22巻、3640−3659頁に、またはNew England Biolabs(マサチューセッツ州ビバリー(Beverly))、Promega(ウィスコンシン州マディソン(Madison))、もしくはInvitrogen(カリフォルニア州カールスバッド(Carlsbad))などの民間の販売業者から入手できる技術資料に記載されている。
【0018】
イソ制限酵素:イソ制限酵素は、同じ認識配列に特異的でありかつおよび同じ位置で切断する制限酵素の対である。例えば、Sph I(GCATGC)およびBbu I(GCATGC)は互いにイソ制限酵素である。与えられた配列を認識し切断するための第1の酵素はプロトタイプ(原型)として知られ、その配列を認識し切断するすべての後に続く酵素はイソ制限酵素である。同じ配列を認識するが異なってそれを切断する酵素はネオ制限酵素(neoschizomer)である。イソ制限酵素は、ネオ制限酵素の特定のタイプ(サブセット)である。例えば、Sma I(CCCGGG)およびXma I(CCCGGG)は、互いにネオ制限酵素である(イソ制限酵素ではない)。
【0019】
制限酵素切断断片:制限エンドヌクレアーゼを用いたDNAの消化によって生成されるDNA分子は、制限酵素切断断片と呼ばれる。いずれの与えられたゲノム(または核酸。その由来に依らない)も、特定の制限エンドヌクレアーゼによって、個別の組の制限酵素切断断片へと消化されるであろう。制限エンドヌクレアーゼの切断から生じるDNA断片は、様々な技法においてさらに使用することができ、例えばゲル電気泳動またはシーケンシングによって検出することができる。制限酵素切断断片は、平滑末端にされてもよいし、またはオーバーハングを有してもよい。このオーバーハングは、ポリッシングと記載される技法を使用して除去することができる。制限酵素切断断片の用語「内部配列」は、典型的には、制限酵素切断断片の一部の起源が試料ゲノムの中に存在する、すなわちアダプターの一部に由来するものではないということを示すために使用される。この内部配列は、試料ゲノムに直接由来し、従ってその配列は検討対象のゲノムの配列の一部である。用語「内部配列」は、アダプターに対して、制限酵素の認識配列の残部などを区別するために使用される。
【0020】
ライゲーション:2つの二本鎖DNA分子が共有結合で一緒に連結される、リガーゼ酵素によって触媒される酵素による反応は、ライゲーションと呼ばれる。一般に、両方のDNA鎖は共有結合で一緒に連結されるが、それらの鎖の末端の1つの化学修飾または酵素による修飾を通して、その2本の鎖のうちの1本のライゲーションを防止することも可能である。その場合、共有結合による連結は、それらの2本のDNA鎖のうちの1本のみで生じることになろう。
【0021】
合成オリゴヌクレオチド:化学的に合成することができる、好ましくは約10〜約50塩基を有する一本鎖のDNA分子は合成オリゴヌクレオチドと呼ばれる。一般に、これらの合成DNA分子は、一意的なまたは所望のヌクレオチド配列を有するように設計されるが、そのヌクレオチド配列内の特定の位置で異なるヌクレオチド組成を有する関連する配列を有する一群の分子を合成することが可能である。用語「合成オリゴヌクレオチド」は、設計されたまたは所望のヌクレオチド配列を有するDNA分子を指すために使用されるであろう。
【0022】
アダプター:制限酵素切断断片の末端にライゲーションされうるように設計されている、限られた数の塩基対、例えば長さが約10〜約30塩基対を有する短い二本鎖DNA分子。アダプターは、一般に、部分的に互いに相補的であるヌクレオチド配列を有する2つの合成オリゴヌクレオチドから構成される。適切な条件下で溶液の中でこれら2つの合成オリゴヌクレオチドを混合するとき、それらは互いにアニーリングして、二本鎖構造を形成するであろう。アニーリング後、このアダプター分子の一端は、それが制限酵素切断断片の末端と適合性であり、かつ制限酵素切断断片の末端にライゲーションされうるように設計され、そのアダプターの他端は、それがライゲーションされ得ないように設計することができるが、これは、必ずしもこのとおりである必要はない(二重にライゲーションしたアダプター)。アダプターは、識別子、制限酵素のための認識配列、プライマー結合セクションなどの他の機能的特徴を含むことができる。他の機能的特徴を含むとき、アダプターの長さは大きくなってもよいが、機能的特徴を組み合わせることにより、アダプターの長さは制御されうる。
【0023】
アダプターとライゲーションされた制限酵素切断断片:一方の末端または両方の末端でアダプターによりキャッピングされた制限酵素切断断片。
【0024】
プライマー:一般に、用語「プライマー」は、DNAの合成をプライミングすることができるDNA鎖を指す。DNAポリメラーゼは、プライマーなしではDNAをde novo合成することができない:アセンブリングされるヌクレオチドの順序を指定するために、鋳型として相補的な鎖が用いられるような反応において、DNAポリメラーゼは既存のDNA鎖を伸長することができるだけである。本発明者らは、プライマーとして、ポリメラーゼ連鎖反応(PCR)において用いられる合成オリゴヌクレオチド分子に言及することになろう。
【0025】
DNA増幅:用語「DNA増幅」は、典型的には、PCRを使用する、二本鎖DNA分子のインビトロ合成を表すために使用されるであろう。他の増幅方法が存在し、それらの方法が、主旨から逸脱せずに本発明において使用されてもよいということに留意されたい。
【0026】
核酸:本発明に係る核酸は、ピリミジン塩基およびプリン塩基、好ましくはそれぞれシトシン、チミンおよびウラシル、ならびにアデニンおよびグアニン、の任意のポリマーまたはオリゴマーをそれぞれ含んでもよい(Albert L. Lehninger、「Principles of Biochemistry」、Worth Pub.、1982年、793−800頁を参照。これはすべての目的のためにその全体が参照により本明細書において援用される)。本発明は、これらの塩基のメチル化された形態、ヒドロキシメチル化された形態または糖鎖が付加した形態などのような、任意のデオキシリボヌクレオチド、リボヌクレオチドまたはペプチド核酸成分、およびそれら任意の化学的な変異型も検討する。このポリマーまたはオリゴマーは、組成が不均質でもまたは均質であってもよく、天然に存在するソースから単離するかまたは人為的もしくは合成的に生成されてもよい。さらに核酸は、DNAもしくはRNA、またはそれらの混合物であってもよく、持続的にまたは一過性に、ホモ二本鎖、ヘテロ二本鎖、およびハイブリッド状態を含む、一本鎖型または二本鎖型で存在してもよい。
【0027】
複雑度の減少:用語「複雑度の減少」は、試料のサブセットの生成または選択によって、ゲノムDNAのような核酸試料の複雑度を減少させる方法を意味するために使用される。このサブセットは試料全体(即ち複雑である)の代表になることができ、好ましくは再現可能なサブセットである。本文脈において、再現可能は、同一の方法および実験条件を使用して同一の試料の複雑度が減少される場合、同じかまたは少なくとも同程度のサブセットが得られることを意味する。複雑度の減少のために使用される方法は、当該技術分野において公知である複雑度の減少のための任意の方法であってもよい。複雑度の減少のための方法の例は、例えば、AFLP(登録商標)(Keygene N.V.、オランダ;例えば、欧州特許第0 534 858号明細書を参照)、Dongにより記述された方法(例えば、国際公開第00/24939号パンフレットを参照)、インデックスリンク(indexed linking)(Unrauら.、Gene、1994年、第145巻、163−169頁)などを含む。本発明で使用される複雑度の減少方法は、それらが再現可能であることが共通である。同一の試料が同一の様式で複雑度が減少される場合に、試料の同一のサブセットが得られるという意味における再現可能は、顕微解剖、ランダムなシアリング、または選択された組織で転写されたゲノムの一部を表し、その再現性については、組織の選択、単離時期などへ依存するmRNA(cDNA)の使用のような、よりランダムな複雑度の減少に対立するものである。
【0028】
識別子:アダプターもしくはプライマーに付加もしくは挿入することができる短い配列、または一意的な識別子(バーコード(barcode)またはインデックス(index)としても知られる)を提供するための標識として配列に含まれるかもしくは別の態様で使用される短い配列。このような配列識別子(タグ)は、特定の核酸試料を特定するために使用される、様々であるが明確な長さ、典型的には4〜16bpを有する一意的な塩基配列であることができる。例えば4bpタグは、4(exp4)=256の異なるタグを可能にする。このような識別子を使用して、さらなる処理の後にPCR試料の由来(起源)を決定することができるし、または断片をクローンに関連づけることができる。また、プールの中にあるクローンは、これらの配列に基づく識別子を使用して互いに区別することができる。従って、識別子は、試料特異的、プール特異的、クローン特異的、増幅産物特異的などであることができる。異なる核酸試料に由来する処理した産物を合わせる場合には、それらの異なる核酸試料は、一般に、異なる識別子を使用して特定される。識別子は、互いに少なくとも2塩基対異なることが好ましく、ミスリードを防ぐために、2つの同一の連続する塩基を含有しないことが好ましい。識別子機能は、アダプターまたはプライマーなどの他の官能性と組み合わせることができる場合もあり、任意の好都合な位置に置くことができる。
【0029】
タグ化:用語「タグ化」は、核酸試料を第2の核酸試料またはさらなる核酸試料と区別することを可能にするために、核酸試料へ配列タグを追加することを指す。タグ化は、例えば、複雑度の減少の間の配列識別子の追加により、または別々のライゲーション工程などの当該技術分野において公知である任意の他の手段により行うことができる。そのような配列識別子は、特定の核酸試料の同定のために独自に使用される、例えば一様でないが、定義された長さの特有な塩基配列であり得る。ヌクレオチドに基づくタグを使用して、その後の加工に際して、試料、クローン、または増幅産物の起源を決定することができる。異なる核酸試料から生じる加工生成物を組み合わせる場合には、異なる核酸試料は異なるタグを使用して同定されることができる。
【0030】
タグ化したライブラリー:用語「タグ化したライブラリー」は、タグ化した核酸のライブラリーを指す。
【0031】
アラインすること:用語「アラインすること」により、同一または同様のヌクレオチドの、短いまたは長い一続きのもの(stretches)の存在に基づいた、2つ以上のヌクレオチド配列の比較を意味する。さらに以下で説明されるように、ヌクレオチド配列のアラインメントのためのいくつかの方法が、当該技術分野において公知である。
【0032】
アラインメント:例えばギャップを導入することにより、並べたものの中の種々の配列にわたる配列同一性を有する領域を得るための可能性を最大にするために、複数の配列を管状の提示形態に配置すること。さらに以下で説明されるように、ヌクレオチド配列のアラインメントのためのいくつかの方法が、当該技術分野で公知である。
【0033】
用語「コンティグ」は、DNA配列解析に関連して使用され、近接ヌクレオチド配列を有する2以上のDNA断片に由来するDNAのアセンブリングされた近接の一続きのものを指す。従って、コンティグは、ゲノムの部分的な近接配列を与える重複するDNA断片の組である。「足場」は、正しい順序にはあるが1つの近接配列として連結されていない、すなわちギャップを含む一連のコンティグとして定義される。コンティグ地図も、一組のクローンの中での重複関係を特定することにより、ゲノムの近接領域の構造を表す。例えば、用語「コンティグ」は、各配列がその隣接部分の配列に重複するように順序付けられている一連のクローニングベクターを包含する。その場合、リンクされたクローンは、手作業でまたは、好ましくはFPC、PHRAP、CAP3などなどの適切なコンピュータープログラムを使用して、コンティグへとグループ化することができる。
【0034】
断片化:DNAをより小さい断片へと細分化するために使用される技法。断片化は、酵素によるもの、化学的なものまたは物理的なものであってもよい。ランダムな断片化は、断片の配列とは無関係な長さを有する断片を与える技法である。典型的には、シアリング(shearing)またはネブライゼーション(nebulisation)は、DNAのランダムな断片を与える技法である。典型的には、ランダムな断片化の強度または時間が断片の平均長さを決定する。断片化の後、断片の所望のサイズ範囲を選択するために、サイズ選択を実施することができる。
【0035】
物理地図作成は、配列特徴の位置を示す地図を構築するためにDNA分子を直接調べるための、ハイブリダイゼーション分析、PCRおよびシーケンシングなどの分子生物学技法を使用する技法を記述する。
【0036】
遺伝子地図作成は、ゲノム上の配列特徴の位置を示す地図を構築するための、家系解析などの遺伝子技法の使用に基づく。
【0037】
デコンボリューション(deconvolution)は、1以上のプールまたはサブプール(subpool)の中の既知の関連指標(すなわち標識または識別子)の存在の検出による、ライブラリーの中の個体の特定を記述するために使用される用語である。
【0038】
増幅産物:DNA(断片)が(例えばPCRを使用することにより)増幅されるとき、その増幅から生じるDNA鎖は、増幅産物として示すことができる。
【0039】
ポリッシング(polishing):DNAを制限酵素で消化することで、酵素に応じて、平滑末端または付着末端(すなわち、オーバーハングを含有するかまたは伸長された塩基を含有する)を生じることができる。付着末端は、「ポリッシング」として記述されるプロセスにおいて平滑化(オーバーハングが取り除かれる)できる。ポリッシングは、T4ポリメラーゼ、Klenow DNAポリメラーゼ(Costaら、Nucleic acids Research、1994)のようなDNAポリメラーゼを使用して成し遂げられる。
【0040】
第1の態様では、本発明は、DNA試料から配列情報を生成する方法に関し、この方法は、
(a)タグ化された、アダプターとライゲーションされた制限酵素切断断片のエンドシーケンシングに基づいてクローンバンクの(配列に基づく)物理地図を準備することであって、当該制限酵素切断断片は、少なくとも1つの制限酵素を使用して生成されたものである、ことと、
(b)次の工程を含むサブメソッドを準備することと、
(i)このDNA試料のアダプターとライゲーションされた制限酵素切断断片を準備すること、
(ii)任意に、このアダプターとライゲーションされた制限酵素切断断片を断片化すること、
(iii)任意に、アダプターを工程(ii)の断片にライゲーションすること、および
(iv)工程(iii)の断片の配列の少なくとも一部分を決定すること、
(c)工程(b)で得られる配列情報を工程(a)の物理地図と組み合わせることと、
(d)ドラフトゲノム配列を生成することと
を含み、工程(b)(i)における制限酵素切断断片は、工程(a)の物理地図の生成で使用される少なくとも1つの制限酵素の認識配列の少なくとも一部分と同一である認識配列を含有する少なくとも1つの制限酵素を用いて生成される。
【0041】
当該方法の第1の工程では、クローンバンクの物理地図は、アダプターとライゲーションされた制限酵素切断断片のエンドシーケンシングによって準備される。エンドシーケンシングに基づくクローンバンクの物理地図は、国際公開第2008007951号「High throughput physical mapping(ハイスループット物理地図)」パンフレットに記載されている方法などに基づくことができるが、その変法も、以下に例証されるように、使用することができる。
【0042】
ハイスループット物理地図に関する出願人ら自身の国際公開第2008007951号パンフレットでは、ライブラリーにあるクローンの制限酵素消化、プーリング、制限酵素消化、アダプターライゲーション、(選択的)増幅、高スループットシーケンシングおよび得られた配列のデコンボリューション(これは、物理地図をアセンブリングするために使用することができるBACクローン特異的な組を生じる)の組み合わせから物理地図を生成するための効率的な方法が記載されている。これらのクローンのコンティグへのアセンブリは、配列データのさらなるリンケージ(linkage)のための配列に基づくアンカーポイントとして使用することができる、シーケンシングされた断片の末端ヌクレオチド配列の同時存在に基づく。
【0043】
この技法は全ゲノムプロファイリング(Whole Genome Profiling、WGP)として示されており、配列に基づく物理地図作成のための、KeyGeneの最近に開発された特許権で守られたアプローチである。典型的には、BACライブラリーは単一の(ホモ接合の)個体から構築され、BACクローンは多次元のフォーマットでプールされる。BACプールは、多次元プールスクリーニングにおける座標に基づいて個々のBACクローンに配列を割り当てることを可能にするためのプール得意的なタグによって特徴づけられる。DNAは、各BACプールから抽出され、1以上の制限酵素、例えばEcoRIおよびMseIで消化される。制限酵素切断断片のEcoRI末端は、Illumina Genome Analyzerなどの次世代シーケンサーで分析され、このようにして、これらの比較的短い(20〜100塩基対)シーケンシングされた断片(WGPタグと呼ばれる)を個々のBACに割り当てることができる。次の工程では、BACは、FPC(Soderlundら)などのコンティグ構築ソフトウェアツールを使用して、重複するWGPタグパターンに基づいてアセンブリングすることができる。典型的には、これは、2〜4キロベースごとにWGPタグ、BACクローンあたり約30〜60タグを有するアセンブリングされたBACのコンティグを導く。
【0044】
SNaPshotマッピング(例えば、BMC genomics、2007年、第8巻、第1号、40頁においてQuiniouによって使用されるもの)などの他の物理地図作成アプローチと比べて、WGP方法は、BACコンティグのアセンブリのために、断片長さの代わりに配列に基づくアンカーポイントを提供するという点で一意的である。配列に基づくアンカーはより正確であり、全ゲノムショットガン(Whole Genome Shotgun)データのアセンブリのための基礎を提供する。
【0045】
より詳細には、物理地図作成は、
(a)人工染色体(例えばBAC、YAC)クローンバンクを準備する工程であって、各人工染色体クローンは、試料ゲノム由来のDNAを含有する、工程と、
(b)この人工染色体ライブラリー由来のクローンをプールへとプールする工程と、
(c)制限酵素を使用して、各プールについての断片の組を準備する工程と、
(d)アダプターをこの断片にライゲーションする工程と、
(e)このアダプターの少なくとも一部分および当該断片の一部分の配列を決定する工程と、
(f)この断片を対応するクローンに割り当てる工程と、
(g)このクローンをクローン−コンティグへと順序付け、これにより当該試料ゲノムの物理地図を生成する工程と
を含む。
【0046】
当該方法の工程(a)では、人工クローンバンクが準備される。ライブラリーは、バクテリア人工染色体ライブラリー(BAC)であるかまたは酵母(YAC)に基づくことができる。フォスミド、コスミド、PAC、TACまたはMACに基づくものなどの他のライブラリーも可能である。BACライブラリーが好ましい。このライブラリーは、高品質のものであることが好ましく、好ましくは高インサートサイズのゲノムライブラリーである。これは、個々のBACが検討対象のゲノムDNAの比較的大きいインサート(典型的には>100kbp)を含有するということを意味する。好ましい大きいインサートのサイズは、種に依存する。本願全体にわたって、人工染色体の例としてBACが参照される。しかしながら、本発明はBACに限定されず、本発明の主旨から逸脱せずに他の人工染色体を使用することができるということに留意されたい。好ましくは、当該ライブラリーは、少なくとも5ゲノム当量、より好ましくは少なくとも7ゲノム当量、最も好ましくは少なくとも8ゲノム当量を含有する。少なくとも10ゲノム当量が特に好ましい。ライブラリーの中のゲノム当量の数が高いほど、得られたコンティグおよび物理地図は、より分かりやすくかつ信頼性が高いことになろう。
【0047】
工程(b)では、ライブラリーの中の個々のクローンはプールされ、多数の人工染色体またはクローンを含有するプールが形成される。このプーリングは、いくつかの個々のクローンを1つの試料へ(例えば、100クローンを各々10クローンを含有する10のプールへ)と単純に組み合わせることであってもよいが、より精巧なプーリング戦略も使用されてよい。複数のプールにわたるクローンの分布は、各クローンがそれらのプールの少なくとも2以上に存在するようになっていることが好ましい。好ましくは、このプールは、1プールあたり10〜10000クローン、好ましくは100〜1000クローン、より好ましくは250〜750クローンを含有する。1プールあたりのクローン数は広い範囲で変わることができ、この変化は、例えば、検討対象のゲノムのサイズに関連するということが認められる。典型的には、プールまたはサブプールの最大サイズは、一組の識別子によって、プールの中にあるクローンを一意的に特定する能力によって支配される。プールの中のゲノム当量の典型的な範囲は0.2〜0.3の程度であり、ここでもこの範囲はゲノムごとに変わってもよい。このプールは、当該技術分野で周知のプーリング戦略に基づいて生成される。当業者は、ゲノムサイズなどの因子に基づいて最適のプーリング戦略を選択することができる。得られるプーリング戦略は状況に応じて変わるであろうが、その例は、プレートプーリング、N次元プーリング(二次元プーリング、三次元プーリング、六次元プーリングなど)または複雑なプーリングである。多数のプールの取り扱いを容易にするために、プールは、適宜、スーパープール(super−pool)(すなわちスーパープールはクローンのプールのプールである)に組み合わされてもよいし、またはサブプールに分割されてもよい。プーリング戦略およびそれらのデコンボリューション(すなわち、1以上のプールまたはサブプールの中の、クローンの既知の関連指標(すなわち標識または識別子)の存在の検出によるライブラリーの中にある個々のクローンの正しい特定)の他の例は、例えば米国特許第6975943号明細書にまたはKleinら、Genome Research、2000年、第10巻、798−807頁に記載されている。このプーリング戦略は、ライブラリーの中にあるあらゆるクローンが、プールの一意的な組み合わせがあらゆるクローンに対して作成されるように、(複数の)プールにわたって分布されるようなものであることが好ましい。その結果は、(サブ)プールの特定の組み合わせが一意的にクローンを特定するということである。
【0048】
当該方法の工程(c)では、プールは制限エンドヌクレアーゼを用いて消化され、制限酵素切断断片を与える。各プールは、好ましくは別々に、エンドヌクレアーゼ消化にかけられる。各プールは、好ましくは、同じ(組み合わせの)エンドヌクレアーゼまたは同じ認識配列を有するエンドヌクレアーゼで処理される。原則として、いずれの制限エンドヌクレアーゼも使用することができる。制限エンドヌクレアーゼは、フリークエントカッター(4または5カッター、MseIまたはAvaIなど)またはレアカッター(6カッターおよびこれより多くのカッター、EcoRI、HindIIIなど)であってもよい。典型的には、制限エンドヌクレアーゼは、平均してある量で存在するか、またはその後の工程のために十分である特定の長さ分布を有する制限酵素切断断片が得られるように選択される。ある実施形態では、2以上の制限エンドヌクレアーゼを使用することができ、ある実施形態では、レアカッターおよびフリークエントカッターの組み合わせを使用することができる。大きいゲノムについては、例えば、3つまたはこれより多い制限エンドヌクレアーゼの使用を有利に使用して、ゲノムの複雑度を減少させることができる。
【0049】
工程(d)で、制限酵素切断断片の一方の末端または両末端へ、アダプターがライゲーションされ、アダプターとライゲーションされた制限酵素切断断片が与えられる。典型的には、アダプターは、本願明細書中の別の箇所で定義される合成オリゴヌクレオチドである。本発明で使用されるアダプターは、好ましくは、「タグ化されたアダプター」を与えるための、本質的には本願明細書中の別の箇所で定義されるとおりの識別子セクションを含有する。ある実施形態では、このアダプターは、プール特異的識別子を含有する、すなわち各プールに対して、明確にプールを示す、一意的な識別子を含有するアダプターが使用される。ある実施形態では、アダプターは、プール特異的識別子を含有するプライマーと組み合わせて使用される縮重識別子セクションを含有する。
【0050】
ある実施形態では、特にアダプターがプール特異的識別子を含有するとき、アダプターとライゲーションされた制限酵素切断断片は、より大きな群に組み合わされてもよい。より大きい群でのこの組み合わせは、プールから得られる、アダプターとライゲーションされた制限酵素切断断片の各組の並行増幅数を減らすことを支援する可能性がある。
【0051】
あるいは、ライゲーションされたアダプターは、識別子または縮重識別子セクションを含有しない。アダプターとライゲーションされた断片は、その後、例えば5’末端に識別子(タグ)を含有するプライマーを使用して増幅される。この結果は、増幅された、タグ化された、アダプターとライゲーションされた断片が得られるということである。この実施形態では、アダプターは、複数(またはすべて)のプールについて同じであることができ、タグ化プライマーを使用する増幅によって、あとでデコンボリューションにおいて使用することができる、プール間の区別が生成される。どちらにしても、タグの存在によって、断片が由来するプールにリンクされる、タグ化された、アダプターとライゲーションされた断片の組が得られる。
【0052】
このタグ化された、アダプターとライゲーションされた断片を増幅することができる。この増幅は、複雑度を減少させるか、または分析のために利用できるDNAの量を増やす働きをする可能性がある。増幅は、アダプターおよび/またはタグ/識別子に少なくとも部分的に相補的である一組のプライマーを使用して実施することができる。この増幅は、タグをアダプターへと導入する本願明細書にこれまで記載した増幅とは独立であってもよいが、それは、1つの組み合わされた工程の中で行われてもよい。ある実施形態では、この増幅は、一度に複数の目的を果たしてもよく、すなわち複雑度を減少させ、DNA量を増やし、プールの中にある、アダプターとライゲーションされた断片にタグを導入してもよい。ある実施形態では、この増幅は異なるプライマーを使用して別々の段階で行われてもよく、例えばまず、アダプターに向けられたプライマーを使用して利用できるDNAの量を増やし、次にタグを含有するプライマーを使用することによってタグを導入し、次いでアダプターとライゲーションされた断片を選択することができるプライマーを使用して、例えば3’末端にランダムに選択的なヌクレオチドを使用することにより、または特定のタグ化されたアダプターを増幅する(プールされた)プライマーを使用することにより、複雑度を減少させてもよい。
【0053】
ある実施形態では、特にアダプターがプール特異的識別子を含有するとき、アダプターとライゲーションされた断片は、より大きな群に組み合わされてもよい。より大きい群でのこの組み合わせは、プールから得られる、アダプターとライゲーションされた制限酵素切断断片の各組の並行増幅数を減らすことを支援する可能性がある。
【0054】
アダプターとライゲーションされた断片は、一組のプライマー(アダプターの中のプール特異的識別子または縮重識別子の位置でそのプール特異的識別子を増幅する、少なくとも1つのプライマーを含む)を使用して増幅することができる。このプライマーはその識別子(の一部)を含有してもよいが、このプライマーは、タグの外部に位置する、すなわちアダプターの中で下流の、アダプターの中のあるセクションに相補的であってもよい。そのとき、増幅はこのタグも増幅する。
【0055】
工程(e)で、このタグ化された、アダプターとライゲーションされた断片の配列の一部分が決定される。タグ化された、アダプターとライゲーションされた断片は、シーケンシング、好ましくは本願明細書中の別の箇所に記載されるもののような高スループットシーケンシングにかけられる。シーケンシングの間、(増幅された)タグ化された、アダプターとライゲーションされた断片のヌクレオチド配列の少なくとも一部分が決定される。好ましくは、少なくとも、プール特異的識別子の配列および(増幅された)タグ化された、アダプターとライゲーションされた断片の断片(すなわち、試料ゲノムから誘導される断片)の一部分の配列が決定される。好ましくは、断片の少なくとも10ヌクレオチドの配列が決定される。ある実施形態では、当該断片(すなわち、試料ゲノムから誘導される断片)のうちの少なくとも15、20、25、30または35ヌクレオチドが決定される。決定されることになるヌクレオチドの数は、最低でも、ここでもゲノムに依存し、加えてシーケンシングプラットフォームに依存することになろう。例えば、植物では、より多くの反復配列が存在し、従って、より長い配列(25〜75ヌクレオチド)が、同等の品質を有するコンティグのために決定されることになる。例えば、シロイヌナズナの公知のゲノム配列についてのコンピューターでの計算によって、シーケンシング工程に6bpの制限酵素部位を含むとき、配列の大部分(>80%)がゲノムの中で一意的であることを確実にするために、1断片あたり約20bpが決定される必要があるということが示された。断片全体の配列を決定することは可能であるが、これは、BACクローンのコンティグ構築のためには絶対的に必要というわけではない。
【0056】
シーケンシング工程では、すべての断片の最大カバレッジおよび高められた精度を与えるために、配列ライブラリーは、少なくとも5の平均重複性レベル(オーバーサンプリングレートとしても知られる)でシーケンシングされてもよい。これは、平均で、1つの特定のアダプターとライゲーションされた断片の増幅から得られる少なくとも5つの増幅産物の配列が決定されるということを意味する。換言すれば、各断片は、平均で少なくとも5回(統計的に)シーケンシングされる。重複性の増大は各プールの中でサンプリングされる断片の割合およびこれらの配列の精度を改善するので、重複性の増大は好ましく、そのため、好ましくは重複性レベルは少なくとも7、より好ましくは少なくとも10である。平均シーケンシング重複性レベルの上昇は、「抽出変動」、すなわち大きい「集団」から小集団をサンプリングする際のランダムな統計的ゆらぎとして知られる現象を補うために使用される。加えて、より高い平均シーケンシング重複性レベルは、断片間の長さの変動および配列組成における相違によって引き起こされる断片の増幅率の差から生じる増幅された断片の存在量の差が生じる可能性を緩和する。
【0057】
このシーケンシングは、国際公開第03/004690号パンフレット、国際公開第03/054142号パンフレット、国際公開第2004/069849号パンフレット、国際公開第2004/070005号パンフレット、国際公開第2004/070007号パンフレット、および国際公開第2005/003375号パンフレット、Seoら、Proc.Natl.Acad.Sci.USA、2004年、第101巻、5488−93頁、およびHelicos、Illumina、US Genomicsなどの技術(これらは、参照により本願明細書に援用したものとする)に開示されるパイロシークエンスに基づく方法などの高スループットシーケンシング方法を使用して実施されることが好ましい。
【0058】
続く工程(f)では、(部分的に)シーケンシングされた(増幅された)タグ化された、アダプターとライゲーションされた断片は、典型的にはコンピューター制御された方法によってコンピューターで、対応するクローンに相関されまたは割り当てられる。制限酵素切断断片に由来する部分のヌクレオチドと同一のセクションを含有する(増幅された)タグ化された、アダプターとライゲーションされた断片が選択される。その後、(増幅された)タグ化された、アダプターとライゲーションされた断片の中に存在する異なるプール特異的識別子(タグ)が特定される。異なるプール特異的識別子の組み合わせ、および従って制限酵素切断断片の配列は、特定のクローンに一意的に割り当てることができる(「デコンボリューション」とこれまでに記載したプロセス)。例えば、三次元プーリング戦略(Χ、Y、Ζ)の場合では、ライブラリーの中の各プールは、同じ制限酵素切断断片由来のセクションをもつ3つのプール特異的識別子の組み合わせによって一意的に扱われる。換言すれば、クローンに由来する制限酵素切断断片由来のセクションは、3つの異なる識別子でタグ化されることになろう。一意的な制限酵素切断断片由来のセクションは、この3つの識別子と組み合わせて観察されるとき、単一のBACクローンに割り当てることができる。これは、制限酵素切断断片由来の部分の中にヌクレオチドの他の一意的なセクションを含有する各(増幅された)タグ化された、アダプターとライゲーションされた断片について繰り返すことができる。
【0059】
工程(f)で断片を対応するクローンに割り当てた後、当該方法の工程(g)で、そのクローンは組み合わされ、クローンコンティグへと順序付けられる。グループ化および順序付けは、実質的に本願明細書中の別の箇所に記載されるとおり、FPCソフトウェア(Soderlundら、「FPC:a system for building contigs from restriction fingerprinted clones」、Comput.Appl.Biosci.、1997年、第13巻、523−535頁)などの、この目的のためのフィンガープリントコンティグ構築ソフトウェアによって実施することができる。コンティグへのクローンのアラインメントおよびWGPタグの対応する順序によって、試料ゲノムの物理地図が生成される。
【0060】
本発明のサブメソッドでは、アダプターとライゲーションされた制限酵素切断断片が準備される。アダプターとライゲーションされた制限酵素切断断片の生成のための出発物質として、試料ゲノムを使用することができ、または試料ゲノムの一部を使用することができ、またはただ1つのBACクローンからBACクローンのライブラリー全体までにわたるBACクローンの一群、そのため1以上のBACクローンを含むBACライブラリーの小集団も、可能である。BACクローンが使用されるとき、本願明細書中の別の箇所に記載されるとおり、類似または同一のプーリングおよびデコンボリューション戦略を使用して、BACクローンのプールが使用されてもよい。このサブメソッドでは、DNA試料は、工程(a)で物理地図を生成するために使用されるDNA試料と同じ個体、系統または源に由来することが好ましい。あるいは、このサブメソッドにおけるDNA試料は、異なる源、例えばその個体の血縁者、同じ系統のメンバーなどに由来してもよい。
【0061】
出発物質は、物理地図の生成で使用される少なくとも1つの制限酵素の認識配列の少なくとも一部分と同一である認識配列を含有する少なくとも1つの制限酵素で消化することにより、制限酵素切断断片へと断片化される。
【0062】
ある実施形態では、物理地図の生成について、および第2の工程のための制限酵素切断断片の生成について同じ制限酵素が使用される。代替の実施形態では、制限酵素は、同じ認識配列を有してもよいし、または物理地図を作成するために使用される制限酵素の認識配列の少なくとも一部分を含有してもよい。ある実施形態では、制限酵素の認識配列は、物理地図の作成で使用される制限酵素の認識配列を包含する。例えば、制限酵素PacIは、認識配列としてTTAATTAAを有するが、他方で、制限酵素MseIは認識配列TTAAを有し、この認識配列は全体が制限酵素PacIに存在する。
【0063】
ある実施形態では、これら2つの方法で用いられる制限酵素は、イソ制限酵素またはネオ制限酵素であってもよい。制限酵素切断断片の数に影響を及ぼすために、または例えば選択的な増幅によって複雑度を減少させるために、制限酵素の組み合わせが可能である。
【0064】
第2の下位工程((b)(i))の制限酵素切断断片へ、アダプターをライゲーションすることができる。典型的には、アダプターは、本願明細書中の別の箇所で定義されるとおりの合成オリゴヌクレオチドである。本発明で使用されるアダプターは、好ましくは、「タグ化されたアダプター」を提供するための、本質的には本願明細書中の別の箇所で定義されるとおりの識別子セクションを含有する。アダプターがライゲーションされるとき、制限エンドヌクレアーゼの認識配列を回復しないことが好ましい。典型的には、1つの制限酵素が断片化において使用されるとき、アダプターはその断片の両末端にライゲーションされることになろう。使用されるアダプターは、ある実施形態では、ビオチン化されてもよい。このアダプターは、あとの親和性標識されたアダプターの、(ストレプトアビジンに基づいた)選択を可能にするように、ビオチンなどの親和性標識で標識されてもよい。特に、第1の親和性標識されたアダプターが、得られた親和性標識された、アダプターとライゲーションされた制限酵素切断断片にライゲーションされる。2以上の制限酵素が使用されるとき、2以上の異なるアダプターが使用されてもよく、これらは、独立に親和性標識で標識されてもよいし標識されていなくてもよい。これらのアダプターは、プーリングおよびデコンボリューション戦略を可能にするための、実質的に本願明細書中の別の箇所に記載されるとおりの識別子をさらに含有してもよい。
【0065】
これらのアダプターは、物理地図の生成で使用されるものと同じであることができ、物理地図の生成で使用されるものと同じであってもよい識別子を含有してもよい。ある実施形態では、アダプターは制限酵素、好ましくはタイプIIs酵素についての認識配列を含有してもよい。
【0066】
アダプターの中のタイプIIs認識配列の存在に関するある実施形態では、この工程のあとに環状化工程が続いて、次いでタイプIIs酵素による消化が続いてもよい。IIs消化部位に、アダプターをライゲーションすることができ、このようにアダプターとライゲーションされた断片を断片化にかけることができる。
【0067】
アダプターとライゲーションされた断片は、ここで断片化されて、断片化された、アダプターとライゲーションされた断片を生じてもよい。典型的には、これにより、一方の末端にアダプターを含有し、他の側の末端に試料核酸配列由来のヌクレオチドを有する(「裸の末端(naked ends)」)、DNA断片が生じうる。この第2の断片化工程は、別の(非選択的な)制限酵素を用いて、またはシアリングもしくはネブライゼーションなどのランダムな断片化によって、実施することができる。
【0068】
これらの「裸の末端」(ある実施形態では、ポリッシングされていてもよくかつA付加(「Aテーリグ」)を受けていてもよい)に、アダプターがライゲーションされる。これらのアダプターは工程(iii)で使用されるアダプターと同じであってもよいし異なっていてもよく、タグ化されていてもよい。
【0069】
その後の工程で、これらのアダプターとライゲーションされた裸の末端は、ここでシーケンシングされる、すなわちその断片の配列の少なくとも一部分が決定される。好ましくは、このアダプターとライゲーションされた末端はエンドシーケンシングされる、すなわちアダプターの一部分および内部断片の一部分を含有するその配列の一方または両方の末端が決定される。これは一組の配列断片を生じる。これらの配列断片は、アダプターおよび識別子を介して、物理地図上の制限酵素部位に相関させることができ、従って、物理地図に相関させることができる。物理地図上で制限酵素部位に相関させることができる断片の各組について、これらの組の断片は、地図にアンカリングすることができ、それらは、その物理地図の特定の位置(WGPタグ)に配列情報をさらに加えるためにコンティグ構築もされてよい。
【0070】
この方法を使用して、物理地図上でWGP−タグを決定し、その後配列データをこれらのWGPタグに付加し、これにより当該物理地図をさらに完成し、そして当該試料、または少なくともその一部分のドラフトゲノム配列を生成することが可能である。
【0071】
本発明の方法は、すべて上記の共通の技術思想を共有する3つの異なる実施形態で具現化される。これら3つの実施形態を、これより本願明細書中で、以降論じることとする。
【0072】
第1の実施形態、ダブ(dubbed)WGPSでは、物理地図はまだ利用できず、物理地図は、WGPタグにアンカリングされた、物理地図に加えられる必要がある所望のさらなる配列情報を併用して決定される。2つの他の実施形態、SDSESおよびSDPESでは、それぞれ、物理地図はすでに利用可能であり、生成される配列データは、既存の物理地図をさらに補完するために役立つ。とはいうものの、物理地図がすでに利用可能である特定の実施形態でも、WGPSは、さらなる配列情報を生成するために使用されてもよい。実施形態によっては、特定のシーケンシング技法およびこれにより生成される配列のリード(の長さ)が好ましい場合がある。これは、図1に概略的に描かれている。
【0073】
WGPS(全ゲノムプロファイルシーケンシング、Whole Genome Profile Sequencing)
従って、本発明の方法の第1の変法では、物理地図は、断片配列と一緒に(同時に、並行して、またはその後に)決定される。
【0074】
物理地図は、本願明細書中ですでに概略を記載したように決定され、同じ変法および実施形態が適用できる。分かりやすくするために、それらは、WGPSに関してここで繰り返される。
【0075】
これに加えて、BACクローンのアダプターとライゲーションされた制限酵素切断断片は、本願明細書中で概略が後述されるとおり、さらなる断片化、アダプターライゲーションおよびシーケンシングにかけられる。
【0076】
物理地図の生成を含めた全体の方法は、
(a)複数のクローンを含むクローンバンクを準備する工程であって、各クローンは、試料ゲノム(もしくは試料ゲノムの一部分)由来のDNAを含有する工程と、
(b)このクローンを当該クローンバンクからプールへとプールする工程と、
(c)少なくとも1つの制限酵素を使用して各プールについての断片を準備する工程と、
(d)第1のアダプターを当該断片にライゲーションする工程と、
(e)断片化された、アダプターとライゲーションされた制限酵素切断断片を与え、および、任意に、ランダムな断片末端をポリッシングするために、工程(d)のアダプターとライゲーションされた制限酵素切断断片を断片化する工程と、
(f)第1および第2のアダプターを含有する、アダプターとライゲーションされた断片化された制限酵素切断断片を与えるために第2のアダプターを(ポリッシングされた)断片化された制限酵素切断断片にライゲーションする工程と、
(g)任意に、第1のプライマーおよび第2のプライマーを用いて工程(f)のアダプターとライゲーションされた断片化された制限酵素切断断片を増幅する工程であって、これにより増幅産物を生成する工程と、
(i)第1のアダプターの少なくとも一部分および/もしくは第1のアダプターに隣接した断片の一部分の配列ならびに/または第2のアダプターの少なくとも一部分および/もしくは第2のアダプターに隣接した断片の一部分の配列を決定する工程と、
(j)このシーケンシングされた、第1のアダプターの一部分および/もしくは第1のアダプターに隣接した断片の一部分ならびに/または第2のアダプターの一部分および/もしくは第2のアダプターに隣接した断片の一部分に基づいて、当該断片を対応するクローンに割り当てる工程と、
(k)このクローンをクローン−コンティグへと順序付けし、これにより当該試料ゲノムの物理地図を生成する工程と、
(l)第2のアダプターの少なくとも一部分および/もしくは第2のアダプターに隣接した断片の一部分の断片配列を対応するクローンに割り当てる工程と、
(m)工程(h)の断片配列を上記物理地図へアンカリングする工程と、
(n)ドラフトゲノム配列を生成する工程と
を含む。
【0077】
1つの実施形態では、当該方法は、第1のアダプターおよび第1のアダプターに隣接した断片の一部分に由来する配列ならびに第2のアダプターおよび第2のアダプターに隣接した断片の一部分に由来する配列を、物理地図にリンクされるコンティグへとアセンブリングする工程をさらに含む。さらなる工程では、この特定のコンティグは、物理地図にアンカリングされてもよい。この「ビニング(binning)」アプローチは、より大きいデータセットが取り扱われるときに効率的である可能性があるサブアセンブリ工程を作成する。
【0078】
本発明の方法のこの実施形態の利点は、とりわけ、制限酵素切断断片の断片のペアエンド配列データの併用にある。配列のリードのうちの1つは、物理地図を構築するための制限酵素切断断片の断片配列に直接関連し、ランダムに断片化された末端の断片配列は、ランダムであるが、物理地図を構築するために使用される断片に物理的にリンクされている。
【0079】
当該方法の異なる工程は、本願明細書中、以下でより詳細に論じられる。
【0080】
当該WGPS実施形態では、両方のアダプターは、断片をクローンと相関させるために使用されてもよい識別子を含有してもよい。
【0081】
工程(d)の(タグ化された)制限酵素切断断片は断片化される。このタグ化された制限酵素切断断片の断片化により、断片化されたタグ化された、アダプターとライゲーションされた制限酵素切断断片が与えられる。得られる断片は、断片の3’または5’末端に、アダプターを含有してもよく、または、この断片が、二重に断片化されたタグ化された制限酵素切断断片の中央部セクションであるならば、この断片はアダプターをまったく含有してもよい。断片化は好ましくはランダムであり、好ましくはシアリングもしくはネブライゼーションを介するか、または配列組成に依存しないヌクレアーゼを使用することによる。従って、典型的には、断片は、アダプターとライゲーションされた末端およびランダム末端を含有する。それゆえ、一般的な知識技術を使用して所望のサイズ範囲にある一組の断片を選択することが可能である。これらの断片は、ランダム末端でポリッシングされてもよい。ある代替の実施形態では、ポリッシング工程のあとに、第2のアダプター(このときは、付着型構成を有する)のアンカリング点および位置確認点を提供するための1以上の特定のヌクレオチドの付加が続く。
【0082】
このランダム末端へ、(第2の)アダプターがライゲーションされる。ランダム末端がポリッシングされているとき、存在する各ランダム末端にアダプターがライゲーションされるように、アダプターは、平滑末端にされる。時には、これらは、第2のアダプターとして示される(このとき、工程(e)において示された制限酵素切断断片にライゲーションされたアダプターは、第1のアダプターとして見られる)。
【0083】
得られた配列、すなわちアダプターとライゲーションされた断片化されたタグ化された制限酵素切断断片は、2つのプライマー、第1のプライマーおよび第2のプライマーを使用して増幅されてもよい。第1のプライマーは、任意にタグ化された、制限酵素切断断片末端に向けられ、かつ少なくとも識別子(または縮重識別子セクション)を増幅する(第1の)アダプターの一部分に少なくとも相補的であるセクションを含有してもよい。第2のプライマーは、制限酵素切断断片のランダム末端にライゲーションされた、任意にタグ化されたアダプターの少なくとも一部分に向けられてもよい(に相補的である)。増幅、好ましくはPCRを使用する増幅は、増幅された断片化されたタグ化された制限酵素切断断片(増幅産物)を生じる。例えば使用されるシーケンシングプラットフォームの容量を収容するために、利用できる異なる増幅産物の数に依存して、増幅産物は、種々の実験から、一組の増幅産物に組み合わされてもよい。ある実施形態では、この増幅産物は、一組の組み合わされた増幅産物またはいわゆる配列ライブラリーに組み合わされてもよい。
【0084】
当該方法の工程(i)では、アダプターとライゲーションされた断片または増幅産物の一方のまたは両方の末端の配列は、好ましくはペアエンドシーケンシングを使用して決定することができる。シーケンシングを用いて、少なくとも第1のアダプターおよび/もしくは第2のアダプターに位置する識別子の任意の配列ならびに/または第1のアダプターおよび/もしくは第2のアダプターに隣接して位置する当該断片の内部配列の一部分が決定される。本発明の方法におけるシーケンシングは、典型的には、本願明細書に開示されるRoche(454)およびIlluminaプラットフォーム上でのパイロシークエンスなどの高スループットシーケンシングに基づく。
【0085】
アダプターとライゲーションされた断片または増幅産物は、シーケンシング、好ましくは本願明細書に記載される高スループットシーケンシングにかけられる。シーケンシングの間、この増幅産物のヌクレオチド配列の少なくとも一部分が決定される。好ましくは、好ましくはそれぞれの側から、断片の少なくとも10ヌクレオチドの配列が決定される。ある実施形態では、断片の少なくとも20、25または30ヌクレオチドが決定される。決定されることになるヌクレオチドの数は、最低でも、ここでもゲノムに依存し、加えてシーケンシングプラットフォームに依存することになろう。例えば、植物では、より多くの反復配列が存在し、従って、より長い配列(25〜75ヌクレオチド)が、同等の品質を有するコンティグのために決定されることになる。現在のプラットフォームは、かなり長いリード(100〜800nt)を取り扱うことができる。
【0086】
上記のように、本発明のシーケンシングは、「ペアエンドシーケンシング」を使用して実施されることが好ましい。
【0087】
ペアエンドシーケンシングは、第2のアダプターに隣接した断片の内部配列の一部分も与える。ペアエンドシーケンシングを実施することにより、上記2つの配列が同時に決定される。識別子および内部配列の一部分に基づいて、配列を、同じ制限酵素切断断片に由来する組へとグループ化することができる。ランダム末端からの配列情報は、当該制限酵素切断断片の内部配列の組成についての情報を与える。制限酵素切断断片から得られるすべての情報を一緒にグループ化して、ランダム末端から得られる配列のコンティグを作成することにより、第1のアダプターおよび隣接する断片配列から得られる情報は、制限酵素切断断片の(全体ではないとしてもその)ほとんどのドラフト配列を与える可能性がある。
【0088】
工程(j)では、これらの断片が対応するクローンと関連づけられる。典型的には、ゲノムの物理地図を生成するためのデコンボリューションは、当該断片をプールへと相関させる、アダプター中の識別子の存在に基づき、従って対応するクローンへのプーリング戦略に基づく。従って、断片は、シーケンシングされた、第1のアダプターの一部分および/もしくは第1のアダプターに隣接した断片の一部分ならびに/または第2のアダプターの一部分および/もしくは第2のアダプターに隣接した断片の一部分に基づいて、対応するクローンへと割り当てられる。例えば、2つの制限酵素、例えばEcoRI/MseIに基づいて物理地図が利用でき、その場合、HindIIIを使用するWGPS実施形態は、EcoRI/MseIベースの物理地図にリンクすることができるさらなる情報を与える可能性がある。
【0089】
当該方法の工程(k)では、物理地図は、物理地図の生成の目的のための一般に公知のソフトウェアを使用して、クローンを順序付けすることによって生成される。
【0090】
当該方法の工程(l)では、第2のアダプターおよび/または第2のアダプターに隣接する断片から得られる断片配列は、工程(i)における制限酵素切断断片シーケンシングを介して特定のクローンに(工程(j)において)リンクされる断片配列の群が得られるように、対応するクローンと対にされる。これは、(j)、すなわち、第2のアダプターの少なくとも一部分および/もしくは第2のアダプターに隣接した断片の一部分の配列が、ペアエンドシーケンシングに基づいて同じ断片に由来するということに基づく。このようにして得られた配列は、物理地図および生成されたドラフトゲノムにアンカリングすることができる。
【0091】
ある実施形態では、物理地図がすでに利用できるとき、そうではあっても、WGPSは、例えばWGPSについて異なる制限酵素を使用することにより、最初の物理地図にリンクすることができるさらなる配列情報を生成するために使用されてもよい。
【0092】
SDSES(部位特異的なシングルエンドシーケンシング、Site Directed Single End Sequencing)
本発明の方法のさらなる実施形態では、本発明の方法の工程(b)のサブメソッドは、以下の工程を含む:
(a)制限酵素切断断片を得るための、少なくとも1つの制限エンドヌクレアーゼを用いた標的DNA(ゲノムDNAまたは人工染色体DNA)の断片化、
(b)第1のアダプターとライゲーションされた制限酵素切断断片を得るための、当該制限酵素切断断片の末端への第1のアダプターのライゲーション、
(c)ランダムに断片化された第1のアダプターとライゲーションされた制限酵素切断断片を得るための、第1のアダプターとライゲーションされた制限酵素切断断片のランダムな断片化、
(d)任意に、アダプターを含有する断片化された、アダプターとライゲーションされた制限酵素切断断片の選択、
(e)第1のアダプターとライゲーションされた制限酵素切断断片の断片化された末端への、第2のアダプターのライゲーション、
(f)任意に、(親和性標識された)増幅された断片を得るための、工程(b)のアダプターに向けられたプライマーおよび工程(e)の第2のアダプターに向けられた(親和性標識された)プライマーを使用する増幅、
(g)任意に、第2のアダプターの存在に基づく、工程(f)で得られるこの(親和性標識された)増幅された断片の選択、
(h)第1のアダプターの少なくとも一部分の配列および/もしくは第1のアダプターに隣接した断片の配列の一部分ならびに/または第2のアダプターの少なくとも一部分の配列および/もしくは第2のアダプターに隣接した断片の配列の一部分の決定。
【0093】
当該方法の工程(a)では、標的DNAが準備される。この標的DNAは、ゲノムベースでもまたはクローンベースでも、いずれの源から得ることもできる。DNAからの単離は、例えばSambrookら(SambrookおよびRussell、「Molecular Cloning:A Laboratory Manual(3rd edition)」、Cold Spring Harbor Laboratory、Cold Spring Harbor Laboratory Press、2001年)によって開示されるものなど、当該技術分野のいずれかの手段によって成し遂げることができる。試料DNAは、あらゆる種に由来、特にヒト、植物または動物起源に由来することができる。物理地図の生成で使用されたものと同じDNA試料を採用することが好ましいが、本願明細書中でこれまでに概略を示したもののような他の試料も(すなわち血縁関係がある個体、系統などから)使用してもよい。
【0094】
クローンDNAに向けられる実施形態では、クローンバンクが準備される。これは、物理地図を生成するために使用されたものと同じクローンバンクでもよい。このクローンバンク(またはライブラリー)は、バクテリア人工染色体ライブラリー(BAC)であるかまたは酵母(YAC)に基づくことができる。フォスミド、コスミド、PAC、TACまたはMACに基づくものなどの他のライブラリーも可能である。BACライブラリーが好ましい。このライブラリーは、高品質のものであることが好ましく、好ましくは高インサートサイズのゲノムライブラリーである。これは、個々のBACが検討対象のゲノムDNAの比較的大きいインサート(典型的には>125kbp)を含有するということを意味する。好ましい大きいインサートのサイズは、種に依存する。本願全体にわたって、人工染色体の例としてBACが参照される。しかしながら、本発明はBACに限定されず、本発明の主旨から逸脱せずに他の人工染色体を使用することができるということに留意されたい。ライブラリーの中の個々のクローンはプールされ、多数の人工染色体またはクローンを含有するプールが形成されてもよい。このプーリングは、いくつかの個々のクローンを1つの試料へ(例えば、100クローンを各々10クローンを含有する10のプールへ)と単純に組み合わせることであってもよいが、より精巧なプーリング戦略も使用されてよい。複数のプールにわたるクローンの分布は、各クローンがそれらのプールの少なくとも2以上に存在するようになっていることが好ましい。好ましくは、このプールは、1プールあたり10〜10000クローン、好ましくは100〜1000クローン、より好ましくは250〜750クローンを含有する。1プールあたりのクローン数は広い範囲で変わることができ、この変化は、例えば、検討対象のゲノムのサイズに関連するということが認められる。典型的には、プールまたはサブプールの最大サイズは、一組の識別子によって、プールの中にあるクローンを一意的に特定する能力によって支配される。プールの中のゲノム当量の典型的な範囲は0.2〜0.3の程度であり、ここでもこの範囲はゲノムごとに変わってもよい。このプールは、当該技術分野で周知のプーリング戦略に基づいて生成される。当業者は、ゲノムサイズなどの因子に基づいて最適のプーリング戦略を選択することができる。得られるプーリング戦略は状況に応じて変わるであろうが、その例は、プレートプーリング、N次元プーリング(二次元プーリング、三次元プーリング、六次元プーリングなど)または複雑なプーリングである。多数のプールの取り扱いを容易にするために、プールは、適宜、スーパープール(すなわちスーパープールはクローンのプールのプールである)に組み合わされてもよいし、またはサブプールに分割されてもよい。プーリング戦略およびそれらのデコンボリューション(すなわち、1以上のプールまたはサブプールの中の、クローンの既知の関連指標(すなわち標識または識別子)の存在の検出によるライブラリーの中にある個々のクローンの正しい特定)の他の例は、例えば米国特許第6975943号明細書にまたはKleinら、Genome Research、2000年、第10巻、798−807頁に記載されている。このプーリング戦略は、ライブラリーの中にあるあらゆるクローンが、プールの一意的な組み合わせがあらゆるクローンに対して作成されるように、(複数の)プールにわたって分布されるようなものであることが好ましい。その結果は、(サブ)プールの特定の組み合わせが一意的にクローンを特定するということである。
【0095】
ゲノムの一部のみを使用することも可能であるが、それは必須ではない。なぜなら、本発明は、例えばAFLP(欧州特許第534858号明細書)に基づく選択的な増幅などの再現性のある複雑度の減少を介した、例えば再現性のある小集団の作成を通して、任意のサイズのゲノムを取り扱うための方法も提供するからである。従って、典型的には、本発明の方法はゲノム全体を使用する。あるいは、クローンバンク、またはその一部分を使用することができる。
【0096】
標的DNAは、制限酵素を用いて制限され、制限酵素切断断片が得られる。標的DNAは、少なくとも1つの制限酵素を用いて制限することができる。ある実施形態では、所望の長さおよび分布の制限酵素切断断片を生成するために2以上の酵素を使用することができる。ある実施形態では、所望の長さ分布の制限酵素切断断片に到達するために、3つの制限エンドヌクレアーゼを使用することが有利である可能性がある。制限酵素は、平滑にまたは付着的に(staggered)(すなわちオーバーハングを作成する)切断してもよいが、あとのアダプターライゲーションを考慮すると付着的であることが好ましい。
【0097】
これらの酵素および酵素の組み合わせは、例えば、使用されるシーケンシングプラットフォームに応じて、平均で、断片の長さが約400〜1000bpであるように選択されることが好ましい。EcoRIなどのレアカッターが好ましい。
【0098】
第2の下位工程の制限酵素切断断片に、アダプターをライゲーションすることができる。典型的なアダプターは、本願明細書中の別の箇所で定義されるとおりの合成オリゴヌクレオチドであり、それらは、識別子および親和性標識などを含有してもよい。
【0099】
当該方法の工程(c)では、アダプターとライゲーションされた制限酵素切断断片はランダムに断片化される。ランダムな断片化のための好適なおよび好ましい技法は、ネブライゼーションもしくはシアリングとして公知であるか、または別の、非選択的な制限酵素を使用する。
【0100】
DNAの制御可能な断片化を提供する他の技法も好適である。アダプターとライゲーションされた制限酵素切断断片の断片化は、1つの末端にアダプターを有する断片、他方の末端にアダプターを有する断片、および両方の末端ではランダムな断片化の結果である中間断片を生じることになろう。断片化された組は、一般的な手順を使用してサイズ範囲の選択にかけられてもよい。
【0101】
断片化された、アダプターとライゲーションされた制限酵素切断断片は、ここ工程(d)で、好ましくは親和性標識を使用して選択され、ランダムな断片化のあとに残る、アダプターも親和性標識も有しない断片、例えば、両末端でランダムな断片化プロセスに由来する(「ランダム末端を有する」)断片から、断片化された、アダプターとライゲーションされた制限酵素切断断片が分離されてもよい。好ましくは、この選択においてビオチン−ストレプトアビジンの組み合わせが使用されるが、他の親和性リガンドの組み合わせも同様に使用することができ、ならびに当該アダプターにハイブリダイズするプローブを含有する担体も同様に使用することができる。
【0102】
選択された、アダプターとライゲーションされた制限酵素切断断片のランダム末端へ、工程(e)で第2のアダプターをライゲーションすることができる。第2のアダプターのライゲーションに先立ち、ランダム末端、すなわちランダムな断片化工程によって引き起こされた末端はポリッシングされてもよく、すなわちオーバーハングするヌクレオチドが取り除かれ(平滑化され)てもよい。第2のアダプターは、平滑末端化することができる。ある代替の実施形態では、ポリッシング工程のあとに、第2のアダプター(このときは、付着型構成を有する)のアンカリング点および位置確認点を提供するための1以上の特定のヌクレオチドの付加が続く。
【0103】
アダプターとライゲーションされた組は、ここで、工程(f)で一対の好適なプライマーから増幅されて、増幅された断片(増幅産物)を導いてもよい。この増幅は、第1のプライマー(これは、第1のアダプター(すなわち工程(b)のアダプター)のヌクレオチドの少なくとも一部分に向けられていてもよい)を用いて実施される。この増幅における第2のプライマーは、第2のアダプター(すなわち工程(e)のアダプター)(の少なくとも一部分)に向けられる。この第1のプライマーおよび/または第2のプライマーは、あとの選択工程のための親和性標識された増幅産物を得るために、親和性標識されてもよい。この親和性標識はビオチンであってもよいが、親和性標識は、工程(b)のある実施形態で使用された親和性標識とは異なっていてもよい。例えば、ビオチン標識の代わりに、ヌクレオチドに基づく親和性標識を使用し、選択工程を、当該断片を捕捉するためのヌクレオチドに基づく親和性標識に相補的である相補的なオリゴヌクレオチドを有するディップスティックへのハイブリダイゼーションに基づかせることも可能である。
【0104】
得られた(任意に親和性標識された)増幅された断片は、これまでに記載されたとおりの方法を使用して、例えばストレプトアビジンを有する担体を使用して、以下の工程(工程(g))で、選択することができる。
【0105】
当該方法の工程(h)では、当該断片は、ここで、例えば、実質的に本願明細書中の別の箇所に記載されるとおりのパイロシークエンスに基づく高スループットシーケンシング技術を使用して、シーケンシングすることができる。第1のアダプターの少なくとも一部分の配列および第1のアダプターに隣接した断片の配列の一部分が決定される。別の実施形態では、第2のアダプターの少なくとも一部分の配列および第2のアダプターに隣接した断片の配列の一部分が決定される。シーケンシングされた断片は、コンティグへとアセンブリングすることができ、その後に物理地図にリンクすることができ、または配列情報は、配列の同一性に基づいて、物理地図に直接アンカリングすることができる。
【0106】
上記コンティグは、すべて使用される制限酵素の認識部位に同一の配列で始まり、同一の認識配列を有する制限酵素を使用して生成された物理地図にリンクすることができる。リンク形成(linking)は、制限酵素配列に隣接しているコンティグの配列の中で、物理地図のWGPタグの配列を検索することにより、確立することができる。一意的なヒットが見出されるとき、そのコンティグ配列は、その物理地図にリンクすることができる。特定の場合には、これらのコンティグは、その末端に制限酵素部位も含むことになろうが、これは、完全な中間配列が決定されたということを示す。
【0107】
本発明の1つの態様では、SDSESは、それ自体、標的DNAの配列情報の生成のために適用することもできる。従って、本発明は、以下の工程を含む標的DNAの配列情報を生成する方法にも関する:
(a)制限酵素切断断片を得るための、少なくとも1つの制限エンドヌクレアーゼを用いた標的DNA(ゲノムDNAまたは人工染色体DNA)の断片化、
(b)第1のアダプターとライゲーションされた制限酵素切断断片を得るための、当該制限酵素切断断片の末端への第1のアダプターのライゲーション、
(c)ランダムに断片化された第1のアダプターとライゲーションされた制限酵素切断断片を得るための、第1のアダプターとライゲーションされた制限酵素切断断片のランダムな断片化、
(d)任意に、アダプターを含有する断片化された、アダプターとライゲーションされた制限酵素切断断片の選択、
(e)第1のアダプターとライゲーションされた制限酵素切断断片の断片化された末端への、第2のアダプターのライゲーション、
(f)任意に、(親和性標識された)増幅された断片を得るための、工程(b)のアダプターに向けられたプライマーおよび工程(e)の第2のアダプターに向けられた(親和性標識された)プライマーを使用する増幅、
(g)任意に、第2のアダプターの存在に基づく、工程(f)で得られる(親和性標識された)増幅された断片の選択、
(h)第1のアダプターの少なくとも一部分の配列および/もしくは第1のアダプターに隣接した断片の配列の一部分ならびに/または第2のアダプターの少なくとも一部分の配列および/もしくは第2のアダプターに隣接した断片の配列の一部分の決定。
【0108】
SDPES(部位特異的なペアエンドシーケンシング、Site Directed Paired End Sequencing)
本発明の方法のさらなる実施形態では、本発明の方法の工程(b)のサブメソッドは、以下の工程を含む:
(a)制限酵素切断断片を得るための、標的DNAの制限酵素消化、
(b)IIs−アダプターとライゲーションされた制限酵素切断断片を与えるための、タイプIIs制限エンドヌクレアーゼについての認識配列を含有するIIs−アダプターのライゲーション、
(c)断片化されたIIs−アダプターとライゲーションされた制限酵素切断断片を得るための、当該IIs−アダプターとライゲーションされた制限酵素切断断片の断片化、
(d)環状化産物を得るための、当該断片化されたIIs−アダプターとライゲーションされた制限酵素切断断片の環状化、
(e)タイプIIsで消化された断片を与えるための、環状化産物のタイプIIs制限酵素消化、
(f)アダプターとライゲーションされたタイプIIsで消化された断片を与えるための、タイプIIsで消化された断片への第1のアダプターのライゲーション、
(g)第1のアダプターとライゲーションされたタイプIIsで消化された断片の断片化、
(h)第1および第2のアダプターとライゲーションされたタイプIIsで消化された断片を与えるための、第1のアダプターとライゲーションされたタイプIIsで消化された断片への第2のアダプターのライゲーション、
(i)これらの断片および/またはアダプターの少なくとも一部分の配列を決定すること。
【0109】
当該方法の工程(a)では、標的DNAが準備される。この標的DNAは、ゲノムベースでもまたはクローンベースでも、いずれの源から得ることもできる。DNAからの単離は、例えばSambrookら(SambrookおよびRussell、「Molecular Cloning:A Laboratory Manual(3rd edition)」、Cold Spring Harbor Laboratory、Cold Spring Harbor Laboratory Press、2001年)によって開示されるものなど、当該技術分野のいずれかの手段によって成し遂げることができる。試料DNAは、あらゆる種に由来、特にヒト、植物または動物起源に由来することができる。物理地図の生成で使用されたものと同じDNA試料を採用することが好ましいが、本願明細書中でこれまでに概略を示したもののような他の試料も(すなわち血縁関係がある個体、系統などから)使用してもよい。
【0110】
クローンDNAに向けられる実施形態では、人工のクローンバンクが準備される。これは、物理地図を生成するために使用されたものと同じクローンバンクでもよい。人工クローンバンク(またはライブラリー)は、バクテリア人工染色体ライブラリー(BAC)であるかまたは酵母(YAC)に基づくことができる。フォスミド、コスミド、PAC、TACまたはMACに基づくものなどの他のライブラリーも可能である。BACライブラリーが好ましい。このライブラリーは、高品質のものであることが好ましく、好ましくは高インサートサイズのゲノムライブラリーである。これは、個々のBACが検討対象のゲノムDNAの比較的大きいインサート(典型的には>125kbp)を含有するということを意味する。好ましい大きいインサートのサイズは、種に依存する。本願全体にわたって、人工染色体の例としてBACが参照されうる。しかしながら、本発明はBACに限定されず、本発明の主旨から逸脱せずに他の人工染色体を使用することができるということに留意されたい。ライブラリーの中の個々のクローンはプールされ、多数の人工染色体またはクローンを含有するプールが形成されてもよい。このプーリングは、いくつかの個々のクローンを1つの試料へ(例えば、100クローンを各々10クローンを含有する10のプールへ)と単純に組み合わせることであってもよいが、より精巧なプーリング戦略も使用されてよい。複数のプールにわたるクローンの分布は、各クローンがそれらのプールの少なくとも2以上に存在するようになっていることが好ましい。好ましくは、このプールは、1プールあたり10〜10000クローン、好ましくは100〜1000クローン、より好ましくは250〜750クローンを含有する。1プールあたりのクローン数は広い範囲で変わることができ、この変化は、例えば、検討対象のゲノムのサイズに関連するということが認められる。典型的には、プールまたはサブプールの最大サイズは、一組の識別子によって、プールの中にあるクローンを一意的に特定する能力によって支配される。プールの中のゲノム当量の典型的な範囲は0.2〜0.3の程度であり、ここでもこの範囲はゲノムごとに変わってもよい。このプールは、当該技術分野で周知のプーリング戦略に基づいて生成される。当業者は、ゲノムサイズなどの因子に基づいて最適のプーリング戦略を選択することができる。得られるプーリング戦略は状況に応じて変わるであろうが、その例は、プレートプーリング、N次元プーリング(二次元プーリング、三次元プーリング、六次元プーリングなど)または複雑なプーリングである。多数のプールの取り扱いを容易にするために、プールは、適宜、スーパープール(すなわちスーパープールはクローンのプールのプールである)に組み合わされてもよいし、またはサブプールに分割されてもよい。プーリング戦略およびそれらのデコンボリューション(すなわち、1以上のプールまたはサブプールの中の、クローンの既知の関連指標(すなわち標識または識別子)の存在の検出によるライブラリーの中にある個々のクローンの正しい特定)の他の例は、例えば米国特許第6975943号明細書にまたはKleinら、Genome Research、2000年、第10巻、798−807頁に記載されている。このプーリング戦略は、ライブラリーの中にあるあらゆるクローンが、プールの一意的な組み合わせがあらゆるクローンに対して作成されるように、(複数の)プールにわたって分布されるようなものであることが好ましい。その結果は、(サブ)プールの特定の組み合わせが一意的にクローンを特定するということである。
【0111】
ゲノムの一部のみを使用することも可能であるが、それは必須ではない。なぜなら、本発明は、例えばAFLP(欧州特許第534858号明細書)に基づく選択的な増幅などの再現性のある複雑度の減少を介した、例えば再現性のある小集団の作成を通して、任意のサイズのゲノムを取り扱うための方法も提供するからである。従って、典型的には、本発明の方法はゲノム全体を使用する。
【0112】
標的DNAは、制限酵素を用いて制限され、制限酵素切断断片が得られる。標的DNAは、少なくとも1つの制限酵素を用いて制限することができる。ある実施形態では、所望の長さおよび分布の制限酵素切断断片を生成するために2以上の酵素を使用することができる。ある実施形態では、所望の長さ分布の制限酵素切断断片に到達するために、3つの制限エンドヌクレアーゼを使用することが有利である可能性がある。制限酵素は、平滑にまたは付着的に(すなわちオーバーハングを作成する)切断してもよいが、あとのアダプターライゲーションを考慮すると付着的であることが好ましい。
【0113】
これらの酵素および酵素の組み合わせは、シーケンシングプラットフォームのリード長に応じて、平均で、断片の長さが約50〜800bpであるように選択されることが好ましい。EcoRIなどのレアカッターが好ましい。
【0114】
当該方法の工程(b)では、アダプター(本願明細書中ではIIs−アダプターと示される)が、工程(a)から得られる制限酵素切断断片へとライゲーションされる。このアダプターは、タイプIIs制限エンドヌクレアーゼについての認識配列を含有し、IIs−アダプターとライゲーションされた制限酵素切断断片を与える。このIIs−アダプターは、例えばプールされたクローンDNAの場合、識別子を含んでもよい。
【0115】
当該方法の工程(c)では、IIs−アダプターとライゲーションされた断片はランダムに断片化される。このランダムな断片化は、ネブライゼーション、シアリングまたは配列組成に依存しないヌクレアーゼなどの一般的方法を使用して実施することができる。断片化を実施して、所望のサイズ範囲にある断片を得ることができ、このサイズ範囲は、当該方法において後で使用されるシーケンシングプラットフォームに依って変わりうる。得られた断片は、中間サイズ選択工程にかけられてもよい。所望に応じて、得られた断片は、平滑末端化された断片末端を得るためにポリッシングされてもよい。
【0116】
当該方法の工程(d)では、断片化されたIIs−アダプターとライゲーションされた制限酵素切断断片は、環状産物を得るために環状化され、この環状産物は、その後、タイプIIs制限エンドヌクレアーゼを用いて(工程(e)において)切断して、タイプIIsで消化された断片を得ることができる。このタイプIIsで消化された断片に、第1のアダプターが、工程(f)でライゲーションされる。この第1のアダプターは、好ましくは、第1のアダプターとライゲーションされたタイプIIsで消化された断片を与えるために、タイプIIs制限酵素部位の残部にライゲーションされる。当該方法の工程(g)では、この第1のアダプターとライゲーションされたタイプIIsで消化された断片は、次いで再度断片化され、使用できるサイズ(典型的には、使用されるプラットフォームに応じて約150〜800bp)の一組の断片が得られる。
【0117】
当該方法の工程(h)では、第2のアダプターのこの後のライゲーションは、第1アダプターおよび第2のアダプターとライゲーションしたタイプIIsで消化された断片、すなわち、各末端で、それぞれ第1のアダプターまたは第2のアダプターとライゲーションされているタイプIIsで消化された断片を生じる。この第1のアダプターおよび/または第2のアダプターは、(異なる)識別子を含有してもよい。この第1アダプターおよび第2のアダプターとライゲーションしたタイプIIsで消化された断片は、ここで、エマルジョンPCRまたはクラスター増幅などの高スループットシーケンシング技術を使用して、シーケンシングおよび/または増幅することができる。
【0118】
この断片の配列の少なくとも一部分は、第1のアダプターから第2のアダプターの方向またはその逆の方向に、決定される。好ましくは、この断片の配列は、本願明細書中の別の箇所で概略を示したもののようなペアエンドシーケンシングを使用して決定される。
【0119】
得られた配列情報は、物理地図にリンクすることができる。本発明の1つの態様では、SDPESは、それ自体、標的DNAの配列情報の生成についても適用することができる。従って、本発明は、以下の工程を含む標的DNAの配列情報を生成する方法にも関する:
(a)制限酵素切断断片を得るための、標的DNAの制限酵素消化、
(b)IIs−アダプターとライゲーションされた制限酵素切断断片を与えるための、タイプIIs制限エンドヌクレアーゼについての認識配列を含有するIIs−アダプターのライゲーション、
(c)断片化されたIIs−アダプターとライゲーションされた制限酵素切断断片を得るための、IIs−アダプターとライゲーションされた制限酵素切断断片の断片化、
(d)環状化産物を得るための、当該断片化されたIIs−アダプターとライゲーションされた制限酵素切断断片の環状化、
(e)タイプIIsで消化された断片を与えるための、環状化産物のタイプIIs制限酵素消化、
(f)アダプターとライゲーションされたタイプIIsで消化された断片を与えるための、当該タイプIIsで消化された断片への第1のアダプターのライゲーション、
(g)第1のアダプターとライゲーションされたタイプIIsで消化された断片の断片化、
(h)第1および第2のアダプターとライゲーションされたタイプIIsで消化された断片を与えるための、第1のアダプターとライゲーションされたタイプIIsで消化された断片への第2のアダプターのライゲーション、
(i)これらの断片および/またはアダプターの少なくとも一部分の配列を決定すること。
【実施例】
【0120】
WGPS実施例
酵素部位にリンクされるGAペアエンドリードのアセンブリを通した、BACプールに対する成功裏のWGPSを実証するために、メロンBACライブラリー スーパープール24をスーパープール24のWGPデータと一緒に準備した。
【0121】
1. ウェットラボ(Wetlab)アプローチ
このアプローチは以下の工程を含む:
− 単独の酵素(EcoRI)を使用する(個々の)BACプールDNAの消化。
− P5増幅、配列プライマー1およびプール特異的な識別子配列を含有するプール特異的なEcoRI適合性のアダプターのライゲーション。
− (例えばIllumina Genome Analyzerの1つのレーンでシーケンシングされることになるスーパープール由来のRL産物の任意のプーリング。これは、それまでのライゲーション工程で使用される異なるプール特異的な識別子の最大値次第である)
− アダプターとライゲーションされた産物の、100〜1000bpのサイズ範囲を有する産物への断片化。
断片化された、アダプターとライゲーションされた制限酵素切断断片を末端ポリッシングし、1つのA−ntを、断片化された末端に付加する。
− 小さすぎる断片を取り除くために、1:1.8の試料:ビーズ比を用いて、Ampure精製を実施する。これにより、100nt未満の断片が除去されることになろう。
− P7増幅および配列プライマー2配列を含有する3’−Tオーバーハングを含有するアダプターをライゲーションする。
− あらゆる残りのアダプターを除去するために、1:1.3の試料:ビーズ比を使用してAmpure精製を実施する。
− 部分的に一本鎖のアダプターを埋め込む(filling)ことによって、完全に二本鎖の断片を生成するために、埋め込み(fill−in)反応を実施する。あるいは、P5およびP7プライマーを使用する増幅を実施することができる。
− Qiagen PCR精製カラムを使用して最終の試料を精製する。
− Nanodropを使用して濃度を測定し、Agilent BioAnalyzerによる分析を通して断片のサイズ分布を決定する。
− Illumina GenomeAnalyzer IIを使用して、ペアエンド36ntシーケンシングプロトコルを使用して、生成したライブラリーをシーケンシングする。
− 得られたシーケンシングデータを、標準的なIllumina Softwareパイプライン v1.6を使用して、処理する。
− 処理した配列データをエクスポートし、WGPパイプラインについておよびペアエンドリードのアセンブリについてのインプットとして使用する。
【0122】
2. バイオインフォーマティクスアプローチ
2.1 物理地図生成のためのデコンボリューション
データの処理後、プールの中の1タグあたりの平均リード数は約450であった。これは、通常のWGPにおける値よりもおよそ7倍高かった。この大きいデータセットを使用して、標準的なWGPパイプラインを使用して9039個のタグをデコンボリューションすることができた。通例のWGPデータセットでは、使用したBACプールの中で13571個のタグがデコンボリューションされた。上記9039個のデコンボリューションされたタグのうちのおよそ71%は、通例のWGPデータセットの中にも存在した。より低いデコンボリューションは、きわめて大規模なシーケンシングおよびより低い品質のシーケンシングランに割り当てられる。両方とも、エラーを含み(これは、複数の座標を得るタグの数を上昇させる)、それゆえデコンボリューションされないリードの数を増加させる。デコンボリューションされたタグは、2.2 工程5で生成されて選択されるコンティグを配置するために使用されるであろうWGP地図を生成するために、使用されることになる。
【0123】
2.2 ペアエンドデータのコンティグへのアセンブリ
このアプローチは6工程を含む。
【0124】
工程1は、ペアエンドリードのリード1からプールタグをトリミングする。これは、当該WGPプロセスでは、プールタグをデコンボリューションのために使用し、アセンブリのためには使用しないからである。この工程は、CAATTCからGAATTCへと修飾した制限酵素部位の回収も含む。生成したリード1から、プールタグの除去後、約85%は予想される制限酵素部位で始まっていた。工程1bは、リードのBAC/プールタグに基づいてリードをプールすることである。これは、クラスタリングがこのプールされたタグに対して実施されるとき、リードのローカルアセンブリを可能にするであろう。これは、工程2で述べたアプローチの代替の(より断片化された)アプローチである。
【0125】
工程2は、リード1の対応するWGPタグに従って、ペアエンドリードをクラスタリングする。図5は、WGPタグとリード1との関係を示す。工程1bは、工程4における反復領域からのリードのアセンブリングで問題が生じないようにするために、加えられてもよい。
【0126】
工程3は、各クラスターについて、図6aおよび6bに示されているアーチファクト断片を含有するペアエンドリードをトリミングする。図6aの場合には、リード1およびリード2の両方が、アーチファクトを含むためにトリミングされる。リード1は、GAII配列プライマー2の一部分を含むためにトリミングされ、リード2は、プールIDおよびGAII配列プライマー1の一部分を含むためにトリミングされる。リード1とリード2との間の共通の断片配列は、維持されるべきである(図6aにおける、リード1とリード2のダッシュラインの間)。図6bは、リード2のみがアーチファクト、プールタグの一部分を含む別の例を示す。
【0127】
工程4は、ソフトウェアツールphrapおよび/またはcap3を使用して、クラスターごとにトリミングされたデータセットをアセンブリングする。
【0128】
工程5は、すべてのクラスターからアセンブリングされた最も長いコンティグを拾い上げ、統計解析を実施する。ペアエンドリードのBAC IDに基づいてペアエンドリードをプールすることで、複数のコンティグの作成が減少する。当該オプションは、同一のWGPタグを有するすべての反復領域をアセンブリングする。当該実施例では、二次元プールされたメロンBACライブラリーの単独のプールセットだけしか使用せず、これにより、反復的なWGPタグの存在が最小になった。完全なBACライブラリーからのデータに対してこのアプローチを使用することでは、ローカルアセンブリの最大の恩恵は与えられないであろう。工程1bで述べたアプローチは、反復領域のアセンブリを回避するであろう。
【0129】
工程6は、これらのコンティグを、QCの目的で、利用可能であれば、(メロン)ドラフトゲノムに対してBLAST解析する。
【0130】
工程7は、コンティグ(工程5)を、2.1で生成したWGP地図上に配置する。
【0131】
工程8は、工程7の配置された(重複する)コンティグを、より長いコンティグへとアセンブリングする。これは、物理地図に基づいてドラフトゲノム配列を生じることになる。この工程は工程7の前に実施されてもよいが、こうすると、反復配列に起因して正しくないアセンブリが生じる可能性がある。この工程が、複数のローカルアセンブリのローカルアセンブリであることが効果的である。
【0132】
クラスターごとにGAIIペアエンドリードをアセンブリングするために、いくつかのプログラムを使用することができる。評価したツールは、Velvet、Soapdenovo、ABySS、cap3およびphrapであった。Sangerリードについての従来からのアセンブリプログラムであるCap3およびphrapの両方は、クラスターごとにGAIIリードを非常に良好にアセンブリングした。本研究では、使用したcap3についての設定は、「−o 40 −p 80 −y 6」であり、ペアエンドリード間の距離を0〜800ntに設定した。Phrapはペアエンド距離を採用せず、これらのリードをショットガンリードとしてのみ扱う。本研究で使用したphrapについての設定は、「−vector_bound 0 −forcelevel 1 −minscore 12 −minmatch 10 −indexwordsize 8」であった。これらの設定は、「Parallel,tag−directed assembly of locally derived short sequence reads」と題するNature論文(Hiattら、2010年)でも使用された。
【0133】
図4は、Cap3、phrapまたはVelvetを使用する1つのクラスターについてのアセンブリ結果を示す。Cap3およびPhrapは、酵素部位の近傍で断片を生成したが、これに対して、Velvetは、ペアエンドリードおよびリード2のみの両方において、その領域上での配列重複性に起因して、その部分を欠いた。
【0134】
Cap3を他と比較すると、Cap3は、末端部分を欠くことが示された。なぜなら、Cap3は3’側の「低」品質の領域をトリミングしたからである。CAP3におけるこの特性は、Sangerリードアセンブリに対して設計されている。それゆえ、phrapは、最良のパフォーマンスを呈し、このアプローチについての好ましいアセンブラーである。
【0135】
3 結果
単独のBACを特定するために、工程2.2で生成した配列データから、9039個のタグをデコンボリューションした。これらのタグのうちで、71%は、使用したプールについてのもとのWGPタグリストでも見出された。工程2.2で生成されたすべてのリードは、それらの第1のリードに基づいてビニングし、そのあとに、各ビン(bin)に対して個別にアセンブリを実施した。Phrapソフトウェアを用いると、アセンブリは合計15938個のコンティグを生じ、そのうちで14905個(=94%)が予想される制限酵素部位で始まっていた。生成したこれらのコンティグの平均長さは約545ntであった。アセンブリングされたコンティグの品質をチェックするために、サブセットを、ランダムシーケンシングアプローチを使用して生成したメロンゲノム配列に対してBLAST解析にかけた。BLAST解析の結果を図8に示す。この図は、生成したWGPSコンティグ(760nt)がゲノム配列コンティグと100%マッチするということを示す。このマッチは、高有意性を有する唯一のヒットであった。
【0136】
SDSES実施例
酵素結合の配列情報をメロンのWGP地図にリンクすることを通した、メロンのゲノムDNAに対するSDSESを実証するために、メロンBACライブラリー スーパープール24をスーパープール24のWGPデータと一緒に準備した。
【0137】
ウェットラボアプローチ
このアプローチは以下の工程を含む:
1− 葉緑体およびミトコンドリアから得られる配列データの量を減らすために、核DNAを単離する。これは、任意の工程であるが、使用できるアウトプットを増やすことになろう。
2− 単独の酵素(EcoRI)を使用するメロンゲノムDNAの消化。この酵素は、WGP地図の生成で使用した酵素と同じ酵素であることが好ましい。異なる酵素が使用されることになる場合、その異なる酵素は、WGPで使用した酵素と同じヌクレオチド(GAATTC)を認識するべきである(これが好ましい)。
3− 増幅および配列プライマーを含有する酵素(EcoRI)適合性のアダプターのライゲーション。
4− 少なくとも400bp、最大で1000bpのサイズ範囲を有する産物への、アダプターとライゲーションされた産物の断片化。低いほうの断片長さは変わる可能性があるが、少なくとも、得ることができるシーケンシングリード長よりも高くあるべきである。断片化は、ネブライゼーションまたは超音波処理(Covaris)を使用して実施することができる。
5− 精製した断片のサイズ分布および濃度を、高感度DNAチップ(サイズ分布)およびnanodrop測定(濃度)を使用するAgilent Bioanalyzerでの解析を通して決定する。
6− GS−FLXシーケンシングについてライブラリー調製プロトコルで使用したAMpure手順を使用して、サイズ選択を使用して小さい断片(<400nt)を取り除く。サイズ選択後、nanodropで試料の濃度を測定する。
7− 精製した断片を末端ポリッシングする。
8− ストレプトアビジンをコーティングした磁気ビーズ上に断片を捕捉することを通して、ポリッシングした産物を(任意に)精製する。これは、使用するライゲーションしたEcoRIアダプターが5’−ビオチン修飾を含有するとき、可能である。
9− 繋合を防止するために、1つのAを、断片のポリッシングされたランダム末端に付加する。
10− 増幅および配列プライマー2配列を含有するT字型のアダプターをライゲーションする。
11− 増幅を実施して、完全に二本鎖の断片、および増幅された試料(これは、1本のDNA鎖の5’末端にビオチン修飾を含有する)を生成する。
12− 上記のプロトコルを使用して、増幅産物を、ストレプトアビジンをコーティングした磁気ビーズ(Dynal)に結合する。
13− 断片の標識していない鎖をビーズから溶出し、(次世代の)シーケンシング技術を使用するシーケンシングのために使用する。
【0138】
シーケンシング
上記で調製した試料を、Roche GS−FLX titaniumシーケンサーを使用してシーケンシングする。General Sequencing Signal処理ツールを使用して、粗配列データを処理する。これは、クオリティおよびライブラリー調製で使用したアダプター配列の存在に関して配列のリードをトリミングするであろう。フィルタリング後、380bpの平均リード長を有する930,618個のリードが残った。これは、354Mbpの配列情報に相当する。Fasta(fna)および対応するクオリティ(.qual)ファイルを、粗配列ファイル(.sff)から抽出する。このfasta、クオリティおよび粗配列のファイルを、後述するバイオインフォーマティクス処理工程を使用して処理する。
【0139】
バイオインフォーマティクス処理
− (修飾された)制限酵素認識部位で始まらないすべてのリードの除去。この実施例では、EcoRIを使用する。これは、CAATTCで始まらないリードが取り除かれるということを意味する。代替の酵素を使用する場合、フィルタリングは、異なる認識部位を使用して実施する必要があるだろう。
− シーケンシングライブラリーの調製について使用した酵素についての内部認識部位を含有するすべてのリードを取り除く。これらのリードはキメラであってもよい。この実施例では、内部GAATTCを含有するすべてのリードが取り除かれる。
− 残りのリードでは、修飾された制限酵素(EcoRI)部位(CAATTC)が回復される。この回復(または、調整されたトリミングポイントが調整される)は、生成したコンティグとWGSおよび/またはWGPデータとの統合を容易にするであろう。
【0140】
配列データ処理の結果を表2に提示する。
表2:配列のリードの処理の概説
【表1】

【0141】
− CAP3ソフトウェアを使用して、以下の設定、 −p 97(重複同一性カットオフ)および−y 6(クリッピング範囲)を使用して、処理した配列のリードをアセンブリングする。他のオプションは、初期設定値で使用する。このアセンブリの結果を表3に提示する。
− アセンブリングされたコンティグを、シーケンシングライブラリー調製において使用した酵素、すなわちこの実施例ではEcoRIについての内部制限酵素部位の存在についてスクリーニングする。内部部位を有するコンティグは、それらの内部配列に基づいた、そして配列のリードの出発点にある制限酵素部位に隣接している配列には基づかない、アセンブリングされた可能性があるリードである。
【0142】
表3:Cap3アセンブリ結果の概説
【表2】

【0143】
内部制限酵素部位を有するコンティグを、この選択から取り除く。
内部制限酵素部位を有しないコンティグを、アセンブリングされていないリードとともに、新しいfastaファイルへと合わせる。
【0144】
このfastaファイル(これまでの工程のコンティグおよびシングルトンを含有する)を、Cap3および上記の設定を使用して、再アセンブリングする。再アセンブリの結果を表4に示す。
【0145】
表4:再アセンブリ結果の概説
【表3】

【0146】
生成した配列ファイルを使用して、メロンゲノムアセンブリと統合するか、またはこの配列を配列に基づく物理地図へとリンクする。
平均コンティグ長さは約500bpである。
【0147】
配列に基づく物理地図(=WGP)へのSDSESリンケージ
表7は、SDSES配列の組全体をメロンのフィルタリングされたWGPタグリストにリンクすることの結果を提示する。全SDSESデータセットは、上記の再アセンブリングを通して得られたコンティグコンティグ(contigcontigs)およびシングレットコンティグ(singletcontigs)ならびに第1の配列アセンブリラウンドの後に残るシングルトンリードを含む。一般に、フィルタリングされたメロンWGPタグのうちの約80%を、少なくとも1つのSDSES配列(コンティグまたはシングルトン)にリンクすることができると結論することができる。シングルトンにおいては、多くの「タグ」が高頻度で発生しているということをも認められる。認められた最高値は1193である。これらが葉緑体/ミトコンドリアに起因するのかまたは反復配列に起因するのかは不明である。
【0148】
456369個の配列を含有する全SDSES配列データセットから、約59%をWGPタグにリンクすることができる。
【0149】
表7:WGPメロンタグへのSDSES結果のリンケージ
【表4】

【0150】
SDSES シングルトン配列は、WGPタグのカバレッジを増大させ、いくつかのタグ配列が(非常に)高い頻度で発生するということを示す。これは、配列のアセンブリを最適化できるということを示す。WGPリンクされたSDSESコンティグは、メロンゲノムの約25Mbp(50895個のコンティグとリンクされたWGPタグ×500配列長さ)をカバーする。450bpの平均コンティグ/リード長が使用されるとき、このゲノムの全WGPリンクされたカバレッジは42Mbp(93459個のWGPタグ×450bp配列長さ)である。

【特許請求の範囲】
【請求項1】
DNA試料から配列情報を生成する方法であって、
(a)タグ化された、アダプターとライゲーションされた制限酵素切断断片のエンドシーケンシングに基づいてクローンバンクの(配列に基づく)物理地図を準備することであって、前記制限酵素切断断片は、少なくとも1つの制限酵素を使用して生成されたものである工程と、
(b)次の工程を含むサブメソッドを準備する工程と、
(i)前記DNA試料のアダプターとライゲーションされた制限酵素切断断片を準備する工程、
(ii)任意に、前記アダプターとライゲーションされた制限酵素切断断片を断片化する工程、
(iii)任意に、アダプターを工程(ii)の断片にライゲーションする工程、
(iv)工程(iii)の断片の配列の少なくとも一部分を決定する工程、
(c)工程(b)で得られる配列情報を工程(a)の物理地図と組み合わせる工程と、
(d)ドラフトゲノム配列を生成する工程と
を含み、工程(b)(i)における制限酵素切断断片は、工程(a)の物理地図の生成で使用される前記少なくとも1つの制限酵素の認識配列の少なくとも一部分と同一である認識配列を含有する少なくとも1つの制限酵素を用いて生成される、方法。
【請求項2】
前記少なくとも1つの制限酵素はレアカッターである、請求項1に記載の方法。
【請求項3】
工程(a)および(b)(i)の少なくとも1つの制限酵素はイソ制限酵素である、請求項1に記載の方法。
【請求項4】
工程(a)の少なくとも1つの制限酵素の認識部位は、工程(b)(i)の少なくとも1つの制限酵素の前記認識配列と同一であるセクションを含有する、請求項1に記載の方法。
【請求項5】
以下の工程:
(a)複数のクローンを含むクローンバンクを準備する工程であって、各クローンは、試料ゲノム(もしくは前記試料ゲノムの一部分)由来のDNAを含有する工程と、
(b)前記クローンを前記クローンバンクからプールへとプールする工程と、
(c)少なくとも1つの制限酵素を使用して各プールについての断片を準備する工程と、
(d)第1のアダプターを前記断片にライゲーションする工程と、
(e)断片化された、アダプターとライゲーションされた制限酵素切断断片を与え、および、任意に、ランダムな断片末端をポリッシングするために、工程(d)のアダプターとライゲーションされた制限酵素切断断片を断片化する工程と、
(f)第1および第2のアダプターを含有する、アダプターとライゲーションされた断片化された制限酵素切断断片を与えるために、第2のアダプターを前記(ポリッシングされた)断片化された制限酵素切断断片にライゲーションする工程と、
(g)任意に、第1のプライマーおよび第2のプライマーを用いて工程(f)のアダプターとライゲーションされた断片化された制限酵素切断断片を増幅し、これにより増幅産物を生成する工程と、
(i)前記第1のアダプターの少なくとも一部分および/もしくは前記第1のアダプターに隣接した断片の配列の一部分ならびに/または前記第2のアダプターの少なくとも一部分および/もしくは前記第2のアダプターに隣接した断片の一部分の配列を決定する工程と、
(j)シーケンシングされた、前記第1のアダプターの一部分および/もしくは前記第1のアダプターに隣接した断片の一部分ならびに/または前記第2のアダプターの一部分および/もしくは前記第2のアダプターに隣接した断片の一部分に基づいて、前記断片を対応するクローンに割り当てる工程と、
(k)前記クローンをクローン−コンティグへと順序付けし、これにより前記試料ゲノムの物理地図を生成する工程と、
(l)前記第2のアダプターの少なくとも一部分および/もしくは前記第2のアダプターに隣接した断片の一部分の断片配列を対応するクローンに割り当てる工程と、
(m)工程(h)の断片配列を前記物理地図へアンカリングする工程と、
(n)ドラフトゲノム配列を生成する工程と
を含む、請求項1に記載の方法。
【請求項6】
前記サブメソッドは、SDSESおよびSDPESからなる群から選択され、
I. SDSESは、
(a)制限酵素切断断片を得るための、少なくとも1つの制限エンドヌクレアーゼを用いた標的DNA(ゲノムDNAまたは人工染色体DNA)の断片化、
(b)第1のアダプターとライゲーションされた制限酵素切断断片を得るための、前記制限酵素切断断片の末端への第1のアダプターのライゲーション、
(c)ランダムに断片化された第1のアダプターとライゲーションされた制限酵素切断断片を得るための、前記第1のアダプターとライゲーションされた制限酵素切断断片のランダムな断片化、
(d)任意に、アダプターを含有する前記断片化された、アダプターとライゲーションされた制限酵素切断断片の選択、
(e)前記第1のアダプターとライゲーションされた制限酵素切断断片の断片化された末端への、第2のアダプターのライゲーション、
(f)任意に、(親和性標識された)増幅された断片を得るための、工程(b)のアダプターに向けられたプライマーおよび工程(e)の第2のアダプターに向けられた(親和性標識された)プライマーを使用する増幅、
(g)任意に、前記第2のアダプターの存在に基づく、工程(f)で得られる(親和性標識された)増幅された断片の選択、
(h)前記第1のアダプターの少なくとも一部分の配列および/もしくは前記第1のアダプターに隣接した断片の配列の一部分ならびに/または前記第2のアダプターの少なくとも一部分の配列および/もしくは前記第2のアダプターに隣接した断片の配列の一部分の決定
の工程を含み、
II.SDPESは、
(a)制限酵素切断断片を得るための、標的DNAの制限酵素消化、
(b)IIs−アダプターとライゲーションされた制限酵素切断断片を与えるための、タイプIIs制限エンドヌクレアーゼについての認識配列を含有するIIs−アダプターのライゲーション、
(c)断片化されたIIs−アダプターとライゲーションされた制限酵素切断断片を得るための、前記IIs−アダプターとライゲーションされた制限酵素切断断片の断片化、
(d)環状化産物を得るための、前記断片化されたIIs−アダプターとライゲーションされた制限酵素切断断片の環状化、
(e)タイプIIsで消化された断片を与えるための、環状化産物のタイプIIs制限酵素消化、
(f)アダプターとライゲーションされたタイプIIsで消化された断片を与えるための、前記タイプIIsで消化された断片への第1のアダプターのライゲーション、
(g)前記第1のアダプターとライゲーションされたタイプIIsで消化された断片の断片化、
(h)第1および第2のアダプターとライゲーションされたタイプIIsで消化された断片を与えるための、前記第1のアダプターとライゲーションされたタイプIIsで消化された断片への第2のアダプターのライゲーション、
(i)前記断片および/またはアダプターの少なくとも一部分の配列を決定すること
の工程を含む、請求項1に記載の方法。
【請求項7】
標的DNAの配列情報を生成する方法であって、
(a)制限酵素切断断片を得るための、少なくとも1つの制限エンドヌクレアーゼを用いた標的DNA(ゲノムDNAまたは人工染色体DNA)の断片化、
(b)第1のアダプターとライゲーションされた制限酵素切断断片を得るための、前記制限酵素切断断片の末端への第1のアダプターのライゲーション、
(c)ランダムに断片化された第1のアダプターとライゲーションされた制限酵素切断断片を得るための、前記第1のアダプターとライゲーションされた制限酵素切断断片のランダムな断片化、
(d)任意に、アダプターを含有する前記断片化された、アダプターとライゲーションされた制限酵素切断断片の選択、
(e)前記第1のアダプターとライゲーションされた制限酵素切断断片の断片化された末端への、第2のアダプターのライゲーション、
(f)任意に、(親和性標識された)増幅された断片を得るための、工程(b)のアダプターに向けられたプライマーおよび工程(e)の第2のアダプターに向けられた(親和性標識された)プライマーを使用する増幅、
(g)任意に、前記第2のアダプターの存在に基づく、工程(f)で得られる(親和性標識された)増幅された断片の選択、
(h)前記第1のアダプターの少なくとも一部分の配列および/もしくは前記第1のアダプターに隣接した断片の配列の一部分ならびに/または前記第2のアダプターの少なくとも一部分の配列および/もしくは前記第2のアダプターに隣接した断片の配列の一部分の決定
の工程を含む、方法。
【請求項8】
標的DNAの配列情報を生成する方法であって、
(a)制限酵素切断断片を得るための、標的DNAの制限酵素消化、
(b)IIs−アダプターとライゲーションされた制限酵素切断断片を与えるための、タイプIIs制限エンドヌクレアーゼについての認識配列を含有するIIs−アダプターのライゲーション、
(c)断片化されたIIs−アダプターとライゲーションされた制限酵素切断断片を得るための、前記IIs−アダプターとライゲーションされた制限酵素切断断片の断片化、
(d)環状化産物を得るための、前記断片化されたIIs−アダプターとライゲーションされた制限酵素切断断片の環状化、
(e)タイプIIsで消化された断片を与えるための、環状化産物のタイプIIs制限酵素消化、
(f)アダプターとライゲーションされたタイプIIsで消化された断片を与えるための、前記タイプIIsで消化された断片への第1のアダプターのライゲーション、
(g)前記第1のアダプターとライゲーションされたタイプIIsで消化された断片の断片化、
(h)第1および第2のアダプターとライゲーションされたタイプIIsで消化された断片を与えるための、前記第1のアダプターとライゲーションされたタイプIIsで消化された断片への第2のアダプターのライゲーション、
(i)前記断片および/またはアダプターの少なくとも一部分の配列を決定すること
の工程を含む、方法。
【請求項9】
前記シーケンシング工程は、ペアエンドシーケンシングを使用して実施される、請求項5から請求項8のいずれか1項に記載の方法。
【請求項10】
前記シーケンシング工程は、シングルエンドシーケンシングを使用して実施される、請求項5から請求項8のいずれか1項に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6a】
image rotate

【図6b】
image rotate

【図7】
image rotate

【図8】
image rotate


【公表番号】特表2013−514079(P2013−514079A)
【公表日】平成25年4月25日(2013.4.25)
【国際特許分類】
【出願番号】特願2012−544417(P2012−544417)
【出願日】平成22年12月16日(2010.12.16)
【国際出願番号】PCT/NL2010/050854
【国際公開番号】WO2011/074960
【国際公開日】平成23年6月23日(2011.6.23)
【出願人】(509351340)
【Fターム(参考)】