説明

複合的な混合物から個々の試料を特定するためのシステムおよび方法

核酸エレメントから得られた配列データ中に導入されたエラーの検出および導入されたエラーの訂正を可能にする配列組成を含む核酸エレメントを含む、鋳型核酸分子の起源を特定する識別子エレメントの実施形態が記載され、核酸エレメントは鋳型核酸分子の末端と連結するように構築され、鋳型核酸分子の起源を特定する。本発明は、これらの識別子エレメントを使用して鋳型核酸分子の起源を特定するための方法、ならびにこの方法を実施するためのキットおよびコンピュータも提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分子生物学およびバイオインフォマティクスの分野に関する。より具体的には、本発明は、複合識別子(MID)と呼ばれることもある一意識別子(UID)エレメントを、特定の試料に由来する1つまたは複数の核酸エレメントと関連づけ、その試料の関連づけたエレメントを、1つまたは複数の他の試料の関連づけたエレメントと混合して前記試料の複合混合物にし、一般に「配列決定」技術と呼ばれるものによって得られたデータから各識別子およびその関連づけた試料を特定することに関する。
【背景技術】
【0002】
例えば、終結およびサイズ分離技術を使用する当業者に通常知られているSanger配列決定法と呼ばれるものに基づく技術など、ここに記載の発明で使用するのに適した、当技術分野で知られている「配列決定」技術がいくつか存在する。核酸試料中の1つまたは複数のヌクレオチドの出所または配列組成を決定する、他のクラスの強力なハイスループット配列決定技術には、「合成による配列決定」技術(SBS)、「ハイブリダイゼーションによる配列決定」(SBH)、または「ライゲーションによる配列決定」(SBL)技術がある。このうち、SBS法は、それだけに限らないが、以前の技術と比べて低コストでの大量高品質配列情報の大量並行生成を含む、以前から使用されている配列決定法より望ましい利点を多数もたらす。本明細書において「大量並行」という用語は一般に、多数の異なる鋳型分子からの配列情報の並行した同時生成を指し、この場合個々の鋳型分子または実質的に同一の鋳型分子の集団は分離または区画化され、反復する一連の反応を含むことがある配列決定工程に同時にさらされ、それによって各鋳型分子の核酸組成を表す独立した配列読み取りが得られる。言い換えると、その利点は、多数の異なる試料または試料内に存在する異なる核酸エレメントと関連づけた複数の核酸エレメントを同時に配列決定できることを含む。
【0003】
SBS法の典型的な実施形態は、ヌクレオチド配列組成を決定する鋳型核酸分子と相補的な一本鎖のポリヌクレオチド分子の段階的な合成を含む。例えば、SBS技術は、典型的には、単一の核酸(ヌクレオチドとも呼ばれる)種を、対応する配列位置で、鋳型分子の核酸種と相補的な新生ポリヌクレオチド分子に付加することによって働く。新生分子への核酸種の付加は、それだけに限らないが、パイロシークエンス法と呼ばれるもの、または可逆的ターミネーターもしくは蛍光共鳴エネルギー移動色素(FRET)を含めたエネルギー移動標識を使用するものなどの蛍光検出法を含めた、当技術分野で知られている様々な方法を使用して一般に検出される。典型的には、その工程は、鋳型と相補的である完全な(すなわち全ての配列位置が表されている)または所望の配列長が合成されるまで反復する。
【0004】
さらに、上記に記載のように、SBSの多数の実施形態は、大量並行の形式で配列決定操作を行うことが可能である。例えば、SBS法のいくつかの実施形態は、調製および/または配列決定法と関連する1つまたは複数のステップまたは操作を自動化する機器を使用して行われる。いくつかの機器は、それぞれのウェルまたはマイクロリアクター中で同時に反応を行うことができるウェルの付いたプレートや他の型のマイクロリアクターの構成などのエレメントを使用する。SBS技術ならびに大量並行配列決定の系および方法のさらなる例は、それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、特許文献1;特許文献2;特許文献3、特許文献4;特許文献5;特許文献6;特許文献7;および特許文献8;ならびに全ての目的でその全体が参照により本明細書に組み込まれている米国特許出願第11/195,254号に記載されている。
【0005】
SBSのいくつかの実施形態では、鋳型核酸分子のコピーを含む集団中で1つまたは複数のヌクレオチド種が各新生分子中に取り込まれたときに強いシグナルをもたらす、各鋳型核酸エレメントの実質的に同一のコピーを多数生成することが望ましい可能性もある。例えば、細菌ベクターと呼ばれるものを使用した増幅、「ローリングサークル」型増幅(上記で参照により組み込まれている特許文献1および特許文献4に記載されている)、等温増幅技術や、ポリメラーゼ連鎖反応(PCR)法など、核酸分子のコピーを生成する、当技術分野で知られている技術が多数存在し、それぞれの技術は、本明細書に記載の発明で使用するのに適している。ハイスループットの適用に特に適した1つのPCR技術は、エマルジョンPCR法と呼ばれるものを含む。
【0006】
エマルジョンPCR法の典型的な実施形態は、1つの物質がもう1つの物質内に分散した、混ぜ合わせることに抵抗性のある2つの不混和性物質の安定なエマルジョンを作り出すことを含む。エマルジョンは、別の流体内に懸濁した液滴を含んでよく、区画、マイクロカプセル、マイクロリアクター、微小環境と、または関連技術分野で通常使用される他の名称で呼ばれることもある。液滴は、エマルジョンの構成成分の組成および使用する形成技術に応じてサイズが変動し得る。記載のエマルジョンは、その中でPCRなどの化学反応を行うことができる微小環境を作り出す。例えば、鋳型核酸および所望のPCR反応を行うのに必要な全ての試薬をカプセル化し、エマルジョンの液滴中に化学的に隔離することができる。液滴を使用してPCR法に特有の温度サイクル操作を実行してカプセル化核酸鋳型を増幅することができ、その結果、鋳型核酸の実質的に同一のコピーを多数含む集団が得られる。この例においても、記載の液滴の一部または全部は、対象とする核酸、試薬、標識、または他の分子を付着させるためのビーズなどの固体基質をさらにカプセル化することができる。
【0007】
ここに記載の発明で有用なエマルジョンの実施形態は、大量並行の形で記載の化学反応を行うことを可能にする非常に高い密度の液滴またはマイクロカプセルを含み得る。エマルジョンおよび配列決定の適用のためのその使用のさらなる例は、それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、米国特許出願第10/861,930号;第10/866,392号;第10/767,899号;第11/045,678号に記載されている。
【0008】
当業者なら、本明細書に記載の増幅および配列決定法の大量並行性によってもたらされる利点が、「複合」試料と呼ぶことができるものの処理に特に適し得ることを理解するであろう。例えば、複合組成物は、複数の個体の試料などの複数の試料からの代表物を含み得る。多くの適用では、各試料を別々に処理することとは対照的に、複数の試料を混合して、1回の操作で処理することができる単一の複合的な試料にすることが望ましい可能性がある。したがって、その結果は、典型的には試薬、労力、機器使用およびコストの実質的な節約ならびに注いだ処理時間の著しい節約を含み得る。複合処理の記載した利点は、個体の試料数が増大するにつれてより顕著になる。さらに、複合処理は、研究ならびに診断の場面で適用される。例えば、多くの適用では、増幅反応で単一の複合的な試料を使用し、その後、単一の配列決定の実行で増幅した複合組成物を処理することが望ましい可能性がある。
【0009】
次いで、複合組成物の処理に伴う1つの問題は、元の各試料と、前記試料に由来する鋳型分子から得られた配列データとの関連の特定となる。この問題の解決策は、各鋳型分子とその元の試料との関連を特異的に特定する核酸配列などの識別子の関連づけを含む。この解決策の利点は、関連づけた核酸配列の配列情報が鋳型分子から得られた配列データ中に埋め込まれ、その情報をバイオインフォマティクスで分析して配列データをその元の試料と関連づけることができることである。
【0010】
以前の研究は、複合処理のために、核酸配列識別子を、標的配列と連結した5’プライマーと関連づけることについて記載している。そのような研究の1つは、Binladenらのものである(Binladen J、Gilbert MTP、Bollback JP、Panitz F、Bendixen C(2007年)The use of coded PCR Primers Enables High−Throughput Sequencing of Multiple Homolog Amplification Products by Parallel 454 Sequencing. PLoS ONE 2巻(2号):e197.doi:10.1371/journal.pone.0000197(2007年2月14日にオンライン公開、この文献は全ての目的でその全体が参照により本明細書に組み込まれている)。上記で述べたように、Binladenらは、短い配列識別子を複合的な試料中で処理する標的配列と関連づけ、その後バイオインフォマティクスで分析して短い識別子をその元の試料と関連づける配列データを作成することについて記載している。しかし、一般的な配列組成の核酸識別子を鋳型分子に単に付着させ、得られた配列データ中の前記識別子の配列を特定することには限界がある。様々な機構から配列データ中へのエラーの導入がまず懸念される。そのような機構は、典型的には互いとの組合せで働き、一般に、配列データからは個々に特定できない。したがって、導入されたエラーのために、エンドユーザーは、配列データとその元の試料との関連づけを特定することができず、またはおそらくより悪いことに、エラーが起こっていることを特定できず、誤っている元の試料に配列データを誤って割り当てる。
【0011】
他の根源が存在する可能性もあるが、エラー導入の重要な根源が2つ考慮される。第1は、配列決定操作によって導入されるエラーであり、場合によっては「フローエラー」と呼ぶことができる。例えば、フローエラーは、ポリメラーゼ酵素による誤ったヌクレオチド種の取り込みを含むポリメラーゼエラーを含み得る。配列決定操作は、「繰り越し」および「不完全伸長」と呼ばれるものを含む相同調性エラーと呼ぶことができるもの(相同調性エラーの組合せはCAFIEエラーと呼ばれることもある)を導入する可能性もある。相同調性エラーおよび訂正の方法は、全ての目的でその全体が参照により本明細書に組み込まれている、2007年2月15日に出願された「System and Method for Correcting Primer Extension Errors in Nucleic Acid Sequence Data」という名称のPCT出願第US2007/004187号にさらに記載されている。
【0012】
第2は、プライマー合成や増幅エラーなどの配列決定操作から独立している工程から導入されるエラーである。例えば、PCR用に合成されたオリゴヌクレオチドプライマーは、ここに記載の発明の1つまたは複数のUIDエレメントを含む可能性があり、次いで配列鋳型として使用されるプライマー/UIDエレメントの合成中にエラーが導入される可能性がある。UIDエレメントの忠実度の高い配列決定は、配列データ中の合成されたエラーを忠実に再現する。この例においても、例えばポリメラーゼによって複製におけるエラーが増幅した10,000;100,000;または1,000,000塩基ごとに1回導入される可能性がある程度の複製エラーを有する、PCR法で通常使用されるポリメラーゼ酵素が知られている。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】米国特許第6,274,320号明細書
【特許文献2】米国特許第6,258,568号明細書
【特許文献3】米国特許第6,210,891号明細書
【特許文献4】米国特許第7,211,390号明細書
【特許文献5】米国特許第7,244,559号明細書
【特許文献6】米国特許第7,264,929号明細書
【特許文献7】米国特許第7,335,762号明細書
【特許文献8】米国特許第7,323,305号明細書
【発明の概要】
【発明が解決しようとする課題】
【0014】
したがって、1)エラー導入に抵抗性があり、2)導入されたエラーの検出を可能にし、3)導入されたエラーの訂正を可能にする一意識別子を使用するとかなり有利となる。ここに記載の発明は、これらの問題に対処するものであり、より良好な認識および特定の特性をもたらし、その結果データの品質および実験の効率が向上する一意識別子を関連づける系および方法を提供する。
【課題を解決するための手段】
【0015】
本発明の実施形態は、核酸の配列の決定に関する。より具体的には、本発明の実施形態は、核酸の配列決定の間に得られたデータ中のエラーを訂正し、核酸をその起源と関連づけるための方法および系に関する。
【0016】
核酸エレメントから得られた配列データ中に導入されたエラーの検出および導入されたエラーの訂正を可能にする配列組成を含む核酸エレメントを含む、鋳型核酸分子の起源を特定する識別子エレメントの実施形態が記載され、核酸エレメントは鋳型核酸分子の末端と連結するように構築され、鋳型核酸分子の起源を特定する。
【0017】
また、鋳型核酸分子から得られた配列データから第1の識別子配列を特定するステップと、第1の識別子配列中に導入されたエラーを検出するステップと、第1の識別子配列中に導入されたエラーを訂正するステップと、訂正された第1の識別子配列を、鋳型分子と連結した第1の識別子エレメントと関連づけるステップと、訂正された第1の識別子配列と第1の識別子エレメントの関連づけを使用して、鋳型分子の起源を特定するステップとを含む、鋳型核酸分子の起源を特定するための方法の実施形態も記載される。
【0018】
いくつかの実装形態では、その方法は、鋳型核酸分子から得られた配列データから第2の識別子配列を特定するステップと、第2の識別子配列中に導入されたエラーを検出するステップと、第2の識別子配列中に導入されたエラーを訂正するステップと、訂正された第2の識別子配列を、鋳型核酸分子と連結した第2の識別子エレメントと関連づけるステップと、訂正された第1の識別子配列と第1の識別子エレメントの関連づけと組み合わせて、訂正された第2の識別子配列と第2の識別子エレメントの関連づけを使用して、鋳型核酸分子の起源を特定するステップとをさらに含む。
【0019】
さらに、各核酸エレメントから得られた配列データ中に導入されたエラーの検出および導入されたエラーの訂正を可能にする独自の配列組成をそれぞれが含む核酸エレメントのセットを含む、鋳型核酸分子の起源を特定するキットの実施形態が記載され、それぞれの核酸エレメントは鋳型核酸分子の末端と連結するように構築され、鋳型核酸分子の起源を特定する。
【0020】
さらに、システムメモリ中に保存された実行可能なコードを含むコンピュータの実施形態が記載され、実行可能なコードは、鋳型核酸分子の起源を特定するための方法であって、鋳型核酸分子から得られた配列データから識別子配列を特定するステップと、識別子配列中に導入されたエラーを検出するステップと、識別子配列中に導入されたエラーを訂正するステップと、訂正された識別子配列を、鋳型分子と連結した識別子エレメントと関連づけるステップと、訂正された識別子配列と識別子エレメントの関連づけを使用して、鋳型分子の起源を特定するステップとを含む方法を行う。
【0021】
上記の実施形態および実装形態は、必ずしも互いに包含的でも排他的でもなく、それが同じ実施形態または実装形態との関連で示されていても、異なる実施形態または実装形態との関連で示されていても、相反せずその他可能な任意の形で組み合わせることができる。1つの実施形態または実装形態の記載は、他の実施形態および/または実装形態に関して限定するものではない。また、本明細書中の他の箇所に記載した任意の1つまたは複数の機能、ステップ、操作、または技術は、代替の実装形態において、概要中に記載した任意の1つまたは複数の機能、ステップ、操作、または技術と組み合わせることができる。したがって、上記の実施形態および実装形態は限定的ではなく例示的である。
【0022】
上記の特徴およびさらなる特徴は、添付図面と併せて考慮したときに、下記の詳細な説明からよりはっきりと理解されるであろう。図面中で、同じ参照数字は同じ構造、エレメント、または方法のステップを示し、参照数字の最も左の桁は、参照エレメントが最初に現れる図面の番号を示す(例えば、エレメント160は図1で最初に現れる)。しかし、これらの取り決めの全ては、限定的ではなく典型的または例示的であるものとする。
【図面の簡単な説明】
【0023】
【図1】ここに記載の発明で使用するのに適した配列決定機器およびコンピュータシステムの一実施形態の機能ブロック図である。
【図2】(図2A) UID構成成分を含むゲノムライブラリーで使用するのに適したアダプターエレメントの一実施形態の単純化した図示である。
【0024】
(図2B) UID構成成分を含むアンプリコンで使用するのに適したアダプターエレメントの一実施形態の単純化した図示である。
【図3】異なる配列組成のUIDエレメントの互換性を表す算出されたエラーボールの一実施形態の単純化した図示である。
【発明を実施するための形態】
【0025】
下記でより詳細に記載するように、ここに記載の発明の実施形態は、以後UIDエレメントと呼ぶ一意識別子を、試料の1つまたは複数の核酸分子と関連づける系および方法を含む。UIDエレメントは、配列データ中に導入されたエラーに抵抗性があり、エラーの検出および訂正を可能にする。さらに、本発明は、そのUID関連核酸分子を、1つもしくは複数の他の試料の同様なUID関連(「標識」と呼ばれることもある)核酸分子と混合しまたはそれとともにプールし、プール試料中の各核酸分子を配列決定して、各核酸の配列データを得ることを含む。ここに記載の発明は、各UIDエレメントの配列組成を設計し、各核酸の配列データを分析して、埋め込まれたUID配列コードを特定し、前記コードを試料の出所と関連づける系および方法をさらに含む。
【0026】
a.一般
「フローグラム」および「パイログラム」という用語は、本明細書において交換可能な形で使用することができ、SBS法によって得られた配列データの図示を指す。
【0027】
さらに、本明細書において「読み取り」または「配列読み取り」という用語は一般に、単一の核酸鋳型分子、または鋳型核酸分子の複数の実質的に同一のコピーの集団から得られた配列データ全体を指す。
【0028】
本明細書において「実行」または「配列決定実行」という用語は一般に、1つまたは複数の鋳型核酸分子の配列決定操作中に行われる一連の配列決定反応を指す。
【0029】
本明細書において「フロー」という用語は一般に、鋳型核酸分子を含む環境への溶液の添加の連続または反復サイクルを指し、その溶液は、新生分子に付加するヌクレオチド種、またはヌクレオチド種の前回のフローサイクルからのキャリーオーバーまたはノイズの影響を減らすのに使用することができる緩衝液や酵素などの他の試薬を含み得る。
【0030】
本明細書において「フローサイクル」という用語は一般に、ヌクレオチド種がサイクルの間に1度流れる連続した一連のフローを指す(すなわち、フローサイクルは、T、A、C、Gヌクレオチド種の順での連続した付加を含み得るが、他の配列の組合せもこの定義の一部とみなされる)。典型的には、フローサイクルは、反復するサイクルであり、サイクルごとに同じフローの順序を有する。
【0031】
本明細書において「読み取り長」という用語は一般に、確実に配列決定することができる鋳型分子の長さの上限を指す。それだけに限らないが、鋳型核酸分子中のGC含量の程度を含めて、系および/または工程の読み取り長に寄与する多数のファクターがある。
【0032】
「新生分子」は一般に、鋳型分子中の対応するヌクレオチド種と相補的なヌクレオチド種の取り込みにより、鋳型依存性DNAポリメラーゼによって伸長されつつあるDNA鎖を指す。
【0033】
「鋳型核酸」、「鋳型分子」、「標的核酸」、または「標的分子」という用語は一般に、配列決定反応の対象である核酸分子を指し、その分子から配列データまたは情報が得られる。
【0034】
本明細書において「ヌクレオチド種」という用語は一般に、典型的には新生核酸分子中に取り込まれるプリン(アデニン、グアニン)およびピリミジン(シトシン、ウラシル、チミン)を含めた核酸モノマーであることを指す。
【0035】
本明細書において「モノマーリピート」または「ホモポリマー」という用語は一般に、同じヌクレオチド種を含む2つ以上の配列位置(すなわち反復したヌクレオチド種)を指す。
【0036】
本明細書において「均一伸長」という用語は一般に、実質的に同一の鋳型分子の集団の各構成要素が、反応中の同じ伸長ステップを均一に行う、伸長反応の関係または相を指す。
【0037】
本明細書において「完了効率」という用語は一般に、所与のフローの間に正しく伸長された新生分子の百分率を指す。
【0038】
本明細書において「不完全伸長率」という用語は一般に、全ての新生分子の数に対する、正しく伸長していない新生分子の数の比率を指す。
【0039】
本明細書において「ゲノムライブラリー」または「ショットガンライブラリー」という用語は一般に、生物または個体のゲノム全体(すなわちゲノムの全領域)に由来し、かつ/またはそれを表す分子の収集物を指す。
【0040】
本明細書において「アンプリコン」という用語は一般に、ポリメラーゼ連鎖反応またはリガーゼ連鎖反応技術から産生されたものなどの選択された増幅産物を指す。
【0041】
本明細書において「キーパス」または「キーパスマッピング」という用語は一般に、鋳型分子から得られた配列データの品質管理基準として使用される既知の配列組成を含む既知の位置で鋳型核酸分子と関連する(すなわち典型的にはライゲートしたアダプターエレメント中に含まれる)核酸の「キーエレメント」を指す。配列データは、正しい位置でキーエレメントと関連する既知の配列組成を含む場合に、品質管理を通過する。
【0042】
本明細書において「平滑末端」または「平滑末端化された」という用語は一般に、相補的なヌクレオチド塩基種の対で終結している末端を有する直鎖二本鎖核酸分子を指し、平滑末端の対は互いとのライゲーションについて常に互換性がある。
【0043】
試料調製および処理、配列データの生成、ならびに配列データの分析と関連する系および方法のいくつかの例示的な実施形態を下記に一般的に記載するが、その一部または全部は、ここに記載の発明の実施形態で使用するのに適している。特に、鋳型核酸分子の調製、鋳型分子の増幅、標的特異的アンプリコンおよび/またはゲノムライブラリーの生成の系および方法、配列決定法および機器、ならびにコンピュータシステムの例示的な実施形態を記載する。
【0044】
典型的な実施形態では、実験または診断試料に由来する核酸分子を、その生の形からハイスループット配列決定に適した鋳型分子へと調製および処理しなければならない。処理方法は、適用ごとに異なることがあり、その結果、様々な特性を含む鋳型分子が得られる。例えば、ハイスループット配列決定のいくつかの実施形態では、少なくとも特定の配列決定法が正確に配列データを作成することができる長さである配列または読み取り長を有する鋳型分子を生成することが好ましい。この例において、その長さは、約25〜30塩基対、約30〜50塩基対、約50〜100塩基対、約100〜200塩基対、約200〜300塩基対、もしくは約350〜500塩基対、または特定の配列決定の適用に適した他の長さを含み得る。いくつかの実施形態では、ゲノム試料などの試料の核酸を、当業者に知られているいくつかの方法を使用して断片化する。好ましい実施形態では、噴霧化または超音波処理と呼ばれるものを含む、核酸をランダムに断片化する(すなわち特定の配列または領域を選択しない)方法を使用する。しかし、制限エンドヌクレアーゼを使用した消化などの断片化の他の方法を、断片化の目的で使用できることが理解されるであろう。この例においても、いくつかの処理方法では、当技術分野で知られているサイズ選択法を使用して、所望の長さの核酸断片を選択的に単離することができる。
【0045】
また、いくつかの実施形態では、さらなる機能的エレメントを各鋳型核酸分子と関連づけることが好ましい。それだけに限らないが、増幅および/または配列決定法用のプライマー配列、品質管理エレメント、元の試料または患者となどの様々な関連をコードする一意識別子、または他の機能的エレメントを含めて、様々な機能のエレメントを使用することができる。例えば、いくつかの実施形態は、増幅および/または配列決定に使用されるプライマー配列と相補的な配列組成を含むプライミング配列エレメントまたは領域を関連づけることができる。さらに、「鎖選択」と呼ぶことができるもの、および固相基質への核酸分子の固定化に、同じエレメントを使用することができる。この例において、2セットのプライミング配列領域(以後プライミング配列A、およびプライミング配列Bと呼ぶ)を、プライミング配列Aの1コピーおよびプライミング配列Bの1コピーを有する一本鎖だけが選択される鎖選択に使用し、調製された試料として含めることができる。増幅および固定化の方法で同じプライミング配列領域を使用することができ、例えば、プライミング配列Bを固体基質上に固定化することができ、増幅された産物をそこから伸長する。
【0046】
断片化、鎖選択、ならびに機能的エレメントおよびアダプターの付加のための試料処理のさらなる例は、2004年1月28日に出願された「Method for preparing single−stranded DNA libraries」という名称の米国特許出願第10/767,894号;および2007年6月1日に出願された「System and Method for Identification of Individual Samples from a Multiplex Mixture」という名称の米国仮出願第60/941,381号に記載され、これらはそれぞれ、全ての目的でその全体が参照により本明細書に組み込まれている。
【0047】
鋳型核酸分子の増幅を行って実質的に同一のコピーの集団を生成する系および方法の様々な例を記載する。SBSのいくつかの実施形態では、各鋳型核酸エレメントの多数のコピーを生成して、1つまたは複数のヌクレオチド種が、鋳型核酸分子のコピーと関連する各新生分子中に取り込まれたときに強いシグナルを得ることが望ましいことが、当業者には明らかであろう。例えば、細菌ベクターと呼ばれるものを使用した増幅、「ローリングサークル」型増幅(上記で参照により組み込まれている米国特許第6,274,320号および第7,211,390号に記載されている)や、ポリメラーゼ連鎖反応(PCR)法など、核酸分子のコピーを生成する、当技術分野で知られている技術が多数存在し、それぞれの技術は、ここに記載の発明で使用するのに適している。ハイスループットの適用に特に適した1つのPCR技術は、エマルジョンPCR法と呼ばれるもの(emPCR(商標)法とも呼ばれる)を含む。
【0048】
エマルジョンPCR法の典型的な実施形態は、その中で反応を行うことができる水性液滴を作り出す2つの不混和性物質の安定なエマルジョンを作り出すことを含む。特に、PCR法で使用するのに適したエマルジョンの水性液滴は、油ベースの流体など別の流体内の不連続相と呼ぶことができるものの中で懸濁または分散した水ベースの流体などの第1の流体を含み得る。さらに、いくつかのエマルジョンの実施形態は、PCRなどの特定の処理方法に特に有用であり得るエマルジョンを安定化するのに働く界面活性剤を使用することができる。界面活性剤のいくつかの実施形態は、ソルビタンモノオレエート(Span(商標)80とも呼ばれる)、ポリオキシエチレンソルビタンモノオレエート(Tween(商標)80とも呼ばれる)、またはいくつかの好ましい実施形態ではジメチコンコポリオール(Abil(登録商標)EM90とも呼ばれる)、ポリシロキサン、ポリアルキルエーテルコポリマー、ポリグリセロールエステル、ポロキサマー、およびPVP/ヘキサデカンコポリマー(UnimerU−151とも呼ばれる)、またはより好ましい実施形態ではシクロペンタシロキサン中の高分子量シリコーンポリエーテル(Dow Corningから入手可能であるDC5225Cとも呼ばれる)などの非イオン性界面活性剤を含み得る。
【0049】
エマルジョンの液滴は、区画、マイクロカプセル、マイクロリアクター、微小環境と、または関連技術分野で通常使用される他の名称で呼ぶこともできる。水性液滴は、エマルジョンの構成成分または組成の組成、その中に含有される内容物、および使用する形成技術に応じてサイズが変動し得る。記載のエマルジョンは、その中でPCRなどの化学反応を行うことができる微小環境を作り出す。例えば、鋳型核酸および所望のPCR反応を行うのに必要な全ての試薬をカプセル化し、エマルジョンの液滴中に化学的に隔離することができる。いくつかの実施形態では、さらなる界面活性剤または他の安定化剤を使用して、上記に記載の液滴のさらなる安定性を促進することができる。液滴を使用してPCR法に特有の温度サイクル操作を実行してカプセル化核酸鋳型を増幅することができ、その結果、鋳型核酸の実質的に同一のコピーを多数含む集団が得られる。いくつかの実施形態では、液滴内にある集団は、「クローン性に隔離された」、「区画化された」、「隔絶された」、「カプセル化された」、または「局在する」集団と呼ぶことができる。この例においても、記載の液滴の一部または全部は、対象とする鋳型または核酸、試薬、標識、もしくは他の分子を付着させるためのビーズなどの固体基質をさらにカプセル化することができる。
【0050】
ここに記載の発明で有用なエマルジョンの実施形態は、大量並行の形で記載の化学反応を行うことを可能にする非常に高い密度の液滴またはマイクロカプセルを含み得る。増幅に使用されるエマルジョンおよび配列決定の適用のためのその使用のさらなる例は、それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、米国特許出願第10/861,930号;第10/866,392号;第10/767,899号;第11/045,678号に記載されている。
【0051】
また、核酸プライマーのセットを使用して、標的核酸を含む試料から選択された1つまたは複数の標的領域を増幅することを含む、配列決定用の標的特異的アンプリコンを生成する例示的な実施形態を記載する。さらに、試料は、配列変異体を含有することが知られまたは疑われる核酸分子の集団を含んでよく、プライマーを使用して、試料中の配列変異体を増幅し、その分布に対する洞察をもたらすことができる。
【0052】
例えば、特異的増幅によって配列変異体を特定し、核酸試料中の複数の対立遺伝子を配列決定するための方法を行うことができる。核酸に対して最初に、対象とする領域を取り囲む領域または核酸集団に共通するセグメントを増幅するように設計されたPCRプライマーの対による増幅を行う。上記に記載のエマルジョンベースの容器などの別々の反応容器中で、それぞれのPCR反応産物(アンプリコン)をその後さらに個々に増幅する。それぞれがアンプリコンの第1の集団の1つの構成要素に由来する、得られたアンプリコン(本明細書において第2のアンプリコンと呼ばれる)を配列決定し、異なるエマルジョンPCRアンプリコンからの配列の収集物を使用して、対立遺伝子頻度を決定する。
【0053】
記載の標的特異的増幅および配列決定法のいくつかの利点は、以前に実現されているより高いレベルの感度を含む。さらに、例えば454 Life Sciences Corporationによって提供されるPicoTiterPlate(登録商標)ウェルアレイと呼ばれるものを使用する実施形態などのハイスループット配列決定機器を使用する実施形態では、記載の方法を使用して、1回の実行または実験当たり100,000個を超えるまたは300,000個を超える異なるコピーの対立遺伝子を配列決定することができる。また、記載の方法は、1%以下の対立遺伝子変異体に相当し得る少量の対立遺伝子を検出する感度をもたらす。その方法の別の利点は、分析した領域の配列を含むデータを生成することを含む。重要なことに、分析される位置の配列についての事前の知識を有する必要はない。
【0054】
配列決定用の標的特異的アンプリコンのさらなる例は、全ての目的でその全体が参照により本明細書に組み込まれている、2005年4月12日に出願された「Methods for determining sequence variants using ultra−deep sequencing」という名称の米国特許出願第11/104,781号に記載されている。
【0055】
さらに、配列決定の実施形態は、ポロニー配列決定技術、ナノポアおよび他の単一分子検出技術、または可逆的ターミネーター技術と呼ばれるものであるSanger型の技術を含み得る。上記に記載のように、好ましい技術は、合成による配列決定法を含み得る。例えば、いくつかのSBSの実施形態は、核酸鋳型の実質的に同一のコピーの集団を配列決定し、典型的には、試料鋳型分子の所定の相補的な位置とアニールするように設計された1つもしくは複数のオリゴヌクレオチドプライマー、または鋳型分子に付着した1つもしくは複数のアダプターを使用する。プライマー/鋳型複合体は、核酸ポリメラーゼ酵素の存在下で、ヌクレオチド種を用いて提示される。ヌクレオチド種が、オリゴヌクレオチドプライマーの3’末端と直接隣接している、試料鋳型分子上の配列位置と対応する核酸種と相補的である場合、ポリメラーゼは、ヌクレオチド種を用いてプライマーを伸長する。あるいは、いくつかの実施形態では、プライマー/鋳型複合体は、一度に、対象とする複数のヌクレオチド種(典型的には、A、G、C、およびT)を用いて提示され、オリゴヌクレオチドプライマーの3’末端と直接隣接している、試料核酸分子上の対応する配列位置で相補的なヌクレオチド種が取り込まれる。記載の実施形態のどちらでも、ヌクレオチド種を(3’−O位置などで)化学的に遮断してさらなる伸長を防止することができ、次回の合成の前にはそれを脱遮断することが必要である。ヌクレオチド種を新生分子の末端に付加する工程が、プライマーの末端に付加する上記に記載の工程と実質的に同じであることも理解されるであろう。
【0056】
上記に記載のように、ヌクレオチド種の取り込みは、当技術分野で知られている様々な方法によって、例えば、ピロリン酸(PPi)の放出を検出することによって(それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、米国特許第6,210,891号;第6,258,568号;および第6,828,100号に記載の例)、またはヌクレオチドと結合した検出可能な標識を介して検出することができる。検出可能な標識のいくつかの例として、それだけに限らないが、質量タグおよび蛍光または化学発光標識がある。典型的な実施形態では、取り込まれていないヌクレオチドを、例えば洗浄することによって除去する。さらに、いくつかの実施形態では、取り込まれていないヌクレオチドに対して、例えば、全ての目的でその全体が参照により本明細書に組み込まれている、2007年6月28日に出願されたSystem and Method For Adaptive Reagent Control in Nucleic Acid Sequencingという名称の米国仮特許出願第60/946,743号に記載のアピラーゼ酵素を使用する分解などの酵素的分解を行うことができる。検出可能な標識を使用する実施形態では、その標識は、典型的には、(例えば、化学的切断または光退色によって)次の合成サイクルの前に不活性化されなければならない。次いで、上記に記載のように、鋳型/ポリメラーゼ複合体中の次の配列位置を、対象とする別のヌクレオチド種、または複数のヌクレオチド種を用いて問い合わせることができる。ヌクレオチド付加、伸長、シグナル取得、および洗浄の反復サイクルの結果、鋳型鎖のヌクレオチド配列が決定される。この例を継続して、典型的には、多数の実質的に同一の鋳型分子またはその集団(例えば、10、10、10、10、または10個の分子)を任意の1つの配列決定反応中で同時に分析して、確実な検出に十分である強いシグナルを実現する。
【0057】
さらに、いくつかの実施形態では、「対末端」配列決定戦略と呼ぶことができるものを使用することによって、読み取り長の能力および配列決定工程の質を向上させると有利となり得る。例えば、配列決定法のいくつかの実施形態は、高品質かつ確実な読み取りを得ることができる分子の全長に対して制限を有する。言い換えると、確実な読み取り長の配列位置の総数は、使用する配列決定の実施形態によっては、25、50、100、または150塩基を越えられない。対末端配列決定戦略は、リンカー配列によって中心部で連結した各末端に元の鋳型核酸分子の断片を含む分子の各末端(「タグ」末端と呼ばれることもある)を別々に配列決定することによって、確実な読み取り長を伸ばす。鋳型断片の元の位置関係が分かっており、したがって、配列読み取りのデータを再度組み合わせて、長い高品質の読み取り長を有する単一の読み取りにすることができる。対末端配列決定の実施形態のさらなる例は、それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、2006年6月6日に出願された「Paired end sequencing」という名称の米国特許出願第11/448,462号および2008年2月5日に出願された「Paired end sequencing」という名称の米国仮特許出願第60/026,319号に記載されている。
【0058】
上記に記載の方法の一部または全部を実装することができるSBS装置のいくつかの例は、電荷結合素子(すなわちCCDカメラ)などの検出素子、マイクロ流体チャンバーもしくはフローセル、反応基質、ならびに/またはポンプおよびフローバルブのうち1つまたは複数を含み得る。ピロリン酸ベースの配列決定の例をとると、装置の実施形態は、もともと低レベルのバックグラウンドノイズしか生じない化学発光検出戦略を使用することができる。
【0059】
いくつかの実施形態では、配列決定用の反応基質は、酸で腐食させて、それぞれが実質的に同一の鋳型分子の集団を保持できる何十万もの非常に小さなウェルを生じさせた繊維光学面板から形成されるPicoTiterPlate(登録商標)アレイと呼ばれるもの(PTP(登録商標)プレートとも呼ばれる)を含み得る。いくつかの実施形態では、実質的に同一の鋳型分子の各集団をビーズなどの固体基質上に配置することができ、その基質はそれぞれ、前記ウェルの1つの中に配置することができる。例えば、装置は、PTPプレートホルダー、ならびにPTPプレート上の各ウェルから放射された光子を収集することができるCCD型検出素子に流体試薬を供給するための試薬送達エレメントを含み得る。SBS型配列決定およびピロリン酸配列決定を行う装置および方法のさらなる例は、どちらも上記で参照により組み込まれている米国特許第7,323,305号および米国特許出願第11/195,254号に記載されている。
【0060】
さらに、上記に記載のemPCR(商標)工程などの1つまたは複数の試料調製工程を自動化する系および方法を使用することができる。例えば、マイクロ流体技術を使用して、emPCR処理用のエマルジョンを生成し、PCR温度サイクル操作を行い、配列決定用の核酸分子の調製に成功した集団を濃縮するための使い捨てできる低コストの溶液を供給することができる。試料調製用のマイクロ流体系の例は、全ての目的でその全体が参照により本明細書に組み込まれている、2007年5月4日に出願された「System and Method for Microfluidic Control of Nucleic Acid amplification and Segregation」という名称の米国仮特許出願第60/915,968号に記載されている。
【0061】
また、本発明のここに記載の実施形態の系および方法は、コンピュータシステム上での実行用に保存された、コンピュータで読み取り可能な媒体を使用したいくつかの設計、分析、または他の操作の実装形態を含み得る。例えば、検出されたシグナルを処理し、かつ/または処理および分析の実施形態がコンピュータシステム上に実装可能であるSBSの系および方法を使用して得られたデータを分析するいくつかの実施形態を下記で詳細に記載する。
【0062】
ここに記載の発明で使用するコンピュータシステムの例示的な実施形態は、ワークステーション、パーソナルコンピュータ、サーバや、任意の他の現在または将来のコンピュータなど任意の型のコンピュータプラットホームを含み得る。コンピュータは、典型的には、プロセッサ、オペレーティングシステム、システムメモリ、メモリ記憶素子、入出力制御装置、入出力素子や表示素子などの構成要素を含む。コンピュータの構成および構成要素が多数考えられ、キャッシュメモリ、データバックアップユニット、および多数の他の素子を含んでもよいことが関連分野の技術者に理解されるであろう。
【0063】
表示素子は、視覚的情報を供給する表示素子を含んでよく、典型的にはこの情報を論理的かつ/または物理的にピクセルのアレイとして構築することができる。入出力インターフェースを供給する様々な既知または将来のソフトウェアプログラムのいずれかを含み得るインターフェース制御装置を含めることもできる。例えば、インターフェースは、ユーザーに1つまたは複数の図示を提供する「グラフィカルユーザーインターフェース」と一般に呼ばれるもの(GUIと呼ばれることが多い)を含み得る。典型的には、インターフェースは、関連分野の技術者に知られている選択または入力の手段を使用してユーザーが入力を受け取ることを可能にする。
【0064】
同じまたは代替の実施形態では、コンピュータ上のアプリケーションは、「コマンドラインインターフェース」と呼ばれるもの(CLIと呼ばれることが多い)を含むインターフェースを使用することができる。CLIは、典型的にはアプリケーションとユーザーとのテキストベースの相互作用を提供する。典型的には、コマンドラインインターフェースは、出力を提示し、表示素子を介してテキストの行として入力を受け取る。例えば、いくつかの実装形態は、関連分野の技術者に知られているUnix(登録商標) Shell、またはMicrosoft.NETフレームワークなどのオブジェクト指向型プログラミングアーキテクチャを使用するMicrosoft Windows(登録商標) Powershellなどの「シェル」と呼ばれるものを含み得る。
【0065】
関連分野の技術者なら、インターフェースが、1つまたは複数のGUI、CLIまたはその組合せを含んでよいことを理解するであろう。
【0066】
プロセッサは、Intel Corporationによって製造されたCentrino(登録商標)、Core(商標)2、Itanium(登録商標)もしくはPentium(登録商標)プロセッサ、Sun Microsystemsによって製造されたSPARC(登録商標)プロセッサ、AMD社によって製造されたAthalon(商標)もしくはOpteron(商標)などの市販のプロセッサを含んでもよく、またはそれは利用可能でありもしくは利用可能となる他のプロセッサの1つでもよい。プロセッサのいくつかの実施形態は、マルチコアプロセッサと呼ばれるものを含んでもよく、かつ/または単一もしくはマルチコアの構成で並行処理技術を使用することを可能にする。例えば、マルチコアアーキテクチャは、典型的には2つ以上のプロセッサ「実行コア」を含む。この例において、各実行コアは、複数スレッドの並行した実行を可能にする独立したプロセッサとして機能することができる。さらに、関連分野の技術者なら、一般に32もしくは64ビットアーキテクチャと呼ばれるもの、または現在知られもしくは将来開発される可能性がある他のアーキテクチャ構成としてプロセッサを構成することができることを理解するであろう。
【0067】
プロセッサは、典型的にはオペレーティングシステムを実行し、そのシステムは、例えば、Microsoft CorporationのWindows(登録商標)型オペレーティングシステム(Windows(登録商標)XPやWindows(登録商標) Vista(登録商標)など);Apple Computer Corp.のMacOS Xオペレーティングシステム(7.5MacOS X v10.4「Tiger」や7.6MacOS X v10.5「Leopard」オペレーティングシステムなど);多数のベンダーもしくはオープンソースと呼ばれるものから入手可能なUnix(登録商標)またはLinux型オペレーティングシステム;別のもしくは将来のオペレーティングシステム;またはそのいくつかの組合せでよい。オペレーティングシステムは、よく知られている形でファームウェアおよびハードウェアと接続し、様々なプログラミング言語で書かれている可能性がある様々なコンピュータプログラムの機能を調整し実行する際にプロセッサを促進する。オペレーティングシステムは、典型的にはプロセッサとの協調の際に、コンピュータの他の構成要素の機能を調整し実行する。オペレーティングシステムはまた、すべて既知の技術に従って、スケジューリング、入出力制御、ファイルおよびデータ管理、メモリ管理、ならびに通信制御および関連サービスも提供する。
【0068】
システムメモリは、様々な既知または将来のメモリ記憶素子のいずれかを含み得る。例として、任意の通常入手可能なランダムアクセスメモリ(RAM)、常駐ハードディスクもしくはテープなどの磁気媒体、読み書きコンパクトディスクなどの光学媒体、または他のメモリ記憶素子がある。メモリ記憶素子は、コンパクトディスクドライブ、テープドライブ、可換型ハードディスクドライブ、USBもしくはフラッシュドライブ、またはディスケットドライブを含めた様々な既知または将来の素子のいずれかを含み得る。そのような型のメモリ記憶素子は、典型的にはそれぞれコンパクトディスク、磁気テープ、可換型ハードディスク、USBもしくはフラッシュドライブ、またはフロッピー(登録商標)ディスケットなどのプログラム記憶媒体(示さず)から読み取り、かつ/またはそれに書き込む。任意のこれらのプログラム記憶媒体、または現在使用され、もしくは後に開発される可能性がある他の媒体は、コンピュータプログラム製品とみなすことができる。理解されるであろうが、これらのプログラム記憶媒体は、典型的にはコンピュータソフトウェアプログラムおよび/またはデータを記憶する。コンピュータ制御論理とも呼ばれるコンピュータソフトウェアプログラムは、典型的にはシステムメモリおよび/またはメモリ記憶素子と併せて使用されるプログラム記憶素子中に記憶される。
【0069】
いくつかの実施形態では、その中に制御論理(プログラムコードを含めたコンピュータソフトウェアプログラム)が記憶されている、コンピュータで使用可能な媒体を含むコンピュータプログラム製品を記載する。制御論理は、プロセッサによって実行されたとき、プロセッサに本明細書に記載の機能を果たさせる。他の実施形態では、例えばハードウェアステートマシンを使用するハードウェア中にいくつかの機能が最初から実装されている。本明細書に記載の機能を果たすためのハードウェアステートマシンの実装は、関連分野の技術者には明らかであろう。
【0070】
入出力制御装置は、ヒトであれ機械であれ、ローカルであれリモートであれ、ユーザーから情報を受け取り処理する任意の様々な既知の素子を含むことができる。そのような素子には、例えば、モデムカード、ワイヤレスカード、ネットワークインターフェースカード、サウンドカード、または任意の様々な既知の入力素子用の他の型の制御装置がある。出力制御装置は、ヒトであれ機械であれ、ローカルであれリモートであれ、ユーザーに情報を提示するための任意の様々な既知の表示素子用の制御装置を含むことができる。ここに記載の実施形態では、コンピュータの機能的エレメントは、システムバスを介して互いに通信する。コンピュータのいくつかの実施形態は、ネットワークまたは他の型のリモート通信を使用して、いくつかの機能的エレメントと通信することができる。
【0071】
関連分野の技術者には明らかであろうが、機器制御および/またはデータ処理アプリケーションは、ソフトウェア中に実装されている場合、システムメモリおよび/またはメモリ記憶素子中にロードしそこから実行することができる。機器制御および/またはデータ処理アプリケーションの全部または一部は、読み取り専用メモリまたはメモリ記憶素子の同様の素子に存在してもよく、そのような素子は、機器制御および/またはデータ処理アプリケーションが最初に入出力制御装置を介してロードされることを必要としない。機器制御および/またはデータ処理アプリケーション、またはその一部は、実行に有利となるように、知られている形でプロセッサによってシステムメモリ、もしくはキャッシュメモリ、またはその両方へとロードできることが関連分野の技術者には理解されるであろう。
【0072】
また、コンピュータは、1つまたは複数のライブラリーファイル、実験データファイル、およびシステムメモリ中に格納されたインターネットクライアントを含んでもよい。例えば、実験データは、検出されたシグナル値や、1つまたは複数のSBS実験または工程と関連する他の値など、1つまたは複数の実験またはアッセイと関係するデータを含むことができる。さらに、インターネットクライアントは、ネットワークを使用して別のコンピュータ上のリモートサービスにアクセスすることを可能にするアプリケーションを含み得、例えば、一般に「ウェブブラウザ」と呼ばれるものを含み得る。この例において、いくつかの通常使用されるウェブブラウザには、Microsoft Corporationから入手可能なMicrosoft(登録商標)Internet Explorer7、Mozilla CorporationのMozilla Firefox(登録商標)2、Apple Computer Corp.のSafari1.2、または当技術分野で現在知られもしくは将来開発される他の型のウェブブラウザがある。また、同じまたは他の実施形態では、インターネットクライアントは、SBSアプリケーション用のデータ処理アプリケーションなど、ネットワークを介してリモート情報にアクセスすることを可能にする専門のソフトウェアアプリケーションを含み得、またはそのエレメントであり得る。
【0073】
ネットワークは、当業者によく知られている多数の様々な型のネットワークのうち1つまたは複数を含み得る。例えば、ネットワークは、通常TCP/IPプロトコルスイートと呼ばれるものを使用して通信するローカルまたは広域ネットワークを含み得る。ネットワークは、通常インターネットと呼ばれる、相互接続したコンピュータネットワークの世界規模のシステムを含むネットワークを含み得、または様々なイントラネットアーキテクチャを含んでもよい。関連分野の技術者なら、ネットワーク環境にある一部のユーザーが、一般に「ファイアウォール」と呼ばれるもの(パケットフィルタ、または境界保護素子と呼ばれることもある)を使用して、ハードウェアおよび/またはソフトウェアシステムを出入りする情報通信量を制御することを好む可能性があることも理解するであろう。例えば、ファイアウォールは、ハードウェアまたはソフトウェアのエレメントまたはそのいくつかの組合せを含んでよく、典型的には、例えばネットワーク管理者などのユーザーによって導入されるセキュリティーポリシーを実行するように設計される。
【0074】
b.ここに記載の発明の実施形態
上記に記載のように、ここに記載の発明は、知られている特定可能な配列組成を有するUIDエレメントの1つまたは複数の実施形態を試料と関連づけ、UIDエレメントの実施形態を、関連づけた試料の鋳型核酸分子と連結することを含む。いくつかの異なる試料のUID連結鋳型核酸分子をプールして単一の「複合」試料または組成物にし、次いでそれを効率よく処理して各UID連結核酸分子の配列データを得ることができる。各鋳型核酸の配列データにデコンボリューションをかけて、連結したUIDエレメントの配列組成および特定された元の試料との関連づけを特定する。例えば、複合組成物は、約384個の試料、約96個の試料、約50個の試料、約20個の試料、約16個の試料、約10個の試料、または他の試料数からの代表物を含み得る。研究の場面では、各試料を、異なる実験条件、治療、種、または個体と関連づけることができる。同様に、診断の場面では、各試料を、異なる組織、細胞、個体、状態、または治療と関連づけることができる。当業者なら、上記に挙げた試料数が例を挙げる目的のものであり、したがって限定するものとみなすべきでないことを理解するであろう。
【0075】
典型的には、試料を処理して配列データを得るほか、その配列データの解釈も行う系および方法を使用する。図1は、例えば上記に記載のPTP(登録商標)プレート基質を含み得る反応基質105を使用して配列決定工程を実行するのに使用される配列決定機器100を図示した例を示す。例えば処理用システムソフトウェアまたはファームウェアも実行でき、分析機能を果たすこともできるコンピュータ130も図1に図示されている。図1の例では、コンピュータ130は、実行用のシステムメモリ中にアプリケーション135を格納することもでき、そこでアプリケーション135は本明細書に記載のデータ処理機能の一部または全部を果たすことができる。実行用の他のコンピュータまたはサーバ型構造にアプリケーション135を格納し、ネットワークを介してリモート通信しまたは標準媒体により情報を転送するその機能の一部または全部を果たすことができることも理解されるであろう。例えば、複合的な試料中の処理された標的分子は、ユーザー101によって反応基質105上に添加され、または次いで配列決定機器100を使用していくつかの自動化された実施形態が大量並行の形式で配列決定して、各標的分子の配列組成を表す配列データを得ることができる。重要なことに、ユーザー101は、独立した研究者、大学や企業体などの任意のユーザーを含んでよい。この例において、配列決定機器100、反応基質105、および/またはコンピュータ130は、一般に上記に記載した実施形態の構成要素および特性の一部または全部を含み得る。
【0076】
好ましい実施形態では、各UIDエレメントの配列組成は容易に特定可能であり、配列決定工程から導入されたエラーに抵抗性がある。UIDエレメントのいくつかの実施形態は、天然に存在する配列との配列類似性を最小限しか有さない核酸種の一意的な配列組成を含む。あるいは、UIDエレメントの実施形態は、天然に存在する配列との配列類似性をある程度含んでもよい。
【0077】
また、好ましい実施形態では、鋳型核酸分子および/または鋳型分子と連結したアダプターエレメントのいくつかの特徴と比べて各UIDエレメントの位置が分かる。各UIDの位置が分かっていることは、配列データ中でUIDエレメントを見つけ、考えられるエラーについてUIDの配列組成を解釈し、その後元の試料と関連づけるのに有用である。
【0078】
例えば、UIDエレメントとの位置関係のアンカーとして有用ないくつかの特徴には、それだけに限らないが、鋳型分子の長さ(すなわち、UIDエレメントは5’または3’末端からの非常に多数の配列位置にあることが知られている)、(下記でより詳細に記載する)キーエレメントなどの認識可能な配列マーカー、および/またはUIDエレメントと隣接して位置する1つもしくは複数のプライマーエレメントがあり得る。この例において、キーおよびプライマーエレメントは、典型的には複合組成物中で試料ごとに様々とならない既知の配列組成を一般に含み、UIDエレメントを探索する位置基準としてそれを使用することができる。アプリケーション135によって実装されている分析アルゴリズムをコンピュータ130上で実行して、得られた配列データを、各UID連結鋳型について分析して、より容易に認識可能なキーおよび/またはプライマーエレメントを特定し、それらの位置から推測して、UIDエレメントの配列を含むことが推定される配列領域を特定することができる。次いで、アプリケーション135は、推定される領域の配列組成および隣接領域中のおそらくいくらか離れている配列組成を処理して、UIDエレメントおよびその配列組成をはっきりと特定することができる。
【0079】
また、下記で詳細に記載するように、いくつかの実施形態では、各キーエレメントおよび/または1つもしくは複数のプライマーエレメントから得られた配列データを分析して、配列決定実行について相対的なエラー率の程度を決定することができる。次いで、UIDエレメントについて得られた配列データの分析でエラー率の程度を使用することができる。例えば、エラー率が過剰であり、所定の閾値を上回る場合、同様のエラー率が、UIDエレメントについて得られた配列データ中に存在することも想定でき、したがって、鋳型全体の配列データを疑わしいとしてフィルタにかけて除去することができる。さらに、UIDエレメントが直鎖鋳型分子の各末端と連結している実施形態では、各末端についてエラー率を明らかにし、非対称的に分析することができる。重要なことに、いくつかの実施形態、特に「長い」読み取り長(すなわち、約100塩基対以上の長さ)を得ることができる配列決定技術では、配列データ中のエラー率が5’末端と3’末端の間で異なる可能性があることが理解されるであろう。
【0080】
好ましい実施形態では、UIDエレメントは、鋳型核酸分子の末端と作動的に連結することができるアダプターと関連している。典型的なハイスループット配列決定の適用では、鋳型核酸分子が直鎖であり、アダプターがその各末端と連結できることが望ましい。図2Aおよび2Bは、1つまたは複数のUIDエレメントを含む、様々な適用のためのアダプター組成の実施形態を図示した例を示す。しかし、異なる増幅および配列決定戦略で様々なアダプターの構成を使用できることが理解されるであろう。図2Aは、ゲノムライブラリーの増幅および配列決定で使用するのに適したアダプターの実施形態を含むアダプターエレメント200を図示した例を示す。アダプターエレメント200が、本明細書に記載のアダプターエレメントとは独立に標的特異的配列とともに独立して増幅された鋳型分子のライブラリーにも適していることも理解されるであろう。アダプターエレメント200は、プライマー205、キー207、およびUID210を含むいくつかの構成成分を含む。また、図2Bは、アンプリコンの増幅および配列決定で使用するのに適したアダプター220の一実施形態を図示した例を示す。アダプターエレメント220は、プライマー205、キー207、UID210を含む、アダプター200と類似したいくつかの構成成分を含み、標的特異的エレメント225が付加されている。図2Aおよび2Bで示す構成成分の相対的な配置が例示する目的のものであり、限定するものとみなすべきでないことが理解されるであろう。
【0081】
いくつかの代替の実施形態では、UID210エレメントは、上記に記載のアダプターエレメントと関連していない。むしろ、UID210エレメントを、すでにアダプターの付いた鋳型分子、またはアダプターの付いていない鋳型分子と独立に連結することができる別々のエレメントとみなすことができる。この戦略は、いくつかの状況で、特定のステップまたはアッセイに伴う負の作用を回避するのに有用となり得る。例えば、いくつかの実施形態では、増幅ステップからコピーを作製した後、実質的に同一の鋳型分子の各集団とUID210エレメントをライゲートすると有利となり得る。増幅後にアダプターの付いた鋳型分子とUIDエレメントを連結することによって、増幅法によって導入されるエラーが回避される。この例において、ポリメラーゼを使用するPCR増幅法は、使用するポリメラーゼまたはポリメラーゼブレンドの型(すなわち、ブレンドは「忠実度の高い」ポリメラーゼおよび「校正」能を有するポリメラーゼと呼ぶことができるものの混合物を含み得る)および増幅サイクル数に少なくとも一部基づく特定のエラー導入率を有することが知られている。
【0082】
配列決定用に調製された直鎖鋳型分子の各末端でのアダプター200または220の一実施形態など、アダプター200または220の複数の実施形態を各鋳型分子とともに使用できることも理解されるであろう。しかし、いくつかの実施形態では、アダプター200または220内のエレメントの配置を、5’末端でのアダプター200または220中のエレメントの配置に対して3’末端で逆にすることができる(すなわち、アダプター200または220のエレメントは図2Aまたは2Bで図示した例から回文構造の配置にある)。例えば、エレメント220の実施形態は、複合組成物中のアンプリコンライブラリーの実質的に全ての鋳型分子の各末端上に位置づけることができ、したがって、UID210の2つの実施形態を組み合わせて、下記でより詳細に論じる特定に使用することができる。
【0083】
プライマー205は、エマルジョンPCRの実施形態に関して上記に記載したようなプライマー種(またはプライマー対のプライマー)(すなわちプライマーAおよびプライマーB)を含んでよい。また、プライマー205は、やはり上記に記載のSBS配列決定反応に使用されるプライマー種を含んでもよい。さらに、プライマー205は、エマルジョンPCRにもSBS配列決定工程にも使用可能な二連PCR/配列決定プライマーと呼ばれるものを含んでよい。キー207は、4つのヌクレオチド種(すなわちA、C、G、T)の組合せなどヌクレオチド種の短い配列を指す「識別用キー配列」と呼ぶことができるものを含んでよい。典型的には、キー207を配列データの品質管理に使用することができ、例えばキー207をプライマー205と直接隣接または近接して位置づけ、既知配列の配置における4つの各ヌクレオチド種(すなわちTCAG)の1つを含んでよい。したがって、配列法の忠実度は、配列データでキー207における4つの各ヌクレオチド種について表されるはずであり、4つの各ヌクレオチド種が忠実に表される場合に品質管理基準を通過することができる。例えば、キー207から得られた配列データで表されるヌクレオチド種の1つのエラーから、そのヌクレオチド種と関連する、配列決定工程における問題が示唆され得る。そのようなエラーは、配列決定機器100の1つまたは複数の構成要素の機械的失敗、低品質または試薬の供給、操作スクリプトエラー、または起こり得る系統的な型のエラーの他の根源に由来するものであり得る。したがって、そのような系統的な型のエラーがキー207中で検出された場合、その鋳型分子の実行で得られた配列データは、品質基準を通過することができず、典型的には拒絶される。
【0084】
DNA断片のライブラリー全体にキー207の同じ識別用配列を使用することができ、あるいは異なる配列組成を異なる目的でライブラリーの一部と関連づけることができる。プライマー205およびキー207と関連するプライマーおよびキーエレメントのさらなる例は、上記で参照により組み込まれている米国特許出願第10/767,894号に記載されている。
【0085】
標的特異的エレメント225は、ゲノムの領域を特異的に認識する配列組成を含む。例えば、標的特異的エレメント225をプライマー配列として使用して、ゲノム、組織試料、不均一な細胞集団または環境試料の中で認められる領域など、配列決定する特定の標的領域のアンプリコンライブラリーを増幅し作製することができる。これらには、例えば、PCR産物、候補遺伝子、突然変異ホットスポット、進化上のまたは医学的に重要な可変領域が含まれ得る。それは、可変または変性増幅プライマーを使用することによって全ゲノム増幅を行い、その後全ゲノム配列決定を行うような適用に使用することもできる。二連プライマーでの標的特異的配列の使用を記載しているさらなる例は、全ての目的でその全体が参照により本明細書に組み込まれている、2005年4月12日に出願された「Methods for determining sequence variants using ultra−deep sequencing」という名称の米国特許出願第11/104,781号に記載されている。
【0086】
UID210のいくつかの実施形態は、複合的な試料中における比較的少数の試料の関連づけで使用するのに特に適し得る。特に、複合的な試料中で特定する関連づけが少数しか存在しないとき、各試料を、導入されたエラーを容易に検出し訂正できるほど互いに十分に一意的である配列組成を含むUID210の別個の実装形態と関連づける。いくつかの実施形態では、下記でより詳細に記載するように、互換性のあるUID210配列エレメントの群をまとめて「セット」にする。例えば、UID210エレメントのセットは、最大14個の試料との関連づけを一意的に特定するのに使用することができる14個の構成要素を含み得、各構成要素を単一の試料と関連づける。
【0087】
特定する関連づけの数が増えるにつれて、設計基準および所望の特性を満たす、各関連づけについてのUID210の別個の実施形態を設計することがますます難しくなることが理解されるであろう。そのような場合、複数のUID210エレメントを組み合わせて使用して、鋳型分子をその元の試料と一意的に関連づけると有利となり得、UID210の一実施形態を、直鎖鋳型分子の各末端に位置づけることができる。例えば、鋳型分子から得られた配列データと元の試料との特定する関連づけの数が大きくなりすぎると、UID210の所与の必要な設計パラメーターおよび特性を受け入れられない可能性がある。特に、多くの実施形態では、試料の数から、特定の数のフローサイクルの反復およびUIDエレメントが占める配列位置の数を含む設計基準にとって望ましくないほど長いUID210の配列の長さが必要となるとき、各関連づけについて別個のUIDエレメントを使用することは望ましくない。この例において、「長い」読み取り長が得られる配列決定技術の実施形態では、UID210は、最大10個の配列位置を含んでよい。あるいは、配列決定技術の他の実施形態では配列位置約25〜50個の比較的短い読み取り長を得ることができ、したがって鋳型分子の読み取り長を最適化するにはUID210が短いことが望ましい。この例において、UID210は、少なくとも一部は適用に応じて最大4個の配列位置、最大6個の配列位置、または最大8個の配列位置を含む短い読み取り長で設計することができる。
【0088】
上記に記載のように、少数と多数のどちらの関連づけにも適したUID210の設計および実装の実施形態は、それぞれが好ましい設計基準および特性を満たすUID210の「セット」を使用することである。正確なエラーの検出および訂正の特徴を可能にする配列組成を有するUID210エレメントの設計などのいくつかの適用では、ここに記載の「セット」戦略を使用することが望ましい。例えば、下記でより詳細に記載するように、セット中のUIDエレメントの配列組成は、エラーの検出および訂正を可能にするために、互いに十分異なっていなければならず、それによって、特定のセットに利用可能な互換性のある構成要素が限定される。しかし、複数セットのUID210構成要素を鋳型分子と組み合わせて使用することができ、この場合各セットの構成要素は異なる相対的位置にあり、したがって容易に解釈可能である。
【0089】
上記に記載の特定する関連づけが多数である問題を克服するために、UID210エレメントのセットの2つ以上の構成要素を組み合わせて使用することができる。例えば、UID210エレメントのセットは、10merの配列長を含む、10、12、14個または他の個数の構成要素を含んでよい。いくつかの実施形態では、2つのUID210エレメントを各鋳型分子と関連づけ、それを組み合わせて使用して最大144個の異なる関連づけを特定することができる(すなわち、エレメント1で使用する12個のUID構成要素にエレメント2で使用する12個のUID構成要素を掛けると、関連づけを一意的に特定するのに使用することができるUIDエレメント1および2の144通りの組合せが考えられる)。
【0090】
関連分野の技術者なら、鋳型分子と関連づけた各UID210エレメントがセットの総数のUID構成要素のサブセットを含み得る代替の実施形態を使用する(すなわちセットの構成要素の一部を使用する)ことができることを理解するであろう。言い換えると、完全なセットの12個の構成要素のうち、8個だけを1つのエレメントの位置で使用することができる。UID構成要素のサブセットを使用することが望ましいことがある理由がいくつかあり、それには、特定する関連づけの数を少なくする(すなわち組合せの数を少なくする)必要があること、設備やソフトウェアの制限などの物理的もしくは実際的な実験条件、またはエレメントの位置におけるセットのUID構成要素の好ましい組合せが含まれる。例えば、第1のエレメントは、セットの12個のUID構成要素を全て使用することができ、第2のエレメントは、同じまたは異なるセットの8個のUID構成要素のサブセットを使用することができ、それによって96通りの考えられる組合せが得られる。
【0091】
組合せ戦略で使用するUID210エレメントは、鋳型分子の位置に対して様々な配置で構成することができる。例えば、2個のUID210エレメントを組み合わせて利用して各鋳型分子とその元の試料の関連づけを特定する戦略は、直鎖鋳型分子の各末端に位置するUIDエレメント(すなわち一方は5’末端にあり他方は3’末端にあるUID210エレメント)を含み得る。この例において、各UID210エレメントは、上記で論じた標的特異的アンプリコンまたはゲノムライブラリー配列決定戦略で使用されるアダプター200または220などのアダプターエレメントと関連づけることができる。したがって、鋳型分子と関連する配列データは、アンプリコンの各末端にUIDエレメントの配列組成を含むはずである。次いで、UIDエレメントの組合せを使用して、配列データを鋳型分子の元の試料と関連づけることができる。
【0092】
いくつかの代替の実施形態では、UID210エレメントを、上記に記載の直鎖鋳型分子の各末端にあるアダプターエレメント中に組み込むことができる。しかし、鋳型分子の読み取り長は、配列決定技術が取り扱えるより長くなり得る。そのような場合、独立して鋳型分子を各末端から配列決定する(すなわち各末端について別々に配列決定を実行する)ことができ、その末端と関連するUID210エレメントを、単一のUID210識別子として使用することができる。
【0093】
さらに、いくつかの実施形態では、試料1つ当たりに複数のUID210エレメント、またはUID210エレメントの複数の組合せを割り当てることが望ましい可能性がある。そのような戦略は、UID210エレメント自体を含み得る様々な根源によって導入される、考えられる意図しないバイアスから保護する重複をもたらすことができる。例えば、鋳型分子の集団を有する試料を、それぞれが関連づけ用の独自のUID210エレメントを使用する部分試料に細分することができる。そのような場合、試料の鋳型分子の同じ集団についての異なるUID210エレメントの重複から、正しい関連づけが特定されるという大きな確実性がもたらされ、またはそのエラーが大きすぎて関連づけの正しい特定が確実にできないかどうかが示される。
【0094】
一般に上記に記載したように、ここに記載の発明の実施形態は、鋳型分子と、それから得られた配列データと元の試料との関連づけを特定する目的で各鋳型分子と作動的に連結した1つまたは複数のUID210エレメントを含む。UIDエレメントの1つまたは複数の実施形態は、それだけに限らないがライゲーション技術を含めた当技術分野で知られている様々な方法を使用して、アダプターの1つまたは複数の構成成分および鋳型分子と作動的に連結することができる。核酸分子を互いにライゲートするための方法は当技術分野で一般に知られ、その方法では、付着末端または平滑末端ライゲーションと呼ばれるもののためのリガーゼ酵素を使用する。ライゲーションを使用してアダプターエレメントを鋳型分子と連結するさらなる例は、それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、2004年1月28日に出願された「Method for preparing single−stranded DNA libraries」という名称の米国特許出願第10/767,894号、および2008年2月27日に出願された「System and Method for Improved Processing of Nucleic Acids for Production of Sequencable Libraries」という名称の米国仮特許出願第60/031,779号に記載されている。例えば、大きな鋳型核酸または全ゲノムDNA試料を、機械的手段(すなわち噴霧化、超音波処理)または酵素的手段(すなわちDNアーゼI)によって断片化することができ、得られた各断片の末端を、アダプターエレメントと互換性があるように加工する(すなわち、BAL32ヌクレアーゼやマングビーンヌクレアーゼなどのエキソヌクレアーゼと呼ばれるものを使用して加工する)ことができ、各断片を1つまたは複数のアダプターエレメントと(すなわちT4DNAリガーゼを使用して)ライゲートすることができる。この例において、例えばアダプターの3’末端と断片の5’末端との選択的結合などによって、各アダプターエレメントを一方向に断片とライゲートする。
【0095】
いくつかの実施形態では、キットの形でUID210エレメントをユーザー101に提供することができ、そのキットは、図2Aおよび2Bに図示されているように、組み込まれたUID210エレメントを含むアダプターを含み得る。または、キットは、ユーザー101が所望するように組み込むことを可能にする独立したエレメントとしてUID210を含み得る。
【0096】
上記に記載のように、UID210の実施形態は、それだけに限らないが、a)各UIDエレメントが、合成またはフローサイクルを最小限の数しか必要としない最小限の配列長を含むこと、b)各UIDエレメントが配列独自性を含むこと、c)各UIDエレメントが、導入されたエラーに対する抵抗性を含むこと、およびd)各UIDエレメントが増幅方法(PCRやベクター中へのクローン化など)に干渉しないことを含むいくつかの好ましい特性または設計基準を含むべきである。
【0097】
また、UIDエレメント設計のいくつかの実施形態は、i)「ヘアピン」(「ヘアピンループ」または「ステムループ」とも呼ばれる)および「プライマーダイマー」と呼ばれるものの形成に抵抗するように選択されるUIDの配列組成;ii)UIDエレメントが好ましい融解温度(すなわち40℃)および/またはギブズ自由エネルギー(すなわち−1.5のΔGカットオフ)の特性を含むことの一部または全部を含む核酸の物理的な特性または設計基準を考慮することもある。いくつかの望ましい特性の態様およびUID設計に対するその影響を下記でより詳細に記載する。
【0098】
UIDエレメントの重要な特性の1つは、それが他の特徴的な要件の必要を満たすのに必要な最小限の数の塩基または配列位置を含むべきであることである。例えば、各UIDエレメントは、鋳型分子/配列データとその元の試料との間の所望される数の関連づけを一意的に特定するのに必要な最小限の配列長を含むべきである。所望される数の関連づけは、少なくとも12個の異なる試料、少なくとも96個の異なる試料、少なくとも384個の異なる試料、または将来企図し得るそれより多い数の試料と関連する鋳型分子/配列データの特定を含み得る。言い換えると、UIDの配列長は、鋳型分子の読み取り長の位置の数を保存するために必要な長さ(すなわち「配列の不動産(sequence real estate)」と呼ぶことができるもの)より長くするべきでない。さらに、最小限の配列長は、各UIDエレメントの配列データを得るのにヌクレオチド種のセットの最小限の数のフローサイクルを費やし、または必要とすべきである。UIDエレメントの配列データを得るのに必要なヌクレオチド種のフローサイクルの数を最小限にすると、試薬コスト、機器使用(すなわち処理時間)、データの品質、および読み取り長における利点がもたらされる。例えば、それぞれのフローサイクルを追加すると、CAFIEエラーの導入の確率、および試薬の使用が増大する。この例において、10merの各UIDエレメントが、各UIDエレメントの配列データを得るのに5回のヌクレオチド種のフローサイクルしか必要としないことが好ましい。
【0099】
別の重要な特性は、各UIDエレメントの配列独自性を含む。本明細書において「配列独自性」という用語は一般に、各配列が、比較の対象である他の全てのUID配列と容易に認識可能であるような、複数のUID配列間の区別可能な違いを指す。特に、各UIDエレメントは、導入されたエラーの容易な検出およびエラーの一部または全部の訂正を可能にする程度の配列独自性を含むことが必要である。さらに、各UIDエレメントに反復した配列組成がなく、それが制限酵素によって認識される配列組成を含むべきでないことが一般に好ましい。言い換えると、UIDエレメントが、ヌクレオチド種の同じ組成を有する連続したモノマーを含むことは望ましくない。例えば、各UIDエレメントの配列独自性の好ましい実施形態は、10merのエレメント(すなわち全部で10個の配列位置)において、エラーが導入された最大3個の配列位置の検出およびエラーが導入された最大2個の配列位置の訂正を可能にする。当業者なら、導入されたエラーが、「挿入」、「欠失」、「置換」、またはそのいくつかの組合せ(すなわち、同じ配列位置における挿入と欠失の組合せが置換であるように見え、単一のエラー事象としてカウントされる)と呼ばれるものを含む可能性があることが理解されるであろう。また、エラーの検出および訂正のレベルは、UIDエレメントの配列長に少なくとも一部は依存する可能性がある。さらに、UID210の外側(すなわち上流または下流)にある導入されたエラーは、UID210の配列組成の解釈に影響がある可能性がある。このことは、UID特定用の配列データを解読または分析する場面で、下記にさらに論じる。
【0100】
やはり望ましいさらなる特性は、導入されたエラーに対する抵抗性を含む。例えば、鋳型分子や他の配列エレメントなどの核酸配列中のモノマー反復は、配列読み取り中にエラーを引き起こす可能性がある。そのエラーは、反復したモノマーの数の提示または呼び出しの過不足を含み得る。したがって、UIDエレメントが、近くにある配列エレメントの隣接したモノマーと同じヌクレオチド種で開始または終了(すなわち配列エレメントまたは構成成分間でモノマー反復を生成)しないことが望ましい。この例において、図2Aおよび2Bに図示したキー207など、近くにある配列エレメントは、「G」ヌクレオチド種で終了する可能性がある。したがって、UID210などのUIDエレメントは、反復した「G」種からエラーが導入される可能性の増大を回避するには、同じ「G」ヌクレオチド種で開始すべきでない。
【0101】
SBSの場面で特に関連するエラーの別の根源は、「繰り越し」または「不完全伸長」作用と呼ばれるもの(CAFIE作用と呼ばれることもある)を含む。例えば、試料の核酸分子の各増幅集団における鋳型核酸分子の小さな分画(すなわち核酸分子鋳型から増幅された実質的に同一のコピーの集団)が、その集団における鋳型核酸分子の残りとの相同調性を失うまたはなくす(すなわち、鋳型分子の区画に関連する反応が、その集団に対する配列決定反応の実行において他の鋳型分子より早く進みまたは遅れる)。CAFIEの機構およびCAFIEエラーを訂正するための方法のさらなる記載は、全ての目的でその全体が参照により本明細書に組み込まれている、2007年2月15日に出願された「System and Method For Correcting Primer Extension Errors in Nucleic Acid Sequence Data」という名称のPCT出願第US2007/004187号にさらに記載されている。
【0102】
また、ある型のエラーが他の型より高頻度で起こり、かつ/または他の型のエラーより重大である可能性があることが理解されるであろう。例えば、欠失エラーは、置換エラーより著しい影響を有する可能性がある。したがって、より頻繁または有害な型のエラーに対処することをより重視するようにして各UIDエレメントを設計すると有利である。
【0103】
以前に述べたように、典型的には、UIDエレメントの配列組成をランダムにまたは非選択的に設計することは好ましくない。不適切に設計された2つのUIDエレメントおよびそのようなUIDエレメントを使用したエラーの検出/訂正の問題の潜在性を示す例を表1に提示する。
【0104】
【表1】

表1の例では、UIDエレメント1または2のどちらかが元の配列エレメントである場合、得られたUID配列として表されたUID配列がエラーを含む(すなわち、少なくとも1つのエラーの存在が検出される)ことが明らかである。しかし、どちらの単一エラーの結果でもその配列が得られる可能性があるので、UIDエレメント1またはUIDエレメント2のどちらが実際のUIDエレメントであったかは、得られたUID配列の配列組成からは明らかでない。言い換えると、UIDエレメント1で、2番目の位置の「C」ヌクレオチド種を「G」種に変換する1つのエラーが導入された可能性がある。UIDエレメント2で、3番目の位置の「C」ヌクレオチド種を「T」種に変換する1つのエラーが導入された可能性もある。配列情報を考慮すると、そのエラーは検出されるが、どちらのUIDエレメントが元のエレメントであったかを推論することは不可能であり、したがってそれを訂正することができない。したがって、得られたUID配列とUIDエレメント1または2のどちらかとの関連づけを積極的になすことはできず、したがってそのUIDエレメントの1つと連結した鋳型分子の元の試料を特定できず、得られた配列情報は捨てる必要があり得る。言い換えると、UIDエレメント1および2の設計は、記載の型の導入されたエラーから回復するほど互いに十分には異なっていない。
【0105】
不十分なUID設計の潜在的な結果を表2にさらに例示する。
【0106】
【表2】

表2の例は、PCR工程によって導入されたエラーの最も一般的な型の1つである、UIDエレメント1で3番目の位置のAヌクレオチド種がGヌクレオチド種に置換される事象によって、UID210エレメントの配列組成と正確に一致する潜在的な結果のさらに明らかな姿を示す。したがって、不十分なUID210設計の結果、検出不可能なエラーが生じ、そのエラーの結果、元の試料に配列データを誤って割り当てる可能性が高くなる。
【0107】
様々な方法を使用して、必要な設計基準を満たす配列組成を含むUIDエレメントを設計することができる。また、本明細書に記載の方法の一部または全部を使用してUID210を設計するのに、図1に図示したアプリケーション135を使用することができる。例えば、所与の長さについて考えられる全ての配列組成、および設計基準と関連するパラメーターのセットを考慮した他の配列組成との考えられるコンフリクトを算出する「ブルートフォース」法を使用することができる。この例において、エラーが導入された最大3個の配列位置が検出され、エラーが導入された最大2個の配列位置が訂正されるように10merのUIDエレメントの配列組成を算出することができる。
【0108】
上記に記載の特性を考慮した最も厳密な設計基準を満たす、UID210エレメントのセットの構成要素にとって好ましい配列組成の設計は、計算上の課題を提示する。当業者に知られている数学的方法を適用して、設計の制約を考慮した、セットの構成要素について考えられる配列組成を算出することができる。例えば、設計の制約を考慮して配列組成の考えられる全ての組合せの数学的変換を算出して、セット中の各UIDエレメントと他の構成要素との潜在的な互換性を決定する「エラーボール」または「エラークラウド」と呼ぶことができるものを得ることができる。潜在的なUIDエレメントの配列組成の互換性は、重複していないエラーボールとして視覚的に示すことができる。例えば、図3は、フローサイクルの数や配列長の要件など上記に記載の設計基準の一部または全部を含む、UID310、UID320、UID330、UID340、およびUID350について算出されたエラーボールの「空間潜在性」と呼ぶことができるものを示す図を提供する。図3に図示されているように、UID310、UID320、およびUID330のエラーボールは重複しておらず、したがって互換性のあるUID210エレメントの配列組成を表す。さらに、UID340はUID320および350と重複し、これは互換性のないUIDエレメントの配列組成を表している。しかし、UID340はUID310およびUID330と重複しておらず、したがって重複していない各UIDエレメントについては互換性のある配列組成を表す。
【0109】
あるいは、当技術分野で「動的計画法」の技術と呼ばれるものを使用する、より計算上効率のよい手法を使用することができる。本明細書において「動的計画法」という用語は一般に、重複する部分問題を含む問題および最適な構造を解明するための方法を指す。動的計画法の技術は、典型的には、アプリオリな知識を用いない方法より実質的に計算上効率がよい。
【0110】
動的計画法の技術のいくつかの実施形態は、核酸種の列などの文字列の「最小編集距離」と呼ぶことができるものを算出することを含む。言い換えると、セット中の各UID構成要素エレメントは、核酸種の組成を表している文字列とみなすことができる。本明細書において「最小編集距離」という用語は一般に、第1の列を第2の列に変化させるのに必要な点突然変異の最小数を指す。さらに、本明細書において「点突然変異」という用語は一般に、列中のある文字から別の文字への置換、列中への文字の挿入、または列からの文字の欠失と呼ばれる、列中の場所における文字組成の変化を指し、それを含む。例えば、UID210エレメントのセットの潜在的な各構成要素について、そのセットの他の全ての構成要素に対する最小編集距離を算出することができる。その後、最小編集距離を比較し、特定の基準を満たす他の全ての構成要素から十分に離れた最小編集距離を有するセットの各構成要素を少なくとも一部はベースにして、UID210エレメントのセットの構成要素を選択することができる。最小編集距離を算出する系および方法は、関連分野の技術者によく知られ、それをいくつかの形で実装することができる。
【0111】
ここに記載の発明の別の重要な態様は、データ内のUID210配列エレメントを「解読」または特定する配列データの分析を対象とする。いくつかの実施形態では、各実行からの配列データを処理しUID210を特定するほか、任意のエラーを検出または訂正する機能も果たすアプリケーション135としてコンピュータコード中にアルゴリズムを実装することができる。情報の列中のエラーを検出および訂正するための方法が、コンピュータの分野で、特に電子的に記憶および転送されたデータの領域で使用されていることを認識することが重要である。例えば、ある形態から別の形態へのデータビットの「反転」の問題が、データがネットワークを介して転送され、または電子媒体中に保存されたときに起こる。ビットの反転は記憶または転送されたデータの完全性に関する問題を提示し、それはここに記載の置換型のエラーと類似している。反転エラーの検出および訂正方法は、どちらも全ての目的でその全体が参照により本明細書に組み込まれている、J. F. Wakerly、「Detection of unidirectional multiple errors using low cost arithmetic codes」、IEEE Trans. Comput.、C−24巻、210〜212頁、1975年2月、およびJ. F. Wakerly、Error Detecting Codes, Self−Checking Circuits and Applications、Amsterdam、The Netherlands:North−Holland、1978年に記載されている。
【0112】
しかし、上記に記載の反転エラーを検出および訂正するための方法は、配列データ中のエラー、より具体的にはUIDエレメント中のエラーの検出および訂正の問題に適用できない。重要なことに、置換および欠失の問題のほか、位相の問題を生じさせ、各配列位置での情報の解釈を複雑にする置換の問題も取り扱うため、配列データ中の問題は実質的により複雑である。
【0113】
上記に記載のように、プライマー205、キー207、配列の5’および3’末端など他の容易に特定可能なエレメントに対して既知の位置にUID210を位置づけることができる。しかし、ちょうどUID210内に導入されたエラーが有害な作用を有するとき、UID210エレメントの領域の外側にあるエラーは、各UID210エレメントを特定する効率に影響を及ぼす可能性もある。さらに、UID210によって定義される領域の外側にあるいくつかの型のエラーは、UID210配列内のエラーに寄与し、その配列内のエラーとしてカウントされる可能性がある。例えば、挿入事象は、UID210エレメントの前にある(すなわち上流にある)配列データ中で起こり、またはその中に表される可能性があり、そのデータは解釈することが難しい可能性がある。この例において、挿入事象は、TCAG配列組成を含むキー207の末端における1つまたは複数のGヌクレオチド種の塩基の挿入を含み得、それは、配列位置でのヌクレオチド種が「過剰に呼び出された」ときに起こり得る。しかし、データを解釈するアプリケーションは、それが挿入事象であることを知らず、UID210の最初の配列位置に、異なるヌクレオチド種の代わりにGヌクレオチドが供給される置換事象の可能性を除外することができない。言い換えると、UID210の外側にあるエラーによって、アルゴリズムは、そのエラーが、そのアルゴリズムがUID210の最初の配列位置を探すはずである場所を移動させる挿入であるかどうか、またはそれが置換事象であるかどうかを決定する。
【0114】
上記からの例を継続すると、アルゴリズムまたはユーザーは、図2Aおよび2Bに図示されているように、キー207など別の既知のエレメントと直接隣接しているUID210エレメントを探すことができるが、キー207とUID210の間での1つの塩基の挿入は、典型的には、UID210に属するものとして割り当てられ得る(第1の挿入エラーとしてカウント)。さらに、アルゴリズムまたはユーザーは、UID210が特定の長さ(すなわち10個の配列位置)であると予想し、したがって、最初の挿入のために実際のUIDエレメントの最後の配列位置を切り捨てる(第2の欠失エラーとしてカウント)。したがって、UID領域の外側にあるエラーが、UID210の配列組成の発見および解釈に対して多大な影響がある可能性があることは明らかである。
【0115】
いくつかの実施形態では、UID210によって定義される領域の外側にあるエラーは、新生分子の3’末端で特に問題となる。例えば、配列決定実行が3’末端で長くなるほど、累積エラー(上記に記載のCAFIE型のエラーなど)およびエラーの導入率がますます高くなる可能性がある、5’から3’末端へのSBS配列決定の(すなわち新生分子の3’末端にヌクレオチド種を付加する)いくつかの実施形態。したがって、厳密な基準ではなく特定の仮定を使用してUID210を特定することはより実際的かつ有効であり得る。やはり上記に記載のように、5’に使用する仮定は、3’末端に使用する仮定と異なっていてよく、これを「非対称的」と呼ぶことができる。例えば、5’末端に3個を超える配列位置のエラーは存在しないことを仮定することができ、これは経験的な証拠と一致する。しかし、この例において、3’末端でのエラーの可能性が高いことにより、3’末端では、4個を超える配列位置のエラーは存在しないことを仮定することができる。各末端での検出可能なエラーにおける非対称的な違いのために、訂正可能なエラーの量も異なる可能性があることを推論することもできる。この例において、5’末端での訂正可能なエラーは上記に記載のように2個の配列位置であり得るが、3’末端での訂正可能なエラーは1個の配列位置だけであり得る。また、5’末端に使用することができないさらなる仮定を3’末端で使用することができる。そのような仮定は、UID210に近接している1つまたは複数の「呼び出されない」位置の存在を含み得る。
【0116】
この例において、アダプターエレメント200または220の実施形態は、図2Aまたは2Bで図示したものに対して回文構造の配置にある鋳型核酸の3’末端に存在する(上記に記載)。しかし、この例がエレメントの配置における違いを指し、各アダプターと関連するエレメントが同じ組成を有する必要はない(すなわち、3’末端が、最初のUIDエレメントの配列組成を含むことがあり、5’末端が、異なる配列組成を有するUIDエレメントを含むことがある)ことが理解されるであろう。いくつかの実施形態が必ずしも各アダプターにおいて同じエレメントの組成を含むわけではない(すなわち、5’末端のアダプターがUID210エレメントを含み、3’のアダプターがそれを含まないことがあり、またはその逆も同様である)ことがさらに理解されるであろう。また、導入されたエラーに対する抵抗性に関して、プライマーエレメント205の配列品質の固有の内部標準が存在してもよい。例えば、プライマー205の配列組成中に導入されたエラーは、そのそれぞれの標的に対するハイブリダイゼーション品質に負の影響を及ぼし、それによってPCR工程で増幅されず、したがって配列決定用の鋳型分子の集団中に表されない。プライマー205の配列組成は既知であり、配列決定に関連する何らかのエラーを除いてエラーは実質的にないと仮定することができるので、このプライマー205の固有の品質標準はUID210の発見に有用である。やはり上記に記載のように、キーエレメント207は、品質管理の目的に使用することができ、同じ場面で位置基準としても有用である。したがって、この例において、プライマー205および/またはキー207は、エレメント間の既知の位置関係を使用してUID210を特定するための容易に特定可能なアンカー基準点として使用することができる。例えば、アプリケーション135によって実装されているアルゴリズムなど、ユーザーまたはアルゴリズムは、その仮定を少なくとも一部ベースとして、キー207と直接隣接して、またはいくらか既知の距離だけ離れて位置するUID210を探すことができる。
【0117】
さらに、ユーザーまたはアルゴリズムが、推定されるUID210エレメントの配列組成を特定した後、エラーの特定および訂正のステップを行う。ここに記載の発明の実施形態は、セット中のUID210構成要素の配列組成に対して、推定されるUID210エレメントの配列組成を比較する。完全一致は、その元の試料と関連する。完全な一致が認められない場合、推定される配列と最も近い配列組成を有するUID210エレメントを分析して、起こり得た可能な挿入、欠失、または置換エラーを決定する。例えば、推定されるUID210エレメントと最も近いUID210エレメントを特定し、または推定されるUID210エレメントをエラーが多すぎるとみなす。この例において、UID210セットの全ての構成要素または選択構成要素の配列組成に対する、推定されるUID210エレメントの配列組成との最小編集距離を算出することができる。最大2個の配列位置のエラーを訂正する可能性がある、最大3個の配列位置のエラーを検出するパラメーターを使用して、最小編集距離を算出することができる。この例において、パラメーターの制約(すなわち検出/訂正)を考慮した、推定されるUID210エレメントと最も近いまたは最も短い最小編集距離を有するUID210構成要素を、推定されるUID210エレメントの配列組成として割り当てることができる。また、最小編集距離の計算から、3個の配列位置のエラーが起こっていたと決定された場合、推定されるUID210エレメントを、使用できず、元の試料と関連しないものとすることができる。
【0118】
当業者なら、UID210エレメントを組み合わせて使用したとき、典型的には各UID210エレメントを独立して分析することを理解するであろう。次いで、特定されたUID210エレメントの組合せを、元の試料に割り当てられた既知の組合せに対して比較して、配列データとその元の特定の試料との関連づけを特定することができる。
【0119】
好ましい実施形態では、上記に記載のように、コンピュータ130上での実行用に保存されたアプリケーション135を使用して、UID210発見アルゴリズムを実装する。さらに、同じまたは他のアプリケーションは、配列データから特定されたUID210を元の試料と関連づけるステップ、インターフェースを介してユーザーにその結果を提供するステップ、および/またはその後に分析もしくは使用するために電子媒体中にその結果を格納するステップを行うことができる。
【実施例】
【0120】
(実施例1)
限定された数の設計の制約を考慮したUIDエレメントの設計
検出、訂正、およびヘアピンの設計の制約を考慮して、潜在的なUIDエレメントの配列組成の設計を算出した。
【0121】
最初に各UIDエレメントについて10塩基対の配列長を算出し、1,048,576個の考えられるエレメントを得た。
【0122】
次に、その考えられるエレメントのうち、モノマー反復を有さず、フローサイクルを5回(20フロー)未満しか必要とせず、「G」ヌクレオチド種で開始しないUIDエレメントを算出し、34,001個の考えられるエレメントを得た。
【0123】
フィルタをかけて、40℃でヘアピンとなり、ΔG=−1.5であるものを除外するさらなるステップから、26,278個の考えられるエレメントが得られた。
【0124】
最後に、その考えられるエレメントのうち5,000個をランダムに選択して、2個の配列位置のエラーを訂正し、3個の配列位置のエラーを検出することができる、互換性のあるセットまたはクラスターを探し、以下のものを得た:
12個の構成要素からなる32,999セット
13個の構成要素からなる3,625セット
14個の構成要素からなる24セット
(実施例2)
UID配列エレメントを作り出す例示的なコンピュータコード
(1)エラークラウドをベースにしたもの、(2)編集距離をベースにしたもの、および(3)編集距離をベースにしたものを含む3つの技術のうち1つを使用する検索を実行し、候補選択を試みる前に「安全性マップ」を使用して検索でソフトウェアが有効に先読みできる編集距離を予め算出するさらなる効率戦略を用いたUIDCreate.Java(登録商標)クラスファイル。
【0125】
【数1】

【0126】
【数2】

【0127】
【数3】

【0128】
【数4】

【0129】
【数5】

【0130】
【数6】

【0131】
【数7】

【0132】
【数8】

【0133】
【数9】

【0134】
【数10】

【0135】
【数11】

【0136】
【数12】

【0137】
【数13】

【0138】
【数14】

【0139】
【数15】

【0140】
【数16】

【0141】
【数17】

【0142】
【数18】

上記のコンピュータコードが例を挙げる目的で提供され、数多くの代替の方法およびコード構造を使用できることが理解されるであろう。本明細書で提供される例示的なコードが、独立のアプリケーションとして実行し、またはさらなるコンピュータコードもしくは改変を伴わずに完全に実行することを意図していないことも理解されるであろう。
【0143】
(実施例3)
算出されたUID配列、クラスターID、およびフローグラムスクリプトの表
【0144】
【表3−1】

【0145】
【表3−2】

【0146】
【表3−3】

【0147】
【表3−4】

【0148】
【表3−5】

【0149】
【表3−6】

【0150】
【表3−7】

【0151】
【表3−8】

【0152】
【表3−9】

【0153】
【表3−10】

【0154】
【表3−11】

【0155】
【表3−12】

【0156】
【表3−13】

【0157】
【表3−14】

【0158】
【表3−15】

【0159】
【表3−16】

【0160】
【表3−17】

【0161】
【表3−18】

【0162】
【表3−19】

【0163】
【表3−20】

【0164】
【表3−21】

【0165】
【表3−22】

【0166】
【表3−23】

【0167】
【表3−24】

【0168】
【表3−25】

【0169】
【表3−26】

(実施例4)
UID特定のためにヌクレオチド配列を表し操作する例示的なコンピュータコード
【0170】
【数19】

【0171】
【数20】

【0172】
【数21】

【0173】
【数22】

以前に述べたように、上記のコンピュータコードが例を挙げる目的で提供され、数多くの代替の方法およびコード構造を使用できることが理解されるであろう。本明細書で提供される例示的なコードが、独立のアプリケーションとして実行し、またはさらなるコンピュータコードもしくは改変を伴わずに完全に実行することを意図していないことも理解されるであろう。
【0174】
様々な実施形態および実装形態を記載してきたが、上記のものが限定的ではなく例示的に過ぎず、ほんの一例として提示されていることが関連分野の技術者には明らかであるはずである。示した実施形態の様々な機能的エレメントの間で機能を分散させる多数の他のスキームが考えられる。任意のエレメントの機能は、代替の実施形態において様々な形で実施することができる。

【特許請求の範囲】
【請求項1】
鋳型核酸分子の起源を特定する識別子エレメントであって、
核酸エレメントから得られた配列データ中に導入されたエラーの検出および該導入されたエラーの訂正を可能にする配列組成を含む核酸エレメントであって、鋳型核酸分子の末端と連結するように構築され、該鋳型核酸分子の起源を特定する核酸エレメント
を含む識別子エレメント。
【請求項2】
前記配列組成が、最大3個の前記導入されたエラーの検出および最大2個の前記導入されたエラーの訂正を可能にする、
請求項1に記載の識別子エレメント。
【請求項3】
前記配列組成が最大10個の配列位置を含む、
請求項1に記載の識別子エレメント。
【請求項4】
前記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
請求項1に記載の識別子エレメント。
【請求項5】
前記配列組成が、最小限の配列長、最小限の数のフローサイクル、配列独自性、およびモノマー反復からなる群から選択されるパラメーターのセットをベースにした設計を含む、
請求項1に記載の識別子エレメント。
【請求項6】
前記配列組成が、融解温度、ギブズ自由エネルギー、ヘアピン形成、およびダイマー形成からなる群から選択されるパラメーターのセットをベースにした設計を含む、
請求項1に記載の識別子エレメント。
【請求項7】
前記核酸エレメントが、プライマーエレメントを含むアダプター中に組み込まれ、該アダプターが、前記鋳型核酸分子の末端と連結する、
請求項1に記載の識別子エレメント。
【請求項8】
前記核酸エレメントが、前記プライマーエレメントに対して既知の位置にある、
請求項7に記載の識別子エレメント。
【請求項9】
前記プライマーエレメントが、増幅プライマー、配列決定プライマー、または二連増幅−配列決定(bipartite amplification−sequencing)プライマーからなる群から選択される、
請求項7に記載の識別子エレメント。
【請求項10】
前記アダプターが品質管理エレメントを含む、
請求項7に記載の識別子エレメント。
【請求項11】
前記核酸エレメントが、前記品質管理エレメントに対して既知の位置にある、
請求項7に記載の識別子エレメント。
【請求項12】
前記鋳型核酸分子の起源が実験試料または診断試料を含む、
請求項1に記載の識別子エレメント。
【請求項13】
前記核酸エレメントが、それぞれが独自の配列組成を含む複数の互換性のある核酸エレメントを含むセットに属し、前記導入されたエラーの検出が、該セットの該互換性のある核酸エレメントの配列組成と関連する、
請求項1に記載の識別子エレメント。
【請求項14】
前記セットが14個の前記互換性のある核酸エレメントを含む、
請求項13に記載の識別子エレメント。
【請求項15】
鋳型核酸分子の起源を特定するための方法であって、
鋳型核酸分子から得られた配列データから第1の識別子配列を特定するステップと、
該第1の識別子配列中に導入されたエラーを検出するステップと、
該第1の識別子配列中に導入されたエラーを訂正するステップと、
該訂正された第1の識別子配列を、該鋳型分子と連結した第1の識別子エレメントと関連づけるステップと、
該訂正された第1の識別子配列と該第1の識別子エレメントの関連づけを使用して、該鋳型分子の起源を特定するステップと
を含む方法。
【請求項16】
鋳型核酸分子を配列決定して前記配列データを得るステップ
をさらに含む、請求項15に記載の方法。
【請求項17】
前記鋳型核酸分子が、複数の異なる起源由来の複数の鋳型分子を含む複合的な試料中に含まれる、
請求項15に記載の方法。
【請求項18】
前記第1の識別子配列中に導入されたエラーを最大3個検出するステップと、
該第1の識別子配列中に導入されたエラーを最大2個訂正するステップと
をさらに含む、請求項15に記載の方法。
【請求項19】
前記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
請求項15に記載の方法。
【請求項20】
前記検出するステップが、
前記識別子配列に隣接する1つまたは複数の配列領域における配列組成の1つまたは複数の特性を測定するステップと、
該測定された特性に由来する1つまたは複数の仮定を使用して前記導入されたエラーを検出するステップと
を含む、請求項15に記載の方法。
【請求項21】
前記第1の識別子エレメントが、プライマーエレメントを含むアダプター中に組み込まれ、該アダプターが、前記鋳型核酸分子と連結する、
請求項15に記載の方法。
【請求項22】
前記第1の識別子エレメントが、前記プライマーエレメントに対して既知の位置にある、
請求項21に記載の方法。
【請求項23】
前記プライマーエレメントが、増幅プライマー、配列決定プライマー、または二連増幅−配列決定プライマーからなる群から選択される、
請求項21に記載の方法。
【請求項24】
前記アダプターが品質管理エレメントを含む、
請求項21に記載の方法。
【請求項25】
前記第1の識別子エレメントが、前記品質管理エレメントに対して既知の位置にある、
請求項21に記載の方法。
【請求項26】
前記鋳型核酸分子の起源が実験試料または診断試料を含む、
請求項15に記載の方法。
【請求項27】
前記鋳型核酸分子から得られた配列データから第2の識別子配列を特定するステップと、
該第2の識別子配列中に導入されたエラーを検出するステップと、
該第2の識別子配列中に導入されたエラーを訂正するステップと、
該訂正された第2の識別子配列を、該鋳型核酸分子と連結した第2の識別子エレメントと関連づけるステップと、
前記訂正された第1の識別子配列と前記第1の識別子エレメントの関連づけと組み合わせて、該訂正された第2の識別子配列と該第2の識別子エレメントの関連づけを使用して、該鋳型分子の起源を特定するステップと
をさらに含む、請求項15に記載の方法。
【請求項28】
前記第2の識別子配列中に導入されたエラーを最大3個検出するステップと、
該第2の識別子配列中に導入されたエラーを最大2個訂正するステップと
をさらに含む、請求項27に記載の方法。
【請求項29】
前記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
請求項15に記載の方法。
【請求項30】
前記第1の識別子が、識別子の複数セットのうちの、互換性のある識別子の少なくとも1つのセットに属する、
請求項15に記載の方法。
【請求項31】
前記互換性のある識別子のセットが、前記導入されたエラーの検出および訂正を可能にする14個の識別子を含む、
請求項15に記載の方法。
【請求項32】
鋳型核酸分子の起源を特定するためのキットであって、
各核酸エレメントから得られた配列データ中に導入されたエラーの検出および該導入されたエラーの訂正を可能にする独自の配列組成をそれぞれが含む核酸エレメントのセットであって、それぞれの該核酸エレメントが鋳型核酸分子の末端と連結するように構築され、該鋳型核酸分子の起源を特定する核酸エレメントのセット
を含むキット。
【請求項34】
前記独自の配列組成が、最大3個の前記導入されたエラーの検出および最大2個の前記導入されたエラーの訂正を可能にする、
請求項32に記載のキット。
【請求項35】
前記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
請求項32に記載のキット。
【請求項36】
各核酸エレメントが、プライマーエレメントを含むアダプター中に組み込まれ、該アダプターが、前記鋳型核酸分子の末端と連結する、
請求項32に記載のキット。
【請求項37】
前記核酸エレメントが、前記プライマーエレメントに対して既知の位置にある、
請求項36に記載のキット。
【請求項38】
前記プライマーエレメントが、増幅プライマー、配列決定プライマー、または二連増幅−配列決定プライマーからなる群から選択される、
請求項36に記載のキット。
【請求項39】
前記アダプターが品質管理エレメントを含む、
請求項36に記載のキット。
【請求項40】
前記核酸エレメントが、前記品質管理エレメントに対して既知の位置にある、
請求項36に記載のキット。
【請求項41】
それぞれの前記核酸エレメントにおける前記導入されたエラーの検出が、前記セットの他の核酸エレメントの独自の配列組成と関連する、
請求項32に記載のキット。
【請求項42】
前記セットが14個の前記核酸エレメントを含む、
請求項41に記載のキット。
【請求項43】
コンピュータであって、該コンピュータは、該コンピュータに保存された実行可能なコードを含み、該実行可能なコードは、鋳型核酸分子の起源を特定するための方法を実行し、該方法は、
鋳型核酸分子から得られた配列データから識別子配列を特定するステップと、
該識別子配列中に導入されたエラーを検出するステップと、
該識別子配列中に導入されたエラーを訂正するステップと、
該訂正された識別子配列を、該鋳型分子と連結した識別子エレメントと関連づけるステップと、
該訂正された識別子配列と該識別子エレメントの関連づけを使用して、該鋳型分子の起源を特定するステップと
を含む、コンピュータ。
【請求項44】
前記鋳型核酸分子が、複数の異なる起源由来の複数の鋳型分子を含む複合的な試料中に含まれる、
請求項43に記載の方法。
【請求項45】
前記第1の識別子配列中に導入されたエラーを最大3個検出するステップと、
該第1の識別子配列中に導入されたエラーを最大2個訂正するステップと
をさらに含む、請求項43に記載の方法。
【請求項46】
前記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
請求項43に記載の方法。
【請求項48】
前記特定するステップが、
前記配列データにおける1つまたは複数のエレメントの既知の位置関係を使用して前記識別子配列の位置を決定するステップ
をさらに含む、請求項43に記載の方法。
【請求項49】
前記1つまたは複数のエレメントがプライマー配列を含む、
請求項48に記載の方法。
【請求項50】
前記検出するステップが、
前記識別子配列に隣接する1つまたは複数の配列領域における配列組成の1つまたは複数の特性を測定するステップと、
該測定された特性に由来する1つまたは複数の仮定を使用して前記導入されたエラーを検出するステップと
をさらに含む、請求項43に記載の方法。
【請求項51】
前記鋳型核酸分子から得られた配列データから第2の識別子配列を特定するステップと、
該第2の識別子配列中に導入されたエラーを検出するステップと、
該第2の識別子配列中に導入されたエラーを訂正するステップと、
該訂正された第2の識別子配列を、該鋳型分子と連結した第2の識別子エレメントと関連づけるステップと、
前記訂正された第1の識別子配列と前記第1の識別子エレメントの関連づけと組み合わせて該訂正された第2の識別子配列と該第2の識別子エレメントの関連づけを使用して、該鋳型分子の起源を特定するステップと
をさらに含む、請求項43に記載の方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2010−528608(P2010−528608A)
【公表日】平成22年8月26日(2010.8.26)
【国際特許分類】
【出願番号】特願2010−510347(P2010−510347)
【出願日】平成20年5月29日(2008.5.29)
【国際出願番号】PCT/US2008/006822
【国際公開番号】WO2008/150432
【国際公開日】平成20年12月11日(2008.12.11)
【出願人】(507331232)454 ライフ サイエンシーズ コーポレイション (11)
【Fターム(参考)】