説明

核酸配列データのプライマー伸長誤差を補正するためのシステムおよび方法

本発明は、テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正するための方法の一実施態様について、(a)配列決定反応において1つまたは複数のヌクレオチドの組込みに応答して生成された信号を検出するステップと、(b)この信号の値を生成するステップと、(c)第1パラメータおよび第2繰越パラメータを使用して位相同期誤差の値を補正するステップとを含むことを説明する。

【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本願は、2006年2月16日に出願された、米国仮特許出願第60/774,354号(発明の名称「System and Method for Correcting Primer Extension Errors in Nucleic Acid Sequence Data」)に関連し、この仮特許出願の優先権を主張し、この仮特許出願は、あらゆる目的のために、その全体が本明細書中に参考として援用される。
【0002】
発明の分野
本発明は、分子生物学の分野に関する。詳細には、本発明は、「合成による配列決定」(SBS)技術と一般に呼ばれる技術によって生成された核酸配列データの誤差の補正に関する。
【背景技術】
【0003】
発明の背景
合成による配列決定(SBS)は、一般に、核酸サンプル中の1つまたは複数のヌクレオチドの同一性または配列を判断するための方法であって、ヌクレオチド配列の組成が決定されるテンプレート核酸分子に対して相補的な単鎖ポリヌクレオチドの段階的な合成を含む方法を意味する。たとえば、SBS技術は、一般に、単一核酸(ヌクレオチドとも呼ばれる)種を、対応する配列位置におけるテンプレート分子の核酸種に対して相補的な新生ポリヌクレオチド分子に添加することによって機能する。新生分子に対する核酸種の添加は、一般に、先行技術で公知の多様な方法を使用して検出され、こうした方法としては、パイロシーケンシングと呼ばれる方法、または蛍光検出法、たとえば可逆的ターミネーターを使用する方法挙げられるが、これらだけに限らない。一般に、このプロセスは、完了するまで(つまり、すべての配列位置が表現されるまで)、またはテンプレートに対して相補的な所望の配列長さが合成されるまで繰り返される。SBS技術のいくつかの例は、特許文献1に記載されており、この特許は、本明細書で引用することにより、あらゆる目的で全体を本願に援用する;および米国特許出願第10/788,529号;第09/814,338号;第10/299,180号;第10/222,298号;第10/222,592号に記載されており、これらの特許出願は各々、本明細書で引用することにより、あらゆる目的で全体を本願に援用する。
【0004】
SBSのいくつかの実施態様では、オリゴヌクレオチドプライマーは、サンプルテンプレート分子の予め決められた相補的な位置までアニールするように設計される。プライマー/テンプレート複合体は、核酸ポリメラーゼ酵素の存在下で、ヌクレオチド種とともに提示される。ヌクレオチド種が、サンプルテンプレート分子上の配列位置に対応する核酸種に対して相補的であり、サンプルテンプレート分子が、オリゴヌクレオチドプライマーの3’末端に直接隣接する場合、ポリメラーゼは、ヌクレオチド種とともにプライマーを伸長する。あるいは、実施態様によっては、プライマー/テンプレート複合体は、対象となる複数のヌクレオチド種(一般に、A、G、C、およびT)とともに同時に提示され、オリゴヌクレオチドプライマーの3’末端に直接隣接するサンプルテンプレート分子上の対応する配列位置において相補的なヌクレオチド種が組み込まれる。上記の実施態様の何れの場合も、さらに伸長するのを防止するために化学的にブロックされ(たとえば、3’−O位置において)、次回の合成の前にブロック解除する必要がある。上記のとおり、ヌクレオチド種の組込みは、先行技術で公知の多様な方法で検出することができ、ピロリン酸塩(PPi)の放出を検出することによって(例は、特許文献2;特許文献3;および特許文献4に記載されており、これらの特許の各々は、本明細書で引用することにより、あらゆる目的で全体を本願に援用する)、またはヌクレオチドに結合された検出可能な標識を介して検出することができる。検出可能な標識のいくつかの例としては、マスタグ、および蛍光、または化学発光標識が挙げられるが、これらだけに限らない。代表的な実施態様では、組み込まれていないヌクレオチドは、たとえば洗浄により除去される。検出可能な標識が使用される実施態様では、検出可能な標識は、一般に、次の合成サイクルの前に不活性化する必要がある(たとえば、化学分解または光退色により)。次に、テンプレート/ポリメラーゼ複合体内の次の配列位置は、上記のとおり、別のヌクレオチド種または複数のヌクレオチド種で問い合わせることができる。ヌクレオチド添加、プライマー伸長、信号取得、および洗浄というサイクルが繰り返されると、テンプレート鎖のヌクレオチド配列が決定される。
【0005】
SBSの代表的な実施態様では、多量または集団の実質的に同じテンプレート分子(たとえば、10、10、10、10、または10分子)は、信頼するに足る強力な信号を達成するために、任意の1つの配列決定反応で同時に分析される。特定の反応の集団における実質的にすべてのテンプレート分子に関連する新生分子の「均質な伸長」と呼ばれる状態は、信号対雑音比を低くするために必要である。「均質な伸長」という用語は、本明細書で使用する場合、一般に、上記の実質的に同じテンプレート分子が、同じ反応ステップを均質に実行する伸長反応の関係または相を意味する。たとえば、テンプレート分子の集団に関連する各々の伸長反応は、関連する各々のテンプレート分子に関連する同じ配列位置で同じ反応ステップを行う場合、互いに同相または位相同期と説明し得る。
【0006】
しかし、関連技術の当業者は、各々の集団内のテンプレート分子の小画分は、集団内の他のテンプレート分子との位相同期を失うか、またはこうした位相同期から脱落することを理解するであろう(つまり、テンプレート分子の画分に関連する反応は、集団に関して実行される配列決定反応で、他のテンプレート分子より先に進むか、または遅れる(いくつかの例は、非特許文献1に記載されており、これは、本明細書で引用することにより、あらゆる目的で全体を本願に援用する)。たとえば、1つまたは複数のヌクレオチド種を1つまたは複数の新生分子に適切に組み込んで、配列を1つの位置だけ伸長する反応が失敗すると、後続の反応は、集団の他の部分の配列位置より遅延するか、または位相が一致しない配列位置になる。この作用は、本明細書では「不完全な伸長」(IE)と呼ぶ。あるいは、集団の他の部分の配列位置より先にあるか、または位相が異なる配列位置に、1つまたは複数のヌクレオチド種を組み込むことによって、新生分子を不適切に伸長することは、本明細書では「繰越」(CF)と呼ぶ。CFおよびIEの複合効果は、本明細書ではCAFIEと呼ぶ。
【0007】
不完全な伸長の問題に関連して、単独または何らかの組合せで生じ得るIEの一因となる可能性があるいくつかのメカニズムがある。IEの一因となる可能性があるメカニズムの一例としては、テンプレート/ポリメラーゼ複合体の部分集合に提示されるヌクレオチド種が欠如していることを含むことができる。IEの一因となる可能性があるメカニズムのもう1つの例としては、新生分子に組み込むために適切に提示されるヌクレオチド種を組み込むためのポリメラーゼ分子の部分集合が破損していることを含むことができる。IEの一因となる可能性があるメカニズムのさらに他の例としては、テンプレート/ポリメラーゼ複合体におけるポリメラーゼの活量の欠如を含むことができる。
【0008】
少なくとも部分的にSBS法におけるIE誤差の原因になる可能性があるさらに別のメカニズムの一例としては、Metzger(非特許文献2)が調査した循環可逆終了(CRT)と呼ばれる状態を含むことができ、その内容は、本明細書で引用することにより、あらゆる目的で全体を本願に援用する)。CRTでは、ヌクレオチド種は、単一ヌクレオチド種の組込み後に、新生分子がさらに伸長するのを防止する変性3’−O基(通常、キャップ、保護基、または終了暗号と呼ばれる)を有する。これらの保護基は、化学処理または光処理を含む様々な方法の1つによって除去できるように設計される。3’−O位置の脱保護(および3’−OH基の形成)後、新生分子は、別のヌクレオチド種によって伸長させることができる。しかし、位相非同期は、一部分の新生分子が、不完全な脱保護効果(不完全脱保護)によって保護状態を維持している場合に生じる。その後のサイクルでは、保護状態を維持している新生分子のこの部分は伸長せず、その結果、残りの集団の配列位置から脱落して、位相が異なる。しかし、その後の脱保護ステップでは、以前に不適切に残され、伸長を再開させ、新生分子からの信号を生成し、集団の他の部分との位相非同期状態を継続する保護基の少なくとも一部分の除去に成功し得る。当業者は、IEの一因となるその他の要素があり、したがって、上記の例に限定されないことを理解するであろう。
【0009】
本発明について本明細書に記載するシステムおよび方法は、こうした任意の単独または複合の原因またはメカニズムから生じ得るIE誤差の補正を目的とする。たとえば、不完全な脱保護および後続の成功した脱保護の結合によって生じるIE誤差の補正は、本発明の目的の1つである。
【0010】
CFの問題に関しては、CFの一因となる可能性があるメカニズムがいくつかり、これらは、単独で、または何らかの組合せで生じ得る。たとえば、可能性のある1つのメカニズムとしては、前のサイクルから残存する過剰なヌクレオチド種が挙げられる。これは、あるサイクルの終わりに実行される洗浄プロトコルが、すべてではないが、大部分のヌクレオチド種をサイクルから除去するために生じる可能性がある。この例では、その結果は、「G」ヌクレオチド種サイクル中に存在する「A」ヌクレオチド種の小画分を含み、相補的な「T」ヌクレオチド種が、テンプレート分子中の対応する配列位置に存在する場合、新生分子の小画分の伸長の原因になる可能性がある。繰越効果を生じる可能性があるメカニズムのもう1つの例としては、ポリメラーゼの誤差、たとえばテンプレート分子上のヌクレオチド種に対して相補的ではない新生分子中に、ヌクレオチド種が不適切に組み込まれることが挙げられる。
【0011】
少なくとも部分的にSBS法のCFの原因になる可能性があるさらにもう1つのメカニズムの一例は、Metzgerが調査した循環可逆終了(CRT)(非特許文献2、これは上記で引用することにより援用する)が挙げられる。この例では、IEに関して上記で述べたとおり、3’−O保護ヌクレオチド分子の調製は、ヌクレオチド分子のある画分が保護基を持たないか、または保護基を紛失した場合に使用し得る。保護基の紛失は、意図する脱保護ステップの前の配列決定プロセスでも発生し得る。こうした保護基が欠如している場合、新生分子によっては、一度に複数のヌクレオチド種によって伸長するであろう。新生分子の画分のこうした不適切な複数の伸長によって、これらの画分は、配列位置で先に移動し、集団の他の部分の配列位置と位相が異なることになる。したがって、保護されていないヌクレオチド、および/または早期に脱保護するヌクレオチドは、少なくとも部分的に、CRTを伴うSBS法のCFの一因となり得る。
【0012】
本明細書について本明細書に記載する実施態様のシステムおよび方法は、こうした単独または複合的な原因またはメカニズムから生じ得るCF誤差の補正を目的としている。たとえば、保護基の欠如によって生じるCF誤差の補正は、本発明の目的の1つである。
【0013】
さらに、本発明について本明細書に記載する実施態様のシステムおよび方法は、IE誤差およびCF誤差の両方の補正を目的とし、この両方のタイプの誤差は、同じ配列決定反応のある集団のいくつかの組合せで生じ得る。たとえば、IEおよびCFは各々、上記のとおり、単独または複合的な原因またはメカニズムから生じ得る。
【0014】
当業者は、IEおよびCF誤差の両方の可能性が、伸長反応の際に各々の配列位置で生じ得るため、結果として得られる配列データに明らかな累積効果を有する場合があることを理解するであろう。たとえば、この効果は、「実行」または「配列決定実行」とも呼ばれる一連の配列決定反応の終わりに向かって特に著しくなる場合がある。さらに、IEおよびCF効果は、SBS手法を用いて確実に配列決定し得るテンプレート分子の長さ(場合により「読込み長さ」と呼ばれる)に上限を与え、つまり、配列データの質は、読込み長さが増加するにつれて低下するからである。
【0015】
たとえば、SBSの1つの方法は、代表的な1回の実行で2500万を超える配列位置を有する配列データを生成することができ、これは、「Phred」の品質スコアの20以上に相当する(Phredの品質スコア20は、配列データが、99%以上の精度を有すると予測されることを意味する)。SBS法に関してPhred20の品質を有する全体の配列決定の処理量は、毛細管電気泳動技術を使用するSanger配列決定法として当業者に周知されている方法によって生成される配列データと比べて著しく多量だが、いまのところ、SBS法の実質的により短い読込み長さを犠牲している(非特許文献3;本明細書で引用することにより、あらゆる目的で全体を本願に援用する)。したがって、IEおよびCF誤差によって生じる配列データの劣化を防止または補正することによって、読込み長さの上限を増加すると、SBS法の全体的な配列決定処理量を増加することになるであろう。
【特許文献1】米国特許第6,274,320号明細書
【特許文献2】米国特許第6,210,891号明細書
【特許文献3】米国特許第6,258,568号明細書
【特許文献4】米国特許第6,828,100号明細書
【非特許文献1】Ronaghi,M.,PyroSequencing sheds on DNA Sequencing.Genome Res.11,3−11(2001年)
【非特許文献2】Metzger,Genome Res.2005 Dec;l5(12):1767−76
【非特許文献3】Margulies等,2005,Nature437:376−80
【発明の開示】
【発明が解決しようとする課題】
【0016】
したがって、核酸配列決定の合成による配列決定法によって生成された配列データにおけるIEおよび/またはCF誤差を補正することを目的としたシステムおよび方法を提供することが望ましい。
【0017】
本明細書では、多くの参考文献を引用するが、その全体の開示事項は、引用することにより、あらゆる目的で全体を本願に援用する。さらに、これらのどの参考文献も、上記でどのように記載されているかに関わらず、本明細書で請求する主題に関する本発明の先行技術として認めるものではない。
【課題を解決するための手段】
【0018】
発明の概要
本発明の実施態様は、核酸の配列決定に関する。詳細には、本発明の実施態様は、SBSによる核酸の配列決定時に得られたデータの誤差を補正する方法およびシステムに関する。
【0019】
テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正する方法の一実施態様について、(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して生成される信号を検出するステップ、(b)この信号の値を生成するステップ、および(c)第1パラメータおよび第2パラメータを使用して、位相同期の値を補正するステップを含む実施態様を説明する。
【0020】
いくつのインプリメンテーションでは、ステップ(a)〜(c)は、テンプレート分子の各々の配列位置ごとに繰り返され、補正された各々の値は、テンプレート分子の表現に組み込むことができ、テンプレート分子の表現は、フローグラム表現を含んでよい。
【0021】
また、テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正する方法の一実施態様について、(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して生成される信号を検出するステップ、(b)信号の値を生成するステップ、(c)テンプレート分子の配列に関連する表現に値を組み込むステップ、(d)テンプレート分子の各々の配列位置についてステップ(a)〜(c)を繰り返すステップ、(e)第1パラメータおよび第2パラメータを使用して、表現の位相同期誤差の各々の値を補正するステップ、および(f)補正値を使用して、補正表現を生成するステップを含む実施態様を説明する。
【0022】
さらに、テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正する方法の一実施態様について、(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して生成される信号を検出するステップ、(b)信号の値を生成するステップ、(c)テンプレート分子の配列に関連する表現に値を組み込むステップ、(d)テンプレート分子の各々の配列位置についてステップ(a)〜(c)を繰り返すステップ、(e)表現を複数の部分集合に分割し、各々の部分集合が、テンプレート分子の1つまたは複数の配列位置を含むステップ、(f)各々の部分集合において第1パラメータおよび第2パラメータの同期誤差を概算するステップ、(g)各々の個々の部分集合に関する第1パラメータおよび第2パラメータの同期誤差の概算を使用して、位相同期誤差に関する各部分集合の各々の値を補正するステップ、および(h)補正値を使用して、補正部分集合を補正表現に結合するステップを含む実施態様を説明する。
【0023】
さらに、テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正するシステムの一実施態様について、コンピュータ上で実行するために記憶されたプログラムコードを含み、(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して検出された信号の値を生成するステップ、および(b)第1パラメータおよび第2パラメータを使用して、位相同期誤差の値を補正するステップを含む方法を実行するコンピュータを備える実施態様を説明する。
【0024】
さらに、テンプレート分子の実質的に同じコピーの集団から生成された配列データに関連する誤差を補正するシステムの一実施態様について、コンピュータ上で実行するためにプログラムコードを含み、(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して検出された信号の値を生成するステップ、(b)値をテンプレート分子の配列に関連する表現に組み込むステップ、(c)テンプレート分子の各々の配列位置について、ステップ(a)〜(b)を繰り返すステップ、(d)第1パラメータおよび第2パラメータを使用して、表現の位相同期誤差の各々の値を補正するステップ、および(e)補正値を使用して、補正表現を生成するステップ含む方法を実行するコンピュータを備える実施態様を説明する。
【0025】
また、テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正するシステムの一実施態様について、コンピュータ上で実行するために記憶されたプログラムコードを含み、前記プログラムコードが、(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して検出された信号の値を生成するステップ、(b)値をテンプレート分子の配列に関連する表現に組み込むステップ、(c)テンプレート分子の各々の配列位置について、ステップ(a)〜(c)を繰り返すステップ、(d)表現を複数の部分集合に分割し、各部分集合が、テンプレート分子の1つまたは複数の配列位置を含むステップと、(e)各々の部分集合において第1パラメータおよび第2パラメータの同期誤差を概算するステップ、(f)各々の個々の部分集合に関する第1パラメータおよび第2パラメータの同期誤差の概算を使用して、位相同期誤差に関する各部分集合の各々の値を補正するステップ、および(g)補正値を使用して、補正部分集合を補正表現に結合するステップを含む方法を実行する実施態様を説明する。
【0026】
本発明の実施態様により達成される利点としては、(a)配列データの品質が増加し、その結果、所望のレベルの共通配列精度を達成するのに必要な配列包括度の深さが減少する;(b)有用な配列の読込み長さが伸長し、これは、1回の実行から高品質の配列データが得られることを意味する;(c)有用な配列読込み長さが伸長するため、一定の配列包括度深さを達成するために必要な実行が減少する、(d)有用な配列読込み長さが伸長されるため、一定の領域にわたる配列コンティグを組み立てるのに必要な配列が減少する、および(e)特に繰返し配列領域において、重複する読込みを容易に集合させることが挙げられるが、これらだけに限らない。
【0027】
上記およびさらに他の特徴は、以下の詳細な説明を添付の図面と併せて考慮すると、より明らかになるであろう。図中、類似の参照符号は、類似の構造、構成要素、または方法のステップを指示し、参照符号の一番左の桁は、基準の構成要素が最初に記載された図面の番号を指示する(たとえば、構成要素160は、図1に最初に記載されている)。しかし、これらの表記はすべて、代表的なものであるか、または具体的に示すためであり、制限する意図はない。
【発明を実施するための最良の形態】
【0028】
発明の詳細な説明
本明細書に記載する発明の実施態様は、少なくとも部分的に、理論上、つまり「完全な」フローグラムは、IEおよびCFの数学モデルによって、実際に観察される「ダーティな」フローグラムに変換することができるという発見に基づいている。本明細書で使用する「フローグラム」という用語は、一般に、たとえば配列決定データのグラフ表現を含み得る配列決定実行から生成される配列決定データの表現を意味する。たとえば、完全つまり理論上のフローグラムは、配列決定実行から生成され、上記のCAFIEメカニズムに由来する誤差、またはその他のタイプの背景誤差がないデータを表す。同様に、ダーティまたは観察されたフローグラムは、CAFIEおよび背景誤差要素を含む配列決定実行から生成されるデータを表す。本明細書の例では、誤差要素の一部または全部は、正確に概算して完全なフローグラムモデルに適用し、実際の配列決定実行から得られる実際のデータの表現を提供し得る。
【0029】
重要なことに、本明細書に記載する発明は、少なくとも部分的に、上記の数学モデルの逆は、直接観察されたフローグラムから完全な理論上のフローグラムを概算するのに役立つ可能性があるという発見に基づいている。したがって、上記の例を継続すると、誤差の概算は、観察されたフローグラムに表現される実際の配列決定データに適用することができ、すべて、または実質的にすべての誤差要素が除去された完全、または実質的に完全な理論上のフローグラム表現が得られる。
【0030】
当業者は、誤差をデータから正確に除去することによって、前記データのより効率的かつ正確な解釈が得られることを理解するであろう。したがって、たとえば、配列決定実行で生成されたデータから誤差を除去すると、配列実行、およびより高品質の配列情報から生成される配列において、各々の核酸種を識別する必要性をより正確に提示することができる。
【0031】
本明細書に記載する発明のいくつかの実施態様は、配列決定装置上のSBS配列決定実行から生成されるデータを分析するシステムおよび方法を含む。SBS装置および方法のいくつかの例は、ピロリン酸塩ベースの配列決定手法と呼ぶこともできる方法を使用することができ、こうした手法は、たとえば、電荷結合(CCD)カメラ、マイクロ流体チャンバ、サンプルカートリッジホルダー、またはポンプおよび流量バルブなどの1つまたは複数の検出デバイスを含むことができる。ピロリン酸塩ベースの配列決定の例を考慮すると、装置の実施態様は、化学発光を検出方法として使用することができ、この場合、ピロリン酸塩配列決定では、本質的に低レベルの背景雑音を生成する。本明細書の例では、配列決定のためのサンプルカートリッジホルダーは、光ファイバフェースプレートから形成される「picotiterplate」と呼ばれるものを含むことができ、このフェースプレートは、酸エッチングされて、各々が実質的に同じテンプレート分子の集団を保持することが可能な何十万もの非常に小さいウェルを形成する。実施態様によっては、実質的に同じテンプレート分子の各々の集団は、ビードなどの固体基板上に配置することができ、各々のビードは、前記ウェルの1つの中に配置することができる。この例を続けると、装置は、流体試薬をpicotiterplateホルダーに、およびpicotiterplate上の各々のウェルから放出される光子を収集することが可能なCCDタイプの検出デバイスに提供するための試薬送達要素を備えることができる。SBSタイプの配列決定、およびピロリン酸塩配列決定を実行するための装置および方法のさらに他の例は、米国特許出願第10/767,779号;同第11/195,254に記載されており、これらの特許はともに、本明細書で引用することにより、あらゆる目的で全体を本願に援用する。
【0032】
さらに、本発明について本明細書に記載するシステムおよび方法は、コンピュータシステム上で実行するために記憶されたコンピュータ可読媒体におけるインプリメンテーションを含むことができる。たとえば、いくつかの実施態様について、コンピュータシステム上にインプリメント可能なSBSシステムおよび方法を使用して検出される信号の誤差を処理および補正する実施態様を以下で詳細に説明する。
【0033】
コンピュータとしては、任意のタイプのコンピュータプラットフォーム、たとえばワークステーション、パーソナルコンピュータ、サーバ、または現在もしくは将来の任意のその他のコンピュータが挙げられる。コンピュータは、一般に、プロセッサ、オペレーティングシステム、システムメモリ、メモリ記憶デバイス、入出力制御装置、入出力デバイス、およびディスプレーデバイスなど、公知の構成要素を備える。当業者は、コンピュータには可能性のある多くの構成および要素があり、データバックアップユニット、および多くのその他のデバイスも含むことができることを理解するであろう。
【0034】
ディスプレーデバイスは、視覚情報を提供するディスプレーデバイスを備えることができ、この情報は、一般に、画素のアレイとして論理的および/または物理的に構成することができる。インターフェース制御装置を備えることができ、こうした制御装置は、入力および出力インターフェースを提供するための公知または将来の多様なソフトウェアプログラムの何れかを含むことができる。たとえば、インターフェースは、一般に、「グラフィカルユーザインターフェース」(多くの場合、GUIと呼ばれる)と呼ばれ、1つまたは複数のグラフィック表現をユーザに提供するものでよい。インターフェースは、一般に、当業者が周知している選択または入力手段を使用して、ユーザ入力を受け入れることを可能にする。
【0035】
同じか、または別の実施態様では、コンピュータ上のアプリケーションは、「コマンドラインインターフェース」(多くの場合、CLIという)と呼ばれるものを含むインターフェースを使用する。CLIは、一般に、アプリケーションとユーザとの間にテキストベースの対話を提供する。一般に、コマンドラインインターフェースは、ディスプレーデバイスを介して、テキスト行として出力を提示し、入力を受信する。たとえば、インプリメンテーションによっては、「シェル」と呼ばれるもの、たとえば、当業者が周知しているUnix(登録商標)シェル、またはオブジェクト指向タイプのプログラミングアーキテクチャ、たとえばMicrosoft.NETフレームワークを使用するMicrosoft Windows(登録商標)Powershellを含むことができる。
【0036】
当業者は、これらのインターフェースが、1つまたは複数のGUI、CLI、またはこれらの組合せを含み得ることを理解するであろう。
【0037】
プロセッサとしては、Intel Corporationが製造するItanium(登録商標)もしくはPentium(登録商標)、Sun Microsystemsが製造するSPARC(登録商標)、AMD corporationが製造するAthalon(商標)もしくはOpteron(商標)などの市販のプロセッサが挙げられ、または現在もしくは将来入手可能なその他のプロセッサの何れかで良い。また、プロセッサの実施態様によっては、マルチコアプロセッサと呼ばれるものを備えることができるか、および/またはシングルもしくはマルチコア構成の並列処理技術を使用することを可能にする。たとえば、マルチコアアーキテクチャは、一般に、2つ以上のプロセッサの「実行コア」を含む。本明細書の例では、各々の実行コアは、複数のスレッドの並列実行を可能にする独立するプロセッサとして機能する。さらに、当業者は、プロセッサが、一般に、32もしくは64ビットアーキテクチャ、または現在公知であるか、もしくは将来開発されるその他のアーキテクチャ構成として構成し得ることを理解するであろう。
【0038】
プロセッサは、一般にオペレーティングシステムを実行するが、オペレーティングシステムは、たとえば、Microsoft Corporationが市販するWindows(登録商標)タイプのオペレーティングシステム(たとえばWindows(登録商標)XPもしくはWindows(登録商標) Vista);Apple Computer Corp.が市販するMac OS Xオペレーティングシステム(たとえば7.5 Mac OS X vl 0.4「Tiger」もしくは7.6 Mac OS X vl 0.5「Leopard」オペレーティングシステム);多くのベンダー、もしくはオープンソースから市販されているUnix(登録商標)もしくはLinuxオペレーティングシステム;別の、もしくは将来のオペレーティングシステム;またはこれらの何らかの組合せでよい。オペレーティングシステムは、公知の方法でファームウェアおよびハードウェアとインターフェースし、プロセッサが、様々なプログラミング言語で書くことができる様々なコンピュータプログラムの機能を調整および実行することを促進する。オペレーティングシステムは、一般にプロセッサと協働して、コンピュータのその他の構成要素の機能を調整および実行する。オペレーティングシステムは、すべて公知の技術に従って、スケジューリング、入出力制御、ファイルおよびデータ管理、メモリ管理、並びに通信制御および関連サービスも提供する。
【0039】
システムメモリは、公知または将来の様々なメモリ記憶デバイスの何れかを含むことができる。例としては、一般に入手可能なランダムアクセスメモリ(RAM)、常駐ハードディスクもしくはテープなどの磁気媒体、読み書きコンパクトディスクなどの光媒体、またはその他のメモリ記憶デバイスが挙げられる。メモリ記憶デバイスとしては、公知もしくは将来の様々なデバイスの何れか、たとえばコンパクトディスクドライブ、テープドライブ、リムーバブルハードディスクドライブ、USBもしくはフラッシュドライブ、またはディスケットドライブが挙げられる。こうしたタイプのメモリ記憶デバイスは、一般に、プログラム記憶媒体(図示しない)、たとえばそれぞれコンパクトディスク、磁気テープ、リムーバブルハードディスク、USBもしくはフラッシュドライブ、またはフロッピー(登録商標)ディスケットから読み込むか、および/またはこれらに書き込む。これらのプログラム記憶媒体、または現在使用されているか、もしくは後に開発され得るその他の媒体の何れかは、コンピュータプログラム製品と考えることができる。評価されるとおり、これらのプログラム記憶媒体は、一般に、コンピュータソフトウェアプログラムおよび/またはデータを記憶する。コンピュータ制御論理とも呼ばれるコンピュータソフトウェアプログラムは、一般に、メモリ記憶デバイスと関連して使用されるシステムメモリおよび/またはプログラム記憶デバイスに記憶される。
【0040】
実施態様によっては、コンピュータが使用可能な媒体を含むコンピュータプログラム製品であって、制御論理(プログラムコードを含むコンピュータソフトウェアプログラム)が内部に記憶された製品について説明する。プロセッサが制御論理を実行する場合、プロセッサは、制御論理によって、本明細書に記載する機能を実行する。その他の実施態様では、いくつかの機能は、たとえばハードウェア状態マシンを使用して、主にハードウェア内にインプリメントされる。本明細書に記載する機能を実行するためのハードウェア状態マシンインプリメンテーションは、当業者にとっては明らかであろう。
【0041】
入出力制御装置は、ヒューマンであるかマシンであるか、ローカルであるかリモートであるかに関わりなく、ユーザからの情報を受け取って処理するための多様な公知のデバイスの何れかを含むことができる。こうしたデバイスとしては、たとえば、モデムカード、ワイヤレスカード、ネットワークインターフェースカード、音声カード、または公知の様々な入力デバイスの何れかのためのその他のタイプの制御装置が挙げられる。出力制御装置は、ヒューマンであるかマシンであるか、ローカルであるかリモートであるかに関わりなく、ユーザに情報を提示するための多様な公知のディスプレーデバイスの何れかを含むことができる。本明細書に記載する実施態様では、コンピュータの機能構成要素は、システムバスを介して互いに通信する。コンピュータの実施態様によっては、ネットワーク、またはその他のタイプのリモート通信を使用して、いくつかの機能構成要素と通信することができる。
【0042】
当業者には明らかなとおり、機器制御および/またはデータ処理アプリケーションは、ソフトウェアにインプリメントする場合、システムメモリおよび/またはメモリ記憶デバイスにロードされ、これらから実行することができる。機器制御および/またはデータ処理アプリケーションの全部または一部も、メモリ記憶デバイスの読出し専用メモリ、または類似のデバイスに常駐することができ、こうしたデバイスは、入出力制御装置を介して、機器制御および/またはデータ処理アプリケーションを最初にロードする必要はない。当業者には、機器制御および/またはデータ処理アプリケーション、またはその一部は、公知の方法で、システムメモリ、またはキャッシュメモリ、またはこれらの両方にロードすることができ、有利であることは明らかであろう。
【0043】
また、コンピュータは、システムメモリに記憶された1つまたは複数のライブラリファイル、実験データファイル、およびインターネットクライアントを含み得る。たとえば、実験データは、1つまたは複数の実験またはアッセイに関連するデータ、たとえば検出された信号値、または1つまたは複数のSBS実験またはプロセスに関連するその他の値を含むことができる。さらに、インターネットクライアントは、ネットワークを使用して、別のコンピュータ上のリモートサービスにアクセスすることを可能にするアプリケーションを含むことができ、たとえば、「ウェブブラウザ」と一般に呼ばれるものを含むことができる。本明細書の例では、通常使用されるいくつかのウェブブラウザとしては、Netscape Communications Corp.から市販されているNetscape(登録商標)8.1.2、Microsoft Corporationから市販されているMicrosoft(登録商標)Internet Explorer7、Mozilla Corporationから市販されているMozilla Firefox(登録商標)2、Apple Computer Corpから市販されているSafari1.2、または現在公知であるか、もしくは将来開発されるその他のタイプのウェブブラウザが挙げられる。また、同じか、またはその他の実施態様で、インターネットクライアントは、SBSアプリケーション用のデータ処理アプリケーションなどのネットワークを介して、リモート情報にアクセスすることが可能な特殊化されたソフトウェアアプリケーションを含むことができるか、またはこうしたソフトウェアアプリケーションでよい。
【0044】
ネットワークは、当業者が十分に周知している多くの様々なタイプのネットワークの1つまたは複数を含むことができる。たとえば、ネットワークは、通常プロトコルスィートと呼ばれるものを使用するローカルまたはワイドエリアネットワークを含むことができる。ネットワークとしては、一般にインターネットと呼ばれる相互接続されたコンピュータネットワークの世界的なシステムを含むことができるか、または様々なイントラネットアーキテクチャも含むことができる。当業者は、ネットワーク環境にあるユーザによっては、一般に「ファイアウォール」と呼ばれるもの(場合によりパケットフィルタ、またはボーダー保護デバイスと呼ばれる)を使用して、ハードウェアおよび/またはソフトウェアシステムとのまの情報トラフィックを制御することを好む場合があることも理解するであろう。たとえば、ファイアウォールは、ハードウェアもしくはソフトウェア、またはこれらの組合せを含むことができ、一般に、たとえばネットワーク管理者などのユーザがセキュリティ基本方針を導入するように設計される。
【0045】
SBS実施態様の例は、一般に、ヌクレオチド種を上記のテンプレート分子に連続的に、または繰り返し添加するサイクルを使用する。これらのサイクルは、本明細書では、「フロー」と呼ぶ。たとえば、各々のフローでは、4つのヌクレオチド種A、G,CまたはTの何れか1つが提示されるか(ピロリン酸塩(PPi)配列決定法の場合)、または4つのヌクレオチド種すべてがともに、テンプレート/ポリメラーゼ複合体に提示される(たとえば、各々のヌクレオチド種に関連する異なる標識を使用する配列決定法の場合)。この例を続けると、フローは、合成される新生分子の3’末端に直接隣接する配列位置において、テンプレート分子のヌクレオチド種に対して相補的なヌクレオチド種を含むことができ、この場合、ヌクレオチド種は、新生分子内に組み込まれる。本明細書の例では、ヌクレオチド種の組込みは、光信号(たとえば、発光もしくは蛍光などのプロセスから生成される光を含み得る光信号)、またはマスタグなどのその他の信号の形式で検出することができる。ヌクレオチド種の流れの繰返し後、洗浄方法がインプリメントされて、組み込まれていない過剰なヌクレオチド種および試薬が除去される。洗浄段階が完了した後、フローの次の繰返しは、別のヌクレオチド種、またはヌクレオチド種の混合物をテンプレート/ポリメラーゼ複合体に提示する。実施態様によっては、「フローサイクル」は、4つのヌクレオチド種を繰返し、または並行して添加することを意味する場合があり、たとえば、1つのフローサイクルは、4つのヌクレオチド種すべてを添加することを含む。
【0046】
フローグラムに記録する場合、各々の流れについて検出される光またはその他の信号の値は、約ゼロであるか(フロー中のヌクレオチド種が、次の配列位置において、テンプレートのヌクレオチド種に対して相補的ではなく、その結果組み込まれていないことを示す)、約1であるか(テンプレートのヌクレオチド種に対して相補的な正確に1つのヌクレオチド種が組み込まれていることが検出されたことを示す)、またはほぼ1より大きい整数(フロー中に提示され、テンプレートの2つの連続するヌクレオチド種に対して相補的なヌクレオチド種の2つ以上のコピーの組込みが検出されたことを示す)でよい。
【0047】
上記のとおり、繰り返す一連のフローの理論上の結果は、各々のフローからの信号であり、この信号は正確にゼロであるか、または整数であり、完全なフローグラムに表現されなければならない。CFおよびIEメカニズムを含む様々な実験の変動により、検出される実際の信号は、これらの予想理論値付近で変化量だけ変動する傾向がある。この変化量を含む検出信号は、ダーティまたは観察フローグラムとして表現される。
【0048】
フローグラムおよびパイログラムという用語は、本明細書では互換可能に使用される。「完全なフローグラム」、「クリーンなフローグラム」、および「理論上のフローグラム」という用語は、本明細書では互換可能に使用される。「ダーティなフローグラム」、「現実のフローグラム」、および「観察されたフローグラム」という用語は、本明細書では互換可能に使用される。
【0049】
さらに、本明細書で使用する場合、「読込み」は、一般に、単一の核酸テンプレート分子、または複数の実質的に同じテンプレート分子のコピーの集団から得られる全体の配列データを意味する。「新生分子」は、一般に、テンプレート分子の対応するヌクレオチド種に対して相補的なヌクレオチド種を組み込むことによりテンプレート依存DNAポリメラーゼによって伸長されるDNA鎖を意味する。本明細書で使用する「完了効率」は、一般に、一定のフロー時に適切に伸長される新生分子の割合を意味する。本明細書で使用する「不完全伸長率」は、一般に、すべての新生分子の数に対して、適切に伸長しない新生分子の数の割合を意味する。
【0050】
本明細書に記載するいくつかの実施態様は、上記のCFおよびIEメカニズムを考慮に入れて、各々のフローの検出された信号を補正する。たとえば、本発明の一態様は、CFおよびIEの一定のレベルを仮定して、任意の公知の配列に関する位相同期の損失程度を計算することを含む。
【0051】
以下に示す表1は、IEおよびCFに関して数学的にモデル化した閾値の一例を示し、様々な読込み長さに対して99%以上の精度を提供する(つまり、読込みは、テンプレート分子の実際の配列の少なくとも99%を表す。表1に示す予測値は、様々な読込み長さの配列決定精度、および約99%の読込み精度を達成することを許容可能なIEおよびCF誤差の程度に対するCFおよびIE効果の影響を示す。表1は、補正されていない読込みに関して1%を越えないCF率が許容可能であり(IEが、その集団でゼロに等しいと仮定する)、約100の配列位置の読込み長さは99%正確である(つまり、99%以上の完了効率)ことを示す。さらに、0.25%以下のIE率が許容可能であり(CF率がゼロに等しいと仮定する)、約100の配列位置の読込み長さは99%正確である。
【0052】
【表1】

表1に記載する値は、単に具体的に示すためであり、制限するものであると解釈すべきではないことがわかるであろう。当業者は、いくつかの要素は、予測を明確するためのゲノム配列または基準配列、およびその他のパラメータなどの値の変動性の一因となり得ることを理解するであろう。たとえば、SBS法の代表的な実施態様は、一般に、1〜2%の範囲のCF率を達成し、IE率は0.1〜0.4%である(つまり、完了効率は99.6〜99.9%の範囲である)。上記のとおり、CFおよびIEの補正は望ましく、なぜなら、位相同期の損失が読込み長さ全体に蓄積効果を有し、読込み長さが増加するにつれて、読込みの品質を低下させるからである。
【0053】
本明細書に記載する発明の一実施態様では、CFおよびIEの両方を表す値は、実質的に同じテンプレート分子の集団、たとえばpicotiterplateシステムの単一ウェル内に存在するテンプレート分子の集団の読込み全体で、実質的に一定であると仮定される。その結果、テンプレート分子の実際の配列の何らかの先験的な知識がなくても、2つの単純なパラメータ「不完全な伸長」および「繰越」を使用して、全体の読込みにおける各々の配列位置の数値補正が可能になる。本発明について本明細書に記載するシステムおよび方法は、テンプレート分子の集団内で生じるCFおよびIEの量を判断し、補正する際に有用である。たとえば、本発明の実施態様は、各々のウェル内に存在して、CFおよびIEの一因となる実質的に同じテンプレート分子の各々の集団に関して、各々のフローから検出される信号値を補正する。
【0054】
本発明の実施態様は、位相同期の欠如を非線形マッピングとしてモデル化する:
方程式(1):
M(p,ε,λ)=q
ここで:
− Mは、CAFIEマッピングであり
− pは、仮定上の「完全な」フローグラム[アレイとして]であり
− λは、完了効率パラメータであり
− εは、繰越パラメータであり
− qは、「ダーティな」フローグラム[アレイとして]である。
【0055】
理論上の「完全な」フローグラムは、方程式(1)で与えられるマッピングモデル式を使用して、現実の「ダーティな」フローグラムに変換し、IEおよびCFを概算することができる。こうしたマッピング式のモデルは、たとえば、公知の配列を有するポリヌクレオチドテンプレート分子を配列決定することによって、観察されたフローグラム(q)に導入される誤差を分析して生成することができる。方程式(1)によって与えられる数学モデルの具体的な一例を図1に示す。
【0056】
たとえば、図1の左側では、理論上のフローグラム101は、理論上の(完全または理想的な)フローグラム(p)の実例表現であり、関連するヌクレオチド種に隣接して括弧内に表された理想化信号強度値を示す。理論上のフローグラム101の各々の理想化値は、ある整数またはゼロである。本明細書の例では、「1」の値は、単一のヌクレオチドの組込みによって誘発された100%検出信号強度を表し、「0」は、0%信号を表す(たとえば、100万の実質的に同じテンプレート分子、および100万の新生分子の集団を含むウェル中、「1」は、すべての新生分子が、単一ヌクレオチドによって伸長する時に誘発される信号を表し、「2」は、すべての新生分子が、2つのヌクレオチドによって伸長する時に誘発される信号を表す)。
【0057】
図1の右側では、観察されたフローグラム103は、観察された(または模擬ダーティ)フローグラム(q)からの検出信号強度値の実例表現である。同様に、フローグラム103の各々の信号強度値は、関連するヌクレオチド種に隣接して括弧内に表される。また、図1の右側には、ヌクレオチド種および信号値に関連する繰返しフロー(flow)配列を表す代表的な数を提供するフロー105がある(たとえば、フロー105の各々の繰返しは、ヌクレオチド種の添加、およびその後の洗浄プロセスを表す)。たとえば、図1に示されているフロー1は、フロー105の前記の繰返しで導入される「C」ヌクレオチド種に関連し、理論上のフローグラム101、および観察されたフローグラム103の両方の信号値に対応する。
【0058】
図1の例では、理論上のフローグラム101と、観察されたフローグラム103との間の信号強度値の差は、各々のフロー105の繰返しでは、少なくとも部分的に位相同期の損失を表す。たとえば、観察されたフローグラム103に表される信号値は整数ではなく、フロー105の同じ繰返しでは、一般に、理論上のフローグラム101に表される理想値よりわずかに大きいか、またはわずかに小さい。
【0059】
「M」として表現されるマッピングモデル110は、パラメータ113の既知の値を使用して概算することができる。たとえば、パラメータ113は、ε(繰越)パラメータおよびλ(完了効率)パラメータを含む。パラメータ113は、マッピングモデル110を概算し、理論上のフローグラム(p)101の信号値を観察値(q)103に変換するために使用し得る。本明細書の例では、マッピングモデル110によって表される誤差値は、フロー105の各々の繰返しで蓄積し、指数関数的に成長する。
【0060】
上記の例を続けると、誤差値によって表現される誤差は、理論的には、各々のフローとともに指数関数的に増加する。たとえば、実質的に同じテンプレート分子の各々の集団に関連する位相同期した配列決定反応は、フローの繰返し後、位相同期した3つの異なる亜集団になる。この亜集団は、フロー中のヌクレオチド種が、テンプレート分子に対して適切な配列位置に適切に組み込まれる位相同期反応の第1の亜集団と(たとえば、CAFIE効果はない)、CFメカニズムによる不適切な組込みが生じ、反応が、第1集団に対する配列位置より先に進む位相同期反応の第2亜集団と、IEメカニズムによる不適切な組込みが生じ、反応が、第1集団の配列位置より遅れる位相同期反応の第3亜集団とを含む。本明細書の例では、次のフロー繰返しで、3つの亜亜集団は、上記の3つの亜集団の各々から生じるという具合である。当業者は、n番目のフローの繰返しで、各々がフローnで信号を生じる位相同期の3の集団があることを理解するであろう。
【0061】
さらに上記の例を続けると、図2は、逆マッピングモデル210として図2に表されるマッピングモデル110の逆の実例表現を提供する。たとえば、パラメータ113の正確な値を概算することによって(たとえば、ε(繰越)およびλ(完了効率)パラメータの両方の値)、観察されたフローグラム(q)103の信号値は逆にして、理論上のフローグラム(p)101の信号値を与える。
【0062】
当業者は、図1および2に表される信号値は、単に具体的に示すために記載されており、広範な信号値が可能であることを理解するであろう。したがって、これらの信号値は、制限するものであると解釈するべきではない。
【0063】
本発明のいくつかの実施態様は、以下に概略を示す2つの連続的な段階(i)および(ii)で、反転したマッピングを実行する:
各々のヌクレオチド種のフローiについて:
(i) − ヌクレオチド種の添加により、新生分子を伸長する:
【0064】
【数1】

すべてのjについて、N=Nおよびp>0
(ii) − 前の添加から残るヌクレオチド種により、新生分子を伸長する:
【0065】
【数2】

すべてのjについて、N=Ni−1およびp>0
ここで:
− pは、i番目のヌクレオチド種フローで、理論上の(クリーンな)フローグラムの信号値である
− qは、i番目のヌクレオチド種フローで、観察された(ダーティな)フローグラムの信号値である
− mは、i番目のヌクレオチド種フローのフローグラム配列位置で、組込みに使用できるヌクレオチド種分子の画分である
− Nは、i番目のヌクレオチド種添加(A、C、G、またはT)である
− (j,j’)は対の指数であり、pj’はフローグラム上のpの次の正の値である。
【0066】
マッピングモデルは、これらの計算をフローごとに実行し(たとえば、フロー105の繰返し)、観察されたフローグラム(q)、およびテンプレート分子の画分mを段階(i)および(ii)により更新する。
【0067】
図3aは、マトリックスの計算に使用されるモデルの具体的な例を示す。たとえば、以下にさらに詳細に説明するように、順方向マトリックスモデル310は、逆マトリックスモデル320を導くために使用することができる。本明細書の例では、逆マトリックスモデル320を使用してマトリックスを計算することは、パラメータ113の概算を導くために使用することができる。たとえば、パラメータ113の様々な値は、マトリックスの計算に適用して、観察されたフローグラム103に対する適合程度を評価することができる。一般に、観察されたフローグラム(q)103に最適なパラメータ113は、パラメータ113の実効値として良い概算値であるように決定される。
【0068】
さらに、図3bは、順方向マトリックスモデル310を使用する順方向マトリックスの計算の具体的な例を示す。本明細書の例では、観察されたフローグラム(q)103は、完了効率値λ=0.95、および繰越値ε=0.05を含むパラメータ113を使用するマトリックスの計算によって生成される。マトリックスのフロー105の繰返しに関連する各々の行は、各々のヌクレオチド種のフローに関する再帰的な段階(i、ii)の実施および結果を記録する。
【0069】
方程式(1)および再帰的な段階(i、ii)は、マトリックスアレイの演算として書き換えることができる:
方程式(2):
[M(p’,ε,λ)]p=q
ここで:
− [M(p’,ε,λ)]は、マトリックスである
は、マトリックスアレイの乗算である
− p’=sgn(p)は、理論上つまり「完全な」フローグラムの2進コード化である(たとえば、図1のフローグラムp、p=[010200103012]は、p’=[010100101011])としてコード化されるであろう)。
【0070】
方程式(2)の逆形式は逆のマッピングを与え、「ダーティな」観察されたフローグラム(q)103を逆に理論上のフローグラム(p)101に変換する:
方程式(3):
p=[M−1(p’,ε,λ)]
ここで:
− [M−1(p’,ε,λ)]は、(集合論的)逆マトリックスである。
【0071】
繰返し法は、図3aに逆マトリックスモデル320として示す逆方程式(3)を解き、各々の読込みに関して理論上のフローグラム(p)101を得るために使用される。この繰返しは、CAFIEの反転に関してパラメータ113(ε,λ)の一定の対で実行される:
方程式(4):
(n+1)=[M−1(p’(n),ε,λ]
ここで、p’(n)≡sgn(p(n)−閾値)およびp(1)≡qは、計算の種として使用される。閾値の値は、システムの信号対雑音比によって決まる。
【0072】
図3bと同様、図4aは、逆マトリックスモデル320を使用する逆マトリックスの計算の具体的な例を示す。本明細書の例では、理論上のクリーンなフローグラム(p)101は、完了効率値λ=0.95、および繰越値ε=0.05を含むパラメータ113を使用して、観察されたダーティなフローグラム(q)103から生成される。
【0073】
たとえば、あるインプリメンテーションでは、固定値、閾値≡0.2が使用される。こうしたインプリメンテーションでは、フローグラムp’の2進コード化は、フローグラム値pが0.2より大きい場合に値「1」をコード化し、フローグラム値pが0.2以下の場合に値「0」をコード化する。本明細書の例では、閾値0.2は信号対雑音比の概算である。
【0074】
あるいは、いくつかのインプリメンテーションは、0〜1の範囲、たとえば0.05、0.1、または0.3の閾値を使用し得る。したがって、「ダーティな」観察されたフローグラム(q)103は、パラメータ113の一定の対(ε、λ)に関する方程式(4)により、クリーンな「完全な」理論上のフローグラム(p)101に反転させることができる。多くのインプリメンテーションでは、一般に、フローグラムの反転の単一の繰返しで十分である。インプリメンテーションによっては、フローグラムの反転の2回、3回、またはそれ以上の繰返しを実行することが望ましい場合があり、フローグラム表現の精度は、特に読込み長さがより長い場合、計算が所望の品質で解に収束するまで、各々の繰返しで改善することができる。好ましい実施態様では、フローグラムの反転の1回の繰返し、または2回の繰返しは、計算効率の点で実行することができる。また、コンピュータコードによってインプリメントされる本発明のいくつかの実施態様は、ユーザが、多くの繰返しを選択し、ユーザの選択に応じて各々の繰返しを実行するか、および/または連続的に実行することを可能にする。たとえば、ユーザは、1つまたは複数の領域に値を入力するか、またはGUIで提示されるボタンを選択するなど、先行技術で公知の方法を使用して選択を行うことができる。本明細書の例では、ユーザは、実行する多くの繰返しを指示する値を入力し得るか、および/またはユーザは、本発明の繰返しを実行するボタンを選択し得る。さらに、ユーザは、データ品質の指示を選択し、本発明を繰り返してデータ品質のレベルを達成することができる。
【0075】
図4bは、方程式(4)の方法を使用して、連続する繰返し数で結果を改善する方法の具体的な一例を示す。未処理のフローグラム410は、各々の繰返しがフローバー409によって表されるヌクレオチド種添加の336回の繰返しから、完了効率値λ=0.997、および繰越値ε=0.03を含むパラメータ値113を有する観察されたフローグラム(q)103の一実施態様を示す。たとえば、各々のフローバー409は、ヌクレオチド種のフローを表し、各々の種は、特に、バー409の色またはパターンによって表される。さらに、各々のフローに関連する検出または補正された信号値は、信号強度405によって与えられるスケールに対するバー409の高さによって表される。
【0076】
当業者は、特に、読込み長さ407によって与えられるスケールに関して、配列位置が50を超える読込み長さの場合、フローバー409の信号強度405の値に関して、未処理フローグラム410に強度の変動があることを理解するであろう。つまり、フローバー409の大部分の信号値は、整数である信号値を含まない。2回の繰返しフローグラム420は、本発明の一実施態様を使用する2回繰り返される補正後、観察されたフローグラム(q)103の同じ実施態様を示す。フローバー409の信号強度405の一貫性は、特に、読込み長さ407の位置が150以下のフローバー409の場合に改善される。同様に、データ品質の改善は、それぞれ4回繰り返されるフローグラム430、および8回繰り返されるフローグラム440で実証され、フローグラム440は、実質的にすべてのフローバー409が一貫性および整数値を示すことを表す。
【0077】
いくつの実施態様では、パラメータ113の値の概算は、方程式(4)を使用して決定される。たとえば、完了効率パラメータ(λ)に最適な値は、方程式(4)を使用してテスト計算を実行し、異なる値を完了効率パラメータとして入力し、固定値をCFパラメータとして使用することにより決定し得る。本明細書の例では、一定のCF値ε=0を有するλ=1、0.999、0.998、...、0.990の値を連続して使用し、各々の結果を得ることができる。様々な実施態様では、入力λの値間の0.001の間隔は、たとえば0.05、0.01、0.005、0.001、0.0005、0.0001などの間隔値など、他の間隔と置き換えることができる。
【0078】
この例を続けると、計算した理論上のフローグラム(p)のフローバー409の何らかの信号値405が、λの入力値を使用して方程式(4)を解いた後にゼロ未満になる場合、λの値は、最適完了効率パラメータの値として宣言される。λの最適値が決定された後、実質的により小さいλ値を使用すると、「過剰適合」と呼ばれる状態になり、人為的に負のフロー信号を生成する。また、本明細書の例では、ホモポリマーを表すフローバー409の長い列(たとえば、一連の配列位置は、同じヌクレオチド種を含む)の後の一連の配列位置におけるいくつかのフローバー409の場合、補正された信号値405はゼロ未満になり得る。このゼロ交差点は、図5の楕円503内に示され、最適な完了効率は、以下λとして指示する。
【0079】
同様に、実施態様によっては、CFの作用は類似の手法で対処し得る。たとえば、CFパラメータの値はテストすることができ、たとえば、完了効率パラメータλは、前に発見された値λに定められた状態で、ε=0、0.0025、0.005、0.0075、0.01、...、0.04の値を含み得る。これは、図5にステップ2→3として表され、楕円503は、開始位置2(ε,λ)=(0,λ)を指示する。本明細書の例では、εの入力値間の0.0025という間隔は、具体的に示すために提示するのであり、たとえば0.05、0.01、0.005、0.001、0.0005、0.0001、0.00001などの他の小さい間隔値に置き換えることができる。計算された理論上のフローグラム(p)中のフローバー409の任意の信号値405が、εの入力値を使用して方程式(4)を解いた後にゼロ未満になる場合(たとえば、λ経路に沿った調査の際にゼロ未満になるフローバー409の信号値405以外の、フローバー409の任意の信号値405)、εの値は、最適なCFパラメータの値として宣言される。εの最適値が決定された後、その後より大きい値を使用すると、過剰適合の状態になり、人為的に負のフロー信号を生成する。また、本明細書の例では、ホモポリマーを表すフローバー409の長い列の前のある配列位置におけるフローバー409の場合、補正された信号値405はゼロ未満になり得る。このゼロ交差点は、図5の楕円505内に示され、最適なCFは、以下εとして指示する。
【0080】
図5は、具体的な例を示し、たとえば、横座標は完了効率軸520を表し、縦座標はCF軸510を表す。楕円510、503および505内のグラフは各々、上記のステップを表し、3つの信号を示すフローグラムの例示的な部分を含む。たとえば、中心のバーは、主信号バー537を表し、左の小さい信号(CFバー535)、および右の小さい信号(IEバー533)が側面に位置する。楕円501は、最初の観察されたフローグラム(q)103のステップを示し、主信号バー537は位相非同期によって減少し、CFバー535およびIEバー533の小さい信号は、位相非同期によって生じる雑音を表す。楕円503は、IEが補正された時のステップを表し、IEバー533aに関連する信号はなくなり、中心の主信号バー537は相応に増加する。上記のとおり、IEが補正された点は、たとえば、最適完了効率パラメータのゼロ交差点を含み、λとして指示することができる。楕円505は、CFが補正されたさらに他のステップを表しており、CFバー535aに関連する信号は除去され、中心の主信号バー537は相応に増加する。上記のとおり、CFが補正された点は、たとえば、最適完了効率パラメータのゼロ交差点を含み、εとして指示することができる。楕円505は、理論上の予測されたフローグラムの概算である補正の結果を示し、位相非同期の誤差に起因する雑音は実質的に除去されている。
【0081】
したがって、CFおよびIEの量は、基礎となるテンプレート分子の配列pは、先験的に未知であり、本発明の方法は、完全な新しい分析モードで使用することができる。本発明を実施するために、ポリメラーゼの組込み効率(つまり、λ)、またはヌクレオチド洗浄効率(つまり、ε)に関する事前の知識は不要であり、基準の何らかのヌクレオチド配列も不要である。
【0082】
実施態様によっては、上記のパラメータ概算の検索プロセスは、すべてのεおよびλの入力検索間隔で段階(i、ii)を通してマトリックス[M]を構成し、計算効率の点から制限している。こうした制限は、少なくとも部分的に、マトリックス構成演算に概算を使用することによって克服することができる。たとえば、すべての検索間隔でマトリックスを再構成することを防止し、その結果、計算速度を大幅に改善することができる。2つのこのような方法について、以下で説明する:
方法1:
εおよび(1−λ)の小さい値では(たとえば、(1−λ)≦0.001およびε≦.0025)、マトリックス[M]は分解され、ある形式に近似される:
方程式(5):
[M(p’,ε,λ)]〜[L(p’,Δλ)]φ*[U(p’,Δε)]ω
ここで:
− Δε=0.0025およびΔλ=0.001は、それぞれεおよびλ軸における間隔である
− φおよびωはマトリックスパワーであり、ω〜ε/Δεおよびφ〜(1−λ)/Δλの特性を有する
− [L(p’,Δλ)]は下方の対角マトリックスであり、わずかな欠如ΔλにおけるIEの作用をモデル化する
− [U(p’,Δλ)]は、上方の対角マトリックスであり、わずかな欠如ΔεにおけるCFの作用をモデル化する。
【0083】
この分解により、方程式(5)は、検索経路に沿って一度、下方の対角マトリックスLおよび上方の対角マトリックスUを構成し、検索グリッド(ε,λ)における不完全および繰越の程度は、マトリックスの倍率(ω,φ)によりモデル化される。検索間隔における小さい値Δε=0.0025およびΔλ=0.001は、他の小さい値、たとえば0.05、0.01、0.005、0.001、0.0005、0.0001などに置き換えることができる。
【0084】
前に提示された(ε,λ)グリッドを検索する代わりに、本明細書の方法は、好ましくは正の整数である一連の(ω,φ)グリッドを通して実施し、マトリックスパワーの計算を促進する。最適な(ω’,φ’)は、ゼロ交差状態で画定され、対応する完了効率およびCFパラメータは、λ=(1−φΔλ)およびε=ωΔεである。
【0085】
方法2:
方程式(5)により、小さいεおよび(1−λ)の事例では、下方および上方対角パワーマトリックス[L]φおよび[U]ωは、以下によってさらに概算される:
方程式(6):
[L]φ≡([I]+[l])φ〜[I]+φ[l]
方程式(7):
[U]ω≡([I]+[u])ω〜[I]+ω[u]
ここで:
− [I]は、同一性マトリックスである
− [l]および[u]は、それぞれ[L]および[U]の非対角マトリックスである。
【0086】
これは、マトリックスパワーを計算する段階の迂回を公式化し、その結果、計算時間をさらに加速する(たとえば、短縮する)。したがって、(ω,φ)の検索空間は、すべて正の実数を含む。最適な(ω,φ)は、ゼロ交差状態で画定され、対応する完了効率およびCFパラメータは、λ=(1−φΔλ)およびε=ωΔε。
【0087】
本明細書に記載する実施態様は、マトリックスの構成および反転、並びに(ε,λ)平面における2次元検索に基づき、CAFIEパラメータの最適な対を探索する。これらの計算は、実質的に同じテンプレート分子の各々の集団に関して行われ、たとえば、picotiterplateタイプのシステムにおけるウェルごとの分析を含む場合がある。実施態様によっては、マトリックスは、最適なCAFIE値(ε,λ)を生成するために、各々の集団/ウェルごとに構成される。図6は、上記の反転/検索方法1を使用して計算するように、数十万の集団/ウェル603のサンプルにおける完了効率パラメータ605の値λおよびCFパラメータ607の値εの分布の具体的な例を示す。上記の方法2を使用する計算は、方法1より計算時間が少なく、類似の結果を提供する。
【0088】
また、上記の実施態様は、一定の完了効率λおよびCFεパラメータに関連する率が、配列決定実行全体で一定であることを仮定している。この仮定は、数回のフローサイクルを含むフローグラム内で「フローウィンドウ」と呼ばれる場合があるものにCAFIE検索および反転手順を適用することによって緩和することができる(この場合、「数回」は、1とフローサイクル全体の回数との間の任意の数を意味する)。たとえば、各々のフローウィンドウは、フローグラムに表現されるフローサイクルの完全な集合のうちの部分集合であり、1対のCAFIEパラメータおよび対応するクリーンな理論上のフローグラム101を発見する必要がある。本明細書の例では、フローウィンドウは、配列決定実行に関連するフローグラム内の最初のフローから開始して、フローグラム内のフローサイクル全体の長さより短いかまたはこの長さに等しい一定のフローで終了し、各々のより小さいフローウィンドウは、より大きいフローウィンドウ内に入れ子状態になるように配置される。各々のフローウィンドウnでは、検索および反転プロセスは個々に行われ、一連のCAFIEパラメータ113を生成し、これは、ウィンドウ指数の関数n:ε=ε(n)およびλ=λ(n)になる。計算されたクリーンな理論上のフローグラム101、p(n)は、やはり入れ子状になっており、指数nに応じてCAFIEパラメータのこれらの変数値の結果である。「切換え」プロセス:ウィンドウ(n−1)およびn間のフローに関するp=p(n)は、フローウィンドウ配列p(n)を最終のクリーンなフローグラム(p)101に再構築する。
【0089】
同じ実施態様、または別の実施態様では、λおよびεの一定の値の仮定は、別の方法で排除することができる。たとえば、完了効率λおよびCFεパラメータは、各々のヌクレオチド種の添加に関しては「N」(「A」、「G」、「C」、または「T」)、およびフロー位置の関数「f」(1、2、3、...)などのパラメータ形式を取ることができる:
λ(f)=λexp(−δf)、
ε(f)=εexp(−βf)。
ここで:
− λ(f)は、「f」番目のフローにおけるヌクレオチド種「N」の完了効率である
− ε(f)は、「f」番目のフローにおけるヌクレオチド種「N」のCFである
− λおよびεは、初期値である
− δおよびβは、減衰率である。
【0090】
検索方法は、4つのパラメータ空間λ(0)、ε(0)、δ、およびβに適用して最適値を決定する。
【0091】
さらに、当業者は、上記のCAFIEメカニズムに関連しないその他の雑音源が存在し得ることも理解するであろう。こうした雑音源としては、電子的源、たとえば「暗電流」と呼ばれるもの、光源、生物学的起源、化学的起源、または先行技術で公知か、または将来発見され得るその他の源が挙げられるが、これらだけに限らない。本明細書に記載する発明のいくつかの実施態様は、その他の雑音源に対して様々なレベルの感受性を示す場合があり、こうした感受性は、多くのアプリケーションでは、実質的に一定であるか、および/または予測可能なレベルである。たとえば、既知または未知の源に起因する予測可能および一定レベルの雑音は、概して補正が容易である。1つの補正方法は、雑音に関連する値(雑音が過剰信号を追加するか、または検出信号を減少させるかどうかによる)を数学的に、フローに関連するすべての信号値に加算するか、またはこうした検出信号から減算することである。
【0092】
雑音のレベルが予測不可能ないくつかの実施態様の場合、少なくとも部分的に、雑音レベルの概算は、信号データに埋め込まれる情報から導くことができる。たとえば、配列位置に存在しないことが分かっているか、または予測されるヌクレオチド種の場合、実際の信号値はゼロに等しいはずであると予測される。したがって、どの検出信号も、システム内のすべての雑音源に起因し得る。本明細書の例では、本明細書に記載する発明は、雑音形式のCAFIEメカニズムを概算するため、こうした雑音は、データから除去し、下にある雑音を明らかにすることができる。本明細書の例では、概算は、配列実行におけるすべての「ゼロmer」配列位置を調査することによって改善することができる。この場合、2進コード化p’の方程式(4)の「閾値」の値は、上記の実施態様に記載した固定値ではなく、その雑音レベルを表すように、各々の実行について動的に決定することができる。
【0093】
さらに、本発明のいくつかの実施態様は、観察されたフローグラムに示される配列データの過剰補正を防止するため、「安全基準」と呼ぶことができるものを含み得る。上記のとおり、過剰補正は、上記のアルゴリズムが繰返し適用される時に導入される誤差の指数関数的な蓄積を生じる可能性がある。たとえば、上記のその他の雑音源は、信号データに適用するべき補正量を含む安全基準を決定し得る。たとえば、インプリメンテーションによっては、その他のCAFIE以外の源からの一定レベルの雑音を想定し、60%補正(たとえば、100%は完全な補正を意味する)と呼ばれる場合がある安全基準をデータに適用することができる。この概算は、計算されたクリーンなフローグラムpを60%、および観察されたダーティなフローグラムqを40%含む「ハイブリッド」フローグラム、「0.6p + 0.4q」を使用する。あるいは、CAFIE以外の雑音が「低」レベルである場合、より高度、たとえば80%の補正率を適用し得る。
【実施例】
【0094】
実施例1
黄色ブドウ球菌COLおよびマイコプラズマジェニタリウムのゲノムは、454 Life Sciencesのゲノムシーケンサ上にショットガン配列した(Margulies等、2005、上記で引用することにより本願に援用する)。図7は、IE補正のみの効果、ゲノム範囲に関するCAFIE補正、共通配列の正確さ、中間読込み長さ、並びに、125を超える配列位置の読込み長さのうち、100%の精度を達成したウェルの割合の具体的な例を示す。これらの各々の測定基準では、CAFIE補正は、IE補正単独より優れていた。IE補正単独では、補正を行わない場合に得られた結果より優れていた。対照配列を含むビードを別に調製し、実験サンプルと混合してからアレイを調製した。
【0095】
上記の手順を使用することにより、63サイクルの実行の平均読込み長さは、112配列位置から147配列位置に増加した。これは、63サイクルの理論上のほぼ最大、または252回のフロー繰返しである(たとえば、各々のフローサイクルは、4回のヌクレオチド種フローの繰返しを含む)。理論上の最大は、フローサイクルの数、この場合は63に、平均して4回のヌクレオチド添加サイクルごとに伸長される配列位置の数(2.5)を乗算して計算される:63×2.5=157.5(理論上の最大)。147配列位置の平均読込み長さは、フローサイクル全体で95%の精度で、フローグラムを既知のゲノム配列にマッピングして決定した。
【0096】
さらに、本明細書には、以下のとおり、上記の方法1を使用して、上記のデータ処理アプリケーションによってインプリメント可能な4つの例示的な擬似コードコンピュータプログラムを開示する:
(1)buildTransitionMatrixIEOnly.c
不完全な伸長に関する遷移マトリックスを構築する。
(2)buildTransitionMatrixCFOnly.c
繰越に関する遷移マトリックスを構築する。
(3)cafieCorrectOneNukeTraceFastTMC2.c
(1)で計算した遷移マトリックスを反転し、IE値を検索する。
(4)cafieCorrectOneNukeTraceFastCarryForwardOnly.c
(2)で計算した遷移マトリックスを反転し、CF値を検索する。
【0097】
入力は、各々の読込みに対するダーティなフローグラムおよびフロー順序(ヌクレオチドの添加)であり;出力は、クリーンになったフローグラムおよび最適値(ε、λ)である。これらの擬似コードコンピュータプログラムは、単に具体的に示すためのものであり、様々な修正および変更は本発明の範囲内であることが理解されるであろう。
【0098】
したがって、核酸の配列決定の際に得られた配列データの誤差を補正する方法およびシステムが提供されることが分かる。本明細書では、特定の実施態様について詳細に開示したが、これは、具体的に示すためにのみ開示したのであって、以下の添付の請求の範囲を制限することを意図するものではない。特に、請求の範囲によって定義される本発明の精神および範囲を逸脱することなく、様々な置換、変更、および修正を加えることができることが意図されている。その他の態様、利点、および修正は、以下の請求の範囲に含まれると考えられる。提示される請求の範囲は、本明細書に開示する発明を代表するものである。請求項に記載されていないその多数の発明も予想される。こうした発明を後の請求の範囲で追及する権利は、本明細書により留保される。
【0099】
(コンピュータプログラムリスティング)
【0100】
【表2−1】

【0101】
【表2−2】

【0102】
【表2−3】

【0103】
【表2−4】

【0104】
【表2−5】

【0105】
【表2−6】

【0106】
【表2−7】

【0107】
【表2−8】

【0108】
【表3−1】

【0109】
【表3−2】

【0110】
【表3−3】

【0111】
【表3−4】

【0112】
【表3−5】

【0113】
【表3−6】

【0114】
【表3−7】

【0115】
【表4−1】

【0116】
【表4−2】

【0117】
【表4−3】

【0118】
【表4−4】

【0119】
【表4−5】

【0120】
【表4−6】

【0121】
【表4−7】

【0122】
【表5−1】

【0123】
【表5−2】

【0124】
【表5−3】

【0125】
【表5−4】

【0126】
【表5−5】

【0127】
【表5−6】

【0128】
【表5−7】

【図面の簡単な説明】
【0129】
【図1】図1は、「完全な」理論的なフローグラムを観察された「ダーティな」フローグラムに変換するために、一実施態様の数学モデルを単純化したグラフ表現である。
【図2】図2は、図1のマッピングモデルの反転の一実施態様を単純化したグラフ表現である。
【図3A】図3aは、図1および2のマッピングモデルを含む順方向および逆マトリックスの計算用のモデルの単純化された一実施態様のグラフ表現である。
【図3B】図3bは、図3aの順方向モデルを使用する順方向マトリックスの計算の単純化された一実施態様のグラフ表現である。
【図4A】図4aは、図3aの逆モデルを使用する逆マトリックスの計算の単純化された一実施態様のグラフ表現である。
【図4B】図4bは、図3aおよび4aの逆モデルを使用する様々なレベルの繰返し補正を使用して得られる結果の単純化された一実施態様のグラフ表現である。
【図5】図5は、本明細書に記載する発明のCAFIE誤差の結果の単純化された一実施態様のグラフ表現である。
【図6】図6は、実質的に同じテンプレート分子の集団のサンプル全体のパラメータ値の分布に関する単純化された一実施態様のグラフ表現である。
【図7】図7は、IE補正のみの効果、およびCAFIE補正の効果の単純化された一実施態様のグラフ表現である。

【特許請求の範囲】
【請求項1】
テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正する方法であって、
(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して生成される信号を検出するステップと、
(b)前記信号の値を生成するステップと、
(c)第1パラメータおよび第2パラメータを使用して、前記位相同期誤差の前記値を補正するステップと
を含む、方法。
【請求項2】
(d)テンプレート分子の各配列位置についてステップ(a)〜(c)を繰り返すステップをさらに含む、請求項1に記載の方法。
【請求項3】
(e)各々の補正値を前記テンプレート分子の表現に組み込むステップをさらに含む、請求項2に記載の方法。
【請求項4】
前記表現がフローグラムを含む、請求項3に記載の方法。
【請求項5】
前記位相同期誤差が、前記テンプレート分子の各々の配列位置についてともに実質的に一定であるものとして処理される不完全な伸長要素および繰越要素を含み、前記第1パラメータが、前記不完全な伸長要素を表し、前記第2パラメータが前記繰越要素を表す、請求項2に記載の方法。
【請求項6】
前記位相同期誤差が、前記テンプレート分子の各々の配列位置について実質的に一定であるものとして処理される繰越要素を含み、前記第2パラメータが前記繰越要素を表す、請求項2に記載の方法。
【請求項7】
前記信号が、前記1つまたは複数のヌクレオチドの前記組込みに応じて放射される光を含む、請求項1に記載の方法。
【請求項8】
前記光が、前記配列決定反応からの化学発光光を含む、請求項7に記載の方法。
【請求項9】
前記配列決定反応が、ピロリン酸塩配列決定反応を含む、請求項8に記載の方法。
【請求項10】
前記光が、前記配列決定反応からの蛍光光を含む、請求項7に記載の方法。
【請求項11】
前記配列決定反応が、可逆的ターミネーターを使用する配列決定反応を含む、請求項10に記載の方法。
【請求項12】
前記信号の前記値が、前記組み込まれたヌクレオチドの数を表す、請求項1に記載の方法。
【請求項13】
前記第1パラメータの値、および前記第2パラメータの値が、前記第1および第2パラメータの各々のマトリックス方程式に対するベストフィットを検索することによって概算される、請求項1に記載の方法。
【請求項14】
前記第1および第2パラメータの前記ベストフィットの前記概算が、テスト値間の間隔を使用して検索し、1つまたは複数の近似値を各々のテスト値におけるマトリックス構成演算に適用することを含み、前記近似値が、前記概算の改善された計算効率を提供する、請求項13に記載の方法。
【請求項15】
テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正する方法であって、
(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して生成される信号を検出するステップと、
(b)前記信号の値を生成するステップと、
(c)前記値をテンプレート分子の配列に関連する表現に組み込むステップと、
(d)前記テンプレート分子の各々の配列位置について、ステップ(a)〜(c)を繰り返すステップと、
(e)第1パラメータおよび第2パラメータを使用して、前記表現の前記位相同期誤差の各々の値を補正するステップと、
(f)前記補正値を使用して、補正された表現を生成するステップと
を含む、方法。
【請求項16】
(g)ステップ(e)の前の繰返しからの前記補正値を使用して、ステップ(e)〜(f)を繰返し反復するステップをさらに含み、前記補正値の一部または全部が、各々の繰返しで品質を改善する、請求項15に記載の方法。
【請求項17】
前記位相同期誤差が、前記テンプレート分子の各々の配列位置についてともに実質的に一定であるものとして処理される不完全な伸長要素および繰越要素を含み、前記第1パラメータが、前記不完全な伸長要素を表し、前記第2パラメータが前記繰越要素を表す、請求項15に記載の方法。
【請求項18】
前記位相同期誤差が、前記テンプレート分子の各々の配列位置について実質的に一定であるものとして処理される繰越要素を含み、前記第2パラメータが前記繰越要素を表す、請求項15に記載の方法。
【請求項19】
前記信号が、前記1つまたは複数のヌクレオチドの前記組込みに応じて放射される光を含む、請求項15に記載の方法。
【請求項20】
前記光が、前記配列決定反応からの化学発光光を含む、請求項19に記載の方法。
【請求項21】
前記配列決定反応が、ピロリン酸塩配列決定反応を含む、請求項20に記載の方法。
【請求項22】
前記光が、前記配列決定反応からの蛍光光を含む、請求項19に記載の方法。
【請求項23】
前記配列決定反応が、可逆的ターミネーターを使用する配列決定反応を含む、請求項22に記載の方法。
【請求項24】
前記信号の前記値が、前記組み込まれたヌクレオチドの数を表す、請求項15に記載の方法。
【請求項25】
前記第1パラメータの値、および前記第2パラメータの値が、前記第1および第2パラメータの各々のマトリックス方程式に対するベストフィットを検索することによって概算される、請求項15に記載の方法。
【請求項26】
前記第1および第2パラメータの前記ベストフィットの前記概算が、テスト値間の間隔を使用して検索し、1つまたは複数の近似値を各々のテスト値におけるマトリックス構成演算に適用することを含み、前記近似値が、前記概算の改善された計算効率を提供する、請求項25に記載の方法。
【請求項27】
前記表現および補正された表現がフローグラムを含む、請求項15に記載の方法。
【請求項28】
テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正する方法であって、
(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して生成される信号を検出するステップと、
(b)前記信号の値を生成するステップと、
(c)前記値をテンプレート分子の配列に関連する表現に組み込むステップと、
(d)前記テンプレート分子の各々の配列位置について、ステップ(a)〜(c)を繰り返すステップと、
(e)前記表現を複数の部分集合に分割し、各々の部分集合が前記テンプレート分子の1つまたは複数の配列位置を含むステップと、
(f)各々の部分集合において第1パラメータおよび第2パラメータの前記同期誤差を概算するステップと、
(g)各々の個々の部分集合に関する前記第1パラメータおよび前記第2パラメータの前記同期誤差の概算を使用して、前記位相同期誤差に関する各部分集合の各々の値を補正するステップと、
(h)前記補正値を使用して、前記補正部分集合を補正表現に結合するステップと
を含む、方法。
【請求項29】
前記位相同期誤差が、前記テンプレート分子の複数の配列位置で変動する不完全な伸長要素、および繰越要素を含み、前記第1パラメータが不完全な前記伸長要素を表し、前記第2パラメータが前記繰越要素を表す、請求項28に記載の方法。
【請求項30】
前記位相同期誤差が、前記テンプレート分子の複数の配列位置で変動する繰越要素を含み、前記第2パラメータが前記繰越要素を表す、請求項28に記載の方法。
【請求項31】
テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正するためのシステムであって、
コンピュータ上で実行するために記憶されたプログラムコードを含むコンピュータを備え、前記プログラムコードが、
(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して、検出された信号の値を生成するステップと、
(b)第1パラメータおよび第2パラメータを使用して、前記位相同期誤差の前記値を補正するステップと
を含む方法を実行する、システム。
【請求項32】
前記プログラムコードによって実行される前記方法が、
(c)テンプレート分子の各々の配列位置について、ステップ(a)〜(b)を繰り返すステップ
をさらに含む、請求項31に記載のシステム。
【請求項33】
前記プログラムコードによって実行される前記方法が、
(d)各々の補正値を前記テンプレート分子の表現に組み込むステップ
をさらに含む、請求項32に記載のシステム。
【請求項34】
前記プログラムコードによって実行される前記方法が、
(e)前記表現をユーザに提供するステップ
をさらに含む、請求項33に記載のシステム。
【請求項35】
テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正するシステムであって、
コンピュータ上で実行するために記憶されたプログラムコードを含むコンピュータを備え、前記プログラムコードが、
(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して、検出された信号の値を生成するステップと、
(b)前記値をテンプレート分子の配列に関連する表現に組み込むステップと、
(c)前記テンプレート分子の各々の配列位置について、ステップ(a)〜(b)を繰り返すステップと、
(d)第1パラメータおよび第2パラメータを使用して、前記表現の前記位相同期誤差の各々の値を補正するステップと、
(e)前記補正値を使用して、補正表現を生成するステップと
を含む方法を実行する、システム。
【請求項36】
前記プログラムコードによって実行される前記方法が、
(f)ステップ(d)の前の繰返しからの前記補正値を使用して、ステップ(d)〜(e)を繰返し反復するステップ
をさらに含み、前記補正値の一部または全部が、各々の繰返しで品質を改善する、請求項35に記載のシステム。
【請求項37】
前記繰返し反復するステップが、実行する繰返しの数に関するユーザの選択に応答する、請求項36に記載のシステム。
【請求項38】
前記プログラムコードによって実行される前記方法が、
(f)前記補正された表現をユーザに提供すること
をさらに含む、請求項35に記載のシステム。
【請求項39】
テンプレート分子の実質的に同じコピーの集団から生成された配列データの位相同期に関連する誤差を補正するシステムであって、
コンピュータ上で実行するために記憶されたプログラムコードを含むコンピュータを備え、前記プログラムコードが、
(a)配列決定反応における1つまたは複数のヌクレオチドの組込みに応答して、検出された信号の値を生成するステップと、
(b)前記値をテンプレート分子の配列に関連する表現に組み込むステップと、
(c)前記テンプレート分子の各々の配列位置について、ステップ(a)〜(c)を繰り返すステップと、
(d)前記表現を複数の部分集合に分割し、各々の部分集合が、前記テンプレート分子の1つまたは複数の配列位置を含むステップと、
(e)各々の部分集合において第1パラメータおよび第2パラメータの前記同期誤差を概算するステップと、
(f)各々の個々の部分集合に関する前記第1パラメータおよび前記第2パラメータの前記同期誤差の概算を使用して、前記位相同期誤差に関する各部分集合の各々の値を補正するステップと、
(g)前記補正値を使用して、前記補正部分集合を補正表現に結合するステップと
を含む方法を実行する、システム。


【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公表番号】特表2009−527817(P2009−527817A)
【公表日】平成21年7月30日(2009.7.30)
【国際特許分類】
【出願番号】特願2008−555390(P2008−555390)
【出願日】平成19年2月15日(2007.2.15)
【国際出願番号】PCT/US2007/004187
【国際公開番号】WO2007/098049
【国際公開日】平成19年8月30日(2007.8.30)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Linux
【出願人】(507331232)454 ライフ サイエンシーズ コーポレイション (11)
【Fターム(参考)】