説明

ダブルシグモイドLevenberg−Marquardt及びロバスト線形回帰による温度ステップの補正

【課題】PCRプロセスにおいて発生し得る温度シフトについてPCRデータを補正することにより、PCR増幅曲線のCt判定を改善するシステム及び方法の提供。
【解決手段】Levenberg−Marquardt(LM)回帰プロセスによって判定されたパラメータを有するダブルシグモイド関数を使用することにより、温度シフト(これは、「CAC」と呼ばれ、温度シフトの起こるサイクルである)の後の領域内の曲線の部分に対する近似を検出し、温度シフトの前の領域内の曲線の部分についてロバスト線形近似を判定し、線形近似とLMプロセスの両方を使用することにより、サイクルCAC又はCAC+1における蛍光強度の値を判定し、これらの値の間の差を発生した温度シフトの前の曲線の部分を表しているデータセットの部分から減算することにより、シフトについて補正されたデータセットを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、シグモイド又は成長曲線を表すデータを処理するシステム及び方法に関するものであり、更に詳しくは、温度シフトを補正し、PCR増幅曲線の特徴的なサイクル閾値(Cycle Threshold:Ct)又はエルボー値を判定するシステム及び方法に関するものである。
【背景技術】
【0002】
ポリメラーゼ連鎖反応(Polymerase Chain Reaction:PCR)は、規定の核酸シーケンスを酵素によって合成又は増幅するin vitro方法である。この反応においては、通常、対立するストランドにハイブリダイズし、増幅対象の鋳型又は標的DNA配列をはさむ2本のオリゴヌクレオチドプライマーを使用する。プライマーの伸長は熱安定性を有するDNAポリメラーゼによって触媒する。鋳型の変性、プライマーのアニーリング、及びアニーリングされたプライマーのポリメラーゼによる伸長を伴う反復的な一連のサイクルの結果として、特定のDNAフラグメントが指数的に蓄積される。通常、このプロセスにおいては、増幅プロセスの検出及び定量化を円滑に実行するべく、蛍光プローブ又はマーカーが使用されている。
【0003】
図1には、代表的なリアルタイムのPCR曲線が示されており、代表的なPCRプロセスにおける蛍光強度値がサイクル数に対してプロットされている。このケースにおいては、PCRプロセスのそれぞれのサイクルにおいて、PCR産物の形成を監視している。増幅は、通常、増幅反応の際に蛍光信号を計測するコンポーネント及び装置を含むサーモサイクラー内において計測される。このようなサーモサイクラーの一例が、Roche Diagnostics LightCyclerである(Cat. No.20110468)。例えば、増幅産物は、標的核酸に結合された際にのみ蛍光信号を放出する蛍光標識ハイブリダイゼーションプローブによるか、或いは、特定のケースにおいては、二本鎖DNAに結合する蛍光染料により、検出される。
【0004】
代表的なPCR曲線において、ベースライン領域の終点における遷移点(これは、一般に、エルボー値又はサイクル閾値(Ct)と呼ばれている)を識別することは、PCR増幅プロセスの特性を理解するのに非常に有用である。Ct値は、PCRプロセスの効率の尺度として使用可能である。例えば、通常、分析対象であるすべての反応について定義済みの信号閾値を決定し、この閾値に到達するのに必要なサイクル数(Ct)を標的核酸及び標準又はハウスキーピング遺伝子などの基準核酸について判定する。標的核酸及び基準核酸について得られたCt値に基づいて、標的分子の絶対的又は相対的な複写数を判定可能である(Gibson他による「Genome Research」(6巻、995〜1001頁)、Bieche他による「Cancer Research」(59巻、2759〜2765頁、1999年)、WO 97/46707、WO 97/46712、WO 97/46714)。図1のベースライン領域(15)の終点における領域20内のエルボー値は、サイクル数30の領域内に位置することになろう。
【0005】
HIV分析などのいくつかのPCR分析においては、通常、PCR反応の際に、アニーリング温度の変化が存在している。この温度変化の結果、その温度変化の起こるサイクル数において蛍光信号のシフトが発生する。従って、正しいCt値を算出するには、この信号の変化を補正することが必要である。温度変化が発生するサイクルは判明しており、ベースラインが完全にフラットであって、スパイクを有していない場合には、この温度シフトの補正は、容易なものとなろう。しかしながら、ベースラインは、多くの場合に、傾斜しており、且つ、任意の位置に信号スパイク(異常値)を含んでいる可能性がある。温度変化の位置においてスパイクが発生している場合には、ベースライン曲線の補正は、更に困難なものとなる。
【発明の開示】
【発明が解決しようとする課題】
【0006】
従って、前述の及びその他の問題点を克服するシグモイドタイプ又は成長曲線などの曲線(特に、PCR曲線)のエルボー値を判定するシステム及び方法を提供することが望ましい。特に、これらのシステム及び方法は、異常値などのアーチファクトに対して信頼性が高く且つ安定した方式によって温度ステップの補正を実装する必要がある。
【課題を解決するための手段】
【0007】
本発明は、PCRプロセスにおいて発生し得る温度シフトについてPCRデータを補正することにより、PCR増幅曲線のCt判定を改善するシステム及び方法を提供する。
【0008】
一態様によれば、ダブルシグモイド関数をLevenberg−Marquardt(LM)回帰プロセスによって判定されたパラメータと共に使用することにより、温度シフト(これは、「CAC」と呼ばれ、温度シフトの起こるサイクルである)の後の領域内の曲線の部分に対する近似を検出する。温度シフトの前の領域内の曲線の部分についてロバスト線形近似を判定する。線形近似とLMプロセスの両方を使用することにより、サイクルCAC又はCAC+1における蛍光強度の値を判定し、これらの差を発生した温度変化の前の曲線の部分を表しているデータセットの部分から減算することにより、シフトについて補正されたデータセットを生成する。次いで、このシフトについて補正済みのデータセットを返却し、これを表示するか又は更なる処理のために使用可能である。
【0009】
本発明の第1の態様においては、ベースライン部分及び成長部分を具備するポリメラーゼ連鎖反応(PCR)成長曲線のデータセット内における温度ステップの変化を補正するためのコンピュータにより実行する方法が提供され、この方法は、PCR成長曲線のデータセットを受領する段階であって、このデータセットは、それぞれのデータポイントが座標値のペア(x,y)を具備する動的なポリメラーゼ連鎖反応(PCR)の複数のデータポイントを含んでおり、この場合に、xは、サイクル数を表し、yは、増幅されたポリヌクレオチドの蓄積を表している、段階と;曲線の第1部分に対する線形近似を算出する段階であって、この第1部分は、PCRプロセス内においてアニーリング温度の変化の起こるサイクル数(CAC)以下のサイクル数を含むデータセット内のデータポイントを含んでいる、段階と;曲線の第1部分の線形近似を使用し、第1のx値における第1のy値を推定する段階と;Levenberg−Marquardt(LM)回帰プロセスをデータセットの第2部分とダブルシグモイド関数に適用して関数のパラメータを判定することにより、曲線の第2部分に対する近似を算出する段階であって、このデータセットの第2部分は、CACを上回るサイクル数を具備するデータポイントを含んでいる、段階と;曲線の第2部分について算出された近似を使用し、第1のx値における第2のy値を推定する段階と;第1及び第2のy値の間の差を判定する段階と;この差を曲線の第1部分に対応するデータポイントのそれぞれのy値から減算することにより、修正されたデータセットを生成する段階と;を有している。
【0010】
本発明の第2の態様においては、プロセッサを制御し、ベースライン部分及び成長部分を具備するポリメラーゼ連鎖反応(PCR)成長曲線のデータセット内の温度ステップの変化を補正するためのコードを含むコンピュータ可読媒体が提供され、このコードは、PCR成長曲線のデータセットを受領する段階であって、このデータセットは、それぞれのデータポイントが座標値のペア(x,y)を具備する動的なポリメラーゼ連鎖反応(PCR)プロセスの複数のデータポイントを含んでおり、この場合に、xは、サイクル数を表し、yは、増幅されたポリヌクレオチドの蓄積を表している、段階と;曲線の第1部分に対する線形近似を算出する段階であって、この第1部分は、PCRプロセス内においてアニーリング温度の変化の起こるサイクル数(CAC)以下のサイクル数を含むデータセット内のデータポイントを含んでいる、段階と;曲線の第1部分の線形近似を使用して第1のx値における第1のy値を推定する段階と;Levenberg−Marquardt(LM)回帰プロセスをデータセットの第2部分とダブルシグモイド関数に適用して関数のパラメータを判定することにより、曲線の第2部分に対する近似を算出する段階であって、このデータセットの第2部分は、CACを上回るサイクル数を具備するデータポイントを含んでいる、段階と;曲線の第2部分について算出された近似を使用し、第1のx値における第2のy値を推定する段階と;第1及び第2のy値の間の差を判定する段階と;この差を曲線の第1部分に対応するデータポイントのそれぞれのy値から減算することにより、修正されたデータセットを生成する段階と;を実行するための命令を含んでいる。
【0011】
本発明の更に別の態様においては、動的なポリメラーゼ連鎖反応(PCR)システムが提供され、このシステムは、ベースライン部分及び成長部分を具備する動的なPCR増幅曲線を表すPCRデータセットを生成する動的なPCR分析モジュールであって、このデータセットは、それぞれのデータポイントが座標値のペア(x,y)を具備する複数のデータポイントを含んでおり、この場合に、xは、サイクル数を表し、yは、増幅されたポリヌクレオチドの蓄積を表している、動的PCR分析モジュールと;曲線の第1部分に対する線形近似を算出する段階であって、この第1部分は、PCRプロセスにおいてアニーリング温度の変化の起こるサイクル数(CAC)以下のサイクル数を含むデータセット内のデータポイントを含んでいる、段階と、曲線の第1部分の線形近似を使用し、第1のx値における第1のy値を推定する段階と、Levenberg−Marquardt(LM)回帰プロセスをデータセットの第2部分及びダブルシグモイド関数に適用して関数のパラメータを判定することにより、曲線の第2部分に対する近似を算出する段階であって、このデータセットの第2部分は、CACを上回るサイクル数を具備するデータポイントを含んでいる、段階と、曲線の第2部分について算出された近似を使用し、第1のx値における第2のy値を推定する段階と、第1及び第2のy値の間の差を判定する段階と、この差を曲線の第1部分に対応するデータポイントのそれぞれのy値から減算することにより、修正されたデータセットを生成する段階と、により、PCRデータセットを処理し、データセット内の温度ステップの変化を補正するべく適合されたインテリジェンスモジュールと;を有している。
【0012】
図面及び請求項を含む本明細書の残りの部分を参照することにより、本発明のその他の特徴及び利点について理解することができよう。以下、添付の図面との関連において、本発明の更なる特徴及び利点、並びに、本発明の様々な実施例の構造及び動作について詳細に説明する。尚、これらの添付図面においては、類似の参照符号により、同一又は機能的に類似した要素を示している。
【発明を実施するための最良の形態】
【0013】
本発明は、PCRプロセスにおいて発生し得る温度シフトについてPCR増幅曲線を補正するためのシステム及び方法を提供する。温度シフトの一例が、この分析法の特定のサイクルにおけるアニーリング温度の制御された変化である。通常、この温度シフトは、ベースライン領域によって表されているプロセスの一部において発生する。この温度変化の結果、そのシフトの起こるサイクル数において、蛍光信号のシフトが発生する。本明細書においては、温度変化の起こるサイクルをCAC(Cycle of Annealing Change)と呼ぶこととする。特定の態様においては、Levenberg−Marquardt回帰プロセスによって判定されたパラメータを有するダブルシグモイド関数を使用することにより、温度シフトの後の領域内の曲線の部分に対する近似を検出する。温度シフトの前の領域内の曲線の部分についてロバスト線形近似を判定する。線形近似及びLMプロセスの両方を使用してサイクルCAC+1における蛍光強度の値を判定し、次いで、これらの値の差を発生した温度シフトの前の曲線の部分を表しているデータセットの部分から減算することにより、シフトについて補正されたデータセットを生成する。次いで、このシフトについて補正済みのデータセットが返され、これを表示するか又は更なる処理のために使用可能である。例えば、シフトについて補正済みのデータセットを使用することにより、PCR分析のCt値を判定可能である。又、補正済みのデータセットを処理することにより、ロバスト線形近似を判定するべく処理されたデータセットの部分内に存在し得るスパイクを除去することも可能である。
【0014】
図1には、PCRプロセスの環境における増幅曲線10の一例が示されている。図示のように、曲線10は、ラグフェーズ領域15と、指数フェーズ領域25と、を含んでいる。ラグフェーズ領域15は、一般に、ベースライン又はベースライン領域と呼ばれている。このような曲線10は、ラグフェーズ領域と指数フェーズ領域をリンクしている関心の対象である遷移領域20を含んでいる。領域20は、一般に、エルボー又はエルボー領域と呼ばれている。エルボー領域は、通常、ベースラインの終点と、基礎となっているプロセスの成長又は増幅レートにおける遷移と、を定義している。領域20内の特定の遷移ポイントを識別することは、基礎となっているプロセスの振る舞いを分析するのに有用であろう。代表的なPCR曲線において、エルボー値又はサイクル閾値(Ct)と呼ばれる遷移ポイントを識別することは、そのPCRプロセスの効率特性を理解するのに非常に有用である。
【0015】
同様のシグモイド又は成長曲線を提供可能なその他のプロセスは、バクテリアプロセス、酵素プロセス、及び結合プロセスを含んでいる。例えば、バクテリア増殖曲線においては、関心の対象である遷移ポイントは、ラグフェーズにおける時点θと呼ばれている。本発明に従って分析可能なデータ曲線を生成するその他の具体的なプロセスは、SDA(Strand Displacement Amplification)プロセス、NASBA(Nucleic Acid Sequence−Based Amplification)プロセス、及びTMA(Transcription Mediated Amplification)プロセスを含んでいる。SDA及びNASBAプロセスの例及びデータ曲線については、それぞれ、Wang,Sha−Sha他による「Homogeneous Real−Time Detection of Single−Nucleotide Polymorphisms by Strand Displacement Amplification on the BD ProbeTec ET System」(Clin Chem、2003年、49(10)、1599頁)と、Weusten、Jos J.A.M.他による「Principles of Quantitation of Viral Loads Using Nucleic Acid Sequence−Based Amplification in combination With Homogeneous Detection Using Molecular Beacons」(Nucleic Acids Research、2002年、30(6)、26)を参照されたい。従って、本明細書の残りの部分においては、PCR曲線に対するその適用可能性の観点から本発明の実施例及び態様について説明することとするが、本発明は、その他のプロセスに関係したデータ曲線にも適用可能であることを理解されたい。
【0016】
図1に示されているように、代表的なPCR成長曲線のデータは、例えば、x軸を規定するPCRサイクル数と、y軸を規定する蓄積されたポリヌクレオチドの成長のインジケータと、によるものなどの2次元座標系において表現可能である。蛍光マーカーの使用が、恐らくは、最も広範に使用されている標識の方式であることから、通常は、図1に示されているように、蓄積された成長のインジケータは、蛍光の強度値である。但し、使用する特定の標識及び/又は検出の方式に応じて、その他のインジケータを使用することも可能であることを理解されたい。発生量又は蓄積された信号成長のその他の有用なインジケータの例には、ルミネッセンス強度、化学ルミネッセンス強度、生物ルミネッセンス強度、燐光強度、電荷転送、電圧、電流、電力、エネルギー、温度、粘度、光散乱、放射性強度、反射率、透過率、及び吸収率が含まれている。サイクルの定義も、時間、プロセスサイクル、単位動作サイクル、及び再生サイクルを包含可能である。
【0017】
図2A及び図2Bは、サイクル14におけるスパイクと共にサイクル15における温度シフトを有するPCR曲線の一例を示しており、図2Bは、拡大図である。例えば、LM回帰プロセスなどの回帰プロセスを使用してPCRデータセット全体を処理した場合には、データに対するダブルシグモイドの全体的なフィットは、図2C及び図2D(拡大図)に示されているような外観を有することになる。この図2C及び図2Dは、ダブルシグモイドが、データポイント全体に対してフィットしてはいるが、当然のことながら、アニーリング温度の変化が発生しているサイクルであるCACにおける不連続性を十分に処理することはできないことを示している。この例においては、CACは、サイクル15である。この代わりに、サイクル16〜最終サイクルにおけるデータポイントをLM回帰において使用した場合に結果的に得られる曲線フィットが、それぞれ、図2E及び図2Fに示されており、図2Fは、拡大図である。図2Fの曲線フィットは、データセット全体を使用した図2Dと比べて、CAC+1〜最終サイクルにおけるデータセットにおいて、格段に良好なものになっている。
【0018】
全体的なプロセスの概要
本発明によれば、温度シフトを補正し、動的なPCR増幅曲線のエルボー値又はCt値などのシングルシグモイド曲線の遷移値を判定するためのプロセスの一実施例100について、図3を参照することにより、簡潔に説明可能である。段階110において、曲線を表す実験データセットを受領又は取得する。又、温度シフトの起こるサイクルについても識別する。通常、このサイクル値については、先験的に判明しており、例えば、データを供給する装置又は機器によって記録されている。図1には、プロットされたPCRデータセットの一例が示されており、この場合に、y軸及びx軸は、それぞれ、PCR曲線における蛍光強度とサイクル数を表している。特定の態様においては、データセットは、連続しており、且つ、軸に沿って均等に離隔したデータを包含する必要がある。
【0019】
本発明の典型的な実施例においては、本方法は、キーボード、マウス、及びこれらに類似したものなどのデータセットを入力するための入力装置;モニターなどの曲線の領域内の関心の対象である特定のポイントを表すための表示装置;CPUなどの本方法のそれぞれの段階を実行するのに必要な処理装置;モデムなどのネットワークインターフェイス;データセットを保存するためのデータストレージ装置;プロセッサ上において稼動するコンピュータコード;及びこれらに類似したものを含む(但し、これらに限定されない)従来のパーソナルコンピュータシステムを使用することによって実行可能である。又、本方法は、PCR装置内で実行することも可能である。
【0020】
図15には、本発明によるシステムが示されている。この図は、ソフトウェア及びハードウェアリソース間における関係を示す概略的なブロックダイアグラムを示している。本システムは、サーモサイクラー内に配置可能な動的PCR分析モジュールと、コンピュータシステムの一部であるインテリジェンスモジュールと、を有している。データセット(PCRデータセット)は、ネットワーク接続又は直接接続を介して分析モジュールからインテリジェンスモジュールに(又は、この逆方向に)転送される。データセットは、プロセッサ上において稼動していると共にインテリジェンスモジュールのストレージ装置内に保存されているコンピュータコードにより、図3に示されている方法に従って処理された後に、分析モジュールのストレージ装置に返送され、変更されたデータを表示装置上に表示可能である。特定の実施例においては、PCRデータ取得装置内にインテリジェントモジュールを実装することも可能である。
【0021】
プロセス100が、サーモサイクラーなどのPCRデータ取得装置内に位置するインテリジェンスモジュール内で(例えば、プロセッサ実行命令として)実行されるケースにおいては、データの収集に伴って、データセットをリアルタイムでインテリジェンスモジュールに供給可能であり、或いは、メモリユニット又はバッファ内に保存し、実験が完了した後に、インテリジェンスモジュールに供給することも可能である。同様に、データセットは、取得装置に対するネットワーク接続(例えば、LAN、VPN、イントラネット、インターネットなど)又は直接接続(例えば、USBやその他の直接的な有線又は無線接続)を介してデスクトップコンピュータシステムやその他のコンピュータシステムなどの別個のシステムに供給することも可能であり、或いは、CD、DVD、フロッピー(登録商標)ディスク、又はこれらに類似したものなどの携帯型の媒体上において供給することも可能である。特定の態様においては、データセットは、座標値のペアを具備するデータポイント(又は、2次元ベクトル)を含んでいる。PCRデータの場合には、座標値のペアは、通常、サイクル数と蛍光強度値を表している。段階110においてデータセットの受領又は取得が完了した後に、データセットを分析することにより、例えば、分析における温度シフトについて補正し、ベースライン領域の終点を判定可能である。
【0022】
段階115において、サイクル1〜サイクルCACにおけるデータポイントに基づいて、線形のロバスト近似を演算する。図4Aは、温度シフトを有するPCRデータセットのサイクル1〜サイクルCACにおけるデータセットの部分の線形近似の一例を示している。このロバスト線形近似を使用することにより、例えば、外挿により、CAC+1における蛍光レベルを推定する。段階120において、CAC値の後の曲線の部分(例えば、曲線の増幅部分)の近似を算出する。この段階において、一実施例においては、Levenberg−Marquardt(LM)回帰プロセス又はその他の回帰プロセスによって判定されたパラメータを有するダブルシグモイド関数を使用することにより、データセット内のサイクルCAC+1〜最終サイクルにおけるデータセットの部分を表す曲線の近似を検出している。この近似は、異常値又はスパイクポイントが曲線フィットの品質に対して最小限の影響を具備しているため、「ロバスト」と呼ばれている。図4Bは、図4AのPCRデータセットのCAC+1サイクル〜最終サイクルにおけるデータセットの部分の近似の一例を示しており、この場合には、Levenberg−Marquardt回帰プロセスを使用してダブルシグモイド関数のパラメータを判定することにより、近似を判定している。このダブルシグモイドの推定段階により、サイクルCAC+1における蛍光レベルの推定値を返している。又、これにより、サイクルCAC+1と最終サイクル間における曲線上に存在しているスパイクについてもデータを補正する。
【0023】
段階125において、ロバスト線形回帰とロバストダブルシグモイド推定によって演算されたサイクルCAC+1における蛍光レベルの差を算出することにより、温度シフトを判定する。そして、段階128の温度シフトの補正において、この値をサイクル1〜サイクルCACにおけるデータポイントから減算する。図4Cは、図4A及び図4Bに示されているデータセットの温度シフトについて補正されたデータの一例を示している。
【0024】
任意選択の段階130においては、シフトについて補正済みのデータを使用し、スパイク除去プロセス(例えば、Levenberg−Marquardtスパイク除去プロセス)を実行することにより、残存している1つ又は複数のスパイク(特に、ステップ補正済みの曲線のベースライン領域内の1つ又は複数のスパイク)を検出及び補正している。後程詳述するように、図6は、PCR又はその他の成長曲線を表すデータセット内のスパイクポイントを識別及び置換するためのプロセスフローを示している。
【0025】
段階135において、シフト補正済みの修正されたデータセットが、例えば、図4Cに示されているように、表示又はその他の処理のために返される。次いで、段階140において、この正規化された曲線を処理することにより、Ct値を判定し、この結果(シフト補正済みのデータ及び/又はCt値)を、例えば、分析を実行したシステム又は分析を要求した別個のシステムに対して返す。図3の分析を実行したシステムに結合されているモニター画面又はプリンタなどの表示装置によってグラフィカルな表示をレンダリングすることも可能であり、或いは、表示装置上においてレンダリングする別個のシステムに対してデータを供給することも可能である。Ct値は、シフト補正済みのデータセットを使用することにより、様々な方法によって判定可能である。例えば、一態様においては、米国特許出願第11/316315号及び第11/349550号を使用することにより、Ct値を判定可能である。
【0026】
ロバスト線形回帰
温度の変化は、PCR曲線のベースライン領域内において発生する。通常、PCR曲線のベースライン領域は、f(s)=slope・x+interceptという形態の線形関数によって近似可能であり、ここで、xは、サイクル数を表している。線形近似の変数slope及びinterceptの最良の値を検出するべく、一態様においては、ロバスト線形回帰を使用している。その他の回帰法又はフィット関数を使用することも可能であるが、スパイクなどのアーチファクトが回帰の品質に対して及ぼす影響を最小化するためには、その他の方法(例えば、最小二乗法)よりも、ロバスト線形フィットのほうが好ましい。
【0027】
一態様によれば、ロバスト線形回帰においては、
【0028】
【数1】

【0029】
の値を最小化しており、slopeの値が固定されている場合に、式(1)を最小化するinterceptの値は、次式のとおりである。
【0030】
intercept=median{yi−slope・xi} (2)
【0031】
この結果、次式の根としてslopeの値を検出可能である。
【0032】
【数2】

【0033】
ここで、sgn()は、次のように定義されたサイン関数である。
【0034】
x>0の場合に、sgn(x)=1
x=0の場合に、sgn(x)=0
x<0の場合に、sgn(x)=−1
【0035】
式(2)を式(3)に代入することにより、1つの未知数を有する1つの式が得られる。特定の態様においては、この結果的に得られた式を二分法を使用して解いている。
【0036】
二分法とは、インターバルを反復的に半分に分割し、根が存在しているサブインターバルを選択することによって機能する根検出アルゴリズムである。本発明のロバスト線形回帰においては、二分法を使用して次式を解いている。
【0037】
【数3】

【0038】
ここで、xiは、サイクル数であり、yiは、サイクルxiにおける蛍光レベルであり、N=CACである。二分法を使用することにより、式(4)を最小化するslope変数の値を検出する(この変数は、PCR曲線のベースラインのスロープを表しており、特定の態様においては、[−0.2;0.2]というインターバル内の値を取得する)。図5には、式(4)の関数の代表的な形状が示されている。
【0039】
二分法は、線形で収束する。これは、低速ではあるが、対象のインターバルが根を含んでいる場合には、収束することが保証されている。一態様においては、初期収束インターバルを[−0.2;0.2]と定義し、二分アルゴリズムの100回の反復を実行している。尚、更に小さな又は更に大きなインターバルを使用することも可能であり、且つ、更に多くの又は更に少ない反復を実行することも可能であることを理解されたい。
【0040】
本発明の一態様に従って二分法を実行するためのMathematica(商標)のコードの一例を次に提示する。
【0041】
abValue[data_]:=Module[{},
RSum[b_]:=Sum[(data[[i,1]*sign[(data[[i,2]]−a[b]−b data[[i,1]])]),{i,1,Length[data]}];
a[b_]:=Median[Table[(data[[i,2]]−b data[[i,1]]),{i,1,Length[data]}]];
Lx=−0.2;
Rx=0.2:
RsumL=RSum[Lx];
RsumR=RSum[Rx];
Nx=(Lx+Rx)/2;
RsumNx=RSum[Nx];
For[i=1,i≦100,i++,

If[RsumL<0 && RsumNx>0,Rx=Nx];
If[RsumL<0 && RsumNx<0,Lx=Nx];
If[RsumL>0 && RsumNx<0,Rx=Nx];
If[RsumL>0 && RsumNx>0,Lx=Nx];
RsumL=RSum[Lx];
RsumR=RSum[Rx];
Nx=(Lx+Rx)/2;
PT[[i,1]]=i;
PT[[i,2]]=Lx;
PT[[i,3]]=Rx;
RsumNx=Rsum[Nx];
}]

【0042】
LM回帰プロセス
前述のように、図6は、PCR又はその他の成長曲線を表すデータセット内のスパイクポイントを識別及び置換するためのプロセスフローを示している。図6の段階502〜段階524も、データセットの曲線を近似し、フィット関数のパラメータを判定するためのプロセスフローを示している。一実施例においては、Levenberg−Marquardt(LM)法を使用することにより、サイクルCAC+1〜最終サイクルの曲線ポイント上におけるデータセットのロバスト曲線近似を算出する。スパイクなどのアーチファクトが推定の品質に対して及ぼす影響を最小化するべく、LM回帰を使用してサイクルCAC+1における蛍光レベルの推定値を演算する。LM法は、非線形回帰プロセスであり、これは、非線形関数とデータセット間の距離を最小化する反復的な技法である。このプロセスは、最急降下プロセスとGauss−Newtonプロセスの組み合わせのように振舞い、現在の近似が十分にフィットしていない場合には、最急降下プロセスのように振舞うが(これは、低速であるが、相対的に高い信頼性を有する収束である)、現在の近似が正確になるに伴って、Gauss−Newtonプロセスのように振舞うことになる(これは、相対的に高速であるが、相対的に低い信頼性を有する収束である)。
【0043】
一般的に、LM回帰法は、様々な入力を必要とすると共に出力を供給するアルゴリズムを含んでいる。一態様においては、入力は、処理の対象であるデータセットと、このデータへのフィットに使用される関数と、この関数のパラメータ又は変数の初期推定値と、を含んでいる。出力は、関数とデータセット間の距離を最小化する関数のパラメータの組を含んでいる。
【0044】
一実施例においては、フィット関数は、次のようなダブルシグモイドの形態を有している。
【0045】
f(x)=a+bx+c/((1+exp-d(x-e))(1+exp-f(x-g))) (5)
【0046】
この式をフィット関数として選択した理由は、代表的なPCR曲線又はその他の成長曲線が有する様々な曲線形状にフィットするためのその柔軟性とその能力に基づいている。当業者であれば、必要に応じて、前述のフィット関数やその他のフィット関数の変形を使用可能であることを理解するであろう。
【0047】
ダブルシグモイド式(1)は、a、b、c、d、e、f、及びgという7つのパラメータを具備している。この式は、定数、スロープ、及びダブルシグモイドの和に分解可能である。ダブルシグモイド自体は、2つのシグモイドの乗算である。図7は、ダブルシグモイド式(5)の分解を示している。パラメータd、e、f、及びgは、2つのシグモイドの形状を決定している。最終的な曲線に対するこれらの影響を示すために、次のシングルシグモイドを検討してみよう。
【0048】
1/(1+exp-d(x-e)) (6)
【0049】
ここで、パラメータdは、曲線の「シャープネス」を決定しており、パラメータeは、変曲点のx値を決定している。図8は、曲線に対するパラメータdの影響と、変曲点のx値の位置に対するパラメータeの影響と、を示している。次の表1は、ダブルシグモイド曲線に対するパラメータの影響を示している。
【0050】
【表1】

【0051】
一態様においては、曲線が非現実的な形状を獲得することを防止するべく、ダブルシグモイド式の「シャープネス」パラメータd及びfを制約する必要がある。従って、一態様においては、d<−1又はd>1.1、或いは、f<−1又はf>1.1におけるすべての反復を失敗と見なしている。その他の態様においては、パラメータd及びfに対する異なる制約を使用可能である。
【0052】
Levenberg−Marquardtアルゴリズムは、反復的なアルゴリズムであるため、通常は、フィットのための関数のパラメータの初期推定値を必要としている。初期推定値が良好であればあるほど、近似も良好になり、アルゴリズムが局所的な最小値に向かって収束する可能性も低くなる。ダブルシグモイド関数の複雑性とPCR曲線又はその他の成長曲線の様々な形状に起因し、アルゴリズムが局所的な最小値に収束することを防止するには、多くの場合に、すべてのパラメータにおける1つの初期推定値だけでは、十分ではないであろう。従って、一態様においては、複数(例えば、3つ以上)の初期パラメータの組を入力し、最良の結果を保持している。一態様においては、使用している複数のパラメータの組にわたって、大部分のパラメータを一定に保持しており、複数のパラメータの組のそれぞれごとに異なってよいのは、パラメータc、d、及びfのみである。図9は、異なるパラメータの組における3つの曲線形状の例を示している。これらの3つのパラメータの組の選択は、PCRデータを表す曲線の3つの可能な異なる形状を示している。3つを上回る数のパラメータの組を処理して最良のものを保持することも可能であることを理解されたい。
【0053】
図6に示されているように、段階510において、LM法の初期入力パラメータを識別している。これらのパラメータは、操作者が入力するか又は算出可能である。一態様によれば、これらのパラメータは、後述するように、段階502、504、及び506によって判定又は設定されている。
【0054】
初期パラメータ(a)の算出
パラメータ(a)は、ベースラインの高さであり、この値は、初期パラメータのすべての組にわたって同一である。一態様においては、段階504において、データセットから、3番目に小さいy軸値(例えば、蛍光値)がパラメータ(a)に割り当てられている。この結果、安定した計算が可能である。当然のことながら、その他の態様においては、必要に応じて、最小のy軸値や2番目に小さい値などの任意のその他の蛍光値をパラメータ(a)に割り当て可能である。
【0055】
初期パラメータ(b)の算出
パラメータ(b)は、ベースライン及びプラトーのスロープである。この値は、初期パラメータのすべての組にわたって同一である。理想的には、なんらのスロープも存在するべきではないことから、一態様においては、段階502において、0.01という固定値を(b)に対して割り当てている。その他の態様においては、例えば、0〜約0.5の範囲の値などの異なる値をパラメータ(b)に対して割り当て可能である。一態様においては、値(b)は、CAC+1〜ベースラインの終点のベースラインスロープを表している。
【0056】
初期パラメータ(c)の算出
パラメータ(c)は、プラトーの高さ−ベースラインの高さを表しており、これは、AFI(Absolute Fluorescence Increase)として表記される。一態様においては、最初のパラメータの組の場合に、c=AFI+2であり、最後の2つのパラメータの場合には、c=AFIである。これが図9に示されており、この場合には、最後の2つのパラメータの組の場合に、c=AFIであり、最初のパラメータの組の場合には、c=AFI+2である。この変化は、最初のパラメータの組によってモデル化された曲線の形状に起因するものであり、これは、プラトーを具備していない。
【0057】
パラメータ(d)及び(f)の算出
パラメータ(d)及び(f)は、2つのシグモイドのシャープネスを定義している。これらのパラメータにおける曲線に基づいて近似を付与する方法は存在していないことから、一態様においては、段階502において、3つの代表的な固定値を使用している。その他の固定した又は固定されていない値をパラメータ(d)及び/又は(f)に使用することも可能であることを理解されたい。これらのペアは、遭遇するPCR曲線の大部分の共通的な形状をモデル化している。次の表2は、図6に示されているパラメータの異なる組における(d)及び(f)の値を示している。
【0058】
【表2】

【0059】
パラメータ(e)及び(g)の算出
段階506において、パラメータ(e)及び(g)を判定している。パラメータ(e)及び(g)は、2つのシグモイドの変曲点を定義している。一態様においては、これらは、いずれも、すべての初期パラメータの組にわたって同一の値を有している。パラメータ(e)及び(g)は、同一又は異なる値を具備可能である。近似を検出するべく、一態様においては、強度の平均を上回る最初のポイントのx値を使用している(これは、例えば、蛍光であるが、スパイクではない)。この態様に従って(e)及び(g)の値を判定するプロセスが図10に示されており、以下、これについて説明する。
【0060】
図10を参照すれば、まず、曲線の平均(例えば、蛍光強度)を判定している。次いで、平均を上回る最初のデータポイントを識別している。次いで、(a)そのポイントが、曲線の開始点の近傍(例えば、最初の5サイクル内)に位置していないかどうか、(b)そのポイントが、曲線の終点の近傍(例えば、最後の5つのサイクル内)に位置していないかどうか、及び(c)そのポイントの周り(例えば、その周りの2ポイントの半径内)の導関数が符号の変化を示していないかどうか(変化を示している場合には、そのポイントは、スパイクである可能性が高く、従って、拒絶する必要がある)を判定している。
【0061】
次の表3は、一態様による図9に使用されている初期パラメータ値の例を示している。
【0062】
【表3】

【0063】
再度図6を参照すれば、段階510において、すべてのパラメータが設定された後に、入力されたデータセット、関数、及びパラメータを使用してLMプロセス520を実行する。従来は、Levenberg−Marquardt法を使用することにより、非線形の最小二乗問題を解決している。従来のLM法においては、曲線の近似とデータセット間の誤差の二乗の合計として定義されている距離の尺度を算出している。しかしながら、二乗の合計を最小化する場合には、異常値の距離が、スパイクではないデータポイントの距離を上回っているために、異常値に対して大きな重みが付与されることになり、この結果、しばしば、不適切な曲線や好ましくない曲線が得られることになってしまう。従って、本発明の一態様によれば、絶対誤差の合計を極小化することにより、近似とデータセット間の距離を演算している(この結果、この場合には、異常値に対して大きな重みが付与されない)。この態様においては、近似とデータ間の距離は、次式によって付与される。
【0064】
距離=Σ|ydata−yapproximation| (7)
【0065】
前述のように、一態様においては、段階522及び段階524に示されているように、複数(例えば、3つ)の初期パラメータの組のそれぞれを入力し、処理した後に、最良の結果を保持しており、この最良の結果は、式(7)における最も小さい又は最小の距離を提供するパラメータの組である。一態様においては、パラメータの大部分を複数のパラメータの組にわたって一定に保持しており、パラメータのそれぞれの組ごとに異なってよいのは、c、d、及びfのみである。任意の数の初期パラメータの組を使用可能であることを理解されたい。
【0066】
図11は、本発明によるパラメータの組におけるLMプロセス520のプロセスフローを示している。前述のように、Levenberg−Marquardt法は、最急降下プロセス又はGauss−Newtonプロセスのように動作可能である。この振る舞いは、減衰係数λによって左右される。λが大きいほど、Levenberg−Marquardtアルゴリズムは、最急降下プロセスのように振舞うことになる。一方、λが小さいほど、Levenberg−Marquardtアルゴリズムは、Gauss−Newtonプロセスのように振舞うことになる。一態様においては、λは、0.001から始まっている。λは、0.000001〜約1.0などの任意のその他の値から始まることも可能であることを理解されたい。
【0067】
前述のように、Levenberg−Marquardt法は、反復的な技法である。一態様によれば、図11に示されているように、それぞれの反復において、次の各段階を実行している。
【0068】
1.先行する近似のヘッセ行列(H)を算出する。
【0069】
2.先行する近似の転置ヤコビ行列(JT)を算出する。
【0070】
3.先行する近似の距離ベクトル(d)を算出する。
【0071】
4.現在の減衰係数λにより、次のようにヘッセ行列の対角項を増大させる。
【0072】
aug=Hλ (4)
【0073】
5.増大した式を次のように解く。
【0074】
augx=JTd (5)
【0075】
6.増大した式の解xを関数のパラメータに追加する。
【0076】
7.新しい近似及び曲線間の距離を算出する。
【0077】
8.新しいパラメータの組を有する距離が、以前のパラメータの組を有する距離を下回っている場合には、・その反復は成功であると見なされ、・パラメータの新しい組を維持又は保存し、・減衰係数λを(例えば、係数10だけ)減少させる。新しいパラメータの組を有する距離が、以前のパラメータの組を有する距離を上回っている場合には、・その反復は失敗であると見なされ、・パラメータの新しい組を破棄し、・減衰係数λを(例えば、係数10だけ)増大させる。
【0078】
一態様においては、図11のLMプロセスは、次の基準の中の1つが実現されるまで反復される。
【0079】
1.既定の反復回数Nだけ既に実行されている。この第1の基準は、アルゴリズムが無制限に反復されることを防止している。例えば、図10に示されている一態様においては、既定の反復値Nは、100である。アルゴリズムが収束可能である場合には、100回の反復は、アルゴリズムが収束するのに十分なものであるはずである。一般に、Nは、10未満〜100超の範囲をとることができる。
【0080】
2.2つの成功した反復間の距離の差が閾値(例えば、0.0001)を下回っている。差が非常に小さくなった場合には、所望の精度が既に実現されており、解がそれ以上大幅に良好になることはないことから、反復を継続するのは無意味である。
【0081】
3.減衰係数λが既定の値を超過している(例えば、1020を上回っている)。λが非常に大きくなると、アルゴリズムは、現在の解よりも良好に収束することはなく、従って、反復を継続するのは無意味である。一般に、この規定値は、1020を大幅に下回る又は上回るものであってよい。
【0082】
実施例
成長曲線のサイクル1〜サイクルCACにおけるデータポイントにロバスト線形回帰を適用することにより、結果的に図12に示されているプロットが得られる。温度シフト又はスパイクのいずれもが最終的な結果に影響を及ぼしておらず、曲線フィットの品質が非常に優れていることがわかる。次いで、ロバスト線形回帰とダブルシグモイドの両方を使用し、CAC+1(これは、この場合には、サイクル16である)における蛍光信号の値を推定する。次いで、これらの値の間の差をステップの補正に使用する。尚、サイクルCACにおけるロバスト線形近似を推定し、ダブルシグモイドをCAC値に外挿することによって差を判定することも同様に有効であることに留意されたい。このデータセット内のサイクル16におけるロバスト線形式の推定値は、次の通りである。
【0083】
left=2.91669
【0084】
サイクル16におけるロバストダブルシグモイドの推定値は、次の通りである。
【0085】
right=2.11582
【0086】
従って、差は、次のとおりである。
【0087】
dif=left−right=0.800866
【0088】
次いで、この差の値を、サイクル1〜CACに対応したデータセットの部分の蛍光信号から減算する。図13A及び図13Bには、ダブルシグモイドLevenberg−Marquardt曲線フィットと共に、調節後のデータセット全体が示されており、図13Bは、拡大図である。次いで、一態様においては、LM法を使用することにより、サイクル15における異常値を除去している。図14には、サイクル15に挿入された置換ポイントを有する最終的な曲線が示されている。この段階においては、アニーリング温度の変化に起因したスパイク及び蛍光強度の変化は補正されている。
【0089】
結論
本発明の一態様によれば、ベースライン部分及び成長部分を具備するポリメラーゼ連鎖反応(PCR)成長曲線のデータセット内の温度ステップの変化を補正するためのコンピュータ実装された方法が提供される。この方法は、通常、PCR成長曲線のデータセットを受領する段階含んでおり、このデータセットは、それぞれのデータポイントが座標値のペア(x,y)を具備する動的なポリメラーゼ連鎖反応(PRC)プロセスの複数のデータポイントを含んでおり、この場合に、xは、サイクル数を表し、yは、増幅されたポリヌクレオチドの蓄積を表している。又、本方法は、通常、曲線の第1部分に対する線形近似を算出する段階であって、この第1部分は、PCRプロセスにおいてアニーリング温度の変化の起こるサイクル数(CAC)以下のサイクル数を含むデータセット内のデータポイントを含んでいる、段階と、Levenberg−Marquardt(LM)回帰プロセスをデータセットの第2部分とダブルシグモイド関数に適用して関数のパラメータを判定することにより、曲線の第2部分に対する近似を算出する段階であって、このデータセットの第2部分は、CACを上回るサイクル数を具備するデータポイントを含んでいる、段階と、を含んでいる。又、本方法は、通常、曲線の第1部分の線形近似を使用し、第1のx値における第1のy値を推定する段階と、曲線の第2部分について演算された近似を使用し、第1のx値における第2のy値を推定する段階と、第1及び第2のy値の間の差を判定する段階と、この差を曲線の第1部分に対応するデータポイントにおけるそれぞれのy値から減算することにより、修正されたデーセットを生成する段階と、を含んでいる。特定の態様においては、第1のx値は、CACである。その他の態様においては、第1のx値は、CAC+1である。別の実施例においては、CACデータポイントは、データの第1部分内に含まれている。
【0090】
特定の実施例においては、線形近似を算出する段階は、曲線の第1部分にロバスト線形回帰を適用する段階を含んでいる。特定の実施例においては、ロバスト線形回帰を適用する段階は、根検出法を適用する段階を含んでいる。更に別の特定の実施例においては、根検出法は、二分法である。
【0091】
特定の実施例においては、本方法は、修正済みのデータセットに対してML回帰プロセスを適用し、識別されたスパイクのデータ値を修正済みのデータセットから除去又は置換することにより、データ曲線の第1部分に対応する1つ又は複数のデータポイントが異常値スパイクであるかどうかを判定する段階を更に含んでいる。更に別の特定の実施例においては、本方法は、修正済みのデータセットを使用することにより、サイクル閾値(Ct)を判定する段階を更に含んでいる。
【0092】
別の実施例においては、増幅されたポリヌクレオチドの蓄積は、蛍光強度値、ルミネッセンス強度値、化学ルミネッセンス強度値、燐光強度値、電荷転送値、生物ルミネッセンス強度値、又は吸収値の中の1つによって表されている。
【0093】
特定の態様においては、ダブルシグモイド関数は、a+bx+c/((1+exp-d(x-e))(1+exp-f(x-g)))という形態を有しており、算出する段階は、関数のパラメータa、b、c、d、e、f、及びgの中の1つ又は複数のものを反復的に判定する段階を含んでいる。
【0094】
本発明の別の態様によれば、プロセッサを制御し、ベースライン部分及び成長部分を具備するポリメラーゼ連鎖反応(PRC)成長曲線のデータセット内の温度ステップの変化を補正するためのコードを含むコンピュータ可読媒体が提供される。このコードは、通常、PCR成長曲線のデータセットを受領するための命令を含んでおり、このデータセットは、それぞれのデータポイントが座標値のペア(x,y)を具備する動的なポリメラーゼ連鎖反応(PCR)プロセスの複数のデータポイントを含んでおり、この場合に、xは、サイクル数を表し、yは、増幅されたポリヌクレオチドの蓄積を表している。又、本コードは、通常、曲線の第1部分に対する線形近似を算出し(この第1部分は、PCRプロセスにおいてアニーリング温度の変化の起こるサイクル数(CAC)以下のサイクル数を含むデータセット内のデータポイントを含んでいる)、Levenberg−Marquardt(LM)回帰プロセスをデータセットの第2部分とダブルシグモイド関数に適用して関数のパラメータを判定することにより、曲線の第2部分に対する近似を算出する(このデータセットの第2部分は、CACを上回るサイクル数を具備するデータポイントを含んでいる)ためのコードを含んでいる。又、本コードは、通常、曲線の第1部分の線形近似を使用して第1のx値における第1のy値を推定し、曲線の第2部分について演算された近似を使用して第1のx値における第2のy値を推定し、第1及び第2のy値の間の差を判定し、この差を曲線の第1部分に対応するデータポイントにおけるそれぞれのy値から減算することにより、修正済みのデータを生成するための命令を含んでいる。特定の態様においては、第1のx値は、CACである。その他の態様においては、第1のx値は、CAC+1である。別の態様においては、CACデータポイントは、データの第1部分内に含まれている。
【0095】
特定の実施例においては、本コードは、修正済みのデータセットに対してLM回帰プロセスを適用することにより、データ曲線の第1部分に対応する1つ又は複数のデータポイントが異常値スパイクであるかどうかを判定し、識別されたスパイクのデータ値を修正済みのデータセットから除去又は置換するための命令を更に含んでいる。
【0096】
別の実施例において、線形近似を算出するための命令は、ロバスト線形回帰を曲線の第1部分に適用するための命令を含んでいる。特定の実施例においては、ロバスト線形回帰を適用するための命令は、根検出プロセスを適用するための命令を含んでいる。更に別の実施例においては、根検出プロセスは、二分法である。
【0097】
特定の実施例においては、本コードは、修正済みのデータセットを使用してサイクル閾値(Ct)を判定するための命令を更に含んでいる。
【0098】
別の実施例においては、増幅されたポリヌクレオチドの蓄積は、蛍光強度値、ルミネッセンス強度値、化学ルミネッセンス強度値、燐光強度値、電荷転送値、生物ルミネッセンス強度値、又は吸収値の中の1つによって表されている。
【0099】
更に別の実施例においては、ダブルシグモイド関数は、a+bx+c/((1+exp-d(x-e))(1+exp-f(x-g)))という形態を有しており、算出する命令は、関数のパラメータa、b、c、d、e、f、及びgの中の1つ又は複数のものを反復的に判定するための命令を含んでいる。
【0100】
本発明の更に別の態様によれば、動的なポリメラーゼ連鎖反応(PCR)システムが提供され、これは、通常、ベースライン部分及び成長部分を具備する動的PCR増幅曲線を表すPCRデータセットを生成する動的PCR分析モジュールであって、このデータセットは、それぞれのデータポイントが座標値のペア(x,y)を含む複数のデータポイントを含んでおり、この場合に、xは、サイクル数を表し、yは、増幅されたポリヌクレオチドの蓄積を表している、動的PCR分析モジュールと;曲線の第1部分に対する線形近似を算出し(この第1部分は、PCRプロセスにおいてアニーリング温度の変化の起こるサイクル数(CAC)以下のサイクル数を含むデータセット内のデータポイントを含んでいる)、Levenberg−Marquardt(LM)回帰プロセスをデータセットの第2部分とダブルシグモイド関数に適用して関数のパラメータを判定することにより、曲線の第2部分に対する近似を算出することによって(このデータセットの第2部分は、CACを上回るサイクル数を具備するデータポイントを含んでいる)、PCRデータセットを処理し、データセット内の温度ステップの変化について補正するべく適合されたインテリジェンスモジュールと;を含んでいる。又、インテリジェンスモジュールは、通常、曲線の第1部分の線形近似を使用して第1のx値における第1のy値を推定し、曲線の第2部分について算出された近似を使用して第1のx値における第2のy値を推定し、第1及び第2のy値の間の差を判定し、この差を曲線の第1部分に対応するデータポイントのそれぞれのy値から減算することにより、修正済みのデータセットを生成するべく適合されている。特定の態様においては、第1のx値は、CACである。その他の態様においては、第1のx値は、CAC+1である。別の態様においては、CACデータポイントは、データの第1部分内に含まれている。
【0101】
動的PCRシステムの特定の実施例においては、動的PCR分析モジュールは、動的サーモサイクラー装置内に存在しており、インテリジェンスモジュールは、分析モジュールに通信可能に結合されたプロセッサを含んでいる。その他の特定の実施例においては、インテリジェンスモジュールは、ネットワーク接続又は直接接続のいずれかを介して分析モジュールに結合されたコンピュータシステム内に存在するプロセッサを含んでいる。
【0102】
別の実施例においては、インテリジェンスモジュールは、修正済みのデータセットに対してML回帰プロセスを適用することにより、データ曲線の第1部分に対応する1つ又は複数のデータポイントが異常値スパイクであるかどうかを判定し、識別されたスパイクのデータ値を修正済みのデータセットから除去又は置換するべく適合されている。
【0103】
特定の実施例においては、線形近似を算出する段階は、曲線の第1部分に対してロバスト線形回帰を適用する段階を含んでいる。特定の実施例においては、ロバスト線形回帰を適用する段階は、根検出プロセスを適用する段階を含んでいる。更に別の特定の実施例においては、根検出プロセスは、二分法である。
【0104】
別の実施例においては、インテリジェンスモジュールは、修正済みのデータセットを使用することにより、サイクル閾値(Ct)を判定するべく適合されている。
【0105】
別の実施例においては、増幅されたポリヌクレオチドの蓄積は、蛍光強度値、ルミネッセンス強度値、化学ルミネッセンス強度値、燐光強度値、電荷転送値、生物ルミネッセンス強度値、又は吸収値の中の1つによって表されている。
【0106】
特定の実施例においては、ダブルシグモイド関数は、a+bx+c/((1+exp-d(x-e))(1+exp-f(x-g)))という形態を有しており、算出する段階は、関数のパラメータa、b、c、d、e、f、及びgの中の1つ又は複数のものを反復的に判定する段階を含んでいる。
【0107】
曲線近似及び回帰プロセスを含むCt判定プロセスは、コンピュータシステムのプロセッサ上において稼動するコンピュータコードとして実装可能であることを理解されたい。このコードは、プロセッサを制御してCt判定プロセスの様々な態様と段階を実装するための命令を含んでいる。このコードは、通常、ハードディスク、RAM、或いは、CD、DVDなどの携帯型の媒体上に保存される。同様に、これらのプロセスは、プロセッサに結合されているメモリユニット内に保存されたプロセッサ実行命令を含むサーモサイクラーなどのPCR装置内で実行することも可能である。そのような命令を含むコードは、コード供給源に対するネットワーク接続又は直接接続を介して、或いは、周知のように、携帯型の媒体を使用することにより、PCR装置ユニットにダウンロード可能である。
【0108】
当業者であれば、本発明の様々なプロセスは、C、C++、C#、Fortran、VisualBasicなどの様々なプログラミング言語、並びに、データの視覚化及び分析に有用な事前パッケージングされたルーチン、関数、及び手順を提供するMathematicaなどのアプリケーションを使用してコーディング可能であることを理解するであろう。後者の更なる例がMATLAB(登録商標)である。
【0109】
以上、一例として、特定の実施例の観点において本発明について説明したが、本発明は、開示された実施例に限定されるものではないことを理解されたい。逆に、本発明は、当業者には明らかな様々な変更及び類似の構成を包含することを意図するものである。例えば、複数の温度ステップの補正を実行する場合には、データセットの異なる部分に対して複数の回帰を実行可能である。例えば、PCRデータのベースライン部分内において2つの温度シフトが実行される場合には、サイクル1〜第1の変更のサイクルにおけるデータセットの部分に線形回帰を適用可能であり、第1の変更のサイクル〜第2の変更のサイクルにおけるデータセットの部分に第2の線形回帰を適用可能であり、且つ、第2の変更のサイクル〜最終サイクルにおけるデータセットに対してLM法を適用可能である。従って、添付の請求項の範囲には、このようなあらゆる変更及び類似の構成を包含するべく、最も広範な解釈を付与することを要するものである。
【図面の簡単な説明】
【0110】
【図1】PCRプロセスの環境における増幅曲線の一例を示している。
【図2−1】図2Aはサイクル14におけるスパイクと共にサイクル15における温度シフトを有するPCR曲線の一例を示しており、図2Bは、拡大図である。
【図2−2】図2CはPCRデータセットの全体を処理するべく使用されたLM回帰プロセスの結果であるフィットを示しており、図2Dは、拡大図である。
【図2−3】図2Eはサイクル16〜最終サイクルにおけるデータポイントをLM回帰において使用した際に結果的に得られる曲線フィットを示しており、図2Fは、拡大図である。
【図3】温度シフトについて補正し、動的なPCR増幅曲線のエルボー値又はCt値などのシングルシグモイド曲線の遷移値を判定するためのプロセスの一実施例を示している。
【図4A】温度シフトを有するPCRデータセットのサイクル1〜サイクルCACにおけるデータセットの部分の線形近似の一例を示している。
【図4B】図4AのPCRデータセットのサイクルCAC+1〜最終サイクルにおけるデータセットの部分の近似の一例を示しており、この場合には、本発明に従い、LM回帰プロセスを使用してダブルシグモイド関数のパラメータを判定することにより、近似を判定している。
【図4C】図4A及び図4Bに示されているデータセットの温度シフトについて補正されたデータの一例を示している。
【図5】本発明の態様に従って二分法において使用される関数の代表的な形状を示している。
【図6A】本発明の一実施例によるスパイクの識別及び置換プロセスの詳細なプロセスフローを示している。
【図6B】図6Aのつづき。
【図6C】図6Bのつづき。
【図6D】図6Cのつづき。
【図6E】図6Dのつづき。
【図6F】図6Eのつづき。
【図7】パラメータa〜gを含むダブルシグモイド式の分解を示している。パラメータa〜gは、ダブルシグモイド曲線の形状と位置を定義している。
【図8】曲線に対するパラメータ(d)と、変曲点のx値の位置に対する(e)の影響を示している。図8の曲線は、いずれも、パラメータdを除いて同一のパラメータ値を具備している。
【図9】異なるパラメータの組における3つの曲線形状の一例を示している。
【図10A】一態様に従ってダブルシグモイド式のパラメータ(e)及び(g)の値を判定するプロセスを示している。
【図10B】図10Aのつづき。
【図11A】初期のパラメータの組におけるLevenberg−Marquardt回帰プロセスのプロセスフローを示している。
【図11B】図11Aのつづき。
【図11C】図11Bのつづき。
【図11D】図11Cのつづき。
【図12】サイクル1〜サイクルCACにおけるデータポイントにロバスト線形回帰を適用した結果を示している。
【図13】図13Aは温度シフトを補正した後のPCRデータセットの全体を示しており、図13Bは、拡大図である。
【図14】スパイクポイントを除去した後の最終的な曲線を示している。
【図15】ソフトウェア及びハードウェアリソース間における関係を示す概略ブロックダイアグラムを示している。

【特許請求の範囲】
【請求項1】
ベースライン部分及び成長部分を具備するポリメラーゼ連鎖反応(PCR)成長曲線のデータセット内の温度ステップの変化を補正するためのコンピュータにより実行する方法において、
PCR成長曲線のデータセットを受領する段階であって、前記データセットは、それぞれのデータポイントが座標値のペア(x,y)を具備する動的ポリメラーゼ連鎖反応(PCR)プロセスの複数のデータポイントを含んでおり、この場合に、xは、サイクル数を表し、yは、増幅されたポリヌクレオチドの蓄積を表している、段階と、
前記曲線の第1部分に対する線形近似を算出する段階であって、前記第1部分は、前記PCRプロセスにおいてアニーリング温度の変化の起こるサイクル数(CAC)以下のサイクル数を含む前記データセット内のデータポイントを含んでいる、段階と、
前記曲線の前記第1部分の前記線形近似を使用し、第1のx値における第1のy値を推定する段階と、
Levenberg−Marquardt(LM)回帰プロセスを前記データセットの第2部分とダブルシグモイド関数に適用して前記関数のパラメータを判定することにより、前記曲線の第2部分に対する近似を算出する段階であって、前記データセットの前記第2部分は、前記CACを上回るサイクル数を具備するデータポイントを含んでいる、段階と、
前記曲線の前記第2部分について算出された前記近似を使用し、前記第1のx値における第2のy値を推定する段階と、
前記第1及び第2のy値の間の差を判定する段階と、
前記差を前記曲線の前記第1部分に対応する前記データポイントのそれぞれのy値から減算することにより、修正されたデータセットを生成する段階と、
を有する方法。
【請求項2】
前記第1のx値は、x=CAC+1である請求項1記載の方法。
【請求項3】
前記第1のx値は、x=CACである請求項1記載の方法。
【請求項4】
前記修正済みのデータセットに対してLM回帰プロセスを適用することにより、前記データ曲線の前記第1部分に対応する1つ又は複数のデータポイントが異常値スパイクであるかどうかを判定する段階と、
前記修正済みのデータセットから前記識別されたスパイクのデータ値を除去又は置換する段階と、
を更に含む請求項1記載の方法。
【請求項5】
前記CACデータポイントは、前記データの前記第1部分内に含まれている請求項1記載の方法。
【請求項6】
前記線形近似を算出する段階は、ロバスト線形回帰を前記曲線の前記第1部分に適用する段階を含む請求項1記載の方法。
【請求項7】
ロバスト線形回帰を適用する段階は、根検出法を適用する段階を含む請求項6記載の方法。
【請求項8】
前記根検出法は、二分法である請求項7記載の方法。
【請求項9】
前記修正済みのデータセットを使用することにより、サイクル閾値(Ct)を判定する段階を更に有する請求項1記載の方法。
【請求項10】
前記ダブルシグモイド関数は、a+bx+c/((1+exp-d(x-e))(1+exp-f(x-g)))という形態を有しており、算出する段階は、前記関数のパラメータa、b、c、d、e、f、及びgの中の1つ又は複数のものを反復的に判定する段階を含んでいる請求項1記載の方法。
【請求項11】
プロセッサを制御し、ベースライン部分及び成長部分を具備するポリメラーゼ連鎖反応(PCR)成長曲線のデータセットの温度ステップの変化を補正するためのコードを含むコンピュータ可読媒体であって、
前記コードは、
PCR成長曲線のデータセットを受領する段階であって、前記データセットは、それぞれのデータポイントが座標値のペア(x,y)を具備する動的ポリメラーゼ連鎖反応(PCR)プロセスの複数のデータポイントを含んでおり、この場合に、xは、前記サイクル数を表し、yは、増幅されたポリヌクレオチドの蓄積を表している、段階と、
前記曲線の第1部分に対する線形近似を算出する段階であって、前記第1部分は、前記PCRプロセスにおいてアニーリング温度の変化の起こるサイクル数(CAC)以下のサイクル数を含む前記データセット内のデータポイントを含んでいる、段階と、
前記曲線の前記第1部分の前記線形近似を使用し、第1のx値における第1のy値を推定する段階と、
Levenberg−Marquardt(LM)回帰プロセスを前記データセットの第2部分とダブルシグモイド関数に適用して前記関数のパラメータを判定することにより、前記曲線の第2部分に対する近似を算出する段階であって、前記データセットの前記第2部分は、前記CACを上回るサイクル数を具備するデータポイントを含んでいる、段階と、
前記曲線の前記第2部分について算出された前記近似を使用し、前記第1のx値における第2のy値を推定する段階と、
前記第1及び第2のy値の間の差を判定する段階と、
前記差を前記曲線の前記第1部分に対応する前記データポイントのそれぞれのy値から減算することにより、修正済みのデータセットを生成する段階と、
を実行するための命令を含む、コンピュータ可読媒体。
【請求項12】
前記コードは、
前記修正済みのデータセットに対してLM回帰プロセスを適用することにより、前記データ曲線の前記第1部分に対応する1つ又は複数のデータポイントが異常値スパイクであるかどうかを判定する段階と、
前記修正済みのデータセットから前記識別されたスパイクのデータ値を除去又は置換する段階と、
を更に含む請求項11記載のコンピュータ可読媒体。
【請求項13】
前記ダブルシグモイド関数は、a+bx+c/((1+exp-d(x-e))(1+exp-f(x-g)))という形態を有しており、前記命令は、前記関数のパラメータa、b、c、d、e、f、及びgの中の1つ又は複数のものを反復的に判定するための命令を含んでいる請求項11記載のコンピュータ可読媒体。
【請求項14】
動的ポリメラーゼ連鎖反応(PCR)システムにおいて、
ベースライン部分及び成長部分を具備する動的PCR増幅曲線を表すPCRデータセットを生成する動的PCR分析モジュールであって、前記データセットは、それぞれのデータポイントが座標値のペア(x,y)を具備する複数のデータポイントを含んでおり、この場合に、xは、サイクル数を表し、yは、増幅されたポリヌクレオチドの蓄積を表している、動的PCR分析モジュールと;
前記曲線の第1部分に対する線形近似を算出する段階であって、前記第1部分は、前記PCRプロセスにおいてアニーリング温度の変化の起こるサイクル数(CAC)以下のサイクル数を含む前記データセット内のデータポイントを含んでいる、段階と、
前記曲線の前記第1部分の前記線形近似を使用し、第1のx値における第1のy値を推定する段階と、
Levenberg−Marquardt(LM)回帰プロセスを前記データセットの第2部分とダブルシグモイド関数に適用して前記関数のパラメータを判定することにより、前記曲線の第2部分に対する近似を算出する段階であって、前記データセットの前記第2部分は、前記CACを上回るサイクル数を具備するデータポイントを含んでいる、段階と、
前記曲線の前記第2部分について算出された前記近似を使用し、前記第1のx値における第2のy値を推定する段階と、
前記第1及び第2のy値の間の差を判定する段階と、
前記差を前記曲線の前記第1部分に対応する前記データポイントのそれぞれのy値から減算することにより、修正済みのデータセットを生成する段階と、
により、前記PCRデータセットを処理し、前記データセット内の温度ステップの変化を補正するべく適合されたインテリジェンスモジュールと;
を有する動的PCRシステム。
【請求項15】
前記PCR分析モジュールは、動的なサーモサイクラー装置内に存在しており、前記インテリジェンスモジュールは、前記分析モジュールに通信可能に接続されたプロセッサを含んでいる請求項14記載の動的PCRシステム。
【請求項16】
前記インテリジェントモジュールは、ネットワーク接続又は直接接続のいずれかを介して前記分析モジュールに結合されたコンピュータシステム内に存在しているプロセッサを含む請求項14記載の動的PCRシステム。
【請求項17】
前記インテリジェントモジュールは、
前記修正済みのデータセットに対してLM回帰プロセスを適用することにより、前記データ曲線の前記第1部分に対応する1つ又は複数のデータポイントが異常値スパイクであるかどうかを判定し、且つ、
前記修正済みのデータセットから前記識別されたスパイクのデータ値を除去又は置換するべく、
適合されている請求項14記載の動的PCRシステム。
【請求項18】
前記ダブルシグモイド関数は、a+bx+c/((1+exp-d(x-e))(1+exp-f(x-g)))という形態を有しており、算出する段階は、前記関数のパラメータa、b、c、d、e、f、及びgの中の1つ又は複数のものを反復的に判定する段階を含んでいる請求項14記載の動的PCRシステム。

【図1】
image rotate

【図2−1】
image rotate

【図2−2】
image rotate

【図2−3】
image rotate

【図3】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図4C】
image rotate

【図5】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図6C】
image rotate

【図6D】
image rotate

【図6E】
image rotate

【図6F】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10A】
image rotate

【図10B】
image rotate

【図11A】
image rotate

【図11B】
image rotate

【図11C】
image rotate

【図11D】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2007−267730(P2007−267730A)
【公開日】平成19年10月18日(2007.10.18)
【国際特許分類】
【外国語出願】
【出願番号】特願2006−341528(P2006−341528)
【出願日】平成18年12月19日(2006.12.19)
【出願人】(591003013)エフ.ホフマン−ラ ロシュ アーゲー (1,754)
【氏名又は名称原語表記】F. HOFFMANN−LA ROCHE AKTIENGESELLSCHAFT
【Fターム(参考)】