融解曲線クラスタ化によるＳＮＰ検出

融解曲線を収集する自動分析用のシステム、方法及び装置が提供される。この分析は、融解された二本鎖ヌクレオチド配列（例えば、ＤＮＡ又は他のヌクレオチド配列）のある種の特徴を同定することができる。例えば、配列（アンプリコンとも呼ばれる）における変化（例えば、突然変異）はこの分析から決定されてもよい。アンプリコンは、ＰＣＲ又はリガーゼ連鎖反応（ＬＣＲ）などの任意の増幅メカニズムを介して増幅されてもよい。自動化分析には、融解領域を同定すること、融解曲線を標準化すること、及び融解曲線をクラスタ化することが含まれ得る。

【発明の詳細な説明】
【技術分野】
【０００１】
関連出願への相互参照
この非仮特許出願は、２００９年２月２７日に出願された、融解曲線クラスタ化によるＳＮＰ検出と題した米国仮特許出願第６１／１５６，０３４号に対する優先権を主張する。この仮出願は、全ての目的でその全体として参照により本明細書中に援用される。
【背景技術】
【０００２】
本発明は、一般に、単一ヌクレオチド多型（ＳＮＰ）などの遺伝子における配列変化を同定すること、より具体的には配列変化を同定するためのポリメラーゼ連鎖反応（ＰＣＲ）装置から融解曲線を用いることに関する。
【０００３】
リアルタイムＰＣＲを用いて標的ヌクレオチド配列を検出し、定量する。ＰＣＲでは、１以上の反応ウェルは、増幅されるＤＮＡ領域（標的）を含むＤＮＡ鋳型を含む。反応ウェルの温度を上昇させ、それによりＤＮＡを２つの一本鎖に分離する。次に、温度を下げ、標的配列に隣接する領域に相補的であるプライマーが結合する。続いて、温度を僅かに上昇させ、一本鎖とプライマー結合を解離させる。その後、ＤＮＡポリメラーゼにより新しいＤＮＡが合成され、そのＤＮＡ増幅のために提供され得る。
【０００４】
配列の指数関数的増幅は、リアルタイムで、例えば蛍光により監視される。一般に、蛍光色素が用いられ、二本鎖ＤＮＡの存在だけをレポートする。典型的には、その色素は配列を区別せずに、したがって、望ましくない標的の増幅をレポートし得る。これらの望ましくない配列は、解離段階中に検出され得る。解離中に、二本鎖ＰＣＲ産物が一本鎖に融解し、それにより蛍光が減少する。多くの場合、融解プロセスは、増幅が十分に達成された後に行われる。
【０００５】
融解曲線は、温度の勾配上昇に対して蛍光の喪失をプロットすることによって生じさせることができる。種々の融解曲線の検出は、種々の配列の存在を意味する。この技術は、単一ヌクレオチド多型の検出、対立遺伝子識別、及び微生物の菌株分類に使用されている。
【０００６】
しかしながら、種々の融解曲線の中の差異の決定は困難であり、反復可能でない場合がある。したがって、融解曲線を用いた配列変化を検出するための改善された方法及びシステムは、より高い精度、信頼性、及び結果の一貫性を提供することが望まれる。
【発明の概要】
【課題を解決するための手段】
【０００７】
本発明の態様は、融解曲線を収集する自動分析用システム、方法、及び装置を提供することができる。この分析は、融解された二本鎖ヌクレオチド配列（例えば、ＤＮＡ又は他のヌクレオチド配列）のある種の特徴を同定することができる。例えば、配列（アンプリコンとも呼ばれる）における変化（例えば、突然変異）が分析から決定されてもよい。アンプリコンは、ＰＣＲ又はリガーゼ連鎖反応（ＬＣＲ）などの任意の増幅機器により増幅されてもよい。種々の態様は、融解領域を同定し、融解曲線を標準化し、そして、標準化後にされてもよい融解曲線をクラスタ化する方法を提供することができる。
【０００８】
ある態様によれば、ヌクレオチド配列間の配列変化を同定する方法が提供される。データ点の複数のセットを受信する。各セットは、２つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応する。セットの各データ点は、試料についてシグナル値と温度値を含み、この場合、温度は、各々の連続したデータ点について上昇する。各セットは融解曲線を定義する。
【０００９】
一態様では、プロセッサーは、融解曲線について融解領域を決定する。各融解曲線について、二次導関数を採用し、二次導関数の関数が境界閾値と交差するところの開始温度及び終了温度が同定される。融解曲線のそれぞれの開始温度に基づいて、融解領域開始が同定される。融解曲線のそれぞれの終了温度に基づいて、融解領域終了が同定される。各融解曲線はそれぞれのクラスターに帰属される。同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域において１以上の類似した特性を有する。少なくとも１つのクラスターに対応するヌクレオチド配列の少なくとも一部は、別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして同定される。
【００１０】
別の態様では、融解領域開始及び融解領域終了を有する融解領域が決定される。プロセッサーは、終了領域内のデータ点が第１の数の平均値を有するように融解曲線のデータ点を変更し、そして開始領域におけるデータ点が第２の数の平均値を有するように融解曲線のデータ点を変更することによって、各融解曲線の第１の標準化を行う。終了領域は融解領域終了から開始する温度範囲であり、開始領域は融解領域開始で終了する温度範囲である。各融解曲線について、融解曲線が閾値と交差する閾値温度が同定される。それぞれの閾値温度からの平均閾値温度が計算される。各融解曲線は、融解曲線が平均閾値温度で閾値と交差するようにシフトされる。各融解曲線の第２の標準化は、開始領域におけるデータ点が第３の数の平均値を有するように、平均閾値温度よりも低い温度を有する融解曲線のデータ点を変更することを含む。各融点曲線は、それぞれのクラスターに帰属される。同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域における１以上の類似した特性を有する。少なくとも１つのクラスターに対応するヌクレオチド配列の少なくとも一部は、別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして同定される。
【００１１】
別の態様では、融解領域開始と融解領域終了を有する融解領域が決定される。各融解曲線は、それぞれのクラスターに帰属される。融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域における１以上の類似した形状特性を有する。プロセッサーは、融解曲線のクラスターを選択し、選択されたクラスターの各融解曲線の融解温度を決定する。プロセッサーは、それぞれの融解温度に基づいて、選択されたクラスターの融解曲線を複数のサブクラスターに分類する。少なくとも１つのサブクラスターに対応するヌクレオチド配列の少なくとも一部は、別のサブクラスターのヌクレオチド配列と比較して、配列変化を有するものとして同定される。
【００１２】
別の態様では、融解領域開始と融解領域終了を有する融解領域が決定される。少なくとも１つのプロセッサーは、融解曲線の形状を分析することによって、それぞれのクラスターに各融解曲線を帰属する。同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域における１以上の類似した形状特性を有する。形状の分析には、各融解曲線について、Ｎ平均値を計算し、各値は、融解曲線の複数の連続セグメントの１つの平均であり；Ｎ次元空間における点としてＮ平均値のセットを定義し；Ｎ次元点をＫ個のＮ次元関数に適合させ；Ｋ個のＮ次元関数の１つを用いて各Ｎ次元点を同定し；そして、同じＮ次元関数を用いて帰属された融解曲線を同じクラスターに分類することを含む。少なくとも１つのクラスターに対応するヌクレオチド配列の少なくとも一部は、別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして同定される。
【００１３】
別の態様では、融解領域開始と融解領域終了を有する融解領域が同定される。少なくとも１つのプロセッサーは、各融解曲線の負の一次導関数を採用し、それぞれの融解ピーク曲線を決定する。少なくとも１つのプロセッサーは、各融解曲線をそれぞれのクラスターに帰属する。同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域における融解ピーク曲線について１以上の類似した特性を有する。少なくとも１つのクラスターに対応するヌクレオチド配列の少なくとも一部は、別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして同定される。
【００１４】
また、態様は、本明細書に記載されている方法を実施するコンピュータ読み込み可能な媒体及びシステムに関する。
【００１５】
本発明の性質及び利点のより良い理解は、以下の詳細な説明及び添付の図面を参照して得られる。
【図面の簡単な説明】
【００１６】
【図１】融解曲線１００のセットを示す。各々は、本発明の態様に係る異なる二本鎖ヌクレオチド配列に対応する。
【００１７】
【図２】アンプリコンの融解曲線を分析し、本発明の態様に係るアンプリコンの配列変化を決定するための方法を示すフローチャートである。
【００１８】
【図３】融解曲線のセットを分析し、本発明の態様に係る全体的融解領域を決定するための方法を示すフローチャートである。
【００１９】
【図４】本発明の態様に係る融解曲線のセットについての融解領域４１０を示すプロット４００を示す。
【００２０】
【図５Ａ】本発明の態様に係る融解曲線５００の標準化されていないセットを示す。
【００２１】
【図５Ｂ】本発明の態様に係る融解曲線５５０の標準化されたセットを示す。
【００２２】
【図６】本発明の態様に係る融解領域内の融解曲線を標準化するための方法６００を示すフローチャートである。
【００２３】
【図７Ａ】本発明の態様に係る第１の標準化だけを施された融解曲線のセットを示す。
【００２４】
【図７Ｂ】本発明の態様に係る第２の標準化を施された融解曲線のセットを示す。
【００２５】
【図８】本発明の態様に係るサブクラスター内の配列変化を同定するための方法８００を示すフローチャートである。
【００２６】
【図９】本発明の態様に係る融解曲線の形状を分析するための方法９００を示すフローチャートである。
【００２７】
【図１０】本発明の態様に係るクラスタ化に使用するためのガウス又は他の関数の数を決定するための方法１０００のフローチャートである。
【００２８】
【図１１】本発明の態様に係るクラスタ化のための融解曲線データを前処理するための方法１１００を示すフローチャートである。
【００２９】
【図１２】図１２Ａは、本発明の態様に係る融解ピーク曲線を示す。図１２Ｂは、図１２Ａにおける融解ピーク曲線のベースラインのプロットを示す。図１２Ｃは、図１２Ｂにおいて示されたベースラインを差し引くことから得られたデータを示す。
【００３０】
【図１３】本発明の態様に係るシステム及び方法を使用できる例示的なコンピュータのブロック図を示す。
【発明を実施するための形態】
【００３１】
図１は、融解曲線１００のセットを示し、各々は本発明の態様に係る異なる二本鎖ヌクレオチド配列に対応する。融解曲線は、当業者に知られているいずれかの方法で生じさせてもよい。Ｘ軸１１０は温度（℃）である。温度は経時的に下降され、このようにして温度はまた時間と相関する。一態様では、この相関は直線であるが、他の関係は他の態様において生じてもよい。Ｙ軸１２０はアンプリコンから得られたシグナルの値、例えば、蛍光シグナルの値を提供する。単位は相対的蛍光単位（ＲＦＵ）である。
【００３２】
ＲＦＵが高くなると、二本鎖ＤＮＡ（ｄｓＤＮＡ）の量が高くなる。ＲＦＵについて値が小さくなると、二本鎖アンプリコンの量が低くなる。ｄｓＤＮＡの試料が融解する温度（融解温度）は、ＲＦＵが中央レベル未満に下がった点として決定することができる。この点で、ｄｓＤＮＡは融解されたと考えることができる。
【００３３】
各融解曲線は、そのアンプリコンのある種の特徴に依存している、ある種の形状及び／又は融解温度を有する。その融解曲線形状及び融解温度における相違を引き起こす特徴にはアンプリコンの配列が含まれる。一局面では、配列は、融解温度に対する最大の効果を有することができる。
【００３４】
また、アンプリコンがホモ接合突然変異を含むかどうかは、融解曲線形状及び融解温度に影響を及ぼす可能性がある。一局面では、ホモ接合突然変異の存在は、融解曲線の形状に対して最大の効果を有することができる。ホモ接合の単一ヌクレオチド多型（ＳＮＰ）を含むアンプリコンは、増幅後にｄｓＤＮＡの混合物を生じさせる。得られたｄｓＤＮＡのほぼ半分は、ＳＮＰ位置でミスマッチの塩基対を有し、１つの鎖は、ＳＮＰを有する親から起こり、他方はそうではない。塩基対ミスマッチを含むｄｓＤＮＡは安定性は小さく、僅かに低い温度で溶解するであろう。この不安定性は、融解曲線における特徴的な初期の落ち込みを引き起こす。また、アンプリコン内のメチル化の程度は、形状及び融解温度に影響を及ぼす可能性がある。
【００３５】
１．一般的方法
図２は、アンプリコンの融解曲線を分析し、本発明の態様に係るアンプリコンの配列変化を決定するための方法２００を示すフローチャートである。方法２００は、少なくとも１つのプロセッサー、及びデータを記憶するための任意の数の記憶ユニット及び／又は該少なくとも１つのプロセッサーを制御するためのプログラムコードを有するコンピュータシステムによって実施されてもよい。
【００３６】
ステップ２１０では、生の融解曲線データが、増幅装置（例えば、ＰＣＲ機械）の一部又はそれとネットワークで結ばれているコンピュータシステムのインプットで受信される。一態様では、生の融解曲線はデータ点の複数セットである。一局面では、各セットは融解曲線を定義することができ、異なる融解曲線に対応可能である。別の局面では、各融解曲線は、２つのヌクレオチド配列の二本鎖分子（例えば、遺伝子）のコピーを含む異なる試料（例えば、反応ウェル）由来であってもよい。セットの各データ点は、温度が各々の連続したデータ点について上昇する使用についてシグナル値と温度値を含むことができる。
【００３７】
ステップ２２０では、生の融解曲線データが再サンプリングされる。再サンプリングには、任意のタイプの曲線フィッティング、補間、又は回帰が含まれる。例えば、データは、三次スプラインを用いて補間されてもよい。得られた補間は、例えば、１０℃あたりの１データ点が存在するように、新しいデータ点を与える任意の頻度でサンプリングされてもよい。一局面では、スプライン（又は他の方法）の使用により、より少ないデータ点がＰＣＲ機械によって測定され得る。他の態様では、生の融解曲線データは再サンプリングなしに使用されてもよい。
【００３８】
ステップ２３０では、融解領域が決定される。融解領域は、ｄｓＤＮＡ解離の開始の直前で始まり、ｄｓＤＮＡが完全に解離された直後に終了する領域として考えられてもよい。以下に記載される方法３００は、融解領域を見つける方法の一例を与える。
【００３９】
ステップ２４０では、各融解曲線が融解領域において標準化される。一態様では、標準化は、融解領域の開始及び終了近くの値を設定するように実施される。この標準化は、後に記載される単回標準化プロセスと見なされてもよい。別の態様では、標準化は、標準化領域内の第３の点を固定する。別の態様では、標準化は、融解曲線を新しい関数に変換し、次にその新しい関数を標準化してもよい。例えば、融解曲線は、融解曲線の負の一次導関数に変換され、次に標準化された負の一次導関数に変換され得た。
【００４０】
ステップ２５０では、融解曲線はクラスターに分割される。一局面では、各融解曲線は１つのクラスターに帰属される。帰属の決定は、例えば、以下に説明される種々の方法で行うことができる。多数のクラスターがクラスタ化にどのように使用されるかの決定は、図１０に示されるように行われてもよい。
【００４１】
ステップ２６０では、ヌクレオチド配列の少なくとも一部は、配列変化（例えば、遺伝子突然変異）を有するものとして少なくとも１つのクラスターに対応する。一態様では、各融解曲線は、ＰＣＲプレートの異なるウェル由来である。また、各ウェルは同じ遺伝子であってもよいが、種々のヒト由来である。配列変化を示すウェルは、遺伝子における突然変異を示すものとして決定され得る。
【００４２】
変化決定は、別のクラスター（大部分の融解曲線を含むクラスター）のヌクレオチド配列と比較して行われてもよい。例えば、野生型（最も共通している）である遺伝子の融解曲線は、遺伝子が突然変異を有する場合の融解曲線と区別することができる。野生型が存在しない場合、配列は、参照融解曲線と比較して、配列変化が突然変異であるかどうかを決定することができる。
【００４３】
一度遺伝子が突然変異を有するものとして同定されると、突然変異のタイプを決定するために更なる分析（例えば、より費用がかかる配列決定）を行ってもよい。変化を有するものとして決定されたクラスターの配列の全部が必ずしも変化を有しないことに注意されたい。例えば、ヘテロ接合ＳＮＰでは、ｄｓＤＮＡの唯一の配列が突然変異を有する。一局面では、使用されるプライマーは突然変異の部位を包含する。
【００４４】
ＩＩ．融解領域の同定
図３は、融解曲線のセットを分析し、本発明の態様に係る全体的融解領域を決定するための方法３００を示すフローチャートである。方法３００は、方法２００のステップ２３０を実施するために使用されてもよい。各融解曲線について、その融解曲線についての融解領域が決定され、次に全体的融解領域が個々の融解領域から決定される。
【００４５】
ステップ３１０では、分析されていない新しい融解曲線が選択される。一態様では、受信された全ての融解曲線が分析される。別の態様では、受信された全ての融解曲線のある種の融解曲線だけが分析のために選択される。
【００４６】
ステップ３２０では、選択された融解曲線の二次導関数が採用される。一態様では、二次導関数の絶対値は分析に使用される。一局面では、二次導関数の値は、典型的には、例えば、融解領域の直前及び直後に、対象の領域以外でほぼゼロである。別の局面では、二次導関数は２つのピークを有することができ、１つは融解領域開始でのピークであり、１つは融解領域終了でのピークである。
【００４７】
ステップ３３０では、二次導関数曲線は平滑化され（例えば、２℃の平滑幅を有する）、２つのピークを１つのピークにまとめる。結果は、データの残りをほぼゼロにしながら、融解領域を横切る１つの幅広いピークであり得る。一態様では、平滑化関数は、同定のデータ点周囲のウィンドウ（２°）内のデータ点の平均を採用し、次にそのデータ点について新しい値としてその平均を使用する。平滑化はノイズ効果を減少させることができる。
【００４８】
ステップ３４０では、１つにまとめられたピークの左境界と右境界が決定される。ある態様では、左境界及び右境界は、ピークが閾値と交差する点である。閾値は、ピークの特徴（例えば、ピークの最大値）と比較して、固定された数又は値であってもよい。このようにして、一態様では、ピークの左境界及び右境界は、ピークがその左及び右でピーク最大＊０．３５の境界閾値と交差する場所として同定される。それらの境界閾値交差は、融解曲線の融解領域境界として用いることができる。
【００４９】
このような方法の利点は、一次導関数を用いて見られる場合がある融解曲線の中心点だけでなく、融解曲線の端が見られることである。定義される融解領域を用いて、融解曲線の形状は、より精度よく、一貫して比較され得る。また、二次導関数は所望の融解領域の外部の領域における相違に影響を受けることが少なく、それは二次導関数がこれらの外部領域において小さくなる傾向にある。
【００５０】
ステップ３５０では、任意のより多くの融解曲線が分析に必要であるかどうかが決定される。より多くの曲線が分析されるべき場合、プロセスは、ステップ３１０に戻り、新しい融解曲線を選択する。
【００５１】
ステップ３６０では、ステップ３４０から、各融解曲線について開始温度の収集は左境界から決定され、各融解曲線について各融解曲線の収集は右境界から決定される。一態様では、それらの２つの収集は、昇順又は降順にソートされる。
【００５２】
ステップ３７０では、全体的融解領域開始及び全体的融解領域終了は、それぞれ曲線の開始温度と終了温度から決定される。いくつかの態様では、全体的融解領域開始として他の開始温度の所定の数よりも多いそれぞれの開始温度が決定され、融解領域終了として他の終了温度の所定の数よりも小さいそれぞれの終了温度が決定される。
【００５３】
一態様では、ソートされた開始温度から１５〜３５％（例えば、２５）パーセンタイル値（即ち、他の開始の２５％より大きい）が全体的融解領域開始として採用され、ソートされた終了温度から６５〜８５％（例えば、７５）パーセンタイル値（即ち、他の終了の７５％より小さい）が全体の融解領域終了として採用される。このようにして、外部データ点は、融解曲線の実質部分が有意と見なされる（即ち、境界閾値より高い）データ点をなおも分析しながら、不均衡効果を有しない。別の態様では、曲線のそれぞれの開始温度及び終了温度の平均、中央値、又は他の関数を用いてもよい。
【００５４】
図４は、本発明の態様に係る融解曲線のセットについて融解領域４１０を示すプロット４００を示す。この態様から見ることができるように、融解曲線は、融解領域の開始前に減少始めることができる。融解領域は、好都合には、融解曲線に特に一貫して重要である再現性のある領域全体で実施されるべき曲線の形状及び融解温度の分析を可能にする。クラスターの決定は、分析が融解領域に限定される場合により精密になり得る。
【００５５】
ＩＩＩ．２ステップ標準化
次に、融解領域を用いて、融解曲線を標準化してもよく、例えば、形状及び温度の分析においてより高い一貫性及び精度を提供してもよい。一態様では、各融解曲線を標準化して、融解曲線が融解領域終了で第１の値（例えば、０）を有し、融解領域開始で第２の値（例えば、１）を有するようになる。
【００５６】
図５Ａは、本発明の態様に係る融解曲線５００の標準化されていないセットを示す。図５Ｂは、本発明の態様に係る融解曲線５５０の標準化されたセットを示す。示されるように、標準化された融解曲線は、左の縦棒５６０における「１」の値、及び右の縦棒５７０における「０」の値を有する。
【００５７】
左の縦棒５６０は開始領域である。開始領域は融解領域開始の５６４で終了し、開始前の測定の（例えば、所定の）温度範囲の５６２で開始する。右の縦棒５７０は終了領域である。終了領域は融解領域の５７２で開始し、融解領域終了から同定の（例えば、所定の）温度範囲後の５７４で終了する。例えば、範囲は０．５℃〜１．０℃であってもよい。
【００５８】
図６は、本発明の態様に係る融解領域内の融解曲線を標準化するための方法６００を示すフローチャートである。完全性について、方法６００は融解曲線データの受信から開始する。
【００５９】
ステップ６１０では、融解曲線が受信される。受信された融解曲線は、生の融解データであるか又は再サンプリングされたデータであってもよい。ステップ６２０では、融解領域開始及び融解領域終了を有する融解領域が決定される。融解領域は、方法３００又は任意の他の方法によって決定されてもよい。例えば、１以上の融解曲線の一次導関数のピーク周囲に集まった温度ウィンドウを用いてもよい。
【００６０】
ステップ６３０では、融解領域の終了領域が決定される。一局面では、終了領域は、融解領域終了で開始する温度範囲（所定であり得て、例えば、０．５℃）である。また、融解領域の開始領域が決定されてもよい。別の局面では、開始領域は、融解領域開始で終わる温度範囲（所定であり得る）である。
【００６１】
ステップ６４０では、各曲線の最初の標準化が実行される。一局面では、各曲線について、標準化は、その曲線のデータ点を相殺することによって実行され、それにより終了領域内のデータ点は第１の値の平均値（例えば、０）を有する。次に、曲線はある種の数によって掛けられ、それにより開始領域におけるデータ点は第２の値の平均値（例えば、１）を有する。
【００６２】
ステップ６５０は、一度標準化された各曲線について、曲線が融解閾値と交差する閾値温度が同定される。一態様では、融解閾値は経験的に誘導される。共通の値は０．５〜０．２の間である。この値は、融解曲線の質に依存してもよい。種々の態様では、低ノイズのデータはより低い融解閾値を有することができ、より高いノイズのデータはより高い融解閾値を有することができる。
【００６３】
ステップ６６０では、平均閾値温度は、それぞれの閾値温度から計算される。一態様では、平均は、それぞれの閾値温度の数によって割られたそれぞれの閾値温度の合計の単純平均である。別の態様では、平均は荷重され得るか、又はそれぞれの閾値温度の関数は、平均が実施される前に採用されてもよい。
【００６４】
ステップ６７０では、融解曲線は温度軸に沿ってシフトされ、それにより各融解曲線は平均閾値温度で閾値と交差する。しかし、シフト後、終了領域及び開始領域における値は、もはや所望の第１の値及び第２の値ではない。
【００６５】
ステップ６８０では、第２の標準化が実施される。平均閾値温度よりも高い温度を有する曲線のデータ点が変更され得て、それにより曲線のデータ点は、平均閾値温度の閾値、及び終了領域における第３の数の平均値（例えば、０）を有する。平均閾値温度よりも低い温度を有する曲線のデータ点が変更され得て、開始領域が第４の値の平均値（例えば、１）を有する。
【００６６】
この標準化は、好都合には、シグナルのノイズに関わらずに、より多大な一貫性を有する均一な方法で実施されるように曲線の形状及び融点温度の分析を可能にする。クラスターの決定は、分析が、このような標準化後に比較される融解曲線で行われる場合、より精密になり得る。
【００６７】
図７Ａは、本発明の態様に従って、第１の標準化だけを受けた融解曲線のセットを示す。見ることができるように、融解曲線は、融解領域全体の様々な値に及ぶ。このような分散は、形状分析における困難性及び不規則性を引き起こす可能性がある。
【００６８】
図７Ｂは、本発明の態様に係る第２の標準化を受けた融解曲線のセットを示す。見ることができるように、融解領域における異なる値のうちの融解曲線の分散が低下された。各融解曲線は、同温度、ステップ６６０において決定された平均閾値温度（約８１℃）で閾値７１０と交差する。第２の標準化は、平均閾値温度以上及びそれ以下で、点について別々に実施され、それにより融解曲線はなお平均閾値温度の閾値と交差する。
【００６９】
ＩＶ．２段階的クラスタ化
異なるタイプの配列変化は異なる挙動をもたらすことができた。態様は、異なるタイプの配列変化をより効率的にかつ精度良く同定するために２ステッププロセスを使用することができる。
【００７０】
図８は、本発明の態様に係るサブクラスター内の配列変化を同定するための方法８００を示すフローチャートである。融解曲線のセットをクラスターに分割し、次にサブクラスターに分割することができる。一態様では、形状クラスターが最初に見出され、次に融解温度サブクラスターが各形状クラスター内で見出される。一態様では、形状クラスタ化は、ヘテロ接合突然変異に対応する融解曲線とそうでないものとを区別することができ、一方、融解温度クラスタ化は、ホモ接合突然変異を有する融解曲線とそうでないものとを区別することができる。
【００７１】
ステップ８１０では、融解曲線は、例えば、本明細書に記載されるように受信される。ステップ８２０では、融解領域開始及び融解領域終了を有する融解領域は、本明細書に記載されるように決定される。
【００７２】
ステップ８３０では、曲線の異なるクラスターは、融解領域の曲線の形状を分析することによって、異なる融解プロフィールを有するものとして同定される。例えば、ヘテロ接合ＳＮＰは、野生型とは異なる形状を有する。典型的には、ヘテロ接合ＳＮＰは、最初は、野生型よりも速く減少し、次に、融解曲線に降下が少し横ばいになる肘を有する。これは、ウェルにおける２つの異なる配列が存在するという結果であり、それは、唯一の染色体が配列変化を有するためである。一局面では、このケースにおいて、ウェルには４つの異なるｄｓＤＮＡアンプリコンが存在する：ホモ二本鎖野生型（親１由来）、ホモ二本鎖ＳＮＰ（親２由来）、及び２つのヘテロ二本鎖産物（１つは親１由来の鎖１と親２由来の鎖２から構成させ、１つは親１由来の鎖２と親２由来の鎖１から構成される）。
【００７３】
ステップ８４０では、クラスターが選択される。一態様では、選択されたクラスターは、野生型を含むクラスターに対応するクラスターである。このようにして、一態様では、選択されたクラスターは、最多数の融解曲線を有するクラスターである。別の態様では、各形状クラスターは、以下のステップあたりのさらなるそれぞれの分析について選択される。野生型クラスターにない配列は、ヘテロ接合ＳＮＰを有するものとして同定されてもよい。
【００７４】
ステップ８５０では、選択されたクラスターの各曲線の融解温度が決定される。融解温度は、負の一次導関数内のピーク位置を発見するための標準的な手法によって誘導されてもよい。一態様では、このために使用される融解曲線は、非温度シフトのＲＦＵ標準化データである。別の態様では、融解温度は、融解曲線が閾値と交差する値である。
【００７５】
ステップ８６０では、選択されたクラスターの曲線は、それぞれの融解温度に基づいて、複数のサブクラスターに分類される。一態様では、形状によって曲線を分類するための同じ計算方法を用いて、融解温度による分類を実施する。別の態様では、融解温度は、一次導関数のピークなど、任意の方法によって、又は融解曲線が閾値と交差する温度によって、標準化されていない融解曲線から決定される。
【００７６】
ステップ８７０では、サブクラスターの配列の少なくとも一部は、配列変化を有するものとして同定される。例えば、サブクラスターの遺伝子は、ホモ接合ＳＮＰなどの突然変異を有するものとして同定されてもよい。このようにして、ヘテロ接合ＳＮＰは、形状を分析することによって最初に決定されてもよい。次に、ホモ接合ＳＮＰは、同形状を有するクラスター内においてのみの分析によってより容易に同定され得る。
【００７７】
Ｖ．Ｋ個のＮ次元関数への適合によるクラスタ化形状
図９は、本発明の態様に係る融解曲線の形状を分析するための方法９００を示すフローチャートである。種々の態様では、融解曲線は、本明細書において記載された方法のいずれかにおいて、生データが受信され、再サンプリングされ、又は標準化されてもよい。一態様では、方法９００は、方法８００の形状クラスタ化のために使用されてもよい。
【００７８】
ステップ９１０では、各曲線は、Ｎ次元点に対してマッピングされ、ここで、Ｎは１より大きい整数である。例えば、各曲線についてＮ値が計算される。一局面では、Ｎ値の各々は、曲線の複数のセグメントの１つについてレポーターシグナル値の平均である。次に、Ｎ平均値のセットは、Ｎ次元空間における点として定義される。
【００７９】
ある種の態様では、曲線のセグメントは連続であり、融解領域の開始で始まり、平均閾値温度で終了する。他の態様では、曲線のセグメントは連続であり、融解領域の開始で始まり、融解領域の終了で終わる。
【００８０】
一態様では、各融解曲線は、最初にＲＦＵ標準化され、Ｎ次元点（例えば、Ｎ＝７）に対してマッピングされるまで温度シフトされる。Ｎ次元の値は、融解領域開始で始まり、平均閾値温度で終了するＮ個の連続した等しい幅のウィンドウの各々の平均ＲＦＵ値であってもよい（例えば、ステップ６６０に記載される）。
【００８１】
ステップ９２０では、Ｎ次元点のセットは、Ｋ個のＮ次元関数に対してフィットされる。一態様では、これらの関数はセンターを有し、適合プロセス中に移動可能である。センターは、初期にはセンターが互いに離れるように置かれてもよい。正確な点が、例えば、データ点の上になるように選択されてもよい。次に、関数が、Ｎ次元のデータ点の分配のより良好な表現を与えるように動かされ、拡張される。
【００８２】
この適合は、ガウスの混合物として知られているクラスタ化アルゴリズムの特注バージョンの反復応用の一部として行われてもよい。このような態様では、所定数（Ｋ個）のＮ次元のガウス確率分布はＮ次元点の所定セットに適合される。適合プログラムは、更なる変更が適合を十分に改善しなくなるまで、各々の確率分布の形状及び位置を変更することによって、所定セットの点がＫ個の確率分布由来であるという可能性を最大にする。
【００８３】
各関数は、ｅ^-C(X-X0)2の関数形式を有することができ、ここで、ＸはＮ次元点であり、Ｘ₀はガウスの中心である。Ｃは指数係数である。一態様では、Ｃは、係数における多項式について一連の異なる値である。ＸはＮ次元点であるので、Ｃは、値のＮ×Ｎマトリックスであると考えられてもよい。一局面では、Ｃは対称マトリックスである。
【００８４】
各ガウス関数について、その関数に近い点は、関数の適合により大きな寄与を与える。このようにして、データ点を有するガウスの重複が最大化される。理想的には、ガウスは、別のガウスが優先的に重複するため、同じデータ点と有意に重複しないように分けたままにする。
【００８５】
一態様では、ガウスの係数Ｃが制約されてもよい。例えば、Ｃの対角線要素である、各次元に沿ったＫ個のガウス標準偏差（即ち、幅）はある種の境界内にあるように強いられる。境界についてのいくつかの例示的値は以下の通りである：７次元形状クラスターについて、各次元の最大標準偏差は０．００６５であり、最小は０．０００７５である；そして、１次元融解温度クラスターについて、最大標準偏差は０．７であり、最小は０．０９である。
【００８６】
一局面では、これらの境界は、融解曲線におけるランダム変化の期待量をおおよそ示す。このアルゴリズムに与えられたデータセットは少数であり得て（即ち、ほとんど点がない）、妥当な確率分布を誘導することは困難であり得る。これらの境界は、特に小さなデータセットについて、結果をより安定かつ正確にすることができる。
【００８７】
別の態様では、ガウスは整列された軸であるように強いることができる。一局面では、整列している軸は安定していて、小さなデータセットについて有用であり得る。ガウスが整列された軸であるとき、Ｃ_ijの値はゼロに等しく、この場合、ｉはｊに等しくなく、共分散と呼ばれることがある。ｉがｊに等しい場合のこの値（ガウス幅の標準偏差）はゼロでなくてもよい。
【００８８】
別の態様では、Ｋ平均アルゴリズムは、ガウスの混合物の代りに使用される。この態様では、それぞれの関数は、同定のクラスターに帰属される点の平均である。各反復により、データ点が最も近い平均に帰属され、次に、新しい平均が計算され、このプロセスを繰り返す。他の態様では、他のクラスタ化アルゴリズムを用いることができる。
【００８９】
方法９００からすると、ステップ９３０では、各Ｎ次元点は、Ｋ個のＮ次元関数の１つを用いて同定される。一態様では、データ点は、その点に最も近い関数を用いて同定される。別の態様では、関数の値が使用され、最大値を有する関数がそのデータ点に帰属される。
【００９０】
ステップ９４０では、同じＮ次元関数を用いて帰属された曲線が同じクラスターに分類される。上記した通り、クラスターの配列の少なくとも一部は、配列変化を有するものとして同定することができる。
【００９１】
方法９００は、いくつのＮ次元関数が使用されるかに依存し得る。換言すれば、それは、上記で使用されるように、Ｋの値に依存し得る。態様は、Ｋを決定するための方法を提供することができる。
【００９２】
図１０は、本発明の態様に係るクラスタ化に使用するための多数のガウス又は他の関数を決定するための方法１０００のフローチャートである。一局面では、曲線をクラスターに帰属するために使用されるべき適切なＫは、多数のＫについて、クラスタ化法（例えば、上記のガウスの混合物）を適用することによって見出される。
【００９３】
ステップ１００５では、Ｋの値は、整数（例えば、２）に初期化される。ステップ１０１０では、Ｋ個のクラスターは、各曲線についてＮ次元点のセットから誘導される。例えば、所定のＫを有する上記の方法（例えば、ガウスウアルゴリズムの混合物を用いること）は、Ｋ個の確率分布がその点で最大の確率を有することによって同定されるクラスターに各データ点を帰属するために用いることができる。
【００９４】
ステップ１０２０では、Ｋ個のクラスターの任意の対の間の最小距離が見出される。一態様では、その距離は修正距離である。一対のクラスター間の修正距離は、倍率Ｍを掛けた、クラスター対の重心間のユークリッド距離Ｄであり得る。倍率Ｍは、２つのクラスターの標準偏差が重複する程度に基づいていることができ、即ち、クラスターがどのくらい明瞭であるかに基づく。より明瞭なクラスターは１を超えるＭを与え、一方、より明瞭でないクラスターは１未満であるＭを与える。修正距離を用いた効果は、点がコンパクトであり、低ノイズである（例えば、重複量が低い）場合に、互いに近づけるようにする。
【００９５】
一態様では、ガウスについての標準偏差係数Ｃ（関数の幅を示す任意の係数）を用いて、その重複を決定してもよい。別の態様では、同定クラスターについての点の広がりの標準偏差に関する値は、以下の通り、決定されてもよい。
【００９６】
Ｍの誘導では、一対のクラスタースコアＣＳを最初に計算することができる：
ｓｔｄＤｅｖ１＝クラスター１内の点の標準偏差。
ｓｔｄＤｅｖ２＝クラスター２内の点の標準偏差。
ａｖｇＳｔｄＤｅｖ＝（ｓｔｄＤｅｖ１＋ｓｔｄＤｅｖ２）／２
ＣＳ＝Ｄ／ａｖｇＳｔｄＤｅｖ
ＣＳは、データのスケールに依存しない標準化された数量である。一態様では、おおよそ３．５を超える値は、十分に差別化されたクラスターを示し、一方、より低い値は、累進的に差別化されていないクラスターを示す。いくつかの態様では、Ｍは、ＣＳの非線形関数であり、ここで、Ｍは、十分に差別化されたクラスターについて１を超え、差別化されていないクラスターについては１未満である。
【００９７】
一態様では、ＣＳの非線形関数は、それらの点の間で線形補間されているか、又はそれらの点から補外されるハードコードされた対照点のセットから誘導される。以下は対照点であり、（ＣＳ，Ｍ）フォーマットで表される：（−１，０．１）、（２．５，０．１）、（３．３，１）、（３．７，１）、（６．５，２）、及び（１００，２）。
【００９８】
ステップ１０３０では、修正距離Ｍ＊Ｄは、ある種の閾値ＣＤより大きく、次に、Ｋ個のクラスターのそのセットは「良好」と記される。一態様では、ＣＤは、ヘテロ接合ＳＮＰによって引き起こされる、期待される融解曲線形状距離に基づいて経験的に誘導される。
【００９９】
ステップ１０４０では、新しいＫが用いられるべきかどうかが決定される。一態様では、これは、最後のＫが良好として記されるかどうかに基づいて決定される。例えば、Ｋが良好である場合、次に、ステップ１０１０で開始するプロセスは、Ｋ＋１を用いて反復される。Ｋが不良である場合、高くないＫ値を分析する。別の態様では、所定の数のＫがスクリーニングされる。このようにして、あるＫが不良であると記されてもよいが、この方法は、所定の数が到達されなかった場合に、より高い数のＫについて結果を分析することができる。ある種の場合、ある種のより低いＫが不良として記され、一方、より高いＫが良好として記される。
【０１００】
ステップ１０５０では、良好として記される最大値を有するＫは、融解曲線が帰属されるべきクラスターを決定するために使用するＫとして採用される。次に、クラスターは、本明細書で記載されるように、配列変化が存在するかどうかを決定するために用いることができる。
【０１０１】
一態様では、ステップ１０１０におけるＫ個のＮ次元関数の決定は所定のＫについて数回実施されてもよい。各時間は異なる開始点を有する。一局面では、反復のいずれかが良好な結果を生じる場合、数値Ｋは良好として記されてもよい。別の局面では、いずれかの結果が多数を占めているとしても、その結果が提供される。５０−５０分割が不良又は良好として採用されてもよい。
【０１０２】
他の態様は、改善されたロバストを有することができ、階層的クラスタ化概念と記載されている方法を合わせる。上記されるいくつかのＫクラスターを見出した後、Ｋ−１クラスターは、Ｋクラスターの密接な２つを合わせることによって見出すことができる。「最接近」は、本明細書で記載されるとき、絶対距離又は修正距離の観点からであり得る。ループの前の反復において（例えば、前の反復のステップ１０１０で）見出されたように、そのＫ−Ｉクラスタ化は既存のＫ−１クラスタ化と比較される。その「最接近したクラスター距離」（上述）は既存のＫ−１クラスタ化の「最接近クラスター距離」よりも大きい場合、既存のＫ−１を置換する。このようにして、新しいセットのＫ−１クラスターが同定されてもよく、この新しいセットは、「良好」であってもよく、一方、古いセットは「不良」であってもよい。
【０１０３】
この「階層的なクラスタ化バックトラック」を用いて、Ｋ−１、Ｋ−２などのクラスターを見つけることができる。Ｋ−２クラスターを見つけるために、Ｋ−１に関する階層的クラスタ化は、同じ方法で階層的にクラスター化される。一態様では、バックトラッキングは、ある種のレベルで停止されてもよく、一方、他の態様はよりバックトラッキングで行われてもよい。
【０１０４】
このようなバックトラッキングは、クラスタ化アルゴリズム（例えば、Ｋ平均又はガウスアルゴリズムの混合物）に与えられる開始点に対するアルゴリズムの感受性を小さくすることによってロバストを増加させることができる。例えば、クラスター化されるべき点が、１つの異常点にとともに、ゼロでない標準偏差を有する１つの大きな点のグループで構成されている場合、アルゴリズムは、願わくば、それらの２つのクラスターを見つけるはずである。Ｋ平均又はガウスの混合物は、２つのクラスターを見つけると言われ、開始点として２つの最も離れた点を与える場合、極大がしばしば見られ、そこでは、１つのクラスターは、異常を含み、その異常に近い大きなグループからの周辺点のいつくかを含み、一方、他のクラスターは、その大きなグループの残りを含む。しかしながら、Ｋ平均又はガウスの混合物が３又は４個のクラスターを見つけると言われる場合、特に、修正距離との関連で、それらのクラスターの１つが１個の異常であり、したがって、階層的なバックトラッキングにおいて合わせられるという機会が非常に高くなる。
【０１０５】
方法９００について記載される通り、各形状クラスター内の融解曲線は、例えば、ステップ８６０からのサブクラスターとして、融解温度クラスターに分割されてもよい。一態様では、融解温度クラスタ化は、以下の修飾を有する形状クラスタ化として開始する。
【０１０６】
各融解曲線は、一次元点にマッピングされる。一態様では、その点は、負の一次導関数内のピーク位置を発見する標準的手段によって誘導される、融解曲線の融解温度である。一局面では、このために使用される融解曲線データは、温度シフトしていないＲＦＵ標準化データである。別の態様では、ＲＦＵ標準化データ内の閾値交差（例えば、ステップ６５０から）は一次元点として使用される。
【０１０７】
一態様では、同定の修正距離閾値ＣＤは、融解温度クラスタ化について使用される。距離閾値ＣＤは、ユーザーによって変更可能な「クラスタ化感受性設定」に依存する値であり得る。より高い感受性は、より低い閾値を生じさせる。いくつかの態様では、形状クラスタ化距離閾値は、０．０１と．０５６５２５６との間の範囲であり得る。融解温度クラスタ化距離閾値は、０．０５と１との間の範囲であり得る。これらの値は、異なる単位であることに気付かれない（形状クラスタ化距離閾値についてはＲＦＵ値（ｙ軸）、融解温度クラスタ化差異閾値については温度値（ｘ軸））。
【０１０８】
ＶＩ．ＳＴＲ分析
ＳＮＰ検出に加えて、態様は、縦列型反復配列（ｓｈｏｒｔｔａｎｄｅｍｒｅｐｅａｔ）（ＳＴＲ）分析に指向される。縦列型反復配列は、ある種の短鎖配列の多数の反復を含むＤＮＡ切片である。ヒトＤＮＡでは、各ヒトは、任意の所定のＳＴＲ部位で異なる数の反復を有することがある。また、各ヒトは、そのヒトの母親に与えられるＤＮＡにおいて１つの反復を有し、そのヒトの父親から潜在的に異なる数の反復を有する。このようにして、所定の個人についての各部位は、母親が３つの反復を与え、父親が５つの反復を与える場合、３と５などの２つの数でコードされ得る。
【０１０９】
ＳＴＲ部位は、単離され、増幅され、及び融解され得る。所定のヒトのＤＮＡについての融解曲線は、それらの２つの数（数が異なる場合の２つのピーク）に対応する、その中における１又は２個のピークのいずれかを有することができる。それらのピークは、ＤＮＡのより長い鎖が短いＤＮＡよりも高い温度で融解するため、異なる温度であってもよい。ＳＴＲにおける反復の数が高くなると、鎖はより長くなる。
【０１１０】
ＳＴＲ分析の１つの応用はＤＮＡフィンガープリントにおけるものである。個体を同定するために用いることができるＳＴＲ部位についての国際的基準がある。これらの部位は、反復の数についての異なる可能性のそれらのランダム分布について選ばれる。１０個又は１５個のこのように十分に選ばれた部位を用いて、ヒトの「フィンガープリント」、即ち、１０個又は１５個の数の対は、多数のヒトのうちで独特であるか又は少なくとも非常に稀である可能性が高い。
【０１１１】
ＳＴＲ分析は、ＳＮＰ検出とは異なる方法で行うことができる。１つの違いは、クラスタ化アルゴリズムに使用されるデータがどのように計算されるかである。例えば、融解曲線データのどの局面が用いられ、データがどのようにして標準化されるかである。標準化の方法６００は、ＳＮＰ検出について十分に機能することができ、それは、ＳＮＰ検出において、開始領域と終了領域との間のｘ軸距離が小さい（通常は５°未満）ためである。この小さな値のｘ軸距離は、対象とする全てのウェルの生成物がほぼ同じ温度で融解することに起因し得る。典型的には、対象のデータである、開始領域と終了領域との間に非常に小さなノイズ、融解遷移だけが存在する。典型的には、これは、ＳＴＲ分析について当てはまらない。いくつか試料について、開始領域と、生成物が融解し始める点との間に大きな温度範囲がある。
【０１１２】
図１１は、本発明の態様に係るクラスタ化について融解曲線データを前処理する方法１１００を示すフローチャートである。ＳＮＰ検出におけるような生融解曲線から開始するというよりは、ＳＴＲ検出は、融解曲線の負の一次導関数である、「融解ピーク」から開始することができる。一態様では、方法１２００は方法２００におけるステップ２４０に使用され得る。
【０１１３】
ステップ１１１０では、融解曲線データが受信される。ステップ１１２０では、融解領域が決定される。一態様では、開始領域及び終了領域は、同定セットの試料について全ての融解遷移を包含するように、およそ２５°と６０°で配置され得る。ＳＴＲ分析では、多量のノイズは、開始領域と融解遷移の間にあり、再度、融解遷移と終了領域の間にあり得る。方法６００がデータを標準化するために用いられた場合、試料間の大きな差異が存在し得て、それは、それらの融解領域外の相対的に小さな相違が標準化スケーリングによって効果的に増幅され得るためである。
【０１１４】
ステップ１１３０では、融解曲線の負の一次導関数が採用される。生の融解曲線よりはむしろ負の導関数のデータ（融解ピークデータ）を用いることができる。図１２Ａは、本発明の態様に係る融解ピーク曲線を示す。一態様では、融解温度は、融解ピークの傾きの温度（ｘ軸位置）、即ち、融解曲線の変曲点、ＤＮＡ生成物が最速で融解している点であると考えられる。融解ピークデータは、典型的には、低く開始し、低く終了し、（いくつの異なる生成物がウェルに存在していたかに依存して）中央で１以上のピークを有する。
【０１１５】
ステップ１１４０では、開始領域の融解ピークデータと終了領域の融解ピークデータとを接続するベースラインを作成する。図１２Ｂは、図１２Ａの融解ピーク曲線のベースラインのプロットを示す。一態様では、ベースラインは、融解領域の終了に融解領域の開始を接続する。別の態様では、開始領域における他の点（例えば、開始領域の終了以外）は、終了領域における他の点（例えば、終了領域の開始以外）に接続される。
【０１１６】
ステップ１１５０では、ベースラインは融解ピークから差し引かれる。一態様では、負の値は０で下限とされる。図１２Ｃは、図１２Ｂに示されるベースラインを差し引いて得られたデータを示す。
【０１１７】
ステップ１１６０では、ベースライン化された融解ピークが標準化され、それにより、開始領域と終了領域との間のそれらの最大値が１となり、最小値がゼロとなる。次に、標準化されたベースライン化されたピークがクラスタ化され得る。一局面では、ベースライン化された融解ピークは、各々、複数のＮ次元点、例えば、融解ピーク曲線の各セグメントについて１つの点に変換され得る。一局面では、セグメントは、融解ピーク曲線がノンゼロとなり、融解領域の終了で終了する点で開始することができる。
【０１１８】
ＳＴＲ分析についてクラスタ化する形状の実施において、Ｎ次元点は、ＳＮＰ分析についてＮ次元点とは異なることができる。参照として、ＳＮＰ検出では、Ｎ次元「形状点」は、融解領域開始で始まり、平均閾値温度で終了するＮ個の連続した等幅のウィンドウの各々の平均ＲＦＵ値であり得る（例えば、ステップ６６０に記載される）。ＳＴＲ分析について、平均閾値温度で終了するというよりはむしろ、Ｎ次元「形状点」が融解領域終了ウィンドウで終了可能である。上記した通り、一態様では、ＳＴＲ検出プロセッシングでは温度シフトが行われなく、そのため、平均閾値温度が存在しない。また、Ｎ＝７というよりは、ＳＮＰ検出について用いることができるように、ＳＴＲ検出はＮ＝３０を用いて、開始及び終了ウィンドウの間の範囲全体の至る所で起こるピークを捕捉するのに十分な解像度を得ることができる。別の態様では、融解温度クラスタ化はＳＴＲ分析については行われない。
【０１１９】
図１３は、本発明の態様に係るシステム及び方法を用いた典型的なコンピュータ装置使用のブロック図を示す。
【０１２０】
ＰＬＣ又はコンピュータ端末のいずれかは、任意の適切な数のサブシステムを利用してもよい。このようなサブシステム又はコンポーネントの例を図１３に示す。図１３に示されたサブシステムは、システムバス１３７５を介して相互に接続される。プリンター１３７４、キーボード１３７８、固定ディスク１３７９、モニター１３７６（ディスプレイアダプター１３８２に結合されている）、及びその他などの追加のサブシステムが示されている。周辺機器及び入力／出力（Ｉ／Ｏ）デバイスは、Ｉ／Ｏコントローラー１３７１に結合され、シリアルポート１３７７などの、当該技術分野において知られている任意の数の手段によってコンピュータシステムに接続することができる。例えば、シリアルポート１３７７又は外部インターフェース１３８１は、インターネット、マウス入力デバイス、又はスキャナーなどの広域ネットワークにコンピュータ装置を接続するために用いることができる。システムバスを介した相互接続により、中央プロセッサー１３７３は、各サブシステムと通信することができ、システムメモリ１３７１又は固定ディスク１３７９からの指示の実行、及びサブシステム間の情報交換を制御することが可能となる。システムメモリ１３７２及び／又は固定ディスク１３７９は、コンピュータ読み込み可能媒体を統合してもよい。
【０１２１】
本発明の同定の局面の同定の詳細は、本発明の精神及び態様の範囲から逸脱することなしにいずれかの適切な方法で組み合わせてもよい。しかしながら、本発明の他の態様は、各個々の局面に関連する同定の態様、又はこれらの個々の局面の同定の組み合わせに関連してもよい。
【０１２２】
上述される本発明は、モジュレータ又は統合された方法におけるハードウェア及び／又はコンピュータソフトウェアを用いた制御論理の形態で実施することができる。本明細書に提供された開示及び技術に基づいて、当業者は、ハードウェア及びハードウェアとソフトウェアの組み合わせを用いて本発明を実施するための他のやり方及び／又は方法を知り、承認するであろう。
【０１２３】
本明細書に記載されたソフトウェアコンポーネント又は機能のいずれかは、任意の適切なコンピュータ言語、例えば、Ｊａｖａ（登録商標）、Ｃ＋＋又はＰｅｒｌを用いて、例えば、慣用的又はオブジェクト指向技術を用いたプロセッサーによって実行されるべきソフトウェアコードとして実施されてもよい。ソフトウェアコードは、記憶及び／又は送信のためのコンピュータ読み込み可能媒体上の一連の指示又はコマンドとして保存されてもよく、適切な媒体には、ランダムアクセスメモリ（ＲＡＭ）、読込専用メモリ（ＲＯＭ）、磁気媒体、例えば、ハードドライブ又はフロッピー（登録商標）ディスク、又は光学媒体、例えば、コンパクトディスク（ＣＤ）又はＤＶＤ（デジタル多用途ディスク）、フラッシュメモリなどが挙げられる。コンピュータ読み込み可能媒体は、このような記憶又は通信デバイスの任意の組み合わせであってもよい。
【０１２４】
また、このようなプログラムはコードされ、インターネットを含む様々なプロトコールに適合されている有線、光学、及び／又は無線ネットワークを介した通信に当てはまるキャリア信号を用いて通信されてもよい。そのようなものとして、本発明の態様に係るコンピュータ読み込み可能媒体は、このようなプログラムでコードされたデータシグナルを用いて作製されてもよい。プログラムコードでコードされたコンピュータ読み込み可能媒体は、互換デバイスとともにパッケージにされ、又は他のデバイスとは別々に（例えば、インターネットダウンロードを介して）提供されてもよい。いずれのこのようなコンピュータ読み込み可能媒体は、シグナルコンピュータプログラム製造品（例えば、ハードデバイス又は完全なコンピュータシステム）上に又はその中にあってもよく、システム又はネットワーク内にある異なるコンピュータプログラム製造品上又はその中に存在してもよい。コンピュータシステムは、本明細書に記載された結果のいずれかをユーザーに提供するためにモニター、プリンター、又は他の適したディスプレイを含んでもよい。
【０１２５】
本発明の典型的な態様についての上記の記述は、図解及び説明の目的で提示したものである。余すところ無く記述したものでもなく、記述されたとおりの形態に発明を限定することを意図したものでもなく、上記の教示に照らして様々な変形及び変更が可能である。これらの態様は、本発明の本質及びその実際の応用を最も良く説明するために選択及び記述されたものであり、それによってこの技術分野における当業者が、意図された同定の使用に合うようにされた様々な変形例をもって、種々の実施例によりこの発明を最も良く利用できるようにしたものである。

【特許請求の範囲】
【請求項１】
ヌクレオチド配列間の配列変化を同定するための方法であって、該方法は、以下：
データ点の複数セットを受信し、ここで、各セットは２つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応し、セットの各データ点は試料についてシグナル値及び温度値を含み、この場合、温度は各連続データ点について上昇し、ここで、各セットは融解曲線を定義し、
少なくとも１つのプロセッサーは、
各融解曲線について、
二次導関数を採用し；
二次導関数の関数が境界閾値と交差する開始温度と終了温度を同定し；
融解曲線のそれぞれの開始温度に基づいて、融解領域開始を同定し；
融解曲線のそれぞれの終了温度に基づいて、融解領域終了を同定する
ことによって融解曲線について融解領域を決定し；
各融解曲線をそれぞれのクラスターに帰属し、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域において１以上の類似した特性を有し；そして
別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして少なくとも１つのクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことを含む方法。
【請求項２】
融解領域開始を同定することが、融解領域開始として他の開始温度の所定量よりも大きいそれぞれの開始温度を同定することを含み、そして融解領域終了を同定することが、融解領域終了として他の終了温度の所定量よりも小さいそれぞれの終了温度を同定することを含む、請求項１に記載の方法。
【請求項３】
他の開始温度の所定量が百分率である、請求項２に記載の方法。
【請求項４】
二本鎖分子が遺伝子である、請求項１に記載の方法。
【請求項５】
各試料が異なる生物由来の同遺伝子を含む、請求項４に記載の方法。
【請求項６】
配列変化が突然変異である、請求項４に記載の方法。
【請求項７】
二次導関数の関数が、二次導関数の移動平均である、請求項１に記載の方法。
【請求項８】
融解曲線をクラスターに帰属させる前に、各融解曲線を以下：
終了領域内の点が第１の値の平均値を有するように各融解曲線のデータ点を相殺し、ここで、該終了領域が融解領域終了で開始する所定の温度範囲であり；そして
開始領域におけるデータ点が第２の値の平均値を有するように融解曲線にある数を掛け、ここで、該開始領域が融解領域開始で終了する所定の温度範囲である
によって標準化することをさらに含む、請求項１に記載の方法。
【請求項９】
第１の値が０であり、第２の値が１である、請求項８に記載の方法。
【請求項１０】
ヌクレオチド配列間の配列変化を同定するための方法であって、該方法は、以下：
データ点の複数セットを受信し、ここで、各セットは２つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応し、セットの各データ点は試料についてシグナル値及び温度値を含み、この場合、温度は各連続データ点について上昇し、ここで、各セットは融解曲線を定義し、
融解領域開始及び融解領域終了を有する融解領域を決定し；
少なくとも１つのプロセッサーは以下：
融解曲線のデータ点を変更し、それにより終了領域内のデータ点は第１の数の平均値を有し、ここで、終了領域は融解領域終了で開始する温度範囲であり；及び
融解曲線のデータ点を変更し、それにより開始領域内のデータ点は第２の数の平均値を有し、ここで、開始領域は融解領域開始で終了する温度範囲である、
ことによって各融解曲線の第１の標準化を実行し；
各融解曲線について、融解曲線が閾値と交差する閾値温度を同定し；
それぞれの閾値温度から平均閾値温度を計算し；
融解曲線が平均閾値温度で閾値と交差するように各融解曲線をシフトさせ；
各融解曲線の第２の標準化を実行し、これは、
平均閾値温度よりも低い温度を有する融解曲線のデータ点を変更し、それにより開始領域におけるデータ点が第３の数の平均値を有する、ことを含み；
各融解曲線をそれぞれのクラスターに帰属し、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域において１以上の類似した特性を有し；そして
別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして少なくとも１つのクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことを含む方法。
【請求項１１】
各融解曲線の第２の標準化を実行することが、
平均閾値温度よりも高い温度を有する融解曲線のデータ点を変更し、それにより融解曲線のデータ点は平均閾値温度の閾値、及び終了領域における第４の数の平均値を有する
ことをさらに含む、請求項１０に記載の方法。
【請求項１２】
第１の標準化を実行することが、
融解曲線のデータ点を相殺し、それにより終了領域内のデータ点が第１の数の平均値を有し；そして
融解曲線のデータ点にある数を掛け、それにより開始領域におけるデータ点は第２の数の平均値を有する
ことを含む、請求項１０に記載の方法。
【請求項１３】
第１の値が０である、請求項１０に記載の方法。
【請求項１４】
第２の標準化を実行することが
開始領域から平均閾値温度までの融解曲線の各データにある数を掛け、それにより開始領域のデータ点が第３の数の平均値を有する
ことを含む、請求項１０に記載の方法。
【請求項１５】
第２の数が第３の数と同じである、請求項１０に記載の方法。
【請求項１６】
ヌクレオチド配列間の配列変化を同定するための方法であって、該方法は、以下：
データ点の複数セットを受信し、ここで、各セットは２つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応し、セットの各データ点は試料についてシグナル値及び温度値を含み、この場合、温度は各連続データ点について上昇し、ここで、各セットは融解曲線を定義し；
融解領域開始及び融解領域終了を有する融解領域を決定し；
各融解曲線をそれぞれのクラスターに帰属し、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域において１以上の類似した特性を有し；
少なくとも１つのプロセッサーは融解曲線のクラスターを選択し；
該少なくとも１つのプロセッサーは、選択されたクラスターの各融解曲線の融解温度を決定し；
該少なくとも１つのプロセッサーは、それぞれの融解温度に基づいて、複数のサブクラスターに、選択されたクラスターの融解曲線を分類し；そして
別のサブクラスターのヌクレオチド配列と比較して、配列変化を有するものとして少なくとも１つのサブクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことを含む方法。
【請求項１７】
配列変化を有するものとして少なくとも１つのクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことをさらに含む、請求項１６に記載の方法。
【請求項１８】
少なくとも１つのサブクラスターのヌクレオチド配列がホモ接合突然変異を有するものとして同定される、請求項１６に記載の方法。
【請求項１９】
ヌクレオチド配列間の配列変化を同定するための方法であって、該方法は、以下：
データ点の複数セットを受信し、ここで、各セットは２つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応し、セットの各データ点は試料についてシグナル値及び温度値を含み、この場合、温度は各連続データ点について上昇し、ここで、各セットは融解曲線を同定し；
融解領域開始及び融解領域終了を有する融解領域を決定し；
少なくとも１つのプロセッサーは、融解曲線の形状を分析することによって、各融解曲線をそれぞれのクラスターに帰属させ、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域において１以上の類似した形状特性を有し：
各融解曲線について
Ｎ平均値を計算し、各値は融解曲線の複数の連続セグメントの１つの平均であり；
Ｎ次元空間における点としてＮ平均値のセットを定義し；
Ｎ次元点をＫ個のＮ次元関数に適合させ；
Ｋ個のＮ次元関数の１つを用いて各Ｎ次元点を同定し；そして
同じＮ次元関数と関連した融解曲線を同じクラスターに分類し；並びに
別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして少なくとも１つのクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことを含む方法。
【請求項２０】
複数のＫ値について融解曲線をクラスタ化させ；
Ｋ個のクラスターの各セットについて
該セットの各クラスター間の距離を決定し；
各距離が閾値ＣＤよりも大きい場合には、Ｋ個のクラスターのセットが良好として記され；
クラスターが良好として記されたＫについての最大値を決定し；そして
Ｋの最大値についてクラスタ化に起因するクラスターを用いて、配列変化を同定する
ことをさらに含む、請求項１９に記載の方法。
【請求項２１】
Ｎ次元関数がガウス関数である、請求項１９に記載の方法。
【請求項２２】
ガウス幅が所定範囲内にあるように拘束される、請求項２１に記載の方法。
【請求項２３】
Ｎ次元関数が、それぞれの関数に帰属されたデータ点の平均を計算する各関数である、請求項１９に記載の方法。
【請求項２４】
ヌクレオチド配列間の配列変化を同定するための方法であって、該方法は、以下：
データ点の複数セットを受信し、ここで、各セットは２つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応し、セットの各データ点は試料についてシグナル値及び温度値を含み、この場合、温度は各連続データ点について上昇し、ここで、各セットは融解曲線を定義し；
融解領域開始及び融解領域終了を有する融解領域を決定し；
少なくとも１つのプロセッサーは、各融解曲線の負の一次導関数を採用し、それぞれの融解ピーク曲線を決定し；
少なくとも１つのプロセッサーは各融解曲線をそれぞれのクラスターに帰属させ、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域における融解ピーク曲線について１以上の類似した特性を有し；そして
別のクラスターについてのヌクレオチド配列と比較して、配列変化を有するものとして少なくとも１つのクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことを含む方法。
【請求項２５】
各々の負の一次導関数のベースラインを決定し、ここで、ベースラインは融解領域開始を融解領域終了に接続させ；そして
それぞれの融解ピーク曲線からベースラインを差し引いて、それぞれのベースライン化された融解ピーク曲線を提供し、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域におけるそれぞれのベースライン化された融解ピーク曲線について１以上の類似した特性を有する
をさらに含む、請求項２４に記載の方法。
【請求項２６】
ベースライン化された融解ピーク曲線の負のデータ点が０に設定される、請求項２５に記載の方法。
【請求項２７】
それぞれのベースライン化された融解ピーク曲線はクラスタ化前に標準化され、ここで、標準化は、ベースライン化された融解ピーク曲線のデータ点を変更することを含み、それにより、開始領域と終了領域との間のそれらの最大値は１であり、最小値は０である、請求項２６に記載の方法。

【図１】

【図２】

【図３】

【図４】

【図５Ａ】

【図５Ｂ】

【図６】

【図７Ａ】

【図７Ｂ】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【公表番号】特表２０１２−５１９００２（Ｐ２０１２−５１９００２Ａ）
【公表日】平成２４年８月２３日（２０１２．８．２３）
【国際特許分類】

【出願番号】特願２０１１−５５２１９５（Ｐ２０１１−５５２１９５）
【出願日】平成２２年２月２６日（２０１０．２．２６）
【国際出願番号】ＰＣＴ／ＵＳ２０１０／０２５６１４
【国際公開番号】ＷＯ２０１０／０９９４６１
【国際公開日】平成２２年９月２日（２０１０．９．２）
【出願人】（５９１０９９８０９）バイオ−ラッド　ラボラトリーズ，インコーポレイティド (79)
【Ｆターム（参考）】

[ Back to top ]

融解曲線クラスタ化によるＳＮＰ検出

メニュー

スポンサーリンク

次の公報 »

« 前の公報

融解曲線クラスタ化によるＳＮＰ検出

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク