説明

融解曲線クラスタ化によるSNP検出

融解曲線を収集する自動分析用のシステム、方法及び装置が提供される。この分析は、融解された二本鎖ヌクレオチド配列(例えば、DNA又は他のヌクレオチド配列)のある種の特徴を同定することができる。例えば、配列(アンプリコンとも呼ばれる)における変化(例えば、突然変異)はこの分析から決定されてもよい。アンプリコンは、PCR又はリガーゼ連鎖反応(LCR)などの任意の増幅メカニズムを介して増幅されてもよい。自動化分析には、融解領域を同定すること、融解曲線を標準化すること、及び融解曲線をクラスタ化することが含まれ得る。

【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
この非仮特許出願は、2009年2月27日に出願された、融解曲線クラスタ化によるSNP検出と題した米国仮特許出願第61/156,034号に対する優先権を主張する。この仮出願は、全ての目的でその全体として参照により本明細書中に援用される。
【背景技術】
【0002】
本発明は、一般に、単一ヌクレオチド多型(SNP)などの遺伝子における配列変化を同定すること、より具体的には配列変化を同定するためのポリメラーゼ連鎖反応(PCR)装置から融解曲線を用いることに関する。
【0003】
リアルタイムPCRを用いて標的ヌクレオチド配列を検出し、定量する。PCRでは、1以上の反応ウェルは、増幅されるDNA領域(標的)を含むDNA鋳型を含む。反応ウェルの温度を上昇させ、それによりDNAを2つの一本鎖に分離する。次に、温度を下げ、標的配列に隣接する領域に相補的であるプライマーが結合する。続いて、温度を僅かに上昇させ、一本鎖とプライマー結合を解離させる。その後、DNAポリメラーゼにより新しいDNAが合成され、そのDNA増幅のために提供され得る。
【0004】
配列の指数関数的増幅は、リアルタイムで、例えば蛍光により監視される。一般に、蛍光色素が用いられ、二本鎖DNAの存在だけをレポートする。典型的には、その色素は配列を区別せずに、したがって、望ましくない標的の増幅をレポートし得る。これらの望ましくない配列は、解離段階中に検出され得る。解離中に、二本鎖PCR産物が一本鎖に融解し、それにより蛍光が減少する。多くの場合、融解プロセスは、増幅が十分に達成された後に行われる。
【0005】
融解曲線は、温度の勾配上昇に対して蛍光の喪失をプロットすることによって生じさせることができる。種々の融解曲線の検出は、種々の配列の存在を意味する。この技術は、単一ヌクレオチド多型の検出、対立遺伝子識別、及び微生物の菌株分類に使用されている。
【0006】
しかしながら、種々の融解曲線の中の差異の決定は困難であり、反復可能でない場合がある。したがって、融解曲線を用いた配列変化を検出するための改善された方法及びシステムは、より高い精度、信頼性、及び結果の一貫性を提供することが望まれる。
【発明の概要】
【課題を解決するための手段】
【0007】
本発明の態様は、融解曲線を収集する自動分析用システム、方法、及び装置を提供することができる。この分析は、融解された二本鎖ヌクレオチド配列(例えば、DNA又は他のヌクレオチド配列)のある種の特徴を同定することができる。例えば、配列(アンプリコンとも呼ばれる)における変化(例えば、突然変異)が分析から決定されてもよい。アンプリコンは、PCR又はリガーゼ連鎖反応(LCR)などの任意の増幅機器により増幅されてもよい。種々の態様は、融解領域を同定し、融解曲線を標準化し、そして、標準化後にされてもよい融解曲線をクラスタ化する方法を提供することができる。
【0008】
ある態様によれば、ヌクレオチド配列間の配列変化を同定する方法が提供される。データ点の複数のセットを受信する。各セットは、2つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応する。セットの各データ点は、試料についてシグナル値と温度値を含み、この場合、温度は、各々の連続したデータ点について上昇する。各セットは融解曲線を定義する。
【0009】
一態様では、プロセッサーは、融解曲線について融解領域を決定する。各融解曲線について、二次導関数を採用し、二次導関数の関数が境界閾値と交差するところの開始温度及び終了温度が同定される。融解曲線のそれぞれの開始温度に基づいて、融解領域開始が同定される。融解曲線のそれぞれの終了温度に基づいて、融解領域終了が同定される。各融解曲線はそれぞれのクラスターに帰属される。同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域において1以上の類似した特性を有する。少なくとも1つのクラスターに対応するヌクレオチド配列の少なくとも一部は、別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして同定される。
【0010】
別の態様では、融解領域開始及び融解領域終了を有する融解領域が決定される。プロセッサーは、終了領域内のデータ点が第1の数の平均値を有するように融解曲線のデータ点を変更し、そして開始領域におけるデータ点が第2の数の平均値を有するように融解曲線のデータ点を変更することによって、各融解曲線の第1の標準化を行う。終了領域は融解領域終了から開始する温度範囲であり、開始領域は融解領域開始で終了する温度範囲である。各融解曲線について、融解曲線が閾値と交差する閾値温度が同定される。それぞれの閾値温度からの平均閾値温度が計算される。各融解曲線は、融解曲線が平均閾値温度で閾値と交差するようにシフトされる。各融解曲線の第2の標準化は、開始領域におけるデータ点が第3の数の平均値を有するように、平均閾値温度よりも低い温度を有する融解曲線のデータ点を変更することを含む。各融点曲線は、それぞれのクラスターに帰属される。同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域における1以上の類似した特性を有する。少なくとも1つのクラスターに対応するヌクレオチド配列の少なくとも一部は、別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして同定される。
【0011】
別の態様では、融解領域開始と融解領域終了を有する融解領域が決定される。各融解曲線は、それぞれのクラスターに帰属される。融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域における1以上の類似した形状特性を有する。プロセッサーは、融解曲線のクラスターを選択し、選択されたクラスターの各融解曲線の融解温度を決定する。プロセッサーは、それぞれの融解温度に基づいて、選択されたクラスターの融解曲線を複数のサブクラスターに分類する。少なくとも1つのサブクラスターに対応するヌクレオチド配列の少なくとも一部は、別のサブクラスターのヌクレオチド配列と比較して、配列変化を有するものとして同定される。
【0012】
別の態様では、融解領域開始と融解領域終了を有する融解領域が決定される。少なくとも1つのプロセッサーは、融解曲線の形状を分析することによって、それぞれのクラスターに各融解曲線を帰属する。同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域における1以上の類似した形状特性を有する。形状の分析には、各融解曲線について、N平均値を計算し、各値は、融解曲線の複数の連続セグメントの1つの平均であり;N次元空間における点としてN平均値のセットを定義し;N次元点をK個のN次元関数に適合させ;K個のN次元関数の1つを用いて各N次元点を同定し;そして、同じN次元関数を用いて帰属された融解曲線を同じクラスターに分類することを含む。少なくとも1つのクラスターに対応するヌクレオチド配列の少なくとも一部は、別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして同定される。
【0013】
別の態様では、融解領域開始と融解領域終了を有する融解領域が同定される。少なくとも1つのプロセッサーは、各融解曲線の負の一次導関数を採用し、それぞれの融解ピーク曲線を決定する。少なくとも1つのプロセッサーは、各融解曲線をそれぞれのクラスターに帰属する。同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域における融解ピーク曲線について1以上の類似した特性を有する。少なくとも1つのクラスターに対応するヌクレオチド配列の少なくとも一部は、別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして同定される。
【0014】
また、態様は、本明細書に記載されている方法を実施するコンピュータ読み込み可能な媒体及びシステムに関する。
【0015】
本発明の性質及び利点のより良い理解は、以下の詳細な説明及び添付の図面を参照して得られる。
【図面の簡単な説明】
【0016】
【図1】融解曲線100のセットを示す。各々は、本発明の態様に係る異なる二本鎖ヌクレオチド配列に対応する。
【0017】
【図2】アンプリコンの融解曲線を分析し、本発明の態様に係るアンプリコンの配列変化を決定するための方法を示すフローチャートである。
【0018】
【図3】融解曲線のセットを分析し、本発明の態様に係る全体的融解領域を決定するための方法を示すフローチャートである。
【0019】
【図4】本発明の態様に係る融解曲線のセットについての融解領域410を示すプロット400を示す。
【0020】
【図5A】本発明の態様に係る融解曲線500の標準化されていないセットを示す。
【0021】
【図5B】本発明の態様に係る融解曲線550の標準化されたセットを示す。
【0022】
【図6】本発明の態様に係る融解領域内の融解曲線を標準化するための方法600を示すフローチャートである。
【0023】
【図7A】本発明の態様に係る第1の標準化だけを施された融解曲線のセットを示す。
【0024】
【図7B】本発明の態様に係る第2の標準化を施された融解曲線のセットを示す。
【0025】
【図8】本発明の態様に係るサブクラスター内の配列変化を同定するための方法800を示すフローチャートである。
【0026】
【図9】本発明の態様に係る融解曲線の形状を分析するための方法900を示すフローチャートである。
【0027】
【図10】本発明の態様に係るクラスタ化に使用するためのガウス又は他の関数の数を決定するための方法1000のフローチャートである。
【0028】
【図11】本発明の態様に係るクラスタ化のための融解曲線データを前処理するための方法1100を示すフローチャートである。
【0029】
【図12】図12Aは、本発明の態様に係る融解ピーク曲線を示す。図12Bは、図12Aにおける融解ピーク曲線のベースラインのプロットを示す。図12Cは、図12Bにおいて示されたベースラインを差し引くことから得られたデータを示す。
【0030】
【図13】本発明の態様に係るシステム及び方法を使用できる例示的なコンピュータのブロック図を示す。
【発明を実施するための形態】
【0031】
図1は、融解曲線100のセットを示し、各々は本発明の態様に係る異なる二本鎖ヌクレオチド配列に対応する。融解曲線は、当業者に知られているいずれかの方法で生じさせてもよい。X軸110は温度(℃)である。温度は経時的に下降され、このようにして温度はまた時間と相関する。一態様では、この相関は直線であるが、他の関係は他の態様において生じてもよい。Y軸120はアンプリコンから得られたシグナルの値、例えば、蛍光シグナルの値を提供する。単位は相対的蛍光単位(RFU)である。
【0032】
RFUが高くなると、二本鎖DNA(dsDNA)の量が高くなる。RFUについて値が小さくなると、二本鎖アンプリコンの量が低くなる。dsDNAの試料が融解する温度(融解温度)は、RFUが中央レベル未満に下がった点として決定することができる。この点で、dsDNAは融解されたと考えることができる。
【0033】
各融解曲線は、そのアンプリコンのある種の特徴に依存している、ある種の形状及び/又は融解温度を有する。その融解曲線形状及び融解温度における相違を引き起こす特徴にはアンプリコンの配列が含まれる。一局面では、配列は、融解温度に対する最大の効果を有することができる。
【0034】
また、アンプリコンがホモ接合突然変異を含むかどうかは、融解曲線形状及び融解温度に影響を及ぼす可能性がある。一局面では、ホモ接合突然変異の存在は、融解曲線の形状に対して最大の効果を有することができる。ホモ接合の単一ヌクレオチド多型(SNP)を含むアンプリコンは、増幅後にdsDNAの混合物を生じさせる。得られたdsDNAのほぼ半分は、SNP位置でミスマッチの塩基対を有し、1つの鎖は、SNPを有する親から起こり、他方はそうではない。塩基対ミスマッチを含むdsDNAは安定性は小さく、僅かに低い温度で溶解するであろう。この不安定性は、融解曲線における特徴的な初期の落ち込みを引き起こす。また、アンプリコン内のメチル化の程度は、形状及び融解温度に影響を及ぼす可能性がある。
【0035】
1.一般的方法
図2は、アンプリコンの融解曲線を分析し、本発明の態様に係るアンプリコンの配列変化を決定するための方法200を示すフローチャートである。方法200は、少なくとも1つのプロセッサー、及びデータを記憶するための任意の数の記憶ユニット及び/又は該少なくとも1つのプロセッサーを制御するためのプログラムコードを有するコンピュータシステムによって実施されてもよい。
【0036】
ステップ210では、生の融解曲線データが、増幅装置(例えば、PCR機械)の一部又はそれとネットワークで結ばれているコンピュータシステムのインプットで受信される。一態様では、生の融解曲線はデータ点の複数セットである。一局面では、各セットは融解曲線を定義することができ、異なる融解曲線に対応可能である。別の局面では、各融解曲線は、2つのヌクレオチド配列の二本鎖分子(例えば、遺伝子)のコピーを含む異なる試料(例えば、反応ウェル)由来であってもよい。セットの各データ点は、温度が各々の連続したデータ点について上昇する使用についてシグナル値と温度値を含むことができる。
【0037】
ステップ220では、生の融解曲線データが再サンプリングされる。再サンプリングには、任意のタイプの曲線フィッティング、補間、又は回帰が含まれる。例えば、データは、三次スプラインを用いて補間されてもよい。得られた補間は、例えば、10℃あたりの1データ点が存在するように、新しいデータ点を与える任意の頻度でサンプリングされてもよい。一局面では、スプライン(又は他の方法)の使用により、より少ないデータ点がPCR機械によって測定され得る。他の態様では、生の融解曲線データは再サンプリングなしに使用されてもよい。
【0038】
ステップ230では、融解領域が決定される。融解領域は、dsDNA解離の開始の直前で始まり、dsDNAが完全に解離された直後に終了する領域として考えられてもよい。以下に記載される方法300は、融解領域を見つける方法の一例を与える。
【0039】
ステップ240では、各融解曲線が融解領域において標準化される。一態様では、標準化は、融解領域の開始及び終了近くの値を設定するように実施される。この標準化は、後に記載される単回標準化プロセスと見なされてもよい。別の態様では、標準化は、標準化領域内の第3の点を固定する。別の態様では、標準化は、融解曲線を新しい関数に変換し、次にその新しい関数を標準化してもよい。例えば、融解曲線は、融解曲線の負の一次導関数に変換され、次に標準化された負の一次導関数に変換され得た。
【0040】
ステップ250では、融解曲線はクラスターに分割される。一局面では、各融解曲線は1つのクラスターに帰属される。帰属の決定は、例えば、以下に説明される種々の方法で行うことができる。多数のクラスターがクラスタ化にどのように使用されるかの決定は、図10に示されるように行われてもよい。
【0041】
ステップ260では、ヌクレオチド配列の少なくとも一部は、配列変化(例えば、遺伝子突然変異)を有するものとして少なくとも1つのクラスターに対応する。一態様では、各融解曲線は、PCRプレートの異なるウェル由来である。また、各ウェルは同じ遺伝子であってもよいが、種々のヒト由来である。配列変化を示すウェルは、遺伝子における突然変異を示すものとして決定され得る。
【0042】
変化決定は、別のクラスター(大部分の融解曲線を含むクラスター)のヌクレオチド配列と比較して行われてもよい。例えば、野生型(最も共通している)である遺伝子の融解曲線は、遺伝子が突然変異を有する場合の融解曲線と区別することができる。野生型が存在しない場合、配列は、参照融解曲線と比較して、配列変化が突然変異であるかどうかを決定することができる。
【0043】
一度遺伝子が突然変異を有するものとして同定されると、突然変異のタイプを決定するために更なる分析(例えば、より費用がかかる配列決定)を行ってもよい。変化を有するものとして決定されたクラスターの配列の全部が必ずしも変化を有しないことに注意されたい。例えば、ヘテロ接合SNPでは、dsDNAの唯一の配列が突然変異を有する。一局面では、使用されるプライマーは突然変異の部位を包含する。
【0044】
II.融解領域の同定
図3は、融解曲線のセットを分析し、本発明の態様に係る全体的融解領域を決定するための方法300を示すフローチャートである。方法300は、方法200のステップ230を実施するために使用されてもよい。各融解曲線について、その融解曲線についての融解領域が決定され、次に全体的融解領域が個々の融解領域から決定される。
【0045】
ステップ310では、分析されていない新しい融解曲線が選択される。一態様では、受信された全ての融解曲線が分析される。別の態様では、受信された全ての融解曲線のある種の融解曲線だけが分析のために選択される。
【0046】
ステップ320では、選択された融解曲線の二次導関数が採用される。一態様では、二次導関数の絶対値は分析に使用される。一局面では、二次導関数の値は、典型的には、例えば、融解領域の直前及び直後に、対象の領域以外でほぼゼロである。別の局面では、二次導関数は2つのピークを有することができ、1つは融解領域開始でのピークであり、1つは融解領域終了でのピークである。
【0047】
ステップ330では、二次導関数曲線は平滑化され(例えば、2℃の平滑幅を有する)、2つのピークを1つのピークにまとめる。結果は、データの残りをほぼゼロにしながら、融解領域を横切る1つの幅広いピークであり得る。一態様では、平滑化関数は、同定のデータ点周囲のウィンドウ(2°)内のデータ点の平均を採用し、次にそのデータ点について新しい値としてその平均を使用する。平滑化はノイズ効果を減少させることができる。
【0048】
ステップ340では、1つにまとめられたピークの左境界と右境界が決定される。ある態様では、左境界及び右境界は、ピークが閾値と交差する点である。閾値は、ピークの特徴(例えば、ピークの最大値)と比較して、固定された数又は値であってもよい。このようにして、一態様では、ピークの左境界及び右境界は、ピークがその左及び右でピーク最大*0.35の境界閾値と交差する場所として同定される。それらの境界閾値交差は、融解曲線の融解領域境界として用いることができる。
【0049】
このような方法の利点は、一次導関数を用いて見られる場合がある融解曲線の中心点だけでなく、融解曲線の端が見られることである。定義される融解領域を用いて、融解曲線の形状は、より精度よく、一貫して比較され得る。また、二次導関数は所望の融解領域の外部の領域における相違に影響を受けることが少なく、それは二次導関数がこれらの外部領域において小さくなる傾向にある。
【0050】
ステップ350では、任意のより多くの融解曲線が分析に必要であるかどうかが決定される。より多くの曲線が分析されるべき場合、プロセスは、ステップ310に戻り、新しい融解曲線を選択する。
【0051】
ステップ360では、ステップ340から、各融解曲線について開始温度の収集は左境界から決定され、各融解曲線について各融解曲線の収集は右境界から決定される。一態様では、それらの2つの収集は、昇順又は降順にソートされる。
【0052】
ステップ370では、全体的融解領域開始及び全体的融解領域終了は、それぞれ曲線の開始温度と終了温度から決定される。いくつかの態様では、全体的融解領域開始として他の開始温度の所定の数よりも多いそれぞれの開始温度が決定され、融解領域終了として他の終了温度の所定の数よりも小さいそれぞれの終了温度が決定される。
【0053】
一態様では、ソートされた開始温度から15〜35%(例えば、25)パーセンタイル値(即ち、他の開始の25%より大きい)が全体的融解領域開始として採用され、ソートされた終了温度から65〜85%(例えば、75)パーセンタイル値(即ち、他の終了の75%より小さい)が全体の融解領域終了として採用される。このようにして、外部データ点は、融解曲線の実質部分が有意と見なされる(即ち、境界閾値より高い)データ点をなおも分析しながら、不均衡効果を有しない。別の態様では、曲線のそれぞれの開始温度及び終了温度の平均、中央値、又は他の関数を用いてもよい。
【0054】
図4は、本発明の態様に係る融解曲線のセットについて融解領域410を示すプロット400を示す。この態様から見ることができるように、融解曲線は、融解領域の開始前に減少始めることができる。融解領域は、好都合には、融解曲線に特に一貫して重要である再現性のある領域全体で実施されるべき曲線の形状及び融解温度の分析を可能にする。クラスターの決定は、分析が融解領域に限定される場合により精密になり得る。
【0055】
III.2ステップ標準化
次に、融解領域を用いて、融解曲線を標準化してもよく、例えば、形状及び温度の分析においてより高い一貫性及び精度を提供してもよい。一態様では、各融解曲線を標準化して、融解曲線が融解領域終了で第1の値(例えば、0)を有し、融解領域開始で第2の値(例えば、1)を有するようになる。
【0056】
図5Aは、本発明の態様に係る融解曲線500の標準化されていないセットを示す。図5Bは、本発明の態様に係る融解曲線550の標準化されたセットを示す。示されるように、標準化された融解曲線は、左の縦棒560における「1」の値、及び右の縦棒570における「0」の値を有する。
【0057】
左の縦棒560は開始領域である。開始領域は融解領域開始の564で終了し、開始前の測定の(例えば、所定の)温度範囲の562で開始する。右の縦棒570は終了領域である。終了領域は融解領域の572で開始し、融解領域終了から同定の(例えば、所定の)温度範囲後の574で終了する。例えば、範囲は0.5℃〜1.0℃であってもよい。
【0058】
図6は、本発明の態様に係る融解領域内の融解曲線を標準化するための方法600を示すフローチャートである。完全性について、方法600は融解曲線データの受信から開始する。
【0059】
ステップ610では、融解曲線が受信される。受信された融解曲線は、生の融解データであるか又は再サンプリングされたデータであってもよい。ステップ620では、融解領域開始及び融解領域終了を有する融解領域が決定される。融解領域は、方法300又は任意の他の方法によって決定されてもよい。例えば、1以上の融解曲線の一次導関数のピーク周囲に集まった温度ウィンドウを用いてもよい。
【0060】
ステップ630では、融解領域の終了領域が決定される。一局面では、終了領域は、融解領域終了で開始する温度範囲(所定であり得て、例えば、0.5℃)である。また、融解領域の開始領域が決定されてもよい。別の局面では、開始領域は、融解領域開始で終わる温度範囲(所定であり得る)である。
【0061】
ステップ640では、各曲線の最初の標準化が実行される。一局面では、各曲線について、標準化は、その曲線のデータ点を相殺することによって実行され、それにより終了領域内のデータ点は第1の値の平均値(例えば、0)を有する。次に、曲線はある種の数によって掛けられ、それにより開始領域におけるデータ点は第2の値の平均値(例えば、1)を有する。
【0062】
ステップ650は、一度標準化された各曲線について、曲線が融解閾値と交差する閾値温度が同定される。一態様では、融解閾値は経験的に誘導される。共通の値は0.5〜0.2の間である。この値は、融解曲線の質に依存してもよい。種々の態様では、低ノイズのデータはより低い融解閾値を有することができ、より高いノイズのデータはより高い融解閾値を有することができる。
【0063】
ステップ660では、平均閾値温度は、それぞれの閾値温度から計算される。一態様では、平均は、それぞれの閾値温度の数によって割られたそれぞれの閾値温度の合計の単純平均である。別の態様では、平均は荷重され得るか、又はそれぞれの閾値温度の関数は、平均が実施される前に採用されてもよい。
【0064】
ステップ670では、融解曲線は温度軸に沿ってシフトされ、それにより各融解曲線は平均閾値温度で閾値と交差する。しかし、シフト後、終了領域及び開始領域における値は、もはや所望の第1の値及び第2の値ではない。
【0065】
ステップ680では、第2の標準化が実施される。平均閾値温度よりも高い温度を有する曲線のデータ点が変更され得て、それにより曲線のデータ点は、平均閾値温度の閾値、及び終了領域における第3の数の平均値(例えば、0)を有する。平均閾値温度よりも低い温度を有する曲線のデータ点が変更され得て、開始領域が第4の値の平均値(例えば、1)を有する。
【0066】
この標準化は、好都合には、シグナルのノイズに関わらずに、より多大な一貫性を有する均一な方法で実施されるように曲線の形状及び融点温度の分析を可能にする。クラスターの決定は、分析が、このような標準化後に比較される融解曲線で行われる場合、より精密になり得る。
【0067】
図7Aは、本発明の態様に従って、第1の標準化だけを受けた融解曲線のセットを示す。見ることができるように、融解曲線は、融解領域全体の様々な値に及ぶ。このような分散は、形状分析における困難性及び不規則性を引き起こす可能性がある。
【0068】
図7Bは、本発明の態様に係る第2の標準化を受けた融解曲線のセットを示す。見ることができるように、融解領域における異なる値のうちの融解曲線の分散が低下された。各融解曲線は、同温度、ステップ660において決定された平均閾値温度(約81℃)で閾値710と交差する。第2の標準化は、平均閾値温度以上及びそれ以下で、点について別々に実施され、それにより融解曲線はなお平均閾値温度の閾値と交差する。
【0069】
IV.2段階的クラスタ化
異なるタイプの配列変化は異なる挙動をもたらすことができた。態様は、異なるタイプの配列変化をより効率的にかつ精度良く同定するために2ステッププロセスを使用することができる。
【0070】
図8は、本発明の態様に係るサブクラスター内の配列変化を同定するための方法800を示すフローチャートである。融解曲線のセットをクラスターに分割し、次にサブクラスターに分割することができる。一態様では、形状クラスターが最初に見出され、次に融解温度サブクラスターが各形状クラスター内で見出される。一態様では、形状クラスタ化は、ヘテロ接合突然変異に対応する融解曲線とそうでないものとを区別することができ、一方、融解温度クラスタ化は、ホモ接合突然変異を有する融解曲線とそうでないものとを区別することができる。
【0071】
ステップ810では、融解曲線は、例えば、本明細書に記載されるように受信される。ステップ820では、融解領域開始及び融解領域終了を有する融解領域は、本明細書に記載されるように決定される。
【0072】
ステップ830では、曲線の異なるクラスターは、融解領域の曲線の形状を分析することによって、異なる融解プロフィールを有するものとして同定される。例えば、ヘテロ接合SNPは、野生型とは異なる形状を有する。典型的には、ヘテロ接合SNPは、最初は、野生型よりも速く減少し、次に、融解曲線に降下が少し横ばいになる肘を有する。これは、ウェルにおける2つの異なる配列が存在するという結果であり、それは、唯一の染色体が配列変化を有するためである。一局面では、このケースにおいて、ウェルには4つの異なるdsDNAアンプリコンが存在する:ホモ二本鎖野生型(親1由来)、ホモ二本鎖SNP(親2由来)、及び2つのヘテロ二本鎖産物(1つは親1由来の鎖1と親2由来の鎖2から構成させ、1つは親1由来の鎖2と親2由来の鎖1から構成される)。
【0073】
ステップ840では、クラスターが選択される。一態様では、選択されたクラスターは、野生型を含むクラスターに対応するクラスターである。このようにして、一態様では、選択されたクラスターは、最多数の融解曲線を有するクラスターである。別の態様では、各形状クラスターは、以下のステップあたりのさらなるそれぞれの分析について選択される。野生型クラスターにない配列は、ヘテロ接合SNPを有するものとして同定されてもよい。
【0074】
ステップ850では、選択されたクラスターの各曲線の融解温度が決定される。融解温度は、負の一次導関数内のピーク位置を発見するための標準的な手法によって誘導されてもよい。一態様では、このために使用される融解曲線は、非温度シフトのRFU標準化データである。別の態様では、融解温度は、融解曲線が閾値と交差する値である。
【0075】
ステップ860では、選択されたクラスターの曲線は、それぞれの融解温度に基づいて、複数のサブクラスターに分類される。一態様では、形状によって曲線を分類するための同じ計算方法を用いて、融解温度による分類を実施する。別の態様では、融解温度は、一次導関数のピークなど、任意の方法によって、又は融解曲線が閾値と交差する温度によって、標準化されていない融解曲線から決定される。
【0076】
ステップ870では、サブクラスターの配列の少なくとも一部は、配列変化を有するものとして同定される。例えば、サブクラスターの遺伝子は、ホモ接合SNPなどの突然変異を有するものとして同定されてもよい。このようにして、ヘテロ接合SNPは、形状を分析することによって最初に決定されてもよい。次に、ホモ接合SNPは、同形状を有するクラスター内においてのみの分析によってより容易に同定され得る。
【0077】
V.K個のN次元関数への適合によるクラスタ化形状
図9は、本発明の態様に係る融解曲線の形状を分析するための方法900を示すフローチャートである。種々の態様では、融解曲線は、本明細書において記載された方法のいずれかにおいて、生データが受信され、再サンプリングされ、又は標準化されてもよい。一態様では、方法900は、方法800の形状クラスタ化のために使用されてもよい。
【0078】
ステップ910では、各曲線は、N次元点に対してマッピングされ、ここで、Nは1より大きい整数である。例えば、各曲線についてN値が計算される。一局面では、N値の各々は、曲線の複数のセグメントの1つについてレポーターシグナル値の平均である。次に、N平均値のセットは、N次元空間における点として定義される。
【0079】
ある種の態様では、曲線のセグメントは連続であり、融解領域の開始で始まり、平均閾値温度で終了する。他の態様では、曲線のセグメントは連続であり、融解領域の開始で始まり、融解領域の終了で終わる。
【0080】
一態様では、各融解曲線は、最初にRFU標準化され、N次元点(例えば、N=7)に対してマッピングされるまで温度シフトされる。N次元の値は、融解領域開始で始まり、平均閾値温度で終了するN個の連続した等しい幅のウィンドウの各々の平均RFU値であってもよい(例えば、ステップ660に記載される)。
【0081】
ステップ920では、N次元点のセットは、K個のN次元関数に対してフィットされる。一態様では、これらの関数はセンターを有し、適合プロセス中に移動可能である。センターは、初期にはセンターが互いに離れるように置かれてもよい。正確な点が、例えば、データ点の上になるように選択されてもよい。次に、関数が、N次元のデータ点の分配のより良好な表現を与えるように動かされ、拡張される。
【0082】
この適合は、ガウスの混合物として知られているクラスタ化アルゴリズムの特注バージョンの反復応用の一部として行われてもよい。このような態様では、所定数(K個)のN次元のガウス確率分布はN次元点の所定セットに適合される。適合プログラムは、更なる変更が適合を十分に改善しなくなるまで、各々の確率分布の形状及び位置を変更することによって、所定セットの点がK個の確率分布由来であるという可能性を最大にする。
【0083】
各関数は、e-C(X-X0)2の関数形式を有することができ、ここで、XはN次元点であり、X0はガウスの中心である。Cは指数係数である。一態様では、Cは、係数における多項式について一連の異なる値である。XはN次元点であるので、Cは、値のN×Nマトリックスであると考えられてもよい。一局面では、Cは対称マトリックスである。
【0084】
各ガウス関数について、その関数に近い点は、関数の適合により大きな寄与を与える。このようにして、データ点を有するガウスの重複が最大化される。理想的には、ガウスは、別のガウスが優先的に重複するため、同じデータ点と有意に重複しないように分けたままにする。
【0085】
一態様では、ガウスの係数Cが制約されてもよい。例えば、Cの対角線要素である、各次元に沿ったK個のガウス標準偏差(即ち、幅)はある種の境界内にあるように強いられる。境界についてのいくつかの例示的値は以下の通りである:7次元形状クラスターについて、各次元の最大標準偏差は0.0065であり、最小は0.00075である;そして、1次元融解温度クラスターについて、最大標準偏差は0.7であり、最小は0.09である。
【0086】
一局面では、これらの境界は、融解曲線におけるランダム変化の期待量をおおよそ示す。このアルゴリズムに与えられたデータセットは少数であり得て(即ち、ほとんど点がない)、妥当な確率分布を誘導することは困難であり得る。これらの境界は、特に小さなデータセットについて、結果をより安定かつ正確にすることができる。
【0087】
別の態様では、ガウスは整列された軸であるように強いることができる。一局面では、整列している軸は安定していて、小さなデータセットについて有用であり得る。ガウスが整列された軸であるとき、Cijの値はゼロに等しく、この場合、iはjに等しくなく、共分散と呼ばれることがある。iがjに等しい場合のこの値(ガウス幅の標準偏差)はゼロでなくてもよい。
【0088】
別の態様では、K平均アルゴリズムは、ガウスの混合物の代りに使用される。この態様では、それぞれの関数は、同定のクラスターに帰属される点の平均である。各反復により、データ点が最も近い平均に帰属され、次に、新しい平均が計算され、このプロセスを繰り返す。他の態様では、他のクラスタ化アルゴリズムを用いることができる。
【0089】
方法900からすると、ステップ930では、各N次元点は、K個のN次元関数の1つを用いて同定される。一態様では、データ点は、その点に最も近い関数を用いて同定される。別の態様では、関数の値が使用され、最大値を有する関数がそのデータ点に帰属される。
【0090】
ステップ940では、同じN次元関数を用いて帰属された曲線が同じクラスターに分類される。上記した通り、クラスターの配列の少なくとも一部は、配列変化を有するものとして同定することができる。
【0091】
方法900は、いくつのN次元関数が使用されるかに依存し得る。換言すれば、それは、上記で使用されるように、Kの値に依存し得る。態様は、Kを決定するための方法を提供することができる。
【0092】
図10は、本発明の態様に係るクラスタ化に使用するための多数のガウス又は他の関数を決定するための方法1000のフローチャートである。一局面では、曲線をクラスターに帰属するために使用されるべき適切なKは、多数のKについて、クラスタ化法(例えば、上記のガウスの混合物)を適用することによって見出される。
【0093】
ステップ1005では、Kの値は、整数(例えば、2)に初期化される。ステップ1010では、K個のクラスターは、各曲線についてN次元点のセットから誘導される。例えば、所定のKを有する上記の方法(例えば、ガウスウアルゴリズムの混合物を用いること)は、K個の確率分布がその点で最大の確率を有することによって同定されるクラスターに各データ点を帰属するために用いることができる。
【0094】
ステップ1020では、K個のクラスターの任意の対の間の最小距離が見出される。一態様では、その距離は修正距離である。一対のクラスター間の修正距離は、倍率Mを掛けた、クラスター対の重心間のユークリッド距離Dであり得る。倍率Mは、2つのクラスターの標準偏差が重複する程度に基づいていることができ、即ち、クラスターがどのくらい明瞭であるかに基づく。より明瞭なクラスターは1を超えるMを与え、一方、より明瞭でないクラスターは1未満であるMを与える。修正距離を用いた効果は、点がコンパクトであり、低ノイズである(例えば、重複量が低い)場合に、互いに近づけるようにする。
【0095】
一態様では、ガウスについての標準偏差係数C(関数の幅を示す任意の係数)を用いて、その重複を決定してもよい。別の態様では、同定クラスターについての点の広がりの標準偏差に関する値は、以下の通り、決定されてもよい。
【0096】
Mの誘導では、一対のクラスタースコアCSを最初に計算することができる:
stdDev1=クラスター1内の点の標準偏差。
stdDev2=クラスター2内の点の標準偏差。
avgStdDev=(stdDev1+stdDev2)/2
CS=D/avgStdDev
CSは、データのスケールに依存しない標準化された数量である。一態様では、おおよそ3.5を超える値は、十分に差別化されたクラスターを示し、一方、より低い値は、累進的に差別化されていないクラスターを示す。いくつかの態様では、Mは、CSの非線形関数であり、ここで、Mは、十分に差別化されたクラスターについて1を超え、差別化されていないクラスターについては1未満である。
【0097】
一態様では、CSの非線形関数は、それらの点の間で線形補間されているか、又はそれらの点から補外されるハードコードされた対照点のセットから誘導される。以下は対照点であり、(CS,M)フォーマットで表される:(−1,0.1)、(2.5,0.1)、(3.3,1)、(3.7,1)、(6.5,2)、及び(100,2)。
【0098】
ステップ1030では、修正距離M*Dは、ある種の閾値CDより大きく、次に、K個のクラスターのそのセットは「良好」と記される。一態様では、CDは、ヘテロ接合SNPによって引き起こされる、期待される融解曲線形状距離に基づいて経験的に誘導される。
【0099】
ステップ1040では、新しいKが用いられるべきかどうかが決定される。一態様では、これは、最後のKが良好として記されるかどうかに基づいて決定される。例えば、Kが良好である場合、次に、ステップ1010で開始するプロセスは、K+1を用いて反復される。Kが不良である場合、高くないK値を分析する。別の態様では、所定の数のKがスクリーニングされる。このようにして、あるKが不良であると記されてもよいが、この方法は、所定の数が到達されなかった場合に、より高い数のKについて結果を分析することができる。ある種の場合、ある種のより低いKが不良として記され、一方、より高いKが良好として記される。
【0100】
ステップ1050では、良好として記される最大値を有するKは、融解曲線が帰属されるべきクラスターを決定するために使用するKとして採用される。次に、クラスターは、本明細書で記載されるように、配列変化が存在するかどうかを決定するために用いることができる。
【0101】
一態様では、ステップ1010におけるK個のN次元関数の決定は所定のKについて数回実施されてもよい。各時間は異なる開始点を有する。一局面では、反復のいずれかが良好な結果を生じる場合、数値Kは良好として記されてもよい。別の局面では、いずれかの結果が多数を占めているとしても、その結果が提供される。50−50分割が不良又は良好として採用されてもよい。
【0102】
他の態様は、改善されたロバストを有することができ、階層的クラスタ化概念と記載されている方法を合わせる。上記されるいくつかのKクラスターを見出した後、K−1クラスターは、Kクラスターの密接な2つを合わせることによって見出すことができる。「最接近」は、本明細書で記載されるとき、絶対距離又は修正距離の観点からであり得る。ループの前の反復において(例えば、前の反復のステップ1010で)見出されたように、そのK−Iクラスタ化は既存のK−1クラスタ化と比較される。その「最接近したクラスター距離」(上述)は既存のK−1クラスタ化の「最接近クラスター距離」よりも大きい場合、既存のK−1を置換する。このようにして、新しいセットのK−1クラスターが同定されてもよく、この新しいセットは、「良好」であってもよく、一方、古いセットは「不良」であってもよい。
【0103】
この「階層的なクラスタ化バックトラック」を用いて、K−1、K−2などのクラスターを見つけることができる。K−2クラスターを見つけるために、K−1に関する階層的クラスタ化は、同じ方法で階層的にクラスター化される。一態様では、バックトラッキングは、ある種のレベルで停止されてもよく、一方、他の態様はよりバックトラッキングで行われてもよい。
【0104】
このようなバックトラッキングは、クラスタ化アルゴリズム(例えば、K平均又はガウスアルゴリズムの混合物)に与えられる開始点に対するアルゴリズムの感受性を小さくすることによってロバストを増加させることができる。例えば、クラスター化されるべき点が、1つの異常点にとともに、ゼロでない標準偏差を有する1つの大きな点のグループで構成されている場合、アルゴリズムは、願わくば、それらの2つのクラスターを見つけるはずである。K平均又はガウスの混合物は、2つのクラスターを見つけると言われ、開始点として2つの最も離れた点を与える場合、極大がしばしば見られ、そこでは、1つのクラスターは、異常を含み、その異常に近い大きなグループからの周辺点のいつくかを含み、一方、他のクラスターは、その大きなグループの残りを含む。しかしながら、K平均又はガウスの混合物が3又は4個のクラスターを見つけると言われる場合、特に、修正距離との関連で、それらのクラスターの1つが1個の異常であり、したがって、階層的なバックトラッキングにおいて合わせられるという機会が非常に高くなる。
【0105】
方法900について記載される通り、各形状クラスター内の融解曲線は、例えば、ステップ860からのサブクラスターとして、融解温度クラスターに分割されてもよい。一態様では、融解温度クラスタ化は、以下の修飾を有する形状クラスタ化として開始する。
【0106】
各融解曲線は、一次元点にマッピングされる。一態様では、その点は、負の一次導関数内のピーク位置を発見する標準的手段によって誘導される、融解曲線の融解温度である。一局面では、このために使用される融解曲線データは、温度シフトしていないRFU標準化データである。別の態様では、RFU標準化データ内の閾値交差(例えば、ステップ650から)は一次元点として使用される。
【0107】
一態様では、同定の修正距離閾値CDは、融解温度クラスタ化について使用される。距離閾値CDは、ユーザーによって変更可能な「クラスタ化感受性設定」に依存する値であり得る。より高い感受性は、より低い閾値を生じさせる。いくつかの態様では、形状クラスタ化距離閾値は、0.01と.0565256との間の範囲であり得る。融解温度クラスタ化距離閾値は、0.05と1との間の範囲であり得る。これらの値は、異なる単位であることに気付かれない(形状クラスタ化距離閾値についてはRFU値(y軸)、融解温度クラスタ化差異閾値については温度値(x軸))。
【0108】
VI.STR分析
SNP検出に加えて、態様は、縦列型反復配列(short tandem repeat)(STR)分析に指向される。縦列型反復配列は、ある種の短鎖配列の多数の反復を含むDNA切片である。ヒトDNAでは、各ヒトは、任意の所定のSTR部位で異なる数の反復を有することがある。また、各ヒトは、そのヒトの母親に与えられるDNAにおいて1つの反復を有し、そのヒトの父親から潜在的に異なる数の反復を有する。このようにして、所定の個人についての各部位は、母親が3つの反復を与え、父親が5つの反復を与える場合、3と5などの2つの数でコードされ得る。
【0109】
STR部位は、単離され、増幅され、及び融解され得る。所定のヒトのDNAについての融解曲線は、それらの2つの数(数が異なる場合の2つのピーク)に対応する、その中における1又は2個のピークのいずれかを有することができる。それらのピークは、DNAのより長い鎖が短いDNAよりも高い温度で融解するため、異なる温度であってもよい。STRにおける反復の数が高くなると、鎖はより長くなる。
【0110】
STR分析の1つの応用はDNAフィンガープリントにおけるものである。個体を同定するために用いることができるSTR部位についての国際的基準がある。これらの部位は、反復の数についての異なる可能性のそれらのランダム分布について選ばれる。10個又は15個のこのように十分に選ばれた部位を用いて、ヒトの「フィンガープリント」、即ち、10個又は15個の数の対は、多数のヒトのうちで独特であるか又は少なくとも非常に稀である可能性が高い。
【0111】
STR分析は、SNP検出とは異なる方法で行うことができる。1つの違いは、クラスタ化アルゴリズムに使用されるデータがどのように計算されるかである。例えば、融解曲線データのどの局面が用いられ、データがどのようにして標準化されるかである。標準化の方法600は、SNP検出について十分に機能することができ、それは、SNP検出において、開始領域と終了領域との間のx軸距離が小さい(通常は5°未満)ためである。この小さな値のx軸距離は、対象とする全てのウェルの生成物がほぼ同じ温度で融解することに起因し得る。典型的には、対象のデータである、開始領域と終了領域との間に非常に小さなノイズ、融解遷移だけが存在する。典型的には、これは、STR分析について当てはまらない。いくつか試料について、開始領域と、生成物が融解し始める点との間に大きな温度範囲がある。
【0112】
図11は、本発明の態様に係るクラスタ化について融解曲線データを前処理する方法1100を示すフローチャートである。SNP検出におけるような生融解曲線から開始するというよりは、STR検出は、融解曲線の負の一次導関数である、「融解ピーク」から開始することができる。一態様では、方法1200は方法200におけるステップ240に使用され得る。
【0113】
ステップ1110では、融解曲線データが受信される。ステップ1120では、融解領域が決定される。一態様では、開始領域及び終了領域は、同定セットの試料について全ての融解遷移を包含するように、およそ25°と60°で配置され得る。STR分析では、多量のノイズは、開始領域と融解遷移の間にあり、再度、融解遷移と終了領域の間にあり得る。方法600がデータを標準化するために用いられた場合、試料間の大きな差異が存在し得て、それは、それらの融解領域外の相対的に小さな相違が標準化スケーリングによって効果的に増幅され得るためである。
【0114】
ステップ1130では、融解曲線の負の一次導関数が採用される。生の融解曲線よりはむしろ負の導関数のデータ(融解ピークデータ)を用いることができる。図12Aは、本発明の態様に係る融解ピーク曲線を示す。一態様では、融解温度は、融解ピークの傾きの温度(x軸位置)、即ち、融解曲線の変曲点、DNA生成物が最速で融解している点であると考えられる。融解ピークデータは、典型的には、低く開始し、低く終了し、(いくつの異なる生成物がウェルに存在していたかに依存して)中央で1以上のピークを有する。
【0115】
ステップ1140では、開始領域の融解ピークデータと終了領域の融解ピークデータとを接続するベースラインを作成する。図12Bは、図12Aの融解ピーク曲線のベースラインのプロットを示す。一態様では、ベースラインは、融解領域の終了に融解領域の開始を接続する。別の態様では、開始領域における他の点(例えば、開始領域の終了以外)は、終了領域における他の点(例えば、終了領域の開始以外)に接続される。
【0116】
ステップ1150では、ベースラインは融解ピークから差し引かれる。一態様では、負の値は0で下限とされる。図12Cは、図12Bに示されるベースラインを差し引いて得られたデータを示す。
【0117】
ステップ1160では、ベースライン化された融解ピークが標準化され、それにより、開始領域と終了領域との間のそれらの最大値が1となり、最小値がゼロとなる。次に、標準化されたベースライン化されたピークがクラスタ化され得る。一局面では、ベースライン化された融解ピークは、各々、複数のN次元点、例えば、融解ピーク曲線の各セグメントについて1つの点に変換され得る。一局面では、セグメントは、融解ピーク曲線がノンゼロとなり、融解領域の終了で終了する点で開始することができる。
【0118】
STR分析についてクラスタ化する形状の実施において、N次元点は、SNP分析についてN次元点とは異なることができる。参照として、SNP検出では、N次元「形状点」は、融解領域開始で始まり、平均閾値温度で終了するN個の連続した等幅のウィンドウの各々の平均RFU値であり得る(例えば、ステップ660に記載される)。STR分析について、平均閾値温度で終了するというよりはむしろ、N次元「形状点」が融解領域終了ウィンドウで終了可能である。上記した通り、一態様では、STR検出プロセッシングでは温度シフトが行われなく、そのため、平均閾値温度が存在しない。また、N=7というよりは、SNP検出について用いることができるように、STR検出はN=30を用いて、開始及び終了ウィンドウの間の範囲全体の至る所で起こるピークを捕捉するのに十分な解像度を得ることができる。別の態様では、融解温度クラスタ化はSTR分析については行われない。
【0119】
図13は、本発明の態様に係るシステム及び方法を用いた典型的なコンピュータ装置使用のブロック図を示す。
【0120】
PLC又はコンピュータ端末のいずれかは、任意の適切な数のサブシステムを利用してもよい。このようなサブシステム又はコンポーネントの例を図13に示す。図13に示されたサブシステムは、システムバス1375を介して相互に接続される。プリンター1374、キーボード1378、固定ディスク1379、モニター1376(ディスプレイアダプター1382に結合されている)、及びその他などの追加のサブシステムが示されている。周辺機器及び入力/出力(I/O)デバイスは、I/Oコントローラー1371に結合され、シリアルポート1377などの、当該技術分野において知られている任意の数の手段によってコンピュータシステムに接続することができる。例えば、シリアルポート1377又は外部インターフェース1381は、インターネット、マウス入力デバイス、又はスキャナーなどの広域ネットワークにコンピュータ装置を接続するために用いることができる。システムバスを介した相互接続により、中央プロセッサー1373は、各サブシステムと通信することができ、システムメモリ1371又は固定ディスク1379からの指示の実行、及びサブシステム間の情報交換を制御することが可能となる。システムメモリ1372及び/又は固定ディスク1379は、コンピュータ読み込み可能媒体を統合してもよい。
【0121】
本発明の同定の局面の同定の詳細は、本発明の精神及び態様の範囲から逸脱することなしにいずれかの適切な方法で組み合わせてもよい。しかしながら、本発明の他の態様は、各個々の局面に関連する同定の態様、又はこれらの個々の局面の同定の組み合わせに関連してもよい。
【0122】
上述される本発明は、モジュレータ又は統合された方法におけるハードウェア及び/又はコンピュータソフトウェアを用いた制御論理の形態で実施することができる。本明細書に提供された開示及び技術に基づいて、当業者は、ハードウェア及びハードウェアとソフトウェアの組み合わせを用いて本発明を実施するための他のやり方及び/又は方法を知り、承認するであろう。
【0123】
本明細書に記載されたソフトウェアコンポーネント又は機能のいずれかは、任意の適切なコンピュータ言語、例えば、Java(登録商標)、C++又はPerlを用いて、例えば、慣用的又はオブジェクト指向技術を用いたプロセッサーによって実行されるべきソフトウェアコードとして実施されてもよい。ソフトウェアコードは、記憶及び/又は送信のためのコンピュータ読み込み可能媒体上の一連の指示又はコマンドとして保存されてもよく、適切な媒体には、ランダムアクセスメモリ(RAM)、読込専用メモリ(ROM)、磁気媒体、例えば、ハードドライブ又はフロッピー(登録商標)ディスク、又は光学媒体、例えば、コンパクトディスク(CD)又はDVD(デジタル多用途ディスク)、フラッシュメモリなどが挙げられる。コンピュータ読み込み可能媒体は、このような記憶又は通信デバイスの任意の組み合わせであってもよい。
【0124】
また、このようなプログラムはコードされ、インターネットを含む様々なプロトコールに適合されている有線、光学、及び/又は無線ネットワークを介した通信に当てはまるキャリア信号を用いて通信されてもよい。そのようなものとして、本発明の態様に係るコンピュータ読み込み可能媒体は、このようなプログラムでコードされたデータシグナルを用いて作製されてもよい。プログラムコードでコードされたコンピュータ読み込み可能媒体は、互換デバイスとともにパッケージにされ、又は他のデバイスとは別々に(例えば、インターネットダウンロードを介して)提供されてもよい。いずれのこのようなコンピュータ読み込み可能媒体は、シグナルコンピュータプログラム製造品(例えば、ハードデバイス又は完全なコンピュータシステム)上に又はその中にあってもよく、システム又はネットワーク内にある異なるコンピュータプログラム製造品上又はその中に存在してもよい。コンピュータシステムは、本明細書に記載された結果のいずれかをユーザーに提供するためにモニター、プリンター、又は他の適したディスプレイを含んでもよい。
【0125】
本発明の典型的な態様についての上記の記述は、図解及び説明の目的で提示したものである。余すところ無く記述したものでもなく、記述されたとおりの形態に発明を限定することを意図したものでもなく、上記の教示に照らして様々な変形及び変更が可能である。これらの態様は、本発明の本質及びその実際の応用を最も良く説明するために選択及び記述されたものであり、それによってこの技術分野における当業者が、意図された同定の使用に合うようにされた様々な変形例をもって、種々の実施例によりこの発明を最も良く利用できるようにしたものである。

【特許請求の範囲】
【請求項1】
ヌクレオチド配列間の配列変化を同定するための方法であって、該方法は、以下:
データ点の複数セットを受信し、ここで、各セットは2つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応し、セットの各データ点は試料についてシグナル値及び温度値を含み、この場合、温度は各連続データ点について上昇し、ここで、各セットは融解曲線を定義し、
少なくとも1つのプロセッサーは、
各融解曲線について、
二次導関数を採用し;
二次導関数の関数が境界閾値と交差する開始温度と終了温度を同定し;
融解曲線のそれぞれの開始温度に基づいて、融解領域開始を同定し;
融解曲線のそれぞれの終了温度に基づいて、融解領域終了を同定する
ことによって融解曲線について融解領域を決定し;
各融解曲線をそれぞれのクラスターに帰属し、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域において1以上の類似した特性を有し;そして
別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして少なくとも1つのクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことを含む方法。
【請求項2】
融解領域開始を同定することが、融解領域開始として他の開始温度の所定量よりも大きいそれぞれの開始温度を同定することを含み、そして融解領域終了を同定することが、融解領域終了として他の終了温度の所定量よりも小さいそれぞれの終了温度を同定することを含む、請求項1に記載の方法。
【請求項3】
他の開始温度の所定量が百分率である、請求項2に記載の方法。
【請求項4】
二本鎖分子が遺伝子である、請求項1に記載の方法。
【請求項5】
各試料が異なる生物由来の同遺伝子を含む、請求項4に記載の方法。
【請求項6】
配列変化が突然変異である、請求項4に記載の方法。
【請求項7】
二次導関数の関数が、二次導関数の移動平均である、請求項1に記載の方法。
【請求項8】
融解曲線をクラスターに帰属させる前に、各融解曲線を以下:
終了領域内の点が第1の値の平均値を有するように各融解曲線のデータ点を相殺し、ここで、該終了領域が融解領域終了で開始する所定の温度範囲であり;そして
開始領域におけるデータ点が第2の値の平均値を有するように融解曲線にある数を掛け、ここで、該開始領域が融解領域開始で終了する所定の温度範囲である
によって標準化することをさらに含む、請求項1に記載の方法。
【請求項9】
第1の値が0であり、第2の値が1である、請求項8に記載の方法。
【請求項10】
ヌクレオチド配列間の配列変化を同定するための方法であって、該方法は、以下:
データ点の複数セットを受信し、ここで、各セットは2つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応し、セットの各データ点は試料についてシグナル値及び温度値を含み、この場合、温度は各連続データ点について上昇し、ここで、各セットは融解曲線を定義し、
融解領域開始及び融解領域終了を有する融解領域を決定し;
少なくとも1つのプロセッサーは以下:
融解曲線のデータ点を変更し、それにより終了領域内のデータ点は第1の数の平均値を有し、ここで、終了領域は融解領域終了で開始する温度範囲であり;及び
融解曲線のデータ点を変更し、それにより開始領域内のデータ点は第2の数の平均値を有し、ここで、開始領域は融解領域開始で終了する温度範囲である、
ことによって各融解曲線の第1の標準化を実行し;
各融解曲線について、融解曲線が閾値と交差する閾値温度を同定し;
それぞれの閾値温度から平均閾値温度を計算し;
融解曲線が平均閾値温度で閾値と交差するように各融解曲線をシフトさせ;
各融解曲線の第2の標準化を実行し、これは、
平均閾値温度よりも低い温度を有する融解曲線のデータ点を変更し、それにより開始領域におけるデータ点が第3の数の平均値を有する、ことを含み;
各融解曲線をそれぞれのクラスターに帰属し、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域において1以上の類似した特性を有し;そして
別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして少なくとも1つのクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことを含む方法。
【請求項11】
各融解曲線の第2の標準化を実行することが、
平均閾値温度よりも高い温度を有する融解曲線のデータ点を変更し、それにより融解曲線のデータ点は平均閾値温度の閾値、及び終了領域における第4の数の平均値を有する
ことをさらに含む、請求項10に記載の方法。
【請求項12】
第1の標準化を実行することが、
融解曲線のデータ点を相殺し、それにより終了領域内のデータ点が第1の数の平均値を有し;そして
融解曲線のデータ点にある数を掛け、それにより開始領域におけるデータ点は第2の数の平均値を有する
ことを含む、請求項10に記載の方法。
【請求項13】
第1の値が0である、請求項10に記載の方法。
【請求項14】
第2の標準化を実行することが
開始領域から平均閾値温度までの融解曲線の各データにある数を掛け、それにより開始領域のデータ点が第3の数の平均値を有する
ことを含む、請求項10に記載の方法。
【請求項15】
第2の数が第3の数と同じである、請求項10に記載の方法。
【請求項16】
ヌクレオチド配列間の配列変化を同定するための方法であって、該方法は、以下:
データ点の複数セットを受信し、ここで、各セットは2つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応し、セットの各データ点は試料についてシグナル値及び温度値を含み、この場合、温度は各連続データ点について上昇し、ここで、各セットは融解曲線を定義し;
融解領域開始及び融解領域終了を有する融解領域を決定し;
各融解曲線をそれぞれのクラスターに帰属し、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域において1以上の類似した特性を有し;
少なくとも1つのプロセッサーは融解曲線のクラスターを選択し;
該少なくとも1つのプロセッサーは、選択されたクラスターの各融解曲線の融解温度を決定し;
該少なくとも1つのプロセッサーは、それぞれの融解温度に基づいて、複数のサブクラスターに、選択されたクラスターの融解曲線を分類し;そして
別のサブクラスターのヌクレオチド配列と比較して、配列変化を有するものとして少なくとも1つのサブクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことを含む方法。
【請求項17】
配列変化を有するものとして少なくとも1つのクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことをさらに含む、請求項16に記載の方法。
【請求項18】
少なくとも1つのサブクラスターのヌクレオチド配列がホモ接合突然変異を有するものとして同定される、請求項16に記載の方法。
【請求項19】
ヌクレオチド配列間の配列変化を同定するための方法であって、該方法は、以下:
データ点の複数セットを受信し、ここで、各セットは2つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応し、セットの各データ点は試料についてシグナル値及び温度値を含み、この場合、温度は各連続データ点について上昇し、ここで、各セットは融解曲線を同定し;
融解領域開始及び融解領域終了を有する融解領域を決定し;
少なくとも1つのプロセッサーは、融解曲線の形状を分析することによって、各融解曲線をそれぞれのクラスターに帰属させ、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域において1以上の類似した形状特性を有し:
各融解曲線について
N平均値を計算し、各値は融解曲線の複数の連続セグメントの1つの平均であり;
N次元空間における点としてN平均値のセットを定義し;
N次元点をK個のN次元関数に適合させ;
K個のN次元関数の1つを用いて各N次元点を同定し;そして
同じN次元関数と関連した融解曲線を同じクラスターに分類し;並びに
別のクラスターのヌクレオチド配列と比較して、配列変化を有するものとして少なくとも1つのクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことを含む方法。
【請求項20】
複数のK値について融解曲線をクラスタ化させ;
K個のクラスターの各セットについて
該セットの各クラスター間の距離を決定し;
各距離が閾値CDよりも大きい場合には、K個のクラスターのセットが良好として記され;
クラスターが良好として記されたKについての最大値を決定し;そして
Kの最大値についてクラスタ化に起因するクラスターを用いて、配列変化を同定する
ことをさらに含む、請求項19に記載の方法。
【請求項21】
N次元関数がガウス関数である、請求項19に記載の方法。
【請求項22】
ガウス幅が所定範囲内にあるように拘束される、請求項21に記載の方法。
【請求項23】
N次元関数が、それぞれの関数に帰属されたデータ点の平均を計算する各関数である、請求項19に記載の方法。
【請求項24】
ヌクレオチド配列間の配列変化を同定するための方法であって、該方法は、以下:
データ点の複数セットを受信し、ここで、各セットは2つのヌクレオチド配列の二本鎖分子のコピーを含む異なる試料に対応し、セットの各データ点は試料についてシグナル値及び温度値を含み、この場合、温度は各連続データ点について上昇し、ここで、各セットは融解曲線を定義し;
融解領域開始及び融解領域終了を有する融解領域を決定し;
少なくとも1つのプロセッサーは、各融解曲線の負の一次導関数を採用し、それぞれの融解ピーク曲線を決定し;
少なくとも1つのプロセッサーは各融解曲線をそれぞれのクラスターに帰属させ、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域における融解ピーク曲線について1以上の類似した特性を有し;そして
別のクラスターについてのヌクレオチド配列と比較して、配列変化を有するものとして少なくとも1つのクラスターに対応するヌクレオチド配列の少なくとも一部を同定する
ことを含む方法。
【請求項25】
各々の負の一次導関数のベースラインを決定し、ここで、ベースラインは融解領域開始を融解領域終了に接続させ;そして
それぞれの融解ピーク曲線からベースラインを差し引いて、それぞれのベースライン化された融解ピーク曲線を提供し、ここで、同じクラスターに帰属された融解曲線は、他のクラスターにおける融解曲線と比較して、融解領域におけるそれぞれのベースライン化された融解ピーク曲線について1以上の類似した特性を有する
をさらに含む、請求項24に記載の方法。
【請求項26】
ベースライン化された融解ピーク曲線の負のデータ点が0に設定される、請求項25に記載の方法。
【請求項27】
それぞれのベースライン化された融解ピーク曲線はクラスタ化前に標準化され、ここで、標準化は、ベースライン化された融解ピーク曲線のデータ点を変更することを含み、それにより、開始領域と終了領域との間のそれらの最大値は1であり、最小値は0である、請求項26に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図6】
image rotate

【図7A】
image rotate

【図7B】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公表番号】特表2012−519002(P2012−519002A)
【公表日】平成24年8月23日(2012.8.23)
【国際特許分類】
【出願番号】特願2011−552195(P2011−552195)
【出願日】平成22年2月26日(2010.2.26)
【国際出願番号】PCT/US2010/025614
【国際公開番号】WO2010/099461
【国際公開日】平成22年9月2日(2010.9.2)
【出願人】(591099809)バイオ−ラッド ラボラトリーズ,インコーポレイティド (79)
【Fターム(参考)】