説明

ゲノム同定システム

本発明は、ゲノミクスおよび核酸配列決定の分野に属する。本発明は、生物学的材料を配列決定し、そして短いストリングの配列決定情報をリアルタイムで確率的にマッチングして、前記生物学的材料中に存在するすべての種を同定する、新規方法を伴う。本発明は、配列情報のリアルタイム確率的マッチングに、そしてより詳細には、配列情報が生成されるのと同じ速さで、そして連続配列情報生成または収集と平行して、増幅されているかまたはされていない、化学的に合成されたかまたは物理的に調べられた、単一分子核酸の複数の配列の短いストリングを比較することに関する。

【発明の詳細な説明】
【技術分野】
【0001】
関連出願に対するクロスリファレンス
[001]本出願は、2007年11月21日出願の米国仮出願第60/989,641号に優先権を請求し、該出願の開示は、その全体が本明細書に援用される。
【0002】
発明の分野
[002]本発明は、生物同定のためのシステムおよび方法、そしてより詳細には、ハンドヘルドまたはより大きい電子デバイスにおける確率的データマッチングによる、核酸および他のポリマー性または鎖型分子の配列の決定に関する。
【背景技術】
【0003】
[003]DNAまたはRNAサンプルを分析し、そして配列決定することが有用であろう、生命を脅かす状況が非常に多様にあり、例えば、致死性の病原体が環境内に放出されているバイオテロリズム行為に応じた状況がある。過去には、こうした結果は多くの人々の関与を必要としており、これには非常に長い時間が掛かった。その結果、迅速性および正確さが劣る可能性がある。
【0004】
[004]バイオテロリストの攻撃または流行の出現の場合、第一の応答者、すなわち救急治療室の医師(そのオプションまたは臨床治療)、ならびに食品製造業者、卸業者、小売業者、および国中の公衆衛生職員が、迅速に、正確に、そして信頼性を持って病原体およびそれらが引き起こす疾患を同定することが重要である。病原体は、食品、空気、土、水、組織および病原体の臨床像などのサンプルソース中に含有されうる。病原体および/または潜在的な疾患は生命を脅かす可能性もあり、そして非常に伝染性が強い可能性もあるため、この同定プロセスは、迅速に行われなければならない。これは、現在の国土安全保障バイオテロリズム応答における重要な弱点である。
【0005】
[005]単一より多い生物を同定可能であり(多重化)そして種が存在するかどうかを、サンプル中に存在する核酸のゲノム比較に基づいて示しうる、システムおよび方法が必要である。
【0006】
[006]生物学的操作における迅速な進歩によって、DNA配列決定ツール、すなわちDNA中の塩基の順序を決定する方法であるハイスループット配列決定の設計および能力に劇的な影響が与えられてきており、ヒト疾患の遺伝的基礎に対する手がかりを与えうる遺伝子変動マップが得られている。この方法は、任意の数のプライマーを用いて、DNAの多くの異なるテンプレートを配列決定するのに非常に有用である。生物学的操作のこれらの重要な進歩にも関わらず、配列[情報]を迅速に同定し、そしてより効率的にそして効果的にデータを転送する構築デバイスにはほとんど進歩がない。
【0007】
[007]伝統的なDNA配列決定は、DNA合成によるDNA鎖の伸長を停止する鎖終結阻害剤を用いる、サンガー法[Sangerら、1977]と一般的に称されるダイデオキシ法によって達成された。
【0008】
[008]配列決定戦略のための新規方法が開発され続けている。例えば、DNAマイクロアレイの出現は、配列アレイを構築し、そしてハイブリダイゼーションによる配列決定と一般的に称されるプロセスにおいて、相補配列とハイブリダイズさせることを可能にする。現在の最新技術と見なされる別の技術は、プライマー伸張後、単一のヌクレオチドの各周期での周期的な添加、その後の取り込み事象の検出を使用する。一般的に合成による配列決定またはパイロシークエンスと称され、蛍光in situ配列決定(FISSEQ)を含む技術は、実際には反復性であり、そしてプライマー伸張の反復周期の一連のプロセスを伴う一方で、ターゲットヌクレオチド配列を配列決定する。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】Sangerら、1977
【発明の概要】
【発明が解決しようとする課題】
【0010】
[009]したがって、応答を合理化し、価値ある医療用品を節約し、そしてバイオテロリズム、不注意の放出、および病原体流行の出現を封じ込めるための、核酸配列データ、臨床データ、療法介入、および適切な集団への目的に合わせた(tailoed)療法剤送達の多方向電子通信を含む、迅速なゲノム同定法およびシステムに対する必要性が存在する。
【課題を解決するための手段】
【0011】
[0010]本システムは、生物学的材料を含有する任意のサンプルを分析して、サンプル中の種またはゲノムの存在を決定するように設計される。これは、生物学的材料の配列情報を入手して、そして当該配列情報をデータベースに対して比較することによって達成される。配列情報がマッチするならば、ゲノムまたは種が存在することが示される。確率的マッチングは、その種が存在する尤度を計算するであろう。該方法は、大規模平行配列決定システムに適用可能である。
【0012】
発明の概要
[0011]本発明の1つの側面は、生物学的材料を含むサンプルを入手すること、当該サンプルから1以上の核酸分子を抽出すること、当該核酸分子から配列情報を生成すること、および当該配列情報とデータベース内の核酸配列とを確率に基づいて比較することを含む、サンプル中の生物学的材料を同定する方法である。生物学的材料を同定することには、限定されるわけではないが、サンプル中に存在するゲノムを検出し、そして/または決定すること、前記サンプル内に含有される核酸配列情報、生物学的材料の種を決定する能力、株、突然変異体および操作された生物間の変動を検出する能力、ならびに未知の生物および多型を性質決定することが含まれる。生物学的材料には、限定されるわけではないが、生物または病原体のDNA、RNAおよび関連する遺伝子情報が含まれる。
【0013】
[0012]本発明の1つの態様において、前記1以上の核酸分子は、DNAまたはRNAから選択されうる。
[0013]別の態様において、本発明は、長さnのヌクレオチド断片を含む配列情報を生成すること、およびさらに前記長さnの断片を、データベース内の核酸配列と比較することを含む。
【0014】
[0014]1つの態様において、「n」は前記サンプルから入手される核酸分子の陽性同定に必要なヌクレオチド断片の最小限の長さに相当する。
[0015]1つの態様において、「n」は、1ヌクレオチド〜5ヌクレオチドの範囲であってもよい。
【0015】
[0016]本発明の別の態様において、長さnのヌクレオチド断片の配列情報のマッチ確率がターゲットマッチの閾値より小さい場合に、長さn+1、n+2・・・n+xのヌクレオチド断片を生成する。
【0016】
[0017]さらに別の態様において、本発明は、配列情報を生成する前に、前記1以上の核酸分子を増幅して複数(i)の1以上の核酸分子を得ることを含む。増幅後に生成される配列情報は、複数(i(n))の断片が、データベース内の核酸配列と比較されるように、長さnのヌクレオチド断片を含んでもよい。
【0017】
[0018]本発明の別の態様において、複数(i(n))の配列情報のマッチ確率がターゲットマッチの閾値より小さい場合に、複数のi(n+1)、i(n+2)・・・i(n+x)の配列情報を生成する。
【0018】
[0019]本発明の1つの態様において、ヌクレオチド断片を、限定されるわけではないが、ベイズアプローチ、再帰ベイズアプローチまたはナイーブベイズアプローチを含む確率マッチングによってデータベース内の核酸配列に比較する。
【0019】
[0020]確率アプローチは、正確な結論に達するために2つの重要な因子を考慮するベイズ尤度を用いてもよい:(i)P(t/R)は、試験パターンRを示す生物が分類群tに属する確率であり、そして(ii)P(R/t)は、分類群tのメンバーが試験パターンRを示す確率である。ツール内に組み込まれたスライディング・ウィンドウ内の最小限のパターンは、生物が遺伝的に修飾されている「かどうか」および「どのように」修飾されているかに関して、研究者を補助するであろう。
【0020】
[0021]本発明の1つの態様において、確率的マッチングによって、前記配列情報の種を同定するための階層型統計的フレームワークが与えられる。
[0022]本発明の別の態様において、配列情報の比較を、リアルタイムで、または当該配列情報が生成されるのと同じ速さで、または生成された直後に実行する。
【0021】
[0023]本発明の別の態様において、前記1以上の核酸分子から追加の配列情報を生成し続けながら、前記配列情報の比較を、リアルタイムまたは配列情報が生成されるのと同じ速さで実行し、ここで前記追加の配列情報は、限定されるわけではないが、先に生成された配列情報と比較した際に、増加した、減少したまたは同じ長さの配列情報を含む、様々な長さのヌクレオチドを含んでもよい。
【0022】
[0024]本発明の別の態様において、方法は、生物学的材料を含むサンプルを入手すること、当該サンプルから1以上の核酸分子を抽出すること、当該核酸分子から長さnのヌクレオチド断片を含む配列情報を生成すること、およびリアルタイムまたは断片が生成されるのと同じ速さでデータベース内の核酸配列と比較し、長さn+1、n+2・・・n+xの核酸断片を、当該1以上の核酸分子から生成し続け、そしてリアルタイムまたは断片が生成されるのと同じ速さでデータベース内の核酸配列と比較し続けることを含む。
【0023】
[0025]本発明の別の態様において、方法は、生物学的材料を含むサンプルを入手すること、当該サンプルから1以上の核酸分子を抽出すること、長さnのヌクレオチド断片の配列情報を生成する前に、当該1以上の核酸分子を増幅して複数(i)の核酸分子を得ることを含み;複数(i(n))のヌクレオチド断片を、リアルタイムまたは断片が生成されるのと同じ速さでデータベース内の核酸配列と比較しながら、複数(i(n+l))、(i(n+2))・・・(i(n+x))の核酸断片を、当該1以上の核酸分子から生成し続け、そしてリアルタイムまたは断片が生成されるのと同じ速さでデータベース内の核酸配列と比較し続けることをさらに含む。
【0024】
[0026]本発明の1つの態様において、配列情報には、限定されるわけではないが、クロマトグラム、標識DNAまたはRNA断片の画像、ヌクレオチド順序を決定するための核酸分子の物理的照合、ナノポア分析、および核酸鎖の配列を決定する当該技術分野に知られる他の方法が含まれる。
【0025】
[0027]本発明の1つの態様において、「x」は、1〜10、10〜20、20〜30、30〜40、40〜50、50〜60、60〜70、70〜80、80〜90または90〜100ヌクレオチドより選択されてもよい。別の態様において、「x」は、100〜200、200〜300、300〜400または400〜500ヌクレオチドであってもよい。
【0026】
[0028]本発明の別の態様において、長さnのヌクレオチド断片の配列情報のマッチ確率がターゲットマッチの閾値より小さい場合に、n+xが、前記サンプルから入手される核酸分子の陽性同定のためのヌクレオチド断片の最少の長さに相当する。
【0027】
[0029]本発明の別の態様は、(1)生物学的材料を含むサンプルを入手すること、(2)当該サンプルから1以上の核酸分子を抽出すること、(3)当該1以上の核酸分子からヌクレオチド断片の配列を含んでなる配列情報を生成すること、(4)当該ヌクレオチド断片の配列をデータベース内の核酸配列と比較することを含む、サンプル中の生物学的材料を同定する方法であって、当該ヌクレオチド断片の配列を比較した結果、当該サンプル中の生物学的材料を同定するマッチングが得られない場合、(5)当該1以上の核酸分子から、1の追加のヌクレオチドからなるヌクレオチド断片の配列を含む追加の配列情報を生成すること、(6)当該追加の配列情報の生成直後に、当該追加の配列情報をデータベース内の核酸配列と比較すること、そして、マッチングの結果、当該サンプル中の生物学的材料が同定されるまで工程(5)〜(6)を繰り返すことをさらに含む、上記方法である。
【0028】
[0030]本発明の別の態様は、(1)生物学的材料を含むサンプルを入手すること、(2)当該サンプルから1以上の核酸分子を抽出すること、(3)当該1以上の核酸分子を増幅させて複数の1以上の核酸分子を得ること、(3)当該1以上の核酸分子からヌクレオチド断片の複数の配列を含んでなる複数の配列情報を生成すること、(4)当該ヌクレオチド断片の複数の配列をデータベース内の核酸配列と比較することを含む、サンプル中の生物学的材料を同定する方法であって、当該ヌクレオチド断片の複数の配列を比較した結果、当該サンプル中の生物学的材料を同定するマッチングが得られない場合、(5)当該1以上の核酸分子から、1の追加のヌクレオチドからなるヌクレオチド断片の配列を含む複数の追加の配列情報を生成すること、(6)当該追加の配列情報の生成直後に、当該追加の配列情報をデータベース内の核酸配列と比較すること、そして、マッチングの結果、当該サンプル中の生物学的材料が同定されるまで工程(5)〜(6)を繰り返すことをさらに含む、上記方法である。
【0029】
[0031]本発明はまた、(1)生物学的材料を含むサンプルを受容するように構成される、サンプル受容ユニット;(2)当該サンプルから少なくとも1の核酸分子を抽出するように構成される、サンプル受容ユニットと連結された抽出ユニット;(3)少なくとも1の核酸分子を当該抽出ユニットから受容し、少なくとも1の核酸分子から配列情報を生成するように構成される、当該抽出ユニットと連結された配列決定カセット;(4)参照核酸配列を含んでなるデータベース;および(5)当該配列決定カセットから当該配列情報を受信し、当該配列情報を当該参照核酸配列と比較するように構成される、当該配列決定カセットおよび当該データベースと連結された処理ユニットを含む、生物学的材料を検出するためのシステムにも関する。
【0030】
[0032]本発明の別の態様において、前記抽出ユニットは、前記長さnの前記ヌクレオチド断片をデータベースと比較するように構成される。
[0033]本発明の別の態様において、前記抽出ユニットは、確率的マッチングで前記長さnのヌクレオチド断片をデータベースと比較するように構成される。
【0031】
[0034]本発明の別の態様において、前記抽出ユニットは、前記長さnのヌクレオチド断片をリアルタイムまたは当該断片が生成されるのと同じ速さでデータベースと比較するように構成される。
【0032】
[0035]本発明の別の態様において、長さnのヌクレオチド断片のマッチ確率がターゲットマッチの閾値より小さい場合に、前記配列決定カセットは、前記1以上の核酸分子から様々な長さ(例えば、先に生成された配列情報より増加した、減少したまたは同じ長さ)のヌクレオチド断片を含む配列情報を生成するように構成され、そして前記抽出ユニットは、当該様々な長さのヌクレオチド断片をデータベース内の核酸配列と比較するように構成される。
【0033】
[0036]本発明のさらに別の態様は、前記長さnのヌクレオチド断片を、リアルタイムまたは当該長さnの断片が生成されるのと同じ速さで前記参照核酸配列と比較し、配列決定ユニットが、長さn+1、n+2・・・n+xのヌクレオチド断片の配列情報を、前記1以上の核酸分子から生成し続け、そして処理ユニットが、当該長さn+1、n+2・・・n+xのヌクレオチド断片の配列情報を、リアルタイムまたは断片が生成されるのと同じ速さでデータベース内の核酸配列と比較する、システムを含む。
【0034】
[0037]システム内に含まれるさらなる変動は、以下の本発明の詳細な説明に記載される。
【図面の簡単な説明】
【0035】
[0038]付随する図に関連して、様々な態様が記載される。図中、同様の参照番号は、同一のまたは機能的に類似のコンポーネントを示す。
【図1】[0039]図1は、開示するシステムの略図である。
【図2】[0040]図2は、図1のシステムのより詳細な略図である。
【図3】[0041]図3は、図1のシステムの態様における交換可能なカセットおよび他のコンポーネント間の機能的相互作用の略図である。
【図4】[0042]図4は、ハンドヘルド電子配列決定デバイスの態様の正面斜視図である。
【図5】[0043]図5は、図1のシステムの操作プロセスを例示するフローチャートである。
【図6】[0044]図6は、システムに潜在的に関与する様々なエンティティと図1のシステムの相互作用の略図である。
【図7】[0045]図7は、リモート分析センターとハンドヘルド電子配列決定デバイス間の機能的相互作用の略図である。
【図8】[0046]図8は、確率的ソフトウェアモジュールの全体の構築の略図である。
【図9】[0047]図9は、読み取り長の関数として固有配列パーセントを示す。
【図10】[0048]図10は、配列決定の主な工程の要約である。
【発明を実施するための形態】
【0036】
発明の詳細な説明
[0049]本発明に記載する方法およびシステムは、性質決定されていないサンプル中の核酸混合物において、生成または収集された全配列情報に関連して最小の固有の長さ(n)を有する、最小の固有の配列情報を用いる。固有の長さの配列に加えて、非固有の配列もまた比較する。ゲノム同定の確率は、多数のマッチとともに増加する。いくつかのゲノムは、他のゲノムよりも、より長い最小固有配列を有するであろう。短い長さ(n)の配列のマッチング法は、配列情報生成または収集と平行して続く。比較は、続いて、より長い配列が生成または収集されるのと同じ速さ(リアルタイム)で起こる。配列情報生成/収集に関して、計算が早期に行われるため、これはかなりの決定空間減少を生じる。確率的マッチングには、限定されるわけではないが、完全マッチング、下位配列固有性、パターンマッチング、長さn以内での多数の下位配列マッチング、不正確マッチング、シードおよび伸長、距離測定および系統樹マッピングが含まれてもよい。これは、生成されるのと同じ速さまたはリアルタイムで、配列情報をマッチングさせる、自動化パイプラインを提供する。配列決定装置は、比較と平行して、より長くそしてより多い一続きの配列情報を収集し続けてもよい。続く配列情報もまた比較してもよく、そしてこの情報は、サンプル中のゲノムまたは種の同定の信頼度を増加させうる。この方法では、より長いコンティグへの短い読み取り値の配列情報アセンブリを待つ必要がない。
【0037】
[0050]本明細書に開示するシステムおよび方法は、核酸取り込み、単離および分離、DNA配列決定、データベースネットワーキング、情報処理、データ記憶、データディスプレイ、および関連するデータの送達を加速して、病原性突発および適切な応答のためのアプリケーションを用いた診断または生物の同定を可能にする、電子通信を提供する。この系には、核酸および他のポリマー性または鎖型分子の配列決定ならびに確率的データマッチングに関連して、生物の同定のため、データベースにデータを電子的に送信する、ポータブル配列決定デバイスが含まれる。
【0038】
[0051]図1および2は、ポータブル・ハンドヘルド電子配列決定デバイス105を含むシステム100の態様を例示する。ポータブル電子配列決定デバイス105(本明細書において、「配列決定デバイス」と称される)は、ユーザー(U)が容易に持ち、そして用いるように構成され、そして通信ネットワーク110によって、多くの他の潜在的に関連するエンティティと通信可能である。
【0039】
[0052]デバイスは、それぞれ、対象サンプル(SS)および環境サンプル(ES)を受容するよう構成される。対象サンプル(血液、唾液など)には、対象のDNAならびに対象中の任意の生物(病原性またはその他)のDNAが含まれうる。環境サンプル(ES)には、限定されるわけではないが、環境(食品、空気、水、土、組織を含む)中、天然状態にある生物が含まれうる。両サンプル(SS、ES)とも、バイオテロリズム行為によって、または流行の出現によって影響を受けうる。両サンプル(SS、ES)とも、試験管またはスワブによって同時に収集され、そして膜またはスライド、プレート、キャピラリー、またはチャネル上、溶液または固体(ビーズとして)中に受容される。次いで、サンプル(SS、ES)を同時に配列決定する。状況特異的な状態では、サンプル(SS、ES)混合物で構成されるサンプルの分析が必要になりうる。確率的マッチが同定されたら、そして/またはリアルタイム・データ収集およびデータ解釈中に、第一の応答者に接触してもよい。時間が進むにつれて、配列の増加したパーセントを同定可能である。
【0040】
[0053]配列決定デバイス105には、図3に例示するような、以下の機能コンポーネントが含まることも可能であり、このコンポーネントは、デバイス105が対象サンプル(SS)および環境サンプル(ES)を分析し、生じた分析を通信ネットワーク110に通信することを可能にする。
【0041】
[0054]サンプルレシーバー120および122をDNA抽出および単離ブロック130につなぎ、これは次いで、フローシステムによってサンプルをブロック130に送達する。ブロック130はサンプルからDNAを抽出し、そしてさらに処理および分析が可能であるように単離する。これは、試薬テンプレート(すなわち核酸の相補鎖合成のためのパターンとして働くDNA鎖)の使用によって達成可能であり、試薬テンプレートは、既知の流体輸送技術を用いて、サンプル120、122と合わせて送達可能である。サンプル120、122中の核酸は、抽出および単離ブロック130によって分離され、ヌクレオチド断片または増幅されない単一の分子の流れを生じる。態様には、増幅法の使用が含まれうる。
【0042】
[0055]交換可能なカセット140は、配列決定デバイス105およびブロック130に取り外し可能につながれうる。カセット140は、ブロック130から分子の流れを受容し、そしてDNAを配列決定し、そしてDNA配列データを生じうる。
【0043】
[0056]交換可能なカセット140は、プロセッサー160につながれ、そしてDNA配列データをこのプロセッサーに提供することも可能であり、このプロセッサーで確率的マッチングが達成される。態様には、1Mb/秒の速度で転送されるデータ16GBの性能が含まれうる。配列情報を入手するための配列決定カセット140が好ましい。異なる配列決定法に相当する、異なるカセットと交換してもよい。確率的マッチングによって配列決定情報を比較する。超迅速マッチングアルゴリズムおよびあらかじめ生成された加重シグネチャーデータベースは、記憶された配列データにデノボ配列データを比較する。
【0044】
[0057]プロセッサー160は、例えば、1以上の特定の機能を達成するか、あるいは1以上の特定のデバイスまたはアプリケーションを可能にするよう設計された、アプリケーション特異的集積回路であってもよい。プロセッサー160は、配列決定デバイス105の他の機能要素のすべてを制御可能である。例えば、プロセッサー160は、データストア(メモリ)170中に記憶されるように、DNA配列データを送信/受信してもよい。データストア170にはまた、プロセッサー160によって回収可能な形でデータを記憶するためのメモリの任意の適切なタイプまたは形も含まれてもよい。
【0045】
[0058]配列決定デバイス105には、さらに通信コンポーネント180が含まれてもよく、この通信コンポーネントに、データストア170から回収されたデータをプロセッサー160が送信してもよい。通信コンポーネント180には、有線、無線、衛星などの、通信ネットワーク110と通信するための任意の適切な技術が含まれてもよい。
【0046】
[0059]配列決定デバイス105には、ユーザー(U)がデバイス105にインプットを提供しうるユーザーインプットモジュール150が含まれてもよい。これにはボタン、タッチパッド等の任意の適切なインプット技術が含まれてもよい。最後に、配列決定デバイス105には、視覚的アウトプットおよび/または音声アウトプットデバイス用のディスプレイを含んでもよいユーザーアウトプットモジュール152が含まれてもよい。
【0047】
[0060]配列決定デバイス105にはまた、ポジショニング・データを受信し、そしてこのデータをプロセッサー160に進めうるグローバル・ポジショニング・システム(GPS)レシーバー102、および配列決定デバイス105のアウトプット負荷または負荷群に電気的または他のタイプのエネルギーを供給するための電源104(すなわち電池、プラグインアダプター)も含まれてもよい。
【0048】
[0061]交換可能なカセット140を図3により詳細に模式的に例示する。カセット140は、配列決定デバイス105およびブロック130に取り外し可能につながれてもよく、そして最新式の配列決定法(すなわちハイスループット配列決定)を含む。カセット交換可能「プラグ&プレイ」方式によって、デッキ上にウェット化学または固相状態に基づくシステムを構築してもよい。カセット140は、ブロック130からの分子の流れを受容し、そして配列決定法によってDNAを配列決定し、そしてDNA配列データを生じうる。態様には、限定されるわけではないが、合成による配列決定、連結による配列決定、単一分子配列決定およびパイロシークエンスに基づく方法が含まれる。さらに別の態様には、電場142のための電源が含まれ、そして電場142を分子の流れに適用して、流れの中のDNAの電気泳動を達成する。カセットには、DNAの流れを通じて、蛍光144を放出するための光源144が含まれる。カセットにはさらに、蛍光発光を検出し、そしてサンプルの流れの中のDNA配列を検出/決定するための生物医学的センサー(検出装置)146が含まれる。蛍光に加えて、生物医学的センサーは、配列決定のための標識部分に適したすべての波長で光を検出可能である。
【0049】
[0062]蛍光検出は、1以上のヌクレオチドまたはヌクレオチド類似体の少なくとも1つの標識部分のシグナルの測定を含む。蛍光ヌクレオチドを用いた配列決定は、典型的には、添加されたヌクレオチドを検出した後での、蛍光標識の光退色を伴う。態様には、ビーズに基づく蛍光、FRET、赤外標識、ピロホスファターゼ、標識ヌクレオチドまたはポリメラーゼを含むリガーゼ法、あるいは環状可逆的ターミネーターの使用が含まれうる。態様には、固定された単一分子を含むまたは溶液中のナノポアまたは光導波路の直接法が含まれてもよい。光退色法には、プライマー鎖への蛍光標識されたヌクレオチドの各付加とともに度合いが増していく、シグナル強度減少が含まれる。シグナル強度を減少させることによって、より長いDNAテンプレートが場合によって配列決定される。
【0050】
[0063]光退色には、蛍光ヌクレオチドが取り込まれている核酸プライマーに、光パルスを適用することが含まれる。光パルスは、典型的には、関心対象の蛍光ヌクレオチドに吸収される光の波長と等しい波長を含む。パルスは、約50秒間以下、約20秒間以下、約10秒間以下、約5秒間以下、約2秒間以下、約1秒間以下、または約0秒間、適用される。パルスは蛍光標識ヌクレオチドおよび/または蛍光標識プライマーまたは核酸の蛍光を破壊するか、あるいは許容されうるレベル、例えばバックグラウンドレベル、またはいくつかの周期に渡るシグナル構築を防止するのに十分に低いレベルに減少させる。
【0051】
[0064]センサー(検出装置)146は、核酸テンプレートからの少なくとも1つのシグナルを場合によって監視する。センサー(検出装置)146は、検出装置シグナル情報を配列決定結果情報、例えばヌクレオチド濃度、ヌクレオチドの同一性、テンプレートヌクレオチドの配列等に変換するためのソフトウェアを含むコンピュータを場合によって含むか、あるいはこうしたコンピュータに機能可能であるように連結される。さらに、例えば、既知のソースからのシグナルを監視することによって、微量流体システムを較正することにより、サンプルシグナルを場合によって較正する。
【0052】
[0065]図2に示すように、配列決定デバイス105は、通信ネットワーク110を通じて、バイオテロリスト行為または流行突発事象を通知するため、関連しうる様々なエンティティと通信可能である。これらのエンティティには、第一の応答者(すなわち研究室回答ネットワーク(すなわちリファレンスラボ、セミナルラボ、ナショナルラボ))、GenBank(登録商標)、疾病管理センター(CDC)、医師、公衆衛生職員、医療記録、調査データ、法的処置、食品製造業者、食品卸業者、および食品小売業者が含まれてもよい。
【0053】
[0066]上に論じる配列決定デバイス105の1つの例としての態様を、ここで、デバイスの前面像を例示する図4に関連して記載する。このデバイスは、ポータブル・ハンドヘルド配列決定デバイスであり、そしてコインCのサイズと比較して例示される。デバイス105は長さおよそ11インチであり、そして容易に運搬可能である。(図4において、コインは尺度のために示される。)2つのポート153、154は、デバイスの側面に位置し、そしてサンプルレシーバー120、122に相当する。ポート153は、分析しそして配列決定しようとする対象サンプル(SS)または環境サンプル(ES)を受容するためのものである。ポート154は、配列決定対照(SC)のためのものである。2つの異なるポートは、対象サンプル(SS)または環境サンプル(ES)が配列決定失敗を生じる材料を含有するか、配列決定失敗が生じたか、またはCLIA能において機能しているかを決定するように設計される。デバイス105には、ユーザー(U)がデバイス105にインプットを提供しうるユーザーインプットモジュール150が含まれる。特定の態様において、ユーザーインプットモジュール150は、タッチパッドの形であるが、任意の適切な技術を用いてもよい。タッチパッドには、視覚的ディスプレイのためのボタン150a、データを記録するための150b、150c、リアルタイムデータ送信および受信のための150d、ならびにデバイスを活性化させるかまたは不活性化させるための出力制御150eが含まれる。あるいは、キーパッドをディスプレイスクリーン内に取り込んでもよく、そしてすべての機能を液晶インターフェースによって制御してもよい。適切な技術は、本明細書にその全開示が援用される、米国特許出願第2007/0263163号に記載される。これは、ブルートゥースが使用可能なデバイス・ペアリングまたは類似のアプローチによってであってもよい。機能には、削除キー、スペースキー、エスケープキー、プリントキー、エンターキー、上/下、左/右、さらなる文字およびユーザーが望む任意の他のものなど、電話キーパッド上の一般的な場所などで、アルファベット文字で標識された数字キーが含まれる。デバイスにはさらに、ユーザー(U)のために情報をディスプレイするための視覚的ディスプレイの形のユーザーアウトプットモジュール152が含まれる。望ましい場合、157aおよび157bに例示するように、音声アウトプットデバイスもまた提供されてもよい。最後に、配列決定デバイス105には、データの送信または受信を示す、発光ダイオード155および156が含まれる。キー/ボタンの機能は、サンプル配列決定、データ送信および確率的マッチングおよびインターフェース制御のすべての側面を制御するものとし、限定されるわけではないが、オン/オフ、送信、ナビゲーションキー、ソフトキー、クリア、ならびにマッチの信頼性を列挙するアルゴリズムによって計算されたゲノムランクを伴うLCDディスプレイ機能および視覚化ツールが含まれる。態様には、階層型ネットワークサーチエンジンに/から、多数のユーザーが同時にデータを送信/受信することも可能な、インターネットに基づくシステムが含まれる。
【0054】
[0067]図5は、上述のようなシステム100の態様のシステム100の操作プロセスを例示するフローチャートである。図5に示すように、デバイス操作のプロセスには、200で、収集された対象サンプル(SS)および環境サンプル(ES)を、サンプルレシーバー120、122中に受容することが含まれる。202では、サンプルはDNA抽出および単離ブロック130に進み、ここでサンプルが分析され、そしてサンプルからDNAが抽出され、そして単離される。203では、交換可能なカセット140が、ブロック130から単離されたDNAを受容し、そしてDNAを配列決定する。カセットに応じて、そして必要な場合、電場142および蛍光144を適用して、カセット140内の生物医学的センサー146がサンプルの流れのDNA配列を検出/決定する。204で、配列決定されたデータを処理し、そしてデータストア170に記憶させる。205で、配列決定されたデータを、確率的マッチングによって比較し、そしてゲノム同定を達成する。プロセスは、事実上、反復性である。生じた情報を通信ネットワーク110によって送信してもよい。GPS(グローバル・ポジショニング・システム)データもまた、工程205で場合によって送信してもよい。206で、デバイスは、マッチングから電子的にデータを受信する。207で、デバイスは、ユーザーアウトプットモジュール152を通じて、マッチングから電子的に受信されたデータを視覚的にディスプレイする。さらなる分析が必要な場合、208で、通信ネットワークによって配列決定データをデータ解釈エンティティ(すなわち公衆衛生職員、医療記録など)に電子的に送信する。
【0055】
[0068]多方法研究アプローチは、事象に対する迅速な回答を増進し、そして生物検出と一次医療を統合する。三角的回答を利用してもよく、これは、DNA配列決定由来の定量的な計器データを定性的な救急治療医療に収斂することを伴う。多数の場所に渡って現場で収集された観察チェックリストの基盤およびDNA配列決定データの監査を用いて、場所間で、生物の外見、例えば生物学的脅威(bio−threat)を比較してもよい。ゲノムデータの推論による統計分析を医学的観察と組み合わせて、優先順位のカテゴリーを発展させてもよい。収集されそして医療センターおよびゲノムセンターのデータベース間で共有された情報によって、事象、事象の度合い、および罹患した人々への適切な時点での正しい介入の送達の三角化が可能になりうる。
【0056】
[0069]図6は、システム100および様々な潜在的リソース・エンティティ間の相互作用を例示する。デバイス105は、無線または有線通信ネットワークを通じてこれらのリソース・エンティティと相互作用するよう構成される。デバイス105は、「サンプルデータ」、「患者データ」、および「治療介入」と示す三角化配列決定データ情報(310)を送信しうる。デバイス105は配列マッチング・リソース320にそしてそこからDNA配列データを送信しそして受信してもよく、こうしたリソースには、GenBank(登録商標)ならびにセンチネルラボ、リファレンスラボ、およびナショナルラボを含む研究室回答ネットワークが含まれる。
【0057】
[0070]研究室は各々、特定の役割を有する。センチネル研究室(病院および他のコミュニティ臨床ラボ)は、遭遇した境界線上の病原体を排除するかまたは近傍のLRNリファレンスラボに照会する責任がある。リファレンス研究室(生物学的安全レベル3(BSL−3)実施を順守する、州および地方自治体公衆衛生研究室)は、確証試験(認定(rule in))を実行する。ナショナル研究室(BSL−4)は、エボラおよび大痘瘡などのウイルス病原体を取り扱い可能な能力を維持し、そして最終的な性質決定を実行する。
【0058】
[0071]システム100は、さらに、法的処置エンティティ、公衆衛生職員、医療記録、および調査データを含むデータ解釈リソース330にそしてこのリソースからデータを送信しそして受信することも可能である。最後に、デバイス105は、医者または救急治療室の医師を含む第一の応答者320にそしてこの応答者からデータを送信しそして受信することも可能である。システム100は全体として、疾病対策センター(CDC)340と通信して、適切な職員に適当な情報を提供するように構成される。
【0059】
[0072]図7は、ハンドヘルド電子配列決定デバイスとリモート分析センター間の機能的相互作用の略図である。デバイス105には、交換可能なカセット140に受信された配列決定を処理するためのベース呼出ユニット103が含まれてもよい。こうした配列およびSNP部位は、各種で見出される確率にしたがって、個々に加重される。これらの加重を理論的に(シミュレーションによって)または実験的にのいずれで計算してもよい。デバイスにはまた、ベース呼出ユニット103とつながれた確率的マッチングプロセッサー109も含まれる。確率的マッチングは、リアルタイム、あるいは配列ベース呼出または配列データ収集と同じ速さで行われる。確率的マッチングプロセッサー109は、ベイズアプローチを用いて、生じた配列および性質データを受信可能であり、そしてベース呼出ユニット103によって生成された配列決定性質スコアを考慮しつつ、各配列決定読み取りに関する確率を計算可能である。確率的マッチングプロセッサー109は、病原体の同定に使用する前に、生成されそして最適化されたデータベースを使用してもよい。警告システム107は、確率的マッチングプロセッサー109につながれ、そして確率的マッチングプロセッサー109から情報を収集し(現地で)、そしてリアルタイムで最適にマッチした生物をディスプレイすることも可能である。
【0060】
[0073]警告システム107は、患者データ、すなわち患者に関する医学的診断またはリスク評価、特に、イムノアッセイ、心電図、X線および他のこうした試験を含む、ケア地点診断試験またはアッセイからのデータにアクセスするよう構成され、そして医学的状態またはリスクまたはその欠如の指標を提供する。警告システムには、試験データを読み取るかまたは評価するための、そしてデータを診断またはリスク評価情報に変換するためのソフトウェアおよび技術が含まれてもよい。病原体のゲノム同一性および患者に関する医学的データに応じて、有効な「治療介入」を投与してもよい。治療は、病原体および/またはその二次的効果の有効な軽減または中和に基づき、そして禁忌いずれかがある場合、患者の病歴に基づくこともありうる。警告システムは発生の度合いおよび数に基づいてもよい。発生数は、病原体のゲノム同定に基づいてもよい。結果が、CDCまたはDoDまたは国土安全保障省などの政府機関によって決定されるような閾値内であるか、またはこうした閾値を超えている場合、値を宣言してもよい。警告システムは、臨床医が、患者データとゲノム同定データの関数性を使用することを可能にするよう構成される。通信は、情報の迅速な流れおよび第一の応答者または他の臨床システムによる行為のための正確な意志決定を可能にする。
【0061】
[0074]デバイス105には、ベース呼出装置103につながれたデータ圧縮装置106がさらに含まれ、この圧縮装置は生じた配列および性質データを圧縮のために受信するよう構成される。データ記憶170は、圧縮装置106につながれ、そして配列および性質データを受信しそして記憶することも可能である。
【0062】
[0075]配列決定デバイス105は、リモート分析センター400と相互作用し、このセンターは、有線および/または無線通信法によって、配列決定デバイス105の通信コンポーネント180から電子的に転送されたデータを受信可能である。リモート分析センター400は、現在までに入手可能なヌクレオチドおよびアミノ酸配列ならびにSNPデータを含む、巨大な配列データベースを含有する。このデータベースはまた、関連する疫学的および療法的情報(例えば抗生物質耐性)も含有する。リモート分析センター400には、データ記憶401がさらに含まれる。データ記憶401は、配列決定デバイス105の通信コンポーネント180からの電子送信を通じて、解凍された配列データ情報を受信可能である。ゲノムアセンブリ402はデータ記憶401につながれ、そして解凍された配列データをアセンブリ可能であるし、そしてアセンブリする。さらなる分析前に、明らかな混入DNA、例えばヒトDNAをフィルタリングしてもよい。
【0063】
[0076]リモート分析センター400にはさらに、確率的マッチング技術およびホモロジーサーチアルゴリズムを備えたプロセッサー403が含まれ、こうした技術およびアルゴリズムを使用して、アセンブリされた配列データを分析して、ターゲット病原体の存在の可能性403a、社会構造403b、疫学的および治療情報403cを入手してもよい。ターゲット病原体のゲノム配列データを、ヒトおよびメタゲノムを含む非病原体ゲノムのものと比較して、ターゲット生物のみで生じる、ヌクレオチド配列および一塩基多型(SNP)部位を同定する。配列決定デバイス105からのデータ転送中、オンザフライで、リモート分析センター400での分析を行う。リモート分析センター400には、通信ユニット404がさらに含まれてもよく、このユニットから、分析結果を、配列決定装置デバイス105内で警告システム107に、ならびに他の官庁(例えばDHS、CDCなど)に、電子的に転送し返す。
【0064】
[0077]確率的分類:本発明は、データベースエンジン、データベース設計、フィルタリング技術および拡張論理としての確率理論の使用を提供する。本方法およびシステムは、核酸配列決定によって産生されるデータに対する説得力がある論拠(決定)を行う確率理論原理を利用する。確率理論アプローチを用いて、本明細書に記載するシステムは、最小限の長さ(n)のヌクレオチド数に到達すると同時に、データを分析し、そしてn量体の確率を計算し、さらに続く長さの増加(n+塩基対)各々を用いて、配列マッチの確率を計算する。各n量体の計算および続くより長いn量体をさらに処理して、すべての増加する長さの確率を再計算して、ゲノムの存在を同定する。単位長さが増加するにつれて、n量体内の多数のサブユニットをパターン認識に関して比較して、これはさらに、マッチの確率を増加させる。こうした方法は、他のベイズ法を含めて、マッチを排除すること、および完全ゲノム配列決定またはゲノムのアセンブリを完了させる必要を伴わずに、非常に短いヌクレオチド断片または読み取り値を含む生物学的サンプルの有意な数を同定ことを提供する。こうしたものとして、存在する生物に対するマッチの尤度の割り当ておよび次の核酸配列への移動は、マッチの尤度をさらに改善する。本明細書記載のシステムは、速度を増加させ、試薬消費を減少させ、小型化を可能にし、そして生物を同定するのに必要な時間の量を有意に減少させる。
【0065】
[0078]短い核酸配列に対して決定を行う確率的分類器を構築するため、着信配列決定データをまずフィルタリングしそして後に分類する、様々なアプローチを利用してもよい。この場合、ベイズネットワークの形式化を利用する。ベイズネットワークは、確率的分布に簡潔に相当する、有向非巡回グラフである。こうしたグラフにおいて、各ランダム変数をノードによって示す(例えば生物の系統樹)。2つのノード間の有向エッジは、親ノードによって示される変数から子のものへの確率的依存性を示す。その結果、ネットワークの構造は、ネットワーク中の各ノードが、親を所与として、非子孫に条件付きで独立であるという仮定を示す。これらの仮定を満たす確率分布を記載するため、ネットワーク中の各ノードは、条件付き確率表と関連し、この表は、親への任意の所定のありうる値の割り当てに対する分布を指定する。この場合、ベイズ分類器は、任意の配列決定システムによって提供される各ヌクレオチドの確率を計算する分類タスクに適用されるベイズネットワークである。各決定点で、ベイズ分類器は、ダイクストラまたはフロイドなどの最短経路グラフアルゴリズムのバージョンと組み合わされてもよい。
【0066】
[0079]現在のシステムは、ベイズ分類器(例えばナイーブベイズ分類器、ベイズ分類器および再帰ベイズ概算分類器)のシステムを実装し、そして生じたデータを決定データベースにおいて融合させうる。データが融合された後で、各分類器に、アップデートされた確率を含む新規セットの結果を供給してもよい。
【0067】
[0080]図8は、確率ソフトウェアモジュールの全体の構築の略図である。
[0081]DNA配列フラグメント:任意の配列決定法を用いて、配列フラグメント情報を生成してもよい。図2中のモジュール160または図7中の109は、交換可能なカセット中の配列決定モジュールから着信する処理データに関与する。データは、配列決定データならびに配列の開始および停止上の情報、配列ID、DNA鎖IDとともに封入されている。モジュールは、データをフォーマットし、そして分類フィルターモジュールに渡す。フォーマッティングには、システムデータの付加および大枠での整列化が含まれる。
【0068】
[0082]DNA配列決定モジュールは2つのインターフェースを有する。このモジュールは、DNA調製モジュールおよび分類フィルターにつながれている。
I. DNA調製インターフェース:試料調製を達成するためのいくつかの商業的に入手可能な方法が微量流体技術を通じて組み込まれてもよい。典型的な試料調製は、溶液に基づき、そしてこれには細胞溶解および阻害剤除去が含まれる。核酸を回収するかまたは抽出し、そして濃縮する。溶解の態様には、界面活性剤/酵素、機械的、電子レンジ、圧、および/または超音波法が含まれる。抽出の態様には、固相アフィニティおよび/またはサイズ排除が含まれる。
II.分類フィルター:分類フィルターは2つの主なタスクを有する:(i)可能な限り多くの生物を除去して、分類器モジュールをより小さい決定空間に限定し、そして(ii)機械学習技術の使用を伴い、ベイズネットワークの構造を決定するのを補助する。
【0069】
[0083]系統樹フィルター:分類フィルターのこのサブモジュールは、「決定データベース」とインターフェース接続して、先のラウンドの分析結果を学習する。結果がまったく見られない場合、モジュールは新規データを分類モジュールに渡す。結果が見られる場合、分類フィルターは、ありうる決定スペースを限定するように分類器データを調整する。例えば、先のデータが、検査しているのがウイルスDNA配列であることを示すならば、分類器のための決定スペースをウイルスデータのみに縮小する。これは、操作中に収集されるデータベイズ分類器を修飾することによって行われうる。
【0070】
[0084]機械学習:機械学習アルゴリズムは、アルゴリズムの所望の結果に基づいて、分類に構成される。(i)教師あり学習−アルゴリズムがインプットを所望のアウトプットにマッピングする関数を生成する。教師あり学習タスクの1つの標準的な公式化は、分類問題である:学習者は、関数のいくつかのインプット−アウトプット例を見ることによって、ベクター[X、X、・・・X]をいくつかのクラスの1つにマッピングする関数の振る舞いを学習する(近似する)必要がある。(ii)半教師付き学習−標識および非標識例を組み合わせて、適切な関数または分類器を生じる。(iii)強化学習−アルゴリズムが、世界の観察を所与として、どのように振る舞うかの方針を学習するもの。すべての行為は、環境に何らかの影響を及ぼし、そして環境は学習アルゴリズムを導くフィードバックを提供する。(iv)変換−トレーニング中に入手可能な、トレーニングインプット、トレーニングアウトプット、およびテストアウトプットに基づいて、新規アウトプットを予測する。(v)学習するための学習−アルゴリズムが、先の経験に基づいて、それ自体の誘導性バイアスを学習する。
【0071】
[0085]分類キャッシュモジュール:このモジュールは、分類フィルターによって産生された分類情報をキャッシュする。このモジュールは、分類フィルター、およびSQLデータベース中のすべての情報を保持する分類データベース間のインターフェースとして作用しうる。分類キャッシュは、マイクロ秒応答タイミングのメモリ中データベースとして実装される。SQLデータベースへのクエリーは、サブモジュールの残りからの別個のスレッド中で取り扱われる。キャッシュ情報には、分類フィルターモジュールによって生成されるネットワークグラフが含まれる。グラフは、システムが分析を開始する際、全分類を含有する。DNA配列分析は、データサイズの減少および適切なデータセットの除去を実装する分類キャッシュを伴う分類グラフを減少させる。
【0072】
[0086]分類器セレクター:本システムは、平行して実行される多数の分類技術を利用してもよい。分類器セレクターは、異なる分類アルゴリズム間のデータアービターとして作用しうる。分類器セレクターは、決定データベースから情報を読み取り、そしてこうした情報を、DNA配列決定モジュールから分析のために受信されたすべてのDNA配列決定単位を含む分類モジュールに送り込むことも可能である。分類フィルターは、DNA配列決定データに関して、データが通過するにつれて作用する。
【0073】
[0087]再帰的ベイズ分類器:再帰的ベイズ分類器は、着信測定値および数学的プロセスモデルを用いて、長期に渡って再帰的に未知の確率密度関数を予測するための確率的アプローチである。モジュールは、分類器セレクターから、そして先の決定が記憶されている決定データベースからデータを受信する。データセットを、データベースおよびフィルタリングが起こるモジュールの局所メモリに置かれた先の決定同定から受信する。分類器はDNA配列を採用し、そしてマッチしない生物のファミリーを迅速に取り除くことによって、分類データベースから、存在するシグネチャー、バーコードなどとともにまたはこれらを伴わずマッチさせるよう試みる。アルゴリズムは、多数の信念の確率を計算し、そして着信データに基づいて信念を調整することによって、働く。このモジュールで用いられるアルゴリズムには、逐次モンテカルロ法およびサンプリング重要度リサンプリング(sampling importance resampling)が含まれてもよい。また、隠れマルコフモデル、アンサンブルカルマンフィルターおよび他の粒子フィルターを、ベイズ最新技術とともに用いてもよい。
【0074】
[0088]ナイーブベイズ分類器:ベイズ定理の適用に基づく、単純な確率的分類器。この分類器は、スタートアップ時にユーザーインプットとして提供されるあらかじめ決定された規則セットに基づいてすべての決定を行う。モジュールは、分析を実行している間、新規規則セットで再初期化されてもよい。新規規則セットはユーザーから来てもよいし、または結果融合モジュールの規則融合の産物であってもよい。
【0075】
[0089]ベイズネットワーク分類器:ベイズネットワーク分類器は、変数セットおよびその確率的独立性に相当する、確率的グラフモデルとしてベイズネットワーク(または信念ネットワーク)を実装する。
【0076】
[0090]決定データベース:決定データベースは、システム中の大部分のモジュールのための作業キャッシュである。大部分のモジュールは、このリソースに直接のアクセスを有し、そしてその個々の領域を修飾しうる。しかし、結果融合モジュールのみがすべてのデータにアクセス可能であり、そしてしたがってベイズ規則セットを修飾しうる。
【0077】
[0091]ベイズ規則データ:モジュールはすべてのベイズ規則をバイナリのプリコンパイル型で収集する。規則はすべてのベイズ分類器ならびに分類フィルターおよび結果融合モジュールに読み書きされる。規則は、変化が起こると、動的に再コンパイルされる。
【0078】
[0092]結果融合:モジュールは、多数のベイズ分類器ならびに用いられる他の統計的分類器からデータを融合する。結果融合モジュールは、各分類器に関して生成された答えの間の平均分散を見て、そして必要であればデータを融合する。
【0079】
[0093]データベース・インターフェース:SQLデータベースに対するインターフェース。インターフェースは、異なるスレッドに分かれ、読み書き機能を備えてプログラム的に実装される。MySQLが選択されるデータベースであるが、より迅速なデータベース速度のため、sqLiteを用いてもよい。
【0080】
[0094]分類データベース:データベースは、多数の内部データベースを保持するであろう:分類ツリー、インデックス付き前処理ツリー、ユーザーインプットおよび規則。
【0081】
[0095]キャッシュされた規則:ユーザーによって提供される、後処理された規則のインメモリキャッシュ。
[0096]規則管理:モジュールに対するグラフ管理インターフェース。
【0082】
[0097]ユーザーインプット:ユーザーが生成するインターフェース規則。この規則は、決定するためにベイズ分類器によって用いられる。
[0098]本発明のシステムおよび方法は、様々な異なる関数を実行するコードを有するコンピュータプログラム中に包埋されているように本明細書に記載される。特定の最高クラスの技術(存在するかまたは新たに興る)が、認可されたコンポーネントでありうる。DNA抽出のための現存する方法には、フェノール/クロロホルムの使用、塩析、カオトロピック塩およびシリカ樹脂の使用、アフィニティ樹脂の使用、イオン交換クロマトグラフィおよび磁気ビーズの使用が含まれる。方法は、米国特許第5,057,426号、第4,923,978号、欧州特許0512767 A1およびEP 0515484B、ならびにWO 95/13368、WO 97/10331およびWO 96/18731に記載され、その全開示が本明細書に援用される。しかし、システムおよび方法は、電子媒体に限定されず、そして様々な機能を、あるいは、手動設定で実行可能であることを理解しなければならない。インターネットを用いたネットワーク通信によって、プロセスと関連するデータを電子的に送信してもよい。上述のシステムおよび技術は、以下に記載するものを含む多くの他の背景で有用でありうる。
【0083】
[0099]疾患関連研究:多くの一般的な疾患および状態は、表現型ともまた呼ばれる、相互作用してその疾患の視覚的特徴を生じるような、複雑な遺伝要因を伴う。多くの遺伝子および制御領域がしばしば、特定の疾患または症状と関連する。所定の状態を持つ多くの個体のゲノムまたは選択した遺伝子を配列決定することによって、疾患の根底にある原因突然変異を同定することも可能でありうる。この研究によって、疾患検出、防止および治療においてブレークスルーが生じうる。
【0084】
[00100]癌研究:癌遺伝学は、遺伝的および後天的突然変異ならびに他の遺伝的改変の影響を理解することを伴う。癌の診断および治療の困難は、個々の患者の変動および薬剤療法に対する予測困難な応答によってさらに増大する。少量のサンプルまたは腫瘍細胞生検に基づいて、癌に寄与するゲノムの後天的変化を性質決定する低コストゲノム配列決定が利用可能であれば、癌診断および治療の改善が可能になりうる。
【0085】
[00101]薬学的研究および開発:ゲノミクスの1つの展望によって、より有効な新規薬剤の発見および開発が加速されてきている。この分野におけるゲノミクスの影響は、ゆっくりと現れてきており、これは生物学的経路、疾患機構および多剤ターゲットが複雑であるためである。単一分子配列決定は、有望な薬剤リードをよりよく同定するために、大規模遺伝子発現分析を用いて、費用効率が高い方式で、ハイスループットスクリーニングを可能にしうる。臨床開発において、開示される技術を潜在的に用いて、療法に対するありうる応答、毒性学または副作用のリスクに関する価値ある情報を提供しうる個々の遺伝子プロフィールを生成し、そして場合によって患者スクリーニングおよび療法の個別化を促進することも可能である。
【0086】
[00102]感染性疾患:すべてのウイルス、細菌および真菌は、DNAまたはRNAを含有する。単一分子レベルで病原体由来のDNAまたはRNAが検出および配列決定できれば、感染の診断、治療および監視のため、そして潜在的な薬剤耐性を予測するため、医学的および環境的に有用な情報が提供されうる。
【0087】
[00103]自己免疫状態:多発性硬化症および狼瘡から移植拒絶リスクに渡る、いくつかの自己免疫状態は、遺伝的コンポーネントを有すると考えられる。これらの疾患に関連する遺伝的変化を監視すると、よりよい患者管理が可能になりうる。
【0088】
[00104]臨床的診断:同じ疾患症状を提示する患者は、しばしば、その根底にある遺伝的相違に基づいて、異なる予後および薬剤に対する応答を有する。患者特異的遺伝情報の送達は、遺伝子または発現に基づく診断キットおよびサービス、特定の療法を選択しそして監視するためのコンパニオン診断製品、ならびに初期疾患検出および疾患監視のための患者スクリーニングを含む、分子診断法を含む。より有効で、そしてターゲティングされた分子診断法を生成し、そして試験をスクリーニングするには、遺伝子、制御因子および他の疾患または薬剤関連因子のよりよい理解が必要であり、開示する単一分子配列決定技術は、これを可能にする潜在能力を有する。
【0089】
[00105]農業:農業研究は、遺伝的に優れた動物および作物の発見、開発および設計のため、ますますゲノミクスに頼りつつある。アグリビジネス産業は、変種または集団に渡る関連する遺伝的変動を同定するための遺伝的技術、特にマイクロアレイの大きな消費者となってきている。開示する配列決定技術は、この産業のための遺伝子発現分析および集団研究に対する、より強力、直接的で、そして費用効率的なアプローチを提供しうる。
【0090】
[00106]わずかな遺伝的変動の検出にこの方法を適用する、反復配列適用の分野に、さらなる機会があるであろう。種に渡る拡張比較ゲノム分析は、ヒトゲノムの構造および機能、そしてその結果、ヒト健康および疾患の遺伝学に大きな洞察を生じうる。ヒト遺伝的変動、ならびに健康および疾患に対するその関係の研究は、拡大しつつある。これらの研究の大部分は、既知の比較的一般的な変動パターンに基づく技術を用いる。これらの強力な方法は、重要な新規情報を提供するが、これらは個々のヒトゲノムの完全な隣接配列を決定するよりも情報量が少ない。例えば、現在の遺伝子型決定法は、いかなる特定のゲノム部位でも人々の間の稀な相違を見逃す可能性があり、そして長範囲の再編成を決定する能力が限られている。癌に寄与するゲノムの体細胞変化の性質決定は、現在、(非常にわずかの遺伝子に関する)配列データに加えて、コピー数変化、再編成、またはヘテロ接合性の喪失に関する限定された情報を得る技術の組み合わせを使用する。こうした研究には、ゲノムの劣った解像度および/または不完全なカバー度という欠点がある。腫瘍サンプルの細胞不均質は、さらなる困難を提示する。おそらく単一の細胞であってもよい非常に少量のサンプルからの、低コストの完全ゲノム配列決定は、研究室から診療所まで、すべての側面において、癌に対する闘いを改変するであろう。最近立ち上げられた癌ゲノムアトラス(TCGA)パイロットプロジェクトは、望ましい方向に動いているが、配列決定コストによって著しく制限されたままである。各種の個々の変動、異なる家畜化品種、およびいくつかの野生変種を研究するために、農業的に重要な動物および植物のさらなるゲノム配列が必要である。多くのメンバーが培養不能である微生物コミュニティの配列分析は、医学的および環境的に有用な情報の豊かなソースを提供するであろう。そして正確で迅速な配列決定は、バイオテロリズム脅威の迅速な検出および軽減を含む、食品および環境の微生物監視に最適なアプローチである可能性もある。
【0091】
[00107]ゲノム配列決定はまた、キーシグネチャー配列の選択に有用なイントロン領域を含む単離核酸も提供しうる。現在、キーシグネチャー配列は、エクソン領域にターゲティングされている。
【0092】
[00108]DNA技術の基本的適用は、DNAポリメラーゼによって産生されるDNAの標識のための様々な標識戦略を伴う。これは、マイクロアレイ技術:DNA配列決定、SNP検出、クローニング、PCR分析、および多くの他の適用に有用である。
【0093】
[00109]本発明の様々な態様が上述されてきているが、これらが例示のためにのみ提示されており、そして限定のためでないことを理解しなければならない。したがって、本発明の大きさおよび範囲は、上述の態様のいずれによっても限定されず、以下の請求項およびその同等物にしたがってのみ定義されなければならない。本発明は、その特定の態様に関連して特に示され、そして記載されてきているが、型および詳細における様々な変化が作製可能であることが理解されるであろう。
【実施例】
【0094】
実施例1
[00110]目的:8〜18程度に少ないヌクレオチドでゲノム同定を可能にするためのキーシグネチャーおよび/またはバーコードの使用、ならびにリアルタイムでの非常に短い配列データ(読み取り値)の分析。
【0095】
[00111]線形時間サフィックスアレイ構築アルゴリズムを用いて、固有性分析を計算した。この分析は、いくつかのモデルゲノムにおいて、固有であるすべての配列のパーセントを決定した。ゲノム中のすべての配列長を分析した。ゲノム中に1度しか出現しない配列をカウントする。サフィックスアレイアルゴリズムは、2塩基対スライディング・ウィンドウに基づいて、配列内に特定の下位配列が出現する頻度を分析する反復スコアプロットを計算することによって働く。GenBankに記憶されるゲノム情報をコンピュータ分析に用いた。ウイルスゲノム、ラムダファージ、細菌ゲノム、大腸菌(E. coli)K12 MG1655、およびヒトゲノムを分析した。固有の読み取り値のパーセントは配列長の関数である。明白なマッチしか生じない配列、およびゲノムを再構築する明白なオーバーラップを生じる配列に関する仮定を行う。固有の読み取り値は、7〜100ヌクレオチドのサイズ範囲であった。固有のサイズの大部分は、それぞれ、9、13、および18ヌクレオチドより短かった。
【0096】
[00112]結果:結果は、ファージゲノムの12ntのランダム配列が、ファージに98%固有であることを示す。これはゆっくりと増加し、400nt配列は、ファージに99%固有である。10ntのファージ配列に関しては、これは80%に減少する。ゲノムの18ntの細菌(大腸菌)配列に関しては、大腸菌に97%固有である。ヒトゲノムに関しては、25ntの配列はヒトに80%固有であり、そして45ntに増加すると、ゲノムの90%が固有となる結果を生じる。

【特許請求の範囲】
【請求項1】
生物学的材料を含むサンプルを入手すること、
当該サンプルから1以上の核酸分子を抽出すること、
当該核酸分子から配列情報を、当該配列情報とデータベース内の核酸配列とを比較するために即時直接的な確率的マッチングを用いて生成すること、
を含む、サンプル中の生物学的材料を同定する方法。
【請求項2】
前記1以上の核酸分子が、DNAまたはRNAから選択される、請求項1に記載の方法。
【請求項3】
前記配列情報が、長さnのヌクレオチド断片を含む、請求項1に記載の方法。
【請求項4】
前記長さnのヌクレオチド断片を、データベース内の核酸配列と比較する、請求項3に記載の方法。
【請求項5】
前記長さnのヌクレオチド断片を、確率的マッチングでデータベース内の核酸配列と比較する、請求項4に記載の方法。
【請求項6】
前記長さnのヌクレオチド断片の比較を、リアルタイムまたは当該断片もしくは当該断片の配列情報が生成するのと同じ速さで実行する、請求項4に記載の方法。
【請求項7】
長さnのヌクレオチド断片のマッチ確率がターゲットマッチの閾値より小さい場合に、長さn+1、n+2・・・n+xの核酸断片を、前記1以上の核酸分子から生成し、データベース内の核酸配列と比較し、ここで、Xが50より小さい、請求項4に記載の方法。
【請求項8】
長さnのヌクレオチド断片のマッチ確率がターゲットマッチの閾値より小さい場合に、長さn+1、n+2・・・n+xの核酸断片を、前記1以上の核酸分子から生成し、データベース内の核酸配列と比較し、ここで、Xが50より大きい、請求項4に記載の方法。
【請求項9】
配列情報を生成する前に、前記1以上の核酸分子を増幅して複数(i)の核酸分子を得ることをさらに含む、請求項1に記載の方法。
【請求項10】
前記配列情報が、長さnのヌクレオチド断片を含む、請求項8に記載の方法。
【請求項11】
複数(i)の長さnのヌクレオチド断片を、データベース内の核酸配列と比較する、請求項9に記載の方法。
【請求項12】
複数(i(n))のヌクレオチド断片を、確率的マッチングでデータベース内の核酸配列と比較する、請求項11に記載の方法。
【請求項13】
複数(i(n))のヌクレオチド断片の比較を、リアルタイムまたは当該断片が生成するのと同じ速さで実行する、請求項11に記載の方法。
【請求項14】
複数(i(n))のヌクレオチド断片のマッチ確率がターゲットマッチの閾値より小さい場合に、長さi(n+l)、i(n+2)・・・i(n+x)の核酸断片を、前記1以上の核酸分子から生成し、データベース内の核酸配列と比較し、ここで、Xが50より小さい、請求項11に記載の方法。
【請求項15】
複数(i(n))のヌクレオチド断片のマッチ確率がターゲットマッチの閾値より小さい場合に、長さi(n+l)、i(n+2)・・・i(n+x)の核酸断片を、前記1以上の核酸分子から生成し、データベース内の核酸配列と比較し、ここで、Xが50より大きい、請求項11に記載の方法。
【請求項16】
前記確率的マッチングを、ベイズアプローチによって実行する、請求項5または12に記載の方法。
【請求項17】
前記確率的マッチングを、再帰ベイズアプローチによって実行する、請求項5または12に記載の方法。
【請求項18】
前記確率的マッチングを、ナイーブベイズアプローチによって実行する、請求項5または12に記載の方法。
【請求項19】
前記確率的マッチングによって、前記配列情報の種を同定するための階層型統計的フレームワークが与えられる、請求項5または12に記載の方法。
【請求項20】
前記1以上の核酸分子から追加の配列情報を生成し続けながら、配列情報とデータベース内の核酸配列との比較を、リアルタイムまたは当該配列情報が生成するのと同じ速さで実行する、請求項1に記載の方法。
【請求項21】
前記追加の配列情報が、様々な長さのヌクレオチドを含む、請求項20に記載の方法。
【請求項22】
前記配列情報が長さnのヌクレオチド断片を含み、これをリアルタイムまたは当該断片が生成するのと同じ速さでデータベース内の核酸配列と比較し、長さn+1、n+2・・・n+xの核酸断片を、前記1以上の核酸分子から生成し続け、リアルタイムまたは当該断片が生成するのと同じ速さでデータベース内の核酸配列と比較し続ける、請求項1に記載の方法。
【請求項23】
長さnのヌクレオチド断片の配列情報を生成する前に、前記1以上の核酸分子を増幅して複数(i)の核酸分子を得て、この複数(i(n))のヌクレオチド断片を、リアルタイムまたは当該断片が生成するのと同じ速さでデータベース内の核酸配列と比較し、複数(i(n+l))、(i(n+2))・・・(i(n+x))の核酸断片を、当該1以上の核酸分子から生成し続け、リアルタイムまたは当該断片が生成するのと同じ速さでデータベース内の核酸配列と比較し続けることをさらに含む、請求項1に記載の方法。
【請求項24】
(1)生物学的材料を含むサンプルを受容するように構成される、サンプル受容ユニット;
(2)当該サンプルから少なくとも1の核酸分子を抽出するように構成される、サンプル受容ユニットと連結された抽出ユニット;
(3)少なくとも1の核酸分子を抽出ユニットから受容し、少なくとも1の核酸分子から配列情報を生成するように構成される、抽出ユニットと連結された配列決定カセット;
(4)参照核酸配列を含んでなるデータベース;および
(5)配列決定カセットから配列情報を受信し、この配列情報を参照核酸配列と比較するように構成される、配列決定カセットおよびデータベースと連結された処理ユニット;
を含む、生物学的材料を検出するためのシステム。
【請求項25】
核酸配列の決定に関連する生物を同定するために電子的にデータをデータベースに送信する、ポータブル配列決定デバイスを含む、請求項24に記載のシステム。
【請求項26】
前記配列決定カセットが受信した配列を処理するように構成されるベース呼出ユニットをさらに含む、請求項24に記載のシステム。
【請求項27】
前記ベース呼出ユニットが、確率的マッチングプロセッサと接続されている、請求項26に記載のシステム。
【請求項28】
前記確率的マッチングプロセッサが、前記ベース呼出ユニットが生成する配列決定クオリティスコアを考慮しつつ、ベイズアプローチを利用し、得られた配列を受信し、各配列決定リードの確率を計算するように構成される、請求項27に記載のシステム。
【請求項29】
前記確率的マッチングプロセッサが、病原体を同定するために用いる前に生成および最適化されたデータベースを使用する、請求項27に記載のシステム。
【請求項30】
前記確率的マッチングプロセッサが、配列内容に応じて変化する加重スコアを使用する、請求項27に記載のシステム。
【請求項31】
前記処理ユニットと連結された記憶ユニットを含み、前記処理ユニットが、前記配列情報をデータ記憶ユニットに送信し、その後、この配列情報をデータ記憶ユニットから処理のために読み出すように構成される、請求項24に記載のシステム。
【請求項32】
前記少なくとも1の核酸分子が、DNAおよびRNAからなる群から選択される、請求項24に記載のシステム。
【請求項33】
前記配列情報が、長さnのヌクレオチド断片を含む、請求24項に記載のシステム。
【請求項34】
前記抽出ユニットが、前記長さnのヌクレオチド断片を前記参照核酸配列と比較するように構成される、請求項33に記載のシステム。
【請求項35】
前記抽出ユニットが、確率的マッチングで前記長さnのヌクレオチド断片を前記参照核酸配列と比較するように構成される、請求項34に記載のシステム。
【請求項36】
前記抽出ユニットが、前記長さnのヌクレオチド断片をリアルタイムまたは当該長さnの断片が生成するのと同じ速さで前記参照核酸配列と比較するように構成される、請求項34に記載のシステム。
【請求項37】
長さnのヌクレオチド断片のマッチ確率がターゲットマッチの閾値より小さい場合に、前記配列決定カセットが、前記1以上の核酸分子から長さn+1、n+2・・・n+xのヌクレオチド断片の配列情報を生成するように構成され、前記抽出ユニットが、当該長さn+1、n+2・・・n+xのヌクレオチド断片をデータベース内の核酸断片と比較するように構成される、請求項34に記載のシステム。
【請求項38】
前記長さnのヌクレオチド断片を、リアルタイムまたは当該長さnの断片が生成するのと同じ速さで前記参照核酸配列と比較し、前記配列決定ユニットが、長さn+1、n+2・・・n+xのヌクレオチド断片の配列情報を、1以上の核酸分子から生成し続け、前記処理ユニットが、当該長さn+1、n+2・・・n+xのヌクレオチド断片の配列情報を、リアルタイムまたは当該断片が生成するのと同じ速さでデータベース内の核酸配列と比較する、請求項36に記載のシステム。
【請求項39】
(1)生物学的材料を含むサンプルを入手すること、
(2)当該サンプルから1以上の核酸分子を抽出すること、
(3)当該1以上の核酸分子からヌクレオチド断片の配列を含んでなる配列情報を生成すること、
(4)当該ヌクレオチド断片の配列をデータベース内の核酸配列と比較すること、
を含む、サンプル中の生物学的材料を同定する方法であって、
当該ヌクレオチド断片の配列を比較した結果、サンプル中の生物学的材料を同定するマッチングが得られない場合、
(5)当該1以上の核酸分子から、1の追加のヌクレオチドからなるヌクレオチド断片の配列を含む追加の配列情報を生成すること、
(6)当該追加の配列情報の生成直後に、当該追加の配列情報をデータベース内の核酸配列と比較すること、
そして、マッチングの結果、当該サンプル中の生物学的材料が同定されるまで工程(5)〜(6)を繰り返すこと、
をさらに含む、上記方法。
【請求項40】
(1)生物学的材料を含むサンプルを入手すること、
(2)当該サンプルから1以上の核酸分子を抽出すること、
(3)当該1以上の核酸分子を増幅させて複数の1以上の核酸分子を得ること、
(3)当該1以上の核酸分子からヌクレオチド断片の複数の配列を含んでなる複数の配列情報を生成すること、
(4)当該ヌクレオチド断片の複数の配列をデータベース内の核酸配列と比較すること、
を含む、サンプル中の生物学的材料を同定する方法であって、
当該ヌクレオチド断片の複数の配列を比較した結果、サンプル中の生物学的材料を同定するマッチングが得られない場合、
(5)当該1以上の核酸分子から、1の追加のヌクレオチドからなるヌクレオチド断片の配列を含む複数の追加の配列情報を生成すること、
(6)当該追加の配列情報の生成直後に、当該追加の配列情報をデータベース内の核酸配列と比較すること、
そして、マッチングの結果、上記サンプル中の生物学的材料が同定されるまで工程(5)〜(6)を繰り返すこと、
をさらに含む、上記方法。
【請求項41】
データベース内の核酸配列との比較を、配列情報が生成するのと同じ速さで確率的マッチングで実行する、請求項39または40に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公表番号】特表2011−504723(P2011−504723A)
【公表日】平成23年2月17日(2011.2.17)
【国際特許分類】
【出願番号】特願2010−535105(P2010−535105)
【出願日】平成20年11月21日(2008.11.21)
【国際出願番号】PCT/US2008/084403
【国際公開番号】WO2009/085473
【国際公開日】平成21年7月9日(2009.7.9)
【出願人】(510140179)コスモシド・インコーポレーテッド (1)
【Fターム(参考)】