多重プローブターゲット相互作用パターンの自動分析:パターンマッチング及び対立遺伝子同定
【課題】自動対立遺伝子割当用の一体化したソフトウエア環境内の自動分析、及びインタラクティブ再検討及び分析の改良をサポートする方法及びアルゴリズムを提供する。
【解決手段】誤りのある対立遺伝子割当を低減するのに用いる一連の閾値を確立するための方法であって、当該方法が:(i)信号強度の信号強度パターンを生成するステップ;(ii)各々の信号強度Iから負の対照信号INCを減算して、該結果を、補正した正の対照信号IPC−INCで除算して、標準化強度率:r=(I−INC)/(IPC−INC)を得るステップと;(iii)標準化した信号強度が前記閾値より大きい場合に、前記プローブと該配列との間の正の相互作用として指定すべく、前記反応パターンと、前記集合における前記プローブとの該ターゲット集合の基準反応パターンとの間の類似性を最大化するように標準化信号強度に対する閾値を設定するステップと;を具える方法。
【解決手段】誤りのある対立遺伝子割当を低減するのに用いる一連の閾値を確立するための方法であって、当該方法が:(i)信号強度の信号強度パターンを生成するステップ;(ii)各々の信号強度Iから負の対照信号INCを減算して、該結果を、補正した正の対照信号IPC−INCで除算して、標準化強度率:r=(I−INC)/(IPC−INC)を得るステップと;(iii)標準化した信号強度が前記閾値より大きい場合に、前記プローブと該配列との間の正の相互作用として指定すべく、前記反応パターンと、前記集合における前記プローブとの該ターゲット集合の基準反応パターンとの間の類似性を最大化するように標準化信号強度に対する閾値を設定するステップと;を具える方法。
【発明の詳細な説明】
【技術分野】
【0001】
背景
診断マーカーとしての複合体相互作用パターン
単反応の複合遺伝子座の並列(「多重」)分析を可能にする平行アッセイ形式は、与えられたサンプルに接触した特異的ターゲット構成(「対立遺伝子」)の決定、及び指定された遺伝子の発現レベル又は受容体リガンド相互作用パターンを明らかにする循環タンパク質バイオマーカのレベル等の定量マーカのモニタリングに適切である。以下において、プローブターゲット相互作用への言及は、このより一般的な状況に言及することを意味する。選択されたセットのオリゴヌクレオチドプローブを有するターゲットを尋問すること(例えば、「Arrays of nucleic acid probes on biological chips」と題された、米国特許第5,837,832号参照)、及びそのプローブセットを有する1つ又はそれ以上のターゲットシークエンスの特異的相互作用のパターンにおいて自身を分析することによって、対立遺伝子及び対立遺伝子の組み合わせを迅速に同定することが出来る。
【0002】
この診断能力は、複合遺伝を有する疾患を進行させる素因の評価を含み、完全なセットの分子マーカの判断が必要な関節炎、糖尿病及び癌等の複合疾患の研究にますます重要な役割果たす。しかし、割当の信頼性と「特異性」を究明する一方で、結果の分析−選択したセットのプローブを有する1つ又はそれ以上のターゲットの相互作用の強度を反映する多重アッセイでできた強度表示のパターンの形で−は、有効な対立遺伝子の組み合わせに相互パターンをマッピングすること、又は、素因又は危険性を評価することによって、相互作用パターンを解釈するという厄介な挑戦に直面する。
【0003】
モデル:HLA分子分類
ヒト白血球抗原(HLA)遺伝子複合体の多型分析は、疾患関連性を分析することに含まれる複雑性のモデルを提供し、これによって、迅速で信頼できる分析によって取り組むべき要求を描くのに役立つ。HLA複合体は、「異質の」骨髄又は組織に対して免疫反応を媒介する種々の抗原をコード化する複合高多型座を具える。現在のところ、282HLA−A、540HLA−B及び136HLA−CクラスI対立遺伝子、及び418HLA−DRB、24HLA−DQA1及び53HLA−DQB1クラスII対立遺伝子が同定されている。多くの公知の対立遺伝子シークエンスが、公共のデータベース、例えば、ヒト白血球抗原についてのIMGT/HLAデータベース、www.ebi.ac.uk/imgt/hla/intro.html)に見られる。
【0004】
種々の形式の平行(「多重」)ハイブリダイゼーションアッセイは、特異的クラスI及びクラスII抗原に関連する対立遺伝子又は対立遺伝子の群を同定することにおいて、処理量と信頼性のユニークな組み合わせを必要とするHLA分子の分類に広く使用されている。HLA分子の分類との関連で、この分野の標準的なアッセイ方法論は、「リバースドットブロット」形式を援用する。この形式によれば、細長いナイロン膜又はその他の基質材料上の、十分に分離したバンドに置かれたプローブセットが、続く装飾ステップにおいて、ターゲットの捕獲物に比色分析信号を作らせる条件下で、ターゲットの溶液にさらされる。この分野のその他の方法は、ターゲット溶液に懸濁し、フローサイトメトリによって分析される、コード化された微粒子に表示されるプローブの使用を含む(「Products」http://www.onelambda.com参照)。最近の方法は、シリコンチップ上に割当されたコード化した微粒子の平面配列を使用することによって、一体化したアッセイ環境を提供する(例えば、BioArray Solutions,Ltd.に譲渡された米国特許出願第09/690,040号参照)。
【0005】
HLA複合体、特に、プライマ対及びプローブのセットの選択等の多型座の分析についての平行アッセイ形式のデザインが、先行技術及びいくつかの同時係属中の出願に記載されている(例えば、2004年7月15日に出願され、BioArray Solutions,Ltdに譲渡された、核酸分析用プライマ及びキャプチャプローブセットの選択における同時最適化」参照)。
【0006】
シークエンス相補性及び2進法表示
プローブターゲット相互作用パターンの解釈は、実験的な信号強度パターンから誘導された2進列(「反応パターン」)を、1つ(又はそれ以上)の対立遺伝子の組み合わせに一致させる、又は新しい対立遺伝子の有効性を確立するタスクを含んでいる。
【0007】
各対立遺伝子は、完全に相補的であるサブシークエンス、及び、ターゲットを尋問するように構成されたプローブセット中のプローブに対して相補的でないその他のサブシークエンスを有する。この構成は、この分野では対立遺伝子割当の基礎を提供する2進コードによって表現される。即ち、完全に一致した各プローブに対しては、スコア「+」(本明細書では、「8」で表示される)に、各不一致のプローブに対しては、スコア「−」(本明細書では、「1」で表示される)に割り当てることによって、2進列が構築され、遭遇した対立遺伝子の特異的な組み合わせを有する選択されたプローブセットの相互作用のパターンを表示する。対立遺伝子と2進列の対応関係を示すディクショナリは、「ヒットテーブル」としてこの分野では公知である。
【0008】
反応パターン−選択したプローブセットによって作られる−は、2以上の単一対立遺伝子の組み合わせに相当してよく、曖昧性の度合(「縮退」)は、対立遺伝子の組み合わせの同定を達成できる正確さ(「分解能」)を決定する。一般的に、分解能の程度は、前記セットにプローブを加えることによって上げることが出来る。
【0009】
アッセイ信号強度は、プローブターゲット相互作用の強さを反映している。所定のサンプル中のそのターゲットシークエンスに対する完全な相補性(「一致した」)があり、さもなければ、低いアッセイ信号強度を生成する場合に、理想的なプローブは、強度の高いアッセイ信号を生成する。即ち、大きなサンプルセット上のこれらのプローブの信号強度分布は、理想的には2つの明確なピークを示し、「一致」又は「不一致」プローブを反映する部分母集団と、ターゲットシークエンス構成への信号強度の区分化を示唆している。
【0010】
しかしながら、実際には、1つ又はそれ以上の多型ターゲットとプローブの多重度との相互作用は、広い範囲のアッセイ信号強度を生成することがある。例えば、別の正のアッセイ信号強度が低減する、又は別の負アッセイ信号強度が強化され、これによる強度の個別分布が「不鮮明になる」。例えば、ターゲットサブシークエンス中で、プローブの「指定された」多型以外の多型を具える対立遺伝子にプローブが遭遇すると、プローブターゲットハイブリダイゼーションが弱くなる。逆に、プローブターゲットハイブリダイゼーションは、プローブが、その指定されたサブシークエンス内のターゲットとの顕著な不一致を示す一方で、指定されていないサブシークエンスの特異的対立遺伝子に一致する場合、思いがけなく促進されることがある。
【0011】
一般的に2値化と同様に、閾値の選択によって、部分母集団の境界が明示される。特に、アッセイ信号分布が二峰性ではない場合、閾値選択は分析における重大な開始ステップを表す。
【0012】
HLA分子分類のコンテキストにおいて、対立遺伝子の相互作用パターン及び割当の必須の広範囲な分析は、現在は、実質的に専門家の経験に依存している。これらの専門家及び熟達者は、通常最小限の計算サポートで、しばしば公知の対立遺伝子の印刷された編集物(例えば、全米骨髄バンクによって保存されているデータベース)と対応する「ヒットテーブル」を参照して、多大な時間を要し、困難で、主観的なプロセスである対立遺伝子割当のインタラクティブな設定、再検討、編集(「改善」)に従事している。
【0013】
白血球抗原及び赤血球抗原の分子分類と同様に、複合プローブ−ターゲット相互作用パターンの信頼できる、迅速な分析及び解釈は、遺伝マーカセットの意味ある検証に関する必要条件を表しており、統計的に意味のある結果を許容する十分な大きさの患者集団における疾患素因又は治療反応のこれらの「予測」を確認する。似たような挑戦が、例えば:キャリアスクリーニング及び診断及び関連するリスク評価についての変異分析の遺伝多型の分析に関連する;及び多型マーカ又は遺伝子発現プロファイルの完全なセットの形で、それ自身を明示することが出来る複合遺伝の遺伝子疾患に罹る素因の評価に関連する、その他の領域で起こっている。
【0014】
計算アルゴリズム、及び自動化パターン分析及び解釈についてロバスト手順を援用し、データ管理及び視覚化と同様に、割当のインタラクティブな再検討及び編集に一体化した環境を提供する便利なソフトウエアシステムが望まれる。
【0015】
要約
自動対立遺伝子割当について、一体的なソフトウエア環境内で、自動分析及びインタラクティブ再検討及びこの分析の改良(「改善」)をサポートする方法及びアルゴリズム(及びそれらの実施)が開示されている。好ましくは、自動対立遺伝子割当(「AAA」)プログラムと呼ばれるソフトウエアシステム及びプログラムでの実施は、可視化し、インポートし、エクスポートし、カスタマイズできる概要レポートを作ることが出来るポータブルデータベースへの一体的なインターフェイスによるデータ管理と;ユーザ認証、トレーニングセット分析、及びプローブマスキングを含むシステム構成(「セットアップ」)と;文字列照合及びプローブフリップを含むパターン分析と;リアルタイムでのデータベース計算と「カットアンドペースト」編集、「警告」メッセージの生成、及び注釈のサポート、とを組み合わせるインタラクティブ改善と;を含む多様な機能を提供する。
【0016】
閾値化
プローブ強度分布を3つ又はそれ以上の部分母集団内に分離することによって得られる2値化表示の一般化を含む閾値を選択し、改善する方法が開示されている。
【0017】
開始閾値決定
参照(「トレーニング」)セットを分析する手段によって閾値を設定し、選択する方法が開示されており、選択されたプローブセット中の各プローブについて、トレーニングセットに対して提供されたものと、アッセイ結果及び割当された対立遺伝子の一致の度合を最大にする閾値を設定する。開始閾値設定を決定する方法は、この閾値のロバスト性を評価する基本的な方法として、性能指数(「良さ」)を提供する。本明細書で開示されている開始閾値決定に関連する方法は、2値化アルゴリズムを個別のプローブ強度プロファイルに適用している。
【0018】
閾値改善:パターンマッチング
有効な対立遺伝子の組み合わせに相当する反応パターンの一覧を用いて、開始閾値設定の適用によって生成出来る、実験的な2進文字列(「反応パターン」)を一致させることによって、閾値を改善する方法が開示される。本明細書のソフトウエアシステムは、実験的な文字列(「ワード」)内で、特異的な部分を交替させる(「反転する」)方法をサポートする。このプログラムは、修正された実験的「ワード」と最も近いワードの完全又は部分的一致、又は複数のワードをつくるために、ディクショナリ中の「反転」の候補として、プローブ、及びプローブの組み合わせを認証する。
【0019】
プローブマスキング
また、構成(「セットアップ」)方法をサポートするプログラム特性が開示されており、ここでは選択されたプローブが、分析から一時的に除かれ得る(「マスク」される)。また、対立遺伝子を有意に区別することに貢献しない−又は信頼性が低い強度パターンを生成すると判断される−プローブによって生成したアッセイ信号も、結果を分析する時に、マスキングされ、これらの信号の貢献が必要であると考えられる場合にのみ表示される。
【0020】
対立遺伝子頻度統計
もう1つの態様において、ソフトウエアシステムは、対立遺伝子群(及びこれらの組み合わせ)発生の相対頻度を追跡し、表示する方法を提供する。
【0021】
インタラクティブ「改善」
ソフトウエアシステムは、一体化した環境を提供して、例えば改善中に、分析されているデータとデータベースと参考にされているヒットテーブルへの同時アクセスを容易にする。「カットアンドペースト」操作を、多重スクリーンに提供して、注釈機能を含む自動(「プログラム」)割当の迅速で便利な編集を可能にする。
【0022】
曖昧性の決定確認試験
また、プログラムは、群特異的増幅によって、又は多型の伸長介在分析によって(2002年10月15日に出願された「Multiplexed Analysis of Polymorphic Loci by Concurrent Interrogation and Enzyme−Mediated Detection」、出願番号10/271,602号参照)、曖昧性の決定を援助する追加の情報を提供する。
【0023】
分散型分析:プロセシング、分析、解釈、アーカイビング
このソフトウエアシステムの構造は、分散型分析の方法をサポートしており、アッセイ画像記録、自動分析、インタラクティブ改善と、評価、及び様々な地理的位置の様々な個人によって実施される最終「承認」や報告書作成等の異なる機能を行うことが出来る。この分散型分析のモードは、個人の試験ラボの能力を拡大し、多くの本質的に異なる領域の専門的知識に関連する部分的専門知識を必要とすることなく、各試験メニューを拡大する。例えば、試験センタの場所は、患者サンプルの収集を容易にするように選択されることができる一方で、有資格の医師は、複数の試験センタに勤務しながら、異なる場所から最終試験結果を再検討したり、リリースすることが出来る。
【0024】
また、完全自動対立遺伝子の分析方法及び擬似コードが開示されている。これは以下に記載されている。
【0025】
詳細な説明
与えられたサンプルについてのアッセイ信号強度パターンの記録の後に、一連の分析ステップを実施して、相当する対立遺伝子の組み合わせを同定する。
【0026】
2.1 アッセイ強度パターンの2進列への変換
標準化アッセイ信号強度:プローブ強度プロファイル
同時係属中の米国特許出願第10/271,602号(PCT/US02/33012)に開示されている多型の伸長介在分析(eMAPTM、本明細書では、「キャプチャ介在伸長」ともいう)等のターゲット核酸内の多型を精査するある方法では、高い特異性が、アッセイ信号の適切な「2極」分布をつくる分子認識プロセスに依存するアッセイ信号を生成する。これに対して、多型のハイブリダイゼーション介在多重分析(hMAPTM、米国特許第10/847,046号)等の方法は、ターゲットを有するこのようなプローブの複数セット中の各プローブの相互作用を支配する効果的な親和性を反映するアッセイ信号強度を生成する。バックグラウンドの変化を修正するために、元のターゲット濃度又はその他の実験条件、プローブターゲット相互作用を記録する実験信号強度が、反応に含まれる正の及び負対照プローブ(及びプローブターゲット対)から記録された信号を用いて標準化される。
【0027】
各信号強度から、通常、正の対照信号、IPC、と負の対照信号、INC、を含むk番目のプローブの型についての平均値、Ikを減じて、その結果を、修正した正の対照信号で除して、標準化強度(率):
r=(I−INC)/(IPC−INC)
を得る。
【0028】
パネル中のいずれかの所定のプローブの性能の評価を容易にするために、ここで比率プロファイルとも呼ばれているプローブ強度プロファイルは、1セットのサンプル、典型的には100のサンプルに渡って精査するために記録したr値を、例えば昇順に並べることによって構成される。このようなプロファイルの例は、図2Aから2Cに示されており、図2Aは、より低いr値からより高いr値に、大きな振幅の急激な遷移を表示するプロファイルを示し、図2Bは、小さな振幅の段階的な遷移を表示するプロファイルを示す。
【0029】
hMAP等の方法については、標準化信号強度が、まず2進表示に変換される:rが予め設定された閾値、T、を越える場合、相当する2進スコアが正、s=1(ここでは「8」と書くこともある)であり、他の場合は、負、s=−1(ここでは「1」と書くこともある)である。この臨界的な信号処理ステップを実施する方法は、次のサブセクションに開示されている。
【0030】
2.2 閾値の決定:2値化
2値化閾値設定の決定及び反復改善についてのアルゴリズムが開示されている。グレイスケールピクセル強度を「白黒」表示に変換する画像分析の類似のステップでそうであるように、2値化は、2つのサブセットのうちの一方に、標準化アッセイ信号強度を割り当てる。考慮されている1セットのサンプルについての標準化信号強度の分布が、よく分離されたピークを特徴とする二峰性の形状を有する限り、問題ない:次いで、結果に影響することなく、この2つのピーク間のほとんどどこにでも閾値を設けることが出来る;図2Aは、二峰性のヒストグラムに相当する。しかしながら、別のケースでは、分離ピークが明確に分離していない場合、2値化は、不確実又は潜在的な誤りの源となる:一方又は他方のサブセットへの特異的強度値の割当は、閾値の正確な割当に敏感に依存する;図2Bはこのような場合に相当する。
【0031】
開始閾値設定:「トレーニング」セットの分析
開始閾値の設定は、基準又は「トレーニングセット」の分析に基づく。好ましくは、基準サンプルを、対象サンプル群の特徴:例えば、広く用いられている対立遺伝子の組み合わせ及びハプロタイプの発生の頻度を反映するように選択される。このような情報は、対立遺伝子割当のような付加的な制約を提供することが出来る。サンプル母集団統計の自動収集及び統計的分析の方法は、以下に詳しく説明されている。
【0032】
独立して決定された、有効な参照反応パターン{σk 1 k PT}、及び独立して決定された、有効な対立遺伝子を有するS個のサンプルの参照(「トレーニング」)セットは、選択した1セットのP個のプローブで分析され、標準化強度(比率)パターン{rk;1 k P}を得て、選択されたセット(以下も参照)の各プローブ、k、について、閾値、Tk、を、実際の反応パターン、sk=sk(T)と、参照パターン{σk,1 k PT}との一致を最大するように決定する。
【0033】
即ち、実際のセットの各プローブについて、相互相関C=Σi((ri−Tk*σi)/Σi|(ri−Tk)|、1 i Sを最大にするように、S個のサンプルのトレーニングセットに渡る、標準化強度プロファイルの分析によって、各プローブについて、閾値が決定される。次に、各プローブについて、関数Cの最大値を見つけるために、閾値設定、Tk、を、量ri−Tkのサインが、参照パターンの相当する部分、σi、のサインに一致するまで、段階的に増加させる。このアッセイに使用されるプローブについては、反応パターンが、対立遺伝子を使用するヒットテーブルから「逆分析される」が、トレーニングセットの尋問において、使用されるプローブについてはされない。図1Bは、関数C=C(T)、rmin T rmaxの形を示す。閾値設定は、関数Cを最大にするように選択される。
【0034】
開始閾値設定を決定する擬似コードは以下の通りである。
【0035】
【0036】
閾値設定の「良さ」
閾値設定は、セット中のいくつかのプローブについてはロバストであるが、その他のプローブについてはロバストがより少なくてもよい。即ち、プローブ強度プロファイルに閾値Tを適用することによって発生した2つのサンプル部分母集団の構成が、TからT+ΔT又はT−ΔTの値の小さな変化に応答して変化する。ここで、ΔT/T<<1であり、従って閾値はロバストではなく、統計上の確かさは低い。
【0037】
個別の閾値設定の確かさの間隔をおけるようにするために、性能指数(「閾値の良さ」)も本明細書で開示されている。これは、トレーニングセットについての割当セットを用いて相互相関を最大化する過程で作られる関数C=C(T)のピークの形から誘導される。図1Bに示されるように、関数のピークが急になるほど、Tの小さな変化に対するTの選択された値がより敏感になる。
【0038】
記載されるように相互相関、C、を最大にする方法によって選択された閾値の「良さ」、Gは、次のように定義される:
G=(CL+CR)/2CMax
ここで、CMax、CL及びCRはそれぞれ、Cの最大値、CLは、閾値を30%小さくした時に得られるCの値、及びCRは、閾値を30%大きくした時に得られるCの値を示す。
【0039】
重み
閾値、T、が一度決定されると、プローブ強度プロファイル、{ri,1 i S}は、縮尺された形,wi=(ri−T)/Tに書き直すことが出来る。ここで、重み、wiは、個別の(標準化された)信号強度の相対振幅を表す。本明細書に記載されているソフトウエアシステム(「AAA」と記載されている)は、重みを追跡し、例えば、以下に更に述べるように、僅かな「反転」に関連して、「終わり」(「C」,w 0.5)又は「距離」(「D」)への簡単な分類によって、いくつかの形式のうちの1つでこの重みを表示する。
【0040】
2.3 文字列一致:プローブターゲット相互作用パターン内の相互相関
実験的強度パターンの分析は、根底にあるターゲット対立遺伝子を同定すること、又はほぼ同定することを目的とする。このために、強度パターンは、閾値セットを適用することによって2値化され、結果として生じる2進列(「反応パターン」)が、「ヒットテーブル」に一覧にされている既知の対立遺伝子に相当する文字列対の組み合わせと比較される。「ヒットテーブル」中の各項目は、有効な対立遺伝子を表し、各位置が、その位置におけるプローブとの対立遺伝子の相補性の度合に関する「一致」又は「不一致」の採点を含む、2値化シークエンスを提供する(図3A参照)。対立遺伝子は、4桁のコードによって指定され、主要な2つの数字によって抗原群に分類される。
【0041】
文字列一致によるエラー修正:「フリップ」
ターゲット対立遺伝子を同定するために、2値化反応パターン、{sk,1 k P}が、2つの対立遺伝子の組み合わせを表す全参照文字列とビット毎に比較される;これらは、ヒットテーブルの項目に対して、OR操作を適用することで生じる。ビット列全体の一致は相互相関を実施し、有効な参照文字列との一致をつくるために必要と判断された時に、文字列中の個別のビットを反転する(「フリッピング」)ことによって「エラー修正」の方法を提供する。このプロセスは、有効なワードをつくるように印刷タイプの誤りをチェックするのと同じである:「valit」の「t」の文字を「d」に変えることによって、有効な英単語が得られる;もう一つの有効な英単語は、「i」を「u」に、「t」を「u」に変えることによって得られるが、「valit」は「value」によりも「valid」に「より近く」、従って、前者はより適当に所望のワードを表している。
【0042】
類似の方法において、AAAプログラムは、例えばAAAプログラムに登録することが出来るデータベースに同定されているような、有効な対立遺伝子を表す最も近い有効なビット列(「ワード」)を見出すように構成されている。AAAプログラムは、実験文字列からのハミング距離(即ち、不一致ビットの数)が増加する順に、共通の2桁「群」コードによって分類された「最も近い」有効文字列を一覧にする。特に、このプログラムは、不一致ビットを同定し、必須の「フリップ」、「1から8」又は「8から1」を提言している。これは、予め設定されている最大ハミング距離内で、実験文字列とこれらの付加的な有効文字列の完全な一致を作り出すであろう。
【0043】
AAAプログラムは、「ほぼ一致」のリストを作るために、参照文字列のスペースのより深い調査も可能にする(図4に示されるドロップダウンメニュー参照)。この拡充した分析は、対象の母集団中のある種の対立遺伝子又はハプロタイプの発生の頻度として、このような付加的な検討に基づいて、対立遺伝子割当をより適当に表すことが可能な代替の文字列を頻繁に明らかにする。この特徴は、インタラクティブ編集に費やされる時間と努力を実質的に減らす。
【0044】
文字列間の距離
各群内では、有効な対立遺伝子の組み合わせに相当する文字列が、反応パターンからの重み付けハミング距離の順に順位付けされる。この距離関数は、不一致プローブに関連する重み、wi=ri−T)/T、に関して定義されている。例えば、M個の不一致プローブがあると仮定すると、可能な距離関数は:
X2=(1/M)Σ不一致プローブw2
である。
【0045】
2.4 反復閾値改善
理想的には、ここに記載されている文字列一致手順は、反応パターンと有効対立遺伝子の組み合わせを表す文字列間の一義的な一致を作る。しかしながら、完全な一致と呼ばれる場合でさえ、1つ又はそれ以上のプローブについての重みが小さいことを含む場合、この呼び方は、明白でないことがある。即ち、実際には、反応パターンは、ここのプローブについての閾値を設定し、標準化した強度の重みに依存して、偽負又は偽正を含むことがある。特に、検討中のサンプルのセットについて、連続的な比率プロファイルを有するプローブの閾値設定に関連した統計的な信頼性は低くなり、従って、このような閾値設定を調節する(「微調整する」)プロセスを有することは有益である。
【0046】
文字列一致手順は、開始閾値の改善の基礎を提供する。結局、プローブをフリップすることは、閾値設定に対する標準化率のサインを変更するように、相当する閾値を調節することと等価である。即ち、1セットのサンプルについての自動対立遺伝子割当の開始パスに続いて、あるプローブが、偽正又は偽負として、常に「フラッグが立つ」場合、これは、そのプローブについての閾値改善が適切であることを示している。従って、閾値最適化は、AAAプログラムによって同定されたフリップの総数を最小にするように、1つ又はそれ以上の「フラッグが立った」プローブの閾値設定の調節反復プロセスを含んでいる。この閾値最適化プロセスは、個々のプローブ比率プロファイルの検討よりもむしろ文字列一致に基づいているので、開始閾値を設定するステップにおいて、閾値最適化は、セット中の複数のプローブ間の相関関係を反映し、統計的信頼性を向上させる。閾値改善は、継続的に拡大する参照セットとして、分析したサンプルを用いた継続する基礎に基づいて実行することが出来る。本出願では、サンプルの各新しいセットが新しいトレーニングセットになる。
【0047】
一般的に、閾値最適化後でも、フリップの数は有限のままである。このような場合は、指定されたフリップに関連する重みを考慮しなければならない。AAAプログラムは、閾値に「近い」(C,r 0.5)、又は閾値からの「距離」(D)として「フリップ」の比率を便利に指定する。以下により詳細に記載されるように、カットオフは、多かれ少なかれ控えめに設定することが出来る調節可能な性能パラメータと、より大きな度合のインタラクティブ再検討と編集を一般的に意味するより控えめな設定と、を示す。一致を得るためのフリップする「距離」プローブについての必要条件、即ち、大きな重みを有するものは、新しい対立遺伝子を手にすることが出来るという表示を示す。
【0048】
以下の擬似コードは、本発明のAAAソフトウエアシステムにおいて実行される閾値改善手順を要約したものである。
【0049】
【0050】
AAAソフトウエアシステムに含まれる追加の特徴を以下に述べる。
【0051】
プローブセットの修正
特定の2値化反応パターンは、2つ以上の対立遺伝子と一致することがあり、ビット文字列が僅かな要素(「8s」及び「1s」)のみを有し、ターゲットが複数の多型領域を含む場合、しばしば一致するであろう。不明確さの度合は、未分解(「縮退」)対立遺伝子の数を単純に列挙することによって計算される。追加のプローブの含有による文字列の長さによって、不確かさを決定するために、増加した解決を実現することが出来る。
【0052】
プローブマスキング:コア及び拡張プローブセット
「プローブマスキング」の特徴と共に、プローブのコアセット及び拡張セットのインタラクティブな指定方法が以下に記載される。これは、その他のものと同様に実施されないこれらのプローブからの信号の補正に使用することができる。プローブマスキングでは、特定の対立遺伝子を有する特定のサンプルにのみというよりもむしろ、多種多様なサンプルにハイブリダイズするこれらのプローブからの結果は無視される。このような多様なレベルのハイブリダイゼーションは、交差ハイブリダイゼーション又は広く発現したサブシークエンスをターゲットとするプローブに起因する。
【0053】
AAAソフトウエアシステムは、ユーザがパネル中のプローブをコアセット又は拡張セットの一部分に指定出来るようにするコンフィギュレーション(「セットアップ」)スクリーンを提供する。プローブマスキング機能は、自動対立遺伝子割当の第1パスにおいて、無視される(「マスキングされる」)プローブリストの入力をユーザに促進する。即ち、プログラムが、より狭くハイブリダイズするコアセットのプローブの基礎上の割当をまず計算する。コアセットを使用する目的は、高い信頼性レベルを持って群レベル識別を提供するプローブを使用する対立遺伝子の群レベル割当(即ち、いくつかの可能な対立遺伝子の群)を得ることが出来る。
【0054】
プローブマスキングモードにおいては、AAAプログラムは、まず、コアセットのプローブのみを使用する群レベル割当を実施する。第2パス(選択)においては、この割当は、残りの低い信頼性のプローブと同様に、コアセットの全てのプローブを含む拡張セットを用いて計算を繰り返すことによって改善することが出来る。第2パスは、第1パスにおいて作られた割当と互換性を残す追加の割当を作る。また、第1パスが独自の群レベル割当を作らないときはいつでも、プログラムが、この第2パスを実施する。
【0055】
拡張セットは、「改善」を導く点で有益であり、ユーザが最もありそうな対立遺伝子割当を選択するようにする。いくつかの場合で、過度の交差ハイブリダイゼーションを避けるために、相補的な(例えば、アンチセンス)バージョンの1つ又はそれ以上のプローブ(及び相当する転写物又はアンプリコン)を、発生して使用することが必要である。このような場合は、非相補的プローブは、第1及び/又は第2パスから排除される。
【0056】
母集団統計:対立遺伝子頻度分布の分析
各対立遺伝子の再発率は、HLA分類が実行される母集団に依存する。多数のサンプルを含むパネルについては、特定の対立遺伝子の発生が、対象とする母集団全体中のその大量出現又は稀少出現を表す。既知の民族性の母集団の対立遺伝子の分布は、パネルとして計算することが出来る。
【0057】
AAAデータベースプログラムからのプローブセットについての結果が、対立遺伝子頻度を計算するために使用された。このプログラムは、各サンプルを、プローブセット全体に渡って、その反応パターンに基づいた2つの対立遺伝子セットに割り当てる。この頻度は2桁の対立遺伝子割当に基づいている。全サンプルについての、対立遺伝子割当の最初の2桁の数字が抽出されて、単一ベクタにコンパイルされる。パネルに見られる回数のカウント(そのカウント)と共に各対立遺伝子を一覧にするヒストグラムが計算される。この頻度は、カウントがその割当の総数によって標準化されるように計算される。
【0058】
このプログラムで実施されるような対立遺伝子頻度統計を追跡する1つの目的は、珍しい対立遺伝子が同定されるときにいつでも、警告フラグ等の編集支援を提供することである。これは、割当が変質する場合に役に立ち、2つ以上の独自割当が可能である。このような場合には、珍しい対立遺伝子を含むこれらの割当は、手動で削除することが出来る。単一の割当の場合は、珍しい対立遺伝子のこのようなフラッグが、割当が手動でチェックされ、確認又はフリップされることを確実にする。
【0059】
インタラクティブ「改善」
上記のプログラム及び方法を使用する自動対立遺伝子割当に続いて、推測の割当を、既知の対立遺伝子を示す対立遺伝子データベースに対して、又は(継続的に拡張する参照セットを形成する)対立遺伝子についての実験データと対立遺伝子の組み合わせによって「編集」することが出来る。例にキーステップが図示されている。
【0060】
重みは、所定のプローブ強度に割り当てられたビットの信頼性の基準を示す:ビットは、誤って割当されることは少なく、従って、フリップが実行されることは少なく、特異的プローブ強度信号の重み(又はこれらの重みに基づいた好適な機能)はより大きくなる。従って、重みは、ガイドインタラクティブ改善に役立つ。
【0061】
もう一つのガイドは、母集団全体の対立遺伝子頻度の形で、又は監視されている部分母集団の形で入手できる。分析されたサンプルは、継続的に拡張された参照データベースを形成する。これは、対立遺伝子(及びハプロタイプ)頻度が、リアルタイムでアップデートされるトレーニングセットに加えられる。
【0062】
新しい対立遺伝子の検出
新しい対立遺伝子は、2値化反応パターンを生成するターゲットによって表示される。このパターンは有意の重みを有するフリッププローブによってのみ、既知の対立遺伝子の組み合わせを表す、現存の参照文字列に一致することが出来る。これは、以下の例I(対立遺伝子割当)で、より詳細に述べられている。
【0063】
2値化表示の一般化
AAAプログラムは、2値化表示及び相当する2進列(「ワード」)以外の強度パターンの表示にも適合する。
【0064】
3つのアルファベット文字及びヒットテーブル
迅速な一般化として、3つ又はそれ以上の文字のアルファベットを呼び出す表示を考慮する。このような3文字表示は、分解プローブ対が1つ又はそれ以上の指定された多型ターゲットサイトに提供される場合、自然に生じる。例えば、ヒトの血液型抗原をコード化する遺伝子セット中の変異を分析するための多型の伸長介在多重分析(eMAP)の形式を呼び出す新規のアプローチにおいて、分解伸長プローブ対が、各分解可変部位に提供される。この対の員は、3’末端で、又は3’末端の近くで異なり、一の員は、期待される正常のターゲット対立遺伝子に一致するように構成され、もう1つの員は、期待される変異対立遺伝子に一致するように構成される。ターゲットに一致する伸長プローブのみが、伸長生成物に関連する相当アッセイ信号を生成する方法で伸長される(米国特許出願第10/271,602号参照)。即ち、eMAPは、各指定された多型サイト、即ち、正常体、変異体(「同型接合」突然変異体)、又は異型接合体で、3つの可能な値のうちの1つを生成する。
【0065】
この表示は、各指定された部位において、eMAP決定の3つの可能な結果を反映する、即ち:
− 正常プローブに一致、変異プローブに不一致:正常体 − 1で示される
− 正常プローブに不一致、変異プローブに一致:変異体 − −1で示される
− 正常プローブに一致、変異プローブに一致:異型接合体 − 0で示される
これは、潜在的な対立遺伝子の可能な組み合わせ、即ちAA(正常又は「野生型」)、BB(変異体、同型接合体)及びAB又はBA(異型接合体)を反映する。対象となる部位についてのヒットテーブルは、記載された規則によって組み合わされる文字コードから構成される。
【0066】
例IIIは、3文字アルファベット(1,0,−1)の使用を示し、観察された二対立遺伝子の組み合わせを示す。
【0067】
最大又は最小閾値
3文字表示も、最大及び最小閾値の導入に関連する類似の方法で生じる。考慮されている各プローブについて、最小閾値以下のアッセイ信号強度は、両ターゲット対立遺伝子と不一致に相当し、最小閾値以上ではあるが、最大閾値以下のアッセイ信号強度は、1つの対立遺伝子には一致しているが、残りの対立遺伝子には不一致に相当し、最大閾値以上のアッセイ信号強度は両対立遺伝子と一致に相当する。
【0068】
負及び正ビットの指定は、所定のプローブについて記録された標準化アッセイ強度を3つの部分母集団に分離する2つの閾値が規定されるのであれば、増加した信頼性を持って作ることが出来る。3つの部分母集団は:(i)所定のプローブが両方の割り当てられた対立遺伝子(1,1)に不一致である、(ii)プローブが1つの対立遺伝子(1,8;8,1)に一致する、(iii)プローブが両方の対立遺伝子(8,8)に一致する、部分母集団であろう。
【0069】
第2(8,8)閾値の存在が可能であるため、特定のプローブについての閾値を誤って設定することもあり得る;即ち、(8,1)プローブとは区別される(8,8)プローブについての閾値が、(1,1)プローブと区別される(8,1)プローブについての閾値として誤って同定されることもあり得る。このような誤った閾値指定は、トレーニングセットの継続した改善と拡張、及び/又は既知の対立遺伝子データベース基準に対して対立遺伝子割当を2重にチェックして、一致を確保することによって絞り込んで、修正することが出来る。
【0070】
考慮される必要がある別の状況は、第2の(最大)閾値以上である所定のプローブについて記録された標準化アッセイ強度が、両対立遺伝子上の指定されたターゲットサブシークエンスとの反応(同型接合体を示す)に起因し得る、又は、同時に、そのプローブとよく反応する2つの独立した対立遺伝子との反応に起因し得ることである。この状況も、トレーニングセットの継続した改善及び拡張、及び/又は既知の対立遺伝子データベース基準に対して対立遺伝子割当を2重にチェックして、一致を確保することによって絞り込んで、修正することが出来る。
【0071】
閾値の位置決定において、特定のプローブについて2以上の閾値がある場合、(図2Aから2Cに示されるように;また、図8A及び8B参照)比率強度プロファイルを試験することが出来る。しかし、プロファイルにシャープな変曲がない場合、図2Bに明確に示されるように、回旋フィルタを使用した数的な導関数を取ることによって、変曲点、従って、閾値を位置決めすることが出来る。この方法で数的導関数を取った結果は、比率プロファイルである図8A、及び図8Aから誘導される変曲点を示す数的導関数である図8Bに示されている。
【0072】
類似パターンのデジタル化
標準化強度はまた、2値化する代わりに、2値化によって、もたらされる以上のよりも高い正確性の度合で、デジタル化することが出来る。例えば、2つの部分母集団の代わりに、強度を八つの部分母集団又は16つの部分母集団に分割することを選択してもよい。上記の2値化表示の重みの形で表される情報は、この表示固有のものである。実際にデジタル化された各標準強度は、特定のプローブターゲット相互作用の共親和性の基準を表す(米国特許出願第10/204,799号「Multianalyte Molecular Analysis」;WO01/98765)。実験的デジタル化反応パターン、及び参照デジタル化パターンは、標準的方法を使用する相互相関を計算することによって比較される。
【0073】
マルチユーザリモートアクセス、アプリケーションサービング
プログラムの使用によって、リモート分析、改善、及び対立遺伝子割当の結果の報告が出来るネットワークの確立が可能である。例えば、AAAソフトウエア環境の一部を形成するデータベースは、安全なネットワーク接続を介してアクセスすることが出来る。AAAプログラムはまた、実験ラボの位置以外の場所からのインタラクティブ編集が可能であるアプリケーションサービスモードをサポートする。
【0074】
多重分析の好ましい実施例:ランダムにコード化された配列の検出
多重分析の1つの形式では、検出プローブは、コード化された微粒子(「ビード」)に表示される。標識はターゲットに関連する。配列中のプローブに結合したコード化されたビードは、好ましくは蛍光性であり、異なる色相間の識別を可能にするフィルタを使用して区別することが出来る。好ましくは、コード化されたビードセットが、平面基板上にランダムな平面配列の形で割当され、これによって、顕微鏡による試験及び分析を可能にする。ターゲット標識の強度をモニタして、ビードごとに結合したターゲットの量を表示する。このアッセイ形式は、「Multianalyte Molecular Analysis」と題された:国際公開番号第WO01/98765号に更に詳細に説明されており、ここに参照により組み込まれている。例えば、標識を付けたターゲットの捕捉によって、又はターゲット介在プローブ伸長(eMAP)によって光学的な識別特性を生成するいくつかの方法が得られ、後者は、好ましくは、ポリメラーゼ触媒伸長反応を始動することが出来る固定化した対立遺伝子特異オリゴヌクレオチドを使用することによって実施される(国際公開番号第WO03/034029号参照)。1つ又はそれ以上の好適なターゲットが、例えば、RNAの逆転写及び/又は遺伝子DNAの増幅によって生成され、その後、選択的に断片化(米国仮出願第60/515,413号参照)、変性又はストランド選択(米国特許出願第10/847,046号)等の追加のステップが続く。
【0075】
ビードの配列の復号イメージの記録に続いて、配列は、粒子表示プローブへの捕捉を可能にする条件下でターゲットに曝露される。好適な反応時間後に、コード化された粒子の配列が洗浄され、残った遊離ターゲット及び弱くアニーリングしたターゲットを除去する。次いで、配列のアッセイイメージを撮像して、配列のプローブターゲット複合体の光学信号を記録する(又は、キャプチャ介在伸長が使用するアッセイ形式である場合は、伸長プローブからの信号を記録する)。粒子の各タイプは、シークエンス特異的プローブに独自に関連しているので、復号化ステップによって、各特定の型の粒子の蛍光から決定されたアニーリングしたターゲット分子の同定可能である。
【0076】
蛍光顕微鏡を用いて復号化する。復号器中の、蛍光フィルタセットは、粒子の染色に使用される染料をコード化することによって生成した蛍光を区別するように構成されているが、その他のフィルタセットは、ターゲットに関連する染料によって生成したアッセイ信号を区別するように構成される。アッセイイメージの復号化及び記録用システムに、CCDカメラを組み込んでもよい。アッセイイメージを分析して、アッセイイメージ信号の空間的分布を、配列中の相当するコード化した空間的粒子の分布に相関させることによって、各捕捉ターゲットのアイデンティティを決定する。
【0077】
多重分析のこの形式においては、配列中のビードタイプの総数が、使用されるコード化する方法(例えば、利用できる区別できるカラーの数)及び解釈に使用される器具類の制限、例えば、配列を読むために使用される顕微鏡の領域の大きさによって限定されるという点で、プローブタイプの数には制限がある。また、選択するプローブにおいて、あるプローブが、同条件下で、その他のプローブよりもターゲットにより効果的にハイブリダイズすることを考慮しなければならない。ハイブリダイゼーション効率は、隣接するプローブ、プローブ長及びプローブシークエンス間の干渉、及び、有意に、アニーリングが行われる温度を含む多数の要素によって影響され得る。低いハイブリダイゼーション効率は、誤った負の信号を生じるかもしれない。従って、配列構成は、このような低効率プローブ/ターゲットアニーリングを補正することを試みるべきである。
【0078】
実際のアッセイを実施した後に、配列イメージシステム(米国出願第10/714,203号に記載されており、参照することによってここに組み込まれている)は、アッセイイメージを生成するのに使用することが出来、これは、種々のビード(プローブ)からのハイブリダイゼーション信号の強度を決定するために使用することが出来る。次いで、アッセイイメージは、本明細書に記載されるように、自動対立遺伝子割当についてのシステムによって適用することが出来る。
【0079】
例
I.対立遺伝子割当
例として(図3の「スクリーンショット図」も参照)、コアプローブセットのプローブを使用するAAAは、2つの提案されている群対立遺伝子割当、即ちA*03+A*29及びA*29+A*74を一覧にする。この2つの群は、フリップしたプローブの重みの順に並べられる。重みが小さければ小さいほど、群の順番が高い。コアプローブセットが提案された割当を縮退させる場合、この場合には、拡大されたプローブセットを用いて、分析が自動的に繰り返される。この第2パスは、HA120+のフリップを要求するA*03+A*29の提案された割当を生成し、HA120+が偽陽性を表すことを示す。
【0080】
手動改善モードにおいて、ユーザは、コア及び拡張されたセット中の同定された対立遺伝子について、既知の参照をチェックし、次いで、既知の対立遺伝子から予想されるビット列にビット列を合致させることによって、開始対立遺伝子割当を編集することが出来る。この方法で、既知の対立遺伝子と反対に実験的な結果を検証することは、アッセイ結果の確証、とビット列の編集手段を提供する。ユーザは、配列としてA*03011及びA*2901101を、図4の手動改善モードのフリッププローブとしてHA120を選択する。
【0081】
例II:対立遺伝子頻度統計
1155個のサンプルをHLA−Aパネルを使用して検査し、AAAプログラムを使用して、このサンプル強度パターンを分析して、2桁の対立遺伝子群割当を得た。AAAプログラムによって計算されたグループコールの発生の計算と相対頻度が、すぐ下の表1に示されている。
【0082】
【0083】
以下の分布についての棒グラフを図1に示す。対立遺伝子01、02、及び03は、この母集団中で非常に多いが、対立遺伝子36、43、及び80は、比較的まれである。
【0084】
例III:割当の概要情報スクリーンショット
図3のスクリーンショットは、パネル03250443についての割当概要情報を示す。スクリーンショットには、パネル名、サンプル名、サンプル位置、対立遺伝子割当、フリッププローブ、警告メッセージ、及びコメントが含まれる。対立遺伝子割当は、コンピュータアルゴリズムによって対立遺伝子レベル割当を一覧にする。フリップ及び警告メッセージは、コンピュータの割当によっても表示される。手動編集がある場合、対立遺伝子割当は、手動編集者の選択候補による。手動編集の説明は図4を参照されたい。また、手動編集の間の、コメントとフリップインプットも表示されている。フリッププローブは、最終的には(手動で)文字列に挿入される。このことは、手動編集によって発生することを示す。
【0085】
ソフトウエアは、適用できるならば、対立遺伝子割当の最初の2つの数字と、これに続く数字を一覧にする。例えば、A*24(020101)は、この2つの数字のコールがA*24であることを示す。
【0086】
概要情報ウインドウは、1つのウインドウ中の全ての不可欠な情報を表示し、様々なサンプルを通して試験し、ナビゲートするのを容易にする。
【0087】
例IV:3文字のアルファベット:血液型抗原分子分類
ほぼ500個の臨床サンプルと対照のセットにおいて、いくつかの対立遺伝子の組み合わせが、eMAPアッセイデザインによって同定される。このデザインは、Duffy(FYA/FYB)、GATA、ランドシュタイナー−ヴァイナー(Landsteiner−Weiner)(LWA/LWB)、コルトン(Colton)(CoA/CoB)、シアナ(Scianna)(SC1/SC2)、ディエゴ(Diego)(DIA/DIB)及びドンブロック(DoA/DoB)を含む少数血液型抗原を調べるように設計されている。後者は、3つの突然変異を具える。以下表2参照。
【0088】
表2−少数ヒト血液型抗原の観察された対立遺伝子の組み合わせ
【0089】
例V:疾患及び症状との関係の確証
また、前記方法によって決定された対立遺伝子割当を使用して疾患や症状のリスクや存在を確証することも出来る。ある種の免疫性疾患は、HLA遺伝子座と関連していることが知られている。既知であれば、関連した対立遺伝子を分類することが出来、既知でない場合は、本明細書に記載された方法を使用して対立遺伝子データベースを確立し、疾患や症状のリスクや存在を示すことが出来る。データベースは、そのサンプルがデータベースに使用されている患者をモニタすることに基づいて、常にアップデートすることが出来る;即ち、疾患がいくらか進行する時に、その対立遺伝子を分析して特定の疾患又は症状を有する患者の共通性を決定することが出来る。
【0090】
本明細書の用語、表現及び例は、例示的であり、限定するものではなく、本発明は、特許請求の範囲によってのみ定義され、特許請求の範囲の主題の全ての均等物を含むと理解するべきである。特許請求の範囲中の方法のステップは、順番である必要はなく、特許請求の範囲に特別に記載がない限り、特許請求の範囲に特定されている順番を含めて、いずれの順番で実行してもよい。
【図面の簡単な説明】
【0091】
【図1A】図1Aは、トレーニングセットのサンプルの分析におけるプローブHA109に記録されたアッセイ信号強度セットを示す。独立した方法によって、標準化されたプローブ強度は、「−」と印を付けたサンプルに対して負であり、「+」と印を付けたサンプルに対して正であるように記録された。
【図1B】図1Bは、プローブのトレーニングセット中の一のプローブについての閾値決定を示し、この閾値の値は、X軸にプロットされ、閾値の測定値が、Y軸にプロットされている。最適な閾値は、Y軸において最大測定値を与える。この場合は、この値は1である。
【図1C】図1Cは、多数の異なるHLAプローブ用のシステム設定を示す。対立遺伝子割当許容値(図2参照)が、テキストボックスに入力されている。HLA−Aは最大6フリップ;HLA−Bは8フリップ;HLA−DRは5フリップできる。各プローブは、必要に応じて、高い信頼性、低い信頼性又は使用されない、に割り当てることができる。コアセットのプローブ(図3参照)は、信頼性の高いプローブのみからなるが、拡張セットのプローブは、信頼性の高い及び信頼性の低いプローブを含む。設定を変更することによって、コアセット及び拡張セットを相互に変更することが出来る。例えば、HA120は、信頼性が高いとして設定出来、HA121は、信頼性が低いとして設定することが出来る。
【図2A】図2Aは、増加率の順に並べられたプローブHB103についての標準化強度(「比率」)を示し、プローブ比率プロファイルの不連続性を示す。HB103は、比率プロファイルの最も大きな相違を有する。反応パターンにおいて、8は正を示し、1は負(信号がない)を示し、0は、プローブが使用されないことを示す。
【図2B】図2Bは、増加率の順に並べられたプローブHB123Aについての標準化強度(「比率」)を示し、プローブ比率プロファイルの不連続性を示す。HB123Aは、プロファイル中に明らかなジャンプを持たない。反応パターンにおいて、8は正を示し、1は負(信号がない)を示し、0は、プローブが使用されないことを示す。
【図2C】図2Cは、増加率の順に並べられたプローブHB154についての標準化強度(「比率」)を示し、プローブ比率プロファイルの不連続性を示す。HB154は、プロファイル中に2つのジャンプを有する。反応パターンにおいて、8は正を示し、1は負(信号がない)を示し、0は、プローブが使用されないことを示す。
【図3】図3は、対立遺伝子割当の例であり、反応パターンは、0から8の範囲にある第1行に示され、ハイブリダイゼーション文字列は、列に示されるパターンである。列119、121、122、135A、142A、及び145は、信頼性の低いプローブである。1つの提案された割当があるだけでなく、拡張プローブセットは空である。
【図4】図4は、プローブとターゲット間の例示的反応についての反応パターンとヒットテーブルであり、手動改善、対立遺伝子割当、及びコメントを挿入するための場所を実行するプログラムのスクリーンショットも示す。
【図5】図5は、特定の母集団の対立遺伝子頻度分布についての棒グラフである。
【図6】図6は、「ユダヤ人の正常な」母集団について報告された対立遺伝子分布の遺伝子分類研究と、このような母集団についての実験結果の比較を示す棒グラフである。
【図7】図7は、「03250443」に指定されたパネルについての割当概要情報を示すスクリーンショットであり、パネル名、サンプル名、サンプル位置、対立遺伝子割当、フリッププローブ、警告メッセージ及びコメントを含む。
【図8A】図8Aは、プローブ比プロファイルである。
【図8B】図8Bは、図8Aから取り出した変曲点を示す数値導関数である。
【技術分野】
【0001】
背景
診断マーカーとしての複合体相互作用パターン
単反応の複合遺伝子座の並列(「多重」)分析を可能にする平行アッセイ形式は、与えられたサンプルに接触した特異的ターゲット構成(「対立遺伝子」)の決定、及び指定された遺伝子の発現レベル又は受容体リガンド相互作用パターンを明らかにする循環タンパク質バイオマーカのレベル等の定量マーカのモニタリングに適切である。以下において、プローブターゲット相互作用への言及は、このより一般的な状況に言及することを意味する。選択されたセットのオリゴヌクレオチドプローブを有するターゲットを尋問すること(例えば、「Arrays of nucleic acid probes on biological chips」と題された、米国特許第5,837,832号参照)、及びそのプローブセットを有する1つ又はそれ以上のターゲットシークエンスの特異的相互作用のパターンにおいて自身を分析することによって、対立遺伝子及び対立遺伝子の組み合わせを迅速に同定することが出来る。
【0002】
この診断能力は、複合遺伝を有する疾患を進行させる素因の評価を含み、完全なセットの分子マーカの判断が必要な関節炎、糖尿病及び癌等の複合疾患の研究にますます重要な役割果たす。しかし、割当の信頼性と「特異性」を究明する一方で、結果の分析−選択したセットのプローブを有する1つ又はそれ以上のターゲットの相互作用の強度を反映する多重アッセイでできた強度表示のパターンの形で−は、有効な対立遺伝子の組み合わせに相互パターンをマッピングすること、又は、素因又は危険性を評価することによって、相互作用パターンを解釈するという厄介な挑戦に直面する。
【0003】
モデル:HLA分子分類
ヒト白血球抗原(HLA)遺伝子複合体の多型分析は、疾患関連性を分析することに含まれる複雑性のモデルを提供し、これによって、迅速で信頼できる分析によって取り組むべき要求を描くのに役立つ。HLA複合体は、「異質の」骨髄又は組織に対して免疫反応を媒介する種々の抗原をコード化する複合高多型座を具える。現在のところ、282HLA−A、540HLA−B及び136HLA−CクラスI対立遺伝子、及び418HLA−DRB、24HLA−DQA1及び53HLA−DQB1クラスII対立遺伝子が同定されている。多くの公知の対立遺伝子シークエンスが、公共のデータベース、例えば、ヒト白血球抗原についてのIMGT/HLAデータベース、www.ebi.ac.uk/imgt/hla/intro.html)に見られる。
【0004】
種々の形式の平行(「多重」)ハイブリダイゼーションアッセイは、特異的クラスI及びクラスII抗原に関連する対立遺伝子又は対立遺伝子の群を同定することにおいて、処理量と信頼性のユニークな組み合わせを必要とするHLA分子の分類に広く使用されている。HLA分子の分類との関連で、この分野の標準的なアッセイ方法論は、「リバースドットブロット」形式を援用する。この形式によれば、細長いナイロン膜又はその他の基質材料上の、十分に分離したバンドに置かれたプローブセットが、続く装飾ステップにおいて、ターゲットの捕獲物に比色分析信号を作らせる条件下で、ターゲットの溶液にさらされる。この分野のその他の方法は、ターゲット溶液に懸濁し、フローサイトメトリによって分析される、コード化された微粒子に表示されるプローブの使用を含む(「Products」http://www.onelambda.com参照)。最近の方法は、シリコンチップ上に割当されたコード化した微粒子の平面配列を使用することによって、一体化したアッセイ環境を提供する(例えば、BioArray Solutions,Ltd.に譲渡された米国特許出願第09/690,040号参照)。
【0005】
HLA複合体、特に、プライマ対及びプローブのセットの選択等の多型座の分析についての平行アッセイ形式のデザインが、先行技術及びいくつかの同時係属中の出願に記載されている(例えば、2004年7月15日に出願され、BioArray Solutions,Ltdに譲渡された、核酸分析用プライマ及びキャプチャプローブセットの選択における同時最適化」参照)。
【0006】
シークエンス相補性及び2進法表示
プローブターゲット相互作用パターンの解釈は、実験的な信号強度パターンから誘導された2進列(「反応パターン」)を、1つ(又はそれ以上)の対立遺伝子の組み合わせに一致させる、又は新しい対立遺伝子の有効性を確立するタスクを含んでいる。
【0007】
各対立遺伝子は、完全に相補的であるサブシークエンス、及び、ターゲットを尋問するように構成されたプローブセット中のプローブに対して相補的でないその他のサブシークエンスを有する。この構成は、この分野では対立遺伝子割当の基礎を提供する2進コードによって表現される。即ち、完全に一致した各プローブに対しては、スコア「+」(本明細書では、「8」で表示される)に、各不一致のプローブに対しては、スコア「−」(本明細書では、「1」で表示される)に割り当てることによって、2進列が構築され、遭遇した対立遺伝子の特異的な組み合わせを有する選択されたプローブセットの相互作用のパターンを表示する。対立遺伝子と2進列の対応関係を示すディクショナリは、「ヒットテーブル」としてこの分野では公知である。
【0008】
反応パターン−選択したプローブセットによって作られる−は、2以上の単一対立遺伝子の組み合わせに相当してよく、曖昧性の度合(「縮退」)は、対立遺伝子の組み合わせの同定を達成できる正確さ(「分解能」)を決定する。一般的に、分解能の程度は、前記セットにプローブを加えることによって上げることが出来る。
【0009】
アッセイ信号強度は、プローブターゲット相互作用の強さを反映している。所定のサンプル中のそのターゲットシークエンスに対する完全な相補性(「一致した」)があり、さもなければ、低いアッセイ信号強度を生成する場合に、理想的なプローブは、強度の高いアッセイ信号を生成する。即ち、大きなサンプルセット上のこれらのプローブの信号強度分布は、理想的には2つの明確なピークを示し、「一致」又は「不一致」プローブを反映する部分母集団と、ターゲットシークエンス構成への信号強度の区分化を示唆している。
【0010】
しかしながら、実際には、1つ又はそれ以上の多型ターゲットとプローブの多重度との相互作用は、広い範囲のアッセイ信号強度を生成することがある。例えば、別の正のアッセイ信号強度が低減する、又は別の負アッセイ信号強度が強化され、これによる強度の個別分布が「不鮮明になる」。例えば、ターゲットサブシークエンス中で、プローブの「指定された」多型以外の多型を具える対立遺伝子にプローブが遭遇すると、プローブターゲットハイブリダイゼーションが弱くなる。逆に、プローブターゲットハイブリダイゼーションは、プローブが、その指定されたサブシークエンス内のターゲットとの顕著な不一致を示す一方で、指定されていないサブシークエンスの特異的対立遺伝子に一致する場合、思いがけなく促進されることがある。
【0011】
一般的に2値化と同様に、閾値の選択によって、部分母集団の境界が明示される。特に、アッセイ信号分布が二峰性ではない場合、閾値選択は分析における重大な開始ステップを表す。
【0012】
HLA分子分類のコンテキストにおいて、対立遺伝子の相互作用パターン及び割当の必須の広範囲な分析は、現在は、実質的に専門家の経験に依存している。これらの専門家及び熟達者は、通常最小限の計算サポートで、しばしば公知の対立遺伝子の印刷された編集物(例えば、全米骨髄バンクによって保存されているデータベース)と対応する「ヒットテーブル」を参照して、多大な時間を要し、困難で、主観的なプロセスである対立遺伝子割当のインタラクティブな設定、再検討、編集(「改善」)に従事している。
【0013】
白血球抗原及び赤血球抗原の分子分類と同様に、複合プローブ−ターゲット相互作用パターンの信頼できる、迅速な分析及び解釈は、遺伝マーカセットの意味ある検証に関する必要条件を表しており、統計的に意味のある結果を許容する十分な大きさの患者集団における疾患素因又は治療反応のこれらの「予測」を確認する。似たような挑戦が、例えば:キャリアスクリーニング及び診断及び関連するリスク評価についての変異分析の遺伝多型の分析に関連する;及び多型マーカ又は遺伝子発現プロファイルの完全なセットの形で、それ自身を明示することが出来る複合遺伝の遺伝子疾患に罹る素因の評価に関連する、その他の領域で起こっている。
【0014】
計算アルゴリズム、及び自動化パターン分析及び解釈についてロバスト手順を援用し、データ管理及び視覚化と同様に、割当のインタラクティブな再検討及び編集に一体化した環境を提供する便利なソフトウエアシステムが望まれる。
【0015】
要約
自動対立遺伝子割当について、一体的なソフトウエア環境内で、自動分析及びインタラクティブ再検討及びこの分析の改良(「改善」)をサポートする方法及びアルゴリズム(及びそれらの実施)が開示されている。好ましくは、自動対立遺伝子割当(「AAA」)プログラムと呼ばれるソフトウエアシステム及びプログラムでの実施は、可視化し、インポートし、エクスポートし、カスタマイズできる概要レポートを作ることが出来るポータブルデータベースへの一体的なインターフェイスによるデータ管理と;ユーザ認証、トレーニングセット分析、及びプローブマスキングを含むシステム構成(「セットアップ」)と;文字列照合及びプローブフリップを含むパターン分析と;リアルタイムでのデータベース計算と「カットアンドペースト」編集、「警告」メッセージの生成、及び注釈のサポート、とを組み合わせるインタラクティブ改善と;を含む多様な機能を提供する。
【0016】
閾値化
プローブ強度分布を3つ又はそれ以上の部分母集団内に分離することによって得られる2値化表示の一般化を含む閾値を選択し、改善する方法が開示されている。
【0017】
開始閾値決定
参照(「トレーニング」)セットを分析する手段によって閾値を設定し、選択する方法が開示されており、選択されたプローブセット中の各プローブについて、トレーニングセットに対して提供されたものと、アッセイ結果及び割当された対立遺伝子の一致の度合を最大にする閾値を設定する。開始閾値設定を決定する方法は、この閾値のロバスト性を評価する基本的な方法として、性能指数(「良さ」)を提供する。本明細書で開示されている開始閾値決定に関連する方法は、2値化アルゴリズムを個別のプローブ強度プロファイルに適用している。
【0018】
閾値改善:パターンマッチング
有効な対立遺伝子の組み合わせに相当する反応パターンの一覧を用いて、開始閾値設定の適用によって生成出来る、実験的な2進文字列(「反応パターン」)を一致させることによって、閾値を改善する方法が開示される。本明細書のソフトウエアシステムは、実験的な文字列(「ワード」)内で、特異的な部分を交替させる(「反転する」)方法をサポートする。このプログラムは、修正された実験的「ワード」と最も近いワードの完全又は部分的一致、又は複数のワードをつくるために、ディクショナリ中の「反転」の候補として、プローブ、及びプローブの組み合わせを認証する。
【0019】
プローブマスキング
また、構成(「セットアップ」)方法をサポートするプログラム特性が開示されており、ここでは選択されたプローブが、分析から一時的に除かれ得る(「マスク」される)。また、対立遺伝子を有意に区別することに貢献しない−又は信頼性が低い強度パターンを生成すると判断される−プローブによって生成したアッセイ信号も、結果を分析する時に、マスキングされ、これらの信号の貢献が必要であると考えられる場合にのみ表示される。
【0020】
対立遺伝子頻度統計
もう1つの態様において、ソフトウエアシステムは、対立遺伝子群(及びこれらの組み合わせ)発生の相対頻度を追跡し、表示する方法を提供する。
【0021】
インタラクティブ「改善」
ソフトウエアシステムは、一体化した環境を提供して、例えば改善中に、分析されているデータとデータベースと参考にされているヒットテーブルへの同時アクセスを容易にする。「カットアンドペースト」操作を、多重スクリーンに提供して、注釈機能を含む自動(「プログラム」)割当の迅速で便利な編集を可能にする。
【0022】
曖昧性の決定確認試験
また、プログラムは、群特異的増幅によって、又は多型の伸長介在分析によって(2002年10月15日に出願された「Multiplexed Analysis of Polymorphic Loci by Concurrent Interrogation and Enzyme−Mediated Detection」、出願番号10/271,602号参照)、曖昧性の決定を援助する追加の情報を提供する。
【0023】
分散型分析:プロセシング、分析、解釈、アーカイビング
このソフトウエアシステムの構造は、分散型分析の方法をサポートしており、アッセイ画像記録、自動分析、インタラクティブ改善と、評価、及び様々な地理的位置の様々な個人によって実施される最終「承認」や報告書作成等の異なる機能を行うことが出来る。この分散型分析のモードは、個人の試験ラボの能力を拡大し、多くの本質的に異なる領域の専門的知識に関連する部分的専門知識を必要とすることなく、各試験メニューを拡大する。例えば、試験センタの場所は、患者サンプルの収集を容易にするように選択されることができる一方で、有資格の医師は、複数の試験センタに勤務しながら、異なる場所から最終試験結果を再検討したり、リリースすることが出来る。
【0024】
また、完全自動対立遺伝子の分析方法及び擬似コードが開示されている。これは以下に記載されている。
【0025】
詳細な説明
与えられたサンプルについてのアッセイ信号強度パターンの記録の後に、一連の分析ステップを実施して、相当する対立遺伝子の組み合わせを同定する。
【0026】
2.1 アッセイ強度パターンの2進列への変換
標準化アッセイ信号強度:プローブ強度プロファイル
同時係属中の米国特許出願第10/271,602号(PCT/US02/33012)に開示されている多型の伸長介在分析(eMAPTM、本明細書では、「キャプチャ介在伸長」ともいう)等のターゲット核酸内の多型を精査するある方法では、高い特異性が、アッセイ信号の適切な「2極」分布をつくる分子認識プロセスに依存するアッセイ信号を生成する。これに対して、多型のハイブリダイゼーション介在多重分析(hMAPTM、米国特許第10/847,046号)等の方法は、ターゲットを有するこのようなプローブの複数セット中の各プローブの相互作用を支配する効果的な親和性を反映するアッセイ信号強度を生成する。バックグラウンドの変化を修正するために、元のターゲット濃度又はその他の実験条件、プローブターゲット相互作用を記録する実験信号強度が、反応に含まれる正の及び負対照プローブ(及びプローブターゲット対)から記録された信号を用いて標準化される。
【0027】
各信号強度から、通常、正の対照信号、IPC、と負の対照信号、INC、を含むk番目のプローブの型についての平均値、Ikを減じて、その結果を、修正した正の対照信号で除して、標準化強度(率):
r=(I−INC)/(IPC−INC)
を得る。
【0028】
パネル中のいずれかの所定のプローブの性能の評価を容易にするために、ここで比率プロファイルとも呼ばれているプローブ強度プロファイルは、1セットのサンプル、典型的には100のサンプルに渡って精査するために記録したr値を、例えば昇順に並べることによって構成される。このようなプロファイルの例は、図2Aから2Cに示されており、図2Aは、より低いr値からより高いr値に、大きな振幅の急激な遷移を表示するプロファイルを示し、図2Bは、小さな振幅の段階的な遷移を表示するプロファイルを示す。
【0029】
hMAP等の方法については、標準化信号強度が、まず2進表示に変換される:rが予め設定された閾値、T、を越える場合、相当する2進スコアが正、s=1(ここでは「8」と書くこともある)であり、他の場合は、負、s=−1(ここでは「1」と書くこともある)である。この臨界的な信号処理ステップを実施する方法は、次のサブセクションに開示されている。
【0030】
2.2 閾値の決定:2値化
2値化閾値設定の決定及び反復改善についてのアルゴリズムが開示されている。グレイスケールピクセル強度を「白黒」表示に変換する画像分析の類似のステップでそうであるように、2値化は、2つのサブセットのうちの一方に、標準化アッセイ信号強度を割り当てる。考慮されている1セットのサンプルについての標準化信号強度の分布が、よく分離されたピークを特徴とする二峰性の形状を有する限り、問題ない:次いで、結果に影響することなく、この2つのピーク間のほとんどどこにでも閾値を設けることが出来る;図2Aは、二峰性のヒストグラムに相当する。しかしながら、別のケースでは、分離ピークが明確に分離していない場合、2値化は、不確実又は潜在的な誤りの源となる:一方又は他方のサブセットへの特異的強度値の割当は、閾値の正確な割当に敏感に依存する;図2Bはこのような場合に相当する。
【0031】
開始閾値設定:「トレーニング」セットの分析
開始閾値の設定は、基準又は「トレーニングセット」の分析に基づく。好ましくは、基準サンプルを、対象サンプル群の特徴:例えば、広く用いられている対立遺伝子の組み合わせ及びハプロタイプの発生の頻度を反映するように選択される。このような情報は、対立遺伝子割当のような付加的な制約を提供することが出来る。サンプル母集団統計の自動収集及び統計的分析の方法は、以下に詳しく説明されている。
【0032】
独立して決定された、有効な参照反応パターン{σk 1 k PT}、及び独立して決定された、有効な対立遺伝子を有するS個のサンプルの参照(「トレーニング」)セットは、選択した1セットのP個のプローブで分析され、標準化強度(比率)パターン{rk;1 k P}を得て、選択されたセット(以下も参照)の各プローブ、k、について、閾値、Tk、を、実際の反応パターン、sk=sk(T)と、参照パターン{σk,1 k PT}との一致を最大するように決定する。
【0033】
即ち、実際のセットの各プローブについて、相互相関C=Σi((ri−Tk*σi)/Σi|(ri−Tk)|、1 i Sを最大にするように、S個のサンプルのトレーニングセットに渡る、標準化強度プロファイルの分析によって、各プローブについて、閾値が決定される。次に、各プローブについて、関数Cの最大値を見つけるために、閾値設定、Tk、を、量ri−Tkのサインが、参照パターンの相当する部分、σi、のサインに一致するまで、段階的に増加させる。このアッセイに使用されるプローブについては、反応パターンが、対立遺伝子を使用するヒットテーブルから「逆分析される」が、トレーニングセットの尋問において、使用されるプローブについてはされない。図1Bは、関数C=C(T)、rmin T rmaxの形を示す。閾値設定は、関数Cを最大にするように選択される。
【0034】
開始閾値設定を決定する擬似コードは以下の通りである。
【0035】
【0036】
閾値設定の「良さ」
閾値設定は、セット中のいくつかのプローブについてはロバストであるが、その他のプローブについてはロバストがより少なくてもよい。即ち、プローブ強度プロファイルに閾値Tを適用することによって発生した2つのサンプル部分母集団の構成が、TからT+ΔT又はT−ΔTの値の小さな変化に応答して変化する。ここで、ΔT/T<<1であり、従って閾値はロバストではなく、統計上の確かさは低い。
【0037】
個別の閾値設定の確かさの間隔をおけるようにするために、性能指数(「閾値の良さ」)も本明細書で開示されている。これは、トレーニングセットについての割当セットを用いて相互相関を最大化する過程で作られる関数C=C(T)のピークの形から誘導される。図1Bに示されるように、関数のピークが急になるほど、Tの小さな変化に対するTの選択された値がより敏感になる。
【0038】
記載されるように相互相関、C、を最大にする方法によって選択された閾値の「良さ」、Gは、次のように定義される:
G=(CL+CR)/2CMax
ここで、CMax、CL及びCRはそれぞれ、Cの最大値、CLは、閾値を30%小さくした時に得られるCの値、及びCRは、閾値を30%大きくした時に得られるCの値を示す。
【0039】
重み
閾値、T、が一度決定されると、プローブ強度プロファイル、{ri,1 i S}は、縮尺された形,wi=(ri−T)/Tに書き直すことが出来る。ここで、重み、wiは、個別の(標準化された)信号強度の相対振幅を表す。本明細書に記載されているソフトウエアシステム(「AAA」と記載されている)は、重みを追跡し、例えば、以下に更に述べるように、僅かな「反転」に関連して、「終わり」(「C」,w 0.5)又は「距離」(「D」)への簡単な分類によって、いくつかの形式のうちの1つでこの重みを表示する。
【0040】
2.3 文字列一致:プローブターゲット相互作用パターン内の相互相関
実験的強度パターンの分析は、根底にあるターゲット対立遺伝子を同定すること、又はほぼ同定することを目的とする。このために、強度パターンは、閾値セットを適用することによって2値化され、結果として生じる2進列(「反応パターン」)が、「ヒットテーブル」に一覧にされている既知の対立遺伝子に相当する文字列対の組み合わせと比較される。「ヒットテーブル」中の各項目は、有効な対立遺伝子を表し、各位置が、その位置におけるプローブとの対立遺伝子の相補性の度合に関する「一致」又は「不一致」の採点を含む、2値化シークエンスを提供する(図3A参照)。対立遺伝子は、4桁のコードによって指定され、主要な2つの数字によって抗原群に分類される。
【0041】
文字列一致によるエラー修正:「フリップ」
ターゲット対立遺伝子を同定するために、2値化反応パターン、{sk,1 k P}が、2つの対立遺伝子の組み合わせを表す全参照文字列とビット毎に比較される;これらは、ヒットテーブルの項目に対して、OR操作を適用することで生じる。ビット列全体の一致は相互相関を実施し、有効な参照文字列との一致をつくるために必要と判断された時に、文字列中の個別のビットを反転する(「フリッピング」)ことによって「エラー修正」の方法を提供する。このプロセスは、有効なワードをつくるように印刷タイプの誤りをチェックするのと同じである:「valit」の「t」の文字を「d」に変えることによって、有効な英単語が得られる;もう一つの有効な英単語は、「i」を「u」に、「t」を「u」に変えることによって得られるが、「valit」は「value」によりも「valid」に「より近く」、従って、前者はより適当に所望のワードを表している。
【0042】
類似の方法において、AAAプログラムは、例えばAAAプログラムに登録することが出来るデータベースに同定されているような、有効な対立遺伝子を表す最も近い有効なビット列(「ワード」)を見出すように構成されている。AAAプログラムは、実験文字列からのハミング距離(即ち、不一致ビットの数)が増加する順に、共通の2桁「群」コードによって分類された「最も近い」有効文字列を一覧にする。特に、このプログラムは、不一致ビットを同定し、必須の「フリップ」、「1から8」又は「8から1」を提言している。これは、予め設定されている最大ハミング距離内で、実験文字列とこれらの付加的な有効文字列の完全な一致を作り出すであろう。
【0043】
AAAプログラムは、「ほぼ一致」のリストを作るために、参照文字列のスペースのより深い調査も可能にする(図4に示されるドロップダウンメニュー参照)。この拡充した分析は、対象の母集団中のある種の対立遺伝子又はハプロタイプの発生の頻度として、このような付加的な検討に基づいて、対立遺伝子割当をより適当に表すことが可能な代替の文字列を頻繁に明らかにする。この特徴は、インタラクティブ編集に費やされる時間と努力を実質的に減らす。
【0044】
文字列間の距離
各群内では、有効な対立遺伝子の組み合わせに相当する文字列が、反応パターンからの重み付けハミング距離の順に順位付けされる。この距離関数は、不一致プローブに関連する重み、wi=ri−T)/T、に関して定義されている。例えば、M個の不一致プローブがあると仮定すると、可能な距離関数は:
X2=(1/M)Σ不一致プローブw2
である。
【0045】
2.4 反復閾値改善
理想的には、ここに記載されている文字列一致手順は、反応パターンと有効対立遺伝子の組み合わせを表す文字列間の一義的な一致を作る。しかしながら、完全な一致と呼ばれる場合でさえ、1つ又はそれ以上のプローブについての重みが小さいことを含む場合、この呼び方は、明白でないことがある。即ち、実際には、反応パターンは、ここのプローブについての閾値を設定し、標準化した強度の重みに依存して、偽負又は偽正を含むことがある。特に、検討中のサンプルのセットについて、連続的な比率プロファイルを有するプローブの閾値設定に関連した統計的な信頼性は低くなり、従って、このような閾値設定を調節する(「微調整する」)プロセスを有することは有益である。
【0046】
文字列一致手順は、開始閾値の改善の基礎を提供する。結局、プローブをフリップすることは、閾値設定に対する標準化率のサインを変更するように、相当する閾値を調節することと等価である。即ち、1セットのサンプルについての自動対立遺伝子割当の開始パスに続いて、あるプローブが、偽正又は偽負として、常に「フラッグが立つ」場合、これは、そのプローブについての閾値改善が適切であることを示している。従って、閾値最適化は、AAAプログラムによって同定されたフリップの総数を最小にするように、1つ又はそれ以上の「フラッグが立った」プローブの閾値設定の調節反復プロセスを含んでいる。この閾値最適化プロセスは、個々のプローブ比率プロファイルの検討よりもむしろ文字列一致に基づいているので、開始閾値を設定するステップにおいて、閾値最適化は、セット中の複数のプローブ間の相関関係を反映し、統計的信頼性を向上させる。閾値改善は、継続的に拡大する参照セットとして、分析したサンプルを用いた継続する基礎に基づいて実行することが出来る。本出願では、サンプルの各新しいセットが新しいトレーニングセットになる。
【0047】
一般的に、閾値最適化後でも、フリップの数は有限のままである。このような場合は、指定されたフリップに関連する重みを考慮しなければならない。AAAプログラムは、閾値に「近い」(C,r 0.5)、又は閾値からの「距離」(D)として「フリップ」の比率を便利に指定する。以下により詳細に記載されるように、カットオフは、多かれ少なかれ控えめに設定することが出来る調節可能な性能パラメータと、より大きな度合のインタラクティブ再検討と編集を一般的に意味するより控えめな設定と、を示す。一致を得るためのフリップする「距離」プローブについての必要条件、即ち、大きな重みを有するものは、新しい対立遺伝子を手にすることが出来るという表示を示す。
【0048】
以下の擬似コードは、本発明のAAAソフトウエアシステムにおいて実行される閾値改善手順を要約したものである。
【0049】
【0050】
AAAソフトウエアシステムに含まれる追加の特徴を以下に述べる。
【0051】
プローブセットの修正
特定の2値化反応パターンは、2つ以上の対立遺伝子と一致することがあり、ビット文字列が僅かな要素(「8s」及び「1s」)のみを有し、ターゲットが複数の多型領域を含む場合、しばしば一致するであろう。不明確さの度合は、未分解(「縮退」)対立遺伝子の数を単純に列挙することによって計算される。追加のプローブの含有による文字列の長さによって、不確かさを決定するために、増加した解決を実現することが出来る。
【0052】
プローブマスキング:コア及び拡張プローブセット
「プローブマスキング」の特徴と共に、プローブのコアセット及び拡張セットのインタラクティブな指定方法が以下に記載される。これは、その他のものと同様に実施されないこれらのプローブからの信号の補正に使用することができる。プローブマスキングでは、特定の対立遺伝子を有する特定のサンプルにのみというよりもむしろ、多種多様なサンプルにハイブリダイズするこれらのプローブからの結果は無視される。このような多様なレベルのハイブリダイゼーションは、交差ハイブリダイゼーション又は広く発現したサブシークエンスをターゲットとするプローブに起因する。
【0053】
AAAソフトウエアシステムは、ユーザがパネル中のプローブをコアセット又は拡張セットの一部分に指定出来るようにするコンフィギュレーション(「セットアップ」)スクリーンを提供する。プローブマスキング機能は、自動対立遺伝子割当の第1パスにおいて、無視される(「マスキングされる」)プローブリストの入力をユーザに促進する。即ち、プログラムが、より狭くハイブリダイズするコアセットのプローブの基礎上の割当をまず計算する。コアセットを使用する目的は、高い信頼性レベルを持って群レベル識別を提供するプローブを使用する対立遺伝子の群レベル割当(即ち、いくつかの可能な対立遺伝子の群)を得ることが出来る。
【0054】
プローブマスキングモードにおいては、AAAプログラムは、まず、コアセットのプローブのみを使用する群レベル割当を実施する。第2パス(選択)においては、この割当は、残りの低い信頼性のプローブと同様に、コアセットの全てのプローブを含む拡張セットを用いて計算を繰り返すことによって改善することが出来る。第2パスは、第1パスにおいて作られた割当と互換性を残す追加の割当を作る。また、第1パスが独自の群レベル割当を作らないときはいつでも、プログラムが、この第2パスを実施する。
【0055】
拡張セットは、「改善」を導く点で有益であり、ユーザが最もありそうな対立遺伝子割当を選択するようにする。いくつかの場合で、過度の交差ハイブリダイゼーションを避けるために、相補的な(例えば、アンチセンス)バージョンの1つ又はそれ以上のプローブ(及び相当する転写物又はアンプリコン)を、発生して使用することが必要である。このような場合は、非相補的プローブは、第1及び/又は第2パスから排除される。
【0056】
母集団統計:対立遺伝子頻度分布の分析
各対立遺伝子の再発率は、HLA分類が実行される母集団に依存する。多数のサンプルを含むパネルについては、特定の対立遺伝子の発生が、対象とする母集団全体中のその大量出現又は稀少出現を表す。既知の民族性の母集団の対立遺伝子の分布は、パネルとして計算することが出来る。
【0057】
AAAデータベースプログラムからのプローブセットについての結果が、対立遺伝子頻度を計算するために使用された。このプログラムは、各サンプルを、プローブセット全体に渡って、その反応パターンに基づいた2つの対立遺伝子セットに割り当てる。この頻度は2桁の対立遺伝子割当に基づいている。全サンプルについての、対立遺伝子割当の最初の2桁の数字が抽出されて、単一ベクタにコンパイルされる。パネルに見られる回数のカウント(そのカウント)と共に各対立遺伝子を一覧にするヒストグラムが計算される。この頻度は、カウントがその割当の総数によって標準化されるように計算される。
【0058】
このプログラムで実施されるような対立遺伝子頻度統計を追跡する1つの目的は、珍しい対立遺伝子が同定されるときにいつでも、警告フラグ等の編集支援を提供することである。これは、割当が変質する場合に役に立ち、2つ以上の独自割当が可能である。このような場合には、珍しい対立遺伝子を含むこれらの割当は、手動で削除することが出来る。単一の割当の場合は、珍しい対立遺伝子のこのようなフラッグが、割当が手動でチェックされ、確認又はフリップされることを確実にする。
【0059】
インタラクティブ「改善」
上記のプログラム及び方法を使用する自動対立遺伝子割当に続いて、推測の割当を、既知の対立遺伝子を示す対立遺伝子データベースに対して、又は(継続的に拡張する参照セットを形成する)対立遺伝子についての実験データと対立遺伝子の組み合わせによって「編集」することが出来る。例にキーステップが図示されている。
【0060】
重みは、所定のプローブ強度に割り当てられたビットの信頼性の基準を示す:ビットは、誤って割当されることは少なく、従って、フリップが実行されることは少なく、特異的プローブ強度信号の重み(又はこれらの重みに基づいた好適な機能)はより大きくなる。従って、重みは、ガイドインタラクティブ改善に役立つ。
【0061】
もう一つのガイドは、母集団全体の対立遺伝子頻度の形で、又は監視されている部分母集団の形で入手できる。分析されたサンプルは、継続的に拡張された参照データベースを形成する。これは、対立遺伝子(及びハプロタイプ)頻度が、リアルタイムでアップデートされるトレーニングセットに加えられる。
【0062】
新しい対立遺伝子の検出
新しい対立遺伝子は、2値化反応パターンを生成するターゲットによって表示される。このパターンは有意の重みを有するフリッププローブによってのみ、既知の対立遺伝子の組み合わせを表す、現存の参照文字列に一致することが出来る。これは、以下の例I(対立遺伝子割当)で、より詳細に述べられている。
【0063】
2値化表示の一般化
AAAプログラムは、2値化表示及び相当する2進列(「ワード」)以外の強度パターンの表示にも適合する。
【0064】
3つのアルファベット文字及びヒットテーブル
迅速な一般化として、3つ又はそれ以上の文字のアルファベットを呼び出す表示を考慮する。このような3文字表示は、分解プローブ対が1つ又はそれ以上の指定された多型ターゲットサイトに提供される場合、自然に生じる。例えば、ヒトの血液型抗原をコード化する遺伝子セット中の変異を分析するための多型の伸長介在多重分析(eMAP)の形式を呼び出す新規のアプローチにおいて、分解伸長プローブ対が、各分解可変部位に提供される。この対の員は、3’末端で、又は3’末端の近くで異なり、一の員は、期待される正常のターゲット対立遺伝子に一致するように構成され、もう1つの員は、期待される変異対立遺伝子に一致するように構成される。ターゲットに一致する伸長プローブのみが、伸長生成物に関連する相当アッセイ信号を生成する方法で伸長される(米国特許出願第10/271,602号参照)。即ち、eMAPは、各指定された多型サイト、即ち、正常体、変異体(「同型接合」突然変異体)、又は異型接合体で、3つの可能な値のうちの1つを生成する。
【0065】
この表示は、各指定された部位において、eMAP決定の3つの可能な結果を反映する、即ち:
− 正常プローブに一致、変異プローブに不一致:正常体 − 1で示される
− 正常プローブに不一致、変異プローブに一致:変異体 − −1で示される
− 正常プローブに一致、変異プローブに一致:異型接合体 − 0で示される
これは、潜在的な対立遺伝子の可能な組み合わせ、即ちAA(正常又は「野生型」)、BB(変異体、同型接合体)及びAB又はBA(異型接合体)を反映する。対象となる部位についてのヒットテーブルは、記載された規則によって組み合わされる文字コードから構成される。
【0066】
例IIIは、3文字アルファベット(1,0,−1)の使用を示し、観察された二対立遺伝子の組み合わせを示す。
【0067】
最大又は最小閾値
3文字表示も、最大及び最小閾値の導入に関連する類似の方法で生じる。考慮されている各プローブについて、最小閾値以下のアッセイ信号強度は、両ターゲット対立遺伝子と不一致に相当し、最小閾値以上ではあるが、最大閾値以下のアッセイ信号強度は、1つの対立遺伝子には一致しているが、残りの対立遺伝子には不一致に相当し、最大閾値以上のアッセイ信号強度は両対立遺伝子と一致に相当する。
【0068】
負及び正ビットの指定は、所定のプローブについて記録された標準化アッセイ強度を3つの部分母集団に分離する2つの閾値が規定されるのであれば、増加した信頼性を持って作ることが出来る。3つの部分母集団は:(i)所定のプローブが両方の割り当てられた対立遺伝子(1,1)に不一致である、(ii)プローブが1つの対立遺伝子(1,8;8,1)に一致する、(iii)プローブが両方の対立遺伝子(8,8)に一致する、部分母集団であろう。
【0069】
第2(8,8)閾値の存在が可能であるため、特定のプローブについての閾値を誤って設定することもあり得る;即ち、(8,1)プローブとは区別される(8,8)プローブについての閾値が、(1,1)プローブと区別される(8,1)プローブについての閾値として誤って同定されることもあり得る。このような誤った閾値指定は、トレーニングセットの継続した改善と拡張、及び/又は既知の対立遺伝子データベース基準に対して対立遺伝子割当を2重にチェックして、一致を確保することによって絞り込んで、修正することが出来る。
【0070】
考慮される必要がある別の状況は、第2の(最大)閾値以上である所定のプローブについて記録された標準化アッセイ強度が、両対立遺伝子上の指定されたターゲットサブシークエンスとの反応(同型接合体を示す)に起因し得る、又は、同時に、そのプローブとよく反応する2つの独立した対立遺伝子との反応に起因し得ることである。この状況も、トレーニングセットの継続した改善及び拡張、及び/又は既知の対立遺伝子データベース基準に対して対立遺伝子割当を2重にチェックして、一致を確保することによって絞り込んで、修正することが出来る。
【0071】
閾値の位置決定において、特定のプローブについて2以上の閾値がある場合、(図2Aから2Cに示されるように;また、図8A及び8B参照)比率強度プロファイルを試験することが出来る。しかし、プロファイルにシャープな変曲がない場合、図2Bに明確に示されるように、回旋フィルタを使用した数的な導関数を取ることによって、変曲点、従って、閾値を位置決めすることが出来る。この方法で数的導関数を取った結果は、比率プロファイルである図8A、及び図8Aから誘導される変曲点を示す数的導関数である図8Bに示されている。
【0072】
類似パターンのデジタル化
標準化強度はまた、2値化する代わりに、2値化によって、もたらされる以上のよりも高い正確性の度合で、デジタル化することが出来る。例えば、2つの部分母集団の代わりに、強度を八つの部分母集団又は16つの部分母集団に分割することを選択してもよい。上記の2値化表示の重みの形で表される情報は、この表示固有のものである。実際にデジタル化された各標準強度は、特定のプローブターゲット相互作用の共親和性の基準を表す(米国特許出願第10/204,799号「Multianalyte Molecular Analysis」;WO01/98765)。実験的デジタル化反応パターン、及び参照デジタル化パターンは、標準的方法を使用する相互相関を計算することによって比較される。
【0073】
マルチユーザリモートアクセス、アプリケーションサービング
プログラムの使用によって、リモート分析、改善、及び対立遺伝子割当の結果の報告が出来るネットワークの確立が可能である。例えば、AAAソフトウエア環境の一部を形成するデータベースは、安全なネットワーク接続を介してアクセスすることが出来る。AAAプログラムはまた、実験ラボの位置以外の場所からのインタラクティブ編集が可能であるアプリケーションサービスモードをサポートする。
【0074】
多重分析の好ましい実施例:ランダムにコード化された配列の検出
多重分析の1つの形式では、検出プローブは、コード化された微粒子(「ビード」)に表示される。標識はターゲットに関連する。配列中のプローブに結合したコード化されたビードは、好ましくは蛍光性であり、異なる色相間の識別を可能にするフィルタを使用して区別することが出来る。好ましくは、コード化されたビードセットが、平面基板上にランダムな平面配列の形で割当され、これによって、顕微鏡による試験及び分析を可能にする。ターゲット標識の強度をモニタして、ビードごとに結合したターゲットの量を表示する。このアッセイ形式は、「Multianalyte Molecular Analysis」と題された:国際公開番号第WO01/98765号に更に詳細に説明されており、ここに参照により組み込まれている。例えば、標識を付けたターゲットの捕捉によって、又はターゲット介在プローブ伸長(eMAP)によって光学的な識別特性を生成するいくつかの方法が得られ、後者は、好ましくは、ポリメラーゼ触媒伸長反応を始動することが出来る固定化した対立遺伝子特異オリゴヌクレオチドを使用することによって実施される(国際公開番号第WO03/034029号参照)。1つ又はそれ以上の好適なターゲットが、例えば、RNAの逆転写及び/又は遺伝子DNAの増幅によって生成され、その後、選択的に断片化(米国仮出願第60/515,413号参照)、変性又はストランド選択(米国特許出願第10/847,046号)等の追加のステップが続く。
【0075】
ビードの配列の復号イメージの記録に続いて、配列は、粒子表示プローブへの捕捉を可能にする条件下でターゲットに曝露される。好適な反応時間後に、コード化された粒子の配列が洗浄され、残った遊離ターゲット及び弱くアニーリングしたターゲットを除去する。次いで、配列のアッセイイメージを撮像して、配列のプローブターゲット複合体の光学信号を記録する(又は、キャプチャ介在伸長が使用するアッセイ形式である場合は、伸長プローブからの信号を記録する)。粒子の各タイプは、シークエンス特異的プローブに独自に関連しているので、復号化ステップによって、各特定の型の粒子の蛍光から決定されたアニーリングしたターゲット分子の同定可能である。
【0076】
蛍光顕微鏡を用いて復号化する。復号器中の、蛍光フィルタセットは、粒子の染色に使用される染料をコード化することによって生成した蛍光を区別するように構成されているが、その他のフィルタセットは、ターゲットに関連する染料によって生成したアッセイ信号を区別するように構成される。アッセイイメージの復号化及び記録用システムに、CCDカメラを組み込んでもよい。アッセイイメージを分析して、アッセイイメージ信号の空間的分布を、配列中の相当するコード化した空間的粒子の分布に相関させることによって、各捕捉ターゲットのアイデンティティを決定する。
【0077】
多重分析のこの形式においては、配列中のビードタイプの総数が、使用されるコード化する方法(例えば、利用できる区別できるカラーの数)及び解釈に使用される器具類の制限、例えば、配列を読むために使用される顕微鏡の領域の大きさによって限定されるという点で、プローブタイプの数には制限がある。また、選択するプローブにおいて、あるプローブが、同条件下で、その他のプローブよりもターゲットにより効果的にハイブリダイズすることを考慮しなければならない。ハイブリダイゼーション効率は、隣接するプローブ、プローブ長及びプローブシークエンス間の干渉、及び、有意に、アニーリングが行われる温度を含む多数の要素によって影響され得る。低いハイブリダイゼーション効率は、誤った負の信号を生じるかもしれない。従って、配列構成は、このような低効率プローブ/ターゲットアニーリングを補正することを試みるべきである。
【0078】
実際のアッセイを実施した後に、配列イメージシステム(米国出願第10/714,203号に記載されており、参照することによってここに組み込まれている)は、アッセイイメージを生成するのに使用することが出来、これは、種々のビード(プローブ)からのハイブリダイゼーション信号の強度を決定するために使用することが出来る。次いで、アッセイイメージは、本明細書に記載されるように、自動対立遺伝子割当についてのシステムによって適用することが出来る。
【0079】
例
I.対立遺伝子割当
例として(図3の「スクリーンショット図」も参照)、コアプローブセットのプローブを使用するAAAは、2つの提案されている群対立遺伝子割当、即ちA*03+A*29及びA*29+A*74を一覧にする。この2つの群は、フリップしたプローブの重みの順に並べられる。重みが小さければ小さいほど、群の順番が高い。コアプローブセットが提案された割当を縮退させる場合、この場合には、拡大されたプローブセットを用いて、分析が自動的に繰り返される。この第2パスは、HA120+のフリップを要求するA*03+A*29の提案された割当を生成し、HA120+が偽陽性を表すことを示す。
【0080】
手動改善モードにおいて、ユーザは、コア及び拡張されたセット中の同定された対立遺伝子について、既知の参照をチェックし、次いで、既知の対立遺伝子から予想されるビット列にビット列を合致させることによって、開始対立遺伝子割当を編集することが出来る。この方法で、既知の対立遺伝子と反対に実験的な結果を検証することは、アッセイ結果の確証、とビット列の編集手段を提供する。ユーザは、配列としてA*03011及びA*2901101を、図4の手動改善モードのフリッププローブとしてHA120を選択する。
【0081】
例II:対立遺伝子頻度統計
1155個のサンプルをHLA−Aパネルを使用して検査し、AAAプログラムを使用して、このサンプル強度パターンを分析して、2桁の対立遺伝子群割当を得た。AAAプログラムによって計算されたグループコールの発生の計算と相対頻度が、すぐ下の表1に示されている。
【0082】
【0083】
以下の分布についての棒グラフを図1に示す。対立遺伝子01、02、及び03は、この母集団中で非常に多いが、対立遺伝子36、43、及び80は、比較的まれである。
【0084】
例III:割当の概要情報スクリーンショット
図3のスクリーンショットは、パネル03250443についての割当概要情報を示す。スクリーンショットには、パネル名、サンプル名、サンプル位置、対立遺伝子割当、フリッププローブ、警告メッセージ、及びコメントが含まれる。対立遺伝子割当は、コンピュータアルゴリズムによって対立遺伝子レベル割当を一覧にする。フリップ及び警告メッセージは、コンピュータの割当によっても表示される。手動編集がある場合、対立遺伝子割当は、手動編集者の選択候補による。手動編集の説明は図4を参照されたい。また、手動編集の間の、コメントとフリップインプットも表示されている。フリッププローブは、最終的には(手動で)文字列に挿入される。このことは、手動編集によって発生することを示す。
【0085】
ソフトウエアは、適用できるならば、対立遺伝子割当の最初の2つの数字と、これに続く数字を一覧にする。例えば、A*24(020101)は、この2つの数字のコールがA*24であることを示す。
【0086】
概要情報ウインドウは、1つのウインドウ中の全ての不可欠な情報を表示し、様々なサンプルを通して試験し、ナビゲートするのを容易にする。
【0087】
例IV:3文字のアルファベット:血液型抗原分子分類
ほぼ500個の臨床サンプルと対照のセットにおいて、いくつかの対立遺伝子の組み合わせが、eMAPアッセイデザインによって同定される。このデザインは、Duffy(FYA/FYB)、GATA、ランドシュタイナー−ヴァイナー(Landsteiner−Weiner)(LWA/LWB)、コルトン(Colton)(CoA/CoB)、シアナ(Scianna)(SC1/SC2)、ディエゴ(Diego)(DIA/DIB)及びドンブロック(DoA/DoB)を含む少数血液型抗原を調べるように設計されている。後者は、3つの突然変異を具える。以下表2参照。
【0088】
表2−少数ヒト血液型抗原の観察された対立遺伝子の組み合わせ
【0089】
例V:疾患及び症状との関係の確証
また、前記方法によって決定された対立遺伝子割当を使用して疾患や症状のリスクや存在を確証することも出来る。ある種の免疫性疾患は、HLA遺伝子座と関連していることが知られている。既知であれば、関連した対立遺伝子を分類することが出来、既知でない場合は、本明細書に記載された方法を使用して対立遺伝子データベースを確立し、疾患や症状のリスクや存在を示すことが出来る。データベースは、そのサンプルがデータベースに使用されている患者をモニタすることに基づいて、常にアップデートすることが出来る;即ち、疾患がいくらか進行する時に、その対立遺伝子を分析して特定の疾患又は症状を有する患者の共通性を決定することが出来る。
【0090】
本明細書の用語、表現及び例は、例示的であり、限定するものではなく、本発明は、特許請求の範囲によってのみ定義され、特許請求の範囲の主題の全ての均等物を含むと理解するべきである。特許請求の範囲中の方法のステップは、順番である必要はなく、特許請求の範囲に特別に記載がない限り、特許請求の範囲に特定されている順番を含めて、いずれの順番で実行してもよい。
【図面の簡単な説明】
【0091】
【図1A】図1Aは、トレーニングセットのサンプルの分析におけるプローブHA109に記録されたアッセイ信号強度セットを示す。独立した方法によって、標準化されたプローブ強度は、「−」と印を付けたサンプルに対して負であり、「+」と印を付けたサンプルに対して正であるように記録された。
【図1B】図1Bは、プローブのトレーニングセット中の一のプローブについての閾値決定を示し、この閾値の値は、X軸にプロットされ、閾値の測定値が、Y軸にプロットされている。最適な閾値は、Y軸において最大測定値を与える。この場合は、この値は1である。
【図1C】図1Cは、多数の異なるHLAプローブ用のシステム設定を示す。対立遺伝子割当許容値(図2参照)が、テキストボックスに入力されている。HLA−Aは最大6フリップ;HLA−Bは8フリップ;HLA−DRは5フリップできる。各プローブは、必要に応じて、高い信頼性、低い信頼性又は使用されない、に割り当てることができる。コアセットのプローブ(図3参照)は、信頼性の高いプローブのみからなるが、拡張セットのプローブは、信頼性の高い及び信頼性の低いプローブを含む。設定を変更することによって、コアセット及び拡張セットを相互に変更することが出来る。例えば、HA120は、信頼性が高いとして設定出来、HA121は、信頼性が低いとして設定することが出来る。
【図2A】図2Aは、増加率の順に並べられたプローブHB103についての標準化強度(「比率」)を示し、プローブ比率プロファイルの不連続性を示す。HB103は、比率プロファイルの最も大きな相違を有する。反応パターンにおいて、8は正を示し、1は負(信号がない)を示し、0は、プローブが使用されないことを示す。
【図2B】図2Bは、増加率の順に並べられたプローブHB123Aについての標準化強度(「比率」)を示し、プローブ比率プロファイルの不連続性を示す。HB123Aは、プロファイル中に明らかなジャンプを持たない。反応パターンにおいて、8は正を示し、1は負(信号がない)を示し、0は、プローブが使用されないことを示す。
【図2C】図2Cは、増加率の順に並べられたプローブHB154についての標準化強度(「比率」)を示し、プローブ比率プロファイルの不連続性を示す。HB154は、プロファイル中に2つのジャンプを有する。反応パターンにおいて、8は正を示し、1は負(信号がない)を示し、0は、プローブが使用されないことを示す。
【図3】図3は、対立遺伝子割当の例であり、反応パターンは、0から8の範囲にある第1行に示され、ハイブリダイゼーション文字列は、列に示されるパターンである。列119、121、122、135A、142A、及び145は、信頼性の低いプローブである。1つの提案された割当があるだけでなく、拡張プローブセットは空である。
【図4】図4は、プローブとターゲット間の例示的反応についての反応パターンとヒットテーブルであり、手動改善、対立遺伝子割当、及びコメントを挿入するための場所を実行するプログラムのスクリーンショットも示す。
【図5】図5は、特定の母集団の対立遺伝子頻度分布についての棒グラフである。
【図6】図6は、「ユダヤ人の正常な」母集団について報告された対立遺伝子分布の遺伝子分類研究と、このような母集団についての実験結果の比較を示す棒グラフである。
【図7】図7は、「03250443」に指定されたパネルについての割当概要情報を示すスクリーンショットであり、パネル名、サンプル名、サンプル位置、対立遺伝子割当、フリッププローブ、警告メッセージ及びコメントを含む。
【図8A】図8Aは、プローブ比プロファイルである。
【図8B】図8Bは、図8Aから取り出した変曲点を示す数値導関数である。
【特許請求の範囲】
【請求項1】
誤りのある対立遺伝子割当を低減するのに用いる一連の閾値を確立するための方法であって、当該方法が:
(i)信号強度の信号強度パターンを生成するステップであって、信号が既知の対立遺伝子を割当てた基準となるターゲット核酸の集合を好適な反応条件下でプローブの集合と反応させることによって、該ターゲット核酸配列が前記プローブの集合の要素の配列と全体的又は部分的に相補的となるように生成されるステップと;
(ii)各々の信号強度Iから負の対照信号INCを減算して、該結果を、補正した正の対照信号IPC−INCで除算して、標準化強度率:
r=(I−INC)/(IPC−INC)
を得るステップと;
(iii)標準化した信号強度が前記閾値より大きい場合に、前記プローブと該配列との間の正の相互作用として指定すべく、前記反応パターンと、前記集合における前記プローブとの該ターゲット集合の基準反応パターンとの間の類似性を最大化するように標準化信号強度に対する閾値を設定するステップと;
を具えることを特徴とする方法。
【請求項2】
請求項1に記載の方法が:
異なるサンプルにおける正及び負のプローブターゲット相互作用を決定するために前記閾値を用いるステップと;
前記サンプルにおけるターゲット核酸用の対立遺伝子割当を生成するステップと;
を更に具えることを特徴とする方法。
【請求項3】
請求項2に記載の方法において、対立遺伝子割当が、基準となる既知の対立遺伝子用の供給源由来の前記基準反応パターンと前記反応パターンを比較した後のみに作成されることを特徴とする方法。
【請求項4】
請求項3に記載の方法において、該比較後に、前記参照反応パターンと相関しない特定のプローブと部分配列との反応の結果が反転される、即ち、負が正になり、又は正が負になることを特徴とする方法。
【請求項5】
請求項4に記載の方法において、該反転が、既知の対立遺伝子用の基準反応パターンと可能な限り密に相関することを特徴とする方法。
【請求項6】
請求項2に記載の方法において、前記対立遺伝子割当が、基準反応パターンと可能な限り密に相関することを特徴とする方法。
【請求項7】
請求項1に記載の方法において、サンプルは対立遺伝子分布が既知の部分母集団に由来し、前記基準反応パターンが前記部分母集団用であることを特徴とする方法。
【請求項8】
請求項1に記載の方法が:
前記閾値が、プローブに対して2つの反応性の部分配列を生成するサンプルと、1つだけの反応性の部分配列を生成するサンプルとの間の差異を表現するか否か;又は
前記閾値が、プローブに対して1つの反応性の部分配列を生成するサンプルと、反応性の部分配列を生成しないサンプルとの間の差異を表現するか否か;
を決定するように前記基準反応パターンを分析するステップを更に具えることを特徴とする方法。
【請求項9】
請求項2に記載の方法において、基準反応パターンと相関しない対立遺伝子割当を分析し、前記基準反応パターンが新規の対立遺伝子を表現可能であることを考慮して、割当が生成されることを特徴とする方法。
【請求項10】
請求項1に記載の方法が、2以上の異なるターゲット核酸サンプルの集合に対する、アッセイで決定された特定のプローブ用に設定された良好度Gの閾値を決定するステップを更に具え;
G=(C1+C2)/(2・C0)
であり、C0が、該サンプルの集合C1に対するCi(選択した前記集合における適合度)の最大値を示す場合、C1は前記閾値が特定の割合で増加する場合のCiの値であり、C2が、前記閾値が特定の割合で減少する場合のCiの値であることを特徴とする方法。
【請求項11】
請求項1に記載の方法が、前記信号強度パターンを記録するステップを更に具えることを特徴とする方法。
【請求項1】
誤りのある対立遺伝子割当を低減するのに用いる一連の閾値を確立するための方法であって、当該方法が:
(i)信号強度の信号強度パターンを生成するステップであって、信号が既知の対立遺伝子を割当てた基準となるターゲット核酸の集合を好適な反応条件下でプローブの集合と反応させることによって、該ターゲット核酸配列が前記プローブの集合の要素の配列と全体的又は部分的に相補的となるように生成されるステップと;
(ii)各々の信号強度Iから負の対照信号INCを減算して、該結果を、補正した正の対照信号IPC−INCで除算して、標準化強度率:
r=(I−INC)/(IPC−INC)
を得るステップと;
(iii)標準化した信号強度が前記閾値より大きい場合に、前記プローブと該配列との間の正の相互作用として指定すべく、前記反応パターンと、前記集合における前記プローブとの該ターゲット集合の基準反応パターンとの間の類似性を最大化するように標準化信号強度に対する閾値を設定するステップと;
を具えることを特徴とする方法。
【請求項2】
請求項1に記載の方法が:
異なるサンプルにおける正及び負のプローブターゲット相互作用を決定するために前記閾値を用いるステップと;
前記サンプルにおけるターゲット核酸用の対立遺伝子割当を生成するステップと;
を更に具えることを特徴とする方法。
【請求項3】
請求項2に記載の方法において、対立遺伝子割当が、基準となる既知の対立遺伝子用の供給源由来の前記基準反応パターンと前記反応パターンを比較した後のみに作成されることを特徴とする方法。
【請求項4】
請求項3に記載の方法において、該比較後に、前記参照反応パターンと相関しない特定のプローブと部分配列との反応の結果が反転される、即ち、負が正になり、又は正が負になることを特徴とする方法。
【請求項5】
請求項4に記載の方法において、該反転が、既知の対立遺伝子用の基準反応パターンと可能な限り密に相関することを特徴とする方法。
【請求項6】
請求項2に記載の方法において、前記対立遺伝子割当が、基準反応パターンと可能な限り密に相関することを特徴とする方法。
【請求項7】
請求項1に記載の方法において、サンプルは対立遺伝子分布が既知の部分母集団に由来し、前記基準反応パターンが前記部分母集団用であることを特徴とする方法。
【請求項8】
請求項1に記載の方法が:
前記閾値が、プローブに対して2つの反応性の部分配列を生成するサンプルと、1つだけの反応性の部分配列を生成するサンプルとの間の差異を表現するか否か;又は
前記閾値が、プローブに対して1つの反応性の部分配列を生成するサンプルと、反応性の部分配列を生成しないサンプルとの間の差異を表現するか否か;
を決定するように前記基準反応パターンを分析するステップを更に具えることを特徴とする方法。
【請求項9】
請求項2に記載の方法において、基準反応パターンと相関しない対立遺伝子割当を分析し、前記基準反応パターンが新規の対立遺伝子を表現可能であることを考慮して、割当が生成されることを特徴とする方法。
【請求項10】
請求項1に記載の方法が、2以上の異なるターゲット核酸サンプルの集合に対する、アッセイで決定された特定のプローブ用に設定された良好度Gの閾値を決定するステップを更に具え;
G=(C1+C2)/(2・C0)
であり、C0が、該サンプルの集合C1に対するCi(選択した前記集合における適合度)の最大値を示す場合、C1は前記閾値が特定の割合で増加する場合のCiの値であり、C2が、前記閾値が特定の割合で減少する場合のCiの値であることを特徴とする方法。
【請求項11】
請求項1に記載の方法が、前記信号強度パターンを記録するステップを更に具えることを特徴とする方法。
【図1A】
【図1B】
【図1C】
【図2A】
【図2B】
【図2C】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8A】
【図8B】
【図1B】
【図1C】
【図2A】
【図2B】
【図2C】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8A】
【図8B】
【公開番号】特開2012−65653(P2012−65653A)
【公開日】平成24年4月5日(2012.4.5)
【国際特許分類】
【出願番号】特願2011−214277(P2011−214277)
【出願日】平成23年9月29日(2011.9.29)
【分割の表示】特願2007−524901(P2007−524901)の分割
【原出願日】平成17年8月2日(2005.8.2)
【出願人】(503369358)バイオアレイ ソリューションズ リミテッド (14)
【Fターム(参考)】
【公開日】平成24年4月5日(2012.4.5)
【国際特許分類】
【出願日】平成23年9月29日(2011.9.29)
【分割の表示】特願2007−524901(P2007−524901)の分割
【原出願日】平成17年8月2日(2005.8.2)
【出願人】(503369358)バイオアレイ ソリューションズ リミテッド (14)
【Fターム(参考)】
[ Back to top ]