質量分析データの分析法
本発明では、異なる試料集合間で存在量が異なる検体を選択的に識別するために採用できる質量分析法データ分析手法を特徴とする。採用される手法では、個々の試料と試料集合の間の質量電荷比(「m/z強度対」に関連付けられた信号に対する変化の統計的有意性を決定する。統計的有意性に基づき、検体レベルの差を示す可能性のある変化が識別される。これらの信号の強度に基づき、検体存在量の比が決定され得る。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、参照により本明細書に組み込まれている、2003年4月2日に出願した米国仮出願第60/459,813号の利益を主張するものである。
【背景技術】
【0002】
本出願全体を通して引用されている参考文献は、請求されている発明の先行技術であると認めるものではない。
【0003】
質量分析法では、複雑な混合物中の多数の検体を検出することができる。環境および生物学上重要な検体を含むさまざまな種類の異なる検体が検出され得る。
【0004】
ペプチドは、生物学上重要な検体の一例である。タンパク質などのペプチドは、複雑な仕組みで相互作用し、細胞機能を調整する。特定のタンパク質またはその修飾体の存在量のわずかな変化であっても、細胞の機能を大幅に変化させ、動物の健康全般に影響を及ぼし、細胞または動物の健康に関する指標になり得る。
【0005】
ペプチド発現を測定するプロテオミクス研究では、質量分析法の利用が増大してきている。(Smith、Trends in Biotechnology 20 (12,Suppl):S3−S7,2002)。
【発明の開示】
【発明が解決しようとする課題】
【0006】
本発明では、異なる試料集合間で存在量が異なる検体を選択的に識別するために採用できる質量分析法データ分析手法を特徴とする。採用される手法では、個々の試料と試料集合の間の質量電荷比(「m/z強度対」)に関連付けられた信号に対する変化の統計的有意性を決定する。統計的有意性に基づき、検体レベルの差を示す可能性のある変化が識別される。これらの信号の強度に基づき、検体存在量の比が決定され得る。
【0007】
試料集合間の検体レベルの変化以外の要因による所定のm/zでの信号のバラツキはノイズとして取り扱われる。ノイズは、それぞれの試料集合内の生物学的または化学的なバラツキ、および計測器で行われる測定に内在する変動性を含み得る。
【0008】
「試料集合」は、分析目的のために1つにまとめられた1つまたは複数の試料の集合体である。特定のグループ分けは、一般に、1つまたは複数の共通の特性を持つ試料を伴う。共通の特性としては、例えば、試料の入手先、試料の知られている属性または試料の出所、および実験条件がある。
【0009】
試料集合は、「標準」とすることができ、これは、いかなる検体をも含まないか、または知られている量の知られている検体を含む。標準は、異なる試料集合と比較され、異なる試料集合が特定の検体を含むかどうかを判定することができる。
【課題を解決するための手段】
【0010】
そこで、本発明の第1の態様では、2つまたはそれ以上の試料集合間の1つまたは複数の検体のレベルの差を識別するための質量分析法に基づく方法を特徴とする。この方法は、
a)スペクトルは、m/z強度対を含み、m/z強度対は、m/z識別子およびm/z識別子に関連付けられた信号を含む、2つまたはそれ以上の試料集合に対する個別試料のスペクトルを取得する工程と、
b)m/z強度対からの1つまたは複数のm/z識別子のそれぞれのm/z識別子について、それらのスペクトル内の対応する信号間の関係を判別する工程と、
c)試料集合内および試料集合間の両方の信号分布に基づく、信号が試料集合間の異なるレベルを持つ検体から生じる可能性の尺度である順位または値をそれぞれの関係に割り当てる工程とを含む。工程(c)では、関係の統計的有意性を評価する。
【0011】
本発明の他の態様では、2つまたはそれ以上の試料集合間の1つまたは複数の検体のレベルの差を識別するためスペクトルを分析するコンピュータプログラムを特徴とする。このプログラムは、本明細書で説明されている分析を実行するための命令をコンピュータ可読媒体に置く。
【0012】
(複数の)m/z識別子および、もしあれば、1つまたは複数の検体のレベルの差に対応する(複数の)指標変数値は、(複数の)検体を「識別する」と言われる。この方法で識別された検体は、さらに、タンデム質量分析、データベース検索、および化学分析などの他の分析法により特徴付けられ得る。識別された検体の相対存在量も、定量化できる。
【0013】
「指標付きスペクトル」は、試料について得られたm/z強度対および対応する指標変数値の集合である。実施例は、LC−MS(例えば、高性能液体クロマトグラフィMS、逆相および順相クロマトグラフィMS、超高圧液体クロマトグラフィMS、サイズ排除クロマトグラフィMS、陰イオンまたは陽イオン交換クロマトグラフィMS、電気泳動MS、およびキャピラリゾーン電気泳動MSを含む)、多次元LC−MS、多次元LC−MSn、GC−MS(ガスクロマトグラフィMS)、気相イオン移動度MS、または単一試料上で1回限りのその他のハイブリッドMS手順を実行して得られるデータを含む。指標変数の例としては、クロマトグラフ分離時間、1つまたは複数の他の検体に対する親和性、生物活性または読み出し値(例えば、クロム放出分析)、1つまたは複数の異なる溶液中の溶解度、さまざまな媒体内の移動度、等電点、温度、および反応剤または治療薬の濃度がある。
【0014】
「随意指標付きスペクトル」は、1つまたは複数の指標変数を持つ場合も持たない場合もあるスペクトルである。断りのない限り、「スペクトル」および「複数のスペクトル」という用語は、「随意指標付きスペクトル」および「随意指標付き複数のスペクトル」を指す。「スペクトル集合」という用語は、試料集合に対し得られる随意指標付きスペクトルの集合体を指す。指標変数を持たないデータの一実施例は、MALDI(Matrix Assisted Laser Deionization)質量分析法で生成される。
【0015】
m/z強度対は、「強度」(または「信号」)および質量電荷「識別子」を持つ。m/z強度対は、ときには、質量スペクトルの「ピーク」と呼ばれることもある。
【0016】
強度は、検出されるイオンの個数を反映する任意の尺度である。このような尺度の例として、カウント数、イオンカウント数、毎秒カウント数、および相対存在量がある。強度は、ノイズと検体成分の両方の寄与分を含む。特定の場合において、ノイズまたは検体成分は0とすることも可能である。
【0017】
質量電荷「識別子」は、1つまたは複数の質量電荷比(「m/z」)に変換またはそれから派生され得る任意の数量またはm/zに関係する尺度とすることができる。m/zに関係する尺度の例として、分子量、モノアイソトピック質量、平均質量、飛行時間、共鳴周波数、特性周波数、走査電圧、または走査周波数がある。
【0018】
m/z値から識別子への変換は、それにも関わらず、ユーザが互いに区別することを望むm/z値を別のm/z値にマッピングする多対一関数とすることも可能である。このような関数の例として、重心計算、指定精度への丸め、中央値、平均値、または重なり合わない値、ビン分割、または任意の識別子の集合上の幾何平均がある。
【0019】
複数のm/z値が特定の識別子にマッピングされる場合、ユーザ選択関数を使用して、その識別子にマッピングされるm/z値の部分集合に対応する信号を組み合わせることが可能である。この関数は、例えば、総和、畳み込み、中央値、幾何平均、または対数平均とすることが可能である。
【0020】
「順位または値」は、スペクトル集合間で変動する信号の有意性の統計的尺度を提供する。順位または値は、例えば、統計的検定からのp値、またはp値の集合内のp値の順位、または差の集合内の差の順位、または対数尤度、またはそのような値の単調関数とすることが可能である。
【0021】
異なる実施形態では、この関係は、少なくとも10個、少なくとも100個、少なくとも1000個、少なくとも10000個、少なくとも100000個、少なくとも1000000個、少なくとも10000000個のm/z識別子について判別され、それぞれのm/z識別子は、上の工程(b)の前に決定論的に指定され、および/またはそれらの関係は、m/z識別子の個数および/または異なる使用される指標変数値の個数の高々多項式、高々2次式、または高々線形時間対数線形式で増大する計算回数を使用して見つけられる。他の実施形態も本明細書で説明されている。
【0022】
本明細書で使用されているような「中心傾向」としては、平均値または中央値またはさまざまな他の数量による重み付けされた平均値または中央値、または刈り込み平均値または指定された百分位範囲内に収まっている値の平均値などの中心傾向のロバストな推定量がある。中心傾向の他の統計的尺度は除外されない。
【0023】
特定の用語が相互排他的でない限り、「または」と言及した場合、これは、いずれか、または両方の可能性を示す。ときおり、「および/または」などの語句は、いずれか、または両方の可能性を強調するために使用される。
【0024】
「含む、備える」などの制約のない用語への言及では、要素または工程を追加することができる。ときおり、「1つまたは複数の」という語句は、追加要素または工程の可能性を強調するために制約のない用語とともに、または制約のない用語を伴わずに使用される。
【0025】
特に断りのない限り、「1つの、ある」などの用語は、これらの用語の付かない場合も含めて、1つのものに限定されない。例えば、「(1つの)セル」は、「複数のセル」を除外しない。ときおり、1つまたは複数のなどの語句は、複数のものの存在を強調するために使用される。
【0026】
本発明の他の特徴および利点は、異なる実施例を含む本明細書で与えられている追加説明から明らかである。与えられている実施例は、本発明を実践するうえで有用なさまざまな構成要素および方法を例示している。これらの実施例は、請求されている発明を限定しない。本開示に基づき、当業者は、本発明を実践するうえで有用な他の構成要素および方法を識別し採用することができる。
【発明を実施するための最良の形態】
【0027】
本明細書で説明されているデータ分析法は、異なる試料集合間で存在量が異なる検体を選択的に識別するために採用できる。採用される手法では、個々の試料と試料集合の間のスペクトルのm/z強度対の変化の統計的有意性を決定する。統計的有意性に基づき、検体レベルの差を示す可能性のある変化が識別される。
【0028】
質量分析法による分析法は、異なる試料内の検体変化を、検体が少量しか存在しない場合であっても、正確に検出するために採用できる。これらの手法は、蛍光性、放射性、親和性、同位体、または共有結合または結合化学質量タグ付けまたは準備などの特別なラベルに依存しない。しかし、そのようなラベルは、さらに方法の感度および特異性を高めたり、または他の何らかの手段により、試料集合間で検体を区別するために必要な属性を変えるために使用することができる。
【0029】
一般に、本発明の方法の感度および特異性は、スペクトルを取得するために使用される計装の分解能およびダイナミックレンジの限界までの混合物の複雑さとは無関係である。正規化工程が計算に含まれる場合、混合物の複雑さは、指標変数のそれぞれの組み合わせで正規化定数を変化させる範囲でのみ関与する。計測器の分解能は、m/z識別子の可能な曖昧性を通じて結果に影響を及ぼす。計測器のダイナミックレンジは、計測器の範囲の上下限付近の信号の測定の可能な曖昧性を通じて結果に影響を及ぼす。
【0030】
I.データの取得
さまざまな試料集合のスペクトルについては、実験を1回または複数回実行するか、または学術誌またはそのようなデータを提供するWebまたはftpサイトなどの他の手段を通じて入手することが可能である。スペクトルは、さまざまな種類の検体の変化を見るために取得され、状況に応じて、指標付けされ得る。
【0031】
「検体」は化学物質である。検体の例として、元素、化合物、複合体、および混合物がある。検体は、クロマトグラフ分離時間、1つまたは複数の他の検体に対する親和性、生物活性または読み出し値(例えば、クロム放出分析)、1つまたは複数の異なる溶液中の溶解度、さまざまな媒体内の移動度、等電点、温度、および反応剤または治療薬の濃度のうちの1つまたは複数などの指標変数を与えることが可能な物理的または生物学的特性を持ち得る。指標変数は、1つまたは複数の連続変数、または1つまたは複数の離散順序付き変数であってよい。「指標」または「複数の指標」は、本明細書では、1つまたは複数の指標変数をそれぞれ表すためにも使用される。
【0032】
A.質量分析法
質量分析法は、イオン化可能な物質のm/z強度対を測定する手法である。検体の1つまたは複数のm/z強度対は、1つまたは複数の異なるm/z強度対を持つ他の物質から検体を区別するシグネチャを備える。
【0033】
検体のm/z強度対の強度は、計測器の応答範囲内の検体の存在量とともに変化する。質量分析法データを生成するための手法および機器は当業ではよく知られている。採用できるイオン化法の例としては、電子スプレーイオン化、マトリックス支援レーザー脱離/イオン化、表面増強レーザー脱離/イオン化、電子衝撃イオン化、化学イオン化、および光電離がある。(Glish et al.,Nature Review Drug Discovery 2:140−150,2003,Petricoin et al.,The Lancet 359:572−577,2002。)質量分析器の実施例としては、Protein Biology System 2 SELDI−TOF質量分析計(Ciphergen Biogystems社、カリフォルニア州フリーモント)、四重極マスフィルタ、四重極イオントラップ質量分析計(ThermoFinnigan社、カリフォルニア州サンノゼ)、三段四重極質量分析計、飛行時間型質量分析計、フーリエ変換イオンサイクロトロン共鳴質量分析計、およびこれらすべてのハイブリッドがある。
【0034】
異なる実施形態では、方法の性能を改善するために、さまざまな形で信号が変換され得る。個々の信号、または信号の分布の要約(平均値または分散)も、そのように変換され得る。可能な変換は、対数を取ること、正または負の何らかのべき乗を取ること、例えば、平方根または逆数を取ること、またはアークサインを取ることを含む(Myers,Classical and Modern Regression with Applications,2nd edition,Duxbury Press,1990)。
【0035】
B.試料集合
試料集合は、分析のためにグループにまとめられた1つまたは複数の試料を含む。多数の異なる種類の分析を実行するように、特定の試料集合のグループ分けおよび異なる試料集合の選択が可能である。グループ分けは、データ収集前、収集中、または収集後に決定できる。グループ分けは、データに基づいて動的決定できる。
【0036】
本明細書で説明されている分析法は、生物試料および環境試料などさまざまな種類の試料について実行できる。生物試料は、生体物質を含む。生物試料は、単細胞生物または多細胞生物などの異なる供給源から入手可能である。多細胞生物の例としては、植物および動物がある。
【0037】
「動物」は、動物界の一員である。動物は、人間、家畜(例えば、牛、豚、馬、または鶏)、ペット(例えば、猫または犬)、またはモデルシステムとして使用できる動物(例えば、ネズミ、モルモット、犬、または猿)などの哺乳類であるのが好ましい。
【0038】
生体物質は、ウイルス、単細胞、または多細胞生物内に存在するウイルス性、細胞性、または細胞外成分、ならびに細胞および動物により分泌される物質を含む。細胞物質は、一般に細胞、および細胞亜分画の抗生物質を含む。
【0039】
多細胞生物から得られる生体物質は、細胞物質、および多細胞生物の他の部分からの物質を含む。多細胞生物の他の部分からの物質の例としては、例えば、細胞組織、体液(例えば、血液、脳脊髄液、尿、唾液、精液、リンパ液、糞、汗、痰、および粘液)、排泄物、にじみ出る、または分泌される物質、および/または肝臓、脾臓、腎臓、筋肉、肺臓、心臓、脳、またはその他の臓器もしくは臓器の構成要素(例えば、扁桃体、副腎、または海馬)などのサブパーツから作られる製剤がある。
【0040】
生物学的に重要な化合物としては、ペプチド、炭水化物、脂質、核酸、医薬品、薬物代謝産物、およびさまざまなその誘導体がある。それらの誘導体は、修飾物質または断片を含む。例えば、ペプチド誘導体は、翻訳後修飾または共翻訳修飾ペプチドの断片を含む。
【0041】
ペプチドは、生体分析用の好ましい検体である。「ペプチド」と記述した場合、これは、ペプチド結合により結合された1つまたは複数のアミノ酸を示し、サイズまたは機能の制限を与えない。ペプチドの例としては、酵素、構造タンパク質、およびホルモンがある。
【0042】
分析に適しているさまざまな試料集合の例を以下に示す。
1)異なる量の特定の化合物でそれぞれ処理された、一方の量が例えば化合物ではあり得ない、2つまたはそれ以上の試料集合、
2)異なる化合物でそれぞれ処理され、一方の集合が化合物で処理されない、2つまたはそれ以上の試料集合、
3)異なるレベルの疾病または疾患にそれぞれ関連付けられている、一方のレベルが例えば健康体試料集合であり得る、2つまたはそれ以上の試料集合、
4)異なる種類の、またはレベルの環境刺激に曝された、一方の種類またはレベルが、例えば、刺激の欠如であり得る、2つまたはそれ以上の試料集合、
5)少なくとも1つの試料集合が所定のまたは知られているレベルの(例えば、濃度0のもあり得る)1つまたは複数の特定の検体を持ち、少なくとも1つの試料では、少なくとも1つの検体の存在量が知られていない、2つまたはそれ以上の試料集合、
6)1つまたは複数の表現型によりそれぞれ異なる2つまたはそれ以上の試料集合、
7)1つまたは複数の遺伝子により、または1つまたは複数の遺伝子の表現または形態により異なる2つまたはそれ以上の試料集合、
8)一方の治療法がコントロールであり得る、異なる複数の治療法を受ける2つまたはそれ以上の試料集合、
9)異なる時(例えば、化学薬品の導入後の異なる時)に評価される2つまたはそれ以上の試料集合、
10)合成または物理的修飾(例えば、共有結合化学、非共有結合化学、放射性、電磁、機械、または重力)の面で異なる化学薬品の混合物(純粋または複合)からなる2つまたはそれ以上の試料集合、
11)さまざまなレベルの(場合によって0レベルを含む)生体物質またはその他の物質(ハイスループットスクリーニングでの使用を含む)に曝された化学薬品の混合物(純粋または複合)からなる2つまたはそれ以上の試料集合、
12)状況に応じて化学的または物理的に修飾されたさまざまなレベルの(場合によって0レベルを含む)生体物質またはその他の物質(ハイスループットスクリーニングでの使用を含む)に曝された化学薬品の混合物(純粋または複合)からなる2つまたはそれ以上の試料集合、
13)クロマトグラフィ分離からさまざまな溶出時間にわたって、または他の技術の他の指標変数範囲にわたって試料を収集することにより得られるような、分離プロセスを通じて単一の化学薬品の混合物から誘導された2つまたはそれ以上の試料集合。これらの試料は、物理的に分離され、その後、上記の他の項目の場合のようにプロセスを通して実行され得るか、または例えば、LC−MSランの溶出時間を変換し、時間範囲の集合からのスペクトルと時間範囲の他の集合からのスペクトルとが比較されるようにすることにより、電子的に処理され得る。(人間または標準信号検出ソフトウェアにより)無視できるくらい少ない検体が含まれるとみなされる範囲の集合を使用することで「ブランク」試料を表すように時間範囲の1つが選択された場合、変換では、すべてのスペクトルを、それらが注目するそれぞれの時間に測定された複製であるかのように処理し、(例えば)「ブランク」として機能するように選択された時間範囲に100個の測定済みスペクトルが含まれていた場合に、その時間範囲内のそれぞれの時間がそこで「ブランク」状態の100個すべての測定済みスペクトルを持つとみなすようにすることが可能である。
【0043】
ある試料集合上で取られるスペクトルの数を増やすと、検体のレベル差の検出を正確に行うことができる。スペクトルの数は、それぞれの試料または試料のいくつかの部分集合上で反復スペクトルを抽出するか、一方または両方の試料集合内の試料の個数を増やすか、またはそれら2つの方法を組み合わせることにより増やすことが可能である。さまざまな実施形態において、少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも30個、および少なくとも40個の異なるスペクトルが試料集合毎に分析される。
【0044】
異なる試料の個数を増やすと、試料集合の異なる構成要素間のバラツキ(計測器により行われる測定に内在するバラツキとは反対に)を考慮できるという利点がさらに得られる。これにより、試料集合の多数の構成要素間で一貫している差を見つけるプロトコルが使いやすくできる。このようなプロトコルの1つの応用では、癌などの病状に関連する差を母集団で表される他の表現型の差から区別する。さまざまな実施形態において、スペクトルが得られる試料集合内の異なる試料の個数は、1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、または少なくとも30個である。
【0045】
この方法は、ちょうど2つの試料集合がある以下の実施例で示される。試料集合が2つよりも多い場合については、2つ一組の分析をすべて実行することにより分析できる。この場合、ここで示されている検定のいくつかの多次元一般化が使用できる。例えば、t検定の代わりに分散分析を使用し、ウイルコクソン順位和検定の代わりにクラスカル検定を使用できる。
【0046】
II.分析法
選択的識別は、試料集合内と試料集合間の両方のm/z強度対バラツキを使用してm/z強度対内の差の統計的有意性を判定することにより実行される。試料集合内バラツキに関する情報を取得する好ましい方法は、それぞれの集合内の複数のスペクトルを用意し、バラツキを直接測定することである。複数のスペクトルが利用できない場合、仮定された分散構造を使用して進めることが可能である。
【0047】
仮定された分散構造は、すでに存在しているデータまたは単一の利用可能なスペクトル内の連続するデータ点の分析に基づいて、定量的なものとすることが可能である。また、例えば、測定限界に関連付けられた分散が何らかの定数値(指定される必要はない)と等しいと仮定して、定量的とすることもできる。このような仮定の下で、有意検定に基づいて検出された差の順位は、差の絶対値に基づく検出された差の順位と同じである。
【0048】
一般に、信号バラツキの統計的有意性を判別するための関係を与えるのに、m/z強度対の1つまたは複数の属性が使用可能である。例として、ビン分割または平滑化信号、および線形または非線形フィルタ処理信号がある。
【0049】
試料集合間の存在量の異なる検体を識別するさまざまな実施形態は、(A)データのグリッド表示、(B)アライメント、(C)正規化、(D)差の評価、(E)時間持続、(F)再並べ換え、(G)分割、(H)再アライメント、(I)感度および特異性の工程に関して例示されている。工程(D)は、スペクトル集合内およびスペクトル集合間のm/z強度対に対する変化の有意性を判別するために採用されることができる手法を例示している。工程(A)、(B)、(C)、(E)、(F)、(G)、(H)、および(I)は、実行可能な追加実施形態の実施例を示している。
【0050】
試料集合間で存在量の異なる検体を識別する異なる実施形態の実施例は、図1〜8に示されている流れ図により概略が例示されている。図1Aおよび1Bは、プロセス全体に対する工程を例示している。図2は、「差を見つける」に使用できる工程の実施例を示している。図3は、「結果のグループ化」に使用できる工程の実施例を示している。図4は、「偽陽性のフィルタ処理I」に使用できる工程の実施例を示している。図5は、「偽陽性のフィルタ処理II」の工程の実施例を示している。図6は、「出力および反復モジュール」に使用できる工程の実施例を示している。図7Aは、「条件内でスペクトルのアライメント」モジュールに使用できる工程の実施例を示している。図7B、7C、および7Dは、「ランドマークを見つける」および「ランドマークをフィルタ処理する」サブモジュールとともに「条件をまたがってスペクトルのアライメント」モジュールに使用できる工程を示している。図8は、偽陽性のフィルタ処理の代替え方法として使用できる工程の実施例を示している。
【0051】
この節および図1〜8に例示されている実施形態は、大半が、時間指標を含むm/z関係データを採用する。本明細書に記載されている開示に基づき、時間指標を含まない変更形態、時間指標および1つまたは複数の追加指標を含む変更形態、およびいずれも時間指標でない1つまたは複数の指標を含む変更形態をはじめとする多くの変更形態が可能である。
【0052】
A.データのグリッド表示(「ビン分割」とも言う)
データ分析は、関係するm/z値および/または指標を持つデータをビン分割でまとめることにより行いやすくなる。「関係する」とは、値が類似しているか、または実験的要因に関係する合成または異化経路、経路調整、または属性などの他の関係を通じて関係付けられていることを意味し得る。ビン分割は、データ集合間の直接的比較を行いやすくするうえで有用である。反復検体測定または1つまたは複数の試料集合内の異なる試料について行われる検体測定は、必ずしも、全く同じ指標変数で実行されることも、または全く同じm/z比を測定することもなく、直接比較を複雑化する可能性がある。
【0053】
ビン分割は、液体クロマトグラフィ質量分析法(「LC−MS」)で生成された強度データ、時間、およびm/zデータを使用して例示することができる。他の指標変数とともに(またはなしで)類似の手法を採用することができる。
【0054】
LC−MSを使用することで、m/zおよび時間測定結果は、ユーザ指定レベルに丸めることができる。異なる実施形態では、測定結果は、最近単位またはm/zについては約0.5および時間については約0.05または約0.025に丸められる。その結果丸められるm/z識別子の集合は、「ビン」の集合である。丸めは、m/zデータとm/z識別子との間の多対一関係を作成する一手段である。
【0055】
ビン分割の細かさまたは粗さは、例えば、質量分析者の見解、使用される質量分析計の動作特性に関する情報に基づいて予め設定されるか、または実験の前または後にクロマトグラムまたはスペクトルを目視検査して設定されるようにできる。集合からの複数の信号が同じグリッド点で終わっている場合、それらは、結局、そのグリッド点で信号全体を与えることになる。
【0056】
一様なグリッド表示は必要ない。ビンの幅は、時間、その他の指標変数、またはm/zに依存し得る。非一様グリッド表示は、例えば、非一様な拡散効果(例えば、時間ビンは時間とともに幅が増大する)、または非一様な質量精度(例えば、m/zビンはm/zとともに幅が増大する)について補正する場合に役立つと考えられる。非一様なビン分割を実行する方法の1つでは、ビン分割の前に指標変数またはm/zを変換する。例えば、変換された空間内でビン幅が一様なm/z上で対数変換が使用される場合、それぞれのビンは、m/zに比例する、m/z測定結果の典型的精度に対応する。非一様なビン分割は、その範囲全体にわたって非一様な間隔で並べられた、例えば対数尺度の間隔または幾何学的間隔で並べられるか、またはビン内の信号に依存する間隔で並べられたm/z識別子を使用して実行することが可能である。
【0057】
ビン分割の代替え手段として、ビン分割の前に、またはビン分割と同時に、利用可能な信号のフィルタ処理が可能である。線形フィルタ処理では、それらの信号は時間方向だけ、m/z方向だけの任意の(しかし、一般的には時間およびm/zとともに減少する)カーネル、または時間およびm/zの2次元カーネルとの畳み込みが可能である。1または2次元カーネルは、対称的であるか、または非対称性を持つことも可能である。最大n次元までのカーネルは、n−1個の指標変数とともに(m/zのほかに)使用され得る。
【0058】
フィルタ処理の他の実施例としては、計測器点拡散関数のブラインドデコンボリューションで使用されるような2次以上の高次演算子などによる非線形フィルタ処理がある。(Juang et al.,IEEE Trans.Acoust.,Speech,Signal Processing,vol.ASSP35,pp.947−954,1987、Gillespie et al.,IEEE TRANSACTIONS ON SIGNAL PROCESSING,49:485,2001、J.Pitton et al.,IEEE Transactions on Signal Processing 43:1996−1998,1995、Fang et al.,IEEE Transactions on Signal Processing 43:2582−94,1995。)線形および非線形フィルタ処理は両方とも、オリジナルの、または変換されたm/zおよび/または指標変数上で実行できる。実施例では、対数変換されたm/z上で固定幅ハミング窓を使用して精度ベースの信号分布を滑らかに取り込む。このような変換および線形または非線形フィルタの使用は、2つの条件で検体の相対的数量を測定する分析をその後行うために正規化および/または計算されたおよび/または測定された較正により補正されなければならない。
【0059】
異なるm/z値(測定されたデータまたは識別子)は、さらに、ランダムに(確率的探索法の一部として)または先験的に信じられる関係とのm/z値の組み合わせについて、組み合わせることも可能である。このような関係の実施例として、同位体、タンパク質またはペプチドの共翻訳または翻訳後修飾、DNAのメチル化、および/または代謝もしくはその他の経路関係がある。m/zの(場合によっては線形または非線形の重み付けされた)寄与は、単一の統計量として結合され、単一のm/z識別子として処理されるであろう。このような「組み合わされた」m/z識別子は、データ内の別の次元として処理され得る(m/zの単位で、そのようなものとして処理される)。したがって、このような組み合わされたm/z値(および対応する「組み合わされた検体」)に関する分析は、他の方法で処理されたm/z値の分析に加えて、またはそれと並行して実行することが可能である。
【0060】
B.アライメント
異なる試料から生成されるスペクトル、または単一試料から生成される異なるスペクトルは、試料間のバラツキを考慮してアライメントを取ることができる。例えば、反復LC−MSスペクトルにはかなりのバラツキがあり得る。実験中にある程度のバラツキが入り込む可能性がある。そのようなバラツキの可能な発生源の1つは、流れまたはクロマトグラフ媒体の変化または試料組成の違いにより生じる可能性がある、溶出時間の変化である。
【0061】
B.1 システマティックなシフト
2つの試料間の溶出時間にシステマティックなシフトがある場合、信号の対応する時間座標を調整して、そのシフトを補正しなければならない。例えば、システマティックなシフトは、2つの試料の最大構成要素が類似するとの仮定に基づいて、溶出時間がスペクトルの2つの集合間で適切にアライメントされたときに信号間の最大相関に達するように補正することが可能である。
【0062】
スペクトルの集合間のシステマティックなシフトに対する手順補正の例は以下を伴う。
1)シフトのない、および正および負の時間シフトの小さな集合での信号の平均値(スペクトル集合上)間の相関を測定し、例えば、それぞれの方向に最大10個の時間ステップまでシフトを計算し、適当なp値(例えば、0.75)を使用して有意性を定義する。これらのパラメータの選択は、注目している指標変数の精度に関する知識に基づくことが可能であり、また類似対類似の比較を実行することにより知らせることが可能である。これらの相関の計算をスピードアップし、極端に大きな値の過剰な影響を避けるために、信号が両方のスペクトル集合に対するすべてのm/z強度対の第90百分位数から第95百分位数までの間にある時間と質量のみを考慮することが可能である。第90百分位数と第95百分位数の上下限は、ユーザ定義可能なパラメータである。
2)それぞれの相関がシフトなしの相関よりも著しく大きいかどうかをチェックする。
3a)シフトされた相関がシフトされていない相関よりも著しく大きくない場合、互いに関して2つの条件をシフトせずに先へ進む。著しく大きい場合、
3b)最大の著しく高い相関を与えるシフトを選択する。
【0063】
溶出時間のシフトに関するアライメント補正は、例えば、以下の第II節I.「感度および特異性」で概要が述べられている手順により決定されるような特定のデータ集合について決定された測定済みの高い偽陽性率に照らして、ほとんどメリットはないと考えられるであろう。
【0064】
溶出時間のシフトに対する補正の他の方法は、識別された差を調べて溶出時間のシフトから生じるように思われるものを識別し、見かけの時間シフトを測定し、2回目の分析でそれらを補正することを伴う。再アライメントの手法の実施例については、以下の第II節H.「再アライメント」で説明されている。
【0065】
B.2.ランドマークを使用したアライメント
溶出時間のシフト、2つの試料から生じるスペクトル間のシステマティックなシフト、または単一の試料から生じる複数のスペクトル間のシフトに対する検出および補正の追加方法は、データ集合内で「ランドマーク」特徴のアライメントを行うことを伴う。ランドマークは、試料内に知られている属性を持つ特定の1つまたは複数の物質をスパイクさせ、それらの物質が、溶出時間などの指標変数の(おおよそ)知られている「期待」値で知られている質量対電荷比で容易に検出可能な信号を与えることを予期できるようにすることにより作成することができる。ランドマークは、さらに、後述のように、データ集合を調べて適切な特徴を見つけることにより見つけることも可能である。ランドマークが与えられると、異なるスペクトルは、線形または非線形または区分的多項式変換でランドマークが並ぶようにそれぞれのスペクトルに対する指標変数を変換することにより、アライメントされることが可能である。
【0066】
スパイクされたランドマーク
物質を試料中にスパイクすることによりランドマークが作成される場合、それらの物質は、適切な属性を持っていなければならない。非常に望ましい適切な属性の1つは、スパイクから生じるランドマーク信号のすべての指標変数の期待値がそれぞれの指標変数に対する観測値の範囲にわたって分布しなければならないということである。他の適切な属性としては、例えば、注目する検体の検出と反応する、または注目する検体の検出に他の何らか形で干渉すること、容易に、経済的に入手可能であること、および低レベルで検出可能であることの確率が低いことが挙げられる。トリプシンまたは他の酵素の自己消化生成物などの試料調合で使用される試薬の自然発生する反応からの予想される信号も使用可能である。
【0067】
スパイクなしのランドマークを見つける
ランドマークがデータ集合内に見つかる特徴に基づいている場合、それらの特徴は、例えば、固定された百分位の観測されたピーク振幅よりも大きい振幅を持つピークである場合がある。ここで「ピーク」とは、クロマトグラフピーク識別用のアルゴリズムを使用して定義されたような局所的最大値および周辺領域(例えば、m/z識別子次元および時間の)である。
【0068】
例えば、「ピーク」は、観測強度の固定された百分位よりも大きい、または最大観測強度の固定された一部分よりも大きい強度の連続する(指標変数内の)集合として定義することが可能である。これらの強度は、指標変数の十分大きな集合についてしきい値よりも高いままであることを要求される可能性がある(例えば、指標変数が時間の場合は、少なくとも8秒間、または他の何らかのユーザ指定の時間の長さ)。選択された特徴はそれぞれ、それぞれの個別データ集合内、またはデータ集合の可能な限り大きい一部分の中に現れるのが理想的である。
【0069】
特定のランドマークがスペクトルから欠けている場合、それは、そのランドマークが存在する他のスペクトル上の位置(指標空間)および振幅(強度)の中心傾向の尺度で帰属され得る。以下で定義されている方法のいくつかについては、欠測ランドマークは、スキップされるだけでよく、この帰属を必要としない。
【0070】
ランドマークがデータ集合内に見つかる特徴に基づいている場合、選択された特徴は、実験で使用されるそれぞれの指標変数の範囲にわたって分布することが望ましい。これは、いくつかの方法により実行可能である。1つの方法では、完全データ集合内で特徴を見つけて、その後、それぞれの指標変数に対する値の望ましい分布を与える特徴を選択する。他の方法では、そのデータ集合を、それぞれの指標変数の値の範囲を包含する複数の部分集合に分割し、それぞれの部分集合内のそれぞれの指標変数の値の所望の分布を与える特徴を見つけ、特徴の集合を組み合わせる。指標変数のオーバーラップ範囲を使用して、指標変数の範囲の境界のところ、または近くで有用な特徴を欠落しないようにすることも可能である。
【0071】
部分集合を定義する指標変数の範囲は、さまざまな方法、例えば、それぞれの指標変数の観測された範囲を均等に特定の個数の部分集合に分割するか、またはデータ依存の方法では、ピークの総数(上で定義されたような)の所定の割合、または特徴の総数の所定の割合、または総信号の所定の割合が所定の範囲内に含まれる(「総」とは、m/zおよび/または指標変数上での積分を意味する)ことを要求することにより決定され得る。
【0072】
関係するランドマークのグループ分け
単一の検体の異なる同位体および/または電荷状態から生じているように見える複数のピークからの情報をまとめることによりランドマークの集合を減らすことは効果的である可能性がある。このような「マルチピーク」グループは、以下の節F「再並べ換え」で説明されているように識別されることが可能である。このようなグループは、単一のピーク、または最大信号が含まれるグループ内のピークに基づく指標値を持つ(m/z識別子、指標)対、グループ内のピークの平均指標値、またはグループ内のピークの指標値の信号重み付け平均により表すことが可能である。その後、それぞれのグループは、単一ランドマークとみなされる。このようなランドマークは、例えば、成分ピークの強度を総和することにより再アライメントを計算する際に特別な重みを与えられる(振幅がランドマークの選択または使用の補助に使用されている場合)。
【0073】
複数のランドマークからの情報の再調停
複数のランドマークが指標変数の単一範囲内に見つかる可能性がある。分かりやすくするため、また一般性を失うことなく、この説明では溶出時間を例として使用する。複数のランドマークが特定の時間範囲内に見つかった場合(上述のようにグループ化の後に)、適切なシフトのさまざまな推定量を与えることが可能である。1つのランドマークで、例えば、基準時間に関するシフトとして4秒を示唆するが、近隣ランドマークは、1秒のみのシフトを示唆するか、または全くシフトを示唆しない。基準時間の定義(つまり、スペクトルのアライメントで基準とする)については、後述する。
【0074】
ランドマーク時間の集合および関連するシフトが与えられた場合、1つのスペクトル内の時間を基準時間にマッピングする単一の平滑シフト関数を得るために、当業でよく知られている区分的線形、区分的多項式、スプライン、および類似の補間法が使用されることができる。この補間プロセスは、状況に応じて、m/z識別子、振幅、および/または持続時間などのランドマーク特性を使用して、要約関数への寄与に重み付けすることができる。
【0075】
溶出時間および割り当てられたピーク時間のある量のバラツキは、溶出時間の物理的バラツキと強度のバラツキのため不可避である。ユーザ指定しきい値よりも小さな溶出時間のシフトは、例えば、予想されるバラツキのユーザ推定値に基づくしきい値とともに、無視することが可能である。極端な場合には、互いに接近している2つのランドマークの順序は、異なるスペクトルにおいて逆転される可能性があり、このため、すべてのランドマークをその対をなす片方にマッピングする単一の順序保存変換を見つけることは不可能である。これは、使用されるしきい値が実際のバラツキよりも低かったか、または分析されるデータに予想しない問題が生じていることを示す可能性がある。このような場合、ユーザは、おそらく、そのような衝突が発生したことを通知されるであろう。
【0076】
アライメントの基準:個別スペクトルおよび合成代表
スペクトルは、互いに、または他の何らかの標準に合わせてアライメントすることが可能である。アライメントは、試料の連続する対の間で繰り返し対毎に実行されることが可能である。例えば、スペクトル集合がN個の試料を持つ場合、1は2に、2は3に、...N−1はNに、Nは1にと、停止基準に達するまでアライメントが続けられる。その停止基準は、例えば、試料集合内のすべての試料を通る反復の一定回数、またはk回目とk+1回目の反復の間のワーピングパラメータの一定割合よりも小さい変化などのワーピングの収束の程度とすることも可能である。
【0077】
それとは別に、すべてのスペクトルを単一代表にアライメントすることが可能である。例えば、代表は、他のスペクトルと共通するほとんどのランドマーク、または他のすべてのスペクトルまでの距離が最小のランドマークを持つ単一スペクトルとすることが可能である。選択されたスペクトルと他のスペクトルとの間の距離を計算するために、選択されたスペクトル内のそれぞれのランドマークと他のスペクトルのそれぞれの中の対応するランドマークとの間の距離(指標変数空間内の)を計算する。距離は、ランドマーク間距離のこの集合の中心傾向の尺度である。
【0078】
それとは別に、スペクトルは、さまざまなスペクトル内の適切なデータから作られた合成代表成分に合わせてアライメントされ得る。例えば、さまざまなスペクトルの部分から、実験に問題があるため特にノイズの多い、または信頼できないデータが得られた場合に合成代表を使用するのが望ましいと思われる。
【0079】
合成代表は、修飾されたスペクトルから構成されることも可能である。修飾は、ある基準を満たす0値への設定などの非線形変換を含むことが可能である(例えば、ピークからあるユーザ選択距離よりも遠い位置にある、または固定もしくはデータ依存のしきい値よりも大きいまたは小さいオリジナルデータ内の値を0に設定することができる)。
【0080】
アライメントの適用
ワーピング(アライメント)関数の適用は、オリジナルデータまたはビン分割データ上で実行されることが可能である。オリジナルデータ上で実行された場合、その結果のワーピングされたデータは、再びビン分割されなければならない。ビン分割データ上で実行された場合、その結果は、ビン間に再分配されなければならない。この再分配は、信号のすべてを計算されたビン番号に最も近いビンに入れることにより実行することが可能である。例えば、ビン35がビン32.3にマッピングされる場合、ビン35内の信号は、ビン32に入れることが可能であり、区間31.5≦マッピングされたビン番号≦32.5にもマッピングされる他のすべてのビンの信号についても同様である。
【0081】
それとは別に、これらの信号は、平滑化法を使用して再分配し、離散化ビン番号の変化を引き起こす計算されたビン番号内の小さなシフトから生じる潜在的人為的不連続を減らし、強度分布の有意なシフトを生じさせることが可能である。このような方法の1つは、隣接ビン上に信号を線形分配することである。ここで、ビン35が32.3にマッピングされる場合、その信号の30%は、ビン33に入れられ、70%は、ビン32に入れられる。一般に、ビンb>0にマッピングされる信号は、ビンfloor(b)に入れられる信号の(1−frac(b))およびビンceil(b)に入れられる信号のfrac(b)を持つことになる。
【0082】
スペクトル集合間のアライメント
スペクトル集合内でアライメントを実行することに加えて、またはその代わりに、スペクトル集合間でアライメントを実行すると都合がよい場合もある。これは、単一のスペクトル集合のアライメントを行う手順を使用して実行することが可能であるが、そのために、同じスペクトル集合内にあるかのように比較対象のすべてのスペクトル集合からの例を含める。この手法は、スペクトル集合が相違点よりも類似点の方が著しく多いと予想される試料から生成される場合に使用するのが最もよいと思われる。
【0083】
スペクトル集合間のアライメントは、さらに、状況に応じて、それぞれのスペクトル集合上でアライメントを別々に実行し、その後、アライメントされたスペクトル集合を互いにアライメントすることにより実行することも可能である。後者のアライメントは、それぞれのスペクトル集合から代表スペクトルを生成し、それらの代表間の適切なアライメントを見つけて、その結果得られたアライメント関数(または考察対象のスペクトル集合の複数の対がある場合には複数のアライメント関数)を使用し、考察対象のスペクトル集合内のすべてのスペクトルのアライメントを行うことにより実行されることが可能である。代表スペクトルは、複数のスペクトル集合のうちの1つからの無変更のスペクトル、またはスペクトル集合内のスペクトルの計算された組み合わせとすることが可能である。この目的のために使用され得る組み合わせの実施例については、スペクトル集合内のスペクトルがアライメント方法に関して上で説明されている。代表は、ビン分割またはビン不分割データのいずれかを使用して計算することが可能である。
【0084】
時間以外の変数についてのアライメント
時間以外の指標変数またはm/z上で類似のアライメントまたは再アライメント方法を実行すること可能であるが、後者はランの間、または計測器の間の適切な較正に、またはMALDI SELDIまたはプロファイルデータに対し潜在的に有用である。
【0085】
スペクトル集合内、ランドマークベースのアライメントの実施形態
一実施形態では、単一スペクトル集合内のスペクトルのアライメントは以下のように実行される。まず最初に、総時間(または他の指標)範囲をオーバーラップするまたはオーバーラップしない複数のセクションに分割する。それぞれの時間セクションにおいて、m/z識別子毎に、それぞれのデータ集合内で、強度の何らかの選択された分位(例えば、第95百分位、または百分位の一部分)よりも大きい強度の十分に長いラン(例えば、少なくとも8秒、または他の何らかの場合によっては振幅依存のユーザ選択長に及ぶ)を見つけることにより強度信号内のピークを見つける。
【0086】
曖昧にならないようにするため、データ集合毎に、現在考察対象の時間セクション内の単一ピークのみを持つm/z識別子だけを選択する(ユーザの選択に応じて、現在の時間セクション内に複数のピークがある識別子を使用することも可能である)。次に、どのm/z識別子に、考察対象のスペクトル集合内のすべてのスペクトル内の(または、全部見つからない場合には可能な最大個数のスペクトルの中の)選択されたピークがあるかを判別する。これらのピークのうちから、ユーザによって決定された望ましい特性を持つものを選択する。例えば、偶然現れる確率を最小にするため最高の強度を持つピークを選択するか、またはスペクトル間で最も一貫性のある強度を持つピーク、または単一前駆体からの同位体ピークまたは異なる荷電状態として関係しているように見える他のピークと組み合わさっているように見えるピーク、または最も一貫性のある時間を有するピーク、またはスペクトル間で時間のバラツキが最小のピーク、または可能な限り均等に時間セクションも覆うスペクトル間で時間のバラツキが最大のピークを選択でき、これは場合によっては選択された識別子のそれぞれの対の間のあるユーザ指定最小距離により決定される。このプロセスは、対応するm/z識別子を持つ「ランドマークピーク」の集合を定義している。
【0087】
次に、「基準」スペクトルとして、このスペクトル集合に対する他のスペクトル内の可能な最大の個数のm/z識別子(および対応するピーク)と一致する選択されたm/z識別子(および対応するピーク)を持つものを選択する。ランドマーク間の指標値の区分的線形補間を実行することによりそれぞれのスペクトルを基準スペクトルに合わせてアライメントする。それぞれ今説明したばかりの手順を使用してアライメントされた2つのアライメントされたスペクトル集合間の差が識別された後、オリジナル信号が見つかるそれぞれの(アライメントされていない)個々のデータ集合内の時間を決定するために、当業でよく知られている方法により、補間関数を使用できる。m/zおよび時間範囲内の一意性に基づく上のランドマークピークの選択では、2つの異なるスペクトルからのランドマークが、識別されるべきときに互いに対応するとおりに適切に識別されないことは全くあり得ず、さもなければ識別されるべきでないときに互いに対応する。
【0088】
追加実施形態の実施例
ランドマークを伴う追加実施形態の実施例は以下を含む。
1)スペクトルの集合内の信号は、1つまたは複数のランドマークのアライメントを行うことによりアライメントされるが、ただし、ランドマークはそれぞれ、特定のm/z識別子のところ、および指標変数の値の特定の集合のところのピークである。
2)少なくとも1つのランドマークは、スペクトルのそれぞれの中、または実質的大多数のスペクトルのそれぞれの中に見つかる。
3)複数のランドマークは、同じm/z識別子のところ、および指標変数のほぼ同じ集合のところでスペクトル集合内のすべてのスペクトル内に出現するピークを識別し、最大の強度値が出現する指標変数値の集合をランドマークとして使用することによりデータ内に見つけられる。
4)複数のランドマークは、同じm/z識別子のところ、および指標変数のほぼ同じ集合のところでスペクトル集合内のすべてのスペクトル内に出現するピークを識別し、それらの強度を指標変数の関数として平滑化し、最大の平滑化された強度値が出現する指標変数値の集合をランドマークとして使用することによりデータ内に見つけられる。
5)スペクトルは、ランドマークのそれぞれに関連付けられている指標変数値の集合を何らかの基準スペクトル内のランドマークに関連付けられている指標変数値の集合にシフトすることによりアライメントされ、中間の指標値は、補間(例えば、線形または多項式の)により割り当てられる。基準スペクトルは、例えば、(a)スペクトルの集合のランダムに選択された要素または(b)スペクトルの集合内の他のすべてのスペクトルまでの距離の最低の中心傾向を持つスペクトルとすることができるが、ただし、距離は、対応するランドマーク間のユークリッド距離またはマハラノビスの距離またはマンハッタン距離である。
【0089】
B.3.m/z上のデータの要約を使用したアライメント
スペクトルは、指標変数のみに依存し、m/z識別子には依存しないデータの何らかの代表を使用してアライメントすることができる。この代表は、例えば、平均値または中央値または百分位範囲の平均値またはそれぞれの(状況に応じてビン分割された)時間またはスペクトル集合内のスペクトル間の指標変数の他の集合で計算された他の点統計量とすることが可能である。一実施例は、スペクトルの基準ピーククロマトグラムの平均値またはスペクトルの平均値の基準ピーククロマトグラムである。基準ピーククロマトグラムの概念は、さらに、固定された1つまたは複数の時間ビン毎に、所定の時刻での最大信号の代わりに百分位範囲内のすべての信号の所定の百分位または平均値を含むように一般化され得る(通常、当業者であれば実践する)。また、上述のランドマークデータのm/z識別子独立の要約は、代表としても使用可能である。これらの代表は、その後、以下の第II節H「再アライメント」で説明されているように動的時間ワーピングを使用してアライメントすることができる。
【0090】
C.正規化
スペクトル間のバラツキの他の考えられる発生源では、異なる推定同一の試料が実際にはわずかに異なる量または濃度のさまざまな検体を含むことがあり得る。さらに、同じ試料の場合であっても、多くの要因が、試料装填から質量分析計への試料導入までのプロセスの効率に影響を及ぼす可能性がある。このような可能性は、データを正規化することにより処理できる。
【0091】
正規化は、実験プロセスにおけるある種の共通性のため正規化されるべきスペクトルまたは一単位として正規化されるべきスペクトルの集合を使用して計算される係数により信号を除算することにより実行できる。一般に、正規化係数は、対数、多項式、平方根、および順位などの注目する分位範囲内の信号の非線形の、場合によってはベクトル値を取る関数である可能性がある。正規化された値は、m/z強度対と正規化係数の関数とすることが可能であり、ただし、その関数の指定は、正規化係数の値に依存し得る。
【0092】
例えば、一実施形態では、指標変数値の組み合わせ毎に、正規化係数は、m/z強度対の分布の第90百分位と第95百分位との間のすべてのm/z強度対の平均値である(これらの分位は、ユーザ側で設定可能である)。この実施例では、信号の最上位5%は含まれないが、それは、少数の非常に高い値は正規化を左右しないからである。第90百分位から第75百分位までの含まれる信号の下限を変更しても、正規化に実質的な影響を及ぼすようには見えない。絶対範囲により選択された他の範囲、他の百分位範囲、または他の統計的範囲定義(先験的分布に基づく)が使用され得る。これらの範囲は、中央値、モード、または幾何平均などの、平均値以外の要約係数とともに使用することも可能である。指標変数がない、または指標変数値の組み合わせが1つしかない場合、正規化はこのようにして実行することはできない。
【0093】
指標変数なしでデータを使用する一実施形態では、それぞれのm/z強度対に指標値の同一の任意の集合を割り当てて、上記のように進めることができる。例えば、(時間指標がない)MALDI実験では、正規化定数は、すべてのm/z値でのすべての強度の平均値、または強度の分布のいくつかの百分位点の間のすべての強度の平均値としてよいであろう。
【0094】
D.差の評価
スペクトル集合内の信号のバラツキに照らして、m/z強度対内のスペクトル集合間の変化の有意性は、例えば、標準的な統計的手法を使用して判定できる。さまざまな種類の統計的手法(パラメトリックとノンパラメトリックの両方)を使用して、m/z強度対の差の有意性を推定することができる。有意性は、p値の単調関数として表される。p値は、特定のm/z識別子に関連付けられている強度の分布内のスペクトル集合間の観測された変化が、何らかの検体のレベルの試料集合間の差が欠如しているときに偶然発生した可能性のある確率を表す。試料を正しく分類する能力の統計的尺度から得られる順位も、p値と組み合わせて、またはp値の代わりに、使用することが可能である。
【0095】
パラメトリック法を使用して、p値を計算することができる。さまざまな異なるパラメトリック法が当業ではよく知られている。(Snedecor & Cochran,Statistical Methods,8th edition,1989,Iowa State University Press;Kanji,100 Statistical Tests,1999,SAGE Publications)。このような方法の実施例は、t検定、およびデータのガウス(または「正規」)分布を仮定しない類似の検定を含む。複数の条件(2つよりも多い条件)について、それぞれの識別子に対して分散分析が使用可能である。
【0096】
t検定を使用して有意性を測定する方法は、以下の第X節「実施例1」および「実施例2」に例示されている。実施例2では、時間指標とともに生成されたLC−MSスペクトルを分析する。それぞれの時刻およびm/zにおいて、条件1からはn1個の信号、条件2からはn2個の信号があり、n1、n2の少なくとも一方は1よりも大きいか、または抽出されるものと十分に類似している他のデータに基づく補助的バラツキ情報がある。それぞれの時刻およびm/zにおいて、観測された、または仮定されたバラツキが与えられた場合の平均信号の差の有意性が判定されている。この実施例のスペクトルは、正規分布よりも対数正規分布に近い信号を持つので、対数の対応する正規分布の平均値および分散を決定するために、さらに計算が実行され、分析の残りがp値の両方の集合について実行された。このような場合、対数の帰属された正規分布を使用して得られた結果は、未変換値の分布を使用して得られた結果よりも好ましい場合がある。
【0097】
特定の計測器または実験プロトコルが試料の平均値と推定分散との間の再現性のある関係を生み出す場合、試料集合内のスペクトルについて分散が帰属され得る。これは、n1およびn2が小さい、例えば、n1=1または2または100未満の整数および/またはn2=1または2または100未満の整数である場合に特に有用であり得る。このデータ集合のいくつかにおいて、分散=平均値の2.1乗の関係が観察され、これが可能であることを示した。
【0098】
さらに、それぞれのm/z値および時刻でただ1つの信号しか利用できない場合でも、そのような平均分散関係の近似的尺度を得ることが可能である。これは、時間的に互いに近い信号は類似の基礎となる数量の推定値であると仮定することにより実行される。この場合、時間的に近いN個の信号のグループを取り(グループは、オーバーラップまたは非オーバーラップしていてもよく、Nはユーザによって指定され、例えば、N=5およびN=10)、これらのグループに対する平均値と分散との間の関係を見つけることができる。チェックされたスペクトルでは、この方法で決定された関係は、複数のスペクトルから得られた信号を使用して決定された関係と実質的に同じである。いくつかのグループでは、これらの信号は、一様に増大または一様に減少し、それらを単一の数量の反復測定結果として扱うのは妥当ではないと思われる(例えば、ピークの立上りまたは立下り勾配を形成することができる)。このような信号は、平均値と分散との間の関係を推定するために使用される集合から除外することができる。われわれの経験では、これは、平均値と分散との間の推定された関係にほとんど違いをもたらさない。一般に、このような帰属を使用した場合、実際に複製を使用するよりも悪い結果が得られると予想されるが、十分に再現可能な実験プロトコルであれば適切であると思われる。
【0099】
p値は、使用する多数の方法を最小限に絞って計算することもできる。例えば、実際の信号の平均値および分散が使用される上述の分析、および信号の対数の暗示された分布の平均値および分散が使用される上述の分析が使用され、それにより、注目するすべての点の合併を得る。これが使用される場合、その結果の正味のp値は、使用される方法の数が掛けるか(当業でよく知られているボンフェローニ法により)、または他の何らかの方法で統計的に補正されるべきである。
【0100】
ノンパラメトリック法も、例えば、パラメトリック法の基盤である仮定が適切であることが知られていない場合にp値を生成するために使用されることができる。さまざまなノンパラメトリック法が当業では知られている(Kanji,100 Statistical Tests,1999,SAGE Publications ;W.J.Conover.Practical nonparametric statistics (2nd ed.).New York:John Wiley & Sons,1980)。多くのノンパラメトリック検定は、さらに、2つよりも多い条件にも対応する。
【0101】
ノンパラメトリック法の一実施例では、平均信号差の間の差を、条件1の平均信号と条件2の平均信号との間の差の、すべての時間およびm/z識別子間の、観測された(経験)分布内の対応する百分位で置き換えることを伴う。(ここで平均は、試料集合内の複数のスペクトルにわたって取られる。)0から1までの範囲である、これらの百分位は、p値として取り扱うことができる。この方法は、信号のバラツキを考慮せず、平均間の差のみを考慮するという短所を持つ。この方法は、暗黙のうちに、すべての信号の分散が等しいものとして仮定する。したがって、存在量の少ない検体における小さいが、統計的には有意な差を欠測する可能性がある。
【0102】
p値を生成するためにロバストな統計的方法も使用できる(Wilcox,Introduction to Robust Estimation and Hypothesis Testing,Academic Press 1997)。ロバストな統計的方法は、極端なデータ点または分布仮定からのその他の逸脱の影響を最小限に抑えようとする方法である(したがって、いくつかの状況では、分散仮定に依存しないノンパラメトリック検定は、ロバストと考えられる)。ロバストな統計的方法の一実施例は、「刈り込み平均値」であり、これは、最大および最小の測定結果の一部分を除外した後に計算される平均値である。除外される測定結果の数は、絶対数(例えば、3つの最大の測定結果と3つの最小の測定結果)として、または利用可能なデータの一部分(例えば、測定結果の最大の1パーセントと最小の1パーセント)として指定することが可能である。刈り込み標準偏差は、同様にして定義できる。上述のように実行されるが、刈り込み平均値および標準偏差(およびこの平均値および標準偏差はさらに少ない測定結果に基づくので、それに対応して小さな自由度)を使用するt検定は、値を除外せずに実行されるt検定よりも外れ値に対してロバストであると考えられる。2つの分布の刈り込み平均値を比較するためにリサンプリング法も使用できるが(Wilcox,Introduction to Robust Estimation and Hypothesis Testing,Academic Press 1997)、必要な計算量が増える。
【0103】
刈り込みによる値の除外は、可能な利点とともに可能な欠点を持ち合わせる。第1に、少量のデータが頻繁に手元に置かれるため、いくつかの値を除外すると、検定の能力が実質的に低下する。第2に、極値は、測定結果の真のバラツキを反映することができ、その場合、刈り込み平均値を使用すると、偽陽性の個数が増えることがある。
【0104】
他のロバストな検定では、中心傾向およびバラツキの他のロバストな推定量を使用する。例えば、平均値の代わりに中央値、標準偏差の代わりに複数の四分位範囲を使用する。さまざまなロバストな統計的検定については、Wilcox,1997で説明されている。
【0105】
並べ換え検定(Phillip Good,Permutation Tests,Springer 1994)も使用できる。この状況での並べ換え検定では、例えば、各点(例えば、付随する指数変数を持つm/z識別子)でのt統計量(または他の何らかのユーザ指定統計量)を全ての点でのそのような統計量の集合と比較することが可能である。p値は、統計量の観測値のリスト内で順位により割り当てられる。
【0106】
上記の統計分析は、m/z強度対および識別子および/または(複数の)指標の関数上で実行することができる。これは、信号それ自体を含む。
【0107】
E.時間永続性
過渡的または永続的ノイズから検体を区別しやすくするために、p値の時間永続性、または擬似p値などの同等の測定を使用することができる。それぞれ特定のm/z強度対および時間に対応するp値の行列(または同等の統計量)は、上述の第II節D「差の評価」で例示されているような手法を使用して決定することができる。m/z識別子毎に、しきい値よりも低く(例えば、約0.05または約0.1または約0.2)、ユーザ指定最小時間よりも長く持続する(例えば、応用に応じて約5、約10、または約15秒)実験の2つの集合の間の差に対するp値を識別できる。
【0108】
2つの条件の間に差はなく、すべての信号は独立しているという帰無仮説の下で、永続的信号の尤度は、構成要素の時間点のp値の積である。i(ユーザ指定)個の連続するp値のうち少なくともm個がしきい値よりも低いパターンが識別可能である。この場合、独立性の下で計算されたp値は、(n choose m)を掛けなければならない。
【0109】
永続的信号は、尤度により順位付けされることができるが、ただしこれらは有意な差が最初に提示されていないという帰無仮説の下で最もありそうにない。ユーザ指定値よりも長く持続する信号は、望ましい場合、人為的結果と考えられ、無視できる。異なる実施形態では、ユーザ指定値は、少なくとも約1分、少なくとも約1.5分、または少なくとも約2分である。
【0110】
時間以外の1つまたは複数の指標変数の部分集合間の有意性の永続性は、さらに、過渡的または永続的ノイズから検体を区別しやすくするための手段として使用することも可能である。これは、時間永続性を考慮することに加えて、または考慮することと組み合わせて、または考慮することとは独立に、実行できる。指標値を持たないデータの場合、m/zの同位体または電荷関係の部分集合を含むだけでなく、データの分解能制限により解決されないピークにまたがる、m/z識別子の集合に対する永続性を使用できる。後者は、以下の第X節「実施例5」で説明される。
【0111】
F.再並べ換え
有意な差は、関係する複数のグループに並べ換えすることができる。信号内に関係する差が存在することは、さらに、それぞれの関係する差は、2つの試料集合内の検体のレベル間の差によるものであって、ノイズによるものではないという証拠となり得る。関係する差は、結果を提示するだけのため、またはグループ化された結果の尤度を修正するために、グループにまとめられる。
【0112】
並べ換えは、同位体である可能性、または単一の基本検体または基本検体の族の異なる荷電状態を表す可能性などの異なる特性に基づくことが可能である。その後、結果は、もっぱら相対的溶出時間(LC−MSの場合には時間指標とともに)の残りシフトだけによるものである尤度に基づいて複数のグループに分割され、「偽陽性」の検出が自動的に行われる。並べ換えでは、さらに、共通の生物学的経路の一部であること、または他の指標変数内のシフトなどの他の要因を考慮することも可能である。
【0113】
例えば、ペプチドは、LC−MSの一部であるイオン化時に、1つまたは複数の電荷を獲得することができる。それぞれの荷電状態z(通常、zは1、2、3、または4とすることができるが、場合によっては、それらよりも大きい整数である)から、異なるm/z識別子を持つ信号が発生する。したがって、単一ペプチド配列の異なる分子により、同時に、複数のm/z識別子でイオン(およびしたがって信号)が発生し得る。
【0114】
ペプチドが基本質量Bを持つ場合、荷電状態zに対するm/zは(B+z)/zに等しい。したがって、可能な基本質量は、特定のm/z識別子から、(質量対電荷*z)−zとして計算可能である。
【0115】
あり得そうなz値の範囲(通常、1、2、3、または4)のリスト内のそれぞれの信号に対する可能な基本質量を計算できる。時間的にオーバーラップし、同じ基本質量から生じ得る信号は、グループ化してまとめられる(他の指標変数内の一致またはほぼ一致も、多次元LCなどのいくつかのアプリケーションでは必要になることも考えられる)。結果のリストが再並べ換えされ、それぞれのグループは最高順位の成分信号の順位を受け取る。したがって、質量対電荷比により潜在的に同時に発生するより有意性の高い信号に関係付けられている有意性の低い信号はリストの上の方に移動される。
【0116】
グループのp値は、さらに修正され、例えば、それぞれにp値の積を割り当て(信号はランダムであり独立しているとの帰無仮説下で)、その後単一の項目として表される(または他の方法でグループ化される)ことができる。時間以外の指標変数が、ここで他の演算でグループ化に使用されることがあり得る(つまり、時間以外の変数のアライメントが一致のために必要になることがあり得る)。
【0117】
異なる信号は、さらに、それらが異なる同位体状態に由来するとm/z識別子が示している場合に、関係付けることができる。元素の同位体は、同じ数の陽子と電子を持つが、中性子の個数が異なる。1つの同位体は、一般に、他のすべてよりも共通性がかなり高く、支配的なm/z強度対を生成する。例えば、いくつかのペプチドは、共通形態の分子量から1(または複数の余分な中性子が存在している場合にさらに大きな整数n)だけ異なる分子量を持つ同位体形態を含み得る。m/z識別子は、任意の荷電状態zについて支配的なm/z識別子から1/z(またはn/z)だけシフトされる。
【0118】
同位体ピークまたは複数の荷電状態の出現で、検出信号にさらに対応できる。同位体ピークまたは複数の荷電状態を表し得る、また時間などの指標変数が存在する場合には、指標変数内でオーバーラップする、m/z識別子を持つ信号は、グループ化してまとめられる。さらに、同じ検体の2つの同位体(および/または荷電状態)のピークの形状(時間および/またはその他の1つまたは複数の指標変数の関数として)は、一般に、他の検体と比べて互いの類似度がかなり高い。したがって、2つのピークが所定の検体の異なる同位体(および/または荷電状態)に属しているかどうかは、その類似度を確定することにより確かめられる。2つのピークの測定された類似度(例えば、相関、内積、または順位相関)と類似度のその尺度の一般的分布または測定結果の所定の集合に対する対毎のピーク類似度の経験的分布との比較が行える。同位体(および/または荷電状態)効果のより複雑なデコンボリューションも、当業でよく知られている標準的手法使用することで可能である。これらは、差の生成された順位付きリスト内のm/z識別子の短い(非統計的フィルタ処理に関して)リスト上でもうまく働き得る。
【0119】
そのためにはさらに計算が必要になる可能性もあるが、同位体対合は、上述のプロセスの残りが完了する前に平均値または個別スペクトル上で実行されることも可能であり、推定単一の検体の同位体の所定の集合に対する信号は、すべて、総和または非線形プロセスを通じて組み合わされ、それにより、単一の実体としてそれらを処理することが可能である。類似の処理を、状況に応じて実行し、差の識別前または後に同じ検体(さらに同位体について上で説明されているように、比較的似たピーク形状を持たなければならない)の異なる荷電状態から生じると推定される信号を組み合わせることができる。
【0120】
さらにグループ化問題は、m/z値が高分解能で表される場合に生じる。この場合、単一荷電状態にある単一の検体は、質量分析の計測器側の方法の精度が制限されているためm/zの範囲で信号を発生することがあり、一般に、強度により、真のm/z値付近にピークが発生し、弱い信号がいずれかの側にある距離だけ伝わる。つまり、それぞれの真の差により、見かけの差の小さな「ピーク」が発生する(または、たぶん、指標変数も含まれている場合に「うね」)。これらの結果は、グループにまとめられた場合に解釈しやすく、それぞれ特定のm/z値を持つ単一の検体を表す。このようなグループ化は、上のE節で説明されている時間永続性の検索に類似しているが、ここでは、永続性は、時間ではなくm/z値にまたがっている。グループは、何らかの選択された数の連続する有意な結果のランを見つけることにより識別されることができる(例えば、mおよびnが、mはn以下である整数であるとして、1行の中に8、または1行の中のnのうちの少なくともm)。
【0121】
連続するm/zのスパンは、絶対項(例えば、m/z単位の半分)または相対項のいずれかで表すことができる何らかの最小幅にわたることが必要になる場合もあり、後者は、測定されるm/zに比例する典型的計測器のm/z精度と一致する(例えば、幅は、グループ内の最小のm/zの1パーセントの少なくとも4分の1でなければならない)。グループ化された結果自体は、さらにグループ化されることが可能であり、例えば、これにより、同じ前駆体の異なる同位体および/または荷電状態から生じるように見えるグループを接続する。指標変数を持つデータでは、m/z方向のグループ化は、時間の、または他の1つまたは複数の指標変数にそった永続性を探す前、または探した後に実行することが可能である。
【0122】
他の実施形態では、グループ化は、次元がm/z、および/または符号付き対数尤度および/または条件Aに対する信号および/または条件Bに対する信号および/または条件AおよびBに対する信号間の差を含む空間内の点の重み付けに基づく階層的または非階層的集塊的または分割的または他のクラスタ化を使用して実行される。次元重みを選択するためのこのようなクラスタ化法および発見的手法は、当業ではよく知られている。
【0123】
他の指標変数も存在する場合、それらも、クラスタ化のための次元として使用することができ、これにより、それらの指標変数上でグループ化を実行することもできる。さらに、推定電荷を掛けて、電荷誘導実体(陽子など)の質量を差し引き、推定同位体質量差を差し引くことにより推定電荷または同位体について補正されたm/zを使用することにより得られた代表mの次元を含めると、クラスタ化を使用すれば、同位体および多重荷電現象により複数のピークを発生する単一検体の同位体および荷電状態情報に対する証拠をグループ化しやすい。
【0124】
G.分割
分割は、検体のレベルの差によるのではなく、実験または計算上の人為的結果による差である「偽陽性」の識別をさらに容易にするために実行することができる。検出された差は、偽陽性であることの確率または尤度に対する近似を表す部分集合に分割できる。
【0125】
時間的に(または他の指標変数で)わずかにシフトされた2つの信号が差であるように見える場合にある種の偽陽性が生じる。特に、2つのほぼ同一のピークが互いに関してシフトされた場合(図10)、その後、立上りおよび立下りの両方の勾配が現れ、著しく異なる信号を表すようにできる。しかし、ピークがクロスした場合、通常、差が有意でない時間点が少なくとも1つある。このような信号は、さらなる分析のためフラグが立てられる。このような信号を扱う際に、2つ場合を区別できる。(1)立上りおよび立下りの両方の勾配が著しく異なるとして検出されたときと(2)1つのみが有意であるとして検出されたとき。
【0126】
前半分と後半分の両方が有意と検出された(「完全シフト」)シフトされた信号は、複数の時間に有意な差を持つm/z強度対を調べることにより識別できる。同じm/z識別子で2つの信号が時間的に十分近く(ユーザ定義パラメータ)、反対方向で異なる(前の方の信号ではAはBより大きく、後の方ではBはAよりも大きく、またはその逆である)場合、それらはグループ化でまとめられる。これらの「組み合わせた」信号は、その後、グリッドまたは二分探索法またはその他の最適化方法を通じて2つのピーク間の相関を最大にすることにより時間(または他の指標変数)で再アライメントされ、再度比較される。注目する曲線の一部分または全体への線形または非線形当てはめからの指標変数パラメータの差、順位相関、信号間のp値のマイナス、曲線間の面積のマイナスなどの、相関以外の尺度も使用できる。差がもはや有意でない場合、組み合わせ信号は、シフトによる可能な偽陽性としてマークが付けられる。差が有意なままである場合、成分信号は、リストから削除され、組み合わせ信号で置き換えられ、その場所は、有意水準により決定される。
【0127】
ここで説明されたばかりの方法は、立上りまたは立下り勾配のいずれかが有意であると検出されなかった場合には、機能しない。前の分析でグループにまとめられなかった信号をすべてチェックして、以下の基準の3つすべてを満たしているかどうかを調べることができる。
(1)平均(試料集合内のスペクトル間の)信号のいずれも、中にピークを持たない。ここで、ピークは、その信号がいずれかの側の最も近いN(ユーザ定義パラメータ)個の近隣点のどれよりも大きい点として定義される。そこで、N=2ならば、ピークは、2つの直前および2つの直後の時間点での平均信号よりも大きい平均信号である(これは、他の指標変数でもチェックできる)。
(2)時間(および/または他の指標変数)の関数として平均信号を表す最小2乗回帰直線の(複数の)勾配は、両方の直線について0から著しく異なる。
(3)2つの勾配は、2つの勾配のうちの大きい方と小さい方との比が何らかのユーザ定義しきい値、例えば、3よりも小さいという意味で、互いに十分に近い。
【0128】
3つの条件すべてが満たされた場合、信号は、時間シフト(「半シフト」)による可能な偽陽性としてフラグを立てられる。完全シフトは、半シフトから別々に分割できる。可能な偽陽性は、結果の順位リストの終わりまで移動し、見かけの有意性の順序でそれら自身の間順位付けできる。
【0129】
可能な偽陽性に対する見かけの時間シフト(「推定シフト」)は、後続の分析について追跡できる(以下の第II節H「再アライメント」を参照)。グループ化されてまとめられた立上りおよび立下りエッジからなる可能な偽陽性に対するシフトは、再アライメントされた信号間の最大の相関を与えるシフトとみなすことができる。単一の立上りまたは立下りエッジのみからなる可能な偽陽性については、シフトは、一実施形態では、平均信号を時間(および/または他の指標変数)に関係付ける直線回帰のx軸切片の差である。完全シフトに対する信号のアライメントに関する説明において、指標変数シフトの他の多数の推定量が上で取りあげられている。
【0130】
他の実施形態では、2つのスペクトル集合の再アライメントで差の有意性が止むかどうかをチェックすることにより、見かけの差が2つのスペクトル集合の間の時間または他の(複数の)指標変数のシフトによるものかどうかをチェックすることが可能である。例えば、スペクトル集合の他のアライメントが実際のアライメントよりも適切であり得るかどうかを判別するために、時間シフトの範囲により第1に関して第2をシフトしたときの2つのスペクトル集合の間の平均強度の相関を調べることが可能である。見かけの有意な差の何らかの領域の強度のみが計算に含まれ、例えば、見かけの有意性の領域、およびその範囲のいずれかの側で、見かけの有意性の領域の持続時間の長さの1または1.5または2または2.5倍またはそれ以上の倍数に等しい持続時間の領域である。時間シフトから未シフトのデータ集合間に存在する以上に著しく高い相関が得られない場合、調べている差は時間シフトによることはあり得ないと考えられる。何らかのシフトで、未シフトのデータ集合間に存在する以上に著しく高い相関が得られる場合、最高の相互相関を得るためにシフトの後にデータ集合について差が有意かどうかの判定が繰り返される。シフトの後も差がまだ有意である場合、それは、時間シフトによるものではないと考えられる。シフトの後、差がもはや有意でない場合、それは、時間シフトによるものである可能性が高いと考えられる。図8は、再アライメント使用して偽陽性をチェックするために実行することが可能な工程を示している。
【0131】
H.再アライメント
推定された時間シフトにフラグが立てられた後、それらの推定されたシフトを使用して、スペクトルの再アライメントを行い、分析を繰り返すことが可能である。再アライメント工程では、ありそうなシフトを判別するために、さまざまな偽陽性関係のカテゴリが使用される。
【0132】
可能な偽陽性のシフトの分布の中央値(最も近い数のビンで表される)は、最良のシフトとみなすことができる(百分位範囲上の平均値などの他の統計量も、適切な場合があり、一般に、中心傾向の尺度が適用可能と思われる)。その後、また、差について再アライメントされたビン分割信号を分析することができる。少なくとも1つの実施例(以下の実施例2に示されている)では、この手法により、他の結果の大半に影響を及ぼすことなく分割された偽陽性の個数を80%ほど減らした。再アライメント手順は、シフトの分布が広がりすぎるか、または中心傾向(中央値など)の尺度が0から著しく異ならない場合には、有益でないことがあり得る。
【0133】
それとは別に、オリジナルのスペクトルをシフトの分布の中央値(またはその他の統計量)に従って再アライメントし(最も近い数のビンで表現する必要はない)、プロセス全体の一部または全部を繰り返すことが可能であり、そのためには、オリジナルデータのグリッド再表示を行い、有意な差および可能な偽陽性の識別を続けることから開始する。
【0134】
(1)分析すること、(2)シフトを見つけること、および(3)再アライメントの手順全体は、1回または複数回繰り返している可能性があり、この手順は、次の再アライメントについてシフトを与える新しいそれぞれの分析で繰り返し実行できる。反復は、「停止基準」が満たされたときに停止され得る。停止基準は、例えば、十分に小さな(ユーザ定義)数の可能な偽陽性が識別されたか、または何らかの反復後識別された可能な偽陽性の数では著しく(例えば0よりも大きい値だけ)減少できなかった(前の反復の結果はこの状況で保持される)場合に満たされる。
【0135】
いくつかのデータ集合では、1回の再アライメントで有益であろう。複数の再アライメントが有益である場合もあれば、ない場合もある。異なる実施形態では、再アライメント手順は、0回、1回、少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回、少なくとも6回、少なくとも7回、少なくとも8回、少なくとも9回、少なくとも10回、または少なくとも停止基準が満たされるまで実行される。
【0136】
シフトは、時間(または他の指標変数)において非一様であり、例えば、後の時間は、前の時間よりも多く(または少なく)シフトすることが可能である。これは、例えば、流速または温度などの液体クロマトグラフィ実験の特性の変化がある場合に望ましいと考えられる。この場合、1つまたは複数のスペクトルからのシフト(1つまたは複数の基準スペクトルに関する)は、(平滑化)多項式または同等の式に当てはめられ(loess;Modern Applied Statistics with S.Fourth Edition,by W.N.Venables and B.D.Ripley,Springer,2002など)、対応するデータの時間座標は、その後、当てはめ曲線の値によりシフトされる。さらに極端な場合には、2つまたはそれ以上の集合内のスペクトルは、局所シフトを推定するために使用される偽陽性の外側で信号を0に設定し、その後、大域的動的時間ワーピングを実行して(Applied Functional Data Analysis:Methods and Case Studies by J.O.Ramsay and B.W.Silverman,Springer,2002;Functional Data Analysis by J.O.Ramsay and B.W.Silverman,1997)残りの信号のアライメントを行い、その結果得られるワープ関数を使用してオリジナルまたはビン分割データの時間座標をシフトすることにより、アライメントすることが可能である。シフトおよび関係する計算は、ビン分割の前後に実行可能である。
【0137】
I.感度および特異性
感度および特異性は、分析されるスペクトルの個数を増やすことにより高められる(上記の第I節Bを参照)。出力中の望む信頼水準、感度、または特異性を得るために必要なスペクトルの個数は、リサンプリング法または標準検出力分析を使用して推定されることができる。
【0138】
標準検出力分析では、所定の統計的検定(例えば、t検定)の感度をおよび/または特異性の望むレベルに必要な複製の個数を推定することができる。これは、検定の検出力を見つけると呼ばれ、これは、標準の統計的手法である。この方法で統計的有意性を推定するために使用されるt検定では、信号の平均値および分散および複製の個数のみが必要である。検出分析は、信号の対数の帰属された平均値および分散を使用して実行することができる。また、これは、上の第II節D「差の評価」で説明したように仮定された分散構造を使用して実行することもできるが、すべてのデータを収集する前に実行できる可能性と引き換えに、性能が悪化する可能性がある。
【0139】
強さ、振幅、p値、および時間永続性などの特定の属性を持つ信号検出するために必要なスペクトルの個数を決定するために、リサンプリング法が使用できる。これは、この分析に使用されるデータが、必要なスペクトルまたは試料の個数が推定されるデータの統計量を適切に表すと仮定する。
【0140】
例えば、2つまたはそれ以上の条件を含むデータ集合は、以下のようにリサンプリングすることにより生成できる(2つの条件を含む場合にここで例示されている)。それぞれの条件についてN個のスペクトルがあると仮定する。2からN−1までのそれぞれのnについて、n個のスペクトルを持つ(N choose n)部分集合があり、したがって部分集合の(N choose n)平方対がある。nの値毎に、これらの部分集合のM=Min(100,(N choose n)squared)に対し分析を実行できる。(ここで、ユーザ選択可能パラメータ100は、統計の目的のために最小値として選択されたが、それよりも大きくても小さくてもよい。)この結果は、例えば、所定の属性を持つ信号を検出する所望の確率を得るために必要なスペクトルの最小数を決定するために調べられる。
【0141】
特異性は、同じ試料集合から抽出されたスペクトルの2つの集合の間の差を調べることにより測定できる。スペクトルの集合の間には注目する真の差はなく、見つかった信号はどれも、偽陽性と考えることができる。このような偽陽性は、統計上の偶然の出来事として生じるか、または試料取り扱い時の汚染から生じる可能性がある。望ましくない特性を持つ偽陽性の分布がある場合は、データ品質が低いことを示していることがある。
【0142】
そこで、ユーザに対し、偽陽性の個数、そのp値の分布(箱ひげ図を通して)、指標値の分布、および/またはm/z識別子(箱ひげ図を通して)を通知することが可能である。総数、平均値、中央値、四分位範囲、最大、および/または最小、範囲などの分布のパラメータとしきい値とを個別に、または重み付き総和として比較し、品質問題があると思われることについてデータ集合にフラグが立てられるかを調べることが可能である。このような警告は、さらに、「多すぎる」がユーザ指定しきい値よりも大きい数である場合に、多すぎるスペクトルの悪い信号対雑音に基づいて発行することが可能である。
【0143】
信号対雑音比を決定する手法は、当業ではよく知られている。信号対雑音比は、例えば、第85百分位範囲から第93百分位範囲内の信号の平均値により除算された第95百分位〜第97百分位の範囲内の信号の平均値などの指定された百分位範囲上の平均値の比により決定することが可能である。これらは、また、すべての信号の中心傾向により除算された局所最大値の強度の中心傾向を使用して測定されることが可能である。ここでは、局所最大値は、m/z上で、または指標変数上で、またはm/zと指標変数との組み合わせ上で定義され、ある整数nについて点は少なくともn個の近隣点よりも高いことを要求するなどの当業でよく知られている手法を使用して定義することができ、近隣点は、m/zの連続して高いまたは低い値および/または1つまたは複数の指標変数を持つ点であり、それらの値は、測定またはビン分割することが可能である。
【0144】
リサンプリング法も、特異性の測定に使用することができる。単一の試料集合からのN個のスペクトル(Nは3よりも大きい)について、スペクトルの2つの部分集合のうちの一方が2、3、...またはfloor((N−1)/2)個までのスペクトルを持ち、他方が残りのスペクトルすべて(場合によっては1を除く、したがって、Nが奇数の場合、試料サイズは便宜上等しい)を持つ2つの部分集合の間で比較を行える。単一の比較では、スペクトルの2つの集合が、(反復なしで)N個の利用可能なスペクトルから選択され、分析が実行されて見かけ上の差を見つける。
【0145】
通常、ランダムに選択された部分集合対について何回も比較が実行される。通常、異なる部分集合対は多数あり、またスペクトルの2つの部分集合を選択する方法は多数ある。例えば、100個の部分集合対は、ランダムに選択され、部分集合サイズ毎に比較される。パラメータ100は、増減できる。
【0146】
偽陽性率を推定するため、その結果得られる差のリストが統計的に要約される。見かけ上の偽陽性の個数の部分集合対にわたって分布を調べると都合がよいであろう。総偽陽性率、および偽陽性率は、この分布から推定できる。さらに、十分な頻度で現れる差を調べて、一方の試料と他方の試料とで異なる汚染を反映するかどうかを判別することができる(スペクトルの目視検査では本当であるように見える差、それでも、故意に変えられた実験条件には関係しない)。これらの試料集合内差について見つかったp値の分布も、どの試料集合間差が注目するとよいかを案内するために使用可能である。
【0147】
第II節パート(A)から(I)までの工程はすべて、デジタルコンピュータ上で実行でき、関係する差のグループ化以外のそれらのどれかで実行される計算の回数は、m/z識別子の個数において線形時間対数線形以下で増大する。関係する差のグループ化で実行される計算の回数は、条件同士の間で見つかった有意な差の数の2次以下のオーダーで増える。
【0148】
III.差の有意性
「有意な」差は、2つの試料集合からのスペクトル内のm/z強度対に関する仮定の何らかの特定の集合の下ではあり得ない差である。仮定の集合は、「帰無仮説」と呼ばれ、通常は、2つの試料集合の間に検体のレベルに一貫した差はなく、したがってm/z強度対の間に一貫した差はないと思われる。
【0149】
標準的な統計的技法では、「p値」は、特定の観測された結果が帰無仮説の下でどれだけあり得るか、またはあり得ないかを表す。p値は、帰無仮説が真の場合に所定の結果が生じる確率として定義されることが多い。小さいp値は、帰無仮説の下であまりあり得そうにない結果を示し、したがって、より有意であるとみなされる、つまり、帰無仮説が誤っており、試料集合間に本当の差があるというよい証拠となる。
【0150】
通常は、特定の分析において有意性に対するしきい値として特定のp値が選択される。統計的手順でのように、試料集合間に対応する差がない場合に、いくつかのランダムな変動が有意に見えることがある。さらに、いくつかの統計的に有意な差は、ランダムなノイズによるものでない、またはランダムなノイズよるものでないように思われる場合でも、特定のアプリケーションにおいて重要なものでない可能性がある。異なる実施形態では、有意性に対するp値は約0.2、約0.1、約0.05、または約0.01のしきい値を持つ。
【0151】
本明細書の分析では、p値は、さまざまな方法で計算することができる。場合によっては、複数の方法使用し、p値を組み合わせて単一の推定「最終p値」にまとめることで、実体のp値(ある点または指標変数および/またはm/z値の領域内での信号差)を計算することが(感度および/または特異性に関して)有利な場合がある。例えば、最終p値は、その実体について決定されたp値の最大値または最小値または平均値または中央値として推定することが可能である。また、(当業でよく知られているある種のボンフェローニ補正を使用して)その実体について考察されているp値の個数をその最小値に掛けて推定することも可能である。その後、しきい値と比較する際にこの最終p値が使用される。最小の方法を使用して最終p値を求める場合、その結果得られる有意な実体のリストは、個々のp値方法のそれぞれを独立して使用することから得られるリストの合併である。
【0152】
また、本明細書の分析では、p値を計算する方法は、近似的に較正することができる。この較正を実行するために、リサンプリングに基づく確率的シミュレーションが実行される。p値を較正するこの方法およびその他の方法については、上のD節「差の評価」のロバストな統計的手法の背景状況において説明されている。
【0153】
IV.相対的量の判定
検出された検体の存在量がどれだけ変化したかを推定することが有用な場合がときにはある。「fold change」の類似尺度は、遺伝子発現データの解釈において一般に使用される。本明細書で説明されている方法により収集される情報は、そのような推定を行うために使用できる。図9は、2つのスペクトル内の信号の相対強度を定量化するために使用できる工程の実施例を示している。
【0154】
検体存在量におけるfold−changeの推定は、差発見アルゴリズムにより使用される表現に基づくことができる。これは、強度測定結果自体に基づくか、または強度測定結果は近似的に対数正規分布している可能性を示す証拠があるため、基礎をなす対数の分布に基づくことができる。
【0155】
fold−change推定が強度自体に基づいている場合、強度曲線の下の面積全体の変化(例えば、差、相対、レシオメトリック)を推定できる。このような変化は、例えば、有意な差が検出される領域(時間、m/z、および/またはその他の指標変数の)にのみ基づくことが可能である。また、これは、この領域から始めて、強度曲線内で局所最大値を含み、当業でよく知られている一般的ピーク発見アルゴリズムを使用して見つけることが可能であるような局所最小値により制約されるこの領域を含む最小の領域を見つける方法などにより、有意な差が検出される領域の周りの、その領域よりも狭いまたは広い領域に基づくことも可能である。強度曲線は、例えば、各時点での平均値または中央値強度を含む、試料集合内の試料間の強度の中心傾向の尺度に基づくことが可能である。fold changeは、他方の条件で測定された強度の平均値により除算した一方の条件で測定された強度の平均値として求めることが可能である。必要ならば、fold changeが推定される前に、基準強度を推定し、面積(持続時間にわたる面積に等しい平均値)から差し引くことができる。
【0156】
fold−change推定が対数強度に基づく場合、曲線の下の面積の差から対数変化の推定値が得られる。したがって、曲線の下の面積の差を累乗することで、fold changeの推定値が得られる。それとは別に、それぞれの時刻で累乗された差の平均値をfold change全体の推定値として使用することができるが、平均値の累乗を使用すると、累乗する前の測定結果の不安定度を平均することができる。
【0157】
他の強化点としては、測定された信号のそれぞれから何らかの基準信号を差し引き、残りの信号を使用してfold changeを計算するか、または有意性の領域よりも(溶出時間またはその他の指標変数に関して)わずかに広い領域内の信号同士を比較することを含むことが挙げられる(両方の信号が、それらの間の差が有意になる前に基準線よりも上に来る可能性を場合によっては異なる量で説明する)。
【0158】
ピーク面積および基準線を決定する方法は、一般に、クロマトグラフ信号およびDNA−base−callingの解釈で使用され、当業ではよく知られている。信号は、さらに、境界に近い信号強度の変動に関してよりロバストであるべき縮小された領域上で比較することも可能である。そのようなすべての比較について、スペクトル集合毎に1つの領域、またはスペクトル毎に異なる1つの領域があり得る。fold changeの計算は、ワープまたはアンワープ指標またはその両方を使用して行うことができる。
【0159】
中心傾向を測定する統計量を使用することに加えて、相対量の複数の測定結果を使用して、比に対するより適切な推定値および/または誤り限界を得ることができる。例えば、fold change推定値に対する誤り限界は、リサンプリングにより得ることが可能である。例えば、それぞれのスペクトル集合の部分集合(利用可能なスペクトルの何らかの固定部分を含む)を選択し、部分集合のその対を使用して上記の計算を実行し、fold changeを推定することが可能である。このような部分集合を繰り返し選択することにより、多数のfold−change推定値を求めることが可能である。
【0160】
fold−change推定値の分布を使用することにより、fold changeのリサンプリング推定値を求めることが可能である。当業でよく知られている標準のブートストラップ手法を使用してリサンプリングすることに対し場合によっては補正される中心傾向の尺度は、fold changeの全体的推定に使用することが可能である。推定値の分布をさらに使用して、例えば、分布または百分位点の標準偏差を使用して誤り限界を求めることも可能である(例えば、第2.5百分位を下限として使用し、第97.5百分位を上限として使用すると、95%の信頼区間が得られる)。
【0161】
リサンプリングに加えて、単一の検体の複数の同位体および/または複数の荷電(z)状態を使用することで、相対的計量および誤り限界推定を改善することが可能である。便宜上、ここでは、同位体および荷電状態のバラツキに内在する複数のピークを「マルチピーク情報」と呼ぶ。マルチピーク情報は、比または対数比の計算前にそれぞれのピークからの量を総和することにより複数のピークを組み合わせることで使用することが可能である。マルチピーク情報は、さらに、まず対応するピーク(同位体および/または電荷による対応)に対する比または対数比を計算し、その後、その結果得られる値の集合を使用し中心傾向の尺度を使用してその比または対数比を取得し、分散または四分位範囲などの統計的尺度を使用してバラツキを求めるという形で使用することも可能である。
【0162】
これらの比の較正も必要になることがあるが、AUCと関係する測定結果の比は絶対的数量に必ずしも比例しないからである。較正するために、(AUC1,AUC2,ratio)を例えばquantity1/quantity2にマッピングする関数Cを推定しなければならないであろう。ここで、AUC1およびAUC2は、条件AおよびBに対する信号の総量の尺度を表すために使用され、AUCまたは上述の他の方法のどれかを使用して計算することが可能である。項目quantity1およびquantity2は、それぞれ条件AおよびB内に存在する同じ検体の総量を表し、対応するAUC1およびAUC2を発生する。
【0163】
較正は、注目している領域に及ぶさまざまな知られている数量または濃度および注入量の消化ペプチドまたは小分子の混合物などの知られている比較的純粋な検体の溶液から開始することにより実行される。AUC1およびAUC2の値は、試料毎に1つの複製を使用するか、2つの複製を使用するか、3つの複製を使用するか、4つの複製を使用するか、5つの複製を使用するか、または5つよりも多い複製を使用する上記の手順のどれかを使用して繰り返し測定される。その結果得られる曲線および誤差推定値により、例えば、動径基底関数または回帰などの標準的手法を使用してマッピングCを推定することができる。望むならば、このマッピングの定義域内の1つまたは2つの変数は、無視することができる。
【0164】
差は、分類または予測で使用するためさまざまな方法で要約することができる。例として、局所最大値(「ピーク」)に「近い」点の重み付き総和を含む上述のAUC風の要約がある。このようなデータは、多くの場合、有効性または毒性などの数値的予測を行ったり、試料が条件Aまたは条件B、例えば疾病対健康、または悪性対良性の条件によるものである場合の予測などを分類するために使用される。上述のAUC風のまたは局所最大値尺度から特徴を選択することが可能であり(これは、有意な差を最初に見つける必要がある)、ブートストラッピング/ジャックナイフィングおよび/またはクロス確認を使用して分類器性能を推定することによりそのような選択を行い、組み合わせまたは確率的最適化を使用して結果として得られる特徴を選択する。
【0165】
組み合わせ手法としては、増分順方向特徴選択(最良のものを見つけて、その後それとともに含む最良のものを見つけ、その後それら2つとともに含む最良のものを見つける)、n/m方向増分順方向選択(通常n=1、n=2、またはn=3のnの最良の部分集合を見つけ、その後それらとともに含むm=1、2、または3の最良の部分集合を見つけ、所望の数の特徴または所望の性能が見つかるまで続ける)、または含まれるすべての特徴から開始し、その後通常はn=1、2、または3として最も性能を低下させるn個の特徴を取り除くことを含む減分逆方向選択がある。
【0166】
確率的最適化としては、特徴を選択する遺伝的アルゴリズムまたはランダム森がある(例えば、有意な差が見つかり、AUCおよび/または局所最大値および/またはマルチピーク特徴として要約された後)。最適化は、さらに、例えば、曲線内の信号の重み付き総和が曲線の下の面積を定義するために使用され、重みなし総和は使用されないように、定義のレベルで適用することも可能である。重みの集合は、要約が実行されるm/zおよび/または指標の関数とすることが可能であるが、最も単純なのは、例えば、有意な差の中の局所最大値からの距離または(m/zおよび/または指標軸にそって)その差の中心からの距離に基づきAUC計算を修正するための単一の重みカーネルである。
【0167】
共役勾配法および関連する方法などの連続最適化手法を使用し、上述のように分類器または予測器を最適化することにより重み関数の離散化を最適化することが可能である。
【0168】
シミュレートされたアニーリングまたは遺伝的アルゴリズムなどの確率論的方法も、有意な差の固定集合(およびm/zおよび/または指標値の近傍)それらの値に対する特異値分解またはロジスティック回帰の場合のように、これらの重み関数を最適化するために使用することが可能である。
【0169】
V.データ表示
実行される方法および分析に応じて、データは、さまざまな異なる形式で表示することができる。さまざまな形式の実施例として、表形式とグラフ形式がある。
【0170】
好ましい実施形態では、LC−MSデータ分析の結果は、異なる列でm/z、開始および終了溶出時間、およびそれぞれの信号の尤度または対数尤度を指定する差の順位付きリストとして表示され、より好ましくは、グループ、変化の方向(A/B)および/または量、および区画(「完全シフト」、「半シフト」、「見かけ上有効な結果」、またはこれら3つの状態の他の表現)も与えられる(以下の実施例2、表3を参照)。他の実施形態では、他の指標の値または範囲、局所的または大域的時間シフト値、および/または他の指標アライメント値などの追加情報は、表に入れることが可能である。状況に応じて表示される追加情報としては、データ品質全体の測定結果、使用されたアルゴリズムまたはソフトウェアのバージョン、または相対量、相対量または絶対量の範囲または誤差の推定値の計算のプロセスの前または最中に信号から差し引かれた基準線の値を含むことが可能である。
【0171】
グラフ表現も使用することができる。例えば、2つの試料集合からのスペクトル間のm/z強度対差については、スペクトルの2つの集合内の平均信号およびその標準偏差をグラフ化し、それにより、「信号プロット図」を作成することができる。グラフは、図10に示されているように、偽陽性区画ステータスに関してラベル付けすることができる。好ましい一実施形態では、これらの平均信号および偏差は、それぞれの側に有意性の領域とその領域の幅を加えた窓上で液体クロマトグラフィ溶出時間に対してプロットされる。p値などの他の要約統計量は、他の実施形態では、m/z識別子、0個またはそれ以上の指標変数、および/または実験的要因の関数としてプロットすることが可能であり、また試料または試料集合に関係する実験的要因および/または表現型、遺伝子型、および/または臨床データを示すためにラベル付けおよび/または彩色することが可能である(例えば、図11、12、13、および15を参照)。
【0172】
他の表現方法は強度プロットである。強度プロットは、色相、記号、強度、および/または色が強度、局所時間ワーピングまたは関連統計量(平均値、中央値、差のp値、分散、またはデータがその領域内にあるスペクトルの個数など)の関数であるイメージである。図11、12、および13は、強度プロットの実施例を示す。色は、例えば、黒色と白色、グレースケール、または記号で置き換えるか、または、増強することができる。強度プロットの利用可能な色、色相、強度、または記号により所望の情報が符号化できない場合、複数のプロットを作成し、互いに近い位置に配置するか、または透明および/または電子ディスプレイを使用して重ね表示することができる。
【0173】
図11は、時間およびm/z値の部分集合に対する平均強度値の差を例示する図である。
【0174】
図12は、p値の比較結果を例示する図である。時間永続性は、特定の強度または色の「直線」により視覚的に注目させることができる。
【0175】
図13は、差の大きさと有意性を例示する。
【0176】
図11、12、および13に示されているプロットは、データ集合の部分集合に対するプロットである。データ集合全体を含むさらに大きな部分集合も示すことが可能である。以下のような多数の変更形態が可能である。
(1)順位付きリストで指定されているものの周りの領域についてのみイメージ上に点(背景色以外の色とともに)示す。
(2)イメージが、順位付きリスト上のものによって示される、または関係する位置を中心とする、色、境界、形状、サイズ、向き、t−m/z平面の上の高さ、またはその領域内のデータを含むスペクトルの個数および統計値などの注目する属性とともに変化する他の属性を持つ、「スポット」のみからなるようにする。
(3)上記のすべての方法の組み合わせ、場合によっては、識別された差の位置または他の属性を示すまたはラベル付けするためにイメージ上に重ね合わされた幾何学的形状または記号を含む。
【0177】
イメージおよび順位付きリストは動的にすることも可能であり、それにより、ユーザがクリックしたりまたは他の何らかのことを行って順位付きリスト内の項目またはグループを示した場合に、グラフ上の対応する点が視覚的に強調され、以下の1つまたは複数が実現されるようにする。
(1)色、色相、強度、形状、または他の属性、または背景および/またはイメージ上の他の点の色を変更する。
(2)1つまたは複数の対応する信号プロットが示される。
(3)強度クロマトグラム全体、質量クロマトグラム、信号クロマトグラムの全体または一部、p値対tおよび/またはm/z、または1つまたは複数の指標変数に対するスペクトルまたは平均スペクトル、注目している範囲、および注目しているm/z強度対が示される。
【0178】
どのグラフを表示するかに関する決定は、チェックボックス、ラジオボタン、またはその他の共通インターフェイス要素により制御することが可能であり、また自動実行することができ、または対応するボタンまたはリンクがクリックされたときのみ表示することも可能である。さらに、リンクにより、ユーザは、マウスまたはタブレットなどのポインティングデバイスを使用して、イメージ上の点または領域を選択し、その後、含まれている有意な差および関連するグラフを表示できるようにすることが可能である。同様に、強度または信号または質量クロマトグラムまたはスペクトル(合計または局所的平均値または他の組み合わせ)から選択することが可能であり、表、強度プロット、または信号プロットとして表示することが可能である。
【0179】
視覚化を行う場合、マルチピーク情報を分離しておくデータ、またはピークから最初に情報を組み合わせたデータを使用することが可能である。例えば、図10の信号プロットは、個別のm/z識別子に対する信号、または上記の手法のどれかを使用して識別されているような所定の検体の異なる同位体に関係するすべての識別子に対する信号の総和などの組み合わせに基づくことが可能である。また、グループ化情報は、それらのグループ番号が場合によっては同じ検体を表すピークの集合間で変更されないようにグループ番号をピークに与えるか、またはピーク間の可能なグループ関係を示すグラフ(辺と頂点の集合、例えば格子)を描画することにより、示すことが可能である。複数のグループ番号またはグループ番号バージョンは、必要な場合にそれぞれのピークに割り当てて、ピークを複数の方法でグループ化できることを示すことが可能である。インターフェイスもまた、ピーク形状の相関などのグループ化に対する証拠を与えることが可能であり、これにより、ユーザは、何らかのグループ化の可能性の確認または拒絶を行い、それらのユーザ注釈を格納することができる。
【0180】
VI.分離手法
分離手法では、1つまたは複数の検体特性に基づき検体を分離する。分離手法の有用な特性は、サイズ、電荷、重量、疎水性、極性、および特定の化学成分の存在または欠如のうちの1つを含む。一般的分離手法フォーマットは、遠心分離、分画、クロマトグラフィ、ゲル電気泳動、疎水的相互作用チップ、気相イオン移動、気相イオン反応、および親和性チップを含む。
【0181】
本発明の一実施形態では、疎水的相互作用チップまたは親和性チップなどのチップを使用してスペクトルを取得し、一般的特性または特定の成分に基づいて検体を捕捉する。スペクトルは、例えば、表面増強レーザー脱離/イオン化によりチップ上で捕らえられる。(Petricoin et al.,The Lancet 359 :572−577,2002)。
【0182】
本発明の他の実施形態では、クロマトグラフ分離が使用される。クロマトグラフィは、静止している液体または固相の周りまたは上を、または一部真空または完全真空を通じて流れるときの溶質の分別分配の結果として液体または気体化学的混合物を複数の構成要素に分離することを伴う。
【0183】
好ましいクロマトグラフ法は、液体クロマトグラフィであり、これは、質量分析計に結合することができる。液体クロマトグラフィは、検体を分離することに加えて、試料集合間で異なるレベルの存在量を持つ検体を選択的に識別することを容易にするために使用されることができる指標(例えば、時間)を与えることもできる。
【0184】
さまざまな質量分析手法を、異なる液体クロマトグラフ法とともに適用することができる。液体クロマトグラフィとインターフェイスできる質量分析法の実施例は、電気スプレーイオン化、ナノスプレーイオン化、大気圧化学イオン化、および光電離を含む。(Lim et al.,Biol.Pharm Bull 25 (5) :547−557,2002)。
【0185】
異なる液体クロマトグラフ法の実施例は、高性能逆相液体クロマトグラフィ、キャピラリ電気泳動法、キャピラリエレクトロクロマトグラフィ、陽イオン交換クロマトグラフィ、陰イオン交換クロマトグラフィ、サイズ排除クロマトグラフィ、および親和性ベースのクロマトグラフィを含む。(Lim et al.,Biol.Pharm Bull 25 (5):547−557,2002;Link,Trends in Biotechnology 20(12,Suppl):S8−S13,2002)。
【0186】
検体分離は、多次元液体クロマトグラフィを使用して増強できる。多次元液体クロマトグラフィは、通常、検体の2つまたはそれ以上の無関係の物理的特性を使用することに依存する。(Link,Trends in Biotechnology 20 (12,Suppl):S8−S13,2002)。多次元液体クロマトグラフィは、例えば、指定された順序で2つまたはそれ以上の溶媒特性を変えることにより単一の分離装置内で2つまたはそれ以上の異なる液体クロマトグラフ工程を実行することにより実行することができる(Link et al.,Nature Biotechnology 17:676−682,1999)。
【0187】
VII.追加手法
必要ならば、注目している検体をさらに特徴付けるために、追加手法を実行することができる。他の特徴付けは、例えば、表現レベルが試料集合間で変化する特定の検体の素性または化学的構造を決定するために実行できる。
【0188】
ポリペプチドなどの検体は、さらに、タンデム質量分析などの手法を使用して特徴付けることができる。タンデム質量分析は、質量分析の複数の段階を使用して、さらに特定のm/zで特定の1つまたは複数のイオンを分析することを伴う。注目している(複数の)親イオンの識別を可能にする初期質量スペクトルを記録することは一般的な方法である。さらに、分析は、親イオンを生成物に転換し、その結果得られる生成物イオンを質量分析により分析することを伴う。
【0189】
質量分析から得られる結果は、検体同定に使用することができる。例えば、結果を、予測される質量スペクトルを含むデータベースと比較して、より小さな成分を調べることができる。同位体タグ付けを状況に応じて使用することを含むタンデム質量分析を実行する手法は、当業ではよく知られている。(Yates et al.,U.S.Patent No.5,538,897,Smith Trends in Biotechnology 20(12,Suppl):S3−S7,2002,Flory et al.,Trends in Biotechnology 20(12,Suppl):S8−S13,2002)。識別された検体およびその指標およびm/z値のデータベースを作成して使用し、データベースと照合して指標値またはm/z値の類似のパターンを持つすでに識別されている検体を検索することにより、将来の検体を推定識別することが可能である。
【0190】
VIII.応用
2つの試料間で異なる存在量を持つ検体を選択的に識別することには、異なる分野においてさまざまな用途がある。ある程度重なり合う、2つの一般的分野分類として(1)生物学的分類と(2)定性的分類がある。
【0191】
生物学的応用の実施例には、以下のものがある。
1)プロテオームと変調された状態とを比較する。
2)薬物代謝および代謝変化を評価する。
3)翻訳後修飾または共翻訳修飾を測定する。
4)健康と疾病状態、異なる疾病状態、または異なる健康状態を比較する。
5)変性タンパク存在量を測定する。
6)タンパク質一次配列修飾を測定する。
7)生物活性の変化を測定する。
8)遺伝子操作の効果を測定する。
9)細胞または動物の処理の投与または時間過程の研究を実行する。
10)生物兵器の存在を識別する。
11)所定の生体物質に対する特定の親和性を持つ化合物を識別する、特に多数の化合物に対するそのような親和性のレベルまたは存在を識別する。
12)生体系に効果を生じる化合物を識別する、特に多数の化合物に対するそのような効果のレベルまたは存在を識別する。
13)所定の生体系または物質または化学物質により変化を引き起こされる(例えば、新陳代謝、溶解、または他の何らかの方法による変性)生体物質を識別する、特に多数の物質に対するそのような変化のレベルまたは存在を、特に酵素基質を識別するタンパク質またはペプチドまたは他の化学または生物ライブラリの使用に関して識別する。
【0192】
定性的用途の例には、以下のものがある。
1)水、土壌、または衣類中の知られている、または知られていない汚染物質を検出する。
2)化学兵器の存在を識別する。
3)原材料または製造製品中の相違または不純物を識別する。
4)建物またはその他の囲まれた空間内の空気中の成分を識別する。
【0193】
検体は、分析前に修飾されていても、修飾されていなくてもよい。検体修飾を実行して、検体分析、検出、または精製を容易にするタグを加えることができる。例えば、タグ付けは、感度または特異性を高めたり、または他の何らかの手段により、試料集合間で検体を区別するために必要な属性を変えるために使用することが可能である。タグの例としては、蛍光性タグ、放射性タグ、結合タグ、親和性タグ、共有結合タグ、および同位体タグがある。タグは、例えば、1つの条件の下で試料にマークを付けるか、または多数の条件について試料に区別する形でマークを付けるために使用できる。
【0194】
生物学的および定性的な特定の応用領域は、(A)診断応用、(B)化合物評価および逆薬理学を含む薬理学、および(C)病気治療法を含む。
【0195】
A.診断
本明細書で説明されている分析法は、診断分析の実施および診断分析のためのマーカーの識別で使用することができる。診断分析は、疾病または疾患に関連するマーカーの存在または量を測定することにより実行できる。マーカーは、単一のまたは複数の検体に基づくことができる。核酸またはペプチドなどの細胞の内部、表面の中または上、または外部に存在する生物検体は、潜在的なマーカーである。
【0196】
疾病または疾患に関連するマーカーは、(1)疾病または疾患の存在またはレベル、または(2)疾病または疾患にかかる一般的母集団、または識別可能な部分母集団よりも大きな潜在性に対する予測能力を持つことを意味する。異なる種類のマーカーを測定し、原因物質に起因するマーカー、疾病および疾患に直接関わるマーカー、および/または疾病または疾患状態を反映するマーカーを含む関連が存在するかどうかを判定することができる。
【0197】
原因物質は、宿主物質および宿主内に導入された化学物質を含む。疾病または疾患に関連する宿主物質としては、宿主内に生成される有毒物質、および健常人に関して生成が過剰または不足な化学物質がある。
【0198】
疾病または疾患の原因となり得る外部物質は、化学物質、プリオン、細菌、菌類、始原細菌、およびウイルス、さらに電磁気化学機械分野、電離放射線またはその他の催奇性または中毒性または身体の自由を奪う物質を含む。さまざまな有機体またはその結果生じる損傷遺伝物質は、ペプチドを含むか、または符号化する。そのようなペプチド(とともに、潜在的に、他の化学物質)の存在または生産を測定することを利用して、疾病または疾患の存在または原因物質により疾病または疾患にかかる潜在的可能性を示すことができる。
【0199】
外部物質に対する宿主反応は、生物マーカーのもう1つの源である。宿主反応は、免疫グロブリンを含む免疫反応物質の生産または宿主レベルのペプチドの変化を含むことができる。
【0200】
疾病または疾患に関連するバイオマーカーは、原因物質についての事前の知識に基づいて選択することができるか、または経験的に判別することができる。1つまたは複数のマーカーと疾病または疾患との間の可能な関連は、統計的な、その他の計算による、またはグラフを使用した方法により評価することができる。
【0201】
異なる種類の試料集合を使用することで、疾病または順序に関連するバイオマーカーを識別することができる。可能な被験者グループは、疾病または疾患のリスクが高いすでに識別されている被験者および特定の疾病または疾患を持つ被験者を含む。試料集合は、さらに、疾病または疾患にかかるリスクレベルおよび疾病または疾患の臨床レベルを使用して定義することもできる。被験者グループは、さらに、承認可能なサンプリング手順に内在する試料のバイアスを含む利用可能な母集団からランダムに選択することもできる。(上述の第1節B「試料集合」を参照)。
【0202】
本明細書で説明されている手法を使用して大量のデータを分析できることで、異なる種類の試料において異なるレベルを持ち得る検体を識別するので、潜在的バイオマーカーの識別が容易になる。潜在的バイオマーカーと疾病または疾患との関連は、さらに、階層的および非階層的クラスタ化、集塊的および分割的クラスタ化、前記のクラスタ化法のハイブリッド、相関または関連の尺度、主成分または主最小二乗解析、ベイズ分類器、分類および回帰木、ランダム森、線形または2次判別分析、ニューラルネットワーク、患者規則導入方法、ベイズネットワーク、およびビリーフネットワークなどの分析法を使用して評価することができる。(例えば、T.Hastie,R.Tibshirani & J.Friedman.The Elements of Statistical Learning.Springer Series in Statistics.Springer,New York,2001;B.D.Ripley,Pattern Recognition and Neural Networks,Cambridge University Press;1996;Judea Perl Bayesian Networks,1988;Bayesian Networks and Decision Graphs by F.Jensen,Springer Verlag,2001を参照)。
【0203】
B.化合物の評価および薬理学
化合物の評価および薬理学を実施して、細胞または動物に対する化合物代謝作用および効果を評価することができる。代謝作用の研究は、生体物質のサンプリングによる判別、化合物の吸収、分配、代謝作用、および排出、およびその代謝副産物を含む。このような評価は、重要な治療対象を識別すること、潜在的治療化合物を優先順位付けすること、有毒代謝物を識別すること、治療代謝産物を識別すること、細胞または生物に有害と思われる検体の生産増大または減少を識別すること、細胞または動物に有益な効果をもたらす検体の生産増大または減少を識別することを含むさまざまな用途を含む。
【0204】
化合物逆薬理学は、新しい治療対象または1つまたは複数の知られている化合物の新しい用途を判別するために知られている効果を持つ化合物を使用して実施することができる。このような研究は、治療的介入の、有益なまたはそうでない、意図されない効果に対するバイオマーカーの識別を伴う可能性がある。
【0205】
C.病気治療法
ペプチドなどのバイオマーカーの表現状態から、細胞または動物の健康に関する情報が得られる。バイオマーカーレベルの変化は、特定の治療を選択し、治療の有効性を監視するために使用することができる。これらの変化は、例えば、未治療の被験者、異なる治療状態の異なる被験者、または治療中の異なる時点における被験者に関するものである。
【0206】
IX.ソフトウェア
本明細書で説明されている分析の異なる実施形態のコンピュータ実装は、コンピュータ可読形態で命令を供給するコンピュータプログラムを使用して実現することができる。異なる変更形態の実装の高水準のビューの実施例は、図1〜9に用意された流れ図に示されている。
【0207】
異なる種類のコンピュータ言語を使用し、コンピュータ可読形態の命令を与えることができる。例えば、コンピュータプログラムは、S、C、C++、FORTRAN、PERL、HTML、JAVA(登録商標)、CシェルスクリプトなどのUNIX(登録商標)またはLINUXシェルコマンド言語、およびそのような言語のさまざまな方言などの言語を使用して書くことができる。S言語の方言である「R」は、ここで提示されているような分析を行いやすくする属性を持つ方言の一実施例である(http://cran.us.r−project.orgを参照)。
【0208】
異なる種類のコンピュータを使用して、本明細書で説明されている分析法を実施するプログラムを実行できる。本明細書で説明されている分析法を実施するコンピュータプログラムは、十分なメモリおよび処理能力を備えるコンピュータ上で実行できる。好適なコンピュータの一実施例は、200MHz以上の速度のIntel Pentium(登録商標)ベースのプロセッサおよび64MB以上の主記憶を備えるコンピュータである。同等のまた優れたコンピュータシステムも、当業ではよく知られている。
【0209】
さまざまな種類のコンピュータに対し標準オペレーティングシステムを採用することができる。Intel Pentium(登録商標)ベースのプロセッサ用のオペレーティングシステムの実施例としては、Windows(登録商標) NT、Windows(登録商標) XP、およびWindows(登録商標) 2000などのMicrosoft Windows(登録商標)ファミリおよびLINUXがある。Macintoshコンピュータ用のオペレーティングシステムの実施例としては、OSX、UNIX(登録商標)、およびLINUXオペレーティングシステムがある。他のコンピュータおよびオペレーティングシステムも、当業ではよく知られている。異なる実施形態では、LINUXオペレーティングシステムが稼働する4GB RAMデュアル866MHz Pentium(登録商標) IIIプロセッサを備えるIntelベースのコンピュータまたはIntelベースのコンピュータがWindows(登録商標) NTまたはXPオペレーティングシステムをx−windows端末として実行するAIXオペレーティングシステムが稼働するIBMコンピュータ上で、R言語が使用される。
【0210】
X.実施例
本発明のさまざまな特徴をさらに例示するために、いくつかの実施例を以下に示す。これらの実施例は、本発明を実施するための有用な方法も例示している。これらの実施例は、請求されている発明を限定しない。
【実施例1】
【0211】
分析法
数値の2つの集合が著しく異なるかを判別するための統計的方法は多数ある。(Kanji,100 Statistical Tests,1999,SAGE Publications,W.J.Conover.Practical nonparametric statistics(2nd ed.).New York:John Wiley & Sons,1980)。この実施例は、試料集合内バラツキおよび試料集合間バラツキを使用して差の統計的有意性を判定することを示している。この実施例は、t検定、その後、ウイルコクソン順位和検定を示している。
【0212】
この節の計算はすべて、表1のサンプルデータについて示されている。計算の数値は、例示目的のために選択された。
【0213】
I(A,1)、I(A,2),...I(A,5)のラベルが付いている列は、試料集合Aに対する強度の5つの測定(ビン分割および正規化)を表しており、I(B,1)からI(B,5)までと試料集合Bについても同様である。これらの数値の平均値は、列平均(A)および平均(B)内にある。Mean(A)は以下のように計算された。
【数1】
Mean(B)も類似の方法で計算された。
【0214】
測定結果の2つの集合間の差は、一部は、平均値の差、D=mean(A)−Mean(B)で表すことができる。この差Dが0から著しく異なっているかどうかを決定するために、1つの統計的アプローチでは、このサイズの差を偶然見つける可能性を判定する。
【0215】
測定結果およびいくつかの統計的仮定が与えられると、ランダムな出来事(例えば、ノイズ)による少なくともD程度の大きさの差を見つける確率は、以下のようにして計算できる。この確率は、「p値」と呼ばれ、差は、通常、p値が0.05未満の場合に有意とみなされるが、アプリケーションに応じて他のしきい値を使用することもできる。
【0216】
一般に、DがAおよびBの「散らばり」または「バラツキ」と比較して小さい場合、少なくともD程度の大きさの差を見つけることは、ランダムな一致である可能性が高すぎるとみなされ、したがって重要でない(図14A、14B)。DがAおよびBの「散らばり」または「バラツキ」と比較して十分に大きい場合、偶然生じることはあり得ず、有意であるとみなされる(図14C、14D)。
【0217】
そこで、試料集合内バラツキ(A測定の散らばりとB測定の散らばり)はDで表される試料集合間バラツキ(および一緒に考察されている10個の点すべての散らばり)と比較される。
【0218】
t検定の場合、試料集合Aに対する集合内バラツキの尺度は、Dev(A)であり、試料偏差である。
【数2】
これから、以下のように計算する。
【数3】
ただし、この実施例ではnA=5である。この節で使用されている記号は、表1、および図1〜9の流れ図内の記号に対応している。
【0219】
SAは、測定結果が平均値を中心にどれくらい散らばっているかを示す尺度である。すべての測定結果が同一であれば、この数値は0である。そうでなければ、これは、試料集合A内のデータの分布(散らばりパターン)を表す、最良適合釣鐘曲線(「ガウス」または「正規」)の幅の推定値を与える。類似の計算がBについても実行される。
【0220】
DがSAおよびSBに関してどれだけ大きいかを判定するために、これらを以下のように組み合わせ、
【数4】
その後、以下を求める。
【数5】
【数6】
の統計的有意性は、t分布におけるその確率(p値)を計算することにより求めることができる。これは、さらに、測定回数およびSAとSBとの間の差を考慮する、「自由度」Fの数を知っている必要がある。
【数7】
実際、p値は、標準のスプレッドシートアプリケーションの関数を使用するか、または表の中の値を検索して、
【数8】
およびFに基づき計算することができる。
【0221】
これらの値は、表1の中のp1、p2、...、p8とラベルが付いている8つの例について計算されている。時間指標変数を持つ典型的なLC−MSアプリケーションでは、t、p1、およびp2は、それらが典型的p値しきい値0.05よりも小さくても考慮対象から外される。これは、これらの(差の)有意性が長時間、持続しないからである(表1が完全であると仮定して)。点p3からp7は、単一のm/z識別子を共有し、5回連続するランを持ち、統計的有意性は典型的しきい値0.05未満であり、したがって、これら5つの点により、m/z 502.1は、開始時間3および終了時間3.2で有意な差を持つものとしてフラグが立てられる。
【表1】
【0222】
点p8は、約0.15のp値を持ち、これは、通常使用されているしきい値よりも著しく高い。そこで、m/zおよび開始および終了時間に有意であるとフラグを立てる基準として有意な差のある連続(5ではなく)6回のランが必要であった場合、これは欠落する。しかし、点p8では、すべての5A値は2000未満であるが、すべての5B値は2000よりも高い。t検定がこの有意性を見つけられなかったのは、点の分布に関する基礎となる仮定(「正規性」)に反していたという理由からである。この検定は、1つまたは複数の「外れ値」(まれな、異なる測定結果)により望ましくない結果が引き起こされる可能性があるため「ロバスト」でないと言われる。
【0223】
データに関する仮定を緩めた代替え検定の実施例がウイルコクソン順位和検定である。(Kanji,100 Statistical Tests,1999,SAGE Publications,W.J.Conover.Practical nonparametric statistics(2nd ed.).New York:John Wiley & Sons,1980)。この検定を適用するには、10回の測定結果に最小から最大まで1から10の順位を付ける(表2)。
【表2】
その後、Aの順位を足し合わせて1+2+3+4+5=15を得る。この合計は、試料内バラツキに関する試料間バラツキの尺度となるが、それは、測定結果同士の比較方法を考慮しているからである。この検定で、値15を表の中で探索し、p値が0.01未満の場合にこの順序が有意であることを見いだすことができる。実際、異なる検定から計算されたp値の集合から最小のp値を取り出すことが可能である。これにより、感度は高まる(より多くの点が検出される)が、推定対数尤度の適当な補正(ボンフェローニなど)が必要になることがある。
【実施例2】
【0224】
調合されたタンパク質混合物の分析
この実施例では、合成孤立または精製タンパク質試料集合を使用して、検体の複雑な混合物が存在している場合に試料集合間で異なるレベルの存在量を持つ検体の選択的識別を例示している。この実施例では、m/z強度対に加えて時間指標を使用し、比較的低いレベルの検体差に対応するスペクトル内の小信号に対する高い感度を維持しながら偽陽性を減らすために使用できる異なるフィルタ処理手法の結果を例示する。
【0225】
タンパク質消化物標準
24個のタンパク質のトリプシン消化物は、Michrom BioResources(カリフォルニア州オーバーン)から入手した。選択されたタンパク質、ソース、および対応する分子量は、シトクロムC(ウマ)12kDa、リゾチーム(ニワトリ)14kDa、ヘモグロビン(ウシ)17kDa、ミオグロビン(ウマ)17kDa、ベータラクトグロブリン(ウシ)18kDa、キモトリプシノゲン(ウシ)25kDa、カルボニックアンヒドラーゼ(ウシ)29kDa、デオキシリボヌクレアーゼ(ウシ)31kDa、カルボキシペプチダーゼA(ウシ)35kDa、グリセルアルデヒド3Pデヒドロゲナーゼ(ウサギ)37kDa、コナルブミン(ニワトリ)40kDa、ペルオキシダーゼ(ホスラディッシュ)44kDa、アルファアミラーゼ(バシラス属)50kDa、グルタチオンSトランスフェラーゼ(ウマ)51kDa、グルタミン酸脱水素酵素(ウシ)55kDa、ウシ血清アルブミン(ウシ)68kDa、アポトランスフェリン(ウシ)76kDa、ラクトペルオキシダーゼ(ウシ)85kDa、アミログルコシダーゼ アスペルギルス属92kDa、ホスホリラーゼB(ウサギ)97kDa、ベータガラクトシダーゼ(ウシ)115kDa、カタラーゼ(ウシ)128kDa、乳酸脱水素酵素(ウサギ)140kDa、免疫ガンマグロブリン(ブタ)160kDaであった。それぞれの試料は、−80℃で凍結保管された。
【0226】
ペプチド標準
凍結乾燥ブラジキニン1〜9(MW=1060u)、アンギオテンシンI(MW=1296)、およびニューロテンシン(MW=1672)は、Sigma−Aldrich社(ミズーリ州セントルイス)から入手した。ペプチドを0.1%のトリフルオロ酢酸(TFA)と組み合わせて再構成し、10pm/uLの原液を作った。
【0227】
タンパク質消化物の組み合わせ
0.1%TFA 10uLアリコートを、シトクロムC、リゾチーム、ヘモグロビン、ベータラクトグロブリン、キモトリプシノゲン、カルボニックアンヒドラーゼ、デオキシリボヌクレアーゼ、カルボキシペプチダーゼ、グリセルアルデヒド3Pデヒドロゲナーゼ、ペルオキシダーゼ、グルタチオンSトランスフェラーゼ、グルタミン酸脱水素酵素、アポトランスフェリン、ラクトペルオキシダーゼ、アミログルコシダーゼ アスペルギルス属、ホスホリラーゼ、ベータガラクトシダーゼ、カタラーゼ、乳酸脱水素酵素、免疫ガンマグロブリンの20個のタンパク質消化物標準約500pmolに加えて50pm/uLの溶液を調合した。タンパク質消化物原液を組み合わせて、20個のタンパク質消化物からなる2.5pmol/uLの混合物を得た。この混合物は、タンパク質混合物AおよびBと表されている2つの同じ100uLアリコートに分けられた。
【0228】
タンパク質混合物Aへの添加(試料集合1)
ミオグロビン(50pm/uL)、コナルブミン(10pm/uL)、アルファアミラーゼ(5pm/μL)、およびウシ血清アルブミン(1pm/uL)は、各凍結乾燥タンパク質消化物の約500pm分を10、50、100、および500uLの0.1% TFAでそれぞれ再構成して調合された。それぞれの原液の10uLアリコートを100uLのタンパク質混合物Aに添加した。10uLの0.1% TFAを添加して原液Aの最終量を150uLにした。タンパク質混合物A内の消化されたタンパク質最終の計算濃度は、[20タンパク質混合物]=1.7pm/uL、[ミオグロビン]=3pm/uL、[コナルブミン]=0.7pm/uL、[アルファアミラーゼ]=0.3pm/uL、[ウシ血清アルブミン]=0.07pm/uLである。
【0229】
タンパク質混合物Bへの添加(試料集合2)
コナルブミンの10pm/uL原液の35μLアリコートを100uLのタンパク質混合物Bに添加した。さらに、10pm/uLペプチド原液の10uLアリコートをタンパク質混合物Aに添加し、0.1% TFAを5uL添加して、最終的な量を150uLに増やした。
【0230】
液体クロマトグラフィ質量分析プロトコル
分析的液体クロマトグラフ(HP1100、Agilent Technologies社、カリフォルニア州パロアルト)および四重極イオントラップ質量分析計(LCQ;ThermoFinnigan社、カリフォルニア州サンノゼ)を使用して試料を分析した。試料は、C18逆相カラム(Brownlee OD−300,Aquapore,C18,7mm,300a,5cm x 1.0mm;Perkin Elmer,Wellesley,MA)に注入され、100uL/分の流速で0.1% TFA(溶媒A)およびアセトニトリル(溶媒B)の2値勾配により分離された。勾配は45分以内に0から70%溶媒Bに増加し、溶出物は質量分析計の電気スプレーイオン化ソース内に向けられた。完全走査重心質量スペクトルが、400から1800Da/zまでのm/z範囲にわたって1.2秒毎に取得された。LC−MSデータファイルは、計測器固有形式から、保持時間、m/z、および強度データを3列で含み、さらに実験および/または試料を識別するために使用される他の補助情報を含むテキストファイルに変換された。
【0231】
複製混合物分析
HPLCオートサンプラを使用して、ペプチド標準およびタンパク質試料AおよびBの複製スペクトルを収集した。使用した注入順序は、ブランクの試料、ペプチド標準、ペプチド標準、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、およびペプチド標準であった。開始時のブランク試料は、保持時間の一貫性を高めるのに役立つが、ペプチド標準はその一貫性を検証するのに役立つ。他の順序も使用されている可能性がある。
【0232】
個別タンパク質消化物の特徴付け
0.1% TFAの500uLアリコートを各凍結乾燥タンパク質消化物の500pmolに添加してミオグロビン、コナルブミン、アルファアミラーゼ、およびウシ血清アルブミンの1pm/uLの溶液を調合した。LCMSプロトコルを使用して、それぞれの個別タンパク質消化物を分析した。
【0233】
結果
2つのタンパク質混合物からの質量分析信号間で204個の差が検出された。単一の再アライメント工程が実行され、その結果113個の差が得られた。排除された差の大半は、完全または半シフトであった。2つのタンパク質混合物の間のそれぞれの故意に持ち込まれた化学的な差により、質量分析信号に複数の差が生じた。逆に、質量分析信号間のほとんどすべての差は、2つのタンパク質混合物間の知られている差の1つから生じるものとして肯定的に識別された。
【0234】
図1Aおよび2〜6に例示されている方法の偶数番号の工程を使用して実行した分析の結果は表形式とグラフで例示されている。表3は、表形式で結果の一部を示している。表10は、図形式で4つの結果を示している。
【0235】
表3は、「グループ」、「質量」、「開始」、「終了」、「対数尤度」、「A/Bのうち高い方」、および「シフト」を示している。情報を加減した表を含む表3の異なる変更形態も可能である。シフト0は、2つの試料集合の化学組成の差による可能性が最も高いものとして自動的に判別された結果であることを示す。シフト「0.5」は、半シフト(上の第II節「分割」を参照)を示しており、一般に、信頼度または偽陽性の尤度に関する区画を示すことが可能である。「1」は、完全シフトを示すが、再アライメントの後、このデータ集合は、完全シフトを持っていなかった。
【表3】
【0236】
グラフを調べて、2つの試料集合からのスペクトルにおいて異なるレベルを持つ205個のm/z強度対の結果を分析した。図10は、調べることができたグラフの4つの例を示している。22個の結果が(対で)可能な完全シフト偽陽性の構成要素として識別され(時間的にシフトした信号の立上りおよび立下りエッジが両方とも差として識別されたシフト)、76個が可能な半シフト偽陽性として識別された(1つのエッジのみが差として識別された)。106個の結果が、可能な偽陽性として識別されなかった。
【0237】
観測されたシフトは、ワンタイムビンのシフトの周りに密クラスタ化された(B条件はA条件よりも後に抽出)。このシフトを考慮して、分析が再実行された。この分析で、113個の差のみが発見された。そのうち6個は、可能な半シフトであると識別され、識別された完全シフトはなかった。結果は、溶出時間ではシフトを使用しない分析の結果とほとんど一致している。シフトされた分析のほとんどすべての結果が、シフトなしで実施された分析の中に存在した。初期分析で可能な偽陽性として識別されなかった20個の結果は、シフトされた分析の中で消えたが、弱い結果となる傾向があった(そのうち13個は、100番目のエントリよりも後に出現した)。少数の新しい弱い結果も、シフトされた分析の中に出現した。
【0238】
単一試料集合からのスペクトル同士を比較し、何も存在しない場合に見かけ上の差が発生した可能性を調べた。4つからなる2つの集合において、4つからなるグループ内、または2つのグループ間のいずれかで試料を繰り返さずに、条件Aからの8個のスペクトルを比較した。部分集合の100個の対をランダムに選択し(可能な8!=40320個の可能性のうちから)、それぞれの対を差に関して分析した。100個の結果のうちには、半分以上には差が見つからず、差の個数の第3四分位(第75百分位)は1である。
【0239】
したがって、偽陽性の個数は、一般に低いと予想される。部分集合の少数の対により、13または15個の差が生じ、100個の部分集合対にわたる偽陽性の総数は196であった。偽陽性率は、分析1回につきおおよそ2と推定することが可能である。
【実施例3】
【0240】
タンパク質存在量の差の計量
ときには、タンパク質存在量の変化を検出できるだけでなく、検出されたタンパク質の存在量が変化した量を推定できることも有用である。タンパク質混合物による実験を行い、タンパク質存在量の相対変化の計量を例示した。
【0241】
基本混合物は、実施例2のように、BSAは、2つの試料の間のタンパク質存在量の2fold changeについて、濃度0.06pmol/μLで条件Aにスパイクされ、濃度0.03pmol/μLで混合物Bにスパイクされた。
【0242】
表4は、3つの異なる検出された差に対する、これらの計算の3つの実施例をまとめたものである(図1〜9も参照)。強度の対数の曲線の下の面積の比または強度の対数の曲線の下の面積の差に基づく方法を使用して正規化された強度および非正規化された強度に基づく値が与えられる。3つの差はすべて、推定濃度比2:1で条件AおよびBにスパイクされたウシ血清アルブミンから生じる。
【表4】
【実施例4】
【0243】
ブランクとの比較によるミオグロビン消化物の分析
ミオグロビン消化物から取り出されたLCMSデータをブランク試料から得られたLCMSデータとを比較するために本明細書で説明されている手法が適用された。それぞれについて5つのデータ集合が得られた。これらの結果と実施例2で説明されているのと似ているが、0.625pmol/μLの濃度の試料Aの中にミオグロビンがスパイクされ、試料Bにはミオグロビンが存在しないスパイク実験からの結果とを比較した。スパイクされた消化物の濃度は1pmol/μLであった。
【0244】
モーメント法による基礎となる対数の分布の平均および分散を見つけることを伴う検定を使用して、ブランクとミオグロビン消化物との間に36個の有意な差が見つかった。これらのうち18個が、ミオグロビン消化物がある場合とない場合についてペプチド混合物の間の比較で検出された(同じm/z値を持ち、保持時間は50%を超えてオーバーラップしている)。ペプチド混合物比較で見つからない18個の差は、見つかった差よりも小さい。例えば、平均強度曲線の下の面積を調べると、ペプチド混合物比較では見つからなかったグループ内で、有意な差の領域内の曲線の下の面積の中央値の差は、任意の強度単位で114800であり(四分位範囲66210〜156100)、見つかったグループについては、中央値の差は210200である(四分位範囲「iqr」173400〜689600)ことがわかる。同様に、平均強度曲線の最大値を調べると、中央値はスパイク対ブランク比較でしか見つからないグループ内で23180(iqr15740−34380)であり、ペプチド混合物の比較でも見つかるグループでは45370(iqr28540〜101860)であることがわかる。ペプチド混合物の比較で見つからないこれらの差のうちの2つは極端に小さく、偽陽性である可能性がある。
【0245】
ブランク対ミオグロビン消化物比較でのミオグロビンの濃度は、ペプチド混合物比較での濃度よりも50倍以上大きかった。濃度の高い消化物内で小さい差は、物質があまり濃縮されていない場合には検出されなかった。
【表5】
【表6】
【実施例5】
【0246】
指標変数なしで質量分析法を使用した臨床血清試料の分析
この実施例では、指標変数を含まないスペクトルの分析、およびバイオマーカーの識別を例示している。データは、Webサイトhttp://clinicalproteomics.steem.com/download−ovar.phpからダウンロードされた。Petricoin et al.,Lancet 359:572−577,2002では、このデータを利用し、異なる分析法を使用して癌バイオマーカーを識別することについて説明している。
【0247】
データは、図1Aおよび2の偶数番号のボックスの中の工程を使用して分析されたが、ただし106、108、112、および136では「no」で応え、130、132、および134の機能を実行しない。この分析では、ビン幅1(それぞれ、ビン幅0.5)として参照される、それぞれの指定値のいずれかの側で0.5単位(および0.25単位)内のm/z値の窓を使用した。後述の分析については、2つのビン幅の結果は定量的には異なるが、定性的には異ならない。
【0248】
データ集合内のそれぞれ、およびすべてのm/z識別子の有意性を計算した。パターン認識法および識別された信号を使用することで、ほんの一握りのこれらの信号を使用する疾病状態の完全な予測器を作成できた。(「完全な予測器」は、学習データの集合および独立の検定集合の両方において誤りなしでコントロール試料から癌を区別する)。
【0249】
この分析では、癌スペクトルの2/3およびコントロールスペクトルの2/3は、学習集合としてランダムに選択され、残り1/3は検定集合として使用された。この方法で、オリジナルの集合内の15,200個の識別子と比較して、癌と6381個のm/z識別子に関連付けられた信号内のコントロールクロマトグラムとの間の有意な差を識別した。6925個の識別子での差は、ビン幅0.5で有意であった。オリジナルの集合内の正確な識別子がビン分割なしで使用された場合、7884個、またはおおよそ半分に関連する信号は、2つの条件の間で著しく異なることが判明した。
【0250】
図15は、それぞれの結果の有意性(負の対数尤度)に対してプロットされた、癌標本と非癌標本との間の有意な差を示す信号と関連する6381個のm/z識別子を示している。負の対数尤度が高いほど、示される有意性は高い。暗い色の正方形は、非癌標本よりも癌の中での方が高い信号に関連付けられたm/z識別子を示し、明るい色の円は、癌標本の中よりも非癌標本の中での方が高い信号に関連付けられたm/z識別子を示す。有意な識別子の幅の広いピークは可視であるという事実は、データのm/z分解能が劣ることを反映する場合がある。いくつかの場合に、結果は、同じ検体の一重または二重荷電状態または単量体または二量体配置に対応しているように見え、結果の信頼度が増すか、またはバイオマーカー識別の解釈または使用に役立つ可能性がある。
【0251】
高いm/z識別子についてはピーク幅が広いという事実もまた、一部は、測定されたm/z値はより高い範囲でより広い間隔で並んでいるという事実を反映する可能性がある。また、これは、おそらくデータを生成するために使用される計装の分解特性を反映すると思われる。これは、このp値プロット内のピークのデコンボリューションを実行して(定評のある方法を使用する)、各ピークの中心、またはソース、m/z識別子を見つけるか、またはより高いm/z範囲に対し広いビンを使用することにより処理することが可能である。その結果得られるm/z識別子および組み合わせた(統計量またはAUCまたはその他の共通の方法により)強度は、バイオマーカーとして使用するのに信頼できると考えられる。
【0252】
信号の2つの分布の平均値が区別可能でない場合、それらの分布からの個別の信号は、平均値が区別可能である信号であるコントロールクロマトグラムから癌を区別できるために十分に異なる可能性は低い場合がある。したがって、識別されたm/z識別子に対応する信号は、個々のバイオマーカーに対する有望な候補といえる。
【0253】
信号の6381個の集合の並べ換えをして、コントロール試料から癌を区別するためにどの部分集合を使用できるかを見いだすには、膨大な計算量を必要とする。p値の分布の上位5%内にある個々のp値とともにm/z値を使用して、分類木(T.Iastie,R.Tibshirani & J.Friedman.The Elements of Statistical Learning.Springer Series in Statistics.Springer,New York,2001)を作成した。最も区別可能な平均値を持つ信号は、区別可能な平均値を持つ信号は適切な個別バイオマーカーである可能性が比較的高いという同じ理由から、適切な分類器を作成できる可能性が最も高い。
【0254】
3つのm/z識別子246、435、および25のみで信号を使用する分割を持つ単純木では、学習集合の完全分類を行い、検定集合内の1つの癌および1つのコントロールの分類を誤る。m/z 246の信号は、単一の最良の分類器であり、これらの信号単独で、学習集合内に3つの誤りのみがあり(1つの癌および2つのコントロールが分類を誤る)、検定集合内に6つの誤りがある(1つの癌および5つのコントロールが分類を誤る)学習集合を分類する。
【0255】
最良の分類木内のm/z値の3つすべてが小さかったため(およびしたがって、試料自体にではなく、分析のため試料が埋め込まれたマトリクスに潜在的に関連する)、ある値以上のm/z識別子のみが許されるという制約条件により追加分類木が構築された。400よりも大きいm/z識別子のみが許されている場合、識別子435、417、419、および463が使用される。学習集合は、完全に分類されるが、検定集合内では、2つのコントロールが、分類を誤る。これらの識別子はそれぞれ、500未満である。500よりも大きいm/z値のみが許される場合、分類木は、m/z値618、681、3991、3992、4004、4746、4820、および7995を使用して構築される。学習集合は、完全に分類され、検定集合内では4つの癌および4つのコントロールが、分類を誤る。そこで、このデータ集合内では、適切な分類実行は、低いm/z識別子を使用すると達成しやすいように思われる。
【0256】
最良の信号識別子(246)として識別された信号は、完全分類を与える集合の一部としてデータを供給するWebサイトにはリスティングされておらず、したがって、新規発見となり得る。
【0257】
異なるm/z識別子の重要度を評価するもう1つの方法は、ランダム森を構築することである(Breiman,L.(2001),Random Forests,Machine Learning 45(1),5−32)。ランダム森は、分類木の集合体であり、それぞれの木で使用されるデータ(データのブートストラップサンプリングを通じて)、およびそれぞれの木を構築する際の各工程での分類に使用されるのにふさわしい変数の両方にランダム性が持ち込まれる。分類は、森の構成木の複数の票によるものである。十分に大きな森が生成される場合、それぞれの変数は、データの多数の異なる部分集合により何回も分類特徴としてみなされる。したがって、それぞれの変数の重要度を評価する、つまり、結果全体がそれぞれの個別変数の影響をどれだけ受けるかを評価することが可能である。ビン幅1および0.5を使用して、データ集合内の正確な識別子について変数の重要度がチェックされると、結果は概して一貫性がある。245に近いm/z識別子を持つ変数のクラスタは、それぞれの場合において最も重要であり、その後に、435および465に近いm/z識別子が続く。そのため、これらの変数の重要度の結果は、単一分類木を使用した分析と整合していた。
【0258】
他の実施形態は、請求項の範囲内にある。いくつかの実施形態が図に示され、説明されているが、本発明の精神および範囲から逸脱することなく、さまざまな修正を行うことができる。
【図面の簡単な説明】
【0259】
【図1A】時間指標を伴う好ましい実施形態の工程を示す図である。
【図1B】アライメントのための他の方法とともに時間指標を伴う好ましい実施形態の工程を示す図である。
【図2】図1Aまたは1Bで「差を見つける」に使用できる工程の実施例を示す図である。
【図3】図1Aまたは1Bで「結果のグループ化」に使用できる工程の実施例を示す図である。
【図4】図1Aまたは1Bで「偽陽性のフィルタ処理I」に使用できる工程の実施例を示す図である。例示されている工程は、ヒストグラムでの相対的時間的シフトのみによるものであるように見える「完全シフト」差を探すために採用することができる。完全シフトは、A>Bの後同じm/zでB<Aが時間的にすぐ続いて出現することと定義される。
【図5】図4に例示されている「偽陽性のフィルタ処理II」の工程の実施例を示す図である。例示されている工程は、半シフト差を調べることにより偽陽性を探すために採用することができる。「半シフト」は、完全シフトの半分のみ(前の段落のように)が統計的に有意な差として検出される状況において発生する。実際、半シフトは、完全シフトよりも頻繁に見られた。
【図6】図1Aに例示されている「出力および反復モジュール」に使用できる工程の実施例を示す図である。
【図7A】図1Aに例示されている「条件内でスペクトルのアライメント」モジュールに使用できる工程の実施例を示す図である。
【図7B】図1Bに例示されている「条件をまたがってスペクトルのアライメント」モジュールに使用できる工程の実施例を示す図である。
【図7C】図7Bに例示されている「ランドマークを見つける」モジュールに使用できる工程の実施例を示す図である。
【図7D】図7Bに例示されている「ランドマークをフィルタ処理する」モジュールに使用できる工程の実施例を示す図である。
【図8】偽陽性のフィルタ処理の代替え方法として使用できる工程の実施例を示す図である。
【図9】2つのスペクトル集合内の信号の相対強度を定量化するために使用できる工程の実施例を示す図である。
【図10】異なる種類の信号差を例示する図である。一番上のパネル:確認された信号。左下:半シフト−半分が有意として検出されたシフト信号。右下:完全シフト−前半分と後半分の両方が検出されたシフト信号。
【図11】時間およびm/z値の部分集合に対する平均強度値の差を例示する図である。図11は、暗色領域は条件Aにおいて高く、明色領域は条件Bにおいて高い白黒表現である。これは、カラーを使用して表現することも可能であり、例えば、緑色は有意な差を示さず、青色と紫色の陰影は、条件Bにおいてより高い平均値を示し、黄色と赤色の陰影は、条件Aにおいてより高い平均値を示す。
【図12】p値の比較結果を例示する図である。図12は、暗いということは条件Bにおいて著しく高いことを示し、明るいことは条件Aにおいて著しく高いことを示す白黒表現である。これは、カラーを使用して表現することも可能であり、例えば、オレンジ色は有意な差を示さず、より強い赤色は、条件Bにおいて著しく高いことを示し、黄色は、条件Aにおいて著しく高いことを示す。
【図13】差の大きさと有意性を一緒に例示する図である。図13は、差の大きさが青色(小さな差)または赤色(大きな差)を持つカラー表現のモノクロ描画であり、有意性は、薄い色(有意性なし)または濃い色(有意性あり)の強度で表される。モノクロ表現では、大きさと有意性の次元は融合され、その結果、情報が失われる。
【図14A】2つの条件のうちのそれぞれで5つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図14B】2つの条件のうちのそれぞれで5つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図14C】2つの条件のうちのそれぞれで5つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図14D】2つの条件のうちのそれぞれで5つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図15】癌標本と非癌標本との間の有意な差を示す信号と関連するm/z識別子を示す図である。横軸:m/z(0から19000の範囲、2000毎にグリッド線)。縦軸:負の対数尤度(各パネル内で0から100の範囲、20毎にグリッド線)、正方向の値は、より有意な差に対応している。90よりも大きい負の対数尤度は、見やすくするため100のところでプロットされている。暗い色の正方形は、癌標本の中でより高い信号に関連付けられたm/z識別子を示し、明るい色の円は、非癌標本の中でより高い信号に関連付けられたm/z識別子を示す。例えば、m/z 4000およびm/z 8000の結果の対は、電荷z=1およびz=2での同じペプチドまたはペプチドの単量体および二量体構成に対応することができる。
【技術分野】
【0001】
本出願は、参照により本明細書に組み込まれている、2003年4月2日に出願した米国仮出願第60/459,813号の利益を主張するものである。
【背景技術】
【0002】
本出願全体を通して引用されている参考文献は、請求されている発明の先行技術であると認めるものではない。
【0003】
質量分析法では、複雑な混合物中の多数の検体を検出することができる。環境および生物学上重要な検体を含むさまざまな種類の異なる検体が検出され得る。
【0004】
ペプチドは、生物学上重要な検体の一例である。タンパク質などのペプチドは、複雑な仕組みで相互作用し、細胞機能を調整する。特定のタンパク質またはその修飾体の存在量のわずかな変化であっても、細胞の機能を大幅に変化させ、動物の健康全般に影響を及ぼし、細胞または動物の健康に関する指標になり得る。
【0005】
ペプチド発現を測定するプロテオミクス研究では、質量分析法の利用が増大してきている。(Smith、Trends in Biotechnology 20 (12,Suppl):S3−S7,2002)。
【発明の開示】
【発明が解決しようとする課題】
【0006】
本発明では、異なる試料集合間で存在量が異なる検体を選択的に識別するために採用できる質量分析法データ分析手法を特徴とする。採用される手法では、個々の試料と試料集合の間の質量電荷比(「m/z強度対」)に関連付けられた信号に対する変化の統計的有意性を決定する。統計的有意性に基づき、検体レベルの差を示す可能性のある変化が識別される。これらの信号の強度に基づき、検体存在量の比が決定され得る。
【0007】
試料集合間の検体レベルの変化以外の要因による所定のm/zでの信号のバラツキはノイズとして取り扱われる。ノイズは、それぞれの試料集合内の生物学的または化学的なバラツキ、および計測器で行われる測定に内在する変動性を含み得る。
【0008】
「試料集合」は、分析目的のために1つにまとめられた1つまたは複数の試料の集合体である。特定のグループ分けは、一般に、1つまたは複数の共通の特性を持つ試料を伴う。共通の特性としては、例えば、試料の入手先、試料の知られている属性または試料の出所、および実験条件がある。
【0009】
試料集合は、「標準」とすることができ、これは、いかなる検体をも含まないか、または知られている量の知られている検体を含む。標準は、異なる試料集合と比較され、異なる試料集合が特定の検体を含むかどうかを判定することができる。
【課題を解決するための手段】
【0010】
そこで、本発明の第1の態様では、2つまたはそれ以上の試料集合間の1つまたは複数の検体のレベルの差を識別するための質量分析法に基づく方法を特徴とする。この方法は、
a)スペクトルは、m/z強度対を含み、m/z強度対は、m/z識別子およびm/z識別子に関連付けられた信号を含む、2つまたはそれ以上の試料集合に対する個別試料のスペクトルを取得する工程と、
b)m/z強度対からの1つまたは複数のm/z識別子のそれぞれのm/z識別子について、それらのスペクトル内の対応する信号間の関係を判別する工程と、
c)試料集合内および試料集合間の両方の信号分布に基づく、信号が試料集合間の異なるレベルを持つ検体から生じる可能性の尺度である順位または値をそれぞれの関係に割り当てる工程とを含む。工程(c)では、関係の統計的有意性を評価する。
【0011】
本発明の他の態様では、2つまたはそれ以上の試料集合間の1つまたは複数の検体のレベルの差を識別するためスペクトルを分析するコンピュータプログラムを特徴とする。このプログラムは、本明細書で説明されている分析を実行するための命令をコンピュータ可読媒体に置く。
【0012】
(複数の)m/z識別子および、もしあれば、1つまたは複数の検体のレベルの差に対応する(複数の)指標変数値は、(複数の)検体を「識別する」と言われる。この方法で識別された検体は、さらに、タンデム質量分析、データベース検索、および化学分析などの他の分析法により特徴付けられ得る。識別された検体の相対存在量も、定量化できる。
【0013】
「指標付きスペクトル」は、試料について得られたm/z強度対および対応する指標変数値の集合である。実施例は、LC−MS(例えば、高性能液体クロマトグラフィMS、逆相および順相クロマトグラフィMS、超高圧液体クロマトグラフィMS、サイズ排除クロマトグラフィMS、陰イオンまたは陽イオン交換クロマトグラフィMS、電気泳動MS、およびキャピラリゾーン電気泳動MSを含む)、多次元LC−MS、多次元LC−MSn、GC−MS(ガスクロマトグラフィMS)、気相イオン移動度MS、または単一試料上で1回限りのその他のハイブリッドMS手順を実行して得られるデータを含む。指標変数の例としては、クロマトグラフ分離時間、1つまたは複数の他の検体に対する親和性、生物活性または読み出し値(例えば、クロム放出分析)、1つまたは複数の異なる溶液中の溶解度、さまざまな媒体内の移動度、等電点、温度、および反応剤または治療薬の濃度がある。
【0014】
「随意指標付きスペクトル」は、1つまたは複数の指標変数を持つ場合も持たない場合もあるスペクトルである。断りのない限り、「スペクトル」および「複数のスペクトル」という用語は、「随意指標付きスペクトル」および「随意指標付き複数のスペクトル」を指す。「スペクトル集合」という用語は、試料集合に対し得られる随意指標付きスペクトルの集合体を指す。指標変数を持たないデータの一実施例は、MALDI(Matrix Assisted Laser Deionization)質量分析法で生成される。
【0015】
m/z強度対は、「強度」(または「信号」)および質量電荷「識別子」を持つ。m/z強度対は、ときには、質量スペクトルの「ピーク」と呼ばれることもある。
【0016】
強度は、検出されるイオンの個数を反映する任意の尺度である。このような尺度の例として、カウント数、イオンカウント数、毎秒カウント数、および相対存在量がある。強度は、ノイズと検体成分の両方の寄与分を含む。特定の場合において、ノイズまたは検体成分は0とすることも可能である。
【0017】
質量電荷「識別子」は、1つまたは複数の質量電荷比(「m/z」)に変換またはそれから派生され得る任意の数量またはm/zに関係する尺度とすることができる。m/zに関係する尺度の例として、分子量、モノアイソトピック質量、平均質量、飛行時間、共鳴周波数、特性周波数、走査電圧、または走査周波数がある。
【0018】
m/z値から識別子への変換は、それにも関わらず、ユーザが互いに区別することを望むm/z値を別のm/z値にマッピングする多対一関数とすることも可能である。このような関数の例として、重心計算、指定精度への丸め、中央値、平均値、または重なり合わない値、ビン分割、または任意の識別子の集合上の幾何平均がある。
【0019】
複数のm/z値が特定の識別子にマッピングされる場合、ユーザ選択関数を使用して、その識別子にマッピングされるm/z値の部分集合に対応する信号を組み合わせることが可能である。この関数は、例えば、総和、畳み込み、中央値、幾何平均、または対数平均とすることが可能である。
【0020】
「順位または値」は、スペクトル集合間で変動する信号の有意性の統計的尺度を提供する。順位または値は、例えば、統計的検定からのp値、またはp値の集合内のp値の順位、または差の集合内の差の順位、または対数尤度、またはそのような値の単調関数とすることが可能である。
【0021】
異なる実施形態では、この関係は、少なくとも10個、少なくとも100個、少なくとも1000個、少なくとも10000個、少なくとも100000個、少なくとも1000000個、少なくとも10000000個のm/z識別子について判別され、それぞれのm/z識別子は、上の工程(b)の前に決定論的に指定され、および/またはそれらの関係は、m/z識別子の個数および/または異なる使用される指標変数値の個数の高々多項式、高々2次式、または高々線形時間対数線形式で増大する計算回数を使用して見つけられる。他の実施形態も本明細書で説明されている。
【0022】
本明細書で使用されているような「中心傾向」としては、平均値または中央値またはさまざまな他の数量による重み付けされた平均値または中央値、または刈り込み平均値または指定された百分位範囲内に収まっている値の平均値などの中心傾向のロバストな推定量がある。中心傾向の他の統計的尺度は除外されない。
【0023】
特定の用語が相互排他的でない限り、「または」と言及した場合、これは、いずれか、または両方の可能性を示す。ときおり、「および/または」などの語句は、いずれか、または両方の可能性を強調するために使用される。
【0024】
「含む、備える」などの制約のない用語への言及では、要素または工程を追加することができる。ときおり、「1つまたは複数の」という語句は、追加要素または工程の可能性を強調するために制約のない用語とともに、または制約のない用語を伴わずに使用される。
【0025】
特に断りのない限り、「1つの、ある」などの用語は、これらの用語の付かない場合も含めて、1つのものに限定されない。例えば、「(1つの)セル」は、「複数のセル」を除外しない。ときおり、1つまたは複数のなどの語句は、複数のものの存在を強調するために使用される。
【0026】
本発明の他の特徴および利点は、異なる実施例を含む本明細書で与えられている追加説明から明らかである。与えられている実施例は、本発明を実践するうえで有用なさまざまな構成要素および方法を例示している。これらの実施例は、請求されている発明を限定しない。本開示に基づき、当業者は、本発明を実践するうえで有用な他の構成要素および方法を識別し採用することができる。
【発明を実施するための最良の形態】
【0027】
本明細書で説明されているデータ分析法は、異なる試料集合間で存在量が異なる検体を選択的に識別するために採用できる。採用される手法では、個々の試料と試料集合の間のスペクトルのm/z強度対の変化の統計的有意性を決定する。統計的有意性に基づき、検体レベルの差を示す可能性のある変化が識別される。
【0028】
質量分析法による分析法は、異なる試料内の検体変化を、検体が少量しか存在しない場合であっても、正確に検出するために採用できる。これらの手法は、蛍光性、放射性、親和性、同位体、または共有結合または結合化学質量タグ付けまたは準備などの特別なラベルに依存しない。しかし、そのようなラベルは、さらに方法の感度および特異性を高めたり、または他の何らかの手段により、試料集合間で検体を区別するために必要な属性を変えるために使用することができる。
【0029】
一般に、本発明の方法の感度および特異性は、スペクトルを取得するために使用される計装の分解能およびダイナミックレンジの限界までの混合物の複雑さとは無関係である。正規化工程が計算に含まれる場合、混合物の複雑さは、指標変数のそれぞれの組み合わせで正規化定数を変化させる範囲でのみ関与する。計測器の分解能は、m/z識別子の可能な曖昧性を通じて結果に影響を及ぼす。計測器のダイナミックレンジは、計測器の範囲の上下限付近の信号の測定の可能な曖昧性を通じて結果に影響を及ぼす。
【0030】
I.データの取得
さまざまな試料集合のスペクトルについては、実験を1回または複数回実行するか、または学術誌またはそのようなデータを提供するWebまたはftpサイトなどの他の手段を通じて入手することが可能である。スペクトルは、さまざまな種類の検体の変化を見るために取得され、状況に応じて、指標付けされ得る。
【0031】
「検体」は化学物質である。検体の例として、元素、化合物、複合体、および混合物がある。検体は、クロマトグラフ分離時間、1つまたは複数の他の検体に対する親和性、生物活性または読み出し値(例えば、クロム放出分析)、1つまたは複数の異なる溶液中の溶解度、さまざまな媒体内の移動度、等電点、温度、および反応剤または治療薬の濃度のうちの1つまたは複数などの指標変数を与えることが可能な物理的または生物学的特性を持ち得る。指標変数は、1つまたは複数の連続変数、または1つまたは複数の離散順序付き変数であってよい。「指標」または「複数の指標」は、本明細書では、1つまたは複数の指標変数をそれぞれ表すためにも使用される。
【0032】
A.質量分析法
質量分析法は、イオン化可能な物質のm/z強度対を測定する手法である。検体の1つまたは複数のm/z強度対は、1つまたは複数の異なるm/z強度対を持つ他の物質から検体を区別するシグネチャを備える。
【0033】
検体のm/z強度対の強度は、計測器の応答範囲内の検体の存在量とともに変化する。質量分析法データを生成するための手法および機器は当業ではよく知られている。採用できるイオン化法の例としては、電子スプレーイオン化、マトリックス支援レーザー脱離/イオン化、表面増強レーザー脱離/イオン化、電子衝撃イオン化、化学イオン化、および光電離がある。(Glish et al.,Nature Review Drug Discovery 2:140−150,2003,Petricoin et al.,The Lancet 359:572−577,2002。)質量分析器の実施例としては、Protein Biology System 2 SELDI−TOF質量分析計(Ciphergen Biogystems社、カリフォルニア州フリーモント)、四重極マスフィルタ、四重極イオントラップ質量分析計(ThermoFinnigan社、カリフォルニア州サンノゼ)、三段四重極質量分析計、飛行時間型質量分析計、フーリエ変換イオンサイクロトロン共鳴質量分析計、およびこれらすべてのハイブリッドがある。
【0034】
異なる実施形態では、方法の性能を改善するために、さまざまな形で信号が変換され得る。個々の信号、または信号の分布の要約(平均値または分散)も、そのように変換され得る。可能な変換は、対数を取ること、正または負の何らかのべき乗を取ること、例えば、平方根または逆数を取ること、またはアークサインを取ることを含む(Myers,Classical and Modern Regression with Applications,2nd edition,Duxbury Press,1990)。
【0035】
B.試料集合
試料集合は、分析のためにグループにまとめられた1つまたは複数の試料を含む。多数の異なる種類の分析を実行するように、特定の試料集合のグループ分けおよび異なる試料集合の選択が可能である。グループ分けは、データ収集前、収集中、または収集後に決定できる。グループ分けは、データに基づいて動的決定できる。
【0036】
本明細書で説明されている分析法は、生物試料および環境試料などさまざまな種類の試料について実行できる。生物試料は、生体物質を含む。生物試料は、単細胞生物または多細胞生物などの異なる供給源から入手可能である。多細胞生物の例としては、植物および動物がある。
【0037】
「動物」は、動物界の一員である。動物は、人間、家畜(例えば、牛、豚、馬、または鶏)、ペット(例えば、猫または犬)、またはモデルシステムとして使用できる動物(例えば、ネズミ、モルモット、犬、または猿)などの哺乳類であるのが好ましい。
【0038】
生体物質は、ウイルス、単細胞、または多細胞生物内に存在するウイルス性、細胞性、または細胞外成分、ならびに細胞および動物により分泌される物質を含む。細胞物質は、一般に細胞、および細胞亜分画の抗生物質を含む。
【0039】
多細胞生物から得られる生体物質は、細胞物質、および多細胞生物の他の部分からの物質を含む。多細胞生物の他の部分からの物質の例としては、例えば、細胞組織、体液(例えば、血液、脳脊髄液、尿、唾液、精液、リンパ液、糞、汗、痰、および粘液)、排泄物、にじみ出る、または分泌される物質、および/または肝臓、脾臓、腎臓、筋肉、肺臓、心臓、脳、またはその他の臓器もしくは臓器の構成要素(例えば、扁桃体、副腎、または海馬)などのサブパーツから作られる製剤がある。
【0040】
生物学的に重要な化合物としては、ペプチド、炭水化物、脂質、核酸、医薬品、薬物代謝産物、およびさまざまなその誘導体がある。それらの誘導体は、修飾物質または断片を含む。例えば、ペプチド誘導体は、翻訳後修飾または共翻訳修飾ペプチドの断片を含む。
【0041】
ペプチドは、生体分析用の好ましい検体である。「ペプチド」と記述した場合、これは、ペプチド結合により結合された1つまたは複数のアミノ酸を示し、サイズまたは機能の制限を与えない。ペプチドの例としては、酵素、構造タンパク質、およびホルモンがある。
【0042】
分析に適しているさまざまな試料集合の例を以下に示す。
1)異なる量の特定の化合物でそれぞれ処理された、一方の量が例えば化合物ではあり得ない、2つまたはそれ以上の試料集合、
2)異なる化合物でそれぞれ処理され、一方の集合が化合物で処理されない、2つまたはそれ以上の試料集合、
3)異なるレベルの疾病または疾患にそれぞれ関連付けられている、一方のレベルが例えば健康体試料集合であり得る、2つまたはそれ以上の試料集合、
4)異なる種類の、またはレベルの環境刺激に曝された、一方の種類またはレベルが、例えば、刺激の欠如であり得る、2つまたはそれ以上の試料集合、
5)少なくとも1つの試料集合が所定のまたは知られているレベルの(例えば、濃度0のもあり得る)1つまたは複数の特定の検体を持ち、少なくとも1つの試料では、少なくとも1つの検体の存在量が知られていない、2つまたはそれ以上の試料集合、
6)1つまたは複数の表現型によりそれぞれ異なる2つまたはそれ以上の試料集合、
7)1つまたは複数の遺伝子により、または1つまたは複数の遺伝子の表現または形態により異なる2つまたはそれ以上の試料集合、
8)一方の治療法がコントロールであり得る、異なる複数の治療法を受ける2つまたはそれ以上の試料集合、
9)異なる時(例えば、化学薬品の導入後の異なる時)に評価される2つまたはそれ以上の試料集合、
10)合成または物理的修飾(例えば、共有結合化学、非共有結合化学、放射性、電磁、機械、または重力)の面で異なる化学薬品の混合物(純粋または複合)からなる2つまたはそれ以上の試料集合、
11)さまざまなレベルの(場合によって0レベルを含む)生体物質またはその他の物質(ハイスループットスクリーニングでの使用を含む)に曝された化学薬品の混合物(純粋または複合)からなる2つまたはそれ以上の試料集合、
12)状況に応じて化学的または物理的に修飾されたさまざまなレベルの(場合によって0レベルを含む)生体物質またはその他の物質(ハイスループットスクリーニングでの使用を含む)に曝された化学薬品の混合物(純粋または複合)からなる2つまたはそれ以上の試料集合、
13)クロマトグラフィ分離からさまざまな溶出時間にわたって、または他の技術の他の指標変数範囲にわたって試料を収集することにより得られるような、分離プロセスを通じて単一の化学薬品の混合物から誘導された2つまたはそれ以上の試料集合。これらの試料は、物理的に分離され、その後、上記の他の項目の場合のようにプロセスを通して実行され得るか、または例えば、LC−MSランの溶出時間を変換し、時間範囲の集合からのスペクトルと時間範囲の他の集合からのスペクトルとが比較されるようにすることにより、電子的に処理され得る。(人間または標準信号検出ソフトウェアにより)無視できるくらい少ない検体が含まれるとみなされる範囲の集合を使用することで「ブランク」試料を表すように時間範囲の1つが選択された場合、変換では、すべてのスペクトルを、それらが注目するそれぞれの時間に測定された複製であるかのように処理し、(例えば)「ブランク」として機能するように選択された時間範囲に100個の測定済みスペクトルが含まれていた場合に、その時間範囲内のそれぞれの時間がそこで「ブランク」状態の100個すべての測定済みスペクトルを持つとみなすようにすることが可能である。
【0043】
ある試料集合上で取られるスペクトルの数を増やすと、検体のレベル差の検出を正確に行うことができる。スペクトルの数は、それぞれの試料または試料のいくつかの部分集合上で反復スペクトルを抽出するか、一方または両方の試料集合内の試料の個数を増やすか、またはそれら2つの方法を組み合わせることにより増やすことが可能である。さまざまな実施形態において、少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも30個、および少なくとも40個の異なるスペクトルが試料集合毎に分析される。
【0044】
異なる試料の個数を増やすと、試料集合の異なる構成要素間のバラツキ(計測器により行われる測定に内在するバラツキとは反対に)を考慮できるという利点がさらに得られる。これにより、試料集合の多数の構成要素間で一貫している差を見つけるプロトコルが使いやすくできる。このようなプロトコルの1つの応用では、癌などの病状に関連する差を母集団で表される他の表現型の差から区別する。さまざまな実施形態において、スペクトルが得られる試料集合内の異なる試料の個数は、1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、または少なくとも30個である。
【0045】
この方法は、ちょうど2つの試料集合がある以下の実施例で示される。試料集合が2つよりも多い場合については、2つ一組の分析をすべて実行することにより分析できる。この場合、ここで示されている検定のいくつかの多次元一般化が使用できる。例えば、t検定の代わりに分散分析を使用し、ウイルコクソン順位和検定の代わりにクラスカル検定を使用できる。
【0046】
II.分析法
選択的識別は、試料集合内と試料集合間の両方のm/z強度対バラツキを使用してm/z強度対内の差の統計的有意性を判定することにより実行される。試料集合内バラツキに関する情報を取得する好ましい方法は、それぞれの集合内の複数のスペクトルを用意し、バラツキを直接測定することである。複数のスペクトルが利用できない場合、仮定された分散構造を使用して進めることが可能である。
【0047】
仮定された分散構造は、すでに存在しているデータまたは単一の利用可能なスペクトル内の連続するデータ点の分析に基づいて、定量的なものとすることが可能である。また、例えば、測定限界に関連付けられた分散が何らかの定数値(指定される必要はない)と等しいと仮定して、定量的とすることもできる。このような仮定の下で、有意検定に基づいて検出された差の順位は、差の絶対値に基づく検出された差の順位と同じである。
【0048】
一般に、信号バラツキの統計的有意性を判別するための関係を与えるのに、m/z強度対の1つまたは複数の属性が使用可能である。例として、ビン分割または平滑化信号、および線形または非線形フィルタ処理信号がある。
【0049】
試料集合間の存在量の異なる検体を識別するさまざまな実施形態は、(A)データのグリッド表示、(B)アライメント、(C)正規化、(D)差の評価、(E)時間持続、(F)再並べ換え、(G)分割、(H)再アライメント、(I)感度および特異性の工程に関して例示されている。工程(D)は、スペクトル集合内およびスペクトル集合間のm/z強度対に対する変化の有意性を判別するために採用されることができる手法を例示している。工程(A)、(B)、(C)、(E)、(F)、(G)、(H)、および(I)は、実行可能な追加実施形態の実施例を示している。
【0050】
試料集合間で存在量の異なる検体を識別する異なる実施形態の実施例は、図1〜8に示されている流れ図により概略が例示されている。図1Aおよび1Bは、プロセス全体に対する工程を例示している。図2は、「差を見つける」に使用できる工程の実施例を示している。図3は、「結果のグループ化」に使用できる工程の実施例を示している。図4は、「偽陽性のフィルタ処理I」に使用できる工程の実施例を示している。図5は、「偽陽性のフィルタ処理II」の工程の実施例を示している。図6は、「出力および反復モジュール」に使用できる工程の実施例を示している。図7Aは、「条件内でスペクトルのアライメント」モジュールに使用できる工程の実施例を示している。図7B、7C、および7Dは、「ランドマークを見つける」および「ランドマークをフィルタ処理する」サブモジュールとともに「条件をまたがってスペクトルのアライメント」モジュールに使用できる工程を示している。図8は、偽陽性のフィルタ処理の代替え方法として使用できる工程の実施例を示している。
【0051】
この節および図1〜8に例示されている実施形態は、大半が、時間指標を含むm/z関係データを採用する。本明細書に記載されている開示に基づき、時間指標を含まない変更形態、時間指標および1つまたは複数の追加指標を含む変更形態、およびいずれも時間指標でない1つまたは複数の指標を含む変更形態をはじめとする多くの変更形態が可能である。
【0052】
A.データのグリッド表示(「ビン分割」とも言う)
データ分析は、関係するm/z値および/または指標を持つデータをビン分割でまとめることにより行いやすくなる。「関係する」とは、値が類似しているか、または実験的要因に関係する合成または異化経路、経路調整、または属性などの他の関係を通じて関係付けられていることを意味し得る。ビン分割は、データ集合間の直接的比較を行いやすくするうえで有用である。反復検体測定または1つまたは複数の試料集合内の異なる試料について行われる検体測定は、必ずしも、全く同じ指標変数で実行されることも、または全く同じm/z比を測定することもなく、直接比較を複雑化する可能性がある。
【0053】
ビン分割は、液体クロマトグラフィ質量分析法(「LC−MS」)で生成された強度データ、時間、およびm/zデータを使用して例示することができる。他の指標変数とともに(またはなしで)類似の手法を採用することができる。
【0054】
LC−MSを使用することで、m/zおよび時間測定結果は、ユーザ指定レベルに丸めることができる。異なる実施形態では、測定結果は、最近単位またはm/zについては約0.5および時間については約0.05または約0.025に丸められる。その結果丸められるm/z識別子の集合は、「ビン」の集合である。丸めは、m/zデータとm/z識別子との間の多対一関係を作成する一手段である。
【0055】
ビン分割の細かさまたは粗さは、例えば、質量分析者の見解、使用される質量分析計の動作特性に関する情報に基づいて予め設定されるか、または実験の前または後にクロマトグラムまたはスペクトルを目視検査して設定されるようにできる。集合からの複数の信号が同じグリッド点で終わっている場合、それらは、結局、そのグリッド点で信号全体を与えることになる。
【0056】
一様なグリッド表示は必要ない。ビンの幅は、時間、その他の指標変数、またはm/zに依存し得る。非一様グリッド表示は、例えば、非一様な拡散効果(例えば、時間ビンは時間とともに幅が増大する)、または非一様な質量精度(例えば、m/zビンはm/zとともに幅が増大する)について補正する場合に役立つと考えられる。非一様なビン分割を実行する方法の1つでは、ビン分割の前に指標変数またはm/zを変換する。例えば、変換された空間内でビン幅が一様なm/z上で対数変換が使用される場合、それぞれのビンは、m/zに比例する、m/z測定結果の典型的精度に対応する。非一様なビン分割は、その範囲全体にわたって非一様な間隔で並べられた、例えば対数尺度の間隔または幾何学的間隔で並べられるか、またはビン内の信号に依存する間隔で並べられたm/z識別子を使用して実行することが可能である。
【0057】
ビン分割の代替え手段として、ビン分割の前に、またはビン分割と同時に、利用可能な信号のフィルタ処理が可能である。線形フィルタ処理では、それらの信号は時間方向だけ、m/z方向だけの任意の(しかし、一般的には時間およびm/zとともに減少する)カーネル、または時間およびm/zの2次元カーネルとの畳み込みが可能である。1または2次元カーネルは、対称的であるか、または非対称性を持つことも可能である。最大n次元までのカーネルは、n−1個の指標変数とともに(m/zのほかに)使用され得る。
【0058】
フィルタ処理の他の実施例としては、計測器点拡散関数のブラインドデコンボリューションで使用されるような2次以上の高次演算子などによる非線形フィルタ処理がある。(Juang et al.,IEEE Trans.Acoust.,Speech,Signal Processing,vol.ASSP35,pp.947−954,1987、Gillespie et al.,IEEE TRANSACTIONS ON SIGNAL PROCESSING,49:485,2001、J.Pitton et al.,IEEE Transactions on Signal Processing 43:1996−1998,1995、Fang et al.,IEEE Transactions on Signal Processing 43:2582−94,1995。)線形および非線形フィルタ処理は両方とも、オリジナルの、または変換されたm/zおよび/または指標変数上で実行できる。実施例では、対数変換されたm/z上で固定幅ハミング窓を使用して精度ベースの信号分布を滑らかに取り込む。このような変換および線形または非線形フィルタの使用は、2つの条件で検体の相対的数量を測定する分析をその後行うために正規化および/または計算されたおよび/または測定された較正により補正されなければならない。
【0059】
異なるm/z値(測定されたデータまたは識別子)は、さらに、ランダムに(確率的探索法の一部として)または先験的に信じられる関係とのm/z値の組み合わせについて、組み合わせることも可能である。このような関係の実施例として、同位体、タンパク質またはペプチドの共翻訳または翻訳後修飾、DNAのメチル化、および/または代謝もしくはその他の経路関係がある。m/zの(場合によっては線形または非線形の重み付けされた)寄与は、単一の統計量として結合され、単一のm/z識別子として処理されるであろう。このような「組み合わされた」m/z識別子は、データ内の別の次元として処理され得る(m/zの単位で、そのようなものとして処理される)。したがって、このような組み合わされたm/z値(および対応する「組み合わされた検体」)に関する分析は、他の方法で処理されたm/z値の分析に加えて、またはそれと並行して実行することが可能である。
【0060】
B.アライメント
異なる試料から生成されるスペクトル、または単一試料から生成される異なるスペクトルは、試料間のバラツキを考慮してアライメントを取ることができる。例えば、反復LC−MSスペクトルにはかなりのバラツキがあり得る。実験中にある程度のバラツキが入り込む可能性がある。そのようなバラツキの可能な発生源の1つは、流れまたはクロマトグラフ媒体の変化または試料組成の違いにより生じる可能性がある、溶出時間の変化である。
【0061】
B.1 システマティックなシフト
2つの試料間の溶出時間にシステマティックなシフトがある場合、信号の対応する時間座標を調整して、そのシフトを補正しなければならない。例えば、システマティックなシフトは、2つの試料の最大構成要素が類似するとの仮定に基づいて、溶出時間がスペクトルの2つの集合間で適切にアライメントされたときに信号間の最大相関に達するように補正することが可能である。
【0062】
スペクトルの集合間のシステマティックなシフトに対する手順補正の例は以下を伴う。
1)シフトのない、および正および負の時間シフトの小さな集合での信号の平均値(スペクトル集合上)間の相関を測定し、例えば、それぞれの方向に最大10個の時間ステップまでシフトを計算し、適当なp値(例えば、0.75)を使用して有意性を定義する。これらのパラメータの選択は、注目している指標変数の精度に関する知識に基づくことが可能であり、また類似対類似の比較を実行することにより知らせることが可能である。これらの相関の計算をスピードアップし、極端に大きな値の過剰な影響を避けるために、信号が両方のスペクトル集合に対するすべてのm/z強度対の第90百分位数から第95百分位数までの間にある時間と質量のみを考慮することが可能である。第90百分位数と第95百分位数の上下限は、ユーザ定義可能なパラメータである。
2)それぞれの相関がシフトなしの相関よりも著しく大きいかどうかをチェックする。
3a)シフトされた相関がシフトされていない相関よりも著しく大きくない場合、互いに関して2つの条件をシフトせずに先へ進む。著しく大きい場合、
3b)最大の著しく高い相関を与えるシフトを選択する。
【0063】
溶出時間のシフトに関するアライメント補正は、例えば、以下の第II節I.「感度および特異性」で概要が述べられている手順により決定されるような特定のデータ集合について決定された測定済みの高い偽陽性率に照らして、ほとんどメリットはないと考えられるであろう。
【0064】
溶出時間のシフトに対する補正の他の方法は、識別された差を調べて溶出時間のシフトから生じるように思われるものを識別し、見かけの時間シフトを測定し、2回目の分析でそれらを補正することを伴う。再アライメントの手法の実施例については、以下の第II節H.「再アライメント」で説明されている。
【0065】
B.2.ランドマークを使用したアライメント
溶出時間のシフト、2つの試料から生じるスペクトル間のシステマティックなシフト、または単一の試料から生じる複数のスペクトル間のシフトに対する検出および補正の追加方法は、データ集合内で「ランドマーク」特徴のアライメントを行うことを伴う。ランドマークは、試料内に知られている属性を持つ特定の1つまたは複数の物質をスパイクさせ、それらの物質が、溶出時間などの指標変数の(おおよそ)知られている「期待」値で知られている質量対電荷比で容易に検出可能な信号を与えることを予期できるようにすることにより作成することができる。ランドマークは、さらに、後述のように、データ集合を調べて適切な特徴を見つけることにより見つけることも可能である。ランドマークが与えられると、異なるスペクトルは、線形または非線形または区分的多項式変換でランドマークが並ぶようにそれぞれのスペクトルに対する指標変数を変換することにより、アライメントされることが可能である。
【0066】
スパイクされたランドマーク
物質を試料中にスパイクすることによりランドマークが作成される場合、それらの物質は、適切な属性を持っていなければならない。非常に望ましい適切な属性の1つは、スパイクから生じるランドマーク信号のすべての指標変数の期待値がそれぞれの指標変数に対する観測値の範囲にわたって分布しなければならないということである。他の適切な属性としては、例えば、注目する検体の検出と反応する、または注目する検体の検出に他の何らか形で干渉すること、容易に、経済的に入手可能であること、および低レベルで検出可能であることの確率が低いことが挙げられる。トリプシンまたは他の酵素の自己消化生成物などの試料調合で使用される試薬の自然発生する反応からの予想される信号も使用可能である。
【0067】
スパイクなしのランドマークを見つける
ランドマークがデータ集合内に見つかる特徴に基づいている場合、それらの特徴は、例えば、固定された百分位の観測されたピーク振幅よりも大きい振幅を持つピークである場合がある。ここで「ピーク」とは、クロマトグラフピーク識別用のアルゴリズムを使用して定義されたような局所的最大値および周辺領域(例えば、m/z識別子次元および時間の)である。
【0068】
例えば、「ピーク」は、観測強度の固定された百分位よりも大きい、または最大観測強度の固定された一部分よりも大きい強度の連続する(指標変数内の)集合として定義することが可能である。これらの強度は、指標変数の十分大きな集合についてしきい値よりも高いままであることを要求される可能性がある(例えば、指標変数が時間の場合は、少なくとも8秒間、または他の何らかのユーザ指定の時間の長さ)。選択された特徴はそれぞれ、それぞれの個別データ集合内、またはデータ集合の可能な限り大きい一部分の中に現れるのが理想的である。
【0069】
特定のランドマークがスペクトルから欠けている場合、それは、そのランドマークが存在する他のスペクトル上の位置(指標空間)および振幅(強度)の中心傾向の尺度で帰属され得る。以下で定義されている方法のいくつかについては、欠測ランドマークは、スキップされるだけでよく、この帰属を必要としない。
【0070】
ランドマークがデータ集合内に見つかる特徴に基づいている場合、選択された特徴は、実験で使用されるそれぞれの指標変数の範囲にわたって分布することが望ましい。これは、いくつかの方法により実行可能である。1つの方法では、完全データ集合内で特徴を見つけて、その後、それぞれの指標変数に対する値の望ましい分布を与える特徴を選択する。他の方法では、そのデータ集合を、それぞれの指標変数の値の範囲を包含する複数の部分集合に分割し、それぞれの部分集合内のそれぞれの指標変数の値の所望の分布を与える特徴を見つけ、特徴の集合を組み合わせる。指標変数のオーバーラップ範囲を使用して、指標変数の範囲の境界のところ、または近くで有用な特徴を欠落しないようにすることも可能である。
【0071】
部分集合を定義する指標変数の範囲は、さまざまな方法、例えば、それぞれの指標変数の観測された範囲を均等に特定の個数の部分集合に分割するか、またはデータ依存の方法では、ピークの総数(上で定義されたような)の所定の割合、または特徴の総数の所定の割合、または総信号の所定の割合が所定の範囲内に含まれる(「総」とは、m/zおよび/または指標変数上での積分を意味する)ことを要求することにより決定され得る。
【0072】
関係するランドマークのグループ分け
単一の検体の異なる同位体および/または電荷状態から生じているように見える複数のピークからの情報をまとめることによりランドマークの集合を減らすことは効果的である可能性がある。このような「マルチピーク」グループは、以下の節F「再並べ換え」で説明されているように識別されることが可能である。このようなグループは、単一のピーク、または最大信号が含まれるグループ内のピークに基づく指標値を持つ(m/z識別子、指標)対、グループ内のピークの平均指標値、またはグループ内のピークの指標値の信号重み付け平均により表すことが可能である。その後、それぞれのグループは、単一ランドマークとみなされる。このようなランドマークは、例えば、成分ピークの強度を総和することにより再アライメントを計算する際に特別な重みを与えられる(振幅がランドマークの選択または使用の補助に使用されている場合)。
【0073】
複数のランドマークからの情報の再調停
複数のランドマークが指標変数の単一範囲内に見つかる可能性がある。分かりやすくするため、また一般性を失うことなく、この説明では溶出時間を例として使用する。複数のランドマークが特定の時間範囲内に見つかった場合(上述のようにグループ化の後に)、適切なシフトのさまざまな推定量を与えることが可能である。1つのランドマークで、例えば、基準時間に関するシフトとして4秒を示唆するが、近隣ランドマークは、1秒のみのシフトを示唆するか、または全くシフトを示唆しない。基準時間の定義(つまり、スペクトルのアライメントで基準とする)については、後述する。
【0074】
ランドマーク時間の集合および関連するシフトが与えられた場合、1つのスペクトル内の時間を基準時間にマッピングする単一の平滑シフト関数を得るために、当業でよく知られている区分的線形、区分的多項式、スプライン、および類似の補間法が使用されることができる。この補間プロセスは、状況に応じて、m/z識別子、振幅、および/または持続時間などのランドマーク特性を使用して、要約関数への寄与に重み付けすることができる。
【0075】
溶出時間および割り当てられたピーク時間のある量のバラツキは、溶出時間の物理的バラツキと強度のバラツキのため不可避である。ユーザ指定しきい値よりも小さな溶出時間のシフトは、例えば、予想されるバラツキのユーザ推定値に基づくしきい値とともに、無視することが可能である。極端な場合には、互いに接近している2つのランドマークの順序は、異なるスペクトルにおいて逆転される可能性があり、このため、すべてのランドマークをその対をなす片方にマッピングする単一の順序保存変換を見つけることは不可能である。これは、使用されるしきい値が実際のバラツキよりも低かったか、または分析されるデータに予想しない問題が生じていることを示す可能性がある。このような場合、ユーザは、おそらく、そのような衝突が発生したことを通知されるであろう。
【0076】
アライメントの基準:個別スペクトルおよび合成代表
スペクトルは、互いに、または他の何らかの標準に合わせてアライメントすることが可能である。アライメントは、試料の連続する対の間で繰り返し対毎に実行されることが可能である。例えば、スペクトル集合がN個の試料を持つ場合、1は2に、2は3に、...N−1はNに、Nは1にと、停止基準に達するまでアライメントが続けられる。その停止基準は、例えば、試料集合内のすべての試料を通る反復の一定回数、またはk回目とk+1回目の反復の間のワーピングパラメータの一定割合よりも小さい変化などのワーピングの収束の程度とすることも可能である。
【0077】
それとは別に、すべてのスペクトルを単一代表にアライメントすることが可能である。例えば、代表は、他のスペクトルと共通するほとんどのランドマーク、または他のすべてのスペクトルまでの距離が最小のランドマークを持つ単一スペクトルとすることが可能である。選択されたスペクトルと他のスペクトルとの間の距離を計算するために、選択されたスペクトル内のそれぞれのランドマークと他のスペクトルのそれぞれの中の対応するランドマークとの間の距離(指標変数空間内の)を計算する。距離は、ランドマーク間距離のこの集合の中心傾向の尺度である。
【0078】
それとは別に、スペクトルは、さまざまなスペクトル内の適切なデータから作られた合成代表成分に合わせてアライメントされ得る。例えば、さまざまなスペクトルの部分から、実験に問題があるため特にノイズの多い、または信頼できないデータが得られた場合に合成代表を使用するのが望ましいと思われる。
【0079】
合成代表は、修飾されたスペクトルから構成されることも可能である。修飾は、ある基準を満たす0値への設定などの非線形変換を含むことが可能である(例えば、ピークからあるユーザ選択距離よりも遠い位置にある、または固定もしくはデータ依存のしきい値よりも大きいまたは小さいオリジナルデータ内の値を0に設定することができる)。
【0080】
アライメントの適用
ワーピング(アライメント)関数の適用は、オリジナルデータまたはビン分割データ上で実行されることが可能である。オリジナルデータ上で実行された場合、その結果のワーピングされたデータは、再びビン分割されなければならない。ビン分割データ上で実行された場合、その結果は、ビン間に再分配されなければならない。この再分配は、信号のすべてを計算されたビン番号に最も近いビンに入れることにより実行することが可能である。例えば、ビン35がビン32.3にマッピングされる場合、ビン35内の信号は、ビン32に入れることが可能であり、区間31.5≦マッピングされたビン番号≦32.5にもマッピングされる他のすべてのビンの信号についても同様である。
【0081】
それとは別に、これらの信号は、平滑化法を使用して再分配し、離散化ビン番号の変化を引き起こす計算されたビン番号内の小さなシフトから生じる潜在的人為的不連続を減らし、強度分布の有意なシフトを生じさせることが可能である。このような方法の1つは、隣接ビン上に信号を線形分配することである。ここで、ビン35が32.3にマッピングされる場合、その信号の30%は、ビン33に入れられ、70%は、ビン32に入れられる。一般に、ビンb>0にマッピングされる信号は、ビンfloor(b)に入れられる信号の(1−frac(b))およびビンceil(b)に入れられる信号のfrac(b)を持つことになる。
【0082】
スペクトル集合間のアライメント
スペクトル集合内でアライメントを実行することに加えて、またはその代わりに、スペクトル集合間でアライメントを実行すると都合がよい場合もある。これは、単一のスペクトル集合のアライメントを行う手順を使用して実行することが可能であるが、そのために、同じスペクトル集合内にあるかのように比較対象のすべてのスペクトル集合からの例を含める。この手法は、スペクトル集合が相違点よりも類似点の方が著しく多いと予想される試料から生成される場合に使用するのが最もよいと思われる。
【0083】
スペクトル集合間のアライメントは、さらに、状況に応じて、それぞれのスペクトル集合上でアライメントを別々に実行し、その後、アライメントされたスペクトル集合を互いにアライメントすることにより実行することも可能である。後者のアライメントは、それぞれのスペクトル集合から代表スペクトルを生成し、それらの代表間の適切なアライメントを見つけて、その結果得られたアライメント関数(または考察対象のスペクトル集合の複数の対がある場合には複数のアライメント関数)を使用し、考察対象のスペクトル集合内のすべてのスペクトルのアライメントを行うことにより実行されることが可能である。代表スペクトルは、複数のスペクトル集合のうちの1つからの無変更のスペクトル、またはスペクトル集合内のスペクトルの計算された組み合わせとすることが可能である。この目的のために使用され得る組み合わせの実施例については、スペクトル集合内のスペクトルがアライメント方法に関して上で説明されている。代表は、ビン分割またはビン不分割データのいずれかを使用して計算することが可能である。
【0084】
時間以外の変数についてのアライメント
時間以外の指標変数またはm/z上で類似のアライメントまたは再アライメント方法を実行すること可能であるが、後者はランの間、または計測器の間の適切な較正に、またはMALDI SELDIまたはプロファイルデータに対し潜在的に有用である。
【0085】
スペクトル集合内、ランドマークベースのアライメントの実施形態
一実施形態では、単一スペクトル集合内のスペクトルのアライメントは以下のように実行される。まず最初に、総時間(または他の指標)範囲をオーバーラップするまたはオーバーラップしない複数のセクションに分割する。それぞれの時間セクションにおいて、m/z識別子毎に、それぞれのデータ集合内で、強度の何らかの選択された分位(例えば、第95百分位、または百分位の一部分)よりも大きい強度の十分に長いラン(例えば、少なくとも8秒、または他の何らかの場合によっては振幅依存のユーザ選択長に及ぶ)を見つけることにより強度信号内のピークを見つける。
【0086】
曖昧にならないようにするため、データ集合毎に、現在考察対象の時間セクション内の単一ピークのみを持つm/z識別子だけを選択する(ユーザの選択に応じて、現在の時間セクション内に複数のピークがある識別子を使用することも可能である)。次に、どのm/z識別子に、考察対象のスペクトル集合内のすべてのスペクトル内の(または、全部見つからない場合には可能な最大個数のスペクトルの中の)選択されたピークがあるかを判別する。これらのピークのうちから、ユーザによって決定された望ましい特性を持つものを選択する。例えば、偶然現れる確率を最小にするため最高の強度を持つピークを選択するか、またはスペクトル間で最も一貫性のある強度を持つピーク、または単一前駆体からの同位体ピークまたは異なる荷電状態として関係しているように見える他のピークと組み合わさっているように見えるピーク、または最も一貫性のある時間を有するピーク、またはスペクトル間で時間のバラツキが最小のピーク、または可能な限り均等に時間セクションも覆うスペクトル間で時間のバラツキが最大のピークを選択でき、これは場合によっては選択された識別子のそれぞれの対の間のあるユーザ指定最小距離により決定される。このプロセスは、対応するm/z識別子を持つ「ランドマークピーク」の集合を定義している。
【0087】
次に、「基準」スペクトルとして、このスペクトル集合に対する他のスペクトル内の可能な最大の個数のm/z識別子(および対応するピーク)と一致する選択されたm/z識別子(および対応するピーク)を持つものを選択する。ランドマーク間の指標値の区分的線形補間を実行することによりそれぞれのスペクトルを基準スペクトルに合わせてアライメントする。それぞれ今説明したばかりの手順を使用してアライメントされた2つのアライメントされたスペクトル集合間の差が識別された後、オリジナル信号が見つかるそれぞれの(アライメントされていない)個々のデータ集合内の時間を決定するために、当業でよく知られている方法により、補間関数を使用できる。m/zおよび時間範囲内の一意性に基づく上のランドマークピークの選択では、2つの異なるスペクトルからのランドマークが、識別されるべきときに互いに対応するとおりに適切に識別されないことは全くあり得ず、さもなければ識別されるべきでないときに互いに対応する。
【0088】
追加実施形態の実施例
ランドマークを伴う追加実施形態の実施例は以下を含む。
1)スペクトルの集合内の信号は、1つまたは複数のランドマークのアライメントを行うことによりアライメントされるが、ただし、ランドマークはそれぞれ、特定のm/z識別子のところ、および指標変数の値の特定の集合のところのピークである。
2)少なくとも1つのランドマークは、スペクトルのそれぞれの中、または実質的大多数のスペクトルのそれぞれの中に見つかる。
3)複数のランドマークは、同じm/z識別子のところ、および指標変数のほぼ同じ集合のところでスペクトル集合内のすべてのスペクトル内に出現するピークを識別し、最大の強度値が出現する指標変数値の集合をランドマークとして使用することによりデータ内に見つけられる。
4)複数のランドマークは、同じm/z識別子のところ、および指標変数のほぼ同じ集合のところでスペクトル集合内のすべてのスペクトル内に出現するピークを識別し、それらの強度を指標変数の関数として平滑化し、最大の平滑化された強度値が出現する指標変数値の集合をランドマークとして使用することによりデータ内に見つけられる。
5)スペクトルは、ランドマークのそれぞれに関連付けられている指標変数値の集合を何らかの基準スペクトル内のランドマークに関連付けられている指標変数値の集合にシフトすることによりアライメントされ、中間の指標値は、補間(例えば、線形または多項式の)により割り当てられる。基準スペクトルは、例えば、(a)スペクトルの集合のランダムに選択された要素または(b)スペクトルの集合内の他のすべてのスペクトルまでの距離の最低の中心傾向を持つスペクトルとすることができるが、ただし、距離は、対応するランドマーク間のユークリッド距離またはマハラノビスの距離またはマンハッタン距離である。
【0089】
B.3.m/z上のデータの要約を使用したアライメント
スペクトルは、指標変数のみに依存し、m/z識別子には依存しないデータの何らかの代表を使用してアライメントすることができる。この代表は、例えば、平均値または中央値または百分位範囲の平均値またはそれぞれの(状況に応じてビン分割された)時間またはスペクトル集合内のスペクトル間の指標変数の他の集合で計算された他の点統計量とすることが可能である。一実施例は、スペクトルの基準ピーククロマトグラムの平均値またはスペクトルの平均値の基準ピーククロマトグラムである。基準ピーククロマトグラムの概念は、さらに、固定された1つまたは複数の時間ビン毎に、所定の時刻での最大信号の代わりに百分位範囲内のすべての信号の所定の百分位または平均値を含むように一般化され得る(通常、当業者であれば実践する)。また、上述のランドマークデータのm/z識別子独立の要約は、代表としても使用可能である。これらの代表は、その後、以下の第II節H「再アライメント」で説明されているように動的時間ワーピングを使用してアライメントすることができる。
【0090】
C.正規化
スペクトル間のバラツキの他の考えられる発生源では、異なる推定同一の試料が実際にはわずかに異なる量または濃度のさまざまな検体を含むことがあり得る。さらに、同じ試料の場合であっても、多くの要因が、試料装填から質量分析計への試料導入までのプロセスの効率に影響を及ぼす可能性がある。このような可能性は、データを正規化することにより処理できる。
【0091】
正規化は、実験プロセスにおけるある種の共通性のため正規化されるべきスペクトルまたは一単位として正規化されるべきスペクトルの集合を使用して計算される係数により信号を除算することにより実行できる。一般に、正規化係数は、対数、多項式、平方根、および順位などの注目する分位範囲内の信号の非線形の、場合によってはベクトル値を取る関数である可能性がある。正規化された値は、m/z強度対と正規化係数の関数とすることが可能であり、ただし、その関数の指定は、正規化係数の値に依存し得る。
【0092】
例えば、一実施形態では、指標変数値の組み合わせ毎に、正規化係数は、m/z強度対の分布の第90百分位と第95百分位との間のすべてのm/z強度対の平均値である(これらの分位は、ユーザ側で設定可能である)。この実施例では、信号の最上位5%は含まれないが、それは、少数の非常に高い値は正規化を左右しないからである。第90百分位から第75百分位までの含まれる信号の下限を変更しても、正規化に実質的な影響を及ぼすようには見えない。絶対範囲により選択された他の範囲、他の百分位範囲、または他の統計的範囲定義(先験的分布に基づく)が使用され得る。これらの範囲は、中央値、モード、または幾何平均などの、平均値以外の要約係数とともに使用することも可能である。指標変数がない、または指標変数値の組み合わせが1つしかない場合、正規化はこのようにして実行することはできない。
【0093】
指標変数なしでデータを使用する一実施形態では、それぞれのm/z強度対に指標値の同一の任意の集合を割り当てて、上記のように進めることができる。例えば、(時間指標がない)MALDI実験では、正規化定数は、すべてのm/z値でのすべての強度の平均値、または強度の分布のいくつかの百分位点の間のすべての強度の平均値としてよいであろう。
【0094】
D.差の評価
スペクトル集合内の信号のバラツキに照らして、m/z強度対内のスペクトル集合間の変化の有意性は、例えば、標準的な統計的手法を使用して判定できる。さまざまな種類の統計的手法(パラメトリックとノンパラメトリックの両方)を使用して、m/z強度対の差の有意性を推定することができる。有意性は、p値の単調関数として表される。p値は、特定のm/z識別子に関連付けられている強度の分布内のスペクトル集合間の観測された変化が、何らかの検体のレベルの試料集合間の差が欠如しているときに偶然発生した可能性のある確率を表す。試料を正しく分類する能力の統計的尺度から得られる順位も、p値と組み合わせて、またはp値の代わりに、使用することが可能である。
【0095】
パラメトリック法を使用して、p値を計算することができる。さまざまな異なるパラメトリック法が当業ではよく知られている。(Snedecor & Cochran,Statistical Methods,8th edition,1989,Iowa State University Press;Kanji,100 Statistical Tests,1999,SAGE Publications)。このような方法の実施例は、t検定、およびデータのガウス(または「正規」)分布を仮定しない類似の検定を含む。複数の条件(2つよりも多い条件)について、それぞれの識別子に対して分散分析が使用可能である。
【0096】
t検定を使用して有意性を測定する方法は、以下の第X節「実施例1」および「実施例2」に例示されている。実施例2では、時間指標とともに生成されたLC−MSスペクトルを分析する。それぞれの時刻およびm/zにおいて、条件1からはn1個の信号、条件2からはn2個の信号があり、n1、n2の少なくとも一方は1よりも大きいか、または抽出されるものと十分に類似している他のデータに基づく補助的バラツキ情報がある。それぞれの時刻およびm/zにおいて、観測された、または仮定されたバラツキが与えられた場合の平均信号の差の有意性が判定されている。この実施例のスペクトルは、正規分布よりも対数正規分布に近い信号を持つので、対数の対応する正規分布の平均値および分散を決定するために、さらに計算が実行され、分析の残りがp値の両方の集合について実行された。このような場合、対数の帰属された正規分布を使用して得られた結果は、未変換値の分布を使用して得られた結果よりも好ましい場合がある。
【0097】
特定の計測器または実験プロトコルが試料の平均値と推定分散との間の再現性のある関係を生み出す場合、試料集合内のスペクトルについて分散が帰属され得る。これは、n1およびn2が小さい、例えば、n1=1または2または100未満の整数および/またはn2=1または2または100未満の整数である場合に特に有用であり得る。このデータ集合のいくつかにおいて、分散=平均値の2.1乗の関係が観察され、これが可能であることを示した。
【0098】
さらに、それぞれのm/z値および時刻でただ1つの信号しか利用できない場合でも、そのような平均分散関係の近似的尺度を得ることが可能である。これは、時間的に互いに近い信号は類似の基礎となる数量の推定値であると仮定することにより実行される。この場合、時間的に近いN個の信号のグループを取り(グループは、オーバーラップまたは非オーバーラップしていてもよく、Nはユーザによって指定され、例えば、N=5およびN=10)、これらのグループに対する平均値と分散との間の関係を見つけることができる。チェックされたスペクトルでは、この方法で決定された関係は、複数のスペクトルから得られた信号を使用して決定された関係と実質的に同じである。いくつかのグループでは、これらの信号は、一様に増大または一様に減少し、それらを単一の数量の反復測定結果として扱うのは妥当ではないと思われる(例えば、ピークの立上りまたは立下り勾配を形成することができる)。このような信号は、平均値と分散との間の関係を推定するために使用される集合から除外することができる。われわれの経験では、これは、平均値と分散との間の推定された関係にほとんど違いをもたらさない。一般に、このような帰属を使用した場合、実際に複製を使用するよりも悪い結果が得られると予想されるが、十分に再現可能な実験プロトコルであれば適切であると思われる。
【0099】
p値は、使用する多数の方法を最小限に絞って計算することもできる。例えば、実際の信号の平均値および分散が使用される上述の分析、および信号の対数の暗示された分布の平均値および分散が使用される上述の分析が使用され、それにより、注目するすべての点の合併を得る。これが使用される場合、その結果の正味のp値は、使用される方法の数が掛けるか(当業でよく知られているボンフェローニ法により)、または他の何らかの方法で統計的に補正されるべきである。
【0100】
ノンパラメトリック法も、例えば、パラメトリック法の基盤である仮定が適切であることが知られていない場合にp値を生成するために使用されることができる。さまざまなノンパラメトリック法が当業では知られている(Kanji,100 Statistical Tests,1999,SAGE Publications ;W.J.Conover.Practical nonparametric statistics (2nd ed.).New York:John Wiley & Sons,1980)。多くのノンパラメトリック検定は、さらに、2つよりも多い条件にも対応する。
【0101】
ノンパラメトリック法の一実施例では、平均信号差の間の差を、条件1の平均信号と条件2の平均信号との間の差の、すべての時間およびm/z識別子間の、観測された(経験)分布内の対応する百分位で置き換えることを伴う。(ここで平均は、試料集合内の複数のスペクトルにわたって取られる。)0から1までの範囲である、これらの百分位は、p値として取り扱うことができる。この方法は、信号のバラツキを考慮せず、平均間の差のみを考慮するという短所を持つ。この方法は、暗黙のうちに、すべての信号の分散が等しいものとして仮定する。したがって、存在量の少ない検体における小さいが、統計的には有意な差を欠測する可能性がある。
【0102】
p値を生成するためにロバストな統計的方法も使用できる(Wilcox,Introduction to Robust Estimation and Hypothesis Testing,Academic Press 1997)。ロバストな統計的方法は、極端なデータ点または分布仮定からのその他の逸脱の影響を最小限に抑えようとする方法である(したがって、いくつかの状況では、分散仮定に依存しないノンパラメトリック検定は、ロバストと考えられる)。ロバストな統計的方法の一実施例は、「刈り込み平均値」であり、これは、最大および最小の測定結果の一部分を除外した後に計算される平均値である。除外される測定結果の数は、絶対数(例えば、3つの最大の測定結果と3つの最小の測定結果)として、または利用可能なデータの一部分(例えば、測定結果の最大の1パーセントと最小の1パーセント)として指定することが可能である。刈り込み標準偏差は、同様にして定義できる。上述のように実行されるが、刈り込み平均値および標準偏差(およびこの平均値および標準偏差はさらに少ない測定結果に基づくので、それに対応して小さな自由度)を使用するt検定は、値を除外せずに実行されるt検定よりも外れ値に対してロバストであると考えられる。2つの分布の刈り込み平均値を比較するためにリサンプリング法も使用できるが(Wilcox,Introduction to Robust Estimation and Hypothesis Testing,Academic Press 1997)、必要な計算量が増える。
【0103】
刈り込みによる値の除外は、可能な利点とともに可能な欠点を持ち合わせる。第1に、少量のデータが頻繁に手元に置かれるため、いくつかの値を除外すると、検定の能力が実質的に低下する。第2に、極値は、測定結果の真のバラツキを反映することができ、その場合、刈り込み平均値を使用すると、偽陽性の個数が増えることがある。
【0104】
他のロバストな検定では、中心傾向およびバラツキの他のロバストな推定量を使用する。例えば、平均値の代わりに中央値、標準偏差の代わりに複数の四分位範囲を使用する。さまざまなロバストな統計的検定については、Wilcox,1997で説明されている。
【0105】
並べ換え検定(Phillip Good,Permutation Tests,Springer 1994)も使用できる。この状況での並べ換え検定では、例えば、各点(例えば、付随する指数変数を持つm/z識別子)でのt統計量(または他の何らかのユーザ指定統計量)を全ての点でのそのような統計量の集合と比較することが可能である。p値は、統計量の観測値のリスト内で順位により割り当てられる。
【0106】
上記の統計分析は、m/z強度対および識別子および/または(複数の)指標の関数上で実行することができる。これは、信号それ自体を含む。
【0107】
E.時間永続性
過渡的または永続的ノイズから検体を区別しやすくするために、p値の時間永続性、または擬似p値などの同等の測定を使用することができる。それぞれ特定のm/z強度対および時間に対応するp値の行列(または同等の統計量)は、上述の第II節D「差の評価」で例示されているような手法を使用して決定することができる。m/z識別子毎に、しきい値よりも低く(例えば、約0.05または約0.1または約0.2)、ユーザ指定最小時間よりも長く持続する(例えば、応用に応じて約5、約10、または約15秒)実験の2つの集合の間の差に対するp値を識別できる。
【0108】
2つの条件の間に差はなく、すべての信号は独立しているという帰無仮説の下で、永続的信号の尤度は、構成要素の時間点のp値の積である。i(ユーザ指定)個の連続するp値のうち少なくともm個がしきい値よりも低いパターンが識別可能である。この場合、独立性の下で計算されたp値は、(n choose m)を掛けなければならない。
【0109】
永続的信号は、尤度により順位付けされることができるが、ただしこれらは有意な差が最初に提示されていないという帰無仮説の下で最もありそうにない。ユーザ指定値よりも長く持続する信号は、望ましい場合、人為的結果と考えられ、無視できる。異なる実施形態では、ユーザ指定値は、少なくとも約1分、少なくとも約1.5分、または少なくとも約2分である。
【0110】
時間以外の1つまたは複数の指標変数の部分集合間の有意性の永続性は、さらに、過渡的または永続的ノイズから検体を区別しやすくするための手段として使用することも可能である。これは、時間永続性を考慮することに加えて、または考慮することと組み合わせて、または考慮することとは独立に、実行できる。指標値を持たないデータの場合、m/zの同位体または電荷関係の部分集合を含むだけでなく、データの分解能制限により解決されないピークにまたがる、m/z識別子の集合に対する永続性を使用できる。後者は、以下の第X節「実施例5」で説明される。
【0111】
F.再並べ換え
有意な差は、関係する複数のグループに並べ換えすることができる。信号内に関係する差が存在することは、さらに、それぞれの関係する差は、2つの試料集合内の検体のレベル間の差によるものであって、ノイズによるものではないという証拠となり得る。関係する差は、結果を提示するだけのため、またはグループ化された結果の尤度を修正するために、グループにまとめられる。
【0112】
並べ換えは、同位体である可能性、または単一の基本検体または基本検体の族の異なる荷電状態を表す可能性などの異なる特性に基づくことが可能である。その後、結果は、もっぱら相対的溶出時間(LC−MSの場合には時間指標とともに)の残りシフトだけによるものである尤度に基づいて複数のグループに分割され、「偽陽性」の検出が自動的に行われる。並べ換えでは、さらに、共通の生物学的経路の一部であること、または他の指標変数内のシフトなどの他の要因を考慮することも可能である。
【0113】
例えば、ペプチドは、LC−MSの一部であるイオン化時に、1つまたは複数の電荷を獲得することができる。それぞれの荷電状態z(通常、zは1、2、3、または4とすることができるが、場合によっては、それらよりも大きい整数である)から、異なるm/z識別子を持つ信号が発生する。したがって、単一ペプチド配列の異なる分子により、同時に、複数のm/z識別子でイオン(およびしたがって信号)が発生し得る。
【0114】
ペプチドが基本質量Bを持つ場合、荷電状態zに対するm/zは(B+z)/zに等しい。したがって、可能な基本質量は、特定のm/z識別子から、(質量対電荷*z)−zとして計算可能である。
【0115】
あり得そうなz値の範囲(通常、1、2、3、または4)のリスト内のそれぞれの信号に対する可能な基本質量を計算できる。時間的にオーバーラップし、同じ基本質量から生じ得る信号は、グループ化してまとめられる(他の指標変数内の一致またはほぼ一致も、多次元LCなどのいくつかのアプリケーションでは必要になることも考えられる)。結果のリストが再並べ換えされ、それぞれのグループは最高順位の成分信号の順位を受け取る。したがって、質量対電荷比により潜在的に同時に発生するより有意性の高い信号に関係付けられている有意性の低い信号はリストの上の方に移動される。
【0116】
グループのp値は、さらに修正され、例えば、それぞれにp値の積を割り当て(信号はランダムであり独立しているとの帰無仮説下で)、その後単一の項目として表される(または他の方法でグループ化される)ことができる。時間以外の指標変数が、ここで他の演算でグループ化に使用されることがあり得る(つまり、時間以外の変数のアライメントが一致のために必要になることがあり得る)。
【0117】
異なる信号は、さらに、それらが異なる同位体状態に由来するとm/z識別子が示している場合に、関係付けることができる。元素の同位体は、同じ数の陽子と電子を持つが、中性子の個数が異なる。1つの同位体は、一般に、他のすべてよりも共通性がかなり高く、支配的なm/z強度対を生成する。例えば、いくつかのペプチドは、共通形態の分子量から1(または複数の余分な中性子が存在している場合にさらに大きな整数n)だけ異なる分子量を持つ同位体形態を含み得る。m/z識別子は、任意の荷電状態zについて支配的なm/z識別子から1/z(またはn/z)だけシフトされる。
【0118】
同位体ピークまたは複数の荷電状態の出現で、検出信号にさらに対応できる。同位体ピークまたは複数の荷電状態を表し得る、また時間などの指標変数が存在する場合には、指標変数内でオーバーラップする、m/z識別子を持つ信号は、グループ化してまとめられる。さらに、同じ検体の2つの同位体(および/または荷電状態)のピークの形状(時間および/またはその他の1つまたは複数の指標変数の関数として)は、一般に、他の検体と比べて互いの類似度がかなり高い。したがって、2つのピークが所定の検体の異なる同位体(および/または荷電状態)に属しているかどうかは、その類似度を確定することにより確かめられる。2つのピークの測定された類似度(例えば、相関、内積、または順位相関)と類似度のその尺度の一般的分布または測定結果の所定の集合に対する対毎のピーク類似度の経験的分布との比較が行える。同位体(および/または荷電状態)効果のより複雑なデコンボリューションも、当業でよく知られている標準的手法使用することで可能である。これらは、差の生成された順位付きリスト内のm/z識別子の短い(非統計的フィルタ処理に関して)リスト上でもうまく働き得る。
【0119】
そのためにはさらに計算が必要になる可能性もあるが、同位体対合は、上述のプロセスの残りが完了する前に平均値または個別スペクトル上で実行されることも可能であり、推定単一の検体の同位体の所定の集合に対する信号は、すべて、総和または非線形プロセスを通じて組み合わされ、それにより、単一の実体としてそれらを処理することが可能である。類似の処理を、状況に応じて実行し、差の識別前または後に同じ検体(さらに同位体について上で説明されているように、比較的似たピーク形状を持たなければならない)の異なる荷電状態から生じると推定される信号を組み合わせることができる。
【0120】
さらにグループ化問題は、m/z値が高分解能で表される場合に生じる。この場合、単一荷電状態にある単一の検体は、質量分析の計測器側の方法の精度が制限されているためm/zの範囲で信号を発生することがあり、一般に、強度により、真のm/z値付近にピークが発生し、弱い信号がいずれかの側にある距離だけ伝わる。つまり、それぞれの真の差により、見かけの差の小さな「ピーク」が発生する(または、たぶん、指標変数も含まれている場合に「うね」)。これらの結果は、グループにまとめられた場合に解釈しやすく、それぞれ特定のm/z値を持つ単一の検体を表す。このようなグループ化は、上のE節で説明されている時間永続性の検索に類似しているが、ここでは、永続性は、時間ではなくm/z値にまたがっている。グループは、何らかの選択された数の連続する有意な結果のランを見つけることにより識別されることができる(例えば、mおよびnが、mはn以下である整数であるとして、1行の中に8、または1行の中のnのうちの少なくともm)。
【0121】
連続するm/zのスパンは、絶対項(例えば、m/z単位の半分)または相対項のいずれかで表すことができる何らかの最小幅にわたることが必要になる場合もあり、後者は、測定されるm/zに比例する典型的計測器のm/z精度と一致する(例えば、幅は、グループ内の最小のm/zの1パーセントの少なくとも4分の1でなければならない)。グループ化された結果自体は、さらにグループ化されることが可能であり、例えば、これにより、同じ前駆体の異なる同位体および/または荷電状態から生じるように見えるグループを接続する。指標変数を持つデータでは、m/z方向のグループ化は、時間の、または他の1つまたは複数の指標変数にそった永続性を探す前、または探した後に実行することが可能である。
【0122】
他の実施形態では、グループ化は、次元がm/z、および/または符号付き対数尤度および/または条件Aに対する信号および/または条件Bに対する信号および/または条件AおよびBに対する信号間の差を含む空間内の点の重み付けに基づく階層的または非階層的集塊的または分割的または他のクラスタ化を使用して実行される。次元重みを選択するためのこのようなクラスタ化法および発見的手法は、当業ではよく知られている。
【0123】
他の指標変数も存在する場合、それらも、クラスタ化のための次元として使用することができ、これにより、それらの指標変数上でグループ化を実行することもできる。さらに、推定電荷を掛けて、電荷誘導実体(陽子など)の質量を差し引き、推定同位体質量差を差し引くことにより推定電荷または同位体について補正されたm/zを使用することにより得られた代表mの次元を含めると、クラスタ化を使用すれば、同位体および多重荷電現象により複数のピークを発生する単一検体の同位体および荷電状態情報に対する証拠をグループ化しやすい。
【0124】
G.分割
分割は、検体のレベルの差によるのではなく、実験または計算上の人為的結果による差である「偽陽性」の識別をさらに容易にするために実行することができる。検出された差は、偽陽性であることの確率または尤度に対する近似を表す部分集合に分割できる。
【0125】
時間的に(または他の指標変数で)わずかにシフトされた2つの信号が差であるように見える場合にある種の偽陽性が生じる。特に、2つのほぼ同一のピークが互いに関してシフトされた場合(図10)、その後、立上りおよび立下りの両方の勾配が現れ、著しく異なる信号を表すようにできる。しかし、ピークがクロスした場合、通常、差が有意でない時間点が少なくとも1つある。このような信号は、さらなる分析のためフラグが立てられる。このような信号を扱う際に、2つ場合を区別できる。(1)立上りおよび立下りの両方の勾配が著しく異なるとして検出されたときと(2)1つのみが有意であるとして検出されたとき。
【0126】
前半分と後半分の両方が有意と検出された(「完全シフト」)シフトされた信号は、複数の時間に有意な差を持つm/z強度対を調べることにより識別できる。同じm/z識別子で2つの信号が時間的に十分近く(ユーザ定義パラメータ)、反対方向で異なる(前の方の信号ではAはBより大きく、後の方ではBはAよりも大きく、またはその逆である)場合、それらはグループ化でまとめられる。これらの「組み合わせた」信号は、その後、グリッドまたは二分探索法またはその他の最適化方法を通じて2つのピーク間の相関を最大にすることにより時間(または他の指標変数)で再アライメントされ、再度比較される。注目する曲線の一部分または全体への線形または非線形当てはめからの指標変数パラメータの差、順位相関、信号間のp値のマイナス、曲線間の面積のマイナスなどの、相関以外の尺度も使用できる。差がもはや有意でない場合、組み合わせ信号は、シフトによる可能な偽陽性としてマークが付けられる。差が有意なままである場合、成分信号は、リストから削除され、組み合わせ信号で置き換えられ、その場所は、有意水準により決定される。
【0127】
ここで説明されたばかりの方法は、立上りまたは立下り勾配のいずれかが有意であると検出されなかった場合には、機能しない。前の分析でグループにまとめられなかった信号をすべてチェックして、以下の基準の3つすべてを満たしているかどうかを調べることができる。
(1)平均(試料集合内のスペクトル間の)信号のいずれも、中にピークを持たない。ここで、ピークは、その信号がいずれかの側の最も近いN(ユーザ定義パラメータ)個の近隣点のどれよりも大きい点として定義される。そこで、N=2ならば、ピークは、2つの直前および2つの直後の時間点での平均信号よりも大きい平均信号である(これは、他の指標変数でもチェックできる)。
(2)時間(および/または他の指標変数)の関数として平均信号を表す最小2乗回帰直線の(複数の)勾配は、両方の直線について0から著しく異なる。
(3)2つの勾配は、2つの勾配のうちの大きい方と小さい方との比が何らかのユーザ定義しきい値、例えば、3よりも小さいという意味で、互いに十分に近い。
【0128】
3つの条件すべてが満たされた場合、信号は、時間シフト(「半シフト」)による可能な偽陽性としてフラグを立てられる。完全シフトは、半シフトから別々に分割できる。可能な偽陽性は、結果の順位リストの終わりまで移動し、見かけの有意性の順序でそれら自身の間順位付けできる。
【0129】
可能な偽陽性に対する見かけの時間シフト(「推定シフト」)は、後続の分析について追跡できる(以下の第II節H「再アライメント」を参照)。グループ化されてまとめられた立上りおよび立下りエッジからなる可能な偽陽性に対するシフトは、再アライメントされた信号間の最大の相関を与えるシフトとみなすことができる。単一の立上りまたは立下りエッジのみからなる可能な偽陽性については、シフトは、一実施形態では、平均信号を時間(および/または他の指標変数)に関係付ける直線回帰のx軸切片の差である。完全シフトに対する信号のアライメントに関する説明において、指標変数シフトの他の多数の推定量が上で取りあげられている。
【0130】
他の実施形態では、2つのスペクトル集合の再アライメントで差の有意性が止むかどうかをチェックすることにより、見かけの差が2つのスペクトル集合の間の時間または他の(複数の)指標変数のシフトによるものかどうかをチェックすることが可能である。例えば、スペクトル集合の他のアライメントが実際のアライメントよりも適切であり得るかどうかを判別するために、時間シフトの範囲により第1に関して第2をシフトしたときの2つのスペクトル集合の間の平均強度の相関を調べることが可能である。見かけの有意な差の何らかの領域の強度のみが計算に含まれ、例えば、見かけの有意性の領域、およびその範囲のいずれかの側で、見かけの有意性の領域の持続時間の長さの1または1.5または2または2.5倍またはそれ以上の倍数に等しい持続時間の領域である。時間シフトから未シフトのデータ集合間に存在する以上に著しく高い相関が得られない場合、調べている差は時間シフトによることはあり得ないと考えられる。何らかのシフトで、未シフトのデータ集合間に存在する以上に著しく高い相関が得られる場合、最高の相互相関を得るためにシフトの後にデータ集合について差が有意かどうかの判定が繰り返される。シフトの後も差がまだ有意である場合、それは、時間シフトによるものではないと考えられる。シフトの後、差がもはや有意でない場合、それは、時間シフトによるものである可能性が高いと考えられる。図8は、再アライメント使用して偽陽性をチェックするために実行することが可能な工程を示している。
【0131】
H.再アライメント
推定された時間シフトにフラグが立てられた後、それらの推定されたシフトを使用して、スペクトルの再アライメントを行い、分析を繰り返すことが可能である。再アライメント工程では、ありそうなシフトを判別するために、さまざまな偽陽性関係のカテゴリが使用される。
【0132】
可能な偽陽性のシフトの分布の中央値(最も近い数のビンで表される)は、最良のシフトとみなすことができる(百分位範囲上の平均値などの他の統計量も、適切な場合があり、一般に、中心傾向の尺度が適用可能と思われる)。その後、また、差について再アライメントされたビン分割信号を分析することができる。少なくとも1つの実施例(以下の実施例2に示されている)では、この手法により、他の結果の大半に影響を及ぼすことなく分割された偽陽性の個数を80%ほど減らした。再アライメント手順は、シフトの分布が広がりすぎるか、または中心傾向(中央値など)の尺度が0から著しく異ならない場合には、有益でないことがあり得る。
【0133】
それとは別に、オリジナルのスペクトルをシフトの分布の中央値(またはその他の統計量)に従って再アライメントし(最も近い数のビンで表現する必要はない)、プロセス全体の一部または全部を繰り返すことが可能であり、そのためには、オリジナルデータのグリッド再表示を行い、有意な差および可能な偽陽性の識別を続けることから開始する。
【0134】
(1)分析すること、(2)シフトを見つけること、および(3)再アライメントの手順全体は、1回または複数回繰り返している可能性があり、この手順は、次の再アライメントについてシフトを与える新しいそれぞれの分析で繰り返し実行できる。反復は、「停止基準」が満たされたときに停止され得る。停止基準は、例えば、十分に小さな(ユーザ定義)数の可能な偽陽性が識別されたか、または何らかの反復後識別された可能な偽陽性の数では著しく(例えば0よりも大きい値だけ)減少できなかった(前の反復の結果はこの状況で保持される)場合に満たされる。
【0135】
いくつかのデータ集合では、1回の再アライメントで有益であろう。複数の再アライメントが有益である場合もあれば、ない場合もある。異なる実施形態では、再アライメント手順は、0回、1回、少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回、少なくとも6回、少なくとも7回、少なくとも8回、少なくとも9回、少なくとも10回、または少なくとも停止基準が満たされるまで実行される。
【0136】
シフトは、時間(または他の指標変数)において非一様であり、例えば、後の時間は、前の時間よりも多く(または少なく)シフトすることが可能である。これは、例えば、流速または温度などの液体クロマトグラフィ実験の特性の変化がある場合に望ましいと考えられる。この場合、1つまたは複数のスペクトルからのシフト(1つまたは複数の基準スペクトルに関する)は、(平滑化)多項式または同等の式に当てはめられ(loess;Modern Applied Statistics with S.Fourth Edition,by W.N.Venables and B.D.Ripley,Springer,2002など)、対応するデータの時間座標は、その後、当てはめ曲線の値によりシフトされる。さらに極端な場合には、2つまたはそれ以上の集合内のスペクトルは、局所シフトを推定するために使用される偽陽性の外側で信号を0に設定し、その後、大域的動的時間ワーピングを実行して(Applied Functional Data Analysis:Methods and Case Studies by J.O.Ramsay and B.W.Silverman,Springer,2002;Functional Data Analysis by J.O.Ramsay and B.W.Silverman,1997)残りの信号のアライメントを行い、その結果得られるワープ関数を使用してオリジナルまたはビン分割データの時間座標をシフトすることにより、アライメントすることが可能である。シフトおよび関係する計算は、ビン分割の前後に実行可能である。
【0137】
I.感度および特異性
感度および特異性は、分析されるスペクトルの個数を増やすことにより高められる(上記の第I節Bを参照)。出力中の望む信頼水準、感度、または特異性を得るために必要なスペクトルの個数は、リサンプリング法または標準検出力分析を使用して推定されることができる。
【0138】
標準検出力分析では、所定の統計的検定(例えば、t検定)の感度をおよび/または特異性の望むレベルに必要な複製の個数を推定することができる。これは、検定の検出力を見つけると呼ばれ、これは、標準の統計的手法である。この方法で統計的有意性を推定するために使用されるt検定では、信号の平均値および分散および複製の個数のみが必要である。検出分析は、信号の対数の帰属された平均値および分散を使用して実行することができる。また、これは、上の第II節D「差の評価」で説明したように仮定された分散構造を使用して実行することもできるが、すべてのデータを収集する前に実行できる可能性と引き換えに、性能が悪化する可能性がある。
【0139】
強さ、振幅、p値、および時間永続性などの特定の属性を持つ信号検出するために必要なスペクトルの個数を決定するために、リサンプリング法が使用できる。これは、この分析に使用されるデータが、必要なスペクトルまたは試料の個数が推定されるデータの統計量を適切に表すと仮定する。
【0140】
例えば、2つまたはそれ以上の条件を含むデータ集合は、以下のようにリサンプリングすることにより生成できる(2つの条件を含む場合にここで例示されている)。それぞれの条件についてN個のスペクトルがあると仮定する。2からN−1までのそれぞれのnについて、n個のスペクトルを持つ(N choose n)部分集合があり、したがって部分集合の(N choose n)平方対がある。nの値毎に、これらの部分集合のM=Min(100,(N choose n)squared)に対し分析を実行できる。(ここで、ユーザ選択可能パラメータ100は、統計の目的のために最小値として選択されたが、それよりも大きくても小さくてもよい。)この結果は、例えば、所定の属性を持つ信号を検出する所望の確率を得るために必要なスペクトルの最小数を決定するために調べられる。
【0141】
特異性は、同じ試料集合から抽出されたスペクトルの2つの集合の間の差を調べることにより測定できる。スペクトルの集合の間には注目する真の差はなく、見つかった信号はどれも、偽陽性と考えることができる。このような偽陽性は、統計上の偶然の出来事として生じるか、または試料取り扱い時の汚染から生じる可能性がある。望ましくない特性を持つ偽陽性の分布がある場合は、データ品質が低いことを示していることがある。
【0142】
そこで、ユーザに対し、偽陽性の個数、そのp値の分布(箱ひげ図を通して)、指標値の分布、および/またはm/z識別子(箱ひげ図を通して)を通知することが可能である。総数、平均値、中央値、四分位範囲、最大、および/または最小、範囲などの分布のパラメータとしきい値とを個別に、または重み付き総和として比較し、品質問題があると思われることについてデータ集合にフラグが立てられるかを調べることが可能である。このような警告は、さらに、「多すぎる」がユーザ指定しきい値よりも大きい数である場合に、多すぎるスペクトルの悪い信号対雑音に基づいて発行することが可能である。
【0143】
信号対雑音比を決定する手法は、当業ではよく知られている。信号対雑音比は、例えば、第85百分位範囲から第93百分位範囲内の信号の平均値により除算された第95百分位〜第97百分位の範囲内の信号の平均値などの指定された百分位範囲上の平均値の比により決定することが可能である。これらは、また、すべての信号の中心傾向により除算された局所最大値の強度の中心傾向を使用して測定されることが可能である。ここでは、局所最大値は、m/z上で、または指標変数上で、またはm/zと指標変数との組み合わせ上で定義され、ある整数nについて点は少なくともn個の近隣点よりも高いことを要求するなどの当業でよく知られている手法を使用して定義することができ、近隣点は、m/zの連続して高いまたは低い値および/または1つまたは複数の指標変数を持つ点であり、それらの値は、測定またはビン分割することが可能である。
【0144】
リサンプリング法も、特異性の測定に使用することができる。単一の試料集合からのN個のスペクトル(Nは3よりも大きい)について、スペクトルの2つの部分集合のうちの一方が2、3、...またはfloor((N−1)/2)個までのスペクトルを持ち、他方が残りのスペクトルすべて(場合によっては1を除く、したがって、Nが奇数の場合、試料サイズは便宜上等しい)を持つ2つの部分集合の間で比較を行える。単一の比較では、スペクトルの2つの集合が、(反復なしで)N個の利用可能なスペクトルから選択され、分析が実行されて見かけ上の差を見つける。
【0145】
通常、ランダムに選択された部分集合対について何回も比較が実行される。通常、異なる部分集合対は多数あり、またスペクトルの2つの部分集合を選択する方法は多数ある。例えば、100個の部分集合対は、ランダムに選択され、部分集合サイズ毎に比較される。パラメータ100は、増減できる。
【0146】
偽陽性率を推定するため、その結果得られる差のリストが統計的に要約される。見かけ上の偽陽性の個数の部分集合対にわたって分布を調べると都合がよいであろう。総偽陽性率、および偽陽性率は、この分布から推定できる。さらに、十分な頻度で現れる差を調べて、一方の試料と他方の試料とで異なる汚染を反映するかどうかを判別することができる(スペクトルの目視検査では本当であるように見える差、それでも、故意に変えられた実験条件には関係しない)。これらの試料集合内差について見つかったp値の分布も、どの試料集合間差が注目するとよいかを案内するために使用可能である。
【0147】
第II節パート(A)から(I)までの工程はすべて、デジタルコンピュータ上で実行でき、関係する差のグループ化以外のそれらのどれかで実行される計算の回数は、m/z識別子の個数において線形時間対数線形以下で増大する。関係する差のグループ化で実行される計算の回数は、条件同士の間で見つかった有意な差の数の2次以下のオーダーで増える。
【0148】
III.差の有意性
「有意な」差は、2つの試料集合からのスペクトル内のm/z強度対に関する仮定の何らかの特定の集合の下ではあり得ない差である。仮定の集合は、「帰無仮説」と呼ばれ、通常は、2つの試料集合の間に検体のレベルに一貫した差はなく、したがってm/z強度対の間に一貫した差はないと思われる。
【0149】
標準的な統計的技法では、「p値」は、特定の観測された結果が帰無仮説の下でどれだけあり得るか、またはあり得ないかを表す。p値は、帰無仮説が真の場合に所定の結果が生じる確率として定義されることが多い。小さいp値は、帰無仮説の下であまりあり得そうにない結果を示し、したがって、より有意であるとみなされる、つまり、帰無仮説が誤っており、試料集合間に本当の差があるというよい証拠となる。
【0150】
通常は、特定の分析において有意性に対するしきい値として特定のp値が選択される。統計的手順でのように、試料集合間に対応する差がない場合に、いくつかのランダムな変動が有意に見えることがある。さらに、いくつかの統計的に有意な差は、ランダムなノイズによるものでない、またはランダムなノイズよるものでないように思われる場合でも、特定のアプリケーションにおいて重要なものでない可能性がある。異なる実施形態では、有意性に対するp値は約0.2、約0.1、約0.05、または約0.01のしきい値を持つ。
【0151】
本明細書の分析では、p値は、さまざまな方法で計算することができる。場合によっては、複数の方法使用し、p値を組み合わせて単一の推定「最終p値」にまとめることで、実体のp値(ある点または指標変数および/またはm/z値の領域内での信号差)を計算することが(感度および/または特異性に関して)有利な場合がある。例えば、最終p値は、その実体について決定されたp値の最大値または最小値または平均値または中央値として推定することが可能である。また、(当業でよく知られているある種のボンフェローニ補正を使用して)その実体について考察されているp値の個数をその最小値に掛けて推定することも可能である。その後、しきい値と比較する際にこの最終p値が使用される。最小の方法を使用して最終p値を求める場合、その結果得られる有意な実体のリストは、個々のp値方法のそれぞれを独立して使用することから得られるリストの合併である。
【0152】
また、本明細書の分析では、p値を計算する方法は、近似的に較正することができる。この較正を実行するために、リサンプリングに基づく確率的シミュレーションが実行される。p値を較正するこの方法およびその他の方法については、上のD節「差の評価」のロバストな統計的手法の背景状況において説明されている。
【0153】
IV.相対的量の判定
検出された検体の存在量がどれだけ変化したかを推定することが有用な場合がときにはある。「fold change」の類似尺度は、遺伝子発現データの解釈において一般に使用される。本明細書で説明されている方法により収集される情報は、そのような推定を行うために使用できる。図9は、2つのスペクトル内の信号の相対強度を定量化するために使用できる工程の実施例を示している。
【0154】
検体存在量におけるfold−changeの推定は、差発見アルゴリズムにより使用される表現に基づくことができる。これは、強度測定結果自体に基づくか、または強度測定結果は近似的に対数正規分布している可能性を示す証拠があるため、基礎をなす対数の分布に基づくことができる。
【0155】
fold−change推定が強度自体に基づいている場合、強度曲線の下の面積全体の変化(例えば、差、相対、レシオメトリック)を推定できる。このような変化は、例えば、有意な差が検出される領域(時間、m/z、および/またはその他の指標変数の)にのみ基づくことが可能である。また、これは、この領域から始めて、強度曲線内で局所最大値を含み、当業でよく知られている一般的ピーク発見アルゴリズムを使用して見つけることが可能であるような局所最小値により制約されるこの領域を含む最小の領域を見つける方法などにより、有意な差が検出される領域の周りの、その領域よりも狭いまたは広い領域に基づくことも可能である。強度曲線は、例えば、各時点での平均値または中央値強度を含む、試料集合内の試料間の強度の中心傾向の尺度に基づくことが可能である。fold changeは、他方の条件で測定された強度の平均値により除算した一方の条件で測定された強度の平均値として求めることが可能である。必要ならば、fold changeが推定される前に、基準強度を推定し、面積(持続時間にわたる面積に等しい平均値)から差し引くことができる。
【0156】
fold−change推定が対数強度に基づく場合、曲線の下の面積の差から対数変化の推定値が得られる。したがって、曲線の下の面積の差を累乗することで、fold changeの推定値が得られる。それとは別に、それぞれの時刻で累乗された差の平均値をfold change全体の推定値として使用することができるが、平均値の累乗を使用すると、累乗する前の測定結果の不安定度を平均することができる。
【0157】
他の強化点としては、測定された信号のそれぞれから何らかの基準信号を差し引き、残りの信号を使用してfold changeを計算するか、または有意性の領域よりも(溶出時間またはその他の指標変数に関して)わずかに広い領域内の信号同士を比較することを含むことが挙げられる(両方の信号が、それらの間の差が有意になる前に基準線よりも上に来る可能性を場合によっては異なる量で説明する)。
【0158】
ピーク面積および基準線を決定する方法は、一般に、クロマトグラフ信号およびDNA−base−callingの解釈で使用され、当業ではよく知られている。信号は、さらに、境界に近い信号強度の変動に関してよりロバストであるべき縮小された領域上で比較することも可能である。そのようなすべての比較について、スペクトル集合毎に1つの領域、またはスペクトル毎に異なる1つの領域があり得る。fold changeの計算は、ワープまたはアンワープ指標またはその両方を使用して行うことができる。
【0159】
中心傾向を測定する統計量を使用することに加えて、相対量の複数の測定結果を使用して、比に対するより適切な推定値および/または誤り限界を得ることができる。例えば、fold change推定値に対する誤り限界は、リサンプリングにより得ることが可能である。例えば、それぞれのスペクトル集合の部分集合(利用可能なスペクトルの何らかの固定部分を含む)を選択し、部分集合のその対を使用して上記の計算を実行し、fold changeを推定することが可能である。このような部分集合を繰り返し選択することにより、多数のfold−change推定値を求めることが可能である。
【0160】
fold−change推定値の分布を使用することにより、fold changeのリサンプリング推定値を求めることが可能である。当業でよく知られている標準のブートストラップ手法を使用してリサンプリングすることに対し場合によっては補正される中心傾向の尺度は、fold changeの全体的推定に使用することが可能である。推定値の分布をさらに使用して、例えば、分布または百分位点の標準偏差を使用して誤り限界を求めることも可能である(例えば、第2.5百分位を下限として使用し、第97.5百分位を上限として使用すると、95%の信頼区間が得られる)。
【0161】
リサンプリングに加えて、単一の検体の複数の同位体および/または複数の荷電(z)状態を使用することで、相対的計量および誤り限界推定を改善することが可能である。便宜上、ここでは、同位体および荷電状態のバラツキに内在する複数のピークを「マルチピーク情報」と呼ぶ。マルチピーク情報は、比または対数比の計算前にそれぞれのピークからの量を総和することにより複数のピークを組み合わせることで使用することが可能である。マルチピーク情報は、さらに、まず対応するピーク(同位体および/または電荷による対応)に対する比または対数比を計算し、その後、その結果得られる値の集合を使用し中心傾向の尺度を使用してその比または対数比を取得し、分散または四分位範囲などの統計的尺度を使用してバラツキを求めるという形で使用することも可能である。
【0162】
これらの比の較正も必要になることがあるが、AUCと関係する測定結果の比は絶対的数量に必ずしも比例しないからである。較正するために、(AUC1,AUC2,ratio)を例えばquantity1/quantity2にマッピングする関数Cを推定しなければならないであろう。ここで、AUC1およびAUC2は、条件AおよびBに対する信号の総量の尺度を表すために使用され、AUCまたは上述の他の方法のどれかを使用して計算することが可能である。項目quantity1およびquantity2は、それぞれ条件AおよびB内に存在する同じ検体の総量を表し、対応するAUC1およびAUC2を発生する。
【0163】
較正は、注目している領域に及ぶさまざまな知られている数量または濃度および注入量の消化ペプチドまたは小分子の混合物などの知られている比較的純粋な検体の溶液から開始することにより実行される。AUC1およびAUC2の値は、試料毎に1つの複製を使用するか、2つの複製を使用するか、3つの複製を使用するか、4つの複製を使用するか、5つの複製を使用するか、または5つよりも多い複製を使用する上記の手順のどれかを使用して繰り返し測定される。その結果得られる曲線および誤差推定値により、例えば、動径基底関数または回帰などの標準的手法を使用してマッピングCを推定することができる。望むならば、このマッピングの定義域内の1つまたは2つの変数は、無視することができる。
【0164】
差は、分類または予測で使用するためさまざまな方法で要約することができる。例として、局所最大値(「ピーク」)に「近い」点の重み付き総和を含む上述のAUC風の要約がある。このようなデータは、多くの場合、有効性または毒性などの数値的予測を行ったり、試料が条件Aまたは条件B、例えば疾病対健康、または悪性対良性の条件によるものである場合の予測などを分類するために使用される。上述のAUC風のまたは局所最大値尺度から特徴を選択することが可能であり(これは、有意な差を最初に見つける必要がある)、ブートストラッピング/ジャックナイフィングおよび/またはクロス確認を使用して分類器性能を推定することによりそのような選択を行い、組み合わせまたは確率的最適化を使用して結果として得られる特徴を選択する。
【0165】
組み合わせ手法としては、増分順方向特徴選択(最良のものを見つけて、その後それとともに含む最良のものを見つけ、その後それら2つとともに含む最良のものを見つける)、n/m方向増分順方向選択(通常n=1、n=2、またはn=3のnの最良の部分集合を見つけ、その後それらとともに含むm=1、2、または3の最良の部分集合を見つけ、所望の数の特徴または所望の性能が見つかるまで続ける)、または含まれるすべての特徴から開始し、その後通常はn=1、2、または3として最も性能を低下させるn個の特徴を取り除くことを含む減分逆方向選択がある。
【0166】
確率的最適化としては、特徴を選択する遺伝的アルゴリズムまたはランダム森がある(例えば、有意な差が見つかり、AUCおよび/または局所最大値および/またはマルチピーク特徴として要約された後)。最適化は、さらに、例えば、曲線内の信号の重み付き総和が曲線の下の面積を定義するために使用され、重みなし総和は使用されないように、定義のレベルで適用することも可能である。重みの集合は、要約が実行されるm/zおよび/または指標の関数とすることが可能であるが、最も単純なのは、例えば、有意な差の中の局所最大値からの距離または(m/zおよび/または指標軸にそって)その差の中心からの距離に基づきAUC計算を修正するための単一の重みカーネルである。
【0167】
共役勾配法および関連する方法などの連続最適化手法を使用し、上述のように分類器または予測器を最適化することにより重み関数の離散化を最適化することが可能である。
【0168】
シミュレートされたアニーリングまたは遺伝的アルゴリズムなどの確率論的方法も、有意な差の固定集合(およびm/zおよび/または指標値の近傍)それらの値に対する特異値分解またはロジスティック回帰の場合のように、これらの重み関数を最適化するために使用することが可能である。
【0169】
V.データ表示
実行される方法および分析に応じて、データは、さまざまな異なる形式で表示することができる。さまざまな形式の実施例として、表形式とグラフ形式がある。
【0170】
好ましい実施形態では、LC−MSデータ分析の結果は、異なる列でm/z、開始および終了溶出時間、およびそれぞれの信号の尤度または対数尤度を指定する差の順位付きリストとして表示され、より好ましくは、グループ、変化の方向(A/B)および/または量、および区画(「完全シフト」、「半シフト」、「見かけ上有効な結果」、またはこれら3つの状態の他の表現)も与えられる(以下の実施例2、表3を参照)。他の実施形態では、他の指標の値または範囲、局所的または大域的時間シフト値、および/または他の指標アライメント値などの追加情報は、表に入れることが可能である。状況に応じて表示される追加情報としては、データ品質全体の測定結果、使用されたアルゴリズムまたはソフトウェアのバージョン、または相対量、相対量または絶対量の範囲または誤差の推定値の計算のプロセスの前または最中に信号から差し引かれた基準線の値を含むことが可能である。
【0171】
グラフ表現も使用することができる。例えば、2つの試料集合からのスペクトル間のm/z強度対差については、スペクトルの2つの集合内の平均信号およびその標準偏差をグラフ化し、それにより、「信号プロット図」を作成することができる。グラフは、図10に示されているように、偽陽性区画ステータスに関してラベル付けすることができる。好ましい一実施形態では、これらの平均信号および偏差は、それぞれの側に有意性の領域とその領域の幅を加えた窓上で液体クロマトグラフィ溶出時間に対してプロットされる。p値などの他の要約統計量は、他の実施形態では、m/z識別子、0個またはそれ以上の指標変数、および/または実験的要因の関数としてプロットすることが可能であり、また試料または試料集合に関係する実験的要因および/または表現型、遺伝子型、および/または臨床データを示すためにラベル付けおよび/または彩色することが可能である(例えば、図11、12、13、および15を参照)。
【0172】
他の表現方法は強度プロットである。強度プロットは、色相、記号、強度、および/または色が強度、局所時間ワーピングまたは関連統計量(平均値、中央値、差のp値、分散、またはデータがその領域内にあるスペクトルの個数など)の関数であるイメージである。図11、12、および13は、強度プロットの実施例を示す。色は、例えば、黒色と白色、グレースケール、または記号で置き換えるか、または、増強することができる。強度プロットの利用可能な色、色相、強度、または記号により所望の情報が符号化できない場合、複数のプロットを作成し、互いに近い位置に配置するか、または透明および/または電子ディスプレイを使用して重ね表示することができる。
【0173】
図11は、時間およびm/z値の部分集合に対する平均強度値の差を例示する図である。
【0174】
図12は、p値の比較結果を例示する図である。時間永続性は、特定の強度または色の「直線」により視覚的に注目させることができる。
【0175】
図13は、差の大きさと有意性を例示する。
【0176】
図11、12、および13に示されているプロットは、データ集合の部分集合に対するプロットである。データ集合全体を含むさらに大きな部分集合も示すことが可能である。以下のような多数の変更形態が可能である。
(1)順位付きリストで指定されているものの周りの領域についてのみイメージ上に点(背景色以外の色とともに)示す。
(2)イメージが、順位付きリスト上のものによって示される、または関係する位置を中心とする、色、境界、形状、サイズ、向き、t−m/z平面の上の高さ、またはその領域内のデータを含むスペクトルの個数および統計値などの注目する属性とともに変化する他の属性を持つ、「スポット」のみからなるようにする。
(3)上記のすべての方法の組み合わせ、場合によっては、識別された差の位置または他の属性を示すまたはラベル付けするためにイメージ上に重ね合わされた幾何学的形状または記号を含む。
【0177】
イメージおよび順位付きリストは動的にすることも可能であり、それにより、ユーザがクリックしたりまたは他の何らかのことを行って順位付きリスト内の項目またはグループを示した場合に、グラフ上の対応する点が視覚的に強調され、以下の1つまたは複数が実現されるようにする。
(1)色、色相、強度、形状、または他の属性、または背景および/またはイメージ上の他の点の色を変更する。
(2)1つまたは複数の対応する信号プロットが示される。
(3)強度クロマトグラム全体、質量クロマトグラム、信号クロマトグラムの全体または一部、p値対tおよび/またはm/z、または1つまたは複数の指標変数に対するスペクトルまたは平均スペクトル、注目している範囲、および注目しているm/z強度対が示される。
【0178】
どのグラフを表示するかに関する決定は、チェックボックス、ラジオボタン、またはその他の共通インターフェイス要素により制御することが可能であり、また自動実行することができ、または対応するボタンまたはリンクがクリックされたときのみ表示することも可能である。さらに、リンクにより、ユーザは、マウスまたはタブレットなどのポインティングデバイスを使用して、イメージ上の点または領域を選択し、その後、含まれている有意な差および関連するグラフを表示できるようにすることが可能である。同様に、強度または信号または質量クロマトグラムまたはスペクトル(合計または局所的平均値または他の組み合わせ)から選択することが可能であり、表、強度プロット、または信号プロットとして表示することが可能である。
【0179】
視覚化を行う場合、マルチピーク情報を分離しておくデータ、またはピークから最初に情報を組み合わせたデータを使用することが可能である。例えば、図10の信号プロットは、個別のm/z識別子に対する信号、または上記の手法のどれかを使用して識別されているような所定の検体の異なる同位体に関係するすべての識別子に対する信号の総和などの組み合わせに基づくことが可能である。また、グループ化情報は、それらのグループ番号が場合によっては同じ検体を表すピークの集合間で変更されないようにグループ番号をピークに与えるか、またはピーク間の可能なグループ関係を示すグラフ(辺と頂点の集合、例えば格子)を描画することにより、示すことが可能である。複数のグループ番号またはグループ番号バージョンは、必要な場合にそれぞれのピークに割り当てて、ピークを複数の方法でグループ化できることを示すことが可能である。インターフェイスもまた、ピーク形状の相関などのグループ化に対する証拠を与えることが可能であり、これにより、ユーザは、何らかのグループ化の可能性の確認または拒絶を行い、それらのユーザ注釈を格納することができる。
【0180】
VI.分離手法
分離手法では、1つまたは複数の検体特性に基づき検体を分離する。分離手法の有用な特性は、サイズ、電荷、重量、疎水性、極性、および特定の化学成分の存在または欠如のうちの1つを含む。一般的分離手法フォーマットは、遠心分離、分画、クロマトグラフィ、ゲル電気泳動、疎水的相互作用チップ、気相イオン移動、気相イオン反応、および親和性チップを含む。
【0181】
本発明の一実施形態では、疎水的相互作用チップまたは親和性チップなどのチップを使用してスペクトルを取得し、一般的特性または特定の成分に基づいて検体を捕捉する。スペクトルは、例えば、表面増強レーザー脱離/イオン化によりチップ上で捕らえられる。(Petricoin et al.,The Lancet 359 :572−577,2002)。
【0182】
本発明の他の実施形態では、クロマトグラフ分離が使用される。クロマトグラフィは、静止している液体または固相の周りまたは上を、または一部真空または完全真空を通じて流れるときの溶質の分別分配の結果として液体または気体化学的混合物を複数の構成要素に分離することを伴う。
【0183】
好ましいクロマトグラフ法は、液体クロマトグラフィであり、これは、質量分析計に結合することができる。液体クロマトグラフィは、検体を分離することに加えて、試料集合間で異なるレベルの存在量を持つ検体を選択的に識別することを容易にするために使用されることができる指標(例えば、時間)を与えることもできる。
【0184】
さまざまな質量分析手法を、異なる液体クロマトグラフ法とともに適用することができる。液体クロマトグラフィとインターフェイスできる質量分析法の実施例は、電気スプレーイオン化、ナノスプレーイオン化、大気圧化学イオン化、および光電離を含む。(Lim et al.,Biol.Pharm Bull 25 (5) :547−557,2002)。
【0185】
異なる液体クロマトグラフ法の実施例は、高性能逆相液体クロマトグラフィ、キャピラリ電気泳動法、キャピラリエレクトロクロマトグラフィ、陽イオン交換クロマトグラフィ、陰イオン交換クロマトグラフィ、サイズ排除クロマトグラフィ、および親和性ベースのクロマトグラフィを含む。(Lim et al.,Biol.Pharm Bull 25 (5):547−557,2002;Link,Trends in Biotechnology 20(12,Suppl):S8−S13,2002)。
【0186】
検体分離は、多次元液体クロマトグラフィを使用して増強できる。多次元液体クロマトグラフィは、通常、検体の2つまたはそれ以上の無関係の物理的特性を使用することに依存する。(Link,Trends in Biotechnology 20 (12,Suppl):S8−S13,2002)。多次元液体クロマトグラフィは、例えば、指定された順序で2つまたはそれ以上の溶媒特性を変えることにより単一の分離装置内で2つまたはそれ以上の異なる液体クロマトグラフ工程を実行することにより実行することができる(Link et al.,Nature Biotechnology 17:676−682,1999)。
【0187】
VII.追加手法
必要ならば、注目している検体をさらに特徴付けるために、追加手法を実行することができる。他の特徴付けは、例えば、表現レベルが試料集合間で変化する特定の検体の素性または化学的構造を決定するために実行できる。
【0188】
ポリペプチドなどの検体は、さらに、タンデム質量分析などの手法を使用して特徴付けることができる。タンデム質量分析は、質量分析の複数の段階を使用して、さらに特定のm/zで特定の1つまたは複数のイオンを分析することを伴う。注目している(複数の)親イオンの識別を可能にする初期質量スペクトルを記録することは一般的な方法である。さらに、分析は、親イオンを生成物に転換し、その結果得られる生成物イオンを質量分析により分析することを伴う。
【0189】
質量分析から得られる結果は、検体同定に使用することができる。例えば、結果を、予測される質量スペクトルを含むデータベースと比較して、より小さな成分を調べることができる。同位体タグ付けを状況に応じて使用することを含むタンデム質量分析を実行する手法は、当業ではよく知られている。(Yates et al.,U.S.Patent No.5,538,897,Smith Trends in Biotechnology 20(12,Suppl):S3−S7,2002,Flory et al.,Trends in Biotechnology 20(12,Suppl):S8−S13,2002)。識別された検体およびその指標およびm/z値のデータベースを作成して使用し、データベースと照合して指標値またはm/z値の類似のパターンを持つすでに識別されている検体を検索することにより、将来の検体を推定識別することが可能である。
【0190】
VIII.応用
2つの試料間で異なる存在量を持つ検体を選択的に識別することには、異なる分野においてさまざまな用途がある。ある程度重なり合う、2つの一般的分野分類として(1)生物学的分類と(2)定性的分類がある。
【0191】
生物学的応用の実施例には、以下のものがある。
1)プロテオームと変調された状態とを比較する。
2)薬物代謝および代謝変化を評価する。
3)翻訳後修飾または共翻訳修飾を測定する。
4)健康と疾病状態、異なる疾病状態、または異なる健康状態を比較する。
5)変性タンパク存在量を測定する。
6)タンパク質一次配列修飾を測定する。
7)生物活性の変化を測定する。
8)遺伝子操作の効果を測定する。
9)細胞または動物の処理の投与または時間過程の研究を実行する。
10)生物兵器の存在を識別する。
11)所定の生体物質に対する特定の親和性を持つ化合物を識別する、特に多数の化合物に対するそのような親和性のレベルまたは存在を識別する。
12)生体系に効果を生じる化合物を識別する、特に多数の化合物に対するそのような効果のレベルまたは存在を識別する。
13)所定の生体系または物質または化学物質により変化を引き起こされる(例えば、新陳代謝、溶解、または他の何らかの方法による変性)生体物質を識別する、特に多数の物質に対するそのような変化のレベルまたは存在を、特に酵素基質を識別するタンパク質またはペプチドまたは他の化学または生物ライブラリの使用に関して識別する。
【0192】
定性的用途の例には、以下のものがある。
1)水、土壌、または衣類中の知られている、または知られていない汚染物質を検出する。
2)化学兵器の存在を識別する。
3)原材料または製造製品中の相違または不純物を識別する。
4)建物またはその他の囲まれた空間内の空気中の成分を識別する。
【0193】
検体は、分析前に修飾されていても、修飾されていなくてもよい。検体修飾を実行して、検体分析、検出、または精製を容易にするタグを加えることができる。例えば、タグ付けは、感度または特異性を高めたり、または他の何らかの手段により、試料集合間で検体を区別するために必要な属性を変えるために使用することが可能である。タグの例としては、蛍光性タグ、放射性タグ、結合タグ、親和性タグ、共有結合タグ、および同位体タグがある。タグは、例えば、1つの条件の下で試料にマークを付けるか、または多数の条件について試料に区別する形でマークを付けるために使用できる。
【0194】
生物学的および定性的な特定の応用領域は、(A)診断応用、(B)化合物評価および逆薬理学を含む薬理学、および(C)病気治療法を含む。
【0195】
A.診断
本明細書で説明されている分析法は、診断分析の実施および診断分析のためのマーカーの識別で使用することができる。診断分析は、疾病または疾患に関連するマーカーの存在または量を測定することにより実行できる。マーカーは、単一のまたは複数の検体に基づくことができる。核酸またはペプチドなどの細胞の内部、表面の中または上、または外部に存在する生物検体は、潜在的なマーカーである。
【0196】
疾病または疾患に関連するマーカーは、(1)疾病または疾患の存在またはレベル、または(2)疾病または疾患にかかる一般的母集団、または識別可能な部分母集団よりも大きな潜在性に対する予測能力を持つことを意味する。異なる種類のマーカーを測定し、原因物質に起因するマーカー、疾病および疾患に直接関わるマーカー、および/または疾病または疾患状態を反映するマーカーを含む関連が存在するかどうかを判定することができる。
【0197】
原因物質は、宿主物質および宿主内に導入された化学物質を含む。疾病または疾患に関連する宿主物質としては、宿主内に生成される有毒物質、および健常人に関して生成が過剰または不足な化学物質がある。
【0198】
疾病または疾患の原因となり得る外部物質は、化学物質、プリオン、細菌、菌類、始原細菌、およびウイルス、さらに電磁気化学機械分野、電離放射線またはその他の催奇性または中毒性または身体の自由を奪う物質を含む。さまざまな有機体またはその結果生じる損傷遺伝物質は、ペプチドを含むか、または符号化する。そのようなペプチド(とともに、潜在的に、他の化学物質)の存在または生産を測定することを利用して、疾病または疾患の存在または原因物質により疾病または疾患にかかる潜在的可能性を示すことができる。
【0199】
外部物質に対する宿主反応は、生物マーカーのもう1つの源である。宿主反応は、免疫グロブリンを含む免疫反応物質の生産または宿主レベルのペプチドの変化を含むことができる。
【0200】
疾病または疾患に関連するバイオマーカーは、原因物質についての事前の知識に基づいて選択することができるか、または経験的に判別することができる。1つまたは複数のマーカーと疾病または疾患との間の可能な関連は、統計的な、その他の計算による、またはグラフを使用した方法により評価することができる。
【0201】
異なる種類の試料集合を使用することで、疾病または順序に関連するバイオマーカーを識別することができる。可能な被験者グループは、疾病または疾患のリスクが高いすでに識別されている被験者および特定の疾病または疾患を持つ被験者を含む。試料集合は、さらに、疾病または疾患にかかるリスクレベルおよび疾病または疾患の臨床レベルを使用して定義することもできる。被験者グループは、さらに、承認可能なサンプリング手順に内在する試料のバイアスを含む利用可能な母集団からランダムに選択することもできる。(上述の第1節B「試料集合」を参照)。
【0202】
本明細書で説明されている手法を使用して大量のデータを分析できることで、異なる種類の試料において異なるレベルを持ち得る検体を識別するので、潜在的バイオマーカーの識別が容易になる。潜在的バイオマーカーと疾病または疾患との関連は、さらに、階層的および非階層的クラスタ化、集塊的および分割的クラスタ化、前記のクラスタ化法のハイブリッド、相関または関連の尺度、主成分または主最小二乗解析、ベイズ分類器、分類および回帰木、ランダム森、線形または2次判別分析、ニューラルネットワーク、患者規則導入方法、ベイズネットワーク、およびビリーフネットワークなどの分析法を使用して評価することができる。(例えば、T.Hastie,R.Tibshirani & J.Friedman.The Elements of Statistical Learning.Springer Series in Statistics.Springer,New York,2001;B.D.Ripley,Pattern Recognition and Neural Networks,Cambridge University Press;1996;Judea Perl Bayesian Networks,1988;Bayesian Networks and Decision Graphs by F.Jensen,Springer Verlag,2001を参照)。
【0203】
B.化合物の評価および薬理学
化合物の評価および薬理学を実施して、細胞または動物に対する化合物代謝作用および効果を評価することができる。代謝作用の研究は、生体物質のサンプリングによる判別、化合物の吸収、分配、代謝作用、および排出、およびその代謝副産物を含む。このような評価は、重要な治療対象を識別すること、潜在的治療化合物を優先順位付けすること、有毒代謝物を識別すること、治療代謝産物を識別すること、細胞または生物に有害と思われる検体の生産増大または減少を識別すること、細胞または動物に有益な効果をもたらす検体の生産増大または減少を識別することを含むさまざまな用途を含む。
【0204】
化合物逆薬理学は、新しい治療対象または1つまたは複数の知られている化合物の新しい用途を判別するために知られている効果を持つ化合物を使用して実施することができる。このような研究は、治療的介入の、有益なまたはそうでない、意図されない効果に対するバイオマーカーの識別を伴う可能性がある。
【0205】
C.病気治療法
ペプチドなどのバイオマーカーの表現状態から、細胞または動物の健康に関する情報が得られる。バイオマーカーレベルの変化は、特定の治療を選択し、治療の有効性を監視するために使用することができる。これらの変化は、例えば、未治療の被験者、異なる治療状態の異なる被験者、または治療中の異なる時点における被験者に関するものである。
【0206】
IX.ソフトウェア
本明細書で説明されている分析の異なる実施形態のコンピュータ実装は、コンピュータ可読形態で命令を供給するコンピュータプログラムを使用して実現することができる。異なる変更形態の実装の高水準のビューの実施例は、図1〜9に用意された流れ図に示されている。
【0207】
異なる種類のコンピュータ言語を使用し、コンピュータ可読形態の命令を与えることができる。例えば、コンピュータプログラムは、S、C、C++、FORTRAN、PERL、HTML、JAVA(登録商標)、CシェルスクリプトなどのUNIX(登録商標)またはLINUXシェルコマンド言語、およびそのような言語のさまざまな方言などの言語を使用して書くことができる。S言語の方言である「R」は、ここで提示されているような分析を行いやすくする属性を持つ方言の一実施例である(http://cran.us.r−project.orgを参照)。
【0208】
異なる種類のコンピュータを使用して、本明細書で説明されている分析法を実施するプログラムを実行できる。本明細書で説明されている分析法を実施するコンピュータプログラムは、十分なメモリおよび処理能力を備えるコンピュータ上で実行できる。好適なコンピュータの一実施例は、200MHz以上の速度のIntel Pentium(登録商標)ベースのプロセッサおよび64MB以上の主記憶を備えるコンピュータである。同等のまた優れたコンピュータシステムも、当業ではよく知られている。
【0209】
さまざまな種類のコンピュータに対し標準オペレーティングシステムを採用することができる。Intel Pentium(登録商標)ベースのプロセッサ用のオペレーティングシステムの実施例としては、Windows(登録商標) NT、Windows(登録商標) XP、およびWindows(登録商標) 2000などのMicrosoft Windows(登録商標)ファミリおよびLINUXがある。Macintoshコンピュータ用のオペレーティングシステムの実施例としては、OSX、UNIX(登録商標)、およびLINUXオペレーティングシステムがある。他のコンピュータおよびオペレーティングシステムも、当業ではよく知られている。異なる実施形態では、LINUXオペレーティングシステムが稼働する4GB RAMデュアル866MHz Pentium(登録商標) IIIプロセッサを備えるIntelベースのコンピュータまたはIntelベースのコンピュータがWindows(登録商標) NTまたはXPオペレーティングシステムをx−windows端末として実行するAIXオペレーティングシステムが稼働するIBMコンピュータ上で、R言語が使用される。
【0210】
X.実施例
本発明のさまざまな特徴をさらに例示するために、いくつかの実施例を以下に示す。これらの実施例は、本発明を実施するための有用な方法も例示している。これらの実施例は、請求されている発明を限定しない。
【実施例1】
【0211】
分析法
数値の2つの集合が著しく異なるかを判別するための統計的方法は多数ある。(Kanji,100 Statistical Tests,1999,SAGE Publications,W.J.Conover.Practical nonparametric statistics(2nd ed.).New York:John Wiley & Sons,1980)。この実施例は、試料集合内バラツキおよび試料集合間バラツキを使用して差の統計的有意性を判定することを示している。この実施例は、t検定、その後、ウイルコクソン順位和検定を示している。
【0212】
この節の計算はすべて、表1のサンプルデータについて示されている。計算の数値は、例示目的のために選択された。
【0213】
I(A,1)、I(A,2),...I(A,5)のラベルが付いている列は、試料集合Aに対する強度の5つの測定(ビン分割および正規化)を表しており、I(B,1)からI(B,5)までと試料集合Bについても同様である。これらの数値の平均値は、列平均(A)および平均(B)内にある。Mean(A)は以下のように計算された。
【数1】
Mean(B)も類似の方法で計算された。
【0214】
測定結果の2つの集合間の差は、一部は、平均値の差、D=mean(A)−Mean(B)で表すことができる。この差Dが0から著しく異なっているかどうかを決定するために、1つの統計的アプローチでは、このサイズの差を偶然見つける可能性を判定する。
【0215】
測定結果およびいくつかの統計的仮定が与えられると、ランダムな出来事(例えば、ノイズ)による少なくともD程度の大きさの差を見つける確率は、以下のようにして計算できる。この確率は、「p値」と呼ばれ、差は、通常、p値が0.05未満の場合に有意とみなされるが、アプリケーションに応じて他のしきい値を使用することもできる。
【0216】
一般に、DがAおよびBの「散らばり」または「バラツキ」と比較して小さい場合、少なくともD程度の大きさの差を見つけることは、ランダムな一致である可能性が高すぎるとみなされ、したがって重要でない(図14A、14B)。DがAおよびBの「散らばり」または「バラツキ」と比較して十分に大きい場合、偶然生じることはあり得ず、有意であるとみなされる(図14C、14D)。
【0217】
そこで、試料集合内バラツキ(A測定の散らばりとB測定の散らばり)はDで表される試料集合間バラツキ(および一緒に考察されている10個の点すべての散らばり)と比較される。
【0218】
t検定の場合、試料集合Aに対する集合内バラツキの尺度は、Dev(A)であり、試料偏差である。
【数2】
これから、以下のように計算する。
【数3】
ただし、この実施例ではnA=5である。この節で使用されている記号は、表1、および図1〜9の流れ図内の記号に対応している。
【0219】
SAは、測定結果が平均値を中心にどれくらい散らばっているかを示す尺度である。すべての測定結果が同一であれば、この数値は0である。そうでなければ、これは、試料集合A内のデータの分布(散らばりパターン)を表す、最良適合釣鐘曲線(「ガウス」または「正規」)の幅の推定値を与える。類似の計算がBについても実行される。
【0220】
DがSAおよびSBに関してどれだけ大きいかを判定するために、これらを以下のように組み合わせ、
【数4】
その後、以下を求める。
【数5】
【数6】
の統計的有意性は、t分布におけるその確率(p値)を計算することにより求めることができる。これは、さらに、測定回数およびSAとSBとの間の差を考慮する、「自由度」Fの数を知っている必要がある。
【数7】
実際、p値は、標準のスプレッドシートアプリケーションの関数を使用するか、または表の中の値を検索して、
【数8】
およびFに基づき計算することができる。
【0221】
これらの値は、表1の中のp1、p2、...、p8とラベルが付いている8つの例について計算されている。時間指標変数を持つ典型的なLC−MSアプリケーションでは、t、p1、およびp2は、それらが典型的p値しきい値0.05よりも小さくても考慮対象から外される。これは、これらの(差の)有意性が長時間、持続しないからである(表1が完全であると仮定して)。点p3からp7は、単一のm/z識別子を共有し、5回連続するランを持ち、統計的有意性は典型的しきい値0.05未満であり、したがって、これら5つの点により、m/z 502.1は、開始時間3および終了時間3.2で有意な差を持つものとしてフラグが立てられる。
【表1】
【0222】
点p8は、約0.15のp値を持ち、これは、通常使用されているしきい値よりも著しく高い。そこで、m/zおよび開始および終了時間に有意であるとフラグを立てる基準として有意な差のある連続(5ではなく)6回のランが必要であった場合、これは欠落する。しかし、点p8では、すべての5A値は2000未満であるが、すべての5B値は2000よりも高い。t検定がこの有意性を見つけられなかったのは、点の分布に関する基礎となる仮定(「正規性」)に反していたという理由からである。この検定は、1つまたは複数の「外れ値」(まれな、異なる測定結果)により望ましくない結果が引き起こされる可能性があるため「ロバスト」でないと言われる。
【0223】
データに関する仮定を緩めた代替え検定の実施例がウイルコクソン順位和検定である。(Kanji,100 Statistical Tests,1999,SAGE Publications,W.J.Conover.Practical nonparametric statistics(2nd ed.).New York:John Wiley & Sons,1980)。この検定を適用するには、10回の測定結果に最小から最大まで1から10の順位を付ける(表2)。
【表2】
その後、Aの順位を足し合わせて1+2+3+4+5=15を得る。この合計は、試料内バラツキに関する試料間バラツキの尺度となるが、それは、測定結果同士の比較方法を考慮しているからである。この検定で、値15を表の中で探索し、p値が0.01未満の場合にこの順序が有意であることを見いだすことができる。実際、異なる検定から計算されたp値の集合から最小のp値を取り出すことが可能である。これにより、感度は高まる(より多くの点が検出される)が、推定対数尤度の適当な補正(ボンフェローニなど)が必要になることがある。
【実施例2】
【0224】
調合されたタンパク質混合物の分析
この実施例では、合成孤立または精製タンパク質試料集合を使用して、検体の複雑な混合物が存在している場合に試料集合間で異なるレベルの存在量を持つ検体の選択的識別を例示している。この実施例では、m/z強度対に加えて時間指標を使用し、比較的低いレベルの検体差に対応するスペクトル内の小信号に対する高い感度を維持しながら偽陽性を減らすために使用できる異なるフィルタ処理手法の結果を例示する。
【0225】
タンパク質消化物標準
24個のタンパク質のトリプシン消化物は、Michrom BioResources(カリフォルニア州オーバーン)から入手した。選択されたタンパク質、ソース、および対応する分子量は、シトクロムC(ウマ)12kDa、リゾチーム(ニワトリ)14kDa、ヘモグロビン(ウシ)17kDa、ミオグロビン(ウマ)17kDa、ベータラクトグロブリン(ウシ)18kDa、キモトリプシノゲン(ウシ)25kDa、カルボニックアンヒドラーゼ(ウシ)29kDa、デオキシリボヌクレアーゼ(ウシ)31kDa、カルボキシペプチダーゼA(ウシ)35kDa、グリセルアルデヒド3Pデヒドロゲナーゼ(ウサギ)37kDa、コナルブミン(ニワトリ)40kDa、ペルオキシダーゼ(ホスラディッシュ)44kDa、アルファアミラーゼ(バシラス属)50kDa、グルタチオンSトランスフェラーゼ(ウマ)51kDa、グルタミン酸脱水素酵素(ウシ)55kDa、ウシ血清アルブミン(ウシ)68kDa、アポトランスフェリン(ウシ)76kDa、ラクトペルオキシダーゼ(ウシ)85kDa、アミログルコシダーゼ アスペルギルス属92kDa、ホスホリラーゼB(ウサギ)97kDa、ベータガラクトシダーゼ(ウシ)115kDa、カタラーゼ(ウシ)128kDa、乳酸脱水素酵素(ウサギ)140kDa、免疫ガンマグロブリン(ブタ)160kDaであった。それぞれの試料は、−80℃で凍結保管された。
【0226】
ペプチド標準
凍結乾燥ブラジキニン1〜9(MW=1060u)、アンギオテンシンI(MW=1296)、およびニューロテンシン(MW=1672)は、Sigma−Aldrich社(ミズーリ州セントルイス)から入手した。ペプチドを0.1%のトリフルオロ酢酸(TFA)と組み合わせて再構成し、10pm/uLの原液を作った。
【0227】
タンパク質消化物の組み合わせ
0.1%TFA 10uLアリコートを、シトクロムC、リゾチーム、ヘモグロビン、ベータラクトグロブリン、キモトリプシノゲン、カルボニックアンヒドラーゼ、デオキシリボヌクレアーゼ、カルボキシペプチダーゼ、グリセルアルデヒド3Pデヒドロゲナーゼ、ペルオキシダーゼ、グルタチオンSトランスフェラーゼ、グルタミン酸脱水素酵素、アポトランスフェリン、ラクトペルオキシダーゼ、アミログルコシダーゼ アスペルギルス属、ホスホリラーゼ、ベータガラクトシダーゼ、カタラーゼ、乳酸脱水素酵素、免疫ガンマグロブリンの20個のタンパク質消化物標準約500pmolに加えて50pm/uLの溶液を調合した。タンパク質消化物原液を組み合わせて、20個のタンパク質消化物からなる2.5pmol/uLの混合物を得た。この混合物は、タンパク質混合物AおよびBと表されている2つの同じ100uLアリコートに分けられた。
【0228】
タンパク質混合物Aへの添加(試料集合1)
ミオグロビン(50pm/uL)、コナルブミン(10pm/uL)、アルファアミラーゼ(5pm/μL)、およびウシ血清アルブミン(1pm/uL)は、各凍結乾燥タンパク質消化物の約500pm分を10、50、100、および500uLの0.1% TFAでそれぞれ再構成して調合された。それぞれの原液の10uLアリコートを100uLのタンパク質混合物Aに添加した。10uLの0.1% TFAを添加して原液Aの最終量を150uLにした。タンパク質混合物A内の消化されたタンパク質最終の計算濃度は、[20タンパク質混合物]=1.7pm/uL、[ミオグロビン]=3pm/uL、[コナルブミン]=0.7pm/uL、[アルファアミラーゼ]=0.3pm/uL、[ウシ血清アルブミン]=0.07pm/uLである。
【0229】
タンパク質混合物Bへの添加(試料集合2)
コナルブミンの10pm/uL原液の35μLアリコートを100uLのタンパク質混合物Bに添加した。さらに、10pm/uLペプチド原液の10uLアリコートをタンパク質混合物Aに添加し、0.1% TFAを5uL添加して、最終的な量を150uLに増やした。
【0230】
液体クロマトグラフィ質量分析プロトコル
分析的液体クロマトグラフ(HP1100、Agilent Technologies社、カリフォルニア州パロアルト)および四重極イオントラップ質量分析計(LCQ;ThermoFinnigan社、カリフォルニア州サンノゼ)を使用して試料を分析した。試料は、C18逆相カラム(Brownlee OD−300,Aquapore,C18,7mm,300a,5cm x 1.0mm;Perkin Elmer,Wellesley,MA)に注入され、100uL/分の流速で0.1% TFA(溶媒A)およびアセトニトリル(溶媒B)の2値勾配により分離された。勾配は45分以内に0から70%溶媒Bに増加し、溶出物は質量分析計の電気スプレーイオン化ソース内に向けられた。完全走査重心質量スペクトルが、400から1800Da/zまでのm/z範囲にわたって1.2秒毎に取得された。LC−MSデータファイルは、計測器固有形式から、保持時間、m/z、および強度データを3列で含み、さらに実験および/または試料を識別するために使用される他の補助情報を含むテキストファイルに変換された。
【0231】
複製混合物分析
HPLCオートサンプラを使用して、ペプチド標準およびタンパク質試料AおよびBの複製スペクトルを収集した。使用した注入順序は、ブランクの試料、ペプチド標準、ペプチド標準、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、タンパク質混合物A、タンパク質混合物B、およびペプチド標準であった。開始時のブランク試料は、保持時間の一貫性を高めるのに役立つが、ペプチド標準はその一貫性を検証するのに役立つ。他の順序も使用されている可能性がある。
【0232】
個別タンパク質消化物の特徴付け
0.1% TFAの500uLアリコートを各凍結乾燥タンパク質消化物の500pmolに添加してミオグロビン、コナルブミン、アルファアミラーゼ、およびウシ血清アルブミンの1pm/uLの溶液を調合した。LCMSプロトコルを使用して、それぞれの個別タンパク質消化物を分析した。
【0233】
結果
2つのタンパク質混合物からの質量分析信号間で204個の差が検出された。単一の再アライメント工程が実行され、その結果113個の差が得られた。排除された差の大半は、完全または半シフトであった。2つのタンパク質混合物の間のそれぞれの故意に持ち込まれた化学的な差により、質量分析信号に複数の差が生じた。逆に、質量分析信号間のほとんどすべての差は、2つのタンパク質混合物間の知られている差の1つから生じるものとして肯定的に識別された。
【0234】
図1Aおよび2〜6に例示されている方法の偶数番号の工程を使用して実行した分析の結果は表形式とグラフで例示されている。表3は、表形式で結果の一部を示している。表10は、図形式で4つの結果を示している。
【0235】
表3は、「グループ」、「質量」、「開始」、「終了」、「対数尤度」、「A/Bのうち高い方」、および「シフト」を示している。情報を加減した表を含む表3の異なる変更形態も可能である。シフト0は、2つの試料集合の化学組成の差による可能性が最も高いものとして自動的に判別された結果であることを示す。シフト「0.5」は、半シフト(上の第II節「分割」を参照)を示しており、一般に、信頼度または偽陽性の尤度に関する区画を示すことが可能である。「1」は、完全シフトを示すが、再アライメントの後、このデータ集合は、完全シフトを持っていなかった。
【表3】
【0236】
グラフを調べて、2つの試料集合からのスペクトルにおいて異なるレベルを持つ205個のm/z強度対の結果を分析した。図10は、調べることができたグラフの4つの例を示している。22個の結果が(対で)可能な完全シフト偽陽性の構成要素として識別され(時間的にシフトした信号の立上りおよび立下りエッジが両方とも差として識別されたシフト)、76個が可能な半シフト偽陽性として識別された(1つのエッジのみが差として識別された)。106個の結果が、可能な偽陽性として識別されなかった。
【0237】
観測されたシフトは、ワンタイムビンのシフトの周りに密クラスタ化された(B条件はA条件よりも後に抽出)。このシフトを考慮して、分析が再実行された。この分析で、113個の差のみが発見された。そのうち6個は、可能な半シフトであると識別され、識別された完全シフトはなかった。結果は、溶出時間ではシフトを使用しない分析の結果とほとんど一致している。シフトされた分析のほとんどすべての結果が、シフトなしで実施された分析の中に存在した。初期分析で可能な偽陽性として識別されなかった20個の結果は、シフトされた分析の中で消えたが、弱い結果となる傾向があった(そのうち13個は、100番目のエントリよりも後に出現した)。少数の新しい弱い結果も、シフトされた分析の中に出現した。
【0238】
単一試料集合からのスペクトル同士を比較し、何も存在しない場合に見かけ上の差が発生した可能性を調べた。4つからなる2つの集合において、4つからなるグループ内、または2つのグループ間のいずれかで試料を繰り返さずに、条件Aからの8個のスペクトルを比較した。部分集合の100個の対をランダムに選択し(可能な8!=40320個の可能性のうちから)、それぞれの対を差に関して分析した。100個の結果のうちには、半分以上には差が見つからず、差の個数の第3四分位(第75百分位)は1である。
【0239】
したがって、偽陽性の個数は、一般に低いと予想される。部分集合の少数の対により、13または15個の差が生じ、100個の部分集合対にわたる偽陽性の総数は196であった。偽陽性率は、分析1回につきおおよそ2と推定することが可能である。
【実施例3】
【0240】
タンパク質存在量の差の計量
ときには、タンパク質存在量の変化を検出できるだけでなく、検出されたタンパク質の存在量が変化した量を推定できることも有用である。タンパク質混合物による実験を行い、タンパク質存在量の相対変化の計量を例示した。
【0241】
基本混合物は、実施例2のように、BSAは、2つの試料の間のタンパク質存在量の2fold changeについて、濃度0.06pmol/μLで条件Aにスパイクされ、濃度0.03pmol/μLで混合物Bにスパイクされた。
【0242】
表4は、3つの異なる検出された差に対する、これらの計算の3つの実施例をまとめたものである(図1〜9も参照)。強度の対数の曲線の下の面積の比または強度の対数の曲線の下の面積の差に基づく方法を使用して正規化された強度および非正規化された強度に基づく値が与えられる。3つの差はすべて、推定濃度比2:1で条件AおよびBにスパイクされたウシ血清アルブミンから生じる。
【表4】
【実施例4】
【0243】
ブランクとの比較によるミオグロビン消化物の分析
ミオグロビン消化物から取り出されたLCMSデータをブランク試料から得られたLCMSデータとを比較するために本明細書で説明されている手法が適用された。それぞれについて5つのデータ集合が得られた。これらの結果と実施例2で説明されているのと似ているが、0.625pmol/μLの濃度の試料Aの中にミオグロビンがスパイクされ、試料Bにはミオグロビンが存在しないスパイク実験からの結果とを比較した。スパイクされた消化物の濃度は1pmol/μLであった。
【0244】
モーメント法による基礎となる対数の分布の平均および分散を見つけることを伴う検定を使用して、ブランクとミオグロビン消化物との間に36個の有意な差が見つかった。これらのうち18個が、ミオグロビン消化物がある場合とない場合についてペプチド混合物の間の比較で検出された(同じm/z値を持ち、保持時間は50%を超えてオーバーラップしている)。ペプチド混合物比較で見つからない18個の差は、見つかった差よりも小さい。例えば、平均強度曲線の下の面積を調べると、ペプチド混合物比較では見つからなかったグループ内で、有意な差の領域内の曲線の下の面積の中央値の差は、任意の強度単位で114800であり(四分位範囲66210〜156100)、見つかったグループについては、中央値の差は210200である(四分位範囲「iqr」173400〜689600)ことがわかる。同様に、平均強度曲線の最大値を調べると、中央値はスパイク対ブランク比較でしか見つからないグループ内で23180(iqr15740−34380)であり、ペプチド混合物の比較でも見つかるグループでは45370(iqr28540〜101860)であることがわかる。ペプチド混合物の比較で見つからないこれらの差のうちの2つは極端に小さく、偽陽性である可能性がある。
【0245】
ブランク対ミオグロビン消化物比較でのミオグロビンの濃度は、ペプチド混合物比較での濃度よりも50倍以上大きかった。濃度の高い消化物内で小さい差は、物質があまり濃縮されていない場合には検出されなかった。
【表5】
【表6】
【実施例5】
【0246】
指標変数なしで質量分析法を使用した臨床血清試料の分析
この実施例では、指標変数を含まないスペクトルの分析、およびバイオマーカーの識別を例示している。データは、Webサイトhttp://clinicalproteomics.steem.com/download−ovar.phpからダウンロードされた。Petricoin et al.,Lancet 359:572−577,2002では、このデータを利用し、異なる分析法を使用して癌バイオマーカーを識別することについて説明している。
【0247】
データは、図1Aおよび2の偶数番号のボックスの中の工程を使用して分析されたが、ただし106、108、112、および136では「no」で応え、130、132、および134の機能を実行しない。この分析では、ビン幅1(それぞれ、ビン幅0.5)として参照される、それぞれの指定値のいずれかの側で0.5単位(および0.25単位)内のm/z値の窓を使用した。後述の分析については、2つのビン幅の結果は定量的には異なるが、定性的には異ならない。
【0248】
データ集合内のそれぞれ、およびすべてのm/z識別子の有意性を計算した。パターン認識法および識別された信号を使用することで、ほんの一握りのこれらの信号を使用する疾病状態の完全な予測器を作成できた。(「完全な予測器」は、学習データの集合および独立の検定集合の両方において誤りなしでコントロール試料から癌を区別する)。
【0249】
この分析では、癌スペクトルの2/3およびコントロールスペクトルの2/3は、学習集合としてランダムに選択され、残り1/3は検定集合として使用された。この方法で、オリジナルの集合内の15,200個の識別子と比較して、癌と6381個のm/z識別子に関連付けられた信号内のコントロールクロマトグラムとの間の有意な差を識別した。6925個の識別子での差は、ビン幅0.5で有意であった。オリジナルの集合内の正確な識別子がビン分割なしで使用された場合、7884個、またはおおよそ半分に関連する信号は、2つの条件の間で著しく異なることが判明した。
【0250】
図15は、それぞれの結果の有意性(負の対数尤度)に対してプロットされた、癌標本と非癌標本との間の有意な差を示す信号と関連する6381個のm/z識別子を示している。負の対数尤度が高いほど、示される有意性は高い。暗い色の正方形は、非癌標本よりも癌の中での方が高い信号に関連付けられたm/z識別子を示し、明るい色の円は、癌標本の中よりも非癌標本の中での方が高い信号に関連付けられたm/z識別子を示す。有意な識別子の幅の広いピークは可視であるという事実は、データのm/z分解能が劣ることを反映する場合がある。いくつかの場合に、結果は、同じ検体の一重または二重荷電状態または単量体または二量体配置に対応しているように見え、結果の信頼度が増すか、またはバイオマーカー識別の解釈または使用に役立つ可能性がある。
【0251】
高いm/z識別子についてはピーク幅が広いという事実もまた、一部は、測定されたm/z値はより高い範囲でより広い間隔で並んでいるという事実を反映する可能性がある。また、これは、おそらくデータを生成するために使用される計装の分解特性を反映すると思われる。これは、このp値プロット内のピークのデコンボリューションを実行して(定評のある方法を使用する)、各ピークの中心、またはソース、m/z識別子を見つけるか、またはより高いm/z範囲に対し広いビンを使用することにより処理することが可能である。その結果得られるm/z識別子および組み合わせた(統計量またはAUCまたはその他の共通の方法により)強度は、バイオマーカーとして使用するのに信頼できると考えられる。
【0252】
信号の2つの分布の平均値が区別可能でない場合、それらの分布からの個別の信号は、平均値が区別可能である信号であるコントロールクロマトグラムから癌を区別できるために十分に異なる可能性は低い場合がある。したがって、識別されたm/z識別子に対応する信号は、個々のバイオマーカーに対する有望な候補といえる。
【0253】
信号の6381個の集合の並べ換えをして、コントロール試料から癌を区別するためにどの部分集合を使用できるかを見いだすには、膨大な計算量を必要とする。p値の分布の上位5%内にある個々のp値とともにm/z値を使用して、分類木(T.Iastie,R.Tibshirani & J.Friedman.The Elements of Statistical Learning.Springer Series in Statistics.Springer,New York,2001)を作成した。最も区別可能な平均値を持つ信号は、区別可能な平均値を持つ信号は適切な個別バイオマーカーである可能性が比較的高いという同じ理由から、適切な分類器を作成できる可能性が最も高い。
【0254】
3つのm/z識別子246、435、および25のみで信号を使用する分割を持つ単純木では、学習集合の完全分類を行い、検定集合内の1つの癌および1つのコントロールの分類を誤る。m/z 246の信号は、単一の最良の分類器であり、これらの信号単独で、学習集合内に3つの誤りのみがあり(1つの癌および2つのコントロールが分類を誤る)、検定集合内に6つの誤りがある(1つの癌および5つのコントロールが分類を誤る)学習集合を分類する。
【0255】
最良の分類木内のm/z値の3つすべてが小さかったため(およびしたがって、試料自体にではなく、分析のため試料が埋め込まれたマトリクスに潜在的に関連する)、ある値以上のm/z識別子のみが許されるという制約条件により追加分類木が構築された。400よりも大きいm/z識別子のみが許されている場合、識別子435、417、419、および463が使用される。学習集合は、完全に分類されるが、検定集合内では、2つのコントロールが、分類を誤る。これらの識別子はそれぞれ、500未満である。500よりも大きいm/z値のみが許される場合、分類木は、m/z値618、681、3991、3992、4004、4746、4820、および7995を使用して構築される。学習集合は、完全に分類され、検定集合内では4つの癌および4つのコントロールが、分類を誤る。そこで、このデータ集合内では、適切な分類実行は、低いm/z識別子を使用すると達成しやすいように思われる。
【0256】
最良の信号識別子(246)として識別された信号は、完全分類を与える集合の一部としてデータを供給するWebサイトにはリスティングされておらず、したがって、新規発見となり得る。
【0257】
異なるm/z識別子の重要度を評価するもう1つの方法は、ランダム森を構築することである(Breiman,L.(2001),Random Forests,Machine Learning 45(1),5−32)。ランダム森は、分類木の集合体であり、それぞれの木で使用されるデータ(データのブートストラップサンプリングを通じて)、およびそれぞれの木を構築する際の各工程での分類に使用されるのにふさわしい変数の両方にランダム性が持ち込まれる。分類は、森の構成木の複数の票によるものである。十分に大きな森が生成される場合、それぞれの変数は、データの多数の異なる部分集合により何回も分類特徴としてみなされる。したがって、それぞれの変数の重要度を評価する、つまり、結果全体がそれぞれの個別変数の影響をどれだけ受けるかを評価することが可能である。ビン幅1および0.5を使用して、データ集合内の正確な識別子について変数の重要度がチェックされると、結果は概して一貫性がある。245に近いm/z識別子を持つ変数のクラスタは、それぞれの場合において最も重要であり、その後に、435および465に近いm/z識別子が続く。そのため、これらの変数の重要度の結果は、単一分類木を使用した分析と整合していた。
【0258】
他の実施形態は、請求項の範囲内にある。いくつかの実施形態が図に示され、説明されているが、本発明の精神および範囲から逸脱することなく、さまざまな修正を行うことができる。
【図面の簡単な説明】
【0259】
【図1A】時間指標を伴う好ましい実施形態の工程を示す図である。
【図1B】アライメントのための他の方法とともに時間指標を伴う好ましい実施形態の工程を示す図である。
【図2】図1Aまたは1Bで「差を見つける」に使用できる工程の実施例を示す図である。
【図3】図1Aまたは1Bで「結果のグループ化」に使用できる工程の実施例を示す図である。
【図4】図1Aまたは1Bで「偽陽性のフィルタ処理I」に使用できる工程の実施例を示す図である。例示されている工程は、ヒストグラムでの相対的時間的シフトのみによるものであるように見える「完全シフト」差を探すために採用することができる。完全シフトは、A>Bの後同じm/zでB<Aが時間的にすぐ続いて出現することと定義される。
【図5】図4に例示されている「偽陽性のフィルタ処理II」の工程の実施例を示す図である。例示されている工程は、半シフト差を調べることにより偽陽性を探すために採用することができる。「半シフト」は、完全シフトの半分のみ(前の段落のように)が統計的に有意な差として検出される状況において発生する。実際、半シフトは、完全シフトよりも頻繁に見られた。
【図6】図1Aに例示されている「出力および反復モジュール」に使用できる工程の実施例を示す図である。
【図7A】図1Aに例示されている「条件内でスペクトルのアライメント」モジュールに使用できる工程の実施例を示す図である。
【図7B】図1Bに例示されている「条件をまたがってスペクトルのアライメント」モジュールに使用できる工程の実施例を示す図である。
【図7C】図7Bに例示されている「ランドマークを見つける」モジュールに使用できる工程の実施例を示す図である。
【図7D】図7Bに例示されている「ランドマークをフィルタ処理する」モジュールに使用できる工程の実施例を示す図である。
【図8】偽陽性のフィルタ処理の代替え方法として使用できる工程の実施例を示す図である。
【図9】2つのスペクトル集合内の信号の相対強度を定量化するために使用できる工程の実施例を示す図である。
【図10】異なる種類の信号差を例示する図である。一番上のパネル:確認された信号。左下:半シフト−半分が有意として検出されたシフト信号。右下:完全シフト−前半分と後半分の両方が検出されたシフト信号。
【図11】時間およびm/z値の部分集合に対する平均強度値の差を例示する図である。図11は、暗色領域は条件Aにおいて高く、明色領域は条件Bにおいて高い白黒表現である。これは、カラーを使用して表現することも可能であり、例えば、緑色は有意な差を示さず、青色と紫色の陰影は、条件Bにおいてより高い平均値を示し、黄色と赤色の陰影は、条件Aにおいてより高い平均値を示す。
【図12】p値の比較結果を例示する図である。図12は、暗いということは条件Bにおいて著しく高いことを示し、明るいことは条件Aにおいて著しく高いことを示す白黒表現である。これは、カラーを使用して表現することも可能であり、例えば、オレンジ色は有意な差を示さず、より強い赤色は、条件Bにおいて著しく高いことを示し、黄色は、条件Aにおいて著しく高いことを示す。
【図13】差の大きさと有意性を一緒に例示する図である。図13は、差の大きさが青色(小さな差)または赤色(大きな差)を持つカラー表現のモノクロ描画であり、有意性は、薄い色(有意性なし)または濃い色(有意性あり)の強度で表される。モノクロ表現では、大きさと有意性の次元は融合され、その結果、情報が失われる。
【図14A】2つの条件のうちのそれぞれで5つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図14B】2つの条件のうちのそれぞれで5つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図14C】2つの条件のうちのそれぞれで5つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図14D】2つの条件のうちのそれぞれで5つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図15】癌標本と非癌標本との間の有意な差を示す信号と関連するm/z識別子を示す図である。横軸:m/z(0から19000の範囲、2000毎にグリッド線)。縦軸:負の対数尤度(各パネル内で0から100の範囲、20毎にグリッド線)、正方向の値は、より有意な差に対応している。90よりも大きい負の対数尤度は、見やすくするため100のところでプロットされている。暗い色の正方形は、癌標本の中でより高い信号に関連付けられたm/z識別子を示し、明るい色の円は、非癌標本の中でより高い信号に関連付けられたm/z識別子を示す。例えば、m/z 4000およびm/z 8000の結果の対は、電荷z=1およびz=2での同じペプチドまたはペプチドの単量体および二量体構成に対応することができる。
【特許請求の範囲】
【請求項1】
2つまたはそれ以上の試料集合間の1つまたは複数の検体のレベルの差を識別する質量分析法であって、
(a)前記2つまたはそれ以上の試料集合の個別試料のスペクトルを取得する工程であって、前記スペクトルは、m/z強度対を含み、m/z強度対は、m/z識別子および前記m/z識別子に関連付けられた信号を含む、、前記取得する工程と、
(b)前記m/z強度対からの1つまたは複数のm/z識別子のそれぞれの前記m/z識別子について、前記スペクトル内の対応する信号間の関係を判別する工程と、
(c)試料集合内および試料集合間の両方の信号分布に基づく、前記信号が前記2つまたはそれ以上の試料集合間の異なるレベルを持つ検体から生じる可能性の尺度である順位または値をそれぞれの前記関係に割り当てる工程とを含む質量分析法。
【請求項2】
前記関係は、少なくとも100個の異なるm/z識別子について決定される請求項1に記載の方法。
【請求項3】
前記第2の試料集合は、標準である請求項1に記載の方法。
【請求項4】
前記異なるm/z識別子のそれぞれは、前記工程(b)に先だって決定論的に指定される請求項1に記載の方法。
【請求項5】
前記m/z識別子は、前記スペクトルからの実質的にすべてのm/z識別子を含む請求項2に記載の方法。
【請求項6】
前記工程(c)は、分布のパラメトリック表現に依存する請求項1に記載の方法。
【請求項7】
前記工程(c)は、分布のノンパラメトリック表現に依存する請求項1に記載の方法。
【請求項8】
前記工程(c)は、前記分布のバラツキに照らして前記分布の中心傾向の尺度間の差の統計的有意性を判定することを含む請求項6に記載の方法。
【請求項9】
前記中心傾向は、平均値である請求項8に記載の方法。
【請求項10】
統計的有意性は、t検定を使用して計算される請求項9に記載の方法。
【請求項11】
前記m/z強度対は、さらに、前記信号および前記識別子に関連付けられている1つまたは複数の指標値を含み、前記関係は、前記1つまたは複数の指標値を考慮して決定される請求項8に記載の方法。
【請求項12】
前記m/z強度対は、(複数の)指標変数にそってアライメントされる請求項11に記載の方法。
【請求項13】
前記方法は、さらに、前記工程(b)に先立つデータの正規化を含む請求項12に記載の方法。
【請求項14】
スペクトルの集合内の信号は、1つまたは複数のランドマークのアライメントを行うことによりアライメントされ、前記ランドマークのそれぞれは、特定のm/z識別子のところ、および指標変数の値の特定の集合のところのピークである請求項13に記載の方法。
【請求項15】
前記複数のランドマークは、同じm/z識別子のところ、および指標変数のほぼ同じ集合のところでスペクトル集合内のすべてのスペクトル内に出現するピークを識別し、状況に応じて、それらの強度を指標変数の関数として平滑化し、最大の平滑化された強度値が出現する指標変数値の集合をランドマークとして使用することからなる方法により、データ内に見つけられる請求項14に記載の方法。
【請求項16】
前記スペクトルは、前記ランドマークのそれぞれに関連付けられている指標変数値の集合を何らかの基準スペクトル内の前記ランドマークに関連付けられている指標変数値の集合にシフトすることによりアライメントされ、中間の指標値は、補間により割り当てられる請求項15に記載の方法。
【請求項17】
m/z値の集合での有意な差は、jおよびkをjがk以下であるユーザ指定整数であるとして、k個の連続するm/z識別子のうち少なくともj個が指標変数の特定の共通集合に対し有意な差を持つ場合に特徴としてグループにまとめられる請求項1に記載の方法。
【請求項18】
前記十分な広さは、グループ化される集合内の最大のm/zの指定された部分以上の範囲であるとして前記m/zのスパンにより定義される請求項17に記載の方法。
【請求項19】
前記有意性は、mおよびnを、mがn以下であるユーザ指定整数であるとして、n個の連続する指標変数値のうち少なくともm個にわたる有意性を必要とする請求項13に記載の方法。
【請求項20】
スペクトルの異なる集合内の信号は、特に試料内にスパイクされる化学物質からの予想される信号をアライメントすることによりアライメントされる請求項14に記載の方法。
【請求項21】
検体存在量における前記関係は、さらに、有意な変化を含む領域における条件毎に積分された信号を最初に計算し、次に、積分された信号を比較し、その結果得られた関係を相対的検体存在量を示すものとして使用することにより定量化される請求項1に記載の方法。
【請求項22】
識別された差は、単一検体の異なる荷電状態および/または同位体から推定上生じるものを示すようにグループ化される請求項8に記載の方法。
【請求項23】
さらに、1回または複数回の反復を実行して、偽陽性を減らす請求項8に記載の方法。
【請求項24】
2つの条件に対する強度プロファイル間の距離の何らかの尺度を最小にする指標変数シフトを識別された差毎に見つけ、その差が前記指標変数シフトの後もまだ有意であるか判定し、その後、前記指標変数シフトの後有意でない差を排除することにより偽陽性に対する前記リストをフィルタ処理することを含む請求項23に記載の方法。
【請求項25】
前記正規化は、スペクトル毎に、また指標変数の組み合わせ毎に、信号の指定された部分集合の中心傾向の尺度を見つけ、すべての強度値をその中心傾向の尺度により除算することを含む請求項13に記載の方法。
【請求項26】
少なくとも3つの異なるスペクトルは、試料集合毎に得られる請求項1から25のいずれか一項に記載の方法。
【請求項27】
少なくとも5つの異なるスペクトルは、各試料集合から得られる請求項26に記載の方法。
【請求項28】
前記5つの異なるスペクトルはそれぞれ、異なる試料からのものである請求項27に記載の方法。
【請求項29】
前記2つまたはそれ以上の試料集合は、生物試料である請求項26に記載の方法。
【請求項30】
複数の検体のうちの前記1つは、ペプチドまたは代謝副産物である請求項29に記載の方法。
【請求項31】
前記測定結果は、表面相分離を質量分析法と結合することにより得られる請求項29に記載の方法。
【請求項32】
前記試料集合は、異なる複数回分の投与される薬剤、疾病または疾患の存在、異なる種類の治療、異なる遺伝的または後成的属性、または異なるレベルの特定の疾病または疾患の複数のうちの1つを特徴とする請求項29に記載の方法。
【請求項33】
前記測定結果は、1次元または多次元液体クロマトグラフィを質量分析法と結合することにより得られる請求項29に記載の方法。
【請求項34】
請求項1に記載の工程(b)および(c)を実行するためのコンピュータ可読媒体上に命令を含むコンピュータプログラム。
【請求項1】
2つまたはそれ以上の試料集合間の1つまたは複数の検体のレベルの差を識別する質量分析法であって、
(a)前記2つまたはそれ以上の試料集合の個別試料のスペクトルを取得する工程であって、前記スペクトルは、m/z強度対を含み、m/z強度対は、m/z識別子および前記m/z識別子に関連付けられた信号を含む、、前記取得する工程と、
(b)前記m/z強度対からの1つまたは複数のm/z識別子のそれぞれの前記m/z識別子について、前記スペクトル内の対応する信号間の関係を判別する工程と、
(c)試料集合内および試料集合間の両方の信号分布に基づく、前記信号が前記2つまたはそれ以上の試料集合間の異なるレベルを持つ検体から生じる可能性の尺度である順位または値をそれぞれの前記関係に割り当てる工程とを含む質量分析法。
【請求項2】
前記関係は、少なくとも100個の異なるm/z識別子について決定される請求項1に記載の方法。
【請求項3】
前記第2の試料集合は、標準である請求項1に記載の方法。
【請求項4】
前記異なるm/z識別子のそれぞれは、前記工程(b)に先だって決定論的に指定される請求項1に記載の方法。
【請求項5】
前記m/z識別子は、前記スペクトルからの実質的にすべてのm/z識別子を含む請求項2に記載の方法。
【請求項6】
前記工程(c)は、分布のパラメトリック表現に依存する請求項1に記載の方法。
【請求項7】
前記工程(c)は、分布のノンパラメトリック表現に依存する請求項1に記載の方法。
【請求項8】
前記工程(c)は、前記分布のバラツキに照らして前記分布の中心傾向の尺度間の差の統計的有意性を判定することを含む請求項6に記載の方法。
【請求項9】
前記中心傾向は、平均値である請求項8に記載の方法。
【請求項10】
統計的有意性は、t検定を使用して計算される請求項9に記載の方法。
【請求項11】
前記m/z強度対は、さらに、前記信号および前記識別子に関連付けられている1つまたは複数の指標値を含み、前記関係は、前記1つまたは複数の指標値を考慮して決定される請求項8に記載の方法。
【請求項12】
前記m/z強度対は、(複数の)指標変数にそってアライメントされる請求項11に記載の方法。
【請求項13】
前記方法は、さらに、前記工程(b)に先立つデータの正規化を含む請求項12に記載の方法。
【請求項14】
スペクトルの集合内の信号は、1つまたは複数のランドマークのアライメントを行うことによりアライメントされ、前記ランドマークのそれぞれは、特定のm/z識別子のところ、および指標変数の値の特定の集合のところのピークである請求項13に記載の方法。
【請求項15】
前記複数のランドマークは、同じm/z識別子のところ、および指標変数のほぼ同じ集合のところでスペクトル集合内のすべてのスペクトル内に出現するピークを識別し、状況に応じて、それらの強度を指標変数の関数として平滑化し、最大の平滑化された強度値が出現する指標変数値の集合をランドマークとして使用することからなる方法により、データ内に見つけられる請求項14に記載の方法。
【請求項16】
前記スペクトルは、前記ランドマークのそれぞれに関連付けられている指標変数値の集合を何らかの基準スペクトル内の前記ランドマークに関連付けられている指標変数値の集合にシフトすることによりアライメントされ、中間の指標値は、補間により割り当てられる請求項15に記載の方法。
【請求項17】
m/z値の集合での有意な差は、jおよびkをjがk以下であるユーザ指定整数であるとして、k個の連続するm/z識別子のうち少なくともj個が指標変数の特定の共通集合に対し有意な差を持つ場合に特徴としてグループにまとめられる請求項1に記載の方法。
【請求項18】
前記十分な広さは、グループ化される集合内の最大のm/zの指定された部分以上の範囲であるとして前記m/zのスパンにより定義される請求項17に記載の方法。
【請求項19】
前記有意性は、mおよびnを、mがn以下であるユーザ指定整数であるとして、n個の連続する指標変数値のうち少なくともm個にわたる有意性を必要とする請求項13に記載の方法。
【請求項20】
スペクトルの異なる集合内の信号は、特に試料内にスパイクされる化学物質からの予想される信号をアライメントすることによりアライメントされる請求項14に記載の方法。
【請求項21】
検体存在量における前記関係は、さらに、有意な変化を含む領域における条件毎に積分された信号を最初に計算し、次に、積分された信号を比較し、その結果得られた関係を相対的検体存在量を示すものとして使用することにより定量化される請求項1に記載の方法。
【請求項22】
識別された差は、単一検体の異なる荷電状態および/または同位体から推定上生じるものを示すようにグループ化される請求項8に記載の方法。
【請求項23】
さらに、1回または複数回の反復を実行して、偽陽性を減らす請求項8に記載の方法。
【請求項24】
2つの条件に対する強度プロファイル間の距離の何らかの尺度を最小にする指標変数シフトを識別された差毎に見つけ、その差が前記指標変数シフトの後もまだ有意であるか判定し、その後、前記指標変数シフトの後有意でない差を排除することにより偽陽性に対する前記リストをフィルタ処理することを含む請求項23に記載の方法。
【請求項25】
前記正規化は、スペクトル毎に、また指標変数の組み合わせ毎に、信号の指定された部分集合の中心傾向の尺度を見つけ、すべての強度値をその中心傾向の尺度により除算することを含む請求項13に記載の方法。
【請求項26】
少なくとも3つの異なるスペクトルは、試料集合毎に得られる請求項1から25のいずれか一項に記載の方法。
【請求項27】
少なくとも5つの異なるスペクトルは、各試料集合から得られる請求項26に記載の方法。
【請求項28】
前記5つの異なるスペクトルはそれぞれ、異なる試料からのものである請求項27に記載の方法。
【請求項29】
前記2つまたはそれ以上の試料集合は、生物試料である請求項26に記載の方法。
【請求項30】
複数の検体のうちの前記1つは、ペプチドまたは代謝副産物である請求項29に記載の方法。
【請求項31】
前記測定結果は、表面相分離を質量分析法と結合することにより得られる請求項29に記載の方法。
【請求項32】
前記試料集合は、異なる複数回分の投与される薬剤、疾病または疾患の存在、異なる種類の治療、異なる遺伝的または後成的属性、または異なるレベルの特定の疾病または疾患の複数のうちの1つを特徴とする請求項29に記載の方法。
【請求項33】
前記測定結果は、1次元または多次元液体クロマトグラフィを質量分析法と結合することにより得られる請求項29に記載の方法。
【請求項34】
請求項1に記載の工程(b)および(c)を実行するためのコンピュータ可読媒体上に命令を含むコンピュータプログラム。
【図1A】
【図1B】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7A】
【図7B】
【図7C】
【図7D】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14A】
【図14B】
【図14C】
【図14D】
【図15】
【図1B】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7A】
【図7B】
【図7C】
【図7D】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14A】
【図14B】
【図14C】
【図14D】
【図15】
【公表番号】特表2006−522340(P2006−522340A)
【公表日】平成18年9月28日(2006.9.28)
【国際特許分類】
【出願番号】特願2006−509605(P2006−509605)
【出願日】平成16年3月31日(2004.3.31)
【国際出願番号】PCT/US2004/010108
【国際公開番号】WO2004/089972
【国際公開日】平成16年10月21日(2004.10.21)
【出願人】(390023526)メルク エンド カムパニー インコーポレーテッド (924)
【氏名又は名称原語表記】MERCK & COMPANY INCOPORATED
【Fターム(参考)】
【公表日】平成18年9月28日(2006.9.28)
【国際特許分類】
【出願日】平成16年3月31日(2004.3.31)
【国際出願番号】PCT/US2004/010108
【国際公開番号】WO2004/089972
【国際公開日】平成16年10月21日(2004.10.21)
【出願人】(390023526)メルク エンド カムパニー インコーポレーテッド (924)
【氏名又は名称原語表記】MERCK & COMPANY INCOPORATED
【Fターム(参考)】
[ Back to top ]