質量分析データの分析法

本発明では、異なる試料集合間で存在量が異なる検体を選択的に識別するために採用できる質量分析法データ分析手法を特徴とする。採用される手法では、個々の試料と試料集合の間の質量電荷比（「ｍ／ｚ強度対」に関連付けられた信号に対する変化の統計的有意性を決定する。統計的有意性に基づき、検体レベルの差を示す可能性のある変化が識別される。これらの信号の強度に基づき、検体存在量の比が決定され得る。

【発明の詳細な説明】
【技術分野】
【０００１】
本出願は、参照により本明細書に組み込まれている、２００３年４月２日に出願した米国仮出願第６０／４５９，８１３号の利益を主張するものである。
【背景技術】
【０００２】
本出願全体を通して引用されている参考文献は、請求されている発明の先行技術であると認めるものではない。
【０００３】
質量分析法では、複雑な混合物中の多数の検体を検出することができる。環境および生物学上重要な検体を含むさまざまな種類の異なる検体が検出され得る。
【０００４】
ペプチドは、生物学上重要な検体の一例である。タンパク質などのペプチドは、複雑な仕組みで相互作用し、細胞機能を調整する。特定のタンパク質またはその修飾体の存在量のわずかな変化であっても、細胞の機能を大幅に変化させ、動物の健康全般に影響を及ぼし、細胞または動物の健康に関する指標になり得る。
【０００５】
ペプチド発現を測定するプロテオミクス研究では、質量分析法の利用が増大してきている。（Ｓｍｉｔｈ、ＴｒｅｎｄｓｉｎＢｉｏｔｅｃｈｎｏｌｏｇｙ２０（１２，Ｓｕｐｐｌ）：Ｓ３−Ｓ７，２００２）。
【発明の開示】
【発明が解決しようとする課題】
【０００６】
本発明では、異なる試料集合間で存在量が異なる検体を選択的に識別するために採用できる質量分析法データ分析手法を特徴とする。採用される手法では、個々の試料と試料集合の間の質量電荷比（「ｍ／ｚ強度対」）に関連付けられた信号に対する変化の統計的有意性を決定する。統計的有意性に基づき、検体レベルの差を示す可能性のある変化が識別される。これらの信号の強度に基づき、検体存在量の比が決定され得る。
【０００７】
試料集合間の検体レベルの変化以外の要因による所定のｍ／ｚでの信号のバラツキはノイズとして取り扱われる。ノイズは、それぞれの試料集合内の生物学的または化学的なバラツキ、および計測器で行われる測定に内在する変動性を含み得る。
【０００８】
「試料集合」は、分析目的のために１つにまとめられた１つまたは複数の試料の集合体である。特定のグループ分けは、一般に、１つまたは複数の共通の特性を持つ試料を伴う。共通の特性としては、例えば、試料の入手先、試料の知られている属性または試料の出所、および実験条件がある。
【０００９】
試料集合は、「標準」とすることができ、これは、いかなる検体をも含まないか、または知られている量の知られている検体を含む。標準は、異なる試料集合と比較され、異なる試料集合が特定の検体を含むかどうかを判定することができる。
【課題を解決するための手段】
【００１０】
そこで、本発明の第１の態様では、２つまたはそれ以上の試料集合間の１つまたは複数の検体のレベルの差を識別するための質量分析法に基づく方法を特徴とする。この方法は、
ａ）スペクトルは、ｍ／ｚ強度対を含み、ｍ／ｚ強度対は、ｍ／ｚ識別子およびｍ／ｚ識別子に関連付けられた信号を含む、２つまたはそれ以上の試料集合に対する個別試料のスペクトルを取得する工程と、
ｂ）ｍ／ｚ強度対からの１つまたは複数のｍ／ｚ識別子のそれぞれのｍ／ｚ識別子について、それらのスペクトル内の対応する信号間の関係を判別する工程と、
ｃ）試料集合内および試料集合間の両方の信号分布に基づく、信号が試料集合間の異なるレベルを持つ検体から生じる可能性の尺度である順位または値をそれぞれの関係に割り当てる工程とを含む。工程（ｃ）では、関係の統計的有意性を評価する。
【００１１】
本発明の他の態様では、２つまたはそれ以上の試料集合間の１つまたは複数の検体のレベルの差を識別するためスペクトルを分析するコンピュータプログラムを特徴とする。このプログラムは、本明細書で説明されている分析を実行するための命令をコンピュータ可読媒体に置く。
【００１２】
（複数の）ｍ／ｚ識別子および、もしあれば、１つまたは複数の検体のレベルの差に対応する（複数の）指標変数値は、（複数の）検体を「識別する」と言われる。この方法で識別された検体は、さらに、タンデム質量分析、データベース検索、および化学分析などの他の分析法により特徴付けられ得る。識別された検体の相対存在量も、定量化できる。
【００１３】
「指標付きスペクトル」は、試料について得られたｍ／ｚ強度対および対応する指標変数値の集合である。実施例は、ＬＣ−ＭＳ（例えば、高性能液体クロマトグラフィＭＳ、逆相および順相クロマトグラフィＭＳ、超高圧液体クロマトグラフィＭＳ、サイズ排除クロマトグラフィＭＳ、陰イオンまたは陽イオン交換クロマトグラフィＭＳ、電気泳動ＭＳ、およびキャピラリゾーン電気泳動ＭＳを含む）、多次元ＬＣ−ＭＳ、多次元ＬＣ−ＭＳ^ｎ、ＧＣ−ＭＳ（ガスクロマトグラフィＭＳ）、気相イオン移動度ＭＳ、または単一試料上で１回限りのその他のハイブリッドＭＳ手順を実行して得られるデータを含む。指標変数の例としては、クロマトグラフ分離時間、１つまたは複数の他の検体に対する親和性、生物活性または読み出し値（例えば、クロム放出分析）、１つまたは複数の異なる溶液中の溶解度、さまざまな媒体内の移動度、等電点、温度、および反応剤または治療薬の濃度がある。
【００１４】
「随意指標付きスペクトル」は、１つまたは複数の指標変数を持つ場合も持たない場合もあるスペクトルである。断りのない限り、「スペクトル」および「複数のスペクトル」という用語は、「随意指標付きスペクトル」および「随意指標付き複数のスペクトル」を指す。「スペクトル集合」という用語は、試料集合に対し得られる随意指標付きスペクトルの集合体を指す。指標変数を持たないデータの一実施例は、ＭＡＬＤＩ（ＭａｔｒｉｘＡｓｓｉｓｔｅｄＬａｓｅｒＤｅｉｏｎｉｚａｔｉｏｎ）質量分析法で生成される。
【００１５】
ｍ／ｚ強度対は、「強度」（または「信号」）および質量電荷「識別子」を持つ。ｍ／ｚ強度対は、ときには、質量スペクトルの「ピーク」と呼ばれることもある。
【００１６】
強度は、検出されるイオンの個数を反映する任意の尺度である。このような尺度の例として、カウント数、イオンカウント数、毎秒カウント数、および相対存在量がある。強度は、ノイズと検体成分の両方の寄与分を含む。特定の場合において、ノイズまたは検体成分は０とすることも可能である。
【００１７】
質量電荷「識別子」は、１つまたは複数の質量電荷比（「ｍ／ｚ」）に変換またはそれから派生され得る任意の数量またはｍ／ｚに関係する尺度とすることができる。ｍ／ｚに関係する尺度の例として、分子量、モノアイソトピック質量、平均質量、飛行時間、共鳴周波数、特性周波数、走査電圧、または走査周波数がある。
【００１８】
ｍ／ｚ値から識別子への変換は、それにも関わらず、ユーザが互いに区別することを望むｍ／ｚ値を別のｍ／ｚ値にマッピングする多対一関数とすることも可能である。このような関数の例として、重心計算、指定精度への丸め、中央値、平均値、または重なり合わない値、ビン分割、または任意の識別子の集合上の幾何平均がある。
【００１９】
複数のｍ／ｚ値が特定の識別子にマッピングされる場合、ユーザ選択関数を使用して、その識別子にマッピングされるｍ／ｚ値の部分集合に対応する信号を組み合わせることが可能である。この関数は、例えば、総和、畳み込み、中央値、幾何平均、または対数平均とすることが可能である。
【００２０】
「順位または値」は、スペクトル集合間で変動する信号の有意性の統計的尺度を提供する。順位または値は、例えば、統計的検定からのｐ値、またはｐ値の集合内のｐ値の順位、または差の集合内の差の順位、または対数尤度、またはそのような値の単調関数とすることが可能である。
【００２１】
異なる実施形態では、この関係は、少なくとも１０個、少なくとも１００個、少なくとも１０００個、少なくとも１００００個、少なくとも１０００００個、少なくとも１００００００個、少なくとも１０００００００個のｍ／ｚ識別子について判別され、それぞれのｍ／ｚ識別子は、上の工程（ｂ）の前に決定論的に指定され、および／またはそれらの関係は、ｍ／ｚ識別子の個数および／または異なる使用される指標変数値の個数の高々多項式、高々２次式、または高々線形時間対数線形式で増大する計算回数を使用して見つけられる。他の実施形態も本明細書で説明されている。
【００２２】
本明細書で使用されているような「中心傾向」としては、平均値または中央値またはさまざまな他の数量による重み付けされた平均値または中央値、または刈り込み平均値または指定された百分位範囲内に収まっている値の平均値などの中心傾向のロバストな推定量がある。中心傾向の他の統計的尺度は除外されない。
【００２３】
特定の用語が相互排他的でない限り、「または」と言及した場合、これは、いずれか、または両方の可能性を示す。ときおり、「および／または」などの語句は、いずれか、または両方の可能性を強調するために使用される。
【００２４】
「含む、備える」などの制約のない用語への言及では、要素または工程を追加することができる。ときおり、「１つまたは複数の」という語句は、追加要素または工程の可能性を強調するために制約のない用語とともに、または制約のない用語を伴わずに使用される。
【００２５】
特に断りのない限り、「１つの、ある」などの用語は、これらの用語の付かない場合も含めて、１つのものに限定されない。例えば、「（１つの）セル」は、「複数のセル」を除外しない。ときおり、１つまたは複数のなどの語句は、複数のものの存在を強調するために使用される。
【００２６】
本発明の他の特徴および利点は、異なる実施例を含む本明細書で与えられている追加説明から明らかである。与えられている実施例は、本発明を実践するうえで有用なさまざまな構成要素および方法を例示している。これらの実施例は、請求されている発明を限定しない。本開示に基づき、当業者は、本発明を実践するうえで有用な他の構成要素および方法を識別し採用することができる。
【発明を実施するための最良の形態】
【００２７】
本明細書で説明されているデータ分析法は、異なる試料集合間で存在量が異なる検体を選択的に識別するために採用できる。採用される手法では、個々の試料と試料集合の間のスペクトルのｍ／ｚ強度対の変化の統計的有意性を決定する。統計的有意性に基づき、検体レベルの差を示す可能性のある変化が識別される。
【００２８】
質量分析法による分析法は、異なる試料内の検体変化を、検体が少量しか存在しない場合であっても、正確に検出するために採用できる。これらの手法は、蛍光性、放射性、親和性、同位体、または共有結合または結合化学質量タグ付けまたは準備などの特別なラベルに依存しない。しかし、そのようなラベルは、さらに方法の感度および特異性を高めたり、または他の何らかの手段により、試料集合間で検体を区別するために必要な属性を変えるために使用することができる。
【００２９】
一般に、本発明の方法の感度および特異性は、スペクトルを取得するために使用される計装の分解能およびダイナミックレンジの限界までの混合物の複雑さとは無関係である。正規化工程が計算に含まれる場合、混合物の複雑さは、指標変数のそれぞれの組み合わせで正規化定数を変化させる範囲でのみ関与する。計測器の分解能は、ｍ／ｚ識別子の可能な曖昧性を通じて結果に影響を及ぼす。計測器のダイナミックレンジは、計測器の範囲の上下限付近の信号の測定の可能な曖昧性を通じて結果に影響を及ぼす。
【００３０】
Ｉ．データの取得
さまざまな試料集合のスペクトルについては、実験を１回または複数回実行するか、または学術誌またはそのようなデータを提供するＷｅｂまたはｆｔｐサイトなどの他の手段を通じて入手することが可能である。スペクトルは、さまざまな種類の検体の変化を見るために取得され、状況に応じて、指標付けされ得る。
【００３１】
「検体」は化学物質である。検体の例として、元素、化合物、複合体、および混合物がある。検体は、クロマトグラフ分離時間、１つまたは複数の他の検体に対する親和性、生物活性または読み出し値（例えば、クロム放出分析）、１つまたは複数の異なる溶液中の溶解度、さまざまな媒体内の移動度、等電点、温度、および反応剤または治療薬の濃度のうちの１つまたは複数などの指標変数を与えることが可能な物理的または生物学的特性を持ち得る。指標変数は、１つまたは複数の連続変数、または１つまたは複数の離散順序付き変数であってよい。「指標」または「複数の指標」は、本明細書では、１つまたは複数の指標変数をそれぞれ表すためにも使用される。
【００３２】
Ａ．質量分析法
質量分析法は、イオン化可能な物質のｍ／ｚ強度対を測定する手法である。検体の１つまたは複数のｍ／ｚ強度対は、１つまたは複数の異なるｍ／ｚ強度対を持つ他の物質から検体を区別するシグネチャを備える。
【００３３】
検体のｍ／ｚ強度対の強度は、計測器の応答範囲内の検体の存在量とともに変化する。質量分析法データを生成するための手法および機器は当業ではよく知られている。採用できるイオン化法の例としては、電子スプレーイオン化、マトリックス支援レーザー脱離／イオン化、表面増強レーザー脱離／イオン化、電子衝撃イオン化、化学イオン化、および光電離がある。（Ｇｌｉｓｈｅｔａｌ．，ＮａｔｕｒｅＲｅｖｉｅｗＤｒｕｇＤｉｓｃｏｖｅｒｙ２：１４０−１５０，２００３，Ｐｅｔｒｉｃｏｉｎｅｔａｌ．，ＴｈｅＬａｎｃｅｔ３５９：５７２−５７７，２００２。）質量分析器の実施例としては、ＰｒｏｔｅｉｎＢｉｏｌｏｇｙＳｙｓｔｅｍ２ＳＥＬＤＩ−ＴＯＦ質量分析計（ＣｉｐｈｅｒｇｅｎＢｉｏｇｙｓｔｅｍｓ社、カリフォルニア州フリーモント）、四重極マスフィルタ、四重極イオントラップ質量分析計（ＴｈｅｒｍｏＦｉｎｎｉｇａｎ社、カリフォルニア州サンノゼ）、三段四重極質量分析計、飛行時間型質量分析計、フーリエ変換イオンサイクロトロン共鳴質量分析計、およびこれらすべてのハイブリッドがある。
【００３４】
異なる実施形態では、方法の性能を改善するために、さまざまな形で信号が変換され得る。個々の信号、または信号の分布の要約（平均値または分散）も、そのように変換され得る。可能な変換は、対数を取ること、正または負の何らかのべき乗を取ること、例えば、平方根または逆数を取ること、またはアークサインを取ることを含む（Ｍｙｅｒｓ，ＣｌａｓｓｉｃａｌａｎｄＭｏｄｅｒｎＲｅｇｒｅｓｓｉｏｎｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓ，２ｎｄｅｄｉｔｉｏｎ，ＤｕｘｂｕｒｙＰｒｅｓｓ，１９９０）。
【００３５】
Ｂ．試料集合
試料集合は、分析のためにグループにまとめられた１つまたは複数の試料を含む。多数の異なる種類の分析を実行するように、特定の試料集合のグループ分けおよび異なる試料集合の選択が可能である。グループ分けは、データ収集前、収集中、または収集後に決定できる。グループ分けは、データに基づいて動的決定できる。
【００３６】
本明細書で説明されている分析法は、生物試料および環境試料などさまざまな種類の試料について実行できる。生物試料は、生体物質を含む。生物試料は、単細胞生物または多細胞生物などの異なる供給源から入手可能である。多細胞生物の例としては、植物および動物がある。
【００３７】
「動物」は、動物界の一員である。動物は、人間、家畜（例えば、牛、豚、馬、または鶏）、ペット（例えば、猫または犬）、またはモデルシステムとして使用できる動物（例えば、ネズミ、モルモット、犬、または猿）などの哺乳類であるのが好ましい。
【００３８】
生体物質は、ウイルス、単細胞、または多細胞生物内に存在するウイルス性、細胞性、または細胞外成分、ならびに細胞および動物により分泌される物質を含む。細胞物質は、一般に細胞、および細胞亜分画の抗生物質を含む。
【００３９】
多細胞生物から得られる生体物質は、細胞物質、および多細胞生物の他の部分からの物質を含む。多細胞生物の他の部分からの物質の例としては、例えば、細胞組織、体液（例えば、血液、脳脊髄液、尿、唾液、精液、リンパ液、糞、汗、痰、および粘液）、排泄物、にじみ出る、または分泌される物質、および／または肝臓、脾臓、腎臓、筋肉、肺臓、心臓、脳、またはその他の臓器もしくは臓器の構成要素（例えば、扁桃体、副腎、または海馬）などのサブパーツから作られる製剤がある。
【００４０】
生物学的に重要な化合物としては、ペプチド、炭水化物、脂質、核酸、医薬品、薬物代謝産物、およびさまざまなその誘導体がある。それらの誘導体は、修飾物質または断片を含む。例えば、ペプチド誘導体は、翻訳後修飾または共翻訳修飾ペプチドの断片を含む。
【００４１】
ペプチドは、生体分析用の好ましい検体である。「ペプチド」と記述した場合、これは、ペプチド結合により結合された１つまたは複数のアミノ酸を示し、サイズまたは機能の制限を与えない。ペプチドの例としては、酵素、構造タンパク質、およびホルモンがある。
【００４２】
分析に適しているさまざまな試料集合の例を以下に示す。
１）異なる量の特定の化合物でそれぞれ処理された、一方の量が例えば化合物ではあり得ない、２つまたはそれ以上の試料集合、
２）異なる化合物でそれぞれ処理され、一方の集合が化合物で処理されない、２つまたはそれ以上の試料集合、
３）異なるレベルの疾病または疾患にそれぞれ関連付けられている、一方のレベルが例えば健康体試料集合であり得る、２つまたはそれ以上の試料集合、
４）異なる種類の、またはレベルの環境刺激に曝された、一方の種類またはレベルが、例えば、刺激の欠如であり得る、２つまたはそれ以上の試料集合、
５）少なくとも１つの試料集合が所定のまたは知られているレベルの（例えば、濃度０のもあり得る）１つまたは複数の特定の検体を持ち、少なくとも１つの試料では、少なくとも１つの検体の存在量が知られていない、２つまたはそれ以上の試料集合、
６）１つまたは複数の表現型によりそれぞれ異なる２つまたはそれ以上の試料集合、
７）１つまたは複数の遺伝子により、または１つまたは複数の遺伝子の表現または形態により異なる２つまたはそれ以上の試料集合、
８）一方の治療法がコントロールであり得る、異なる複数の治療法を受ける２つまたはそれ以上の試料集合、
９）異なる時（例えば、化学薬品の導入後の異なる時）に評価される２つまたはそれ以上の試料集合、
１０）合成または物理的修飾（例えば、共有結合化学、非共有結合化学、放射性、電磁、機械、または重力）の面で異なる化学薬品の混合物（純粋または複合）からなる２つまたはそれ以上の試料集合、
１１）さまざまなレベルの（場合によって０レベルを含む）生体物質またはその他の物質（ハイスループットスクリーニングでの使用を含む）に曝された化学薬品の混合物（純粋または複合）からなる２つまたはそれ以上の試料集合、
１２）状況に応じて化学的または物理的に修飾されたさまざまなレベルの（場合によって０レベルを含む）生体物質またはその他の物質（ハイスループットスクリーニングでの使用を含む）に曝された化学薬品の混合物（純粋または複合）からなる２つまたはそれ以上の試料集合、
１３）クロマトグラフィ分離からさまざまな溶出時間にわたって、または他の技術の他の指標変数範囲にわたって試料を収集することにより得られるような、分離プロセスを通じて単一の化学薬品の混合物から誘導された２つまたはそれ以上の試料集合。これらの試料は、物理的に分離され、その後、上記の他の項目の場合のようにプロセスを通して実行され得るか、または例えば、ＬＣ−ＭＳランの溶出時間を変換し、時間範囲の集合からのスペクトルと時間範囲の他の集合からのスペクトルとが比較されるようにすることにより、電子的に処理され得る。（人間または標準信号検出ソフトウェアにより）無視できるくらい少ない検体が含まれるとみなされる範囲の集合を使用することで「ブランク」試料を表すように時間範囲の１つが選択された場合、変換では、すべてのスペクトルを、それらが注目するそれぞれの時間に測定された複製であるかのように処理し、（例えば）「ブランク」として機能するように選択された時間範囲に１００個の測定済みスペクトルが含まれていた場合に、その時間範囲内のそれぞれの時間がそこで「ブランク」状態の１００個すべての測定済みスペクトルを持つとみなすようにすることが可能である。
【００４３】
ある試料集合上で取られるスペクトルの数を増やすと、検体のレベル差の検出を正確に行うことができる。スペクトルの数は、それぞれの試料または試料のいくつかの部分集合上で反復スペクトルを抽出するか、一方または両方の試料集合内の試料の個数を増やすか、またはそれら２つの方法を組み合わせることにより増やすことが可能である。さまざまな実施形態において、少なくとも１個、少なくとも２個、少なくとも３個、少なくとも４個、少なくとも５個、少なくとも６個、少なくとも７個、少なくとも８個、少なくとも９個、少なくとも１０個、少なくとも１１個、少なくとも１２個、少なくとも１３個、少なくとも１４個、少なくとも１５個、少なくとも１６個、少なくとも１７個、少なくとも１８個、少なくとも１９個、少なくとも２０個、少なくとも３０個、および少なくとも４０個の異なるスペクトルが試料集合毎に分析される。
【００４４】
異なる試料の個数を増やすと、試料集合の異なる構成要素間のバラツキ（計測器により行われる測定に内在するバラツキとは反対に）を考慮できるという利点がさらに得られる。これにより、試料集合の多数の構成要素間で一貫している差を見つけるプロトコルが使いやすくできる。このようなプロトコルの１つの応用では、癌などの病状に関連する差を母集団で表される他の表現型の差から区別する。さまざまな実施形態において、スペクトルが得られる試料集合内の異なる試料の個数は、１個、少なくとも２個、少なくとも３個、少なくとも４個、少なくとも５個、少なくとも６個、少なくとも７個、少なくとも８個、少なくとも９個、少なくとも１０個、少なくとも１１個、少なくとも１２個、少なくとも１３個、少なくとも１４個、少なくとも１５個、少なくとも１６個、少なくとも１７個、少なくとも１８個、少なくとも１９個、少なくとも２０個、または少なくとも３０個である。
【００４５】
この方法は、ちょうど２つの試料集合がある以下の実施例で示される。試料集合が２つよりも多い場合については、２つ一組の分析をすべて実行することにより分析できる。この場合、ここで示されている検定のいくつかの多次元一般化が使用できる。例えば、ｔ検定の代わりに分散分析を使用し、ウイルコクソン順位和検定の代わりにクラスカル検定を使用できる。
【００４６】
ＩＩ．分析法
選択的識別は、試料集合内と試料集合間の両方のｍ／ｚ強度対バラツキを使用してｍ／ｚ強度対内の差の統計的有意性を判定することにより実行される。試料集合内バラツキに関する情報を取得する好ましい方法は、それぞれの集合内の複数のスペクトルを用意し、バラツキを直接測定することである。複数のスペクトルが利用できない場合、仮定された分散構造を使用して進めることが可能である。
【００４７】
仮定された分散構造は、すでに存在しているデータまたは単一の利用可能なスペクトル内の連続するデータ点の分析に基づいて、定量的なものとすることが可能である。また、例えば、測定限界に関連付けられた分散が何らかの定数値（指定される必要はない）と等しいと仮定して、定量的とすることもできる。このような仮定の下で、有意検定に基づいて検出された差の順位は、差の絶対値に基づく検出された差の順位と同じである。
【００４８】
一般に、信号バラツキの統計的有意性を判別するための関係を与えるのに、ｍ／ｚ強度対の１つまたは複数の属性が使用可能である。例として、ビン分割または平滑化信号、および線形または非線形フィルタ処理信号がある。
【００４９】
試料集合間の存在量の異なる検体を識別するさまざまな実施形態は、（Ａ）データのグリッド表示、（Ｂ）アライメント、（Ｃ）正規化、（Ｄ）差の評価、（Ｅ）時間持続、（Ｆ）再並べ換え、（Ｇ）分割、（Ｈ）再アライメント、（Ｉ）感度および特異性の工程に関して例示されている。工程（Ｄ）は、スペクトル集合内およびスペクトル集合間のｍ／ｚ強度対に対する変化の有意性を判別するために採用されることができる手法を例示している。工程（Ａ）、（Ｂ）、（Ｃ）、（Ｅ）、（Ｆ）、（Ｇ）、（Ｈ）、および（Ｉ）は、実行可能な追加実施形態の実施例を示している。
【００５０】
試料集合間で存在量の異なる検体を識別する異なる実施形態の実施例は、図１〜８に示されている流れ図により概略が例示されている。図１Ａおよび１Ｂは、プロセス全体に対する工程を例示している。図２は、「差を見つける」に使用できる工程の実施例を示している。図３は、「結果のグループ化」に使用できる工程の実施例を示している。図４は、「偽陽性のフィルタ処理Ｉ」に使用できる工程の実施例を示している。図５は、「偽陽性のフィルタ処理ＩＩ」の工程の実施例を示している。図６は、「出力および反復モジュール」に使用できる工程の実施例を示している。図７Ａは、「条件内でスペクトルのアライメント」モジュールに使用できる工程の実施例を示している。図７Ｂ、７Ｃ、および７Ｄは、「ランドマークを見つける」および「ランドマークをフィルタ処理する」サブモジュールとともに「条件をまたがってスペクトルのアライメント」モジュールに使用できる工程を示している。図８は、偽陽性のフィルタ処理の代替え方法として使用できる工程の実施例を示している。
【００５１】
この節および図１〜８に例示されている実施形態は、大半が、時間指標を含むｍ／ｚ関係データを採用する。本明細書に記載されている開示に基づき、時間指標を含まない変更形態、時間指標および１つまたは複数の追加指標を含む変更形態、およびいずれも時間指標でない１つまたは複数の指標を含む変更形態をはじめとする多くの変更形態が可能である。
【００５２】
Ａ．データのグリッド表示（「ビン分割」とも言う）
データ分析は、関係するｍ／ｚ値および／または指標を持つデータをビン分割でまとめることにより行いやすくなる。「関係する」とは、値が類似しているか、または実験的要因に関係する合成または異化経路、経路調整、または属性などの他の関係を通じて関係付けられていることを意味し得る。ビン分割は、データ集合間の直接的比較を行いやすくするうえで有用である。反復検体測定または１つまたは複数の試料集合内の異なる試料について行われる検体測定は、必ずしも、全く同じ指標変数で実行されることも、または全く同じｍ／ｚ比を測定することもなく、直接比較を複雑化する可能性がある。
【００５３】
ビン分割は、液体クロマトグラフィ質量分析法（「ＬＣ−ＭＳ」）で生成された強度データ、時間、およびｍ／ｚデータを使用して例示することができる。他の指標変数とともに（またはなしで）類似の手法を採用することができる。
【００５４】
ＬＣ−ＭＳを使用することで、ｍ／ｚおよび時間測定結果は、ユーザ指定レベルに丸めることができる。異なる実施形態では、測定結果は、最近単位またはｍ／ｚについては約０．５および時間については約０．０５または約０．０２５に丸められる。その結果丸められるｍ／ｚ識別子の集合は、「ビン」の集合である。丸めは、ｍ／ｚデータとｍ／ｚ識別子との間の多対一関係を作成する一手段である。
【００５５】
ビン分割の細かさまたは粗さは、例えば、質量分析者の見解、使用される質量分析計の動作特性に関する情報に基づいて予め設定されるか、または実験の前または後にクロマトグラムまたはスペクトルを目視検査して設定されるようにできる。集合からの複数の信号が同じグリッド点で終わっている場合、それらは、結局、そのグリッド点で信号全体を与えることになる。
【００５６】
一様なグリッド表示は必要ない。ビンの幅は、時間、その他の指標変数、またはｍ／ｚに依存し得る。非一様グリッド表示は、例えば、非一様な拡散効果（例えば、時間ビンは時間とともに幅が増大する）、または非一様な質量精度（例えば、ｍ／ｚビンはｍ／ｚとともに幅が増大する）について補正する場合に役立つと考えられる。非一様なビン分割を実行する方法の１つでは、ビン分割の前に指標変数またはｍ／ｚを変換する。例えば、変換された空間内でビン幅が一様なｍ／ｚ上で対数変換が使用される場合、それぞれのビンは、ｍ／ｚに比例する、ｍ／ｚ測定結果の典型的精度に対応する。非一様なビン分割は、その範囲全体にわたって非一様な間隔で並べられた、例えば対数尺度の間隔または幾何学的間隔で並べられるか、またはビン内の信号に依存する間隔で並べられたｍ／ｚ識別子を使用して実行することが可能である。
【００５７】
ビン分割の代替え手段として、ビン分割の前に、またはビン分割と同時に、利用可能な信号のフィルタ処理が可能である。線形フィルタ処理では、それらの信号は時間方向だけ、ｍ／ｚ方向だけの任意の（しかし、一般的には時間およびｍ／ｚとともに減少する）カーネル、または時間およびｍ／ｚの２次元カーネルとの畳み込みが可能である。１または２次元カーネルは、対称的であるか、または非対称性を持つことも可能である。最大ｎ次元までのカーネルは、ｎ−１個の指標変数とともに（ｍ／ｚのほかに）使用され得る。
【００５８】
フィルタ処理の他の実施例としては、計測器点拡散関数のブラインドデコンボリューションで使用されるような２次以上の高次演算子などによる非線形フィルタ処理がある。（Ｊｕａｎｇｅｔａｌ．，ＩＥＥＥＴｒａｎｓ．Ａｃｏｕｓｔ．，Ｓｐｅｅｃｈ，ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．ＡＳＳＰ３５，ｐｐ．９４７−９５４，１９８７、Ｇｉｌｌｅｓｐｉｅｅｔａｌ．，ＩＥＥＥＴＲＡＮＳＡＣＴＩＯＮＳＯＮＳＩＧＮＡＬＰＲＯＣＥＳＳＩＮＧ，４９：４８５，２００１、Ｊ．Ｐｉｔｔｏｎｅｔａｌ．，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ４３：１９９６−１９９８，１９９５、Ｆａｎｇｅｔａｌ．，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ４３：２５８２−９４，１９９５。）線形および非線形フィルタ処理は両方とも、オリジナルの、または変換されたｍ／ｚおよび／または指標変数上で実行できる。実施例では、対数変換されたｍ／ｚ上で固定幅ハミング窓を使用して精度ベースの信号分布を滑らかに取り込む。このような変換および線形または非線形フィルタの使用は、２つの条件で検体の相対的数量を測定する分析をその後行うために正規化および／または計算されたおよび／または測定された較正により補正されなければならない。
【００５９】
異なるｍ／ｚ値（測定されたデータまたは識別子）は、さらに、ランダムに（確率的探索法の一部として）または先験的に信じられる関係とのｍ／ｚ値の組み合わせについて、組み合わせることも可能である。このような関係の実施例として、同位体、タンパク質またはペプチドの共翻訳または翻訳後修飾、ＤＮＡのメチル化、および／または代謝もしくはその他の経路関係がある。ｍ／ｚの（場合によっては線形または非線形の重み付けされた）寄与は、単一の統計量として結合され、単一のｍ／ｚ識別子として処理されるであろう。このような「組み合わされた」ｍ／ｚ識別子は、データ内の別の次元として処理され得る（ｍ／ｚの単位で、そのようなものとして処理される）。したがって、このような組み合わされたｍ／ｚ値（および対応する「組み合わされた検体」）に関する分析は、他の方法で処理されたｍ／ｚ値の分析に加えて、またはそれと並行して実行することが可能である。
【００６０】
Ｂ．アライメント
異なる試料から生成されるスペクトル、または単一試料から生成される異なるスペクトルは、試料間のバラツキを考慮してアライメントを取ることができる。例えば、反復ＬＣ−ＭＳスペクトルにはかなりのバラツキがあり得る。実験中にある程度のバラツキが入り込む可能性がある。そのようなバラツキの可能な発生源の１つは、流れまたはクロマトグラフ媒体の変化または試料組成の違いにより生じる可能性がある、溶出時間の変化である。
【００６１】
Ｂ．１システマティックなシフト
２つの試料間の溶出時間にシステマティックなシフトがある場合、信号の対応する時間座標を調整して、そのシフトを補正しなければならない。例えば、システマティックなシフトは、２つの試料の最大構成要素が類似するとの仮定に基づいて、溶出時間がスペクトルの２つの集合間で適切にアライメントされたときに信号間の最大相関に達するように補正することが可能である。
【００６２】
スペクトルの集合間のシステマティックなシフトに対する手順補正の例は以下を伴う。
１）シフトのない、および正および負の時間シフトの小さな集合での信号の平均値（スペクトル集合上）間の相関を測定し、例えば、それぞれの方向に最大１０個の時間ステップまでシフトを計算し、適当なｐ値（例えば、０．７５）を使用して有意性を定義する。これらのパラメータの選択は、注目している指標変数の精度に関する知識に基づくことが可能であり、また類似対類似の比較を実行することにより知らせることが可能である。これらの相関の計算をスピードアップし、極端に大きな値の過剰な影響を避けるために、信号が両方のスペクトル集合に対するすべてのｍ／ｚ強度対の第９０百分位数から第９５百分位数までの間にある時間と質量のみを考慮することが可能である。第９０百分位数と第９５百分位数の上下限は、ユーザ定義可能なパラメータである。
２）それぞれの相関がシフトなしの相関よりも著しく大きいかどうかをチェックする。
３ａ）シフトされた相関がシフトされていない相関よりも著しく大きくない場合、互いに関して２つの条件をシフトせずに先へ進む。著しく大きい場合、
３ｂ）最大の著しく高い相関を与えるシフトを選択する。
【００６３】
溶出時間のシフトに関するアライメント補正は、例えば、以下の第ＩＩ節Ｉ．「感度および特異性」で概要が述べられている手順により決定されるような特定のデータ集合について決定された測定済みの高い偽陽性率に照らして、ほとんどメリットはないと考えられるであろう。
【００６４】
溶出時間のシフトに対する補正の他の方法は、識別された差を調べて溶出時間のシフトから生じるように思われるものを識別し、見かけの時間シフトを測定し、２回目の分析でそれらを補正することを伴う。再アライメントの手法の実施例については、以下の第ＩＩ節Ｈ．「再アライメント」で説明されている。
【００６５】
Ｂ．２．ランドマークを使用したアライメント
溶出時間のシフト、２つの試料から生じるスペクトル間のシステマティックなシフト、または単一の試料から生じる複数のスペクトル間のシフトに対する検出および補正の追加方法は、データ集合内で「ランドマーク」特徴のアライメントを行うことを伴う。ランドマークは、試料内に知られている属性を持つ特定の１つまたは複数の物質をスパイクさせ、それらの物質が、溶出時間などの指標変数の（おおよそ）知られている「期待」値で知られている質量対電荷比で容易に検出可能な信号を与えることを予期できるようにすることにより作成することができる。ランドマークは、さらに、後述のように、データ集合を調べて適切な特徴を見つけることにより見つけることも可能である。ランドマークが与えられると、異なるスペクトルは、線形または非線形または区分的多項式変換でランドマークが並ぶようにそれぞれのスペクトルに対する指標変数を変換することにより、アライメントされることが可能である。
【００６６】
スパイクされたランドマーク
物質を試料中にスパイクすることによりランドマークが作成される場合、それらの物質は、適切な属性を持っていなければならない。非常に望ましい適切な属性の１つは、スパイクから生じるランドマーク信号のすべての指標変数の期待値がそれぞれの指標変数に対する観測値の範囲にわたって分布しなければならないということである。他の適切な属性としては、例えば、注目する検体の検出と反応する、または注目する検体の検出に他の何らか形で干渉すること、容易に、経済的に入手可能であること、および低レベルで検出可能であることの確率が低いことが挙げられる。トリプシンまたは他の酵素の自己消化生成物などの試料調合で使用される試薬の自然発生する反応からの予想される信号も使用可能である。
【００６７】
スパイクなしのランドマークを見つける
ランドマークがデータ集合内に見つかる特徴に基づいている場合、それらの特徴は、例えば、固定された百分位の観測されたピーク振幅よりも大きい振幅を持つピークである場合がある。ここで「ピーク」とは、クロマトグラフピーク識別用のアルゴリズムを使用して定義されたような局所的最大値および周辺領域（例えば、ｍ／ｚ識別子次元および時間の）である。
【００６８】
例えば、「ピーク」は、観測強度の固定された百分位よりも大きい、または最大観測強度の固定された一部分よりも大きい強度の連続する（指標変数内の）集合として定義することが可能である。これらの強度は、指標変数の十分大きな集合についてしきい値よりも高いままであることを要求される可能性がある（例えば、指標変数が時間の場合は、少なくとも８秒間、または他の何らかのユーザ指定の時間の長さ）。選択された特徴はそれぞれ、それぞれの個別データ集合内、またはデータ集合の可能な限り大きい一部分の中に現れるのが理想的である。
【００６９】
特定のランドマークがスペクトルから欠けている場合、それは、そのランドマークが存在する他のスペクトル上の位置（指標空間）および振幅（強度）の中心傾向の尺度で帰属され得る。以下で定義されている方法のいくつかについては、欠測ランドマークは、スキップされるだけでよく、この帰属を必要としない。
【００７０】
ランドマークがデータ集合内に見つかる特徴に基づいている場合、選択された特徴は、実験で使用されるそれぞれの指標変数の範囲にわたって分布することが望ましい。これは、いくつかの方法により実行可能である。１つの方法では、完全データ集合内で特徴を見つけて、その後、それぞれの指標変数に対する値の望ましい分布を与える特徴を選択する。他の方法では、そのデータ集合を、それぞれの指標変数の値の範囲を包含する複数の部分集合に分割し、それぞれの部分集合内のそれぞれの指標変数の値の所望の分布を与える特徴を見つけ、特徴の集合を組み合わせる。指標変数のオーバーラップ範囲を使用して、指標変数の範囲の境界のところ、または近くで有用な特徴を欠落しないようにすることも可能である。
【００７１】
部分集合を定義する指標変数の範囲は、さまざまな方法、例えば、それぞれの指標変数の観測された範囲を均等に特定の個数の部分集合に分割するか、またはデータ依存の方法では、ピークの総数（上で定義されたような）の所定の割合、または特徴の総数の所定の割合、または総信号の所定の割合が所定の範囲内に含まれる（「総」とは、ｍ／ｚおよび／または指標変数上での積分を意味する）ことを要求することにより決定され得る。
【００７２】
関係するランドマークのグループ分け
単一の検体の異なる同位体および／または電荷状態から生じているように見える複数のピークからの情報をまとめることによりランドマークの集合を減らすことは効果的である可能性がある。このような「マルチピーク」グループは、以下の節Ｆ「再並べ換え」で説明されているように識別されることが可能である。このようなグループは、単一のピーク、または最大信号が含まれるグループ内のピークに基づく指標値を持つ（ｍ／ｚ識別子、指標）対、グループ内のピークの平均指標値、またはグループ内のピークの指標値の信号重み付け平均により表すことが可能である。その後、それぞれのグループは、単一ランドマークとみなされる。このようなランドマークは、例えば、成分ピークの強度を総和することにより再アライメントを計算する際に特別な重みを与えられる（振幅がランドマークの選択または使用の補助に使用されている場合）。
【００７３】
複数のランドマークからの情報の再調停
複数のランドマークが指標変数の単一範囲内に見つかる可能性がある。分かりやすくするため、また一般性を失うことなく、この説明では溶出時間を例として使用する。複数のランドマークが特定の時間範囲内に見つかった場合（上述のようにグループ化の後に）、適切なシフトのさまざまな推定量を与えることが可能である。１つのランドマークで、例えば、基準時間に関するシフトとして４秒を示唆するが、近隣ランドマークは、１秒のみのシフトを示唆するか、または全くシフトを示唆しない。基準時間の定義（つまり、スペクトルのアライメントで基準とする）については、後述する。
【００７４】
ランドマーク時間の集合および関連するシフトが与えられた場合、１つのスペクトル内の時間を基準時間にマッピングする単一の平滑シフト関数を得るために、当業でよく知られている区分的線形、区分的多項式、スプライン、および類似の補間法が使用されることができる。この補間プロセスは、状況に応じて、ｍ／ｚ識別子、振幅、および／または持続時間などのランドマーク特性を使用して、要約関数への寄与に重み付けすることができる。
【００７５】
溶出時間および割り当てられたピーク時間のある量のバラツキは、溶出時間の物理的バラツキと強度のバラツキのため不可避である。ユーザ指定しきい値よりも小さな溶出時間のシフトは、例えば、予想されるバラツキのユーザ推定値に基づくしきい値とともに、無視することが可能である。極端な場合には、互いに接近している２つのランドマークの順序は、異なるスペクトルにおいて逆転される可能性があり、このため、すべてのランドマークをその対をなす片方にマッピングする単一の順序保存変換を見つけることは不可能である。これは、使用されるしきい値が実際のバラツキよりも低かったか、または分析されるデータに予想しない問題が生じていることを示す可能性がある。このような場合、ユーザは、おそらく、そのような衝突が発生したことを通知されるであろう。
【００７６】
アライメントの基準：個別スペクトルおよび合成代表
スペクトルは、互いに、または他の何らかの標準に合わせてアライメントすることが可能である。アライメントは、試料の連続する対の間で繰り返し対毎に実行されることが可能である。例えば、スペクトル集合がＮ個の試料を持つ場合、１は２に、２は３に、．．．Ｎ−１はＮに、Ｎは１にと、停止基準に達するまでアライメントが続けられる。その停止基準は、例えば、試料集合内のすべての試料を通る反復の一定回数、またはｋ回目とｋ＋１回目の反復の間のワーピングパラメータの一定割合よりも小さい変化などのワーピングの収束の程度とすることも可能である。
【００７７】
それとは別に、すべてのスペクトルを単一代表にアライメントすることが可能である。例えば、代表は、他のスペクトルと共通するほとんどのランドマーク、または他のすべてのスペクトルまでの距離が最小のランドマークを持つ単一スペクトルとすることが可能である。選択されたスペクトルと他のスペクトルとの間の距離を計算するために、選択されたスペクトル内のそれぞれのランドマークと他のスペクトルのそれぞれの中の対応するランドマークとの間の距離（指標変数空間内の）を計算する。距離は、ランドマーク間距離のこの集合の中心傾向の尺度である。
【００７８】
それとは別に、スペクトルは、さまざまなスペクトル内の適切なデータから作られた合成代表成分に合わせてアライメントされ得る。例えば、さまざまなスペクトルの部分から、実験に問題があるため特にノイズの多い、または信頼できないデータが得られた場合に合成代表を使用するのが望ましいと思われる。
【００７９】
合成代表は、修飾されたスペクトルから構成されることも可能である。修飾は、ある基準を満たす０値への設定などの非線形変換を含むことが可能である（例えば、ピークからあるユーザ選択距離よりも遠い位置にある、または固定もしくはデータ依存のしきい値よりも大きいまたは小さいオリジナルデータ内の値を０に設定することができる）。
【００８０】
アライメントの適用
ワーピング（アライメント）関数の適用は、オリジナルデータまたはビン分割データ上で実行されることが可能である。オリジナルデータ上で実行された場合、その結果のワーピングされたデータは、再びビン分割されなければならない。ビン分割データ上で実行された場合、その結果は、ビン間に再分配されなければならない。この再分配は、信号のすべてを計算されたビン番号に最も近いビンに入れることにより実行することが可能である。例えば、ビン３５がビン３２．３にマッピングされる場合、ビン３５内の信号は、ビン３２に入れることが可能であり、区間３１．５≦マッピングされたビン番号≦３２．５にもマッピングされる他のすべてのビンの信号についても同様である。
【００８１】
それとは別に、これらの信号は、平滑化法を使用して再分配し、離散化ビン番号の変化を引き起こす計算されたビン番号内の小さなシフトから生じる潜在的人為的不連続を減らし、強度分布の有意なシフトを生じさせることが可能である。このような方法の１つは、隣接ビン上に信号を線形分配することである。ここで、ビン３５が３２．３にマッピングされる場合、その信号の３０％は、ビン３３に入れられ、７０％は、ビン３２に入れられる。一般に、ビンｂ＞０にマッピングされる信号は、ビンｆｌｏｏｒ（ｂ）に入れられる信号の（１−ｆｒａｃ（ｂ））およびビンｃｅｉｌ（ｂ）に入れられる信号のｆｒａｃ（ｂ）を持つことになる。
【００８２】
スペクトル集合間のアライメント
スペクトル集合内でアライメントを実行することに加えて、またはその代わりに、スペクトル集合間でアライメントを実行すると都合がよい場合もある。これは、単一のスペクトル集合のアライメントを行う手順を使用して実行することが可能であるが、そのために、同じスペクトル集合内にあるかのように比較対象のすべてのスペクトル集合からの例を含める。この手法は、スペクトル集合が相違点よりも類似点の方が著しく多いと予想される試料から生成される場合に使用するのが最もよいと思われる。
【００８３】
スペクトル集合間のアライメントは、さらに、状況に応じて、それぞれのスペクトル集合上でアライメントを別々に実行し、その後、アライメントされたスペクトル集合を互いにアライメントすることにより実行することも可能である。後者のアライメントは、それぞれのスペクトル集合から代表スペクトルを生成し、それらの代表間の適切なアライメントを見つけて、その結果得られたアライメント関数（または考察対象のスペクトル集合の複数の対がある場合には複数のアライメント関数）を使用し、考察対象のスペクトル集合内のすべてのスペクトルのアライメントを行うことにより実行されることが可能である。代表スペクトルは、複数のスペクトル集合のうちの１つからの無変更のスペクトル、またはスペクトル集合内のスペクトルの計算された組み合わせとすることが可能である。この目的のために使用され得る組み合わせの実施例については、スペクトル集合内のスペクトルがアライメント方法に関して上で説明されている。代表は、ビン分割またはビン不分割データのいずれかを使用して計算することが可能である。
【００８４】
時間以外の変数についてのアライメント
時間以外の指標変数またはｍ／ｚ上で類似のアライメントまたは再アライメント方法を実行すること可能であるが、後者はランの間、または計測器の間の適切な較正に、またはＭＡＬＤＩＳＥＬＤＩまたはプロファイルデータに対し潜在的に有用である。
【００８５】
スペクトル集合内、ランドマークベースのアライメントの実施形態
一実施形態では、単一スペクトル集合内のスペクトルのアライメントは以下のように実行される。まず最初に、総時間（または他の指標）範囲をオーバーラップするまたはオーバーラップしない複数のセクションに分割する。それぞれの時間セクションにおいて、ｍ／ｚ識別子毎に、それぞれのデータ集合内で、強度の何らかの選択された分位（例えば、第９５百分位、または百分位の一部分）よりも大きい強度の十分に長いラン（例えば、少なくとも８秒、または他の何らかの場合によっては振幅依存のユーザ選択長に及ぶ）を見つけることにより強度信号内のピークを見つける。
【００８６】
曖昧にならないようにするため、データ集合毎に、現在考察対象の時間セクション内の単一ピークのみを持つｍ／ｚ識別子だけを選択する（ユーザの選択に応じて、現在の時間セクション内に複数のピークがある識別子を使用することも可能である）。次に、どのｍ／ｚ識別子に、考察対象のスペクトル集合内のすべてのスペクトル内の（または、全部見つからない場合には可能な最大個数のスペクトルの中の）選択されたピークがあるかを判別する。これらのピークのうちから、ユーザによって決定された望ましい特性を持つものを選択する。例えば、偶然現れる確率を最小にするため最高の強度を持つピークを選択するか、またはスペクトル間で最も一貫性のある強度を持つピーク、または単一前駆体からの同位体ピークまたは異なる荷電状態として関係しているように見える他のピークと組み合わさっているように見えるピーク、または最も一貫性のある時間を有するピーク、またはスペクトル間で時間のバラツキが最小のピーク、または可能な限り均等に時間セクションも覆うスペクトル間で時間のバラツキが最大のピークを選択でき、これは場合によっては選択された識別子のそれぞれの対の間のあるユーザ指定最小距離により決定される。このプロセスは、対応するｍ／ｚ識別子を持つ「ランドマークピーク」の集合を定義している。
【００８７】
次に、「基準」スペクトルとして、このスペクトル集合に対する他のスペクトル内の可能な最大の個数のｍ／ｚ識別子（および対応するピーク）と一致する選択されたｍ／ｚ識別子（および対応するピーク）を持つものを選択する。ランドマーク間の指標値の区分的線形補間を実行することによりそれぞれのスペクトルを基準スペクトルに合わせてアライメントする。それぞれ今説明したばかりの手順を使用してアライメントされた２つのアライメントされたスペクトル集合間の差が識別された後、オリジナル信号が見つかるそれぞれの（アライメントされていない）個々のデータ集合内の時間を決定するために、当業でよく知られている方法により、補間関数を使用できる。ｍ／ｚおよび時間範囲内の一意性に基づく上のランドマークピークの選択では、２つの異なるスペクトルからのランドマークが、識別されるべきときに互いに対応するとおりに適切に識別されないことは全くあり得ず、さもなければ識別されるべきでないときに互いに対応する。
【００８８】
追加実施形態の実施例
ランドマークを伴う追加実施形態の実施例は以下を含む。
１）スペクトルの集合内の信号は、１つまたは複数のランドマークのアライメントを行うことによりアライメントされるが、ただし、ランドマークはそれぞれ、特定のｍ／ｚ識別子のところ、および指標変数の値の特定の集合のところのピークである。
２）少なくとも１つのランドマークは、スペクトルのそれぞれの中、または実質的大多数のスペクトルのそれぞれの中に見つかる。
３）複数のランドマークは、同じｍ／ｚ識別子のところ、および指標変数のほぼ同じ集合のところでスペクトル集合内のすべてのスペクトル内に出現するピークを識別し、最大の強度値が出現する指標変数値の集合をランドマークとして使用することによりデータ内に見つけられる。
４）複数のランドマークは、同じｍ／ｚ識別子のところ、および指標変数のほぼ同じ集合のところでスペクトル集合内のすべてのスペクトル内に出現するピークを識別し、それらの強度を指標変数の関数として平滑化し、最大の平滑化された強度値が出現する指標変数値の集合をランドマークとして使用することによりデータ内に見つけられる。
５）スペクトルは、ランドマークのそれぞれに関連付けられている指標変数値の集合を何らかの基準スペクトル内のランドマークに関連付けられている指標変数値の集合にシフトすることによりアライメントされ、中間の指標値は、補間（例えば、線形または多項式の）により割り当てられる。基準スペクトルは、例えば、（ａ）スペクトルの集合のランダムに選択された要素または（ｂ）スペクトルの集合内の他のすべてのスペクトルまでの距離の最低の中心傾向を持つスペクトルとすることができるが、ただし、距離は、対応するランドマーク間のユークリッド距離またはマハラノビスの距離またはマンハッタン距離である。
【００８９】
Ｂ．３．ｍ／ｚ上のデータの要約を使用したアライメント
スペクトルは、指標変数のみに依存し、ｍ／ｚ識別子には依存しないデータの何らかの代表を使用してアライメントすることができる。この代表は、例えば、平均値または中央値または百分位範囲の平均値またはそれぞれの（状況に応じてビン分割された）時間またはスペクトル集合内のスペクトル間の指標変数の他の集合で計算された他の点統計量とすることが可能である。一実施例は、スペクトルの基準ピーククロマトグラムの平均値またはスペクトルの平均値の基準ピーククロマトグラムである。基準ピーククロマトグラムの概念は、さらに、固定された１つまたは複数の時間ビン毎に、所定の時刻での最大信号の代わりに百分位範囲内のすべての信号の所定の百分位または平均値を含むように一般化され得る（通常、当業者であれば実践する）。また、上述のランドマークデータのｍ／ｚ識別子独立の要約は、代表としても使用可能である。これらの代表は、その後、以下の第ＩＩ節Ｈ「再アライメント」で説明されているように動的時間ワーピングを使用してアライメントすることができる。
【００９０】
Ｃ．正規化
スペクトル間のバラツキの他の考えられる発生源では、異なる推定同一の試料が実際にはわずかに異なる量または濃度のさまざまな検体を含むことがあり得る。さらに、同じ試料の場合であっても、多くの要因が、試料装填から質量分析計への試料導入までのプロセスの効率に影響を及ぼす可能性がある。このような可能性は、データを正規化することにより処理できる。
【００９１】
正規化は、実験プロセスにおけるある種の共通性のため正規化されるべきスペクトルまたは一単位として正規化されるべきスペクトルの集合を使用して計算される係数により信号を除算することにより実行できる。一般に、正規化係数は、対数、多項式、平方根、および順位などの注目する分位範囲内の信号の非線形の、場合によってはベクトル値を取る関数である可能性がある。正規化された値は、ｍ／ｚ強度対と正規化係数の関数とすることが可能であり、ただし、その関数の指定は、正規化係数の値に依存し得る。
【００９２】
例えば、一実施形態では、指標変数値の組み合わせ毎に、正規化係数は、ｍ／ｚ強度対の分布の第９０百分位と第９５百分位との間のすべてのｍ／ｚ強度対の平均値である（これらの分位は、ユーザ側で設定可能である）。この実施例では、信号の最上位５％は含まれないが、それは、少数の非常に高い値は正規化を左右しないからである。第９０百分位から第７５百分位までの含まれる信号の下限を変更しても、正規化に実質的な影響を及ぼすようには見えない。絶対範囲により選択された他の範囲、他の百分位範囲、または他の統計的範囲定義（先験的分布に基づく）が使用され得る。これらの範囲は、中央値、モード、または幾何平均などの、平均値以外の要約係数とともに使用することも可能である。指標変数がない、または指標変数値の組み合わせが１つしかない場合、正規化はこのようにして実行することはできない。
【００９３】
指標変数なしでデータを使用する一実施形態では、それぞれのｍ／ｚ強度対に指標値の同一の任意の集合を割り当てて、上記のように進めることができる。例えば、（時間指標がない）ＭＡＬＤＩ実験では、正規化定数は、すべてのｍ／ｚ値でのすべての強度の平均値、または強度の分布のいくつかの百分位点の間のすべての強度の平均値としてよいであろう。
【００９４】
Ｄ．差の評価
スペクトル集合内の信号のバラツキに照らして、ｍ／ｚ強度対内のスペクトル集合間の変化の有意性は、例えば、標準的な統計的手法を使用して判定できる。さまざまな種類の統計的手法（パラメトリックとノンパラメトリックの両方）を使用して、ｍ／ｚ強度対の差の有意性を推定することができる。有意性は、ｐ値の単調関数として表される。ｐ値は、特定のｍ／ｚ識別子に関連付けられている強度の分布内のスペクトル集合間の観測された変化が、何らかの検体のレベルの試料集合間の差が欠如しているときに偶然発生した可能性のある確率を表す。試料を正しく分類する能力の統計的尺度から得られる順位も、ｐ値と組み合わせて、またはｐ値の代わりに、使用することが可能である。
【００９５】
パラメトリック法を使用して、ｐ値を計算することができる。さまざまな異なるパラメトリック法が当業ではよく知られている。（Ｓｎｅｄｅｃｏｒ＆Ｃｏｃｈｒａｎ，ＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏｄｓ，８^ｔｈｅｄｉｔｉｏｎ，１９８９，ＩｏｗａＳｔａｔｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ；Ｋａｎｊｉ，１００ＳｔａｔｉｓｔｉｃａｌＴｅｓｔｓ，１９９９，ＳＡＧＥＰｕｂｌｉｃａｔｉｏｎｓ）。このような方法の実施例は、ｔ検定、およびデータのガウス（または「正規」）分布を仮定しない類似の検定を含む。複数の条件（２つよりも多い条件）について、それぞれの識別子に対して分散分析が使用可能である。
【００９６】
ｔ検定を使用して有意性を測定する方法は、以下の第Ｘ節「実施例１」および「実施例２」に例示されている。実施例２では、時間指標とともに生成されたＬＣ−ＭＳスペクトルを分析する。それぞれの時刻およびｍ／ｚにおいて、条件１からはｎ１個の信号、条件２からはｎ２個の信号があり、ｎ１、ｎ２の少なくとも一方は１よりも大きいか、または抽出されるものと十分に類似している他のデータに基づく補助的バラツキ情報がある。それぞれの時刻およびｍ／ｚにおいて、観測された、または仮定されたバラツキが与えられた場合の平均信号の差の有意性が判定されている。この実施例のスペクトルは、正規分布よりも対数正規分布に近い信号を持つので、対数の対応する正規分布の平均値および分散を決定するために、さらに計算が実行され、分析の残りがｐ値の両方の集合について実行された。このような場合、対数の帰属された正規分布を使用して得られた結果は、未変換値の分布を使用して得られた結果よりも好ましい場合がある。
【００９７】
特定の計測器または実験プロトコルが試料の平均値と推定分散との間の再現性のある関係を生み出す場合、試料集合内のスペクトルについて分散が帰属され得る。これは、ｎ１およびｎ２が小さい、例えば、ｎ１＝１または２または１００未満の整数および／またはｎ２＝１または２または１００未満の整数である場合に特に有用であり得る。このデータ集合のいくつかにおいて、分散＝平均値の２．１乗の関係が観察され、これが可能であることを示した。
【００９８】
さらに、それぞれのｍ／ｚ値および時刻でただ１つの信号しか利用できない場合でも、そのような平均分散関係の近似的尺度を得ることが可能である。これは、時間的に互いに近い信号は類似の基礎となる数量の推定値であると仮定することにより実行される。この場合、時間的に近いＮ個の信号のグループを取り（グループは、オーバーラップまたは非オーバーラップしていてもよく、Ｎはユーザによって指定され、例えば、Ｎ＝５およびＮ＝１０）、これらのグループに対する平均値と分散との間の関係を見つけることができる。チェックされたスペクトルでは、この方法で決定された関係は、複数のスペクトルから得られた信号を使用して決定された関係と実質的に同じである。いくつかのグループでは、これらの信号は、一様に増大または一様に減少し、それらを単一の数量の反復測定結果として扱うのは妥当ではないと思われる（例えば、ピークの立上りまたは立下り勾配を形成することができる）。このような信号は、平均値と分散との間の関係を推定するために使用される集合から除外することができる。われわれの経験では、これは、平均値と分散との間の推定された関係にほとんど違いをもたらさない。一般に、このような帰属を使用した場合、実際に複製を使用するよりも悪い結果が得られると予想されるが、十分に再現可能な実験プロトコルであれば適切であると思われる。
【００９９】
ｐ値は、使用する多数の方法を最小限に絞って計算することもできる。例えば、実際の信号の平均値および分散が使用される上述の分析、および信号の対数の暗示された分布の平均値および分散が使用される上述の分析が使用され、それにより、注目するすべての点の合併を得る。これが使用される場合、その結果の正味のｐ値は、使用される方法の数が掛けるか（当業でよく知られているボンフェローニ法により）、または他の何らかの方法で統計的に補正されるべきである。
【０１００】
ノンパラメトリック法も、例えば、パラメトリック法の基盤である仮定が適切であることが知られていない場合にｐ値を生成するために使用されることができる。さまざまなノンパラメトリック法が当業では知られている（Ｋａｎｊｉ，１００ＳｔａｔｉｓｔｉｃａｌＴｅｓｔｓ，１９９９，ＳＡＧＥＰｕｂｌｉｃａｔｉｏｎｓ；Ｗ．Ｊ．Ｃｏｎｏｖｅｒ．Ｐｒａｃｔｉｃａｌｎｏｎｐａｒａｍｅｔｒｉｃｓｔａｔｉｓｔｉｃｓ（２ｎｄｅｄ．）．ＮｅｗＹｏｒｋ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，１９８０）。多くのノンパラメトリック検定は、さらに、２つよりも多い条件にも対応する。
【０１０１】
ノンパラメトリック法の一実施例では、平均信号差の間の差を、条件１の平均信号と条件２の平均信号との間の差の、すべての時間およびｍ／ｚ識別子間の、観測された（経験）分布内の対応する百分位で置き換えることを伴う。（ここで平均は、試料集合内の複数のスペクトルにわたって取られる。）０から１までの範囲である、これらの百分位は、ｐ値として取り扱うことができる。この方法は、信号のバラツキを考慮せず、平均間の差のみを考慮するという短所を持つ。この方法は、暗黙のうちに、すべての信号の分散が等しいものとして仮定する。したがって、存在量の少ない検体における小さいが、統計的には有意な差を欠測する可能性がある。
【０１０２】
ｐ値を生成するためにロバストな統計的方法も使用できる（Ｗｉｌｃｏｘ，ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＲｏｂｕｓｔＥｓｔｉｍａｔｉｏｎａｎｄＨｙｐｏｔｈｅｓｉｓＴｅｓｔｉｎｇ，ＡｃａｄｅｍｉｃＰｒｅｓｓ１９９７）。ロバストな統計的方法は、極端なデータ点または分布仮定からのその他の逸脱の影響を最小限に抑えようとする方法である（したがって、いくつかの状況では、分散仮定に依存しないノンパラメトリック検定は、ロバストと考えられる）。ロバストな統計的方法の一実施例は、「刈り込み平均値」であり、これは、最大および最小の測定結果の一部分を除外した後に計算される平均値である。除外される測定結果の数は、絶対数（例えば、３つの最大の測定結果と３つの最小の測定結果）として、または利用可能なデータの一部分（例えば、測定結果の最大の１パーセントと最小の１パーセント）として指定することが可能である。刈り込み標準偏差は、同様にして定義できる。上述のように実行されるが、刈り込み平均値および標準偏差（およびこの平均値および標準偏差はさらに少ない測定結果に基づくので、それに対応して小さな自由度）を使用するｔ検定は、値を除外せずに実行されるｔ検定よりも外れ値に対してロバストであると考えられる。２つの分布の刈り込み平均値を比較するためにリサンプリング法も使用できるが（Ｗｉｌｃｏｘ，ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＲｏｂｕｓｔＥｓｔｉｍａｔｉｏｎａｎｄＨｙｐｏｔｈｅｓｉｓＴｅｓｔｉｎｇ，ＡｃａｄｅｍｉｃＰｒｅｓｓ１９９７）、必要な計算量が増える。
【０１０３】
刈り込みによる値の除外は、可能な利点とともに可能な欠点を持ち合わせる。第１に、少量のデータが頻繁に手元に置かれるため、いくつかの値を除外すると、検定の能力が実質的に低下する。第２に、極値は、測定結果の真のバラツキを反映することができ、その場合、刈り込み平均値を使用すると、偽陽性の個数が増えることがある。
【０１０４】
他のロバストな検定では、中心傾向およびバラツキの他のロバストな推定量を使用する。例えば、平均値の代わりに中央値、標準偏差の代わりに複数の四分位範囲を使用する。さまざまなロバストな統計的検定については、Ｗｉｌｃｏｘ，１９９７で説明されている。
【０１０５】
並べ換え検定（ＰｈｉｌｌｉｐＧｏｏｄ，ＰｅｒｍｕｔａｔｉｏｎＴｅｓｔｓ，Ｓｐｒｉｎｇｅｒ１９９４）も使用できる。この状況での並べ換え検定では、例えば、各点（例えば、付随する指数変数を持つｍ／ｚ識別子）でのｔ統計量（または他の何らかのユーザ指定統計量）を全ての点でのそのような統計量の集合と比較することが可能である。ｐ値は、統計量の観測値のリスト内で順位により割り当てられる。
【０１０６】
上記の統計分析は、ｍ／ｚ強度対および識別子および／または（複数の）指標の関数上で実行することができる。これは、信号それ自体を含む。
【０１０７】
Ｅ．時間永続性
過渡的または永続的ノイズから検体を区別しやすくするために、ｐ値の時間永続性、または擬似ｐ値などの同等の測定を使用することができる。それぞれ特定のｍ／ｚ強度対および時間に対応するｐ値の行列（または同等の統計量）は、上述の第ＩＩ節Ｄ「差の評価」で例示されているような手法を使用して決定することができる。ｍ／ｚ識別子毎に、しきい値よりも低く（例えば、約０．０５または約０．１または約０．２）、ユーザ指定最小時間よりも長く持続する（例えば、応用に応じて約５、約１０、または約１５秒）実験の２つの集合の間の差に対するｐ値を識別できる。
【０１０８】
２つの条件の間に差はなく、すべての信号は独立しているという帰無仮説の下で、永続的信号の尤度は、構成要素の時間点のｐ値の積である。ｉ（ユーザ指定）個の連続するｐ値のうち少なくともｍ個がしきい値よりも低いパターンが識別可能である。この場合、独立性の下で計算されたｐ値は、（ｎｃｈｏｏｓｅｍ）を掛けなければならない。
【０１０９】
永続的信号は、尤度により順位付けされることができるが、ただしこれらは有意な差が最初に提示されていないという帰無仮説の下で最もありそうにない。ユーザ指定値よりも長く持続する信号は、望ましい場合、人為的結果と考えられ、無視できる。異なる実施形態では、ユーザ指定値は、少なくとも約１分、少なくとも約１．５分、または少なくとも約２分である。
【０１１０】
時間以外の１つまたは複数の指標変数の部分集合間の有意性の永続性は、さらに、過渡的または永続的ノイズから検体を区別しやすくするための手段として使用することも可能である。これは、時間永続性を考慮することに加えて、または考慮することと組み合わせて、または考慮することとは独立に、実行できる。指標値を持たないデータの場合、ｍ／ｚの同位体または電荷関係の部分集合を含むだけでなく、データの分解能制限により解決されないピークにまたがる、ｍ／ｚ識別子の集合に対する永続性を使用できる。後者は、以下の第Ｘ節「実施例５」で説明される。
【０１１１】
Ｆ．再並べ換え
有意な差は、関係する複数のグループに並べ換えすることができる。信号内に関係する差が存在することは、さらに、それぞれの関係する差は、２つの試料集合内の検体のレベル間の差によるものであって、ノイズによるものではないという証拠となり得る。関係する差は、結果を提示するだけのため、またはグループ化された結果の尤度を修正するために、グループにまとめられる。
【０１１２】
並べ換えは、同位体である可能性、または単一の基本検体または基本検体の族の異なる荷電状態を表す可能性などの異なる特性に基づくことが可能である。その後、結果は、もっぱら相対的溶出時間（ＬＣ−ＭＳの場合には時間指標とともに）の残りシフトだけによるものである尤度に基づいて複数のグループに分割され、「偽陽性」の検出が自動的に行われる。並べ換えでは、さらに、共通の生物学的経路の一部であること、または他の指標変数内のシフトなどの他の要因を考慮することも可能である。
【０１１３】
例えば、ペプチドは、ＬＣ−ＭＳの一部であるイオン化時に、１つまたは複数の電荷を獲得することができる。それぞれの荷電状態ｚ（通常、ｚは１、２、３、または４とすることができるが、場合によっては、それらよりも大きい整数である）から、異なるｍ／ｚ識別子を持つ信号が発生する。したがって、単一ペプチド配列の異なる分子により、同時に、複数のｍ／ｚ識別子でイオン（およびしたがって信号）が発生し得る。
【０１１４】
ペプチドが基本質量Ｂを持つ場合、荷電状態ｚに対するｍ／ｚは（Ｂ＋ｚ）／ｚに等しい。したがって、可能な基本質量は、特定のｍ／ｚ識別子から、（質量対電荷＊ｚ）−ｚとして計算可能である。
【０１１５】
あり得そうなｚ値の範囲（通常、１、２、３、または４）のリスト内のそれぞれの信号に対する可能な基本質量を計算できる。時間的にオーバーラップし、同じ基本質量から生じ得る信号は、グループ化してまとめられる（他の指標変数内の一致またはほぼ一致も、多次元ＬＣなどのいくつかのアプリケーションでは必要になることも考えられる）。結果のリストが再並べ換えされ、それぞれのグループは最高順位の成分信号の順位を受け取る。したがって、質量対電荷比により潜在的に同時に発生するより有意性の高い信号に関係付けられている有意性の低い信号はリストの上の方に移動される。
【０１１６】
グループのｐ値は、さらに修正され、例えば、それぞれにｐ値の積を割り当て（信号はランダムであり独立しているとの帰無仮説下で）、その後単一の項目として表される（または他の方法でグループ化される）ことができる。時間以外の指標変数が、ここで他の演算でグループ化に使用されることがあり得る（つまり、時間以外の変数のアライメントが一致のために必要になることがあり得る）。
【０１１７】
異なる信号は、さらに、それらが異なる同位体状態に由来するとｍ／ｚ識別子が示している場合に、関係付けることができる。元素の同位体は、同じ数の陽子と電子を持つが、中性子の個数が異なる。１つの同位体は、一般に、他のすべてよりも共通性がかなり高く、支配的なｍ／ｚ強度対を生成する。例えば、いくつかのペプチドは、共通形態の分子量から１（または複数の余分な中性子が存在している場合にさらに大きな整数ｎ）だけ異なる分子量を持つ同位体形態を含み得る。ｍ／ｚ識別子は、任意の荷電状態ｚについて支配的なｍ／ｚ識別子から１／ｚ（またはｎ／ｚ）だけシフトされる。
【０１１８】
同位体ピークまたは複数の荷電状態の出現で、検出信号にさらに対応できる。同位体ピークまたは複数の荷電状態を表し得る、また時間などの指標変数が存在する場合には、指標変数内でオーバーラップする、ｍ／ｚ識別子を持つ信号は、グループ化してまとめられる。さらに、同じ検体の２つの同位体（および／または荷電状態）のピークの形状（時間および／またはその他の１つまたは複数の指標変数の関数として）は、一般に、他の検体と比べて互いの類似度がかなり高い。したがって、２つのピークが所定の検体の異なる同位体（および／または荷電状態）に属しているかどうかは、その類似度を確定することにより確かめられる。２つのピークの測定された類似度（例えば、相関、内積、または順位相関）と類似度のその尺度の一般的分布または測定結果の所定の集合に対する対毎のピーク類似度の経験的分布との比較が行える。同位体（および／または荷電状態）効果のより複雑なデコンボリューションも、当業でよく知られている標準的手法使用することで可能である。これらは、差の生成された順位付きリスト内のｍ／ｚ識別子の短い（非統計的フィルタ処理に関して）リスト上でもうまく働き得る。
【０１１９】
そのためにはさらに計算が必要になる可能性もあるが、同位体対合は、上述のプロセスの残りが完了する前に平均値または個別スペクトル上で実行されることも可能であり、推定単一の検体の同位体の所定の集合に対する信号は、すべて、総和または非線形プロセスを通じて組み合わされ、それにより、単一の実体としてそれらを処理することが可能である。類似の処理を、状況に応じて実行し、差の識別前または後に同じ検体（さらに同位体について上で説明されているように、比較的似たピーク形状を持たなければならない）の異なる荷電状態から生じると推定される信号を組み合わせることができる。
【０１２０】
さらにグループ化問題は、ｍ／ｚ値が高分解能で表される場合に生じる。この場合、単一荷電状態にある単一の検体は、質量分析の計測器側の方法の精度が制限されているためｍ／ｚの範囲で信号を発生することがあり、一般に、強度により、真のｍ／ｚ値付近にピークが発生し、弱い信号がいずれかの側にある距離だけ伝わる。つまり、それぞれの真の差により、見かけの差の小さな「ピーク」が発生する（または、たぶん、指標変数も含まれている場合に「うね」）。これらの結果は、グループにまとめられた場合に解釈しやすく、それぞれ特定のｍ／ｚ値を持つ単一の検体を表す。このようなグループ化は、上のＥ節で説明されている時間永続性の検索に類似しているが、ここでは、永続性は、時間ではなくｍ／ｚ値にまたがっている。グループは、何らかの選択された数の連続する有意な結果のランを見つけることにより識別されることができる（例えば、ｍおよびｎが、ｍはｎ以下である整数であるとして、１行の中に８、または１行の中のｎのうちの少なくともｍ）。
【０１２１】
連続するｍ／ｚのスパンは、絶対項（例えば、ｍ／ｚ単位の半分）または相対項のいずれかで表すことができる何らかの最小幅にわたることが必要になる場合もあり、後者は、測定されるｍ／ｚに比例する典型的計測器のｍ／ｚ精度と一致する（例えば、幅は、グループ内の最小のｍ／ｚの１パーセントの少なくとも４分の１でなければならない）。グループ化された結果自体は、さらにグループ化されることが可能であり、例えば、これにより、同じ前駆体の異なる同位体および／または荷電状態から生じるように見えるグループを接続する。指標変数を持つデータでは、ｍ／ｚ方向のグループ化は、時間の、または他の１つまたは複数の指標変数にそった永続性を探す前、または探した後に実行することが可能である。
【０１２２】
他の実施形態では、グループ化は、次元がｍ／ｚ、および／または符号付き対数尤度および／または条件Ａに対する信号および／または条件Ｂに対する信号および／または条件ＡおよびＢに対する信号間の差を含む空間内の点の重み付けに基づく階層的または非階層的集塊的または分割的または他のクラスタ化を使用して実行される。次元重みを選択するためのこのようなクラスタ化法および発見的手法は、当業ではよく知られている。
【０１２３】
他の指標変数も存在する場合、それらも、クラスタ化のための次元として使用することができ、これにより、それらの指標変数上でグループ化を実行することもできる。さらに、推定電荷を掛けて、電荷誘導実体（陽子など）の質量を差し引き、推定同位体質量差を差し引くことにより推定電荷または同位体について補正されたｍ／ｚを使用することにより得られた代表ｍの次元を含めると、クラスタ化を使用すれば、同位体および多重荷電現象により複数のピークを発生する単一検体の同位体および荷電状態情報に対する証拠をグループ化しやすい。
【０１２４】
Ｇ．分割
分割は、検体のレベルの差によるのではなく、実験または計算上の人為的結果による差である「偽陽性」の識別をさらに容易にするために実行することができる。検出された差は、偽陽性であることの確率または尤度に対する近似を表す部分集合に分割できる。
【０１２５】
時間的に（または他の指標変数で）わずかにシフトされた２つの信号が差であるように見える場合にある種の偽陽性が生じる。特に、２つのほぼ同一のピークが互いに関してシフトされた場合（図１０）、その後、立上りおよび立下りの両方の勾配が現れ、著しく異なる信号を表すようにできる。しかし、ピークがクロスした場合、通常、差が有意でない時間点が少なくとも１つある。このような信号は、さらなる分析のためフラグが立てられる。このような信号を扱う際に、２つ場合を区別できる。（１）立上りおよび立下りの両方の勾配が著しく異なるとして検出されたときと（２）１つのみが有意であるとして検出されたとき。
【０１２６】
前半分と後半分の両方が有意と検出された（「完全シフト」）シフトされた信号は、複数の時間に有意な差を持つｍ／ｚ強度対を調べることにより識別できる。同じｍ／ｚ識別子で２つの信号が時間的に十分近く（ユーザ定義パラメータ）、反対方向で異なる（前の方の信号ではＡはＢより大きく、後の方ではＢはＡよりも大きく、またはその逆である）場合、それらはグループ化でまとめられる。これらの「組み合わせた」信号は、その後、グリッドまたは二分探索法またはその他の最適化方法を通じて２つのピーク間の相関を最大にすることにより時間（または他の指標変数）で再アライメントされ、再度比較される。注目する曲線の一部分または全体への線形または非線形当てはめからの指標変数パラメータの差、順位相関、信号間のｐ値のマイナス、曲線間の面積のマイナスなどの、相関以外の尺度も使用できる。差がもはや有意でない場合、組み合わせ信号は、シフトによる可能な偽陽性としてマークが付けられる。差が有意なままである場合、成分信号は、リストから削除され、組み合わせ信号で置き換えられ、その場所は、有意水準により決定される。
【０１２７】
ここで説明されたばかりの方法は、立上りまたは立下り勾配のいずれかが有意であると検出されなかった場合には、機能しない。前の分析でグループにまとめられなかった信号をすべてチェックして、以下の基準の３つすべてを満たしているかどうかを調べることができる。
（１）平均（試料集合内のスペクトル間の）信号のいずれも、中にピークを持たない。ここで、ピークは、その信号がいずれかの側の最も近いＮ（ユーザ定義パラメータ）個の近隣点のどれよりも大きい点として定義される。そこで、Ｎ＝２ならば、ピークは、２つの直前および２つの直後の時間点での平均信号よりも大きい平均信号である（これは、他の指標変数でもチェックできる）。
（２）時間（および／または他の指標変数）の関数として平均信号を表す最小２乗回帰直線の（複数の）勾配は、両方の直線について０から著しく異なる。
（３）２つの勾配は、２つの勾配のうちの大きい方と小さい方との比が何らかのユーザ定義しきい値、例えば、３よりも小さいという意味で、互いに十分に近い。
【０１２８】
３つの条件すべてが満たされた場合、信号は、時間シフト（「半シフト」）による可能な偽陽性としてフラグを立てられる。完全シフトは、半シフトから別々に分割できる。可能な偽陽性は、結果の順位リストの終わりまで移動し、見かけの有意性の順序でそれら自身の間順位付けできる。
【０１２９】
可能な偽陽性に対する見かけの時間シフト（「推定シフト」）は、後続の分析について追跡できる（以下の第ＩＩ節Ｈ「再アライメント」を参照）。グループ化されてまとめられた立上りおよび立下りエッジからなる可能な偽陽性に対するシフトは、再アライメントされた信号間の最大の相関を与えるシフトとみなすことができる。単一の立上りまたは立下りエッジのみからなる可能な偽陽性については、シフトは、一実施形態では、平均信号を時間（および／または他の指標変数）に関係付ける直線回帰のｘ軸切片の差である。完全シフトに対する信号のアライメントに関する説明において、指標変数シフトの他の多数の推定量が上で取りあげられている。
【０１３０】
他の実施形態では、２つのスペクトル集合の再アライメントで差の有意性が止むかどうかをチェックすることにより、見かけの差が２つのスペクトル集合の間の時間または他の（複数の）指標変数のシフトによるものかどうかをチェックすることが可能である。例えば、スペクトル集合の他のアライメントが実際のアライメントよりも適切であり得るかどうかを判別するために、時間シフトの範囲により第１に関して第２をシフトしたときの２つのスペクトル集合の間の平均強度の相関を調べることが可能である。見かけの有意な差の何らかの領域の強度のみが計算に含まれ、例えば、見かけの有意性の領域、およびその範囲のいずれかの側で、見かけの有意性の領域の持続時間の長さの１または１．５または２または２．５倍またはそれ以上の倍数に等しい持続時間の領域である。時間シフトから未シフトのデータ集合間に存在する以上に著しく高い相関が得られない場合、調べている差は時間シフトによることはあり得ないと考えられる。何らかのシフトで、未シフトのデータ集合間に存在する以上に著しく高い相関が得られる場合、最高の相互相関を得るためにシフトの後にデータ集合について差が有意かどうかの判定が繰り返される。シフトの後も差がまだ有意である場合、それは、時間シフトによるものではないと考えられる。シフトの後、差がもはや有意でない場合、それは、時間シフトによるものである可能性が高いと考えられる。図８は、再アライメント使用して偽陽性をチェックするために実行することが可能な工程を示している。
【０１３１】
Ｈ．再アライメント
推定された時間シフトにフラグが立てられた後、それらの推定されたシフトを使用して、スペクトルの再アライメントを行い、分析を繰り返すことが可能である。再アライメント工程では、ありそうなシフトを判別するために、さまざまな偽陽性関係のカテゴリが使用される。
【０１３２】
可能な偽陽性のシフトの分布の中央値（最も近い数のビンで表される）は、最良のシフトとみなすことができる（百分位範囲上の平均値などの他の統計量も、適切な場合があり、一般に、中心傾向の尺度が適用可能と思われる）。その後、また、差について再アライメントされたビン分割信号を分析することができる。少なくとも１つの実施例（以下の実施例２に示されている）では、この手法により、他の結果の大半に影響を及ぼすことなく分割された偽陽性の個数を８０％ほど減らした。再アライメント手順は、シフトの分布が広がりすぎるか、または中心傾向（中央値など）の尺度が０から著しく異ならない場合には、有益でないことがあり得る。
【０１３３】
それとは別に、オリジナルのスペクトルをシフトの分布の中央値（またはその他の統計量）に従って再アライメントし（最も近い数のビンで表現する必要はない）、プロセス全体の一部または全部を繰り返すことが可能であり、そのためには、オリジナルデータのグリッド再表示を行い、有意な差および可能な偽陽性の識別を続けることから開始する。
【０１３４】
（１）分析すること、（２）シフトを見つけること、および（３）再アライメントの手順全体は、１回または複数回繰り返している可能性があり、この手順は、次の再アライメントについてシフトを与える新しいそれぞれの分析で繰り返し実行できる。反復は、「停止基準」が満たされたときに停止され得る。停止基準は、例えば、十分に小さな（ユーザ定義）数の可能な偽陽性が識別されたか、または何らかの反復後識別された可能な偽陽性の数では著しく（例えば０よりも大きい値だけ）減少できなかった（前の反復の結果はこの状況で保持される）場合に満たされる。
【０１３５】
いくつかのデータ集合では、１回の再アライメントで有益であろう。複数の再アライメントが有益である場合もあれば、ない場合もある。異なる実施形態では、再アライメント手順は、０回、１回、少なくとも２回、少なくとも３回、少なくとも４回、少なくとも５回、少なくとも６回、少なくとも７回、少なくとも８回、少なくとも９回、少なくとも１０回、または少なくとも停止基準が満たされるまで実行される。
【０１３６】
シフトは、時間（または他の指標変数）において非一様であり、例えば、後の時間は、前の時間よりも多く（または少なく）シフトすることが可能である。これは、例えば、流速または温度などの液体クロマトグラフィ実験の特性の変化がある場合に望ましいと考えられる。この場合、１つまたは複数のスペクトルからのシフト（１つまたは複数の基準スペクトルに関する）は、（平滑化）多項式または同等の式に当てはめられ（ｌｏｅｓｓ；ＭｏｄｅｒｎＡｐｐｌｉｅｄＳｔａｔｉｓｔｉｃｓｗｉｔｈＳ．ＦｏｕｒｔｈＥｄｉｔｉｏｎ，ｂｙＷ．Ｎ．ＶｅｎａｂｌｅｓａｎｄＢ．Ｄ．Ｒｉｐｌｅｙ，Ｓｐｒｉｎｇｅｒ，２００２など）、対応するデータの時間座標は、その後、当てはめ曲線の値によりシフトされる。さらに極端な場合には、２つまたはそれ以上の集合内のスペクトルは、局所シフトを推定するために使用される偽陽性の外側で信号を０に設定し、その後、大域的動的時間ワーピングを実行して（ＡｐｐｌｉｅｄＦｕｎｃｔｉｏｎａｌＤａｔａＡｎａｌｙｓｉｓ：ＭｅｔｈｏｄｓａｎｄＣａｓｅＳｔｕｄｉｅｓｂｙＪ．Ｏ．ＲａｍｓａｙａｎｄＢ．Ｗ．Ｓｉｌｖｅｒｍａｎ，Ｓｐｒｉｎｇｅｒ，２００２；ＦｕｎｃｔｉｏｎａｌＤａｔａＡｎａｌｙｓｉｓｂｙＪ．Ｏ．ＲａｍｓａｙａｎｄＢ．Ｗ．Ｓｉｌｖｅｒｍａｎ，１９９７）残りの信号のアライメントを行い、その結果得られるワープ関数を使用してオリジナルまたはビン分割データの時間座標をシフトすることにより、アライメントすることが可能である。シフトおよび関係する計算は、ビン分割の前後に実行可能である。
【０１３７】
Ｉ．感度および特異性
感度および特異性は、分析されるスペクトルの個数を増やすことにより高められる（上記の第Ｉ節Ｂを参照）。出力中の望む信頼水準、感度、または特異性を得るために必要なスペクトルの個数は、リサンプリング法または標準検出力分析を使用して推定されることができる。
【０１３８】
標準検出力分析では、所定の統計的検定（例えば、ｔ検定）の感度をおよび／または特異性の望むレベルに必要な複製の個数を推定することができる。これは、検定の検出力を見つけると呼ばれ、これは、標準の統計的手法である。この方法で統計的有意性を推定するために使用されるｔ検定では、信号の平均値および分散および複製の個数のみが必要である。検出分析は、信号の対数の帰属された平均値および分散を使用して実行することができる。また、これは、上の第ＩＩ節Ｄ「差の評価」で説明したように仮定された分散構造を使用して実行することもできるが、すべてのデータを収集する前に実行できる可能性と引き換えに、性能が悪化する可能性がある。
【０１３９】
強さ、振幅、ｐ値、および時間永続性などの特定の属性を持つ信号検出するために必要なスペクトルの個数を決定するために、リサンプリング法が使用できる。これは、この分析に使用されるデータが、必要なスペクトルまたは試料の個数が推定されるデータの統計量を適切に表すと仮定する。
【０１４０】
例えば、２つまたはそれ以上の条件を含むデータ集合は、以下のようにリサンプリングすることにより生成できる（２つの条件を含む場合にここで例示されている）。それぞれの条件についてＮ個のスペクトルがあると仮定する。２からＮ−１までのそれぞれのｎについて、ｎ個のスペクトルを持つ（Ｎｃｈｏｏｓｅｎ）部分集合があり、したがって部分集合の（Ｎｃｈｏｏｓｅｎ）平方対がある。ｎの値毎に、これらの部分集合のＭ＝Ｍｉｎ（１００，（Ｎｃｈｏｏｓｅｎ）ｓｑｕａｒｅｄ）に対し分析を実行できる。（ここで、ユーザ選択可能パラメータ１００は、統計の目的のために最小値として選択されたが、それよりも大きくても小さくてもよい。）この結果は、例えば、所定の属性を持つ信号を検出する所望の確率を得るために必要なスペクトルの最小数を決定するために調べられる。
【０１４１】
特異性は、同じ試料集合から抽出されたスペクトルの２つの集合の間の差を調べることにより測定できる。スペクトルの集合の間には注目する真の差はなく、見つかった信号はどれも、偽陽性と考えることができる。このような偽陽性は、統計上の偶然の出来事として生じるか、または試料取り扱い時の汚染から生じる可能性がある。望ましくない特性を持つ偽陽性の分布がある場合は、データ品質が低いことを示していることがある。
【０１４２】
そこで、ユーザに対し、偽陽性の個数、そのｐ値の分布（箱ひげ図を通して）、指標値の分布、および／またはｍ／ｚ識別子（箱ひげ図を通して）を通知することが可能である。総数、平均値、中央値、四分位範囲、最大、および／または最小、範囲などの分布のパラメータとしきい値とを個別に、または重み付き総和として比較し、品質問題があると思われることについてデータ集合にフラグが立てられるかを調べることが可能である。このような警告は、さらに、「多すぎる」がユーザ指定しきい値よりも大きい数である場合に、多すぎるスペクトルの悪い信号対雑音に基づいて発行することが可能である。
【０１４３】
信号対雑音比を決定する手法は、当業ではよく知られている。信号対雑音比は、例えば、第８５百分位範囲から第９３百分位範囲内の信号の平均値により除算された第９５百分位〜第９７百分位の範囲内の信号の平均値などの指定された百分位範囲上の平均値の比により決定することが可能である。これらは、また、すべての信号の中心傾向により除算された局所最大値の強度の中心傾向を使用して測定されることが可能である。ここでは、局所最大値は、ｍ／ｚ上で、または指標変数上で、またはｍ／ｚと指標変数との組み合わせ上で定義され、ある整数ｎについて点は少なくともｎ個の近隣点よりも高いことを要求するなどの当業でよく知られている手法を使用して定義することができ、近隣点は、ｍ／ｚの連続して高いまたは低い値および／または１つまたは複数の指標変数を持つ点であり、それらの値は、測定またはビン分割することが可能である。
【０１４４】
リサンプリング法も、特異性の測定に使用することができる。単一の試料集合からのＮ個のスペクトル（Ｎは３よりも大きい）について、スペクトルの２つの部分集合のうちの一方が２、３、．．．またはｆｌｏｏｒ（（Ｎ−１）／２）個までのスペクトルを持ち、他方が残りのスペクトルすべて（場合によっては１を除く、したがって、Ｎが奇数の場合、試料サイズは便宜上等しい）を持つ２つの部分集合の間で比較を行える。単一の比較では、スペクトルの２つの集合が、（反復なしで）Ｎ個の利用可能なスペクトルから選択され、分析が実行されて見かけ上の差を見つける。
【０１４５】
通常、ランダムに選択された部分集合対について何回も比較が実行される。通常、異なる部分集合対は多数あり、またスペクトルの２つの部分集合を選択する方法は多数ある。例えば、１００個の部分集合対は、ランダムに選択され、部分集合サイズ毎に比較される。パラメータ１００は、増減できる。
【０１４６】
偽陽性率を推定するため、その結果得られる差のリストが統計的に要約される。見かけ上の偽陽性の個数の部分集合対にわたって分布を調べると都合がよいであろう。総偽陽性率、および偽陽性率は、この分布から推定できる。さらに、十分な頻度で現れる差を調べて、一方の試料と他方の試料とで異なる汚染を反映するかどうかを判別することができる（スペクトルの目視検査では本当であるように見える差、それでも、故意に変えられた実験条件には関係しない）。これらの試料集合内差について見つかったｐ値の分布も、どの試料集合間差が注目するとよいかを案内するために使用可能である。
【０１４７】
第ＩＩ節パート（Ａ）から（Ｉ）までの工程はすべて、デジタルコンピュータ上で実行でき、関係する差のグループ化以外のそれらのどれかで実行される計算の回数は、ｍ／ｚ識別子の個数において線形時間対数線形以下で増大する。関係する差のグループ化で実行される計算の回数は、条件同士の間で見つかった有意な差の数の２次以下のオーダーで増える。
【０１４８】
ＩＩＩ．差の有意性
「有意な」差は、２つの試料集合からのスペクトル内のｍ／ｚ強度対に関する仮定の何らかの特定の集合の下ではあり得ない差である。仮定の集合は、「帰無仮説」と呼ばれ、通常は、２つの試料集合の間に検体のレベルに一貫した差はなく、したがってｍ／ｚ強度対の間に一貫した差はないと思われる。
【０１４９】
標準的な統計的技法では、「ｐ値」は、特定の観測された結果が帰無仮説の下でどれだけあり得るか、またはあり得ないかを表す。ｐ値は、帰無仮説が真の場合に所定の結果が生じる確率として定義されることが多い。小さいｐ値は、帰無仮説の下であまりあり得そうにない結果を示し、したがって、より有意であるとみなされる、つまり、帰無仮説が誤っており、試料集合間に本当の差があるというよい証拠となる。
【０１５０】
通常は、特定の分析において有意性に対するしきい値として特定のｐ値が選択される。統計的手順でのように、試料集合間に対応する差がない場合に、いくつかのランダムな変動が有意に見えることがある。さらに、いくつかの統計的に有意な差は、ランダムなノイズによるものでない、またはランダムなノイズよるものでないように思われる場合でも、特定のアプリケーションにおいて重要なものでない可能性がある。異なる実施形態では、有意性に対するｐ値は約０．２、約０．１、約０．０５、または約０．０１のしきい値を持つ。
【０１５１】
本明細書の分析では、ｐ値は、さまざまな方法で計算することができる。場合によっては、複数の方法使用し、ｐ値を組み合わせて単一の推定「最終ｐ値」にまとめることで、実体のｐ値（ある点または指標変数および／またはｍ／ｚ値の領域内での信号差）を計算することが（感度および／または特異性に関して）有利な場合がある。例えば、最終ｐ値は、その実体について決定されたｐ値の最大値または最小値または平均値または中央値として推定することが可能である。また、（当業でよく知られているある種のボンフェローニ補正を使用して）その実体について考察されているｐ値の個数をその最小値に掛けて推定することも可能である。その後、しきい値と比較する際にこの最終ｐ値が使用される。最小の方法を使用して最終ｐ値を求める場合、その結果得られる有意な実体のリストは、個々のｐ値方法のそれぞれを独立して使用することから得られるリストの合併である。
【０１５２】
また、本明細書の分析では、ｐ値を計算する方法は、近似的に較正することができる。この較正を実行するために、リサンプリングに基づく確率的シミュレーションが実行される。ｐ値を較正するこの方法およびその他の方法については、上のＤ節「差の評価」のロバストな統計的手法の背景状況において説明されている。
【０１５３】
ＩＶ．相対的量の判定
検出された検体の存在量がどれだけ変化したかを推定することが有用な場合がときにはある。「ｆｏｌｄｃｈａｎｇｅ」の類似尺度は、遺伝子発現データの解釈において一般に使用される。本明細書で説明されている方法により収集される情報は、そのような推定を行うために使用できる。図９は、２つのスペクトル内の信号の相対強度を定量化するために使用できる工程の実施例を示している。
【０１５４】
検体存在量におけるｆｏｌｄ−ｃｈａｎｇｅの推定は、差発見アルゴリズムにより使用される表現に基づくことができる。これは、強度測定結果自体に基づくか、または強度測定結果は近似的に対数正規分布している可能性を示す証拠があるため、基礎をなす対数の分布に基づくことができる。
【０１５５】
ｆｏｌｄ−ｃｈａｎｇｅ推定が強度自体に基づいている場合、強度曲線の下の面積全体の変化（例えば、差、相対、レシオメトリック）を推定できる。このような変化は、例えば、有意な差が検出される領域（時間、ｍ／ｚ、および／またはその他の指標変数の）にのみ基づくことが可能である。また、これは、この領域から始めて、強度曲線内で局所最大値を含み、当業でよく知られている一般的ピーク発見アルゴリズムを使用して見つけることが可能であるような局所最小値により制約されるこの領域を含む最小の領域を見つける方法などにより、有意な差が検出される領域の周りの、その領域よりも狭いまたは広い領域に基づくことも可能である。強度曲線は、例えば、各時点での平均値または中央値強度を含む、試料集合内の試料間の強度の中心傾向の尺度に基づくことが可能である。ｆｏｌｄｃｈａｎｇｅは、他方の条件で測定された強度の平均値により除算した一方の条件で測定された強度の平均値として求めることが可能である。必要ならば、ｆｏｌｄｃｈａｎｇｅが推定される前に、基準強度を推定し、面積（持続時間にわたる面積に等しい平均値）から差し引くことができる。
【０１５６】
ｆｏｌｄ−ｃｈａｎｇｅ推定が対数強度に基づく場合、曲線の下の面積の差から対数変化の推定値が得られる。したがって、曲線の下の面積の差を累乗することで、ｆｏｌｄｃｈａｎｇｅの推定値が得られる。それとは別に、それぞれの時刻で累乗された差の平均値をｆｏｌｄｃｈａｎｇｅ全体の推定値として使用することができるが、平均値の累乗を使用すると、累乗する前の測定結果の不安定度を平均することができる。
【０１５７】
他の強化点としては、測定された信号のそれぞれから何らかの基準信号を差し引き、残りの信号を使用してｆｏｌｄｃｈａｎｇｅを計算するか、または有意性の領域よりも（溶出時間またはその他の指標変数に関して）わずかに広い領域内の信号同士を比較することを含むことが挙げられる（両方の信号が、それらの間の差が有意になる前に基準線よりも上に来る可能性を場合によっては異なる量で説明する）。
【０１５８】
ピーク面積および基準線を決定する方法は、一般に、クロマトグラフ信号およびＤＮＡ−ｂａｓｅ−ｃａｌｌｉｎｇの解釈で使用され、当業ではよく知られている。信号は、さらに、境界に近い信号強度の変動に関してよりロバストであるべき縮小された領域上で比較することも可能である。そのようなすべての比較について、スペクトル集合毎に１つの領域、またはスペクトル毎に異なる１つの領域があり得る。ｆｏｌｄｃｈａｎｇｅの計算は、ワープまたはアンワープ指標またはその両方を使用して行うことができる。
【０１５９】
中心傾向を測定する統計量を使用することに加えて、相対量の複数の測定結果を使用して、比に対するより適切な推定値および／または誤り限界を得ることができる。例えば、ｆｏｌｄｃｈａｎｇｅ推定値に対する誤り限界は、リサンプリングにより得ることが可能である。例えば、それぞれのスペクトル集合の部分集合（利用可能なスペクトルの何らかの固定部分を含む）を選択し、部分集合のその対を使用して上記の計算を実行し、ｆｏｌｄｃｈａｎｇｅを推定することが可能である。このような部分集合を繰り返し選択することにより、多数のｆｏｌｄ−ｃｈａｎｇｅ推定値を求めることが可能である。
【０１６０】
ｆｏｌｄ−ｃｈａｎｇｅ推定値の分布を使用することにより、ｆｏｌｄｃｈａｎｇｅのリサンプリング推定値を求めることが可能である。当業でよく知られている標準のブートストラップ手法を使用してリサンプリングすることに対し場合によっては補正される中心傾向の尺度は、ｆｏｌｄｃｈａｎｇｅの全体的推定に使用することが可能である。推定値の分布をさらに使用して、例えば、分布または百分位点の標準偏差を使用して誤り限界を求めることも可能である（例えば、第２．５百分位を下限として使用し、第９７．５百分位を上限として使用すると、９５％の信頼区間が得られる）。
【０１６１】
リサンプリングに加えて、単一の検体の複数の同位体および／または複数の荷電（ｚ）状態を使用することで、相対的計量および誤り限界推定を改善することが可能である。便宜上、ここでは、同位体および荷電状態のバラツキに内在する複数のピークを「マルチピーク情報」と呼ぶ。マルチピーク情報は、比または対数比の計算前にそれぞれのピークからの量を総和することにより複数のピークを組み合わせることで使用することが可能である。マルチピーク情報は、さらに、まず対応するピーク（同位体および／または電荷による対応）に対する比または対数比を計算し、その後、その結果得られる値の集合を使用し中心傾向の尺度を使用してその比または対数比を取得し、分散または四分位範囲などの統計的尺度を使用してバラツキを求めるという形で使用することも可能である。
【０１６２】
これらの比の較正も必要になることがあるが、ＡＵＣと関係する測定結果の比は絶対的数量に必ずしも比例しないからである。較正するために、（ＡＵＣ１，ＡＵＣ２，ｒａｔｉｏ）を例えばｑｕａｎｔｉｔｙ１／ｑｕａｎｔｉｔｙ２にマッピングする関数Ｃを推定しなければならないであろう。ここで、ＡＵＣ１およびＡＵＣ２は、条件ＡおよびＢに対する信号の総量の尺度を表すために使用され、ＡＵＣまたは上述の他の方法のどれかを使用して計算することが可能である。項目ｑｕａｎｔｉｔｙ１およびｑｕａｎｔｉｔｙ２は、それぞれ条件ＡおよびＢ内に存在する同じ検体の総量を表し、対応するＡＵＣ１およびＡＵＣ２を発生する。
【０１６３】
較正は、注目している領域に及ぶさまざまな知られている数量または濃度および注入量の消化ペプチドまたは小分子の混合物などの知られている比較的純粋な検体の溶液から開始することにより実行される。ＡＵＣ１およびＡＵＣ２の値は、試料毎に１つの複製を使用するか、２つの複製を使用するか、３つの複製を使用するか、４つの複製を使用するか、５つの複製を使用するか、または５つよりも多い複製を使用する上記の手順のどれかを使用して繰り返し測定される。その結果得られる曲線および誤差推定値により、例えば、動径基底関数または回帰などの標準的手法を使用してマッピングＣを推定することができる。望むならば、このマッピングの定義域内の１つまたは２つの変数は、無視することができる。
【０１６４】
差は、分類または予測で使用するためさまざまな方法で要約することができる。例として、局所最大値（「ピーク」）に「近い」点の重み付き総和を含む上述のＡＵＣ風の要約がある。このようなデータは、多くの場合、有効性または毒性などの数値的予測を行ったり、試料が条件Ａまたは条件Ｂ、例えば疾病対健康、または悪性対良性の条件によるものである場合の予測などを分類するために使用される。上述のＡＵＣ風のまたは局所最大値尺度から特徴を選択することが可能であり（これは、有意な差を最初に見つける必要がある）、ブートストラッピング／ジャックナイフィングおよび／またはクロス確認を使用して分類器性能を推定することによりそのような選択を行い、組み合わせまたは確率的最適化を使用して結果として得られる特徴を選択する。
【０１６５】
組み合わせ手法としては、増分順方向特徴選択（最良のものを見つけて、その後それとともに含む最良のものを見つけ、その後それら２つとともに含む最良のものを見つける）、ｎ／ｍ方向増分順方向選択（通常ｎ＝１、ｎ＝２、またはｎ＝３のｎの最良の部分集合を見つけ、その後それらとともに含むｍ＝１、２、または３の最良の部分集合を見つけ、所望の数の特徴または所望の性能が見つかるまで続ける）、または含まれるすべての特徴から開始し、その後通常はｎ＝１、２、または３として最も性能を低下させるｎ個の特徴を取り除くことを含む減分逆方向選択がある。
【０１６６】
確率的最適化としては、特徴を選択する遺伝的アルゴリズムまたはランダム森がある（例えば、有意な差が見つかり、ＡＵＣおよび／または局所最大値および／またはマルチピーク特徴として要約された後）。最適化は、さらに、例えば、曲線内の信号の重み付き総和が曲線の下の面積を定義するために使用され、重みなし総和は使用されないように、定義のレベルで適用することも可能である。重みの集合は、要約が実行されるｍ／ｚおよび／または指標の関数とすることが可能であるが、最も単純なのは、例えば、有意な差の中の局所最大値からの距離または（ｍ／ｚおよび／または指標軸にそって）その差の中心からの距離に基づきＡＵＣ計算を修正するための単一の重みカーネルである。
【０１６７】
共役勾配法および関連する方法などの連続最適化手法を使用し、上述のように分類器または予測器を最適化することにより重み関数の離散化を最適化することが可能である。
【０１６８】
シミュレートされたアニーリングまたは遺伝的アルゴリズムなどの確率論的方法も、有意な差の固定集合（およびｍ／ｚおよび／または指標値の近傍）それらの値に対する特異値分解またはロジスティック回帰の場合のように、これらの重み関数を最適化するために使用することが可能である。
【０１６９】
Ｖ．データ表示
実行される方法および分析に応じて、データは、さまざまな異なる形式で表示することができる。さまざまな形式の実施例として、表形式とグラフ形式がある。
【０１７０】
好ましい実施形態では、ＬＣ−ＭＳデータ分析の結果は、異なる列でｍ／ｚ、開始および終了溶出時間、およびそれぞれの信号の尤度または対数尤度を指定する差の順位付きリストとして表示され、より好ましくは、グループ、変化の方向（Ａ／Ｂ）および／または量、および区画（「完全シフト」、「半シフト」、「見かけ上有効な結果」、またはこれら３つの状態の他の表現）も与えられる（以下の実施例２、表３を参照）。他の実施形態では、他の指標の値または範囲、局所的または大域的時間シフト値、および／または他の指標アライメント値などの追加情報は、表に入れることが可能である。状況に応じて表示される追加情報としては、データ品質全体の測定結果、使用されたアルゴリズムまたはソフトウェアのバージョン、または相対量、相対量または絶対量の範囲または誤差の推定値の計算のプロセスの前または最中に信号から差し引かれた基準線の値を含むことが可能である。
【０１７１】
グラフ表現も使用することができる。例えば、２つの試料集合からのスペクトル間のｍ／ｚ強度対差については、スペクトルの２つの集合内の平均信号およびその標準偏差をグラフ化し、それにより、「信号プロット図」を作成することができる。グラフは、図１０に示されているように、偽陽性区画ステータスに関してラベル付けすることができる。好ましい一実施形態では、これらの平均信号および偏差は、それぞれの側に有意性の領域とその領域の幅を加えた窓上で液体クロマトグラフィ溶出時間に対してプロットされる。ｐ値などの他の要約統計量は、他の実施形態では、ｍ／ｚ識別子、０個またはそれ以上の指標変数、および／または実験的要因の関数としてプロットすることが可能であり、また試料または試料集合に関係する実験的要因および／または表現型、遺伝子型、および／または臨床データを示すためにラベル付けおよび／または彩色することが可能である（例えば、図１１、１２、１３、および１５を参照）。
【０１７２】
他の表現方法は強度プロットである。強度プロットは、色相、記号、強度、および／または色が強度、局所時間ワーピングまたは関連統計量（平均値、中央値、差のｐ値、分散、またはデータがその領域内にあるスペクトルの個数など）の関数であるイメージである。図１１、１２、および１３は、強度プロットの実施例を示す。色は、例えば、黒色と白色、グレースケール、または記号で置き換えるか、または、増強することができる。強度プロットの利用可能な色、色相、強度、または記号により所望の情報が符号化できない場合、複数のプロットを作成し、互いに近い位置に配置するか、または透明および／または電子ディスプレイを使用して重ね表示することができる。
【０１７３】
図１１は、時間およびｍ／ｚ値の部分集合に対する平均強度値の差を例示する図である。
【０１７４】
図１２は、ｐ値の比較結果を例示する図である。時間永続性は、特定の強度または色の「直線」により視覚的に注目させることができる。
【０１７５】
図１３は、差の大きさと有意性を例示する。
【０１７６】
図１１、１２、および１３に示されているプロットは、データ集合の部分集合に対するプロットである。データ集合全体を含むさらに大きな部分集合も示すことが可能である。以下のような多数の変更形態が可能である。
（１）順位付きリストで指定されているものの周りの領域についてのみイメージ上に点（背景色以外の色とともに）示す。
（２）イメージが、順位付きリスト上のものによって示される、または関係する位置を中心とする、色、境界、形状、サイズ、向き、ｔ−ｍ／ｚ平面の上の高さ、またはその領域内のデータを含むスペクトルの個数および統計値などの注目する属性とともに変化する他の属性を持つ、「スポット」のみからなるようにする。
（３）上記のすべての方法の組み合わせ、場合によっては、識別された差の位置または他の属性を示すまたはラベル付けするためにイメージ上に重ね合わされた幾何学的形状または記号を含む。
【０１７７】
イメージおよび順位付きリストは動的にすることも可能であり、それにより、ユーザがクリックしたりまたは他の何らかのことを行って順位付きリスト内の項目またはグループを示した場合に、グラフ上の対応する点が視覚的に強調され、以下の１つまたは複数が実現されるようにする。
（１）色、色相、強度、形状、または他の属性、または背景および／またはイメージ上の他の点の色を変更する。
（２）１つまたは複数の対応する信号プロットが示される。
（３）強度クロマトグラム全体、質量クロマトグラム、信号クロマトグラムの全体または一部、ｐ値対ｔおよび／またはｍ／ｚ、または１つまたは複数の指標変数に対するスペクトルまたは平均スペクトル、注目している範囲、および注目しているｍ／ｚ強度対が示される。
【０１７８】
どのグラフを表示するかに関する決定は、チェックボックス、ラジオボタン、またはその他の共通インターフェイス要素により制御することが可能であり、また自動実行することができ、または対応するボタンまたはリンクがクリックされたときのみ表示することも可能である。さらに、リンクにより、ユーザは、マウスまたはタブレットなどのポインティングデバイスを使用して、イメージ上の点または領域を選択し、その後、含まれている有意な差および関連するグラフを表示できるようにすることが可能である。同様に、強度または信号または質量クロマトグラムまたはスペクトル（合計または局所的平均値または他の組み合わせ）から選択することが可能であり、表、強度プロット、または信号プロットとして表示することが可能である。
【０１７９】
視覚化を行う場合、マルチピーク情報を分離しておくデータ、またはピークから最初に情報を組み合わせたデータを使用することが可能である。例えば、図１０の信号プロットは、個別のｍ／ｚ識別子に対する信号、または上記の手法のどれかを使用して識別されているような所定の検体の異なる同位体に関係するすべての識別子に対する信号の総和などの組み合わせに基づくことが可能である。また、グループ化情報は、それらのグループ番号が場合によっては同じ検体を表すピークの集合間で変更されないようにグループ番号をピークに与えるか、またはピーク間の可能なグループ関係を示すグラフ（辺と頂点の集合、例えば格子）を描画することにより、示すことが可能である。複数のグループ番号またはグループ番号バージョンは、必要な場合にそれぞれのピークに割り当てて、ピークを複数の方法でグループ化できることを示すことが可能である。インターフェイスもまた、ピーク形状の相関などのグループ化に対する証拠を与えることが可能であり、これにより、ユーザは、何らかのグループ化の可能性の確認または拒絶を行い、それらのユーザ注釈を格納することができる。
【０１８０】
ＶＩ．分離手法
分離手法では、１つまたは複数の検体特性に基づき検体を分離する。分離手法の有用な特性は、サイズ、電荷、重量、疎水性、極性、および特定の化学成分の存在または欠如のうちの１つを含む。一般的分離手法フォーマットは、遠心分離、分画、クロマトグラフィ、ゲル電気泳動、疎水的相互作用チップ、気相イオン移動、気相イオン反応、および親和性チップを含む。
【０１８１】
本発明の一実施形態では、疎水的相互作用チップまたは親和性チップなどのチップを使用してスペクトルを取得し、一般的特性または特定の成分に基づいて検体を捕捉する。スペクトルは、例えば、表面増強レーザー脱離／イオン化によりチップ上で捕らえられる。（Ｐｅｔｒｉｃｏｉｎｅｔａｌ．，ＴｈｅＬａｎｃｅｔ３５９：５７２−５７７，２００２）。
【０１８２】
本発明の他の実施形態では、クロマトグラフ分離が使用される。クロマトグラフィは、静止している液体または固相の周りまたは上を、または一部真空または完全真空を通じて流れるときの溶質の分別分配の結果として液体または気体化学的混合物を複数の構成要素に分離することを伴う。
【０１８３】
好ましいクロマトグラフ法は、液体クロマトグラフィであり、これは、質量分析計に結合することができる。液体クロマトグラフィは、検体を分離することに加えて、試料集合間で異なるレベルの存在量を持つ検体を選択的に識別することを容易にするために使用されることができる指標（例えば、時間）を与えることもできる。
【０１８４】
さまざまな質量分析手法を、異なる液体クロマトグラフ法とともに適用することができる。液体クロマトグラフィとインターフェイスできる質量分析法の実施例は、電気スプレーイオン化、ナノスプレーイオン化、大気圧化学イオン化、および光電離を含む。（Ｌｉｍｅｔａｌ．，Ｂｉｏｌ．ＰｈａｒｍＢｕｌｌ２５（５）：５４７−５５７，２００２）。
【０１８５】
異なる液体クロマトグラフ法の実施例は、高性能逆相液体クロマトグラフィ、キャピラリ電気泳動法、キャピラリエレクトロクロマトグラフィ、陽イオン交換クロマトグラフィ、陰イオン交換クロマトグラフィ、サイズ排除クロマトグラフィ、および親和性ベースのクロマトグラフィを含む。（Ｌｉｍｅｔａｌ．，Ｂｉｏｌ．ＰｈａｒｍＢｕｌｌ２５（５）：５４７−５５７，２００２；Ｌｉｎｋ，ＴｒｅｎｄｓｉｎＢｉｏｔｅｃｈｎｏｌｏｇｙ２０（１２，Ｓｕｐｐｌ）：Ｓ８−Ｓ１３，２００２）。
【０１８６】
検体分離は、多次元液体クロマトグラフィを使用して増強できる。多次元液体クロマトグラフィは、通常、検体の２つまたはそれ以上の無関係の物理的特性を使用することに依存する。（Ｌｉｎｋ，ＴｒｅｎｄｓｉｎＢｉｏｔｅｃｈｎｏｌｏｇｙ２０（１２，Ｓｕｐｐｌ）：Ｓ８−Ｓ１３，２００２）。多次元液体クロマトグラフィは、例えば、指定された順序で２つまたはそれ以上の溶媒特性を変えることにより単一の分離装置内で２つまたはそれ以上の異なる液体クロマトグラフ工程を実行することにより実行することができる（Ｌｉｎｋｅｔａｌ．，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１７：６７６−６８２，１９９９）。
【０１８７】
ＶＩＩ．追加手法
必要ならば、注目している検体をさらに特徴付けるために、追加手法を実行することができる。他の特徴付けは、例えば、表現レベルが試料集合間で変化する特定の検体の素性または化学的構造を決定するために実行できる。
【０１８８】
ポリペプチドなどの検体は、さらに、タンデム質量分析などの手法を使用して特徴付けることができる。タンデム質量分析は、質量分析の複数の段階を使用して、さらに特定のｍ／ｚで特定の１つまたは複数のイオンを分析することを伴う。注目している（複数の）親イオンの識別を可能にする初期質量スペクトルを記録することは一般的な方法である。さらに、分析は、親イオンを生成物に転換し、その結果得られる生成物イオンを質量分析により分析することを伴う。
【０１８９】
質量分析から得られる結果は、検体同定に使用することができる。例えば、結果を、予測される質量スペクトルを含むデータベースと比較して、より小さな成分を調べることができる。同位体タグ付けを状況に応じて使用することを含むタンデム質量分析を実行する手法は、当業ではよく知られている。（Ｙａｔｅｓｅｔａｌ．，Ｕ．Ｓ．ＰａｔｅｎｔＮｏ．５，５３８，８９７，ＳｍｉｔｈＴｒｅｎｄｓｉｎＢｉｏｔｅｃｈｎｏｌｏｇｙ２０（１２，Ｓｕｐｐｌ）：Ｓ３−Ｓ７，２００２，Ｆｌｏｒｙｅｔａｌ．，ＴｒｅｎｄｓｉｎＢｉｏｔｅｃｈｎｏｌｏｇｙ２０（１２，Ｓｕｐｐｌ）：Ｓ８−Ｓ１３，２００２）。識別された検体およびその指標およびｍ／ｚ値のデータベースを作成して使用し、データベースと照合して指標値またはｍ／ｚ値の類似のパターンを持つすでに識別されている検体を検索することにより、将来の検体を推定識別することが可能である。
【０１９０】
ＶＩＩＩ．応用
２つの試料間で異なる存在量を持つ検体を選択的に識別することには、異なる分野においてさまざまな用途がある。ある程度重なり合う、２つの一般的分野分類として（１）生物学的分類と（２）定性的分類がある。
【０１９１】
生物学的応用の実施例には、以下のものがある。
１）プロテオームと変調された状態とを比較する。
２）薬物代謝および代謝変化を評価する。
３）翻訳後修飾または共翻訳修飾を測定する。
４）健康と疾病状態、異なる疾病状態、または異なる健康状態を比較する。
５）変性タンパク存在量を測定する。
６）タンパク質一次配列修飾を測定する。
７）生物活性の変化を測定する。
８）遺伝子操作の効果を測定する。
９）細胞または動物の処理の投与または時間過程の研究を実行する。
１０）生物兵器の存在を識別する。
１１）所定の生体物質に対する特定の親和性を持つ化合物を識別する、特に多数の化合物に対するそのような親和性のレベルまたは存在を識別する。
１２）生体系に効果を生じる化合物を識別する、特に多数の化合物に対するそのような効果のレベルまたは存在を識別する。
１３）所定の生体系または物質または化学物質により変化を引き起こされる（例えば、新陳代謝、溶解、または他の何らかの方法による変性）生体物質を識別する、特に多数の物質に対するそのような変化のレベルまたは存在を、特に酵素基質を識別するタンパク質またはペプチドまたは他の化学または生物ライブラリの使用に関して識別する。
【０１９２】
定性的用途の例には、以下のものがある。
１）水、土壌、または衣類中の知られている、または知られていない汚染物質を検出する。
２）化学兵器の存在を識別する。
３）原材料または製造製品中の相違または不純物を識別する。
４）建物またはその他の囲まれた空間内の空気中の成分を識別する。
【０１９３】
検体は、分析前に修飾されていても、修飾されていなくてもよい。検体修飾を実行して、検体分析、検出、または精製を容易にするタグを加えることができる。例えば、タグ付けは、感度または特異性を高めたり、または他の何らかの手段により、試料集合間で検体を区別するために必要な属性を変えるために使用することが可能である。タグの例としては、蛍光性タグ、放射性タグ、結合タグ、親和性タグ、共有結合タグ、および同位体タグがある。タグは、例えば、１つの条件の下で試料にマークを付けるか、または多数の条件について試料に区別する形でマークを付けるために使用できる。
【０１９４】
生物学的および定性的な特定の応用領域は、（Ａ）診断応用、（Ｂ）化合物評価および逆薬理学を含む薬理学、および（Ｃ）病気治療法を含む。
【０１９５】
Ａ．診断
本明細書で説明されている分析法は、診断分析の実施および診断分析のためのマーカーの識別で使用することができる。診断分析は、疾病または疾患に関連するマーカーの存在または量を測定することにより実行できる。マーカーは、単一のまたは複数の検体に基づくことができる。核酸またはペプチドなどの細胞の内部、表面の中または上、または外部に存在する生物検体は、潜在的なマーカーである。
【０１９６】
疾病または疾患に関連するマーカーは、（１）疾病または疾患の存在またはレベル、または（２）疾病または疾患にかかる一般的母集団、または識別可能な部分母集団よりも大きな潜在性に対する予測能力を持つことを意味する。異なる種類のマーカーを測定し、原因物質に起因するマーカー、疾病および疾患に直接関わるマーカー、および／または疾病または疾患状態を反映するマーカーを含む関連が存在するかどうかを判定することができる。
【０１９７】
原因物質は、宿主物質および宿主内に導入された化学物質を含む。疾病または疾患に関連する宿主物質としては、宿主内に生成される有毒物質、および健常人に関して生成が過剰または不足な化学物質がある。
【０１９８】
疾病または疾患の原因となり得る外部物質は、化学物質、プリオン、細菌、菌類、始原細菌、およびウイルス、さらに電磁気化学機械分野、電離放射線またはその他の催奇性または中毒性または身体の自由を奪う物質を含む。さまざまな有機体またはその結果生じる損傷遺伝物質は、ペプチドを含むか、または符号化する。そのようなペプチド（とともに、潜在的に、他の化学物質）の存在または生産を測定することを利用して、疾病または疾患の存在または原因物質により疾病または疾患にかかる潜在的可能性を示すことができる。
【０１９９】
外部物質に対する宿主反応は、生物マーカーのもう１つの源である。宿主反応は、免疫グロブリンを含む免疫反応物質の生産または宿主レベルのペプチドの変化を含むことができる。
【０２００】
疾病または疾患に関連するバイオマーカーは、原因物質についての事前の知識に基づいて選択することができるか、または経験的に判別することができる。１つまたは複数のマーカーと疾病または疾患との間の可能な関連は、統計的な、その他の計算による、またはグラフを使用した方法により評価することができる。
【０２０１】
異なる種類の試料集合を使用することで、疾病または順序に関連するバイオマーカーを識別することができる。可能な被験者グループは、疾病または疾患のリスクが高いすでに識別されている被験者および特定の疾病または疾患を持つ被験者を含む。試料集合は、さらに、疾病または疾患にかかるリスクレベルおよび疾病または疾患の臨床レベルを使用して定義することもできる。被験者グループは、さらに、承認可能なサンプリング手順に内在する試料のバイアスを含む利用可能な母集団からランダムに選択することもできる。（上述の第１節Ｂ「試料集合」を参照）。
【０２０２】
本明細書で説明されている手法を使用して大量のデータを分析できることで、異なる種類の試料において異なるレベルを持ち得る検体を識別するので、潜在的バイオマーカーの識別が容易になる。潜在的バイオマーカーと疾病または疾患との関連は、さらに、階層的および非階層的クラスタ化、集塊的および分割的クラスタ化、前記のクラスタ化法のハイブリッド、相関または関連の尺度、主成分または主最小二乗解析、ベイズ分類器、分類および回帰木、ランダム森、線形または２次判別分析、ニューラルネットワーク、患者規則導入方法、ベイズネットワーク、およびビリーフネットワークなどの分析法を使用して評価することができる。（例えば、Ｔ．Ｈａｓｔｉｅ，Ｒ．Ｔｉｂｓｈｉｒａｎｉ＆Ｊ．Ｆｒｉｅｄｍａｎ．ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ．ＳｐｒｉｎｇｅｒＳｅｒｉｅｓｉｎＳｔａｔｉｓｔｉｃｓ．Ｓｐｒｉｎｇｅｒ，ＮｅｗＹｏｒｋ，２００１；Ｂ．Ｄ．Ｒｉｐｌｅｙ，ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ；１９９６；ＪｕｄｅａＰｅｒｌＢａｙｅｓｉａｎＮｅｔｗｏｒｋｓ，１９８８；ＢａｙｅｓｉａｎＮｅｔｗｏｒｋｓａｎｄＤｅｃｉｓｉｏｎＧｒａｐｈｓｂｙＦ．Ｊｅｎｓｅｎ，ＳｐｒｉｎｇｅｒＶｅｒｌａｇ，２００１を参照）。
【０２０３】
Ｂ．化合物の評価および薬理学
化合物の評価および薬理学を実施して、細胞または動物に対する化合物代謝作用および効果を評価することができる。代謝作用の研究は、生体物質のサンプリングによる判別、化合物の吸収、分配、代謝作用、および排出、およびその代謝副産物を含む。このような評価は、重要な治療対象を識別すること、潜在的治療化合物を優先順位付けすること、有毒代謝物を識別すること、治療代謝産物を識別すること、細胞または生物に有害と思われる検体の生産増大または減少を識別すること、細胞または動物に有益な効果をもたらす検体の生産増大または減少を識別することを含むさまざまな用途を含む。
【０２０４】
化合物逆薬理学は、新しい治療対象または１つまたは複数の知られている化合物の新しい用途を判別するために知られている効果を持つ化合物を使用して実施することができる。このような研究は、治療的介入の、有益なまたはそうでない、意図されない効果に対するバイオマーカーの識別を伴う可能性がある。
【０２０５】
Ｃ．病気治療法
ペプチドなどのバイオマーカーの表現状態から、細胞または動物の健康に関する情報が得られる。バイオマーカーレベルの変化は、特定の治療を選択し、治療の有効性を監視するために使用することができる。これらの変化は、例えば、未治療の被験者、異なる治療状態の異なる被験者、または治療中の異なる時点における被験者に関するものである。
【０２０６】
ＩＸ．ソフトウェア
本明細書で説明されている分析の異なる実施形態のコンピュータ実装は、コンピュータ可読形態で命令を供給するコンピュータプログラムを使用して実現することができる。異なる変更形態の実装の高水準のビューの実施例は、図１〜９に用意された流れ図に示されている。
【０２０７】
異なる種類のコンピュータ言語を使用し、コンピュータ可読形態の命令を与えることができる。例えば、コンピュータプログラムは、Ｓ、Ｃ、Ｃ＋＋、ＦＯＲＴＲＡＮ、ＰＥＲＬ、ＨＴＭＬ、ＪＡＶＡ（登録商標）、ＣシェルスクリプトなどのＵＮＩＸ（登録商標）またはＬＩＮＵＸシェルコマンド言語、およびそのような言語のさまざまな方言などの言語を使用して書くことができる。Ｓ言語の方言である「Ｒ」は、ここで提示されているような分析を行いやすくする属性を持つ方言の一実施例である（ｈｔｔｐ：／／ｃｒａｎ．ｕｓ．ｒ−ｐｒｏｊｅｃｔ．ｏｒｇを参照）。
【０２０８】
異なる種類のコンピュータを使用して、本明細書で説明されている分析法を実施するプログラムを実行できる。本明細書で説明されている分析法を実施するコンピュータプログラムは、十分なメモリおよび処理能力を備えるコンピュータ上で実行できる。好適なコンピュータの一実施例は、２００ＭＨｚ以上の速度のＩｎｔｅｌＰｅｎｔｉｕｍ（登録商標）ベースのプロセッサおよび６４ＭＢ以上の主記憶を備えるコンピュータである。同等のまた優れたコンピュータシステムも、当業ではよく知られている。
【０２０９】
さまざまな種類のコンピュータに対し標準オペレーティングシステムを採用することができる。ＩｎｔｅｌＰｅｎｔｉｕｍ（登録商標）ベースのプロセッサ用のオペレーティングシステムの実施例としては、Ｗｉｎｄｏｗｓ（登録商標）ＮＴ、Ｗｉｎｄｏｗｓ（登録商標）ＸＰ、およびＷｉｎｄｏｗｓ（登録商標）２０００などのＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ファミリおよびＬＩＮＵＸがある。Ｍａｃｉｎｔｏｓｈコンピュータ用のオペレーティングシステムの実施例としては、ＯＳＸ、ＵＮＩＸ（登録商標）、およびＬＩＮＵＸオペレーティングシステムがある。他のコンピュータおよびオペレーティングシステムも、当業ではよく知られている。異なる実施形態では、ＬＩＮＵＸオペレーティングシステムが稼働する４ＧＢＲＡＭデュアル８６６ＭＨｚＰｅｎｔｉｕｍ（登録商標）ＩＩＩプロセッサを備えるＩｎｔｅｌベースのコンピュータまたはＩｎｔｅｌベースのコンピュータがＷｉｎｄｏｗｓ（登録商標）ＮＴまたはＸＰオペレーティングシステムをｘ−ｗｉｎｄｏｗｓ端末として実行するＡＩＸオペレーティングシステムが稼働するＩＢＭコンピュータ上で、Ｒ言語が使用される。
【０２１０】
Ｘ．実施例
本発明のさまざまな特徴をさらに例示するために、いくつかの実施例を以下に示す。これらの実施例は、本発明を実施するための有用な方法も例示している。これらの実施例は、請求されている発明を限定しない。
【実施例１】
【０２１１】
分析法
数値の２つの集合が著しく異なるかを判別するための統計的方法は多数ある。（Ｋａｎｊｉ，１００ＳｔａｔｉｓｔｉｃａｌＴｅｓｔｓ，１９９９，ＳＡＧＥＰｕｂｌｉｃａｔｉｏｎｓ，Ｗ．Ｊ．Ｃｏｎｏｖｅｒ．Ｐｒａｃｔｉｃａｌｎｏｎｐａｒａｍｅｔｒｉｃｓｔａｔｉｓｔｉｃｓ（２ｎｄｅｄ．）．ＮｅｗＹｏｒｋ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，１９８０）。この実施例は、試料集合内バラツキおよび試料集合間バラツキを使用して差の統計的有意性を判定することを示している。この実施例は、ｔ検定、その後、ウイルコクソン順位和検定を示している。
【０２１２】
この節の計算はすべて、表１のサンプルデータについて示されている。計算の数値は、例示目的のために選択された。
【０２１３】
Ｉ（Ａ，１）、Ｉ（Ａ，２），．．．Ｉ（Ａ，５）のラベルが付いている列は、試料集合Ａに対する強度の５つの測定（ビン分割および正規化）を表しており、Ｉ（Ｂ，１）からＩ（Ｂ，５）までと試料集合Ｂについても同様である。これらの数値の平均値は、列平均（Ａ）および平均（Ｂ）内にある。Ｍｅａｎ（Ａ）は以下のように計算された。
【数１】

Ｍｅａｎ（Ｂ）も類似の方法で計算された。
【０２１４】
測定結果の２つの集合間の差は、一部は、平均値の差、Ｄ＝ｍｅａｎ（Ａ）−Ｍｅａｎ（Ｂ）で表すことができる。この差Ｄが０から著しく異なっているかどうかを決定するために、１つの統計的アプローチでは、このサイズの差を偶然見つける可能性を判定する。
【０２１５】
測定結果およびいくつかの統計的仮定が与えられると、ランダムな出来事（例えば、ノイズ）による少なくともＤ程度の大きさの差を見つける確率は、以下のようにして計算できる。この確率は、「ｐ値」と呼ばれ、差は、通常、ｐ値が０．０５未満の場合に有意とみなされるが、アプリケーションに応じて他のしきい値を使用することもできる。
【０２１６】
一般に、ＤがＡおよびＢの「散らばり」または「バラツキ」と比較して小さい場合、少なくともＤ程度の大きさの差を見つけることは、ランダムな一致である可能性が高すぎるとみなされ、したがって重要でない（図１４Ａ、１４Ｂ）。ＤがＡおよびＢの「散らばり」または「バラツキ」と比較して十分に大きい場合、偶然生じることはあり得ず、有意であるとみなされる（図１４Ｃ、１４Ｄ）。
【０２１７】
そこで、試料集合内バラツキ（Ａ測定の散らばりとＢ測定の散らばり）はＤで表される試料集合間バラツキ（および一緒に考察されている１０個の点すべての散らばり）と比較される。
【０２１８】
ｔ検定の場合、試料集合Ａに対する集合内バラツキの尺度は、Ｄｅｖ（Ａ）であり、試料偏差である。
【数２】

これから、以下のように計算する。
【数３】

ただし、この実施例ではｎ_Ａ＝５である。この節で使用されている記号は、表１、および図１〜９の流れ図内の記号に対応している。
【０２１９】
Ｓ_Ａは、測定結果が平均値を中心にどれくらい散らばっているかを示す尺度である。すべての測定結果が同一であれば、この数値は０である。そうでなければ、これは、試料集合Ａ内のデータの分布（散らばりパターン）を表す、最良適合釣鐘曲線（「ガウス」または「正規」）の幅の推定値を与える。類似の計算がＢについても実行される。
【０２２０】
ＤがＳ_ＡおよびＳ_Ｂに関してどれだけ大きいかを判定するために、これらを以下のように組み合わせ、
【数４】

その後、以下を求める。
【数５】

【数６】

の統計的有意性は、ｔ分布におけるその確率（ｐ値）を計算することにより求めることができる。これは、さらに、測定回数およびＳ_ＡとＳ_Ｂとの間の差を考慮する、「自由度」Ｆの数を知っている必要がある。
【数７】

実際、ｐ値は、標準のスプレッドシートアプリケーションの関数を使用するか、または表の中の値を検索して、
【数８】

およびＦに基づき計算することができる。
【０２２１】
これらの値は、表１の中のｐ１、ｐ２、．．．、ｐ８とラベルが付いている８つの例について計算されている。時間指標変数を持つ典型的なＬＣ−ＭＳアプリケーションでは、ｔ、ｐ１、およびｐ２は、それらが典型的ｐ値しきい値０．０５よりも小さくても考慮対象から外される。これは、これらの（差の）有意性が長時間、持続しないからである（表１が完全であると仮定して）。点ｐ３からｐ７は、単一のｍ／ｚ識別子を共有し、５回連続するランを持ち、統計的有意性は典型的しきい値０．０５未満であり、したがって、これら５つの点により、ｍ／ｚ５０２．１は、開始時間３および終了時間３．２で有意な差を持つものとしてフラグが立てられる。
【表１】

【０２２２】
点ｐ８は、約０．１５のｐ値を持ち、これは、通常使用されているしきい値よりも著しく高い。そこで、ｍ／ｚおよび開始および終了時間に有意であるとフラグを立てる基準として有意な差のある連続（５ではなく）６回のランが必要であった場合、これは欠落する。しかし、点ｐ８では、すべての５Ａ値は２０００未満であるが、すべての５Ｂ値は２０００よりも高い。ｔ検定がこの有意性を見つけられなかったのは、点の分布に関する基礎となる仮定（「正規性」）に反していたという理由からである。この検定は、１つまたは複数の「外れ値」（まれな、異なる測定結果）により望ましくない結果が引き起こされる可能性があるため「ロバスト」でないと言われる。
【０２２３】
データに関する仮定を緩めた代替え検定の実施例がウイルコクソン順位和検定である。（Ｋａｎｊｉ，１００ＳｔａｔｉｓｔｉｃａｌＴｅｓｔｓ，１９９９，ＳＡＧＥＰｕｂｌｉｃａｔｉｏｎｓ，Ｗ．Ｊ．Ｃｏｎｏｖｅｒ．Ｐｒａｃｔｉｃａｌｎｏｎｐａｒａｍｅｔｒｉｃｓｔａｔｉｓｔｉｃｓ（２ｎｄｅｄ．）．ＮｅｗＹｏｒｋ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，１９８０）。この検定を適用するには、１０回の測定結果に最小から最大まで１から１０の順位を付ける（表２）。
【表２】

その後、Ａの順位を足し合わせて１＋２＋３＋４＋５＝１５を得る。この合計は、試料内バラツキに関する試料間バラツキの尺度となるが、それは、測定結果同士の比較方法を考慮しているからである。この検定で、値１５を表の中で探索し、ｐ値が０．０１未満の場合にこの順序が有意であることを見いだすことができる。実際、異なる検定から計算されたｐ値の集合から最小のｐ値を取り出すことが可能である。これにより、感度は高まる（より多くの点が検出される）が、推定対数尤度の適当な補正（ボンフェローニなど）が必要になることがある。
【実施例２】
【０２２４】
調合されたタンパク質混合物の分析
この実施例では、合成孤立または精製タンパク質試料集合を使用して、検体の複雑な混合物が存在している場合に試料集合間で異なるレベルの存在量を持つ検体の選択的識別を例示している。この実施例では、ｍ／ｚ強度対に加えて時間指標を使用し、比較的低いレベルの検体差に対応するスペクトル内の小信号に対する高い感度を維持しながら偽陽性を減らすために使用できる異なるフィルタ処理手法の結果を例示する。
【０２２５】
タンパク質消化物標準
２４個のタンパク質のトリプシン消化物は、ＭｉｃｈｒｏｍＢｉｏＲｅｓｏｕｒｃｅｓ（カリフォルニア州オーバーン）から入手した。選択されたタンパク質、ソース、および対応する分子量は、シトクロムＣ（ウマ）１２ｋＤａ、リゾチーム（ニワトリ）１４ｋＤａ、ヘモグロビン（ウシ）１７ｋＤａ、ミオグロビン（ウマ）１７ｋＤａ、ベータラクトグロブリン（ウシ）１８ｋＤａ、キモトリプシノゲン（ウシ）２５ｋＤａ、カルボニックアンヒドラーゼ（ウシ）２９ｋＤａ、デオキシリボヌクレアーゼ（ウシ）３１ｋＤａ、カルボキシペプチダーゼＡ（ウシ）３５ｋＤａ、グリセルアルデヒド３Ｐデヒドロゲナーゼ（ウサギ）３７ｋＤａ、コナルブミン（ニワトリ）４０ｋＤａ、ペルオキシダーゼ（ホスラディッシュ）４４ｋＤａ、アルファアミラーゼ（バシラス属）５０ｋＤａ、グルタチオンＳトランスフェラーゼ（ウマ）５１ｋＤａ、グルタミン酸脱水素酵素（ウシ）５５ｋＤａ、ウシ血清アルブミン（ウシ）６８ｋＤａ、アポトランスフェリン（ウシ）７６ｋＤａ、ラクトペルオキシダーゼ（ウシ）８５ｋＤａ、アミログルコシダーゼアスペルギルス属９２ｋＤａ、ホスホリラーゼＢ（ウサギ）９７ｋＤａ、ベータガラクトシダーゼ（ウシ）１１５ｋＤａ、カタラーゼ（ウシ）１２８ｋＤａ、乳酸脱水素酵素（ウサギ）１４０ｋＤａ、免疫ガンマグロブリン（ブタ）１６０ｋＤａであった。それぞれの試料は、−８０℃で凍結保管された。
【０２２６】
ペプチド標準
凍結乾燥ブラジキニン１〜９（ＭＷ＝１０６０ｕ）、アンギオテンシンＩ（ＭＷ＝１２９６）、およびニューロテンシン（ＭＷ＝１６７２）は、Ｓｉｇｍａ−Ａｌｄｒｉｃｈ社（ミズーリ州セントルイス）から入手した。ペプチドを０．１％のトリフルオロ酢酸（ＴＦＡ）と組み合わせて再構成し、１０ｐｍ／ｕＬの原液を作った。
【０２２７】
タンパク質消化物の組み合わせ
０．１％ＴＦＡ１０ｕＬアリコートを、シトクロムＣ、リゾチーム、ヘモグロビン、ベータラクトグロブリン、キモトリプシノゲン、カルボニックアンヒドラーゼ、デオキシリボヌクレアーゼ、カルボキシペプチダーゼ、グリセルアルデヒド３Ｐデヒドロゲナーゼ、ペルオキシダーゼ、グルタチオンＳトランスフェラーゼ、グルタミン酸脱水素酵素、アポトランスフェリン、ラクトペルオキシダーゼ、アミログルコシダーゼアスペルギルス属、ホスホリラーゼ、ベータガラクトシダーゼ、カタラーゼ、乳酸脱水素酵素、免疫ガンマグロブリンの２０個のタンパク質消化物標準約５００ｐｍｏｌに加えて５０ｐｍ／ｕＬの溶液を調合した。タンパク質消化物原液を組み合わせて、２０個のタンパク質消化物からなる２．５ｐｍｏｌ／ｕＬの混合物を得た。この混合物は、タンパク質混合物ＡおよびＢと表されている２つの同じ１００ｕＬアリコートに分けられた。
【０２２８】
タンパク質混合物Ａへの添加（試料集合１）
ミオグロビン（５０ｐｍ／ｕＬ）、コナルブミン（１０ｐｍ／ｕＬ）、アルファアミラーゼ（５ｐｍ／μＬ）、およびウシ血清アルブミン（１ｐｍ／ｕＬ）は、各凍結乾燥タンパク質消化物の約５００ｐｍ分を１０、５０、１００、および５００ｕＬの０．１％ＴＦＡでそれぞれ再構成して調合された。それぞれの原液の１０ｕＬアリコートを１００ｕＬのタンパク質混合物Ａに添加した。１０ｕＬの０．１％ＴＦＡを添加して原液Ａの最終量を１５０ｕＬにした。タンパク質混合物Ａ内の消化されたタンパク質最終の計算濃度は、［２０タンパク質混合物］＝１．７ｐｍ／ｕＬ、［ミオグロビン］＝３ｐｍ／ｕＬ、［コナルブミン］＝０．７ｐｍ／ｕＬ、［アルファアミラーゼ］＝０．３ｐｍ／ｕＬ、［ウシ血清アルブミン］＝０．０７ｐｍ／ｕＬである。
【０２２９】
タンパク質混合物Ｂへの添加（試料集合２）
コナルブミンの１０ｐｍ／ｕＬ原液の３５μＬアリコートを１００ｕＬのタンパク質混合物Ｂに添加した。さらに、１０ｐｍ／ｕＬペプチド原液の１０ｕＬアリコートをタンパク質混合物Ａに添加し、０．１％ＴＦＡを５ｕＬ添加して、最終的な量を１５０ｕＬに増やした。
【０２３０】
液体クロマトグラフィ質量分析プロトコル
分析的液体クロマトグラフ（ＨＰ１１００、ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ社、カリフォルニア州パロアルト）および四重極イオントラップ質量分析計（ＬＣＱ；ＴｈｅｒｍｏＦｉｎｎｉｇａｎ社、カリフォルニア州サンノゼ）を使用して試料を分析した。試料は、Ｃ１８逆相カラム（ＢｒｏｗｎｌｅｅＯＤ−３００，Ａｑｕａｐｏｒｅ，Ｃ１８，７ｍｍ，３００ａ，５ｃｍｘ１．０ｍｍ；ＰｅｒｋｉｎＥｌｍｅｒ，Ｗｅｌｌｅｓｌｅｙ，ＭＡ）に注入され、１００ｕＬ／分の流速で０．１％ＴＦＡ（溶媒Ａ）およびアセトニトリル（溶媒Ｂ）の２値勾配により分離された。勾配は４５分以内に０から７０％溶媒Ｂに増加し、溶出物は質量分析計の電気スプレーイオン化ソース内に向けられた。完全走査重心質量スペクトルが、４００から１８００Ｄａ／ｚまでのｍ／ｚ範囲にわたって１．２秒毎に取得された。ＬＣ−ＭＳデータファイルは、計測器固有形式から、保持時間、ｍ／ｚ、および強度データを３列で含み、さらに実験および／または試料を識別するために使用される他の補助情報を含むテキストファイルに変換された。
【０２３１】
複製混合物分析
ＨＰＬＣオートサンプラを使用して、ペプチド標準およびタンパク質試料ＡおよびＢの複製スペクトルを収集した。使用した注入順序は、ブランクの試料、ペプチド標準、ペプチド標準、タンパク質混合物Ａ、タンパク質混合物Ｂ、タンパク質混合物Ａ、タンパク質混合物Ｂ、タンパク質混合物Ａ、タンパク質混合物Ｂ、タンパク質混合物Ａ、タンパク質混合物Ｂ、タンパク質混合物Ａ、タンパク質混合物Ｂ、タンパク質混合物Ａ、タンパク質混合物Ｂ、タンパク質混合物Ａ、タンパク質混合物Ｂ、タンパク質混合物Ａ、タンパク質混合物Ｂ、タンパク質混合物Ａ、タンパク質混合物Ｂ、タンパク質混合物Ａ、タンパク質混合物Ｂ、およびペプチド標準であった。開始時のブランク試料は、保持時間の一貫性を高めるのに役立つが、ペプチド標準はその一貫性を検証するのに役立つ。他の順序も使用されている可能性がある。
【０２３２】
個別タンパク質消化物の特徴付け
０．１％ＴＦＡの５００ｕＬアリコートを各凍結乾燥タンパク質消化物の５００ｐｍｏｌに添加してミオグロビン、コナルブミン、アルファアミラーゼ、およびウシ血清アルブミンの１ｐｍ／ｕＬの溶液を調合した。ＬＣＭＳプロトコルを使用して、それぞれの個別タンパク質消化物を分析した。
【０２３３】
結果
２つのタンパク質混合物からの質量分析信号間で２０４個の差が検出された。単一の再アライメント工程が実行され、その結果１１３個の差が得られた。排除された差の大半は、完全または半シフトであった。２つのタンパク質混合物の間のそれぞれの故意に持ち込まれた化学的な差により、質量分析信号に複数の差が生じた。逆に、質量分析信号間のほとんどすべての差は、２つのタンパク質混合物間の知られている差の１つから生じるものとして肯定的に識別された。
【０２３４】
図１Ａおよび２〜６に例示されている方法の偶数番号の工程を使用して実行した分析の結果は表形式とグラフで例示されている。表３は、表形式で結果の一部を示している。表１０は、図形式で４つの結果を示している。
【０２３５】
表３は、「グループ」、「質量」、「開始」、「終了」、「対数尤度」、「Ａ／Ｂのうち高い方」、および「シフト」を示している。情報を加減した表を含む表３の異なる変更形態も可能である。シフト０は、２つの試料集合の化学組成の差による可能性が最も高いものとして自動的に判別された結果であることを示す。シフト「０．５」は、半シフト（上の第ＩＩ節「分割」を参照）を示しており、一般に、信頼度または偽陽性の尤度に関する区画を示すことが可能である。「１」は、完全シフトを示すが、再アライメントの後、このデータ集合は、完全シフトを持っていなかった。
【表３】

【０２３６】
グラフを調べて、２つの試料集合からのスペクトルにおいて異なるレベルを持つ２０５個のｍ／ｚ強度対の結果を分析した。図１０は、調べることができたグラフの４つの例を示している。２２個の結果が（対で）可能な完全シフト偽陽性の構成要素として識別され（時間的にシフトした信号の立上りおよび立下りエッジが両方とも差として識別されたシフト）、７６個が可能な半シフト偽陽性として識別された（１つのエッジのみが差として識別された）。１０６個の結果が、可能な偽陽性として識別されなかった。
【０２３７】
観測されたシフトは、ワンタイムビンのシフトの周りに密クラスタ化された（Ｂ条件はＡ条件よりも後に抽出）。このシフトを考慮して、分析が再実行された。この分析で、１１３個の差のみが発見された。そのうち６個は、可能な半シフトであると識別され、識別された完全シフトはなかった。結果は、溶出時間ではシフトを使用しない分析の結果とほとんど一致している。シフトされた分析のほとんどすべての結果が、シフトなしで実施された分析の中に存在した。初期分析で可能な偽陽性として識別されなかった２０個の結果は、シフトされた分析の中で消えたが、弱い結果となる傾向があった（そのうち１３個は、１００番目のエントリよりも後に出現した）。少数の新しい弱い結果も、シフトされた分析の中に出現した。
【０２３８】
単一試料集合からのスペクトル同士を比較し、何も存在しない場合に見かけ上の差が発生した可能性を調べた。４つからなる２つの集合において、４つからなるグループ内、または２つのグループ間のいずれかで試料を繰り返さずに、条件Ａからの８個のスペクトルを比較した。部分集合の１００個の対をランダムに選択し（可能な８！＝４０３２０個の可能性のうちから）、それぞれの対を差に関して分析した。１００個の結果のうちには、半分以上には差が見つからず、差の個数の第３四分位（第７５百分位）は１である。
【０２３９】
したがって、偽陽性の個数は、一般に低いと予想される。部分集合の少数の対により、１３または１５個の差が生じ、１００個の部分集合対にわたる偽陽性の総数は１９６であった。偽陽性率は、分析１回につきおおよそ２と推定することが可能である。
【実施例３】
【０２４０】
タンパク質存在量の差の計量
ときには、タンパク質存在量の変化を検出できるだけでなく、検出されたタンパク質の存在量が変化した量を推定できることも有用である。タンパク質混合物による実験を行い、タンパク質存在量の相対変化の計量を例示した。
【０２４１】
基本混合物は、実施例２のように、ＢＳＡは、２つの試料の間のタンパク質存在量の２ｆｏｌｄｃｈａｎｇｅについて、濃度０．０６ｐｍｏｌ／μＬで条件Ａにスパイクされ、濃度０．０３ｐｍｏｌ／μＬで混合物Ｂにスパイクされた。
【０２４２】
表４は、３つの異なる検出された差に対する、これらの計算の３つの実施例をまとめたものである（図１〜９も参照）。強度の対数の曲線の下の面積の比または強度の対数の曲線の下の面積の差に基づく方法を使用して正規化された強度および非正規化された強度に基づく値が与えられる。３つの差はすべて、推定濃度比２：１で条件ＡおよびＢにスパイクされたウシ血清アルブミンから生じる。
【表４】

【実施例４】
【０２４３】
ブランクとの比較によるミオグロビン消化物の分析
ミオグロビン消化物から取り出されたＬＣＭＳデータをブランク試料から得られたＬＣＭＳデータとを比較するために本明細書で説明されている手法が適用された。それぞれについて５つのデータ集合が得られた。これらの結果と実施例２で説明されているのと似ているが、０．６２５ｐｍｏｌ／μＬの濃度の試料Ａの中にミオグロビンがスパイクされ、試料Ｂにはミオグロビンが存在しないスパイク実験からの結果とを比較した。スパイクされた消化物の濃度は１ｐｍｏｌ／μＬであった。
【０２４４】
モーメント法による基礎となる対数の分布の平均および分散を見つけることを伴う検定を使用して、ブランクとミオグロビン消化物との間に３６個の有意な差が見つかった。これらのうち１８個が、ミオグロビン消化物がある場合とない場合についてペプチド混合物の間の比較で検出された（同じｍ／ｚ値を持ち、保持時間は５０％を超えてオーバーラップしている）。ペプチド混合物比較で見つからない１８個の差は、見つかった差よりも小さい。例えば、平均強度曲線の下の面積を調べると、ペプチド混合物比較では見つからなかったグループ内で、有意な差の領域内の曲線の下の面積の中央値の差は、任意の強度単位で１１４８００であり（四分位範囲６６２１０〜１５６１００）、見つかったグループについては、中央値の差は２１０２００である（四分位範囲「ｉｑｒ」１７３４００〜６８９６００）ことがわかる。同様に、平均強度曲線の最大値を調べると、中央値はスパイク対ブランク比較でしか見つからないグループ内で２３１８０（ｉｑｒ１５７４０−３４３８０）であり、ペプチド混合物の比較でも見つかるグループでは４５３７０（ｉｑｒ２８５４０〜１０１８６０）であることがわかる。ペプチド混合物の比較で見つからないこれらの差のうちの２つは極端に小さく、偽陽性である可能性がある。
【０２４５】
ブランク対ミオグロビン消化物比較でのミオグロビンの濃度は、ペプチド混合物比較での濃度よりも５０倍以上大きかった。濃度の高い消化物内で小さい差は、物質があまり濃縮されていない場合には検出されなかった。
【表５】

【表６】

【実施例５】
【０２４６】
指標変数なしで質量分析法を使用した臨床血清試料の分析
この実施例では、指標変数を含まないスペクトルの分析、およびバイオマーカーの識別を例示している。データは、Ｗｅｂサイトｈｔｔｐ：／／ｃｌｉｎｉｃａｌｐｒｏｔｅｏｍｉｃｓ．ｓｔｅｅｍ．ｃｏｍ／ｄｏｗｎｌｏａｄ−ｏｖａｒ．ｐｈｐからダウンロードされた。Ｐｅｔｒｉｃｏｉｎｅｔａｌ．，Ｌａｎｃｅｔ３５９：５７２−５７７，２００２では、このデータを利用し、異なる分析法を使用して癌バイオマーカーを識別することについて説明している。
【０２４７】
データは、図１Ａおよび２の偶数番号のボックスの中の工程を使用して分析されたが、ただし１０６、１０８、１１２、および１３６では「ｎｏ」で応え、１３０、１３２、および１３４の機能を実行しない。この分析では、ビン幅１（それぞれ、ビン幅０．５）として参照される、それぞれの指定値のいずれかの側で０．５単位（および０．２５単位）内のｍ／ｚ値の窓を使用した。後述の分析については、２つのビン幅の結果は定量的には異なるが、定性的には異ならない。
【０２４８】
データ集合内のそれぞれ、およびすべてのｍ／ｚ識別子の有意性を計算した。パターン認識法および識別された信号を使用することで、ほんの一握りのこれらの信号を使用する疾病状態の完全な予測器を作成できた。（「完全な予測器」は、学習データの集合および独立の検定集合の両方において誤りなしでコントロール試料から癌を区別する）。
【０２４９】
この分析では、癌スペクトルの２／３およびコントロールスペクトルの２／３は、学習集合としてランダムに選択され、残り１／３は検定集合として使用された。この方法で、オリジナルの集合内の１５，２００個の識別子と比較して、癌と６３８１個のｍ／ｚ識別子に関連付けられた信号内のコントロールクロマトグラムとの間の有意な差を識別した。６９２５個の識別子での差は、ビン幅０．５で有意であった。オリジナルの集合内の正確な識別子がビン分割なしで使用された場合、７８８４個、またはおおよそ半分に関連する信号は、２つの条件の間で著しく異なることが判明した。
【０２５０】
図１５は、それぞれの結果の有意性（負の対数尤度）に対してプロットされた、癌標本と非癌標本との間の有意な差を示す信号と関連する６３８１個のｍ／ｚ識別子を示している。負の対数尤度が高いほど、示される有意性は高い。暗い色の正方形は、非癌標本よりも癌の中での方が高い信号に関連付けられたｍ／ｚ識別子を示し、明るい色の円は、癌標本の中よりも非癌標本の中での方が高い信号に関連付けられたｍ／ｚ識別子を示す。有意な識別子の幅の広いピークは可視であるという事実は、データのｍ／ｚ分解能が劣ることを反映する場合がある。いくつかの場合に、結果は、同じ検体の一重または二重荷電状態または単量体または二量体配置に対応しているように見え、結果の信頼度が増すか、またはバイオマーカー識別の解釈または使用に役立つ可能性がある。
【０２５１】
高いｍ／ｚ識別子についてはピーク幅が広いという事実もまた、一部は、測定されたｍ／ｚ値はより高い範囲でより広い間隔で並んでいるという事実を反映する可能性がある。また、これは、おそらくデータを生成するために使用される計装の分解特性を反映すると思われる。これは、このｐ値プロット内のピークのデコンボリューションを実行して（定評のある方法を使用する）、各ピークの中心、またはソース、ｍ／ｚ識別子を見つけるか、またはより高いｍ／ｚ範囲に対し広いビンを使用することにより処理することが可能である。その結果得られるｍ／ｚ識別子および組み合わせた（統計量またはＡＵＣまたはその他の共通の方法により）強度は、バイオマーカーとして使用するのに信頼できると考えられる。
【０２５２】
信号の２つの分布の平均値が区別可能でない場合、それらの分布からの個別の信号は、平均値が区別可能である信号であるコントロールクロマトグラムから癌を区別できるために十分に異なる可能性は低い場合がある。したがって、識別されたｍ／ｚ識別子に対応する信号は、個々のバイオマーカーに対する有望な候補といえる。
【０２５３】
信号の６３８１個の集合の並べ換えをして、コントロール試料から癌を区別するためにどの部分集合を使用できるかを見いだすには、膨大な計算量を必要とする。ｐ値の分布の上位５％内にある個々のｐ値とともにｍ／ｚ値を使用して、分類木（Ｔ．Ｉａｓｔｉｅ，Ｒ．Ｔｉｂｓｈｉｒａｎｉ＆Ｊ．Ｆｒｉｅｄｍａｎ．ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ．ＳｐｒｉｎｇｅｒＳｅｒｉｅｓｉｎＳｔａｔｉｓｔｉｃｓ．Ｓｐｒｉｎｇｅｒ，ＮｅｗＹｏｒｋ，２００１）を作成した。最も区別可能な平均値を持つ信号は、区別可能な平均値を持つ信号は適切な個別バイオマーカーである可能性が比較的高いという同じ理由から、適切な分類器を作成できる可能性が最も高い。
【０２５４】
３つのｍ／ｚ識別子２４６、４３５、および２５のみで信号を使用する分割を持つ単純木では、学習集合の完全分類を行い、検定集合内の１つの癌および１つのコントロールの分類を誤る。ｍ／ｚ２４６の信号は、単一の最良の分類器であり、これらの信号単独で、学習集合内に３つの誤りのみがあり（１つの癌および２つのコントロールが分類を誤る）、検定集合内に６つの誤りがある（１つの癌および５つのコントロールが分類を誤る）学習集合を分類する。
【０２５５】
最良の分類木内のｍ／ｚ値の３つすべてが小さかったため（およびしたがって、試料自体にではなく、分析のため試料が埋め込まれたマトリクスに潜在的に関連する）、ある値以上のｍ／ｚ識別子のみが許されるという制約条件により追加分類木が構築された。４００よりも大きいｍ／ｚ識別子のみが許されている場合、識別子４３５、４１７、４１９、および４６３が使用される。学習集合は、完全に分類されるが、検定集合内では、２つのコントロールが、分類を誤る。これらの識別子はそれぞれ、５００未満である。５００よりも大きいｍ／ｚ値のみが許される場合、分類木は、ｍ／ｚ値６１８、６８１、３９９１、３９９２、４００４、４７４６、４８２０、および７９９５を使用して構築される。学習集合は、完全に分類され、検定集合内では４つの癌および４つのコントロールが、分類を誤る。そこで、このデータ集合内では、適切な分類実行は、低いｍ／ｚ識別子を使用すると達成しやすいように思われる。
【０２５６】
最良の信号識別子（２４６）として識別された信号は、完全分類を与える集合の一部としてデータを供給するＷｅｂサイトにはリスティングされておらず、したがって、新規発見となり得る。
【０２５７】
異なるｍ／ｚ識別子の重要度を評価するもう１つの方法は、ランダム森を構築することである（Ｂｒｅｉｍａｎ，Ｌ．（２００１），ＲａｎｄｏｍＦｏｒｅｓｔｓ，ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ４５（１），５−３２）。ランダム森は、分類木の集合体であり、それぞれの木で使用されるデータ（データのブートストラップサンプリングを通じて）、およびそれぞれの木を構築する際の各工程での分類に使用されるのにふさわしい変数の両方にランダム性が持ち込まれる。分類は、森の構成木の複数の票によるものである。十分に大きな森が生成される場合、それぞれの変数は、データの多数の異なる部分集合により何回も分類特徴としてみなされる。したがって、それぞれの変数の重要度を評価する、つまり、結果全体がそれぞれの個別変数の影響をどれだけ受けるかを評価することが可能である。ビン幅１および０．５を使用して、データ集合内の正確な識別子について変数の重要度がチェックされると、結果は概して一貫性がある。２４５に近いｍ／ｚ識別子を持つ変数のクラスタは、それぞれの場合において最も重要であり、その後に、４３５および４６５に近いｍ／ｚ識別子が続く。そのため、これらの変数の重要度の結果は、単一分類木を使用した分析と整合していた。
【０２５８】
他の実施形態は、請求項の範囲内にある。いくつかの実施形態が図に示され、説明されているが、本発明の精神および範囲から逸脱することなく、さまざまな修正を行うことができる。
【図面の簡単な説明】
【０２５９】
【図１Ａ】時間指標を伴う好ましい実施形態の工程を示す図である。
【図１Ｂ】アライメントのための他の方法とともに時間指標を伴う好ましい実施形態の工程を示す図である。
【図２】図１Ａまたは１Ｂで「差を見つける」に使用できる工程の実施例を示す図である。
【図３】図１Ａまたは１Ｂで「結果のグループ化」に使用できる工程の実施例を示す図である。
【図４】図１Ａまたは１Ｂで「偽陽性のフィルタ処理Ｉ」に使用できる工程の実施例を示す図である。例示されている工程は、ヒストグラムでの相対的時間的シフトのみによるものであるように見える「完全シフト」差を探すために採用することができる。完全シフトは、Ａ＞Ｂの後同じｍ／ｚでＢ＜Ａが時間的にすぐ続いて出現することと定義される。
【図５】図４に例示されている「偽陽性のフィルタ処理ＩＩ」の工程の実施例を示す図である。例示されている工程は、半シフト差を調べることにより偽陽性を探すために採用することができる。「半シフト」は、完全シフトの半分のみ（前の段落のように）が統計的に有意な差として検出される状況において発生する。実際、半シフトは、完全シフトよりも頻繁に見られた。
【図６】図１Ａに例示されている「出力および反復モジュール」に使用できる工程の実施例を示す図である。
【図７Ａ】図１Ａに例示されている「条件内でスペクトルのアライメント」モジュールに使用できる工程の実施例を示す図である。
【図７Ｂ】図１Ｂに例示されている「条件をまたがってスペクトルのアライメント」モジュールに使用できる工程の実施例を示す図である。
【図７Ｃ】図７Ｂに例示されている「ランドマークを見つける」モジュールに使用できる工程の実施例を示す図である。
【図７Ｄ】図７Ｂに例示されている「ランドマークをフィルタ処理する」モジュールに使用できる工程の実施例を示す図である。
【図８】偽陽性のフィルタ処理の代替え方法として使用できる工程の実施例を示す図である。
【図９】２つのスペクトル集合内の信号の相対強度を定量化するために使用できる工程の実施例を示す図である。
【図１０】異なる種類の信号差を例示する図である。一番上のパネル：確認された信号。左下：半シフト−半分が有意として検出されたシフト信号。右下：完全シフト−前半分と後半分の両方が検出されたシフト信号。
【図１１】時間およびｍ／ｚ値の部分集合に対する平均強度値の差を例示する図である。図１１は、暗色領域は条件Ａにおいて高く、明色領域は条件Ｂにおいて高い白黒表現である。これは、カラーを使用して表現することも可能であり、例えば、緑色は有意な差を示さず、青色と紫色の陰影は、条件Ｂにおいてより高い平均値を示し、黄色と赤色の陰影は、条件Ａにおいてより高い平均値を示す。
【図１２】ｐ値の比較結果を例示する図である。図１２は、暗いということは条件Ｂにおいて著しく高いことを示し、明るいことは条件Ａにおいて著しく高いことを示す白黒表現である。これは、カラーを使用して表現することも可能であり、例えば、オレンジ色は有意な差を示さず、より強い赤色は、条件Ｂにおいて著しく高いことを示し、黄色は、条件Ａにおいて著しく高いことを示す。
【図１３】差の大きさと有意性を一緒に例示する図である。図１３は、差の大きさが青色（小さな差）または赤色（大きな差）を持つカラー表現のモノクロ描画であり、有意性は、薄い色（有意性なし）または濃い色（有意性あり）の強度で表される。モノクロ表現では、大きさと有意性の次元は融合され、その結果、情報が失われる。
【図１４Ａ】２つの条件のうちのそれぞれで５つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図１４Ｂ】２つの条件のうちのそれぞれで５つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図１４Ｃ】２つの条件のうちのそれぞれで５つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図１４Ｄ】２つの条件のうちのそれぞれで５つの数からなる複数の集合についての統計的比較結果を例示する図である。
【図１５】癌標本と非癌標本との間の有意な差を示す信号と関連するｍ／ｚ識別子を示す図である。横軸：ｍ／ｚ（０から１９０００の範囲、２０００毎にグリッド線）。縦軸：負の対数尤度（各パネル内で０から１００の範囲、２０毎にグリッド線）、正方向の値は、より有意な差に対応している。９０よりも大きい負の対数尤度は、見やすくするため１００のところでプロットされている。暗い色の正方形は、癌標本の中でより高い信号に関連付けられたｍ／ｚ識別子を示し、明るい色の円は、非癌標本の中でより高い信号に関連付けられたｍ／ｚ識別子を示す。例えば、ｍ／ｚ４０００およびｍ／ｚ８０００の結果の対は、電荷ｚ＝１およびｚ＝２での同じペプチドまたはペプチドの単量体および二量体構成に対応することができる。

【特許請求の範囲】
【請求項１】
２つまたはそれ以上の試料集合間の１つまたは複数の検体のレベルの差を識別する質量分析法であって、
（ａ）前記２つまたはそれ以上の試料集合の個別試料のスペクトルを取得する工程であって、前記スペクトルは、ｍ／ｚ強度対を含み、ｍ／ｚ強度対は、ｍ／ｚ識別子および前記ｍ／ｚ識別子に関連付けられた信号を含む、、前記取得する工程と、
（ｂ）前記ｍ／ｚ強度対からの１つまたは複数のｍ／ｚ識別子のそれぞれの前記ｍ／ｚ識別子について、前記スペクトル内の対応する信号間の関係を判別する工程と、
（ｃ）試料集合内および試料集合間の両方の信号分布に基づく、前記信号が前記２つまたはそれ以上の試料集合間の異なるレベルを持つ検体から生じる可能性の尺度である順位または値をそれぞれの前記関係に割り当てる工程とを含む質量分析法。
【請求項２】
前記関係は、少なくとも１００個の異なるｍ／ｚ識別子について決定される請求項１に記載の方法。
【請求項３】
前記第２の試料集合は、標準である請求項１に記載の方法。
【請求項４】
前記異なるｍ／ｚ識別子のそれぞれは、前記工程（ｂ）に先だって決定論的に指定される請求項１に記載の方法。
【請求項５】
前記ｍ／ｚ識別子は、前記スペクトルからの実質的にすべてのｍ／ｚ識別子を含む請求項２に記載の方法。
【請求項６】
前記工程（ｃ）は、分布のパラメトリック表現に依存する請求項１に記載の方法。
【請求項７】
前記工程（ｃ）は、分布のノンパラメトリック表現に依存する請求項１に記載の方法。
【請求項８】
前記工程（ｃ）は、前記分布のバラツキに照らして前記分布の中心傾向の尺度間の差の統計的有意性を判定することを含む請求項６に記載の方法。
【請求項９】
前記中心傾向は、平均値である請求項８に記載の方法。
【請求項１０】
統計的有意性は、ｔ検定を使用して計算される請求項９に記載の方法。
【請求項１１】
前記ｍ／ｚ強度対は、さらに、前記信号および前記識別子に関連付けられている１つまたは複数の指標値を含み、前記関係は、前記１つまたは複数の指標値を考慮して決定される請求項８に記載の方法。
【請求項１２】
前記ｍ／ｚ強度対は、（複数の）指標変数にそってアライメントされる請求項１１に記載の方法。
【請求項１３】
前記方法は、さらに、前記工程（ｂ）に先立つデータの正規化を含む請求項１２に記載の方法。
【請求項１４】
スペクトルの集合内の信号は、１つまたは複数のランドマークのアライメントを行うことによりアライメントされ、前記ランドマークのそれぞれは、特定のｍ／ｚ識別子のところ、および指標変数の値の特定の集合のところのピークである請求項１３に記載の方法。
【請求項１５】
前記複数のランドマークは、同じｍ／ｚ識別子のところ、および指標変数のほぼ同じ集合のところでスペクトル集合内のすべてのスペクトル内に出現するピークを識別し、状況に応じて、それらの強度を指標変数の関数として平滑化し、最大の平滑化された強度値が出現する指標変数値の集合をランドマークとして使用することからなる方法により、データ内に見つけられる請求項１４に記載の方法。
【請求項１６】
前記スペクトルは、前記ランドマークのそれぞれに関連付けられている指標変数値の集合を何らかの基準スペクトル内の前記ランドマークに関連付けられている指標変数値の集合にシフトすることによりアライメントされ、中間の指標値は、補間により割り当てられる請求項１５に記載の方法。
【請求項１７】
ｍ／ｚ値の集合での有意な差は、ｊおよびｋをｊがｋ以下であるユーザ指定整数であるとして、ｋ個の連続するｍ／ｚ識別子のうち少なくともｊ個が指標変数の特定の共通集合に対し有意な差を持つ場合に特徴としてグループにまとめられる請求項１に記載の方法。
【請求項１８】
前記十分な広さは、グループ化される集合内の最大のｍ／ｚの指定された部分以上の範囲であるとして前記ｍ／ｚのスパンにより定義される請求項１７に記載の方法。
【請求項１９】
前記有意性は、ｍおよびｎを、ｍがｎ以下であるユーザ指定整数であるとして、ｎ個の連続する指標変数値のうち少なくともｍ個にわたる有意性を必要とする請求項１３に記載の方法。
【請求項２０】
スペクトルの異なる集合内の信号は、特に試料内にスパイクされる化学物質からの予想される信号をアライメントすることによりアライメントされる請求項１４に記載の方法。
【請求項２１】
検体存在量における前記関係は、さらに、有意な変化を含む領域における条件毎に積分された信号を最初に計算し、次に、積分された信号を比較し、その結果得られた関係を相対的検体存在量を示すものとして使用することにより定量化される請求項１に記載の方法。
【請求項２２】
識別された差は、単一検体の異なる荷電状態および／または同位体から推定上生じるものを示すようにグループ化される請求項８に記載の方法。
【請求項２３】
さらに、１回または複数回の反復を実行して、偽陽性を減らす請求項８に記載の方法。
【請求項２４】
２つの条件に対する強度プロファイル間の距離の何らかの尺度を最小にする指標変数シフトを識別された差毎に見つけ、その差が前記指標変数シフトの後もまだ有意であるか判定し、その後、前記指標変数シフトの後有意でない差を排除することにより偽陽性に対する前記リストをフィルタ処理することを含む請求項２３に記載の方法。
【請求項２５】
前記正規化は、スペクトル毎に、また指標変数の組み合わせ毎に、信号の指定された部分集合の中心傾向の尺度を見つけ、すべての強度値をその中心傾向の尺度により除算することを含む請求項１３に記載の方法。
【請求項２６】
少なくとも３つの異なるスペクトルは、試料集合毎に得られる請求項１から２５のいずれか一項に記載の方法。
【請求項２７】
少なくとも５つの異なるスペクトルは、各試料集合から得られる請求項２６に記載の方法。
【請求項２８】
前記５つの異なるスペクトルはそれぞれ、異なる試料からのものである請求項２７に記載の方法。
【請求項２９】
前記２つまたはそれ以上の試料集合は、生物試料である請求項２６に記載の方法。
【請求項３０】
複数の検体のうちの前記１つは、ペプチドまたは代謝副産物である請求項２９に記載の方法。
【請求項３１】
前記測定結果は、表面相分離を質量分析法と結合することにより得られる請求項２９に記載の方法。
【請求項３２】
前記試料集合は、異なる複数回分の投与される薬剤、疾病または疾患の存在、異なる種類の治療、異なる遺伝的または後成的属性、または異なるレベルの特定の疾病または疾患の複数のうちの１つを特徴とする請求項２９に記載の方法。
【請求項３３】
前記測定結果は、１次元または多次元液体クロマトグラフィを質量分析法と結合することにより得られる請求項２９に記載の方法。
【請求項３４】
請求項１に記載の工程（ｂ）および（ｃ）を実行するためのコンピュータ可読媒体上に命令を含むコンピュータプログラム。

【図１Ａ】

【図１Ｂ】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７Ａ】

【図７Ｂ】

【図７Ｃ】

【図７Ｄ】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４Ａ】

【図１４Ｂ】

【図１４Ｃ】

【図１４Ｄ】

【図１５】

【公表番号】特表２００６−５２２３４０（Ｐ２００６−５２２３４０Ａ）
【公表日】平成１８年９月２８日（２００６．９．２８）
【国際特許分類】

物理学 (1,541,580)
- 測定；試験 (294,940)
  - 材料の化学的または物理的性質の決定による材料の調査または分析 (128,275)
    - 電気的，電気化学的，または磁気的手段の利用による材料の調査また... (17,622)
      - ガスのイオン化の調査によるもの；放電の調査によるもの，例．陰極... (3,117)

【出願番号】特願２００６−５０９６０５（Ｐ２００６−５０９６０５）
【出願日】平成１６年３月３１日（２００４．３．３１）
【国際出願番号】ＰＣＴ／ＵＳ２００４／０１０１０８
【国際公開番号】ＷＯ２００４／０８９９７２
【国際公開日】平成１６年１０月２１日（２００４．１０．２１）
【出願人】（３９００２３５２６）メルク　エンド　カムパニー　インコーポレーテッド (924)
【氏名又は名称原語表記】ＭＥＲＣＫ　＆　ＣＯＭＰＡＮＹ　ＩＮＣＯＰＯＲＡＴＥＤ
【Ｆターム（参考）】

その他の電気的手段による材料の調査、分析 (22,023)

[ Back to top ]

質量分析データの分析法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

質量分析データの分析法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク