説明

質量分析計

液体クロマトグラフィー質量スペクトルデータが質量電荷比および保持時間に基づいて確率的にクラスタリングされる、質量分析計および質量分析方法が開示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、質量分析方法および質量分析計に関する。好ましい実施形態は、液体クロマトグラフィー質量分析(「LC−MS」)によって得られたペプチド消化物に関連するデータのクラスタリング、関連付けまたはグループ化に関する。
【背景技術】
【0002】
データは、質量または質量電荷比およびクロマトグラフィー保持時間に基づいてクラスタリングされることが好ましい。特に、別個の取得または実験作業に関連する質量スペクトルデータが関連付けされ、かつ分析されることが好ましい。さらに、2つ以上の異なるサンプル中のペプチドまたはタンパク質等の被分析試料の相対濃度、強度または発現量における変化または差は、検出または認識することができる。2つの異なるサンプル中においてさまざまに発現される被分析試料は、その後、引き続き同定することができる。
【0003】
k−平均クラスタリングとして知られる非階層クラスタリング方法が公知である。このクラスタリング方法は、理論上は、別個の取得または実験において得られた、液体クロマトグラフィー質量分析実験に関連するデータをどのようにして関連付けるかまたはクラスタリングするかという問題に適用しうる。
【0004】
公知のk−平均クラスタリング手法は、n個のデータポイントをk個のクラスタに分類することを含む。各ポイントまたはデータは、d個の変数の集合に対する何らかの距離尺度(通常はユークリッド距離)により、その集合に対する平均値が自らの重心に最も近いクラスタに割り当てられる。このような割り当ては、ポイントを再割り当てすること、および重心を(あるクラスタにおけるすべてのポイントにわたって)再計算することによってさらなる変化が起こらなくなるまで反復して計算されうる。
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、k−平均クラスタリングは、クラスタリングを行なうにはクラスタの数kをまず特定する必要があるという欠点を有する。また、k−平均クラスタリングは、クラスタ中心のすべての考えられる位置にわたって積分を行なうのではなく、クラスタ中心に対して特定の位置を見出すに過ぎない。2つのデータポイント間の関連付けの確率を得るために特別な距離基準を適切に正規化することもできない。
【課題を解決するための手段】
【0006】
したがって、当業者は、LC−MSデータのクラスタリングにk−平均クラスタリングを用いることに特有の様々な制限が存在することを理解するであろう。好ましい実施形態は、LC−MSデータをクラスタリングするための確率的またはベイズ的手法を含む、LC−MSデータのクラスタリングへの全く異なる手法に関する。
【発明を実施するための最良の形態】
【0007】
背景として、ベイズの確率定理は命題の確率を扱う。確率は、ある命題がどれくらい真であるかを表す。例えば、確率1は、絶対に確実であることを意味する。確率0は、絶対に確実であるが、命題が偽であるとことが絶対に確実であることを意味する。確率0.5は、命題が真または偽であるかについての不確実性が最大であることを意味する。
【0008】
新たな情報を得た際に確率を変更することは、ベイズの推論の重要な側面である。いわゆるベイズ規則は、合理的なエージェントが、新たな情報(証拠)を得た際に、その信念をどのように変えるかを定義する。
【0009】
ベイズの確率または確実性は、常に条件付きである。このことは、確率が、何らかの背景仮定に照らして推測されるということを意味する。条件付き確率は、P(事象|仮定)という表記を用いて記載されうる。確率は、「仮定」が真であると考えられる場合に「事象」が真であることがどれくらい確実であるかを示す、0と1との間の数である。条件付き確率は、Mを依存モデルとして、Dをデータとして、P(D|M)またはP(M|D)の形で記載されることが多い。したがって、P(D|M)は、モデルMが真のモデルであると考えられる場合にデータDを得る確率を意味する。同様に、P(M|D)は、データDが得られた場合にモデルMが真のモデルである確率を意味する。確率が単にP(M)またはP(D)として表わされる場合もあるが、すべての確率は実際には条件付きであるため、これらは不正確なベイズ表記である。しかし、すべての項が同じ背景仮定を有する場合には、それらを繰り返す必要がない場合もある。理論上は、確率は、Uを背景仮定の集合として、P(D|M,U)およびP(M|D,U)およびP(M|U)およびP(D|U)の形で記載されるのがよい。
【0010】
エキスパートシステムは、親の事象のそれぞれに重み付けすることにより相互に依する事象の確率を計算することがよくある。ベイジアン信念ネットワークは、事象の互いへの影響を測定する数学的に正しい、したがって、より正確な方法を提供すると考えられる。これに関与する数学は、双方向への計算を可能にする。したがって、例えば、どの事象が別の事象の最も可能性の高い原因であるのかを見出すことが可能である。
【0011】
独立した事象に対する以下の確率の生成規則が周知である。
【0012】
【数5】

【0013】
ここで、p(AB)は、AおよびBが起こる確率である。
【0014】
これは、依存した事象に関する以下の生成規則の特別な場合であり、ここで、p(A|B)は、Bが既に起こった場合のAの確率を意味する。
【0015】
【数6】

【0016】
したがって、
【0017】
【数7】

【0018】
であるので、
【0019】
【数8】

【0020】
となる。
【0021】
上記の式は、ベイズの定理を単純化したものである。この式により、周知の他の確率に関して計算された、Bが既に起こった場合にAが起こる確率が与えられる。
【0022】
ベイズの定理は、以下の式のように要約される。
【0023】
【数9】

【0024】
0は、アブイニシオ(非経験的)に得られるか、あるいは何らかの事前の観測の集合から導き出された仮説であるが、新たな観測または証拠Eの前の仮説とすることができる。項P(H0)は、H0の事前確率と呼ばれる。項P(E|H0)は、仮説H0が真である場合に観測Eが見られる条件付き確率(Eが与えられたH0の関数)であり、尤度関数と呼ばれる。項P(E)は、Eの周辺確率と呼ばれ、これは正規化定数であり、すべての互いに排反な仮説の総和として計算されうる。
【0025】
【数10】

【0026】
項P(H0|E)は、Eが与えられたH0の事後確率と呼ばれる。スケーリングファクタP(E|H0)/P(E)により、観測が仮説への信頼に与えるインパクトの尺度が得られる。考えられている特定の仮説が真でない場合に観測がなされる可能性が低いならば、このスケーリングファクタは大きくなる。このスケーリングファクタを仮説が正しいとする事前確率と乗算すると、観測が与えられた場合に仮説が正しいとする事後確率の尺度が得られる。
【0027】
推定作業を行なうための鍵は、仮説および考えられる選択肢に与えられた事前確率の割り当て、および、異なる仮説の下での観測の条件付き確率の計算である。
【0028】
LC−MSデータの扱いにk−クラスタリング手法を用いる試みには一定の制限があるということを鑑みると、LC−MSデータを正確にクラスタリング、関連付けまたはグループ化する改良された方法を提供することが望まれる。
【0029】
本発明の一局面によると、第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップであって、前記第1の物理化学的性質は、質量または質量電荷比を含み、前記第2の物理化学的性質は、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップと、
第2のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップであって、前記第1の物理化学的性質は、質量または質量電荷比を含み、前記第2の物理化学的性質は、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップと、
前記第1のサンプル中の成分、分子または被分析試料に関連するデータを、前記第2のサンプル中の成分、分子または被分析試料に関連するデータと確率的に関連付ける、クラスタリングするまたはグループ化するステップとを含む質量分析方法が提供される。
【0030】
上記好ましい実施形態によると、上記方法は、1つ以上のさらなるサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップであって、前記第1の物理化学的性質は、質量または質量電荷比を含み、前記第2の物理化学的性質は、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップをさらに含む。
【0031】
前記第1の物理化学的性質の起こりそうな誤差および/または前記第2の物理化学的性質の起こりそうな誤差が決定されることが好ましい。
【0032】
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料は、液体クロマトグラフィーによって分離されることが好ましい。一実施形態によると、前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料は、(i)高速液体クロマトグラフィー(「HPLC」)、(ii)陰イオン交換、(iii)陰イオン交換クロマトグラフィー、(iv)陽イオン交換、(v)陽イオン交換クロマトグラフィー、(vi)イオン対逆相クロマトグラフィー、(vii)クロマトグラフィー、(vii)一次元電気泳動法、(ix)多次元電気泳動法、(x)サイズ排除、(xi)アフィニティー、(xii)逆相クロマトグラフィー、(xiii)キャピラリー電気泳動クロマトグラフィー(「CEC」)、(xiv)電気泳動法、(xv)イオン移動度分離法、(xvi)電界非対称性イオン移動度分離法(Field Asymmetric Ion Mobility Separation)(「FAIMS」)、または(xvi)キャピラリー電気泳動法によってその他の成分、分子または被分析試料から分離される。
【0033】
前記第1のサンプルに関連するデータおよび/または前記第2のサンプルに関連するデータおよび/またはさらなるサンプルに関連するデータから単一のデータセットが形成されることが好ましい。前記単一のデータセット中のデータにサンプル番号が割り当てられることが好ましい。
【0034】
前記第1のサンプル中の成分、分子または被分析試料に関連するデータを、前記第2のサンプル中の成分、分子または被分析試料に関連するデータと確率的に関連付ける、クラスタリングする、またはグループ化するステップは、試行錯誤法を使用または採用し、データの最も確からしい関連付け、クラスタリングまたはグループ化を決定するステップをさらに含むことが好ましい。
【0035】
前記第1のサンプル中の成分、分子もしくは被分析試料に関連するデータポイントは、前記第2のサンプル中の成分、分子もしくは被分析試料に関連するデータポイントおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料に関連するデータポイントと比較されることが好ましい。
【0036】
各データポイントは、前記第1の物理化学的性質の値および/または前記第2の物理化学的性質の値を含むことが好ましい。前記データポイントは、xダルトンの幅を有する質量または質量電荷比ビンに分割または分離されることが好ましく、xは、(i)1.0000〜1.0001、(ii)1.0001〜1.0002、(iii)1.0002〜1.0003、(iv)1.0003〜1.0004、(v)1.0004〜1.0005、(vi)1.0005〜1.0006、(vii)1.0006〜1.0007、(viii)1.0007〜1.0008、(ix)1.0008〜1.0009、(x)1.0009〜1.0010、(xi)<1.0000、(xii)>1.0010、および(xiii)1.0005からなる群より選択されることが好ましい。
【0037】
前記データは最初に1つ以上の第1のデータポイントクラスタにクラスタリング、グループ化、または関連付けされることが好ましい。前記データポイントを1つ以上の第1のデータポイントクラスタにクラスタリングする前記ステップは、前記データポイントを確率的にクラスタリングするステップを含むことが好ましいが、やや好ましくは、データを最初にクラスタリングするのに他の手法を用いてもよい。
【0038】
上記好ましい方法は、データポイントの近似性をペアワイズ(on a pairwise basis)で評価するステップをさらに含むことが好ましい。データポイントの近似性をペアワイズで評価する前記ステップは、決定された質量誤差または質量電荷比誤差が与えられた場合の質量または質量電荷比ビン中のデータポイントの近似性をペアワイズで評価するステップを含むことが好ましい。
【0039】
上記好ましい方法は、2つのデータポイントが同一の成分、分子または被分析試料に関連する尤度を確率的に計算するステップをさらに含む。上記方法は、2つのデータポイントが同一の成分、分子または被分析試料に関連するペアワイズ確率pijを決定するステップをさらに含むことが好ましい。
【0040】
好ましい実施形態によると、上記方法は、前記ペアワイズ確率pijをマトリックス状に配列するステップをさらに含む。前記マトリックスに1つ以上の試みの真理値表が割り当てられることが好ましい。上記方法は、前記マトリックスが推移特性(transivity property)に従っているかどうかを決定することにより、前記マトリックスがセルフコンシステントであるかどうかを調べるステップをさらに含むことが好ましい。前記推移特性は以下の式を含むことが好ましい。
【0041】
【数11】

【0042】
前記マトリックスが前記推移特性に従っていない場合、前記方法は、前記試みの真理値表を棄却するステップをさらに含むことが好ましい。前記マトリックスが前記推移特性に従っている場合、前記方法は、前記試みの真理値表に確率を割り当てるステップをさらに含むことが好ましい。
【0043】
一実施形態によると、上記方法は、前記マトリックスにさらなる試みの真理値表を割り当てるステップをさらに含む。上記と同様に、上記方法は、前記マトリックスが推移特性に従っているかどうかを決定することにより、前記マトリックスがセルフコンシステントであるかどうかを調べることが好ましく、前記推移特性は以下の式を含むことが好ましい。
【0044】
【数12】

【0045】
前記マトリックスが前記推移特性に従っていない場合、前記方法は、前記さらなる試みの真理値表を棄却するステップをさらに含む。前記マトリックスが前記推移特性に従っている場合、前記方法は、前記さらなる試みの真理値表に確率を割り当てるステップを含む。
【0046】
上記好ましい実施形態の特に好ましい一局面は、最も確からしい真理値表を決定するステップをさらに含む。
【0047】
やや好ましい一実施形態によると、前記データは1つ以上の第1のデータポイントクラスタに最初にクラスタリング、グループ化、または関連付けされてもよく、このステップは、k−平均クラスタリング、またはそれ自体が周知である他の方法を使用するステップを含む。
【0048】
好ましくは確率的手法、やや好ましくは別の手法を用いて、データがひとたび最初にクラスタリングされると、その後、データのクラスタリングは、改善が可能であるかどうかを調べるために任意にテストされる。この任意のテストの最後で、データのクラスタリングは実質的に変更されないかもしれない。実際、一実施形態によると、データは、開示した確率的クラスタリング方法によって最初に最適にクラスタリングすることができ、さらなるステップは、データのクラスタリングにおいて最初の改善をもたらさないと考えられる。
【0049】
上記好ましい実施形態によると、上記方法は、前記データポイントを1つ以上の第2のデータポイントクラスタに確率的にクラスタリングするステップをさらに含むことが好ましい。上記方法は、前記1つ以上の第2のデータポイントクラスタの全体的な確率または等価性(equivalently)を最大化するステップをさらに含みうる。これは、データポイントを新たなデータポイントクラスタ内に移動させるかまたは入れるステップをさらに含みうる。各データポイントは、最も近接するより高いまたはより低い前記第1の物理化学的性質および/または前記第2の物理化学的性質の値を有するデータポイントと同一のクラスタ内に移動させられるかまたは入れられることが好ましい。
【0050】
一実施形態によると、各データポイントは、隣接するデータポイントと同一のクラスタ内に最初にあった場合、自身のクラスタ内に移動させられるかまたは入れられることができる。上記方法は、1つのまたは各データポイントが最初に属すると考えられるクラスタを、さらなる改善が実質的に見出されなくなるまで反復的に変更するステップをさらに含むことが好ましい。1つのまたは各データポイントが最初に属すると考えられるクラスタを反復的に変更する上記方法は、予め割り当てられた反復限度に達するまでを継続しうる。
【0051】
上記好ましい実施形態の特に好ましい一局面によると、上記方法は、前記1つ以上の第2の(やや好ましくは、第1の)データポイントクラスタを問い合わせて、前記第1のサンプル、前記第2のサンプルおよび任意のさらなるサンプルからの分子、被分析試料またはイオンを表す唯一のデータポイントを好ましくは含む1つ以上の第3のデータポイントクラスタを決定するステップをさらに含む。
【0052】
しかし、やや好ましい実施形態によると、この厳しい要件は、特に、データが大量にある場合には取り下げてもよいと考えられる。したがって、やや好ましい一実施形態によると、上記方法は、前記1つ以上の第2の(やや好ましくは、第1の)データポイントクラスタを問い合わせて、前記第1のサンプル、前記第2のサンプルおよび任意のさらなるサンプルからの分子、被分析試料またはイオンを表す1つのデータポイントを通常(しかし、かならずしもそれだけに限らず)含む1つ以上の第3のデータポイントクラスタを決定するステップをさらに含みうる。
【0053】
前記第3のデータポイントクラスタに関連する前記データポイントは、高レベルの確実性を有すると仮定されるかもしくは割り当てられているか、または、真もしくは1の値を有すると仮定されるかもしくは割り当てられていることが好ましい。その後、データポイントは、内部基準点として機能する。
【0054】
前記1つ以上の第3のデータポイントクラスタの少なくとも一部またはそれぞれにおける分子、被分析試料またはイオンの前記第2の物理化学的性質に関連するデータを平均して、前記第2の物理化学的性質に対する平均値を生成することが好ましい。前記第3のデータポイントクラスタを生成するためにクラスタリングされた前記1つ以上のデータポイントのデータは、前記平均値が前記データポイントに対する前記第2の物理化学的性質の値になるように調整されることが好ましい。
【0055】
ひとたび内部基準点に第2の物理化学的性質(例えば、保持時間)の平均値が割当てられると、これら内部基準点に関して、残りのデータ、より好ましくはデータセット全体がリアライメントまたは較正される。
【0056】
上記好ましい実施形態によると、上記方法は、観測された第2の物理化学的性質に関連するデータを、前記第2の物理化学的性質に対する前記平均値に相関させるかまたは修正するための較正関数を決定するステップをさらに含むことが好ましい。前記較正関数は、三次スプライン関数、多項式関数または確率的な較正関数を含みうる。
【0057】
上記方法は、各サンプルからの、または全サンプルからのデータポイントを調整し、すべてのデータセットに対する第2の物理化学的性質をアライメントする、再較正する、修正する、または再割り当てするステップをさらに含むことが好ましい。ひとたびデータがリアライメントまたは再較正されると、上記方法は、前記第2の物理化学的性質(例えば、保持時間)に対する誤差を決定するかまたは割り当てるステップをさらに含むことが好ましい。
【0058】
上記好ましい方法は、前記第1のサンプル中の成分、分子または被分析試料に関連する調整済みのデータポイントを、前記第2のサンプル中の成分、分子もしくは被分析試料に関連する調整済みのデータポイントおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料に関連する調整済みのデータポイントと比較するステップをさらに含むことが好ましい。
【0059】
各調整済みのデータポイントは、前記第1の物理化学的性質の未調整の値および/または前記第2の物理化学的性質の調整済みの値を含むことが好ましい。
【0060】
前記調整済みのデータポイントは、xダルトンの幅を有する質量または質量電荷比ビンに分割または分離されることが好ましく、xは、(i)1.0000〜1.0001、(ii)1.0001〜1.0002、(iii)1.0002〜1.0003、(iv)1.0003〜1.0004、(v)1.0004〜1.0005、(vi)1.0005〜1.0006、(vii)1.0006〜1.0007、(viii)1.0007〜1.0008、(ix)1.0008〜1.0009、(x)1.0009〜1.0010、(xi)<1.0000、(xii)>1.0010、および(xiii)1.0005からなる群より選択されることが好ましい。
【0061】
上記好ましい実施形態によると、上記方法は、前記調整済みのデータポイントを1つ以上の第4のデータポイントクラスタにクラスタリングするステップをさらに含むことが好ましい。
【0062】
前記調整済みのデータポイントを1つ以上の第4のデータポイントクラスタにクラスタリングする前記ステップは、前記データポイントを上記と同様に確率的にクラスタリングするステップを含むことが好ましい。したがって、上記方法は、調整済みのデータポイントの近似性をペアワイズで評価するステップを含むことが好ましく、調整済みのデータポイントの近似性をペアワイズで評価する前記ステップは、決定された質量誤差または質量電荷比誤差が与えられた場合の質量または質量電荷比ビン中の調整済みのデータポイントの近似性をペアワイズで評価するステップを含む。
【0063】
上記方法は、2つの調整済みのデータポイントが同一の成分、分子または被分析試料に関連する尤度を確率的に計算するステップをさらに含むことが好ましい。上記方法は、2つの調整済みのデータポイントが同一の成分、分子または被分析試料に関連するペアワイズ確率を決定するステップをさらに含むことが好ましい。
【0064】
上記好ましい実施形態によると、前記ペアワイズ確率pijは第2のマトリックス状に配列されることが好ましい。前記第2のマトリックスに1つ以上の第2の真理値表が割り当てられることが好ましい。前記第2のマトリックスが推移特性に従っているかどうかを決定することにより、前記第2のマトリックスがセルフコンシステントであるかどうかを調べることが好ましい。前記推移特性は以下の式を含むことが好ましい。
【0065】
【数13】

【0066】
前記第2のマトリックスが前記推移特性に従っていない場合、前記方法は、前記第2の試みの真理値表を棄却するステップをさらに含むことが好ましい。前記第2のマトリックスが前記推移特性に従っている場合、前記方法は、前記第2の試みの真理値表に確率を割り当てるステップをさらに含むことが好ましい。
【0067】
上記好ましい実施形態によると、上記方法は、前記第2のマトリックスにさらなる第2の試みの真理値表を割り当てるステップをさらに含むことが好ましい。上記方法は、前記第2のマトリックスが推移特性に従っているかどうかを決定することにより、前記第2のマトリックスがセルフコンシステントであるかどうかを調べるステップをさらに含むことが好ましい。前記推移特性は以下の式を含むことが好ましい。
【0068】
【数14】

【0069】
前記第2のマトリックスが前記推移特性に従っていない場合、前記方法は、前記さらなる第2の試みの真理値表を棄却するステップをさらに含むことが好ましい。前記第2のマトリックスが前記推移特性に従っている場合、前記方法は、前記第2のさらなる試みの真理値表に確率を割当てるステップをさらに含むことが好ましい。
【0070】
一実施形態によると、上記方法は、最も確からしい第2の真理値表を決定するステップをさらに含む。
【0071】
やや好ましい一実施形態によると、前記データを1つ以上の第4のデータポイントクラスタにクラスタリングする前記ステップは、k−平均クラスタリングを用いるステップを含む。
【0072】
上記好ましい実施形態は、前記調整済みのデータポイントを1つ以上の第5のデータポイントクラスタに確率的にクラスタリングするステップをさらに含むことが好ましい。このステップは任意であって、必須ではない。
【0073】
上記好ましい実施形態は、1つ以上の第5のデータポイントクラスタの全体的な確率または等価性を最大化するステップをさらに含むことが好ましい。これは、データポイントを新たなデータポイントクラスタ内に移動させるかまたは入れるステップを含むことが好ましい。各データポイントは、最も近接するより高いまたはより低い前記第1の物理化学的性質および/または前記第2の物理化学的性質の値を有するデータポイントと同一のクラスタ内に移動させられるかまたは入れられることが好ましい。各データポイントは、隣接するデータポイントと同一のクラスタ内に最初にあった場合、自身のクラスタ内に移動させられるかまたは入れられることが好ましい。上記方法は、1つのまたは各データポイントが最初に属すると考えられるクラスタを、さらなる改善が実質的に見出されなくなるまで反復的に変更するステップをさらに含むことが好ましい。
【0074】
一実施形態によると、上記方法は、1つのまたは各データポイントが最初に属すると考えられるクラスタを、予め割り当てられた反復限度に達するまで反復的に変更するステップをさらに含むことが好ましい。
【0075】
一実施形態によると、上記方法は、前記第1のサンプル中の第1の成分、分子もしくは被分析試料および/または前記第2のサンプル中の第1の成分、分子もしくは被分析試料および/またはさらなるサンプル中の第1の成分、分子もしくは被分析試料の強度を決定するステップをさらに含む。
【0076】
前記第1のサンプル中の前記第1の成分、分子もしくは被分析試料の強度は、前記第2のサンプルおよび/またはさらなるサンプル中の対応する第1の成分、分子もしくは被分析試料と比較されることが好ましく、前記第1の成分、分子もしくは被分析試料が、データの同一の関連付け、クラスタリングまたはグループ化に属する。前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルは、複数の異なるバイオポリマー、タンパク質、ペプチド、ポリペプチド、オリゴヌクレオチド、オリゴヌクレオシド、アミノ酸、炭水化物、糖、脂質、脂肪酸、ビタミン、ホルモン、DNAの部分もしくは断片、cDNAの部分もしくは断片、RNAの部分もしくは断片、mRNAの部分もしくは断片、tRNAの部分もしくは断片、ポリクローナル抗体、モノクローナル抗体、リボヌクレアーゼ、酵素、代謝産物、多糖類、リン酸化ペプチド、リン酸化タンパク質、糖ペプチド、糖タンパク質またはステロイドを含みうる。
【0077】
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルは、異なるアイデンティティを有する、少なくとも2、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、または5000の成分、分子または被分析試料を含むのが好ましい。
【0078】
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルは、モル濃度の等しくない異種からなる複合混合物を含みうる。
【0079】
前記第1のサンプル中の前記成分、分子もしくは被分析試料は、前記第2のサンプルおよび/またはさらなるサンプル中の前記成分、分子もしくは被分析試料と実質的に同一であることが好ましい。
【0080】
前記成分、分子または被分析試料は、前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルに対して内因性または外因性であることが好ましい。
【0081】
一実施形態によると、(i)前記第1のサンプルは罹患生体からとられ、前記第2のサンプルは非罹患生体からとられる、(ii)前記第1のサンプルは処置生体からとられ、前記第2のサンプルは非処置生体からとられる、または(iii)前記第1のサンプルは変異生体からとられ、前記第2のサンプルは野生型生体からとられる、のいずれかである。
【0082】
前記方法は、前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプル中の前記成分、分子もしくは被分析試料のうち1つ以上を同定するステップをさらに含むことが好ましい。
【0083】
一実施形態によると、前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料および/または前記第2のサンプル中の1つ以上の成分、分子もしくは被分析試料および/またはさらなるサンプル中の1つ以上の成分、分子もしくは被分析試料は、前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料の強度と前記第2のサンプルおよび/またはさらなるサンプル中の1つ以上の成分、分子もしくは被分析試料の強度との違いが所定量より大きい場合にのみ同定される。
【0084】
一実施形態によると、前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料および/または前記第2のサンプル中の1つ以上の成分、分子もしくは被分析試料および/またはさらなるサンプル中の1つ以上の成分、分子もしくは被分析試料は、前記第1のサンプル中の複数の異なる成分、分子もしくは被分析試料の平均強度と前記第2のサンプルおよび/またはさらなるサンプル中の複数の異なる成分、分子もしくは被分析試料の平均強度との違いが所定量より大きい場合にのみ同定される。
【0085】
前記所定量は、(i)1%、(ii)2%、(iii)5%、(iv)10%、(v)20%、(vi)50%、(vii)100%、(viii)150%、(ix)200%、(x)250%、(xi)300%、(xii)350%、(xiii)400%、(xiv)450%、(xv)500%、(xvi)1000%、(xvii)5000%、および(xviii)10000%からなる群より選択されることが好ましい。
【0086】
本発明の一局面によると、第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するように構成された手段であって、前記第1の物理化学的性質は質量または質量電荷比を含み、前記第2の物理化学的性質は溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含む手段と、
第2の異なるサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するように構成された手段であって、前記第1の物理化学的性質は質量または質量電荷比を含み、前記第2の物理化学的性質は溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含む手段と、
前記第1のサンプル中の成分、分子または被分析試料を、前記第2のサンプル中の成分、分子または被分析試料と確率的に関連付ける、クラスタリングするまたはグループ化するように構成された手段とを備える質量分析計が提供される。
【0087】
上記質量分析計は、液体クロマトグラフを備えることが好ましい。一実施形態によると、上記質量分析計は、1つ以上の質量フィルタおよび/または1つ以上の質量分析器をさらに備える。前記1つ以上の質量フィルタおよび前記1つ以上の質量分析器は、(i)直交加速飛行時間質量分析器、(ii)軸方向加速飛行時間質量分析器、(iii)ポール(Paul)三次元四重極イオントラップ質量分析器、(iv)二次元またはリニア四重極イオントラップ質量分析器、(v)フーリエ変換イオンサイクロトロン共鳴質量分析器、(vi)扇形磁場質量分析器、(vii)四重極質量分析器、および(viii)ペニングトラップ質量分析器からなる群より選択される。
【0088】
上記質量分析計は、イオン源をさらに備えることが好ましい。前記イオン源はパルス状イオン源または連続イオン源を備えることが好ましい。前記イオン源は、(i)エレクトロスプレーイオン化(「ESI」)イオン源、(ii)大気圧光イオン化(「APPI」)イオン源、(iii)大気圧化学イオン化(「APCI」)イオン源、(iv)マトリックス支援レーザー脱離イオン化(「MALDI」)イオン源、(v)レーザー脱離イオン化(「LDI」)イオン源、(vi)大気圧イオン化(「API」)イオン源、(vii)シリコン上脱離イオン化(「DIOS」)イオン源、(viii)電子衝撃(「EI」)イオン源、(ix)化学イオン化(「CI」)イオン源、(x)電界イオン化(「FI」)イオン源、(xi)電界脱離(「FD」)イオン源、(xii)誘導結合プラズマ(「ICP」)イオン源、(xiii)高速原子衝撃(「FAB」)イオン源、(xiv)液体二次イオン質量分析(「LSIMS」)イオン源、(xv)脱離エレクトロスプレーイオン化(「DESI」)イオン源、および(xvi)ニッケル63放射性イオン源(Nickel-63 radioactive ion source)からなる群より選択されることが好ましい。
【0089】
本発明の一局面によると、第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップと、
第2のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップと、
前記第1のサンプル中の成分、分子または被分析試料を、前記第2のサンプル中の成分、分子または被分析試料と確率的に関連付ける、クラスタリングするまたはグループ化するステップとを含む質量分析方法が提供される。
【0090】
前記第1の物理化学的性質は(i)質量または質量電荷比、(ii)アイソトピックもしくは脱電荷状態(decharged)質量または質量電荷比、または(iii)モノアイソトピックもしくは脱同位体化(deisotoped)質量または質量電荷比を含むことが好ましい。
【0091】
前記第2の物理化学的性質はクロマトグラフィー保持時間を含むことが好ましい。
【0092】
前記第2の物理化学的性質は、(i)溶解度、(ii)分子体積またはサイズ、(iii)正味電荷、荷電状態(charge state)、イオン電荷、または複合的な実測荷電状態、(iv)等電点(pI)、(v)解離定数(pKa)、(vi)抗体親和力、(vii)電気泳動移動度、(viii)イオン化ポテンシャル、(ix)双極子モーメント、(x)水素結合可能性(hydrogen-bonding capability)または水素結合能力(hydrogen-bonding capacity)、および(xi)気相中におけるイオン移動度からなる群より選択されることが好ましい。
【0093】
本発明の一局面によると、第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質を決定するように構成された手段と、
第2の異なるサンプル中の成分、分子または被分析試料の第1の物理化学的性質を決定するように構成された手段と、
前記第1のサンプル中の成分、分子または被分析試料を、前記第2のサンプル中の成分、分子または被分析試料と確率的に関連付ける、クラスタリングするまたはグループ化するように構成された手段とを備える質量分析計が提供される。
【0094】
本発明の一局面によると、異なる取得からの液体クロマトグラフィー質量分析ペプチドデータをクラスタリングする確率的方法であって、
異なる実験的取得における関連するサンプルからの複数のイオンの保持時間および質量を測定するステップと、
前記質量および保持時間を含むデータセットを、各測定に固有の不確実性の予測とともに生成するステップと、
質量および保持時間を用いて、異なる取得間でデータを関連付けるステップと、
前記関連付けが各実験的取得からの唯一の代表値を有するクラスタを生じさせる平均保持時間を計算するステップと、
前記平均保持時間を基準点として用いて、各取得に対する保持時間を較正するステップと、
質量および保持時間を用いて、クロマトグラフィーの精度および較正の質によって保証されるのと同程度にデータを強く関連付けるステップとを含む方法が提供される。
【0095】
データの前記関連付けは、データを1.0005ダルトンの質量ビンに分割することによってなされることが好ましい。
【0096】
上記方法は、各質量ビンに対して、その質量ビン中の各データ対の関連付けのペアワイズ確率を決定するステップをさらに含むことが好ましい。
【0097】
上記方法は、前記ペアワイズ確率を組み合わせることにより、前記質量ビン中のデータの任意の試みのクラスタリングに対する確率を決定するステップをさらに含むことが好ましい。
【0098】
上記好ましい実施形態によると、上記方法は、前記ペアワイズ確率を閾値化することにより、質量および保持時間におけるデータの尤もらしい最初のクラスタリングを見出すステップをさらに含む。
【0099】
上記方法は、前記尤もらしい最初のクラスタリングを出発点として局所探索を行なうことにより、最も確からしいクラスタリングを見出すステップをさらに含むことが好ましい。
【0100】
好ましくは質量および保持時間を用いて、異なる取得間でデータを関連付ける前記ステップは、質量よりも弱い制約として保持時間を用いるステップを含むことが好ましい。
【0101】
本発明の一局面によると、第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプ中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプル中の成分、分子もしくは被分析試料に関連するデータと確率的に関連付ける、クラスタリングするまたはグループ化するステップを含む質量分析方法が提供される。
【0102】
本発明の一局面によると、第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプル中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプルの成分、分子もしくは被分析試料に関連するデータと確率的に関連付ける、クラスタリングするまたはグループ化するように構成された手段を備える質量分析計が提供される。
【0103】
本発明の一局面によると、第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプル中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプル中の成分、分子もしくは被分析試料に関連するデータと関連付ける、クラスタリングするまたはグループ化するステップを含む質量分析方法が提供される。
【0104】
本発明の一局面によると、第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプル中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプル中の成分、分子もしくは被分析試料に関連するデータと関連付ける、クラスタリングするまたはグループ化するように構成された手段を備える質量分析計が提供される。
【0105】
本発明の一局面によると、データを関連付ける、クラスタリングするまたはグループ化するステップを含む質量分析方法が提供される。
【0106】
本発明の一局面によると、データを関連付ける、クラスタリングするまたはグループ化するように構成された手段を備える質量分析計が提供される。
【0107】
好ましい実施形態は、別個の実験的取得において、好ましくは質量または質量電荷比およびクロマトグラフィー保持時間などの保持時間に基づいて得られた液体クロマトグラフィー質量分析(LC−MS)データのクラスタリングに関する。上記好ましい手法は、サンプルが、異なる実験データにおいて同一種の被分析試料を見つけるまたは認識するためにサンプルに加えられる別個の較正物質を使うことを必要としないことが有利である。サンプルに導入される校正物質の使用により、データと干渉を起こしたり、データを抑制したりする可能性がある。しかし、校正物質は、実験作業において別の目的、すなわち質量分析計の設定がドリフトしないことを確実にするために周期的に用いてもよい。
【0108】
好ましい実施形態は、LC−MSデータの処理およびそのようなデータのクラスタリングに関する。しかし、やや好ましくは、開示したデータのクラスタリングに対する確率的またはベイズ的な手法は、ガスクロマトグラフィー質量分析(GC−MS)データ、および成分、分子または被分析試料が他の成分から適切な時期に分離されるその他のタイプの分析にも適用することが可能である。
【0109】
好ましい実施形態によると、確率尺度を用いてデータポイントの近似性をペアワイズで(on a pair-wise basis)評価する。この尺度では、データが1つのクラスタから生じたという仮説を、データが、好ましくは質量−保持時間面内で均一な確率でランダムに分布されていると演繹的に考えられる2つの別個のクラスタから生じたという仮説と比較する。
【0110】
クラスタが均一な確率で間隔Δで出現しうる1つの次元において、予測される<N>個のクラスタの(ポアソン分布の)平均および2つのデータポイントの位置は、xiおよびxjであり、2つのデータポイントが同一のクラスタに関連付けられている確率は、以下の式によって得られる。
【0111】
【数15】

【0112】
ここで、平均<N>は、k−平均クラスタリングにおいて用いられる所定の数kとは対照的に、クラスタ数に関する自由度のある事前選択を示す。
【0113】
上記の式において、L(xi,xj)は、2つのデータポイントxiおよびxjが、2つの別の実験的取得において存在する同一の成分、分子または被分析試料(すなわち、ペプチド消化物)に関連するデータポイントである尤度の確率的計算である。
【0114】
ガウス差およびクラスタの位置に関する均一な事前確率分布があると仮定すると、2つのデータポイントが同一のペプチドに関連する尤度は、以下の式により得られる。
【0115】
【数16】

【0116】
ここで、σiおよびσjは、それぞれ、位置xiおよびxjにおける不確実性である。これは、2以上の次元に一般化される。
【0117】
以下の確率尺度は、2つのデータが、異なるクラスタではなく同一のクラスタに属すると解釈される。
【0118】
【数17】

【0119】
k−平均クラスタリングとは異なり、この確率は、クラスタ中心のすべての考えられる位置にわたって積分されたものである。
【0120】
以下の確率尺度によって定義されるペアワイズ確率値pijを組み合わせることにより、データクラスタのあらゆる試みの構成に、総合確率Qを割り当てることが可能である。
【0121】
【数18】

【0122】
ここで、Ciはデータiが割り当てられたクラスタに割り当てられたデータセットであり、Mはデータポイントの数である。
【0123】
クラスタの実行可能な最初の試みの構成がひとたび見出されると、クラスタ全体的な確率または等価性Qを最大化するよう努めることにより、これを増加的に改善することが好ましい。
【0124】
好ましい実施形態によると、ペプチド消化物に関連する被分析試料のうち一部は、マトリックス法を用いてまずクラスタリングされることが好ましい。この方法によると、同一種のペプチド消化物に関連する2つのデータポイントのペアワイズ確率pijは、まずマトリックス状に配列される。マトリックスは、データポイントが2つ毎に同一のクラスタに関連付けられているペアワイズ確率pijを含むことが好ましい。例えば、以下のマトリックスは、4つのデータポイントA〜Dの対の各組み合わせにおけるデータポイントが同一のクラスタに関連する確率を表している。
【0125】
【表1】

【0126】
上記の例において、マトリックスは、ポイントAがポイントBと同一のクラスタに関連する確率pijは0.8であるということを示している。したがって、ポイントAおよびポイントBは、同一のクラスタに関連する可能性が高いのが理にかなっている。これに対し、ポイントBがポイントDと同一のクラスタに関連する確率pijは0.2である。したがって、この可能性は低いのが理にかなっている。
【0127】
マトリックスは、その後、0と1との間の様々な閾値で分析することができるので、閾値より下の確率には偽の値(例えば0)が割り当てられる一方、閾値より上の値には、どのデータが同一のクラスタに関連付けられているかを示す真の値(例えば1)が割り当てられる。
【0128】
結果として生じるブール値bijのマトリックスは、以下の式の必要な推移特性に従っていない場合があるため、実行可能なクラスタ構成を表していない場合がある。
【0129】
【数19】

【0130】
したがって、上記条件は確認されることが好ましい。上記推移特性が満たされない場合、試みの真理値表は棄却されることが好ましい。
【0131】
上記の閾値化方式は、ペアワイズ確率のマトリックスの様々な再構築に作用するように一般化されうる。これらは、最大固有値数および再構築されたマトリックスにおいて用いられる元のマトリックスの対応する固有値数をデクリメントすることにより、反復して生成されることが好ましい。
【0132】
好ましい実施形態において、最初のクラスタ構成は、その後、質量およびクロマトグラフィー保持時間に基づいてデータポイントの順序を検討することにより改善されうる。次に、データポイントが属するクラスタは、反復方式によって順序ごとに変更が可能である。この方式によると、各データを、新たなクラスタ内に入れることができる。また、前のデータクラスタ(別個の場合)内にも入れられる。また、次のデータクラスタ(別個の場合)内にも入れられる。
【0133】
この処理は、さらなる改善が見出されなくなるまで、あるいは事前に割り当てられた反復限度に達するまで繰り返すことができる。
【0134】
好ましい実施形態において、データは、整数質量範囲またはビン(bins)に分割されることが好ましい。2つの隣接する質量ビンの中心間の質量差は、異なるペプチドに関連するデータが同一の質量ビンに含まれない程度に大きいことが好ましい。
【0135】
アミノ酸は、約1.00009から約1.00074まで様々である質量十分性(mass sufficiency)を有しており、平均質量十分性はおよそ1.0004である。したがって、生物学的サンプルは、一般に、およそ1.0005原子質量単位(ダルトン)の周期性を示し、よって、ビンは、平均的なペプチドバリオンの質量に相当する1.0005ダルトンの質量範囲を有するように構成されることが好ましい。
【0136】
同一のペプチドに対する多数のデータは、単一の質量ビンの中心の周囲に集中する傾向がある。したがって、隣接する質量ビン内にデータが誤差によって含まれる尤度は、非常に低い。したがって、異なるビン内のデータは、異なるペプチド、すなわち異なるクラスタに関連すると考えることができる。
【0137】
上記好ましい実施形態の特に好ましい一局面は、各取得からのデータに対する保持時間軸のアライメントである。報告される保持時間は、通常、未較正であり、各取得からのデータセット間で系統誤差がしばしば生じるため、これは非常に有利である。したがって、2つのデータセットからの保持時間を正しくリアライメントすることは有利であり、このようなステップを実行する好ましい実施形態の能力は、当該技術分野における重要な進歩である。
【0138】
上記好ましい実施形態において、クラスタリングの最初の段階は、保持時間におけるデータの近似性が比較的弱い寄与しかもたらしていない状態で行われる。これは、各データに対する保持時間の不確実性に対して大きい値を割り当てることによって実現されうる。
【0139】
結果として生じる、各取得からの唯一の代表を有するクラスタは、平均(および標準偏差)を取ることにより、可能性のある基準点(不確実性を有する)のリストを作成するために用いられる。外れ値は棄却されることが好ましく、残りの基準値は、確率的較正システムにより、各取得における保持時間をリアラインメントするために用いられる。
【0140】
以下に、本発明の様々な実施形態について、単に例示として、添付の図面を用いて説明する。図中、
図1Aは、元の保持時間に対する質量のグラフを示すとともに、質量測定値に関するエラーバーを示し、図1Bは、図1Aに示したものと同一のデータに関する、元の保持時間に対する質量の関連したグラフを示すが、保持時間測定値に関するエラーバーを示しており、
図2Aは、保持時間がリアライメントされた、好ましい実施形態による保持時間に対する質量のグラフを示すとともに、図1Aの質量測定値に関するエラーバーを示しており、図2Bは、図2Aに示したものと同一のデータに関する保持時間に対する質量の関連するグラフを示すが、好ましい実施形態から得られた保持時間測定値に関する著しく低減されたエラーバーを示す。
【0141】
本発明の好ましい一実施形態について以下に説明する。下記の表は、それらすべてが同一の整数質量2458ダルトンを有するが、クロマトグラフィー保持時間が異なる4つの別個のイオン種に関連する液体クロマトグラフィー質量分析実験から観測された15個のデータポイントに関連している。
【0142】
ペプチドイオンのそれぞれの質量および対応する保持時間を、各質量測定値における標準偏差とともに示す。データポイントは、6つの別々の取得から得られ、かつ、最初に4つの別個のクラスタに割り当てられた。すなわち、分析されている同一のサンプル中に4つの別個のイオン種が存在すると考えられた。次に、実験データが上記好ましい実施形態に従って処理され、リアライメントされた保持時間が得られた。
【0143】
【表2】

【0144】
図1Aおよび図1Bは、15の実験データポイント、すなわち好ましい実施形態に従って保持時間がリアライメントされる前のプロットを示している。図1Aは、質量のエラーバーを含むプロットを示し、図1Bは、保持時間に関するエラーバーを含む同一のプロットを示している。
【0145】
当業者に理解されるように、同一のサンプルが液体クロマトグラフィー質量分析によって繰り返し分析される場合、被分析試料であるイオンの質量または質量電荷比は実験から実験へかなり正確に再現されうる一方、測定されたクロマトグラフィー保持時間に、より大きいばらつきが生じる傾向がある。すなわち、液体クロマトグラフィーは、質量分析に比べて、信頼性および再現性が低い。1回のLC作業から次の作業にかけて、LCデータの全般的な尺度がドリフトする傾向にあり、このドリフトは、2つ以上の別個のサンプル中に存在する同一種の成分、分子または被分析試料をクラスタリングまたは認識する際に特に問題となる可能性がある。クロマトグラフィー保持時間におけるドリフトは、温度もしくは圧力ドリフトか、またはLCのカラムの閉塞に起因しうる。
【0146】
別々の実験またはサンプル中の被分析試料の中には、データの実質的な処理を必要とすることなく同一種であると確信を持って認識が可能なものもある一方、他の種は、少なくとも最初は確信を持って認識ができないことが多いことが理解される。したがって、好ましい実施形態は、複合混合物を取り扱うことが可能であるという点で重要なツールを提供するとともに、2つのデータセットに対するクロマトグラフィーの時間尺度を、その2つのデータセット中のより多くの数の成分が同一種を含むことを確信を持って認識することが出来るようにリアライメントすることを効果的に可能にする。
【0147】
図1Aおよび図1Bに示すデータは、上述のマトリックス法のアプローチによってまずクラスタリングされている。実験データに関する保持時間におけるエラーバーは、比較的大きい(図1Bからわかるように)ものの、マトリックス法のアプローチは、データを4つの異なる種のペプチドまたは被分析試料が存在することを高い確実性で示す4つの別個のクラスタに分離することが可能であった。
【0148】
図1Aおよび図1Bに示したエラーバーは、実験に対して予測されたものであり、較正済みで、脱同位体化されており、かつ荷電状態の換算質量に関連している。図1Bに示す保持時間についてのエラーバーは、保持時間精度のユーザ入力推定値から導き出されたものである。保持時間が、最初のクラスタリング手順において正当化される以上に大きい重要度で扱われないことを確実にするために、保持時間のエラーバーは、代表的なものではなく、考えられる最悪の誤差を示すように選択されることが好ましい。
【0149】
上記の表に示し、かつ図1Aおよび図1Bに示した実験データは、次に、好ましい実施形態に従って処理され、その結果、クロマトグラフィー保持時間は、データセットの全体にわたって大幅にリアライメントされた。
【0150】
図2Aおよび図2Bは、好ましい実施形態に従って処理およびクラスタリングを行った後の実験データを示している。これらの図、特に図2Bから分かるように、データの保持時間は、実際に、4つのクラスタが異なる別個のクラスタであることが明らかであるように大幅にリアライメントされている。
【0151】
上記の表に示し、かつ図1A、図1B、図2Aおよび図2Bに示したデータは、ごく少量のデータのみを表していることが理解される。減少されたデータ量は、単に分かりやすくするためにのみ示されている。実際には、データセットは、何千ものデータポイントを含むことができ、その場合には、好ましい実施形態によるデータのクラスタリングにおける大きな改善はより一層顕著なものとなる。
【0152】
データポイントは、好ましい実施形態に従って処理されている。実験データの上記好ましい処理方法は、2つのデータセットの保持時間をリアライメントするのに効果的であり、それにより、2つの異なるサンプル中の同様の種を確信を持って相関させることが可能になったことは明らかである。図1Aと図2Aの比較から分かるように、各データポイントに対する質量のエラーバーは、好ましい実施形態に従って保持時間をリアライメントした後も同じままである。すなわち、好しい実施形態によると、質量または質量電荷比の決定における誤差は、上記好ましい実施形態に実質的に影響されない。
【0153】
図2Bの保持時間エラーバーは、好ましい実施形態による確率的分析から自動的に得られる。エラーバーは、各保持時間計算に関する決定の信頼度、および各データポイントに適用されるリアライメント要因の信頼度を含む。各保持時間計算に関する決定の信頼度は、ピークにおいていくつのイオンが存在するかによってほとんど決まり、イオンの数が多いほど信頼度が高い。あるピークの保持時間と、それに最も近接する基準ピークとが非常に近似している場合、その保持時間における較正の信頼度は高い。ピークの保持時間が2つの基準ピークの保持時間の中間に含まれる場合、較正の信頼度は高くない。最も近接する2つのピークがはるかに離れている場合、その中間点における較正の信頼度はさらに低い。
【0154】
やや好ましい一実施形態によると、(図1Aおよび図1Bに示したように)データを最初にクラスタリングするために用いられた上記好ましいマトリックス法を使用するのではなく、データのクラスタリングにk−平均クラスタリングをまず用いてもよい。データがまずk−平均クラスタリングを用いてクラスタリングされる場合、データのクラスタリングに対する上記好ましい確率的手法を適用することにより、データのクラスタリングは、その後さらに改善されることが好ましい。
【0155】
ペプチドの質量十分性分布の性質から、ペプチド質量の不均一またはガウスの事前分布は、以下の尤度の計算においてより適切でありうると考えられる。
【0156】
【数20】

【0157】
反復的解決法の改善段階において用いられるデータの質量および保持時間の順序付けの代わりに、ヒルベルトの空間充填曲線に基づく別のアプローチを用いてもよい。これにより、二次元的な質量−保持時間面の局所性の保存性が改善されることになる。
【0158】
好適な実施形態を参照して本発明を説明したが、添付の請求項に記載された本発明の範囲から逸脱することなく、形態および詳細において様々な変更を行なうことができることが当業者には理解される。
【図面の簡単な説明】
【0159】
【図1A】図1Aは、元の保持時間に対する質量のグラフを示すとともに、質量測定値に関するエラーバーを示す。
【図1B】図1Bは、図1Aに示したものと同一のデータに関する、元の保持時間に対する質量の関連したグラフを示すが、保持時間測定値に関するエラーバーを示す。
【図2A】図2Aは、保持時間がリアライメントされた、好ましい実施形態による保持時間に対する質量のグラフを示すとともに、図1Aの質量測定値に関するエラーバーを示す。
【図2B】図2Bは、図2Aに示したものと同一のデータに関する保持時間に対する質量の関連するグラフを示すが、好ましい実施形態から得られた保持時間測定値に関する著しく低減されたエラーバーを示す。

【特許請求の範囲】
【請求項1】
第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップであって、前記第1の物理化学的性質は、質量または質量電荷比を含み、前記第2の物理化学的性質は、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップと、
第2のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップであって、前記第1の物理化学的性質は、質量または質量電荷比を含み、前記第2の物理化学的性質は、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップと、
前記第1のサンプル中の成分、分子または被分析試料に関連するデータを、前記第2のサンプル中の成分、分子または被分析試料に関連するデータと確率的に関連付ける、クラスタリングするまたはグループ化するステップと
を含む質量分析方法。
【請求項2】
1つ以上のさらなるサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップであって、前記第1の物理化学的性質は、質量または質量電荷比を含み、前記第2の物理化学的性質は、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップをさらに含む、請求項1に記載の方法。
【請求項3】
前記第1の物理化学的性質の起こりそうな誤差を決定するステップをさらに含む請求項1または2に記載の方法。
【請求項4】
前記第2の物理化学的性質の起こりそうな誤差を決定するステップをさらに含む請求項1、2または3に記載の方法。
【請求項5】
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料は、液体クロマトグラフィーによって分離される、先行する請求項のいずれかに記載の方法。
【請求項6】
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料が、(i)高速液体クロマトグラフィー(「HPLC」)、(ii)陰イオン交換、(iii)陰イオン交換クロマトグラフィー、(iv)陽イオン交換、(v)陽イオン交換クロマトグラフィー、(vi)イオン対逆相クロマトグラフィー、(vii)クロマトグラフィー、(vii)一次元電気泳動法、(ix)多次元電気泳動法、(x)サイズ排除、(xi)アフィニティー、(xii)逆相クロマトグラフィー、(xiii)キャピラリー電気泳動クロマトグラフィー(「CEC」)、(xiv)電気泳動法、(xv)イオン移動度分離法、(xvi)電界非対称性イオン移動度分離法(Field Asymmetric Ion Mobility Separation)(「FAIMS」)、または(xvi)キャピラリー電気泳動法によってその他の成分、分子または被分析試料から分離される、先行する請求項のいずれかに記載の方法。
【請求項7】
前記第1のサンプルに関連するデータおよび/または前記第2のサンプルに関連するデータおよび/またはさらなるサンプルに関連するデータから単一のデータセットを形成するステップをさらに含む、先行する請求項のいずれかに記載の方法。
【請求項8】
前記単一のデータセット中のデータにサンプル番号を割り当てるステップをさらに含む請求項7に記載の方法。
【請求項9】
前記第1のサンプル中の成分、分子または被分析試料に関連するデータを、前記第2のサンプル中の成分、分子または被分析試料に関連するデータと確率的に関連付ける、クラスタリングする、またはグループ化するステップが、試行錯誤法を使用または採用し、データの最も確からしい関連付け、クラスタリングまたはグループ化を決定するステップをさらに含む、先行する請求項のいずれかに記載の方法。
【請求項10】
前記第1のサンプル中の成分、分子もしくは被分析試料に関連するデータポイントを、前記第2のサンプル中の成分、分子もしくは被分析試料に関連するデータポイントおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料に関連するデータポイントと比較するステップをさらに含む、先行する請求項のいずれかに記載の方法。
【請求項11】
各データポイントは、前記第1の物理化学的性質の値および/または前記第2の物理化学的性質の値を含む請求項10に記載の方法。
【請求項12】
前記データポイントは、xダルトンの幅を有する質量または質量電荷比ビンに分割または分離される請求項10または11に記載の方法。
【請求項13】
xが、(i)1.0000〜1.0001、(ii)1.0001〜1.0002、(iii)1.0002〜1.0003、(iv)1.0003〜1.0004、(v)1.0004〜1.0005、(vi)1.0005〜1.0006、(vii)1.0006〜1.0007、(viii)1.0007〜1.0008、(ix)1.0008〜1.0009、(x)1.0009〜1.0010、(xi)<1.0000、(xii)>1.0010、および(xiii)1.0005からなる群より選択される、請求項12に記載の方法。
【請求項14】
前記データを1つ以上の第1のデータポイントクラスタにクラスタリングするステップをさらに含む請求項10〜13のいずれかに記載の方法。
【請求項15】
前記データポイントを1つ以上の第1のデータポイントクラスタにクラスタリングする前記ステップが、前記データポイントを確率的にクラスタリングするステップを含む、請求項14に記載の方法。
【請求項16】
データポイントの近似性をペアワイズ(on a pairwise basis)で評価するステップをさらに含む請求項14または15に記載の方法。
【請求項17】
データポイントの近似性をペアワイズで評価する前記ステップが、決定された質量誤差または質量電荷比誤差が与えられた場合の質量または質量電荷比ビン中のデータポイントの近似性をペアワイズで評価するステップを含む、請求項16に記載の方法。
【請求項18】
2つのデータポイントが同一の成分、分子または被分析試料に関連する尤度を確率的に計算するステップをさらに含む請求項14〜17のいずれかに記載の方法。
【請求項19】
2つのデータポイントが同一の成分、分子または被分析試料に関連するペアワイズ確率pijを決定するステップをさらに含む請求項14〜18のいずれかに記載の方法。
【請求項20】
前記ペアワイズ確率pijをマトリックス状に配列するステップをさらに含む請求項14〜19のいずれかに記載の方法。
【請求項21】
前記マトリックスに1つ以上の試みの真理値表を割り当てるステップをさらに含む請求項20に記載の方法。
【請求項22】
前記マトリックスが推移特性(transivity property)に従っているかどうかを決定することにより、前記マトリックスがセルフコンシステントであるかどうかを調べるステップをさらに含む、請求項21に記載の方法。
【請求項23】
前記推移特性が以下の式を含む請求項22に記載の方法。
【数1】

【請求項24】
前記マトリックスが前記推移特性に従っていない場合、前記方法は、前記試みの真理値表を棄却するステップをさらに含む、請求項22または23に記載の方法。
【請求項25】
前記マトリックスが前記推移特性に従っている場合、前記方法が、前記試みの真理値表に確率を割り当てるステップをさらに含む、請求項22、23または24のいずれかに記載の方法。
【請求項26】
前記マトリックスにさらなる試みの真理値表を割り当てるステップをさらに含む請求項21〜25のいずれかに記載の方法。
【請求項27】
前記マトリックスが推移特性に従っているかどうかを決定することにより、前記マトリックスがセルフコンシステントであるかどうかを調べるステップをさらに含む請求項26に記載の方法。
【請求項28】
前記推移特性が以下の式を含む請求項27に記載の方法。
【数2】

【請求項29】
前記マトリックスが前記推移特性に従っていない場合、前記方法が、前記さらなる試みの真理値表を棄却するステップをさらに含む、請求項27または28に記載の方法。
【請求項30】
前記マトリックスが前記推移特性に従っている場合、前記方法が、前記さらなる試みの真理値表に確率を割り当てるステップをさらに含む、請求項27、28または29のいずれかに記載の方法。
【請求項31】
最も確からしい真理値表を決定するステップをさらに含む請求項21〜30のいずれかに記載の方法。
【請求項32】
前記データを1つ以上の第1のデータポイントクラスタにクラスタリングする前記ステップが、k−平均クラスタリングを使用するステップを含む、請求項14に記載の方法。
【請求項33】
前記データポイントを1つ以上の第2のデータポイントクラスタに確率的にクラスタリングするステップをさらに含む請求項14〜32のいずれかに記載の方法。
【請求項34】
前記1つ以上の第2のデータポイントクラスタの全体的な確率または等価性(equivalently)を最大化するステップをさらに含む請求項33に記載の方法。
【請求項35】
データポイントを新たなデータポイントクラスタ内に移動させるかまたは入れるステップをさらに含む、請求項33または34に記載の方法。
【請求項36】
各データポイントが、最も近接するより高いまたはより低い前記第1の物理化学的性質および/または前記第2の物理化学的性質の値を有するデータポイントと同一のクラスタ内に移動させられるかまたは入れられる、請求項33、34または35に記載の方法。
【請求項37】
各データポイントが、隣接するデータポイントと同一のクラスタ内に最初にあった場合、自身のクラスタ内に移動させられるかまたは入れられる、請求項33〜36のいずれかに記載の方法。
【請求項38】
1つのまたは各データポイントが最初に属すると考えられるクラスタを、さらなる改善が実質的に見出されなくなるまで反復的に変更するステップをさらに含む、請求項33〜37のいずれかに記載の方法。
【請求項39】
1つのまたは各データポイントが最初に属すると考えられるクラスタを、予め割り当てられた反復限度に達するまで反復的に変更するステップをさらに含む、請求項33〜38のいずれかに記載の方法。
【請求項40】
前記1つ以上の第2のデータポイントクラスタを問い合わせて、前記第1のサンプル、前記第2のサンプルおよび任意のさらなるサンプルからの分子、被分析試料またはイオンを表す唯一のデータポイントを含む1つ以上の第3のデータポイントクラスタを決定するステップをさらに含む、請求項33〜39のいずれかに記載の方法。
【請求項41】
前記1つ以上の第2のデータポイントクラスタを問い合わせて、前記第1のサンプル、前記第2のサンプルおよび任意のさらなるサンプルからの分子、被分析試料またはイオンを表す1つのデータポイントを通常含む1つ以上の第3のデータポイントクラスタを決定するステップをさらに含む、請求項33〜39のいずれかに記載の方法。
【請求項42】
前記第3のデータポイントクラスタに関連する前記データポイントが、高レベルの確実性を有すると仮定されるかもしくは割り当てられているか、または、真もしくは1の値を有すると仮定されるかもしくは割り当てられている、請求項40または41に記載の方法。
【請求項43】
前記1つ以上の第3のデータポイントクラスタの少なくとも一部またはそれぞれにおける分子、被分析試料またはイオンの前記第2の物理化学的性質に関連するデータを平均して、前記第2の物理化学的性質に対する平均値を生成する、請求項33〜42のいずれかに記載の方法。
【請求項44】
前記第3のデータポイントクラスタを生成するためにクラスタリングされた前記1つ以上のデータポイントのデータが、前記平均値が前記データポイントに対する前記第2の物理化学的性質の値になるように調整される、請求項43に記載の方法。
【請求項45】
観測された第2の物理化学的性質に関連するデータを、前記第2の物理化学的性質に対する前記平均値に相関させるかまたは修正するための較正関数を決定するステップをさらに含む、請求項43または44に記載の方法。
【請求項46】
前記較正関数が、三次スプライン関数、多項式関数または確率的な較正関数を含む請求項45に記載の方法。
【請求項47】
各サンプルからの、または全サンプルからのデータポイントを調整し、すべてのデータセットに対する第2の物理化学的性質をアライメントする、再較正する、修正する、または再割り当てするステップをさらに含む、請求項45または46に記載の方法。
【請求項48】
前記第2の物理化学的性質に対する誤差を決定するかまたは割り当てるステップをさらに含む請求項47に記載の方法。
【請求項49】
前記第1のサンプル中の成分、分子または被分析試料に関連する調整済みのデータポイントを、前記第2のサンプル中の成分、分子もしくは被分析試料に関連する調整済みのデータポイントおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料に関連する調整済みのデータポイントと比較するステップをさらに含む、先行する請求項のいずれかに記載の方法。
【請求項50】
各調整済みのデータポイントが、前記第1の物理化学的性質の未調整の値および/または前記第2の物理化学的性質の調整済みの値を含む請求項49に記載の方法。
【請求項51】
前記調整済みのデータポイントが、xダルトンの幅を有する質量または質量電荷比ビンに分割または分離される、請求項49または50に記載の方法。
【請求項52】
xが、(i)1.0000〜1.0001、(ii)1.0001〜1.0002、(iii)1.0002〜1.0003、(iv)1.0003〜1.0004、(v)1.0004〜1.0005、(vi)1.0005〜1.0006、(vii)1.0006〜1.0007、(viii)1.0007〜1.0008、(ix)1.0008〜1.0009、(x)1.0009〜1.0010、(xi)<1.0000、(xii)>1.0010、および(xiii)1.0005からなる群より選択される、請求項51に記載の方法。
【請求項53】
前記調整済みのデータポイントを1つ以上の第4のデータポイントクラスタにクラスタリングするステップをさらに含む請求項49〜52のいずれかに記載の方法。
【請求項54】
前記調整済みのデータポイントを1つ以上の第4のデータポイントクラスタにクラスタリングする前記ステップが、前記データポイントを確率的にクラスタリングするステップを含む、請求項53に記載の方法。
【請求項55】
調整済みのデータポイントの近似性をペアワイズで評価するステップをさらに含む請求項53または54に記載の方法。
【請求項56】
調整済みのデータポイントの近似性をペアワイズで評価する前記ステップが、決定された質量誤差または質量電荷比誤差が与えられた場合の質量または質量電荷比ビン中の調整済みのデータポイントの近似性をペアワイズで評価するステップを含む請求項55に記載の方法。
【請求項57】
2つの調整済みのデータポイントが同一の成分、分子または被分析試料に関連する尤度を確率的に計算するステップをさらに含む請求項53〜56のいずれかに記載の方法。
【請求項58】
2つの調整済みのデータポイントが同一の成分、分子または被分析試料に関連するペアワイズ確率を決定するステップをさらに含む、請求項53〜57のいずれかに記載の方法。
【請求項59】
前記ペアワイズ確率pijを第2のマトリックス状に配列するステップをさらに含む請求項53〜58のいずれかに記載の方法。
【請求項60】
前記第2のマトリックスに1つ以上の第2の真理値表を割り当てるステップをさらに含む請求項59に記載の方法。
【請求項61】
前記第2のマトリックスが推移特性に従っているかどうかを決定することにより、前記第2のマトリックスがセルフコンシステントであるかどうかを調べるステップをさらに含む、請求項60に記載の方法。
【請求項62】
前記推移特性が以下の式を含む請求項61に記載の方法。
【数3】

【請求項63】
前記第2のマトリックスが前記推移特性に従っていない場合、前記方法が、前記第2の試みの真理値表を棄却するステップをさらに含む、請求項61または62に記載の方法。
【請求項64】
前記第2のマトリックスが前記推移特性に従っている場合、前記方法が、前記第2の試みの真理値表に確率を割り当てるステップをさらに含む、請求項61、62または63のいずれかに記載の方法。
【請求項65】
前記第2のマトリックスにさらなる第2の試みの真理値表を割り当てるステップをさらに含む請求項61〜64のいずれかに記載の方法。
【請求項66】
前記第2のマトリックスが推移特性に従っているかどうかを決定することにより、前記第2のマトリックスがセルフコンシステントであるかどうかを調べるステップをさらに含む、請求項65に記載の方法。
【請求項67】
前記推移特性が以下の式を含む請求項66に記載の方法。
【数4】

【請求項68】
前記第2のマトリックスが前記推移特性に従っていない場合、前記方法が、前記さらなる第2の試みの真理値表を棄却するステップをさらに含む、請求項66または67に記載の方法。
【請求項69】
前記第2のマトリックスが前記推移特性に従っている場合、前記方法が、前記第2のさらなる試みの真理値表に確率を割当てるステップをさらに含む、請求項66、67または68のいずれかに記載の方法。
【請求項70】
最も確からしい第2の真理値表を決定するステップをさらに含む請求項66〜69のいずれかに記載の方法。
【請求項71】
前記データを1つ以上の第4のデータポイントクラスタにクラスタリングする前記ステップが、k−平均クラスタリングを用いるステップを含む、請求項53に記載の方法。
【請求項72】
前記調整済みのデータポイントを1つ以上の第5のデータポイントクラスタに確率的にクラスタリングするステップをさらに含む請求項53〜71のいずれかに記載の方法。
【請求項73】
前記1つ以上の第5のデータポイントクラスタの全体的な確率または等価性を最大化するステップをさらに含む請求項72に記載の方法。
【請求項74】
データポイントを新たなデータポイントクラスタ内に移動させるかまたは入れるステップをさらに含む、請求項72または73に記載の方法。
【請求項75】
各データポイントが、最も近接するより高いまたはより低い前記第1の物理化学的性質および/または前記第2の物理化学的性質の値を有するデータポイントと同一のクラスタ内に移動させられるかまたは入れられる、請求項72、73または74に記載の方法。
【請求項76】
各データポイントが、隣接するデータポイントと同一のクラスタ内に最初にあった場合、自身のクラスタ内に移動させられるかまたは入れられる、請求項72〜75のいずれかに記載の方法。
【請求項77】
1つのまたは各データポイントが最初に属すると考えられるクラスタを、さらなる改善が実質的に見出されなくなるまで反復的に変更するステップをさらに含む、請求項72〜76のいずれかに記載の方法。
【請求項78】
1つのまたは各データポイントが最初に属すると考えられるクラスタを、予め割り当てられた反復限度に達するまで反復的に変更するステップをさらに含む、請求項72〜77のいずれかに記載の方法。
【請求項79】
前記第1のサンプル中の第1の成分、分子もしくは被分析試料および/または前記第2のサンプル中の第1の成分、分子もしくは被分析試料および/またはさらなるサンプル中の第1の成分、分子もしくは被分析試料の強度を決定するステップをさらに含む、先行する請求項のいずれかに記載の方法。
【請求項80】
前記第1のサンプル中の前記第1の成分、分子もしくは被分析試料の強度を、前記第2のサンプルおよび/またはさらなるサンプル中の対応する第1の成分、分子もしくは被分析試料と比較するステップをさらに含み、前記第1の成分、分子もしくは被分析試料が、データの同一の関連付け、クラスタリングまたはグループ化に属する、請求項79に記載の方法。
【請求項81】
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルが、複数の異なるバイオポリマー、タンパク質、ペプチド、ポリペプチド、オリゴヌクレオチド、オリゴヌクレオシド、アミノ酸、炭水化物、糖、脂質、脂肪酸、ビタミン、ホルモン、DNAの部分もしくは断片、cDNAの部分もしくは断片、RNAの部分もしくは断片、mRNAの部分もしくは断片、tRNAの部分もしくは断片、ポリクローナル抗体、モノクローナル抗体、リボヌクレアーゼ、酵素、代謝産物、多糖類、リン酸化ペプチド、リン酸化タンパク質、糖ペプチド、糖タンパク質またはステロイドを含む、先行する請求項のいずれかに記載の方法。
【請求項82】
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルが、異なるアイデンティティを有する、少なくとも2、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、または5000の成分、分子または被分析試料を含む、先行する請求項のいずれかに記載の方法。
【請求項83】
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルが、モル濃度の等しくない異種からなる複合混合物を含む、先行する請求項のいずれかに記載の方法。
【請求項84】
前記第1のサンプル中の前記成分、分子もしくは被分析試料が、前記第2のサンプルおよび/またはさらなるサンプル中の前記成分、分子もしくは被分析試料と実質的に同一である、先行する請求項のいずれかに記載の方法。
【請求項85】
前記成分、分子または被分析試料が、前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルに対して内因性または外因性である、先行する請求項のいずれかに記載の方法。
【請求項86】
(i)前記第1のサンプルが罹患生体からとられ、前記第2のサンプルが非罹患生体からとられる、(ii)前記第1のサンプルが処置生体からとられ、前記第2のサンプルが非処置生体からとられる、または(iii)前記第1のサンプルが変異生体からとられ、前記第2のサンプルが野生型生体からとられる、のいずれかである、先行する請求項のいずれかに記載の方法。
【請求項87】
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプル中の前記成分、分子もしくは被分析試料のうち1つ以上を同定するステップをさらに含む、先行する請求項のいずれかに記載の方法。
【請求項88】
前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料および/または前記第2のサンプル中の1つ以上の成分、分子もしくは被分析試料および/またはさらなるサンプル中の1つ以上の成分、分子もしくは被分析試料が、前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料の強度と前記第2のサンプルおよび/またはさらなるサンプル中の1つ以上の成分、分子もしくは被分析試料の強度との違いが所定量より大きい場合にのみ同定される、先行する請求項のいずれかに記載の方法。
【請求項89】
前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料および/または前記第2のサンプル中の1つ以上の成分、分子もしくは被分析試料および/またはさらなるサンプル中の1つ以上の成分、分子もしくは被分析試料が、前記第1のサンプル中の複数の異なる成分、分子もしくは被分析試料の平均強度と前記第2のサンプルおよび/またはさらなるサンプル中の複数の異なる成分、分子もしくは被分析試料の平均強度との違いが所定量より大きい場合にのみ同定される、先行する請求項のいずれかに記載の方法。
【請求項90】
前記所定量が、(i)1%、(ii)2%、(iii)5%、(iv)10%、(v)20%、(vi)50%、(vii)100%、(viii)150%、(ix)200%、(x)250%、(xi)300%、(xii)350%、(xiii)400%、(xiv)450%、(xv)500%、(xvi)1000%、(xvii)5000%、および(xviii)10000%からなる群より選択される、請求項88または89に記載の方法。
【請求項91】
第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するように構成された手段であって、前記第1の物理化学的性質は質量または質量電荷比を含み、前記第2の物理化学的性質は溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含む手段と、
第2の異なるサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するように構成された手段であって、前記第1の物理化学的性質は質量または質量電荷比を含み、前記第2の物理化学的性質は溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含む手段と、
前記第1のサンプル中の成分、分子または被分析試料を、前記第2のサンプル中の成分、分子または被分析試料と確率的に関連付ける、クラスタリングするまたはグループ化するように構成された手段と
を含む質量分析計。
【請求項92】
液体クロマトグラフをさらに備える請求項91に記載の質量分析計。
【請求項93】
1つ以上の質量フィルタおよび/または1つ以上の質量分析器をさらに備える請求項91または92に記載の質量分析計。
【請求項94】
前記1つ以上の質量フィルタおよび前記1つ以上の質量分析器が、(i)直交加速飛行時間質量分析器、(ii)軸方向加速飛行時間質量分析器、(iii)ポール(Paul)三次元四重極イオントラップ質量分析器、(iv)二次元またはリニア四重極イオントラップ質量分析器、(v)フーリエ変換イオンサイクロトロン共鳴質量分析器、(vi)扇形磁場質量分析器、(vii)四重極質量分析器、および(viii)ペニングトラップ質量分析器からなる群より選択される、請求項93に記載の質量分析計。
【請求項95】
イオン源をさらに備える請求項91〜94のいずれかに記載の質量分析計。
【請求項96】
前記イオン源が、パルス状イオン源をさらに備える請求項95に記載の質量分析計。
【請求項97】
前記イオン源が、連続イオン源を備える請求項95に記載の質量分析計。
【請求項98】
(i)エレクトロスプレーイオン化(「ESI」)イオン源、(ii)大気圧光イオン化(「APPI」)イオン源、(iii)大気圧化学イオン化(「APCI」)イオン源、(iv)マトリックス支援レーザー脱離イオン化(「MALDI」)イオン源、(v)レーザー脱離イオン化(「LDI」)イオン源、(vi)大気圧イオン化(「API」)イオン源、(vii)シリコン上脱離イオン化(「DIOS」)イオン源、(viii)電子衝撃(「EI」)イオン源、(ix)化学イオン化(「CI」)イオン源、(x)電界イオン化(「FI」)イオン源、(xi)電界脱離(「FD」)イオン源、(xii)誘導結合プラズマ(「ICP」)イオン源、(xiii)高速原子衝撃(「FAB」)イオン源、(xiv)液体二次イオン質量分析(「LSIMS」)イオン源、(xv)脱離エレクトロスプレーイオン化(「DESI」)イオン源、および(xvi)ニッケル63放射性イオン源(Nickel-63 radioactive ion source)からなる群より選択されるイオン源をさらに備える、請求項91〜97のいずれかに記載の質量分析計。
【請求項99】
第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップと、
第2のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップと、
前記第1のサンプル中の成分、分子または被分析試料を、前記第2のサンプル中の成分、分子または被分析試料と確率的に関連付ける、クラスタリングするまたはグループ化するステップと
を含む質量分析方法。
【請求項100】
前記第1の物理化学的性質が、(i)質量または質量電荷比、(ii)アイソトピックもしくは脱電荷状態(decharged)質量または質量電荷比、または(iii)モノアイソトピックもしくは脱同位体化(deisotoped)質量または質量電荷比を含む、請求項99に記載の方法。
【請求項101】
前記第2の物理化学的性質がクロマトグラフィー保持時間を含む請求項99または100に記載の方法。
【請求項102】
前記第2の物理化学的性質が、(i)溶解度、(ii)分子体積またはサイズ、(iii)正味電荷、荷電状態(charge state)、イオン電荷、または複合的な実測荷電状態、(iv)等電点(pI)、(v)解離定数(pKa)、(vi)抗体親和力、(vii)電気泳動移動度、(viii)イオン化ポテンシャル、(ix)双極子モーメント、(x)水素結合可能性(hydrogen-bonding capability)または水素結合能力(hydrogen-bonding capacity)、および(xi)気相中におけるイオン移動度からなる群より選択される、請求項99、100または101に記載の方法。
【請求項103】
第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質を決定するように構成された手段と、
第2の異なるサンプル中の成分、分子または被分析試料の第1の物理化学的性質を決定するように構成された手段と、
前記第1のサンプル中の成分、分子または被分析試料を、前記第2のサンプル中の成分、分子または被分析試料と確率的に関連付ける、クラスタリングするまたはグループ化するように構成された手段と
を含む質量分析計。
【請求項104】
異なる取得からの液体クロマトグラフィー質量分析ペプチドデータをクラスタリングする確率的方法であって、
異なる実験的取得における関連するサンプルからの複数のイオンの保持時間および質量を測定するステップと、
前記質量および保持時間を含むデータセットを、各測定に固有の不確実性の予測とともに生成するステップと、
質量および保持時間を用いて、異なる取得間でデータを関連付けるステップと、
前記関連付けが各実験的取得からの唯一の代表値を有するクラスタを生じさせる平均保持時間を計算するステップと、
前記平均保持時間を基準点として用いて、各取得に対する保持時間を較正するステップと、
質量および保持時間を用いて、クロマトグラフィーの精度および較正の質によって保証されるのと同程度にデータを強く関連付けるステップと
を含む方法。
【請求項105】
データの前記関連付けが、データを1.0005ダルトンの質量ビンに分割することによってなされる、請求項104に記載の方法。
【請求項106】
各質量ビンに対して、その質量ビン中の各データ対の関連付けのペアワイズ確率を決定するステップをさらに含む、請求項105に記載の方法。
【請求項107】
前記ペアワイズ確率を組み合わせることにより、前記質量ビン中のデータの任意の試みのクラスタリングに対する確率を決定するステップをさらに含む、請求項106に記載の方法。
【請求項108】
前記ペアワイズ確率を閾値化することにより、質量および保持時間におけるデータの尤もらしい最初のクラスタリングを見出すステップをさらに含む、請求項107に記載の方法。
【請求項109】
前記尤もらしい最初のクラスタリングを出発点として局所探索を行なうことにより、最も確からしいクラスタリングを見出すステップをさらに含む、請求項108に記載の方法。
【請求項110】
質量および保持時間を用いて、異なる取得間でデータを関連付ける前記ステップが、質量よりも弱い制約として保持時間を用いるステップを含む、請求項104〜109のいずれかに記載の方法。
【請求項111】
第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプ中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプル中の成分、分子もしくは被分析試料に関連するデータと確率的に関連付ける、クラスタリングするまたはグループ化するステップを含む質量分析方法。
【請求項112】
第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプル中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプルの成分、分子もしくは被分析試料に関連するデータと確率的に関連付ける、クラスタリングするまたはグループ化するように構成された手段を含む質量分析計。
【請求項113】
第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプル中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプル中の成分、分子もしくは被分析試料に関連するデータと関連付ける、クラスタリングするまたはグループ化するステップを含む質量分析方法。
【請求項114】
第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプル中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプル中の成分、分子もしくは被分析試料に関連するデータと関連付ける、クラスタリングするまたはグループ化するように構成された手段を含む質量分析計。
【請求項115】
データを関連付ける、クラスタリングするまたはグループ化するステップを含む質量分析方法。
【請求項116】
データを関連付ける、クラスタリングするまたはグループ化するように構成された手段を含む質量分析計。

【図1A】
image rotate

【図1B】
image rotate

【図2A】
image rotate

【図2B】
image rotate


【公表番号】特表2007−535672(P2007−535672A)
【公表日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願番号】特願2007−510123(P2007−510123)
【出願日】平成17年5月3日(2005.5.3)
【国際出願番号】PCT/GB2005/001674
【国際公開番号】WO2005/106920
【国際公開日】平成17年11月10日(2005.11.10)
【出願人】(504142097)マイクロマス ユーケー リミテッド (57)
【Fターム(参考)】