堅牢な統計的方法を使用する質量スペクトルの自己較正
【課題】新しい改善された較正方法、関連システム、およびメディアを提供する。
【解決手段】方法は、たとえば質量および相補ペアにおける差を使用し、較正パラメータを評価することを伴う。方法100においては、シーケンスまたは方法が110において開始される。ピークの集合を含む入力質量スペクトルが、120において獲得される。標本に適したあらかじめ決定済みの分子が130において選択される。140において、ピークの集合の部分集合を包含するデータ集合が入力質量スペクトルから作成される。このデータ集合に対して堅牢な統計的方法が150において適用され、1ないしは複数の変換パラメータが計算される。160においては、この1ないしは複数の計算された変換パラメータを使用して質量スペクトルが変換され、再較正済み質量スペクトルが提供される。このシーケンスは、オペレータによる終了時に170において停止するか、反復される。
【解決手段】方法は、たとえば質量および相補ペアにおける差を使用し、較正パラメータを評価することを伴う。方法100においては、シーケンスまたは方法が110において開始される。ピークの集合を含む入力質量スペクトルが、120において獲得される。標本に適したあらかじめ決定済みの分子が130において選択される。140において、ピークの集合の部分集合を包含するデータ集合が入力質量スペクトルから作成される。このデータ集合に対して堅牢な統計的方法が150において適用され、1ないしは複数の変換パラメータが計算される。160においては、この1ないしは複数の計算された変換パラメータを使用して質量スペクトルが変換され、再較正済み質量スペクトルが提供される。このシーケンスは、オペレータによる終了時に170において停止するか、反復される。
【発明の詳細な説明】
【技術分野】
【0001】
例として示すこの実施態様は、測定済み質量が真の質量により近く変換されるように行う測定済み質量スペクトルの再較正における堅牢な統計的方法の使用に関する。質量スペクトロメトリのための較正テクニックに関連する特定の応用が見出されており、特にそれに言及して説明を行う。
【背景技術】
【0002】
測定の不確かさは、スペクトル計の精度ならびにバイアスの正確な評価によって最小化される。使用する計測器のタイプには内在的な精度の上限がある。たとえば、FTMSは1〜2ppmの精度(代表的な1000Daのm/zにおいて0.001Da)を有し、QTOFは10ppmの公称精度(0.01Da)を有する。しかしながら、精度は計測器のセットアップに応じても変化する。バイアスのための補正を行うパラメータもまた、セットアップごとに、さらにはスペクトルごとに異なるものとなり得る。図1および2に一例が提供されているが、これらは、異なる時間に同一のTOF計測器上おいて同一標本から得られた2つの質量スペクトルを示している。これら2つのグラフは、偏差(観察された質量から理論的質量を引いた値)対ピークの測定済み質量のプロットである。それぞれの場合において、偏差は、ピークの質量とともに直線的に変化する。直線当てはめが示されており、精度(直線に対するポイントの近さ)が類似している場合であってもバイアス(直線の傾き)が極めて異なる(2つのグラフのy軸の間の差に注意)ことは明らかである。
【0003】
【非特許文献1】ルソー(Rousseeuw)PJ、およびレロイ(Leroy)AM著『堅牢退行及びアウトライア検出(Robust Regression and Outlier Detection)』、ジョン・ウィリー・アンド・サンズ(John Wiley & Sons)出版(1987年)
【非特許文献2】フィシュラー(Fischler)MAほか著『コミュニケーション・オフ・ザACM(Communications of the ACM)』、24(6)、p381-395(1981年)
【非特許文献3】サットン-スミス(Sutton?Smith)Mほか著『テトラヘドン:アシンメトリ(Tetrahedon: Asymmetry)』、11(2)、p363?369(2000年)
【非特許文献4】デル(Dell)Aほか著『セル・バイオロジー(Cell Biology):ア・ラボラトリ・ハンドブック(A Laboratory Handbook)』第4巻、J.E.セリス(Celis)編集、アカデミック・プレス(Academic Press)サンディエゴ、インプレス
【発明の開示】
【発明が解決しようとする課題】
【0004】
この例示の実施態様は、上記ならびにそのほかの問題を克服する新しい改善された較正方法、関連システム、およびメディアを企図している。
【課題を解決するための手段】
【0005】
この例示の実施態様の第1の側面においては、複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するための方法が提供される。この方法は、複数の巨大分子の質量スペクトルの獲得を包含する。質量スペクトルは、複数のピークを含み、そのそれぞれが質量対電荷比に対応する。またこの方法は、標本に適した複数のあらかじめ決定済み分子の選択も包含する。
【0006】
さらにこの方法は、複数のピークの部分集合を包含するデータ集合の作成を包含し、それにおいて複数のピークの部分集合内の各ピークは、複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられる。またこの方法は、堅牢な統計的方法をデータ集合に適用して少なくとも1つの変換パラメータを計算することも包含する。それに加えて、この方法は、その変換パラメータのうちの少なくとも1つを使用することによる質量スペクトルの変換を包含し、それによって再較正済み質量スペクトルを提供する。
【0007】
別の態様において、この例示の実施態様は、複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するための方法を提供する。この方法は、複数の巨大分子の質量スペクトルの獲得を含む。質量スペクトルは、複数のピークを含み、そのそれぞれが質量対電荷比に対応する。またこの方法は、標本に適した複数のあらかじめ決定済み分子の選択も含む。さらにこの方法は、複数のピークからの複数のピークのペアを包含するデータ集合の作成を含み、それにおいてピークのペアのそれぞれは、複数のあらかじめ決定済みの分子の1つに対して割り当てられる。またこの方法は、堅牢な統計的方法をデータ集合に適用して少なくとも1つの変換パラメータを計算することも含む。それに加えて、この方法は、その少なくとも1つの変換パラメータを使用することによる質量スペクトルの変換を含み、それによって再較正済み質量スペクトルを提供する。
【0008】
別の態様においてこの例示の実施態様は、複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するためのシステムを提供する。このシステムは、質量スペクトルを維持するべく機能する第1のストレージ・デバイスを含む。質量スペクトルは複数のピークを含み、複数のピークのそれぞれは、質量対電荷比に対応する。またこのシステムは、(i)標本に適した複数のあらかじめ決定済みの分子を選択し、(ii)複数のピークの部分集合を含むデータ集合を作成し、それにおいて複数のピークの部分集合の各ピークは、複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられ、(iii)そのデータ集合に堅牢な統計的方法を適用して少なくとも1つの変換パラメータを計算し、かつ(iv)その少なくとも1つの変換パラメータを使用して質量スペクトルを変換し、それによって再較正済み質量スペクトルを提供するコンピュータ・プログラムを含むコンピュータ実行可能インストラクションを維持するべく機能する第2のストレージ・デバイスを含む。さらにこのシステムは、第1および第2のストレージ・デバイスと通信し、かつそのコンピュータ・プログラムを実行して再較正済み質量スペクトルを提供するべく機能するプロセッサを含む。
【0009】
さらに別の側面において、この例示の実施態様は、複数の巨大分子の質量スペクトルの獲得を含む方法を実行するためのコンピュータ実行可能インストラクションを有するコンピュータ可読メディアを提供する。質量スペクトルは、複数のピークを含み、そのそれぞれが質量対電荷比に対応する。またこの方法は、標本に適した複数のあらかじめ決定済み分子の選択も含む。さらにこの方法は、複数のピークの部分集合を包含するデータ集合の作成を含み、それにおいて複数のピークの部分集合の各ピークは、複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられる。またこの方法は、堅牢な統計的方法をデータ集合に適用して少なくとも1つの変換パラメータを計算することも含む。それに加えて、この方法は、その少なくとも1つの変換パラメータを使用することによる質量スペクトルの変換を含み、それによって再較正済み質量スペクトルを提供する。
【発明を実施するための最良の形態】
【0010】
未知の巨大分子または断片の質量スペクトルを、スペクトル自体のピークを使用して再較正し、それによって分子識別を実行する能力を向上させるための新しい方法が提供されている。ここで使用されている表現『再較正』は、測定済みm/zの読みがそのm/zの読みの『真の』値に近くなるように、スペクトルのピークおよび/またはピーク間の差に対して特定の分子の仮の割り当てを行うことを基礎とした測定済みm/zの読みの補正を言う。この方法は、3つの異なる試験所から得られたTOF、QTOF、およびイオン−トラップ計測器からのグリカンならびにペプチド・スペクトルに対してテストされたが、飛行時間型質量スペクトル計からのスペクトルに特に適している。再較正の後は、100〜4000Daの全質量範囲にわたってTOFスペクトルの精度が、通常、約0.03Daとなる。QTOFスペクトルの精度は、100〜2000Daの質量範囲にわたって、通常、約0.005ダルトンである。この精度は、一般に自己較正前に観察される50〜100ppm(すなわち、1000Daにおいて0.1Da)より有意に良好であり、10ppmとする計測器製造業者の公称精度さえも上回る。この改良は、識別のためのエラー・レートの大きな縮小となる。
【0011】
なお、図1、図2に示すこれら2つのグラフは、偏差(観察された質量から理論的質量を引いた値)対ピークの測定済み質量のプロットであり、計測器のバイアスがスペクトル間でどのように変化するかを示している。
【0012】
主要なストラテジは、測定済み質量スペクトルの再較正に対する堅牢な統計的方法の適用である。この『堅牢』という表現は、任意量による単一データ・ポイントの変更が、式または計算の結果を任意量により変化させない統計的方法を言う。質量スペクトルの再較正において堅牢な統計的方法を使用する利点は、その種の方法が非常に多くの数の不正確なデータポイントを許容しており、それにもかかわらず正しい結果を見つけ出せることである。
【0013】
概して言えば、この方法は、標本またはその標本内の分子の質量スペクトルの獲得することを伴う。またこの方法は、標本、その標本内に含まれると考えられている分子に関する情報、あるいはその標本内の分子を決定するために使用できる情報の獲得も伴う。その種の情報の特定の例として、限定する意図ではないが、アイソトープ・エンベロープに関する情報;標本内の分子、断片、イオン、またはそれらの組成物に関する情報;およびそのほかの分子、断片、イオン、またはそれらの組成物に関する情報が挙げられる。特定のストラテジにおいては、これらの情報がアイソトープの質量の分布に関係することがある。例示の実施態様の特定の変形においては、ここに述べた情報を少なくとも部分的に使用し、質量スペクトルに対して候補識別が割り当てられるか作られる。これらの初期識別からデータ集合が準備される。1ないしは複数の比較を行ってデータ集合を生成することができる。このデータに対して堅牢な統計的方法が実行されて1ないしは複数の変換パラメータが生成され、続いてそれが質量スペクトルの変換に使用されて、再較正済み質量スペクトルが提供される。
【0014】
特に質量スペクトルについて、この例示の実施態様のストラテジは、既知の真の質量
【数1】
を有する観察された質量miのいくつかのピークを見つけ出し、
【数2】
をmiに対してプロットすることである。QTOF質量スペクトル計の場合には、この曲線が直線に非常に近くなる。妥当な評価がピークのいくつかの真の質量からなされるとき、適正な評価が滑らかな曲線上に位置することになり、堅牢な統計における周知のテクニックを使用してその曲線を見つけ出し、不正確な評価(または『アウトライア』)の中から正しい評価(または『線上の』)見分けることが可能になる。この種の統計的テクニックの1つが、最小二乗平均法(『LMS』)である。非特許文献1を参照されたい。LMSの実際的な具体化は、『ランダムサンプリング一致(Random Sampling Consensus)』またはRANSACを使用する。RANSACについてのさらに詳しい情報は、非特許文献2から得ることができる。質量スペクトルの場合は、y=Ax+Bの形式のアフィン(affine)変換が求められ、それにおいてxは測定済み質量、yは真の質量である。
【0015】
LMS計算の一例を示すと次のようになる。平面内のn個のポイントからなるデータ集合Pが識別され、そのいくつかが直線上にあるが、多くは外れている。目的は、この直線の式を明らかにすることである。k個のポイントからなる複数の部分集合SjがPからランダムに選択され、それにおいて、kはnに比べて小さい数であり、jは部分集合の数であり、一般に大きな数になる。概して言えば、kおよびjは、充分に大きな数jにわたって部分集合Sjがアウトライアに汚染させることなく、良好な回帰線を提供するように選択される。その後、以下の方法によって各部分集合Sjにスコアが与えられる。最初に、周知の最小二乗法を使用してk個のポイントに直線が当てはめられる。続いて、P内の各ポイントについて、そのポイントから当てはめ直線までの垂直距離が決定される;この距離は、残余として知られている。P内の各ポイントについての残余が平方される。平方後の残余のメディアンが決定され、その部分集合Sjのためのスコアとしてそれが使用される。もっとも低いスコアを伴う部分集合Sjによって決定される直線が、『真の』直線を表すとして採用される。『真の』直線の評価は、その後さらに、P内の各ポイントを『直線上』または『アウトライア』として分類した後、『直線上』として分類済みのポイントだけを用いて直線の式の再評価を行うことによって改良される。
【0016】
ペプチドの場合には、通常、質量スペクトル上のピークがアミノ酸の特異シーケンスに属するとしてのラベル付けが困難である。単一アミノ酸を表すピークが生じることはほとんどない。アミノ酸の組み合わせが類似の質量を有することも可能である。たとえば、PT(198.101Da)およびVV(198.136Da)等のアミノ酸ペアが計測器の精度内の質量を持つとき、b2またはy2イオンを指定することは困難となり得る。したがって、この例示の実施態様は、測定済み質量自体ではなく測定済み質量の間における差を使用する。続いてこれらの差と既知の『真の』質量を比較する。たとえば、スペクトルが、400.200、515.223および662.289に強度のピークを含むとき、最初の差(515.223−400.200=115.023)がアミノ酸D(115.027 Da)に、2番目の差(662.289−515.223=147.066)がアミノ酸F(147.068 Da)に対応するとの結論は、仮に400.200におけるピークに属する特異シーケンスが決定できなかったとしても妥当性がある。その後これらの差を使用し、ポイント(0,0)、(115.023,115.027)、および(262.089,262.095)に対する最小二乗を使用して直線を当てはめることによって勾配Aを評価することができる。
【0017】
切片Bは、二重荷電イオンを使用することによって評価可能である。たとえば、スペクトルが775.402Daにピークを含み、二重荷電イオンについてのピークを388.200に含むとき、式A×775.402+B=(A×388.200+B)−1.0073と記述することが可能であり、それにおいて1.0073は、プロトンの質量である。Bの評価を、Aの評価と組み合わせて獲得することができる。その後、アフィン変換y=Ax+Bをすべての質量測定値に対して適用する。
【0018】
堅牢な統計的方法、特にLMSが適用されて、標本グリカンの質量スペクトルの再較正が行われる。良好なアイソトープ・エンベロープならびに、予測された質量と観察された質量の間に小さい誤差を伴うピークが識別される。続いてLMSが使用され、標本質量スペクトルと、既知のあるいは理論的なグリカンの質量スペクトルが比較されてバイアスを表す勾配Aが評価され、その後、再較正が行われて全プロセス(ピークの識別および再較正を含む)が反復される。この反復は、完全に較正未済の飛行時間型スペクトルからのピークの識別が困難であることから重要である。困難は、誤差が質量とともに直線的に成長し、高い質量ピークについて非常に大きくなることであり、そのため最初の反復がしばしば、1000Daといった小さい質量を伴うピークだけを識別することになる。少ない数のラウンドの後に反復が終了し、スペクトルのすべての測定済み質量に対してアフィン変換y=Ax+Bが適用される。
【0019】
堅牢な統計的方法、特にLMSが適用されて、標本ペプチドの質量スペクトルの再較正が行われる。標本ペプチドの質量スペクトルを、既知のペプチドのデータベースと比較し、ベストマッチ(最良調和)を決定する比較の前にLMSを使用してそれらの質量スペクトルを再較正することができる。それに代えて、新しいペプチド・シーケンスの場合には、LMSを使用して標本ペプチドの質量スペクトルと理論的なペプチドの質量スペクトルを比較し、勾配Aを評価することができる。
【0020】
このほかの、反復最小二乗等の堅牢な統計的方法を使用し、標本巨大分子の質量スペクトルの再較正を行う。反復最小二乗法においては、P内のすべてのポイントについて最小二乗法を使用し、AおよびBが解決される。もっとも多くの誤差(たとえば最悪の20%)を伴うポイントが削除され、最小二乗法が再び繰り返される。
【0021】
広い配列の巨大分子の、特に質量スペクトルの分析を再較正し、あるいは取り扱うことができる。たとえば、巨大分子をペプチド、グリカン、あるいは脂質とすることができる。ここで使用される場合、表現『ペプチド』は、化学的に互いにリンクした2もしくはそれを超える数のアミノ酸を言う。アミノ酸の数が比較的大きい場合に、しばしばそのストリングがポリペプチドと呼ばれる。より詳細に述べれば、巨大分子は、質量に対する何らかの制限、たとえばペプチドがアミノ酸の小さい集合からなるとの制限を含む任意クラスの分子からなるとすることができる。別の例としては、多糖類を、糖の小さい集合からなると制限することができる。また巨大分子を、アミノ酸、イオン化ペプチド、イオン化ポリペプチド、イオン化アミノ酸、あるいはそれらの混合とすることも可能である。さらには巨大分子を、糖、でんぷん、セルロース、単糖類、二糖類、オリゴ糖類、イオン化グリカン、イオン化糖類、イオン化でんぷん、イオン化セルロース、イオン化単糖類、イオン化二糖類、イオン化オリゴ糖類、あるいはそれらの混合とすることも可能である。この例示の実施態様は、非生物学的分子の分析に対しても適応することができる。
【0022】
ここで特に図3を参照すると方法100が提供されており、この方法100においては、シーケンスまたは方法が110において開始される。ピークの集合を含む入力質量スペクトルが、120において獲得される。標本に適したあらかじめ決定済みの分子が130において選択される。140において、ピークの集合の部分集合を包含するデータ集合が入力質量スペクトルから作成される。このデータ集合に対して堅牢な統計的方法が150において適用され、1ないしは複数の変換パラメータが計算される。160においては、この1ないしは複数の計算された変換パラメータを使用して質量スペクトルが変換され、再較正済み質量スペクトルが提供される。このシーケンスは、オペレータによる終了時に170において停止するか、反復される。
【0023】
いくつかの代替実施態様においては、ピークの集合の部分集合を包含するデータ集合を作成する140における操作が次のように行われる。図4を参照すると、図3のプロセス130から142Aに進み、あらかじめ決定済みの分子のm/z比の集合が決定される。それに加えて143Aにおいては、質量スペクトルから入力質量スペクトルのm/z比の集合が決定される。これらのm/z比は、144Aにおいて比較され、その結果が146Aにおいて使用されてデータ集合が組み立てられる。
【0024】
図5においては、140におけるデータ集合を作成する操作を、次のように実行することができる。あらかじめ決定済みのm/z比の集合が141Bにおいて決定される。142Bにおいては、入力質量スペクトルのm/z比の集合が決定される。続いてあらかじめ決定済みのm/z比と入力質量スペクトルのm/z比が143Bにおいて比較される。あらかじめ決定済みの分子のうちの少なくとも1つについて、分子質量のアイソトープ・エンベロープが144Bにおいて決定される。その後、あらかじめ決定済みのm/z比に関連付けされたエンベロープと、入力質量のm/z比に関連付けされたエンベロープを146Bにおいて比較する。そのポイントにおいて比較146Bの結果を使用し、148Bにおいてデータ集合を作成する。
【0025】
再較正のための代替方法200は、図6に示されるとおりに提供される。このシーケンスは、210において開始される。ピークの集合を含む入力質量スペクトルが、220に入力される。標本に適したあらかじめ決定済みの分子が230において選択される。このピークの集合からピークのペアの集合を含むデータ集合が作成される。このデータ集合に対し、250において堅牢な統計的方法が適用されて1ないしは複数の変換パラメータが計算される。260においては、この1ないしは複数の変換パラメータを使用して質量スペクトルが変換され、再較正済み質量スペクトルが提供される。このシーケンスは、オペレータによる終了時に270において停止するか、反復される。
【0026】
図7に示されているとおり、データ集合を作成する240における操作は、いくつかの応用において次のように行うことができる。242においては、あらかじめ決定済みの分子のm/z比の集合が決定される。ピークのペアの集合の1つのピーク間の差の1つと、あらかじめ決定済みの分子のm/z比の集合の1つが244において比較される。246において、ピークのペアの集合の1つが、データ集合に含めるために選択される。
【0027】
このシステムは、概して質量スペクトル・データならびに関連情報、およびコンピュータによる分析ならびにここで説明している方法を実行するコンピュータ・プログラムをストアする、コンピュータ可読メディア等の情報ならびにデータを保持するための1ないしは複数のストレージ・デバイスを包含する。さらにこのシステムは、プロセッサ、入力デバイス、およびオプションの出力デバイスを包含する。ここで用いている表現『コンピュータ可読メディア』は、任意タイプのコンピュータ・メモリまたはストレージ・デバイスを含み、限定するものではないが、フレキシブルディスク、ハードディスク、CD‐ROM、フラッシュROM、不揮発性ROM、およびRAM等である。
【0028】
ここで特に図8を参照すると、第1のストレージ・デバイス410、第2のストレージ・デバイス420、プロセッサ・デバイス430、入力デバイス440、および出力デバイス450を含むシステム400が例示されている。各デバイスは、有線またはワイヤレス通信パス、たとえばネットワーク、シリアルもしくはパラレル・ポート、またはそのほかの任意の適切な通信手段等を介してプロセッサ・デバイス430と通信する。このシステム400は、標本の再較正済み質量スペクトルを提供し、その標本は、1ないしは複数の巨大分子を含むことができる。システム400は、第1のストレージ・デバイス410を含み、第1のストレージ・デバイス410が質量スペクトル460、質量スペクトルに対応する関連情報470、および再較正済み質量スペクトル480を維持するべく機能する。またシステム400は、第2のストレージ・デバイス420も含み、第2のストレージ・デバイス420が種々の異なる構成でプログラム可能なコンピュータ・プログラム490を含むコンピュータ実行可能インストラクションを維持する。コンピュータ・プログラム490は、ピークまたはその種のピークを示す情報の集合を含む質量スペクトルの入力および/または保持を行うべくプログラムすることができる。またコンピュータ・プログラム490は、あらかじめ決定済みの、標本に適した分子を選択するべくプログラムすることができる。さらにコンピュータ・プログラム490は、追加として、ピークの集合の部分集合を構成するデータ集合を作成するべくプログラムすることができる。別の構成においては、コンピュータ・プログラム490を、ピークまたはその種のピークを示す情報の集合を含む質量スペクトルの入力および/または保持を行うべくプログラムすることができる。またコンピュータ・プログラム490は、あらかじめ決定済みの、標本に適した分子を選択するべくプログラムすることができる。さらにコンピュータ・プログラム490は、ピークの集合からピークのペアの集合を構成するデータ集合を作成するべくプログラムすることができる。いずれの構成においても、コンピュータ・プログラム490がデータ集合に対して堅牢な統計的方法を適用し、それによって少なくとも1つの変換パラメータを提供する。またコンピュータ・プログラム490は、その少なくとも1つの変換パラメータを使用することによって質量スペクトル460を変換し、それによって再較正済み質量スペクトル480を提供する。出力デバイス450は、概して再較正済み質量スペクトルの視覚的な例示、またはグラフィック表現を提供する。理解されるとおり、出力デバイス450は、プリンタ・デバイスおよび/またはディスプレイ・デバイスとすることができる。また出力デバイス450が通信ポートを含むこともあり、それを介して再較正済み質量スペクトル480のようなデータをほかのデバイスへ伝えることができる。
【0029】
第1および第2のストレージ・デバイス410,420は、別体のデバイスとして示されている。しかしながら別の実施態様においては、第1および第2のストレージ・デバイス410,420の内容を共通のストレージ・デバイス内にストア(格納)することができる。それとは異なり、図8に示されている2つに代えて、3もしくはそれを超える数のストレージ・デバイスを使用してもよい。さらに別の実施態様においては、第1および第2のストレージ・デバイス410,420のうちの1ないしは複数の内容の一部が、プロセッサ・デバイス430に関連付けされたメモリ内に埋め込まれる。
【0030】
入力デバイス440は、キーボード、キーパッド、ポインティング・デバイス、あるいはそのほかのタイプのプロセッサ・デバイス430を操作するためのコントロールを含むことができる。また入力デバイス440は、測定デバイスおよび/または、質量スペクトル460および関連情報470のようなデータを受信することのできる通信ポートを含むこともある。
【0031】
プロセッサ・デバイス430は、プロセッサ・デバイス430が質量スペクトル460および関連情報470からデータを読み取り、データを処理し、再較正済み質量スペクトル480に関連付けされたデータをストアするためのコンピュータ実行可能インストラクションを含むコンピュータ・プログラム490を走らせるか、あるいは実行することができる。このコンピュータ・プログラムはまた、プロセッサ・デバイス430が質量スペクトル460、関連情報470、および/または再較正済み質量スペクトル480から、出力デバイス450に関連付けされたディスプレイ・デバイスおよび/またはプリンタ・デバイスへデータを提供するためのコンピュータ実行可能インストラクションも含むことができる。コンピュータ・プログラムは、プロセッサ・デバイス430が、入力デバイス440に関連付けされた測定デバイスから、あるいは入力デバイス440に関連付けされた通信ポート経由で別のデバイスから質量スペクトル460および/または関連情報470に関連付けされたデータを要求するためのコンピュータ実行可能インストラクションを含むこともある。またこのコンピュータ・プログラムは、プロセッサ・デバイス430が、別のデバイスに対して出力デバイス450に関連付けされた通信ポート経由で質量スペクトル460、関連情報470、および/または再較正済み質量スペクトル480に関連付けされたデータを送信するためのコンピュータ実行可能インストラクションを含むこともある。
【0032】
この方法は、概して、質量対電荷比の比較、または測定済みスペクトルと仮説的スペクトルのピークもしくはピーク間の差の比較から獲得されるデータ集合に対して堅牢な統計的方法を適用することを伴う。堅牢な統計的方法を適用し、それによって少なくとも1つの変換パラメータを提供する。またこの方法は、その少なくとも1つの変換パラメータを使用することによって質量スペクトルを変換し、再較正済み質量スペクトルを提供することも伴う。
【0033】
方法を実行するためのコンピュータ実行可能インストラクションを有するコンピュータ可読メディアは、複数の巨大分子の質量スペクトルの獲得を含む。質量スペクトルは、それぞれが質量対電荷比に対応する複数のピークを包含する。この方法はまた、標本に適した複数のあらかじめ決定済みの分子の選択も包含する。それに加えてこの方法は、複数のピークの部分集合を包含するデータ集合の作成も包含し、それにおいて複数のピークの部分集合のそれぞれは、複数のあらかじめ決定済みの分子のうちの1ないしは複数に割り当てられる。またこの方法は、データ集合に対して堅牢な統計的方法を適用し、少なくとも1つの変換パラメータを計算することを包含する。さらに加えて、この方法は、少なくとも1つの変換パラメータを使用することによって質量スペクトルを変換し、それによって再較正済み質量スペクトルを提供することを包含する。
【0034】
コンピュータ可読メディアは、複数の巨大分子の質量スペクトルの獲得を包含する方法を実行するためのコンピュータ実行可能インストラクションを含む。質量スペクトルは、それぞれが質量対電荷比に対応する複数のピークを包含する。この方法はまた、標本に適した複数のあらかじめ決定済みの分子の選択も包含する。この方法は、それに加えて複数のピークからの複数のピークのペアの集合を包含するデータ集合の作成も包含し、それにおいてピークのペアのそれぞれは、複数のあらかじめ決定済みの分子のうちの1つに割り当てられる。またこの方法は、データ集合に対して堅牢な統計的方法を適用し、少なくとも1つの変換パラメータを計算することを包含する。さらに加えて、この方法は、少なくとも1つの変換パラメータを使用することによって質量スペクトルを変換し、それによって再較正済み質量スペクトルを提供することを包含する。
【実施例1】
【0035】
グリカン質量スペクトルの再較正
マウスの腎臓からN−グリカンの100を超える質量スペクトルが獲得された。N−グリカンは、ペプチド:N−グリカナーゼ(PNGase F)処理により腎臓ペプチド抽出からリリースされ、それに続いて、ここに参照により援用されている非特許文献3に述べられているストラテジのMALDI−TOF質量スペクトロメトリを使用し、質量スペクトロメトリによる分析に先行してパーメチル化を行った。パーメチル化は、非特許文献4に記述されているとおりの水酸化ナトリウム手法を使用して行われた。MALDIデータは、ABIパースペクティブ・バイオシステムズ(ABI Perspective Biosystems)のボイジャーDE(登録商標)sSTR質量スペクトル計を、遅延抽出を伴うリフレクトロン・モードで使用して獲得された。パーメチル化後の標本は10μlのメタノールに溶解され、溶解標本の1μlが、1μlのマトリックス(2,5−ジヒドロ安息香酸)と予混合された後、100ウェルのステンレス製の標本プレートにロードされた。
【0036】
質量スペクトルは、最初の約15の高信頼度のピーク割り当てを見つけることによって再較正された。これらの高信頼度ピークは、比較的高い強度のピーク(通常、もっとも高い200ピークの間)であり、それに割り当てられた潜在的にマッチするグリカンの理論的な値と緊密にマッチ(調和)するアイソトープ・エンベロープを有しており、かつそれに割り当てられた潜在的にマッチするグリカンの理論的な質量に非常に近い(100ppm内)測定済み質量を有していた。各測定済みのピークmiについて、測定済み質量と理論的質量の間の偏差di={mi−(理論的質量)}が計算された。RANSACアルゴリズムが連続的に適用されて、ペア(mi,di)が直線y=Ax+Bに当てはめられ、いずれのピークが高信頼度ピークであるか決定された。測定済み質量mのピークについての補正偏差d’は、直線を基礎とする理論的質量と測定済み質量の差d’=(Am+B)−mである。
【0037】
RANSACアルゴリズムを使用して作成された質量スペクトルのピークに対するグリカンの割り当てと、現在行われているように人間の専門家によって作成された割り当ての比較が行われた。すべての場合において、このアルゴリズムは、質量スペクトル内の観察されたピークに対するグリカンの有望な組成ならびに構造の意味のある割り当てを提供した。一例が、人間の専門家による手書き注記された図9の質量スペクトルと、RANSACアルゴリズムを使用して自動注記された図10の質量スペクトルの比較によって与えられる。15の手書き注記のピークが、RANSACアルゴリズムによっても識別された。15のピークのうちの12について注記はまったく同一であった;残り3つについて、RANSACアルゴリズムは、2つの有望な構造を提供し、その1つは、手書き注記の1つ(専門家による2つの代替注記を伴う2810.3におけるピーク;RANSACアルゴリズムは両方を見つけ出した)と一致した。残りの差は、注記のために選択されたピークの集合における変動に起因する。RANSACアルゴリズムは、もっとも強いピークから開始し、系統的に次の強度に続くという形でピークを選択したが、人間の注記はこの手続きからわずかに逸れていた。
【0038】
ペプチド質量スペクトルの再較正
RANSACアルゴリズムを3つの異なるペプチド質量スペクトルの集合に対して適用した。第1の集合は、マイクロマス(Micromass)Q‐TOF IIスペクトル計上において測定されたウシの血清アルブミン等の共通基準プロテインからの長さ7〜15の、トリプシンによって生じたペプチドの74のQTOFスペクトルから構成した。第2の集合は、マウスの透明帯プロテインからの長さ6〜23の、トリプシンによって生じたペプチドの106のQ−TOFスペクトルから構成した。これらのスペクトルは、分裂の特異性に関係なく、すべてのマウス・プロテインの大きな『デコイ(decoy)』データベースに対してデータベース・サーチを行うことによって識別された。第3の集合は、サーモフィネガン(ThermoFinnegan)LCQ−デカ(LCQ‐Deca)スペクトル計で測定され、NCBI非冗長プロテイン・データベースに対するデータベース・サーチ(SEQUEST)によって識別された、共通基準プロテインからの長さ5〜14のペプチド(トリプシンによって生じたものである必要はない)の101のイオン−トラップ・スペクトルから構成した。
【0039】
RANSACアルゴリズムは、前述の説明から修正された。特に、アルゴリズムは、『真の』直線を表していると決定された部分集合Siのスコアの2.5倍、もしくはマシンの理論的質量精度の評価に対応するユーザ指定の数のいずれかより大きい残余を有するポイントを破棄するべく修正された。この修正は、アルゴリズムがアウトライアの除去に積極的になりすぎることを防ぐ。強いピークが小さいピークより正確になるという観察に基づいて、基本的なアルゴリズムについても最小二乗法ではなく重み付け最小二乗法を使用して『直線上』として分類されたポイントの集合からの直線を改良し、再評価するべく修正を行った。データ・ポイントpの重みは1/(3+Rank(p))であり、それにおいてRank(p)は較正ピークのリスト内のpのランクに等しい(もっとも強いピークについて1、2番目に強いピークについて2というようにそれ以下も続く)。TOF誤差のプロットがわずかなS字形状を有するという観察に基づいて、P内のポイント数が有意に大きい場合には(14もしくはそれを超えるデータ・ポイント)直線に代えて3次曲線を当てはめるべく基本的なアルゴリズムが修正された。
【0040】
RANSACアルゴリズムは、次の態様で適用された。すべてのラダーiについて、評価済み勾配Aiが、ラダーの最初と最後のピークの間の推定された真の差をそれらの測定済みの差で除することによって計算された。評価Aiの重みを、長さ2のラダーについて
【数3】
に、長さ3のラダーについて
【数4】
にそれぞれセットし、それにおいてMDiffは、そのラダー内の最初と最後のピークの間の測定済み質量の差を示し、分母内の和は、ラダー内のピークpにわたって行われるものとした。最終的な勾配Aの評価は、個別の評価Aiの重み付けおよび成形後の平均として決定され、それにおいては、評価の上側20%および下側20%が切り捨てられ、残りの評価から重み付け平均が求められた。
【0041】
演繹的(アプリオリ、a priori)な再較正に関する結果が、ピークを識別する帰納的(ポステリオリ、posteriori)な分析によって決定され、それらを次の表1にリストする。
【表1】
【0042】
これにおいて、errは平均質量誤差(真の質量から測定済み質量を減ずる)を示し、σはスペクトル内のb−およびy−イオンのピークに関する質量誤差の標準偏差を示す。下付き文字は、較正未済(つまりUncalibrated)および較正済み(つまりCalibrated)を表し、Medおよびmaxは、スペクトルに関するメディアンおよび最大を表す。たとえば、Med errUは、較正未済の質量誤差の平均(ピークに関する)のメディアン(スペクトルに関する)である。比較のため、3次の帰納的(ポステリオリ)な再較正は、QTOFについてMed σC=0.0034、TOFについてMed σC=0.0251を与える。すべての単位は、Daである。
【0043】
アルゴリズムのパフォーマンスの最も重要なメトリック(metric)は、再較正後の質量誤差の標準偏差Med σであり、これは質量測定における一定のオフセット(メディアン誤差を増加することになるが、標準偏差は増加なし)が勾配Aのみによって補正できないことによる。結果は、再較正前に『代表的な』QTOFスペクトルが0.0402のオフセット(真の質量から測定済み質量を減ずる;すなわち、測定済み質量は低くなる傾向にある)を有しており、代表的なピークが両方向に0.0220の追加の誤差を有していたと考えることによって解釈できる。再較正の後、スペクトルは両方向に0.0089Daのオフセットを有し、代表的なピークは両方向に0.0072の追加の誤差を有していた。再較正の後、代表的なTOFスペクトルは0.0277のオフセットを有し、代表的なピークは0.0286の追加の誤差を有していた。質量誤差の標準偏差は、Med σUならびにMed σCにおける差によって反映されるとおり、有意に低下した。このアルゴリズムが質量誤差の標準偏差を増加することはなかったが、QTOFスペクトルのうちの3つ、およびTOFスペクトルのうちの21について、標準偏差に20%未満の減少があった。
【0044】
前述したとおり、二重荷電ピークを使用して切片Bの評価可能が行われた。しかしながら、QTOFおよびTOFのいずれも約半分のスペクトルしか識別可能な二重荷電ピークを有してなく、その種のピークを伴うスペクトルであっても、勾配のみを使用して達成されるものより有意に高い精度まで再較正が可能でなかった。たとえば、QTOFについてのMed σCは、0.0072から0.0058に向上したが、TOFについてのMed σCは、0.0286から0.0284に変化したに過ぎない。新しい(de novo)シーケンスについては、Bが相対的なピークの場所、たとえば連続するy−イオンの間の差に影響せず、それらの絶対的な場所にのみ影響することから、Bは、Aより重要性が低い。
【0045】
親イオンの質量もまた再較正が行われた。親の質量の正確な決定は、データベース・ルックアップ方法が使用されるときに候補の消去を補助し、また新しいシーケンスの共通スケール上におけるb−およびy−イオンの配置を補助する。親イオンの質量は、すでにタンデムMSの最初のラウンドで測定されているが、再較正を使用して精度を向上することができる。適格ピークpおよびqの各ペア、すなわちそれらのm/z測定値の和が、親の質量のユーザ指定許容値(QTOFについて0.2Da、TOFについて0.3Da)にプロトンを加えた範囲内となる各ペアは、合計質量の評価を提供する。親イオンの質量は、相補ペアの重み付け平均として再較正され、それにおいて各ペアの平均には、1/(Rank(p)+Rank(q))として重み付けが行われた。相補ペアが存在しないというまれなケースでは、親イオンの質量が変更されなかった。成形後の平均は、通常、質量スペクトル内にわずかな相補ペアしか含まれないために使用されなかった。QTOFについては、メディアン誤差が0.0982から0.0045に向上した;最悪誤差は、0.1968から0.0918に向上した。74のスペクトルのうち1つだけに関しては、再較正によって誤差が悪化し、0.0619から0.0880に変化した。TOFについては、メディアン誤差が0.1902から0.0614に向上した;最悪誤差は、0.4594から0.3272に向上した。106のスペクトルのうち6つに関しては誤差が悪化し、最悪で0.1185から0.1640に変化した。
【0046】
概して言えば、演繹的(アプリオリ)な再較正は非常に成功であり、特にTOFスペクトルについては、達成されたパフォーマンスが帰納的(ポステリオリ)な再較正よりわずかに悪いだけだった。QTOFとTOFの誤差の間の相違は、測定誤差における差からの結果であった。TOFの場合は、測定誤差が切片Bと概略で等しく、したがってBを評価するためのデータの欠如は、主要な問題ではない。それに対してQTOFの測定誤差はBより小さく、約4分の1であり、したがってBを伴う回帰モデルは、部分的な成功が達成されているだけである。
【0047】
帰納的(ポステリオリ)な再較正については、ペプチドのアミノ酸シーケンスが既知であると仮定した。これは、データベースを使用して未知のスペクトルの質量スペクトルに比較するための候補シーケンスを調べるときに生じ得る;各候補シーケンスもまた、正しいシーケンスと見なされる。この正しいシーケンスは、質量スペクトルを良好に再較正し、その結果、多数のピークが予測されたイオンに対応する。これに対して、正しくないシーケンスは、スペクトルをあまり良好に再較正せず、より少ないピークがイオンに対応する。これが正しいことは、各候補シーケンスに対して割り当てられるスコアに反映される。
【0048】
帰納的(ポステリオリ)な再較正の場合、適格ピークが、演繹的(アプリオリ)な再較正とは異なる方法によって選択された。前処理ステップが、より低い強度のピークの通過を可能にし(アミノ酸の数の15倍までのランクを伴う)、またb−およびy−イオンに加えて、a−イオンおよびに水分損失にマッチするピークも考慮された。当初、ユーザ指定の相対許容範囲(QTOFについて150ppm、TOFについて250ppm)内の観察されたピークにマッチする予測されたピークのそれぞれについてデータ・ポイントが定義された。RANSACアルゴリズムが使用されて、それらのポイントに対する回帰直線の当てはめが行われた。その後、再較正の第2ラウンドが実行され、今度はピーク識別のためにユーザ指定の絶対許容範囲(QTOFについて0.025Da、TOFについて0.10Da)が用いられた。RANSACアルゴリズムが使用され、ユーザによって選択されたポイントの新しい集合に対する直線もしくは3次曲線のいずれかの当てはめが行われた。アルゴリズムは、ポイント数が14より少なければ『3次』が選択されていた場合であっても直線当てはめだけを行う。
【0049】
帰納的(ポステリオリ)な再較正に関する結果を次の表2にリストする。
【表2】
これにおいて、errは平均質量誤差(真の質量から測定済み質量を減ずる)を示し、σはスペクトル内のa−、b−およびy−イオンのピーク、およびそれらの水分損失に関する質量誤差の標準偏差を示す。『直線』当てはめは、常に回帰直線を使用し;『3次』当てはめは、ポイントの数が少なくとも14であれば3次曲線を使用し、それ以外の場合には直線を使用する。ほとんどのスペクトル、すなわち74のQTOFスペクトルのうちの49、106のTOFスペクトルのうちの91が3次曲線に適格であった。すべて単位はDaである。
【0050】
ここに示されているとおり、3次曲線は直線回帰よりパフォーマンスがわずかに良好であるに過ぎない。比較すると、通常の重み付けのない最小二乗直線当てはめは、有意に、より悪い結果をもたらす。74のQTOFスペクトルについて、予測されたピークの150ppm内のすべてのピークに対して直線が当てはめられた最小二乗の1ラウンドでは、Med σC=0.0106およびMax σC=0.0366がもたらされているが、それに比べて、2ラウンドのRANSACアルゴリズムの使用を伴う場合には、それぞれ0.0034および0.0058となる。通常の、150ppmおよび0.025Daをスレッショルド(閾値)として使用する2ラウンドの最小二乗は、1ラウンドより有意に良好であり、Med σC=0.0039およびMax σC=0.0076を達成する。
【0051】
再較正におけるより悪い結果は、新しいシーケンスにおけるより悪い結果となった。74のQTOFスペクトルが、変換文字、およびQについてK、MFについてDYといった近い質量の代用を伴うシーケンス等のもっともらしいデコイ(それぞれ200〜1000デコイ)に対してスコアが与えられた。このスコア付けは、識別されたピークの重み付けを、予測された質量に対する近さによって、またその種のピークの観察の何らかの演繹的(アプリオリ)な確率によって行う(その結果、中心のy−イオンが高い重みを有する)。再較正はいずれも、22.5の正解、すなわちもっとも高いスコアのシーケンスが実際に真のシーケンスであったという意味での正解をまったくもたらさなかった。最初に互いのシーケンスと結びつけられた真のシーケンスが関係する5つのスペクトルは、それぞれ1/2の正解としてカウントされた。通常の最小二乗は39の正解をもたらし;2ラウンドの最小二乗は54の正解をもたらし;2ラウンドのRANSACアルゴリズムは62正解をもたらした。最良結果−65の正解−は、3次曲線のオプションを伴わなかった2ラウンドのRANSACアルゴリズムによって得られた。スコア付けのパフォーマンスは、敏感に再較正に依存すると見られる;2ラウンドの最小二乗と直線RANSACアルゴリズムの間のMed σCにおける微差(0.0039対0.0034)は、スコア付けにおける有意の差(20の誤差対9の誤差)となった。
【0052】
図11は、帰納的(ポステリオリ)な再較正の後の全74のQTOFスペクトルのピークの質量誤差を示したヒストグラムである。これには、強いピーク(1から20までのランクを伴うもの)が、弱いピーク(ランク>20)より正確に測定されたことが示されている。なお、図11では、強いピークが弱いピークより正確に測定されることを示している。
【0053】
帰納的(ポステリオリ)な再較正は、イオン−トラップ・データに対しても行われた。イオン‐トラップが構造的誤差を有していないことから、ピーク識別の第1および第2ラウンドの両方において絶対許容範囲(それぞれ0.40Daおよび0.35Da)が使用された。その結果は、表2に含まれている。較正未済のイオン−トラップ・スペクトルは、小さな一定のオフセットを有していたが、これは補正可能であり、Med errU=0.0663がMed|errC|=0.0167に改善されたという事実に反映されている。しかしながら、誤差の標準偏差の有意な改善はなく、Med σU=0.1010はMed σC=0.0996よりそれほど有意に大きくないという事実に反映されている。最悪イオン−トラップ・スペクトルは、それらの誤差においてわずかに線形の傾向を有し、それは、Max σU=0.1920がMed σC=0.1662に改善されたという事実に反映される。
【0054】
[好ましい態様]
(1)前記データ集合を作成するステップは、さらに、
複数のあらかじめ決定済みの分子の質量対電荷比を決定し、前記複数のあらかじめ決定済みの分子の質量対電荷比のそれぞれが前記複数のあらかじめ決定済みの分子の1つから決定され、
前記複数のピークの1つと、前記複数のあらかじめ決定済みの分子の質量対電荷比の1つを比較し、
前記比較のステップに応答して、前記データ集合に含めるために前記複数のピークの前記1つを選択することを含む請求項1に記載の方法。
【0055】
(2)前記データ集合を作成するステップは、さらに、
複数のあらかじめ決定済みの分子の質量対電荷比を決定し、前記複数のあらかじめ決定済みの分子の質量対電荷比のそれぞれが前記複数のあらかじめ決定済みの分子の1つから決定され、
前記複数のピークの1つと、前記複数のあらかじめ決定済みの分子の質量対電荷比の1つを比較し、前記複数のあらかじめ決定済みの分子の質量対電荷比の前記1つが前記複数のあらかじめ決定済みの分子の1つと関連付けされ、
前記複数のあらかじめ決定済みの分子の前記1つについて、分子質量アイソトープ・エンベロープを決定し、
前記複数のピークの前記1つに関連付けされたピークのアイソトープ・エンベロープと、前記分子質量アイソトープ・エンベロープを比較し、
前記複数のピークの1つを比較するステップおよびピークのアイソトープ・エンベロープを比較するステップに応答して、前記データ集合に含めるために前記複数のピークの前記1つを選択することを含む請求項1に記載の方法。
【0056】
(3)複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するためのシステムであって、
質量対電荷比に対応する複数のピークを含む質量スペクトルを維持するべく機能する第1のストレージ・デバイスと、
(i)前記標本に適した複数のあらかじめ決定済みの分子を選択し、(ii)前記複数のピークからピークのペアを包含するデータ集合を作成し、前記ピークのペアのそれぞれは、前記複数のあらかじめ決定済みの分子の1つに割り当てられ、(iii)堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、かつ(iv)前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、再較正済み質量スペクトルを提供するコンピュータ・プログラムを含むコンピュータ実行可能インストラクションを維持するべく機能する第2のストレージ・デバイスと、
前記第1ストレージ・デバイスおよび第2のストレージ・デバイスと通信し、かつ前記コンピュータ・プログラムを実行し、前記再較正済み質量スペクトルを提供するべく機能するプロセッサと、
を含むシステム。
【0057】
(4)複数の巨大分子の質量スペクトルを獲得し、前記質量スペクトルが複数のピークを含み、前記複数のピークのそれぞれを質量対電荷比に対応させ、
前記標本に適した複数のあらかじめ決定済みの分子を選択し、
前記複数のピークからの複数のピークのペアを含むデータ集合を作成し、前記複数のピークのペアのそれぞれが前記複数のあらかじめ決定済みの分子の1つに対して割り当てられ、
堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、
前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、前記再較正済み質量スペクトルを提供すること
を包含する方法を実行するためのコンピュータ実行可能インストラクションを有するコンピュータ可読メディア。
【図面の簡単な説明】
【0058】
【図1】異なる時間に同一のTOF計測器上おいて同一標本から得られた2つの質量スペクトルを示したグラフである。
【図2】異なる時間に同一のTOF計測器上おいて同一標本から得られた2つの質量スペクトルを示したグラフである。これら2つのグラフは、偏差(観察された質量から理論的質量を引いた値)対ピークの測定済み質量のプロットであり、計測器のバイアスがスペクトル間でどのように変化するかを示している。
【図3】種々の例示の実施態様における再較正方法の概略のフローチャートである。
【図4】種々の例示の実施態様における再較正方法の概略のフローチャートである。
【図5】種々の例示の実施態様における再較正方法の概略のフローチャートである。
【図6】種々の例示の実施態様における再較正方法の概略のフローチャートである。
【図7】種々の例示の実施態様における再較正方法の概略のフローチャートである。
【図8】例示の実施態様のシステムの概略図である。
【図9】各ピークにグリカンを割り当てる人間の専門家によるマウスの腎臓スペクトルのマニュアル注釈を示した説明図である。
【図10】各ピークにグリカンを割り当てるRANSACアルゴリズムによるマウスの腎臓スペクトルの自動注釈を示した説明図である。
【図11】ポステリオリな再較正の後の全74のQTOFスペクトル内のピークの質量誤差を示すヒストグラムである。
【符号の説明】
【0059】
400 システム、410 第1のストレージ・デバイス、420 第2のストレージ・デバイス、430 プロセッサ・デバイス、440 入力デバイス、450 出力デバイス、460 質量スペクトル、470 関連情報、480 再較正済み質量スペクトル、490 コンピュータ・プログラム。
【技術分野】
【0001】
例として示すこの実施態様は、測定済み質量が真の質量により近く変換されるように行う測定済み質量スペクトルの再較正における堅牢な統計的方法の使用に関する。質量スペクトロメトリのための較正テクニックに関連する特定の応用が見出されており、特にそれに言及して説明を行う。
【背景技術】
【0002】
測定の不確かさは、スペクトル計の精度ならびにバイアスの正確な評価によって最小化される。使用する計測器のタイプには内在的な精度の上限がある。たとえば、FTMSは1〜2ppmの精度(代表的な1000Daのm/zにおいて0.001Da)を有し、QTOFは10ppmの公称精度(0.01Da)を有する。しかしながら、精度は計測器のセットアップに応じても変化する。バイアスのための補正を行うパラメータもまた、セットアップごとに、さらにはスペクトルごとに異なるものとなり得る。図1および2に一例が提供されているが、これらは、異なる時間に同一のTOF計測器上おいて同一標本から得られた2つの質量スペクトルを示している。これら2つのグラフは、偏差(観察された質量から理論的質量を引いた値)対ピークの測定済み質量のプロットである。それぞれの場合において、偏差は、ピークの質量とともに直線的に変化する。直線当てはめが示されており、精度(直線に対するポイントの近さ)が類似している場合であってもバイアス(直線の傾き)が極めて異なる(2つのグラフのy軸の間の差に注意)ことは明らかである。
【0003】
【非特許文献1】ルソー(Rousseeuw)PJ、およびレロイ(Leroy)AM著『堅牢退行及びアウトライア検出(Robust Regression and Outlier Detection)』、ジョン・ウィリー・アンド・サンズ(John Wiley & Sons)出版(1987年)
【非特許文献2】フィシュラー(Fischler)MAほか著『コミュニケーション・オフ・ザACM(Communications of the ACM)』、24(6)、p381-395(1981年)
【非特許文献3】サットン-スミス(Sutton?Smith)Mほか著『テトラヘドン:アシンメトリ(Tetrahedon: Asymmetry)』、11(2)、p363?369(2000年)
【非特許文献4】デル(Dell)Aほか著『セル・バイオロジー(Cell Biology):ア・ラボラトリ・ハンドブック(A Laboratory Handbook)』第4巻、J.E.セリス(Celis)編集、アカデミック・プレス(Academic Press)サンディエゴ、インプレス
【発明の開示】
【発明が解決しようとする課題】
【0004】
この例示の実施態様は、上記ならびにそのほかの問題を克服する新しい改善された較正方法、関連システム、およびメディアを企図している。
【課題を解決するための手段】
【0005】
この例示の実施態様の第1の側面においては、複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するための方法が提供される。この方法は、複数の巨大分子の質量スペクトルの獲得を包含する。質量スペクトルは、複数のピークを含み、そのそれぞれが質量対電荷比に対応する。またこの方法は、標本に適した複数のあらかじめ決定済み分子の選択も包含する。
【0006】
さらにこの方法は、複数のピークの部分集合を包含するデータ集合の作成を包含し、それにおいて複数のピークの部分集合内の各ピークは、複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられる。またこの方法は、堅牢な統計的方法をデータ集合に適用して少なくとも1つの変換パラメータを計算することも包含する。それに加えて、この方法は、その変換パラメータのうちの少なくとも1つを使用することによる質量スペクトルの変換を包含し、それによって再較正済み質量スペクトルを提供する。
【0007】
別の態様において、この例示の実施態様は、複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するための方法を提供する。この方法は、複数の巨大分子の質量スペクトルの獲得を含む。質量スペクトルは、複数のピークを含み、そのそれぞれが質量対電荷比に対応する。またこの方法は、標本に適した複数のあらかじめ決定済み分子の選択も含む。さらにこの方法は、複数のピークからの複数のピークのペアを包含するデータ集合の作成を含み、それにおいてピークのペアのそれぞれは、複数のあらかじめ決定済みの分子の1つに対して割り当てられる。またこの方法は、堅牢な統計的方法をデータ集合に適用して少なくとも1つの変換パラメータを計算することも含む。それに加えて、この方法は、その少なくとも1つの変換パラメータを使用することによる質量スペクトルの変換を含み、それによって再較正済み質量スペクトルを提供する。
【0008】
別の態様においてこの例示の実施態様は、複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するためのシステムを提供する。このシステムは、質量スペクトルを維持するべく機能する第1のストレージ・デバイスを含む。質量スペクトルは複数のピークを含み、複数のピークのそれぞれは、質量対電荷比に対応する。またこのシステムは、(i)標本に適した複数のあらかじめ決定済みの分子を選択し、(ii)複数のピークの部分集合を含むデータ集合を作成し、それにおいて複数のピークの部分集合の各ピークは、複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられ、(iii)そのデータ集合に堅牢な統計的方法を適用して少なくとも1つの変換パラメータを計算し、かつ(iv)その少なくとも1つの変換パラメータを使用して質量スペクトルを変換し、それによって再較正済み質量スペクトルを提供するコンピュータ・プログラムを含むコンピュータ実行可能インストラクションを維持するべく機能する第2のストレージ・デバイスを含む。さらにこのシステムは、第1および第2のストレージ・デバイスと通信し、かつそのコンピュータ・プログラムを実行して再較正済み質量スペクトルを提供するべく機能するプロセッサを含む。
【0009】
さらに別の側面において、この例示の実施態様は、複数の巨大分子の質量スペクトルの獲得を含む方法を実行するためのコンピュータ実行可能インストラクションを有するコンピュータ可読メディアを提供する。質量スペクトルは、複数のピークを含み、そのそれぞれが質量対電荷比に対応する。またこの方法は、標本に適した複数のあらかじめ決定済み分子の選択も含む。さらにこの方法は、複数のピークの部分集合を包含するデータ集合の作成を含み、それにおいて複数のピークの部分集合の各ピークは、複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられる。またこの方法は、堅牢な統計的方法をデータ集合に適用して少なくとも1つの変換パラメータを計算することも含む。それに加えて、この方法は、その少なくとも1つの変換パラメータを使用することによる質量スペクトルの変換を含み、それによって再較正済み質量スペクトルを提供する。
【発明を実施するための最良の形態】
【0010】
未知の巨大分子または断片の質量スペクトルを、スペクトル自体のピークを使用して再較正し、それによって分子識別を実行する能力を向上させるための新しい方法が提供されている。ここで使用されている表現『再較正』は、測定済みm/zの読みがそのm/zの読みの『真の』値に近くなるように、スペクトルのピークおよび/またはピーク間の差に対して特定の分子の仮の割り当てを行うことを基礎とした測定済みm/zの読みの補正を言う。この方法は、3つの異なる試験所から得られたTOF、QTOF、およびイオン−トラップ計測器からのグリカンならびにペプチド・スペクトルに対してテストされたが、飛行時間型質量スペクトル計からのスペクトルに特に適している。再較正の後は、100〜4000Daの全質量範囲にわたってTOFスペクトルの精度が、通常、約0.03Daとなる。QTOFスペクトルの精度は、100〜2000Daの質量範囲にわたって、通常、約0.005ダルトンである。この精度は、一般に自己較正前に観察される50〜100ppm(すなわち、1000Daにおいて0.1Da)より有意に良好であり、10ppmとする計測器製造業者の公称精度さえも上回る。この改良は、識別のためのエラー・レートの大きな縮小となる。
【0011】
なお、図1、図2に示すこれら2つのグラフは、偏差(観察された質量から理論的質量を引いた値)対ピークの測定済み質量のプロットであり、計測器のバイアスがスペクトル間でどのように変化するかを示している。
【0012】
主要なストラテジは、測定済み質量スペクトルの再較正に対する堅牢な統計的方法の適用である。この『堅牢』という表現は、任意量による単一データ・ポイントの変更が、式または計算の結果を任意量により変化させない統計的方法を言う。質量スペクトルの再較正において堅牢な統計的方法を使用する利点は、その種の方法が非常に多くの数の不正確なデータポイントを許容しており、それにもかかわらず正しい結果を見つけ出せることである。
【0013】
概して言えば、この方法は、標本またはその標本内の分子の質量スペクトルの獲得することを伴う。またこの方法は、標本、その標本内に含まれると考えられている分子に関する情報、あるいはその標本内の分子を決定するために使用できる情報の獲得も伴う。その種の情報の特定の例として、限定する意図ではないが、アイソトープ・エンベロープに関する情報;標本内の分子、断片、イオン、またはそれらの組成物に関する情報;およびそのほかの分子、断片、イオン、またはそれらの組成物に関する情報が挙げられる。特定のストラテジにおいては、これらの情報がアイソトープの質量の分布に関係することがある。例示の実施態様の特定の変形においては、ここに述べた情報を少なくとも部分的に使用し、質量スペクトルに対して候補識別が割り当てられるか作られる。これらの初期識別からデータ集合が準備される。1ないしは複数の比較を行ってデータ集合を生成することができる。このデータに対して堅牢な統計的方法が実行されて1ないしは複数の変換パラメータが生成され、続いてそれが質量スペクトルの変換に使用されて、再較正済み質量スペクトルが提供される。
【0014】
特に質量スペクトルについて、この例示の実施態様のストラテジは、既知の真の質量
【数1】
を有する観察された質量miのいくつかのピークを見つけ出し、
【数2】
をmiに対してプロットすることである。QTOF質量スペクトル計の場合には、この曲線が直線に非常に近くなる。妥当な評価がピークのいくつかの真の質量からなされるとき、適正な評価が滑らかな曲線上に位置することになり、堅牢な統計における周知のテクニックを使用してその曲線を見つけ出し、不正確な評価(または『アウトライア』)の中から正しい評価(または『線上の』)見分けることが可能になる。この種の統計的テクニックの1つが、最小二乗平均法(『LMS』)である。非特許文献1を参照されたい。LMSの実際的な具体化は、『ランダムサンプリング一致(Random Sampling Consensus)』またはRANSACを使用する。RANSACについてのさらに詳しい情報は、非特許文献2から得ることができる。質量スペクトルの場合は、y=Ax+Bの形式のアフィン(affine)変換が求められ、それにおいてxは測定済み質量、yは真の質量である。
【0015】
LMS計算の一例を示すと次のようになる。平面内のn個のポイントからなるデータ集合Pが識別され、そのいくつかが直線上にあるが、多くは外れている。目的は、この直線の式を明らかにすることである。k個のポイントからなる複数の部分集合SjがPからランダムに選択され、それにおいて、kはnに比べて小さい数であり、jは部分集合の数であり、一般に大きな数になる。概して言えば、kおよびjは、充分に大きな数jにわたって部分集合Sjがアウトライアに汚染させることなく、良好な回帰線を提供するように選択される。その後、以下の方法によって各部分集合Sjにスコアが与えられる。最初に、周知の最小二乗法を使用してk個のポイントに直線が当てはめられる。続いて、P内の各ポイントについて、そのポイントから当てはめ直線までの垂直距離が決定される;この距離は、残余として知られている。P内の各ポイントについての残余が平方される。平方後の残余のメディアンが決定され、その部分集合Sjのためのスコアとしてそれが使用される。もっとも低いスコアを伴う部分集合Sjによって決定される直線が、『真の』直線を表すとして採用される。『真の』直線の評価は、その後さらに、P内の各ポイントを『直線上』または『アウトライア』として分類した後、『直線上』として分類済みのポイントだけを用いて直線の式の再評価を行うことによって改良される。
【0016】
ペプチドの場合には、通常、質量スペクトル上のピークがアミノ酸の特異シーケンスに属するとしてのラベル付けが困難である。単一アミノ酸を表すピークが生じることはほとんどない。アミノ酸の組み合わせが類似の質量を有することも可能である。たとえば、PT(198.101Da)およびVV(198.136Da)等のアミノ酸ペアが計測器の精度内の質量を持つとき、b2またはy2イオンを指定することは困難となり得る。したがって、この例示の実施態様は、測定済み質量自体ではなく測定済み質量の間における差を使用する。続いてこれらの差と既知の『真の』質量を比較する。たとえば、スペクトルが、400.200、515.223および662.289に強度のピークを含むとき、最初の差(515.223−400.200=115.023)がアミノ酸D(115.027 Da)に、2番目の差(662.289−515.223=147.066)がアミノ酸F(147.068 Da)に対応するとの結論は、仮に400.200におけるピークに属する特異シーケンスが決定できなかったとしても妥当性がある。その後これらの差を使用し、ポイント(0,0)、(115.023,115.027)、および(262.089,262.095)に対する最小二乗を使用して直線を当てはめることによって勾配Aを評価することができる。
【0017】
切片Bは、二重荷電イオンを使用することによって評価可能である。たとえば、スペクトルが775.402Daにピークを含み、二重荷電イオンについてのピークを388.200に含むとき、式A×775.402+B=(A×388.200+B)−1.0073と記述することが可能であり、それにおいて1.0073は、プロトンの質量である。Bの評価を、Aの評価と組み合わせて獲得することができる。その後、アフィン変換y=Ax+Bをすべての質量測定値に対して適用する。
【0018】
堅牢な統計的方法、特にLMSが適用されて、標本グリカンの質量スペクトルの再較正が行われる。良好なアイソトープ・エンベロープならびに、予測された質量と観察された質量の間に小さい誤差を伴うピークが識別される。続いてLMSが使用され、標本質量スペクトルと、既知のあるいは理論的なグリカンの質量スペクトルが比較されてバイアスを表す勾配Aが評価され、その後、再較正が行われて全プロセス(ピークの識別および再較正を含む)が反復される。この反復は、完全に較正未済の飛行時間型スペクトルからのピークの識別が困難であることから重要である。困難は、誤差が質量とともに直線的に成長し、高い質量ピークについて非常に大きくなることであり、そのため最初の反復がしばしば、1000Daといった小さい質量を伴うピークだけを識別することになる。少ない数のラウンドの後に反復が終了し、スペクトルのすべての測定済み質量に対してアフィン変換y=Ax+Bが適用される。
【0019】
堅牢な統計的方法、特にLMSが適用されて、標本ペプチドの質量スペクトルの再較正が行われる。標本ペプチドの質量スペクトルを、既知のペプチドのデータベースと比較し、ベストマッチ(最良調和)を決定する比較の前にLMSを使用してそれらの質量スペクトルを再較正することができる。それに代えて、新しいペプチド・シーケンスの場合には、LMSを使用して標本ペプチドの質量スペクトルと理論的なペプチドの質量スペクトルを比較し、勾配Aを評価することができる。
【0020】
このほかの、反復最小二乗等の堅牢な統計的方法を使用し、標本巨大分子の質量スペクトルの再較正を行う。反復最小二乗法においては、P内のすべてのポイントについて最小二乗法を使用し、AおよびBが解決される。もっとも多くの誤差(たとえば最悪の20%)を伴うポイントが削除され、最小二乗法が再び繰り返される。
【0021】
広い配列の巨大分子の、特に質量スペクトルの分析を再較正し、あるいは取り扱うことができる。たとえば、巨大分子をペプチド、グリカン、あるいは脂質とすることができる。ここで使用される場合、表現『ペプチド』は、化学的に互いにリンクした2もしくはそれを超える数のアミノ酸を言う。アミノ酸の数が比較的大きい場合に、しばしばそのストリングがポリペプチドと呼ばれる。より詳細に述べれば、巨大分子は、質量に対する何らかの制限、たとえばペプチドがアミノ酸の小さい集合からなるとの制限を含む任意クラスの分子からなるとすることができる。別の例としては、多糖類を、糖の小さい集合からなると制限することができる。また巨大分子を、アミノ酸、イオン化ペプチド、イオン化ポリペプチド、イオン化アミノ酸、あるいはそれらの混合とすることも可能である。さらには巨大分子を、糖、でんぷん、セルロース、単糖類、二糖類、オリゴ糖類、イオン化グリカン、イオン化糖類、イオン化でんぷん、イオン化セルロース、イオン化単糖類、イオン化二糖類、イオン化オリゴ糖類、あるいはそれらの混合とすることも可能である。この例示の実施態様は、非生物学的分子の分析に対しても適応することができる。
【0022】
ここで特に図3を参照すると方法100が提供されており、この方法100においては、シーケンスまたは方法が110において開始される。ピークの集合を含む入力質量スペクトルが、120において獲得される。標本に適したあらかじめ決定済みの分子が130において選択される。140において、ピークの集合の部分集合を包含するデータ集合が入力質量スペクトルから作成される。このデータ集合に対して堅牢な統計的方法が150において適用され、1ないしは複数の変換パラメータが計算される。160においては、この1ないしは複数の計算された変換パラメータを使用して質量スペクトルが変換され、再較正済み質量スペクトルが提供される。このシーケンスは、オペレータによる終了時に170において停止するか、反復される。
【0023】
いくつかの代替実施態様においては、ピークの集合の部分集合を包含するデータ集合を作成する140における操作が次のように行われる。図4を参照すると、図3のプロセス130から142Aに進み、あらかじめ決定済みの分子のm/z比の集合が決定される。それに加えて143Aにおいては、質量スペクトルから入力質量スペクトルのm/z比の集合が決定される。これらのm/z比は、144Aにおいて比較され、その結果が146Aにおいて使用されてデータ集合が組み立てられる。
【0024】
図5においては、140におけるデータ集合を作成する操作を、次のように実行することができる。あらかじめ決定済みのm/z比の集合が141Bにおいて決定される。142Bにおいては、入力質量スペクトルのm/z比の集合が決定される。続いてあらかじめ決定済みのm/z比と入力質量スペクトルのm/z比が143Bにおいて比較される。あらかじめ決定済みの分子のうちの少なくとも1つについて、分子質量のアイソトープ・エンベロープが144Bにおいて決定される。その後、あらかじめ決定済みのm/z比に関連付けされたエンベロープと、入力質量のm/z比に関連付けされたエンベロープを146Bにおいて比較する。そのポイントにおいて比較146Bの結果を使用し、148Bにおいてデータ集合を作成する。
【0025】
再較正のための代替方法200は、図6に示されるとおりに提供される。このシーケンスは、210において開始される。ピークの集合を含む入力質量スペクトルが、220に入力される。標本に適したあらかじめ決定済みの分子が230において選択される。このピークの集合からピークのペアの集合を含むデータ集合が作成される。このデータ集合に対し、250において堅牢な統計的方法が適用されて1ないしは複数の変換パラメータが計算される。260においては、この1ないしは複数の変換パラメータを使用して質量スペクトルが変換され、再較正済み質量スペクトルが提供される。このシーケンスは、オペレータによる終了時に270において停止するか、反復される。
【0026】
図7に示されているとおり、データ集合を作成する240における操作は、いくつかの応用において次のように行うことができる。242においては、あらかじめ決定済みの分子のm/z比の集合が決定される。ピークのペアの集合の1つのピーク間の差の1つと、あらかじめ決定済みの分子のm/z比の集合の1つが244において比較される。246において、ピークのペアの集合の1つが、データ集合に含めるために選択される。
【0027】
このシステムは、概して質量スペクトル・データならびに関連情報、およびコンピュータによる分析ならびにここで説明している方法を実行するコンピュータ・プログラムをストアする、コンピュータ可読メディア等の情報ならびにデータを保持するための1ないしは複数のストレージ・デバイスを包含する。さらにこのシステムは、プロセッサ、入力デバイス、およびオプションの出力デバイスを包含する。ここで用いている表現『コンピュータ可読メディア』は、任意タイプのコンピュータ・メモリまたはストレージ・デバイスを含み、限定するものではないが、フレキシブルディスク、ハードディスク、CD‐ROM、フラッシュROM、不揮発性ROM、およびRAM等である。
【0028】
ここで特に図8を参照すると、第1のストレージ・デバイス410、第2のストレージ・デバイス420、プロセッサ・デバイス430、入力デバイス440、および出力デバイス450を含むシステム400が例示されている。各デバイスは、有線またはワイヤレス通信パス、たとえばネットワーク、シリアルもしくはパラレル・ポート、またはそのほかの任意の適切な通信手段等を介してプロセッサ・デバイス430と通信する。このシステム400は、標本の再較正済み質量スペクトルを提供し、その標本は、1ないしは複数の巨大分子を含むことができる。システム400は、第1のストレージ・デバイス410を含み、第1のストレージ・デバイス410が質量スペクトル460、質量スペクトルに対応する関連情報470、および再較正済み質量スペクトル480を維持するべく機能する。またシステム400は、第2のストレージ・デバイス420も含み、第2のストレージ・デバイス420が種々の異なる構成でプログラム可能なコンピュータ・プログラム490を含むコンピュータ実行可能インストラクションを維持する。コンピュータ・プログラム490は、ピークまたはその種のピークを示す情報の集合を含む質量スペクトルの入力および/または保持を行うべくプログラムすることができる。またコンピュータ・プログラム490は、あらかじめ決定済みの、標本に適した分子を選択するべくプログラムすることができる。さらにコンピュータ・プログラム490は、追加として、ピークの集合の部分集合を構成するデータ集合を作成するべくプログラムすることができる。別の構成においては、コンピュータ・プログラム490を、ピークまたはその種のピークを示す情報の集合を含む質量スペクトルの入力および/または保持を行うべくプログラムすることができる。またコンピュータ・プログラム490は、あらかじめ決定済みの、標本に適した分子を選択するべくプログラムすることができる。さらにコンピュータ・プログラム490は、ピークの集合からピークのペアの集合を構成するデータ集合を作成するべくプログラムすることができる。いずれの構成においても、コンピュータ・プログラム490がデータ集合に対して堅牢な統計的方法を適用し、それによって少なくとも1つの変換パラメータを提供する。またコンピュータ・プログラム490は、その少なくとも1つの変換パラメータを使用することによって質量スペクトル460を変換し、それによって再較正済み質量スペクトル480を提供する。出力デバイス450は、概して再較正済み質量スペクトルの視覚的な例示、またはグラフィック表現を提供する。理解されるとおり、出力デバイス450は、プリンタ・デバイスおよび/またはディスプレイ・デバイスとすることができる。また出力デバイス450が通信ポートを含むこともあり、それを介して再較正済み質量スペクトル480のようなデータをほかのデバイスへ伝えることができる。
【0029】
第1および第2のストレージ・デバイス410,420は、別体のデバイスとして示されている。しかしながら別の実施態様においては、第1および第2のストレージ・デバイス410,420の内容を共通のストレージ・デバイス内にストア(格納)することができる。それとは異なり、図8に示されている2つに代えて、3もしくはそれを超える数のストレージ・デバイスを使用してもよい。さらに別の実施態様においては、第1および第2のストレージ・デバイス410,420のうちの1ないしは複数の内容の一部が、プロセッサ・デバイス430に関連付けされたメモリ内に埋め込まれる。
【0030】
入力デバイス440は、キーボード、キーパッド、ポインティング・デバイス、あるいはそのほかのタイプのプロセッサ・デバイス430を操作するためのコントロールを含むことができる。また入力デバイス440は、測定デバイスおよび/または、質量スペクトル460および関連情報470のようなデータを受信することのできる通信ポートを含むこともある。
【0031】
プロセッサ・デバイス430は、プロセッサ・デバイス430が質量スペクトル460および関連情報470からデータを読み取り、データを処理し、再較正済み質量スペクトル480に関連付けされたデータをストアするためのコンピュータ実行可能インストラクションを含むコンピュータ・プログラム490を走らせるか、あるいは実行することができる。このコンピュータ・プログラムはまた、プロセッサ・デバイス430が質量スペクトル460、関連情報470、および/または再較正済み質量スペクトル480から、出力デバイス450に関連付けされたディスプレイ・デバイスおよび/またはプリンタ・デバイスへデータを提供するためのコンピュータ実行可能インストラクションも含むことができる。コンピュータ・プログラムは、プロセッサ・デバイス430が、入力デバイス440に関連付けされた測定デバイスから、あるいは入力デバイス440に関連付けされた通信ポート経由で別のデバイスから質量スペクトル460および/または関連情報470に関連付けされたデータを要求するためのコンピュータ実行可能インストラクションを含むこともある。またこのコンピュータ・プログラムは、プロセッサ・デバイス430が、別のデバイスに対して出力デバイス450に関連付けされた通信ポート経由で質量スペクトル460、関連情報470、および/または再較正済み質量スペクトル480に関連付けされたデータを送信するためのコンピュータ実行可能インストラクションを含むこともある。
【0032】
この方法は、概して、質量対電荷比の比較、または測定済みスペクトルと仮説的スペクトルのピークもしくはピーク間の差の比較から獲得されるデータ集合に対して堅牢な統計的方法を適用することを伴う。堅牢な統計的方法を適用し、それによって少なくとも1つの変換パラメータを提供する。またこの方法は、その少なくとも1つの変換パラメータを使用することによって質量スペクトルを変換し、再較正済み質量スペクトルを提供することも伴う。
【0033】
方法を実行するためのコンピュータ実行可能インストラクションを有するコンピュータ可読メディアは、複数の巨大分子の質量スペクトルの獲得を含む。質量スペクトルは、それぞれが質量対電荷比に対応する複数のピークを包含する。この方法はまた、標本に適した複数のあらかじめ決定済みの分子の選択も包含する。それに加えてこの方法は、複数のピークの部分集合を包含するデータ集合の作成も包含し、それにおいて複数のピークの部分集合のそれぞれは、複数のあらかじめ決定済みの分子のうちの1ないしは複数に割り当てられる。またこの方法は、データ集合に対して堅牢な統計的方法を適用し、少なくとも1つの変換パラメータを計算することを包含する。さらに加えて、この方法は、少なくとも1つの変換パラメータを使用することによって質量スペクトルを変換し、それによって再較正済み質量スペクトルを提供することを包含する。
【0034】
コンピュータ可読メディアは、複数の巨大分子の質量スペクトルの獲得を包含する方法を実行するためのコンピュータ実行可能インストラクションを含む。質量スペクトルは、それぞれが質量対電荷比に対応する複数のピークを包含する。この方法はまた、標本に適した複数のあらかじめ決定済みの分子の選択も包含する。この方法は、それに加えて複数のピークからの複数のピークのペアの集合を包含するデータ集合の作成も包含し、それにおいてピークのペアのそれぞれは、複数のあらかじめ決定済みの分子のうちの1つに割り当てられる。またこの方法は、データ集合に対して堅牢な統計的方法を適用し、少なくとも1つの変換パラメータを計算することを包含する。さらに加えて、この方法は、少なくとも1つの変換パラメータを使用することによって質量スペクトルを変換し、それによって再較正済み質量スペクトルを提供することを包含する。
【実施例1】
【0035】
グリカン質量スペクトルの再較正
マウスの腎臓からN−グリカンの100を超える質量スペクトルが獲得された。N−グリカンは、ペプチド:N−グリカナーゼ(PNGase F)処理により腎臓ペプチド抽出からリリースされ、それに続いて、ここに参照により援用されている非特許文献3に述べられているストラテジのMALDI−TOF質量スペクトロメトリを使用し、質量スペクトロメトリによる分析に先行してパーメチル化を行った。パーメチル化は、非特許文献4に記述されているとおりの水酸化ナトリウム手法を使用して行われた。MALDIデータは、ABIパースペクティブ・バイオシステムズ(ABI Perspective Biosystems)のボイジャーDE(登録商標)sSTR質量スペクトル計を、遅延抽出を伴うリフレクトロン・モードで使用して獲得された。パーメチル化後の標本は10μlのメタノールに溶解され、溶解標本の1μlが、1μlのマトリックス(2,5−ジヒドロ安息香酸)と予混合された後、100ウェルのステンレス製の標本プレートにロードされた。
【0036】
質量スペクトルは、最初の約15の高信頼度のピーク割り当てを見つけることによって再較正された。これらの高信頼度ピークは、比較的高い強度のピーク(通常、もっとも高い200ピークの間)であり、それに割り当てられた潜在的にマッチするグリカンの理論的な値と緊密にマッチ(調和)するアイソトープ・エンベロープを有しており、かつそれに割り当てられた潜在的にマッチするグリカンの理論的な質量に非常に近い(100ppm内)測定済み質量を有していた。各測定済みのピークmiについて、測定済み質量と理論的質量の間の偏差di={mi−(理論的質量)}が計算された。RANSACアルゴリズムが連続的に適用されて、ペア(mi,di)が直線y=Ax+Bに当てはめられ、いずれのピークが高信頼度ピークであるか決定された。測定済み質量mのピークについての補正偏差d’は、直線を基礎とする理論的質量と測定済み質量の差d’=(Am+B)−mである。
【0037】
RANSACアルゴリズムを使用して作成された質量スペクトルのピークに対するグリカンの割り当てと、現在行われているように人間の専門家によって作成された割り当ての比較が行われた。すべての場合において、このアルゴリズムは、質量スペクトル内の観察されたピークに対するグリカンの有望な組成ならびに構造の意味のある割り当てを提供した。一例が、人間の専門家による手書き注記された図9の質量スペクトルと、RANSACアルゴリズムを使用して自動注記された図10の質量スペクトルの比較によって与えられる。15の手書き注記のピークが、RANSACアルゴリズムによっても識別された。15のピークのうちの12について注記はまったく同一であった;残り3つについて、RANSACアルゴリズムは、2つの有望な構造を提供し、その1つは、手書き注記の1つ(専門家による2つの代替注記を伴う2810.3におけるピーク;RANSACアルゴリズムは両方を見つけ出した)と一致した。残りの差は、注記のために選択されたピークの集合における変動に起因する。RANSACアルゴリズムは、もっとも強いピークから開始し、系統的に次の強度に続くという形でピークを選択したが、人間の注記はこの手続きからわずかに逸れていた。
【0038】
ペプチド質量スペクトルの再較正
RANSACアルゴリズムを3つの異なるペプチド質量スペクトルの集合に対して適用した。第1の集合は、マイクロマス(Micromass)Q‐TOF IIスペクトル計上において測定されたウシの血清アルブミン等の共通基準プロテインからの長さ7〜15の、トリプシンによって生じたペプチドの74のQTOFスペクトルから構成した。第2の集合は、マウスの透明帯プロテインからの長さ6〜23の、トリプシンによって生じたペプチドの106のQ−TOFスペクトルから構成した。これらのスペクトルは、分裂の特異性に関係なく、すべてのマウス・プロテインの大きな『デコイ(decoy)』データベースに対してデータベース・サーチを行うことによって識別された。第3の集合は、サーモフィネガン(ThermoFinnegan)LCQ−デカ(LCQ‐Deca)スペクトル計で測定され、NCBI非冗長プロテイン・データベースに対するデータベース・サーチ(SEQUEST)によって識別された、共通基準プロテインからの長さ5〜14のペプチド(トリプシンによって生じたものである必要はない)の101のイオン−トラップ・スペクトルから構成した。
【0039】
RANSACアルゴリズムは、前述の説明から修正された。特に、アルゴリズムは、『真の』直線を表していると決定された部分集合Siのスコアの2.5倍、もしくはマシンの理論的質量精度の評価に対応するユーザ指定の数のいずれかより大きい残余を有するポイントを破棄するべく修正された。この修正は、アルゴリズムがアウトライアの除去に積極的になりすぎることを防ぐ。強いピークが小さいピークより正確になるという観察に基づいて、基本的なアルゴリズムについても最小二乗法ではなく重み付け最小二乗法を使用して『直線上』として分類されたポイントの集合からの直線を改良し、再評価するべく修正を行った。データ・ポイントpの重みは1/(3+Rank(p))であり、それにおいてRank(p)は較正ピークのリスト内のpのランクに等しい(もっとも強いピークについて1、2番目に強いピークについて2というようにそれ以下も続く)。TOF誤差のプロットがわずかなS字形状を有するという観察に基づいて、P内のポイント数が有意に大きい場合には(14もしくはそれを超えるデータ・ポイント)直線に代えて3次曲線を当てはめるべく基本的なアルゴリズムが修正された。
【0040】
RANSACアルゴリズムは、次の態様で適用された。すべてのラダーiについて、評価済み勾配Aiが、ラダーの最初と最後のピークの間の推定された真の差をそれらの測定済みの差で除することによって計算された。評価Aiの重みを、長さ2のラダーについて
【数3】
に、長さ3のラダーについて
【数4】
にそれぞれセットし、それにおいてMDiffは、そのラダー内の最初と最後のピークの間の測定済み質量の差を示し、分母内の和は、ラダー内のピークpにわたって行われるものとした。最終的な勾配Aの評価は、個別の評価Aiの重み付けおよび成形後の平均として決定され、それにおいては、評価の上側20%および下側20%が切り捨てられ、残りの評価から重み付け平均が求められた。
【0041】
演繹的(アプリオリ、a priori)な再較正に関する結果が、ピークを識別する帰納的(ポステリオリ、posteriori)な分析によって決定され、それらを次の表1にリストする。
【表1】
【0042】
これにおいて、errは平均質量誤差(真の質量から測定済み質量を減ずる)を示し、σはスペクトル内のb−およびy−イオンのピークに関する質量誤差の標準偏差を示す。下付き文字は、較正未済(つまりUncalibrated)および較正済み(つまりCalibrated)を表し、Medおよびmaxは、スペクトルに関するメディアンおよび最大を表す。たとえば、Med errUは、較正未済の質量誤差の平均(ピークに関する)のメディアン(スペクトルに関する)である。比較のため、3次の帰納的(ポステリオリ)な再較正は、QTOFについてMed σC=0.0034、TOFについてMed σC=0.0251を与える。すべての単位は、Daである。
【0043】
アルゴリズムのパフォーマンスの最も重要なメトリック(metric)は、再較正後の質量誤差の標準偏差Med σであり、これは質量測定における一定のオフセット(メディアン誤差を増加することになるが、標準偏差は増加なし)が勾配Aのみによって補正できないことによる。結果は、再較正前に『代表的な』QTOFスペクトルが0.0402のオフセット(真の質量から測定済み質量を減ずる;すなわち、測定済み質量は低くなる傾向にある)を有しており、代表的なピークが両方向に0.0220の追加の誤差を有していたと考えることによって解釈できる。再較正の後、スペクトルは両方向に0.0089Daのオフセットを有し、代表的なピークは両方向に0.0072の追加の誤差を有していた。再較正の後、代表的なTOFスペクトルは0.0277のオフセットを有し、代表的なピークは0.0286の追加の誤差を有していた。質量誤差の標準偏差は、Med σUならびにMed σCにおける差によって反映されるとおり、有意に低下した。このアルゴリズムが質量誤差の標準偏差を増加することはなかったが、QTOFスペクトルのうちの3つ、およびTOFスペクトルのうちの21について、標準偏差に20%未満の減少があった。
【0044】
前述したとおり、二重荷電ピークを使用して切片Bの評価可能が行われた。しかしながら、QTOFおよびTOFのいずれも約半分のスペクトルしか識別可能な二重荷電ピークを有してなく、その種のピークを伴うスペクトルであっても、勾配のみを使用して達成されるものより有意に高い精度まで再較正が可能でなかった。たとえば、QTOFについてのMed σCは、0.0072から0.0058に向上したが、TOFについてのMed σCは、0.0286から0.0284に変化したに過ぎない。新しい(de novo)シーケンスについては、Bが相対的なピークの場所、たとえば連続するy−イオンの間の差に影響せず、それらの絶対的な場所にのみ影響することから、Bは、Aより重要性が低い。
【0045】
親イオンの質量もまた再較正が行われた。親の質量の正確な決定は、データベース・ルックアップ方法が使用されるときに候補の消去を補助し、また新しいシーケンスの共通スケール上におけるb−およびy−イオンの配置を補助する。親イオンの質量は、すでにタンデムMSの最初のラウンドで測定されているが、再較正を使用して精度を向上することができる。適格ピークpおよびqの各ペア、すなわちそれらのm/z測定値の和が、親の質量のユーザ指定許容値(QTOFについて0.2Da、TOFについて0.3Da)にプロトンを加えた範囲内となる各ペアは、合計質量の評価を提供する。親イオンの質量は、相補ペアの重み付け平均として再較正され、それにおいて各ペアの平均には、1/(Rank(p)+Rank(q))として重み付けが行われた。相補ペアが存在しないというまれなケースでは、親イオンの質量が変更されなかった。成形後の平均は、通常、質量スペクトル内にわずかな相補ペアしか含まれないために使用されなかった。QTOFについては、メディアン誤差が0.0982から0.0045に向上した;最悪誤差は、0.1968から0.0918に向上した。74のスペクトルのうち1つだけに関しては、再較正によって誤差が悪化し、0.0619から0.0880に変化した。TOFについては、メディアン誤差が0.1902から0.0614に向上した;最悪誤差は、0.4594から0.3272に向上した。106のスペクトルのうち6つに関しては誤差が悪化し、最悪で0.1185から0.1640に変化した。
【0046】
概して言えば、演繹的(アプリオリ)な再較正は非常に成功であり、特にTOFスペクトルについては、達成されたパフォーマンスが帰納的(ポステリオリ)な再較正よりわずかに悪いだけだった。QTOFとTOFの誤差の間の相違は、測定誤差における差からの結果であった。TOFの場合は、測定誤差が切片Bと概略で等しく、したがってBを評価するためのデータの欠如は、主要な問題ではない。それに対してQTOFの測定誤差はBより小さく、約4分の1であり、したがってBを伴う回帰モデルは、部分的な成功が達成されているだけである。
【0047】
帰納的(ポステリオリ)な再較正については、ペプチドのアミノ酸シーケンスが既知であると仮定した。これは、データベースを使用して未知のスペクトルの質量スペクトルに比較するための候補シーケンスを調べるときに生じ得る;各候補シーケンスもまた、正しいシーケンスと見なされる。この正しいシーケンスは、質量スペクトルを良好に再較正し、その結果、多数のピークが予測されたイオンに対応する。これに対して、正しくないシーケンスは、スペクトルをあまり良好に再較正せず、より少ないピークがイオンに対応する。これが正しいことは、各候補シーケンスに対して割り当てられるスコアに反映される。
【0048】
帰納的(ポステリオリ)な再較正の場合、適格ピークが、演繹的(アプリオリ)な再較正とは異なる方法によって選択された。前処理ステップが、より低い強度のピークの通過を可能にし(アミノ酸の数の15倍までのランクを伴う)、またb−およびy−イオンに加えて、a−イオンおよびに水分損失にマッチするピークも考慮された。当初、ユーザ指定の相対許容範囲(QTOFについて150ppm、TOFについて250ppm)内の観察されたピークにマッチする予測されたピークのそれぞれについてデータ・ポイントが定義された。RANSACアルゴリズムが使用されて、それらのポイントに対する回帰直線の当てはめが行われた。その後、再較正の第2ラウンドが実行され、今度はピーク識別のためにユーザ指定の絶対許容範囲(QTOFについて0.025Da、TOFについて0.10Da)が用いられた。RANSACアルゴリズムが使用され、ユーザによって選択されたポイントの新しい集合に対する直線もしくは3次曲線のいずれかの当てはめが行われた。アルゴリズムは、ポイント数が14より少なければ『3次』が選択されていた場合であっても直線当てはめだけを行う。
【0049】
帰納的(ポステリオリ)な再較正に関する結果を次の表2にリストする。
【表2】
これにおいて、errは平均質量誤差(真の質量から測定済み質量を減ずる)を示し、σはスペクトル内のa−、b−およびy−イオンのピーク、およびそれらの水分損失に関する質量誤差の標準偏差を示す。『直線』当てはめは、常に回帰直線を使用し;『3次』当てはめは、ポイントの数が少なくとも14であれば3次曲線を使用し、それ以外の場合には直線を使用する。ほとんどのスペクトル、すなわち74のQTOFスペクトルのうちの49、106のTOFスペクトルのうちの91が3次曲線に適格であった。すべて単位はDaである。
【0050】
ここに示されているとおり、3次曲線は直線回帰よりパフォーマンスがわずかに良好であるに過ぎない。比較すると、通常の重み付けのない最小二乗直線当てはめは、有意に、より悪い結果をもたらす。74のQTOFスペクトルについて、予測されたピークの150ppm内のすべてのピークに対して直線が当てはめられた最小二乗の1ラウンドでは、Med σC=0.0106およびMax σC=0.0366がもたらされているが、それに比べて、2ラウンドのRANSACアルゴリズムの使用を伴う場合には、それぞれ0.0034および0.0058となる。通常の、150ppmおよび0.025Daをスレッショルド(閾値)として使用する2ラウンドの最小二乗は、1ラウンドより有意に良好であり、Med σC=0.0039およびMax σC=0.0076を達成する。
【0051】
再較正におけるより悪い結果は、新しいシーケンスにおけるより悪い結果となった。74のQTOFスペクトルが、変換文字、およびQについてK、MFについてDYといった近い質量の代用を伴うシーケンス等のもっともらしいデコイ(それぞれ200〜1000デコイ)に対してスコアが与えられた。このスコア付けは、識別されたピークの重み付けを、予測された質量に対する近さによって、またその種のピークの観察の何らかの演繹的(アプリオリ)な確率によって行う(その結果、中心のy−イオンが高い重みを有する)。再較正はいずれも、22.5の正解、すなわちもっとも高いスコアのシーケンスが実際に真のシーケンスであったという意味での正解をまったくもたらさなかった。最初に互いのシーケンスと結びつけられた真のシーケンスが関係する5つのスペクトルは、それぞれ1/2の正解としてカウントされた。通常の最小二乗は39の正解をもたらし;2ラウンドの最小二乗は54の正解をもたらし;2ラウンドのRANSACアルゴリズムは62正解をもたらした。最良結果−65の正解−は、3次曲線のオプションを伴わなかった2ラウンドのRANSACアルゴリズムによって得られた。スコア付けのパフォーマンスは、敏感に再較正に依存すると見られる;2ラウンドの最小二乗と直線RANSACアルゴリズムの間のMed σCにおける微差(0.0039対0.0034)は、スコア付けにおける有意の差(20の誤差対9の誤差)となった。
【0052】
図11は、帰納的(ポステリオリ)な再較正の後の全74のQTOFスペクトルのピークの質量誤差を示したヒストグラムである。これには、強いピーク(1から20までのランクを伴うもの)が、弱いピーク(ランク>20)より正確に測定されたことが示されている。なお、図11では、強いピークが弱いピークより正確に測定されることを示している。
【0053】
帰納的(ポステリオリ)な再較正は、イオン−トラップ・データに対しても行われた。イオン‐トラップが構造的誤差を有していないことから、ピーク識別の第1および第2ラウンドの両方において絶対許容範囲(それぞれ0.40Daおよび0.35Da)が使用された。その結果は、表2に含まれている。較正未済のイオン−トラップ・スペクトルは、小さな一定のオフセットを有していたが、これは補正可能であり、Med errU=0.0663がMed|errC|=0.0167に改善されたという事実に反映されている。しかしながら、誤差の標準偏差の有意な改善はなく、Med σU=0.1010はMed σC=0.0996よりそれほど有意に大きくないという事実に反映されている。最悪イオン−トラップ・スペクトルは、それらの誤差においてわずかに線形の傾向を有し、それは、Max σU=0.1920がMed σC=0.1662に改善されたという事実に反映される。
【0054】
[好ましい態様]
(1)前記データ集合を作成するステップは、さらに、
複数のあらかじめ決定済みの分子の質量対電荷比を決定し、前記複数のあらかじめ決定済みの分子の質量対電荷比のそれぞれが前記複数のあらかじめ決定済みの分子の1つから決定され、
前記複数のピークの1つと、前記複数のあらかじめ決定済みの分子の質量対電荷比の1つを比較し、
前記比較のステップに応答して、前記データ集合に含めるために前記複数のピークの前記1つを選択することを含む請求項1に記載の方法。
【0055】
(2)前記データ集合を作成するステップは、さらに、
複数のあらかじめ決定済みの分子の質量対電荷比を決定し、前記複数のあらかじめ決定済みの分子の質量対電荷比のそれぞれが前記複数のあらかじめ決定済みの分子の1つから決定され、
前記複数のピークの1つと、前記複数のあらかじめ決定済みの分子の質量対電荷比の1つを比較し、前記複数のあらかじめ決定済みの分子の質量対電荷比の前記1つが前記複数のあらかじめ決定済みの分子の1つと関連付けされ、
前記複数のあらかじめ決定済みの分子の前記1つについて、分子質量アイソトープ・エンベロープを決定し、
前記複数のピークの前記1つに関連付けされたピークのアイソトープ・エンベロープと、前記分子質量アイソトープ・エンベロープを比較し、
前記複数のピークの1つを比較するステップおよびピークのアイソトープ・エンベロープを比較するステップに応答して、前記データ集合に含めるために前記複数のピークの前記1つを選択することを含む請求項1に記載の方法。
【0056】
(3)複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するためのシステムであって、
質量対電荷比に対応する複数のピークを含む質量スペクトルを維持するべく機能する第1のストレージ・デバイスと、
(i)前記標本に適した複数のあらかじめ決定済みの分子を選択し、(ii)前記複数のピークからピークのペアを包含するデータ集合を作成し、前記ピークのペアのそれぞれは、前記複数のあらかじめ決定済みの分子の1つに割り当てられ、(iii)堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、かつ(iv)前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、再較正済み質量スペクトルを提供するコンピュータ・プログラムを含むコンピュータ実行可能インストラクションを維持するべく機能する第2のストレージ・デバイスと、
前記第1ストレージ・デバイスおよび第2のストレージ・デバイスと通信し、かつ前記コンピュータ・プログラムを実行し、前記再較正済み質量スペクトルを提供するべく機能するプロセッサと、
を含むシステム。
【0057】
(4)複数の巨大分子の質量スペクトルを獲得し、前記質量スペクトルが複数のピークを含み、前記複数のピークのそれぞれを質量対電荷比に対応させ、
前記標本に適した複数のあらかじめ決定済みの分子を選択し、
前記複数のピークからの複数のピークのペアを含むデータ集合を作成し、前記複数のピークのペアのそれぞれが前記複数のあらかじめ決定済みの分子の1つに対して割り当てられ、
堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、
前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、前記再較正済み質量スペクトルを提供すること
を包含する方法を実行するためのコンピュータ実行可能インストラクションを有するコンピュータ可読メディア。
【図面の簡単な説明】
【0058】
【図1】異なる時間に同一のTOF計測器上おいて同一標本から得られた2つの質量スペクトルを示したグラフである。
【図2】異なる時間に同一のTOF計測器上おいて同一標本から得られた2つの質量スペクトルを示したグラフである。これら2つのグラフは、偏差(観察された質量から理論的質量を引いた値)対ピークの測定済み質量のプロットであり、計測器のバイアスがスペクトル間でどのように変化するかを示している。
【図3】種々の例示の実施態様における再較正方法の概略のフローチャートである。
【図4】種々の例示の実施態様における再較正方法の概略のフローチャートである。
【図5】種々の例示の実施態様における再較正方法の概略のフローチャートである。
【図6】種々の例示の実施態様における再較正方法の概略のフローチャートである。
【図7】種々の例示の実施態様における再較正方法の概略のフローチャートである。
【図8】例示の実施態様のシステムの概略図である。
【図9】各ピークにグリカンを割り当てる人間の専門家によるマウスの腎臓スペクトルのマニュアル注釈を示した説明図である。
【図10】各ピークにグリカンを割り当てるRANSACアルゴリズムによるマウスの腎臓スペクトルの自動注釈を示した説明図である。
【図11】ポステリオリな再較正の後の全74のQTOFスペクトル内のピークの質量誤差を示すヒストグラムである。
【符号の説明】
【0059】
400 システム、410 第1のストレージ・デバイス、420 第2のストレージ・デバイス、430 プロセッサ・デバイス、440 入力デバイス、450 出力デバイス、460 質量スペクトル、470 関連情報、480 再較正済み質量スペクトル、490 コンピュータ・プログラム。
【特許請求の範囲】
【請求項1】
複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するための方法であって、
前記複数の巨大分子の質量スペクトルを取り込み、前記質量スペクトルが複数のピークを含み、前記複数のピークのそれぞれを質量対電荷比に対応させ、
前記標本に適した複数のあらかじめ決定済みの分子を選択し、
前記複数のピークの部分集合を含むデータ集合を作成し、前記複数のピークの前記部分集合の各ピークが、前記複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられ、
堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、
前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、前記再較正済み質量スペクトルを提供することを含む方法。
【請求項2】
複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するための方法であって、
前記複数の巨大分子の質量スペクトルを取り込み、前記質量スペクトルが複数のピークを含み、前記複数のピークのそれぞれを質量対電荷比に対応させ、
前記標本に適した複数のあらかじめ決定済みの分子を選択し、
前記複数のピークからの複数のピークのペアを含むデータ集合を作成し、前記ピークのペアのそれぞれが前記複数のあらかじめ決定済みの分子の1つに対して割り当てられ、
堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、
前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、前記再較正済み質量スペクトルを提供することを含む方法。
【請求項3】
複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するためのシステムであって、
それぞれの複数のピークが質量対電荷比に対応する複数のピークを含む質量スペクトルを維持するべく機能する第1のストレージ・デバイスと、
(i)前記標本に適した複数のあらかじめ決定済みの分子を選択し、(ii)前記複数のピークの部分集合を含むデータ集合を作成し、前記複数のピークの前記部分集合の各ピークは、前記複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられ、(iii)堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、かつ(iv)前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、それにより再較正済み質量スペクトルを提供するコンピュータ・プログラムを含むコンピュータ実行可能インストラクションを維持するべく機能する第2のストレージ・デバイスと、
前記第1ストレージ・デバイスおよび第2のストレージ・デバイスと通信し、かつ前記コンピュータ・プログラムを実行し、前記再較正済み質量スペクトルを提供するべく機能するプロセッサと
を含むシステム。
【請求項4】
複数の巨大分子の質量スペクトルを獲得し、前記質量スペクトルが複数のピークを含み、前記複数のピークのそれぞれを質量対電荷比に対応させ、
前記標本に適した複数のあらかじめ決定済みの分子を選択し、
前記複数のピークの部分集合を含むデータ集合を作成し、前記複数のピークの前記部分集合の各ピークが、前記複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられ、
堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、
前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、前記再較正済み質量スペクトルを提供すること
を包含する方法を実行するためのコンピュータ実行可能インストラクションを有するコンピュータ可読メディア。
【請求項1】
複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するための方法であって、
前記複数の巨大分子の質量スペクトルを取り込み、前記質量スペクトルが複数のピークを含み、前記複数のピークのそれぞれを質量対電荷比に対応させ、
前記標本に適した複数のあらかじめ決定済みの分子を選択し、
前記複数のピークの部分集合を含むデータ集合を作成し、前記複数のピークの前記部分集合の各ピークが、前記複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられ、
堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、
前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、前記再較正済み質量スペクトルを提供することを含む方法。
【請求項2】
複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するための方法であって、
前記複数の巨大分子の質量スペクトルを取り込み、前記質量スペクトルが複数のピークを含み、前記複数のピークのそれぞれを質量対電荷比に対応させ、
前記標本に適した複数のあらかじめ決定済みの分子を選択し、
前記複数のピークからの複数のピークのペアを含むデータ集合を作成し、前記ピークのペアのそれぞれが前記複数のあらかじめ決定済みの分子の1つに対して割り当てられ、
堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、
前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、前記再較正済み質量スペクトルを提供することを含む方法。
【請求項3】
複数の巨大分子を含む標本の再較正済み質量スペクトルを提供するためのシステムであって、
それぞれの複数のピークが質量対電荷比に対応する複数のピークを含む質量スペクトルを維持するべく機能する第1のストレージ・デバイスと、
(i)前記標本に適した複数のあらかじめ決定済みの分子を選択し、(ii)前記複数のピークの部分集合を含むデータ集合を作成し、前記複数のピークの前記部分集合の各ピークは、前記複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられ、(iii)堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、かつ(iv)前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、それにより再較正済み質量スペクトルを提供するコンピュータ・プログラムを含むコンピュータ実行可能インストラクションを維持するべく機能する第2のストレージ・デバイスと、
前記第1ストレージ・デバイスおよび第2のストレージ・デバイスと通信し、かつ前記コンピュータ・プログラムを実行し、前記再較正済み質量スペクトルを提供するべく機能するプロセッサと
を含むシステム。
【請求項4】
複数の巨大分子の質量スペクトルを獲得し、前記質量スペクトルが複数のピークを含み、前記複数のピークのそれぞれを質量対電荷比に対応させ、
前記標本に適した複数のあらかじめ決定済みの分子を選択し、
前記複数のピークの部分集合を含むデータ集合を作成し、前記複数のピークの前記部分集合の各ピークが、前記複数のあらかじめ決定済みの分子の1ないしは複数に対して割り当てられ、
堅牢な統計的方法を前記データ集合に適用して少なくとも1つの変換パラメータを計算し、
前記少なくとも1つの変換パラメータを使用することによって前記質量スペクトルを変換し、前記再較正済み質量スペクトルを提供すること
を包含する方法を実行するためのコンピュータ実行可能インストラクションを有するコンピュータ可読メディア。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2006−177953(P2006−177953A)
【公開日】平成18年7月6日(2006.7.6)
【国際特許分類】
【出願番号】特願2005−362957(P2005−362957)
【出願日】平成17年12月16日(2005.12.16)
【出願人】(502096543)パロ・アルト・リサーチ・センター・インコーポレーテッド (393)
【氏名又は名称原語表記】Palo Alto Research Center Incorporated
【Fターム(参考)】
【公開日】平成18年7月6日(2006.7.6)
【国際特許分類】
【出願日】平成17年12月16日(2005.12.16)
【出願人】(502096543)パロ・アルト・リサーチ・センター・インコーポレーテッド (393)
【氏名又は名称原語表記】Palo Alto Research Center Incorporated
【Fターム(参考)】
[ Back to top ]