説明

質量スペクトル分析の計算方法およびシステム

生スペクトル・データを処理することによって、較正済み連続スペクトル・データを得ること、較正済みライブラリ・データを形成するために処理されたライブラリ・スペクトル・データを得ること、および、生スペクトル・データを生成した試料内の成分の濃度を決定するために、較正済み連続スペクトル・データと較正済みライブラリ・データとの間で、好ましくは行列演算(式1)を使用して、最小二乗フィットを実行することを含む、質量分析計からのデータを分析する方法。この方法に従って動作する質量分析計システム(図1)、変換された質量スペクトルのデータ・ライブラリ、およびこのデータ・ライブラリを作る方法。

【発明の詳細な説明】
【技術分野】
【0001】
本願は、その内容全体が参照により本明細書に組み込まれている2003年4月28日出願の米国仮出願第60/466010号からの優先権を主張するものである。本願は、その内容全体を参照により本明細書に組み込む、2003年10月20日出願の米国仮出願第10/689313号からの優先権も主張するものである。
【0002】
本発明は、質量分析システムに関する。より詳細には、本発明は、タンパク質、環境汚染物、石油化学化合物などの大きい有機分子を含む分子の複雑な混合物の分析に有用な質量分析システム、それに使用される分析の方法、およびコンピュータまたはコンピュータと質量分析計の組合せにそのような分析を行わせるためにコンピュータ・コードが組み込まれたコンピュータ・プログラム製品に関する。
【背景技術】
【0003】
過去数年間のヒト・ゲノム解析競争は、ゲノミクスという名前の新しい化学の分野および産業を生み、ゲノミクスは、DNA配列を研究して、メッセンジャRNA(mRNA)での発現およびタンパク質のもとであるペプチドの後続のコーディングを介して遺伝病の原因である遺伝子および遺伝子突然変異を探す。この分野では、遺伝子が、多数の形の癌を含む多数の病気の根底にあるが、これらの遺伝子から翻訳されたタンパク質が、実際の生物学的機能を実行するものであることが明確に立証されている。したがって、これらのタンパク質およびその相互作用の同定および定量化は、病状の理解および新しい治療学の開発の鍵として働く。したがって、2000年夏にヒト・ゲノム・プロジェクトが成功裡に完了し約35,000種のヒト遺伝子が同定された後で、商業投資と学術研究のどちらにおいても遺伝子(ゲノミクス)からタンパク質(プロテオミクス)に急速にシフトしたことは、驚くに値しない。種ごとにより限定できる終点を有するゲノミクスとは異なって、プロテオミクスは、遺伝子発現レベル、環境要因、およびタンパク質間相互作用の変化がタンパク質変動に寄与する可能性があるので、はるかに制約がない。さらに、個人の遺伝子構造は、比較的安定しているが、タンパク質の発現は、さまざまな病状および他の要因に応じて、はるかに動的なものになる可能性がある。この「ポスト・ゲノミクス時代」における課題は、さまざまな生理学的条件の下での複雑な細胞経路、ネットワーク、および「モジュール」を理解する助けとなるように、組織、細胞、または他の生物試料内の有機体によって発現される複雑なタンパク質(すなわちプロテオーム)を分析することである。正常な状態および病気の状態の両方で発現するタンパク質の定量化は、バイオマーカまたは標的タンパク質の発見でクリティカルな役割を演じる。
【0004】
プロテオミクスという急速に進展する分野が提示する課題は、試料調製、試料分離、イメージング、安定同位体標識(isotope labeling)から、質量スペクトル検出(mass spectral detection)まで、所持する非常に高機能の科学機器をもたらした。ますます高次元になる大量のデータ配列が、全世界の産業界と学究的世界の両方において、ゲノミクスおよびプロテオミクスの成果を獲得しようと競って日常的に生成されている。プロテオミクス研究に通常用いられるタンパク質の複雑さおよび(容易に数千種に達する)数の多さに起因して、複雑で時間がかかり骨の折れる物理的分離が、複合試料内の個々のタンパク質を同定し、時として定量化するために実行される。これらの物理的分離は、単一の試料の内容を完全に解明するのに通常要する日、週、さらには月は言うまでもなく、試料処理および情報追跡に対して大量の課題を生み出す。
【0005】
ヒト・ゲノムには約35,000種の遺伝子しかないが、一般集団についておよび治療中または他の病態にある個人についても研究できるヒト・プロテオームには、推定500,000種から2,000,000種のタンパク質がある。たとえば細胞、血液、または尿から取られる通常の試料には、通常、大量の数千種に及ぶ異なるタンパク質が含まれる。過去10年間に、産業界は、試料に存在する多数のタンパク質を分析するために、複数のステージを含むプロセスを普及させてきた。このプロセスを、特筆すべき特徴と共に表1に要約する。
【0006】
【表1】

【0007】
a.単一の試料の分析を完了するのに、数日から数週間または数ヶ月を要する可能性が
ある。
【0008】
b.巨大なハードウェア・システムは、60万ドルから100万ドルのコストがかかり、かなりの運営コスト(人件費および消耗品)、保守コスト、およびそれと関連した研究室スペース・コストを伴う。
【0009】
c.これは、本質的に、それぞれが固体−液体−固体化学処理の別のサイクルを介して1つずつ分析される必要がある数百個から数千個の個々の固体スポットに1つの液体試料を分離する、複数の異なるロボットおよび少数の異なるタイプの機器を含む極端に時間のかかる複雑なプロセスである。
【0010】
d.急速に変化する産業界のためにこれらの部分/ステップを一緒に統合することは、小さい課題ではなく、その結果として、これらのステップのすべてを完全に統合し、自動化する市販システムはまだない。このため、このプロセスは、人間の誤りならびに機械の誤差を伴う。
【0011】
e.このプロセスは、途中のすべてのステップからの試料およびデータの追跡も要求するが、これは、現在の情報科学にとってさえ小さい課題ではない。
【0012】
f.完全な試料およびデータを追跡する情報科学システムを有する完全に自動化されたプロセスについても、これらのデータをどのように管理し、ナビゲートし、そして最も重要なこととして、分析しなければならないかは、明らかではない。
【0013】
g.プロテオミクスのこの早期の段階では、多数の研究者が、タンパク質の定性的同定に満足している。しかし、プロテオミクスの究極の目的は、同定と定量化の両方であり、これによって、卵巣癌診断の血液試料からのタンパク質プロフィールの使用に関する最近の刊行物(E.F.Pertricoin,III他、Lancet、Vol.359、573〜77ページ、2002年)から生じた強い関心によって明示されているように、創薬のためのバイオマーカ同定の領域だけではなく、臨床診断に関する刺激的な応用例の門戸が開かれることになる。現在のプロセスは、タンパク質消失、試料汚染、またはゲル溶解性の欠如に起因して、定量分析に簡単に適合させることができないが、ICAT(同位体コードアフィニティータグ)すなわち、2つの異なる試料供給源からのタンパク質またはタンパク質消化物が同位体原子の対によってラベル付けされ、その後、1つの質量分析法分析で混合される、定量化に対する一般的な手法(Gygi,S.P.他、Nat.Biotechnol.17、994〜999ページ、1999年)などの複雑な化学プロセスの使用による定量的プロテオミクスの試みが行われてきた。
【0014】
同位体コードアフィニティータグ(ICAT)は、米国カリフォルニア州フォスタ・シティのApplied Biosystems社が最近導入した手法の市販版である。この技法では、2つの異なる細胞プールからのタンパク質が、通常の試薬(軽)および重水素置換された試薬(重)を用いてラベル付けされ、1つの混合物に組み合わされる。トリプシン消化の後に、組み合わされた消化混合物が、ビオチン−アフィニティ・クロマトグラフィによる分離を受けて、システインを含むペプチド混合物がもたらされる。この混合物が、さらに、逆相HPLCによって分離され、データ依存質量分析法およびそれに続くデータベース検索によって分析される。
【0015】
この方法では、複雑なペプチド混合物がシステインを含むペプチド混合物に大幅に単純化され、SEQUESTデータベース検索によるタンパク質同定と重ペプチドに対する軽ペプチドの比率による定量化が同時に可能になる。LC/MSと同様、ICATにより、不溶性問題も回避される。というのは、両方の技法が、分離および分析の前に、タンパク質混合物全体をペプチド断片に消化するからである。
【0016】
ICAT技法は、非常に強力であるが、ラベル付けおよび事前分離処理に複数ステップ・プロセスを必要とし、少量タンパク質の消失と、追加の試薬コストをもたらし、さらに、既に低速のプロテオーム解析のスループットを下げる。システインを含むペプチドだけが分析されるので、配列カバレッジ(sequence coverage)は、通常、ICATでは非常に低い。通常のLC/MS/MS実験でそうであるように、タンパク質同定は、うまくいけばシグネチャ・ペプチド(signature peptide)の限られた回数のMS/MS分析を介して達成され、比率定量化に関する唯一の、多くとも少数の標識ペプチドをもたらす。
【0017】
タンデム質量分析と適合された液体クロマトグラフィ(LC/MS/MS)が、プロテイン・シーケンシングに関するえりぬきの方法になってきた(Yates Jr.他、Anal.Chem.67、1426〜1436ページ、1995年)。この方法には、タンパク質の消化、タンパク質消化物から生成されたペプチド混合物のLC分離、得られたペプチドのMS/MS分析、およびタンパク質同定のためのデータベース検索を含む少しのプロセスが含まれる。LC/MS/MSを用いてタンパク質を効果的に同定するための鍵は、データベース検索中の信頼性のあるマッチングを可能にするために、できる限り多くのよい質のMS/MSスペクトルを生じさせることである。これは、四重極機器またはイオン・トラップ機器でのデータ依存走査技法によって達成される。この技法を用いると、質量分析計が、全走査MSスペクトル内で最多のイオンの強度および信号対雑音比を検査し、最多イオンの強度および信号対雑音比が事前に設定された閾値を超えるときMS/MS実験を実行する。通常、3つの最も豊富なイオンが、配列情報を最大にし、必要な時間を最小にするためにプロダクト・イオン走査について選択される。というのも、MS/MS実験に関する3つを超えるイオンの選択は、ことによるとLCから質量分析計に現在溶出している他の資格のあるペプチドの消失をもたらすからである。
【0018】
タンパク質の同定に関するLC/MS/MSの成功は、主に、その多数の顕著な分析特性に起因する。第1に、これは、優れた再現性を有する非常に堅牢な技法である。これは、タンパク質同定に関する高スループットLC/MS/MS分析について信頼性があることが実証されている。第2に、ナノスプレイ・イオン化を使用するとき、この技法は、サブフェンタモル(sub−femtamole)レベルでペプチドの高品質MS/MSスペクトルを生む。第3に、MS/MSスペクトルは、C末端イオンとN末端イオンの両方の配列情報を担持する。この貴重な情報は、タンパク質の同定だけではなく、どの翻訳後修飾(PTM)がタンパク質に生じたかと、どのアミノ酸残基でPTMが起ったかをピンポイントで指摘するのに使用することができる。
【0019】
有機体、細胞系、または組織タイプからの総タンパク質消化物について、LC/MS/MSだけでは、タンパク質の同定に十分な数のよい質のMS/MSスペクトルを生成するのは不十分である。したがって、LC/MS/MSは、通常、2次元電気泳動(2DE)によって分離されたタンパク質などの単一のタンパク質またはタンパク質の単純な混合物の消化を分析するのに使用され、総分析時間に最少の数日を追加し、機器コストと、試料処理の複雑さと、試料追跡のための情報科学の必要を増大させる。全MS走査には試料に関する豊富な情報が含まれる可能性があり、通常は含んでいるが、現在のLC/MS/MS法は、全MS走査内のごく少数のイオンだけについて提供できるMS/MS分析に依拠する。さらに、LC/MS/MSで使用されるエレクトロスプレイ・イオン化(ESI)は、試料からの塩濃度に対して許容範囲が少なく、厳重な試料クリーン・アップ・ステップを必要とする。
【0020】
有機体、細胞系、および組織タイプでのタンパク質の同定は、これらの系の非常に多くのタンパク質(数千種から数万種と推定される)に起因して、極端にむずかしい作業である。LC/LC/MS/MS技術の開発(Link,A.J.他、Nat.Biotechnol.17、676〜682ページ、1999年、およびWashburn,M.P.、Wolters,D. & Yates,J.R.3rd、Nat.Biotechnol.19、242〜247ページ、2001年)は、LC分離の1つの特別な次元を追い求めることによってこの課題を処理する試みの1つである。この手法は、タンパク質混合物全体の消化から始まり、強陽イオン交換(SCX)LCを使用して、塩濃度の階段状の勾配によってタンパク質消化物を分離する。この分離は、極端に複雑なタンパク質混合物を比較的単純化された混合物に変えるのに、通常は10〜20ステップを要する。SCXカラムから溶出した混合物は、さらに、逆相LCに導入され、その後、質量分析法によって分析される。この方法は、イーストおよびヒト骨髄性白血病細胞のミクロゾームからの大量のタンパク質を同定することが実証されている。
【0021】
この技法の明白な利益の1つは、2DEでの不溶性問題が回避されることである。というのは、すべてのタンパク質が、ペプチド断片に消化され、このペプチド断片は、通常、タンパク質よりはるかに溶けやすいからである。その結果、LC/LC/MS/MSを用いると、より多くのタンパク質を検出でき、より広いダイナミック・レンジを達成することができる。もう1つの利益は、クロマトグラフ分離が、広範囲の2D LC分離を介してはなはだしく増え、その結果、より完全で信頼性のあるタンパク質同定のために、より高品質のペプチドのMS/MSスペクトルを生成できることである。第3の利益は、この手法が、潜在的に高いスループットのプロテオーム解析のために現在のLC/MSシステムの枠組みの中でたやすく自動化されることである。
【0022】
しかし、LC/LC/MS/MSでの広範囲の2D LC分離は、完了に1〜2日を要する可能性がある。さらに、この技法だけでは、同定されるタンパク質の定量的情報を提供することができず、ICATなどの定量的方式は、試料損失および余分の複雑さと共に余分の時間および労力を必要とする。広範囲の2D LC分離にかかわらず、まだ、MS/MSデータ収集と連続LC溶出の間の時間の制約に起因してMS/MS実験について選択されないかなりの量のペプチド・イオンがあり、配列カバレッジが低くなる(25%カバレッジが、既に非常によいと考えられる)。LCトレースを後のMS/MS分析用の固体サポートに堆積させる最近の開発は、潜在的に、限られたMS/MSカバレッジの問題に対処できるが、かなり多くの試料処理およびタンパク質損失をもたらし、さらに、試料追跡作業および情報管理作業が複雑になる。
【0023】
マトリックス介助レーザーデソープションイオン化法(MALDI)は、集束レーザー・ビームを使用して、伝導性試料プレート上のマトリックス化合物と共結晶化されているターゲット試料を照射する。イオン化された分子は、パルス化技法としてそれらが共有する特性に起因して、通常、飛行時間型(TOF)質量分析計によって検出される。
【0024】
MALDI/TOFは、その優れた速度、高い感度、広い質量範囲、高い分解能、および汚染物への寛大さのゆえに、2DE分離された無傷のタンパク質を検出するのに一般的に使用されている。遅延抽出および反射型イオン光学系の機能を有するMALDI/TOFは、1〜10ppmの印象的な質量精度と、ペプチドの正確な分析に関して10000〜15000のm/Δmを有する質量分解能を達成することができる。しかし、MALDI/TOFにMS/MS機能がないことが、プロテオミクス応用例での使用に関する主要な制限の1つである。MALDI/TOFでのポストソース分解(PSD)は、ペプチドに関する配列様のMS/MS情報を生成するが、PSDの動作は、しばしば、三連四重極質量分析計またはイオン・トラップ質量分析計の動作ほど堅牢でない。さらに、PSDデータ収集は、ペプチド依存になる可能性があるので、自動化が困難である。
【0025】
新たに開発されたMALDI TOF/TOFシステム(T.Rejtar,他、J.Proteomr.Res.1(2)、171〜179ページ、2002年)は、多くの魅力的な特徴を与える。このシステムは、2つのTOFおよび1つの衝突セルからなり、タンデム四重極システムの構成に似ている。第1TOFは、断片イオンを生成するためにセル内で衝突誘起解離(CID)を受ける前駆イオンを選択するのに使用される。その後、断片イオンが、第2TOFによって検出される。魅力的な特徴の1つは、TOF/TOFが、必要なだけ何度でもデータ依存MS/MS実験を実行できることであり、これに対して、通常のLC/MS/MSシステムは、実験のためにほんのわずかの豊富なイオンだけを選択する。この独自の開発によって、TOF/TOFで産業スケールのプロテオーム解析を実行することが可能になった。提案された解決策は、2D LC実験から分画(fraction)を収集し、MS/MS用のMALDIプレート上に分画をスポッティングすることである。その結果、より多くのMS/MSスペクトルを、データベース検索によるより信頼できるタンパク質同定のために獲得することができる。というのは、TOF/TOF内の高エネルギCIDによって生成されるMS/MSスペクトルの質が、PSDスペクトルよりはるかに良いからである。
【0026】
この手法の主要な短所は、機器の高いコスト(750,000ドル)、長い2D分離、LC分画に関する試料処理の複雑さ、MALDIのための面倒な試料調製プロセス、MALDIを用いる定量化に固有のむずかしさ、ならびにデータおよび試料追跡に関する膨大な情報科学の課題である。分離および必要な試料調製時間に起因して、1試料内の数百種のタンパク質の分析は、少なくとも2日を要する。
【0027】
フーリエ交換イオンサイクロトロン共鳴型(FTICR)MSは、高い感度、高い質量分解能、広い質量範囲、および高い質量精度を提供できる強力な技法である。最近、LCと結合されたFTICR/MSが、精密試料タグ(AMT)を介するプロテオーム解析に関する印象的な能力を示した(Smith,R.D.他、Proteomics.2、513〜523ページ、2002年)。AMTは、タンパク質を排他的に同定するのに使用できる、ペプチドの正確なm/z値である。AMT手法を使用することによって、単一LC/FTICR−MS分析が、潜在的に、1ppmよりよい質量精度で105種を超えるタンパク質を同定できることが実証された。それでも、AMT単独では、ペプチドのアミノ酸残基特異的翻訳後修飾を正確に指摘するのに不十分である可能性がある。さらに、この機器は、75万ドル以上のコストと高い保守要件を有して非常に高価である。
【0028】
プロテイン・アレイおよびプロテイン・チップは、設計概念において遺伝子発現プロファイリングに使用されるオリゴヌクレオチドチップに似た、新生の技術である(Issaq,H.J.他、Biochem Biophys Res Commun.292(3)、587〜592ページ、2002年)。プロテイン・アレイは、注目のタンパク質との特定の相互作用のために化学的に(陽イオン、陰イオン、疎水性、親水性など)または生化学的に(抗体、受容体、DNAなど)処理された表面を含むプロテイン・チップからなる。これらの技術は、親和性化学作用によって提供される特異性およびMALDI/TOFの高い感度を利用し、タンパク質の高スループット検出を提供する。通常のプロテイン・アレイ実験では、多数のタンパク質試料を、特定の表面化学作用を用いて処理されたチップのアレイに同時に適用することができる。望ましくない化学的バックグラウンドおよび生物分子バックグラウンドを洗い落とすことによって、注目のタンパク質が、アフィニティ・キャプチャリング(affinity capturing)に起因してチップにドッキングし、したがって「純化」される。MALDI−TOFによる個々のチップのさらなる分析が、試料内のタンパク質プロフィールをもたらす。これらの技術は、タンパク質間相互作用の調査に理想的である。というのは、タンパク質を親和性試薬として使用して表面を処理して、他の特定のタンパク質との相互作用を監視できるからである。この技術のもう1つの有用な応用例は、病気診断の潜在的ツールとして、正常な組織の試料と病気の組織の試料の間の比較パターンを生成することである。
【0029】
関係する複雑な表面化学作用と、変性、折り畳み、および溶解性の問題など、タンパク質または他のタンパク質様結合剤によって追加される複雑化とに起因して、プロテイン・アレイおよびプロテイン・チップは、遺伝子チップまたは遺伝子発現アレイほど広い応用分野を有しないと予想される。
【0030】
したがって、過去100年間に、MS計測器に関する長足の進歩が見られ、高スループット、高分解能、および高感度動作のために多数の異なるタイプの機器が設計され、作られてきた。計測器は、ほとんどの市販MSシステムで単一イオン検出をおおむね達成できる段階まで開発され、単位質量分解能は、異なる同位元素から得られるイオン・フラグメントの観察を可能にしている。ハードウェアの高度化と全く対照的に、現代のMS計測器によって生成された大量のMSデータを組織的かつ効果的に分析することは、ほとんど何も行われてこなかった。
【0031】
通常の質量分析計では、ユーザは、通常、注目の質量スペクトルm/z範囲をカバーする複数の断片イオンを有する標準材料を要求されるか、これを供給される。ベースライン効果、同位元素干渉、質量分解能、および質量に対する分解能依存を受けて、少数のイオン・フラグメントのピーク位置は、ピーク頂部での低次多項式あてはめを介して重心またはピーク最大値のいずれかに関して決定される。次に、このピーク位置が、質量(m/z)軸を較正するための1次または高次のいずれかの多項式フィットを介して、これらのイオンの既知のピーク位置にあてはめられる。
【0032】
質量軸較正の後に、通常の質量スペクトル・データ・トレースがピーク分析を受け、ピーク(イオン)が同定されることになる。このピーク検出ルーチンは、ピークの肩、データ・トレース中の雑音、化学的バックグラウンドまたは汚染に起因するベースライン、同位元素ピーク干渉などが考慮される、非常に経験的で複雑な処理である。
【0033】
同定されたピークについて、通常、セントロイディング(centroiding)と称する処理を適用して、積分されたピーク面積およびピーク位置を計算する。上記で概要を示した多数の干渉する要因ならびに他のピークおよび/またはベースラインが存在する中でのピーク面積の決定に特有のむずかしさに起因して、これは、セントロイディング品質の客観的尺度なしで同位元素ピークを出現させるか消滅させる可能性がある多数の調整可能なパラメータに悩まされる処理である。
【0034】
したがって、そのみかけの高度化にかかわりなく、現在の手法は、複数の著しい短所を有する。これには、次が含まれる。
【0035】
質量精度の欠如。現在使用されている質量較正は、通常、単位質量分解能(重要な同位元素ピークの存在または不在を視覚化する能力)を有する従来のMSシステムでの質量決定精度において、0.1amu(m/z単位)よりよいものを提供しない。より高い質量精度を達成し、タンパク質同定用のペプチド・マッチングなどの分子フィンガープリント法での曖昧さを減らすためには、かなりコストが高い四重極TOF(qTOF)またはFT ICR MSなどのより高分解能のMSシステムに切り替えなければならない。
【0036】
大きいピーク積分誤差。質量スペクトル・ピーク形状、その可変性、同位元素ピーク、ベースラインおよび他のバックグラウンド信号、ならびにランダム・ノイズの寄与に起因して、現在のピーク面積積分は、強い質量スペクトル・ピークおよび弱いスペクトル・ピークの両方に関して大きい誤差(系統誤差およびランダム誤差の両方)を有する。
【0037】
同位元素ピークに関する問題。現在の手法は、単位質量分解能を有する従来のMSシステムで通常は部分的にオーバーラップした質量スペクトル・ピークを発するさまざまな同位元素からの寄与を分離する良い方法を有しない。経験的手法では、隣接同位元素ピークからの寄与の無視またはその過大評価のいずれかが使用され、優位を占める同位元素ピークに関する誤差と、弱い同位元素ピークに関する大きい偏りまたは弱いピークの完全な無視とがもたらされた。多重荷電のイオンがかかわるとき、隣接同位元素ピーク間の質量単位の減らされた分離に起因して、状況はさらに悪くなる。
【0038】
非線形動作。現在の手法では、各ステージ中に多数の経験的に調整可能なパラメータを有する、複数ステージのばらばらな処理が使用される。系統誤差(偏り)は、各ステージで生成され、制御されない予測不能で非線形な形で後のステージに伝搬され、アルゴリズムがデータ処理品質および信頼性の尺度として意味のある統計を報告することを不可能にする。
【0039】
支配的な系統誤差。産業プロセス制御および環境監視からタンパク質同定またはバイオマーカ発見に及ぶほとんどのMS応用例で、機器の感度または検出限度は、常に焦点であり、多くの機器システムで、測定誤差または信号への雑音寄与を最小にするために大いに努力がされてきた。残念ながら、現在使用されているピーク処理手法は、生データのランダム・ノイズよりずっと大きい系統誤差の供給源を作り、したがって、機器の感度または信頼性の制限要因になっている。
【0040】
数学的矛盾および統計的矛盾。現在使用されている多くの経験的手法は、質量スペクトル・ピーク処理全体を、数学的にも統計的にも矛盾したものにしている。ピーク処理結果は、ランダム・ノイズがないわずかに異なるデータまたはわずかに異なる雑音を伴う同一の合成データに対して、劇的に変化する可能性がある。言い換えると、ピーク処理の結果は、堅牢でなく、特定の実験またはデータ収集に依存して不安定になる可能性がある。
【0041】
機器間変動。通常、機械的許容範囲、電磁許容範囲、または環境の許容範囲の変動に起因して、異なるMS機器からの生の質量スペクトル・データを直接に比較することは困難であった。生データに対して適用される現在のアド・ホックなピーク処理を用いると、異なるMS機器からの結果を定量的に比較することのむずかしさが増すだけである。その一方で、異なる機器または異なるタイプの機器からの生質量スペクトル・データを直接に比較するかピーク処理結果を比較する必要が、不純物検出または確立されたMSライブラリの検索を介するタンパク質同定のためにますます高まってきた。
【0042】
したがって、プロテオミクス研究がなるであろうものと現在の姿の間に大きいギャップが存在する。
【特許文献1】米国仮出願第60/466010号
【特許文献2】米国仮出願第60/466011号
【特許文献3】米国仮出願第60/466012号
【特許文献4】米国仮出願第10/689313号
【非特許文献1】Pertricoin,E.F.III他、Lancet、Vol.359、573〜77ページ、2002年
【非特許文献2】Gygi,S.P.他、Nat.Biotechnol.17、994〜999ページ、1999年
【非特許文献3】Yates Jr.他、Anal.Chem.67、1426〜1436ページ、1995年
【非特許文献4】Link,A.J.他、Nat.Biotechnol.17、676〜682ページ、1999年
【非特許文献5】Washburn,M.P.他、Nat.Biotechnol.19、242〜247ページ、2001年
【非特許文献6】Rejtar,T.他、J.Proteomr.Res.1(2)、171〜179ページ、2002年
【非特許文献7】Smith,R.D.他、Proteomics、2、513〜523ページ、2002年
【非特許文献8】Issaq,H.J.他、Biochem Biophys Res Commun.292(3)、587〜592ページ、2002年
【非特許文献9】Bro,R.他、J.Chemometrics 13、295ページ、1999年
【非特許文献10】Wang,Y.他、Anal.Chem.63、2750ページ、1991年
【非特許文献11】Wang,Y.他、Anal.Chem.,65、1174ページ1993年
【非特許文献12】Kiers,H.A.L.他、J.Chemometrics 13、275ページ、1999年
【非特許文献13】Wang,Y.他、J.Chemometrics、7、439ページ、1993年
【非特許文献14】Stein,S.E.他、J.Am.Soc.Mass Spectrom.5、859ページ、1994年
【非特許文献15】Hannesh,S.M.、Electrophoresis 21、1202〜1209ページ、2000年
【非特許文献16】Sanchez,E.他、J.Chemometrics 4、29ページ、1990年
【非特許文献17】Carroll,J.他、Psychometrika 3、45ページ、1980年
【非特許文献18】Bezemer,E.他、Anal.Chem.73、4403ページ、2001年
【非特許文献19】http://www.matrixscience.com
【非特許文献20】http://us.expasy.org/sprot/
【発明の開示】
【発明が解決しようとする課題】
【0043】
本発明の目的は、上述の欠点を克服する、質量分析システムおよび質量分析システムを動作させる方法を提供することである。
【0044】
本発明のもう1つの目的は、質量分析システムに本発明による方法を実行させるコンピュータ可読プログラム・コードを有する記憶媒体を提供することである。
【0045】
本発明のもう1つの目的は、現在のスティック・スペクトル・ライブラリより情報が豊富であり、より正確な質量分析ライブラリを提供することである。
【課題を解決するための手段】
【0046】
上記および他の目的は、質量分析計からのデータを分析する方法であって、生スペクトル・データを処理することによって、較正済み連続スペクトル・データを得ること、較正済みライブラリ・データを形成するために処理されたライブラリ・スペクトル・データを得ること、および、生スペクトル・データを生成した試料内の成分の濃度を決定するために、較正済み連続スペクトル・データと較正済みライブラリ・データとの間で最小二乗フィットを実行することを含む方法によって、本発明に従って達成される。較正済みライブラリ・データは、スペクトル・ピーク形状関数をスティック・スペクトル・ライブラリ内のスティック・スペクトル・データに適用することによって得ることができる。較正を生スペクトル・データに適用し、較正済み連続スペクトル・データを提供することができる。較正は、フィルタ関数を使用し、それによって質量軸を較正し、かつ実際のピーク形状関数をターゲット・ピーク形状関数に変換することによって実行することができる。較正済み連続スペクトル・データは、質量較正曲線を介する補間によって得ることができる。較正済みライブラリ・データは、スティック・スペクトル・ライブラリ内のスティック・スペクトル・データから導出された連続スペクトル・データとすることができる。
【0047】
最小二乗フィットは、
r=Kc+e
の形の式またはこの形の式の転置行列を解くことを含み、rは、較正済み連続スペクトル・データの(n×1)行列であり、cは、試料内のp個の成分の濃度を表す回帰係数の(p×1)行列であり、Kは、すべてがn個の質量点でサンプリングされた、スティック・スペクトルのライブラリまたは既知のピーク形状関数を有する連続スペクトルの事前に計算されたライブラリのいずれかから生成されたp個の成分の連続質量スペクトル応答からなる(n×p)行列であり、そしてeは、ランダム・ノイズからの寄与および線形モデルからの任意の系統的偏差を有するフィッティング誤差の(n×1)行列である。式の転置行列で、r’は、(1×n)行列であり、c’は、(1×p)行列であり、K’は、(p×n)行列であり、e’は、(1×n)行列であり
r’=c’K’+e’
である。行列cの値は、
【数1】

として多重線形回帰を介して行列Kを反転することによって決定することができ、上付きのTは、行列転置を表し、上付きの−1は、行列反転を表す。式の転置行列で、c’は、
c’=r’K’T (K’K’T-1
として多重線形回帰を介して行列K’を反転することによって決定され、上付きのTは、行列転置を表し、上付きの−1は、行列反転を表す。
【0048】
この方法は、試料内の候補イオンおよび候補イオン・フラグメントを、その存在の統計的確率に基づいてランキングすることをさらに含むことができる。ランキングは、米国仮出願第10/689313号で開示されたt−スタティクスに基づくものとすることができる。
【0049】
本発明によれば、スティック・スペクトルのライブラリまたは連続スペクトルの事前に計算されたライブラリは、まだいずれかのライブラリに含まれていない新しい化合物からのイオンおよびイオン・フラグメントによって増補するとができる。
【0050】
この方法では、較正された連続スペクトル・データは、ベースライン成分を有し、各ベースライン成分は、行列Kの追加の列としてまたはその転置行列K’の追加の行として含まれる。この方法は、統計的に有意なベースライン成分ごとに、較正済み連続スペクトル・データからそのベースライン成分を引くこと、行列KまたはK’からその成分を除去すること、および、生スペクトル・データを生成した試料内の成分の濃度を決定するために、行列演算をもう一度実行することをさらに含むことができる。
【0051】
この方法は、追加のベースライン項または候補ライブラリ成分を行列KまたはK’に追加すること、および、生スペクトル・データを生成した試料内のすべての成分の濃度を決定するために、行列演算をもう一度実行することをさらに含むことができる。
【0052】
この方法は、質量および濃度の関数として、生データを得るのに使用された質量分析計のイオン化効率のマップを構築すること、試料の成分の初期濃度値を見つけるために最小二乗フィットを決定すること、および、イオン化効率の濃度依存性と質量依存性の両方が補償される訂正済みデータを生成するために、マップを使用し、ベースライン成分に対応する列を除く行列Kの各列またはK’の行を正規化することをさらに含むことができる。この方法は、さらに、訂正済みデータを使用し、濃度行列cまたはc’の改善された推定に到達すること、および、行列Kの列またはK’の行の値をさらに訂正することをさらに含むことができる。濃度値の収束が得られるまで、決定するステップおよび使用するステップの連続反復を実行することができる。
【0053】
この方法は、ライブラリから候補イオン・フラグメントを選択すること、各候補イオン・フラグメントの化学組成に基づいて同位元素分布を計算すること、各候補イオン・フラグメントの計算された同位元素パターンを得るために、ピーク形状関数を用いて同位元素分布を畳み込むこと(convoluting)、および、同位元素パターンに従って行列KまたはK’の値を決定することをさらに含むことができる。値はまた、質量依存ピーク形状関数に基づいて決定することができる。
【0054】
この方法は、質量の関数として、生スペクトル・データのピークの強度の変動を決定すること、および、加重最小二乗フィット計算の重みとして、各質量スペクトル・データ点で変動の逆数を使用すること、をさらに含むことができる。それぞれの変動の逆数が対角線上にあり、0がそれ以外のすべての場所にある重み行列を形成することができる。変動は、生質量スペクトル・データの連続する繰り返しから、あるいは生連続質量スペクトル・データに対して実行されるフィルタリングまたはスムージング・オペレーションによって、決定することができる。
【0055】
この方法は、式の両辺に重み行列をかけること、および、最小二乗フィットを実行し、濃度について解くことをさらに含むことができる。
【0056】
この方法によれば、最小二乗フィットは、異なるスペクトルのライブラリを表す項を有する行列を用いて決定することができ、スペクトルのそれぞれは、異なるイオン・フラグメントを表す。フラグメントは、試料内のタンパク質またはペプチドを表すことができる。
【0057】
この方法は、質量分析計を動作させ、生スペクトル・データを得ること、ならびに、質量および質量の関数としてのピーク形状関数に関して質量分析計を較正することをさらに含むことができる。較正標準は、較正を容易にするために試料と混合することができ、あるいは、較正標準は、較正を容易にするために試料と交換可能に導入することができる。質量分析計を較正したとき生成される較正を使用し、較正済みライブラリ・データを形成するためにライブラリ・スペクトル・データを処理することができる。この方法は、試料内の候補イオンおよび候補イオン・フラグメントを、その存在の統計的確率に基づいてランキングすることをさらに含むことができる。ランキングは、t−スタティクスに基づくものとすることができる。ライブラリ検索結果として、試料内の相対濃度および存在の確率のうちの少なくとも1つを報告することができる。質量軸は、計算ステップの前に、線形間隔以外の間隔に変換することができる。
【0058】
本発明は、質量スペクトル・ライブラリを作成する方法であって、既存質量スペクトル・ライブラリからスティック・スペクトルを得ること、イオンまたはイオン・フラグメントに対応する各スティックの化学組成を得ること、各イオンまたはイオン・フラグメントの同位元素分布を、その化学組成に基づいて計算すること、ターゲット・ピーク形状関数を指定すること、および、ターゲット・ピーク形状関数を有する連続ライブラリ・スペクトルを得るために、同位元素分布とターゲット・ピーク形状関数との間で畳み込み演算を実行することを含む方法も対象とする。この方法は、同一のターゲット・ピーク形状関数を用いて質量分析計を正確な質量に較正すること、質量分析計から生連続データを得ること、および、較正を生連続データに適用し、較正済み連続データを得ることをさらに含むことができる。質量軸は、計算ステップの前に、線形間隔以外の間隔に変換することができる。ピーク形状関数は、質量依存とすることができる。
【0059】
本発明は、質量分析計によって生成されるデータの分析をコンピュータに実行させるライブラリを有するコンピュータ可読媒体であって、ライブラリが、既存質量スペクトル・ライブラリからスティック・スペクトルを得ること、イオンまたはイオン・フラグメントに対応する各スティックの化学組成を得ること、各イオンまたはイオン・フラグメントの同位元素分布を、その化学組成に基づいて計算すること、ターゲット・ピーク形状関数を指定すること、および、ターゲット・ピーク形状関数を有する連続ライブラリ・スペクトルを得るために、同位元素分布とターゲット・ピーク形状関数との間で畳み込み演算を実行することからなるプロセスによって生成される、コンピュータ可読媒体も対象とする。
【0060】
本発明の追加の態様は、一般に、コンピュータを含むデータ分析部分を有する質量分析計システムと共に使用される、コンピュータ可読コードを有するコンピュータ可読媒体であって、コンピュータ可読コードは、試料の生スペクトル・データから導出された較正済みスペクトル・データおよびライブラリ・スペクトル・データから導出された較正済みライブラリ・データに対して最小二乗フィットを実行し、それによって生スペクトルデータを生成する試料内の成分の濃度を決定することによってコンピュータにデータを分析させるためのものであるコンピュータ可読媒体である。このコンピュータ可読媒体は、上述の特定の方法の少なくとも1つをコンピュータに実行させるコンピュータ可読コードをさらに含むことが好ましい。
【0061】
特に重要なことに、本発明はまた一般に、質量分析計部分とデータ分析システムとを含む、化学組成を分析する質量分析計システムであって、データ分析システムは、生スペクトル・データを処理することによって較正済み連続スペクトル・データを得ること、較正済みライブラリ・データを形成するために処理されたライブラリ・スペクトル・データを得ること、較正済み連続スペクトル・データおよび較正済みライブラリ・データに対して最小二乗フィットを実行し、生スペクトル・データを生成した試料内の成分の濃度を決定すること、および、統計的確率に基づいて各成分をランキングするかスコアリングすることによって動作するシステムも対象とする。データ分析部分は、上述の方法の明細に従って動作するように構成することができる。この質量分析計システムは、分析される試料を調製する試料調製部分と、分析される試料の初期分離を実行する試料分離部分とをさらに含むことが好ましい。分離部分は、試料をさまざまな成分に分離する電気泳動装置、化学親和性チップ、またはクロマトグラフのうちの少なくとも1つを含むことができる。
【0062】
本発明の前述の態様および他の特徴を、添付図面と共に次の説明で説明する。
【発明を実施するための最良の形態】
【0063】
図1を参照すると、上記で示したようにタンパク質または他の分子の分析に使用できる、本発明の特徴を組み込んだ分析システム10のブロック図が示されている。本発明を、図面に示された単一の実施形態に関して説明するが、本発明は、実施形態の多数の代替形態で実施できることを理解されたい。さらに、すべての適切なタイプの構成要素を使用することができる。
【0064】
分析システム10は、試料調製部分12、質量分析計部分14、データ分析システム16、およびコンピュータ・システム18を有する。 試料調製部分12は、米国マサチューセッツ州ウォルサムのThermo Electron Corporation社が製造するFinnegan LCQ Deca XP Maxなど、注目のタンパク質またはペプチドを含む試料をシステム10に導入するタイプの試料導入ユニット20を含むことができる。試料調製部分12は、システム10によって分析されるタンパク質などの検体の予備分離を実行するのに使用される検体分離ユニット22をも含むことができる。検体分離ユニット22は、クロマトグラフィ・カラム、米国カリフォルニア州ハーキュリーズのBio−Rad Laboratories,Inc.社が製造するゲルベース分離ユニットなどの電気泳動分離ユニットのいずれかとすることができ、当技術分野で周知である。一般に、電圧をユニットに印加して、毛細管を介する移動速度、等電点電気泳動点(Hannesh,S.M.、Electrophoresis 21、1202〜1209ページ、2000年)、または質量(1次元分離)などの1つまたは複数の変数の関数として、あるいは等電点電気泳動および質量(2次元分離)によるなど、これらの変数のうちの複数によって、タンパク質を分離させる。後者の例を、SDS−PAGEと称する。
【0065】
質量分析計部分14は、従来の質量分析計とすることができ、使用可能な任意のものとすることができるが、MALDI−TOF、四重極MS、イオン・トラップMS、qTOF、TOF/TOF、またはFTICR−MSのうちの1つであることが好ましい。MALDIまたはエレクトロスプレイ・イオン化イオン源を有する場合に、そのようなイオン源は、質量分析計部分14への試料入力を提供することができる。一般に、質量分析計部分14は、イオン源24、質量比または荷電比によって、イオン源24によって生成されたイオンを分離する質量アナライザ(mass analyzer)26、質量アナライザ26からのイオンを検出するイオン検出器部分28、および質量分析計部分14が能率的に動作するのに十分な真空を維持する真空装置30を含むことができる。質量分析計部分14が、イオン移動度スペクトロメータである場合には、一般に、真空装置は不要である。
【0066】
データ分析システム16には、イオン検出器部分28からの信号をディジタル・データに変換する1つまたは一連のアナログ・ディジタル変換器(図示せず)を含むことができるデータ収集部分32が含まれる。このディジタル・データは、リアル・タイム・データ処理部分34に供給され、リアル・タイム・データ処理部分34は、合計および/または平均などの演算を介してディジタル・データを処理する。後処理部分36は、ライブラリ検索、データ保管、およびデータ報告を含む、リアル・タイム・データ処理部分34からのデータの追加処理を行うのに使用することができる。
【0067】
コンピュータ・システム18は、下記で説明する形で、試料調製部分12、質量分析計部分14、およびデータ分析システム16を制御する。コンピュータ・システム18は、適切なスクリーン・ディスプレイでのデータの入力および実行された分析の結果の表示を可能にするために、従来のコンピュータ・モニタ40を有することができる。コンピュータ・システム18は、たとえばWindows(登録商標)またはUNIX(登録商標)オペレーティング・システムあるいは他の適切なオペレーティング・システムを用いて動作する、適切なパーソナル・コンピュータに基づくものとすることができる。コンピュータ・システム18は、通常はハード・ドライブ42を有し、このハード・ドライブ42に、オペレーティング・システムと、下記で説明するデータ分析を実行するプログラムとが保管される。CDまたはフロッピ・ディスクを受け入れるドライブ44が、本発明によるプログラムをコンピュータ・システム18にロードするのに使用される。試料調製部分12および質量分析計部分14を制御するプログラムは、通常、システム10のこれらの部分のファームウェアとしてダウンロードされる。データ分析システム16は、下記で述べる処理ステップを実施するために、C++、JAVA、またはVisual Basicなどの複数のプログラミング言語のいずれかで記述されたプログラムとすることができる。
【0068】
1次機器は、各試料のデータのベクトルを生成し、分析計測器および分析において、より高水準の高度化を表す。プロテオミクスに直接に関係する1次機器の例は、液体試料または気体試料の直接試料注入および固体試料のMALDI試料導入を有する完全なMS走査モードで動作できる質量分析計である。
【0069】
1次機器からの使用可能な余分の情報があると、1次分析は、本来、単一の試料に共存する複数のタンパク質を定量化することができ、試料ごとに単一データ点だけが収集される0次分析の主要な問題が克服される。1次プロテオミクス分析では、新しい試料中のすべての共存する干渉するタンパク質を知り、その質量スペクトル応答を使用可能にする必要がある。p種のタンパク質があり、そのMS応答がn個の異なる質量点で測定されると仮定すると、これらのタンパク質のすべてを含む試料の応答を、行列表記で
r=Kc+e 式1
と表すことができ、ここで、K(n×p)は、純粋なタンパク質質量スペクトル応答行列、r(n×1)は、分析中の試料の応答ベクトル、c(p×1)は、推定されたp種のタンパク質の濃度を含み、e(n×1)は、ランダム・ノイズからの寄与および仮定される線形モデルからの任意の系統的偏差を有するフィッティング誤差である。濃度は、多重線形回帰を介して行列Kを反転することによって、
【数2】

として簡単に推定することができ、ここで、上付きのTは、行列転置を表し、上付きの−1は、行列反転を表す。上式は、セントロイディングの後の質量スペクトル・データ(当業者はスティック・スペクトルと呼ぶ)に適用することができるが、セントロイディングによって導入される質量およびピーク面積の誤差を減らすために、セントロイディングなしの連続質量スペクトル応答を使用することが好ましい。さらに、下記にその短い要約を示す同時係属の米国仮出願第10/689313号に記載のように、質量整列およびスペクトル・ピーク形状一貫性をさらに改善するために、本発明で、完全に較正された連続質量スペクトル・データを有することが好ましい。
【0070】
完全に較正された連続質量スペクトル・データの作成
m=f(m0) (式A)
の形の較正関係を、測定された重心と、質量範囲にまたがる質量スペクトル標準で使用可能なすべての明瞭に同定可能な同位元素クラスタを使用して計算された重心との間での最小二乗多項式フィットを介して確立することができる。
【0071】
この単純な質量較正に加えて、追加の完全なスペクトル較正フィルタが、同時に2つの目的すなわち質量スペクトル・ピーク形状および質量スペクトル・ピーク位置の較正のために計算される。質量軸は、事前に較正することができるので、フィルタ機能の質量較正部分は、この場合に、質量較正でのさらなる洗練を達成するためすなわち式Aによって与えられる多項式フィットの後の任意の残留質量誤差を考慮に入れるために縮小される。
【0072】
この較正処理全体は、質量スペクトル・ピーク幅(半値全幅またはFWHM)が一般に動作質量範囲内でほぼ一定である、イオン・トラップを含む四重極タイプのMSに簡単に適用される。磁気セクタ、TOF、またはFTMSなどの他のタイプの質量分析計システムについて、質量スペクトル・ピーク形状は、動作原理および/または特定の機器設計によって指定される関係で、質量に伴って変化すると予想される。同一の質量依存較正手順が、それでも適用可能ではあるが、ピーク幅/位置と質量の間の所与の関係と一貫する変換されたデータ空間で較正全体を実行することが好ましい可能性がある。
【0073】
TOFの場合に、質量スペクトル・ピーク幅(FWHM)Δmが、次の関係で質量(m)に関係することが既知である。
【数3】

ここで、aは、既知の較正係数である。言い換えると、質量範囲にわたって測定されたピーク幅は、質量の平方根に伴って増加する。平方根を用いると、質量軸から新しい関数に変換する変換は、次のようになる。
【0074】
【数4】

ここで、変換後の質量軸で測定されたピーク幅(FWHM)は、
【数5】

によって与えられ、これは、スペクトル範囲全体にわたって変化しない。
【0075】
その一方で、FT MS機器について、ピーク幅(FWHM)Δmは、質量mに正比例し、したがって、対数変換が必要である。
m’=ln(m)
ここで、変換後の対数空間で測定されたピーク幅(FWHM)は、
【数6】

によって与えられ、これは、質量と独立に固定されている。通常、FTMSでは、Δm/mを10-5程度にすなわち、分解能m/Δmに関して105に管理することができる。
【0076】
磁気セクタ機器について、特定の設計に依存して、スペクトル・ピーク幅および質量サンプリング間隔は、質量との既知の数学的関係に従い、これはそれ自体、TOFおよびFTMSに関して平方根変換および対数変換が行うのによく似た形で、期待される質量スペクトル・ピーク幅がそれを介して質量と独立になる特定の形の変換に役立つ可能性がある。
【0077】
FTMSでの対数変換およびTOF−MSでの平方根変換などの適切な変換または十分に設計され正しく調整された四重極MSまたはイオン・トラップMSなどの特定の機器に固有の性質のいずれかに起因して、予想される質量スペクトル・ピーク幅が、質量と独立になるとき、計算時間の大幅な節約が、質量スペクトル範囲全体に適用可能な単一の較正フィルタを用いて達成される。これによって、質量スペクトル較正標準に対する要件も単純化される。すなわち、単一の質量スペクトル・ピークが較正に必要とされ、(存在する場合には)追加ピークが検査または確認としてだけ働き、測定される各試料に追加された内部標準に基づくすべてのMSの完全な質量スペクトル較正のために道をひらく。
【0078】
通常、質量スペクトル較正全体を達成する上で2つのステップがある。第1ステップは、実際の質量スペクトル・ピーク形状関数を導出することであり、第2ステップは、導出された実際のピーク形状関数を、正しい質量位置を中心とする指定された目標ピーク形状関数に変換することである。測定された連続質量スペクトルy0を有する内部標準または外部標準は、標準イオンまたは標準イオン・フラグメントの同位元素分布yに、
【数7】

によって関係する。ここで、pは、計算された実際のピーク形状関数である。この実際のピーク形状関数は、その後、
【数8】

によって与えられる1つまたはそれ以上の較正フィルタを介して、指定された目標ピーク形状関数t(たとえば、あるFWHMのガウシアン)に変換される。上記で計算された較正フィルタを、次の帯対角フィルタ行列に配置することができる。
【0079】
【数9】

ここで、対角線上の各短い列ベクトルfiは、対応する中心質量に関する上記で計算された畳み込みフィルタからとられる。fiの要素は、逆の順序の畳み込みフィルタの要素から取られる、すなわち
【数10】

である。
【0080】
例として、この較正行列は、1/8amuデータ間隔で1000amuまでの質量カバレッジを有する四重極MSで8000×8000の次元を有する。しかし、その疎な性質に起因して、通常のストレージ要件は、5amu質量範囲をカバーする40要素の有効フィルタ長で約40×8000だけである。
【0081】
本発明に戻ると、タンパク質同定に対する現在の手法には、2Dゲルまたは2DLCとその後の、うまくいけば純粋と予想されるタンパク質のスポットごとまたは分画ごとのMS分析とを介する広範囲の試料分離が含まれる。定量化が必要な場合には、ICATなどの技法をこのプロセスに追加する必要がある。そのように測定される通常のMALDI−TOFスペクトルは、非常に限られた情報内容と共に、膨大な質量スペクトル範囲をまばらに取り込んだごく少数のピークだけを示し、これは、きわめて十分に利用されていない分析機能を示し、本発明が調査すべき主要な機会の1つを表す。物理的分離の代わりに、高度な行列演算を、分離がほとんどまたは全くない無傷または消化されたタンパク質混合物から収集された単一の質量スペクトルに適用する。プロテオミクス・スループットの少なくとも10倍の改善が可能であり、定性分析と定量分析の両方が、単一の統一されたステップで同時に達成される。この新しい手法の本質的ステップには以下が含まれる。
【0082】
a.分離がほとんどまたは全くないタンパク質またはそのペプチドの複合混合物の質量スペクトル測定を行う。このように測定された質量スペクトルは、データが密集しており、式1で長い列ベクトルrとして表されている。この質量スペクトルは、使用可能なMS機器のいずれか、たとえば、MALDI−TOF、四重極MS、イオン・トラップMS、またはFTICR−MSから得られる可能性がある。FTICR−MSの高い分析能力(分解能、質量精度、および質量範囲)を用いて、より多数のタンパク質またはペプチドをMSスペクトルにパックできることに留意されたい。同時に分析できるタンパク質またはペプチドの数に対する理論的上限は、おおむね、質量範囲を分解能幅すなわち、分解能要素の個数で割ったものによって与えられる。400から2000amuの質量範囲を0.5amu FWHMでカバーするイオン・トラップMSの場合に、分解能要素の個数は、約1600に達し、潜在的に1600種のタンパク質またはそのペプチドを単一のMS収集で分析できることが暗示される。TOF機器およびFTICR−MS機器の広い質量範囲および付随するより高い質量分解能を用いると、より多くの化合物を同時に分析することができる。
【0083】
b.すべての既知のタンパク質の質量スペクトル応答(実際に測定されたものまたはコンピュータを用いる(in−silico)手法を介して遺伝子配列に基づいて計算されたもののいずれか)を表す列を用いて式1の行列Kを構成する。この質量スペクトル応答が、ピーク面積積分またはセントロイディングなしで獲得された連続質量スペクトル・データすなわち、プロフィール・モード・データを指すことを強調しなければならない。通常、行列Kは、ペプチドが400から2000amuの質量範囲で0.1amuデータ間隔で測定される、500,000種のタンパク質からなるタンパク質データベースについて、16,000×500,000の次元を有する可能性がある。しかし、行列Kの固有次元数または擬似ランクは、この例では1600に過ぎず、1600個だけの独立成分を一時に決定できることが暗示される。主成分分析などの操作を介してオリジナル行列Kを圧縮し(Beebe,K.R.;Kowalski,B.R.Anal.Chem.59、1007Aページ、1987年)、行列Kを一致する固有次元のローディング・ベクトル(loading vector)に置換することを選択することができる。代替では、一時に1つの検体またはタンパク質だけを行列Kに含め、小さい(2×2)(または含まれるベースライン成分の数によっては3×3)問題を500000回解いて、まず最も重要な検体またはタンパク質を選択し、その後、徐々に多くなる重要な検体またはタンパク質の検索の次のラウンドで第2の検体またはタンパク質を行列Kに追加することができる。さらに、一時に1つまたはそれ以上の程度の少数の同位元素パターンをカバーする限られた質量スペクトル(質量電荷比またはm/z)範囲を扱うことによって、実際の次元数を管理することを選択することができる。限られたm/z範囲を扱うことの追加の利益は、LC/MS、GC/MS、またはCE/MSなどの時間依存事象に存在する時間スキューが、より問題でなくなり、必要な訂正または補償を完全になくすことができることである。
【0084】
i.質量リストが、実際に測定されたタンパク質データベースから得られる場合に、質量リストには、多重荷電イオン、リン酸化などの翻訳後修飾、および他の重要なプロテオーム情報に関する情報が既に含まれているべきである。しかし、質量ピークのそれぞれの同位元素分布は、セントロイディングに起因して失われている可能性があり、したがって、たとえば米国仮出願第10/689313号に記載の形で、化学式から数学的に再構成される必要がある。
【0085】
ii.タンパク質ペプチド・ピークが、コンピュータを用いる手法を介して計算される場合に、同位元素分布、多重荷電、および翻訳後修飾を数学的に構成する必要がある。
【0086】
c.たとえば米国仮出願第10/689313号に記載の形で、通常は実際の質量に対する弱い依存(イオン・トラップMS)または強い依存(TOFまたはFT−MS)のいずれかを有するガウス形状であり、理論的なまたは測定された機器プロフィールあるいは較正済みスペクトル線形状のいずれかを用いる畳み込みを介して、Kの列のスティック・スペクトルをプロフィール・モード・データに数値変換する。
【0087】
d.式2の行列演算を実行して、データベースの各タンパク質からの混合質量スペクトルrへの寄与を数学的に分離する。したがって、1つの試料から得られた濃度ベクトルcを、ICATのような同位元素タグなしで、相対定量分析またはディファレンシャル・プロテオミクス分析のために別の試料からの濃度ベクトルと比較することができる。
【0088】
e.アド・ホック・スコアリングではなく、t−スタティクスまたはp−値などの統計的に厳格な信頼水準を、ベクトルcのタンパク質濃度ごとに確立して、試料内の特定のタンパク質の存在または不在をテストし、タンパク質同定のための定性分析を達成することができる。
【0089】
f.タンパク質データベース(行列K)に含まれていない新しいタンパク質または修飾がある場合に、大きいフィッティング誤差eが、警告サインとして働き、その近似質量位置を指摘する。
【0090】
現在使用されているか提案されている他の代替と比較して、この手法は、次の大きい利益を有する、全プロテオーム分析に対する新しい超高速の手法を表す。
【0091】
a.その健全な数学的基礎および統計学的基礎に起因して、この手法は、現在の質量スペクトル処理およびタンパク質/ペプチド・ライブラリ検索における多数のアド・ホックな非線形動作を除去し、プロテオミクスに関する理論的にエレガントな処理をもたらす。
【0092】
b.この分析は、分離がほとんどまたは全くない、タンパク質混合物の単一の従来のMS(たとえば、MALDI TOF)測定に基づいて達成することができる。
【0093】
c.定性情報と定量情報の両方が、余分な化学ステップを用いずに得られる。
【0094】
d.この処理は、1つの試料が数日を要して数千個のゲル・スポットをもたらし得る従来の2DE MALDI TOF分析の技術的現状の毎秒1ゲル・スポットと比較して、1秒での全プロテオーム分析という試料スループット能力を有して、外見的に単純であり極端に高速である。
【0095】
e.この手法は、タンパク質/ペプチド混合物を処理するように設計されているが、多数の従来の手法は、混合物に2又はそれ以上のタンパク質があるように分解する。
【0096】
f.この手法は、複雑で誤りの多いアド・ホックな質量スペクトル・ピーク選択処理を完全に迂回し、ノイズ・フィルタリングおよびスペクトル平滑化が自動的に組み込まれている。
【0097】
g.タンパク質データベースまたはセントロイディング誤差がない実際に測定されたタンパク質質量スペクトル・プロフィールからのすべての既知の重要な同位元素を扱うことによって、完全なデータ保全性が保たれ、すべての同位元素パターンが検索に自動的に含まれる。
【0098】
したがって、この手法は、極端に高いスループット、数学的なエレガントさ、はるかに低い機器コスト、および単純さをもたらす。
【0099】
図2を参照すると、ステップ210で、たとえばタンパク質の複合混合物を含む試料について、生の連続質量スペクトル・データを得る。上述のように、ほとんどの商業技法は、スティック・スペクトル・データを使用するが、生スペクトル全体の使用は、データの特徴を全体的に単純化するのが早すぎることに起因してデータが失われないことを意味することを理解されたい。しかし、この生スペクトルは、機器のピーク形状関数、機器の分解能、ならびに検出器に達する可能性があるスプリアス・イオンおよび中性粒子に起因するベースライン変動に関係する特性を有する。さらに、これらの潜在的な要因のすべてに関する質量依存性がある場合がある。たとえば、その存在を減らすあらゆる試みにもかかわらず、その一部が検出器に達するマトリックス材料のイオンに主に起因する、MALDIシステムでの質量電荷比の増加の関数としてのベースライン変位の指数関数的減衰がある。
【0100】
ステップ220で、ステップ210で獲得した生データを、内部標準および/または外部標準に基づく質量分析計の完全な較正にかけて、生連続データを標準化する。これによって、ピークが正しい質量電荷比に整列すること、および、ピークの形状が数学的に正しくマッチングされることが保証される。これは、その内容全体が参照により本明細書に組み込まれている2003年10月20日出願の同時係属の米国仮出願第10/689313号、名称「Methods For Operating Mass Spectrometry (MS) Instrument Systems」に記載の手順によって達成されることが好ましい。この較正データは、まだ連続体の形であるが、生データに寄与するタンパク質を同定するために、選択されたライブラリのスティック・スペクトルと比較されなければならない。
【0101】
ステップ230で、候補イオン・フラグメントを、質量スペクトル・ライブラリから選択する。各検体が、所与の質量スペクトル範囲にちらばった複数のイオン・フラグメントを有する可能性があり、本発明を、特定のイオンまたはフラグメントをターゲットとする1つまたは複数の選択された質量範囲またはすべての可能なイオンまたはフラグメントをターゲットとする全質量範囲で実行できることを理解されたい。
【0102】
ステップ240で、元素組成(各イオンまたはフラグメントの化学式)に基づいて、ライブラリ内のイオンおよびフラグメントの正確な質量位置を再計算する。これには、米国仮出願第10/689313号に記載の形で考慮される、同位元素分布が含まれる。
【0103】
ステップ250で、ステップ220の完全な質量スペクトル較正で指定されたターゲット機器ピーク形状関数を用いて同位元素分布を畳み込んで、各候補イオン・フラグメントの計算された同位元素パターン(質量スペクトル連続体)を得る。これのために、および本文書全体を通じて他の目的で、本明細書で使用される用語畳み込みは、行列演算またはフーリエ変換空間での点ごとの演算、あるいは従来のタイプまたはそうでないタイプのいずれであれ、他のタイプの畳み込み、フィルタリング、または相関を指すことができる。
【0104】
ステップ260で、既知の質量依存ベースライン関数および、所与の質量範囲のタンパク質などの各候補検体のイオン・フラグメントの計算された同位元素パターンを用いて、行列を生成する。質量依存ベースライン関数の例には、平らな線と、1次項または2次項などの複数のより低次の項が含まれる。これらのより低次の項の組合せは、小さい質量スペクトル範囲内での指数関数的に減衰するベースラインを適切に補償することができ、計算的に効率的な線形解に達するのを助けるが、その代わりに、非線形項を明示的に組み込み、非線形解を探すことを選択することができる。
【0105】
ステップ270で、古典的な最小二乗回帰(またはすべての重みが1と等しい加重最小二乗回帰)を実行して、ステップ260で生成された行列の要素を、ステップ220の完全に較正された生スペクトル・データにあてはめる。一般に、
r=Kc+e 式3
が得られ、ここで、rは、ステップ220の完全に較正された連続スペクトルの(n×1)行列、cは、試料のp個の成分の濃度を表す回帰係数の(p×1)行列、Kは、スティック・スペクトルのライブラリまたは既知の機器形状関数を用いて事前に計算された連続スペクトルのライブラリのいずれかから作成されたp個の成分の連続質量スペクトル応答からなる(n×p)行列である。この表記で、各ベースライン成分が、連続質量スペクトル応答として対応するベースライン項を有する検体とも考えられることに留意されたい。
【0106】
上記で指摘したように、同一の一般形の同等の式を、具体的には式
【数11】

を介して解くことができ、ここで、上付きのTは、行列転置を表し、上付きの−1は、行列反転を表す。この式を解く2つの方法は、同等である。
【0107】
ステップ280で、回帰係数(cの値)を、行列r(試料)の各成分の相対濃度として報告する。各濃度係数の統計的有意性を示すための統計(通常、t−スタティクスまたはp−値)も、米国仮出願第10/689313号に記載の形で報告することができる。
【0108】
ステップ290で、t−スタティクスまたはp−値のいずれかに基づく統計テストを実行して、行列Kに含まれるベースライン成分のいずれかまたはすべてが有意であるかどうかを判定する。これに関して、分析で、試料に(ステップ220で作られるデータで)別の化合物が見つかったかのようにベースラインを扱うことができる。ベースライン成分のいずれかが有意である場合に、ステップ290Aへの分岐が行われ、このベースライン成分が、ステップ220で作られるデータから引かれ、対応する列が、行列Kから削除され、その後、データに対する操作が、ステップ270に戻り、ステップ270、280、および290を繰り返すことによって継続される。全体的なフィットの一部として可能なベースライン成分の寄与をまず推定し、その後、有意なベースライン成分を除去するこの処理は、式1に余分な構成要素を導入せずにベースラインを偏りなしに除去するという目的のために働く。通常、より多くの要素(この場合には列)が行列Kに追加されたとき、その条件付けが悪くなり、濃度行列cのより不正確な推定がもたらされる。この処理ですべての有意なベースラインを除去することによって、行列Kの条件付けが改善され、cに関するより正確な濃度推定につながる。ベースライン成分のこの反復除去は、任意選択であるが、一般に、改善された精度につながる。
【0109】
すべての有意なベースライン成分を除去したとき、ステップ290Bで、候補イオン・フラグメントを、t−スタティクスまたはp−値に基づいてランキングする。さらに、ベースラインに近い多量の特定の候補に関して、正確な濃度ではなく存在または不在の確率を計算する。濃度および確率は、コンピュータ18(図1)に関連するモニタ40に表示することおよび/またはプリンタ(図示せず)で印刷することによって、コンピュータ18によって報告される。
【0110】
上述の処理に、例示のためおよび完全にするために、かなり包括的な一連のステップが含まれる。しかし、あるステップを除外することまたはあるステップを事前にまたは「オフラインで」実行することを含む、この処理を変更できる多数の形がある。たとえば、較正を1回行い、その較正を同一の機器についてある時間期間にわたって使用することが可能である。さらに、より望ましくないが、図2のステップ220を省略し、より基本的なレベルの質量精度を有する従来のマルチポイント質量軸較正だけを使用して、仮定されたピーク形状関数を扱うことができる。さらに、ライブラリ内のスペクトルに対して実行される動作は、1回だけ実行すればよく、所与のターゲット・ピーク形状関数を用いた結果の較正済みライブラリ・スペクトルを、すべての機器または同一のターゲット・ピーク形状関数に完全に較正されたタイプの機器にさえ使用することができる。これに関して、本発明に従って作られる較正済みライブラリは、別々に販売できる非常に貴重な商品である。というのは、これが、同一のピーク形状関数に標準化された異なる質量分析計システムの異なるユーザに対する高い固有の価値を有するからである。
【0111】
逆に、あるステップを、他のステップと組み合わせるか、他のステップと同時に実行することができる。たとえば、1つまたは複数の既知の化合物が、内部標準として試料混合物に追加される場合に、これらは、既知のスペクトルを生成し、これを使用して、米国仮出願第10/689313号に記載の形でオンザフライの完全な質量スペクトル較正を実行することができる。
【0112】
上述のステップのすべてが実行された場合であっても、試料の特定の成分の量を真に示すものでない結果が得られる可能性がまだある。たとえば、そのような誤差は、イオン化効率に関連する難点に起因している可能性がある。すなわち、同一の成分からのイオンの一部が、他のイオンより非効率的にイオン化され、その結果、これらが、出力で十分に表されない。一般に、誤差が3%から10%程度である可能性があるGC/MS技法に関してはあまり問題でないが、MALDIまたはエレクトロスプレイ・イオン化の場合、ある化学種について、この誤差が、10%から30%程度またはそれ以上になる可能性がある。たとえばタンパク質が存在するか否かを判定することまたはその存在が明らかに特定のレベルを超えるかどうかを判定しさえすればよい、いくつかの応用例では、これが問題でない可能性がある。しかし、病気の存在に関する診断を含む多くの応用例で、検体濃度のより正確な決定が必要である。
【0113】
検体濃度をより正確に決定する手法の1つが、反復計算を使用することである。注目の較正範囲にわたって質量電荷比および濃度を有するイオン化フラグメントを作る標準が、ランである。このランの結果に基づいて、質量電荷比および濃度の関数としてのイオン化効率のマップを構築する。試料の成分の初期濃度値に達するために、データの古典的な最小二乗フィット(またはすべての重みが1と等しい加重最小二乗フィット)を決定する。マップを使用して、行列Kの各列(ベースライン成分を除く)を正規化し、その結果、イオン化効率の濃度依存性と質量電荷比依存性の両方を補償する。濃度行列cの改善された推定に達するために、古典的な最小二乗フィットを、補正済みデータに対して実行し、この改善された推定は、行列Kの列のさらによい補正を可能にする。連続する反復が、濃度値の収束が得られるまで実行される。
【0114】
イオン化効率の変動を補正するのに使用できるもう1つの手法が、加重最小二乗フィットを使用することである。この手法は、一般に、クロマトグラフィが検体の初期分離に使用され、本質的に同一の試料が短い時間ウィンドウ内で繰り返して質量分析計にかけられるシステムの場合である、同一試料の複数の複製が実行されるとき、使用することができる。この反復質量スペクトル走査の他の良い例には、同一の多数の個々の質量スペクトル走査を獲得するために数十回または数百回の個々のレーザ・ショットが同一試料に対して使用されるMALDI−TOF、エレクトロ・スプレイ・イオン化(ESI)での注入を介する連続フロー試料導入、米国ニューヨーク州イサカのAdvion Biosciences社のNanomate(商標)などのチップベースESI試料導入(G.Schultz他、Anal.Chem.、72、4058ページ、2000年)が含まれる。
【0115】
出力(ピークの強度)の変動は、質量電荷比の関数として決定することができる。各m/zデータ点での変動の逆数を、加重最小二乗フィット計算の重みとして使用する。重み行列Wは、対角線上のそれぞれの変動の逆数とそれ以外の0をもつものとすることができる。式1の両辺にこの行列をかけると、
Wr=WKc 式3
が得られる。次に、少なくとも、形において式2と同一の古典的最小二乗フィットを適用するが、
r’=cK’ 式4
で濃度cを解くために、(Wr)=r’、WK=K’とする。試料の成分は、非常に変動する信号をもたらす場合に、比較的小さい重みを有し、したがって、最小二乗フィット計算にそれほど影響しない。特定の成分の信号の変動が非常に小さい場合に、この計算で比較的大きい重みを有し、したがって、最小二乗フィット計算により多くの影響を有する。
【0116】
もう1つの手法は、加重最小二乗フィットの適切な重みを得て、米国仮出願第10/689313号に記載の形の完全な質量スペクトル較正の一部として得られる変動スペクトルを使用することである。
【0117】
加重多重線形回帰のt−スタティクスおよびp−値を含む他の計算および統計分析も、米国仮出願第10/689313号に記載の形で実行することができる。
【0118】
時には、試料中のイオンまたはイオン・フラグメントの全てが必ずしもライブラリで見つかるわけではないことを理解されたい。新しい分子が発見されることがある。そうである場合に、少なくとも当初、式1のフィッティング残差eを測定ノイズ・レベルに減らす、それについて濃度の決定を行うことができない余分の成分がある。試料のうちでタンデム質量分析計と共に使用するのに使用可能な部分を有して、未知の化学種の構造および化学組成を決定する必要がある。未知の化学種の識別および化学組成を決定したならば、スティック・スペクトルのライブラリまたは連続スペクトルの事前に計算されたライブラリのいずれかを、関連ライブラリにまだ含まれない新しい化合物からのイオンおよびイオン・フラグメントによって、将来の研究のために増補することができる。
【0119】
用語「質量」および「質量電荷比」は、質量分析計の質量電荷比軸によって定義される情報または出力に関して、多少交換可能に使用されることに留意されたい。これは、科学文献および科学議論で一般的な慣行であり、これらの用語が当業者によって文脈の中で読まれるとき、曖昧さは発生しない。
【0120】
本発明の分析の方法は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組合せで実現することができる。どの種類のコンピュータ・システムでも、あるいは本明細書に記載の方法および/または機能を実行するように適合された他の装置も好適である。ハードウェアとソフトウェアの通常の組合せは、ロードされ実行されたときコンピュータ・システムを制御するコンピュータ・プログラムを有する汎用コンピュータ・システムとすることができ、このコンピュータ・システムは、分析システムが本明細書に記載の方法を実行するように、その分析システムを制御する。本発明は、本明細書に記載の方法の実装を可能にするすべての特徴を含み、コンピュータ・システム(次に分析システムを制御する)にロードされたときこれらの方法を実行することができる、コンピュータ・プログラム製品で実施することもできる。
【0121】
この文脈でのコンピュータ・プログラム手段またはコンピュータ・プログラムは、別の言語、コード、もしくは表記への変換および/または異なる材料形態での再生の後にあるいは直接に、情報処理機能を有するシステムに特定の機能を実行させることを意図された命令の組の任意の表現を、任意の言語、コード、または表記で含む。
【0122】
したがって、本発明は、上述の機能を引き起こすコンピュータ可読プログラム・コード手段が組み込まれたコンピュータ使用可能媒体を含む製造品を含む。この製造品内のコンピュータ可読プログラム・コード手段は、コンピュータに本発明の方法のステップを行わせるコンピュータ可読プログラム・コード手段を含む。同様に、本発明は、上述の機能を引き起こすコンピュータ可読プログラム・コード手段が組み込まれたコンピュータ使用可能媒体を含むコンピュータ・プログラム製品として実施することができる。このコンピュータ・プログラム製品内のコンピュータ可読プログラム・コード手段は、コンピュータに本発明の1つまたはそれ以上の機能を行わせるコンピュータ可読プログラム・コード手段を含む。さらに、本発明は、本発明の1つまたはそれ以上の機能を行うための方法ステップを実行するために機械によって実行可能な命令のプログラムを明らかに実施する、機械によって可読のプログラム・ストレージ・デバイスとして実施することができる。
【0123】
前述したものは、本発明のより関連する目的および実施形態の一部の概要を示したものであることに留意されたい。本発明の概念は、多数の応用分野に使用することができる。したがって、当該説明は特定の装置および方法に関して述べられているが、本発明の意図および概念は、他の装置および応用例に適し、適用可能である。開示された実施形態に対する他の変更を、本発明の趣旨および範囲から逸脱せずにおこなえることが、当業者には明白であろう。説明された実施形態は、本発明のより顕著な特徴および応用例の一部を例示するに過ぎないと解釈すべきである。したがって、前述の説明が、本発明の例示にすぎないことを理解されたい。当業者は、本発明から逸脱せずに、さまざまな代替形態および修正形態を考案することができる。開示された発明を異なる形で適用することまたは本発明を当業者に既知の形で変更することによって、他の有益な結果を実現することができる。したがって、この実施形態が、制限ではなく例として提供されたことを理解されたい。したがって、本発明は、請求項の範囲に含まれるすべての代替形態、修正形態、および変形形態を含むことが意図されている。
【図面の簡単な説明】
【0124】
【図1】本発明による質量分析計を示すブロック図である。
【図2】図1のシステムによって使用される分析のステップを示す流れ図である。

【特許請求の範囲】
【請求項1】
質量分析計からのデータを分析する方法であって、
生スペクトル・データを処理することによって、較正済み連続スペクトル・データを得ること、
較正済みライブラリ・データを形成するために処理されたライブラリ・スペクトル・データを得ること、および、
生スペクトル・データを生成した試料内の成分の濃度を決定するために、較正済み連続スペクトル・データと較正済みライブラリ・データとの間で最小二乗フィットを実行すること
を含む方法。
【請求項2】
較正済みライブラリ・データは、スペクトル・ピーク形状関数をスティック・スペクトル・ライブラリ内のスティック・スペクトル・データに適用することによって得られる請求項1に記載の方法。
【請求項3】
較正を生スペクトル・データに適用し、較正済み連続スペクトル・データを提供する請求項1に記載の方法。
【請求項4】
較正は、フィルタ関数を使用し、それによって質量軸を較正し、かつ実際のピーク形状関数をターゲット・ピーク形状関数に変換することによって実行される請求項3に記載の方法。
【請求項5】
較正済み連続スペクトル・データは、質量較正曲線を介する補間によって得られる請求項3に記載の方法。
【請求項6】
較正済みライブラリ・データは、スティック・スペクトル・ライブラリ内のスティック・スペクトル・データから導出された連続スペクトル・データである請求項1に記載の方法。
【請求項7】
最小二乗フィットは、
r=Kc+e
の形の式またはこの形の式の転置行列を解くことを含み、ここで
rは、較正済み連続スペクトル・データの(n×1)行列であり、
cは、試料内のp個の成分の濃度を表す回帰係数の(p×1)行列であり、
Kは、すべてがn個の質量点でサンプリングされた、スティック・スペクトルのライブラリまたは既知のピーク形状関数を有する連続スペクトルの事前に計算されたライブラリのいずれかから生成されたp個の成分の連続質量スペクトル応答からなる(n×p)行列であり、
eは、ランダム・ノイズからの寄与および線形モデルからの任意の系統的偏差を有するフィッティング誤差の(n×1)行列である
請求項1に記載の方法。
【請求項8】
式の転置行列で、r’は、(1×n)行列であり、c’は、(1×p)行列であり、K’は、(p×n)行列であり、e’は、(1×n)行列である請求項7に記載の方法。
【請求項9】
行列cの値は、
【数1】

として多重線形回帰を介して行列Kを反転することによって決定され、上付きのTは、行列転置を表し、上付きの−1は、行列反転を表す請求項7に記載の方法。
【請求項10】
式の転置行列で、c’は、
c’=r’K’T (K’K’T-1
として多重線形回帰を介して行列k’を反転することによって決定され、上付きのTは、行列転置を表し、そして上付きの−1は、行列反転を表す請求項9に記載の方法。
【請求項11】
試料内の候補イオンおよび候補イオン・フラグメントを、その存在の統計的確率に基づいてランキングすることをさらに含む請求項7に記載の方法。
【請求項12】
ランキングは、t−スタティクスに基づく請求項11に記載の方法。
【請求項13】
スティック・スペクトルのライブラリまたは連続スペクトルの事前に計算されたライブラリのいずれかは、まだいずれかのライブラリに含まれていない新しい化合物からのイオンおよびイオン・フラグメントによって増補される請求項7に記載の方法。
【請求項14】
較正済み連続スペクトル・データは、ベースライン成分を有し、そして各ベースライン成分は、行列Kの追加の列としてまたはKの転置行列の追加の行として含まれる請求項7に記載の方法。
【請求項15】
統計的に有意なベースライン成分ごとに、
較正済み連続スペクトル・データからそのベースライン成分を引くこと、
行列Kからその成分を除去すること、および、
生スペクトル・データを生成した試料内の成分の濃度を決定するために、行列演算をもう一度実行すること
をさらに含む請求項14に記載の方法。
【請求項16】
追加のベースライン項または候補ライブラリ成分を行列Kに追加すること、および、
生スペクトル・データを生成した試料内のすべての成分の濃度を決定するために、行列演算をもう一度実行すること
をさらに含む請求項7に記載の方法。
【請求項17】
質量および濃度の関数として、生データを得るのに使用された質量分析計のイオン化効率のマップを構築すること、
試料の成分の初期濃度値を見つけるために最小二乗フィットを決定すること、および、
イオン化効率の濃度依存性と質量依存性の両方が補償される訂正済みデータを生成するために、マップを使用し、ベースライン成分に対応する列を除く行列Kの各列を正規化すること
をさらに含む請求項7に記載の方法。
【請求項18】
補正済みデータを使用し、濃度行列cの改善された推定に到達すること、および、
行列Kの列の値をさらに補正すること
をさらに含む請求項17に記載の方法。
【請求項19】
濃度値の収束が得られるまで、決定するステップおよび使用するステップの連続反復を実行すること
をさらに含む請求項17に記載の方法。
【請求項20】
ライブラリから候補イオン・フラグメントを選択すること、
各候補イオン・フラグメントの化学組成に基づいて同位元素分布を計算すること、
各候補イオン・フラグメントの計算された同位元素パターンを得るために、ピーク形状関数を用いて同位元素分布を畳み込むこと、および、
同位元素パターンに従って行列Kの値を決定すること
をさらに含む請求項7に記載の方法。
【請求項21】
値はまた、質量依存ピーク形状関数に基づいて決定される請求項20に記載の方法。
【請求項22】
質量の関数として、生スペクトル・データのピークの強度の変動を決定すること、および、
加重最小二乗フィット計算の重みとして、各質量スペクトル・データ点で変動の逆数を使用すること、
をさらに含む請求項7に記載の方法。
【請求項23】
それぞれの変動の逆数が対角線上にあり、0がそれ以外のすべての場所にある重み行列が形成される請求項22に記載の方法。
【請求項24】
変動は、生質量スペクトル・データの連続する繰り返しから決定される請求項22に記載の方法。
【請求項25】
変動は、連続質量スペクトル・データに対して実行されるフィルタリングまたはスムージング・オペレーションから決定される請求項22に記載の方法。
【請求項26】
式の両辺に重み行列をかけること、および、
最小二乗フィットを実行し、濃度について解くこと
をさらに含む請求項7に記載の方法。
【請求項27】
最小二乗フィットは、異なるスペクトルのライブラリを表す項を有する行列を用いて決定され、スペクトルのそれぞれは、異なるイオン・フラグメントを表す請求項1に記載の方法。
【請求項28】
フラグメントは、試料内のタンパク質またはペプチドを表す請求項27に記載の方法。
【請求項29】
質量分析計を動作させ、生スペクトル・データを得ることをさらに含む請求項1に記載の方法。
【請求項30】
質量および質量の関数としてのピーク形状関数に関して質量分析計を較正することをさらに含む請求項29に記載の方法。
【請求項31】
較正標準は、較正を容易にするために試料と混合される請求項30に記載の方法。
【請求項32】
較正標準は、較正を容易にするために試料と交換可能に導入される請求項30に記載の方法。
【請求項33】
質量分析計を較正したとき生成される較正を使用し、較正済みライブラリ・データを形成するためにライブラリ・スペクトル・データを処理する請求項30に記載の方法。
【請求項34】
試料内の候補イオンおよび候補イオン・フラグメントを、その存在の統計的確率に基づいてランキングすること
をさらに含む請求項1に記載の方法。
【請求項35】
ランキングは、t−スタティクスに基づく請求項34に記載の方法。
【請求項36】
ライブラリ検索結果として、試料内の相対濃度および存在の確率のうちの少なくとも1つを報告することをさらに含む請求項34に記載の方法。
【請求項37】
質量軸は、計算ステップの前に、線形間隔以外の間隔に変換される請求項1に記載の方法。
【請求項38】
質量スペクトル・ライブラリを作成する方法であって、
既存質量スペクトル・ライブラリからスティック・スペクトルを得ること、
イオンまたはイオン・フラグメントに対応する各スティックの化学組成を得ること、
各イオンまたはイオン・フラグメントの同位元素分布を、その化学組成に基づいて計算すること、
ターゲット・ピーク形状関数を指定すること、および、
ターゲット・ピーク形状関数を有する連続ライブラリ・スペクトルを得るために、同位元素分布とターゲット・ピーク形状関数との間で畳み込み演算を実行すること
を含む方法。
【請求項39】
同一のターゲット・ピーク形状関数を用いて質量分析計を正確な質量に較正すること、
質量分析計から生連続データを得ること、および、
較正を生連続データに適用し、較正済み連続データを得ること
をさらに含む、請求項38に記載の方法。
【請求項40】
質量軸は、計算ステップの前に、線形間隔以外の間隔に変換される請求項38に記載の方法。
【請求項41】
ピーク形状関数は、質量依存である請求項39に記載の方法。
【請求項42】
ピーク形状関数は、質量独立にするために変換される請求項40に記載の方法。
【請求項43】
質量分析計によって生成されるデータの分析をコンピュータに実行させるライブラリを有するコンピュータ可読媒体であって、該ライブラリが、
既存質量スペクトル・ライブラリからスティック・スペクトルを得ること、
イオンまたはイオン・フラグメントに対応する各スティックの化学組成を得ること、
各イオンまたはイオン・フラグメントの同位元素分布を、その化学組成に基づいて計算すること、
ターゲット・ピーク形状関数を指定すること、および、
ターゲット・ピーク形状関数を有する連続ライブラリ・スペクトルを得るために、同位元素分布とターゲット・ピーク形状関数との間で畳み込み演算を実行すること
からなるプロセスによって生成される、コンピュータ可読媒体。
【請求項44】
コンピュータを含むデータ分析部分を有する質量分析計システムと共に使用される、コンピュータ可読コードを有するコンピュータ可読媒体であって、コンピュータ可読コードは、試料の生スペクトル・データから導出された較正済み連続スペクトル・データおよびライブラリ・スペクトル・データから導出された較正済みライブラリ・データに対して最小二乗フィットを実行し、それによって生スペクトルデータを生成する試料内の成分の濃度を決定することによってコンピュータにデータを分析させるためのものであるコンピュータ可読媒体。
【請求項45】
請求項2〜37に記載の方法のいずれか1つをコンピュータに実行させるコンピュータ可読コードをさらに含む請求項44に記載のコンピュータ可読媒体。
【請求項46】
質量分析計部分とデータ分析システムとを含む、化学組成を分析する質量分析計システムであって、データ分析システムは、
生スペクトル・データを処理することによって較正済み連続スペクトル・データを得ること、
較正済みライブラリ・データを形成するために処理されたライブラリ・スペクトル・データを得ること、および、
較正済み連続スペクトル・データおよび較正済みライブラリ・データに対して最小二乗フィットを実行し、生スペクトル・データを生成した試料内の成分の濃度を決定することによって動作するシステム。
【請求項47】
データ分析部分は、請求項2〜37の方法のいずれか1つに従って動作するように構成される請求項46に記載の質量分析計システム。
【請求項48】
分析される試料を調製する試料調製部分をさらに含む請求項46に記載の質量分析計システム。
【請求項49】
分析される試料の初期分離を実行する試料分離部分をさらに含む請求項46に記載の質量分析計システム。
【請求項50】
分離部分は、試料をさまざまな成分に分離する電気泳動装置を含む請求項49に記載の質量分析計システム。
【請求項51】
分離部分は、試料をさまざまな成分に分離する化学親和性チップを含む請求項49に記載の質量分析計システム。
【請求項52】
分離部分は、試料をさまざまな成分に分離するクロマトグラフィ・カラムを含む請求項49に記載の質量分析計システム。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2007−525644(P2007−525644A)
【公表日】平成19年9月6日(2007.9.6)
【国際特許分類】
【出願番号】特願2006−513396(P2006−513396)
【出願日】平成16年4月28日(2004.4.28)
【国際出願番号】PCT/US2004/013096
【国際公開番号】WO2004/097581
【国際公開日】平成16年11月11日(2004.11.11)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
【出願人】(505401366)セルノ・バイオサイエンス・エルエルシー (7)
【Fターム(参考)】