質量分析データ解析方法及び解析装置
【課題】実測のMS3スペクトルの情報を有効且つ的確に活用してペプチド同定の精度を向上させるとともに、同定したペプチドの信頼度を示す正確な定量情報を併せて提供する。
【解決手段】被検試料に対する実測MS2スペクトルに基づくデータベース検索により、複数の候補ペプチドを選出する。候補ペプチド一つ一つについて、理論MS3フラグメントの質量を求め、該質量の中で、対応するピークが実測MS3スペクトルに存在するが実測MS2スペクトルには存在しないものを抽出し、このピークを元の実測MS2スペクトルによるピークリストに追加する。そして、修正されたピークリストに基づいて候補ペプチドのスコアを再計算する。全ての候補ペプチドのスコアを再計算した後に、それを比較してスコア1位となる候補ペプチドが正解ペプチドであると判断し、スコアやスコア分布から計算される期待値とともに同定結果を出力する。
【解決手段】被検試料に対する実測MS2スペクトルに基づくデータベース検索により、複数の候補ペプチドを選出する。候補ペプチド一つ一つについて、理論MS3フラグメントの質量を求め、該質量の中で、対応するピークが実測MS3スペクトルに存在するが実測MS2スペクトルには存在しないものを抽出し、このピークを元の実測MS2スペクトルによるピークリストに追加する。そして、修正されたピークリストに基づいて候補ペプチドのスコアを再計算する。全ての候補ペプチドのスコアを再計算した後に、それを比較してスコア1位となる候補ペプチドが正解ペプチドであると判断し、スコアやスコア分布から計算される期待値とともに同定結果を出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ペプチド等の生体由来の高分子化合物に対してMSn分析を実行して収集されたデータを解析処理し、上記高分子化合物を同定したりその構造を解析したりする質量分析データ解析方法及び解析装置に関する。
【背景技術】
【0002】
近年、ポストゲノム研究としてタンパク質の構造や機能の解析が急速に進められている。このようなタンパク質の構造・機能解析手法(プロテオーム解析)の一つとして、質量分析計を用いたタンパク質の発現解析や一次構造解析が広く行われるようになってきており、四重極型イオントラップなどにおける特定イオンの捕捉と衝突誘起解離(CID)等のイオン開裂とを行う、いわゆるMSn分析が威力を発揮している。
【0003】
MSn分析を利用してタンパク質を同定する一般的な手法としては、まず、タンパク質を化学的に又は酵素消化により分解してペプチド断片の混合物とし、このペプチド断片混合物を質量分析に供してマススペクトル(MS1スペクトル)を取得する。続いて、ペプチド断片混合物のマススペクトルデータの中から、単一のペプチドに由来する一組の同位体ピーク群をプリカーサイオンとして選択し、該プリカーサイオンに対しCIDを実施し、開裂により生じたフラグメントイオンの質量分析、つまりMS2分析を実行する。CIDにより、特定のペプチドを構成するアミノ酸配列の様々な位置で結合が切れ、異なるアミノ酸残基を持つフラグメント(断片)が生じる。そのため、取得されるMS2スペクトルは、特定のペプチドのアミノ酸配列を反映したものとなる。
【0004】
このようなMS2スペクトルを利用してペプチドのアミノ酸配列の推定、つまりペプチドの同定を行う際には、MS/MSイオンサーチと呼ばれるデータベース検索手法が広く利用されている。MS/MSイオンサーチは米国マトリクスサイエンス(Matrix Science)社が提供しているマスコット(MASCOT)と名付けられた検索エンジンソフトウエアに含まれるものがよく知られている(非特許文献1参照)。MS/MSイオンサーチでは、得られた実測のMS2スペクトルと、タンパク質データベースに登録されている全タンパク質を同じ酵素で消化して(又は化学的処理により)得られるペプチド断片に対してコンピュータ内で理論的なフラグメンテーションを計算して得られる仮想的なMS2スペクトルとの一致度が統計的に判断され、同時にペプチドの分子量情報も考慮したスコア化がなされる。したがって、MS/MSイオンサーチ検索結果画面には、通常、分析対象であるペプチドに該当する可能性が高い複数の候補ペプチドがスコアで順位付けされて一覧表示される。
【0005】
また、特定のペプチドに対応したMS2スペクトルからさらに適当なプリカーサイオンを選択し、これをCIDにより開裂させて質量分析に供することによりMS3スペクトルを得ることができる。この実測MS3スペクトルに基づくデータベース検索を実行することにより、MS2スペクトルのみを用いてペプチドを同定する場合と比べ、より信頼度の高い同定結果を得ようとする手法が従来開発されている。
【0006】
非特許文献2に開示されている検索結果マージ手法では、同一被検試料に対して取得したMS2スペクトルとMS3スペクトルとに基づくデータベース検索をそれぞれ独立に行い、各データベース検索により候補ペプチドとスコアとをそれぞれ取得する。そのあと、それぞれの候補ペプチドの信頼度の確率に基づいてそれら候補ペプチドが正解ペプチド(真のペプチド)である確率を計算し直して候補ペプチドと併せて出力する。
【0007】
また非特許文献3に開示されている階層的検索手法では、まずMS2スペクトルに基づくデータベース検索を実行して候補ペプチドを絞り込んだ後に、その各候補ペプチドについてMS3スペクトルに基づくデータベース検索を行って、複数の候補ペプチドの中の一つを正解ペプチドとして同定する。具体的には、MS2スペクトルに基づくデータベース検索で絞り込まれた候補ペプチドに対する理論MS3フラグメントの質量情報(MS3でのイオンのフラグメンテーションを理論的に予測して得られるMS3フラグメントイオンの質量電荷比情報)と実測MS3スペクトル上のピークの質量電荷比との一致性が最良であるものを正解のペプチドであると断定する。
【0008】
簡単に言えば、検索結果マージ手法はMS2スペクトルに基づくデータベース検索とMS3スペクトルに基づくデータベース検索とを並列的に行う手法であり、階層的検索手法はMS2スペクトルに基づくデータベース検索とMS3スペクトルに基づくデータベース検索とを直列的に行う手法であると言うことができる。しかしながら、上記いずれの手法でも次のような問題があり、ペプチドの同定精度を上げる上でMS3スペクトル(或いはそれ以上のCIDを繰り返して取得するMSnスペクトル)を必ずしも有効に活用できていないという課題を有する。
【0009】
即ち、上記の検索結果マージ手法では、MS2スペクトル、MS3スペクトルのいずれに基づくデータベース検索においても、検索結果のスコアが最も高い候補ペプチド以外の候補は考慮されない。そのため、MS2スペクトルのみに基づくデータベース検索を行った場合と比較して高い信頼度で以てペプチドを同定できるのは、MS2スペクトルに基づくデータベース検索とMS3スペクトルに基づくデータベース検索との両方で同じペプチドがスコア1位で同定できた場合のみである。実際にはこのようなケースは稀であることから、検索結果マージ手法は同定精度を上げる上であまり有効ではないと言える。また、検索結果マージ手法では信頼度の指標として生起確率を用いているが、そもそも独立ではない複数の生起確率を乗算して得られた値を最終的なペプチドの生起確率とみなしているため、信頼度を表す値として必ずしも妥当な値とはならないという問題もある。
【0010】
他方、上記の階層的検索手法では、候補ペプチドについてのMS3スペクトルに基づくデータベース検索で一致性が最良にならないと正解ペプチドが正しく同定されないが、一般的に、正解ペプチドであってもMS3スペクトルに基づくデータベース検索で一致性が最良になるとは限らない。特に、候補ペプチドの数が多い場合、MS3の段階において候補の中で正解ペプチドの一致性が最良になる確率はかなり低くなる。また、この手法では、同定されたペプチドの信頼度を示す期待値やスコアのような、定量的な或いは統計的な数値は算出されない。このため、得られた同定結果を分析者が正解と判断してよいか検証することが困難である。
【0011】
なお、非特許文献3においては、階層的検索手法がきわめて有効であることが示されているが、本願発明者の検討によれば、これは該文献において前提としている装置がフーリエ変換質量分析計(FT−MS)であるためであると考えられる。FT−MSでは、プリカーサイオンの選択及びイオン開裂を繰り返す度に質量精度は悪化するものの、非常に高い感度でフラグメントイオンが検出されるという特性がある。このため、MS2スペクトルに基づくデータベース検索において候補ペプチドを十分に少ない数に絞り込むことが容易であり、その候補ペプチドに対してMS3スペクトルを使用したデータベース検索を実行したときに結果が擬陽性(正解でないものを正確であると誤って判定する状態)となるケースが少なくて済む。しかしながら、現在、ペプチド同定等に広く使用されているマトリクス支援レーザ脱離イオン化イオントラップ質量分析計では、プリカーサイオンの選択及びCIDによる開裂操作を繰り返す度にイオン量が減少するために感度は悪化するが、質量精度は向上していく。そのため、上記階層的検索手法を用いた場合、MS2スペクトルに基づくデータベース検索では候補ペプチドが多すぎて、MS3スペクトルに基づくデータベース検索を行ったときに結果が擬陽性となる可能性が比較的高い。そのため、MS3スペクトルを利用する意味があまりないと言える。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】“MS/MS Ions Search”、[online]、マトリクス・サイエンス社(Matrix Science Inc.)、[平成23年5月18日検索]、インターネット<URL:http://www.matrixscience.com/help/mis_help.html>
【非特許文献2】ウリンツ(P. J. Ulintz)、ほか4名、「インベスティゲイティング・エムエス2/エムエス3・マッチング・スタティスティクス:ア・モデル・フォー・カップリング・コンセクティブ・ステージ・マス・スペクトロメトリー・データ・フォー・インクリーズド・ペプタイド・アイデンティフィケイション・コンフィデンス(Investigating MS2/MS3 matching statistics: a model for coupling consecutive stage mass spectrometry data for increased peptide identification confidence)」、モレキュラー・アンド・セルラー・プロテオミクス(Molecular & Cellular Proteomics)、2008年、Vol.7、pp.71-87
【非特許文献3】シュー(Hua Xu)、ほか3名、「ア・ヒエラルヒカル・エムエス2/エムエス3・データベース・サーチ・アルゴリズム・フォー・オートメイテッド・アナリシス・オブ・フォスフォペプタイド・タンデム・マス・スペクトラ(A hierarchical MS2/MS3 database search algorithm for automated analysis of phosphopeptide tandem mass spectra)」、プロテオミクス(Proteomics)、2009年、Vol.9、pp.1763-1770
【発明の概要】
【発明が解決しようとする課題】
【0013】
本発明は上記課題に鑑みて成されたものであり、その主な目的は、MS/MSイオンサーチ等のデータベース検索を行ってペプチドを同定する際に、MS2スペクトルのほかにMS3スペクトル又はnが4以上であるMSnスペクトルを有効に利用してペプチドの同定精度を向上させるとともに、その同定結果を分析者が確認したり検証したりするために有用で定量的な情報を併せて得ることができる質量分析データ解析方法及び解析装置を提供することである。
【課題を解決するための手段】
【0014】
上記課題を解決するために成された第1発明は、同一被検試料に対するMSpスペクトルデータ(p≧2である整数)とMSqスペクトルデータ(q>pである任意の一つの整数又は互いに異なる複数の整数)とを利用し、データベース検索により該被検試料中のペプチドを同定する質量分析データ解析方法であって、
a)前記MSpスペクトルデータから求めたピークリストを用い、データベースに登録されているペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を算出し、該指標値に基づいて候補ペプチドを選定する候補選定ステップと、
b)該候補選定ステップにより選定された候補ペプチドについて理論MSqフラグメントの質量情報を求め、その中で、対応するピークが前記MSpスペクトルデータ中に存在せず前記MSqスペクトルデータ中に存在するものを抽出する追加情報抽出ステップと、
c)該追加情報抽出ステップにおいて抽出されたピークを前記MSpスペクトルデータから求めたピークリストに追加することにより該ピークリストを修正するピークリスト修正ステップと、
d)該ピークリスト修正ステップにおいて前記候補ペプチドに対応して修正されたピークリストに基づいて、該候補ペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を再計算する再計算ステップと、
を有し、再計算された指標値に基づいて前記候補ペプチドが正解ペプチドであることの信頼度を判定可能としたことを特徴としている。
【0015】
また上記課題を解決するために成された第2発明は、第1発明に係る質量分析データ解析方法を具現化するための装置であって、同一被検試料に対するMSpスペクトルデータ(p≧2である整数)とMSqスペクトルデータ(q>pである任意の一つの整数又は互いに異なる複数の整数)を利用し、データベース検索により該被検試料中のペプチドを同定する質量分析データ解析装置において、
a)前記MSpスペクトルデータから求めたピークリストを用い、データベースに登録されているペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を算出し、該指標値に基づいて候補ペプチドを選定する候補選定手段と、
b)該候補選定手段により選定された候補ペプチドについて理論MSqフラグメントの質量情報を求め、その中で、対応するピークが前記MSpスペクトルデータ中に存在せず前記MSqスペクトルデータ中に存在するものを抽出する追加情報抽出手段と、
c)該追加情報抽出手段により抽出されたピークを前記MSpスペクトルデータから求めたピークリストに追加することにより該ピークリストを修正するピークリスト修正手段と、
d)該ピークリスト修正手段により前記候補ペプチドに対応して修正されたピークリストに基づいて、該候補ペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を再計算する再計算手段と、
を備え、再計算された指標値に基づいて前記候補ペプチドが正解ペプチドであることの信頼度を判定可能としたことを特徴としている。
【0016】
第1及び第2発明において、例えばpは2、qは3とすることができるが、p、qはこれに限らない。また、qは一つのみでなく複数であってもよい。例えば、pが2のとき、qは3及び4としてもよい。即ち、MSqスペクトルデータは異なる回数の開裂操作(例えばCID)によりそれぞれ取得した質量分析データであってもよい。
【0017】
また第1及び第2発明において、「ペプチドの理論MSpフラグメントの質量情報」とは、当該ペプチドに対するMSp段階のフラグメンテーションの態様を理論的に予測することで得られるフラグメント(フラグメントイオンのほかニュートラルロス等の非電荷断片も含む)の質量(質量電荷比)のことである。また「理論MSqフラグメントの質量情報」とは、同様に、MSq段階のフラグメンテーションの態様を理論的に予測することで得られるフラグメント(フラグメントイオンのほかニュートラルロス等の非電荷断片も含む)の質量(質量電荷比)のことである。
【0018】
第1発明に係る質量分析データ解析方法において、候補選定ステップでは、例えば被検試料に対するMSpスペクトルデータに対しピークピッキングを行って少なくともピークリスト(少なくとも各ピークの質量情報を含む)を作成し、これに基づき、例えばMS/MSイオンサーチ等のデータベース検索エンジンソフトウエアを利用してデータベース検索を実行することで、目的とするペプチドである可能性がある候補ペプチドを選定する。通常、質量情報の一致性に基づく指標値が所定の閾値以上である複数の候補ペプチドが選定される。なお、候補選定ステップは、従来の一般的なデータベース検索法でも実施されている処理ステップである。
【0019】
次いで、追加情報抽出ステップでは、選定された一つの候補ペプチドについて実測のMSqスペクトルと同一のプリカーサイオンに対する理論MSqフラグメントの質量情報を算出し、その質量の中で、対応するピークが実測のMSpスペクトルデータ中に存在せず、実測のMSqスペクトルデータ中に存在するものを抽出する。CID等の開裂操作ではその条件等によってアミノ酸配列の結合の切れる位置が変化するから、MSq分析段階で存在するアミノ酸残基は、MSp分析段階で存在するとみなしても何ら問題ない。即ち、理論MSpフラグメントの質量が実測のMSpスペクトルデータ中に存在しなくても、理論MSqフラグメントの質量が実測のMSqスペクトルデータ中に存在してさえいれば、該質量を持つフラグメントに対応したアミノ酸残基は被検試料中のペプチドの一部であると推測できる。そこで、追加情報抽出ステップにおいて抽出されたピークは候補ペプチドのMSpスペクトル上に存在しているものとみなし、該ピークをMSpスペクトルデータから求めたピークリストに追加する。即ち、これは、その候補ペプチドの信頼度を上げるのに寄与する情報を追加したことを意味する。
【0020】
ペプチドのフラグメンテーションの態様は開裂手法によっても相違し、広く用いられているCIDではC末端由来のb系列イオンとN末端由来のy系列イオンとが顕著に観測されるから、データベース検索等においてもこれら系列のイオンピークが用いられる。この場合、MSqスペクトルでは、MSq分析の際のプリカーサイオンがb系列イオンであるかy系列イオンであるかによって、MSpスペクトルと質量電荷比が共通となるイオンの系列が相違する。そのため、例えばMS2スペクトル上のy系列イオンをプリカーサイオンとしてMS3分析を行った場合には、MS2スペクトルとMS3スペクトルとでy系列イオンの質量電荷比が共通になる一方、b系列イオンの質量電荷比はMS2のプリカーサイオン(解析対象である特定ペプチドのイオン)の質量電荷比とMS3プリカーサイオンの質量電荷比との差の分だけ、MS2スペクトルよりもMS3スペクトルにおいて小さくなる。一方、MS2スペクトル上のb系列イオンをプリカーサイオンとしてMS3分析を行った場合には、MS2スペクトルとMS3スペクトルとでb系列イオンの質量電荷比が共通になる一方、y系列イオンの質量電荷比は上記質量電荷比の差の分だけ、MS2スペクトルよりもMS3スペクトルにおいて小さくなる。そこで、追加情報抽出ステップでは、MS3分析のプリカーサイオンがy系列イオン、b系列イオンのいずれであるのかに従って、一方の系列イオンでは単純に理論MS3フラグメントの質量電荷比に対応したピークをMS2のピークリストに追加し、他方の系列では理論MS3フラグメントの質量電荷比に上記質量電荷比の差を加算した質量電荷比に対応したピークをMS2のピークリストに追加するとよい。
【0021】
上述したようにMSpのピークリストに追加されたピークはその候補ペプチドの理論MSpフラグメントの質量と一致するから、これはデータベース検索の過程で求まる該候補ペプチドの指標値を高める筈である。そこで、再計算ステップでは、その候補ペプチドに対応して修正されたピークリストに基づいて該候補ペプチドについての指標値を計算し直す。これにより、実測MSpスペクトルに基づいて挙げられた候補ペプチドの信頼度を示す指標値を、実測MSqスペクトルの情報を利用することで、より正確な値に修正することができる。したがって、この再計算された指標値を利用すれば、候補ペプチドが正解ペプチドであるか否かを正確に判断することが可能となる。
【0022】
第1発明に係る質量分析データ解析方法において、好ましくは、前記候補選定ステップでは、指標値が所定閾値以上である候補ペプチドを複数選定し、その複数の候補ペプチドの全てについてそれぞれ、前記追加情報抽出ステップ、前記ピークリスト修正ステップ、及び前記再計算ステップ、による処理を実行し、前記複数の候補ペプチドの再計算された指標値を比較して最も指標値の高い候補ペプチドを正解ペプチドであるとして同定するとよい。
【0023】
この質量分析データ解析方法によれば、実測のMSqスペクトルの情報を利用した、より正確性の高い指標値に基づいて複数の候補ペプチドの中から最も信頼性のペプチドを選出できるので、ペプチドの同定精度を向上させることができる。また、そのペプチド同定結果と併せて指標値を提供することができる。
【0024】
さらに好ましくは、前記複数の候補ペプチドの再計算された指標値の分布に基づいて、前記正解ペプチドであるとされた指標値に対応した期待値を算出して該期待値をその同定の信頼度情報として提供するとよい。指標値の分布から期待値を算出するアルゴリズム自体は、例えばMS/MSイオンサーチに搭載されている機能をそのまま利用することができる。これによれば、同定結果の信頼度や妥当性を分析者が判断する際により有用な情報を提供することができる。
【発明の効果】
【0025】
第1発明に係る質量分析データ解析方法及び第2発明に係る質量分析データ解析装置では、上述した検索結果マージ手法とは異なり、例えばMS2スペクトルを用いたデータベース検索の段階で正解ペプチドのスコア(本発明における指標値)が低い場合であっても、MS3スペクトルに基づく情報を補って再スコアリングを行うことで、正解ペプチドのスコアが高くなる。したがって、第1及び第2発明によれば、正解ペプチドを同定結果として提供できる可能性が高まり、ペプチド同定の精度向上が図れる。
【0026】
また、第1及び第2発明では、MSpスペクトルに基づく検索結果の信頼度が十分でなく候補ペプチドの数がかなり多くなるような場合であっても、候補ペプチド毎にMSqスペクトルの情報を有効に利用して信頼度を上げることができるので、上述した階層的検索手法に比べて擬陽性が生じる可能性が低くなり、ペプチド同定の精度向上が図れる。また、第1及び第2発明では、MSqスペクトルの情報を補った状態で理論MSpフラグメントの質量情報との一致性等に基づきスコアを再計算しているので、上述した検索結果マージ手法で採用されている計算方法に比較して統計的な妥当性が高く、より信頼性の高い情報を分析者に提供することができる。
【0027】
さらにまた、上記のような従来手法はMS2、MS3といった2段階の開裂操作を伴う質量分析にしか利用できないが、第1及び第2発明によれば、MSqスペクトルを利用したピークリストへのピークの選択追加はnが4以上のMSnスペクトルからも可能である。したがって、特に3次元四重極型イオントラップのように多段階の開裂操作が可能なイオントラップを備える質量分析装置を用いて収集されたデータを有効に利用してペプチド同定精度を向上させるうえで有利である。
【図面の簡単な説明】
【0028】
【図1】本発明に係る質量分析データ解析装置を含むペプチド解析システムの一実施例の全体構成図。
【図2】本実施例のペプチド解析システムにおいて実施されるデータ解析処理手順の一例を示すフローチャート。
【図3】図2中のステップS4の詳細な手順を示すフローチャート。
【図4】図2に示したデータ解析処理の概念図。
【図5】タンパク質(Ovalbumin)由来のペプチドに対して得られたMS2スペクトルを用いたデータベース検索で取得される検索結果の一部を示す図。
【図6】図5に示したMS2スペクトルからm/z1331をプリカーサイオンとして選択して得られたMS3スペクトルを用いたデータベース検索で取得される検索結果の一部を示す図。
【図7】図5に示した検索結果のうち、アミノ酸配列[GGLEPINFQTAADQAR]のy/b系列イオンと実測MS2スペクトルとの質量電荷比m/zの対応状態を示す図。
【図8】図6に示した検索結果のうち、アミノ酸配列[PINFQTAADQAR]のy/b系列イオンと実測MS3スペクトルとの質量電荷比m/zの対応状態を示す図。
【図9】図7と図8との共通のy系列イオンと実測MS2/MS3スペクトルとの質量電荷比m/zの対応状態を示す図。
【図10】図7と図8との共通のb系列イオンと実測MS2/MS3スペクトルとの質量電荷比m/zの対応状態を示す図。
【図11】図9と図10のマージ後の列において再スコアリングに反映するイオンを用いて修正されたピークリストを用いたデータベース検索結果を示す図。
【図12】本実施例によるデータ解析方法を適用した場合の評価例を示す図。
【図13】本実施例によるデータ解析方法を適用した場合の他の評価例を示す図。
【発明を実施するための形態】
【0029】
以下、本発明に係る質量分析データ解析装置を含むペプチド解析システムの一実施例について、添付図面を参照して説明する。図1は本実施例のペプチド解析システムの全体構成図である。
【0030】
本実施例のペプチド解析システムは、大別して、質量分析部1と、コンピュータを中心に構成される制御・処理部2と、から成る。質量分析部1はマトリクス支援レーザ脱離イオン化四重極イオントラップ飛行時間型質量分析計(MALDI−QIT−TOFMS)であり、分析対象である試料中の分子や原子をイオン化するMALDI法によるイオン化部10と、発生したイオンを一時的に捕捉し、質量電荷比m/zに応じたイオンの選択とCIDによるイオンのフラグメンテーションとを実行可能である3次元四重極型のイオントラップ11と、イオントラップ11から一斉に出射された各種イオンを質量電荷比に応じて分離して検出する飛行時間型質量分析器(TOFMS)12と、を含む。飛行時間型質量分析器12は、リフレクタにより発生する直流電場によりイオンを折返し飛行させるリフレクトロン型の飛行空間13と、該飛行空間13を飛行する間に質量電荷比に応じて時間的に分離されたイオンを順次検出するイオン検出器14と、を含む。
【0031】
なお、ここではイオン化部10はMALDIイオン源であるが、イオン化法はこれに限るものではなく、例えばMALDI法以外のレーザ照射を利用したイオン化法や、ESIなどを用いてもよい。例えば質量分析部1の前段に液体クロマトグラフなどの成分分離器が接続される場合には、イオン源としてESI等の大気圧イオン源が用いられる。また、飛行時間型質量分析器12を設ける代わりに、イオントラップ11自体の質量分離機能を利用してイオントラップ11から質量電荷比の順にイオンを放出し、外部に設けたイオン検出器で検出する構成とすることもできる。
【0032】
制御・処理部2は、質量分析部1の各部を制御する分析制御部20、イオン検出器14から得られる検出信号をデジタル化して収集するデータ収集部21、データからMSnスペクトルを作成するスペクトル解析部22、データベース(DB)検索部24を含みMS2、MS3により得られたデータから被検試料中のペプチドを同定するペプチド同定解析部23、及び、ペプチドのアミノ酸配列を推定するための同定用情報が予め登録された同定用データベース(DB)25、を備え、さらに制御・処理部2には、ユーザが検索条件を入力設定したりスペクトル解析のために必要な各種操作を行ったりするための入力部3や、検索条件入力設定画面を表示したり同定結果を表示したりするための表示部4が接続されている。データベース検索部24の機能は、例えば上述したMascotに含まれるMS/MSイオンサーチ等の既存の検索エンジンソフトウエアを利用することができる。
【0033】
本実施例のペプチド解析システムにおいてペプチドを同定するための特徴的なデータ解析処理について、図2〜図4を参照しつつ説明する。図2は本実施例のペプチド解析システムにおいて実施されるデータ解析処理手順の一例を示すフローチャート、図3は図2中のステップS4の詳細な手順を示すフローチャート、図4はデータ解析処理の概念図である。
【0034】
図2に示すデータ解析処理を実行する前提として、次のようにMS2、MS3スペクトルデータを収集する。まず分析者は目的とするタンパク質を適宜の酵素(例えばトリプシン酵素)により消化し、ペプチド断片を含む被検試料を調製する。分析制御部20の制御の下に、質量分析部1により上記被検試料に対するMS1分析が実行されると、データ収集部21はMS1分析により得られたデータを収集し、スペクトル解析部22は収集されたデータに基づいてMS1スペクトルを作成する。スペクトル解析部22は、MS1スペクトルから単一のペプチドに由来するイオンピークを見つけてMS2プリカーサイオンとして選出する。
【0035】
分析制御部20の制御の下に質量分析部1は、被検試料に対して上記プリカーサイオンについてのMS2分析を実行する。より詳しく述べると、イオン化部10において被検試料から生成された各種イオンは一旦イオントラップ11に捕捉され、イオントラップ11においてプリカーサイオンの質量電荷比を持つイオンのみが選別された後にCIDによるフラグメンテーションがなされる。この際に、目的の単一ペプチドのアミノ酸配列の結合が様々な部位で切れ、各種アミノ酸残基がフラグメントイオンとしてイオントラップ11に捕捉される。このフラグメントイオンはイオントラップ11から一斉に出射されて飛行時間型質量分析器12により質量分析され、データ収集部21はMS2分析により得られたデータを収集し、スペクトル解析部22は収集されたデータに基づいてMS2スペクトルを作成する。
【0036】
次いでスペクトル解析部22は、取得したMS2スペクトルから目的のペプチドに由来する各種フラグメントピークの中で特定のピーク、例えば強度が最大であるピークをMS3プリカーサイオンとして選出する。分析制御部20の制御の下に質量分析部1は、被検試料に対して上記プリカーサイオンについてのMS3分析を実行し、データ収集部21はMS3分析により得られたMS3スペクトルデータを収集する。なお、MS2スペクトルの中から複数のプリカーサイオンを選択してそれぞれMS3分析を実施することにより、同一ペプチド由来のMS3スペクトルを複数取得するようにしてもよい。
【0037】
以上により、被検試料に対するMS2スペクトルデータ及びMS3スペクトルデータが収集される。この状態でデータ解析処理が開始されると、ペプチド同定解析部23はデータ収集部21から解析対象であるMS2スペクトルデータ、MS3スペクトルデータを取り込み(ステップS1)、まずMS2スペクトルに対してピークピッキングを実行し、ピーク情報(少なくともピークの質量電荷比m/zを含む)を集めたピークリストを作成する。そして、データベース検索部24はそのピークリストを元にデータベース検索を実行する。即ち、同定用データベース25に登録されている様々なタンパク質(ペプチド)についてそれぞれ、理論的なフラグメンテーションの推定によって生成されるフラグメントイオンの質量電荷比、つまり理論MS2フラグメントの質量情報を求め、その理論MS2フラグメントの質量電荷比と実測MS2スペクトルに基づくピークリストの質量電荷比との一致の程度に基づいてスコアを算出する。そして、スコアが所定閾値以上となるペプチドを抽出して候補ペプチドとし、全部でi個の候補ペプチドをスコアの高い順にリストアップする(ステップS2)。
【0038】
一例として、タンパク質Ovalbumin由来のペプチドに対して得られた実測MS2スペクトルを用いたデータベース検索で取得される検索結果の一部を図5に示す。図5はスコア順で1位に冠された候補ペプチド[GGLEPINFQTAADQAR]のマッチング結果であり、図5の中央にはピークの一致/不一致を示すMS2スペクトル、下部には各種フラグメントについてのマッチング結果が示されている。ここではイオン開裂にCIDを用いており、アミノ酸配列の推定に有用であるのは専らy系列イオンとb系列イオンである。そこで、図5から抜き出した、アミノ酸配列のy/b系列イオンの理論質量(質量電荷比m/z)と実測MS2スペクトルとのマッチング状態を図7に示す。
【0039】
図7中の数値は理論的に求まる各フラグメントイオンの質量電荷比であり、点線の矩形枠で囲んだ数値が実測MS2スペクトル中のピーク(つまり上記のMS2ピークリストに含まれるピーク)と一致するピークである。一般的には、一致するピークの数が多いほど、候補ペプチドのスコアは高くなる。例えば上記アミノ酸配列中のアミノ酸Pの結合位置に対応するb5イオンの理論質量はm/z454.2296、y12イオンの理論質量はm/z1331.6702であるが、これらはいずれも実測MS2スペクトルに現れているピーク、つまり実測と理論とが一致したピークである。
【0040】
MS2スペクトルに基づくデータベース検索により候補ペプチドがリストアップされたならば、繰り返し回数制限用の変数jを1にセットし(ステップS3)、j番目の候補ペプチドについて、理論MS3フラグメントの質量情報を利用したピークの選択及びピークリストの修正処理を実施する(ステップS4)。図3に示すフローチャートを参照して詳しく説明する。
【0041】
即ち、まずMS3分析の際のプリカーサイオンが、処理対象としているj番目の候補ペプチドの理論フラグメントのうちのy系列イオンに属するものであるか否かを判定する(ステップS41)。ここでプリカーサイオンのイオン系列を調べる必要性については後述する。
【0042】
ステップS41でYesと判定された場合、つまりMS3プリカーサイオンがy系列イオンであれば、MS3スペクトルに現れるy系列イオンの質量電荷比はMS2スペクトル上のそれと共通となる。一方、MS3スペクトル上でのb系列イオンの質量電荷比はMS2スペクトル上のb系列イオンの質量電荷比に比べて、MS2プリカーサイオンの質量電荷比とMS3プリカーサイオンの質量電荷比との差の分だけ小さくなる。これは、MS2スペクトルからプリカーサイオンとしてy系列イオンを選択したために、MS3スペクトル上に現れるb系列イオンはC末端側のアミノ酸が失われたものとなり、MS2スペクトル上とMS3スペクトル上とで同一質量電荷比のイオンとして検出されないためである。
【0043】
そこで、MS3分析を実施した際と同じ質量電荷比のプリカーサイオンを設定したとの条件の下に候補ペプチドの理論MS3フラグメントイオンの質量電荷比を求める。そして、その理論MS3フラグメント質量情報の中で、プリカーサイオンと同系列であるy系列フラグメントイオンの質量電荷比に対するピークが実測のMS2スペクトルに存在せず実測のMS3スペクトルに存在すれば、該ピークを追加すべきものとして選択し、ステップS2で求めたピークリストに追加する(ステップS42)。
【0044】
また、上記理論MS3フラグメント質量情報の中で、プリカーサイオンと異系列であるb系列フラグメントイオンの質量電荷比に対するピークが実測のMS3スペクトルに存在すれば、その質量電荷比にMS2プリカーサイオンの質量電荷比とMS3プリカーサイオンの質量電荷比との差を加算する。そして、その加算後の質量電荷比に対するピークが実測のMS2スペクトルに存在しなければ、該ピークを追加すべきものとして選択し、上記ピークリストにさらに追加する(ステップS43)。即ち、上述したように、この場合、b系列イオンはMS2スペクトル上とMS3スペクトル上とで同一質量電荷比のイオンとして検出されないため、プリカーサイオン選択時に失われたC末端側のアミノ酸の質量電荷比、つまりMS2プリカーサイオンとMS3プリカーサイオンの質量電荷比の差を補うことで質量電荷比が一致すれば、MS2スペクトルにおけるb系列イオンがMS3スペクトル上でも現れたものと判定する。
【0045】
他方、ステップS41でNoと判定された場合、つまりMS3プリカーサイオンがb系列イオンであれば、MS3スペクトルに現れるb系列イオンの質量電荷比はMS2スペクトル上のそれと共通となる。また、b系列イオンをMS3プリカーサイオンとして選択した場合には、C末端側の水酸基(OH)がなく、さらにプロトン(H)も1個分少ない状態であるので、MS3スペクトル上でのy系列イオンの質量電荷比は、MS2スペクトル上のb系列イオンの質量電荷比に比べて、MS2プリカーサイオンの質量電荷比とMS3プリカーサイオンの質量電荷比との差及び水分子1個分の質量電荷比の分だけ小さくなる。
【0046】
そこで、ステップS42と同様に、MS3分析を実施した際と同じ質量電荷比のプリカーサイオンを設定したとの条件の下に候補ペプチドの理論MS3フラグメントイオンの質量電荷比を求める。そして、その理論MS3フラグメント質量情報の中で、プリカーサイオンと同系列であるb系列フラグメントイオンの質量電荷比に対するピークが実測のMS2スペクトルに存在せず実測のMS3スペクトルに存在すれば、該ピークを追加すべきものとして選択し、ステップS2で求めたピークリストに追加する(ステップS44)。また、上記理論MS3フラグメント質量情報の中で、プリカーサイオンと異系列であるy系列フラグメントイオンの質量電荷比に対するピークが実測のMS3スペクトルに存在すれば、その質量電荷比にMS2プリカーサイオンの質量電荷比とMS3プリカーサイオンの質量電荷比との差及び水分子1個分の質量電荷比を加算する。そして、その加算後の質量電荷比に対するピークが実測のMS2スペクトルに存在しなければ、該ピークを追加すべきものとして選択し、上記ピークリストにさらに追加する(ステップS44)。
【0047】
実例として、図5に示したMS2スペクトルからm/z1331をプリカーサイオンとして選択して得られたMS3スペクトルを用いたデータベース検索で取得される検索結果の一部を図6に示す。また、図6から抜き出した、上記のアミノ酸配列[GGLEPINFQTAADQAR]の一部である[PINFQTAADQAR]のy/b系列イオンの理論質量と実測MS3スペクトルとのマッチング状態を図8に示す。図7と同様に、図8中の数値は理論的に求まる各フラグメントイオンの質量電荷比であり、点線の矩形枠で囲んだ数値が実測MS3スペクトル中のピークと一致するピークである。ただし、図6に示した結果が得られるデータベース検索は本実施例の実際のデータ解析処理の上では実施されるものではなく、ここでは、対応するy/b系列イオンが検出されることを例示するために敢えて示している。
【0048】
図9は、図7と図8との共通のy系列イオンと実測MS2/MS3スペクトルとのマッチング状態を示す図である。また、図10は、図7と図8との共通のb系列イオンと実測MS2/MS3スペクトルとのマッチング状態を示す図である。ただし、ここではMS3プリカーサイオンがy系列イオンであるため、MS3のb系列フラグメントイオンの質量電荷比に、MS2プリカーサイオンとMS3プリカーサイオンとの質量電荷比差(diff)を加算した値を、図10中のMS3b系列イオンの欄に括弧で示している。この括弧内の値がMS2スペクトル上で対応し得る質量電荷比である。この場合には、MS3スペクトルの情報を利用することで、1個だけピークが追加されている。
【0049】
例えば図9に示したy系列イオンでみると、アミノ酸Qに対応したm/z374.2146のピークは実測のMS2スペクトルには存在しないが実測のMS3スペクトルには存在している。そこで、このm/z374.2146のピークがピークリストに追加される。図9中でマージ後の列で点線の矩形枠で囲まれた数値が、MS2、MS3において理論質量と一致したとしてピークリストに掲載されるイオンの質量電荷比である。他方、図10に示したb系列イオンでみると、アミノ酸Fに対応したm/z472.2554に上記質量電荷比差を加算したm/z828.4254に対応したピークは実測のMS2スペクトルには存在しないが、m/z472.2554に対応したピークは実測のMS3スペクトルに存在している。そこで、このm/z828.4254のピークがピークリストに追加される。図10中でも図9と同様に、マージ後の列で点線の矩形枠で囲まれた数値が、MS2、MS3において理論質量と一致したとしてピークリストに掲載されるイオンの質量電荷比である。この場合には、MS3スペクトルの情報を利用することで、3個ピークが追加されている。
【0050】
図2に戻ると、上述したようにy系列イオン、b系列イオンそれぞれについてマージ後、つまりピークの追加によりピークリストが修正されたならば、修正されたピークリストを元に、対象としている候補ペプチドについてデータペース検索を実施することにより、該候補ペプチドに対するスコアを再計算する(ステップS5)。ピークリストにピークが追加されれば、再計算によってスコアは再計算前よりも高くなる。図11は、図9と図10のマージ後の列において再スコアリングに反映するイオンを用いて修正されたピークリストを用いてデータベース検索を実行した結果を示す図である。なお、複数のMS3プリカーサイオンに対してそれぞれMS3スペクトルが取得されている場合には、それぞれのMS3スペクトルについて同様の手法で追加可能なピークを選択することができる。
【0051】
一つの候補ペプチドに対するステップS4(S41〜S45)、S5の処理が終了したならば、変数jが候補ペプチド総数iに達したか否かを判定し(ステップS6)、達していなければ変数jをインクリメントして(ステップS7)ステップS4へと戻る。したがって、ステップS4、S5、S6、S7の繰り返しによって、上述したMS3を利用したピーク選択追加処理を、リストアップされているi個の候補ペプチド全てに適用し、各候補ペプチドのスコアを計算し直す。
【0052】
そして、全ての候補ペプチドに対する処理が終了するとステップS6でYesと判定され、全ての候補ペプチドの再計算されたスコアを比較し、そのスコアが最も高い候補ペプチドを正解であると判断してペプチドを同定する(ステップS8)。さらに、全ての候補ペプチドの再計算されたスコアの分布に基づいて、スコアが最も高い候補ペプチドに対する期待値(Expect)を計算する(ステップS9)。
【0053】
ここで計算される期待値は、実際には離散的な値ではないものの個数である。或るペプチドがスコアxを持つとき、その期待値E[x]は、ペプチドデータベース中で、ランダムマッチングによって同じスコアを持つペプチドの個数を表す。例えば、スコア10のペプチドの期待値が5であるならば、これはそのペプチド以外にランダムマッチングで同程度のスコアを持つペプチドが5個あることを意味するから、スコア10ではペプチドを同定できたとは言い難い。この計算方法では、1位のスコアを持つペプチドが2位以下のペプチドと比較して十分に高いスコアを持つときに期待値は0になる。したがって、期待値が小さいほど同定信頼度が高く、一般的には0.01を同定の基準とする場合が多い。具体的には、スコアに基づく期待値の計算は、例えばMASCOTのMS/MSイオンサーチにより求めることができる。そして、最終的に、その同定結果を再計算後のスコア及び期待値とともに表示部4に出力して処理を終了する(ステップS10)。
【0054】
以上のように、本実施例のペプチド解析システムでは、MS3スペクトルの情報を有効に利用してMS2スペクトルに基づくデータベース検索により挙げられた候補ペプチドのスコアの正確性を向上させ、それによってペプチドの同定の精度を上げることができる。また、同定したペプチドの信頼度を示す精度の高い指標として、スコアや期待値を提供することができる。
【0055】
続いて、上述した特徴的なデータ解析方法によるペプチド同定の効果を確認するために行った評価について説明する。図11及び図12は幾つかの異なるペプチドに対し、上記手法を適用した場合の評価例を示す図である。
【0056】
具体的には、上記手法をオープンソースデータベース検索ソフトウエアである「X! tandem」(“X! サーチ・エンジン・デベロップメント(X! Search Engine Development)”、[online]、ザ・グローバル・プロテオーム・マシーン・オーガニゼイション(The Global Proteome Machine Organization)、[平成23年5月18日検索]、インターネット<http://www.thegpm.org/tandem/>参照)に実装し、ペプチドを含む試料を測定して取得したデータに対し処理を実行した。図中のスコア(Score)及び期待値(Expect)は「X! tandem」のネイティブ・スコアリング(native scoring)の機能により得られたものである。また、y-ion、b-ionは理論フラグメントと一致する実際のピークの個数である。
【0057】
図11は3つのペプチドに対する評価例であり、図中、MS2+3が本実施例による手法を用いた結果である。本実施例の手法ではMS2スペクトルのみを用いたデータベース検索に対し、ペプチドの期待値が、2.60E-04、2.4E-01、1.10E-02から、6.10E-08、6.70E-02、3.80E-05にそれぞれ改善されていることが確認できる。即ち、ペプチドによって程度に差はあるものの、いずれのペプチドに対しても同定精度が向上していると言える。
【0058】
図12はいずれも、標品であるタンパク質をカルバミドメチル(Carbamidomethyl)標識化し、トリプシンで酵素消化したサンプルを島津製作所のAXIMA-QITで測定して得られたデータに対する評価例である。図中、expect(y/b)は本実施例の手法を適用する前の期待値とスペクトル中の有効イオンの個数、merged expect(y/b)が本実施例の手法を適用した後の期待値と有効イオン個数である。これらの評価例でも、本実施例の手法ではMS2スペクトルのみを用いたデータベース検索に対し、ペプチドの期待値が改善されていることが確認できる。
【0059】
なお、上記実施例では、MS3スペクトルの情報に基づいてピークの選択追加を実施していたが、MS4スペクトルやそれ以上のCIDの繰り返しにより得られるMSnスペクトルの情報に基づいてピークの選択追加を実施してもよい。ただし、3次元四重極型イオントラップの場合、プリカーサイオン選択とCIDとを繰り返す度に感度が下がるため、実質的に利用可能であるのはMS5スペクトル程度までである。また、MS3スペクトルとMS4スペクトル、というように複数のスペクトルからの情報を利用してピークの選択追加を実施してもよい。
【0060】
また、上記実施例は本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
【符号の説明】
【0061】
1…質量分析部
10…イオン化部
11…イオントラップ
12…飛行時間型質量分析器
13…飛行空間
14…イオン検出器
2…制御・処理部
20…分析制御部
21…データ収集部
22…スペクトル解析部
23…ペプチド同定解析部
24…データベース(DB)検索部
25…同定用データベース(DB)
3…入力部
4…表示部
【技術分野】
【0001】
本発明は、ペプチド等の生体由来の高分子化合物に対してMSn分析を実行して収集されたデータを解析処理し、上記高分子化合物を同定したりその構造を解析したりする質量分析データ解析方法及び解析装置に関する。
【背景技術】
【0002】
近年、ポストゲノム研究としてタンパク質の構造や機能の解析が急速に進められている。このようなタンパク質の構造・機能解析手法(プロテオーム解析)の一つとして、質量分析計を用いたタンパク質の発現解析や一次構造解析が広く行われるようになってきており、四重極型イオントラップなどにおける特定イオンの捕捉と衝突誘起解離(CID)等のイオン開裂とを行う、いわゆるMSn分析が威力を発揮している。
【0003】
MSn分析を利用してタンパク質を同定する一般的な手法としては、まず、タンパク質を化学的に又は酵素消化により分解してペプチド断片の混合物とし、このペプチド断片混合物を質量分析に供してマススペクトル(MS1スペクトル)を取得する。続いて、ペプチド断片混合物のマススペクトルデータの中から、単一のペプチドに由来する一組の同位体ピーク群をプリカーサイオンとして選択し、該プリカーサイオンに対しCIDを実施し、開裂により生じたフラグメントイオンの質量分析、つまりMS2分析を実行する。CIDにより、特定のペプチドを構成するアミノ酸配列の様々な位置で結合が切れ、異なるアミノ酸残基を持つフラグメント(断片)が生じる。そのため、取得されるMS2スペクトルは、特定のペプチドのアミノ酸配列を反映したものとなる。
【0004】
このようなMS2スペクトルを利用してペプチドのアミノ酸配列の推定、つまりペプチドの同定を行う際には、MS/MSイオンサーチと呼ばれるデータベース検索手法が広く利用されている。MS/MSイオンサーチは米国マトリクスサイエンス(Matrix Science)社が提供しているマスコット(MASCOT)と名付けられた検索エンジンソフトウエアに含まれるものがよく知られている(非特許文献1参照)。MS/MSイオンサーチでは、得られた実測のMS2スペクトルと、タンパク質データベースに登録されている全タンパク質を同じ酵素で消化して(又は化学的処理により)得られるペプチド断片に対してコンピュータ内で理論的なフラグメンテーションを計算して得られる仮想的なMS2スペクトルとの一致度が統計的に判断され、同時にペプチドの分子量情報も考慮したスコア化がなされる。したがって、MS/MSイオンサーチ検索結果画面には、通常、分析対象であるペプチドに該当する可能性が高い複数の候補ペプチドがスコアで順位付けされて一覧表示される。
【0005】
また、特定のペプチドに対応したMS2スペクトルからさらに適当なプリカーサイオンを選択し、これをCIDにより開裂させて質量分析に供することによりMS3スペクトルを得ることができる。この実測MS3スペクトルに基づくデータベース検索を実行することにより、MS2スペクトルのみを用いてペプチドを同定する場合と比べ、より信頼度の高い同定結果を得ようとする手法が従来開発されている。
【0006】
非特許文献2に開示されている検索結果マージ手法では、同一被検試料に対して取得したMS2スペクトルとMS3スペクトルとに基づくデータベース検索をそれぞれ独立に行い、各データベース検索により候補ペプチドとスコアとをそれぞれ取得する。そのあと、それぞれの候補ペプチドの信頼度の確率に基づいてそれら候補ペプチドが正解ペプチド(真のペプチド)である確率を計算し直して候補ペプチドと併せて出力する。
【0007】
また非特許文献3に開示されている階層的検索手法では、まずMS2スペクトルに基づくデータベース検索を実行して候補ペプチドを絞り込んだ後に、その各候補ペプチドについてMS3スペクトルに基づくデータベース検索を行って、複数の候補ペプチドの中の一つを正解ペプチドとして同定する。具体的には、MS2スペクトルに基づくデータベース検索で絞り込まれた候補ペプチドに対する理論MS3フラグメントの質量情報(MS3でのイオンのフラグメンテーションを理論的に予測して得られるMS3フラグメントイオンの質量電荷比情報)と実測MS3スペクトル上のピークの質量電荷比との一致性が最良であるものを正解のペプチドであると断定する。
【0008】
簡単に言えば、検索結果マージ手法はMS2スペクトルに基づくデータベース検索とMS3スペクトルに基づくデータベース検索とを並列的に行う手法であり、階層的検索手法はMS2スペクトルに基づくデータベース検索とMS3スペクトルに基づくデータベース検索とを直列的に行う手法であると言うことができる。しかしながら、上記いずれの手法でも次のような問題があり、ペプチドの同定精度を上げる上でMS3スペクトル(或いはそれ以上のCIDを繰り返して取得するMSnスペクトル)を必ずしも有効に活用できていないという課題を有する。
【0009】
即ち、上記の検索結果マージ手法では、MS2スペクトル、MS3スペクトルのいずれに基づくデータベース検索においても、検索結果のスコアが最も高い候補ペプチド以外の候補は考慮されない。そのため、MS2スペクトルのみに基づくデータベース検索を行った場合と比較して高い信頼度で以てペプチドを同定できるのは、MS2スペクトルに基づくデータベース検索とMS3スペクトルに基づくデータベース検索との両方で同じペプチドがスコア1位で同定できた場合のみである。実際にはこのようなケースは稀であることから、検索結果マージ手法は同定精度を上げる上であまり有効ではないと言える。また、検索結果マージ手法では信頼度の指標として生起確率を用いているが、そもそも独立ではない複数の生起確率を乗算して得られた値を最終的なペプチドの生起確率とみなしているため、信頼度を表す値として必ずしも妥当な値とはならないという問題もある。
【0010】
他方、上記の階層的検索手法では、候補ペプチドについてのMS3スペクトルに基づくデータベース検索で一致性が最良にならないと正解ペプチドが正しく同定されないが、一般的に、正解ペプチドであってもMS3スペクトルに基づくデータベース検索で一致性が最良になるとは限らない。特に、候補ペプチドの数が多い場合、MS3の段階において候補の中で正解ペプチドの一致性が最良になる確率はかなり低くなる。また、この手法では、同定されたペプチドの信頼度を示す期待値やスコアのような、定量的な或いは統計的な数値は算出されない。このため、得られた同定結果を分析者が正解と判断してよいか検証することが困難である。
【0011】
なお、非特許文献3においては、階層的検索手法がきわめて有効であることが示されているが、本願発明者の検討によれば、これは該文献において前提としている装置がフーリエ変換質量分析計(FT−MS)であるためであると考えられる。FT−MSでは、プリカーサイオンの選択及びイオン開裂を繰り返す度に質量精度は悪化するものの、非常に高い感度でフラグメントイオンが検出されるという特性がある。このため、MS2スペクトルに基づくデータベース検索において候補ペプチドを十分に少ない数に絞り込むことが容易であり、その候補ペプチドに対してMS3スペクトルを使用したデータベース検索を実行したときに結果が擬陽性(正解でないものを正確であると誤って判定する状態)となるケースが少なくて済む。しかしながら、現在、ペプチド同定等に広く使用されているマトリクス支援レーザ脱離イオン化イオントラップ質量分析計では、プリカーサイオンの選択及びCIDによる開裂操作を繰り返す度にイオン量が減少するために感度は悪化するが、質量精度は向上していく。そのため、上記階層的検索手法を用いた場合、MS2スペクトルに基づくデータベース検索では候補ペプチドが多すぎて、MS3スペクトルに基づくデータベース検索を行ったときに結果が擬陽性となる可能性が比較的高い。そのため、MS3スペクトルを利用する意味があまりないと言える。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】“MS/MS Ions Search”、[online]、マトリクス・サイエンス社(Matrix Science Inc.)、[平成23年5月18日検索]、インターネット<URL:http://www.matrixscience.com/help/mis_help.html>
【非特許文献2】ウリンツ(P. J. Ulintz)、ほか4名、「インベスティゲイティング・エムエス2/エムエス3・マッチング・スタティスティクス:ア・モデル・フォー・カップリング・コンセクティブ・ステージ・マス・スペクトロメトリー・データ・フォー・インクリーズド・ペプタイド・アイデンティフィケイション・コンフィデンス(Investigating MS2/MS3 matching statistics: a model for coupling consecutive stage mass spectrometry data for increased peptide identification confidence)」、モレキュラー・アンド・セルラー・プロテオミクス(Molecular & Cellular Proteomics)、2008年、Vol.7、pp.71-87
【非特許文献3】シュー(Hua Xu)、ほか3名、「ア・ヒエラルヒカル・エムエス2/エムエス3・データベース・サーチ・アルゴリズム・フォー・オートメイテッド・アナリシス・オブ・フォスフォペプタイド・タンデム・マス・スペクトラ(A hierarchical MS2/MS3 database search algorithm for automated analysis of phosphopeptide tandem mass spectra)」、プロテオミクス(Proteomics)、2009年、Vol.9、pp.1763-1770
【発明の概要】
【発明が解決しようとする課題】
【0013】
本発明は上記課題に鑑みて成されたものであり、その主な目的は、MS/MSイオンサーチ等のデータベース検索を行ってペプチドを同定する際に、MS2スペクトルのほかにMS3スペクトル又はnが4以上であるMSnスペクトルを有効に利用してペプチドの同定精度を向上させるとともに、その同定結果を分析者が確認したり検証したりするために有用で定量的な情報を併せて得ることができる質量分析データ解析方法及び解析装置を提供することである。
【課題を解決するための手段】
【0014】
上記課題を解決するために成された第1発明は、同一被検試料に対するMSpスペクトルデータ(p≧2である整数)とMSqスペクトルデータ(q>pである任意の一つの整数又は互いに異なる複数の整数)とを利用し、データベース検索により該被検試料中のペプチドを同定する質量分析データ解析方法であって、
a)前記MSpスペクトルデータから求めたピークリストを用い、データベースに登録されているペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を算出し、該指標値に基づいて候補ペプチドを選定する候補選定ステップと、
b)該候補選定ステップにより選定された候補ペプチドについて理論MSqフラグメントの質量情報を求め、その中で、対応するピークが前記MSpスペクトルデータ中に存在せず前記MSqスペクトルデータ中に存在するものを抽出する追加情報抽出ステップと、
c)該追加情報抽出ステップにおいて抽出されたピークを前記MSpスペクトルデータから求めたピークリストに追加することにより該ピークリストを修正するピークリスト修正ステップと、
d)該ピークリスト修正ステップにおいて前記候補ペプチドに対応して修正されたピークリストに基づいて、該候補ペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を再計算する再計算ステップと、
を有し、再計算された指標値に基づいて前記候補ペプチドが正解ペプチドであることの信頼度を判定可能としたことを特徴としている。
【0015】
また上記課題を解決するために成された第2発明は、第1発明に係る質量分析データ解析方法を具現化するための装置であって、同一被検試料に対するMSpスペクトルデータ(p≧2である整数)とMSqスペクトルデータ(q>pである任意の一つの整数又は互いに異なる複数の整数)を利用し、データベース検索により該被検試料中のペプチドを同定する質量分析データ解析装置において、
a)前記MSpスペクトルデータから求めたピークリストを用い、データベースに登録されているペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を算出し、該指標値に基づいて候補ペプチドを選定する候補選定手段と、
b)該候補選定手段により選定された候補ペプチドについて理論MSqフラグメントの質量情報を求め、その中で、対応するピークが前記MSpスペクトルデータ中に存在せず前記MSqスペクトルデータ中に存在するものを抽出する追加情報抽出手段と、
c)該追加情報抽出手段により抽出されたピークを前記MSpスペクトルデータから求めたピークリストに追加することにより該ピークリストを修正するピークリスト修正手段と、
d)該ピークリスト修正手段により前記候補ペプチドに対応して修正されたピークリストに基づいて、該候補ペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を再計算する再計算手段と、
を備え、再計算された指標値に基づいて前記候補ペプチドが正解ペプチドであることの信頼度を判定可能としたことを特徴としている。
【0016】
第1及び第2発明において、例えばpは2、qは3とすることができるが、p、qはこれに限らない。また、qは一つのみでなく複数であってもよい。例えば、pが2のとき、qは3及び4としてもよい。即ち、MSqスペクトルデータは異なる回数の開裂操作(例えばCID)によりそれぞれ取得した質量分析データであってもよい。
【0017】
また第1及び第2発明において、「ペプチドの理論MSpフラグメントの質量情報」とは、当該ペプチドに対するMSp段階のフラグメンテーションの態様を理論的に予測することで得られるフラグメント(フラグメントイオンのほかニュートラルロス等の非電荷断片も含む)の質量(質量電荷比)のことである。また「理論MSqフラグメントの質量情報」とは、同様に、MSq段階のフラグメンテーションの態様を理論的に予測することで得られるフラグメント(フラグメントイオンのほかニュートラルロス等の非電荷断片も含む)の質量(質量電荷比)のことである。
【0018】
第1発明に係る質量分析データ解析方法において、候補選定ステップでは、例えば被検試料に対するMSpスペクトルデータに対しピークピッキングを行って少なくともピークリスト(少なくとも各ピークの質量情報を含む)を作成し、これに基づき、例えばMS/MSイオンサーチ等のデータベース検索エンジンソフトウエアを利用してデータベース検索を実行することで、目的とするペプチドである可能性がある候補ペプチドを選定する。通常、質量情報の一致性に基づく指標値が所定の閾値以上である複数の候補ペプチドが選定される。なお、候補選定ステップは、従来の一般的なデータベース検索法でも実施されている処理ステップである。
【0019】
次いで、追加情報抽出ステップでは、選定された一つの候補ペプチドについて実測のMSqスペクトルと同一のプリカーサイオンに対する理論MSqフラグメントの質量情報を算出し、その質量の中で、対応するピークが実測のMSpスペクトルデータ中に存在せず、実測のMSqスペクトルデータ中に存在するものを抽出する。CID等の開裂操作ではその条件等によってアミノ酸配列の結合の切れる位置が変化するから、MSq分析段階で存在するアミノ酸残基は、MSp分析段階で存在するとみなしても何ら問題ない。即ち、理論MSpフラグメントの質量が実測のMSpスペクトルデータ中に存在しなくても、理論MSqフラグメントの質量が実測のMSqスペクトルデータ中に存在してさえいれば、該質量を持つフラグメントに対応したアミノ酸残基は被検試料中のペプチドの一部であると推測できる。そこで、追加情報抽出ステップにおいて抽出されたピークは候補ペプチドのMSpスペクトル上に存在しているものとみなし、該ピークをMSpスペクトルデータから求めたピークリストに追加する。即ち、これは、その候補ペプチドの信頼度を上げるのに寄与する情報を追加したことを意味する。
【0020】
ペプチドのフラグメンテーションの態様は開裂手法によっても相違し、広く用いられているCIDではC末端由来のb系列イオンとN末端由来のy系列イオンとが顕著に観測されるから、データベース検索等においてもこれら系列のイオンピークが用いられる。この場合、MSqスペクトルでは、MSq分析の際のプリカーサイオンがb系列イオンであるかy系列イオンであるかによって、MSpスペクトルと質量電荷比が共通となるイオンの系列が相違する。そのため、例えばMS2スペクトル上のy系列イオンをプリカーサイオンとしてMS3分析を行った場合には、MS2スペクトルとMS3スペクトルとでy系列イオンの質量電荷比が共通になる一方、b系列イオンの質量電荷比はMS2のプリカーサイオン(解析対象である特定ペプチドのイオン)の質量電荷比とMS3プリカーサイオンの質量電荷比との差の分だけ、MS2スペクトルよりもMS3スペクトルにおいて小さくなる。一方、MS2スペクトル上のb系列イオンをプリカーサイオンとしてMS3分析を行った場合には、MS2スペクトルとMS3スペクトルとでb系列イオンの質量電荷比が共通になる一方、y系列イオンの質量電荷比は上記質量電荷比の差の分だけ、MS2スペクトルよりもMS3スペクトルにおいて小さくなる。そこで、追加情報抽出ステップでは、MS3分析のプリカーサイオンがy系列イオン、b系列イオンのいずれであるのかに従って、一方の系列イオンでは単純に理論MS3フラグメントの質量電荷比に対応したピークをMS2のピークリストに追加し、他方の系列では理論MS3フラグメントの質量電荷比に上記質量電荷比の差を加算した質量電荷比に対応したピークをMS2のピークリストに追加するとよい。
【0021】
上述したようにMSpのピークリストに追加されたピークはその候補ペプチドの理論MSpフラグメントの質量と一致するから、これはデータベース検索の過程で求まる該候補ペプチドの指標値を高める筈である。そこで、再計算ステップでは、その候補ペプチドに対応して修正されたピークリストに基づいて該候補ペプチドについての指標値を計算し直す。これにより、実測MSpスペクトルに基づいて挙げられた候補ペプチドの信頼度を示す指標値を、実測MSqスペクトルの情報を利用することで、より正確な値に修正することができる。したがって、この再計算された指標値を利用すれば、候補ペプチドが正解ペプチドであるか否かを正確に判断することが可能となる。
【0022】
第1発明に係る質量分析データ解析方法において、好ましくは、前記候補選定ステップでは、指標値が所定閾値以上である候補ペプチドを複数選定し、その複数の候補ペプチドの全てについてそれぞれ、前記追加情報抽出ステップ、前記ピークリスト修正ステップ、及び前記再計算ステップ、による処理を実行し、前記複数の候補ペプチドの再計算された指標値を比較して最も指標値の高い候補ペプチドを正解ペプチドであるとして同定するとよい。
【0023】
この質量分析データ解析方法によれば、実測のMSqスペクトルの情報を利用した、より正確性の高い指標値に基づいて複数の候補ペプチドの中から最も信頼性のペプチドを選出できるので、ペプチドの同定精度を向上させることができる。また、そのペプチド同定結果と併せて指標値を提供することができる。
【0024】
さらに好ましくは、前記複数の候補ペプチドの再計算された指標値の分布に基づいて、前記正解ペプチドであるとされた指標値に対応した期待値を算出して該期待値をその同定の信頼度情報として提供するとよい。指標値の分布から期待値を算出するアルゴリズム自体は、例えばMS/MSイオンサーチに搭載されている機能をそのまま利用することができる。これによれば、同定結果の信頼度や妥当性を分析者が判断する際により有用な情報を提供することができる。
【発明の効果】
【0025】
第1発明に係る質量分析データ解析方法及び第2発明に係る質量分析データ解析装置では、上述した検索結果マージ手法とは異なり、例えばMS2スペクトルを用いたデータベース検索の段階で正解ペプチドのスコア(本発明における指標値)が低い場合であっても、MS3スペクトルに基づく情報を補って再スコアリングを行うことで、正解ペプチドのスコアが高くなる。したがって、第1及び第2発明によれば、正解ペプチドを同定結果として提供できる可能性が高まり、ペプチド同定の精度向上が図れる。
【0026】
また、第1及び第2発明では、MSpスペクトルに基づく検索結果の信頼度が十分でなく候補ペプチドの数がかなり多くなるような場合であっても、候補ペプチド毎にMSqスペクトルの情報を有効に利用して信頼度を上げることができるので、上述した階層的検索手法に比べて擬陽性が生じる可能性が低くなり、ペプチド同定の精度向上が図れる。また、第1及び第2発明では、MSqスペクトルの情報を補った状態で理論MSpフラグメントの質量情報との一致性等に基づきスコアを再計算しているので、上述した検索結果マージ手法で採用されている計算方法に比較して統計的な妥当性が高く、より信頼性の高い情報を分析者に提供することができる。
【0027】
さらにまた、上記のような従来手法はMS2、MS3といった2段階の開裂操作を伴う質量分析にしか利用できないが、第1及び第2発明によれば、MSqスペクトルを利用したピークリストへのピークの選択追加はnが4以上のMSnスペクトルからも可能である。したがって、特に3次元四重極型イオントラップのように多段階の開裂操作が可能なイオントラップを備える質量分析装置を用いて収集されたデータを有効に利用してペプチド同定精度を向上させるうえで有利である。
【図面の簡単な説明】
【0028】
【図1】本発明に係る質量分析データ解析装置を含むペプチド解析システムの一実施例の全体構成図。
【図2】本実施例のペプチド解析システムにおいて実施されるデータ解析処理手順の一例を示すフローチャート。
【図3】図2中のステップS4の詳細な手順を示すフローチャート。
【図4】図2に示したデータ解析処理の概念図。
【図5】タンパク質(Ovalbumin)由来のペプチドに対して得られたMS2スペクトルを用いたデータベース検索で取得される検索結果の一部を示す図。
【図6】図5に示したMS2スペクトルからm/z1331をプリカーサイオンとして選択して得られたMS3スペクトルを用いたデータベース検索で取得される検索結果の一部を示す図。
【図7】図5に示した検索結果のうち、アミノ酸配列[GGLEPINFQTAADQAR]のy/b系列イオンと実測MS2スペクトルとの質量電荷比m/zの対応状態を示す図。
【図8】図6に示した検索結果のうち、アミノ酸配列[PINFQTAADQAR]のy/b系列イオンと実測MS3スペクトルとの質量電荷比m/zの対応状態を示す図。
【図9】図7と図8との共通のy系列イオンと実測MS2/MS3スペクトルとの質量電荷比m/zの対応状態を示す図。
【図10】図7と図8との共通のb系列イオンと実測MS2/MS3スペクトルとの質量電荷比m/zの対応状態を示す図。
【図11】図9と図10のマージ後の列において再スコアリングに反映するイオンを用いて修正されたピークリストを用いたデータベース検索結果を示す図。
【図12】本実施例によるデータ解析方法を適用した場合の評価例を示す図。
【図13】本実施例によるデータ解析方法を適用した場合の他の評価例を示す図。
【発明を実施するための形態】
【0029】
以下、本発明に係る質量分析データ解析装置を含むペプチド解析システムの一実施例について、添付図面を参照して説明する。図1は本実施例のペプチド解析システムの全体構成図である。
【0030】
本実施例のペプチド解析システムは、大別して、質量分析部1と、コンピュータを中心に構成される制御・処理部2と、から成る。質量分析部1はマトリクス支援レーザ脱離イオン化四重極イオントラップ飛行時間型質量分析計(MALDI−QIT−TOFMS)であり、分析対象である試料中の分子や原子をイオン化するMALDI法によるイオン化部10と、発生したイオンを一時的に捕捉し、質量電荷比m/zに応じたイオンの選択とCIDによるイオンのフラグメンテーションとを実行可能である3次元四重極型のイオントラップ11と、イオントラップ11から一斉に出射された各種イオンを質量電荷比に応じて分離して検出する飛行時間型質量分析器(TOFMS)12と、を含む。飛行時間型質量分析器12は、リフレクタにより発生する直流電場によりイオンを折返し飛行させるリフレクトロン型の飛行空間13と、該飛行空間13を飛行する間に質量電荷比に応じて時間的に分離されたイオンを順次検出するイオン検出器14と、を含む。
【0031】
なお、ここではイオン化部10はMALDIイオン源であるが、イオン化法はこれに限るものではなく、例えばMALDI法以外のレーザ照射を利用したイオン化法や、ESIなどを用いてもよい。例えば質量分析部1の前段に液体クロマトグラフなどの成分分離器が接続される場合には、イオン源としてESI等の大気圧イオン源が用いられる。また、飛行時間型質量分析器12を設ける代わりに、イオントラップ11自体の質量分離機能を利用してイオントラップ11から質量電荷比の順にイオンを放出し、外部に設けたイオン検出器で検出する構成とすることもできる。
【0032】
制御・処理部2は、質量分析部1の各部を制御する分析制御部20、イオン検出器14から得られる検出信号をデジタル化して収集するデータ収集部21、データからMSnスペクトルを作成するスペクトル解析部22、データベース(DB)検索部24を含みMS2、MS3により得られたデータから被検試料中のペプチドを同定するペプチド同定解析部23、及び、ペプチドのアミノ酸配列を推定するための同定用情報が予め登録された同定用データベース(DB)25、を備え、さらに制御・処理部2には、ユーザが検索条件を入力設定したりスペクトル解析のために必要な各種操作を行ったりするための入力部3や、検索条件入力設定画面を表示したり同定結果を表示したりするための表示部4が接続されている。データベース検索部24の機能は、例えば上述したMascotに含まれるMS/MSイオンサーチ等の既存の検索エンジンソフトウエアを利用することができる。
【0033】
本実施例のペプチド解析システムにおいてペプチドを同定するための特徴的なデータ解析処理について、図2〜図4を参照しつつ説明する。図2は本実施例のペプチド解析システムにおいて実施されるデータ解析処理手順の一例を示すフローチャート、図3は図2中のステップS4の詳細な手順を示すフローチャート、図4はデータ解析処理の概念図である。
【0034】
図2に示すデータ解析処理を実行する前提として、次のようにMS2、MS3スペクトルデータを収集する。まず分析者は目的とするタンパク質を適宜の酵素(例えばトリプシン酵素)により消化し、ペプチド断片を含む被検試料を調製する。分析制御部20の制御の下に、質量分析部1により上記被検試料に対するMS1分析が実行されると、データ収集部21はMS1分析により得られたデータを収集し、スペクトル解析部22は収集されたデータに基づいてMS1スペクトルを作成する。スペクトル解析部22は、MS1スペクトルから単一のペプチドに由来するイオンピークを見つけてMS2プリカーサイオンとして選出する。
【0035】
分析制御部20の制御の下に質量分析部1は、被検試料に対して上記プリカーサイオンについてのMS2分析を実行する。より詳しく述べると、イオン化部10において被検試料から生成された各種イオンは一旦イオントラップ11に捕捉され、イオントラップ11においてプリカーサイオンの質量電荷比を持つイオンのみが選別された後にCIDによるフラグメンテーションがなされる。この際に、目的の単一ペプチドのアミノ酸配列の結合が様々な部位で切れ、各種アミノ酸残基がフラグメントイオンとしてイオントラップ11に捕捉される。このフラグメントイオンはイオントラップ11から一斉に出射されて飛行時間型質量分析器12により質量分析され、データ収集部21はMS2分析により得られたデータを収集し、スペクトル解析部22は収集されたデータに基づいてMS2スペクトルを作成する。
【0036】
次いでスペクトル解析部22は、取得したMS2スペクトルから目的のペプチドに由来する各種フラグメントピークの中で特定のピーク、例えば強度が最大であるピークをMS3プリカーサイオンとして選出する。分析制御部20の制御の下に質量分析部1は、被検試料に対して上記プリカーサイオンについてのMS3分析を実行し、データ収集部21はMS3分析により得られたMS3スペクトルデータを収集する。なお、MS2スペクトルの中から複数のプリカーサイオンを選択してそれぞれMS3分析を実施することにより、同一ペプチド由来のMS3スペクトルを複数取得するようにしてもよい。
【0037】
以上により、被検試料に対するMS2スペクトルデータ及びMS3スペクトルデータが収集される。この状態でデータ解析処理が開始されると、ペプチド同定解析部23はデータ収集部21から解析対象であるMS2スペクトルデータ、MS3スペクトルデータを取り込み(ステップS1)、まずMS2スペクトルに対してピークピッキングを実行し、ピーク情報(少なくともピークの質量電荷比m/zを含む)を集めたピークリストを作成する。そして、データベース検索部24はそのピークリストを元にデータベース検索を実行する。即ち、同定用データベース25に登録されている様々なタンパク質(ペプチド)についてそれぞれ、理論的なフラグメンテーションの推定によって生成されるフラグメントイオンの質量電荷比、つまり理論MS2フラグメントの質量情報を求め、その理論MS2フラグメントの質量電荷比と実測MS2スペクトルに基づくピークリストの質量電荷比との一致の程度に基づいてスコアを算出する。そして、スコアが所定閾値以上となるペプチドを抽出して候補ペプチドとし、全部でi個の候補ペプチドをスコアの高い順にリストアップする(ステップS2)。
【0038】
一例として、タンパク質Ovalbumin由来のペプチドに対して得られた実測MS2スペクトルを用いたデータベース検索で取得される検索結果の一部を図5に示す。図5はスコア順で1位に冠された候補ペプチド[GGLEPINFQTAADQAR]のマッチング結果であり、図5の中央にはピークの一致/不一致を示すMS2スペクトル、下部には各種フラグメントについてのマッチング結果が示されている。ここではイオン開裂にCIDを用いており、アミノ酸配列の推定に有用であるのは専らy系列イオンとb系列イオンである。そこで、図5から抜き出した、アミノ酸配列のy/b系列イオンの理論質量(質量電荷比m/z)と実測MS2スペクトルとのマッチング状態を図7に示す。
【0039】
図7中の数値は理論的に求まる各フラグメントイオンの質量電荷比であり、点線の矩形枠で囲んだ数値が実測MS2スペクトル中のピーク(つまり上記のMS2ピークリストに含まれるピーク)と一致するピークである。一般的には、一致するピークの数が多いほど、候補ペプチドのスコアは高くなる。例えば上記アミノ酸配列中のアミノ酸Pの結合位置に対応するb5イオンの理論質量はm/z454.2296、y12イオンの理論質量はm/z1331.6702であるが、これらはいずれも実測MS2スペクトルに現れているピーク、つまり実測と理論とが一致したピークである。
【0040】
MS2スペクトルに基づくデータベース検索により候補ペプチドがリストアップされたならば、繰り返し回数制限用の変数jを1にセットし(ステップS3)、j番目の候補ペプチドについて、理論MS3フラグメントの質量情報を利用したピークの選択及びピークリストの修正処理を実施する(ステップS4)。図3に示すフローチャートを参照して詳しく説明する。
【0041】
即ち、まずMS3分析の際のプリカーサイオンが、処理対象としているj番目の候補ペプチドの理論フラグメントのうちのy系列イオンに属するものであるか否かを判定する(ステップS41)。ここでプリカーサイオンのイオン系列を調べる必要性については後述する。
【0042】
ステップS41でYesと判定された場合、つまりMS3プリカーサイオンがy系列イオンであれば、MS3スペクトルに現れるy系列イオンの質量電荷比はMS2スペクトル上のそれと共通となる。一方、MS3スペクトル上でのb系列イオンの質量電荷比はMS2スペクトル上のb系列イオンの質量電荷比に比べて、MS2プリカーサイオンの質量電荷比とMS3プリカーサイオンの質量電荷比との差の分だけ小さくなる。これは、MS2スペクトルからプリカーサイオンとしてy系列イオンを選択したために、MS3スペクトル上に現れるb系列イオンはC末端側のアミノ酸が失われたものとなり、MS2スペクトル上とMS3スペクトル上とで同一質量電荷比のイオンとして検出されないためである。
【0043】
そこで、MS3分析を実施した際と同じ質量電荷比のプリカーサイオンを設定したとの条件の下に候補ペプチドの理論MS3フラグメントイオンの質量電荷比を求める。そして、その理論MS3フラグメント質量情報の中で、プリカーサイオンと同系列であるy系列フラグメントイオンの質量電荷比に対するピークが実測のMS2スペクトルに存在せず実測のMS3スペクトルに存在すれば、該ピークを追加すべきものとして選択し、ステップS2で求めたピークリストに追加する(ステップS42)。
【0044】
また、上記理論MS3フラグメント質量情報の中で、プリカーサイオンと異系列であるb系列フラグメントイオンの質量電荷比に対するピークが実測のMS3スペクトルに存在すれば、その質量電荷比にMS2プリカーサイオンの質量電荷比とMS3プリカーサイオンの質量電荷比との差を加算する。そして、その加算後の質量電荷比に対するピークが実測のMS2スペクトルに存在しなければ、該ピークを追加すべきものとして選択し、上記ピークリストにさらに追加する(ステップS43)。即ち、上述したように、この場合、b系列イオンはMS2スペクトル上とMS3スペクトル上とで同一質量電荷比のイオンとして検出されないため、プリカーサイオン選択時に失われたC末端側のアミノ酸の質量電荷比、つまりMS2プリカーサイオンとMS3プリカーサイオンの質量電荷比の差を補うことで質量電荷比が一致すれば、MS2スペクトルにおけるb系列イオンがMS3スペクトル上でも現れたものと判定する。
【0045】
他方、ステップS41でNoと判定された場合、つまりMS3プリカーサイオンがb系列イオンであれば、MS3スペクトルに現れるb系列イオンの質量電荷比はMS2スペクトル上のそれと共通となる。また、b系列イオンをMS3プリカーサイオンとして選択した場合には、C末端側の水酸基(OH)がなく、さらにプロトン(H)も1個分少ない状態であるので、MS3スペクトル上でのy系列イオンの質量電荷比は、MS2スペクトル上のb系列イオンの質量電荷比に比べて、MS2プリカーサイオンの質量電荷比とMS3プリカーサイオンの質量電荷比との差及び水分子1個分の質量電荷比の分だけ小さくなる。
【0046】
そこで、ステップS42と同様に、MS3分析を実施した際と同じ質量電荷比のプリカーサイオンを設定したとの条件の下に候補ペプチドの理論MS3フラグメントイオンの質量電荷比を求める。そして、その理論MS3フラグメント質量情報の中で、プリカーサイオンと同系列であるb系列フラグメントイオンの質量電荷比に対するピークが実測のMS2スペクトルに存在せず実測のMS3スペクトルに存在すれば、該ピークを追加すべきものとして選択し、ステップS2で求めたピークリストに追加する(ステップS44)。また、上記理論MS3フラグメント質量情報の中で、プリカーサイオンと異系列であるy系列フラグメントイオンの質量電荷比に対するピークが実測のMS3スペクトルに存在すれば、その質量電荷比にMS2プリカーサイオンの質量電荷比とMS3プリカーサイオンの質量電荷比との差及び水分子1個分の質量電荷比を加算する。そして、その加算後の質量電荷比に対するピークが実測のMS2スペクトルに存在しなければ、該ピークを追加すべきものとして選択し、上記ピークリストにさらに追加する(ステップS44)。
【0047】
実例として、図5に示したMS2スペクトルからm/z1331をプリカーサイオンとして選択して得られたMS3スペクトルを用いたデータベース検索で取得される検索結果の一部を図6に示す。また、図6から抜き出した、上記のアミノ酸配列[GGLEPINFQTAADQAR]の一部である[PINFQTAADQAR]のy/b系列イオンの理論質量と実測MS3スペクトルとのマッチング状態を図8に示す。図7と同様に、図8中の数値は理論的に求まる各フラグメントイオンの質量電荷比であり、点線の矩形枠で囲んだ数値が実測MS3スペクトル中のピークと一致するピークである。ただし、図6に示した結果が得られるデータベース検索は本実施例の実際のデータ解析処理の上では実施されるものではなく、ここでは、対応するy/b系列イオンが検出されることを例示するために敢えて示している。
【0048】
図9は、図7と図8との共通のy系列イオンと実測MS2/MS3スペクトルとのマッチング状態を示す図である。また、図10は、図7と図8との共通のb系列イオンと実測MS2/MS3スペクトルとのマッチング状態を示す図である。ただし、ここではMS3プリカーサイオンがy系列イオンであるため、MS3のb系列フラグメントイオンの質量電荷比に、MS2プリカーサイオンとMS3プリカーサイオンとの質量電荷比差(diff)を加算した値を、図10中のMS3b系列イオンの欄に括弧で示している。この括弧内の値がMS2スペクトル上で対応し得る質量電荷比である。この場合には、MS3スペクトルの情報を利用することで、1個だけピークが追加されている。
【0049】
例えば図9に示したy系列イオンでみると、アミノ酸Qに対応したm/z374.2146のピークは実測のMS2スペクトルには存在しないが実測のMS3スペクトルには存在している。そこで、このm/z374.2146のピークがピークリストに追加される。図9中でマージ後の列で点線の矩形枠で囲まれた数値が、MS2、MS3において理論質量と一致したとしてピークリストに掲載されるイオンの質量電荷比である。他方、図10に示したb系列イオンでみると、アミノ酸Fに対応したm/z472.2554に上記質量電荷比差を加算したm/z828.4254に対応したピークは実測のMS2スペクトルには存在しないが、m/z472.2554に対応したピークは実測のMS3スペクトルに存在している。そこで、このm/z828.4254のピークがピークリストに追加される。図10中でも図9と同様に、マージ後の列で点線の矩形枠で囲まれた数値が、MS2、MS3において理論質量と一致したとしてピークリストに掲載されるイオンの質量電荷比である。この場合には、MS3スペクトルの情報を利用することで、3個ピークが追加されている。
【0050】
図2に戻ると、上述したようにy系列イオン、b系列イオンそれぞれについてマージ後、つまりピークの追加によりピークリストが修正されたならば、修正されたピークリストを元に、対象としている候補ペプチドについてデータペース検索を実施することにより、該候補ペプチドに対するスコアを再計算する(ステップS5)。ピークリストにピークが追加されれば、再計算によってスコアは再計算前よりも高くなる。図11は、図9と図10のマージ後の列において再スコアリングに反映するイオンを用いて修正されたピークリストを用いてデータベース検索を実行した結果を示す図である。なお、複数のMS3プリカーサイオンに対してそれぞれMS3スペクトルが取得されている場合には、それぞれのMS3スペクトルについて同様の手法で追加可能なピークを選択することができる。
【0051】
一つの候補ペプチドに対するステップS4(S41〜S45)、S5の処理が終了したならば、変数jが候補ペプチド総数iに達したか否かを判定し(ステップS6)、達していなければ変数jをインクリメントして(ステップS7)ステップS4へと戻る。したがって、ステップS4、S5、S6、S7の繰り返しによって、上述したMS3を利用したピーク選択追加処理を、リストアップされているi個の候補ペプチド全てに適用し、各候補ペプチドのスコアを計算し直す。
【0052】
そして、全ての候補ペプチドに対する処理が終了するとステップS6でYesと判定され、全ての候補ペプチドの再計算されたスコアを比較し、そのスコアが最も高い候補ペプチドを正解であると判断してペプチドを同定する(ステップS8)。さらに、全ての候補ペプチドの再計算されたスコアの分布に基づいて、スコアが最も高い候補ペプチドに対する期待値(Expect)を計算する(ステップS9)。
【0053】
ここで計算される期待値は、実際には離散的な値ではないものの個数である。或るペプチドがスコアxを持つとき、その期待値E[x]は、ペプチドデータベース中で、ランダムマッチングによって同じスコアを持つペプチドの個数を表す。例えば、スコア10のペプチドの期待値が5であるならば、これはそのペプチド以外にランダムマッチングで同程度のスコアを持つペプチドが5個あることを意味するから、スコア10ではペプチドを同定できたとは言い難い。この計算方法では、1位のスコアを持つペプチドが2位以下のペプチドと比較して十分に高いスコアを持つときに期待値は0になる。したがって、期待値が小さいほど同定信頼度が高く、一般的には0.01を同定の基準とする場合が多い。具体的には、スコアに基づく期待値の計算は、例えばMASCOTのMS/MSイオンサーチにより求めることができる。そして、最終的に、その同定結果を再計算後のスコア及び期待値とともに表示部4に出力して処理を終了する(ステップS10)。
【0054】
以上のように、本実施例のペプチド解析システムでは、MS3スペクトルの情報を有効に利用してMS2スペクトルに基づくデータベース検索により挙げられた候補ペプチドのスコアの正確性を向上させ、それによってペプチドの同定の精度を上げることができる。また、同定したペプチドの信頼度を示す精度の高い指標として、スコアや期待値を提供することができる。
【0055】
続いて、上述した特徴的なデータ解析方法によるペプチド同定の効果を確認するために行った評価について説明する。図11及び図12は幾つかの異なるペプチドに対し、上記手法を適用した場合の評価例を示す図である。
【0056】
具体的には、上記手法をオープンソースデータベース検索ソフトウエアである「X! tandem」(“X! サーチ・エンジン・デベロップメント(X! Search Engine Development)”、[online]、ザ・グローバル・プロテオーム・マシーン・オーガニゼイション(The Global Proteome Machine Organization)、[平成23年5月18日検索]、インターネット<http://www.thegpm.org/tandem/>参照)に実装し、ペプチドを含む試料を測定して取得したデータに対し処理を実行した。図中のスコア(Score)及び期待値(Expect)は「X! tandem」のネイティブ・スコアリング(native scoring)の機能により得られたものである。また、y-ion、b-ionは理論フラグメントと一致する実際のピークの個数である。
【0057】
図11は3つのペプチドに対する評価例であり、図中、MS2+3が本実施例による手法を用いた結果である。本実施例の手法ではMS2スペクトルのみを用いたデータベース検索に対し、ペプチドの期待値が、2.60E-04、2.4E-01、1.10E-02から、6.10E-08、6.70E-02、3.80E-05にそれぞれ改善されていることが確認できる。即ち、ペプチドによって程度に差はあるものの、いずれのペプチドに対しても同定精度が向上していると言える。
【0058】
図12はいずれも、標品であるタンパク質をカルバミドメチル(Carbamidomethyl)標識化し、トリプシンで酵素消化したサンプルを島津製作所のAXIMA-QITで測定して得られたデータに対する評価例である。図中、expect(y/b)は本実施例の手法を適用する前の期待値とスペクトル中の有効イオンの個数、merged expect(y/b)が本実施例の手法を適用した後の期待値と有効イオン個数である。これらの評価例でも、本実施例の手法ではMS2スペクトルのみを用いたデータベース検索に対し、ペプチドの期待値が改善されていることが確認できる。
【0059】
なお、上記実施例では、MS3スペクトルの情報に基づいてピークの選択追加を実施していたが、MS4スペクトルやそれ以上のCIDの繰り返しにより得られるMSnスペクトルの情報に基づいてピークの選択追加を実施してもよい。ただし、3次元四重極型イオントラップの場合、プリカーサイオン選択とCIDとを繰り返す度に感度が下がるため、実質的に利用可能であるのはMS5スペクトル程度までである。また、MS3スペクトルとMS4スペクトル、というように複数のスペクトルからの情報を利用してピークの選択追加を実施してもよい。
【0060】
また、上記実施例は本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
【符号の説明】
【0061】
1…質量分析部
10…イオン化部
11…イオントラップ
12…飛行時間型質量分析器
13…飛行空間
14…イオン検出器
2…制御・処理部
20…分析制御部
21…データ収集部
22…スペクトル解析部
23…ペプチド同定解析部
24…データベース(DB)検索部
25…同定用データベース(DB)
3…入力部
4…表示部
【特許請求の範囲】
【請求項1】
同一被検試料に対するMSpスペクトルデータ(p≧2である整数)とMSqスペクトルデータ(q>pである任意の一つの整数又は互いに異なる複数の整数)とを利用し、データベース検索により該被検試料中のペプチドを同定する質量分析データ解析方法であって、
a)前記MSpスペクトルデータから求めたピークリストを用い、データベースに登録されているペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を算出し、該指標値に基づいて候補ペプチドを選定する候補選定ステップと、
b)該候補選定ステップにより選定された候補ペプチドについて理論MSqフラグメントの質量情報を求め、その中で、対応するピークが前記MSpスペクトルデータ中に存在せず前記MSqスペクトルデータ中に存在するものを抽出する追加情報抽出ステップと、
c)該追加情報抽出ステップにおいて抽出されたピークを前記MSpスペクトルデータから求めたピークリストに追加することにより該ピークリストを修正するピークリスト修正ステップと、
d)該ピークリスト修正ステップにおいて前記候補ペプチドに対応して修正されたピークリストに基づいて、該候補ペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を再計算する再計算ステップと、
を有し、再計算された指標値に基づいて前記候補ペプチドが正解ペプチドであることの信頼度を判定可能としたことを特徴とする質量分析データ解析方法。
【請求項2】
請求項1に記載の質量分析データ解析方法であって、
前記候補選定ステップでは、指標値が所定閾値以上である候補ペプチドを複数選定し、
その複数の候補ペプチドの全てについてそれぞれ、前記追加情報抽出ステップ、前記ピークリスト修正ステップ、及び前記再計算ステップ、による処理を実行し、
前記複数の候補ペプチドの再計算された指標値を比較して最も指標値の高い候補ペプチドを正解ペプチドであるとして同定することを特徴とする質量分析データ解析方法。
【請求項3】
請求項2に記載の質量分析データ解析方法であって、
前記複数の候補ペプチドの再計算された指標値の分布に基づいて、前記正解ペプチドであるとされた指標値に対応した期待値を算出してその同定の信頼度情報として提供することを特徴とする質量分析データ解析方法。
【請求項4】
同一被検試料に対するMSpスペクトルデータ(p≧2である整数)とMSqスペクトルデータ(q>pである任意の一つの整数又は互いに異なる複数の整数)を利用し、データベース検索により該被検試料中のペプチドを同定する質量分析データ解析装置において、
a)前記MSpスペクトルデータから求めたピークリストを用い、データベースに登録されているペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を算出し、該指標値に基づいて候補ペプチドを選定する候補選定手段と、
b)該候補選定手段により選定された候補ペプチドについて理論MSqフラグメントの質量情報を求め、その中で、対応するピークが前記MSpスペクトルデータ中に存在せず前記MSqスペクトルデータ中に存在するものを抽出する追加情報抽出手段と、
c)該追加情報抽出手段により抽出されたピークを前記MSpスペクトルデータから求めたピークリストに追加することにより該ピークリストを修正するピークリスト修正手段と、
d)該ピークリスト修正手段により前記候補ペプチドに対応して修正されたピークリストに基づいて、該候補ペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を再計算する再計算手段と、
を備え、再計算された指標値に基づいて前記候補ペプチドが正解ペプチドであることの信頼度を判定可能としたことを特徴とする質量分析データ解析装置。
【請求項5】
請求項4に記載の質量分析データ解析装置であって、
前記候補選定手段では、指標値が所定閾値以上である候補ペプチドを複数選定し、
その複数の候補ペプチドの全てについてそれぞれ、前記追加情報抽出手段、前記ピークリスト修正手段、及び前記再計算手段、による処理を実行し、
前記複数の候補ペプチドの再計算された指標値を比較して最も指標値の高い候補ペプチドを正解ペプチドであるとして同定することを特徴とする質量分析データ解析装置。
【請求項6】
請求項5に記載の質量分析データ解析装置であって、
前記複数の候補ペプチドの再計算された指標値の分布に基づいて、前記正解ペプチドであるとされた指標値に対応した期待値を算出してその同定の信頼度情報として提供することを特徴とする質量分析データ解析装置。
【請求項1】
同一被検試料に対するMSpスペクトルデータ(p≧2である整数)とMSqスペクトルデータ(q>pである任意の一つの整数又は互いに異なる複数の整数)とを利用し、データベース検索により該被検試料中のペプチドを同定する質量分析データ解析方法であって、
a)前記MSpスペクトルデータから求めたピークリストを用い、データベースに登録されているペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を算出し、該指標値に基づいて候補ペプチドを選定する候補選定ステップと、
b)該候補選定ステップにより選定された候補ペプチドについて理論MSqフラグメントの質量情報を求め、その中で、対応するピークが前記MSpスペクトルデータ中に存在せず前記MSqスペクトルデータ中に存在するものを抽出する追加情報抽出ステップと、
c)該追加情報抽出ステップにおいて抽出されたピークを前記MSpスペクトルデータから求めたピークリストに追加することにより該ピークリストを修正するピークリスト修正ステップと、
d)該ピークリスト修正ステップにおいて前記候補ペプチドに対応して修正されたピークリストに基づいて、該候補ペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を再計算する再計算ステップと、
を有し、再計算された指標値に基づいて前記候補ペプチドが正解ペプチドであることの信頼度を判定可能としたことを特徴とする質量分析データ解析方法。
【請求項2】
請求項1に記載の質量分析データ解析方法であって、
前記候補選定ステップでは、指標値が所定閾値以上である候補ペプチドを複数選定し、
その複数の候補ペプチドの全てについてそれぞれ、前記追加情報抽出ステップ、前記ピークリスト修正ステップ、及び前記再計算ステップ、による処理を実行し、
前記複数の候補ペプチドの再計算された指標値を比較して最も指標値の高い候補ペプチドを正解ペプチドであるとして同定することを特徴とする質量分析データ解析方法。
【請求項3】
請求項2に記載の質量分析データ解析方法であって、
前記複数の候補ペプチドの再計算された指標値の分布に基づいて、前記正解ペプチドであるとされた指標値に対応した期待値を算出してその同定の信頼度情報として提供することを特徴とする質量分析データ解析方法。
【請求項4】
同一被検試料に対するMSpスペクトルデータ(p≧2である整数)とMSqスペクトルデータ(q>pである任意の一つの整数又は互いに異なる複数の整数)を利用し、データベース検索により該被検試料中のペプチドを同定する質量分析データ解析装置において、
a)前記MSpスペクトルデータから求めたピークリストを用い、データベースに登録されているペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を算出し、該指標値に基づいて候補ペプチドを選定する候補選定手段と、
b)該候補選定手段により選定された候補ペプチドについて理論MSqフラグメントの質量情報を求め、その中で、対応するピークが前記MSpスペクトルデータ中に存在せず前記MSqスペクトルデータ中に存在するものを抽出する追加情報抽出手段と、
c)該追加情報抽出手段により抽出されたピークを前記MSpスペクトルデータから求めたピークリストに追加することにより該ピークリストを修正するピークリスト修正手段と、
d)該ピークリスト修正手段により前記候補ペプチドに対応して修正されたピークリストに基づいて、該候補ペプチドに対する理論MSpフラグメントの質量情報との一致性に基づく指標値を再計算する再計算手段と、
を備え、再計算された指標値に基づいて前記候補ペプチドが正解ペプチドであることの信頼度を判定可能としたことを特徴とする質量分析データ解析装置。
【請求項5】
請求項4に記載の質量分析データ解析装置であって、
前記候補選定手段では、指標値が所定閾値以上である候補ペプチドを複数選定し、
その複数の候補ペプチドの全てについてそれぞれ、前記追加情報抽出手段、前記ピークリスト修正手段、及び前記再計算手段、による処理を実行し、
前記複数の候補ペプチドの再計算された指標値を比較して最も指標値の高い候補ペプチドを正解ペプチドであるとして同定することを特徴とする質量分析データ解析装置。
【請求項6】
請求項5に記載の質量分析データ解析装置であって、
前記複数の候補ペプチドの再計算された指標値の分布に基づいて、前記正解ペプチドであるとされた指標値に対応した期待値を算出してその同定の信頼度情報として提供することを特徴とする質量分析データ解析装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2012−251878(P2012−251878A)
【公開日】平成24年12月20日(2012.12.20)
【国際特許分類】
【出願番号】特願2011−124792(P2011−124792)
【出願日】平成23年6月3日(2011.6.3)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成23年4月15日、http://www.asms.org/tabid/225/type/searchresults/Delault.aspx
【出願人】(000001993)株式会社島津製作所 (3,708)
【Fターム(参考)】
【公開日】平成24年12月20日(2012.12.20)
【国際特許分類】
【出願日】平成23年6月3日(2011.6.3)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成23年4月15日、http://www.asms.org/tabid/225/type/searchresults/Delault.aspx
【出願人】(000001993)株式会社島津製作所 (3,708)
【Fターム(参考)】
[ Back to top ]