タンパク質データベース検索法および記録媒体
【課題】タンパク質同定精度を向上させる。
【解決手段】タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、該ヒストグラムの最大値Rがある閾値T1より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、を備えた。
【解決手段】タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、該ヒストグラムの最大値Rがある閾値T1より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、を備えた。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、高質量精度の質量分析装置を用いて行なわれるタンパク質やペプチドの定量定性一斉分析方法およびそれらを目的とした記録媒体に関する。
【背景技術】
【0002】
一般に質量分析計(以下、MSと呼ぶ)は、図1に示すように、イオン源、質量分離部、検出系で構成される。質量分析計には、異なる原理に基づく質量分離部を持つ、四重極MS、イオントラップMS、飛行時間型(TOF)MS、フーリエ変換イオンサイクロトロン共鳴(FTICR)MS、磁場型MSがある。
【0003】
質量分析計では、イオン源で生成したイオンを質量分離部にて質量毎に分離し、検出系で検出することでマススペクトルを測定する。このとき得られる情報は、イオンの質量を電荷で除したm/z値とイオン強度である。以下、この測定をMS測定と呼ぶ。
【0004】
これに対し、図2に示すように、イオン源で生成した特定のイオンを前段の質量分離部1で選択し(以下、選択されたイオンをプリカーサイオンと呼ぶ)、自発的または強制的に開裂させることにより生成したプロダクトイオンを後段の質量分離部2で質量分離するMS/MS測定がある。また、MS/MS測定が可能な装置をタンデム質量分析計と呼ぶ。
【0005】
MS/MS測定では、プリカーサイオンのm/z値、イオン強度と、複数の開裂経路で生成するプロダクトイオンのm/z値、イオン強度の情報が得られるため、図3に示すように、プリカーサイオンの構造情報を得ることができる。
【0006】
特に、本発明に関するタンパク質を断片化したペプチドの解析の場合には、ペプチドの一次構造(アミノ酸の配列情報)を得ることができる。タンデム質量分析計には、前述の質量分離部を2つ組み合わせた、いろいろな装置が存在し、MS測定およびMS/MS測定の質量精度は、組み合わされた質量分析計に依存する。それを図4にまとめた。
【0007】
本発明は、質量分析法とタンパク質データベースを利用し、試料中に含まれるタンパク質の同定法に関するものである。質量分析計から得られるm/z値を元にタンパク質データベースから有意なタンパク質を選び出すデータベース検索アルゴリズムとしては、大きく3つに分けられる。ペプチドマスフィンガープリント法(以下、PMF法と呼ぶ)、プロダクトイオンマスフィンガープリント法、ペプチドシーケンスタグ法である。
【0008】
これらの方法の共通点は、(i)タンパク質をアミノ酸残基特異性の高い酵素で消化し、ペプチドへの断片化を行なう、(ii)生成したペプチド群を質量分析計で測定する、(iii)その出力をデータベース検索エンジンに入力する、(iv)データベース検索エンジンは、データベース上のタンパク質を仮想的に酵素消化処理し、仮想的な質量情報を作成する、(v)データベース検索エンジンは、入力された質量情報と仮想的な質量情報を比較することで、統計的に確からしいタンパク質を出力する、という手順を踏むところである。最終的には、この出力をユーザーが判断し、タンパク質の同定に至る。
【0009】
さて、上記3つの方法は、質量分析計の測定法により2つに区分される。すなわち、PMF法はMS/MS測定を必要としない方法であり、プロダクトイオンマスフィンガープリント法とペプチドシーケンスタグ法はMS/MS測定を行なう方法である。さらに、プロダクトイオンマスフィンガープリント法がMS/MS測定から得たm/z値をデータベース検索に利用するのに対し、ペプチドシーケンスタグ法はMS/MSスペクトルから部分的な配列情報を読み取り、データベース検索に利用するという違いがある。
【0010】
ここでは、本発明に関連するPMF法について詳しく述べる。PMF法では、タンパク質をトリプシンなどに代表される基質特異性の高い消化酵素で断片化したペプチド群を測定する。断片化された各ペプチドは、アミノ酸配列に由来するアミノ酸組成に基づく質量を有するため、質量分析計で測定するとペプチド群に由来する質量リストが得られる。
【0011】
データベース検索エンジンは、データベース上のタンパク質を理論的に断片化して得られる仮想質量リストと入力された観測質量リストを比較し、統計的に最も可能性の高いタンパク質を出力する。
【0012】
PMF法では1種類のタンパク質の仮想質量リストと観測質量リストの比較が行なわれるため、酵素消化を行なう前にタンパク質の単離が必要となる。プロテオミクスでは高いタンパク質の分離能を持つ、2次元電気泳動とマトリクス支援レーザーイオン化(MALDI)−TOFMSの組み合わせが良く利用される。
【0013】
統計的な手法が用いられる主要な理由としては、観測質量リストが仮想質量リストとはさまざまな要因により異なるためである。第1の要因としては、測定から得られるペプチドの質量が、仮想ペプチドの理論的な質量と異なるためである。たとえ予想されたペプチド断片のみが観測されたとしても、質量分析計の測定誤差により観測質量と仮想質量はわずかにずれる。そのずれの大きさは、質量分析計の種類、同種の質量分析計でもメーカーあるいは機種によっても異なる。さらに同じ装置であったとしても、測定条件、質量校正状況といった日々の実験環境にも影響される。
【0014】
データベース検索エンジンには、両者の質量差について、許容誤差範囲を設定するパラメータが存在する。この誤差範囲内であれば、観測値と理論値は一致したとみなされるため、許容誤差範囲は実験環境に応じてユーザーが適切な値を設定する必要がある。
【0015】
第2の要因としては、各ペプチドが同じ効率で観測されないことである。これは、前処理、イオン化効率、質量分析計の検出効率の質量依存性などが原因である。検出効率の違いにより、まったく観測されないペプチド断片もあれば、イオン強度が低く、妥当な観測値が得られないものもある。
【0016】
データベース検索エンジンには、イオン強度を加味できるものとそうでないものが存在するが、使用する装置の質量誤差の確率分布がイオン強度(特にS/N)に対しどのように変化するかを良く検討し、利用の可否を判断すべきである。
【0017】
第2の要因では、想定されたペプチド種が観測されない場合が多いが、第3の要因として、逆に想定されないピークが観測される場合もある。例えば、タンパク質を断片化する際に生じる切れ残りや意図しない修飾等がこの原因である。
【0018】
また、前述のように、PMF法では1種類のタンパク質の仮想質量リストと観測質量リストの比較が行なわれるため、タンパク質の単離が必要である。タンパク質の単離には、分離能の高い2次元電気泳動が良く利用されるが、そこから切り出されたゲル片に含まれるタンパク質が単一のものであるという確証はなく、また例えそうであったとしても、その後の処理の過程でコンタミネーションが起こる可能性も考えられる。複数種のタンパク質が混在する場合、検索対象ではないタンパク質由来のペプチドは仮想質量リストには含まれないため、想定されないピークの観測につながる。
【0019】
さて、PMF法を利用してデータベース検索を行なうことのできる検索エンジンには、現在web上に無料公開されているものがいくつか存在する。それぞれのデータベース検索エンジンのアルゴリズムは異なるものの、統計的な優位さを示す指標順にタンパク質が表示される(以下、ヒットすると呼ぶ)。
【0020】
ヒットしたタンパク質については、そのタンパク質の情報、マッチしたペプチドがタンパク質の配列をどの程度カバーしているか(以下、シーケンスカバレッジと呼ぶ)、マッチしたペプチドそれぞれについて観測値と理論値との質量誤差が提供される。
【0021】
前述質量分析法とタンパク質データベース検索を利用した実験ストラテジーには様々なものがある。図5に一般的なフローチャートを示す。まず、サンプルから大量に含まれる不要タンパク質(血清であればアルブミンなど)の除去を行なう。また、質量分析計で効率良く分析するため、サンプルの粗い分画が行なわれる。ここで大きく2つの方法に分かれる。
【0022】
一方は、図中Iに示すように、1次元電気泳動、2次元電気泳動によりタンパク質を分離する手法である。特に2次元電気泳動は、タンパク質分離能が高い。ディファレンシャルディスプレイ法により、状況の異なる2つ以上のタンパク質群の量的な差異を調べる場合にも利用される。また、高いタンパク質分離能は、PMF法には必須である。この場合、タンパク質を分離後、還元・酵素消化等の処理を行なう。
【0023】
他方は、図中IIに示すように、タンパク質混合物を分離することなく、還元・酵素消化等の処理を行なうものである。タンパク質の分離を行なわないため、断片化されたペプチドからタンパク質の同定を行なうことのできるMS/MS測定を利用した方法が必要となる。
【0024】
さて、次に質量分析とタンパク質データベース検索について述べる。まずはPMF法である(図中III)。PMF法では、一般的に単離されたタンパク質を酵素消化し、そのペプチド群の質量情報からデータベース検索を行なう。そのため、タンパク質の十分な精製や、2次元電気泳動のような高いタンパク質分離手段が必要となる。PMF法による解析後、MS/MS測定を行なう場合もある(図中IV)。
【0025】
PMF法で解析を行なった場合、マススペクトルに現れるすべてのピークが、あるタンパク質由来のペプチドであると同定されることはない。PMF法ではペプチドレベルで同定できなかったピークを、さらにMS/MS測定によってアミノ酸配列を解析する方法や、PMF法でマッチしたペプチドの情報をMS/MS測定で解析し、さらに同定確度を高める方法なども考えられる。
【0026】
次に、タンパク質を分離することなく酵素消化を行なった場合(図中II)は、質量分析でMS/MS測定を行ない、ペプチドのアミノ酸配列情報からタンパク質の同定を行なう必要がある(図中V)。
【0027】
一般的には、このような場合、サンプル中のペプチド断片数は数千〜数万にも及ぶため、液体クロマトグラフィーなどによるペプチドの分離が必要となる。もちろん、電気泳動などで、タンパク質レベルで分離した後、タンデム質量分析計にてタンパク質の同定を行なう方法もある(図中VI)。
【0028】
【特許文献1】国際公開第2004/023132号パンフレット。
【発明の開示】
【発明が解決しようとする課題】
【0029】
MSおよびMS/MS測定を行なう場合には、実際に測定する物理量(例えばTOFの場合は飛行時間)をm/z値に変換する質量校正が必要となる。質量校正法には、大きく分けると内部標準法と外部標準法とがある。
【0030】
内部標準法は、解析対象となるマススペクトルの中に質量の基準となる物質が含まれる場合に、そのマスピークを基準にして測定されたマスピーク群の質量電荷比を校正するものである。外部標準法は、解析対象となるマススペクトルの中に質量の基準となる物質が含まれない場合に、同一条件で取得された別のマススペクトル中のマスピークを基準にして、測定されたマスピーク群の質量電荷比を校正するものである。外部標準法では、解析対象のマススペクトル外で適用された質量校正条件を利用しなければならない。
【0031】
例えば、PMF法で良く利用されるMALDI−TOFを使用し、外部標準法にてマススペクトルを測定した場合、サンプルプレート表面上の凹凸やマトリクスの結晶化状態、質量分析計を構成する機械系、電源系の経時的な変化に伴い、同じ質量のピークでも観測される質量値が変動する。
【0032】
この変動による誤差は、確率的な質量誤差が大きくなるのではなく、系統的な誤差が生じることを意味する。外部標準法の場合、この系統誤差とそれに重なる確率誤差を含む程度にデータベース検索の許容誤差値を大きくしなければならない。そのため、擬陽性を多く生むことが予想される。
【0033】
本発明の目的は、上述した点に鑑み、図5に示されたタンパク質同定手法I→III→IVのタンパク質同定精度を向上させることにある。その特長としては、PMF法において高い質量精度を得られる質量分析計を利用して、外部標準法を利用した測定に適用できることが挙げられる。1つの特長は、得られたデータベース検索結果の妥当性を確認する方法であり、もう1つの特長は、その結果を利用した、さらなるMS/MS測定(IV)や再度のデータベース検索を行なうシステムに関するものである。
【課題を解決するための手段】
【0034】
この目的を達成するため、本発明にかかるタンパク質データベース検索法は、
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Rがある閾値T1より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴としている。
【0035】
また、前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴としている。
【0036】
また、タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を2軸の関係に取って直線近似し、理論値からの質量誤差を得られた近似直線からの質量誤差へと変換後、規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Rがある閾値T2より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴としている。
【0037】
また、前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴としている。
【0038】
また、前記近似直線の傾きに対し、ある閾値T3を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴としている。
【0039】
また、前記近似直線からの観測値の誤差のRMS(root mean square)値がある閾値以下になるまで、最大誤差のペプチドの排除と近似直線の再計算を繰り返し、最初のペプチド数をN1、再計算後のペプチド数をN2としたときに、N2とN2/N1のうち、少なくとも一方にある閾値を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴としている。
【0040】
また、前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも1つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正後、データベースの再検索を行なうようにしたことを特徴としている。
【0041】
また、前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも1つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正し、再校正後の質量情報をMS/MS測定を行なう際のプリカーサイオンの質量として採用するとともに、該プリカーサイオンをMS/MS測定により開裂させて得たMS/MSスペクトルのデータベース検索の際に、前記質量をプリカーサイオンの質量条件として入力するようにしたことを特徴としている。
【0042】
また、前記タンパク質データベース検索法を実行するプログラムを格納した記録媒体。
【発明の効果】
【0043】
本発明のタンパク質データベース検索法によれば、
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Rがある閾値T1より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたので、
タンパク質同定精度を向上させることが可能になった。
【0044】
本発明の記録媒体によれば、
前記タンパク質データベース検索法を実行するプログラムを格納したので、
タンパク質同定精度を向上させることが可能になった。
【発明を実施するための最良の形態】
【0045】
以下、図面を参照して、本発明の実施の形態を説明する。尚、以下の実施例では、本発明の効果を、ウシ由来のcarbonic anhydrase、serum albumin、catalaseの消化物の混合物(以下、Mix3と呼ぶ)で解析した結果を用いて示す。解析には、質量分析計として、らせん軌道TOF質量分析計、データベース検索アルゴリズムとして、web上に公開されているmascot searchのpeptide mass fingerprintingを使用した。らせん軌道TOF質量分析計では、内部標準法を用いれば、PMF法に利用するある程度のイオン強度を持つピークで10ppmの誤差、またRMS(root mean square)で3ppm以内の質量精度を実現できる。本発明は、表1に示したように、MS1で高質量精度を達成できる装置であれば適用可能である。またデータベース検索アルゴリズムに関しても、統計的な優位さを示す指標、マッチしたペプチドの配列を出力するものであれば良い。
【実施例1】
【0046】
図6に実施例1のフローチャートを示す。まず、タンパク質を断片化したサンプルを質量分解能・質量精度の高い質量分析計、例えばらせん軌道TOF質量分析計で測定する。マススペクトルからモノアイソトピックイオンのピークを選び出す。モノアイソトピックイオンとは、ある組成式を持つ化合物について、含まれる元素の最も質量の小さい同位体のみで形成されるイオンのことである。マススペクトル上のモノアイソトピックイオンのピークは、単一の質量成分しか含まれないので、データベース検索に良く利用される。
【0047】
Peptide toleranceを±50ppmに設定し、データベース検索を行なった結果を図7に示す。検索結果のHit No. 1、2は、serum albuminおよびcarbonic anhydraseの混合物であると示された。Hit No. 3〜5は、serum albuminおよびcarbonic anhydraseであり、Hit No. 9にcatalaseが示された。Hit No.6、7、8、10は擬陽性であるが、スコア、シーケンスカバレッジからだけでは、9位のcatalaseを識別することは難しい。そこで、次に陽性、擬陽性タンパク質の識別を行なう。
【0048】
外部標準物法では、陽性であれば系統誤差が観測されるので、Hit No. 3〜9のタンパク質についてマッチしたペプチドの質量誤差の調査を行なった。まず、設定したPeptide toleranceの最大値+50ppmから最小値−50ppmまでを質量分析計の精度に合わせた間隔D1(今回は10ppm間隔)で分割し、各間隔範囲内のマッチしたペプチド数をヒストグラムで図8に示した。ただし、図8の縦軸は、各タンパク質候補についてマッチしたペプチド数で規格化した値R1を示している。
【0049】
図8を見ると、Hit No. 3、5、9では、+10ppmから+20ppmの間にマッチしたペプチドの60%以上が分布しているのに対し、Hit No. 6、7、8では、全間隔で30%以下、すなわちPeptide toleranceで設定した範囲全体に分布している。この結果から、図8のヒストグラムにある閾値T1(本実施例の場合、0.4)を設定することにより、Hit No. 3、5、9は陽性であり、Hit No. 6、7、8が擬陽性であると識別することが可能である。
【実施例2】
【0050】
図9に実施例2のフローチャートを示す。タンパク質同定結果を得るところまでは実施例1と同じである。外部標準物法では、陽性であれば系統誤差が観測されるので、Hit No. 3〜9のタンパク質について、マッチしたペプチドの質量誤差を調査した。本実施例では、各Hit No.について、マッチしたペプチドの質量と理論値からの質量誤差の関係を、例えば横軸にペプチドの質量、縦軸に理論値からの質量誤差を取って直線近似し、理論値からの質量誤差を得られた近似直線からの質量誤差へと変換する。この操作により、系統的な誤差をある程度まで抑えることができる。
【0051】
図10にその誤差を−70ppmから+70ppmまで20ppm間隔でマッチしたペプチド数を示した。ただし、図10の縦軸は、各タンパク質候補についてマッチしたペプチド数で規格化した値R2を示している。直線近似からの誤差のため、系統的な誤差は軽減されている。そのため、±10ppm以内に入るはずである。そのため、ある閾値T2(本実施例では0.7)と設定すれば、Hit No. 6、7、8については擬陽性と判断できる。
【実施例3】
【0052】
図11に実施例3のフローチャートを示す。本実施例は、実施例2を一次判定とし、さらに確度の高い陽性・擬陽性判定を提供するものである。直線近似を利用し、陽性・擬陽性の判定を行なうところまでは実施例2と同じである。しかしながら、閾値T2の設定値(本実施例では0.6)と設定すれば、Hit No. 6、7についてのみ擬陽性と判断でき、Hit No. 8については擬陽性と判断できない。これは、直線近似では、マッチしたペプチドの数が少ない場合、偶然にもばらつきの少ない近似直線が引ける場合があるからである。そこで、直線近似で得た直線の傾きの情報も活用することができる。
【0053】
図12に、Hit No. 3、5、8、9の近似直線の傾きを示す。例えば、質量500〜2500の両端で20ppmのずれが生じるような系統的な傾きであるとすると、その傾きは0.01である。傾きの絶対値に対して閾値T3を設定すると、Hit No. 8は擬陽性と判断できる。
【実施例4】
【0054】
図13に実施例4のフローチャートを示す。本実施例は、実施例2を一次判定とし、さらに確度の高い陽性・擬陽性判定を提供するものである。閾値T2の設定によっては、擬陽性を陽性と判定してしまうのは、実施例3と同じである。
【0055】
そこで、本実施例では、まず近似直線L1からの誤差の標準偏差を計算する。マッチしたペプチドの集合には、系統的なずれ前後に分布する集団(正しいと予想されるペプチド)と系統的なずれから大きく外れた集団が存在する。後者を排除することで、陽性タンパク質であれば近似直線からのずれが装置性能由来の数値(本実施例の場合、3ppmRMS)となる。
【0056】
そこで、次のような(1)〜(4)の手順で擬陽性ペプチドの排除を行なった。
(1)近似直線L1からのペプチドの誤差の標準偏差を求める。標準偏差が3ppm以内であれば終了。そうでなければ(2)へ。
(2)近似直線L1から最も誤差の大きいペプチドを排除する。
(3)排除したペプチドを除いたペプチド群でさらに近似直線L2を引く。
(4)(1)へ。
この(1)〜(4)の作業後に得られた結果(排除前のペプチド数をN1、排除後のペプチド数をN2、両者の比をN2/N1とする)を図14に示す。
【0057】
ある系統誤差に対して確率誤差が分布するような場合であれば、N2あるいはN2/N1に閾値を設定することができる。直線近似なので、対象となるペプチド数が少なくなれば、自然と標準偏差は小さくなる。また、少ないペプチド数で陽性と判断するのは危険である。また、N2/N1が小さいということは、系統的なずれの上に小さな確率誤差が重なっているような場合ではないということである。
【0058】
例えば、N2に対して下限閾値T4(本実施例の場合、3)、N2/N1に対して下限閾値T5(本実施例の場合、0.7)を設定することで、Hit No. 8は擬陽性と判断することができる。
【実施例5】
【0059】
本実施例は、実施例4の結果を利用し、陽性ペプチドを内部標準物質として用いて、再質量校正を行なう。再質量校正を行なったピークリストを用いて、再度データベース検索を行なう。このときのPeptide tolerance値は、質量分析計の確率誤差分布に由来する数値とする。本実施例では、±8ppmとした。再データベース検索の結果を図15に示す。ヒットしたタンパク質の上位3つがサンプル中に実際に含まれるものである。
【実施例6】
【0060】
本実施例は、実施例4の結果を利用し、MS/MS測定結果を利用したデータベース検索の同定確度を高めるためのものである。
【0061】
図5に示したストラテジーの中で、MS/MS測定へ移行する場合がある。その場合、MS/MS測定のプロダクトイオンの質量リストに加えて、プリカーサイオンの質量を入力する(mascot searchのMS/MS Ion Searchの場合、Peptide tolerance値)。プリカーサイオンの質量精度の許容誤差範囲を小さくすることができれば、同定確度を高めることができる。そのために、実施例4の陽性・擬陽性判定結果を利用し、陽性タンパク質の陽性ペプチドのすべて、あるいは一部を内部標準物質として利用し、プリカーサイオンの質量校正を行なう。質量校正した結果得られるプリカーサイオンの質量を、例えばMS/MS Ion Searchのデータベース検索に入力する。
【産業上の利用可能性】
【0062】
質量分析測定に広く利用できる。
【図面の簡単な説明】
【0063】
【図1】従来の質量分析装置の概念を示す図である。
【図2】従来のタンデム質量分析装置の概念を示す図である。
【図3】MS/MS測定によるプリカーサイオンの構造解析方法を示す図である。
【図4】MS測定およびMS/MS測定の質量精度をまとめた図である。
【図5】質量分析法とタンパク質データベース検索を利用した実験ストラテジーを表わす図である。
【図6】本発明にかかるタンパク質データベース検索法の一実施例である。
【図7】実施例1の方法に基づいてデータベース検索を行なった一例である。
【図8】マッチしたペプチド数を質量誤差毎にヒストグラムで示した図である。
【図9】本発明にかかるタンパク質データベース検索法の別の実施例である。
【図10】理論値からの質量誤差を近似直線からの質量誤差に変換したときのペプチド数を質量誤差毎にヒストグラムで示した図である。
【図11】本発明にかかるタンパク質データベース検索法の別の実施例である。
【図12】実施例2の方法に基づいて求めた近似直線の傾きをヒットしたタンパク質毎にまとめた図である。
【図13】本発明にかかるタンパク質データベース検索法の別の実施例である。
【図14】実施例4の方法に基づいて求めたN1、N2、N2/N1の値をヒットしたタンパク質毎にまとめた図である。
【図15】実施例5の方法に基づいて再データベース検索を行なった一例である。
【技術分野】
【0001】
本発明は、高質量精度の質量分析装置を用いて行なわれるタンパク質やペプチドの定量定性一斉分析方法およびそれらを目的とした記録媒体に関する。
【背景技術】
【0002】
一般に質量分析計(以下、MSと呼ぶ)は、図1に示すように、イオン源、質量分離部、検出系で構成される。質量分析計には、異なる原理に基づく質量分離部を持つ、四重極MS、イオントラップMS、飛行時間型(TOF)MS、フーリエ変換イオンサイクロトロン共鳴(FTICR)MS、磁場型MSがある。
【0003】
質量分析計では、イオン源で生成したイオンを質量分離部にて質量毎に分離し、検出系で検出することでマススペクトルを測定する。このとき得られる情報は、イオンの質量を電荷で除したm/z値とイオン強度である。以下、この測定をMS測定と呼ぶ。
【0004】
これに対し、図2に示すように、イオン源で生成した特定のイオンを前段の質量分離部1で選択し(以下、選択されたイオンをプリカーサイオンと呼ぶ)、自発的または強制的に開裂させることにより生成したプロダクトイオンを後段の質量分離部2で質量分離するMS/MS測定がある。また、MS/MS測定が可能な装置をタンデム質量分析計と呼ぶ。
【0005】
MS/MS測定では、プリカーサイオンのm/z値、イオン強度と、複数の開裂経路で生成するプロダクトイオンのm/z値、イオン強度の情報が得られるため、図3に示すように、プリカーサイオンの構造情報を得ることができる。
【0006】
特に、本発明に関するタンパク質を断片化したペプチドの解析の場合には、ペプチドの一次構造(アミノ酸の配列情報)を得ることができる。タンデム質量分析計には、前述の質量分離部を2つ組み合わせた、いろいろな装置が存在し、MS測定およびMS/MS測定の質量精度は、組み合わされた質量分析計に依存する。それを図4にまとめた。
【0007】
本発明は、質量分析法とタンパク質データベースを利用し、試料中に含まれるタンパク質の同定法に関するものである。質量分析計から得られるm/z値を元にタンパク質データベースから有意なタンパク質を選び出すデータベース検索アルゴリズムとしては、大きく3つに分けられる。ペプチドマスフィンガープリント法(以下、PMF法と呼ぶ)、プロダクトイオンマスフィンガープリント法、ペプチドシーケンスタグ法である。
【0008】
これらの方法の共通点は、(i)タンパク質をアミノ酸残基特異性の高い酵素で消化し、ペプチドへの断片化を行なう、(ii)生成したペプチド群を質量分析計で測定する、(iii)その出力をデータベース検索エンジンに入力する、(iv)データベース検索エンジンは、データベース上のタンパク質を仮想的に酵素消化処理し、仮想的な質量情報を作成する、(v)データベース検索エンジンは、入力された質量情報と仮想的な質量情報を比較することで、統計的に確からしいタンパク質を出力する、という手順を踏むところである。最終的には、この出力をユーザーが判断し、タンパク質の同定に至る。
【0009】
さて、上記3つの方法は、質量分析計の測定法により2つに区分される。すなわち、PMF法はMS/MS測定を必要としない方法であり、プロダクトイオンマスフィンガープリント法とペプチドシーケンスタグ法はMS/MS測定を行なう方法である。さらに、プロダクトイオンマスフィンガープリント法がMS/MS測定から得たm/z値をデータベース検索に利用するのに対し、ペプチドシーケンスタグ法はMS/MSスペクトルから部分的な配列情報を読み取り、データベース検索に利用するという違いがある。
【0010】
ここでは、本発明に関連するPMF法について詳しく述べる。PMF法では、タンパク質をトリプシンなどに代表される基質特異性の高い消化酵素で断片化したペプチド群を測定する。断片化された各ペプチドは、アミノ酸配列に由来するアミノ酸組成に基づく質量を有するため、質量分析計で測定するとペプチド群に由来する質量リストが得られる。
【0011】
データベース検索エンジンは、データベース上のタンパク質を理論的に断片化して得られる仮想質量リストと入力された観測質量リストを比較し、統計的に最も可能性の高いタンパク質を出力する。
【0012】
PMF法では1種類のタンパク質の仮想質量リストと観測質量リストの比較が行なわれるため、酵素消化を行なう前にタンパク質の単離が必要となる。プロテオミクスでは高いタンパク質の分離能を持つ、2次元電気泳動とマトリクス支援レーザーイオン化(MALDI)−TOFMSの組み合わせが良く利用される。
【0013】
統計的な手法が用いられる主要な理由としては、観測質量リストが仮想質量リストとはさまざまな要因により異なるためである。第1の要因としては、測定から得られるペプチドの質量が、仮想ペプチドの理論的な質量と異なるためである。たとえ予想されたペプチド断片のみが観測されたとしても、質量分析計の測定誤差により観測質量と仮想質量はわずかにずれる。そのずれの大きさは、質量分析計の種類、同種の質量分析計でもメーカーあるいは機種によっても異なる。さらに同じ装置であったとしても、測定条件、質量校正状況といった日々の実験環境にも影響される。
【0014】
データベース検索エンジンには、両者の質量差について、許容誤差範囲を設定するパラメータが存在する。この誤差範囲内であれば、観測値と理論値は一致したとみなされるため、許容誤差範囲は実験環境に応じてユーザーが適切な値を設定する必要がある。
【0015】
第2の要因としては、各ペプチドが同じ効率で観測されないことである。これは、前処理、イオン化効率、質量分析計の検出効率の質量依存性などが原因である。検出効率の違いにより、まったく観測されないペプチド断片もあれば、イオン強度が低く、妥当な観測値が得られないものもある。
【0016】
データベース検索エンジンには、イオン強度を加味できるものとそうでないものが存在するが、使用する装置の質量誤差の確率分布がイオン強度(特にS/N)に対しどのように変化するかを良く検討し、利用の可否を判断すべきである。
【0017】
第2の要因では、想定されたペプチド種が観測されない場合が多いが、第3の要因として、逆に想定されないピークが観測される場合もある。例えば、タンパク質を断片化する際に生じる切れ残りや意図しない修飾等がこの原因である。
【0018】
また、前述のように、PMF法では1種類のタンパク質の仮想質量リストと観測質量リストの比較が行なわれるため、タンパク質の単離が必要である。タンパク質の単離には、分離能の高い2次元電気泳動が良く利用されるが、そこから切り出されたゲル片に含まれるタンパク質が単一のものであるという確証はなく、また例えそうであったとしても、その後の処理の過程でコンタミネーションが起こる可能性も考えられる。複数種のタンパク質が混在する場合、検索対象ではないタンパク質由来のペプチドは仮想質量リストには含まれないため、想定されないピークの観測につながる。
【0019】
さて、PMF法を利用してデータベース検索を行なうことのできる検索エンジンには、現在web上に無料公開されているものがいくつか存在する。それぞれのデータベース検索エンジンのアルゴリズムは異なるものの、統計的な優位さを示す指標順にタンパク質が表示される(以下、ヒットすると呼ぶ)。
【0020】
ヒットしたタンパク質については、そのタンパク質の情報、マッチしたペプチドがタンパク質の配列をどの程度カバーしているか(以下、シーケンスカバレッジと呼ぶ)、マッチしたペプチドそれぞれについて観測値と理論値との質量誤差が提供される。
【0021】
前述質量分析法とタンパク質データベース検索を利用した実験ストラテジーには様々なものがある。図5に一般的なフローチャートを示す。まず、サンプルから大量に含まれる不要タンパク質(血清であればアルブミンなど)の除去を行なう。また、質量分析計で効率良く分析するため、サンプルの粗い分画が行なわれる。ここで大きく2つの方法に分かれる。
【0022】
一方は、図中Iに示すように、1次元電気泳動、2次元電気泳動によりタンパク質を分離する手法である。特に2次元電気泳動は、タンパク質分離能が高い。ディファレンシャルディスプレイ法により、状況の異なる2つ以上のタンパク質群の量的な差異を調べる場合にも利用される。また、高いタンパク質分離能は、PMF法には必須である。この場合、タンパク質を分離後、還元・酵素消化等の処理を行なう。
【0023】
他方は、図中IIに示すように、タンパク質混合物を分離することなく、還元・酵素消化等の処理を行なうものである。タンパク質の分離を行なわないため、断片化されたペプチドからタンパク質の同定を行なうことのできるMS/MS測定を利用した方法が必要となる。
【0024】
さて、次に質量分析とタンパク質データベース検索について述べる。まずはPMF法である(図中III)。PMF法では、一般的に単離されたタンパク質を酵素消化し、そのペプチド群の質量情報からデータベース検索を行なう。そのため、タンパク質の十分な精製や、2次元電気泳動のような高いタンパク質分離手段が必要となる。PMF法による解析後、MS/MS測定を行なう場合もある(図中IV)。
【0025】
PMF法で解析を行なった場合、マススペクトルに現れるすべてのピークが、あるタンパク質由来のペプチドであると同定されることはない。PMF法ではペプチドレベルで同定できなかったピークを、さらにMS/MS測定によってアミノ酸配列を解析する方法や、PMF法でマッチしたペプチドの情報をMS/MS測定で解析し、さらに同定確度を高める方法なども考えられる。
【0026】
次に、タンパク質を分離することなく酵素消化を行なった場合(図中II)は、質量分析でMS/MS測定を行ない、ペプチドのアミノ酸配列情報からタンパク質の同定を行なう必要がある(図中V)。
【0027】
一般的には、このような場合、サンプル中のペプチド断片数は数千〜数万にも及ぶため、液体クロマトグラフィーなどによるペプチドの分離が必要となる。もちろん、電気泳動などで、タンパク質レベルで分離した後、タンデム質量分析計にてタンパク質の同定を行なう方法もある(図中VI)。
【0028】
【特許文献1】国際公開第2004/023132号パンフレット。
【発明の開示】
【発明が解決しようとする課題】
【0029】
MSおよびMS/MS測定を行なう場合には、実際に測定する物理量(例えばTOFの場合は飛行時間)をm/z値に変換する質量校正が必要となる。質量校正法には、大きく分けると内部標準法と外部標準法とがある。
【0030】
内部標準法は、解析対象となるマススペクトルの中に質量の基準となる物質が含まれる場合に、そのマスピークを基準にして測定されたマスピーク群の質量電荷比を校正するものである。外部標準法は、解析対象となるマススペクトルの中に質量の基準となる物質が含まれない場合に、同一条件で取得された別のマススペクトル中のマスピークを基準にして、測定されたマスピーク群の質量電荷比を校正するものである。外部標準法では、解析対象のマススペクトル外で適用された質量校正条件を利用しなければならない。
【0031】
例えば、PMF法で良く利用されるMALDI−TOFを使用し、外部標準法にてマススペクトルを測定した場合、サンプルプレート表面上の凹凸やマトリクスの結晶化状態、質量分析計を構成する機械系、電源系の経時的な変化に伴い、同じ質量のピークでも観測される質量値が変動する。
【0032】
この変動による誤差は、確率的な質量誤差が大きくなるのではなく、系統的な誤差が生じることを意味する。外部標準法の場合、この系統誤差とそれに重なる確率誤差を含む程度にデータベース検索の許容誤差値を大きくしなければならない。そのため、擬陽性を多く生むことが予想される。
【0033】
本発明の目的は、上述した点に鑑み、図5に示されたタンパク質同定手法I→III→IVのタンパク質同定精度を向上させることにある。その特長としては、PMF法において高い質量精度を得られる質量分析計を利用して、外部標準法を利用した測定に適用できることが挙げられる。1つの特長は、得られたデータベース検索結果の妥当性を確認する方法であり、もう1つの特長は、その結果を利用した、さらなるMS/MS測定(IV)や再度のデータベース検索を行なうシステムに関するものである。
【課題を解決するための手段】
【0034】
この目的を達成するため、本発明にかかるタンパク質データベース検索法は、
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Rがある閾値T1より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴としている。
【0035】
また、前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴としている。
【0036】
また、タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を2軸の関係に取って直線近似し、理論値からの質量誤差を得られた近似直線からの質量誤差へと変換後、規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Rがある閾値T2より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴としている。
【0037】
また、前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴としている。
【0038】
また、前記近似直線の傾きに対し、ある閾値T3を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴としている。
【0039】
また、前記近似直線からの観測値の誤差のRMS(root mean square)値がある閾値以下になるまで、最大誤差のペプチドの排除と近似直線の再計算を繰り返し、最初のペプチド数をN1、再計算後のペプチド数をN2としたときに、N2とN2/N1のうち、少なくとも一方にある閾値を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴としている。
【0040】
また、前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも1つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正後、データベースの再検索を行なうようにしたことを特徴としている。
【0041】
また、前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも1つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正し、再校正後の質量情報をMS/MS測定を行なう際のプリカーサイオンの質量として採用するとともに、該プリカーサイオンをMS/MS測定により開裂させて得たMS/MSスペクトルのデータベース検索の際に、前記質量をプリカーサイオンの質量条件として入力するようにしたことを特徴としている。
【0042】
また、前記タンパク質データベース検索法を実行するプログラムを格納した記録媒体。
【発明の効果】
【0043】
本発明のタンパク質データベース検索法によれば、
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Rがある閾値T1より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたので、
タンパク質同定精度を向上させることが可能になった。
【0044】
本発明の記録媒体によれば、
前記タンパク質データベース検索法を実行するプログラムを格納したので、
タンパク質同定精度を向上させることが可能になった。
【発明を実施するための最良の形態】
【0045】
以下、図面を参照して、本発明の実施の形態を説明する。尚、以下の実施例では、本発明の効果を、ウシ由来のcarbonic anhydrase、serum albumin、catalaseの消化物の混合物(以下、Mix3と呼ぶ)で解析した結果を用いて示す。解析には、質量分析計として、らせん軌道TOF質量分析計、データベース検索アルゴリズムとして、web上に公開されているmascot searchのpeptide mass fingerprintingを使用した。らせん軌道TOF質量分析計では、内部標準法を用いれば、PMF法に利用するある程度のイオン強度を持つピークで10ppmの誤差、またRMS(root mean square)で3ppm以内の質量精度を実現できる。本発明は、表1に示したように、MS1で高質量精度を達成できる装置であれば適用可能である。またデータベース検索アルゴリズムに関しても、統計的な優位さを示す指標、マッチしたペプチドの配列を出力するものであれば良い。
【実施例1】
【0046】
図6に実施例1のフローチャートを示す。まず、タンパク質を断片化したサンプルを質量分解能・質量精度の高い質量分析計、例えばらせん軌道TOF質量分析計で測定する。マススペクトルからモノアイソトピックイオンのピークを選び出す。モノアイソトピックイオンとは、ある組成式を持つ化合物について、含まれる元素の最も質量の小さい同位体のみで形成されるイオンのことである。マススペクトル上のモノアイソトピックイオンのピークは、単一の質量成分しか含まれないので、データベース検索に良く利用される。
【0047】
Peptide toleranceを±50ppmに設定し、データベース検索を行なった結果を図7に示す。検索結果のHit No. 1、2は、serum albuminおよびcarbonic anhydraseの混合物であると示された。Hit No. 3〜5は、serum albuminおよびcarbonic anhydraseであり、Hit No. 9にcatalaseが示された。Hit No.6、7、8、10は擬陽性であるが、スコア、シーケンスカバレッジからだけでは、9位のcatalaseを識別することは難しい。そこで、次に陽性、擬陽性タンパク質の識別を行なう。
【0048】
外部標準物法では、陽性であれば系統誤差が観測されるので、Hit No. 3〜9のタンパク質についてマッチしたペプチドの質量誤差の調査を行なった。まず、設定したPeptide toleranceの最大値+50ppmから最小値−50ppmまでを質量分析計の精度に合わせた間隔D1(今回は10ppm間隔)で分割し、各間隔範囲内のマッチしたペプチド数をヒストグラムで図8に示した。ただし、図8の縦軸は、各タンパク質候補についてマッチしたペプチド数で規格化した値R1を示している。
【0049】
図8を見ると、Hit No. 3、5、9では、+10ppmから+20ppmの間にマッチしたペプチドの60%以上が分布しているのに対し、Hit No. 6、7、8では、全間隔で30%以下、すなわちPeptide toleranceで設定した範囲全体に分布している。この結果から、図8のヒストグラムにある閾値T1(本実施例の場合、0.4)を設定することにより、Hit No. 3、5、9は陽性であり、Hit No. 6、7、8が擬陽性であると識別することが可能である。
【実施例2】
【0050】
図9に実施例2のフローチャートを示す。タンパク質同定結果を得るところまでは実施例1と同じである。外部標準物法では、陽性であれば系統誤差が観測されるので、Hit No. 3〜9のタンパク質について、マッチしたペプチドの質量誤差を調査した。本実施例では、各Hit No.について、マッチしたペプチドの質量と理論値からの質量誤差の関係を、例えば横軸にペプチドの質量、縦軸に理論値からの質量誤差を取って直線近似し、理論値からの質量誤差を得られた近似直線からの質量誤差へと変換する。この操作により、系統的な誤差をある程度まで抑えることができる。
【0051】
図10にその誤差を−70ppmから+70ppmまで20ppm間隔でマッチしたペプチド数を示した。ただし、図10の縦軸は、各タンパク質候補についてマッチしたペプチド数で規格化した値R2を示している。直線近似からの誤差のため、系統的な誤差は軽減されている。そのため、±10ppm以内に入るはずである。そのため、ある閾値T2(本実施例では0.7)と設定すれば、Hit No. 6、7、8については擬陽性と判断できる。
【実施例3】
【0052】
図11に実施例3のフローチャートを示す。本実施例は、実施例2を一次判定とし、さらに確度の高い陽性・擬陽性判定を提供するものである。直線近似を利用し、陽性・擬陽性の判定を行なうところまでは実施例2と同じである。しかしながら、閾値T2の設定値(本実施例では0.6)と設定すれば、Hit No. 6、7についてのみ擬陽性と判断でき、Hit No. 8については擬陽性と判断できない。これは、直線近似では、マッチしたペプチドの数が少ない場合、偶然にもばらつきの少ない近似直線が引ける場合があるからである。そこで、直線近似で得た直線の傾きの情報も活用することができる。
【0053】
図12に、Hit No. 3、5、8、9の近似直線の傾きを示す。例えば、質量500〜2500の両端で20ppmのずれが生じるような系統的な傾きであるとすると、その傾きは0.01である。傾きの絶対値に対して閾値T3を設定すると、Hit No. 8は擬陽性と判断できる。
【実施例4】
【0054】
図13に実施例4のフローチャートを示す。本実施例は、実施例2を一次判定とし、さらに確度の高い陽性・擬陽性判定を提供するものである。閾値T2の設定によっては、擬陽性を陽性と判定してしまうのは、実施例3と同じである。
【0055】
そこで、本実施例では、まず近似直線L1からの誤差の標準偏差を計算する。マッチしたペプチドの集合には、系統的なずれ前後に分布する集団(正しいと予想されるペプチド)と系統的なずれから大きく外れた集団が存在する。後者を排除することで、陽性タンパク質であれば近似直線からのずれが装置性能由来の数値(本実施例の場合、3ppmRMS)となる。
【0056】
そこで、次のような(1)〜(4)の手順で擬陽性ペプチドの排除を行なった。
(1)近似直線L1からのペプチドの誤差の標準偏差を求める。標準偏差が3ppm以内であれば終了。そうでなければ(2)へ。
(2)近似直線L1から最も誤差の大きいペプチドを排除する。
(3)排除したペプチドを除いたペプチド群でさらに近似直線L2を引く。
(4)(1)へ。
この(1)〜(4)の作業後に得られた結果(排除前のペプチド数をN1、排除後のペプチド数をN2、両者の比をN2/N1とする)を図14に示す。
【0057】
ある系統誤差に対して確率誤差が分布するような場合であれば、N2あるいはN2/N1に閾値を設定することができる。直線近似なので、対象となるペプチド数が少なくなれば、自然と標準偏差は小さくなる。また、少ないペプチド数で陽性と判断するのは危険である。また、N2/N1が小さいということは、系統的なずれの上に小さな確率誤差が重なっているような場合ではないということである。
【0058】
例えば、N2に対して下限閾値T4(本実施例の場合、3)、N2/N1に対して下限閾値T5(本実施例の場合、0.7)を設定することで、Hit No. 8は擬陽性と判断することができる。
【実施例5】
【0059】
本実施例は、実施例4の結果を利用し、陽性ペプチドを内部標準物質として用いて、再質量校正を行なう。再質量校正を行なったピークリストを用いて、再度データベース検索を行なう。このときのPeptide tolerance値は、質量分析計の確率誤差分布に由来する数値とする。本実施例では、±8ppmとした。再データベース検索の結果を図15に示す。ヒットしたタンパク質の上位3つがサンプル中に実際に含まれるものである。
【実施例6】
【0060】
本実施例は、実施例4の結果を利用し、MS/MS測定結果を利用したデータベース検索の同定確度を高めるためのものである。
【0061】
図5に示したストラテジーの中で、MS/MS測定へ移行する場合がある。その場合、MS/MS測定のプロダクトイオンの質量リストに加えて、プリカーサイオンの質量を入力する(mascot searchのMS/MS Ion Searchの場合、Peptide tolerance値)。プリカーサイオンの質量精度の許容誤差範囲を小さくすることができれば、同定確度を高めることができる。そのために、実施例4の陽性・擬陽性判定結果を利用し、陽性タンパク質の陽性ペプチドのすべて、あるいは一部を内部標準物質として利用し、プリカーサイオンの質量校正を行なう。質量校正した結果得られるプリカーサイオンの質量を、例えばMS/MS Ion Searchのデータベース検索に入力する。
【産業上の利用可能性】
【0062】
質量分析測定に広く利用できる。
【図面の簡単な説明】
【0063】
【図1】従来の質量分析装置の概念を示す図である。
【図2】従来のタンデム質量分析装置の概念を示す図である。
【図3】MS/MS測定によるプリカーサイオンの構造解析方法を示す図である。
【図4】MS測定およびMS/MS測定の質量精度をまとめた図である。
【図5】質量分析法とタンパク質データベース検索を利用した実験ストラテジーを表わす図である。
【図6】本発明にかかるタンパク質データベース検索法の一実施例である。
【図7】実施例1の方法に基づいてデータベース検索を行なった一例である。
【図8】マッチしたペプチド数を質量誤差毎にヒストグラムで示した図である。
【図9】本発明にかかるタンパク質データベース検索法の別の実施例である。
【図10】理論値からの質量誤差を近似直線からの質量誤差に変換したときのペプチド数を質量誤差毎にヒストグラムで示した図である。
【図11】本発明にかかるタンパク質データベース検索法の別の実施例である。
【図12】実施例2の方法に基づいて求めた近似直線の傾きをヒットしたタンパク質毎にまとめた図である。
【図13】本発明にかかるタンパク質データベース検索法の別の実施例である。
【図14】実施例4の方法に基づいて求めたN1、N2、N2/N1の値をヒットしたタンパク質毎にまとめた図である。
【図15】実施例5の方法に基づいて再データベース検索を行なった一例である。
【特許請求の範囲】
【請求項1】
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Rがある閾値T1より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴とするタンパク質データベース検索法。
【請求項2】
前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴とする請求項1記載のタンパク質データベース検索法。
【請求項3】
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を2軸の関係に取って直線近似し、理論値からの質量誤差を得られた近似直線からの質量誤差へと変換後、規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Rがある閾値T2より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴とするタンパク質データベース検索法。
【請求項4】
前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴とする請求項3記載のタンパク質データベース検索法。
【請求項5】
前記近似直線の傾きに対し、ある閾値T3を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴とする請求項3または4記載のタンパク質データベース検索法。
【請求項6】
前記近似直線からの観測値の誤差のRMS(root mean square)値がある閾値以下になるまで、最大誤差のペプチドの排除と近似直線の再計算を繰り返し、最初のペプチド数をN1、再計算後のペプチド数をN2としたときに、N2とN2/N1のうち、少なくとも一方にある閾値を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴とする請求項3、4または5記載のタンパク質データベース検索法。
【請求項7】
前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも1つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正後、データベースの再検索を行なうようにしたことを特徴とする請求項6記載のタンパク質データベース検索法。
【請求項8】
前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも1つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正し、再校正後の質量情報をMS/MS測定を行なう際のプリカーサイオンの質量として採用するとともに、該プリカーサイオンをMS/MS測定により開裂させて得たMS/MSスペクトルのデータベース検索の際に、前記質量をプリカーサイオンの質量条件として入力するようにしたことを特徴とする請求項6記載のタンパク質データベース検索法。
【請求項9】
前記タンパク質データベース検索法を実行するプログラムを格納した記録媒体。
【請求項1】
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Rがある閾値T1より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴とするタンパク質データベース検索法。
【請求項2】
前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴とする請求項1記載のタンパク質データベース検索法。
【請求項3】
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を2軸の関係に取って直線近似し、理論値からの質量誤差を得られた近似直線からの質量誤差へと変換後、規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Rがある閾値T2より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴とするタンパク質データベース検索法。
【請求項4】
前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴とする請求項3記載のタンパク質データベース検索法。
【請求項5】
前記近似直線の傾きに対し、ある閾値T3を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴とする請求項3または4記載のタンパク質データベース検索法。
【請求項6】
前記近似直線からの観測値の誤差のRMS(root mean square)値がある閾値以下になるまで、最大誤差のペプチドの排除と近似直線の再計算を繰り返し、最初のペプチド数をN1、再計算後のペプチド数をN2としたときに、N2とN2/N1のうち、少なくとも一方にある閾値を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴とする請求項3、4または5記載のタンパク質データベース検索法。
【請求項7】
前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも1つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正後、データベースの再検索を行なうようにしたことを特徴とする請求項6記載のタンパク質データベース検索法。
【請求項8】
前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも1つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正し、再校正後の質量情報をMS/MS測定を行なう際のプリカーサイオンの質量として採用するとともに、該プリカーサイオンをMS/MS測定により開裂させて得たMS/MSスペクトルのデータベース検索の際に、前記質量をプリカーサイオンの質量条件として入力するようにしたことを特徴とする請求項6記載のタンパク質データベース検索法。
【請求項9】
前記タンパク質データベース検索法を実行するプログラムを格納した記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2008−281411(P2008−281411A)
【公開日】平成20年11月20日(2008.11.20)
【国際特許分類】
【出願番号】特願2007−125147(P2007−125147)
【出願日】平成19年5月10日(2007.5.10)
【出願人】(000004271)日本電子株式会社 (811)
【Fターム(参考)】
【公開日】平成20年11月20日(2008.11.20)
【国際特許分類】
【出願日】平成19年5月10日(2007.5.10)
【出願人】(000004271)日本電子株式会社 (811)
【Fターム(参考)】
[ Back to top ]