タンパク質データベース検索法および記録媒体

【課題】タンパク質同定精度を向上させる。
【解決手段】タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、該ヒストグラムの最大値Ｒがある閾値Ｔ１より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、を備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、高質量精度の質量分析装置を用いて行なわれるタンパク質やペプチドの定量定性一斉分析方法およびそれらを目的とした記録媒体に関する。
【背景技術】
【０００２】
一般に質量分析計（以下、ＭＳと呼ぶ）は、図１に示すように、イオン源、質量分離部、検出系で構成される。質量分析計には、異なる原理に基づく質量分離部を持つ、四重極ＭＳ、イオントラップＭＳ、飛行時間型（ＴＯＦ）ＭＳ、フーリエ変換イオンサイクロトロン共鳴（ＦＴＩＣＲ）ＭＳ、磁場型ＭＳがある。
【０００３】
質量分析計では、イオン源で生成したイオンを質量分離部にて質量毎に分離し、検出系で検出することでマススペクトルを測定する。このとき得られる情報は、イオンの質量を電荷で除したｍ／ｚ値とイオン強度である。以下、この測定をＭＳ測定と呼ぶ。
【０００４】
これに対し、図２に示すように、イオン源で生成した特定のイオンを前段の質量分離部１で選択し（以下、選択されたイオンをプリカーサイオンと呼ぶ）、自発的または強制的に開裂させることにより生成したプロダクトイオンを後段の質量分離部２で質量分離するＭＳ／ＭＳ測定がある。また、ＭＳ／ＭＳ測定が可能な装置をタンデム質量分析計と呼ぶ。
【０００５】
ＭＳ／ＭＳ測定では、プリカーサイオンのｍ／ｚ値、イオン強度と、複数の開裂経路で生成するプロダクトイオンのｍ／ｚ値、イオン強度の情報が得られるため、図３に示すように、プリカーサイオンの構造情報を得ることができる。
【０００６】
特に、本発明に関するタンパク質を断片化したペプチドの解析の場合には、ペプチドの一次構造（アミノ酸の配列情報）を得ることができる。タンデム質量分析計には、前述の質量分離部を２つ組み合わせた、いろいろな装置が存在し、ＭＳ測定およびＭＳ／ＭＳ測定の質量精度は、組み合わされた質量分析計に依存する。それを図４にまとめた。
【０００７】
本発明は、質量分析法とタンパク質データベースを利用し、試料中に含まれるタンパク質の同定法に関するものである。質量分析計から得られるｍ／ｚ値を元にタンパク質データベースから有意なタンパク質を選び出すデータベース検索アルゴリズムとしては、大きく３つに分けられる。ペプチドマスフィンガープリント法（以下、ＰＭＦ法と呼ぶ）、プロダクトイオンマスフィンガープリント法、ペプチドシーケンスタグ法である。
【０００８】
これらの方法の共通点は、（i）タンパク質をアミノ酸残基特異性の高い酵素で消化し、ペプチドへの断片化を行なう、（ii）生成したペプチド群を質量分析計で測定する、（iii）その出力をデータベース検索エンジンに入力する、（iv）データベース検索エンジンは、データベース上のタンパク質を仮想的に酵素消化処理し、仮想的な質量情報を作成する、（v）データベース検索エンジンは、入力された質量情報と仮想的な質量情報を比較することで、統計的に確からしいタンパク質を出力する、という手順を踏むところである。最終的には、この出力をユーザーが判断し、タンパク質の同定に至る。
【０００９】
さて、上記３つの方法は、質量分析計の測定法により２つに区分される。すなわち、ＰＭＦ法はＭＳ／ＭＳ測定を必要としない方法であり、プロダクトイオンマスフィンガープリント法とペプチドシーケンスタグ法はＭＳ／ＭＳ測定を行なう方法である。さらに、プロダクトイオンマスフィンガープリント法がＭＳ／ＭＳ測定から得たｍ／ｚ値をデータベース検索に利用するのに対し、ペプチドシーケンスタグ法はＭＳ／ＭＳスペクトルから部分的な配列情報を読み取り、データベース検索に利用するという違いがある。
【００１０】
ここでは、本発明に関連するＰＭＦ法について詳しく述べる。ＰＭＦ法では、タンパク質をトリプシンなどに代表される基質特異性の高い消化酵素で断片化したペプチド群を測定する。断片化された各ペプチドは、アミノ酸配列に由来するアミノ酸組成に基づく質量を有するため、質量分析計で測定するとペプチド群に由来する質量リストが得られる。
【００１１】
データベース検索エンジンは、データベース上のタンパク質を理論的に断片化して得られる仮想質量リストと入力された観測質量リストを比較し、統計的に最も可能性の高いタンパク質を出力する。
【００１２】
ＰＭＦ法では１種類のタンパク質の仮想質量リストと観測質量リストの比較が行なわれるため、酵素消化を行なう前にタンパク質の単離が必要となる。プロテオミクスでは高いタンパク質の分離能を持つ、２次元電気泳動とマトリクス支援レーザーイオン化（ＭＡＬＤＩ）−ＴＯＦＭＳの組み合わせが良く利用される。
【００１３】
統計的な手法が用いられる主要な理由としては、観測質量リストが仮想質量リストとはさまざまな要因により異なるためである。第１の要因としては、測定から得られるペプチドの質量が、仮想ペプチドの理論的な質量と異なるためである。たとえ予想されたペプチド断片のみが観測されたとしても、質量分析計の測定誤差により観測質量と仮想質量はわずかにずれる。そのずれの大きさは、質量分析計の種類、同種の質量分析計でもメーカーあるいは機種によっても異なる。さらに同じ装置であったとしても、測定条件、質量校正状況といった日々の実験環境にも影響される。
【００１４】
データベース検索エンジンには、両者の質量差について、許容誤差範囲を設定するパラメータが存在する。この誤差範囲内であれば、観測値と理論値は一致したとみなされるため、許容誤差範囲は実験環境に応じてユーザーが適切な値を設定する必要がある。
【００１５】
第２の要因としては、各ペプチドが同じ効率で観測されないことである。これは、前処理、イオン化効率、質量分析計の検出効率の質量依存性などが原因である。検出効率の違いにより、まったく観測されないペプチド断片もあれば、イオン強度が低く、妥当な観測値が得られないものもある。
【００１６】
データベース検索エンジンには、イオン強度を加味できるものとそうでないものが存在するが、使用する装置の質量誤差の確率分布がイオン強度（特にＳ／Ｎ）に対しどのように変化するかを良く検討し、利用の可否を判断すべきである。
【００１７】
第２の要因では、想定されたペプチド種が観測されない場合が多いが、第３の要因として、逆に想定されないピークが観測される場合もある。例えば、タンパク質を断片化する際に生じる切れ残りや意図しない修飾等がこの原因である。
【００１８】
また、前述のように、ＰＭＦ法では１種類のタンパク質の仮想質量リストと観測質量リストの比較が行なわれるため、タンパク質の単離が必要である。タンパク質の単離には、分離能の高い２次元電気泳動が良く利用されるが、そこから切り出されたゲル片に含まれるタンパク質が単一のものであるという確証はなく、また例えそうであったとしても、その後の処理の過程でコンタミネーションが起こる可能性も考えられる。複数種のタンパク質が混在する場合、検索対象ではないタンパク質由来のペプチドは仮想質量リストには含まれないため、想定されないピークの観測につながる。
【００１９】
さて、ＰＭＦ法を利用してデータベース検索を行なうことのできる検索エンジンには、現在ｗｅｂ上に無料公開されているものがいくつか存在する。それぞれのデータベース検索エンジンのアルゴリズムは異なるものの、統計的な優位さを示す指標順にタンパク質が表示される（以下、ヒットすると呼ぶ）。
【００２０】
ヒットしたタンパク質については、そのタンパク質の情報、マッチしたペプチドがタンパク質の配列をどの程度カバーしているか（以下、シーケンスカバレッジと呼ぶ）、マッチしたペプチドそれぞれについて観測値と理論値との質量誤差が提供される。
【００２１】
前述質量分析法とタンパク質データベース検索を利用した実験ストラテジーには様々なものがある。図５に一般的なフローチャートを示す。まず、サンプルから大量に含まれる不要タンパク質（血清であればアルブミンなど）の除去を行なう。また、質量分析計で効率良く分析するため、サンプルの粗い分画が行なわれる。ここで大きく２つの方法に分かれる。
【００２２】
一方は、図中Ｉに示すように、１次元電気泳動、２次元電気泳動によりタンパク質を分離する手法である。特に２次元電気泳動は、タンパク質分離能が高い。ディファレンシャルディスプレイ法により、状況の異なる２つ以上のタンパク質群の量的な差異を調べる場合にも利用される。また、高いタンパク質分離能は、ＰＭＦ法には必須である。この場合、タンパク質を分離後、還元・酵素消化等の処理を行なう。
【００２３】
他方は、図中IIに示すように、タンパク質混合物を分離することなく、還元・酵素消化等の処理を行なうものである。タンパク質の分離を行なわないため、断片化されたペプチドからタンパク質の同定を行なうことのできるＭＳ／ＭＳ測定を利用した方法が必要となる。
【００２４】
さて、次に質量分析とタンパク質データベース検索について述べる。まずはＰＭＦ法である（図中III）。ＰＭＦ法では、一般的に単離されたタンパク質を酵素消化し、そのペプチド群の質量情報からデータベース検索を行なう。そのため、タンパク質の十分な精製や、２次元電気泳動のような高いタンパク質分離手段が必要となる。ＰＭＦ法による解析後、ＭＳ／ＭＳ測定を行なう場合もある（図中IV）。
【００２５】
ＰＭＦ法で解析を行なった場合、マススペクトルに現れるすべてのピークが、あるタンパク質由来のペプチドであると同定されることはない。ＰＭＦ法ではペプチドレベルで同定できなかったピークを、さらにＭＳ／ＭＳ測定によってアミノ酸配列を解析する方法や、ＰＭＦ法でマッチしたペプチドの情報をＭＳ／ＭＳ測定で解析し、さらに同定確度を高める方法なども考えられる。
【００２６】
次に、タンパク質を分離することなく酵素消化を行なった場合（図中II）は、質量分析でＭＳ／ＭＳ測定を行ない、ペプチドのアミノ酸配列情報からタンパク質の同定を行なう必要がある（図中Ｖ）。
【００２７】
一般的には、このような場合、サンプル中のペプチド断片数は数千〜数万にも及ぶため、液体クロマトグラフィーなどによるペプチドの分離が必要となる。もちろん、電気泳動などで、タンパク質レベルで分離した後、タンデム質量分析計にてタンパク質の同定を行なう方法もある（図中VI）。
【００２８】
【特許文献１】国際公開第２００４／０２３１３２号パンフレット。
【発明の開示】
【発明が解決しようとする課題】
【００２９】
ＭＳおよびＭＳ／ＭＳ測定を行なう場合には、実際に測定する物理量（例えばＴＯＦの場合は飛行時間）をｍ／ｚ値に変換する質量校正が必要となる。質量校正法には、大きく分けると内部標準法と外部標準法とがある。
【００３０】
内部標準法は、解析対象となるマススペクトルの中に質量の基準となる物質が含まれる場合に、そのマスピークを基準にして測定されたマスピーク群の質量電荷比を校正するものである。外部標準法は、解析対象となるマススペクトルの中に質量の基準となる物質が含まれない場合に、同一条件で取得された別のマススペクトル中のマスピークを基準にして、測定されたマスピーク群の質量電荷比を校正するものである。外部標準法では、解析対象のマススペクトル外で適用された質量校正条件を利用しなければならない。
【００３１】
例えば、ＰＭＦ法で良く利用されるＭＡＬＤＩ−ＴＯＦを使用し、外部標準法にてマススペクトルを測定した場合、サンプルプレート表面上の凹凸やマトリクスの結晶化状態、質量分析計を構成する機械系、電源系の経時的な変化に伴い、同じ質量のピークでも観測される質量値が変動する。
【００３２】
この変動による誤差は、確率的な質量誤差が大きくなるのではなく、系統的な誤差が生じることを意味する。外部標準法の場合、この系統誤差とそれに重なる確率誤差を含む程度にデータベース検索の許容誤差値を大きくしなければならない。そのため、擬陽性を多く生むことが予想される。
【００３３】
本発明の目的は、上述した点に鑑み、図５に示されたタンパク質同定手法Ｉ→III→IVのタンパク質同定精度を向上させることにある。その特長としては、ＰＭＦ法において高い質量精度を得られる質量分析計を利用して、外部標準法を利用した測定に適用できることが挙げられる。１つの特長は、得られたデータベース検索結果の妥当性を確認する方法であり、もう１つの特長は、その結果を利用した、さらなるＭＳ／ＭＳ測定（IV）や再度のデータベース検索を行なうシステムに関するものである。
【課題を解決するための手段】
【００３４】
この目的を達成するため、本発明にかかるタンパク質データベース検索法は、
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Ｒがある閾値Ｔ１より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴としている。
【００３５】
また、前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴としている。
【００３６】
また、タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を２軸の関係に取って直線近似し、理論値からの質量誤差を得られた近似直線からの質量誤差へと変換後、規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Ｒがある閾値Ｔ２より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴としている。
【００３７】
また、前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴としている。
【００３８】
また、前記近似直線の傾きに対し、ある閾値Ｔ３を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴としている。
【００３９】
また、前記近似直線からの観測値の誤差のＲＭＳ（root mean square）値がある閾値以下になるまで、最大誤差のペプチドの排除と近似直線の再計算を繰り返し、最初のペプチド数をＮ１、再計算後のペプチド数をＮ２としたときに、Ｎ２とＮ２／Ｎ１のうち、少なくとも一方にある閾値を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴としている。
【００４０】
また、前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも１つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正後、データベースの再検索を行なうようにしたことを特徴としている。
【００４１】
また、前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも１つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正し、再校正後の質量情報をＭＳ／ＭＳ測定を行なう際のプリカーサイオンの質量として採用するとともに、該プリカーサイオンをＭＳ／ＭＳ測定により開裂させて得たＭＳ／ＭＳスペクトルのデータベース検索の際に、前記質量をプリカーサイオンの質量条件として入力するようにしたことを特徴としている。
【００４２】
また、前記タンパク質データベース検索法を実行するプログラムを格納した記録媒体。
【発明の効果】
【００４３】
本発明のタンパク質データベース検索法によれば、
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Ｒがある閾値Ｔ１より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたので、
タンパク質同定精度を向上させることが可能になった。
【００４４】
本発明の記録媒体によれば、
前記タンパク質データベース検索法を実行するプログラムを格納したので、
タンパク質同定精度を向上させることが可能になった。
【発明を実施するための最良の形態】
【００４５】
以下、図面を参照して、本発明の実施の形態を説明する。尚、以下の実施例では、本発明の効果を、ウシ由来のcarbonic anhydrase、serum albumin、catalaseの消化物の混合物（以下、Mix３と呼ぶ）で解析した結果を用いて示す。解析には、質量分析計として、らせん軌道ＴＯＦ質量分析計、データベース検索アルゴリズムとして、ｗｅｂ上に公開されているmascot searchのpeptide mass fingerprintingを使用した。らせん軌道ＴＯＦ質量分析計では、内部標準法を用いれば、ＰＭＦ法に利用するある程度のイオン強度を持つピークで１０ｐｐｍの誤差、またＲＭＳ（root mean square）で３ｐｐｍ以内の質量精度を実現できる。本発明は、表１に示したように、ＭＳ１で高質量精度を達成できる装置であれば適用可能である。またデータベース検索アルゴリズムに関しても、統計的な優位さを示す指標、マッチしたペプチドの配列を出力するものであれば良い。
【実施例１】
【００４６】
図６に実施例１のフローチャートを示す。まず、タンパク質を断片化したサンプルを質量分解能・質量精度の高い質量分析計、例えばらせん軌道ＴＯＦ質量分析計で測定する。マススペクトルからモノアイソトピックイオンのピークを選び出す。モノアイソトピックイオンとは、ある組成式を持つ化合物について、含まれる元素の最も質量の小さい同位体のみで形成されるイオンのことである。マススペクトル上のモノアイソトピックイオンのピークは、単一の質量成分しか含まれないので、データベース検索に良く利用される。
【００４７】
Peptide toleranceを±５０ｐｐｍに設定し、データベース検索を行なった結果を図７に示す。検索結果のHit No. 1、2は、serum albuminおよびcarbonic anhydraseの混合物であると示された。Hit No. 3〜5は、serum albuminおよびcarbonic anhydraseであり、Hit No. 9にcatalaseが示された。Hit No.6、7、8、10は擬陽性であるが、スコア、シーケンスカバレッジからだけでは、９位のcatalaseを識別することは難しい。そこで、次に陽性、擬陽性タンパク質の識別を行なう。
【００４８】
外部標準物法では、陽性であれば系統誤差が観測されるので、Hit No. 3〜9のタンパク質についてマッチしたペプチドの質量誤差の調査を行なった。まず、設定したPeptide toleranceの最大値＋５０ｐｐｍから最小値−５０ｐｐｍまでを質量分析計の精度に合わせた間隔Ｄ１（今回は１０ｐｐｍ間隔）で分割し、各間隔範囲内のマッチしたペプチド数をヒストグラムで図８に示した。ただし、図８の縦軸は、各タンパク質候補についてマッチしたペプチド数で規格化した値Ｒ１を示している。
【００４９】
図８を見ると、Hit No. 3、5、9では、＋１０ｐｐｍから＋２０ｐｐｍの間にマッチしたペプチドの６０％以上が分布しているのに対し、Hit No. 6、7、8では、全間隔で３０％以下、すなわちPeptide toleranceで設定した範囲全体に分布している。この結果から、図８のヒストグラムにある閾値Ｔ１（本実施例の場合、０．４）を設定することにより、Hit No. 3、5、9は陽性であり、Hit No. 6、7、8が擬陽性であると識別することが可能である。
【実施例２】
【００５０】
図９に実施例２のフローチャートを示す。タンパク質同定結果を得るところまでは実施例１と同じである。外部標準物法では、陽性であれば系統誤差が観測されるので、Hit No. 3〜9のタンパク質について、マッチしたペプチドの質量誤差を調査した。本実施例では、各Hit No.について、マッチしたペプチドの質量と理論値からの質量誤差の関係を、例えば横軸にペプチドの質量、縦軸に理論値からの質量誤差を取って直線近似し、理論値からの質量誤差を得られた近似直線からの質量誤差へと変換する。この操作により、系統的な誤差をある程度まで抑えることができる。
【００５１】
図１０にその誤差を−７０ｐｐｍから＋７０ｐｐｍまで２０ｐｐｍ間隔でマッチしたペプチド数を示した。ただし、図１０の縦軸は、各タンパク質候補についてマッチしたペプチド数で規格化した値Ｒ２を示している。直線近似からの誤差のため、系統的な誤差は軽減されている。そのため、±１０ｐｐｍ以内に入るはずである。そのため、ある閾値Ｔ２（本実施例では０．７）と設定すれば、Hit No. 6、7、8については擬陽性と判断できる。
【実施例３】
【００５２】
図１１に実施例３のフローチャートを示す。本実施例は、実施例２を一次判定とし、さらに確度の高い陽性・擬陽性判定を提供するものである。直線近似を利用し、陽性・擬陽性の判定を行なうところまでは実施例２と同じである。しかしながら、閾値Ｔ２の設定値（本実施例では０．６）と設定すれば、Hit No. 6、7についてのみ擬陽性と判断でき、Hit No. 8については擬陽性と判断できない。これは、直線近似では、マッチしたペプチドの数が少ない場合、偶然にもばらつきの少ない近似直線が引ける場合があるからである。そこで、直線近似で得た直線の傾きの情報も活用することができる。
【００５３】
図１２に、Hit No. 3、5、8、9の近似直線の傾きを示す。例えば、質量５００〜２５００の両端で２０ｐｐｍのずれが生じるような系統的な傾きであるとすると、その傾きは０．０１である。傾きの絶対値に対して閾値Ｔ３を設定すると、Hit No. 8は擬陽性と判断できる。
【実施例４】
【００５４】
図１３に実施例４のフローチャートを示す。本実施例は、実施例２を一次判定とし、さらに確度の高い陽性・擬陽性判定を提供するものである。閾値Ｔ２の設定によっては、擬陽性を陽性と判定してしまうのは、実施例３と同じである。
【００５５】
そこで、本実施例では、まず近似直線Ｌ１からの誤差の標準偏差を計算する。マッチしたペプチドの集合には、系統的なずれ前後に分布する集団（正しいと予想されるペプチド）と系統的なずれから大きく外れた集団が存在する。後者を排除することで、陽性タンパク質であれば近似直線からのずれが装置性能由来の数値（本実施例の場合、３ｐｐｍＲＭＳ）となる。
【００５６】
そこで、次のような（１）〜（４）の手順で擬陽性ペプチドの排除を行なった。
（１）近似直線Ｌ１からのペプチドの誤差の標準偏差を求める。標準偏差が３ｐｐｍ以内であれば終了。そうでなければ（２）へ。
（２）近似直線Ｌ１から最も誤差の大きいペプチドを排除する。
（３）排除したペプチドを除いたペプチド群でさらに近似直線Ｌ２を引く。
（４）（１）へ。
この（１）〜（４）の作業後に得られた結果（排除前のペプチド数をＮ１、排除後のペプチド数をＮ２、両者の比をＮ２／Ｎ１とする）を図１４に示す。
【００５７】
ある系統誤差に対して確率誤差が分布するような場合であれば、Ｎ２あるいはＮ２／Ｎ１に閾値を設定することができる。直線近似なので、対象となるペプチド数が少なくなれば、自然と標準偏差は小さくなる。また、少ないペプチド数で陽性と判断するのは危険である。また、Ｎ２／Ｎ１が小さいということは、系統的なずれの上に小さな確率誤差が重なっているような場合ではないということである。
【００５８】
例えば、Ｎ２に対して下限閾値Ｔ４（本実施例の場合、３）、Ｎ２／Ｎ１に対して下限閾値Ｔ５（本実施例の場合、０．７）を設定することで、Hit No. 8は擬陽性と判断することができる。
【実施例５】
【００５９】
本実施例は、実施例４の結果を利用し、陽性ペプチドを内部標準物質として用いて、再質量校正を行なう。再質量校正を行なったピークリストを用いて、再度データベース検索を行なう。このときのPeptide tolerance値は、質量分析計の確率誤差分布に由来する数値とする。本実施例では、±８ｐｐｍとした。再データベース検索の結果を図１５に示す。ヒットしたタンパク質の上位３つがサンプル中に実際に含まれるものである。
【実施例６】
【００６０】
本実施例は、実施例４の結果を利用し、ＭＳ／ＭＳ測定結果を利用したデータベース検索の同定確度を高めるためのものである。
【００６１】
図５に示したストラテジーの中で、ＭＳ／ＭＳ測定へ移行する場合がある。その場合、ＭＳ／ＭＳ測定のプロダクトイオンの質量リストに加えて、プリカーサイオンの質量を入力する（mascot searchのMS/MS Ion Searchの場合、Peptide tolerance値）。プリカーサイオンの質量精度の許容誤差範囲を小さくすることができれば、同定確度を高めることができる。そのために、実施例４の陽性・擬陽性判定結果を利用し、陽性タンパク質の陽性ペプチドのすべて、あるいは一部を内部標準物質として利用し、プリカーサイオンの質量校正を行なう。質量校正した結果得られるプリカーサイオンの質量を、例えばMS/MS Ion Searchのデータベース検索に入力する。
【産業上の利用可能性】
【００６２】
質量分析測定に広く利用できる。
【図面の簡単な説明】
【００６３】
【図１】従来の質量分析装置の概念を示す図である。
【図２】従来のタンデム質量分析装置の概念を示す図である。
【図３】ＭＳ／ＭＳ測定によるプリカーサイオンの構造解析方法を示す図である。
【図４】ＭＳ測定およびＭＳ／ＭＳ測定の質量精度をまとめた図である。
【図５】質量分析法とタンパク質データベース検索を利用した実験ストラテジーを表わす図である。
【図６】本発明にかかるタンパク質データベース検索法の一実施例である。
【図７】実施例１の方法に基づいてデータベース検索を行なった一例である。
【図８】マッチしたペプチド数を質量誤差毎にヒストグラムで示した図である。
【図９】本発明にかかるタンパク質データベース検索法の別の実施例である。
【図１０】理論値からの質量誤差を近似直線からの質量誤差に変換したときのペプチド数を質量誤差毎にヒストグラムで示した図である。
【図１１】本発明にかかるタンパク質データベース検索法の別の実施例である。
【図１２】実施例２の方法に基づいて求めた近似直線の傾きをヒットしたタンパク質毎にまとめた図である。
【図１３】本発明にかかるタンパク質データベース検索法の別の実施例である。
【図１４】実施例４の方法に基づいて求めたＮ１、Ｎ２、Ｎ２／Ｎ１の値をヒットしたタンパク質毎にまとめた図である。
【図１５】実施例５の方法に基づいて再データベース検索を行なった一例である。

【特許請求の範囲】
【請求項１】
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Ｒがある閾値Ｔ１より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴とするタンパク質データベース検索法。
【請求項２】
前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴とする請求項１記載のタンパク質データベース検索法。
【請求項３】
タンパク質を消化酵素でフラグメント化してペプチド群にし、内部標準法で高い質量精度を達成できる質量分析計を用いてそのマススペクトルを測定し、得られたマススペクトルデータを外部標準法で質量校正した後、タンパク質データベースに収められた各種タンパク質フラグメントのマススペクトルデータと比較して、より多くのペプチドピークがマッチするタンパク質をリストアップ出力表示するように構成されたタンパク質データベース検索法において、
リストアップされた各タンパク質に対して、マッチしたペプチド群の観測値の理論値からの質量誤差を２軸の関係に取って直線近似し、理論値からの質量誤差を得られた近似直線からの質量誤差へと変換後、規格化されたヒストグラムに変換する工程、
該ヒストグラムの最大値Ｒがある閾値Ｔ２より高い値であるか否かに基づいてタンパク質の類似度の高低を判断する工程、
を備えたことを特徴とするタンパク質データベース検索法。
【請求項４】
前記内部標準法で高い質量精度を達成できる質量分析計は、らせん軌道飛行時間型質量分析計であることを特徴とする請求項３記載のタンパク質データベース検索法。
【請求項５】
前記近似直線の傾きに対し、ある閾値Ｔ３を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴とする請求項３または４記載のタンパク質データベース検索法。
【請求項６】
前記近似直線からの観測値の誤差のＲＭＳ（root mean square）値がある閾値以下になるまで、最大誤差のペプチドの排除と近似直線の再計算を繰り返し、最初のペプチド数をＮ１、再計算後のペプチド数をＮ２としたときに、Ｎ２とＮ２／Ｎ１のうち、少なくとも一方にある閾値を設定することによりタンパク質の類似度の高低を判断するようにしたことを特徴とする請求項３、４または５記載のタンパク質データベース検索法。
【請求項７】
前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも１つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正後、データベースの再検索を行なうようにしたことを特徴とする請求項６記載のタンパク質データベース検索法。
【請求項８】
前記タンパク質データベース検索法で得られた類似度の高いタンパク質中のマッチしたペプチドピークを少なくとも１つ用いて、前記マススペクトルの質量軸を内部標準法にて再校正し、再校正後の質量情報をＭＳ／ＭＳ測定を行なう際のプリカーサイオンの質量として採用するとともに、該プリカーサイオンをＭＳ／ＭＳ測定により開裂させて得たＭＳ／ＭＳスペクトルのデータベース検索の際に、前記質量をプリカーサイオンの質量条件として入力するようにしたことを特徴とする請求項６記載のタンパク質データベース検索法。
【請求項９】
前記タンパク質データベース検索法を実行するプログラムを格納した記録媒体。

【図１】