説明

質量分析を用いた修飾タンパク質同定方法及び同定装置

【課題】翻訳後修飾を受けたタンパク質の同定を可能としたシステムにおいて非修飾タンパク質の同定性能の低下を防止するとともに同定時間の短縮化を図る。
【解決手段】公的なアミノ酸配列データベース等の登録情報など、既知のタンパク質のアミノ酸配列情報と翻訳後修飾情報とに基づいて、既知の修飾タンパク質のアミノ酸配列を含む同定用DB5を予め構築する。この際に、修飾されたアミノ酸を通常のアミノ酸と重複しない特定の記号で表記する。検索条件入力部44から同定対象のデータと翻訳後修飾を含む検索条件が指定されると、DB検索部43は指定されたデータを同定用DB5と照合してペプチドの候補を抽出する。修飾タンパク質は既知のものに限られるため検索空間はそれほど拡大しない。それによって、高い同定性能を確保しながら検索時間を短縮することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、タンパク質由来のペプチド混合物を含む被検試料を質量分析し、これにより得られた質量分析データを用いてペプチドのアミノ酸配列を推定することによってタンパク質を同定する方法及び装置に関し、特に、リン酸化などの翻訳後修飾を受けたタンパク質の同定を行う方法及び装置に関する。
【背景技術】
【0002】
近年、ポストゲノム研究としてタンパク質の構造や機能の解析が急速に進められている。このようなタンパク質の構造・機能解析手法(プロテオーム解析)の一つとして、質量分析計を用いたタンパク質の発現解析や一次構造解析が広く行われるようになってきており、四重極型イオントラップや衝突誘起分解(CID)などによって特定のピークの捕捉と開裂を行う、いわゆるMSn分析(nは2以上の整数)が威力を発揮している。一般にMS2分析では、まず、分析対象物から特定の質量電荷比を有するイオンをプリカーサイオンとして選別し、該プリカーサイオンをCIDによって開裂させる。その後、開裂によって生成したプロダクトイオンを質量分析することによって、目的とするイオンの質量や化学構造についての情報を得ることができる。
【0003】
上記のようなMSn分析を利用してタンパク質を同定する場合、まず、タンパク質を適当な酵素で消化してペプチド断片の混合物としてから、該ペプチド混合物を質量分析してマススペクトルを取得する。続いて、ペプチド混合物のマススペクトルデータの中から、例えば単一のペプチドに由来する一組の同位体ピーク群をプリカーサイオンとして選択し、該プリカーサイオンをCIDにより開裂させて生成されたプロダクトイオンの質量分析、つまりMS2分析を行う。また、1回の開裂操作では十分に小さな断片に開裂しない場合には、開裂操作を複数回行うこともある。以上のようにして1段又は2以上の多段の開裂操作により得られたプロダクトイオンのMSnスペクトルパターンやプロダクトイオンの質量電荷比を収集したリストを基に、既存のアミノ酸配列データベースとの照合処理を実行することによって、被検ペプチドのアミノ酸配列を決定し元のタンパク質を同定する。
【0004】
上記のようなデータベース検索によるアミノ酸配列同定手法はMS/MSイオンサーチ法と呼ばれる。図8は、マトリクスサイエンス社が提供している検索エンジンであるマスコット(Mascot)に含まれるMS/MSイオンサーチの検索設定画面100の一例である(特許文献1、非特許文献1参照)。このMS/MSイオンサーチの検索設定画面100においてユーザが設定すべき主な検索項目としては、照合に使用するデータベースの種類(Database)101、タンパク質の分解に使用した消化酵素の種類(エンザイム:Enzyme)102、後述するフィックスド・モディフィケイション(Fixed modification)103、やバリアブル・モディフィケイション(Variable modification)104、質量分析の精度の許容値(MS/MS tol.)105などがある。これら検索項目のいくつかはプルダウンメニューとなっており、そのメニューの中からユーザが適宜に指定できるようになっている。
【0005】
ユーザがこれら検索条件を適宜設定した上で「スタートサーチ(Start Search)」ボタン106をクリック操作して検索の実行を指示すると、コンピュータにおいて設定検索条件の下で与えられたプロダクトイオン情報とデータベースとの照合が実行され、最終的には検索上で確度が高いペプチド候補がリストアップされる。
【0006】
一般にMS/MSイオンサーチでは、試料イオンとデータベース中のペプチドの一致度をスコアで表しているが、このスコアは恣意的に定められた式によって計算されている。このため、一つの試料についてそれに含まれるイオンの一致度を比較するのに用いることは可能であるが、これはその結果の絶対的な信頼性(確度)を表す指標ではないので、異なった検索結果の比較に用いることはできない。そこで信頼性を表すために、確率論における期待値が併用される。即ち、実は正しくない結果であるにも拘わらず偶然そのようなスコアが出てしまう確率を、期待値を用いて表す。したがって、期待値は小さいほうがより適切な結果である。また、スコアが高いほど期待値は小さくなるので、スコアではなく期待値のみで結果の適切さを評価することが可能である。それ故に、MS/MSイオンサーチの結果は期待値を用いて評価されるのが一般的である。マスコットの場合には、期待値はエクスペクト(Expect)と呼ばれている。
なお、MS/MSイオンサーチ法は、マスコット以外の他のアミノ酸配列解析用ソフトウエア、例えばX!Tandemなどにも搭載されている。
【0007】
ところで、タンパク質は様々な要因により翻訳後修飾を受け、その修飾の種類も非常に多様である。こうした翻訳後修飾を受けたタンパク質(本明細書では、これを単に「修飾タンパク質」という)は生体組織における生体活動に重要な役割を果たしていることも多い。例えば典型的な翻訳後修飾の一つであるリン酸化は生体内での情報伝達に大きな役割を果たしていることが知られており、タンパク質のリン酸化・脱リン酸化を調べることは各種疾病の診断、疾病の要因解明、などに非常に重要である。
【0008】
上述したMS/MSイオンサーチにも、修飾タンパク質を同定する機能が備えられており、そのための検索条件が上述したフィックスド・モディフィケイションとバリアブル・モディフィケイションである。前者は一つのペプチドの同じ種類のアミノ酸に対し確定的に起こる修飾であり、後者は、一つのペプチドの同じ種類のアミノ酸であっても発生する部位と発生しない部位を同時に含む可能性があることを意味する修飾である。したがって、バリアブル・モディフィケイションが設定された場合には、対象となるアミノ酸が修飾を受ける場合と受けない場合の全ての組み合わせに対して検索を行うことになる。
【0009】
図8の例では、バリアブル・モディフィケイションとしてリン酸化(Phospho)が指定され、さらにリン酸化を受け得るアミノ酸として、S(セリン)、T(スレオニン)、Y(チロシン)の3種類が指定されている。したがって、この検索条件の下では、様々なペプチドのアミノ酸配列中にS、T又はYのアミノ酸が存在する場合に、そのアミノ酸がリン酸化を受けたと仮定した場合についても検索が行われることになる。
【0010】
MS/MSイオンサーチでは、上記のような様々な検索条件に従ってデータベース検索を行った後、一致度が高い(つまりエクスペクトが小さい)ペプチドがリストアップされて検索結果画面として表示される。図9は或る試料に対してMS/MSイオンサーチによりデータベース検索を実行して得られた結果の一例を示す図である。この結果では、図中の符号110で示すように、順位1位でタンパク質β−カゼイン(Beta-casein)由来のペプチド<FQSEEQQQTEDELQDK>がエクスペクト0.0012でヒットしている。アミノ酸配列中の左から3番目のS(セリン)はリン酸化を受けている。これはアミノ酸配列中の文字Sにアンダーラインが付されていることから分かる。
【0011】
上述したようにMS/MSイオンサーチにおいてバリアブル・モディフィケイションを指定することにより、翻訳後修飾を受けたアミノ酸配列を同定することが可能である。しかしながら、上記のような従来の修飾タンパク質同定方法には次のような問題がある。
【0012】
即ち、MS/MSイオンサーチの検索条件においてバリアブル・モディフィケイションが指定された場合(つまり翻訳後修飾が起こり得るとの検索条件が設定された場合)とバリアブル・モディフィケイションが指定されない場合(つまり翻訳後修飾がないとの検索条件が設定された場合)とで、非修飾ペプチド(翻訳後修飾を受けていないペプチド)に対するエクスペクトは本来等しくなることが望ましいが、本願発明者の検討によれば、上記従来の同定方法では非修飾ペプチドに対するエクスペクトが変化してしまうことが判明した。通常、算出されたエクスペクトに基づいて、ヒットしたペプチドを順位付けしたり、或いは、可能性の高いペプチドのリストへの取捨選択を行ったりするため、直接関連しない検索条件の影響でエクスペクトが変動すると同定結果の信頼度の低下に繋がる。特に、複数個のバリアブル・モディフィケイションが指定されると、非修飾ペプチドの同定結果の信頼度低下が顕著であり、擬陽性エラー、擬陰性エラーの増加が確認される。また、バリアブル・モディフィケイションが指定された場合には、検索に要する処理時間が著しく増加し、解析のスループット低下を招くという問題もある。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】特開2010−38664号公報
【非特許文献】
【0014】
【非特許文献1】「マスコット・サーチ(Mascot Search)」、[online]、英国マトリックス・サイエンス社(Matrix Science Ltd.)、[平成23年8月11日検索]、インターネット<URL : http://www.matrixscience.com/search_form_select.html>
【発明の概要】
【発明が解決しようとする課題】
【0015】
本発明は上記課題を解決するために成されたものであり、その目的とするところは、検索のための処理時間の増大をできるだけ抑えつつ、修飾タンパク質の同定精度を向上させるとともに、従来の手法では翻訳後修飾なしの条件の下での検索に比べて低下していた非修飾タンパク質に対する同定精度の低下を回避し、高い精度で以て非修飾タンパク質も同定することができる修飾タンパク質同定方法及び同定装置を提供することにある。
【課題を解決するための手段】
【0016】
上述した非修飾ペプチドの同定信頼度の低下や検索処理時間の増大といった問題は、バリアブル・モディフィケイションが指定されたときの検索空間の大幅な拡大に起因するものと考えられる。即ち、MS/MSイオンサーチでバリアブル・モディフィケイションが指定された場合、指定された翻訳後修飾の全ての組み合わせ(翻訳後修飾の種類と該修飾の有無、修飾されるアミノ酸)について検索が行われるが、通常、その組み合わせは非常に多数になり、結果的に検索空間が翻訳後修飾なしである場合に比べて大きく拡大する。検索空間のサイズが拡大すると、例えばアミノ酸配列は全く異なるものの偶然に質量が近いものが存在するといった可能性が拡がるため、候補ペプチドのエクスペクトは検索空間のサイズに依存して変わることになる。
【0017】
従来の修飾タンパク質同定方法では、バリアブル・モディフィケイションが指定された後に、その指定条件の下で想定される全ての翻訳後修飾されたアミノ酸配列を計算により求めることになるが、そうして挙げられたアミノ酸配列には未知の、つまりは存在が確認されていない修飾ペプチドも数多く含まれる。これら未知の修飾ペプチドを解析することは現在のタンパク質研究の大きな目標の一つではあるが、実際に未知の修飾ペプチドが観測されるケースはそれほど多くない。また未知の修飾ペプチドを含む場合でも、そのサンプル中には既知の修飾ペプチドが同時に多数含まれていることが多いので、一般的には既知の修飾ペプチドのみが同定できるだけでも研究効率の向上に寄与し、十分に実用的であるといえる。修飾ペプチドの検索範囲を既知のものに限れば、非修飾ペプチドのみから修飾ペプチドにまで検索範囲を拡げたとしても、その検索範囲の拡大はかなり抑えられると予測できる。
【0018】
第1発明はこうした知見に基づいてなされたものであり、MSn分析(n≧1)により収集された質量分析データに基づいて被検試料中の翻訳後修飾を受けた修飾タンパク質を同定する質量分析を用いた修飾タンパク質同定方法であって、
既知であるタンパク質のアミノ酸配列情報及び翻訳後修飾情報に基づいて作成された、修飾を受けたアミノ酸を擬似的な一つのアミノ酸とみなして所定の規則に則って記号化された既知の修飾タンパク質のアミノ酸配列を含む修飾タンパク質データベースを使用し、
与えられた質量分析データに基づくプロダクトイオン情報を、前記修飾タンパク質データベースに含まれるそれぞれのアミノ酸配列から生成された対応するプロダクトイオン情報と照合することによって、アミノ酸配列の候補を抽出し、
その抽出されたアミノ酸配列候補に基づいて、前記擬似的な一つのアミノ酸とみなされた修飾を受けたアミノ酸については非修飾のアミノ酸に対応した記号に戻した上で、アミノ酸配列、修飾部位、修飾の種類を含む情報を出力することを特徴としている。
【0019】
また第2発明に係る修飾タンパク質同定方法は、上記第1発明における修飾タンパク質データベースを構築するステップを有するものであり、MSn分析(n≧1)により収集された質量分析データに基づいて被検試料中の翻訳後修飾を受けた修飾タンパク質を同定する質量分析を用いた修飾タンパク質同定方法であって、
a)既知であるタンパク質のアミノ酸配列情報及び翻訳後修飾情報に基づいて、生じ得る全ての修飾タンパク質について修飾を受けたアミノ酸を擬似的な一つのアミノ酸とみなして所定の規則に則って記号化された既知の修飾タンパク質のアミノ酸配列を生成し、該既知の修飾タンパク質のアミノ酸配列を含む修飾タンパク質データベースを構築するデータベース構築ステップと、
b)前記データベース構築ステップにより構築された修飾タンパク質データベースと同種の翻訳後修飾が検索条件の一つとして指定された検索が指示されたときに、与えられた質量分析データに基づくプロダクトイオン情報を、前記修飾タンパク質データベースに含まれるそれぞれのアミノ酸配列から生成された対応するプロダクトイオン情報と照合することによって、アミノ酸配列の候補を抽出するデータベース検索実行ステップと、
c)前記データベース検索実行ステップにより抽出されたアミノ酸配列候補に基づいて、前記擬似的な一つのアミノ酸とみなされた修飾を受けたアミノ酸については非修飾のアミノ酸に対応した記号に戻した上で、修飾タンパク質についてはアミノ酸配列、修飾部位、修飾の種類を含む情報を出力する検索結果出力ステップと、
を有することを特徴としている。
【0020】
また第3発明は第1発明に係る修飾タンパク質同定方法を具現化するための装置であり、MSn分析(n≧1)により収集された質量分析データに基づいて被検試料中の翻訳後修飾を受けた修飾タンパク質を同定する質量分析を用いた修飾タンパク質同定装置であって、
a)既知であるタンパク質のアミノ酸配列情報及び翻訳後修飾情報に基づいて作成された、修飾を受けたアミノ酸を擬似的な一つのアミノ酸とみなして所定の規則に則って記号化された既知の修飾タンパク質のアミノ酸配列を含む修飾タンパク質データベースと、
b)与えられた質量分析データに基づくプロダクトイオン情報を前記修飾タンパク質データベースに含まれるそれぞれのアミノ酸配列から生成された対応するプロダクトイオン情報と照合することによってアミノ酸配列の候補を抽出するデータベース検索実行手段と、
c)その抽出されたアミノ酸配列候補に基づいて、前記擬似的な一つのアミノ酸とみなされた修飾を受けたアミノ酸については非修飾のアミノ酸に対応した記号に戻した上で、アミノ酸配列、修飾部位、修飾の種類を含む情報を出力する検索結果出力手段と、
を備えることを特徴としている。
【0021】
また第4発明は第2発明に係る修飾タンパク質同定方法を具現化するための装置であり、MSn分析(n≧1)により収集された質量分析データに基づいて被検試料中の翻訳後修飾を受けた修飾タンパク質を同定する質量分析を用いた修飾タンパク質同定装置であって、
a)既知であるタンパク質のアミノ酸配列情報及び翻訳後修飾情報に基づいて、生じ得る全ての修飾タンパク質について修飾を受けたアミノ酸を擬似的な一つのアミノ酸とみなして所定の規則に則って記号化された既知の修飾タンパク質のアミノ酸配列を生成し、該既知の修飾タンパク質のアミノ酸配列を含む修飾タンパク質データベースを構築するデータベース構築手段と、
b)前記データベース構築手段により構築された修飾タンパク質データベースと同種の翻訳後修飾が検索条件の一つとして指定された検索が指示されたときに、与えられた質量分析データに基づくプロダクトイオン情報を前記修飾タンパク質データベースに含まれるそれぞれのアミノ酸配列から生成された対応するプロダクトイオン情報と照合することによってアミノ酸配列の候補を抽出するデータベース検索実行手段と、
c)前記データベース検索実行手段により抽出されたアミノ酸配列候補に基づいて、前記擬似的な一つのアミノ酸とみなされた修飾を受けたアミノ酸については非修飾のアミノ酸に対応した記号に戻した上で、修飾タンパク質についてはアミノ酸配列、修飾部位、修飾の種類を含む情報を出力する検索結果出力手段と、
を備えることを特徴としている。
【0022】
上述したように、被検試料中のタンパク質を同定する際には、該タンパク質を酵素消化等によってペプチド断片に分解した上で、該ペプチドのアミノ酸配列を推定するのが一般的である。したがって、本明細書でいう「タンパク質」の同定とは実質的にペプチドの同定と同義である。
【0023】
修飾タンパク質データベースを作成する際に利用される既知のタンパク質のアミノ酸配列情報は、既存のタンパク質データベース(例えばスイスバイオインフォマティクス研究所(略称:SIB)等が提供している「Swiss-Prot」、米国国立生物工学情報センター(略称:NCBI)が提供している「NCBI Nr」など)に登録されているアミノ酸配列情報をそのまま用いることができる。また、既知の翻訳後修飾情報とは、存在や由来が確認されている翻訳後修飾であって、例えばリン酸化、アルキル化、カルバミル化といった翻訳後修飾の種類、翻訳後修飾されるアミノ酸配列構造と修飾されるアミノ酸などの情報を含む。こうした情報も上記のような公開されているデータベースから収集することができる。ただし、いずれのデータベースでも既知の翻訳後修飾情報が全て網羅されているわけではないから、本発明における「既知」とは既知である全てを意味するものではなく、あくまでも既知であって入手可能なものを意味する。
【発明の効果】
【0024】
第1乃至第4発明に係る修飾タンパク質同定方法及び同定装置では、既知の、つまりその存在や由来が確認されている修飾タンパク質に限ったアミノ酸配列情報を含む修飾タンパク質データベースに登録されているデータに限定した検索が、データベース検索実行ステップ(又は手段)により行われる。換言すれば、存在や由来が確認されていない未知の翻訳後修飾を受けたアミノ酸配列までは検索の範囲が拡げられないので、従来のデータベース検索による修飾タンパク質同定方法に比べると検索空間がかなり絞られることになる。その結果、第1乃至第4発明に係る修飾タンパク質同定方法及び同定装置によれば、目的のタンパク質(非修飾タンパク質、修飾タンパク質ともに)アミノ酸配列は全く異なるものの偶然にプロダクトイオンの質量が近いものが存在するといった可能性が小さくなるため、例えば同定対象が非修飾タンパク質である場合に、ヒットするペプチドのエクスペクトへの影響が小さくなり、擬陽性や擬陰性となる可能性が低くなる。また、同定対象が既知の修飾タンパク質である場合にも、擬陽性や擬陰性となる確率が下がる。これによって、非修飾タンパク質、既知の修飾タンパク質ともに、同定結果の信頼度が向上する。
【0025】
また、従来の修飾タンパク質同定方法では、データベースに登録されているタンパク質のアミノ酸配列や酵素消化等により切断されたペプチド断片のアミノ酸配列の全てに対してバリアブル・モディフィケイションとして指定された翻訳後修飾が起こり得る組み合わせを総当たり的に計算していたが、第1乃至第4発明によればこうした起こり得る全ての組み合わせを計算する処理過程が必要なくなり、さらに上述したように検索空間が狭くなることも相まって、検索処理に要する時間を短縮することが可能となる。
【0026】
また、第1乃至第4発明に係る質量分析を用いたタンパク質同定方法及び同定装置の一態様として、修飾タンパク質データベースに含まれる既知の修飾タンパク質のアミノ酸配列は、修飾を受けたアミノ酸を既存の(既に割り当てられている)1文字の記号と重複しない別の記号に置換することで生成されたものとするとよい。
【0027】
この態様によれば、従来から使用されているアミノ酸配列検索ソフトウエアをほぼそのままデータベース検索実行手段として使用することができる。そのため、例えば既存のタンパク質同定装置に本発明を適用することが容易であり、その導入のためのコストも抑えることができる。
【0028】
また、第1乃至第4発明に係る質量分析を用いたタンパク質同定方法及び同定装置において、修飾タンパク質データベースには、修飾タンパク質のアミノ酸配列情報それぞれに対し、該修飾タンパク質に関するアテノーション情報が格納されているようにするとよい。上記アノテーション情報とはその修飾タンパク質に関連した様々な付随情報であり、例えば、該タンパク質の機能情報、該タンパク質について過去に発表された学会論文などの書誌情報、公共データベースにおけるエントリ名などを含むようにすることができる。
【0029】
従来の修飾タンパク質同定方法であれば、こうしたアノテーション情報は、アミノ酸配列をデータベース検索により求めたあと、その結果を用いてさらに別の配列データベース検索作業を行い、得られたエントリ中に記述された情報を読んで内容を確認して初めて得られるものであった。それに対し第1乃至第4発明では、修飾タンパク質データベースには既知の修飾タンパク質のみが登録されるので、予め公共データベース等から収集したアテノーション情報をそれぞれに対応付けて格納しておくことができ、検索により抽出されたアミノ酸配列から即座に関連するアノテーション情報を得ることができる。それにより、タンパク質の解析作業が効率良く行えるようになる。
【図面の簡単な説明】
【0030】
【図1】本発明の一実施例である修飾タンパク質同定システムの全体構成図。
【図2】本実施例の修飾タンパク質同定システムにおけるデータベース作成処理手順を示すフローチャート。
【図3】本実施例の修飾タンパク質同定システムにおける修飾タンパク質同定の手順を示すフローチャート。
【図4】翻訳後修飾がリン酸化である場合のアミノ酸配列中の記号置換の一例を示す図。
【図5】本発明に基づくリン酸化タンパク質同定方法と従来法との同定結果比較の一例を示す図。
【図6】非リン酸化ペプチドに対する検索結果の比較を示す図。
【図7】リン酸化ペプチドに対する検索結果の比較を示す図。
【図8】マスコットによるMS/MSイオンサーチの検索設定画面の一例を示す図。
【図9】或る試料に対してMS/MSイオンサーチによりデータベース検索を実行して得られた結果の一例を示す図。
【発明を実施するための形態】
【0031】
以下、本発明に係る修飾タンパク質同定方法を利用したシステムの一実施例について、添付の図面を参照して説明する。図1は本実施例の修飾タンパク質同定システムの全体構成図、図2は本システムにおけるデータベース作成処理手順を示すフローチャート、図3は本システムにおけるタンパク質同定処理手順を示すフローチャートである。
【0032】
本実施例の修飾タンパク質同定システムは、質量分析計1、スペクトルデータ収集部2、データ格納部3、及び、同定処理部4を含み、同定処理部4は、データベース作成・管理部41、既知情報読込部42、データベース検索部43、検索条件入力部44、表示部45、同定用データベース5を含む。同定用データベース5は大別して、非修飾タンパク質情報記憶部51、修飾タンパク質情報記憶部52、翻訳後修飾関連情報記憶部53を備える。質量分析計1以外は、コンピュータを中心に構成することができ、主要な機能はコンピュータにインストールされた専用のソフトウエアをコンピュータ上で実行することにより実現される。
【0033】
質量分析計1は例えばイオントラップ飛行時間型質量分析計であり、図示しないが、目的試料中の分子や原子をイオン化するイオン源と、発生したイオンを一時的に捕捉し、必要に応じて質量電荷比m/zに応じたイオンの選別とCIDによるイオンの開裂とを実行する3次元四重極型のイオントラップと、該イオントラップから射出された各種イオンを質量電荷比m/zに応じて分離して検出する飛行時間型質量分析器(TOFMS)と、を備える。生体試料を対象としたイオン化を行うイオン源としては、マトリクス支援レーザ脱離イオン化法(MALDI)によるもの、エレクトロスプレイイオン化法(ESI)によるもの、などが一般的である。
【0034】
非修飾タンパク質情報記憶部51は、非修飾タンパク質のアミノ酸配列、プロダクトイオン情報などを含むデータベースであり、既存の公共データベースの情報をそのまま又はその一部を抽出して用いることができる。一方、修飾タンパク質情報記憶部52はデータベース作成・管理部41によって作成される特定の(既知の)修飾タンパク質のアミノ酸配列、プロダクトイオン情報などを含むデータベースである。また、翻訳後修飾関連情報記憶部53は特に修飾タンパク質情報記憶部52に登録される各修飾タンパク質(ペプチド)について、公共データベース等から収集される当該タンパク質に関連したアノテーション情報を格納しておくものである。一般的には、アノテーション情報としては、タンパク質の機能情報、タンパク質について過去に発表された学会論文などの書誌情報、公共データベースにおけるエントリ名などを含むが、その情報内容はシステムの設計上又は該システムを利用するユーザの要望に応じて任意に定めることができる。
【0035】
次に、図1に加えて図2〜図4を参照して、本実施例の修飾タンパク質同定システムにおける同定処理動作を説明する。ここでは、翻訳後修飾の一例として比較的簡単な修飾であって且つ生体機能において重要な修飾であるリン酸化を挙げる。即ち、この例では、修飾タンパク質情報記憶部52はリン酸化タンパク質情報記憶部であり、翻訳後修飾関連情報記憶部53はリン酸化関連情報記憶部である。
【0036】
本システムによる同定作業を実施するに先立って、図2のフローチャートに示したような、同定用データベース5を構築する作業が予め必要となる。まず、図示しない制御部からデータベース構築指示を受けると、データベース作成・管理部41は既知情報読込部42を通して、既知のタンパク質のアミノ酸配列情報や翻訳後修飾(リン酸化)情報を取得する(ステップS1)。具体的には、既知情報読込部42はインターネットを通じて外部からデータを受領する機能を有し、「Swiss-Prot」等の公開されているデータベースから非修飾タンパク質のアミノ酸配列情報や既知のリン酸化情報を収集する。一般的に、一つのデータベースに全ての既知の情報が揃っているわけではないから、複数のデータベースから収集した情報を統合することにより情報をより充実させることができる。
【0037】
リン酸化情報としては、例えば、既知のリン酸化タンパク質(ペプチド)として、どのようなアミノ酸配列の中のどの部位(アミノ酸)にリン酸化が生じるかといった情報が得られる。こうした既知のリン酸化情報が得られるとデータベース作成・管理部41は、該情報に基づいて、アミノ酸配列中においてリン酸化されるアミノ酸を示す1文字の記号を特定の記号に置換した、修飾タンパク質の擬似的なアミノ酸配列を生成する(ステップS2)。即ち、これは、リン酸化されたアミノ酸と同じ質量電荷比を持った仮想的なアミノ酸を仮定したアミノ酸配列である。置換された記号は厳密にはアミノ酸を示すものではなく、リン酸化されたアミノ酸を示すものであるため、生成されるものは厳密な意味ではアミノ酸配列ではなく擬似的(仮想的)なものであるが、ここでは単にアミノ酸配列という。
【0038】
リン酸化は、アミノ酸S、T、Yに対して起こるものが殆どであり、実質的にそれらを考慮すれば十分である。そこで、本実施例では、アミノ酸S、T、Yがリン酸化を受けた場合に、それぞれB、O、Zという記号で置換することとした。なお、これらB、O、Zなどの文字は出現頻度が極めて低く、実験的に2つのアミノ酸のどちらなのかが判定できない場合などに用いられる。そこでこれらの文字を含むアミノ酸配列については、可能性のある両方のアミノ酸に対応するアミノ酸配列に書き換えることによって、これら3つの文字がデータベース中で全く割り当てられていないようにした。このようにして、上述したように修飾を受けたアミノ酸を既存の(既に割り当てられている)1文字の記号と重複しない別の記号に置換した。
【0039】
即ち、ここでは、アミノ酸配列において「B」はリン酸化されたセリン、「O」はリン酸化されたスレオニン、「Z」はリン酸化されたチロシンを示す。したがって、図4(a)に示すように、例えば、アミノ酸配列が<FQSEEQQQTEDELQDK>であるペプチドにおいて2個のアミノ酸S、Tが同時にリン酸化されたものが既知であるとのリン酸化情報が得られていれば、該既知情報が与えられているセリンSがリン酸化される場合とされない場合、またスレオニンTがリン酸化される場合とされない場合とがあり得るから、リン酸化ペプチドのアミノ酸配列として、<FQBEEQQQTEDELQDK>、<FQSEEQQQOEDELQDK>及び<FQBEEQQQOEDELQDK>の3種類が生成される。また、図4(b)に示すように、例えばアミノ酸配列<FQSESQQQTEDELQDK>のように2個のセリンSと1個のスレオニンを含む場合でも、最初のSとTにのみ既知情報がある(つまり2番目のSには既知情報がない)のであれば、リン酸化ペプチドのアミノ酸配列として、<FQBESQQQTEDELQDK>、<FQSESQQQOEDELQDK>、<FQBESQQQOEDELQDK>の3種類のみを生成することになる。
【0040】
こうしてデータベース作成・管理部41は収集された既知情報に基づいてリン酸化タンパク質のアミノ酸配列を生成し、それに対応したプロダクトイオン情報を求め、通常のデータベース検索エンジンで検索可能な形式として修飾タンパク質情報記憶部52に格納する。また、それら生成した各アミノ酸配列に、タンパク質名、アミノ酸配列中のリン酸化の位置、リン酸化の生理的意義、リン酸化を行う酵素、文献情報などの既知のアノテーション情報を対応付けて翻訳後修飾関連情報記憶部53に格納する。こうしてデータベース作成・管理部41により一体的に管理される同定用データベース5が構築される(ステップS3)。
【0041】
次に、上記同定用データベース5を利用して目的のタンパク質を同定する際の処理手順を説明する。目的のタンパク質を質量分析計1によりMS分析、MS2分析することで得られたデータが、データ格納部3に保存されているものとする。ユーザは、検索条件入力部44から同定対象である目的タンパク質のデータを指定するとともに、翻訳後修飾を含む検索条件を指定する(ステップS11)。この検索条件の指定は例えば既に説明した図8に示すような画面上で、照合に使用するデータベースの種類101として、目的とする翻訳後修飾を格納したデータベースを指定すればよい。
【0042】
データベース検索部43は、検索条件として指定された翻訳後修飾を格納したデータベースが既に存在しているかをチェックする(ステップS12)。上述のように指定された翻訳後修飾がリン酸化であれば、既にリン酸化タンパク質に対する同定用データベース5が存在しているから、ステップS12ではYesと判定されてS13へ進む。指定された翻訳後修飾に対応したデータベースが構築されていない場合には、検索が実施できないため、ステップS15へ進んで指定された翻訳後修飾に対応したデータベース構築処理を行うか、或いは参照すべきデータベースがない旨をユーザに知らせる報知のみを実行する。
【0043】
ステップS13では、データベース検索部43は指定されたデータをデータ格納部3から読み込み、該データから求まるプロダクトイオン情報(プロダクトイオンの質量電荷比m/z)を同定用データベース5に含まれるそれぞれのアミノ酸配列から生成された対応するプロダクトイオン情報と照合することにより、一致する可能性の高いタンパク質(ペプチド)を候補として抽出する。即ち、従来法のように検索条件として指定されたリン酸化の全ての組み合わせについて検索が実行されるのではなく、通常の、つまり翻訳後修飾がない場合と同様の、単にデータベースに登録されている情報に対する検索が実行されるだけである。また、上述のようにリン酸化されたアミノ酸は他のアミノ酸と同様の1文字の記号で表されているので、データベース検索部43は既存のマスコットやX!tandemなどの検索エンジンを用いることができる。候補となったタンパク質が非修飾である場合には、得られたアミノ酸配列をそのまま出力情報とすることができるが、候補となったタンパク質が修飾タンパク質である場合には、得られたアミノ酸配列には上記の置換された記号を含む。そこで、置換された記号を元のアミノ酸の記号に戻すとともに、そのアミノ酸がリン酸化部位であることを示す情報を付す。そうして、検索結果として、候補タンパク質のアミノ酸配列等の情報を表示部45から出力する(ステップS14)。
【0044】
次に、上述した修飾タンパク質同定方法により実際に検索を実行した結果の一例について説明する。実際の検索では、検索エンジンとしてマスコットではなくX!tandemを用いた。図5は、従来法と本発明方法との検索結果の比較のまとめである。図5において(a)は、既存の「Swiss-Prot」データベースを用い、バリアブル・モディフィケイションでリン酸化を指定せずにデータベース検索を行った場合の結果である。(b)は同じく既存の「Swiss-Prot」データベースを用い、バリアブル・モディフィケイションでリン酸化を指定してデータベース検索を行った場合の結果である。即ち、(a)はリン酸化ペプチドの検索を行わない場合、(b)は従来法によってリン酸化ペプチドを検索した場合である。(b)の結果を見ると、66個のリン酸化ペプチドが同定されているが、計算時間はリン酸化の指定なしの場合に比べて80分以上延びている。この延びた時間が、実質的にリン酸化ペプチドの同定のために利用された時間であると考えることができる。
【0045】
図5において(c)は本発明方法による検索結果であり、既存の「Swiss-Prot」データベースとこれから求めた既知のリン酸化タンパク質データベース「e.boz」の両方に対してデータベース検索を行った結果である。この場合、同定されたリン酸化ペプチドの数は(b)の場合よりもやや多くなっている程度である。一方、(a)と(c)とを比較すると、リン酸化ペプチドに対応した検索のために追加で要した時間は僅か4分弱にすぎず、従来方法でリン酸化ペプチドの検索に80分以上を要したのと比較すると、その所要時間の短縮効果は明らかである。これは、「Swiss-Prot」データベースに登録されている全てのタンパク質と指定されたリン酸化との全ての組み合わせを計算する時間が不要になること、及び、修飾タンパク質の検索空間が既知のものに限られていることに依るものと考えられる。
【0046】
また、上述したようにリン酸化ペプチドをデータベース検索する場合に、そのためのデータベースの変更等の作業に伴って、非リン酸化ペプチドの同定に影響が及ぶことは望ましくない。即ち、リン酸化ペプチドの検索を可能としたことによって、非リン酸化ペプチドに対する検索の結果が変化してはならない。しかしながら、前述したように、バリアブル・モディフィケイションを指定した従来の検索では検索空間が大きく拡大するため、検索エンジンによって求まるエクスペクトが変動し、結果的に非リン酸化ペプチドに対する同定の判定が変わるケースが多く見られる。
【0047】
図6及び図7は非リン酸化ペプチド及びリン酸化ペプチドに対する従来法と本発明方法との検索結果の具体例を示す図である。図6及び図7中の通常検索、従来法、本発明法はそれぞれ図5中の(a)、(b)、(c)に対応する。また図6及び図7中の数値はX!tandemで求まるエクスペクトであり、このエクスペクトは小さいほど同定結果の信頼性が高い。ここでは同定判定の閾値は10-2に設定されており、エクスペクトが10-2以下であればそのペプチドが同定ペプチドであると判断する。
【0048】
図6に示した非リン酸化ペプチドの検索結果をみると、擬陽性エラーとして示した4種のペプチドが、通常検索では元々「同定されない(エクスペクトが閾値よりも大きい)」と判定されているにも拘わらず、従来法ではエクスペクトが減少して閾値よりも小さくなった結果、「同定」と誤判定されている(つまり「擬陽性エラー」となっている)。これに対し、本発明法によるこれらペプチドに対する検索結果では、エクスペクトは閾値よりも大きいままであり、通常検索の場合と同様に「同定されない」と正しく判定されている。この4種のペプチドのうち一番下に示したアミノ酸配列<EGA…GMM>であるペプチドから、従来法によって同定されたタンパク質は「Vibrio harveyi(海棲動物の消化器官の中に共生する細菌)」のタンパク質であるが、測定対象の試料はヒト由来のHeLa細胞抽出物であり、この同定が実際に誤りであることを強く示唆している。
【0049】
また、擬陰性エラーとして示した13種のペプチドが、通常検索では元々「同定」と判定されたにもかかわらず、従来法ではエクスペクトが逆に増加した結果、「同定されない」と誤判定されている(つまり「擬陰性エラー」となっている)。これらについても同様に、本発明法では通常検索の結果と同様に「同定」との判定結果となっている。即ち、従来法で生じた4個の擬陽性エラーと13個の擬陰性エラーは本発明法では起こらないことが分かる。一方、従来法では擬陽性エラーを生じなかったにも拘わらず本発明法によって擬陽性エラーを生じたペプチドは1種のみにすぎず、擬陰性エラーを生じたペプチドは存在しなかった。図5をみると、非リン酸化ペプチドに対する同定数は従来法では158個で、通常検索の結果の167個よりも9個少ない。これは、上述したように、擬陽性エラーで13個少なく、擬陰性エラーで4個多いという結果と符合する。一方、本発明法による同定数は、通常検索の167個プラス上記の擬陽性エラーであるペプチド1個の合計168個である。
【0050】
以上の結果が示すように、従来法にみられる、検索空間が大きく拡大する結果としてエクスペクトが通常検索の際と大きく変化し、結果的に同定の判定を誤るというケースは、本発明法では大幅に減少している。即ち、本発明法におけるリン酸化ペプチドを同定するための新たなデータベースの構築が、非リン酸化ペプチドの同定結果に殆ど影響を与えないことが確認できる。
【0051】
図7はリン酸化ペプチドの検索結果であり、当然のことながら通常検索では同定されないので通常検索の結果は除いている。また、図7の下に示すのは、同定された各ペプチドに対応して出力されるアノテーション情報である。上の2種のペプチドは従来法のみで同定されたものであり、元の「Swiss-Prot」データベースに情報がない未知のリン酸化ペプチドである。本発明法は既知のリン酸化ペプチドしか検索対象としていないため、未知のリン酸化ペプチドを検出できないのは当然の結果である。下の6種のペプチドは本発明法のみで同定されたものであり、全て「Swiss-Prot」データベースに情報がある既知のリン酸化ペプチドである。これらは8種のペプチドは、ヒト、マウス、又はヒツジの、つまりは非常に近縁である哺乳類のタンパク質であるので、いずれも妥当な同定結果であると考えられる。図5をみると、本発明法によるリン酸化ペプチドに対する同定数は従来法に比べて4個多い70個となっているが、これは、上述のように、従来法では同定されなかったペプチドが新たに6個同定され、本発明法の検索対象外である未知の(データベースに収録されていない)リン酸化ペプチドが従来法で2個同定されたことに符合している。
【0052】
なお、図6に示した本発明法のみで同定された6種のペプチドのうちの3種は、アミノ酸配列が全く同一である。これは、その配列に続く「RT」の数値で示しているように、質量分析計での測定に先立って行われる試料分離過程である液体クロマトグラフでの保持時間が異なるピークに同じタンパク質が帰属された例である。こうした現象が起こる理由は明確ではないが、例えば、当該タンパク質が別のタンパク質と凝集していたために疎水性が変化した、或いは、当該タンパク質のうち一定の量が翻訳後に切断を受けて全長が変わり疎水性も変化していた、等の理由が考え得る。
【0053】
上記実測例では、本発明法では従来法に比べてリン酸化ペプチドの同定性能は向上しているものの、顕著な向上であるとまではいえない。一方、非リン酸化ペプチドに対しては従来法に比べて明確に同定性能が改善されており、また、データベース検索のための計算時間の短縮も顕著である。こうしたことから、本発明法は従来法と比較して明らかに優れていると結論付けることができる。
【0054】
なお、上記実施例では、翻訳後修飾としてリン酸化を挙げていたが、それ以外の各種翻訳後修飾を受けたタンパク質の同定に本発明を適用できることは明らかである。ただし、翻訳後修飾されるアミノ酸の種類が多い場合には、アミノ酸配列を示すためにアミノ酸に置換し得る1文字の記号が不足するため、既存の検索エンジンをそのまま利用することは難しく、例えば修飾されたアミノ酸を表す特殊な記号を取り扱えるように検索エンジンを適宜修正する必要がある。
【0055】
また、上記実施例では、検索に利用される同定用データベース5が同定システムの内部に設けられていたが、例えば同定用データベース5はサーバ内に構築され、該サーバに接続された端末からサーバにアクセスしてタンパク質同定を行うようなシステム構成を採ることもできる。
【0056】
また、同定用データベース5は、収集されたデータ中の一部データを特定のキーに対応して取り出せるようにしたものでありさえすればよいから、XMLデータベースやJSON(JavaScript(登録商標) Object Notation)技術を利用したものも広い意味でデータベースの一種である。例えばJSON技術を利用する場合には、まず上述したように同定用データベースを構築した上で、JSON技術を利用して、修飾タンパク質のアミノ酸配列と翻訳後修飾情報とを関連づけたファイルを作成する。そして、データベース検索の結果得られた候補ペプチドの翻訳後修飾情報を得るために同定用データベースを参照するのでなく、上記のJSON形式のファイルを参照する。この場合、複雑なデータベース管理システムが不要であり、同定用データベースを備えていないコンピュータでも、検索結果の表示を簡便に行うことができる。したがって、複雑なデータベース管理システムのインストールや構築が不要になるというメリットがある。さらに、データベース検索結果ファイル内に翻訳後修飾情報を組み込むことも可能である。
【0057】
また、上記実施例は本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
【符号の説明】
【0058】
1…質量分析計
2…スペクトルデータ収集部
3…データ格納部
4…同定処理部
41…データベース作成・管理部
42…既知情報読込部
43…データベース検索部
44…検索条件入力部
45…表示部
5…同定用データベース
51…非修飾タンパク質情報記憶部
52…修飾タンパク質情報記憶部
53…翻訳後修飾関連情報記憶部

【特許請求の範囲】
【請求項1】
MSn分析(n≧1)により収集された質量分析データに基づいて被検試料中の翻訳後修飾を受けた修飾タンパク質を同定する質量分析を用いた修飾タンパク質同定方法であって、
既知であるタンパク質のアミノ酸配列情報及び翻訳後修飾情報に基づいて作成された、修飾を受けたアミノ酸を擬似的な一つのアミノ酸とみなして所定の規則に則って記号化された既知の修飾タンパク質のアミノ酸配列を含む修飾タンパク質データベースを使用し、
与えられた質量分析データに基づくプロダクトイオン情報を前記修飾タンパク質データベースに含まれるそれぞれのアミノ酸配列から生成された対応するプロダクトイオン情報と照合することによってアミノ酸配列の候補を抽出し、
その抽出されたアミノ酸配列候補に基づいて、前記擬似的な一つのアミノ酸とみなされた修飾を受けたアミノ酸については非修飾のアミノ酸に対応した記号に戻した上で、アミノ酸配列、修飾部位、修飾の種類を含む情報を出力することを特徴とする質量分析を用いた修飾タンパク質同定方法。
【請求項2】
MSn分析(n≧1)により収集された質量分析データに基づいて被検試料中の翻訳後修飾を受けた修飾タンパク質を同定する質量分析を用いた修飾タンパク質同定方法であって、
a)既知であるタンパク質のアミノ酸配列情報及び翻訳後修飾情報に基づいて、生じ得る全ての修飾タンパク質について修飾を受けたアミノ酸を擬似的な一つのアミノ酸とみなして所定の規則に則って記号化された既知の修飾タンパク質のアミノ酸配列を生成し、該既知の修飾タンパク質のアミノ酸配列を含む修飾タンパク質データベースを構築するデータベース構築ステップと、
b)前記データベース構築ステップにより構築された修飾タンパク質データベースと同種の翻訳後修飾が検索条件の一つとして指定された検索が指示されたときに、与えられた質量分析データに基づくプロダクトイオン情報を前記修飾タンパク質データベースに含まれるそれぞれのアミノ酸配列から生成された対応するプロダクトイオン情報と照合することによってアミノ酸配列の候補を抽出するデータベース検索実行ステップと、
c)前記データベース検索実行ステップにより抽出されたアミノ酸配列候補に基づいて、前記擬似的な一つのアミノ酸とみなされた修飾を受けたアミノ酸については非修飾のアミノ酸に対応した記号に戻した上で、修飾タンパク質についてはアミノ酸配列、修飾部位、修飾の種類を含む情報を出力する検索結果出力ステップと、
を有することを特徴とする質量分析を用いた修飾タンパク質同定方法。
【請求項3】
請求項1又は2に記載の質量分析を用いた修飾タンパク質同定方法であって、
前記修飾タンパク質データベースに含まれる既知の修飾タンパク質のアミノ酸配列は、修飾を受けたアミノ酸を既存の1文字の記号と重複しない別の記号に置換することで生成されたものであることを特徴とする質量分析を用いた修飾タンパク質同定方法。
【請求項4】
請求項1〜3のいずれかに記載の質量分析を用いた修飾タンパク質同定方法であって、
前記修飾タンパク質データベースには、修飾タンパク質のアミノ酸配列情報それぞれに対し、該修飾タンパク質に関するアテノーション情報が格納されていることを特徴とする質量分析を用いた修飾タンパク質同定方法。
【請求項5】
MSn分析(n≧1)により収集された質量分析データに基づいて被検試料中の翻訳後修飾を受けた修飾タンパク質を同定する質量分析を用いた修飾タンパク質同定装置であって、
a)既知であるタンパク質のアミノ酸配列情報及び翻訳後修飾情報に基づいて作成された、修飾を受けたアミノ酸を擬似的な一つのアミノ酸とみなして所定の規則に則って記号化された既知の修飾タンパク質のアミノ酸配列を含む修飾タンパク質データベースと、
b)与えられた質量分析データに基づくプロダクトイオン情報を前記修飾タンパク質データベースに含まれるそれぞれのアミノ酸配列から生成された対応するプロダクトイオン情報と照合することによってアミノ酸配列の候補を抽出するデータベース検索実行手段と、
c)その抽出されたアミノ酸配列候補に基づいて、前記擬似的な一つのアミノ酸とみなされた修飾を受けたアミノ酸については非修飾のアミノ酸に対応した記号に戻した上で、アミノ酸配列、修飾部位、修飾の種類を含む情報を出力する検索結果出力手段と、
を備えることを特徴とする質量分析を用いた修飾タンパク質同定装置。
【請求項6】
MSn分析(n≧1)により収集された質量分析データに基づいて被検試料中の翻訳後修飾を受けた修飾タンパク質を同定する質量分析を用いた修飾タンパク質同定装置であって、
a)既知であるタンパク質のアミノ酸配列情報及び翻訳後修飾情報に基づいて、生じ得る全ての修飾タンパク質について修飾を受けたアミノ酸を擬似的な一つのアミノ酸とみなして所定の規則に則って記号化された既知の修飾タンパク質のアミノ酸配列を生成し、該既知の修飾タンパク質のアミノ酸配列を含む修飾タンパク質データベースを構築するデータベース構築手段と、
b)前記データベース構築手段により構築された修飾タンパク質データベースと同種の翻訳後修飾が検索条件の一つとして指定された検索が指示されたときに、与えられた質量分析データに基づくプロダクトイオン情報を前記修飾タンパク質データベースに含まれるそれぞれのアミノ酸配列から生成された対応するプロダクトイオン情報と照合することによってアミノ酸配列の候補を抽出するデータベース検索実行手段と、
c)前記データベース検索実行手段により抽出されたアミノ酸配列候補に基づいて、前記擬似的な一つのアミノ酸とみなされた修飾を受けたアミノ酸については非修飾のアミノ酸に対応した記号に戻した上で、修飾タンパク質についてはアミノ酸配列、修飾部位、修飾の種類を含む情報を出力する検索結果出力手段と、
を備えることを特徴とする質量分析を用いた修飾タンパク質同定装置。
【請求項7】
請求項5又は6に記載の質量分析を用いた修飾タンパク質同定装置であって、
前記修飾タンパク質データベースに含まれる既知の修飾タンパク質のアミノ酸配列は、修飾を受けたアミノ酸を既存の1文字の記号と重複しない別の記号に置換することで生成されたものであることを特徴とする質量分析を用いた修飾タンパク質同定装置。
【請求項8】
請求項5〜7のいずれかに記載の質量分析を用いた修飾タンパク質同定装置であって、
前記修飾タンパク質データベースには、修飾タンパク質のアミノ酸配列情報それぞれに対し、該修飾タンパク質に関するアテノーション情報が格納されていることを特徴とする質量分析を用いた修飾タンパク質同定装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2013−47624(P2013−47624A)
【公開日】平成25年3月7日(2013.3.7)
【国際特許分類】
【出願番号】特願2011−185711(P2011−185711)
【出願日】平成23年8月29日(2011.8.29)
【出願人】(000001993)株式会社島津製作所 (3,708)
【出願人】(506137147)エーザイ・アール・アンド・ディー・マネジメント株式会社 (215)
【Fターム(参考)】