説明

糖ペプチドタンデムマスデータの解析方法

【課題】糖ペプチドの配列の同定について有効な方法を提供すること。
【解決手段】600M/Z以下の範囲について、糖分子量リストと一致する糖分子量のスペクトルを抽出して、当該スペクトルに基づいて糖分子量が同定される。600M/Z以上の範囲について、インテンシティのピーク間のM/Z距離が前記糖分子同定工程で得られた糖分子量から1を減じたものと等しいインテンシティのピークの対が、順次抽出される。抽出されたピークの対について、連続的に連なるピークの対については繋げて、もっとも長いM/Z距離を包括するピークの対またはピークの対の群が特定される。当該ピークの対またはピークの対の群について、最小のM/Zのピークをペプチドイオン由来のスペクトルとみなし、当該スペクトルに基づいてペプチド配列が同定される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の糖ペプチドタンデムマスデータから、ペプチド部分の質量を推定して、当該ペプチド部分の配列の同定を行う方法に関している。
【背景技術】
【0002】
タンデムマスとは、一台目の質量分析装置のイオン化室で生成したイオン種のうちの一つを前駆イオンとして選択し、二台目の質量分析装置での分解から生じるプロダクトイオンのことである。MSMSとも言われる。
【0003】
このタンデムマスのスペクトルパターン(スペクトラム)から、ペプチドを同定する方法は知られている。例えば、Mascot等のペプチド配列同定ソフトウェアが既に市販されている。このソフトウェアを用いれば、タンデムマススペクトルパターンから、ペプチド配列を同定することができる。
【0004】
しかしながら、ペプチドに糖鎖部分が結合した糖ペプチドの配列の同定については、有効な方法が開発されていない。糖ペプチドは、糖由来の部分とペプチド由来の部分とを有するため、タンデムマススペクトルパターンは、糖鎖部分の分解産物(主に単糖イオン、二糖イオン)のスペクトルパターンとペプチドイオンのスペクトルパターンと糖ペプチドイオンのスペクトルパターンとの混合スペクトルとなり、そのままペプチド配列同定ソフトウェアを適用しても、同定が上手くできない。
【特許文献1】WO2006/134703A1
【非特許文献1】Ono M, Shitashige M, Honda K, Isobe T, Kuwabara H, Matsuzuki H, Hirohashi S, Yamada T. Label-free quantitative proteomics using large peptide data sets generated by nanoflow liquid chromatography and mass spectrometry. Mol Cell Proteomics. 2006 Jul;5(7):1338-47
【非特許文献2】Harazono A, Kawasaki N, Kawanishi T, Hayakawa T. Site-specific glycosylation analysis of human apolipoprotein B100 using LC/ESI MS/MS. Glycobiology. 2005 15:447-62.
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明は、このような点を考慮してなされたものであり、糖ペプチドの配列の同定について有効な方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、液体クロマトグラフィーに糖ペプチド入りの被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けた複数のマスデータ及び複数のタンデムマスデータを得る測定工程と、前記複数のタンデムマスデータについて、質量電荷比データ毎にインテンシティをカウントし、質量電荷比データとインテンシティとの2次元グラフを得るグラフ化工程と、前記2次元グラフのうち、600M/Z以下の範囲について、糖分子量リストと一致する糖分子量のスペクトルを抽出して、当該スペクトルに基づいて糖分子量を同定する糖分子同定工程と、前記2次元グラフのうち、600M/Z以上の範囲について、インテンシティのピーク間のM/Z距離が前記糖分子同定工程で得られた糖分子量から1を減じたものと等しいインテンシティのピークの対を順次抽出していくピーク対抽出工程と、前記ピーク対抽出工程で得られたピークの対について、連続的に連なるピークの対については繋げて、もっとも長いM/Z距離を包括するピークの対またはピークの対の群を特定する最長M/Z距離特定工程と、前記最長M/Z距離特定工程で特定されたピークの対またはピークの対の群について、最小のM/Zのピークをペプチドイオン由来のスペクトルとみなし、当該スペクトルに基づいてペプチド配列を同定するペプチド分子同定工程と、を備えたことを特徴とする糖ペプチドタンデムマスデータの解析方法である。
【0007】
本発明によれば、600M/Zを閾値として採用して、600M/Z以下の範囲のスペクトルから糖分子量を同定し、その結果を利用して600M/Z以上の範囲のスペクトルからペプチドの分子量及び当該ペプチドの配列を同定することにより、糖ペプチドの配列の同定を実用レベルで実現することができる。
【0008】
同定の精度を上げるためには、前記測定工程の後に、当該測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正する補正工程が実施されることが好ましい。更に、この場合、前記補正工程では、2つの2次元データのサイクル番号(保持時間に対する昇順番号)を各軸とした2次元の格子座標を用いて最適対応位置を探索する動的アルゴリズムが用いられるようになっていることが好ましい。このような補正工程については、特許文献1に詳細が開示されている。
【0009】
糖ペプチドに含まれている可能性のある糖分子について予め何らかの情報ないし推測が存在する場合には、それに応じて、前記糖分子同定工程において対象とする質量電荷比のデータ範囲が限定されてもよい。例えば、前記糖分子同定工程において、600M/Z以下の範囲のうち、150〜400M/Zの範囲のみが対象とされてもよい。
【0010】
前記糖分子同定工程は、具体的には、例えば、糖分子量リストと一致する糖分子量の各々のスペクトルを抽出して、各々のインテンシティを実測インテンシティとして記憶する工程と、質量電荷比データとインテンシティとの2次元グラフをランダムに所定数だけ生成して、各2次元グラフについて、糖分子量リストと一致する糖分子量の各々のスペクトルを抽出して、各々のインテンシティを参照インテンシティとして記憶する工程と、糖分子量の各々について、実測インテンシティと所定数の参照インテンシティとの相対関係に基づいて、当該糖分子量の糖が含有されていたか否かを判別する工程と、を有している。
【0011】
また、前記ペプチド分子同定工程は、例えば、ペプチドイオン由来のスペクトルとみなされたスペクトルに基づいて、前記最小のM/Zを分子量として指定して、ペプチド配列同定ソフトウェアによって同定結果を得る工程と、得られた同定結果から、配列にAsn、Ser、Thrのいずれかが含まれる配列を特定する工程と、を有している。
【0012】
前記の糖ペプチドタンデムマスデータの解析方法のうちの、糖分子同定工程、ピーク対抽出工程、最長M/Z距離特定工程、及び、ペプチド分子同定工程は、コンピュータシステムによって実現され得る。
【0013】
コンピュータシステムにそれらを実現させるためのプログラム及び当該プログラムを記録したコンピュータ読取り可能な記録媒体も、本件の保護対象である。
【0014】
ここで、記録媒体とは、フレキシブルディスク等の単体として認識できるものの他、各種信号を伝搬させるネットワークをも含む。
【発明を実施するための最良の形態】
【0015】
以下、本発明の実施の形態を、図面を参照して説明する。
【0016】
まず、本実施の形態で使用された被検査物質及び溶液について説明する。
【0017】
被検査物質としては、市販CEA(carcinoembryonic antigen)サンプルとして、以下の4種類が用いられた。
商品名:8CEA88(供給元 HyTest, Turku, Finland)
商品名:AG11P (供給元 Chemicon, Temecula, CA)
商品名:BA1117(供給元 Acris, Hiddenhausen, Germany)
商品名:C4835 (供給元 Sigma, Saint Louis, MO)
これらのサンプルが1mg/1mlの濃度に調整された。
【0018】
次に、それら溶液の各々の10μlについて、5MのUREAを10μl、1MのNHHCOを2.5μl、トリプシンを3.3μg加えた後、精製水にて50μlとした。
【0019】
そして、37℃で20時間消化反応させた後、アセトニトリル50μlを添加し、17400Gで10分間遠心し、上清を他のチューブに移し、スピードバックを用いて乾燥した。そして、0.1%蟻酸50μlで溶解して、測定用のサンプル(溶液)とした(図1:STEP1)。
【0020】
一方、超低流量液体クロマトグラフィーとして、nanoFrontiernLC(Hitachi,東京)が用いられた。そして、前記サンプルを10μl採って、300nl/minという超低流量で、0.1%蟻酸から0.1%蟻酸80%アセトニトリルまで、60分間かけて、連続濃度勾配を生成した(図1:STEP2)。その間に、各成分が分離溶出した(図1:STEP3)。
【0021】
各成分の質量分析には、QTOF Ultima(Waters, MA, USA)が用いられ、250〜1600M/Zまでの範囲で、スキャン時間を1秒として、セントロイド形式で、60分間測定が行われ、複数のマスデータが測定され、引き続いてタンデムマスデータが測定された(図1:STEP4)。
【0022】
本実施の形態では、同一のサンプルに基づくマスデータとタンデムマスデータを互いに相関させることで、データ補正が行われた(図1:STEP5)。
【0023】
本実施の形態において採用された、データ補正のために用いられる補正関数の求め方(アルゴリズム)については、特許文献1に詳細に説明されているので、ここではごく簡単な説明にとどめる。
【0024】
本実施の形態では、参照される側の(標準とされる)2次元データをA、補正対象となる2次元データをBとし、各保持時間におけるマススペクトル相関係数の和が最大になるような補正関数が導出される。
【0025】
まず、実行速度の向上と質量計測誤差に対しての冗長性の確保のため、各RT(保持時間)におけるマススペクトルのイオン強度が1m/z区間毎の代表値に変換される。
【0026】
次に、2つの2次元データA、Bのサイクル番号(各RTに対する昇順番号)を各軸とした2次元の格子座標を用いて、以下に説明するような動的アルゴリズムにより、最適対応位置を与える経路探索が行われる。
【0027】
本実施の形態の動的アルゴリズムは、一方の2次元データのnサイクル目における質量電荷比(マススペクトル)A(n)と、他方の2次元データのmサイクル目における質量電荷比B(n)と、の間のピアソン積率相関係数をR(A(n),B(m))とし、ギャップペナルティをgとし(典型的には、−0.5)、一方の2次元データの総サイクル数をNとし、他方の2次元データの総サイクル数をMとした時、2つの2次元データのサイクル番号を各軸とした2次元の格子座標L(i,j)を、
L(i,j)=max(L(i−1,j) +g、
L(i, j−1)+g、
L(i−1,j−1)+R(A(n),B(m)))
によって求める(i=1,・・・,N、j=1,・・・,M)。
【0028】
そして、最適対応位置に対応するように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=Vを始点として、
L=argmax(V),(V=Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))
で表される座標配列が決定される。
【0029】
更に、本実施の形態の動的アルゴリズムは、L=argmax(V)のうちで Vi+1 =V+(1,1)を満たす座標のみを抽出した後、座標系をサイクル番号からRTへ変換して、スプライン補完または多項式回帰により得られる曲線を補正関数とする。
【0030】
以上のアルゴリズムについて、図面を用いて説明すると、以下のようになる。
【0031】
図2に示すように、参照データ「A」に対して、対象データ「A」はY軸方向に歪んだ図形(データ列)である。この場合、本アルゴリズムは、f−1(y’)を求めるアルゴリズムに相当するものである。
【0032】
図3は、図2に対応して形成されたyとy’とを軸とする平面を示している。図3において、四角印を結んだ線が、この場合のy−y’対応位置を示す線である。本アルゴリズムは、このy−y’対応位置(経路)を求めるものである。
【0033】
図4は、図2及び図3の例に対応して、各格子点についてピアソン積率相関係数R(A(n),B(m))を求め、ギャップペナルティを−0.5として、実際に本アルゴリズムを用いてL(i,j)を求めていく過程を示している。
【0034】
全ての(i,j)に対するL(i,j)が求められたら、図5に示すように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=Vが始点として特定され、L=argmax(V),(V=Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))で表される座標配列が決定される。
【0035】
最後に、図6に示すように、L=argmax(V)のうちで Vi+1 =V+(1,1)を満たす座標のみを抽出した後、サイクル番号を保持時間に変換し、スプライン補完または多項式回帰により曲線を得る。当該曲線が求めるべき補正関数である。
【0036】
以上のようなアルゴリズムにより、本実施の形態において同一のサンプルから測定された複数のマスデータとその各々に対応する複数のタンデムマスデータを相関させることで、データ補正が行われた。
【0037】
以上のように補正された複数のタンデムマスデータに基づいて、質量電荷比データごとにインテンシティをカウントし、質量電荷比とインテンシティとの2次元グラフが作成された。(図1:STEP6、図7)。
【0038】
続いて、当該2次元グラフのうち、600M/Z以下の範囲について、糖分子量リスト(図8参照)と一致する糖分子量のスペクトルを抽出して(図9参照)、当該スペクトルに基づいて糖分子量が同定された(図1:STEP7((糖分子同定工程)))。
【0039】
具体的には、糖分子量リストと一致する糖分子量の各々のスペクトルが抽出されて、各々のインテンシティが実測インテンシティとして記憶される。一方で、質量電荷比データとインテンシティとの2次元グラフをランダムに所定数だけ(例えば10000回)生成して、各2次元グラフについて、糖分子量リストと一致する糖分子量の各々のスペクトルを抽出して、その各々のインテンシティが参照インテンシティとして記憶される。そして 糖分子量の各々について、10000個の参照インテンシティのうちで実測インテンシティより大きいものが100個以下である場合に、当該糖分子量の糖が含有されていたと判別される。
【0040】
本実施の形態では、商品名:8CEA88のCEAサンプルについて、図9に示す3種類の糖が含まれていたと判別された(M/Z=163のHex、M/Z=186のHexNAc、M/Z=204のHexNAc)。
【0041】
次に、前記2次元グラフのうち、600M/Z以上の範囲について、インテンシティのピーク間のM/Z距離が前記糖分子同定工程(STEP7)で得られた糖分子量から1を減じたもの(この場合、163−1=162、186−1=185、204−1=203)と等しいインテンシティのピークの対が、順次抽出されていく(図1:STEP8(ピーク対抽出工程)、図10)。
【0042】
そして、抽出されたピークの対について、連続的に連なるピークの対については繋げられ、もっとも長いM/Z距離(図7の場合、406M/Z)を包括するピークの対またはピークの対の群が特定される(図1:STEP9(最長M/Z距離特定工程)、図7)。
【0043】
そして、前記最長M/Z距離特定工程で特定されたピークの対またはピークの対の群について、最小のM/Zのピーク(図7の場合、959.51(M/Zは実際の分子量を電荷で割った値なので小数値である(実測される分子量自体が整数値ではない)。もっとも、小数点以下を省いて表記されることもある。)をペプチドイオン由来のスペクトルとみなし(分子量の同定)、当該スペクトルに基づいてペプチド配列が同定される(図1:STEP10(ペプチド分子同定工程))(図7の場合、「LQLSNDNR」が同定される)。
【0044】
具体的には、前記ペプチド分子同定工程では、ペプチドイオン由来のスペクトルとみなされたスペクトルに基づいて、当該最小のM/Zを分子量として同定し、この分子量を指定することによって、ペプチド配列同定ソフトウェアであるMascot等によって、同定結果が得られる。そして、得られた同定結果から、配列にAsn、Ser、Thrのいずれかが含まれる配列が特定され、ペプチド配列として採用される。
【0045】
その後の解析方法としては、すでに周知の方法が採用され得る。すなわち、観測/分析された質量データから、同定されたペプチド配列に基づくペプチド配列部の分子量が差し引かれ、その残りの分子量に適合する糖鎖の組合せが、手計算によって、あるいは、専用のソフトウェアによって、導出される(例えば、Hex=162.05、HexNAc=203.08、Fuc=146.06、NeuAc=291.05を用いて演算がなされる)。これにより、糖ペプチドの全体の分子構成を特定できる。
【0046】
図11は、2DICAL法(非特許文献1及び非特許文献2参照)を採用したマップとして、検出されたすべてのタンデムマスピークを描出すると共に、得られたペプチド配列及び糖鎖の組合せを矢印で描出したものである。このようなマップを用いれば、異なるCEAの糖鎖の変化を、より容易に目視によって認識できる。
【0047】
その他、図12及び図13は、図7と同様のグラフである(商品名:8CEA88のCEAサンプルに基づく)。図12の場合、ペプチド配列として、「NNSIVK」が同定され、図13の場合、ペプチド配列として、「NDTASYK」が同定される。
【0048】
なお、前記の方法のうち、糖分子同定工程、ピーク対抽出工程、最長M/Z距離特定工程、及び、ペプチド分子同定工程は、通常、各種のコンピュータシステムによって構成され得るデータ解析装置によって実施され得る。ここで、当該データ解析装置をコンピュータシステム上に実現させるためのプログラム及び当該プログラムを記録したコンピュータ読取り可能な記録媒体も、本件の保護対象である。
【0049】
さらに、データ解析装置が、コンピュータシステム上で動作するOS等のプログラム(第2のプログラム)によって実現される場合、当該OS等のプログラムを制御する各種命令を含むプログラム及び当該プログラムを記録した記録媒体も、本件の保護対象である。
【0050】
ここで、記録媒体とは、フレキシブルディスク等の単体として認識できるものの他、各種信号を伝搬させるネットワークをも含む。
【図面の簡単な説明】
【0051】
【図1】本発明の一実施の形態の概略を示すフロー図。
【図2】本発明の一実施の形態の動的アルゴリズムの概念を示す概略図。
【図3】本発明の一実施の形態の動的アルゴリズムの概念を示す概略図。
【図4】本発明の一実施の形態の動的アルゴリズムの作用を説明する概略図。
【図5】本発明の一実施の形態の動的アルゴリズムの作用を説明する概略図。
【図6】本発明の一実施の形態の動的アルゴリズムの作用を説明する概略図。
【図7】質量電荷比データとインテンシティとの2次元グラフの一例。
【図8】糖分子量リストの一例。
【図9】糖分子量のスペクトルの抽出について説明する図。
【図10】ピーク対の抽出について説明する図。
【図11】検出されたすべてのタンデムマスピークを描出すると共に、得られたペプチド配列及び糖鎖の組合せを矢印で描出した、2DICAL法を採用したマップ。
【図12】質量電荷比データとインテンシティとの2次元グラフの他の例。
【図13】質量電荷比データとインテンシティとの2次元グラフの更に他の例。

【特許請求の範囲】
【請求項1】
液体クロマトグラフィーに糖ペプチド入りの被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、
前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けた複数のマスデータ及び複数のタンデムマスデータを得る測定工程と、
前記複数のタンデムマスデータについて、質量電荷比データ毎にインテンシティをカウントし、質量電荷比データとインテンシティとの2次元グラフを得るグラフ化工程と、
前記2次元グラフのうち、600M/Z以下の範囲について、糖分子量リストと一致する糖分子量のスペクトルを抽出して、当該スペクトルに基づいて糖分子量を同定する糖分子同定工程と、
前記2次元グラフのうち、600M/Z以上の範囲について、インテンシティのピーク間のM/Z距離が前記糖分子同定工程で得られた糖分子量から1を減じたものと等しいインテンシティのピークの対を順次抽出していくピーク対抽出工程と、
前記ピーク対抽出工程で得られたピークの対について、連続的に連なるピークの対については繋げて、もっとも長いM/Z距離を包括するピークの対またはピークの対の群を特定する最長M/Z距離特定工程と、
前記最長M/Z距離特定工程で特定されたピークの対またはピークの対の群について、最小のM/Zのピークをペプチドイオン由来のスペクトルとみなし、当該スペクトルに基づいてペプチド配列を同定するペプチド分子同定工程と、
を備えたことを特徴とする糖ペプチドタンデムマスデータの解析方法。
【請求項2】
前記測定工程の後に、当該測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正する補正工程が実施される
ことを特徴とする請求項1に記載の糖ペプチドタンデムマスデータの解析方法。
【請求項3】
前記補正工程では、2つの2次元データのサイクル番号(保持時間に対する昇順番号)を各軸とした2次元の格子座標を用いて最適対応位置を探索する動的アルゴリズムが用いられるようになっている
ことを特徴とする請求項2に記載の糖ペプチドタンデムマスデータの解析方法。
【請求項4】
前記糖分子同定工程において、150〜400M/Zの範囲について、糖分子量リストと一致する糖分子スペクトルを抽出して、当該糖分子スペクトルに基づいて糖分子量を同定するようになっている
ことを特徴とする請求項1乃至3のいずれかに記載の糖ペプチドタンデムマスデータの解析方法。
【請求項5】
前記糖分子同定工程は、
糖分子量リストと一致する糖分子量の各々のスペクトルを抽出して、各々のインテンシティを実測インテンシティとして記憶する工程と、
質量電荷比データとインテンシティとの2次元グラフをランダムに所定数だけ生成して、各2次元グラフについて、糖分子量リストと一致する糖分子量の各々のスペクトルを抽出して、各々のインテンシティを参照インテンシティとして記憶する工程と、
糖分子量の各々について、実測インテンシティと所定数の参照インテンシティとの相対関係に基づいて、当該糖分子量の糖が含有されていたか否かを判別する工程と、
を有している
ことを特徴とする請求項1乃至4のいずれかに記載の糖ペプチドタンデムマスデータの解析方法。
【請求項6】
前記ペプチド分子同定工程は、
ペプチドイオン由来のスペクトルとみなされたスペクトルに基づいて、前記最小のM/Zを分子量として指定して、ペプチド配列同定ソフトウェアによって同定結果を得る工程と、
得られた同定結果から、配列にAsn、Ser、Thrのいずれかが含まれる配列を特定する工程と、
を有している
ことを特徴とする請求項1乃至5のいずれかに記載の糖ペプチドタンデムマスデータの解析方法。
【請求項7】
少なくとも1台のコンピュータを含むコンピュータシステムによって実行されて、前記コンピュータシステムに請求項1乃至6のいずれかに記載の糖ペプチドタンデムマスデータの解析方法のうちの、糖分子同定工程、ピーク対抽出工程、最長M/Z距離特定工程、及び、ペプチド分子同定工程を実現させるプログラム。
【請求項8】
少なくとも1台のコンピュータを含むコンピュータシステム上で動作する第2のプログラムを制御する命令が含まれており、
前記コンピュータシステムによって実行されて、前記第2のプログラムを制御して、前記コンピュータシステムに請求項1乃至6のいずれかに記載の糖ペプチドタンデムマスデータの解析方法のうちの、糖分子同定工程、ピーク対抽出工程、最長M/Z距離特定工程、及び、ペプチド分子同定工程を実現させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図12】
image rotate

【図13】
image rotate

【図11】
image rotate


【公開番号】特開2008−232650(P2008−232650A)
【公開日】平成20年10月2日(2008.10.2)
【国際特許分類】
【出願番号】特願2007−68651(P2007−68651)
【出願日】平成19年3月16日(2007.3.16)
【出願人】(803000056)財団法人ヒューマンサイエンス振興財団 (341)
【Fターム(参考)】