説明

ピークの抽出方法および該方法を実行するためのプログラム

【課題】 MS/MSスペクトルを用いたプロテオーム解析を効率的かつ的確に行うため、MS/MSスペクトルにおけるピークの抽出方法および該方法を実行するためのプログラムを提供する。
【解決手段】 本発明は、複数のピークを有するスペクトルにおけるピークの抽出方法であって、(1)前記スペクトルを取得する工程と、(2)前記複数のピークから、ピークの高さの最大値の所定の割合以上の値の高さを有するピークが、少なくとも二つ連続している場合、前記少なくとも二つのピークを一つのピーク群として検出する工程と、(3)各ピーク群からそれぞれ、重み付け平均により一つの代表的ピークを算出するセントロイド工程と、を含む抽出方法を開示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プロテオーム解析に利用される質量分析スペクトルの解析に係り、より詳細には、プロテオーム解析に利用されるMS/MSスペクトルにおけるピークの抽出方法および該方法を実行するためのプログラムに関する。
【背景技術】
【0002】
現在、ヒトのゲノム解析が終了し、ポストゲノム時代をむかえている。ここで、「ゲノム」とは、たとえば、人のすべての遺伝子と遺伝子間領域を含む、一つの細胞に含まれる全DNAのことである。このポストゲノム時代では、生体内の生体分子として重要であるタンパク質を分離同定し、さらに定量することが、ますます重要となってきている。とりわけ、病気の診断・治療技術の研究開発には、多数のタンパク質の機能を解明することが必要である。
【0003】
従来、細胞が発現するタンパク質のプロテオーム解析には、二次元電気泳動が用いられていた。ここで、「プロテオーム解析」とは、遺伝子情報と細胞内で複雑に相互作用している多様なタンパク質との関係を明らかにする解析のことをいう(たとえば、非特許文献1参照)。つまり、プロテオーム解析は、細胞を構成するすべてのタンパク質を網羅的に解析する手法をいう。
【0004】
前述の二次元電気泳動では、発現したタンパク質をゲル展開し、対象とするタンパク質に対応したスポットの切り出しにより、その種類を総合的に同定することを可能にするものである。そのため、二次元電気泳動はプロテオーム解析における有用な定性的解析手段である。しかし、展開されるタンパク質の量が僅少であり、分析時の回収率に誤差が生じやすいことに起因して、二次元電気泳動ではタンパク質の定量的解析には不向きであることが指摘されている。
【0005】
他方、もう一つの重要なタンパク質の解析技術として、質量分析法が利用されている。本方法は、質量分析装置を用いたタンパク質やペプチドの正確な質量を分析する方法である。この質量分析装置には、通例、タンパク質およびペプチドをイオン化する装置と、イオン化されたタンパクおよびペプチドの質量に応じて分離する質量分離部と、該質量を分析する質量分析計と、を備えている。そして、質量分析計とタンパク質のデータベース、およびそれらを結ぶ検索システムによって、今日では、タンパク質の同定は飛躍的に容易になったといえる。そのため、特定のタンパク質混合物(たとえば、ある複合体を形成するタンパク質複合体)を網羅的に同定することが可能である。
【0006】
現在、タンパク質混合物の同定は、通例、MS/MS法が利用される。このMS/MS法とは、複数の質量分析分離部を用い、試料中のタンパク質を第一の質量分離部(MS1)のイオン化室で生成したイオン種のうち一つを、前駆イオンの質量分析スペクトル(以下、「MSスペクトル」と称する場合もある。)として選択し、第二の質量分離部(MS2)にて、その前駆イオンに、アルゴンなどの不活性ガスと衝突させて断片化して生じるプロダクトイオンのスペクトルを検出して、タンパク質の解析を行う方法である。MS/SM法では、このプロダクトイオンのスペクトル(以下、「MS/MSスペクトル」と称する場合もある。)を測定し、NCBInr( HYPERLINK "http://www.ncbi.nlm.nih.gov/" http://www.ncbi.nlm.nih.gov/)等のデータベースとの照合の結果から総合的に判断してタンパク質を同定する。そして、試料中に複数のタンパク質が混在しても、一つ一つの前駆イオンからタンパク質が特定できるという利点を有する。
【0007】
図1は、タンパク質混合物の試料により得られるMSスペクトルおよびMS/MSスペクトルの概略図を示す。図1に示すように、MSスペクトルおよびMS/MSスペクトルは、二次元電気泳動の結果から切り出されたバンドに対してゲル内消化した試料を、質量分析装置にて測定されたスペクトル結果を示す。前述のMS1にて前記イオンのMSスペクトルを得て、次いで、各MSスペクトルについて、MS2にてプロダクトイオンのMS/MSスペクトルを得る。その後、得られたMS/MSスペクトルを、データベースと照合することによりタンパク質を同定することができる。図1に示す例では、タンパク質Aとタンパク質Bとの混合物であると同定できる。
【非特許文献1】Karn, P. Science 270, pp 369-370, 1995
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、実際に測定されるMS/MSスペクトルは、特に、測定対象とする試料に複数のタンパク質が混合されている場合には非常に複雑なスペクトルである。そのため、MS/MSスペクトルを用いたプロテオーム解析自体が効率的ではないという問題が指摘されている。
そこで、本発明は、上記事情に鑑み、MS/MSスペクトルを用いたプロテオーム解析を効率的かつ的確に行うため、MS/MSスペクトルにおけるピークの抽出方法および該方法を実行するためのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明者らは、上記課題を解決するため、鋭意検討した結果、複数のピークを有するMS/MSスペクトルにおいて、特定の関係式に基づくピーク抽出を行うことにより、効率的なプロテオーム解析を実現できるという知見を得て、本発明を完成するに至った。
【0010】
すなわち、第一の態様では、本発明は、複数のピークを有するスペクトルにおけるピークの抽出方法であって、(1)前記スペクトルを取得する工程と、
(2)前記複数のピークから、ピークの高さの最大値の所定の割合以上の値の高さを有するピークが、少なくとも二つ連続している場合、前記少なくとも二つのピークを一つのピーク群として検出する工程と、(3)各ピーク群からそれぞれ、重み付け平均により一つの代表的ピークを算出するセントロイド工程と、を含む抽出方法を提供する。かかる方法により、ノイズ等の不必要なピークを解析対象から排除し、解析対象とすべきピークを絞ることができ、効率的な解析が実現される。
【0011】
本発明に係る抽出方法の好ましい態様によれば、前記スペクトルは、生体分子に関連する、m/zに対して強度で表示されるMSスペクトルおよび/またはMS/MSスペクトルを含み、前記工程(3)における前記重み付け平均は、下記式に従い実行される。
【数1】

(ここで、mは生体分子の質量であり、zは生体分子の電荷であり、Iijおよびm/zijは、それぞれ、前記一つの代表的ピークの強度と、m/zの値であり、kは、ピーク群に含まれるm/zを特定する値であり、iからjの値が含まれ、ykは、m/zkに対する強度であり、h0はピーク強度の最大値を示し、aは前記所定の割合を示す。)
かかる式を用いることで、MS/MSスペクトルの解析が的確かつ迅速に行うことができる。
【0012】
本発明に係る抽出方法の好ましい態様によれば、(4)前記ピーク群に含まれる各ピークのm/zの値と、前記ピーク群の前後に隣接するピークのm/zの値とを用いて、隣接するピークのm/zの値の間隔の最小値に対する最大値の割合を算出し、該割合が所定の値を超える場合、そのピーク群を除去する工程をさらに含む。ピーク群の検出が正しいか否かの判断を行うことにより、より精度の高いピーク抽出方法が実現される。
【0013】
本発明に係る抽出方法の好ましい態様によれば、(5)各ピーク群ごとに算出された代表的ピークのm/zの値が特定の値以内にある複数の代表的ピークを一つのピークとするように、クラスタ処理する工程をさらに含み、前記特定の値は、生体分子の分子量に基づいて決定され、クラスタ処理後の前記一つのピークの強度は、クラスタ処理の対象となる代表的ピークの強度の総和として算出し、クラスタ処理後の前記一つのピークのm/zの値は、クラスタ処理の対象となる代表的ピークのm/zを、前記強度を重みとして加重平均して算出される。このようにして、解析対象とすべきピークを整理して、より効率的な解析が可能となる。
【0014】
本発明に係る抽出方法の好ましい態様によれば、一つのMS/MSスペクトルがスペクトルに関する一つのデータセットを有し、前記工程(1)にて複数のMS/MSスペクトルを取得する場合、前記工程(2)に先立ち、(a)各MS/MSスペクトルの前駆イオンのMSスペクトルのm/zの差が一定の範囲内にあり、かつ、各MS/MSスペクトルのデータセットの取得タイミングの差が一定の範囲内にある複数のデータセットを結合するマージ処理をする工程をさらに含む。このように、ピーク群の検出前に、MS/MSスペクトルのデータセットを調節することにより、効率的なピーク群の検出が可能となる。
【0015】
本発明に係る抽出方法の好ましい態様によれば、前記工程(a)の後に、前記工程(2)〜(4)を実行する。マージ処理後に前記工程(2)〜(4)を実行することで、ピーク抽出の効率化を図ることができる。
【0016】
また、第二の態様では、本発明は、[8]複数のピークを有するスペクトルにおけるピークの抽出方法を実行させるプログラムであって、(1)前記スペクトルを取得する工程と、(2)前記複数のピークから、ピークの高さの最大値の所定の割合以上の値の高さを有するピークが、少なくとも二つ連続している場合、前記少なくとも二つのピークを一つのピーク群として検出する工程と、(3)各ピーク群からそれぞれ、重み付け平均により一つの代表的ピークを算出するセントロイド工程と、を含む抽出方法を、コンピュータに実行させるプログラム、
[9]前記スペクトルは、生体分子に関連する、m/zに対して強度で表示されるMSスペクトルおよび/またはMS/MSスペクトルを含み、前記工程(3)における前記重み付け平均は、下記式に従い実行される、
【数1】

(ここで、mは生体分子の質量であり、zは生体分子の電荷であり、Iijおよびm/zijは、それぞれ、前記一つの代表的ピークの強度と、m/zの値であり、kは、ピーク群に含まれるm/zを特定する値であり、iからjの値が含まれ、ykは、m/zkに対する強度であり、h0はピーク強度の最大値を示し、aは前記所定の割合を示す。)
前記[8]に記載のプログラム、
[10](4)前記ピーク群に含まれる各ピークのm/zの値と、前記ピーク群の前後に隣接するピークのm/zの値とを用いて、隣接するピークのm/zの値の間隔の最小値に対する最大値の割合を算出し、該割合が所定の値を超える場合、そのピーク群を除去する工程をさらに、コンピュータに実行させる、前記[8]または[9]に記載のプログラム、
[11](5)各ピーク群ごとに算出された代表的ピークのm/zの値が特定の値以内にある複数の代表的ピークを一つのピークとするように、クラスタ処理する工程をさらに、コンピュータに実行させる、前記[8]ないし[10]のうち何れか一に記載のプログラム、
[12]前記特定の値は、生体分子の分子量に基づいて決定され、クラスタ処理後の前記一つのピークの強度は、クラスタ処理の対象となる代表的ピークの強度の総和として算出し、クラスタ処理後の前記一つのピークのm/zの値は、クラスタ処理の対象となる代表的ピークのm/zを、前記強度を重みとして加重平均して算出される、前記[11]に記載のプログラム、
[13]一つのMS/MSスペクトルがスペクトルに関する一つのデータセットを有し、前記工程(1)にて複数のMS/MSスペクトルを取得する場合、前記工程(2)に先立ち、(a)各MS/MSスペクトルの前駆イオンのMSスペクトルのm/zの差が一定の範囲内にあり、かつ、各MS/MSスペクトルのデータセットの取得タイミングの差が一定の範囲内にある複数のデータセットを結合するマージ処理をする工程をさらに、コンピュータに実行させる、前記[8]ないし[12]のうち何れか一に記載のプログラム、
「14」前記工程(a)の後に、前記工程(2)〜(4)をコンピュータに実行させる、前記[8]ないし[13]のうち何れか一に記載のプログラム、等を提供する。
【0017】
なお、本発明に係るプログラムは、本発明による抽出方法の各工程をコンピュータ上で実行させる。本発明に係るプログラムは、CD−ROM、磁気ディスク、半導体メモリなどの各種の記録媒体を通じて、または通信ネットワークを介してダウンロードすることにより、コンピュータにインストールまたはダウンロードすることができる。
【発明の効果】
【0018】
本発明によるピーク抽出方法および該方法を実行するプログラムによれば、質量分析スペクトルの解析を、より効率的に行うことができる。特に、本発明に係るピーク抽出方法は、Qq−TOFMS/MS装置において、ピーク抽出として優れている。
【発明を実施するための最良の形態】
【0019】
本発明の実施の形態について、図面を参照しつつ説明する。以下の実施形態は、本発明を説明するための例示であり、本発明をこの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱しない限り、さまざまな形態で実施することができる。
【0020】
図2は、本発明の対象とする複数のピークを有するスペクトルとして、生体分子、たとえば、タンパク質の質量分析スペクトルの一例を示す。図2に示すスペクトルは、MS/MSスペクトルであり、ノイズを含め、多くのピークを有するため、その後の解析が容易ではないこと予想される。
【0021】
図3は、本発明に係るピーク抽出方法を実行する装置10のハードウエア構成図を示す。図3に示すように、本発明にて用いる装置10は、CPU12とマウスやキーボードなどの入力装置14と、CRTなどから構成される表示装置16と、RAM(Random Access Memory)18、ROM(Read Only Memory)20と、CD−ROMやDVD−ROMなどの可搬式記録媒体23にアクセスする可搬式記録媒体ドライバ22と、ハードディスク装置24と、外部とのデータ授受を制御する通信制御インターフェース(I/F)26とを備える。本発明に用いる装置10は、入出力制御I/Fを介して、質量分析装置30に接続され、質量分析装置30にて得られたデータと、本発明に用いる装置10にて解析等されたデータとの通信を行うことができる。図3に示すように、本実施の形態に係る装置10としては、パーソナルコンピュータなどを利用することができる。
【0022】
なお、本発明に係るピーク抽出方法は、質量分析装置30にて得られたMS/MSスペクトルを例示して説明するが、本発明は、MS/MSスペクトルのみに限定されるものではない。
【0023】
本発明で用いる質量分析装置30としては、少なくとも2つの質量分離部を結合したタンデム型のMS/MS法を測定する装置などを挙げることができる。タンデム型のMS/MS法では、第一の質量分析装置と第二の質量分析装置との間に衝突室を設け、第一の質量分析装置における分解で生じた前駆イオンを不活性ガスと衝突させてプロダクトイオンを発生させる。
【0024】
具体的には、2台の質量分離部を例として説明すると、本発明の好ましい態様では、第一の質量分析装置の質量分離部をQフィルタ型にし、第二の質量分析装置の質量分離部にTOF型を配した、Qq−TOFMS/MS装置を利用する。なお、Qフィルタ型の質量分析装置は、平行に並べた4本の円柱電極を用いて、その間に直流電流と交流電流を印加して得られる四重極電場により、イオンを質量分離する方式の質量分析装置である。四重極にかける電圧を変動させてスキャンすることで質量分析スペクトルが得られ、電圧を固定することにより、特定のm/zの値のイオンだけを通過、いわゆるマスフィルタさせることができる。一方、TOF型の質量分析装置は、イオンのm/zの違いによって、イオンが一定の長さの真空分析管を通過するのに必要な時間が異なることを利用した、イオンを質量分離する方式の質量分析装置である。
【0025】
このようにして、本発明で用いる質量分析装置30にて得られたMS/MSスペクトルデータを、本発明で用いる装置10へ送り、所望の動作や解析等を行う。
【0026】
前述の可搬式記録媒体23には、本発明にて用いられるピーク抽出方法を実行するプログラム等が記憶されている。したがって、可搬式記録媒体ドライブ22が、可搬式記録媒体23から、上記プログラムを読み出し、これをハードディスク装置24に記憶して、これを起動することにより、パーソナルコンピュータが、本発明にて用いて装置10として作動することが可能となる。あるいは、インターネット等の外部ネットワークを介して、上記プログラムをダウンロードしてもよい。
【0027】
図4は、本発明による装置10の要部の機能ブロック図である。装置10は、質量分析装置30にて測定されたMSスペクトルおよび/またはMS/MSスペクトル等を取得する入出力部51と、前記MSスペクトルおよび/またはMS/MSスペクトルを保存するデータ記憶部52と、を備える。さらに、本発明に用いる装置10は、本発明に係るピーク抽出方法を実行するための、ピーク群検出部54、セントロイド処理部55、ピーク群除去部56と、クラスタ処理部57とを備える。本発明の好ましい態様では、前記装置10は、マージ処理部53とさらに備える。
【0028】
まず、本発明に用いる装置10では、質量分析装置30にて測定されたMSスペクトルおよび/またはMS/MSスペクトルを、入出力部51にて取得する。取得した各種のスペクトルデータを、必要に応じて、データ記憶部に保存し、後述する本発明に係るピーク抽出方法に利用できる。
【0029】
以下、本発明に係るピーク抽出方法を、MS/MSスペクトルデータを用いて説明する。通例、図2に例示したように、MS/MSスペクトルは、複数のピークを有する。そこで、本発明に係る抽出方法を行うことで、MS/MSスペクトルの効率的な抽出を行い、プロテオーム解析の的確性および迅速性に役立つ。
【0030】
図5は、本発明によるピーク抽出方法の概略を示すフローチャートを示す。図5に示すように、工程S10にて、質量分析装置30にて測定されたMSスペクトルおよび/またはMS/MSスペクトルを取得する。このように取得したスペクトルを、工程S11において、一定の規則に基づきピーク群検出部54にてピーク群検出を行う。次いで、検出された各ピーク群に対して、セントロイド処理部55にて、後述するセントロイド処理を行い、各ピーク群から代表的ピークを算出する(図5の工程S12参照)。その後、前述のピーク群検出の妥当性を評価するため、工程S13では、ピーク群除去部56にて、検出されたピーク群の前後のピークとの対比から不必要なピーク群を除去する工程を実行する。除去後に残ったピーク群に対して、ピーク群をさらに整理するため、各ピーク群ごとに算出されたm/zの値の値に基づいて、クラスタ処理部57にて各ピーク群ごとを集団化させるクラスタ処理を施し(工程S14参照)、効率的に解析対象とすべきピークを抽出する。本発明の好ましい態様では、図5では不図示であるが、工程S11に先立ち、後述するマージ処理を行うことが好ましい。以下では、各工程S10〜S14とマージ処理工程について詳述する。
【0031】
(ピーク群検出部54におけるピーク群検出工程)
ピーク群検出部54では、複数のピークを有するMS/MSスペクトルデータから、一定の関係式から、解析対象とすべき複数のピークを一つにまとめてピーク群を検出する工程である。図6は、本発明に係るピーク抽出方法におけるピーク群検出を説明する図であり、図2のA領域を拡大概略図である。図6に示すMS/MSスペクトルは、入出力部51で取得したMS/MSスペクトルであって、該スペクトルはx軸をm/zで、y軸は強度で表示されるスペクトルである。
【0032】
第一に、一つのMS/MSスペクトル中にて最大のピーク高さ(h0)、図6の例では最大の強度を有するピークを求める。第二に、該高さ、つまり強度の所定の割合以上の値の高さ(強度)を有するピークに着目する。ここで、最大のピークを基準にしたのは、ピークの中ではノイズ等の影響が最も少なく、ピーク自体に信頼性があると推測されるからである。また、所定の割合は、その後の解析の精度に鑑みるに、適宜選択可能な割合である。第三に、所定の割合以上の値の強度を有するピークが少なくとも二つ連続している場合、この少なくとも二つのピークを一つのピーク群として検出する。図6の例では、前記所定の割合を0.5として、P0で囲まれるピークを一つのピーク群として検出する。
【0033】
(セントロイド処理部55におけるセントロイド処理)
工程S12で示されるセントロイド処理は、前述のピーク群として検出されたものを一つの代表的ピークとして算出する処理である。S12工程では、ピーク群に含まれるx軸およびy軸の値から、ピーク群の代表的ピークの算出を、重み付け平均というセントロイド処理により行い、以降のスペクトル解析に利用する。本発明で用いる「セントロイド処理」は、下記式に基づき、ピーク群の代表的ピークを算出する処理である。
【数2】

(ここで、mは生体分子の質量であり、zは生体分子の電荷であり、Iijおよびm/zijは、それぞれ、前記一つの代表的ピークの強度と、m/zの値であり、kは、ピーク群に含まれるm/zを特定する値であり、iからjの値が含まれ、ykは、m/zkに対する強度であり、aは前記所定の割合を示し、図6および図7では0.5として表示されている。)
【0034】
式(1)は、y軸である強度の算出法であり、式(2)はx軸のm/zの算出法である。このようにして、各ピーク群に対してその代表的ピークを算出することができる。なお、y軸の強度は、ピーク群に含まれるピーク強度の総和であり、x軸のm/zは、ピーク群に含まれるm/zの加重平均の値となっている。また、本発明で用いるセントロイド処理は、前述のように、検出された各ピーク群から代表的ピークを算出する処理であればよく、前述の算出法は例示であり、式(1)および(2)の算出法に限定されるものではない。
【0035】
図7は、本発明に係るピーク抽出方法におけるセントロイド処理により算出された、ピーク群からの代表的ピーク算出の一例を示す。図7の例示から、工程S11にて検出された一つのピーク群に対するセントロイド処理の内容が容易に理解できる。具体的には、ピーク群P0の最大強度は22であり、前述のaの値を0.5とすると、m/z1〜m/z7の範囲のピーク強度は、最大強度の50%である11以上として連続する。そして、このm/z1〜m/z7の範囲のピーク強度を、座標S1〜S7で表示する。最大強度の50%である強度11を基準として縦軸に新たなv軸を作成し、m/z1〜m/z7の範囲のピーク強度を、再計算すると、v1=1、・・・、V7=6と再計算される(図7参照)。その後、v軸で表示される強度の総和I(P0)を算出し、m/z軸は加重平均することによりm/z(P0)が算出される。このようにして、本発明で用いるセントロイド処理により、検出されたピーク群の代表的ピークを算出することができる。
【0036】
(ピーク群除去部56におけるピーク除去処理)
前述にように、工程13は、検出されたピーク群の代表的ピークを算出した後、ピーク群の検出の妥当性を評価し、不必要なピーク群を除去する工程である。本発明では、検出されたピーク群に含まれる各ピークのm/zの値と、前記ピーク群の前後に隣接するピークのm/zの値とを用いて、ピーク除去処理を行う。
【0037】
図8は、本発明に係るピーク抽出方法におけるピーク除去工程を説明する図である。図8では、Pで表示されるピーク群に含まれる各ピークのm/zは、m/z1〜m/z4であり、かかるピーク群に含まれない、ピーク群の前後に隣接するピークのm/zは、m/z0とm/z5で表されている。そして、本発明では、ピーク除去の一例として、m/z0〜m/z5において隣接するm/zの値の間隔をdで表し、以下の式(3)により、ピーク群を除去するか否かの判断をする。
【数3】

(ここで、lは、各ピーク群に含まれるm/zの値と、前記各ピーク群の前後に隣接するm/zの値を表す。)
式(3)に基づき、前記dの値の最小値に対する最大値の割合εが、所定の値を超える場合、かかるピーク群Pは除去する。ここで、εの値が大きい場合とは、ピーク群に包含される各ピーク間隔が不規則であり、ピーク自体の信頼性が低いと予想されるため、かかるピーク群を除去する。εの値としては、その後の解析の精度に鑑みるに、適宜選択可能な割合である。かかるピーク群除去により、より精度の高いピーク抽出が可能となる。なお、本発明で用いるピーク群除去処理は、前述のように、ピーク群の検出の妥当性を評価し、不必要なピーク群を除去する処理をいい、前述の算出法は例示であり、式(3)の算出法に限定されるものではない。
【0038】
(クラスタ処理部57におけるクラスタ処理)
前述のピーク群除去処理により残った各ピーク群について、一定の関係にあるピーク群を集団化するクラスタ処理を行う。ここで、各ピーク群とは、たとえば、図2で示すA領域およびB領域においてピーク検出され、その後のピーク群除去処理により残ったピーク群である。また、一定の関係とは、各ピーク群の代表的ピークのm/zの値に基づいて行われ、本発明では、たとえば、代表的ピークのm/zの値の差が2Da(Da:生体分子の質量を表示するダルトンを意味する)の場合には、かかる各ピーク群の代表的ピークを一つのピークとなるように、クラスタ処理する。これは、代表的ピークが隣接していることは、MS/MSスペクトルの前駆イオンが同一または非常に近似していると考えられることから、クラスタ処理すること精度の高いピーク抽出を可能とする。
【0039】
本発明におけるクラスタ処理した場合、代表的ピークをクラスタ処理されたピークの強度と、m/zの値は、それぞれ、クラスタ処理の対象となった代表的ピーク強度の総和と、前記強度を重みとして加重平均して得られるm/zとして算出される。このようにして抽出されたピークを、前記代表的ピーク強度の総和と、前記強度を重みとして加重平均して得られるm/zの値を用いて、ピークリストとして表示することができる。なお、本発明で用いるクラスタ処理は、前述のように、代表的ピークを集団化させる処理であればよく、代表的ピークが隣接していることを示唆するパラメータならば、前駆イオンの性質に限定されるものではない。
【0040】
(マージ処理部53によるマージ処理)
本発明に係るピークの抽出方法の好ましい態様では、工程S11のピーク群検出の前に、以下に説明するマージ処理を行う。マージ処理とは、一つのMS/MSスペクトルがスペクトルに関する一つのデータセットを有し、複数のMS/MSスペクトルを取得した場合、
前述のピーク群検出前に、前記複数のMS/MSスペクトルの各々のデータセットを一定の条件下で結合する処理である。ここで用いる「データセット」とは、図2に示すMS/MSスペクトルについて、m/z軸と強度を座標として表示されたものであり、一つのMS/MSスペクトルに関する一つのデータセットとは、図2に示すMS/MSスペクトルを、前記座標で表示された一連のデータをいう。そのため、MS/MSスペクトルが異なれば、当然、MS/MSスペクトルが有するデータセットも異なる。
【0041】
本発明で用いる前述の一定の条件とは、各MS/MSスペクトルの前駆イオンに着目し、前駆イオンのm/zの値の差が一定の範囲内にあり、かつ、各MS/MSスペクトルのデータセットの取得タイミングの差が一定の範囲内にある場合に、データセットを結合する処理である。ここで、前駆イオンのm/zの値の差が一定の範囲内にあるとは、たとえば、その差がダルトンに基づく値が一定の範囲内であり、各MS/MSスペクトルのデータセットの取得タイミングの差が一定の範囲内にあるとは、たとえば、前駆イオンである親ピークを共通として、MS/MSスペクトルを取得した時間が一定の範囲内にあることをいう。このマージ処理を行うことで、MS/MSスペクトルの前駆イオンが共通するスペクトルを結合することにより、より効率的なピーク抽出が可能となる。なお、本発明で用いるマージ処理は、MS/MSスペクトルが生じる前の前駆イオンに基づいてMS/MSスペクトルを結合する処理であればよく、前述の前駆イオンのm/zの値の差やMS/MSスペクトルのデータセットの取得タイミングの差に基づく条件により行われる処理に限定されるものではない。
【0042】
工程S11におけるマージ処理の後、前述の工程S11〜S14を行うことで、より精度の高いピーク抽出が実現される。
【実施例】
【0043】
以下、実施例によって本発明を具体的に説明するが、これらは本発明の範囲を何等限定するものではない。
【0044】
1.細胞溶解物(cell lysate)の調製
136−ロイシン(Cambridge Isotope Laboratories、アンドーバ、マサチューセッツ州)を含有するRPMI-1640培地(Gibco BRL、グランドアイランド、ニューヨーク州)は、OngらのSILAC プロトコール(S.E. Ong, B. Blagoev, I. Kratchmarova, D.B. Kristensen, H. Steen, A. Pandey, M. Mann, Mol Cell Proteomics 1 (2002) 376.)に従って調製した。マウス神経芽細胞腫neuro2a細胞を、136−ロイシン標識のために、前記培地にて培養した。二つのディシュ(dish)(直径15cm、80% confluent)にプロテアーゼインヒビターカクテル(Roche Diagnostics社、バーゼル、スイス)を含むリン酸塩緩衝液を加えて掻きだし、超音波を利用してタンパク質を抽出した。
【0045】
2.LCMSMSのためのペプチド混合物の調製
細胞からのタンパク質を乾燥し、8M 尿素を含有した50 mM Tris-HCl 緩衝液(pH9.0)にて再懸濁させた。その後、これらの混合物を還元し、アルキル化し、Lys-C(和光、大阪、日本)により消化し、50 mM 炭酸水素アンモニウム水溶液で4倍に希釈した後トリプシン(プロメガ社、マディソン、ワイオミング州、米国)により消化した。消化溶液をTFAで酸性にし、脱塩し、C18-Stage Tips (J. Rappsilber, Y. Ishihama, M. Mann, Anal Chem 75 (2003) 663.)により濃縮した。
【0046】
3.ナノLC-MS/MS解析
Shimadzu LC10A グラディエントポンプと、HTC-PAL オートサンプラー(CTC Analytics AG、チューリンゲン、スイス)と、150 μm ポートを有するValco C2バルブとを備えるQSTAR Pulsar I (ABI/MDS-Sciex、トロント、カナダ)を利用して、すべてのサンプルをナノLC-MS/MSにより解析した。"stone-arch"frit(Y. Ishihama, J. Rappsilber, J.S. Andersen, M. Mann, J Chromatogr A 979 (2002) 233.)を備える解析カラムニードルを調製するため、窒素による圧力印加されたカラムローダセル(日京テクノス社製、東京、日本)により、self-pulled needle (100 μm ID, 6μm 開口、150 mm 長)へ、ReproSil C18充填剤(3μm, Dr. Maisch, Ammerbuch, ドイツ)を充填した。テフロン(登録商標)被覆カラムホルダ(日京テクノス社製、東京、日本)に磁石付Velco 金属コネクターに取り付けたカラムニードルを装着し、スプレー位置を調節可能なProxeon x-y-z nanospray インターフェース(Odense、デンマーク)に搭載した。注入体積は、3 μLであり、三方スプリッター後の流速は250 nL/minであった。移動相は、(A)0.5%酢酸と、(B)0.5%酢酸と80%アセトニトリルを用いた。グラジエント条件は、初期濃度をB5%とし、最初の5分間で5%から10%、次の60分間で10%から30%、続く5分間30%から100%と最後の10分間の100%というリニアーグラディエントを採用した。金属コネクターを介して2400 Vのスプレー電圧を印加した。MSスキャン(1秒)で、強度順に最大三つピークを選択し、その後、それぞれの親イオンに対しMSMSスキャンを、0.6秒ごとに実行した。Information Dependent Acquisition (IDA)機能は、先にスキャンした親ピークイオンを排除するように、3分間設定した。スキャン範囲は、m/z350・−・1400であった。
【0047】
図9は、本発明による実施例により得られた一つのMSスペクトル(図9(A))と、そのMSスペクトルから得られた一つのMS/MSスペクトル(図9(B))を示す。一方、図10は、本発明による実施例から得られた一つのMS/MSスペクトルのデータを、本発明に係るピーク抽出方法により解析した結果を示す。図10(A)は、本発明による実施例から得られた生データのピークのm/zの値に対する強度を示す。図10(B)は、図10(A)に示す結果から、本発明によりピーク群検出と、前記式(1)および(2)に従って、算出された代表的ピークを示す。なお、前記式(1)および(2)による本発明のセントロイド処理では、aを0.5(50%)として算出した。図10(C)は、図10(B)にて得られた結果から、前記式(3)に従って、ピーク群除去を行った結果を示す。なお、前記式(3)におけるεの値は2.9を採用した。
【0048】
最後に、図10(C)にて得られた結果から、本発明におけるクラスタ処理により、ピーク抽出を行った。図10(D)は、ピーク群除去され残ったピーク群である、図10(C)で得られた結果から、各ピーク群の代表的ピークのm/zの値の差が2Da以内である場合、その各ピーク群を一つのピーク群とするクラスタ処理後の結果を示す。なお、図10(D)に示す値は、代表的ピークをクラスタ処理されたピークの強度とm/zの値は、それぞれ、クラスタ処理の対象となった代表的ピーク強度の総和と、前記強度を重みとして加重平均して得られるm/zとして算出した。
【0049】
以上の結果より、本発明に係るピーク抽出方法およびそれをコンピュータに実行させるプログラムによれば、質量分析スペクトルにおける有用なピークを抽出することにより、質量分析スペクトルの解析のより効率的な実行を実現させることができる。
【図面の簡単な説明】
【0050】
【図1】図1は、タンパク質混合物の試料により得られるMSスペクトルおよびMSスペクトルの概略図を示す。
【図2】図2は、本発明の対象とする複数のピークを有するスペクトルとして、生体分子、たとえば、タンパク質の質量分析スペクトルの一例を示す。
【図3】図3は、本発明に係るピーク抽出方法を実行する装置10のハードウエア構成図を示す。
【図4】図4は、本発明による装置10の要部の機能ブロック図である。
【図5】図5は、本発明によるピーク抽出方法の概略を示すフローチャートを示す。
【図6】図6は、本発明に係るピーク抽出方法におけるピーク群検出を説明する図であり、図2のA領域を拡大概略図である。
【図7】図7は、本発明に係るピーク抽出方法におけるセントロイド処理により算出された、ピーク群からの代表的ピーク算出の一例を示す。
【図8】図8は、本発明に係るピーク抽出方法におけるピーク除去工程を説明する図である。
【図9】図9は、(A)本発明による実施例により得られた一つのMSスペクトル、(B)そのMSスペクトルから得られた一つのMS/MSスペクトルを示す。なお、図9(B)に示すMS/MSスペクトルは、前駆イオンのMSスペクトルのm/zの値が688.9であり、リテンションタイムが82.562分であるピークを、MS/MS処理して得られたMS/MSスペクトルである。
【図10】図10は、本発明による実施例から得られたMS/MSスペクトルのデータを、本発明によるピーク抽出方法により解析した結果を示す。図10(A)は、オリジナルのMS/MSスペクトルのデータを示す。図10(B)は、前記オリジナルのMS/MSスペクトルデータについて、本発明に係るピーク抽出方法におけるピーク群検出された代表的ピークの値の結果を示す。図10(C)は、図10(B)にて得られた結果から、前記式(3)に従って、ピーク群除去を行った結果を示す。図10(D)は、ピーク群除去され残ったピーク群である、図10(C)で得られた結果から、各ピーク群の代表的ピークのm/zの値の差が2Da以内である場合、その各ピーク群を一つのピーク群とするクラスタ処理後の結果を示す。
【符号の説明】
【0051】
10:本発明に係るピーク抽出方法を実行する装置、12:CPU、14:入力装置、16:表示装置、18:RAM、20:ROM、22:可搬式記録媒体ドライバ、23:可搬式記録媒体、24:ディスク装置、26:通信制御インターフェース、30:質量分析装置

【特許請求の範囲】
【請求項1】
複数のピークを有するスペクトルにおけるピークの抽出方法であって、
(1)前記スペクトルを取得する工程と、
(2)前記複数のピークから、ピークの高さの最大値の所定の割合以上の値の高さを有するピークが、少なくとも二つ連続している場合、前記少なくとも二つのピークを一つのピーク群として検出する工程と、
(3)各ピーク群からそれぞれ、重み付け平均により一つの代表的ピークを算出するセントロイド工程と、
を含む抽出方法。
【請求項2】
前記スペクトルは、生体分子に関連する、m/zに対して強度で表示されるMSスペクトルおよび/またはMS/MSスペクトルを含み、
前記工程(3)における前記重み付け平均は、下記式に従い実行される、
【数1】

(ここで、mは生体分子の質量であり、zは生体分子の電荷であり、Iijおよびm/zijは、それぞれ、前記一つの代表的ピークの強度と、m/zの値であり、kは、ピーク群に含まれるm/zを特定する値であり、iからjの値が含まれ、ykは、m/zkに対する強度であり、h0はピーク強度の最大値を示し、aは前記所定の割合を示す。)
請求項1に記載の抽出方法。
【請求項3】
(4)前記ピーク群に含まれる各ピークのm/zの値と、前記ピーク群の前後に隣接するピークのm/zの値とを用いて、隣接するピークのm/zの値の間隔の最小値に対すると最大値の割合を算出し、該割合が所定の値を超える場合、そのピーク群を除去する工程をさらに含む、請求項1または2に記載の抽出方法。
【請求項4】
(5)各ピーク群ごとに算出された代表的ピークのm/zの値が特定の値以内にある複数の代表的ピークを一つのピークとするように、クラスタ処理する工程をさらに含む、請求項1ないし3のうち何れか一項に記載の抽出方法。
【請求項5】
前記特定の値は、生体分子の分子量に基づいて決定され、クラスタ処理後の前記一つのピークの強度は、クラスタ処理の対象となる代表的ピークの強度の総和として算出し、クラスタ処理後の前記一つのピークのm/zの値は、クラスタ処理の対象となる代表的ピークのm/zを、前記強度を重みとして加重平均して算出される、請求項4に記載の抽出方法。
【請求項6】
一つのMS/MSスペクトルがスペクトルに関する一つのデータセットを有し、前記工程(1)にて複数のMS/MSスペクトルを取得する場合、前記工程(2)に先立ち、
(a)各MS/MSスペクトルの前駆イオンのMSスペクトルのm/zの差が一定の範囲内にあり、かつ、各MS/MSスペクトルのデータセットの取得タイミングの差が一定の範囲内にある複数のデータセットを結合するマージ処理をする工程をさらに含む、請求項1ないし5のうち何れか一項に記載の抽出方法。
【請求項7】
前記工程(a)の後に、前記工程(2)〜(4)を実行する、請求項1ないし6のうち何れか一項に記載の抽出方法。
【請求項8】
複数のピークを有するスペクトルにおけるピークの抽出方法を実行させるプログラムであって、
(1)前記スペクトルを取得する工程と、
(2)前記複数のピークから、ピークの高さの最大値の所定の割合以上の値の高さを有するピークが、少なくとも二つ連続している場合、前記少なくとも二つのピークを一つのピーク群として検出する工程と、
(3)各ピーク群からそれぞれ、重み付け平均により一つの代表的ピークを算出するセントロイド工程と、
を含む抽出方法を、コンピュータに実行させるプログラム。
【請求項9】
前記スペクトルは、生体分子に関連する、m/zに対して強度で表示されるMSスペクトルおよび/またはMS/MSスペクトルを含み、
前記工程(3)における前記重み付け平均は、下記式に従い実行される、
【数1】

(ここで、mは生体分子の質量であり、zは生体分子の電荷であり、Iijおよびm/zijは、それぞれ、前記一つの代表的ピークの強度と、m/zの値であり、kは、ピーク群に含まれるm/zを特定する値であり、iからjの値が含まれ、ykは、m/zkに対する強度であり、h0はピーク強度の最大値を示し、aは前記所定の割合を示す。)
請求項8に記載のプログラム。
【請求項10】
(4)前記ピーク群に含まれる各ピークのm/zの値と、前記各ピーク群の前後に隣接するピークのm/zの値とを用いて、隣接するピークのm/zの値の間隔の最小値に対する最大値の割合を算出し、該割合が所定の値を超える場合、そのピーク群を除去する工程をさらに、コンピュータに実行させる、請求項8または9に記載のプログラム。
【請求項11】
(5)各ピーク群ごとに算出された代表的ピークのm/zの値が特定の値以内にある複数の代表的ピークを一つのピークとするように、クラスタ処理する工程をさらに、コンピュータに実行させる、請求項8ないし10のうち何れか一項に記載のプログラム。
【請求項12】
前記特定の値は、生体分子の分子量に基づいて決定され、クラスタ処理後の前記一つのピークの強度は、クラスタ処理の対象となる代表的ピークの強度の総和として算出し、クラスタ処理後の前記一つのピークのm/zの値は、クラスタ処理の対象となる代表的ピークのm/zを、前記強度を重みとして加重平均して算出される、請求項11に記載のプログラム。
【請求項13】
一つのMS/MSスペクトルがスペクトルに関する一つのデータセットを有し、前記工程(1)にて複数のMS/MSスペクトルを取得する場合、前記工程(2)に先立ち、
(a)各MS/MSスペクトルの前駆イオンのMSスペクトルのm/zの差が一定の範囲内にあり、かつ、各MS/MSスペクトルのデータセットの取得タイミングの差が一定の範囲内にある複数のデータセットを結合するマージ処理をする工程をさらに、コンピュータに実行させる、請求項8ないし12のうち何れか一項に記載のプログラム。
【請求項14】
前記工程(a)の後に、前記工程(2)〜(4)をコンピュータに実行させる、請求項8ないし13のうち何れか一項に記載のプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2006−170710(P2006−170710A)
【公開日】平成18年6月29日(2006.6.29)
【国際特許分類】
【出願番号】特願2004−361561(P2004−361561)
【出願日】平成16年12月14日(2004.12.14)
【出願人】(599000980)三井情報開発株式会社 (3)
【出願人】(000000217)エーザイ株式会社 (102)