イオン化分子フラグメントを分類するための方法、装置、及びプログラム製品
【課題】解離スペクトルデータにおけるスペクトルピークを分類して、分子の配列決定における効率を改善する。
【解決手段】複数のスペクトルピークを含む解離スペクトルデータにアクセスするステップを含み、親分子が、複数の分子のサブユニットと、各々が複数の分子のサブユニットの第1のものと複数の分子のサブユニットの第2のものとを連結する複数の開裂場所とを含み、複数のスペクトルピークが、それぞれの複数のピーク強度と関連付けられており、複数のスペクトルピークの一部を、複数の頂点として表わすステップと、複数の重み付け縁を複数の頂点に割り当てるステップと、複数の重み付け縁に応じて、信頼重み付け分類を複数の頂点に適用するステップと、それぞれの複数のピーク強度を調整するステップと、それぞれの複数のピーク強度を提示するステップとを含むコンピュータにより制御される方法。
【解決手段】複数のスペクトルピークを含む解離スペクトルデータにアクセスするステップを含み、親分子が、複数の分子のサブユニットと、各々が複数の分子のサブユニットの第1のものと複数の分子のサブユニットの第2のものとを連結する複数の開裂場所とを含み、複数のスペクトルピークが、それぞれの複数のピーク強度と関連付けられており、複数のスペクトルピークの一部を、複数の頂点として表わすステップと、複数の重み付け縁を複数の頂点に割り当てるステップと、複数の重み付け縁に応じて、信頼重み付け分類を複数の頂点に適用するステップと、それぞれの複数のピーク強度を調整するステップと、それぞれの複数のピーク強度を提示するステップとを含むコンピュータにより制御される方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、イオン化分子フラグメントを分類するための方法、装置、及びプログラム製品に関する。
【背景技術】
【0002】
錯体分子を識別するのに用いることができる多数の技術がある。これらの技術の幾つかは、鎖体分子のフラグメントスペクトルを用いる。こうしたフラグメントスペクトルは、当該技術分野に周知のタンデム質量分析(「MS/MS」)技術により生成することができる。フラグメントスペクトルの分析は、鎖体分子を構成する分子のサブユニットの構造及び配列に対する糸口を与えることができる。
【0003】
理想的なスペクトルは、bイオン又はyイオンの完全な「ラダー」を含み、これにより、分子のサブユニットの配列又はその反転を簡単に読み取ることができる。したがって、候補となる配列の生成は、通常、ピークグラフにおける最長の(又は最高の)経路問題として示され、このピークグラフは、スペクトルにおける各々のピークについて頂点と、2つのピークが可能性のある分子のサブユニットの質量において異なる場合には、これらを連結する縁とを有する。開裂がないために、ピークグラフは、ピークではなく、小さい質量範囲に対応する頂点を用いることができ、及び/又は、一対の残留物の質量だけ異なる頂点間に縁を含むことができる。
【0004】
鎖体分子の構造を識別する1つの方法は、フラグメントスペクトルを考慮して、鎖体分子の候補となる配列を識別し、採点することである。1つの手法においては、候補となるものは、既知の分子のデータベースに見出すことができる。Yates,III他に付与された米国特許番号第5,538,897号は、鎖体分子がプロテイン又はペプチドである方法を教示する。この手法の困難さは、鎖体分子が以前に識別又は予測されており、かつその特性がデータベース内に格納されている必要があることである。すなわち、以前に特徴付けされずに、データベースに入力された鎖体分子のフラグメントスペクトルは識別されない。
【0005】
鎖体分子の構造を識別する別の方法は、de novo配列決定手法を用いることである。この手法を用いてペプチド又はプロテインを配列決定する方法は、Townsend他に付与された米国特許番号第6,582,965号により開示される。de novo配列決定手法においては、この方法は、フラグメントスペクトルと一致するとすることができる分子のサブユニットのすべての可能性のある配列を生成することを試みる。プロテイン及びペプチドのde novo配列決定手法における1つの問題は、どちらのピークがyイオン(c終端フラグメント)で、どちらのピークがbイオン(n終端フラグメント)であるかを判断するのが困難であることである。「b/y多義性」という用語は、この困難さを示す。この困難さは、フラグメントスペクトルが、ノイズ(親分子のフラグメントではないイオン)に対するスペクトルピーク、並びに、信号(親分子のフラグメントであるイオン)に対するスペクトルピークを含むため悪化する。フラグメントスペクトルにおけるノイズは、鎖体分子をフラグメントスペクトルから正確に配列決定する可能性を減少させる。
【0006】
さらに、ペプチドのスペクトルがbイオン又はイオンの完全なラダーを有することは非常に稀であり、したがって、殆どのシーケンサは、2つの種類の混合物からラダーを形成することを試みる。Lutefisk(Taylor他によるImplementation anduUses of Automated De Novo Peptide Sequencing by Tandem Mass Spectrometry(Anal.Chem.,73(2001),2594−2604)を参照されたい)は、一方を観察された質量に、他方を相補的な質量にするように、各々のピークを2つの頂点にする。こうした相補性は、事実上、多くのノイズピークを加えること、及び、単一のピークをbイオン及びyイオンの両方として用いることを可能にするという2つの欠点を有する。Chen他によるA Dynamic Programming Approach to De Novo Peptide Sequencing by Mass Spectrometry(J.Computational Biology,8(2001),325−337)という表題の論文は、単一のピークからの両方の頂点の同時使用を可能にしない最長経路アルゴリズムにより、どのように後者の欠点を修正するかを示す。Ma他によるAn Effective Algorithm for the Peptide De Novo Sequencing from MS/MS Spectrum(Symp.Comb.Patter Matching,2003,266−278)という表題の論文は、両方の頂点の同時使用を可能にするが、ピークを2度採点することはないという、より微妙な修正を教示する。しかし、これらの解決法のいずれも、ノイズピークの数が2倍になるという、より大きな欠点を対処するものではない。
【0007】
Lubeck他によるNew Computational Approaches forDe Novo Peptide Sequencing from MS/MS Experiments(Proc.IEEEV 90,(2002),1868−1874)という表題の論文は、最長経路アルゴリズムを稼動させる前に、ピークをb、y、又は「他」として分類する理念を提案した。最長経路アルゴリズムは、ピークの分類を用い、すべてのピークを相補することを避ける。Lubeckはアルゴリズム又は結果を開示していない。
【0008】
Day他によるPPM−Chain−DeNovo Peptide Identification Program Comparable in Performance to Sequest(Proc.IEEE Computational Systems Bioinformatics,2004,505−508)という表題の論文は、独立して、ピークの分類を提案し(最長経路アルゴリズムに付加するものとしてではなく、代替的手法として)、b/y対及び各ピークの周りの「中立損失近傍」(約30ダルトン)に合わせた分類器を作った。
【0009】
Yan他によるSeparation of Ion Types in Tandem Mass Spectrometry Data Interpretation−A Graph−Theoric Approach(Proc.IEEE Computational Systems Bioinformatics,2004,236−244)という表題の論文は、同じ理念を開示し、分類の問題をグラフ3分割問題として示した。彼らは、問題に対する正しい解決法として指数関数的時間アルゴリズムを開示した。
【発明の開示】
【課題を解決するための手段】
【0010】
したがって、フラグメントスペクトルにおいてノイズを増加させることなく、分類の信頼のための重み付けをもつ、フラグメントスペクトルにおけるスペクトルピークをbイオン及びyイオンとして分類することができ、Yan他によるものほど計算を要求しないアルゴリズムを用いる方法を見出すことが有利になる。
【発明を実施するための最良の形態】
【0011】
以下の「表記及び専門語」は、提示される技術及びその実施形態の理解を助けるために与えられる。
【0012】
プラグラムされたルーチン又は機能−プログラムされたルーチン又はプログラムされた機能は、パラメータにより又はパラメータなしで呼び出すことができ、あらゆる与えられたパラメータ、アクセス可能状態、及び/又は、アクセス可能データに応答して設計された動作を実行する、あらゆるプログラミング方法における一連のプログラムコードである。プラグラムされたルーチン又は機能は、多目的CPU又は他の電子機器により処理される命令とすることができる。プログラムされた機能は、一般に、値を戻す。プログラムされたルーチン又は機能は、多くの場合、指定された動作を実行するように設計され、デジタル値、アナログ値のいずれか、又はデジタル値及びアナログ値の組み合わせをもつ結果値を与えることができる電子機器において実行することができる。
【0013】
提示する、提示される、提示されるべき−ここで述べられる技術の実施形態の動作結果は、実施形態により「提示される」ことができる。このことは、技術を用いることにより識別されるスペクトルピークをもつスペクトルの表現を格納すること、又は、こうしたスペクトルからデータを表示すること、技術を用いることにより識別される分子配列を表示又は格納すること、表現される又は技術を用いることにより引き出されたデータを、別のシステム(例えば、有形格納装置のようなコンピュータ使用可能データキャリア又はネットワークを用いることにより、及び/又は、遠隔手順呼び出しプロトコルを用いてコンピュータに)、別の手順、及び/又は、プログラムされたルーチンに送ることを含むことができる。
【0014】
手順−手順は、望ましい結果をもたらすコンピュータ化されたステップの首尾一貫したシーケンスである。これらのステップは、1つ又はそれ以上のコンピュータ命令により定義することができる。これらのステップは、ステップを定義する命令を実行するコンピュータにより実行することができる。すなわち、「手順」という用語は、(例えば、限定されるものではないが、)命令のシーケンス、プログラムされた手順或いはプログラムされた機能において系統化された一連の命令、又は、1つ又はそれ以上のコンピュータにおいて実行されるプログラムされたプロセスにおいて系統化された一連の命令を指すことができる。こうした手順は、さらに、ステップを実行する特定の回路において直接実施することができる。
【0015】
発明者は、解離スペクトルデータにおいてスペクトルピークを分類し、これによって、分子を配列決定する際の効率を向上させる装置、方法、及びプログラム製品を開発した。このことは、親分子のフラグメントを表わすスペクトルピークを含む解離スペクトルデータにアクセスすることにより達成される。親分子は、分子のサブユニットと、開裂場所とを含み、開裂場所の各々は、分子のサブユニットの第1のものと、分子のサブユニットの第2のものとを連結する。スペクトルピークは、ピーク強度と関連付けられる。スペクトルピークの幾つかは、対応する頂点により表わされるように選択される。重み付け縁は、対応する頂点に割り当てられ、次いで、重み付け縁に応じて、信頼重み付け分類が、対応する頂点に適用される。頂点が分類されると、分類に応じて、ピーク強度を調整し、ピーク強度を提示することができる。
【0016】
発明者は、de novo分析を改善するのに、ピークをbイオン、yイオン、及び「他」として分類する必要がないことを実現した。最長経路アルゴリズムと併せて分類を用いる場合には、一方の群がすべてのbイオンを含み、他方がすべてのyイオンを含むようにピークを2つの群に分割するという、より容易な問題を解決するだけで十分である。このような二区分化は、一方の群が補完されて(親イオン質量から減算されて)、これにより、ノイズピークの数を2倍にすることなく、ピークのb/y多義性を除去することを可能にする。発明者は、スペクトルグラフ区分化、多項時間アルゴリズムをこの二区分化問題に適用する。指数関数的時間アルゴリズムの代わりに、多項時間アルゴリズムを用いることにより、より多くの複雑なスペクトルを分類することができる。
【0017】
図1は、分子配列決定システム100の動作を示す。こうしたシステムにおいては、化学物質サンプル101を、解離スペクトル105(図3を参照されたい)を生成するタンデム質量分光計103に入力する。解離スペクトル105は、任意的なスペクトルフィルタ107によりフィルタ処理して、高品質スペクトルをde novoシーケンサ109に送り、このシーケンサは、解離スペクトル105を処理して、提示することができる化学物質サンプル101の化学物質のサブユニット111の可能性のある配列を求める。
【0018】
図2は、開示される技術を組み込むことができるコンピュータシステム200を示す。コンピュータシステム200は、CPU203、メモリ205、及び幾つかの実施形態においてはネットワークインターフェース207を組み込むコンピュータ201を含む。ネットワークインターフェース207は、コンピュータ201にネットワーク209に対するアクセスを与える。コンピュータ201は、さらに、ユーザインターフェース装置213、格納システム215、及び除去可能データ装置217に接続することができるI/Oインターフェース211を含む。除去可能データ装置217は、典型的にはプログラム製品221を含む有形のコンピュータ使用可能データキャリア219を読み取ることができる。格納システム215(除去可能データ装置217と併せて)、有形のコンピュータ使用可能データキャリア219、及びいずれのネットワークファイル格納部も、ファイル格納機構を含む。有形のコンピュータ使用可能データキャリア219は、コンピュータシステム200内のROM、置き換え可能ROM、メモリスティック、CD、フロッピー(登録商標)、DVD、又は他の有形媒体のいずれかとすることができる。有形のコンピュータ使用可能データキャリア219からアクセスされるプログラム製品221は、一般に、CPUに、ここに述べられるプロセス並びに他のプロセスを実行させるように命令するプログラム223としてメモリ205に読み込まれる。さらに、プログラム製品221は、ネットワークインターフェース207によりネットワーク(一般に、光、無線、及び電子信号方式を含む、電磁搬送波内でエンコードされる)から与えることができる。当業者であれば、ネットワーク209は、別のコンピュータ使用可能データキャリアであることを理解するであろう。
【0019】
タンデム質量分光計225は、I/Oインターフェース211と直接通信状態とすることができ、解離スペクトルデータを直接コンピュータ201に与えることができる(例えば、USB、FireWire(登録商標)又はカスタム接続を用いることにより)。さらに、タンデム質量分光計225は、解離スペクトルデータをネット209上で与えることができ、又は、有形のコンピュータ使用可能データキャリア219により与えることができる。
【0020】
図3は、m/zにおけるx方向軸301と強度303におけるy方向軸でプロットされた親分子の例示的なタンデム質量分光計解離スペクトル300を示す。親分子は、一般に、開裂場所により接続された多数の分子のサブユニットを含む。タンデム質量分光計は、一般に、開裂場所のいずれかにおいて、親分子の多くを少なくとも2つのフラグメントに解離する。解離スペクトルデータは、同様なm/zを有する、生成されたフラグメントの数を示す。m/zにおけるx方向軸301上のスペクトルピークの位置は、単独で帯電されたイオンの質量を表わす。強度という用語は、スペクトルピークの高さ又は区域を指す。スペクトルピークの強度は、親分子がどれくらいの頻度で特定の開裂場所においてフラグメント化されたかを示す。スペクトルピークのm/z、強度、構造、及び形状は、スペクトルピークの特性の幾つかである。
【0021】
タンデム質量分光計は、多くの場合、選択された高いスペクトルピークについてのm/zのようなスペクトルピークの注釈情報を与える。さらに、二重に帯電された親分子を検出することができる。前述のように、この表現における1つの困難さは、解離(又はフラグメント)スペクトルピークからノイズピークを求めることが非常に困難であることである。ペプチド及びプロテインの場合においては、どのスペクトルピークがbイオン、yイオン、aイオン、又はノイズを示すかを判断することが非常に困難である。プロテイン及び/又はペプチドの配列決定における非常に重要な問題の1つは、スペクトルピークがyイオン、bイオン、又はノイズを表わすかどうかを判断することである。
【0022】
図4は、de novoシーケンサ109として又はこれにより用いて、親分子を構成する分子のサブユニットの1つ又はそれ以上の可能性のある配列を求めることができる分子フラグメント分類プロセス400を示す。分子フラグメント分類プロセス400は、「開始」ターミナル401で始まり、解離スペクトルデータにアクセスする「解離スペクトルデータにアクセスする」手順403に続く。解離スペクトルデータは、格納システム215、ネットワーク209、有形のコンピュータ使用可能データキャリア219からアクセスすることができ、或いは、直接、タンデム質量分光計から、又は、他のデータアクセス技術又は科学技術のいずれかによりアクセスすることができる。解離スペクトルデータは、スペクトルピークを含む。スペクトルピークは、最初はイオン係数に関連するが、後に続く計算に応じて変更することができる強度を有する。
【0023】
親分子は、プロテイン、ペプチド、脂質、ポリマー(単一のモノマー、又は、多数のモノマーで構成された)、グリカンなどとすることができる。この説明の残りの殆どは、ペプチド及びアミノ酸の内容に充てられる。ここで教示される技術は、開裂場所により連結された分子のサブユニットを有する他の分子に適用することができる。
【0024】
解離スペクトルデータがアクセスされると、「ランキング及び重み付け縁をスペクトルピークに割り当てる」手順405が解離スペクトルデータを処理して、スペクトルピークのm/z(質量)及び強度を識別し、関連のスペクトルピークを選択し、スペクトルピークを強度順にランク付けする(irank)。当業者であれば、解離スペクトルデータにおけるスペクトルピークデータは、一般に、直接操作されるものではなく、むしろ、スペクトルピークの特性が解離スペクトルデータから取得されて、スペクトルピークの特性を表わすデータ構造(ここでは、多くの場合、頂点と呼ばれる)において値を確立するのに用いられることを理解するであろう。
【0025】
「ランキング及び重み付け縁をスペクトルピークに割り当てる」手順405は、さらに、スペクトルピークを表わす頂点間に重み付け縁を確立するばねシステムと呼ばれるデータ構造を初期化する。幾つかの実施形態は、人為的な頂点をアレイに挿入して、人為的なピークとスペクトルピークの頂点の幾つか又は全てとの間に重み付け縁を与えることができる。「ランキング及び重み付け縁をスペクトルピークに割り当てる」手順405により生成されたアレイは、物理的なばねシステムと類似しており、ここでは、ピークの強度が質量と類似し、重み付け縁が、重み付け縁により連結されるピーク間に反発力/引力を与えるばねに類似する。発明者は、これは、ばねシステムを解離スペクトルデータに適用する初めてのものであると信じている。「ランキング及び重み付け縁をスペクトルピークに割り当てる」手順405は、次いで、図5に関して述べられる。
【0026】
ばねシステムデータ構造が生成されると、「信頼重み付け分類をスペクトルピークに適用する」手順407が、信頼重み付け分類プロセスをデータ構造により表わされるばねシステムに適用する。これにより、二次元の固有空間を確立する2つの固有ベクトルが生成される。スペクトルピークを表わす頂点は、固有空間に突出して、ラインに適合するように用いられる。幾つかの実施形態においては、第1のラインに直交する第2のラインを用いて、固有空間を区分することができる。したがって、解離スペクトルデータから選択されたスペクトルピークは、選択されたピークを表わす頂点間の重み付け縁に応じて、2つ又はそれ以上の分類に分類することができる。
【0027】
当業者であれば、頂点の分類は、スペクトルピークと人為的なピークとを表わす頂点の間の距離を求めることにより達成されることを信じることができるが、こうした当業者は、(例えば、図7に関連付けられる)ここで述べられる開示を読み、理解した後、代わりにスペクトルピークを区分化することは、固有空間内の頂点の突出に応じた固有空間の区分化によって決まることを理解するであろう。
【0028】
次いで、「スペクトルピーク強度を調整する」手順409が、「信頼重み付け分類をスペクトルピークに適用する」手順407の結果に応じて、幾つかの実施形態においては、スペクトルピークの強度ランキングに応じて、スペクトルピークを調整する。頂点におけるスペクトルピーク強度が調整されると、任意的な「分子のサブユニットの可能性のある配列を求める」手順411を、調整されたスペクトルピーク強度に適用して、親分子の質量及び解離スペクトルデータと一致する分子のサブユニットの可能性のある配列を生成することができる。さらに、又は、別に、任意的な「スペクトルを再生成する」手順412が、調整されたピーク強度に基づいて、帯電上質量スペクトルを再生成することができ、これは次いで、他の配列決定プロセスにより用いることができる。任意的な「分子のサブユニットの可能性のある配列を求める」手順411、又は、任意的な「スペクトルを再生成する」手順412(存在する場合に)のどの組み合わせが用いられるかに係らず、「データを提示する」手順413を用いて、調整されたピーク強度、頂点の分類、調整された解離スペクトルデータ、及び/又は、他の配列決定プログラムによる後に続く処理のための任意的なプロセスの結果を提示し、結果を格納し、表示し、或いは別の方法により提示し、又は、分子のサブユニットの配列決定の結果を提示することができる。当業者であれば、こうしたシーケンサは、親分子について分子のサブユニットの1つより多い可能性のある配列を生成できることを理解するであろう。当業者は、さらに、調整された解離スペクトルデータは、頂点の特性から生成できることを理解するであろう。
【0029】
分子フラグメント分類プロセス400は、「終了」ターミナル415により完了する。当業者であれば、別のスペクトルは、分子フラグメント分類プロセス400を再開することにより処理できることを理解するであろう。
【0030】
図5は、図4の「ランキング及び重み付け縁をスペクトルピークに割り当てる」手順405の一実施形態である「ばねシステム初期化」プロセス500を示す。「ばねシステム初期化」プロセス500は、「解離スペクトルデータにアクセスする」手順403によりアクセスされたデータから引き出されたスペクトルデータ特性において動作する。「ばねシステム初期化」プロセス500は、さらに、相補的な対に見えるスペクトルピークを用いて、親イオンの質量を推定する「親イオン質量を推定する」手順503を含むことができる。この推定は、スペクトルデータにおいて与えられたデータからタンデム質量分光計により求められる鎖体分子の公称質量を特定すること、スペクトルピークの対を合計すること、及び、スペクトルピークの対の合計が公称質量の許容範囲内にある場合には、そのスペクトルピークの対の合計を累積することを含む。すべての関連するスペクトルピークの対の合計が累積されると、統計的分析が累積されたスペクトルピークの対の合計に遂行されて、鎖体分子の質量が推定される。
【0031】
「ばねシステム頂点についてのスペクトルピークを選択する」手順505は、(同様なm/zのものに対して)高強度を有し、同位体、二重に帯電された、又は、水損失の結果には見えないスペクトルデータからスペクトルピークを選択する(近傍のスペクトルピークとのスペクトルピークの質量及び強度の関係により求められる)。
【0032】
「ばねシステムを初期化する」手順507は、十分なメモリを配分して、「ばねシステム頂点についてのスペクトルピークを選択する」手順505により選択されるスペクトルピーク、並びに、ばねシステムにおいて用いられる人為的な頂点のいずれかを表わす頂点間のばねシステムを表わす。「重み付け縁を隣接する頂点間に割り当てる」手順509は、後で図9及び図10に関して述べられるように、重み付け縁を頂点間に割り当てる。
【0033】
図6は、(スペクトルクラスタ処理アルゴリズムのような)信頼重み付け分類プロセスを、「ばねシステムを初期化する」手順507により初期化されたばねシステムに適用する「信頼重み付け分類を適用する」プロセス600を示す。「固有空間を生成する」手順603は、ばねシステムについての最小固有値に対応して、第1の2つの固有ベクトルを求める。第1の固有ベクトルは、
によるばねシステムの潜在エネルギを最小にする際の最小二乗問題に対する解決法であり、ここで、Aは縁重み付けのマトリックス、DはAの入力項目の絶対値の行の合計を含む対角マトリックスである。
【0034】
第2の固有ベクトルは、ばねシステムの振動モードである。一実施形態においては、発明者は、第1及び第2の固有ベクトルを用いて、ばねシステムを表わす二次元の固有空間Rを確立する。「頂点を固有空間に突出させる」手順605は、次いで、ばねシステムの頂点をRにマップする。次いで、例えば、最小二乗適合を用いて、参照ラインLをRにおける頂点に適合させ、次いで、区分ラインとしてRの起点を通る、Lに直交するラインPを用いる。次いで、区分ラインとしてRの起点を通る、Lに直交するラインPを用いて、参照ラインLをRにおける頂点に適合させる。例示的なRを図11に示す。
【0035】
区分ラインPが確立されると、任意的な「固有空間を区分することにより頂点を群分けする」手順607が、ラインPのどちら側に頂点が入るかに応じて、Rにおける頂点を2つの群(例えば、群S及び群T)に分類することができる。ペプチドのスペクトルにおいては、同じ群の頂点は、同じ種類になる傾向がある(例えば、bイオン又はyイオン)。頂点は、S群及びT群に分けられるが、どちらの群がyイオンを含み、どちらの群がbイオンを含むかは分からない。(例えば、配列グリカンのような)幾つかの実施形態においては、参照ラインLに対する頂点のランクは、配列決定を助けるのに十分とすることができるため、固有空間は区分する必要がない。
【0036】
図7は、「スペクトルピーク強度を調整する」手順409の一実施形態とすることができる「スペクトルピーク強度を調整する」プロセス700を示す。「スペクトルピーク強度を調整する」プロセス700は、まず、「1つの群についての質量を補完する」手順701を適用して、頂点の質量を、親分子の質量から減算することにより(任意的には、適切な反応質量損失/利得のいずれかについて調整することにより)、群の1つにおける各々の頂点を補完する。このように、Sを補完してS’を生成することができる。S’を得ると、「適合に関して頂点をランク付けする」手順703が、ラインLに関して頂点をランク付けする(ラインLに沿って突出する頂点の位置であるlrank)。次いで、「スペクトルピークを再び重み付けする」手順705が、強度ランク(irank)及びlrankに応じて、スペクトルピークを再び重み付けする。
【0037】
(スペクトルが、多くの場合、例えば、yイオン及びその他、又はbイオン及びその他のような2つの分類しかもたない)プロテイン及びペプチド分析においては、「適合に関して頂点をランク付けする」手順703が、最大lrankを、Lのポジティブ側における頂点からもたらされる最大lrankのそれに制限する。親分子の他の種類は、この制約を必要としないとすることができる。
【0038】
プロテイン及びペプチド分析においては、多くの場合、yイオンが好ましい。したがって、付加的な情報は、ばねシステムにおける人為的なB頂点及びY頂点を含むことにより生成することができる。人為的なB頂点を含む固有空間の半分は、恐らくbイオンを含む半分であり、人為的なY頂点を含む固有空間の半分は、恐らくyイオンを含む半分である。人為的なB頂点及び人為的なY頂点が同じ固有空間で終わる場合には、区分ラインPから頂点への距離を求めて、関係を破断することができる。発明者は、この方法は、時間の少なくとも70%において、bイオン及びyイオンを正確に識別することを確認した。これがb/y多義性問題を解決する高い可能性を与えるが、一実施形態は、依然として、すべての可能性のある配列を捕捉するために、S及びYの「yイオンの半分」及び「bイオンの半分」の両方の割り当てを試行する。
【0039】
次いで、「ピークグラフを構築する」手順707が、S’及びTにおける頂点からピークグラフを作成し、2つのピーク間の縁は、1つ又は2つのアミノ酸残留物の質量だけ異なる(大きいアミノ酸質量は、最初と最後の間隙を考慮に入れたものである)。ピークグラフは、表示のために格納部に提示されてもよいし、又は、後に続く処理のために別の手順に提示してもよい。
【0040】
図8は、「ピークグラフを構築する」手順707により生成されたピークグラフを用いて、親分子の可能性のある配列を求めることができる「分子のサブユニットの可能性のある配列を求める」プロセス800を示す。「ピークグラフにおける最長経路を計算する」手順801は、ピークフラフにおける最長経路を求めるための周知の技術を用いる。最長経路が求められると、「候補となる配列を生成する」手順803が、経路を、鎖体分子の候補となる配列に変換する。後に続く採点手順(図示せず)は、配列が親分子について正確である可能性に関して、候補となる配列をランク付けする技術を用いることができる。一実施形態においては、少なくとも6つの配列が生成される。これらの6つの配列は、1)Sをyイオンとして用い、配列がRにおいて終了すること、2)Sをyイオンとして用い、配列がKにおいて終了すると仮定すること、3)Sをyイオンをとして用い、配列が未知の文字において終了すると仮定すること、4)Tをyイオンとして用い、配列がRにおいて終了すると仮定すること、5)Tをyイオンとして用い、配列がKにおいて終了すると仮定すること、及び6)Tをyイオンとして用い、配列が未知の文字において終了すると仮定することによりもたらされる。これらの配列は、表示のために格納部に提示されてもよいし、又は、後に続く処理のために別の手順に提示されてもよい。
【0041】
図9は、図5の「重み付け縁を隣接する頂点間に割り当てる」手順509において呼び出して、信頼重み付け分類を適用する前に、ばねシステムの縁重み付けを確立することができる縁重み付けプロセス900を示す。
【0042】
縁重み付けプロセス900は、擬似コードにより示される。擬似コードは、特定のプログラミング言語のシンタックスのいずれも用いることなく、アルゴリズムを記述する一般的な方法である。擬似コードは、実際のコンピュータ上では実行できないが、これは、実際のプログラミングコードをモデル化し、これに類似する。擬似コードは、当業者が、アルゴリズムの詳細を理解するのを助けるために与えられる。擬似コードのセクションは、表1ないし表10に抽出され、擬似コードの「シンタックス」の幾つかの態様は、このコードが表から組み合わされた場合により明らかになる。
【0043】
重み付け縁は、解離スペクトルデータにおけるスペクトルピーク強度を表わすばねシステムの頂点間に親和力を確立する。縁重み付けプロセス900は、開始ターミナル901において始まり、「スペクトルピーク」反復手順903に続き、解離スペクトルデータをトラバースして、各々の関連するスペクトルピークを認識する。関連するスペクトルピークは、例えば、特定のしきい値の上、及び/又は、m/z値の範囲内の強度をもつものである。スペクトルピークが認識されると、「スペクトルピークの頂点を初期化する」手順905が、頂点について格納部を配分して、表1に示すように、スペクトルピーク強度を頂点に割り当てることができる。
表1
すべてのスペクトルピークが解離スペクトルデータから検出されると、「スペクトルピークを強度によりランク付けする」手順906が、各々のスペクトルピークに対して、強度のランク順を与え、一実施形態においては、最も強いスペクトルピークに強度ランク1が与えられ、2番目に強いスペクトルピークにランク2が与えられるなどになる。
【0044】
表2
【0045】
(表2に示す)「人為的な頂点を初期化する」手順907は、関心のあるイオンの2つの部類と関連付けられる少なくとも2つの人為的な頂点を配分する。プロテイン及びペプチド分析においては、イオンの2つの部類は、bイオンとyイオンである。幾つかの実施形態は、別の頂点を加えて、ノイズピークを引き付けるのを助ける。縁は、人為的な頂点間で確立される。一実施形態においては、2つの分類頂点間の縁は、互いに反発するように設定される。分類頂点の各々は、さらに、用いられる場合には、ノイズ頂点に対して反発する縁を有する。
【0046】
表3
(表3に示す)「スペクトルピークの対」反復手順909は、次いで、解離スペクトルデータにおけるスペクトルピークに対応する頂点の各々の対について一度反復する。頂点の各々の対が反復されるとき、対の間の縁は、多数の条件に応じて調整される。例えば、限定されるものではないが、発明者は、以下により、2つの頂点間の縁を重み付けすることにより、ペプチドについての良好な結果を取得することができる。
【0047】
「アミノ酸残留縁」チェック手順911は、スペクトルピークの対の間のm/zにおける差異が、どれだけ厳密にアミノ酸残留物と整合するかを求める。厳密な整合がある場合には、Strong縁が2つのスペクトルピーク間に加えられる。縁の強さは、スペクトルピーク間のm/z差異が、どれだけ厳密にアミノ酸の質量と適合するかを表わすQuality値により修正することができる。以下の表においては、Quality変数は、2つの質量間の整合の厳密さを与える。一実施形態においては、Qualityは、完全な整合においては1.0と等しく、ユーザ定義による許容範囲においては0.0まで減少する。イオントラップ質量分光計についての適切な許容範囲は、0.4ダルトンとすることができ、QTOF機器についての適切な許容範囲は、0.1ダルトンすることができる。ここで用いられる擬似コードにおいては、縁のプログラムされた方法は、縁がない場合においては、2つの頂点間に指定された重み付けをもつ縁を確立する。後に続く縁のプログラムされた方法の実施は、指定された重み付けを既存の縁に加える。両方の場合においては、縁重み付けオペランドは、擬似コードにおいて「+=」により示すことができる。
【0048】
「相補的なスペクトルピーク縁」チェック手順913は、m/zの合計が親分子の質量と大体同じであるかどうかを判断する。大体同じである場合には、スペクトルピークはたいてい同じ分類をもたないため、縁の重み付けは、(Qualityにより修正することができる)Strongだけ減少される(すなわち、恐らく、一方のスペクトルピークがbイオンを表わし、他方がyイオンを表わし、したがって、2つのスペクトルピークは、異なる分類にあるように助長されるはずであり、このことは、反発量により縁を調整することによって達成される)、縁の重み付けは、(Qualityにより修正することができる)。
【0049】
「アミノ酸の対」チェック手順915は、スペクトルピーク間のm/zにおける差異が、アミノ酸残留物の対と整合するかどうかを判断する。これが真である場合には、縁は、Qualityにより調整されるWeakだけ増加される。
【0050】
「不可能な質量」チェック手順917は、スペクトルピーク間のm/zにおける差異が、残留物質量又は残留物質量の合計ではないかどうかを判断する。スペクトルピーク間のm/zにおける差異が、残留物質量又は残留物質量の合計ではない場合には、縁は、Strongにより引力を小さくされる。
【0051】
他の実施形態は、スペクトルピークの対の特性に基づく縁に対する修正が続く、重み付け縁を確立する以外の縁を定義する方法を用いることができる。さらに、スペクトルピークの対の他の特性、又は、第3のスペクトルピークに対する関係性もまた、スペクトルピークの対の間の重み付け縁に組み込むことができる。
【0052】
すべてのスペクトルピークの対について縁が確立されると、縁重み付けプロセス900は、以下のように、各々のスペクトルピークについて縁を調整するように続く(図10を参照されたい)。
【0053】
表4
表4は、解離スペクトルデータにおけるスペクトルピークを表わす頂点において反復を確立する「スペクトルピーク」反復手順919を示す。すべての選択された頂点が処理された後、縁重み付けプロセス900は、「終了」ターミナル921により完了する。各々の頂点が処理されるとき、「ノイズ縁」手順923は、スペクトルピークを表わす処理された頂点と、ノイズについての人為的な頂点との間に縁を加える。縁の強さはStrongであり、スペクトルピークのランクにより調整される最大強度ランクによって除算される。したがって、(rankMaxを100と仮定し)最高の強度スペクトルピークは、ノイズに対する縁がない。2番目に高い強度スペクトルピークは、1/100Strongのノイズに対する縁を有し、(nがrankMax+1又はこれより高い)n番目の強度スペクトルピークは、Strongになる。
【0054】
表5
次いで、(表5に示す)「bイオン残留物の対」チェック手順925が、スペクトルピークのm/zからプロトン質量を減算したものがアミノ酸の対と整合するかどうかを判断する。整合する場合には、Art_Bに対する重み付け縁が質量精度(Quality)により調整されるWeakだけ増加され、これはピークのm/zがアミノ酸の対の質量にどれだけ厳密に整合するかである。
【0055】
表6
次いで、(表6に示す)「yイオン残留物の対」チェック手順927が、親分子の質量から減算されたピークのm/zがアミノ酸の対と整合するかどうかを判断する。これが真である場合には、Art_Yに対する縁の重み付けは、Qualityにより調整されるWeakだけ増加される。
【0056】
表7
(表7に示す)「イオン検出」条件手順928は、まず、現在のピークより27.995だけ少ないピークが存在する(すなわち、現在のスペクトルピークが、フラグメントに取り付けられた付加的な一酸化炭素の結果であることを示す)かどうかを判断する。存在する場合には、「残留物の対」条件手順929が、スペクトルピーク質量からプロトンを減算したものが、アミノ酸の対の質量と整合するかどうかを判断し、整合する場合には、「強い縁」手順930が、スペクトルピークとArt_Bとの間の縁を、Qualityにより調整されるStrongだけ増加させて、一対のアミノ酸の質量にする。
【0057】
「残留物の対」条件手順929が、スペクトルピークの質量からプロトン質量を減算したものがアミノ酸対と整合しない場合には、「脆弱縁」手順931が、スペクトルピークとArt_Bとの間の縁を、スペクトルピークのQualityにより調整されるWeakだけ増加させて、一対のアミノ酸の質量にする。
【0058】
表8
(表8に示す)「不可能なbイオン」チェック手順933は、スペクトルピークのm/zからプロトン質量を減算したものが、低質量イオンの質量ではないかどうかを判断する。そうである場合には、この頂点とArt_Bとの間の縁の引力がStrongだけ減少される。
【0059】
表9
(表9に示す)「不可能なyイオン」チェック手順935は、スペクトルピークのm/zの余数が低質量イオンの質量ではないかどうか判断する。そうである場合には、頂点とArt_Yとの間の縁の引力がStrongだけ減少される。
【0060】
(表10に示す)「二重帯電イオン」チェック手順937は、スペクトルピークが、スペクトルピーク質量のm/zの半分にプロトン質量を加えたm/zに存在するかどうかを判断する。こうしたスペクトルピークが存在する場合には、頂点からArt_Yへの縁は、Weakだけ増加される。
表10
付加的な縁の調整は、スペクトルピークの質量がどれだけ良好にアミノ酸トリプルの質量と整合するかに応じて行うことができる。
【0061】
Weak及びStrongはどのように設定するのだろうか。(0.2ダルトン解像度においては)区別できる残留物質量の約6倍の区別できる残留物の対の質量があるため、Strongは、Weakの6倍に設定する。さらに、グラフの区分化は、異なる重み付けの下で非常に堅牢であり、しかも、その結果は、重み付けにおける変化に対してあまり敏感ではないことがわかった。
【0062】
最後に、不可能な質量により分離される2つのピーク間のネガティブな重み付けが、もっと強かったり、又はさらには無限であるのではなく、Strongに過ぎないのはなぜであろうか。極めて強い不可能な縁を用いた場合には、例えば、3つの不可能な縁をyイオンのピークにもち、5つの不可能な縁をbイオンのピークにもつ化学的なノイズピークは、T側まで押し付けられる(ここで、次いで、幾らかの実際のyイオンを押しやる)。
【0063】
図11は、第1の固有ベクトル座標1101を固有空間の一方の座標として用い、第2の固有ベクトル座標1103を他方の座標として用いる二次元の固有空間R1100を示す。図6に関して述べられたように、固有空間における頂点の位置に適合されたラインL1105が生成され、ラインL1105に直交する区分ラインP1107が二次元固有空間R1100の起点に配置される。群S及び群Tが区分ラインP1107の両側に割り当てられる。
【0064】
図12は、スペクトルのスペクトルピークを分類するために、ここで開示された技術を用いて、スペクトルを配列決定することによりもたらされる頂点の識別を示す。
【0065】
図13は、ペプチドKQEYDEAGPSIVHRK1300の分析された解離スペクトルデータを示す。図3におけるように、スペクトルは、複数のm/z質量スペクトルピーク1301を含む。しかし、ここでは、スペクトルピークを、さらに(例えば)Bイオンスペクトルピーク1303、yイオンスペクトルピーク1305、及びノイズピーク1307として識別することができる。
【0066】
縁方法は、以前に、頂点間に縁が存在していない場合には、指定された重み付けの縁を生成し、又は、与えられた重み付けにより既存の縁を修正する。
【0067】
ここで述べられた技術は、一般に、親分子及び分子のサブユニット、並びに、一実施形態を示すのに用いられるペプチド及びアミノ酸に適用される。具体的には、親分子は、ポリマー、脂質、プロテイン、ペプチド、及びグリカンの少なくとも1つ、並びに、各々が一方の分子のサブユニットを別の分子のサブユニットと連結する、開裂場所により分離される多数の分子のサブユニットを含む他の分子とすることができる。
【0068】
開示される技術は、鎖体分子の配列決定における進歩を可能にする。さらに、上記から、スペクトルピークの効率的な分類又は部分的な分類は、(限定されるものではないが)、以下の利点を有することが理解されるであろう。
【0069】
1)de novoシーケンサは、ここでは、候補となる配列の生成がより少なくなる(すなわち、正しい各々の配列の可能性がはるかに高くなる)。
2)より少数の配列が生成されるため、開示された技術を用いるde novoシーケンサは、正しい配列を含む可能性が高い一組の配列をより迅速に生成する。
3)開示された技術を用いるde novoシーケンサは、既存の技術より迅速かつ正確であるため、こうしたde novoシーケンサは、ここでは、はるかに長いペプチド、及びさらに完全なプロテインを配列決定することができる。
4)一実施形態は、ピーク分類に応じて、スペクトルピーク強度を修正する。この修正されたスペクトルは、処理のために、既存の配列決定プログラムに提示することができる。修正されたスペクトルは多義性が少ないため、これらのプログラムは、正しい配列を生成する可能性がより高い。
【0070】
5)プロテイン及びペプチドの解離スペクトルに関連付けられるb/y多義性問題を解決したことによる驚くべき成功のために、de novoシーケンサの制度が増加した。
6)ピーク分類問題に対してコンピュータによる効率的で堅牢な解決法を与える。
7)最強の部類(強度ピークの最大数)は、すべての他のものを排斥し、ノイズピーク間の引力(残留物質量により分離される内部フラグメントのような)は、ピークの分類を助ける。
8)幾つかのスペクトルは、3つより多い部類を有し、1つより多いペプチドがある場合、又は、多数の内部フラグメント(残留物配列の中間から連続するサブ配列)がある場合に、このことが生じることがある。こうしたスペクトルは、一方のペプチドから別のペプチドに容易に「トラックをジャンプ」することができる純粋な最長経路の以前の手法では困難であった。この問題は、スペクトルピークの堅牢な分類により減少される。
【図面の簡単な説明】
【0071】
【図1】分子の配列決定システムを示す。
【図2】好ましい実施形態によるコンピュータシステムを示す。
【図3】タンデム質量分光計により生成することができ、各々のm/z値において観測されるイオンの数を示す例示的な解離スペクトルのヒストグラムを示す。
【図4】分子フラグメント分類プロセスの一実施形態を示す。
【図5】解離スペクトルデータに応じて、ばねシステムを初期化するプロセスの一実施形態を示す。
【図6】「信頼重み付け分類を適用する」プロセスの一実施形態を示す。
【図7】「スペクトルピーク強度を調整する」プロセスの一実施形態を示す。
【図8】「分子のサブユニットの可能性のある配列を求める」プロセスを示す。
【図9】ばねシステムのための縁重み付けプロセスの第1部分を示す。
【図10】ばねシステムのための縁重み付けプロセスの第2部分を示す。
【図11】図3に表わされるスペクトルによりもたらされる、区分され、分類された二次元の固有空間を示す。
【図12】図11に示すように分類された頂点の配列決定によりもたらされる、区分され、識別された二次元の固有空間を示す。
【図13】図4のプロセスにより分析されたタンデム質量分光計によりもたらされることができ、図11の固有空間を生成する、配列決定された解離スペクトルデータを示す。
【符号の説明】
【0072】
101:化学物質サンプル
103:タンデム質量分光計
105:解離スペクトル
109:de novoシーケンサ
【技術分野】
【0001】
本発明は、イオン化分子フラグメントを分類するための方法、装置、及びプログラム製品に関する。
【背景技術】
【0002】
錯体分子を識別するのに用いることができる多数の技術がある。これらの技術の幾つかは、鎖体分子のフラグメントスペクトルを用いる。こうしたフラグメントスペクトルは、当該技術分野に周知のタンデム質量分析(「MS/MS」)技術により生成することができる。フラグメントスペクトルの分析は、鎖体分子を構成する分子のサブユニットの構造及び配列に対する糸口を与えることができる。
【0003】
理想的なスペクトルは、bイオン又はyイオンの完全な「ラダー」を含み、これにより、分子のサブユニットの配列又はその反転を簡単に読み取ることができる。したがって、候補となる配列の生成は、通常、ピークグラフにおける最長の(又は最高の)経路問題として示され、このピークグラフは、スペクトルにおける各々のピークについて頂点と、2つのピークが可能性のある分子のサブユニットの質量において異なる場合には、これらを連結する縁とを有する。開裂がないために、ピークグラフは、ピークではなく、小さい質量範囲に対応する頂点を用いることができ、及び/又は、一対の残留物の質量だけ異なる頂点間に縁を含むことができる。
【0004】
鎖体分子の構造を識別する1つの方法は、フラグメントスペクトルを考慮して、鎖体分子の候補となる配列を識別し、採点することである。1つの手法においては、候補となるものは、既知の分子のデータベースに見出すことができる。Yates,III他に付与された米国特許番号第5,538,897号は、鎖体分子がプロテイン又はペプチドである方法を教示する。この手法の困難さは、鎖体分子が以前に識別又は予測されており、かつその特性がデータベース内に格納されている必要があることである。すなわち、以前に特徴付けされずに、データベースに入力された鎖体分子のフラグメントスペクトルは識別されない。
【0005】
鎖体分子の構造を識別する別の方法は、de novo配列決定手法を用いることである。この手法を用いてペプチド又はプロテインを配列決定する方法は、Townsend他に付与された米国特許番号第6,582,965号により開示される。de novo配列決定手法においては、この方法は、フラグメントスペクトルと一致するとすることができる分子のサブユニットのすべての可能性のある配列を生成することを試みる。プロテイン及びペプチドのde novo配列決定手法における1つの問題は、どちらのピークがyイオン(c終端フラグメント)で、どちらのピークがbイオン(n終端フラグメント)であるかを判断するのが困難であることである。「b/y多義性」という用語は、この困難さを示す。この困難さは、フラグメントスペクトルが、ノイズ(親分子のフラグメントではないイオン)に対するスペクトルピーク、並びに、信号(親分子のフラグメントであるイオン)に対するスペクトルピークを含むため悪化する。フラグメントスペクトルにおけるノイズは、鎖体分子をフラグメントスペクトルから正確に配列決定する可能性を減少させる。
【0006】
さらに、ペプチドのスペクトルがbイオン又はイオンの完全なラダーを有することは非常に稀であり、したがって、殆どのシーケンサは、2つの種類の混合物からラダーを形成することを試みる。Lutefisk(Taylor他によるImplementation anduUses of Automated De Novo Peptide Sequencing by Tandem Mass Spectrometry(Anal.Chem.,73(2001),2594−2604)を参照されたい)は、一方を観察された質量に、他方を相補的な質量にするように、各々のピークを2つの頂点にする。こうした相補性は、事実上、多くのノイズピークを加えること、及び、単一のピークをbイオン及びyイオンの両方として用いることを可能にするという2つの欠点を有する。Chen他によるA Dynamic Programming Approach to De Novo Peptide Sequencing by Mass Spectrometry(J.Computational Biology,8(2001),325−337)という表題の論文は、単一のピークからの両方の頂点の同時使用を可能にしない最長経路アルゴリズムにより、どのように後者の欠点を修正するかを示す。Ma他によるAn Effective Algorithm for the Peptide De Novo Sequencing from MS/MS Spectrum(Symp.Comb.Patter Matching,2003,266−278)という表題の論文は、両方の頂点の同時使用を可能にするが、ピークを2度採点することはないという、より微妙な修正を教示する。しかし、これらの解決法のいずれも、ノイズピークの数が2倍になるという、より大きな欠点を対処するものではない。
【0007】
Lubeck他によるNew Computational Approaches forDe Novo Peptide Sequencing from MS/MS Experiments(Proc.IEEEV 90,(2002),1868−1874)という表題の論文は、最長経路アルゴリズムを稼動させる前に、ピークをb、y、又は「他」として分類する理念を提案した。最長経路アルゴリズムは、ピークの分類を用い、すべてのピークを相補することを避ける。Lubeckはアルゴリズム又は結果を開示していない。
【0008】
Day他によるPPM−Chain−DeNovo Peptide Identification Program Comparable in Performance to Sequest(Proc.IEEE Computational Systems Bioinformatics,2004,505−508)という表題の論文は、独立して、ピークの分類を提案し(最長経路アルゴリズムに付加するものとしてではなく、代替的手法として)、b/y対及び各ピークの周りの「中立損失近傍」(約30ダルトン)に合わせた分類器を作った。
【0009】
Yan他によるSeparation of Ion Types in Tandem Mass Spectrometry Data Interpretation−A Graph−Theoric Approach(Proc.IEEE Computational Systems Bioinformatics,2004,236−244)という表題の論文は、同じ理念を開示し、分類の問題をグラフ3分割問題として示した。彼らは、問題に対する正しい解決法として指数関数的時間アルゴリズムを開示した。
【発明の開示】
【課題を解決するための手段】
【0010】
したがって、フラグメントスペクトルにおいてノイズを増加させることなく、分類の信頼のための重み付けをもつ、フラグメントスペクトルにおけるスペクトルピークをbイオン及びyイオンとして分類することができ、Yan他によるものほど計算を要求しないアルゴリズムを用いる方法を見出すことが有利になる。
【発明を実施するための最良の形態】
【0011】
以下の「表記及び専門語」は、提示される技術及びその実施形態の理解を助けるために与えられる。
【0012】
プラグラムされたルーチン又は機能−プログラムされたルーチン又はプログラムされた機能は、パラメータにより又はパラメータなしで呼び出すことができ、あらゆる与えられたパラメータ、アクセス可能状態、及び/又は、アクセス可能データに応答して設計された動作を実行する、あらゆるプログラミング方法における一連のプログラムコードである。プラグラムされたルーチン又は機能は、多目的CPU又は他の電子機器により処理される命令とすることができる。プログラムされた機能は、一般に、値を戻す。プログラムされたルーチン又は機能は、多くの場合、指定された動作を実行するように設計され、デジタル値、アナログ値のいずれか、又はデジタル値及びアナログ値の組み合わせをもつ結果値を与えることができる電子機器において実行することができる。
【0013】
提示する、提示される、提示されるべき−ここで述べられる技術の実施形態の動作結果は、実施形態により「提示される」ことができる。このことは、技術を用いることにより識別されるスペクトルピークをもつスペクトルの表現を格納すること、又は、こうしたスペクトルからデータを表示すること、技術を用いることにより識別される分子配列を表示又は格納すること、表現される又は技術を用いることにより引き出されたデータを、別のシステム(例えば、有形格納装置のようなコンピュータ使用可能データキャリア又はネットワークを用いることにより、及び/又は、遠隔手順呼び出しプロトコルを用いてコンピュータに)、別の手順、及び/又は、プログラムされたルーチンに送ることを含むことができる。
【0014】
手順−手順は、望ましい結果をもたらすコンピュータ化されたステップの首尾一貫したシーケンスである。これらのステップは、1つ又はそれ以上のコンピュータ命令により定義することができる。これらのステップは、ステップを定義する命令を実行するコンピュータにより実行することができる。すなわち、「手順」という用語は、(例えば、限定されるものではないが、)命令のシーケンス、プログラムされた手順或いはプログラムされた機能において系統化された一連の命令、又は、1つ又はそれ以上のコンピュータにおいて実行されるプログラムされたプロセスにおいて系統化された一連の命令を指すことができる。こうした手順は、さらに、ステップを実行する特定の回路において直接実施することができる。
【0015】
発明者は、解離スペクトルデータにおいてスペクトルピークを分類し、これによって、分子を配列決定する際の効率を向上させる装置、方法、及びプログラム製品を開発した。このことは、親分子のフラグメントを表わすスペクトルピークを含む解離スペクトルデータにアクセスすることにより達成される。親分子は、分子のサブユニットと、開裂場所とを含み、開裂場所の各々は、分子のサブユニットの第1のものと、分子のサブユニットの第2のものとを連結する。スペクトルピークは、ピーク強度と関連付けられる。スペクトルピークの幾つかは、対応する頂点により表わされるように選択される。重み付け縁は、対応する頂点に割り当てられ、次いで、重み付け縁に応じて、信頼重み付け分類が、対応する頂点に適用される。頂点が分類されると、分類に応じて、ピーク強度を調整し、ピーク強度を提示することができる。
【0016】
発明者は、de novo分析を改善するのに、ピークをbイオン、yイオン、及び「他」として分類する必要がないことを実現した。最長経路アルゴリズムと併せて分類を用いる場合には、一方の群がすべてのbイオンを含み、他方がすべてのyイオンを含むようにピークを2つの群に分割するという、より容易な問題を解決するだけで十分である。このような二区分化は、一方の群が補完されて(親イオン質量から減算されて)、これにより、ノイズピークの数を2倍にすることなく、ピークのb/y多義性を除去することを可能にする。発明者は、スペクトルグラフ区分化、多項時間アルゴリズムをこの二区分化問題に適用する。指数関数的時間アルゴリズムの代わりに、多項時間アルゴリズムを用いることにより、より多くの複雑なスペクトルを分類することができる。
【0017】
図1は、分子配列決定システム100の動作を示す。こうしたシステムにおいては、化学物質サンプル101を、解離スペクトル105(図3を参照されたい)を生成するタンデム質量分光計103に入力する。解離スペクトル105は、任意的なスペクトルフィルタ107によりフィルタ処理して、高品質スペクトルをde novoシーケンサ109に送り、このシーケンサは、解離スペクトル105を処理して、提示することができる化学物質サンプル101の化学物質のサブユニット111の可能性のある配列を求める。
【0018】
図2は、開示される技術を組み込むことができるコンピュータシステム200を示す。コンピュータシステム200は、CPU203、メモリ205、及び幾つかの実施形態においてはネットワークインターフェース207を組み込むコンピュータ201を含む。ネットワークインターフェース207は、コンピュータ201にネットワーク209に対するアクセスを与える。コンピュータ201は、さらに、ユーザインターフェース装置213、格納システム215、及び除去可能データ装置217に接続することができるI/Oインターフェース211を含む。除去可能データ装置217は、典型的にはプログラム製品221を含む有形のコンピュータ使用可能データキャリア219を読み取ることができる。格納システム215(除去可能データ装置217と併せて)、有形のコンピュータ使用可能データキャリア219、及びいずれのネットワークファイル格納部も、ファイル格納機構を含む。有形のコンピュータ使用可能データキャリア219は、コンピュータシステム200内のROM、置き換え可能ROM、メモリスティック、CD、フロッピー(登録商標)、DVD、又は他の有形媒体のいずれかとすることができる。有形のコンピュータ使用可能データキャリア219からアクセスされるプログラム製品221は、一般に、CPUに、ここに述べられるプロセス並びに他のプロセスを実行させるように命令するプログラム223としてメモリ205に読み込まれる。さらに、プログラム製品221は、ネットワークインターフェース207によりネットワーク(一般に、光、無線、及び電子信号方式を含む、電磁搬送波内でエンコードされる)から与えることができる。当業者であれば、ネットワーク209は、別のコンピュータ使用可能データキャリアであることを理解するであろう。
【0019】
タンデム質量分光計225は、I/Oインターフェース211と直接通信状態とすることができ、解離スペクトルデータを直接コンピュータ201に与えることができる(例えば、USB、FireWire(登録商標)又はカスタム接続を用いることにより)。さらに、タンデム質量分光計225は、解離スペクトルデータをネット209上で与えることができ、又は、有形のコンピュータ使用可能データキャリア219により与えることができる。
【0020】
図3は、m/zにおけるx方向軸301と強度303におけるy方向軸でプロットされた親分子の例示的なタンデム質量分光計解離スペクトル300を示す。親分子は、一般に、開裂場所により接続された多数の分子のサブユニットを含む。タンデム質量分光計は、一般に、開裂場所のいずれかにおいて、親分子の多くを少なくとも2つのフラグメントに解離する。解離スペクトルデータは、同様なm/zを有する、生成されたフラグメントの数を示す。m/zにおけるx方向軸301上のスペクトルピークの位置は、単独で帯電されたイオンの質量を表わす。強度という用語は、スペクトルピークの高さ又は区域を指す。スペクトルピークの強度は、親分子がどれくらいの頻度で特定の開裂場所においてフラグメント化されたかを示す。スペクトルピークのm/z、強度、構造、及び形状は、スペクトルピークの特性の幾つかである。
【0021】
タンデム質量分光計は、多くの場合、選択された高いスペクトルピークについてのm/zのようなスペクトルピークの注釈情報を与える。さらに、二重に帯電された親分子を検出することができる。前述のように、この表現における1つの困難さは、解離(又はフラグメント)スペクトルピークからノイズピークを求めることが非常に困難であることである。ペプチド及びプロテインの場合においては、どのスペクトルピークがbイオン、yイオン、aイオン、又はノイズを示すかを判断することが非常に困難である。プロテイン及び/又はペプチドの配列決定における非常に重要な問題の1つは、スペクトルピークがyイオン、bイオン、又はノイズを表わすかどうかを判断することである。
【0022】
図4は、de novoシーケンサ109として又はこれにより用いて、親分子を構成する分子のサブユニットの1つ又はそれ以上の可能性のある配列を求めることができる分子フラグメント分類プロセス400を示す。分子フラグメント分類プロセス400は、「開始」ターミナル401で始まり、解離スペクトルデータにアクセスする「解離スペクトルデータにアクセスする」手順403に続く。解離スペクトルデータは、格納システム215、ネットワーク209、有形のコンピュータ使用可能データキャリア219からアクセスすることができ、或いは、直接、タンデム質量分光計から、又は、他のデータアクセス技術又は科学技術のいずれかによりアクセスすることができる。解離スペクトルデータは、スペクトルピークを含む。スペクトルピークは、最初はイオン係数に関連するが、後に続く計算に応じて変更することができる強度を有する。
【0023】
親分子は、プロテイン、ペプチド、脂質、ポリマー(単一のモノマー、又は、多数のモノマーで構成された)、グリカンなどとすることができる。この説明の残りの殆どは、ペプチド及びアミノ酸の内容に充てられる。ここで教示される技術は、開裂場所により連結された分子のサブユニットを有する他の分子に適用することができる。
【0024】
解離スペクトルデータがアクセスされると、「ランキング及び重み付け縁をスペクトルピークに割り当てる」手順405が解離スペクトルデータを処理して、スペクトルピークのm/z(質量)及び強度を識別し、関連のスペクトルピークを選択し、スペクトルピークを強度順にランク付けする(irank)。当業者であれば、解離スペクトルデータにおけるスペクトルピークデータは、一般に、直接操作されるものではなく、むしろ、スペクトルピークの特性が解離スペクトルデータから取得されて、スペクトルピークの特性を表わすデータ構造(ここでは、多くの場合、頂点と呼ばれる)において値を確立するのに用いられることを理解するであろう。
【0025】
「ランキング及び重み付け縁をスペクトルピークに割り当てる」手順405は、さらに、スペクトルピークを表わす頂点間に重み付け縁を確立するばねシステムと呼ばれるデータ構造を初期化する。幾つかの実施形態は、人為的な頂点をアレイに挿入して、人為的なピークとスペクトルピークの頂点の幾つか又は全てとの間に重み付け縁を与えることができる。「ランキング及び重み付け縁をスペクトルピークに割り当てる」手順405により生成されたアレイは、物理的なばねシステムと類似しており、ここでは、ピークの強度が質量と類似し、重み付け縁が、重み付け縁により連結されるピーク間に反発力/引力を与えるばねに類似する。発明者は、これは、ばねシステムを解離スペクトルデータに適用する初めてのものであると信じている。「ランキング及び重み付け縁をスペクトルピークに割り当てる」手順405は、次いで、図5に関して述べられる。
【0026】
ばねシステムデータ構造が生成されると、「信頼重み付け分類をスペクトルピークに適用する」手順407が、信頼重み付け分類プロセスをデータ構造により表わされるばねシステムに適用する。これにより、二次元の固有空間を確立する2つの固有ベクトルが生成される。スペクトルピークを表わす頂点は、固有空間に突出して、ラインに適合するように用いられる。幾つかの実施形態においては、第1のラインに直交する第2のラインを用いて、固有空間を区分することができる。したがって、解離スペクトルデータから選択されたスペクトルピークは、選択されたピークを表わす頂点間の重み付け縁に応じて、2つ又はそれ以上の分類に分類することができる。
【0027】
当業者であれば、頂点の分類は、スペクトルピークと人為的なピークとを表わす頂点の間の距離を求めることにより達成されることを信じることができるが、こうした当業者は、(例えば、図7に関連付けられる)ここで述べられる開示を読み、理解した後、代わりにスペクトルピークを区分化することは、固有空間内の頂点の突出に応じた固有空間の区分化によって決まることを理解するであろう。
【0028】
次いで、「スペクトルピーク強度を調整する」手順409が、「信頼重み付け分類をスペクトルピークに適用する」手順407の結果に応じて、幾つかの実施形態においては、スペクトルピークの強度ランキングに応じて、スペクトルピークを調整する。頂点におけるスペクトルピーク強度が調整されると、任意的な「分子のサブユニットの可能性のある配列を求める」手順411を、調整されたスペクトルピーク強度に適用して、親分子の質量及び解離スペクトルデータと一致する分子のサブユニットの可能性のある配列を生成することができる。さらに、又は、別に、任意的な「スペクトルを再生成する」手順412が、調整されたピーク強度に基づいて、帯電上質量スペクトルを再生成することができ、これは次いで、他の配列決定プロセスにより用いることができる。任意的な「分子のサブユニットの可能性のある配列を求める」手順411、又は、任意的な「スペクトルを再生成する」手順412(存在する場合に)のどの組み合わせが用いられるかに係らず、「データを提示する」手順413を用いて、調整されたピーク強度、頂点の分類、調整された解離スペクトルデータ、及び/又は、他の配列決定プログラムによる後に続く処理のための任意的なプロセスの結果を提示し、結果を格納し、表示し、或いは別の方法により提示し、又は、分子のサブユニットの配列決定の結果を提示することができる。当業者であれば、こうしたシーケンサは、親分子について分子のサブユニットの1つより多い可能性のある配列を生成できることを理解するであろう。当業者は、さらに、調整された解離スペクトルデータは、頂点の特性から生成できることを理解するであろう。
【0029】
分子フラグメント分類プロセス400は、「終了」ターミナル415により完了する。当業者であれば、別のスペクトルは、分子フラグメント分類プロセス400を再開することにより処理できることを理解するであろう。
【0030】
図5は、図4の「ランキング及び重み付け縁をスペクトルピークに割り当てる」手順405の一実施形態である「ばねシステム初期化」プロセス500を示す。「ばねシステム初期化」プロセス500は、「解離スペクトルデータにアクセスする」手順403によりアクセスされたデータから引き出されたスペクトルデータ特性において動作する。「ばねシステム初期化」プロセス500は、さらに、相補的な対に見えるスペクトルピークを用いて、親イオンの質量を推定する「親イオン質量を推定する」手順503を含むことができる。この推定は、スペクトルデータにおいて与えられたデータからタンデム質量分光計により求められる鎖体分子の公称質量を特定すること、スペクトルピークの対を合計すること、及び、スペクトルピークの対の合計が公称質量の許容範囲内にある場合には、そのスペクトルピークの対の合計を累積することを含む。すべての関連するスペクトルピークの対の合計が累積されると、統計的分析が累積されたスペクトルピークの対の合計に遂行されて、鎖体分子の質量が推定される。
【0031】
「ばねシステム頂点についてのスペクトルピークを選択する」手順505は、(同様なm/zのものに対して)高強度を有し、同位体、二重に帯電された、又は、水損失の結果には見えないスペクトルデータからスペクトルピークを選択する(近傍のスペクトルピークとのスペクトルピークの質量及び強度の関係により求められる)。
【0032】
「ばねシステムを初期化する」手順507は、十分なメモリを配分して、「ばねシステム頂点についてのスペクトルピークを選択する」手順505により選択されるスペクトルピーク、並びに、ばねシステムにおいて用いられる人為的な頂点のいずれかを表わす頂点間のばねシステムを表わす。「重み付け縁を隣接する頂点間に割り当てる」手順509は、後で図9及び図10に関して述べられるように、重み付け縁を頂点間に割り当てる。
【0033】
図6は、(スペクトルクラスタ処理アルゴリズムのような)信頼重み付け分類プロセスを、「ばねシステムを初期化する」手順507により初期化されたばねシステムに適用する「信頼重み付け分類を適用する」プロセス600を示す。「固有空間を生成する」手順603は、ばねシステムについての最小固有値に対応して、第1の2つの固有ベクトルを求める。第1の固有ベクトルは、
によるばねシステムの潜在エネルギを最小にする際の最小二乗問題に対する解決法であり、ここで、Aは縁重み付けのマトリックス、DはAの入力項目の絶対値の行の合計を含む対角マトリックスである。
【0034】
第2の固有ベクトルは、ばねシステムの振動モードである。一実施形態においては、発明者は、第1及び第2の固有ベクトルを用いて、ばねシステムを表わす二次元の固有空間Rを確立する。「頂点を固有空間に突出させる」手順605は、次いで、ばねシステムの頂点をRにマップする。次いで、例えば、最小二乗適合を用いて、参照ラインLをRにおける頂点に適合させ、次いで、区分ラインとしてRの起点を通る、Lに直交するラインPを用いる。次いで、区分ラインとしてRの起点を通る、Lに直交するラインPを用いて、参照ラインLをRにおける頂点に適合させる。例示的なRを図11に示す。
【0035】
区分ラインPが確立されると、任意的な「固有空間を区分することにより頂点を群分けする」手順607が、ラインPのどちら側に頂点が入るかに応じて、Rにおける頂点を2つの群(例えば、群S及び群T)に分類することができる。ペプチドのスペクトルにおいては、同じ群の頂点は、同じ種類になる傾向がある(例えば、bイオン又はyイオン)。頂点は、S群及びT群に分けられるが、どちらの群がyイオンを含み、どちらの群がbイオンを含むかは分からない。(例えば、配列グリカンのような)幾つかの実施形態においては、参照ラインLに対する頂点のランクは、配列決定を助けるのに十分とすることができるため、固有空間は区分する必要がない。
【0036】
図7は、「スペクトルピーク強度を調整する」手順409の一実施形態とすることができる「スペクトルピーク強度を調整する」プロセス700を示す。「スペクトルピーク強度を調整する」プロセス700は、まず、「1つの群についての質量を補完する」手順701を適用して、頂点の質量を、親分子の質量から減算することにより(任意的には、適切な反応質量損失/利得のいずれかについて調整することにより)、群の1つにおける各々の頂点を補完する。このように、Sを補完してS’を生成することができる。S’を得ると、「適合に関して頂点をランク付けする」手順703が、ラインLに関して頂点をランク付けする(ラインLに沿って突出する頂点の位置であるlrank)。次いで、「スペクトルピークを再び重み付けする」手順705が、強度ランク(irank)及びlrankに応じて、スペクトルピークを再び重み付けする。
【0037】
(スペクトルが、多くの場合、例えば、yイオン及びその他、又はbイオン及びその他のような2つの分類しかもたない)プロテイン及びペプチド分析においては、「適合に関して頂点をランク付けする」手順703が、最大lrankを、Lのポジティブ側における頂点からもたらされる最大lrankのそれに制限する。親分子の他の種類は、この制約を必要としないとすることができる。
【0038】
プロテイン及びペプチド分析においては、多くの場合、yイオンが好ましい。したがって、付加的な情報は、ばねシステムにおける人為的なB頂点及びY頂点を含むことにより生成することができる。人為的なB頂点を含む固有空間の半分は、恐らくbイオンを含む半分であり、人為的なY頂点を含む固有空間の半分は、恐らくyイオンを含む半分である。人為的なB頂点及び人為的なY頂点が同じ固有空間で終わる場合には、区分ラインPから頂点への距離を求めて、関係を破断することができる。発明者は、この方法は、時間の少なくとも70%において、bイオン及びyイオンを正確に識別することを確認した。これがb/y多義性問題を解決する高い可能性を与えるが、一実施形態は、依然として、すべての可能性のある配列を捕捉するために、S及びYの「yイオンの半分」及び「bイオンの半分」の両方の割り当てを試行する。
【0039】
次いで、「ピークグラフを構築する」手順707が、S’及びTにおける頂点からピークグラフを作成し、2つのピーク間の縁は、1つ又は2つのアミノ酸残留物の質量だけ異なる(大きいアミノ酸質量は、最初と最後の間隙を考慮に入れたものである)。ピークグラフは、表示のために格納部に提示されてもよいし、又は、後に続く処理のために別の手順に提示してもよい。
【0040】
図8は、「ピークグラフを構築する」手順707により生成されたピークグラフを用いて、親分子の可能性のある配列を求めることができる「分子のサブユニットの可能性のある配列を求める」プロセス800を示す。「ピークグラフにおける最長経路を計算する」手順801は、ピークフラフにおける最長経路を求めるための周知の技術を用いる。最長経路が求められると、「候補となる配列を生成する」手順803が、経路を、鎖体分子の候補となる配列に変換する。後に続く採点手順(図示せず)は、配列が親分子について正確である可能性に関して、候補となる配列をランク付けする技術を用いることができる。一実施形態においては、少なくとも6つの配列が生成される。これらの6つの配列は、1)Sをyイオンとして用い、配列がRにおいて終了すること、2)Sをyイオンとして用い、配列がKにおいて終了すると仮定すること、3)Sをyイオンをとして用い、配列が未知の文字において終了すると仮定すること、4)Tをyイオンとして用い、配列がRにおいて終了すると仮定すること、5)Tをyイオンとして用い、配列がKにおいて終了すると仮定すること、及び6)Tをyイオンとして用い、配列が未知の文字において終了すると仮定することによりもたらされる。これらの配列は、表示のために格納部に提示されてもよいし、又は、後に続く処理のために別の手順に提示されてもよい。
【0041】
図9は、図5の「重み付け縁を隣接する頂点間に割り当てる」手順509において呼び出して、信頼重み付け分類を適用する前に、ばねシステムの縁重み付けを確立することができる縁重み付けプロセス900を示す。
【0042】
縁重み付けプロセス900は、擬似コードにより示される。擬似コードは、特定のプログラミング言語のシンタックスのいずれも用いることなく、アルゴリズムを記述する一般的な方法である。擬似コードは、実際のコンピュータ上では実行できないが、これは、実際のプログラミングコードをモデル化し、これに類似する。擬似コードは、当業者が、アルゴリズムの詳細を理解するのを助けるために与えられる。擬似コードのセクションは、表1ないし表10に抽出され、擬似コードの「シンタックス」の幾つかの態様は、このコードが表から組み合わされた場合により明らかになる。
【0043】
重み付け縁は、解離スペクトルデータにおけるスペクトルピーク強度を表わすばねシステムの頂点間に親和力を確立する。縁重み付けプロセス900は、開始ターミナル901において始まり、「スペクトルピーク」反復手順903に続き、解離スペクトルデータをトラバースして、各々の関連するスペクトルピークを認識する。関連するスペクトルピークは、例えば、特定のしきい値の上、及び/又は、m/z値の範囲内の強度をもつものである。スペクトルピークが認識されると、「スペクトルピークの頂点を初期化する」手順905が、頂点について格納部を配分して、表1に示すように、スペクトルピーク強度を頂点に割り当てることができる。
表1
すべてのスペクトルピークが解離スペクトルデータから検出されると、「スペクトルピークを強度によりランク付けする」手順906が、各々のスペクトルピークに対して、強度のランク順を与え、一実施形態においては、最も強いスペクトルピークに強度ランク1が与えられ、2番目に強いスペクトルピークにランク2が与えられるなどになる。
【0044】
表2
【0045】
(表2に示す)「人為的な頂点を初期化する」手順907は、関心のあるイオンの2つの部類と関連付けられる少なくとも2つの人為的な頂点を配分する。プロテイン及びペプチド分析においては、イオンの2つの部類は、bイオンとyイオンである。幾つかの実施形態は、別の頂点を加えて、ノイズピークを引き付けるのを助ける。縁は、人為的な頂点間で確立される。一実施形態においては、2つの分類頂点間の縁は、互いに反発するように設定される。分類頂点の各々は、さらに、用いられる場合には、ノイズ頂点に対して反発する縁を有する。
【0046】
表3
(表3に示す)「スペクトルピークの対」反復手順909は、次いで、解離スペクトルデータにおけるスペクトルピークに対応する頂点の各々の対について一度反復する。頂点の各々の対が反復されるとき、対の間の縁は、多数の条件に応じて調整される。例えば、限定されるものではないが、発明者は、以下により、2つの頂点間の縁を重み付けすることにより、ペプチドについての良好な結果を取得することができる。
【0047】
「アミノ酸残留縁」チェック手順911は、スペクトルピークの対の間のm/zにおける差異が、どれだけ厳密にアミノ酸残留物と整合するかを求める。厳密な整合がある場合には、Strong縁が2つのスペクトルピーク間に加えられる。縁の強さは、スペクトルピーク間のm/z差異が、どれだけ厳密にアミノ酸の質量と適合するかを表わすQuality値により修正することができる。以下の表においては、Quality変数は、2つの質量間の整合の厳密さを与える。一実施形態においては、Qualityは、完全な整合においては1.0と等しく、ユーザ定義による許容範囲においては0.0まで減少する。イオントラップ質量分光計についての適切な許容範囲は、0.4ダルトンとすることができ、QTOF機器についての適切な許容範囲は、0.1ダルトンすることができる。ここで用いられる擬似コードにおいては、縁のプログラムされた方法は、縁がない場合においては、2つの頂点間に指定された重み付けをもつ縁を確立する。後に続く縁のプログラムされた方法の実施は、指定された重み付けを既存の縁に加える。両方の場合においては、縁重み付けオペランドは、擬似コードにおいて「+=」により示すことができる。
【0048】
「相補的なスペクトルピーク縁」チェック手順913は、m/zの合計が親分子の質量と大体同じであるかどうかを判断する。大体同じである場合には、スペクトルピークはたいてい同じ分類をもたないため、縁の重み付けは、(Qualityにより修正することができる)Strongだけ減少される(すなわち、恐らく、一方のスペクトルピークがbイオンを表わし、他方がyイオンを表わし、したがって、2つのスペクトルピークは、異なる分類にあるように助長されるはずであり、このことは、反発量により縁を調整することによって達成される)、縁の重み付けは、(Qualityにより修正することができる)。
【0049】
「アミノ酸の対」チェック手順915は、スペクトルピーク間のm/zにおける差異が、アミノ酸残留物の対と整合するかどうかを判断する。これが真である場合には、縁は、Qualityにより調整されるWeakだけ増加される。
【0050】
「不可能な質量」チェック手順917は、スペクトルピーク間のm/zにおける差異が、残留物質量又は残留物質量の合計ではないかどうかを判断する。スペクトルピーク間のm/zにおける差異が、残留物質量又は残留物質量の合計ではない場合には、縁は、Strongにより引力を小さくされる。
【0051】
他の実施形態は、スペクトルピークの対の特性に基づく縁に対する修正が続く、重み付け縁を確立する以外の縁を定義する方法を用いることができる。さらに、スペクトルピークの対の他の特性、又は、第3のスペクトルピークに対する関係性もまた、スペクトルピークの対の間の重み付け縁に組み込むことができる。
【0052】
すべてのスペクトルピークの対について縁が確立されると、縁重み付けプロセス900は、以下のように、各々のスペクトルピークについて縁を調整するように続く(図10を参照されたい)。
【0053】
表4
表4は、解離スペクトルデータにおけるスペクトルピークを表わす頂点において反復を確立する「スペクトルピーク」反復手順919を示す。すべての選択された頂点が処理された後、縁重み付けプロセス900は、「終了」ターミナル921により完了する。各々の頂点が処理されるとき、「ノイズ縁」手順923は、スペクトルピークを表わす処理された頂点と、ノイズについての人為的な頂点との間に縁を加える。縁の強さはStrongであり、スペクトルピークのランクにより調整される最大強度ランクによって除算される。したがって、(rankMaxを100と仮定し)最高の強度スペクトルピークは、ノイズに対する縁がない。2番目に高い強度スペクトルピークは、1/100Strongのノイズに対する縁を有し、(nがrankMax+1又はこれより高い)n番目の強度スペクトルピークは、Strongになる。
【0054】
表5
次いで、(表5に示す)「bイオン残留物の対」チェック手順925が、スペクトルピークのm/zからプロトン質量を減算したものがアミノ酸の対と整合するかどうかを判断する。整合する場合には、Art_Bに対する重み付け縁が質量精度(Quality)により調整されるWeakだけ増加され、これはピークのm/zがアミノ酸の対の質量にどれだけ厳密に整合するかである。
【0055】
表6
次いで、(表6に示す)「yイオン残留物の対」チェック手順927が、親分子の質量から減算されたピークのm/zがアミノ酸の対と整合するかどうかを判断する。これが真である場合には、Art_Yに対する縁の重み付けは、Qualityにより調整されるWeakだけ増加される。
【0056】
表7
(表7に示す)「イオン検出」条件手順928は、まず、現在のピークより27.995だけ少ないピークが存在する(すなわち、現在のスペクトルピークが、フラグメントに取り付けられた付加的な一酸化炭素の結果であることを示す)かどうかを判断する。存在する場合には、「残留物の対」条件手順929が、スペクトルピーク質量からプロトンを減算したものが、アミノ酸の対の質量と整合するかどうかを判断し、整合する場合には、「強い縁」手順930が、スペクトルピークとArt_Bとの間の縁を、Qualityにより調整されるStrongだけ増加させて、一対のアミノ酸の質量にする。
【0057】
「残留物の対」条件手順929が、スペクトルピークの質量からプロトン質量を減算したものがアミノ酸対と整合しない場合には、「脆弱縁」手順931が、スペクトルピークとArt_Bとの間の縁を、スペクトルピークのQualityにより調整されるWeakだけ増加させて、一対のアミノ酸の質量にする。
【0058】
表8
(表8に示す)「不可能なbイオン」チェック手順933は、スペクトルピークのm/zからプロトン質量を減算したものが、低質量イオンの質量ではないかどうかを判断する。そうである場合には、この頂点とArt_Bとの間の縁の引力がStrongだけ減少される。
【0059】
表9
(表9に示す)「不可能なyイオン」チェック手順935は、スペクトルピークのm/zの余数が低質量イオンの質量ではないかどうか判断する。そうである場合には、頂点とArt_Yとの間の縁の引力がStrongだけ減少される。
【0060】
(表10に示す)「二重帯電イオン」チェック手順937は、スペクトルピークが、スペクトルピーク質量のm/zの半分にプロトン質量を加えたm/zに存在するかどうかを判断する。こうしたスペクトルピークが存在する場合には、頂点からArt_Yへの縁は、Weakだけ増加される。
表10
付加的な縁の調整は、スペクトルピークの質量がどれだけ良好にアミノ酸トリプルの質量と整合するかに応じて行うことができる。
【0061】
Weak及びStrongはどのように設定するのだろうか。(0.2ダルトン解像度においては)区別できる残留物質量の約6倍の区別できる残留物の対の質量があるため、Strongは、Weakの6倍に設定する。さらに、グラフの区分化は、異なる重み付けの下で非常に堅牢であり、しかも、その結果は、重み付けにおける変化に対してあまり敏感ではないことがわかった。
【0062】
最後に、不可能な質量により分離される2つのピーク間のネガティブな重み付けが、もっと強かったり、又はさらには無限であるのではなく、Strongに過ぎないのはなぜであろうか。極めて強い不可能な縁を用いた場合には、例えば、3つの不可能な縁をyイオンのピークにもち、5つの不可能な縁をbイオンのピークにもつ化学的なノイズピークは、T側まで押し付けられる(ここで、次いで、幾らかの実際のyイオンを押しやる)。
【0063】
図11は、第1の固有ベクトル座標1101を固有空間の一方の座標として用い、第2の固有ベクトル座標1103を他方の座標として用いる二次元の固有空間R1100を示す。図6に関して述べられたように、固有空間における頂点の位置に適合されたラインL1105が生成され、ラインL1105に直交する区分ラインP1107が二次元固有空間R1100の起点に配置される。群S及び群Tが区分ラインP1107の両側に割り当てられる。
【0064】
図12は、スペクトルのスペクトルピークを分類するために、ここで開示された技術を用いて、スペクトルを配列決定することによりもたらされる頂点の識別を示す。
【0065】
図13は、ペプチドKQEYDEAGPSIVHRK1300の分析された解離スペクトルデータを示す。図3におけるように、スペクトルは、複数のm/z質量スペクトルピーク1301を含む。しかし、ここでは、スペクトルピークを、さらに(例えば)Bイオンスペクトルピーク1303、yイオンスペクトルピーク1305、及びノイズピーク1307として識別することができる。
【0066】
縁方法は、以前に、頂点間に縁が存在していない場合には、指定された重み付けの縁を生成し、又は、与えられた重み付けにより既存の縁を修正する。
【0067】
ここで述べられた技術は、一般に、親分子及び分子のサブユニット、並びに、一実施形態を示すのに用いられるペプチド及びアミノ酸に適用される。具体的には、親分子は、ポリマー、脂質、プロテイン、ペプチド、及びグリカンの少なくとも1つ、並びに、各々が一方の分子のサブユニットを別の分子のサブユニットと連結する、開裂場所により分離される多数の分子のサブユニットを含む他の分子とすることができる。
【0068】
開示される技術は、鎖体分子の配列決定における進歩を可能にする。さらに、上記から、スペクトルピークの効率的な分類又は部分的な分類は、(限定されるものではないが)、以下の利点を有することが理解されるであろう。
【0069】
1)de novoシーケンサは、ここでは、候補となる配列の生成がより少なくなる(すなわち、正しい各々の配列の可能性がはるかに高くなる)。
2)より少数の配列が生成されるため、開示された技術を用いるde novoシーケンサは、正しい配列を含む可能性が高い一組の配列をより迅速に生成する。
3)開示された技術を用いるde novoシーケンサは、既存の技術より迅速かつ正確であるため、こうしたde novoシーケンサは、ここでは、はるかに長いペプチド、及びさらに完全なプロテインを配列決定することができる。
4)一実施形態は、ピーク分類に応じて、スペクトルピーク強度を修正する。この修正されたスペクトルは、処理のために、既存の配列決定プログラムに提示することができる。修正されたスペクトルは多義性が少ないため、これらのプログラムは、正しい配列を生成する可能性がより高い。
【0070】
5)プロテイン及びペプチドの解離スペクトルに関連付けられるb/y多義性問題を解決したことによる驚くべき成功のために、de novoシーケンサの制度が増加した。
6)ピーク分類問題に対してコンピュータによる効率的で堅牢な解決法を与える。
7)最強の部類(強度ピークの最大数)は、すべての他のものを排斥し、ノイズピーク間の引力(残留物質量により分離される内部フラグメントのような)は、ピークの分類を助ける。
8)幾つかのスペクトルは、3つより多い部類を有し、1つより多いペプチドがある場合、又は、多数の内部フラグメント(残留物配列の中間から連続するサブ配列)がある場合に、このことが生じることがある。こうしたスペクトルは、一方のペプチドから別のペプチドに容易に「トラックをジャンプ」することができる純粋な最長経路の以前の手法では困難であった。この問題は、スペクトルピークの堅牢な分類により減少される。
【図面の簡単な説明】
【0071】
【図1】分子の配列決定システムを示す。
【図2】好ましい実施形態によるコンピュータシステムを示す。
【図3】タンデム質量分光計により生成することができ、各々のm/z値において観測されるイオンの数を示す例示的な解離スペクトルのヒストグラムを示す。
【図4】分子フラグメント分類プロセスの一実施形態を示す。
【図5】解離スペクトルデータに応じて、ばねシステムを初期化するプロセスの一実施形態を示す。
【図6】「信頼重み付け分類を適用する」プロセスの一実施形態を示す。
【図7】「スペクトルピーク強度を調整する」プロセスの一実施形態を示す。
【図8】「分子のサブユニットの可能性のある配列を求める」プロセスを示す。
【図9】ばねシステムのための縁重み付けプロセスの第1部分を示す。
【図10】ばねシステムのための縁重み付けプロセスの第2部分を示す。
【図11】図3に表わされるスペクトルによりもたらされる、区分され、分類された二次元の固有空間を示す。
【図12】図11に示すように分類された頂点の配列決定によりもたらされる、区分され、識別された二次元の固有空間を示す。
【図13】図4のプロセスにより分析されたタンデム質量分光計によりもたらされることができ、図11の固有空間を生成する、配列決定された解離スペクトルデータを示す。
【符号の説明】
【0072】
101:化学物質サンプル
103:タンデム質量分光計
105:解離スペクトル
109:de novoシーケンサ
【特許請求の範囲】
【請求項1】
親分子の複数のフラグメントを表わす複数のスペクトルピークを含む解離スペクトルデータにアクセスするステップを含み、
前記親分子が、複数の分子のサブユニットと、各々が前記複数の分子のサブユニットの第1のものと前記複数の分子のサブユニットの第2のものとを連結する複数の開裂場所とを含み、前記複数のスペクトルピークが、それぞれの複数のピーク強度と関連付けられており、
前記複数のスペクトルピークの一部を、複数の頂点として表わすステップと、
複数の重み付け縁を前記複数の頂点に割り当てるステップと、
前記複数の重み付け縁に応じて、信頼重み付け分類を前記複数の頂点に適用するステップと、
前記適用するステップに応じて、前記それぞれの複数のピーク強度を調整するステップと、
前記それぞれの複数のピーク強度を提示するステップと
を含むコンピュータにより制御される方法。
【請求項2】
コンピュータプログラム製品であって、
親分子の複数のフラグメントを表わす複数のスペクトルピークを含む解離スペクトルデータにアクセスするステップを含み、
前記親分子が、複数の分子のサブユニットと、各々が前記複数の分子のサブユニットの第1のものと前記複数の分子のサブユニットの第2のものとを連結する複数の開裂場所とを含み、前記複数のスペクトルピークが、それぞれの複数のピーク強度と関連付けられており、
前記複数のスペクトルピークの一部を、複数の頂点として表わすステップと、
複数の重み付け縁を前記複数の頂点に割り当てるステップと、
前記複数の重み付け縁に応じて、信頼重み付け分類を前記複数の頂点に適用するステップと、
前記適用するステップに応じて、前記それぞれの複数のピーク強度を調整するステップと、
前記それぞれの複数のピーク強度を提示するステップと
を含む方法を、コンピュータにより実行された場合に、前記コンピュータに実行させる命令を格納するコンピュータ使用可能データキャリア
を含むことを特徴とするコンピュータプログラム製品。
【請求項3】
前記適用するステップが、前記複数の頂点の前記一部を、スペクトルピークの第1の部類及びスペクトルピークの第2の部類を表わす複数の部類に分類し、前記提示するステップが、さらに、前記解離スペクトルデータを生成した前記親分子の質量に対して、前記第1の部類を補完するステップをさらに含む、請求項1、又は請求項2に記載の方法。
【請求項4】
親分子の複数のフラグメントを表わす複数のスペクトルピークを含む解離スペクトルデータにアクセスするように構成されたスペクトルアクセス論理を含み、
前記親分子が、複数の分子のサブユニットと、各々が前記複数の分子のサブユニットの第1のものと前記複数の分子のサブユニットの第2のものとを連結する複数の開裂場所とを含み、前記複数のスペクトルピークが、それぞれの複数のピーク強度と関連付けられており、
前記スペクトルアクセス論理によりアクセスされる前記複数のスペクトルピークの一部を、複数の頂点として表わすように構成されたピーク選択論理と、
複数の重み付け縁を、前記ピーク選択論理により選択された前記複数の頂点に割り当てるように構成された縁重み付け割り当て論理と、
前記複数の重み付け縁に応じて、信頼重み付け分類を前記複数の頂点に適用するように構成された分類論理と、
前記分類論理に応じて、前記それぞれの複数のピーク強度を調整するように構成された調整論理と、
前記それぞれの複数のピーク強度を提示するように構成された提示論理と
を含むことを特徴とする装置。
【請求項1】
親分子の複数のフラグメントを表わす複数のスペクトルピークを含む解離スペクトルデータにアクセスするステップを含み、
前記親分子が、複数の分子のサブユニットと、各々が前記複数の分子のサブユニットの第1のものと前記複数の分子のサブユニットの第2のものとを連結する複数の開裂場所とを含み、前記複数のスペクトルピークが、それぞれの複数のピーク強度と関連付けられており、
前記複数のスペクトルピークの一部を、複数の頂点として表わすステップと、
複数の重み付け縁を前記複数の頂点に割り当てるステップと、
前記複数の重み付け縁に応じて、信頼重み付け分類を前記複数の頂点に適用するステップと、
前記適用するステップに応じて、前記それぞれの複数のピーク強度を調整するステップと、
前記それぞれの複数のピーク強度を提示するステップと
を含むコンピュータにより制御される方法。
【請求項2】
コンピュータプログラム製品であって、
親分子の複数のフラグメントを表わす複数のスペクトルピークを含む解離スペクトルデータにアクセスするステップを含み、
前記親分子が、複数の分子のサブユニットと、各々が前記複数の分子のサブユニットの第1のものと前記複数の分子のサブユニットの第2のものとを連結する複数の開裂場所とを含み、前記複数のスペクトルピークが、それぞれの複数のピーク強度と関連付けられており、
前記複数のスペクトルピークの一部を、複数の頂点として表わすステップと、
複数の重み付け縁を前記複数の頂点に割り当てるステップと、
前記複数の重み付け縁に応じて、信頼重み付け分類を前記複数の頂点に適用するステップと、
前記適用するステップに応じて、前記それぞれの複数のピーク強度を調整するステップと、
前記それぞれの複数のピーク強度を提示するステップと
を含む方法を、コンピュータにより実行された場合に、前記コンピュータに実行させる命令を格納するコンピュータ使用可能データキャリア
を含むことを特徴とするコンピュータプログラム製品。
【請求項3】
前記適用するステップが、前記複数の頂点の前記一部を、スペクトルピークの第1の部類及びスペクトルピークの第2の部類を表わす複数の部類に分類し、前記提示するステップが、さらに、前記解離スペクトルデータを生成した前記親分子の質量に対して、前記第1の部類を補完するステップをさらに含む、請求項1、又は請求項2に記載の方法。
【請求項4】
親分子の複数のフラグメントを表わす複数のスペクトルピークを含む解離スペクトルデータにアクセスするように構成されたスペクトルアクセス論理を含み、
前記親分子が、複数の分子のサブユニットと、各々が前記複数の分子のサブユニットの第1のものと前記複数の分子のサブユニットの第2のものとを連結する複数の開裂場所とを含み、前記複数のスペクトルピークが、それぞれの複数のピーク強度と関連付けられており、
前記スペクトルアクセス論理によりアクセスされる前記複数のスペクトルピークの一部を、複数の頂点として表わすように構成されたピーク選択論理と、
複数の重み付け縁を、前記ピーク選択論理により選択された前記複数の頂点に割り当てるように構成された縁重み付け割り当て論理と、
前記複数の重み付け縁に応じて、信頼重み付け分類を前記複数の頂点に適用するように構成された分類論理と、
前記分類論理に応じて、前記それぞれの複数のピーク強度を調整するように構成された調整論理と、
前記それぞれの複数のピーク強度を提示するように構成された提示論理と
を含むことを特徴とする装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2007−132919(P2007−132919A)
【公開日】平成19年5月31日(2007.5.31)
【国際特許分類】
【外国語出願】
【出願番号】特願2006−154001(P2006−154001)
【出願日】平成18年5月2日(2006.5.2)
【出願人】(504407000)パロ アルト リサーチ センター インコーポレイテッド (65)
【Fターム(参考)】
【公開日】平成19年5月31日(2007.5.31)
【国際特許分類】
【出願番号】特願2006−154001(P2006−154001)
【出願日】平成18年5月2日(2006.5.2)
【出願人】(504407000)パロ アルト リサーチ センター インコーポレイテッド (65)
【Fターム(参考)】
[ Back to top ]