品質スペクトルの自動検出
【課題】品質スペクトルを自動的に検出すること。
【解決手段】本出願は、マスフラグメントスペクトルの一部にアクセスし、このスペクトルのピーク対の差異に応じたベクトルを構築し、このベクトルに応じたスペクトルを選択するシステム及び/又は方法を提供する。
【解決手段】本出願は、マスフラグメントスペクトルの一部にアクセスし、このスペクトルのピーク対の差異に応じたベクトルを構築し、このベクトルに応じたスペクトルを選択するシステム及び/又は方法を提供する。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、限定されたプールから引き出されたマスを有するモノマーからなるポリマーに向けられる。
【背景技術】
【0002】
モノマーが限定されたアミノ酸の組(典型的には約20)であるペプチド、又はモノマーが小さな単糖類の組(典型的には約5)である場合のグリカンが例となる。より特定的には、本出願は、こうした分子から生成されるマスフラグメントスペクトルの自動品質評価に向けられる。自動品質評価の詳細は、タンデムマス分光計(MS/MS)の使用によって生成されるペプチドのスペクトルに着目して説明される。他の技術を使用して、実質的に同様の結果を得ることもできることを認識すべきである。以下の説明では、ペプチド分析について述べるが、本出願の概念は、他のポリマーに適用可能であることを理解すべきである。本出願の概念は、フラグメントスペクトルを形成することができる他の分子にも適用することができる。
【発明の開示】
【課題を解決するための手段】
【0003】
本出願は、スペクトルのピーク対の差異を用いて算出される、マスフラグメントスペクトルの品質を求めるシステム及び/又は方法を提供する。
【発明を実施するための最良の形態】
【0004】
以下の説明では、スペクトルを識別プロセスに与える等のさらに別の処理の前に、マスフラグメントスペクトルの品質を評価するフィルタに着目する。フィルタ処理は、比較的良好なスペクトルを確実にする際に助けとなり、データベース検索の識別プログラム(中でも、SEQUEST及びMascot等)又はde novo配列決定プログラム(Lutefisk等)のような時間のかかる付加的な処理ステップに送られる。さらに、フィルタのアルゴリズムを用いて、変換後修正データベースをもつSEQUEST、GutenTagを用いた部分配列識別のようなさらに時間のかかる分析を保証する高品質スペクトルを識別することもできる。
以下に説明される種々のフィルタは、不良なスペクトルのおよそ75%又はそれ以上を除去し、高品質(識別可能な)スペクトルはおよそ10%だけ損失することを示す。
【0005】
さらに、ペプチド識別の10%の損失は、タンパク質の識別数において、より小さな損失を負うことも判明した。クラミジア・プロテオームの大規模な研究において、従来技術に基づくフィルタの後に連続して適用される本特許において開示される種類のフィルタは、正しいペプチド識別の5%及び正しいタンパク質識別の3%を損失するに過ぎない。これは、単純なフィルタにより除去されるものを上回り、不良なスペクトルの付加的な44%を除去して、その結果、コンピュータ処理能力をほぼ2倍に改善し、大きい多種の「誤った選択肢」データベースを検索する場合に、不正確な(クラミジアではない)ペプチド及びタンパク質の識別数を減少させた(それぞれ8%及び12%だけ)。
例示的な本実施形態の一態様においては、マスフラグメントスペクトル又はこうしたスペクトルの一部にアクセスするステップを与えるコンピュータにより制御されるフィルタ処理方法が記載される。この場合、スペクトルのピーク差異に応じたデータ構造(アレイ等)が構築され、この構築されたデータ構造に応じたスペクトルが選択される。
【0006】
別の例示的な実施形態では、マスフラグメントスペクトルの一部にアクセスするステップを与えるコンピュータにより制御されるフィルタ処理方法に向けられる。この場合、スペクトルの強度バランスに応じた特徴ベクトルが構築され、この構築されたアレイに応じてスペクトルが選択される。
図1は、タンデムマス分光計のデータをタンパク質配列ライブラリからの配列と相関させるプロセスのブロック図である。図1は、フィルタをどこに使用することができるかについての一例を示す。フィルタは、さらに、品質スペクトルを使用する必要がある統計分析、並びに、本発明によりここで可能になる将来の用途等の他の用途に使用することもできる。このプロセスでは、スペクトルと配列ライブラリとの間の比較の前に、フィルタ処理作用を行うようにフィルタを組み込む。分析のための材料の入力は、未知のペプチド試料10であり、これらに限定されるものではないが、多糖類、脂質、又はポリヌクレオチドを含む他の試料とすることができる。典型的には、ペプチドは、一部が断片化したタンパク質を分離するのに使用されたクロマトグラフィの列から出力される。タンパク質は、例えば、ゲル濾過クロマトグラフィ及び/又は高性能液体クロマトグラフィ(HPLC)により断片化することができる。試料10は、電気噴霧イオン化(ES)等のイオン化法によって、タンデムマス分光計12に導入される。第1のマス分光計14において、ペプチド・イオンが選択されて、特定のマスの目標とされる成分が、試料10の残りから分離される。目標とされる成分は、活性化させられるか又は分解される。ペプチドの場合は、結果として、イオン化された親ペプチド(「先駆体イオン」)と種々の状態にイオン化されるより低いマスの成分ペプチドとの混合物がもたらされる。衝突誘起解離(CID)、電子捕獲解離、マトリックス支援レーザ脱離/イオン化解離等を含む多数の活性化法を使用することができる。
【0007】
親ペプチド及びそのフラグメントは、第2のマス分光計16に与えられ、このマス分光計が、フラグメント混合物中の複数のフラグメントごとの強度及びマス電荷比(m/z)を出力する。この情報は、フラグメントマススペクトル18として出力されて、各々のフラグメントは、横座標値がマス電荷比(m/z)を示し、縦座標値が強度を示すヒストグラムとして表される。スペクトルは、様々なもののうちの1つとすることができるフィルタ20に供給される。フィルタ20は、スペクトルを分析して分類し、許容可能と判断されたスペクトルは、分子について1つ又はそれ以上のタンパク質配列を生成するシーケンサ21(例えば、データベース・シーケンサ又はde novoシーケンサ)に送られる。多くの場合、タンパク質配列を検証することができる。例えば、データベース・シーケンサを用いて、タンパク質配列をタンパク質配列ライブラリからの配列と比べることができる。
追って説明するフィルタを生成する際に、68,978のタンデムマススペクトルは、4つの異なるプロテアーゼ(トリプシン、エラスターゼ、スブチリシン、及びプロテイナーゼK)で消化された5つのタンパク質(ウサギ・ホスホリラーゼa、ウマ・シトクロムc、ウマ・アポミオグロビン、ウシ血清アルブミン、及びウシβ−カゼイン)の公知の混合物から取得された。68,978のスペクトルのうち、5,678が「良好」と表示が付され、これは、907,654の入力項目をもつ全米バイオテクノロジ情報センター(NCBI)の非冗長的なタンパク質データベースに対するSEQUEST検索により、混合物中の5つのタンパク質の1つ、又はケラチン若しくは消化に用いられる酵素の1つのような汚染物質と思われるものと整合することを意味する。他の63,300のスペクトルは「不良」と表示が付されたが、これらのうちの幾つかは、変異又は改質ペプチドの高品質スペクトルであった。「不良な」スペクトルのこうした大きな割合は、HPLCに典型的なものであり、そこで、溶出されたペプチドは、マス分光計の中に連続して電気噴霧される。スペクトル検査に使用することができる1つのMS装置は、m/z(電荷上マス)がカット・オフから200ないし300デカまでであり、1000までのm/zにおいて解像度が0.3デカまでであるイオン・トラップ装置である。他のMS装置もまた用いることもできる。デカは、単位電荷当たりのダルトンの代わりに略式で書かれるものである。
I.強度の正規化
【0008】
ここでは、すべてのMS/MS分析プロセスに共通する問題、すなわちスペクトル内で生成されるピーク強度に注意が向けられる。ピーク強度は、スペクトル間で極めて変化しやすいものとして広く認識されている。従って、これまでに、例えば、配列データベースとの比較に用いられるアルゴリズムにおいて用いるための強度情報を正規化する合意された手順は存在していなかった。強度に基づく採点は、それ自体の課題の組を提示する。未処理の強度は、最大強度及び合計強度が「良好な」データの群分けの中で2又は3のオーダーの大きさにわたり変化するため、使用するにはあまりに変化が大きすぎる。単一の高いピーク又はノイズ・ピークの低いバックグラウンドは、多くの場合、2又は3倍だけ値をシフトさせるので、相対強度(すなわち、合計強度により除算された未処理の強度)の方が良いとはいえ、やはり極めて変化しやすい。
【0009】
発明者は、スペクトルのピーク強度を順位付けする手順を実施することによって、強度の変動を最小限にした。これらの順位付けの生成に続いて、相対強度と順位に基づく強度との間で試験を行った。結果を、図2に示す。凹凸の増加する曲線28は、所与の相対強度のピークがbイオン又はyイオンになる確率を示す。この線については、x軸は、百分率の100分の1であり、すなわち、50は、このピークにおける合計イオン強度の0.5%であることを意味する。ビンのサイズは、順位曲線30とおよそ同じ0.1ないし0.8の範囲にわたり延びる曲線を供給するように選ばれた。y軸は、(#b+#y)/(#b+#y+#?)を示し、ここで、#bは(1416の識別されたスペクトルからの)所与の強度のbイオンのピーク数であり、#yはyイオンのピーク数であり、#?は識別されていないピーク数である。他の識別されたピーク(同位体、aイオン、水分又はアンモニア損失、内部フラグメント)は、確率の勘定に入れられなかった。より凹凸が少ない、減少する順位曲線30は、所与の順位のピーク(順位1=最も強い)がbイオン又はyイオンになる確率を示す。滑らかな曲線32は、比較のために示される指数関数である。順位に基づく強度の正規化(すなわち、順位曲線30)の方が、相対強度(すなわち、相対強度曲線28)より凹凸が少ない曲線を与えるという事実は、順位に基づく強度の正規化の使用により、確率推定が改善する(より変動が少ない)ことを示す。
【0010】
図2は、順位強度及び相対強度が、訓練の組における「良好な」スペクトル上で算出されたピーク品質の事後値とどれだけ良好に相関するか、すなわち、ピークがbイオン又はyイオンである確率を示す。各々のスペクトルは、すべての順位(少なくとも順位200あたりまで)のピークを有するが、スペクトルは相対強度がかなり異なり、そのため、順位による確率推定は、相対強度による推定より、はるかに低い変動を有する。強度における順位についてのこうした利点が、確率に基づく採点及び特徴にまで及ぶ。
図2は、順位を用いるための特に単純な方法を正当化するものである。上述のように、順位対確率のグラフは、負の指数関数に極めて良好に適合する。このように、この文献において支持されている、確率的な採点関数に対するピークxの寄与は、ピークがbイオン及びyイオンである寄与の合計が、定数にログ尤度を加えたものに等しくなるように、定数に1/Rank(x)を加えたもに比例すると考えられる。従って、最大の堅牢性については、相対強度ではなく、順位に基づく強度の正規化が、フィルタの生成に用いるのに選択され、そこでは、最も強いピークが順位=1、2番目に強いものが順位=2等を有する。
【0011】
図3は、本出願によるフィルタ処理作用についての上位のフロー図を示す。以下に詳細に説明されるように、このフロー図は、スペクトル識別技術と関連させて「良好な」入力スペクトルと「不良な」入力スペクトルデータとを区別するために使用することができる。一般に、「良好」と判断される入力スペクトルは、関心のあるポリマーに対応するスペクトルのことを指し、「不良」と判断される入力スペクトルは、このポリマーに対応しないスペクトルのことを指す。以下は、説明の目的で与えられるものであり、限定するものではないことを認識すべきである。
ステップ36において、入力スペクトルデータを取得する。或る場合においては、入力スペクトルデータは、種々の長さのペプチド等の、より小さい断片に消化されたタンパク質を含む。より小さい断片は、それぞれの断片についてスペクトルを生成するタンデムマス分光計(MS/MS)に与えることができる。他の態様においては、入力スペクトルデータは、スペクトルによって表すことができる他のエンティティと関連付けることができる。さらに、入力スペクトルデータは、ステップ36において、個別の試料の状態で及び/又はストリームとして与えることができる。ステップ38において、入力スペクトルデータを、n次元空間内に位置決めする。ここで説明されるように、様々に成形された決定表面は、訓練によって、例えば公知の「良好な」及び「不良な」データをもつ1つ又はそれ以上の訓練の組によって、n次元空間について生成することができる。こうした訓練は、ステップ38において、入力スペクトルデータを受信する前に実行することができる。別の態様においては、こうした表面を生成し、(例えば、ファイルとして)保存し、必要なときに検索することができる。ステップ40において、入力スペクトルデータが上述の表面に関して、n次元空間内のその位置の関数として「良好な」データであるか又は「不良な」データであるかについて判断がなされる。例えば、入力スペクトルデータは、n次元空間の「良好な」(又は「OK」)領域内にあるときに「良好な」データと表示を付すことができ、入力スペクトルデータが、n次元空間の「良好な」領域内にないときには「不良な」データと表示を付すことができる。ステップ42において、「良好」と判断された入力スペクトルデータは、(例えば、SEQUESTにより)図1と関連させて説明された配列データベースについてのスペクトルの比較/識別のように、さらに処理することができる。「不良」と判断された入力スペクトルデータは、無視、破棄、削除する等してよい。図3においては、入力スペクトルデータの後に続く試料及び/又はストリームについて、これらのステップを繰り返すことができる。
【0012】
図3で説明されたステップは、図4に示すように、付加的に又は代替的に、状態機械として示すことができる。状態44は待機状態を表し、ここでは、状態機械が(例えば、所定の間隔で)ポーリングして、入力スペクトルデータが使用可能であるか、及び/又は、例えばイベント、割り込み等によって通知されるまでアイドル状態でいることができるかどうか判断することができる。入力スペクトルデータが使用可能になった場合には、状態機械は状態46に移行して、入力スペクトルデータを、例えばこの入力スペクトルデータを読み取ることによって取得することができる。入力スペクトルデータは、ブロック(例えば、一度に8バイトずつ)として読み取られて、1つ又はそれ以上のブロックが、同時に及び/又は連続的に分析される。入力スペクトルデータの適当な部分(例えば、1つのブロック、2つのブロック、ストリーム全体等)が取得された場合には、状態機械は状態48に移行し、入力スペクトルデータが分析されて、「良好な」データ(例えば、n次元空間の「良好な」領域に位置している)であるか又は「不良な」データ(例えば、n次元空間の「良好な」領域に位置していない)であるかが判断される。入力スペクトルデータが「不良な」データであると判断された場合には、状態機械は状態44に戻るように移行して、次の使用可能な入力スペクトルデータを待機する。入力スペクトルデータが「良好な」データであると判断された場合には、図1に関連して説明された配列データベースについてのスペクトルの比較/識別等のために、この「良好な」データは、格納されるか又は分析される。状態機械は、状態44に戻るように移行して、次の使用可能な入力スペクトルデータを待機する。幾つかの実施形態においては、良好/不良の結果値が生成される。この値は、試料の良好又は不良の表示を与えることができる。
【0013】
入力スペクトルデータが「良好」であるか又は「不良」であるかを判断するために図3で使用された表面は、訓練によって生成することができる。図5は、例示的な訓練手法を示す上位のフロー図を示す。ステップ52において、訓練データが与えられる。訓練データは、フィルタにより作動させることができる任意の適切なデータとすることができる。訓練データは、「良好な」データ及び「不良な」データの1つ又はそれ以上の組を含むことができる。ステップ54において、訓練データを使用して、n次元(又は多次元)空間内に表面を生成する。ステップ56において、表面を保存し、次いで採用して、スペクトルを整合させる場合、処理能力及び堅牢性を改善するスペクトルデータベースの検索中に、「不良な」データの使用を減少させるために、入力スペクトルデータが「良好」であるか又は「不良」であるかを判断することを容易にすることができる。或いは、表面を生成し、使用して、破棄することができる。
以下は、図3ないし図5の1つ又はそれ以上と関連させて説明されたステップの1つ又はそれ以上を実施するのに使用することができる例示的な擬似コードを与える。
Main{
global multidimensional_space surface[];
spectrum_buffer[];
surface=train(training_samples);
while true{
spectrum_buffer=read(input_spectrum);
if(spectrum_OK(spectrum_buffer,surface))write(spectrum_buffer);
}
}
擬似コード・リスト1
【0014】
擬似コード・リスト1は、スペクトルのストリームから幾つかのスペクトルを選択し、他のスペクトルを破棄するフィルタを示すが、当業者であれば、別の実施形態は(スペクトルをフィルタ処理する代わりに)各々のスペクトル品質を格付けし、この品質の格付けを各々のスペクトルと関連付けることができることを理解するであろう。後に続くスペクトル処理は、他のスペクトル特性と併せて品質の格付けを考慮することができる。
擬似コード・リスト1に注意して、任意の関数「訓練」は、入力を受け取り、n次元空間内に表面を生成することができる。この関数は、ここで生成されるものではなく、以前に生成された表面を記憶装置(例えば、メモリ、ディスク、CD等)から読み取ることができるという点で任意的である。例えば、フィルタを最初に訓練して、表面を記憶装置(例えば、ファイル)に保存して、後に続くフィルタの呼び出しにおいて、以前に保存されたファイルから、フィルタにより、この表面を入力することができる。擬似コードは、好適な表面が既に存在するかどうかをチェックして判断する付加的な記述(図示せず)を含むことができる。既存の表面又は新たに生成された表面のいずれかを使用することができる。別の例では、訓練関数を呼び出すべきかどうかを示すフラッグを、引数として又は(例えば、オブジェクト指向プログラミング法の)コンストラクタによって送ることができる。表面が取得されるか又は定められる(すなわち、フィルタが訓練される)と、フィルタは、入力スペクトルデータを読み取り、(スペクトル・バッファ内の)この入力スペクトルデータが表面の関数としてn次元空間の「良好な」領域内にあるかどうか判断する。次いで、試験されるスペクトルが「良好」(すなわち、「OK」)であると判断された場合には、さらに別の識別動作に使用されるべきスペクトルデータが書き込まれる(又は送られる)。訓練データは、良好又は不良の分類を与えられた、以前に分析されたスペクトルである。訓練データは、スペクトル分析プログラムにより生成される「良好」又は「不良」の値を含むことができる。
【0015】
図2及び擬似コードに関する上記の説明は、主として、バイナリ・フィルタと考えることができるものの概念に向けられている。具体的には、表面はn次元空間にあり、この表面の「良好な」側にある点により表されるスペクトルは、さらに別の処理に送られるのに対して、「不良な」側にある点を表すスペクトルは、不良であるとして破棄、無視、フラッグ付けされる等になる。図2及び擬似コード・リスト1は、さらに、統計回帰法に適用して、連続する品質メトリックを生成することができることを認識すべきである。
回帰法を使用する場合には、訓練データは、各々の訓練データのスペクトル上に連続する品質採点を有する。この方法は、この訓練データから回帰関数を生成し、新規なスペクトルが与えられると、訓練データと一致する品質採点を割り当てる。
【0016】
本実施形態においては、n次元空間内の点には、この点により表されるスペクトルの「品質」を表す数値が割り当てられる。例えば、本実施形態においては、点には、訓練データに関する点の品質を表す数字をもつ値が割り当てられてもよい。
フィルタがバイナリ又は連続する品質メトリック型のものであるかどうかにかかわらず、概して、これらのフィルタを生成するのに2つの手法が存在する。第1の手法が、専門知識を組み込む多数の特化された特徴を考案するものであるのに対して、代替的手法は、これらに限定されるものではないが、訓練データから学習することができる、Support Vector Machines(SVM)、Support Vector Regression(SVR)及びNeural Networks(NN)等の学習モデル又は分類アルゴリズムに、あまり処理されていない高次元データを供給するものである。
II.特化された特徴を用いた分類
【0017】
ここでは、フィルタへの入力として特化された特徴と、以下の式による正規化された強度:
Norm/(x)=max{0,C1−(C2/MaxmZ)・Rank(x)}
を用いることに注目し、ここで、MaxmZは、スペクトル内の最大有効m/z値であり、C1及びC2は定数である。MaxmZは、一般に、より多いピークが、より長いペプチドに考慮されることを意味する。
特徴ごとのC1及びC2の値は、訓練の組において「良好」と「不良」との間の最良の区別を与えたC1及びC2の値を選出することによって別々に学習された。例えば、Good−Diff Fraction特徴については、C1=28及びC2=400であり、典型的な値であるMaxmZ=2000のときに、Rank(x)が#140である場合には、Norm/(x)がゼロより大きいことを意味する。一般に、フィルタを作る際には、C1及びC2は、はるかに低い順位のピークを使用する、追って説明する同位体特徴を除いては、異なる特徴についてほぼ同じであった。或るピークが別のピークに対して適切なm/z及び強度を有し、ピークの尤度を増加させるという事実は、有意義であるように見える。これは、どのように順位を品質フィルタに組み込むかについての一例に過ぎない。
【0018】
各々のスペクトルは、特徴データ構造にマップすることができる。好適なデータ構造の例には、n次元アレイ、ベクトル、及びデータ・レコードが含まれる。アレイの参照は、ここで開示される実施形態により使用することができる、データを構造化する多くの方法のうちの1つである。「ベクトル」及び「アレイ」は、プログラムされた手順又は関数の呼び出しにおいて別個の変数を関連付けることを含むフィルタ処理関数を実行する等価な実施形態により用いることができるデータ表現のいずれかを表す。
以下は、7次元データ構造(f1,f2,...,f7)、7次元空間(R7)内の点について述べ、ここで、fiは、下記のi番目の特徴値である。以下は、7次元空間より小さい又はこれより大きい次元空間において実施することができるものであり、しかも、7つの特徴により表される7次元空間より大きい又は小さい次元空間において用いるために、本出願の概念により他の特徴を生成することができ、Npeaksの特徴1(f1)、Total Intensityの特徴2(f2)、Good−Diff Fractionの特徴3(f3)、Isotopesの特徴4(f4)、Complementsの特徴5(f5)、Watrer Lossesの特徴6(f6)、及びIntensity Balanceの特徴7(f7)を含む、以下に説明される7つの特徴により表され、この7つの特徴は、次のように定義される。
(1)Npeaks。スペクトル内のピーク数。この特徴は、多くの場合、スペクトル品質のヒューマン・アセスメントに使用される。
(2)Total Intensity。スペクトル内のピークの未処理の強度の総計。
(3)Good−Diff Fraction。この特徴は、2つのピークがアミノ酸のマスにおいて、どれだけ異なる可能性があるかを判断する。或るi=1,2,...,20について、
とし、ここで、M(x)は、ピークxのm/z値であり、M1,M2,...,M20は、アミノ酸のマス(そのすべてが固有であるわけではない)である。,により示唆される比較は、対象とするイオン・トラップスペクトルにおいては0.37デカに設定された公差を使用する。ここで、
とすると、f3=GoodDiffs/TotalDiffsとなる。
(4)Isotopes。関連付けられた同位体ピークとの正規化されたピーク強度の合計。すなわち、次式となる。
(5)Complements。m/z値が親イオンのマスになる、正規化されたピーク対の強度の合計。特徴は、親イオンについて+2及び+3の両方の電荷状態(すなわち、2つの異なるMparentマス)を仮定して算出し、大きい方の特徴値を使用し、プログラム2ないし3において同じ技術を用いて、電荷状態を求める。
(6)Water Losses。m/z値が18デカだけ異なる、正規化されたピーク対の強度の合計(およそ18Daだけ異なるとは、水分子のマスだけ異なることを意味し、実際のマスの差異は、分光計の精度に依存する)。
(7)Intensity Balance。m/z範囲は、300デカと観測される最大m/zと間で10個の等幅の帯域に分けられる。特徴は、最大の強度をもつ2つの帯域における未処理の強度の合計から、最小の強度をもつ7つの帯域における未処理の強度の合計を引いたものである。
【0019】
特徴1、特徴2、及び特徴5は、当該技術分野において一般的に説明されている。しかしながら、これらの特徴のいずれかを、上で提示された新規の特徴、すなわち、特徴3、特徴4、特徴6及び特徴7の1つ又はそれ以上と組み合わせて用いることは、新規な特徴のいずれかを排他的に用いるため、新規であると考えられる。同様に、特徴3(Good−Diff Fraction)、特徴4(Isotopes)及び特徴6(Water Losses)を含む種々の特徴は、ピーク間の差異を取得する新規な手法を用いることによってスペクトルのスペクトル品質を求める。分類器に使用することができるピーク対の差異を生成する1つの方法は、以下の擬似コード及び図6により示される。
spectra_OK(spectra_buffer){
peak_array[] //array of peaks where each peak has a mass and intensity spectrum_buffer[];
difference_array[masses]; //array of mass differences
peak_array=convert_mass_intensity(spectrum_buffer);//determine peaks and
//peak intensities
for every relevant pair of peaks(p1,p2)in peak_array{
n=get_mass_difference(p1.p2);
n=round(n)//round n to an appropriate resolution difference_array(n)+=intensity(p1,p2);
}
spectra_OK=analyze(peak_array,difference_array);//analyze spectrum
}
擬似コード・リスト2
【0020】
擬似コード・リスト2及び図6は、マスフラグメントスペクトルの一部のピーク対の差異に応じたアレイを構築する。初期ステップ62(図6)において、スペクトルのマス強度を変換して、スペクトルのピーク・アレイを求める。その後、ステップ64において、ピークp1のマスがピークp2のマスより小さい、ピークp1とピークp2との間の差異を見出すことにより、ピーク対の間のマスの差異を取得する。次いで、ステップ66において、スペクトル内のピーク強度から差異アレイ値を取得する。ステップ68において、関連するピークの別の対が存在するかどうか判断される。別の対が存在する場合は、このピーク対の間のマスの差異を、ステップ64と関連して上述されたように取得し、スペクトル内のピーク強度から差異ベクトル値を取得する。マスの差異が、すべての可能性のあるピーク対について取得された場合には、ステップ70において、上で生成されたピーク・ベクトル及び差異ベクトルを考慮して、スペクトルを分析する。(例えば、図3ないし図4と共に)この分析結果を用いて、スペクトルが「良好」と考えられて、さらに別の分析に送られるのか、又は「不良」と考えられて除去されるのかを判断することができる。
【0021】
図7は、以前に述べられた分析されるべき特化された特徴値を生成するためのプロセスを記述し、特化された特徴により生成されるベクトルがn次元空間内のどこに位置するかを求めるための以下の擬似コードに相関するブロック図を示す。
analyze(peak_array,difference_array){
double vector[];
vector[1]=feature1(peak_array,difference_array);
vector[2]=feature2(peak_array,difference_array);
...
analyze=compare_v_s(vector,surface);//determine where vector
//falls in the n−dimensional space
}
擬似コード・リスト3
【0022】
ステップ82(図7)において、スペクトルのピーク・アレイ及び差異アレイを分析する手順が与えられる。ステップ84において、それぞれの特徴(例えば、特徴1ないし特徴7)に対応する特徴ベクトル値を取得する。2つのベクトル要素「ベクトル[1]」及び「ベクトル[2]」が、それぞれ第1及び第2の特徴について生成される。付加的な数の特徴を生成し、使用して、ベクトルの要素を表すことができる。次に、ステップ86において、n次元空間内の表面に対するベクトル(又は特徴)の比較を行って、それらのベクトルが、訓練データにより定義される表面に対して、n次元空間内のどこに入るかについて分析する。
以下の擬似コード・リスト及び図8は、「特徴4」(Isotope)の生成を記述するものである。
feature4(peak_array,difference_array){
feature4=0
For all k near 1{//the spectra peaks that differ by one Dalton,
//up to an appropriate resolution
feature4=feature4+difference_array[k];
}
}
擬似コード・リスト4
【0023】
ステップ90において、1ダルトンだけ異なるスペクトル・ピークからなる差異ベクトルを生成する(すなわち、Isotopes特徴)。次に、ステップ92において、特徴4の値を図7のもののようなフィルタに与える。例えば、特徴4の値を使用して、要素をベクトル(例えば、ベクトル[4])に表すことができる。従って、生成される特定の特徴は、スペクトル内のピーク間のピーク差異に基づく。しかしながら、ピーク差異の概念を採用しない実施形態において、本出願のフィルタを使用できることを認識すべきである。もっと正確に言えば、特徴が親イオンのマスの総計に基づく上記の特徴5(すなわち、Complements)等の特徴を使用することもできる。
擬似コード・リスト及び図9のブロック図により示される、差異の対に依存しない「特徴7」(例えば、特徴7(Intesity Balance))の記述を以下に示す。
feature7(peak_vector,difference_vector){
partitions[] //stores limits of each band
intensity[] //stores intensity of each band
partitions=partitionvector(peak_vector); //divide peak_vector into bands by
//m/z(the mass coord)
for each band
intesity[band]=determine_intensity(peak_vector,partions[band]);
sort(intesity);
feature7=sum(intensity of most intense bands)−sum(intensity of least intense bands);
}
擬似コード・リスト5
【0024】
擬似コード・リスト5及び図9は、特徴7、Intesity Balanceのものに対応する特化された特徴を反映する。ステップ100において、ピークをm/z値の関数として帯域に分ける。ステップ102において、帯域のピーク部分の強度を求める。ステップ104において、1つ又はそれ以上の他の帯域の強度を必要とするかどうかが判断される。必要とする場合には、残りの帯域のピーク部分の強度を求める。すべての帯域について強度が求められた場合には、ステップ106において、この情報を用いて、第2の特徴ベクトル(すなわち、上記のIntensity Balanceの特徴7)を生成し、これは、一実施形態においては、最大強度をもつ2つの帯域の未処理の強度の合計から、最小強度をもつ7つの帯域の未処理の強度の合計を引いたものである。その後、「特徴7」をフィルタ(例えば、図7)に与える。例えば、特徴7の値を使用して、フィールドをベクトル「v」に表すことができる(例えば、v[7])。
フィルタによる分類については、「良好」と「不良」との間の二次的な決定境界を定める二次判別分析(QDA)を使用した。この単純な方法は、特に、中心極限定理による近似ガウス分布を有する、ここで使用されるもののような加算特徴と良好に作用する。
【0025】
発明者による調査では、2つの別個の分類器を上述の手順を用いて、1つが単独で帯電された親イオンと、1つが多重に帯電されたものについて訓練した。QDA分類器を訓練することは、特徴について平均及び共分散行列を算出することを含む。適合をより堅牢なものにするために、(いずれかの特徴の値がその特徴の上又は下の1%内に入る場合には)範囲外の特徴ベクトルを除去した。特徴の選択については、特徴の組のすべてのサブセットを試験し、訓練の組において最高のバイナリ分類性能を与えたものを選択した(「良好」の4分の1及び「不良」の8分の1)。オッカムのレーザが加えられ、それにより特徴のサブセットは、その正しい分類の割合(「良好」及び「不良」の両方)が上位集合の0.5%の範囲内にある場合に好ましいとされた。しきい値が決定表面(確率比に対する同等表面)上で調整されて、「良好な」スペクトルの90%が良好と分類された。このしきい値は、例えば、一次元高性能液体クロマトグラフィ(HPLC)のあまり積極的でないフィルタ処理を用いて、特定の必要条件に応じて調整することができる。単独で帯電したスペクトルについてのバイナリ分類器は、Good−Diff Fraction、Complements、Water Losses、及びBallanceの4つの特徴を使用した。
【0026】
多重に帯電したスペクトルについてのバイナリ分類器は、Good−Diff Fraction、Isotopes、Water Losses、及びBallanceの4つの多少異なる特徴を使用した。特化された特徴を用いた上述のフィルタについての試験の組(「良好」の3/4及び「不良」の7/8)の結果が表1に示されており、ここでは、例えば、単独で帯電された「良好な」スペクトルの89.9%が、このバイナリ・フィルタ(分類器)により良好とみなされた。
表1
試験の組に関する誤差率は、本質的には、訓練の組によるものと同じであった。単独で帯電された親イオンからのスペクトルの分類問題は、一般に、単独で帯電された親イオンのフラグメント化は不十分であるために、多重に帯電された親イオンについてよりわずかに困難である。
【0027】
Npeaks(特徴1)及びTotal Intesity(特徴2)のみを使用するバイナリ・フィルタは、新たに提示された特徴の種々のものを採用するフィルタよりはるかに弱い結果、すなわち、「良好な」スペクトルの90%が良好と分類される場合に、不良なスペクトルが54%しか除去されないという結果を与える。
compare_v_s関数が、n次元空間内にベクトル又は点を位置決めし、ベクトルが表面のどちら側に入るかに応じて、真/偽の値を戻し、このようにしてバイナリ分類法に対応する。回帰法を用いる場合には、当業者であれば、回帰(IV)のセクションに関して後で説明されるように、回帰関数をベクトルに適用した後で品質採点を戻す異なる関数が呼び出されることになることを理解するであろう。
III.SVM等の学習モデルによる分類
【0028】
ピーク(Good−Diff Fraction、Isotopes等)間のm/z差異の使用により上で実現された改良点を考慮して、m/z差異のヒストグラムをSVM、SVR、NN又は他の適切な学習モデル等の学習モデル(又は分類器アルゴリズム)への入力として使用した。以下は、SVMベースのフィルタに着目するものである。このSVMについては、長さ187(アミノ酸残留物の最大マス)のベクトルを、[0.5,1.5]、[1.5,2.5]等から[186.5,187.5]までのm/z差についてビンをもつように生成した。ヒストグラム・ビンへの入力項目iは、スペクトル内のすべてのピーク対にわたる総計として定義される。
この式は、Norm/(x)+Norm/(y)ではなく、min{1/Rank(x),1/Rank(y)}を用いる点で、Good−Diff Fraction(特徴4)と異なる。式1/Rank(x)と式1/Norm/(x)と間の差異は、すべてを線形変換でシフトすることにより単純に取得されるため、ここでは重要ではない。総計と最小値との間には差異があり、最小値は、これがより良好なSVM分類性能を与えるために選択されたものである。SVMがより良好な正規化の解を学習することができると考えられたため、強度の正規化がSVM入力データに対して必要であるかどうか試験するために、1/Rank(x)の代わりに、未処理強度もまた試行した。しかしながら、1/Rank(x)の正規化は、実際には、分類性能を2ないし3%だけ改善するのに有用であることが見出された。
【0029】
SVMフィルタについては、SVM−Lightが使用され、「良好な」スペクトルの1/4及び「不良な」スペクトルの1/32について訓練された。この設計においては、訓練ベクトルの約30%が、最終的には支持ベクトルとなる。訓練を促進するために、「良好な」データの4分の3及び「不良な」ものの4分の1のみについて試験を行った。ラジアル基底関数を使用し、ガンマについての良好なデータ(500)、すなわち、基底関数の幅のパラメータを見出す実験を試みた。訓練の組の誤差についてはデフォルトのペナルティ値を使用し、二種類の誤差の相対的なコストを調整して「良好な」スペクトルの90%の正しい分類を取得した。
図10及び以下の擬似コード・リストは、異なるベクトルの分類を可能にするSVMフィルタ(分類器)についての手順を示す。
analyze(difference_vector){
analyze=svm_classify(difference_vector,surface);
}
擬似コード・リスト6
【0030】
SVM分類器等のモデル化分類器を用いて、ステップ110(図10)において、差異ベクトル及びn次元表面の情報を分類器に入力し、次いでステップ112において、入力情報を分析するように分類器に要求する。
表IIは、異なるダルトン範囲での動作について、SVMフィルタの動作により取得された結果を与える。具体的には、1から187までの1デカのビンをもつ差異ヒストグラムに加えて、1から384までの1デカのビン及び1から187までの0.5デカのビンをもつ、より大きい差異ヒストグラムもまたSVMへの入力として考慮された。
表II
【0031】
図11は、偽陽性と偽陰性との間の妥協を示す、SVMフィルタの受信オペレータ特性(ROC)曲線を与える。例えば、「良好な」スペクトルの15%の損失が許容できる場合には、「不良な」スペクトルのほぼ80%を除去することができるが、「良好な」スペクトルの5%の損失が最大に許容できる場合には、「不良な」スペクトルの約60%しか除去することができない。(より完全なROC曲線を作成するために、ラジアル基底関数カーネルについての幅のパラメータのガンマを変更したので、表IIにおいて、数は正確に整合しない。)
SVM手法は、特化された特徴の手法より明らかに良好な結果を与えることが判明し、性能は、入力ベクトルの増大するサイズと共に僅かに改善した。稼動時間は、サイズが増加するに伴い遅くなる。一般に、SVMフィルタ(分類器)は、QDAフィルタ(分類器)より低速であるが、SEQUEST自体を稼動させるほど低速ではない。最速のSVMフィルタ(1から187までの1デカのビン)は、20,000スペクトルを処理するのに362秒をかかるのに対して、QDAフィルタは、同じスペクトルを処理するのに114秒かかる。SEQUESTは、小規模(1MB)データベースを用いると、1スペクトル当たり1秒までかかり、大規模(100MB)データベースについては、1スペクトル当たり15秒までかかる。
IV.回帰
【0032】
バイナリ分類器は、SEQUESTの処理能力を改善するために、スペクトルをフィルタ処理するのに十分なものであるが、数値による品質採点を各々のスペクトルに割り当てて、さらに別の処理のために高品質の識別されていないスペクトルを優先させる問題に対処することにも関心がある。これは、バイナリ変数ではなく連続的な値を予測することを試みるので、回帰問題である。
品質の連続的な値は、高強度のピーク間で観測されたbイオン及びyイオンの断片であると定義された。より具体的には、Lengthがペプチド中のアミノ酸の数を示すとすると、Qualityは、次式のように定義される。
Quality=1/2(#b+#y)/(Length−1)
ここで、#bは、順位<6・Lengthである場合のbイオンのピーク数であり、#yは、順位<6・Lengthである場合のyイオンのピーク数である。この値は、「良好な」スペクトルの帰納的解析を用いて算出することができる。例えば、ピークの単純な存在/不在ではなく正規化された強度を用いた類似定義のような他のQualityの定義、及び、識別されていないピークについてペナルティを科された別の定義が考慮された。種々のQuality定義が、同様な結果を与えた。引用された定義は、人間により最も解釈可能であるため選択され、この特徴は、いずれのbイオン及びyイオンも観測されない0から、すべての可能性のあるbイオン及びyイオンが観測された1.0まで及ぶ。さらに、データベース検索及びde novoの両方の多くのペプチド識別プログラムは、或る種の正規化された強度ではなく、bイオン及びyイオンの存在/不在に依存する。
【0033】
次に、スペクトル品質を予測する特徴の線形結合を求めるために、7つの特化された分類特徴を説明変数とし、Qualityを応答変数として、多変量線形回帰を実行した。多変量線形回帰は、P値により判断されたときには非常に大きい非ゼロ係数である、分類特徴を2つだけ与えた(Good−Diff Fraction及びComplements)。回帰についてのR2値は、線形結合がQualityとの相関係数√0.537、すなわち、0.73を有することを意味する0.537であった。
回帰は、予測されたQualityが「良好な」スペクトルの平均Qualityより良好な採点である、0.28までであった数千もの不良なスペクトルを識別し、これは、すべての可能性のあるbイオン及びyイオンの28%のみがスペクトル内の最良順位のピークにおいて出現したことを意味する。6つの最良の「不良な」スペクトル(すべてが、0.44を上回る予測Qualityをもつ)を、Lutefisk、すなわち、de novoペプチド・シーケンサにサブミットした。6つのスペクトルのうちの2つについて、Lutefiskは、BLAST整合アルゴリズムにより、ウシ血清アルブミンと独特に整合することができる部分配列を与えた。表IIIは、これらの成功の1つを示し、括弧付きの数値は、そのマスを合計する、場合によっては改質された識別されていない残留物を意味する「マスの相違」を示す。
表III
最良の不良なスペクトルについての上位5つのLutefisk識別
【0034】
MDKEACFAVEによるBLAST検索は、ENFVAFVDKCCAADDKEACFAVEGPKの配列を有するウシ血清アルブミンとの整合を与える。文字GPは、154.1デカのマスの相違を完全に埋めるため、ウシ血清アルブミンが混合物中のタンパク質の1つであったことを知らなくても高い識別尤度が存在する。しかしながら、正しい配列ENFVAFVDKCCAADのいずれの接尾文字も、[430.2]GSTWW[210.2]EMと同じマスにはならず、これは、スペクトルにおけるすべてのピークが、ウシ血清アルブミンからの改質されていないペプチド内のあるべき場所からシフトされたことを意味する。(実際に、Lutefiskは、bイオンからの助けを借りずに、yイオンのピークのラダーに基づいてDKEACFAVEを認識した。)従って、このスペクトルは、改質又は変異ペプチドからなると思われる。
【0035】
説明された実施形態は、コンピュータ又は他のマイクロプロセッサ・ベースの装置等のコンピュータ・システムの使用(並びに特化された電子回路の使用)によって実施できることを認識すべきである。図12は、ここで説明された概念を実施することができるコンピュータ・システム130を示す。コンピュータ・システム130は、CPU134及びメモリ136を組み込み、ネットワーク・インタフェース138を含むことができるコンピュータ132を含む。ネットワーク・インタフェース138は、コンピュータ132に、ネットワーク接続142上でのネットワーク140に対するアクセスを与える。コンピュータ132はさらに、ユーザ・インタフェース装置146、格納システム148、タンデムマス分光計(図示せず)及び取り外し可能媒体データ装置150に接続されたI/Oインタフェース144を含む。取り外し可能媒体データ装置150は、典型的にはプログラム製品154を含むコンピュータ可読媒体152を読み取る。(取り外し可能媒体データ装置150と併せて)格納システム148及びコンピュータ可読媒体152は、ファイル格納機構を含む。
【0036】
コンピュータ可読媒体152上のプログラム製品154は、一般に、ここで説明されたプロセス並びに他のプロセスを実行するようにCPU134に指示するプログラム156としてメモリ136に読み込まれる。コンピュータ・プログラム156は、装置内のROMのようなコンピュータ使用可能データキャリアにおいて、取り替え可能ROM内で、メモリ・スティック、CD、フロッピー(登録商標)、DVD、又は他の有形の媒体において具体化することができる。さらに、プログラム製品154は、ネットワーク・インタフェース138によって(信号が変調される搬送波、又は、光、無線、及び電気信号を含む他のデータ送信技術の有無にかかわらず)伝送媒体により具体化されたコンピュータ指示信号として、ネットワーク140を用いてアクセスされる装置から与えられる。ネットワーク140は、別のコンピュータ使用可能データキャリアである。コンピュータ132と通信する装置は、さらに、コンピュータ132を用いて、ネットワーク・インタフェース138によってネットワーク140に接続することもできる。MS/MS等のマス分光計システム158は、ネットワーク接続160にわたるネットワーク140上で通信するように構成することができる。システム158は、さらに、ネットワーク・インタフェース138又はI/Oインタフェース144(図示せず)により、好ましいチャネル162上でコンピュータ132と通信する。さらに、マス分光計により生成されるスペクトルを、ここに開示される方法を実行する別個のコンピュータにより処理して、スペクトルデータをフィルタ処理し、選択されたスペクトルデータを識別プログラムに供給することができる。
このようなフィルタ処理装置は、タンデムマス分光計と共に含んでもよいし、又はこれに取り付けてもよい。さらに、既存のde novo又はデータベース検索識別プログラムは、ここで開示されたフィルタを含むことができる。
【図面の簡単な説明】
【0037】
【図1】タンデムマス分光計のデータをタンパク質配列のライブラリからの配列と相関させるプロセスのブロック図である。
【図2】ピーク品質の事後値との順位及び相対強度の相関を示す。
【図3】フィルタ処理作用のための上位のフロー図を示す。
【図4】フィルタ処理作用と関連付けられた例示的な状態を示す。
【図5】例示的な訓練技術を示す上位のフロー図を示す。
【図6】マスフラグメントスペクトルの一部のピーク対の差異に応じたアレイを構築する方法を示す。
【図7】特化された特徴値を生成して、ベクトルがn次元空間内のどこに位置するかを求めるプロセスを記述するブロック図である。
【図8】Isotope特徴を生成するためのブロック図を示す。
【図9】Intensity balance特徴を生成するためのブロック図を示す。
【図10】モデル化分類器を使用して差異アレイ及びn次元表面の情報を分析する方法を示す。
【図11】偽陽性と偽陰性との間の妥協を示す受信オペレータ特性(ROC)曲線をSVMベースのフィルタに与える。
【図12】ここで説明された概念を実施することができるネットワーク化されたコンピュータ・システムを示す。
【符号の説明】
【0038】
12:タンデムマス分光計
18:フラグメントスペクトル
20:フィルタ
21:シーケンサ
【技術分野】
【0001】
本出願は、限定されたプールから引き出されたマスを有するモノマーからなるポリマーに向けられる。
【背景技術】
【0002】
モノマーが限定されたアミノ酸の組(典型的には約20)であるペプチド、又はモノマーが小さな単糖類の組(典型的には約5)である場合のグリカンが例となる。より特定的には、本出願は、こうした分子から生成されるマスフラグメントスペクトルの自動品質評価に向けられる。自動品質評価の詳細は、タンデムマス分光計(MS/MS)の使用によって生成されるペプチドのスペクトルに着目して説明される。他の技術を使用して、実質的に同様の結果を得ることもできることを認識すべきである。以下の説明では、ペプチド分析について述べるが、本出願の概念は、他のポリマーに適用可能であることを理解すべきである。本出願の概念は、フラグメントスペクトルを形成することができる他の分子にも適用することができる。
【発明の開示】
【課題を解決するための手段】
【0003】
本出願は、スペクトルのピーク対の差異を用いて算出される、マスフラグメントスペクトルの品質を求めるシステム及び/又は方法を提供する。
【発明を実施するための最良の形態】
【0004】
以下の説明では、スペクトルを識別プロセスに与える等のさらに別の処理の前に、マスフラグメントスペクトルの品質を評価するフィルタに着目する。フィルタ処理は、比較的良好なスペクトルを確実にする際に助けとなり、データベース検索の識別プログラム(中でも、SEQUEST及びMascot等)又はde novo配列決定プログラム(Lutefisk等)のような時間のかかる付加的な処理ステップに送られる。さらに、フィルタのアルゴリズムを用いて、変換後修正データベースをもつSEQUEST、GutenTagを用いた部分配列識別のようなさらに時間のかかる分析を保証する高品質スペクトルを識別することもできる。
以下に説明される種々のフィルタは、不良なスペクトルのおよそ75%又はそれ以上を除去し、高品質(識別可能な)スペクトルはおよそ10%だけ損失することを示す。
【0005】
さらに、ペプチド識別の10%の損失は、タンパク質の識別数において、より小さな損失を負うことも判明した。クラミジア・プロテオームの大規模な研究において、従来技術に基づくフィルタの後に連続して適用される本特許において開示される種類のフィルタは、正しいペプチド識別の5%及び正しいタンパク質識別の3%を損失するに過ぎない。これは、単純なフィルタにより除去されるものを上回り、不良なスペクトルの付加的な44%を除去して、その結果、コンピュータ処理能力をほぼ2倍に改善し、大きい多種の「誤った選択肢」データベースを検索する場合に、不正確な(クラミジアではない)ペプチド及びタンパク質の識別数を減少させた(それぞれ8%及び12%だけ)。
例示的な本実施形態の一態様においては、マスフラグメントスペクトル又はこうしたスペクトルの一部にアクセスするステップを与えるコンピュータにより制御されるフィルタ処理方法が記載される。この場合、スペクトルのピーク差異に応じたデータ構造(アレイ等)が構築され、この構築されたデータ構造に応じたスペクトルが選択される。
【0006】
別の例示的な実施形態では、マスフラグメントスペクトルの一部にアクセスするステップを与えるコンピュータにより制御されるフィルタ処理方法に向けられる。この場合、スペクトルの強度バランスに応じた特徴ベクトルが構築され、この構築されたアレイに応じてスペクトルが選択される。
図1は、タンデムマス分光計のデータをタンパク質配列ライブラリからの配列と相関させるプロセスのブロック図である。図1は、フィルタをどこに使用することができるかについての一例を示す。フィルタは、さらに、品質スペクトルを使用する必要がある統計分析、並びに、本発明によりここで可能になる将来の用途等の他の用途に使用することもできる。このプロセスでは、スペクトルと配列ライブラリとの間の比較の前に、フィルタ処理作用を行うようにフィルタを組み込む。分析のための材料の入力は、未知のペプチド試料10であり、これらに限定されるものではないが、多糖類、脂質、又はポリヌクレオチドを含む他の試料とすることができる。典型的には、ペプチドは、一部が断片化したタンパク質を分離するのに使用されたクロマトグラフィの列から出力される。タンパク質は、例えば、ゲル濾過クロマトグラフィ及び/又は高性能液体クロマトグラフィ(HPLC)により断片化することができる。試料10は、電気噴霧イオン化(ES)等のイオン化法によって、タンデムマス分光計12に導入される。第1のマス分光計14において、ペプチド・イオンが選択されて、特定のマスの目標とされる成分が、試料10の残りから分離される。目標とされる成分は、活性化させられるか又は分解される。ペプチドの場合は、結果として、イオン化された親ペプチド(「先駆体イオン」)と種々の状態にイオン化されるより低いマスの成分ペプチドとの混合物がもたらされる。衝突誘起解離(CID)、電子捕獲解離、マトリックス支援レーザ脱離/イオン化解離等を含む多数の活性化法を使用することができる。
【0007】
親ペプチド及びそのフラグメントは、第2のマス分光計16に与えられ、このマス分光計が、フラグメント混合物中の複数のフラグメントごとの強度及びマス電荷比(m/z)を出力する。この情報は、フラグメントマススペクトル18として出力されて、各々のフラグメントは、横座標値がマス電荷比(m/z)を示し、縦座標値が強度を示すヒストグラムとして表される。スペクトルは、様々なもののうちの1つとすることができるフィルタ20に供給される。フィルタ20は、スペクトルを分析して分類し、許容可能と判断されたスペクトルは、分子について1つ又はそれ以上のタンパク質配列を生成するシーケンサ21(例えば、データベース・シーケンサ又はde novoシーケンサ)に送られる。多くの場合、タンパク質配列を検証することができる。例えば、データベース・シーケンサを用いて、タンパク質配列をタンパク質配列ライブラリからの配列と比べることができる。
追って説明するフィルタを生成する際に、68,978のタンデムマススペクトルは、4つの異なるプロテアーゼ(トリプシン、エラスターゼ、スブチリシン、及びプロテイナーゼK)で消化された5つのタンパク質(ウサギ・ホスホリラーゼa、ウマ・シトクロムc、ウマ・アポミオグロビン、ウシ血清アルブミン、及びウシβ−カゼイン)の公知の混合物から取得された。68,978のスペクトルのうち、5,678が「良好」と表示が付され、これは、907,654の入力項目をもつ全米バイオテクノロジ情報センター(NCBI)の非冗長的なタンパク質データベースに対するSEQUEST検索により、混合物中の5つのタンパク質の1つ、又はケラチン若しくは消化に用いられる酵素の1つのような汚染物質と思われるものと整合することを意味する。他の63,300のスペクトルは「不良」と表示が付されたが、これらのうちの幾つかは、変異又は改質ペプチドの高品質スペクトルであった。「不良な」スペクトルのこうした大きな割合は、HPLCに典型的なものであり、そこで、溶出されたペプチドは、マス分光計の中に連続して電気噴霧される。スペクトル検査に使用することができる1つのMS装置は、m/z(電荷上マス)がカット・オフから200ないし300デカまでであり、1000までのm/zにおいて解像度が0.3デカまでであるイオン・トラップ装置である。他のMS装置もまた用いることもできる。デカは、単位電荷当たりのダルトンの代わりに略式で書かれるものである。
I.強度の正規化
【0008】
ここでは、すべてのMS/MS分析プロセスに共通する問題、すなわちスペクトル内で生成されるピーク強度に注意が向けられる。ピーク強度は、スペクトル間で極めて変化しやすいものとして広く認識されている。従って、これまでに、例えば、配列データベースとの比較に用いられるアルゴリズムにおいて用いるための強度情報を正規化する合意された手順は存在していなかった。強度に基づく採点は、それ自体の課題の組を提示する。未処理の強度は、最大強度及び合計強度が「良好な」データの群分けの中で2又は3のオーダーの大きさにわたり変化するため、使用するにはあまりに変化が大きすぎる。単一の高いピーク又はノイズ・ピークの低いバックグラウンドは、多くの場合、2又は3倍だけ値をシフトさせるので、相対強度(すなわち、合計強度により除算された未処理の強度)の方が良いとはいえ、やはり極めて変化しやすい。
【0009】
発明者は、スペクトルのピーク強度を順位付けする手順を実施することによって、強度の変動を最小限にした。これらの順位付けの生成に続いて、相対強度と順位に基づく強度との間で試験を行った。結果を、図2に示す。凹凸の増加する曲線28は、所与の相対強度のピークがbイオン又はyイオンになる確率を示す。この線については、x軸は、百分率の100分の1であり、すなわち、50は、このピークにおける合計イオン強度の0.5%であることを意味する。ビンのサイズは、順位曲線30とおよそ同じ0.1ないし0.8の範囲にわたり延びる曲線を供給するように選ばれた。y軸は、(#b+#y)/(#b+#y+#?)を示し、ここで、#bは(1416の識別されたスペクトルからの)所与の強度のbイオンのピーク数であり、#yはyイオンのピーク数であり、#?は識別されていないピーク数である。他の識別されたピーク(同位体、aイオン、水分又はアンモニア損失、内部フラグメント)は、確率の勘定に入れられなかった。より凹凸が少ない、減少する順位曲線30は、所与の順位のピーク(順位1=最も強い)がbイオン又はyイオンになる確率を示す。滑らかな曲線32は、比較のために示される指数関数である。順位に基づく強度の正規化(すなわち、順位曲線30)の方が、相対強度(すなわち、相対強度曲線28)より凹凸が少ない曲線を与えるという事実は、順位に基づく強度の正規化の使用により、確率推定が改善する(より変動が少ない)ことを示す。
【0010】
図2は、順位強度及び相対強度が、訓練の組における「良好な」スペクトル上で算出されたピーク品質の事後値とどれだけ良好に相関するか、すなわち、ピークがbイオン又はyイオンである確率を示す。各々のスペクトルは、すべての順位(少なくとも順位200あたりまで)のピークを有するが、スペクトルは相対強度がかなり異なり、そのため、順位による確率推定は、相対強度による推定より、はるかに低い変動を有する。強度における順位についてのこうした利点が、確率に基づく採点及び特徴にまで及ぶ。
図2は、順位を用いるための特に単純な方法を正当化するものである。上述のように、順位対確率のグラフは、負の指数関数に極めて良好に適合する。このように、この文献において支持されている、確率的な採点関数に対するピークxの寄与は、ピークがbイオン及びyイオンである寄与の合計が、定数にログ尤度を加えたものに等しくなるように、定数に1/Rank(x)を加えたもに比例すると考えられる。従って、最大の堅牢性については、相対強度ではなく、順位に基づく強度の正規化が、フィルタの生成に用いるのに選択され、そこでは、最も強いピークが順位=1、2番目に強いものが順位=2等を有する。
【0011】
図3は、本出願によるフィルタ処理作用についての上位のフロー図を示す。以下に詳細に説明されるように、このフロー図は、スペクトル識別技術と関連させて「良好な」入力スペクトルと「不良な」入力スペクトルデータとを区別するために使用することができる。一般に、「良好」と判断される入力スペクトルは、関心のあるポリマーに対応するスペクトルのことを指し、「不良」と判断される入力スペクトルは、このポリマーに対応しないスペクトルのことを指す。以下は、説明の目的で与えられるものであり、限定するものではないことを認識すべきである。
ステップ36において、入力スペクトルデータを取得する。或る場合においては、入力スペクトルデータは、種々の長さのペプチド等の、より小さい断片に消化されたタンパク質を含む。より小さい断片は、それぞれの断片についてスペクトルを生成するタンデムマス分光計(MS/MS)に与えることができる。他の態様においては、入力スペクトルデータは、スペクトルによって表すことができる他のエンティティと関連付けることができる。さらに、入力スペクトルデータは、ステップ36において、個別の試料の状態で及び/又はストリームとして与えることができる。ステップ38において、入力スペクトルデータを、n次元空間内に位置決めする。ここで説明されるように、様々に成形された決定表面は、訓練によって、例えば公知の「良好な」及び「不良な」データをもつ1つ又はそれ以上の訓練の組によって、n次元空間について生成することができる。こうした訓練は、ステップ38において、入力スペクトルデータを受信する前に実行することができる。別の態様においては、こうした表面を生成し、(例えば、ファイルとして)保存し、必要なときに検索することができる。ステップ40において、入力スペクトルデータが上述の表面に関して、n次元空間内のその位置の関数として「良好な」データであるか又は「不良な」データであるかについて判断がなされる。例えば、入力スペクトルデータは、n次元空間の「良好な」(又は「OK」)領域内にあるときに「良好な」データと表示を付すことができ、入力スペクトルデータが、n次元空間の「良好な」領域内にないときには「不良な」データと表示を付すことができる。ステップ42において、「良好」と判断された入力スペクトルデータは、(例えば、SEQUESTにより)図1と関連させて説明された配列データベースについてのスペクトルの比較/識別のように、さらに処理することができる。「不良」と判断された入力スペクトルデータは、無視、破棄、削除する等してよい。図3においては、入力スペクトルデータの後に続く試料及び/又はストリームについて、これらのステップを繰り返すことができる。
【0012】
図3で説明されたステップは、図4に示すように、付加的に又は代替的に、状態機械として示すことができる。状態44は待機状態を表し、ここでは、状態機械が(例えば、所定の間隔で)ポーリングして、入力スペクトルデータが使用可能であるか、及び/又は、例えばイベント、割り込み等によって通知されるまでアイドル状態でいることができるかどうか判断することができる。入力スペクトルデータが使用可能になった場合には、状態機械は状態46に移行して、入力スペクトルデータを、例えばこの入力スペクトルデータを読み取ることによって取得することができる。入力スペクトルデータは、ブロック(例えば、一度に8バイトずつ)として読み取られて、1つ又はそれ以上のブロックが、同時に及び/又は連続的に分析される。入力スペクトルデータの適当な部分(例えば、1つのブロック、2つのブロック、ストリーム全体等)が取得された場合には、状態機械は状態48に移行し、入力スペクトルデータが分析されて、「良好な」データ(例えば、n次元空間の「良好な」領域に位置している)であるか又は「不良な」データ(例えば、n次元空間の「良好な」領域に位置していない)であるかが判断される。入力スペクトルデータが「不良な」データであると判断された場合には、状態機械は状態44に戻るように移行して、次の使用可能な入力スペクトルデータを待機する。入力スペクトルデータが「良好な」データであると判断された場合には、図1に関連して説明された配列データベースについてのスペクトルの比較/識別等のために、この「良好な」データは、格納されるか又は分析される。状態機械は、状態44に戻るように移行して、次の使用可能な入力スペクトルデータを待機する。幾つかの実施形態においては、良好/不良の結果値が生成される。この値は、試料の良好又は不良の表示を与えることができる。
【0013】
入力スペクトルデータが「良好」であるか又は「不良」であるかを判断するために図3で使用された表面は、訓練によって生成することができる。図5は、例示的な訓練手法を示す上位のフロー図を示す。ステップ52において、訓練データが与えられる。訓練データは、フィルタにより作動させることができる任意の適切なデータとすることができる。訓練データは、「良好な」データ及び「不良な」データの1つ又はそれ以上の組を含むことができる。ステップ54において、訓練データを使用して、n次元(又は多次元)空間内に表面を生成する。ステップ56において、表面を保存し、次いで採用して、スペクトルを整合させる場合、処理能力及び堅牢性を改善するスペクトルデータベースの検索中に、「不良な」データの使用を減少させるために、入力スペクトルデータが「良好」であるか又は「不良」であるかを判断することを容易にすることができる。或いは、表面を生成し、使用して、破棄することができる。
以下は、図3ないし図5の1つ又はそれ以上と関連させて説明されたステップの1つ又はそれ以上を実施するのに使用することができる例示的な擬似コードを与える。
Main{
global multidimensional_space surface[];
spectrum_buffer[];
surface=train(training_samples);
while true{
spectrum_buffer=read(input_spectrum);
if(spectrum_OK(spectrum_buffer,surface))write(spectrum_buffer);
}
}
擬似コード・リスト1
【0014】
擬似コード・リスト1は、スペクトルのストリームから幾つかのスペクトルを選択し、他のスペクトルを破棄するフィルタを示すが、当業者であれば、別の実施形態は(スペクトルをフィルタ処理する代わりに)各々のスペクトル品質を格付けし、この品質の格付けを各々のスペクトルと関連付けることができることを理解するであろう。後に続くスペクトル処理は、他のスペクトル特性と併せて品質の格付けを考慮することができる。
擬似コード・リスト1に注意して、任意の関数「訓練」は、入力を受け取り、n次元空間内に表面を生成することができる。この関数は、ここで生成されるものではなく、以前に生成された表面を記憶装置(例えば、メモリ、ディスク、CD等)から読み取ることができるという点で任意的である。例えば、フィルタを最初に訓練して、表面を記憶装置(例えば、ファイル)に保存して、後に続くフィルタの呼び出しにおいて、以前に保存されたファイルから、フィルタにより、この表面を入力することができる。擬似コードは、好適な表面が既に存在するかどうかをチェックして判断する付加的な記述(図示せず)を含むことができる。既存の表面又は新たに生成された表面のいずれかを使用することができる。別の例では、訓練関数を呼び出すべきかどうかを示すフラッグを、引数として又は(例えば、オブジェクト指向プログラミング法の)コンストラクタによって送ることができる。表面が取得されるか又は定められる(すなわち、フィルタが訓練される)と、フィルタは、入力スペクトルデータを読み取り、(スペクトル・バッファ内の)この入力スペクトルデータが表面の関数としてn次元空間の「良好な」領域内にあるかどうか判断する。次いで、試験されるスペクトルが「良好」(すなわち、「OK」)であると判断された場合には、さらに別の識別動作に使用されるべきスペクトルデータが書き込まれる(又は送られる)。訓練データは、良好又は不良の分類を与えられた、以前に分析されたスペクトルである。訓練データは、スペクトル分析プログラムにより生成される「良好」又は「不良」の値を含むことができる。
【0015】
図2及び擬似コードに関する上記の説明は、主として、バイナリ・フィルタと考えることができるものの概念に向けられている。具体的には、表面はn次元空間にあり、この表面の「良好な」側にある点により表されるスペクトルは、さらに別の処理に送られるのに対して、「不良な」側にある点を表すスペクトルは、不良であるとして破棄、無視、フラッグ付けされる等になる。図2及び擬似コード・リスト1は、さらに、統計回帰法に適用して、連続する品質メトリックを生成することができることを認識すべきである。
回帰法を使用する場合には、訓練データは、各々の訓練データのスペクトル上に連続する品質採点を有する。この方法は、この訓練データから回帰関数を生成し、新規なスペクトルが与えられると、訓練データと一致する品質採点を割り当てる。
【0016】
本実施形態においては、n次元空間内の点には、この点により表されるスペクトルの「品質」を表す数値が割り当てられる。例えば、本実施形態においては、点には、訓練データに関する点の品質を表す数字をもつ値が割り当てられてもよい。
フィルタがバイナリ又は連続する品質メトリック型のものであるかどうかにかかわらず、概して、これらのフィルタを生成するのに2つの手法が存在する。第1の手法が、専門知識を組み込む多数の特化された特徴を考案するものであるのに対して、代替的手法は、これらに限定されるものではないが、訓練データから学習することができる、Support Vector Machines(SVM)、Support Vector Regression(SVR)及びNeural Networks(NN)等の学習モデル又は分類アルゴリズムに、あまり処理されていない高次元データを供給するものである。
II.特化された特徴を用いた分類
【0017】
ここでは、フィルタへの入力として特化された特徴と、以下の式による正規化された強度:
Norm/(x)=max{0,C1−(C2/MaxmZ)・Rank(x)}
を用いることに注目し、ここで、MaxmZは、スペクトル内の最大有効m/z値であり、C1及びC2は定数である。MaxmZは、一般に、より多いピークが、より長いペプチドに考慮されることを意味する。
特徴ごとのC1及びC2の値は、訓練の組において「良好」と「不良」との間の最良の区別を与えたC1及びC2の値を選出することによって別々に学習された。例えば、Good−Diff Fraction特徴については、C1=28及びC2=400であり、典型的な値であるMaxmZ=2000のときに、Rank(x)が#140である場合には、Norm/(x)がゼロより大きいことを意味する。一般に、フィルタを作る際には、C1及びC2は、はるかに低い順位のピークを使用する、追って説明する同位体特徴を除いては、異なる特徴についてほぼ同じであった。或るピークが別のピークに対して適切なm/z及び強度を有し、ピークの尤度を増加させるという事実は、有意義であるように見える。これは、どのように順位を品質フィルタに組み込むかについての一例に過ぎない。
【0018】
各々のスペクトルは、特徴データ構造にマップすることができる。好適なデータ構造の例には、n次元アレイ、ベクトル、及びデータ・レコードが含まれる。アレイの参照は、ここで開示される実施形態により使用することができる、データを構造化する多くの方法のうちの1つである。「ベクトル」及び「アレイ」は、プログラムされた手順又は関数の呼び出しにおいて別個の変数を関連付けることを含むフィルタ処理関数を実行する等価な実施形態により用いることができるデータ表現のいずれかを表す。
以下は、7次元データ構造(f1,f2,...,f7)、7次元空間(R7)内の点について述べ、ここで、fiは、下記のi番目の特徴値である。以下は、7次元空間より小さい又はこれより大きい次元空間において実施することができるものであり、しかも、7つの特徴により表される7次元空間より大きい又は小さい次元空間において用いるために、本出願の概念により他の特徴を生成することができ、Npeaksの特徴1(f1)、Total Intensityの特徴2(f2)、Good−Diff Fractionの特徴3(f3)、Isotopesの特徴4(f4)、Complementsの特徴5(f5)、Watrer Lossesの特徴6(f6)、及びIntensity Balanceの特徴7(f7)を含む、以下に説明される7つの特徴により表され、この7つの特徴は、次のように定義される。
(1)Npeaks。スペクトル内のピーク数。この特徴は、多くの場合、スペクトル品質のヒューマン・アセスメントに使用される。
(2)Total Intensity。スペクトル内のピークの未処理の強度の総計。
(3)Good−Diff Fraction。この特徴は、2つのピークがアミノ酸のマスにおいて、どれだけ異なる可能性があるかを判断する。或るi=1,2,...,20について、
とし、ここで、M(x)は、ピークxのm/z値であり、M1,M2,...,M20は、アミノ酸のマス(そのすべてが固有であるわけではない)である。,により示唆される比較は、対象とするイオン・トラップスペクトルにおいては0.37デカに設定された公差を使用する。ここで、
とすると、f3=GoodDiffs/TotalDiffsとなる。
(4)Isotopes。関連付けられた同位体ピークとの正規化されたピーク強度の合計。すなわち、次式となる。
(5)Complements。m/z値が親イオンのマスになる、正規化されたピーク対の強度の合計。特徴は、親イオンについて+2及び+3の両方の電荷状態(すなわち、2つの異なるMparentマス)を仮定して算出し、大きい方の特徴値を使用し、プログラム2ないし3において同じ技術を用いて、電荷状態を求める。
(6)Water Losses。m/z値が18デカだけ異なる、正規化されたピーク対の強度の合計(およそ18Daだけ異なるとは、水分子のマスだけ異なることを意味し、実際のマスの差異は、分光計の精度に依存する)。
(7)Intensity Balance。m/z範囲は、300デカと観測される最大m/zと間で10個の等幅の帯域に分けられる。特徴は、最大の強度をもつ2つの帯域における未処理の強度の合計から、最小の強度をもつ7つの帯域における未処理の強度の合計を引いたものである。
【0019】
特徴1、特徴2、及び特徴5は、当該技術分野において一般的に説明されている。しかしながら、これらの特徴のいずれかを、上で提示された新規の特徴、すなわち、特徴3、特徴4、特徴6及び特徴7の1つ又はそれ以上と組み合わせて用いることは、新規な特徴のいずれかを排他的に用いるため、新規であると考えられる。同様に、特徴3(Good−Diff Fraction)、特徴4(Isotopes)及び特徴6(Water Losses)を含む種々の特徴は、ピーク間の差異を取得する新規な手法を用いることによってスペクトルのスペクトル品質を求める。分類器に使用することができるピーク対の差異を生成する1つの方法は、以下の擬似コード及び図6により示される。
spectra_OK(spectra_buffer){
peak_array[] //array of peaks where each peak has a mass and intensity spectrum_buffer[];
difference_array[masses]; //array of mass differences
peak_array=convert_mass_intensity(spectrum_buffer);//determine peaks and
//peak intensities
for every relevant pair of peaks(p1,p2)in peak_array{
n=get_mass_difference(p1.p2);
n=round(n)//round n to an appropriate resolution difference_array(n)+=intensity(p1,p2);
}
spectra_OK=analyze(peak_array,difference_array);//analyze spectrum
}
擬似コード・リスト2
【0020】
擬似コード・リスト2及び図6は、マスフラグメントスペクトルの一部のピーク対の差異に応じたアレイを構築する。初期ステップ62(図6)において、スペクトルのマス強度を変換して、スペクトルのピーク・アレイを求める。その後、ステップ64において、ピークp1のマスがピークp2のマスより小さい、ピークp1とピークp2との間の差異を見出すことにより、ピーク対の間のマスの差異を取得する。次いで、ステップ66において、スペクトル内のピーク強度から差異アレイ値を取得する。ステップ68において、関連するピークの別の対が存在するかどうか判断される。別の対が存在する場合は、このピーク対の間のマスの差異を、ステップ64と関連して上述されたように取得し、スペクトル内のピーク強度から差異ベクトル値を取得する。マスの差異が、すべての可能性のあるピーク対について取得された場合には、ステップ70において、上で生成されたピーク・ベクトル及び差異ベクトルを考慮して、スペクトルを分析する。(例えば、図3ないし図4と共に)この分析結果を用いて、スペクトルが「良好」と考えられて、さらに別の分析に送られるのか、又は「不良」と考えられて除去されるのかを判断することができる。
【0021】
図7は、以前に述べられた分析されるべき特化された特徴値を生成するためのプロセスを記述し、特化された特徴により生成されるベクトルがn次元空間内のどこに位置するかを求めるための以下の擬似コードに相関するブロック図を示す。
analyze(peak_array,difference_array){
double vector[];
vector[1]=feature1(peak_array,difference_array);
vector[2]=feature2(peak_array,difference_array);
...
analyze=compare_v_s(vector,surface);//determine where vector
//falls in the n−dimensional space
}
擬似コード・リスト3
【0022】
ステップ82(図7)において、スペクトルのピーク・アレイ及び差異アレイを分析する手順が与えられる。ステップ84において、それぞれの特徴(例えば、特徴1ないし特徴7)に対応する特徴ベクトル値を取得する。2つのベクトル要素「ベクトル[1]」及び「ベクトル[2]」が、それぞれ第1及び第2の特徴について生成される。付加的な数の特徴を生成し、使用して、ベクトルの要素を表すことができる。次に、ステップ86において、n次元空間内の表面に対するベクトル(又は特徴)の比較を行って、それらのベクトルが、訓練データにより定義される表面に対して、n次元空間内のどこに入るかについて分析する。
以下の擬似コード・リスト及び図8は、「特徴4」(Isotope)の生成を記述するものである。
feature4(peak_array,difference_array){
feature4=0
For all k near 1{//the spectra peaks that differ by one Dalton,
//up to an appropriate resolution
feature4=feature4+difference_array[k];
}
}
擬似コード・リスト4
【0023】
ステップ90において、1ダルトンだけ異なるスペクトル・ピークからなる差異ベクトルを生成する(すなわち、Isotopes特徴)。次に、ステップ92において、特徴4の値を図7のもののようなフィルタに与える。例えば、特徴4の値を使用して、要素をベクトル(例えば、ベクトル[4])に表すことができる。従って、生成される特定の特徴は、スペクトル内のピーク間のピーク差異に基づく。しかしながら、ピーク差異の概念を採用しない実施形態において、本出願のフィルタを使用できることを認識すべきである。もっと正確に言えば、特徴が親イオンのマスの総計に基づく上記の特徴5(すなわち、Complements)等の特徴を使用することもできる。
擬似コード・リスト及び図9のブロック図により示される、差異の対に依存しない「特徴7」(例えば、特徴7(Intesity Balance))の記述を以下に示す。
feature7(peak_vector,difference_vector){
partitions[] //stores limits of each band
intensity[] //stores intensity of each band
partitions=partitionvector(peak_vector); //divide peak_vector into bands by
//m/z(the mass coord)
for each band
intesity[band]=determine_intensity(peak_vector,partions[band]);
sort(intesity);
feature7=sum(intensity of most intense bands)−sum(intensity of least intense bands);
}
擬似コード・リスト5
【0024】
擬似コード・リスト5及び図9は、特徴7、Intesity Balanceのものに対応する特化された特徴を反映する。ステップ100において、ピークをm/z値の関数として帯域に分ける。ステップ102において、帯域のピーク部分の強度を求める。ステップ104において、1つ又はそれ以上の他の帯域の強度を必要とするかどうかが判断される。必要とする場合には、残りの帯域のピーク部分の強度を求める。すべての帯域について強度が求められた場合には、ステップ106において、この情報を用いて、第2の特徴ベクトル(すなわち、上記のIntensity Balanceの特徴7)を生成し、これは、一実施形態においては、最大強度をもつ2つの帯域の未処理の強度の合計から、最小強度をもつ7つの帯域の未処理の強度の合計を引いたものである。その後、「特徴7」をフィルタ(例えば、図7)に与える。例えば、特徴7の値を使用して、フィールドをベクトル「v」に表すことができる(例えば、v[7])。
フィルタによる分類については、「良好」と「不良」との間の二次的な決定境界を定める二次判別分析(QDA)を使用した。この単純な方法は、特に、中心極限定理による近似ガウス分布を有する、ここで使用されるもののような加算特徴と良好に作用する。
【0025】
発明者による調査では、2つの別個の分類器を上述の手順を用いて、1つが単独で帯電された親イオンと、1つが多重に帯電されたものについて訓練した。QDA分類器を訓練することは、特徴について平均及び共分散行列を算出することを含む。適合をより堅牢なものにするために、(いずれかの特徴の値がその特徴の上又は下の1%内に入る場合には)範囲外の特徴ベクトルを除去した。特徴の選択については、特徴の組のすべてのサブセットを試験し、訓練の組において最高のバイナリ分類性能を与えたものを選択した(「良好」の4分の1及び「不良」の8分の1)。オッカムのレーザが加えられ、それにより特徴のサブセットは、その正しい分類の割合(「良好」及び「不良」の両方)が上位集合の0.5%の範囲内にある場合に好ましいとされた。しきい値が決定表面(確率比に対する同等表面)上で調整されて、「良好な」スペクトルの90%が良好と分類された。このしきい値は、例えば、一次元高性能液体クロマトグラフィ(HPLC)のあまり積極的でないフィルタ処理を用いて、特定の必要条件に応じて調整することができる。単独で帯電したスペクトルについてのバイナリ分類器は、Good−Diff Fraction、Complements、Water Losses、及びBallanceの4つの特徴を使用した。
【0026】
多重に帯電したスペクトルについてのバイナリ分類器は、Good−Diff Fraction、Isotopes、Water Losses、及びBallanceの4つの多少異なる特徴を使用した。特化された特徴を用いた上述のフィルタについての試験の組(「良好」の3/4及び「不良」の7/8)の結果が表1に示されており、ここでは、例えば、単独で帯電された「良好な」スペクトルの89.9%が、このバイナリ・フィルタ(分類器)により良好とみなされた。
表1
試験の組に関する誤差率は、本質的には、訓練の組によるものと同じであった。単独で帯電された親イオンからのスペクトルの分類問題は、一般に、単独で帯電された親イオンのフラグメント化は不十分であるために、多重に帯電された親イオンについてよりわずかに困難である。
【0027】
Npeaks(特徴1)及びTotal Intesity(特徴2)のみを使用するバイナリ・フィルタは、新たに提示された特徴の種々のものを採用するフィルタよりはるかに弱い結果、すなわち、「良好な」スペクトルの90%が良好と分類される場合に、不良なスペクトルが54%しか除去されないという結果を与える。
compare_v_s関数が、n次元空間内にベクトル又は点を位置決めし、ベクトルが表面のどちら側に入るかに応じて、真/偽の値を戻し、このようにしてバイナリ分類法に対応する。回帰法を用いる場合には、当業者であれば、回帰(IV)のセクションに関して後で説明されるように、回帰関数をベクトルに適用した後で品質採点を戻す異なる関数が呼び出されることになることを理解するであろう。
III.SVM等の学習モデルによる分類
【0028】
ピーク(Good−Diff Fraction、Isotopes等)間のm/z差異の使用により上で実現された改良点を考慮して、m/z差異のヒストグラムをSVM、SVR、NN又は他の適切な学習モデル等の学習モデル(又は分類器アルゴリズム)への入力として使用した。以下は、SVMベースのフィルタに着目するものである。このSVMについては、長さ187(アミノ酸残留物の最大マス)のベクトルを、[0.5,1.5]、[1.5,2.5]等から[186.5,187.5]までのm/z差についてビンをもつように生成した。ヒストグラム・ビンへの入力項目iは、スペクトル内のすべてのピーク対にわたる総計として定義される。
この式は、Norm/(x)+Norm/(y)ではなく、min{1/Rank(x),1/Rank(y)}を用いる点で、Good−Diff Fraction(特徴4)と異なる。式1/Rank(x)と式1/Norm/(x)と間の差異は、すべてを線形変換でシフトすることにより単純に取得されるため、ここでは重要ではない。総計と最小値との間には差異があり、最小値は、これがより良好なSVM分類性能を与えるために選択されたものである。SVMがより良好な正規化の解を学習することができると考えられたため、強度の正規化がSVM入力データに対して必要であるかどうか試験するために、1/Rank(x)の代わりに、未処理強度もまた試行した。しかしながら、1/Rank(x)の正規化は、実際には、分類性能を2ないし3%だけ改善するのに有用であることが見出された。
【0029】
SVMフィルタについては、SVM−Lightが使用され、「良好な」スペクトルの1/4及び「不良な」スペクトルの1/32について訓練された。この設計においては、訓練ベクトルの約30%が、最終的には支持ベクトルとなる。訓練を促進するために、「良好な」データの4分の3及び「不良な」ものの4分の1のみについて試験を行った。ラジアル基底関数を使用し、ガンマについての良好なデータ(500)、すなわち、基底関数の幅のパラメータを見出す実験を試みた。訓練の組の誤差についてはデフォルトのペナルティ値を使用し、二種類の誤差の相対的なコストを調整して「良好な」スペクトルの90%の正しい分類を取得した。
図10及び以下の擬似コード・リストは、異なるベクトルの分類を可能にするSVMフィルタ(分類器)についての手順を示す。
analyze(difference_vector){
analyze=svm_classify(difference_vector,surface);
}
擬似コード・リスト6
【0030】
SVM分類器等のモデル化分類器を用いて、ステップ110(図10)において、差異ベクトル及びn次元表面の情報を分類器に入力し、次いでステップ112において、入力情報を分析するように分類器に要求する。
表IIは、異なるダルトン範囲での動作について、SVMフィルタの動作により取得された結果を与える。具体的には、1から187までの1デカのビンをもつ差異ヒストグラムに加えて、1から384までの1デカのビン及び1から187までの0.5デカのビンをもつ、より大きい差異ヒストグラムもまたSVMへの入力として考慮された。
表II
【0031】
図11は、偽陽性と偽陰性との間の妥協を示す、SVMフィルタの受信オペレータ特性(ROC)曲線を与える。例えば、「良好な」スペクトルの15%の損失が許容できる場合には、「不良な」スペクトルのほぼ80%を除去することができるが、「良好な」スペクトルの5%の損失が最大に許容できる場合には、「不良な」スペクトルの約60%しか除去することができない。(より完全なROC曲線を作成するために、ラジアル基底関数カーネルについての幅のパラメータのガンマを変更したので、表IIにおいて、数は正確に整合しない。)
SVM手法は、特化された特徴の手法より明らかに良好な結果を与えることが判明し、性能は、入力ベクトルの増大するサイズと共に僅かに改善した。稼動時間は、サイズが増加するに伴い遅くなる。一般に、SVMフィルタ(分類器)は、QDAフィルタ(分類器)より低速であるが、SEQUEST自体を稼動させるほど低速ではない。最速のSVMフィルタ(1から187までの1デカのビン)は、20,000スペクトルを処理するのに362秒をかかるのに対して、QDAフィルタは、同じスペクトルを処理するのに114秒かかる。SEQUESTは、小規模(1MB)データベースを用いると、1スペクトル当たり1秒までかかり、大規模(100MB)データベースについては、1スペクトル当たり15秒までかかる。
IV.回帰
【0032】
バイナリ分類器は、SEQUESTの処理能力を改善するために、スペクトルをフィルタ処理するのに十分なものであるが、数値による品質採点を各々のスペクトルに割り当てて、さらに別の処理のために高品質の識別されていないスペクトルを優先させる問題に対処することにも関心がある。これは、バイナリ変数ではなく連続的な値を予測することを試みるので、回帰問題である。
品質の連続的な値は、高強度のピーク間で観測されたbイオン及びyイオンの断片であると定義された。より具体的には、Lengthがペプチド中のアミノ酸の数を示すとすると、Qualityは、次式のように定義される。
Quality=1/2(#b+#y)/(Length−1)
ここで、#bは、順位<6・Lengthである場合のbイオンのピーク数であり、#yは、順位<6・Lengthである場合のyイオンのピーク数である。この値は、「良好な」スペクトルの帰納的解析を用いて算出することができる。例えば、ピークの単純な存在/不在ではなく正規化された強度を用いた類似定義のような他のQualityの定義、及び、識別されていないピークについてペナルティを科された別の定義が考慮された。種々のQuality定義が、同様な結果を与えた。引用された定義は、人間により最も解釈可能であるため選択され、この特徴は、いずれのbイオン及びyイオンも観測されない0から、すべての可能性のあるbイオン及びyイオンが観測された1.0まで及ぶ。さらに、データベース検索及びde novoの両方の多くのペプチド識別プログラムは、或る種の正規化された強度ではなく、bイオン及びyイオンの存在/不在に依存する。
【0033】
次に、スペクトル品質を予測する特徴の線形結合を求めるために、7つの特化された分類特徴を説明変数とし、Qualityを応答変数として、多変量線形回帰を実行した。多変量線形回帰は、P値により判断されたときには非常に大きい非ゼロ係数である、分類特徴を2つだけ与えた(Good−Diff Fraction及びComplements)。回帰についてのR2値は、線形結合がQualityとの相関係数√0.537、すなわち、0.73を有することを意味する0.537であった。
回帰は、予測されたQualityが「良好な」スペクトルの平均Qualityより良好な採点である、0.28までであった数千もの不良なスペクトルを識別し、これは、すべての可能性のあるbイオン及びyイオンの28%のみがスペクトル内の最良順位のピークにおいて出現したことを意味する。6つの最良の「不良な」スペクトル(すべてが、0.44を上回る予測Qualityをもつ)を、Lutefisk、すなわち、de novoペプチド・シーケンサにサブミットした。6つのスペクトルのうちの2つについて、Lutefiskは、BLAST整合アルゴリズムにより、ウシ血清アルブミンと独特に整合することができる部分配列を与えた。表IIIは、これらの成功の1つを示し、括弧付きの数値は、そのマスを合計する、場合によっては改質された識別されていない残留物を意味する「マスの相違」を示す。
表III
最良の不良なスペクトルについての上位5つのLutefisk識別
【0034】
MDKEACFAVEによるBLAST検索は、ENFVAFVDKCCAADDKEACFAVEGPKの配列を有するウシ血清アルブミンとの整合を与える。文字GPは、154.1デカのマスの相違を完全に埋めるため、ウシ血清アルブミンが混合物中のタンパク質の1つであったことを知らなくても高い識別尤度が存在する。しかしながら、正しい配列ENFVAFVDKCCAADのいずれの接尾文字も、[430.2]GSTWW[210.2]EMと同じマスにはならず、これは、スペクトルにおけるすべてのピークが、ウシ血清アルブミンからの改質されていないペプチド内のあるべき場所からシフトされたことを意味する。(実際に、Lutefiskは、bイオンからの助けを借りずに、yイオンのピークのラダーに基づいてDKEACFAVEを認識した。)従って、このスペクトルは、改質又は変異ペプチドからなると思われる。
【0035】
説明された実施形態は、コンピュータ又は他のマイクロプロセッサ・ベースの装置等のコンピュータ・システムの使用(並びに特化された電子回路の使用)によって実施できることを認識すべきである。図12は、ここで説明された概念を実施することができるコンピュータ・システム130を示す。コンピュータ・システム130は、CPU134及びメモリ136を組み込み、ネットワーク・インタフェース138を含むことができるコンピュータ132を含む。ネットワーク・インタフェース138は、コンピュータ132に、ネットワーク接続142上でのネットワーク140に対するアクセスを与える。コンピュータ132はさらに、ユーザ・インタフェース装置146、格納システム148、タンデムマス分光計(図示せず)及び取り外し可能媒体データ装置150に接続されたI/Oインタフェース144を含む。取り外し可能媒体データ装置150は、典型的にはプログラム製品154を含むコンピュータ可読媒体152を読み取る。(取り外し可能媒体データ装置150と併せて)格納システム148及びコンピュータ可読媒体152は、ファイル格納機構を含む。
【0036】
コンピュータ可読媒体152上のプログラム製品154は、一般に、ここで説明されたプロセス並びに他のプロセスを実行するようにCPU134に指示するプログラム156としてメモリ136に読み込まれる。コンピュータ・プログラム156は、装置内のROMのようなコンピュータ使用可能データキャリアにおいて、取り替え可能ROM内で、メモリ・スティック、CD、フロッピー(登録商標)、DVD、又は他の有形の媒体において具体化することができる。さらに、プログラム製品154は、ネットワーク・インタフェース138によって(信号が変調される搬送波、又は、光、無線、及び電気信号を含む他のデータ送信技術の有無にかかわらず)伝送媒体により具体化されたコンピュータ指示信号として、ネットワーク140を用いてアクセスされる装置から与えられる。ネットワーク140は、別のコンピュータ使用可能データキャリアである。コンピュータ132と通信する装置は、さらに、コンピュータ132を用いて、ネットワーク・インタフェース138によってネットワーク140に接続することもできる。MS/MS等のマス分光計システム158は、ネットワーク接続160にわたるネットワーク140上で通信するように構成することができる。システム158は、さらに、ネットワーク・インタフェース138又はI/Oインタフェース144(図示せず)により、好ましいチャネル162上でコンピュータ132と通信する。さらに、マス分光計により生成されるスペクトルを、ここに開示される方法を実行する別個のコンピュータにより処理して、スペクトルデータをフィルタ処理し、選択されたスペクトルデータを識別プログラムに供給することができる。
このようなフィルタ処理装置は、タンデムマス分光計と共に含んでもよいし、又はこれに取り付けてもよい。さらに、既存のde novo又はデータベース検索識別プログラムは、ここで開示されたフィルタを含むことができる。
【図面の簡単な説明】
【0037】
【図1】タンデムマス分光計のデータをタンパク質配列のライブラリからの配列と相関させるプロセスのブロック図である。
【図2】ピーク品質の事後値との順位及び相対強度の相関を示す。
【図3】フィルタ処理作用のための上位のフロー図を示す。
【図4】フィルタ処理作用と関連付けられた例示的な状態を示す。
【図5】例示的な訓練技術を示す上位のフロー図を示す。
【図6】マスフラグメントスペクトルの一部のピーク対の差異に応じたアレイを構築する方法を示す。
【図7】特化された特徴値を生成して、ベクトルがn次元空間内のどこに位置するかを求めるプロセスを記述するブロック図である。
【図8】Isotope特徴を生成するためのブロック図を示す。
【図9】Intensity balance特徴を生成するためのブロック図を示す。
【図10】モデル化分類器を使用して差異アレイ及びn次元表面の情報を分析する方法を示す。
【図11】偽陽性と偽陰性との間の妥協を示す受信オペレータ特性(ROC)曲線をSVMベースのフィルタに与える。
【図12】ここで説明された概念を実施することができるネットワーク化されたコンピュータ・システムを示す。
【符号の説明】
【0038】
12:タンデムマス分光計
18:フラグメントスペクトル
20:フィルタ
21:シーケンサ
【特許請求の範囲】
【請求項1】
マスフラグメントスペクトルの一部にアクセスするステップと、
前記マスフラグメントスペクトルの一部の強度バランスに応じて、前記マスフラグメントスペクトルの一部を評価するステップと、
前記評価ステップに応じて前記マスフラグメントスペクトルを処理するステップと、
を含むことを特徴とするコンピュータにより制御される方法。
【請求項2】
前記評価ステップが、
前記マスフラグメントスペクトルの前記強度バランスに応じて、ベクトルを構築するステップと、
訓練データにより定められる少なくとも1つの表面により分離される複数の領域を含む多次元空間に前記ベクトルを配置するステップと、
をさらに含む請求項1に記載の方法。
【請求項3】
さらに、前記マスフラグメントスペクトルの前記強度バランスに応じて、ベクトルを構築するステップを含み、前記ベクトルが、およそ18デカ(Da)だけ異なるm/z値をもつピーク対の正規化された強度に応じるものである請求項1に記載の方法。
【請求項4】
前記正規化ステップが、順位に基づく強度正規化方式を使用することを含む請求項3に記載の方法。
【請求項5】
マスフラグメントスペクトルを生成するマス分光計(mass spectrometer)と、
前記マスフラグメントスペクトルの少なくとも一部にアクセスし、前記スペクトルの強度バランスに応じたベクトルを構築し、前記ベクトルに応じてスペクトルを選択するフィルタを採用するコンピュータと、
を備えることを特徴とする装置。
【請求項1】
マスフラグメントスペクトルの一部にアクセスするステップと、
前記マスフラグメントスペクトルの一部の強度バランスに応じて、前記マスフラグメントスペクトルの一部を評価するステップと、
前記評価ステップに応じて前記マスフラグメントスペクトルを処理するステップと、
を含むことを特徴とするコンピュータにより制御される方法。
【請求項2】
前記評価ステップが、
前記マスフラグメントスペクトルの前記強度バランスに応じて、ベクトルを構築するステップと、
訓練データにより定められる少なくとも1つの表面により分離される複数の領域を含む多次元空間に前記ベクトルを配置するステップと、
をさらに含む請求項1に記載の方法。
【請求項3】
さらに、前記マスフラグメントスペクトルの前記強度バランスに応じて、ベクトルを構築するステップを含み、前記ベクトルが、およそ18デカ(Da)だけ異なるm/z値をもつピーク対の正規化された強度に応じるものである請求項1に記載の方法。
【請求項4】
前記正規化ステップが、順位に基づく強度正規化方式を使用することを含む請求項3に記載の方法。
【請求項5】
マスフラグメントスペクトルを生成するマス分光計(mass spectrometer)と、
前記マスフラグメントスペクトルの少なくとも一部にアクセスし、前記スペクトルの強度バランスに応じたベクトルを構築し、前記ベクトルに応じてスペクトルを選択するフィルタを採用するコンピュータと、
を備えることを特徴とする装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2006−317457(P2006−317457A)
【公開日】平成18年11月24日(2006.11.24)
【国際特許分類】
【外国語出願】
【出願番号】特願2006−153999(P2006−153999)
【出願日】平成18年5月2日(2006.5.2)
【出願人】(504407000)パロ アルト リサーチ センター インコーポレイテッド (65)
【出願人】(593052785)ザ スクリップス リサーチ インスティテュート (91)
【Fターム(参考)】
【公開日】平成18年11月24日(2006.11.24)
【国際特許分類】
【出願番号】特願2006−153999(P2006−153999)
【出願日】平成18年5月2日(2006.5.2)
【出願人】(504407000)パロ アルト リサーチ センター インコーポレイテッド (65)
【出願人】(593052785)ザ スクリップス リサーチ インスティテュート (91)
【Fターム(参考)】
[ Back to top ]