合成画像を使用した生物学的特徴の発見
調製された生物試料から関心対象の一部分または特性を抽出する画像処理システムである。この画像処理システムの1つの適切な用途はバイオマーカーを見つけ出すことである。しかし他の多くの適切な用途もあり得る。本システムのいくつかの構成要素は画像の前処理(データの補間、保持時間の調整、画像ノイズのフィルタ処理、バックグラウンドの推定、および合成画像の形成);画像特徴の抽出(ピーク、同位体群、および荷電群);および特徴特性と発現統計値、差異のある発現、および差異のない発現の計算を含む。本システムの出力はさらなる発見を補助するための関心対象の一部または特性の候補一覧表を含む。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は本願明細書に参照で組み入れられる2005年11月10日提出の米国特許仮出願第60/735691号明細書の優先権を権利主張するものである。
【0002】
本発明は概して画像処理に関し、さらに特定すると調製された生物試料の画像を分析することでさらなる分析のために関心対象の特徴を発見する過程に関する。
【背景技術】
【0003】
新薬開発の成功率を向上させるために、製薬会社はますますバイオマーカーの使用に頼ってきた。バイオマーカーは多くの意味を伴う用語であり、そのうちの1つは関心対象の生物学的処理、法則、または成果の指標として役立ち得る1つまたは複数の測定値を含むこともあり得る。例えば、前立腺に特異的な抗原は前立腺の疾病に関して一般的に使用される診断用バイオマーカーである。理想的なバイオマーカーは薬剤治療のメカニズムのさらに優れた理解、治療成果のさらに優れた予測とモニタリング、および薬剤の毒性に付随する危険のさらに優れた管理につながることが可能である。
【発明の開示】
【発明が解決しようとする課題】
【0004】
理想的なバイオマーカーは関心対象の生物学的状態に敏感で特異的でなければならないのみでなく、理想的なバイオマーカーは好ましくは血液、尿、および脳脊髄液などの体液中で検出および測定を行うことが簡単かつ便利でなければならない。しかしマイクロアレイによる大規模な遺伝子発現分析は関連するバイオマーカーを識別することに役立ってきた。適切なバイオマーカーはしばしば遺伝子ではなくタンパク質、タンパク質断片、代謝産物、その他である。このケースの理由の1つは、組織特異性の遺伝子発現の変異が体液中で容易に測定できないことである。タンパク質の識別および測定に関連する多くの技術的課題にもかかわらず、現在の努力は関連するタンパク質バイオマーカーを見つけることに焦点を絞られている。
【課題を解決するための手段】
【0005】
この概説は下記で詳細な説明においてさらに述べられる概念の選択を単純化した形で導入するために提供される。この概説は特許請求される主題事項の主要な特徴を特定することを意図されておらず、特許請求される主題事項の範囲を決定する補助として使用されることも意図されていない。
【0006】
本発明によると、画像処理パイプライン、システム、生物学的画像前処理装置、および方法が提供される。本発明の1つのコンピュータ導入可能な画像処理パイプラインの形態は、調製された生物試料が多様な処理状態の発現実験から得られる過程からデータを収集するための収集装置を含む。このパイプラインはさらに、収集装置からのデータを処理するため、および合成画像を形成するための画像処理装置を含む。このパイプラインはピーク、同位体群、および荷電群を含む合成画像から特徴特性を抽出するための画像特徴抽出装置もやはり含む。
【0007】
本発明のさらなる態様によると、本発明のシステムの形態は画像のセットを作り出すために調製生物試料を処理するための機器の収集を含む。この機器の収集は液体クロマトグラフィ機器および質量分析計を含む。本システムはさらに、画像のセットから作り出される合成画像を処理するための画像処理装置を含む。画像処理パイプラインは特徴特性、発現プロファイル、および候補の特徴リストを作り出す。
【0008】
本発明のさらなる態様によると、本発明の生物学的画像前処理装置の形態は未加工のLC/MSデータを補間し、ラスタ化し、フィルタにかけて二次元画像へとマップ化するためにラスタライザと組み合わされた補間装置を含む。この前処理装置はさらに、多様な処理群の指標である二次元画像を合成画像へと組み合わせて融合させるために群間画像融合装置と組み合わされた群内複製コンバイナを含む。
【0009】
本発明のさらなる態様によると、本発明の方法の形態は多様な画像の中でクロマトグラムの保持時間の不一致を取り除くための方法を含む。本方法はすべての複製の中で全体的な調整不良を削減するために元の未加工データを歪めることによって調整した二次元LC/MSラスタ化画像を発生させる工程を含む。本方法はさらに、組合せ画像を形成するために各々の処理群の中で複製を組み合わせる工程、および合成画像を形成するために最大画素強度を取り込むことによって処理群の間からの組合せ画像を融合させる工程を含む。
【0010】
本発明のさらなる態様によると、本発明の方法の形態は画像特徴を抽出するための方法を含む。本方法は合成画像上で関連した非ゼロ画素から同位体ピークを識別する工程を含む。本方法はさらに、質量/荷電方向、保持時間方向、または両方における2つ以上の同位体ピークで構成される識別された同位体ピークを分割する工程を含む。
【0011】
本発明のさらなる態様によると、本発明の方法の形態は生物学的特徴を抽出するための方法を含む。本方法は合成画像を形成するために多様な処理状態の画像を処理する工程を含む。本方法はさらに、合成画像内の特定の場所における平均値、中央値、最大値、最小値、および標準偏差から成る群から選択されるバックグラウンドノイズパラメータよりも上の強度を有する合成画像内の関連した画素から同位体ピークを見つけ出す工程を含む。
【0012】
本発明のさらなる態様によると、本発明の方法の形態は合成画像内で見つけ出された同位体ピークを分割するための方法を含む。本方法は同位体ピークが他の同位体ピークの幅分布よりも広い幅を有するかどうか判定することによって重なり合った同位体ピークを検出する工程を含む。本方法はさらに、保持時間方向および質量/荷電方向において重なり合った同位体ピークを分割する工程を含む。
【0013】
本発明のさらなる態様によると、本発明の方法の形態は同位体群に関して荷電状態を推定するための方法を含む。本方法はランク表の頂点からのピークの保持時間の重心付近の個別連続体の加重和によってMS連続体を構築する工程を含む。本方法はさらに、様々な荷電状態に関して複数の理想モデルをMS連続体に整合させる工程、および最良整合を与える理想モデルを判定する工程を含む。理想モデルの荷電状態は同位体群の荷電状態である。
【0014】
本発明のさらなる態様によると、本発明の方法の形態は複製を表わす画像を調整させるための方法を含む。本方法は重なり合いのセット内の第1の最終変位値と第2の最終変位値を判定するために、ターゲットの画像がマスター画像と調整する程度を評価する相関係数および重なり適合値を計算する工程を含む。本方法はさらに、第1と第2の最終変位値が互いに近接範囲内にある場合に時間間隔に関して最終変位値を作り出すために第1と第2の最終変位値を平均する工程を含む。本方法は複数の時間間隔に関して複数の最終変位値を作り出すために上記の工程を繰り返す工程もやはり含み、各々の最終変位値は画像をラスタ化してそれらを調整させるために補間関数を作り出すための基準点である。
【0015】
本発明の前述の態様および多くの付随する利点は、これらが添付の図面と結び付けて取り入れられるときに以下の詳細な説明を参照することによってさらによく理解されるので、さらに容易に評価されるであろう。
【発明を実施するための最良の形態】
【0016】
画像処理パイプライン112の様々な実施形態はペプチドの特徴抽出および発現差異解析などといった特徴抽出と解析を容易にする。図1参照。画像処理パイプラインの一実施形態は薬剤開発過程でタンパク質のバイオマーカー発見に使用するためのものである。画像処理パイプラインの他の実施形態はバイオマーカーに加えて他のタイプの発見のために使用されることもあり得る。画像処理パイプライン112への入力は、調製生物試料106が液体クロマトグラフィ機器108および質量分析計110にかけられる過程から集められた未加工データ202(図2A参照)のセットである。このデータは多様な表現型の発現実験104A−104Cまたは鑑別薬剤投与下でのタンパク質発現などといった処理状態102A−102Cから得られる。各々の条件に関して、いくつかの生物学的複製からの測定データが利用可能であることもあり得る。画像処理パイプライン112の一実施形態は、様々な表現型において異なる、または異ならない発現レベル、もしくは薬剤治療によって変えられる発現レベルを有するこれらのペプチドまたはタンパク質の発見を容易にする。画像処理パイプラインの他の実施形態は他の生物学的特徴の発見を容易にする。
【0017】
画像処理パイプライン112の主要要素のうちのいくつかは生物学的画像前処理装置204によって遂行される画像前処理(データ補間、画像調整、画像ノイズのフィルタ処理、バックグラウンド補正、および合成画像の形成)、画像特徴抽出装置208によって遂行される画像特徴抽出(ピーク、同位体群、および荷電群)、特徴特性の計算、および発現統計プロセッサ212によって遂行される発現統計、および発現解析プロセッサ216によって遂行される発現差異または非差異の解析を含む。図2A参照。画像処理パイプラインの出力は(1)生物学的特徴とそれらの特性の一覧表210、(2)3つの集大成レベル(ピーク、同位体群、および荷電群)におけるすべての条件でのすべての複製の発現プロファイル214、および(3)後に続くターゲット化される識別のための、差異を有して、または差異を有さず発現された特徴の一覧表218を含む。
【0018】
液体クロマトグラフィ(LC)および質量分析法(MS)の手法はゲル不使用のタンパク質発現のプロファイリングの焦点になっている。調製生物試料(例えば分解されたタンパク質試料からのペプチド)がクロマトグラフィカラムから溶出され、イオン化され、引き続いてイオントラップ内で分析される。当業者によって理解されるであろうが、異なる方法の様々な実施形態が分光法または分光分析法のいずれかのタイプに応用可能である。質量分析法は大きなダイナミックレンジ全体にわたってすべてのタイプのタンパク質および代謝産物の敏感な検出と識別を提供するので、プロテオミクスおよび代謝学の研究のために使用される道具である。検出されるイオン強度が試料成分濃度に加えてイオン化効率、検出器の効率、試料のサイズ、および試料の流量などの要因によって決まり得ることを前提として、他の適切な定量化方法が使用される。質量分析法のためのタンパク質およびペプチドのイオン化は従来からMALDI(マトリックス支援レーザ脱離イオン化)またはESI(エレクトロスプレーイオン化)を使用するが、異なる方法の様々な実施形態がいずれかの適切な現在または将来のイオン化方法、ならびにイオントラップ型、飛行時間型、もしくは四重極型分析器などのいずれかの適切な検出方法を使用することもあり得る。さらに、異なる方法の様々な実施形態が、特に電子衝突イオン化(EI)を使用してガスクロマトグラフィ−質量分析法(GC−MS)から得られるデータを使用することも可能である。
【0019】
ペプチドなどの多様な生物学的特徴は2つの次元(保持時間と質量/荷電)で分けられる。所定の保持時間について、一次元連続体が関心対象の質量/荷電範囲で得られることが可能である。ペプチドは連続体の中のピークとして示されるが、しかし関心対象の他の生物学的特徴がピークとして示されることもやはりあり得る。ピーク強度は関心対象の生物学的特徴の潤沢度に比例すると想定される。質量/荷電の連続体は規定されたサンプリング速度または可変のサンプリング速度で繰り返し収集される。概念上、順々に収集された一次元の質量分析の連続体が二次元のデータセットを形成する。強度が第三の次元であれば、様々なピークはレリーフマップ上の個別の丘として現れる。
【0020】
本発明の様々な実施形態によって可能にされる1つの探索法は異なる実験条件の中で発現強度が変わった、または変わらなかったペプチドまたはタンパク質を見つけることである。ペプチドまたはタンパク質に関連しない他の探索法もやはり可能である。ペプチドまたはタンパク質は有用なバイオマーカーを識別するさらなる検証のための候補になることが可能である。本発明のいくつかの実施形態は未加工のLC/MSデータと差異を有するかまたは有さないペプチドピークまたは同位体群の発現検出との間のデータ処理に焦点を絞る。これらのピークは識別されなかった場合にはペプチド配列の識別のためにタンデム型質量分析に送られてもよい。
【0021】
図1は画像処理パイプライン112を含むシステム100のブロック図である。パイプライン112への入力は多様な処理状態下または表現型の実験104A−104Cからの調製生物試料106である未加工のLC/MSデータのセットである。各々の条件において、しばしばいくつかの生物学的または技術的複製102A−102Cがある。生物学的複製102A−102Cは異なる動物または細胞株などからの試料である。技術的複製は同じ動物試料の繰り返されたLC/MS運転である。画像処理パイプラインからの出力は特徴的特性、発現プロファイル、および差異のある、または差異のない特徴一覧表を含む。まとめて生物学的候補リスト116参照。
【0022】
特徴的特性は3つのレベルすなわちピーク、同位体群、および荷電群における生物学的特徴300について情報を提供する。図3参照。これらの特性はピーク保持時間の始まりから終わり、ピーク質量/荷電の始まりから終わり、質量/荷電の中央値、荷電状態、質量その他を含む。所定のピークについて、特性はすべての条件におけるすべてのデータ複製に当てはまる。図3はピーク306−310、同位体群304−308、および荷電群302を例示している。ピークは特定の保持時間範囲とm/z範囲における輪郭によって規定される二次元のLC/MS強度の丘である。同位体群は同じ荷電状態の同位体ピークの群である。2つの隣り合う同位体ピーク間の質量差は1つの元素が別の元素へと変えられるときに獲得される中性子の割り増し質量の結果である。1つの特定の同位体状態について、複数のピークが存在することが可能である。これは特に低い信号対ノイズ比の状況に関して特に真実である。複数の同位体群が異なった荷電状態で検出されることもあり得る。荷電群は一緒に属するそれらの同位体群を含む。
【0023】
各々のLC/MS運転について、発現プロファイルが3つの集大成、すなわちピーク、同位体群、および荷電群で与えられることが可能である。各々のプロファイルは特定の運転から得られる強度および他の発現統計値を含む。例えば、ピーク強度はピーク境界輪郭の中のすべての非ゼロ画素の強度測定値の総和であるピーク表面下の量として規定される。発現プロファイルは発現差異検出などといった後に続く発現データ解析のための定量的基礎である。差異特徴一覧表はタンデム型質量分析法によるペプチド/タンパク質識別のために選択された特徴(ピークまたは同位体群)の小セットである。この一覧表はANOVAなどの統計学的仮説検定による差異検出の結果、または教師なし学習(クラスタリング)もしくは教師あり学習(分類)方法の結果、またはそれらのうちのいくつかもしくはそれらすべての組合せであることもあり得る。ペプチド/タンパク質識別の後、この一覧表内の特徴がペプチド/タンパク質配列情報によって注釈を付けられるであろう。注釈を付けられた特徴の発現プロファイルは背後にある生物学を理解するための後に続く解析に使用されることが可能である。もちろん、同様に背後にある生物学を理解するために本発明の様々な実施形態によって与えられる非差異検出が使用されることもやはりあり得る。
【0024】
図4A−4Cは図2Aに素子204として示された生物学的画像前処理装置400A−400Bおよび図2Aに素子208として示された画像特徴抽出装置400Cの詳細なブロック図である。入力は各々の中にいくつかの生物学的または技術的複製があるいくつかの異なる処理群のタンパク質試料に由来する未加工のLC/MSデータのセット402である。このモジュールの機能はデータラスタ化装置404によって遂行されるデータのラスタ化;群内および群間の保持時間調整のためのアライナ416ならびに画像歪曲装置および再ラスタ化装置418によって遂行される保持時間の調整;ノイズ除去装置406、410、および426によって遂行される画像ノイズのフィルタ処理;バックグラウンド補正装置428;保持時間の縞の除去装置408;正規化装置414;強度中央値計算器422および強度標準偏差計算器424;およびピーク識別器と標識化装置442、ピーク事前分析装置と分割器444、ピーク特性処理装置446、同位体群識別器450、および荷電群識別器454による特徴抽出のための1つの合成画像440の形成を含む。ラスタ化機能は未加工のLC/MSデータ402を補間し、後に続く画像処理のためにすべてのデータを共通の二次元画像格子にマップ化する。時間調整機能は多様な複製のLC/MS運転の中のクロマトグラムの保持時間の不一致を取り除く。
【0025】
時間の調整には3つの段階がある。例えば図5B−5S−1参照。最初に、一実施形態では初期のラスタ化の前に事前調整段階において全体的な時間の調整不良が推定されるが他の実施形態ではこの段階は場合によって設けられる。次いで、一実施形態では別々の工程で局所的な群内の調整不良および局所的な群間の調整不良が推定されるが、別の実施形態では局所的な群内の調整不良と局所的な群間の調整不良の両方が1つの工程で算出される。合計の調整不良は3つの成分の組合せである。調整した二次元LC/MSラスタ化画像420はすべての複製の中の合計の調整不良を削減するように元の未加工データを歪めることによって作り出される。二次元画像内の空間的ノイズは信頼性があって堅調な画像特徴抽出を確実にするために前処理装置内のいくつかの場所においてフィルタで除去される。各々の処理群内の複製は画素強度の平均化によって1つの画像へと組み合わされる。組み合わされた画像すべての中の最大画素強度を取り込むなどといった適切な技法を使用することによって1つの合成画像440が作り出される。合成画像440はこれでもって画像特徴抽出装置400Cが関心対象の様々な生物学的特徴を得るように働く情報である。
【0026】
図4Cは画像特徴抽出装置の詳細なブロック図である。その入力は(図2Aに素子204として例示される)生物学的特徴前処理装置400A−400Bからの合成画像440である。最初に、ピークが関連した非ゼロ画素として規定される。各々のピークは特有の指数でラベリングされる。いくつかの実際のピークが誤って1つの大きい結合したピークとして識別されることもあり得る。画像事前解析機能において、これらの結合したピークの多くは識別されてm/zまたは保持時間方向で分割される。分割の後にピークの合計数が増やされる。新たなピークの指数がこれらの新たに分割されたピークに割り当てられる。ピークのm/z中央値と幅;ピークの時間中央値と幅などといったピーク特性が算出される。同位体群識別機能において、同じ同位体群に属するピークが識別される。荷電状態、モノアイソトピックm/z、およびペプチド質量などといった同位体群特性が推定される。各々の同位体群に特有の同位体群指数が割り当てられる。多くの同位体群が1つのピークを含むに過ぎないこともあり得る。このケースでは、ゼロ荷電が割り当てられる。(荷電が知られていないのでゼロ荷電はこれらの同位体群をラベリングする方法である。)同位体群を識別するとき、重なり合ったピークが識別される。この重複のケースでは、ピークが分割不可能であれば1つのピークが2つの同位体群に属してもよい。引き続く同位体群識別機能において、異なる荷電状態を有するが同様の保持時間とペプチド質量を有する同位体群が1つの荷電群に割り当てられる。
【0027】
図2Aは発現統計処理装置212および発現解析処理装置216を含む。発現統計処理装置212は3つの集大成レベル、すなわちピーク、同位体群、および荷電群において強度、強度誤差、および存在判定p値などの発現統計値を推定する。ピークレベルにおいて、ピーク輪郭境界の中の画素強度の総和である発現強度を推定するために、画像特徴抽出装置によって作り出されたピーク特性に基づいて各々の調整したLC/MS画像420内でピークが識別される。次いで、技術に特異的な誤差モデルが強度誤差を推定するために適用される。その結果は各々のLC/MS画像について1つのピークレベル発現プロファイルである。同位体群レベルにおいて、その入力はピークレベル発現プロファイルと同位体群特性である。同位体群に関して発現推定量を得るために、1つの同位体群における複数のピークの発現統計値が一体に「圧搾」される。同位体群の強度はこの同位体群に含まれるピーク強度の総和として規定される。結果的に生じる同位体群強度の強度誤差もやはり推定される。出力は各々のLC/MS画像について1つの同位体群レベルの発現プロファイルである。同位体群レベルにおいて、その入力は同位体群発現プロファイルと同位体群特性を含み、出力は同位体群発現プロファイルである。
【0028】
本発明の様々な実施形態が、関心対象の生物学的特徴に密接に関連する代表的ピークまたは同位体群の一覧表の発見を容易にする。これらのペプチド/タンパク質などといった生物学的特徴は多様な薬剤処理の中で統計学的に有意に差異のある、または差異のない発現のどちらかを明示し、場合によっては、薬剤の効能または毒性の予測にさえつながる。関心対象の例えばペプチド/タンパク質などといった代表的な生物学的特徴の一致は後に続くタンデム型質量分析法による配列識別の間に発見されると思われるが、これらの生物学的特徴がさらに早期に発見されることもやはりあり得る。発現解析処理装置では、関心対象の生物学的特徴の一覧表を導き出すために発現プロファイルがすべてのレベルにおいて使用されることが可能である。多くの関連した生物学的特徴の一覧表を得るための多くの適切でかつ異なる統計学的およびデータマイニングの方法があり得る。一般的に使用される発現差異検出方法はt検定およびANOVAなどのパラメトリック仮説検定、およびウィルコクソン検定および他のランクまたは順列に基づく検定などのノンパラメトリック検定を含む。一般的に使用されるデータマイニングの方法はクラスタリングアルゴリズムなどの教師なし学習および分類子などの教師あり学習を含む。
【0029】
本発明の様々な実施形態のうちの一例の画像処理パイプラインは従来の分析化学機器の感度、精度、および再現性の限界を克服するかまたは削減する。以下で、図5A−1−5A−22は生物試料中で関心対象の特徴を識別するための方法5000を記述している。説明を平易にするために、図5A−1−5A−22によって例示される方法5000の記述は3つの部分に分割される。最初に、方法5000は方法5000に関連した様々な技術的主題事項のさらに広い理解を可能にするために一般的に検討される。次に、図5A−1−5A−22によって例示されるような方法500の特定の工程が、方法の流れが識別され得るように述べられる。最後に、生物試料中で関心対象の特徴を識別するために使用される技術のさらに深い理解を可能にするために様々な技術的主題事項に関して数学的な基盤が検討される。
【0030】
概して、図5V−5Z、5A−2−5A−21はLC/MSラスタ化画像から生物学的特徴を抽出するために画像処理技術を使用する一例の画像特徴抽出装置によって実施される方法を例示している。最初にピークおよび同位体群が識別されて、これらが差異を有して発現されるか差異を有さずに発現されるかに関係なくラベリングされる。
【0031】
差異を有するか差異を有さない検出は抽出されるピーク強度情報に頼っている。図5V−5Z、5A−2−5A−21の様々な方法工程はペプチド/タンパク質などの相対的発現潤沢度を測定し、差異を有するか差異を有さない発現を検出する。潤沢度測定値は高い信号対ノイズ比を有する。本発明の様々な実施形態は後に確率p値を組み合わせるのではなく最初に高い信号対ノイズ比を達成するように複数の画素強度測定値を組み合わせる。同位体ピークの組み合わされた強度からの同位体群強度は普通では個々のピークからの強度よりも高い信号対ノイズ比を有する。本発明の様々な実施形態は個々のピークのみでなく同位体群および荷電群もやはり識別する。
【0032】
いくつかの実施形態における図5V−5Z、5A−2−5A−22の方法工程は最初にピークと同位体群を抽出し、次いで発現の差異を測定するなどの発現解析を遂行する。このピークに基づく手法は正確な保持時間調整の必要性を削減する。ピークが適切に抽出される限り、ピーク形状とピーク位置の小さい変動は後に続く解析に殆ど悪影響を有さない。
【0033】
本発明の様々な実施形態の二次元画像処理技術は多数のラスタ化LC/MS画像からの情報を活用する。生物学的ピークと同位体群はある一定の形状を有するので、信号対ノイズ比を向上させるために画像処理フィルタが使用されることが可能であり、それらのピーク、同位体群、および荷電などのそれらの特性を検出するために画像パターン認識法が使用されることが可能である。図5V−5Z、5A−2−5A−21における画像処理工程は特徴抽出における信号対ノイズ比をさらに向上させるために調査中の複数の実験複製からの情報を活用する。測定ノイズを削減するために複製からの複数の画像が一体に組み合わされる(平均される)ことが可能である。一層高い信号対ノイズ比は特徴抽出を一層正確で信頼性のあるものにする。
【0034】
様々な実施形態における図5B−5Uで例示されるような方法工程はLC/MS画像ノイズ削減のために形態学的フィルタを使用する。LC/MSデータは通常では測定ノイズを有する。このノイズは図5V−5Z、5A−2−5A−21で例示される方法工程におけるピーク抽出を難しくする。従来式のフィルタは実際の信号のピークとノイズのピークに影響を及ぼす。形態学的フィルタは画像の内容物の特定の形状に基づいて画像を変える画像フィルタ処理法のセットに属する。例えば、2値の形態学的浸食フィルタは2値画像内の白色特徴を縮小させることが可能である。ある一定のサイズよりも小さい特徴は除去されるであろう。別の例に関すると、2値の形態学的拡張フィルタは白色特徴を拡張するであろう。一例の画像処理パイプラインにおいて、LC/MS画像ノイズを削減するために浸食フィルタと拡張フィルタが様々な場所で適用される。
【0035】
図5B−5Uで例示されるような方法工程はノイズを含むLC/MS画像のバックグラウンド情報を推定する。画像のバックグラウンドノイズは、たとえ情報信号がないときでさえMS機器から入る低レベルの無秩序な示度数である。ノイズから信号ピークを抽出するために、バックグラウンドノイズのレベルを推定することが望ましい。バックグラウンド情報はまた、LC/MS強度測定に関して誤差モデルを構築するためにも望ましい。バックグラウンドノイズの推定量は、一実施形態では、バックグラウンドノイズの統計学的性質を推定することによって一例の画像処理パイプライン内で達成される。例えば、様々な形態学的フィルタによって除去されることが可能な非ゼロデータはバックグラウンドノイズであると考えられる。バックグラウンドの平均値と標準偏差はLC/MS画像の区分けされた領域内のこれらの画素から直接推定されることが可能である。画像のうちの異なる領域では平均値と標準偏差は異なる。バックグラウンドの推定のための画素の選択は必ずしも任意の強度閾値に基づく必要はないが、いくつかの実施形態では画像内の信号とノイズとの間の空間的差異に基づくので、本発明の様々な実施形態のバックグラウンド推定方法は図5V−5Z、5A−2−5A−21で例示される方法工程に関連して検討されるようにさらに優れたLC/MS画像特徴抽出を容易にする。
【0036】
ここで、方法の流れが識別され得るように、図5A−1−5A−22によって例示されるような方法500の特定の工程が述べられる。図5A−1−5A−22は生物試料中で関心対象の特徴を識別するための方法5000を例示している。開始ブロックから、方法5000は続行末端(「末端A」)と出口末端(「末端B」)との間に規定される方法工程5002のセットに進む。方法工程5002のセットは生物学的実験から得られる調製生物試料の画像の前処理を記述する。
【0037】
末端A(図5B)から、方法5000は多様な表現型または処理状態の発現実験が遂行されるブロック5008に進む。様々な生物学的実験から得られる調製生物試料がブロック5010で収集される。ブロック5012において、調製生物試料がイオン化されて液体クロマトグラフィ(LC)処理を受けることで溶出試料を作り出す。液体クロマトグラフィ処理からの溶出試料はブロック5014で質量分析計(MS)へと供給される。ブロック5016において、MSスペクトルが特定の保持時間で、かつ一定もしくは変化するサンプリング速度で繰り返し収集される。未加工のLC/MSデータはm/zがy軸であって保持時間がx軸である場合の画像からのMSスペクトルの収集物の形である。次いで本方法は別の続行末端(「末端A1」)に進む。
【0038】
末端A1(図5C−1)から、本方法は場合によっては複数の複製の多様なLC/MS運転の中の全体的な時間の調整不良を取り除くことによって保持時間の事前調整を遂行する。ブロック5020参照。ブロック5022において、本方法はLC/MS画像を作り出すために未加工のLC/MSデータを補間することによってデータのラスタ化を遂行する。次いで本方法はブロック5024で、強度が画像のうちの下側90%のランクを占める画素を除外する。ブロック5026において、ゼロよりも大きい強度を備えた画素に関して原型のビットマスクがLC/MS画像から作り出される。事前に調整された最大ピーク幅を使用して数学的形態学的オープン操作がビットマスクに対して実行される。ブロック5028参照。ブロック5030において、RT次元のオープン操作がビットマスクの多数の小さい特徴を除去してRT縞として規定される特徴を再構成する。ブロック5032において、RT縞がRTおよびm/z次元で拡張させられてそれらのサイズに戻る条件付きの拡張操作が次に起こる。次いで本方法は別の続行末端(「末端AA1」)へと続く。
【0039】
末端AA1(図5C−2)から、方法5000はブロック5034へと進み、ここでは本方法がビットマスクを反転させる。反転したビットマスクがLC/MS画像と掛け算される(論理的「終了」操作)ことでRT縞が取り除かれる。次いで本方法は、場合によってはブロック5038において正規化を実行する。システム100によって作り出される各々のLC/MS画像について上記の工程が繰り返される。次いで本方法は別の続行末端(「末端A2」)に進む。
【0040】
末端A2(図5D)から、方法5000はラスタ化画像の中から候補の画像が選択されるブロック5040に進む。ブロック5042において、候補の画像の強度の基礎ピークが測定され、これが候補の画像内で各々の時間点について最高強度値を決定する。ブロック5044において本方法は基礎ピーク強度測定に関して標準偏差を計算する。ブロック5046において、測定するべきさらに多くの画像があるかどうか判定するために検定が実行される。判定ブロック5046においてこの検定に対する答えがYESであれば方法5000は別の続行末端(「末端A3」)に進み、上記で特定された処理工程が繰り返されるブロック5040にスキップして戻る。そうでない場合、判定ブロック5046においてこの検定に対する答えがNOであれば方法5000はブロック5048へと進み、ここでは基礎ピーク強度において最も高い標準偏差を備えた画像が解析に関して高いコントラストで多くの明確な画像特徴を有すると思われるのでマスター画像であると選択される。次いで方法5000は別の続行末端(「末端A4」)に進む。
【0041】
末端A4(図5E)から、方法5000はブロック5050に進み、ここでは画像が画像内のデータの密度によって決まる特定の幅の時間の縦列(例えば1.5分)の中に分割される。やはり図2Bの線図220参照。ブロック5052において、各々の列は画像内のデータの密度によって決まるある高さの様々な横列のm/z部分領域(例えば20m/z)の中にさらに分割される。やはり図2Bの線図220参照。ブロック5054において、ある縦列内のある横列におけるマスター画像の部分領域が調整解析のために選択される。次いで本方法は別の続行末端(「末端A5」)へと続く。
【0042】
末端A5(図5E)から、方法5000はブロック5056に進み、ここでは重なり合いを作り出すためにターゲット画像の部分領域がマスターの部分領域全体にわたって段階を(変位段階当たり1つまたは複数の画素などの増分で)変位またはスライドさせされる。図2Cの線図222参照。ブロック5058において、本方法はどの程度良好にこの段階が調整されるか定量化するために相関係数(段階変位値)の計算を始める。ブロック5060において、ターゲット画像の部分領域に関する最小強度値が見出される(ここでは強度はゼロよりも大きい)。様々な部分領域(ターゲット画像とマスター画像)内の画素の強度が最小強度値で引き算される。ブロック5062参照。次いで本方法は別の続行末端(「末端A6」)に進む。
【0043】
末端A6(図5F)から、本方法はブロック5064に進み、ここでは本方法は重なり合った画素位置のターゲット画素とマスター画素を見る。ターゲットまたはマスターの画素強度のどちらかがゼロよりも大きいかどうか判定するための検定が判定ブロック5066において実行される。判定ブロック5066の検定に対する答えがNOであれば本方法は別の続行末端(「末端AS」)へと続く。そうでない場合、判定ブロック5066の検定に対する答えがYESであれば本方法は別の判定ブロック5068に進み、ここではターゲットまたはマスターの画素強度のどちらかがゼロであるかどうか判定するための検定が実行される。判定ブロック5068の検定に対する答えがYESであれば本方法はブロック5070に進み、ここでは特定の画素位置に関してゼロ値が1でインクリメントされる。次いで本方法は別の続行末端(「末端A7」)へと続く。そうでない場合、判定ブロック5068の検定に対する答えはNOであり、本方法は末端A7に進む。
【0044】
末端A7(図5G)から、方法5000はブロック5072に進み、ここでは高強度と低強度の画素の両方が相関係数に対する影響を有することを可能にするための計算が為される(例えばターゲット画素の強度のlog10とマスター画素の強度のlog10が取り入れられる)。ブロック5074において、特定の画素位置に関してターゲットとマスターの画素の強度の計算値がターゲットのアレイとマスターのアレイそれぞれに置かれる。次いで本方法は末端A8(図5G)に進み、さらに判定ブロック5076に進み、ここでは重なりの中のすべての画素が解析されたかどうか判定するための検定が実行される。判定ブロック5076の検定に対する答えがNOであれば本方法は末端A6に進み、上記で特定された処理工程が繰り返されるブロック5064へとスキップして戻る。そうでない場合、判定ブロック5076の検定に対する答えはYESであり、方法5000はターゲットのアレイとマスターのアレイに蓄えられた強度計算値から相関係数が算出されるブロック5078に進む。ブロック5080において、特定の段階に関して相関係数が相関係数のアレイに蓄えられる。次いで本方法は別の続行末端(「末端A9」)へと続く。
【0045】
末端A9(図5H)から、方法5000はブロック5082に進み、ここでは本方法はどの程度良好にこの段階が調整されるか定量化するために重なり適合値(別の段階変位値)の計算を始める。次いで本方法はブロック5084において重なり合った画素位置のターゲットの画素とマスターの画素を見る。次に判定ブロック5086において、マスターの画素の強度がゼロよりも大きいかどうか判定するための検定が実行される。判定ブロック5086の検定に対する答えがNOであれば本方法は別の続行末端(「末端A12」)へと続く。そうでない場合、判定ブロック5086の検定に対する答えはYESであり、本方法は判定ブロック5088に進み、ここではターゲットの画素の強度がゼロに等しいかどうか判定するための別の検定が実行される。判定ブロック5088の検定に対する答えがYESであれば本方法は別の続行末端(「末端A10」)に進む。そうでない場合、判定ブロック5088の検定に対する答えはNOであり、方法5000は別の続行末端(「末端A13」)に進む。
【0046】
末端A10(図5I)から、方法5000はブロック5090に進み、ここでは(マスターの画素の強度がゼロよりも大きいこと、およびターゲットの画素の強度がゼロであることを示す)第1のカウンタがインクリメントされる。方法5000は別の続行末端(「末端A13」)に進む。末端A12(図5I)から、方法5000は判定ブロック5092に進み、ここではマスターの画素の強度がゼロに等しいかどうか判定するための検定が実行される。判定ブロック5092の検定に対する答えがNOであれば本方法は末端A13に進む。そうでない場合、判定ブロック5092の検定に対する答えはYESであり、本方法は判定ブロック5094に進み、ここではターゲットの画素の強度がゼロよりも大きいかどうか判定するための別の検定が実行される。判定ブロック5094の検定に対する答えがYESであれば本方法は別の続行末端(「末端A11」)に進む。そうでない場合、判定ブロック5094の検定に対する答えはNOであり、本方法は末端A13に進む。
【0047】
末端A11(図5J)から、方法5000はブロック5096に進み、ここでは(マスターの画素の強度がゼロに等しいこと、およびターゲットの画素の強度がゼロよりも大きいことを示す)第2のカウンタがインクリメントされる。次いで方法5000は末端A13(図5J)に進み、判定ブロック5098へと続き、ここでは重なりの中のすべての画素が解析されたかどうか判定するための検定が実行される。判定ブロック5098の検定に対する答えがNOであれば方法5000は別の続行末端(「末端A14」)に進み、ブロック5084へとスキップして戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5098の検定に対する答えはYESであり、本方法はブロック5100に進み、ここでは第1と第2のカウンタの合計の負を取り入れることによって重なり適合値が算出される。ブロック5102において、特定の段階に関して重なり適合値がやはり段階変位のアレイに蓄えられる(本質的に、このアレイは2つの領域、相関係数、および重なり適合値のアレイである)。方法5000は別の続行末端(「末端A15」)に進む。
【0048】
末端A15(図5K)から、方法5000は判定ブロック5104に進み、ここではターゲットの部分領域がマスターの部分領域全部を横切ってスライドさせられたかどうか判定するための検定が実行される。判定ブロック5104の検定に対する答えがNOであれば本方法は末端A5(図5E)に進み、ブロック5056へとスキップして戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5104の検定に対する答えはYESであり、本方法はブロック5106に進み、ここでは(ターゲットの部分領域がマスターの部分領域の位置の上で導かれる場所を示す)各々の段階変位に関して、段階変位のアレイを使用して頂点が算出される。ブロック5108において、これらの頂点は各々の頂点の高さに基づいて下に進む順序で一覧表の中に仕分けされる。次いで本方法はブロック5110において一覧表の最上欄から頂点を選択する。次いで方法5000は別の続行末端(「末端A16」)に進む。
【0049】
末端A16(図5L)から、方法5000は判定ブロック5112に進み、ここでは頂点が屈曲と屈曲との間の最小数の点を有するかどうか判定するための検定が実行される。判定ブロック5112の検定に対する答えがYESであれば本方法は別の続行末端(「末端A18」)に進む。そうでない場合、判定ブロック5112の検定に対する答えはNOであり、本方法はブロック5114に進み、ここでこの頂点は一覧表から除去される。次いで本方法は判定ブロック5116に進み、ここでは考察するべきさらに多くの頂点があるかどうか判定するための別の検定が実行される。判定ブロック5116の検定に対する答えがNOであれば本方法は別の続行末端(「末端A20」)に進む。そうでない場合、判定ブロック5116の検定に対する答えはYESであり、本方法は別の続行末端(「末端A17」)に進む。
【0050】
末端A18(図5M)から、方法5000は判定ブロック5118に進み、ここでは2番目に高い頂点が適切な閾値で最高の頂点よりも低いかどうか判定するための検定が実行される。判定ブロック5118の検定に対する答えがNOであれば本方法は別の続行末端(「末端A19」)に進む。末端A19(図5L)から、本方法はブロック5114へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5118の検定に対する答えはYESであり、本方法はブロック5120に進み、ここでは本方法はマスターとターゲットの部分領域の間の高い相関を示し、かつ見込まれる調整の場所を示す頂点を頂点のアレイの中に蓄える。次いで方法5000は末端A20(図5M)に進み、さらに判定ブロック5122に進み、ここでは考察するべきさらに多くのターゲットの部分領域が異なる横列の中にあるかどうか判定するための検定が実行される。判定ブロック5122の検定に対する答えがYESであれば本方法は末端A21(図5E)へと続き、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5122の検定に対する答えはNOであり、方法5000は別の続行末端(「末端A22」)に進む。
【0051】
末端A22(図5N)から、方法5000はブロック5124に進み、ここでは本方法は相関係数技法の最終解析を始める。ブロック5126において、段階変位のアレイ内に蓄えられた変位値に関してヒストグラムが、0.20などの適切な瓶サイズを使用して作成される。ブロック5128においてこのヒストグラムは、ヒストグラム内の各々の瓶に属する員数に基づいた順序で下に進んで仕分けされる。ブロック5130において、最高位のランクにある瓶内の値のすべてが平均されることでこの技法に関して最終の変位値を決定する。判定ブロック5132において、最高位にランク付けされた瓶が最小の員数を有するかどうか判定するための検定が実行される。判定ブロック5132の検定に対する答えがYESであれば本方法は別の続行末端(「末端A23」)に進む。そうでない場合、判定ブロック5132の検定に対する答えはNOであり、本方法は別の続行末端(「末端A24」)に進む。
【0052】
末端A23(図5O)から、方法5000は判定ブロック5134に進み、ここでは2番目にランク付けされた瓶が1番目にランク付けされた瓶の構成要素の90%を有するかどうか判定するための検定が実行される。判定ブロック5134の検定に対する答えがNOであれば本方法は別の続行末端(「末端A24」)に進む。判定ブロック5134の検定に対する答えがYESであれば本方法はブロック5136に進み、ここでは1番目および2番目にランク付けされた瓶の構成要素が一緒に平均されることで最終の変位値を作り出す。判定ブロック5138において、最終の変位値が相関係数から算出されるかどうか判定するための検定が実行される。判定ブロック5138の検定に対する答えがNOであれば本方法は末端A24に進む。そうでない場合、判定ブロック5138の検定に対する答えはYESであり、本方法はブロック5140に進み、ここではこの最終の変位値が(相関係数解析のために)第1の最終変位値として保存される。ブロック5140の実行の後に、本方法は末端A24に進む。
【0053】
末端A24(図5P)から、方法5000は判定ブロック5142に進み、ここでは重なり適合値技法の最終解析が起こったかどうか判定するための検定が実行される。判定ブロック5142の検定に対する答えがNOであれば方法5000は末端A22に進み、ここで一巡してブロック5124(図5N)に戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5142の検定に対する答えはYESであり、本方法はブロック5144に進み、ここでは第2の最終変位値が(重なり適合解析のための)第1の最終変位値として保存される。次いで本方法はブロック5146に進み、ここでは第1と第2の最終変位値が互いに近接範囲内にあるかどうか判定するための検定が実行される。判定ブロック5146の検定に対する答えがNOであれば方法5000はブロック5148に進み、ここでは必要とされる調整の度合いに対する合意が欠如しているので最終変位値が破棄され、別の縦列を使用して処理が再開される。方法5000は別の続行末端(「末端A26」)に進む。判定ブロック5146の検定に対する答えがYESであれば本方法は別の続行末端(「末端A25」)に進む。
【0054】
末端A25(図5Q)から、方法5000はブロック5150に進み、ここでは特定の時間間隔(格子の縦列の幅)に関して最終変位値を作り出すために第1と第2の最終変位値が平均される。判定ブロック5152において、ターゲットの画像のすべての縦列が解析されたかどうか判定するための検定が実行される。判定ブロック5152の検定に対する答えがNOであれば方法5000は末端A21に進み、ブロック5054(図5E)へとスキップして戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5152の検定に対する答えはYESであり、本方法はブロック5154に進み、ここではラスタ化画像のすべてが解析されたかどうか判定するための別の検定が実行される。判定ブロック5154の検定に対する答えがNOであれば本方法は末端A4(図5E)に進み、一巡してブロック5050に戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5144の検定に対する答えはYESであり、方法5000は末端A26に進む。
【0055】
末端A26(図5R)から、各々の画像の各々の縦列の幅に関して変位値を規定するスプライン関数などの補間関数を作り出すために各々の平均最終変位値が基準点として使用される。ブロック5156参照。ブロック5158において、本方法は本方法が画像を再びラスタ化し、それゆえに画像を歪めるときに画像内の補間を使用して未加工データを再び補間する。ブロック5160において、二次元画像内の空間ノイズが形態学的画像ノイズフィルタによってフィルタ処理される。ブロック5162において本方法はLC/MS画像の強度中央値を計算してデータベース内に保存する。ブロック5164において、本方法はLC/MS画像の強度の標準偏差を計算してデータベース内に保存する。次いで方法5000は別の続行末端(「末端A27」)に進む。
【0056】
末端A27(図5S−1)から、方法5000はLC/MS画像のノイズを除去してバックグラウンドを補正するための工程をブロック5166において開始する。ブロック5168において、高解像度のMS機器が使われたかどうか判定するための検定が実行される。判定ブロック5168の検定に対する答えがNOであれば方法5000は別の続行末端(「末端AK1」)に進む。そうでない場合、判定ブロック5168の検定に対する答えはYESであり、本方法は別の続行末端(「末端AA1」)に進み、さらにブロック5170に進み、ここでは本方法はLC/MS画像上で形態学的ビットオープン操作を実行するための工程を開始する。ブロック5172において本方法はゼロよりも上の強度に関してLC/MS画像からビットマスクを作り出す。ブロック5174において、形態学的オープン操作がビットマスク上で実行され、ある構造的サイズを伴うノイズを除去する。次いで方法500は別の続行末端(「末端AA2」)に進む。
【0057】
末端AA2(図5S−2)から、方法5000はブロック5176に進み、ビットマスクをLC/MS画像に適用してビットオープンのLC/MS画像を作り出す。次いで本方法は別の続行末端(「末端AB1」)に進み、さらにブロック5178に進み、ここでは本方法はビットオープンのLC/MS画像のバックグラウンド補正を実行するための工程を開始する。判定ブロック5180において、さらに少数の中央値仕分けが必要とされるかどうか判定するための検定が実行される。判定ブロック5180の検定に対する答えがYESであれば方法5000は別の続行末端(「末端AD1」)に進む。そうでない場合、判定ブロック5180の検定に対する答えはNOであり、本方法は別の続行末端(「末端AC1」)に進み、次いでブロック5182に進み、ここでは(m/z方向で2n+1、RT方向で1の寸法の)直線的な窓がLC/MS画像の第1の画素に置かれる。次いでブロック5184において、本方法は直線的な窓内の画素の強度中央値を算出する。本方法は別の続行末端(「末端AC2」)に進む。
【0058】
末端AC2(図5S−3)から、方法5000はブロック5186に進み、ここでは強度中央値が直線的窓の中心に位置する画素に割り当てられる。ブロック5188において、上記で検討された工程5184−5186がLC/MS画像の特定の横列内の各々の画素について繰り返される。上記で検討された工程はまた、ブロック5190においてLC/MS画像内の各々の横列についても繰り返される。ブロック5192において、(RT方向で2m+1、m/z方向で1の寸法の)直線的な窓がLC/MS画像の第1の画素に置かれる。ブロック5194において、本方法は直線的な窓内の画素の強度中央値を算出する。ブロック5196において、強度中央値が直線的窓の中心に位置する画素に割り当てられる。ブロック5198において、上記で検討された工程5194−5196がLC/MS画像の特定の縦列内の各々の画素について繰り返される。次いで本方法は別の続行末端(「末端AC3」)へと続く。
【0059】
末端AC3(図5S−4)から、上記で検討された工程がブロック5200においてLC/MS画像内の各々の縦列について繰り返される。ブロック5202において、上記で検討された工程が各々のLC/MS画像について繰り返される。次いで本方法は別の続行末端(「末端AB2」)へと続く。末端AB1(図5S−4)から、方法5000はブロック5204に進み、ここでは本方法はLC/MS画像を矩形の塊のセットへと分割する。ブロック5206において、本方法は1つの塊を取り上げて特定の横列内のすべての画素の強度中央値を算出する。ブロック5208においてこの強度中央値がこの塊のうちの特定の横列の中心に位置する画素に割り当てられる。ブロック5210において、上記で検討された工程5206−5208がこの塊のうちの各々の横列について繰り返される。次いで本方法は別の続行末端(「末端AD2」)へと続く。
【0060】
末端AD2(図5S−5)から、方法5000はブロック5212に進み、ここでは本方法は1つの塊を取り上げて特定の縦列内のすべての画素の強度中央値を算出する。ブロック5214においてこの強度中央値がこの塊のうちの特定の縦列の中心に位置する画素に割り当てられる。ブロック5216において、上記で検討された工程5212−5214がこの塊のうちの各々の縦列について繰り返される。上記で検討された工程5206−5216はすべての塊についてもやはり繰り返される。ブロック5218参照。ブロック5220において、本方法は1つの塊のうちの特定の横列の強度中央値、および水平方向で最も近接する塊のうちの相当する横列の強度中央値を取り上げる。強度中央値を割り当てられた2つの画素の間の横列内の各々の画素の強度がブロック5222において補間される。ブロック5224において、上記で検討された工程5220−5222がすべての塊について繰り返されることで横列中央値画像を作り出す。次いで本方法は別の続行末端(「末端AD3」)に進む。
【0061】
末端AD3(図5S−6)から、方法5000はブロック5226において1つの塊のうちの特定の縦列の強度中央値、および垂直方向で最も近接する塊のうちの相当する縦列の強度中央値を取り上げる。ブロック5228において、強度中央値を割り当てられた2つの画素の間の縦列内の各々の画素の強度が補間される。ブロック5230において、上記で検討された工程5226−5228がすべての塊について繰り返されることで縦列中央値画像を作り出す。次いで方法5000は別の続行末端(「末端AB2」)に進む。末端AB2(図5S−6)から、方法5000はブロック5232に進み、ここでは横列中央値画像と縦列中央値画像の両方の中の画素位置について、本方法は同一場所に位置する2つの画素の最大強度値を取り上げる。ブロック5234においてこの最大値が同一場所に位置する2つの画素に相当する第3の画像(バックグラウンド画像)内の場所に割り当てられる。上記で検討された工程5232−5234がブロック5236において横列中央値画像と縦列中央値画像内のすべての画素について繰り返される。ブロック5238において、補正されたLC/MS画像を作り出すために本方法は元のLC/MS画像からバックグラウンド画像を引き算する。次いで本方法は別の続行末端(「末端AB3」)へと続く。
【0062】
末端AB3(図5S−7)から、方法5000はブロック5240に進み、ここでは本方法が塊を使用する場合には本方法は後に続く分析のために塊の中央値と標準偏差を計算する。ブロック5242において、本方法が塊を使用しない場合には本方法は後に続く分析のための中央値と標準偏差を計算する。いくつかの補正されたLC/MS画像を作り出すために、上記で検討された工程が各々の元のLC/MS画像について繰り返される。次いで方法5000は別の続行末端(「末端AE1」)に進む。末端AE1(図5S−7)から、方法5000はブロック5246に進み、LC/MS画像をRT次元で平滑化するための工程を開始する。ブロック5248において、本方法は1つの保持時間におけるすべての画素の強度を直線的に取り上げ、一次元高速フーリエ変換を使用してそれらを周波数領域に持ち込む。ブロック5250において、あるノイズタイプが周波数領域への変換によって除去される。方法5000は別の続行末端(「末端AE2」)に進む。
【0063】
末端AE2(図5S−8)から、方法5000はブロック5252に進み、ここでは本方法はS字型(sigmoidal)またはガウス式ローパスフィルタのどちらかを順々に、または同時に作り出す。ブロック5254において本方法はローパスフィルタを、その変曲点が一次元高速フーリエ変換の周波数スペクトルの中心になるように移動させる。ブロック5256において本方法はS字型またはガウス式ローパスフィルタで一次元高速フーリエ変換に加重し、それゆえにスプリアス高周波成分を取り除く。ブロック5258において、本方法は一次元逆高速フーリエ変換を使用して1つの保持時間におけるすべての画素の強度を直線的に時間領域へと持ち込む。ブロック5260において本方法は逆高速フーリエ変換の実数部分を保持して虚数部分すべてを除去する。ブロック5262において、本方法はある画素の強度を、逆高速フーリエ変換の適用後にそれらの強度が負であればゼロに設定する。上記で検討された工程がブロック5264においてLC/MS画像のすべての保持時間、およびすべてのLC/MS画像について繰り返される。方法5000は別の続行末端(「末端AJ1」)に進む。
【0064】
末端AJ1(図5S−9)から、方法5000は判定ブロック5266に進み、ここではデータが(データの15%未満が非ゼロの値を有するような)まばらであるかどうか判定するための検定が実行される。判定ブロック5266の検定に対する答えがNOであれば方法5000は別の続行末端(「末端AG1」)に進む。そうでない場合、判定ブロック5266の検定に対する答えはYESであり、本方法は別の続行末端(「末端AF1」)に進み、さらにブロック5268に進み、ここでは本方法はまばらなデータに関して閾値マスクを決定するための工程を開始する。ブロック5270において、本方法はLC/MS画像から、ゼロよりも上のそれらの強度に関してゼロよりも上のビットマスクを作る。同時に、ブロック5272において本方法は前に末端AB3とAE1との間で計算されたLC/MS画像に関する標準偏差または標準偏差のセットを入手する。標準偏差のセットが入手されれば本方法はブロック5274において標準偏差の中央値を算出する。方法5000は別の続行末端(「末端AF2」)に進む。
【0065】
末端AF2(図5S−10)から、方法5000はブロック5276に進み、ここでは本方法は標準偏差よりも下の強度をゼロに設定することによって標準偏差ビットマスクを作り出す。ブロック5278において、本方法は標準偏差マスク上で数学的形態学的拡張操作を実行する。ブロック5280において拡張操作はゼロよりも上のビットマスクの構造によって抑制される。次いで本方法はブロック5282において閾値マスクを作り出す。次いで方法5000は別の続行末端(「末端AA3」)に進む。末端AG1(図5S−10)から、方法5000はブロック5284に進み、ここでは本方法はまばらでないデータに関して閾値マスクを決定するための工程を開始する。ブロック5286において、本方法はLC/MS画像から、ゼロよりも上のそれらの強度に関してゼロよりも上のビットマスクを作る。本方法は別の続行末端(「末端AG2」)へと続く。
【0066】
末端AG2(図5S−11)から、方法5000はブロック5288に進み、ここでは本方法は前に末端AB3とAE1との間で計算されたLC/MS画像に関する標準偏差または標準偏差のセットを同時に入手する。標準偏差のセットが入手されれば本方法はブロック5290において標準偏差の中央値を算出する。ブロック5292において、本方法は閾値として標準偏差または標準偏差の中央値を使用して閾値よりも下の強度をゼロに設定する。方法5000は別の続行末端(「末端HH1」)に進む。本方法はブロック5294へと続き、ここでは本方法はLC/MS画像を平滑化するための工程を開始する。ブロック5296において、本方法はm/z次元でLC/MS画像を平滑化するための工程を開始する。本方法は別の続行末端(「末端AI2」)へと続く。
【0067】
末端AI2(図5S−12)から、方法5000はブロック5300において1つのm/z走査におけるすべての画素の強度を直線的に取り上げ、一次元高速フーリエ変換を使用してそれらを周波数領域へと持ち込む。ブロック5302において、本方法はS字型またはガウス式ローパスフィルタのどちらかを順々に、または同時に作り出す。ブロック5304において本方法はローパスフィルタを、その変曲点が一次元高速フーリエ変換の周波数スペクトルの中心になるように移動させる。ブロック5306において本方法はS字型またはガウス式ローパスフィルタで一次元高速フーリエ変換に加重し、それゆえにスプリアス高周波成分を取り除く。次に、ブロック5308において、本方法は一次元逆高速フーリエ変換を使用して1つのm/z走査におけるすべての画素の強度を直線的に時間領域へと持ち込む。ブロック5310において本方法は逆高速フーリエ変換の実数部分を保持して虚数部分すべてを除去する。ブロック5312において、上記で検討された工程がLC/MS画像のすべてのm/z走査、およびすべてのLC/MS画像について繰り返される。本方法は別の続行末端(「末端AH2」)に進む。
【0068】
末端AH2(図5S−13)から、方法5000はRT次元でLC/MS画像を平滑化するために末端AE1とAE3との間の工程を開始する。ブロック5314参照。次いで本方法は別の続行末端(「末端AG3」)へと続く。本方法はさらにブロック5316に進み、ここでは本方法は標準偏差よりも下の強度をゼロに設定することによって標準偏差ビットマスクを作り出す。ブロック5318において、閾値マスクを作り出すために本方法は標準偏差ビットマスクとゼロよりも上のビットマスクを交差させる。本方法は別の続行末端(「末端AA3」)に進み、さらにブロック5320に進み、ここでは本方法はLC/MS画像に閾値マスクを適用する(掛け算する、または論理的「終了」)ことでバックグラウンドを補正する。本方法は別の続行末端(「末端A28」)に進む。
【0069】
末端AK1(図5S−14)から、方法5000はブロック5322においてLC/MS画像を平滑化するために末端AH1とAG3との間の工程を開始する。ブロック5324において、本方法はLC/MS画像のバックグラウンドを補正するために末端AB1とAE1との間の工程を開始する。ブロック5326において本方法は閾値マスクを決定するために末端AJ1とAA3との間の工程を開始する。次に、ブロック5328において、方法5000はLC/MS画像に閾値マスクを適用する(掛け算する、または論理的「終了」)ことでバックグラウンドを補正する。方法5000は末端A28に進み、さらにブロック5330に進み、ここでは各々の処理群の中の複製が、複製を横切る画素の強度を平均することによって1つの画像の中に組み合わされる。方法5000は別の続行末端(「末端AL1」)に進む。
【0070】
末端AL1(図5S−15)から、方法5000はブロック5332において群内複製の組合せ画像を矩形の断片に割って部分画像を形成する。ブロック5334において、各々の部分画像の画素強度の標準偏差が算出される。ブロック5336において強度が(上記で算出された)2つの標準偏差よりも下の画素についてビットマスクが作り出される。ブロック5338において、工程5336にて作り出されたビットマスクがLC/MS画像に適用される。ブロック5340において、各々の部分画像の画素強度の標準偏差が再計算される。ブロック5342において、部分画像の再計算された標準偏差を使用して二次元補間が実行される。ブロック5344において、元の群内複製組合せ画像に対して数学的形態学的グレースケール拡張操作が実行される。次いで本方法は別の続行末端(「末端AL2」)へと続く。
【0071】
末端AL2(図5S−16)から、ブロック5346において、グレースケール拡張の結果がいずれの場所でも補間画像よりも大きい別のビットマスクが作り出される。ブロック5348では、上記の工程5346で作り出されたビットマスクに対して数学的形態学的オープン操作が実行される。ブロック5350において、オープンビットマスクが元の群内複製組合せ画像と共に適用される(掛け算される、または論理的「終了」)。ブロック5352において、上記の工程が画素の強度を表わす浮動小数点値を伴うマスク処理されたLC/MS画像を作り出す。上記の工程がブロック5354において各々の群内複製組合せ画像について繰り返される。ブロック5356において本方法は様々な群の組合せ画像を取り入れ、各々の画素位置のすべての組合せ画像の中で(群間)強度を融合させる。次いで方法5000は別の続行末端(「末端AM1」)に進む。
【0072】
末端AM1(図5S−17)から、方法5000はブロック5358において特徴マスクを作るための工程を開始する。本方法はブロック5360において群間画像内の大きくて連続的な領域を取り除くための工程を開始する。これらの大きくて連続的な領域は多数の無関係な混入物質の溶出に由来するノイズおよびバックグラウンドによって引き起こされることがあり得る。本方法は別の続行末端(「末端AN1」)に進む。本方法はさらにブロック5362に進み、ここでは本方法は元の群間画像の形態学的平滑化を始めるための工程を開始する。ブロック5364において、1つの画素半径の構造的素子を使用して形態学的グレースケールオープン処理が実行される。ブロック5366において、1つの画素半径の構造的素子を使用して形態学的グレースケールクローズ処理が実行される。ブロック5368において上記の工程5364−5366が、構造的素子のサイズを直径で1から5画素のサイズまで増大させながら繰り返される。存続する画素は関心対象の生物学的特徴の発見に関する信号を含むと考えられる。ブロック5370において、これらの形態学的平滑化工程の終わりに第1の画像が作り出される。次いで方法5000は別の続行末端(「末端AN2」)に進む。
【0073】
末端AN2(図5S−18)から、形態学的平滑化の工程と同時に本方法はブロック5372において元の群間画像に対して形態学的グレースケールオープン処理を実行する。ブロック5374において、本方法はRT次元でLC/MS画像を平滑化するために末端AE1とAE3との間の工程を開始して第2の画像を作り出す。ブロック5376において本方法は第1の画像を平滑化するために末端AH1とAG3との間の工程を開始する。ブロック5378において、本方法はこの第1の画像の強度に対する第2の画像の強度の比を取り込むことによって信号の平滑化能力を判定する。ブロック5380において、関心対象の見込まれる特徴を示す適切な(例えば近似し過ぎる)比の値を備えた画素位置に関して第2のビットマスクが実行される。ブロック5382において、約1の半径の構造的素子を備えた第2のビットマスクに対して二次元形態学的オープン操作が実行される。ブロック5384において、強度がゼロよりも大きい画素に関して第1のビットマスクが第1の画像から形成される。方法5000は別の続行末端(「末端AN3」)に進む。
【0074】
末端AN3(図5S−19)から、ブロック5386において形態学的オープン操作が最大許容ピーク幅で(例えば10−11画素の長さで)、第1のビットマスクに対してm/z次元で実行される。ブロック5388において、RTとm/z次元の両方であるが元の第1のビットマスクによって制約されて(調節もやはりされて)形態学的拡張操作がオープン処理された第1のビットマスクに対して実行される。ブロック5390において、本方法は連続的ノイズを伴わないマスクを作り出すために第2のマスクを反転された(論理的補数の)第1のマスクと交差させる(論理的AND)。連続的ノイズを伴わないマスクがブロック5394の元の群間画像に適用される(掛け算される、または論理的に「AND処理される」)。次いで本方法は別の続行末端(「末端AM2」)へと続き、さらにブロック5396に進み、ここでは強度がゼロよりも大きい画素に関してビットマスクが同時に元の群間画像から作り出される。次いで本方法は別の続行末端(「末端AM3」)へと続く。
【0075】
末端AM3(図5S−20)から、ブロック5398において例えば2などの適切な半径を備えたダイヤモンド形状の構造素子を使用して形態学的オープン操作がビットマスクに対して実行される。ブロック5400において、本方法は大きい連続的領域が除去された群間画像を平滑化するための末端AH1とAG3との間の工程を開始する。以下の技法はラプラス変換によって検出されるエッジ間の負の値として表わされるアーチファクトを得るためにラプラス変換を使用する。これらのアーチファクトはピークを含めた関心対象の見込まれる生物学的特徴の領域を位置特定するために使用される。ピークの頂点付近にあって関心対象の見込まれる生物学的特徴を位置特定する能力を不明瞭にしかねないノイズを避けるためにラプラス変換がガウス変換と併せて使用される。工程5398でオープン操作を受けたビットマスクが平滑化された群間画像に適用されることで前LoG(ガウシアンのラプラシアン(Laplacian of a Gaussian))画像を作り出す。ブロック5402参照。方法5000は別の続行末端(「末端AO1」)に進み、ブロック5404にさらに進み、ここでは本方法はガウス関数カーネルの適切な放射状ラプラシアン(1または2のσを備えた7×7カーネルなど)を作り出す。ブロック5406において、本方法はまたm/z次元でガウス関数カーネルの適切な線形ラプラシアン(1または2のσを備えた7×7など)も作り出す。ブロック5408において、負の値の第1のマスクを作り出すために前LoG画像が放射状LoGカーネルと重畳される。次いで本方法は別の続行末端(「末端AO2」)へと続く。
【0076】
末端AO2(図5S−21)から、負の値の第2のマスクを作り出すためにブロック5410において前LoG画像が線形LoGカーネルと重畳される。ブロック5412において、スポットのマスクを作り出すために第1と第2のマスクが交差させられる(掛け算される、または論理的に「AND処理される」)。次いで本方法は別の続行末端(「末端AM4」)へと続き、さらにブロック5416に進み、ここでは本方法は大きい連続的領域が除去された群間画像を反転させる。ブロック5418において、ウォーターシェッド流域間の線を見つけるために本方法は反転された画像にウォーターシェッド変換を実行する。ウォーターシェッド変換は前にガウス変換のラプラシアンによって分離されなかったピークなどの融合した生物学的特徴を別々に分割するのに役立つ。ブロック5420において本方法はウォーターシェッド流域間の線に基づいてビットマスクを作り出す。本方法は別の続行末端(「末端AM5」)に進む。
【0077】
末端AM5(図5S−22)から、方法5000はブロック5422においてウォーターシェッド線ビットマスクを反転させる。ブロック5424において、特徴のマスクを作り出すために本方法はウォーターシェッド線ビットマスクとスポットのマスクを交差させる(または掛け算する、または論理的に「終了させる」)。ブロック5426において、範囲2、1のボックス構造素子を使用して二次元の形態学的オープン操作が特徴のマスクに対して実行される。ブロック5428において、本方法は関心対象のピークおよび他の特徴を識別するために次の段階で使用される合成画像および特徴のマスクを作り出す。次いで本方法は末端Bに進む。
【0078】
末端B(図5A−1)から、方法5000は続行末端(「末端C」)と別の続行末端(「末端D」)との間に規定される方法工程のセット5004に進む。方法工程のセット5004はピーク、同位体群、および荷電群を含めた画像特徴を抽出する。
【0079】
末端C(図5T)から、方法5000は画像特徴に関してiのm/z値とjの時間点の強度としてxi,jを規定する。ブロック5430参照。ブロック5432において、本方法は画像特徴の最大強度としてピーク強度を規定する。ブロック5434において、本方法は合成画像の上に(複数の格子横列と格子縦列を備えた)格子を重ね合わせる。次いで本方法は別の続行末端(「末端C1」)へと続く。
【0080】
末端C1(図5U)から、方法5000はブロック5436において様々な特徴の境界を算出する。ブロック5438において、本方法は他の特徴パラメータを算出する。次いで本方法は別の続行末端(「末端C2」)へと続く。
【0081】
末端C2(図5V)から、方法5000は非ゼロ画素などのある値の関連した複数画素を検索することによって合成画像内でピークを抽出する。ブロック5440参照。判定ブロック5442において、ピークが見つけられたかどうか判定するための検定が実行される。判定ブロック5442の検定に対する答えがNOであれば本方法は別の続行末端(「末端C3」)へと続き、ブロック5440へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。判定ブロック5442の検定に対する答えがYESであれば本方法はブロック5444へと続き、ここでは本方法は見つけられたピークを指数などの特有の指示子でラベリングする。本方法は判定ブロック5446に進み、ここではさらに多くの関連した非ゼロ画素があるかどうか判定するための別の検定が実行される。判定ブロック5446の検定に対する答えがYESであれば本方法は末端C3に進み、ブロック5440へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5446の検定に対する答えはNOであり、本方法は別の続行末端(「末端C4」)へと続く。
【0082】
末端C4(図5W)から、方法5000はブロック5448においてm/z方向で重なり合ったピークの解析を開始する。ブロック5450において、本方法は格子横列(m/z方向)のすべてのピークのピーク強度中央値を計算する。ブロック5452において、本方法はピーク強度中央値よりも高いピーク強度を有する格子横列内ピークである高い格子横列ピークを計算する。ブロック5454において本方法は高い格子横列ピークのm/z幅中央値およびその偏差に基づいて(重なり合うピークを区切る)幅閾値を計算する。ブロック5456において、本方法はピークm/zの重心の幅を計算する。ピークの重心の幅が幅閾値以上であるかどうか判定するための検定が判定ブロック5458において実行される。判定ブロック5458の検定に対する答えがNOであれば本方法は別の続行末端(「末端C5」)に進む。そうでない場合、判定ブロック5458の検定に対する答えはYESであり、本方法は別の続行末端(「末端C15」)に進む。
【0083】
末端C5(図5X)から、方法5000は判定ブロック5460に進み、ここでは格子横列内のすべてのピークが解析されたかどうか判定するための検定が実行される。判定ブロック5460の検定に対する答えがNOであれば方法5000はブロック5462に進み、ここでは本方法は重なり解析のために格子横列の中の他のピークを選択する。次いで本方法は別の続行末端(「末端C6」)へと続き、一巡してブロック5456(図5W)に戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5460の検定に対する答えはYESであり、本方法は判定ブロック5464に進み、ここではすべての格子横列が解析されたかどうか判定するための別の検定が実行される。判定ブロック5464の検定に対する答えがNOであれば本方法はブロック5468に進み、ここでは本方法は重なり解析のために別の格子横列を選択する。次いで本方法は別の続行末端(「末端C7」)に進み、スキップしてブロック5450へと戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5464の検定に対する答えはYESであり、本方法は別の続行末端(「末端C11」)に進む。
【0084】
末端C15(図5Y)から、方法5000は判定ブロック5470に進み、ここでは本方法が高いコントラストの分割を実行しているかどうか判定するための検定が実行される。判定ブロック5470の検定に対する答えがYESであれば本方法は別の続行末端(「末端C8」)に進む。そうでない場合、判定ブロック5470の検定に対する答えはNOであり、本方法はブロック5472に進み、ここでは本方法は低いコントラストの分割を実行し始める。次いで本方法は別の続行末端(「末端C17」)へと続く。
【0085】
末端C8(図5Z)から、方法5000はブロック5474に進み、ここでは本方法は重なり合うピークの高いコントラストの分割を始める。ブロック5476において、本方法は重なり合うピークを記述する点の配列(x1,x2,...,xn)を入手し、各々の点は対応する強度を備えている。十分な数(例えば4つ)の分割するべき点があるかどうか判定するための検定が判定ブロック5478において実行される。判定ブロック5478の検定に対する答えがNOであれば方法5000は別の続行末端(「末端C10」)に進む。そうでない場合、判定ブロック5478の検定に対する答えはYESであり、本方法はブロック5480に進み、ここでは本方法は2つの直ぐ隣りの接近点よりも低い強度を備えた点である配列内の落ち込みを見つける。ブロック5482において、本方法はコントラスト閾値(例えば0.1などといったコントラストレベルと配列の最大強度との積)を計算する。次いで本方法は別の続行末端(「末端C9」)へと続く。
【0086】
末端C9(図5A−2)から、方法5000は判定ブロック5484に進み、ここでは落ち込みのうちの1つがコントラスト閾値よりも小さい強度を有するかどうか判定するための検定が実行される。判定ブロック5484の検定に対する答えがNOであれば本方法は末端C10に進む。そうでない場合、判定ブロック5484の検定に対する答えはYESであり、本方法はブロック5486に進み、ここでは重なり合うピークは高いコントラストであって分割可能である。ブロック5488において、本方法は閾値(例えば配列の標準偏差と最大値との積)よりも小さい強度を備えた点のすべての関連したセットを見つける。本方法はブロック5490において複数の点の関連したセット内の最小落ち込み(または多くある場合には第1の最小落ち込み)を見つける。ブロック5492において、本方法は重なり合うピークを最小落ち込みの点において分割する。ブロック5494において、本方法は特有の指示子で分割ピークをラベリングし、原初の特有の指示子がピークのうちの一方に再使用される。本方法は末端C10に進む。
【0087】
末端C10(図5A−3)から、方法5000は判定ブロック5496に進み、ここでは本方法がm/z方向で解析しているかどうか判定するための検定が実行される。判定ブロック5496の検定に対する答えがYESであれば本方法は末端C5に進み、スキップして判定ブロック5460へと戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5496の検定に対する答えはNOであり、本方法は別の続行末端(「末端C14」)に進む。末端C11(図5A−3)から、方法5000はブロック5498に進み、ここでは本方法は保持時間方向で重なり合うピークの解析を開始する。ブロック5500において、本方法は合成画像内のすべてのピークのピーク強度中央値を計算する。ブロック5502において本方法は、ピーク強度中央値よりも高いピーク強度を有するピークである高ピークを計算する。次いで本方法は別の続行末端(「末端C12」)へと続く。
【0088】
末端C12(図5A−4)から、方法5000は偏差期間内のすべての高ピークの時間幅中央値に基づいて(重なり合うピークを区切る)幅閾値を計算する。ブロック5504参照。ブロック5506において、本方法は高ピークに関してピーク時間の重心の幅を計算する。本方法は判定ブロック5508に進み、ここではピークの重心の幅が幅閾値以上であるかどうか判定するための検定が実行される。判定ブロック5508の検定に対する答えがYESであれば本方法は末端C15に進み、スキップして判定ブロック5470へと戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5508の検定に対する答えはNOであり、本方法は別の続行末端(「末端C14」)に進む。
【0089】
末端C14(図5A−5)から、方法5000は判定ブロック5510に進み、ここではすべての高ピークが解析されたかどうか判定するための検定が実行される。判定ブロック5510の検定に対する答えがNOであれば方法5000は別の続行末端(「末端C13」)に進み、スキップしてブロック5506へと戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5510の検定に対する答えはYESであり、本方法は判定ブロック5512に進み、ここでは重なり解析が繰り返されるべきかどうか判定するための他の検定が実行される。判定ブロック5512の検定に対する答えがYESであれば本方法は末端C4に進み、スキップして判定ブロック5448(図5W)へと戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5512の検定に対する答えはNOであり、本方法は別の続行末端(「末端C20」)に進む。
【0090】
末端C17(図5A−6)から、方法5000はブロック5514においてガウス関数を使用して重なり合うピークをモデル化する。ブロック5516において、複数のガウス関数の最良適合を見出すために最適化処理が重なり合うピークに適用される。ブロック5518において、完全に重なり合って分割不可能である場合の推定については仮説は構成されない。ブロック5520において、仮説のない確率が真であるかどうか判定するためにp値が供給される。p値が閾値よりも小さいかどうか判定するための検定が判定ブロック5522において実行される。判定ブロック5522の検定に対する答えがNOであれば本方法はブロック5524に進み、ここでは帰無仮説が真であり、ピークは分割不可能である。方法5000は末端C10へと続き、一巡して判定ブロック5496へと戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5522の検定に対する答えはYESであり、本方法は別の続行末端(「末端C18」)に進む。
【0091】
末端C18(図5A−7)から、方法5000は判定ブロック5526に進み、ここでは帰無仮説は拒絶され、ピークは分割可能である。ブロック5528において、本方法は重なり合いまたは結合の場所を判定するためにガウス関数を使用する。本法はまた、各々の個別ピークから重なり合うかまたは結合したピークへの強度の寄与もブロック5530において判定する。重なり合いの場所で分割が起こるはずであるかどうか判定するための検定がブロック5532において実行される。判定ブロック5532の検定に対する答えがNOであれば本方法は別の続行末端(「末端C19」)に進む。そうでない場合、判定ブロック5532の検定に対する答えはYESであり、本方法はガウス関数によって判定された場所を使用してブロック5534においてピークを分割する。ブロック5536において、本方法は分割されたピークを特有の指示子でラベリングし、原初の特有の指示子がピークのうちの一方に再使用される。次いで本方法は末端C10へと続き、一巡して判定ブロック5496へと戻り、上記で特定された処理工程が繰り返される。
【0092】
末端C19(図5A−8)から、方法5000は特に広い幅を備えたピークの曲線の下の面積または表面の下の体積を使用してブロック5538において合計強度を判定する。ブロック5540において、本方法は特に広い幅を備えたピークの中の各々のピークの強度割合を計算する。本方法はこれらのピークの下の面積の比に基づいた割合強度を使用してブロック5542においてピークを分割する。ブロック5544において、本方法は分割されたピークを特有の指示子でラベリングし、原初の特有の指示子がピークのうちの一方に再使用される。次いで本方法は末端C10へと続き、一巡して判定ブロック5496へと戻り、上記で特定された処理工程が繰り返される。末端C20(図5A−8)から、本方法はブロック5546に進み、ここでは本方法は過度に幅広の時間のピークを整える。次いで本方法は別の続行末端(「末端C21」)に進む。
【0093】
末端C21(図5A−9)から、方法5000は理想ピークに関してクロマトグラムモデルを作成するためにブロック5548において修正マクスウェル分布関数などのモデルを使用する。ブロック5550において、本方法は合成画像からのピークに対する近似的整合を得るようにモデルのパラメータを調節する。本方法はピークに関して整合がどの程度優れているか判定するピーク時間の点数をブロック5552において作り出す(完全な整合については点数は1であり、ノイズの多いピークについては点数は0に向かう傾向を有する)。ブロック5554において、本方法は様々な他の時間特徴特性を計算する。判定ブロック5556において検定が実行され、ここではすべてのピークが特徴付けられたかどうか判定される。判定ブロック5556の検定に対する答えがYESであれば本方法は別の続行末端(「末端C22」)に進む。判定ブロック5556の検定に対する答えがNOであれば本方法は末端C21に進み、ブロック5548へとスキップして戻り、上記で特定された処理工程が繰り返される。
【0094】
末端C22(図5A−10)から、方法5000はガウス分布関数などのモデルを使用してm/z方向のピークの特性を判定するためにブロック5558においてモデルを作成する。ブロック5560において、本方法は合成画像からのピークに対する近似的整合を得るようにモデルのパラメータを調節することでモデルを修正する。本方法はスペクトルピークの品質を判定するためにブロック5562においてm/zピークの点数を作り出す(ピークが汚染されていないときに点数は1であり、汚染されたピークについては点数は0に向かう傾向を有する)。ブロック5564において本方法は様々な他のm/z特徴特性を計算する。すべてのピークが特徴付けられたかどうか判定するための検定が判定ブロック5566において実行される。判定ブロック5566の検定に対する答えがYESであれば本方法は別の続行末端(「末端C23」)へと続く。
【0095】
判定ブロック5566の検定に対する答えがNOであれば本方法は末端C22に進み、ブロック5558へとスキップして戻り、上記で特定された処理工程が繰り返される。末端C23(図5A−11)から、方法5000はブロック5568に進み、ここでは本方法は保持時間方向の強度(RT)、m/z方向の強度(RM)、および時間の点数(RS)によってすべてのピークをランク付けする。ブロック5570において、本方法はR=RS+(RT+RM)/2などといった適切な式を使用して総合的なランクを計算する。最大のR点数を備えた特徴が1番目に記載され、2番目に大きいR点数が2番目に記載されるなどのように本方法はブロック5572において総合的なランクの順序を組み直す。ブロック5574において、同位体群を見つけるために本方法は総合的なランクで1番目に記載されたピークである種ピークを選択する。本方法はブロック5576においてピークモデルを使用して荷電点数を計算すること、および最高の荷電点数を備えた荷電を選択することによって種ピークの荷電を見出すことを試みる。ブロック5578において、本方法は低いm/z方向に向かって同位体ピークを探す。次いで本方法は別の続行末端(「末端C24」)に進む。
【0096】
末端C24(図5A−12)から、方法5000は判定ブロック5580に進み、ここでは本方法が検索のm/z方向を切り換えるべきかどうか判定するための検定が実行される。判定ブロック5580の検定に対する答えがYESであれば本方法は種ピークのm/z位置よりも高いm/zレベルを検索するために正の同位体番号(K)を繰り返すことによってブロック5582において同位体ピークを探す。次いで本方法は別の続行末端(「末端C25」)へと続く。そうでない場合、判定ブロック5580の検定に対する答えはNOであり、本方法はブロック5584に進み、ここでは本方法は種ピークのm/z位置よりも低いm/zレベルを検索するために負の同位体番号(K)を繰り返すことによって同位体ピークを探す。本方法は末端25へと続き、さらにブロック5586に進み、ここでは本方法は同位体ピークを検索するための同位体領域の幅を種ピークの時間幅と同等と見なす。本方法はブロック5588において種ピークの重心の幅、同位体番号(K)、中性子質量、および荷電に基づいて同位体の中心領域を規定する。本方法はブロック5590において種ピークの定数および格子調節されたm/z幅に基づいて同位体領域の高さを規定する。本方法は別の続行末端(「末端C26」)に進む。
【0097】
末端C26(図5A−13)から、方法5000は判定ブロック5592に進み、ここでは本方法がすべての方向で同位体ピークを検索したかどうか判定するための検定が実行される。判定ブロック5592の検定に対する答えがYESであれば本方法は別の続行末端(「末端C30」)に進む。判定ブロック5592の検定に対する答えがNOであれば本方法はブロック5594に進み、ここでは本方法は同位体領域の中で同位体番号(K)によって識別される同位体位置の候補ピークを見つける。ブロック5596において本方法は同位体強度、種同位体強度、これまでに計算された最大同位体強度、および先行する同位体の同位体強度に基づいて商を計算する。判定ブロック5598において検定が実行され、ここでは候補ピークの強度が受容可能であることを商が示すかどうか判定される。判定ブロック5598の検定に対する答えがNOであれば本方法は末端C24に進み、一巡して判定ブロック5580へと戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5598の検定に対する答えはYESであり、本方法は別の続行末端(「末端C27」)に進む。
【0098】
末端C27(図5A−14)から、候補のピークが同位体のm/zの強度/形状モデルおよび同位体の時間の強度/形状モデルと完全に整合する単純な位置に関してブロック5560において帰無仮説が構築される。候補のピークが同位体群の一部として受容され得るか拒絶されるか判断するためにブロック5602においてm/z方向と時間方向の両方でp値が供給される。時間方向は保持時間方向である。ブロック5604において、本方法はガウス関数を使用して候補のピークを同位体モデルと比較する。候補のピークのp値が受容閾値よりも大きいかどうか判定するための検定が判定ブロック5606において実行される。判定ブロック5606の検定に対する答えがYESであれば本方法はブロック5608に進み、ここでは候補のピークが特定の同位体群で識別する特有の指示子でラベリングされる。次いで本方法は別の続行末端(「末端C28」)へと続く。そうでない場合、判定ブロック5606の検定に対する答えはNOであり、本方法は別の続行末端(「末端C29」)に進む。
【0099】
末端C28(図5A−15)から、方法5000はブロック5610に進み、ここでは帰無仮説は真であり、候補のピークはその構成要素が種ピークである同位体群に属する。候補のピークはブロック5612においてランク付けから除外される。次いで本方法は末端C24へと続き、一巡して判定ブロック5580へと戻り、ここでは本方法は上記で検討された処理工程を実行するように進行する。末端C29(図5A−15)から、p値が拒絶閾値よりも小さいかどうか判定するための検定が実行される判定ブロック5614が実行される。判定ブロック5614の検定に対する答えがNOであれば本方法はブロック5616へと続き、ここでは候補のピークは後に他の同位体群が発見されたピークを主張することもあり得るケースでは本方法によって保留状態に置かれる。次いで本方法は末端C24へと続き、判定ブロック5580へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5614の検定に対する答えはYESであり、本方法はブロック5618に進み、ここでは発見されたピークは同位体群の構成要素ではない。次いで本方法は末端C24へと続き、判定ブロック5580へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。
【0100】
末端C30(図5A−16)から、方法5000はブロック5620において同位体群を特有の指示子でラベリングする。ブロック5622において、他の同位体群のピークおよび荷電の発見を妨害しないように本方法は種ピークをランク付けから除外する。判定ブロック5624において検定が実行され、ここでは解析されるべきさらに多くの種ピークがあるかどうか判定される。判定ブロック5624の検定に対する答えがYESであれば方法5000は別の続行末端(「末端C31」)に進む。そうでない場合、判定ブロック5624の検定に対する答えはNOであり、本方法はブロック5626に進み、ここでは本方法は複数の同位体群に属するピークを有する同位体群を除外する。次いで本方法は別の続行末端(「末端C32」)へと続く。
【0101】
末端C32(図5A−17)から、方法5000は判定ブロック5628に進み、ここでは本方法が単一の同位体を検出するかどうか判定するための検定が実行される。判定ブロック5628の検定に対する答えがNOであれば本方法は別の続行末端(「末端C33」)に進む。そうでない場合、判定ブロック5628の検定に対する答えはYESであり、本方法はブロック5630に進み、ここでは本方法は同位体群の質量を計算し始める。同位体群の質量は荷電(G)、陽子質量、および最も下の検出同位体の中の第1のピークのm/z強度の重心に基づく積である。ブロック5632参照。次いで本方法は別の続行末端(「末端C39」)へと続く。
【0102】
末端C33(図5A−18)から、方法5000は最も下の同位体位置のピークの最も下のm/z強度の重心を使用することによって最初に質量を推定する。ブロック5634参照。ブロック5636において、本方法は各々の同位体の中のピークの最大のモデルRT強度を使用することによって観測される分布を計算する。本方法はブロック5638において理論的同位体分布を観測される同位体分布と比較し、最良整合が見つけられるまでそれらを変位させ、結果として整数偏位につながる。同位体群の質量はこの整数偏位を使用して再計算される。ブロック5640参照。次いで本方法は末端C39へと続き、さらに判定ブロック5642に進み、ここでは解析されるべきさらに多くの同位体群があるかどうか判定するための検定が実行される。判定ブロック5642の検定に対する答えがNOであれば本方法は別の続行末端(「末端C34」)に進む。そうでない場合、判定ブロック5642の検定に対する答えはYESであり、本方法は末端C32に進み、判定ブロック5628へとスキップして戻り、上記で特定された処理工程が繰り返される。
【0103】
末端C33(図5A−19)から、方法5000は同じ質量と保持時間を有するが異なる荷電状態を有する同位体群のセットである荷電群を見つけ始める。ブロック5644参照。ブロック5646において、本方法は単一の同位体ピークを備えた同位体群を発見処理から除外する。本方法は同位体群内のすべてのピークに関する平均RT点数のランクと同位体群内のすべてのピークの最大ピーク強度のランクの和である総合的ランク(R)をブロック5648において計算する。ブロック5650において、総合的ランクが各々の同位体群について作り出され、高い点数を有する同位体群が1番目にランク付けされて順序を決められる。ブロック5652において、種同位体群(種)が選択される。ブロック5654において境界が画定され、境界の中には種から由来する質量の単位に基づき、かつ種のRTの重心から由来する時間のある単位の中にある候補の同位体群がある。ブロック5656において、検査のために候補の同位体群が選択される。次いで本方法は別の続行末端(「末端C34」)へと続く。
【0104】
末端C34(図5A−20)から、2つの同位体群が同位体群の重心モデル、同位体群のRT強度の重心モデルに基づいて同じ群に属するという仮定についてブロック5658において帰無仮説が構築される。ブロック5660において、同位体群が荷電群の一部として受容され得るか拒絶されるか評価するためにp値が供給される。ブロック5662において本方法はガウス関数を使用して候補の同位体群をモデルと比較する。候補の同位体群のp値が閾値よりも大きいかどうか判定するための検定が判定ブロック5664において実行される。判定ブロック5664の検定に対する答えがNOであれば本方法は別の続行末端(「末端C35」)に進む。そうでない場合、判定ブロック5664の検定に対する答えはYESであり、本方法はブロック5666に進み、ここでは帰無仮説は真であり、候補の同位体群はその構成要素が種同位体群である荷電群に属する。本方法はブロック5668に進み、ここでは候補の同位体群がランク付けから除外される。次いで方法5000は末端C35に進む。
【0105】
末端C35(図5A−21)から、方法5000は判定ブロック5670に進み、ここでは考察するべきさらに多くの候補同位体群があるかどうか判定するための検定が実行される。判定ブロック5670の検定に対する答えがYESであれば本方法は別の続行末端(「末端C37」)に進み、ブロック5656へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5670の検定に対する答えはNOであり、本方法はブロック5672に進み、ここでは種がランク付けから除外される。判定ブロック5674において別の検定が実行され、ここでは考察するべき他の種同位体群があるかどうか判定される。判定ブロック5674の検定に対する答えがYESであれば本方法は別の続行末端(「末端C36」)に進み、ブロック5652へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5674の検定に対する答えはNOであり、本方法は末端Dに進む。
【0106】
末端D(図5A−1)から、方法5000は続行末端(「末端E」)と別の末端(「末端F」)との間に規定される方法工程のセット5006に進む。方法工程のセット5006は生物試料中の関心対象の実例の一覧表を作り出すための発現統計値の解析を述べている。
【0107】
末端E(図5A−22)から、方法5000はブロック5676に進み、ここでは本方法は発現特性を計算する。本方法はブロック5678において3つの集大成レベル(ピーク、同位体群、および電荷群)ですべての条件におけるすべての複製の発現プロファイルを作り出す。本方法はブロック5680において誤差モデルを計算する。ブロック5682において、本方法はピークの絞り込みを実行する。本方法はブロック5684においてすべての実例の特徴とそれらの特性の一覧表を作り出す。ブロック5686において、本方法は並列の質量分析処理を使用して配列決定を実行する。次いで本方法は末端Fへと続き、実行を終了する。
【0108】
ここで、生物試料中の関心対象の特徴を識別するための様々な技法の中への数学的基礎が検討される。図5B−5Uは画像レジストレーションに基づいた保持時間の調整および時間の歪曲に関する方法工程を例示している。ピークなどの画像特徴に関すると、LC/MS画像におけるピークの保持時間は繰り返される運転でしばしばわずかに変わる。多様な処理の中で生物学的特徴判定を定量的に比較するために、様々な実施形態における保持時間の変動は同じ生物学的特徴から由来するピークが複数の運転全体にわたって適切に調整させられるように補正されなければならない。
【0109】
本発明の様々な実施形態における時間調整と偏位補正の方法はピーク抽出に頼らなくてもよい。画像レジストレーションに基づいてもよい。画像レジストレーション法は必ずしも抽出される必要のない画像内容における類似性に基づいて画像を整合させて調整させる。図5B−5Uに例示された方法工程は保持時間の偏位を補正するように画像レジストレーションを適用する。各々のLC/MS画像は小さい格子の中に切り取られる。各々の格子の中の小さい矩形画像断片を保持時間方向または他の方向で変位させることによって、図5B−5Uに例示された方法工程は選択されたマスター画像への断片の整合を検索して見つけ出す。原初の場所から最良整合の場所への変位は所定の保持時間領域に関して1つの偏位推定を提供する。本方法工程はその時間の格子からすべての偏位推定を考察することによってその時間に関するさらに信頼性のある偏位推定を導き出すように続く。次いで本方法工程は複数の偏位推定を使用して滑らかな時間偏位推定曲線を構築する。
【0110】
図5B−5Uに例示された方法工程はある群もしくは条件の中の複製全体にわたる調整不良もしくは偏位、またはある群もしくは条件全体にわたる組合せの群画像と関連する調整不良を推定するために多様な補正係数技法を使用する様々な実施形態を検討しているが、いくつかの実施形態は以下のように2つの部分窓の間の絶対差の最小値の技法を使用して調整不良または偏位を推定する。保持時間のわずかな揺れまたはドリフトは試料間で識別されることが可能な分子イオンの数を限定することが可能である。様々な実施形態の方法工程が下記で検討されるようにラスタ化LC/MSフィルタ処理画像データに調整を適用する。
【0111】
画像レジストレーションに基づく保持時間の調整がここで述べられるように実行される。LC/MS測定において、最新のMS機器で測定される荷電測定(m/z)全体にわたる質量の精度と再現性の両方が、LC機器のみから由来する保持時間での精度と再現性よりもはるかに優れている。ペプチドなどの所定の生物学的特徴に関すると、LC/MS画像内の代表的なピークの保持時間は繰り返される運転(複製)でしばしばわずかに変わるであろう。多様な処理全体にわたってペプチド測定を比較するために、同じペプチドから由来するピークが複数の運転全体にわたって適切に調整することができるように考え得る保持時間の変位を識別して補正することが望ましい。いくつかの実施形態における時間の調整および変位の補正はピーク抽出に頼る必要がなく、代わりに画像レジストレーションに頼る。画像レジストレーション法は画像自体の類似性に基づいて画像を整合および調整させる。これらの画像特性が抽出される必要はない。様々な実施形態は、後にピークの抽出と識別に助力するように使用されることが可能な時間調整のさらに良好な感触を得るために窓内の画素全体および二次元の整合を観察する。
【0112】
このようにして、保持時間の偏位を補正するために画像レジストレーションが使用される。様々な実施形態における方法工程が矩形格子を規定する小さい窓の中に各々のLC/MS画像を切り取る。格子の小さい矩形画像断片を保持時間方向で変位させることによって、本方法工程は選択されたマスター画像への断片の最良整合を検索して見つけ出す。原初の場所から最良整合を与える場所への変位は所定の保持時間の偏位に関する推定を提供する。本方法工程は特定の時間範囲の質量/荷電の窓およびすべての利用可能な質量/荷電の値の縦列の上下から得られる偏位推定を考慮することによって変位推定を導き出す。滑らかな時間偏位推定曲線は多様な連続的時間領域に関して複数の偏位推定を遡ることによって計算される。推定された偏位を考慮に入れた後に(未加工データから出発する)LC/MS画像の各々を再生するために下記で検討されるような画像のラスタ化および補間方法が使用される。この処理は歪曲である。歪められた画像がおそらく適切に調整させられる。
【0113】
さらに特定すると、偏位の計算は以下のように起こる。方法工程がすべてのスライドの中からマスターを選択する。このマスタースライドは調整の対照のスライドである。多数の明確な特徴を有するこのスライドを有すること、すなわち高いコントラストを有することが望ましい。この基準スライドは最初にスライドに関して基準ピーク強度(BPI)を計算し、次いでこの測定値に関して標準偏差を計算することによって選択される。BPIにおいて最も高い標準偏差を備えたスライドがこの群のためのマスタースライドになる。基準ピーク強度は各々の時間点に関する最も高い強度値のことを称する。本質的に、これは保持時間に対するすべての質量/荷電の測定の二次元の要約を供給し、したがってクロマトグラムである。
【0114】
次に、本方法工程は画像を格子化する。マスターに対して調整させられる各々のスライドは最初に所定の幅の(重複しない)時間の縦列の中に分割される。次いで各々の縦列が重複しない質量/荷電部分窓の中にさらに分割される。各々の時間縦列に関して数個から多数個の部分窓を有することによって、本方法工程は構成要素部分窓の各々に関する個々の推定量を質量/荷電方向で組み合わせることで縦列に関して最終調整を推定することが可能であり、すなわち1つの縦列に関するすべての推定量はその縦列に関する変位の複製推定量と考えられる。
【0115】
次に、本方法工程は部分窓を整合させることを試みる。本方法工程はクエリーの画像(マスター)の各々の部分窓をターゲット画像に対して滑動させる(この滑動はマスターに対して調整させられる)。最良の変位であり得る場所を判定するために本方法工程はこれを一度に1画素、実際のサンプリング時間調整から左と右に行う。この滑動は一度に1画素でなくてもよく、粗検索の方式と同様の方式で為されることもやはり可能である。本方法工程が各々の方向に滑動させる画素の合計数は感知されるデータの精度によって決まるであろう。検索間隔が大きくなるにつれて、調整は一層計算上難しい要求になるであろう。調整のサンプリング時間の−3分から+3分などといった適切な時間枠の中で検索窓を網羅する程度の多くの画素を滑動させることが殆どのケースで十分である。そうでないケースでは、滑動を整合に近付けるためにBPIに基づいた事前変位調整が為されることもあり得る。比較される2つの部分画像間の最良整合を与える滑動点を判定するために、本方法工程はクエリー部分窓内の画素について画素強度間の絶対差の平均を計算する。計算をこれらの画素のみに限定することが重要であり、なぜならば画素の数は類似性の測定基準に影響を与え、かつ計算のための画素の数を変えることは付加的な偏りを計算の中に導入するからである。したがって、2つの部分窓の間の距離は各々の変位jについて以下のように計算され、これがt0−3とt0+3との間の時間、またはあるべき検索窓を決定するいずれかの他の幅へと形を変え、出願人らは画素の絶対差
【数1】
によって画素の平均を計算し、クエリー画像部分窓(Q)のi番目の画素の強度のある場所、および画像を現在の(時間t0における)試料調整の左および右にj画素変位させた後の相当する場所を計算する。結果として得られる差異の配列は比較される部分画像について最良整合がある最小値に到達するであろう。ノイズを除去した形態学的フィルタの以前の適用はこの最小値の発見の機会を増進することができる。部分窓に関して信頼性のある推定がないとこの最小値が存在しないことも見込まれ、様々な実施形態は下記で検討される誤差モデルを使用して絶対差に関する誤差の推定量を計算する。マスターを作り、したがってクエリー窓が高いコントラストを有することによって、差異は下方向で、または谷状の形状で現れると思われる。しかしながら時々、ターゲットの部分画像はクエリーの部分画像よりも強い特徴を有し、絶対差の平均を取ることは上への上昇を引き起こしかねず、これは下記で述べられる低頻度法を使用した最小値の判定を不明瞭にする。これらの稀なケースでは、差異の計算は逆にされ、本方法工程は代わりに同じ方式であるがターゲットの画素から引き算されたクエリー画素で規定される距離を最小化しようと試みる。
【0116】
次に、本方法工程は画素の絶対差の各々に関する誤差について推定量を計算する。この標準誤差概算は以下のように計算され、
【数2】
式中、
【数3】
はクエリーの部分画像(Q)およびクエリー内の画素に関するターゲットの部分画像(T)内の画素の各々に関する分散の和であり、NQはクエリーの部分窓内の画素の数である。次に、本方法工程は推定をブートストラップする。本方法工程が調整させている各々の部分窓について、本方法工程はマスターに対する差異に関する推定量に加えてこれらの差異の標準誤差の推定量を有する。ここで本方法工程は差異
【数4】
の1つの曲線の最小値を取り、これを整合と呼ぶ。しかしながら、この推定量がどの程度優れているかの測定を有することが望ましい。整合を与える時間変位の推定を洗練し、かつ誤差情報をもたらすために本方法工程はブートストラッピング技法を使用する。すなわち、差異の無作為の試料を作り出すために平均の絶対差付近で標準誤差が使用され、これらの試料の各々について本方法工程は整合につながる変位、すなわち部分窓間の差異を最小にする変位を見つけ出す。
【0117】
次に、本方法工程は逆ガウス関数を適合させることを試みる。2つの部分窓の間の絶対差の最小によって示される整合を見つけ出すために、本方法工程は窓の中の低頻度の変化を考慮する。したがって、最小差異を見つけ出すために本方法工程は作り出された無作為試料の各々に逆ガウス関数として形作られる谷状の関数を適合させ、ガウス関数適合の最小を見つけ出す。次いで部分窓に関する理想的な変位がすべてのブートストラップ推定量の中央値として計算される。対応する加重がすべてのブートストラップ推定量の絶対偏差中央値(MAD)、すなわち中央値からの偏差の中央値として計算される。ここでは数学的処理
【数5】
がある。
【0118】
次に、本方法工程は加重された平均を縦列に関して計算する。縦列の変位shiftcolの不偏最小分散推定量(UMVE)がここで以下
【数6】
のように部分窓の変位と加重の対(Yk,wk)を使用して計算されることが可能である。これが不偏で最小の分散であることを保証するために、加重wkは各々の窓に関する分散推定量の逆数、すなわち
【数7】
として規定される。
【0119】
次に、本方法工程は外れ値の縦列推定量を平坦化する。縦列変位が隣りの変位から極端に異なり得るケースを避けるために、本方法工程は最終縦列変位にTukeyの双加重3点移動平均を通過させる。言い換えると、本方法工程は各々の変位を取り上げ、その隣りの縦列の変位を観察し、それらの間の偏差中央値に比例する方式で値を調節する。次に、本方法工程は三次スプラインを使用して補間する。個々の変位縦列に適合させられると三次スプラインは滑らかに変化する変換を計算するための推定を行い、これが未加工データに適用されることで調整させるであろう。時間方向で調整させるためにいったん滑らかな変換が決定されると、本方法工程はこの変換を実施し、したがってすべての試料を同期させることが可能である。
【0120】
本方法工程は条件間で調整させることを試みる。上記で述べられた同じ画像レジストレーションが条件間に適用される。群間複製画像に関して歪曲および(下記で述べられる)再ラスタ化が起こるとその後、これらは各々の画素に関して群内のすべての複製の平均を取ることによって組み合わされる。次いでこれらの組み合わされた画像は上記で述べられた同じ画像レジストレーション処理に通され、各々の条件に関して群間変位が計算される。未加工画像データに適用される最終変位は(もしもあれば)事前変位、時間内変位、および時間間変位の集合体であろう。
【0121】
次に、本方法工程は画像歪曲および再ラスタ化を実行する。上記で述べられた工程を通じて滑らかな時間指標変換が導き出されると、ここで本方法工程は未加工の画像に戻り、再ラスタ化するときに未加工データを補間する。新たなラスタ化が基本の特徴抽出および他の下流の解析に必要とされる。このときデータはそれらの原初のサンプリング時間を画像レジストレーションに基づく時間調整アルゴリズム(事前変位、群内および群間補正)によって規定される3つの集合体で変位させることを通じて補正することによってインデックスを付けられるであろう。新たな(ラスタ化された)データはデータポイントに関する補正された時間インデックスを使用して線形補間によって得られる。各々の格子点に関するデータが、隣接を決定する過程に新たに調節された時間インデックスを使用し、右および左に隣り合う点を使用して補間される。結果として得られるラスタ化画像はその最良調整に歪められ、すなわち時間調整計算結果が指示した事柄に応じて所定の位置に引き伸ばされ、または縮められる。それらの保持時間におけるいずれの不一致も除去されており、本方法工程は特徴の解析を伴って進行する準備ができている。
【0122】
調整不良または偏位がこれまでまたはこれ以降に検討される技法によって推定されるとその後、時間調整処理によって計算された推定偏位を考慮に入れた後に未加工データからLC/MS画像の各々を再生するために画像のラスタ化および補間が使用されることが可能である。これらの新たな画像はこれまでのいくつかの実施形態およびこれ以降の他の実施形態で説明されるように特徴抽出のために歪められ、かつ調整させられる。図5B−5Uに例示された本方法工程は様々な補間技法を使用することもあり得る。いくつかの実施形態では、この補間技法は二次元空間における線形補間に基づいている。補間される値は1つの次元で保持時間および別の次元で荷電上の質量(または質量/荷電)を含む二次元空間内の画像点の強度である。
【0123】
様々な実施形態において、1つの技法に基づく複製の群に関して入力の未加工データを多様な未加工の質量/荷電座標に基づいて同じ質量/荷電格子に変換するために質量/荷電補間処理が画像処理の最初に使用される。この質量/荷電補間処理は質量/荷電格子が規則的でないことを想定している。この質量/荷電補間処理への入力データは未加工の保持時間データの一次元アレイ、未加工の質量/荷電データの二次元アレイ、未加工の強度データの二次元アレイ、結果として得られる質量/荷電格子点を表わす一次元アレイを含む。この処理は未加工の保持時間と質量/荷電格子点に関して格子強度の二次元アレイを作り出す。さらに特定すると、この質量/荷電補間処理は以下の工程を含む。各々の質量/荷電格子点に関する左隣りと右隣りについて線形補間が実行される。どのような変化も伴わずに保持時間座標が維持される。距離閾値は使用されない。両方の隣接格子点が同じである場所で質量/荷電補間処理は補間を控える。
【0124】
いくつかの実施形態では、解析において高輝度ピーク情報が重要であり、かつ孤立した点が除外されなければならないとき、調整画像処理工程に先行して高速の保持時間補間処理が使用される。この高速の保持時間補間処理は保持時間格子が一定の保持段階を伴って規則的であることを想定している。この高速の保持時間補間処理への入力データは未加工の保持時間情報の一次元アレイ、前に作成された格子に属する質量/荷電情報の二次元アレイ、強度情報の二次元アレイ、保持時間格子段階、および補間距離閾値を含む。この高速の保持時間補間処理は保持時間と質量/荷電格子点に関して格子強度の二次元アレイを作り出す。さらに特定すると、この高速の保持時間補間処理の様々な工程は各々の保持時間格子点に関して左隣りと右隣りの距離に基づく線形補間を使用する工程を含む。どのような変化も伴わずに質量/荷電座標が維持される。格子点が特定の補間距離の内側で左隣りと右隣りを有さない場合、本処理は結果としてゼロの強度を作り出す。
【0125】
様々な実施形態において、保持時間方向の正確な補間のために適応保持時間補間処理が使用される。どのような変化も伴わずに質量/荷電座標が維持される。結果として生じる格子点は変位した入力の未加工保持座標に基づいている。結果として生じる強度情報は入力規模のベクトルに基づいて規模決定される。この適応保持時間補間処理への入力データは未加工の保持時間情報の一次元アレイ、前に作成された格子に属する質量/荷電情報の二次元アレイ、強度情報の二次元アレイ、保持時間格子段階、1つの主補間距離閾値、ソリッド補間距離閾値、小補間距離閾値、保持時間変位の一次元アレイ、および強度規模係数の一次元アレイを含む。この適応保持時間補間処理は保持時間と質量/荷電格子点に関して格子強度の二次元アレイを作り出す。この適応保持時間補間処理の工程は点が直ぐ隣りを有するかどうか判定するための最初の検定で始まる補間決定系統図によって要約されることが可能である。この最初の検定に対する答えがNOであればこの格子の値はゼロである。この最初の検定に対する答えがYESであればこの点が両側に隣りを有するかどうか判定するための第2の検定が実行される。第2の検定に対する答えがYESであれば本処理が線形補間を適用することで格子値を得る。そうでない場合、第2の検定に対する答えがNOであれば、この点が一方の側でソリッドであるかどうか判定するための第3の検定が実行される。第3の検定に対する答えがYESであれば本処理がゼロ代入で線形補間を適用する。第3の検定に対する答えがNOであれば、本処理はこの点が孤立した点であるかどうか判定するための第4の検定を実行する。第4の検定に対する答えがYESであれば本処理は孤立点の値を使用する。そうでない場合、第4の検定に対する答えはNOであり、格子の値はゼロであると判定される。さらに特定すると、この適応保持時間補間処理の工程は各々の保持時間格子点に関する左隣りと右隣りの距離に基づいた線形補間である。主補間距離の内側で隣り(直ぐ隣り)が見つけ出され、各々の未加工の保持時間座標に保持時間変位が適用される。格子点の一方の側に直ぐ隣りが1つあるのみである場合、本処理はこれがどのような種類の点であるか見出そうと試みる。ソリッド距離閾値の距離(いくつかの実施形態では主補間距離の約2倍)内で一方の側にさらに多くの点がある場合、結果となる強度は特定の法則に基づいて算出される。最初に、本処理はゼロ強度および最も近いソリッド点までの距離に等しい距離で直ぐ隣りと対称の位置を備えた新たな仮の未加工の点を作り出す。新たな仮の点が現在の保持格子点から別の側にあれば、格子強度値は直ぐ隣りと新たな仮の点の線形補間であり、そうでない場合、結果となる強度はゼロである。本処理のこの部分は画像ピーク境界をさらに滑らかにすることに役立つ。直ぐ隣りがソリッドでなければ、本処理は孤立点を補間すること(または大きくすること)を控える。このケースでは、本処理は小補間距離(主補間距離の半分)内に直ぐ隣りがあるかどうか観察するようにチェックしている。保持時間格子および未加工の点が小距離内にあれば、格子強度は未加工の強度に等しく設定される。そうでない場合、これはゼロに設定される。すべての結果的強度は、いくつかの実施形態では入力の規模係数を使用して規模を決められる。
【0126】
いくつかの実施形態では、保持時間方向で極端に長い画像ストライプを除外するために篩い分けフィルタ処理操作が実行される。この操作はビット単位であり、一度に画像全体で作用するように為されることが可能である。篩い分けフィルタ処理操作への入力データは画像強度の二次元ビットアレイ、保持時間ピーク長さ閾値、保持時間ギャップ長さ、および質量/電荷ギャップ長さを含む。この篩い分けフィルタ処理操作は画像強度の篩い分けされた二次元ビットアレイを作り出す。さらに特定すると、この篩い分けフィルタ処理操作の工程は保持時間方向および質量/荷電方向のギャップの除去を含む。本操作は4つの保持格子段階に等しい保持ギャップ長さおよび2つの質量/荷電格子段階に等しい質量/荷電ギャップ長さに基づいている。この除去は標準的な形態学的拡張フィルタによって実行される。ギャップの除去の後、保持時間ピーク長さ閾値よりも大きい保持時間長さを備えた質量/荷電ストライプを(例えば強度をゼロに設定することによって)除去するために新たな画像が保持時間方向でフィルタにかけられる。
【0127】
図5B−5Uに例示された方法工程はピーク特徴抽出のための合成画像を形成することにもやはり役立つ。特徴抽出のための一例の方法は画像調整の後に実行される。図5V−5Z、5A−2−5A−21参照。本方法は最初に各々の処理群の中の(利用可能であれば)複製を、複製全体にわたって画素強度を平均することによって組み合わせる。各々の処理群の組合せ画像は個々の複製の画像内の比よりも高い信号対ノイズ比を有する。次いで、本方法はすべての処理群からの組合せ画像を、各々の画素位置ですべての組合せ画像の中の最大強度を取り入れるなどといった様々な適切な技法によって1つの合成画像へと融合させる。
【0128】
これらの処理状態のうちのいずれか1つに生物学的特徴が存在する限り、これらのピークが合成画像内に現れると思われる。ピークはバックグラウンドノイズパラメータよりも上の強度、例えば特定の場所における平均値、中央値、最大値、最小値、または標準偏差などを有する関連画素を観察することによって見つけ出されることが可能である。合成画像から抽出されたピークは組合せ前のすべての個別画像内のすべてのピークに整合するはずである。合成画像から抽出されたピーク輪郭境界は、いくつかの実施形態では、個々のLC/MS運転の各々の画像内のピーク発現強度(表面の下の体積)を推定するために使用されることが可能である。このようにして、本発明の様々な実施形態は最初に画像整合、2番目にピーク抽出を実行する。
【0129】
本発明の様々な実施形態において、実験条件が現行の実験と新たな実験との間で同様であるとき、両方の実験におけるすべてのLC/MS画像が一体に組み合わされ、調整させられ、特徴抽出のための1つの合成画像を形成することが可能である。前に識別された同位体群を新たな合成画像内で見つけ出すことは困難ではないはずなので、いくつかの実施形態では本方法は事前に利用可能なペプチド情報を使用して新たな実験に注釈を付ける。残り分のピークは前の実験で注釈を付けられなかったピークである。
【0130】
本発明の様々な実施形態がLC/MSピークおよびピーク−同位体群特性に関するパラメトリックモデルを含む。合成画像から抽出されたピークはまだノイズであることもあり得る。画像内に示される実験アーチファクトはピーク特徴として抽出されることもやはり可能である。本発明の様々な実施形態は、これらのピークがどの程度現実のピークであってアーチファクトまたはノイズから形成されたピークではないように見えるかに基づく点数が割り当てられることができるようにこれらのピークを特徴付けるための方法を可能にする。ピークの特徴付けおよび採点法は後の様々な解析における偽の陽性をフィルタで除去することに役立つ。
【0131】
本発明の様々な実施形態によってピークの特徴付けに関して少なくとも2つのパラメトリックモデルが利用可能にされる。第1は修正マクスウェル分布関数などの適切な分布関数または溶出の物理的特性を述べるいずれかの他の適切な関数を使用する理想的なLC保持時間ピークに関するクロマトグラムモデルである。ピークの特徴付けの間、モデルのパラメータは合成画像から抽出されたピークに整合するモデルを見つけ出すように最適化される。時間ピークの点数はこの整合がどの程度優れているか判定する。完全な整合については点数は1である。ピークがノイズを含むかまたはアーチファクトであるとき、点数はゼロに向かって減少する。第2のモデルは、ガウス分布関数などの適切な分布関数または質量連続体分解能特性を述べるいずれかの他の適切な関数を使用するMS連続体の中のm/zピークのためのものである。m/zピークの点数はm/z方向でピークの品質を特徴付ける。m/zピークが汚染されておらず、かつ良好に画定されているときに点数は1に近い。抽出されたピークが汚染されているかまたは2つの重なり合うピークの組合せであるとき、m/zピークの点数は落ちる。
【0132】
同位体群の優秀性を採点するためにいくつかの他のパラメータが利用可能である。(1)平均の時間ピーク点数は同位体群内のすべてのピークの時間ピーク点数の平均である。(2)平均のm/zピーク点数は同位体群内のすべてのピークのm/zピークの点数の平均である。(3)時間ピーク調整不良点数は同位体群内のPC時間ピークの重心の、平均重心からの相対的偏差を判定する。すべてのピークが同じ保持時間に中心を置く優れた同位体群はゼロに近い点数を与える。(4)m/z分布点数は同位体群内の測定されたMSスペクトルの同位体ピーク強度分布がどの程度理論的同位体強度分布に整合するか判定する。良好に整合した同位体群は1に近い点数を有する。整合の乏しい同位体群はゼロに近い点数を有する。(5)m/z分布点数に関するp値はm/z分布点数がどの程度信頼できるか信用の測定値を提供する。同位体群内で検出された同位体ピークの数が2または3などと極端に小さいとき、たとえ整合が完全であると見えても偶然の機会による整合の確率が高い。このケースでは、p値は1に近い。見つけ出された整合が偶然の事象でありそうにないとき、p値は小さく、ゼロに近い。
【0133】
図5V−5Z、5A−2−5A−21に例示された方法工程は重なり合うピークを検出して分割する。初期のピーク抽出の期間中、不可避的にいくつかの重なり合うピークが誤って1つの大きいピークとして検出されることもあり得る。これらの重なり合うピークは様々な実施形態において検出されて分割されなければならない。一例の画像処理パイプラインは時間方向とm/z方向で別々に重なり合うピークを検出して分割する。各々の方向で、他のピークの全体的な幅の分布と比べて異常に広い幅を有するピークが検出される。次いで、可能であればこれらの広いピークが分割される。検出と分割のための方法工程は、分割可能なピークが分割されることを確実にするために数回繰り返される。分割後、本方法工程は再びピークをチェックし、いくつかの長期持続ピークの保持時間の長いテールを削除する。
【0134】
重なった幅広のピークを検出するために、一実施形態では、すべてのピークについてピーク幅の分布(ヒストグラム)が計算される。ピーク幅を規定するための多くの適切な方式がある。1つの適切な方式はピーク重心幅を使用することであり、これは一実施形態ではピークの各時間点と重心との間の強度で加重された差異の二乗の平方根の4倍として規定される。重なり合ったピークを分割するために役立つように統計モデルに基づく手法が展開される。いくつかの実施形態において、各々のピークはガウス関数でモデル化される。重なり合ったピークは複数の混ざり合ったガウス形状のピークを含む。多数ガウスモデルの最良適合を見つけ出すために測定ピークに最適化処理が適用される。すべてのピークが完全に重なり合って分割不可能であるケースについては帰無仮説が構築される。仮説検定のp値は帰無仮説が真である可能性を判定する。p値が小さいとき、本方法は帰無仮説を拒絶する。言い換えると、ピークは分割可能である。p値の閾値を望ましいレベルに設定することによって、重なり合ったピークを正しく識別する信用性が選択的に管理されることが可能である。この統計学的手法は根拠のない法則とカットオフに基づく重複検出方法よりもはるかに客観的で強固である。最適化された多数ガウスモデルは分割の方法を規定するために使用されることもやはり可能である。2ピークモデルの例では、重複の位置および各個別ピークからの重複ピークへの強度寄与を判定することを2つのガウス関数が可能にする。この情報でもって、2つのピークを重複の位置で分割すること、または測定された合計強度(曲線の下の面積または表面の下の体積)の中の各ピークの強度画分を2つのモデル化されたピークの下の面積の比に基づいて計算することが可能である。
【0135】
図5V−5Z、5A−2−5A−21に例示された方法工程は荷電状態、同位体群の識別、および荷電群を推定するための統計学的パターン認識手法を提供する。本方法工程はピークを同位体群に関連付けるための統計学的パターン認識手法を提供する。本方法では任意の時間およびm/z範囲の閾値を使用する必要はない。様々な実施形態においてユーザは受容可能な感度および特異性確率を規定する。これらの確率閾値は任意である必要がない。いくつかの実施形態ではこれらはユーザのリスク許容度に基づいている。一実施形態によると、最初に本方法工程は、検出されたピークをピーク強度、時間ピークの点数、およびm/zピークの点数の順で下に進むようにランク付けする。同位体群識別はランク表の初めにある高度に発現されて最良に見えるピークから開始される。同位体群が識別されると次いで、この同位体群に属するすべてのピークがランク表から除外される。次いで、本方法工程は一覧表を下に進み、一覧表に残っている次の最良ピークに取り組む。
【0136】
図5V−5Z、5A−2−5A−21に例示された方法工程の中のピーク関連付け処理は同位体の荷電状態の推定によって決まる。本発明の様々な実施形態において、荷電の推定方法は複雑な試料から入来するデータと同等のデータと連携する。本方法工程は、一実施形態では、ランク表の最上位から由来する主ピークの保持時間重心付近の個別連続体の加重された和によって最初にMS連続体を構築する。加重は重心から遠く離れたものよりも重心付近の保持時間を有する連続体に関してさらに大きい。この加重された平均化方法は信号対ノイズ比を増大させ、隣り合う同位体群からのピークの影響を減少させる。次いで多様な荷電状態における理想モデルが作成される。各々のモデルは加重された総和の連続体に整合させられ、本方法工程は最良整合を有する1つを見つけ出す。最良整合したモデルの荷電状態は、1つまたは複数の同位体群を見つけ出すために本方法工程がピーク関連付けに適用する荷電である。
【0137】
所定の最上位ランクのピークとその荷電状態に関して、本方法工程は同じ同位体群に属する同位体ピークを検索する。これらの同位体ピークは最上位ランクのピークよりも低いかまたは高いm/zを有していてもよい。各々の見込まれる同位体に関して、本方法工程は検出されたピークを理論的モデルと比較する。本方法工程は検出されたピークがモデルと完全に整合する帰無仮説を構築する。本方法工程は予期される同位体として検出されたピークが受容され得るかまたは拒絶されるか判断するためにm/z方向と保持時間方向の両方で仮説検定のp値を使用する。検出感度を制御するために受容p値(例えば>0.6)が使用されてもよく、検出特異性を制御するために拒絶p値(例えば<0.1)が使用されてもよい。中間のp値について、いくつかの他の同位体群が検出されたピークを受容同位体または重複同位体として主張するかどうか調べるために監視項目リストが維持される。一実施形態では、本方法工程は2つの同位体群のp値が受容レベルよりも低く、かつ拒絶レベルよりも高いときに1つのピークが両方の同位体群によって権利主張されることを許容する。p値の閾値を適切に設定することによってユーザは検出の感度と特異性においてリスク許容度を制御することが可能である。目標検出の感度および特異性の受容判定基準は多様なm/z、発現の潤沢度、信号対ノイズ状態において一貫性を維持する。さらに、検出されたピーク強度と整合させるための所定の質量および荷電の理論的同位体強度分布の使用は計算を促進する。
【0138】
前に検討したように、LC/MSデータ解析に関する誤差モデルが供給される。LC/MS強度測定はノイズに対応しなければならないと見込まれる。一例の画像処理パイプラインにおける誤差モデルは画素強度測定におけるノイズを特定する。一実施形態ではLC/MSの誤差モデルは3つの誤差成分すなわち付加誤差、ポアソン誤差、および分数誤差を有する。この誤差モデルは画素強度測定に関して強度誤差推定を提供する。方法工程5A−22は画素強度の誤差をピークレベルおよび同位体群レベルに適切に広めることによってピーク強度(ピークの中の画素強度の和)および同位体群強度の誤差を推定する。この誤差モデルは複製の数が小さいときに解析時の偽の陽性を減少させることに役立つ。強度変換方法に基づく誤差モデルもやはり発現の差異に関するANOVAまたは他の統計的検定中に強度分散を安定させるために使用されることが可能である。
【0139】
さらに特定すると、モデル化された誤差の分散は
【数8】
として推定され、式中iおよびjは保持時間および質量/荷電方向全体にわたって繰り返し、Iは強度測定値である。分散は強度依存性分散のテイラー級数展開として見られることが可能である。機器依存性のパラメータであるポアソン(POISSON)および分数(FRACTION)は誤差モデル展開中の特定の質量分析計などといった所定の機器技法タイプについて推定される。技法が不変であり続ける限りこれらは一定である。ポアソンノイズと分数ノイズは異なる機器においてわずかに異なることもあり得るが、これらは普通では機器の所定の一部について経時的に安定している。付加成分をモデル化するための多数の見込まれる方法がある。これまでおよびこれ以降に述べられるような特徴抽出処理は画像特徴を取り囲む画素に基づくいくつかのバックグラウンド推定を提供する。どのようなバックグラウンド測定法が使用されるかに関係なく、所定の特徴に関していくつかの実施形態は上記の誤差モデルの付加項をモデル化するために1つのスポットよりもはるかに大きい周囲領域からの平均化された情報を使用する。誤差モデルを展開するとき、ポアソン(POISSON)と分数(FRACTION)のパラメータに関する値が推定される。
【0140】
これまでの検討は図5A−1−5A−22に例示された方法工程を概して述べている。これ以降の検討はこれらの方法工程をさらに詳しくさらに記述する。要約すると、本方法は形態学的フィルタを適用し、かつバックグラウンドノイズを推定し;複製を組合せ;組み合わされてかつフィルタにかけられた複数画像を融合させることで1つの合成画像を形成し;画像特徴をラベリングし;重なり合ったピークを分割し;特徴パラメータを計算し;同位体ピークをグループ化し;同位体群を集合させ;ピーク統計値を計算し;荷電群統計値を計算し;差分解析または非差分解析などのピークレベル解析を実行し;差分解析または非差分解析などの同位体群レベル解析を実行し;差分解析または非差分解析などの荷電群レベル解析を実行する。
【0141】
図5D−5RはLC/MS画像を調整させるための方法工程を例示している。図5Dはマスター画像を決定するための方法工程を例示している。実験において複製を表わすすべての他の画像を調整させるためにマスターまたは基準の画像が使用される。補間された基準ピーク強度データの最も高い標準偏差を備えた画像がマスターとして使用される。
【0142】
図5E−5Rは複製を表わす画像を調整させるための方法工程を例示している。複製を表わす通常の画像(複製画像)は約40から70分の保持時間を有する。普通、常にではないが複製画像は時間方向で非線形の様式でマスター画像と整合していない。この問題に対処するために、本方法は1.5分などといった適切な時間間隔で調整変位値を計算する。変位値が決定されるとき、不整合の問題を補正するために(適切な質量/荷電範囲に関して)所定の保持時間の点が変位させられる。さらに特定すると、これらの変位値はいくつかの実施形態では、複製画像内の各時間点について変位値を指示するスプライン関数または区分線形関数などの補間関数を作り出すための基準点として使用される。様々な実施形態において、複製画像またはターゲット画像は1.5分×20質量/荷電レベルなどといった適切な部分領域へと論理的に分割される。部分領域のサイズはLC/MSデータの密度に基づいて変わることがあり得る。いくつかの実施形態では、ターゲット画像は縦列内で60−80の部分領域を有する。変位値は単一の時間間隔の中で変化するであろうが、変位値の冗長測定は本方法が時間間隔の各縦列について最良の変位値を選択することを可能にする。精度を高めるために、様々な実施形態において本方法は、限定はされないが各部分領域またはセルについて2つの測定技法を使用する。これは本方法が両方の技法に関して各時間間隔について最終の変位値を決定することを可能にするが、すべての技法が数倍のδの中で一致しない場合に本方法がこの時間間隔について変位値全体を破棄することもやはり可能にする。ターゲット画像の各々の部分領域に関する実際の変位値は測定技法によって計算された最終の変位値を平均することによって決定される。
【0143】
セル毎の変位値を実際に決定するために、複製の部分領域がさらに大きいマスターの部分領域全域にわたって変位させられる。いくつかの実施形態では、変位段階毎の適切な画素数(n数)が例えば1画素変位させられる。各々の変位段階で、2つの段階変位値が様々な実施形態において計算される。これらの段階変位値はターゲット画像が下地のマスター画像にどの程度良好に整合するかを表わす段階変位のアレイの中に置かれる。各々の段階変位値が多様な測定技法から計算される。これらの段階変位値は現在の段階がどの程度良好に調整させられるかを定量化する。段階相関値を計算するためにいずれの数の技法が使用されることもあり得るが、本方法は相関係数技法および重なり適合値技法を使用する。
【0144】
相関係数技法に関すると、本方法は最初に強度がゼロよりも大きい部分領域について最小ターゲット強度値を見つけ出す。次に、部分領域内のすべてのターゲット画素がその強度から引き算される最小値を有する。同じことがマスターの部分領域について繰り返される。次に、部分領域内の点すべてが反復される。データ全体にわたるこの反復の間に、ターゲットの画素強度がゼロよりも大きいかまたはマスターの画素強度がゼロよりも大きければ、値のうちの一方がゼロである場合を除いて両方の強度値に常用対数が適用され、一方がゼロであるケースでは常用対数を適用せずに単純にゼロが使用される。マスターとターゲットの常用対数の強度値は対応するマスターおよびターゲットのアレイに加えられる。これら2つのアレイから相関係数が計算される。常用対数の強度は高強度と低強度の画素の両方が段階変位値に影響を有することを可能にするために使用される。
【0145】
他方の測定技法は重なり適合値技法と呼ばれ、以下の数学的処理、すなわち、−(ゼロマスター非ゼロ複製カウント+ゼロ複製非ゼロマスターカウント)に基づいており、ここでゼロマスター非ゼロ複製カウントおよびゼロ複製非ゼロマスターカウントはカウンタである。重なり適合値技法を実行する過程において、本方法はターゲットとマスターの部分領域の間の重なりの量を観察する。いくつかの実施形態では計算に強度値が使用されず、重なり適合値に対する同じ影響を画像の極端に低い強度部分および画像の極端に高い強度部分に与える。2つの部分領域が調整状態にあるとき、重なり適合値はゼロに近付くはずであり、非ゼロ強度を有するターゲット内のすべての画素について対応する非ゼロ強度の画素がマスター内にあることを示す。最良の重なり適合値を判定するためにこの技法は重なりのさらに全体的な光景を重視した。最良整合がこの技法のための重なり適合値の収集体の中の最も高い値になるように負記号が上記の式の係数に入れられる。
【0146】
測定値の2つのアレイが2つの技法を実行する過程において作り出される(一方のアレイは相関係数を記述し、他方のアレイは重なり適合値を記述する)。次いでこれらのアレイが最も高いピークを見つけ出すための方法によって検索され、最も高いピークの最大におけるターゲットとマスターの部分領域間の最良相関を示す。測定値のアレイは(いくつかの実施形態では3点を使用して得られるが他の実施形態では他の適切な数の点が使用されることもあり得る)適用される実行手段を有する。本方法は調整値のこれらのアレイの各々について最も高いピークを見つけ出す。理想的なケースは最も正確な変位場所を示す単一の急勾配ピークを備えたグラフである。図2E参照。グラフのピークがピーク高さに基づいて下に進む順序で置かれて仕分けされるとき、以下の判定基準が満たされれば最大ピークが本方法によって使用されるであろう。第1に、ピークはいくつかの数の点を有さなければならない。いくつかの実施形態では10点が検出されるが、しかし様々な実施形態において外れ値の拒絶がどの程度活発であるかに応じていずれの数であることもあり得る。外れ値は関心対象のものではない特徴である。さらに特定すると、ピークを作る2つの変曲点の間の点の数は10以上でなければならない。第2に、2番目に高いピークが最も高いピークのいくらかの百分率、例えば45%よりも高くてはならないが、しかしこの百分率は縦列毎にいくつの複製の部分領域が使用されるか、および外れ値の拒絶がどの程度活発であるかに応じて変わることがあり得る。多数の小さい複製の部分領域を伴うと、おそらく高い数の冗長相関値が理由で本方法は外れ値の拒絶にさらに積極的になることが見込まれる。さらに少なくて大きい複製の部分領域を伴うと、積極的な外れ値の拒絶は過度に多くのデータを退けかねない。
【0147】
各々のターゲットの部分領域について変位値が決定されたとき、複数の技法を使用して各々の技法に関する変位値のすべてが調べられることで技法毎の最終の縦列の変位値を決定する。各々の技法はいくつかの実施形態では独立して取り扱われる。単一の技法に関する時間間隔縦列内の変位値のすべてが0.20などといった適切な瓶サイズを使用してヒストグラムの中に瓶処理されるが、しかし瓶サイズは調整がどの程度正確である必要があるかに応じて変わることがあり得る。大きい瓶サイズは時間間隔に関して実行できる変位値を見つけ出す機会を増大させるであろうが、しかし最終の変位値の正確さを下げるであろう。技法に関していったん変位値がヒストグラム内に入れられると、ヒストグラムはこのヒストグラムの各々の瓶に属する構成要素の数に基づいて下に進む順序で仕分けされる。次いでこの技法について最終の変位値を決定するために最も高い瓶内の値のすべてが平均される。最終の変位値を決定するために以下の判定基準が様々な実施形態において本方法によって使用される。最多構成要素を備えた瓶はいくつかの実施形態では少なくとも4つの構成要素を有さなければならないが、しかしこの数は外れ値の拒絶がどの程度活発である必要があるかに応じて異なることがあり得る。2番目に多い構成要素を備えた瓶が最大瓶の構成要素数の90%以内を有する場合、最終の変位値を作り出すために両方の瓶の構成要素が平均される。
【0148】
時間間隔縦列についていくつかの最終変位値が計算された後、(異なる測定技法を使用して)最終の変位値が以下の判定基準に基づいて単一の変位値へと組み合わされる。すべての技法に関する変位値は様々な実施形態において0.15分などといった互いのいくらかの適切な時間の中になければならないが、これは調整がどの程度正確である必要があるかに基づいて異なることがあり得る。時間間隔毎の最終の変位値を作り出すためにこれらの技法から得られる変位値が一緒に平均される。次いでこれらの個々の変位値は各々の保持時間に関して正確な保持時間変位値を補間するための基準点として使用される。
【0149】
図5T−5Z、5A−2−5A−21における本方法の1つの目的は合成画像から画像特徴を抽出することである。図5Tにおいて本方法は特徴抽出を容易にするために合成画像全体にわたって(複数の格子横列と格子縦列を備えた)格子を重ね合わせるための工程を検討している。格子の線は等間隔であるが、しかし本方法はこれに制約される必要はない。この格子は特徴が格子横列、格子縦列、または格子セル内に区分されることを可能にする。この格子は計算に使用されることが可能ないくつかのパラメータを有する。例えば、「質量/荷電ピーク幅中央値」格子パラメータはその特徴がピーク強度中央値よりも大きい特徴のピーク強度を有する格子横列内のすべての特徴の質量/荷電重心幅の中央値である。
【0150】
本方法は図5Uにおいて特徴の境界および特徴のパラメータを計算するための工程を検討している。多数の適切なパラメータが計算されることができる。特徴の体積は特徴
【数9】
のすべての強度の和として規定される。xi,jがピークに関するi番目の質量/荷電値とj番目の時間点を表わすとすると、質量/荷電強度は特定の質量/荷電値
【数10】
に関する強度の和であり、保持時間強度は保持時間値
【数11】
に関する強度の和である。「特徴の強度平方和」パラメータは特徴
【数12】
の強度平方和である。「特徴画素」パラメータはゼロよりも大きい強度を備えたデータ点の数である。「特徴の質量/荷電基本出発点」パラメータは、存在するとすれば、特徴の最初の質量/荷電値に先行する質量/荷電値であり、そうでない場合、特徴の最初の質量/荷電値である。「特徴の質量/荷電基本終点」パラメータは、存在するとすれば、特徴の最後の質量/荷電値の後の質量/荷電値であり、そうでない場合、特徴の最後の質量/荷電値である。「特徴の質量/荷電ピーク強度」パラメータは最大の質量/荷電強度
【数13】
である。「特徴の質量/荷電重心」パラメータは特徴に関する質量/荷電値の重心であって質量/荷電強度によって加重された重心である。この重心は
【数14】
として規定され、式中、wは保持時間または質量/荷電のベクトルであり、xは強度加重のベクトルである。「特徴の質量/荷電重心幅」パラメータは特徴に関する質量/荷電値の重心幅であって質量/荷電強度によって加重された重心幅として規定される。「重心幅」はいくつかの実施形態では標準偏差重心の4倍として規定され、これは
【数15】
として規定され、式中、cは重心であり、wは保持時間または質量/荷電のベクトルであり、xは強度加重のベクトルである。「特徴の質量/荷電重心歪み」パラメータは特徴に関する質量/荷電値の重心歪みであって質量/荷電強度によって加重された重心歪みである。この重心歪みは
【数16】
として規定され、式中、cは重心であり、wは保持時間または質量/荷電のベクトルであり、xは強度加重のベクトルである。「特徴の質量/荷電ピーク」パラメータは最大の質量/荷電強度を有する質量/荷電値であり、同じ最大質量/荷電強度を有する複数の質量/荷電値がある場合、本方法は様々な実施形態において中央のインデックスによって識別される中央の質量/荷電値を選択し、中央のインデックスは丸め処理によって計算され、例えば質量/荷電値がインデックスn1,n2,...,nkによってインデックスを付けられる場合、ピークの質量/荷電値はnk/2によってインデックスを付けられた値であり、k/2は次の整数へと丸められる。「特徴の時間ピーク」パラメータは最大の時間強度を有する時間値である。「特徴の時間重心」パラメータは特徴に関する保持時間値の重心であって保持時間強度によって加重された重心である。「特徴の時間重心幅」パラメータは特徴に関する保持時間値の重心幅であって保持時間強度によって加重された重心幅である。「特徴の時間重心歪み」パラメータは特徴に関する保持時間値の重心歪みであって保持時間強度によって加重された重心歪みである。「特徴の時間基本出発点」パラメータは、存在するとすれば、特徴の最初の時間点に先行する時間点であり、そうでない場合、特徴の最初の時間点である。「特徴の時間基本終点」パラメータは、存在するとすれば、特徴の最後の時間点の後の時間点であり、そうでない場合、特徴の最後の時間点である。「特徴の時間ピーク強度」パラメータは最大の保持時間強度である。
【0151】
本方法は図5Vにおいて、ある値範囲よりも上の非ゼロなどの関連した画素のアイランドを探すことによってピーク、特徴のタイプを抽出するための工程を検討している。画像の特徴は関心対象のものであることが見込まれるペプチドなどの生物学的特徴に相当し、これは合成画像内のピークとして現れる。画像特徴はもう1つの強度がピークを形成する質量/荷電次元と保持時間次元の二次元空間の領域である。各々の画像特徴が質量/荷電と保持時間座標内で特徴を完全に取り囲む最小の矩形を含む境界を有する。
【0152】
本方法は図5W−5Z、5A−2−5A−8において、複数の特徴(例えば複数のピーク)を表わす特徴を見つけ出すための工程を検討しており、これらを別々の特徴に分割する。総括すると、いくつかの実施形態では、複数の特徴が質量/荷電方向または保持時間方向で重なり合っている場合にこれらが分割される。いったん特徴が重なり合っていると判定されると、2つの手順のうちの1つを使用してこれが分割される。ピークと中間の谷との間に十分に大きい差がある場合(高コントラストの特徴)、どのようなモデル適合の必要も伴わずに谷で分割が為される。そうでない場合、2ピークのガウスモデルを幅広の特徴に適合させることによって谷がさらに正確に判定される。さらに特定すると、最初に高コントラストの幅広の特徴が分割される。分割は質量/荷電および保持時間方向で交互に、3回などといったいくつかの繰り返しで為される。言い換えると、以下の工程、すなわち質量/荷電で重なり合った特徴を見つけ出して高コントラストのものを分割する工程、および保持時間で重なり合った特徴を見つけ出して高コントラストのものを分割する工程が複数回繰り返される。その後、低コントラストの重なり合った特徴が分割される。前のように、分割は質量/荷電および保持時間方向で交互に、3回などといったいくつかの繰り返しで為される。特徴が分割またはトリミングされるときは常に、特徴の境界および他の特徴パラメータがいくつかの実施形態において再計算される。様々な実施形態において、質量/荷電中央値および保持時間の幅と偏差がいずれの分割にも先行して特徴に対して計算される。
【0153】
図5W−5Yは質量/荷電方向で重なり合ったピークを見つけ出すための方法工程を例示している。本方法は同じ質量/荷電格子横列の中の平均的な特徴に比べて質量/荷電方向で異常に幅広である特徴を以下のように見つけ出す。本方法は高い格子横列特長を、ピーク強度中央値よりも大きいピーク強度を有する所定の格子横列内の特徴のサブセットであると規定する。すべての特徴の中でピーク強度中央値が計算される。質量/荷電幅中央値wは高い格子横列特徴の質量/荷電幅の中央値である。質量/荷電幅中央値の標準偏差はsw=1.483*median(|wi−w|)として計算される。本方法は、質量/荷電幅の重心wiが定数と(w+sw)の積以上であれば特徴を重なり合った質量/荷電特徴として印を付け、ここでこの定数はいくつかの実施形態では2に設定される。
【0154】
図5Y、5A−3−5A−5は保持時間方向で重なり合ったピークを見つけ出すための方法工程を例示している。本方法は高い特徴を、ピーク強度中央値よりも大きいピーク強度を有するすべての特徴のサブセットであると規定する。すべての特徴の中でピーク強度中央値が計算される。保持時間幅の中央値wはすべての高い特徴の時間幅の中央値である。保持時間幅中央値の標準偏差はsw=1.483*median(|wi−w|)として計算される。本方法は、保持時間幅の重心wiが定数と(w+sw)の積以上であれば特徴を重なり合った保持時間特徴として印を付け、ここでこの定数は様々な実施形態において5に設定される。
【0155】
図5Z、5A−2−5A−3は重なり合ったピークの高コントラスト分割を実行するための方法工程を例示しており、所望通りに繰り返されることが可能である。本方法工程は質量/荷電方向で重なり合ったピークかまたは保持時間方向で重なり合ったピークを分割するために再使用可能である。重なり合ったピークとそれらの谷は値の配列x1,x2,...,xnによって記述され、これらはグラフ上に提示可能である。高コントラスト分割はこの配列を対応するグラフの最も低い谷で2つの断片に分割することを試みる。配列が少なくとも4つの点を有していれば、高コントラスト分割を実施するための図5Z、5A−2−5A−3に例示された方法工程が実行される。本方法はMを配列の最大値であると規定する。次いで本方法は2つの直ぐ隣りよりも低い値を備えた点である落ち込みを見つけ出す。落ち込みのうちの1つがコントラストレベルを表わす定数と配列の最大値Mから形成される積よりも小さい値を有すれば、本方法は高コントラスト分割が実行されることが可能な高コントラスト配列を見つけ出している。この定数はいずれの適切なレベルに設定されてもよく、1つの適切なレベルは0.1である。本方法は、ピーク振幅が標準偏差と配列の最大値Mの積よりも小さい特徴の点のすべての関連したセットを見つけ出す。点のセットは、これが隣り合う要素で構成されれば関連付けられる。言い換えると、ある整数a、bについてaがk以下であってかつkがb以下である場合のすべての点xkである。いくつかの実施形態では本方法は特徴のエッジ(例えばaが1またはbがnである場合)にあるセットを無視する。点の各々のそのようなセットについて、本方法はその中の最小落ち込みを見つけ出す。複数の最小があれば、本方法は様々な実施形態において最初のものを選択する。最小落ち込みの点が分割点になる。
【0156】
図5Y、5A−6−5A−8は重なり合ったピークの低コントラスト分割を実行するための方法工程を例示しており、所望通りに繰り返されることが可能である。本方法は2ピークのガウスモデルを特徴に適合させるために最小二乗法非線形適合を使用する。次いで本方法は分割するための点を選択する。本方法はモデルのパラメータの初期推定である多様な入力パラメータを除いて質量/荷電方向かまたは保持時間方向のどちらかで再使用可能である。数学的に、2ピーク強度モデルは2つの単一ピークのガウスモデルの加算で構成され、これらが同じ偏差
【数17】
を共有し、式中、Y1、Y2は2つの重なり合ったピーク振幅であり、c1、c2はピーク中心であり、wは共有する幅である。図2Eは様々なパラメータに関して2ピークモデルが上記の数学的処理から図式的にどのように見え得るかを例示している。2つのピーク中心(c1、c2)および共有する幅が与えられると、すべてのピークが完全に重なり合って分割不可能である場所の推測を検定するためにp値が以下、すなわち
【数18】
のように計算されることが可能である。
【0157】
本方法はモデルのパラメータについて初期推定のピーク中心(c1,c2)とピーク振幅(Y1,Y2)、および幅wを選択する。この選択は質量/荷電方向および保持時間方向に関して異なることがあり得る。本方法はパラメータであるピーク中心(c1,c2)およびピーク振幅(Y1,Y2)を選択するために最小二乗法非線形適合を使用する。次いで本方法は谷の点を、2つのガウスモデルが同じ振幅を有する2つの中心の間の点として規定する。谷に最も近いデータポイントが最初の2つまたは最後の2つのデータポイントのうちの1つである場合、またはp値が0.1などといったある閾値よりも上である場合に本方法は分割を放棄する。本方法が重なり合ったピークを分割するとき、本方法はいくつかの実施形態において谷の点を最少の点を有する特徴の位置に置く。
【0158】
質量/荷電方向での低コントラスト分割に関すると、本方法は2ピークのガウスモデルに関して初期パラメータを以下のように推定する。本方法は質量/荷電方向でピークを見つけ出す。言い換えると、本方法は値が点xk−1およびxk+1よりも大きい点xkを見つけ出す。2ピークよりも少なければ、本方法は様々な実施形態において重なり合ったピークを分割することを控える。そうでない場合、本方法は2つの最も高いピークを使用して重なり合ったピークを分割する。初期パラメータに関すると、本方法はいくつかの実施形態において2つのピークの位置および強度を使用する。両方のガウスモデルの標準偏差wに関すると、本方法は様々な実施形態において1.5などといった定数と商(4などといった別の定数で割り算された質量/荷電中央値)の積を使用する。
【0159】
保持時間方向の低コントラスト分割に関すると、たとえ単一ピークの時間強度モデルが必ずしもガウス関数でなくても本方法は上記で示されたように2ピークのガウスモデルをやはり使用する。本方法はスライドするk時間点の窓サイズを使用してピークと落ち込みを見つけ出し、ここでkは奇数である。kで表わされるようなスライドする窓のサイズはいくつかの実施形態では積(3m)と積(2d)の商であり、ここでmはすべての特徴の時間幅中央値であり、dは測定と測定の間の時間間隔である。本方法は様々な実施形態においてkを最も近い整数に丸める。kが偶数であれば、本方法はこれを奇数にするためにkを1でインクリメントする。
【0160】
本方法はこのスライドする窓を連続的なk点の配列すべてに適用する。窓の中心が窓に関して最小値または最大値であれば、本方法はそれに応じて落ち込みまたはピークとしてこれに印を付ける。2つ以上のピークがある場合、本方法は2つの最も大きいピークを選択する。1つのピークと少なくとも1つの落ち込みがある場合、本方法はピークに対向する落ち込みの側で最大値を見つけ出すことによって第2のピークをシミュレートする。これが不可能であれば、本方法は重なり合ったピークを分割することを控える。初期パラメータに関すると、本方法はいくつかの実施形態において2つの選択されたピークの位置と強度を使用する。両方のガウスモデルの標準偏差に関すると、本方法は様々な実施形態において1.5などといった定数と商(4などといった別の定数で割り算された保持時間幅中央値)の積を使用する。
【0161】
重なり合ったピークが分割されると次いで、本方法は広過ぎるピークを保持時間方向で整えることを試みる。図5A−8参照。本方法は最初に以下の条件、すなわち商(重心幅で割り算された時間範囲)が2などといった定数よりも大きいという条件を満たした時間ピークを見つけ出す。この条件が真であれば、本方法は広過ぎるピークを見つけ出したと見込まれる。本方法はこれらのピークの最小値と最大値の側を重心の中心から1つの重心幅に切り取るように進行する。
【0162】
図5A−9−5A−10は上記で検討された方法工程において見つけ出されたピークを特徴付けるための方法工程を例示している。図5A−9は保持時間方向でピークを特徴付けるための方法工程を例示している。「特徴のモデル化時間ピーク」パラメータはモデル化された時間強度が最大であるモデル軸値である。「特徴のモデル化時間重心幅」パラメータはモデル化時間強度で加重されたモデル軸値の重心の幅である。「特徴のモデル化時間ピーク強度」パラメータは時間強度モデルによって計算された強度の最大値である。保持時間方向の保持時間強度モデルは修正マクスウェル分布関数によってモデル化される。パラメータY(振幅)、ts(変位)、w(幅)、およびd(偏位)が与えられると、特徴に関する時間強度は以下、すなわち
【数19】
のように数学的にモデル化される。xがtsよりも小さい場合、本方法はyをゼロに設定する。yがゼロよりも小さい場合、本方法はyをゼロに設定する。定数dはゼロ以上であって1以下である。関数(y=x2exp(1−x2))はxが1に等しいときに1の最大値を有し、それにより、xがtsとwの和と等価であるときに時間強度が最大になる。パラメータY、ts、およびwは最小二乗法非線形適合を使用して適合処理される。初期値は以下のようにして時間強度によって加重された時間の重心を使用して設定される。振幅Yは最大時間強度を(1−d)の残差で割り算することから形成される商であると見なされる。幅wは残差(時間重心の中心を開始時間で引き算する)と他の残差(1−d)の商であると見なされる。変位tsは(時間重心の中心を幅wで引き算する)残差であると見なされる。パラメータdは、いくつかの実施形態では、最小二乗法適合を使用して適合処理されず、その初期値はこれ以降で特定されるようにモデル偏位である。
【0163】
本発明の様々な実施形態の方法によって計算されるモデル偏位はこれまでに検討された時間強度モデルに使用されるゼロと1との間の数である。様々な実施形態において、モデル偏位は特徴が以下のようにして分割されるとその後に最初に計算される。すなわち、本方法はmとMをすべての特徴の最小および最大のピーク強度の常用対数であるとそれぞれ規定する。本方法はUをmと、0.8などといった定数と残差(M−m)の積の和である、言い換えるとU=m+0.8(M−m)であると規定する。本方法はLをmと、0.1などといった定数と残差(M−m)の積の和である、言い換えるとL=m+0.1(M−m)であると規定する。本方法はさらにpを特徴のピーク強度の常用対数であると規定する。本方法はpを以下のようにしてLとUの中にあると固定する。すなわちpがUよりも大きければ本方法はpをUに等しいと設定する。そうでない場合、pがLよりも小さければ本方法はpをLに等しいと設定する。特定の特徴に関するモデル偏位が、別の残差(U−L)で割り算された定数cと残差(U−p)の積である(c*(U−p)/(U−L))に設定される。この定数は0.8などといった適切な値であってもよい。いくつかの実施形態では、モデル偏位は最も近い0.1の倍数に丸められる。やはり様々な実施形態において、モデル偏位は保持時間ピーク点数を計算することによって調節されるが、これはこれ以降に述べられる。一実施形態では、偏位はゼロと初期偏位との間の最大値に設定され、妥当な点数を作り出す。他の実施形態では、偏位が他の値に設定されることもあり得る。
【0164】
保持時間ピークの点数は実際の保持時間強度と保持時間強度モデルによってモデル化された保持時間強度との間のピアソンの相関係数などの相関係数である。質量/荷電強度について為されるように、実際のデータが保持時間の各々の端部を越えた1つのデータポイントに広げられる。モデル偏位(時間強度モデルにおけるパラメータd)を調節するために保持時間ピークの点数計算が使用される。点数が規定されない場合、dは0.1などといった定数でデクリメントされ、点数が数字になるまで、またはdがゼロに到達するまで計算が本発明の様々な実施形態の方法によって再度為される。n対の点を使用して計算されるピアソン相関値rに関してピアソン相関のp値は
【数20】
によって与えられる。本方法は以下の条件、すなわちkは(n−2)に等価であり、tは自由度kでt分布のように分布させられ、pは
【数21】
として規定するものである場合、Iは不完全なベータ関数である。数学的処理は
【数22】
に変形する。ピアソン相関の点数はrと残差(1−p)の積であり、ここでrはピアソン相関であり、pは対応するp値である。1つのデータポイントのみがある場合、様々な実施形態において点数は本方法によってゼロに設定される。
【0165】
図A−10は質量/荷電方向でピークを特徴付けるための方法工程を例示している。ピーク振幅Y、中心(c)、および幅(w)が与えられると、特徴に関する質量/荷電強度は以下の数学的処理、すなわち
【数23】
でガウス関数としてモデル化される。中心cおよび標準偏差sは重心計算を通じて計算される。特徴の質量/荷電強度の点数がやはり本方法によって計算される。質量/荷電強度ピークおよび重心標準偏差が正であれば、ピークの点数はモデルの(延長された)質量/荷電軸を使用する、質量/荷電強度に関するデータとモデルとの間のピアソン相関の点数である。
【0166】
図5A−11−5A−16は、同位体ピークの集合である同位体群を見つけ出すための方法工程を例示している。同じ保持時間点に直ぐ近くの質量/荷電値を備えていくつかのピークがしばしば存在する。これは同位体によって引き起こされる。(生物学的特徴がペプチドであれば、同位体は異なる中性子数を備えた原子を有する同じペプチドの構成要素である。)本方法工程は図5A−11−5A−16において、いくつかの実施形態では一層大きくかつ最良の形状の特徴が1番目と考えられるように最初にすべての特徴を仕分けすることによって隣り合う同位体ピークの群を見つけ出す。次いで本方法は各々の特徴を順番に取り上げ、取り上げられた特徴が種特徴であり、種特徴で一団にされるべき他の特徴を見つけ出す。
【0167】
いくつかの実施形態では、本方法は少なくとも以下の3つのランク、すなわち一実施形態ではrt=ピーク保持時間強度またはピーク画素強度などのピーク強度によるランク;rm=ピーク質量/荷電の点数によるランク;およびrs=保持時間の点数によるランクを組み合わせることによってすべての特徴をランク付けする。本方法はrsと、2などといった定数でrtとrmの和を割り算した商との和である組合せのランクrを計算する。本方法はこのランクを反転し、それにより、様々な実施形態において、一層高い点数/強度を備えた特徴が1番目にリストアップされる。本方法はランク付けされた順番で特徴を処理する。言い換えると、最も大きい特徴が最初に調べられる。
【0168】
図5A−15はある特徴を破棄する代わりに、他の同位体群への後の分類のために該特徴を保持するための方法工程を例示している。特徴が同位体群の中にグループ化されるとき、これらは受容、拒絶、または保留状態に置くように分類される。同位体ピークを同位体群の中にグループ化するための方法の最後に、各々のピークは1つまたは複数の同位体群に属する。ピークが複数の同位体群に属する場合、このピークはさらなる解析のために保留状態に置かれる。そうでない場合、ピークは単一の同位体群に受け入れられる。ピークが同位体群内に保留状態で置かれるように分類され、かつ別の同位体群に受け入れられる場合、2番目の分類はやはり保留状態に置かれるように変えられる。これは種特徴にもやはり適用される。
【0169】
図5A−11−5A−16によって例示される方法工程は、様々な実施形態において、ピークの原初の強度の代わりに時間で加重された強度を使用する。点i、jにおいて種特徴に相対して時間で加重された強度は数学的に
【数24】
として規定され、式中、Iijは加重されていない強度であり、Tjは種特徴の時間強度(すなわちこの縦列に関する種特徴のすべての横列全体にわたる強度の和)である。いくつかの実施形態では、ある時間に始まって特定の時間に終わるようにインデックスjが繰り返される。時間で加重された強度はいずれの質量/荷電の点(横列)についても規定されるが、開始特徴の境界の中にある時間点(縦列)についてのみ規定される。時間で加重された質量/荷電強度は種特徴の境界の中のすべての時間点全体にわたって時間で加重された強度の和である。
【0170】
いくつかの実施形態では、本方法は特徴の質量/荷電強度幅を同位体群の種特徴の格子横列内の特徴中央値とさらに一致するように調節する。この調節は以下のようにして為される。本方法は種特徴が属する格子時間点を見つけ出す。本方法はwgを格子の質量/荷電重心幅の中央値として規定し、Swgを格子の質量/荷電重心幅の標準偏差として規定し、wfを現在の特徴の質量/荷電重心幅として規定する。本方法はwfがwgと、5などといった定数とSwgの積との和よりも大きければ調節された幅をwgとして計算する。そうでない場合、調節された幅は以下の数学的処理の最大(wg,wf)の結果に等しい。格子調節された質量/荷電の幅は加重されていない質量/荷電強度を使用する。
【0171】
図5A−11は、同位体ピークを一体に集めるために一例の画像処理パイプラインが荷電状態をさらによく理解することに役立つように荷電の点数を見つけ出す方法工程を例示している。整数値の荷電zについての荷電の点数は荷電量と質量の差の組合せにより変位させられるピークモデルを適用すること、およびモデル化質量/荷電強度の観察された時間加重質量/荷電強度との内積を計算することによって計算される。荷電の点数の計算への入力は区分(ベクトル)についての質量/荷電値であるx;この区分の時間加重質量/荷電強度であるy;モデルに使用するためのピーク中心であるc0;モデルに使用するためのピーク幅であるw0;整数値の荷電数であるzを含む。本方法は以下の数学、すなわち
【数25】
によるx値に質量/荷電強度モデルを適用することによって荷電の点数を計算する。一実施形態では、本方法は1の値を備えたY;4などといった定数で割り算されたw0の商の値を備えたs;およびc0と、zで割り算された定数kと中性子質量の積との和の値を備えたcを使用する。本方法は以下の要素(−2,−1,1,2)のセット全体にわたってk回繰り返す。本方法は4つのベクトルy’(k)を得る。荷電の点数は、いくつかの実施形態では、(y・[y’(−2)+2y’(−1)+2y’(1)+y’(2)])として数学的に規定される。
【0172】
図5A−11は荷電状態を見つけ出すための方法工程を例示するように続く。種特徴を与えられると、本方法は特徴の質量/荷電重心に置かれた質量/荷電中心を備えた原初の画像の区分を観察することによってその荷電を見つけ出すことを試みる。質量/荷電幅は、様々な実施形態において、標準偏差と2.2などといった定数の積によって設定される。この区分の時間座標は、いくつかの実施形態では、開始特徴の時間座標と同じである。関心対象の区分にある間に、本方法は種特徴の特徴強度をゼロにする。次に、本方法は保持時間軸に沿って時間加重強度を加算することによってこの区分の加重質量/荷電強度を計算する。本方法はさらにw0を特徴の格子調節された質量/荷電幅として;cfを開始特徴の質量/荷電重心として規定し;pfを開始特徴の質量/荷電ピークとして規定し;pfがcfと、1/4などといった定数とw0の積との残差以上である場合、またはpfがcfと、1/4などといった定数とw0の積との和以下である場合にc0をcfとして規定し、そうでない場合、c0をpfに等しいと見なす。次いで本方法は上記で計算されたようなパラメータc0、w0を使用して1,2,...,15などといったある範囲のzについて荷電の点数を計算する。次いで本方法は最も高い点数を有する荷電zを選択する。同位体群パラメータの質量/荷電のδは(c0−cf)の残差として規定される。
【0173】
図5A−11−5A−16は同位体群についてピークを見つけ出すための方法工程の実行を例示している。本方法はピークモデルを種ピークから(さらに下の質量/荷電レベルに向かって)下に移動させ、次いでピークモデルを種ピークから(さらに上の質量/荷電レベルに向かって)上に移動させることによって同位体ピークを探す。各々の下または上の段で本方法は保持時間方向で種特徴と同じ範囲を有する矩形同位体領域;(c0+k*Mn/z)の和(式中、Mnは中性子質量であり、kは方法が上への移動によって同位体ピークを探しているときに正の整数であって本方法が下への移動によって同位体ピークを探しているときに負の整数である同位体番号である)に等価である質量/荷電方向での中心;4などといった定数とw0の積(ここでw0は種特徴の格子調節された質量/荷電幅である)に等価である質量/荷電方向での高さを規定する。
【0174】
この同位体(特にk)についての候補ピークはその境界が上記で規定された同位体領域に交差するピークである。この同位体に関して候補ピークがなければ、本方法は特定の方向で観察することを止める。各々の方向(下方向または上方向)で、本方法は様々な実施形態において最大で10などといったある数の同位体の場所を探す。いくつかの実施形態では、同位体群の候補ピークを分類するために本発明の様々な実施形態の方法によって使用される、例えば同位体強度;質量/荷電の強度および形状;および時間の強度および形状などのいくつかの異なる判定基準がある。これらの判定基準の各々が候補ピークを受容、拒絶、または保留状態に置かれるように分類する。様々な判定基準が1つの分類の中で組合せ可能である。
【0175】
様々な実施形態において、同位体強度の判定基準は同位体領域のピーク強度を除いて候補特徴のどのような特性も使用する必要がない。同位体強度pkは同位体領域内の時間加重強度の最大値である。種同位体強度p0は種特徴内の時間加重強度の最大値である。pmaxを、p0を含めて(下方向および上方向で)これまで計算されたすべての同位体強度の最大同位体強度とする。p’を、先行する同位体の同位体強度とする。同位体位置kが正であれば、本方法はp’をpk−1と同等であると規定する。そうでない場合、本方法はp’をpk+1と同等であると規定する。商の絶対値が0.6などといった定数よりも小さければ同位体位置kに関する候補特徴が受け入れられる。商の被除数は同位体強度pkと先行する同位体p’の同位体強度の残差である。商の除数は最大同位体強度pmaxと同位体強度pkの最大値である。そうでない場合、商がこの定数よりも小さくなければこの特徴は拒絶される。これまで述べられたような同位体強度判定基準を使用する代わりに、いくつかの実施形態では、強度を理論的分布関数と比較することによって特徴が受容または拒絶される。
【0176】
質量/荷電および時間強度の判定基準に関すると、本方法は候補ピークと予期される理論的ピークが偶然異なっているかどうか判定する候補ピークのp値を計算する。次いで本方法は、いくつかの実施形態では2つの閾値plowとphighを使用することによって候補ピークを受容、拒絶、または保留状態に置かれるように分類する。p値がphigh以上であれば候補ピークは受容される。plowがp値よりも小さく、かつp値がphighよりも小さければ、他の同位体ピークがその同位体群の構成要素として候補ピークを主張するかどうか調べるためにこの候補ピークは保留状態に置かれる。p値がplow以下であれば候補ピークは拒絶される。plowとphighに関して、いずれの適切な閾値が使用されることもあり得る。例えば、質量/荷電強度に関する一対の適切な閾値は0.4と同一視されるphighおよび0.05と同一視されるplowを含む。別の例として、時間強度に関する一対の適切な閾値は0.6と同一視されるphighおよび0.2と同一視されるplowを含む。
【0177】
質量/荷電強度のp値は、一実施形態では、以下のような方法によって計算される。本方法はw0を種特徴の格子調節された質量/荷電幅として規定し、wを候補特徴の格子調節された質量/荷電幅として規定する。(両方の幅が種特徴の格子横列を使用して格子調節される。)付け加えると、本方法はcを候補特徴の質量/荷電重心として規定する。質量/荷電強度のp値は一実施形態では以下、すなわち
【数26】
のように数学的に計算される。この数学における定数は他の実施形態において異なることもあり得る。
【0178】
時間強度のp値は、一実施形態では、本方法によって以下のように計算される。本方法はt0、St0を種特徴の時間強度重心および標準偏差として規定し、t、Stを候補特徴の時間強度重心および標準偏差として規定する。本方法は、一実施形態では、p値を以下、すなわち
【数27】
のように数学的に規定する。この数学における定数は他の実施形態において異なることもあり得る。
【0179】
本方法は、候補ピークが3つの判定基準すべてによって受け入れられれば同位体群の中に受容されるように候補ピークを規定する。候補ピークは、時間強度の判定基準に従って受け入れられ、かつ他の2つの判定基準のうちの一方によって受け入れられ、またこの候補ピークが複数の他の同位体群の中に既に保留状態に置かれていなければ保留状態に置かれる。そうでない場合、候補ピークは拒絶される。各々の候補ピークが同位体群に関して受け入れられると分類された後、この候補ピークが他の同位体群に関して考慮されなくなるように本方法はこれをランク付けから除外する。本方法はまた、様々な実施形態において、2つの同位体群の中に保留状態に置かれるように分類された候補ピークを除外する。
【0180】
上記で示されたように、本方法が同位体群に属する特徴を見つけ出すとその後、本方法は受容されるように分類された特徴をランク付けから除外し、それにより、これらの特徴は他の同位体群の特徴および荷電を見つけ出すことを妨げない。いくつかの実施形態では、本方法は2つの同位体群において保留状態に置かれるように分類された特徴もやはり除外する。同位体群が保留状態に置かれた特徴のみを有する場合、本方法はこの同位体群を除外し、この特徴を他の同位体群に受容されるようにする。図5A−16参照。各々の同位体が判定されるとその後、様々な実施形態において、以下の同位体パラメータが計算される。「主同位体特徴」パラメータは最大モデル化ピーク保持時間強度を備えた特徴であり;「同位体強度」パラメータはモデル化ピーク保持時間強度であり;「同位体質量/荷電重心」パラメータは主同位体特徴の質量/荷電重心であり;「同位体質量/荷電重心幅」パラメータは主同位体特徴の質量/荷電重心幅である。
【0181】
図5A−17−5A−18は同位体群の質量を計算するための方法工程を例示している。同位体群の質量と同位体群のモノアイソトープとの間には関係がある。モノアイソトープは特定の同位体群に関して最も低い同位体であり、最も低い質量/荷電を有する。荷電群の生物学的特徴の質量は以下の数学的処理、すなわち
【数28】
によってモノアイソトープ(最も低い質量/荷電を備えた画像特徴)から計算され、式中、zは荷電(整数値)であり、Mpは陽子の質量であり、mは計算されるべき生物学的特徴の質量であり、Imzはモノアイソトープの質量/荷電である。最初に、本方法はモノアイソトープの質量/荷電を最も低い検出同位体の第1の特徴の質量/荷電強度重心として推定する。この推定でもって、同位体群の質量は数学的に以下、すなわち(m=z(Imz−Mp))のように導き出される。
【0182】
モノアイソトープを見つけ出して同位体群の質量を計算するために、本方法はいくつかの観察された同位体に基づいてモノアイソトープが位置するはずの場所を外挿することによってモノアイソトープの場所を推定する。ペプチド質量などの所定の生物学的特徴の質量に関して、同位体ピークの理論的分布がある。いくつかの実施形態では、本方法はこの理論的分布を計算することを控えるが、その代わりにm1、m2などといったある質量に関して理論的分布の集計バージョンを使用する。いったん本方法が質量推定mを有すると、本方法は質量がmk以上であってかつ定数とmkの和以下になるように、分布表に使用するための集計された質量mkを選択する。様々な実施形態において、理論的分布は1の最大値を有するように規模を決められる。本方法は最初の同位体位置で特徴の最も低い質量/荷電強度重心を使用することによって最初に質量を推定する。同位体に受容される特徴があれば、いくつかの実施形態では、本方法はこれらを推定のために使用する。次に、本方法は観察された分布を、各々の同位体の中のピークの最大モデル化保持時間強度を使用して計算する。観察された分布が1の最大値を有するように本方法は観察された分布の規模を決める。次いで、本方法は理論的同位体分布を観察された同位体分布と比較し、本方法が最良整合を見つけ出すまでこれら2つの分布を互いに対して変位させる。2つの分布を理論的分布と観察された分布との間の絶対差の和として比較するために点数が作り出されて使用される。いくつかの実施形態では、本方法は2つの分布のうちの一方が完全に他方に重なり合うように偏位を考慮する。結果として生じる整数値の偏位は観察された同位体番号に加算することでそれらが理論的同位体番号と整合するようにそれらを補正するものである。(偏位は正、負、またはゼロであることがあり得る。)本方法が最良偏位を見つけ出したとき、本方法は変位させられた観察分布と比較したときの理論的分布の相関係数およびp値を計算する。
【0183】
図5A−18は同位体群の質量を再計算するための方法工程を例示している。理論的同位体分布と観察された同位体分布との間の偏位が知られているとき、本方法は同位体群の中のすべての同位体に関して同位体質量/荷電重心を使用して以下のように同位体群質量を再計算する。モノアイソトープの質量/荷電Imzは数学的に
【数29】
として規定され、式中、kは(補正された)同位体番号であり、mz(k)は同位体kに関する同位体質量/荷電重心であり、Mnは中性子の質量であり、zは同位体群の荷電状態である。同位体群質量は前のように(m=z(Imz−Mp))で数学的に規定される。質量幅は以下、すなわち(z*mzwidth(k))のようにzで掛け算された同位体質量/荷電重心幅の平均として規定される。
【0184】
本方法はまた、様々な実施形態において、同位体群が他の同位体群にもやはり保留状態に置かれる、保留状態に置かれた特徴のみを有しているかどうか判定する。そうであれば本方法は、いくつかの実施形態では、この同位体群を除外し、特徴が他の同位体群に受容され得るかどうか見るためにチェックする。様々な実施形態において、いくつかの同位体群のパラメータが計算される。例えば、同位体群の質量は(前に計算されたような)補正された質量として規定される。同位体群の質量幅は上記で規定される通りである。同位体群の特徴は最大ピーク強度を備えた特徴である。同位体群の保持時間強度重心は同位体群の特徴の保持時間強度重心である。
【0185】
図5A−19−5A−21は荷電によって決まる同位体群の集合である荷電群を見つけ出すための方法工程を例示している。荷電群は同じ質量および保持時間を有するが異なる荷電状態を有する同位体群のセットである。本方法は、一実施形態では、各々の同位体群が1つおよび唯一の荷電群の中にある状態になるように同位体群を荷電群へと統合する。他の実施形態では他の同位体群構成もあり得る。本方法は、いくつかの実施形態では、非ゼロの荷電を有する同位体群を統合する。様々な実施形態において、本方法は単一ピークを備えた同位体群を考慮することを控える。最初に、本方法は同位体群内のすべての画像特徴に関して平均の保持時間点数でランク付けされる同位体群を含むランクrtを形成することによって同位体群をランク付けする。本方法はまた、同位体群内のすべての特徴の最大ピーク強度によってランク付けされる同位体群を含む他のランクrIを形成する。次いで本方法は(和rt+rIである)組合せランクrを作り出し、一層高い点数/強度を備えた特徴が1番目にリストアップされるように組合せランクによって同位体群を再び順序付ける。
【0186】
組合せランクから、本方法は異なる荷電を備えた他の同位体群を探すことによって荷電群を形成する処理を以下のようにして開始するために種同位体群を選択する。本方法は先ず(荷電1へと下がる)徐々に小さい荷電状態を探す。次いで本方法は所望の荷電状態にあってかつ種同位体群質量重心からある一定の質量の単位(例えば10)の中、および開始の同位体群保持時間重心から時間の単位twの中にある同位体群を探す。本方法は、twが種同位体群のピーク特徴の保持時間重心幅であるが2分間などといったある一定の保持時間期間未満ではないと規定する。これらの境界の中にある同位体群はグループ化するための候補の同位体群である。本方法は候補の同位体群を分類するために少なくとも2つの判定基準を使用し、これらの判定基準は同位体群の質量重心および同位体群の保持時間強度重心を含む。各々の判定基準は2つの同位体群を同じ荷電群内にあるように受容するかまたは拒絶するためにp値のカットオフを使用する。2つの同位体群が両方の判定基準を通過すればこれらは同じ荷電群に属する。
【0187】
各々の候補同位体群について、本方法は候補同位体群と種同位体群との間の質量p値および保持時間p値を以下のようにして判定する。質量重心c1、c2、および対応する重心偏差s1、s2が与えられると質量p値(pmass)は数学的に
【数30】
として規定される。保持時間重心c1、c2、および対応する重心偏差s1、s2が与えられると保持時間p値(prt)は数学的に
【数31】
として規定される。全体的p値はpmassとprtの積であるpである。次いで本方法はpcutoffよりも大きいpmassおよびpcutoffよりも大きいprtを有する候補同位体群を選択する。本方法はpcutoffを0.6などといった適切な閾値の定数であると規定する。これらの判定基準を通過する複数の候補同位体群があれば、本方法は荷電群内の包含のために最も高い全体的p値を有する1つの候補同位体群を選択する。いったん同位体群が荷電群内に包含されると、本方法はこれを別の荷電群に関して再び考慮することを控える。
【0188】
本方法はいくつかの同位体群パラメータを計算する。例えば、「主同位体特徴」パラメータは最大の特徴モデル化時間ピーク強度を備えた同位体特徴である。「受容特徴カウント」パラメータは同位体群に受容された(特有の)特徴の数である。「重複特徴カウント」パラメータは同位体群内の重なり合った特徴の数である(すなわちこれらはまた他の同位体群内にある)。「合計同位体cnt」パラメータは検出された同位体の数である。「群荷電状態」パラメータは同位体群の整数値である荷電状態である。「質量/荷電δ」パラメータは種特徴の質量/荷電重心と同位体群に関して同位体を見つけ出すために使用される質量/荷電との間の差分である。「質量重心幅」パラメータは荷電状態で掛け算された、各々の同位体における主特徴の平均質量/荷電重心である。「モノアイソトピック質量/荷電」パラメータは各々の同位体に関して計算されたモノラルの質量/荷電の平均であり、1つの同位体に関して、モノラルの質量/荷電は以下の数学的処理、すなわち(mz−k*Mn/z)によって計算され、式中、mzは主同位体特徴の質量/荷電重心であり、kは(分布偏位によって調節された)同位体番号であり、Mnは中性子の質量であり、zは荷電状態である。「質量重心」パラメータは同位体群の質量であり、(mz−Mp)*zに等価であり、式中、mzはモノアイソトピックmzであり、zは荷電状態であり、Mpは陽子の質量である。「モノアイソトピック位置偏位」パラメータは最初に検出された同位体の同位体番号であり、この偏位は検出された同位体分布と理論的な同位体分布を調整させることによって検出される。「平均時間ピーク点数」パラメータは同位体群内のすべての特徴全体にわたる平均の特徴時間ピーク点数である。「平均質量/荷電ピーク点数」パラメータは同位体群内のすべての特徴全体にわたる平均の特徴質量/荷電ピーク点数である。「時間ピーク調整不良点数」パラメータは(Sc/w)として計算され、式中、Scはすべての特徴の保持時間重心の標準偏差であり、wは同位体群内のすべての特徴の平均の保持時間重心幅である。「質量/荷電ピーク分布点数」パラメータは理論的同位体分布と観察された同位体分布との間のピアソン相関である。「質量/荷電ピーク分布点数p値」パラメータは質量/荷電ピーク分布点数に付随するp値である。「最大同位体num」パラメータはピーク同位体の同位体番号であり、ピーク同位体は同位体群内の最も高い特徴ピーク強度を備えた特徴を有する同位体である。「最大同位体ピーク強度」パラメータはピーク同位体の特徴ピーク強度である。「最大同位体質量/荷電重心」パラメータはピーク同位体の特徴質量/荷電重心パラメータである。「最大同位体質量/荷電重心幅」パラメータはピーク同位体の特徴質量/荷電重心幅パラメータである。「最大同位体時間重心」パラメータはピーク同位体の特徴時間重心パラメータである。「最大同位体時間重心幅」パラメータはピーク同位体の特徴時間重心幅パラメータである。「最大同位体時間基準開始点」パラメータはピーク同位体の特徴時間基準開始点パラメータである。「最大同位体時間基準終了点」パラメータはピーク同位体の特徴時間基準終了点パラメータである。「最大同位体mz基準開始点」パラメータはピーク同位体の特徴質量/荷電基準開始点パラメータである。「最大同位体質量/荷電基準終了点」パラメータはピーク同位体の特徴質量/荷電基準終了点パラメータである。「同位体時間基準開始点」パラメータは同位体群内のすべての特徴のうちの最小の特徴時間基準開始点である。「同位体時間基準終了点」パラメータは同位体群内のすべての特徴のうちの最大の特徴時間基準終了点である。「同位体質量/荷電基準開始点」パラメータは同位体群内のすべての特徴のうちの最小の特徴質量/荷電基準開始点である。「同位体質量/荷電基準終了点」パラメータは同位体群内のすべての特徴のうちの最大の特徴質量/荷電基準終了点である。
【0189】
例証となる実施形態が具体的に示されて述べられてきたが、本発明の精神と範囲から逸脱することなく、これに様々な変更が為され得ることは理解されるであろう。
【図面の簡単な説明】
【0190】
【図1】一例の画像処理パイプラインを含む一例のシステムを例示するブロック図である。
【図2A】さらなる発見と分析のために関心対象の生物学的候補を抽出するための一例の画像処理パイプラインを例示するブロック図である。
【図2B】均一に間隔を開けられた水平および垂直の線で形成された格子と重ね合わされるラスタ化された画像を例示する絵図である。
【図2C】調整を定量化するための様々な計算に関してマスターの部分領域全体にわたってスライド可能なターゲットの部分領域を例示する絵図である。
【図2D】見込まれる調整の場所の指標である係数値の頂点を例示する絵図である。
【図2E】2ピークモデルがどのようであり得るかを数学的に例示する図である。
【図3】本発明の様々な実施形態によって検出されるピーク、同位体群、および荷電群を例示する絵図である。
【図4A】一例の画像処理パイプラインの構成要素である一例の生物学的画像前処理装置を例示するブロック図である。
【図4B】一例の画像処理パイプラインの構成要素である一例の生物学的画像前処理装置の別の部分を例示するブロック図である。
【図4C】一例の画像処理パイプラインの一例の画像特徴抽出用構成要素を例示するブロック図である。
【図5A−1】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−2】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−3】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−4】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−5】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−6】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−7】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−8】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−9】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−10】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−11】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−12】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−13】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−14】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−15】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−16】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−17】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−18】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−19】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−20】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−21】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−22】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5B】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5C−1】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5C−2】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5D】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5E】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5F】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5G】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5H】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5I】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5J】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5K】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5L】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5M】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5N】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5O】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5P】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5Q】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5R】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−1】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−2】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−3】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−4】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−5】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−6】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−7】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−8】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−9】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−10】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−11】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−12】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−13】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−14】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−15】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−16】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−17】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−18】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−19】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−20】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−21】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−22】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5T】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5U】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5V】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5W】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5X】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5Y】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5Z】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【技術分野】
【0001】
本出願は本願明細書に参照で組み入れられる2005年11月10日提出の米国特許仮出願第60/735691号明細書の優先権を権利主張するものである。
【0002】
本発明は概して画像処理に関し、さらに特定すると調製された生物試料の画像を分析することでさらなる分析のために関心対象の特徴を発見する過程に関する。
【背景技術】
【0003】
新薬開発の成功率を向上させるために、製薬会社はますますバイオマーカーの使用に頼ってきた。バイオマーカーは多くの意味を伴う用語であり、そのうちの1つは関心対象の生物学的処理、法則、または成果の指標として役立ち得る1つまたは複数の測定値を含むこともあり得る。例えば、前立腺に特異的な抗原は前立腺の疾病に関して一般的に使用される診断用バイオマーカーである。理想的なバイオマーカーは薬剤治療のメカニズムのさらに優れた理解、治療成果のさらに優れた予測とモニタリング、および薬剤の毒性に付随する危険のさらに優れた管理につながることが可能である。
【発明の開示】
【発明が解決しようとする課題】
【0004】
理想的なバイオマーカーは関心対象の生物学的状態に敏感で特異的でなければならないのみでなく、理想的なバイオマーカーは好ましくは血液、尿、および脳脊髄液などの体液中で検出および測定を行うことが簡単かつ便利でなければならない。しかしマイクロアレイによる大規模な遺伝子発現分析は関連するバイオマーカーを識別することに役立ってきた。適切なバイオマーカーはしばしば遺伝子ではなくタンパク質、タンパク質断片、代謝産物、その他である。このケースの理由の1つは、組織特異性の遺伝子発現の変異が体液中で容易に測定できないことである。タンパク質の識別および測定に関連する多くの技術的課題にもかかわらず、現在の努力は関連するタンパク質バイオマーカーを見つけることに焦点を絞られている。
【課題を解決するための手段】
【0005】
この概説は下記で詳細な説明においてさらに述べられる概念の選択を単純化した形で導入するために提供される。この概説は特許請求される主題事項の主要な特徴を特定することを意図されておらず、特許請求される主題事項の範囲を決定する補助として使用されることも意図されていない。
【0006】
本発明によると、画像処理パイプライン、システム、生物学的画像前処理装置、および方法が提供される。本発明の1つのコンピュータ導入可能な画像処理パイプラインの形態は、調製された生物試料が多様な処理状態の発現実験から得られる過程からデータを収集するための収集装置を含む。このパイプラインはさらに、収集装置からのデータを処理するため、および合成画像を形成するための画像処理装置を含む。このパイプラインはピーク、同位体群、および荷電群を含む合成画像から特徴特性を抽出するための画像特徴抽出装置もやはり含む。
【0007】
本発明のさらなる態様によると、本発明のシステムの形態は画像のセットを作り出すために調製生物試料を処理するための機器の収集を含む。この機器の収集は液体クロマトグラフィ機器および質量分析計を含む。本システムはさらに、画像のセットから作り出される合成画像を処理するための画像処理装置を含む。画像処理パイプラインは特徴特性、発現プロファイル、および候補の特徴リストを作り出す。
【0008】
本発明のさらなる態様によると、本発明の生物学的画像前処理装置の形態は未加工のLC/MSデータを補間し、ラスタ化し、フィルタにかけて二次元画像へとマップ化するためにラスタライザと組み合わされた補間装置を含む。この前処理装置はさらに、多様な処理群の指標である二次元画像を合成画像へと組み合わせて融合させるために群間画像融合装置と組み合わされた群内複製コンバイナを含む。
【0009】
本発明のさらなる態様によると、本発明の方法の形態は多様な画像の中でクロマトグラムの保持時間の不一致を取り除くための方法を含む。本方法はすべての複製の中で全体的な調整不良を削減するために元の未加工データを歪めることによって調整した二次元LC/MSラスタ化画像を発生させる工程を含む。本方法はさらに、組合せ画像を形成するために各々の処理群の中で複製を組み合わせる工程、および合成画像を形成するために最大画素強度を取り込むことによって処理群の間からの組合せ画像を融合させる工程を含む。
【0010】
本発明のさらなる態様によると、本発明の方法の形態は画像特徴を抽出するための方法を含む。本方法は合成画像上で関連した非ゼロ画素から同位体ピークを識別する工程を含む。本方法はさらに、質量/荷電方向、保持時間方向、または両方における2つ以上の同位体ピークで構成される識別された同位体ピークを分割する工程を含む。
【0011】
本発明のさらなる態様によると、本発明の方法の形態は生物学的特徴を抽出するための方法を含む。本方法は合成画像を形成するために多様な処理状態の画像を処理する工程を含む。本方法はさらに、合成画像内の特定の場所における平均値、中央値、最大値、最小値、および標準偏差から成る群から選択されるバックグラウンドノイズパラメータよりも上の強度を有する合成画像内の関連した画素から同位体ピークを見つけ出す工程を含む。
【0012】
本発明のさらなる態様によると、本発明の方法の形態は合成画像内で見つけ出された同位体ピークを分割するための方法を含む。本方法は同位体ピークが他の同位体ピークの幅分布よりも広い幅を有するかどうか判定することによって重なり合った同位体ピークを検出する工程を含む。本方法はさらに、保持時間方向および質量/荷電方向において重なり合った同位体ピークを分割する工程を含む。
【0013】
本発明のさらなる態様によると、本発明の方法の形態は同位体群に関して荷電状態を推定するための方法を含む。本方法はランク表の頂点からのピークの保持時間の重心付近の個別連続体の加重和によってMS連続体を構築する工程を含む。本方法はさらに、様々な荷電状態に関して複数の理想モデルをMS連続体に整合させる工程、および最良整合を与える理想モデルを判定する工程を含む。理想モデルの荷電状態は同位体群の荷電状態である。
【0014】
本発明のさらなる態様によると、本発明の方法の形態は複製を表わす画像を調整させるための方法を含む。本方法は重なり合いのセット内の第1の最終変位値と第2の最終変位値を判定するために、ターゲットの画像がマスター画像と調整する程度を評価する相関係数および重なり適合値を計算する工程を含む。本方法はさらに、第1と第2の最終変位値が互いに近接範囲内にある場合に時間間隔に関して最終変位値を作り出すために第1と第2の最終変位値を平均する工程を含む。本方法は複数の時間間隔に関して複数の最終変位値を作り出すために上記の工程を繰り返す工程もやはり含み、各々の最終変位値は画像をラスタ化してそれらを調整させるために補間関数を作り出すための基準点である。
【0015】
本発明の前述の態様および多くの付随する利点は、これらが添付の図面と結び付けて取り入れられるときに以下の詳細な説明を参照することによってさらによく理解されるので、さらに容易に評価されるであろう。
【発明を実施するための最良の形態】
【0016】
画像処理パイプライン112の様々な実施形態はペプチドの特徴抽出および発現差異解析などといった特徴抽出と解析を容易にする。図1参照。画像処理パイプラインの一実施形態は薬剤開発過程でタンパク質のバイオマーカー発見に使用するためのものである。画像処理パイプラインの他の実施形態はバイオマーカーに加えて他のタイプの発見のために使用されることもあり得る。画像処理パイプライン112への入力は、調製生物試料106が液体クロマトグラフィ機器108および質量分析計110にかけられる過程から集められた未加工データ202(図2A参照)のセットである。このデータは多様な表現型の発現実験104A−104Cまたは鑑別薬剤投与下でのタンパク質発現などといった処理状態102A−102Cから得られる。各々の条件に関して、いくつかの生物学的複製からの測定データが利用可能であることもあり得る。画像処理パイプライン112の一実施形態は、様々な表現型において異なる、または異ならない発現レベル、もしくは薬剤治療によって変えられる発現レベルを有するこれらのペプチドまたはタンパク質の発見を容易にする。画像処理パイプラインの他の実施形態は他の生物学的特徴の発見を容易にする。
【0017】
画像処理パイプライン112の主要要素のうちのいくつかは生物学的画像前処理装置204によって遂行される画像前処理(データ補間、画像調整、画像ノイズのフィルタ処理、バックグラウンド補正、および合成画像の形成)、画像特徴抽出装置208によって遂行される画像特徴抽出(ピーク、同位体群、および荷電群)、特徴特性の計算、および発現統計プロセッサ212によって遂行される発現統計、および発現解析プロセッサ216によって遂行される発現差異または非差異の解析を含む。図2A参照。画像処理パイプラインの出力は(1)生物学的特徴とそれらの特性の一覧表210、(2)3つの集大成レベル(ピーク、同位体群、および荷電群)におけるすべての条件でのすべての複製の発現プロファイル214、および(3)後に続くターゲット化される識別のための、差異を有して、または差異を有さず発現された特徴の一覧表218を含む。
【0018】
液体クロマトグラフィ(LC)および質量分析法(MS)の手法はゲル不使用のタンパク質発現のプロファイリングの焦点になっている。調製生物試料(例えば分解されたタンパク質試料からのペプチド)がクロマトグラフィカラムから溶出され、イオン化され、引き続いてイオントラップ内で分析される。当業者によって理解されるであろうが、異なる方法の様々な実施形態が分光法または分光分析法のいずれかのタイプに応用可能である。質量分析法は大きなダイナミックレンジ全体にわたってすべてのタイプのタンパク質および代謝産物の敏感な検出と識別を提供するので、プロテオミクスおよび代謝学の研究のために使用される道具である。検出されるイオン強度が試料成分濃度に加えてイオン化効率、検出器の効率、試料のサイズ、および試料の流量などの要因によって決まり得ることを前提として、他の適切な定量化方法が使用される。質量分析法のためのタンパク質およびペプチドのイオン化は従来からMALDI(マトリックス支援レーザ脱離イオン化)またはESI(エレクトロスプレーイオン化)を使用するが、異なる方法の様々な実施形態がいずれかの適切な現在または将来のイオン化方法、ならびにイオントラップ型、飛行時間型、もしくは四重極型分析器などのいずれかの適切な検出方法を使用することもあり得る。さらに、異なる方法の様々な実施形態が、特に電子衝突イオン化(EI)を使用してガスクロマトグラフィ−質量分析法(GC−MS)から得られるデータを使用することも可能である。
【0019】
ペプチドなどの多様な生物学的特徴は2つの次元(保持時間と質量/荷電)で分けられる。所定の保持時間について、一次元連続体が関心対象の質量/荷電範囲で得られることが可能である。ペプチドは連続体の中のピークとして示されるが、しかし関心対象の他の生物学的特徴がピークとして示されることもやはりあり得る。ピーク強度は関心対象の生物学的特徴の潤沢度に比例すると想定される。質量/荷電の連続体は規定されたサンプリング速度または可変のサンプリング速度で繰り返し収集される。概念上、順々に収集された一次元の質量分析の連続体が二次元のデータセットを形成する。強度が第三の次元であれば、様々なピークはレリーフマップ上の個別の丘として現れる。
【0020】
本発明の様々な実施形態によって可能にされる1つの探索法は異なる実験条件の中で発現強度が変わった、または変わらなかったペプチドまたはタンパク質を見つけることである。ペプチドまたはタンパク質に関連しない他の探索法もやはり可能である。ペプチドまたはタンパク質は有用なバイオマーカーを識別するさらなる検証のための候補になることが可能である。本発明のいくつかの実施形態は未加工のLC/MSデータと差異を有するかまたは有さないペプチドピークまたは同位体群の発現検出との間のデータ処理に焦点を絞る。これらのピークは識別されなかった場合にはペプチド配列の識別のためにタンデム型質量分析に送られてもよい。
【0021】
図1は画像処理パイプライン112を含むシステム100のブロック図である。パイプライン112への入力は多様な処理状態下または表現型の実験104A−104Cからの調製生物試料106である未加工のLC/MSデータのセットである。各々の条件において、しばしばいくつかの生物学的または技術的複製102A−102Cがある。生物学的複製102A−102Cは異なる動物または細胞株などからの試料である。技術的複製は同じ動物試料の繰り返されたLC/MS運転である。画像処理パイプラインからの出力は特徴的特性、発現プロファイル、および差異のある、または差異のない特徴一覧表を含む。まとめて生物学的候補リスト116参照。
【0022】
特徴的特性は3つのレベルすなわちピーク、同位体群、および荷電群における生物学的特徴300について情報を提供する。図3参照。これらの特性はピーク保持時間の始まりから終わり、ピーク質量/荷電の始まりから終わり、質量/荷電の中央値、荷電状態、質量その他を含む。所定のピークについて、特性はすべての条件におけるすべてのデータ複製に当てはまる。図3はピーク306−310、同位体群304−308、および荷電群302を例示している。ピークは特定の保持時間範囲とm/z範囲における輪郭によって規定される二次元のLC/MS強度の丘である。同位体群は同じ荷電状態の同位体ピークの群である。2つの隣り合う同位体ピーク間の質量差は1つの元素が別の元素へと変えられるときに獲得される中性子の割り増し質量の結果である。1つの特定の同位体状態について、複数のピークが存在することが可能である。これは特に低い信号対ノイズ比の状況に関して特に真実である。複数の同位体群が異なった荷電状態で検出されることもあり得る。荷電群は一緒に属するそれらの同位体群を含む。
【0023】
各々のLC/MS運転について、発現プロファイルが3つの集大成、すなわちピーク、同位体群、および荷電群で与えられることが可能である。各々のプロファイルは特定の運転から得られる強度および他の発現統計値を含む。例えば、ピーク強度はピーク境界輪郭の中のすべての非ゼロ画素の強度測定値の総和であるピーク表面下の量として規定される。発現プロファイルは発現差異検出などといった後に続く発現データ解析のための定量的基礎である。差異特徴一覧表はタンデム型質量分析法によるペプチド/タンパク質識別のために選択された特徴(ピークまたは同位体群)の小セットである。この一覧表はANOVAなどの統計学的仮説検定による差異検出の結果、または教師なし学習(クラスタリング)もしくは教師あり学習(分類)方法の結果、またはそれらのうちのいくつかもしくはそれらすべての組合せであることもあり得る。ペプチド/タンパク質識別の後、この一覧表内の特徴がペプチド/タンパク質配列情報によって注釈を付けられるであろう。注釈を付けられた特徴の発現プロファイルは背後にある生物学を理解するための後に続く解析に使用されることが可能である。もちろん、同様に背後にある生物学を理解するために本発明の様々な実施形態によって与えられる非差異検出が使用されることもやはりあり得る。
【0024】
図4A−4Cは図2Aに素子204として示された生物学的画像前処理装置400A−400Bおよび図2Aに素子208として示された画像特徴抽出装置400Cの詳細なブロック図である。入力は各々の中にいくつかの生物学的または技術的複製があるいくつかの異なる処理群のタンパク質試料に由来する未加工のLC/MSデータのセット402である。このモジュールの機能はデータラスタ化装置404によって遂行されるデータのラスタ化;群内および群間の保持時間調整のためのアライナ416ならびに画像歪曲装置および再ラスタ化装置418によって遂行される保持時間の調整;ノイズ除去装置406、410、および426によって遂行される画像ノイズのフィルタ処理;バックグラウンド補正装置428;保持時間の縞の除去装置408;正規化装置414;強度中央値計算器422および強度標準偏差計算器424;およびピーク識別器と標識化装置442、ピーク事前分析装置と分割器444、ピーク特性処理装置446、同位体群識別器450、および荷電群識別器454による特徴抽出のための1つの合成画像440の形成を含む。ラスタ化機能は未加工のLC/MSデータ402を補間し、後に続く画像処理のためにすべてのデータを共通の二次元画像格子にマップ化する。時間調整機能は多様な複製のLC/MS運転の中のクロマトグラムの保持時間の不一致を取り除く。
【0025】
時間の調整には3つの段階がある。例えば図5B−5S−1参照。最初に、一実施形態では初期のラスタ化の前に事前調整段階において全体的な時間の調整不良が推定されるが他の実施形態ではこの段階は場合によって設けられる。次いで、一実施形態では別々の工程で局所的な群内の調整不良および局所的な群間の調整不良が推定されるが、別の実施形態では局所的な群内の調整不良と局所的な群間の調整不良の両方が1つの工程で算出される。合計の調整不良は3つの成分の組合せである。調整した二次元LC/MSラスタ化画像420はすべての複製の中の合計の調整不良を削減するように元の未加工データを歪めることによって作り出される。二次元画像内の空間的ノイズは信頼性があって堅調な画像特徴抽出を確実にするために前処理装置内のいくつかの場所においてフィルタで除去される。各々の処理群内の複製は画素強度の平均化によって1つの画像へと組み合わされる。組み合わされた画像すべての中の最大画素強度を取り込むなどといった適切な技法を使用することによって1つの合成画像440が作り出される。合成画像440はこれでもって画像特徴抽出装置400Cが関心対象の様々な生物学的特徴を得るように働く情報である。
【0026】
図4Cは画像特徴抽出装置の詳細なブロック図である。その入力は(図2Aに素子204として例示される)生物学的特徴前処理装置400A−400Bからの合成画像440である。最初に、ピークが関連した非ゼロ画素として規定される。各々のピークは特有の指数でラベリングされる。いくつかの実際のピークが誤って1つの大きい結合したピークとして識別されることもあり得る。画像事前解析機能において、これらの結合したピークの多くは識別されてm/zまたは保持時間方向で分割される。分割の後にピークの合計数が増やされる。新たなピークの指数がこれらの新たに分割されたピークに割り当てられる。ピークのm/z中央値と幅;ピークの時間中央値と幅などといったピーク特性が算出される。同位体群識別機能において、同じ同位体群に属するピークが識別される。荷電状態、モノアイソトピックm/z、およびペプチド質量などといった同位体群特性が推定される。各々の同位体群に特有の同位体群指数が割り当てられる。多くの同位体群が1つのピークを含むに過ぎないこともあり得る。このケースでは、ゼロ荷電が割り当てられる。(荷電が知られていないのでゼロ荷電はこれらの同位体群をラベリングする方法である。)同位体群を識別するとき、重なり合ったピークが識別される。この重複のケースでは、ピークが分割不可能であれば1つのピークが2つの同位体群に属してもよい。引き続く同位体群識別機能において、異なる荷電状態を有するが同様の保持時間とペプチド質量を有する同位体群が1つの荷電群に割り当てられる。
【0027】
図2Aは発現統計処理装置212および発現解析処理装置216を含む。発現統計処理装置212は3つの集大成レベル、すなわちピーク、同位体群、および荷電群において強度、強度誤差、および存在判定p値などの発現統計値を推定する。ピークレベルにおいて、ピーク輪郭境界の中の画素強度の総和である発現強度を推定するために、画像特徴抽出装置によって作り出されたピーク特性に基づいて各々の調整したLC/MS画像420内でピークが識別される。次いで、技術に特異的な誤差モデルが強度誤差を推定するために適用される。その結果は各々のLC/MS画像について1つのピークレベル発現プロファイルである。同位体群レベルにおいて、その入力はピークレベル発現プロファイルと同位体群特性である。同位体群に関して発現推定量を得るために、1つの同位体群における複数のピークの発現統計値が一体に「圧搾」される。同位体群の強度はこの同位体群に含まれるピーク強度の総和として規定される。結果的に生じる同位体群強度の強度誤差もやはり推定される。出力は各々のLC/MS画像について1つの同位体群レベルの発現プロファイルである。同位体群レベルにおいて、その入力は同位体群発現プロファイルと同位体群特性を含み、出力は同位体群発現プロファイルである。
【0028】
本発明の様々な実施形態が、関心対象の生物学的特徴に密接に関連する代表的ピークまたは同位体群の一覧表の発見を容易にする。これらのペプチド/タンパク質などといった生物学的特徴は多様な薬剤処理の中で統計学的に有意に差異のある、または差異のない発現のどちらかを明示し、場合によっては、薬剤の効能または毒性の予測にさえつながる。関心対象の例えばペプチド/タンパク質などといった代表的な生物学的特徴の一致は後に続くタンデム型質量分析法による配列識別の間に発見されると思われるが、これらの生物学的特徴がさらに早期に発見されることもやはりあり得る。発現解析処理装置では、関心対象の生物学的特徴の一覧表を導き出すために発現プロファイルがすべてのレベルにおいて使用されることが可能である。多くの関連した生物学的特徴の一覧表を得るための多くの適切でかつ異なる統計学的およびデータマイニングの方法があり得る。一般的に使用される発現差異検出方法はt検定およびANOVAなどのパラメトリック仮説検定、およびウィルコクソン検定および他のランクまたは順列に基づく検定などのノンパラメトリック検定を含む。一般的に使用されるデータマイニングの方法はクラスタリングアルゴリズムなどの教師なし学習および分類子などの教師あり学習を含む。
【0029】
本発明の様々な実施形態のうちの一例の画像処理パイプラインは従来の分析化学機器の感度、精度、および再現性の限界を克服するかまたは削減する。以下で、図5A−1−5A−22は生物試料中で関心対象の特徴を識別するための方法5000を記述している。説明を平易にするために、図5A−1−5A−22によって例示される方法5000の記述は3つの部分に分割される。最初に、方法5000は方法5000に関連した様々な技術的主題事項のさらに広い理解を可能にするために一般的に検討される。次に、図5A−1−5A−22によって例示されるような方法500の特定の工程が、方法の流れが識別され得るように述べられる。最後に、生物試料中で関心対象の特徴を識別するために使用される技術のさらに深い理解を可能にするために様々な技術的主題事項に関して数学的な基盤が検討される。
【0030】
概して、図5V−5Z、5A−2−5A−21はLC/MSラスタ化画像から生物学的特徴を抽出するために画像処理技術を使用する一例の画像特徴抽出装置によって実施される方法を例示している。最初にピークおよび同位体群が識別されて、これらが差異を有して発現されるか差異を有さずに発現されるかに関係なくラベリングされる。
【0031】
差異を有するか差異を有さない検出は抽出されるピーク強度情報に頼っている。図5V−5Z、5A−2−5A−21の様々な方法工程はペプチド/タンパク質などの相対的発現潤沢度を測定し、差異を有するか差異を有さない発現を検出する。潤沢度測定値は高い信号対ノイズ比を有する。本発明の様々な実施形態は後に確率p値を組み合わせるのではなく最初に高い信号対ノイズ比を達成するように複数の画素強度測定値を組み合わせる。同位体ピークの組み合わされた強度からの同位体群強度は普通では個々のピークからの強度よりも高い信号対ノイズ比を有する。本発明の様々な実施形態は個々のピークのみでなく同位体群および荷電群もやはり識別する。
【0032】
いくつかの実施形態における図5V−5Z、5A−2−5A−22の方法工程は最初にピークと同位体群を抽出し、次いで発現の差異を測定するなどの発現解析を遂行する。このピークに基づく手法は正確な保持時間調整の必要性を削減する。ピークが適切に抽出される限り、ピーク形状とピーク位置の小さい変動は後に続く解析に殆ど悪影響を有さない。
【0033】
本発明の様々な実施形態の二次元画像処理技術は多数のラスタ化LC/MS画像からの情報を活用する。生物学的ピークと同位体群はある一定の形状を有するので、信号対ノイズ比を向上させるために画像処理フィルタが使用されることが可能であり、それらのピーク、同位体群、および荷電などのそれらの特性を検出するために画像パターン認識法が使用されることが可能である。図5V−5Z、5A−2−5A−21における画像処理工程は特徴抽出における信号対ノイズ比をさらに向上させるために調査中の複数の実験複製からの情報を活用する。測定ノイズを削減するために複製からの複数の画像が一体に組み合わされる(平均される)ことが可能である。一層高い信号対ノイズ比は特徴抽出を一層正確で信頼性のあるものにする。
【0034】
様々な実施形態における図5B−5Uで例示されるような方法工程はLC/MS画像ノイズ削減のために形態学的フィルタを使用する。LC/MSデータは通常では測定ノイズを有する。このノイズは図5V−5Z、5A−2−5A−21で例示される方法工程におけるピーク抽出を難しくする。従来式のフィルタは実際の信号のピークとノイズのピークに影響を及ぼす。形態学的フィルタは画像の内容物の特定の形状に基づいて画像を変える画像フィルタ処理法のセットに属する。例えば、2値の形態学的浸食フィルタは2値画像内の白色特徴を縮小させることが可能である。ある一定のサイズよりも小さい特徴は除去されるであろう。別の例に関すると、2値の形態学的拡張フィルタは白色特徴を拡張するであろう。一例の画像処理パイプラインにおいて、LC/MS画像ノイズを削減するために浸食フィルタと拡張フィルタが様々な場所で適用される。
【0035】
図5B−5Uで例示されるような方法工程はノイズを含むLC/MS画像のバックグラウンド情報を推定する。画像のバックグラウンドノイズは、たとえ情報信号がないときでさえMS機器から入る低レベルの無秩序な示度数である。ノイズから信号ピークを抽出するために、バックグラウンドノイズのレベルを推定することが望ましい。バックグラウンド情報はまた、LC/MS強度測定に関して誤差モデルを構築するためにも望ましい。バックグラウンドノイズの推定量は、一実施形態では、バックグラウンドノイズの統計学的性質を推定することによって一例の画像処理パイプライン内で達成される。例えば、様々な形態学的フィルタによって除去されることが可能な非ゼロデータはバックグラウンドノイズであると考えられる。バックグラウンドの平均値と標準偏差はLC/MS画像の区分けされた領域内のこれらの画素から直接推定されることが可能である。画像のうちの異なる領域では平均値と標準偏差は異なる。バックグラウンドの推定のための画素の選択は必ずしも任意の強度閾値に基づく必要はないが、いくつかの実施形態では画像内の信号とノイズとの間の空間的差異に基づくので、本発明の様々な実施形態のバックグラウンド推定方法は図5V−5Z、5A−2−5A−21で例示される方法工程に関連して検討されるようにさらに優れたLC/MS画像特徴抽出を容易にする。
【0036】
ここで、方法の流れが識別され得るように、図5A−1−5A−22によって例示されるような方法500の特定の工程が述べられる。図5A−1−5A−22は生物試料中で関心対象の特徴を識別するための方法5000を例示している。開始ブロックから、方法5000は続行末端(「末端A」)と出口末端(「末端B」)との間に規定される方法工程5002のセットに進む。方法工程5002のセットは生物学的実験から得られる調製生物試料の画像の前処理を記述する。
【0037】
末端A(図5B)から、方法5000は多様な表現型または処理状態の発現実験が遂行されるブロック5008に進む。様々な生物学的実験から得られる調製生物試料がブロック5010で収集される。ブロック5012において、調製生物試料がイオン化されて液体クロマトグラフィ(LC)処理を受けることで溶出試料を作り出す。液体クロマトグラフィ処理からの溶出試料はブロック5014で質量分析計(MS)へと供給される。ブロック5016において、MSスペクトルが特定の保持時間で、かつ一定もしくは変化するサンプリング速度で繰り返し収集される。未加工のLC/MSデータはm/zがy軸であって保持時間がx軸である場合の画像からのMSスペクトルの収集物の形である。次いで本方法は別の続行末端(「末端A1」)に進む。
【0038】
末端A1(図5C−1)から、本方法は場合によっては複数の複製の多様なLC/MS運転の中の全体的な時間の調整不良を取り除くことによって保持時間の事前調整を遂行する。ブロック5020参照。ブロック5022において、本方法はLC/MS画像を作り出すために未加工のLC/MSデータを補間することによってデータのラスタ化を遂行する。次いで本方法はブロック5024で、強度が画像のうちの下側90%のランクを占める画素を除外する。ブロック5026において、ゼロよりも大きい強度を備えた画素に関して原型のビットマスクがLC/MS画像から作り出される。事前に調整された最大ピーク幅を使用して数学的形態学的オープン操作がビットマスクに対して実行される。ブロック5028参照。ブロック5030において、RT次元のオープン操作がビットマスクの多数の小さい特徴を除去してRT縞として規定される特徴を再構成する。ブロック5032において、RT縞がRTおよびm/z次元で拡張させられてそれらのサイズに戻る条件付きの拡張操作が次に起こる。次いで本方法は別の続行末端(「末端AA1」)へと続く。
【0039】
末端AA1(図5C−2)から、方法5000はブロック5034へと進み、ここでは本方法がビットマスクを反転させる。反転したビットマスクがLC/MS画像と掛け算される(論理的「終了」操作)ことでRT縞が取り除かれる。次いで本方法は、場合によってはブロック5038において正規化を実行する。システム100によって作り出される各々のLC/MS画像について上記の工程が繰り返される。次いで本方法は別の続行末端(「末端A2」)に進む。
【0040】
末端A2(図5D)から、方法5000はラスタ化画像の中から候補の画像が選択されるブロック5040に進む。ブロック5042において、候補の画像の強度の基礎ピークが測定され、これが候補の画像内で各々の時間点について最高強度値を決定する。ブロック5044において本方法は基礎ピーク強度測定に関して標準偏差を計算する。ブロック5046において、測定するべきさらに多くの画像があるかどうか判定するために検定が実行される。判定ブロック5046においてこの検定に対する答えがYESであれば方法5000は別の続行末端(「末端A3」)に進み、上記で特定された処理工程が繰り返されるブロック5040にスキップして戻る。そうでない場合、判定ブロック5046においてこの検定に対する答えがNOであれば方法5000はブロック5048へと進み、ここでは基礎ピーク強度において最も高い標準偏差を備えた画像が解析に関して高いコントラストで多くの明確な画像特徴を有すると思われるのでマスター画像であると選択される。次いで方法5000は別の続行末端(「末端A4」)に進む。
【0041】
末端A4(図5E)から、方法5000はブロック5050に進み、ここでは画像が画像内のデータの密度によって決まる特定の幅の時間の縦列(例えば1.5分)の中に分割される。やはり図2Bの線図220参照。ブロック5052において、各々の列は画像内のデータの密度によって決まるある高さの様々な横列のm/z部分領域(例えば20m/z)の中にさらに分割される。やはり図2Bの線図220参照。ブロック5054において、ある縦列内のある横列におけるマスター画像の部分領域が調整解析のために選択される。次いで本方法は別の続行末端(「末端A5」)へと続く。
【0042】
末端A5(図5E)から、方法5000はブロック5056に進み、ここでは重なり合いを作り出すためにターゲット画像の部分領域がマスターの部分領域全体にわたって段階を(変位段階当たり1つまたは複数の画素などの増分で)変位またはスライドさせされる。図2Cの線図222参照。ブロック5058において、本方法はどの程度良好にこの段階が調整されるか定量化するために相関係数(段階変位値)の計算を始める。ブロック5060において、ターゲット画像の部分領域に関する最小強度値が見出される(ここでは強度はゼロよりも大きい)。様々な部分領域(ターゲット画像とマスター画像)内の画素の強度が最小強度値で引き算される。ブロック5062参照。次いで本方法は別の続行末端(「末端A6」)に進む。
【0043】
末端A6(図5F)から、本方法はブロック5064に進み、ここでは本方法は重なり合った画素位置のターゲット画素とマスター画素を見る。ターゲットまたはマスターの画素強度のどちらかがゼロよりも大きいかどうか判定するための検定が判定ブロック5066において実行される。判定ブロック5066の検定に対する答えがNOであれば本方法は別の続行末端(「末端AS」)へと続く。そうでない場合、判定ブロック5066の検定に対する答えがYESであれば本方法は別の判定ブロック5068に進み、ここではターゲットまたはマスターの画素強度のどちらかがゼロであるかどうか判定するための検定が実行される。判定ブロック5068の検定に対する答えがYESであれば本方法はブロック5070に進み、ここでは特定の画素位置に関してゼロ値が1でインクリメントされる。次いで本方法は別の続行末端(「末端A7」)へと続く。そうでない場合、判定ブロック5068の検定に対する答えはNOであり、本方法は末端A7に進む。
【0044】
末端A7(図5G)から、方法5000はブロック5072に進み、ここでは高強度と低強度の画素の両方が相関係数に対する影響を有することを可能にするための計算が為される(例えばターゲット画素の強度のlog10とマスター画素の強度のlog10が取り入れられる)。ブロック5074において、特定の画素位置に関してターゲットとマスターの画素の強度の計算値がターゲットのアレイとマスターのアレイそれぞれに置かれる。次いで本方法は末端A8(図5G)に進み、さらに判定ブロック5076に進み、ここでは重なりの中のすべての画素が解析されたかどうか判定するための検定が実行される。判定ブロック5076の検定に対する答えがNOであれば本方法は末端A6に進み、上記で特定された処理工程が繰り返されるブロック5064へとスキップして戻る。そうでない場合、判定ブロック5076の検定に対する答えはYESであり、方法5000はターゲットのアレイとマスターのアレイに蓄えられた強度計算値から相関係数が算出されるブロック5078に進む。ブロック5080において、特定の段階に関して相関係数が相関係数のアレイに蓄えられる。次いで本方法は別の続行末端(「末端A9」)へと続く。
【0045】
末端A9(図5H)から、方法5000はブロック5082に進み、ここでは本方法はどの程度良好にこの段階が調整されるか定量化するために重なり適合値(別の段階変位値)の計算を始める。次いで本方法はブロック5084において重なり合った画素位置のターゲットの画素とマスターの画素を見る。次に判定ブロック5086において、マスターの画素の強度がゼロよりも大きいかどうか判定するための検定が実行される。判定ブロック5086の検定に対する答えがNOであれば本方法は別の続行末端(「末端A12」)へと続く。そうでない場合、判定ブロック5086の検定に対する答えはYESであり、本方法は判定ブロック5088に進み、ここではターゲットの画素の強度がゼロに等しいかどうか判定するための別の検定が実行される。判定ブロック5088の検定に対する答えがYESであれば本方法は別の続行末端(「末端A10」)に進む。そうでない場合、判定ブロック5088の検定に対する答えはNOであり、方法5000は別の続行末端(「末端A13」)に進む。
【0046】
末端A10(図5I)から、方法5000はブロック5090に進み、ここでは(マスターの画素の強度がゼロよりも大きいこと、およびターゲットの画素の強度がゼロであることを示す)第1のカウンタがインクリメントされる。方法5000は別の続行末端(「末端A13」)に進む。末端A12(図5I)から、方法5000は判定ブロック5092に進み、ここではマスターの画素の強度がゼロに等しいかどうか判定するための検定が実行される。判定ブロック5092の検定に対する答えがNOであれば本方法は末端A13に進む。そうでない場合、判定ブロック5092の検定に対する答えはYESであり、本方法は判定ブロック5094に進み、ここではターゲットの画素の強度がゼロよりも大きいかどうか判定するための別の検定が実行される。判定ブロック5094の検定に対する答えがYESであれば本方法は別の続行末端(「末端A11」)に進む。そうでない場合、判定ブロック5094の検定に対する答えはNOであり、本方法は末端A13に進む。
【0047】
末端A11(図5J)から、方法5000はブロック5096に進み、ここでは(マスターの画素の強度がゼロに等しいこと、およびターゲットの画素の強度がゼロよりも大きいことを示す)第2のカウンタがインクリメントされる。次いで方法5000は末端A13(図5J)に進み、判定ブロック5098へと続き、ここでは重なりの中のすべての画素が解析されたかどうか判定するための検定が実行される。判定ブロック5098の検定に対する答えがNOであれば方法5000は別の続行末端(「末端A14」)に進み、ブロック5084へとスキップして戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5098の検定に対する答えはYESであり、本方法はブロック5100に進み、ここでは第1と第2のカウンタの合計の負を取り入れることによって重なり適合値が算出される。ブロック5102において、特定の段階に関して重なり適合値がやはり段階変位のアレイに蓄えられる(本質的に、このアレイは2つの領域、相関係数、および重なり適合値のアレイである)。方法5000は別の続行末端(「末端A15」)に進む。
【0048】
末端A15(図5K)から、方法5000は判定ブロック5104に進み、ここではターゲットの部分領域がマスターの部分領域全部を横切ってスライドさせられたかどうか判定するための検定が実行される。判定ブロック5104の検定に対する答えがNOであれば本方法は末端A5(図5E)に進み、ブロック5056へとスキップして戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5104の検定に対する答えはYESであり、本方法はブロック5106に進み、ここでは(ターゲットの部分領域がマスターの部分領域の位置の上で導かれる場所を示す)各々の段階変位に関して、段階変位のアレイを使用して頂点が算出される。ブロック5108において、これらの頂点は各々の頂点の高さに基づいて下に進む順序で一覧表の中に仕分けされる。次いで本方法はブロック5110において一覧表の最上欄から頂点を選択する。次いで方法5000は別の続行末端(「末端A16」)に進む。
【0049】
末端A16(図5L)から、方法5000は判定ブロック5112に進み、ここでは頂点が屈曲と屈曲との間の最小数の点を有するかどうか判定するための検定が実行される。判定ブロック5112の検定に対する答えがYESであれば本方法は別の続行末端(「末端A18」)に進む。そうでない場合、判定ブロック5112の検定に対する答えはNOであり、本方法はブロック5114に進み、ここでこの頂点は一覧表から除去される。次いで本方法は判定ブロック5116に進み、ここでは考察するべきさらに多くの頂点があるかどうか判定するための別の検定が実行される。判定ブロック5116の検定に対する答えがNOであれば本方法は別の続行末端(「末端A20」)に進む。そうでない場合、判定ブロック5116の検定に対する答えはYESであり、本方法は別の続行末端(「末端A17」)に進む。
【0050】
末端A18(図5M)から、方法5000は判定ブロック5118に進み、ここでは2番目に高い頂点が適切な閾値で最高の頂点よりも低いかどうか判定するための検定が実行される。判定ブロック5118の検定に対する答えがNOであれば本方法は別の続行末端(「末端A19」)に進む。末端A19(図5L)から、本方法はブロック5114へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5118の検定に対する答えはYESであり、本方法はブロック5120に進み、ここでは本方法はマスターとターゲットの部分領域の間の高い相関を示し、かつ見込まれる調整の場所を示す頂点を頂点のアレイの中に蓄える。次いで方法5000は末端A20(図5M)に進み、さらに判定ブロック5122に進み、ここでは考察するべきさらに多くのターゲットの部分領域が異なる横列の中にあるかどうか判定するための検定が実行される。判定ブロック5122の検定に対する答えがYESであれば本方法は末端A21(図5E)へと続き、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5122の検定に対する答えはNOであり、方法5000は別の続行末端(「末端A22」)に進む。
【0051】
末端A22(図5N)から、方法5000はブロック5124に進み、ここでは本方法は相関係数技法の最終解析を始める。ブロック5126において、段階変位のアレイ内に蓄えられた変位値に関してヒストグラムが、0.20などの適切な瓶サイズを使用して作成される。ブロック5128においてこのヒストグラムは、ヒストグラム内の各々の瓶に属する員数に基づいた順序で下に進んで仕分けされる。ブロック5130において、最高位のランクにある瓶内の値のすべてが平均されることでこの技法に関して最終の変位値を決定する。判定ブロック5132において、最高位にランク付けされた瓶が最小の員数を有するかどうか判定するための検定が実行される。判定ブロック5132の検定に対する答えがYESであれば本方法は別の続行末端(「末端A23」)に進む。そうでない場合、判定ブロック5132の検定に対する答えはNOであり、本方法は別の続行末端(「末端A24」)に進む。
【0052】
末端A23(図5O)から、方法5000は判定ブロック5134に進み、ここでは2番目にランク付けされた瓶が1番目にランク付けされた瓶の構成要素の90%を有するかどうか判定するための検定が実行される。判定ブロック5134の検定に対する答えがNOであれば本方法は別の続行末端(「末端A24」)に進む。判定ブロック5134の検定に対する答えがYESであれば本方法はブロック5136に進み、ここでは1番目および2番目にランク付けされた瓶の構成要素が一緒に平均されることで最終の変位値を作り出す。判定ブロック5138において、最終の変位値が相関係数から算出されるかどうか判定するための検定が実行される。判定ブロック5138の検定に対する答えがNOであれば本方法は末端A24に進む。そうでない場合、判定ブロック5138の検定に対する答えはYESであり、本方法はブロック5140に進み、ここではこの最終の変位値が(相関係数解析のために)第1の最終変位値として保存される。ブロック5140の実行の後に、本方法は末端A24に進む。
【0053】
末端A24(図5P)から、方法5000は判定ブロック5142に進み、ここでは重なり適合値技法の最終解析が起こったかどうか判定するための検定が実行される。判定ブロック5142の検定に対する答えがNOであれば方法5000は末端A22に進み、ここで一巡してブロック5124(図5N)に戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5142の検定に対する答えはYESであり、本方法はブロック5144に進み、ここでは第2の最終変位値が(重なり適合解析のための)第1の最終変位値として保存される。次いで本方法はブロック5146に進み、ここでは第1と第2の最終変位値が互いに近接範囲内にあるかどうか判定するための検定が実行される。判定ブロック5146の検定に対する答えがNOであれば方法5000はブロック5148に進み、ここでは必要とされる調整の度合いに対する合意が欠如しているので最終変位値が破棄され、別の縦列を使用して処理が再開される。方法5000は別の続行末端(「末端A26」)に進む。判定ブロック5146の検定に対する答えがYESであれば本方法は別の続行末端(「末端A25」)に進む。
【0054】
末端A25(図5Q)から、方法5000はブロック5150に進み、ここでは特定の時間間隔(格子の縦列の幅)に関して最終変位値を作り出すために第1と第2の最終変位値が平均される。判定ブロック5152において、ターゲットの画像のすべての縦列が解析されたかどうか判定するための検定が実行される。判定ブロック5152の検定に対する答えがNOであれば方法5000は末端A21に進み、ブロック5054(図5E)へとスキップして戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5152の検定に対する答えはYESであり、本方法はブロック5154に進み、ここではラスタ化画像のすべてが解析されたかどうか判定するための別の検定が実行される。判定ブロック5154の検定に対する答えがNOであれば本方法は末端A4(図5E)に進み、一巡してブロック5050に戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5144の検定に対する答えはYESであり、方法5000は末端A26に進む。
【0055】
末端A26(図5R)から、各々の画像の各々の縦列の幅に関して変位値を規定するスプライン関数などの補間関数を作り出すために各々の平均最終変位値が基準点として使用される。ブロック5156参照。ブロック5158において、本方法は本方法が画像を再びラスタ化し、それゆえに画像を歪めるときに画像内の補間を使用して未加工データを再び補間する。ブロック5160において、二次元画像内の空間ノイズが形態学的画像ノイズフィルタによってフィルタ処理される。ブロック5162において本方法はLC/MS画像の強度中央値を計算してデータベース内に保存する。ブロック5164において、本方法はLC/MS画像の強度の標準偏差を計算してデータベース内に保存する。次いで方法5000は別の続行末端(「末端A27」)に進む。
【0056】
末端A27(図5S−1)から、方法5000はLC/MS画像のノイズを除去してバックグラウンドを補正するための工程をブロック5166において開始する。ブロック5168において、高解像度のMS機器が使われたかどうか判定するための検定が実行される。判定ブロック5168の検定に対する答えがNOであれば方法5000は別の続行末端(「末端AK1」)に進む。そうでない場合、判定ブロック5168の検定に対する答えはYESであり、本方法は別の続行末端(「末端AA1」)に進み、さらにブロック5170に進み、ここでは本方法はLC/MS画像上で形態学的ビットオープン操作を実行するための工程を開始する。ブロック5172において本方法はゼロよりも上の強度に関してLC/MS画像からビットマスクを作り出す。ブロック5174において、形態学的オープン操作がビットマスク上で実行され、ある構造的サイズを伴うノイズを除去する。次いで方法500は別の続行末端(「末端AA2」)に進む。
【0057】
末端AA2(図5S−2)から、方法5000はブロック5176に進み、ビットマスクをLC/MS画像に適用してビットオープンのLC/MS画像を作り出す。次いで本方法は別の続行末端(「末端AB1」)に進み、さらにブロック5178に進み、ここでは本方法はビットオープンのLC/MS画像のバックグラウンド補正を実行するための工程を開始する。判定ブロック5180において、さらに少数の中央値仕分けが必要とされるかどうか判定するための検定が実行される。判定ブロック5180の検定に対する答えがYESであれば方法5000は別の続行末端(「末端AD1」)に進む。そうでない場合、判定ブロック5180の検定に対する答えはNOであり、本方法は別の続行末端(「末端AC1」)に進み、次いでブロック5182に進み、ここでは(m/z方向で2n+1、RT方向で1の寸法の)直線的な窓がLC/MS画像の第1の画素に置かれる。次いでブロック5184において、本方法は直線的な窓内の画素の強度中央値を算出する。本方法は別の続行末端(「末端AC2」)に進む。
【0058】
末端AC2(図5S−3)から、方法5000はブロック5186に進み、ここでは強度中央値が直線的窓の中心に位置する画素に割り当てられる。ブロック5188において、上記で検討された工程5184−5186がLC/MS画像の特定の横列内の各々の画素について繰り返される。上記で検討された工程はまた、ブロック5190においてLC/MS画像内の各々の横列についても繰り返される。ブロック5192において、(RT方向で2m+1、m/z方向で1の寸法の)直線的な窓がLC/MS画像の第1の画素に置かれる。ブロック5194において、本方法は直線的な窓内の画素の強度中央値を算出する。ブロック5196において、強度中央値が直線的窓の中心に位置する画素に割り当てられる。ブロック5198において、上記で検討された工程5194−5196がLC/MS画像の特定の縦列内の各々の画素について繰り返される。次いで本方法は別の続行末端(「末端AC3」)へと続く。
【0059】
末端AC3(図5S−4)から、上記で検討された工程がブロック5200においてLC/MS画像内の各々の縦列について繰り返される。ブロック5202において、上記で検討された工程が各々のLC/MS画像について繰り返される。次いで本方法は別の続行末端(「末端AB2」)へと続く。末端AB1(図5S−4)から、方法5000はブロック5204に進み、ここでは本方法はLC/MS画像を矩形の塊のセットへと分割する。ブロック5206において、本方法は1つの塊を取り上げて特定の横列内のすべての画素の強度中央値を算出する。ブロック5208においてこの強度中央値がこの塊のうちの特定の横列の中心に位置する画素に割り当てられる。ブロック5210において、上記で検討された工程5206−5208がこの塊のうちの各々の横列について繰り返される。次いで本方法は別の続行末端(「末端AD2」)へと続く。
【0060】
末端AD2(図5S−5)から、方法5000はブロック5212に進み、ここでは本方法は1つの塊を取り上げて特定の縦列内のすべての画素の強度中央値を算出する。ブロック5214においてこの強度中央値がこの塊のうちの特定の縦列の中心に位置する画素に割り当てられる。ブロック5216において、上記で検討された工程5212−5214がこの塊のうちの各々の縦列について繰り返される。上記で検討された工程5206−5216はすべての塊についてもやはり繰り返される。ブロック5218参照。ブロック5220において、本方法は1つの塊のうちの特定の横列の強度中央値、および水平方向で最も近接する塊のうちの相当する横列の強度中央値を取り上げる。強度中央値を割り当てられた2つの画素の間の横列内の各々の画素の強度がブロック5222において補間される。ブロック5224において、上記で検討された工程5220−5222がすべての塊について繰り返されることで横列中央値画像を作り出す。次いで本方法は別の続行末端(「末端AD3」)に進む。
【0061】
末端AD3(図5S−6)から、方法5000はブロック5226において1つの塊のうちの特定の縦列の強度中央値、および垂直方向で最も近接する塊のうちの相当する縦列の強度中央値を取り上げる。ブロック5228において、強度中央値を割り当てられた2つの画素の間の縦列内の各々の画素の強度が補間される。ブロック5230において、上記で検討された工程5226−5228がすべての塊について繰り返されることで縦列中央値画像を作り出す。次いで方法5000は別の続行末端(「末端AB2」)に進む。末端AB2(図5S−6)から、方法5000はブロック5232に進み、ここでは横列中央値画像と縦列中央値画像の両方の中の画素位置について、本方法は同一場所に位置する2つの画素の最大強度値を取り上げる。ブロック5234においてこの最大値が同一場所に位置する2つの画素に相当する第3の画像(バックグラウンド画像)内の場所に割り当てられる。上記で検討された工程5232−5234がブロック5236において横列中央値画像と縦列中央値画像内のすべての画素について繰り返される。ブロック5238において、補正されたLC/MS画像を作り出すために本方法は元のLC/MS画像からバックグラウンド画像を引き算する。次いで本方法は別の続行末端(「末端AB3」)へと続く。
【0062】
末端AB3(図5S−7)から、方法5000はブロック5240に進み、ここでは本方法が塊を使用する場合には本方法は後に続く分析のために塊の中央値と標準偏差を計算する。ブロック5242において、本方法が塊を使用しない場合には本方法は後に続く分析のための中央値と標準偏差を計算する。いくつかの補正されたLC/MS画像を作り出すために、上記で検討された工程が各々の元のLC/MS画像について繰り返される。次いで方法5000は別の続行末端(「末端AE1」)に進む。末端AE1(図5S−7)から、方法5000はブロック5246に進み、LC/MS画像をRT次元で平滑化するための工程を開始する。ブロック5248において、本方法は1つの保持時間におけるすべての画素の強度を直線的に取り上げ、一次元高速フーリエ変換を使用してそれらを周波数領域に持ち込む。ブロック5250において、あるノイズタイプが周波数領域への変換によって除去される。方法5000は別の続行末端(「末端AE2」)に進む。
【0063】
末端AE2(図5S−8)から、方法5000はブロック5252に進み、ここでは本方法はS字型(sigmoidal)またはガウス式ローパスフィルタのどちらかを順々に、または同時に作り出す。ブロック5254において本方法はローパスフィルタを、その変曲点が一次元高速フーリエ変換の周波数スペクトルの中心になるように移動させる。ブロック5256において本方法はS字型またはガウス式ローパスフィルタで一次元高速フーリエ変換に加重し、それゆえにスプリアス高周波成分を取り除く。ブロック5258において、本方法は一次元逆高速フーリエ変換を使用して1つの保持時間におけるすべての画素の強度を直線的に時間領域へと持ち込む。ブロック5260において本方法は逆高速フーリエ変換の実数部分を保持して虚数部分すべてを除去する。ブロック5262において、本方法はある画素の強度を、逆高速フーリエ変換の適用後にそれらの強度が負であればゼロに設定する。上記で検討された工程がブロック5264においてLC/MS画像のすべての保持時間、およびすべてのLC/MS画像について繰り返される。方法5000は別の続行末端(「末端AJ1」)に進む。
【0064】
末端AJ1(図5S−9)から、方法5000は判定ブロック5266に進み、ここではデータが(データの15%未満が非ゼロの値を有するような)まばらであるかどうか判定するための検定が実行される。判定ブロック5266の検定に対する答えがNOであれば方法5000は別の続行末端(「末端AG1」)に進む。そうでない場合、判定ブロック5266の検定に対する答えはYESであり、本方法は別の続行末端(「末端AF1」)に進み、さらにブロック5268に進み、ここでは本方法はまばらなデータに関して閾値マスクを決定するための工程を開始する。ブロック5270において、本方法はLC/MS画像から、ゼロよりも上のそれらの強度に関してゼロよりも上のビットマスクを作る。同時に、ブロック5272において本方法は前に末端AB3とAE1との間で計算されたLC/MS画像に関する標準偏差または標準偏差のセットを入手する。標準偏差のセットが入手されれば本方法はブロック5274において標準偏差の中央値を算出する。方法5000は別の続行末端(「末端AF2」)に進む。
【0065】
末端AF2(図5S−10)から、方法5000はブロック5276に進み、ここでは本方法は標準偏差よりも下の強度をゼロに設定することによって標準偏差ビットマスクを作り出す。ブロック5278において、本方法は標準偏差マスク上で数学的形態学的拡張操作を実行する。ブロック5280において拡張操作はゼロよりも上のビットマスクの構造によって抑制される。次いで本方法はブロック5282において閾値マスクを作り出す。次いで方法5000は別の続行末端(「末端AA3」)に進む。末端AG1(図5S−10)から、方法5000はブロック5284に進み、ここでは本方法はまばらでないデータに関して閾値マスクを決定するための工程を開始する。ブロック5286において、本方法はLC/MS画像から、ゼロよりも上のそれらの強度に関してゼロよりも上のビットマスクを作る。本方法は別の続行末端(「末端AG2」)へと続く。
【0066】
末端AG2(図5S−11)から、方法5000はブロック5288に進み、ここでは本方法は前に末端AB3とAE1との間で計算されたLC/MS画像に関する標準偏差または標準偏差のセットを同時に入手する。標準偏差のセットが入手されれば本方法はブロック5290において標準偏差の中央値を算出する。ブロック5292において、本方法は閾値として標準偏差または標準偏差の中央値を使用して閾値よりも下の強度をゼロに設定する。方法5000は別の続行末端(「末端HH1」)に進む。本方法はブロック5294へと続き、ここでは本方法はLC/MS画像を平滑化するための工程を開始する。ブロック5296において、本方法はm/z次元でLC/MS画像を平滑化するための工程を開始する。本方法は別の続行末端(「末端AI2」)へと続く。
【0067】
末端AI2(図5S−12)から、方法5000はブロック5300において1つのm/z走査におけるすべての画素の強度を直線的に取り上げ、一次元高速フーリエ変換を使用してそれらを周波数領域へと持ち込む。ブロック5302において、本方法はS字型またはガウス式ローパスフィルタのどちらかを順々に、または同時に作り出す。ブロック5304において本方法はローパスフィルタを、その変曲点が一次元高速フーリエ変換の周波数スペクトルの中心になるように移動させる。ブロック5306において本方法はS字型またはガウス式ローパスフィルタで一次元高速フーリエ変換に加重し、それゆえにスプリアス高周波成分を取り除く。次に、ブロック5308において、本方法は一次元逆高速フーリエ変換を使用して1つのm/z走査におけるすべての画素の強度を直線的に時間領域へと持ち込む。ブロック5310において本方法は逆高速フーリエ変換の実数部分を保持して虚数部分すべてを除去する。ブロック5312において、上記で検討された工程がLC/MS画像のすべてのm/z走査、およびすべてのLC/MS画像について繰り返される。本方法は別の続行末端(「末端AH2」)に進む。
【0068】
末端AH2(図5S−13)から、方法5000はRT次元でLC/MS画像を平滑化するために末端AE1とAE3との間の工程を開始する。ブロック5314参照。次いで本方法は別の続行末端(「末端AG3」)へと続く。本方法はさらにブロック5316に進み、ここでは本方法は標準偏差よりも下の強度をゼロに設定することによって標準偏差ビットマスクを作り出す。ブロック5318において、閾値マスクを作り出すために本方法は標準偏差ビットマスクとゼロよりも上のビットマスクを交差させる。本方法は別の続行末端(「末端AA3」)に進み、さらにブロック5320に進み、ここでは本方法はLC/MS画像に閾値マスクを適用する(掛け算する、または論理的「終了」)ことでバックグラウンドを補正する。本方法は別の続行末端(「末端A28」)に進む。
【0069】
末端AK1(図5S−14)から、方法5000はブロック5322においてLC/MS画像を平滑化するために末端AH1とAG3との間の工程を開始する。ブロック5324において、本方法はLC/MS画像のバックグラウンドを補正するために末端AB1とAE1との間の工程を開始する。ブロック5326において本方法は閾値マスクを決定するために末端AJ1とAA3との間の工程を開始する。次に、ブロック5328において、方法5000はLC/MS画像に閾値マスクを適用する(掛け算する、または論理的「終了」)ことでバックグラウンドを補正する。方法5000は末端A28に進み、さらにブロック5330に進み、ここでは各々の処理群の中の複製が、複製を横切る画素の強度を平均することによって1つの画像の中に組み合わされる。方法5000は別の続行末端(「末端AL1」)に進む。
【0070】
末端AL1(図5S−15)から、方法5000はブロック5332において群内複製の組合せ画像を矩形の断片に割って部分画像を形成する。ブロック5334において、各々の部分画像の画素強度の標準偏差が算出される。ブロック5336において強度が(上記で算出された)2つの標準偏差よりも下の画素についてビットマスクが作り出される。ブロック5338において、工程5336にて作り出されたビットマスクがLC/MS画像に適用される。ブロック5340において、各々の部分画像の画素強度の標準偏差が再計算される。ブロック5342において、部分画像の再計算された標準偏差を使用して二次元補間が実行される。ブロック5344において、元の群内複製組合せ画像に対して数学的形態学的グレースケール拡張操作が実行される。次いで本方法は別の続行末端(「末端AL2」)へと続く。
【0071】
末端AL2(図5S−16)から、ブロック5346において、グレースケール拡張の結果がいずれの場所でも補間画像よりも大きい別のビットマスクが作り出される。ブロック5348では、上記の工程5346で作り出されたビットマスクに対して数学的形態学的オープン操作が実行される。ブロック5350において、オープンビットマスクが元の群内複製組合せ画像と共に適用される(掛け算される、または論理的「終了」)。ブロック5352において、上記の工程が画素の強度を表わす浮動小数点値を伴うマスク処理されたLC/MS画像を作り出す。上記の工程がブロック5354において各々の群内複製組合せ画像について繰り返される。ブロック5356において本方法は様々な群の組合せ画像を取り入れ、各々の画素位置のすべての組合せ画像の中で(群間)強度を融合させる。次いで方法5000は別の続行末端(「末端AM1」)に進む。
【0072】
末端AM1(図5S−17)から、方法5000はブロック5358において特徴マスクを作るための工程を開始する。本方法はブロック5360において群間画像内の大きくて連続的な領域を取り除くための工程を開始する。これらの大きくて連続的な領域は多数の無関係な混入物質の溶出に由来するノイズおよびバックグラウンドによって引き起こされることがあり得る。本方法は別の続行末端(「末端AN1」)に進む。本方法はさらにブロック5362に進み、ここでは本方法は元の群間画像の形態学的平滑化を始めるための工程を開始する。ブロック5364において、1つの画素半径の構造的素子を使用して形態学的グレースケールオープン処理が実行される。ブロック5366において、1つの画素半径の構造的素子を使用して形態学的グレースケールクローズ処理が実行される。ブロック5368において上記の工程5364−5366が、構造的素子のサイズを直径で1から5画素のサイズまで増大させながら繰り返される。存続する画素は関心対象の生物学的特徴の発見に関する信号を含むと考えられる。ブロック5370において、これらの形態学的平滑化工程の終わりに第1の画像が作り出される。次いで方法5000は別の続行末端(「末端AN2」)に進む。
【0073】
末端AN2(図5S−18)から、形態学的平滑化の工程と同時に本方法はブロック5372において元の群間画像に対して形態学的グレースケールオープン処理を実行する。ブロック5374において、本方法はRT次元でLC/MS画像を平滑化するために末端AE1とAE3との間の工程を開始して第2の画像を作り出す。ブロック5376において本方法は第1の画像を平滑化するために末端AH1とAG3との間の工程を開始する。ブロック5378において、本方法はこの第1の画像の強度に対する第2の画像の強度の比を取り込むことによって信号の平滑化能力を判定する。ブロック5380において、関心対象の見込まれる特徴を示す適切な(例えば近似し過ぎる)比の値を備えた画素位置に関して第2のビットマスクが実行される。ブロック5382において、約1の半径の構造的素子を備えた第2のビットマスクに対して二次元形態学的オープン操作が実行される。ブロック5384において、強度がゼロよりも大きい画素に関して第1のビットマスクが第1の画像から形成される。方法5000は別の続行末端(「末端AN3」)に進む。
【0074】
末端AN3(図5S−19)から、ブロック5386において形態学的オープン操作が最大許容ピーク幅で(例えば10−11画素の長さで)、第1のビットマスクに対してm/z次元で実行される。ブロック5388において、RTとm/z次元の両方であるが元の第1のビットマスクによって制約されて(調節もやはりされて)形態学的拡張操作がオープン処理された第1のビットマスクに対して実行される。ブロック5390において、本方法は連続的ノイズを伴わないマスクを作り出すために第2のマスクを反転された(論理的補数の)第1のマスクと交差させる(論理的AND)。連続的ノイズを伴わないマスクがブロック5394の元の群間画像に適用される(掛け算される、または論理的に「AND処理される」)。次いで本方法は別の続行末端(「末端AM2」)へと続き、さらにブロック5396に進み、ここでは強度がゼロよりも大きい画素に関してビットマスクが同時に元の群間画像から作り出される。次いで本方法は別の続行末端(「末端AM3」)へと続く。
【0075】
末端AM3(図5S−20)から、ブロック5398において例えば2などの適切な半径を備えたダイヤモンド形状の構造素子を使用して形態学的オープン操作がビットマスクに対して実行される。ブロック5400において、本方法は大きい連続的領域が除去された群間画像を平滑化するための末端AH1とAG3との間の工程を開始する。以下の技法はラプラス変換によって検出されるエッジ間の負の値として表わされるアーチファクトを得るためにラプラス変換を使用する。これらのアーチファクトはピークを含めた関心対象の見込まれる生物学的特徴の領域を位置特定するために使用される。ピークの頂点付近にあって関心対象の見込まれる生物学的特徴を位置特定する能力を不明瞭にしかねないノイズを避けるためにラプラス変換がガウス変換と併せて使用される。工程5398でオープン操作を受けたビットマスクが平滑化された群間画像に適用されることで前LoG(ガウシアンのラプラシアン(Laplacian of a Gaussian))画像を作り出す。ブロック5402参照。方法5000は別の続行末端(「末端AO1」)に進み、ブロック5404にさらに進み、ここでは本方法はガウス関数カーネルの適切な放射状ラプラシアン(1または2のσを備えた7×7カーネルなど)を作り出す。ブロック5406において、本方法はまたm/z次元でガウス関数カーネルの適切な線形ラプラシアン(1または2のσを備えた7×7など)も作り出す。ブロック5408において、負の値の第1のマスクを作り出すために前LoG画像が放射状LoGカーネルと重畳される。次いで本方法は別の続行末端(「末端AO2」)へと続く。
【0076】
末端AO2(図5S−21)から、負の値の第2のマスクを作り出すためにブロック5410において前LoG画像が線形LoGカーネルと重畳される。ブロック5412において、スポットのマスクを作り出すために第1と第2のマスクが交差させられる(掛け算される、または論理的に「AND処理される」)。次いで本方法は別の続行末端(「末端AM4」)へと続き、さらにブロック5416に進み、ここでは本方法は大きい連続的領域が除去された群間画像を反転させる。ブロック5418において、ウォーターシェッド流域間の線を見つけるために本方法は反転された画像にウォーターシェッド変換を実行する。ウォーターシェッド変換は前にガウス変換のラプラシアンによって分離されなかったピークなどの融合した生物学的特徴を別々に分割するのに役立つ。ブロック5420において本方法はウォーターシェッド流域間の線に基づいてビットマスクを作り出す。本方法は別の続行末端(「末端AM5」)に進む。
【0077】
末端AM5(図5S−22)から、方法5000はブロック5422においてウォーターシェッド線ビットマスクを反転させる。ブロック5424において、特徴のマスクを作り出すために本方法はウォーターシェッド線ビットマスクとスポットのマスクを交差させる(または掛け算する、または論理的に「終了させる」)。ブロック5426において、範囲2、1のボックス構造素子を使用して二次元の形態学的オープン操作が特徴のマスクに対して実行される。ブロック5428において、本方法は関心対象のピークおよび他の特徴を識別するために次の段階で使用される合成画像および特徴のマスクを作り出す。次いで本方法は末端Bに進む。
【0078】
末端B(図5A−1)から、方法5000は続行末端(「末端C」)と別の続行末端(「末端D」)との間に規定される方法工程のセット5004に進む。方法工程のセット5004はピーク、同位体群、および荷電群を含めた画像特徴を抽出する。
【0079】
末端C(図5T)から、方法5000は画像特徴に関してiのm/z値とjの時間点の強度としてxi,jを規定する。ブロック5430参照。ブロック5432において、本方法は画像特徴の最大強度としてピーク強度を規定する。ブロック5434において、本方法は合成画像の上に(複数の格子横列と格子縦列を備えた)格子を重ね合わせる。次いで本方法は別の続行末端(「末端C1」)へと続く。
【0080】
末端C1(図5U)から、方法5000はブロック5436において様々な特徴の境界を算出する。ブロック5438において、本方法は他の特徴パラメータを算出する。次いで本方法は別の続行末端(「末端C2」)へと続く。
【0081】
末端C2(図5V)から、方法5000は非ゼロ画素などのある値の関連した複数画素を検索することによって合成画像内でピークを抽出する。ブロック5440参照。判定ブロック5442において、ピークが見つけられたかどうか判定するための検定が実行される。判定ブロック5442の検定に対する答えがNOであれば本方法は別の続行末端(「末端C3」)へと続き、ブロック5440へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。判定ブロック5442の検定に対する答えがYESであれば本方法はブロック5444へと続き、ここでは本方法は見つけられたピークを指数などの特有の指示子でラベリングする。本方法は判定ブロック5446に進み、ここではさらに多くの関連した非ゼロ画素があるかどうか判定するための別の検定が実行される。判定ブロック5446の検定に対する答えがYESであれば本方法は末端C3に進み、ブロック5440へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5446の検定に対する答えはNOであり、本方法は別の続行末端(「末端C4」)へと続く。
【0082】
末端C4(図5W)から、方法5000はブロック5448においてm/z方向で重なり合ったピークの解析を開始する。ブロック5450において、本方法は格子横列(m/z方向)のすべてのピークのピーク強度中央値を計算する。ブロック5452において、本方法はピーク強度中央値よりも高いピーク強度を有する格子横列内ピークである高い格子横列ピークを計算する。ブロック5454において本方法は高い格子横列ピークのm/z幅中央値およびその偏差に基づいて(重なり合うピークを区切る)幅閾値を計算する。ブロック5456において、本方法はピークm/zの重心の幅を計算する。ピークの重心の幅が幅閾値以上であるかどうか判定するための検定が判定ブロック5458において実行される。判定ブロック5458の検定に対する答えがNOであれば本方法は別の続行末端(「末端C5」)に進む。そうでない場合、判定ブロック5458の検定に対する答えはYESであり、本方法は別の続行末端(「末端C15」)に進む。
【0083】
末端C5(図5X)から、方法5000は判定ブロック5460に進み、ここでは格子横列内のすべてのピークが解析されたかどうか判定するための検定が実行される。判定ブロック5460の検定に対する答えがNOであれば方法5000はブロック5462に進み、ここでは本方法は重なり解析のために格子横列の中の他のピークを選択する。次いで本方法は別の続行末端(「末端C6」)へと続き、一巡してブロック5456(図5W)に戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5460の検定に対する答えはYESであり、本方法は判定ブロック5464に進み、ここではすべての格子横列が解析されたかどうか判定するための別の検定が実行される。判定ブロック5464の検定に対する答えがNOであれば本方法はブロック5468に進み、ここでは本方法は重なり解析のために別の格子横列を選択する。次いで本方法は別の続行末端(「末端C7」)に進み、スキップしてブロック5450へと戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5464の検定に対する答えはYESであり、本方法は別の続行末端(「末端C11」)に進む。
【0084】
末端C15(図5Y)から、方法5000は判定ブロック5470に進み、ここでは本方法が高いコントラストの分割を実行しているかどうか判定するための検定が実行される。判定ブロック5470の検定に対する答えがYESであれば本方法は別の続行末端(「末端C8」)に進む。そうでない場合、判定ブロック5470の検定に対する答えはNOであり、本方法はブロック5472に進み、ここでは本方法は低いコントラストの分割を実行し始める。次いで本方法は別の続行末端(「末端C17」)へと続く。
【0085】
末端C8(図5Z)から、方法5000はブロック5474に進み、ここでは本方法は重なり合うピークの高いコントラストの分割を始める。ブロック5476において、本方法は重なり合うピークを記述する点の配列(x1,x2,...,xn)を入手し、各々の点は対応する強度を備えている。十分な数(例えば4つ)の分割するべき点があるかどうか判定するための検定が判定ブロック5478において実行される。判定ブロック5478の検定に対する答えがNOであれば方法5000は別の続行末端(「末端C10」)に進む。そうでない場合、判定ブロック5478の検定に対する答えはYESであり、本方法はブロック5480に進み、ここでは本方法は2つの直ぐ隣りの接近点よりも低い強度を備えた点である配列内の落ち込みを見つける。ブロック5482において、本方法はコントラスト閾値(例えば0.1などといったコントラストレベルと配列の最大強度との積)を計算する。次いで本方法は別の続行末端(「末端C9」)へと続く。
【0086】
末端C9(図5A−2)から、方法5000は判定ブロック5484に進み、ここでは落ち込みのうちの1つがコントラスト閾値よりも小さい強度を有するかどうか判定するための検定が実行される。判定ブロック5484の検定に対する答えがNOであれば本方法は末端C10に進む。そうでない場合、判定ブロック5484の検定に対する答えはYESであり、本方法はブロック5486に進み、ここでは重なり合うピークは高いコントラストであって分割可能である。ブロック5488において、本方法は閾値(例えば配列の標準偏差と最大値との積)よりも小さい強度を備えた点のすべての関連したセットを見つける。本方法はブロック5490において複数の点の関連したセット内の最小落ち込み(または多くある場合には第1の最小落ち込み)を見つける。ブロック5492において、本方法は重なり合うピークを最小落ち込みの点において分割する。ブロック5494において、本方法は特有の指示子で分割ピークをラベリングし、原初の特有の指示子がピークのうちの一方に再使用される。本方法は末端C10に進む。
【0087】
末端C10(図5A−3)から、方法5000は判定ブロック5496に進み、ここでは本方法がm/z方向で解析しているかどうか判定するための検定が実行される。判定ブロック5496の検定に対する答えがYESであれば本方法は末端C5に進み、スキップして判定ブロック5460へと戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5496の検定に対する答えはNOであり、本方法は別の続行末端(「末端C14」)に進む。末端C11(図5A−3)から、方法5000はブロック5498に進み、ここでは本方法は保持時間方向で重なり合うピークの解析を開始する。ブロック5500において、本方法は合成画像内のすべてのピークのピーク強度中央値を計算する。ブロック5502において本方法は、ピーク強度中央値よりも高いピーク強度を有するピークである高ピークを計算する。次いで本方法は別の続行末端(「末端C12」)へと続く。
【0088】
末端C12(図5A−4)から、方法5000は偏差期間内のすべての高ピークの時間幅中央値に基づいて(重なり合うピークを区切る)幅閾値を計算する。ブロック5504参照。ブロック5506において、本方法は高ピークに関してピーク時間の重心の幅を計算する。本方法は判定ブロック5508に進み、ここではピークの重心の幅が幅閾値以上であるかどうか判定するための検定が実行される。判定ブロック5508の検定に対する答えがYESであれば本方法は末端C15に進み、スキップして判定ブロック5470へと戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5508の検定に対する答えはNOであり、本方法は別の続行末端(「末端C14」)に進む。
【0089】
末端C14(図5A−5)から、方法5000は判定ブロック5510に進み、ここではすべての高ピークが解析されたかどうか判定するための検定が実行される。判定ブロック5510の検定に対する答えがNOであれば方法5000は別の続行末端(「末端C13」)に進み、スキップしてブロック5506へと戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5510の検定に対する答えはYESであり、本方法は判定ブロック5512に進み、ここでは重なり解析が繰り返されるべきかどうか判定するための他の検定が実行される。判定ブロック5512の検定に対する答えがYESであれば本方法は末端C4に進み、スキップして判定ブロック5448(図5W)へと戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5512の検定に対する答えはNOであり、本方法は別の続行末端(「末端C20」)に進む。
【0090】
末端C17(図5A−6)から、方法5000はブロック5514においてガウス関数を使用して重なり合うピークをモデル化する。ブロック5516において、複数のガウス関数の最良適合を見出すために最適化処理が重なり合うピークに適用される。ブロック5518において、完全に重なり合って分割不可能である場合の推定については仮説は構成されない。ブロック5520において、仮説のない確率が真であるかどうか判定するためにp値が供給される。p値が閾値よりも小さいかどうか判定するための検定が判定ブロック5522において実行される。判定ブロック5522の検定に対する答えがNOであれば本方法はブロック5524に進み、ここでは帰無仮説が真であり、ピークは分割不可能である。方法5000は末端C10へと続き、一巡して判定ブロック5496へと戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5522の検定に対する答えはYESであり、本方法は別の続行末端(「末端C18」)に進む。
【0091】
末端C18(図5A−7)から、方法5000は判定ブロック5526に進み、ここでは帰無仮説は拒絶され、ピークは分割可能である。ブロック5528において、本方法は重なり合いまたは結合の場所を判定するためにガウス関数を使用する。本法はまた、各々の個別ピークから重なり合うかまたは結合したピークへの強度の寄与もブロック5530において判定する。重なり合いの場所で分割が起こるはずであるかどうか判定するための検定がブロック5532において実行される。判定ブロック5532の検定に対する答えがNOであれば本方法は別の続行末端(「末端C19」)に進む。そうでない場合、判定ブロック5532の検定に対する答えはYESであり、本方法はガウス関数によって判定された場所を使用してブロック5534においてピークを分割する。ブロック5536において、本方法は分割されたピークを特有の指示子でラベリングし、原初の特有の指示子がピークのうちの一方に再使用される。次いで本方法は末端C10へと続き、一巡して判定ブロック5496へと戻り、上記で特定された処理工程が繰り返される。
【0092】
末端C19(図5A−8)から、方法5000は特に広い幅を備えたピークの曲線の下の面積または表面の下の体積を使用してブロック5538において合計強度を判定する。ブロック5540において、本方法は特に広い幅を備えたピークの中の各々のピークの強度割合を計算する。本方法はこれらのピークの下の面積の比に基づいた割合強度を使用してブロック5542においてピークを分割する。ブロック5544において、本方法は分割されたピークを特有の指示子でラベリングし、原初の特有の指示子がピークのうちの一方に再使用される。次いで本方法は末端C10へと続き、一巡して判定ブロック5496へと戻り、上記で特定された処理工程が繰り返される。末端C20(図5A−8)から、本方法はブロック5546に進み、ここでは本方法は過度に幅広の時間のピークを整える。次いで本方法は別の続行末端(「末端C21」)に進む。
【0093】
末端C21(図5A−9)から、方法5000は理想ピークに関してクロマトグラムモデルを作成するためにブロック5548において修正マクスウェル分布関数などのモデルを使用する。ブロック5550において、本方法は合成画像からのピークに対する近似的整合を得るようにモデルのパラメータを調節する。本方法はピークに関して整合がどの程度優れているか判定するピーク時間の点数をブロック5552において作り出す(完全な整合については点数は1であり、ノイズの多いピークについては点数は0に向かう傾向を有する)。ブロック5554において、本方法は様々な他の時間特徴特性を計算する。判定ブロック5556において検定が実行され、ここではすべてのピークが特徴付けられたかどうか判定される。判定ブロック5556の検定に対する答えがYESであれば本方法は別の続行末端(「末端C22」)に進む。判定ブロック5556の検定に対する答えがNOであれば本方法は末端C21に進み、ブロック5548へとスキップして戻り、上記で特定された処理工程が繰り返される。
【0094】
末端C22(図5A−10)から、方法5000はガウス分布関数などのモデルを使用してm/z方向のピークの特性を判定するためにブロック5558においてモデルを作成する。ブロック5560において、本方法は合成画像からのピークに対する近似的整合を得るようにモデルのパラメータを調節することでモデルを修正する。本方法はスペクトルピークの品質を判定するためにブロック5562においてm/zピークの点数を作り出す(ピークが汚染されていないときに点数は1であり、汚染されたピークについては点数は0に向かう傾向を有する)。ブロック5564において本方法は様々な他のm/z特徴特性を計算する。すべてのピークが特徴付けられたかどうか判定するための検定が判定ブロック5566において実行される。判定ブロック5566の検定に対する答えがYESであれば本方法は別の続行末端(「末端C23」)へと続く。
【0095】
判定ブロック5566の検定に対する答えがNOであれば本方法は末端C22に進み、ブロック5558へとスキップして戻り、上記で特定された処理工程が繰り返される。末端C23(図5A−11)から、方法5000はブロック5568に進み、ここでは本方法は保持時間方向の強度(RT)、m/z方向の強度(RM)、および時間の点数(RS)によってすべてのピークをランク付けする。ブロック5570において、本方法はR=RS+(RT+RM)/2などといった適切な式を使用して総合的なランクを計算する。最大のR点数を備えた特徴が1番目に記載され、2番目に大きいR点数が2番目に記載されるなどのように本方法はブロック5572において総合的なランクの順序を組み直す。ブロック5574において、同位体群を見つけるために本方法は総合的なランクで1番目に記載されたピークである種ピークを選択する。本方法はブロック5576においてピークモデルを使用して荷電点数を計算すること、および最高の荷電点数を備えた荷電を選択することによって種ピークの荷電を見出すことを試みる。ブロック5578において、本方法は低いm/z方向に向かって同位体ピークを探す。次いで本方法は別の続行末端(「末端C24」)に進む。
【0096】
末端C24(図5A−12)から、方法5000は判定ブロック5580に進み、ここでは本方法が検索のm/z方向を切り換えるべきかどうか判定するための検定が実行される。判定ブロック5580の検定に対する答えがYESであれば本方法は種ピークのm/z位置よりも高いm/zレベルを検索するために正の同位体番号(K)を繰り返すことによってブロック5582において同位体ピークを探す。次いで本方法は別の続行末端(「末端C25」)へと続く。そうでない場合、判定ブロック5580の検定に対する答えはNOであり、本方法はブロック5584に進み、ここでは本方法は種ピークのm/z位置よりも低いm/zレベルを検索するために負の同位体番号(K)を繰り返すことによって同位体ピークを探す。本方法は末端25へと続き、さらにブロック5586に進み、ここでは本方法は同位体ピークを検索するための同位体領域の幅を種ピークの時間幅と同等と見なす。本方法はブロック5588において種ピークの重心の幅、同位体番号(K)、中性子質量、および荷電に基づいて同位体の中心領域を規定する。本方法はブロック5590において種ピークの定数および格子調節されたm/z幅に基づいて同位体領域の高さを規定する。本方法は別の続行末端(「末端C26」)に進む。
【0097】
末端C26(図5A−13)から、方法5000は判定ブロック5592に進み、ここでは本方法がすべての方向で同位体ピークを検索したかどうか判定するための検定が実行される。判定ブロック5592の検定に対する答えがYESであれば本方法は別の続行末端(「末端C30」)に進む。判定ブロック5592の検定に対する答えがNOであれば本方法はブロック5594に進み、ここでは本方法は同位体領域の中で同位体番号(K)によって識別される同位体位置の候補ピークを見つける。ブロック5596において本方法は同位体強度、種同位体強度、これまでに計算された最大同位体強度、および先行する同位体の同位体強度に基づいて商を計算する。判定ブロック5598において検定が実行され、ここでは候補ピークの強度が受容可能であることを商が示すかどうか判定される。判定ブロック5598の検定に対する答えがNOであれば本方法は末端C24に進み、一巡して判定ブロック5580へと戻り、上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5598の検定に対する答えはYESであり、本方法は別の続行末端(「末端C27」)に進む。
【0098】
末端C27(図5A−14)から、候補のピークが同位体のm/zの強度/形状モデルおよび同位体の時間の強度/形状モデルと完全に整合する単純な位置に関してブロック5560において帰無仮説が構築される。候補のピークが同位体群の一部として受容され得るか拒絶されるか判断するためにブロック5602においてm/z方向と時間方向の両方でp値が供給される。時間方向は保持時間方向である。ブロック5604において、本方法はガウス関数を使用して候補のピークを同位体モデルと比較する。候補のピークのp値が受容閾値よりも大きいかどうか判定するための検定が判定ブロック5606において実行される。判定ブロック5606の検定に対する答えがYESであれば本方法はブロック5608に進み、ここでは候補のピークが特定の同位体群で識別する特有の指示子でラベリングされる。次いで本方法は別の続行末端(「末端C28」)へと続く。そうでない場合、判定ブロック5606の検定に対する答えはNOであり、本方法は別の続行末端(「末端C29」)に進む。
【0099】
末端C28(図5A−15)から、方法5000はブロック5610に進み、ここでは帰無仮説は真であり、候補のピークはその構成要素が種ピークである同位体群に属する。候補のピークはブロック5612においてランク付けから除外される。次いで本方法は末端C24へと続き、一巡して判定ブロック5580へと戻り、ここでは本方法は上記で検討された処理工程を実行するように進行する。末端C29(図5A−15)から、p値が拒絶閾値よりも小さいかどうか判定するための検定が実行される判定ブロック5614が実行される。判定ブロック5614の検定に対する答えがNOであれば本方法はブロック5616へと続き、ここでは候補のピークは後に他の同位体群が発見されたピークを主張することもあり得るケースでは本方法によって保留状態に置かれる。次いで本方法は末端C24へと続き、判定ブロック5580へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5614の検定に対する答えはYESであり、本方法はブロック5618に進み、ここでは発見されたピークは同位体群の構成要素ではない。次いで本方法は末端C24へと続き、判定ブロック5580へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。
【0100】
末端C30(図5A−16)から、方法5000はブロック5620において同位体群を特有の指示子でラベリングする。ブロック5622において、他の同位体群のピークおよび荷電の発見を妨害しないように本方法は種ピークをランク付けから除外する。判定ブロック5624において検定が実行され、ここでは解析されるべきさらに多くの種ピークがあるかどうか判定される。判定ブロック5624の検定に対する答えがYESであれば方法5000は別の続行末端(「末端C31」)に進む。そうでない場合、判定ブロック5624の検定に対する答えはNOであり、本方法はブロック5626に進み、ここでは本方法は複数の同位体群に属するピークを有する同位体群を除外する。次いで本方法は別の続行末端(「末端C32」)へと続く。
【0101】
末端C32(図5A−17)から、方法5000は判定ブロック5628に進み、ここでは本方法が単一の同位体を検出するかどうか判定するための検定が実行される。判定ブロック5628の検定に対する答えがNOであれば本方法は別の続行末端(「末端C33」)に進む。そうでない場合、判定ブロック5628の検定に対する答えはYESであり、本方法はブロック5630に進み、ここでは本方法は同位体群の質量を計算し始める。同位体群の質量は荷電(G)、陽子質量、および最も下の検出同位体の中の第1のピークのm/z強度の重心に基づく積である。ブロック5632参照。次いで本方法は別の続行末端(「末端C39」)へと続く。
【0102】
末端C33(図5A−18)から、方法5000は最も下の同位体位置のピークの最も下のm/z強度の重心を使用することによって最初に質量を推定する。ブロック5634参照。ブロック5636において、本方法は各々の同位体の中のピークの最大のモデルRT強度を使用することによって観測される分布を計算する。本方法はブロック5638において理論的同位体分布を観測される同位体分布と比較し、最良整合が見つけられるまでそれらを変位させ、結果として整数偏位につながる。同位体群の質量はこの整数偏位を使用して再計算される。ブロック5640参照。次いで本方法は末端C39へと続き、さらに判定ブロック5642に進み、ここでは解析されるべきさらに多くの同位体群があるかどうか判定するための検定が実行される。判定ブロック5642の検定に対する答えがNOであれば本方法は別の続行末端(「末端C34」)に進む。そうでない場合、判定ブロック5642の検定に対する答えはYESであり、本方法は末端C32に進み、判定ブロック5628へとスキップして戻り、上記で特定された処理工程が繰り返される。
【0103】
末端C33(図5A−19)から、方法5000は同じ質量と保持時間を有するが異なる荷電状態を有する同位体群のセットである荷電群を見つけ始める。ブロック5644参照。ブロック5646において、本方法は単一の同位体ピークを備えた同位体群を発見処理から除外する。本方法は同位体群内のすべてのピークに関する平均RT点数のランクと同位体群内のすべてのピークの最大ピーク強度のランクの和である総合的ランク(R)をブロック5648において計算する。ブロック5650において、総合的ランクが各々の同位体群について作り出され、高い点数を有する同位体群が1番目にランク付けされて順序を決められる。ブロック5652において、種同位体群(種)が選択される。ブロック5654において境界が画定され、境界の中には種から由来する質量の単位に基づき、かつ種のRTの重心から由来する時間のある単位の中にある候補の同位体群がある。ブロック5656において、検査のために候補の同位体群が選択される。次いで本方法は別の続行末端(「末端C34」)へと続く。
【0104】
末端C34(図5A−20)から、2つの同位体群が同位体群の重心モデル、同位体群のRT強度の重心モデルに基づいて同じ群に属するという仮定についてブロック5658において帰無仮説が構築される。ブロック5660において、同位体群が荷電群の一部として受容され得るか拒絶されるか評価するためにp値が供給される。ブロック5662において本方法はガウス関数を使用して候補の同位体群をモデルと比較する。候補の同位体群のp値が閾値よりも大きいかどうか判定するための検定が判定ブロック5664において実行される。判定ブロック5664の検定に対する答えがNOであれば本方法は別の続行末端(「末端C35」)に進む。そうでない場合、判定ブロック5664の検定に対する答えはYESであり、本方法はブロック5666に進み、ここでは帰無仮説は真であり、候補の同位体群はその構成要素が種同位体群である荷電群に属する。本方法はブロック5668に進み、ここでは候補の同位体群がランク付けから除外される。次いで方法5000は末端C35に進む。
【0105】
末端C35(図5A−21)から、方法5000は判定ブロック5670に進み、ここでは考察するべきさらに多くの候補同位体群があるかどうか判定するための検定が実行される。判定ブロック5670の検定に対する答えがYESであれば本方法は別の続行末端(「末端C37」)に進み、ブロック5656へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5670の検定に対する答えはNOであり、本方法はブロック5672に進み、ここでは種がランク付けから除外される。判定ブロック5674において別の検定が実行され、ここでは考察するべき他の種同位体群があるかどうか判定される。判定ブロック5674の検定に対する答えがYESであれば本方法は別の続行末端(「末端C36」)に進み、ブロック5652へとスキップして戻り、ここでは上記で特定された処理工程が繰り返される。そうでない場合、判定ブロック5674の検定に対する答えはNOであり、本方法は末端Dに進む。
【0106】
末端D(図5A−1)から、方法5000は続行末端(「末端E」)と別の末端(「末端F」)との間に規定される方法工程のセット5006に進む。方法工程のセット5006は生物試料中の関心対象の実例の一覧表を作り出すための発現統計値の解析を述べている。
【0107】
末端E(図5A−22)から、方法5000はブロック5676に進み、ここでは本方法は発現特性を計算する。本方法はブロック5678において3つの集大成レベル(ピーク、同位体群、および電荷群)ですべての条件におけるすべての複製の発現プロファイルを作り出す。本方法はブロック5680において誤差モデルを計算する。ブロック5682において、本方法はピークの絞り込みを実行する。本方法はブロック5684においてすべての実例の特徴とそれらの特性の一覧表を作り出す。ブロック5686において、本方法は並列の質量分析処理を使用して配列決定を実行する。次いで本方法は末端Fへと続き、実行を終了する。
【0108】
ここで、生物試料中の関心対象の特徴を識別するための様々な技法の中への数学的基礎が検討される。図5B−5Uは画像レジストレーションに基づいた保持時間の調整および時間の歪曲に関する方法工程を例示している。ピークなどの画像特徴に関すると、LC/MS画像におけるピークの保持時間は繰り返される運転でしばしばわずかに変わる。多様な処理の中で生物学的特徴判定を定量的に比較するために、様々な実施形態における保持時間の変動は同じ生物学的特徴から由来するピークが複数の運転全体にわたって適切に調整させられるように補正されなければならない。
【0109】
本発明の様々な実施形態における時間調整と偏位補正の方法はピーク抽出に頼らなくてもよい。画像レジストレーションに基づいてもよい。画像レジストレーション法は必ずしも抽出される必要のない画像内容における類似性に基づいて画像を整合させて調整させる。図5B−5Uに例示された方法工程は保持時間の偏位を補正するように画像レジストレーションを適用する。各々のLC/MS画像は小さい格子の中に切り取られる。各々の格子の中の小さい矩形画像断片を保持時間方向または他の方向で変位させることによって、図5B−5Uに例示された方法工程は選択されたマスター画像への断片の整合を検索して見つけ出す。原初の場所から最良整合の場所への変位は所定の保持時間領域に関して1つの偏位推定を提供する。本方法工程はその時間の格子からすべての偏位推定を考察することによってその時間に関するさらに信頼性のある偏位推定を導き出すように続く。次いで本方法工程は複数の偏位推定を使用して滑らかな時間偏位推定曲線を構築する。
【0110】
図5B−5Uに例示された方法工程はある群もしくは条件の中の複製全体にわたる調整不良もしくは偏位、またはある群もしくは条件全体にわたる組合せの群画像と関連する調整不良を推定するために多様な補正係数技法を使用する様々な実施形態を検討しているが、いくつかの実施形態は以下のように2つの部分窓の間の絶対差の最小値の技法を使用して調整不良または偏位を推定する。保持時間のわずかな揺れまたはドリフトは試料間で識別されることが可能な分子イオンの数を限定することが可能である。様々な実施形態の方法工程が下記で検討されるようにラスタ化LC/MSフィルタ処理画像データに調整を適用する。
【0111】
画像レジストレーションに基づく保持時間の調整がここで述べられるように実行される。LC/MS測定において、最新のMS機器で測定される荷電測定(m/z)全体にわたる質量の精度と再現性の両方が、LC機器のみから由来する保持時間での精度と再現性よりもはるかに優れている。ペプチドなどの所定の生物学的特徴に関すると、LC/MS画像内の代表的なピークの保持時間は繰り返される運転(複製)でしばしばわずかに変わるであろう。多様な処理全体にわたってペプチド測定を比較するために、同じペプチドから由来するピークが複数の運転全体にわたって適切に調整することができるように考え得る保持時間の変位を識別して補正することが望ましい。いくつかの実施形態における時間の調整および変位の補正はピーク抽出に頼る必要がなく、代わりに画像レジストレーションに頼る。画像レジストレーション法は画像自体の類似性に基づいて画像を整合および調整させる。これらの画像特性が抽出される必要はない。様々な実施形態は、後にピークの抽出と識別に助力するように使用されることが可能な時間調整のさらに良好な感触を得るために窓内の画素全体および二次元の整合を観察する。
【0112】
このようにして、保持時間の偏位を補正するために画像レジストレーションが使用される。様々な実施形態における方法工程が矩形格子を規定する小さい窓の中に各々のLC/MS画像を切り取る。格子の小さい矩形画像断片を保持時間方向で変位させることによって、本方法工程は選択されたマスター画像への断片の最良整合を検索して見つけ出す。原初の場所から最良整合を与える場所への変位は所定の保持時間の偏位に関する推定を提供する。本方法工程は特定の時間範囲の質量/荷電の窓およびすべての利用可能な質量/荷電の値の縦列の上下から得られる偏位推定を考慮することによって変位推定を導き出す。滑らかな時間偏位推定曲線は多様な連続的時間領域に関して複数の偏位推定を遡ることによって計算される。推定された偏位を考慮に入れた後に(未加工データから出発する)LC/MS画像の各々を再生するために下記で検討されるような画像のラスタ化および補間方法が使用される。この処理は歪曲である。歪められた画像がおそらく適切に調整させられる。
【0113】
さらに特定すると、偏位の計算は以下のように起こる。方法工程がすべてのスライドの中からマスターを選択する。このマスタースライドは調整の対照のスライドである。多数の明確な特徴を有するこのスライドを有すること、すなわち高いコントラストを有することが望ましい。この基準スライドは最初にスライドに関して基準ピーク強度(BPI)を計算し、次いでこの測定値に関して標準偏差を計算することによって選択される。BPIにおいて最も高い標準偏差を備えたスライドがこの群のためのマスタースライドになる。基準ピーク強度は各々の時間点に関する最も高い強度値のことを称する。本質的に、これは保持時間に対するすべての質量/荷電の測定の二次元の要約を供給し、したがってクロマトグラムである。
【0114】
次に、本方法工程は画像を格子化する。マスターに対して調整させられる各々のスライドは最初に所定の幅の(重複しない)時間の縦列の中に分割される。次いで各々の縦列が重複しない質量/荷電部分窓の中にさらに分割される。各々の時間縦列に関して数個から多数個の部分窓を有することによって、本方法工程は構成要素部分窓の各々に関する個々の推定量を質量/荷電方向で組み合わせることで縦列に関して最終調整を推定することが可能であり、すなわち1つの縦列に関するすべての推定量はその縦列に関する変位の複製推定量と考えられる。
【0115】
次に、本方法工程は部分窓を整合させることを試みる。本方法工程はクエリーの画像(マスター)の各々の部分窓をターゲット画像に対して滑動させる(この滑動はマスターに対して調整させられる)。最良の変位であり得る場所を判定するために本方法工程はこれを一度に1画素、実際のサンプリング時間調整から左と右に行う。この滑動は一度に1画素でなくてもよく、粗検索の方式と同様の方式で為されることもやはり可能である。本方法工程が各々の方向に滑動させる画素の合計数は感知されるデータの精度によって決まるであろう。検索間隔が大きくなるにつれて、調整は一層計算上難しい要求になるであろう。調整のサンプリング時間の−3分から+3分などといった適切な時間枠の中で検索窓を網羅する程度の多くの画素を滑動させることが殆どのケースで十分である。そうでないケースでは、滑動を整合に近付けるためにBPIに基づいた事前変位調整が為されることもあり得る。比較される2つの部分画像間の最良整合を与える滑動点を判定するために、本方法工程はクエリー部分窓内の画素について画素強度間の絶対差の平均を計算する。計算をこれらの画素のみに限定することが重要であり、なぜならば画素の数は類似性の測定基準に影響を与え、かつ計算のための画素の数を変えることは付加的な偏りを計算の中に導入するからである。したがって、2つの部分窓の間の距離は各々の変位jについて以下のように計算され、これがt0−3とt0+3との間の時間、またはあるべき検索窓を決定するいずれかの他の幅へと形を変え、出願人らは画素の絶対差
【数1】
によって画素の平均を計算し、クエリー画像部分窓(Q)のi番目の画素の強度のある場所、および画像を現在の(時間t0における)試料調整の左および右にj画素変位させた後の相当する場所を計算する。結果として得られる差異の配列は比較される部分画像について最良整合がある最小値に到達するであろう。ノイズを除去した形態学的フィルタの以前の適用はこの最小値の発見の機会を増進することができる。部分窓に関して信頼性のある推定がないとこの最小値が存在しないことも見込まれ、様々な実施形態は下記で検討される誤差モデルを使用して絶対差に関する誤差の推定量を計算する。マスターを作り、したがってクエリー窓が高いコントラストを有することによって、差異は下方向で、または谷状の形状で現れると思われる。しかしながら時々、ターゲットの部分画像はクエリーの部分画像よりも強い特徴を有し、絶対差の平均を取ることは上への上昇を引き起こしかねず、これは下記で述べられる低頻度法を使用した最小値の判定を不明瞭にする。これらの稀なケースでは、差異の計算は逆にされ、本方法工程は代わりに同じ方式であるがターゲットの画素から引き算されたクエリー画素で規定される距離を最小化しようと試みる。
【0116】
次に、本方法工程は画素の絶対差の各々に関する誤差について推定量を計算する。この標準誤差概算は以下のように計算され、
【数2】
式中、
【数3】
はクエリーの部分画像(Q)およびクエリー内の画素に関するターゲットの部分画像(T)内の画素の各々に関する分散の和であり、NQはクエリーの部分窓内の画素の数である。次に、本方法工程は推定をブートストラップする。本方法工程が調整させている各々の部分窓について、本方法工程はマスターに対する差異に関する推定量に加えてこれらの差異の標準誤差の推定量を有する。ここで本方法工程は差異
【数4】
の1つの曲線の最小値を取り、これを整合と呼ぶ。しかしながら、この推定量がどの程度優れているかの測定を有することが望ましい。整合を与える時間変位の推定を洗練し、かつ誤差情報をもたらすために本方法工程はブートストラッピング技法を使用する。すなわち、差異の無作為の試料を作り出すために平均の絶対差付近で標準誤差が使用され、これらの試料の各々について本方法工程は整合につながる変位、すなわち部分窓間の差異を最小にする変位を見つけ出す。
【0117】
次に、本方法工程は逆ガウス関数を適合させることを試みる。2つの部分窓の間の絶対差の最小によって示される整合を見つけ出すために、本方法工程は窓の中の低頻度の変化を考慮する。したがって、最小差異を見つけ出すために本方法工程は作り出された無作為試料の各々に逆ガウス関数として形作られる谷状の関数を適合させ、ガウス関数適合の最小を見つけ出す。次いで部分窓に関する理想的な変位がすべてのブートストラップ推定量の中央値として計算される。対応する加重がすべてのブートストラップ推定量の絶対偏差中央値(MAD)、すなわち中央値からの偏差の中央値として計算される。ここでは数学的処理
【数5】
がある。
【0118】
次に、本方法工程は加重された平均を縦列に関して計算する。縦列の変位shiftcolの不偏最小分散推定量(UMVE)がここで以下
【数6】
のように部分窓の変位と加重の対(Yk,wk)を使用して計算されることが可能である。これが不偏で最小の分散であることを保証するために、加重wkは各々の窓に関する分散推定量の逆数、すなわち
【数7】
として規定される。
【0119】
次に、本方法工程は外れ値の縦列推定量を平坦化する。縦列変位が隣りの変位から極端に異なり得るケースを避けるために、本方法工程は最終縦列変位にTukeyの双加重3点移動平均を通過させる。言い換えると、本方法工程は各々の変位を取り上げ、その隣りの縦列の変位を観察し、それらの間の偏差中央値に比例する方式で値を調節する。次に、本方法工程は三次スプラインを使用して補間する。個々の変位縦列に適合させられると三次スプラインは滑らかに変化する変換を計算するための推定を行い、これが未加工データに適用されることで調整させるであろう。時間方向で調整させるためにいったん滑らかな変換が決定されると、本方法工程はこの変換を実施し、したがってすべての試料を同期させることが可能である。
【0120】
本方法工程は条件間で調整させることを試みる。上記で述べられた同じ画像レジストレーションが条件間に適用される。群間複製画像に関して歪曲および(下記で述べられる)再ラスタ化が起こるとその後、これらは各々の画素に関して群内のすべての複製の平均を取ることによって組み合わされる。次いでこれらの組み合わされた画像は上記で述べられた同じ画像レジストレーション処理に通され、各々の条件に関して群間変位が計算される。未加工画像データに適用される最終変位は(もしもあれば)事前変位、時間内変位、および時間間変位の集合体であろう。
【0121】
次に、本方法工程は画像歪曲および再ラスタ化を実行する。上記で述べられた工程を通じて滑らかな時間指標変換が導き出されると、ここで本方法工程は未加工の画像に戻り、再ラスタ化するときに未加工データを補間する。新たなラスタ化が基本の特徴抽出および他の下流の解析に必要とされる。このときデータはそれらの原初のサンプリング時間を画像レジストレーションに基づく時間調整アルゴリズム(事前変位、群内および群間補正)によって規定される3つの集合体で変位させることを通じて補正することによってインデックスを付けられるであろう。新たな(ラスタ化された)データはデータポイントに関する補正された時間インデックスを使用して線形補間によって得られる。各々の格子点に関するデータが、隣接を決定する過程に新たに調節された時間インデックスを使用し、右および左に隣り合う点を使用して補間される。結果として得られるラスタ化画像はその最良調整に歪められ、すなわち時間調整計算結果が指示した事柄に応じて所定の位置に引き伸ばされ、または縮められる。それらの保持時間におけるいずれの不一致も除去されており、本方法工程は特徴の解析を伴って進行する準備ができている。
【0122】
調整不良または偏位がこれまでまたはこれ以降に検討される技法によって推定されるとその後、時間調整処理によって計算された推定偏位を考慮に入れた後に未加工データからLC/MS画像の各々を再生するために画像のラスタ化および補間が使用されることが可能である。これらの新たな画像はこれまでのいくつかの実施形態およびこれ以降の他の実施形態で説明されるように特徴抽出のために歪められ、かつ調整させられる。図5B−5Uに例示された本方法工程は様々な補間技法を使用することもあり得る。いくつかの実施形態では、この補間技法は二次元空間における線形補間に基づいている。補間される値は1つの次元で保持時間および別の次元で荷電上の質量(または質量/荷電)を含む二次元空間内の画像点の強度である。
【0123】
様々な実施形態において、1つの技法に基づく複製の群に関して入力の未加工データを多様な未加工の質量/荷電座標に基づいて同じ質量/荷電格子に変換するために質量/荷電補間処理が画像処理の最初に使用される。この質量/荷電補間処理は質量/荷電格子が規則的でないことを想定している。この質量/荷電補間処理への入力データは未加工の保持時間データの一次元アレイ、未加工の質量/荷電データの二次元アレイ、未加工の強度データの二次元アレイ、結果として得られる質量/荷電格子点を表わす一次元アレイを含む。この処理は未加工の保持時間と質量/荷電格子点に関して格子強度の二次元アレイを作り出す。さらに特定すると、この質量/荷電補間処理は以下の工程を含む。各々の質量/荷電格子点に関する左隣りと右隣りについて線形補間が実行される。どのような変化も伴わずに保持時間座標が維持される。距離閾値は使用されない。両方の隣接格子点が同じである場所で質量/荷電補間処理は補間を控える。
【0124】
いくつかの実施形態では、解析において高輝度ピーク情報が重要であり、かつ孤立した点が除外されなければならないとき、調整画像処理工程に先行して高速の保持時間補間処理が使用される。この高速の保持時間補間処理は保持時間格子が一定の保持段階を伴って規則的であることを想定している。この高速の保持時間補間処理への入力データは未加工の保持時間情報の一次元アレイ、前に作成された格子に属する質量/荷電情報の二次元アレイ、強度情報の二次元アレイ、保持時間格子段階、および補間距離閾値を含む。この高速の保持時間補間処理は保持時間と質量/荷電格子点に関して格子強度の二次元アレイを作り出す。さらに特定すると、この高速の保持時間補間処理の様々な工程は各々の保持時間格子点に関して左隣りと右隣りの距離に基づく線形補間を使用する工程を含む。どのような変化も伴わずに質量/荷電座標が維持される。格子点が特定の補間距離の内側で左隣りと右隣りを有さない場合、本処理は結果としてゼロの強度を作り出す。
【0125】
様々な実施形態において、保持時間方向の正確な補間のために適応保持時間補間処理が使用される。どのような変化も伴わずに質量/荷電座標が維持される。結果として生じる格子点は変位した入力の未加工保持座標に基づいている。結果として生じる強度情報は入力規模のベクトルに基づいて規模決定される。この適応保持時間補間処理への入力データは未加工の保持時間情報の一次元アレイ、前に作成された格子に属する質量/荷電情報の二次元アレイ、強度情報の二次元アレイ、保持時間格子段階、1つの主補間距離閾値、ソリッド補間距離閾値、小補間距離閾値、保持時間変位の一次元アレイ、および強度規模係数の一次元アレイを含む。この適応保持時間補間処理は保持時間と質量/荷電格子点に関して格子強度の二次元アレイを作り出す。この適応保持時間補間処理の工程は点が直ぐ隣りを有するかどうか判定するための最初の検定で始まる補間決定系統図によって要約されることが可能である。この最初の検定に対する答えがNOであればこの格子の値はゼロである。この最初の検定に対する答えがYESであればこの点が両側に隣りを有するかどうか判定するための第2の検定が実行される。第2の検定に対する答えがYESであれば本処理が線形補間を適用することで格子値を得る。そうでない場合、第2の検定に対する答えがNOであれば、この点が一方の側でソリッドであるかどうか判定するための第3の検定が実行される。第3の検定に対する答えがYESであれば本処理がゼロ代入で線形補間を適用する。第3の検定に対する答えがNOであれば、本処理はこの点が孤立した点であるかどうか判定するための第4の検定を実行する。第4の検定に対する答えがYESであれば本処理は孤立点の値を使用する。そうでない場合、第4の検定に対する答えはNOであり、格子の値はゼロであると判定される。さらに特定すると、この適応保持時間補間処理の工程は各々の保持時間格子点に関する左隣りと右隣りの距離に基づいた線形補間である。主補間距離の内側で隣り(直ぐ隣り)が見つけ出され、各々の未加工の保持時間座標に保持時間変位が適用される。格子点の一方の側に直ぐ隣りが1つあるのみである場合、本処理はこれがどのような種類の点であるか見出そうと試みる。ソリッド距離閾値の距離(いくつかの実施形態では主補間距離の約2倍)内で一方の側にさらに多くの点がある場合、結果となる強度は特定の法則に基づいて算出される。最初に、本処理はゼロ強度および最も近いソリッド点までの距離に等しい距離で直ぐ隣りと対称の位置を備えた新たな仮の未加工の点を作り出す。新たな仮の点が現在の保持格子点から別の側にあれば、格子強度値は直ぐ隣りと新たな仮の点の線形補間であり、そうでない場合、結果となる強度はゼロである。本処理のこの部分は画像ピーク境界をさらに滑らかにすることに役立つ。直ぐ隣りがソリッドでなければ、本処理は孤立点を補間すること(または大きくすること)を控える。このケースでは、本処理は小補間距離(主補間距離の半分)内に直ぐ隣りがあるかどうか観察するようにチェックしている。保持時間格子および未加工の点が小距離内にあれば、格子強度は未加工の強度に等しく設定される。そうでない場合、これはゼロに設定される。すべての結果的強度は、いくつかの実施形態では入力の規模係数を使用して規模を決められる。
【0126】
いくつかの実施形態では、保持時間方向で極端に長い画像ストライプを除外するために篩い分けフィルタ処理操作が実行される。この操作はビット単位であり、一度に画像全体で作用するように為されることが可能である。篩い分けフィルタ処理操作への入力データは画像強度の二次元ビットアレイ、保持時間ピーク長さ閾値、保持時間ギャップ長さ、および質量/電荷ギャップ長さを含む。この篩い分けフィルタ処理操作は画像強度の篩い分けされた二次元ビットアレイを作り出す。さらに特定すると、この篩い分けフィルタ処理操作の工程は保持時間方向および質量/荷電方向のギャップの除去を含む。本操作は4つの保持格子段階に等しい保持ギャップ長さおよび2つの質量/荷電格子段階に等しい質量/荷電ギャップ長さに基づいている。この除去は標準的な形態学的拡張フィルタによって実行される。ギャップの除去の後、保持時間ピーク長さ閾値よりも大きい保持時間長さを備えた質量/荷電ストライプを(例えば強度をゼロに設定することによって)除去するために新たな画像が保持時間方向でフィルタにかけられる。
【0127】
図5B−5Uに例示された方法工程はピーク特徴抽出のための合成画像を形成することにもやはり役立つ。特徴抽出のための一例の方法は画像調整の後に実行される。図5V−5Z、5A−2−5A−21参照。本方法は最初に各々の処理群の中の(利用可能であれば)複製を、複製全体にわたって画素強度を平均することによって組み合わせる。各々の処理群の組合せ画像は個々の複製の画像内の比よりも高い信号対ノイズ比を有する。次いで、本方法はすべての処理群からの組合せ画像を、各々の画素位置ですべての組合せ画像の中の最大強度を取り入れるなどといった様々な適切な技法によって1つの合成画像へと融合させる。
【0128】
これらの処理状態のうちのいずれか1つに生物学的特徴が存在する限り、これらのピークが合成画像内に現れると思われる。ピークはバックグラウンドノイズパラメータよりも上の強度、例えば特定の場所における平均値、中央値、最大値、最小値、または標準偏差などを有する関連画素を観察することによって見つけ出されることが可能である。合成画像から抽出されたピークは組合せ前のすべての個別画像内のすべてのピークに整合するはずである。合成画像から抽出されたピーク輪郭境界は、いくつかの実施形態では、個々のLC/MS運転の各々の画像内のピーク発現強度(表面の下の体積)を推定するために使用されることが可能である。このようにして、本発明の様々な実施形態は最初に画像整合、2番目にピーク抽出を実行する。
【0129】
本発明の様々な実施形態において、実験条件が現行の実験と新たな実験との間で同様であるとき、両方の実験におけるすべてのLC/MS画像が一体に組み合わされ、調整させられ、特徴抽出のための1つの合成画像を形成することが可能である。前に識別された同位体群を新たな合成画像内で見つけ出すことは困難ではないはずなので、いくつかの実施形態では本方法は事前に利用可能なペプチド情報を使用して新たな実験に注釈を付ける。残り分のピークは前の実験で注釈を付けられなかったピークである。
【0130】
本発明の様々な実施形態がLC/MSピークおよびピーク−同位体群特性に関するパラメトリックモデルを含む。合成画像から抽出されたピークはまだノイズであることもあり得る。画像内に示される実験アーチファクトはピーク特徴として抽出されることもやはり可能である。本発明の様々な実施形態は、これらのピークがどの程度現実のピークであってアーチファクトまたはノイズから形成されたピークではないように見えるかに基づく点数が割り当てられることができるようにこれらのピークを特徴付けるための方法を可能にする。ピークの特徴付けおよび採点法は後の様々な解析における偽の陽性をフィルタで除去することに役立つ。
【0131】
本発明の様々な実施形態によってピークの特徴付けに関して少なくとも2つのパラメトリックモデルが利用可能にされる。第1は修正マクスウェル分布関数などの適切な分布関数または溶出の物理的特性を述べるいずれかの他の適切な関数を使用する理想的なLC保持時間ピークに関するクロマトグラムモデルである。ピークの特徴付けの間、モデルのパラメータは合成画像から抽出されたピークに整合するモデルを見つけ出すように最適化される。時間ピークの点数はこの整合がどの程度優れているか判定する。完全な整合については点数は1である。ピークがノイズを含むかまたはアーチファクトであるとき、点数はゼロに向かって減少する。第2のモデルは、ガウス分布関数などの適切な分布関数または質量連続体分解能特性を述べるいずれかの他の適切な関数を使用するMS連続体の中のm/zピークのためのものである。m/zピークの点数はm/z方向でピークの品質を特徴付ける。m/zピークが汚染されておらず、かつ良好に画定されているときに点数は1に近い。抽出されたピークが汚染されているかまたは2つの重なり合うピークの組合せであるとき、m/zピークの点数は落ちる。
【0132】
同位体群の優秀性を採点するためにいくつかの他のパラメータが利用可能である。(1)平均の時間ピーク点数は同位体群内のすべてのピークの時間ピーク点数の平均である。(2)平均のm/zピーク点数は同位体群内のすべてのピークのm/zピークの点数の平均である。(3)時間ピーク調整不良点数は同位体群内のPC時間ピークの重心の、平均重心からの相対的偏差を判定する。すべてのピークが同じ保持時間に中心を置く優れた同位体群はゼロに近い点数を与える。(4)m/z分布点数は同位体群内の測定されたMSスペクトルの同位体ピーク強度分布がどの程度理論的同位体強度分布に整合するか判定する。良好に整合した同位体群は1に近い点数を有する。整合の乏しい同位体群はゼロに近い点数を有する。(5)m/z分布点数に関するp値はm/z分布点数がどの程度信頼できるか信用の測定値を提供する。同位体群内で検出された同位体ピークの数が2または3などと極端に小さいとき、たとえ整合が完全であると見えても偶然の機会による整合の確率が高い。このケースでは、p値は1に近い。見つけ出された整合が偶然の事象でありそうにないとき、p値は小さく、ゼロに近い。
【0133】
図5V−5Z、5A−2−5A−21に例示された方法工程は重なり合うピークを検出して分割する。初期のピーク抽出の期間中、不可避的にいくつかの重なり合うピークが誤って1つの大きいピークとして検出されることもあり得る。これらの重なり合うピークは様々な実施形態において検出されて分割されなければならない。一例の画像処理パイプラインは時間方向とm/z方向で別々に重なり合うピークを検出して分割する。各々の方向で、他のピークの全体的な幅の分布と比べて異常に広い幅を有するピークが検出される。次いで、可能であればこれらの広いピークが分割される。検出と分割のための方法工程は、分割可能なピークが分割されることを確実にするために数回繰り返される。分割後、本方法工程は再びピークをチェックし、いくつかの長期持続ピークの保持時間の長いテールを削除する。
【0134】
重なった幅広のピークを検出するために、一実施形態では、すべてのピークについてピーク幅の分布(ヒストグラム)が計算される。ピーク幅を規定するための多くの適切な方式がある。1つの適切な方式はピーク重心幅を使用することであり、これは一実施形態ではピークの各時間点と重心との間の強度で加重された差異の二乗の平方根の4倍として規定される。重なり合ったピークを分割するために役立つように統計モデルに基づく手法が展開される。いくつかの実施形態において、各々のピークはガウス関数でモデル化される。重なり合ったピークは複数の混ざり合ったガウス形状のピークを含む。多数ガウスモデルの最良適合を見つけ出すために測定ピークに最適化処理が適用される。すべてのピークが完全に重なり合って分割不可能であるケースについては帰無仮説が構築される。仮説検定のp値は帰無仮説が真である可能性を判定する。p値が小さいとき、本方法は帰無仮説を拒絶する。言い換えると、ピークは分割可能である。p値の閾値を望ましいレベルに設定することによって、重なり合ったピークを正しく識別する信用性が選択的に管理されることが可能である。この統計学的手法は根拠のない法則とカットオフに基づく重複検出方法よりもはるかに客観的で強固である。最適化された多数ガウスモデルは分割の方法を規定するために使用されることもやはり可能である。2ピークモデルの例では、重複の位置および各個別ピークからの重複ピークへの強度寄与を判定することを2つのガウス関数が可能にする。この情報でもって、2つのピークを重複の位置で分割すること、または測定された合計強度(曲線の下の面積または表面の下の体積)の中の各ピークの強度画分を2つのモデル化されたピークの下の面積の比に基づいて計算することが可能である。
【0135】
図5V−5Z、5A−2−5A−21に例示された方法工程は荷電状態、同位体群の識別、および荷電群を推定するための統計学的パターン認識手法を提供する。本方法工程はピークを同位体群に関連付けるための統計学的パターン認識手法を提供する。本方法では任意の時間およびm/z範囲の閾値を使用する必要はない。様々な実施形態においてユーザは受容可能な感度および特異性確率を規定する。これらの確率閾値は任意である必要がない。いくつかの実施形態ではこれらはユーザのリスク許容度に基づいている。一実施形態によると、最初に本方法工程は、検出されたピークをピーク強度、時間ピークの点数、およびm/zピークの点数の順で下に進むようにランク付けする。同位体群識別はランク表の初めにある高度に発現されて最良に見えるピークから開始される。同位体群が識別されると次いで、この同位体群に属するすべてのピークがランク表から除外される。次いで、本方法工程は一覧表を下に進み、一覧表に残っている次の最良ピークに取り組む。
【0136】
図5V−5Z、5A−2−5A−21に例示された方法工程の中のピーク関連付け処理は同位体の荷電状態の推定によって決まる。本発明の様々な実施形態において、荷電の推定方法は複雑な試料から入来するデータと同等のデータと連携する。本方法工程は、一実施形態では、ランク表の最上位から由来する主ピークの保持時間重心付近の個別連続体の加重された和によって最初にMS連続体を構築する。加重は重心から遠く離れたものよりも重心付近の保持時間を有する連続体に関してさらに大きい。この加重された平均化方法は信号対ノイズ比を増大させ、隣り合う同位体群からのピークの影響を減少させる。次いで多様な荷電状態における理想モデルが作成される。各々のモデルは加重された総和の連続体に整合させられ、本方法工程は最良整合を有する1つを見つけ出す。最良整合したモデルの荷電状態は、1つまたは複数の同位体群を見つけ出すために本方法工程がピーク関連付けに適用する荷電である。
【0137】
所定の最上位ランクのピークとその荷電状態に関して、本方法工程は同じ同位体群に属する同位体ピークを検索する。これらの同位体ピークは最上位ランクのピークよりも低いかまたは高いm/zを有していてもよい。各々の見込まれる同位体に関して、本方法工程は検出されたピークを理論的モデルと比較する。本方法工程は検出されたピークがモデルと完全に整合する帰無仮説を構築する。本方法工程は予期される同位体として検出されたピークが受容され得るかまたは拒絶されるか判断するためにm/z方向と保持時間方向の両方で仮説検定のp値を使用する。検出感度を制御するために受容p値(例えば>0.6)が使用されてもよく、検出特異性を制御するために拒絶p値(例えば<0.1)が使用されてもよい。中間のp値について、いくつかの他の同位体群が検出されたピークを受容同位体または重複同位体として主張するかどうか調べるために監視項目リストが維持される。一実施形態では、本方法工程は2つの同位体群のp値が受容レベルよりも低く、かつ拒絶レベルよりも高いときに1つのピークが両方の同位体群によって権利主張されることを許容する。p値の閾値を適切に設定することによってユーザは検出の感度と特異性においてリスク許容度を制御することが可能である。目標検出の感度および特異性の受容判定基準は多様なm/z、発現の潤沢度、信号対ノイズ状態において一貫性を維持する。さらに、検出されたピーク強度と整合させるための所定の質量および荷電の理論的同位体強度分布の使用は計算を促進する。
【0138】
前に検討したように、LC/MSデータ解析に関する誤差モデルが供給される。LC/MS強度測定はノイズに対応しなければならないと見込まれる。一例の画像処理パイプラインにおける誤差モデルは画素強度測定におけるノイズを特定する。一実施形態ではLC/MSの誤差モデルは3つの誤差成分すなわち付加誤差、ポアソン誤差、および分数誤差を有する。この誤差モデルは画素強度測定に関して強度誤差推定を提供する。方法工程5A−22は画素強度の誤差をピークレベルおよび同位体群レベルに適切に広めることによってピーク強度(ピークの中の画素強度の和)および同位体群強度の誤差を推定する。この誤差モデルは複製の数が小さいときに解析時の偽の陽性を減少させることに役立つ。強度変換方法に基づく誤差モデルもやはり発現の差異に関するANOVAまたは他の統計的検定中に強度分散を安定させるために使用されることが可能である。
【0139】
さらに特定すると、モデル化された誤差の分散は
【数8】
として推定され、式中iおよびjは保持時間および質量/荷電方向全体にわたって繰り返し、Iは強度測定値である。分散は強度依存性分散のテイラー級数展開として見られることが可能である。機器依存性のパラメータであるポアソン(POISSON)および分数(FRACTION)は誤差モデル展開中の特定の質量分析計などといった所定の機器技法タイプについて推定される。技法が不変であり続ける限りこれらは一定である。ポアソンノイズと分数ノイズは異なる機器においてわずかに異なることもあり得るが、これらは普通では機器の所定の一部について経時的に安定している。付加成分をモデル化するための多数の見込まれる方法がある。これまでおよびこれ以降に述べられるような特徴抽出処理は画像特徴を取り囲む画素に基づくいくつかのバックグラウンド推定を提供する。どのようなバックグラウンド測定法が使用されるかに関係なく、所定の特徴に関していくつかの実施形態は上記の誤差モデルの付加項をモデル化するために1つのスポットよりもはるかに大きい周囲領域からの平均化された情報を使用する。誤差モデルを展開するとき、ポアソン(POISSON)と分数(FRACTION)のパラメータに関する値が推定される。
【0140】
これまでの検討は図5A−1−5A−22に例示された方法工程を概して述べている。これ以降の検討はこれらの方法工程をさらに詳しくさらに記述する。要約すると、本方法は形態学的フィルタを適用し、かつバックグラウンドノイズを推定し;複製を組合せ;組み合わされてかつフィルタにかけられた複数画像を融合させることで1つの合成画像を形成し;画像特徴をラベリングし;重なり合ったピークを分割し;特徴パラメータを計算し;同位体ピークをグループ化し;同位体群を集合させ;ピーク統計値を計算し;荷電群統計値を計算し;差分解析または非差分解析などのピークレベル解析を実行し;差分解析または非差分解析などの同位体群レベル解析を実行し;差分解析または非差分解析などの荷電群レベル解析を実行する。
【0141】
図5D−5RはLC/MS画像を調整させるための方法工程を例示している。図5Dはマスター画像を決定するための方法工程を例示している。実験において複製を表わすすべての他の画像を調整させるためにマスターまたは基準の画像が使用される。補間された基準ピーク強度データの最も高い標準偏差を備えた画像がマスターとして使用される。
【0142】
図5E−5Rは複製を表わす画像を調整させるための方法工程を例示している。複製を表わす通常の画像(複製画像)は約40から70分の保持時間を有する。普通、常にではないが複製画像は時間方向で非線形の様式でマスター画像と整合していない。この問題に対処するために、本方法は1.5分などといった適切な時間間隔で調整変位値を計算する。変位値が決定されるとき、不整合の問題を補正するために(適切な質量/荷電範囲に関して)所定の保持時間の点が変位させられる。さらに特定すると、これらの変位値はいくつかの実施形態では、複製画像内の各時間点について変位値を指示するスプライン関数または区分線形関数などの補間関数を作り出すための基準点として使用される。様々な実施形態において、複製画像またはターゲット画像は1.5分×20質量/荷電レベルなどといった適切な部分領域へと論理的に分割される。部分領域のサイズはLC/MSデータの密度に基づいて変わることがあり得る。いくつかの実施形態では、ターゲット画像は縦列内で60−80の部分領域を有する。変位値は単一の時間間隔の中で変化するであろうが、変位値の冗長測定は本方法が時間間隔の各縦列について最良の変位値を選択することを可能にする。精度を高めるために、様々な実施形態において本方法は、限定はされないが各部分領域またはセルについて2つの測定技法を使用する。これは本方法が両方の技法に関して各時間間隔について最終の変位値を決定することを可能にするが、すべての技法が数倍のδの中で一致しない場合に本方法がこの時間間隔について変位値全体を破棄することもやはり可能にする。ターゲット画像の各々の部分領域に関する実際の変位値は測定技法によって計算された最終の変位値を平均することによって決定される。
【0143】
セル毎の変位値を実際に決定するために、複製の部分領域がさらに大きいマスターの部分領域全域にわたって変位させられる。いくつかの実施形態では、変位段階毎の適切な画素数(n数)が例えば1画素変位させられる。各々の変位段階で、2つの段階変位値が様々な実施形態において計算される。これらの段階変位値はターゲット画像が下地のマスター画像にどの程度良好に整合するかを表わす段階変位のアレイの中に置かれる。各々の段階変位値が多様な測定技法から計算される。これらの段階変位値は現在の段階がどの程度良好に調整させられるかを定量化する。段階相関値を計算するためにいずれの数の技法が使用されることもあり得るが、本方法は相関係数技法および重なり適合値技法を使用する。
【0144】
相関係数技法に関すると、本方法は最初に強度がゼロよりも大きい部分領域について最小ターゲット強度値を見つけ出す。次に、部分領域内のすべてのターゲット画素がその強度から引き算される最小値を有する。同じことがマスターの部分領域について繰り返される。次に、部分領域内の点すべてが反復される。データ全体にわたるこの反復の間に、ターゲットの画素強度がゼロよりも大きいかまたはマスターの画素強度がゼロよりも大きければ、値のうちの一方がゼロである場合を除いて両方の強度値に常用対数が適用され、一方がゼロであるケースでは常用対数を適用せずに単純にゼロが使用される。マスターとターゲットの常用対数の強度値は対応するマスターおよびターゲットのアレイに加えられる。これら2つのアレイから相関係数が計算される。常用対数の強度は高強度と低強度の画素の両方が段階変位値に影響を有することを可能にするために使用される。
【0145】
他方の測定技法は重なり適合値技法と呼ばれ、以下の数学的処理、すなわち、−(ゼロマスター非ゼロ複製カウント+ゼロ複製非ゼロマスターカウント)に基づいており、ここでゼロマスター非ゼロ複製カウントおよびゼロ複製非ゼロマスターカウントはカウンタである。重なり適合値技法を実行する過程において、本方法はターゲットとマスターの部分領域の間の重なりの量を観察する。いくつかの実施形態では計算に強度値が使用されず、重なり適合値に対する同じ影響を画像の極端に低い強度部分および画像の極端に高い強度部分に与える。2つの部分領域が調整状態にあるとき、重なり適合値はゼロに近付くはずであり、非ゼロ強度を有するターゲット内のすべての画素について対応する非ゼロ強度の画素がマスター内にあることを示す。最良の重なり適合値を判定するためにこの技法は重なりのさらに全体的な光景を重視した。最良整合がこの技法のための重なり適合値の収集体の中の最も高い値になるように負記号が上記の式の係数に入れられる。
【0146】
測定値の2つのアレイが2つの技法を実行する過程において作り出される(一方のアレイは相関係数を記述し、他方のアレイは重なり適合値を記述する)。次いでこれらのアレイが最も高いピークを見つけ出すための方法によって検索され、最も高いピークの最大におけるターゲットとマスターの部分領域間の最良相関を示す。測定値のアレイは(いくつかの実施形態では3点を使用して得られるが他の実施形態では他の適切な数の点が使用されることもあり得る)適用される実行手段を有する。本方法は調整値のこれらのアレイの各々について最も高いピークを見つけ出す。理想的なケースは最も正確な変位場所を示す単一の急勾配ピークを備えたグラフである。図2E参照。グラフのピークがピーク高さに基づいて下に進む順序で置かれて仕分けされるとき、以下の判定基準が満たされれば最大ピークが本方法によって使用されるであろう。第1に、ピークはいくつかの数の点を有さなければならない。いくつかの実施形態では10点が検出されるが、しかし様々な実施形態において外れ値の拒絶がどの程度活発であるかに応じていずれの数であることもあり得る。外れ値は関心対象のものではない特徴である。さらに特定すると、ピークを作る2つの変曲点の間の点の数は10以上でなければならない。第2に、2番目に高いピークが最も高いピークのいくらかの百分率、例えば45%よりも高くてはならないが、しかしこの百分率は縦列毎にいくつの複製の部分領域が使用されるか、および外れ値の拒絶がどの程度活発であるかに応じて変わることがあり得る。多数の小さい複製の部分領域を伴うと、おそらく高い数の冗長相関値が理由で本方法は外れ値の拒絶にさらに積極的になることが見込まれる。さらに少なくて大きい複製の部分領域を伴うと、積極的な外れ値の拒絶は過度に多くのデータを退けかねない。
【0147】
各々のターゲットの部分領域について変位値が決定されたとき、複数の技法を使用して各々の技法に関する変位値のすべてが調べられることで技法毎の最終の縦列の変位値を決定する。各々の技法はいくつかの実施形態では独立して取り扱われる。単一の技法に関する時間間隔縦列内の変位値のすべてが0.20などといった適切な瓶サイズを使用してヒストグラムの中に瓶処理されるが、しかし瓶サイズは調整がどの程度正確である必要があるかに応じて変わることがあり得る。大きい瓶サイズは時間間隔に関して実行できる変位値を見つけ出す機会を増大させるであろうが、しかし最終の変位値の正確さを下げるであろう。技法に関していったん変位値がヒストグラム内に入れられると、ヒストグラムはこのヒストグラムの各々の瓶に属する構成要素の数に基づいて下に進む順序で仕分けされる。次いでこの技法について最終の変位値を決定するために最も高い瓶内の値のすべてが平均される。最終の変位値を決定するために以下の判定基準が様々な実施形態において本方法によって使用される。最多構成要素を備えた瓶はいくつかの実施形態では少なくとも4つの構成要素を有さなければならないが、しかしこの数は外れ値の拒絶がどの程度活発である必要があるかに応じて異なることがあり得る。2番目に多い構成要素を備えた瓶が最大瓶の構成要素数の90%以内を有する場合、最終の変位値を作り出すために両方の瓶の構成要素が平均される。
【0148】
時間間隔縦列についていくつかの最終変位値が計算された後、(異なる測定技法を使用して)最終の変位値が以下の判定基準に基づいて単一の変位値へと組み合わされる。すべての技法に関する変位値は様々な実施形態において0.15分などといった互いのいくらかの適切な時間の中になければならないが、これは調整がどの程度正確である必要があるかに基づいて異なることがあり得る。時間間隔毎の最終の変位値を作り出すためにこれらの技法から得られる変位値が一緒に平均される。次いでこれらの個々の変位値は各々の保持時間に関して正確な保持時間変位値を補間するための基準点として使用される。
【0149】
図5T−5Z、5A−2−5A−21における本方法の1つの目的は合成画像から画像特徴を抽出することである。図5Tにおいて本方法は特徴抽出を容易にするために合成画像全体にわたって(複数の格子横列と格子縦列を備えた)格子を重ね合わせるための工程を検討している。格子の線は等間隔であるが、しかし本方法はこれに制約される必要はない。この格子は特徴が格子横列、格子縦列、または格子セル内に区分されることを可能にする。この格子は計算に使用されることが可能ないくつかのパラメータを有する。例えば、「質量/荷電ピーク幅中央値」格子パラメータはその特徴がピーク強度中央値よりも大きい特徴のピーク強度を有する格子横列内のすべての特徴の質量/荷電重心幅の中央値である。
【0150】
本方法は図5Uにおいて特徴の境界および特徴のパラメータを計算するための工程を検討している。多数の適切なパラメータが計算されることができる。特徴の体積は特徴
【数9】
のすべての強度の和として規定される。xi,jがピークに関するi番目の質量/荷電値とj番目の時間点を表わすとすると、質量/荷電強度は特定の質量/荷電値
【数10】
に関する強度の和であり、保持時間強度は保持時間値
【数11】
に関する強度の和である。「特徴の強度平方和」パラメータは特徴
【数12】
の強度平方和である。「特徴画素」パラメータはゼロよりも大きい強度を備えたデータ点の数である。「特徴の質量/荷電基本出発点」パラメータは、存在するとすれば、特徴の最初の質量/荷電値に先行する質量/荷電値であり、そうでない場合、特徴の最初の質量/荷電値である。「特徴の質量/荷電基本終点」パラメータは、存在するとすれば、特徴の最後の質量/荷電値の後の質量/荷電値であり、そうでない場合、特徴の最後の質量/荷電値である。「特徴の質量/荷電ピーク強度」パラメータは最大の質量/荷電強度
【数13】
である。「特徴の質量/荷電重心」パラメータは特徴に関する質量/荷電値の重心であって質量/荷電強度によって加重された重心である。この重心は
【数14】
として規定され、式中、wは保持時間または質量/荷電のベクトルであり、xは強度加重のベクトルである。「特徴の質量/荷電重心幅」パラメータは特徴に関する質量/荷電値の重心幅であって質量/荷電強度によって加重された重心幅として規定される。「重心幅」はいくつかの実施形態では標準偏差重心の4倍として規定され、これは
【数15】
として規定され、式中、cは重心であり、wは保持時間または質量/荷電のベクトルであり、xは強度加重のベクトルである。「特徴の質量/荷電重心歪み」パラメータは特徴に関する質量/荷電値の重心歪みであって質量/荷電強度によって加重された重心歪みである。この重心歪みは
【数16】
として規定され、式中、cは重心であり、wは保持時間または質量/荷電のベクトルであり、xは強度加重のベクトルである。「特徴の質量/荷電ピーク」パラメータは最大の質量/荷電強度を有する質量/荷電値であり、同じ最大質量/荷電強度を有する複数の質量/荷電値がある場合、本方法は様々な実施形態において中央のインデックスによって識別される中央の質量/荷電値を選択し、中央のインデックスは丸め処理によって計算され、例えば質量/荷電値がインデックスn1,n2,...,nkによってインデックスを付けられる場合、ピークの質量/荷電値はnk/2によってインデックスを付けられた値であり、k/2は次の整数へと丸められる。「特徴の時間ピーク」パラメータは最大の時間強度を有する時間値である。「特徴の時間重心」パラメータは特徴に関する保持時間値の重心であって保持時間強度によって加重された重心である。「特徴の時間重心幅」パラメータは特徴に関する保持時間値の重心幅であって保持時間強度によって加重された重心幅である。「特徴の時間重心歪み」パラメータは特徴に関する保持時間値の重心歪みであって保持時間強度によって加重された重心歪みである。「特徴の時間基本出発点」パラメータは、存在するとすれば、特徴の最初の時間点に先行する時間点であり、そうでない場合、特徴の最初の時間点である。「特徴の時間基本終点」パラメータは、存在するとすれば、特徴の最後の時間点の後の時間点であり、そうでない場合、特徴の最後の時間点である。「特徴の時間ピーク強度」パラメータは最大の保持時間強度である。
【0151】
本方法は図5Vにおいて、ある値範囲よりも上の非ゼロなどの関連した画素のアイランドを探すことによってピーク、特徴のタイプを抽出するための工程を検討している。画像の特徴は関心対象のものであることが見込まれるペプチドなどの生物学的特徴に相当し、これは合成画像内のピークとして現れる。画像特徴はもう1つの強度がピークを形成する質量/荷電次元と保持時間次元の二次元空間の領域である。各々の画像特徴が質量/荷電と保持時間座標内で特徴を完全に取り囲む最小の矩形を含む境界を有する。
【0152】
本方法は図5W−5Z、5A−2−5A−8において、複数の特徴(例えば複数のピーク)を表わす特徴を見つけ出すための工程を検討しており、これらを別々の特徴に分割する。総括すると、いくつかの実施形態では、複数の特徴が質量/荷電方向または保持時間方向で重なり合っている場合にこれらが分割される。いったん特徴が重なり合っていると判定されると、2つの手順のうちの1つを使用してこれが分割される。ピークと中間の谷との間に十分に大きい差がある場合(高コントラストの特徴)、どのようなモデル適合の必要も伴わずに谷で分割が為される。そうでない場合、2ピークのガウスモデルを幅広の特徴に適合させることによって谷がさらに正確に判定される。さらに特定すると、最初に高コントラストの幅広の特徴が分割される。分割は質量/荷電および保持時間方向で交互に、3回などといったいくつかの繰り返しで為される。言い換えると、以下の工程、すなわち質量/荷電で重なり合った特徴を見つけ出して高コントラストのものを分割する工程、および保持時間で重なり合った特徴を見つけ出して高コントラストのものを分割する工程が複数回繰り返される。その後、低コントラストの重なり合った特徴が分割される。前のように、分割は質量/荷電および保持時間方向で交互に、3回などといったいくつかの繰り返しで為される。特徴が分割またはトリミングされるときは常に、特徴の境界および他の特徴パラメータがいくつかの実施形態において再計算される。様々な実施形態において、質量/荷電中央値および保持時間の幅と偏差がいずれの分割にも先行して特徴に対して計算される。
【0153】
図5W−5Yは質量/荷電方向で重なり合ったピークを見つけ出すための方法工程を例示している。本方法は同じ質量/荷電格子横列の中の平均的な特徴に比べて質量/荷電方向で異常に幅広である特徴を以下のように見つけ出す。本方法は高い格子横列特長を、ピーク強度中央値よりも大きいピーク強度を有する所定の格子横列内の特徴のサブセットであると規定する。すべての特徴の中でピーク強度中央値が計算される。質量/荷電幅中央値wは高い格子横列特徴の質量/荷電幅の中央値である。質量/荷電幅中央値の標準偏差はsw=1.483*median(|wi−w|)として計算される。本方法は、質量/荷電幅の重心wiが定数と(w+sw)の積以上であれば特徴を重なり合った質量/荷電特徴として印を付け、ここでこの定数はいくつかの実施形態では2に設定される。
【0154】
図5Y、5A−3−5A−5は保持時間方向で重なり合ったピークを見つけ出すための方法工程を例示している。本方法は高い特徴を、ピーク強度中央値よりも大きいピーク強度を有するすべての特徴のサブセットであると規定する。すべての特徴の中でピーク強度中央値が計算される。保持時間幅の中央値wはすべての高い特徴の時間幅の中央値である。保持時間幅中央値の標準偏差はsw=1.483*median(|wi−w|)として計算される。本方法は、保持時間幅の重心wiが定数と(w+sw)の積以上であれば特徴を重なり合った保持時間特徴として印を付け、ここでこの定数は様々な実施形態において5に設定される。
【0155】
図5Z、5A−2−5A−3は重なり合ったピークの高コントラスト分割を実行するための方法工程を例示しており、所望通りに繰り返されることが可能である。本方法工程は質量/荷電方向で重なり合ったピークかまたは保持時間方向で重なり合ったピークを分割するために再使用可能である。重なり合ったピークとそれらの谷は値の配列x1,x2,...,xnによって記述され、これらはグラフ上に提示可能である。高コントラスト分割はこの配列を対応するグラフの最も低い谷で2つの断片に分割することを試みる。配列が少なくとも4つの点を有していれば、高コントラスト分割を実施するための図5Z、5A−2−5A−3に例示された方法工程が実行される。本方法はMを配列の最大値であると規定する。次いで本方法は2つの直ぐ隣りよりも低い値を備えた点である落ち込みを見つけ出す。落ち込みのうちの1つがコントラストレベルを表わす定数と配列の最大値Mから形成される積よりも小さい値を有すれば、本方法は高コントラスト分割が実行されることが可能な高コントラスト配列を見つけ出している。この定数はいずれの適切なレベルに設定されてもよく、1つの適切なレベルは0.1である。本方法は、ピーク振幅が標準偏差と配列の最大値Mの積よりも小さい特徴の点のすべての関連したセットを見つけ出す。点のセットは、これが隣り合う要素で構成されれば関連付けられる。言い換えると、ある整数a、bについてaがk以下であってかつkがb以下である場合のすべての点xkである。いくつかの実施形態では本方法は特徴のエッジ(例えばaが1またはbがnである場合)にあるセットを無視する。点の各々のそのようなセットについて、本方法はその中の最小落ち込みを見つけ出す。複数の最小があれば、本方法は様々な実施形態において最初のものを選択する。最小落ち込みの点が分割点になる。
【0156】
図5Y、5A−6−5A−8は重なり合ったピークの低コントラスト分割を実行するための方法工程を例示しており、所望通りに繰り返されることが可能である。本方法は2ピークのガウスモデルを特徴に適合させるために最小二乗法非線形適合を使用する。次いで本方法は分割するための点を選択する。本方法はモデルのパラメータの初期推定である多様な入力パラメータを除いて質量/荷電方向かまたは保持時間方向のどちらかで再使用可能である。数学的に、2ピーク強度モデルは2つの単一ピークのガウスモデルの加算で構成され、これらが同じ偏差
【数17】
を共有し、式中、Y1、Y2は2つの重なり合ったピーク振幅であり、c1、c2はピーク中心であり、wは共有する幅である。図2Eは様々なパラメータに関して2ピークモデルが上記の数学的処理から図式的にどのように見え得るかを例示している。2つのピーク中心(c1、c2)および共有する幅が与えられると、すべてのピークが完全に重なり合って分割不可能である場所の推測を検定するためにp値が以下、すなわち
【数18】
のように計算されることが可能である。
【0157】
本方法はモデルのパラメータについて初期推定のピーク中心(c1,c2)とピーク振幅(Y1,Y2)、および幅wを選択する。この選択は質量/荷電方向および保持時間方向に関して異なることがあり得る。本方法はパラメータであるピーク中心(c1,c2)およびピーク振幅(Y1,Y2)を選択するために最小二乗法非線形適合を使用する。次いで本方法は谷の点を、2つのガウスモデルが同じ振幅を有する2つの中心の間の点として規定する。谷に最も近いデータポイントが最初の2つまたは最後の2つのデータポイントのうちの1つである場合、またはp値が0.1などといったある閾値よりも上である場合に本方法は分割を放棄する。本方法が重なり合ったピークを分割するとき、本方法はいくつかの実施形態において谷の点を最少の点を有する特徴の位置に置く。
【0158】
質量/荷電方向での低コントラスト分割に関すると、本方法は2ピークのガウスモデルに関して初期パラメータを以下のように推定する。本方法は質量/荷電方向でピークを見つけ出す。言い換えると、本方法は値が点xk−1およびxk+1よりも大きい点xkを見つけ出す。2ピークよりも少なければ、本方法は様々な実施形態において重なり合ったピークを分割することを控える。そうでない場合、本方法は2つの最も高いピークを使用して重なり合ったピークを分割する。初期パラメータに関すると、本方法はいくつかの実施形態において2つのピークの位置および強度を使用する。両方のガウスモデルの標準偏差wに関すると、本方法は様々な実施形態において1.5などといった定数と商(4などといった別の定数で割り算された質量/荷電中央値)の積を使用する。
【0159】
保持時間方向の低コントラスト分割に関すると、たとえ単一ピークの時間強度モデルが必ずしもガウス関数でなくても本方法は上記で示されたように2ピークのガウスモデルをやはり使用する。本方法はスライドするk時間点の窓サイズを使用してピークと落ち込みを見つけ出し、ここでkは奇数である。kで表わされるようなスライドする窓のサイズはいくつかの実施形態では積(3m)と積(2d)の商であり、ここでmはすべての特徴の時間幅中央値であり、dは測定と測定の間の時間間隔である。本方法は様々な実施形態においてkを最も近い整数に丸める。kが偶数であれば、本方法はこれを奇数にするためにkを1でインクリメントする。
【0160】
本方法はこのスライドする窓を連続的なk点の配列すべてに適用する。窓の中心が窓に関して最小値または最大値であれば、本方法はそれに応じて落ち込みまたはピークとしてこれに印を付ける。2つ以上のピークがある場合、本方法は2つの最も大きいピークを選択する。1つのピークと少なくとも1つの落ち込みがある場合、本方法はピークに対向する落ち込みの側で最大値を見つけ出すことによって第2のピークをシミュレートする。これが不可能であれば、本方法は重なり合ったピークを分割することを控える。初期パラメータに関すると、本方法はいくつかの実施形態において2つの選択されたピークの位置と強度を使用する。両方のガウスモデルの標準偏差に関すると、本方法は様々な実施形態において1.5などといった定数と商(4などといった別の定数で割り算された保持時間幅中央値)の積を使用する。
【0161】
重なり合ったピークが分割されると次いで、本方法は広過ぎるピークを保持時間方向で整えることを試みる。図5A−8参照。本方法は最初に以下の条件、すなわち商(重心幅で割り算された時間範囲)が2などといった定数よりも大きいという条件を満たした時間ピークを見つけ出す。この条件が真であれば、本方法は広過ぎるピークを見つけ出したと見込まれる。本方法はこれらのピークの最小値と最大値の側を重心の中心から1つの重心幅に切り取るように進行する。
【0162】
図5A−9−5A−10は上記で検討された方法工程において見つけ出されたピークを特徴付けるための方法工程を例示している。図5A−9は保持時間方向でピークを特徴付けるための方法工程を例示している。「特徴のモデル化時間ピーク」パラメータはモデル化された時間強度が最大であるモデル軸値である。「特徴のモデル化時間重心幅」パラメータはモデル化時間強度で加重されたモデル軸値の重心の幅である。「特徴のモデル化時間ピーク強度」パラメータは時間強度モデルによって計算された強度の最大値である。保持時間方向の保持時間強度モデルは修正マクスウェル分布関数によってモデル化される。パラメータY(振幅)、ts(変位)、w(幅)、およびd(偏位)が与えられると、特徴に関する時間強度は以下、すなわち
【数19】
のように数学的にモデル化される。xがtsよりも小さい場合、本方法はyをゼロに設定する。yがゼロよりも小さい場合、本方法はyをゼロに設定する。定数dはゼロ以上であって1以下である。関数(y=x2exp(1−x2))はxが1に等しいときに1の最大値を有し、それにより、xがtsとwの和と等価であるときに時間強度が最大になる。パラメータY、ts、およびwは最小二乗法非線形適合を使用して適合処理される。初期値は以下のようにして時間強度によって加重された時間の重心を使用して設定される。振幅Yは最大時間強度を(1−d)の残差で割り算することから形成される商であると見なされる。幅wは残差(時間重心の中心を開始時間で引き算する)と他の残差(1−d)の商であると見なされる。変位tsは(時間重心の中心を幅wで引き算する)残差であると見なされる。パラメータdは、いくつかの実施形態では、最小二乗法適合を使用して適合処理されず、その初期値はこれ以降で特定されるようにモデル偏位である。
【0163】
本発明の様々な実施形態の方法によって計算されるモデル偏位はこれまでに検討された時間強度モデルに使用されるゼロと1との間の数である。様々な実施形態において、モデル偏位は特徴が以下のようにして分割されるとその後に最初に計算される。すなわち、本方法はmとMをすべての特徴の最小および最大のピーク強度の常用対数であるとそれぞれ規定する。本方法はUをmと、0.8などといった定数と残差(M−m)の積の和である、言い換えるとU=m+0.8(M−m)であると規定する。本方法はLをmと、0.1などといった定数と残差(M−m)の積の和である、言い換えるとL=m+0.1(M−m)であると規定する。本方法はさらにpを特徴のピーク強度の常用対数であると規定する。本方法はpを以下のようにしてLとUの中にあると固定する。すなわちpがUよりも大きければ本方法はpをUに等しいと設定する。そうでない場合、pがLよりも小さければ本方法はpをLに等しいと設定する。特定の特徴に関するモデル偏位が、別の残差(U−L)で割り算された定数cと残差(U−p)の積である(c*(U−p)/(U−L))に設定される。この定数は0.8などといった適切な値であってもよい。いくつかの実施形態では、モデル偏位は最も近い0.1の倍数に丸められる。やはり様々な実施形態において、モデル偏位は保持時間ピーク点数を計算することによって調節されるが、これはこれ以降に述べられる。一実施形態では、偏位はゼロと初期偏位との間の最大値に設定され、妥当な点数を作り出す。他の実施形態では、偏位が他の値に設定されることもあり得る。
【0164】
保持時間ピークの点数は実際の保持時間強度と保持時間強度モデルによってモデル化された保持時間強度との間のピアソンの相関係数などの相関係数である。質量/荷電強度について為されるように、実際のデータが保持時間の各々の端部を越えた1つのデータポイントに広げられる。モデル偏位(時間強度モデルにおけるパラメータd)を調節するために保持時間ピークの点数計算が使用される。点数が規定されない場合、dは0.1などといった定数でデクリメントされ、点数が数字になるまで、またはdがゼロに到達するまで計算が本発明の様々な実施形態の方法によって再度為される。n対の点を使用して計算されるピアソン相関値rに関してピアソン相関のp値は
【数20】
によって与えられる。本方法は以下の条件、すなわちkは(n−2)に等価であり、tは自由度kでt分布のように分布させられ、pは
【数21】
として規定するものである場合、Iは不完全なベータ関数である。数学的処理は
【数22】
に変形する。ピアソン相関の点数はrと残差(1−p)の積であり、ここでrはピアソン相関であり、pは対応するp値である。1つのデータポイントのみがある場合、様々な実施形態において点数は本方法によってゼロに設定される。
【0165】
図A−10は質量/荷電方向でピークを特徴付けるための方法工程を例示している。ピーク振幅Y、中心(c)、および幅(w)が与えられると、特徴に関する質量/荷電強度は以下の数学的処理、すなわち
【数23】
でガウス関数としてモデル化される。中心cおよび標準偏差sは重心計算を通じて計算される。特徴の質量/荷電強度の点数がやはり本方法によって計算される。質量/荷電強度ピークおよび重心標準偏差が正であれば、ピークの点数はモデルの(延長された)質量/荷電軸を使用する、質量/荷電強度に関するデータとモデルとの間のピアソン相関の点数である。
【0166】
図5A−11−5A−16は、同位体ピークの集合である同位体群を見つけ出すための方法工程を例示している。同じ保持時間点に直ぐ近くの質量/荷電値を備えていくつかのピークがしばしば存在する。これは同位体によって引き起こされる。(生物学的特徴がペプチドであれば、同位体は異なる中性子数を備えた原子を有する同じペプチドの構成要素である。)本方法工程は図5A−11−5A−16において、いくつかの実施形態では一層大きくかつ最良の形状の特徴が1番目と考えられるように最初にすべての特徴を仕分けすることによって隣り合う同位体ピークの群を見つけ出す。次いで本方法は各々の特徴を順番に取り上げ、取り上げられた特徴が種特徴であり、種特徴で一団にされるべき他の特徴を見つけ出す。
【0167】
いくつかの実施形態では、本方法は少なくとも以下の3つのランク、すなわち一実施形態ではrt=ピーク保持時間強度またはピーク画素強度などのピーク強度によるランク;rm=ピーク質量/荷電の点数によるランク;およびrs=保持時間の点数によるランクを組み合わせることによってすべての特徴をランク付けする。本方法はrsと、2などといった定数でrtとrmの和を割り算した商との和である組合せのランクrを計算する。本方法はこのランクを反転し、それにより、様々な実施形態において、一層高い点数/強度を備えた特徴が1番目にリストアップされる。本方法はランク付けされた順番で特徴を処理する。言い換えると、最も大きい特徴が最初に調べられる。
【0168】
図5A−15はある特徴を破棄する代わりに、他の同位体群への後の分類のために該特徴を保持するための方法工程を例示している。特徴が同位体群の中にグループ化されるとき、これらは受容、拒絶、または保留状態に置くように分類される。同位体ピークを同位体群の中にグループ化するための方法の最後に、各々のピークは1つまたは複数の同位体群に属する。ピークが複数の同位体群に属する場合、このピークはさらなる解析のために保留状態に置かれる。そうでない場合、ピークは単一の同位体群に受け入れられる。ピークが同位体群内に保留状態で置かれるように分類され、かつ別の同位体群に受け入れられる場合、2番目の分類はやはり保留状態に置かれるように変えられる。これは種特徴にもやはり適用される。
【0169】
図5A−11−5A−16によって例示される方法工程は、様々な実施形態において、ピークの原初の強度の代わりに時間で加重された強度を使用する。点i、jにおいて種特徴に相対して時間で加重された強度は数学的に
【数24】
として規定され、式中、Iijは加重されていない強度であり、Tjは種特徴の時間強度(すなわちこの縦列に関する種特徴のすべての横列全体にわたる強度の和)である。いくつかの実施形態では、ある時間に始まって特定の時間に終わるようにインデックスjが繰り返される。時間で加重された強度はいずれの質量/荷電の点(横列)についても規定されるが、開始特徴の境界の中にある時間点(縦列)についてのみ規定される。時間で加重された質量/荷電強度は種特徴の境界の中のすべての時間点全体にわたって時間で加重された強度の和である。
【0170】
いくつかの実施形態では、本方法は特徴の質量/荷電強度幅を同位体群の種特徴の格子横列内の特徴中央値とさらに一致するように調節する。この調節は以下のようにして為される。本方法は種特徴が属する格子時間点を見つけ出す。本方法はwgを格子の質量/荷電重心幅の中央値として規定し、Swgを格子の質量/荷電重心幅の標準偏差として規定し、wfを現在の特徴の質量/荷電重心幅として規定する。本方法はwfがwgと、5などといった定数とSwgの積との和よりも大きければ調節された幅をwgとして計算する。そうでない場合、調節された幅は以下の数学的処理の最大(wg,wf)の結果に等しい。格子調節された質量/荷電の幅は加重されていない質量/荷電強度を使用する。
【0171】
図5A−11は、同位体ピークを一体に集めるために一例の画像処理パイプラインが荷電状態をさらによく理解することに役立つように荷電の点数を見つけ出す方法工程を例示している。整数値の荷電zについての荷電の点数は荷電量と質量の差の組合せにより変位させられるピークモデルを適用すること、およびモデル化質量/荷電強度の観察された時間加重質量/荷電強度との内積を計算することによって計算される。荷電の点数の計算への入力は区分(ベクトル)についての質量/荷電値であるx;この区分の時間加重質量/荷電強度であるy;モデルに使用するためのピーク中心であるc0;モデルに使用するためのピーク幅であるw0;整数値の荷電数であるzを含む。本方法は以下の数学、すなわち
【数25】
によるx値に質量/荷電強度モデルを適用することによって荷電の点数を計算する。一実施形態では、本方法は1の値を備えたY;4などといった定数で割り算されたw0の商の値を備えたs;およびc0と、zで割り算された定数kと中性子質量の積との和の値を備えたcを使用する。本方法は以下の要素(−2,−1,1,2)のセット全体にわたってk回繰り返す。本方法は4つのベクトルy’(k)を得る。荷電の点数は、いくつかの実施形態では、(y・[y’(−2)+2y’(−1)+2y’(1)+y’(2)])として数学的に規定される。
【0172】
図5A−11は荷電状態を見つけ出すための方法工程を例示するように続く。種特徴を与えられると、本方法は特徴の質量/荷電重心に置かれた質量/荷電中心を備えた原初の画像の区分を観察することによってその荷電を見つけ出すことを試みる。質量/荷電幅は、様々な実施形態において、標準偏差と2.2などといった定数の積によって設定される。この区分の時間座標は、いくつかの実施形態では、開始特徴の時間座標と同じである。関心対象の区分にある間に、本方法は種特徴の特徴強度をゼロにする。次に、本方法は保持時間軸に沿って時間加重強度を加算することによってこの区分の加重質量/荷電強度を計算する。本方法はさらにw0を特徴の格子調節された質量/荷電幅として;cfを開始特徴の質量/荷電重心として規定し;pfを開始特徴の質量/荷電ピークとして規定し;pfがcfと、1/4などといった定数とw0の積との残差以上である場合、またはpfがcfと、1/4などといった定数とw0の積との和以下である場合にc0をcfとして規定し、そうでない場合、c0をpfに等しいと見なす。次いで本方法は上記で計算されたようなパラメータc0、w0を使用して1,2,...,15などといったある範囲のzについて荷電の点数を計算する。次いで本方法は最も高い点数を有する荷電zを選択する。同位体群パラメータの質量/荷電のδは(c0−cf)の残差として規定される。
【0173】
図5A−11−5A−16は同位体群についてピークを見つけ出すための方法工程の実行を例示している。本方法はピークモデルを種ピークから(さらに下の質量/荷電レベルに向かって)下に移動させ、次いでピークモデルを種ピークから(さらに上の質量/荷電レベルに向かって)上に移動させることによって同位体ピークを探す。各々の下または上の段で本方法は保持時間方向で種特徴と同じ範囲を有する矩形同位体領域;(c0+k*Mn/z)の和(式中、Mnは中性子質量であり、kは方法が上への移動によって同位体ピークを探しているときに正の整数であって本方法が下への移動によって同位体ピークを探しているときに負の整数である同位体番号である)に等価である質量/荷電方向での中心;4などといった定数とw0の積(ここでw0は種特徴の格子調節された質量/荷電幅である)に等価である質量/荷電方向での高さを規定する。
【0174】
この同位体(特にk)についての候補ピークはその境界が上記で規定された同位体領域に交差するピークである。この同位体に関して候補ピークがなければ、本方法は特定の方向で観察することを止める。各々の方向(下方向または上方向)で、本方法は様々な実施形態において最大で10などといったある数の同位体の場所を探す。いくつかの実施形態では、同位体群の候補ピークを分類するために本発明の様々な実施形態の方法によって使用される、例えば同位体強度;質量/荷電の強度および形状;および時間の強度および形状などのいくつかの異なる判定基準がある。これらの判定基準の各々が候補ピークを受容、拒絶、または保留状態に置かれるように分類する。様々な判定基準が1つの分類の中で組合せ可能である。
【0175】
様々な実施形態において、同位体強度の判定基準は同位体領域のピーク強度を除いて候補特徴のどのような特性も使用する必要がない。同位体強度pkは同位体領域内の時間加重強度の最大値である。種同位体強度p0は種特徴内の時間加重強度の最大値である。pmaxを、p0を含めて(下方向および上方向で)これまで計算されたすべての同位体強度の最大同位体強度とする。p’を、先行する同位体の同位体強度とする。同位体位置kが正であれば、本方法はp’をpk−1と同等であると規定する。そうでない場合、本方法はp’をpk+1と同等であると規定する。商の絶対値が0.6などといった定数よりも小さければ同位体位置kに関する候補特徴が受け入れられる。商の被除数は同位体強度pkと先行する同位体p’の同位体強度の残差である。商の除数は最大同位体強度pmaxと同位体強度pkの最大値である。そうでない場合、商がこの定数よりも小さくなければこの特徴は拒絶される。これまで述べられたような同位体強度判定基準を使用する代わりに、いくつかの実施形態では、強度を理論的分布関数と比較することによって特徴が受容または拒絶される。
【0176】
質量/荷電および時間強度の判定基準に関すると、本方法は候補ピークと予期される理論的ピークが偶然異なっているかどうか判定する候補ピークのp値を計算する。次いで本方法は、いくつかの実施形態では2つの閾値plowとphighを使用することによって候補ピークを受容、拒絶、または保留状態に置かれるように分類する。p値がphigh以上であれば候補ピークは受容される。plowがp値よりも小さく、かつp値がphighよりも小さければ、他の同位体ピークがその同位体群の構成要素として候補ピークを主張するかどうか調べるためにこの候補ピークは保留状態に置かれる。p値がplow以下であれば候補ピークは拒絶される。plowとphighに関して、いずれの適切な閾値が使用されることもあり得る。例えば、質量/荷電強度に関する一対の適切な閾値は0.4と同一視されるphighおよび0.05と同一視されるplowを含む。別の例として、時間強度に関する一対の適切な閾値は0.6と同一視されるphighおよび0.2と同一視されるplowを含む。
【0177】
質量/荷電強度のp値は、一実施形態では、以下のような方法によって計算される。本方法はw0を種特徴の格子調節された質量/荷電幅として規定し、wを候補特徴の格子調節された質量/荷電幅として規定する。(両方の幅が種特徴の格子横列を使用して格子調節される。)付け加えると、本方法はcを候補特徴の質量/荷電重心として規定する。質量/荷電強度のp値は一実施形態では以下、すなわち
【数26】
のように数学的に計算される。この数学における定数は他の実施形態において異なることもあり得る。
【0178】
時間強度のp値は、一実施形態では、本方法によって以下のように計算される。本方法はt0、St0を種特徴の時間強度重心および標準偏差として規定し、t、Stを候補特徴の時間強度重心および標準偏差として規定する。本方法は、一実施形態では、p値を以下、すなわち
【数27】
のように数学的に規定する。この数学における定数は他の実施形態において異なることもあり得る。
【0179】
本方法は、候補ピークが3つの判定基準すべてによって受け入れられれば同位体群の中に受容されるように候補ピークを規定する。候補ピークは、時間強度の判定基準に従って受け入れられ、かつ他の2つの判定基準のうちの一方によって受け入れられ、またこの候補ピークが複数の他の同位体群の中に既に保留状態に置かれていなければ保留状態に置かれる。そうでない場合、候補ピークは拒絶される。各々の候補ピークが同位体群に関して受け入れられると分類された後、この候補ピークが他の同位体群に関して考慮されなくなるように本方法はこれをランク付けから除外する。本方法はまた、様々な実施形態において、2つの同位体群の中に保留状態に置かれるように分類された候補ピークを除外する。
【0180】
上記で示されたように、本方法が同位体群に属する特徴を見つけ出すとその後、本方法は受容されるように分類された特徴をランク付けから除外し、それにより、これらの特徴は他の同位体群の特徴および荷電を見つけ出すことを妨げない。いくつかの実施形態では、本方法は2つの同位体群において保留状態に置かれるように分類された特徴もやはり除外する。同位体群が保留状態に置かれた特徴のみを有する場合、本方法はこの同位体群を除外し、この特徴を他の同位体群に受容されるようにする。図5A−16参照。各々の同位体が判定されるとその後、様々な実施形態において、以下の同位体パラメータが計算される。「主同位体特徴」パラメータは最大モデル化ピーク保持時間強度を備えた特徴であり;「同位体強度」パラメータはモデル化ピーク保持時間強度であり;「同位体質量/荷電重心」パラメータは主同位体特徴の質量/荷電重心であり;「同位体質量/荷電重心幅」パラメータは主同位体特徴の質量/荷電重心幅である。
【0181】
図5A−17−5A−18は同位体群の質量を計算するための方法工程を例示している。同位体群の質量と同位体群のモノアイソトープとの間には関係がある。モノアイソトープは特定の同位体群に関して最も低い同位体であり、最も低い質量/荷電を有する。荷電群の生物学的特徴の質量は以下の数学的処理、すなわち
【数28】
によってモノアイソトープ(最も低い質量/荷電を備えた画像特徴)から計算され、式中、zは荷電(整数値)であり、Mpは陽子の質量であり、mは計算されるべき生物学的特徴の質量であり、Imzはモノアイソトープの質量/荷電である。最初に、本方法はモノアイソトープの質量/荷電を最も低い検出同位体の第1の特徴の質量/荷電強度重心として推定する。この推定でもって、同位体群の質量は数学的に以下、すなわち(m=z(Imz−Mp))のように導き出される。
【0182】
モノアイソトープを見つけ出して同位体群の質量を計算するために、本方法はいくつかの観察された同位体に基づいてモノアイソトープが位置するはずの場所を外挿することによってモノアイソトープの場所を推定する。ペプチド質量などの所定の生物学的特徴の質量に関して、同位体ピークの理論的分布がある。いくつかの実施形態では、本方法はこの理論的分布を計算することを控えるが、その代わりにm1、m2などといったある質量に関して理論的分布の集計バージョンを使用する。いったん本方法が質量推定mを有すると、本方法は質量がmk以上であってかつ定数とmkの和以下になるように、分布表に使用するための集計された質量mkを選択する。様々な実施形態において、理論的分布は1の最大値を有するように規模を決められる。本方法は最初の同位体位置で特徴の最も低い質量/荷電強度重心を使用することによって最初に質量を推定する。同位体に受容される特徴があれば、いくつかの実施形態では、本方法はこれらを推定のために使用する。次に、本方法は観察された分布を、各々の同位体の中のピークの最大モデル化保持時間強度を使用して計算する。観察された分布が1の最大値を有するように本方法は観察された分布の規模を決める。次いで、本方法は理論的同位体分布を観察された同位体分布と比較し、本方法が最良整合を見つけ出すまでこれら2つの分布を互いに対して変位させる。2つの分布を理論的分布と観察された分布との間の絶対差の和として比較するために点数が作り出されて使用される。いくつかの実施形態では、本方法は2つの分布のうちの一方が完全に他方に重なり合うように偏位を考慮する。結果として生じる整数値の偏位は観察された同位体番号に加算することでそれらが理論的同位体番号と整合するようにそれらを補正するものである。(偏位は正、負、またはゼロであることがあり得る。)本方法が最良偏位を見つけ出したとき、本方法は変位させられた観察分布と比較したときの理論的分布の相関係数およびp値を計算する。
【0183】
図5A−18は同位体群の質量を再計算するための方法工程を例示している。理論的同位体分布と観察された同位体分布との間の偏位が知られているとき、本方法は同位体群の中のすべての同位体に関して同位体質量/荷電重心を使用して以下のように同位体群質量を再計算する。モノアイソトープの質量/荷電Imzは数学的に
【数29】
として規定され、式中、kは(補正された)同位体番号であり、mz(k)は同位体kに関する同位体質量/荷電重心であり、Mnは中性子の質量であり、zは同位体群の荷電状態である。同位体群質量は前のように(m=z(Imz−Mp))で数学的に規定される。質量幅は以下、すなわち(z*mzwidth(k))のようにzで掛け算された同位体質量/荷電重心幅の平均として規定される。
【0184】
本方法はまた、様々な実施形態において、同位体群が他の同位体群にもやはり保留状態に置かれる、保留状態に置かれた特徴のみを有しているかどうか判定する。そうであれば本方法は、いくつかの実施形態では、この同位体群を除外し、特徴が他の同位体群に受容され得るかどうか見るためにチェックする。様々な実施形態において、いくつかの同位体群のパラメータが計算される。例えば、同位体群の質量は(前に計算されたような)補正された質量として規定される。同位体群の質量幅は上記で規定される通りである。同位体群の特徴は最大ピーク強度を備えた特徴である。同位体群の保持時間強度重心は同位体群の特徴の保持時間強度重心である。
【0185】
図5A−19−5A−21は荷電によって決まる同位体群の集合である荷電群を見つけ出すための方法工程を例示している。荷電群は同じ質量および保持時間を有するが異なる荷電状態を有する同位体群のセットである。本方法は、一実施形態では、各々の同位体群が1つおよび唯一の荷電群の中にある状態になるように同位体群を荷電群へと統合する。他の実施形態では他の同位体群構成もあり得る。本方法は、いくつかの実施形態では、非ゼロの荷電を有する同位体群を統合する。様々な実施形態において、本方法は単一ピークを備えた同位体群を考慮することを控える。最初に、本方法は同位体群内のすべての画像特徴に関して平均の保持時間点数でランク付けされる同位体群を含むランクrtを形成することによって同位体群をランク付けする。本方法はまた、同位体群内のすべての特徴の最大ピーク強度によってランク付けされる同位体群を含む他のランクrIを形成する。次いで本方法は(和rt+rIである)組合せランクrを作り出し、一層高い点数/強度を備えた特徴が1番目にリストアップされるように組合せランクによって同位体群を再び順序付ける。
【0186】
組合せランクから、本方法は異なる荷電を備えた他の同位体群を探すことによって荷電群を形成する処理を以下のようにして開始するために種同位体群を選択する。本方法は先ず(荷電1へと下がる)徐々に小さい荷電状態を探す。次いで本方法は所望の荷電状態にあってかつ種同位体群質量重心からある一定の質量の単位(例えば10)の中、および開始の同位体群保持時間重心から時間の単位twの中にある同位体群を探す。本方法は、twが種同位体群のピーク特徴の保持時間重心幅であるが2分間などといったある一定の保持時間期間未満ではないと規定する。これらの境界の中にある同位体群はグループ化するための候補の同位体群である。本方法は候補の同位体群を分類するために少なくとも2つの判定基準を使用し、これらの判定基準は同位体群の質量重心および同位体群の保持時間強度重心を含む。各々の判定基準は2つの同位体群を同じ荷電群内にあるように受容するかまたは拒絶するためにp値のカットオフを使用する。2つの同位体群が両方の判定基準を通過すればこれらは同じ荷電群に属する。
【0187】
各々の候補同位体群について、本方法は候補同位体群と種同位体群との間の質量p値および保持時間p値を以下のようにして判定する。質量重心c1、c2、および対応する重心偏差s1、s2が与えられると質量p値(pmass)は数学的に
【数30】
として規定される。保持時間重心c1、c2、および対応する重心偏差s1、s2が与えられると保持時間p値(prt)は数学的に
【数31】
として規定される。全体的p値はpmassとprtの積であるpである。次いで本方法はpcutoffよりも大きいpmassおよびpcutoffよりも大きいprtを有する候補同位体群を選択する。本方法はpcutoffを0.6などといった適切な閾値の定数であると規定する。これらの判定基準を通過する複数の候補同位体群があれば、本方法は荷電群内の包含のために最も高い全体的p値を有する1つの候補同位体群を選択する。いったん同位体群が荷電群内に包含されると、本方法はこれを別の荷電群に関して再び考慮することを控える。
【0188】
本方法はいくつかの同位体群パラメータを計算する。例えば、「主同位体特徴」パラメータは最大の特徴モデル化時間ピーク強度を備えた同位体特徴である。「受容特徴カウント」パラメータは同位体群に受容された(特有の)特徴の数である。「重複特徴カウント」パラメータは同位体群内の重なり合った特徴の数である(すなわちこれらはまた他の同位体群内にある)。「合計同位体cnt」パラメータは検出された同位体の数である。「群荷電状態」パラメータは同位体群の整数値である荷電状態である。「質量/荷電δ」パラメータは種特徴の質量/荷電重心と同位体群に関して同位体を見つけ出すために使用される質量/荷電との間の差分である。「質量重心幅」パラメータは荷電状態で掛け算された、各々の同位体における主特徴の平均質量/荷電重心である。「モノアイソトピック質量/荷電」パラメータは各々の同位体に関して計算されたモノラルの質量/荷電の平均であり、1つの同位体に関して、モノラルの質量/荷電は以下の数学的処理、すなわち(mz−k*Mn/z)によって計算され、式中、mzは主同位体特徴の質量/荷電重心であり、kは(分布偏位によって調節された)同位体番号であり、Mnは中性子の質量であり、zは荷電状態である。「質量重心」パラメータは同位体群の質量であり、(mz−Mp)*zに等価であり、式中、mzはモノアイソトピックmzであり、zは荷電状態であり、Mpは陽子の質量である。「モノアイソトピック位置偏位」パラメータは最初に検出された同位体の同位体番号であり、この偏位は検出された同位体分布と理論的な同位体分布を調整させることによって検出される。「平均時間ピーク点数」パラメータは同位体群内のすべての特徴全体にわたる平均の特徴時間ピーク点数である。「平均質量/荷電ピーク点数」パラメータは同位体群内のすべての特徴全体にわたる平均の特徴質量/荷電ピーク点数である。「時間ピーク調整不良点数」パラメータは(Sc/w)として計算され、式中、Scはすべての特徴の保持時間重心の標準偏差であり、wは同位体群内のすべての特徴の平均の保持時間重心幅である。「質量/荷電ピーク分布点数」パラメータは理論的同位体分布と観察された同位体分布との間のピアソン相関である。「質量/荷電ピーク分布点数p値」パラメータは質量/荷電ピーク分布点数に付随するp値である。「最大同位体num」パラメータはピーク同位体の同位体番号であり、ピーク同位体は同位体群内の最も高い特徴ピーク強度を備えた特徴を有する同位体である。「最大同位体ピーク強度」パラメータはピーク同位体の特徴ピーク強度である。「最大同位体質量/荷電重心」パラメータはピーク同位体の特徴質量/荷電重心パラメータである。「最大同位体質量/荷電重心幅」パラメータはピーク同位体の特徴質量/荷電重心幅パラメータである。「最大同位体時間重心」パラメータはピーク同位体の特徴時間重心パラメータである。「最大同位体時間重心幅」パラメータはピーク同位体の特徴時間重心幅パラメータである。「最大同位体時間基準開始点」パラメータはピーク同位体の特徴時間基準開始点パラメータである。「最大同位体時間基準終了点」パラメータはピーク同位体の特徴時間基準終了点パラメータである。「最大同位体mz基準開始点」パラメータはピーク同位体の特徴質量/荷電基準開始点パラメータである。「最大同位体質量/荷電基準終了点」パラメータはピーク同位体の特徴質量/荷電基準終了点パラメータである。「同位体時間基準開始点」パラメータは同位体群内のすべての特徴のうちの最小の特徴時間基準開始点である。「同位体時間基準終了点」パラメータは同位体群内のすべての特徴のうちの最大の特徴時間基準終了点である。「同位体質量/荷電基準開始点」パラメータは同位体群内のすべての特徴のうちの最小の特徴質量/荷電基準開始点である。「同位体質量/荷電基準終了点」パラメータは同位体群内のすべての特徴のうちの最大の特徴質量/荷電基準終了点である。
【0189】
例証となる実施形態が具体的に示されて述べられてきたが、本発明の精神と範囲から逸脱することなく、これに様々な変更が為され得ることは理解されるであろう。
【図面の簡単な説明】
【0190】
【図1】一例の画像処理パイプラインを含む一例のシステムを例示するブロック図である。
【図2A】さらなる発見と分析のために関心対象の生物学的候補を抽出するための一例の画像処理パイプラインを例示するブロック図である。
【図2B】均一に間隔を開けられた水平および垂直の線で形成された格子と重ね合わされるラスタ化された画像を例示する絵図である。
【図2C】調整を定量化するための様々な計算に関してマスターの部分領域全体にわたってスライド可能なターゲットの部分領域を例示する絵図である。
【図2D】見込まれる調整の場所の指標である係数値の頂点を例示する絵図である。
【図2E】2ピークモデルがどのようであり得るかを数学的に例示する図である。
【図3】本発明の様々な実施形態によって検出されるピーク、同位体群、および荷電群を例示する絵図である。
【図4A】一例の画像処理パイプラインの構成要素である一例の生物学的画像前処理装置を例示するブロック図である。
【図4B】一例の画像処理パイプラインの構成要素である一例の生物学的画像前処理装置の別の部分を例示するブロック図である。
【図4C】一例の画像処理パイプラインの一例の画像特徴抽出用構成要素を例示するブロック図である。
【図5A−1】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−2】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−3】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−4】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−5】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−6】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−7】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−8】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−9】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−10】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−11】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−12】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−13】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−14】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−15】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−16】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−17】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−18】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−19】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−20】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−21】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5A−22】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5B】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5C−1】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5C−2】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5D】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5E】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5F】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5G】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5H】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5I】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5J】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5K】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5L】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5M】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5N】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5O】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5P】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5Q】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5R】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−1】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−2】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−3】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−4】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−5】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−6】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−7】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−8】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−9】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−10】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−11】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−12】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−13】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−14】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−15】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−16】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−17】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−18】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−19】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−20】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−21】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5S−22】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5T】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5U】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5V】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5W】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5X】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5Y】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【図5Z】生物試料中で関心対象の特徴を識別するための方法を例示する工程図である。
【特許請求の範囲】
【請求項1】
調製された生物試料が多様な処理状態の発現実験から得られる過程からデータを収集するための収集装置と、
収集装置からのデータを処理するため、および合成画像を形成するための画像処理装置と、
ピーク、同位体群、および荷電群を含む合成画像から特徴特性を抽出するための画像特徴抽出装置とを含む、コンピュータで実施可能な画像処理パイプライン。
【請求項2】
画像処理装置が保持時間の縞の除去装置、データ補間装置、画像調整装置、ノイズ除去装置、およびバックグラウンド補正装置を含む、請求項1に記載のコンピュータで実施可能な画像処理パイプライン。
【請求項3】
収集装置がデータを収集する過程が、調製された生物試料をクロマトグラフィ処理にかける工程を含む、請求項1に記載のコンピュータで実施可能な画像処理パイプライン。
【請求項4】
収集装置がデータを収集する過程が、調製された生物試料を質量分析処理にかける工程を含む、請求項1に記載のコンピュータで実施可能な画像処理パイプライン。
【請求項5】
ピーク、同位体群、および荷電群で構成される群から選択される3つの集大成レベルにおけるすべての条件での複製の発現プロファイルを作り出すために特徴特性を処理するための発現統計値処理装置をさらに含む、請求項1に記載のコンピュータで実施可能な画像処理パイプライン。
【請求項6】
生物学的ターゲット識別のために、差異を有して、および差異を有さず発現された特徴に関する候補一覧表を作り出すために発現プロファイルを処理するための発現解析処理装置をさらに含む、請求項5に記載のコンピュータで実施可能な画像処理パイプライン。
【請求項7】
調製された生物試料を処理して画像のセットを作り出すための、クロマトグラフィ機器と質量分析計を含む機器の収集物と、
画像のセットから作り出される合成画像を処理するための画像処理装置と、特徴特性、発現プロファイル、および候補特徴一覧表を作り出す画像処理パイプラインとを含む、生物学的特徴を発見するためのシステム。
【請求項8】
特徴特性が、ピーク、同位体群、および荷電群を含む3つのレベルにおける生物学的特徴について情報を提供する、請求項7に記載のシステム。
【請求項9】
ピークが、特定の保持時間範囲および質量/荷電範囲での輪郭によって規定される同位体ピークであり、同位体群が同じ荷電状態の同位体ピークの群であり、荷電群が同位体群の収集体である、請求項8に記載のシステム。
【請求項10】
特徴特性がピーク保持時間の開始点と終了点、ピーク質量/荷電の開始点と終了点、質量/荷電の重心、荷電状態、および質量で構成される群から選択される、請求項9に記載のシステム。
【請求項11】
発現プロファイルが、ピークの境界輪郭の中にあるすべての非ゼロの画素の強度測定値の和であるピーク強度についてのプロファイルを含む、請求項7に記載のシステム。
【請求項12】
候補特徴一覧表がタンパク質識別のために選択されるピークまたは同位体群のセットである、請求項7に記載のシステム。
【請求項13】
未加工のLC/MSデータを補間、ラスタ化、およびフィルタ処理することで二次元画像にマップ化するためにデータラスタライザと組み合わされた補間装置と、
多様な処理群の指標である二次元画像を合成画像に組み合わせて融合させるために群間画像融合装置と組み合わされた群内複製コンバイナとを含む、生物学的画像前処理装置。
【請求項14】
未加工のLC/MSデータを受け取り、未加工のLC/MSデータを事前調整させ、かつラスタ化することで事前調整したデータを作り出すためにデータラスタライザと組み合わされた保持時間事前調整装置をさらに含む、請求項13に記載の生物学的画像前処理装置。
【請求項15】
データラスタライザと組み合わされた補間装置が二次元画像を作り出すために事前調整データを受け取り、生物学的画像前処理装置が、二次元画像をフィルタにかけることでフィルタ処理された二次元画像の第1のセットを作り出すために第1の形態学的画像ノイズフィルタをさらに含む、請求項14に記載の生物学的画像前処理装置。
【請求項16】
フィルタ処理された二次元画像の第1のセットを調整させることで調整画像のセットを作り出すために群間保持時間調整装置と組み合わされた群内保持時間調整装置をさらに含む、請求項15に記載の生物学的画像前処理装置。
【請求項17】
未加工LC/MSデータと調整画像の両方を受け取り、調整画像を歪曲させ、歪曲画像を作り出すために再ラスタ化装置と組み合わされた画像歪曲装置をさらに含む、請求項16に記載の生物学的画像前処理装置。
【請求項18】
歪曲画像をフィルタにかけてフィルタ処理された二次元画像の第2のセットを作り出すために第2の形態学的画像ノイズフィルタをさらに含む、請求項17に記載の生物学的画像前処理装置。
【請求項19】
フィルタ処理された二次元画像の第2のセットのバックグラウンドノイズを推定することで補償された画像のセットを作り出すためにバックグラウンドノイズ推定装置をさらに含む、請求項18に記載の生物学的画像前処理装置。
【請求項20】
補償された画像のセットをフィルタにかけてフィルタ処理された二次元画像の第3のセットを作り出すために第3の形態学的画像ノイズフィルタをさらに含む、請求項19に記載の生物学的画像前処理装置。
【請求項21】
群内複製コンバイナがフィルタ処理された二次元画像の第3のセットを組み合わせることで組合せ画像のセットを作り出す、請求項20に記載の生物学的画像前処理装置。
【請求項22】
群間画像融合装置が組合せ画像のセットを融合させることで融合画像を作り出す、請求項21に記載の生物学的画像前処理装置。
【請求項23】
融合画像を受け取り、合成画像を供給するために第4の形態学的画像ノイズフィルタをさらに含む、請求項22に記載の生物学的画像前処理装置。
【請求項24】
多様な画像の中でクロマトグラムの保持時間の不一致を取り除くための方法であって、
原初の未加工データを歪めることですべての複製の中で合計の調整不良を減少させることによって調整した二次元LC/MSラスタ化画像を作り出す工程と、
組合せ画像を形成するために各々の処理群の中の複製を組み合わせる工程、および合成画像を形成するために、最大画素強度を取り込むことによって処理群間からの組合せ画像を融合させる工程とを含む、方法。
【請求項25】
データのラスタ化措置の実行に先行して全体的な時間の調整不良が推定される事前調整措置を実行する工程をさらに含む、請求項24に記載の方法。
【請求項26】
原初の未加工データを補間することおよびデータを共通の二次元画像格子にマップ化することによってデータのラスタ化措置を実行する工程をさらに含む、請求項24に記載の方法。
【請求項27】
組合せ画像を形成するために複製を組み合わせる工程が画素強度の平均化によって実行される、請求項24に記載の方法。
【請求項28】
画像特徴を抽出するための方法であって、
合成画像上で関連した非ゼロ画素から同位体ピークを識別する工程と、
質量/荷電方向、保持時間方向、または両方で2つ以上の同位体ピークから成る識別同位体ピークを分割する工程とを含む、方法。
【請求項29】
各々の同位体ピークを特有の指数でラベリングする工程をさらに含む、請求項28に記載の方法。
【請求項30】
ピーク質量/荷電の重心、ピーク質量/荷電の幅、ピーク時間の重心、およびピーク時間の幅で構成される群から選択される同位体ピーク特性を計算する工程をさらに含む、請求項29に記載の方法。
【請求項31】
同位体群に属する同位体ピークを識別する工程、および同位体群を特有の同位体群指数でラベリングする工程をさらに含む、請求項30に記載の方法。
【請求項32】
荷電状態、モノアイソトピック質量/荷電、およびペプチド質量で構成される群から選択される同位体群特性を計算する工程をさらに含む、請求項31に記載の方法。
【請求項33】
1つの同位体ピークのみを備えた同位体群を知られていない荷電を備えた荷電群に属すると識別する工程をさらに含む、請求項32に記載の方法。
【請求項34】
異なる荷電状態を有する同位体群を、これらが同様の保持時間およびペプチド質量を有していれば1つの荷電群に属すると割り当てる工程をさらに含む、請求項33に記載の方法。
【請求項35】
生物学的特徴を抽出するための方法であって、
合成画像を形成するために多様な処理状態の画像を処理する工程と、
合成画像内の特定の場所における平均値、中央値、最大値、最小値、および標準偏差で構成される群から選択されるバックグラウンドノイズパラメータよりも上の強度を有する合成画像内の関連画素から同位体ピークを見つけ出す工程とを含む、方法。
【請求項36】
多様な未加工質量/荷電座標に基づいた入力の未加工データを同じ質量/荷電格子に変換することによって質量/荷電の補間を実行する工程をさらに含む、請求項35に記載の方法。
【請求項37】
見つけ出された同位体ピークを、見つけ出された同位体ピークがどの程度理想的ピークに近いか、およびどの程度アーチファクトおよびノイズから形成されていないかに基づいて点数を割り当てることによって特徴付ける工程をさらに含む、請求項35に記載の方法。
【請求項38】
溶出の物理的特性を述べる適切な分布関数を使用して、理想的LC保持時間ピークに関してクロマトグラムモデルを形成する工程をさらに含み、クロマトグラムモデルがモデルパラメータを含む、請求項37に記載の方法。
【請求項39】
見つけ出された同位体ピークが、クロマトグラムモデルのモデルパラメータを最適化して整合がどの程度優れているかの指標である点数を作り出すことによって特徴付けられ、整合が殆ど完全であれば点数が1に向かう傾向を有し、見つけ出された同位体ピークがノイズの多いものであれば点数がゼロに向かう傾向を有する、請求項38に記載の方法。
【請求項40】
質量連続体分解能特性を述べる適切な分布関数を使用して、理想的な質量/荷電ピークに関してモデルを形成する工程をさらに含む、請求項39に記載の方法。
【請求項41】
見つけ出された同位体ピークが質量/荷電ピークの点数を計算することによって特徴付けられ、質量/荷電ピークが汚染されてなく、かつ良好に規定されていれば質量/荷電ピークの点数が1に向かう傾向を有し、見つけ出された同位体ピークが汚染されているかまたは2つの重なり合うピークの組合せであれば点数がゼロに向かう傾向を有する、請求項40に記載の方法。
【請求項42】
様々な同位体群に属する同位体ピークを識別する工程、および様々な同位体群を特徴付ける同位体群の点数を計算する工程をさらに含み、同位体群の点数が、同位体群内のすべてのピークの時間ピークの点数の平均値である平均時間ピーク点数、同位体群内のすべてのピークの質量/荷電ピークの点数の平均値である平均質量/荷電ピーク点数、同位体群内の時間ピークの重心の平均重心からの相対的偏差を判定する時間ピーク調整不良の点数、同位体群がどの程度良好に理論的同位体強度分布に整合するか判定する質量/荷電分布の点数、および質量/荷電分布の点数の信頼性の信用度の大きさを与える質量/荷電分布の点数に関するp値で構成される群から選択される、請求項41に記載の方法。
【請求項43】
合成画像内で見つけ出された同位体ピークを分割するための方法であって、
同位体ピークが他の同位体ピークの幅分布よりも広い幅を有するかどうか判定することによって重なり合った同位体ピークを検出する工程と、
保持時間方向および質量/荷電方向で重なり合った同位体ピークを分割する工程とを含む、方法。
【請求項44】
重なり合った同位体ピークを検出する工程に先行してすべての同位体ピークについて幅分布を計算する、請求項43に記載の方法。
【請求項45】
他の同位体ピークの幅分布よりも広い幅を有する同位体ピークに適合させるために多重ガウス関数モデルを適用する工程をさらに含む、請求項44に記載の方法。
【請求項46】
すべてのピークが完全に重なり合って分割不可能なケースに関して帰無仮説を構築する工程をさらに含む、請求項45に記載の方法。
【請求項47】
多重ガウス関数モデルを適用する行為が予め判定されたp値よりも小さい値を作り出すかどうか判定する工程をさらに含み、そうであれば帰無仮説が誤りであって同位体ピークが分割可能であることを判定する、請求項46に記載の方法。
【請求項48】
分割する工程が、重なり合った同位体ピークを多重ガウス関数モデルの適用によって示される位置で分割する工程を含む、請求項47に記載の方法。
【請求項49】
同位体群について荷電状態を推定するための方法であって、
ランク表の最上位から由来するピークの保持時間重心付近の個別連続体の加重和によってMS連続体を構築する工程と、
様々な荷電状態に関する複数の理想モデルをMS連続体に整合させる工程、および最良整合を与える理想モデルを判定する工程とを含み、理想モデルの荷電状態が同位体群の荷電状態である、方法。
【請求項50】
加重和が、重心から遠く離れた連続体よりも重心付近に保持時間を有する連続体に関してさらに大きい、請求項49に記載の方法。
【請求項51】
ランク表の最上位から由来するピークに基づいて同位体ピークを理想モデルと比較することによって、同位体群に属する同位体ピークを検索する工程をさらに含む、請求項50に記載の方法。
【請求項52】
同位体ピークが理想モデルに完全に整合する帰無仮説を構築する工程をさらに含む、請求項51に記載の方法。
【請求項53】
同位体ピークが同位体群に属するものとして受容されるか拒絶されるか判断するために保持時間方向と質量/荷電方向の両方で仮説検定のp値を評価する工程をさらに含む、請求項52に記載の方法。
【請求項54】
仮説検定によって受容も拒絶もされない同位体ピークを、これらの同位体ピークが他の同位体群に属し得るかどうか見るための後に続く検定のために維持する工程をさらに含む、請求項53に記載の方法。
【請求項55】
複製を表わす画像を調整させるための方法であって、
重なり合いのセットの中の第1の最終変位値と第2の最終変位値を判定するために、ターゲットの画像がマスターの画像と調整する程度を判定する相関係数と重なり適合値を計算する工程と、
第1と第2の最終変位値が互いに近傍にあれば、この時間間隔について最終変位値を作り出すために第1と第2の最終変位値を平均する工程と、
複数の時間間隔について複数の最終変位値を作り出すために上記の工程を繰り返す工程とを含み、各々の最終変位値が、画像をラスタ化してこれらを調整させるために補間関数を作り出すための基準点である、方法。
【請求項56】
重なり合いのセットが、時間間隔全体にわたってターゲットの画像をマスターの画像に対して変位させる工程から作り出される、請求項55に記載の方法。
【請求項57】
マスターの画像がラスタ化された画像から選択され、ラスタ化画像のセットの中の他の画像に比べて測定された基準ピーク強度において最も高い標準偏差を有する、請求項56に記載の方法。
【請求項58】
相関係数がターゲットのアレイとマスターのアレイ内に蓄えられた強度計算から基礎を置かれ、強度計算が、重なり合った画素位置におけるターゲット画像の画素の強度の常用対数と重なり合った画素位置におけるマスター画像の画素の強度の常用対数を取ることによって計算される、請求項57に記載の方法。
【請求項59】
重なり適合値が第1と第2のカウンタの和の負を取る工程に基づき、重なり合った画素位置におけるマスター画像の画素強度がゼロよりも大きいことおよび重なり合った画素位置においてターゲット画像の画素強度がゼロであることを第1のカウンタが示し、重なり合った画素位置におけるマスター画像の画素強度がゼロに等しくされることおよび重なり合った画素位置にけるターゲット画像の画素強度がゼロよりも大きいことを第2のカウンタが示す、請求項58に記載の方法。
【請求項60】
各々の重なり合いに関して頂点が計算され、変曲点間で最小数の点を有してかつ隣り合う点によって閾値で隔てられる頂点が見込まれる調整の場所を示す、請求項59に記載の方法。
【請求項1】
調製された生物試料が多様な処理状態の発現実験から得られる過程からデータを収集するための収集装置と、
収集装置からのデータを処理するため、および合成画像を形成するための画像処理装置と、
ピーク、同位体群、および荷電群を含む合成画像から特徴特性を抽出するための画像特徴抽出装置とを含む、コンピュータで実施可能な画像処理パイプライン。
【請求項2】
画像処理装置が保持時間の縞の除去装置、データ補間装置、画像調整装置、ノイズ除去装置、およびバックグラウンド補正装置を含む、請求項1に記載のコンピュータで実施可能な画像処理パイプライン。
【請求項3】
収集装置がデータを収集する過程が、調製された生物試料をクロマトグラフィ処理にかける工程を含む、請求項1に記載のコンピュータで実施可能な画像処理パイプライン。
【請求項4】
収集装置がデータを収集する過程が、調製された生物試料を質量分析処理にかける工程を含む、請求項1に記載のコンピュータで実施可能な画像処理パイプライン。
【請求項5】
ピーク、同位体群、および荷電群で構成される群から選択される3つの集大成レベルにおけるすべての条件での複製の発現プロファイルを作り出すために特徴特性を処理するための発現統計値処理装置をさらに含む、請求項1に記載のコンピュータで実施可能な画像処理パイプライン。
【請求項6】
生物学的ターゲット識別のために、差異を有して、および差異を有さず発現された特徴に関する候補一覧表を作り出すために発現プロファイルを処理するための発現解析処理装置をさらに含む、請求項5に記載のコンピュータで実施可能な画像処理パイプライン。
【請求項7】
調製された生物試料を処理して画像のセットを作り出すための、クロマトグラフィ機器と質量分析計を含む機器の収集物と、
画像のセットから作り出される合成画像を処理するための画像処理装置と、特徴特性、発現プロファイル、および候補特徴一覧表を作り出す画像処理パイプラインとを含む、生物学的特徴を発見するためのシステム。
【請求項8】
特徴特性が、ピーク、同位体群、および荷電群を含む3つのレベルにおける生物学的特徴について情報を提供する、請求項7に記載のシステム。
【請求項9】
ピークが、特定の保持時間範囲および質量/荷電範囲での輪郭によって規定される同位体ピークであり、同位体群が同じ荷電状態の同位体ピークの群であり、荷電群が同位体群の収集体である、請求項8に記載のシステム。
【請求項10】
特徴特性がピーク保持時間の開始点と終了点、ピーク質量/荷電の開始点と終了点、質量/荷電の重心、荷電状態、および質量で構成される群から選択される、請求項9に記載のシステム。
【請求項11】
発現プロファイルが、ピークの境界輪郭の中にあるすべての非ゼロの画素の強度測定値の和であるピーク強度についてのプロファイルを含む、請求項7に記載のシステム。
【請求項12】
候補特徴一覧表がタンパク質識別のために選択されるピークまたは同位体群のセットである、請求項7に記載のシステム。
【請求項13】
未加工のLC/MSデータを補間、ラスタ化、およびフィルタ処理することで二次元画像にマップ化するためにデータラスタライザと組み合わされた補間装置と、
多様な処理群の指標である二次元画像を合成画像に組み合わせて融合させるために群間画像融合装置と組み合わされた群内複製コンバイナとを含む、生物学的画像前処理装置。
【請求項14】
未加工のLC/MSデータを受け取り、未加工のLC/MSデータを事前調整させ、かつラスタ化することで事前調整したデータを作り出すためにデータラスタライザと組み合わされた保持時間事前調整装置をさらに含む、請求項13に記載の生物学的画像前処理装置。
【請求項15】
データラスタライザと組み合わされた補間装置が二次元画像を作り出すために事前調整データを受け取り、生物学的画像前処理装置が、二次元画像をフィルタにかけることでフィルタ処理された二次元画像の第1のセットを作り出すために第1の形態学的画像ノイズフィルタをさらに含む、請求項14に記載の生物学的画像前処理装置。
【請求項16】
フィルタ処理された二次元画像の第1のセットを調整させることで調整画像のセットを作り出すために群間保持時間調整装置と組み合わされた群内保持時間調整装置をさらに含む、請求項15に記載の生物学的画像前処理装置。
【請求項17】
未加工LC/MSデータと調整画像の両方を受け取り、調整画像を歪曲させ、歪曲画像を作り出すために再ラスタ化装置と組み合わされた画像歪曲装置をさらに含む、請求項16に記載の生物学的画像前処理装置。
【請求項18】
歪曲画像をフィルタにかけてフィルタ処理された二次元画像の第2のセットを作り出すために第2の形態学的画像ノイズフィルタをさらに含む、請求項17に記載の生物学的画像前処理装置。
【請求項19】
フィルタ処理された二次元画像の第2のセットのバックグラウンドノイズを推定することで補償された画像のセットを作り出すためにバックグラウンドノイズ推定装置をさらに含む、請求項18に記載の生物学的画像前処理装置。
【請求項20】
補償された画像のセットをフィルタにかけてフィルタ処理された二次元画像の第3のセットを作り出すために第3の形態学的画像ノイズフィルタをさらに含む、請求項19に記載の生物学的画像前処理装置。
【請求項21】
群内複製コンバイナがフィルタ処理された二次元画像の第3のセットを組み合わせることで組合せ画像のセットを作り出す、請求項20に記載の生物学的画像前処理装置。
【請求項22】
群間画像融合装置が組合せ画像のセットを融合させることで融合画像を作り出す、請求項21に記載の生物学的画像前処理装置。
【請求項23】
融合画像を受け取り、合成画像を供給するために第4の形態学的画像ノイズフィルタをさらに含む、請求項22に記載の生物学的画像前処理装置。
【請求項24】
多様な画像の中でクロマトグラムの保持時間の不一致を取り除くための方法であって、
原初の未加工データを歪めることですべての複製の中で合計の調整不良を減少させることによって調整した二次元LC/MSラスタ化画像を作り出す工程と、
組合せ画像を形成するために各々の処理群の中の複製を組み合わせる工程、および合成画像を形成するために、最大画素強度を取り込むことによって処理群間からの組合せ画像を融合させる工程とを含む、方法。
【請求項25】
データのラスタ化措置の実行に先行して全体的な時間の調整不良が推定される事前調整措置を実行する工程をさらに含む、請求項24に記載の方法。
【請求項26】
原初の未加工データを補間することおよびデータを共通の二次元画像格子にマップ化することによってデータのラスタ化措置を実行する工程をさらに含む、請求項24に記載の方法。
【請求項27】
組合せ画像を形成するために複製を組み合わせる工程が画素強度の平均化によって実行される、請求項24に記載の方法。
【請求項28】
画像特徴を抽出するための方法であって、
合成画像上で関連した非ゼロ画素から同位体ピークを識別する工程と、
質量/荷電方向、保持時間方向、または両方で2つ以上の同位体ピークから成る識別同位体ピークを分割する工程とを含む、方法。
【請求項29】
各々の同位体ピークを特有の指数でラベリングする工程をさらに含む、請求項28に記載の方法。
【請求項30】
ピーク質量/荷電の重心、ピーク質量/荷電の幅、ピーク時間の重心、およびピーク時間の幅で構成される群から選択される同位体ピーク特性を計算する工程をさらに含む、請求項29に記載の方法。
【請求項31】
同位体群に属する同位体ピークを識別する工程、および同位体群を特有の同位体群指数でラベリングする工程をさらに含む、請求項30に記載の方法。
【請求項32】
荷電状態、モノアイソトピック質量/荷電、およびペプチド質量で構成される群から選択される同位体群特性を計算する工程をさらに含む、請求項31に記載の方法。
【請求項33】
1つの同位体ピークのみを備えた同位体群を知られていない荷電を備えた荷電群に属すると識別する工程をさらに含む、請求項32に記載の方法。
【請求項34】
異なる荷電状態を有する同位体群を、これらが同様の保持時間およびペプチド質量を有していれば1つの荷電群に属すると割り当てる工程をさらに含む、請求項33に記載の方法。
【請求項35】
生物学的特徴を抽出するための方法であって、
合成画像を形成するために多様な処理状態の画像を処理する工程と、
合成画像内の特定の場所における平均値、中央値、最大値、最小値、および標準偏差で構成される群から選択されるバックグラウンドノイズパラメータよりも上の強度を有する合成画像内の関連画素から同位体ピークを見つけ出す工程とを含む、方法。
【請求項36】
多様な未加工質量/荷電座標に基づいた入力の未加工データを同じ質量/荷電格子に変換することによって質量/荷電の補間を実行する工程をさらに含む、請求項35に記載の方法。
【請求項37】
見つけ出された同位体ピークを、見つけ出された同位体ピークがどの程度理想的ピークに近いか、およびどの程度アーチファクトおよびノイズから形成されていないかに基づいて点数を割り当てることによって特徴付ける工程をさらに含む、請求項35に記載の方法。
【請求項38】
溶出の物理的特性を述べる適切な分布関数を使用して、理想的LC保持時間ピークに関してクロマトグラムモデルを形成する工程をさらに含み、クロマトグラムモデルがモデルパラメータを含む、請求項37に記載の方法。
【請求項39】
見つけ出された同位体ピークが、クロマトグラムモデルのモデルパラメータを最適化して整合がどの程度優れているかの指標である点数を作り出すことによって特徴付けられ、整合が殆ど完全であれば点数が1に向かう傾向を有し、見つけ出された同位体ピークがノイズの多いものであれば点数がゼロに向かう傾向を有する、請求項38に記載の方法。
【請求項40】
質量連続体分解能特性を述べる適切な分布関数を使用して、理想的な質量/荷電ピークに関してモデルを形成する工程をさらに含む、請求項39に記載の方法。
【請求項41】
見つけ出された同位体ピークが質量/荷電ピークの点数を計算することによって特徴付けられ、質量/荷電ピークが汚染されてなく、かつ良好に規定されていれば質量/荷電ピークの点数が1に向かう傾向を有し、見つけ出された同位体ピークが汚染されているかまたは2つの重なり合うピークの組合せであれば点数がゼロに向かう傾向を有する、請求項40に記載の方法。
【請求項42】
様々な同位体群に属する同位体ピークを識別する工程、および様々な同位体群を特徴付ける同位体群の点数を計算する工程をさらに含み、同位体群の点数が、同位体群内のすべてのピークの時間ピークの点数の平均値である平均時間ピーク点数、同位体群内のすべてのピークの質量/荷電ピークの点数の平均値である平均質量/荷電ピーク点数、同位体群内の時間ピークの重心の平均重心からの相対的偏差を判定する時間ピーク調整不良の点数、同位体群がどの程度良好に理論的同位体強度分布に整合するか判定する質量/荷電分布の点数、および質量/荷電分布の点数の信頼性の信用度の大きさを与える質量/荷電分布の点数に関するp値で構成される群から選択される、請求項41に記載の方法。
【請求項43】
合成画像内で見つけ出された同位体ピークを分割するための方法であって、
同位体ピークが他の同位体ピークの幅分布よりも広い幅を有するかどうか判定することによって重なり合った同位体ピークを検出する工程と、
保持時間方向および質量/荷電方向で重なり合った同位体ピークを分割する工程とを含む、方法。
【請求項44】
重なり合った同位体ピークを検出する工程に先行してすべての同位体ピークについて幅分布を計算する、請求項43に記載の方法。
【請求項45】
他の同位体ピークの幅分布よりも広い幅を有する同位体ピークに適合させるために多重ガウス関数モデルを適用する工程をさらに含む、請求項44に記載の方法。
【請求項46】
すべてのピークが完全に重なり合って分割不可能なケースに関して帰無仮説を構築する工程をさらに含む、請求項45に記載の方法。
【請求項47】
多重ガウス関数モデルを適用する行為が予め判定されたp値よりも小さい値を作り出すかどうか判定する工程をさらに含み、そうであれば帰無仮説が誤りであって同位体ピークが分割可能であることを判定する、請求項46に記載の方法。
【請求項48】
分割する工程が、重なり合った同位体ピークを多重ガウス関数モデルの適用によって示される位置で分割する工程を含む、請求項47に記載の方法。
【請求項49】
同位体群について荷電状態を推定するための方法であって、
ランク表の最上位から由来するピークの保持時間重心付近の個別連続体の加重和によってMS連続体を構築する工程と、
様々な荷電状態に関する複数の理想モデルをMS連続体に整合させる工程、および最良整合を与える理想モデルを判定する工程とを含み、理想モデルの荷電状態が同位体群の荷電状態である、方法。
【請求項50】
加重和が、重心から遠く離れた連続体よりも重心付近に保持時間を有する連続体に関してさらに大きい、請求項49に記載の方法。
【請求項51】
ランク表の最上位から由来するピークに基づいて同位体ピークを理想モデルと比較することによって、同位体群に属する同位体ピークを検索する工程をさらに含む、請求項50に記載の方法。
【請求項52】
同位体ピークが理想モデルに完全に整合する帰無仮説を構築する工程をさらに含む、請求項51に記載の方法。
【請求項53】
同位体ピークが同位体群に属するものとして受容されるか拒絶されるか判断するために保持時間方向と質量/荷電方向の両方で仮説検定のp値を評価する工程をさらに含む、請求項52に記載の方法。
【請求項54】
仮説検定によって受容も拒絶もされない同位体ピークを、これらの同位体ピークが他の同位体群に属し得るかどうか見るための後に続く検定のために維持する工程をさらに含む、請求項53に記載の方法。
【請求項55】
複製を表わす画像を調整させるための方法であって、
重なり合いのセットの中の第1の最終変位値と第2の最終変位値を判定するために、ターゲットの画像がマスターの画像と調整する程度を判定する相関係数と重なり適合値を計算する工程と、
第1と第2の最終変位値が互いに近傍にあれば、この時間間隔について最終変位値を作り出すために第1と第2の最終変位値を平均する工程と、
複数の時間間隔について複数の最終変位値を作り出すために上記の工程を繰り返す工程とを含み、各々の最終変位値が、画像をラスタ化してこれらを調整させるために補間関数を作り出すための基準点である、方法。
【請求項56】
重なり合いのセットが、時間間隔全体にわたってターゲットの画像をマスターの画像に対して変位させる工程から作り出される、請求項55に記載の方法。
【請求項57】
マスターの画像がラスタ化された画像から選択され、ラスタ化画像のセットの中の他の画像に比べて測定された基準ピーク強度において最も高い標準偏差を有する、請求項56に記載の方法。
【請求項58】
相関係数がターゲットのアレイとマスターのアレイ内に蓄えられた強度計算から基礎を置かれ、強度計算が、重なり合った画素位置におけるターゲット画像の画素の強度の常用対数と重なり合った画素位置におけるマスター画像の画素の強度の常用対数を取ることによって計算される、請求項57に記載の方法。
【請求項59】
重なり適合値が第1と第2のカウンタの和の負を取る工程に基づき、重なり合った画素位置におけるマスター画像の画素強度がゼロよりも大きいことおよび重なり合った画素位置においてターゲット画像の画素強度がゼロであることを第1のカウンタが示し、重なり合った画素位置におけるマスター画像の画素強度がゼロに等しくされることおよび重なり合った画素位置にけるターゲット画像の画素強度がゼロよりも大きいことを第2のカウンタが示す、請求項58に記載の方法。
【請求項60】
各々の重なり合いに関して頂点が計算され、変曲点間で最小数の点を有してかつ隣り合う点によって閾値で隔てられる頂点が見込まれる調整の場所を示す、請求項59に記載の方法。
【図1】
【図2A】
【図2B】
【図2C】
【図2D】
【図2E】
【図3】
【図4A】
【図4B】
【図4C】
【図5A−1】
【図5A−2】
【図5A−3】
【図5A−4】
【図5A−5】
【図5A−6】
【図5A−7】
【図5A−8】
【図5A−9】
【図5A−10】
【図5A−11】
【図5A−12】
【図5A−13】
【図5A−14】
【図5A−15】
【図5A−16】
【図5A−17】
【図5A−18】
【図5A−19】
【図5A−20】
【図5A−21】
【図5A−22】
【図5B】
【図5C−1】
【図5C−2】
【図5D】
【図5E】
【図5F】
【図5G】
【図5H】
【図5I】
【図5J】
【図5K】
【図5L】
【図5M】
【図5N】
【図5O】
【図5P】
【図5Q】
【図5R】
【図5S−1】
【図5S−2】
【図5S−3】
【図5S−4】
【図5S−5】
【図5S−6】
【図5S−7】
【図5S−8】
【図5S−9】
【図5S−10】
【図5S−11】
【図5S−12】
【図5S−13】
【図5S−14】
【図5S−15】
【図5S−16】
【図5S−17】
【図5S−18】
【図5S−19】
【図5S−20】
【図5S−21】
【図5S−22】
【図5T】
【図5U】
【図5V】
【図5W】
【図5X】
【図5Y】
【図5Z】
【図2A】
【図2B】
【図2C】
【図2D】
【図2E】
【図3】
【図4A】
【図4B】
【図4C】
【図5A−1】
【図5A−2】
【図5A−3】
【図5A−4】
【図5A−5】
【図5A−6】
【図5A−7】
【図5A−8】
【図5A−9】
【図5A−10】
【図5A−11】
【図5A−12】
【図5A−13】
【図5A−14】
【図5A−15】
【図5A−16】
【図5A−17】
【図5A−18】
【図5A−19】
【図5A−20】
【図5A−21】
【図5A−22】
【図5B】
【図5C−1】
【図5C−2】
【図5D】
【図5E】
【図5F】
【図5G】
【図5H】
【図5I】
【図5J】
【図5K】
【図5L】
【図5M】
【図5N】
【図5O】
【図5P】
【図5Q】
【図5R】
【図5S−1】
【図5S−2】
【図5S−3】
【図5S−4】
【図5S−5】
【図5S−6】
【図5S−7】
【図5S−8】
【図5S−9】
【図5S−10】
【図5S−11】
【図5S−12】
【図5S−13】
【図5S−14】
【図5S−15】
【図5S−16】
【図5S−17】
【図5S−18】
【図5S−19】
【図5S−20】
【図5S−21】
【図5S−22】
【図5T】
【図5U】
【図5V】
【図5W】
【図5X】
【図5Y】
【図5Z】
【公表番号】特表2009−516172(P2009−516172A)
【公表日】平成21年4月16日(2009.4.16)
【国際特許分類】
【出願番号】特願2008−540277(P2008−540277)
【出願日】平成18年11月13日(2006.11.13)
【国際出願番号】PCT/US2006/044166
【国際公開番号】WO2007/059117
【国際公開日】平成19年5月24日(2007.5.24)
【出願人】(505441904)ロゼッタ インファーマティックス エルエルシー (9)
【Fターム(参考)】
【公表日】平成21年4月16日(2009.4.16)
【国際特許分類】
【出願日】平成18年11月13日(2006.11.13)
【国際出願番号】PCT/US2006/044166
【国際公開番号】WO2007/059117
【国際公開日】平成19年5月24日(2007.5.24)
【出願人】(505441904)ロゼッタ インファーマティックス エルエルシー (9)
【Fターム(参考)】
[ Back to top ]