液体クロマトグラフィーのデータ補正方法
【課題】測定ごとに異なり得る保持時間のデータを補正して、実質的に高い再現性を確認することができる液体クロマトグラフィーのデータ補正方法、特には、超低流量液体クロマトグラフィーの補正方法を提供する。
【解決手段】液体クロマトグラフィーに被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る測定工程と、前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正する工程と、を備えたデータ補正方法。
【解決手段】液体クロマトグラフィーに被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る測定工程と、前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正する工程と、を備えたデータ補正方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プロテオーム解析における液体クロマトグラフィーのデータ処理方法、特には、超低流量液体クロマトグラフィーのデータ処理方法に関している。
【背景技術】
【0002】
液体クロマトグラフィーは、カラムに装填された樹脂と溶液中の物質との特異的な親和性を利用して、溶液の段階的な濃度勾配を作り出すことにより、ある特定の溶液濃度で樹脂から物質を遊離させる方法である。
【0003】
濃度勾配は、時間の関数として表されるように(時間の長さに対応して変化するように)作り出される。このため、物質が遊離されてくる保持時間(retention time )を把握することによって、当該物質の同定(特定)が可能である。従って、液体クロマトグラフィーにおける物質の同定は、保持時間の再現性が最も重要である。ここで、カラムへの溶液の流量が多い場合には、比較的よい再現性が得られるが、カラムへの溶液の流量が少ない場合には、再現性はよくないといわれている。
【0004】
また、質量分析器を用いたプロテオミクスの手法によれば、生物が有するたんぱく質を、定量的に同定することができる。このため、プロテオミクスの手法は、医学及び生物学の分野において広く応用され始めている。プロテオミクスの手法の中で、超低流量液体クロマトグラフィーと精密質量分析装置とを組み合わせたnanoLC/MSシステムという装置が、最近注目を集めている。当該装置によれば、微量のサンプルから、莫大な量のたんぱく質を同定することが可能である。より具体的には、超低流量液体クロマトグラフィーにより細かく分離された物質について、精密質量分析装置によってそれぞれの質量を正確に測定することによって、当該物質の同定が行われるものである。
【0005】
しかしながら、超低流量液体クロマトグラフィーから得られる保持時間データに基づいてたんぱく質同定を行う方法は、未だ実用段階にはない。例えば、nanoLC/MSシステムから得られる保持時間データと質量データとを2次元に展開し、その座標からたんぱく質地図を作るという試み自体は、2002年に既に発表されているが (Lipton MS, et al. Proceeding of the National Academy of Sciences. 99:11049, 2002)、そのような試みを実用段階にまで発展させた論文は未だに現れていない。
【0006】
また、Zhang H, et al.による「Molecular & Cellular Proteomics. 4:144, 2005」 には、2次元展開された保持時間データと質量データとに「修正」がなされたという記載があるが、具体的にとのような修正がなされたのかについては、何ら記載がない。
【0007】
そして、2次元展開された保持時間データと質量データとについて、複数のサンプル溶液間での比較を如何にして行うことが好ましいか、という点については、何らの論文も発表されていない。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】Proceeding of the National Academy of Sciences. 99:11049, 2002(Lipton MS, et al)
【非特許文献2】Molecular & Cellular Proteomics. 4:144, 2005(Lipton MS, et al)
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は、このような点を考慮してなされたものであり、検査ごと(測定ごと)に異なり得る保持時間のデータを補正して、実質的に高い再現性を確認することができるような液体クロマトグラフィーのデータ補正方法、特には、超低流量液体クロマトグラフィーの補正方法を提供することを目的とする。
【0010】
また、本発明は、複数の検査対象溶液についてのデータ比較を高精度に実現することができる液体クロマトグラフィーのデータ分析方法、特には、超低流量液体クロマトグラフィーの分析方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明は、液体クロマトグラフィーに被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る測定工程と、前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正する補正工程と、を備えたことを特徴とするデータ補正方法である。
【0012】
本件発明者によれば、液体クロマトグラフィー方法では、測定される保持時間データに関して、後述するように、例えば平均で79秒、最大で192秒ものずれが生じ得る。しかしながら、本発明によれば、2つの2次元データを相関させることによって、実質的に高い再現性を確認することが可能である。すなわち、2つの2次元データを相関させることによって、両者の特徴を重ね合わせて評価することが可能となるため、測定データ自体の絶対値の相違の存在に関わらず、測定データを評価する上で高い再現性を確認することができるのである。これにより、例えば異なる試料間での発現差異さえも識別することが可能となる。従って、本発明は、今後の発展が強く期待されているプロテオミクスの分野において、極めて重要な貢献をもたらすであろう。
【0013】
測定によって得られた2次元データを相関させる対象は、予め求めてあった標準2次元データに限定されない。例えば、測定によって得られた2つの2次元データを相関させることも勿論可能である。
【0014】
すなわち、本発明は、液体クロマトグラフィーに第1被検査物質を含む第1溶液を流して、当該第1溶液の濃度勾配を所定時間かけて生成する第1濃度勾配生成工程と、前記第1濃度勾配生成工程中に分離溶出した前記第1被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第1測定工程と、前記液体クロマトグラフィーに第2被検査物質を含む第2溶液を流して、当該第2溶液の濃度勾配を所定時間かけて生成する第2濃度勾配生成工程と、前記第2濃度勾配生成工程中に分離溶出した前記第2被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第2測定工程と、前記第2測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、前記第1測定工程にて得られた保持時間データと質量電荷比データとの2次元データと相関させることによって補正する補正工程と、を備えたことを特徴とするデータ補正方法である。
【0015】
本発明においても、2つの2次元データを相関させることによって、実質的に高い再現性を確認することが可能である。すなわち、2つの2次元データを相関させることによって、両者の特徴を重ね合わせて評価することが可能となるため、測定データ自体の絶対値の相違の存在に関わらず、測定データを評価する上で高い再現性を確認することができる。
【0016】
更に、相関される2つの2次元データは、異なる液体クロマトグラフィーを用いて得られたものであってもよい。
【0017】
すなわち、本発明は、第1液体クロマトグラフィーに第1被検査物質を含む第1溶液を流して、当該第1溶液の濃度勾配を所定時間かけて生成する第1濃度勾配生成工程と、前記第1濃度勾配生成工程中に分離溶出した前記第1被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第1測定工程と、第2液体クロマトグラフィーに第2被検査物質を含む第2溶液を流して、当該第2溶液の濃度勾配を所定時間かけて生成する第2濃度勾配生成工程と、前記第2濃度勾配生成工程中に分離溶出した前記第2被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第2測定工程と、前記第2測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、前記第1測定工程にて得られた保持時間データと質量電荷比データとの2次元データと相関させることによって補正する補正工程と、を備えたことを特徴とするデータ補正方法である。
【0018】
本発明においても、2つの2次元データを相関させることによって、実質的に高い再現性を確認することが可能である。すなわち、2つの2次元データを相関させることによって、両者の特徴を重ね合わせて評価することが可能となるため、測定データ自体の絶対値の相違の存在に関わらず、測定データを評価する上で高い再現性を確認することができる。
【0019】
本発明によれば、測定される保持時間のずれを補正工程によって補正することが可能であるため、従来は実用されていなかった超低流量の液体クロマトグラフィーのデータを利用することが現実的となる。具体的には、前記濃度勾配生成工程において、液体クロマトグラフィーに被検査物質を含む溶液を、500nl/min以下の流量、特に好ましくは200nl/min程度の流量、で流すことができる。
【0020】
また、好ましくは、前記補正工程では、2つの2次元データのサイクル番号(保持時間に対する昇順番号)を各軸とした2次元の格子座標を用いて最適対応位置を探索する動的アルゴリズムが用いられるようになっている。
【0021】
より具体的には、前記動的アルゴリズムは、例えば、一方の2次元データのnサイクル目における質量電荷比(マススペクトル)A(n)と、他方の2次元データのmサイクル目における質量電荷比B(n)と、の間のピアソン積率相関係数をR(A(n),B(m))とし、ギャップペナルティをgとし、一方の2次元データの総サイクル数をNとし、他方の2次元データの総サイクル数をMとした時、2つの2次元データのサイクル番号を各軸とした2次元の格子座標L(i,j)を、
L(i,j)=max(L(i−1,j) +g、
L(i, j−1)+g、
L(i−1,j−1)+R(A(n),B(m)))
によって求め(i=1,・・・,N、j=1,・・・,M)、最適対応位置に対応するように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=V0 を始点として、
L=argmax(Vi ),(Vi =Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))
で表される座標配列を決定するようになっている。
【0022】
更に好ましくは、前記動的アルゴリズムは、L=argmax(Vi )のうちで Vi+1 =Vi +(1,1)を満たす座標のみを抽出した後、サイクル番号を保持時間に変換し、スプライン補完または多項式回帰により得られる曲線を補正関数として決定するようになっている。
【0023】
また、本発明は、複数の被検査物質(または第2被検査物質)をそれぞれ含む複数の溶液(または第2溶液)の各々について、前記のいずれかの特徴を有するデータ補正方法を実施するデータ補正工程と、前記データ補正方法によって補正された保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液(または各第2溶液)の保持時間データを並列に並べた2次元画像データに展開するデータ展開工程と、前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出工程と、を備えたことを特徴とするデータ分析方法である。
【0024】
本発明によれば、複数の被検査物質(または第2被検査物質)をそれぞれ含む複数の溶液(または第2溶液)から保持時間データの同一ピークを抽出することにより、当該複数の溶液(または第2溶液)のデータ特性を効果的に分析することができる。これにより、腫瘍マーカー等の疾患マーカーの開発を著しく促進することが期待できる。
【0025】
例えば、第1群に属する複数の被検査物質(または第2被検査物質)をそれぞれ含む複数の溶液(または第2溶液)について、及び、第2群に属する複数の被検査物質(または第2被検査物質)をそれぞれ含む複数の溶液(または第2溶液)について、前記のデータ分析方法を実施し(データ分析工程)、第1群の複数の溶液(または第2溶液)から得られた保持時間データの同一ピークと、第2群の複数の溶液(または第2溶液)から得られた保持時間データの同一ピークと、を比較して、両者に有意な差があるか否かを検証し(検定工程)、有意な差が認められるならば、それらの差を「マーカー」として利用することができるのである。
【0026】
ここで、通常、前記同一ピーク抽出工程は、各溶液(または各第2溶液)の保持時間データについてのピークを検出するピーク検出工程と、前記ピーク検出工程で検出された各溶液(または各第2溶液)のピーク同士の対応関係を特定する同一ピーク特定工程と、を含んでいる。
【0027】
そして、好ましくは、前記同一ピーク特定工程は、所定の保持時間幅内に含まれる候補ピークを抽出する候補ピーク抽出工程と、ある溶液(または第2溶液)において前記候補ピーク抽出工程で抽出された候補ピークが一つ以上ある場合には、当該溶液(または第2溶液)についての候補ピークを一つ選択し、ある溶液(または第2溶液)において前記候補ピーク抽出工程で抽出された候補ピークが無い場合には、当該溶液(または第2溶液)についての候補ピークは無いものとして、前記候補ピークの選択の全組合せの各々について、選択された候補ピークのスコア(総強度)を計算するスコア計算工程と、前記スコア計算工程で得られたスコアのうち、最大のスコアを提供する候補ピークの選択の組み合わせを、互いに対応する同一ピークとして特定するピーク特定工程と、を有している。
【0028】
この場合、より好ましくは、前記同一ピーク特定工程は、前記ピーク特定工程の後に、前記ピーク特定工程において特定された同一ピークによって保持時間データを区間分割するデータ分割工程を更に含んでおり、前記データ分割工程において区間分割された保持時間データについて、前記候補ピーク抽出工程、前記スコア計算工程、前記ピーク特定工程、及び、前記データ分割工程を再帰的に繰り返すようになっている。
【0029】
また、例えば、前記候補ピーク抽出工程は、各ピークを基準にして、当該ピークからの許容ずれ範囲幅を所定の保持時間幅として行われるようになっている。例えば、前記許容ずれ範囲幅は、+側に0.7minである。
【0030】
この場合、計算数(演算負担)低減のために、前記候補ピーク抽出工程で抽出された候補ピークが無い溶液(または第2溶液)の割合が、所定の最小検出率を下回った場合には、当該ピークを基準にした前記同一ピーク特定工程の実施が終了されるようになっていることが好ましい。この場合、好ましくは、前記最小検出率は、0.1〜0.4に設定される(0.5を越えると、二群間での有意な差を特定し難くなる)。
【0031】
また、好ましくは、前記データ展開工程は、単位質量電荷ごとに、各溶液(または各第2溶液)の保持時間データを並列に並べた2次元画像データに展開するようになっており、前記同一ピーク抽出工程は、前記2次元画像データに基づいて、単位質量電荷ごとに、保持時間データの同一ピークを抽出するようになっている。
【0032】
また、本発明は、液体クロマトグラフィーに被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る測定工程と、を備えた液体クロマトグラフィー方法のためのデータ補正装置であって、前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正するようになっており、2つの2次元データのサイクル番号(保持時間に対する昇順番号)を各軸とした2次元の格子座標を用いて最適対応位置を探索する動的アルゴリズム(ソフトウェア)が用いられるようになっていることを特徴とするデータ補正装置である。
【0033】
前記補正装置あるいは当該補正装置の各要素手段は、コンピュータシステムによって実現され得る。
【0034】
また、コンピュータシステムにそれらを実現させるためのプログラム及び当該プログラムを記録したコンピュータ読取り可能な記録媒体も、本件の保護対象である。
【0035】
ここで、記録媒体とは、フレキシブルディスク等の単体として認識できるものの他、各種信号を伝搬させるネットワークをも含む。
【0036】
また、本発明は、同一のまたは異なる液体クロマトグラフィーに複数の被検査物質をそれぞれ含む複数の溶液を流して、当該各溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、各溶液毎に、保持時間データと質量電荷比データとを対応付けて得る測定工程と、前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液の保持時間データを並列に並べた2次元画像データに展開するデータ展開工程と、前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出工程と、を備えたことを特徴とするデータ分析方法である。
【0037】
本件出願の時点では、本願において優先権主張の基礎とする「特願2005−177547」にて提案されたデータ補正方法を利用しなければ、前記2次元画像データに基づいて保持時間データの同一ピークを抽出するという同一ピーク抽出工程を、事実上実施することができない(図16に示すように、ピーク同士の対応を特定することができない)。しかしながら、将来においてデータ測定方法の精度が向上した場合には、「特願2005−177547」にて提案されたデータ補正方法を用いることなく、本願において提案するデータ分析方法が単独で利用され得る。すなわち、本発明によれば、複数の被検査物質(または第2被検査物質)をそれぞれ含む複数の溶液(または第2溶液)から保持時間データの同一ピークを抽出することにより、当該複数の溶液(または第2溶液)のデータ特性を効果的に分析することができ、腫瘍マーカー等の疾患マーカーの開発を著しく促進することが期待できる。
【0038】
また、本発明は、同一のまたは異なる液体クロマトグラフィーに複数の被検査物質をそれぞれ含む複数の溶液を流して、当該各溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、各溶液毎に、保持時間データと質量電荷比データとを対応付けて得る測定工程と、を備えた液体クロマトグラフィー方法のためのデータ分析装置であって、前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液の保持時間データを並列に並べた2次元画像データに展開するデータ展開装置と、前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出装置と、を備えたことを特徴とするデータ分析装置である。
【0039】
前記データ分析装置あるいは当該データ分析装置の各要素手段は、コンピュータシステムによって実現され得る。
【0040】
また、コンピュータシステムにそれらを実現させるためのプログラム及び当該プログラムを記録したコンピュータ読取り可能な記録媒体も、本件の保護対象である。
【0041】
ここで、記録媒体とは、フレキシブルディスク等の単体として認識できるものの他、各種信号を伝搬させるネットワークをも含む。
【図面の簡単な説明】
【0042】
【図1】本発明の一実施の形態の概略を示すフロー図。
【図2】本発明の一実施の形態の動的アルゴリズムの概念を示す概略図。
【図3】本発明の一実施の形態の動的アルゴリズムの概念を示す概略図。
【図4】本発明の一実施の形態の動的アルゴリズムの作用を説明する概略図。
【図5】本発明の一実施の形態の動的アルゴリズムの作用を説明する概略図。
【図6】本発明の一実施の形態の動的アルゴリズムの作用を説明する概略図。
【図7】測定データの補正の例(相違の例)を示すグラフ。
【図8】補正されたデータの再現性を示すグラフ。
【図9】本発明の第2の実施の形態の概略を示すフロー図。
【図10】各サンプルの保持時間データを縦軸方向に並べた2次元画像データの例。
【図11a】ベースライン補正工程の概念を示すグラフ。
【図11b】スムージング工程の概念を示すグラフ。
【図11c】ピーク検出工程の概念を示すグラフ。
【図12a】2次元画像データの例。
【図12b】図12aの2次元画像データから検出されたピークを示す画像データ。
【図13】本実施の形態の同一ピーク抽出工程(同一ピーク抽出アルゴリズム)を示す概略フロー図。
【図14a】有意差が認められた同一ピークを含む2つの2次元画像の例。
【図14b】図14aのROC曲線。
【図14c】図14aのピーク強度分布図。
【図15a】有意差が認められた2つの同一ピークを含む2組の2次元画像の例。
【図15b】図15aのピーク強度分布図。
【図16】データ補正を行わない場合の2次元画像の例。
【発明を実施するための形態】
【0043】
以下、本発明の実施の形態を、図面を参照して説明する。
【0044】
まず、本実施の形態で使用された被検査物質及び溶液について説明する。
【0045】
被検査物質としては、テトラサイクリンで発現コントロールできるアクチニン4(ACTN4 )を遺伝子導入したDLD1ヒト大腸癌細胞株(Honda et al. Gastroenterology 2005; 128: 51-62)が用いられた。通常培養ではACTN4が発現されるが(DLD1 Tet-off ACTN4 )、0.01〜0.1μg/mlのドキソサイクリン(Dox)により、ACTN4の発現は抑制される(DLD1 Tet-on ACTN4 )。DLD1 Tet-off ACTN4 及びDLD1 Tet-on ACTN4 のそれぞれの細胞溶液を3mg/mlの濃度で調整した。
【0046】
次に、DLD1 Tet-off ACTN4 及びDLD1 Tet-on ACTN4 のそれぞれの細胞溶液を100μl採って、アセトン沈殿にて蛋白濃縮を行った。そして、5MのUREAを10μl、1MのNH4 HCO3 を2.5μl、トリプシンを3.3μg加えた後、精製水にて50μlとした。
【0047】
そして、37℃で20時間消化反応させた後、アセトニトリル50μlを添加し、17400Gで10分間遠心し、上清を他のチューブに移し、スピードバックを用いて乾燥した。そして、0.1%蟻酸50μlで溶解して、測定用のサンプル(溶液)とした(図1:STEP1)。
【0048】
一方、超低流量液体クロマトグラフィーとして、Splitless Nano HPLC System (KYA,東京)が用いられた。粒子径3μm、ポアサイズ120Åの高純度シリカゲルに、オクタデシル基を導入後、残存シラノール基を極限までエンドキャッピングした内径0.15mm、長さ50mmの逆相カラムが分離カラムに、内径0.5mm、長さ1mmのものがトラップカラムに、それぞれ用いられた(HiQ sil,KYA,東京)。
【0049】
そして、前記サンプルを10μl採って、200nl/minという超低流量で、0.1%蟻酸から0.1%蟻酸80%アセトニトリルまで、60分間かけて、連続濃度勾配を生成した(図1:STEP2)。その間に、各成分が分離溶出した(図1:STEP3)。
【0050】
各成分の質量分析には、QTOF Ultima(Waters, MA, USA)が用いられ、250〜1600M/Zまでの範囲で、スキャン時間を1秒として、セントロイド形式で、60分間測定が行われた。DLD1 Tet-off ACTN4 及びDLD1 Tet-on ACTN4 のそれぞれについて、duplicate でデータが採取された(2回データが採取された)(図1:STEP4)。
【0051】
データの2次元表示では、質量電荷比が1m/z(mass to charge ratio )の範囲ごとの最大値に変換されて、wiff形式で出力された。なお、解析対象範囲は、質量電荷比が500〜1000m/z、保持時間(RT)が1〜1800sec、に限定され、強度(Intensity)<200の値が、1〜255のグレースケールに置換されて表示された。
【0052】
そして、本実施の形態では、2つのサンプルから採取された各2回(計4回)のデータを相関させることで、データ補正が行われた(図1:STEP5)。
【0053】
まず、本実施の形態において採用された、データ補正のために用いられる補正関数の求め方(アルゴリズム)を説明する。
【0054】
本実施の形態では、参照される側の(標準とされる)2次元データをA、補正対象となる2次元データをBとし、各保持時間におけるマススペクトル相関係数の和が最大になるような補正関数が導出される。
【0055】
まず、実行速度の向上と質量計測誤差に対しての冗長性の確保のため、各RT(保持時間)におけるマススペクトルのイオン強度が1m/z区間毎の代表値に変換される。
【0056】
次に、2つの2次元データA、Bのサイクル番号(各RTに対する昇順番号)を各軸とした2次元の格子座標を用いて、以下に説明するような動的アルゴリズムにより、最適対応位置を与える経路探索が行われる。
【0057】
本実施の形態の動的アルゴリズムは、一方の2次元データのnサイクル目における質量電荷比(マススペクトル)A(n)と、他方の2次元データのmサイクル目における質量電荷比B(n)と、の間のピアソン積率相関係数をR(A(n),B(m))とし、ギャップペナルティをgとし(典型的には、−0.5)、一方の2次元データの総サイクル数をNとし、他方の2次元データの総サイクル数をMとした時、2つの2次元データのサイクル番号を各軸とした2次元の格子座標L(i,j)を、
L(i,j)=max(L(i−1,j) +g、
L(i, j−1)+g、
L(i−1,j−1)+R(A(n),B(m)))
によって求める(i=1,・・・,N、j=1,・・・,M)。
【0058】
そして、最適対応位置に対応するように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=V0 を始点として、
L=argmax(Vi ),(Vi =Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))
で表される座標配列が決定される。
【0059】
更に、本実施の形態の動的アルゴリズムは、L=argmax(Vi )のうちで Vi+1 =Vi +(1,1)を満たす座標のみを抽出した後、座標系をサイクル番号からRTへ変換して、スプライン補完または多項式回帰により得られる曲線を補正関数とする。
【0060】
以上のアルゴリズムについて、図面を用いて説明すると、以下のようになる。
【0061】
図2に示すように、参照データ「A」に対して、対象データ「A」はY軸方向に歪んだ図形(データ列)である。この場合、本アルゴリズムは、f−1(y’)を求めるアルゴリズムに相当するものである。
【0062】
図3は、図2に対応して形成されたyとy’とを軸とする平面を示している。図3において、四角印を結んだ線が、この場合のy−y’対応位置を示す線である。本アルゴリズムは、このy−y’対応位置(経路)を求めるものである。
【0063】
図4は、図2及び図3の例に対応して、各格子点についてピアソン積率相関係数R(A(n),B(m))を求め、ギャップペナルティを−0.5として、実際に本アルゴリズムを用いてL(i,j)を求めていく過程を示している。
【0064】
全ての(i,j)に対するL(i,j)が求められたら、図5に示すように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=V0 が始点として特定され、L=argmax(Vi ),(Vi =Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))で表される座標配列が決定される。
【0065】
最後に、図6に示すように、L=argmax(Vi )のうちで Vi+1 =Vi +(1,1)を満たす座標のみを抽出した後、サイクル番号を保持時間に変換し、スプライン補完または多項式回帰により曲線を得る。当該曲線が求めるべき補正関数である。
【0066】
以上のようなアルゴリズムにより、本実施の形態において2つのサンプルから得られた4つの2次元データのうちの3つが補正された。
【0067】
データ補正にあたっては、まず、RollingBall Algorithm (from ”NIH Image J”)(Radius = 50)を用いて、バックグラウンドが計算された。そして、各ポイントでの閾値を(バックグラウンド値+データ値)/2として、閾値以上の値を持つ隣接するスポットを統合し、peak intensity = Intensity総和、peak mz = MZ重心、peak rt = RT重心として、ピークの検出がなされた。そして、検出されたピークが、液体クロマトグラフィーの補正されたデータ(前記アルゴリズムにより得られた補正関数をかけた後の保持時間のデータ)に当て嵌められ、得られた(補正された)同一サンプルの2つの2次元データが重ね合わされ、「統合」された(平均化された)。この「統合」処理では、質量電荷比、溶出時間(保持時間)の変動の許容範囲が、それぞれ、±2、±20とされた。また、その中に複数のピークが存在する時には、Intensityのより高い方を採用し、MZ,RTは平均値とした。このようにして得られた各サンプルのデータから、pairを検出し、pairが検出された場合に、それぞれのpeak intensityの比が算出された(図1:STEP6)。
【0068】
結果を以下にまとめて示す。
【0069】
前記のように、DLD1 Tet-off ACTN4 及びDLD1 Tet-on ACTN4 のそれぞれに対して、duplicateでデータが採取されたが(以下、Off1、Off2、On1、On2とする)、これら4つのデータのうち、DLD1 Tet-off ACTN4の一方のデータ(Off1)がマスターデータ(標準データ)とされ、他の3つのデータが上記アルゴリズムにより得られた補正関数によって補正された。
【0070】
図7に示すように、Off1データを基準とすると、補正前のOff2は、最大で190sec、平均で71.9secの相違(変動)があり、補正前のOn1は、最大で192sec、平均で130.2secの相違(変動)があり、補正前のOn2は、最大で80sec、平均で36.3secの相違(変動)があった(図7において、X軸方向のずれが相違(変動)である)。ところが、上記アルゴリズムにより得られた補正関数による補正の結果、図8に示すように、同一サンプルのDLD1 Tet-off ACTN4 (Off1、Off2)では、0.92という高い相関係数を得ることができ、また同様に、同一サンプルのDLD1 Tet-on ACTN4(On1、On2)でも、0.94という高い相関係数を得ることができた。
【0071】
なお、Off1と補正されたOff2とを平均化して得られた値をDLD1 Tet-off ACTN4の代表値とし、補正されたOn1と補正されたOn2とを平均化して得られた値をDLD1 Tet-on ACTN4の代表値として、それら2群間で、強い発現があるほうのpeak intensityが10以上で一方に発現がないもの、あるいは、peak intensityの比が3以上であるもの、が203peak認められた(DLD1 Tet-off ACTN4優位が107peak、DLD1 Tet-on ACTN4優位が96peak)。これらのpeakはアクチニン4(ACTN4 )の発現によって変動するものと認められ、すなわち、アクチニン4(蛋白)の同定が可能であった。
【0072】
このように、測定データ自体には再現性を見出すことが困難な同一種のサンプルの複数回の測定データ(Off1とOff2、あるいは、On1とOn2)を相関させて補正することにより、ある程度の再現性を有する同一種のデータ群とみなすことができ、それらを平均化して得られる値を代表値とすることで、より高精度の同定ないし診断を行うことが可能となる。すなわち、2つ以上の2次元データを相関させることによって、それらの特徴を重ね合わせて評価することが可能となり、測定データ自体の相違の存在に関わらず測定データを評価する上で高い再現性を認めることができ、多くの検体、たとえば患者血清で比較検討すること等が可能となる。これにより、今までとは異なる病気に関するマーカーを開発できる可能性が顕著に高められる。
【0073】
なお、前記のデータ補正の処理は、通常、各種のコンピュータシステムによって構成され得るデータ補正装置によって実施され得る。ここで、当該データ補正装置をコンピュータシステム上に実現させるためのプログラム及び当該プログラムを記録したコンピュータ読取り可能な記録媒体も、本件の保護対象である。
【0074】
さらに、データ補正装置が、コンピュータシステム上で動作するOS等のプログラム(第2のプログラム)によって実現される場合、当該OS等のプログラムを制御する各種命令を含むプログラム及び当該プログラムを記録した記録媒体も、本件の保護対象である。
【0075】
ここで、記録媒体とは、フレキシブルディスク等の単体として認識できるものの他、各種信号を伝搬させるネットワークをも含む。
【0076】
次に、本発明の第2の実施の形態を、図面を参照して説明する。
【0077】
まず、本実施の形態で使用された被検査物質及び溶液について説明する。
【0078】
本実施の形態では、被検査物質として、膵臓癌患者18例の血漿(第1群)と非担癌者19例の血漿(第2群)を、それぞれ10μl用いた。そして、これらから、100μlのconcanavalin Aに吸着する糖タンパク分画を抽出した(この処理は、必須の処理では無いが、感度調整という点で実施することが好ましい)。
【0079】
そして、当該糖タンパク分画の各々に、5MのUREAを10μl、1MのNH4 HCO3 を2.5μl、トリプシンを3.3μg加えた後、精製水にて50μlとした。
【0080】
そして、37℃で20時間消化反応させた後、アセトニトリル50μlを添加し、17400Gで10分間遠心し、上清を他のチューブに移し、スピードバックを用いて乾燥した。そして、0.1%蟻酸50μlで溶解して、測定用のサンプル(溶液)とした(図9:STEP21)。
【0081】
一方、超低流量液体クロマトグラフィーとして、Splitless Nano HPLC System (KYA,東京)が用いられた。粒子径3μm、ポアサイズ120Åの高純度シリカゲルに、オクタデシル基を導入後、残存シラノール基を極限までエンドキャッピングした内径0.15mm、長さ50mmの逆相カラムが分離カラムに、内径0.5mm、長さ1mmのものがトラップカラムに、それぞれ用いられた(HiQ sil,KYA,東京)。
【0082】
そして、前記サンプルを10μl採って、200nl/minという超低流量で、0.1%蟻酸から0.1%蟻酸80%アセトニトリルまで、60分間かけて、連続濃度勾配を生成した(図9:STEP22)。その間に、各成分が分離溶出した(図9:STEP23)。
【0083】
各成分の質量分析には、QTOF Ultima(Waters, MA, USA)が用いられ、250〜1600M/Zまでの範囲で、スキャン時間を1秒として、セントロイド形式で、60分間測定が行われた。各サンプル(溶液)について、triplicate でデータが採取された(3回データが採取された)(図9:STEP24)。
【0084】
データの2次元表示では、質量電荷比が1m/z(mass to charge ratio )の範囲ごとの最大値に変換されて、wiff形式で出力された。なお、解析対象範囲は、質量電荷比が500〜1000m/z、保持時間(RT)が1〜1800sec、に限定され、強度(Intensity)<200の値が、1〜255のグレースケールに置換されて表示された。
【0085】
そして、本実施の形態では、37例のサンプルから採取された各3回(計111回)のデータを相関させることで、データ補正が行われた(図9:STEP25)。
【0086】
本実施の形態でも、前記実施の形態に関して説明されたアルゴリズムに従って、参照される側の(標準とされる)2次元データをA、補正対象となる2次元データをBとし、各保持時間におけるマススペクトル相関係数の和が最大になるような補正関数が導出され、得られた補正関数が各サンプルの保持時間のデータに掛けられた。ここでは、ある非担癌者の血漿に基づくデータが、参照される側の(標準とされる)2次元データAとして用いられた。
【0087】
このようにして得られた補正後の2次元データ(保持時間データ−質量電荷比データ)について、本実施の形態では、コンピュータシステムにより構成されたデータ分析装置によって、1m/z毎に、各サンプルデータの保持時間データを並列に並べた2次元画像データに展開された(図9:STEP26)。
【0088】
2次元画像データの例を図10に示す。図10において、横軸方向が保持時間(RT:20〜30min)であり、縦軸方向に各サンプルデータが並べられている。図10は、863m/zについての2次元画像データである。
【0089】
そして、前記データ分析装置によって、新規に開発された同一ピーク抽出アルゴリズムに従って、2次元画像データ中の保持時間データの同一ピークが抽出された(図9:STEP27)。
【0090】
ここで、本実施の形態の同一ピーク抽出アルゴリズムは、各サンプルデータの保持時間データに対する、ベースライン補正工程(図11(a))と、スムージング工程(図11(b))と、ピーク検出工程(図11(c))と、を含んでいる。
【0091】
ベースライン補正とは、試料の光散乱の影響などでスペクトル波形に生じるベースラインの傾きやうねりを矯正するための処理である。スムージングとは、ガウス関数による加重平均をとることでノイズを除去する処理である(数1参照)。これらの処理は、データ分析のための処理手法として、従前からよく利用されているものである。
【数1】
【0092】
また、本実施の形態のピーク検出工程では、データポイント毎に信号/ノイズ比を算出することによって、ピーク検出精度を高めている。
【0093】
検出されたピークを示す画像の例を、図12(b)に示す。図12(a)が2次元画像データの例であり、図12(b)が図12(a)のデータから検出されたピークを示す画像データである。
【0094】
そして、本実施の形態の同一ピーク抽出アルゴリズムは、ピーク検出工程で検出された各サンプルデータのピーク同士の対応関係を特定する同一ピーク特定工程を含んでいる。
【0095】
この同一ピーク特定工程は、図13に示すように、各ピークを基準にして、当該ピークからの許容ずれ範囲幅を所定の保持時間幅とし、当該保持時間幅内に含まれる候補ピークを抽出する候補ピーク抽出工程を有している(図13:STEP31)。許容ずれ範囲幅は、例えば、+側に0.7minである。
【0096】
そして、同一ピーク特定工程は、あるサンプルデータにおいて前記保持時間幅内に抽出された候補ピークが一つ以上ある場合には、当該サンプルデータについての候補ピークを一つ選択し、あるサンプルデータにおいて前記保持時間幅内に抽出された候補ピークが無い場合には、当該サンプルデータについての候補ピークは無いものとして、前記候補ピークの(全サンプルデータに亘る)選択の全組合せの各々について、選択された候補ピークのスコア(総強度)を計算するスコア計算工程を有している(図13:STEP32)。
【0097】
ここで、前記保持時間幅内に抽出された候補ピークが無いサンプルデータの割合が、所定の最小検出率を下回った場合には、その時点で、当該保持時間幅での前記同一ピーク特定工程の実施が終了されるようになっていることが好ましい。そのような場合には、当該保持時間幅内において同一ピークを特定すべきでないからである。最小検出率は、通常、0.1〜0.4に設定される(0.5を越えると、二群間での有意な差を特定し難くなると考えられる)。
【0098】
そして、スコア計算工程で得られたスコアのうち、最大のスコアを提供する候補ピークの選択の組み合わせが、互いに対応する同一ピークとして特定される(ピーク特定工程)(図13:STEP33)。そして、対応する同一ピークが認められなかった(抽出されなかった)サンプルデータに対して、ピークを補完する処理が行われる(図13:STEP34)。
【0099】
その後、特定及び補完された同一ピークによって、保持時間データが区間分割される(データ分割工程)(図13:STEP35)。そして、当該データ分割工程において区間分割された保持時間データ(の双方)について、前記候補ピーク抽出工程、前記スコア計算工程、前記ピーク特定工程、及び、前記データ分割工程が再帰的に繰り返される(図13:STEP36)。
【0100】
以上のような本実施の形態の同一ピーク抽出アルゴリズムによって、105457個の同一ピークが特定された。これらの同一ピークについて、膵臓癌患者18例の血漿(第1群)に基づく同一ピークと、非担癌者19例の血漿(第2群)に基づく同一ピークと、を比較し、両者に有意な差があるか否かを検証し、有意な差が認められるのであれば、それらの差を「マーカー」として利用することができる(図9:STEP28)。
【0101】
具体的には、本実施の形態の場合、膵臓癌患者群と非担癌者群とで、平均ピーク強度が10以上であってU検定で0.0001以下の有意差を示したものが、109ピーク認められた(膵臓癌患者群優位が80ピーク、非担癌者群優位が29ピーク)。また、ROC曲線下面積が0.9以上であるピークが、32認められた。
【0102】
これら32のピークのうちの一つについて、図14(a)乃至図14(c)に、2次元画像(図14(a))と、ROC曲線(図14(b))と、ピーク強度分布図(図14(c))と、を示す。
【0103】
また、前記32のピークに対して、SVMを用いて、2因子での解析を行った。クロスバリデーションを行ったうえで、判別率が100%(感度100%、特異度100%)であるピークの組み合わせが3つあり、判別率が97%(感度100%、特異度95%、あるいは、感度94%、特異度100%)のピークの組み合わせが28あった。図15(a)に、組み合わせにより判別率が100%(感度100%、特異度100%)となるピーク画像を示し、図15(b)に、そのピークを用いて分けられた膵臓癌患者と非担癌者とのピーク強度の分布を示す。
【0104】
このように、本実施の形態によれば、膵臓癌患者の血漿を含む溶液から保持時間データの同一ピークを抽出すると共に非担癌者の血漿を含む溶液から保持時間データの同一ピークを抽出し、両者を比較することによって、膵臓癌マーカーの開発を促進することができる。
【0105】
なお、前記のデータ分析の処理は、通常、各種のコンピュータシステムによって構成され得るデータ分析装置によって実施され得る。ここで、当該データ分析装置をコンピュータシステム上に実現させるためのプログラム及び当該プログラムを記録したコンピュータ読取り可能な記録媒体も、本件の保護対象である。
【0106】
さらに、データ分析装置が、コンピュータシステム上で動作するOS等のプログラム(第2のプログラム)によって実現される場合、当該OS等のプログラムを制御する各種命令を含むプログラム及び当該プログラムを記録した記録媒体も、本件の保護対象である。
【0107】
ここで、記録媒体とは、フレキシブルディスク等の単体として認識できるものの他、各種信号を伝搬させるネットワークをも含む。
【0108】
なお、前記実施の形態は、膵臓癌マーカーの開発を意図したものであるが、本発明はこれに限定されるものではない。複数の被検査物質をそれぞれ含む複数の溶液から保持時間データの同一ピークを抽出することにより、当該複数の溶液のデータ特性を効果的に特定(分析)することができるため、各種の疾患マーカーの開発を促進することが期待できる。
【0109】
また、本件出願の時点では、本願において優先権主張の基礎とする「特願2005−177547」にて提案されたデータ補正方法を利用しなければ、各サンプルデータの保持時間データを並べた2次元画像データは図16に示すような状態であるので、当該2次元画像データに基づいて保持時間データの同一ピークを抽出するという同一ピーク抽出工程を実施することは事実上不可能である。しかしながら、将来においてデータ測定方法の精度が向上した場合には、前記データ補正方法を用いることなく、前記データ分析方法のみが単独で利用されることもあり得る。
【技術分野】
【0001】
本発明は、プロテオーム解析における液体クロマトグラフィーのデータ処理方法、特には、超低流量液体クロマトグラフィーのデータ処理方法に関している。
【背景技術】
【0002】
液体クロマトグラフィーは、カラムに装填された樹脂と溶液中の物質との特異的な親和性を利用して、溶液の段階的な濃度勾配を作り出すことにより、ある特定の溶液濃度で樹脂から物質を遊離させる方法である。
【0003】
濃度勾配は、時間の関数として表されるように(時間の長さに対応して変化するように)作り出される。このため、物質が遊離されてくる保持時間(retention time )を把握することによって、当該物質の同定(特定)が可能である。従って、液体クロマトグラフィーにおける物質の同定は、保持時間の再現性が最も重要である。ここで、カラムへの溶液の流量が多い場合には、比較的よい再現性が得られるが、カラムへの溶液の流量が少ない場合には、再現性はよくないといわれている。
【0004】
また、質量分析器を用いたプロテオミクスの手法によれば、生物が有するたんぱく質を、定量的に同定することができる。このため、プロテオミクスの手法は、医学及び生物学の分野において広く応用され始めている。プロテオミクスの手法の中で、超低流量液体クロマトグラフィーと精密質量分析装置とを組み合わせたnanoLC/MSシステムという装置が、最近注目を集めている。当該装置によれば、微量のサンプルから、莫大な量のたんぱく質を同定することが可能である。より具体的には、超低流量液体クロマトグラフィーにより細かく分離された物質について、精密質量分析装置によってそれぞれの質量を正確に測定することによって、当該物質の同定が行われるものである。
【0005】
しかしながら、超低流量液体クロマトグラフィーから得られる保持時間データに基づいてたんぱく質同定を行う方法は、未だ実用段階にはない。例えば、nanoLC/MSシステムから得られる保持時間データと質量データとを2次元に展開し、その座標からたんぱく質地図を作るという試み自体は、2002年に既に発表されているが (Lipton MS, et al. Proceeding of the National Academy of Sciences. 99:11049, 2002)、そのような試みを実用段階にまで発展させた論文は未だに現れていない。
【0006】
また、Zhang H, et al.による「Molecular & Cellular Proteomics. 4:144, 2005」 には、2次元展開された保持時間データと質量データとに「修正」がなされたという記載があるが、具体的にとのような修正がなされたのかについては、何ら記載がない。
【0007】
そして、2次元展開された保持時間データと質量データとについて、複数のサンプル溶液間での比較を如何にして行うことが好ましいか、という点については、何らの論文も発表されていない。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】Proceeding of the National Academy of Sciences. 99:11049, 2002(Lipton MS, et al)
【非特許文献2】Molecular & Cellular Proteomics. 4:144, 2005(Lipton MS, et al)
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は、このような点を考慮してなされたものであり、検査ごと(測定ごと)に異なり得る保持時間のデータを補正して、実質的に高い再現性を確認することができるような液体クロマトグラフィーのデータ補正方法、特には、超低流量液体クロマトグラフィーの補正方法を提供することを目的とする。
【0010】
また、本発明は、複数の検査対象溶液についてのデータ比較を高精度に実現することができる液体クロマトグラフィーのデータ分析方法、特には、超低流量液体クロマトグラフィーの分析方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明は、液体クロマトグラフィーに被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る測定工程と、前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正する補正工程と、を備えたことを特徴とするデータ補正方法である。
【0012】
本件発明者によれば、液体クロマトグラフィー方法では、測定される保持時間データに関して、後述するように、例えば平均で79秒、最大で192秒ものずれが生じ得る。しかしながら、本発明によれば、2つの2次元データを相関させることによって、実質的に高い再現性を確認することが可能である。すなわち、2つの2次元データを相関させることによって、両者の特徴を重ね合わせて評価することが可能となるため、測定データ自体の絶対値の相違の存在に関わらず、測定データを評価する上で高い再現性を確認することができるのである。これにより、例えば異なる試料間での発現差異さえも識別することが可能となる。従って、本発明は、今後の発展が強く期待されているプロテオミクスの分野において、極めて重要な貢献をもたらすであろう。
【0013】
測定によって得られた2次元データを相関させる対象は、予め求めてあった標準2次元データに限定されない。例えば、測定によって得られた2つの2次元データを相関させることも勿論可能である。
【0014】
すなわち、本発明は、液体クロマトグラフィーに第1被検査物質を含む第1溶液を流して、当該第1溶液の濃度勾配を所定時間かけて生成する第1濃度勾配生成工程と、前記第1濃度勾配生成工程中に分離溶出した前記第1被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第1測定工程と、前記液体クロマトグラフィーに第2被検査物質を含む第2溶液を流して、当該第2溶液の濃度勾配を所定時間かけて生成する第2濃度勾配生成工程と、前記第2濃度勾配生成工程中に分離溶出した前記第2被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第2測定工程と、前記第2測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、前記第1測定工程にて得られた保持時間データと質量電荷比データとの2次元データと相関させることによって補正する補正工程と、を備えたことを特徴とするデータ補正方法である。
【0015】
本発明においても、2つの2次元データを相関させることによって、実質的に高い再現性を確認することが可能である。すなわち、2つの2次元データを相関させることによって、両者の特徴を重ね合わせて評価することが可能となるため、測定データ自体の絶対値の相違の存在に関わらず、測定データを評価する上で高い再現性を確認することができる。
【0016】
更に、相関される2つの2次元データは、異なる液体クロマトグラフィーを用いて得られたものであってもよい。
【0017】
すなわち、本発明は、第1液体クロマトグラフィーに第1被検査物質を含む第1溶液を流して、当該第1溶液の濃度勾配を所定時間かけて生成する第1濃度勾配生成工程と、前記第1濃度勾配生成工程中に分離溶出した前記第1被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第1測定工程と、第2液体クロマトグラフィーに第2被検査物質を含む第2溶液を流して、当該第2溶液の濃度勾配を所定時間かけて生成する第2濃度勾配生成工程と、前記第2濃度勾配生成工程中に分離溶出した前記第2被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第2測定工程と、前記第2測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、前記第1測定工程にて得られた保持時間データと質量電荷比データとの2次元データと相関させることによって補正する補正工程と、を備えたことを特徴とするデータ補正方法である。
【0018】
本発明においても、2つの2次元データを相関させることによって、実質的に高い再現性を確認することが可能である。すなわち、2つの2次元データを相関させることによって、両者の特徴を重ね合わせて評価することが可能となるため、測定データ自体の絶対値の相違の存在に関わらず、測定データを評価する上で高い再現性を確認することができる。
【0019】
本発明によれば、測定される保持時間のずれを補正工程によって補正することが可能であるため、従来は実用されていなかった超低流量の液体クロマトグラフィーのデータを利用することが現実的となる。具体的には、前記濃度勾配生成工程において、液体クロマトグラフィーに被検査物質を含む溶液を、500nl/min以下の流量、特に好ましくは200nl/min程度の流量、で流すことができる。
【0020】
また、好ましくは、前記補正工程では、2つの2次元データのサイクル番号(保持時間に対する昇順番号)を各軸とした2次元の格子座標を用いて最適対応位置を探索する動的アルゴリズムが用いられるようになっている。
【0021】
より具体的には、前記動的アルゴリズムは、例えば、一方の2次元データのnサイクル目における質量電荷比(マススペクトル)A(n)と、他方の2次元データのmサイクル目における質量電荷比B(n)と、の間のピアソン積率相関係数をR(A(n),B(m))とし、ギャップペナルティをgとし、一方の2次元データの総サイクル数をNとし、他方の2次元データの総サイクル数をMとした時、2つの2次元データのサイクル番号を各軸とした2次元の格子座標L(i,j)を、
L(i,j)=max(L(i−1,j) +g、
L(i, j−1)+g、
L(i−1,j−1)+R(A(n),B(m)))
によって求め(i=1,・・・,N、j=1,・・・,M)、最適対応位置に対応するように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=V0 を始点として、
L=argmax(Vi ),(Vi =Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))
で表される座標配列を決定するようになっている。
【0022】
更に好ましくは、前記動的アルゴリズムは、L=argmax(Vi )のうちで Vi+1 =Vi +(1,1)を満たす座標のみを抽出した後、サイクル番号を保持時間に変換し、スプライン補完または多項式回帰により得られる曲線を補正関数として決定するようになっている。
【0023】
また、本発明は、複数の被検査物質(または第2被検査物質)をそれぞれ含む複数の溶液(または第2溶液)の各々について、前記のいずれかの特徴を有するデータ補正方法を実施するデータ補正工程と、前記データ補正方法によって補正された保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液(または各第2溶液)の保持時間データを並列に並べた2次元画像データに展開するデータ展開工程と、前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出工程と、を備えたことを特徴とするデータ分析方法である。
【0024】
本発明によれば、複数の被検査物質(または第2被検査物質)をそれぞれ含む複数の溶液(または第2溶液)から保持時間データの同一ピークを抽出することにより、当該複数の溶液(または第2溶液)のデータ特性を効果的に分析することができる。これにより、腫瘍マーカー等の疾患マーカーの開発を著しく促進することが期待できる。
【0025】
例えば、第1群に属する複数の被検査物質(または第2被検査物質)をそれぞれ含む複数の溶液(または第2溶液)について、及び、第2群に属する複数の被検査物質(または第2被検査物質)をそれぞれ含む複数の溶液(または第2溶液)について、前記のデータ分析方法を実施し(データ分析工程)、第1群の複数の溶液(または第2溶液)から得られた保持時間データの同一ピークと、第2群の複数の溶液(または第2溶液)から得られた保持時間データの同一ピークと、を比較して、両者に有意な差があるか否かを検証し(検定工程)、有意な差が認められるならば、それらの差を「マーカー」として利用することができるのである。
【0026】
ここで、通常、前記同一ピーク抽出工程は、各溶液(または各第2溶液)の保持時間データについてのピークを検出するピーク検出工程と、前記ピーク検出工程で検出された各溶液(または各第2溶液)のピーク同士の対応関係を特定する同一ピーク特定工程と、を含んでいる。
【0027】
そして、好ましくは、前記同一ピーク特定工程は、所定の保持時間幅内に含まれる候補ピークを抽出する候補ピーク抽出工程と、ある溶液(または第2溶液)において前記候補ピーク抽出工程で抽出された候補ピークが一つ以上ある場合には、当該溶液(または第2溶液)についての候補ピークを一つ選択し、ある溶液(または第2溶液)において前記候補ピーク抽出工程で抽出された候補ピークが無い場合には、当該溶液(または第2溶液)についての候補ピークは無いものとして、前記候補ピークの選択の全組合せの各々について、選択された候補ピークのスコア(総強度)を計算するスコア計算工程と、前記スコア計算工程で得られたスコアのうち、最大のスコアを提供する候補ピークの選択の組み合わせを、互いに対応する同一ピークとして特定するピーク特定工程と、を有している。
【0028】
この場合、より好ましくは、前記同一ピーク特定工程は、前記ピーク特定工程の後に、前記ピーク特定工程において特定された同一ピークによって保持時間データを区間分割するデータ分割工程を更に含んでおり、前記データ分割工程において区間分割された保持時間データについて、前記候補ピーク抽出工程、前記スコア計算工程、前記ピーク特定工程、及び、前記データ分割工程を再帰的に繰り返すようになっている。
【0029】
また、例えば、前記候補ピーク抽出工程は、各ピークを基準にして、当該ピークからの許容ずれ範囲幅を所定の保持時間幅として行われるようになっている。例えば、前記許容ずれ範囲幅は、+側に0.7minである。
【0030】
この場合、計算数(演算負担)低減のために、前記候補ピーク抽出工程で抽出された候補ピークが無い溶液(または第2溶液)の割合が、所定の最小検出率を下回った場合には、当該ピークを基準にした前記同一ピーク特定工程の実施が終了されるようになっていることが好ましい。この場合、好ましくは、前記最小検出率は、0.1〜0.4に設定される(0.5を越えると、二群間での有意な差を特定し難くなる)。
【0031】
また、好ましくは、前記データ展開工程は、単位質量電荷ごとに、各溶液(または各第2溶液)の保持時間データを並列に並べた2次元画像データに展開するようになっており、前記同一ピーク抽出工程は、前記2次元画像データに基づいて、単位質量電荷ごとに、保持時間データの同一ピークを抽出するようになっている。
【0032】
また、本発明は、液体クロマトグラフィーに被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る測定工程と、を備えた液体クロマトグラフィー方法のためのデータ補正装置であって、前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正するようになっており、2つの2次元データのサイクル番号(保持時間に対する昇順番号)を各軸とした2次元の格子座標を用いて最適対応位置を探索する動的アルゴリズム(ソフトウェア)が用いられるようになっていることを特徴とするデータ補正装置である。
【0033】
前記補正装置あるいは当該補正装置の各要素手段は、コンピュータシステムによって実現され得る。
【0034】
また、コンピュータシステムにそれらを実現させるためのプログラム及び当該プログラムを記録したコンピュータ読取り可能な記録媒体も、本件の保護対象である。
【0035】
ここで、記録媒体とは、フレキシブルディスク等の単体として認識できるものの他、各種信号を伝搬させるネットワークをも含む。
【0036】
また、本発明は、同一のまたは異なる液体クロマトグラフィーに複数の被検査物質をそれぞれ含む複数の溶液を流して、当該各溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、各溶液毎に、保持時間データと質量電荷比データとを対応付けて得る測定工程と、前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液の保持時間データを並列に並べた2次元画像データに展開するデータ展開工程と、前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出工程と、を備えたことを特徴とするデータ分析方法である。
【0037】
本件出願の時点では、本願において優先権主張の基礎とする「特願2005−177547」にて提案されたデータ補正方法を利用しなければ、前記2次元画像データに基づいて保持時間データの同一ピークを抽出するという同一ピーク抽出工程を、事実上実施することができない(図16に示すように、ピーク同士の対応を特定することができない)。しかしながら、将来においてデータ測定方法の精度が向上した場合には、「特願2005−177547」にて提案されたデータ補正方法を用いることなく、本願において提案するデータ分析方法が単独で利用され得る。すなわち、本発明によれば、複数の被検査物質(または第2被検査物質)をそれぞれ含む複数の溶液(または第2溶液)から保持時間データの同一ピークを抽出することにより、当該複数の溶液(または第2溶液)のデータ特性を効果的に分析することができ、腫瘍マーカー等の疾患マーカーの開発を著しく促進することが期待できる。
【0038】
また、本発明は、同一のまたは異なる液体クロマトグラフィーに複数の被検査物質をそれぞれ含む複数の溶液を流して、当該各溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、各溶液毎に、保持時間データと質量電荷比データとを対応付けて得る測定工程と、を備えた液体クロマトグラフィー方法のためのデータ分析装置であって、前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液の保持時間データを並列に並べた2次元画像データに展開するデータ展開装置と、前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出装置と、を備えたことを特徴とするデータ分析装置である。
【0039】
前記データ分析装置あるいは当該データ分析装置の各要素手段は、コンピュータシステムによって実現され得る。
【0040】
また、コンピュータシステムにそれらを実現させるためのプログラム及び当該プログラムを記録したコンピュータ読取り可能な記録媒体も、本件の保護対象である。
【0041】
ここで、記録媒体とは、フレキシブルディスク等の単体として認識できるものの他、各種信号を伝搬させるネットワークをも含む。
【図面の簡単な説明】
【0042】
【図1】本発明の一実施の形態の概略を示すフロー図。
【図2】本発明の一実施の形態の動的アルゴリズムの概念を示す概略図。
【図3】本発明の一実施の形態の動的アルゴリズムの概念を示す概略図。
【図4】本発明の一実施の形態の動的アルゴリズムの作用を説明する概略図。
【図5】本発明の一実施の形態の動的アルゴリズムの作用を説明する概略図。
【図6】本発明の一実施の形態の動的アルゴリズムの作用を説明する概略図。
【図7】測定データの補正の例(相違の例)を示すグラフ。
【図8】補正されたデータの再現性を示すグラフ。
【図9】本発明の第2の実施の形態の概略を示すフロー図。
【図10】各サンプルの保持時間データを縦軸方向に並べた2次元画像データの例。
【図11a】ベースライン補正工程の概念を示すグラフ。
【図11b】スムージング工程の概念を示すグラフ。
【図11c】ピーク検出工程の概念を示すグラフ。
【図12a】2次元画像データの例。
【図12b】図12aの2次元画像データから検出されたピークを示す画像データ。
【図13】本実施の形態の同一ピーク抽出工程(同一ピーク抽出アルゴリズム)を示す概略フロー図。
【図14a】有意差が認められた同一ピークを含む2つの2次元画像の例。
【図14b】図14aのROC曲線。
【図14c】図14aのピーク強度分布図。
【図15a】有意差が認められた2つの同一ピークを含む2組の2次元画像の例。
【図15b】図15aのピーク強度分布図。
【図16】データ補正を行わない場合の2次元画像の例。
【発明を実施するための形態】
【0043】
以下、本発明の実施の形態を、図面を参照して説明する。
【0044】
まず、本実施の形態で使用された被検査物質及び溶液について説明する。
【0045】
被検査物質としては、テトラサイクリンで発現コントロールできるアクチニン4(ACTN4 )を遺伝子導入したDLD1ヒト大腸癌細胞株(Honda et al. Gastroenterology 2005; 128: 51-62)が用いられた。通常培養ではACTN4が発現されるが(DLD1 Tet-off ACTN4 )、0.01〜0.1μg/mlのドキソサイクリン(Dox)により、ACTN4の発現は抑制される(DLD1 Tet-on ACTN4 )。DLD1 Tet-off ACTN4 及びDLD1 Tet-on ACTN4 のそれぞれの細胞溶液を3mg/mlの濃度で調整した。
【0046】
次に、DLD1 Tet-off ACTN4 及びDLD1 Tet-on ACTN4 のそれぞれの細胞溶液を100μl採って、アセトン沈殿にて蛋白濃縮を行った。そして、5MのUREAを10μl、1MのNH4 HCO3 を2.5μl、トリプシンを3.3μg加えた後、精製水にて50μlとした。
【0047】
そして、37℃で20時間消化反応させた後、アセトニトリル50μlを添加し、17400Gで10分間遠心し、上清を他のチューブに移し、スピードバックを用いて乾燥した。そして、0.1%蟻酸50μlで溶解して、測定用のサンプル(溶液)とした(図1:STEP1)。
【0048】
一方、超低流量液体クロマトグラフィーとして、Splitless Nano HPLC System (KYA,東京)が用いられた。粒子径3μm、ポアサイズ120Åの高純度シリカゲルに、オクタデシル基を導入後、残存シラノール基を極限までエンドキャッピングした内径0.15mm、長さ50mmの逆相カラムが分離カラムに、内径0.5mm、長さ1mmのものがトラップカラムに、それぞれ用いられた(HiQ sil,KYA,東京)。
【0049】
そして、前記サンプルを10μl採って、200nl/minという超低流量で、0.1%蟻酸から0.1%蟻酸80%アセトニトリルまで、60分間かけて、連続濃度勾配を生成した(図1:STEP2)。その間に、各成分が分離溶出した(図1:STEP3)。
【0050】
各成分の質量分析には、QTOF Ultima(Waters, MA, USA)が用いられ、250〜1600M/Zまでの範囲で、スキャン時間を1秒として、セントロイド形式で、60分間測定が行われた。DLD1 Tet-off ACTN4 及びDLD1 Tet-on ACTN4 のそれぞれについて、duplicate でデータが採取された(2回データが採取された)(図1:STEP4)。
【0051】
データの2次元表示では、質量電荷比が1m/z(mass to charge ratio )の範囲ごとの最大値に変換されて、wiff形式で出力された。なお、解析対象範囲は、質量電荷比が500〜1000m/z、保持時間(RT)が1〜1800sec、に限定され、強度(Intensity)<200の値が、1〜255のグレースケールに置換されて表示された。
【0052】
そして、本実施の形態では、2つのサンプルから採取された各2回(計4回)のデータを相関させることで、データ補正が行われた(図1:STEP5)。
【0053】
まず、本実施の形態において採用された、データ補正のために用いられる補正関数の求め方(アルゴリズム)を説明する。
【0054】
本実施の形態では、参照される側の(標準とされる)2次元データをA、補正対象となる2次元データをBとし、各保持時間におけるマススペクトル相関係数の和が最大になるような補正関数が導出される。
【0055】
まず、実行速度の向上と質量計測誤差に対しての冗長性の確保のため、各RT(保持時間)におけるマススペクトルのイオン強度が1m/z区間毎の代表値に変換される。
【0056】
次に、2つの2次元データA、Bのサイクル番号(各RTに対する昇順番号)を各軸とした2次元の格子座標を用いて、以下に説明するような動的アルゴリズムにより、最適対応位置を与える経路探索が行われる。
【0057】
本実施の形態の動的アルゴリズムは、一方の2次元データのnサイクル目における質量電荷比(マススペクトル)A(n)と、他方の2次元データのmサイクル目における質量電荷比B(n)と、の間のピアソン積率相関係数をR(A(n),B(m))とし、ギャップペナルティをgとし(典型的には、−0.5)、一方の2次元データの総サイクル数をNとし、他方の2次元データの総サイクル数をMとした時、2つの2次元データのサイクル番号を各軸とした2次元の格子座標L(i,j)を、
L(i,j)=max(L(i−1,j) +g、
L(i, j−1)+g、
L(i−1,j−1)+R(A(n),B(m)))
によって求める(i=1,・・・,N、j=1,・・・,M)。
【0058】
そして、最適対応位置に対応するように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=V0 を始点として、
L=argmax(Vi ),(Vi =Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))
で表される座標配列が決定される。
【0059】
更に、本実施の形態の動的アルゴリズムは、L=argmax(Vi )のうちで Vi+1 =Vi +(1,1)を満たす座標のみを抽出した後、座標系をサイクル番号からRTへ変換して、スプライン補完または多項式回帰により得られる曲線を補正関数とする。
【0060】
以上のアルゴリズムについて、図面を用いて説明すると、以下のようになる。
【0061】
図2に示すように、参照データ「A」に対して、対象データ「A」はY軸方向に歪んだ図形(データ列)である。この場合、本アルゴリズムは、f−1(y’)を求めるアルゴリズムに相当するものである。
【0062】
図3は、図2に対応して形成されたyとy’とを軸とする平面を示している。図3において、四角印を結んだ線が、この場合のy−y’対応位置を示す線である。本アルゴリズムは、このy−y’対応位置(経路)を求めるものである。
【0063】
図4は、図2及び図3の例に対応して、各格子点についてピアソン積率相関係数R(A(n),B(m))を求め、ギャップペナルティを−0.5として、実際に本アルゴリズムを用いてL(i,j)を求めていく過程を示している。
【0064】
全ての(i,j)に対するL(i,j)が求められたら、図5に示すように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=V0 が始点として特定され、L=argmax(Vi ),(Vi =Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))で表される座標配列が決定される。
【0065】
最後に、図6に示すように、L=argmax(Vi )のうちで Vi+1 =Vi +(1,1)を満たす座標のみを抽出した後、サイクル番号を保持時間に変換し、スプライン補完または多項式回帰により曲線を得る。当該曲線が求めるべき補正関数である。
【0066】
以上のようなアルゴリズムにより、本実施の形態において2つのサンプルから得られた4つの2次元データのうちの3つが補正された。
【0067】
データ補正にあたっては、まず、RollingBall Algorithm (from ”NIH Image J”)(Radius = 50)を用いて、バックグラウンドが計算された。そして、各ポイントでの閾値を(バックグラウンド値+データ値)/2として、閾値以上の値を持つ隣接するスポットを統合し、peak intensity = Intensity総和、peak mz = MZ重心、peak rt = RT重心として、ピークの検出がなされた。そして、検出されたピークが、液体クロマトグラフィーの補正されたデータ(前記アルゴリズムにより得られた補正関数をかけた後の保持時間のデータ)に当て嵌められ、得られた(補正された)同一サンプルの2つの2次元データが重ね合わされ、「統合」された(平均化された)。この「統合」処理では、質量電荷比、溶出時間(保持時間)の変動の許容範囲が、それぞれ、±2、±20とされた。また、その中に複数のピークが存在する時には、Intensityのより高い方を採用し、MZ,RTは平均値とした。このようにして得られた各サンプルのデータから、pairを検出し、pairが検出された場合に、それぞれのpeak intensityの比が算出された(図1:STEP6)。
【0068】
結果を以下にまとめて示す。
【0069】
前記のように、DLD1 Tet-off ACTN4 及びDLD1 Tet-on ACTN4 のそれぞれに対して、duplicateでデータが採取されたが(以下、Off1、Off2、On1、On2とする)、これら4つのデータのうち、DLD1 Tet-off ACTN4の一方のデータ(Off1)がマスターデータ(標準データ)とされ、他の3つのデータが上記アルゴリズムにより得られた補正関数によって補正された。
【0070】
図7に示すように、Off1データを基準とすると、補正前のOff2は、最大で190sec、平均で71.9secの相違(変動)があり、補正前のOn1は、最大で192sec、平均で130.2secの相違(変動)があり、補正前のOn2は、最大で80sec、平均で36.3secの相違(変動)があった(図7において、X軸方向のずれが相違(変動)である)。ところが、上記アルゴリズムにより得られた補正関数による補正の結果、図8に示すように、同一サンプルのDLD1 Tet-off ACTN4 (Off1、Off2)では、0.92という高い相関係数を得ることができ、また同様に、同一サンプルのDLD1 Tet-on ACTN4(On1、On2)でも、0.94という高い相関係数を得ることができた。
【0071】
なお、Off1と補正されたOff2とを平均化して得られた値をDLD1 Tet-off ACTN4の代表値とし、補正されたOn1と補正されたOn2とを平均化して得られた値をDLD1 Tet-on ACTN4の代表値として、それら2群間で、強い発現があるほうのpeak intensityが10以上で一方に発現がないもの、あるいは、peak intensityの比が3以上であるもの、が203peak認められた(DLD1 Tet-off ACTN4優位が107peak、DLD1 Tet-on ACTN4優位が96peak)。これらのpeakはアクチニン4(ACTN4 )の発現によって変動するものと認められ、すなわち、アクチニン4(蛋白)の同定が可能であった。
【0072】
このように、測定データ自体には再現性を見出すことが困難な同一種のサンプルの複数回の測定データ(Off1とOff2、あるいは、On1とOn2)を相関させて補正することにより、ある程度の再現性を有する同一種のデータ群とみなすことができ、それらを平均化して得られる値を代表値とすることで、より高精度の同定ないし診断を行うことが可能となる。すなわち、2つ以上の2次元データを相関させることによって、それらの特徴を重ね合わせて評価することが可能となり、測定データ自体の相違の存在に関わらず測定データを評価する上で高い再現性を認めることができ、多くの検体、たとえば患者血清で比較検討すること等が可能となる。これにより、今までとは異なる病気に関するマーカーを開発できる可能性が顕著に高められる。
【0073】
なお、前記のデータ補正の処理は、通常、各種のコンピュータシステムによって構成され得るデータ補正装置によって実施され得る。ここで、当該データ補正装置をコンピュータシステム上に実現させるためのプログラム及び当該プログラムを記録したコンピュータ読取り可能な記録媒体も、本件の保護対象である。
【0074】
さらに、データ補正装置が、コンピュータシステム上で動作するOS等のプログラム(第2のプログラム)によって実現される場合、当該OS等のプログラムを制御する各種命令を含むプログラム及び当該プログラムを記録した記録媒体も、本件の保護対象である。
【0075】
ここで、記録媒体とは、フレキシブルディスク等の単体として認識できるものの他、各種信号を伝搬させるネットワークをも含む。
【0076】
次に、本発明の第2の実施の形態を、図面を参照して説明する。
【0077】
まず、本実施の形態で使用された被検査物質及び溶液について説明する。
【0078】
本実施の形態では、被検査物質として、膵臓癌患者18例の血漿(第1群)と非担癌者19例の血漿(第2群)を、それぞれ10μl用いた。そして、これらから、100μlのconcanavalin Aに吸着する糖タンパク分画を抽出した(この処理は、必須の処理では無いが、感度調整という点で実施することが好ましい)。
【0079】
そして、当該糖タンパク分画の各々に、5MのUREAを10μl、1MのNH4 HCO3 を2.5μl、トリプシンを3.3μg加えた後、精製水にて50μlとした。
【0080】
そして、37℃で20時間消化反応させた後、アセトニトリル50μlを添加し、17400Gで10分間遠心し、上清を他のチューブに移し、スピードバックを用いて乾燥した。そして、0.1%蟻酸50μlで溶解して、測定用のサンプル(溶液)とした(図9:STEP21)。
【0081】
一方、超低流量液体クロマトグラフィーとして、Splitless Nano HPLC System (KYA,東京)が用いられた。粒子径3μm、ポアサイズ120Åの高純度シリカゲルに、オクタデシル基を導入後、残存シラノール基を極限までエンドキャッピングした内径0.15mm、長さ50mmの逆相カラムが分離カラムに、内径0.5mm、長さ1mmのものがトラップカラムに、それぞれ用いられた(HiQ sil,KYA,東京)。
【0082】
そして、前記サンプルを10μl採って、200nl/minという超低流量で、0.1%蟻酸から0.1%蟻酸80%アセトニトリルまで、60分間かけて、連続濃度勾配を生成した(図9:STEP22)。その間に、各成分が分離溶出した(図9:STEP23)。
【0083】
各成分の質量分析には、QTOF Ultima(Waters, MA, USA)が用いられ、250〜1600M/Zまでの範囲で、スキャン時間を1秒として、セントロイド形式で、60分間測定が行われた。各サンプル(溶液)について、triplicate でデータが採取された(3回データが採取された)(図9:STEP24)。
【0084】
データの2次元表示では、質量電荷比が1m/z(mass to charge ratio )の範囲ごとの最大値に変換されて、wiff形式で出力された。なお、解析対象範囲は、質量電荷比が500〜1000m/z、保持時間(RT)が1〜1800sec、に限定され、強度(Intensity)<200の値が、1〜255のグレースケールに置換されて表示された。
【0085】
そして、本実施の形態では、37例のサンプルから採取された各3回(計111回)のデータを相関させることで、データ補正が行われた(図9:STEP25)。
【0086】
本実施の形態でも、前記実施の形態に関して説明されたアルゴリズムに従って、参照される側の(標準とされる)2次元データをA、補正対象となる2次元データをBとし、各保持時間におけるマススペクトル相関係数の和が最大になるような補正関数が導出され、得られた補正関数が各サンプルの保持時間のデータに掛けられた。ここでは、ある非担癌者の血漿に基づくデータが、参照される側の(標準とされる)2次元データAとして用いられた。
【0087】
このようにして得られた補正後の2次元データ(保持時間データ−質量電荷比データ)について、本実施の形態では、コンピュータシステムにより構成されたデータ分析装置によって、1m/z毎に、各サンプルデータの保持時間データを並列に並べた2次元画像データに展開された(図9:STEP26)。
【0088】
2次元画像データの例を図10に示す。図10において、横軸方向が保持時間(RT:20〜30min)であり、縦軸方向に各サンプルデータが並べられている。図10は、863m/zについての2次元画像データである。
【0089】
そして、前記データ分析装置によって、新規に開発された同一ピーク抽出アルゴリズムに従って、2次元画像データ中の保持時間データの同一ピークが抽出された(図9:STEP27)。
【0090】
ここで、本実施の形態の同一ピーク抽出アルゴリズムは、各サンプルデータの保持時間データに対する、ベースライン補正工程(図11(a))と、スムージング工程(図11(b))と、ピーク検出工程(図11(c))と、を含んでいる。
【0091】
ベースライン補正とは、試料の光散乱の影響などでスペクトル波形に生じるベースラインの傾きやうねりを矯正するための処理である。スムージングとは、ガウス関数による加重平均をとることでノイズを除去する処理である(数1参照)。これらの処理は、データ分析のための処理手法として、従前からよく利用されているものである。
【数1】
【0092】
また、本実施の形態のピーク検出工程では、データポイント毎に信号/ノイズ比を算出することによって、ピーク検出精度を高めている。
【0093】
検出されたピークを示す画像の例を、図12(b)に示す。図12(a)が2次元画像データの例であり、図12(b)が図12(a)のデータから検出されたピークを示す画像データである。
【0094】
そして、本実施の形態の同一ピーク抽出アルゴリズムは、ピーク検出工程で検出された各サンプルデータのピーク同士の対応関係を特定する同一ピーク特定工程を含んでいる。
【0095】
この同一ピーク特定工程は、図13に示すように、各ピークを基準にして、当該ピークからの許容ずれ範囲幅を所定の保持時間幅とし、当該保持時間幅内に含まれる候補ピークを抽出する候補ピーク抽出工程を有している(図13:STEP31)。許容ずれ範囲幅は、例えば、+側に0.7minである。
【0096】
そして、同一ピーク特定工程は、あるサンプルデータにおいて前記保持時間幅内に抽出された候補ピークが一つ以上ある場合には、当該サンプルデータについての候補ピークを一つ選択し、あるサンプルデータにおいて前記保持時間幅内に抽出された候補ピークが無い場合には、当該サンプルデータについての候補ピークは無いものとして、前記候補ピークの(全サンプルデータに亘る)選択の全組合せの各々について、選択された候補ピークのスコア(総強度)を計算するスコア計算工程を有している(図13:STEP32)。
【0097】
ここで、前記保持時間幅内に抽出された候補ピークが無いサンプルデータの割合が、所定の最小検出率を下回った場合には、その時点で、当該保持時間幅での前記同一ピーク特定工程の実施が終了されるようになっていることが好ましい。そのような場合には、当該保持時間幅内において同一ピークを特定すべきでないからである。最小検出率は、通常、0.1〜0.4に設定される(0.5を越えると、二群間での有意な差を特定し難くなると考えられる)。
【0098】
そして、スコア計算工程で得られたスコアのうち、最大のスコアを提供する候補ピークの選択の組み合わせが、互いに対応する同一ピークとして特定される(ピーク特定工程)(図13:STEP33)。そして、対応する同一ピークが認められなかった(抽出されなかった)サンプルデータに対して、ピークを補完する処理が行われる(図13:STEP34)。
【0099】
その後、特定及び補完された同一ピークによって、保持時間データが区間分割される(データ分割工程)(図13:STEP35)。そして、当該データ分割工程において区間分割された保持時間データ(の双方)について、前記候補ピーク抽出工程、前記スコア計算工程、前記ピーク特定工程、及び、前記データ分割工程が再帰的に繰り返される(図13:STEP36)。
【0100】
以上のような本実施の形態の同一ピーク抽出アルゴリズムによって、105457個の同一ピークが特定された。これらの同一ピークについて、膵臓癌患者18例の血漿(第1群)に基づく同一ピークと、非担癌者19例の血漿(第2群)に基づく同一ピークと、を比較し、両者に有意な差があるか否かを検証し、有意な差が認められるのであれば、それらの差を「マーカー」として利用することができる(図9:STEP28)。
【0101】
具体的には、本実施の形態の場合、膵臓癌患者群と非担癌者群とで、平均ピーク強度が10以上であってU検定で0.0001以下の有意差を示したものが、109ピーク認められた(膵臓癌患者群優位が80ピーク、非担癌者群優位が29ピーク)。また、ROC曲線下面積が0.9以上であるピークが、32認められた。
【0102】
これら32のピークのうちの一つについて、図14(a)乃至図14(c)に、2次元画像(図14(a))と、ROC曲線(図14(b))と、ピーク強度分布図(図14(c))と、を示す。
【0103】
また、前記32のピークに対して、SVMを用いて、2因子での解析を行った。クロスバリデーションを行ったうえで、判別率が100%(感度100%、特異度100%)であるピークの組み合わせが3つあり、判別率が97%(感度100%、特異度95%、あるいは、感度94%、特異度100%)のピークの組み合わせが28あった。図15(a)に、組み合わせにより判別率が100%(感度100%、特異度100%)となるピーク画像を示し、図15(b)に、そのピークを用いて分けられた膵臓癌患者と非担癌者とのピーク強度の分布を示す。
【0104】
このように、本実施の形態によれば、膵臓癌患者の血漿を含む溶液から保持時間データの同一ピークを抽出すると共に非担癌者の血漿を含む溶液から保持時間データの同一ピークを抽出し、両者を比較することによって、膵臓癌マーカーの開発を促進することができる。
【0105】
なお、前記のデータ分析の処理は、通常、各種のコンピュータシステムによって構成され得るデータ分析装置によって実施され得る。ここで、当該データ分析装置をコンピュータシステム上に実現させるためのプログラム及び当該プログラムを記録したコンピュータ読取り可能な記録媒体も、本件の保護対象である。
【0106】
さらに、データ分析装置が、コンピュータシステム上で動作するOS等のプログラム(第2のプログラム)によって実現される場合、当該OS等のプログラムを制御する各種命令を含むプログラム及び当該プログラムを記録した記録媒体も、本件の保護対象である。
【0107】
ここで、記録媒体とは、フレキシブルディスク等の単体として認識できるものの他、各種信号を伝搬させるネットワークをも含む。
【0108】
なお、前記実施の形態は、膵臓癌マーカーの開発を意図したものであるが、本発明はこれに限定されるものではない。複数の被検査物質をそれぞれ含む複数の溶液から保持時間データの同一ピークを抽出することにより、当該複数の溶液のデータ特性を効果的に特定(分析)することができるため、各種の疾患マーカーの開発を促進することが期待できる。
【0109】
また、本件出願の時点では、本願において優先権主張の基礎とする「特願2005−177547」にて提案されたデータ補正方法を利用しなければ、各サンプルデータの保持時間データを並べた2次元画像データは図16に示すような状態であるので、当該2次元画像データに基づいて保持時間データの同一ピークを抽出するという同一ピーク抽出工程を実施することは事実上不可能である。しかしながら、将来においてデータ測定方法の精度が向上した場合には、前記データ補正方法を用いることなく、前記データ分析方法のみが単独で利用されることもあり得る。
【特許請求の範囲】
【請求項1】
液体クロマトグラフィーに被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、
前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る測定工程と、
前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正する補正工程と、
を備えたことを特徴とするデータ補正方法。
【請求項2】
液体クロマトグラフィーに第1被検査物質を含む第1溶液を流して、当該第1溶液の濃度勾配を所定時間かけて生成する第1濃度勾配生成工程と、
前記第1濃度勾配生成工程中に分離溶出した前記第1被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第1測定工程と、
前記液体クロマトグラフィーに第2被検査物質を含む第2溶液を流して、当該第2溶液の濃度勾配を所定時間かけて生成する第2濃度勾配生成工程と、
前記第2濃度勾配生成工程中に分離溶出した前記第2被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第2測定工程と、
前記第2測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、前記第1測定工程にて得られた保持時間データと質量電荷比データとの2次元データと相関させることによって補正する補正工程と、
を備えたことを特徴とするデータ補正方法。
【請求項3】
第1液体クロマトグラフィーに第1被検査物質を含む第1溶液を流して、当該第1溶液の濃度勾配を所定時間かけて生成する第1濃度勾配生成工程と、
前記第1濃度勾配生成工程中に分離溶出した前記第1被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第1測定工程と、
第2液体クロマトグラフィーに第2被検査物質を含む第2溶液を流して、当該第2溶液の濃度勾配を所定時間かけて生成する第2濃度勾配生成工程と、
前記第2濃度勾配生成工程中に分離溶出した前記第2被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第2測定工程と、
前記第2測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、前記第1測定工程にて得られた保持時間データと質量電荷比データとの2次元データと相関させることによって補正する補正工程と、
を備えたことを特徴とするデータ補正方法。
【請求項4】
前記濃度勾配生成工程では、液体クロマトグラフィーに被検査物質を含む溶液が、500nl/min以下の流量で流されるようになっている
ことを特徴とする請求項1乃至3のいずれかに記載のデータ補正方法。
【請求項5】
前記補正工程では、2つの2次元データのサイクル番号(保持時間に対する昇順番号)を各軸とした2次元の格子座標を用いて最適対応位置を探索する動的アルゴリズムが用いられるようになっている
ことを特徴とする請求項1乃至4のいずれかに記載のデータ補正方法。
【請求項6】
前記動的アルゴリズムは、
一方の2次元データのnサイクル目における質量電荷比(マススペクトル)A(n)と、他方の2次元データのmサイクル目における質量電荷比B(n)と、の間のピアソン積率相関係数をR(A(n),B(m))とし、
ギャップペナルティをgとし、
一方の2次元データの総サイクル数をNとし、
他方の2次元データの総サイクル数をMとした時、
2つの2次元データのサイクル番号を各軸とした2次元の格子座標L(i,j)を、
L(i,j)=max(L(i−1,j) +g、
L(i, j−1)+g、
L(i−1,j−1)+R(A(n),B(m)))
によって求め(i=1,・・・,N、j=1,・・・,M)、
最適対応位置に対応するように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=V0 を始点として、
L=argmax(Vi ),(Vi =Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))
で表される座標配列を決定するようになっている
ことを特徴とする請求項5に記載のデータ補正方法。
【請求項7】
前記動的アルゴリズムは、L=argmax(Vi )のうちで Vi+1 =Vi +(1,1)を満たす座標のみを抽出した後、サイクル番号を保持時間に変換し、スプライン補完または多項式回帰により得られる曲線を補正関数として決定するようになっている
ことを特徴とする請求項6に記載のデータ補正方法。
【請求項8】
複数の被検査物質または第2被検査物質をそれぞれ含む複数の溶液または第2溶液の各々について、請求項1乃至7のいずれかに記載のデータ補正方法を実施するデータ補正工程と、
前記データ補正方法によって補正された保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液または各第2溶液の保持時間データを並列に並べた2次元画像データに展開するデータ展開工程と、
前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出工程と、
を備えたことを特徴とするデータ分析方法。
【請求項9】
前記同一ピーク抽出工程は、
各溶液または各第2溶液の保持時間データについてのピークを検出するピーク検出工程と、
前記ピーク検出工程で検出された各溶液または各第2溶液のピーク同士の対応関係を特定する同一ピーク特定工程と、
を含んでいる
ことを特徴とする請求項8に記載のデータ分析方法。
【請求項10】
前記同一ピーク特定工程は、
所定の保持時間幅内に含まれる候補ピークを抽出する候補ピーク抽出工程と、
ある溶液または第2溶液において前記候補ピーク抽出工程で抽出された候補ピークが一つ以上ある場合には、当該溶液または第2溶液についての候補ピークを一つ選択し、ある溶液または第2溶液において前記候補ピーク抽出工程で抽出された候補ピークが無い場合には、当該溶液または第2溶液についての候補ピークは無いものとして、前記候補ピークの選択の全組合せの各々について、選択された候補ピークのスコア(総強度)を計算するスコア計算工程と、
前記スコア計算工程で得られたスコアのうち、最大のスコアを提供する候補ピークの選択の組み合わせを、互いに対応する同一ピークとして特定するピーク特定工程と、
を有している
ことを特徴とする請求項9に記載のデータ分析方法。
【請求項11】
前記同一ピーク特定工程は、前記ピーク特定工程の後に、
前記ピーク特定工程において特定された同一ピークによって保持時間データを区間分割するデータ分割工程
を更に含んでおり、
前記データ分割工程において区間分割された保持時間データについて、前記候補ピーク抽出工程、前記スコア計算工程、前記ピーク特定工程、及び、前記データ分割工程を再帰的に繰り返すようになっている、
ことを特徴とする請求項10に記載のデータ分析方法。
【請求項12】
前記候補ピーク抽出工程は、各ピークを基準にして、当該ピークからの許容ずれ範囲幅を所定の保持時間幅として行われるようになっている
ことを特徴とする請求項10または11に記載のデータ分析方法。
【請求項13】
前記許容ずれ範囲幅は、+側に0.7minである
ことを特徴とする請求項12に記載のデータ分析方法。
【請求項14】
前記候補ピーク抽出工程で抽出された候補ピークが無い溶液または第2溶液の割合が、所定の最小検出率を下回った場合には、当該ピークを基準にした前記同一ピーク特定工程の実施が終了されるようになっている
ことを特徴とする請求項12または13に記載のデータ分析方法。
【請求項15】
前記最小検出率は、0.1〜0.4に設定される
ことを特徴とする請求項14に記載のデータ分析方法。
【請求項16】
前記データ展開工程は、単位質量電荷ごとに、各溶液または各第2溶液の保持時間データを並列に並べた2次元画像データに展開するようになっており、
前記同一ピーク抽出工程は、前記2次元画像データに基づいて、単位質量電荷ごとに、保持時間データの同一ピークを抽出するようになっている
ことを特徴とする請求項8乃至15に記載のデータ分析方法。
【請求項17】
第1群に属する複数の被検査物質または第2被検査物質をそれぞれ含む複数の溶液または第2溶液について、及び、第2群に属する複数の被検査物質または第2被検査物質をそれぞれ含む複数の溶液または第2溶液について、請求項8乃至16のいずれかに記載のデータ分析方法を実施するデータ分析工程と、
第1群の複数の溶液または第2溶液から得られた保持時間データの同一ピークと、第2群の複数の溶液または第2溶液から得られた保持時間データの同一ピークと、を比較して、両者に有意な差があるか否かを検証する検定工程と、
を備えたことを特徴とするデータ比較方法。
【請求項18】
液体クロマトグラフィーに被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、
前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る測定工程と、
を備えた液体クロマトグラフィー方法のためのデータ補正装置であって、
前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正するようになっており、
2つの2次元データのサイクル番号(保持時間に対する昇順番号)を各軸とした2次元の格子座標を用いて最適対応位置を探索する動的アルゴリズムが用いられるようになっている
ことを特徴とするデータ補正装置。
【請求項19】
前記動的アルゴリズムは、
一方の2次元データのnサイクル目における質量電荷比(マススペクトル)A(n)と、他方の2次元データのmサイクル目における質量電荷比B(n)と、の間のピアソン積率相関係数をR(A(n),B(m))とし、
ギャップペナルティをgとし、
一方の2次元データの総サイクル数をNとし、
他方の2次元データの総サイクル数をMとした時、
2つの2次元データのサイクル番号を各軸とした2次元の格子座標L(i,j)を、
L(i,j)=max(L(i−1,j) +g、
L(i, j−1)+g、
L(i−1,j−1)+R(A(n),B(m)))
によって求め(i=1,・・・,N、j=1,・・・,M)、
最適対応位置に対応するように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=V0 を始点として、
L=argmax(Vi ),(Vi =Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))
で表される座標配列を決定するようになっている
ことを特徴とする請求項18に記載のデータ補正装置。
【請求項20】
前記動的アルゴリズムは、L=argmax(Vi )のうちで Vi+1 =Vi +(1,1)を満たす座標のみを抽出した後、サイクル番号を保持時間に変換し、スプライン補完または多項式回帰により得られる曲線を補正関数として決定するようになっている
ことを特徴とする請求項19に記載のデータ補正装置。
【請求項21】
少なくとも1台のコンピュータを含むコンピュータシステムによって実行されて、前記コンピュータシステムに請求項18乃至20のいずれかに記載のデータ補正装置を実現させるプログラム。
【請求項22】
少なくとも1台のコンピュータを含むコンピュータシステム上で動作する第2のプログラムを制御する命令が含まれており、
前記コンピュータシステムによって実行されて、前記第2のプログラムを制御して、前記コンピュータシステムに請求項18乃至20のいずれかに記載のデータ補正装置を実現させるプログラム。
【請求項23】
同一のまたは異なる液体クロマトグラフィーに複数の被検査物質をそれぞれ含む複数の溶液を流して、当該各溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、
前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、各溶液毎に、保持時間データと質量電荷比データとを対応付けて得る測定工程と、
前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液の保持時間データを並列に並べた2次元画像データに展開するデータ展開工程と、
前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出工程と、
を備えたことを特徴とするデータ分析方法。
【請求項24】
同一のまたは異なる液体クロマトグラフィーに複数の被検査物質をそれぞれ含む複数の溶液を流して、当該各溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、
前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、各溶液毎に、保持時間データと質量電荷比データとを対応付けて得る測定工程と、
を備えた液体クロマトグラフィー方法のためのデータ分析装置であって、
前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液の保持時間データを並列に並べた2次元画像データに展開するデータ展開装置と、
前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出装置と、
を備えたことを特徴とするデータ分析装置。
【請求項25】
前記同一ピーク抽出装置は、
各溶液または各第2溶液の保持時間データについてのピークを検出するピーク検出工程と、
前記ピーク検出工程で検出された各溶液または各第2溶液のピーク同士の対応関係を特定する同一ピーク特定工程と、
を実行するようになっている
ことを特徴とする請求項24に記載のデータ分析装置。
【請求項26】
前記同一ピーク特定工程は、
所定の保持時間幅内に含まれる候補ピークを抽出する候補ピーク抽出工程と、
ある溶液または第2溶液において前記候補ピーク抽出工程で抽出された候補ピークが一つ以上ある場合には、当該溶液または第2溶液についての候補ピークを一つ選択し、ある溶液または第2溶液において前記候補ピーク抽出工程で抽出された候補ピークが無い場合には、当該溶液または第2溶液についての候補ピークは無いものとして、前記候補ピークの選択の全組合せの各々について、選択された候補ピークのスコア(総強度)を計算するスコア計算工程と、
前記スコア計算工程で得られたスコアのうち、最大のスコアを提供する候補ピークの選択の組み合わせを、互いに対応する同一ピークとして特定するピーク特定工程と、
を有している
ことを特徴とする請求項25に記載のデータ分析装置。
【請求項27】
前記同一ピーク特定工程は、前記ピーク特定工程の後に、
前記ピーク特定工程において特定された同一ピークによって保持時間データを区間分割するデータ分割工程
を更に含んでおり、
前記データ分割工程において区間分割された保持時間データについて、前記候補ピーク抽出工程、前記スコア計算工程、前記ピーク特定工程、及び、前記データ分割工程を再帰的に繰り返すようになっている、
ことを特徴とする請求項26に記載のデータ分析装置。
【請求項28】
少なくとも1台のコンピュータを含むコンピュータシステムによって実行されて、前記コンピュータシステムに請求項24乃至27のいずれかに記載のデータ分析装置を実現させるプログラム。
【請求項29】
少なくとも1台のコンピュータを含むコンピュータシステム上で動作する第2のプログラムを制御する命令が含まれており、
前記コンピュータシステムによって実行されて、前記第2のプログラムを制御して、前記コンピュータシステムに請求項24乃至27のいずれかに記載のデータ分析装置を実現させるプログラム。
【請求項1】
液体クロマトグラフィーに被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、
前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る測定工程と、
前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正する補正工程と、
を備えたことを特徴とするデータ補正方法。
【請求項2】
液体クロマトグラフィーに第1被検査物質を含む第1溶液を流して、当該第1溶液の濃度勾配を所定時間かけて生成する第1濃度勾配生成工程と、
前記第1濃度勾配生成工程中に分離溶出した前記第1被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第1測定工程と、
前記液体クロマトグラフィーに第2被検査物質を含む第2溶液を流して、当該第2溶液の濃度勾配を所定時間かけて生成する第2濃度勾配生成工程と、
前記第2濃度勾配生成工程中に分離溶出した前記第2被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第2測定工程と、
前記第2測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、前記第1測定工程にて得られた保持時間データと質量電荷比データとの2次元データと相関させることによって補正する補正工程と、
を備えたことを特徴とするデータ補正方法。
【請求項3】
第1液体クロマトグラフィーに第1被検査物質を含む第1溶液を流して、当該第1溶液の濃度勾配を所定時間かけて生成する第1濃度勾配生成工程と、
前記第1濃度勾配生成工程中に分離溶出した前記第1被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第1測定工程と、
第2液体クロマトグラフィーに第2被検査物質を含む第2溶液を流して、当該第2溶液の濃度勾配を所定時間かけて生成する第2濃度勾配生成工程と、
前記第2濃度勾配生成工程中に分離溶出した前記第2被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る第2測定工程と、
前記第2測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、前記第1測定工程にて得られた保持時間データと質量電荷比データとの2次元データと相関させることによって補正する補正工程と、
を備えたことを特徴とするデータ補正方法。
【請求項4】
前記濃度勾配生成工程では、液体クロマトグラフィーに被検査物質を含む溶液が、500nl/min以下の流量で流されるようになっている
ことを特徴とする請求項1乃至3のいずれかに記載のデータ補正方法。
【請求項5】
前記補正工程では、2つの2次元データのサイクル番号(保持時間に対する昇順番号)を各軸とした2次元の格子座標を用いて最適対応位置を探索する動的アルゴリズムが用いられるようになっている
ことを特徴とする請求項1乃至4のいずれかに記載のデータ補正方法。
【請求項6】
前記動的アルゴリズムは、
一方の2次元データのnサイクル目における質量電荷比(マススペクトル)A(n)と、他方の2次元データのmサイクル目における質量電荷比B(n)と、の間のピアソン積率相関係数をR(A(n),B(m))とし、
ギャップペナルティをgとし、
一方の2次元データの総サイクル数をNとし、
他方の2次元データの総サイクル数をMとした時、
2つの2次元データのサイクル番号を各軸とした2次元の格子座標L(i,j)を、
L(i,j)=max(L(i−1,j) +g、
L(i, j−1)+g、
L(i−1,j−1)+R(A(n),B(m)))
によって求め(i=1,・・・,N、j=1,・・・,M)、
最適対応位置に対応するように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=V0 を始点として、
L=argmax(Vi ),(Vi =Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))
で表される座標配列を決定するようになっている
ことを特徴とする請求項5に記載のデータ補正方法。
【請求項7】
前記動的アルゴリズムは、L=argmax(Vi )のうちで Vi+1 =Vi +(1,1)を満たす座標のみを抽出した後、サイクル番号を保持時間に変換し、スプライン補完または多項式回帰により得られる曲線を補正関数として決定するようになっている
ことを特徴とする請求項6に記載のデータ補正方法。
【請求項8】
複数の被検査物質または第2被検査物質をそれぞれ含む複数の溶液または第2溶液の各々について、請求項1乃至7のいずれかに記載のデータ補正方法を実施するデータ補正工程と、
前記データ補正方法によって補正された保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液または各第2溶液の保持時間データを並列に並べた2次元画像データに展開するデータ展開工程と、
前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出工程と、
を備えたことを特徴とするデータ分析方法。
【請求項9】
前記同一ピーク抽出工程は、
各溶液または各第2溶液の保持時間データについてのピークを検出するピーク検出工程と、
前記ピーク検出工程で検出された各溶液または各第2溶液のピーク同士の対応関係を特定する同一ピーク特定工程と、
を含んでいる
ことを特徴とする請求項8に記載のデータ分析方法。
【請求項10】
前記同一ピーク特定工程は、
所定の保持時間幅内に含まれる候補ピークを抽出する候補ピーク抽出工程と、
ある溶液または第2溶液において前記候補ピーク抽出工程で抽出された候補ピークが一つ以上ある場合には、当該溶液または第2溶液についての候補ピークを一つ選択し、ある溶液または第2溶液において前記候補ピーク抽出工程で抽出された候補ピークが無い場合には、当該溶液または第2溶液についての候補ピークは無いものとして、前記候補ピークの選択の全組合せの各々について、選択された候補ピークのスコア(総強度)を計算するスコア計算工程と、
前記スコア計算工程で得られたスコアのうち、最大のスコアを提供する候補ピークの選択の組み合わせを、互いに対応する同一ピークとして特定するピーク特定工程と、
を有している
ことを特徴とする請求項9に記載のデータ分析方法。
【請求項11】
前記同一ピーク特定工程は、前記ピーク特定工程の後に、
前記ピーク特定工程において特定された同一ピークによって保持時間データを区間分割するデータ分割工程
を更に含んでおり、
前記データ分割工程において区間分割された保持時間データについて、前記候補ピーク抽出工程、前記スコア計算工程、前記ピーク特定工程、及び、前記データ分割工程を再帰的に繰り返すようになっている、
ことを特徴とする請求項10に記載のデータ分析方法。
【請求項12】
前記候補ピーク抽出工程は、各ピークを基準にして、当該ピークからの許容ずれ範囲幅を所定の保持時間幅として行われるようになっている
ことを特徴とする請求項10または11に記載のデータ分析方法。
【請求項13】
前記許容ずれ範囲幅は、+側に0.7minである
ことを特徴とする請求項12に記載のデータ分析方法。
【請求項14】
前記候補ピーク抽出工程で抽出された候補ピークが無い溶液または第2溶液の割合が、所定の最小検出率を下回った場合には、当該ピークを基準にした前記同一ピーク特定工程の実施が終了されるようになっている
ことを特徴とする請求項12または13に記載のデータ分析方法。
【請求項15】
前記最小検出率は、0.1〜0.4に設定される
ことを特徴とする請求項14に記載のデータ分析方法。
【請求項16】
前記データ展開工程は、単位質量電荷ごとに、各溶液または各第2溶液の保持時間データを並列に並べた2次元画像データに展開するようになっており、
前記同一ピーク抽出工程は、前記2次元画像データに基づいて、単位質量電荷ごとに、保持時間データの同一ピークを抽出するようになっている
ことを特徴とする請求項8乃至15に記載のデータ分析方法。
【請求項17】
第1群に属する複数の被検査物質または第2被検査物質をそれぞれ含む複数の溶液または第2溶液について、及び、第2群に属する複数の被検査物質または第2被検査物質をそれぞれ含む複数の溶液または第2溶液について、請求項8乃至16のいずれかに記載のデータ分析方法を実施するデータ分析工程と、
第1群の複数の溶液または第2溶液から得られた保持時間データの同一ピークと、第2群の複数の溶液または第2溶液から得られた保持時間データの同一ピークと、を比較して、両者に有意な差があるか否かを検証する検定工程と、
を備えたことを特徴とするデータ比較方法。
【請求項18】
液体クロマトグラフィーに被検査物質を含む溶液を流して、当該溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、
前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、保持時間データと質量電荷比データとを対応付けて得る測定工程と、
を備えた液体クロマトグラフィー方法のためのデータ補正装置であって、
前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、予め求めてあった標準2次元データと相関させることによって補正するようになっており、
2つの2次元データのサイクル番号(保持時間に対する昇順番号)を各軸とした2次元の格子座標を用いて最適対応位置を探索する動的アルゴリズムが用いられるようになっている
ことを特徴とするデータ補正装置。
【請求項19】
前記動的アルゴリズムは、
一方の2次元データのnサイクル目における質量電荷比(マススペクトル)A(n)と、他方の2次元データのmサイクル目における質量電荷比B(n)と、の間のピアソン積率相関係数をR(A(n),B(m))とし、
ギャップペナルティをgとし、
一方の2次元データの総サイクル数をNとし、
他方の2次元データの総サイクル数をMとした時、
2つの2次元データのサイクル番号を各軸とした2次元の格子座標L(i,j)を、
L(i,j)=max(L(i−1,j) +g、
L(i, j−1)+g、
L(i−1,j−1)+R(A(n),B(m)))
によって求め(i=1,・・・,N、j=1,・・・,M)、
最適対応位置に対応するように、L=argmax(k,l),((k=N、l=1,・・・,M)及び(k=1,・・・,N、l=M))を与える座標(k,l)=V0 を始点として、
L=argmax(Vi ),(Vi =Vi−1 −(1,1),Vi−1 −(0,1),Vi−1 −(1,0))
で表される座標配列を決定するようになっている
ことを特徴とする請求項18に記載のデータ補正装置。
【請求項20】
前記動的アルゴリズムは、L=argmax(Vi )のうちで Vi+1 =Vi +(1,1)を満たす座標のみを抽出した後、サイクル番号を保持時間に変換し、スプライン補完または多項式回帰により得られる曲線を補正関数として決定するようになっている
ことを特徴とする請求項19に記載のデータ補正装置。
【請求項21】
少なくとも1台のコンピュータを含むコンピュータシステムによって実行されて、前記コンピュータシステムに請求項18乃至20のいずれかに記載のデータ補正装置を実現させるプログラム。
【請求項22】
少なくとも1台のコンピュータを含むコンピュータシステム上で動作する第2のプログラムを制御する命令が含まれており、
前記コンピュータシステムによって実行されて、前記第2のプログラムを制御して、前記コンピュータシステムに請求項18乃至20のいずれかに記載のデータ補正装置を実現させるプログラム。
【請求項23】
同一のまたは異なる液体クロマトグラフィーに複数の被検査物質をそれぞれ含む複数の溶液を流して、当該各溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、
前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、各溶液毎に、保持時間データと質量電荷比データとを対応付けて得る測定工程と、
前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液の保持時間データを並列に並べた2次元画像データに展開するデータ展開工程と、
前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出工程と、
を備えたことを特徴とするデータ分析方法。
【請求項24】
同一のまたは異なる液体クロマトグラフィーに複数の被検査物質をそれぞれ含む複数の溶液を流して、当該各溶液の濃度勾配を所定時間かけて生成する濃度勾配生成工程と、
前記濃度勾配生成工程中に分離溶出した前記被検査物質の各成分について、各溶液毎に、保持時間データと質量電荷比データとを対応付けて得る測定工程と、
を備えた液体クロマトグラフィー方法のためのデータ分析装置であって、
前記測定工程にて得られた保持時間データと質量電荷比データとの2次元データを、ある質量電荷について、各溶液の保持時間データを並列に並べた2次元画像データに展開するデータ展開装置と、
前記2次元画像データに基づいて、保持時間データの同一ピークを抽出する同一ピーク抽出装置と、
を備えたことを特徴とするデータ分析装置。
【請求項25】
前記同一ピーク抽出装置は、
各溶液または各第2溶液の保持時間データについてのピークを検出するピーク検出工程と、
前記ピーク検出工程で検出された各溶液または各第2溶液のピーク同士の対応関係を特定する同一ピーク特定工程と、
を実行するようになっている
ことを特徴とする請求項24に記載のデータ分析装置。
【請求項26】
前記同一ピーク特定工程は、
所定の保持時間幅内に含まれる候補ピークを抽出する候補ピーク抽出工程と、
ある溶液または第2溶液において前記候補ピーク抽出工程で抽出された候補ピークが一つ以上ある場合には、当該溶液または第2溶液についての候補ピークを一つ選択し、ある溶液または第2溶液において前記候補ピーク抽出工程で抽出された候補ピークが無い場合には、当該溶液または第2溶液についての候補ピークは無いものとして、前記候補ピークの選択の全組合せの各々について、選択された候補ピークのスコア(総強度)を計算するスコア計算工程と、
前記スコア計算工程で得られたスコアのうち、最大のスコアを提供する候補ピークの選択の組み合わせを、互いに対応する同一ピークとして特定するピーク特定工程と、
を有している
ことを特徴とする請求項25に記載のデータ分析装置。
【請求項27】
前記同一ピーク特定工程は、前記ピーク特定工程の後に、
前記ピーク特定工程において特定された同一ピークによって保持時間データを区間分割するデータ分割工程
を更に含んでおり、
前記データ分割工程において区間分割された保持時間データについて、前記候補ピーク抽出工程、前記スコア計算工程、前記ピーク特定工程、及び、前記データ分割工程を再帰的に繰り返すようになっている、
ことを特徴とする請求項26に記載のデータ分析装置。
【請求項28】
少なくとも1台のコンピュータを含むコンピュータシステムによって実行されて、前記コンピュータシステムに請求項24乃至27のいずれかに記載のデータ分析装置を実現させるプログラム。
【請求項29】
少なくとも1台のコンピュータを含むコンピュータシステム上で動作する第2のプログラムを制御する命令が含まれており、
前記コンピュータシステムによって実行されて、前記第2のプログラムを制御して、前記コンピュータシステムに請求項24乃至27のいずれかに記載のデータ分析装置を実現させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図11a】
【図11b】
【図11c】
【図13】
【図10】
【図12a】
【図12b】
【図14a】
【図14b】
【図14c】
【図15a】
【図15b】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図11a】
【図11b】
【図11c】
【図13】
【図10】
【図12a】
【図12b】
【図14a】
【図14b】
【図14c】
【図15a】
【図15b】
【図16】
【公開番号】特開2012−198245(P2012−198245A)
【公開日】平成24年10月18日(2012.10.18)
【国際特許分類】
【出願番号】特願2012−140214(P2012−140214)
【出願日】平成24年6月21日(2012.6.21)
【分割の表示】特願2007−521162(P2007−521162)の分割
【原出願日】平成18年3月31日(2006.3.31)
【出願人】(803000056)財団法人ヒューマンサイエンス振興財団 (341)
【Fターム(参考)】
【公開日】平成24年10月18日(2012.10.18)
【国際特許分類】
【出願日】平成24年6月21日(2012.6.21)
【分割の表示】特願2007−521162(P2007−521162)の分割
【原出願日】平成18年3月31日(2006.3.31)
【出願人】(803000056)財団法人ヒューマンサイエンス振興財団 (341)
【Fターム(参考)】
[ Back to top ]