説明

スペクトル、特にNMRスペクトルのセットをプロセッシングする方法

【課題】 スペクトル、特にNMRスペクトルの定量プロセッシングに対し、現在知られている方法の制限やデメリットを克服すること。
【解決手段】
以下の工程を含有する、スペクトル、特にNMRスペクトルのセットをプロセッシングする方法:
a)主要スペクトル領域を選択すること;
b)該主要スペクトル領域における複数の主要スペクトルを記録すること;
c)該主要スペクトル領域における参照主要スペクトルを取得すること;
d)該主要スペクトルそれぞれに対して、該参照主要スペクトルにより該主要スペクトルのビンワイズ分割を実行して、スペクトル指数に対応するセットを取得すること;
e)少なくとも1つ以上の該主要スペクトルに対して、該スペクトル指数に対応するセットに由来する統計的尺度の関連セットを計算すること;および
f)少なくとも1つ以上の該統計的尺度の関連セットに対して、異常値検出試験を実行すること。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、請求項1の前文にしたがってスペクトル、特にNMRスペクトルのセットをプロセッシングする方法に関する。
【背景技術】
【0002】
分析化学において、とりわけ環境科学、生物学、食品産業およびプロセス化学において、混合物の分析および比較は重要な作業である。例えばメタボノミクスの分野において、動物およびヒトの生体液は、液体クロマトグラフィー質量分析法(LC−MS)あるいは核磁気共鳴(NMR)分光法などの確立したスペクトル法によって得られたスペクトルによって特徴付けられる。スペクトルの全セット、例えば1セットのサンプルから得られた各々のスペクトルの多数性を分析および比較することは、しばしば必要となる。サンプルの全般的な濃度に関連する作用(例えばサンプルの希釈による、サンプル中の被分析物全体の変化)と、サンプルの組成に影響する作用(混合物中の成分の相対濃度)とを区別するためには、いわゆる標準化法(normalization procedures)を使用しなければならない。さまざまなサンプルのデータが異なる実験条件下にて得られた場合もまた、標準化が必要である。
【0003】
これまでのところ、与えられたNMRスペクトルのシグナルを標準化し、これにより該スペクトルの一定の全般的な積分値(constant overall integral)を得ることは、例えば尿サンプルを用いたメタボノミクス試験において一般的な手法である。1セットのスペクトルにおける各NMRスペクトルは、曲線下における所定の同一領域へと換算される。その根底となる前提は、各スペクトルの積分値は主に総合的な尿中濃度の関数であるということである。メタボノミックな反応に起因する個々の被分析物の濃度のばらつきは、総合的な尿中濃度のばらつきとは対照的に、比較的小さいと想定されるが、これらのうち後者は、スペクトル全体およびスペクトルの該所定の領域のそれぞれに影響を及ぼす。しかしながら、メタボノミクス試験における動物は、スペクトルを左右し得る極端な量の糖を排せつ(excrete)することが可能であり、その結果、標準化に実質的な影響を与えることになるであろう。加えて、尿とともに排せつされる薬物関連化合物もまた、これらに対応するピークの積分値を通じて標準化に影響を与え、従ってスペクトルのトータル積分値に対する有意性の一因となるであろう。比較的高濃度の未知の混入物質が存在すると、スペクトルまたはスペクトルの該所定の領域のトータル積分値に有意に影響を及ぼすかもしれない混合物を比較するような、その他の分析応用において、同様の問題が発生する。
【0004】
米国特許公開2003/0111596A1号において、質量分析法により検討された化学混合組成物の定量方法が開示されている。当該文書の段落0040に特記されるように、この既知の方法は以下によるものである:
a)複数の化学サンプルからサンプルスペクトルのセットを得ること、ここで各スペクトルはピーク強度を有するピークを含み;
b)参照スペクトルを選択すること;
c)標準化される該サンプルスペクトルのいずれかに対し、全ピークまたはピーク総数のフラクションに対するサンプルスペクトルと参照スペクトルとの強度比を演算すること;および
d)サンプルスペクトルに該強度比から演算された標準化因子を乗じること。
【0005】
上記の方法は、サンプルおよび参照スペクトル間を変動させない濃度の成分に代表されるように、多くの現実的な環境下において該強度比の多くは実質的に等しくなるという事実に依存している。次に、ノンパラメトリック測定を用いて該強度比から標準化因子が演算され得る。好ましくは、標準化因子は該強度比の中央値となるように選択される。
【0006】
さらに、米国特許公開2003/011596A1号の段落0031において指摘されるように、既知の標準化手段は、その強度または領域が成分濃度に比例するシグナル(またはピーク)を含むスペクトルを生じる、いかなるタイプの分光法または分光分析法にも適用可能である。したがって、特にNMR分光法に適用可能なはずである。
【0007】
しかしながら、米国特許公開2003/011596A1号は、いわゆる「異常値(outlier)」の特定と排除の問題を指摘していないが、これは、とりわけアーチファクト(不自然な結果)から発生あるいはこれにより歪曲された各シグナルであるのかもしれないし、例えば収集中の技術的不具合などに起因する、いくつかのタイプの偏差を伴う全スペクトルであるのかもしれない。メタボノミクス試験などの膨大な数のスペクトルの定量分析において、この問題は特に重要である。
【0008】
【特許文献1】米国特許公開2003/0115961A1号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
本願発明の主な目的は、スペクトル、特にNMRスペクトルの定量プロセッシングに対し、現在知られている方法の制限やデメリットを克服することである。
【課題を解決するための手段】
【0010】
上記ならびにその他の目的は、本願発明の方法により達成された。
請求項1によれば、スペクトル、特にNMRスペクトルのセットをプロセッシングする方法であって、以下の工程を含有するものが提供される:
a)主要スペクトル領域を選択すること;
b)該主要スペクトル領域における複数の主要スペクトルを記録すること;
c)該主要スペクトル領域における参照主要スペクトルを取得すること;
d)該主要スペクトルそれぞれに対して、該参照主要スペクトルにより該主要スペクトルのビンワイズ分割を実行して、スペクトル指数に対応するセットを取得すること;
e)少なくとも1つ以上の該主要スペクトルに対して、該スペクトル指数に対応するセットに由来する統計的尺度の関連セットを計算すること;および
f)少なくとも1つ以上の該統計的尺度の関連セットに対して、異常値検出試験を実行すること。
【0011】
本願発明の方法は、NMR分光法における適用に有用であり、そしてこれにより実証されるものであるが、その強度または領域が成分濃度に比例するシグナル(またはピーク)を含むスペクトルを生じる、例えば、質量分析またはさまざまなタイプの光学分光学といった、その他のタイプの分光法にも適用可能である。
【0012】
本明細書において、「スペクトル領域」という用語は、スペクトル中の単一領域(single region)または複数の互いに素な領域(disjoint region)であると思われる場合に対して使用されるものとする。特に、関心の高いスペクトル領域は、それぞれが一定の数のシグナルピークを含むような複数のスペクトル領域である可能性がある。「主要」という用語は、本願発明の特定の実施態様において用いられている「補助」の対照として本明細書中で使用されるものとする。特に、「主要スペクトル領域」は、ある種のサンプルの1つ以上の関連シグナルピークを含むスペクトル領域を検出するために使用される。スペクトルは、該主要スペクトル領域ならびに適用できる場合は補助スペクトル領域を含む全般的なスペクトル領域の中において典型的に得られるものである、ということを特記すべきである。その上、全般的なスペクトル領域は、以降の分析に使用されることのないスペクトル領域をさらに含んでいる可能性がある。例えば、メタボノミクス試験におけるH NMRスペクトルは、全般的なスペクトル領域−8〜+14ppmの範囲にしばしば記録されるが、ここで主要スペクトル領域は、各々1〜4.5ppmおよび6〜9.5ppm2つの領域により構成されるものとして選択される。
【0013】
本質的に、昨今のすべての分光法出願において、デジタル形式のスペクトルデータが取得されている。例えば、一次元NMRスペクトルは一般的に一連の強度値(intensity value)として得ることが可能であり、その各々は特定のスペクトルチャンネルまたは「ビン(bin)」に関連している。したがって、「ビン」という用語は、強度値の合計を指すことも可能である。すなわち第2スペクトルによる、第1スペクトルの「ビンワイズ分割」とは、第1スペクトルの特定のビン中の強度値を取り出し、これを第2スペクトルの同一のビン中の強度値で分割し、分割の結果をスペクトル指数の結果セットの同一のビンに代入し、関心の高いスペクトル領域におけるすべてのビンに対してこの手順を繰り返すことであると、本明細書中において理解されるものとする。スペクトルが非デジタル、すなわちアナログ形式で得られるとしても、それでもなお、本願発明の意義において、ビンワイズ分割をおこなうことが可能であったことが理解されるであろう。これは、シグナルプロセッシング分野において既知の好ましいビン化の手順を用いて、いずれのアナログのスペクトルをも最初にデジタル形式に変換することを余儀なくしただけに過ぎないであろう。
【0014】
「統計的尺度」という用語は、その大きさが、例えば、関係の強さ、ばらつきの量、差の大きさ、または分布の形状などの関心の高いいくつかの数量規模(magnitude of some quantity of interest)を示すいずれかの数字を指すものとする。実施例には平均、分散、相関係数およびその他多数が含まれる。
【0015】
「異常値」という用語は、実在物いずれをも指すが、特にシグナルピーク、スペクトルまたは多数のシグナルピークを含むその一部、またはスペクトルのすべてのセットであり、特定の変数に対するそのスコアは、先に定義した数値域からは実質的に逸脱する。すなわち、「異常値検出試験」は、特定の実在物が、特定の試験の基準を鑑みたときに異常値であるとみなされるべきであるか否かの決定を目的とするいずれかのタイプの手段であると理解されるべきである。
【0016】
本願発明による方法は、スペクトルデータの自動プロセッシングに導入される。以下においてさらに実証されるように、NMRスペクトルのプロセッシングセットに適用される異常値検出試験の現実型は、重要ないかなるアプリケーションにも適応され得る。この方法は、例えば、異常値として認識されるスペクトルがさらなる分析から切り捨てられてしまうようなすべての手段に、はめ込むことが可能である。
【0017】
有利な実施態様は従属項において定義される。
【0018】
一般的に、主要スペクトルに対応する統計的尺度のセットは、スペクトル指数の分布の位置および形状を適切に記述するように選択される。すなわち、少なくとも1つ以上の位置尺度(one position measure)および1つ以上の幅尺度(one width measure)を使用することは有利である。請求項2による実施態様の中で、主要スペクトルに対応する統計的尺度のセットは、そのスペクトル指数の中央値と、そのスペクトル指数の第3四分位数から、そのスペクトル指数の第1四分位数を減じることによって得られる四分位間差異とを含む。これらの統計的尺度は、比較的手堅いことが知られている。しかしながら、その他の選択も可能である。最頻値または平均値を位置尺度に使用することが可能であり、また、その他の分位間の差異を幅尺度に使用することが可能である。
【0019】
請求項3による実施態様において、該異常値検出試験は該四分位間差異が所定の閾値幅を超えるか否かを決定することを含む。このような大きな四分位間差異は、スペクトル指数が広範囲に渡って分散しているという指標であり、したがって、瞬時スペクトル相対物(instant spectrum relative)から参照スペクトルへの強度はかなり変化に富んでおり、単なる測定作業ではないことを示していること意味する。請求項4によれば、閾値幅は、主要スペクトルのすべてのセットを考慮した該四分位間差異の分布から決定される。言い換えれば、その後に異常値検出試験のための閾値幅を決定する目的で、任意のセットのすべてのスペクトル中に見られる四分位間差異の全体の印象を最初に獲得する。
【0020】
請求項5による実施態様において、該異常値検出試験は、所定の閾値指数偏差異常の定数と、該スペクトル指数の中央値とが異なるか否かを決定することを含む。このような大きな偏差は、任意の標準値に対する瞬時スペクトル相対物の総合的強度において偏差の指標となる。請求項6によれば、主要スペクトルの全セットを考慮した該スペクトル指数の中央値の分布によって閾値指数偏差は決定される。言い換えれば、その後に異常値検出試験のための閾値偏差を決定する目的で、任意のセットのすべてのスペクトル中に見られるスペクトル指数の中央値の全体の印象を最初に獲得する。
【0021】
その他の有利な実施態様は請求項7に定義されており、これによれば本法はさらに以下の工程を含む:
a)該主要スペクトル領域と重複しない補助スペクトル領域を選択すること;
b)該主要スペクトル領域内のそれぞれの該主要スペクトルと共に、該補助スペクトル領域内の関連補助スペクトルを記録すること;
c)該補助スペクトル領域内の参照補助スペクトルを取得すること;
d)それぞれの該補助スペクトルに対して、該参照補助スペクトルによる、補助スペクトルのビンワイズ分割を実行し、補助スペクトル指数に対応するセットを取得すること;および
e)それぞれの該補助スペクトルに対して、補助スペクトル指数に対応するセットに由来する統計的尺度の関連セットを計算すること;
ならびに、該異常値検出試験は、主要スペクトルの統計的尺度と関連補助スペクトルとを比較することを含むものとする。特に、補助スペクトル領域は、問題またはアーチファクト(不自然な結果)である可能性が高い領域から選択され得るものであり、一方、主要スペクトル領域は、問題またはアーチファクトである疑いが低い領域から選択される。補助スペクトルは次に一種の診断ツールとして使用することが可能である。先に述べたように、本明細書中で議論されるいずれのスペクトル領域も、1種のスペクトル領域、あるいは2種以上の非同一のスペクトル領域から構成され得る。
【0022】
さらに、その他の有利な実施態様は、請求項8に定義されるが、これによれば、それぞれの該主要スペクトルに対して工程1e)を実行して統計的尺度の完全セットを取得し、これから全域(global)統計的尺度が導き出され、ならびに、該全域統計的尺度のセットに対して該異常値検出試験が実行される。言い換えれば、試験ができる限り客観的となるように、スペクトルの全セットに由来する統計的情報を利用して、異常値検出試験が実行される。請求項9によれば、該全域統計的尺度のセットは、以下を含む:
a)該四分位間差異の完全セットの中央値;および
b)該四分位間差異の完全セットの四分位間差異。
【0023】
しかしながら、統計的尺度におけるその他の選択も可能である。
【0024】
原則として、強度のためには収集されないスペクトルデータを利用してここまでに議論した方法を実行することは可能である。しかしながら、多くの適用において、請求項10に規定される方法を適用することが好ましく、これによれば、それぞれの該主要スペクトルならびに(適用できる場合には)それぞれの該補助スペクトルは、ビンワイズ分割を実行する前に標準化手段へと供される。有利なことに、請求項11の実施態様によりこれが行われるが、ここで、いずれかの該主要または補助スペクトルに対する該標準化手段は、以下の工程を含む:
a)該スペクトルに予備プロセッシングを適用し、予備プロセッシング化スペクトルを得ること;
b)該予備プロセッシング化スペクトルの積分強度を計算すること;および
c)該予備プロセッシングしたスペクトルに、該積分強度の逆数に比例する標準化因子を乗じること。
【0025】
予備プロセッシング法は一般的にはスペクトルのタイプと質に依存する。ノイズの多いデータの場合、スムージングおよびフィルタリングの作業を含んでいても構わないが、とりわけ、実質的にフラットな、あるいは徐々に変化するバックグラウンド成分を有するスペクトルに好適であるベースラインの補正または減算の手段を含むことも可能である。特にNMRスペクトルに対しては、予備プロセッシングには、ゼロフィリング、フェージング、ウィンドウファンクションの適用および線形予測が含まれていても構わない。さらなる予備プロセッシング工程にはスペクトルの微分および積分が含まれていても構わない。
【0026】
実際、標準化因子には、いずれの標準化スペクトルであっても予め決定された積分強度を有することを確実とする、例えば1または100あるいはその他いずれかの都合の良い値などの比例定数が含まれる。
【0027】
スペクトルのセットのプロセッシングに採用される参照スペクトルに対し、さまざまな選択が存在する。例えば、計算後の参照スペクトル、データベースから抽出した参照スペクトル、あるいは論理スペクトルであるかもしれない。請求項12によれば参照主要または補助スペクトルは、それぞれ対応する主要または補助スペクトル領域に記録した、複数のブランクまたは対照スペクトルの中央値として得られる。代替として、請求項13によれば参照主要または補助スペクトルは、該主要または補助スペクトルのサブセットから取得しても構わない。このサブセットは、単一のスペクトルから構成されることもできるであろうし、あるいは複数のスペクトルから構成されることもできるであろう。後者の場合、参照スペクトルは、例えば該複数のスペクトルの中央値または平均値として得られるであろう。最後に、「サブセット」という用語は、サブセットがスペクトルの全セットと同一である場合を含むものであると解釈されるべきであることに留意したい。
【0028】
添付の図面と併せて本願発明のさまざまな実施態様に関する以下の記述を参照することにより、先述およびその他の本願発明の特徴および対象、およびそれらに到達する手段はより明らかになるであろうし、本願発明自体がより理解されるであろう。
【発明を実施するための最良の形態】
【0029】
以下のセクションでは、とりわけ標準化へのさまざまな取り組みを含め、本願発明の方法を適用するために必要とされた背景および技術を記載する。これらの方法はさまざまなタイプの分光法に適応することが可能であると思われるが、以下の議論ではNMRスペクトル、特にH−NMRスペクトルにより例証される。
【0030】
一般的に、関心の高いNMRスペクトルは、その強度Iに関する化学シフトδの関数として記述されるであろう。しかしながら、スペクトルはビンワイズデジタル化のかたちで入手できると推測され、したがって、I(i)として記載する。「シグナル」I(i)を、i−th ビンにより妨害される範囲のスペクトル間でシグナルを積分することによって得られる結果として解釈することが可能である。多くの場合、ビンニングは等距離である。
【0031】
1.スペクトルの標準化
このセクションでは3種の一般的に使用されるスペクトルの標準化、すなわち:積分値の標準化、クレアチニンの標準化およびべクトル長の標準化、に関する技術を記載する。引き続いて、指数の標準化が導入される。最初の3種の標準化技術は、次の一般式の特殊なケースとして表現される:
【0032】
【数1】

【0033】
ここで、Iold(i)およびI(i)はそれぞれ標準化の前後のスペクトル強度であり、kは標準化に使用されるスペクトル領域の指数であり、jおよびjはスペクトル領域kのそれぞれ上限および下限であり、この領域に対して強度I(x)のn乗が積分される。
【0034】
1.1積分値の標準化
積分値の標準化に関し、スペクトルの積分値は主にサンプル濃度の関数であると推測される。したがって、尿の線形濃度級数は、対応するスペクトルの積分値の線形級数をもたらすはずである。単一検体の個々の濃度の変化の影響は、尿の全般的な濃度変化に比べて小さいものであると推測される。
【0035】
積分値の標準化手段では、スペクトルの積分値またはそれらの一部によって、各スペクトルが分割される。したがって、一般式(1)における乗数nは1となる。メタボノミクスのためのNMR測定の分野において、2種のスペクトル領域、すなわち一方は9.98〜5.98ppm、もう一方は4.50〜0.22ppm、を実際に含むスペクトル領域を選択することは一般的な手法である。その上に、次に各スペクトルに100の因数を乗じることが慣例であり、各スペクトルに対する100の総積分値を持って終了とする。
【0036】
積分値の標準化に関する問題はシグナルの相互依存性である。明らかに、単一で強力なシグナルのいずれかが、標準化手段においてすべての他のシグナルのスケールダウン(縮小)を生じ、したがって、混合物の全検体の濃度の明らかな低下を引き起こす。
【0037】
1.2クレアチニンの標準化
ヒトおよび動物の尿の検査において、クレアチニン濃度を用いて検体およびスペクトルの濃度を標準化することは一般的な手法である。根底となる仮定は、クレアチニンの尿中への排出が一定であることである。したがって、クレアチニンは尿濃度の指標として使用される。標準化のためには2つの可能性が存在する。クレアチニンのレベルは、臨床上の化学的手法により対外的に、あるいはNMRスペクトル中のクレアチニン関連シグナルの積分値により内面的に決定される。後者の方法は、積分値の標準化の特別なケースとして表現することが可能である。一般式(1)に関して、(3.04および4.05ppmにおけるクレアチニンピークに対応する)2種の積分領域および乗数1が使用されている。
【0038】
しかしながら、クレアチニンの標準化の実際の適用は、技術的ならびに生物学的な困難に直面している。クレアチニン濃度がNMRスペクトルにより決定される場合、重なり合う(オーバーラップする)ピークを有する代謝産物は、クレアチニン濃度(例えば3.04ppmのクレアチニン)の決定に干渉し得る。H NMRスペクトルを使用したクレアチニン決定に対する第2番目の困難性は、4.05ppm付近のクレアチニンの化学シフトがサンプルのpH値に依存することである。したがって、ピークを選別するアルゴリズムまたはかなり広範囲のスペクトルを標準化のために使用しなければならない。
【0039】
クレアチニンの標準化のための生物学的な課題は、いくつかの研究で見られるように、メタボノミクス反応によるクレアチニン濃度の変化である。標準化時の、メタボノミクス反応によるクレアチニンレベルの上昇の可能性は、通常は予断を許さない。したがって、クレアチニンをベースとした標準化は、メタボノミクスにおいて一般的に使用されるものではないので、本明細書ではこれ以上議論しない。しかしながら、クレアチニンピークは、クレアチニンレベルと、スペクトルのサブセットに対するさまざま方法を用いて得られる標準化因子との間の相関関係を調査するために使用されるが、ここで濃度レベルとクレアチニン間との厳密な相関関係が保たれていることが知られている。
【0040】
1.3ベクトル長の標準化
多くの科学分野において適用される標準化技術は、スペクトルをベクトルとして観察することを基本としている。換言すれば、強度値I(i)の数列(sequence)は、関連ベクトルの成分を示すために採用される。このようなベクトルの長さは、対応するサンプルの濃度により決定されるものと推測され、こうしてサンプルの組成がベクトルの方向を決定する。すなわち、異濃度の調整はベクトルの長さを1にセットすることによって行われる。これは、一般式(1)の乗数nを2にセットすることと同等であることに留意されたい。積分値の標準化を用いる場合と同様に、通常のベクトル長の演算により、スペクトル中の全てのピークは互いに影響する。
【0041】
1.4指数の標準化
指数の標準化は、単一検体の濃度における変化はスペクトルのパーツ(一部)にのみ影響を与えるが、一方、サンプルの総体的な濃度の変化は完全スペクトルに影響を与えるという仮定に基づくものである。積分値の標準化以外を用いて、与えられたスペクトルと参照スペクトルとの間の最も現実的な指数を計算し、次にその指数は標準化あるいはスケーリングファクターを得るために使用される。
【0042】
この手順において、スペクトルおよび予め選択された参照スペクトルのビンワイズ分割が実行されてスペクトル指数のセットが得られる。この手順は、適切に選択されたいくつかのスペクトル領域中で行われることが理解されよう。理想的にはスペクトル指数の分布は狭いであろうが、異なる濃度の2種の同一サンプルという制限の中では、それぞれのスペクトル指数は濃度の割合により異なるであろう。
【0043】
さまざまな方法で決定され得る最も現実的なスペクトル指数は、サンプルと参照間の濃度の割合を示す。図1のパネルAは,メタボノミクス試験のサンプルR14r30h+000と、同一試験の参照サンプルとの間のスペクトル指数の分布を示している。このサンプルは対象サンプルよりわずかにより濃縮されたことがわかっており、最も現実的な指数(ヒストグラムの最大値として大まかに)は1.1付近に位置するとしている。一方、図1のパネルBは、同一試験における比較的希釈されたサンプルに対する結果を示しており、参照サンプルと比較して約0.6の最も現実的な指数を有することがわかった。
【0044】
しかしながら、メタボノミクスの変化により単一検体の濃度が変化するのであれば、対応するスペクトルの特定の部分のみが影響を受けるであろう。結果では、スペクトル指数はより広範囲に分布する。図1のパネルCは、メタボノミクスの変化により、そのスペクトル全域に渡る極端な強度多様性を有するサンプルのスペクトル指数の分布を示している。これは、増強あるいは減少した強度をそれぞれ有するスペクトルの一部による広範な分布をもたらす。10の値を超える極端なスペクトル指数は、この特定のサンプル中に排せつされる極端な量のグルコースにより引き起こされる。これにもかかわらず、尿の総濃度は実質的に変化せず、最も現実的なスペクトル指数はやはり1に近い。対照的に、図1のパネルDは、両者、すなわち、強力なメタボノミクス反応による特定の変化および尿排せつ増大によるサンプルの希釈、の影響を受けたサンプルのヒストグラムを示している。すなわち、スペクトル指数の分布は拡大され、そして低い値へとシフトする。
【0045】
指数の標準化の重要な局面は、最も現実的なスペクトル指数の決定であるが、なぜなら、これにスケーリングファクターが使用されるからである。先のパラグラフ(段落)では、最も現実的なスペクトル指数は、スペクトル指数のヒストグラムの最大値をとることにより決定される。しかしながら、分布の最大値の正確な位置はビンニングの幅に依存する。したがって、ヒストグラムの図表分析は、最適指数を決定するための確固たる一般的な方法であるとみなすことはできないことが、これまでのところ示されてきた。粗すぎるビンニングはむしろ、多大な定量化エラーを生じ(例えば、指数1と1.1の間の差異は10%の定量化エラーを生じる)、一方細かすぎるビンニングは、図1のパネルDに示されるように、はっきりとした最大値のないヒストグラムを生じる。実際のアプローチでは、指数の中央値を使用して最も現実的なスペクトル指数を概算する。中央値法の利点は、ヒストグラムに対する指数の離散(discrete)グルーピング(ビンニング)が要求されないことであり、このことは自由裁量となる。中央値法は、極端な指数が調整に著しい影響を与えるような危険性がなく、スペクトルの微細調整を可能にする。
【0046】
スペクトル指数の計算に使用する参照スペクトルは、「ゴールデン(golden)」参照サンプルから得られた単一スペクトルであっても良い。代わりにいくつかのスペクトルの中央または平均スペクトルを使用しても良い。参照スペクトルの型(タイプ)の影響については、セクション4.1.3において議論する。参照スペクトルはできる限り代表的なものとするべきであることがわかった。したがって、複数の非投与サンプル(対照サンプルおよび投与前サンプル)の中央スペクトルとして参照スペクトルを計算することが奨励される。
【0047】
指数の標準化は積分値の標準化(通常、積分値100となるように)の後に行なうことが可能である。さまざまなスペクトルの絶対尺度値を生じるような種々の分光計で測定を行った試験の比較が、これによって簡素化される。したがって、一般的には、指数の標準化は以下の工程を含有する:
A1.積分値の標準化を実行する(一般的には、定積分値100を使用する)。
A2.参照スペクトルを選択または計算する(最良の取り組み:非投薬サンプルの中央スペクトルを計算する)。
A3.参照スペクトルによる、サンプルスペクトルのビンワイズ分割を実施し、スペクトル指数に対応するセットを得る。
A4.スペクトル指数の中央値を計算する。
A5.サンプルスペクトルを、これに該中央値の逆数を乗じることにより、再スケール(再設計)する。
【0048】
先に述べたように、工程A1は任意であるが、多くの場合においてこの工程は有益である。
【0049】
2.異常値の検出
2.1背景
指数の標準化の根底にある方法論は、さらに確立されて異常値の自動検出機能を備える。自動化されたサンプル調製、測定およびデータプロセッシングの間、得られるデータの品質に影響を与える多くの事柄が起こり得る。例えば、検出器による誤獲得、水共鳴の不十分な抑制、スペクトルの両境界域におけるスパイク、またはデータ参照、不正確な基準線補正および不適切なフェージングなどのデータプロセッシングにおける問題は、NMRスペクトル測定時にすべて発生し得る。加えて、サンプル中の尿の欠如または非常に低濃度であることは、自動的に検出されるべきである。
【0050】
メタボノミクス試験(または、例えば製造バッチの品質管理用に得られたNMRスペクトル)において、多くの検体は安定な相対濃度を有しており、したがって、シグナルピークの大部分はそれなりの反応を示す。一方、損傷のあるスペクトルは、通常、さまざまな全体形状を有しており、損傷のないスペクトルに比べるとスペクトル指数は非常に広い分布となる。この特徴は、異常値の検出、または化学的に類似するサンプルに実施する測定方法の全般的品質を判断するための測定方法の決定に使用することができる。
【0051】
2.2異常値検出の手順
異常値のオフライン検出の手順(本明細書において「オフライン」とは、試験の完了後に検出を行うことを意味する)には、以下の工程が含まれる:
B1.試験由来のスペクトルの全セットに対し、積分値の標準化を実行する。
B2.参照スペクトル(非投薬サンプルの中央スペクトル)を計算する。
B3.参照スペクトルにより、サンプルスペクトルのビンワイズ分割を実施してスペクトル指数に対応するセットを得る。
B4.それぞれのスペクトルに対し、スペクトル指数の中央値(これより、mで記す)およびスペクトル指数の第1および第3四分位数の間の差異(これより、「四分位間差異」と呼び、dで記す)を計算する。中央値mは、瞬時スペクトルの指数の標準化のために使用することが可能である(実際にmの逆数をスケーリングファクターとして使用することによる)。
B5.異常値検出試験を実施する。例えば、四分位間差異dは、瞬時スペクトルの形状が参照スペクトルの形状とどのように異なるかの尺度である。すなわち、異常値の基準は、予め選択された閾値幅を超えるd値であろう。更なる異常値試験については以下に議論する。
【0052】
先に述べたように、工程B1は任意であるが、たいていの場合において効果的であろう。一般的に、工程B4は一連の測定法のすべてのスペクトルに対して実行されるが、これは厳正に要求されるものではなく、すなわち、工程B4をスペクトルのサブセットのみに対して行うことも可能である。
【0053】
スペクトル検出およびプロセッシングをリアルタイムでコントロールするために使用できる、上述の手順のオンライン版に対する修正は、工程B2の修正が必要とされるだけであるのでどちらかといえば控えめである。実務上のアプローチは、投与前のサンプルまたは対照サンプルの参照セットを一連の手順の開始時に測定することである。次に、このセットのスペクトルを基に、中央参照スペクトルを計算する。健全な中央値を使用することにより、特定の割合の間違ったデータが参照セットに存在することになる。上記の手順のすべての以下の工程はスペクトル対スペクトルをベースとしており、したがってアルゴリズムのオンラインバージョンに対して非常に適合する。
【0054】
2.3異常値の発見および損傷を受けたスペクトル
取得(acquisition)中の技術的不具合による異常値は、完全に異なる形状を持つスペクトルを生じる(例えば、実際のスペクトルに代わる定まりのない直線や曲線)。そのため、異なる形状が、対応スペクトルのスペクトル指数における非常に広範な分布を生じる。その結果、非定型の大きな四分位間差異dを生じる。不定ではあるものの、dに関する固定値1は、メタボノミクス試験のNMRスペクトルに対する妥当な閾値幅であることが判明した。この閾値幅を超えるd値は、損傷を受けたスペクトルまたはスペクトルの大部分に影響を及ぼす問題の典型的な指標である。dとして固定ならびに、むしろ定まりのない閾値を使用する代わりに、dの中央値mdおよびdの四分位間差異ddを有するdの分散を使用することが可能である。dに対する閾値は、dcritical=md+n・ddにしたがってセットすることが可能であり、ここで、nは感度および特異性(specificity)の観点から異常値の検出を調整するためのパラメータである。
【0055】
異常値の第二の類型は、スペクトル指数の中央値mを考慮することにより検出することが可能である。四分位間差異dは異常値を示さないが、スペクトル指数の中央値mが1から有意に外れる場合、積分値の標準化を「欺いた」範囲に属する小スペクトルのみにおける、激しく逸脱したスペクトルである可能性が高い(工程B1)。これは、スペクトルのごく一部(例えばスパイクまたは水ピーク抑制の乏しさ(poor water peak suppression)のみに影響を与える技術的な問題によるものであるか、あるいは並外れたメタボノミクス反応を有する動物によるものである可能性がある。並外れた動物と技術的な問題との間の識別はできないものの、異常値検出では、そのサンプルをさらに調査するべきであることが示される。mに関連する異常値の検出は、大まかには、1という理想値から±0.15の逸脱である。繰り返すが、これらの固定的な(hard)閾値を使用する代わりに、中央値mの中央値mmおよび中央値mの四分位間差異dmのような試験に特異的な(specific)閾値を使用することができる。したがって、中央値に対する限界閾値は、mcritical=mm±n・dmにしたがってセットすることが可能であり、ここでnは感度および特異性(specificity)の観点から異常値の検出を調整するためのパラメータである。
【0056】
2.4特異的な技術的問題点の発見
スペクトル内の領域が特異的な技術的問題点により典型的な影響を受けていることがわかっている場合、この領域は補助スペクトル領域として選択され得る。この補助領域内のスペクトル指数は、次に、特定の問題を検出する目的で、スペクトルの影響を受けないスペクトル領域内のスペクトル指数、これは以降の記載において「主要スペクトル領域と呼ばれる」、と比較され得る。したがって、この手順は以下の工程を有する:
C1.主要スペクトル領域および主要スペクトル領域と重なり合わない補助スペクトル領域を選択する。
C2.主要スペクトル領域内の複数の主要スペクトルを記録し、該主要スペクトルのそれぞれに対して、補助スペクトル領域内の関連する補助スペクトルを記録する。
C3.主要スペクトル領域内の参照主要スペクトルおよび該補助スペクトル領域内の参照補助スペクトルを得る。
C4.それぞれの主要スペクトルに対して、参照主要スペクトルによる主要スペクトルのビンワイズ分割を実行し、スペクトル指数に対応するセットを得る;ならびに、それぞれの補助スペクトルに対して、参照補助スペクトルによる補助スペクトルのビンワイズ分割を実行し、補助スペクトル指数に対応するセットを得る。
C5.該主要スペクトルの少なくとも1つに対する主要スペクトル指数の中央値、これはmpと呼ばれる、を計算する。
C6.該主要スペクトルに関連する各補助スペクトルに対する補助スペクトル指数の中央値、これはmaと呼ばれる、を計算する。
C7.mpおよびmaの指数、これはqsと呼ばれる、を計算する。
C8.qsを参照値1と比較することにより、異常値検出試験を実行する。
【0057】
この指数が実質的に1から逸脱する場合、特異的な補助領域内のスペクトルはスペクトルの他の部分とは実質的に異なり、このことは特異的問題を強く示唆している。繰り返すが、qsの分布をベースとする固定閾値またはソフト閾値を使用することが可能である。このように処理され得ることの典型的な問題は水共鳴の抑制の質である。この目的により、水共鳴に隣接して位置するスペクトル領域を含むように、特異的補助領域を選択する。
【0058】
2.5完成した試験の品質の決定
一般的には、メタボノミクス試験は莫大な数のサンプルを測定することにより実施される。これらのサンプルは、特定の薬剤または基質を投与された「投与済み」の動物、および該薬剤または基質の投与を受けていない「非投与」の動物から得られる。こうして測定されたスペクトルは、先天的な動物間の多様性、メタボノミクス反応、そして測定方法間の多様性(技術的な問題など)による多様性を示す。これらすべての多様性の中でも、メタボノミクス反応は、通常、スペクトル内の最も局所的な変化を引き起こす。通常、メタボノミクス試験の目的はメタボノミクス反応を調査することであり、メタボノミクス試験の「品質」は、スペクトルの形状の非局所的な変化を探求することによって判断されるが、なぜなら、これらはメタボノミクス反応によるものではない可能性が最も高いからである。セクション2.2において紹介したアルゴリズムが次の工程によって拡張できる場合、試験の全般的な品質測定を得ることが可能である:
C9.すべてのスペクトルに対して工程C5(および適宜に工程C6)を実行し各スペクトルに対する指数の四分位間差異dおよび指数の中央値mを計算する。次に、試験のすべての中央値mに対する四分位間差異dmを計算する。その後、試験のすべての中央値mの中央値mmを計算する。また、試験のすべての差異dの中央値(さらにmdと呼ぶ)を計算する。最終的に試験の全四分位間差異dの四分位間差異ddを計算する。
【0059】
ある試験が形状により有意に異なる多数のスペクトルを含む場合、mdおよびddの値はむしろ高くなる。これは、フェージング不良のスペクトル、非常に低濃度のサンプル、測定における失敗およびその他多数のいずれかにより起こり得る。スペクトルの品質に対応する影響によって、メタボノミクス反応のデータ分析がより困難としている。
【0060】
dmの高値は、積分値の標準化および指数の標準化が、さまざまなスペクトルに対して有意に逸脱することを示している。mdおよびddが高い場合、この逸脱はおそらく改悪されたスペクトルによるものであろう。一方、dmが高値であり、同時にmdおよびddが低値である場合、さまざまなスペクトルのわずか一部が試験内において矛盾している。これは、さまざまなサンプルが、強力なメタボノミクス反応により、あるいはスパイク、汚染(コンタミネーション)、または薬剤関連化合物などの、スペクトル内の局所的な欠陥により異常値となるということを意味している。
【0061】
2.6図表における異常値の検出
異常値検出のための図表ツールは、dに対するmをプロットすることにより得ることが可能である。したがって、一般的なスペクトルは、dが低値であるm=1付近に集団化することになる。図2において、これらのスペクトルが四角形で示されている。広範囲の損傷を有するスペクトルは、特異的閾値(これは典型的に1にセットされる、)よりも高いdの値を有する。図2において、これらのスペクトルは太い水平線よりも上部に位置しており、丸印で示している。強力なメタボノミクス反応、汚染、またはスペクトルの局所的な損傷により異常値であることを示すスペクトルは、dの閾値よりも下部に位置するがm=1からは有意に逸脱する。典型的には、mに対する閾値として0.80および1.20をセットする。図2では、これらのスペクトルは2つの枠内に点在し、星印で示される。固定閾値にて、パラメータn=3を用いて同様の手順を実行した結果を図3に示す。
【0062】
3.実施例
異なるバックグランドを持つデータセットの4タイプを検査した。データの第1のタイプは、シミュレーションをベースとするものである。したがって、標準化に影響を与えるさまざまな効果をシミュレーションするために、メタボノミクス試験における典型的な尿NMRスペクトルを体系的に変化させた。シミュレーションは、現実的変化からむしろ非現実的といえる極端な変化にまで広がる。第2の実験データセットは、ひとつのメタボノミクス試験からのサンプルのNMR測定に基づくものである。したがって、標準化手段は、極端な量の代謝産物を含むサンプルにより、また同時に、尿濃度の変化により阻害される。このデータセットに関しては、フィルターをかけて技術上の問題による異常値を除去しておいた。第3のデータセットは非投与ラットの4000を超えるNMR測定の収集物である。これらのサンプルは正常な生物学上および分析上の変動のみを示すことから、最小依存状況下で各種さまざまな標準化手段の性能を比較することができる。第4のデータセットは、データをひとつも削除していない、二種のメタボノミクス試験からの測定をベースとしている。それゆえに、ブランクサンプル、次善最適品質のサンプル、および技術上の問題による質の悪いスペクトルの測定を含め、全種類の困難に直面する可能性がある。これらのデータは現実的な状況での異常値識別のデモンストレーションに使用することが可能であろう。
【0063】
3.1標準化に使用する模擬データセット
標準化手段の安定性のシミュレーションのために「ゴールデンスペクトル」を体系的に変動させた。ゴールデンスペクトルは、非投与ラットの尿の4000を超えるスペクトルの中央スペクトルとして計算された。したがって、ゴールデンスペクトルは、ラット尿についてのメタボノミクス領域における典型的なスペクトルを代表するものであると確信される。スペクトル領域(9.96〜0.4ppm)は、0.04ppm毎の積分のビン(integral bin)に分割される。4.48〜6ppm(水および尿)の間の領域のビンは排除され、クエン酸塩の共鳴が起こる領域(2.72/2.68ppmおよび2.56/2.52ppm)のビンは、合計で201ビンを生じる2つのビンにまとめられる。スペクトルは積分の総計が100となるように標準化される。第201番目のビン(0.4ppm)の強度を、人為的に0.5にセットした。このピークは、濃度の非特異的な変化をシミュレーションするためにだけ変更されるが、これは特異的な変化のためではない。このビンは、標準化の手順の品質を判断するための参照ビンとして使用される。ビン化ゴールデンスペクトルを図4に示す。
【0064】
模擬データ(シミュレーションしたデータ)の第1のセットは、工程における非特異的濃度を0.1〜2倍に至る濃度まで体系的に変動させることにより作成される。これは、ゴールデンスペクトルの各ビンの強度に因数(factor)である1.1、1.2、1,3などを乗じることにより実行される。一連の11スペクトルを図5のパネルAに示す。
【0065】
模擬データの第2のセットは、ひとつのシングルビンを体系的に変動させることにより作成される。したがって、2.7ppmにおけるピーク(通常スペクトル中に観察できるクエン酸塩の2種のピークのうちの片方)は、全積分強度10%の工程において増大した(合計10工程)。一連の11スペクトルを図5のパネルBに示す。このシングルピークが完全スペクトルを左右することは明白である。
【0066】
模擬データの第3のセットは、第1および第2模擬データセットの修正の組み合わせを表す。したがって、サンプルの非特異的濃度は10%の工程で増加し、同時に各工程に対してゴールデンスペクトルの積分強度の10%が2.7ppmのピークに加えられた。対応するスペクトルを図5のパネルCに示す。
【0067】
模擬データの第4のセットに関し、10ビンのブロックは、さまざまなピークについて体系的に修正された模擬特異的変動である。したがって、最初の10ビンの強度は、各々の10ビンに対するゴールデンスペクトルの積分強度1%によって増大された。第2のスペクトルに対する最初の20ビンが増加した。合計で20スペクトルが常に増大しながら生成され、その後工程が進むにつれてより多くのビンは、最終スペクトルに対して300%の積分強度となった(ゴールデンスペクトルと比較した)。体系的な変動は、図5のパネルDにおけるビンのブロックとして観察できるが、これによれば、一連の中で第1および最終スペクトルのみが直接観察できる。調査下の全標準化手順について、改ざんされたビンの位置は関係しないことに留意されたい。
【0068】
3.2標準化に対するメタボノミクス試験由来のスペクトル
シクロスポリンを動物に投与した、実際のメタボノミクス試験のスペクトルを、実験データを用いたさまざまな標準化手段の試験に使用した。動物実験の測定およびプロセッシングは、他でも記載したCOMETプロトコルにしたがって実施された(Lindon JC、Nicholson JK、Holmes E、Antti H、Bollard ME、Keun H、Beckonert O、Ebbels TM、Reily MD、Robertson D、Stevens GJ、Luke P、Breau AP、Cantor GH、Bible RH、Niederhauser U、Senn H、Schlotterbeck G、Sidelmann UG、Laursen SM、Tymiak A、Car BD、Lehman-McKeeman L、Cole JM、Loukaci A、Thomas C、Tox Appl Paramacology 187巻、2003年、第137〜146頁)。データセットは、10匹の対照動物、10匹の低用量動物および10匹の高用量動物を異なる時点でサンプリングして得られた、総計231サンプルを含む。このデータセットから、技術的問題による異常値として検出された18サンプルが除外された。ビン化およびスペクトル領域の除外はセクション3.1の記載にしたがって行われた。2匹の高用量動物の全時点における非標準化スペクトルおよび拡大部分を図6に示した。
【0069】
3.3標準化用の対照サンプル
強力なメタボノミクス反応といった厳しい状況下および通常の状況下における、さまざまな標準化手段のパフォーマンスの正当性を立証するために、非投与ラットのNMRスペクトルの収集物を準備した。これにより、極端な変動がもっとも少ないということを基盤として、対照動物由来の4521サンプルのうち4023サンプルならびに投与前サンプルを選択した。このサンプル収集物はラットのメタボノミクスプロフィールの正常な変動を表している。
【0070】
すべての動物が投与を受けていないことから、サンプルのクレアチニンレベルはメタボノミクスの変化による影響を受けず、したがって、サンプルの全般的濃度に対する良好な尺度として働く。したがって、標準化の手順のパフォーマンスは、標準化サンプルのクレアチニンレベルの変動に基づいて比較することが可能である。これにより、クレアチニンレベルは、pHの変動によるクレアチンピークのシフトを明らかにするため4.02〜4.10ppmの間のスペクトルの積分値により決定される。
【0071】
3.4異常値識別試験
異常値の識別のために、2種類の試験が使用された。第1の試験はセクション3.2において記述したシクロスポリン試験と対応するが、手作業により識別された異常値を今回は含めた(セクション3.2とは対照的に)。第2のメタボノミクス試験は、投与化合物としてロシグリタゾンを使用し、80サンプルを含まれているが、ここで45スペクトルは投与を受けた動物に由来し、35スペクトルは非投与動物に由来する。測定およびデータプロセッシングはCOMETプロトコルにしたがって実施された(Lindon JCら;上記にて引用)。繰り返すが、手作業により特定された異常値は除外しなかった。試験の全般的な品質を評価するための基準(セクション2.5を参照)は、60サンプル(投与済み動物から30サンプルおよび非投与動物から30サンプル)を含む付加的な第3の試験に適用される。この試験の最初の測定では、自動化によるベースライン収集およびフェージングの乏しさを結果的に引き起こす自動的水共鳴の抑制に関わる問題に直面した。また、手動によるこの試験のデータのベースライン収集およびフェージングも行った。加えて、この試験のサンプルは最適化されたパルスシーケンス(Baxパルス)を使用して再度測定され、その結果としてスペクトルは最良の視覚的品質を生じた。
【0072】
4.結果
結果は以下の順に示す。最初に積分値の標準化、ベクトル長の標準化および指数の標準化を、仮想データセットを使用して比較した。その後、メタボノミクス試験のスペクトルに対する比較を行った。最後に、異常値検出に対して指数の標準化を使用する可能性を、数種のメタボノミクス試験を使用して実証した。
【0073】
4.1標準化手順―シミュレーション
仮想データセットの結果に対し(詳しくはセクション3.1を参照のこと)、修正スペクトルのビン0.4ppmの強度の指数およびゴールデンスペクトルを計算した。濃度の非特異的な変化による場合のみ、このピークを人為的に修正した。したがって、この参照振幅(reference amplitude)を作ることにより、1の指数は、相対ピーク強度の最適な回収(optimal recovery)を意味し、対応する標準化手段による、これを伴うスペクトルの最適化標準化を意味する。
【0074】
4.1.1さまざまな標準化手段のパフォーマンス
このセクションでは、積分値の標準化およびベクトル長の標準化が、指数の標準化と比較される。指数の標準化に対して、ゴールデンスペクトルを参照スペクトルとして使用した。参照スペクトルの体系的な変動は以降に議論する。図7においては、4種のデータセットに対する3種の標準化手段の結果が示されている。データセット1に対し、総濃度の非特異的な変動のみを含む3種の方法はすべて最適標準化を示した。1という回収率は、(サンプルの希釈のような)総濃度によってのみ変動するピークおよび検体が、同一の一定濃度に標準化されていることを意味する。期待したとおり、3種の手段は、典型的な一連の希釈スペクトルを適正に標準化することが可能である。
【0075】
一種類の単一シグナルの特異的な変化のみで、希釈のないものを含む第2のデータセットは、3種の手段がむしろ異なって機能することを示している。ベクトル長に対する標準化は、単一ピークの変化に対して非常に感受性が高い。したがって、スペクトルのシングルビンの増加による、濃度ベクトル長の増加は劇的であるが、これはベクトル長が二次項を用いて計算されるからである。ベクトル長の再設計はすべてのビンを超えて均等に分散されて、変化のないビンの過小評価を生じる。積分値の標準化に関しては、理想的なパフォーマンスからの逸脱はそれほど劇的ではないが、
これは、すべてのビンを超える二次項なしに、1つのビンの増加した強度の作用が均等に分散するからである。例えば、スペクトル10は1つのシングルビンにおける総強度の100%の付加を含むが、これは積分値の標準化上ではすべてのビン上に分散され、したがって、2という因子によりすべてのビンの縮小化が生じる。一方で、指数の標準化はシングルビンの変化による影響を受けず、したがって、すべてのスペクトルに対する最適標準化が得られる。
【0076】
第1および第2のデータセットの組み合わせによる変動を含む第3のデータセットは、どちらかといえば第2のデータセットと類似した結果を示している。シングルビンの変動はベクトル長および積分定数に対する標準化に強く影響を与える。
【0077】
第4のデータセットは、さまざまなビンの組み合わせによる変動をシミュレートしている。第1のスペクトルに関し、(201のうち)10ビンの強度を増加し(1ビンあたり全積分値の1%)、第2のスペクトルに関し、20ビンの強度を増加する、などである。この場合、ベクトル長の標準化は、積分値の標準化に比べてより良いパフォーマンスを示すが、しかしながら両方法は、最初のスペクトルに対する最適標準化からは既に逸脱していることを示す。一方、指数の標準化は,201中100ビンへの強度の体系的な増加に対して、終始最適標準化を示す。それ以上のビンにおける体系的な増加を伴うスペクトルに対しては、パフォーマンスは急激に落ち込む。この場合の、同方向における過半数を超えるビンへの体系的な変化は非常に非現実的である。現実的なシナリオとみなすことが可能な、5〜25%のビンの体系的な変動に対し、そしてさらに、もはや非常に極端なシナリオといえる30〜50%のビンの体系的な変動に対し、標準化は良好に作用している。
【0078】
4.1.2ノイズの影響
先に列挙した4種のデータセットを用いたデータ解析は2回繰り返されたが、これにより人工的なノイズがスペクトルに加えられた。最初の反復に関して、シグナルあたりの平均強度の0.6%の標準偏差を有する均一ノイズを各シグナルに加えた。ノイズの量は、生物学的変動のないスペクトル領域中の4000を超えるスペクトルからの典型的な分光計ノイズとして推定した。2回目の反復に関して、ノイズの量を10倍に増加することにより、非投与動物の典型的な生物学的なノイズを概算した。双方の反復について、全標準化手段がノイズに対して感受性を有していないことが判った。標準化手段はすべてのビンを考慮に入れている(スムージング効果)ことから、実際、ビンあたりの変動に比べて標準化因子の変動は有意に低かった。例えば、データセット1の標準化因子の標準偏差は、0.6%ノイズに対して0.04〜0.1%の間にあり、6%ノイズに対して0.2〜0.4%の間にある。
【0079】
4.1.3指数の標準化に対する参照スペクトルの影響
ベクトル長の標準化および積分値の標準化とは対照的に、指数の標準化には参照スペクトルが必要とされる。指数の標準化のパフォーマンスに対する参照スペクトルの影響をこのセクションで調査している。参照スペクトルとして「ゴールデンスペクトル」(1)を使用するほか、以下の参照スペクトルも使用した:
(2)非特異的変化およびノイズによってのみ異なる、3×4の仮想データセットの全スペクトルの中央スペクトル。全候補スペクトルからの各シグナルビンに対する中央値を用いて中央スペクトルを構築する。
(3)非特異的変化、ノイズおよび総積分値の20%未満の特異的変化によってのみ異なる全スペクトルの中央スペクトル。
(4)非特異的変化、ノイズおよび総積分値の100%未満の特異的変化によってのみ異なる全スペクトルの中央スペクトル。
(5)全スペクトルの中央スペクトル(3×4のデータセットすべて)。
(6)各ビンにおいて1の定数値を有するスペクトル。
【0080】
上述の6種の参照スペクトルについて、先述のノイズを持たない4種のデータセットの指数の標準化を実行した。最初の3種のデータセットに関しては、参照スペクトル間における有意差は観察することができない。第4番のデータセットに関しては、はっきりとした差異が図8において観察することができる。参照スペクトルとして定数値を用いることにより、非常に悪いパフォーマンスを示している。この知見は、スペクトルおよび参照スペクトル間のスペクトル指数の分布は、スペクトル自体の分布に一致するとともに、それゆえフラットで広範であることの自己証明である。したがって、さまざまなピークの増加は、中央値を有意にシフトする。参照スペクトルが特異的変化のない(非特異的な変化は許容される)代表的なスペクトルに一致し、そして一致する可能性がある場合に、最も安定な標準化が得られることが観察される。総強度の20%以下の特異的変化は、標準化に有意な影響を与えないが、積分された強度の100%以下の特異的変化を有するスペクトルを使用した標準化は、より不安定である。完全データセット6は、非常に特異的変化が大きいビンを多数有する、非現実的に多くの数のスペクトルを含むことから、図8に示される全データを用いるシミュレーションは、参照スペクトルの影響が明らかに強調されている。それでも、試験を標準化する最良の方法は、対照動物および/または投与前の時点などの非投与動物のデータを代表するスペクトルを参照スペクトルとして使用することであることを、このシミュレーションが示している。代表的なスペクトルを計算するための実現可能な方法は、対照スペクトルまたは投与前スペクトルそれぞれの数の平均値または中央値を使用することである。平均値の代わりに中央値を計算することの利点は、スペクトル間の異常値に対する、より高い許容性である。このことはメタボノミクス試験においてしばしば直面する。
【0081】
仮想データセットの目的は、現実的、極端、ならびに幾分極端で非現実的な状況下でのさまざまな標準化手段を調べることであった。シグナルの特異的な変化は、すべて一方向にのみ(シグナルの増加)行われたが、なぜならこれは標準化手段をさらに要求しているからであり、異なるシグナルが異なる方向に特異的に変化すれば、標準化手段に関してこの変化は互いに平衡を保つ。例えば、10強度単位により20シグナルが増加し、そして10強度単位により15シグナルが減少した場合、標準化の手段は5シグナルの変化によってのみ影響を受ける。したがって、現実的な状況について、データセット4を使用したシミュレーションは、最初のわずかなスペクトルに関連するのみで、すべてのスペクトルには関連しないはずである。
【0082】
異なるシミュレーションを観察した場合、指数の標準化が、すべての異なる現実的および極端な状況に対する一般的な標準化手段よりも優れたパフォーマンスを示すことは明らかである。とりわけ、シングルビンが非常に変化した場合、これはメタボノミクス試験で起こり得るが、指数の標準化はそれでも最適標準化因子を発見し、一方、その他の標準化手段は共に、すべてのビンを超えるシングルビンの過剰な強度の影響を分配する。したがって、シングルビンのみに影響を与える因子を伴うすべてのビンの人工的な逆相関が導入される。
【0083】
加えて、指数の標準化に対する最良の参照スペクトルは、特異的な変化のない最も代表的なスペクトルであることがこのシミュレーションにおいて示された。したがって、メタボノミクススペクトルに対する最適参照スペクトルは、対照動物または投与前の時点における動物のスペクトルに基づいて計算されるべきである(例えば、中央スペクトルとして計算される)。
【0084】
4.2標準化手段−シクロスポリン試験
このセクションでは3種の標準化手段のパフォーマンスを、セクション3.2にて詳述した完全メタボノミクス試験のデータを使用して比較する。目視検査により、1.44ppmおよび1.84ppmの化学シフト間のすべてのシグナルは、異なる動物および異なる時点に対して非常に一定であることが判明した。これらのシグナルはこの試験の特異的メタボノミクス変化によって影響されず、尿濃度の変化のみに左右される。したがって、異なるサンプル間のスペクトルのこの部分の積分値の相対的標準偏差が、標準化手段に対する品質判定基準として使用される。異なる方法を用いて標準化されたこの部分のスペクトルを高容量動物28および30に対して図9においてプロットしている。動物28は48時間および72時間の時点で極端な量のグルコースを分泌したが、一方、動物30は、すべての時点において典型的なメタボノミクス反応を示している。比較のために、この2動物の非標準化完全スペクトルを図6に示している。
【0085】
最後に、異なる手段の標準化因子と、4.02および4.10ppmの間の積分値として特定されるクレアチニン濃度との間の相関関係を調べるために、この試験の全サンプルを使用した。
【0086】
積分値の標準化について、動物28および30のスペクトルを図9の中段に示している。動物30のスペクトルは、どちらかといえば1.44ppmおよび1.84ppmの間に合致するシグナルを示し、一方、動物28については、48時間および72時間の時点のスペクトルは非常に低い値である。これらの時点におけるスペクトルは非常に高いグルコースピークを示し、総積分値の抑制により、これが残りのスペクトルを抑制する。全積分値が標準化された試験のサンプルの1.44ppmおよび1.84ppmの間の積分値は、10.3%の相対標準偏差を示している。標準化因子に対するクレアチニンピークの直線回帰は、0.87の相関係数を示している。
【0087】
ベクトル長の標準化のプロット(図9、下段)は、標準化が乏しいことを示している。その大部分が極端に異常範囲にある2種のグルコースサンプル(動物28、48時間および72時間)を伴う1.44ppm〜1.84ppmの間にて、両動物のさまざまなスペクトルは低すぎるかあるいは高すぎるシグナルを示している。この領域内のシグナルは全サンプル中でも異質であり、15.0%の相対標準偏差として観察される。クレアチニンとの相関性もまた乏しい(r=0.62)。
【0088】
図9の上段の検討により、ここでプロットしたサンプルに対し、指数の標準化が優れていることが明らかである。1.44〜1.84の間のシグナルは、全サンプルに対する調和が非常に取られている。この領域の全サンプルのシグナルに対する4.5%という低い相対標準偏差、ならびにクレアチニンピークとの優れた相関性(r=0.99)は、完全な試験に対して指数の標準化が最も矛盾のない標準化であることを示している。
【0089】
4.3標準化手段−正常サンプル
困難を抱える状況下のみならず、対照動物および投与前サンプルの正常な状況下におけるさまざまな標準化手段のパフォーマンスを確認することは、興味深い問題のひとつである。選ばれた4023個の非投与サンプル(詳細はセクション3.3を参照)は、強力なメタボノミクス反応または薬剤関連化合物を含まない。したがって、3種の標準化手段のすべてが類似したパフォーマンスを示すはずであることが期待される。非投与動物がむしろ一定の相対クレアチニンレベルを有するはずであることから、3種の標準化手段のパフォーマンスは、クレアチニンピークの相対標準偏差により本明細書において評価される。
【0090】
その結果は、むしろ注目に値するものである。ベクトル長の標準化は12.2%という許容を超える高値のクレアチニンピークの相対標準偏差を有しているが、一方、積分値の標準化は7.6%という低値の相対標準偏差を有しており、指数の標準化は6.7%という最良のパフォーマンスを有していた。対照動物を観察した場合であってもメタボノミクスの絶え間ない変化による特異的変動は非常に高いことから標準化手段どうしの間の顕著な差異が存在し、これにより、指数の標準化が再び最良のパフォーマンスを示している。
【0091】
4.4異常値の特定
スペクトルの目視検査によって検出された異常値を含むシクロスポリン試験を、指数の標準化手段(データセットに関する詳細はセクション3.4を参照)によって標準化した。異常値の自動的な特定に関し、各サンプルに対する指数の中央値mに加えてそのスペクトル指数の第3および第1四分位数の間の四分位間差異dを計算した。図10の左側のパネルにおいて、試験の全サンプルに関してmに対するdをプロットしている。スペクトルの目視検査により発見された異常値は、丸点(ドット)、三角形およびダイヤモンドの形で示されている。範囲を逸脱しないサンプルすべてが、dは非常に低値の位置に、中央値は約1の位置に集中することは明らかである。極端なメタボノミクス反応、この場合には極端な量のグルコース、を有するサンプルは、d、mともに低置に位置する。技術的な問題による異常値、ブランクサンプルおよび水共鳴の抑制が乏しいサンプルは、dがすべて高値(3を超える)に位置している。このことは、d>1という単純閾値が、非メタボノミクス関連の問題による異常値を検出することを意味する。また極端量のグルコースのサンプルは、d<1およびm<0.8という単純閾値にある極端なメタボノミクス反応として検出することが可能である。第2試験の品質表を、図10(セクション3.4参照)の右側のパネルに示す。繰り返すが、単純閾値であるd>1は、全スペクトルの目視検査により先に特定された全異常値を検出する。典型的な問題による異常値スペクトルのいくつかを図11に示す。
【0092】
図12では、ロシグリタゾン試験について、いかに指数の標準化が特異的な問題の検出に使用され得るのかを示している。この実施例では水共鳴の抑制の質を観察している。まず初めに、この試験に対する指数の標準化を実施した。その後、6.04ppmにおけるスペクトル指数を全指数の中央値で割ったものを計算した。これに相当する値が1から大きく逸脱する場合、そのスペクトルは、水共鳴に隣接する参照から有意に異なる。4種のサンプルが水抑制に乏しいことは明白である。また、これらの4種のサンプルは手作業により既に特定されており、これを図10の右パネルの三角▲にて示している。
【0093】
表1:3種のデータセットに関する異なる品質特性。品質特性が低いほど、試験全体を通じてスペクトルの形状がより類似することを示している。
【0094】
【表1】

【0095】
第3データセット(セクション3.4を参照)に関する、指数の標準化のその他の適用を表1に示す。その中に、四分位間差異の中央値mdおよび四分位間差異の差dd(詳細はセクション2.5を参照)を示している。第1測定はいくつかのサンプルに関して水抑制に乏しく、このことは自動によるフェージングおよびベースラインの収集に対してマイナスの影響を及ぼす。手動によるベースラインの収集およびフェージングは、これらのサンプルの視覚的品質を改善するかもしれない。それにもかかわらず、最適化パルスシーケンスを有するサンプルの第2測定では、(目視検査により確認されたように)水抑制およびスペクトルの質が顕著に改善されていた。表1より、全3種の異常値基準が、スペクトルの質の視覚的印象に関して一致することは明白である。したがって、mdはスペクトル内の平均的な不均一性(異質性)を表現している。いくらかのスペクトルのみが水抑制の乏しさによる影響を受けることから、mdは緩やかにのみ減少する。一方、サンプルの再処理および再測定が主に水抑制の良くないサンプルを改善するために、異なるスペクトル間のこの不均一性の変動を描くddは劇的に減少する。双方の品質特性は、スペクトルを調査することを必要とせずに、スペクトル内およびスペクトル間の均一性を検討することを可能にする。
【図面の簡単な説明】
【0096】
【図1】208の変数(ビン)についてのメタボノミック試験の4サンプルに対する、同一の試験の参照サンプルに関するスペクトル指数の分布を示した図である。
【図2】第3四分位数から第1四分位数を減じたときの差(四分位間差異(d)と呼ばれる)に対する、代表的なメタボノミック試験に対する中央値(m)のプロットを示し;四角い印は異常でないスペクトルを示し、丸印は広範囲にわたりダメージを受けたスペクトル(サンプルなし、レシーバーゲインの不具合、フェージングのミス・・・)を示し、星印は局所的な不規則性によるスペクトル(スパイク、薬物関連化合物、並外れた量の代謝物)を示し;異常値検出のためにm(0.8および1.2)およびd(1)の固定閾値がセットされた図である。
【図3】図2由来のデータのプロットを示すが、固定絶対閾値の代わりに試験特異的閾値(study specific threshold)を用い;全閾値に対し、nを3にセットした図である。
【図4】系統的な修正に使用された、ビン化フォームのゴールデンH NMRスペクトルを示した図である。
【図5】系統的な変動により差異のあるスペクトルのシリーズの、4種のデータセットを示し;(A)サンプル濃度の系統的な変動;(B)単一ピーク強度の系統的な変動;(C)サンプル濃度および単一ピーク強度の系統的な同時変動;10ビンのブロックの系統的な変動を示した図である。
【図6】右側には拡大領域を併記した、異なる時間経過(−16時間〜72時間および−16時間〜168時間)における2匹の動物(動物30および28)の生スペクトルを示した図である。
【図7】図5の4種のデータセットのための異なる標準化手段により得られたリカバリーを示した図である。異なるサンプルにおいて同一の相対濃度を有する測定物質を、同一の標準化された濃度へと標準化手段が再設計していることを、回収率1は意味している。
【図8】異なる参照スペクトルを用いた指数の標準化の結果を示した図である。
【図9】動物30および28に対し、異なる時間経過において、メタボノミック反応(1.44〜1.84ppm)により変動しないシグナルを主に含むスペクトル領域を示し;上段は指数を標準化したスペクトルを示し、中段はベクトル長を標準化したスペクトルを示し、下段はベクトル長を標準化したスペクトルを示した図である。
【図10】シクロスポリン試験(左側)およびロシグリタゾン試験(右側)における異常値のグラフ上の検出のための、四分位間差異dに対する中央値mを示した図である。
【図11】図10の右側プロットにおける異常値として特定されるスペクトルのいくつか、(A)水共鳴の抑制の乏しさ;(B)ネガティブなベースライン;(C)ブランクサンプル;および(D)気泡などの技術的な問題を含むスペクトルを示した図である。
【図12】6.04ppmの化学シフトに対応するシグナルビンのために、プロットに対するサンプル数として、サンプルシグナルを全指数の中央値で分割して得られるスペクトル指数を示した図である。;1から大きく逸脱した数値は、対応するサンプルにおける水共鳴の抑制に関する問題を示唆する。

【特許請求の範囲】
【請求項1】
以下の工程を含有する、スペクトル、特にNMRスペクトルのセットをプロセッシングする方法:
a)主要スペクトル領域を選択すること;
b)該主要スペクトル領域における複数の主要スペクトルを記録すること;
c)該主要スペクトル領域における参照スペクトルを取得すること;
d)該主要スペクトルそれぞれに対して、該参照スペクトルにより該主要スペクトルのビンワイズ分割を実行して、スペクトル指数に対応するセットを取得すること;および
e)少なくとも1つ以上の該主要スペクトルに対して、該スペクトル指数に対応するセットに由来する統計的尺度の関連セットを計算すること;
この方法は、さらに次の工程を含有することにより特徴付けられる:
f)少なくとも1つ以上の該統計的尺度の関連セットに対して、異常値検出試験を実行すること。
【請求項2】
主要スペクトルに対応する統計的尺度のセットが、そのスペクトル指数の中央値および、そのスペクトル指数の第3四分位数からそのスペクトル指数の第1四分位数を減じることによって得られる四分位間差異を含むものである、請求項1に記載の方法。
【請求項3】
該異常値検出試験が、所定の閾値幅を該四分位間差異が超えるか否かを決定することを含む、請求項2に記載の方法。
【請求項4】
該閾値幅が、主要スペクトルのすべてのセットを考慮した該四分位間差異の分布から決定される、請求項3に記載の方法。
【請求項5】
該異常値検出試験が、所定の閾値指数偏差以上の定数と該スペクトル指数の中央値とが異なるか否かを決定することを含む、請求項2に記載の方法。
【請求項6】
主要スペクトルの全セットを考慮した該スペクトル指数の中央値の分布によって、該閾値指数偏差が決定される、請求項5に記載の方法。
【請求項7】
さらに以下の工程を含む、請求項1に記載の方法:
a)該主要スペクトル領域と重複しない補助スペクトル領域を選択すること;
b)該主要スペクトル領域内のそれぞれの該主要スペクトルと共に、該補助スペクトル領域内の関連補助スペクトルを記録すること;
c)該補助スペクトル領域内の参照補助スペクトルを取得すること;
d)それぞれの該補助スペクトルに対して、該参照補助スペクトルによる、補助スペクトルのビンワイズ分割を実行し、補助スペクトル指数に対応するセットを取得すること;および
e)それぞれの該補助スペクトルに対して、補助スペクトル指数に対応するセットに由来する統計的尺度の関連セットを計算すること;
ただし、該異常値検出試験は、主要スペクトルの統計的尺度と関連補助スペクトルとを比較することを含む。
【請求項8】
それぞれの該主要スペクトルに対して工程1e)を実行して統計的尺度の完全セットを取得し、これから全域統計的尺度が導き出され、ならびに、該全域統計的尺度のセットに対して該異常値検出試験が実行される、請求項1に記載の方法。
【請求項9】
該全域統計的尺度のセットが以下を含むものである、請求項2および8に記載の方法:
a)該四分位間差異の完全セットの中央値;および
b)該四分位間差異の完全セットの四分位間差異。
【請求項10】
それぞれの該主要スペクトルまたは該補助スペクトルが、ビンワイズ分割を実行する前に標準化手段に供される、請求項1乃至9のいずれかに記載の方法。
【請求項11】
いずれかの該主要または補助スペクトルに対する該標準化手段が以下の工程を含む、請求項10に記載の方法:
a)該スペクトルに予備プロセッシングを適用し、予備プロセッシング化スペクトルを得ること;
b)該予備プロセッシング化スペクトルの積分強度を計算すること;および
c)該予備プロセッシングしたスペクトルに、該積分強度の逆数に比例する標準化因子を乗じること。
【請求項12】
該参照主要または補助スペクトルが、それぞれ対応する主要または補助スペクトル領域に記録した、複数のブランクまたは参照スペクトルの中央値として得られるものである、請求項1乃至11のいずれかに記載の方法。
【請求項13】
該参照主要または補助スペクトルが、該主要または補助スペクトルのサブセットから得られるものである、請求項1乃至11のいずれかに記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2006−267111(P2006−267111A)
【公開日】平成18年10月5日(2006.10.5)
【国際特許分類】
【出願番号】特願2006−83124(P2006−83124)
【出願日】平成18年3月24日(2006.3.24)
【出願人】(504412406)エフ.ホフマン−ラ・ロッヒェ・アクチェンゲゼルシャフト (4)
【氏名又は名称原語表記】F.HOFFMANN−LA ROCHE AG