スペクトル、特にＮＭＲスペクトルのセットをプロセッシングする方法

【課題】スペクトル、特にＮＭＲスペクトルの定量プロセッシングに対し、現在知られている方法の制限やデメリットを克服すること。
【解決手段】
以下の工程を含有する、スペクトル、特にＮＭＲスペクトルのセットをプロセッシングする方法：
ａ）主要スペクトル領域を選択すること；
ｂ）該主要スペクトル領域における複数の主要スペクトルを記録すること；
ｃ）該主要スペクトル領域における参照主要スペクトルを取得すること；
ｄ）該主要スペクトルそれぞれに対して、該参照主要スペクトルにより該主要スペクトルのビンワイズ分割を実行して、スペクトル指数に対応するセットを取得すること；
ｅ）少なくとも１つ以上の該主要スペクトルに対して、該スペクトル指数に対応するセットに由来する統計的尺度の関連セットを計算すること；および
ｆ）少なくとも１つ以上の該統計的尺度の関連セットに対して、異常値検出試験を実行すること。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、請求項１の前文にしたがってスペクトル、特にＮＭＲスペクトルのセットをプロセッシングする方法に関する。
【背景技術】
【０００２】
分析化学において、とりわけ環境科学、生物学、食品産業およびプロセス化学において、混合物の分析および比較は重要な作業である。例えばメタボノミクスの分野において、動物およびヒトの生体液は、液体クロマトグラフィー質量分析法（ＬＣ−ＭＳ）あるいは核磁気共鳴（ＮＭＲ）分光法などの確立したスペクトル法によって得られたスペクトルによって特徴付けられる。スペクトルの全セット、例えば１セットのサンプルから得られた各々のスペクトルの多数性を分析および比較することは、しばしば必要となる。サンプルの全般的な濃度に関連する作用（例えばサンプルの希釈による、サンプル中の被分析物全体の変化）と、サンプルの組成に影響する作用（混合物中の成分の相対濃度）とを区別するためには、いわゆる標準化法(normalization procedures)を使用しなければならない。さまざまなサンプルのデータが異なる実験条件下にて得られた場合もまた、標準化が必要である。
【０００３】
これまでのところ、与えられたＮＭＲスペクトルのシグナルを標準化し、これにより該スペクトルの一定の全般的な積分値(constant overall integral)を得ることは、例えば尿サンプルを用いたメタボノミクス試験において一般的な手法である。１セットのスペクトルにおける各ＮＭＲスペクトルは、曲線下における所定の同一領域へと換算される。その根底となる前提は、各スペクトルの積分値は主に総合的な尿中濃度の関数であるということである。メタボノミックな反応に起因する個々の被分析物の濃度のばらつきは、総合的な尿中濃度のばらつきとは対照的に、比較的小さいと想定されるが、これらのうち後者は、スペクトル全体およびスペクトルの該所定の領域のそれぞれに影響を及ぼす。しかしながら、メタボノミクス試験における動物は、スペクトルを左右し得る極端な量の糖を排せつ（excrete)することが可能であり、その結果、標準化に実質的な影響を与えることになるであろう。加えて、尿とともに排せつされる薬物関連化合物もまた、これらに対応するピークの積分値を通じて標準化に影響を与え、従ってスペクトルのトータル積分値に対する有意性の一因となるであろう。比較的高濃度の未知の混入物質が存在すると、スペクトルまたはスペクトルの該所定の領域のトータル積分値に有意に影響を及ぼすかもしれない混合物を比較するような、その他の分析応用において、同様の問題が発生する。
【０００４】
米国特許公開２００３／０１１１５９６Ａ１号において、質量分析法により検討された化学混合組成物の定量方法が開示されている。当該文書の段落００４０に特記されるように、この既知の方法は以下によるものである：
ａ）複数の化学サンプルからサンプルスペクトルのセットを得ること、ここで各スペクトルはピーク強度を有するピークを含み；
ｂ）参照スペクトルを選択すること；
ｃ）標準化される該サンプルスペクトルのいずれかに対し、全ピークまたはピーク総数のフラクションに対するサンプルスペクトルと参照スペクトルとの強度比を演算すること；および
ｄ）サンプルスペクトルに該強度比から演算された標準化因子を乗じること。
【０００５】
上記の方法は、サンプルおよび参照スペクトル間を変動させない濃度の成分に代表されるように、多くの現実的な環境下において該強度比の多くは実質的に等しくなるという事実に依存している。次に、ノンパラメトリック測定を用いて該強度比から標準化因子が演算され得る。好ましくは、標準化因子は該強度比の中央値となるように選択される。
【０００６】
さらに、米国特許公開２００３／０１１５９６Ａ1号の段落００３１において指摘されるように、既知の標準化手段は、その強度または領域が成分濃度に比例するシグナル（またはピーク）を含むスペクトルを生じる、いかなるタイプの分光法または分光分析法にも適用可能である。したがって、特にＮＭＲ分光法に適用可能なはずである。
【０００７】
しかしながら、米国特許公開２００３／０１１５９６Ａ1号は、いわゆる「異常値(outlier)」の特定と排除の問題を指摘していないが、これは、とりわけアーチファクト（不自然な結果）から発生あるいはこれにより歪曲された各シグナルであるのかもしれないし、例えば収集中の技術的不具合などに起因する、いくつかのタイプの偏差を伴う全スペクトルであるのかもしれない。メタボノミクス試験などの膨大な数のスペクトルの定量分析において、この問題は特に重要である。
【０００８】
【特許文献１】米国特許公開２００３／０１１５９６１Ａ１号公報
【発明の開示】
【発明が解決しようとする課題】
【０００９】
本願発明の主な目的は、スペクトル、特にＮＭＲスペクトルの定量プロセッシングに対し、現在知られている方法の制限やデメリットを克服することである。
【課題を解決するための手段】
【００１０】
上記ならびにその他の目的は、本願発明の方法により達成された。
請求項１によれば、スペクトル、特にＮＭＲスペクトルのセットをプロセッシングする方法であって、以下の工程を含有するものが提供される：
ａ）主要スペクトル領域を選択すること；
ｂ）該主要スペクトル領域における複数の主要スペクトルを記録すること；
ｃ）該主要スペクトル領域における参照主要スペクトルを取得すること；
ｄ）該主要スペクトルそれぞれに対して、該参照主要スペクトルにより該主要スペクトルのビンワイズ分割を実行して、スペクトル指数に対応するセットを取得すること；
ｅ）少なくとも１つ以上の該主要スペクトルに対して、該スペクトル指数に対応するセットに由来する統計的尺度の関連セットを計算すること；および
ｆ）少なくとも１つ以上の該統計的尺度の関連セットに対して、異常値検出試験を実行すること。
【００１１】
本願発明の方法は、ＮＭＲ分光法における適用に有用であり、そしてこれにより実証されるものであるが、その強度または領域が成分濃度に比例するシグナル（またはピーク）を含むスペクトルを生じる、例えば、質量分析またはさまざまなタイプの光学分光学といった、その他のタイプの分光法にも適用可能である。
【００１２】
本明細書において、「スペクトル領域」という用語は、スペクトル中の単一領域(single region)または複数の互いに素な領域(disjoint region)であると思われる場合に対して使用されるものとする。特に、関心の高いスペクトル領域は、それぞれが一定の数のシグナルピークを含むような複数のスペクトル領域である可能性がある。「主要」という用語は、本願発明の特定の実施態様において用いられている「補助」の対照として本明細書中で使用されるものとする。特に、「主要スペクトル領域」は、ある種のサンプルの１つ以上の関連シグナルピークを含むスペクトル領域を検出するために使用される。スペクトルは、該主要スペクトル領域ならびに適用できる場合は補助スペクトル領域を含む全般的なスペクトル領域の中において典型的に得られるものである、ということを特記すべきである。その上、全般的なスペクトル領域は、以降の分析に使用されることのないスペクトル領域をさらに含んでいる可能性がある。例えば、メタボノミクス試験における^１ＨＮＭＲスペクトルは、全般的なスペクトル領域−８〜＋１４ｐｐｍの範囲にしばしば記録されるが、ここで主要スペクトル領域は、各々１〜４．５ｐｐｍおよび６〜９．５ｐｐｍ２つの領域により構成されるものとして選択される。
【００１３】
本質的に、昨今のすべての分光法出願において、デジタル形式のスペクトルデータが取得されている。例えば、一次元ＮＭＲスペクトルは一般的に一連の強度値(intensity value)として得ることが可能であり、その各々は特定のスペクトルチャンネルまたは「ビン(bin)」に関連している。したがって、「ビン」という用語は、強度値の合計を指すことも可能である。すなわち第２スペクトルによる、第１スペクトルの「ビンワイズ分割」とは、第１スペクトルの特定のビン中の強度値を取り出し、これを第２スペクトルの同一のビン中の強度値で分割し、分割の結果をスペクトル指数の結果セットの同一のビンに代入し、関心の高いスペクトル領域におけるすべてのビンに対してこの手順を繰り返すことであると、本明細書中において理解されるものとする。スペクトルが非デジタル、すなわちアナログ形式で得られるとしても、それでもなお、本願発明の意義において、ビンワイズ分割をおこなうことが可能であったことが理解されるであろう。これは、シグナルプロセッシング分野において既知の好ましいビン化の手順を用いて、いずれのアナログのスペクトルをも最初にデジタル形式に変換することを余儀なくしただけに過ぎないであろう。
【００１４】
「統計的尺度」という用語は、その大きさが、例えば、関係の強さ、ばらつきの量、差の大きさ、または分布の形状などの関心の高いいくつかの数量規模(magnitude of some quantity of interest)を示すいずれかの数字を指すものとする。実施例には平均、分散、相関係数およびその他多数が含まれる。
【００１５】
「異常値」という用語は、実在物いずれをも指すが、特にシグナルピーク、スペクトルまたは多数のシグナルピークを含むその一部、またはスペクトルのすべてのセットであり、特定の変数に対するそのスコアは、先に定義した数値域からは実質的に逸脱する。すなわち、「異常値検出試験」は、特定の実在物が、特定の試験の基準を鑑みたときに異常値であるとみなされるべきであるか否かの決定を目的とするいずれかのタイプの手段であると理解されるべきである。
【００１６】
本願発明による方法は、スペクトルデータの自動プロセッシングに導入される。以下においてさらに実証されるように、ＮＭＲスペクトルのプロセッシングセットに適用される異常値検出試験の現実型は、重要ないかなるアプリケーションにも適応され得る。この方法は、例えば、異常値として認識されるスペクトルがさらなる分析から切り捨てられてしまうようなすべての手段に、はめ込むことが可能である。
【００１７】
有利な実施態様は従属項において定義される。
【００１８】
一般的に、主要スペクトルに対応する統計的尺度のセットは、スペクトル指数の分布の位置および形状を適切に記述するように選択される。すなわち、少なくとも１つ以上の位置尺度(one position measure)および１つ以上の幅尺度(one width measure)を使用することは有利である。請求項２による実施態様の中で、主要スペクトルに対応する統計的尺度のセットは、そのスペクトル指数の中央値と、そのスペクトル指数の第３四分位数から、そのスペクトル指数の第１四分位数を減じることによって得られる四分位間差異とを含む。これらの統計的尺度は、比較的手堅いことが知られている。しかしながら、その他の選択も可能である。最頻値または平均値を位置尺度に使用することが可能であり、また、その他の分位間の差異を幅尺度に使用することが可能である。
【００１９】
請求項３による実施態様において、該異常値検出試験は該四分位間差異が所定の閾値幅を超えるか否かを決定することを含む。このような大きな四分位間差異は、スペクトル指数が広範囲に渡って分散しているという指標であり、したがって、瞬時スペクトル相対物(instant spectrum relative)から参照スペクトルへの強度はかなり変化に富んでおり、単なる測定作業ではないことを示していること意味する。請求項４によれば、閾値幅は、主要スペクトルのすべてのセットを考慮した該四分位間差異の分布から決定される。言い換えれば、その後に異常値検出試験のための閾値幅を決定する目的で、任意のセットのすべてのスペクトル中に見られる四分位間差異の全体の印象を最初に獲得する。
【００２０】
請求項５による実施態様において、該異常値検出試験は、所定の閾値指数偏差異常の定数と、該スペクトル指数の中央値とが異なるか否かを決定することを含む。このような大きな偏差は、任意の標準値に対する瞬時スペクトル相対物の総合的強度において偏差の指標となる。請求項６によれば、主要スペクトルの全セットを考慮した該スペクトル指数の中央値の分布によって閾値指数偏差は決定される。言い換えれば、その後に異常値検出試験のための閾値偏差を決定する目的で、任意のセットのすべてのスペクトル中に見られるスペクトル指数の中央値の全体の印象を最初に獲得する。
【００２１】
その他の有利な実施態様は請求項７に定義されており、これによれば本法はさらに以下の工程を含む：
ａ）該主要スペクトル領域と重複しない補助スペクトル領域を選択すること；
ｂ）該主要スペクトル領域内のそれぞれの該主要スペクトルと共に、該補助スペクトル領域内の関連補助スペクトルを記録すること；
ｃ）該補助スペクトル領域内の参照補助スペクトルを取得すること；
ｄ）それぞれの該補助スペクトルに対して、該参照補助スペクトルによる、補助スペクトルのビンワイズ分割を実行し、補助スペクトル指数に対応するセットを取得すること；および
ｅ）それぞれの該補助スペクトルに対して、補助スペクトル指数に対応するセットに由来する統計的尺度の関連セットを計算すること；
ならびに、該異常値検出試験は、主要スペクトルの統計的尺度と関連補助スペクトルとを比較することを含むものとする。特に、補助スペクトル領域は、問題またはアーチファクト（不自然な結果）である可能性が高い領域から選択され得るものであり、一方、主要スペクトル領域は、問題またはアーチファクトである疑いが低い領域から選択される。補助スペクトルは次に一種の診断ツールとして使用することが可能である。先に述べたように、本明細書中で議論されるいずれのスペクトル領域も、１種のスペクトル領域、あるいは２種以上の非同一のスペクトル領域から構成され得る。
【００２２】
さらに、その他の有利な実施態様は、請求項８に定義されるが、これによれば、それぞれの該主要スペクトルに対して工程１ｅ）を実行して統計的尺度の完全セットを取得し、これから全域(global)統計的尺度が導き出され、ならびに、該全域統計的尺度のセットに対して該異常値検出試験が実行される。言い換えれば、試験ができる限り客観的となるように、スペクトルの全セットに由来する統計的情報を利用して、異常値検出試験が実行される。請求項９によれば、該全域統計的尺度のセットは、以下を含む：
ａ）該四分位間差異の完全セットの中央値；および
ｂ）該四分位間差異の完全セットの四分位間差異。
【００２３】
しかしながら、統計的尺度におけるその他の選択も可能である。
【００２４】
原則として、強度のためには収集されないスペクトルデータを利用してここまでに議論した方法を実行することは可能である。しかしながら、多くの適用において、請求項１０に規定される方法を適用することが好ましく、これによれば、それぞれの該主要スペクトルならびに（適用できる場合には）それぞれの該補助スペクトルは、ビンワイズ分割を実行する前に標準化手段へと供される。有利なことに、請求項１１の実施態様によりこれが行われるが、ここで、いずれかの該主要または補助スペクトルに対する該標準化手段は、以下の工程を含む：
ａ）該スペクトルに予備プロセッシングを適用し、予備プロセッシング化スペクトルを得ること；
ｂ）該予備プロセッシング化スペクトルの積分強度を計算すること；および
ｃ）該予備プロセッシングしたスペクトルに、該積分強度の逆数に比例する標準化因子を乗じること。
【００２５】
予備プロセッシング法は一般的にはスペクトルのタイプと質に依存する。ノイズの多いデータの場合、スムージングおよびフィルタリングの作業を含んでいても構わないが、とりわけ、実質的にフラットな、あるいは徐々に変化するバックグラウンド成分を有するスペクトルに好適であるベースラインの補正または減算の手段を含むことも可能である。特にＮＭＲスペクトルに対しては、予備プロセッシングには、ゼロフィリング、フェージング、ウィンドウファンクションの適用および線形予測が含まれていても構わない。さらなる予備プロセッシング工程にはスペクトルの微分および積分が含まれていても構わない。
【００２６】
実際、標準化因子には、いずれの標準化スペクトルであっても予め決定された積分強度を有することを確実とする、例えば１または１００あるいはその他いずれかの都合の良い値などの比例定数が含まれる。
【００２７】
スペクトルのセットのプロセッシングに採用される参照スペクトルに対し、さまざまな選択が存在する。例えば、計算後の参照スペクトル、データベースから抽出した参照スペクトル、あるいは論理スペクトルであるかもしれない。請求項１２によれば参照主要または補助スペクトルは、それぞれ対応する主要または補助スペクトル領域に記録した、複数のブランクまたは対照スペクトルの中央値として得られる。代替として、請求項１３によれば参照主要または補助スペクトルは、該主要または補助スペクトルのサブセットから取得しても構わない。このサブセットは、単一のスペクトルから構成されることもできるであろうし、あるいは複数のスペクトルから構成されることもできるであろう。後者の場合、参照スペクトルは、例えば該複数のスペクトルの中央値または平均値として得られるであろう。最後に、「サブセット」という用語は、サブセットがスペクトルの全セットと同一である場合を含むものであると解釈されるべきであることに留意したい。
【００２８】
添付の図面と併せて本願発明のさまざまな実施態様に関する以下の記述を参照することにより、先述およびその他の本願発明の特徴および対象、およびそれらに到達する手段はより明らかになるであろうし、本願発明自体がより理解されるであろう。
【発明を実施するための最良の形態】
【００２９】
以下のセクションでは、とりわけ標準化へのさまざまな取り組みを含め、本願発明の方法を適用するために必要とされた背景および技術を記載する。これらの方法はさまざまなタイプの分光法に適応することが可能であると思われるが、以下の議論ではＮＭＲスペクトル、特に^１Ｈ−ＮＭＲスペクトルにより例証される。
【００３０】
一般的に、関心の高いＮＭＲスペクトルは、その強度Ｉに関する化学シフトδの関数として記述されるであろう。しかしながら、スペクトルはビンワイズデジタル化のかたちで入手できると推測され、したがって、Ｉ（ｉ）として記載する。「シグナル」Ｉ（ｉ）を、ｉ−ｔｈビンにより妨害される範囲のスペクトル間でシグナルを積分することによって得られる結果として解釈することが可能である。多くの場合、ビンニングは等距離である。
【００３１】
１．スペクトルの標準化
このセクションでは３種の一般的に使用されるスペクトルの標準化、すなわち：積分値の標準化、クレアチニンの標準化およびべクトル長の標準化、に関する技術を記載する。引き続いて、指数の標準化が導入される。最初の３種の標準化技術は、次の一般式の特殊なケースとして表現される：
【００３２】
【数１】

【００３３】
ここで、Ｉ^ｏｌｄ（ｉ）およびＩ（ｉ）はそれぞれ標準化の前後のスペクトル強度であり、ｋは標準化に使用されるスペクトル領域の指数であり、ｊ_ｋ^ｌおよびｊ_ｋ^ｕはスペクトル領域ｋのそれぞれ上限および下限であり、この領域に対して強度Ｉ（ｘ）のｎ乗が積分される。
【００３４】
１．１積分値の標準化
積分値の標準化に関し、スペクトルの積分値は主にサンプル濃度の関数であると推測される。したがって、尿の線形濃度級数は、対応するスペクトルの積分値の線形級数をもたらすはずである。単一検体の個々の濃度の変化の影響は、尿の全般的な濃度変化に比べて小さいものであると推測される。
【００３５】
積分値の標準化手段では、スペクトルの積分値またはそれらの一部によって、各スペクトルが分割される。したがって、一般式（１）における乗数ｎは１となる。メタボノミクスのためのＮＭＲ測定の分野において、２種のスペクトル領域、すなわち一方は９．９８〜５．９８ｐｐｍ、もう一方は４．５０〜０．２２ｐｐｍ、を実際に含むスペクトル領域を選択することは一般的な手法である。その上に、次に各スペクトルに１００の因数を乗じることが慣例であり、各スペクトルに対する１００の総積分値を持って終了とする。
【００３６】
積分値の標準化に関する問題はシグナルの相互依存性である。明らかに、単一で強力なシグナルのいずれかが、標準化手段においてすべての他のシグナルのスケールダウン（縮小）を生じ、したがって、混合物の全検体の濃度の明らかな低下を引き起こす。
【００３７】
１．２クレアチニンの標準化
ヒトおよび動物の尿の検査において、クレアチニン濃度を用いて検体およびスペクトルの濃度を標準化することは一般的な手法である。根底となる仮定は、クレアチニンの尿中への排出が一定であることである。したがって、クレアチニンは尿濃度の指標として使用される。標準化のためには２つの可能性が存在する。クレアチニンのレベルは、臨床上の化学的手法により対外的に、あるいはＮＭＲスペクトル中のクレアチニン関連シグナルの積分値により内面的に決定される。後者の方法は、積分値の標準化の特別なケースとして表現することが可能である。一般式（１）に関して、（３．０４および４．０５ｐｐｍにおけるクレアチニンピークに対応する）２種の積分領域および乗数１が使用されている。
【００３８】
しかしながら、クレアチニンの標準化の実際の適用は、技術的ならびに生物学的な困難に直面している。クレアチニン濃度がＮＭＲスペクトルにより決定される場合、重なり合う（オーバーラップする）ピークを有する代謝産物は、クレアチニン濃度（例えば３．０４ｐｐｍのクレアチニン）の決定に干渉し得る。^１ＨＮＭＲスペクトルを使用したクレアチニン決定に対する第２番目の困難性は、４．０５ｐｐｍ付近のクレアチニンの化学シフトがサンプルのｐＨ値に依存することである。したがって、ピークを選別するアルゴリズムまたはかなり広範囲のスペクトルを標準化のために使用しなければならない。
【００３９】
クレアチニンの標準化のための生物学的な課題は、いくつかの研究で見られるように、メタボノミクス反応によるクレアチニン濃度の変化である。標準化時の、メタボノミクス反応によるクレアチニンレベルの上昇の可能性は、通常は予断を許さない。したがって、クレアチニンをベースとした標準化は、メタボノミクスにおいて一般的に使用されるものではないので、本明細書ではこれ以上議論しない。しかしながら、クレアチニンピークは、クレアチニンレベルと、スペクトルのサブセットに対するさまざま方法を用いて得られる標準化因子との間の相関関係を調査するために使用されるが、ここで濃度レベルとクレアチニン間との厳密な相関関係が保たれていることが知られている。
【００４０】
１．３ベクトル長の標準化
多くの科学分野において適用される標準化技術は、スペクトルをベクトルとして観察することを基本としている。換言すれば、強度値Ｉ（ｉ）の数列(sequence)は、関連ベクトルの成分を示すために採用される。このようなベクトルの長さは、対応するサンプルの濃度により決定されるものと推測され、こうしてサンプルの組成がベクトルの方向を決定する。すなわち、異濃度の調整はベクトルの長さを１にセットすることによって行われる。これは、一般式（１）の乗数ｎを２にセットすることと同等であることに留意されたい。積分値の標準化を用いる場合と同様に、通常のベクトル長の演算により、スペクトル中の全てのピークは互いに影響する。
【００４１】
１．４指数の標準化
指数の標準化は、単一検体の濃度における変化はスペクトルのパーツ（一部）にのみ影響を与えるが、一方、サンプルの総体的な濃度の変化は完全スペクトルに影響を与えるという仮定に基づくものである。積分値の標準化以外を用いて、与えられたスペクトルと参照スペクトルとの間の最も現実的な指数を計算し、次にその指数は標準化あるいはスケーリングファクターを得るために使用される。
【００４２】
この手順において、スペクトルおよび予め選択された参照スペクトルのビンワイズ分割が実行されてスペクトル指数のセットが得られる。この手順は、適切に選択されたいくつかのスペクトル領域中で行われることが理解されよう。理想的にはスペクトル指数の分布は狭いであろうが、異なる濃度の２種の同一サンプルという制限の中では、それぞれのスペクトル指数は濃度の割合により異なるであろう。
【００４３】
さまざまな方法で決定され得る最も現実的なスペクトル指数は、サンプルと参照間の濃度の割合を示す。図１のパネルＡは，メタボノミクス試験のサンプルＲ１４ｒ３０ｈ＋０００と、同一試験の参照サンプルとの間のスペクトル指数の分布を示している。このサンプルは対象サンプルよりわずかにより濃縮されたことがわかっており、最も現実的な指数（ヒストグラムの最大値として大まかに）は１．１付近に位置するとしている。一方、図１のパネルＢは、同一試験における比較的希釈されたサンプルに対する結果を示しており、参照サンプルと比較して約０．６の最も現実的な指数を有することがわかった。
【００４４】
しかしながら、メタボノミクスの変化により単一検体の濃度が変化するのであれば、対応するスペクトルの特定の部分のみが影響を受けるであろう。結果では、スペクトル指数はより広範囲に分布する。図１のパネルＣは、メタボノミクスの変化により、そのスペクトル全域に渡る極端な強度多様性を有するサンプルのスペクトル指数の分布を示している。これは、増強あるいは減少した強度をそれぞれ有するスペクトルの一部による広範な分布をもたらす。１０の値を超える極端なスペクトル指数は、この特定のサンプル中に排せつされる極端な量のグルコースにより引き起こされる。これにもかかわらず、尿の総濃度は実質的に変化せず、最も現実的なスペクトル指数はやはり１に近い。対照的に、図１のパネルＤは、両者、すなわち、強力なメタボノミクス反応による特定の変化および尿排せつ増大によるサンプルの希釈、の影響を受けたサンプルのヒストグラムを示している。すなわち、スペクトル指数の分布は拡大され、そして低い値へとシフトする。
【００４５】
指数の標準化の重要な局面は、最も現実的なスペクトル指数の決定であるが、なぜなら、これにスケーリングファクターが使用されるからである。先のパラグラフ（段落）では、最も現実的なスペクトル指数は、スペクトル指数のヒストグラムの最大値をとることにより決定される。しかしながら、分布の最大値の正確な位置はビンニングの幅に依存する。したがって、ヒストグラムの図表分析は、最適指数を決定するための確固たる一般的な方法であるとみなすことはできないことが、これまでのところ示されてきた。粗すぎるビンニングはむしろ、多大な定量化エラーを生じ（例えば、指数１と１．１の間の差異は１０％の定量化エラーを生じる）、一方細かすぎるビンニングは、図１のパネルＤに示されるように、はっきりとした最大値のないヒストグラムを生じる。実際のアプローチでは、指数の中央値を使用して最も現実的なスペクトル指数を概算する。中央値法の利点は、ヒストグラムに対する指数の離散(discrete)グルーピング（ビンニング）が要求されないことであり、このことは自由裁量となる。中央値法は、極端な指数が調整に著しい影響を与えるような危険性がなく、スペクトルの微細調整を可能にする。
【００４６】
スペクトル指数の計算に使用する参照スペクトルは、「ゴールデン(golden)」参照サンプルから得られた単一スペクトルであっても良い。代わりにいくつかのスペクトルの中央または平均スペクトルを使用しても良い。参照スペクトルの型（タイプ）の影響については、セクション４．１．３において議論する。参照スペクトルはできる限り代表的なものとするべきであることがわかった。したがって、複数の非投与サンプル（対照サンプルおよび投与前サンプル）の中央スペクトルとして参照スペクトルを計算することが奨励される。
【００４７】
指数の標準化は積分値の標準化（通常、積分値１００となるように）の後に行なうことが可能である。さまざまなスペクトルの絶対尺度値を生じるような種々の分光計で測定を行った試験の比較が、これによって簡素化される。したがって、一般的には、指数の標準化は以下の工程を含有する：
Ａ１．積分値の標準化を実行する（一般的には、定積分値１００を使用する）。
Ａ２．参照スペクトルを選択または計算する（最良の取り組み：非投薬サンプルの中央スペクトルを計算する）。
Ａ３．参照スペクトルによる、サンプルスペクトルのビンワイズ分割を実施し、スペクトル指数に対応するセットを得る。
Ａ４．スペクトル指数の中央値を計算する。
Ａ５．サンプルスペクトルを、これに該中央値の逆数を乗じることにより、再スケール（再設計）する。
【００４８】
先に述べたように、工程Ａ１は任意であるが、多くの場合においてこの工程は有益である。
【００４９】
２．異常値の検出
２．１背景
指数の標準化の根底にある方法論は、さらに確立されて異常値の自動検出機能を備える。自動化されたサンプル調製、測定およびデータプロセッシングの間、得られるデータの品質に影響を与える多くの事柄が起こり得る。例えば、検出器による誤獲得、水共鳴の不十分な抑制、スペクトルの両境界域におけるスパイク、またはデータ参照、不正確な基準線補正および不適切なフェージングなどのデータプロセッシングにおける問題は、ＮＭＲスペクトル測定時にすべて発生し得る。加えて、サンプル中の尿の欠如または非常に低濃度であることは、自動的に検出されるべきである。
【００５０】
メタボノミクス試験（または、例えば製造バッチの品質管理用に得られたＮＭＲスペクトル）において、多くの検体は安定な相対濃度を有しており、したがって、シグナルピークの大部分はそれなりの反応を示す。一方、損傷のあるスペクトルは、通常、さまざまな全体形状を有しており、損傷のないスペクトルに比べるとスペクトル指数は非常に広い分布となる。この特徴は、異常値の検出、または化学的に類似するサンプルに実施する測定方法の全般的品質を判断するための測定方法の決定に使用することができる。
【００５１】
２．２異常値検出の手順
異常値のオフライン検出の手順（本明細書において「オフライン」とは、試験の完了後に検出を行うことを意味する）には、以下の工程が含まれる：
Ｂ１．試験由来のスペクトルの全セットに対し、積分値の標準化を実行する。
Ｂ２．参照スペクトル（非投薬サンプルの中央スペクトル）を計算する。
Ｂ３．参照スペクトルにより、サンプルスペクトルのビンワイズ分割を実施してスペクトル指数に対応するセットを得る。
Ｂ４．それぞれのスペクトルに対し、スペクトル指数の中央値（これより、ｍで記す）およびスペクトル指数の第１および第３四分位数の間の差異（これより、「四分位間差異」と呼び、ｄで記す）を計算する。中央値ｍは、瞬時スペクトルの指数の標準化のために使用することが可能である（実際にｍの逆数をスケーリングファクターとして使用することによる）。
Ｂ５．異常値検出試験を実施する。例えば、四分位間差異ｄは、瞬時スペクトルの形状が参照スペクトルの形状とどのように異なるかの尺度である。すなわち、異常値の基準は、予め選択された閾値幅を超えるｄ値であろう。更なる異常値試験については以下に議論する。
【００５２】
先に述べたように、工程Ｂ１は任意であるが、たいていの場合において効果的であろう。一般的に、工程Ｂ４は一連の測定法のすべてのスペクトルに対して実行されるが、これは厳正に要求されるものではなく、すなわち、工程Ｂ４をスペクトルのサブセットのみに対して行うことも可能である。
【００５３】
スペクトル検出およびプロセッシングをリアルタイムでコントロールするために使用できる、上述の手順のオンライン版に対する修正は、工程Ｂ２の修正が必要とされるだけであるのでどちらかといえば控えめである。実務上のアプローチは、投与前のサンプルまたは対照サンプルの参照セットを一連の手順の開始時に測定することである。次に、このセットのスペクトルを基に、中央参照スペクトルを計算する。健全な中央値を使用することにより、特定の割合の間違ったデータが参照セットに存在することになる。上記の手順のすべての以下の工程はスペクトル対スペクトルをベースとしており、したがってアルゴリズムのオンラインバージョンに対して非常に適合する。
【００５４】
２．３異常値の発見および損傷を受けたスペクトル
取得(acquisition)中の技術的不具合による異常値は、完全に異なる形状を持つスペクトルを生じる（例えば、実際のスペクトルに代わる定まりのない直線や曲線）。そのため、異なる形状が、対応スペクトルのスペクトル指数における非常に広範な分布を生じる。その結果、非定型の大きな四分位間差異ｄを生じる。不定ではあるものの、ｄに関する固定値１は、メタボノミクス試験のＮＭＲスペクトルに対する妥当な閾値幅であることが判明した。この閾値幅を超えるｄ値は、損傷を受けたスペクトルまたはスペクトルの大部分に影響を及ぼす問題の典型的な指標である。ｄとして固定ならびに、むしろ定まりのない閾値を使用する代わりに、ｄの中央値ｍｄおよびdの四分位間差異ｄｄを有するｄの分散を使用することが可能である。ｄに対する閾値は、ｄ_critical＝ｍｄ＋ｎ・ｄｄにしたがってセットすることが可能であり、ここで、ｎは感度および特異性(specificity)の観点から異常値の検出を調整するためのパラメータである。
【００５５】
異常値の第二の類型は、スペクトル指数の中央値ｍを考慮することにより検出することが可能である。四分位間差異ｄは異常値を示さないが、スペクトル指数の中央値ｍが１から有意に外れる場合、積分値の標準化を「欺いた」範囲に属する小スペクトルのみにおける、激しく逸脱したスペクトルである可能性が高い（工程Ｂ１）。これは、スペクトルのごく一部（例えばスパイクまたは水ピーク抑制の乏しさ(poor water peak suppression)のみに影響を与える技術的な問題によるものであるか、あるいは並外れたメタボノミクス反応を有する動物によるものである可能性がある。並外れた動物と技術的な問題との間の識別はできないものの、異常値検出では、そのサンプルをさらに調査するべきであることが示される。ｍに関連する異常値の検出は、大まかには、１という理想値から±０．１５の逸脱である。繰り返すが、これらの固定的な(hard)閾値を使用する代わりに、中央値ｍの中央値ｍｍおよび中央値ｍの四分位間差異ｄｍのような試験に特異的な(specific)閾値を使用することができる。したがって、中央値に対する限界閾値は、ｍ_critical＝ｍｍ±ｎ・ｄｍにしたがってセットすることが可能であり、ここでｎは感度および特異性（specificity）の観点から異常値の検出を調整するためのパラメータである。
【００５６】
２．４特異的な技術的問題点の発見
スペクトル内の領域が特異的な技術的問題点により典型的な影響を受けていることがわかっている場合、この領域は補助スペクトル領域として選択され得る。この補助領域内のスペクトル指数は、次に、特定の問題を検出する目的で、スペクトルの影響を受けないスペクトル領域内のスペクトル指数、これは以降の記載において「主要スペクトル領域と呼ばれる」、と比較され得る。したがって、この手順は以下の工程を有する：
Ｃ１．主要スペクトル領域および主要スペクトル領域と重なり合わない補助スペクトル領域を選択する。
Ｃ２．主要スペクトル領域内の複数の主要スペクトルを記録し、該主要スペクトルのそれぞれに対して、補助スペクトル領域内の関連する補助スペクトルを記録する。
Ｃ３．主要スペクトル領域内の参照主要スペクトルおよび該補助スペクトル領域内の参照補助スペクトルを得る。
Ｃ４．それぞれの主要スペクトルに対して、参照主要スペクトルによる主要スペクトルのビンワイズ分割を実行し、スペクトル指数に対応するセットを得る；ならびに、それぞれの補助スペクトルに対して、参照補助スペクトルによる補助スペクトルのビンワイズ分割を実行し、補助スペクトル指数に対応するセットを得る。
Ｃ５．該主要スペクトルの少なくとも１つに対する主要スペクトル指数の中央値、これはｍｐと呼ばれる、を計算する。
Ｃ６．該主要スペクトルに関連する各補助スペクトルに対する補助スペクトル指数の中央値、これはｍａと呼ばれる、を計算する。
Ｃ７．ｍｐおよびｍａの指数、これはｑｓと呼ばれる、を計算する。
Ｃ８．ｑｓを参照値１と比較することにより、異常値検出試験を実行する。
【００５７】
この指数が実質的に１から逸脱する場合、特異的な補助領域内のスペクトルはスペクトルの他の部分とは実質的に異なり、このことは特異的問題を強く示唆している。繰り返すが、ｑｓの分布をベースとする固定閾値またはソフト閾値を使用することが可能である。このように処理され得ることの典型的な問題は水共鳴の抑制の質である。この目的により、水共鳴に隣接して位置するスペクトル領域を含むように、特異的補助領域を選択する。
【００５８】
２．５完成した試験の品質の決定
一般的には、メタボノミクス試験は莫大な数のサンプルを測定することにより実施される。これらのサンプルは、特定の薬剤または基質を投与された「投与済み」の動物、および該薬剤または基質の投与を受けていない「非投与」の動物から得られる。こうして測定されたスペクトルは、先天的な動物間の多様性、メタボノミクス反応、そして測定方法間の多様性（技術的な問題など）による多様性を示す。これらすべての多様性の中でも、メタボノミクス反応は、通常、スペクトル内の最も局所的な変化を引き起こす。通常、メタボノミクス試験の目的はメタボノミクス反応を調査することであり、メタボノミクス試験の「品質」は、スペクトルの形状の非局所的な変化を探求することによって判断されるが、なぜなら、これらはメタボノミクス反応によるものではない可能性が最も高いからである。セクション２．２において紹介したアルゴリズムが次の工程によって拡張できる場合、試験の全般的な品質測定を得ることが可能である：
Ｃ９．すべてのスペクトルに対して工程Ｃ５（および適宜に工程Ｃ６）を実行し各スペクトルに対する指数の四分位間差異ｄおよび指数の中央値ｍを計算する。次に、試験のすべての中央値ｍに対する四分位間差異ｄｍを計算する。その後、試験のすべての中央値ｍの中央値ｍｍを計算する。また、試験のすべての差異ｄの中央値（さらにｍｄと呼ぶ）を計算する。最終的に試験の全四分位間差異ｄの四分位間差異ｄｄを計算する。
【００５９】
ある試験が形状により有意に異なる多数のスペクトルを含む場合、ｍdおよびｄｄの値はむしろ高くなる。これは、フェージング不良のスペクトル、非常に低濃度のサンプル、測定における失敗およびその他多数のいずれかにより起こり得る。スペクトルの品質に対応する影響によって、メタボノミクス反応のデータ分析がより困難としている。
【００６０】
ｄｍの高値は、積分値の標準化および指数の標準化が、さまざまなスペクトルに対して有意に逸脱することを示している。ｍｄおよびｄｄが高い場合、この逸脱はおそらく改悪されたスペクトルによるものであろう。一方、ｄｍが高値であり、同時にｍｄおよびｄｄが低値である場合、さまざまなスペクトルのわずか一部が試験内において矛盾している。これは、さまざまなサンプルが、強力なメタボノミクス反応により、あるいはスパイク、汚染（コンタミネーション）、または薬剤関連化合物などの、スペクトル内の局所的な欠陥により異常値となるということを意味している。
【００６１】
２．６図表における異常値の検出
異常値検出のための図表ツールは、ｄに対するｍをプロットすることにより得ることが可能である。したがって、一般的なスペクトルは、ｄが低値であるｍ＝１付近に集団化することになる。図２において、これらのスペクトルが四角形で示されている。広範囲の損傷を有するスペクトルは、特異的閾値（これは典型的に１にセットされる、）よりも高いｄの値を有する。図２において、これらのスペクトルは太い水平線よりも上部に位置しており、丸印で示している。強力なメタボノミクス反応、汚染、またはスペクトルの局所的な損傷により異常値であることを示すスペクトルは、ｄの閾値よりも下部に位置するがｍ＝１からは有意に逸脱する。典型的には、ｍに対する閾値として０．８０および１．２０をセットする。図２では、これらのスペクトルは２つの枠内に点在し、星印で示される。固定閾値にて、パラメータｎ＝３を用いて同様の手順を実行した結果を図３に示す。
【００６２】
３.実施例
異なるバックグランドを持つデータセットの４タイプを検査した。データの第１のタイプは、シミュレーションをベースとするものである。したがって、標準化に影響を与えるさまざまな効果をシミュレーションするために、メタボノミクス試験における典型的な尿ＮＭＲスペクトルを体系的に変化させた。シミュレーションは、現実的変化からむしろ非現実的といえる極端な変化にまで広がる。第２の実験データセットは、ひとつのメタボノミクス試験からのサンプルのＮＭＲ測定に基づくものである。したがって、標準化手段は、極端な量の代謝産物を含むサンプルにより、また同時に、尿濃度の変化により阻害される。このデータセットに関しては、フィルターをかけて技術上の問題による異常値を除去しておいた。第３のデータセットは非投与ラットの４０００を超えるＮＭＲ測定の収集物である。これらのサンプルは正常な生物学上および分析上の変動のみを示すことから、最小依存状況下で各種さまざまな標準化手段の性能を比較することができる。第４のデータセットは、データをひとつも削除していない、二種のメタボノミクス試験からの測定をベースとしている。それゆえに、ブランクサンプル、次善最適品質のサンプル、および技術上の問題による質の悪いスペクトルの測定を含め、全種類の困難に直面する可能性がある。これらのデータは現実的な状況での異常値識別のデモンストレーションに使用することが可能であろう。
【００６３】
３．１標準化に使用する模擬データセット
標準化手段の安定性のシミュレーションのために「ゴールデンスペクトル」を体系的に変動させた。ゴールデンスペクトルは、非投与ラットの尿の４０００を超えるスペクトルの中央スペクトルとして計算された。したがって、ゴールデンスペクトルは、ラット尿についてのメタボノミクス領域における典型的なスペクトルを代表するものであると確信される。スペクトル領域（９．９６〜０．４ｐｐｍ）は、０．０４ｐｐｍ毎の積分のビン(integral bin)に分割される。４．４８〜６ｐｐｍ（水および尿）の間の領域のビンは排除され、クエン酸塩の共鳴が起こる領域（２．７２／２．６８ｐｐｍおよび２．５６／２．５２ｐｐｍ）のビンは、合計で２０１ビンを生じる２つのビンにまとめられる。スペクトルは積分の総計が１００となるように標準化される。第２０１番目のビン（０．４ｐｐｍ）の強度を、人為的に０．５にセットした。このピークは、濃度の非特異的な変化をシミュレーションするためにだけ変更されるが、これは特異的な変化のためではない。このビンは、標準化の手順の品質を判断するための参照ビンとして使用される。ビン化ゴールデンスペクトルを図４に示す。
【００６４】
模擬データ（シミュレーションしたデータ）の第１のセットは、工程における非特異的濃度を０．１〜２倍に至る濃度まで体系的に変動させることにより作成される。これは、ゴールデンスペクトルの各ビンの強度に因数(factor)である１．１、１．２、１，３などを乗じることにより実行される。一連の１１スペクトルを図５のパネルＡに示す。
【００６５】
模擬データの第２のセットは、ひとつのシングルビンを体系的に変動させることにより作成される。したがって、２．７ｐｐｍにおけるピーク（通常スペクトル中に観察できるクエン酸塩の２種のピークのうちの片方）は、全積分強度１０％の工程において増大した（合計１０工程）。一連の１１スペクトルを図５のパネルＢに示す。このシングルピークが完全スペクトルを左右することは明白である。
【００６６】
模擬データの第３のセットは、第１および第２模擬データセットの修正の組み合わせを表す。したがって、サンプルの非特異的濃度は１０％の工程で増加し、同時に各工程に対してゴールデンスペクトルの積分強度の１０％が２．７ｐｐｍのピークに加えられた。対応するスペクトルを図５のパネルＣに示す。
【００６７】
模擬データの第４のセットに関し、１０ビンのブロックは、さまざまなピークについて体系的に修正された模擬特異的変動である。したがって、最初の１０ビンの強度は、各々の１０ビンに対するゴールデンスペクトルの積分強度１％によって増大された。第２のスペクトルに対する最初の２０ビンが増加した。合計で２０スペクトルが常に増大しながら生成され、その後工程が進むにつれてより多くのビンは、最終スペクトルに対して３００％の積分強度となった（ゴールデンスペクトルと比較した）。体系的な変動は、図５のパネルＤにおけるビンのブロックとして観察できるが、これによれば、一連の中で第１および最終スペクトルのみが直接観察できる。調査下の全標準化手順について、改ざんされたビンの位置は関係しないことに留意されたい。
【００６８】
３．２標準化に対するメタボノミクス試験由来のスペクトル
シクロスポリンを動物に投与した、実際のメタボノミクス試験のスペクトルを、実験データを用いたさまざまな標準化手段の試験に使用した。動物実験の測定およびプロセッシングは、他でも記載したＣＯＭＥＴプロトコルにしたがって実施された（Lindon JC、Nicholson JK、Holmes E、Antti H、Bollard ME、Keun H、Beckonert O、Ebbels TM、Reily MD、Robertson D、Stevens GJ、Luke P、Breau AP、Cantor GH、Bible RH、Niederhauser U、Senn H、Schlotterbeck G、Sidelmann UG、Laursen SM、Tymiak A、Car BD、Lehman-McKeeman L、Cole JM、Loukaci A、Thomas C、Tox Appl Paramacology １８７巻、２００３年、第１３７〜１４６頁）。データセットは、１０匹の対照動物、１０匹の低用量動物および１０匹の高用量動物を異なる時点でサンプリングして得られた、総計２３１サンプルを含む。このデータセットから、技術的問題による異常値として検出された１８サンプルが除外された。ビン化およびスペクトル領域の除外はセクション３．１の記載にしたがって行われた。２匹の高用量動物の全時点における非標準化スペクトルおよび拡大部分を図６に示した。
【００６９】
３．３標準化用の対照サンプル
強力なメタボノミクス反応といった厳しい状況下および通常の状況下における、さまざまな標準化手段のパフォーマンスの正当性を立証するために、非投与ラットのＮＭＲスペクトルの収集物を準備した。これにより、極端な変動がもっとも少ないということを基盤として、対照動物由来の４５２１サンプルのうち４０２３サンプルならびに投与前サンプルを選択した。このサンプル収集物はラットのメタボノミクスプロフィールの正常な変動を表している。
【００７０】
すべての動物が投与を受けていないことから、サンプルのクレアチニンレベルはメタボノミクスの変化による影響を受けず、したがって、サンプルの全般的濃度に対する良好な尺度として働く。したがって、標準化の手順のパフォーマンスは、標準化サンプルのクレアチニンレベルの変動に基づいて比較することが可能である。これにより、クレアチニンレベルは、ｐＨの変動によるクレアチンピークのシフトを明らかにするため４．０２〜４．１０ｐｐｍの間のスペクトルの積分値により決定される。
【００７１】
３．４異常値識別試験
異常値の識別のために、２種類の試験が使用された。第１の試験はセクション３．２において記述したシクロスポリン試験と対応するが、手作業により識別された異常値を今回は含めた（セクション３．２とは対照的に）。第２のメタボノミクス試験は、投与化合物としてロシグリタゾンを使用し、８０サンプルを含まれているが、ここで４５スペクトルは投与を受けた動物に由来し、３５スペクトルは非投与動物に由来する。測定およびデータプロセッシングはＣＯＭＥＴプロトコルにしたがって実施された（Lindon JCら；上記にて引用）。繰り返すが、手作業により特定された異常値は除外しなかった。試験の全般的な品質を評価するための基準（セクション２．５を参照）は、６０サンプル（投与済み動物から３０サンプルおよび非投与動物から３０サンプル）を含む付加的な第３の試験に適用される。この試験の最初の測定では、自動化によるベースライン収集およびフェージングの乏しさを結果的に引き起こす自動的水共鳴の抑制に関わる問題に直面した。また、手動によるこの試験のデータのベースライン収集およびフェージングも行った。加えて、この試験のサンプルは最適化されたパルスシーケンス（Ｂａｘパルス）を使用して再度測定され、その結果としてスペクトルは最良の視覚的品質を生じた。
【００７２】
４．結果
結果は以下の順に示す。最初に積分値の標準化、ベクトル長の標準化および指数の標準化を、仮想データセットを使用して比較した。その後、メタボノミクス試験のスペクトルに対する比較を行った。最後に、異常値検出に対して指数の標準化を使用する可能性を、数種のメタボノミクス試験を使用して実証した。
【００７３】
４．１標準化手順―シミュレーション
仮想データセットの結果に対し（詳しくはセクション３．１を参照のこと）、修正スペクトルのビン０．４ｐｐｍの強度の指数およびゴールデンスペクトルを計算した。濃度の非特異的な変化による場合のみ、このピークを人為的に修正した。したがって、この参照振幅（reference amplitude）を作ることにより、１の指数は、相対ピーク強度の最適な回収（optimal recovery）を意味し、対応する標準化手段による、これを伴うスペクトルの最適化標準化を意味する。
【００７４】
４．１．１さまざまな標準化手段のパフォーマンス
このセクションでは、積分値の標準化およびベクトル長の標準化が、指数の標準化と比較される。指数の標準化に対して、ゴールデンスペクトルを参照スペクトルとして使用した。参照スペクトルの体系的な変動は以降に議論する。図７においては、４種のデータセットに対する３種の標準化手段の結果が示されている。データセット１に対し、総濃度の非特異的な変動のみを含む３種の方法はすべて最適標準化を示した。１という回収率は、（サンプルの希釈のような）総濃度によってのみ変動するピークおよび検体が、同一の一定濃度に標準化されていることを意味する。期待したとおり、３種の手段は、典型的な一連の希釈スペクトルを適正に標準化することが可能である。
【００７５】
一種類の単一シグナルの特異的な変化のみで、希釈のないものを含む第２のデータセットは、３種の手段がむしろ異なって機能することを示している。ベクトル長に対する標準化は、単一ピークの変化に対して非常に感受性が高い。したがって、スペクトルのシングルビンの増加による、濃度ベクトル長の増加は劇的であるが、これはベクトル長が二次項を用いて計算されるからである。ベクトル長の再設計はすべてのビンを超えて均等に分散されて、変化のないビンの過小評価を生じる。積分値の標準化に関しては、理想的なパフォーマンスからの逸脱はそれほど劇的ではないが、
これは、すべてのビンを超える二次項なしに、１つのビンの増加した強度の作用が均等に分散するからである。例えば、スペクトル１０は１つのシングルビンにおける総強度の１００％の付加を含むが、これは積分値の標準化上ではすべてのビン上に分散され、したがって、２という因子によりすべてのビンの縮小化が生じる。一方で、指数の標準化はシングルビンの変化による影響を受けず、したがって、すべてのスペクトルに対する最適標準化が得られる。
【００７６】
第１および第２のデータセットの組み合わせによる変動を含む第３のデータセットは、どちらかといえば第２のデータセットと類似した結果を示している。シングルビンの変動はベクトル長および積分定数に対する標準化に強く影響を与える。
【００７７】
第４のデータセットは、さまざまなビンの組み合わせによる変動をシミュレートしている。第１のスペクトルに関し、（２０１のうち）１０ビンの強度を増加し（１ビンあたり全積分値の１％）、第２のスペクトルに関し、２０ビンの強度を増加する、などである。この場合、ベクトル長の標準化は、積分値の標準化に比べてより良いパフォーマンスを示すが、しかしながら両方法は、最初のスペクトルに対する最適標準化からは既に逸脱していることを示す。一方、指数の標準化は，２０１中１００ビンへの強度の体系的な増加に対して、終始最適標準化を示す。それ以上のビンにおける体系的な増加を伴うスペクトルに対しては、パフォーマンスは急激に落ち込む。この場合の、同方向における過半数を超えるビンへの体系的な変化は非常に非現実的である。現実的なシナリオとみなすことが可能な、５〜２５％のビンの体系的な変動に対し、そしてさらに、もはや非常に極端なシナリオといえる３０〜５０％のビンの体系的な変動に対し、標準化は良好に作用している。
【００７８】
４．１．２ノイズの影響
先に列挙した４種のデータセットを用いたデータ解析は２回繰り返されたが、これにより人工的なノイズがスペクトルに加えられた。最初の反復に関して、シグナルあたりの平均強度の０．６％の標準偏差を有する均一ノイズを各シグナルに加えた。ノイズの量は、生物学的変動のないスペクトル領域中の４０００を超えるスペクトルからの典型的な分光計ノイズとして推定した。２回目の反復に関して、ノイズの量を１０倍に増加することにより、非投与動物の典型的な生物学的なノイズを概算した。双方の反復について、全標準化手段がノイズに対して感受性を有していないことが判った。標準化手段はすべてのビンを考慮に入れている（スムージング効果）ことから、実際、ビンあたりの変動に比べて標準化因子の変動は有意に低かった。例えば、データセット１の標準化因子の標準偏差は、０．６％ノイズに対して０．０４〜０．１％の間にあり、６％ノイズに対して０．２〜０．４％の間にある。
【００７９】
４．１．３指数の標準化に対する参照スペクトルの影響
ベクトル長の標準化および積分値の標準化とは対照的に、指数の標準化には参照スペクトルが必要とされる。指数の標準化のパフォーマンスに対する参照スペクトルの影響をこのセクションで調査している。参照スペクトルとして「ゴールデンスペクトル」（１）を使用するほか、以下の参照スペクトルも使用した：
（２）非特異的変化およびノイズによってのみ異なる、３×４の仮想データセットの全スペクトルの中央スペクトル。全候補スペクトルからの各シグナルビンに対する中央値を用いて中央スペクトルを構築する。
（３）非特異的変化、ノイズおよび総積分値の２０％未満の特異的変化によってのみ異なる全スペクトルの中央スペクトル。
（４）非特異的変化、ノイズおよび総積分値の１００％未満の特異的変化によってのみ異なる全スペクトルの中央スペクトル。
（５）全スペクトルの中央スペクトル（３×４のデータセットすべて）。
（６）各ビンにおいて１の定数値を有するスペクトル。
【００８０】
上述の６種の参照スペクトルについて、先述のノイズを持たない４種のデータセットの指数の標準化を実行した。最初の３種のデータセットに関しては、参照スペクトル間における有意差は観察することができない。第４番のデータセットに関しては、はっきりとした差異が図８において観察することができる。参照スペクトルとして定数値を用いることにより、非常に悪いパフォーマンスを示している。この知見は、スペクトルおよび参照スペクトル間のスペクトル指数の分布は、スペクトル自体の分布に一致するとともに、それゆえフラットで広範であることの自己証明である。したがって、さまざまなピークの増加は、中央値を有意にシフトする。参照スペクトルが特異的変化のない（非特異的な変化は許容される）代表的なスペクトルに一致し、そして一致する可能性がある場合に、最も安定な標準化が得られることが観察される。総強度の２０％以下の特異的変化は、標準化に有意な影響を与えないが、積分された強度の１００％以下の特異的変化を有するスペクトルを使用した標準化は、より不安定である。完全データセット６は、非常に特異的変化が大きいビンを多数有する、非現実的に多くの数のスペクトルを含むことから、図８に示される全データを用いるシミュレーションは、参照スペクトルの影響が明らかに強調されている。それでも、試験を標準化する最良の方法は、対照動物および／または投与前の時点などの非投与動物のデータを代表するスペクトルを参照スペクトルとして使用することであることを、このシミュレーションが示している。代表的なスペクトルを計算するための実現可能な方法は、対照スペクトルまたは投与前スペクトルそれぞれの数の平均値または中央値を使用することである。平均値の代わりに中央値を計算することの利点は、スペクトル間の異常値に対する、より高い許容性である。このことはメタボノミクス試験においてしばしば直面する。
【００８１】
仮想データセットの目的は、現実的、極端、ならびに幾分極端で非現実的な状況下でのさまざまな標準化手段を調べることであった。シグナルの特異的な変化は、すべて一方向にのみ（シグナルの増加）行われたが、なぜならこれは標準化手段をさらに要求しているからであり、異なるシグナルが異なる方向に特異的に変化すれば、標準化手段に関してこの変化は互いに平衡を保つ。例えば、１０強度単位により２０シグナルが増加し、そして１０強度単位により１５シグナルが減少した場合、標準化の手段は５シグナルの変化によってのみ影響を受ける。したがって、現実的な状況について、データセット４を使用したシミュレーションは、最初のわずかなスペクトルに関連するのみで、すべてのスペクトルには関連しないはずである。
【００８２】
異なるシミュレーションを観察した場合、指数の標準化が、すべての異なる現実的および極端な状況に対する一般的な標準化手段よりも優れたパフォーマンスを示すことは明らかである。とりわけ、シングルビンが非常に変化した場合、これはメタボノミクス試験で起こり得るが、指数の標準化はそれでも最適標準化因子を発見し、一方、その他の標準化手段は共に、すべてのビンを超えるシングルビンの過剰な強度の影響を分配する。したがって、シングルビンのみに影響を与える因子を伴うすべてのビンの人工的な逆相関が導入される。
【００８３】
加えて、指数の標準化に対する最良の参照スペクトルは、特異的な変化のない最も代表的なスペクトルであることがこのシミュレーションにおいて示された。したがって、メタボノミクススペクトルに対する最適参照スペクトルは、対照動物または投与前の時点における動物のスペクトルに基づいて計算されるべきである（例えば、中央スペクトルとして計算される）。
【００８４】
４．２標準化手段−シクロスポリン試験
このセクションでは３種の標準化手段のパフォーマンスを、セクション３．２にて詳述した完全メタボノミクス試験のデータを使用して比較する。目視検査により、１．４４ｐｐｍおよび１．８４ｐｐｍの化学シフト間のすべてのシグナルは、異なる動物および異なる時点に対して非常に一定であることが判明した。これらのシグナルはこの試験の特異的メタボノミクス変化によって影響されず、尿濃度の変化のみに左右される。したがって、異なるサンプル間のスペクトルのこの部分の積分値の相対的標準偏差が、標準化手段に対する品質判定基準として使用される。異なる方法を用いて標準化されたこの部分のスペクトルを高容量動物２８および３０に対して図９においてプロットしている。動物２８は４８時間および７２時間の時点で極端な量のグルコースを分泌したが、一方、動物３０は、すべての時点において典型的なメタボノミクス反応を示している。比較のために、この２動物の非標準化完全スペクトルを図６に示している。
【００８５】
最後に、異なる手段の標準化因子と、４．０２および４．１０ｐｐｍの間の積分値として特定されるクレアチニン濃度との間の相関関係を調べるために、この試験の全サンプルを使用した。
【００８６】
積分値の標準化について、動物２８および３０のスペクトルを図９の中段に示している。動物３０のスペクトルは、どちらかといえば１．４４ｐｐｍおよび１．８４ｐｐｍの間に合致するシグナルを示し、一方、動物２８については、４８時間および７２時間の時点のスペクトルは非常に低い値である。これらの時点におけるスペクトルは非常に高いグルコースピークを示し、総積分値の抑制により、これが残りのスペクトルを抑制する。全積分値が標準化された試験のサンプルの１．４４ｐｐｍおよび１．８４ｐｐｍの間の積分値は、１０．３％の相対標準偏差を示している。標準化因子に対するクレアチニンピークの直線回帰は、０．８７の相関係数を示している。
【００８７】
ベクトル長の標準化のプロット（図９、下段）は、標準化が乏しいことを示している。その大部分が極端に異常範囲にある２種のグルコースサンプル（動物２８、４８時間および７２時間）を伴う１．４４ｐｐｍ〜１．８４ｐｐｍの間にて、両動物のさまざまなスペクトルは低すぎるかあるいは高すぎるシグナルを示している。この領域内のシグナルは全サンプル中でも異質であり、１５．０％の相対標準偏差として観察される。クレアチニンとの相関性もまた乏しい（ｒ＝０．６２）。
【００８８】
図９の上段の検討により、ここでプロットしたサンプルに対し、指数の標準化が優れていることが明らかである。１．４４〜１．８４の間のシグナルは、全サンプルに対する調和が非常に取られている。この領域の全サンプルのシグナルに対する４．５％という低い相対標準偏差、ならびにクレアチニンピークとの優れた相関性（ｒ＝０．９９）は、完全な試験に対して指数の標準化が最も矛盾のない標準化であることを示している。
【００８９】
４．３標準化手段−正常サンプル
困難を抱える状況下のみならず、対照動物および投与前サンプルの正常な状況下におけるさまざまな標準化手段のパフォーマンスを確認することは、興味深い問題のひとつである。選ばれた４０２３個の非投与サンプル（詳細はセクション３．３を参照）は、強力なメタボノミクス反応または薬剤関連化合物を含まない。したがって、３種の標準化手段のすべてが類似したパフォーマンスを示すはずであることが期待される。非投与動物がむしろ一定の相対クレアチニンレベルを有するはずであることから、３種の標準化手段のパフォーマンスは、クレアチニンピークの相対標準偏差により本明細書において評価される。
【００９０】
その結果は、むしろ注目に値するものである。ベクトル長の標準化は１２．２％という許容を超える高値のクレアチニンピークの相対標準偏差を有しているが、一方、積分値の標準化は７．６％という低値の相対標準偏差を有しており、指数の標準化は６．７％という最良のパフォーマンスを有していた。対照動物を観察した場合であってもメタボノミクスの絶え間ない変化による特異的変動は非常に高いことから標準化手段どうしの間の顕著な差異が存在し、これにより、指数の標準化が再び最良のパフォーマンスを示している。
【００９１】
４．４異常値の特定
スペクトルの目視検査によって検出された異常値を含むシクロスポリン試験を、指数の標準化手段（データセットに関する詳細はセクション３．４を参照）によって標準化した。異常値の自動的な特定に関し、各サンプルに対する指数の中央値ｍに加えてそのスペクトル指数の第３および第１四分位数の間の四分位間差異ｄを計算した。図１０の左側のパネルにおいて、試験の全サンプルに関してｍに対するｄをプロットしている。スペクトルの目視検査により発見された異常値は、丸点（ドット）、三角形およびダイヤモンドの形で示されている。範囲を逸脱しないサンプルすべてが、ｄは非常に低値の位置に、中央値は約１の位置に集中することは明らかである。極端なメタボノミクス反応、この場合には極端な量のグルコース、を有するサンプルは、ｄ、ｍともに低置に位置する。技術的な問題による異常値、ブランクサンプルおよび水共鳴の抑制が乏しいサンプルは、ｄがすべて高値（３を超える）に位置している。このことは、ｄ＞１という単純閾値が、非メタボノミクス関連の問題による異常値を検出することを意味する。また極端量のグルコースのサンプルは、ｄ＜１およびｍ＜０．８という単純閾値にある極端なメタボノミクス反応として検出することが可能である。第２試験の品質表を、図１０（セクション３．４参照）の右側のパネルに示す。繰り返すが、単純閾値であるｄ＞１は、全スペクトルの目視検査により先に特定された全異常値を検出する。典型的な問題による異常値スペクトルのいくつかを図１１に示す。
【００９２】
図１２では、ロシグリタゾン試験について、いかに指数の標準化が特異的な問題の検出に使用され得るのかを示している。この実施例では水共鳴の抑制の質を観察している。まず初めに、この試験に対する指数の標準化を実施した。その後、６．０４ｐｐｍにおけるスペクトル指数を全指数の中央値で割ったものを計算した。これに相当する値が１から大きく逸脱する場合、そのスペクトルは、水共鳴に隣接する参照から有意に異なる。４種のサンプルが水抑制に乏しいことは明白である。また、これらの４種のサンプルは手作業により既に特定されており、これを図１０の右パネルの三角▲にて示している。
【００９３】
表１：３種のデータセットに関する異なる品質特性。品質特性が低いほど、試験全体を通じてスペクトルの形状がより類似することを示している。
【００９４】
【表１】

【００９５】
第３データセット（セクション３．４を参照）に関する、指数の標準化のその他の適用を表１に示す。その中に、四分位間差異の中央値ｍｄおよび四分位間差異の差ｄｄ（詳細はセクション２．５を参照）を示している。第１測定はいくつかのサンプルに関して水抑制に乏しく、このことは自動によるフェージングおよびベースラインの収集に対してマイナスの影響を及ぼす。手動によるベースラインの収集およびフェージングは、これらのサンプルの視覚的品質を改善するかもしれない。それにもかかわらず、最適化パルスシーケンスを有するサンプルの第２測定では、（目視検査により確認されたように）水抑制およびスペクトルの質が顕著に改善されていた。表１より、全３種の異常値基準が、スペクトルの質の視覚的印象に関して一致することは明白である。したがって、ｍｄはスペクトル内の平均的な不均一性（異質性）を表現している。いくらかのスペクトルのみが水抑制の乏しさによる影響を受けることから、ｍｄは緩やかにのみ減少する。一方、サンプルの再処理および再測定が主に水抑制の良くないサンプルを改善するために、異なるスペクトル間のこの不均一性の変動を描くｄｄは劇的に減少する。双方の品質特性は、スペクトルを調査することを必要とせずに、スペクトル内およびスペクトル間の均一性を検討することを可能にする。
【図面の簡単な説明】
【００９６】
【図１】２０８の変数（ビン）についてのメタボノミック試験の４サンプルに対する、同一の試験の参照サンプルに関するスペクトル指数の分布を示した図である。
【図２】第３四分位数から第１四分位数を減じたときの差（四分位間差異（ｄ）と呼ばれる）に対する、代表的なメタボノミック試験に対する中央値（ｍ）のプロットを示し；四角い印は異常でないスペクトルを示し、丸印は広範囲にわたりダメージを受けたスペクトル（サンプルなし、レシーバーゲインの不具合、フェージングのミス・・・）を示し、星印は局所的な不規則性によるスペクトル（スパイク、薬物関連化合物、並外れた量の代謝物）を示し；異常値検出のためにｍ（０．８および１．２）およびｄ（１）の固定閾値がセットされた図である。
【図３】図２由来のデータのプロットを示すが、固定絶対閾値の代わりに試験特異的閾値(study specific threshold)を用い；全閾値に対し、ｎを３にセットした図である。
【図４】系統的な修正に使用された、ビン化フォームのゴールデン^１ＨＮＭＲスペクトルを示した図である。
【図５】系統的な変動により差異のあるスペクトルのシリーズの、４種のデータセットを示し；（Ａ）サンプル濃度の系統的な変動；（Ｂ）単一ピーク強度の系統的な変動；（Ｃ）サンプル濃度および単一ピーク強度の系統的な同時変動；１０ビンのブロックの系統的な変動を示した図である。
【図６】右側には拡大領域を併記した、異なる時間経過（−１６時間〜７２時間および−１６時間〜１６８時間）における２匹の動物（動物３０および２８）の生スペクトルを示した図である。
【図７】図５の４種のデータセットのための異なる標準化手段により得られたリカバリーを示した図である。異なるサンプルにおいて同一の相対濃度を有する測定物質を、同一の標準化された濃度へと標準化手段が再設計していることを、回収率１は意味している。
【図８】異なる参照スペクトルを用いた指数の標準化の結果を示した図である。
【図９】動物３０および２８に対し、異なる時間経過において、メタボノミック反応（１．４４〜１．８４ｐｐｍ）により変動しないシグナルを主に含むスペクトル領域を示し；上段は指数を標準化したスペクトルを示し、中段はベクトル長を標準化したスペクトルを示し、下段はベクトル長を標準化したスペクトルを示した図である。
【図１０】シクロスポリン試験（左側）およびロシグリタゾン試験（右側）における異常値のグラフ上の検出のための、四分位間差異ｄに対する中央値ｍを示した図である。
【図１１】図１０の右側プロットにおける異常値として特定されるスペクトルのいくつか、（Ａ）水共鳴の抑制の乏しさ；（Ｂ）ネガティブなベースライン；（Ｃ）ブランクサンプル；および（Ｄ）気泡などの技術的な問題を含むスペクトルを示した図である。
【図１２】６．０４ｐｐｍの化学シフトに対応するシグナルビンのために、プロットに対するサンプル数として、サンプルシグナルを全指数の中央値で分割して得られるスペクトル指数を示した図である。；１から大きく逸脱した数値は、対応するサンプルにおける水共鳴の抑制に関する問題を示唆する。

【特許請求の範囲】
【請求項１】
以下の工程を含有する、スペクトル、特にＮＭＲスペクトルのセットをプロセッシングする方法：
ａ）主要スペクトル領域を選択すること；
ｂ）該主要スペクトル領域における複数の主要スペクトルを記録すること；
ｃ）該主要スペクトル領域における参照スペクトルを取得すること；
ｄ）該主要スペクトルそれぞれに対して、該参照スペクトルにより該主要スペクトルのビンワイズ分割を実行して、スペクトル指数に対応するセットを取得すること；および
ｅ）少なくとも１つ以上の該主要スペクトルに対して、該スペクトル指数に対応するセットに由来する統計的尺度の関連セットを計算すること；
この方法は、さらに次の工程を含有することにより特徴付けられる：
ｆ）少なくとも１つ以上の該統計的尺度の関連セットに対して、異常値検出試験を実行すること。
【請求項２】
主要スペクトルに対応する統計的尺度のセットが、そのスペクトル指数の中央値および、そのスペクトル指数の第３四分位数からそのスペクトル指数の第１四分位数を減じることによって得られる四分位間差異を含むものである、請求項１に記載の方法。
【請求項３】
該異常値検出試験が、所定の閾値幅を該四分位間差異が超えるか否かを決定することを含む、請求項２に記載の方法。
【請求項４】
該閾値幅が、主要スペクトルのすべてのセットを考慮した該四分位間差異の分布から決定される、請求項３に記載の方法。
【請求項５】
該異常値検出試験が、所定の閾値指数偏差以上の定数と該スペクトル指数の中央値とが異なるか否かを決定することを含む、請求項２に記載の方法。
【請求項６】
主要スペクトルの全セットを考慮した該スペクトル指数の中央値の分布によって、該閾値指数偏差が決定される、請求項５に記載の方法。
【請求項７】
さらに以下の工程を含む、請求項１に記載の方法：
ａ）該主要スペクトル領域と重複しない補助スペクトル領域を選択すること；
ｂ）該主要スペクトル領域内のそれぞれの該主要スペクトルと共に、該補助スペクトル領域内の関連補助スペクトルを記録すること；
ｃ）該補助スペクトル領域内の参照補助スペクトルを取得すること；
ｄ）それぞれの該補助スペクトルに対して、該参照補助スペクトルによる、補助スペクトルのビンワイズ分割を実行し、補助スペクトル指数に対応するセットを取得すること；および
ｅ）それぞれの該補助スペクトルに対して、補助スペクトル指数に対応するセットに由来する統計的尺度の関連セットを計算すること；
ただし、該異常値検出試験は、主要スペクトルの統計的尺度と関連補助スペクトルとを比較することを含む。
【請求項８】
それぞれの該主要スペクトルに対して工程１ｅ）を実行して統計的尺度の完全セットを取得し、これから全域統計的尺度が導き出され、ならびに、該全域統計的尺度のセットに対して該異常値検出試験が実行される、請求項１に記載の方法。
【請求項９】
該全域統計的尺度のセットが以下を含むものである、請求項２および８に記載の方法：
ａ）該四分位間差異の完全セットの中央値；および
ｂ）該四分位間差異の完全セットの四分位間差異。
【請求項１０】
それぞれの該主要スペクトルまたは該補助スペクトルが、ビンワイズ分割を実行する前に標準化手段に供される、請求項１乃至９のいずれかに記載の方法。
【請求項１１】
いずれかの該主要または補助スペクトルに対する該標準化手段が以下の工程を含む、請求項１０に記載の方法：
ａ）該スペクトルに予備プロセッシングを適用し、予備プロセッシング化スペクトルを得ること；
ｂ）該予備プロセッシング化スペクトルの積分強度を計算すること；および
ｃ）該予備プロセッシングしたスペクトルに、該積分強度の逆数に比例する標準化因子を乗じること。
【請求項１２】
該参照主要または補助スペクトルが、それぞれ対応する主要または補助スペクトル領域に記録した、複数のブランクまたは参照スペクトルの中央値として得られるものである、請求項１乃至１１のいずれかに記載の方法。
【請求項１３】
該参照主要または補助スペクトルが、該主要または補助スペクトルのサブセットから得られるものである、請求項１乃至１１のいずれかに記載の方法。

【図１】