説明

分光学的データを使用し、材料または化学物質の分類および混合物中の材料または化学物質の特性を定量化するカーネル型方法および装置

カーネル型方法は、第1のスペクトルおよび 第2のスペクトルの類似性を判断する。各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、スペクトル領域において分散されるスペクトル属性の集合を含む。本方法は、スペクトル点を囲むスペクトル応答の形状を利用するカーネル関数を計算する。これは、スペクトルにおけるスペクトル属性の値と、スペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々とを比較することによって達成される。重み付け値は、異なる度合いの重要性を異なるスペクトル領域に割り当てることが可能である。本方法は、未知のスペクトルの分類、混合物内における分析物の濃度の予測、カーネルにより導かれた距離メトリックを使用する最も近い一致のデータベース検索、2次元または3次元の高次元スペクトルデータの可視化に使用可能である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分光学的データの機械学習分析に基づく、材料または化学物質の定量的および定性的分析に関する。本明細書における用語の「分光学的データ」は、赤外線(IR)吸収、ラマン散乱、近赤外(NIR)吸収、蛍光発光、および核磁気共鳴(NMR)に基づく技法から収集されるデータを含む。
【背景技術】
【0002】
本発明の分光学的データへの適用は、ラマン分光法におけるその使用を伴う。
【0003】
ラマン分光法は、これまで、多数の化学系から振動分光学的データを入手するために使用されている。ガラスまたはプラスチックを介したサンプリングする能力に加え、光ファイバおよび顕微鏡への連結を介するサンプリングが容易であり、その多用途性から、法執行機関による不法物検出の使用に極めて実用的な技法とされている。また、非侵襲的、非破壊的、および非常に多くの場合において高度選択的であるという極めて望ましい特性も有する。ラマン分光法の分析応用は、成長し続けており、典型的な応用は、構造判定、多成分定性的分析、および定量的分析にある。
【0004】
分析物(すなわち、分析を受ける物質または化学成分)のラマンスペクトルは、分析物の存在を識別するために、既知の物質の基準スペクトルと比較され得る。さらに複雑な(または分解能の悪い)スペクトルでは、識別プロセスはより困難になる。現在の標準は、既知のサンプルのテストセットを開発し、主成分分析(PCA)および多変数回帰等の計量化学的方法を使用して、分光学的データから分析物を分類および/または定量化するための統計モデルを産出することである。しかしながら、これらの統計に基づくモデルは、分解能の悪いピークを有し、および/または複雑な混合物を有する複合系に対し、性能において制限される。
【0005】
機械学習における最近の進歩により、これらの計量化学的方法よりも優れた新しい技術がもたらされている。機械学習法は、より強固であることから、上述の問題の克服がより可能になる。過去において、これらの技法を使用して、人工神経ネットワーク(ANN)の使用によるそのIRスペクトルからの細菌の識別、およびANNの使用によるその質量スペクトルからの植物抽出物の分類等、他の形式の分光学的データに基づいて化合物を識別し、および定量化することに成功している。さらに最近の機械学習方法は、カーネル型サポートベクターマシン(SVM)という、強力な分類および回帰ツールであり、これは、複雑な混合物のスペクトル分析で直面する問題の対処にも適している。
【0006】
スペクトル分析を特に専用とする機械学習パッケージはほとんど販売されていない。Gmax-bio(Aber Genomic Computing)は、分光法を含む多数の科学分野で使用するために設計されるアプリケーションである。Gmax-bioは、問題に対する解決策を考案するために、遺伝子プログラミングを使用し、大部分の他の機械学習法よりも優れていることがその開発者達によって主張されている。しかしながら、その多様な問題適用性により、ユーザは、遺伝子プログラミングおよび分光法の両方に関する従来の知識の一部を必要とする。スペクトル分析専用に設計されたアプリケーションであるNeurodeveloper(Synthon GmBH)は、標準的な計量化学的ツール、前処理法を使用し、また、スペクトルのデコンボリューションにANNを使用する。
【0007】
以下に、本発明に関係する従来技術について論じる。特許文献1は、サポートベクターマシンについて記載する。SVMは、訓練パターンの集合をカーネル定義空間に割り当て(線形関数は、元の入力空間に対応する)、訓練集合における2種類のサンプル間の分離の最大マージンを実現するこの空間における線形決定面を発見する。決定表面は、重み付けの集合によって定義され、その各重み付けは、訓練パターンに関連し、SVM訓練プロセスの目標は、2種類のデータの最適分離をもたらす重み付けの集合を発見することにある。SVM訓練プロセス中、決定関数の判断に使用されない訓練パターンまたはカーネル変換された訓練パターンは、訓練プロセスが残りの訓練パターンで継続可能になるように、識別および削除される。
【0008】
最終決定関数に残るこれらの訓練パターンは、サポートベクトルとして知られる。比較的小さい(トレーニング集合のサイズと比べて)集合のサポートベクトルを使用することによって、これまでの最大マージン分離法よりも計算的に効率的な方法がもたらされる。SVM特許に先行するものは、ソフトマージン分類器(特許文献2)であり、これは、最適超平面の決定の際に誤ったまたは難しい訓練パターンを考慮することを可能にするスラック変数の使用を組み込む。SVMは、カーネル法であるため、すなわち、基礎となるカーネル関数に基づくため、SVM発明は、本明細書に記載のWSカーネル発明と組み合わせて使用することが可能である。WSカーネルによって、分光学的データに基づく材料または化学物質の分類ならびに材料または化学物質の特性の定量化におけるSVMの性能が改善される。別のSVM関連システムについては、特許文献3に記載され、これは、多数のサポートベクターマシンを使用して知識発見を強化するためのシステムを開示する。
【0009】
WSカーネル発明と併用して使用可能なカーネル法の別の例として、k最近傍分類/回帰法が挙げられる。この周知の技法は、特許文献4(項目認識方法および装置)、特許文献5(麻酔または集中治療において実行するEEGを評価するための方法および機器)、ならびに特許文献6(文字認識システム)を含む多数のこれまでの特許において使用されている。
【0010】
スペクトル分析専用に設計された技法を開示する多数の特許が、公開されている。前述のように、PCAは、計量化学の分野において広く使用されており、特許文献7および特許文献8は、スペクトル分析のためのPCAの使用を開示する。他の計量化学的方法である部分最小2乗法、古典的最小2乗法、およびこれらの混成の使用については、特許文献9、特許文献10および特許文献11に開示されている。他の手法は、スペクトル前処理法の使用に基づき、例えば、特許文献12、特許文献13、特許文献14、特許文献15、特許文献16、および特許文献17に開示されるものが挙げられる。雑音に対して強固である予測方法を提供し、このようなスペクトル前処理法の必要性を排除する必要性が存在する。
【0011】
また、特定のカテゴリの分析物の検出または定量化のために設計されるシステムを開示する特許も公開されており、例えば、鉛等の有害な空気中の物質の濃度を監視するための装置および一連の方法について記載する特許文献18が挙げられる。
【0012】
機械学習の分野において、ANNは、スペクトル分析に使用する最も一般的な技法であり、例えば、特許文献19、特許文献20、特許文献21(PCAと組み合わせてPCAを使用する)、特許文献22、特許文献23、特許文献24、および特許文献25が挙げられる。ANNに基づく既存の技法の制限は、ANN技法の「ブラックボックス」性質により、解釈に特に従わない予測をもたらすことにある。これは、特定分野の専門家(例えば、分析化学者または科学捜査官)がスペクトルを手動で検査し、位置およびサイズのピークに基づいてそのスペクトルを分類するという状況と全く対照的である。本質的に、本手法は、本発明が対象とするシナリオ、とくに複雑な混合物の分析については適していない。したがって、機械学習方法を使用する特定分野の専門家は、典型的には、使用する分類または定量化モデルまたは分析するデータへの洞察が提供されないという不利な立場にある。
【0013】
スペクトルを分類するための別の方法は、特許文献26に開示される。本システムは、k-NN型分類技法を使用し、訓練サンプル(既知の条件)の集合からの未知のサンプルの距離に基づく。未知のサンプルは、少なくとも1つの距離が所定の最大距離未満である場合、少なくとも2つのサンプルとの距離関係に基づいて分類される。
【0014】
ANNに加えて、分類(決定木、単純ベイズ等)の技法および回帰(モデル木、最小平均2乗法等)の技法等の、スペクトルの分析に使用し得る多数の機械学習法が存在する。カーネル型学習アルゴリズム(分類および回帰のためのSVM等)は、分類、回帰、クラスターリングに関する全ての問題に対して統一されたアプローチを提示し、データベース検索用途においても使用可能である。SVMは、雑音の多いデータへの対処に適しており、また、スペクトルデータの特徴である高次元性にも適した機械学習法である。しかしながら、ANNと同様に、SVMは、典型的には、専門家に付加的な洞察を提供しない方法で展開される。
【0015】
さらに、カーネル法は、例えば、テキスト分類の文字列カーネルのように、他の用途領域においてなされているようには、スペクトルデータ専用に調整されていない。全カーネル法の主要な成分構成要素は、予測モデルの構築に使用されるデータセットの2つのオブジェクトを比較するための類似性の測定値としての役割を果たすカーネルである。本発明の問題領域において、カーネルは、2つのサンプルスペクトルを比較し、それらがいかに類似するかを示す値、つまり、この値が高ければ高い程、類似性が高いことを示す値を返す。この類似性の測定値またはカーネルを使用して予測モデルを構築する方式は、カーネル法によって異なる。例えば、k-NNは、カーネルを使用して、距離メトリックを導く。すなわち、2つのデータサンプル間の距離を測定する。スペクトルデータに適用する場合、従来のカーネルは、各スペクトル点を別個に考慮する。すなわち、例えば、線形カーネルのドット積計算またはRBFカーネルのユークリッド距離計算等の計算を実行するスペクトル点毎に、カーネルは、比較される2つのサンプルにおけるそのスペクトル点だけに影響を与える。
【先行技術文献】
【特許文献】
【0016】
【特許文献1】米国特許第5,649,068号明細書
【特許文献2】米国特許第5,640,492号明細書
【特許文献3】米国特許第6,427,141号明細書
【特許文献4】米国特許第6,592,033号明細書
【特許文献5】米国特許第6,011,990号明細書
【特許文献6】米国特許第6,198,846号明細書
【特許文献7】米国特許第6,675,137号明細書
【特許文献8】米国特許第5,822,219号明細書
【特許文献9】米国特許第6,415,233号明細書
【特許文献10】米国特許第6,711,503号明細書
【特許文献11】米国特許第6,096,533号明細書
【特許文献12】米国特許第4,783,754号明細書
【特許文献13】米国特許第5,311,445号明細書
【特許文献14】米国特許第5,435,309号明細書
【特許文献15】米国特許第5,652,653号明細書
【特許文献16】米国特許第6,683,455号明細書
【特許文献17】米国特許第6,754,543号明細書
【特許文献18】米国特許第6,762,060号明細書
【特許文献19】米国特許第5,631,469号明細書
【特許文献20】米国特許第5,553,616号明細書
【特許文献21】米国特許第5,660,181号明細書
【特許文献22】米国特許第5,900,634号明細書
【特許文献23】米国特許第5,218,529号明細書
【特許文献24】米国特許第6,135,965号明細書
【特許文献25】米国特許第6,477,516号明細書
【特許文献26】米国特許第6,421,553号明細書
【発明の概要】
【発明が解決しようとする課題】
【0017】
本発明は、ラマンスペクトル分析または他の分光法と使用可能である、カーネル法に基づく材料および化学物質の分類および定量化決定であって、分類および定量化決定の明確さおよび精度を高めることが可能である方法および装置を提供しようと試みるものである。
【課題を解決するための手段】
【0018】
本発明の第1の側面は、第1のスペクトルおよび第2のスペクトルの類似性を判断する方法であって、各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、各スペクトルは、スペクトル領域において分散されるm個のスペクトル属性の集合を含む方法を提供し、本方法は、
(a)スペクトル属性のi番目の属性において、2つのスペクトルの類似性を表す値を計算するステップと、
(b)m個のスペクトル属性の集合の各々について上記計算を繰り返すステップと、
(c)2つのスペクトルの類似性を示す値を導くために、m個の計算の結果を組み合わせるステップと、
を含むカーネル関数を計算するステップを含み、
ステップ(a)は、
第1のスペクトルにおけるi番目のスペクトル属性の値と、第1のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々とを比較するステップと、
第2のスペクトルにおけるi番目のスペクトル属性の値と、第2のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々とを比較するステップと、
を含み、
第1および第2のスペクトルにおける窓は、同一のサイズである。
【0019】
本方法は、スペクトル上における点(すなわち、スペクトル属性の値)が、それらを囲んで隣接する他の点と照らし合わせて考慮されるという利点を有する。実際には、スペクトル点を囲むスペクトル応答の形状は、カーネルが各スペクトル点について演算する際に考慮される。これは、相互に分離して点を処理するのではなく、スペクトルの線形構造を利用する。これにより、スペクトル応答に沿って離間する多数の点の各々における単一のスペクトル点の値における類似性を探索だけする従来のカーネル技法に関する精度が向上する。本方法は、線形、放射基底関数(RBF)または多項式もしくはシグモイドカーネル等のカーネル関数等の他の型のカーネル関数に適用可能である。
【0020】
有利には、窓は、i番目のスペクトル属性に関して対称的であるが、非対称な窓も使用可能である。
【0021】
好ましくは、本方法は、2つのスペクトルの類似性を表す単一の値を計算する。本方法のステップの正確な詳細は、方法(例えば、線形または放射基底関数)の実装により異なり、発明を実施するための形態および添付の請求項において詳述する。
【0022】
本方法の好適な実施形態では、重み付け値が計算に使用される。任意の2つのサンプルスペクトルを比較する場合、その純粋形態の分析物のスペクトルは、異なる度合いの重要性(すなわち、重み付け)を異なるスペクトル領域に割り当てるように使用される。典型的には、任意の所定の分析物の純粋サンプルは、参照目的のために容易に入手可能である。この改善は、以下の説明において「重み付けスペクトルカーネル」(WSカーネルと省略される)と呼ばれる。
【0023】
本発明は、第1のスペクトルおよび第2のスペクトルの類似性を判断する方法であって、各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、各スペクトルは、スペクトル領域において分散されるm個のスペクトル属性の集合を含む方法をさらに提供し、本方法は、
(a)スペクトル属性のi番目の属性において、2つのスペクトルの類似性を表す値を計算するステップと、
(b)m個のスペクトル属性の集合の各々について上記計算を繰り返すステップと、
(c)2つのスペクトルの類似性を示す値を導くために、m個の計算の結果を加算するステップと、
を含むカーネル関数を計算するステップを含み、
ステップ(a)は、
(ii)第1のスペクトルにおけるi番目のスペクトル属性の値と、第1のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと、
(iii)第2のスペクトルにおけるi番目のスペクトル属性の値と、第2のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップであって、ステップ(i)および(ii)における窓は、同一のサイズである、ステップと、
を含む。
【0024】
ステップ(a)は、第1および第2のスペクトルにおけるi番目のスペクトル属性の値を乗算し、それに、ステップ(i)および(ii)の結果を組み合わせる関数の出力を加算するステップをさらに含み得る。
【0025】
ステップ(a)における値は、ステップ(i)において計算された差分を、ステップ(ii)で計算された対応する差分と乗算し、各対の計算された差分を総和するステップにさらに基づき得る。
【0026】
本発明は、第1のスペクトルおよび第2のスペクトルの類似性を判断する方法であって、各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、各スペクトルは、スペクトル領域において分散されるm個のスペクトル属性の集合を含む方法をさらに提供し、本方法は、
(a)スペクトル属性のi番目の属性において、2つのスペクトルの類似性を表す値を計算するステップと、
(b)ステップ(a)における計算の各々に重み付け値を適用するステップと、
(c)m個のスペクトル属性の集合の各々についてステップ(a)および(b)を繰り返すステップと、
(d)m個の計算を加算し、総和の符号をマイナスにし、結果を適切な量によって割り、この結果の指数関数を計算することによって、2つのスペクトルの類似性を示す値を導くステップと、
を含むカーネル関数を計算するステップを含み、
ステップ(a)は、
(i)第1のスペクトルにおけるi番目のスペクトル属性の値と、第1のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと、
(ii)第2のスペクトルにおけるi番目のスペクトル属性の値と、第2のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップであって、ステップ(i)および(ii)における窓は、同一のサイズであるステップと、
を含む。
【0027】
スペクトル領域において分散されるm個のスペクトル属性の集合を含む第3のスペクトルが存在してもよく、第3のスペクトルは、標的分析物を表し、ステップ(a)における値は、
(iv)第3のスペクトルにおけるi番目のスペクトル属性の値と、第3のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算し、第3のスペクトルについて計算された差分の各々を重み付け値として使用するステップ、
にさらに基づき得る。
【0028】
ステップ(a)の値は、
(d)第2のスペクトルの第1の差分を、第1のスペクトルの第1の差分から減算し、結果を2乗し、この結果を、第3のスペクトルにおける第1の差分によって乗算するステップと、
(e)窓内における各差分について上記ステップを繰り返すステップと、
(f)ステップ(d)の全反復によって産出される全結果を加算するステップと、
(g)最終和を、第3のスペクトルにおけるi番目のスペクトル属性の値によって乗算するステップと、
によってさらに計算され得る。
【0029】
ステップ(i)は、2乗された差分を、第3のスペクトルにおけるi番目のスペクトル属性の値によって乗算するステップを含み得る。
【0030】
ステップ(a)は、第1および第2のスペクトルにおけるi番目のスペクトル属性の値の間の差分を2乗し、ステップ(iii)の出力およびステップ(g)の出力を加算するステップ(iii)をさらに含み得る。
【0031】
本発明は、第1のスペクトルおよび第2のスペクトルの類似性を判断する方法であって、各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、各スペクトルは、スペクトル領域において分散されるm個のスペクトル属性の集合を含む方法をさらに含み、本方法は、
(a)スペクトル属性のi番目の属性において、2つのスペクトルの類似性を表す値を計算するステップと、
(b)ステップ(a)における計算の各々に重み付け値を適用するステップと、
(c)m個のスペクトル属性の集合の各々についてステップ(a)および(b)を繰り返すステップと、
(d)2つのスペクトルの類似性を示す値を導くために、m個の計算の結果を総和するステップと、
を含むカーネル関数を計算するステップを含み、
ステップ(a)は、
(i)第1のスペクトルにおけるi番目のスペクトル属性の値と、第1のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと、
(ii)第2のスペクトルにおけるi番目のスペクトル属性の値と、第2のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップであって、ステップ(i)および(ii)における窓は、同一のサイズであるステップと、
を含む。
【0032】
重み付け値は、ステップ(i)および(ii)における差分計算の各々に適用され得る。
【0033】
スペクトル領域において分散されるm個のスペクトル属性の集合を含む第3のスペクトルが存在してもよく、第3のスペクトルは、標的分析物を表し、ステップ(a)における値は、
(iii)第3のスペクトルにおけるi番目のスペクトル属性の値と、第3のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算し、第3のスペクトルについて計算された差分の各々を重み付け値として使用するステップ、
にさらに基づき得る。
【0034】
ステップ(a)における値は、
窓内における特定のスペクトル属性について、ステップ(i)、(ii)、および(iii)の各々において計算された差分を乗算するステップと、
差分計算の集合の結果を総和するステップと、
総和された結果を、第3のスペクトルにおけるスペクトル属性により乗算するステップと、
に基づき得る。
【0035】
本方法は、第1のスペクトル、第2のスペクトル、および第3のスペクトルにおけるスペクトル属性を乗算することをさらに含み得る。
【0036】
ステップ(a)は、第1および第2のスペクトルにおけるi番目のスペクトル属性の値を乗算し、それを、請求項15に記載の出力に加算するステップをさらに含み得る。
【0037】
本方法は、第3のスペクトルのスペクトル属性の全てが0から1の範囲にあるように、第3のスペクトルを正規化するステップをさらに含み得る。
【0038】
本発明のさらなる側面によると、第1のスペクトルおよび第2のスペクトルの類似性を判断する方法であって、各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、各スペクトルは、スペクトル領域において分散されるm個のスペクトル属性の集合を含む方法が提供され、本方法は、
(a)スペクトル属性のi番目の属性において、2つのスペクトルの類似性を表す値を計算するステップと、
(b)m個のスペクトル属性の集合の各々について上記計算を繰り返すステップと、
(c)2つのスペクトルの類似性を示す値を導くために、m個の計算の結果を組み合わせるステップと、
を含むカーネル関数を計算するステップを含み、
ステップ(a)における値は、
(i)第1および第2のスペクトルにおけるi番目のスペクトル属性の値を組み合わせるステップと、
(ii)第1のスペクトルにおけるi番目のスペクトル属性の値と、第1のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと、
(iii)第2のスペクトルにおけるi番目のスペクトル属性の値と、第2のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと、
に基づくステップを提供する。
【0039】
ステップ(c)は、m個の計算の結果を加算するステップを含み得る。ステップ(a)における値は、ステップ(i)の出力とステップ(ii)および(iii)の結果を組み合わせる関数の出力とを加算するステップにさらに基づき得る。
【0040】
ステップ(a)における値は、ステップ(ii)において計算された差分を、ステップ(iii)で計算された対応する差分と乗算するステップと、各対の計算された差分を総和するステップにさらに基づき得る。ステップ(i)は、第1のスペクトルおよび第2のスペクトルにおけるスペクトル属性の値を乗算するステップを含み得る。ステップ(c)は、m個の計算を加算し、総和の符号をマイナスにするステップと、この結果を2σによって割るステップと、この結果の指数関数を計算するステップとを含み得る。ステップ(i)は、第1および第2のスペクトルにおけるスペクトル属性の値の間の差分を2乗するステップを含み得る。
【0041】
ステップ(a)の値は、
(d)第2のスペクトルの第1の差分を、第1のスペクトルの第1の差分から減算し、結果を2乗するステップと、
(e)窓内における各差分について上記ステップを繰り返すステップと、
(f)ステップ(d)の全反復によって産出される全結果を加算するステップと、
によってさらに計算され得る。
【0042】
本方法は、ステップ(a)における計算の各々に、重み付け値を適用するステップをさらに含み得る。重み付け値は、ステップ(ii)および(iii)における差分計算の各々に適用され得る。スペクトル領域において分散されるm個のスペクトル属性の集合を含む第3のスペクトルが存在してもよく、第3のスペクトルは、標的分析物を表し、ステップ(a)における値は、
(iv)第3のスペクトルにおけるi番目のスペクトル属性の値と、第3のスペクトルにおけるi番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算し、第3のスペクトルについて計算された差分の各々を重み付け値として使用するステップ、
にさらに基づき得る。
【0043】
ステップ(a)における値は、
窓内における特定のスペクトル属性について、ステップ(ii)、(iii)、および(iv)の各々において計算された差分を乗算するステップと、
差分計算の集合の結果を総和するステップと、
総和された結果を、第3のスペクトルにおけるスペクトル属性により乗算するステップと、
に基づき得る。
【0044】
ステップ(i)は、第1のスペクトル、第2のスペクトル、および第3のスペクトルにおけるスペクトル属性を乗算することを含み得る。本方法は、第3のスペクトルのスペクトル属性の全てが0から1の範囲にあるように、第3のスペクトルを正規化するステップをさらに含み得る。
【0045】
ステップ(i)は、第1および第2のスペクトルにおけるスペクトル属性の値の間の差分を2乗し、この結果を第3のスペクトルにおける同じスペクトル属性の値によって乗算することを含み得る。
【0046】
ステップ(a)の値は、
(d)第2のスペクトルの第1の差分を、第1のスペクトルの第1の差分から減算し、結果を2乗し、この結果を、第3のスペクトルの第1の差分によって乗算するステップと、
(e)窓内における各差分について上記ステップを繰り返すステップと、
(f)ステップ(d)の全反復によって産出される全結果を加算し、この和を、第3のスペクトルにおけるスペクトル属性の値によって乗算するステップと、
によってさらに計算され得る。
【0047】
本発明の使用に関する好適な特徴は、以下のように要約可能である。
・混合物における材料または化学物質の存在は、WSカーネルを組み込むカーネル型分類技法を使用して、既知の組成のサンプルのスペクトルの訓練集合に関する分類モデルをまず構築することによって検出される。次いで、WSカーネル型分類モデルを使用して、非識別サンプルのスペクトルを分類する。
・混合物の特性は、WSカーネルを組み込むカーネル型回帰技法を使用して、各サンプルの所望の特性が既知であるサンプルのスペクトルの訓練集合に関する回帰モデルをまず構築することによって定量化される。例えば、本発明を使用して混合物における分析物の濃度を予測する場合、訓練集合は、既知の組成のサンプルのスペクトルを含む。次いで、非識別サンプルのWSカーネル型回帰モデルを使用して、そのサンプルのスペクトルに基づいて、特定の特性(特定の分析物の濃度等)を定量化する。
・WSカーネル型分類または回帰モデルの構築において、カーネル法およびWSカーネル自体のパラメータは、例えば、その集合に関する最善の精度をもたらすパラメータを選択することによって、訓練集合について最適化され得る。スペクトルデータセットの可視化されたものを生成するために、そのデータセットのための最善のWSカーネル設定を使用して、データセットにおける全ての対のスペクトルの類似性を含む行列を生成する。多次元スケーリング(MDS)技法、例えば、主成分分析は、2次元または3次元における各スペクトルをプロットするために、行列に適用される。これにより、データセット全体の可視化およびデータサンプルのクラスターの発見が可能になる。また、可視化は、例えば、非標的サンプルから標的サンプルを分類モデルがいかに十分分離するかを判断することによって、基本的な分類または回帰モデルを有効にする役割を果たすことが可能である。
・訓練データセットのための最善のWSカーネル設定を選択する類似のプロセスは、スペクトルの距離メトリックを生成するために実行される。次いで、WSカーネル型距離メトリックを使用して、2つのスペクトル間の距離を計算する。このような距離測定値は、データベース検索用途において使用可能である。
【0048】
本手法により、考慮される分析物毎にカスタムカーネルの構成が容易になる。次いで、カーネルを使用して、以下のタスクが可能になる。
1.未知のスペクトルのカーネル型分類。
2.混合物内における分析物の濃度を予測するためのカーネル型回帰分析。
3.カーネルにより導かれた距離メトリックを使用する、最も近い一致のデータベース検索。
4.カーネルPCA等の特定の変換技法と組み合わせてカーネルを使用する、2次元または3次元における高次元のスペクトルデータの可視化。
本発明のさらなる側面は、上記タスクの各々に関連する。
【0049】
本発明の機能性は、ソフトウェア、ハードウェア、またはこれらの組み合わせにおいて実装可能である。本発明は、いくつかの個別要素を備えるハードウェアによって、専用プロセッサによって、または適切にプログラミングされる汎用プロセッサによって実装可能である。したがって、本発明の別の側面は、コンピュータまたはプロセッサによる実行時に方法を実装する命令(コード)を備えるソフトウェアを提供する。ソフトウェアは、電子メモリ機器、ハードディスク、光ディスク、または任意の他の機械可読記憶媒体上に有形に具現化されてもよく、またはネットワーク接続を介してコンピュータまたはプロセッサにダウンロードされ得る。
【0050】
本発明のさらなる側面は、プロセッサを組み込む方法およびシステムを実行するように動作可能であるプロセッサを提供する。システムは、固定型または携帯型装置の形をとることが可能である。本装置の用途は、法執行機関による不法物検出を含む。
【0051】
本発明の実施形態について、ほんの一例として、添付の図面を参照して説明する。
【図面の簡単な説明】
【0052】
【図1】図1は、本発明のある実施形態に従う予測モデルを産出するために、材料または化学物質を分析するためのシステムを概略的に示す。
【図1A】記載なし
【図2】図2は、本発明のある実施形態に従う予測(分類または定量化)を産出するために、未知の材料または化学物質を分析するためのシステムを概略的に示す。
【図3】図3は、従来の線形カーネルを使用して2つのスペクトルを比較する方法を示す略図である。
【図4】図4は、本発明のスペクトル線形カーネルを使用して2つのスペクトルを比較する方法を示す略図である。
【図5】図5は、本発明の重み付けスペクトル線形カーネルを使用して2つのスペクトルを比較する方法を示す略図である。
【図6】図6は、重み付けスペクトル線形カーネルおよびカーネルPCAを使用する、アセトアミノフェンデータセットの可視化である。
【図7】図7は、WS線形カーネルおよびカーネルPCAを使用する、コカインデータセットの可視化である。
【発明を実施するための形態】
【0053】
本発明は、スペクトルデータに基づく、材料または化学物質の分類と、材料または化学物質の特性の定量化との両方のためのカーネル法の使用に基づく。本説明は、2つの特定の標準カーネルである線形カーネルおよび放射基底関数(RBF)カーネルが適応される本発明の単一の実施形態を反映する。しかしながら、本発明の請求項に影響を及ぼすこと無く、他の標準カーネルに置き換え得る。本説明は、カーネル型学習器の使用を言及し、これは、カーネル型サポートベクターマシンおよび最近傍アルゴリズム等の多数の異なる機械学習方法を包含する総称である。任意のこのようなカーネル型学習器を、本発明の請求項に影響を及ぼすこと無く本発明とともに用い得る。
【0054】
スペクトルは、波長、周波数、または波数に対してプロットされる電磁放射(吸収度、透過率、放射力、エネルギー、エネルギー密度、強度、発散度、放射輝度、放射照度等)を特徴付ける量のプロットとして規定可能である。波数は、単位長さ当たりの波の数を定義し、波長に反比例する(ゆえに、周波数に正比例する)。波数の単位はcm-1である。本発明に関し、スペクトルは、一連の強度値を含み、その各々は、異なる周波数において記録される。ラマン分光法の場合、スペクトルは、サンプルから散乱した光の波数に対する強度を記録する。本発明の以下の説明において、各周波数(または波数)は、スペクトル属性と呼ばれ、スペクトルにおける特定の周波数で記録される強度(または他の量)は、スペクトル属性値と呼ばれる。ゆえに、スペクトルのスペクトル属性値iは、そのスペクトルにおけるi番目の周波数において記録される強度をいう。各スペクトルサンプルは、一連のm個のスペクトル属性値によって説明される。スペクトル属性(すなわち、周波数)の同一の集合は、データセットの全スペクトルについて使用されることが想定される。
【0055】
図1は、本発明のある実施形態に従うシステムを概略的に示す。本システムの目的は、未知の材料または化学物質の今後の分類/定量化に使用するモデルを構築することにある。既知の組成のサンプル混合物の集合がまず収集される(1)。光子源(2)は、各サンプル側に向けられる電磁放射(3)のビームを発光する。放射およびサンプルの相互作用の結果、放射の特性が変化し(4)、これは、検出器(5)によって検出され、検出器(5)は、サンプル混合物(6)毎にスペクトルを出力する。各スペクトルは、幅広いスペクトル属性値を含む。例えば、ラマン分光法では、強度値は、0〜4000cm−1の範囲で記録され得る。スペクトルデータは、スペクトルデータ処理ユニット(7)に適用される。本発明は、カーネル型学習器(8)、例えば、SVM(高次元スペクトルデータに十分適するため、特に有利である)を使用する。カーネル型学習器は、未知の混合物(図2参照)の定量化または分類に使用可能である予測モデル(12)を構築するために、スペクトルデータベース(13)を使用する。この予測モデルを構築するプロセス中に、カーネル型学習器は、WSカーネル(9)を使用して、スペクトルデータベースからの対のサンプルスペクトル(10)の類似性を計算する。これらの類似性測定値の計算において、WSカーネルは、純粋分析物(11)のスペクトルも使用し、この場合、純粋分析物は、未知のサンプル混合物において識別/定量化される材料である。本発明の異なる実施形態は、異なるカーネル型学習器(8)、例えば、SVMおよびk-NNを組み込む。
【0056】
図2は、本発明のある実施形態に従うシステムを示す。本システムの目的は、化学物質または材料の未知のサンプル(1)を分類することにあり、化学物質または材料は、固体状、液体状、または気体状であることが可能である。光子源(2)は、各サンプル側に向けられる電磁放射(3)のビームを発光する。放射およびサンプルの相互作用の結果、放射の特性が変化し(4)、これは、検出器(5)によって検出され、検出器(5)は、未知のサンプル(6)のスペクトルを出力する。本スペクトルは、幅広いスペクトル属性値を含む。次いで、未知のサンプルスペクトルは、カーネルモデル(12)によって分類または定量化(14)され、本モデルは、図1に示し、かつWSカーネル(9)を組み込むシステムによって産出される。前述のように、本発明の異なる実施形態は、予測ステップで使用するカーネルモデルを生成するために、異なるカーネル法を使用する。
【0057】
カーネルは、入力としての2つのスペクトルサンプル、xおよびzを比較し、それらがいかに相互に類似するかを反映する単一の値を出力する。典型的には、カーネルは、対応するスペクトル属性値を比較し、次いで、これらのm個の属性に基づく比較を、サンプルxおよびサンプルzの類似性の単一測定値に組み合わせることによって(例えば、総和することによって)、2つのスペクトルを比較する。本発明の改善を理解するためには、標準線形カーネルの演算をまず考慮することが有用である。
1.サンプルxの第1のスペクトル属性値とサンプルzの第1のスペクトル属性値との積を計算する。
2.m個のスペクトル属性の各々についてステップ1を繰り返す。
3.これらのm個の積の和を計算し、これを、サンプルzに対するサンプルxの類似性として返す。
上記プロセスは、以下のように要約可能である。
【0058】
【数1】

式中、kLin(x,z)=xおよびxおよびzは、サンプルxおよびzのそれぞれのi番目の属性値である。この線形カーネル類似性測定値は、図3にも示される。
【0059】
本発明は、線形カーネルにより計算されるスペクトルの類似性測定値に、2つの別々の修正を適用する。スペクトルカーネルと呼ばれる第1の修正では、2つのスペクトルの類似性、xおよびzは、以下のように計算される。
1.サンプルxの第1のスペクトル属性値とサンプルzの第1のスペクトル属性値との積を計算する。
2.サンプルxの第1のスペクトル属性値と多数のその隣接スペクトル属性の値(サイズ2W+1の窓内における)との間の差分を計算し、2W差分値の集合を産出する。用途に応じて異なる窓サイズを特定し得る。
3.サンプルzの第1のスペクトル属性値と多数のその隣接スペクトル属性の値(サイズ2W+1の窓内における)との間の差分を計算し、2W差分値の集合を産出する。
4.ステップ2および3から生成した差分の集合を乗算し、そして総和し、この値を、ステップ1で生成した積に加える。これにより、サンプルxおよびサンプルzの第1の属性の比較のための単一の値がもたらされる。
5.m個のスペクトル属性についてステップ1から4を繰り返す。
6.ステップ1から4の全反復により生成されたm個の値の和を計算し、これを、サンプルzに対するサンプルxの類似性として返す。
【0060】
上記手順は、以下のように要約可能である。
【0061】
【数2】

式中、dxijは、サンプルxのi番目のスペクトル属性値と、その隣接スペクトル属性とを比較することによって生成された差分の集合であり、dzijは、サンプルzのi番目のスペクトル属性値と、その隣接する点とを比較することによって生成された差分の集合である。また、スペクトル線形カーネル類似性測定値は、図4にも示される。局所的差分の使用によって、この類似性は、これらのスペクトル点を分離して単に処理せずに、2つのスペクトルのスペクトルプロファイルの知識を持って組み込まれる。図4は、図3の線形カーネル図に示されるのと同じ対のスペクトルについてのスペクトル線形カーネル演算を示す。本例では、カーネルが点xについて演算する場合に、選択された点xの両側における3つの点が考慮されるように、W=3(ゆえに、窓サイズ7)である、この改善の効果が図4に示され得る。サンプルXでは、点xは、スペクトル応答のピーク時の頂点に位置する。点xにすぐ隣接する点は、点x周囲のピーク時の両側に位置する。しかしながら、サンプルZでは、点zは、一連のトラフ内に位置する。点zにすぐ隣接する点は、点zの各側面において上下する応答に従う。xにおけるカーネル関数の計算の基礎を、xの値に置くだけでなくxの各側面における隣接するW点に置くことによって、一致しない場合に、信頼度がより高くなることが分かる。これは、特に、xおよびzの各々が同一の強度値を有するが、これらのスペクトル点が、異なる特徴(例えば、ピーク時におけるxおよび底値におけるz)内に位置する例を考慮する場合に当てはまる。実験では、窓サイズは、典型的には5から30まで変動する。また、実験では、大き過ぎる窓サイズ(例えば、200を上回る)を選択すると、小さい窓サイズに基づくカーネルと同じように機能しない(予測精度の観点から)過度に複雑な(ならびに計算的により集中的な)カーネルがもたらされ得ることが示された。図4に示す窓(W)は、点xに関して対称的であり、好適な形状の窓である。しかしながら、窓は、対称的である必要はなく、スペクトルの各端部における点xについて演算する場合等の特定の状況では、窓は、非対称的である。
【0062】
重み付けスペクトルカーネル(WSカーネル)と呼ばれる標準線形カーネルの第2の修正では、純粋分析物のスペクトルが、類似性測定値に重み付けスキームを組み込むために使用される。純粋分析物スペクトルは、以下の説明においてサンプルwと呼ばれる。このWS線形カーネルを使用する2つのスペクトルxおよびzの類似性は、以下のように計算される。
1.全てのスペクトル属性値が0から1の範囲にあるように、サンプルwを正規化する。サンプルxおよびzを正規化されており、これが本発明の演算に影響を及ぼさないことに留意されたい。
2.サンプルxの第1のスペクトル属性値と、サンプルzの第1のスペクトル属性値と、サンプルwの第1のスペクトル属性値との積を計算する。
3.サンプルxの第1のスペクトル属性値と多数のその隣接スペクトル属性の値(サイズ2W+1の窓内における)との間の差分を計算し、2W差分値の集合を産出する。
4.サンプルzの第1のスペクトル属性値と多数のその隣接スペクトル属性の値(サイズ2W+1の窓内における)との間の差分を計算し、2W差分値の集合を産出する。
5.サンプルwの第1のスペクトル属性値と多数のその隣接スペクトル属性の値(サイズ2W+1の窓内における)との間の差分を計算し、2W差分値の集合を産出する。
6.ステップ3〜5から生成した差分の3つの集合を乗算し、そして総和し、この値を、ステップ1で生成した積に加える。この計算結果は、サンプルwの第1のスペクトル属性値によって乗算される。これによって、サンプルxおよびサンプルzの第1のスペクトル属性の比較のための単一の値が生成される。
7.m個のスペクトル属性についてステップ2から6を繰り返す。
8.ステップ2から6の全反復により生成されたm個の値の合計を計算し、これを、サンプルzに対するサンプルxの類似性として返す。
【0063】
上記手順は、以下のように要約可能である。
【0064】
【数3】

式中、dxijは、純粋分析物スペクトルwのi番目のスペクトル属性値と、その隣接スペクトル属性の値とを比較することによって生成された差分の集合である。また、WS線形カーネル類似性測定値は、図5にも示される。図5の上記説明および図解から分かるように、WS線形カーネルに使用する重み付けスキームに2つの要素が存在する。重み付けベクトルwは、0から1の範囲の値の集合であり、純粋分析物スペクトルについて記録した強度に基づく。このように、純粋分析物スペクトルにおいてピークが発生するスペクトルのこれらの領域により重点を置く。同様に、dwijにより表される重み付けの集合は、純粋スペクトルにおいて、属性iの差分を計算することによって(それを窓内の周囲属性と比較することによって)生成され、値のこの集合を使用して、総和中の各積に重み付けする。結果として、WS線形カーネル類似性測定値は、比較される2つのスペクトルの、隣接スペクトル属性の間のこれらの差分により重点を置き、この場合、これらの同一のスペクトル属性は、純粋分析物スペクトルにおける大幅な差分を実現する。この重み付けスキームにより、カーネルは、分析物の知識を組み込まれる。つまり、WS線形カーネルは、純粋分析物に関してサンプルスペクトルを比較するスペクトルの類似性測定値を表す。ゆえに、元の分析物スペクトルにおいて卓越していない領域におけるスペクトル間の類似性は、純粋分析物がその信号においてピークを有する領域で発生する類似性ほど重要ではないと考えられる。
【0065】
同様の修正を標準放射基底関数(RBF)カーネルに加えて、重み付けスペクトル放射基底関数(WSRBF)カーネルを求めることが可能であり、この場合、ユークリッド距離計算が修正される(新しい距離はdws(x,z)と示される)。WSRBFカーネル類似性測定値を使用して2つのスペクトルを比較する手順に関する詳細は提供しないが、以下のように要約可能である。
【0066】
【数4】

重み付けの2つの集合wおよびdwijは、WS線形カーネルで使用する集合と同一であり、同一方式で生成される。WS線形カーネルと同様に、WSRBFカーネルは、スペクトルデータに固有の類似性測定値を表し、カーネルの各変形が特定の分析物の分類または定量化のために設計される。
【0067】
上述のように、本発明は、他の標準カーネルに適用可能である。例えば、WSカーネル手法の多項式カーネル(WSPoIy)への適用は、WS線形カーネルに関して以下のように表現可能である。
【0068】
【数5】

式中、dは、WSPoIyカーネルの次数である。
【0069】
次の4つのセクションは、本発明が異なるスペクトル分析用途に使用される方法について詳述する。
【0070】
(WSカーネル手法を使用する材料または化学物質の分類)
スペクトルは、以下のように分類される。
1.既知の組成のサンプルのスペクトルを含む訓練データセットが収集される。
2.その純粋形態の分析物のスペクトルが収集される(純粋分析物スペクトル)。
3.WSカーネル(例えば、WS線形またはWSRBF)を組み込むカーネル型分類技法の実装は、上記データセットに関して訓練され、分類モデルを産出する。カーネル法およびWSカーネルの両方のパラメータは、訓練データの最善のモデルを達成するように調節され得る。例えば、WS線形カーネルによるSVM分析器を使用する場合、SVM CパラメータおよびWS線形窓サイズパラメータが最適化され得る。
4.SVMの例では、結果として生じるSVM分類モデルを使用して、未知のサンプルスペクトルを分類する。SVM決定プロセスは、WSカーネルを使用して、未知のサンプルを、訓練データセットの1つ以上のサンプルと比較することを伴う。各比較は、計算を重み付けするために、純粋分析物スペクトルを使用する。
【0071】
上記方法は、任意のカーネル型分類技法とともに使用可能であり、SVMとの使用に限定されない。
【0072】
(スペクトルのWSカーネル距離メトリック)
スペクトル分析において、材料または化学物質を識別するために、未知の材料または化学物質のスペクトルを、既知の材料および化学物質のスペクトルのデータベースと比較することは一般的である。これは、距離測定を使用して、未知の材料または化学物質に対する類似性の順番に、スペクトルを順位付けすることを伴う。元の入力空間における2つのサンプル間の距離を計算するユークリッド距離測定は、多くの場合、この型の検索に使用される。WSカーネルは、スペクトル検索において使用するために距離測定を導くために使用可能である。カーネルKを使用して、2つのスペクトルxおよびz間の距離は、以下のように規定される。
【0073】
【数6】

WSカーネルを使用して2つのスペクトル間の距離を計算するための手順は、以下の通りである。
1.既知の組成のサンプルのスペクトルから構成される訓練データセットが収集される。
2.その純粋形態の分析物のスペクトルが収集される(純粋分析物スペクトル)。
3.多数の分類または回帰は、WSカーネルを組み込むカーネル型方法を使用してモデル化される。WSカーネルのパラメータ、例えば、WS線形カーネルの窓サイズパラメータまたはWSRBFカーネルの窓サイズおよびσパラメータを変更することによって、異なるモデルが生成される。
4.訓練データセットにおいて最善の精度(分類または回帰)を達成したWSカーネル設定が、選択される。
5.選択されたカーネルKを使用して、K(x,x)、K(z,z)、およびK(x,z)のカーネル計算が行なわれ、式中、xは、第1のスペクトルであり、zは、第2のスペクトルである。
6.d(x,z)の上記表現によって、2つのスペクトル間の距離が求められる。
【0074】
(WSカーネル手法を使用する材料または化学物質の定量化)
本発明は、材料または化学物質からのスペクトルを使用して、材料または化学物質の特性、例えば、混合物のラマンスペクトルに基づく混合物における分析物の濃度の測定を定量化するために使用可能である。材料または化学物質の特性は、以下のように定量化される。
1.各サンプルの所望の特性(例えば、濃度)が既知であるサンプルのスペクトルから構成される訓練データセットが収集される。
2.その純粋形態の分析物のスペクトルが収集される(純粋分析物スペクトル)。
3.WSカーネル(例えば、WS線形またはWSRBF)を組み込むカーネル型回帰技法の実装は、上記データセットに関して訓練され、回帰モデルを産出する。カーネル法およびWSカーネルの両方のパラメータは、訓練データの最善のモデルを達成するように調節され得る。例えば、WS線形カーネルによるSVM回帰を使用する場合、SVM CパラメータおよびWS線形窓サイズパラメータが最適化され得る。
4.結果として生じるSVM回帰モデルを使用して、未知のサンプルスペクトルの特性を定量化する。SVM決定プロセスは、WSカーネルを使用して、未知のサンプルを、訓練データセットの1つ以上のサンプルと比較することを伴う。
【0075】
本発明は、任意のカーネル型回帰技法とともに同様に使用可能であり、SVMとの使用に限定されない。
【0076】
(WSカーネル手法を使用するスペクトルデータセットの可視化)
2つの形式の可視化が提供され、一方は、WSカーネルを組み込む分類モデルに基づき、他方は、WSカーネルを組み込む回帰モデルに基づく。可視化は、データセットのスペクトルの2次元または3次元プロットである。類似のサンプルのクラスターと外れ値等、データセットにおけるパターンを専門家が区別するために使用可能である。可視化は、以下のように生成される。
1.既知の組成のサンプルのスペクトルを含む訓練データセットが収集される。
2.その純粋形態の分析物のスペクトルが収集される(純粋分析物スペクトル)。
3.多数の分類または回帰は、WSカーネルを組み込むカーネル型方法を使用してモデル化される。WSカーネルのパラメータ、例えば、WS線形カーネルの窓サイズパラメータまたはWSRBFカーネルの窓サイズおよびσパラメータを変更することによって、異なるモデルが生成される。
4.訓練データセットにおいて最善の精度(分類または回帰)を達成したWSカーネル設定が、選択される。カーネル行列Kは、このカーネル設定を使用して構成され、この場合、行列Kijの各要素は、選択されたWSカーネルによって計算される、サンプルjに対するサンプルiの類似性である。
5.MDS技法を使用して、カーネル行列を低次元射影に変換する。使用し得る2つのMDS技法は、
a.カーネルPCA
b.ラプラシアン行列方法
である。
6.MDS技法によりもたらされた射影は、グラフにプロットされる。分類用途では、プロットの点は、分析物を含むサンプルであるか否かを表示するために色分けされる。定量化用途では、プロットの点は、各サンプル、例えば、濃度量の予測における分析物の特性値を示すように色分けされ、色は、0%〜100%の濃度領域を呈し得る。
【0077】
本可視化手順が、上述の2つ以外の任意のMDS技法と使用し得ることに留意されたい。さらに、任意のカーネル型分類または回帰技法を、カーネル選択ステップにおいて使用し得る。データセットのサンプル可視化は、図6に示される。本可視化は、WS線形カーネルに基づいてカーネルPCAを使用するデータセットの射影を示す。このデータセットを使用して、アセトアミノフェンサンプルを識別するための分類モデルを構築する。データセットは、アセトアミノフェンを含むサンプルおよびアセトアミノフェンを含まないサンプル間の分離(少量の重複を含む)を明確に示す。別の可視化について図7に示し、これも、WS線形カーネルによりカーネルPCAを使用して生成される。本可視化は、サンプルにおけるコカインの定量化に使用する回帰モデルの構築のために収集されるデータセットを示す(すなわち、定量化される特性は、各混合物のコカイン濃度)。図7は、サンプルのコカイン濃度とグラフにおけるその位置との間の高い相関を実証し、サンプルのコカイン濃度は、グラフの左から右に増加する。
【0078】
本発明に関して本明細書において使用する際、単語の「備える」および単語の「有する/含む」は、記述した特徴、完全体、ステップ、または成分の存在を特定するために使用されるが、1つ以上の他の特徴、完全体、ステップ、成分、またはそれらの群の存在または追加を除外しない。
【0079】
明確にするために別々の実施形態に関連して説明される本発明の特定の特徴を、単一の実施形態において組み合わせて提供し得ることを理解されたい。反対に、簡潔にするために単一の実施形態に関連して説明される本発明の種々の特徴を、別々に、または任意の適切なものを組み合わせて提供し得る。

【特許請求の範囲】
【請求項1】
第1のスペクトルおよび第2のスペクトルの類似性を判断する方法であって、各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、各スペクトルは、スペクトル領域において分散されるm個のスペクトル属性の集合を含み、
(a)該スペクトル属性のi番目の属性において、該2つのスペクトルの類似性を表す値を計算するステップと、
(b)m個のスペクトル属性の該集合の各々について上記計算を繰り返すステップと、
(c)該2つのスペクトルの類似性を示す値を導くために、該m個の計算の結果を組み合わせるステップと
を含むカーネル関数を計算するステップを含み、
ステップ(a)は、
該第1のスペクトルにおける該i番目のスペクトル属性の値と、該第1のスペクトルにおける該i番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々とを比較するステップと、
該第2のスペクトルにおける該i番目のスペクトル属性の値と、該第2のスペクトルにおける該i番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々とを比較するステップと
を含み、
該第1および第2のスペクトルにおける該窓は、同一のサイズである、
方法。
【請求項2】
第1のスペクトルおよび第2のスペクトルの類似性を判断する方法であって、各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、各スペクトルは、スペクトル領域において分散されるm個のスペクトル属性の集合を含み、
(a)該スペクトル属性のi番目の属性において、該2つのスペクトルの類似性を表す値を計算するステップと、
(b)m個のスペクトル属性の該集合の各々について上記計算を繰り返すステップと、
(c)該2つのスペクトルの類似性を示す値を導くために、該m個の計算の結果を加算するステップと、
を含むカーネル関数を計算するステップを含み、
ステップ(a)は、
(ii)該第1のスペクトルにおける該i番目のスペクトル属性の値と、該第1のスペクトルにおける該i番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと、
(iii)該第2のスペクトルにおける該i番目のスペクトル属性の値と、該第2のスペクトルにおける該i番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと
を含み、
ステップ(i)および(ii)における該窓は、同一のサイズである、
方法。
【請求項3】
前記窓は、少なくとも1つの他のスペクトル属性を含む、請求項1または2に記載の方法。
【請求項4】
前記窓は、前記i番目のスペクトル属性に関して対称的である、請求項1から3のいずれかに記載の方法。
【請求項5】
ステップ(a)は、前記第1および第2のスペクトルにおける前記i番目のスペクトル属性の値を乗算し、それに、ステップ(i)および(ii)の結果を組み合わせる関数の出力を加算するステップをさらに含む、請求項2から4のいずれかに記載の方法。
【請求項6】
ステップ(a)における前記値は、ステップ(i)において計算された差分を、ステップ(ii)で計算された対応する差分と乗算し、各対の計算された差分を総和するステップに基づく、請求項2から5のいずれかに記載の方法。
【請求項7】
第1のスペクトルおよび第2のスペクトルの類似性を判断する方法であって、各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、各スペクトルは、スペクトル領域において分散されるm個のスペクトル属性の集合を含み、
(e)該スペクトル属性のi番目の属性において、該2つのスペクトルの類似性を表す値を計算するステップと、
(f)ステップ(a)における該計算の各々に重み付け値を適用するステップと、
(g)m個のスペクトル属性の該集合の各々についてステップ(a)および(b)を繰り返すステップと、
(h)該m個の計算を加算し、該総和の符号をマイナスにし、該結果を適切な量によって割り、この結果の指数関数を計算することによって、該2つのスペクトルの類似性を示す値を導くステップと
を含むカーネル関数を計算するステップを含み、
ステップ(a)は、
(i)該第1のスペクトルにおける該i番目のスペクトル属性の値と、該第1のスペクトルにおける該i番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと、
(ii)該第2のスペクトルにおける該i番目のスペクトル属性の値と、該第2のスペクトルにおける該i番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと
を含み、
ステップ(i)および(ii)における該窓は、同一のサイズである、
方法。
【請求項8】
前記スペクトル領域において分散されるm個のスペクトル属性の集合を含む第3のスペクトルが存在し、該第3のスペクトルは、標的分析物を表し、ステップ(a)における前記値は、
(iv)該第3のスペクトルにおける前記i番目のスペクトル属性の値と、該第3のスペクトルにおける該i番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算し、該第3のスペクトルについて該計算された差分の各々を重み付け値として使用するステップ
にさらに基づく、請求項1または7に記載の方法。
【請求項9】
ステップ(a)の前記値は、
(d)前記第2のスペクトルの第1の差分を、前記第1のスペクトルの第1の差分から減算し、該結果を2乗し、この結果を、前記第3のスペクトルにおける第1の差分によって乗算するステップと、
(e)前記窓内における各差分について上記ステップを繰り返すステップと、
(f)ステップ(d)の全反復によって産出される全結果を加算するステップと、
(g)該最終和を、該第3のスペクトルにおける前記i番目のスペクトル属性の前記値によって乗算するステップと
によってさらに計算される、請求項7または8に記載の方法。
【請求項10】
ステップ(i)は、前記2乗された差分を、前記第3のスペクトルにおけるi番目のスペクトル属性の前記値によって乗算するステップを含む、請求項7から9のいずれか1つに記載の方法。
【請求項11】
ステップ(a)は、(iii)前記第1および第2のスペクトルにおける前記i番目のスペクトル属性の前記値の間の前記差分を2乗し、ステップ(iii)の出力およびステップ(g)の出力を加算するステップをさらに含む、請求項7から10のいずれか1つに記載の方法。
【請求項12】
第1のスペクトルおよび第2のスペクトルの類似性を判断する方法であって、各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、各スペクトルは、スペクトル領域において分散されるm個のスペクトル属性の集合を含み、
(e)該スペクトル属性のi番目の属性において、該2つのスペクトルの類似性を表す値を計算するステップと、
(f)ステップ(a)における該計算の各々に重み付け値を適用するステップと、
(g)m個のスペクトル属性の該集合の各々についてステップ(a)および(b)を繰り返すステップと、
(h)該2つのスペクトルの類似性を示す値を導くために、該m個の計算の結果を総和するステップと
を含むカーネル関数を計算するステップを含み、
ステップ(a)は、
(i)該第1のスペクトルにおける該i番目のスペクトル属性の値と、該第1のスペクトルにおける該i番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと、
(ii)該第2のスペクトルにおける該i番目のスペクトル属性の値と、該第2のスペクトルにおける該i番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算するステップと
を含み、
ステップ(i)および(ii)における該窓は、同一のサイズである、
方法。
【請求項13】
重み付け値は、ステップ(i)および(ii)における前記差分計算の各々に適用される、請求項12に記載の方法。
【請求項14】
前記スペクトル領域において分散されるm個のスペクトル属性の集合を含む第3のスペクトルが存在し、該第3のスペクトルは、標的分析物を表し、ステップ(a)における前記値は、
(iii)該第3のスペクトルにおける前記i番目のスペクトル属性の値と、該第3のスペクトルにおける該i番目のスペクトル属性の周囲の窓内における隣接スペクトル属性の集合の各々との差分を計算し、該第3のスペクトルについて該計算された差分の各々を重み付け値として使用するステップ
にさらに基づく、請求項12または13に記載の方法。
【請求項15】
ステップ(a)における前記値は、
前記窓内における特定のスペクトル属性について、ステップ(i)、(ii)、および(iii)の各々において計算された差分を乗算するステップと、
差分計算の該集合の結果を総和するステップと、
該総和された結果を、前記第3のスペクトルにおける前記スペクトル属性により乗算するステップと
に基づく、請求項14に記載の方法。
【請求項16】
前記第1のスペクトル、前記第2のスペクトル、および前記第3のスペクトルにおける前記スペクトル属性を乗算することをさらに含む、請求項15に記載の方法。
【請求項17】
ステップ(a)は、前記第1および第2のスペクトルにおける前記i番目のスペクトル属性の前記値を乗算し、それを、請求項15に記載の出力に加算するステップをさらに含む、請求項15に記載の方法。
【請求項18】
前記第3のスペクトルの前記スペクトル属性の全てが0から1の範囲にあるように、該第3のスペクトルを正規化するステップをさらに含む、請求項12から17のいずれか1つに記載の方法。
【請求項19】
それらのスペクトルに基づいて未知の化合物を分類する方法であって、
訓練スペクトルの訓練集合を提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、各々は、スペクトル領域において分散される複数のスペクトル属性を有する、ステップと、
対の該訓練スペクトルを比較して、該訓練集合に基づいて予測モデルを構築するために、請求項1〜18のいずれか1つに記載のカーネル法を使用するカーネル型分類または回帰技法を使用するステップと、
該未知のサンプルのスペクトルと、1つ以上の訓練スペクトルとを比較するために、請求項1〜18のいずれか1つに記載の該カーネル法を使用することによって、未知のサンプルを分類するために該予測モデルを使用するステップと
を含む方法。
【請求項20】
それらのスペクトルに基づいて未知の化合物の特性を定量化する方法であって、
訓練スペクトルの訓練集合を提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、各々は、スペクトル領域において分散される複数のスペクトル属性を有する、ステップと、
対の訓練スペクトルを比較して、該訓練集合に基づいて予測モデルを構築するために、請求項1から18のいずれか1つに記載のカーネル法を使用するカーネル型分類または回帰技法を使用するステップと、
該未知のサンプルのスペクトルと、1つ以上の訓練スペクトルとを比較するために、請求項1から17のいずれか1つに記載の該カーネル法を使用することによって、未知のサンプルにおける分析物の特性を判断するために、該予測モデルを使用するステップと
を含む方法。
【請求項21】
2つのスペクトル間の距離を計算する方法であって、
訓練スペクトルの訓練集合を提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、各々は、スペクトル領域において分散される複数のスペクトル属性を有する、ステップと、
対の訓練スペクトルを比較して、該訓練集合に基づいて予測モデルを構築するために、請求項1から18のいずれか1つに記載のカーネル法を使用するカーネル型分類または回帰技法を使用するステップと、
該訓練集合において最善の精度の予測モデルをもたらした該カーネルを選択するステップと、
該2つのスペクトル間の距離を計算するために、該選択されたカーネルを使用するステップと
を含む方法。
【請求項22】
スペクトルデータセットの可視化されたものを生成する方法であって、
訓練スペクトルの訓練集合を提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、各々は、スペクトル領域において分散される複数のスペクトル属性を有する、ステップと、
2つの訓練スペクトルを比較して、該訓練集合に基づいて予測モデルを構築するために、請求項1から18のいずれか1つに記載のカーネル法を組み込むカーネル型分類または回帰技法を使用するステップと、
該訓練集合において最善の精度の予測モデルをもたらした該カーネルを選択するステップと、
該訓練データセットについてカーネル行列Kを計算するステップであって、該行列Kijの各要素は、スペクトルiおよびjのカーネル類似性測定値であり、Kは、該訓練データセットにおける全対のサンプルに関する該類似性測定値を含む、ステップと、
該カーネル行列を2次元または3次元射影に変換するために、多次元スケーリング(MDS)技法を使用するステップと、
該MDS射影をグラフにプロットするステップであって、該グラフの各点は、元の訓練集合のサンプルスペクトルを表す、ステップと
を含む方法。
【請求項23】
前記グラフにプロットするステップは、該グラフの各点を色分けするステップを含み、該グラフは、
前記訓練データセットの標的を含むサンプルを、標的を含まないサンプルから、該2つの群からの点に異なる色を使用することによって強調するか、または
濃度量における0%〜100%の範囲に対応する該点に段階的な色スキームを使用することによって、各サンプルにおける前記分析物の濃度を標示する、
請求項22に記載の方法。
【請求項24】
2つのスペクトルの間の距離を計算するステップは、
(a)K(x,x)を計算するステップであって、Kは、カーネル関数であり、xは、前記第1のスペクトルである、ステップと、
(b)K(z,z)を計算するステップであって、Kは、カーネル関数であり、zは、前記第2のスペクトルである、ステップと、
(c)K(x,z)を計算するステップであって、Kは、カーネル関数であり、xは、該第1のスペクトルであり、zは、該第2のスペクトルである、ステップと
(d)ステップ(a)の出力をステップ(b)の出力に加算し、この和からステップ(c)の出力の2倍を減算し、該結果の平方根を計算するステップと
を含む、請求項21に記載の方法。
【請求項25】
請求項1〜24のいずれか1つに記載の方法を実行するように動作可能であるプロセッサ。
【請求項26】
スペクトルを分類または定量化するためのシステムであって、
第1のスペクトルおよび第2のスペクトルを少なくとも格納するための記憶装置であって、各スペクトルは、材料または化学物質のスペクトル分析の結果を表し、各スペクトルは、スペクトル領域において分散されるm個のスペクトル属性の集合を含む、記憶装置と、
請求項1から24のいずれかに記載の方法を実行するように動作可能であるプロセッサと
を備える、システム。
【請求項27】
サンプルのスペクトル分析を実行するための光子源および検出器をさらに備える、請求項26に記載のシステム。
【請求項28】
プロセッサによる実行時に、請求項1から24のいずれか1つに記載の方法を該プロセッサに実行させる命令を搭載するコンピュータ可読媒体。

【図1】
image rotate

【図1A】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公表番号】特表2010−527017(P2010−527017A)
【公表日】平成22年8月5日(2010.8.5)
【国際特許分類】
【出願番号】特願2010−507940(P2010−507940)
【出願日】平成20年5月16日(2008.5.16)
【国際出願番号】PCT/EP2008/056078
【国際公開番号】WO2008/138996
【国際公開日】平成20年11月20日(2008.11.20)
【出願人】(509237767)ナショナル ユニバーシティー オブ アイルランド, ゴールウェイ (12)
【Fターム(参考)】