説明

材料の分類および混合物の成分の定量化のためのアンサンブル方法ならびに装置

スペクトルデータに基づいて複雑な混合物の中の標的検体の特異的同定または定量化を可能とするために、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成するための方法およびシステムが提供される。該方法は、訓練用スペクトルの訓練セットを提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、かつ各々がそれぞれ異なる波長で複数のスペクトル属性を有する、ステップと、複数の波長を選択するステップと、訓練セットの各訓練用スペクトルの中の各選択された波長で、少なくともスペクトル属性の値を決定するステップと、該選択された波長での決定された属性値の関連性を調べることによって、各選択された波長に対するモデルを構築するステップとを含む。上記モデルを使用する、未知の化合物の混合物のスペクトルを分類ならびに定量化する方法およびシステムが提供される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分光分析データの機械学習分析に基づく、システムまたは材料の定量分析および定性分析に関する。「分光分析データ」という用語は、本明細書において、FT−IR吸収、ラマン、NIR吸収、蛍光、NMR、などの技術を含む。
【背景技術】
【0002】
分光分析データに対する本発明の応用は、ラマン分光法におけるその使用を含む。ラマン分光法は、歴史的には、多数の化学システムからの振動分光分析データを得るために使用されてきた。ガラスを介したサンプリング能力と関連して、光ファイバおよび顕微鏡との連結によるサンプリングの容易性に起因して、その多用途性は当該技術をして、違法材料の検出において取締機関によって使用される非常に実用的な技術とした。それはまた、非侵襲的であり、非破壊的であり、かつ非常に多くの場合極めて選択的であるという、極めて望ましい特性を有する。ラマン分光法の分析応用は増加し続けており、典型的な応用分野は、構造決定、多成分の定性分析および定量分析への応用である。
【0003】
標的検体のラマンスペクトルは、既知物質の参照スペクトルと比較されて、検体の存在を同定し得る。より複雑な(または分解能の低い)スペクトルでは、同定のプロセスはより困難である。現在の標準は、既知試料の試験セットを確立し、主成分分析(PCA)および多変数回帰のような計量化学的な(chemometric)方法を使用して統計モデルを生成し、分光分析データから検体を分類および/または定量化することである。しかしながら、これらの統計に基づくモデルには、分解能の低いピークを有する、および/または複雑な複合混合物を含む複雑なシステムに対しては、性能の面において制約がある。
【0004】
機械学習技術は、これらの課題を克服するためのより強固な方法を提供する。これらの技術は、IRスペクトルから細菌を同定するためのニューラルネットワークの使用や、質量スペクトルから植物抽出物を分類するためのニューラルネットワークの使用のような他の分光学領域から、化合物を同定および定量化するために過去に成功裏に使用されてきた。
【0005】
スペクトル分析に特化した機械学習パッケージは、市場にはごく限られた数しか存在しない。Gmax−bio(Aber Genomic Computing)は、分光学を含む多くの科学領域における使用のために設計されている。これは、遺伝的プログラムを使用して、課題に対する解決法を引き出している。その開発者らは、他のほとんどの機械学習技術を凌ぐと主張しているが、しかしながら、広範な課題への適用性の故に、ユーザは、遺伝的プログラムおよび分光学の両方の予備的知識をいくつか必要とする。Neurodeveloper(Synthon GmBH)は、特にスペクトルの分析用に設計されており、スペクトルの解析のために、計量化学的なツール、前処理技術、およびニューラルネットワークを使用する。
【0006】
機械学習における近年の進歩は、これらの計量化学的な方法を凌ぐことができる新しい技術へとつながった。
【0007】
特許文献1および特許文献2は、スペクトル分析のためのPCAの使用を開示している。特許文献3、特許文献4、および特許文献5は、スペクトル分析のための部分最小二乗法(PLS)および古典的最小二乗法技術、ならびにこれらの技術の融合の使用を開示している。特許文献6は、有機材料および構造の分析のための人工ニューラルネットワーク(ANN)およびスペクトルデータの使用を開示している。特許文献7は、ラマンスペクトルデータから生物学的物質の濃度を決定するためのANNの特定的な実装の使用を開示している。ANN実装は、ファジー適応共鳴理論−マッピング(ARTMAP)を使用する。
【0008】
特許文献8は、スペクトルデータを分類するための、主成分分析(PCA)と組み合わせたANNの使用を開示している。特許文献9は、有機および無機化合物のリアルタイム分析のためのANNの使用を開示している。特許文献10、特許文献11および特許文献12もまた、分光分析のためのANNの使用を開示している。特許文献13は、試験試料の(既知の条件の)訓練用試料のセットからの距離に基づきスペクトルデータを分類するためのシステムを開示している。試験試料は、少なくとも2つの試料との距離関係に基づき分類されるが、ただし、少なくとも1つの距離は、所定の最大距離未満である。この方法の好適な実施形態は、マハラノビス距離を使用するが、ユークリッド距離もまた考慮される。特許文献14は、複数のサポートベクタマシンを使用した知識発見を高めるためのシステムを開示している。
【0009】
ANNおよびSVMに基づく既存の技術の限界は、それらが、特に容易に解釈され得ない予測を生成することである。したがって、それらは多くの場合「ブラックボックス」技術としてみなされ、手作業でスペクトルを検査する分析者は、ピークの位置およびサイズに基づきスペクトルを分類する。したがって、その分野の専門家(例えば分析化学者)は、使用される分類モデル、または分析中のデータに対する見識が与えられないという点で不利であった。ANNは、スペクトルの分類のための、特許取得済みの一般的な機械学習技術である。分類の正確性に悪影響を及ぼさずに、ANN決定プロセスの明確性を改善することが、本発明の目標である。SVMのような他の機械学習技術に対する改良もまた望まれる。
【0010】
ノイズに強い分類方法を提供し、特許文献15、特許文献16、特許文献17、特許文献18、特許文献19、および特許文献20に記載のような、スペクトル前処理技術の必要性を除去することも、また本発明の目標である。
【0011】
スペクトル分析の領域でのソフトウェアは、以下の4つの主要な領域に細分化され得る。
・データベースのライブラリ検索を実行してスペクトル特性を照合するソフトウェア
・標準の数学的および統計学的ツールを使用してスペクトルを処理するソフトウェア
・スペクトルのモデリングおよび定量化に使用され得る一般的統計パッケージ
・機械学習技術を利用してスペクトルを分類および定量化する、市販のソフトウェア
機械学習技術として、本発明の技術の方法を利用するソフトウェアは、上記の最後の群と直接的に競合することが想定される。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】米国特許第6,675,137号明細書
【特許文献2】米国特許第5,822,219号明細書
【特許文献3】米国特許第6,415,233号明細書
【特許文献4】米国特許第6,711,503号明細書
【特許文献5】米国特許第6,096,533号明細書
【特許文献6】米国特許第5,631,469号明細書
【特許文献7】米国特許第5,553,616号明細書
【特許文献8】米国特許第5,660,181号明細書
【特許文献9】米国特許第5,900,634号明細書
【特許文献10】米国特許第5,218,529号明細書
【特許文献11】米国特許第6,135,965号明細書
【特許文献12】米国特許第6,477,516号明細書
【特許文献13】米国特許第6,421,553号明細書
【特許文献14】米国特許第6,427,141号明細書
【特許文献15】米国特許第4,783,754号明細書
【特許文献16】米国特許第5,311,445号明細書
【特許文献17】米国特許第5,435,309号明細書
【特許文献18】米国特許第5,652,653号明細書
【特許文献19】米国特許第6,683,455号明細書
【特許文献20】米国特許第6,754,543号明細書
【発明の概要】
【発明が解決しようとする課題】
【0013】
本発明の目的は、ラマンスペクトル分析、関連する分光技術、およびより一般的には、単変数逐次データの任意の形態に関連する、ANNおよびSVM方法を使用するものを含む、ML分類および回帰決定の明確性および正確性を増加することが可能な方法および装置を提供することである。単変数逐次データの例は、分光分析データ、音響データ、および地震データを含む。
【課題を解決するための手段】
【0014】
スペクトルデータの逐次的性質を利用することによる、スペクトル分析用に設計された機械学習技術が必要とされている。
【0015】
以下の説明および添付の特許請求の範囲において、スペクトルのそれぞれの周波数(または波数)は、属性またはスペクトル属性と称される。同様に、スペクトルの特定の周波数で記録された強度は、属性の値またはスペクトル属性の値と称される。
【0016】
本発明の第1の局面に従って、スペクトルデータに基づく複雑な混合物中の標的検体の特異的同定または定量化を可能とするために、化合物の未知の混合物のスペクトルを分類または定量化するために用いるモデルを生成する方法が提供され、その方法は、
訓練用スペクトルの訓練セットを提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、各々がそれぞれ異なる波長の複数のスペクトル属性を有する、ステップと、
複数の波長を選択するステップと、
訓練セットの各訓練用スペクトルの中の各選択された波長において、少なくともスペクトル属性の値を決定するステップと、
前記選択された波長での決定された属性値の関連性を調べることによって、各選択された波長に対するモデルを構築するステップと、を含む。
【0017】
言い換えると、各選択された波長に対して、方法は、前記属性に対するモデルを構築するために、前記選択された波長での決定された属性値の関連性を調べるステップを含む。
【0018】
方法は、訓練セットの各訓練用スペクトルの中の各選択された波長において、スペクトル属性の局面を決定するステップであって、各属性の局面は、周囲のスペクトルと関連するその位置である、ステップと、各モデルを構築するときに、各選択された波長での決定された局面の関連性を調べるステップと、をさらに含み得る。
【0019】
さらに、化合物の未知の混合物のスペクトルを分類または定量化するために用いるモデルを生成する方法が提供され、その方法は、
訓練用スペクトルの訓練セットを提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、各々がそれぞれ異なる波長の複数のスペクトル属性を有する、ステップと、
少なくとも各訓練用スペクトルの中の各スペクトル属性の値を決定するステップと、
前記特定の波長での前記属性に対するモデルを構築するために、特定の波長を有する訓練セットの中のすべての属性の属性値の関連性を調べるステップと、を含む。
【0020】
この方法は、各訓練用スペクトルの各スペクトル属性の局面を決定するステップであって、各属性の局面は、周囲のスペクトルと関連するその位置である、ステップと、前記モデルを構築するときに、前記特定の波長を有する訓練セットのすべての属性の局面の関連性を調べるステップと、をさらに含み得る。
【0021】
好ましくは、各属性の局面を決定するステップは、属性の値と少なくとも1つの先行属性または後続属性の値との間の、値の差を計算するステップを含む。
【0022】
本明細書においてモデルの構築に関連して使用されるときの、関連性を調べるという用語は、結合する、収集する、照合する、集める、および同様のものを包含することが、留意されるべきである。
【0023】
本発明の第2の局面に従って、未知の化合物の混合物のスペクトルを分類する方法が提供され、その方法は、
複数のモデルを提供するステップであって、各モデルは、化合物の未知の混合物のスペクトルを分類または定量化するために用いられる、モデルを生成する上述の方法のいずれかを使用して生成される、ステップと、
その上にモデルが構築された訓練セットを分類する際の、その正確性に基づいて各モデルの適合性を計算するステップと、
未知の化合物の前記混合物のスペクトルを分類するために、前記複数のモデルのうちの少なくとも1つを選択するステップであって、各モデルは、前記学習セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、ステップと、
未知の化合物の前記混合物のスペクトルの中のどの属性が、前記特定の波長を有するかを同定するステップと、
未知の化合物の前記混合物に対するクラス予測を生成するために、前記同定された属性を、前記少なくとも1つの選択されたモデルに入力するステップと、を含む。
【0024】
好ましくは、前記複数のモデルのうちの少なくとも1つを選択するステップは、訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するステップを含む。好ましくは、訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するステップは、訓練セットを正しく分類する際のその正確性に基づいて、各モデルの適合性を計算するステップと、それら適合性に従ってモデルをランク付けするステップと、最高ランクのモデルのうちの一定の割合を選択するステップとを含む。好ましくは、各モデルの適合性を計算する方法は、訓練セットの中の各スペクトルに対する正確性の値を割り当てるステップと、モデルに対する整数の適合性値を提供するために、前記正確性の値の関連性を調べるステップとを含む。各モデルのクラス予測は、モデルの適合性値によって重み付けされ得る。好ましくは、方法は、選択されたモデルの重み付けされたクラス予測を合計するステップをさらに含む。
【0025】
本明細書において正確性の値に関連して使用されるときの、関連性を調べるという用語は、結合することによって要約することを意味することが、留意されるべきである。
【0026】
本発明の第3の局面に従って、その中の濃度を決定するために未知の化合物の混合物のスペクトルを定量化する方法が提供され、その方法は、
複数のモデルを提供するステップであって、各モデルは、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成する上述の方法(本発明の第1の局面による)を使用して生成される、ステップと、
未知の化合物の前記混合物のスペクトルを定量化するために、前記複数のモデルのうちの少なくとも1つを選択するステップであって、前記少なくとも1つのモデルは、前記訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、ステップと、
未知の化合物の前記混合物のスペクトルの中のどの属性が、前記特定の波長を有するかを同定するステップと、
未知の化合物の前記混合物に対する濃度予測を生成するために、前記同定された属性を前記少なくとも1つの選択されたモデルに入力するステップと、を含む。
【0027】
好ましくは、前記複数のモデルのうちの少なくとも1つを選択するステップは、訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するステップを含む。好ましくは、訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するステップは、訓練セットを正しく定量化する際のその正確性に基づいて、各モデルの適合性を計算するステップと、それらの適合性に従ってモデルをランク付けするステップと、最高ランクのモデルのうちの一定の割合を選択するステップとを含む。
【0028】
各モデルの適合性を計算する方法は、好ましくは、訓練セットの中の各スペクトルに対する正確性の値を割り当てるステップと、モデルに対して整数の適合性値を提供するために、前記正確性の値の関連性を調べるステップとを含む。未知の化合物の前記混合物に対する濃度予測を生成するステップは、前記少なくとも1つの選択されたモデルのそれぞれからの濃度予測の平均を計算するステップを含み得る。
【0029】
本発明の第4の局面に従って、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成するためのシステムが提供され、そのシステムは、
訓練用スペクトルの訓練セットを記憶するための記憶デバイスであって、各スペクトルは、既知の化合物の混合物を表し、各々が、それぞれ異なる波長の複数のスペクトル属性を有する、記憶デバイスと、
プロセッサであって、
訓練用スペクトルの訓練セットを提供し、
複数の波長を選択し、
訓練セットの各訓練用スペクトルの中の各選択された波長で、少なくともスペクトル属性の値を決定し、
前記選択された波長での決定された属性値の関連性を調べることによって、各選択された波長に対するモデルを構築するように、動作可能なプロセッサと、
を備える。
【0030】
本システムは、好ましくは、訓練セットの各訓練用スペクトルの中の各選択された波長でのスペクトル属性の局面を決定するための手段であって、各属性の局面は、周囲のスペクトルと関連するその位置である、手段と、各モデルを構築するときに、各選択された波長での決定された局面の関連性を調べるための手段と、をさらに備える。
【0031】
さらに、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成するためのシステムが提供され、そのシステムは、
訓練用スペクトルの訓練セットを記憶するための記憶デバイスであって、各スペクトルは、既知の化合物の混合物を表し、各々が、それぞれ異なる波長の複数のスペクトル属性を有する、記憶デバイスと、
プロセッサであって、
訓練用スペクトルの訓練セットを提供し、各訓練用スペクトルの中の、少なくとも各スペクトル属性の値を決定し、
前記特定の波長での前記属性に対するモデルを構築するために、特定の波長を有する訓練セットの中のすべての属性の属性値の関連性を調べるように、動作可能なプロセッサと、を備える。
【0032】
このシステムは、好ましくは、各訓練用スペクトルの中の各スペクトル属性の局面を決定するための手段であって、各属性の局面は、周囲のスペクトルと関連するその位置である、手段と、前記モデルを構築するときに、前記特定の波長を有する訓練セットのすべての属性の局面の関連性を調べるための手段と、をさらに備える。好ましくは、各属性の局面を決定するための手段は、属性の値と少なくとも1つの先行属性または後続属性の値との間の、値の差を計算するための手段を備える。
【0033】
本発明の第5の局面に従って、未知の化合物の混合物のスペクトルを分類するためのシステムが提供され、そのシステムは、
複数のモデルを提供するための手段であって、各モデルは、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成する上述の方法(本発明の第1の局面による)を使用して生成される、手段と、
その上にモデルが構築された訓練セットを分類する際の、その正確性に基づいて各モデルの適合性を計算するための手段と、
未知の化合物の前記混合物のスペクトルを定量化するために、前記複数のモデルのうちの少なくとも1つを選択するための手段であって、前記少なくとも1つのモデルは、前記訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、手段と、
未知の化合物の前記混合物のスペクトルの中のどの属性が、前記特定の波長を有するかを同定するための手段と、
未知の化合物の前記混合物に対する濃度予測を生成するために、前記同定された属性を前記少なくとも1つの選択されたモデルに入力するための手段と、を備える。
【0034】
好ましくは、前記複数のモデルのうちの少なくとも1つを選択するための手段は、訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するための手段を備える。好ましくは、訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するための手段は、訓練セットを正しく分類する際のその正確性に基づいて、各モデルの適合性を計算するための手段と、それらの適合性に従ってモデルをランク付けするための手段と、最高ランクのモデルのうちの一定の割合を選択するための手段とを備える。
【0035】
各モデルの適合性を計算するための手段は、訓練セットの中の各スペクトルに対する正確性の値を割り当てるための手段と、モデルに対して整数の適合性値を提供するために、前記正確性の値の関連性を調べるための手段とをさらに備え得る。各モデルのクラス予測は、モデルの適合性値によって重み付けされ得る。システムは、選択されたモデルの重み付けされたクラス予測を合計するための手段をさらに備え得る。
【0036】
本発明の第6の局面に従って、その中の濃度を決定するために未知の化合物の混合物のスペクトルを定量化するためのシステムが提供され、そのシステムは、
複数のモデルを提供するための手段であって、各モデルは、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成する上述の方法(本発明の第1の局面による)を使用して生成される、手段と、
未知の化合物の前記混合物のスペクトルを定量化するために、前記複数のモデルのうちの少なくとも1つを選択するための手段であって、前記少なくとも1つのモデルは、前記訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、手段と、
未知の化合物の前記混合物のスペクトルのどの属性が、前記特定の波長を有するかを同定するための手段と、
未知の化合物の前記混合物に対する濃度予測を生成するために、前記同定された属性を、前記少なくとも1つの選択されたモデルに入力するための手段と、を備える。
【0037】
好ましくは、前記複数のモデルのうちの少なくとも1つを選択するための手段は、訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するための手段を備える。好ましくは、訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するための手段は、訓練セットを正しく定量化する際のその正確性に基づいて、各モデルの適合性を計算するための手段と、それらの適合性に従ってモデルをランク付けするための手段と、最高ランクのモデルのうちの一定の割合を選択するための手段とを備える。各モデルの適合性を計算するための手段は、好ましくは、訓練セットの各スペクトルに対する正確性の値を割り当てるための手段と、モデルに対して整数の適合性値を提供するために、前記正確性の値の関連性を調べるための手段とをさらに備える。未知の化合物の前記混合物に対する濃度予測を生成するための手段は、前記少なくとも1つの選択されたモデルのそれぞれからの濃度予測の平均を計算するための手段を備え得る。
【0038】
本発明は、さらに、標的材料の試験スペクトルを分類する方法を提供し、その方法は、
m個の変数/属性を有するn個の試料の訓練セットを提供するステップと、
すべてのn個の試料にわたり、各属性に対してモデルを構築するステップと、
最高ランクのモデルのうちの一定の割合のものが、標的材料の試験スペクトルのクラスについて投票できるようにするステップと、
各モデルの投票を、前記訓練セットにおけるその分類の正確性に基づいて重み付けするステップと、
前記最高ランクのモデルからの総意に基づいて、標的材料の組成を決定するステップと、を含む。
【0039】
方法は、さらに、訓練セットにおけるその分類性能に基づいて、構築された各モデルの適合性を計算するステップと、その適合性に従ってモデルをランク付けするステップと、を含み得る。
【0040】
各属性に対してモデルを構築するステップは、a)第1の訓練用スペクトルの中の各属性に対して訓練データを生成するステップと、b)訓練セットの中の各訓練用スペクトルに対してステップ(a)を繰り返すステップと、(c)各訓練用スペクトルから生成された訓練データを使用して各属性に対するモデルを構築するステップと、を含み得る。
【0041】
各属性の訓練データを生成するステップは、その値、その局面(その局面とは、周囲のスペクトルと関連するその位置である)、および、訓練用スペクトルのそのクラス値(存在/不在)を、計算するステップを含み得る。属性の局面を計算するステップは、属性の値と、少なくとも1つのその前または後の属性の値との間の、関係を計算するステップを含み得る。
【0042】
訓練セットにおけるその性能に基づいて各モデルの適合性を計算する方法は、訓練セットの各スペクトルに対して正確性の値を割り当てるステップと、モデルに対して整数の適合性の値を提供するために、aにおいて正確性について計算を行うステップとを含み得る。モデルの適合性を計算する代替の方法、またはモデルの能力を評価する他の方法が使用され得ることが、理解される。
【0043】
最高ランクのモデルのうちの一定の割合のものが、未知試料を予測できるようにするステップは、訓練用スペクトルの中のどの属性から、各モデルが構築されたかを決定するステップと、対応する属性および局面データを、試験スペクトルから最高ランクのモデルの各々に提供するステップと、未知のスペクトルに対して最高ランクのモデルの重み付けされた投票を使用するステップと、を含み得る。
【0044】
各モデルの投票をその適合性に基づいて重み付けするステップは、各モデルの投票に、分類におけるモデルの適合性の値を乗じるステップを含み得る。選択されたモデルの過半数の投票に基づいてデータを分類するステップは、次いで、選択されたモデルの重み付けされた投票を合計するステップを含み得る。標的材料の組成を決定するステップは、この決定に当たり、分類において最高の選択されたモデルの過半数の重み付けされた投票に依拠するステップをさらに含み得る。
【0045】
本発明は、さらに、標的材料の試験スペクトルを定量化する方法を提供し、その方法は、
m個の変数/属性を有するn個の試料の訓練セットを提供するステップと、
すべてのn個の試料にわたり、各属性に対してモデルを構築するステップと、
最高ランクのモデルのうちの一定の割合のものが、試験スペクトルにおける標的材料の濃度を予測できるようにするステップと、
前記最高ランクのモデルの平均予測に基づいて、標的材料の組成を決定するステップと、を含む。
【0046】
方法は、さらに、訓練セットにおけるその定量化性能に基づいて、構築された各モデルの適合性を計算するステップと、その適合性に従ってモデルをランク付けするステップとを含み得る。各属性に対してモデルを構築するステップは、第1の訓練用スペクトルの中の各属性に対して訓練データを生成するステップと、訓練セットの中の各訓練用スペクトルに対して、ステップa)を繰り返すステップと、各訓練用スペクトルから生成された訓練データを使用して各属性に対するモデルを構築するステップと、を含み得る。
【0047】
各属性の訓練データを生成するステップは、その値、その局面(その局面とは、周囲のスペクトルと関連するその位置である)、および、訓練用スペクトルのそのクラス値(濃度)を、計算するステップを含み得る。属性の局面を計算するステップは、属性の値と、少なくとも1つのその前または後の属性の値との間の、関係を計算するステップを含み得る。
【0048】
訓練セットにおけるその性能に基づいて各モデルの適合性を計算する方法は、訓練セットの中の各スペクトルに対して正確性の値を割り当てるステップと、モデルに対する整数の適合性の値を提供するために、a)において正確性について計算を行うステップとを含み得る。
【0049】
最高ランクのモデルのうちの一定の割合のものが、未知試料を予測できるようにするステップは、訓練用スペクトルの中のどの属性から、各モデルが構築されたかを決定するステップと、対応する属性および局面データを、試験スペクトルから最高ランクのモデルの各々に提供するステップと、未知のスペクトルに対して、最高ランクのモデルの平均を定量化に使用するステップと、を含み得る。最高ランクモデルの平均予測が、定量化に使用され得る。
【0050】
標的材料の組成を決定するステップは、この決定に当たって、定量化における平均予測に依拠するステップをさらに含み得る。
【0051】
本発明の任意の方法が、コンピュータ制御され得ることが理解される。したがって、本発明は、上述の本発明の任意の方法を実行するための、コンピュータ可読媒体上に記憶されたコンピュータ実行可能命令を有する、コンピュータ可読媒体をさらに提供する。
【0052】
本発明は、上述の本発明の任意の方法を実行するための、検出器上に記憶されたコンピュータ実行可能命令を有する、検出器をさらに提供する。検出器は、好ましくは、現場での使用のための携帯型であり、しかしながら、非携帯型の検出器が、代替案として提供され得る。単一の検出器が、上述の方法のすべてを実行可能であり得ることが理解される。
【0053】
本発明に従った検出器は、
上述の任意の方法を実行するために動作可能なプロセッサと、
少なくとも1つのモデルを記憶するための記憶デバイスと、
標的材料の少なくとも1つの試料を受けとるための手段と、
ユーザに出力を提供するための手段と、を備え得る。
【0054】
検出器は、標的材料の試験スペクトルを分類する上述の方法と、標的材料の試験スペクトルを定量化する上述の方法との、両方を実行するように動作可能であり得ることが理解される。検出器は、好ましくは、モデルの構築に使用するための訓練データを記憶するための手段をさらに備える。訓練データは、モデルが構築されるまで一時的にのみ記憶され得、その時点でそのモデルのみが記憶される。検出器は、記憶デバイスに記憶されたモデルを、更新されたモデルのような代替のモデルと置き換えるための手段をさらに備え得る。既存のモデルは、異なるデータまたはより広範囲なデータを使用して構築された別のモデルで更新され得ることが理解される。
【0055】
本発明は、任意の標準的分類または回帰手法と併用され得る、「スペクトル属性投票(Spectral Attribute Voting)」(SAV)と名付けたれたメタ学習「ラッパー(wrapper)」手法を提供する。
【0056】
本質的に、このシステムは、それがデータ分析のための既存の手法を修正し、いくつかの方法で既存の手法を改善するということに貢献する。本発明は、アンサンブルベースの分析方法において以前に行われたことのない、分析結果を可視化する新しい方法を提供する。材料の複数試料からのスペクトル分析(例えば、ラマン分光法または赤外分光法)から生成されたデータが与えられると、本発明の方法は、データの重要な局面のコンパクトな概要を生成し、その結果として、それは、分類、定量化、可視化などの目的のために効率的に使用され得る。
【0057】
本発明の利点は、分類/回帰プロセスにおいて最も大きな重要性が与えられた点が、その分野における専門家にとって有意義な方法で提示され、その結果として、専門家が、システムによって特定の決断がなされる理由に関する見識を得るという点である。それはまた、決定プロセスを検証するための方法を提供する。これは、ニューラルネットワーク(米国特許第5,946,640号)またはサポートベクタマシン(米国特許第6,427,141号)のような、分類プロセスを使用するこの分野における既存の特許に対する改良である。
【0058】
本発明の方法の第1段階は、データセットにおける各属性に対してモデルを構築することである。
【0059】
第1の属性に対する訓練データの生成は、以下のとおりである。第1の訓練用スペクトルを使用して、第1の属性に対して、属性の値および局面を用いて訓練データが生成され、ここで局面とは、周囲のスペクトルと関連するその位置である。第1の属性に対する局面データは、第1の属性の値と、第1の属性の前および後のいくつかの属性の値との間の、差として計算される。
【0060】
局面データは、訓練用スペクトルの、第1の属性の値および分類タスクのクラス値(存在/不在)、または定量化タスクの濃度と併せて使用され、第1の訓練用スペクトル上の第1の属性に対する訓練データを生成する。上記プロセスは、次いで、第2の、および後続の各訓練用スペクトルを使用して繰り返され、データセットの中の第1の属性に対するモデルを構築するための訓練データを生成する。上記の訓練データ生成プロセスが、第2の属性に対して繰り返され、訓練用スペクトルの第2の属性に基づいてモデルを生成する。訓練セットの中の属性の、それぞれまたは一部に対して、異なるモデルが構築される。
【0061】
第2段階は、各モデルの適合性(すなわち、どれ程よく学習したか)を計算し、それらの性能(それらの適合性)に基づいてすべてのモデルをランク付けする。
【0062】
(分類タスク)
第3段階は、未知試料のクラスについて投票するために、最も成績の良いモデルのうちの一定割合のものを選択することである。第4段階は、各モデルの投票を、訓練セットにおけるその分類の正確性によって重み付けすることである。各モデルの投票は、その適合性が乗じられる。選択された一定の割合のモデルの過半数の投票は、将来の試験試料の分類結果である。
【0063】
(定量化タスク)
第3段階は、最も成績の良いモデルのうちの一定割合のものを選択することである。選択された各モデルは、試験スペクトルの濃度を予測し、平均が、最終的なスペクトル属性投票結果である。
【0064】
ノイズおよび高次元性は、ラマン分光分類および定量化に対する2つの大きな障害である。SAVは、特徴の選択およびノイズの低減のために、系統的手順を使用する。SAVの大きな利点は、最終決定において重要な特徴が保持されるという点であり、これは、一方では依然として正確性を維持しつつ、スペクトル分類における解釈可能性の課題を克服する。
【0065】
本発明の実施形態が、添付の図面を参照しながら、単なる一例として説明される。
【図面の簡単な説明】
【0066】
【図1】図1は、1つの属性に対するモデルの生成の該略図である。
【図2】図2は、SAVアンサンブルの形成の該略図である。
【図3】図3は、システムを使用した新たなスペクトルの分類の該略図である。
【図4】図4は、Ripper(従来技術における分類アルゴリズム)で使用されるデータ点を示す、純粋な1,1,1−トリクロロエタンのラマンスペクトルである。
【図5】図5は、ANNで使用されるデータ点を示す、純粋なアセトンのラマンスペクトルである。
【図6】図6は、C4.5で使用されるデータ点を示す、純粋なアセトニトリルのラマンスペクトルである。
【図7】図7は、クロロホルムの定量化のためにk近傍法で使用されるデータ点を示す、20%クロロホルムと80%アセトンとの混合物試料のラマンスペクトルである。
【図8】図8は、本発明に従った、未知試料中の既知物質の存在を決定するためのシステムを表す図である。
【発明を実施するための形態】
【0067】
(図面の詳細な説明)
この説明は、本発明の1つの実施形態を反映する。しかしながら、性能、ランク、適合性、などを計算するその他の方法が、本発明の請求項に影響を与えることなく、置き換えられ得る。
【0068】
本発明は、機械学習モデルのアンサンブルを使用してスペクトルを分類する。データセットの中のいくつかの属性(スペクトルデータ点)に対してモデルが生成され、訓練データを最も良く分類または定量化するモデルが、検証試料を分類または定量化するために選択される。図1は、1つの属性に対するモデル生成の図表現を示す。モデルが構築される属性に対する訓練データは、訓練用スペクトルのそれぞれの中の属性の値および局面を使用して生成される。
【0069】
属性の局面が、所与のスペクトルに対して、スペクトルの中の属性の値と、その前および後のいくつかの属性の値との間の、差として計算される。(属性の正確な数は、アプリケーションに依存する。)スペクトルの中の属性の値、および訓練用スペクトルの中のクラス値(ラマンスペクトルデータの分類の場合は存在/不在、およびラマンスペクトルデータの定量化の場合は濃度)がまた、属性の訓練データを生成するために使用される。この手順は、訓練セットの中のすべてのスペクトルに対して繰り返され、その属性に対してモデルが生成される。
【0070】
これは、データセットの中の属性のすべてまたは一部に対し繰り返され、各属性またはある特定の属性に対する別個のモデルを生成する。これは図2に示されている。
【0071】
(分類タスク)
次いで、最も正確なモデルのうちの一定割合のものが、投票のために選択され、各モデルの投票は、訓練セットにおけるその分類の正確性によって重み付けされる。この選択された一定割合のものの過半数の投票は、将来の試験試料の分類結果である。
【0072】
分類にSAVが使用されるときには、属性(i)に基づく各分類モデル(M)の主要な目標は、当然ながら、すべての訓練用スペクトル(S)を正確に分類することができることである。したがって、モデルの適合性F(M(i))(例えば、パーセンテージで表される)は、訓練データに対する分類性能に関して定義される必要がある。これは、以下のように計算される。
【0073】
【数1】

ここで、ACC(M(i)(P))は、スペクトルS(p)に対するモデルM(i)の分類の正確性であり、nは、訓練件数である。かくして、正確に分類された各スペクトルに対してスコア1が与えられ、不正確に分類された各スペクトルに対してスコア0が与えられる。
【0074】
各モデルは適合性に基づいて区分され、最適モデルのうち一部のもの(アプリケーションに応じて)が、最終アンサンブルを形成する。
【0075】
式2が、試験スペクトルを分類するために使用される。
【0076】
【数2】

ここで、ACC(M(i)(i))は、モデルM(i)による試験スペクトルS(i)の分類であり、cは、投票するモデルの数である。標的検体が試験スペクトル中に存在するとして分類する各モデルに対して、Vote(M(i)(t))に1の値が与えられ、溶媒が不在であるとして分類する各モデルに対して、−1の値が与えられる。各モデルは、モデルが構築された属性および局面に対応する検証サンプルにおける属性の値および局面のみに基づいて、未知試料を予測することが留意されるべきである。各モデルの投票は、訓練用スペクトルに対するその性能によって重み付けされる。試験スペクトルの実際の分類は、以下のように行われる。
【0077】
【数3】

新しいスペクトルの分類のための手順は、図3に図式的に示されている。
【0078】
(定量化タスク)
定量化のためにSAVが使用される場合には、生成されたモデルの適合性F(M(i))は、以下のように記述され得る。
【0079】
【数4】

ここで、P(M(i)(P))は、訓練試料スペクトルpに対してモデルM(i)によって予測された値であり、T(S(P))は、訓練試料スペクトルpの目標値である。訓練が完了すると、それぞれの属性に対してモデルが生成されている。
【0080】
各モデルは適合性に基づいて区分され、最適モデルのうちの一部のもの(アプリケーションに応じて)が、最終アンサンブルを形成する。
【0081】
式5が、検証スペクトルを定量化するために使用される。
【0082】
【数5】

ここで、Conc(M(i)(t))は、モデルM(i)による試験スペクトルS()の定量化であり、cは、投票する最高モデルの数である。式5は、試験スペクトルに対するc個の最高モデルの平均予測である。
【0083】
(可視化の実証)
図4〜図7は、本発明のスペクトル属性投票の方法の可視化局面の実施例を示す。図4を参照すると、この実施例は、混合物中の塩素系溶媒を、そのラマンスペクトルから同定する際の、本発明の方法の使用を調査するものである。調査対象の塩素系溶媒は、1,1,1−トリクロロエタン、クロロホルム、およびジクロロメタンである。この実施例が基づいているデータセットは、種々の溶媒の混合物で構成される230スペクトルを含有していた。図4において、Ripperと呼ばれる機械学習方法を使用して、1,1,1−トリクロロエタンに対して本発明の方法によって選択された点は、主として、520cm−1の大きなピークおよび720cm−1のより小さなピークに集中する傾向がある。520cm−1バンドは、C−Cl伸縮振動であり、第一の識別要素であることが予想される。3000cm−1の大きなピークは、この領域がスペクトルのC−H結合領域に対応しており、溶媒はすべてC−H結合を含有するために、これは分類には比較的有用でないことから、概して無視される。また、720cm−1の小さなピークにおけるいくつかの点が、スペクトルを不正確に分類することは興味深い。
【0084】
ラマンスペクトルの分類のために、ML技術と併せて本発明の方法を使用することの利点をさらに実証するために、2種類の非塩素系溶媒、アセトンおよびアセトニトリルが調査された。
【0085】
図5は、純粋なアセトンのラマンスペクトルを示しており、アセトンの分類のために、ニューラルネットワークと併せたSAVによって、その構造および点が選択された。アセトンの1700cm−1付近のピークは、C=O官能基の存在に対応しており、これは、データセットの中のその他の溶媒のうちの2つのみ(酢酸エチルおよびジメチルホルムアミド)と共通している。
【0086】
同様に、アセトニトリルは、主に2255cm−1のピーク付近の点を使用して分類された(図6を参照)。これは、アセトニトリルの中の
【0087】
【数6】

結合の存在に対応しており、これは、その他の溶媒のいずれにも存在しないものである。アセトンおよびアセトニトリルの分類のために、本発明の方法によって使用されたすべての点は、純粋な溶媒を正確に分類した。
【0088】
本発明の方法は、定量化タスクに適用されたときに、ML技術の有効性を低下させず、また図7に示されるように、行われた決定をより良く理解するという利点を提供する。クロロホルムの定量化のために、属性投票でk近傍法によって選択された点は、C−Cl結合に対応するスペクトルの部分に集中しており、予想されるように、アセトンに特異的な790cm−1および1700cm−1のピークを無視している。
【0089】
図8は、本発明に従った、未知試料の中の既知物質の存在を決定するためのシステムを表した図である。既知物質の、例えばコカインの、調製試料2が、実験室分析4において使用され、試料スペクトル6の形態で訓練データを生成する。訓練データは、SAVモデルを構築する(8)ために使用される。未知試料10が提供されると、例えば取締担当官によって、現場でのスペクトル分析12が行われ、未知試料6のスペクトル14が生成される。次いで、SAVモデル16は、未知試料スペクトル14からスペクトルデータを提供され、何らかの既知物質(例えばコカイン)が未知試料の中に存在するかどうかを予測する。示された実施例では、決定ステップ12においてコカインが存在することが判明している。
【0090】
本発明は、スペクトル分析に特定して設計された、新規のアンサンブル技術を提供することが理解される。SAVの訓練ステップは、スペクトルの訓練セットにおけるいくつかのスペクトル波長に対する、別個の予測モデルの自動生成を含む(すべての訓練用スペクトルが同一セットの波長に揃えられていると仮定する)。予測ステップにおいて、未知スペクトルが各属性モデルによって評価される。すなわち各モデルが独立して投票し、その結果として、N個の予測のセットを得る(Nはスペクトル波長の数である)。これらのN個の予測は、特別な方法で結合され(訓練セットに対するモデルの適合性によって重み付けされ)、最終予測に達する。
【0091】
分類タスク(すなわち、カテゴリーを予測することを目的とするタスク)にSAVが適用されるときには、それぞれの別個の予測モデルがカテゴリーについて予測を行い、これらの予測のすべてが、重み付けプロセスにおいて結合され、最終予測に達する。
【0092】
複数の属性モデルのアンサンブルを使用することの1つの利点は、実験評価によって実証されたように、それが、より強固な性能へと導くということである。
【0093】
本発明のSAVアンサンブルにおけるN個のスペクトル属性モデルの使用の、別の重要な利点は、それが、特定の予測の課題に対して、各モデルの適合性に基づいて有用な可視化を生成することを示しているということである。そのような可視化は、特定の標的検体の同定/定量化にはどの波長が重要であるかを、専門家に知らせる。さらに、SAVは、(個々の予測モデルに基づいているために)特定の標的に対するスペクトルの波長にスコアを割り当てる新規の手法を表す。
【0094】
本発明に従ったSAVは、混合物の中の標的検体の分類と定量化との、両方に使用され得る。本発明は、スペクトルデータに基づいて、複合混合物の中の標的検体の特異的同定または定量化を可能とする。
【0095】
SAVは、多くの場合、ML技術の分類および回帰の正確性を改善し、分光分析に関連する機械学習決定プロセスの明確性を向上させた。これは、「ブラックボックス」技術による誤分類のトラブルシューティングが困難であるために、ML技術の現実世界での実用化において非常に重要である。本発明の方法は、人間と機械の両方の意見を考慮した決定を行うことを可能とし、また、選択された点は、その存在が調査されている化合物の化学構造と併せて考察されたときに、有益な情報を与える。
【0096】
本発明は、分光分析データ以外の他の種類のデータにも適用され得ることが理解される。その例は、一般には、音響データまたは地震データのような、単変数データシーケンスを含む。
【0097】
本発明に関して本明細書において使用されるときの、「備える/備えている」および「有する/含む」という語は、述べられた特徴、整数、ステップまたは構成要素の存在を規定するために使用されるが、1つ以上の他の特徴、整数、ステップ、構成要素またはそれらの群の存在または追加を除外するものではない。
【0098】
明確にするために、別個の実施形態の文脈の中で記述されている、本発明のある特定の特徴は、また、単一の実施形態の中で組み合わせて提供され得ることが理解される。反対に、簡潔にするために、単一の実施形態の文脈の中で記述されている、本発明の種々の特徴は、また、別個にまたは任意の適切な部分的組み合わせとして提供され得る。

【特許請求の範囲】
【請求項1】
スペクトルデータに基づいて複雑な混合物の中の標的検体の特異的同定または定量化を可能にするために、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成する方法であって、
訓練用スペクトルの訓練セットを提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、各々が、それぞれ異なる波長での複数のスペクトル属性を有する、ステップと、
複数の波長を選択するステップと、
該訓練セットの各訓練用スペクトルの中の各選択された波長で、少なくともスペクトル属性の値を決定するステップと、
該選択された波長での決定された属性値の関連性を調べることによって、各選択された波長に対するモデルを構築するステップと、
を包含する方法。
【請求項2】
前記訓練セットの各訓練用スペクトルの中の各選択された波長で、前記スペクトル属性の局面を決定するステップであって、各属性の局面は周囲のスペクトルと関連するその位置である、ステップと、
各モデルを構築するときに、各選択された波長での該決定された局面の関連性を調べるステップと、
をさらに包含する、請求項1に記載の方法。
【請求項3】
各属性の前記局面を決定する前記ステップは、該属性の値と、少なくとも1つの先行または後続属性の値との間の、値の差を計算するステップを包含する、請求項2に記載の方法。
【請求項4】
未知の化合物の混合物のスペクトルを分類する方法であって、
複数のモデルを提供するステップであって、各モデルは、請求項1に記載の方法を使用して生成される、ステップと、
それに基づきモデルが構築された前記訓練セットを、分類する際のその正確性に基づいて、各モデルの適合性を計算するステップと、
未知の化合物の前記混合物の前記スペクトルを分類するために、前記複数のモデルのうちの少なくとも1つを選択するステップであって、各モデルは、前記訓練セットの各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、ステップと、
未知の化合物の前記混合物の前記スペクトルにおけるどの属性が、前記特定の波長を有するかを同定するステップと、
未知の化合物の前記混合物に対するクラス予測を生成するために、前記同定された属性を、前記少なくとも1つの選択されたモデルに入力するステップと、
を包含する方法。
【請求項5】
前記複数のモデルのうちの少なくとも1つを選択する前記ステップは、前記訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するステップを包含する、請求項4に記載の方法。
【請求項6】
前記訓練セットを最も正確に分類した前記モデルのうちの一定の割合を選択する前記ステップは、
前記訓練セットを正しく分類する際のその正確性に基づいて、各モデルの適合性を計算するステップと、
それらの適合性に従って、該モデルをランク付けするステップと、
最高ランクのモデルのうちの一定の割合を選択するステップと、
を包含する、請求項5に記載の方法。
【請求項7】
各モデルの前記適合性を計算する前記方法は、
前記訓練セットの各スペクトルに対して正確性の値を割り当てるステップと、
該モデルに対して整数の適合性値を提供するために、該正確性の値の関連性を調べるステップと、
を包含する、請求項6に記載の方法。
【請求項8】
各モデルのクラス予測を、該モデルの適合性値によって重み付けするステップをさらに包含する、請求項4に記載の方法。
【請求項9】
前記選択されたモデルの前記重み付けされたクラス予測を合計するステップをさらに包含する、請求項4〜請求項8のうちのいずれか一項に記載の方法。
【請求項10】
その中の濃度を決定するために、未知の化合物の混合物のスペクトルを定量化する方法であって、
複数のモデルを提供するステップであって、各モデルは、請求項1に記載の方法を使用して生成される、ステップと、
未知の化合物の該混合物の該スペクトルを定量化するために、該複数のモデルのうちの少なくとも1つを選択するステップであって、該少なくとも1つのモデルは、前記訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、ステップと、
未知の化合物の該混合物の該スペクトルの中のどの属性が、該特定の波長を有するかを同定するステップと、
未知の化合物の該混合物に対する濃度予測を生成するために、該同定された属性を、該少なくとも1つの選択されたモデルに入力するステップと、
を包含する、方法。
【請求項11】
前記複数のモデルのうちの少なくとも1つを選択する前記ステップは、前記訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するステップを包含する、請求項10に記載の方法。
【請求項12】
前記訓練セットを最も正確に定量化した前記モデルのうちの一定の割合を選択する前記ステップは、
該訓練セットを正しく定量化する際のその正確性に基づいて、各モデルの適合性を計算するステップと、
それらの適合性に従って、該モデルをランク付けするステップと、
最高ランクのモデルのうちの一定の割合を選択するステップと、
を包含する、請求項11に記載の方法。
【請求項13】
各モデルの前記適合性を計算する前記方法は、
前記訓練セットの中の各スペクトルに対して正確性の値を割り当てるステップと、
該モデルに対して整数の適合性値を提供するために、前記正確性の値の関連性を調べるステップと、
を包含する、請求項12に記載の方法。
【請求項14】
未知の化合物の前記混合物に対する濃度予測を生成する前記ステップは、前記少なくとも1つの選択されたモデルの、それぞれからの該濃度予測の平均を計算するステップを包含する、請求項10〜請求項13のうちのいずれか一項に記載の方法。
【請求項15】
化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成するためのシステムであって、該システムは、
訓練用スペクトルの訓練セットを記憶するための記憶デバイスであって、各スペクトルは、既知の化合物の混合物を表し、かつ各々がそれぞれ異なる波長で複数のスペクトル属性を有する、記憶デバイスと、
プロセッサであって、
訓練用スペクトルの訓練セットを提供し、
複数の波長を選択し、
該訓練セットの各訓練用スペクトルの中の各選択された波長で、少なくともスペクトル属性の値を決定し、
該選択された波長での決定された属性値の関連性を調べることによって、各選択された波長に対するモデルを構築するために、
動作可能なプロセッサと、
を備える、システム。
【請求項16】
前記訓練セットの各訓練用スペクトルの中の各選択された波長で、前記スペクトル属性の局面を決定するための手段であって、各属性の該局面は、周囲のスペクトルと関連するその位置である、手段と、
各モデルを構築するときに、各選択された波長での該決定された局面の関連性を調べるための手段と、
をさらに備える、請求項15に記載のシステム。
【請求項17】
各属性の前記局面を決定するための前記手段は、該属性の値と、少なくとも1つの先行または後続属性の値との間の、値の差を計算するための手段を備える、請求項16に記載のシステム。
【請求項18】
未知の化合物の混合物のスペクトルを分類するためのシステムであって、
複数のモデルを提供するための手段であって、各モデルは、請求項1に記載の方法を使用して生成される、手段と、
それに基づいてモデルが構築された前記訓練セットを、分類する際のその正確性に基づいて、各モデルの適合性を計算するための手段と、
未知の化合物の該混合物のスペクトルを定量化するために、該複数のモデルのうちの少なくとも1つを選択するための手段であって、該少なくとも1つのモデルは、該訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、手段と、
未知の化合物の該混合物の前記スペクトルの中のどの属性が、該特定の波長を有するかを同定するための手段と、
未知の化合物の該混合物に対する濃度予測を生成するために、該同定された属性を、該少なくとも1つの選択されたモデルに入力するための手段と、
を備える、システム。
【請求項19】
前記複数のモデルのうちの少なくとも1つを選択するための前記手段は、前記訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するための手段を備える、請求項18に記載のシステム。
【請求項20】
前記訓練セットを最も正確に分類した前記モデルのうちの一定の割合を選択するための前記手段は、
該訓練セットを正しく分類する際のその正確性に基づいて、各モデルの適合性を計算するための手段と、
それらの適合性に従って、該モデルをランク付けするための手段と、
最高ランクのモデルのうちの一定の割合を選択するための手段と、
を備える、請求項19に記載のシステム。
【請求項21】
各モデルの前記適合性を計算するための前記手段は、
前記訓練セットの中の各スペクトルに対して正確性の値を割り当てるための手段と、
該モデルに対して整数の適合性値を提供するために、該正確性の値の関連性を調べるための手段と、
を備える、請求項20に記載のシステム。
【請求項22】
各モデルのクラス予測を、該モデルの適合性値によって重み付けするための手段をさらに備える、請求項21に記載のシステム。
【請求項23】
前記選択されたモデルの前記重み付けされたクラス予測を合計するための手段をさらに備える、請求項18〜請求項22のいずれか一項に記載のシステム。
【請求項24】
未知の化合物の混合物の中の濃度を決定するために、未知の化合物の混合物のスペクトルを定量化するためのシステムであって、該システムは、
複数のモデルを提供するための手段であって、各モデルは、請求項1に記載の方法を使用して生成される、手段と、
未知の化合物の該混合物のスペクトルを定量化するために、該複数のモデルのうちの少なくとも1つを選択するための手段であって、該少なくとも1つのモデルは、前記訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、手段と、
未知の化合物の該混合物のスペクトルの中のどの属性が、該特定の波長を有するかを同定するための手段と、
未知の化合物の該混合物に対する濃度予測を生成するために、該同定された属性を、該少なくとも1つの選択されたモデルに入力するための手段と、
を備える、システム。
【請求項25】
前記複数のモデルのうちの少なくとも1つを選択するための前記手段は、前記訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するための手段を備える、請求項24に記載のシステム。
【請求項26】
前記訓練セットを最も正確に定量化した前記モデルのうちの一定の割合を選択するための前記手段は、
該訓練セットを正しく定量化する際のその正確性に基づいて、各モデルの適合性を計算するための手段と、
それらの適合性に従って、該モデルをランク付けするための手段と、
最高ランクのモデルのうちの一定の割合を選択するための手段と、
を備える、請求項25に記載のシステム。
【請求項27】
各モデルの前記適合性を計算するための前記手段は、
前記訓練セットの中の各スペクトルに対して正確性の値を割り当てるための手段と、
該モデルに対して整数適合性値を提供するために、該正確性の値の関連性を調べるための手段と、
を備える、請求項26に記載のシステム。
【請求項28】
未知の化合物の前記混合物に対する濃度予測を生成するための前記手段は、前記少なくとも1つの選択されたモデルの、それぞれからの該濃度予測の平均を計算するための手段を備える、請求項24〜請求項27のうちのいずれか一項に記載のシステム。
【請求項29】
請求項1〜請求項14のうちのいずれか一項に記載の方法を実行するための、コンピュータ実行可能命令を記憶している、コンピュータ可読媒体。
【請求項30】
請求項4〜請求項14のうちのいずれか一項に記載の方法を実行するための、コンピュータ実行可能命令を記憶している、検出器。
【請求項31】
添付図面を参照して実質的に本明細書において記載されたような、モデルを生成する方法。
【請求項32】
添付図面を参照して実質的に本明細書において記載されたような、未知の化合物の混合物のスペクトルを分類する方法。
【請求項33】
添付図面を参照して実質的に本明細書において記載されたような、未知の化合物の混合物のスペクトルを定量化する方法。
【請求項34】
添付図面を参照して実質的に本明細書において記載されたような、モデルを生成するためのシステム。
【請求項35】
添付図面を参照して実質的に本明細書において記載されたような、未知の化合物の混合物のスペクトルを分類するためのシステム。
【請求項36】
添付図面を参照して実質的に本明細書において記載されたような、未知の化合物の混合物のスペクトルを定量化するためのシステム。
【請求項37】
添付図面を参照して実質的に本明細書において記載されたような、コンピュータ可読媒体。
【請求項38】
添付図面を参照して実質的に本明細書において記載されたような、検出器。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公表番号】特表2010−520471(P2010−520471A)
【公表日】平成22年6月10日(2010.6.10)
【国際特許分類】
【出願番号】特願2009−552205(P2009−552205)
【出願日】平成20年3月5日(2008.3.5)
【国際出願番号】PCT/EP2008/052695
【国際公開番号】WO2008/107465
【国際公開日】平成20年9月12日(2008.9.12)
【出願人】(509237767)ナショナル ユニバーシティー オブ アイルランド, ゴールウェイ (12)
【Fターム(参考)】