説明

相関する変数および畳み込みピークを識別する方法、およびシステム

畳み込みピークを識別するための方法について説明する。複数のスペクトルが入手される。多変量分析技法を使用して、複数のスペクトルから複数の群にデータ点を割り当てる。ピークは、複数のスペクトルから選択される。ピークが、複数の群のうちの2つ以上に割り当てられるデータ点を含む場合、ピークは、畳み込みピークとして識別される。主成分分析は、データ点の割り当てに使用される1つの多変量分析技法である。主成分の数が選択される。部分集合主成分空間が形成される。部分集合主成分空間におけるデータ点が選択される。ベクトルは、部分集合主成分空間の原点からデータ点に延長される。ベクトルの周囲における空間角度内における1つ以上のデータ点は、群に割り当てられる。

【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の引用)
本願は、米国特許出願第12/200,636号(2008年8月28日出願)および米国仮特許出願第61/057,719号(2008年5月30日出願)の利益を主張する。本願は、また、米国特許出願第11/848,717号(2007年8月31日出願)の利益も主張する。上記全ての出願は、その全体が参照により本明細書に援用される。
【背景技術】
【0002】
本教示は、相関する変数を判断および解釈するためのデータ分析に使用可能である。例えば、多変量統計解析は、バイオマーカー発見および代謝学において使用する質量分析(MS)データに適用可能である。MSは、何百または何千もの変数を生成し得、その多くは相関しており、これが分析を複雑化している。主成分分析(PCA)前に相関する変数を除去することが一般的であるが、その識別は、質量スペクトルデータの解釈において有用であり、その理由は、相関するピークが、予測不可能な断片であり得るからか、または同位体、付加体、および異なる荷電状態を含むがこれらに限定されない既知の原因を有し得るからである。予測不可能な断片を認識することによって、スペクトルを生成した化合物の識別に役立てることが可能である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
データ点のスペクトルのピークは、単一の成分または2つ以上の成分の結果であり得る。スペクトルは、例えば、サンプルの質量スペクトルであり得る。質量スペクトルのピークの成分は、例えば、サンプルの2つ以上の化合物を含み得る。ピークが2つ以上の成分の結果である場合、そのピークを畳み込みピークと呼ぶことが可能である。ピークが畳み込みピークであるか否かを判断することは、困難であり得る。畳み込みピークは、単一のピークとして、または2つ以上の重なりピークとしてスペクトルに出現し得る。
【課題を解決するための手段】
【0004】
当業者は、以下に説明する図面が例証目的のみのものであることを理解するであろう。図面は、本教示の範囲を決して制限することを意図しない。
【図面の簡単な説明】
【0005】
【図1】図1は、本教示の実施形態が実装され得るコンピュータシステムを示すブロック図である。
【図2】図2は、本教示に一致する、複数のサンプルからの複数の変数のPCAの後に相関する変数を識別するためのコンピュータにより実装される方法を示す例示的フローチャートである。
【図3】図3は、本教示に従う、1つ以上の変数の集合が、選択された変数の空間角度内においていかに探索可能であるかを示す例示的な図である。
【図4】図4は、本教示に一致する測定技法により生成される複数のサンプルからの複数の変数のPCAの後に変数をグループ化するためのコンピューティングシステムを示す例示的な略図である。
【図5】図5は、n次元空間におけるデータの処理に使用可能であり、かつ本教示に一致するコンピュータにより実装される方法を示す例示的フローチャートである。
【図6】図6は、本教示に従う、ソフトウェアツールが変数グループ化を実行するための、ユーザインターフェースの例示的な画像である。
【図7】図7は、本教示に従う、パレートスケーリングおよびPCAの後に入手したMSスペクトルデータの2つの主成分(PC)の例示的得点プロットである。
【図8】図8は、本教示に従う、パレートスケーリングおよびPCAの後に入手したMSスペクトルデータの2つのPCの例示的負荷量プロットである。
【図9】図9は、本教示に従う、パレートスケーリングおよびPCAの後に入手したMSスペクトルデータからのいくつかの代表変数の例示的プロファイルプロットである
【図10】図10は、本教示に従う、畳み込みピークを識別するための方法を示すフローチャートである。
【図11】図11は、本教示に従う、スペクトルからの畳み込みピークの例示的プロットである。
【図12】図12は、本教示に従う、第1の群の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロットである。
【図13】図13は、本教示に従う、第2の群の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロットである。
【図14】図14は、本教示に従う、第3の群の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロットである。
【図15】図15は、本教示に従う、畳み込みピークを識別するためのシステムの略図である。
【発明を実施するための形態】
【0006】
本教示の1つ以上の実施形態について詳述する前に、当業者は、本教示が、その用途において、以下の詳細な説明に記載され、かつ図面に図示される構築の詳細、構成要素の構成、およびステップの構成に限定されないことを理解するであろう。また、本明細書において使用する表現および専門用語が説明目的のものであり、限定的なものとして見なすべきではないことも理解されたい。
【0007】
(コンピュータにより実装されるシステム)
図1は、本教示の実施形態が実装され得るコンピュータシステム100を例証するブロック図である。コンピュータシステム100は、バス102または情報を通信するための他の通信機構と、情報を処理するためのバス102に連結されるプロセッサ104とを含む。また、コンピュータシステム100は、ランダムアクセスメモリ(RAM)または他の動的記憶装置であり得るメモリ106であって、ベースコールを判断するためのバス102に連結されるメモリ106と、プロセッサ104が実行する命令とを含む。また、メモリ106は、プロセッサ104が実行する命令の実行中に一時変数または他の中間情報を格納するため使用され得る。さらに、コンピュータシステム100は、静的情報およびプロセッサ104のための命令を格納するための、バス102に連結される読み取り専用メモリ(ROM)108または他の静的記憶装置を含む。磁気ディスクまたは光ディスク等の記憶装置110は、情報および命令を格納するためにバス102に提供および連結される。
【0008】
コンピュータシステム100は、コンピュータユーザに情報を表示するための陰極線管(CRT)または液晶ディスプレイ(LCD)等のディスプレイ112に、バス102を介して連結され得る。アルファベットキーおよび他のキーを含む入力機器114は、情報選択およびコマンド選択をプロセッサ104に通信するためにバス102に連結される。別の型のユーザ入力機器として、情報選択およびコマンド選択をプロセッサ104に通信するため、およびディスプレイ112上のカーソル移動を制御するためのマウス、トラックボール、またはカーソル方向キーが挙げられる。この入力機器は、典型的には、平面における位置を機器が特定することを可能にする第1の軸(すなわち、x)および第2の軸(すなわち、y)の2つの軸において2つの自由度を有する。
【0009】
コンピュータシステム100は、本教示を実行することが可能である。本教示の特定の実装に一致して、メモリ106に含まれる1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ104に応答して、コンピュータシステム100により結果が提供される。このような命令は、記憶装置110等の別のコンピュータ可読媒体からメモリ106に読み込まれ得る。メモリ106に含まれる命令のシーケンスの実行により、プロセッサ104は、本明細書に説明するプロセスを実行する。代替として、本教示を実装するために、ソフトウェア命令の代わりに、またはそれと組み合わせて配線接続回路を使用し得る。したがって、本教示の実装は、ハードウェア回路およびソフトウェアの任意の特定の組み合わせに限定されない。
【0010】
本明細書において使用する際、用語の「コンピュータ可読媒体」は、実行するために命令をプロセッサ104に提供することに関与する任意の媒体をいう。このような媒体は、不揮発性媒体、揮発性媒体、伝送媒体を含むがこれらに限定されない多数の形式をとり得る。不揮発性媒体は、例えば、記憶装置110等の光ディスクまたは磁気ディスクを含む。揮発性媒体は、メモリ106等の動的メモリを含む。伝送媒体は、同軸ケーブル、銅線、および光ファイバーを含み、バス102を備えるワイヤを含む。また、伝送媒体は、電波および赤外線データ通信中に生成される波等の音波または光波の形式をとることも可能である。
【0011】
コンピュータ可読媒体の一般的な形式には、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープもしくは任意の他の磁気媒体、CD−ROM、任意の他の光媒体、パンチカード、穿孔テープ、孔のパターンを含む任意の他の物理媒体、RAM、PRO、およびEPROM、FLASH−EPROM、任意の他のメモリチップもしくはカートリッジ、以下に説明する搬送波、またはコンピュータがそこから読み取り可能な任意の他の媒体が含まれる。
【0012】
種々の形式のコンピュータ可読媒体は、実行するために、1つ以上の命令の1つ以上のシーケンスをプロセッサ104に搬送することに関与し得る。例えば、命令は、初めに、遠隔コンピュータの磁気ディスク上において搬送され得る。遠隔コンピュータは、命令をその動的メモリにロードし、モデムを使用して電話線上で命令を送信する。コンピュータシステム100にローカルなモデムは、電話線上でデータを受信し、データを赤外線信号に変換するために赤外線送信機を使用することが可能である。バス102に連結される赤外線検出器は、赤外線信号において搬送されるデータを受信し、データをバス102上に置くことが可能である。バス102は、データをメモリ106に搬送し、プロセッサ104は、メモリ106から命令を読み出して実行する。メモリ106から受信した命令は、プロセッサ104による実行前または実行後のいずれかに、記憶装置110に格納され得る。
【0013】
種々の実施形態によると、方法を実行するためにプロセッサにより実行されるように構成される命令は、コンピュータ可読媒体上に格納される。コンピュータ可読媒体は、デジタル情報を格納する機器であり得る。例えば、コンピュータ可読媒体は、ソフトウェアの格納のための当技術分野において既知であるように、コンパクトディスク読み取り専用メモリ(CD−ROM)を含む。コンピュータ可読媒体は、実行されるように構成される命令の実行に適切なプロセッサによってアクセスされる。
【0014】
本教示の種々の実装に関する以下の説明は、例証および説明の目的のために提示されている。これは、包括的ではなく、開示する正確な形式に本教示を限定しない。修正および変形は、上記教示を考慮して可能であるか、または本教示の実施により入手され得る。さらに、説明する実装は、ソフトウェアを含むが、本教示は、ハードウェアおよびソフトウェアの組み合わせとして、またはハードウェア単独で実装され得る。本教示はオブジェクト指向および非オブジェクト指向のプログラミングシステムとともに実装され得る。
【0015】
(PCA)
主成分分析(PCA)は、データの視覚化および分類に役立てるために広く使用される多変量分析(MVA)ツールである。PCAは、多次元データ集合の次元性を低下させるとともに、その分散に最も寄与するデータ集合の特徴を保持するために使用され得る統計的技法である。このため、しばしばPCAを使用して、線形判別分析(LDA)等の高次元性データに十分対処しない技法のデータを事前処理する。
【0016】
PCAによって、元の集合における情報の大部分を代表する主成分(PC)変数の実質的により小さい集合への変数の元の集合の固有ベクトル変換を使用して、多数の相互関連する変数の次元性を低下させることが可能である。変数の新しい集合は、最初のいくつかが、元の変数の全てに存在する変動の大部分を保持するように順序付けられる。より具体的には、各PCは、全ての元の測定変数の線形結合である。第1のPCは、観測変数の最大分散の方向におけるベクトルである。後続のPCは、測定データの最大変動を代表するように、かつ前に計算されたPCに直交するように選択される。ゆえに、PCは、重要度の降順に配置される。PCAにより抽出されたPCの数(n)は、サンプル数または変数の数の小さい方を上回ることが不可能である。しかしながら、変数の多くは、データ集合における雑音に対応し、有用な情報を含まない。
【0017】
PCAは、データを行列(以下、「入力行列」と呼ぶ)の形式で提示することを必要とし、この場合、例えば、行はサンプルを表し、列は変数を表し、入力行列の要素またはセルは、特定のサンプルにおけるその変数の量を標示する。代替として、入力行列は、変数を表す行、サンプルを表す列、および特定のサンプルにおいてその変数の量を表す要素を含み得る。後者の場合、負荷量プロットに適用するように説明される処理は、代わりに得点プロットに適用される。入力行列は、一連の得点ベクトルおよび負荷量ベクトルに分解可能である。負荷量ベクトルは、各変数の特定のPCへの寄与を標示する。得点ベクトルは、特定のサンプルにおける各成分の量の尺度である。
【0018】
得点プロットおよび負荷量プロットは、2つ以上のPCを軸が表現する場合に表示可能であり、サンプルは、その得点に従って配置され、変数は、負荷量に従って配置される。得点は、サンプルに存在する各PCの量を反映し、負荷量は、各変数のPCに対する重要性を標示する。
【0019】
PCAは、任意のサンプル群に関する知識を必要としない教師なし技法であるが、この情報は、頻繁に入手可能であり、得点プロットの解釈に役立つ。サンプル群に関する知識は、例えば、期待された方式でサンプルが分離するか否かを判断するのに役立てることが可能である。得点プロットとは対照的に、負荷量プロットは、特に多数の変数が存在し、かつ支配的なものが無い場合、または強度の影響の除去のためにデータが自動スケーリングされた場合に、解釈するのが極めて困難であり得る。
【0020】
PCAの前に相関する変数を除去することが一般的であるが、その識別を、さらなる解釈に役立てることが可能である。例えば、質量スペクトルデータでは、相関するピークは、予測不可能な断片であるか、または同位体、付加体、および異なる荷電状態を含むがこれらに限定されない既知の原因を有し得る。予測不可能な断片を認識することによって、スペクトルを生成した化合物の識別に役立てることが可能である。したがって、これによって、相関する特徴を発見するために負荷量プロットを解釈することが可能になるため、PCAの実行前に相関する変数を除去するのではなく、生データから抽出された全変数を保持することが有益であり得る。本質的に、PCAは、サンプルを分離およびグループ化するために変数を使用するが、変数を分離およびクラスタ化するためにもサンプルを使用する。相関する変数が識別されると、例えば、相関する変数の集合をいくつかの群代表に置換することを含む多数の方式で相関する変数を簡略化することが可能であり、群代表には、相関する変数のうちの最も強力な変数、相関する変数の平均強度を有する変数、または相関する変数の和が含まれるがこれらに限定されない。
【0021】
(データ処理の方法)
図2は、本教示に一致する、複数のサンプルからの複数の変数のPCAの後に相関する変数を識別するためのコンピュータにより実装される方法200を示す例示的フローチャートである。
【0022】
方法200のステップ210では、PCAにより生成されるPCの数が選択される。選択されるPCの数は、例えば、PCAにより生成されるPCの全数よりも少ない。種々の実施形態では、選択されるPCの数は、全分散の指定割合を代表する最小数である。
【0023】
ステップ220において、選択されたPCの数を有する部分集合PC空間が形成される。
【0024】
ステップ230において、変数が、部分集合PC空間において選択される。選択される変数は、例えば、原点から最も遠い変数である。
【0025】
ステップ240において、部分集合PC空間の原点から、選択された変数まで延びるベクトルの周囲の空間角度が規定される。
【0026】
ステップ250において、部分集合PC空間における1つ以上の変数の集合が、ベクトルの空間角度内において選択される。種々の実施形態では、集合内の1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は第1の集合に選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。
【0027】
ステップ260において、集合が最小数の変数を含む場合、集合は群に割り当てられる。群は、例えば、相関する変数を識別する。変数の最小数は、例えば、群が含むと期待される相関する変数の数である。変数の最小数は、例えば、1または1を上回る数であり得る。
【0028】
種々の実施形態では、方法200は、また、群から第2のベクトルを計算するステップと、第2のベクトルの空間角度内において1つ以上の変数の第2の集合を選択するステップと、第2の集合が最小数の変数を含む場合、群の変数を第2の集合の変数と置換するステップとを含み得る。第2のベクトルの空間角度は、ステップ240において規定される空間角度と同一であり得るか、または第2のベクトルの空間角度は、ステップ240において規定される空間角度とは異なる空間であり得る。第2のベクトルは、群における変数の任意の線形または線形結合であり得る。例えば、第2のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態では、第2の集合内における1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は第2の集合に選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。
【0029】
種々の実施形態では、方法200は、識別される各群に異なる記号を割り当てるステップも含み得る。次いで、これらの記号を使用して、負荷量データを可視化および解釈することが可能である。
【0030】
種々の実施形態では、方法200は、群に反相関する変数の集合を割り当てるステップも含み得る。これは、部分集合PC空間の原点の反対側においてベクトルを含む線を延ばすステップと、原点の反対側における線の空間角度内における1つ以上の変数の第2の集合を選択するステップと、集合および第2の集合が最小数の変数を含む場合、第2の集合を群に付加するステップとを含む。種々の実施形態では、第2の集合内における1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は第2の集合に選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。
【0031】
種々の実施形態では、方法200は、また、さらなる分析から集合を除去するステップと、PC空間において第2の変数を選択するステップと、部分集合PC空間の原点から第2の変数に延びる第2のベクトルの空間角度内における1つ以上の変数の第2の集合を選択するステップと、第2の集合が最小数の変数を含む場合、第2の集合を第2の群の変数に割り当てるステップとを含み得る。第2の群は、相関する変数も識別する。変数の最小数は、例えば、1または1を上回る数であり得る。第2の変数は、例えば、部分集合PC空間の原点から最も遠くにある割り当てられていない変数であり得る。
【0032】
種々の実施形態では、方法200は、また、第2の群から第3のベクトルを計算するステップと、第3のベクトルの空間角度内における1つ以上の変数の第3の集合を選択するステップと、第3の集合が最小数の変数を含む場合、第2の群の変数を第3の集合の変数と置換するステップとを含み得る。第2の群の変数は、例えば、第2の集合から割り当てられる。第3のベクトルは、第2の群における変数の任意の線形または線形結合であり得る。例えば、第3のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態では、閾値未満の有意値を有する第3の集合内における1つ以上の変数は、選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。視覚化目的および解釈目的のために、第2の異なる記号を第2の群に割り当て得る。
【0033】
種々の実施形態では、方法200は、第2の群に反相関する変数の集合を割り当てるステップも含み得る。これは、原点の反対側に第2のベクトルを含む線を延ばすステップと、原点の反対側における線の空間角度内における1つ以上の変数の第3の集合を選択するステップと、集合および第3の集合が最小数の変数を含む場合、第3の集合を第2の群に付加するステップとを含む。変数の最小数は、例えば、1または1を上回る数であり得る。種々の実施形態では、第3の集合内における1つ以上の変数が閾値未満の原点からの距離を有する場合、1つ以上の変数は選択されない。閾値は、例えば、最小距離パラメータである。
【0034】
種々の実施形態では、方法200は、割り当てられた群をソートするステップも含み得る。ソートするステップは、例えば、各群における原点からの最大距離によって実行可能である。
【0035】
種々の実施形態では、方法200は、また、ステップ260において群に割り当てられた変数をさらなる分析から除去するステップと、さらなる分析から最後に割り当てられた群の変数を除去するステップを繰り返すステップと、部分集合PC空間において新しい変数を選択するステップと、原点から新しい変数に延びる新しいベクトルの空間角度内における1つ以上の変数の新しい集合を選択するステップと、新しい集合が最小数の変数を含む場合、新しい集合を新しい群に割り当てるステップと、群に割り当てられない残りの変数が閾値を上回らなくなるまでさらなる分析から新しい群の変数を除去するステップとを含み得る。閾値は、例えば、原点からの距離であり得る。これらのステップを繰り返すことによって、例えば、相関する変数の複数の群が生成される。
【0036】
上述のように、多数の変数および比較的少ないサンプルを有するデータにPCAを適用することが可能である(本データは、高次元性を有すると言われる)。他の分析技法は、サンプルの数が変数の数を上回るデータを必要とする。これらの他の分析技法の例として、線形判別分析(LDA)および独立成分分析(ICA)が挙げられるがこれらに限定されない。ゆえに、PCAを使用して、LDAおよびICA等の他の分析技法において使用するために、データの次元性を低下させることが可能である。低下した次元は、群のPCまたは群代表であり得る。群が元の変数の解釈可能な組み合わせであるため、群代表を使用することが好ましい。
【0037】
種々の実施形態では、方法200は、また、群代表を群に割り当てるステップと、群代表および複数のサンプルを、後続の分析技法への入力として使用するステップとを含み得る。群代表には、群の最も強力な変数、群の平均強度を有する変数、または群の変数の和を含め得るが、これらに限定されない。後続の分析技法には、クラスタリング技法またはパターン認識技法を含め得るが、これらに限定されない。後続の分析技法には、LDAまたはICAを含め得るが、これらに限定されない。
【0038】
種々の実施形態では、方法200は、また、後続の分析技法への入力のための新しい変数を生成するために群代表を処理するステップも含み得る。後続の分析技法には、LDA、ICA、またはPCAを含め得るが、これらに限定されない。群代表を処理するステップには、例えば、群代表および少なくとも1つの他の群代表の非線形結合を生成するステップを含め得るが、これに限定されない。例えば、新しい変数は、群代表および別の群代表の比率であり得る。
【0039】
本教示の種々の実施形態では、例えば、高強度変数が分析を支配しないように、PCA処理の前にデータスケーリングが実行される。スケーリング技法の1つとして、まず変数の全ての値の平均を減算し(すなわち、平均中心化)、次いで変数の分散で割ることによって変数毎の値を処理する自動スケーリングが挙げられる。自動スケーリングは、全ての変数を同等に重み付けし、変数に関連性が無く、かつ大幅に異なるスケールを有し得る場合に適切である。しかしながら、変数が全て同一の種類であり(すなわち、質量スペクトルピークまたはクロマトグラフピーク)、変数が強力なほど有意であり、雑音である可能性が低い場合、パレートスケーリングが、より有利であり得る。パレートスケーリングでは、平均中心化値は、分散の平方根で割られる。パレートスケーリングは、元の強度寄与を低減するが排除せず、負荷量プロットの解釈に役立つ。
【0040】
図3は、本教示に従う、1つ以上の変数340の集合を、選択された変数360の空間角度350内においていかに探索可能であるかを示す例示的な図300である。図3に示す3次元PC空間は、PC、PC1 310、PC2 320、およびPC3 330を含む。変数360は、この3次元PC空間において選択される。空間角度350は、原点から選択された変数360へ延びるベクトルの周囲に規定される。空間角度350内に探索される1つ以上の変数は、1つ以上の変数340の集合として選択される。
【0041】
図4は、本教示に一致する測定技法により生成される複数のサンプルからの複数の変数のPCAの後に変数をグループ化するためのコンピューティングシステム400を示す例示的な略図である。コンピューティングシステム400は、グループ化モジュール410を含む。グループ化モジュール410は、PCAにより生成されるPCの数を選択し、その数のPCを有する部分集合PC空間を形成し、変数を選択し、原点から変数に延びるベクトルの周囲に空間角度を規定し、ベクトルの空間角度内における1つ以上の変数の集合を選択し、集合が最小数の変数を含む場合、集合を群に割り当てる。群モジュール410は、例えば、プロセッサである。
【0042】
コンピューティングシステム400の種々の実施形態では、複数の変数は、サンプルの成分当たりに複数の変数を生成する測定技法を使用して生成可能され得る。複数の変数は、例えば、図15に示す測定機器を使用して生成される。測定機器には、分光計または質量分析計を含め得るが、これらに限定されない。測定技法には、核磁気共鳴、赤外分光法、近赤外分光法、紫外分光法、ラマン分光法、または質量分析を含め得るが、これらに限定されない。種々の実施形態では、複数の変数は、別々の技法と組み合わせたサンプルの成分当たりに複数の変数を生成する測定技法を使用して生成可能され得る。別々の技法には、液体クロマトグラフィ、ガスクロマトグラフィ、またはキャピラリー電気泳動を含め得るが、これらに限定されない。
【0043】
種々の実施形態では、グループ化モジュール410は、PC空間において第2の変数を選択し、原点から第2の変数に延びる第2のベクトルの空間角度内において1つ以上の変数の第2の集合を選択し、第2の集合が最小数の変数を含む場合、第2の集合を第2の群の変数に割り当てることも可能である。
【0044】
本教示に一致する別のコンピュータにより実装される方法について以下に概説する。
1.パレートスケーリングを使用して全変数においてPCAを実行する。
2.使用するPCの数(m)を判断する。抽出された全n個のPCを使用することによって、元のデータが厳密に再現される。しかしながら、これらのPCの多くは、データにおける雑音変動を代表し、情報を損失せずに無視することが可能である。m個のPCを効果的に選択することによって、データを平滑化することが可能である。各変数は、このm次元空間においてベクトルによって代表される。
3.原点から最も遠い変数に対応する標的ベクトル(t)を判断する。これを効果的にするために、自動スケーリングは使用しない。自動スケーリングは、小雑音ピークを含む全変数を同等に重み付けするため望ましくない。
4.このベクトルの周囲に空間角度(α)を規定し、その角度内にある他のデータ点(ベクトル)を探索し、任意により、低強度変数を無視する。第2のベクトルがxである場合、xと対象ベクトルとの間の角度(θ)は、以下から探索可能である。
x.t=|x||t|cos(θ)
5.選択された全ベクトルの平均を計算し、新しい平均ベクトルを使用してステップ3を繰り返し、選択された全変数を群に割り当てる。このような「再中心化」は、空間角度の配向を微調整し、ある方式において最も強力な変数が異型である場合に効果的であり得る。例えば、プロファイルは、ピークが最も集中されたサンプルにおいて飽和する場合に歪み得る。パレートスケーリングを使用しているため、平均ベクトルを計算することによっても、イオンの強度が小さいほど、結果に及ぼす影響が小さくなる。
6.ステップ3からプロセスを繰り返し、強度が十分である残りの変数が無くなるまで、先行してグループ化された変数を無視する。
【0045】
図5は、n次元空間におけるデータの処理に使用可能であり、かつ本教示に一致するコンピュータにより実装される方法500を示す例示的フローチャートである。
【0046】
方法500のステップ510において、PCAが全変数に実行され、PCの指定の部分集合が使用される。
【0047】
ステップ520において、低有意性の変数が除去される。選択されたスケーリングおよびPCA有意性特性に関して低有意性を有する変数をフィルタにかけて除去するステップは、任意である。同一の効果は、変数のグループ化の後にステップを付加することによって、および異なる有意性基準を使用することによって達成可能である。使用可能である別の有意性基準は、例えば、光学的コントラストである。
【0048】
ステップ530において、原点から最も遠い割り当てられていない変数のベクトルが探索される。
【0049】
ステップ540において、ベクトルの空間角度内における全ベクトルが探索される。
【0050】
ステップ550において、ベクトルの空間角度内におけるベクトルの平均が探索される。
【0051】
ステップ560において、平均の空間角度内における全ての割り当てられていない変数が探索され、群に割り当てられる。次いで、群に割り当てられた変数は、処理から除去される。
【0052】
ステップ570において、処理する任意の変数が残っている場合、方法500は、ステップ530に戻る。処理する変数が残っていない場合、方法500は終了する。
【0053】
本処理の結果は、さらに解釈可能である相関する変数の多数の群であるか、または後続の分析技法への入力として使用可能である群代表である。視覚化目的のために、記号を群に割り当てることによって、負荷量プロットにおいてグループ化された変数を識別することが有用である。解釈は、群の全メンバーの強度またはプロファイルを生成することによって支援され得る。
【0054】
以下の例を考慮して本教示の側面についてさらに理解することができるが、以下の例は、本教示の内容を限定するものとして決して解釈されるべきではない。
【0055】
(ソフトウェアの例)
図6は、本教示に従う、ソフトウェアツールが変数グループ化を実行するための、ユーザインターフェース600の例示的な画像である。ユーザインターフェース600およびソフトウェアツールは、既存の視認プログラムとともに使用することが可能である。既存の視認プログラムの1つに、例えば、Applied Biosystems/MDS SciexからのMARKERVIEWTMが挙げられる。
【0056】
ソフトウェアツールは、既存の視認プログラムの実行中や、いくつかのデータを処理して得点プロットおよび負荷量プロットを生成した後に実行可能である。開始すると、ソフトウェアツールは、視認プログラムに問い合わせを行ない、負荷量データを入手することが可能である。処理の後、ソフトウェアツールは、データ点に記号が割り当て可能になるように、視認プログラムの負荷量テーブルにおける「群」列を設定することが可能である。
【0057】
PCの数は、3つの方式で選択可能である。1つ目の方式では、PCの数は、選択610を選ぶことによって、負荷量プロットにおいて表示中のPCに基づくことが可能である。2つ目の方式では、特定の数のPCは、選択620を使用して入力可能である。3つ目の方式では、ソフトウェアツールが、選択630を使用して、所与の量の分散を説明するPCの数を選択することが可能である。所与の量の分散を説明するPCの数を選択することによって、無視する雑音量の何らかの制御が可能になる。
【0058】
ユーザインターフェース600のフィールド640では、ユーザは、空間角度パラメータを入力することが可能である。フィールド650では、ユーザは、最小強度または原点からの最小距離のパラメータを入力することが可能である。必要に応じて、ユーザインターフェース600上の「小値の排除」ボタン660を使用して、原点からの最小距離のパラメータ未満の変数を、任意の後続分析に使用しないように除去するようにマークを付けることが可能である。
【0059】
ユーザインターフェース600からの選択665を使用して、自動グループ化または手動グループ化を選択することが可能である。手動の場合、ユーザは、負荷量プロットの対象の変数を選択することが可能であり、ソフトウェアツールは、開始点としてその変数を使用して、単一の群を抽出する。ユーザインターフェース600上の選択665を使用して自動処理を選択することによって、ユーザは、群を開始するためのフィールド670において追加の閾値を入力することが可能になり、これは、より大きい変数を含む群に割り当てられる場合に、小さい変数を考慮することが可能であるが、小さい変数を新しい群の開始に使用不可能であることを意味する。また、ユーザインターフェース600は、群が最小数の変数を含むことを必要とするフィールド675も含み得る。フィールド675は、データが多数の相関する変数を含むと考えられる場合に使用可能である。
【0060】
前述のように、相関する変数は、実質的に同一の直線上にあり、負荷量プロットの原点の同一側にある。ソフトウェアツールは、任意により、同一の群に、原点の反対側における線の延長に近接する変数を含め得る。これらの変数は、反相関する。相関群および反相関群を含めることは、ユーザインターフェース600からの選択680を使用して選択可能である。
【0061】
最後に、ユーザインターフェース600の選択685を使用して、ユーザは、割り当てられた群を、例えば、開始変数の強度に基づいて、または第1の変数に対するm次元空間における近接性に基づいてソートさせるように選択することが可能である。
【0062】
ユーザインターフェース600は、PCの数の選択に関する3つの方式(すなわち、選択610、620、および630)を示すが、ソフトウェアツールは、有意の数を判断するために、任意の既知のアルゴリズムを使用することが可能である。実際は、本教示に説明する手法は、使用するPCおよび群の数を繰り返して判断するために使用可能である。典型的には、PCの数の増加は、PCが、群の数を急増させ得る雑音に大部分が起因するまでほとんど影響を及ぼさない。結果として、使用するPCの数は、群の数を急増させる値未満の値に限定され得る。
【0063】
(データの例)
本教示の種々の実施形態では、PC負荷量を分析して関連する変数、例えば、一連のサンプルから類似の代表パターンを示す変数を判断するための方法について説明する。これらの方法は、質量分析(MS)データを使用して例証される。しかしながら、これらの方法は、他の用途に適用可能である。
【0064】
データは、核磁気共鳴(NMR)、赤外分光法(IR)、近赤外分光法(NIR)、紫外分光法(UV)、ラマン分光法、または質量分析(MS)等の多種多様の分光技法を使用して各サンプルを分析することによって生成され得る。また、分析は、上記分光技法のうちの1つを、液体クロマトグラフィ(LC)、ガスクロマトグラフィ(GC)、またはキャピラリー電気泳動(CE)等のクロマトグラフ分離と結合する複合技法を使用して実行され得る。例示的複合技法として、液体クロマトグラフィ質量分析(LC−MS)が挙げられる。パターンは、病気または治療による処置に起因する変化等の、対象の実際の生物学的変動に起因し得るか、または無視され得る分析の人為的な結果であり得る。関連することが発見された変数を解釈して、パターンを引き起こす化合物を判断することが可能である。
【0065】
これらの方法の別の例示的用途は、複合技法からのデータにおけるピークの探索であり得る。データは、上記に列挙する例示的複合技法を使用して、分離プロセスの排水から一連のスペクトルを収集することによって生成される。パターンは、分離から溶出するピークとして観測される強度プロファイルに起因する。関連する変数は、同一の変動パターンを有し、重なり(非分解)ピークを判断することが可能である。関連することが発見された変数を解釈して、パターンを引き起こす化合物を判断することが可能である。
【0066】
これらの方法の別の例示的用途は、組織画像データの解釈であり得る。データは、生物組織のサンプルにおける種々の点において、スペクトル等の複数の測定を提供可能である任意の技術によって生成される。パターンは、組織の異なる部分における化合物の量の変動に起因し、器官および細胞小器官等の異なる特徴または構造に対応し得る。関連することが発見された変数を解釈して、パターンを引き起こす化合物を判断することが可能である。
【0067】
MSデータでは、入力行列の列における変数は、概して、質量瓶または重心値であり、液体クロマトグラフィと結合した質量分析(LC−MS)では、変数は、質量対電荷比(m/z)および保持時間によって特徴付けられる。どちらの場合においても、データは、全サンプルにおける同一信号を変数が指すことを確実にするように整列される。
【0068】
図7は、本教示に従う、パレートスケーリングおよびPCAの後に入手したMSスペクトルデータの2つのPCの例示的得点プロット700である。図7〜図9に示すMSスペクトルデータは、マトリックス支援レーザ脱離イオン化(MALDI)を使用して入手された。MALDI MSスペクトルデータは、例えば、APPLIED BIOSYSTEMS/MDS SCIEX TOF/TOFTM飛行時間/飛行時間質量分析計等の質量分析計を使用して入手可能である。例えば、Applied Biosystems/MDS SciexからのMARKERVIEWTMソフトウェアを使用して、MALDI MSスペクトルデータのPCA分析および視覚化を実行することが可能である。
【0069】
図7は、検定混合物のスパイクを含むおよび含まないタンパク質消化物からのサンプルの得点を示す。検定混合物のスパイクを含む得点は、図7において記号710で示される。検定混合物のスパイクを含まない得点は、図7において記号720で示される。図7において記号710および720とともに示す表示は、サンプルおよびサンプル群の名称の組み合わせである。
【0070】
図7に示すように、スパイクを含む710サンプルおよびスパイクを含まない720サンプルは、第1のPC、PC1によって明確に分離され、これは、最大の分散量を説明する。スパイクを含む710サンプルは、PCl得点が大きく、これは、スパイクを含まない720サンプルよりも、図8に示すように、大きい正の負荷量を有する変数を比較的多く有することを示す。
【0071】
図8は、本教示に従う、パレートスケーリングおよびPCAの後に入手したMSスペクトルデータの2つのPCの例示的負荷量プロット800である。プロット800における表示は、変数の重量m/z値に対応する。
【0072】
図8に示す例では、最大PCl負荷量を有する変数は、プロットの原点を通過する直線810上に存在する傾向にある。この特徴は、これらの変数が相関し、サンプル集合において同一の挙動を示すために発生する。
【0073】
また、図8は、負荷量プロットを解釈する際にパレートスケーリングに関する一便益も示す。任意の特定の同位体クラスタでは、原点からの距離は、ピークの相対強度を反映する。したがって、同位体クラスタのメンバーが、期待された挙動と同一の挙動を有するかが判断可能であり、これによって、観測された分離/相関における信頼が増加する。
【0074】
図9は、本教示に従う、パレートスケーリングおよびPCAの後に入手したMSスペクトルデータからのいくつかの代表変数910の例示的プロファイルプロット900である。プロファイルプロットは、複数のサンプルの関数とする1つ以上の変数の応答のプロットである。図9における変数910の相関が、雑音により完全ではないことに留意されたい。プロファイルにおけるわずかな変動によって、図8に示す相関線810の周囲に散乱が引き起こされる。
【0075】
種々の実施形態では、ピークの成分は、スペクトルの収集からのデータに多変量分析技法を使用して判断可能である。ピークが、スペクトルの収集において異なる挙動を有するデータ点を含む場合、ピークは、畳み込みピークであると判断される。
【0076】
図10は、本教示に従う、畳み込みピークを識別するための方法1000を示すフローチャートである。
【0077】
方法1000のステップ1010では、複数のスペクトルが入手される。複数のスペクトルは、例えば、複数のサンプルから入手される。種々の実施形態では、複数のスペクトルは、単一のサンプルから入手される。種々の実施形態では、複数のスペクトルを入手するステップは、分光法、質量分析、または核磁気分光法を実行するステップを含み得るが、これらに限定されない。
【0078】
ステップ1020では、多変量分析技法を使用して、複数のスペクトルから複数の群にデータ点を割り当てる。
【0079】
ステップ1030では、ピークが、複数のスペクトルから選択される。
【0080】
ステップ1040では、ピークが、複数の群のうちの2つ以上の群に割り当てられるデータ点を含む場合、ピークは、畳み込みピークとして識別される。
【0081】
方法1000の種々の実施形態では、多変量分析技法は、教師なしクラスタリングアルゴリズムを含み得る。教師なしクラスタリングアルゴリズムには、自己組織化マップ、K平均クラスタリングアルゴリズム、または階層クラスタリングアルゴリズムを含め得るが、これらに限定されない。
【0082】
教師なしクラスタリングアルゴリズムは、また、データ点に主成分分析を実行するステップと、データ点を複数の群に割り当てるために、主成分分析の後に、相関するデータ点を識別するための方法を使用するステップとを含み得る。主成分分析により生成される主成分が選択され得る。その数の主成分を有する部分集合主成分空間が形成され得る。部分集合主成分空間におけるデータ点が選択され得る。ベクトルは、部分集合主成分空間の原点からデータ点に延長され得る。部分集合主成分空間にあり、かつベクトルの周囲の空間角度内における1つ以上のデータ点は、相関するデータ点の群として識別され得る。次いで、相関するデータ点の群は、複数の群に割り当てられ得る。
【0083】
種々の実施形態では、方法1000は、ピークの成分に関する情報を入手するために、複数の群のうちの2つ以上の群のうちの1つ以上の群を処理するステップも含み得る。本情報には、強度データ、質量データ、化学シフトデータ、または波長データを含め得るが、これらに限定されない。
【0084】
種々の実施形態では、方法1000は、任意の分光技法およびサンプル収集方法とともに使用可能である。
【0085】
種々の実施形態では、方法1000は、液体クロマトグラフィ質量分析、ガスクロマトグラフィ質量分析、キャピラリー電気泳動質量分析、超臨界流体クロマトグラフィ質量分析、イオン移動度質量分析、非対称場イオン移動度質量分析、液体クロマトグラフィ核磁気共鳴分析、液体クロマトグラフィ紫外分光分析、ガスクロマトグラフィ赤外分光分析、または空間分析を含むがこれらに限定されない分析技法から複数のスペクトルを入手するステップも含み得る。
【0086】
種々の実施形態では、関連するデータ点は、多数のサンプルを分析することによって判断可能である。関連するデータ点は、多数のサンプルにおいて相関する場合に判断可能である。例えば、データ点がプロファイルスペクトルの一部である場合、一重項であると見えるスペクトルピークが発見されるが、実際は異なって挙動する成分を有し得る。
【0087】
サンプルは、実際の物理的サンプルの収集からの一連の単一スペクトルであり得る。スペクトルは、直接測定され得るか、または個々のサンプルのLCMS分析からの全スペクトルを組み合わせることによって入手され得る。サンプルは、同一サンプルからの一連のスペクトル、例えば、LCMSピークにおいて入手されるスペクトルであり得る。スペクトルにおける畳み込みピークの成分の比率の何らかの変動が存在することが重要であるが、厳密な形式を把握する必要はない。
【0088】
図11は、本教示に従う、スペクトルからの畳み込みピーク1110の例示的プロット1100である。異なる記号1120、1130、および1140は、主成分分析の後に変数をグループ化するための方法を使用して割り当てられた異なる群のデータ点に対応する。スペクトルは、単一のサンプルから入手されたが、群は、相関する挙動を有する各ピークの異なる部分を明らかにするために、多数のサンプルからのスペクトルを使用することによって判断された。
【0089】
図12は、本教示に従う、第1の群1220の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロット1200である。第1の群1220は、図11に示す記号1120に対応する。
【0090】
図13は、本教示に従う、第2の群1220の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロット1300である。第2の群1330は、図11に示す記号1130に対応する。
【0091】
図14は、本教示に従う、第3の群1440の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロット1400である。第3の群1440は、図11に示す記号1140に対応する。
【0092】
プロファイルプロットは、サンプルにおけるデータ点の応答を示す。図12のプロット1200、図13のプロット1300、および図14のプロット1400は、それぞれ図11の記号1120、1130、および1140に対応するデータ点のプロファイルプロットである。図11の記号1120に対応する図12のプロット1200は、図11の記号1130に対応する図13のプロット1300とは異なるプロファイルを示す。図11の記号1120および1130により表されるデータ点は、図12のプロット1200および図13のプロット1300の全サンプルにそれぞれ存在するが、特定のサンプルにおいてより強力な値を示す。これは、それらが実際は別々の成分に属することを示す。
【0093】
図11の記号1140により表され、かつ図14のプロット1400におけるサンプルにおいてグラフ化されるデータ点は、図14のプロット1400が、図12のプロット1200と図13のプロット1300との和を表すため、本データ点が図11の記号1120により表されるデータ点に対応する化合物および図11の記号1300により表されるデータ点に対応する化合物に存在する可能性があることを示す。したがって、図14の第3の群1430は、別々の群であるが、追加の化合物の存在を示さない。したがって、存在する化合物の実際の数を判断するために、同一のピークに関連する群を処理しなければならない。
【0094】
図15は、本教示に従う、畳み込みピークを識別するためのシステム1500の略図である。システム1500は、測定機器1510およびプロセッサ1520を含む。測定機器1510は、分光計または質量分析計であり得るが、これらに限定されない。プロセッサ1520は、コンピュータ、マイクロプロセッサ、または測定機器1510からの制御信号およびデータを送受信可能であり、かつデータを処理可能である任意の機器であり得るが、これらに限定されない。測定機器1510は、複数のスペクトルを入手する。プロセッサ1520は、多変量分析を使用して、複数のスペクトルから複数の群にデータ点を割り当て、多変量分析技法を使用し、複数のスペクトルからピークを選択し、ピークが複数の群のうちの2つ以上の群に割り当てられるデータ点を含む場合、ピークを畳み込みピークとして識別する。
【0095】
種々の実施形態に関連して本教示について説明しているが、本教示をこのような実施形態に限定することを意図しない。反対に、本教示は、当業者が理解するように、種々の代替、修正、および同等物を包含する。

【特許請求の範囲】
【請求項1】
複数のサンプルからの複数の変数の主成分分析の後に、相関する変数を識別するための方法であって、
該主成分分析により生成される主成分の数を選択するステップと、
該数の主成分を有する部分集合主成分空間を形成するステップと、
該部分集合主成分空間において変数を選択するステップと、
該部分集合主成分空間の原点から該変数に延びるベクトルの周囲に空間角度を規定するステップと、
該ベクトルの該空間角度内における1つ以上の変数の集合を選択するステップと、
該集合が最小数の変数を含む場合、該集合を群に割り当てるステップと
を含み、
該群は、相関する変数を識別し、該変数の最小数は、群が含むと期待される相関する変数の数である、
方法。
【請求項2】
前記群における変数の線形または非線形結合から第2のベクトルを計算するステップと、
該第2のベクトルの空間角度内における1つ以上の変数の第2の集合を選択するステップと、
該第2の集合が前記最小数の変数を含む場合、前記集合から割り当てられた該群の変数を、該第2の集合の変数と置換するステップと
をさらに含む、請求項1に記載の方法。
【請求項3】
前記数は、全分散の割合を代表する主成分を含む、請求項1に記載の方法。
【請求項4】
前記変数は、前記原点から最も遠くにある変数を含む、請求項1に記載の方法。
【請求項5】
前記変数の最小数は、1または1を上回る数を含む、請求項1に記載の方法。
【請求項6】
前記原点の反対側において前記ベクトルを含む線を延ばすステップと、
該原点の該反対側における該線の空間角度内における1つ以上の変数の第2の集合を選択するステップと、
前記集合および該第2の集合が前記最小数の変数を含む場合、該第2の集合を前記群に付加するステップと
をさらに含む、請求項1に記載の方法。
【請求項7】
前記集合をさらなる分析から除去するステップと、
前記部分集合主成分空間において第2の変数を選択するステップと、
前記原点から該第2の変数に延びる第2のベクトルの空間角度内における1つ以上の変数の第2の集合を選択するステップと、
該第2の集合が前記最小数の変数を含む場合、該第2の集合を第2の群の変数に割り当てるステップであって、該第2の群は、相関する変数を識別する、ステップと
をさらに含む、請求項1に記載の方法。
【請求項8】
前記第2の群の第3のベクトルを計算するステップと、
該第3のベクトルの空間角度内における1つ以上の変数の第3の集合を選択するステップと、
該第3の集合が前記最小数の変数を含む場合、前記第2の集合から割り当てられた前記第2の群の変数を、該第3の集合の変数と置換するステップと
をさらに含む、請求項7に記載の方法。
【請求項9】
前記第2の変数は、前記原点から最も遠くにある変数を含む、請求項7に記載の方法。
【請求項10】
前記原点の反対側において前記第2のベクトルを含む線を延ばすステップと、
該原点の該反対側における該線の空間角度内における1つ以上の変数の第3の集合を選択するステップと、
前記第2の集合および該第3の集合が前記最小数の変数を含む場合、該第3の集合を前記第2の群に付加するステップと
をさらに含む、請求項7に記載の方法。
【請求項11】
前記群および前記第2の群をソートするステップをさらに含む、請求項7に記載の方法。
【請求項12】
(a)前記群に割り当てられた変数をさらなる分析から除去するステップと、
(b)前記部分集合主成分空間において新しい変数を選択するステップと、
(c)前記原点から該新しい変数に延びる新しいベクトルの空間角度内における1つ以上の変数の新しい集合を選択するステップと、
(d)該新しい集合が前記最小数の変数を含む場合、該新しい集合を新しい群に割り当てるステップと、
(e)該新しい群の変数をさらなる分析から除去するステップと、
群に割り当てられない残りの変数が閾値を上回らなくなるまで(b)〜(e)のステップを繰り返すステップであって、該新しい群は、相関する変数を示す、ステップと
をさらに含む、請求項1に記載の方法。
【請求項13】
前記閾値は、前記原点からの距離を含む、請求項12に記載の方法。
【請求項14】
群代表を前記群に割り当てるステップと、
該群代表および前記複数のサンプルを、後続の分析技法への入力として使用するステップと
をさらに含む、請求項1に記載の方法。
【請求項15】
前記群代表は、前記群の最も強力な変数、該群の平均強度、または該群の変数の和のうちの1つを含む、請求項14に記載の方法。
【請求項16】
前記後続の分析技法は、クラスタリング技法およびパターン認識技法のうちの1つを含む、請求項14に記載の方法。
【請求項17】
前記後続の分析技法は、線形判別分析および独立成分分析のうちの1つを含む、請求項14に記載の方法。
【請求項18】
前記後続の分析技法のための新しい変数を生成するために、前記群代表および少なくとも1つの他の群代表を処理するステップをさらに含む、請求項14に記載の方法。
【請求項19】
前記後続の分析技法は、線形判別分析、独立成分分析、および主成分分析のうちの1つを含む、請求項18に記載の方法。
【請求項20】
前記群代表を処理するステップは、前記群代表および少なくとも1つの他の群代表の非線形結合を生成するステップを含む、請求項18に記載の方法。
【請求項21】
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体のコンテンツはプログラムを含み、該プログラムは、複数のサンプルからの複数の変数の主成分分析の後に相関する変数を識別するための方法を実現するように、プロセッサ上で実行される命令を有し、
該命令は、
該主成分分析により生成される主成分の数を選択するステップと、
該数の主成分を有する部分集合主成分空間を形成するステップと、
該部分集合主成分空間において変数を選択するステップと、
該部分集合主成分空間の原点から該変数に延びるベクトルの周囲に空間角度を規定するステップと、
該ベクトルの該空間角度内における該部分集合主成分空間において1つ以上の変数の集合を選択するステップと、
該集合が最小数の変数を含む場合、該集合を群に割り当てるステップと
を含み、
該群は、相関する変数を識別し、該変数の最小数は、群が含むと期待される相関する変数の数である、
コンピュータ可読記憶媒体。
【請求項22】
前記方法は、
前記集合をさらなる分析から除去するステップと、
前記部分集合主成分空間において第2の変数を選択するステップと、
前記原点から該第2の変数に延びる第2のベクトルの空間角度内における1つ以上の変数の第2の集合を選択するステップと、
該第2の集合が前記最小数の変数を含む場合、該第2の集合を第2の群の変数に割り当てるステップであって、該第2の群は、相関する変数を識別する、ステップと
をさらに含む、請求項21に記載のコンピュータ可読媒体。
【請求項23】
複数のサンプルからの複数の変数の主成分分析の後に相関する変数を識別するためのコンピューティングシステムであって、
測定技法を使用して該複数のサンプルから該複数の変数を生成する測定機器と、
該主成分分析により生成される主成分の数を選択し、
該数の主成分を有する部分集合主成分空間を形成し、
該部分集合主成分空間において変数を選択し、
該部分集合主成分空間の原点から該変数に延びるベクトルの周囲に空間角度を規定し、
該ベクトルの該空間角度内における該部分集合主成分空間において1つ以上の変数の集合を選択し、
該集合が最小数の変数を含む場合、該集合を群に割り当てるプロセッサであって、
該群は、相関する変数を識別し、該変数の最小数は、群が含むと期待される相関する変数の数である、プロセッサと
を備える、コンピューティングシステム。
【請求項24】
前記測定技法は、サンプルの成分当たりに複数の変数を生成する、請求項23に記載のコンピューティングシステム。
【請求項25】
前記測定技法は、核磁気共鳴、赤外分光法、近赤外分光法、紫外分光法、ラマン分光法、および質量分析のうちの1つ含む、請求項23に記載のコンピューティングシステム。
【請求項26】
前記測定技法は、分離技法を含む、請求項23に記載のコンピューティングシステム。
【請求項27】
前記分離技法は、液体クロマトグラフィ、ガスクロマトグラフィ、およびキャピラリー電気泳動のうちの1つを含む、請求項26に記載のコンピューティングシステム。
【請求項28】
前記グループ化モジュールは、
前記集合をさらなる分析から除去し、
前記部分集合主成分空間において第2の変数を選択し、
前記原点から該第2の変数に延びる第2のベクトルの空間角度内における1つ以上の変数の第2の集合を選択し、
該第2の集合が前記最小数の変数を含む場合、該第2の集合を、相関する変数を識別する第2の群の変数に割り当てる、
請求項23に記載のコンピューティングシステム。
【請求項29】
畳み込みピークを識別するための方法であって、
複数のスペクトルを入手するステップと、
多変量分析技法を使用して、該複数のスペクトルから複数の群にデータ点を割り当てるステップと、
該複数のスペクトルからピークを選択するステップと、
該ピークが、該複数の群のうちの2つ以上の群に割り当てられるデータ点を含む場合、該ピークを畳み込みピークとして識別するステップと
を含む、方法。
【請求項30】
前記複数のスペクトルを入手するステップは、複数のサンプルから該複数のスペクトルを入手するステップを含む、請求項29に記載の方法。
【請求項31】
前記複数のスペクトルを入手するステップは、単一のサンプルから該複数のスペクトルを入手するステップを含む、請求項29に記載の方法。
【請求項32】
前記複数のスペクトルを前記入手するステップは、質量分析を実行するステップを含む、請求項29に記載の方法。
【請求項33】
前記複数のスペクトルを前記入手するステップは、核磁気共鳴を実行するステップを含む、請求項29に記載の方法。
【請求項34】
前記複数のスペクトルを前記入手するステップは、分光法を実行するステップを含む、請求項29に記載の方法。
【請求項35】
前記多変量分析技法は、教師なしクラスタリングアルゴリズムを含む、請求項29に記載の方法。
【請求項36】
前記教師なしクラスタリングアルゴリズムは、自己組織化マップを含む、請求項35に記載の方法。
【請求項37】
前記教師なしクラスタリングアルゴリズムは、K平均クラスタリングアルゴリズムを含む、請求項35に記載の方法。
【請求項38】
前記教師なしクラスタリングアルゴリズムは、階層クラスタリングアルゴリズムを含む、請求項35に記載の方法。
【請求項39】
前記教師なしクラスタリングアルゴリズムは、前記データ点に前記主成分分析を実行するステップと、該データ点を前記複数の群に割り当てるために、該主成分分析の後に、相関するデータ点を識別するための方法を使用するステップとを含む、請求項35に記載の方法。
【請求項40】
前記データ点を前記複数の群に割り当てるために、前記主成分分析の後に、相関するデータ点を識別するための方法は、
該主成分分析により生成される主成分の数を選択するステップと、
該数の主成分を有する部分集合主成分空間を形成するステップと、
該部分集合主成分空間においてデータ点を選択するステップと、
該部分集合主成分空間の原点から該データ点にベクトルを延ばすステップと、
該部分集合主成分空間にあり、かつ前記ベクトルの周囲の空間角度内における1つ以上のデータ点を、相関するデータ点の群として識別するステップと、
該相関するデータ点の群を該複数の群に割り当てるステップと
を含む、請求項39に記載の方法。
【請求項41】
前記ピークの成分に関する情報を入手するために、前記2つ以上の群のうちの1つ以上の群を処理するステップをさらに含む、請求項29に記載の方法。
【請求項42】
前記情報は、強度データを含む、請求項41に記載の方法。
【請求項43】
前記情報は、質量データを含む、請求項41に記載の方法。
【請求項44】
前記情報は、化学シフトデータを含む、請求項41に記載の方法。
【請求項45】
前記情報は、波長データを含む、請求項41に記載の方法。
【請求項46】
前記複数のスペクトルを入手するステップは、液体クロマトグラフィ質量分析を含む、請求項29に記載の方法。
【請求項47】
前記複数のスペクトルを入手するステップは、ガスクロマトグラフィ質量分析を含む、請求項29に記載の方法。
【請求項48】
前記複数のスペクトルを入手するステップは、キャピラリー電気泳動質量分析を含む、請求項29に記載の方法。
【請求項49】
前記複数のスペクトルを入手するステップは、超臨界流体クロマトグラフィ質量分析を含む、請求項29に記載の方法。
【請求項50】
前記複数のスペクトルを入手するステップは、イオン移動度質量分析を含む、請求項29に記載の方法。
【請求項51】
前記複数のスペクトルを入手するステップは、非対称場イオン移動度質量分析から前記複数のスペクトルを入手するステップを含む、請求項29に記載の方法。
【請求項52】
前記複数のスペクトルを入手するステップは、液体クロマトグラフィ核磁気共鳴分析を含む、請求項29に記載の方法。
【請求項53】
前記複数のスペクトルを入手するステップは、液体クロマトグラフィ紫外分光分析を含む、請求項29に記載の方法。
【請求項54】
前記複数のスペクトルを入手するステップは、ガスクロマトグラフィ赤外分光分析を含む、請求項29に記載の方法。
【請求項55】
前記複数のスペクトルを入手するステップは、空間分析を含む、請求項29に記載の方法。
【請求項56】
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体のコンテンツは、プログラムを含み、該プログラムは、畳み込みピークを識別するための方法を実現するように、プロセッサ上で実行される命令を有し、
該命令は、
複数のスペクトルを入手するステップと、
多変量分析技法を使用して、該複数のスペクトルから複数の群にデータ点を割り当てるステップと、
該複数のスペクトルからピークを選択するステップと、
該ピークが、該複数の群のうちの2つ以上の群に割り当てられるデータ点を含む場合、該ピークを畳み込みピークとして識別するステップと
を含む、コンピュータ可読記憶媒体。
【請求項57】
畳み込みピークを識別するためのシステムであって、
複数のスペクトルを入手する測定機器と、
多変量分析技法を使用して、該複数のスペクトルから複数の群にデータ点を割り当て、該複数のスペクトルからピークを選択し、該ピークが、該複数の群のうちの2つ以上の群に割り当てられるデータ点を含む場合、該ピークを畳み込みピークとして識別する、プロセッサと
を備える、システム。
【請求項58】
前記測定機器は、分光計を備える、請求項57に記載のコンピュータシステム。
【請求項59】
前記測定機器は、質量分析計を備える、請求項57に記載のコンピュータシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公表番号】特表2010−538273(P2010−538273A)
【公表日】平成22年12月9日(2010.12.9)
【国際特許分類】
【出願番号】特願2010−523160(P2010−523160)
【出願日】平成20年8月29日(2008.8.29)
【国際出願番号】PCT/US2008/074831
【国際公開番号】WO2009/029818
【国際公開日】平成21年3月5日(2009.3.5)
【出願人】(509245740)エムディーエス アナリティカル テクノロジーズ (6)
【出願人】(510025522)アプライド バイオシステムズ (カナダ) リミテッド (5)
【Fターム(参考)】