大量の分光データにおける相関変数を識別するためのシステムおよび方法
変数の相関表示のグループが大量の分光データから識別される。複数のサンプルが分析され、複数の測定された変数が分光計から得られる。プロセッサは、いくつかのステップを実行する。複数の測定された変数は、複数の測定された変数のサブセットに分割される。各測定された変数のサブセットに対して、主成分分析、および続く変数グループ化(PCVG)が実施され、各測定された変数のサブセットに対する1つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。複数のグループ表示の総数が最大数よりも大きい場合、複数のグループ表示は、複数の代表的なサブセットに分割され、各サブセットに対してPCVGが実施される。残りの複数のグループ表示に対してPCVGが実施され、変数の相関表示の複数のグループを生成する。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の引用)
本願は、米国特許出願第12/200,636号(2008年8月28日出願、「636出願」と呼ぶ)の一部継続出願である。「636出願」は、米国特許出願第11/848,717号(2007年8月31日出願、「717出願」と呼ぶ)の一部継続出願である。「636出願」は、米国仮特許出願第61/057,719号(2008年5月30日出願、「719出願」と呼ぶ)の利益も主張する。上記すべての出願は、それらの全体が参照により本明細書に引用される。
【発明の概要】
【課題を解決するための手段】
【0002】
大量の質量分析(MS)データを生成するための能力は、データ処理のための適切な方法を必要とし、具体的には、ユーザがデータ内の重要な側面およびパターンに焦点を合わせ、それらを解釈することを可能にする方法を必要とする。多数のサンプルからのMSデータ、液体クロマトグラフィ連結質量分析(LC−MS)データ、および画像MSデータの高次元性(多数の変数)は、問題となり得る。なぜなら、それが、独立成分分析(ICA)および線形判別分析(LDA)等のある特定の処理オプションを除外するからであり、かつ、効率的でタイムリーな処理のために、大きなコンピュータリソースを必要とし得る(例えば、低速仮想メモリの使用を回避するために)からである。
【0003】
当業者は、以下に記載する図面が例示目的のみであることを理解するであろう。図面は、いかなる方法によっても、本教示の範囲を制限するよう意図されない。
【図面の簡単な説明】
【0004】
【図1】図1は、本教示の実施形態が実装され得る、コンピュータシステムを示すブロック図である。
【図2】図2は、本教示と一致している主成分変数グループ化(PCVG)を使用して、複数のサンプルからの複数の変数の主成分分析後、相関変数のグループを識別するための方法を示す、例示的なフローチャートである。
【図3】図3は、本教示に従って、選択された変数の空間角度内で1つ以上の変数のセットをどのように発見することができるかを示す、例示的な図である。
【図4】図4は、本教示と一致している測定技術によって生成される複数のサンプルからの複数の変数のPCA後、変数をグループ化するためのコンピュータシステムを示す、例示的な概略図である。
【図5】図5は、n次元空間でのデータ処理のために使用することができ、かつ本教示と一致している、コンピュータによって実装される方法を示す、例示的なフローチャートである。
【図6】図6は、本教示に従った、変数グループ化を実施するための、ソフトウェアツールのためのユーザインターフェースの例示的な画像である。
【図7】図7は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対する2つの主成分(PC)の例示的なスコアプロットである。
【図8】図8は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対する2つのPCの例示的なローディングプロットである。
【図9】図9は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対するいくつかの代表的な変数の例示的なプロファイルプロットである。
【図10】図10は、本教示に従った、コンボリューションピークを識別するための方法を示す、フローチャートである。
【図11】図11は、本教示に従った、スペクトルからのコンボリューションピークの例示的なプロットである。
【図12】図12は、本教示に従って、第1のグループの各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロットである。
【図13】図13は、本教示に従って、第2のグループの各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロットである。
【図14】図14は、本教示に従って、第3のグループの各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロットである。
【図15】図15は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するためのシステムを示す、概略図である。
【図16】図16は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法を示す、フローチャートである。
【図17】図17は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法を実施する、別個のソフトウェアモジュールのシステムの概略図である。
【発明を実施するための形態】
【0005】
本教示の1つ以上の実施形態を詳細に記載する前に、当業者は、本教示が、発明を実施するための形態に記載されるか、または図面に示される構造の詳細、構成要素の配列、およびステップの配列に対するそれらの応用が制限されていないことを理解するであろう。また、本明細書で使用される表現および用語は、説明目的であり、制限するものと見なされるべきではないことを理解されたい。
【0006】
(コンピュータによって実装されるシステム)
図1は、本教示の実施形態が実装され得るコンピュータシステム100を示す、ブロック図である。コンピュータシステム100は、情報を通信するためのバス102または他の通信機構と、情報を処理するための、バス102と連結されるプロセッサ104とを含む。コンピュータシステム100はまた、ベースコールを決定するための、バス102に連結されるランダムアクセスメモリ(RAM)または他の動的記憶デバイスであり得る、メモリ106と、プロセッサ104によって実行される命令とを含む。メモリ106はまた、プロセッサ104によって実行される命令の実行中に一時的な変数または他の中間情報を記憶するために使用され得る。コンピュータシステム100はさらに、プロセッサ104に対する静的情報および命令を記憶するための、バス102に連結されるリードオンリメモリ(ROM)108または他の静的記憶デバイスを含む。情報および命令を記憶するために、磁気ディスクまたは光ディスク等の記憶デバイス110が提供され、バス102に連結される。
【0007】
コンピュータシステム100は、コンピュータユーザに情報を表示するための、陰極線管(CRT)または液晶ディスプレイ(LCD)等のディスプレイ112に、バス102を介して連結され得る。英数字および他のキーを含む入力デバイス114が、プロセッサ104に情報およびコマンド選択を通信するために、バス102に連結される。他の種類のユーザ入力デバイスは、プロセッサ104に方向情報およびコマンド選択を通信するための、およびディスプレイ112上でのカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キー等のカーソル制御116である。この入力デバイスは典型的には、デバイスが平面内で位置を指定することを可能にする、第1の軸(すなわち、x)および第2の軸(すなわち、y)の2つの軸において2つの自由度を有する。
【0008】
コンピュータシステム100は、本教示を実施することができる。本教示のある特定の実装に従って、メモリ106中に含まれる1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ104に応答して、コンピュータシステム100によって結果がもたらされる。そのような命令は、記憶デバイス110等の別のコンピュータ可読媒体から、メモリ106に読み込まれ得る。メモリ106中に含まれる命令のシーケンスの実行によって、プロセッサ104は、本明細書に記載するプロセスを実施する。あるいは、本教示を実行するためのソフトウェア命令の代わりに、またはそれと組み合わせて、有線回路が使用され得る。したがって、本教示の実装は、ハードウェア回路およびソフトウェアの任意の特定の組み合わせに限定されない。
【0009】
ここで使用される「コンピュータ可読媒体」という用語は、実行のために、プロセッサ104に命令を提供することに関与する、任意の媒体を指す。そのような媒体は、不揮発性媒体、揮発性媒体、および伝送媒体が挙げられるが、これらに限定されない、多くの形態を取ってもよい。不揮発性媒体としては、例えば、記憶デバイス110等の光または磁気ディスクが挙げられる。揮発性媒体としては、メモリ106等の動的メモリが挙げられる。伝送媒体としては、バス102を含むワイヤを含む、同軸ケーブル、銅線、および光ファイバが挙げられる。
【0010】
コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、もしくは任意の他の磁気媒体、CD−ROM、任意の他の光媒体、パンチカード、紙テープ、任意の他の孔パターンを有する物理媒体、RAM、PROM、およびEPROM、FLASH−EPROM、任意の他のメモリチップもしくはカートリッジ、または任意の他のコンピュータが読み取ることができる有形媒体が挙げられる。
【0011】
実行のために、プロセッサ104に1つ以上の命令の1つ以上のシーケンスを伝送することに、種々の形態のコンピュータ可読媒体が関与し得る。例えば、命令は、最初、リモートコンピュータの磁気ディスク上で伝送され得る。リモートコンピュータは、命令をその動的メモリにロードし、モデムを使用して電話線を通して命令を送信することができる。コンピュータシステム100にローカルなモデムは、電話線上でデータを受信し、赤外線トランスミッタを使用して、データを赤外線信号に変換することができる。バス102に連結される赤外線検出器は、赤外線信号で伝送されるデータを受信し、バス102上にデータを配置することができる。バス102は、データをメモリ106に伝送し、そこから、プロセッサ104は、命令を読み出し、実行する。メモリ106によって受信される命令は、随意に、プロセッサ104による実行の前あるいは後に、記憶デバイス110上に記憶され得る。
【0012】
種々の実施形態に従って、方法を実施するようにプロセッサによって実行されるように構成される命令は、コンピュータ可読媒体上に記憶される。コンピュータ可読媒体は、デジタル情報記憶するデバイスであり得る。例えば、コンピュータ可読媒体は、ソフトウェアを記憶するための、当該技術分野で公知のコンパクトディスクリードオンリーメモリ(CD−ROM)を含む。コンピュータ可読媒体は、実行されるように構成される命令を実行するのに好適なプロセッサによってアクセスされる。
【0013】
本教示の種々の実装の以下の説明は、例示および説明目的で示されている。それは、包括的なものではなく、本教示を開示される正確な形態に限定しない。修正および変更が、上記の教示を踏まえて可能であるか、または本教示の実践から得られ得る。さらに、記載された実装は、ソフトウェアを含むが、本教示は、ハードウェアおよびソフトウェアの組み合わせとして、またはハードウェア単独で実装され得る。本教示は、オブジェクト指向および非オブジェクト指向プログラミングシステムの両方で実装され得る。
【0014】
(PCA)
主成分分析(PCA)は、データを視覚化および分類することを補助するために幅広く使用される、多変量解析(MVA)ツールである。PCAは、多次元データセットの次元性を低減すると同時に、その分散に最も寄与するデータセットの特徴を保持するために使用され得る、統計技術である。このため、PCAはしばしば、線形判別分析(LDA)等、高次元データを上手く処理しない技術に対して、データを前処理するために使用される。
【0015】
PCAは、元のセット中の情報の大部分を表す主成分(PC)変数の実質的により小さいセットへの変数の元のセットの固有ベクトル変換を使用することによって、多数の相互に関係する変数の次元性を低減することができる。変数の新しいセットは、最初のいくつかが、元の変数の全てにおいて存在する変動の大部分を保持するように順序付けられる。より具体的には、各PCは、元の測定変数の全ての線形結合である。第1は、測定された変数の最大の分散の方向におけるベクトルである。後続のPCは、測定データの最大の変動を表すように、かつすでに計算されたPCに直交するように選択される。したがって、PCは、重要性の高い順に並べられる。PCAによって抽出されるPCの数(n)は、サンプルまたは変数の数のより小さい方を超えることができない。しかしながら、変数の多くは、データセット中のノイズに対応し、有用な情報を含まない場合がある。
【0016】
PCAは、データが行列の形態(以下、「入力行列」と称される)で示されることを必要とし、例えば、行は、サンプルを表し、列は、変数を表し、入力行列の要素またはセルは、特定のサンプル中のその変数の量を示す。あるいは、入力行列は、変数を表す行、サンプルを表す列、および特定のサンプル中のその変数の量を示す要素を含むことができる。後者の場合、ローディングプロットに適用されるものとして記載される処理は、代わりに、スコアプロットに適用される。入力行列は、一連のスコアおよびローディングベクトルに分解することができる。ローディングベクトルは、特定のPCに対して変数が行う寄与を示す。スコアベクトルは、特定のサンプル中の各成分の量の測定値である。
【0017】
スコアおよびローディングプロットは、軸が2つ以上のPCを表す場合に表示することができ、サンプルは、それらのスコアに従って位置付けられ、変数は、ローディングに従って位置付けられる。スコアは、サンプル中に存在する各PCの量を反映し、ローディングは、PCに対する各変数の重要性を示す。
【0018】
PCAは、任意のサンプルグループの知識も必要ない、教師無し技術であるが、この情報は、頻繁に入手可能であり、スコアプロットを解釈するのに役立つ。サンプルグループに関する知識は、例えば、サンプルが予想される方法で分離するかどうかを決定するのに役立ち得る。スコアプロットとは対照的に、ローディングプロットは、特に、多くの変数が存在し、どれも主要ではない時、またはデータが強度の影響を除去するように自動スケーリングされている時、解釈が非常に困難であり得る。
【0019】
PCA前に相関変数を除去することが一般的であるが、それらの識別は、さらなる解釈に役立ち得る。例えば、質量スペクトルデータにおいて、相関ピークは、予測不可能な断片であり得るか、または同位体、付加物、および異なる荷電状態が挙げられるが、これらに限定されない、既知の原点を有し得る。予測不可能な断片の認識は、スペクトルを生成した化合物を識別するのに役立ち得る。結果として、PCAを実施する前に相関変数を除去するよりもむしろ、生データから抽出される全ての変数を保持することが有益であり得る。なぜなら、これは、ローディングプロットが相関特徴を発見するように解釈されることを可能にするからである。本質的に、PCAは、サンプルを分離およびグループ化するために変数を使用しているが、変数を分離および集団化するためにサンプルを使用してもいる。いったん相関変数が識別されると、それらは、例えば、相関変数の最も強度の高い変数、相関変数の平均強度を有する新しい変数、または相関変数の合計が挙げられるが、これらに限定されない、何らかのグループ表示で相関変数のセットを置き換えることを含む、いくつかの方法で単純化することができる。
【0020】
(データ処理の方法)
(主成分変数グループ化)
種々の実施形態において、相関変数のグループは、主成分分析(PCA)、続いて、変数グループ化を使用して識別される。PCA、続く、変数グループ化は、主成分変数グループ化(PCVG)と呼ぶことができる。
【0021】
図2は、本教示と一致しているPCVGを使用して、複数のサンプルから複数の変数のPCA後、相関変数のグループを識別するための方法200を示す、例示的なフローチャートである。
【0022】
方法200のステップ210において、PCAによって生成されたいくつかのPCが選択される。選択されるPCの数は、例えば、PCAによって生成されるPCの総数未満である。種々の実施形態において、選択されるPCの数は、全分散の指定された割合を表す最小数である。
【0023】
ステップ220において、選択されたいくつかのPCを有するサブセットのPC空間が作成される。
【0024】
ステップ230において、サブセットのPC空間中で変数が選択される。選択される変数は、例えば、原点から最も遠い変数である。
【0025】
ステップ240において、サブセットのPC空間の原点から選択された変数まで延在するベクトルの周囲で、空間角度が定義される。
【0026】
ステップ250において、ベクトルの空間角度内で、サブセットのPC空間中の1つ以上の変数のセットが選択される。種々の実施形態において、セット内の1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は、第1のセットに対して選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小の距離である。
【0027】
ステップ260において、セットが最小数の変数を含む場合、セットがグループに割り当てられる。グループは、例えば、相関変数を識別する。変数の最小数は、例えば、グループが含むと予想される相関変数の数である。変数の最小数は、例えば、1または1よりも大きい数であり得る。
【0028】
種々の実施形態において、方法200はまた、グループから第2のベクトルを計算するステップと、第2のベクトルの空間角度内で1つ以上の変数の第2のセットを選択するステップと、第2のセットが最小数の変数を含む場合、グループの変数を第2のセットの変数と置き換えるステップとを含むことができる。第2のベクトルの空間角度は、ステップ240において定義される空間角度と同一の空間角度であり得、または第2のベクトルの空間角度は、ステップ240において定義される空間角度とは異なる空間角度であり得る。第2のベクトルは、グループ中の変数の任意の線形または非線形結合であり得る。例えば、第2のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態において、第2のセット内の1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は、第2のセットに対して選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小距離である。
【0029】
種々の実施形態において、方法200はまた、識別される各グループに、異なる記号を割り当てるステップを含むことができる。次いで、これらの記号は、ローディングデータを視覚化および解釈するために使用することができる。
【0030】
種々の実施形態において、方法200はまた、グループに、反相関である変数のセットを割り当てるステップをさらに含むことができる。これは、サブセットのPC空間の原点の反対側に、ベクトルを含む線を延長するステップと、原点の反対側の線の空間角度内で、1つ以上の変数の第2のセットを選択するステップと、セットおよび第2のセットが最小数の変数を含む場合、第2のセットをグループに追加するステップとを含む。種々の実施形態において、第2のセット内の1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は、第2のセットに対して選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小距離である。
【0031】
種々の実施形態において、方法200はまた、さらなる分析からセットを除去するステップと、PC空間中で第2の変数を選択するステップと、サブセットのPC空間の原点から第2の変数まで延在する第2のベクトルの空間角度内で、1つ以上の変数の第2のセットを選択するステップと、第2のセットが最小数の変数を含む場合、変数の第2のグループに、第2のセットを割り当てるステップとを含むことができる。第2のグループは、相関変数も識別する。変数の最小数は、例えば、1または1よりも大きい数であり得る。第2の変数は、例えば、サブセットのPC空間の原点から最も遠い、割り当てられていない変数であり得る。
【0032】
種々の実施形態において、方法200はまた、第2のグループから第3のベクトルを計算するステップと、第3のベクトルの空間角度内で、1つ以上の変数の第3のセットを選択するステップと、第3のセットが最小数の変数を含む場合、第2のグループの変数を第3のセットの変数で置き換えるステップとを含むことができる。第2のグループの変数は、例えば、第2のセットから割り当てられる。第3のベクトルは、第2のグループ中の変数の任意の線形または非線形結合であり得る。例えば、第3のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態において、閾値未満の有意値を有する第3のセット内の1つ以上の変数は、選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小距離である。視覚化および解釈の目的で、第2の異なる記号を第2のグループに割り当てることができる。
【0033】
種々の実施形態において、方法200はまた、第2のグループに、反相関である一式の変数を割り当てるステップも含むことができる。これは、原点の反対側に、第2のベクトルを含む線を延長するステップと、原点の反対側の線の空間角度内で、1つ以上の変数の第3のセットを選択するステップと、セットおよび第3のセットが最小数の変数を含む場合、第3のセットを第2のグループに追加するステップとを含む。変数の最小数は、例えば、1または1よりも大きい数であり得る。種々の実施形態において、第3のセット内の1つ以上の変数が閾値未満の原点からの距離を有する場合、1つ以上の変数は、選択されない。閾値は、例えば、最小距離パラメータである。
【0034】
種々の実施形態において、方法200はまた、割り当てられたグループをソートするステップも含むことができる。ソートするステップは、例えば、各グループ中の原点からの最大距離によって行うことができる。
【0035】
種々の実施形態において、方法200はまた、さらなる分析からステップ260においてグループに割り当てられた変数を除去し、さらなる分析から最後に割り当てられたグループの変数を除去するステップを繰り返すステップと、サブセットのPC空間中で新しい変数を選択するステップと、原点から新しい変数まで延在する新しいベクトルの空間角度内で、1つ以上の変数の新しいセットを選択するステップと、新しいセットが最小数の変数を含む場合、新しいセットを新しいグループに割り当てるステップと、グループに割り当てられない変数が閾値を超えなくなるまで、さらなる分析から新しいグループの変数を除去するステップとを含むことができる。閾値は、例えば、原点からの距離であり得る。これらのステップを繰り返すことで、例えば、複数の相関変数のグループが生成される。
【0036】
上記のように、PCAは、多数の変数および比較的少ないサンプルを有するデータに適用することができる(このデータは、高次元を有するといわれる)。他の分析技術は、サンプルの数が変数の数を超えるデータを必要とする。これらの他の分析技術の実施例としては、線形判別分析(LDA)および独立成分分析(ICA)が挙げられるが、これらに限定されない。したがって、PCAは、LDAおよびICA等の他の分析技術で使用するために、データの次元性を低減するために使用することができる。低減された次元は、グループのPCまたはグループ表示であり得る。グループは、元の変数の解釈可能な組み合わせであるため、グループ表示の使用は好ましい。
【0037】
種々の実施形態において、方法200はまた、グループ表示をグループに割り当てるステップと、後続の分析技術への入力として、グループ表示および複数のサンプルを使用するステップとを含むことができる。グループ表示は、グループの最も強度の高い変数、グループの平均強度を有する変数、またはグループの変数の合計を含むことができるが、これらに限定されない。後続の分析技術は、クラスタリング技術またはパターン認識技術を含むことができるが、これらに限定されない。後続の分析技術は、LDAまたはICAを含むことができるが、これらに限定されない。
【0038】
種々の実施形態において、方法200はまた、後続の分析技術への入力のために、新しい変数を生成するように、グループ表示を処理するステップも含むことができる。後続の分析技術は、LDA、ICA、またはPCAを含むことができるが、これらに限定されない。グループ表示を処理するステップは、グループ表示および少なくとも1つの他のグループ表示の非線形結合を生成するステップを含むことができるがこれに限定されない。例えば、新しい変数は、グループ表示および別のグループ表示の比であり得る。
【0039】
本教示の種々の実施形態において、例えば、高強度の変数が分析を支配しないように、PCA処理にデータスケーリングが実施される。1つのスケーリング技術は、自動スケーリングであり、各変数に対する値は、最初に、変数の全ての値の平均を引き(すなわち、平均センタリング)、次いで、変数の分散で割ることによって処理される。自動スケーリングは、全ての変数に均等に重み付けし、変数が無関係であり、幅広く異なるスケールを有することができる場合、適切である。しかしながら、変数が全て同じ種類であり(すなわち、質量スペクトルまたはクロマトグラフィピーク)、より強度の高い変数が、より有意であり、ノイズである可能性が低い時は、パレートスケーリングがより有利であり得る。パレートスケーリングでは、平均センタリングされた値は、分散の平方根で割られる。パレートスケーリングは、元の強度の寄与を低減するが、除去はせず、ローディングプロットの解釈に役立つ。
【0040】
図3は、本教示に従って、選択された変数360の空間角度350内で1つ以上の変数のセット340をどのように発見することができるかを示す、例示300である。図3に示す三次元PC空間は、PC1 310、PC2 320、およびPC3 330のPCを含む。変数360は、この三次元PC空間中で選択される。空間角度350は、原点から選択された変数360まで延在するベクトルの周囲に定義される。空間角度350内に見られる1つ以上の変数は、1つ以上の変数のセット340として選択される。
【0041】
図4は、本教示と一致している測定技術によって生成される複数のサンプルからの複数の変数のPCA後、変数をグループ化するためのコンピュータシステム400を示す、例示的な概略図である。コンピュータシステム400は、グループ化モジュール410を含む。グループ化モジュール410は、PCAによって生成されたいくつかのPC選択し、いくつかのPCを有するサブセットのPC空間を作成し、変数を選択し、原点から変数まで延在するベクトルの周囲の空間角度を定義し、ベクトルの空間角度内で1つ以上の変数のセットを選択し、セットが最小数の変数を含む場合、セットをグループに割り当てる。
【0042】
コンピュータシステム400の種々の実施形態において、サンプルの構成要素当たり2以上の変数を生成する測定技術を使用して、複数の変数を生成することができる。複数の変数は、例えば、図15に示すような測定デバイスを使用して生成される。測定デバイスは、分光計または質量分析計であり得るが、これらに限定されない。測定技術は、核磁気共鳴、赤外分光法、近赤外分光法、紫外分光法、ラマン分光法、または質量分析を含むことができるが、これらに限定されない。種々の実施形態において、複数の変数は、分離技術と組み合わせて、サンプルの構成要素当たり2以上の変数を生成する測定技術を使用して、生成することができる。分離技術は、液体クロマトグラフィ、ガスクロマトグラフィ、またはキャピラリー電気泳動法を含むことができるが、これらに限定されない。
【0043】
種々の実施形態において、グループ化モジュール410はまた、PC空間中で第2の変数を選択し、原点から第2の変数まで延在する第2のベクトルの空間角度内で、1つ以上の変数の第2のセットを選択し、第2のセットが最小数の変数を含む場合、第2のセットを変数の第2のグループに割り当てることができる。
【0044】
本教示と一致した別のPCVG方法を以下に概説する。
1.パレートスケーリングを使用して、全ての変数に対してPCAを実施する。
2.使用されるPCの数(m)を決定する。抽出されるPCの全てnの使用は、元のデータを正確に再生する。しかしながら、これらのPCの多くは、データ中のノイズの揺らぎを表し、情報を失わずに無視することができる。m個のPCの選択は、データを効果的に平滑化する。各変数は、このm次元空間中のベクトルによって表される。
3.原点から最も遠い変数に対応する目標ベクトル(t)を決定する。これを有効にするために、自動スケーリングは使用しない。自動スケーリングは、小さいノイズピークを含む全ての変数に均等に重み付けするため、望ましくない。
4.このベクトルの周囲の空間角度(α)を定義し、その角度内にある他のデータ点(ベクトル)を発見し、随意に、低強度の変数を無視する。第2のベクトルがxである場合、xと目標ベクトルとの間の角度(θ)は、
x.t=|x||t|cos(θ)
から発見することができる。
5.全ての選択されたベクトルの平均を計算し、新しい平均ベクトルを使用してステップ3を繰り返し、全ての選択された変数をグループに割り当てる。このようにして、「再センタリング」は、空間角度の配向を微調整し、最も強度の高い変数が何らかの形で非典型的である場合、有効であり得る。例えば、ピークが最も集中したサンプル中で飽和した場合、プロファイルは、歪められ得る。パレートスケーリングが使用されてきたため、平均ベクトルを計算することも、より低い強度のイオンが結果に与える影響を少なくする。
6.十分な強度を有する変数が残らなくなるまで、すでにグループ化された変数を無視して、ステップ3からのプロセスを繰り返す。
【0045】
図5は、n次元空間での処理データのために使用することができ、かつ本教示と一致している、コンピュータによって実装される方法500を示す、例示的なフローチャートである。
【0046】
方法500のステップ510において、全ての変数に対してPCAが実施され、指定のPCのサブセットが使用される。
【0047】
ステップ520において、低い有意性を有する変数は、除去される。選択されたスケーリングおよびPCA有意性基準に対して低い有意性を有する変数をフィルタにかけて除去することは、任意である。変数をグループ化した後にステップを追加することによって、かつ異なる有意性基準を使用することによって、同じ効果を得ることができる。使用することができる別の有意性基準は、例えば、光学コントラストである。
【0048】
ステップ530において、原点から最も遠い割り当てられていない変数のベクトルが発見される。
【0049】
ステップ540において、ベクトルの空間角度内の全てのベクトルが発見される。
【0050】
ステップ550において、ベクトルの空間角度内のベクトルの平均が発見される。
【0051】
ステップ560において、該平均の空間角度内の全ての割り当てられていない変数が発見され、グループに割り当てられる。次いで、グループに割り当てられる変数は、処理から除去される。
【0052】
ステップ570において、処理に対して任意の変数が残っている場合、方法500は、ステップ530に戻る。処理に対して変数が残っていない場合は、方法500は終了する。
【0053】
この処理の結果は、さらに解釈することができる複数の相関変数のグループ、または後続の分析技術への入力として使用することができるグループ表示である。視覚化の目的で、記号をグループに割り当てることによって、ローディングプロット中のグループ化された変数を識別することが有用である。解釈は、グループの全てのメンバーに対して、強度またはプロファイルプロットを生成することによって支援され得る。
【0054】
(反復主成分変数グループ化)
上記のように、大量のデータを生成する質量分析の能力は、多くのデータ処理技術に対して重大な問題をもたらす。具体的に、多数のサンプルを有する質量分析(MS)データ、液体クロマトグラフィ連結質量分析(LC−MS)データ、および画像MSデータの高次元性(多数の変数)は、これらの技術にとって問題となり得る。
【0055】
MSによって生成される多数の変数はまた、主成分分析(PCA)、続く、変数グループ化、または主成分変数グループ化(PCVG)にとって問題となり得る。PCVGは、少なくとも2つの異なる方法で、多数の変数の影響を受ける可能性がある。第1に、多数の変数は、PCVGアルゴリズムを実施するために使用されるプロセッサまたはコンピュータを圧倒し得る。結果として、データ分析は、妥当な期間で実施することができない。第2に、多数の変数は、PCVGアルゴリズムの特異性を低減し、結果の質を低下させ得る。例えば、大量のデータを処理する時、より小さいデータが、大きいデータセットのノイズ全体によって曖昧にされ得る。
【0056】
種々の実施形態において、PCVGは、大量のデータを処理するために、データのセグメントに反復的に適用される。この技術において、データは、セグメントに慎重に分割される。セグメントは、それらが、PCVGアルゴリズムを実行するために使用されるコンピュータまたはプロセッサの限界に達しないように、かつPCVG結果の特異性の低減を引き起こさないように十分小さくなるように選択される。セグメントはまた、PCVGがあまりに多くの反復を実施する必要なく、複数の相関グループを生成することができるように、セグメントが十分に大きくなるように選択される。
【0057】
データの総量を低減するために、セグメントに対してPCVGを実施することによって生成される各相関変数のグループは、グループ表示と置き換えられる。結果として、全てのセグメントに対してPCVGを実施する結果は、セグメントの全てによって生成されるグループ表示の全てのデータセットである。グループ表示の全ての総数が1回のPCVG実行に対してまだ大きすぎる場合、グループ表示の全てのデータセットは、セグメントに再び分割され、各セグメントに対してPCVGが実施される。このグループ表示の分割、続く、PCVGの反復は、グループ表示の全ての総数が、使用されるプロセッサの制約内で実施し、必要とされる特異性を提供する、PCVGの1回の実行を可能にするのに十分小さくなるまで継続される。
【0058】
いったんグループ表示の全ての総数がPCVGの1回の実行を可能にするのに十分小さくなると、グループ表示の全てのデータセットに対してPCVGが実施され、相関変数のグループが識別される。これらのグループは、元の大量の測定されたMSデータに対する相関変数を表す。
【0059】
図15は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するためのシステム1500を示す、概略図である。システム1500は、分光計1510とプロセッサ1520とを含む。分光計1510は、例えば、質量分析計である。プロセッサ1520は、コンピュータ、マイクロプロセッサ、または分光計1510からの制御信号およびデータを送信および受信し、データを処理することが可能な任意のデバイスであり得るが、これらに限定されない。分光計1510は、複数のサンプルを分析し、複数のサンプルから複数の変数を生成する。
【0060】
プロセッサ1520は、分光計1510と通信している。プロセッサ1520は、いくつかのステップを実施する。
【0061】
(1)プロセッサ1520は、分光計1510から複数の測定された変数を取得し、複数の測定された変数を複数の測定された変数のサブセットに分割する。
【0062】
(2)プロセッサ1520は、各測定された変数のサブセットに対してPCVGを実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。
【0063】
(3)プロセッサ1520は、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【0064】
(4)総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、プロセッサ1520は、ステップ(10)に飛ぶ。最大数は、例えば、プロセッサ1520の処理能力に基づく。種々の実施形態において、最大数は、相関点が異なるサブセットに分割されないように、必要とされる点の数に基づく。
【0065】
(5)プロセッサ1520は、複数のグループ表示を複数のグループ表示のサブセットに分割する。
【0066】
(6)プロセッサ1520は、各グループ表示のサブセットに対してPCVGを実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および複数のグループ表示のサブセットに対する複数のグループ表示を生成する。
【0067】
(7)プロセッサ1520は、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【0068】
(8)総数が最大数以下である場合、プロセッサ1520は、ステップ(10)に飛ぶ。
【0069】
(9)総数が変数の最大数よりも大きい場合、プロセッサは、ステップ(5)〜(9)を繰り返す。
【0070】
(10)プロセッサ1520は、複数のグループ表示に対してPCVGを実施し、変数の相関表示の複数のグループを生成する。
【0071】
種々の実施形態において、プロセッサ1520は、以下のステップに従って、ステップ(2)において各測定された変数のサブセットに対して、PCVGを実施する。
【0072】
(i)プロセッサ1520は、各測定された変数に対して主成分分析を実施する。
【0073】
(ii)プロセッサ1520は、主成分分析によって生成されたいくつかの主成分を選択する。
【0074】
(iii)プロセッサ1520は、いくつかの主成分を有するサブセットの主成分空間を作成する。
【0075】
(iv)プロセッサ1520は、閾値よりも大きい有意値を有するサブセットの主成分空間における、各測定された変数のサブセットの変数を選択する。閾値は、例えば、サブセットの主成分空間の原点からの最小距離である。
【0076】
(v)プロセッサ1520は、原点から変数まで延在するベクトルの周囲の空間角度を定義する。
【0077】
(vi)プロセッサ1520は、ベクトルの空間角度内で1つ以上の変数のグループを選択する。
【0078】
(vii)プロセッサ1520は、グループが最小数の変数を含む場合、グループ表示をグループに割り当てる。変数の最小数は、例えば、グループが含むと予想される相関変数の最小数である。
【0079】
(viii)プロセッサ1520は、選択されていない、グループ表示が割り当てられているグループの一部を成していない、または閾値を超える有意値を有する変数が、サブセットの主成分空間に残らなくなるまで、ステップ(iv)〜(viii)を繰り返す。
【0080】
種々の実施形態において、プロセッサ1520によってステップ(v)において定義される空間角度は、複数の用途に対して一定角度である。一定角度は、例えば、約15度である。種々の実施形態において、プロセッサ1520によってステップ(ii)において選択されるいくつかの主成分は、異なる用途に応じて調節される。主成分の数は、例えば、変数グループの数が、独立した成分の予想される最大数よりも小さくなるように選択される。
【0081】
同様に、種々の実施形態において、プロセッサ1520は、以下のステップに従って、上記のように、ステップ(6)において、各グループ表示のサブセットに対してPCVGを実施する。
【0082】
(i)プロセッサ1520は、各グループ表示のサブセットに対して主成分分析を実施する。
【0083】
(ii)プロセッサ1520は、主成分分析によって生成されたいくつかの主成分を選択する。
【0084】
(iii)プロセッサ1520は、いくつかの主成分を有するサブセットの主成分空間を作成する。
【0085】
(iv)プロセッサ1520は、閾値よりも大きい有意値を有するサブセットの主成分空間における、各グループ表示のサブセットの表示を選択する。閾値は、例えば、サブセットの主成分空間の原点からの最小距離である。
【0086】
(v)プロセッサ1520は、サブセットの主成分空間の原点から表示まで延在するベクトルの周囲の空間角度を定義する。
【0087】
(vi)プロセッサ1520は、ベクトルの空間角度内で1つ以上の表示のグループを選択する。
【0088】
(vii)プロセッサ1520は、グループが最小数の表示を含む場合、グループ表示をグループに割り当てる。表示の最小数は、例えば、グループが含むと予想される相関表示の最小数である。
【0089】
(viii)プロセッサ1520は、選択されていない、相関表示のグループとして識別されるグループの一部を成していない、または閾値を超える有意値を有する表示がサブセットの主成分空間に残らなくなるまで、ステップ(iv)〜(viii)を繰り返す。
【0090】
最後に、種々の実施形態において、プロセッサ1520は、以下のステップに従って、上記のように、ステップ(10)において、複数のグループ表示に対してPCVGを実施する。
【0091】
(i)プロセッサ1520は、複数のグループ表示に対して主成分分析を実施する。
【0092】
(ii)プロセッサ1520は、主成分分析によって生成されたいくつかの主成分を選択する。
【0093】
(iii)プロセッサ1520は、いくつかの主成分を有するサブセットの主成分空間を作成する。
【0094】
(iv)プロセッサ1520は、閾値よりも大きい有意値を有するサブセットの主成分空間における、複数のグループ表示の表示を選択する。閾値は、例えば、サブセットの主成分空間の原点からの最小距離である。
【0095】
(v)プロセッサ1520は、サブセットの主成分空間の原点から表示まで延在するベクトルの周囲の空間角度を定義する。
【0096】
(vi)プロセッサ1520は、ベクトルの空間角度内で1つ以上の変数のグループを選択する。
【0097】
(vii)プロセッサ1520は、グループが最小数の表示を含む場合、グループを変数の相関表示のグループとして識別する。表示の最小数は、例えば、グループが含むと予想される変数の相関表示の最小数である。
【0098】
(viii)プロセッサ1520は、選択されていない、変数の相関表示のグループとして識別されるグループの一部を成していない、または閾値を超える有意値を有するサブセットの主成分空間に表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返す。
【0099】
図16は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法1600を示す、フローチャートである。
【0100】
方法1600のステップ1605において、分光計を使用して、複数のサンプルが分析される。複数のサンプルは、質量分析(MS)、液体クロマトグラフィ連結質量分析(LC−MS)、または画像質量分析を含むが、これらに限定されない測定技術を使用して分析される。
【0101】
ステップ1610において、分光計を使用して、複数の測定された変数が複数のサンプルから生成される。
【0102】
ステップ1615において、プロセッサを使用して、複数の測定された変数が分光計から取得される。
【0103】
ステップ1620において、プロセッサを使用して、複数の測定された変数が複数の測定された変数のサブセットに分割される。
【0104】
ステップ1625において、プロセッサを使用して、各測定された変数のサブセットに対してPCVGが実施され、各測定された変数のサブセットに対する1つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。
【0105】
ステップ1630において、プロセッサを使用して、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数が計算される。
【0106】
ステップ1635において、プロセッサを使用して、総数がPCVGに対して許容可能な変数の最大数以下であるかどうかが決定される。総数が最大数以下である場合、方法1600は、プロセッサを使用して、ステップ1680に飛ぶ。
【0107】
ステップ1640において、プロセッサを使用して、複数のグループ表示が複数のグループ表示のサブセットに分割される。
【0108】
ステップ1645において、プロセッサを使用して、各グループ表示のサブセットに対してPCVGが実施され、各グループ表示のサブセットに対する1つ以上のグループ表示、および複数のグループ表示のサブセットに対する複数のグループ表示を生成する。
【0109】
ステップ1650において、プロセッサを使用して、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数が計算される。
【0110】
ステップ1655において、プロセッサを使用して、総数が変数の最大数よりも大きいかどうかが決定される。総数が最大数よりも大きい場合、方法1600は、ステップ1640に飛ぶ。
【0111】
ステップ1660において、プロセッサを使用して、複数のグループ表示に対してPCVGが実施され、変数の相関表示の複数のグループを生成する。
【0112】
種々の実施形態において、コンピュータプログラム製品は、大量のデータから相関変数のグループを識別するための方法を実施するために、命令がプロセッサ上で実行されるプログラムをそのコンテンツが含む有形コンピュータ可読記憶媒体を含む。この方法は、別個のソフトウェアモジュールのシステムによって実施される。
【0113】
図17は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法を実施する、別個のソフトウェアモジュールのシステム1700の概略図である。システム1700は、測定モジュール1710と、分割モジュール1720と、グループ化モジュール1730とを含む。
【0114】
測定モジュール1710は、分光測光技術によって生成される複数のサンプルから複数の変数を取得する。分光測光技術は、質量分析(MS)、液体クロマトグラフィ連結質量分析(LC−MS)、または画像質量分析を含むことができるが、これらに限定されない。分割モジュール1720は、複数の測定された変数を複数の測定された変数のサブセットに分割する。
【0115】
グループ化モジュール1730は、いくつかのステップを実施する。
【0116】
(1)グループ化モジュール1730は、グループ化モジュールを使用して、各測定された変数のサブセットに対してPCVGを実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。
【0117】
(2)グループ化モジュール1730は、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【0118】
(3)総数がPCVGに対して許容可能な変数の最大数以下である場合、グループ化モジュール1730は、ステップ(9)に飛ぶ。
【0119】
(4)グループ化モジュール1730は、複数のグループ表示を複数のグループ表示のサブセットに分割する。
【0120】
(5)グループ化モジュール1730は、各グループ表示のサブセットに対してPCVGを実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および複数のグループ表示のサブセットに対する複数のグループ表示を生成する。
【0121】
(6)グループ化モジュール1730は、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【0122】
(7)総数が最大数以下である場合、グループ化モジュール1730は、ステップ(9)に飛ぶ。
【0123】
(8)総数が変数の最大数よりも大きい場合、グループ化モジュール1730は、ステップ(4)〜(8)を繰り返す。
【0124】
(9)グループ化モジュール1730は、複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成する。
【0125】
本教示の側面は、以下の実施例を考慮してさらに理解され得、それらは、いかなる方法によっても、本教示の範囲を制限するものと見なされない。
【0126】
(ソフトウェア実施例)
図6は、本教示に従った、変数グループ化を実施するための、ソフトウェアツールのためのユーザインターフェース600の例示的な画像である。ユーザインターフェース600およびソフトウェアツールは、既存の表示プログラムと一緒に使用することができる。1つの既存の表示プログラムは、例えば、Applied Biosystems/MDS Sciex からのMARKERVIEWTMである。
【0127】
ソフトウェアツールは、既存の表示プログラムが実行している間、および何らかのデータがスコアおよびローディングプロットを生成するように処理された後に実行することができる。開始時、ソフトウェアツールは、表示プログラムに問い合わせし、ローディングデータを取得することができる。処理後、ソフトウェアツールは、データ点が割り当てられた記号になることができるように、表示プログラムのローディング表中の「グループ」列を設定することができる。
【0128】
PCの数は、3つの方法で選択することができる。第1に、PCの数は、選択610を選択することによって、ローディングプロット中に現在表示されているものに基づくことができる。第2に、選択620を使用して、特定の数のPCを入力することができる。第3に、ソフトウェアツールは、選択630を使用して、所定量の分散を説明するいくつかのPCを選択することができる。所定量の分散を表すいくつかのPCを選択することによって、無視されるノイズの量の何らかの制御が可能となる。
【0129】
ユーザインターフェース600のフィールド640において、ユーザは、空間角度パラメータを入力することができる。フィールド650において、ユーザは、原点パラメータからの最小強度または最小距離を入力することができる。所望に応じて、ユーザインターフェース600上の「小を除外(exclude small)」ボタン660を使用して、原点パラメータからの最小距離未満の変数に、それらが任意の後続の分析に使用されないように、除外の印を付けることができる。
【0130】
自動または手動グループ化は、ユーザインターフェース600から選択665を使用して選択することができる。手動の場合、ユーザは、ローディングプロット中で対象となる変数を選択することができ、ソフトウェアツールは、その変数を開始点として使用して、単一のグループを抽出する。ユーザインターフェース600上の選択665を使用して、自動処理を選択することによって、ユーザは、グループを開始するために、フィールド670において追加の閾値を入力することが可能となり、それは、小さい変数が、それらがより大きい変数を含むグループに割り当てられる場合、考慮され得るが、小さい変数は、新しいグループを開始するために使用することができないことを意味する。ユーザインターフェース600はまた、グループが最小数の変数を含むよう要求する、フィールド675を含むことができる。フィールド675は、データが多数の相関変数を含むと予想される場合、使用することができる。
【0131】
上記のように、相関変数は、同じ直線上に実質的に位置し、ローディングプロットの原点の同じ側にある。ソフトウェアツールは、随意に、同じグループ中に、原点の反対側において線の延長に近接している変数を含むことができる。これらの変数は、反相関性がある。相関および反相関グループの包含は、ユーザインターフェース600から選択680を使用して選択することができる。
【0132】
最後に、ユーザインターフェース600の選択685を使用して、ユーザは、例えば、開始変数の強度に基づき、または第1の変数へのm次元空間における近さに基づき割り当てられたグループをソートすることを選択することができる。
【0133】
ユーザインターフェース600は、PCの数を選択する3つの方法(すなわち、選択610、620、および630)を示すが、ソフトウェアツールは、いくつが有意であるかを決定するために、任意の既知のアルゴリズムを使用することができる。実際に、本教示に記載する方法は、使用するPCの数およびグループを反復的に決定するために使用することができる。典型的には、PCが主にノイズによるものになるまで、PCの数の増加はほとんど影響を及ぼさず、それは、グループの数を劇的に急増させ得る。結果として、使用されるPCの数は、グループの数の急増を引き起こす値よりも小さい値に限定することができる。
【0134】
(データ実施例)
本教示の種々の実施形態において、関連変数を決定するために、PCローディングを分析するための方法を記載する。例えば、一連のサンプルから同様の表現パターンを示す方法である。これらの方法は、質量分析(MS)データを使用して示される。しかしながら、これらの方法は、他の用途にも適用可能である。
【0135】
データは、核磁気共鳴(NMR)、赤外分光法(IR)、近赤外分光法(NIR)、紫外分光法(UV)、ラマン分光法、または質量分析(MS)等の種々の分光技術を使用して、各サンプルを分析することによって、生成することができる。分析はまた、上記の分光技術のうちの1つを、液体クロマトグラフィ(LC)、ガスクロマトグラフィ(GC)、またはキャピラリー電気泳動法(CE)等のクロマトグラフ分離と連結する、複合技術を使用して実行され得る。例示的な複合技術は、液体クロマトグラフィ質量分析(LC−MS)である。パターンは、疾病または治療薬による治療による変化等の、対象となっている実際の生物学的変動によるものであり得るか、または無視できる分析のアーチファクトであり得る。関連することが発見された変数は、パターンを引き起こす化合物を決定するために解釈されることができる。
【0136】
これらの方法に対する別の例示的な適用は、複合技術からデータ中のピークを発見することであり得る。データは、分離プロセスの排出物から一連のスペクトルを収集することによって、上記に挙げられる例示的な複合技術を使用して生成される。パターンは、ピークが分離から溶出する際に観察される強度プロファイルによるものである。関連変数は、同じパターンの変動を有し、重複(未分離)ピークが決定されることができる。関連することが発見された変数は、パターンを引き起こす化合物を決定するために解釈することができる。
【0137】
これらの方法に対する別の例示的な適用は、組織画像データを解釈することであり得る。データは、生物組織のサンプルにわたる種々の点において、スペクトル等の複数の測定値を与えることができる任意の技術によって生成される。パターンは、組織の異なる部分における化合物の量の変動によるものであり、器官および細胞小器官等の異なる特徴または構造に対応し得る。関連することが発見された変数は、パターンを引き起こす化合物を決定するために解釈されることができる。
【0138】
MSデータに対して、入力行列の列における変数は、概して、質量ビンまたは重心値であり、液体クロマトグラフィ連結質量分析(LC−MS)に対して、変数は、質量対電荷比(m/z)および保持時間によって特徴付けられる。両方の場合において、データは、変数が全てのサンプルにおいて同じ信号を意味することを確実にするように整合される。
【0139】
図7は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対する2つのPSの例示的なスコアプロット700である。図7〜9に示すMSスペクトルデータは、マトリクス支援レーザー脱離イオン化法(MALDI)を使用して取得した。MALDI MSスペクトルデータは、例えば、APPLIED BIOSYSTEMS/MDS SCIEX TOF/TOFTM飛行時間/飛行時間質量分析計等の質量分析計を使用して、取得することができる。MALDI MSスペクトルデータのPCA分析および視覚化は、例えば、Applied Biosystems/MDS Sciex からのMARKERVIEWTMソフトウェアを使用して、実施することができる。
【0140】
図7は、検定混合物のスパイクを有する、および有しないタンパク質消化物からのサンプルのスコアを示す。検定混合物のスパイクを有するスコアは、図7において記号710で示される。検定混合物のスパイクを有しないスコアは、図7において記号720で示される。記号710および720で図7に示すラベルは、サンプルおよびサンプルグループ名の組み合わせである。
【0141】
図7に示すように、スパイクされた710サンプルおよびスパイクされていない720サンプルは、第1のPCによって明確に分離され、それは、最大の分散を説明する。スパイクされた710サンプルは、より大きいPC1スコアを有し、それらが、スパイクされていない720サンプルよりも、図8に示すように、大きい正のローディングを有する変数を比較的より多く有することを示す。
【0142】
図8は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対する2つのPSの例示的なローディングプロット800である。プロット800中のラベルは、変数の重心m/z値に対応する。
【0143】
図8に示す実施例において、最大のPC1ローディングを有する変数は、プロットの原点を通過する直線810上に位置する傾向がある。これらの変数が、相関性があり、サンプルセットにわたって同じ挙動を示すため、この特徴が生じる。
【0144】
図8はまた、ローディングプロットの解釈におけるパレートスケーリングの1つの利点を示す。任意の特定の同位体クラスタに対して、原点からの距離は、ピークの相対強度を反映する。したがって、同位体クラスタのメンバーが、予想と同じ挙動を有するかどうかを決定することができ、それは、観察された分離/相関の信頼性を増加させる。
【0145】
図9は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対するいくつかの代表的な変数910の例示的なプロファイルプロット900である。プロファイルプロットは、複数のサンプルの関数としての、1つ以上の変数の応答のプロットである。図9における変数910に対する相関は、ノイズが原因で完璧ではない。プロファイルのわずかな変動は、図8に示す相関線810周囲の散乱を引き起こす。
【0146】
種々の実施形態において、ピークの成分は、一群のスペクトルからのデータに対して多変量解析技術を使用して決定することができる。ピークが一群のスペクトルにわたって異なる挙動を有するデータ点を含む場合、ピークは、コンボリューションピークであると決定される。
【0147】
図10は、本教示に従った、コンボリューションピークを識別するための方法1000を示す、フローチャートである。
【0148】
方法1000のステップ1010において、複数のスペクトルが取得される。複数のスペクトルは、例えば、複数のサンプルから取得される。種々の実施形態において、複数のスペクトルは、単一のサンプルから取得される。種々の実施形態において、複数のスペクトルを取得するステップは、分光法、質量分析法、または核磁気共鳴分析法を実施するステップを含むことができるが、これらに限定されない。
【0149】
ステップ1020において、複数のスペクトルからのデータ点を複数のグループに割り当てるために、多変量解析技術が使用される。
【0150】
ステップ1030において、複数のスペクトルからピークが選択される。
【0151】
ステップ1040において、ピークが複数のグループのうちの2つ以上のグループに割り当てられるデータ点を含む場合、ピークは、コンボリューションピークとして識別される。
【0152】
方法1000の種々の実施形態において、多変量解析技術は、教師無しクラスタリングアルゴリズムを含むことができる。教師無しクラスタリングアルゴリズムは、自己組織化マップ、k平均クラスタリングアルゴリズム、または階層クラスタリングアルゴリズムを含むことができるが、これらに限定されない。
【0153】
教師無しクラスタリングアルゴリズムはまた、データ点に対して主成分分析を実施するステップと、データ点を複数のグループに割り当てるために、主成分分析後に、相関するデータ点を識別するための方法を使用するステップとを含むことができる。主成分分析によって生成されるいくつかの主成分が選択されることができる。いくつかの主成分を有するサブセットの主成分空間が形成されることができる。サブセットの主成分空間におけるデータ点が選択されることができる。ベクトルは、サブセットの主成分空間の原点からデータ点まで延長されることができる。サブセットの主成分空間中、かつベクトルの周囲の空間角度内の1つ以上のデータ点は、相関するデータ点のグループとして識別されることができる。次いで、相関するデータ点のグループは、複数のグループに割り当てられることができる。
【0154】
種々の実施形態において、方法1000はまた、ピークの成分に関する情報を入手するために、複数のグループのうちの2つ以上のグループのうちの1つ以上のグループを処理するステップを含むことができる。この情報は、強度データ、質量データ、化学シフトデータ、または波長データを含むことができるが、これらに限定されない。
【0155】
種々の実施形態において、方法1000は、任意の分光技術およびサンプル収集方法と共に使用することができる。
【0156】
種々の実施形態において、方法1000はまた、液体クロマトグラフィ質量分析、ガスクロマトグラフィ質量分析、キャピラリー電気泳動質量分析、超臨界流体クロマトグラフィ質量分析、イオン移動度質量分析、非対称場イオン移動度質量分析、液体クロマトグラフィ核磁気共鳴分析、液体クロマトグラフィ紫外分光分析、ガスクロマトグラフィ赤外分光分析、または空間分析等が挙げられるが、これらに限定されない分析技術から、複数のスペクトルを取得するステップを含むことができる。
【0157】
種々の実施形態において、関連データ点は、複数のサンプルを分析することによって決定することができる。関連データ点は、それらが複数のサンプルにわたって相関する場合に決定することができる。例えば、データ点がプロファイルスペクトルの一部である場合、一重項であるように思われるスペクトルピークが発見され得るが、実際は、異なって挙動する成分を有する。
【0158】
サンプルは、実際の物理的サンプルからの一連の単一スペクトルであり得る。スペクトルは、直接測定され得、または個々のサンプルのLCMS分析からの全てのスペクトルを組み合わせることによって取得され得る。サンプルは、同じサンプルからの一連のスペクトル、例えば、LCMSピークにわたって取得されるスペクトルであり得る。スペクトル間のコンボリューションピークの成分の比率の何らかの変動が存在することが重要であるが、正確な形態が既知である必要はない。
【0159】
図11は、本教示に従った、スペクトルからのコンボリューションピーク1110の例示的なプロット1100である。異なる記号1120、1130、および1140は、主成分分析後に変数をグループ化するための方法を使用して割り当てられる異なるグループのデータ点に対応する。単一のサンプルからスペクトルを取得したが、相関挙動を有する各ピークの異なる部分を示すために、複数のサンプルからのスペクトルを使用することによって、グループを決定した。
【0160】
図12は、本教示に従って、第1のグループ1220の各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロット1200である。第1のグループ1220は、図11に示す記号1120に対応する。
【0161】
図13は、本教示に従って、第2のグループ1330の各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロット1300である。第2のグループ1330は、図11に示す記号1130に対応する。
【0162】
図14は、本教示に従って、第3のグループ1440の各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロット1400である。第3のグループ1440は、図11に示す記号1140に対応する。
【0163】
プロファイルプロットは、サンプルにわたるデータ点の反応を示す。図12のプロット1200、図13のプロット1300、および図14のプロット1400は、それぞれ、図11の記号1120、1130、および1140に対応するデータ点のプロファイルプロットである。図11の記号1120に対応する図12のプロット1200は、図11の記号1130に対応する図13のプロット1300とは異なるプロファイルを示す。図11の記号1120および1130によって示されるデータ点は、それぞれ、図12のプロット1200および図13のプロット1300の全てのサンプル中に存在するが、特定のサンプルにおいてより強度の値を示す。これは、それらが、実際には、別々の化合物に属していることを示す。
【0164】
図11において、記号1140によって表され、図14のプロット1400において、サンプルにわたってプロットされるデータ点は、図14のプロット1400が図12のプロット1200および図13のプロット1300の合計を表しているため、このデータ点が、図11において記号1120によって表されるデータ点に対応する化合物、および図11において記号1130によって表されるデータ点に対応する化合物中に存在する可能性が高いことを示す。したがって、図14の第3のグループ1430は、別個のグループであるが、追加の化合物の存在を示していない。したがって、同じピークと関連付けられるグループは、存在する化合物の実際の数を決定するように処理されなければならない。
【0165】
本教示は、種々の実施形態と併せて記載されているが、本教示は、そのような実施形態に限定されるよう意図されていない。反対に、本教示は、当業者によって理解されるように、種々の代替物、修正物、および同等物を包含する。
【0166】
さらに、種々の実施形態の記載において、本明細書は、特定のステップの順序として方法および/またはプロセスを示した場合がある。しかしながら、該方法またはプロセスが、本明細書に記載する特定のステップの順序に依存しない限りにおいて、該方法またはプロセスは、記載する特定のステップの順序に限定されるべきではない。当業者が理解するように、他のステップの順序が可能であり得る。したがって、本明細書に記載する特定のステップの順序は、特許請求の範囲の制限と解釈されるべきではない。さらに、該方法またはプロセスに関する特許請求の範囲は、書かれた順序でのそれらのステップの実施に限定されるべきではなく、当業者は、該順序が変更されてもよく、それにもかかわらず、種々の実施形態の精神および範囲の範囲内にとどまることを容易に理解することができる。
【技術分野】
【0001】
(関連出願の引用)
本願は、米国特許出願第12/200,636号(2008年8月28日出願、「636出願」と呼ぶ)の一部継続出願である。「636出願」は、米国特許出願第11/848,717号(2007年8月31日出願、「717出願」と呼ぶ)の一部継続出願である。「636出願」は、米国仮特許出願第61/057,719号(2008年5月30日出願、「719出願」と呼ぶ)の利益も主張する。上記すべての出願は、それらの全体が参照により本明細書に引用される。
【発明の概要】
【課題を解決するための手段】
【0002】
大量の質量分析(MS)データを生成するための能力は、データ処理のための適切な方法を必要とし、具体的には、ユーザがデータ内の重要な側面およびパターンに焦点を合わせ、それらを解釈することを可能にする方法を必要とする。多数のサンプルからのMSデータ、液体クロマトグラフィ連結質量分析(LC−MS)データ、および画像MSデータの高次元性(多数の変数)は、問題となり得る。なぜなら、それが、独立成分分析(ICA)および線形判別分析(LDA)等のある特定の処理オプションを除外するからであり、かつ、効率的でタイムリーな処理のために、大きなコンピュータリソースを必要とし得る(例えば、低速仮想メモリの使用を回避するために)からである。
【0003】
当業者は、以下に記載する図面が例示目的のみであることを理解するであろう。図面は、いかなる方法によっても、本教示の範囲を制限するよう意図されない。
【図面の簡単な説明】
【0004】
【図1】図1は、本教示の実施形態が実装され得る、コンピュータシステムを示すブロック図である。
【図2】図2は、本教示と一致している主成分変数グループ化(PCVG)を使用して、複数のサンプルからの複数の変数の主成分分析後、相関変数のグループを識別するための方法を示す、例示的なフローチャートである。
【図3】図3は、本教示に従って、選択された変数の空間角度内で1つ以上の変数のセットをどのように発見することができるかを示す、例示的な図である。
【図4】図4は、本教示と一致している測定技術によって生成される複数のサンプルからの複数の変数のPCA後、変数をグループ化するためのコンピュータシステムを示す、例示的な概略図である。
【図5】図5は、n次元空間でのデータ処理のために使用することができ、かつ本教示と一致している、コンピュータによって実装される方法を示す、例示的なフローチャートである。
【図6】図6は、本教示に従った、変数グループ化を実施するための、ソフトウェアツールのためのユーザインターフェースの例示的な画像である。
【図7】図7は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対する2つの主成分(PC)の例示的なスコアプロットである。
【図8】図8は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対する2つのPCの例示的なローディングプロットである。
【図9】図9は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対するいくつかの代表的な変数の例示的なプロファイルプロットである。
【図10】図10は、本教示に従った、コンボリューションピークを識別するための方法を示す、フローチャートである。
【図11】図11は、本教示に従った、スペクトルからのコンボリューションピークの例示的なプロットである。
【図12】図12は、本教示に従って、第1のグループの各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロットである。
【図13】図13は、本教示に従って、第2のグループの各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロットである。
【図14】図14は、本教示に従って、第3のグループの各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロットである。
【図15】図15は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するためのシステムを示す、概略図である。
【図16】図16は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法を示す、フローチャートである。
【図17】図17は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法を実施する、別個のソフトウェアモジュールのシステムの概略図である。
【発明を実施するための形態】
【0005】
本教示の1つ以上の実施形態を詳細に記載する前に、当業者は、本教示が、発明を実施するための形態に記載されるか、または図面に示される構造の詳細、構成要素の配列、およびステップの配列に対するそれらの応用が制限されていないことを理解するであろう。また、本明細書で使用される表現および用語は、説明目的であり、制限するものと見なされるべきではないことを理解されたい。
【0006】
(コンピュータによって実装されるシステム)
図1は、本教示の実施形態が実装され得るコンピュータシステム100を示す、ブロック図である。コンピュータシステム100は、情報を通信するためのバス102または他の通信機構と、情報を処理するための、バス102と連結されるプロセッサ104とを含む。コンピュータシステム100はまた、ベースコールを決定するための、バス102に連結されるランダムアクセスメモリ(RAM)または他の動的記憶デバイスであり得る、メモリ106と、プロセッサ104によって実行される命令とを含む。メモリ106はまた、プロセッサ104によって実行される命令の実行中に一時的な変数または他の中間情報を記憶するために使用され得る。コンピュータシステム100はさらに、プロセッサ104に対する静的情報および命令を記憶するための、バス102に連結されるリードオンリメモリ(ROM)108または他の静的記憶デバイスを含む。情報および命令を記憶するために、磁気ディスクまたは光ディスク等の記憶デバイス110が提供され、バス102に連結される。
【0007】
コンピュータシステム100は、コンピュータユーザに情報を表示するための、陰極線管(CRT)または液晶ディスプレイ(LCD)等のディスプレイ112に、バス102を介して連結され得る。英数字および他のキーを含む入力デバイス114が、プロセッサ104に情報およびコマンド選択を通信するために、バス102に連結される。他の種類のユーザ入力デバイスは、プロセッサ104に方向情報およびコマンド選択を通信するための、およびディスプレイ112上でのカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キー等のカーソル制御116である。この入力デバイスは典型的には、デバイスが平面内で位置を指定することを可能にする、第1の軸(すなわち、x)および第2の軸(すなわち、y)の2つの軸において2つの自由度を有する。
【0008】
コンピュータシステム100は、本教示を実施することができる。本教示のある特定の実装に従って、メモリ106中に含まれる1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ104に応答して、コンピュータシステム100によって結果がもたらされる。そのような命令は、記憶デバイス110等の別のコンピュータ可読媒体から、メモリ106に読み込まれ得る。メモリ106中に含まれる命令のシーケンスの実行によって、プロセッサ104は、本明細書に記載するプロセスを実施する。あるいは、本教示を実行するためのソフトウェア命令の代わりに、またはそれと組み合わせて、有線回路が使用され得る。したがって、本教示の実装は、ハードウェア回路およびソフトウェアの任意の特定の組み合わせに限定されない。
【0009】
ここで使用される「コンピュータ可読媒体」という用語は、実行のために、プロセッサ104に命令を提供することに関与する、任意の媒体を指す。そのような媒体は、不揮発性媒体、揮発性媒体、および伝送媒体が挙げられるが、これらに限定されない、多くの形態を取ってもよい。不揮発性媒体としては、例えば、記憶デバイス110等の光または磁気ディスクが挙げられる。揮発性媒体としては、メモリ106等の動的メモリが挙げられる。伝送媒体としては、バス102を含むワイヤを含む、同軸ケーブル、銅線、および光ファイバが挙げられる。
【0010】
コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、もしくは任意の他の磁気媒体、CD−ROM、任意の他の光媒体、パンチカード、紙テープ、任意の他の孔パターンを有する物理媒体、RAM、PROM、およびEPROM、FLASH−EPROM、任意の他のメモリチップもしくはカートリッジ、または任意の他のコンピュータが読み取ることができる有形媒体が挙げられる。
【0011】
実行のために、プロセッサ104に1つ以上の命令の1つ以上のシーケンスを伝送することに、種々の形態のコンピュータ可読媒体が関与し得る。例えば、命令は、最初、リモートコンピュータの磁気ディスク上で伝送され得る。リモートコンピュータは、命令をその動的メモリにロードし、モデムを使用して電話線を通して命令を送信することができる。コンピュータシステム100にローカルなモデムは、電話線上でデータを受信し、赤外線トランスミッタを使用して、データを赤外線信号に変換することができる。バス102に連結される赤外線検出器は、赤外線信号で伝送されるデータを受信し、バス102上にデータを配置することができる。バス102は、データをメモリ106に伝送し、そこから、プロセッサ104は、命令を読み出し、実行する。メモリ106によって受信される命令は、随意に、プロセッサ104による実行の前あるいは後に、記憶デバイス110上に記憶され得る。
【0012】
種々の実施形態に従って、方法を実施するようにプロセッサによって実行されるように構成される命令は、コンピュータ可読媒体上に記憶される。コンピュータ可読媒体は、デジタル情報記憶するデバイスであり得る。例えば、コンピュータ可読媒体は、ソフトウェアを記憶するための、当該技術分野で公知のコンパクトディスクリードオンリーメモリ(CD−ROM)を含む。コンピュータ可読媒体は、実行されるように構成される命令を実行するのに好適なプロセッサによってアクセスされる。
【0013】
本教示の種々の実装の以下の説明は、例示および説明目的で示されている。それは、包括的なものではなく、本教示を開示される正確な形態に限定しない。修正および変更が、上記の教示を踏まえて可能であるか、または本教示の実践から得られ得る。さらに、記載された実装は、ソフトウェアを含むが、本教示は、ハードウェアおよびソフトウェアの組み合わせとして、またはハードウェア単独で実装され得る。本教示は、オブジェクト指向および非オブジェクト指向プログラミングシステムの両方で実装され得る。
【0014】
(PCA)
主成分分析(PCA)は、データを視覚化および分類することを補助するために幅広く使用される、多変量解析(MVA)ツールである。PCAは、多次元データセットの次元性を低減すると同時に、その分散に最も寄与するデータセットの特徴を保持するために使用され得る、統計技術である。このため、PCAはしばしば、線形判別分析(LDA)等、高次元データを上手く処理しない技術に対して、データを前処理するために使用される。
【0015】
PCAは、元のセット中の情報の大部分を表す主成分(PC)変数の実質的により小さいセットへの変数の元のセットの固有ベクトル変換を使用することによって、多数の相互に関係する変数の次元性を低減することができる。変数の新しいセットは、最初のいくつかが、元の変数の全てにおいて存在する変動の大部分を保持するように順序付けられる。より具体的には、各PCは、元の測定変数の全ての線形結合である。第1は、測定された変数の最大の分散の方向におけるベクトルである。後続のPCは、測定データの最大の変動を表すように、かつすでに計算されたPCに直交するように選択される。したがって、PCは、重要性の高い順に並べられる。PCAによって抽出されるPCの数(n)は、サンプルまたは変数の数のより小さい方を超えることができない。しかしながら、変数の多くは、データセット中のノイズに対応し、有用な情報を含まない場合がある。
【0016】
PCAは、データが行列の形態(以下、「入力行列」と称される)で示されることを必要とし、例えば、行は、サンプルを表し、列は、変数を表し、入力行列の要素またはセルは、特定のサンプル中のその変数の量を示す。あるいは、入力行列は、変数を表す行、サンプルを表す列、および特定のサンプル中のその変数の量を示す要素を含むことができる。後者の場合、ローディングプロットに適用されるものとして記載される処理は、代わりに、スコアプロットに適用される。入力行列は、一連のスコアおよびローディングベクトルに分解することができる。ローディングベクトルは、特定のPCに対して変数が行う寄与を示す。スコアベクトルは、特定のサンプル中の各成分の量の測定値である。
【0017】
スコアおよびローディングプロットは、軸が2つ以上のPCを表す場合に表示することができ、サンプルは、それらのスコアに従って位置付けられ、変数は、ローディングに従って位置付けられる。スコアは、サンプル中に存在する各PCの量を反映し、ローディングは、PCに対する各変数の重要性を示す。
【0018】
PCAは、任意のサンプルグループの知識も必要ない、教師無し技術であるが、この情報は、頻繁に入手可能であり、スコアプロットを解釈するのに役立つ。サンプルグループに関する知識は、例えば、サンプルが予想される方法で分離するかどうかを決定するのに役立ち得る。スコアプロットとは対照的に、ローディングプロットは、特に、多くの変数が存在し、どれも主要ではない時、またはデータが強度の影響を除去するように自動スケーリングされている時、解釈が非常に困難であり得る。
【0019】
PCA前に相関変数を除去することが一般的であるが、それらの識別は、さらなる解釈に役立ち得る。例えば、質量スペクトルデータにおいて、相関ピークは、予測不可能な断片であり得るか、または同位体、付加物、および異なる荷電状態が挙げられるが、これらに限定されない、既知の原点を有し得る。予測不可能な断片の認識は、スペクトルを生成した化合物を識別するのに役立ち得る。結果として、PCAを実施する前に相関変数を除去するよりもむしろ、生データから抽出される全ての変数を保持することが有益であり得る。なぜなら、これは、ローディングプロットが相関特徴を発見するように解釈されることを可能にするからである。本質的に、PCAは、サンプルを分離およびグループ化するために変数を使用しているが、変数を分離および集団化するためにサンプルを使用してもいる。いったん相関変数が識別されると、それらは、例えば、相関変数の最も強度の高い変数、相関変数の平均強度を有する新しい変数、または相関変数の合計が挙げられるが、これらに限定されない、何らかのグループ表示で相関変数のセットを置き換えることを含む、いくつかの方法で単純化することができる。
【0020】
(データ処理の方法)
(主成分変数グループ化)
種々の実施形態において、相関変数のグループは、主成分分析(PCA)、続いて、変数グループ化を使用して識別される。PCA、続く、変数グループ化は、主成分変数グループ化(PCVG)と呼ぶことができる。
【0021】
図2は、本教示と一致しているPCVGを使用して、複数のサンプルから複数の変数のPCA後、相関変数のグループを識別するための方法200を示す、例示的なフローチャートである。
【0022】
方法200のステップ210において、PCAによって生成されたいくつかのPCが選択される。選択されるPCの数は、例えば、PCAによって生成されるPCの総数未満である。種々の実施形態において、選択されるPCの数は、全分散の指定された割合を表す最小数である。
【0023】
ステップ220において、選択されたいくつかのPCを有するサブセットのPC空間が作成される。
【0024】
ステップ230において、サブセットのPC空間中で変数が選択される。選択される変数は、例えば、原点から最も遠い変数である。
【0025】
ステップ240において、サブセットのPC空間の原点から選択された変数まで延在するベクトルの周囲で、空間角度が定義される。
【0026】
ステップ250において、ベクトルの空間角度内で、サブセットのPC空間中の1つ以上の変数のセットが選択される。種々の実施形態において、セット内の1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は、第1のセットに対して選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小の距離である。
【0027】
ステップ260において、セットが最小数の変数を含む場合、セットがグループに割り当てられる。グループは、例えば、相関変数を識別する。変数の最小数は、例えば、グループが含むと予想される相関変数の数である。変数の最小数は、例えば、1または1よりも大きい数であり得る。
【0028】
種々の実施形態において、方法200はまた、グループから第2のベクトルを計算するステップと、第2のベクトルの空間角度内で1つ以上の変数の第2のセットを選択するステップと、第2のセットが最小数の変数を含む場合、グループの変数を第2のセットの変数と置き換えるステップとを含むことができる。第2のベクトルの空間角度は、ステップ240において定義される空間角度と同一の空間角度であり得、または第2のベクトルの空間角度は、ステップ240において定義される空間角度とは異なる空間角度であり得る。第2のベクトルは、グループ中の変数の任意の線形または非線形結合であり得る。例えば、第2のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態において、第2のセット内の1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は、第2のセットに対して選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小距離である。
【0029】
種々の実施形態において、方法200はまた、識別される各グループに、異なる記号を割り当てるステップを含むことができる。次いで、これらの記号は、ローディングデータを視覚化および解釈するために使用することができる。
【0030】
種々の実施形態において、方法200はまた、グループに、反相関である変数のセットを割り当てるステップをさらに含むことができる。これは、サブセットのPC空間の原点の反対側に、ベクトルを含む線を延長するステップと、原点の反対側の線の空間角度内で、1つ以上の変数の第2のセットを選択するステップと、セットおよび第2のセットが最小数の変数を含む場合、第2のセットをグループに追加するステップとを含む。種々の実施形態において、第2のセット内の1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は、第2のセットに対して選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小距離である。
【0031】
種々の実施形態において、方法200はまた、さらなる分析からセットを除去するステップと、PC空間中で第2の変数を選択するステップと、サブセットのPC空間の原点から第2の変数まで延在する第2のベクトルの空間角度内で、1つ以上の変数の第2のセットを選択するステップと、第2のセットが最小数の変数を含む場合、変数の第2のグループに、第2のセットを割り当てるステップとを含むことができる。第2のグループは、相関変数も識別する。変数の最小数は、例えば、1または1よりも大きい数であり得る。第2の変数は、例えば、サブセットのPC空間の原点から最も遠い、割り当てられていない変数であり得る。
【0032】
種々の実施形態において、方法200はまた、第2のグループから第3のベクトルを計算するステップと、第3のベクトルの空間角度内で、1つ以上の変数の第3のセットを選択するステップと、第3のセットが最小数の変数を含む場合、第2のグループの変数を第3のセットの変数で置き換えるステップとを含むことができる。第2のグループの変数は、例えば、第2のセットから割り当てられる。第3のベクトルは、第2のグループ中の変数の任意の線形または非線形結合であり得る。例えば、第3のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態において、閾値未満の有意値を有する第3のセット内の1つ以上の変数は、選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小距離である。視覚化および解釈の目的で、第2の異なる記号を第2のグループに割り当てることができる。
【0033】
種々の実施形態において、方法200はまた、第2のグループに、反相関である一式の変数を割り当てるステップも含むことができる。これは、原点の反対側に、第2のベクトルを含む線を延長するステップと、原点の反対側の線の空間角度内で、1つ以上の変数の第3のセットを選択するステップと、セットおよび第3のセットが最小数の変数を含む場合、第3のセットを第2のグループに追加するステップとを含む。変数の最小数は、例えば、1または1よりも大きい数であり得る。種々の実施形態において、第3のセット内の1つ以上の変数が閾値未満の原点からの距離を有する場合、1つ以上の変数は、選択されない。閾値は、例えば、最小距離パラメータである。
【0034】
種々の実施形態において、方法200はまた、割り当てられたグループをソートするステップも含むことができる。ソートするステップは、例えば、各グループ中の原点からの最大距離によって行うことができる。
【0035】
種々の実施形態において、方法200はまた、さらなる分析からステップ260においてグループに割り当てられた変数を除去し、さらなる分析から最後に割り当てられたグループの変数を除去するステップを繰り返すステップと、サブセットのPC空間中で新しい変数を選択するステップと、原点から新しい変数まで延在する新しいベクトルの空間角度内で、1つ以上の変数の新しいセットを選択するステップと、新しいセットが最小数の変数を含む場合、新しいセットを新しいグループに割り当てるステップと、グループに割り当てられない変数が閾値を超えなくなるまで、さらなる分析から新しいグループの変数を除去するステップとを含むことができる。閾値は、例えば、原点からの距離であり得る。これらのステップを繰り返すことで、例えば、複数の相関変数のグループが生成される。
【0036】
上記のように、PCAは、多数の変数および比較的少ないサンプルを有するデータに適用することができる(このデータは、高次元を有するといわれる)。他の分析技術は、サンプルの数が変数の数を超えるデータを必要とする。これらの他の分析技術の実施例としては、線形判別分析(LDA)および独立成分分析(ICA)が挙げられるが、これらに限定されない。したがって、PCAは、LDAおよびICA等の他の分析技術で使用するために、データの次元性を低減するために使用することができる。低減された次元は、グループのPCまたはグループ表示であり得る。グループは、元の変数の解釈可能な組み合わせであるため、グループ表示の使用は好ましい。
【0037】
種々の実施形態において、方法200はまた、グループ表示をグループに割り当てるステップと、後続の分析技術への入力として、グループ表示および複数のサンプルを使用するステップとを含むことができる。グループ表示は、グループの最も強度の高い変数、グループの平均強度を有する変数、またはグループの変数の合計を含むことができるが、これらに限定されない。後続の分析技術は、クラスタリング技術またはパターン認識技術を含むことができるが、これらに限定されない。後続の分析技術は、LDAまたはICAを含むことができるが、これらに限定されない。
【0038】
種々の実施形態において、方法200はまた、後続の分析技術への入力のために、新しい変数を生成するように、グループ表示を処理するステップも含むことができる。後続の分析技術は、LDA、ICA、またはPCAを含むことができるが、これらに限定されない。グループ表示を処理するステップは、グループ表示および少なくとも1つの他のグループ表示の非線形結合を生成するステップを含むことができるがこれに限定されない。例えば、新しい変数は、グループ表示および別のグループ表示の比であり得る。
【0039】
本教示の種々の実施形態において、例えば、高強度の変数が分析を支配しないように、PCA処理にデータスケーリングが実施される。1つのスケーリング技術は、自動スケーリングであり、各変数に対する値は、最初に、変数の全ての値の平均を引き(すなわち、平均センタリング)、次いで、変数の分散で割ることによって処理される。自動スケーリングは、全ての変数に均等に重み付けし、変数が無関係であり、幅広く異なるスケールを有することができる場合、適切である。しかしながら、変数が全て同じ種類であり(すなわち、質量スペクトルまたはクロマトグラフィピーク)、より強度の高い変数が、より有意であり、ノイズである可能性が低い時は、パレートスケーリングがより有利であり得る。パレートスケーリングでは、平均センタリングされた値は、分散の平方根で割られる。パレートスケーリングは、元の強度の寄与を低減するが、除去はせず、ローディングプロットの解釈に役立つ。
【0040】
図3は、本教示に従って、選択された変数360の空間角度350内で1つ以上の変数のセット340をどのように発見することができるかを示す、例示300である。図3に示す三次元PC空間は、PC1 310、PC2 320、およびPC3 330のPCを含む。変数360は、この三次元PC空間中で選択される。空間角度350は、原点から選択された変数360まで延在するベクトルの周囲に定義される。空間角度350内に見られる1つ以上の変数は、1つ以上の変数のセット340として選択される。
【0041】
図4は、本教示と一致している測定技術によって生成される複数のサンプルからの複数の変数のPCA後、変数をグループ化するためのコンピュータシステム400を示す、例示的な概略図である。コンピュータシステム400は、グループ化モジュール410を含む。グループ化モジュール410は、PCAによって生成されたいくつかのPC選択し、いくつかのPCを有するサブセットのPC空間を作成し、変数を選択し、原点から変数まで延在するベクトルの周囲の空間角度を定義し、ベクトルの空間角度内で1つ以上の変数のセットを選択し、セットが最小数の変数を含む場合、セットをグループに割り当てる。
【0042】
コンピュータシステム400の種々の実施形態において、サンプルの構成要素当たり2以上の変数を生成する測定技術を使用して、複数の変数を生成することができる。複数の変数は、例えば、図15に示すような測定デバイスを使用して生成される。測定デバイスは、分光計または質量分析計であり得るが、これらに限定されない。測定技術は、核磁気共鳴、赤外分光法、近赤外分光法、紫外分光法、ラマン分光法、または質量分析を含むことができるが、これらに限定されない。種々の実施形態において、複数の変数は、分離技術と組み合わせて、サンプルの構成要素当たり2以上の変数を生成する測定技術を使用して、生成することができる。分離技術は、液体クロマトグラフィ、ガスクロマトグラフィ、またはキャピラリー電気泳動法を含むことができるが、これらに限定されない。
【0043】
種々の実施形態において、グループ化モジュール410はまた、PC空間中で第2の変数を選択し、原点から第2の変数まで延在する第2のベクトルの空間角度内で、1つ以上の変数の第2のセットを選択し、第2のセットが最小数の変数を含む場合、第2のセットを変数の第2のグループに割り当てることができる。
【0044】
本教示と一致した別のPCVG方法を以下に概説する。
1.パレートスケーリングを使用して、全ての変数に対してPCAを実施する。
2.使用されるPCの数(m)を決定する。抽出されるPCの全てnの使用は、元のデータを正確に再生する。しかしながら、これらのPCの多くは、データ中のノイズの揺らぎを表し、情報を失わずに無視することができる。m個のPCの選択は、データを効果的に平滑化する。各変数は、このm次元空間中のベクトルによって表される。
3.原点から最も遠い変数に対応する目標ベクトル(t)を決定する。これを有効にするために、自動スケーリングは使用しない。自動スケーリングは、小さいノイズピークを含む全ての変数に均等に重み付けするため、望ましくない。
4.このベクトルの周囲の空間角度(α)を定義し、その角度内にある他のデータ点(ベクトル)を発見し、随意に、低強度の変数を無視する。第2のベクトルがxである場合、xと目標ベクトルとの間の角度(θ)は、
x.t=|x||t|cos(θ)
から発見することができる。
5.全ての選択されたベクトルの平均を計算し、新しい平均ベクトルを使用してステップ3を繰り返し、全ての選択された変数をグループに割り当てる。このようにして、「再センタリング」は、空間角度の配向を微調整し、最も強度の高い変数が何らかの形で非典型的である場合、有効であり得る。例えば、ピークが最も集中したサンプル中で飽和した場合、プロファイルは、歪められ得る。パレートスケーリングが使用されてきたため、平均ベクトルを計算することも、より低い強度のイオンが結果に与える影響を少なくする。
6.十分な強度を有する変数が残らなくなるまで、すでにグループ化された変数を無視して、ステップ3からのプロセスを繰り返す。
【0045】
図5は、n次元空間での処理データのために使用することができ、かつ本教示と一致している、コンピュータによって実装される方法500を示す、例示的なフローチャートである。
【0046】
方法500のステップ510において、全ての変数に対してPCAが実施され、指定のPCのサブセットが使用される。
【0047】
ステップ520において、低い有意性を有する変数は、除去される。選択されたスケーリングおよびPCA有意性基準に対して低い有意性を有する変数をフィルタにかけて除去することは、任意である。変数をグループ化した後にステップを追加することによって、かつ異なる有意性基準を使用することによって、同じ効果を得ることができる。使用することができる別の有意性基準は、例えば、光学コントラストである。
【0048】
ステップ530において、原点から最も遠い割り当てられていない変数のベクトルが発見される。
【0049】
ステップ540において、ベクトルの空間角度内の全てのベクトルが発見される。
【0050】
ステップ550において、ベクトルの空間角度内のベクトルの平均が発見される。
【0051】
ステップ560において、該平均の空間角度内の全ての割り当てられていない変数が発見され、グループに割り当てられる。次いで、グループに割り当てられる変数は、処理から除去される。
【0052】
ステップ570において、処理に対して任意の変数が残っている場合、方法500は、ステップ530に戻る。処理に対して変数が残っていない場合は、方法500は終了する。
【0053】
この処理の結果は、さらに解釈することができる複数の相関変数のグループ、または後続の分析技術への入力として使用することができるグループ表示である。視覚化の目的で、記号をグループに割り当てることによって、ローディングプロット中のグループ化された変数を識別することが有用である。解釈は、グループの全てのメンバーに対して、強度またはプロファイルプロットを生成することによって支援され得る。
【0054】
(反復主成分変数グループ化)
上記のように、大量のデータを生成する質量分析の能力は、多くのデータ処理技術に対して重大な問題をもたらす。具体的に、多数のサンプルを有する質量分析(MS)データ、液体クロマトグラフィ連結質量分析(LC−MS)データ、および画像MSデータの高次元性(多数の変数)は、これらの技術にとって問題となり得る。
【0055】
MSによって生成される多数の変数はまた、主成分分析(PCA)、続く、変数グループ化、または主成分変数グループ化(PCVG)にとって問題となり得る。PCVGは、少なくとも2つの異なる方法で、多数の変数の影響を受ける可能性がある。第1に、多数の変数は、PCVGアルゴリズムを実施するために使用されるプロセッサまたはコンピュータを圧倒し得る。結果として、データ分析は、妥当な期間で実施することができない。第2に、多数の変数は、PCVGアルゴリズムの特異性を低減し、結果の質を低下させ得る。例えば、大量のデータを処理する時、より小さいデータが、大きいデータセットのノイズ全体によって曖昧にされ得る。
【0056】
種々の実施形態において、PCVGは、大量のデータを処理するために、データのセグメントに反復的に適用される。この技術において、データは、セグメントに慎重に分割される。セグメントは、それらが、PCVGアルゴリズムを実行するために使用されるコンピュータまたはプロセッサの限界に達しないように、かつPCVG結果の特異性の低減を引き起こさないように十分小さくなるように選択される。セグメントはまた、PCVGがあまりに多くの反復を実施する必要なく、複数の相関グループを生成することができるように、セグメントが十分に大きくなるように選択される。
【0057】
データの総量を低減するために、セグメントに対してPCVGを実施することによって生成される各相関変数のグループは、グループ表示と置き換えられる。結果として、全てのセグメントに対してPCVGを実施する結果は、セグメントの全てによって生成されるグループ表示の全てのデータセットである。グループ表示の全ての総数が1回のPCVG実行に対してまだ大きすぎる場合、グループ表示の全てのデータセットは、セグメントに再び分割され、各セグメントに対してPCVGが実施される。このグループ表示の分割、続く、PCVGの反復は、グループ表示の全ての総数が、使用されるプロセッサの制約内で実施し、必要とされる特異性を提供する、PCVGの1回の実行を可能にするのに十分小さくなるまで継続される。
【0058】
いったんグループ表示の全ての総数がPCVGの1回の実行を可能にするのに十分小さくなると、グループ表示の全てのデータセットに対してPCVGが実施され、相関変数のグループが識別される。これらのグループは、元の大量の測定されたMSデータに対する相関変数を表す。
【0059】
図15は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するためのシステム1500を示す、概略図である。システム1500は、分光計1510とプロセッサ1520とを含む。分光計1510は、例えば、質量分析計である。プロセッサ1520は、コンピュータ、マイクロプロセッサ、または分光計1510からの制御信号およびデータを送信および受信し、データを処理することが可能な任意のデバイスであり得るが、これらに限定されない。分光計1510は、複数のサンプルを分析し、複数のサンプルから複数の変数を生成する。
【0060】
プロセッサ1520は、分光計1510と通信している。プロセッサ1520は、いくつかのステップを実施する。
【0061】
(1)プロセッサ1520は、分光計1510から複数の測定された変数を取得し、複数の測定された変数を複数の測定された変数のサブセットに分割する。
【0062】
(2)プロセッサ1520は、各測定された変数のサブセットに対してPCVGを実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。
【0063】
(3)プロセッサ1520は、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【0064】
(4)総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、プロセッサ1520は、ステップ(10)に飛ぶ。最大数は、例えば、プロセッサ1520の処理能力に基づく。種々の実施形態において、最大数は、相関点が異なるサブセットに分割されないように、必要とされる点の数に基づく。
【0065】
(5)プロセッサ1520は、複数のグループ表示を複数のグループ表示のサブセットに分割する。
【0066】
(6)プロセッサ1520は、各グループ表示のサブセットに対してPCVGを実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および複数のグループ表示のサブセットに対する複数のグループ表示を生成する。
【0067】
(7)プロセッサ1520は、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【0068】
(8)総数が最大数以下である場合、プロセッサ1520は、ステップ(10)に飛ぶ。
【0069】
(9)総数が変数の最大数よりも大きい場合、プロセッサは、ステップ(5)〜(9)を繰り返す。
【0070】
(10)プロセッサ1520は、複数のグループ表示に対してPCVGを実施し、変数の相関表示の複数のグループを生成する。
【0071】
種々の実施形態において、プロセッサ1520は、以下のステップに従って、ステップ(2)において各測定された変数のサブセットに対して、PCVGを実施する。
【0072】
(i)プロセッサ1520は、各測定された変数に対して主成分分析を実施する。
【0073】
(ii)プロセッサ1520は、主成分分析によって生成されたいくつかの主成分を選択する。
【0074】
(iii)プロセッサ1520は、いくつかの主成分を有するサブセットの主成分空間を作成する。
【0075】
(iv)プロセッサ1520は、閾値よりも大きい有意値を有するサブセットの主成分空間における、各測定された変数のサブセットの変数を選択する。閾値は、例えば、サブセットの主成分空間の原点からの最小距離である。
【0076】
(v)プロセッサ1520は、原点から変数まで延在するベクトルの周囲の空間角度を定義する。
【0077】
(vi)プロセッサ1520は、ベクトルの空間角度内で1つ以上の変数のグループを選択する。
【0078】
(vii)プロセッサ1520は、グループが最小数の変数を含む場合、グループ表示をグループに割り当てる。変数の最小数は、例えば、グループが含むと予想される相関変数の最小数である。
【0079】
(viii)プロセッサ1520は、選択されていない、グループ表示が割り当てられているグループの一部を成していない、または閾値を超える有意値を有する変数が、サブセットの主成分空間に残らなくなるまで、ステップ(iv)〜(viii)を繰り返す。
【0080】
種々の実施形態において、プロセッサ1520によってステップ(v)において定義される空間角度は、複数の用途に対して一定角度である。一定角度は、例えば、約15度である。種々の実施形態において、プロセッサ1520によってステップ(ii)において選択されるいくつかの主成分は、異なる用途に応じて調節される。主成分の数は、例えば、変数グループの数が、独立した成分の予想される最大数よりも小さくなるように選択される。
【0081】
同様に、種々の実施形態において、プロセッサ1520は、以下のステップに従って、上記のように、ステップ(6)において、各グループ表示のサブセットに対してPCVGを実施する。
【0082】
(i)プロセッサ1520は、各グループ表示のサブセットに対して主成分分析を実施する。
【0083】
(ii)プロセッサ1520は、主成分分析によって生成されたいくつかの主成分を選択する。
【0084】
(iii)プロセッサ1520は、いくつかの主成分を有するサブセットの主成分空間を作成する。
【0085】
(iv)プロセッサ1520は、閾値よりも大きい有意値を有するサブセットの主成分空間における、各グループ表示のサブセットの表示を選択する。閾値は、例えば、サブセットの主成分空間の原点からの最小距離である。
【0086】
(v)プロセッサ1520は、サブセットの主成分空間の原点から表示まで延在するベクトルの周囲の空間角度を定義する。
【0087】
(vi)プロセッサ1520は、ベクトルの空間角度内で1つ以上の表示のグループを選択する。
【0088】
(vii)プロセッサ1520は、グループが最小数の表示を含む場合、グループ表示をグループに割り当てる。表示の最小数は、例えば、グループが含むと予想される相関表示の最小数である。
【0089】
(viii)プロセッサ1520は、選択されていない、相関表示のグループとして識別されるグループの一部を成していない、または閾値を超える有意値を有する表示がサブセットの主成分空間に残らなくなるまで、ステップ(iv)〜(viii)を繰り返す。
【0090】
最後に、種々の実施形態において、プロセッサ1520は、以下のステップに従って、上記のように、ステップ(10)において、複数のグループ表示に対してPCVGを実施する。
【0091】
(i)プロセッサ1520は、複数のグループ表示に対して主成分分析を実施する。
【0092】
(ii)プロセッサ1520は、主成分分析によって生成されたいくつかの主成分を選択する。
【0093】
(iii)プロセッサ1520は、いくつかの主成分を有するサブセットの主成分空間を作成する。
【0094】
(iv)プロセッサ1520は、閾値よりも大きい有意値を有するサブセットの主成分空間における、複数のグループ表示の表示を選択する。閾値は、例えば、サブセットの主成分空間の原点からの最小距離である。
【0095】
(v)プロセッサ1520は、サブセットの主成分空間の原点から表示まで延在するベクトルの周囲の空間角度を定義する。
【0096】
(vi)プロセッサ1520は、ベクトルの空間角度内で1つ以上の変数のグループを選択する。
【0097】
(vii)プロセッサ1520は、グループが最小数の表示を含む場合、グループを変数の相関表示のグループとして識別する。表示の最小数は、例えば、グループが含むと予想される変数の相関表示の最小数である。
【0098】
(viii)プロセッサ1520は、選択されていない、変数の相関表示のグループとして識別されるグループの一部を成していない、または閾値を超える有意値を有するサブセットの主成分空間に表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返す。
【0099】
図16は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法1600を示す、フローチャートである。
【0100】
方法1600のステップ1605において、分光計を使用して、複数のサンプルが分析される。複数のサンプルは、質量分析(MS)、液体クロマトグラフィ連結質量分析(LC−MS)、または画像質量分析を含むが、これらに限定されない測定技術を使用して分析される。
【0101】
ステップ1610において、分光計を使用して、複数の測定された変数が複数のサンプルから生成される。
【0102】
ステップ1615において、プロセッサを使用して、複数の測定された変数が分光計から取得される。
【0103】
ステップ1620において、プロセッサを使用して、複数の測定された変数が複数の測定された変数のサブセットに分割される。
【0104】
ステップ1625において、プロセッサを使用して、各測定された変数のサブセットに対してPCVGが実施され、各測定された変数のサブセットに対する1つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。
【0105】
ステップ1630において、プロセッサを使用して、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数が計算される。
【0106】
ステップ1635において、プロセッサを使用して、総数がPCVGに対して許容可能な変数の最大数以下であるかどうかが決定される。総数が最大数以下である場合、方法1600は、プロセッサを使用して、ステップ1680に飛ぶ。
【0107】
ステップ1640において、プロセッサを使用して、複数のグループ表示が複数のグループ表示のサブセットに分割される。
【0108】
ステップ1645において、プロセッサを使用して、各グループ表示のサブセットに対してPCVGが実施され、各グループ表示のサブセットに対する1つ以上のグループ表示、および複数のグループ表示のサブセットに対する複数のグループ表示を生成する。
【0109】
ステップ1650において、プロセッサを使用して、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数が計算される。
【0110】
ステップ1655において、プロセッサを使用して、総数が変数の最大数よりも大きいかどうかが決定される。総数が最大数よりも大きい場合、方法1600は、ステップ1640に飛ぶ。
【0111】
ステップ1660において、プロセッサを使用して、複数のグループ表示に対してPCVGが実施され、変数の相関表示の複数のグループを生成する。
【0112】
種々の実施形態において、コンピュータプログラム製品は、大量のデータから相関変数のグループを識別するための方法を実施するために、命令がプロセッサ上で実行されるプログラムをそのコンテンツが含む有形コンピュータ可読記憶媒体を含む。この方法は、別個のソフトウェアモジュールのシステムによって実施される。
【0113】
図17は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法を実施する、別個のソフトウェアモジュールのシステム1700の概略図である。システム1700は、測定モジュール1710と、分割モジュール1720と、グループ化モジュール1730とを含む。
【0114】
測定モジュール1710は、分光測光技術によって生成される複数のサンプルから複数の変数を取得する。分光測光技術は、質量分析(MS)、液体クロマトグラフィ連結質量分析(LC−MS)、または画像質量分析を含むことができるが、これらに限定されない。分割モジュール1720は、複数の測定された変数を複数の測定された変数のサブセットに分割する。
【0115】
グループ化モジュール1730は、いくつかのステップを実施する。
【0116】
(1)グループ化モジュール1730は、グループ化モジュールを使用して、各測定された変数のサブセットに対してPCVGを実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。
【0117】
(2)グループ化モジュール1730は、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【0118】
(3)総数がPCVGに対して許容可能な変数の最大数以下である場合、グループ化モジュール1730は、ステップ(9)に飛ぶ。
【0119】
(4)グループ化モジュール1730は、複数のグループ表示を複数のグループ表示のサブセットに分割する。
【0120】
(5)グループ化モジュール1730は、各グループ表示のサブセットに対してPCVGを実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および複数のグループ表示のサブセットに対する複数のグループ表示を生成する。
【0121】
(6)グループ化モジュール1730は、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【0122】
(7)総数が最大数以下である場合、グループ化モジュール1730は、ステップ(9)に飛ぶ。
【0123】
(8)総数が変数の最大数よりも大きい場合、グループ化モジュール1730は、ステップ(4)〜(8)を繰り返す。
【0124】
(9)グループ化モジュール1730は、複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成する。
【0125】
本教示の側面は、以下の実施例を考慮してさらに理解され得、それらは、いかなる方法によっても、本教示の範囲を制限するものと見なされない。
【0126】
(ソフトウェア実施例)
図6は、本教示に従った、変数グループ化を実施するための、ソフトウェアツールのためのユーザインターフェース600の例示的な画像である。ユーザインターフェース600およびソフトウェアツールは、既存の表示プログラムと一緒に使用することができる。1つの既存の表示プログラムは、例えば、Applied Biosystems/MDS Sciex からのMARKERVIEWTMである。
【0127】
ソフトウェアツールは、既存の表示プログラムが実行している間、および何らかのデータがスコアおよびローディングプロットを生成するように処理された後に実行することができる。開始時、ソフトウェアツールは、表示プログラムに問い合わせし、ローディングデータを取得することができる。処理後、ソフトウェアツールは、データ点が割り当てられた記号になることができるように、表示プログラムのローディング表中の「グループ」列を設定することができる。
【0128】
PCの数は、3つの方法で選択することができる。第1に、PCの数は、選択610を選択することによって、ローディングプロット中に現在表示されているものに基づくことができる。第2に、選択620を使用して、特定の数のPCを入力することができる。第3に、ソフトウェアツールは、選択630を使用して、所定量の分散を説明するいくつかのPCを選択することができる。所定量の分散を表すいくつかのPCを選択することによって、無視されるノイズの量の何らかの制御が可能となる。
【0129】
ユーザインターフェース600のフィールド640において、ユーザは、空間角度パラメータを入力することができる。フィールド650において、ユーザは、原点パラメータからの最小強度または最小距離を入力することができる。所望に応じて、ユーザインターフェース600上の「小を除外(exclude small)」ボタン660を使用して、原点パラメータからの最小距離未満の変数に、それらが任意の後続の分析に使用されないように、除外の印を付けることができる。
【0130】
自動または手動グループ化は、ユーザインターフェース600から選択665を使用して選択することができる。手動の場合、ユーザは、ローディングプロット中で対象となる変数を選択することができ、ソフトウェアツールは、その変数を開始点として使用して、単一のグループを抽出する。ユーザインターフェース600上の選択665を使用して、自動処理を選択することによって、ユーザは、グループを開始するために、フィールド670において追加の閾値を入力することが可能となり、それは、小さい変数が、それらがより大きい変数を含むグループに割り当てられる場合、考慮され得るが、小さい変数は、新しいグループを開始するために使用することができないことを意味する。ユーザインターフェース600はまた、グループが最小数の変数を含むよう要求する、フィールド675を含むことができる。フィールド675は、データが多数の相関変数を含むと予想される場合、使用することができる。
【0131】
上記のように、相関変数は、同じ直線上に実質的に位置し、ローディングプロットの原点の同じ側にある。ソフトウェアツールは、随意に、同じグループ中に、原点の反対側において線の延長に近接している変数を含むことができる。これらの変数は、反相関性がある。相関および反相関グループの包含は、ユーザインターフェース600から選択680を使用して選択することができる。
【0132】
最後に、ユーザインターフェース600の選択685を使用して、ユーザは、例えば、開始変数の強度に基づき、または第1の変数へのm次元空間における近さに基づき割り当てられたグループをソートすることを選択することができる。
【0133】
ユーザインターフェース600は、PCの数を選択する3つの方法(すなわち、選択610、620、および630)を示すが、ソフトウェアツールは、いくつが有意であるかを決定するために、任意の既知のアルゴリズムを使用することができる。実際に、本教示に記載する方法は、使用するPCの数およびグループを反復的に決定するために使用することができる。典型的には、PCが主にノイズによるものになるまで、PCの数の増加はほとんど影響を及ぼさず、それは、グループの数を劇的に急増させ得る。結果として、使用されるPCの数は、グループの数の急増を引き起こす値よりも小さい値に限定することができる。
【0134】
(データ実施例)
本教示の種々の実施形態において、関連変数を決定するために、PCローディングを分析するための方法を記載する。例えば、一連のサンプルから同様の表現パターンを示す方法である。これらの方法は、質量分析(MS)データを使用して示される。しかしながら、これらの方法は、他の用途にも適用可能である。
【0135】
データは、核磁気共鳴(NMR)、赤外分光法(IR)、近赤外分光法(NIR)、紫外分光法(UV)、ラマン分光法、または質量分析(MS)等の種々の分光技術を使用して、各サンプルを分析することによって、生成することができる。分析はまた、上記の分光技術のうちの1つを、液体クロマトグラフィ(LC)、ガスクロマトグラフィ(GC)、またはキャピラリー電気泳動法(CE)等のクロマトグラフ分離と連結する、複合技術を使用して実行され得る。例示的な複合技術は、液体クロマトグラフィ質量分析(LC−MS)である。パターンは、疾病または治療薬による治療による変化等の、対象となっている実際の生物学的変動によるものであり得るか、または無視できる分析のアーチファクトであり得る。関連することが発見された変数は、パターンを引き起こす化合物を決定するために解釈されることができる。
【0136】
これらの方法に対する別の例示的な適用は、複合技術からデータ中のピークを発見することであり得る。データは、分離プロセスの排出物から一連のスペクトルを収集することによって、上記に挙げられる例示的な複合技術を使用して生成される。パターンは、ピークが分離から溶出する際に観察される強度プロファイルによるものである。関連変数は、同じパターンの変動を有し、重複(未分離)ピークが決定されることができる。関連することが発見された変数は、パターンを引き起こす化合物を決定するために解釈することができる。
【0137】
これらの方法に対する別の例示的な適用は、組織画像データを解釈することであり得る。データは、生物組織のサンプルにわたる種々の点において、スペクトル等の複数の測定値を与えることができる任意の技術によって生成される。パターンは、組織の異なる部分における化合物の量の変動によるものであり、器官および細胞小器官等の異なる特徴または構造に対応し得る。関連することが発見された変数は、パターンを引き起こす化合物を決定するために解釈されることができる。
【0138】
MSデータに対して、入力行列の列における変数は、概して、質量ビンまたは重心値であり、液体クロマトグラフィ連結質量分析(LC−MS)に対して、変数は、質量対電荷比(m/z)および保持時間によって特徴付けられる。両方の場合において、データは、変数が全てのサンプルにおいて同じ信号を意味することを確実にするように整合される。
【0139】
図7は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対する2つのPSの例示的なスコアプロット700である。図7〜9に示すMSスペクトルデータは、マトリクス支援レーザー脱離イオン化法(MALDI)を使用して取得した。MALDI MSスペクトルデータは、例えば、APPLIED BIOSYSTEMS/MDS SCIEX TOF/TOFTM飛行時間/飛行時間質量分析計等の質量分析計を使用して、取得することができる。MALDI MSスペクトルデータのPCA分析および視覚化は、例えば、Applied Biosystems/MDS Sciex からのMARKERVIEWTMソフトウェアを使用して、実施することができる。
【0140】
図7は、検定混合物のスパイクを有する、および有しないタンパク質消化物からのサンプルのスコアを示す。検定混合物のスパイクを有するスコアは、図7において記号710で示される。検定混合物のスパイクを有しないスコアは、図7において記号720で示される。記号710および720で図7に示すラベルは、サンプルおよびサンプルグループ名の組み合わせである。
【0141】
図7に示すように、スパイクされた710サンプルおよびスパイクされていない720サンプルは、第1のPCによって明確に分離され、それは、最大の分散を説明する。スパイクされた710サンプルは、より大きいPC1スコアを有し、それらが、スパイクされていない720サンプルよりも、図8に示すように、大きい正のローディングを有する変数を比較的より多く有することを示す。
【0142】
図8は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対する2つのPSの例示的なローディングプロット800である。プロット800中のラベルは、変数の重心m/z値に対応する。
【0143】
図8に示す実施例において、最大のPC1ローディングを有する変数は、プロットの原点を通過する直線810上に位置する傾向がある。これらの変数が、相関性があり、サンプルセットにわたって同じ挙動を示すため、この特徴が生じる。
【0144】
図8はまた、ローディングプロットの解釈におけるパレートスケーリングの1つの利点を示す。任意の特定の同位体クラスタに対して、原点からの距離は、ピークの相対強度を反映する。したがって、同位体クラスタのメンバーが、予想と同じ挙動を有するかどうかを決定することができ、それは、観察された分離/相関の信頼性を増加させる。
【0145】
図9は、本教示に従って、パレートスケーリングおよびPCA後に取得されるMSスペクトルデータに対するいくつかの代表的な変数910の例示的なプロファイルプロット900である。プロファイルプロットは、複数のサンプルの関数としての、1つ以上の変数の応答のプロットである。図9における変数910に対する相関は、ノイズが原因で完璧ではない。プロファイルのわずかな変動は、図8に示す相関線810周囲の散乱を引き起こす。
【0146】
種々の実施形態において、ピークの成分は、一群のスペクトルからのデータに対して多変量解析技術を使用して決定することができる。ピークが一群のスペクトルにわたって異なる挙動を有するデータ点を含む場合、ピークは、コンボリューションピークであると決定される。
【0147】
図10は、本教示に従った、コンボリューションピークを識別するための方法1000を示す、フローチャートである。
【0148】
方法1000のステップ1010において、複数のスペクトルが取得される。複数のスペクトルは、例えば、複数のサンプルから取得される。種々の実施形態において、複数のスペクトルは、単一のサンプルから取得される。種々の実施形態において、複数のスペクトルを取得するステップは、分光法、質量分析法、または核磁気共鳴分析法を実施するステップを含むことができるが、これらに限定されない。
【0149】
ステップ1020において、複数のスペクトルからのデータ点を複数のグループに割り当てるために、多変量解析技術が使用される。
【0150】
ステップ1030において、複数のスペクトルからピークが選択される。
【0151】
ステップ1040において、ピークが複数のグループのうちの2つ以上のグループに割り当てられるデータ点を含む場合、ピークは、コンボリューションピークとして識別される。
【0152】
方法1000の種々の実施形態において、多変量解析技術は、教師無しクラスタリングアルゴリズムを含むことができる。教師無しクラスタリングアルゴリズムは、自己組織化マップ、k平均クラスタリングアルゴリズム、または階層クラスタリングアルゴリズムを含むことができるが、これらに限定されない。
【0153】
教師無しクラスタリングアルゴリズムはまた、データ点に対して主成分分析を実施するステップと、データ点を複数のグループに割り当てるために、主成分分析後に、相関するデータ点を識別するための方法を使用するステップとを含むことができる。主成分分析によって生成されるいくつかの主成分が選択されることができる。いくつかの主成分を有するサブセットの主成分空間が形成されることができる。サブセットの主成分空間におけるデータ点が選択されることができる。ベクトルは、サブセットの主成分空間の原点からデータ点まで延長されることができる。サブセットの主成分空間中、かつベクトルの周囲の空間角度内の1つ以上のデータ点は、相関するデータ点のグループとして識別されることができる。次いで、相関するデータ点のグループは、複数のグループに割り当てられることができる。
【0154】
種々の実施形態において、方法1000はまた、ピークの成分に関する情報を入手するために、複数のグループのうちの2つ以上のグループのうちの1つ以上のグループを処理するステップを含むことができる。この情報は、強度データ、質量データ、化学シフトデータ、または波長データを含むことができるが、これらに限定されない。
【0155】
種々の実施形態において、方法1000は、任意の分光技術およびサンプル収集方法と共に使用することができる。
【0156】
種々の実施形態において、方法1000はまた、液体クロマトグラフィ質量分析、ガスクロマトグラフィ質量分析、キャピラリー電気泳動質量分析、超臨界流体クロマトグラフィ質量分析、イオン移動度質量分析、非対称場イオン移動度質量分析、液体クロマトグラフィ核磁気共鳴分析、液体クロマトグラフィ紫外分光分析、ガスクロマトグラフィ赤外分光分析、または空間分析等が挙げられるが、これらに限定されない分析技術から、複数のスペクトルを取得するステップを含むことができる。
【0157】
種々の実施形態において、関連データ点は、複数のサンプルを分析することによって決定することができる。関連データ点は、それらが複数のサンプルにわたって相関する場合に決定することができる。例えば、データ点がプロファイルスペクトルの一部である場合、一重項であるように思われるスペクトルピークが発見され得るが、実際は、異なって挙動する成分を有する。
【0158】
サンプルは、実際の物理的サンプルからの一連の単一スペクトルであり得る。スペクトルは、直接測定され得、または個々のサンプルのLCMS分析からの全てのスペクトルを組み合わせることによって取得され得る。サンプルは、同じサンプルからの一連のスペクトル、例えば、LCMSピークにわたって取得されるスペクトルであり得る。スペクトル間のコンボリューションピークの成分の比率の何らかの変動が存在することが重要であるが、正確な形態が既知である必要はない。
【0159】
図11は、本教示に従った、スペクトルからのコンボリューションピーク1110の例示的なプロット1100である。異なる記号1120、1130、および1140は、主成分分析後に変数をグループ化するための方法を使用して割り当てられる異なるグループのデータ点に対応する。単一のサンプルからスペクトルを取得したが、相関挙動を有する各ピークの異なる部分を示すために、複数のサンプルからのスペクトルを使用することによって、グループを決定した。
【0160】
図12は、本教示に従って、第1のグループ1220の各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロット1200である。第1のグループ1220は、図11に示す記号1120に対応する。
【0161】
図13は、本教示に従って、第2のグループ1330の各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロット1300である。第2のグループ1330は、図11に示す記号1130に対応する。
【0162】
図14は、本教示に従って、第3のグループ1440の各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロット1400である。第3のグループ1440は、図11に示す記号1140に対応する。
【0163】
プロファイルプロットは、サンプルにわたるデータ点の反応を示す。図12のプロット1200、図13のプロット1300、および図14のプロット1400は、それぞれ、図11の記号1120、1130、および1140に対応するデータ点のプロファイルプロットである。図11の記号1120に対応する図12のプロット1200は、図11の記号1130に対応する図13のプロット1300とは異なるプロファイルを示す。図11の記号1120および1130によって示されるデータ点は、それぞれ、図12のプロット1200および図13のプロット1300の全てのサンプル中に存在するが、特定のサンプルにおいてより強度の値を示す。これは、それらが、実際には、別々の化合物に属していることを示す。
【0164】
図11において、記号1140によって表され、図14のプロット1400において、サンプルにわたってプロットされるデータ点は、図14のプロット1400が図12のプロット1200および図13のプロット1300の合計を表しているため、このデータ点が、図11において記号1120によって表されるデータ点に対応する化合物、および図11において記号1130によって表されるデータ点に対応する化合物中に存在する可能性が高いことを示す。したがって、図14の第3のグループ1430は、別個のグループであるが、追加の化合物の存在を示していない。したがって、同じピークと関連付けられるグループは、存在する化合物の実際の数を決定するように処理されなければならない。
【0165】
本教示は、種々の実施形態と併せて記載されているが、本教示は、そのような実施形態に限定されるよう意図されていない。反対に、本教示は、当業者によって理解されるように、種々の代替物、修正物、および同等物を包含する。
【0166】
さらに、種々の実施形態の記載において、本明細書は、特定のステップの順序として方法および/またはプロセスを示した場合がある。しかしながら、該方法またはプロセスが、本明細書に記載する特定のステップの順序に依存しない限りにおいて、該方法またはプロセスは、記載する特定のステップの順序に限定されるべきではない。当業者が理解するように、他のステップの順序が可能であり得る。したがって、本明細書に記載する特定のステップの順序は、特許請求の範囲の制限と解釈されるべきではない。さらに、該方法またはプロセスに関する特許請求の範囲は、書かれた順序でのそれらのステップの実施に限定されるべきではなく、当業者は、該順序が変更されてもよく、それにもかかわらず、種々の実施形態の精神および範囲の範囲内にとどまることを容易に理解することができる。
【特許請求の範囲】
【請求項1】
大量の分光データから変数の相関表示のグループを識別するためのシステムであって、
複数のサンプルを分析し、前記複数のサンプルから複数の変数を生成する分光計と、
前記分光計と通信しているプロセッサと
を備え、
(a)前記プロセッサは、前記分光計から複数の測定された変数を取得し、
(b)前記プロセッサは、前記複数の測定された変数を複数の測定された変数のサブセットに分割し、
(c)前記プロセッサは、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成し、
(d)前記プロセッサは、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算し、
(e)前記総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、前記プロセッサは、ステップ(k)にジャンプし、
(f)前記プロセッサは、前記複数のグループ表示を複数のグループ表示のサブセットに分割し、
(g)前記プロセッサは、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成し、
(h)前記プロセッサは、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算し、
(i)前記総数が前記最大数以下である場合、前記プロセッサは、ステップ(k)にジャンプし、
(j)前記総数が変数の前記最大数よりも大きい場合、前記プロセッサは、ステップ(f)〜(j)を繰り返し、
(k)前記プロセッサは、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成する、
システム。
【請求項2】
前記プロセッサは、
(i)各測定された変数のサブセットに対して主成分分析を実施するステップと、
(ii)前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記サブセットの主成分空間において、各測定された変数のサブセットの変数を選択するステップであって、前記変数は、閾値よりも大きい有意値を有する、ステップと、
(v)前記サブセットの主成分空間の原点から前記変数まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記ベクトルの空間角度内で1つ以上の変数のグループを選択するステップと、
(vii)前記グループが最小数の変数を含む場合、グループ表示を前記グループに割り当てるステップであって、変数の前記最小数は、グループが含むと予想される相関変数の最小数である、ステップと、
(viii)前記サブセットの主成分空間に、選択されていない変数、グループ表示が割り当てられているグループの一部を成していない変数、または前記閾値を超える有意値を有する変数が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
によって、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成する、
請求項1に記載のシステム。
【請求項3】
前記プロセッサは、
(i)各グループ表示のサブセットに対して主成分分析を実施するステップと、
(ii)前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記サブセットの主成分空間において、各グループ表示のサブセットの表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記グループが最小数の表示を含む場合、グループ表示を前記グループに割り当てるステップであって、表示の前記最小数は、グループが含むと予想される相関表示の最小数である、ステップと、
(viii)前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
によって、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成する、
請求項1に記載のシステム。
【請求項4】
前記プロセッサは、
(i)前記複数のグループ表示に対して主成分分析を実施するステップと、
(ii)前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記サブセットの主成分空間において、前記複数のグループ表示の表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記グループが最小数の表示を含む場合、変数の相関表示のグループとして前記グループを識別するステップであって、表示の前記最小数は、グループが含むと予想される変数の相関表示の最小数である、ステップと、
(viii)前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
によって、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成する、
請求項1に記載のシステム。
【請求項5】
前記最大数は、前記プロセッサの処理能力に基づく、請求項1に記載のシステム。
【請求項6】
前記最大数は、相関点が異なるサブセットに分割されないように必要とされるいくつかの点に基づく、請求項1に記載のシステム。
【請求項7】
大量の分光データから相関変数の表示のグループを識別するための方法であって、
(a)分光計を使用して複数のサンプルを分析するステップと、
(b)前記分光計を使用して、前記複数のサンプルから複数の測定された変数を生成するステップと、
(c)プロセッサを使用して、前記分光計から前記複数の測定された変数を取得するステップと、
(d)前記プロセッサを使用して、前記複数の測定された変数を複数の測定された変数のサブセットに分割するステップと、
(c)前記プロセッサを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップと、
(d)前記プロセッサを使用して、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算するステップと、
(e)前記総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、前記プロセッサを使用して、ステップ(k)にジャンプするステップと、
(f)前記プロセッサを使用して、前記複数のグループ表示を複数のグループ表示のサブセットに分割するステップと、
(g)前記プロセッサを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップと、
(h)前記プロセッサを使用して、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算するステップと、
(i)前記総数が前記最大数以下である場合、前記プロセッサを使用して、ステップ(k)にジャンプするステップと、
(j)前記総数が変数の前記最大数よりも大きい場合、前記プロセッサを使用して、ステップ(f)〜(j)を繰り返すステップと、
(k)前記プロセッサを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップと
を含む、方法。
【請求項8】
前記プロセッサを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップは、
(i)前記プロセッサを使用して、各測定された変数のサブセットに対して主成分分析を実施するステップと、
(ii)前記プロセッサを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記プロセッサを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記プロセッサを使用して、前記サブセットの主成分空間において、各測定された変数のサブセットの変数を選択するステップであって、前記変数は、閾値よりも大きい有意値を有する、ステップと、
(v)前記プロセッサを使用して、前記サブセットの主成分空間の原点から前記変数まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記プロセッサを使用して、前記ベクトルの空間角度内で1つ以上の変数のグループを選択するステップと、
(vii)前記プロセッサを使用して、前記グループが最小数の変数を含む場合、グループ表示を前記グループに割り当てるステップであって、変数の前記最小数は、グループが含むと予想される相関変数の最小数である、ステップと、
(viii)前記プロセッサを使用して、前記サブセットの主成分空間に、選択されていない変数、グループ表示が割り当てられているグループの一部を成していない変数、または前記閾値を超える有意値を有する変数が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項7に記載の方法。
【請求項9】
前記プロセッサを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップは、
(i)前記プロセッサを使用して、各グループ表示のサブセットに対して主成分分析を実施するステップと、
(ii)前記プロセッサを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記プロセッサを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記プロセッサを使用して、前記サブセットの主成分空間において、各グループ表示のサブセットの表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記プロセッサを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記プロセッサを使用して、前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記プロセッサを使用して、前記グループが最小数の表示を含む場合、グループ表示を前記グループに割り当てるステップであって、表示の前記最小数は、グループが含むと予想される相関表示の最小数である、ステップと、
(viii)前記プロセッサを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項7に記載の方法。
【請求項10】
前記プロセッサを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップは、
(i)前記プロセッサを使用して、前記複数のグループ表示に対して主成分分析を実施するステップと、
(ii)前記プロセッサを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記プロセッサを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記プロセッサを使用して、前記サブセットの主成分空間において、前記複数のグループ表示の表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記プロセッサを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記プロセッサを使用して、前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記プロセッサを使用して、前記グループが最小数の表示を含む場合、変数の相関表示のグループとして前記グループを識別するステップであって、表示の前記最小数は、グループが含むと予想される変数の相関表示の最小数である、ステップと、
(viii)前記プロセッサを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項7に記載の方法。
【請求項11】
前記複数のサンプルを分析するステップは、質量分析(MS)を実施するステップを含む、請求項7に記載の方法。
【請求項12】
前記複数のサンプルを分析するステップは、液体クロマトグラフィ連結質量分析(LC−MS)を実施するステップを含む、請求項7に記載の方法。
【請求項13】
前記複数のサンプルを分析するステップは、画像質量分析を実施するステップを含む、請求項7に記載の方法。
【請求項14】
そのコンテンツがプログラムを含む有形コンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、前記プログラムは、大量のデータから変数の相関表示のグループを識別する方法を実施するために、プロセッサ上で実行される命令を有し、
前記方法は、
(a)システムを提供するステップであって、前記システムは、別個のソフトウェアモジュールを含み、前記別個のソフトウェアモジュールは、測定モジュール、分割モジュール、およびグループ化モジュールを含む、ステップと、
(b)分光測光技術によって生成される複数のサンプルから複数の測定された変数を取得するステップであって、前記取得するステップは、前記測定モジュールによって実施される、ステップと、
(c)前記分割モジュールを使用して、前記複数の測定された変数を複数の測定された変数のサブセットに分割するステップと、
(d)前記グループ化モジュールを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップと、
(e)前記グループ化モジュールを使用して、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算するステップと、
(f)前記総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、前記グループ化モジュールを使用して、ステップ(l)にジャンプするステップと、
(g)前記グループ化モジュールを使用して、前記複数のグループ表示を複数のグループ表示のサブセットに分割するステップと、
(h)前記グループ化モジュールを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップと、
(i)前記グループ化モジュールを使用して、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の前記総数を計算するステップと、
(j)前記総数が前記最大数以下である場合、前記グループ化モジュールを使用して、ステップ(l)にジャンプするステップと、
(k)前記総数が変数の前記最大数よりも大きい場合、前記グループ化モジュールを使用して、ステップ(g)〜(k)を繰り返すステップと、
(l)前記グループ化モジュールを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップと
を含む、コンピュータプログラム製品。
【請求項15】
前記グループ化モジュールを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップは、
(i)前記グループ化モジュールを使用して、各測定された変数のサブセットに対して主成分分析を実施するステップと、
(ii)前記グループ化モジュールを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記グループ化モジュールを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記グループ化モジュールを使用して、前記サブセットの主成分空間において、各測定された変数のサブセットの変数を選択するステップであって、前記変数は、閾値よりも大きい有意値を有する、ステップと、
(v)前記グループ化モジュールを使用して、前記サブセットの主成分空間の原点から前記変数まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記グループ化モジュールを使用して、前記ベクトルの空間角度内で1つ以上の変数のグループを選択するステップと、
(vii)前記グループ化モジュールを使用して、前記グループが最小数の変数を含む場合、グループ表示を前記グループに割り当てるステップであって、変数の前記最小数は、グループが含むと予想される相関変数の最小数である、ステップと、
(viii)前記グループ化モジュールを使用して、前記サブセットの主成分空間に、選択されていない変数、グループ表示が割り当てられているグループの一部を成していない変数、または前記閾値を超える有意値を有する変数が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項14に記載のコンピュータプログラム製品。
【請求項16】
前記グループ化モジュールを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップは、
(i)前記グループ化モジュールを使用して、各グループ表示のサブセットに対して主成分分析を実施するステップと、
(ii)前記グループ化モジュールを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記グループ化モジュールを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記グループ化モジュールを使用して、前記サブセットの主成分空間において、各グループ表示のサブセットの表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記グループ化モジュールを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記グループ化モジュールを使用して、前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記グループ化モジュールを使用して、前記グループが最小数の表示を含む場合、グループ表示を前記グループに割り当てるステップであって、表示の前記最小数は、グループが含むと予想される相関表示の最小数である、ステップと、
(viii)前記グループ化モジュールを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項14に記載のコンピュータプログラム製品。
【請求項17】
前記グループ化モジュールを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップは、
(i)前記グループ化モジュールを使用して、前記複数のグループ表示に対して主成分分析を実施するステップと、
(ii)前記グループ化モジュールを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記グループ化モジュールを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記グループ化モジュールを使用して、前記サブセットの主成分空間において、前記複数のグループ表示の表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記グループ化モジュールを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記グループ化モジュールを使用して、前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記グループ化モジュールを使用して、前記グループが最小数の表示を含む場合、変数の相関表示のグループとして前記グループを識別するステップであって、表示の前記最小数は、グループが含むと予想される変数の相関表示の最小数である、ステップと、
(viii)前記グループ化モジュールを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項14に記載のコンピュータプログラム製品。
【請求項18】
前記分光技術は、質量分析(MS)を含む、請求項14に記載のコンピュータプログラム製品。
【請求項19】
前記分光技術は、液体クロマトグラフィ連結質量分析(LC−MS)を含む、請求項14に記載のコンピュータプログラム製品。
【請求項20】
前記分光技術は、画像質量分析を含む、請求項14に記載のコンピュータプログラム製品。
【請求項1】
大量の分光データから変数の相関表示のグループを識別するためのシステムであって、
複数のサンプルを分析し、前記複数のサンプルから複数の変数を生成する分光計と、
前記分光計と通信しているプロセッサと
を備え、
(a)前記プロセッサは、前記分光計から複数の測定された変数を取得し、
(b)前記プロセッサは、前記複数の測定された変数を複数の測定された変数のサブセットに分割し、
(c)前記プロセッサは、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成し、
(d)前記プロセッサは、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算し、
(e)前記総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、前記プロセッサは、ステップ(k)にジャンプし、
(f)前記プロセッサは、前記複数のグループ表示を複数のグループ表示のサブセットに分割し、
(g)前記プロセッサは、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成し、
(h)前記プロセッサは、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算し、
(i)前記総数が前記最大数以下である場合、前記プロセッサは、ステップ(k)にジャンプし、
(j)前記総数が変数の前記最大数よりも大きい場合、前記プロセッサは、ステップ(f)〜(j)を繰り返し、
(k)前記プロセッサは、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成する、
システム。
【請求項2】
前記プロセッサは、
(i)各測定された変数のサブセットに対して主成分分析を実施するステップと、
(ii)前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記サブセットの主成分空間において、各測定された変数のサブセットの変数を選択するステップであって、前記変数は、閾値よりも大きい有意値を有する、ステップと、
(v)前記サブセットの主成分空間の原点から前記変数まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記ベクトルの空間角度内で1つ以上の変数のグループを選択するステップと、
(vii)前記グループが最小数の変数を含む場合、グループ表示を前記グループに割り当てるステップであって、変数の前記最小数は、グループが含むと予想される相関変数の最小数である、ステップと、
(viii)前記サブセットの主成分空間に、選択されていない変数、グループ表示が割り当てられているグループの一部を成していない変数、または前記閾値を超える有意値を有する変数が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
によって、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成する、
請求項1に記載のシステム。
【請求項3】
前記プロセッサは、
(i)各グループ表示のサブセットに対して主成分分析を実施するステップと、
(ii)前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記サブセットの主成分空間において、各グループ表示のサブセットの表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記グループが最小数の表示を含む場合、グループ表示を前記グループに割り当てるステップであって、表示の前記最小数は、グループが含むと予想される相関表示の最小数である、ステップと、
(viii)前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
によって、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成する、
請求項1に記載のシステム。
【請求項4】
前記プロセッサは、
(i)前記複数のグループ表示に対して主成分分析を実施するステップと、
(ii)前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記サブセットの主成分空間において、前記複数のグループ表示の表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記グループが最小数の表示を含む場合、変数の相関表示のグループとして前記グループを識別するステップであって、表示の前記最小数は、グループが含むと予想される変数の相関表示の最小数である、ステップと、
(viii)前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
によって、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成する、
請求項1に記載のシステム。
【請求項5】
前記最大数は、前記プロセッサの処理能力に基づく、請求項1に記載のシステム。
【請求項6】
前記最大数は、相関点が異なるサブセットに分割されないように必要とされるいくつかの点に基づく、請求項1に記載のシステム。
【請求項7】
大量の分光データから相関変数の表示のグループを識別するための方法であって、
(a)分光計を使用して複数のサンプルを分析するステップと、
(b)前記分光計を使用して、前記複数のサンプルから複数の測定された変数を生成するステップと、
(c)プロセッサを使用して、前記分光計から前記複数の測定された変数を取得するステップと、
(d)前記プロセッサを使用して、前記複数の測定された変数を複数の測定された変数のサブセットに分割するステップと、
(c)前記プロセッサを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップと、
(d)前記プロセッサを使用して、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算するステップと、
(e)前記総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、前記プロセッサを使用して、ステップ(k)にジャンプするステップと、
(f)前記プロセッサを使用して、前記複数のグループ表示を複数のグループ表示のサブセットに分割するステップと、
(g)前記プロセッサを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップと、
(h)前記プロセッサを使用して、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算するステップと、
(i)前記総数が前記最大数以下である場合、前記プロセッサを使用して、ステップ(k)にジャンプするステップと、
(j)前記総数が変数の前記最大数よりも大きい場合、前記プロセッサを使用して、ステップ(f)〜(j)を繰り返すステップと、
(k)前記プロセッサを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップと
を含む、方法。
【請求項8】
前記プロセッサを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップは、
(i)前記プロセッサを使用して、各測定された変数のサブセットに対して主成分分析を実施するステップと、
(ii)前記プロセッサを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記プロセッサを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記プロセッサを使用して、前記サブセットの主成分空間において、各測定された変数のサブセットの変数を選択するステップであって、前記変数は、閾値よりも大きい有意値を有する、ステップと、
(v)前記プロセッサを使用して、前記サブセットの主成分空間の原点から前記変数まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記プロセッサを使用して、前記ベクトルの空間角度内で1つ以上の変数のグループを選択するステップと、
(vii)前記プロセッサを使用して、前記グループが最小数の変数を含む場合、グループ表示を前記グループに割り当てるステップであって、変数の前記最小数は、グループが含むと予想される相関変数の最小数である、ステップと、
(viii)前記プロセッサを使用して、前記サブセットの主成分空間に、選択されていない変数、グループ表示が割り当てられているグループの一部を成していない変数、または前記閾値を超える有意値を有する変数が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項7に記載の方法。
【請求項9】
前記プロセッサを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップは、
(i)前記プロセッサを使用して、各グループ表示のサブセットに対して主成分分析を実施するステップと、
(ii)前記プロセッサを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記プロセッサを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記プロセッサを使用して、前記サブセットの主成分空間において、各グループ表示のサブセットの表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記プロセッサを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記プロセッサを使用して、前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記プロセッサを使用して、前記グループが最小数の表示を含む場合、グループ表示を前記グループに割り当てるステップであって、表示の前記最小数は、グループが含むと予想される相関表示の最小数である、ステップと、
(viii)前記プロセッサを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項7に記載の方法。
【請求項10】
前記プロセッサを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップは、
(i)前記プロセッサを使用して、前記複数のグループ表示に対して主成分分析を実施するステップと、
(ii)前記プロセッサを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記プロセッサを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記プロセッサを使用して、前記サブセットの主成分空間において、前記複数のグループ表示の表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記プロセッサを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記プロセッサを使用して、前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記プロセッサを使用して、前記グループが最小数の表示を含む場合、変数の相関表示のグループとして前記グループを識別するステップであって、表示の前記最小数は、グループが含むと予想される変数の相関表示の最小数である、ステップと、
(viii)前記プロセッサを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項7に記載の方法。
【請求項11】
前記複数のサンプルを分析するステップは、質量分析(MS)を実施するステップを含む、請求項7に記載の方法。
【請求項12】
前記複数のサンプルを分析するステップは、液体クロマトグラフィ連結質量分析(LC−MS)を実施するステップを含む、請求項7に記載の方法。
【請求項13】
前記複数のサンプルを分析するステップは、画像質量分析を実施するステップを含む、請求項7に記載の方法。
【請求項14】
そのコンテンツがプログラムを含む有形コンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、前記プログラムは、大量のデータから変数の相関表示のグループを識別する方法を実施するために、プロセッサ上で実行される命令を有し、
前記方法は、
(a)システムを提供するステップであって、前記システムは、別個のソフトウェアモジュールを含み、前記別個のソフトウェアモジュールは、測定モジュール、分割モジュール、およびグループ化モジュールを含む、ステップと、
(b)分光測光技術によって生成される複数のサンプルから複数の測定された変数を取得するステップであって、前記取得するステップは、前記測定モジュールによって実施される、ステップと、
(c)前記分割モジュールを使用して、前記複数の測定された変数を複数の測定された変数のサブセットに分割するステップと、
(d)前記グループ化モジュールを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップと、
(e)前記グループ化モジュールを使用して、各測定された変数のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算するステップと、
(f)前記総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、前記グループ化モジュールを使用して、ステップ(l)にジャンプするステップと、
(g)前記グループ化モジュールを使用して、前記複数のグループ表示を複数のグループ表示のサブセットに分割するステップと、
(h)前記グループ化モジュールを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップと、
(i)前記グループ化モジュールを使用して、各グループ表示のサブセットに対して生成される1つ以上のグループ表示の数の合計として、前記複数のグループ表示の前記総数を計算するステップと、
(j)前記総数が前記最大数以下である場合、前記グループ化モジュールを使用して、ステップ(l)にジャンプするステップと、
(k)前記総数が変数の前記最大数よりも大きい場合、前記グループ化モジュールを使用して、ステップ(g)〜(k)を繰り返すステップと、
(l)前記グループ化モジュールを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップと
を含む、コンピュータプログラム製品。
【請求項15】
前記グループ化モジュールを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する1つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップは、
(i)前記グループ化モジュールを使用して、各測定された変数のサブセットに対して主成分分析を実施するステップと、
(ii)前記グループ化モジュールを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記グループ化モジュールを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記グループ化モジュールを使用して、前記サブセットの主成分空間において、各測定された変数のサブセットの変数を選択するステップであって、前記変数は、閾値よりも大きい有意値を有する、ステップと、
(v)前記グループ化モジュールを使用して、前記サブセットの主成分空間の原点から前記変数まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記グループ化モジュールを使用して、前記ベクトルの空間角度内で1つ以上の変数のグループを選択するステップと、
(vii)前記グループ化モジュールを使用して、前記グループが最小数の変数を含む場合、グループ表示を前記グループに割り当てるステップであって、変数の前記最小数は、グループが含むと予想される相関変数の最小数である、ステップと、
(viii)前記グループ化モジュールを使用して、前記サブセットの主成分空間に、選択されていない変数、グループ表示が割り当てられているグループの一部を成していない変数、または前記閾値を超える有意値を有する変数が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項14に記載のコンピュータプログラム製品。
【請求項16】
前記グループ化モジュールを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する1つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップは、
(i)前記グループ化モジュールを使用して、各グループ表示のサブセットに対して主成分分析を実施するステップと、
(ii)前記グループ化モジュールを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記グループ化モジュールを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記グループ化モジュールを使用して、前記サブセットの主成分空間において、各グループ表示のサブセットの表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記グループ化モジュールを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記グループ化モジュールを使用して、前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記グループ化モジュールを使用して、前記グループが最小数の表示を含む場合、グループ表示を前記グループに割り当てるステップであって、表示の前記最小数は、グループが含むと予想される相関表示の最小数である、ステップと、
(viii)前記グループ化モジュールを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項14に記載のコンピュータプログラム製品。
【請求項17】
前記グループ化モジュールを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップは、
(i)前記グループ化モジュールを使用して、前記複数のグループ表示に対して主成分分析を実施するステップと、
(ii)前記グループ化モジュールを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
(iii)前記グループ化モジュールを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
(iv)前記グループ化モジュールを使用して、前記サブセットの主成分空間において、前記複数のグループ表示の表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
(v)前記グループ化モジュールを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
(vi)前記グループ化モジュールを使用して、前記ベクトルの空間角度内で1つ以上の表示のグループを選択するステップと、
(vii)前記グループ化モジュールを使用して、前記グループが最小数の表示を含む場合、変数の相関表示のグループとして前記グループを識別するステップであって、表示の前記最小数は、グループが含むと予想される変数の相関表示の最小数である、ステップと、
(viii)前記グループ化モジュールを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ(iv)〜(viii)を繰り返すステップと
を含む、請求項14に記載のコンピュータプログラム製品。
【請求項18】
前記分光技術は、質量分析(MS)を含む、請求項14に記載のコンピュータプログラム製品。
【請求項19】
前記分光技術は、液体クロマトグラフィ連結質量分析(LC−MS)を含む、請求項14に記載のコンピュータプログラム製品。
【請求項20】
前記分光技術は、画像質量分析を含む、請求項14に記載のコンピュータプログラム製品。
【図1】
【図2】
【図4】
【図5】
【図6】
【図7】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図3】
【図8】
【図2】
【図4】
【図5】
【図6】
【図7】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図3】
【図8】
【公表番号】特表2012−528327(P2012−528327A)
【公表日】平成24年11月12日(2012.11.12)
【国際特許分類】
【出願番号】特願2012−513029(P2012−513029)
【出願日】平成21年7月7日(2009.7.7)
【国際出願番号】PCT/US2009/049828
【国際公開番号】WO2010/138133
【国際公開日】平成22年12月2日(2010.12.2)
【出願人】(509245740)エムディーエス アナリティカル テクノロジーズ (6)
【出願人】(502221282)ライフ テクノロジーズ コーポレーション (113)
【Fターム(参考)】
【公表日】平成24年11月12日(2012.11.12)
【国際特許分類】
【出願日】平成21年7月7日(2009.7.7)
【国際出願番号】PCT/US2009/049828
【国際公開番号】WO2010/138133
【国際公開日】平成22年12月2日(2010.12.2)
【出願人】(509245740)エムディーエス アナリティカル テクノロジーズ (6)
【出願人】(502221282)ライフ テクノロジーズ コーポレーション (113)
【Fターム(参考)】
[ Back to top ]