大量の分光データにおける相関変数を識別するためのシステムおよび方法

変数の相関表示のグループが大量の分光データから識別される。複数のサンプルが分析され、複数の測定された変数が分光計から得られる。プロセッサは、いくつかのステップを実行する。複数の測定された変数は、複数の測定された変数のサブセットに分割される。各測定された変数のサブセットに対して、主成分分析、および続く変数グループ化（ＰＣＶＧ）が実施され、各測定された変数のサブセットに対する１つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。複数のグループ表示の総数が最大数よりも大きい場合、複数のグループ表示は、複数の代表的なサブセットに分割され、各サブセットに対してＰＣＶＧが実施される。残りの複数のグループ表示に対してＰＣＶＧが実施され、変数の相関表示の複数のグループを生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
（関連出願の引用）
本願は、米国特許出願第１２／２００，６３６号（２００８年８月２８日出願、「６３６出願」と呼ぶ）の一部継続出願である。「６３６出願」は、米国特許出願第１１／８４８，７１７号（２００７年８月３１日出願、「７１７出願」と呼ぶ）の一部継続出願である。「６３６出願」は、米国仮特許出願第６１／０５７，７１９号（２００８年５月３０日出願、「７１９出願」と呼ぶ）の利益も主張する。上記すべての出願は、それらの全体が参照により本明細書に引用される。
【発明の概要】
【課題を解決するための手段】
【０００２】
大量の質量分析（ＭＳ）データを生成するための能力は、データ処理のための適切な方法を必要とし、具体的には、ユーザがデータ内の重要な側面およびパターンに焦点を合わせ、それらを解釈することを可能にする方法を必要とする。多数のサンプルからのＭＳデータ、液体クロマトグラフィ連結質量分析（ＬＣ−ＭＳ）データ、および画像ＭＳデータの高次元性（多数の変数）は、問題となり得る。なぜなら、それが、独立成分分析（ＩＣＡ）および線形判別分析（ＬＤＡ）等のある特定の処理オプションを除外するからであり、かつ、効率的でタイムリーな処理のために、大きなコンピュータリソースを必要とし得る（例えば、低速仮想メモリの使用を回避するために）からである。
【０００３】
当業者は、以下に記載する図面が例示目的のみであることを理解するであろう。図面は、いかなる方法によっても、本教示の範囲を制限するよう意図されない。
【図面の簡単な説明】
【０００４】
【図１】図１は、本教示の実施形態が実装され得る、コンピュータシステムを示すブロック図である。
【図２】図２は、本教示と一致している主成分変数グループ化（ＰＣＶＧ）を使用して、複数のサンプルからの複数の変数の主成分分析後、相関変数のグループを識別するための方法を示す、例示的なフローチャートである。
【図３】図３は、本教示に従って、選択された変数の空間角度内で１つ以上の変数のセットをどのように発見することができるかを示す、例示的な図である。
【図４】図４は、本教示と一致している測定技術によって生成される複数のサンプルからの複数の変数のＰＣＡ後、変数をグループ化するためのコンピュータシステムを示す、例示的な概略図である。
【図５】図５は、ｎ次元空間でのデータ処理のために使用することができ、かつ本教示と一致している、コンピュータによって実装される方法を示す、例示的なフローチャートである。
【図６】図６は、本教示に従った、変数グループ化を実施するための、ソフトウェアツールのためのユーザインターフェースの例示的な画像である。
【図７】図７は、本教示に従って、パレートスケーリングおよびＰＣＡ後に取得されるＭＳスペクトルデータに対する２つの主成分（ＰＣ）の例示的なスコアプロットである。
【図８】図８は、本教示に従って、パレートスケーリングおよびＰＣＡ後に取得されるＭＳスペクトルデータに対する２つのＰＣの例示的なローディングプロットである。
【図９】図９は、本教示に従って、パレートスケーリングおよびＰＣＡ後に取得されるＭＳスペクトルデータに対するいくつかの代表的な変数の例示的なプロファイルプロットである。
【図１０】図１０は、本教示に従った、コンボリューションピークを識別するための方法を示す、フローチャートである。
【図１１】図１１は、本教示に従った、スペクトルからのコンボリューションピークの例示的なプロットである。
【図１２】図１２は、本教示に従って、第１のグループの各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロットである。
【図１３】図１３は、本教示に従って、第２のグループの各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロットである。
【図１４】図１４は、本教示に従って、第３のグループの各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロットである。
【図１５】図１５は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するためのシステムを示す、概略図である。
【図１６】図１６は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法を示す、フローチャートである。
【図１７】図１７は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法を実施する、別個のソフトウェアモジュールのシステムの概略図である。
【発明を実施するための形態】
【０００５】
本教示の１つ以上の実施形態を詳細に記載する前に、当業者は、本教示が、発明を実施するための形態に記載されるか、または図面に示される構造の詳細、構成要素の配列、およびステップの配列に対するそれらの応用が制限されていないことを理解するであろう。また、本明細書で使用される表現および用語は、説明目的であり、制限するものと見なされるべきではないことを理解されたい。
【０００６】
（コンピュータによって実装されるシステム）
図１は、本教示の実施形態が実装され得るコンピュータシステム１００を示す、ブロック図である。コンピュータシステム１００は、情報を通信するためのバス１０２または他の通信機構と、情報を処理するための、バス１０２と連結されるプロセッサ１０４とを含む。コンピュータシステム１００はまた、ベースコールを決定するための、バス１０２に連結されるランダムアクセスメモリ（ＲＡＭ）または他の動的記憶デバイスであり得る、メモリ１０６と、プロセッサ１０４によって実行される命令とを含む。メモリ１０６はまた、プロセッサ１０４によって実行される命令の実行中に一時的な変数または他の中間情報を記憶するために使用され得る。コンピュータシステム１００はさらに、プロセッサ１０４に対する静的情報および命令を記憶するための、バス１０２に連結されるリードオンリメモリ（ＲＯＭ）１０８または他の静的記憶デバイスを含む。情報および命令を記憶するために、磁気ディスクまたは光ディスク等の記憶デバイス１１０が提供され、バス１０２に連結される。
【０００７】
コンピュータシステム１００は、コンピュータユーザに情報を表示するための、陰極線管（ＣＲＴ）または液晶ディスプレイ（ＬＣＤ）等のディスプレイ１１２に、バス１０２を介して連結され得る。英数字および他のキーを含む入力デバイス１１４が、プロセッサ１０４に情報およびコマンド選択を通信するために、バス１０２に連結される。他の種類のユーザ入力デバイスは、プロセッサ１０４に方向情報およびコマンド選択を通信するための、およびディスプレイ１１２上でのカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キー等のカーソル制御１１６である。この入力デバイスは典型的には、デバイスが平面内で位置を指定することを可能にする、第１の軸（すなわち、ｘ）および第２の軸（すなわち、ｙ）の２つの軸において２つの自由度を有する。
【０００８】
コンピュータシステム１００は、本教示を実施することができる。本教示のある特定の実装に従って、メモリ１０６中に含まれる１つ以上の命令の１つ以上のシーケンスを実行するプロセッサ１０４に応答して、コンピュータシステム１００によって結果がもたらされる。そのような命令は、記憶デバイス１１０等の別のコンピュータ可読媒体から、メモリ１０６に読み込まれ得る。メモリ１０６中に含まれる命令のシーケンスの実行によって、プロセッサ１０４は、本明細書に記載するプロセスを実施する。あるいは、本教示を実行するためのソフトウェア命令の代わりに、またはそれと組み合わせて、有線回路が使用され得る。したがって、本教示の実装は、ハードウェア回路およびソフトウェアの任意の特定の組み合わせに限定されない。
【０００９】
ここで使用される「コンピュータ可読媒体」という用語は、実行のために、プロセッサ１０４に命令を提供することに関与する、任意の媒体を指す。そのような媒体は、不揮発性媒体、揮発性媒体、および伝送媒体が挙げられるが、これらに限定されない、多くの形態を取ってもよい。不揮発性媒体としては、例えば、記憶デバイス１１０等の光または磁気ディスクが挙げられる。揮発性媒体としては、メモリ１０６等の動的メモリが挙げられる。伝送媒体としては、バス１０２を含むワイヤを含む、同軸ケーブル、銅線、および光ファイバが挙げられる。
【００１０】
コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、もしくは任意の他の磁気媒体、ＣＤ−ＲＯＭ、任意の他の光媒体、パンチカード、紙テープ、任意の他の孔パターンを有する物理媒体、ＲＡＭ、ＰＲＯＭ、およびＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、または任意の他のコンピュータが読み取ることができる有形媒体が挙げられる。
【００１１】
実行のために、プロセッサ１０４に１つ以上の命令の１つ以上のシーケンスを伝送することに、種々の形態のコンピュータ可読媒体が関与し得る。例えば、命令は、最初、リモートコンピュータの磁気ディスク上で伝送され得る。リモートコンピュータは、命令をその動的メモリにロードし、モデムを使用して電話線を通して命令を送信することができる。コンピュータシステム１００にローカルなモデムは、電話線上でデータを受信し、赤外線トランスミッタを使用して、データを赤外線信号に変換することができる。バス１０２に連結される赤外線検出器は、赤外線信号で伝送されるデータを受信し、バス１０２上にデータを配置することができる。バス１０２は、データをメモリ１０６に伝送し、そこから、プロセッサ１０４は、命令を読み出し、実行する。メモリ１０６によって受信される命令は、随意に、プロセッサ１０４による実行の前あるいは後に、記憶デバイス１１０上に記憶され得る。
【００１２】
種々の実施形態に従って、方法を実施するようにプロセッサによって実行されるように構成される命令は、コンピュータ可読媒体上に記憶される。コンピュータ可読媒体は、デジタル情報記憶するデバイスであり得る。例えば、コンピュータ可読媒体は、ソフトウェアを記憶するための、当該技術分野で公知のコンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）を含む。コンピュータ可読媒体は、実行されるように構成される命令を実行するのに好適なプロセッサによってアクセスされる。
【００１３】
本教示の種々の実装の以下の説明は、例示および説明目的で示されている。それは、包括的なものではなく、本教示を開示される正確な形態に限定しない。修正および変更が、上記の教示を踏まえて可能であるか、または本教示の実践から得られ得る。さらに、記載された実装は、ソフトウェアを含むが、本教示は、ハードウェアおよびソフトウェアの組み合わせとして、またはハードウェア単独で実装され得る。本教示は、オブジェクト指向および非オブジェクト指向プログラミングシステムの両方で実装され得る。
【００１４】
（ＰＣＡ）
主成分分析（ＰＣＡ）は、データを視覚化および分類することを補助するために幅広く使用される、多変量解析（ＭＶＡ）ツールである。ＰＣＡは、多次元データセットの次元性を低減すると同時に、その分散に最も寄与するデータセットの特徴を保持するために使用され得る、統計技術である。このため、ＰＣＡはしばしば、線形判別分析（ＬＤＡ）等、高次元データを上手く処理しない技術に対して、データを前処理するために使用される。
【００１５】
ＰＣＡは、元のセット中の情報の大部分を表す主成分（ＰＣ）変数の実質的により小さいセットへの変数の元のセットの固有ベクトル変換を使用することによって、多数の相互に関係する変数の次元性を低減することができる。変数の新しいセットは、最初のいくつかが、元の変数の全てにおいて存在する変動の大部分を保持するように順序付けられる。より具体的には、各ＰＣは、元の測定変数の全ての線形結合である。第１は、測定された変数の最大の分散の方向におけるベクトルである。後続のＰＣは、測定データの最大の変動を表すように、かつすでに計算されたＰＣに直交するように選択される。したがって、ＰＣは、重要性の高い順に並べられる。ＰＣＡによって抽出されるＰＣの数（ｎ）は、サンプルまたは変数の数のより小さい方を超えることができない。しかしながら、変数の多くは、データセット中のノイズに対応し、有用な情報を含まない場合がある。
【００１６】
ＰＣＡは、データが行列の形態（以下、「入力行列」と称される）で示されることを必要とし、例えば、行は、サンプルを表し、列は、変数を表し、入力行列の要素またはセルは、特定のサンプル中のその変数の量を示す。あるいは、入力行列は、変数を表す行、サンプルを表す列、および特定のサンプル中のその変数の量を示す要素を含むことができる。後者の場合、ローディングプロットに適用されるものとして記載される処理は、代わりに、スコアプロットに適用される。入力行列は、一連のスコアおよびローディングベクトルに分解することができる。ローディングベクトルは、特定のＰＣに対して変数が行う寄与を示す。スコアベクトルは、特定のサンプル中の各成分の量の測定値である。
【００１７】
スコアおよびローディングプロットは、軸が２つ以上のＰＣを表す場合に表示することができ、サンプルは、それらのスコアに従って位置付けられ、変数は、ローディングに従って位置付けられる。スコアは、サンプル中に存在する各ＰＣの量を反映し、ローディングは、ＰＣに対する各変数の重要性を示す。
【００１８】
ＰＣＡは、任意のサンプルグループの知識も必要ない、教師無し技術であるが、この情報は、頻繁に入手可能であり、スコアプロットを解釈するのに役立つ。サンプルグループに関する知識は、例えば、サンプルが予想される方法で分離するかどうかを決定するのに役立ち得る。スコアプロットとは対照的に、ローディングプロットは、特に、多くの変数が存在し、どれも主要ではない時、またはデータが強度の影響を除去するように自動スケーリングされている時、解釈が非常に困難であり得る。
【００１９】
ＰＣＡ前に相関変数を除去することが一般的であるが、それらの識別は、さらなる解釈に役立ち得る。例えば、質量スペクトルデータにおいて、相関ピークは、予測不可能な断片であり得るか、または同位体、付加物、および異なる荷電状態が挙げられるが、これらに限定されない、既知の原点を有し得る。予測不可能な断片の認識は、スペクトルを生成した化合物を識別するのに役立ち得る。結果として、ＰＣＡを実施する前に相関変数を除去するよりもむしろ、生データから抽出される全ての変数を保持することが有益であり得る。なぜなら、これは、ローディングプロットが相関特徴を発見するように解釈されることを可能にするからである。本質的に、ＰＣＡは、サンプルを分離およびグループ化するために変数を使用しているが、変数を分離および集団化するためにサンプルを使用してもいる。いったん相関変数が識別されると、それらは、例えば、相関変数の最も強度の高い変数、相関変数の平均強度を有する新しい変数、または相関変数の合計が挙げられるが、これらに限定されない、何らかのグループ表示で相関変数のセットを置き換えることを含む、いくつかの方法で単純化することができる。
【００２０】
（データ処理の方法）
（主成分変数グループ化）
種々の実施形態において、相関変数のグループは、主成分分析（ＰＣＡ）、続いて、変数グループ化を使用して識別される。ＰＣＡ、続く、変数グループ化は、主成分変数グループ化（ＰＣＶＧ）と呼ぶことができる。
【００２１】
図２は、本教示と一致しているＰＣＶＧを使用して、複数のサンプルから複数の変数のＰＣＡ後、相関変数のグループを識別するための方法２００を示す、例示的なフローチャートである。
【００２２】
方法２００のステップ２１０において、ＰＣＡによって生成されたいくつかのＰＣが選択される。選択されるＰＣの数は、例えば、ＰＣＡによって生成されるＰＣの総数未満である。種々の実施形態において、選択されるＰＣの数は、全分散の指定された割合を表す最小数である。
【００２３】
ステップ２２０において、選択されたいくつかのＰＣを有するサブセットのＰＣ空間が作成される。
【００２４】
ステップ２３０において、サブセットのＰＣ空間中で変数が選択される。選択される変数は、例えば、原点から最も遠い変数である。
【００２５】
ステップ２４０において、サブセットのＰＣ空間の原点から選択された変数まで延在するベクトルの周囲で、空間角度が定義される。
【００２６】
ステップ２５０において、ベクトルの空間角度内で、サブセットのＰＣ空間中の１つ以上の変数のセットが選択される。種々の実施形態において、セット内の１つ以上の変数が閾値未満の有意値を有する場合、１つ以上の変数は、第１のセットに対して選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小の距離である。
【００２７】
ステップ２６０において、セットが最小数の変数を含む場合、セットがグループに割り当てられる。グループは、例えば、相関変数を識別する。変数の最小数は、例えば、グループが含むと予想される相関変数の数である。変数の最小数は、例えば、１または１よりも大きい数であり得る。
【００２８】
種々の実施形態において、方法２００はまた、グループから第２のベクトルを計算するステップと、第２のベクトルの空間角度内で１つ以上の変数の第２のセットを選択するステップと、第２のセットが最小数の変数を含む場合、グループの変数を第２のセットの変数と置き換えるステップとを含むことができる。第２のベクトルの空間角度は、ステップ２４０において定義される空間角度と同一の空間角度であり得、または第２のベクトルの空間角度は、ステップ２４０において定義される空間角度とは異なる空間角度であり得る。第２のベクトルは、グループ中の変数の任意の線形または非線形結合であり得る。例えば、第２のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態において、第２のセット内の１つ以上の変数が閾値未満の有意値を有する場合、１つ以上の変数は、第２のセットに対して選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小距離である。
【００２９】
種々の実施形態において、方法２００はまた、識別される各グループに、異なる記号を割り当てるステップを含むことができる。次いで、これらの記号は、ローディングデータを視覚化および解釈するために使用することができる。
【００３０】
種々の実施形態において、方法２００はまた、グループに、反相関である変数のセットを割り当てるステップをさらに含むことができる。これは、サブセットのＰＣ空間の原点の反対側に、ベクトルを含む線を延長するステップと、原点の反対側の線の空間角度内で、１つ以上の変数の第２のセットを選択するステップと、セットおよび第２のセットが最小数の変数を含む場合、第２のセットをグループに追加するステップとを含む。種々の実施形態において、第２のセット内の１つ以上の変数が閾値未満の有意値を有する場合、１つ以上の変数は、第２のセットに対して選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小距離である。
【００３１】
種々の実施形態において、方法２００はまた、さらなる分析からセットを除去するステップと、ＰＣ空間中で第２の変数を選択するステップと、サブセットのＰＣ空間の原点から第２の変数まで延在する第２のベクトルの空間角度内で、１つ以上の変数の第２のセットを選択するステップと、第２のセットが最小数の変数を含む場合、変数の第２のグループに、第２のセットを割り当てるステップとを含むことができる。第２のグループは、相関変数も識別する。変数の最小数は、例えば、１または１よりも大きい数であり得る。第２の変数は、例えば、サブセットのＰＣ空間の原点から最も遠い、割り当てられていない変数であり得る。
【００３２】
種々の実施形態において、方法２００はまた、第２のグループから第３のベクトルを計算するステップと、第３のベクトルの空間角度内で、１つ以上の変数の第３のセットを選択するステップと、第３のセットが最小数の変数を含む場合、第２のグループの変数を第３のセットの変数で置き換えるステップとを含むことができる。第２のグループの変数は、例えば、第２のセットから割り当てられる。第３のベクトルは、第２のグループ中の変数の任意の線形または非線形結合であり得る。例えば、第３のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態において、閾値未満の有意値を有する第３のセット内の１つ以上の変数は、選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点からの最小距離である。視覚化および解釈の目的で、第２の異なる記号を第２のグループに割り当てることができる。
【００３３】
種々の実施形態において、方法２００はまた、第２のグループに、反相関である一式の変数を割り当てるステップも含むことができる。これは、原点の反対側に、第２のベクトルを含む線を延長するステップと、原点の反対側の線の空間角度内で、１つ以上の変数の第３のセットを選択するステップと、セットおよび第３のセットが最小数の変数を含む場合、第３のセットを第２のグループに追加するステップとを含む。変数の最小数は、例えば、１または１よりも大きい数であり得る。種々の実施形態において、第３のセット内の１つ以上の変数が閾値未満の原点からの距離を有する場合、１つ以上の変数は、選択されない。閾値は、例えば、最小距離パラメータである。
【００３４】
種々の実施形態において、方法２００はまた、割り当てられたグループをソートするステップも含むことができる。ソートするステップは、例えば、各グループ中の原点からの最大距離によって行うことができる。
【００３５】
種々の実施形態において、方法２００はまた、さらなる分析からステップ２６０においてグループに割り当てられた変数を除去し、さらなる分析から最後に割り当てられたグループの変数を除去するステップを繰り返すステップと、サブセットのＰＣ空間中で新しい変数を選択するステップと、原点から新しい変数まで延在する新しいベクトルの空間角度内で、１つ以上の変数の新しいセットを選択するステップと、新しいセットが最小数の変数を含む場合、新しいセットを新しいグループに割り当てるステップと、グループに割り当てられない変数が閾値を超えなくなるまで、さらなる分析から新しいグループの変数を除去するステップとを含むことができる。閾値は、例えば、原点からの距離であり得る。これらのステップを繰り返すことで、例えば、複数の相関変数のグループが生成される。
【００３６】
上記のように、ＰＣＡは、多数の変数および比較的少ないサンプルを有するデータに適用することができる（このデータは、高次元を有するといわれる）。他の分析技術は、サンプルの数が変数の数を超えるデータを必要とする。これらの他の分析技術の実施例としては、線形判別分析（ＬＤＡ）および独立成分分析（ＩＣＡ）が挙げられるが、これらに限定されない。したがって、ＰＣＡは、ＬＤＡおよびＩＣＡ等の他の分析技術で使用するために、データの次元性を低減するために使用することができる。低減された次元は、グループのＰＣまたはグループ表示であり得る。グループは、元の変数の解釈可能な組み合わせであるため、グループ表示の使用は好ましい。
【００３７】
種々の実施形態において、方法２００はまた、グループ表示をグループに割り当てるステップと、後続の分析技術への入力として、グループ表示および複数のサンプルを使用するステップとを含むことができる。グループ表示は、グループの最も強度の高い変数、グループの平均強度を有する変数、またはグループの変数の合計を含むことができるが、これらに限定されない。後続の分析技術は、クラスタリング技術またはパターン認識技術を含むことができるが、これらに限定されない。後続の分析技術は、ＬＤＡまたはＩＣＡを含むことができるが、これらに限定されない。
【００３８】
種々の実施形態において、方法２００はまた、後続の分析技術への入力のために、新しい変数を生成するように、グループ表示を処理するステップも含むことができる。後続の分析技術は、ＬＤＡ、ＩＣＡ、またはＰＣＡを含むことができるが、これらに限定されない。グループ表示を処理するステップは、グループ表示および少なくとも１つの他のグループ表示の非線形結合を生成するステップを含むことができるがこれに限定されない。例えば、新しい変数は、グループ表示および別のグループ表示の比であり得る。
【００３９】
本教示の種々の実施形態において、例えば、高強度の変数が分析を支配しないように、ＰＣＡ処理にデータスケーリングが実施される。１つのスケーリング技術は、自動スケーリングであり、各変数に対する値は、最初に、変数の全ての値の平均を引き（すなわち、平均センタリング）、次いで、変数の分散で割ることによって処理される。自動スケーリングは、全ての変数に均等に重み付けし、変数が無関係であり、幅広く異なるスケールを有することができる場合、適切である。しかしながら、変数が全て同じ種類であり（すなわち、質量スペクトルまたはクロマトグラフィピーク）、より強度の高い変数が、より有意であり、ノイズである可能性が低い時は、パレートスケーリングがより有利であり得る。パレートスケーリングでは、平均センタリングされた値は、分散の平方根で割られる。パレートスケーリングは、元の強度の寄与を低減するが、除去はせず、ローディングプロットの解釈に役立つ。
【００４０】
図３は、本教示に従って、選択された変数３６０の空間角度３５０内で１つ以上の変数のセット３４０をどのように発見することができるかを示す、例示３００である。図３に示す三次元ＰＣ空間は、ＰＣ１３１０、ＰＣ２３２０、およびＰＣ３３３０のＰＣを含む。変数３６０は、この三次元ＰＣ空間中で選択される。空間角度３５０は、原点から選択された変数３６０まで延在するベクトルの周囲に定義される。空間角度３５０内に見られる１つ以上の変数は、１つ以上の変数のセット３４０として選択される。
【００４１】
図４は、本教示と一致している測定技術によって生成される複数のサンプルからの複数の変数のＰＣＡ後、変数をグループ化するためのコンピュータシステム４００を示す、例示的な概略図である。コンピュータシステム４００は、グループ化モジュール４１０を含む。グループ化モジュール４１０は、ＰＣＡによって生成されたいくつかのＰＣ選択し、いくつかのＰＣを有するサブセットのＰＣ空間を作成し、変数を選択し、原点から変数まで延在するベクトルの周囲の空間角度を定義し、ベクトルの空間角度内で１つ以上の変数のセットを選択し、セットが最小数の変数を含む場合、セットをグループに割り当てる。
【００４２】
コンピュータシステム４００の種々の実施形態において、サンプルの構成要素当たり２以上の変数を生成する測定技術を使用して、複数の変数を生成することができる。複数の変数は、例えば、図１５に示すような測定デバイスを使用して生成される。測定デバイスは、分光計または質量分析計であり得るが、これらに限定されない。測定技術は、核磁気共鳴、赤外分光法、近赤外分光法、紫外分光法、ラマン分光法、または質量分析を含むことができるが、これらに限定されない。種々の実施形態において、複数の変数は、分離技術と組み合わせて、サンプルの構成要素当たり２以上の変数を生成する測定技術を使用して、生成することができる。分離技術は、液体クロマトグラフィ、ガスクロマトグラフィ、またはキャピラリー電気泳動法を含むことができるが、これらに限定されない。
【００４３】
種々の実施形態において、グループ化モジュール４１０はまた、ＰＣ空間中で第２の変数を選択し、原点から第２の変数まで延在する第２のベクトルの空間角度内で、１つ以上の変数の第２のセットを選択し、第２のセットが最小数の変数を含む場合、第２のセットを変数の第２のグループに割り当てることができる。
【００４４】
本教示と一致した別のＰＣＶＧ方法を以下に概説する。
１．パレートスケーリングを使用して、全ての変数に対してＰＣＡを実施する。
２．使用されるＰＣの数（ｍ）を決定する。抽出されるＰＣの全てｎの使用は、元のデータを正確に再生する。しかしながら、これらのＰＣの多くは、データ中のノイズの揺らぎを表し、情報を失わずに無視することができる。ｍ個のＰＣの選択は、データを効果的に平滑化する。各変数は、このｍ次元空間中のベクトルによって表される。
３．原点から最も遠い変数に対応する目標ベクトル（ｔ）を決定する。これを有効にするために、自動スケーリングは使用しない。自動スケーリングは、小さいノイズピークを含む全ての変数に均等に重み付けするため、望ましくない。
４．このベクトルの周囲の空間角度（α）を定義し、その角度内にある他のデータ点（ベクトル）を発見し、随意に、低強度の変数を無視する。第２のベクトルがｘである場合、ｘと目標ベクトルとの間の角度（θ）は、
ｘ．ｔ＝｜ｘ｜｜ｔ｜ｃｏｓ（θ）
から発見することができる。
５．全ての選択されたベクトルの平均を計算し、新しい平均ベクトルを使用してステップ３を繰り返し、全ての選択された変数をグループに割り当てる。このようにして、「再センタリング」は、空間角度の配向を微調整し、最も強度の高い変数が何らかの形で非典型的である場合、有効であり得る。例えば、ピークが最も集中したサンプル中で飽和した場合、プロファイルは、歪められ得る。パレートスケーリングが使用されてきたため、平均ベクトルを計算することも、より低い強度のイオンが結果に与える影響を少なくする。
６．十分な強度を有する変数が残らなくなるまで、すでにグループ化された変数を無視して、ステップ３からのプロセスを繰り返す。
【００４５】
図５は、ｎ次元空間での処理データのために使用することができ、かつ本教示と一致している、コンピュータによって実装される方法５００を示す、例示的なフローチャートである。
【００４６】
方法５００のステップ５１０において、全ての変数に対してＰＣＡが実施され、指定のＰＣのサブセットが使用される。
【００４７】
ステップ５２０において、低い有意性を有する変数は、除去される。選択されたスケーリングおよびＰＣＡ有意性基準に対して低い有意性を有する変数をフィルタにかけて除去することは、任意である。変数をグループ化した後にステップを追加することによって、かつ異なる有意性基準を使用することによって、同じ効果を得ることができる。使用することができる別の有意性基準は、例えば、光学コントラストである。
【００４８】
ステップ５３０において、原点から最も遠い割り当てられていない変数のベクトルが発見される。
【００４９】
ステップ５４０において、ベクトルの空間角度内の全てのベクトルが発見される。
【００５０】
ステップ５５０において、ベクトルの空間角度内のベクトルの平均が発見される。
【００５１】
ステップ５６０において、該平均の空間角度内の全ての割り当てられていない変数が発見され、グループに割り当てられる。次いで、グループに割り当てられる変数は、処理から除去される。
【００５２】
ステップ５７０において、処理に対して任意の変数が残っている場合、方法５００は、ステップ５３０に戻る。処理に対して変数が残っていない場合は、方法５００は終了する。
【００５３】
この処理の結果は、さらに解釈することができる複数の相関変数のグループ、または後続の分析技術への入力として使用することができるグループ表示である。視覚化の目的で、記号をグループに割り当てることによって、ローディングプロット中のグループ化された変数を識別することが有用である。解釈は、グループの全てのメンバーに対して、強度またはプロファイルプロットを生成することによって支援され得る。
【００５４】
（反復主成分変数グループ化）
上記のように、大量のデータを生成する質量分析の能力は、多くのデータ処理技術に対して重大な問題をもたらす。具体的に、多数のサンプルを有する質量分析（ＭＳ）データ、液体クロマトグラフィ連結質量分析（ＬＣ−ＭＳ）データ、および画像ＭＳデータの高次元性（多数の変数）は、これらの技術にとって問題となり得る。
【００５５】
ＭＳによって生成される多数の変数はまた、主成分分析（ＰＣＡ）、続く、変数グループ化、または主成分変数グループ化（ＰＣＶＧ）にとって問題となり得る。ＰＣＶＧは、少なくとも２つの異なる方法で、多数の変数の影響を受ける可能性がある。第１に、多数の変数は、ＰＣＶＧアルゴリズムを実施するために使用されるプロセッサまたはコンピュータを圧倒し得る。結果として、データ分析は、妥当な期間で実施することができない。第２に、多数の変数は、ＰＣＶＧアルゴリズムの特異性を低減し、結果の質を低下させ得る。例えば、大量のデータを処理する時、より小さいデータが、大きいデータセットのノイズ全体によって曖昧にされ得る。
【００５６】
種々の実施形態において、ＰＣＶＧは、大量のデータを処理するために、データのセグメントに反復的に適用される。この技術において、データは、セグメントに慎重に分割される。セグメントは、それらが、ＰＣＶＧアルゴリズムを実行するために使用されるコンピュータまたはプロセッサの限界に達しないように、かつＰＣＶＧ結果の特異性の低減を引き起こさないように十分小さくなるように選択される。セグメントはまた、ＰＣＶＧがあまりに多くの反復を実施する必要なく、複数の相関グループを生成することができるように、セグメントが十分に大きくなるように選択される。
【００５７】
データの総量を低減するために、セグメントに対してＰＣＶＧを実施することによって生成される各相関変数のグループは、グループ表示と置き換えられる。結果として、全てのセグメントに対してＰＣＶＧを実施する結果は、セグメントの全てによって生成されるグループ表示の全てのデータセットである。グループ表示の全ての総数が１回のＰＣＶＧ実行に対してまだ大きすぎる場合、グループ表示の全てのデータセットは、セグメントに再び分割され、各セグメントに対してＰＣＶＧが実施される。このグループ表示の分割、続く、ＰＣＶＧの反復は、グループ表示の全ての総数が、使用されるプロセッサの制約内で実施し、必要とされる特異性を提供する、ＰＣＶＧの１回の実行を可能にするのに十分小さくなるまで継続される。
【００５８】
いったんグループ表示の全ての総数がＰＣＶＧの１回の実行を可能にするのに十分小さくなると、グループ表示の全てのデータセットに対してＰＣＶＧが実施され、相関変数のグループが識別される。これらのグループは、元の大量の測定されたＭＳデータに対する相関変数を表す。
【００５９】
図１５は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するためのシステム１５００を示す、概略図である。システム１５００は、分光計１５１０とプロセッサ１５２０とを含む。分光計１５１０は、例えば、質量分析計である。プロセッサ１５２０は、コンピュータ、マイクロプロセッサ、または分光計１５１０からの制御信号およびデータを送信および受信し、データを処理することが可能な任意のデバイスであり得るが、これらに限定されない。分光計１５１０は、複数のサンプルを分析し、複数のサンプルから複数の変数を生成する。
【００６０】
プロセッサ１５２０は、分光計１５１０と通信している。プロセッサ１５２０は、いくつかのステップを実施する。
【００６１】
（１）プロセッサ１５２０は、分光計１５１０から複数の測定された変数を取得し、複数の測定された変数を複数の測定された変数のサブセットに分割する。
【００６２】
（２）プロセッサ１５２０は、各測定された変数のサブセットに対してＰＣＶＧを実施し、各測定された変数のサブセットに対する１つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。
【００６３】
（３）プロセッサ１５２０は、各測定された変数のサブセットに対して生成される１つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【００６４】
（４）総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、プロセッサ１５２０は、ステップ（１０）に飛ぶ。最大数は、例えば、プロセッサ１５２０の処理能力に基づく。種々の実施形態において、最大数は、相関点が異なるサブセットに分割されないように、必要とされる点の数に基づく。
【００６５】
（５）プロセッサ１５２０は、複数のグループ表示を複数のグループ表示のサブセットに分割する。
【００６６】
（６）プロセッサ１５２０は、各グループ表示のサブセットに対してＰＣＶＧを実施し、各グループ表示のサブセットに対する１つ以上のグループ表示、および複数のグループ表示のサブセットに対する複数のグループ表示を生成する。
【００６７】
（７）プロセッサ１５２０は、各グループ表示のサブセットに対して生成される１つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【００６８】
（８）総数が最大数以下である場合、プロセッサ１５２０は、ステップ（１０）に飛ぶ。
【００６９】
（９）総数が変数の最大数よりも大きい場合、プロセッサは、ステップ（５）〜（９）を繰り返す。
【００７０】
（１０）プロセッサ１５２０は、複数のグループ表示に対してＰＣＶＧを実施し、変数の相関表示の複数のグループを生成する。
【００７１】
種々の実施形態において、プロセッサ１５２０は、以下のステップに従って、ステップ（２）において各測定された変数のサブセットに対して、ＰＣＶＧを実施する。
【００７２】
（ｉ）プロセッサ１５２０は、各測定された変数に対して主成分分析を実施する。
【００７３】
（ｉｉ）プロセッサ１５２０は、主成分分析によって生成されたいくつかの主成分を選択する。
【００７４】
（ｉｉｉ）プロセッサ１５２０は、いくつかの主成分を有するサブセットの主成分空間を作成する。
【００７５】
（ｉｖ）プロセッサ１５２０は、閾値よりも大きい有意値を有するサブセットの主成分空間における、各測定された変数のサブセットの変数を選択する。閾値は、例えば、サブセットの主成分空間の原点からの最小距離である。
【００７６】
（ｖ）プロセッサ１５２０は、原点から変数まで延在するベクトルの周囲の空間角度を定義する。
【００７７】
（ｖｉ）プロセッサ１５２０は、ベクトルの空間角度内で１つ以上の変数のグループを選択する。
【００７８】
（ｖｉｉ）プロセッサ１５２０は、グループが最小数の変数を含む場合、グループ表示をグループに割り当てる。変数の最小数は、例えば、グループが含むと予想される相関変数の最小数である。
【００７９】
（ｖｉｉｉ）プロセッサ１５２０は、選択されていない、グループ表示が割り当てられているグループの一部を成していない、または閾値を超える有意値を有する変数が、サブセットの主成分空間に残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返す。
【００８０】
種々の実施形態において、プロセッサ１５２０によってステップ（ｖ）において定義される空間角度は、複数の用途に対して一定角度である。一定角度は、例えば、約１５度である。種々の実施形態において、プロセッサ１５２０によってステップ（ｉｉ）において選択されるいくつかの主成分は、異なる用途に応じて調節される。主成分の数は、例えば、変数グループの数が、独立した成分の予想される最大数よりも小さくなるように選択される。
【００８１】
同様に、種々の実施形態において、プロセッサ１５２０は、以下のステップに従って、上記のように、ステップ（６）において、各グループ表示のサブセットに対してＰＣＶＧを実施する。
【００８２】
（ｉ）プロセッサ１５２０は、各グループ表示のサブセットに対して主成分分析を実施する。
【００８３】
（ｉｉ）プロセッサ１５２０は、主成分分析によって生成されたいくつかの主成分を選択する。
【００８４】
（ｉｉｉ）プロセッサ１５２０は、いくつかの主成分を有するサブセットの主成分空間を作成する。
【００８５】
（ｉｖ）プロセッサ１５２０は、閾値よりも大きい有意値を有するサブセットの主成分空間における、各グループ表示のサブセットの表示を選択する。閾値は、例えば、サブセットの主成分空間の原点からの最小距離である。
【００８６】
（ｖ）プロセッサ１５２０は、サブセットの主成分空間の原点から表示まで延在するベクトルの周囲の空間角度を定義する。
【００８７】
（ｖｉ）プロセッサ１５２０は、ベクトルの空間角度内で１つ以上の表示のグループを選択する。
【００８８】
（ｖｉｉ）プロセッサ１５２０は、グループが最小数の表示を含む場合、グループ表示をグループに割り当てる。表示の最小数は、例えば、グループが含むと予想される相関表示の最小数である。
【００８９】
（ｖｉｉｉ）プロセッサ１５２０は、選択されていない、相関表示のグループとして識別されるグループの一部を成していない、または閾値を超える有意値を有する表示がサブセットの主成分空間に残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返す。
【００９０】
最後に、種々の実施形態において、プロセッサ１５２０は、以下のステップに従って、上記のように、ステップ（１０）において、複数のグループ表示に対してＰＣＶＧを実施する。
【００９１】
（ｉ）プロセッサ１５２０は、複数のグループ表示に対して主成分分析を実施する。
【００９２】
（ｉｉ）プロセッサ１５２０は、主成分分析によって生成されたいくつかの主成分を選択する。
【００９３】
（ｉｉｉ）プロセッサ１５２０は、いくつかの主成分を有するサブセットの主成分空間を作成する。
【００９４】
（ｉｖ）プロセッサ１５２０は、閾値よりも大きい有意値を有するサブセットの主成分空間における、複数のグループ表示の表示を選択する。閾値は、例えば、サブセットの主成分空間の原点からの最小距離である。
【００９５】
（ｖ）プロセッサ１５２０は、サブセットの主成分空間の原点から表示まで延在するベクトルの周囲の空間角度を定義する。
【００９６】
（ｖｉ）プロセッサ１５２０は、ベクトルの空間角度内で１つ以上の変数のグループを選択する。
【００９７】
（ｖｉｉ）プロセッサ１５２０は、グループが最小数の表示を含む場合、グループを変数の相関表示のグループとして識別する。表示の最小数は、例えば、グループが含むと予想される変数の相関表示の最小数である。
【００９８】
（ｖｉｉｉ）プロセッサ１５２０は、選択されていない、変数の相関表示のグループとして識別されるグループの一部を成していない、または閾値を超える有意値を有するサブセットの主成分空間に表示が残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返す。
【００９９】
図１６は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法１６００を示す、フローチャートである。
【０１００】
方法１６００のステップ１６０５において、分光計を使用して、複数のサンプルが分析される。複数のサンプルは、質量分析（ＭＳ）、液体クロマトグラフィ連結質量分析（ＬＣ−ＭＳ）、または画像質量分析を含むが、これらに限定されない測定技術を使用して分析される。
【０１０１】
ステップ１６１０において、分光計を使用して、複数の測定された変数が複数のサンプルから生成される。
【０１０２】
ステップ１６１５において、プロセッサを使用して、複数の測定された変数が分光計から取得される。
【０１０３】
ステップ１６２０において、プロセッサを使用して、複数の測定された変数が複数の測定された変数のサブセットに分割される。
【０１０４】
ステップ１６２５において、プロセッサを使用して、各測定された変数のサブセットに対してＰＣＶＧが実施され、各測定された変数のサブセットに対する１つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。
【０１０５】
ステップ１６３０において、プロセッサを使用して、各測定された変数のサブセットに対して生成される１つ以上のグループ表示の数の合計として、複数のグループ表示の総数が計算される。
【０１０６】
ステップ１６３５において、プロセッサを使用して、総数がＰＣＶＧに対して許容可能な変数の最大数以下であるかどうかが決定される。総数が最大数以下である場合、方法１６００は、プロセッサを使用して、ステップ１６８０に飛ぶ。
【０１０７】
ステップ１６４０において、プロセッサを使用して、複数のグループ表示が複数のグループ表示のサブセットに分割される。
【０１０８】
ステップ１６４５において、プロセッサを使用して、各グループ表示のサブセットに対してＰＣＶＧが実施され、各グループ表示のサブセットに対する１つ以上のグループ表示、および複数のグループ表示のサブセットに対する複数のグループ表示を生成する。
【０１０９】
ステップ１６５０において、プロセッサを使用して、各グループ表示のサブセットに対して生成される１つ以上のグループ表示の数の合計として、複数のグループ表示の総数が計算される。
【０１１０】
ステップ１６５５において、プロセッサを使用して、総数が変数の最大数よりも大きいかどうかが決定される。総数が最大数よりも大きい場合、方法１６００は、ステップ１６４０に飛ぶ。
【０１１１】
ステップ１６６０において、プロセッサを使用して、複数のグループ表示に対してＰＣＶＧが実施され、変数の相関表示の複数のグループを生成する。
【０１１２】
種々の実施形態において、コンピュータプログラム製品は、大量のデータから相関変数のグループを識別するための方法を実施するために、命令がプロセッサ上で実行されるプログラムをそのコンテンツが含む有形コンピュータ可読記憶媒体を含む。この方法は、別個のソフトウェアモジュールのシステムによって実施される。
【０１１３】
図１７は、本教示に従った、大量の分光データから変数の相関表示のグループを識別するための方法を実施する、別個のソフトウェアモジュールのシステム１７００の概略図である。システム１７００は、測定モジュール１７１０と、分割モジュール１７２０と、グループ化モジュール１７３０とを含む。
【０１１４】
測定モジュール１７１０は、分光測光技術によって生成される複数のサンプルから複数の変数を取得する。分光測光技術は、質量分析（ＭＳ）、液体クロマトグラフィ連結質量分析（ＬＣ−ＭＳ）、または画像質量分析を含むことができるが、これらに限定されない。分割モジュール１７２０は、複数の測定された変数を複数の測定された変数のサブセットに分割する。
【０１１５】
グループ化モジュール１７３０は、いくつかのステップを実施する。
【０１１６】
（１）グループ化モジュール１７３０は、グループ化モジュールを使用して、各測定された変数のサブセットに対してＰＣＶＧを実施し、各測定された変数のサブセットに対する１つ以上のグループ表示、および複数の測定された変数のサブセットに対する複数のグループ表示を生成する。
【０１１７】
（２）グループ化モジュール１７３０は、各測定された変数のサブセットに対して生成される１つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【０１１８】
（３）総数がＰＣＶＧに対して許容可能な変数の最大数以下である場合、グループ化モジュール１７３０は、ステップ（９）に飛ぶ。
【０１１９】
（４）グループ化モジュール１７３０は、複数のグループ表示を複数のグループ表示のサブセットに分割する。
【０１２０】
（５）グループ化モジュール１７３０は、各グループ表示のサブセットに対してＰＣＶＧを実施し、各グループ表示のサブセットに対する１つ以上のグループ表示、および複数のグループ表示のサブセットに対する複数のグループ表示を生成する。
【０１２１】
（６）グループ化モジュール１７３０は、各グループ表示のサブセットに対して生成される１つ以上のグループ表示の数の合計として、複数のグループ表示の総数を計算する。
【０１２２】
（７）総数が最大数以下である場合、グループ化モジュール１７３０は、ステップ（９）に飛ぶ。
【０１２３】
（８）総数が変数の最大数よりも大きい場合、グループ化モジュール１７３０は、ステップ（４）〜（８）を繰り返す。
【０１２４】
（９）グループ化モジュール１７３０は、複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成する。
【０１２５】
本教示の側面は、以下の実施例を考慮してさらに理解され得、それらは、いかなる方法によっても、本教示の範囲を制限するものと見なされない。
【０１２６】
（ソフトウェア実施例）
図６は、本教示に従った、変数グループ化を実施するための、ソフトウェアツールのためのユーザインターフェース６００の例示的な画像である。ユーザインターフェース６００およびソフトウェアツールは、既存の表示プログラムと一緒に使用することができる。１つの既存の表示プログラムは、例えば、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ／ＭＤＳＳｃｉｅｘからのＭＡＲＫＥＲＶＩＥＷ^ＴＭである。
【０１２７】
ソフトウェアツールは、既存の表示プログラムが実行している間、および何らかのデータがスコアおよびローディングプロットを生成するように処理された後に実行することができる。開始時、ソフトウェアツールは、表示プログラムに問い合わせし、ローディングデータを取得することができる。処理後、ソフトウェアツールは、データ点が割り当てられた記号になることができるように、表示プログラムのローディング表中の「グループ」列を設定することができる。
【０１２８】
ＰＣの数は、３つの方法で選択することができる。第１に、ＰＣの数は、選択６１０を選択することによって、ローディングプロット中に現在表示されているものに基づくことができる。第２に、選択６２０を使用して、特定の数のＰＣを入力することができる。第３に、ソフトウェアツールは、選択６３０を使用して、所定量の分散を説明するいくつかのＰＣを選択することができる。所定量の分散を表すいくつかのＰＣを選択することによって、無視されるノイズの量の何らかの制御が可能となる。
【０１２９】
ユーザインターフェース６００のフィールド６４０において、ユーザは、空間角度パラメータを入力することができる。フィールド６５０において、ユーザは、原点パラメータからの最小強度または最小距離を入力することができる。所望に応じて、ユーザインターフェース６００上の「小を除外（ｅｘｃｌｕｄｅｓｍａｌｌ）」ボタン６６０を使用して、原点パラメータからの最小距離未満の変数に、それらが任意の後続の分析に使用されないように、除外の印を付けることができる。
【０１３０】
自動または手動グループ化は、ユーザインターフェース６００から選択６６５を使用して選択することができる。手動の場合、ユーザは、ローディングプロット中で対象となる変数を選択することができ、ソフトウェアツールは、その変数を開始点として使用して、単一のグループを抽出する。ユーザインターフェース６００上の選択６６５を使用して、自動処理を選択することによって、ユーザは、グループを開始するために、フィールド６７０において追加の閾値を入力することが可能となり、それは、小さい変数が、それらがより大きい変数を含むグループに割り当てられる場合、考慮され得るが、小さい変数は、新しいグループを開始するために使用することができないことを意味する。ユーザインターフェース６００はまた、グループが最小数の変数を含むよう要求する、フィールド６７５を含むことができる。フィールド６７５は、データが多数の相関変数を含むと予想される場合、使用することができる。
【０１３１】
上記のように、相関変数は、同じ直線上に実質的に位置し、ローディングプロットの原点の同じ側にある。ソフトウェアツールは、随意に、同じグループ中に、原点の反対側において線の延長に近接している変数を含むことができる。これらの変数は、反相関性がある。相関および反相関グループの包含は、ユーザインターフェース６００から選択６８０を使用して選択することができる。
【０１３２】
最後に、ユーザインターフェース６００の選択６８５を使用して、ユーザは、例えば、開始変数の強度に基づき、または第１の変数へのｍ次元空間における近さに基づき割り当てられたグループをソートすることを選択することができる。
【０１３３】
ユーザインターフェース６００は、ＰＣの数を選択する３つの方法（すなわち、選択６１０、６２０、および６３０）を示すが、ソフトウェアツールは、いくつが有意であるかを決定するために、任意の既知のアルゴリズムを使用することができる。実際に、本教示に記載する方法は、使用するＰＣの数およびグループを反復的に決定するために使用することができる。典型的には、ＰＣが主にノイズによるものになるまで、ＰＣの数の増加はほとんど影響を及ぼさず、それは、グループの数を劇的に急増させ得る。結果として、使用されるＰＣの数は、グループの数の急増を引き起こす値よりも小さい値に限定することができる。
【０１３４】
（データ実施例）
本教示の種々の実施形態において、関連変数を決定するために、ＰＣローディングを分析するための方法を記載する。例えば、一連のサンプルから同様の表現パターンを示す方法である。これらの方法は、質量分析（ＭＳ）データを使用して示される。しかしながら、これらの方法は、他の用途にも適用可能である。
【０１３５】
データは、核磁気共鳴（ＮＭＲ）、赤外分光法（ＩＲ）、近赤外分光法（ＮＩＲ）、紫外分光法（ＵＶ）、ラマン分光法、または質量分析（ＭＳ）等の種々の分光技術を使用して、各サンプルを分析することによって、生成することができる。分析はまた、上記の分光技術のうちの１つを、液体クロマトグラフィ（ＬＣ）、ガスクロマトグラフィ（ＧＣ）、またはキャピラリー電気泳動法（ＣＥ）等のクロマトグラフ分離と連結する、複合技術を使用して実行され得る。例示的な複合技術は、液体クロマトグラフィ質量分析（ＬＣ−ＭＳ）である。パターンは、疾病または治療薬による治療による変化等の、対象となっている実際の生物学的変動によるものであり得るか、または無視できる分析のアーチファクトであり得る。関連することが発見された変数は、パターンを引き起こす化合物を決定するために解釈されることができる。
【０１３６】
これらの方法に対する別の例示的な適用は、複合技術からデータ中のピークを発見することであり得る。データは、分離プロセスの排出物から一連のスペクトルを収集することによって、上記に挙げられる例示的な複合技術を使用して生成される。パターンは、ピークが分離から溶出する際に観察される強度プロファイルによるものである。関連変数は、同じパターンの変動を有し、重複（未分離）ピークが決定されることができる。関連することが発見された変数は、パターンを引き起こす化合物を決定するために解釈することができる。
【０１３７】
これらの方法に対する別の例示的な適用は、組織画像データを解釈することであり得る。データは、生物組織のサンプルにわたる種々の点において、スペクトル等の複数の測定値を与えることができる任意の技術によって生成される。パターンは、組織の異なる部分における化合物の量の変動によるものであり、器官および細胞小器官等の異なる特徴または構造に対応し得る。関連することが発見された変数は、パターンを引き起こす化合物を決定するために解釈されることができる。
【０１３８】
ＭＳデータに対して、入力行列の列における変数は、概して、質量ビンまたは重心値であり、液体クロマトグラフィ連結質量分析（ＬＣ−ＭＳ）に対して、変数は、質量対電荷比（ｍ／ｚ）および保持時間によって特徴付けられる。両方の場合において、データは、変数が全てのサンプルにおいて同じ信号を意味することを確実にするように整合される。
【０１３９】
図７は、本教示に従って、パレートスケーリングおよびＰＣＡ後に取得されるＭＳスペクトルデータに対する２つのＰＳの例示的なスコアプロット７００である。図７〜９に示すＭＳスペクトルデータは、マトリクス支援レーザー脱離イオン化法（ＭＡＬＤＩ）を使用して取得した。ＭＡＬＤＩＭＳスペクトルデータは、例えば、ＡＰＰＬＩＥＤＢＩＯＳＹＳＴＥＭＳ／ＭＤＳＳＣＩＥＸＴＯＦ／ＴＯＦ^ＴＭ飛行時間／飛行時間質量分析計等の質量分析計を使用して、取得することができる。ＭＡＬＤＩＭＳスペクトルデータのＰＣＡ分析および視覚化は、例えば、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ／ＭＤＳＳｃｉｅｘからのＭＡＲＫＥＲＶＩＥＷ^ＴＭソフトウェアを使用して、実施することができる。
【０１４０】
図７は、検定混合物のスパイクを有する、および有しないタンパク質消化物からのサンプルのスコアを示す。検定混合物のスパイクを有するスコアは、図７において記号７１０で示される。検定混合物のスパイクを有しないスコアは、図７において記号７２０で示される。記号７１０および７２０で図７に示すラベルは、サンプルおよびサンプルグループ名の組み合わせである。
【０１４１】
図７に示すように、スパイクされた７１０サンプルおよびスパイクされていない７２０サンプルは、第１のＰＣによって明確に分離され、それは、最大の分散を説明する。スパイクされた７１０サンプルは、より大きいＰＣ１スコアを有し、それらが、スパイクされていない７２０サンプルよりも、図８に示すように、大きい正のローディングを有する変数を比較的より多く有することを示す。
【０１４２】
図８は、本教示に従って、パレートスケーリングおよびＰＣＡ後に取得されるＭＳスペクトルデータに対する２つのＰＳの例示的なローディングプロット８００である。プロット８００中のラベルは、変数の重心ｍ／ｚ値に対応する。
【０１４３】
図８に示す実施例において、最大のＰＣ１ローディングを有する変数は、プロットの原点を通過する直線８１０上に位置する傾向がある。これらの変数が、相関性があり、サンプルセットにわたって同じ挙動を示すため、この特徴が生じる。
【０１４４】
図８はまた、ローディングプロットの解釈におけるパレートスケーリングの１つの利点を示す。任意の特定の同位体クラスタに対して、原点からの距離は、ピークの相対強度を反映する。したがって、同位体クラスタのメンバーが、予想と同じ挙動を有するかどうかを決定することができ、それは、観察された分離／相関の信頼性を増加させる。
【０１４５】
図９は、本教示に従って、パレートスケーリングおよびＰＣＡ後に取得されるＭＳスペクトルデータに対するいくつかの代表的な変数９１０の例示的なプロファイルプロット９００である。プロファイルプロットは、複数のサンプルの関数としての、１つ以上の変数の応答のプロットである。図９における変数９１０に対する相関は、ノイズが原因で完璧ではない。プロファイルのわずかな変動は、図８に示す相関線８１０周囲の散乱を引き起こす。
【０１４６】
種々の実施形態において、ピークの成分は、一群のスペクトルからのデータに対して多変量解析技術を使用して決定することができる。ピークが一群のスペクトルにわたって異なる挙動を有するデータ点を含む場合、ピークは、コンボリューションピークであると決定される。
【０１４７】
図１０は、本教示に従った、コンボリューションピークを識別するための方法１０００を示す、フローチャートである。
【０１４８】
方法１０００のステップ１０１０において、複数のスペクトルが取得される。複数のスペクトルは、例えば、複数のサンプルから取得される。種々の実施形態において、複数のスペクトルは、単一のサンプルから取得される。種々の実施形態において、複数のスペクトルを取得するステップは、分光法、質量分析法、または核磁気共鳴分析法を実施するステップを含むことができるが、これらに限定されない。
【０１４９】
ステップ１０２０において、複数のスペクトルからのデータ点を複数のグループに割り当てるために、多変量解析技術が使用される。
【０１５０】
ステップ１０３０において、複数のスペクトルからピークが選択される。
【０１５１】
ステップ１０４０において、ピークが複数のグループのうちの２つ以上のグループに割り当てられるデータ点を含む場合、ピークは、コンボリューションピークとして識別される。
【０１５２】
方法１０００の種々の実施形態において、多変量解析技術は、教師無しクラスタリングアルゴリズムを含むことができる。教師無しクラスタリングアルゴリズムは、自己組織化マップ、ｋ平均クラスタリングアルゴリズム、または階層クラスタリングアルゴリズムを含むことができるが、これらに限定されない。
【０１５３】
教師無しクラスタリングアルゴリズムはまた、データ点に対して主成分分析を実施するステップと、データ点を複数のグループに割り当てるために、主成分分析後に、相関するデータ点を識別するための方法を使用するステップとを含むことができる。主成分分析によって生成されるいくつかの主成分が選択されることができる。いくつかの主成分を有するサブセットの主成分空間が形成されることができる。サブセットの主成分空間におけるデータ点が選択されることができる。ベクトルは、サブセットの主成分空間の原点からデータ点まで延長されることができる。サブセットの主成分空間中、かつベクトルの周囲の空間角度内の１つ以上のデータ点は、相関するデータ点のグループとして識別されることができる。次いで、相関するデータ点のグループは、複数のグループに割り当てられることができる。
【０１５４】
種々の実施形態において、方法１０００はまた、ピークの成分に関する情報を入手するために、複数のグループのうちの２つ以上のグループのうちの１つ以上のグループを処理するステップを含むことができる。この情報は、強度データ、質量データ、化学シフトデータ、または波長データを含むことができるが、これらに限定されない。
【０１５５】
種々の実施形態において、方法１０００は、任意の分光技術およびサンプル収集方法と共に使用することができる。
【０１５６】
種々の実施形態において、方法１０００はまた、液体クロマトグラフィ質量分析、ガスクロマトグラフィ質量分析、キャピラリー電気泳動質量分析、超臨界流体クロマトグラフィ質量分析、イオン移動度質量分析、非対称場イオン移動度質量分析、液体クロマトグラフィ核磁気共鳴分析、液体クロマトグラフィ紫外分光分析、ガスクロマトグラフィ赤外分光分析、または空間分析等が挙げられるが、これらに限定されない分析技術から、複数のスペクトルを取得するステップを含むことができる。
【０１５７】
種々の実施形態において、関連データ点は、複数のサンプルを分析することによって決定することができる。関連データ点は、それらが複数のサンプルにわたって相関する場合に決定することができる。例えば、データ点がプロファイルスペクトルの一部である場合、一重項であるように思われるスペクトルピークが発見され得るが、実際は、異なって挙動する成分を有する。
【０１５８】
サンプルは、実際の物理的サンプルからの一連の単一スペクトルであり得る。スペクトルは、直接測定され得、または個々のサンプルのＬＣＭＳ分析からの全てのスペクトルを組み合わせることによって取得され得る。サンプルは、同じサンプルからの一連のスペクトル、例えば、ＬＣＭＳピークにわたって取得されるスペクトルであり得る。スペクトル間のコンボリューションピークの成分の比率の何らかの変動が存在することが重要であるが、正確な形態が既知である必要はない。
【０１５９】
図１１は、本教示に従った、スペクトルからのコンボリューションピーク１１１０の例示的なプロット１１００である。異なる記号１１２０、１１３０、および１１４０は、主成分分析後に変数をグループ化するための方法を使用して割り当てられる異なるグループのデータ点に対応する。単一のサンプルからスペクトルを取得したが、相関挙動を有する各ピークの異なる部分を示すために、複数のサンプルからのスペクトルを使用することによって、グループを決定した。
【０１６０】
図１２は、本教示に従って、第１のグループ１２２０の各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロット１２００である。第１のグループ１２２０は、図１１に示す記号１１２０に対応する。
【０１６１】
図１３は、本教示に従って、第２のグループ１３３０の各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロット１３００である。第２のグループ１３３０は、図１１に示す記号１１３０に対応する。
【０１６２】
図１４は、本教示に従って、第３のグループ１４４０の各質量に対する強度がサンプルにわたってどのように変動するかの例示的なプロット１４００である。第３のグループ１４４０は、図１１に示す記号１１４０に対応する。
【０１６３】
プロファイルプロットは、サンプルにわたるデータ点の反応を示す。図１２のプロット１２００、図１３のプロット１３００、および図１４のプロット１４００は、それぞれ、図１１の記号１１２０、１１３０、および１１４０に対応するデータ点のプロファイルプロットである。図１１の記号１１２０に対応する図１２のプロット１２００は、図１１の記号１１３０に対応する図１３のプロット１３００とは異なるプロファイルを示す。図１１の記号１１２０および１１３０によって示されるデータ点は、それぞれ、図１２のプロット１２００および図１３のプロット１３００の全てのサンプル中に存在するが、特定のサンプルにおいてより強度の値を示す。これは、それらが、実際には、別々の化合物に属していることを示す。
【０１６４】
図１１において、記号１１４０によって表され、図１４のプロット１４００において、サンプルにわたってプロットされるデータ点は、図１４のプロット１４００が図１２のプロット１２００および図１３のプロット１３００の合計を表しているため、このデータ点が、図１１において記号１１２０によって表されるデータ点に対応する化合物、および図１１において記号１１３０によって表されるデータ点に対応する化合物中に存在する可能性が高いことを示す。したがって、図１４の第３のグループ１４３０は、別個のグループであるが、追加の化合物の存在を示していない。したがって、同じピークと関連付けられるグループは、存在する化合物の実際の数を決定するように処理されなければならない。
【０１６５】
本教示は、種々の実施形態と併せて記載されているが、本教示は、そのような実施形態に限定されるよう意図されていない。反対に、本教示は、当業者によって理解されるように、種々の代替物、修正物、および同等物を包含する。
【０１６６】
さらに、種々の実施形態の記載において、本明細書は、特定のステップの順序として方法および／またはプロセスを示した場合がある。しかしながら、該方法またはプロセスが、本明細書に記載する特定のステップの順序に依存しない限りにおいて、該方法またはプロセスは、記載する特定のステップの順序に限定されるべきではない。当業者が理解するように、他のステップの順序が可能であり得る。したがって、本明細書に記載する特定のステップの順序は、特許請求の範囲の制限と解釈されるべきではない。さらに、該方法またはプロセスに関する特許請求の範囲は、書かれた順序でのそれらのステップの実施に限定されるべきではなく、当業者は、該順序が変更されてもよく、それにもかかわらず、種々の実施形態の精神および範囲の範囲内にとどまることを容易に理解することができる。

【特許請求の範囲】
【請求項１】
大量の分光データから変数の相関表示のグループを識別するためのシステムであって、
複数のサンプルを分析し、前記複数のサンプルから複数の変数を生成する分光計と、
前記分光計と通信しているプロセッサと
を備え、
（ａ）前記プロセッサは、前記分光計から複数の測定された変数を取得し、
（ｂ）前記プロセッサは、前記複数の測定された変数を複数の測定された変数のサブセットに分割し、
（ｃ）前記プロセッサは、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する１つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成し、
（ｄ）前記プロセッサは、各測定された変数のサブセットに対して生成される１つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算し、
（ｅ）前記総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、前記プロセッサは、ステップ（ｋ）にジャンプし、
（ｆ）前記プロセッサは、前記複数のグループ表示を複数のグループ表示のサブセットに分割し、
（ｇ）前記プロセッサは、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する１つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成し、
（ｈ）前記プロセッサは、各グループ表示のサブセットに対して生成される１つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算し、
（ｉ）前記総数が前記最大数以下である場合、前記プロセッサは、ステップ（ｋ）にジャンプし、
（ｊ）前記総数が変数の前記最大数よりも大きい場合、前記プロセッサは、ステップ（ｆ）〜（ｊ）を繰り返し、
（ｋ）前記プロセッサは、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成する、
システム。
【請求項２】
前記プロセッサは、
（ｉ）各測定された変数のサブセットに対して主成分分析を実施するステップと、
（ｉｉ）前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
（ｉｉｉ）前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
（ｉｖ）前記サブセットの主成分空間において、各測定された変数のサブセットの変数を選択するステップであって、前記変数は、閾値よりも大きい有意値を有する、ステップと、
（ｖ）前記サブセットの主成分空間の原点から前記変数まで延在するベクトルの周囲の空間角度を定義するステップと、
（ｖｉ）前記ベクトルの空間角度内で１つ以上の変数のグループを選択するステップと、
（ｖｉｉ）前記グループが最小数の変数を含む場合、グループ表示を前記グループに割り当てるステップであって、変数の前記最小数は、グループが含むと予想される相関変数の最小数である、ステップと、
（ｖｉｉｉ）前記サブセットの主成分空間に、選択されていない変数、グループ表示が割り当てられているグループの一部を成していない変数、または前記閾値を超える有意値を有する変数が残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返すステップと
によって、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する１つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成する、
請求項１に記載のシステム。
【請求項３】
前記プロセッサは、
（ｉ）各グループ表示のサブセットに対して主成分分析を実施するステップと、
（ｉｉ）前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
（ｉｉｉ）前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
（ｉｖ）前記サブセットの主成分空間において、各グループ表示のサブセットの表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
（ｖ）前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
（ｖｉ）前記ベクトルの空間角度内で１つ以上の表示のグループを選択するステップと、
（ｖｉｉ）前記グループが最小数の表示を含む場合、グループ表示を前記グループに割り当てるステップであって、表示の前記最小数は、グループが含むと予想される相関表示の最小数である、ステップと、
（ｖｉｉｉ）前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返すステップと
によって、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する１つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成する、
請求項１に記載のシステム。
【請求項４】
前記プロセッサは、
（ｉ）前記複数のグループ表示に対して主成分分析を実施するステップと、
（ｉｉ）前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
（ｉｉｉ）前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
（ｉｖ）前記サブセットの主成分空間において、前記複数のグループ表示の表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
（ｖ）前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
（ｖｉ）前記ベクトルの空間角度内で１つ以上の表示のグループを選択するステップと、
（ｖｉｉ）前記グループが最小数の表示を含む場合、変数の相関表示のグループとして前記グループを識別するステップであって、表示の前記最小数は、グループが含むと予想される変数の相関表示の最小数である、ステップと、
（ｖｉｉｉ）前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返すステップと
によって、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成する、
請求項１に記載のシステム。
【請求項５】
前記最大数は、前記プロセッサの処理能力に基づく、請求項１に記載のシステム。
【請求項６】
前記最大数は、相関点が異なるサブセットに分割されないように必要とされるいくつかの点に基づく、請求項１に記載のシステム。
【請求項７】
大量の分光データから相関変数の表示のグループを識別するための方法であって、
（ａ）分光計を使用して複数のサンプルを分析するステップと、
（ｂ）前記分光計を使用して、前記複数のサンプルから複数の測定された変数を生成するステップと、
（ｃ）プロセッサを使用して、前記分光計から前記複数の測定された変数を取得するステップと、
（ｄ）前記プロセッサを使用して、前記複数の測定された変数を複数の測定された変数のサブセットに分割するステップと、
（ｃ）前記プロセッサを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する１つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップと、
（ｄ）前記プロセッサを使用して、各測定された変数のサブセットに対して生成される１つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算するステップと、
（ｅ）前記総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、前記プロセッサを使用して、ステップ（ｋ）にジャンプするステップと、
（ｆ）前記プロセッサを使用して、前記複数のグループ表示を複数のグループ表示のサブセットに分割するステップと、
（ｇ）前記プロセッサを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する１つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップと、
（ｈ）前記プロセッサを使用して、各グループ表示のサブセットに対して生成される１つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算するステップと、
（ｉ）前記総数が前記最大数以下である場合、前記プロセッサを使用して、ステップ（ｋ）にジャンプするステップと、
（ｊ）前記総数が変数の前記最大数よりも大きい場合、前記プロセッサを使用して、ステップ（ｆ）〜（ｊ）を繰り返すステップと、
（ｋ）前記プロセッサを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップと
を含む、方法。
【請求項８】
前記プロセッサを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する１つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップは、
（ｉ）前記プロセッサを使用して、各測定された変数のサブセットに対して主成分分析を実施するステップと、
（ｉｉ）前記プロセッサを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
（ｉｉｉ）前記プロセッサを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
（ｉｖ）前記プロセッサを使用して、前記サブセットの主成分空間において、各測定された変数のサブセットの変数を選択するステップであって、前記変数は、閾値よりも大きい有意値を有する、ステップと、
（ｖ）前記プロセッサを使用して、前記サブセットの主成分空間の原点から前記変数まで延在するベクトルの周囲の空間角度を定義するステップと、
（ｖｉ）前記プロセッサを使用して、前記ベクトルの空間角度内で１つ以上の変数のグループを選択するステップと、
（ｖｉｉ）前記プロセッサを使用して、前記グループが最小数の変数を含む場合、グループ表示を前記グループに割り当てるステップであって、変数の前記最小数は、グループが含むと予想される相関変数の最小数である、ステップと、
（ｖｉｉｉ）前記プロセッサを使用して、前記サブセットの主成分空間に、選択されていない変数、グループ表示が割り当てられているグループの一部を成していない変数、または前記閾値を超える有意値を有する変数が残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返すステップと
を含む、請求項７に記載の方法。
【請求項９】
前記プロセッサを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する１つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップは、
（ｉ）前記プロセッサを使用して、各グループ表示のサブセットに対して主成分分析を実施するステップと、
（ｉｉ）前記プロセッサを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
（ｉｉｉ）前記プロセッサを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
（ｉｖ）前記プロセッサを使用して、前記サブセットの主成分空間において、各グループ表示のサブセットの表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
（ｖ）前記プロセッサを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
（ｖｉ）前記プロセッサを使用して、前記ベクトルの空間角度内で１つ以上の表示のグループを選択するステップと、
（ｖｉｉ）前記プロセッサを使用して、前記グループが最小数の表示を含む場合、グループ表示を前記グループに割り当てるステップであって、表示の前記最小数は、グループが含むと予想される相関表示の最小数である、ステップと、
（ｖｉｉｉ）前記プロセッサを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返すステップと
を含む、請求項７に記載の方法。
【請求項１０】
前記プロセッサを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップは、
（ｉ）前記プロセッサを使用して、前記複数のグループ表示に対して主成分分析を実施するステップと、
（ｉｉ）前記プロセッサを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
（ｉｉｉ）前記プロセッサを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
（ｉｖ）前記プロセッサを使用して、前記サブセットの主成分空間において、前記複数のグループ表示の表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
（ｖ）前記プロセッサを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
（ｖｉ）前記プロセッサを使用して、前記ベクトルの空間角度内で１つ以上の表示のグループを選択するステップと、
（ｖｉｉ）前記プロセッサを使用して、前記グループが最小数の表示を含む場合、変数の相関表示のグループとして前記グループを識別するステップであって、表示の前記最小数は、グループが含むと予想される変数の相関表示の最小数である、ステップと、
（ｖｉｉｉ）前記プロセッサを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返すステップと
を含む、請求項７に記載の方法。
【請求項１１】
前記複数のサンプルを分析するステップは、質量分析（ＭＳ）を実施するステップを含む、請求項７に記載の方法。
【請求項１２】
前記複数のサンプルを分析するステップは、液体クロマトグラフィ連結質量分析（ＬＣ−ＭＳ）を実施するステップを含む、請求項７に記載の方法。
【請求項１３】
前記複数のサンプルを分析するステップは、画像質量分析を実施するステップを含む、請求項７に記載の方法。
【請求項１４】
そのコンテンツがプログラムを含む有形コンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、前記プログラムは、大量のデータから変数の相関表示のグループを識別する方法を実施するために、プロセッサ上で実行される命令を有し、
前記方法は、
（ａ）システムを提供するステップであって、前記システムは、別個のソフトウェアモジュールを含み、前記別個のソフトウェアモジュールは、測定モジュール、分割モジュール、およびグループ化モジュールを含む、ステップと、
（ｂ）分光測光技術によって生成される複数のサンプルから複数の測定された変数を取得するステップであって、前記取得するステップは、前記測定モジュールによって実施される、ステップと、
（ｃ）前記分割モジュールを使用して、前記複数の測定された変数を複数の測定された変数のサブセットに分割するステップと、
（ｄ）前記グループ化モジュールを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する１つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップと、
（ｅ）前記グループ化モジュールを使用して、各測定された変数のサブセットに対して生成される１つ以上のグループ表示の数の合計として、前記複数のグループ表示の総数を計算するステップと、
（ｆ）前記総数が主成分分析、および続く変数グループ化に対して許容可能な変数の最大数以下である場合、前記グループ化モジュールを使用して、ステップ（ｌ）にジャンプするステップと、
（ｇ）前記グループ化モジュールを使用して、前記複数のグループ表示を複数のグループ表示のサブセットに分割するステップと、
（ｈ）前記グループ化モジュールを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する１つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップと、
（ｉ）前記グループ化モジュールを使用して、各グループ表示のサブセットに対して生成される１つ以上のグループ表示の数の合計として、前記複数のグループ表示の前記総数を計算するステップと、
（ｊ）前記総数が前記最大数以下である場合、前記グループ化モジュールを使用して、ステップ（ｌ）にジャンプするステップと、
（ｋ）前記総数が変数の前記最大数よりも大きい場合、前記グループ化モジュールを使用して、ステップ（ｇ）〜（ｋ）を繰り返すステップと、
（ｌ）前記グループ化モジュールを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップと
を含む、コンピュータプログラム製品。
【請求項１５】
前記グループ化モジュールを使用して、各測定された変数のサブセットに対して主成分分析、および続く変数グループ化を実施し、各測定された変数のサブセットに対する１つ以上のグループ表示、および前記複数の測定された変数のサブセットに対する複数のグループ表示を生成するステップは、
（ｉ）前記グループ化モジュールを使用して、各測定された変数のサブセットに対して主成分分析を実施するステップと、
（ｉｉ）前記グループ化モジュールを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
（ｉｉｉ）前記グループ化モジュールを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
（ｉｖ）前記グループ化モジュールを使用して、前記サブセットの主成分空間において、各測定された変数のサブセットの変数を選択するステップであって、前記変数は、閾値よりも大きい有意値を有する、ステップと、
（ｖ）前記グループ化モジュールを使用して、前記サブセットの主成分空間の原点から前記変数まで延在するベクトルの周囲の空間角度を定義するステップと、
（ｖｉ）前記グループ化モジュールを使用して、前記ベクトルの空間角度内で１つ以上の変数のグループを選択するステップと、
（ｖｉｉ）前記グループ化モジュールを使用して、前記グループが最小数の変数を含む場合、グループ表示を前記グループに割り当てるステップであって、変数の前記最小数は、グループが含むと予想される相関変数の最小数である、ステップと、
（ｖｉｉｉ）前記グループ化モジュールを使用して、前記サブセットの主成分空間に、選択されていない変数、グループ表示が割り当てられているグループの一部を成していない変数、または前記閾値を超える有意値を有する変数が残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返すステップと
を含む、請求項１４に記載のコンピュータプログラム製品。
【請求項１６】
前記グループ化モジュールを使用して、各グループ表示のサブセットに対して主成分分析、および続く変数グループ化を実施し、各グループ表示のサブセットに対する１つ以上のグループ表示、および前記複数のグループ表示のサブセットに対する複数のグループ表示を生成するステップは、
（ｉ）前記グループ化モジュールを使用して、各グループ表示のサブセットに対して主成分分析を実施するステップと、
（ｉｉ）前記グループ化モジュールを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
（ｉｉｉ）前記グループ化モジュールを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
（ｉｖ）前記グループ化モジュールを使用して、前記サブセットの主成分空間において、各グループ表示のサブセットの表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
（ｖ）前記グループ化モジュールを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
（ｖｉ）前記グループ化モジュールを使用して、前記ベクトルの空間角度内で１つ以上の表示のグループを選択するステップと、
（ｖｉｉ）前記グループ化モジュールを使用して、前記グループが最小数の表示を含む場合、グループ表示を前記グループに割り当てるステップであって、表示の前記最小数は、グループが含むと予想される相関表示の最小数である、ステップと、
（ｖｉｉｉ）前記グループ化モジュールを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返すステップと
を含む、請求項１４に記載のコンピュータプログラム製品。
【請求項１７】
前記グループ化モジュールを使用して、前記複数のグループ表示に対して主成分分析、および続く変数グループ化を実施し、変数の相関表示の複数のグループを生成するステップは、
（ｉ）前記グループ化モジュールを使用して、前記複数のグループ表示に対して主成分分析を実施するステップと、
（ｉｉ）前記グループ化モジュールを使用して、前記主成分分析によって生成されたいくつかの主成分を選択するステップと、
（ｉｉｉ）前記グループ化モジュールを使用して、前記いくつかの主成分を有するサブセットの主成分空間を作成するステップと、
（ｉｖ）前記グループ化モジュールを使用して、前記サブセットの主成分空間において、前記複数のグループ表示の表示を選択するステップであって、前記表示は、閾値よりも大きい有意値を有する、ステップと、
（ｖ）前記グループ化モジュールを使用して、前記サブセットの主成分空間の原点から前記表示まで延在するベクトルの周囲の空間角度を定義するステップと、
（ｖｉ）前記グループ化モジュールを使用して、前記ベクトルの空間角度内で１つ以上の表示のグループを選択するステップと、
（ｖｉｉ）前記グループ化モジュールを使用して、前記グループが最小数の表示を含む場合、変数の相関表示のグループとして前記グループを識別するステップであって、表示の前記最小数は、グループが含むと予想される変数の相関表示の最小数である、ステップと、
（ｖｉｉｉ）前記グループ化モジュールを使用して、前記サブセットの主成分空間に、選択されていない表示、グループ表示が割り当てられているグループの一部を成していない表示、または前記閾値を超える有意値を有する表示が残らなくなるまで、ステップ（ｉｖ）〜（ｖｉｉｉ）を繰り返すステップと
を含む、請求項１４に記載のコンピュータプログラム製品。
【請求項１８】
前記分光技術は、質量分析（ＭＳ）を含む、請求項１４に記載のコンピュータプログラム製品。
【請求項１９】
前記分光技術は、液体クロマトグラフィ連結質量分析（ＬＣ−ＭＳ）を含む、請求項１４に記載のコンピュータプログラム製品。
【請求項２０】
前記分光技術は、画像質量分析を含む、請求項１４に記載のコンピュータプログラム製品。

【図１】

【図２】

【図４】

【図５】

【図６】

【図７】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図３】

【図８】

【公表番号】特表２０１２−５２８３２７（Ｐ２０１２−５２８３２７Ａ）
【公表日】平成２４年１１月１２日（２０１２．１１．１２）
【国際特許分類】

物理学 (1,541,580)
- 測定；試験 (294,940)
  - 材料の化学的または物理的性質の決定による材料の調査または分析 (128,275)
    - 電気的，電気化学的，または磁気的手段の利用による材料の調査また... (17,622)
      - ガスのイオン化の調査によるもの；放電の調査によるもの，例．陰極... (3,117)

【出願番号】特願２０１２−５１３０２９（Ｐ２０１２−５１３０２９）
【出願日】平成２１年７月７日（２００９．７．７）
【国際出願番号】ＰＣＴ／ＵＳ２００９／０４９８２８
【国際公開番号】ＷＯ２０１０／１３８１３３
【国際公開日】平成２２年１２月２日（２０１０．１２．２）
【出願人】（５０９２４５７４０）エムディーエス　アナリティカル　テクノロジーズ (6)
【出願人】（５０２２２１２８２）ライフ　テクノロジーズ　コーポレーション (113)
【Ｆターム（参考）】

その他の電気的手段による材料の調査、分析 (22,023)

[ Back to top ]

大量の分光データにおける相関変数を識別するためのシステムおよび方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

大量の分光データにおける相関変数を識別するためのシステムおよび方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク