相関する変数および畳み込みピークを識別する方法、およびシステム

畳み込みピークを識別するための方法について説明する。複数のスペクトルが入手される。多変量分析技法を使用して、複数のスペクトルから複数の群にデータ点を割り当てる。ピークは、複数のスペクトルから選択される。ピークが、複数の群のうちの２つ以上に割り当てられるデータ点を含む場合、ピークは、畳み込みピークとして識別される。主成分分析は、データ点の割り当てに使用される１つの多変量分析技法である。主成分の数が選択される。部分集合主成分空間が形成される。部分集合主成分空間におけるデータ点が選択される。ベクトルは、部分集合主成分空間の原点からデータ点に延長される。ベクトルの周囲における空間角度内における１つ以上のデータ点は、群に割り当てられる。

【発明の詳細な説明】
【技術分野】
【０００１】
（関連出願の引用）
本願は、米国特許出願第１２／２００，６３６号（２００８年８月２８日出願）および米国仮特許出願第６１／０５７，７１９号（２００８年５月３０日出願）の利益を主張する。本願は、また、米国特許出願第１１／８４８，７１７号（２００７年８月３１日出願）の利益も主張する。上記全ての出願は、その全体が参照により本明細書に援用される。
【背景技術】
【０００２】
本教示は、相関する変数を判断および解釈するためのデータ分析に使用可能である。例えば、多変量統計解析は、バイオマーカー発見および代謝学において使用する質量分析（ＭＳ）データに適用可能である。ＭＳは、何百または何千もの変数を生成し得、その多くは相関しており、これが分析を複雑化している。主成分分析（ＰＣＡ）前に相関する変数を除去することが一般的であるが、その識別は、質量スペクトルデータの解釈において有用であり、その理由は、相関するピークが、予測不可能な断片であり得るからか、または同位体、付加体、および異なる荷電状態を含むがこれらに限定されない既知の原因を有し得るからである。予測不可能な断片を認識することによって、スペクトルを生成した化合物の識別に役立てることが可能である。
【発明の概要】
【発明が解決しようとする課題】
【０００３】
データ点のスペクトルのピークは、単一の成分または２つ以上の成分の結果であり得る。スペクトルは、例えば、サンプルの質量スペクトルであり得る。質量スペクトルのピークの成分は、例えば、サンプルの２つ以上の化合物を含み得る。ピークが２つ以上の成分の結果である場合、そのピークを畳み込みピークと呼ぶことが可能である。ピークが畳み込みピークであるか否かを判断することは、困難であり得る。畳み込みピークは、単一のピークとして、または２つ以上の重なりピークとしてスペクトルに出現し得る。
【課題を解決するための手段】
【０００４】
当業者は、以下に説明する図面が例証目的のみのものであることを理解するであろう。図面は、本教示の範囲を決して制限することを意図しない。
【図面の簡単な説明】
【０００５】
【図１】図１は、本教示の実施形態が実装され得るコンピュータシステムを示すブロック図である。
【図２】図２は、本教示に一致する、複数のサンプルからの複数の変数のＰＣＡの後に相関する変数を識別するためのコンピュータにより実装される方法を示す例示的フローチャートである。
【図３】図３は、本教示に従う、１つ以上の変数の集合が、選択された変数の空間角度内においていかに探索可能であるかを示す例示的な図である。
【図４】図４は、本教示に一致する測定技法により生成される複数のサンプルからの複数の変数のＰＣＡの後に変数をグループ化するためのコンピューティングシステムを示す例示的な略図である。
【図５】図５は、ｎ次元空間におけるデータの処理に使用可能であり、かつ本教示に一致するコンピュータにより実装される方法を示す例示的フローチャートである。
【図６】図６は、本教示に従う、ソフトウェアツールが変数グループ化を実行するための、ユーザインターフェースの例示的な画像である。
【図７】図７は、本教示に従う、パレートスケーリングおよびＰＣＡの後に入手したＭＳスペクトルデータの２つの主成分（ＰＣ）の例示的得点プロットである。
【図８】図８は、本教示に従う、パレートスケーリングおよびＰＣＡの後に入手したＭＳスペクトルデータの２つのＰＣの例示的負荷量プロットである。
【図９】図９は、本教示に従う、パレートスケーリングおよびＰＣＡの後に入手したＭＳスペクトルデータからのいくつかの代表変数の例示的プロファイルプロットである
【図１０】図１０は、本教示に従う、畳み込みピークを識別するための方法を示すフローチャートである。
【図１１】図１１は、本教示に従う、スペクトルからの畳み込みピークの例示的プロットである。
【図１２】図１２は、本教示に従う、第１の群の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロットである。
【図１３】図１３は、本教示に従う、第２の群の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロットである。
【図１４】図１４は、本教示に従う、第３の群の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロットである。
【図１５】図１５は、本教示に従う、畳み込みピークを識別するためのシステムの略図である。
【発明を実施するための形態】
【０００６】
本教示の１つ以上の実施形態について詳述する前に、当業者は、本教示が、その用途において、以下の詳細な説明に記載され、かつ図面に図示される構築の詳細、構成要素の構成、およびステップの構成に限定されないことを理解するであろう。また、本明細書において使用する表現および専門用語が説明目的のものであり、限定的なものとして見なすべきではないことも理解されたい。
【０００７】
（コンピュータにより実装されるシステム）
図１は、本教示の実施形態が実装され得るコンピュータシステム１００を例証するブロック図である。コンピュータシステム１００は、バス１０２または情報を通信するための他の通信機構と、情報を処理するためのバス１０２に連結されるプロセッサ１０４とを含む。また、コンピュータシステム１００は、ランダムアクセスメモリ（ＲＡＭ）または他の動的記憶装置であり得るメモリ１０６であって、ベースコールを判断するためのバス１０２に連結されるメモリ１０６と、プロセッサ１０４が実行する命令とを含む。また、メモリ１０６は、プロセッサ１０４が実行する命令の実行中に一時変数または他の中間情報を格納するため使用され得る。さらに、コンピュータシステム１００は、静的情報およびプロセッサ１０４のための命令を格納するための、バス１０２に連結される読み取り専用メモリ（ＲＯＭ）１０８または他の静的記憶装置を含む。磁気ディスクまたは光ディスク等の記憶装置１１０は、情報および命令を格納するためにバス１０２に提供および連結される。
【０００８】
コンピュータシステム１００は、コンピュータユーザに情報を表示するための陰極線管（ＣＲＴ）または液晶ディスプレイ（ＬＣＤ）等のディスプレイ１１２に、バス１０２を介して連結され得る。アルファベットキーおよび他のキーを含む入力機器１１４は、情報選択およびコマンド選択をプロセッサ１０４に通信するためにバス１０２に連結される。別の型のユーザ入力機器として、情報選択およびコマンド選択をプロセッサ１０４に通信するため、およびディスプレイ１１２上のカーソル移動を制御するためのマウス、トラックボール、またはカーソル方向キーが挙げられる。この入力機器は、典型的には、平面における位置を機器が特定することを可能にする第１の軸（すなわち、ｘ）および第２の軸（すなわち、ｙ）の２つの軸において２つの自由度を有する。
【０００９】
コンピュータシステム１００は、本教示を実行することが可能である。本教示の特定の実装に一致して、メモリ１０６に含まれる１つ以上の命令の１つ以上のシーケンスを実行するプロセッサ１０４に応答して、コンピュータシステム１００により結果が提供される。このような命令は、記憶装置１１０等の別のコンピュータ可読媒体からメモリ１０６に読み込まれ得る。メモリ１０６に含まれる命令のシーケンスの実行により、プロセッサ１０４は、本明細書に説明するプロセスを実行する。代替として、本教示を実装するために、ソフトウェア命令の代わりに、またはそれと組み合わせて配線接続回路を使用し得る。したがって、本教示の実装は、ハードウェア回路およびソフトウェアの任意の特定の組み合わせに限定されない。
【００１０】
本明細書において使用する際、用語の「コンピュータ可読媒体」は、実行するために命令をプロセッサ１０４に提供することに関与する任意の媒体をいう。このような媒体は、不揮発性媒体、揮発性媒体、伝送媒体を含むがこれらに限定されない多数の形式をとり得る。不揮発性媒体は、例えば、記憶装置１１０等の光ディスクまたは磁気ディスクを含む。揮発性媒体は、メモリ１０６等の動的メモリを含む。伝送媒体は、同軸ケーブル、銅線、および光ファイバーを含み、バス１０２を備えるワイヤを含む。また、伝送媒体は、電波および赤外線データ通信中に生成される波等の音波または光波の形式をとることも可能である。
【００１１】
コンピュータ可読媒体の一般的な形式には、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープもしくは任意の他の磁気媒体、ＣＤ−ＲＯＭ、任意の他の光媒体、パンチカード、穿孔テープ、孔のパターンを含む任意の他の物理媒体、ＲＡＭ、ＰＲＯ、およびＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、以下に説明する搬送波、またはコンピュータがそこから読み取り可能な任意の他の媒体が含まれる。
【００１２】
種々の形式のコンピュータ可読媒体は、実行するために、１つ以上の命令の１つ以上のシーケンスをプロセッサ１０４に搬送することに関与し得る。例えば、命令は、初めに、遠隔コンピュータの磁気ディスク上において搬送され得る。遠隔コンピュータは、命令をその動的メモリにロードし、モデムを使用して電話線上で命令を送信する。コンピュータシステム１００にローカルなモデムは、電話線上でデータを受信し、データを赤外線信号に変換するために赤外線送信機を使用することが可能である。バス１０２に連結される赤外線検出器は、赤外線信号において搬送されるデータを受信し、データをバス１０２上に置くことが可能である。バス１０２は、データをメモリ１０６に搬送し、プロセッサ１０４は、メモリ１０６から命令を読み出して実行する。メモリ１０６から受信した命令は、プロセッサ１０４による実行前または実行後のいずれかに、記憶装置１１０に格納され得る。
【００１３】
種々の実施形態によると、方法を実行するためにプロセッサにより実行されるように構成される命令は、コンピュータ可読媒体上に格納される。コンピュータ可読媒体は、デジタル情報を格納する機器であり得る。例えば、コンピュータ可読媒体は、ソフトウェアの格納のための当技術分野において既知であるように、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）を含む。コンピュータ可読媒体は、実行されるように構成される命令の実行に適切なプロセッサによってアクセスされる。
【００１４】
本教示の種々の実装に関する以下の説明は、例証および説明の目的のために提示されている。これは、包括的ではなく、開示する正確な形式に本教示を限定しない。修正および変形は、上記教示を考慮して可能であるか、または本教示の実施により入手され得る。さらに、説明する実装は、ソフトウェアを含むが、本教示は、ハードウェアおよびソフトウェアの組み合わせとして、またはハードウェア単独で実装され得る。本教示はオブジェクト指向および非オブジェクト指向のプログラミングシステムとともに実装され得る。
【００１５】
（ＰＣＡ）
主成分分析（ＰＣＡ）は、データの視覚化および分類に役立てるために広く使用される多変量分析（ＭＶＡ）ツールである。ＰＣＡは、多次元データ集合の次元性を低下させるとともに、その分散に最も寄与するデータ集合の特徴を保持するために使用され得る統計的技法である。このため、しばしばＰＣＡを使用して、線形判別分析（ＬＤＡ）等の高次元性データに十分対処しない技法のデータを事前処理する。
【００１６】
ＰＣＡによって、元の集合における情報の大部分を代表する主成分（ＰＣ）変数の実質的により小さい集合への変数の元の集合の固有ベクトル変換を使用して、多数の相互関連する変数の次元性を低下させることが可能である。変数の新しい集合は、最初のいくつかが、元の変数の全てに存在する変動の大部分を保持するように順序付けられる。より具体的には、各ＰＣは、全ての元の測定変数の線形結合である。第１のＰＣは、観測変数の最大分散の方向におけるベクトルである。後続のＰＣは、測定データの最大変動を代表するように、かつ前に計算されたＰＣに直交するように選択される。ゆえに、ＰＣは、重要度の降順に配置される。ＰＣＡにより抽出されたＰＣの数（ｎ）は、サンプル数または変数の数の小さい方を上回ることが不可能である。しかしながら、変数の多くは、データ集合における雑音に対応し、有用な情報を含まない。
【００１７】
ＰＣＡは、データを行列（以下、「入力行列」と呼ぶ）の形式で提示することを必要とし、この場合、例えば、行はサンプルを表し、列は変数を表し、入力行列の要素またはセルは、特定のサンプルにおけるその変数の量を標示する。代替として、入力行列は、変数を表す行、サンプルを表す列、および特定のサンプルにおいてその変数の量を表す要素を含み得る。後者の場合、負荷量プロットに適用するように説明される処理は、代わりに得点プロットに適用される。入力行列は、一連の得点ベクトルおよび負荷量ベクトルに分解可能である。負荷量ベクトルは、各変数の特定のＰＣへの寄与を標示する。得点ベクトルは、特定のサンプルにおける各成分の量の尺度である。
【００１８】
得点プロットおよび負荷量プロットは、２つ以上のＰＣを軸が表現する場合に表示可能であり、サンプルは、その得点に従って配置され、変数は、負荷量に従って配置される。得点は、サンプルに存在する各ＰＣの量を反映し、負荷量は、各変数のＰＣに対する重要性を標示する。
【００１９】
ＰＣＡは、任意のサンプル群に関する知識を必要としない教師なし技法であるが、この情報は、頻繁に入手可能であり、得点プロットの解釈に役立つ。サンプル群に関する知識は、例えば、期待された方式でサンプルが分離するか否かを判断するのに役立てることが可能である。得点プロットとは対照的に、負荷量プロットは、特に多数の変数が存在し、かつ支配的なものが無い場合、または強度の影響の除去のためにデータが自動スケーリングされた場合に、解釈するのが極めて困難であり得る。
【００２０】
ＰＣＡの前に相関する変数を除去することが一般的であるが、その識別を、さらなる解釈に役立てることが可能である。例えば、質量スペクトルデータでは、相関するピークは、予測不可能な断片であるか、または同位体、付加体、および異なる荷電状態を含むがこれらに限定されない既知の原因を有し得る。予測不可能な断片を認識することによって、スペクトルを生成した化合物の識別に役立てることが可能である。したがって、これによって、相関する特徴を発見するために負荷量プロットを解釈することが可能になるため、ＰＣＡの実行前に相関する変数を除去するのではなく、生データから抽出された全変数を保持することが有益であり得る。本質的に、ＰＣＡは、サンプルを分離およびグループ化するために変数を使用するが、変数を分離およびクラスタ化するためにもサンプルを使用する。相関する変数が識別されると、例えば、相関する変数の集合をいくつかの群代表に置換することを含む多数の方式で相関する変数を簡略化することが可能であり、群代表には、相関する変数のうちの最も強力な変数、相関する変数の平均強度を有する変数、または相関する変数の和が含まれるがこれらに限定されない。
【００２１】
（データ処理の方法）
図２は、本教示に一致する、複数のサンプルからの複数の変数のＰＣＡの後に相関する変数を識別するためのコンピュータにより実装される方法２００を示す例示的フローチャートである。
【００２２】
方法２００のステップ２１０では、ＰＣＡにより生成されるＰＣの数が選択される。選択されるＰＣの数は、例えば、ＰＣＡにより生成されるＰＣの全数よりも少ない。種々の実施形態では、選択されるＰＣの数は、全分散の指定割合を代表する最小数である。
【００２３】
ステップ２２０において、選択されたＰＣの数を有する部分集合ＰＣ空間が形成される。
【００２４】
ステップ２３０において、変数が、部分集合ＰＣ空間において選択される。選択される変数は、例えば、原点から最も遠い変数である。
【００２５】
ステップ２４０において、部分集合ＰＣ空間の原点から、選択された変数まで延びるベクトルの周囲の空間角度が規定される。
【００２６】
ステップ２５０において、部分集合ＰＣ空間における１つ以上の変数の集合が、ベクトルの空間角度内において選択される。種々の実施形態では、集合内の１つ以上の変数が閾値未満の有意値を有する場合、１つ以上の変数は第１の集合に選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。
【００２７】
ステップ２６０において、集合が最小数の変数を含む場合、集合は群に割り当てられる。群は、例えば、相関する変数を識別する。変数の最小数は、例えば、群が含むと期待される相関する変数の数である。変数の最小数は、例えば、１または１を上回る数であり得る。
【００２８】
種々の実施形態では、方法２００は、また、群から第２のベクトルを計算するステップと、第２のベクトルの空間角度内において１つ以上の変数の第２の集合を選択するステップと、第２の集合が最小数の変数を含む場合、群の変数を第２の集合の変数と置換するステップとを含み得る。第２のベクトルの空間角度は、ステップ２４０において規定される空間角度と同一であり得るか、または第２のベクトルの空間角度は、ステップ２４０において規定される空間角度とは異なる空間であり得る。第２のベクトルは、群における変数の任意の線形または線形結合であり得る。例えば、第２のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態では、第２の集合内における１つ以上の変数が閾値未満の有意値を有する場合、１つ以上の変数は第２の集合に選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。
【００２９】
種々の実施形態では、方法２００は、識別される各群に異なる記号を割り当てるステップも含み得る。次いで、これらの記号を使用して、負荷量データを可視化および解釈することが可能である。
【００３０】
種々の実施形態では、方法２００は、群に反相関する変数の集合を割り当てるステップも含み得る。これは、部分集合ＰＣ空間の原点の反対側においてベクトルを含む線を延ばすステップと、原点の反対側における線の空間角度内における１つ以上の変数の第２の集合を選択するステップと、集合および第２の集合が最小数の変数を含む場合、第２の集合を群に付加するステップとを含む。種々の実施形態では、第２の集合内における１つ以上の変数が閾値未満の有意値を有する場合、１つ以上の変数は第２の集合に選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。
【００３１】
種々の実施形態では、方法２００は、また、さらなる分析から集合を除去するステップと、ＰＣ空間において第２の変数を選択するステップと、部分集合ＰＣ空間の原点から第２の変数に延びる第２のベクトルの空間角度内における１つ以上の変数の第２の集合を選択するステップと、第２の集合が最小数の変数を含む場合、第２の集合を第２の群の変数に割り当てるステップとを含み得る。第２の群は、相関する変数も識別する。変数の最小数は、例えば、１または１を上回る数であり得る。第２の変数は、例えば、部分集合ＰＣ空間の原点から最も遠くにある割り当てられていない変数であり得る。
【００３２】
種々の実施形態では、方法２００は、また、第２の群から第３のベクトルを計算するステップと、第３のベクトルの空間角度内における１つ以上の変数の第３の集合を選択するステップと、第３の集合が最小数の変数を含む場合、第２の群の変数を第３の集合の変数と置換するステップとを含み得る。第２の群の変数は、例えば、第２の集合から割り当てられる。第３のベクトルは、第２の群における変数の任意の線形または線形結合であり得る。例えば、第３のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態では、閾値未満の有意値を有する第３の集合内における１つ以上の変数は、選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。視覚化目的および解釈目的のために、第２の異なる記号を第２の群に割り当て得る。
【００３３】
種々の実施形態では、方法２００は、第２の群に反相関する変数の集合を割り当てるステップも含み得る。これは、原点の反対側に第２のベクトルを含む線を延ばすステップと、原点の反対側における線の空間角度内における１つ以上の変数の第３の集合を選択するステップと、集合および第３の集合が最小数の変数を含む場合、第３の集合を第２の群に付加するステップとを含む。変数の最小数は、例えば、１または１を上回る数であり得る。種々の実施形態では、第３の集合内における１つ以上の変数が閾値未満の原点からの距離を有する場合、１つ以上の変数は選択されない。閾値は、例えば、最小距離パラメータである。
【００３４】
種々の実施形態では、方法２００は、割り当てられた群をソートするステップも含み得る。ソートするステップは、例えば、各群における原点からの最大距離によって実行可能である。
【００３５】
種々の実施形態では、方法２００は、また、ステップ２６０において群に割り当てられた変数をさらなる分析から除去するステップと、さらなる分析から最後に割り当てられた群の変数を除去するステップを繰り返すステップと、部分集合ＰＣ空間において新しい変数を選択するステップと、原点から新しい変数に延びる新しいベクトルの空間角度内における１つ以上の変数の新しい集合を選択するステップと、新しい集合が最小数の変数を含む場合、新しい集合を新しい群に割り当てるステップと、群に割り当てられない残りの変数が閾値を上回らなくなるまでさらなる分析から新しい群の変数を除去するステップとを含み得る。閾値は、例えば、原点からの距離であり得る。これらのステップを繰り返すことによって、例えば、相関する変数の複数の群が生成される。
【００３６】
上述のように、多数の変数および比較的少ないサンプルを有するデータにＰＣＡを適用することが可能である（本データは、高次元性を有すると言われる）。他の分析技法は、サンプルの数が変数の数を上回るデータを必要とする。これらの他の分析技法の例として、線形判別分析（ＬＤＡ）および独立成分分析（ＩＣＡ）が挙げられるがこれらに限定されない。ゆえに、ＰＣＡを使用して、ＬＤＡおよびＩＣＡ等の他の分析技法において使用するために、データの次元性を低下させることが可能である。低下した次元は、群のＰＣまたは群代表であり得る。群が元の変数の解釈可能な組み合わせであるため、群代表を使用することが好ましい。
【００３７】
種々の実施形態では、方法２００は、また、群代表を群に割り当てるステップと、群代表および複数のサンプルを、後続の分析技法への入力として使用するステップとを含み得る。群代表には、群の最も強力な変数、群の平均強度を有する変数、または群の変数の和を含め得るが、これらに限定されない。後続の分析技法には、クラスタリング技法またはパターン認識技法を含め得るが、これらに限定されない。後続の分析技法には、ＬＤＡまたはＩＣＡを含め得るが、これらに限定されない。
【００３８】
種々の実施形態では、方法２００は、また、後続の分析技法への入力のための新しい変数を生成するために群代表を処理するステップも含み得る。後続の分析技法には、ＬＤＡ、ＩＣＡ、またはＰＣＡを含め得るが、これらに限定されない。群代表を処理するステップには、例えば、群代表および少なくとも１つの他の群代表の非線形結合を生成するステップを含め得るが、これに限定されない。例えば、新しい変数は、群代表および別の群代表の比率であり得る。
【００３９】
本教示の種々の実施形態では、例えば、高強度変数が分析を支配しないように、ＰＣＡ処理の前にデータスケーリングが実行される。スケーリング技法の１つとして、まず変数の全ての値の平均を減算し（すなわち、平均中心化）、次いで変数の分散で割ることによって変数毎の値を処理する自動スケーリングが挙げられる。自動スケーリングは、全ての変数を同等に重み付けし、変数に関連性が無く、かつ大幅に異なるスケールを有し得る場合に適切である。しかしながら、変数が全て同一の種類であり（すなわち、質量スペクトルピークまたはクロマトグラフピーク）、変数が強力なほど有意であり、雑音である可能性が低い場合、パレートスケーリングが、より有利であり得る。パレートスケーリングでは、平均中心化値は、分散の平方根で割られる。パレートスケーリングは、元の強度寄与を低減するが排除せず、負荷量プロットの解釈に役立つ。
【００４０】
図３は、本教示に従う、１つ以上の変数３４０の集合を、選択された変数３６０の空間角度３５０内においていかに探索可能であるかを示す例示的な図３００である。図３に示す３次元ＰＣ空間は、ＰＣ、ＰＣ１３１０、ＰＣ２３２０、およびＰＣ３３３０を含む。変数３６０は、この３次元ＰＣ空間において選択される。空間角度３５０は、原点から選択された変数３６０へ延びるベクトルの周囲に規定される。空間角度３５０内に探索される１つ以上の変数は、１つ以上の変数３４０の集合として選択される。
【００４１】
図４は、本教示に一致する測定技法により生成される複数のサンプルからの複数の変数のＰＣＡの後に変数をグループ化するためのコンピューティングシステム４００を示す例示的な略図である。コンピューティングシステム４００は、グループ化モジュール４１０を含む。グループ化モジュール４１０は、ＰＣＡにより生成されるＰＣの数を選択し、その数のＰＣを有する部分集合ＰＣ空間を形成し、変数を選択し、原点から変数に延びるベクトルの周囲に空間角度を規定し、ベクトルの空間角度内における１つ以上の変数の集合を選択し、集合が最小数の変数を含む場合、集合を群に割り当てる。群モジュール４１０は、例えば、プロセッサである。
【００４２】
コンピューティングシステム４００の種々の実施形態では、複数の変数は、サンプルの成分当たりに複数の変数を生成する測定技法を使用して生成可能され得る。複数の変数は、例えば、図１５に示す測定機器を使用して生成される。測定機器には、分光計または質量分析計を含め得るが、これらに限定されない。測定技法には、核磁気共鳴、赤外分光法、近赤外分光法、紫外分光法、ラマン分光法、または質量分析を含め得るが、これらに限定されない。種々の実施形態では、複数の変数は、別々の技法と組み合わせたサンプルの成分当たりに複数の変数を生成する測定技法を使用して生成可能され得る。別々の技法には、液体クロマトグラフィ、ガスクロマトグラフィ、またはキャピラリー電気泳動を含め得るが、これらに限定されない。
【００４３】
種々の実施形態では、グループ化モジュール４１０は、ＰＣ空間において第２の変数を選択し、原点から第２の変数に延びる第２のベクトルの空間角度内において１つ以上の変数の第２の集合を選択し、第２の集合が最小数の変数を含む場合、第２の集合を第２の群の変数に割り当てることも可能である。
【００４４】
本教示に一致する別のコンピュータにより実装される方法について以下に概説する。
１．パレートスケーリングを使用して全変数においてＰＣＡを実行する。
２．使用するＰＣの数（ｍ）を判断する。抽出された全ｎ個のＰＣを使用することによって、元のデータが厳密に再現される。しかしながら、これらのＰＣの多くは、データにおける雑音変動を代表し、情報を損失せずに無視することが可能である。ｍ個のＰＣを効果的に選択することによって、データを平滑化することが可能である。各変数は、このｍ次元空間においてベクトルによって代表される。
３．原点から最も遠い変数に対応する標的ベクトル（ｔ）を判断する。これを効果的にするために、自動スケーリングは使用しない。自動スケーリングは、小雑音ピークを含む全変数を同等に重み付けするため望ましくない。
４．このベクトルの周囲に空間角度（α）を規定し、その角度内にある他のデータ点（ベクトル）を探索し、任意により、低強度変数を無視する。第２のベクトルがｘである場合、ｘと対象ベクトルとの間の角度（θ）は、以下から探索可能である。
ｘ．ｔ＝｜ｘ｜｜ｔ｜ｃｏｓ（θ）
５．選択された全ベクトルの平均を計算し、新しい平均ベクトルを使用してステップ３を繰り返し、選択された全変数を群に割り当てる。このような「再中心化」は、空間角度の配向を微調整し、ある方式において最も強力な変数が異型である場合に効果的であり得る。例えば、プロファイルは、ピークが最も集中されたサンプルにおいて飽和する場合に歪み得る。パレートスケーリングを使用しているため、平均ベクトルを計算することによっても、イオンの強度が小さいほど、結果に及ぼす影響が小さくなる。
６．ステップ３からプロセスを繰り返し、強度が十分である残りの変数が無くなるまで、先行してグループ化された変数を無視する。
【００４５】
図５は、ｎ次元空間におけるデータの処理に使用可能であり、かつ本教示に一致するコンピュータにより実装される方法５００を示す例示的フローチャートである。
【００４６】
方法５００のステップ５１０において、ＰＣＡが全変数に実行され、ＰＣの指定の部分集合が使用される。
【００４７】
ステップ５２０において、低有意性の変数が除去される。選択されたスケーリングおよびＰＣＡ有意性特性に関して低有意性を有する変数をフィルタにかけて除去するステップは、任意である。同一の効果は、変数のグループ化の後にステップを付加することによって、および異なる有意性基準を使用することによって達成可能である。使用可能である別の有意性基準は、例えば、光学的コントラストである。
【００４８】
ステップ５３０において、原点から最も遠い割り当てられていない変数のベクトルが探索される。
【００４９】
ステップ５４０において、ベクトルの空間角度内における全ベクトルが探索される。
【００５０】
ステップ５５０において、ベクトルの空間角度内におけるベクトルの平均が探索される。
【００５１】
ステップ５６０において、平均の空間角度内における全ての割り当てられていない変数が探索され、群に割り当てられる。次いで、群に割り当てられた変数は、処理から除去される。
【００５２】
ステップ５７０において、処理する任意の変数が残っている場合、方法５００は、ステップ５３０に戻る。処理する変数が残っていない場合、方法５００は終了する。
【００５３】
本処理の結果は、さらに解釈可能である相関する変数の多数の群であるか、または後続の分析技法への入力として使用可能である群代表である。視覚化目的のために、記号を群に割り当てることによって、負荷量プロットにおいてグループ化された変数を識別することが有用である。解釈は、群の全メンバーの強度またはプロファイルを生成することによって支援され得る。
【００５４】
以下の例を考慮して本教示の側面についてさらに理解することができるが、以下の例は、本教示の内容を限定するものとして決して解釈されるべきではない。
【００５５】
（ソフトウェアの例）
図６は、本教示に従う、ソフトウェアツールが変数グループ化を実行するための、ユーザインターフェース６００の例示的な画像である。ユーザインターフェース６００およびソフトウェアツールは、既存の視認プログラムとともに使用することが可能である。既存の視認プログラムの１つに、例えば、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ／ＭＤＳＳｃｉｅｘからのＭＡＲＫＥＲＶＩＥＷ^ＴＭが挙げられる。
【００５６】
ソフトウェアツールは、既存の視認プログラムの実行中や、いくつかのデータを処理して得点プロットおよび負荷量プロットを生成した後に実行可能である。開始すると、ソフトウェアツールは、視認プログラムに問い合わせを行ない、負荷量データを入手することが可能である。処理の後、ソフトウェアツールは、データ点に記号が割り当て可能になるように、視認プログラムの負荷量テーブルにおける「群」列を設定することが可能である。
【００５７】
ＰＣの数は、３つの方式で選択可能である。１つ目の方式では、ＰＣの数は、選択６１０を選ぶことによって、負荷量プロットにおいて表示中のＰＣに基づくことが可能である。２つ目の方式では、特定の数のＰＣは、選択６２０を使用して入力可能である。３つ目の方式では、ソフトウェアツールが、選択６３０を使用して、所与の量の分散を説明するＰＣの数を選択することが可能である。所与の量の分散を説明するＰＣの数を選択することによって、無視する雑音量の何らかの制御が可能になる。
【００５８】
ユーザインターフェース６００のフィールド６４０では、ユーザは、空間角度パラメータを入力することが可能である。フィールド６５０では、ユーザは、最小強度または原点からの最小距離のパラメータを入力することが可能である。必要に応じて、ユーザインターフェース６００上の「小値の排除」ボタン６６０を使用して、原点からの最小距離のパラメータ未満の変数を、任意の後続分析に使用しないように除去するようにマークを付けることが可能である。
【００５９】
ユーザインターフェース６００からの選択６６５を使用して、自動グループ化または手動グループ化を選択することが可能である。手動の場合、ユーザは、負荷量プロットの対象の変数を選択することが可能であり、ソフトウェアツールは、開始点としてその変数を使用して、単一の群を抽出する。ユーザインターフェース６００上の選択６６５を使用して自動処理を選択することによって、ユーザは、群を開始するためのフィールド６７０において追加の閾値を入力することが可能になり、これは、より大きい変数を含む群に割り当てられる場合に、小さい変数を考慮することが可能であるが、小さい変数を新しい群の開始に使用不可能であることを意味する。また、ユーザインターフェース６００は、群が最小数の変数を含むことを必要とするフィールド６７５も含み得る。フィールド６７５は、データが多数の相関する変数を含むと考えられる場合に使用可能である。
【００６０】
前述のように、相関する変数は、実質的に同一の直線上にあり、負荷量プロットの原点の同一側にある。ソフトウェアツールは、任意により、同一の群に、原点の反対側における線の延長に近接する変数を含め得る。これらの変数は、反相関する。相関群および反相関群を含めることは、ユーザインターフェース６００からの選択６８０を使用して選択可能である。
【００６１】
最後に、ユーザインターフェース６００の選択６８５を使用して、ユーザは、割り当てられた群を、例えば、開始変数の強度に基づいて、または第１の変数に対するｍ次元空間における近接性に基づいてソートさせるように選択することが可能である。
【００６２】
ユーザインターフェース６００は、ＰＣの数の選択に関する３つの方式（すなわち、選択６１０、６２０、および６３０）を示すが、ソフトウェアツールは、有意の数を判断するために、任意の既知のアルゴリズムを使用することが可能である。実際は、本教示に説明する手法は、使用するＰＣおよび群の数を繰り返して判断するために使用可能である。典型的には、ＰＣの数の増加は、ＰＣが、群の数を急増させ得る雑音に大部分が起因するまでほとんど影響を及ぼさない。結果として、使用するＰＣの数は、群の数を急増させる値未満の値に限定され得る。
【００６３】
（データの例）
本教示の種々の実施形態では、ＰＣ負荷量を分析して関連する変数、例えば、一連のサンプルから類似の代表パターンを示す変数を判断するための方法について説明する。これらの方法は、質量分析（ＭＳ）データを使用して例証される。しかしながら、これらの方法は、他の用途に適用可能である。
【００６４】
データは、核磁気共鳴（ＮＭＲ）、赤外分光法（ＩＲ）、近赤外分光法（ＮＩＲ）、紫外分光法（ＵＶ）、ラマン分光法、または質量分析（ＭＳ）等の多種多様の分光技法を使用して各サンプルを分析することによって生成され得る。また、分析は、上記分光技法のうちの１つを、液体クロマトグラフィ（ＬＣ）、ガスクロマトグラフィ（ＧＣ）、またはキャピラリー電気泳動（ＣＥ）等のクロマトグラフ分離と結合する複合技法を使用して実行され得る。例示的複合技法として、液体クロマトグラフィ質量分析（ＬＣ−ＭＳ）が挙げられる。パターンは、病気または治療による処置に起因する変化等の、対象の実際の生物学的変動に起因し得るか、または無視され得る分析の人為的な結果であり得る。関連することが発見された変数を解釈して、パターンを引き起こす化合物を判断することが可能である。
【００６５】
これらの方法の別の例示的用途は、複合技法からのデータにおけるピークの探索であり得る。データは、上記に列挙する例示的複合技法を使用して、分離プロセスの排水から一連のスペクトルを収集することによって生成される。パターンは、分離から溶出するピークとして観測される強度プロファイルに起因する。関連する変数は、同一の変動パターンを有し、重なり（非分解）ピークを判断することが可能である。関連することが発見された変数を解釈して、パターンを引き起こす化合物を判断することが可能である。
【００６６】
これらの方法の別の例示的用途は、組織画像データの解釈であり得る。データは、生物組織のサンプルにおける種々の点において、スペクトル等の複数の測定を提供可能である任意の技術によって生成される。パターンは、組織の異なる部分における化合物の量の変動に起因し、器官および細胞小器官等の異なる特徴または構造に対応し得る。関連することが発見された変数を解釈して、パターンを引き起こす化合物を判断することが可能である。
【００６７】
ＭＳデータでは、入力行列の列における変数は、概して、質量瓶または重心値であり、液体クロマトグラフィと結合した質量分析（ＬＣ−ＭＳ）では、変数は、質量対電荷比（ｍ／ｚ）および保持時間によって特徴付けられる。どちらの場合においても、データは、全サンプルにおける同一信号を変数が指すことを確実にするように整列される。
【００６８】
図７は、本教示に従う、パレートスケーリングおよびＰＣＡの後に入手したＭＳスペクトルデータの２つのＰＣの例示的得点プロット７００である。図７〜図９に示すＭＳスペクトルデータは、マトリックス支援レーザ脱離イオン化（ＭＡＬＤＩ）を使用して入手された。ＭＡＬＤＩＭＳスペクトルデータは、例えば、ＡＰＰＬＩＥＤＢＩＯＳＹＳＴＥＭＳ／ＭＤＳＳＣＩＥＸＴＯＦ／ＴＯＦ^ＴＭ飛行時間／飛行時間質量分析計等の質量分析計を使用して入手可能である。例えば、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ／ＭＤＳＳｃｉｅｘからのＭＡＲＫＥＲＶＩＥＷ^ＴＭソフトウェアを使用して、ＭＡＬＤＩＭＳスペクトルデータのＰＣＡ分析および視覚化を実行することが可能である。
【００６９】
図７は、検定混合物のスパイクを含むおよび含まないタンパク質消化物からのサンプルの得点を示す。検定混合物のスパイクを含む得点は、図７において記号７１０で示される。検定混合物のスパイクを含まない得点は、図７において記号７２０で示される。図７において記号７１０および７２０とともに示す表示は、サンプルおよびサンプル群の名称の組み合わせである。
【００７０】
図７に示すように、スパイクを含む７１０サンプルおよびスパイクを含まない７２０サンプルは、第１のＰＣ、ＰＣ１によって明確に分離され、これは、最大の分散量を説明する。スパイクを含む７１０サンプルは、ＰＣｌ得点が大きく、これは、スパイクを含まない７２０サンプルよりも、図８に示すように、大きい正の負荷量を有する変数を比較的多く有することを示す。
【００７１】
図８は、本教示に従う、パレートスケーリングおよびＰＣＡの後に入手したＭＳスペクトルデータの２つのＰＣの例示的負荷量プロット８００である。プロット８００における表示は、変数の重量ｍ／ｚ値に対応する。
【００７２】
図８に示す例では、最大ＰＣｌ負荷量を有する変数は、プロットの原点を通過する直線８１０上に存在する傾向にある。この特徴は、これらの変数が相関し、サンプル集合において同一の挙動を示すために発生する。
【００７３】
また、図８は、負荷量プロットを解釈する際にパレートスケーリングに関する一便益も示す。任意の特定の同位体クラスタでは、原点からの距離は、ピークの相対強度を反映する。したがって、同位体クラスタのメンバーが、期待された挙動と同一の挙動を有するかが判断可能であり、これによって、観測された分離／相関における信頼が増加する。
【００７４】
図９は、本教示に従う、パレートスケーリングおよびＰＣＡの後に入手したＭＳスペクトルデータからのいくつかの代表変数９１０の例示的プロファイルプロット９００である。プロファイルプロットは、複数のサンプルの関数とする１つ以上の変数の応答のプロットである。図９における変数９１０の相関が、雑音により完全ではないことに留意されたい。プロファイルにおけるわずかな変動によって、図８に示す相関線８１０の周囲に散乱が引き起こされる。
【００７５】
種々の実施形態では、ピークの成分は、スペクトルの収集からのデータに多変量分析技法を使用して判断可能である。ピークが、スペクトルの収集において異なる挙動を有するデータ点を含む場合、ピークは、畳み込みピークであると判断される。
【００７６】
図１０は、本教示に従う、畳み込みピークを識別するための方法１０００を示すフローチャートである。
【００７７】
方法１０００のステップ１０１０では、複数のスペクトルが入手される。複数のスペクトルは、例えば、複数のサンプルから入手される。種々の実施形態では、複数のスペクトルは、単一のサンプルから入手される。種々の実施形態では、複数のスペクトルを入手するステップは、分光法、質量分析、または核磁気分光法を実行するステップを含み得るが、これらに限定されない。
【００７８】
ステップ１０２０では、多変量分析技法を使用して、複数のスペクトルから複数の群にデータ点を割り当てる。
【００７９】
ステップ１０３０では、ピークが、複数のスペクトルから選択される。
【００８０】
ステップ１０４０では、ピークが、複数の群のうちの２つ以上の群に割り当てられるデータ点を含む場合、ピークは、畳み込みピークとして識別される。
【００８１】
方法１０００の種々の実施形態では、多変量分析技法は、教師なしクラスタリングアルゴリズムを含み得る。教師なしクラスタリングアルゴリズムには、自己組織化マップ、Ｋ平均クラスタリングアルゴリズム、または階層クラスタリングアルゴリズムを含め得るが、これらに限定されない。
【００８２】
教師なしクラスタリングアルゴリズムは、また、データ点に主成分分析を実行するステップと、データ点を複数の群に割り当てるために、主成分分析の後に、相関するデータ点を識別するための方法を使用するステップとを含み得る。主成分分析により生成される主成分が選択され得る。その数の主成分を有する部分集合主成分空間が形成され得る。部分集合主成分空間におけるデータ点が選択され得る。ベクトルは、部分集合主成分空間の原点からデータ点に延長され得る。部分集合主成分空間にあり、かつベクトルの周囲の空間角度内における１つ以上のデータ点は、相関するデータ点の群として識別され得る。次いで、相関するデータ点の群は、複数の群に割り当てられ得る。
【００８３】
種々の実施形態では、方法１０００は、ピークの成分に関する情報を入手するために、複数の群のうちの２つ以上の群のうちの１つ以上の群を処理するステップも含み得る。本情報には、強度データ、質量データ、化学シフトデータ、または波長データを含め得るが、これらに限定されない。
【００８４】
種々の実施形態では、方法１０００は、任意の分光技法およびサンプル収集方法とともに使用可能である。
【００８５】
種々の実施形態では、方法１０００は、液体クロマトグラフィ質量分析、ガスクロマトグラフィ質量分析、キャピラリー電気泳動質量分析、超臨界流体クロマトグラフィ質量分析、イオン移動度質量分析、非対称場イオン移動度質量分析、液体クロマトグラフィ核磁気共鳴分析、液体クロマトグラフィ紫外分光分析、ガスクロマトグラフィ赤外分光分析、または空間分析を含むがこれらに限定されない分析技法から複数のスペクトルを入手するステップも含み得る。
【００８６】
種々の実施形態では、関連するデータ点は、多数のサンプルを分析することによって判断可能である。関連するデータ点は、多数のサンプルにおいて相関する場合に判断可能である。例えば、データ点がプロファイルスペクトルの一部である場合、一重項であると見えるスペクトルピークが発見されるが、実際は異なって挙動する成分を有し得る。
【００８７】
サンプルは、実際の物理的サンプルの収集からの一連の単一スペクトルであり得る。スペクトルは、直接測定され得るか、または個々のサンプルのＬＣＭＳ分析からの全スペクトルを組み合わせることによって入手され得る。サンプルは、同一サンプルからの一連のスペクトル、例えば、ＬＣＭＳピークにおいて入手されるスペクトルであり得る。スペクトルにおける畳み込みピークの成分の比率の何らかの変動が存在することが重要であるが、厳密な形式を把握する必要はない。
【００８８】
図１１は、本教示に従う、スペクトルからの畳み込みピーク１１１０の例示的プロット１１００である。異なる記号１１２０、１１３０、および１１４０は、主成分分析の後に変数をグループ化するための方法を使用して割り当てられた異なる群のデータ点に対応する。スペクトルは、単一のサンプルから入手されたが、群は、相関する挙動を有する各ピークの異なる部分を明らかにするために、多数のサンプルからのスペクトルを使用することによって判断された。
【００８９】
図１２は、本教示に従う、第１の群１２２０の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロット１２００である。第１の群１２２０は、図１１に示す記号１１２０に対応する。
【００９０】
図１３は、本教示に従う、第２の群１２２０の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロット１３００である。第２の群１３３０は、図１１に示す記号１１３０に対応する。
【００９１】
図１４は、本教示に従う、第３の群１４４０の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロット１４００である。第３の群１４４０は、図１１に示す記号１１４０に対応する。
【００９２】
プロファイルプロットは、サンプルにおけるデータ点の応答を示す。図１２のプロット１２００、図１３のプロット１３００、および図１４のプロット１４００は、それぞれ図１１の記号１１２０、１１３０、および１１４０に対応するデータ点のプロファイルプロットである。図１１の記号１１２０に対応する図１２のプロット１２００は、図１１の記号１１３０に対応する図１３のプロット１３００とは異なるプロファイルを示す。図１１の記号１１２０および１１３０により表されるデータ点は、図１２のプロット１２００および図１３のプロット１３００の全サンプルにそれぞれ存在するが、特定のサンプルにおいてより強力な値を示す。これは、それらが実際は別々の成分に属することを示す。
【００９３】
図１１の記号１１４０により表され、かつ図１４のプロット１４００におけるサンプルにおいてグラフ化されるデータ点は、図１４のプロット１４００が、図１２のプロット１２００と図１３のプロット１３００との和を表すため、本データ点が図１１の記号１１２０により表されるデータ点に対応する化合物および図１１の記号１３００により表されるデータ点に対応する化合物に存在する可能性があることを示す。したがって、図１４の第３の群１４３０は、別々の群であるが、追加の化合物の存在を示さない。したがって、存在する化合物の実際の数を判断するために、同一のピークに関連する群を処理しなければならない。
【００９４】
図１５は、本教示に従う、畳み込みピークを識別するためのシステム１５００の略図である。システム１５００は、測定機器１５１０およびプロセッサ１５２０を含む。測定機器１５１０は、分光計または質量分析計であり得るが、これらに限定されない。プロセッサ１５２０は、コンピュータ、マイクロプロセッサ、または測定機器１５１０からの制御信号およびデータを送受信可能であり、かつデータを処理可能である任意の機器であり得るが、これらに限定されない。測定機器１５１０は、複数のスペクトルを入手する。プロセッサ１５２０は、多変量分析を使用して、複数のスペクトルから複数の群にデータ点を割り当て、多変量分析技法を使用し、複数のスペクトルからピークを選択し、ピークが複数の群のうちの２つ以上の群に割り当てられるデータ点を含む場合、ピークを畳み込みピークとして識別する。
【００９５】
種々の実施形態に関連して本教示について説明しているが、本教示をこのような実施形態に限定することを意図しない。反対に、本教示は、当業者が理解するように、種々の代替、修正、および同等物を包含する。

【特許請求の範囲】
【請求項１】
複数のサンプルからの複数の変数の主成分分析の後に、相関する変数を識別するための方法であって、
該主成分分析により生成される主成分の数を選択するステップと、
該数の主成分を有する部分集合主成分空間を形成するステップと、
該部分集合主成分空間において変数を選択するステップと、
該部分集合主成分空間の原点から該変数に延びるベクトルの周囲に空間角度を規定するステップと、
該ベクトルの該空間角度内における１つ以上の変数の集合を選択するステップと、
該集合が最小数の変数を含む場合、該集合を群に割り当てるステップと
を含み、
該群は、相関する変数を識別し、該変数の最小数は、群が含むと期待される相関する変数の数である、
方法。
【請求項２】
前記群における変数の線形または非線形結合から第２のベクトルを計算するステップと、
該第２のベクトルの空間角度内における１つ以上の変数の第２の集合を選択するステップと、
該第２の集合が前記最小数の変数を含む場合、前記集合から割り当てられた該群の変数を、該第２の集合の変数と置換するステップと
をさらに含む、請求項１に記載の方法。
【請求項３】
前記数は、全分散の割合を代表する主成分を含む、請求項１に記載の方法。
【請求項４】
前記変数は、前記原点から最も遠くにある変数を含む、請求項１に記載の方法。
【請求項５】
前記変数の最小数は、１または１を上回る数を含む、請求項１に記載の方法。
【請求項６】
前記原点の反対側において前記ベクトルを含む線を延ばすステップと、
該原点の該反対側における該線の空間角度内における１つ以上の変数の第２の集合を選択するステップと、
前記集合および該第２の集合が前記最小数の変数を含む場合、該第２の集合を前記群に付加するステップと
をさらに含む、請求項１に記載の方法。
【請求項７】
前記集合をさらなる分析から除去するステップと、
前記部分集合主成分空間において第２の変数を選択するステップと、
前記原点から該第２の変数に延びる第２のベクトルの空間角度内における１つ以上の変数の第２の集合を選択するステップと、
該第２の集合が前記最小数の変数を含む場合、該第２の集合を第２の群の変数に割り当てるステップであって、該第２の群は、相関する変数を識別する、ステップと
をさらに含む、請求項１に記載の方法。
【請求項８】
前記第２の群の第３のベクトルを計算するステップと、
該第３のベクトルの空間角度内における１つ以上の変数の第３の集合を選択するステップと、
該第３の集合が前記最小数の変数を含む場合、前記第２の集合から割り当てられた前記第２の群の変数を、該第３の集合の変数と置換するステップと
をさらに含む、請求項７に記載の方法。
【請求項９】
前記第２の変数は、前記原点から最も遠くにある変数を含む、請求項７に記載の方法。
【請求項１０】
前記原点の反対側において前記第２のベクトルを含む線を延ばすステップと、
該原点の該反対側における該線の空間角度内における１つ以上の変数の第３の集合を選択するステップと、
前記第２の集合および該第３の集合が前記最小数の変数を含む場合、該第３の集合を前記第２の群に付加するステップと
をさらに含む、請求項７に記載の方法。
【請求項１１】
前記群および前記第２の群をソートするステップをさらに含む、請求項７に記載の方法。
【請求項１２】
（ａ）前記群に割り当てられた変数をさらなる分析から除去するステップと、
（ｂ）前記部分集合主成分空間において新しい変数を選択するステップと、
（ｃ）前記原点から該新しい変数に延びる新しいベクトルの空間角度内における１つ以上の変数の新しい集合を選択するステップと、
（ｄ）該新しい集合が前記最小数の変数を含む場合、該新しい集合を新しい群に割り当てるステップと、
（ｅ）該新しい群の変数をさらなる分析から除去するステップと、
群に割り当てられない残りの変数が閾値を上回らなくなるまで（ｂ）〜（ｅ）のステップを繰り返すステップであって、該新しい群は、相関する変数を示す、ステップと
をさらに含む、請求項１に記載の方法。
【請求項１３】
前記閾値は、前記原点からの距離を含む、請求項１２に記載の方法。
【請求項１４】
群代表を前記群に割り当てるステップと、
該群代表および前記複数のサンプルを、後続の分析技法への入力として使用するステップと
をさらに含む、請求項１に記載の方法。
【請求項１５】
前記群代表は、前記群の最も強力な変数、該群の平均強度、または該群の変数の和のうちの１つを含む、請求項１４に記載の方法。
【請求項１６】
前記後続の分析技法は、クラスタリング技法およびパターン認識技法のうちの１つを含む、請求項１４に記載の方法。
【請求項１７】
前記後続の分析技法は、線形判別分析および独立成分分析のうちの１つを含む、請求項１４に記載の方法。
【請求項１８】
前記後続の分析技法のための新しい変数を生成するために、前記群代表および少なくとも１つの他の群代表を処理するステップをさらに含む、請求項１４に記載の方法。
【請求項１９】
前記後続の分析技法は、線形判別分析、独立成分分析、および主成分分析のうちの１つを含む、請求項１８に記載の方法。
【請求項２０】
前記群代表を処理するステップは、前記群代表および少なくとも１つの他の群代表の非線形結合を生成するステップを含む、請求項１８に記載の方法。
【請求項２１】
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体のコンテンツはプログラムを含み、該プログラムは、複数のサンプルからの複数の変数の主成分分析の後に相関する変数を識別するための方法を実現するように、プロセッサ上で実行される命令を有し、
該命令は、
該主成分分析により生成される主成分の数を選択するステップと、
該数の主成分を有する部分集合主成分空間を形成するステップと、
該部分集合主成分空間において変数を選択するステップと、
該部分集合主成分空間の原点から該変数に延びるベクトルの周囲に空間角度を規定するステップと、
該ベクトルの該空間角度内における該部分集合主成分空間において１つ以上の変数の集合を選択するステップと、
該集合が最小数の変数を含む場合、該集合を群に割り当てるステップと
を含み、
該群は、相関する変数を識別し、該変数の最小数は、群が含むと期待される相関する変数の数である、
コンピュータ可読記憶媒体。
【請求項２２】
前記方法は、
前記集合をさらなる分析から除去するステップと、
前記部分集合主成分空間において第２の変数を選択するステップと、
前記原点から該第２の変数に延びる第２のベクトルの空間角度内における１つ以上の変数の第２の集合を選択するステップと、
該第２の集合が前記最小数の変数を含む場合、該第２の集合を第２の群の変数に割り当てるステップであって、該第２の群は、相関する変数を識別する、ステップと
をさらに含む、請求項２１に記載のコンピュータ可読媒体。
【請求項２３】
複数のサンプルからの複数の変数の主成分分析の後に相関する変数を識別するためのコンピューティングシステムであって、
測定技法を使用して該複数のサンプルから該複数の変数を生成する測定機器と、
該主成分分析により生成される主成分の数を選択し、
該数の主成分を有する部分集合主成分空間を形成し、
該部分集合主成分空間において変数を選択し、
該部分集合主成分空間の原点から該変数に延びるベクトルの周囲に空間角度を規定し、
該ベクトルの該空間角度内における該部分集合主成分空間において１つ以上の変数の集合を選択し、
該集合が最小数の変数を含む場合、該集合を群に割り当てるプロセッサであって、
該群は、相関する変数を識別し、該変数の最小数は、群が含むと期待される相関する変数の数である、プロセッサと
を備える、コンピューティングシステム。
【請求項２４】
前記測定技法は、サンプルの成分当たりに複数の変数を生成する、請求項２３に記載のコンピューティングシステム。
【請求項２５】
前記測定技法は、核磁気共鳴、赤外分光法、近赤外分光法、紫外分光法、ラマン分光法、および質量分析のうちの１つ含む、請求項２３に記載のコンピューティングシステム。
【請求項２６】
前記測定技法は、分離技法を含む、請求項２３に記載のコンピューティングシステム。
【請求項２７】
前記分離技法は、液体クロマトグラフィ、ガスクロマトグラフィ、およびキャピラリー電気泳動のうちの１つを含む、請求項２６に記載のコンピューティングシステム。
【請求項２８】
前記グループ化モジュールは、
前記集合をさらなる分析から除去し、
前記部分集合主成分空間において第２の変数を選択し、
前記原点から該第２の変数に延びる第２のベクトルの空間角度内における１つ以上の変数の第２の集合を選択し、
該第２の集合が前記最小数の変数を含む場合、該第２の集合を、相関する変数を識別する第２の群の変数に割り当てる、
請求項２３に記載のコンピューティングシステム。
【請求項２９】
畳み込みピークを識別するための方法であって、
複数のスペクトルを入手するステップと、
多変量分析技法を使用して、該複数のスペクトルから複数の群にデータ点を割り当てるステップと、
該複数のスペクトルからピークを選択するステップと、
該ピークが、該複数の群のうちの２つ以上の群に割り当てられるデータ点を含む場合、該ピークを畳み込みピークとして識別するステップと
を含む、方法。
【請求項３０】
前記複数のスペクトルを入手するステップは、複数のサンプルから該複数のスペクトルを入手するステップを含む、請求項２９に記載の方法。
【請求項３１】
前記複数のスペクトルを入手するステップは、単一のサンプルから該複数のスペクトルを入手するステップを含む、請求項２９に記載の方法。
【請求項３２】
前記複数のスペクトルを前記入手するステップは、質量分析を実行するステップを含む、請求項２９に記載の方法。
【請求項３３】
前記複数のスペクトルを前記入手するステップは、核磁気共鳴を実行するステップを含む、請求項２９に記載の方法。
【請求項３４】
前記複数のスペクトルを前記入手するステップは、分光法を実行するステップを含む、請求項２９に記載の方法。
【請求項３５】
前記多変量分析技法は、教師なしクラスタリングアルゴリズムを含む、請求項２９に記載の方法。
【請求項３６】
前記教師なしクラスタリングアルゴリズムは、自己組織化マップを含む、請求項３５に記載の方法。
【請求項３７】
前記教師なしクラスタリングアルゴリズムは、Ｋ平均クラスタリングアルゴリズムを含む、請求項３５に記載の方法。
【請求項３８】
前記教師なしクラスタリングアルゴリズムは、階層クラスタリングアルゴリズムを含む、請求項３５に記載の方法。
【請求項３９】
前記教師なしクラスタリングアルゴリズムは、前記データ点に前記主成分分析を実行するステップと、該データ点を前記複数の群に割り当てるために、該主成分分析の後に、相関するデータ点を識別するための方法を使用するステップとを含む、請求項３５に記載の方法。
【請求項４０】
前記データ点を前記複数の群に割り当てるために、前記主成分分析の後に、相関するデータ点を識別するための方法は、
該主成分分析により生成される主成分の数を選択するステップと、
該数の主成分を有する部分集合主成分空間を形成するステップと、
該部分集合主成分空間においてデータ点を選択するステップと、
該部分集合主成分空間の原点から該データ点にベクトルを延ばすステップと、
該部分集合主成分空間にあり、かつ前記ベクトルの周囲の空間角度内における１つ以上のデータ点を、相関するデータ点の群として識別するステップと、
該相関するデータ点の群を該複数の群に割り当てるステップと
を含む、請求項３９に記載の方法。
【請求項４１】
前記ピークの成分に関する情報を入手するために、前記２つ以上の群のうちの１つ以上の群を処理するステップをさらに含む、請求項２９に記載の方法。
【請求項４２】
前記情報は、強度データを含む、請求項４１に記載の方法。
【請求項４３】
前記情報は、質量データを含む、請求項４１に記載の方法。
【請求項４４】
前記情報は、化学シフトデータを含む、請求項４１に記載の方法。
【請求項４５】
前記情報は、波長データを含む、請求項４１に記載の方法。
【請求項４６】
前記複数のスペクトルを入手するステップは、液体クロマトグラフィ質量分析を含む、請求項２９に記載の方法。
【請求項４７】
前記複数のスペクトルを入手するステップは、ガスクロマトグラフィ質量分析を含む、請求項２９に記載の方法。
【請求項４８】
前記複数のスペクトルを入手するステップは、キャピラリー電気泳動質量分析を含む、請求項２９に記載の方法。
【請求項４９】
前記複数のスペクトルを入手するステップは、超臨界流体クロマトグラフィ質量分析を含む、請求項２９に記載の方法。
【請求項５０】
前記複数のスペクトルを入手するステップは、イオン移動度質量分析を含む、請求項２９に記載の方法。
【請求項５１】
前記複数のスペクトルを入手するステップは、非対称場イオン移動度質量分析から前記複数のスペクトルを入手するステップを含む、請求項２９に記載の方法。
【請求項５２】
前記複数のスペクトルを入手するステップは、液体クロマトグラフィ核磁気共鳴分析を含む、請求項２９に記載の方法。
【請求項５３】
前記複数のスペクトルを入手するステップは、液体クロマトグラフィ紫外分光分析を含む、請求項２９に記載の方法。
【請求項５４】
前記複数のスペクトルを入手するステップは、ガスクロマトグラフィ赤外分光分析を含む、請求項２９に記載の方法。
【請求項５５】
前記複数のスペクトルを入手するステップは、空間分析を含む、請求項２９に記載の方法。
【請求項５６】
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体のコンテンツは、プログラムを含み、該プログラムは、畳み込みピークを識別するための方法を実現するように、プロセッサ上で実行される命令を有し、
該命令は、
複数のスペクトルを入手するステップと、
多変量分析技法を使用して、該複数のスペクトルから複数の群にデータ点を割り当てるステップと、
該複数のスペクトルからピークを選択するステップと、
該ピークが、該複数の群のうちの２つ以上の群に割り当てられるデータ点を含む場合、該ピークを畳み込みピークとして識別するステップと
を含む、コンピュータ可読記憶媒体。
【請求項５７】
畳み込みピークを識別するためのシステムであって、
複数のスペクトルを入手する測定機器と、
多変量分析技法を使用して、該複数のスペクトルから複数の群にデータ点を割り当て、該複数のスペクトルからピークを選択し、該ピークが、該複数の群のうちの２つ以上の群に割り当てられるデータ点を含む場合、該ピークを畳み込みピークとして識別する、プロセッサと
を備える、システム。
【請求項５８】
前記測定機器は、分光計を備える、請求項５７に記載のコンピュータシステム。
【請求項５９】
前記測定機器は、質量分析計を備える、請求項５７に記載のコンピュータシステム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【公表番号】特表２０１０−５３８２７３（Ｐ２０１０−５３８２７３Ａ）
【公表日】平成２２年１２月９日（２０１０．１２．９）
【国際特許分類】

物理学 (1,541,580)
- 測定；試験 (294,940)
  - 材料の化学的または物理的性質の決定による材料の調査または分析 (128,275)
  - 電気的変量の測定；磁気的変量の測定 (31,836)
    - 磁気的変量を測定する計器または装置 (5,084)
      - 磁気共鳴をともなうもの (2,903)
        
        グループ３３／４４〜３３／６４に分類される装置の細部 (2,102)
        
        励起または検出システム，例．高周波を使用するもの (915)

【出願番号】特願２０１０−５２３１６０（Ｐ２０１０−５２３１６０）
【出願日】平成２０年８月２９日（２００８．８．２９）
【国際出願番号】ＰＣＴ／ＵＳ２００８／０７４８３１
【国際公開番号】ＷＯ２００９／０２９８１８
【国際公開日】平成２１年３月５日（２００９．３．５）
【出願人】（５０９２４５７４０）エムディーエス　アナリティカル　テクノロジーズ (6)
【出願人】（５１００２５５２２）アプライド　バイオシステムズ　（カナダ）　リミテッド (5)
【Ｆターム（参考）】

[ Back to top ]

相関する変数および畳み込みピークを識別する方法、およびシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

相関する変数および畳み込みピークを識別する方法、およびシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク