疾患を有する患者に薬物が有効かどうかを決定するための方法およびシステム

患者から得た血清から質量分析計によって得られた試験スペクトルを取得することを含み、疾患または障害を治療するのに用いられる、疾患または障害を有する患者が薬物に応答するかどうかを決定する工程。該試験スペクトルを処理して、同一または類似の臨床段階の疾患または障害を有しており、かつ薬物に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定しうる。該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物に応答するかどうかについて決定がなされうる。

【発明の詳細な説明】
【技術分野】
【０００１】
背景技術
本発明の発明者は、質量分析で患者のバイオマーカーを試験することによって、患者が治療に応答するかどうかを決定する新規の方法を見出している。本発明の一つの態様の例として、本発明者は、これらの技術を癌、すなわち非小細胞肺癌（ＮＳＣＬＣ）に適用している。
【０００２】
非小細胞肺癌は、米国において男女共に癌の中で一番多い死亡原因である。少なくとも４つの異なった型のＮＳＣＬＣ、例えば腺癌、扁平細胞、大細胞癌、および気管支肺胞癌が存在する。肺の扁平上皮（類表皮）癌は、喫煙に最もよく関連している顕微鏡的癌(microscopic type of carcinoma)である。肺腺癌は、米国における全肺癌症例の５０％以上を占める。この癌は女性に多く見られ、さらに非喫煙者に最も頻繁に見られる型である。大細胞癌、特に神経内分泌特性を有するものは、一般に、脳への腫瘍の広がりに関連している。ＮＳＣＬＣが血流に入った場合、それは遠隔部位、例えば肝臓、骨、脳、および肺における他の場所に広がりうる。
【０００３】
ＮＳＣＬＣの治療は、長年にわたって比較的不十分なものであった。化学療法は、進行癌の治療の柱であるが、限局性癌を除いて効果はごくわずかである。手術は、ＮＳＣＬＣについて最も治癒的な治療法の選択肢である可能性があるが、癌の病期によっては必ずしも可能とは限らない。
【０００４】
ＮＳＣＬＣ患者を治療する抗癌薬を開発するための最近のアプローチは、癌細胞が増殖および分裂する能力を低減または除去することに集中している。これらの抗癌薬は、増殖するか死ぬかを細胞に命じる細胞へのシグナルを破壊するのに用いられる。通常は、細胞増殖は、細胞が受けるシグナルによってきちんと制御されている。しかしながら、癌においては、このシグナル伝達が異常になり、細胞は制御できない形で増殖および分裂し続け、それによって腫瘍を形成する。これらのシグナル伝達の一つは、体内の化学物質（上皮増殖因子と呼ばれる）が、体内の多くの細胞表面に見られる受容体に結合した場合に始まる。上皮増殖因子受容体（ＥＧＦＲ）として知られる受容体は、細胞内に見られるチロシンキナーゼ（ＴＫ）と呼ばれる酵素の活性化を通して、細胞にシグナルを送る。該シグナルは、細胞に増殖および分裂することを知らせるのに用いられる。
【０００５】
開発され、ＮＳＣＬＣ患者に処方される２つの抗癌薬は、ゲフィチニブ（商標名「イレッサ」）およびエルロチニブ（商標名「タルセバ」）と呼ばれる。これらの抗癌薬はＥＧＦＲ経路を標的とし、ＮＳＣＬＣ癌の治療に有効であることが期待されている。肺癌細胞、並びに正常組織における他の癌に存在し、癌細胞の増殖に重要であると思われる酵素チロシンキナーゼを、イレッサは阻害する。イレッサは、２つの他の型の化学療法薬の後、またはそれらに応答せずに進行しているＮＳＣＬＣの治療の単剤として用いられている。
【０００６】
しかしながら、応答率(response rate)は白人人口のわずか１０％から２０％の間であり、連邦薬物管理機構(Federal Drug Administration)（ＦＤＡ）は１９９５年に第二選択治療(second-line treatment)としてのイレッサの適用の支援を中止するに至った。驚くべきことに、アジアでの応答率はかなり高く、イレッサはまだ使われている。タルセバは今までどおり認可され、日常的に患者に与えられるが、応答率でまだ不安が残る。イレッサおよびタルセバが一部の患者には有効である能力を有するように見えるが、これらはすべての患者を治療するのに有効な後発医薬品とはなり得ない。これらの薬物に応答する患者の能力に関与している、現在未知の多くの因子が存在しうる。しかしながら、ＮＳＣＬＣ患者がこれらの抗癌薬に応答する効力を予測するのに用いられうる因子が決定されれば、ＦＤＡは、これらの薬物に応答することを示す条件を有する患者に、これらの抗癌薬が処方されることを認めうる。次いで医師は、その患者が該治療に応答するという情報を用いて、抗癌薬に応答すると予測された患者に、これらの薬物を処方しうる。
【０００７】
概要
薬物を用いた治療の成功の割合が低いという問題を克服するために、本発明の原理によって、患者がこれらの薬物療法に応答するかどうかを決定するための診断検査が提供される。患者の血液から抽出した血清から、質量分析計によって得られたスペクトルの識別ピークを検出することによって、該決定がなされる。バイオマーカーは、正常または異常な生物学的過程または発病過程の指標として評価されうる、測定可能および定量化可能な生物学的パラメータである。質量分析計は、薬物治療に応答しおよび応答しなかった患者の血清から得られたスペクトルと比較するのに利用されうる特定のピークを有するスペクトルを得る。多くの場合、何の化合物がピークに位置しているかを実際に決定する必要はない。スペクトル自身は、特定の患者における該薬物についての治療可能性を評価しうる重要な指紋である。本発明のいくつかの態様には、ピークの中にある物質を単離すること、および試料中で何の物質が増加または減少しているかを決定することが含まれる。
【０００８】
より具体的には、本発明の原理は、疾患または障害を有する患者が、疾患または障害を治療するのに用いられる薬物または治療に応答するかどうかを決定する工程に関する。該工程には、患者の血清から質量分析計によって得られた試験スペクトルを得ることが含まれる。該試験スペクトルは、同一または類似の臨床段階の疾患または障害を有しており、かつ薬物に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定するために処理されうる。該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかについて決定がなされうる。試験スペクトルの処理において、試験スペクトルのバックグラウンド低減、正規化(normalization)および重ね合わせを行って、該試験スペクトルを、同一または類似の方法で処理しているクラス標識したスペクトルの群とさらにマッチさせてもよい。生スペクトルを処理してクラス標識スペクトルを生成させることによって、特定の臨床に依存せず、患者の血清を処理するのに用いられる質量分析計に依存せずに、該薬物が有効かどうかの決定がなされうる。
【０００９】
本発明の原理に従った他の態様には、患者が薬物または治療に応答するかどうかを決定するシステムが含まれる。疾患もしくは障害を有する患者から得た血清から質量分析計によって得られた試験スペクトル、および同一もしくは類似の臨床段階の疾患もしくは障害を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群を保存するように形成された記憶装置が、該システムに含まれうる。このようなシステムには、記憶装置と通信するプロセッサであって、
（ｉ）疾患もしくは障害を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得し；
（ｉｉ）該試験スペクトルを処理して、同一または類似の臨床段階の疾患もしくは障害を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定し；
（ｉｉｉ）該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物に応答するかどうかを決定するためのソフトウェアを実行するプロセッサがさらに含まれうる。一つの態様において、該システムは、試験スペクトルを試験用に伝達する実験室および診療所と連絡を取るために、ネットワーク、例えばインターネットと通信している。該クラス標識したスペクトルの群に対する該試験スペクトルの関係の決定には、該患者が該薬物または治療に応答する可能性の指標またはクラス標識した代表(class label representative)を出力することが含まれうる。医療専門家が薬物または治療を処方するかどうかを決定しうるように、該指標は、正、負、または不確定でありうる。いくつかの態様において、該疾患または障害は癌である。他の態様において、癌の型は非小細胞肺癌である。さらに別の態様において、該システムは、薬物ゲフィチニブおよび／またはエルロチニブが非小細胞肺癌の患者の治療に有効かどうかを決定するのに利用されうる。
【００１０】
図面の詳細な説明
図１は、研究室試験処理センター１０２、癌研究診療所１０４ａ〜１０４ｎ（１０４と総称）、および癌患者診療所１０６ａ〜１０６ｍ（１０６と総称）の例示的な関係性を示すブロック図である。研究室試験処理センター１０２は、癌研究診療所１０４および癌患者診療所１０６からの試験を処理するために稼動する。一実施形態では、癌研究診療所１０４および癌患者診療所１０６は、病院などの同じ組織の一部である。癌研究診療所１０４では、患者を治療するための特定の薬物の有効性を決定するために、薬物の治験および試験を行う。たとえば、癌細胞の成長および拡散を制御するために様々な抗癌薬の臨床研究および試験を受けた、非小細胞肺癌に罹患している患者は、抗癌薬に対して様々な応答を有する。これらの抗癌薬には、表皮増殖因子受容体経路を標的とするゲフィチニブおよびエルロチニブが含まれ得る。臨床研究および非臨床研究中、癌研究診療所１０４では、抗癌薬の有効性を決定するために、癌の段階、血液成分、癌の進行、患者の全体的な健康、および患者の指標となる他の要因を含めた治療の様々な側面を注意深く監視する。
【００１１】
癌研究診療所１０６は、臨床研究を行う、または他の様式で癌の医薬品を癌患者に投与して医薬品の有効性を監視する、任意の施設であり得る。癌研究診療所１０４では、血液試料を採取し、それを処理して、フィブリンなどの凝固因子を除去した血漿（血液細胞が懸濁した血液の液体成分）である血清を生成し得る。血清中のバイオマーカーを検出できるように、血清を処理して、質量分析装置によってスペクトルを生成するためにそれを用い得る。一実施形態では、質量分析装置は、マトリックス支援レーザー脱離／イオン化（ＭＡＬＤＩ）を用いる飛行時間（ＴＯＦ）質量分析装置である。スペクトルには、血清中の特定の化学薬品または物質の指標となる、スペクトル内の代用マーカーまたはピークが含まれ得る（図１１参照）。
【００１２】
質量分析装置で患者のスペクトルを生成した結果、臨床結果をもたらすために癌患者に投与する抗癌薬の有効性を記録および観察し得る。研究室試験処理センター１０２では、患者の記録した結果（定量的）および観察した結果（全体的な健康）を使用して、それぞれの癌患者が抗癌薬（または複数の抗癌薬）に対して応答性であるかどうかに関して、それぞれの癌患者の分類を決定し得る。
【００１３】
引き続き図１で、質量分析装置で患者のスペクトルを生成した結果、臨床結果をもたらすために癌患者に投与する抗癌薬の有効性を記録および観察し得る。研究室試験処理センター１０２は、生スペクトルを関連する既知の臨床結果１０８と共に癌研究診療所から受け取り、それぞれのスペクトルの分類を行う。本明細書中以下に詳述するそれぞれのスペクトルの分類では、抗癌薬を受けている癌患者に関連するそれぞれのスペクトルを、応答性、非応答性、または部分的に応答性として分類する。スペクトルの分類により、研究室試験処理センター１０２が、癌患者診療所１０６から試験スペクトル１１０ａ〜１１０ｍ（１１０と総称）を受け取り、これらの試験スペクトル１１０の解析を行って、それぞれの試験スペクトル（すなわちそれぞれの患者）が類似している可能性の高い分類がどれであるかを決定することが、可能となる。あるいは、生スペクトルを受け取る代わりに、研究室試験処理センター１０２は、血液試料または血清試料を受け取り、それを処理して、処理および分類のための生スペクトルを生成し得る。
【００１４】
生スペクトルの分類にあたって、癌患者が抗癌薬に対して肯定応答、応答なし、または限定された応答を有していたかに基づいて、それぞれのスペクトルが「良好」または「不良」であるかの決定を下す。癌患者の試験スペクトルをクラス標識したスペクトルと比較することによって、試験スペクトルを作成した癌患者が抗癌薬に対して肯定応答を有する可能性に関して決定を下すことができる。比較プロセスのより詳細な説明を本明細書中以下に提供する。研究室試験処理センター１０２が試験スペクトル１１０を分類した後、かつ所望により癌患者が抗癌薬に対して肯定応答を有するかどうかの決定を行った後、たとえば分類結果１１２ａ〜１１２ｍ（１１２と総称）を対応する癌患者診療所１０８ａに送り得る。一実施形態では、分類結果は、本明細書中以下にさらに記載する、分類関数によって生成されたクラス標識である。
【００１５】
別々に示しているが、研究室試験処理センター１０２は癌研究診療所１０４または癌患者診療所１０６の一部であり得る。一実施形態では、研究室試験処理センター１０２は、試験装置と連動して稼動する質量分析装置または処理システムなど、試験装置に機能的に組み込まれている。あるいは、機能性は、スペクトルの処理および分類に利用される様々な処理を行うように構成されているコンピュータシステムまたは他の処理システムに組み込まれおり、試験装置の一部またはそれに関連していなくてもよい。たとえば、コンピュータシステムは、研究室試験処理センター１０２、診療所研究診療所(clinic research clinic)１０４、および／または癌患者診療所１０６によって稼動されるサーバであり得る。
【００１６】
図１は癌の診療所を記載しているが、これらの診療所は一般的な診療所または特定の疾患または疾病に特異的な診療所であり得ることを理解されたい。したがって、研究室試験処理センター１０２は、本発明の原理に従って、送られる特定の疾患または疾病を受け取って試験するように構成されている。
【００１７】
図２は、図１の研究室試験処理センター１０２、癌研究診療所１０４、および癌患者診療所１０６間で情報を通信および処理するための例示的なシステム２００を示すブロック図である。研究室試験処理センターのコンピュータシステム２０２は、研究室試験処理センター１０４によって稼動され得る。癌研究診療所のサーバ２０４ａ〜２０４ｎ（２０４と総称）は癌研究診療所１０４によって稼動されてもよく、癌患者診療所のサーバ２０６ａ〜２０６ｍ（２０６と総称）は癌患者診療所１０６によって稼動されてもよい。コンピュータシステム２０２ならびにサーバ２０４および２０６のそれぞれは、デジタルデータパケット２０９ａ〜２０９ｂまたは当分野で理解されている他の通信技術によって、ネットワーク２０８で通信し得る。ネットワーク２０８は、インターネットまたは他の公開もしくは非公開の通信ネットワークであり得る。
【００１８】
研究室試験処理センターのコンピュータシステム２０２には、本明細書中以下にさらに記載するように、本発明の原理に従って生スペクトルおよび試験スペクトルを処理して、その全体または一部分の分類を決定するためのソフトウェア２１２を実行するプロセッサ２１０が含まれ得る。コンピュータシステム２０２にはさらに、メモリ２１４（ソフトウェア２１２は実行される際にそこに存在し得る）、入出力（Ｉ／Ｏ）装置２１６（ネットワーク２０８で通信を行い得る）、および記憶装置２１８（それにプロセッサ２１０が通信する）が含まれ得る。記憶装置２１８には、１つまたは複数のデータベース２２０ａ〜２２０ｎ（２２０と総称）が含まれていてもよく、研究室試験処理センター１０２が、癌患者が抗癌薬に対して応答性となるかどうかを決定することを可能にするために、ここに生スペクトル、試験スペクトル、および他の関連するデータが格納される。記憶装置２１８には、１つまたは複数の記憶装置が含まれていてもよく、また、コンピュータシステム２０２の内部または外部に位置していてもよいことを理解されたい。さらに、プロセッサ２１０には１つまたは複数のプロセッサが含まれ得ることを理解されたい。さらに、コンピュータシステム２０２は、ネットワーク２０８と直接または間接的に通信していてよいことを理解されたい。
【００１９】
図１に従って、癌研究診療所のサーバ２０４は、生スペクトルを、抗癌薬の臨床治験に基づいた関連する既知の臨床結果と共に、研究室試験処理センターのコンピュータシステム２０２に通信し得る。プロセッサ２１０は、自動的または半自動的に、科学者の支援の下または他の様式で、それぞれの生スペクトルを分類するための分類処理を行って、生スペクトルを分類して分類されたスペクトルの群を形成し得る。同様に、癌患者診療所のサーバ２０６は、試験スペクトル１１０を癌患者診療所１０８用にプロセッサ２１０に自動的または半自動的に分類させるために、試験スペクトル１１０を研究室に通信し得る。研究室試験処理センターのコンピュータシステム２０２は、試験スペクトル１１０を処理し、分類結果１１２（図１）を癌患者診療所のサーバ２０６に通信して戻し得る。生スペクトルおよび試験スペクトル１１２を分類した結果、コンピュータシステム２０２は、分類結果を格納し、結果を利用して抗癌薬の成功率または失敗率などの様々な他の目的に使用し得る統計的情報を生成し得る。
【００２０】
データ解析は、異なる臨床成績を有する患者からのスペクトルを識別するピークの検出の発見、および免疫組織化学的アッセイの発見の手掛かりとしてのその使用、または質量分析に基づいた診断でのその直接使用において、中心的な役割を果たす。本発明の原理に従った試験および解析手順の開発にあたって、質量スペクトルの比較解析のために設計されたアルゴリズムを含む統合解析システムが開発された。統合解析システムには、質量スペクトルからスペクトル中の識別ピーク(differentiating peak)を検出することを容易にするいくつかのツールが含まれ、同時に、その結果の有意性および妥当性確認を評価するための厳密なツールを提供する。
【００２１】
図３は、本発明の原理に従って、癌患者が抗癌薬に対して応答性となるかどうかを決定するための試験を開発かつ行うための例示的なワークフロープロセス３００を示す流れ図である。このプロセスは、試料を癌患者から採取する工程３０２で開始する。癌または他の疾患の種類に応じて、スポットした組織(spotted tissue)、細胞溶解液、または切断した細胞(cut cell)を、質量分析装置３０４によってスペクトルを生成するための試料として利用し得る。質量分析装置は、ＡＢＩＶｏｙａｇｅｒ、ＡＢＩ４７００、ＢｒｕｋｅｒＡｕｔｏｆｌｅｘまたはＢｒｕｋｅｒＵｌｔｒａｆｌｅｘ質量分析装置であり得る。他の質量分析装置も同様に利用し得る。非小細胞肺癌の場合、スペクトルを生成するために血清を用い得る。血清を用いることによって、患者の組織試料を採取することが困難または不可能である肺癌の進行期にある肺癌患者を、侵襲性手順なしに診断し得る。さらに、特定の抗癌薬が非小細胞肺癌に罹患している癌患者の治療に有効となるかどうかを決定するために、尿などの体液を、質量スペクトルでピークを検出するための試料として利用し得る。血清または他の液体を採取するために非侵襲性手順を利用することによって、診断のコストは、肺からの組織試料が必要な場合よりも顕著に低くなる。
【００２２】
試験研究に用いる血清の作製および処理には、個々の病院からの粗血清試料を使用することが含まれ得る。一実施形態では、粗血清試料を氷上で解凍し、１５００ｒｐｍで５分間、４℃で遠心分離し得る。さらに、血清試料を、ＭｉｌｌｉＱ水で、コロラド大学厚生科学センター（ＵｎｉｖｅｒｓｉｔｙｏｆＣｏｌｏｒａｄｏＨｅａｌｔｈＳｃｉｅｎｃｅｓＣｅｎｔｅｒ、ＵＣＨＳＣ）で行うように１：１０に、またはバンダービルト大学医療センター（ＶａｎｄｅｒｂｉｌｔＵｎｉｖｅｒｓｉｔｙｍｅｄｉｃａｌＣｅｎｔｅｒ、ＶＵＭＣ）で行うように１：５に希釈し得る。希釈した試料を３つ組でＭＡＬＤＩプレート上のランダムに配置した位置にスポットし得る（すなわち、３つの異なるＭＡＬＤＩ標的上）。０．７５μｌの希釈した血清をＭＡＬＤＩプレート上にスポットした後、０．７５μｌの３５ｍｇ／ｍｌのシナピン酸（５０５アセトニトリルおよび０．１％のＴＦＡ中）を加え、ピペットで５回吸ったり吐いたりすることによって混合し得る。プレートを室温で乾燥させ得る。本発明の原理に従って血清を調製および処理するために他の技術および手順を利用し得ることを理解されたい。
【００２３】
陽イオンの質量スペクトルは、直線モードで、ＶｏｙａｇｅｒＤＥ−ＰＲＯ（ＵＣＨＳＣ）またはＤＥ−ＳＴＲ（ＶＵＭＣ）を用いて、スペクトルの自動または手動収集で取得し得る。１つの研究では、それぞれのＭＡＬＤＩスポット内の７箇所（ＵＣＨＳＣ）または５箇所（ＶＵＭＣ）の位置から７５個（ＵＣＨＳＣ）または１００個（ＶＵＭＣ）のスペクトルが収集されて、平均５２５個（ＵＣＨＳＣ）または５００個（ＶＵＭＣ）のスペクトルがそれぞれの血清検体について作成された。スペクトルは、タンパク質標準の混合物（インスリン（ウシ）、チオレドキシン（イー・コリ）、およびアポミオグロビン（ウマ））を用いて外部較正した。妥当性確認の目的のためにすべての検体について同じ試料で３回の反復を行った結果、本研究において合計７１７個のスペクトル（２３９個の検体×３）が解析に提出された。
【００２４】
データ解析を行うにあたって、癌細胞は、正常細胞とは異なる特異的タンパク質の異なる発現レベルを有することが一般に受け入れられている。疾患の異なる段階は、特異的タンパク質の変化、たとえば、転移癌の場合は細胞結合タンパク質の発現レベルの変化を伴う。血清試料の場合、また血清試験を組織試料試験から線引きするために、直接腫瘍排泄物を測定することは、これらの排泄物が血液中で希釈されるので、可能性が低い。血清（または他の体液）試料中の識別ピークは、自己免疫反応などの病状に依存する宿主応答反応によりすべての尤度で生じる。したがって、組織試料に基づいた試験は特異度が高いが、必ずしも非常に有意でなく、血清に基づいた質量分析装置の試験は非常に有意であるはずであるが、それほど特異的でないことが予測される。このことは、本明細書中以下に提供する結果によって生まれた。スペクトル中の識別ピークを検出することによって、変化と臨床的に意味のある質問との対比を行い得る。診断的ツールとして直接、または免疫組織化学に基づいた試験の手掛かりとしての、そのさらなる使用とは独立して、値のスペクトル内で識別ピークを生成するためには、データ解析段階を含めた識別ピークの発見プロセス中に以下の問題に取り組み得る。
【００２５】
再現性：解析の結果は再現性があるべきである。バイオマーカーは、様々な患部および対照群中で繰り返して発見することができる識別ピークによって同定してよく、これらの識別ピークに割り当てた値は１つの群内で変動しすぎてはならない。再現性の簡単な基準として、診断的試験を評価するための標準となっている変動係数（ＣＶ）を、プロセッサ上で実行するソフトウェアによって提供し得る。１つの群内、さらには同じ試料内でのマーカーの変動を測定し、特徴づけ、下流の解析および分類に用い得る。
【００２６】
頑健性(robustness)：識別ピークは、試料の調製および取扱いにおける回避不可能な変動に対して、ならびに質量分析装置の特徴の傾向から生じる変動に対して頑健であるべきである。患者間変動の別の理由は、患者の生物学的状態の無関連の差異、たとえば、試料収集時の消化状態から生じる。関連性のない変化を生物学的有意な変化から識別するための基準を開発し得る。多次元の特徴空間（たとえば１２個の識別ピーク）からクラス標識空間（たとえば、「良好」、「不良」、または「未定義」）をマッピングする関数である分類子（すなわち分類関数またはアルゴリズム）の設計において、および特徴抽出中において、データ解析パラメータに小さな変化を行う間に、実際の識別ピークはそれほど変化しないはずである。同じように配置された識別ピークが異なるデータ組（データセット）中で見つかるはずである。
【００２７】
解釈性：生じる識別ピークを生物学的解釈性のコンテキストに置き得る。最初に、同定した識別ピークは、一般に質量スペクトル中で視覚的に目立つ。識別ピークのｍ／ｚ位置は、これらの識別ピークを生じる根底にあるバイオマーカーの生物学的関連性に関する貴重な情報を与える。これにより、生物学的に関連性のない手順から生じる識別ピークの解釈およびフィルタリングが可能となる。たとえば、純粋に試料調製の人為的結果である癌試料対正常試料の異なるヘモグロビン含有量の測定。一部の場合では、スペクトルの臨床的に意味のある識別ピークがスペクトル中の複数の特徴の非直線的な組合せのものであり、単純な上方／下方調節ではないという結果になり得る。この場合でも、スペクトル中の特徴を構成する識別ピークは目に見えるはずであり（図４）、マーカーを評価するために用いる関数は明確であるべきである。
【００２８】
感度：試料を収集して質量スペクトルを生成するためには、通常、大変な努力が尽くされる。また、スペクトル中でこれらの識別ピークを実際に見つけるために十分に選択的または高感度でないデータ解析アルゴリズムを用いることによって質量分析装置のスペクトル中の関連する識別ピークが失われることを回避するために、高度の注意も払う。たとえば、あるｍ／ｚ範囲が特徴に関連すると定義された場合は、この範囲は、特徴を含むように十分大きく、スペクトル中に存在する他の特徴と一緒に塊となっていないべきである。範囲を選択するアルゴリズムのパラメータは、データ自体に、所望により局所的な様式で由来し、外部の平滑化およびピニング（ｐｉｎｎｉｎｇ）パラメータに依存しない場合がある。
【００２９】
識別ピークを抽出するために質量スペクトルを比較する作業は、内因性の強度変動によるこれらのスペクトル特異的な性質によって困難になる。個々のイオンのイオン化の確率は局所的な試料の化学（たとえばイオン抑制効果）に依存し、近年の質量分析装置の質量分解能は大抵の場合十分であるが、絶対質量スケール(mass scale)はスペクトル毎に変動する場合がある。
【００３０】
本発明の原理に従って、これらの変動（バックグラウンドの変動の場合）を低減もしくは排除するために、または局所的なノイズレベルを推定することによってシグナルの関連する有意性を評価する手段を提供するために、質量分析装置に特異的な変動を測定し得る。データの前処理および解析から生じるさらなる変動の導入を回避することを達成し得る。たとえば、多くの質量分析装置としばしばバンドルされているピークを選択するソフトウェアは、これらのピークを比較スペクトル解析で直接使用するには信頼性がないことが見い出された。代わりに、スペクトルの比較に対する初期の試みでは、その比較および分類アルゴリズムに全質量スペクトル自体を使用することとなった。しかし、全スペクトルには何千個もの個々のデータ点が含まれ、そのほとんどは、関連する情報のみが質量スペクトル中のピークに限られている機器ノイズの測定値である。さらに、スペクトル中の特徴の解釈は複雑であり、神経回路網に基づいた分類アルゴリズムの場合では非直線的の場合もあり、非常に厄介となる。その結果、血清試料を分類するこれらの試みの適用は、他の研究室では再現できない誇張された主張をもたらしている。
【００３１】
図４は、分光計によるマーカー出力の例示的なゲルプロット４０４を示す図である。安定疾患（ＳＤ）、進行性疾患（ＰＤ）、および部分応答者（ＰＲ）を含めた世界保健機構（ＷＨＯ）の標準の進行標識を用いてスペクトルを臨床的に標識する。しかし、ＳＤ−短、ＳＤ−長、およびＰＤ−初期の３つの追加の標識を含めた、主な臨床標識を極端な臨床標識へと分離する細かい臨床標識を作成する。ゲルプロットとは、それぞれの線が臨床試料の１つの質量スペクトルに対応し、水平軸が質量／電荷軸であり、グレースケールが強度を示すプロットである。臨床標識４０２をゲルプロット４０４上に提供し、水平線４０４が異なる臨床標識を線引きする。ゲルプロット４０４は、分類子アルゴリズムを訓練するために用いたすべてのスペクトルのものである（すなわち、癌研究診療所から受け取った、癌治療としてイレッサを受けたイタリアおよび日本の非小細胞肺癌患者の対照群のスペクトル）。識別ピークは、４０６および４０８でスペクトルのそれぞれ上に視覚的に見ることができるが、精度および他の定量的な目的のために定量測定する。
【００３２】
これらの測定の問題の一部を回避するにあたって、生質量スペクトルの前処理を行って、質量分析プロセスの関連性のない人為的結果を除去および測定し、それらを類似のｍ／ｚおよび振幅スケールに登録し得る。
【００３３】
引き続き図３で、工程３０６のプロセスでデータの前処理を行う。前処理には、バックグラウンドの除去、ノイズの推定、正規化、ピークの選択、およびスペクトルの重ね合わせ（アラインメント）(alignment)のうちの任意のものまたはすべてが含まれ得る。これらのプロセスを図５〜１０に例示し、本明細書中以下に記載する。
【００３４】
図５は、ノイズおよびシグナルの構成要素を有する分光計からのデータ点の出力の例示的な組を示すヒストグラム５００である。バックグラウンドまたはベースラインとは、質量スペクトルのゆっくりと変動する構成要素、すなわち、ｍ／ｚの範囲にわたるデータの徐々の全体的なシフトである。機能定義としては、バックグラウンドは、電子、ランダムイオンから生じるノイズとは対照的に、電荷の蓄積効果または非直線的な検出器の特徴または部分的なイオン崩壊などから生じることができるシグナル強度の滑らかな変動であり、迅速に周期的変動する（ｍ／ｚで）。
【００３５】
バックグラウンドをモデリングし、したがって除去することができる。ノイズは統計的な周期的変動であり、その強度のみを測定することができる。さらに、バックグラウンドは、分解されない「ごみ」イオンによって引き起こされる場合があり、ピーク検出などのさらなるデータ処理工程を意味があるように行うことができる前に、推定および除去し得る。バックグラウンドは、頑健な局所的な統計的推定法則を用いて推定し得る。データ中のノイズの強度の信頼性のある推定値を得ることは、続くシグナル対ノイズ（Ｓ／Ｎ）比の基準に基づいたピーク検出に利用する。そのような推定法則は、任意のスペクトル比較作業でも誤差の尺度を提供するために用いる。バックグラウンドの推定と同様、非対称の頑健な推定法則(asymmetric robust estimators)を利用してこの作業を行い得る。
【００３６】
バックグラウンドは、データ点のほとんどの数が含まれるように示し、シグナルにはより少ないデータ点が含まれる。バックグラウンドは、相関解析および最適な分離を用いた反復によって決定し得る。バックグラウンドは生物学的に関連性のある情報を含まず、スペクトル間で変動するので、振幅情報は、バックグラウンドの値をそれぞれのスペクトルから除去することによってより比較可能にし得る。このプロセスは、その全体が本明細書中に組み込まれている、２００４年７月７日出願の同時係属特許出願第１０／８８７，１３８号に記載されている。
【００３７】
図６Ａおよび６Ｂは、それぞれ、バックグラウンド６０２ありのスペクトルおよびバックグラウンドをスペクトル６０４から除去した後の、バックグラウンドなしのスペクトルを示すグラフ６００ａおよび６００ｂである。血清では一般的なように、血清プロテオームの存在量の自然な周期的変動が原因で可変性が高いピークが存在する。さらに、イオン化された試料の量は、レーザー出力の変化、イオン化可能な試料の量の変動、およびＭＡＬＤＩプレート上でのレーザーの配置の変動が原因で、スペクトル間で周期的変動する場合がある。この周期的変動は、これらのピーク中の周期的変動が目的のピークに伝わるにつれて有用性が低くなる、全イオン電流の正規化などの標準の正規化ルーチン（すなわち、スペクトル全体にわたる正規化）を与える。部分的正規化（すなわち、これらの可変性ピークおよび領域を同定し、それを排除するスペクトルにわたる正規化）を利用して、周期的変動する結果を排除し、それにより再現性のある結果を提供し得る。
【００３８】
より詳細には、部分イオン電流(partial ion current)の正規化を以下のように誘導し得る。質量スペクトルには、ｍ／ｚの上行方向に並べたデータ点、対（ｍ／ｚ、振幅）が含まれる。スペクトルが飛行時間の機器で得られる際に、ｍ／ｚ軸は値域(bin)へと分けられると見なされる。それぞれのデータ点は対応する値域を表し、その振幅は値域中のイオンの計数（すなわち、値域中のイオン電流）を表す（それに比例する）。
【００３９】
したがって、スペクトル中の全振幅の合計は、「全イオン電流」（ＴＩＣ）である。これは、質量分析装置の検出器に到着するイオンの合計数に対応する。全イオン電流に対する正規化とは、それぞれのスペクトルについて、対応する正規化したスペクトル（ｍ／ｚ＝最初のｍ／ｚ、振幅＝（正規化因子）＊（最初の振幅））が同じ（規定の）全イオン電流、たとえば１００を有するように正規化因子を選択することを意味する。
【００４０】
一般に、全イオン電流の正規化はバックグラウンドの除去を行った後にのみ意味を成す。そうでなければ、全イオン電流は、ピークなどの意味のあるシグナル中のイオン電流によってではなく、統合されたバックグラウンドによって支配される。言い換えれば、全イオン電流はすべての利用可能なイオンを統合し、大きなピークによって支配される。ピークの可変性が高い場合は、全イオン電流も可変性が高く、したがって正規化の変動が引き起こされ、これは識別特徴の偽陽性検出をもたらす可能性がある。
【００４１】
本発明の原理に従って、「特徴（形状的特徴）」（ピークなどの何らかのシグナルを含むことにより「空でない」、すなわち「純粋なバックグラウンド」ではないように見えるｍ／ｚ軸の間隔）を検出する。特徴とは、患者の対照群のユーザが定義したスペクトルの数よりも可視化されているピークである。一組の特徴（重なり合わないｍ／ｚ間隔の集まり）を有することにより、より柔軟な正規化方法、「部分イオン電流（ＰＩＣ）に対する正規化」の定義がもたらされる。部分イオン電流とは、指定した特徴の組（典型的には特徴の完全組の部分組）に属するすべてのデータ点のスペクトル中の振幅の合計である。部分イオン電流に対する正規化とは、それぞれのスペクトルについて、対応する正規化したスペクトル（ｍ／ｚ＝最初のｍ／ｚ、振幅＝（正規化因子）＊（最初の振幅））が同じ（規定の）部分イオン電流を有するように正規化因子を選択し得ることを意味する。一般に、可変性の高いピークは計算に含まれないので、部分イオン電流には、正規化に安定なピークを用いる。安定なピークを用いる結果、正規化プロセスに安定性がもたらされる。
【００４２】
患者の対照群内のスペクトルからのピークをリストに含め、当分野で理解されている分割的クラスタリングアルゴリズムを用いてピークのクラスターを見つけ得る。
【００４３】
【表１】

表I. PICの正規化からの特徴
表Ｉには、ＰＩＣの正規化で保持されたすべての特徴の８０％（ＰＩＣ＝０．８）のリスト（残った特徴組）を示す。ｍ／ｚ値はダルトンで示し、不確実度は１０００ｐｐｍである（重ね合わせの後）。
【００４４】
部分イオン電流の正規化の１つの極端な例は、特徴の完全組を用いて部分イオン電流を計算する場合である。この例は全イオン電流の正規化に類似しており、その違いは、スペクトルの「空」領域は全イオン電流に寄与するが、部分イオン電流には寄与しないことである。したがって、「空」領域中のノイズの寄与は部分イオン電流に含まれない。別の極端な例は、１つの特徴のみを用いて部分イオン電流を計算する場合である。これが最高のピークを含む特徴である場合、基底ピークの正規化が決定される。
【００４５】
スペクトルの比較では、部分イオン電流の正規化の使用の裏にある理論は以下のとおりである。疾患および対照などの２つのスペクトル群を考える。スペクトルは１００の位のシグナル（ピーク）を含み、シグナルのほとんどは群間で変化しないことが予測され、一方で一部のシグナルは上方または下方調節されていることができる。質量スペクトルでは、正規化していない強度はスペクトル間で直接比較可能でない。全イオン電流の正規化を用いる場合、上方または下方調節されたシグナルは僅かでありかつ弱いという仮定がなされ、したがって、これらは群間で変化していないシグナルを支配していることが仮定される全イオン電流を有意にゆがめない。しかし、実際には、必ずしもそうとは限らない。たとえば、上方調節されたシグナルが全イオン電流に有意に寄与するほど十分に強い場合、正規化したデータ中の他のシグナルは、実際には変化していなかった場合でも下方調節されたように見える。同様に、スペクトルが強いかつ強く変動するシグナルを含む場合は、正規化したスペクトル中の他のシグナルは、本質的に安定している場合でも増加した変動係数を示す。上方調節、下方調節または可変性の高い特徴を削除する一方で、全イオン電流の代わりに部分イオン電流の正規化を用い、最も安定した特徴を含む特徴の部分組を用いることで、増加した変動係数の問題を改善することができる。主要な問題は、この部分組をどのように選択するかである。
【００４６】
部分イオン電流の部分組を選択するために、以下の手順を用い得る。いくつかのスペクトル群が得られた場合、この手順の目的のために、スペクトル群を１つの合わせた組へと合わせ得る。
最初に、特徴の部分組は特徴の完全リストに等しい。次に、以下の手順を数回反復して、最初の部分組よりも含む特徴が１つ少ない「最小可変性」の特徴の新しい部分組を生成し得る。
【００４７】
このプロセスを以下のように継続し得る。
・最初の特徴の部分組を用いて、すべての特徴値（完全組）を部分イオン電流に対して正規化する。
・それぞれの特徴について、変動係数＝（標準偏差）／（平均値）を計算する
・ＣＶの絶対値に従って特徴を区分する
・この区分したリストから新しい特徴の部分組（最小の絶対値（ＣＶ）を有するもの）を選択する。最初の部分組よりも含まれる特徴が１つ少ない
・最初の部分組を新しい部分組で置き換える
終了基準は以下のとおりである。ユーザが２つの値を指定する。
・イオン電流の許容最低割合
・特徴の数の許容最低割合
【００４８】
プロセスは、基準のいずれかが破られた際に終了する。したがって、ユーザが両値（すなわち、イオン電流および特徴の数の許容最低割合）を０．８として指定した場合、生じる特徴の部分組は、イオン電流の少なくとも８０％（特徴の完全組から計算）、および特徴の少なくとも８０％を含むことが保証される。値の任意のものについて１．０を指定した場合は、使用する特徴組の全体がもたらされる結果となる。典型的には、０．８が最適な結果のために使用するために大体正しい値である。しかし、用途に応じて、より高いまたは低い値を用い得る。その後、部分イオン電流に対して正規化した特徴値を分類および他の目的のために使用することができる。
【００４９】
要約すると、部分イオン電流は以下のように決定し得る。
・ＣＶを計算する
・最も大きなＣＶを有するピークを削除する
・最大ＣＶが指定したレベルよりも小さくなった際に停止する
【００５０】
部分イオン電流の実施は２つの演算を用いて計算し得る。第１の演算は、ＰＩＣ共通因子で使用するための特徴のリストを計算する。この演算マーカーは、最初に２つの選択した特徴値の群を１つの二次元アレイへと併合し、行がスペクトル（すなわち試料）であり、列がＣｅｎｔｅｒＭＺによって区分した特徴リストに順番に対応する特徴値である。この演算は、併合した特徴値に加えて２つのパラメータを取得する。これら２つのパラメータは、ＭｉｎＡｌｌｏｗｅｄＦｒａｃＯｆＩＣおよびＭｉｎＡｌｌｏｗｅｄＦｒａｃＯｆＦｅａｔｕｒｅｓである。ＭｉｎＡｌｌｏｗｅｄＦｒａｃＯｆＩＣは、保持された特徴の部分組中のイオン電流の許容最低割合である。これらの特徴を保つことは、値１に対応する。ＭｉｎＡｌｌｏｗｅｄＦｒａｃＯｆＦｅａｔｕｒｅｓは、保持された特徴の部分組中の特徴の許容最低割合である。これらの特徴を保つことは、値１に対応する。この演算は、整数のＡｒｒａｙＬｉｓｔを出力し、これは、共通因子で使用する特徴の指数を表す。
【００５１】
ＰＩＣの正規化を用いて特徴のリストに到達するために使用するアルゴリズムの一実施形態を以下の擬似コードに要約する。

【００５２】
このアルゴリズムの数々の追加の軽微および主要な変形が当業者に明らかであり、特許請求した発明の一部として企図される。
この計算が完了した後、部分イオン電流の共通因子で使用する特徴のリストが決定される。
【００５３】
第２の演算は、部分イオン電流の共通因子を用いて指定した群のすべての特徴値の再正規化を行うことである。最初に、前の演算からの指数の出力のリストによって指定した特徴値を用いて、それぞれのスペクトル／試料について正規化の値に到達する。その後、これらの正規化の値を用いて、特徴値の二次元アレイ内で指定した特徴値のリストを改変する。
【００５４】
この関数は、以下の擬似コードによって表されるアルゴリズムを実行することによって達成する。

【００５５】
このアルゴリズムの数々の追加の軽微および主要な変形が当業者に明らかであり、特許請求した発明の一部として企図される。
これらの２つの工程が完了した後、部分イオン電流の正規化が完了する。部分イオン電流の正規化は、個々のピークのＣＶの比較的劇的な低下をもたらす場合がある。分画（塩を除去するための樹脂）による試料の前処理の変動を測定する尿の再現性データでは、ＣＶの低下は約２倍である。
【００５６】
図７Ａは、図７Ｂに示すスペクトルの比較を単純にするために正規化する複数のスペクトル７０２および７０４を示すグラフ７００ａである。示すように、２つのスペクトル７０２および７０４の特徴（たとえばピーク）は比較的整列しているが、異なる振幅を有する。この振幅の差異は、異なるスペクトル７０２および７０４の異なる強度をもたらす結果となる。部分的なイオンの正規化または他の正規化アルゴリズムを用いて２つのスペクトル７０２および７０４の正規化を行うことによって、２つのスペクトル７０２および７０４は実質的に重なり合い、図７Ｂのグラフ７００ｂに示すように適切に比較することができる。
【００５７】
図８Ａおよび８Ｂは、複数の試料スペクトル８０２ａ〜８０２ｎ（図８Ａ）の重ね合わせを行ったもの８０２ａ’〜８０２ｎ’（図８Ｂ）を示すグラフ８００ａおよび８００ｂである。スペクトルの絶対質量スケールは相当に変動することができる。スペクトルは互いに対してシフトしていることができ、内部質量スケールさえも一定ではない。標準のプロテオミクス作業では、既知のｍ／ｚ値でピークを生じさせるために特別な化合物を加える。その後、スペクトルを再較正することができ（すなわち、ｍ／ｚ値をこれらの外部較正物質に従って再スケールし得る）、ペプチドが予想される低質量の範囲において数十ｐｐｍの絶対質量精度を達成することができる。未消化試料の場合、較正物質を組織に加えることが困難な場合があり、また、較正物質は、イオン抑制効果が原因で関連性のあるピークを抑制する可能性があるので、多くの場合望ましくない。しかし、スペクトルの比較には、スペクトルを共通質量スケールに対して重ね合わせることで十分であり、この質量スケールが実際に質量の絶対尺度に対応することはそれほど重要ではない（すなわち、データベース検索を行わない）。共通ピークの同定は、図９に関して記載するように行い得る。
【００５８】
スペクトルを重ね合わせるために、スペクトル群にわたる共通ピークを同定し得る。スペクトルからのピークを線上に置き、分割的クラスタリングアルゴリズムを用いて、以下の方法でこの大きなリストをクラスターのリストへと分離し得る。
【００５９】
初期化：スペクトルのピーク位置を１つの順序づけたリストに整列させる（ｍ／ｚ値で）
最初の分離段階：最小の分離（典型的には３０Ｄａ）を用いてこの長いリストをピークのクラスターへと分割し得る場合、それぞれの個々のピークが所望する最小の分離よりも密接している場合。その結果、密接したピークのクラスターのリストが得られ得る。
【００６０】
細分離：これらのクラスターのそれぞれについて、ピーク差のヒストグラムを生成し得る。クラスター中のピークの中央値分離の２倍として定義される外れ値距離でのクラスターを分割してもよく、分割距離がピーク幅の２倍よりも小さい場合、またはこのｍ／ｚ範囲での機器の分解能よりも小さい場合は、クラスターを分割しない。分割が起こる場合は、さらなる分割が起こらなくなるまで、２つの生じるクラスターで同じ解析を繰り返し行い得る。分割が起こらない場合は、次のクラスターに進む。
【００６１】
その結果、ｍ／ｚが密接しており、良好に分離されたクラスターのリストが得られる。それぞれのクラスターは、その中心（クラスター中のすべてのピークのｍ／ｚ位置の中央値）、およびその幅（これらの位置の２５％および７５％）によって特徴づけることができる。あるいは、頑健性は弱まるが、平均および標準偏差を位置および拡散の尺度として用い得る。
【００６２】
ｍ／ｚ範囲にわたって可能な限り均一に拡散した適正な平均強度の典型的には１０の位のクラスターの選択を行い得る。これらの共通ピークに対してすべてのスペクトルの質量スケールを重ね合わせるための、それぞれのスペクトルの直線（二次）回帰も行い得る。一実施形態では、以下のクラスター中心を用い得る：６４３４．５０、６６３２．１８、１１６８６．９４、１２８６４．８８、１５１３１．１４、１５８７１．４７、２８１０２．５５
５０００ｐｐｍの許容値で重ね合わせを行い得る、すなわち、任意のスペクトル中で重ね合わせの点がこの許容値内の指定した位置で見つからない場合は、この点を無視し得る。しかし、重ね合わせが行われなかった場合は、以下のものが特徴として検出されない：５７６４、８７０２、９４２６、１１４４３、１１６８６、２１０６６、２８１０２、２８３０９。その結果、重ね合わせを行っていないスペクトルで可視可能なピークについて、特徴の中央標準偏差が４．６３Ｄａから３．６８Ｄａへと低下する
図８Ｂに示すように、これらの共通ピークのこの選択を用いて、スペクトルを共通ｍ／ｚスケールに登録することができる。
【００６３】
特徴抽出
引き続き図３で、工程３０８の特徴抽出プロセスを用いてスペクトルから特徴（たとえばピーク）を抽出する。これを行うにあたって、どの特徴を抽出するかの決定を下す。
【００６４】
スペクトル、その平均および群の差の目視検査は、質量分析を用いて疾患の様々な状態または臨床段階を識別する能力に対する何らかの指針を提供するが、より定量的な分析を行い得る。識別ピークはスペクトル中のピークのｍ／ｚ位置に基づく。そのような位置は、所定の群または特徴内の何らかのユーザが定義したスペクトルの数に共通している場合は、推定マーカーである。これらの特徴のリストをそれぞれの群について作成した後、それぞれの特徴に定義値を与えることができる。ピーク検索アルゴリズムのピーク幅設定を用いて、正規化してバックグラウンドを除去した振幅をこの範囲にわたって積分し、この積分値（すなわち、特徴の幅間の曲線下面積）を特徴に割り当て得る。このｍ／ｚ範囲内にピークが検出されなかったスペクトルには、積分範囲はこの特徴の平均ｍ／ｚ位置の周りの間隔として定義してよく、幅は現在のｍ／ｚ位置でのピーク幅に対応する。
【００６５】
特徴の値は、同じ試料（たとえば血清もしくは組織）内、または同じ細胞種からの異なる試料内でさえスペクトル間で相当に変動することができる。ピークのｍ／ｚ位置は再現性が非常に高いが、振幅は大きな周期的変動を示す。
【００６６】
既に記載したように、特徴値の変動の尺度はその変動係数（ＣＶ）である。変動係数は、その平均値にわたる特徴の標準偏差の比として定義される。その中央値にわたる２５％と７５％と間の％範囲の比など、他の定義が可能である。用いるスペクトルのＣＶ値の典型的な分布をヒストグラムで提供する。０．５未満のＣＶ値で再現性の高い特徴値も存在するが、大多数の特徴が大きな変動を示す。このことは、抽出が些細なことではなく、際立った特徴を有する潜在的な識別ピークとして特徴を同定する前に特徴の周期的変動および分布を分析すべきである理由を強調する。
【００６７】
引き続き図３で、特徴選択プロセスを工程３１０で行って、分類解析の実行で利用する特徴を選択する。特徴選択プロセスは図９に示すように例示し得る。
【００６８】
図９は、特定の幅を有する「ｘ」個を超えるスペクトルに共通するピークを探すことによって特徴（候補特徴）を選択する、例示的なプロセスを示すグラフであり、幅は重ね合わせ誤差＋ピーク幅として定義される。特徴選択を行うにあたって様々な選択技術を利用し得る。示すように、３個のスペクトル９０２ａ〜９０２ｃ（９０２と総称）が存在する。これらのスペクトル９０２を利用して特徴（たとえばピーク）９０４を探す。示すように、中央の垂直線９０６が特徴９０４の中央を通って伸び、これは複数のスペクトル９０２に共通し、横の垂直線９０８ａおよび９０８ｂは特徴の幅を定義する（重ね合わせ誤差＋ピーク幅）。
【００６９】
識別特徴の選択は、３工程のプロセスで行い得る。第１に、すべての特徴を、すべての特徴が独立していると仮定する単純な仮説試験から得られた一変量のｐ値によって順序づける。一部の実施形態では、それぞれの特徴のｐ値を得るためにマン−ホイットニー試験を用い得る。２試料のｔ試験、コロモゴロフスミルノフ試験などの他の方法が可能であるが、頑健性が弱まる。第２に、ボンフェローニ補正を用いて、群平均スペクトル（臨床群中のスペクトルの平均）を比較することによって最高ランク（最小ｐ値）の特徴を検査する。特徴が群を識別しない場合は、候補から外す。第３の最後の工程では、クロスバリデーション誤差を成功の基準として用いて特徴選択を行い得る。この趣旨での様々な実施を、以下に概要を示す。
【００７０】
関連性のある特徴の選択は、遺伝子マイクロアレイ実験では数千もの特徴および数個の試料が存在するので、より問題となる。特徴選択が一部の分類子の性能にそれほど影響を与えないというある程度の証拠が存在するので、特徴選択は、質量スペクトルデータを調査する際にバイオマーカーの同定にも問題となる。それにもかかわらず、数十個の特徴が存在する場合は分類結果の解釈は困難であり、実際には、これらの特徴すべてが関連性のあるものであるという期待はされない。
【００７１】
疾患の様々な段階を識別するために、特徴のその重要度によるランク付けを行い得る。特徴を一度に１個ずつ選択することは容易であるが、数十個の特徴が存在する場合は、作業は、どの特徴が疾患の特定の段階に重要な特徴であるかを決定することがより困難となる。研究室間でバイオマーカーおよびスペクトルを比較するために、同じ特徴が同定可能でなければならず、試料の調製、機器の使用、および集団の変動の不確実性によって現れる特徴が識別可能でなければならない。
【００７２】
特徴選択では２つのアルゴリズムの決定に面する。第１の決定は純粋に組合せである。合計ｍ個の利用可能な（測定した）特徴内のｌ個の特徴の、すべての可能な組合せの完全検索は、

個の組合せをもたらし、たとえば、ｍ＝２０、ｌ＝５では、この数は１５５０４である。質量スペクトルでは典型的なように、数百個の利用可能な特徴が存在し、この組合せ数は完全検索には大きすぎる場合がある。また、ｌのどの値が最適であるかが容易に明らかとならない場合もある。したがって、特別な発見的検索戦略を用い得る。第２の決定は、どの特徴組が他のものよりも良好かを決定する独自の品質尺度を欠くことから生じる。特徴選択の１つの基準は分類性能である場合があるので、「ラップ方法（ｗｒａｐｐｅｒｍｅｔｈｏｄ）」は特徴選択を分類アルゴリズムの一部として埋め込む。これらの方法では、決定が困難な分類誤差の推定、理想的には一般化の誤差の尺度を用い、典型的には１つ残すクロスバリデーション（ｌｅａｖｅ−ｏｎｅｏｕｔｃｒｏｓｓ−ｖａｌｉｄａｔｉｏｎ、ＬＯＯＣＶ）、またはサポートベクターマシーン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ、ＳＶＭ）学習の場合はマージンに基づいた誤差境界によって近似する。代替方法には、分類子を生成する前に特徴選択を行うフィルタリング方法が含まれる。これらの手法のそれぞれは、それぞれ問題があり、妥当性確認に関して特別な措置を利用する。
以下にまず検索戦略を記載し、その後、一般的に用いる一組の品質尺度を記載する。
【００７３】
特徴検索の戦略
ほとんどの検索戦略は「分断攻略」手法に基づいており、特徴選択基準を最適化する。特徴選択基準の具体的な選択には、重要度サンプリングモンテカルロの精神で確率的なサンプリングを用いること、または動的プログラミングなどの特別な最適化技術を用いることが可能であり得る。
【００７４】
使用したように、ツリーに基づいたクラスタリングをすべての特徴を用いて開始してよく、特徴を１個ずつ削除してよい。あるいは、１個の特徴でプロセスを開始し、他の特徴を１つずつ追加してもよい。例として、４個の特徴が存在し得る｛ｘ_１，ｘ_２，ｘ_３，ｘ_４｝。
【００７５】
トップダウン検索：
・｛ｘ_１，ｘ_２，ｘ_３，ｘ_４｝の特徴選択基準の値を計算してＣ_４を得る。
・｛ｘ_１，ｘ_２，ｘ_３｝、｛ｘ_１，ｘ_２，ｘ_４｝、｛ｘ_１，ｘ_３，ｘ_４｝、｛ｘ_２，ｘ_３，ｘ_４｝のそれぞれの特徴選択基準の値を計算し、最良のもの、たとえば値Ｃ_３を有する｛ｘ_１，ｘ_２，ｘ_３｝を選択する。
・｛ｘ_１，ｘ_２｝、｛ｘ_１，ｘ_３｝、｛ｘ_２，ｘ_３｝のそれぞれの特徴選択基準の値を計算し、最良のもの、たとえば値Ｃ_２を有する｛ｘ_１，ｘ_２｝を選択する。
・最後に、最良の１個の特徴を、値Ｃ_１を有する｛ｘ_１，ｘ_２｝から選ぶ。
・｛Ｃ_１，Ｃ_２，Ｃ_３，Ｃ_４｝の最良値が（次善）最適な特徴組を定義する。
【００７６】
同様に、１個の特徴から開始し、１個ずつ追加することでボトムアップ検索が定義される。最適なより少ない（より多い）数の特徴の解答がこれらのツリーに従って展開される保証はないので、これは、必ずしも最適な解答を与えない。これらの単純な手順を改良する一方法は、既に捨てた特徴を再考すること、または既に選択した特徴を捨てることである。このアルゴリズムは当分野で理解されるフローティング検索方法と呼ばれ、以下のとおりである。
【００７７】
フローティング検索方法：
以下にｍ個の特徴の固定数ｌの検索を記載する。特徴の数を最適化するためにｌ回のループを行い得る。フローティング検索方法はトップダウンまたはボトムアップ検索のどちらかに基づく。記載したアルゴリズムはボトムアップ方法に基づく。
【００７８】
一組のｍ個の特徴を考える。目的は、そのうちｋ個の最良の部分組をｋ＝１，２，・・・，ｌ≦ｍについて検索し、Ｃを最適化することである。Ｘ_ｋ＝｛ｘ_１，・・・，ｘ_ｋ｝をｋ個の特徴の最適な組とし、Ｙ_ｍ−ｋを残りのｍ−ｋ個の特徴の組とする。２、３、・・・ｋ−１個の特徴の低次元の最良の部分組Ｘ_２，Ｘ_３，・・・，Ｘ_ｋ−１を記憶（ストレージ）(storage)に保存する。次の工程で、Ｙ_ｍ−ｋの要素を引き出すことによって（ｋ＋１）個目の最適な部分組Ｘ_ｋ＋１を形成する。その後、これがＣを向上させるかどうかについて、すべての低次元部分組にわたって確認を行い、既に選択した特徴を置き換える。アルゴリズムは以下のように実行される（Ｃは、大きければ大きいほど良い）。
・最良の１個の特徴を選択し、Ｃ_１を有するＸ_１が得られる。
・Ｃに基づいて別の特徴を追加し、Ｘ_２およびＣ_２が得られる。
ここでｋ回反復する。
・工程Ｉ、包含：ボトムアップアルゴリズムと同様に、Ｘ_ｋと組み合わせた場合に最良のＣを与えるＹ_ｍ−ｋからの要素を選択する、すなわち

でＸ_ｋ＋１＝｛Ｘ_ｋ，ｘ_ｋ＋１｝を定義する。
・工程ＩＩ、試験：
１．Ｘ_ｋ＋１から外した場合にコストＣに与える影響が最も小さい特徴ｘ_ｒを探す。すなわち

である。
２．ｒ＝ｋ＋１、ｋ＝ｋ＋１、Ｃ_ｋ＋１＝Ｃである場合、工程Ｉに進む。
３．ｒ≠ｋ＋１かつＣ（Ｘ_ｋ＋１／｛ｘ_ｒ｝）＜Ｃ_ｋである場合、工程Ｉに進む、すなわち、ｘ_ｒを外した場合に既に選択した群が向上しない場合は、逆方向検索を行わない。
４．ｋ＝２の特別な場合：ｋ＝２の場合、Ｘ_２＝Ｘ_３／｛ｘ_ｒ｝およびＣ_２＝Ｃ（Ｘ_３／｛ｘ_ｒ｝）を設定する。
・工程ＩＩＩ、排除（逆方向検索）：
１．Ｘ_ｋ’＝Ｘ_ｋ＋１／｛ｘ_ｒ｝、すなわちｘ_ｒを削除する。
２．

によって新しい組の中で最も有意性の低い特徴ｘ_ｓを探す。
３．Ｃ（Ｘ_ｋ’／｛ｘ_ｓ｝）＜Ｃ_ｋ−１である場合、Ｘ_ｋ＝Ｘ_ｋ’とし、Ｃ_ｋを初期化し、工程Ｉに進んで逆方向検索を終了する。
４．Ｘ_ｋ−１’＝Ｘ_ｋ’／｛ｘ_ｓ｝およびｋ＝ｋ−１を設定する。
５．ｋ＝２の特別な場合：Ｘ_２＝Ｘ_２’およびＣ_２＝Ｃ（Ｘ_２’）を設定し、工程Ｉに進む。
６．工程ＩＩＩに進む。
【００７９】
このアルゴリズムでは一般に、単純なボトムアップアルゴリズムよりも実質的に良好に演算が行われ、ｍまで実行して再度最大の（最小の）基準組を選ぶことができる。
【００８０】
ランダム特徴選択アルゴリズム
ランダム特徴選択アルゴリズムとは、ランダムサンプリングからの構成の頻度を数えることに基づいた最適化戦略である。たとえば、何らかの初期構成（ｋ−中央値、ｋ−平均、ファジークラスタリング）から階層的凝集型クラスターを構築する際に、アルゴリズムを何度も開始し、それぞれの実行からの個々の構成を格納し、頻度ヒストグラムを構築することができる。これは、多くの場合クロスバリデーションと組み合わせることができる。
【００８１】
分類子の生成
引き続き図３、工程３１２で、分類子の生成を行う。分類子の生成には、（ｉ）教師あり学習、（ｉｉ）クロスバリデーション(cross validation)、および（ｉｉｉ）盲検分類(blind classification)または試験を含めたいくつかの機能が含まれ得る。最初の２つの機能、すなわち教師あり学習およびクロスバリデーションは、図１に記載のように、癌研究診療所１０４によって提供された関連する既知の臨床結果１０８を用いて生スペクトルで行い得る。
【００８２】
特徴のランク付けは群を識別するための特徴の重要度に関するある程度の見解を与えるが、より徹底的な解析では教師あり学習手順を用いる。教師あり学習とは、訓練組（トレーニングセット）（すなわちそれぞれのスペクトル）中でそれぞれの事例について分類の標識を提供するプロセスであり、誤分類の数を減らすことを目的とする。教師あり学習の別のより具体的な定義は、高次元の特徴空間から標識空間へ、特徴／識別ピーク発現から疾患標識または応答標識（クラス標識とも呼ばれる）へとマッピングすることである。標識は、質量分析装置ピークおよび関連するパラメータの関数である。スペクトルを生成した癌患者のスペクトルおよびその臨床情報を有する研究者または他の人が、教師あり学習プロセスを行い得る。プロセスは、教師あり学習の理論からの標準のアルゴリズムを用いることによって行い得る。教師あり分類アルゴリズムの出力は、新しい事例またはスペクトルのクラス標識を生成する分類子アルゴリズム（訓練組に依存する）である。一実施形態では、ｋ最近傍（ＫＮＮ）アルゴリズムを分類に利用し得る。
【００８３】
Ｋ最近傍アルゴリズム
ｋ−最近傍方法は、単純な密度推定方法である。点ｘ’がｘを中心とする容量Ｖの範囲に入る確率は、

である。
【００８４】
小容量では

である。確率は、容量Ｖの範囲に入る試料の割合によって近似することができる。したがって、ｋが合計ｎ個中Ｖの範囲内に入る試料の数である場合、

である。
【００８５】
ｋ−最近傍の近似は、確率ｋ／ｎを固定すること（または固定数の試料ではｋを固定すること）、およびｋ個の試料を含む容量を決定することである。これは、値域の幅を固定して点の数を数えるヒストグラムの推定と対照的である。この定義の規則性には一部問題があるが、

かつ

である場合は、偏りがないかつ矛盾がないことを示すことができる。
【００８６】
判断基準を以下の方法で構築することができる。クラスω_ｍ中にｋ_ｍ個の試料が存在し、ω_ｍの試料の合計数がｎ_ｍであることを仮定する。その場合、クラス条件付き確率は、

である。
前者はｎ_ｍ／ｎである（全クラスにわたって合計ｎ個の試料が存在する場合）。
ベイジアン判断基準は、

である場合にｘをω_ｍに割り当てることであり、ベイズ定理を用いて、これは

の選択をもたらす。
【００８７】
同点の場合、最も近い平均、最も近いメンバー、または他のものによって同点に決着をつけ得る。あるいは、同点に決着をつけるものを奇数のｋに限定し得る。小さなｋは不規則な表面をもたらす一方で、大きなｋは滑らかな表面をもたらす。漸近的な誤分類率は上記よりもベイズ誤差の２倍抑制されており、これは、このように単純なアルゴリズムには非常に良好な漸近的な性能である。ＫＮＮ分類はプロトタイプ、すなわちデータ圧縮技術の使用に適している。しかし、ここでは、ＫＮＮ分類の使用は、必要な記憶の軽減に、より使用される。距離関数の選択を利用し得る。あるいは、最適ではないユークリッド差も利用し得る。二次元の特徴空間の単純な例の投票プロセスを図１１に例示する。
【００８８】
図１１は、２つの異なるクラスの疾患進行を表すクラス標識したスペクトル徴候および分類する試験スペクトル徴候の例示的な群を示す、グラフ１１００である。特徴空間中の識別ピークをグラフで表すために、この図では、二次元の特徴空間、すなわちグラフ１１００は、ｘ軸およびｙ軸を有する二次元グラフである。特徴空間が１２次元の特徴空間であった場合（すなわち、１２個の特徴またはピークが、クラス標識するスペクトルを「良好」または「不良」と分類する際立った特徴の指標である識別ピークとして選択される）、スペクトルを容易にグラフで表すことは不可能となるので、二次元の特徴空間を例として利用する。
【００８９】
この場合、スペクトルは「良好」１１０２および「不良」１１０４としてクラス標識で分類され、「良好」のクラス標識したスペクトルの徴候１１０２を１つのパターンとしてグラフ１１００上に表し、「不良」のクラス標識したスペクトルの徴候１１０４を別のパターンとして表す。既に記載したように、クラス標識したスペクトルは癌研究診療所から展開したものであってよく、イレッサなどの抗癌薬に応答する癌患者の臨床結果に基づいた分類目的のために対照試料として用い得る。試験スペクトル徴候１１０６を、治療計画を決定する新しい癌患者からの試験スペクトルを表す位置でグラフ１１００に配置し得る。試験スペクトル徴候１１０６の位置は、２つの特徴の振幅（すなわち、ｘおよびｙの振幅）に基づく。示すように、かつ確率ＫＮＮアルゴリズムに従って、最も近い３つのクラス標識したスペクトルの徴候１１０８ａ、１１０８ｂ、および１１０８ｃが、関連させる試験スペクトルの潜在的な候補である。
【００９０】
二次元の特徴空間の試験点の分類プロセスのための例示的な確率試験は、

である。
【００９１】
２つのクラス間の確率差が、ユーザが提供した特定の閾値Δ−ｐを超える場合は、確率は有意であると見なすことができ、「良好」または「不良」の分類を行うことができる。確率差が特定の閾値未満の場合は、「不確定」の分類を行うことができる。
【００９２】
ＫＮＮアルゴリズムを分類子アルゴリズムとして利用し得る一方で、他の分類アルゴリズムも利用し得る。本発明の原理に従って開発した別のアルゴリズムは、さらなる柔軟性を提供し、臨床応用のためのさらなる情報を提供する改良ＫＮＮアルゴリズムである、確率的ｋ最近傍アルゴリズムである。
【００９３】
改良（確率的）ｋ最近傍アルゴリズム
本発明の原理に従って、改良ｋ最近傍アルゴリズムを分類に用い得る。その最も単純な実施では、改良ＫＮＮアルゴリズムは、特徴空間中のｋ最近傍を検索し、これらの最近傍の標識にわたる単純な多数決に従ってクラス標識を割り当てる。特徴空間は、スペクトルを定義するために用いる特徴の数（たとえば１２個の特徴）として定義される。一実施形態では、明確な訓練期は存在せず、すべての事例をスペクトルの分類に用いる。通常は、単純なユークリッド距離のみを用いて近傍を決定するが、他の定義も可能である（たとえば、適切に定義された共分散マトリックスからのマハラノビス距離）。
【００９４】
従来のＫ−最近傍（ＫＮＮ）フレームワークでは、以下のように分類を行う。
分類するそれぞれの対象または事例（ここでは質量スペクトル）をｄ数ｘ_ｉ、Ｉ＝１・・・Ｄ（ここではｄ個の特徴の値）によって特徴づけ、したがって、これはｄ次元の空間内の点によって表される。２つの事例間の距離は、通常のユークリッド測定基準

によって定義される。もちろん、任意の類似の測定基準もここで用いてもよい。さらに、実施では、２つのスペクトル間の距離を決定するにあたって、ウィンザライズを行ったマハラノビス距離を用い得る。
【００９５】
訓練組には、既知のクラス割当てを有する事例が含まれ得る。訓練組および正の奇数整数ｋを与えた場合、試験対象の分類を以下のように行う。
１．訓練組中、ｄ次元の空間内で試験対象（すなわちスペクトル）のｋ最近傍を探す。
２．これらのｋ近傍のそれぞれがクラスの１つ（たとえば良好または不良）に属する。どのクラスが最大数の表現を有するかを探す。
３．試験対象をこのクラスに属するものとして分類する。
【００９６】
このＫＮＮ分類は２つの欠点を有する。第１に、これはクラスの割当ての信頼度に関する情報を提供しない。ｋ＝１５かつ２つのクラスの場合、１５：０の状態におけるクラスの割当ての信頼度が８：７の状態よりもはるかに高いことは、直観的に明らかである。臨床応用では、それぞれの個々のクラスの割当ての信頼水準の特徴は関連性のあるものであり、患者を診断するために使用する。実際、このレベルを最初に定義し得る。
【００９７】
第２に、これは、訓練組中のそれぞれのクラスの事例の数を適切に考慮していない。所定のクラスのさらなる事例を訓練組に単に追加することは、分類結果をこのクラスに有利に偏らせる傾向がある。
【００９８】
これらの問題を修正するために、訓練組からのｋ最近傍のクラスに関する情報から開始するが、クラスを割り当てる代わりにそれぞれのクラスに属する試験事例の確率を生成する「確率的ＫＮＮ」分類子を開発した。以下に、確率的ＫＮＮの主な式の理論および誘導の簡潔な説明を示す。
【００９９】
スペクトル試料を分類するＫＮＮ手法は以下のように見なすことができる。ｄ次元の空間内にあり、試験事例を中心とする、特定の半径の球を考える。球の半径は、訓練組から正確にｋ個の事例を含むという要件によって決定される。その後、それぞれのクラスのうち何個のメンバーがこれらのｋ個の事例に混じっているかを観察し、この情報を用いてクラス標識を割り当てるか（標準の手法で）、または何らかのクラスに属する試験事例の確率を計算する（確率的手法で）。
【０１００】
訓練組は、何らかの（未知の）確率分布から引き出した試料であり得る。より正確には、それぞれのクラスについて、クラスに属する訓練組の部分組は対応する確率分布から引き出した試料であると見なされ、これはそれぞれのクラスについて異なる。
【０１０１】
同じ確率分布から引き出した訓練組の集合を考える。分類するためのＫＮＮ手法では、試験事例の周りの球の半径は、必ず正確にｋ最近傍を含むことを確実にするために、それぞれの訓練組の具現化について異なる。以前のセクションのＫＮＮ方法の説明も参照されたい。
【０１０２】
以下の近似を行い得る。
１．試験事例の周りの球は固定されていると見なし得る。これは、これが試験事例の位置および訓練組を引き出した確率分布に依存するが、それぞれの訓練組の具現化で同じであることを意味する。この近似は、ｋが小さすぎない場合に妥当である。
２．それぞれのクラスについて、球内のそのクラスの事例の数をポアソン分布から引き出す。この近似は、球が小さな割合のこのクラスの全体的な確率のみを含む場合に妥当である。
３．クラスの確率密度は球内でほぼ一定である。
【０１０３】
２つのクラスの場合を考える。それぞれの事例は、ｄ次元の空間内の点

によって表される。完全なｄ次元の空間をΩによって示す。
クラス１は、確率分布

によって特徴づけられる。クラス２は、確率分布

によって特徴づけられる。
【０１０４】
訓練組は、クラス１から引き出したＮ_１個の点、およびクラス２から引き出したＮ_２個の点から形成され得る。試験点の近傍はωによって示し得る。これは、実際は試験点を中心とした球であるが、これは以下には関連性がない。訓練組の所定の具現化には、ω中にクラス１からｋ_１個の点およびω中にクラス２からｋ_２個の点が存在する。ｋ_１＜＜Ｎ_１、

が仮定される。同じことがクラス２についても当てはまる。
【０１０５】
これは、ポアソン近似の妥当性を保証する。ｋ_１は期待値λ_１、

のポアソン分布から生じ、ｋ_２は期待値λ_２、

のポアソン分布から生じる。
【０１０６】
ここで、試験点（ωの中心）を「さらに別の点」として扱う。言い換えれば、ω中にはｋ_１＋ｋ_２個ではなくｋ_１＋ｋ_２＋１個の点が存在し、どのクラスに試験点が属するかは知られていない。試験点がクラス１およびクラス２に属する確率は、以下：

のように割り当て得る。したがって、

である。
【０１０７】
試験点（ωの中心）を「さらに別の点」として扱うことによって、

および

がどちらもω内で有意に変化しないことが黙示的に仮定される。
【０１０８】
問題は、λ_１およびλ_２が実際に未知なことである。しかし、その確率は、ベイジアン様式で推定することができる。ｋ_１およびｋ_２はどちらも、ポアソン分布、

に従うように仮定する。
λの以前の分布をｐ_０（λ）と示した場合、

である。
標準のベイジアン理論では、

である。
【０１０９】
以降、λの平坦な以前の分布、ｐ_０（λ）＝１を仮定して、以下：

を得ることができる。
最終的には、以下：

が得られるが、ただし、

である。
【０１１０】
これらの積分の計算により、以下：

が得られる。
訓練組で用いた試料の大きさが同じ場合は（Ｎ_１＝Ｎ_２）、これは以下：

に簡素化される。
【０１１１】
２つを超えるクラスおよび訓練組中の異なる試料の大きさでは、閉形式でｐ（クラスＩ）を得るのは困難である。この場合、以下：

のはるかに簡素化した推定を用い得る。
あるいは、同等に、それぞれのｐ（クラスＩ）が

に比例する一方で、

である。
【０１１２】
結果の頑健性を欠陥のあるスペクトルに特徴づけるパラメータは、標識をスペクトルで関連づけるためにクラス確率が異なっていなければならない度合を定義する、ユーザが提供したパラメータｐ−ｄｉｆｆである。たとえば、ｐ−ｄｉｆｆが０．１に設定され、クラスＡの確率が０．６であり、クラスＢが０．４である場合、差２は０．１よりも大きく、クラスＡが選択される。他方で、クラスＡのクラス確率が０．５２であり、クラスＢが０．４８である場合、差０．０４は０．１よりも小さく、分類子はクラス標識を「未定義」として返す。
【０１１３】
あるいは、仮説試験は、分類が外部指定した有意性αで有意になり得る。標準の仮説試験の形成では、分類を以下のように説明することができる。
データ：試験事例には、２つのクラスＡおよびＢ、クラスＡおよびクラスＢのｋ_Ａおよびｋ_Ｂ最近傍、ならびにクラスＡのＮ_Ａ個の事例およびクラスＢのＮ_Ａ個の事例の集団が含まれ得る。
【０１１４】
試験統計学：単純にクラスＡ中の近傍の数：
Ｔ＝ｋ_Ａ
である。
ヌル分布：ヌルは、集団比のみから予測されるＡ近傍の数であると仮定される、すなわち、ヌル下のｋ_Ａは、パラメータｋ＝ｋ_Ａ＋ｋ_Ｂおよびｐ^＊＝Ｎ_Ａ／Ｎ_Ｂを用いた二項式ランダム変数である。
仮説：（両側）これは、当分野で理解される二項式試験の実施である。
Ｈ_０：ｐ_Ａ＝ｐ^＊
Ｈ_１：ｐ_Ａ≠ｐ^＊
【０１１５】
試験開発事例では、最近傍の数が２０を超えることは稀であり、通常の近似は使用しない。所定の全体的な有意性には、αを表から解き（またはコンピュータで実行し）、ｔ_１およびｔ_２についてＰ（Ｙ≦ｔ_１）＝α_１かつＰ（Ｙ≦ｔ_２）＝１−α_２であり、Ｙはヌル下で定義された二項式ランダム変数であり、α_１およびα_２はα／２に近似し合計するとαとなる。拒絶領域は、ｔ_１未満またはｔ_２を超えるＴの値である。二項式試験のセクションで概要を示した手順に従って、信頼領域もｐ^＊について推定し得る。
【０１１６】
改良ＫＮＮアルゴリズムを上述のように分類アルゴリズムとして利用し得るが、代替分類アルゴリズムを本発明の原理に従って利用し得る。そのような分類アルゴリズムには、たとえば、ファジーＫＮＮ、カーネル方法（たとえばＳＶＭ）、教師なし分類、スペクトルクラスタリング、カーネルＰＣＡ、ノンパラメトリッククラスタリング、ｋ−平均、ｋ−ヒストグラム、階層的クラスタリング、およびランダムフォレストが含まれ得る。これらの分類アルゴリズムは、クラス標識したスペクトル（たとえば、癌患者の対照群から分類および標識したスペクトル）に従ってスペクトルを分類する能力を提供するが、上述のＫＮＮアルゴリズムの明瞭性および使用の容易さを欠く。
【０１１７】
引き続き図３、工程３１２で、スペクトルの訓練組の分類子を生成するために学習を利用し得る。抗癌薬が非小細胞肺癌に対して有効であるかどうかを検出するために血清をサンプリングする場合は、癌が化学療法後に進行した３組の患者の使用を含めて患者の対照群を利用した。患者のそれぞれをイレッサで治療し、これらの患者の生存期間を含めた情報を記録した。対照試料は、ＥＧＦＲ−ｋ_１阻害剤を用いた治療を受けなかった、重篤度がより低い患者（癌段階ＩＩＩおよびＩＶ）からのものであり、血清は治療中に生成された。いくつかの研究で用いたデータ組の要約を表ＩＩＩに提供する。それぞれのデータ組は、受け取ったスペクトルおよび関連する患者情報の癌研究センターを表す。
【０１１８】
【表２】

表ＩＩＩ．研究で用いたデータ組
表ＩＩＩは、分類子アルゴリズムが、癌患者がイレッサに対して応答性となるかどうかを決定するために有効かどうかを決定するための研究に用いた、データ組属性の要約である。試料の収集後、イタリア人１、イタリア人２、日本人１、および日本人２のデータ組をイレッサで治療した。開発期における訓練および試験は、イタリア人１の組および２つの日本人の組で交差するように行った。患者データには生存データが含まれ、イタリア人の組は非常に完成した患者病歴と共に治療および癌の種類を有しており、日本人の組には、ＣＴイメージングによって測定した、安定疾患（ＳＤ）、進行性疾患（ＰＤ）、および部分応答者（ＰＲ）を含めた臨床標識のＷＨＯ定義に関する予後情報のみが含まれていた。分類子を確立した後、十分に盲検化された試験をイタリア人２の組で行った。
【０１１９】
図１０Ａは、本発明の原理に従って、試験スペクトルをクラス標識したスペクトル(class labeled spectra)の群に関連して分類するための例示的なプロセスを表すグラフ１０００ａである。試験スペクトルは、試験スペクトルが、クラス標識したスペクトルからの少なくとも１つのクラス標識したスペクトルと同じクラスに標識されると分類子によって決定された場合に、クラス標識したスペクトルに関連すると見なされる。曲線は群平均スペクトルである。示すように、分類で用いた１１７００ダルトン（Ｄａ）の周辺に識別ピークのクラスターが存在する。群間の差異は、臨床的に細標識した群ＰＤ−初期１００２およびＳＤ−長１００４スペクトルの平均間にある。示していないが、イタリア人のデータ組（表ＩＩＩ）から分類子（すなわち、改良ｋ−最近傍分類子を用いた分類子アルゴリズム）を構築するために用いた１１個の識別ピークが存在し、そのパラメータはクロスバリデーションを用いて最適化する。２つの群平均スペクトルを比較すると、高速進行性癌（ＰＤ−初期１００２）に罹患している患者のスペクトル中に識別ピークを生じるバイオマーカーの存在が、長期間生存し、ＳＤ−長癌（ＳＤ−長１００４）を分類された患者ではほぼ存在しないことが明らかである。
【０１２０】
図１０Ｂおよび１０Ｃは、イタリア人および２つの日本人の訓練組からの例示的なプロットを示すグラフ１０００ｂおよび１０００ｃである。図１０Ｂでは、グラフ１０００ｂの範囲は５５００〜６０００Ｄａであり、図１０ｃでは、グラフ１０００ｃの範囲は１１０００〜１３０００Ｄａである。これら２つのグラフ１０００ａおよび１００ｂで示すように、異なる群間の多数の識別ピークが示される。群のプロットは、それぞれのスペクトル群にわたって平均する。すなわち、プロットは個々のスペクトルからのものではない。
【０１２１】
標準の識別ピークの普通でない細分類は、実際に示した識別ピークの強度に反映されている。用いた識別ピークのリストを表ＩＶに示す。表Ｖは表ＩＶと同じ識別ピークのリストであるが、発見期試料の特徴値の群平均を含む特徴の値も含まれる（イタリア人１、日本人１および２）。支配的な一組のクラスターを群平均として図１０に示す。示した識別ピークは例示的であり、薬物イレッサの癌患者応答者を予測するために同じまたは他の識別ピークを本発明の原理に従って利用し得ることを、理解されたい。さらに、他の抗癌薬または他の薬物に対する予測を行う場合は、記載したもの以外の識別ピークをそのような予測に利用し得る。
【０１２２】
最適なｋ−ＮＮ分類子は１つ残す(leave-one-cut)クロスバリデーション（ＬＯＯＣＶ）の誤差をもたらし、一方で、２６個中６個のスペクトルを分類することができなかった。確率的ｋ−ＮＮ分類子の要件を高めることによって、この誤標識を１つの分類不可能なスペクトルの事例に移動することが可能である。細分類が予後診断に相関していると合理的に仮定され、ＰＤ−初期事例が最悪の進行であり、ＳＤ−長事例が最も長い安定疾患である場合は、治療前血清スペクトルから見込みのある薬物応答情報を得ることが可能であると、仮に結論づけることができる。
【０１２３】
【表３】

表ＩＶ．識別ピークのリスト
【表４】

表Ｖ．特徴値のパラメータを含む識別ピークのリスト
【０１２４】
分類子アルゴリズムの試験にあたって、以下の関連づけを用いてイレッサの応答マーカーを作成することができる。ＳＤおよびＰＲの事例を「良好」のクラス標識を有する群として一緒の群とし、ＰＤの事例を「不良」としてクラス標識する。上記細分類から展開した分類子は、ここでも、「良好」をＳＤ−長と関連づけ、「不良」をＰＤ−初期と関連づける。その後、この分類子を日本人の事例（表Ｉ）に適用し、これらのスペクトルのうち１８個を分類することができず、５１個のスペクトルが分類された。これら５１個のスペクトルのうち、３７個がクラス標識「良好」を有し、１４個がクラス標識「不良」を有していた。試験結果を表ＶＩに要約する。
【表５】

表ＶＩ．クラス標識
【０１２５】
この試験は、９０％の感度および５７％の特異度を有する。イレッサを用いる目的では、応答がなかった、すなわち「不良」であった６個の事例が応答を有すると標識されており、０．８４の陽性適中率が得られた。同様に、５個の事例が「不良」として誤標識されており、０．６１の陰性適中率が得られた。
【０１２６】
要約すると、日本人集団において非応答者を応答者からフィルタリングするために血清に基づいた質量分析装置試験を用いることで、イレッサの応答率が６５％から９０％に上昇し、一方で、５１人の患者中、イレッサの恩恵を受ける可能性のあった５人が取り残される。これら５人の患者のうち、１人がＳＤを標識され、４人がＰＲを標識されていた。一般に、ＰＤへの分類は、この群内での変動が高いことにより、最悪である。これは「良好」事例の選択に影響を与えないが、低い特異度をもたらす。この増加は、特定の患者群においてイレッサを治療段階の初期で用いることで、従事者が予想外に良好な予後診断の予測を得ることができることを示す。これらの患者ではイレッサを継続することができ、一方で予後不良を予測された患者は代替抗癌治療に切替えることができる。代替抗癌治療の利用が早ければ早いほど、有益な効果をもたらす可能性が高くなるので、これにより、より良好な長期生存率が可能となる。
【０１２７】
引き続き図３、工程３１２で、分類子の盲検試験を行い得る。これは、クラス標識したスペクトルからの癌患者と同じ癌に罹患している癌患者が抗癌薬に応答するかどうかを決定するために、試験スペクトルを（たとえば新しい癌患者から）分類するためにクラス標識したスペクトルを分類子アルゴリズムが用いることを意味する。本明細書中で上述したように、確率的ＫＮＮ分類子を用いて、分類子を生成し得る。分類子からは、３つの潜在的なクラス標識、すなわち「良好」、「不良」、または「未定義」がもたらされ得る。「良好」のクラス標識または分類は、試験スペクトルの処理において、試験スペクトルがクラス標識したスペクトルの「良好」群と同じ群であることを分類子が決定することを意味する。そのような盲検試験の結果を図１４に示し、開発期の結果が確認される。
【０１２８】
図３の工程３１４では、既に記載したように、可視化を行ってよく、可視化には、（ｉ）スペクトルの平均、（ｉｉ）スペクトルの変動、および（ｉｉｉ）特徴の位置決定を行うツールが含まれ得る。これらの可視化ツールは診断目的に有用であり得る。
【０１２９】
分類子によって試験スペクトルがスペクトルの「良好」群に最も密接に関連していると決定された場合は、試験スペクトルが「良好」と分類され、患者に、その人が応答するという特定のレベルの信頼度を有する抗癌薬を処方し得る。分類子によって試験スペクトルがスペクトルの「不良」群に最も密接に関連していると決定された場合は、試験スペクトルが「不良」と分類され、患者にはその抗癌薬を処方しない。試験スペクトルがクラス標識したスペクトルの「良好」または「不良」群のどちらかと関連していることが決定できない場合は、試験スペクトルを「不確定」と分類し、患者には抗癌薬を処方しない。
【０１３０】
表ＶＩＩは、表Ｖと類似の、図３の工程３０８および３１０の特徴抽出および選択アルゴリズムによって決定した平均識別ピーク値の別の例示的な組を表す。これらのスペクトルは、図３の工程３１２の分類子によって「良好」、「不良」、または「未定義」と分類および標識される。記載したように、「不良」スペクトルは、典型的にはピークの振幅よりも大きい、大きな標準偏差を有する識別ピークを有しており、ピークを測定することができない。「良好」と分類されたスペクトルは、より小さな振幅および標準偏差を有する傾向にある識別ピークを有する。「未定義」スペクトルはそのどこか中間にあり、識別ピークの振幅が一部のｍ／ｚ位置では小さく、他の位置では高い。
【表６】

表ＶＩＩ．例示的な識別ピークおよび標準偏差
【０１３１】
信頼度のレベルは、確率的ＫＮＮアルゴリズムのΔ−ｐパラメータによって設定されたスペクトルの訓練組を用いた関連性の確率に基づいている。Δ−ｐパラメータは、試験スペクトルを訓練組と関連づけるために所望される信頼度のレベルに応じて、上方または下方に増加し得る。盲検試験研究では、Δ−ｐパラメータを０．２に設定し、９２％精度の予測結果がもたらされた。
【０１３２】
図１１は、スペクトルを二次元の特徴空間でグラフによって表すために有用であるが、実世界のスペクトルは典型的には８〜１２次元の特徴空間をもたらし、多くの場合８〜１２次元またはそれ以上に達する。より高次元または低次元の特徴空間が、癌患者が抗癌薬に対して応答性となるかどうかを決定するにあたって十分または必要であると決定され得る。したがって、特定の実施形態では、従事者は、１個または２個のみの識別ピークを利用する場合があり、他の実施形態では３個または４個の識別ピークを使用し、さらに他の実施形態では５個または６個の識別ピークを使用し、さらに他の実施形態では７個または８個の識別ピークを使用し、さらに他の実施形態では９個または１０個の識別ピークを使用し、他の実施形態では１１個または１２個の識別ピークを使用する。実際、１２個よりも多くの識別ピークを追加することが本発明によって企図される。決定性があるように十分な情報を提供する特徴の数の決定は、たとえば、特徴の振幅、スペクトルの分類、および抗癌治療に対する患者応答を含めたいくつかの要因に基づき得る。
【０１３３】
引き続き図３で、データベース２２０（図２）などのデータベースを利用して、識別ピーク、質量分析装置の診断、および／または他の出力パラメータを、記載した分類および診断プロセスから受け取って格納し得る。これらのパラメータを格納し、新しい癌患者からの新しいスペクトルの将来の分類に使用し得る。最終的に、データベースは、試験スペクトルの分類における精度および信頼性に関して癌患者が抗癌薬に応答することが９８％などの高確率で実質的に保証される程度まで満たされ得る。
【０１３４】
図１２は、本発明の原理に従って分類した患者群の生存率を示す試験データのカプラン・マイヤープロット１２００である。カプラン・マイヤープロット１２００は、一定期間にわたる生存率を示す、死亡率のプロットである。示すように、「良好」と分類された癌患者が、抗癌薬を受けたことが原因で最も長く生存した。「不良」と分類された癌患者では、最初の数カ月で急激な降下があった。「未定義」と分類された癌患者は、低い生存率で徐々に低下していった。このプロットは、発見期に、イタリア人１の試料で訓練した分類子を日本人の１および２の試料で試験することによって得た。
【０１３５】
図１３は、日本人の試料１および２で訓練した分類子をイタリア人１の組で試験した、図１２に類似のカプラン・マイヤープロット１３００である。示すように、関連づけられたスペクトルが「良好」と分類された患者は、抗癌薬で治療したことから寿命が延長すると予測された。「不良」と分類された患者は、低い割合が１年を超えて延長される急激な死亡率を有すると予測された。「未定義」と分類された患者は急激な低下を有し、６カ月を超えて生存すると予測された者はいなかった。これらの予測は、臨床試験で正確であることが証明された。
【０１３６】
図１４は、イタリア人２の試料で妥当性確認した分類子を盲検的に用いて得た、図１２および１３に類似のカプラン・マイヤープロット１４００である。試験時、生存データは機密であったためその知識はなかった。分類を行った後に生存データが公開され、図１４の曲線により開発試験からの結果が確認された。示すように、「良好」と分類された患者は生存率が延長されたことが予測され、「不良」と分類された患者は急激な降下を有しており寿命がより限られていた。この具体的な事例では、試験を低いΔ−ｐで実行したので、「未定義」と分類された患者は存在しなかった。ここでも、結果は実際の臨床試験と一致していた。
【０１３７】
図１５は、本発明の原理に従って癌患者が抗癌薬に対して応答性となるかどうかを決定する、例示的なプロセス１５００を示すブロック図である。プロセス１５００は工程１５０２から開始し、癌患者から生じた血清から質量分析装置によって生成された試験スペクトルを得る。工程１５０４で、試験スペクトルを処理して、同じまたは類似の臨床段階の癌に罹患しており、抗癌薬に応答したまたは応答しなかったことが知られている他の癌患者からの対応する血清から生成されたクラス標識したスペクトルの群との関連性を決定する。関連性とは、試験スペクトルが、１つまたは別のクラス標識したスペクトルと同じまたは類似の特徴に関連するまたはそれを有する可能性が高いことを意味する。抗癌薬は、非小細胞肺癌を治療するものであり得る。工程１５０６で、分類されたスペクトルの群に対する試験スペクトルの関連性に基づいて、患者が抗癌薬に対して応答するかどうかを決定する。応答性であることは、抗癌薬が癌患者に対して何らかの正の利点をもたらすことを意味する。肯定応答は望ましくは患者の寿命を延長するが、癌患者を抗癌薬で治療することで他の正の利点ももたらされ得る。
【０１３８】
本発明によって測定するバイオマーカーは、質量分析スペクトル中でピークとして現れる任意の種類の定量可能なパラメータであり得る。質量分析ピークを引き起こすパラメータは、それだけには限定されないが、特定の酵素、ホルモン、ｍＲＮＡ、ＤＮＡ、ＲＮＡ、タンパク質、脂質、ビタミン、ミネラル、代謝物、および化学物質を含めた任意の物質によって生じ得る。さらに、バイオマーカーは、それだけには限定されないが、血清、赤血球、白血球、爪、皮膚、毛髪、生検組織、脳脊髄液、骨髄、尿、糞便、痰、胆汁、気管支肺胞液、胸膜液、および内耳液を含めた、患者から採取した任意の組織または液体から測定することができる。
【０１３９】
バイオマーカーは、環境的または遺伝的トリガーに対する曝露レベル、疾患プロセス自体の要素、曝露と疾患の発症の間の中間段階、または病状に関連するが発症の原因ではない独立した要因を含めた、様々な疾患特徴を反映することができる。したがって、本発明の原理は、疾患および障害の特定の段階の決定にも適用し得ることが企図される。
【０１４０】
本発明の原理の例を非小細胞肺癌および特定の抗癌薬を用いた治療に関して記載したが、この原理は、現在または将来利用可能な他の癌および他の抗癌薬に適用し得ることを理解されたい。さらに、本発明の原理および方法は、それだけには限定されないが、癌、自己免疫疾患もしくは障害、糖尿病、遺伝病もしくは障害、ウイルス感染症、細菌感染症、寄生虫感染症、プリオン疾患、栄養障害、ビタミン欠乏症、ミネラル欠乏症、ミトコンドリア疾患もしくは障害、性行為感染症もしくは障害、先天性欠損症、性病もしくは障害、免疫疾患もしくは障害、バランス疾患もしくは障害、疼痛、全身病もしくは障害、血液疾患もしくは障害、血管疾患もしくは障害、神経疾患もしくは障害、筋系疾患もしくは障害、心疾患もしくは障害、脊髄疾患もしくは障害、眼疾患もしくは障害、精神疾患もしくは障害、代謝性疾患もしくは障害、内臓疾患もしくは障害、肺疾患もしくは障害、肝疾患もしくは障害、腎臓病もしくは障害、胆嚢疾患もしくは障害、膵臓疾患もしくは障害、胃腸管系疾患もしくは障害、前立腺疾患もしくは障害、婦人科疾患もしくは障害、および聴覚疾患もしくは障害を含めた任意の疾患または障害の検出に適用し得る。さらに、本発明の原理および方法は、治療が環境的曝露およびその効果、物質乱用、および疫学研究に役立つかどうかの決定にも適用し得る。
【０１４１】
本発明の原理および方法は、それだけには限定されないが、一般麻酔薬、不安および睡眠障害薬、精神障害薬、抗精神病剤、情動障害薬、運動障害薬、癲癇薬および抗癲癇薬、心不全を管理する薬物、抗虚血薬、抗不整脈薬、血管の薬物、心血管および肺の薬物、オピオイド鎮痛剤およびアゴニスト、気管支拡張剤、抗炎症薬、気管支痙攣を管理する薬物、クロモリンナトリウムおよび関連する薬物、呼吸刺激剤、鎮咳薬、粘膜毛様体輸送を変調する薬物、利尿剤、抗利尿ホルモン、合成類似体、および関連する薬物、インスリン、グルカゴン、経口血糖降下剤、真性糖尿病を治療する薬物、副甲状腺ホルモン薬、ビスホスホネート、カルシトニン、副腎コルチコステロイド、コルチコトロピン放出ホルモン、アドレノコルチコトロピン、および抗副腎薬、甲状腺ホルモン、甲状腺刺激ホルモン、チロトロピン放出ホルモン、および抗甲状腺薬、エストロゲン、抗エストロゲン、プロゲスチン、避妊薬、アンドロゲンおよび同化(anabolic)およびアンタゴニスト、ゴナドトロピン、抗黄体ホルモン、アクチビン、インヒビン、ゴナドトロピン放出ホルモン（ＧＮＲＨ）、ＧＮＲＨスーパーアゴニスト(GNRH supragonist)、およびアゴニスト、成長ホルモン、インスリン様増殖因子、プロラクチン、高プロラクチン血症を治療する薬物、脂溶性ビタミン、水溶性ビタミン、多量ミネラル、微量ミネラル、フッ化物、緩下剤、抗下痢薬、胃腸管運動に影響を与える薬物、制吐剤、血液および血液形成器官に作用する薬物、免疫系に作用する薬物、非アヘン鎮痛剤、抗炎症薬、血漿脂質調節剤、局所的コルチコステロイド、タール、ジスラノール、亜鉛製剤、レチノイド、抗菌化合物、角質化治療薬、外寄生生物を治療する薬物、皮膚の新生物性障害を治療する薬物、抗ヒスタミン剤、皮膚の疱疹障害の治療剤、スルホンアミド、スルホン、トリメトプリム−スルファメトキサゾール、アミノグリコシド、テトラサイクリン、クロラムフェニコール、エリスロマイシン、タンパク質合成阻害剤、フルオロキノロン、キノロン、ニトロフラン、メセナミン、β−ラクタム抗生物質、マイコバクテリア感染症を治療する薬物、抗真菌剤、抗ウイルス薬、抗寄生生物薬、および癌化学療法薬を含めた任意の薬物治療に適用し得る。
【０１４２】
さらに、本発明の原理をヒト以外の種に適用し得る。分類および解析を行うために血清を利用することを記載したが、本発明の原理の様々な側面を、癌患者が抗癌薬に応答した他の癌患者の特徴を有するかどうかを決定するために、他の液体または組織試料を用いて識別ピークを有することができるスペクトルを生成することによって、同様に適用できることが理解されよう。
【０１４３】
既に記載した説明は、本発明を実行するための小数の実施形態のものであり、範囲を限定することを意図しない。当業者は、この発明を詳述した領域よりも他の領域を実行するために用いる方法および変形をすぐに予見するであろう。以下の特許請求の範囲は、より詳細に開示した本発明のいくつかの実施形態を記載する。
（このページの残りの部分は意図的に空白のままにしてある）
【図面の簡単な説明】
【０１４４】
【図１】図１は、研究室試験処理センター(laboratory test processing center)、癌研究診療所(cancer research clinic)、および癌患者診療所(cancer patient clinic)の間の関係の例のブロック図であり；
【図２】図２は、図１の研究室試験処理センター、癌研究診療所、および癌患者診療所の間の情報を伝達および処理するためのシステムの例のブロック図であり；
【０１４５】
【図３】図３は、癌患者が本発明の原理に従った抗癌薬に応答するかどうかを決定するための試験を展開するワークフロー工程の例の流れ図であり；
【図４】図４は、試験の展開に用いられるすべてのスペクトルのゲルプロットの例の画像であり；
【図５】図５は、ノイズおよびシグナル成分を有する分光計から出力するデータ点のセットの例を示すヒストグラムであり；
【０１４６】
【図６Ａ】図６Ａは、スペクトルからバックグラウンドを除去した後のバックグラウンドありのスペクトルを示すグラフであり；
【図６Ｂ】図６Ｂは、スペクトルからバックグラウンドを除去した後のバックグラウンドなしのスペクトルを示すグラフであり；
【図７Ａ】図７Ａは、図７Ｂに示されるスペクトルの比較を単純化するために完全に前処理した複数のスペクトルを示すグラフであり；
【図８Ａ】図８Ａは、重ね合わせた複数の試料スペクトルを示すグラフであり；
【図８Ｂ】図８Ｂは、重ね合わせた複数の試料スペクトルを示すグラフであり；
【０１４７】
【図９】図９は、特定の幅を有するｘ個を超えるスペクトルによく見られるピークを位置づけることによる、形状的特徴を選択するための工程の例のグラフであり；
【図１０】図１０は、それぞれの群において、すべての利用可能なテスト開発サンプル(test development sample)にわたって平均化した、臨床群のＰＤ、ＰＤ−初期、ＰＲ、ＳＤ−短、およびＳＤ−長における平均スペクトルを代表するグラフであり；
【０１４８】
【図１１】図１１は、２つの異なった種類の疾患進行を代表するクラス標識したスペクトルの群の例の徴候(indicia)および分類されるべき試験スペクトルの徴候を示すグラフであり；
【図１２】図１２は、イタリア人の試料を訓練組として用い、日本人の試料を試験組（テストセット）として用いて得られ、本発明の原理に従って分類された患者群の生存率を示す試験データのカプラン・マイヤープロットであり；
【０１４９】
【図１３】図１３は、日本人の試料を訓練組として用い、イタリア人の試料を試験組として用いて得られ、本発明の原理に従って分類された患者群の生存率を示す試験データのカプラン・マイヤープロットであり；
【図１４】図１４は、試料の十分に盲検化されたセット(blinded set)について、分類アルゴリズムによって得られ、本発明の原理に従って分類された患者群の生存率を示す試験データのカプラン・マイヤープロットであり；並びに
【０１５０】
【図１５】図１５は、癌患者が本発明の原理に従って抗癌薬に応答するかどうかを決定するための工程の例のブロック図である。

【特許請求の範囲】
【請求項１】
患者が薬物または治療に応答するかどうかを決定する方法であって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得し；
該試験スペクトルを処理して、同一または類似の臨床段階の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定し；および
該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかを決定することを特徴とする方法。
【請求項２】
試験スペクトルの取得には、癌の疾患を有する患者から取得することが含まれ、該薬物が抗癌薬である、請求項１の方法。
【請求項３】
該試験スペクトルの取得が非小細胞肺癌を有する患者からのものである、請求項２の方法。
【請求項４】
それぞれの該患者についての癌の治療の間に該抗癌薬が有していた公知の臨床的有用性に基づいて、該試験スペクトルを処理する前に該クラス標識したスペクトルの群を標識することをさらに特徴とする、請求項２の方法。
【請求項５】
該試験スペクトルの処理が、該試験スペクトルの少なくとも８つのピークを選択して、該患者が該抗癌薬に応答するかどうかを決定することができるように、該試験スペクトルとクラス標識したスペクトルの群との関係を決定することを特徴とする、請求項２の方法。
【請求項６】
該試験スペクトルの取得がマトリックス支援レーザー脱離／イオン化（ＭＡＬＤＩ）質量分析計からのものである、請求項１の方法。
【請求項７】
決定が、該試験スペクトルにおいて分類アルゴリズムを実行して、該クラス標識したスペクトルの群に対する関係を決定することを特徴とする、請求項１の方法。
【請求項８】
該分類アルゴリズムの実行が、確率的ｋ最近傍計算を実行することを特徴とする、請求項７の方法。
【請求項９】
該患者が、
（ｉ）該薬物もしくは治療に応答するかどうか、
（ｉｉ）該薬物もしくは治療に応答しないかどうか、または
（ｉｉｉ）該薬物もしくは治療に応答する患者への応答性の決定がなされ得ないこと
を示すクラス標識を出力することをさらに特徴とする、請求項７の方法。
【請求項１０】
該クラス標識したスペクトルの群において実行された処理に従って、該試験スペクトルを調製する処理の前に該試験スペクトルを前処理することをさらに特徴とする、請求項１の方法。
【請求項１１】
前処理が、該試験スペクトルに含まれるバックグラウンドを低減させることを特徴とする、請求項１０の方法。
【請求項１２】
前処理が、該バックグラウンドを低減させた試験スペクトルを正規化することをさらに特徴とする、請求項１１の方法。
【請求項１３】
前処理が、該正規化され、バックグラウンドを低減させた試験スペクトルのピークを選択することをさらに特徴とする、請求項１２の方法。
【請求項１４】
前処理が、該正規化され、バックグラウンドを低減させた試験スペクトルの選択されたピークをスペクトル的に重ね合わせることをさらに特徴とする、請求項１３の方法。
【請求項１５】
該患者が該薬物または治療に応答するかどうかを決定するのに利用されるパラメータを設定して、該患者が該薬物または治療に応答すると決定される信頼度をパーセンテージの形で確立することをさらに特徴とする、請求項１の方法。
【請求項１６】
パラメータの設定に、ログランクｐ値の設定が含まれる、請求項１５の方法。
【請求項１７】
決定が、該患者が薬物ゲフィチニブに応答するかどうかを決定することを特徴とする、請求項１の方法。
【請求項１８】
該試験スペクトルの処理が、該クラス標識したスペクトルの群のピークとの関連で処理されるべき試験スペクトルの複数の識別ピークを選択することを特徴とする、請求項１の方法。
【請求項１９】
該クラス標識したスペクトルの群を処理して、いずれの臨床からのクラス標識したスペクトルの群を用いて実行される処理も可能となるように、実質的に臨床に依存せず、かつ実質的に質量分析計に依存しないスペクトル群を得ることをさらに特徴とする、請求項１の方法。
【請求項２０】
請求項１の血清試料を用いて該試験スペクトルを得、該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該決定がインターネットで遠隔的になされるビジネス方法。
【請求項２１】
患者が薬物または治療に応答するかどうかを決定するシステムであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトル、および同一もしくは類似の臨床段階の疾患を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群を保存するように形成された記憶装置；並びに
該記憶装置と通信するプロセッサであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得し；
該試験スペクトルを処理して、同一または類似の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定し；および
該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかを決定するためのソフトウェアを実行するプロセッサを含むシステム。
【請求項２２】
該患者が癌の疾患を有しており、該薬物が抗癌薬である、請求項２１のシステム。
【請求項２３】
該癌患者が非小細胞肺癌を有している、請求項２２のシステム。
【請求項２４】
それぞれの該癌患者についての癌の治療の間に該抗癌薬が有していた公知の臨床的有用性に基づいて、該試験スペクトルを処理する前に該クラス標識したスペクトルの群を標識することをさらに特徴とする、請求項２２のシステム。
【請求項２５】
該試験スペクトルの少なくとも８つのピークを選択して、該癌患者が該抗癌薬に応答するかどうかを決定することができるように、該試験スペクトルとクラス標識したスペクトルの群との関係を決定することによって、該プロセッサが該試験スペクトルを処理する、請求項２２のシステム。
【請求項２６】
該質量分析計がマトリックス支援レーザー脱離／イオン化（ＭＡＬＤＩ）質量分析計である、請求項２１のシステム。
【請求項２７】
該試験スペクトルにおいて分類アルゴリズムを実行して、該クラス標識したスペクトルの群に対する関係を決定することによって、該患者が該薬物に応答するかどうかを該プロセッサが決定する、請求項２１のシステム。
【請求項２８】
該分類アルゴリズムが確率的ｋ最近傍計算を含む、請求項２７のシステム。
【請求項２９】
該患者が、
（ｉ）該薬物もしくは治療に応答するかどうか、
（ｉｉ）該薬物もしくは治療に応答しないかどうか、または
（ｉｉｉ）該薬物もしくは治療に応答する患者への応答性の決定がなされ得ないこと
を示すクラス標識を該プロセッサがさらに出力する、請求項２７のシステム。
【請求項３０】
該プロセッサがさらに、該クラス標識したスペクトルの群において実行された処理に従って、該試験スペクトルを調製する処理の前に該試験スペクトルを前処理する、請求項２１のシステム。
【請求項３１】
該試験スペクトルに含まれるバックグラウンドを低減させることによって、該プロセッサが該試験スペクトルを前処理する、請求項３０のシステム。
【請求項３２】
該バックグラウンドを低減させた試験スペクトルをさらに正規化することによって、該プロセッサが該試験スペクトルを前処理する、請求項３１のシステム。
【請求項３３】
該正規化され、バックグラウンドを低減させた試験スペクトルのピークをさらに選択することによって、該プロセッサが前処理する、請求項３２のシステム。
【請求項３４】
該正規化され、バックグラウンドを低減させた試験スペクトルの選択されたピークをさらにスペクトル的に重ね合わせることによって、該プロセッサが前処理する、請求項３３のシステム。
【請求項３５】
該プロセッサがさらに、該患者が該薬物または治療に応答するかどうかを決定するのに利用されるパラメータを設定して、該患者が該薬物または治療に応答すると決定される信頼度をパーセンテージの形で確立する、請求項２１のシステム。
【請求項３６】
該プロセッサがログランクｐ値の設定によって該パラメータを設定する、請求項３５のシステム。
【請求項３７】
該癌患者が該薬物ゲフィチニブに応答するかどうかを該プロセッサが決定する、請求項２１のシステム。
【請求項３８】
該クラス標識したスペクトルの群のピークとの関連で処理されるべき該試験スペクトルの複数の識別ピークを選択することによって、該プロセッサが該試験スペクトルを処理する、請求項２１のシステム。
【請求項３９】
いずれの臨床からのクラス標識したスペクトルの群を用いて実行される前記処理も可能となるように、実質的に臨床に依存せず、かつ実質的に質量分析計に依存しない該クラス標識したスペクトルの群を得る生スペクトル群を該プロセッサがさらに処理する、請求項２１のシステム。
【請求項４０】
患者が薬物または治療に応答するかどうかを決定するシステムであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得する方法；
該試験スペクトルを処理して、同一もしくは類似の臨床段階の疾患を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定する方法；並びに
該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかを決定する方法
を含むことを特徴とするシステム。
【請求項４１】
該患者が癌疾患を有する、請求項４０のシステム。
【請求項４２】
該患者が非小細胞肺癌を有する、請求項４１のシステム。
【請求項４３】
該クラス標識したスペクトルの群において実行された前記処理方法に従って、該試験スペクトルを調製する処理の前に該試験スペクトルを前処理する方法をさらに含むことを特徴とする、請求項４０のシステム。
【請求項４４】
該患者が該薬物または治療に応答するかどうかを決定する前記方法によって利用されるパラメータを設定して、該患者が該薬物または治療に応答すると決定される信頼度をパーセンテージの形で確立する方法をさらに含むことを特徴とする、請求項４０のシステム。
【請求項４５】
該薬物がゲフィチニブである、請求項４０のシステム。
【請求項４６】
患者が薬物または治療に応答するかどうかを決定する方法であって、
疾患を有する患者から得た血清から質量分析計によって得られた複数の形状的特徴を有する試験スペクトルを取得し；
該試験スペクトルの形状的特徴を処理して、該患者として同一または類似の臨床段階の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得た識別ピークを有するクラス標識したスペクトルの群と、該試験スペクトルとの間に関係が存在しているかどうかを決定し；並びに
該試験スペクトルの処理されたピークに基づいて、該患者が該薬物または治療に応答するかどうかを決定することを特徴とする方法。
【請求項４７】
該クラス標識したスペクトルの群からの識別ピークを選択することをさらに特徴とする、請求項４６の方法。
【請求項４８】
識別ピークの選択が、下表：
【表１】

からなるリストからのおおよそのｍ／ｚ中心を有する少なくとも一つのピークを選択することを特徴とする、請求項４７の方法。
【請求項４９】
識別ピークの選択が、少なくとも８つのピークを選択することを特徴とする、請求項４８の方法。
【請求項５０】
識別ピークの選択が、１２個のピークを選択することを特徴とする、請求項４８の方法。
【請求項５１】
識別ピークの選択が、下表：
【表２】

からなるおおよそのピーク幅をそれぞれ有するピークから選択することを特徴とする、請求項４８の方法。
【請求項５２】
患者が薬物または治療に応答するかどうかを決定するシステムであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトル、および該患者として同一もしくは類似の臨床段階の疾患を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群を保存するように形成された記憶装置；並びに
該記憶装置と通信するプロセッサであって、
複数の形状的特徴を有する試験スペクトルを取得し；
該試験スペクトルの形状的特徴を処理して、同一または類似の臨床段階の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得た識別ピークを有するクラス標識したスペクトルの群と、該試験スペクトルとの間に関係が存在しているかどうかを決定し；並びに
該試験スペクトルの処理されたピークに基づいて、該患者が該薬物または治療に応答するかどうかを決定するためのソフトウェアを実行するプロセッサを含むことを特徴とするシステム。
【請求項５３】
該プロセッサが、該クラス標識したスペクトルの群からの識別ピークをさらに選択する、請求項５２のシステム。
【請求項５４】
下表：
【表３】

からなるリストからのおおよそのｍ／ｚ中心を有する少なくとも一つのピークを選択することによって、該プロセッサがさらに該識別ピークを選択する、請求項５３のシステム。
【請求項５５】
少なくとも８つのピークを選択することによって、該プロセッサが該識別ピークを選択する、請求項５３のシステム。
【請求項５６】
１２個のピークを選択することによって、該プロセッサが該識別ピークを選択する、請求項５３のシステム。
【請求項５７】
下表：
【表４】

からなるおおよそのピーク幅をそれぞれ有するピークから選択することによって、該プロセッサが該識別ピークを選択する、請求項４８のシステム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６Ａ】

【図６Ｂ】

【図７Ａ】

【図７Ｂ】

【図８Ａ】

【図８Ｂ】

【図９】

【図１０Ａ】

【図１０Ｂ】

【図１０Ｃ】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【公表番号】特表２００９−５３２６７３（Ｐ２００９−５３２６７３Ａ）
【公表日】平成２１年９月１０日（２００９．９．１０）
【国際特許分類】

【出願番号】特願２００９−５０２９２３（Ｐ２００９−５０２９２３）
【出願日】平成１９年３月２６日（２００７．３．２６）
【国際出願番号】ＰＣＴ／ＵＳ２００７／００７４６７
【国際公開番号】ＷＯ２００７／１２６７５８
【国際公開日】平成１９年１１月８日（２００７．１１．８）
【出願人】（５０８２９３９６６）バイオデシックス・インコーポレイテッド (3)
【氏名又は名称原語表記】ＢＩＯＤＥＳＩＸ　ＩＮＣ
【Ｆターム（参考）】

[ Back to top ]

疾患を有する患者に薬物が有効かどうかを決定するための方法およびシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

疾患を有する患者に薬物が有効かどうかを決定するための方法およびシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク