疾患を有する患者に薬物が有効かどうかを決定するための方法およびシステム
患者から得た血清から質量分析計によって得られた試験スペクトルを取得することを含み、疾患または障害を治療するのに用いられる、疾患または障害を有する患者が薬物に応答するかどうかを決定する工程。該試験スペクトルを処理して、同一または類似の臨床段階の疾患または障害を有しており、かつ薬物に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定しうる。該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物に応答するかどうかについて決定がなされうる。
【発明の詳細な説明】
【技術分野】
【0001】
背景技術
本発明の発明者は、質量分析で患者のバイオマーカーを試験することによって、患者が治療に応答するかどうかを決定する新規の方法を見出している。本発明の一つの態様の例として、本発明者は、これらの技術を癌、すなわち非小細胞肺癌(NSCLC)に適用している。
【0002】
非小細胞肺癌は、米国において男女共に癌の中で一番多い死亡原因である。少なくとも4つの異なった型のNSCLC、例えば腺癌、扁平細胞、大細胞癌、および気管支肺胞癌が存在する。肺の扁平上皮(類表皮)癌は、喫煙に最もよく関連している顕微鏡的癌(microscopic type of carcinoma)である。肺腺癌は、米国における全肺癌症例の50%以上を占める。この癌は女性に多く見られ、さらに非喫煙者に最も頻繁に見られる型である。大細胞癌、特に神経内分泌特性を有するものは、一般に、脳への腫瘍の広がりに関連している。NSCLCが血流に入った場合、それは遠隔部位、例えば肝臓、骨、脳、および肺における他の場所に広がりうる。
【0003】
NSCLCの治療は、長年にわたって比較的不十分なものであった。化学療法は、進行癌の治療の柱であるが、限局性癌を除いて効果はごくわずかである。手術は、NSCLCについて最も治癒的な治療法の選択肢である可能性があるが、癌の病期によっては必ずしも可能とは限らない。
【0004】
NSCLC患者を治療する抗癌薬を開発するための最近のアプローチは、癌細胞が増殖および分裂する能力を低減または除去することに集中している。これらの抗癌薬は、増殖するか死ぬかを細胞に命じる細胞へのシグナルを破壊するのに用いられる。通常は、細胞増殖は、細胞が受けるシグナルによってきちんと制御されている。しかしながら、癌においては、このシグナル伝達が異常になり、細胞は制御できない形で増殖および分裂し続け、それによって腫瘍を形成する。これらのシグナル伝達の一つは、体内の化学物質(上皮増殖因子と呼ばれる)が、体内の多くの細胞表面に見られる受容体に結合した場合に始まる。上皮増殖因子受容体(EGFR)として知られる受容体は、細胞内に見られるチロシンキナーゼ(TK)と呼ばれる酵素の活性化を通して、細胞にシグナルを送る。該シグナルは、細胞に増殖および分裂することを知らせるのに用いられる。
【0005】
開発され、NSCLC患者に処方される2つの抗癌薬は、ゲフィチニブ(商標名「イレッサ」)およびエルロチニブ(商標名「タルセバ」)と呼ばれる。これらの抗癌薬はEGFR経路を標的とし、NSCLC癌の治療に有効であることが期待されている。肺癌細胞、並びに正常組織における他の癌に存在し、癌細胞の増殖に重要であると思われる酵素チロシンキナーゼを、イレッサは阻害する。イレッサは、2つの他の型の化学療法薬の後、またはそれらに応答せずに進行しているNSCLCの治療の単剤として用いられている。
【0006】
しかしながら、応答率(response rate)は白人人口のわずか10%から20%の間であり、連邦薬物管理機構(Federal Drug Administration)(FDA)は1995年に第二選択治療(second-line treatment)としてのイレッサの適用の支援を中止するに至った。驚くべきことに、アジアでの応答率はかなり高く、イレッサはまだ使われている。タルセバは今までどおり認可され、日常的に患者に与えられるが、応答率でまだ不安が残る。イレッサおよびタルセバが一部の患者には有効である能力を有するように見えるが、これらはすべての患者を治療するのに有効な後発医薬品とはなり得ない。これらの薬物に応答する患者の能力に関与している、現在未知の多くの因子が存在しうる。しかしながら、NSCLC患者がこれらの抗癌薬に応答する効力を予測するのに用いられうる因子が決定されれば、FDAは、これらの薬物に応答することを示す条件を有する患者に、これらの抗癌薬が処方されることを認めうる。次いで医師は、その患者が該治療に応答するという情報を用いて、抗癌薬に応答すると予測された患者に、これらの薬物を処方しうる。
【0007】
概要
薬物を用いた治療の成功の割合が低いという問題を克服するために、本発明の原理によって、患者がこれらの薬物療法に応答するかどうかを決定するための診断検査が提供される。患者の血液から抽出した血清から、質量分析計によって得られたスペクトルの識別ピークを検出することによって、該決定がなされる。バイオマーカーは、正常または異常な生物学的過程または発病過程の指標として評価されうる、測定可能および定量化可能な生物学的パラメータである。質量分析計は、薬物治療に応答しおよび応答しなかった患者の血清から得られたスペクトルと比較するのに利用されうる特定のピークを有するスペクトルを得る。多くの場合、何の化合物がピークに位置しているかを実際に決定する必要はない。スペクトル自身は、特定の患者における該薬物についての治療可能性を評価しうる重要な指紋である。本発明のいくつかの態様には、ピークの中にある物質を単離すること、および試料中で何の物質が増加または減少しているかを決定することが含まれる。
【0008】
より具体的には、本発明の原理は、疾患または障害を有する患者が、疾患または障害を治療するのに用いられる薬物または治療に応答するかどうかを決定する工程に関する。該工程には、患者の血清から質量分析計によって得られた試験スペクトルを得ることが含まれる。該試験スペクトルは、同一または類似の臨床段階の疾患または障害を有しており、かつ薬物に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定するために処理されうる。該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかについて決定がなされうる。試験スペクトルの処理において、試験スペクトルのバックグラウンド低減、正規化(normalization)および重ね合わせを行って、該試験スペクトルを、同一または類似の方法で処理しているクラス標識したスペクトルの群とさらにマッチさせてもよい。生スペクトルを処理してクラス標識スペクトルを生成させることによって、特定の臨床に依存せず、患者の血清を処理するのに用いられる質量分析計に依存せずに、該薬物が有効かどうかの決定がなされうる。
【0009】
本発明の原理に従った他の態様には、患者が薬物または治療に応答するかどうかを決定するシステムが含まれる。疾患もしくは障害を有する患者から得た血清から質量分析計によって得られた試験スペクトル、および同一もしくは類似の臨床段階の疾患もしくは障害を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群を保存するように形成された記憶装置が、該システムに含まれうる。このようなシステムには、記憶装置と通信するプロセッサであって、
(i)疾患もしくは障害を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得し;
(ii)該試験スペクトルを処理して、同一または類似の臨床段階の疾患もしくは障害を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定し;
(iii)該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物に応答するかどうかを決定するためのソフトウェアを実行するプロセッサがさらに含まれうる。一つの態様において、該システムは、試験スペクトルを試験用に伝達する実験室および診療所と連絡を取るために、ネットワーク、例えばインターネットと通信している。該クラス標識したスペクトルの群に対する該試験スペクトルの関係の決定には、該患者が該薬物または治療に応答する可能性の指標またはクラス標識した代表(class label representative)を出力することが含まれうる。医療専門家が薬物または治療を処方するかどうかを決定しうるように、該指標は、正、負、または不確定でありうる。いくつかの態様において、該疾患または障害は癌である。他の態様において、癌の型は非小細胞肺癌である。さらに別の態様において、該システムは、薬物ゲフィチニブおよび/またはエルロチニブが非小細胞肺癌の患者の治療に有効かどうかを決定するのに利用されうる。
【0010】
図面の詳細な説明
図1は、研究室試験処理センター102、癌研究診療所104a〜104n(104と総称)、および癌患者診療所106a〜106m(106と総称)の例示的な関係性を示すブロック図である。研究室試験処理センター102は、癌研究診療所104および癌患者診療所106からの試験を処理するために稼動する。一実施形態では、癌研究診療所104および癌患者診療所106は、病院などの同じ組織の一部である。癌研究診療所104では、患者を治療するための特定の薬物の有効性を決定するために、薬物の治験および試験を行う。たとえば、癌細胞の成長および拡散を制御するために様々な抗癌薬の臨床研究および試験を受けた、非小細胞肺癌に罹患している患者は、抗癌薬に対して様々な応答を有する。これらの抗癌薬には、表皮増殖因子受容体経路を標的とするゲフィチニブおよびエルロチニブが含まれ得る。臨床研究および非臨床研究中、癌研究診療所104では、抗癌薬の有効性を決定するために、癌の段階、血液成分、癌の進行、患者の全体的な健康、および患者の指標となる他の要因を含めた治療の様々な側面を注意深く監視する。
【0011】
癌研究診療所106は、臨床研究を行う、または他の様式で癌の医薬品を癌患者に投与して医薬品の有効性を監視する、任意の施設であり得る。癌研究診療所104では、血液試料を採取し、それを処理して、フィブリンなどの凝固因子を除去した血漿(血液細胞が懸濁した血液の液体成分)である血清を生成し得る。血清中のバイオマーカーを検出できるように、血清を処理して、質量分析装置によってスペクトルを生成するためにそれを用い得る。一実施形態では、質量分析装置は、マトリックス支援レーザー脱離/イオン化(MALDI)を用いる飛行時間(TOF)質量分析装置である。スペクトルには、血清中の特定の化学薬品または物質の指標となる、スペクトル内の代用マーカーまたはピークが含まれ得る(図11参照)。
【0012】
質量分析装置で患者のスペクトルを生成した結果、臨床結果をもたらすために癌患者に投与する抗癌薬の有効性を記録および観察し得る。研究室試験処理センター102では、患者の記録した結果(定量的)および観察した結果(全体的な健康)を使用して、それぞれの癌患者が抗癌薬(または複数の抗癌薬)に対して応答性であるかどうかに関して、それぞれの癌患者の分類を決定し得る。
【0013】
引き続き図1で、質量分析装置で患者のスペクトルを生成した結果、臨床結果をもたらすために癌患者に投与する抗癌薬の有効性を記録および観察し得る。研究室試験処理センター102は、生スペクトルを関連する既知の臨床結果108と共に癌研究診療所から受け取り、それぞれのスペクトルの分類を行う。本明細書中以下に詳述するそれぞれのスペクトルの分類では、抗癌薬を受けている癌患者に関連するそれぞれのスペクトルを、応答性、非応答性、または部分的に応答性として分類する。スペクトルの分類により、研究室試験処理センター102が、癌患者診療所106から試験スペクトル110a〜110m(110と総称)を受け取り、これらの試験スペクトル110の解析を行って、それぞれの試験スペクトル(すなわちそれぞれの患者)が類似している可能性の高い分類がどれであるかを決定することが、可能となる。あるいは、生スペクトルを受け取る代わりに、研究室試験処理センター102は、血液試料または血清試料を受け取り、それを処理して、処理および分類のための生スペクトルを生成し得る。
【0014】
生スペクトルの分類にあたって、癌患者が抗癌薬に対して肯定応答、応答なし、または限定された応答を有していたかに基づいて、それぞれのスペクトルが「良好」または「不良」であるかの決定を下す。癌患者の試験スペクトルをクラス標識したスペクトルと比較することによって、試験スペクトルを作成した癌患者が抗癌薬に対して肯定応答を有する可能性に関して決定を下すことができる。比較プロセスのより詳細な説明を本明細書中以下に提供する。研究室試験処理センター102が試験スペクトル110を分類した後、かつ所望により癌患者が抗癌薬に対して肯定応答を有するかどうかの決定を行った後、たとえば分類結果112a〜112m(112と総称)を対応する癌患者診療所108aに送り得る。一実施形態では、分類結果は、本明細書中以下にさらに記載する、分類関数によって生成されたクラス標識である。
【0015】
別々に示しているが、研究室試験処理センター102は癌研究診療所104または癌患者診療所106の一部であり得る。一実施形態では、研究室試験処理センター102は、試験装置と連動して稼動する質量分析装置または処理システムなど、試験装置に機能的に組み込まれている。あるいは、機能性は、スペクトルの処理および分類に利用される様々な処理を行うように構成されているコンピュータシステムまたは他の処理システムに組み込まれおり、試験装置の一部またはそれに関連していなくてもよい。たとえば、コンピュータシステムは、研究室試験処理センター102、診療所研究診療所(clinic research clinic)104、および/または癌患者診療所106によって稼動されるサーバであり得る。
【0016】
図1は癌の診療所を記載しているが、これらの診療所は一般的な診療所または特定の疾患または疾病に特異的な診療所であり得ることを理解されたい。したがって、研究室試験処理センター102は、本発明の原理に従って、送られる特定の疾患または疾病を受け取って試験するように構成されている。
【0017】
図2は、図1の研究室試験処理センター102、癌研究診療所104、および癌患者診療所106間で情報を通信および処理するための例示的なシステム200を示すブロック図である。研究室試験処理センターのコンピュータシステム202は、研究室試験処理センター104によって稼動され得る。癌研究診療所のサーバ204a〜204n(204と総称)は癌研究診療所104によって稼動されてもよく、癌患者診療所のサーバ206a〜206m(206と総称)は癌患者診療所106によって稼動されてもよい。コンピュータシステム202ならびにサーバ204および206のそれぞれは、デジタルデータパケット209a〜209bまたは当分野で理解されている他の通信技術によって、ネットワーク208で通信し得る。ネットワーク208は、インターネットまたは他の公開もしくは非公開の通信ネットワークであり得る。
【0018】
研究室試験処理センターのコンピュータシステム202には、本明細書中以下にさらに記載するように、本発明の原理に従って生スペクトルおよび試験スペクトルを処理して、その全体または一部分の分類を決定するためのソフトウェア212を実行するプロセッサ210が含まれ得る。コンピュータシステム202にはさらに、メモリ214(ソフトウェア212は実行される際にそこに存在し得る)、入出力(I/O)装置216(ネットワーク208で通信を行い得る)、および記憶装置218(それにプロセッサ210が通信する)が含まれ得る。記憶装置218には、1つまたは複数のデータベース220a〜220n(220と総称)が含まれていてもよく、研究室試験処理センター102が、癌患者が抗癌薬に対して応答性となるかどうかを決定することを可能にするために、ここに生スペクトル、試験スペクトル、および他の関連するデータが格納される。記憶装置218には、1つまたは複数の記憶装置が含まれていてもよく、また、コンピュータシステム202の内部または外部に位置していてもよいことを理解されたい。さらに、プロセッサ210には1つまたは複数のプロセッサが含まれ得ることを理解されたい。さらに、コンピュータシステム202は、ネットワーク208と直接または間接的に通信していてよいことを理解されたい。
【0019】
図1に従って、癌研究診療所のサーバ204は、生スペクトルを、抗癌薬の臨床治験に基づいた関連する既知の臨床結果と共に、研究室試験処理センターのコンピュータシステム202に通信し得る。プロセッサ210は、自動的または半自動的に、科学者の支援の下または他の様式で、それぞれの生スペクトルを分類するための分類処理を行って、生スペクトルを分類して分類されたスペクトルの群を形成し得る。同様に、癌患者診療所のサーバ206は、試験スペクトル110を癌患者診療所108用にプロセッサ210に自動的または半自動的に分類させるために、試験スペクトル110を研究室に通信し得る。研究室試験処理センターのコンピュータシステム202は、試験スペクトル110を処理し、分類結果112(図1)を癌患者診療所のサーバ206に通信して戻し得る。生スペクトルおよび試験スペクトル112を分類した結果、コンピュータシステム202は、分類結果を格納し、結果を利用して抗癌薬の成功率または失敗率などの様々な他の目的に使用し得る統計的情報を生成し得る。
【0020】
データ解析は、異なる臨床成績を有する患者からのスペクトルを識別するピークの検出の発見、および免疫組織化学的アッセイの発見の手掛かりとしてのその使用、または質量分析に基づいた診断でのその直接使用において、中心的な役割を果たす。本発明の原理に従った試験および解析手順の開発にあたって、質量スペクトルの比較解析のために設計されたアルゴリズムを含む統合解析システムが開発された。統合解析システムには、質量スペクトルからスペクトル中の識別ピーク(differentiating peak)を検出することを容易にするいくつかのツールが含まれ、同時に、その結果の有意性および妥当性確認を評価するための厳密なツールを提供する。
【0021】
図3は、本発明の原理に従って、癌患者が抗癌薬に対して応答性となるかどうかを決定するための試験を開発かつ行うための例示的なワークフロープロセス300を示す流れ図である。このプロセスは、試料を癌患者から採取する工程302で開始する。癌または他の疾患の種類に応じて、スポットした組織(spotted tissue)、細胞溶解液、または切断した細胞(cut cell)を、質量分析装置304によってスペクトルを生成するための試料として利用し得る。質量分析装置は、ABI Voyager、ABI4700、Bruker AutoflexまたはBruker Ultraflex質量分析装置であり得る。他の質量分析装置も同様に利用し得る。非小細胞肺癌の場合、スペクトルを生成するために血清を用い得る。血清を用いることによって、患者の組織試料を採取することが困難または不可能である肺癌の進行期にある肺癌患者を、侵襲性手順なしに診断し得る。さらに、特定の抗癌薬が非小細胞肺癌に罹患している癌患者の治療に有効となるかどうかを決定するために、尿などの体液を、質量スペクトルでピークを検出するための試料として利用し得る。血清または他の液体を採取するために非侵襲性手順を利用することによって、診断のコストは、肺からの組織試料が必要な場合よりも顕著に低くなる。
【0022】
試験研究に用いる血清の作製および処理には、個々の病院からの粗血清試料を使用することが含まれ得る。一実施形態では、粗血清試料を氷上で解凍し、1500rpmで5分間、4℃で遠心分離し得る。さらに、血清試料を、MilliQ水で、コロラド大学厚生科学センター(University of Colorado Health Sciences Center、UCHSC)で行うように1:10に、またはバンダービルト大学医療センター(Vanderbilt University medical Center、VUMC)で行うように1:5に希釈し得る。希釈した試料を3つ組でMALDIプレート上のランダムに配置した位置にスポットし得る(すなわち、3つの異なるMALDI標的上)。0.75μlの希釈した血清をMALDIプレート上にスポットした後、0.75μlの35mg/mlのシナピン酸(505アセトニトリルおよび0.1%のTFA中)を加え、ピペットで5回吸ったり吐いたりすることによって混合し得る。プレートを室温で乾燥させ得る。本発明の原理に従って血清を調製および処理するために他の技術および手順を利用し得ることを理解されたい。
【0023】
陽イオンの質量スペクトルは、直線モードで、Voyager DE−PRO(UCHSC)またはDE−STR(VUMC)を用いて、スペクトルの自動または手動収集で取得し得る。1つの研究では、それぞれのMALDIスポット内の7箇所(UCHSC)または5箇所(VUMC)の位置から75個(UCHSC)または100個(VUMC)のスペクトルが収集されて、平均525個(UCHSC)または500個(VUMC)のスペクトルがそれぞれの血清検体について作成された。スペクトルは、タンパク質標準の混合物(インスリン(ウシ)、チオレドキシン(イー・コリ)、およびアポミオグロビン(ウマ))を用いて外部較正した。妥当性確認の目的のためにすべての検体について同じ試料で3回の反復を行った結果、本研究において合計717個のスペクトル(239個の検体×3)が解析に提出された。
【0024】
データ解析を行うにあたって、癌細胞は、正常細胞とは異なる特異的タンパク質の異なる発現レベルを有することが一般に受け入れられている。疾患の異なる段階は、特異的タンパク質の変化、たとえば、転移癌の場合は細胞結合タンパク質の発現レベルの変化を伴う。血清試料の場合、また血清試験を組織試料試験から線引きするために、直接腫瘍排泄物を測定することは、これらの排泄物が血液中で希釈されるので、可能性が低い。血清(または他の体液)試料中の識別ピークは、自己免疫反応などの病状に依存する宿主応答反応によりすべての尤度で生じる。したがって、組織試料に基づいた試験は特異度が高いが、必ずしも非常に有意でなく、血清に基づいた質量分析装置の試験は非常に有意であるはずであるが、それほど特異的でないことが予測される。このことは、本明細書中以下に提供する結果によって生まれた。スペクトル中の識別ピークを検出することによって、変化と臨床的に意味のある質問との対比を行い得る。診断的ツールとして直接、または免疫組織化学に基づいた試験の手掛かりとしての、そのさらなる使用とは独立して、値のスペクトル内で識別ピークを生成するためには、データ解析段階を含めた識別ピークの発見プロセス中に以下の問題に取り組み得る。
【0025】
再現性:解析の結果は再現性があるべきである。バイオマーカーは、様々な患部および対照群中で繰り返して発見することができる識別ピークによって同定してよく、これらの識別ピークに割り当てた値は1つの群内で変動しすぎてはならない。再現性の簡単な基準として、診断的試験を評価するための標準となっている変動係数(CV)を、プロセッサ上で実行するソフトウェアによって提供し得る。1つの群内、さらには同じ試料内でのマーカーの変動を測定し、特徴づけ、下流の解析および分類に用い得る。
【0026】
頑健性(robustness):識別ピークは、試料の調製および取扱いにおける回避不可能な変動に対して、ならびに質量分析装置の特徴の傾向から生じる変動に対して頑健であるべきである。患者間変動の別の理由は、患者の生物学的状態の無関連の差異、たとえば、試料収集時の消化状態から生じる。関連性のない変化を生物学的有意な変化から識別するための基準を開発し得る。多次元の特徴空間(たとえば12個の識別ピーク)からクラス標識空間(たとえば、「良好」、「不良」、または「未定義」)をマッピングする関数である分類子(すなわち分類関数またはアルゴリズム)の設計において、および特徴抽出中において、データ解析パラメータに小さな変化を行う間に、実際の識別ピークはそれほど変化しないはずである。同じように配置された識別ピークが異なるデータ組(データセット)中で見つかるはずである。
【0027】
解釈性:生じる識別ピークを生物学的解釈性のコンテキストに置き得る。最初に、同定した識別ピークは、一般に質量スペクトル中で視覚的に目立つ。識別ピークのm/z位置は、これらの識別ピークを生じる根底にあるバイオマーカーの生物学的関連性に関する貴重な情報を与える。これにより、生物学的に関連性のない手順から生じる識別ピークの解釈およびフィルタリングが可能となる。たとえば、純粋に試料調製の人為的結果である癌試料対正常試料の異なるヘモグロビン含有量の測定。一部の場合では、スペクトルの臨床的に意味のある識別ピークがスペクトル中の複数の特徴の非直線的な組合せのものであり、単純な上方/下方調節ではないという結果になり得る。この場合でも、スペクトル中の特徴を構成する識別ピークは目に見えるはずであり(図4)、マーカーを評価するために用いる関数は明確であるべきである。
【0028】
感度:試料を収集して質量スペクトルを生成するためには、通常、大変な努力が尽くされる。また、スペクトル中でこれらの識別ピークを実際に見つけるために十分に選択的または高感度でないデータ解析アルゴリズムを用いることによって質量分析装置のスペクトル中の関連する識別ピークが失われることを回避するために、高度の注意も払う。たとえば、あるm/z範囲が特徴に関連すると定義された場合は、この範囲は、特徴を含むように十分大きく、スペクトル中に存在する他の特徴と一緒に塊となっていないべきである。範囲を選択するアルゴリズムのパラメータは、データ自体に、所望により局所的な様式で由来し、外部の平滑化およびピニング(pinning)パラメータに依存しない場合がある。
【0029】
識別ピークを抽出するために質量スペクトルを比較する作業は、内因性の強度変動によるこれらのスペクトル特異的な性質によって困難になる。個々のイオンのイオン化の確率は局所的な試料の化学(たとえばイオン抑制効果)に依存し、近年の質量分析装置の質量分解能は大抵の場合十分であるが、絶対質量スケール(mass scale)はスペクトル毎に変動する場合がある。
【0030】
本発明の原理に従って、これらの変動(バックグラウンドの変動の場合)を低減もしくは排除するために、または局所的なノイズレベルを推定することによってシグナルの関連する有意性を評価する手段を提供するために、質量分析装置に特異的な変動を測定し得る。データの前処理および解析から生じるさらなる変動の導入を回避することを達成し得る。たとえば、多くの質量分析装置としばしばバンドルされているピークを選択するソフトウェアは、これらのピークを比較スペクトル解析で直接使用するには信頼性がないことが見い出された。代わりに、スペクトルの比較に対する初期の試みでは、その比較および分類アルゴリズムに全質量スペクトル自体を使用することとなった。しかし、全スペクトルには何千個もの個々のデータ点が含まれ、そのほとんどは、関連する情報のみが質量スペクトル中のピークに限られている機器ノイズの測定値である。さらに、スペクトル中の特徴の解釈は複雑であり、神経回路網に基づいた分類アルゴリズムの場合では非直線的の場合もあり、非常に厄介となる。その結果、血清試料を分類するこれらの試みの適用は、他の研究室では再現できない誇張された主張をもたらしている。
【0031】
図4は、分光計によるマーカー出力の例示的なゲルプロット404を示す図である。安定疾患(SD)、進行性疾患(PD)、および部分応答者(PR)を含めた世界保健機構(WHO)の標準の進行標識を用いてスペクトルを臨床的に標識する。しかし、SD−短、SD−長、およびPD−初期の3つの追加の標識を含めた、主な臨床標識を極端な臨床標識へと分離する細かい臨床標識を作成する。ゲルプロットとは、それぞれの線が臨床試料の1つの質量スペクトルに対応し、水平軸が質量/電荷軸であり、グレースケールが強度を示すプロットである。臨床標識402をゲルプロット404上に提供し、水平線404が異なる臨床標識を線引きする。ゲルプロット404は、分類子アルゴリズムを訓練するために用いたすべてのスペクトルのものである(すなわち、癌研究診療所から受け取った、癌治療としてイレッサを受けたイタリアおよび日本の非小細胞肺癌患者の対照群のスペクトル)。識別ピークは、406および408でスペクトルのそれぞれ上に視覚的に見ることができるが、精度および他の定量的な目的のために定量測定する。
【0032】
これらの測定の問題の一部を回避するにあたって、生質量スペクトルの前処理を行って、質量分析プロセスの関連性のない人為的結果を除去および測定し、それらを類似のm/zおよび振幅スケールに登録し得る。
【0033】
引き続き図3で、工程306のプロセスでデータの前処理を行う。前処理には、バックグラウンドの除去、ノイズの推定、正規化、ピークの選択、およびスペクトルの重ね合わせ(アラインメント)(alignment)のうちの任意のものまたはすべてが含まれ得る。これらのプロセスを図5〜10に例示し、本明細書中以下に記載する。
【0034】
図5は、ノイズおよびシグナルの構成要素を有する分光計からのデータ点の出力の例示的な組を示すヒストグラム500である。バックグラウンドまたはベースラインとは、質量スペクトルのゆっくりと変動する構成要素、すなわち、m/zの範囲にわたるデータの徐々の全体的なシフトである。機能定義としては、バックグラウンドは、電子、ランダムイオンから生じるノイズとは対照的に、電荷の蓄積効果または非直線的な検出器の特徴または部分的なイオン崩壊などから生じることができるシグナル強度の滑らかな変動であり、迅速に周期的変動する(m/zで)。
【0035】
バックグラウンドをモデリングし、したがって除去することができる。ノイズは統計的な周期的変動であり、その強度のみを測定することができる。さらに、バックグラウンドは、分解されない「ごみ」イオンによって引き起こされる場合があり、ピーク検出などのさらなるデータ処理工程を意味があるように行うことができる前に、推定および除去し得る。バックグラウンドは、頑健な局所的な統計的推定法則を用いて推定し得る。データ中のノイズの強度の信頼性のある推定値を得ることは、続くシグナル対ノイズ(S/N)比の基準に基づいたピーク検出に利用する。そのような推定法則は、任意のスペクトル比較作業でも誤差の尺度を提供するために用いる。バックグラウンドの推定と同様、非対称の頑健な推定法則(asymmetric robust estimators)を利用してこの作業を行い得る。
【0036】
バックグラウンドは、データ点のほとんどの数が含まれるように示し、シグナルにはより少ないデータ点が含まれる。バックグラウンドは、相関解析および最適な分離を用いた反復によって決定し得る。バックグラウンドは生物学的に関連性のある情報を含まず、スペクトル間で変動するので、振幅情報は、バックグラウンドの値をそれぞれのスペクトルから除去することによってより比較可能にし得る。このプロセスは、その全体が本明細書中に組み込まれている、2004年7月7日出願の同時係属特許出願第10/887,138号に記載されている。
【0037】
図6Aおよび6Bは、それぞれ、バックグラウンド602ありのスペクトルおよびバックグラウンドをスペクトル604から除去した後の、バックグラウンドなしのスペクトルを示すグラフ600aおよび600bである。血清では一般的なように、血清プロテオームの存在量の自然な周期的変動が原因で可変性が高いピークが存在する。さらに、イオン化された試料の量は、レーザー出力の変化、イオン化可能な試料の量の変動、およびMALDIプレート上でのレーザーの配置の変動が原因で、スペクトル間で周期的変動する場合がある。この周期的変動は、これらのピーク中の周期的変動が目的のピークに伝わるにつれて有用性が低くなる、全イオン電流の正規化などの標準の正規化ルーチン(すなわち、スペクトル全体にわたる正規化)を与える。部分的正規化(すなわち、これらの可変性ピークおよび領域を同定し、それを排除するスペクトルにわたる正規化)を利用して、周期的変動する結果を排除し、それにより再現性のある結果を提供し得る。
【0038】
より詳細には、部分イオン電流(partial ion current)の正規化を以下のように誘導し得る。質量スペクトルには、m/zの上行方向に並べたデータ点、対(m/z、振幅)が含まれる。スペクトルが飛行時間の機器で得られる際に、m/z軸は値域(bin)へと分けられると見なされる。それぞれのデータ点は対応する値域を表し、その振幅は値域中のイオンの計数(すなわち、値域中のイオン電流)を表す(それに比例する)。
【0039】
したがって、スペクトル中の全振幅の合計は、「全イオン電流」(TIC)である。これは、質量分析装置の検出器に到着するイオンの合計数に対応する。全イオン電流に対する正規化とは、それぞれのスペクトルについて、対応する正規化したスペクトル(m/z=最初のm/z、振幅=(正規化因子)*(最初の振幅))が同じ(規定の)全イオン電流、たとえば100を有するように正規化因子を選択することを意味する。
【0040】
一般に、全イオン電流の正規化はバックグラウンドの除去を行った後にのみ意味を成す。そうでなければ、全イオン電流は、ピークなどの意味のあるシグナル中のイオン電流によってではなく、統合されたバックグラウンドによって支配される。言い換えれば、全イオン電流はすべての利用可能なイオンを統合し、大きなピークによって支配される。ピークの可変性が高い場合は、全イオン電流も可変性が高く、したがって正規化の変動が引き起こされ、これは識別特徴の偽陽性検出をもたらす可能性がある。
【0041】
本発明の原理に従って、「特徴(形状的特徴)」(ピークなどの何らかのシグナルを含むことにより「空でない」、すなわち「純粋なバックグラウンド」ではないように見えるm/z軸の間隔)を検出する。特徴とは、患者の対照群のユーザが定義したスペクトルの数よりも可視化されているピークである。一組の特徴(重なり合わないm/z間隔の集まり)を有することにより、より柔軟な正規化方法、「部分イオン電流(PIC)に対する正規化」の定義がもたらされる。部分イオン電流とは、指定した特徴の組(典型的には特徴の完全組の部分組)に属するすべてのデータ点のスペクトル中の振幅の合計である。部分イオン電流に対する正規化とは、それぞれのスペクトルについて、対応する正規化したスペクトル(m/z=最初のm/z、振幅=(正規化因子)*(最初の振幅))が同じ(規定の)部分イオン電流を有するように正規化因子を選択し得ることを意味する。一般に、可変性の高いピークは計算に含まれないので、部分イオン電流には、正規化に安定なピークを用いる。安定なピークを用いる結果、正規化プロセスに安定性がもたらされる。
【0042】
患者の対照群内のスペクトルからのピークをリストに含め、当分野で理解されている分割的クラスタリングアルゴリズムを用いてピークのクラスターを見つけ得る。
【0043】
【表1】
表I. PICの正規化からの特徴
表Iには、PICの正規化で保持されたすべての特徴の80%(PIC=0.8)のリスト(残った特徴組)を示す。m/z値はダルトンで示し、不確実度は1000ppmである(重ね合わせの後)。
【0044】
部分イオン電流の正規化の1つの極端な例は、特徴の完全組を用いて部分イオン電流を計算する場合である。この例は全イオン電流の正規化に類似しており、その違いは、スペクトルの「空」領域は全イオン電流に寄与するが、部分イオン電流には寄与しないことである。したがって、「空」領域中のノイズの寄与は部分イオン電流に含まれない。別の極端な例は、1つの特徴のみを用いて部分イオン電流を計算する場合である。これが最高のピークを含む特徴である場合、基底ピークの正規化が決定される。
【0045】
スペクトルの比較では、部分イオン電流の正規化の使用の裏にある理論は以下のとおりである。疾患および対照などの2つのスペクトル群を考える。スペクトルは100の位のシグナル(ピーク)を含み、シグナルのほとんどは群間で変化しないことが予測され、一方で一部のシグナルは上方または下方調節されていることができる。質量スペクトルでは、正規化していない強度はスペクトル間で直接比較可能でない。全イオン電流の正規化を用いる場合、上方または下方調節されたシグナルは僅かでありかつ弱いという仮定がなされ、したがって、これらは群間で変化していないシグナルを支配していることが仮定される全イオン電流を有意にゆがめない。しかし、実際には、必ずしもそうとは限らない。たとえば、上方調節されたシグナルが全イオン電流に有意に寄与するほど十分に強い場合、正規化したデータ中の他のシグナルは、実際には変化していなかった場合でも下方調節されたように見える。同様に、スペクトルが強いかつ強く変動するシグナルを含む場合は、正規化したスペクトル中の他のシグナルは、本質的に安定している場合でも増加した変動係数を示す。上方調節、下方調節または可変性の高い特徴を削除する一方で、全イオン電流の代わりに部分イオン電流の正規化を用い、最も安定した特徴を含む特徴の部分組を用いることで、増加した変動係数の問題を改善することができる。主要な問題は、この部分組をどのように選択するかである。
【0046】
部分イオン電流の部分組を選択するために、以下の手順を用い得る。いくつかのスペクトル群が得られた場合、この手順の目的のために、スペクトル群を1つの合わせた組へと合わせ得る。
最初に、特徴の部分組は特徴の完全リストに等しい。次に、以下の手順を数回反復して、最初の部分組よりも含む特徴が1つ少ない「最小可変性」の特徴の新しい部分組を生成し得る。
【0047】
このプロセスを以下のように継続し得る。
・最初の特徴の部分組を用いて、すべての特徴値(完全組)を部分イオン電流に対して正規化する。
・それぞれの特徴について、変動係数=(標準偏差)/(平均値)を計算する
・CVの絶対値に従って特徴を区分する
・この区分したリストから新しい特徴の部分組(最小の絶対値(CV)を有するもの)を選択する。最初の部分組よりも含まれる特徴が1つ少ない
・最初の部分組を新しい部分組で置き換える
終了基準は以下のとおりである。ユーザが2つの値を指定する。
・イオン電流の許容最低割合
・特徴の数の許容最低割合
【0048】
プロセスは、基準のいずれかが破られた際に終了する。したがって、ユーザが両値(すなわち、イオン電流および特徴の数の許容最低割合)を0.8として指定した場合、生じる特徴の部分組は、イオン電流の少なくとも80%(特徴の完全組から計算)、および特徴の少なくとも80%を含むことが保証される。値の任意のものについて1.0を指定した場合は、使用する特徴組の全体がもたらされる結果となる。典型的には、0.8が最適な結果のために使用するために大体正しい値である。しかし、用途に応じて、より高いまたは低い値を用い得る。その後、部分イオン電流に対して正規化した特徴値を分類および他の目的のために使用することができる。
【0049】
要約すると、部分イオン電流は以下のように決定し得る。
・CVを計算する
・最も大きなCVを有するピークを削除する
・最大CVが指定したレベルよりも小さくなった際に停止する
【0050】
部分イオン電流の実施は2つの演算を用いて計算し得る。第1の演算は、PIC共通因子で使用するための特徴のリストを計算する。この演算マーカーは、最初に2つの選択した特徴値の群を1つの二次元アレイへと併合し、行がスペクトル(すなわち試料)であり、列がCenterMZによって区分した特徴リストに順番に対応する特徴値である。この演算は、併合した特徴値に加えて2つのパラメータを取得する。これら2つのパラメータは、MinAllowedFracOfICおよびMinAllowedFracOfFeaturesである。MinAllowedFracOfICは、保持された特徴の部分組中のイオン電流の許容最低割合である。これらの特徴を保つことは、値1に対応する。MinAllowedFracOfFeaturesは、保持された特徴の部分組中の特徴の許容最低割合である。これらの特徴を保つことは、値1に対応する。この演算は、整数のArrayListを出力し、これは、共通因子で使用する特徴の指数を表す。
【0051】
PICの正規化を用いて特徴のリストに到達するために使用するアルゴリズムの一実施形態を以下の擬似コードに要約する。
【0052】
このアルゴリズムの数々の追加の軽微および主要な変形が当業者に明らかであり、特許請求した発明の一部として企図される。
この計算が完了した後、部分イオン電流の共通因子で使用する特徴のリストが決定される。
【0053】
第2の演算は、部分イオン電流の共通因子を用いて指定した群のすべての特徴値の再正規化を行うことである。最初に、前の演算からの指数の出力のリストによって指定した特徴値を用いて、それぞれのスペクトル/試料について正規化の値に到達する。その後、これらの正規化の値を用いて、特徴値の二次元アレイ内で指定した特徴値のリストを改変する。
【0054】
この関数は、以下の擬似コードによって表されるアルゴリズムを実行することによって達成する。
【0055】
このアルゴリズムの数々の追加の軽微および主要な変形が当業者に明らかであり、特許請求した発明の一部として企図される。
これらの2つの工程が完了した後、部分イオン電流の正規化が完了する。部分イオン電流の正規化は、個々のピークのCVの比較的劇的な低下をもたらす場合がある。分画(塩を除去するための樹脂)による試料の前処理の変動を測定する尿の再現性データでは、CVの低下は約2倍である。
【0056】
図7Aは、図7Bに示すスペクトルの比較を単純にするために正規化する複数のスペクトル702および704を示すグラフ700aである。示すように、2つのスペクトル702および704の特徴(たとえばピーク)は比較的整列しているが、異なる振幅を有する。この振幅の差異は、異なるスペクトル702および704の異なる強度をもたらす結果となる。部分的なイオンの正規化または他の正規化アルゴリズムを用いて2つのスペクトル702および704の正規化を行うことによって、2つのスペクトル702および704は実質的に重なり合い、図7Bのグラフ700bに示すように適切に比較することができる。
【0057】
図8Aおよび8Bは、複数の試料スペクトル802a〜802n(図8A)の重ね合わせを行ったもの802a’〜802n’(図8B)を示すグラフ800aおよび800bである。スペクトルの絶対質量スケールは相当に変動することができる。スペクトルは互いに対してシフトしていることができ、内部質量スケールさえも一定ではない。標準のプロテオミクス作業では、既知のm/z値でピークを生じさせるために特別な化合物を加える。その後、スペクトルを再較正することができ(すなわち、m/z値をこれらの外部較正物質に従って再スケールし得る)、ペプチドが予想される低質量の範囲において数十ppmの絶対質量精度を達成することができる。未消化試料の場合、較正物質を組織に加えることが困難な場合があり、また、較正物質は、イオン抑制効果が原因で関連性のあるピークを抑制する可能性があるので、多くの場合望ましくない。しかし、スペクトルの比較には、スペクトルを共通質量スケールに対して重ね合わせることで十分であり、この質量スケールが実際に質量の絶対尺度に対応することはそれほど重要ではない(すなわち、データベース検索を行わない)。共通ピークの同定は、図9に関して記載するように行い得る。
【0058】
スペクトルを重ね合わせるために、スペクトル群にわたる共通ピークを同定し得る。スペクトルからのピークを線上に置き、分割的クラスタリングアルゴリズムを用いて、以下の方法でこの大きなリストをクラスターのリストへと分離し得る。
【0059】
初期化:スペクトルのピーク位置を1つの順序づけたリストに整列させる(m/z値で)
最初の分離段階:最小の分離(典型的には30Da)を用いてこの長いリストをピークのクラスターへと分割し得る場合、それぞれの個々のピークが所望する最小の分離よりも密接している場合。その結果、密接したピークのクラスターのリストが得られ得る。
【0060】
細分離:これらのクラスターのそれぞれについて、ピーク差のヒストグラムを生成し得る。クラスター中のピークの中央値分離の2倍として定義される外れ値距離でのクラスターを分割してもよく、分割距離がピーク幅の2倍よりも小さい場合、またはこのm/z範囲での機器の分解能よりも小さい場合は、クラスターを分割しない。分割が起こる場合は、さらなる分割が起こらなくなるまで、2つの生じるクラスターで同じ解析を繰り返し行い得る。分割が起こらない場合は、次のクラスターに進む。
【0061】
その結果、m/zが密接しており、良好に分離されたクラスターのリストが得られる。それぞれのクラスターは、その中心(クラスター中のすべてのピークのm/z位置の中央値)、およびその幅(これらの位置の25%および75%)によって特徴づけることができる。あるいは、頑健性は弱まるが、平均および標準偏差を位置および拡散の尺度として用い得る。
【0062】
m/z範囲にわたって可能な限り均一に拡散した適正な平均強度の典型的には10の位のクラスターの選択を行い得る。これらの共通ピークに対してすべてのスペクトルの質量スケールを重ね合わせるための、それぞれのスペクトルの直線(二次)回帰も行い得る。一実施形態では、以下のクラスター中心を用い得る:6434.50、6632.18、11686.94、12864.88、15131.14、15871.47、28102.55
5000ppmの許容値で重ね合わせを行い得る、すなわち、任意のスペクトル中で重ね合わせの点がこの許容値内の指定した位置で見つからない場合は、この点を無視し得る。しかし、重ね合わせが行われなかった場合は、以下のものが特徴として検出されない:5764、8702、9426、11443、11686、21066、28102、28309。その結果、重ね合わせを行っていないスペクトルで可視可能なピークについて、特徴の中央標準偏差が4.63Daから3.68Daへと低下する
図8Bに示すように、これらの共通ピークのこの選択を用いて、スペクトルを共通m/zスケールに登録することができる。
【0063】
特徴抽出
引き続き図3で、工程308の特徴抽出プロセスを用いてスペクトルから特徴(たとえばピーク)を抽出する。これを行うにあたって、どの特徴を抽出するかの決定を下す。
【0064】
スペクトル、その平均および群の差の目視検査は、質量分析を用いて疾患の様々な状態または臨床段階を識別する能力に対する何らかの指針を提供するが、より定量的な分析を行い得る。識別ピークはスペクトル中のピークのm/z位置に基づく。そのような位置は、所定の群または特徴内の何らかのユーザが定義したスペクトルの数に共通している場合は、推定マーカーである。これらの特徴のリストをそれぞれの群について作成した後、それぞれの特徴に定義値を与えることができる。ピーク検索アルゴリズムのピーク幅設定を用いて、正規化してバックグラウンドを除去した振幅をこの範囲にわたって積分し、この積分値(すなわち、特徴の幅間の曲線下面積)を特徴に割り当て得る。このm/z範囲内にピークが検出されなかったスペクトルには、積分範囲はこの特徴の平均m/z位置の周りの間隔として定義してよく、幅は現在のm/z位置でのピーク幅に対応する。
【0065】
特徴の値は、同じ試料(たとえば血清もしくは組織)内、または同じ細胞種からの異なる試料内でさえスペクトル間で相当に変動することができる。ピークのm/z位置は再現性が非常に高いが、振幅は大きな周期的変動を示す。
【0066】
既に記載したように、特徴値の変動の尺度はその変動係数(CV)である。変動係数は、その平均値にわたる特徴の標準偏差の比として定義される。その中央値にわたる25%と75%と間の%範囲の比など、他の定義が可能である。用いるスペクトルのCV値の典型的な分布をヒストグラムで提供する。0.5未満のCV値で再現性の高い特徴値も存在するが、大多数の特徴が大きな変動を示す。このことは、抽出が些細なことではなく、際立った特徴を有する潜在的な識別ピークとして特徴を同定する前に特徴の周期的変動および分布を分析すべきである理由を強調する。
【0067】
引き続き図3で、特徴選択プロセスを工程310で行って、分類解析の実行で利用する特徴を選択する。特徴選択プロセスは図9に示すように例示し得る。
【0068】
図9は、特定の幅を有する「x」個を超えるスペクトルに共通するピークを探すことによって特徴(候補特徴)を選択する、例示的なプロセスを示すグラフであり、幅は重ね合わせ誤差+ピーク幅として定義される。特徴選択を行うにあたって様々な選択技術を利用し得る。示すように、3個のスペクトル902a〜902c(902と総称)が存在する。これらのスペクトル902を利用して特徴(たとえばピーク)904を探す。示すように、中央の垂直線906が特徴904の中央を通って伸び、これは複数のスペクトル902に共通し、横の垂直線908aおよび908bは特徴の幅を定義する(重ね合わせ誤差+ピーク幅)。
【0069】
識別特徴の選択は、3工程のプロセスで行い得る。第1に、すべての特徴を、すべての特徴が独立していると仮定する単純な仮説試験から得られた一変量のp値によって順序づける。一部の実施形態では、それぞれの特徴のp値を得るためにマン−ホイットニー試験を用い得る。2試料のt試験、コロモゴロフ スミルノフ試験などの他の方法が可能であるが、頑健性が弱まる。第2に、ボンフェローニ補正を用いて、群平均スペクトル(臨床群中のスペクトルの平均)を比較することによって最高ランク(最小p値)の特徴を検査する。特徴が群を識別しない場合は、候補から外す。第3の最後の工程では、クロスバリデーション誤差を成功の基準として用いて特徴選択を行い得る。この趣旨での様々な実施を、以下に概要を示す。
【0070】
関連性のある特徴の選択は、遺伝子マイクロアレイ実験では数千もの特徴および数個の試料が存在するので、より問題となる。特徴選択が一部の分類子の性能にそれほど影響を与えないというある程度の証拠が存在するので、特徴選択は、質量スペクトルデータを調査する際にバイオマーカーの同定にも問題となる。それにもかかわらず、数十個の特徴が存在する場合は分類結果の解釈は困難であり、実際には、これらの特徴すべてが関連性のあるものであるという期待はされない。
【0071】
疾患の様々な段階を識別するために、特徴のその重要度によるランク付けを行い得る。特徴を一度に1個ずつ選択することは容易であるが、数十個の特徴が存在する場合は、作業は、どの特徴が疾患の特定の段階に重要な特徴であるかを決定することがより困難となる。研究室間でバイオマーカーおよびスペクトルを比較するために、同じ特徴が同定可能でなければならず、試料の調製、機器の使用、および集団の変動の不確実性によって現れる特徴が識別可能でなければならない。
【0072】
特徴選択では2つのアルゴリズムの決定に面する。第1の決定は純粋に組合せである。合計m個の利用可能な(測定した)特徴内のl個の特徴の、すべての可能な組合せの完全検索は、
個の組合せをもたらし、たとえば、m=20、l=5では、この数は15504である。質量スペクトルでは典型的なように、数百個の利用可能な特徴が存在し、この組合せ数は完全検索には大きすぎる場合がある。また、lのどの値が最適であるかが容易に明らかとならない場合もある。したがって、特別な発見的検索戦略を用い得る。第2の決定は、どの特徴組が他のものよりも良好かを決定する独自の品質尺度を欠くことから生じる。特徴選択の1つの基準は分類性能である場合があるので、「ラップ方法(wrapper method)」は特徴選択を分類アルゴリズムの一部として埋め込む。これらの方法では、決定が困難な分類誤差の推定、理想的には一般化の誤差の尺度を用い、典型的には1つ残すクロスバリデーション(leave−one out cross−validation、LOOCV)、またはサポートベクターマシーン(Support Vector Machines、SVM)学習の場合はマージンに基づいた誤差境界によって近似する。代替方法には、分類子を生成する前に特徴選択を行うフィルタリング方法が含まれる。これらの手法のそれぞれは、それぞれ問題があり、妥当性確認に関して特別な措置を利用する。
以下にまず検索戦略を記載し、その後、一般的に用いる一組の品質尺度を記載する。
【0073】
特徴検索の戦略
ほとんどの検索戦略は「分断攻略」手法に基づいており、特徴選択基準を最適化する。特徴選択基準の具体的な選択には、重要度サンプリングモンテカルロの精神で確率的なサンプリングを用いること、または動的プログラミングなどの特別な最適化技術を用いることが可能であり得る。
【0074】
使用したように、ツリーに基づいたクラスタリングをすべての特徴を用いて開始してよく、特徴を1個ずつ削除してよい。あるいは、1個の特徴でプロセスを開始し、他の特徴を1つずつ追加してもよい。例として、4個の特徴が存在し得る{x1,x2,x3,x4}。
【0075】
トップダウン検索:
・{x1,x2,x3,x4}の特徴選択基準の値を計算してC4を得る。
・{x1,x2,x3}、{x1,x2,x4}、{x1,x3,x4}、{x2,x3,x4}のそれぞれの特徴選択基準の値を計算し、最良のもの、たとえば値C3を有する{x1,x2,x3}を選択する。
・{x1,x2}、{x1,x3}、{x2,x3}のそれぞれの特徴選択基準の値を計算し、最良のもの、たとえば値C2を有する{x1,x2}を選択する。
・最後に、最良の1個の特徴を、値C1を有する{x1,x2}から選ぶ。
・{C1,C2,C3,C4}の最良値が(次善)最適な特徴組を定義する。
【0076】
同様に、1個の特徴から開始し、1個ずつ追加することでボトムアップ検索が定義される。最適なより少ない(より多い)数の特徴の解答がこれらのツリーに従って展開される保証はないので、これは、必ずしも最適な解答を与えない。これらの単純な手順を改良する一方法は、既に捨てた特徴を再考すること、または既に選択した特徴を捨てることである。このアルゴリズムは当分野で理解されるフローティング検索方法と呼ばれ、以下のとおりである。
【0077】
フローティング検索方法:
以下にm個の特徴の固定数lの検索を記載する。特徴の数を最適化するためにl回のループを行い得る。フローティング検索方法はトップダウンまたはボトムアップ検索のどちらかに基づく。記載したアルゴリズムはボトムアップ方法に基づく。
【0078】
一組のm個の特徴を考える。目的は、そのうちk個の最良の部分組をk=1,2,・・・,l≦mについて検索し、Cを最適化することである。Xk={x1,・・・,xk}をk個の特徴の最適な組とし、Ym−kを残りのm−k個の特徴の組とする。2、3、・・・k−1個の特徴の低次元の最良の部分組X2,X3,・・・,Xk−1を記憶(ストレージ)(storage)に保存する。次の工程で、Ym−kの要素を引き出すことによって(k+1)個目の最適な部分組Xk+1を形成する。その後、これがCを向上させるかどうかについて、すべての低次元部分組にわたって確認を行い、既に選択した特徴を置き換える。アルゴリズムは以下のように実行される(Cは、大きければ大きいほど良い)。
・最良の1個の特徴を選択し、C1を有するX1が得られる。
・Cに基づいて別の特徴を追加し、X2およびC2が得られる。
ここでk回反復する。
・工程I、包含:ボトムアップアルゴリズムと同様に、Xkと組み合わせた場合に最良のCを与えるYm−kからの要素を選択する、すなわち
でXk+1={Xk,xk+1}を定義する。
・工程II、試験:
1.Xk+1から外した場合にコストCに与える影響が最も小さい特徴xrを探す。すなわち
である。
2.r=k+1、k=k+1、Ck+1=Cである場合、工程Iに進む。
3.r≠k+1かつC(Xk+1/{xr})<Ckである場合、工程Iに進む、すなわち、xrを外した場合に既に選択した群が向上しない場合は、逆方向検索を行わない。
4.k=2の特別な場合:k=2の場合、X2=X3/{xr}およびC2=C(X3/{xr})を設定する。
・工程III、排除(逆方向検索):
1.Xk’=Xk+1/{xr}、すなわちxrを削除する。
2.
によって新しい組の中で最も有意性の低い特徴xsを探す。
3.C(Xk’/{xs})<Ck−1である場合、Xk=Xk’とし、Ckを初期化し、工程Iに進んで逆方向検索を終了する。
4.Xk−1’=Xk’/{xs}およびk=k−1を設定する。
5.k=2の特別な場合:X2=X2’およびC2=C(X2’)を設定し、工程Iに進む。
6.工程IIIに進む。
【0079】
このアルゴリズムでは一般に、単純なボトムアップアルゴリズムよりも実質的に良好に演算が行われ、mまで実行して再度最大の(最小の)基準組を選ぶことができる。
【0080】
ランダム特徴選択アルゴリズム
ランダム特徴選択アルゴリズムとは、ランダムサンプリングからの構成の頻度を数えることに基づいた最適化戦略である。たとえば、何らかの初期構成(k−中央値、k−平均、ファジークラスタリング)から階層的凝集型クラスターを構築する際に、アルゴリズムを何度も開始し、それぞれの実行からの個々の構成を格納し、頻度ヒストグラムを構築することができる。これは、多くの場合クロスバリデーションと組み合わせることができる。
【0081】
分類子の生成
引き続き図3、工程312で、分類子の生成を行う。分類子の生成には、(i)教師あり学習、(ii)クロスバリデーション(cross validation)、および(iii)盲検分類(blind classification)または試験を含めたいくつかの機能が含まれ得る。最初の2つの機能、すなわち教師あり学習およびクロスバリデーションは、図1に記載のように、癌研究診療所104によって提供された関連する既知の臨床結果108を用いて生スペクトルで行い得る。
【0082】
特徴のランク付けは群を識別するための特徴の重要度に関するある程度の見解を与えるが、より徹底的な解析では教師あり学習手順を用いる。教師あり学習とは、訓練組(トレーニングセット)(すなわちそれぞれのスペクトル)中でそれぞれの事例について分類の標識を提供するプロセスであり、誤分類の数を減らすことを目的とする。教師あり学習の別のより具体的な定義は、高次元の特徴空間から標識空間へ、特徴/識別ピーク発現から疾患標識または応答標識(クラス標識とも呼ばれる)へとマッピングすることである。標識は、質量分析装置ピークおよび関連するパラメータの関数である。スペクトルを生成した癌患者のスペクトルおよびその臨床情報を有する研究者または他の人が、教師あり学習プロセスを行い得る。プロセスは、教師あり学習の理論からの標準のアルゴリズムを用いることによって行い得る。教師あり分類アルゴリズムの出力は、新しい事例またはスペクトルのクラス標識を生成する分類子アルゴリズム(訓練組に依存する)である。一実施形態では、k最近傍(KNN)アルゴリズムを分類に利用し得る。
【0083】
K最近傍アルゴリズム
k−最近傍方法は、単純な密度推定方法である。点x’がxを中心とする容量Vの範囲に入る確率は、
である。
【0084】
小容量では
である。確率は、容量Vの範囲に入る試料の割合によって近似することができる。したがって、kが合計n個中Vの範囲内に入る試料の数である場合、
である。
【0085】
k−最近傍の近似は、確率k/nを固定すること(または固定数の試料ではkを固定すること)、およびk個の試料を含む容量を決定することである。これは、値域の幅を固定して点の数を数えるヒストグラムの推定と対照的である。この定義の規則性には一部問題があるが、
かつ
である場合は、偏りがないかつ矛盾がないことを示すことができる。
【0086】
判断基準を以下の方法で構築することができる。クラスωm中にkm個の試料が存在し、ωmの試料の合計数がnmであることを仮定する。その場合、クラス条件付き確率は、
である。
前者はnm/nである(全クラスにわたって合計n個の試料が存在する場合)。
ベイジアン判断基準は、
である場合にxをωmに割り当てることであり、ベイズ定理を用いて、これは
の選択をもたらす。
【0087】
同点の場合、最も近い平均、最も近いメンバー、または他のものによって同点に決着をつけ得る。あるいは、同点に決着をつけるものを奇数のkに限定し得る。小さなkは不規則な表面をもたらす一方で、大きなkは滑らかな表面をもたらす。漸近的な誤分類率は上記よりもベイズ誤差の2倍抑制されており、これは、このように単純なアルゴリズムには非常に良好な漸近的な性能である。KNN分類はプロトタイプ、すなわちデータ圧縮技術の使用に適している。しかし、ここでは、KNN分類の使用は、必要な記憶の軽減に、より使用される。距離関数の選択を利用し得る。あるいは、最適ではないユークリッド差も利用し得る。二次元の特徴空間の単純な例の投票プロセスを図11に例示する。
【0088】
図11は、2つの異なるクラスの疾患進行を表すクラス標識したスペクトル徴候および分類する試験スペクトル徴候の例示的な群を示す、グラフ1100である。特徴空間中の識別ピークをグラフで表すために、この図では、二次元の特徴空間、すなわちグラフ1100は、x軸およびy軸を有する二次元グラフである。特徴空間が12次元の特徴空間であった場合(すなわち、12個の特徴またはピークが、クラス標識するスペクトルを「良好」または「不良」と分類する際立った特徴の指標である識別ピークとして選択される)、スペクトルを容易にグラフで表すことは不可能となるので、二次元の特徴空間を例として利用する。
【0089】
この場合、スペクトルは「良好」1102および「不良」1104としてクラス標識で分類され、「良好」のクラス標識したスペクトルの徴候1102を1つのパターンとしてグラフ1100上に表し、「不良」のクラス標識したスペクトルの徴候1104を別のパターンとして表す。既に記載したように、クラス標識したスペクトルは癌研究診療所から展開したものであってよく、イレッサなどの抗癌薬に応答する癌患者の臨床結果に基づいた分類目的のために対照試料として用い得る。試験スペクトル徴候1106を、治療計画を決定する新しい癌患者からの試験スペクトルを表す位置でグラフ1100に配置し得る。試験スペクトル徴候1106の位置は、2つの特徴の振幅(すなわち、xおよびyの振幅)に基づく。示すように、かつ確率KNNアルゴリズムに従って、最も近い3つのクラス標識したスペクトルの徴候1108a、1108b、および1108cが、関連させる試験スペクトルの潜在的な候補である。
【0090】
二次元の特徴空間の試験点の分類プロセスのための例示的な確率試験は、
である。
【0091】
2つのクラス間の確率差が、ユーザが提供した特定の閾値Δ−pを超える場合は、確率は有意であると見なすことができ、「良好」または「不良」の分類を行うことができる。確率差が特定の閾値未満の場合は、「不確定」の分類を行うことができる。
【0092】
KNNアルゴリズムを分類子アルゴリズムとして利用し得る一方で、他の分類アルゴリズムも利用し得る。本発明の原理に従って開発した別のアルゴリズムは、さらなる柔軟性を提供し、臨床応用のためのさらなる情報を提供する改良KNNアルゴリズムである、確率的k最近傍アルゴリズムである。
【0093】
改良(確率的)k最近傍アルゴリズム
本発明の原理に従って、改良k最近傍アルゴリズムを分類に用い得る。その最も単純な実施では、改良KNNアルゴリズムは、特徴空間中のk最近傍を検索し、これらの最近傍の標識にわたる単純な多数決に従ってクラス標識を割り当てる。特徴空間は、スペクトルを定義するために用いる特徴の数(たとえば12個の特徴)として定義される。一実施形態では、明確な訓練期は存在せず、すべての事例をスペクトルの分類に用いる。通常は、単純なユークリッド距離のみを用いて近傍を決定するが、他の定義も可能である(たとえば、適切に定義された共分散マトリックスからのマハラノビス距離)。
【0094】
従来のK−最近傍(KNN)フレームワークでは、以下のように分類を行う。
分類するそれぞれの対象または事例(ここでは質量スペクトル)をd数xi、I=1・・・D(ここではd個の特徴の値)によって特徴づけ、したがって、これはd次元の空間内の点によって表される。2つの事例間の距離は、通常のユークリッド測定基準
によって定義される。もちろん、任意の類似の測定基準もここで用いてもよい。さらに、実施では、2つのスペクトル間の距離を決定するにあたって、ウィンザライズを行ったマハラノビス距離を用い得る。
【0095】
訓練組には、既知のクラス割当てを有する事例が含まれ得る。訓練組および正の奇数整数kを与えた場合、試験対象の分類を以下のように行う。
1.訓練組中、d次元の空間内で試験対象(すなわちスペクトル)のk最近傍を探す。
2.これらのk近傍のそれぞれがクラスの1つ(たとえば良好または不良)に属する。どのクラスが最大数の表現を有するかを探す。
3.試験対象をこのクラスに属するものとして分類する。
【0096】
このKNN分類は2つの欠点を有する。第1に、これはクラスの割当ての信頼度に関する情報を提供しない。k=15かつ2つのクラスの場合、15:0の状態におけるクラスの割当ての信頼度が8:7の状態よりもはるかに高いことは、直観的に明らかである。臨床応用では、それぞれの個々のクラスの割当ての信頼水準の特徴は関連性のあるものであり、患者を診断するために使用する。実際、このレベルを最初に定義し得る。
【0097】
第2に、これは、訓練組中のそれぞれのクラスの事例の数を適切に考慮していない。所定のクラスのさらなる事例を訓練組に単に追加することは、分類結果をこのクラスに有利に偏らせる傾向がある。
【0098】
これらの問題を修正するために、訓練組からのk最近傍のクラスに関する情報から開始するが、クラスを割り当てる代わりにそれぞれのクラスに属する試験事例の確率を生成する「確率的KNN」分類子を開発した。以下に、確率的KNNの主な式の理論および誘導の簡潔な説明を示す。
【0099】
スペクトル試料を分類するKNN手法は以下のように見なすことができる。d次元の空間内にあり、試験事例を中心とする、特定の半径の球を考える。球の半径は、訓練組から正確にk個の事例を含むという要件によって決定される。その後、それぞれのクラスのうち何個のメンバーがこれらのk個の事例に混じっているかを観察し、この情報を用いてクラス標識を割り当てるか(標準の手法で)、または何らかのクラスに属する試験事例の確率を計算する(確率的手法で)。
【0100】
訓練組は、何らかの(未知の)確率分布から引き出した試料であり得る。より正確には、それぞれのクラスについて、クラスに属する訓練組の部分組は対応する確率分布から引き出した試料であると見なされ、これはそれぞれのクラスについて異なる。
【0101】
同じ確率分布から引き出した訓練組の集合を考える。分類するためのKNN手法では、試験事例の周りの球の半径は、必ず正確にk最近傍を含むことを確実にするために、それぞれの訓練組の具現化について異なる。以前のセクションのKNN方法の説明も参照されたい。
【0102】
以下の近似を行い得る。
1.試験事例の周りの球は固定されていると見なし得る。これは、これが試験事例の位置および訓練組を引き出した確率分布に依存するが、それぞれの訓練組の具現化で同じであることを意味する。この近似は、kが小さすぎない場合に妥当である。
2.それぞれのクラスについて、球内のそのクラスの事例の数をポアソン分布から引き出す。この近似は、球が小さな割合のこのクラスの全体的な確率のみを含む場合に妥当である。
3.クラスの確率密度は球内でほぼ一定である。
【0103】
2つのクラスの場合を考える。それぞれの事例は、d次元の空間内の点
によって表される。完全なd次元の空間をΩによって示す。
クラス1は、確率分布
によって特徴づけられる。クラス2は、確率分布
によって特徴づけられる。
【0104】
訓練組は、クラス1から引き出したN1個の点、およびクラス2から引き出したN2個の点から形成され得る。試験点の近傍はωによって示し得る。これは、実際は試験点を中心とした球であるが、これは以下には関連性がない。訓練組の所定の具現化には、ω中にクラス1からk1個の点およびω中にクラス2からk2個の点が存在する。k1<<N1、
が仮定される。同じことがクラス2についても当てはまる。
【0105】
これは、ポアソン近似の妥当性を保証する。k1は期待値λ1、
のポアソン分布から生じ、k2は期待値λ2、
のポアソン分布から生じる。
【0106】
ここで、試験点(ωの中心)を「さらに別の点」として扱う。言い換えれば、ω中にはk1+k2個ではなくk1+k2+1個の点が存在し、どのクラスに試験点が属するかは知られていない。試験点がクラス1およびクラス2に属する確率は、以下:
のように割り当て得る。したがって、
である。
【0107】
試験点(ωの中心)を「さらに別の点」として扱うことによって、
および
がどちらもω内で有意に変化しないことが黙示的に仮定される。
【0108】
問題は、λ1およびλ2が実際に未知なことである。しかし、その確率は、ベイジアン様式で推定することができる。k1およびk2はどちらも、ポアソン分布、
に従うように仮定する。
λの以前の分布をp0(λ)と示した場合、
である。
標準のベイジアン理論では、
である。
【0109】
以降、λの平坦な以前の分布、p0(λ)=1を仮定して、以下:
を得ることができる。
最終的には、以下:
が得られるが、ただし、
である。
【0110】
これらの積分の計算により、以下:
が得られる。
訓練組で用いた試料の大きさが同じ場合は(N1=N2)、これは以下:
に簡素化される。
【0111】
2つを超えるクラスおよび訓練組中の異なる試料の大きさでは、閉形式でp(クラスI)を得るのは困難である。この場合、以下:
のはるかに簡素化した推定を用い得る。
あるいは、同等に、それぞれのp(クラスI)が
に比例する一方で、
である。
【0112】
結果の頑健性を欠陥のあるスペクトルに特徴づけるパラメータは、標識をスペクトルで関連づけるためにクラス確率が異なっていなければならない度合を定義する、ユーザが提供したパラメータp−diffである。たとえば、p−diffが0.1に設定され、クラスAの確率が0.6であり、クラスBが0.4である場合、差2は0.1よりも大きく、クラスAが選択される。他方で、クラスAのクラス確率が0.52であり、クラスBが0.48である場合、差0.04は0.1よりも小さく、分類子はクラス標識を「未定義」として返す。
【0113】
あるいは、仮説試験は、分類が外部指定した有意性αで有意になり得る。標準の仮説試験の形成では、分類を以下のように説明することができる。
データ:試験事例には、2つのクラスAおよびB、クラスAおよびクラスBのkAおよびkB最近傍、ならびにクラスAのNA個の事例およびクラスBのNA個の事例の集団が含まれ得る。
【0114】
試験統計学:単純にクラスA中の近傍の数:
T=kA
である。
ヌル分布:ヌルは、集団比のみから予測されるA近傍の数であると仮定される、すなわち、ヌル下のkAは、パラメータk=kA+kBおよびp*=NA/NBを用いた二項式ランダム変数である。
仮説:(両側)これは、当分野で理解される二項式試験の実施である。
H0:pA=p*
H1:pA≠p*
【0115】
試験開発事例では、最近傍の数が20を超えることは稀であり、通常の近似は使用しない。所定の全体的な有意性には、αを表から解き(またはコンピュータで実行し)、t1およびt2についてP(Y≦t1)=α1かつP(Y≦t2)=1−α2であり、Yはヌル下で定義された二項式ランダム変数であり、α1およびα2はα/2に近似し合計するとαとなる。拒絶領域は、t1未満またはt2を超えるTの値である。二項式試験のセクションで概要を示した手順に従って、信頼領域もp*について推定し得る。
【0116】
改良KNNアルゴリズムを上述のように分類アルゴリズムとして利用し得るが、代替分類アルゴリズムを本発明の原理に従って利用し得る。そのような分類アルゴリズムには、たとえば、ファジーKNN、カーネル方法(たとえばSVM)、教師なし分類、スペクトルクラスタリング、カーネルPCA、ノンパラメトリッククラスタリング、k−平均、k−ヒストグラム、階層的クラスタリング、およびランダムフォレストが含まれ得る。これらの分類アルゴリズムは、クラス標識したスペクトル(たとえば、癌患者の対照群から分類および標識したスペクトル)に従ってスペクトルを分類する能力を提供するが、上述のKNNアルゴリズムの明瞭性および使用の容易さを欠く。
【0117】
引き続き図3、工程312で、スペクトルの訓練組の分類子を生成するために学習を利用し得る。抗癌薬が非小細胞肺癌に対して有効であるかどうかを検出するために血清をサンプリングする場合は、癌が化学療法後に進行した3組の患者の使用を含めて患者の対照群を利用した。患者のそれぞれをイレッサで治療し、これらの患者の生存期間を含めた情報を記録した。対照試料は、EGFR−k1阻害剤を用いた治療を受けなかった、重篤度がより低い患者(癌段階IIIおよびIV)からのものであり、血清は治療中に生成された。いくつかの研究で用いたデータ組の要約を表IIIに提供する。それぞれのデータ組は、受け取ったスペクトルおよび関連する患者情報の癌研究センターを表す。
【0118】
【表2】
表III.研究で用いたデータ組
表IIIは、分類子アルゴリズムが、癌患者がイレッサに対して応答性となるかどうかを決定するために有効かどうかを決定するための研究に用いた、データ組属性の要約である。試料の収集後、イタリア人1、イタリア人2、日本人1、および日本人2のデータ組をイレッサで治療した。開発期における訓練および試験は、イタリア人1の組および2つの日本人の組で交差するように行った。患者データには生存データが含まれ、イタリア人の組は非常に完成した患者病歴と共に治療および癌の種類を有しており、日本人の組には、CTイメージングによって測定した、安定疾患(SD)、進行性疾患(PD)、および部分応答者(PR)を含めた臨床標識のWHO定義に関する予後情報のみが含まれていた。分類子を確立した後、十分に盲検化された試験をイタリア人2の組で行った。
【0119】
図10Aは、本発明の原理に従って、試験スペクトルをクラス標識したスペクトル(class labeled spectra)の群に関連して分類するための例示的なプロセスを表すグラフ1000aである。試験スペクトルは、試験スペクトルが、クラス標識したスペクトルからの少なくとも1つのクラス標識したスペクトルと同じクラスに標識されると分類子によって決定された場合に、クラス標識したスペクトルに関連すると見なされる。曲線は群平均スペクトルである。示すように、分類で用いた11700ダルトン(Da)の周辺に識別ピークのクラスターが存在する。群間の差異は、臨床的に細標識した群PD−初期1002およびSD−長1004スペクトルの平均間にある。示していないが、イタリア人のデータ組(表III)から分類子(すなわち、改良k−最近傍分類子を用いた分類子アルゴリズム)を構築するために用いた11個の識別ピークが存在し、そのパラメータはクロスバリデーションを用いて最適化する。2つの群平均スペクトルを比較すると、高速進行性癌(PD−初期1002)に罹患している患者のスペクトル中に識別ピークを生じるバイオマーカーの存在が、長期間生存し、SD−長癌(SD−長1004)を分類された患者ではほぼ存在しないことが明らかである。
【0120】
図10Bおよび10Cは、イタリア人および2つの日本人の訓練組からの例示的なプロットを示すグラフ1000bおよび1000cである。図10Bでは、グラフ1000bの範囲は5500〜6000Daであり、図10cでは、グラフ1000cの範囲は11000〜13000Daである。これら2つのグラフ1000aおよび100bで示すように、異なる群間の多数の識別ピークが示される。群のプロットは、それぞれのスペクトル群にわたって平均する。すなわち、プロットは個々のスペクトルからのものではない。
【0121】
標準の識別ピークの普通でない細分類は、実際に示した識別ピークの強度に反映されている。用いた識別ピークのリストを表IVに示す。表Vは表IVと同じ識別ピークのリストであるが、発見期試料の特徴値の群平均を含む特徴の値も含まれる(イタリア人1、日本人1および2)。支配的な一組のクラスターを群平均として図10に示す。示した識別ピークは例示的であり、薬物イレッサの癌患者応答者を予測するために同じまたは他の識別ピークを本発明の原理に従って利用し得ることを、理解されたい。さらに、他の抗癌薬または他の薬物に対する予測を行う場合は、記載したもの以外の識別ピークをそのような予測に利用し得る。
【0122】
最適なk−NN分類子は1つ残す(leave-one-cut)クロスバリデーション(LOOCV)の誤差をもたらし、一方で、26個中6個のスペクトルを分類することができなかった。確率的k−NN分類子の要件を高めることによって、この誤標識を1つの分類不可能なスペクトルの事例に移動することが可能である。細分類が予後診断に相関していると合理的に仮定され、PD−初期事例が最悪の進行であり、SD−長事例が最も長い安定疾患である場合は、治療前血清スペクトルから見込みのある薬物応答情報を得ることが可能であると、仮に結論づけることができる。
【0123】
【表3】
表IV.識別ピークのリスト
【表4】
表V.特徴値のパラメータを含む識別ピークのリスト
【0124】
分類子アルゴリズムの試験にあたって、以下の関連づけを用いてイレッサの応答マーカーを作成することができる。SDおよびPRの事例を「良好」のクラス標識を有する群として一緒の群とし、PDの事例を「不良」としてクラス標識する。上記細分類から展開した分類子は、ここでも、「良好」をSD−長と関連づけ、「不良」をPD−初期と関連づける。その後、この分類子を日本人の事例(表I)に適用し、これらのスペクトルのうち18個を分類することができず、51個のスペクトルが分類された。これら51個のスペクトルのうち、37個がクラス標識「良好」を有し、14個がクラス標識「不良」を有していた。試験結果を表VIに要約する。
【表5】
表VI.クラス標識
【0125】
この試験は、90%の感度および57%の特異度を有する。イレッサを用いる目的では、応答がなかった、すなわち「不良」であった6個の事例が応答を有すると標識されており、0.84の陽性適中率が得られた。同様に、5個の事例が「不良」として誤標識されており、0.61の陰性適中率が得られた。
【0126】
要約すると、日本人集団において非応答者を応答者からフィルタリングするために血清に基づいた質量分析装置試験を用いることで、イレッサの応答率が65%から90%に上昇し、一方で、51人の患者中、イレッサの恩恵を受ける可能性のあった5人が取り残される。これら5人の患者のうち、1人がSDを標識され、4人がPRを標識されていた。一般に、PDへの分類は、この群内での変動が高いことにより、最悪である。これは「良好」事例の選択に影響を与えないが、低い特異度をもたらす。この増加は、特定の患者群においてイレッサを治療段階の初期で用いることで、従事者が予想外に良好な予後診断の予測を得ることができることを示す。これらの患者ではイレッサを継続することができ、一方で予後不良を予測された患者は代替抗癌治療に切替えることができる。代替抗癌治療の利用が早ければ早いほど、有益な効果をもたらす可能性が高くなるので、これにより、より良好な長期生存率が可能となる。
【0127】
引き続き図3、工程312で、分類子の盲検試験を行い得る。これは、クラス標識したスペクトルからの癌患者と同じ癌に罹患している癌患者が抗癌薬に応答するかどうかを決定するために、試験スペクトルを(たとえば新しい癌患者から)分類するためにクラス標識したスペクトルを分類子アルゴリズムが用いることを意味する。本明細書中で上述したように、確率的KNN分類子を用いて、分類子を生成し得る。分類子からは、3つの潜在的なクラス標識、すなわち「良好」、「不良」、または「未定義」がもたらされ得る。「良好」のクラス標識または分類は、試験スペクトルの処理において、試験スペクトルがクラス標識したスペクトルの「良好」群と同じ群であることを分類子が決定することを意味する。そのような盲検試験の結果を図14に示し、開発期の結果が確認される。
【0128】
図3の工程314では、既に記載したように、可視化を行ってよく、可視化には、(i)スペクトルの平均、(ii)スペクトルの変動、および(iii)特徴の位置決定を行うツールが含まれ得る。これらの可視化ツールは診断目的に有用であり得る。
【0129】
分類子によって試験スペクトルがスペクトルの「良好」群に最も密接に関連していると決定された場合は、試験スペクトルが「良好」と分類され、患者に、その人が応答するという特定のレベルの信頼度を有する抗癌薬を処方し得る。分類子によって試験スペクトルがスペクトルの「不良」群に最も密接に関連していると決定された場合は、試験スペクトルが「不良」と分類され、患者にはその抗癌薬を処方しない。試験スペクトルがクラス標識したスペクトルの「良好」または「不良」群のどちらかと関連していることが決定できない場合は、試験スペクトルを「不確定」と分類し、患者には抗癌薬を処方しない。
【0130】
表VIIは、表Vと類似の、図3の工程308および310の特徴抽出および選択アルゴリズムによって決定した平均識別ピーク値の別の例示的な組を表す。これらのスペクトルは、図3の工程312の分類子によって「良好」、「不良」、または「未定義」と分類および標識される。記載したように、「不良」スペクトルは、典型的にはピークの振幅よりも大きい、大きな標準偏差を有する識別ピークを有しており、ピークを測定することができない。「良好」と分類されたスペクトルは、より小さな振幅および標準偏差を有する傾向にある識別ピークを有する。「未定義」スペクトルはそのどこか中間にあり、識別ピークの振幅が一部のm/z位置では小さく、他の位置では高い。
【表6】
表VII.例示的な識別ピークおよび標準偏差
【0131】
信頼度のレベルは、確率的KNNアルゴリズムのΔ−pパラメータによって設定されたスペクトルの訓練組を用いた関連性の確率に基づいている。Δ−pパラメータは、試験スペクトルを訓練組と関連づけるために所望される信頼度のレベルに応じて、上方または下方に増加し得る。盲検試験研究では、Δ−pパラメータを0.2に設定し、92%精度の予測結果がもたらされた。
【0132】
図11は、スペクトルを二次元の特徴空間でグラフによって表すために有用であるが、実世界のスペクトルは典型的には8〜12次元の特徴空間をもたらし、多くの場合8〜12次元またはそれ以上に達する。より高次元または低次元の特徴空間が、癌患者が抗癌薬に対して応答性となるかどうかを決定するにあたって十分または必要であると決定され得る。したがって、特定の実施形態では、従事者は、1個または2個のみの識別ピークを利用する場合があり、他の実施形態では3個または4個の識別ピークを使用し、さらに他の実施形態では5個または6個の識別ピークを使用し、さらに他の実施形態では7個または8個の識別ピークを使用し、さらに他の実施形態では9個または10個の識別ピークを使用し、他の実施形態では11個または12個の識別ピークを使用する。実際、12個よりも多くの識別ピークを追加することが本発明によって企図される。決定性があるように十分な情報を提供する特徴の数の決定は、たとえば、特徴の振幅、スペクトルの分類、および抗癌治療に対する患者応答を含めたいくつかの要因に基づき得る。
【0133】
引き続き図3で、データベース220(図2)などのデータベースを利用して、識別ピーク、質量分析装置の診断、および/または他の出力パラメータを、記載した分類および診断プロセスから受け取って格納し得る。これらのパラメータを格納し、新しい癌患者からの新しいスペクトルの将来の分類に使用し得る。最終的に、データベースは、試験スペクトルの分類における精度および信頼性に関して癌患者が抗癌薬に応答することが98%などの高確率で実質的に保証される程度まで満たされ得る。
【0134】
図12は、本発明の原理に従って分類した患者群の生存率を示す試験データのカプラン・マイヤープロット1200である。カプラン・マイヤープロット1200は、一定期間にわたる生存率を示す、死亡率のプロットである。示すように、「良好」と分類された癌患者が、抗癌薬を受けたことが原因で最も長く生存した。「不良」と分類された癌患者では、最初の数カ月で急激な降下があった。「未定義」と分類された癌患者は、低い生存率で徐々に低下していった。このプロットは、発見期に、イタリア人1の試料で訓練した分類子を日本人の1および2の試料で試験することによって得た。
【0135】
図13は、日本人の試料1および2で訓練した分類子をイタリア人1の組で試験した、図12に類似のカプラン・マイヤープロット1300である。示すように、関連づけられたスペクトルが「良好」と分類された患者は、抗癌薬で治療したことから寿命が延長すると予測された。「不良」と分類された患者は、低い割合が1年を超えて延長される急激な死亡率を有すると予測された。「未定義」と分類された患者は急激な低下を有し、6カ月を超えて生存すると予測された者はいなかった。これらの予測は、臨床試験で正確であることが証明された。
【0136】
図14は、イタリア人2の試料で妥当性確認した分類子を盲検的に用いて得た、図12および13に類似のカプラン・マイヤープロット1400である。試験時、生存データは機密であったためその知識はなかった。分類を行った後に生存データが公開され、図14の曲線により開発試験からの結果が確認された。示すように、「良好」と分類された患者は生存率が延長されたことが予測され、「不良」と分類された患者は急激な降下を有しており寿命がより限られていた。この具体的な事例では、試験を低いΔ−pで実行したので、「未定義」と分類された患者は存在しなかった。ここでも、結果は実際の臨床試験と一致していた。
【0137】
図15は、本発明の原理に従って癌患者が抗癌薬に対して応答性となるかどうかを決定する、例示的なプロセス1500を示すブロック図である。プロセス1500は工程1502から開始し、癌患者から生じた血清から質量分析装置によって生成された試験スペクトルを得る。工程1504で、試験スペクトルを処理して、同じまたは類似の臨床段階の癌に罹患しており、抗癌薬に応答したまたは応答しなかったことが知られている他の癌患者からの対応する血清から生成されたクラス標識したスペクトルの群との関連性を決定する。関連性とは、試験スペクトルが、1つまたは別のクラス標識したスペクトルと同じまたは類似の特徴に関連するまたはそれを有する可能性が高いことを意味する。抗癌薬は、非小細胞肺癌を治療するものであり得る。工程1506で、分類されたスペクトルの群に対する試験スペクトルの関連性に基づいて、患者が抗癌薬に対して応答するかどうかを決定する。応答性であることは、抗癌薬が癌患者に対して何らかの正の利点をもたらすことを意味する。肯定応答は望ましくは患者の寿命を延長するが、癌患者を抗癌薬で治療することで他の正の利点ももたらされ得る。
【0138】
本発明によって測定するバイオマーカーは、質量分析スペクトル中でピークとして現れる任意の種類の定量可能なパラメータであり得る。質量分析ピークを引き起こすパラメータは、それだけには限定されないが、特定の酵素、ホルモン、mRNA、DNA、RNA、タンパク質、脂質、ビタミン、ミネラル、代謝物、および化学物質を含めた任意の物質によって生じ得る。さらに、バイオマーカーは、それだけには限定されないが、血清、赤血球、白血球、爪、皮膚、毛髪、生検組織、脳脊髄液、骨髄、尿、糞便、痰、胆汁、気管支肺胞液、胸膜液、および内耳液を含めた、患者から採取した任意の組織または液体から測定することができる。
【0139】
バイオマーカーは、環境的または遺伝的トリガーに対する曝露レベル、疾患プロセス自体の要素、曝露と疾患の発症の間の中間段階、または病状に関連するが発症の原因ではない独立した要因を含めた、様々な疾患特徴を反映することができる。したがって、本発明の原理は、疾患および障害の特定の段階の決定にも適用し得ることが企図される。
【0140】
本発明の原理の例を非小細胞肺癌および特定の抗癌薬を用いた治療に関して記載したが、この原理は、現在または将来利用可能な他の癌および他の抗癌薬に適用し得ることを理解されたい。さらに、本発明の原理および方法は、それだけには限定されないが、癌、自己免疫疾患もしくは障害、糖尿病、遺伝病もしくは障害、ウイルス感染症、細菌感染症、寄生虫感染症、プリオン疾患、栄養障害、ビタミン欠乏症、ミネラル欠乏症、ミトコンドリア疾患もしくは障害、性行為感染症もしくは障害、先天性欠損症、性病もしくは障害、免疫疾患もしくは障害、バランス疾患もしくは障害、疼痛、全身病もしくは障害、血液疾患もしくは障害、血管疾患もしくは障害、神経疾患もしくは障害、筋系疾患もしくは障害、心疾患もしくは障害、脊髄疾患もしくは障害、眼疾患もしくは障害、精神疾患もしくは障害、代謝性疾患もしくは障害、内臓疾患もしくは障害、肺疾患もしくは障害、肝疾患もしくは障害、腎臓病もしくは障害、胆嚢疾患もしくは障害、膵臓疾患もしくは障害、胃腸管系疾患もしくは障害、前立腺疾患もしくは障害、婦人科疾患もしくは障害、および聴覚疾患もしくは障害を含めた任意の疾患または障害の検出に適用し得る。さらに、本発明の原理および方法は、治療が環境的曝露およびその効果、物質乱用、および疫学研究に役立つかどうかの決定にも適用し得る。
【0141】
本発明の原理および方法は、それだけには限定されないが、一般麻酔薬、不安および睡眠障害薬、精神障害薬、抗精神病剤、情動障害薬、運動障害薬、癲癇薬および抗癲癇薬、心不全を管理する薬物、抗虚血薬、抗不整脈薬、血管の薬物、心血管および肺の薬物、オピオイド鎮痛剤およびアゴニスト、気管支拡張剤、抗炎症薬、気管支痙攣を管理する薬物、クロモリンナトリウムおよび関連する薬物、呼吸刺激剤、鎮咳薬、粘膜毛様体輸送を変調する薬物、利尿剤、抗利尿ホルモン、合成類似体、および関連する薬物、インスリン、グルカゴン、経口血糖降下剤、真性糖尿病を治療する薬物、副甲状腺ホルモン薬、ビスホスホネート、カルシトニン、副腎コルチコステロイド、コルチコトロピン放出ホルモン、アドレノコルチコトロピン、および抗副腎薬、甲状腺ホルモン、甲状腺刺激ホルモン、チロトロピン放出ホルモン、および抗甲状腺薬、エストロゲン、抗エストロゲン、プロゲスチン、避妊薬、アンドロゲンおよび同化(anabolic)およびアンタゴニスト、ゴナドトロピン、抗黄体ホルモン、アクチビン、インヒビン、ゴナドトロピン放出ホルモン(GNRH)、GNRHスーパーアゴニスト(GNRH supragonist)、およびアゴニスト、成長ホルモン、インスリン様増殖因子、プロラクチン、高プロラクチン血症を治療する薬物、脂溶性ビタミン、水溶性ビタミン、多量ミネラル、微量ミネラル、フッ化物、緩下剤、抗下痢薬、胃腸管運動に影響を与える薬物、制吐剤、血液および血液形成器官に作用する薬物、免疫系に作用する薬物、非アヘン鎮痛剤、抗炎症薬、血漿脂質調節剤、局所的コルチコステロイド、タール、ジスラノール、亜鉛製剤、レチノイド、抗菌化合物、角質化治療薬、外寄生生物を治療する薬物、皮膚の新生物性障害を治療する薬物、抗ヒスタミン剤、皮膚の疱疹障害の治療剤、スルホンアミド、スルホン、トリメトプリム−スルファメトキサゾール、アミノグリコシド、テトラサイクリン、クロラムフェニコール、エリスロマイシン、タンパク質合成阻害剤、フルオロキノロン、キノロン、ニトロフラン、メセナミン、β−ラクタム抗生物質、マイコバクテリア感染症を治療する薬物、抗真菌剤、抗ウイルス薬、抗寄生生物薬、および癌化学療法薬を含めた任意の薬物治療に適用し得る。
【0142】
さらに、本発明の原理をヒト以外の種に適用し得る。分類および解析を行うために血清を利用することを記載したが、本発明の原理の様々な側面を、癌患者が抗癌薬に応答した他の癌患者の特徴を有するかどうかを決定するために、他の液体または組織試料を用いて識別ピークを有することができるスペクトルを生成することによって、同様に適用できることが理解されよう。
【0143】
既に記載した説明は、本発明を実行するための小数の実施形態のものであり、範囲を限定することを意図しない。当業者は、この発明を詳述した領域よりも他の領域を実行するために用いる方法および変形をすぐに予見するであろう。以下の特許請求の範囲は、より詳細に開示した本発明のいくつかの実施形態を記載する。
(このページの残りの部分は意図的に空白のままにしてある)
【図面の簡単な説明】
【0144】
【図1】図1は、研究室試験処理センター(laboratory test processing center)、癌研究診療所(cancer research clinic)、および癌患者診療所(cancer patient clinic)の間の関係の例のブロック図であり;
【図2】図2は、図1の研究室試験処理センター、癌研究診療所、および癌患者診療所の間の情報を伝達および処理するためのシステムの例のブロック図であり;
【0145】
【図3】図3は、癌患者が本発明の原理に従った抗癌薬に応答するかどうかを決定するための試験を展開するワークフロー工程の例の流れ図であり;
【図4】図4は、試験の展開に用いられるすべてのスペクトルのゲルプロットの例の画像であり;
【図5】図5は、ノイズおよびシグナル成分を有する分光計から出力するデータ点のセットの例を示すヒストグラムであり;
【0146】
【図6A】図6Aは、スペクトルからバックグラウンドを除去した後のバックグラウンドありのスペクトルを示すグラフであり;
【図6B】図6Bは、スペクトルからバックグラウンドを除去した後のバックグラウンドなしのスペクトルを示すグラフであり;
【図7A】図7Aは、図7Bに示されるスペクトルの比較を単純化するために完全に前処理した複数のスペクトルを示すグラフであり;
【図8A】図8Aは、重ね合わせた複数の試料スペクトルを示すグラフであり;
【図8B】図8Bは、重ね合わせた複数の試料スペクトルを示すグラフであり;
【0147】
【図9】図9は、特定の幅を有するx個を超えるスペクトルによく見られるピークを位置づけることによる、形状的特徴を選択するための工程の例のグラフであり;
【図10】図10は、それぞれの群において、すべての利用可能なテスト開発サンプル(test development sample)にわたって平均化した、臨床群のPD、PD−初期、PR、SD−短、およびSD−長における平均スペクトルを代表するグラフであり;
【0148】
【図11】図11は、2つの異なった種類の疾患進行を代表するクラス標識したスペクトルの群の例の徴候(indicia)および分類されるべき試験スペクトルの徴候を示すグラフであり;
【図12】図12は、イタリア人の試料を訓練組として用い、日本人の試料を試験組(テストセット)として用いて得られ、本発明の原理に従って分類された患者群の生存率を示す試験データのカプラン・マイヤープロットであり;
【0149】
【図13】図13は、日本人の試料を訓練組として用い、イタリア人の試料を試験組として用いて得られ、本発明の原理に従って分類された患者群の生存率を示す試験データのカプラン・マイヤープロットであり;
【図14】図14は、試料の十分に盲検化されたセット(blinded set)について、分類アルゴリズムによって得られ、本発明の原理に従って分類された患者群の生存率を示す試験データのカプラン・マイヤープロットであり;並びに
【0150】
【図15】図15は、癌患者が本発明の原理に従って抗癌薬に応答するかどうかを決定するための工程の例のブロック図である。
【技術分野】
【0001】
背景技術
本発明の発明者は、質量分析で患者のバイオマーカーを試験することによって、患者が治療に応答するかどうかを決定する新規の方法を見出している。本発明の一つの態様の例として、本発明者は、これらの技術を癌、すなわち非小細胞肺癌(NSCLC)に適用している。
【0002】
非小細胞肺癌は、米国において男女共に癌の中で一番多い死亡原因である。少なくとも4つの異なった型のNSCLC、例えば腺癌、扁平細胞、大細胞癌、および気管支肺胞癌が存在する。肺の扁平上皮(類表皮)癌は、喫煙に最もよく関連している顕微鏡的癌(microscopic type of carcinoma)である。肺腺癌は、米国における全肺癌症例の50%以上を占める。この癌は女性に多く見られ、さらに非喫煙者に最も頻繁に見られる型である。大細胞癌、特に神経内分泌特性を有するものは、一般に、脳への腫瘍の広がりに関連している。NSCLCが血流に入った場合、それは遠隔部位、例えば肝臓、骨、脳、および肺における他の場所に広がりうる。
【0003】
NSCLCの治療は、長年にわたって比較的不十分なものであった。化学療法は、進行癌の治療の柱であるが、限局性癌を除いて効果はごくわずかである。手術は、NSCLCについて最も治癒的な治療法の選択肢である可能性があるが、癌の病期によっては必ずしも可能とは限らない。
【0004】
NSCLC患者を治療する抗癌薬を開発するための最近のアプローチは、癌細胞が増殖および分裂する能力を低減または除去することに集中している。これらの抗癌薬は、増殖するか死ぬかを細胞に命じる細胞へのシグナルを破壊するのに用いられる。通常は、細胞増殖は、細胞が受けるシグナルによってきちんと制御されている。しかしながら、癌においては、このシグナル伝達が異常になり、細胞は制御できない形で増殖および分裂し続け、それによって腫瘍を形成する。これらのシグナル伝達の一つは、体内の化学物質(上皮増殖因子と呼ばれる)が、体内の多くの細胞表面に見られる受容体に結合した場合に始まる。上皮増殖因子受容体(EGFR)として知られる受容体は、細胞内に見られるチロシンキナーゼ(TK)と呼ばれる酵素の活性化を通して、細胞にシグナルを送る。該シグナルは、細胞に増殖および分裂することを知らせるのに用いられる。
【0005】
開発され、NSCLC患者に処方される2つの抗癌薬は、ゲフィチニブ(商標名「イレッサ」)およびエルロチニブ(商標名「タルセバ」)と呼ばれる。これらの抗癌薬はEGFR経路を標的とし、NSCLC癌の治療に有効であることが期待されている。肺癌細胞、並びに正常組織における他の癌に存在し、癌細胞の増殖に重要であると思われる酵素チロシンキナーゼを、イレッサは阻害する。イレッサは、2つの他の型の化学療法薬の後、またはそれらに応答せずに進行しているNSCLCの治療の単剤として用いられている。
【0006】
しかしながら、応答率(response rate)は白人人口のわずか10%から20%の間であり、連邦薬物管理機構(Federal Drug Administration)(FDA)は1995年に第二選択治療(second-line treatment)としてのイレッサの適用の支援を中止するに至った。驚くべきことに、アジアでの応答率はかなり高く、イレッサはまだ使われている。タルセバは今までどおり認可され、日常的に患者に与えられるが、応答率でまだ不安が残る。イレッサおよびタルセバが一部の患者には有効である能力を有するように見えるが、これらはすべての患者を治療するのに有効な後発医薬品とはなり得ない。これらの薬物に応答する患者の能力に関与している、現在未知の多くの因子が存在しうる。しかしながら、NSCLC患者がこれらの抗癌薬に応答する効力を予測するのに用いられうる因子が決定されれば、FDAは、これらの薬物に応答することを示す条件を有する患者に、これらの抗癌薬が処方されることを認めうる。次いで医師は、その患者が該治療に応答するという情報を用いて、抗癌薬に応答すると予測された患者に、これらの薬物を処方しうる。
【0007】
概要
薬物を用いた治療の成功の割合が低いという問題を克服するために、本発明の原理によって、患者がこれらの薬物療法に応答するかどうかを決定するための診断検査が提供される。患者の血液から抽出した血清から、質量分析計によって得られたスペクトルの識別ピークを検出することによって、該決定がなされる。バイオマーカーは、正常または異常な生物学的過程または発病過程の指標として評価されうる、測定可能および定量化可能な生物学的パラメータである。質量分析計は、薬物治療に応答しおよび応答しなかった患者の血清から得られたスペクトルと比較するのに利用されうる特定のピークを有するスペクトルを得る。多くの場合、何の化合物がピークに位置しているかを実際に決定する必要はない。スペクトル自身は、特定の患者における該薬物についての治療可能性を評価しうる重要な指紋である。本発明のいくつかの態様には、ピークの中にある物質を単離すること、および試料中で何の物質が増加または減少しているかを決定することが含まれる。
【0008】
より具体的には、本発明の原理は、疾患または障害を有する患者が、疾患または障害を治療するのに用いられる薬物または治療に応答するかどうかを決定する工程に関する。該工程には、患者の血清から質量分析計によって得られた試験スペクトルを得ることが含まれる。該試験スペクトルは、同一または類似の臨床段階の疾患または障害を有しており、かつ薬物に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定するために処理されうる。該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかについて決定がなされうる。試験スペクトルの処理において、試験スペクトルのバックグラウンド低減、正規化(normalization)および重ね合わせを行って、該試験スペクトルを、同一または類似の方法で処理しているクラス標識したスペクトルの群とさらにマッチさせてもよい。生スペクトルを処理してクラス標識スペクトルを生成させることによって、特定の臨床に依存せず、患者の血清を処理するのに用いられる質量分析計に依存せずに、該薬物が有効かどうかの決定がなされうる。
【0009】
本発明の原理に従った他の態様には、患者が薬物または治療に応答するかどうかを決定するシステムが含まれる。疾患もしくは障害を有する患者から得た血清から質量分析計によって得られた試験スペクトル、および同一もしくは類似の臨床段階の疾患もしくは障害を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群を保存するように形成された記憶装置が、該システムに含まれうる。このようなシステムには、記憶装置と通信するプロセッサであって、
(i)疾患もしくは障害を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得し;
(ii)該試験スペクトルを処理して、同一または類似の臨床段階の疾患もしくは障害を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定し;
(iii)該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物に応答するかどうかを決定するためのソフトウェアを実行するプロセッサがさらに含まれうる。一つの態様において、該システムは、試験スペクトルを試験用に伝達する実験室および診療所と連絡を取るために、ネットワーク、例えばインターネットと通信している。該クラス標識したスペクトルの群に対する該試験スペクトルの関係の決定には、該患者が該薬物または治療に応答する可能性の指標またはクラス標識した代表(class label representative)を出力することが含まれうる。医療専門家が薬物または治療を処方するかどうかを決定しうるように、該指標は、正、負、または不確定でありうる。いくつかの態様において、該疾患または障害は癌である。他の態様において、癌の型は非小細胞肺癌である。さらに別の態様において、該システムは、薬物ゲフィチニブおよび/またはエルロチニブが非小細胞肺癌の患者の治療に有効かどうかを決定するのに利用されうる。
【0010】
図面の詳細な説明
図1は、研究室試験処理センター102、癌研究診療所104a〜104n(104と総称)、および癌患者診療所106a〜106m(106と総称)の例示的な関係性を示すブロック図である。研究室試験処理センター102は、癌研究診療所104および癌患者診療所106からの試験を処理するために稼動する。一実施形態では、癌研究診療所104および癌患者診療所106は、病院などの同じ組織の一部である。癌研究診療所104では、患者を治療するための特定の薬物の有効性を決定するために、薬物の治験および試験を行う。たとえば、癌細胞の成長および拡散を制御するために様々な抗癌薬の臨床研究および試験を受けた、非小細胞肺癌に罹患している患者は、抗癌薬に対して様々な応答を有する。これらの抗癌薬には、表皮増殖因子受容体経路を標的とするゲフィチニブおよびエルロチニブが含まれ得る。臨床研究および非臨床研究中、癌研究診療所104では、抗癌薬の有効性を決定するために、癌の段階、血液成分、癌の進行、患者の全体的な健康、および患者の指標となる他の要因を含めた治療の様々な側面を注意深く監視する。
【0011】
癌研究診療所106は、臨床研究を行う、または他の様式で癌の医薬品を癌患者に投与して医薬品の有効性を監視する、任意の施設であり得る。癌研究診療所104では、血液試料を採取し、それを処理して、フィブリンなどの凝固因子を除去した血漿(血液細胞が懸濁した血液の液体成分)である血清を生成し得る。血清中のバイオマーカーを検出できるように、血清を処理して、質量分析装置によってスペクトルを生成するためにそれを用い得る。一実施形態では、質量分析装置は、マトリックス支援レーザー脱離/イオン化(MALDI)を用いる飛行時間(TOF)質量分析装置である。スペクトルには、血清中の特定の化学薬品または物質の指標となる、スペクトル内の代用マーカーまたはピークが含まれ得る(図11参照)。
【0012】
質量分析装置で患者のスペクトルを生成した結果、臨床結果をもたらすために癌患者に投与する抗癌薬の有効性を記録および観察し得る。研究室試験処理センター102では、患者の記録した結果(定量的)および観察した結果(全体的な健康)を使用して、それぞれの癌患者が抗癌薬(または複数の抗癌薬)に対して応答性であるかどうかに関して、それぞれの癌患者の分類を決定し得る。
【0013】
引き続き図1で、質量分析装置で患者のスペクトルを生成した結果、臨床結果をもたらすために癌患者に投与する抗癌薬の有効性を記録および観察し得る。研究室試験処理センター102は、生スペクトルを関連する既知の臨床結果108と共に癌研究診療所から受け取り、それぞれのスペクトルの分類を行う。本明細書中以下に詳述するそれぞれのスペクトルの分類では、抗癌薬を受けている癌患者に関連するそれぞれのスペクトルを、応答性、非応答性、または部分的に応答性として分類する。スペクトルの分類により、研究室試験処理センター102が、癌患者診療所106から試験スペクトル110a〜110m(110と総称)を受け取り、これらの試験スペクトル110の解析を行って、それぞれの試験スペクトル(すなわちそれぞれの患者)が類似している可能性の高い分類がどれであるかを決定することが、可能となる。あるいは、生スペクトルを受け取る代わりに、研究室試験処理センター102は、血液試料または血清試料を受け取り、それを処理して、処理および分類のための生スペクトルを生成し得る。
【0014】
生スペクトルの分類にあたって、癌患者が抗癌薬に対して肯定応答、応答なし、または限定された応答を有していたかに基づいて、それぞれのスペクトルが「良好」または「不良」であるかの決定を下す。癌患者の試験スペクトルをクラス標識したスペクトルと比較することによって、試験スペクトルを作成した癌患者が抗癌薬に対して肯定応答を有する可能性に関して決定を下すことができる。比較プロセスのより詳細な説明を本明細書中以下に提供する。研究室試験処理センター102が試験スペクトル110を分類した後、かつ所望により癌患者が抗癌薬に対して肯定応答を有するかどうかの決定を行った後、たとえば分類結果112a〜112m(112と総称)を対応する癌患者診療所108aに送り得る。一実施形態では、分類結果は、本明細書中以下にさらに記載する、分類関数によって生成されたクラス標識である。
【0015】
別々に示しているが、研究室試験処理センター102は癌研究診療所104または癌患者診療所106の一部であり得る。一実施形態では、研究室試験処理センター102は、試験装置と連動して稼動する質量分析装置または処理システムなど、試験装置に機能的に組み込まれている。あるいは、機能性は、スペクトルの処理および分類に利用される様々な処理を行うように構成されているコンピュータシステムまたは他の処理システムに組み込まれおり、試験装置の一部またはそれに関連していなくてもよい。たとえば、コンピュータシステムは、研究室試験処理センター102、診療所研究診療所(clinic research clinic)104、および/または癌患者診療所106によって稼動されるサーバであり得る。
【0016】
図1は癌の診療所を記載しているが、これらの診療所は一般的な診療所または特定の疾患または疾病に特異的な診療所であり得ることを理解されたい。したがって、研究室試験処理センター102は、本発明の原理に従って、送られる特定の疾患または疾病を受け取って試験するように構成されている。
【0017】
図2は、図1の研究室試験処理センター102、癌研究診療所104、および癌患者診療所106間で情報を通信および処理するための例示的なシステム200を示すブロック図である。研究室試験処理センターのコンピュータシステム202は、研究室試験処理センター104によって稼動され得る。癌研究診療所のサーバ204a〜204n(204と総称)は癌研究診療所104によって稼動されてもよく、癌患者診療所のサーバ206a〜206m(206と総称)は癌患者診療所106によって稼動されてもよい。コンピュータシステム202ならびにサーバ204および206のそれぞれは、デジタルデータパケット209a〜209bまたは当分野で理解されている他の通信技術によって、ネットワーク208で通信し得る。ネットワーク208は、インターネットまたは他の公開もしくは非公開の通信ネットワークであり得る。
【0018】
研究室試験処理センターのコンピュータシステム202には、本明細書中以下にさらに記載するように、本発明の原理に従って生スペクトルおよび試験スペクトルを処理して、その全体または一部分の分類を決定するためのソフトウェア212を実行するプロセッサ210が含まれ得る。コンピュータシステム202にはさらに、メモリ214(ソフトウェア212は実行される際にそこに存在し得る)、入出力(I/O)装置216(ネットワーク208で通信を行い得る)、および記憶装置218(それにプロセッサ210が通信する)が含まれ得る。記憶装置218には、1つまたは複数のデータベース220a〜220n(220と総称)が含まれていてもよく、研究室試験処理センター102が、癌患者が抗癌薬に対して応答性となるかどうかを決定することを可能にするために、ここに生スペクトル、試験スペクトル、および他の関連するデータが格納される。記憶装置218には、1つまたは複数の記憶装置が含まれていてもよく、また、コンピュータシステム202の内部または外部に位置していてもよいことを理解されたい。さらに、プロセッサ210には1つまたは複数のプロセッサが含まれ得ることを理解されたい。さらに、コンピュータシステム202は、ネットワーク208と直接または間接的に通信していてよいことを理解されたい。
【0019】
図1に従って、癌研究診療所のサーバ204は、生スペクトルを、抗癌薬の臨床治験に基づいた関連する既知の臨床結果と共に、研究室試験処理センターのコンピュータシステム202に通信し得る。プロセッサ210は、自動的または半自動的に、科学者の支援の下または他の様式で、それぞれの生スペクトルを分類するための分類処理を行って、生スペクトルを分類して分類されたスペクトルの群を形成し得る。同様に、癌患者診療所のサーバ206は、試験スペクトル110を癌患者診療所108用にプロセッサ210に自動的または半自動的に分類させるために、試験スペクトル110を研究室に通信し得る。研究室試験処理センターのコンピュータシステム202は、試験スペクトル110を処理し、分類結果112(図1)を癌患者診療所のサーバ206に通信して戻し得る。生スペクトルおよび試験スペクトル112を分類した結果、コンピュータシステム202は、分類結果を格納し、結果を利用して抗癌薬の成功率または失敗率などの様々な他の目的に使用し得る統計的情報を生成し得る。
【0020】
データ解析は、異なる臨床成績を有する患者からのスペクトルを識別するピークの検出の発見、および免疫組織化学的アッセイの発見の手掛かりとしてのその使用、または質量分析に基づいた診断でのその直接使用において、中心的な役割を果たす。本発明の原理に従った試験および解析手順の開発にあたって、質量スペクトルの比較解析のために設計されたアルゴリズムを含む統合解析システムが開発された。統合解析システムには、質量スペクトルからスペクトル中の識別ピーク(differentiating peak)を検出することを容易にするいくつかのツールが含まれ、同時に、その結果の有意性および妥当性確認を評価するための厳密なツールを提供する。
【0021】
図3は、本発明の原理に従って、癌患者が抗癌薬に対して応答性となるかどうかを決定するための試験を開発かつ行うための例示的なワークフロープロセス300を示す流れ図である。このプロセスは、試料を癌患者から採取する工程302で開始する。癌または他の疾患の種類に応じて、スポットした組織(spotted tissue)、細胞溶解液、または切断した細胞(cut cell)を、質量分析装置304によってスペクトルを生成するための試料として利用し得る。質量分析装置は、ABI Voyager、ABI4700、Bruker AutoflexまたはBruker Ultraflex質量分析装置であり得る。他の質量分析装置も同様に利用し得る。非小細胞肺癌の場合、スペクトルを生成するために血清を用い得る。血清を用いることによって、患者の組織試料を採取することが困難または不可能である肺癌の進行期にある肺癌患者を、侵襲性手順なしに診断し得る。さらに、特定の抗癌薬が非小細胞肺癌に罹患している癌患者の治療に有効となるかどうかを決定するために、尿などの体液を、質量スペクトルでピークを検出するための試料として利用し得る。血清または他の液体を採取するために非侵襲性手順を利用することによって、診断のコストは、肺からの組織試料が必要な場合よりも顕著に低くなる。
【0022】
試験研究に用いる血清の作製および処理には、個々の病院からの粗血清試料を使用することが含まれ得る。一実施形態では、粗血清試料を氷上で解凍し、1500rpmで5分間、4℃で遠心分離し得る。さらに、血清試料を、MilliQ水で、コロラド大学厚生科学センター(University of Colorado Health Sciences Center、UCHSC)で行うように1:10に、またはバンダービルト大学医療センター(Vanderbilt University medical Center、VUMC)で行うように1:5に希釈し得る。希釈した試料を3つ組でMALDIプレート上のランダムに配置した位置にスポットし得る(すなわち、3つの異なるMALDI標的上)。0.75μlの希釈した血清をMALDIプレート上にスポットした後、0.75μlの35mg/mlのシナピン酸(505アセトニトリルおよび0.1%のTFA中)を加え、ピペットで5回吸ったり吐いたりすることによって混合し得る。プレートを室温で乾燥させ得る。本発明の原理に従って血清を調製および処理するために他の技術および手順を利用し得ることを理解されたい。
【0023】
陽イオンの質量スペクトルは、直線モードで、Voyager DE−PRO(UCHSC)またはDE−STR(VUMC)を用いて、スペクトルの自動または手動収集で取得し得る。1つの研究では、それぞれのMALDIスポット内の7箇所(UCHSC)または5箇所(VUMC)の位置から75個(UCHSC)または100個(VUMC)のスペクトルが収集されて、平均525個(UCHSC)または500個(VUMC)のスペクトルがそれぞれの血清検体について作成された。スペクトルは、タンパク質標準の混合物(インスリン(ウシ)、チオレドキシン(イー・コリ)、およびアポミオグロビン(ウマ))を用いて外部較正した。妥当性確認の目的のためにすべての検体について同じ試料で3回の反復を行った結果、本研究において合計717個のスペクトル(239個の検体×3)が解析に提出された。
【0024】
データ解析を行うにあたって、癌細胞は、正常細胞とは異なる特異的タンパク質の異なる発現レベルを有することが一般に受け入れられている。疾患の異なる段階は、特異的タンパク質の変化、たとえば、転移癌の場合は細胞結合タンパク質の発現レベルの変化を伴う。血清試料の場合、また血清試験を組織試料試験から線引きするために、直接腫瘍排泄物を測定することは、これらの排泄物が血液中で希釈されるので、可能性が低い。血清(または他の体液)試料中の識別ピークは、自己免疫反応などの病状に依存する宿主応答反応によりすべての尤度で生じる。したがって、組織試料に基づいた試験は特異度が高いが、必ずしも非常に有意でなく、血清に基づいた質量分析装置の試験は非常に有意であるはずであるが、それほど特異的でないことが予測される。このことは、本明細書中以下に提供する結果によって生まれた。スペクトル中の識別ピークを検出することによって、変化と臨床的に意味のある質問との対比を行い得る。診断的ツールとして直接、または免疫組織化学に基づいた試験の手掛かりとしての、そのさらなる使用とは独立して、値のスペクトル内で識別ピークを生成するためには、データ解析段階を含めた識別ピークの発見プロセス中に以下の問題に取り組み得る。
【0025】
再現性:解析の結果は再現性があるべきである。バイオマーカーは、様々な患部および対照群中で繰り返して発見することができる識別ピークによって同定してよく、これらの識別ピークに割り当てた値は1つの群内で変動しすぎてはならない。再現性の簡単な基準として、診断的試験を評価するための標準となっている変動係数(CV)を、プロセッサ上で実行するソフトウェアによって提供し得る。1つの群内、さらには同じ試料内でのマーカーの変動を測定し、特徴づけ、下流の解析および分類に用い得る。
【0026】
頑健性(robustness):識別ピークは、試料の調製および取扱いにおける回避不可能な変動に対して、ならびに質量分析装置の特徴の傾向から生じる変動に対して頑健であるべきである。患者間変動の別の理由は、患者の生物学的状態の無関連の差異、たとえば、試料収集時の消化状態から生じる。関連性のない変化を生物学的有意な変化から識別するための基準を開発し得る。多次元の特徴空間(たとえば12個の識別ピーク)からクラス標識空間(たとえば、「良好」、「不良」、または「未定義」)をマッピングする関数である分類子(すなわち分類関数またはアルゴリズム)の設計において、および特徴抽出中において、データ解析パラメータに小さな変化を行う間に、実際の識別ピークはそれほど変化しないはずである。同じように配置された識別ピークが異なるデータ組(データセット)中で見つかるはずである。
【0027】
解釈性:生じる識別ピークを生物学的解釈性のコンテキストに置き得る。最初に、同定した識別ピークは、一般に質量スペクトル中で視覚的に目立つ。識別ピークのm/z位置は、これらの識別ピークを生じる根底にあるバイオマーカーの生物学的関連性に関する貴重な情報を与える。これにより、生物学的に関連性のない手順から生じる識別ピークの解釈およびフィルタリングが可能となる。たとえば、純粋に試料調製の人為的結果である癌試料対正常試料の異なるヘモグロビン含有量の測定。一部の場合では、スペクトルの臨床的に意味のある識別ピークがスペクトル中の複数の特徴の非直線的な組合せのものであり、単純な上方/下方調節ではないという結果になり得る。この場合でも、スペクトル中の特徴を構成する識別ピークは目に見えるはずであり(図4)、マーカーを評価するために用いる関数は明確であるべきである。
【0028】
感度:試料を収集して質量スペクトルを生成するためには、通常、大変な努力が尽くされる。また、スペクトル中でこれらの識別ピークを実際に見つけるために十分に選択的または高感度でないデータ解析アルゴリズムを用いることによって質量分析装置のスペクトル中の関連する識別ピークが失われることを回避するために、高度の注意も払う。たとえば、あるm/z範囲が特徴に関連すると定義された場合は、この範囲は、特徴を含むように十分大きく、スペクトル中に存在する他の特徴と一緒に塊となっていないべきである。範囲を選択するアルゴリズムのパラメータは、データ自体に、所望により局所的な様式で由来し、外部の平滑化およびピニング(pinning)パラメータに依存しない場合がある。
【0029】
識別ピークを抽出するために質量スペクトルを比較する作業は、内因性の強度変動によるこれらのスペクトル特異的な性質によって困難になる。個々のイオンのイオン化の確率は局所的な試料の化学(たとえばイオン抑制効果)に依存し、近年の質量分析装置の質量分解能は大抵の場合十分であるが、絶対質量スケール(mass scale)はスペクトル毎に変動する場合がある。
【0030】
本発明の原理に従って、これらの変動(バックグラウンドの変動の場合)を低減もしくは排除するために、または局所的なノイズレベルを推定することによってシグナルの関連する有意性を評価する手段を提供するために、質量分析装置に特異的な変動を測定し得る。データの前処理および解析から生じるさらなる変動の導入を回避することを達成し得る。たとえば、多くの質量分析装置としばしばバンドルされているピークを選択するソフトウェアは、これらのピークを比較スペクトル解析で直接使用するには信頼性がないことが見い出された。代わりに、スペクトルの比較に対する初期の試みでは、その比較および分類アルゴリズムに全質量スペクトル自体を使用することとなった。しかし、全スペクトルには何千個もの個々のデータ点が含まれ、そのほとんどは、関連する情報のみが質量スペクトル中のピークに限られている機器ノイズの測定値である。さらに、スペクトル中の特徴の解釈は複雑であり、神経回路網に基づいた分類アルゴリズムの場合では非直線的の場合もあり、非常に厄介となる。その結果、血清試料を分類するこれらの試みの適用は、他の研究室では再現できない誇張された主張をもたらしている。
【0031】
図4は、分光計によるマーカー出力の例示的なゲルプロット404を示す図である。安定疾患(SD)、進行性疾患(PD)、および部分応答者(PR)を含めた世界保健機構(WHO)の標準の進行標識を用いてスペクトルを臨床的に標識する。しかし、SD−短、SD−長、およびPD−初期の3つの追加の標識を含めた、主な臨床標識を極端な臨床標識へと分離する細かい臨床標識を作成する。ゲルプロットとは、それぞれの線が臨床試料の1つの質量スペクトルに対応し、水平軸が質量/電荷軸であり、グレースケールが強度を示すプロットである。臨床標識402をゲルプロット404上に提供し、水平線404が異なる臨床標識を線引きする。ゲルプロット404は、分類子アルゴリズムを訓練するために用いたすべてのスペクトルのものである(すなわち、癌研究診療所から受け取った、癌治療としてイレッサを受けたイタリアおよび日本の非小細胞肺癌患者の対照群のスペクトル)。識別ピークは、406および408でスペクトルのそれぞれ上に視覚的に見ることができるが、精度および他の定量的な目的のために定量測定する。
【0032】
これらの測定の問題の一部を回避するにあたって、生質量スペクトルの前処理を行って、質量分析プロセスの関連性のない人為的結果を除去および測定し、それらを類似のm/zおよび振幅スケールに登録し得る。
【0033】
引き続き図3で、工程306のプロセスでデータの前処理を行う。前処理には、バックグラウンドの除去、ノイズの推定、正規化、ピークの選択、およびスペクトルの重ね合わせ(アラインメント)(alignment)のうちの任意のものまたはすべてが含まれ得る。これらのプロセスを図5〜10に例示し、本明細書中以下に記載する。
【0034】
図5は、ノイズおよびシグナルの構成要素を有する分光計からのデータ点の出力の例示的な組を示すヒストグラム500である。バックグラウンドまたはベースラインとは、質量スペクトルのゆっくりと変動する構成要素、すなわち、m/zの範囲にわたるデータの徐々の全体的なシフトである。機能定義としては、バックグラウンドは、電子、ランダムイオンから生じるノイズとは対照的に、電荷の蓄積効果または非直線的な検出器の特徴または部分的なイオン崩壊などから生じることができるシグナル強度の滑らかな変動であり、迅速に周期的変動する(m/zで)。
【0035】
バックグラウンドをモデリングし、したがって除去することができる。ノイズは統計的な周期的変動であり、その強度のみを測定することができる。さらに、バックグラウンドは、分解されない「ごみ」イオンによって引き起こされる場合があり、ピーク検出などのさらなるデータ処理工程を意味があるように行うことができる前に、推定および除去し得る。バックグラウンドは、頑健な局所的な統計的推定法則を用いて推定し得る。データ中のノイズの強度の信頼性のある推定値を得ることは、続くシグナル対ノイズ(S/N)比の基準に基づいたピーク検出に利用する。そのような推定法則は、任意のスペクトル比較作業でも誤差の尺度を提供するために用いる。バックグラウンドの推定と同様、非対称の頑健な推定法則(asymmetric robust estimators)を利用してこの作業を行い得る。
【0036】
バックグラウンドは、データ点のほとんどの数が含まれるように示し、シグナルにはより少ないデータ点が含まれる。バックグラウンドは、相関解析および最適な分離を用いた反復によって決定し得る。バックグラウンドは生物学的に関連性のある情報を含まず、スペクトル間で変動するので、振幅情報は、バックグラウンドの値をそれぞれのスペクトルから除去することによってより比較可能にし得る。このプロセスは、その全体が本明細書中に組み込まれている、2004年7月7日出願の同時係属特許出願第10/887,138号に記載されている。
【0037】
図6Aおよび6Bは、それぞれ、バックグラウンド602ありのスペクトルおよびバックグラウンドをスペクトル604から除去した後の、バックグラウンドなしのスペクトルを示すグラフ600aおよび600bである。血清では一般的なように、血清プロテオームの存在量の自然な周期的変動が原因で可変性が高いピークが存在する。さらに、イオン化された試料の量は、レーザー出力の変化、イオン化可能な試料の量の変動、およびMALDIプレート上でのレーザーの配置の変動が原因で、スペクトル間で周期的変動する場合がある。この周期的変動は、これらのピーク中の周期的変動が目的のピークに伝わるにつれて有用性が低くなる、全イオン電流の正規化などの標準の正規化ルーチン(すなわち、スペクトル全体にわたる正規化)を与える。部分的正規化(すなわち、これらの可変性ピークおよび領域を同定し、それを排除するスペクトルにわたる正規化)を利用して、周期的変動する結果を排除し、それにより再現性のある結果を提供し得る。
【0038】
より詳細には、部分イオン電流(partial ion current)の正規化を以下のように誘導し得る。質量スペクトルには、m/zの上行方向に並べたデータ点、対(m/z、振幅)が含まれる。スペクトルが飛行時間の機器で得られる際に、m/z軸は値域(bin)へと分けられると見なされる。それぞれのデータ点は対応する値域を表し、その振幅は値域中のイオンの計数(すなわち、値域中のイオン電流)を表す(それに比例する)。
【0039】
したがって、スペクトル中の全振幅の合計は、「全イオン電流」(TIC)である。これは、質量分析装置の検出器に到着するイオンの合計数に対応する。全イオン電流に対する正規化とは、それぞれのスペクトルについて、対応する正規化したスペクトル(m/z=最初のm/z、振幅=(正規化因子)*(最初の振幅))が同じ(規定の)全イオン電流、たとえば100を有するように正規化因子を選択することを意味する。
【0040】
一般に、全イオン電流の正規化はバックグラウンドの除去を行った後にのみ意味を成す。そうでなければ、全イオン電流は、ピークなどの意味のあるシグナル中のイオン電流によってではなく、統合されたバックグラウンドによって支配される。言い換えれば、全イオン電流はすべての利用可能なイオンを統合し、大きなピークによって支配される。ピークの可変性が高い場合は、全イオン電流も可変性が高く、したがって正規化の変動が引き起こされ、これは識別特徴の偽陽性検出をもたらす可能性がある。
【0041】
本発明の原理に従って、「特徴(形状的特徴)」(ピークなどの何らかのシグナルを含むことにより「空でない」、すなわち「純粋なバックグラウンド」ではないように見えるm/z軸の間隔)を検出する。特徴とは、患者の対照群のユーザが定義したスペクトルの数よりも可視化されているピークである。一組の特徴(重なり合わないm/z間隔の集まり)を有することにより、より柔軟な正規化方法、「部分イオン電流(PIC)に対する正規化」の定義がもたらされる。部分イオン電流とは、指定した特徴の組(典型的には特徴の完全組の部分組)に属するすべてのデータ点のスペクトル中の振幅の合計である。部分イオン電流に対する正規化とは、それぞれのスペクトルについて、対応する正規化したスペクトル(m/z=最初のm/z、振幅=(正規化因子)*(最初の振幅))が同じ(規定の)部分イオン電流を有するように正規化因子を選択し得ることを意味する。一般に、可変性の高いピークは計算に含まれないので、部分イオン電流には、正規化に安定なピークを用いる。安定なピークを用いる結果、正規化プロセスに安定性がもたらされる。
【0042】
患者の対照群内のスペクトルからのピークをリストに含め、当分野で理解されている分割的クラスタリングアルゴリズムを用いてピークのクラスターを見つけ得る。
【0043】
【表1】
表I. PICの正規化からの特徴
表Iには、PICの正規化で保持されたすべての特徴の80%(PIC=0.8)のリスト(残った特徴組)を示す。m/z値はダルトンで示し、不確実度は1000ppmである(重ね合わせの後)。
【0044】
部分イオン電流の正規化の1つの極端な例は、特徴の完全組を用いて部分イオン電流を計算する場合である。この例は全イオン電流の正規化に類似しており、その違いは、スペクトルの「空」領域は全イオン電流に寄与するが、部分イオン電流には寄与しないことである。したがって、「空」領域中のノイズの寄与は部分イオン電流に含まれない。別の極端な例は、1つの特徴のみを用いて部分イオン電流を計算する場合である。これが最高のピークを含む特徴である場合、基底ピークの正規化が決定される。
【0045】
スペクトルの比較では、部分イオン電流の正規化の使用の裏にある理論は以下のとおりである。疾患および対照などの2つのスペクトル群を考える。スペクトルは100の位のシグナル(ピーク)を含み、シグナルのほとんどは群間で変化しないことが予測され、一方で一部のシグナルは上方または下方調節されていることができる。質量スペクトルでは、正規化していない強度はスペクトル間で直接比較可能でない。全イオン電流の正規化を用いる場合、上方または下方調節されたシグナルは僅かでありかつ弱いという仮定がなされ、したがって、これらは群間で変化していないシグナルを支配していることが仮定される全イオン電流を有意にゆがめない。しかし、実際には、必ずしもそうとは限らない。たとえば、上方調節されたシグナルが全イオン電流に有意に寄与するほど十分に強い場合、正規化したデータ中の他のシグナルは、実際には変化していなかった場合でも下方調節されたように見える。同様に、スペクトルが強いかつ強く変動するシグナルを含む場合は、正規化したスペクトル中の他のシグナルは、本質的に安定している場合でも増加した変動係数を示す。上方調節、下方調節または可変性の高い特徴を削除する一方で、全イオン電流の代わりに部分イオン電流の正規化を用い、最も安定した特徴を含む特徴の部分組を用いることで、増加した変動係数の問題を改善することができる。主要な問題は、この部分組をどのように選択するかである。
【0046】
部分イオン電流の部分組を選択するために、以下の手順を用い得る。いくつかのスペクトル群が得られた場合、この手順の目的のために、スペクトル群を1つの合わせた組へと合わせ得る。
最初に、特徴の部分組は特徴の完全リストに等しい。次に、以下の手順を数回反復して、最初の部分組よりも含む特徴が1つ少ない「最小可変性」の特徴の新しい部分組を生成し得る。
【0047】
このプロセスを以下のように継続し得る。
・最初の特徴の部分組を用いて、すべての特徴値(完全組)を部分イオン電流に対して正規化する。
・それぞれの特徴について、変動係数=(標準偏差)/(平均値)を計算する
・CVの絶対値に従って特徴を区分する
・この区分したリストから新しい特徴の部分組(最小の絶対値(CV)を有するもの)を選択する。最初の部分組よりも含まれる特徴が1つ少ない
・最初の部分組を新しい部分組で置き換える
終了基準は以下のとおりである。ユーザが2つの値を指定する。
・イオン電流の許容最低割合
・特徴の数の許容最低割合
【0048】
プロセスは、基準のいずれかが破られた際に終了する。したがって、ユーザが両値(すなわち、イオン電流および特徴の数の許容最低割合)を0.8として指定した場合、生じる特徴の部分組は、イオン電流の少なくとも80%(特徴の完全組から計算)、および特徴の少なくとも80%を含むことが保証される。値の任意のものについて1.0を指定した場合は、使用する特徴組の全体がもたらされる結果となる。典型的には、0.8が最適な結果のために使用するために大体正しい値である。しかし、用途に応じて、より高いまたは低い値を用い得る。その後、部分イオン電流に対して正規化した特徴値を分類および他の目的のために使用することができる。
【0049】
要約すると、部分イオン電流は以下のように決定し得る。
・CVを計算する
・最も大きなCVを有するピークを削除する
・最大CVが指定したレベルよりも小さくなった際に停止する
【0050】
部分イオン電流の実施は2つの演算を用いて計算し得る。第1の演算は、PIC共通因子で使用するための特徴のリストを計算する。この演算マーカーは、最初に2つの選択した特徴値の群を1つの二次元アレイへと併合し、行がスペクトル(すなわち試料)であり、列がCenterMZによって区分した特徴リストに順番に対応する特徴値である。この演算は、併合した特徴値に加えて2つのパラメータを取得する。これら2つのパラメータは、MinAllowedFracOfICおよびMinAllowedFracOfFeaturesである。MinAllowedFracOfICは、保持された特徴の部分組中のイオン電流の許容最低割合である。これらの特徴を保つことは、値1に対応する。MinAllowedFracOfFeaturesは、保持された特徴の部分組中の特徴の許容最低割合である。これらの特徴を保つことは、値1に対応する。この演算は、整数のArrayListを出力し、これは、共通因子で使用する特徴の指数を表す。
【0051】
PICの正規化を用いて特徴のリストに到達するために使用するアルゴリズムの一実施形態を以下の擬似コードに要約する。
【0052】
このアルゴリズムの数々の追加の軽微および主要な変形が当業者に明らかであり、特許請求した発明の一部として企図される。
この計算が完了した後、部分イオン電流の共通因子で使用する特徴のリストが決定される。
【0053】
第2の演算は、部分イオン電流の共通因子を用いて指定した群のすべての特徴値の再正規化を行うことである。最初に、前の演算からの指数の出力のリストによって指定した特徴値を用いて、それぞれのスペクトル/試料について正規化の値に到達する。その後、これらの正規化の値を用いて、特徴値の二次元アレイ内で指定した特徴値のリストを改変する。
【0054】
この関数は、以下の擬似コードによって表されるアルゴリズムを実行することによって達成する。
【0055】
このアルゴリズムの数々の追加の軽微および主要な変形が当業者に明らかであり、特許請求した発明の一部として企図される。
これらの2つの工程が完了した後、部分イオン電流の正規化が完了する。部分イオン電流の正規化は、個々のピークのCVの比較的劇的な低下をもたらす場合がある。分画(塩を除去するための樹脂)による試料の前処理の変動を測定する尿の再現性データでは、CVの低下は約2倍である。
【0056】
図7Aは、図7Bに示すスペクトルの比較を単純にするために正規化する複数のスペクトル702および704を示すグラフ700aである。示すように、2つのスペクトル702および704の特徴(たとえばピーク)は比較的整列しているが、異なる振幅を有する。この振幅の差異は、異なるスペクトル702および704の異なる強度をもたらす結果となる。部分的なイオンの正規化または他の正規化アルゴリズムを用いて2つのスペクトル702および704の正規化を行うことによって、2つのスペクトル702および704は実質的に重なり合い、図7Bのグラフ700bに示すように適切に比較することができる。
【0057】
図8Aおよび8Bは、複数の試料スペクトル802a〜802n(図8A)の重ね合わせを行ったもの802a’〜802n’(図8B)を示すグラフ800aおよび800bである。スペクトルの絶対質量スケールは相当に変動することができる。スペクトルは互いに対してシフトしていることができ、内部質量スケールさえも一定ではない。標準のプロテオミクス作業では、既知のm/z値でピークを生じさせるために特別な化合物を加える。その後、スペクトルを再較正することができ(すなわち、m/z値をこれらの外部較正物質に従って再スケールし得る)、ペプチドが予想される低質量の範囲において数十ppmの絶対質量精度を達成することができる。未消化試料の場合、較正物質を組織に加えることが困難な場合があり、また、較正物質は、イオン抑制効果が原因で関連性のあるピークを抑制する可能性があるので、多くの場合望ましくない。しかし、スペクトルの比較には、スペクトルを共通質量スケールに対して重ね合わせることで十分であり、この質量スケールが実際に質量の絶対尺度に対応することはそれほど重要ではない(すなわち、データベース検索を行わない)。共通ピークの同定は、図9に関して記載するように行い得る。
【0058】
スペクトルを重ね合わせるために、スペクトル群にわたる共通ピークを同定し得る。スペクトルからのピークを線上に置き、分割的クラスタリングアルゴリズムを用いて、以下の方法でこの大きなリストをクラスターのリストへと分離し得る。
【0059】
初期化:スペクトルのピーク位置を1つの順序づけたリストに整列させる(m/z値で)
最初の分離段階:最小の分離(典型的には30Da)を用いてこの長いリストをピークのクラスターへと分割し得る場合、それぞれの個々のピークが所望する最小の分離よりも密接している場合。その結果、密接したピークのクラスターのリストが得られ得る。
【0060】
細分離:これらのクラスターのそれぞれについて、ピーク差のヒストグラムを生成し得る。クラスター中のピークの中央値分離の2倍として定義される外れ値距離でのクラスターを分割してもよく、分割距離がピーク幅の2倍よりも小さい場合、またはこのm/z範囲での機器の分解能よりも小さい場合は、クラスターを分割しない。分割が起こる場合は、さらなる分割が起こらなくなるまで、2つの生じるクラスターで同じ解析を繰り返し行い得る。分割が起こらない場合は、次のクラスターに進む。
【0061】
その結果、m/zが密接しており、良好に分離されたクラスターのリストが得られる。それぞれのクラスターは、その中心(クラスター中のすべてのピークのm/z位置の中央値)、およびその幅(これらの位置の25%および75%)によって特徴づけることができる。あるいは、頑健性は弱まるが、平均および標準偏差を位置および拡散の尺度として用い得る。
【0062】
m/z範囲にわたって可能な限り均一に拡散した適正な平均強度の典型的には10の位のクラスターの選択を行い得る。これらの共通ピークに対してすべてのスペクトルの質量スケールを重ね合わせるための、それぞれのスペクトルの直線(二次)回帰も行い得る。一実施形態では、以下のクラスター中心を用い得る:6434.50、6632.18、11686.94、12864.88、15131.14、15871.47、28102.55
5000ppmの許容値で重ね合わせを行い得る、すなわち、任意のスペクトル中で重ね合わせの点がこの許容値内の指定した位置で見つからない場合は、この点を無視し得る。しかし、重ね合わせが行われなかった場合は、以下のものが特徴として検出されない:5764、8702、9426、11443、11686、21066、28102、28309。その結果、重ね合わせを行っていないスペクトルで可視可能なピークについて、特徴の中央標準偏差が4.63Daから3.68Daへと低下する
図8Bに示すように、これらの共通ピークのこの選択を用いて、スペクトルを共通m/zスケールに登録することができる。
【0063】
特徴抽出
引き続き図3で、工程308の特徴抽出プロセスを用いてスペクトルから特徴(たとえばピーク)を抽出する。これを行うにあたって、どの特徴を抽出するかの決定を下す。
【0064】
スペクトル、その平均および群の差の目視検査は、質量分析を用いて疾患の様々な状態または臨床段階を識別する能力に対する何らかの指針を提供するが、より定量的な分析を行い得る。識別ピークはスペクトル中のピークのm/z位置に基づく。そのような位置は、所定の群または特徴内の何らかのユーザが定義したスペクトルの数に共通している場合は、推定マーカーである。これらの特徴のリストをそれぞれの群について作成した後、それぞれの特徴に定義値を与えることができる。ピーク検索アルゴリズムのピーク幅設定を用いて、正規化してバックグラウンドを除去した振幅をこの範囲にわたって積分し、この積分値(すなわち、特徴の幅間の曲線下面積)を特徴に割り当て得る。このm/z範囲内にピークが検出されなかったスペクトルには、積分範囲はこの特徴の平均m/z位置の周りの間隔として定義してよく、幅は現在のm/z位置でのピーク幅に対応する。
【0065】
特徴の値は、同じ試料(たとえば血清もしくは組織)内、または同じ細胞種からの異なる試料内でさえスペクトル間で相当に変動することができる。ピークのm/z位置は再現性が非常に高いが、振幅は大きな周期的変動を示す。
【0066】
既に記載したように、特徴値の変動の尺度はその変動係数(CV)である。変動係数は、その平均値にわたる特徴の標準偏差の比として定義される。その中央値にわたる25%と75%と間の%範囲の比など、他の定義が可能である。用いるスペクトルのCV値の典型的な分布をヒストグラムで提供する。0.5未満のCV値で再現性の高い特徴値も存在するが、大多数の特徴が大きな変動を示す。このことは、抽出が些細なことではなく、際立った特徴を有する潜在的な識別ピークとして特徴を同定する前に特徴の周期的変動および分布を分析すべきである理由を強調する。
【0067】
引き続き図3で、特徴選択プロセスを工程310で行って、分類解析の実行で利用する特徴を選択する。特徴選択プロセスは図9に示すように例示し得る。
【0068】
図9は、特定の幅を有する「x」個を超えるスペクトルに共通するピークを探すことによって特徴(候補特徴)を選択する、例示的なプロセスを示すグラフであり、幅は重ね合わせ誤差+ピーク幅として定義される。特徴選択を行うにあたって様々な選択技術を利用し得る。示すように、3個のスペクトル902a〜902c(902と総称)が存在する。これらのスペクトル902を利用して特徴(たとえばピーク)904を探す。示すように、中央の垂直線906が特徴904の中央を通って伸び、これは複数のスペクトル902に共通し、横の垂直線908aおよび908bは特徴の幅を定義する(重ね合わせ誤差+ピーク幅)。
【0069】
識別特徴の選択は、3工程のプロセスで行い得る。第1に、すべての特徴を、すべての特徴が独立していると仮定する単純な仮説試験から得られた一変量のp値によって順序づける。一部の実施形態では、それぞれの特徴のp値を得るためにマン−ホイットニー試験を用い得る。2試料のt試験、コロモゴロフ スミルノフ試験などの他の方法が可能であるが、頑健性が弱まる。第2に、ボンフェローニ補正を用いて、群平均スペクトル(臨床群中のスペクトルの平均)を比較することによって最高ランク(最小p値)の特徴を検査する。特徴が群を識別しない場合は、候補から外す。第3の最後の工程では、クロスバリデーション誤差を成功の基準として用いて特徴選択を行い得る。この趣旨での様々な実施を、以下に概要を示す。
【0070】
関連性のある特徴の選択は、遺伝子マイクロアレイ実験では数千もの特徴および数個の試料が存在するので、より問題となる。特徴選択が一部の分類子の性能にそれほど影響を与えないというある程度の証拠が存在するので、特徴選択は、質量スペクトルデータを調査する際にバイオマーカーの同定にも問題となる。それにもかかわらず、数十個の特徴が存在する場合は分類結果の解釈は困難であり、実際には、これらの特徴すべてが関連性のあるものであるという期待はされない。
【0071】
疾患の様々な段階を識別するために、特徴のその重要度によるランク付けを行い得る。特徴を一度に1個ずつ選択することは容易であるが、数十個の特徴が存在する場合は、作業は、どの特徴が疾患の特定の段階に重要な特徴であるかを決定することがより困難となる。研究室間でバイオマーカーおよびスペクトルを比較するために、同じ特徴が同定可能でなければならず、試料の調製、機器の使用、および集団の変動の不確実性によって現れる特徴が識別可能でなければならない。
【0072】
特徴選択では2つのアルゴリズムの決定に面する。第1の決定は純粋に組合せである。合計m個の利用可能な(測定した)特徴内のl個の特徴の、すべての可能な組合せの完全検索は、
個の組合せをもたらし、たとえば、m=20、l=5では、この数は15504である。質量スペクトルでは典型的なように、数百個の利用可能な特徴が存在し、この組合せ数は完全検索には大きすぎる場合がある。また、lのどの値が最適であるかが容易に明らかとならない場合もある。したがって、特別な発見的検索戦略を用い得る。第2の決定は、どの特徴組が他のものよりも良好かを決定する独自の品質尺度を欠くことから生じる。特徴選択の1つの基準は分類性能である場合があるので、「ラップ方法(wrapper method)」は特徴選択を分類アルゴリズムの一部として埋め込む。これらの方法では、決定が困難な分類誤差の推定、理想的には一般化の誤差の尺度を用い、典型的には1つ残すクロスバリデーション(leave−one out cross−validation、LOOCV)、またはサポートベクターマシーン(Support Vector Machines、SVM)学習の場合はマージンに基づいた誤差境界によって近似する。代替方法には、分類子を生成する前に特徴選択を行うフィルタリング方法が含まれる。これらの手法のそれぞれは、それぞれ問題があり、妥当性確認に関して特別な措置を利用する。
以下にまず検索戦略を記載し、その後、一般的に用いる一組の品質尺度を記載する。
【0073】
特徴検索の戦略
ほとんどの検索戦略は「分断攻略」手法に基づいており、特徴選択基準を最適化する。特徴選択基準の具体的な選択には、重要度サンプリングモンテカルロの精神で確率的なサンプリングを用いること、または動的プログラミングなどの特別な最適化技術を用いることが可能であり得る。
【0074】
使用したように、ツリーに基づいたクラスタリングをすべての特徴を用いて開始してよく、特徴を1個ずつ削除してよい。あるいは、1個の特徴でプロセスを開始し、他の特徴を1つずつ追加してもよい。例として、4個の特徴が存在し得る{x1,x2,x3,x4}。
【0075】
トップダウン検索:
・{x1,x2,x3,x4}の特徴選択基準の値を計算してC4を得る。
・{x1,x2,x3}、{x1,x2,x4}、{x1,x3,x4}、{x2,x3,x4}のそれぞれの特徴選択基準の値を計算し、最良のもの、たとえば値C3を有する{x1,x2,x3}を選択する。
・{x1,x2}、{x1,x3}、{x2,x3}のそれぞれの特徴選択基準の値を計算し、最良のもの、たとえば値C2を有する{x1,x2}を選択する。
・最後に、最良の1個の特徴を、値C1を有する{x1,x2}から選ぶ。
・{C1,C2,C3,C4}の最良値が(次善)最適な特徴組を定義する。
【0076】
同様に、1個の特徴から開始し、1個ずつ追加することでボトムアップ検索が定義される。最適なより少ない(より多い)数の特徴の解答がこれらのツリーに従って展開される保証はないので、これは、必ずしも最適な解答を与えない。これらの単純な手順を改良する一方法は、既に捨てた特徴を再考すること、または既に選択した特徴を捨てることである。このアルゴリズムは当分野で理解されるフローティング検索方法と呼ばれ、以下のとおりである。
【0077】
フローティング検索方法:
以下にm個の特徴の固定数lの検索を記載する。特徴の数を最適化するためにl回のループを行い得る。フローティング検索方法はトップダウンまたはボトムアップ検索のどちらかに基づく。記載したアルゴリズムはボトムアップ方法に基づく。
【0078】
一組のm個の特徴を考える。目的は、そのうちk個の最良の部分組をk=1,2,・・・,l≦mについて検索し、Cを最適化することである。Xk={x1,・・・,xk}をk個の特徴の最適な組とし、Ym−kを残りのm−k個の特徴の組とする。2、3、・・・k−1個の特徴の低次元の最良の部分組X2,X3,・・・,Xk−1を記憶(ストレージ)(storage)に保存する。次の工程で、Ym−kの要素を引き出すことによって(k+1)個目の最適な部分組Xk+1を形成する。その後、これがCを向上させるかどうかについて、すべての低次元部分組にわたって確認を行い、既に選択した特徴を置き換える。アルゴリズムは以下のように実行される(Cは、大きければ大きいほど良い)。
・最良の1個の特徴を選択し、C1を有するX1が得られる。
・Cに基づいて別の特徴を追加し、X2およびC2が得られる。
ここでk回反復する。
・工程I、包含:ボトムアップアルゴリズムと同様に、Xkと組み合わせた場合に最良のCを与えるYm−kからの要素を選択する、すなわち
でXk+1={Xk,xk+1}を定義する。
・工程II、試験:
1.Xk+1から外した場合にコストCに与える影響が最も小さい特徴xrを探す。すなわち
である。
2.r=k+1、k=k+1、Ck+1=Cである場合、工程Iに進む。
3.r≠k+1かつC(Xk+1/{xr})<Ckである場合、工程Iに進む、すなわち、xrを外した場合に既に選択した群が向上しない場合は、逆方向検索を行わない。
4.k=2の特別な場合:k=2の場合、X2=X3/{xr}およびC2=C(X3/{xr})を設定する。
・工程III、排除(逆方向検索):
1.Xk’=Xk+1/{xr}、すなわちxrを削除する。
2.
によって新しい組の中で最も有意性の低い特徴xsを探す。
3.C(Xk’/{xs})<Ck−1である場合、Xk=Xk’とし、Ckを初期化し、工程Iに進んで逆方向検索を終了する。
4.Xk−1’=Xk’/{xs}およびk=k−1を設定する。
5.k=2の特別な場合:X2=X2’およびC2=C(X2’)を設定し、工程Iに進む。
6.工程IIIに進む。
【0079】
このアルゴリズムでは一般に、単純なボトムアップアルゴリズムよりも実質的に良好に演算が行われ、mまで実行して再度最大の(最小の)基準組を選ぶことができる。
【0080】
ランダム特徴選択アルゴリズム
ランダム特徴選択アルゴリズムとは、ランダムサンプリングからの構成の頻度を数えることに基づいた最適化戦略である。たとえば、何らかの初期構成(k−中央値、k−平均、ファジークラスタリング)から階層的凝集型クラスターを構築する際に、アルゴリズムを何度も開始し、それぞれの実行からの個々の構成を格納し、頻度ヒストグラムを構築することができる。これは、多くの場合クロスバリデーションと組み合わせることができる。
【0081】
分類子の生成
引き続き図3、工程312で、分類子の生成を行う。分類子の生成には、(i)教師あり学習、(ii)クロスバリデーション(cross validation)、および(iii)盲検分類(blind classification)または試験を含めたいくつかの機能が含まれ得る。最初の2つの機能、すなわち教師あり学習およびクロスバリデーションは、図1に記載のように、癌研究診療所104によって提供された関連する既知の臨床結果108を用いて生スペクトルで行い得る。
【0082】
特徴のランク付けは群を識別するための特徴の重要度に関するある程度の見解を与えるが、より徹底的な解析では教師あり学習手順を用いる。教師あり学習とは、訓練組(トレーニングセット)(すなわちそれぞれのスペクトル)中でそれぞれの事例について分類の標識を提供するプロセスであり、誤分類の数を減らすことを目的とする。教師あり学習の別のより具体的な定義は、高次元の特徴空間から標識空間へ、特徴/識別ピーク発現から疾患標識または応答標識(クラス標識とも呼ばれる)へとマッピングすることである。標識は、質量分析装置ピークおよび関連するパラメータの関数である。スペクトルを生成した癌患者のスペクトルおよびその臨床情報を有する研究者または他の人が、教師あり学習プロセスを行い得る。プロセスは、教師あり学習の理論からの標準のアルゴリズムを用いることによって行い得る。教師あり分類アルゴリズムの出力は、新しい事例またはスペクトルのクラス標識を生成する分類子アルゴリズム(訓練組に依存する)である。一実施形態では、k最近傍(KNN)アルゴリズムを分類に利用し得る。
【0083】
K最近傍アルゴリズム
k−最近傍方法は、単純な密度推定方法である。点x’がxを中心とする容量Vの範囲に入る確率は、
である。
【0084】
小容量では
である。確率は、容量Vの範囲に入る試料の割合によって近似することができる。したがって、kが合計n個中Vの範囲内に入る試料の数である場合、
である。
【0085】
k−最近傍の近似は、確率k/nを固定すること(または固定数の試料ではkを固定すること)、およびk個の試料を含む容量を決定することである。これは、値域の幅を固定して点の数を数えるヒストグラムの推定と対照的である。この定義の規則性には一部問題があるが、
かつ
である場合は、偏りがないかつ矛盾がないことを示すことができる。
【0086】
判断基準を以下の方法で構築することができる。クラスωm中にkm個の試料が存在し、ωmの試料の合計数がnmであることを仮定する。その場合、クラス条件付き確率は、
である。
前者はnm/nである(全クラスにわたって合計n個の試料が存在する場合)。
ベイジアン判断基準は、
である場合にxをωmに割り当てることであり、ベイズ定理を用いて、これは
の選択をもたらす。
【0087】
同点の場合、最も近い平均、最も近いメンバー、または他のものによって同点に決着をつけ得る。あるいは、同点に決着をつけるものを奇数のkに限定し得る。小さなkは不規則な表面をもたらす一方で、大きなkは滑らかな表面をもたらす。漸近的な誤分類率は上記よりもベイズ誤差の2倍抑制されており、これは、このように単純なアルゴリズムには非常に良好な漸近的な性能である。KNN分類はプロトタイプ、すなわちデータ圧縮技術の使用に適している。しかし、ここでは、KNN分類の使用は、必要な記憶の軽減に、より使用される。距離関数の選択を利用し得る。あるいは、最適ではないユークリッド差も利用し得る。二次元の特徴空間の単純な例の投票プロセスを図11に例示する。
【0088】
図11は、2つの異なるクラスの疾患進行を表すクラス標識したスペクトル徴候および分類する試験スペクトル徴候の例示的な群を示す、グラフ1100である。特徴空間中の識別ピークをグラフで表すために、この図では、二次元の特徴空間、すなわちグラフ1100は、x軸およびy軸を有する二次元グラフである。特徴空間が12次元の特徴空間であった場合(すなわち、12個の特徴またはピークが、クラス標識するスペクトルを「良好」または「不良」と分類する際立った特徴の指標である識別ピークとして選択される)、スペクトルを容易にグラフで表すことは不可能となるので、二次元の特徴空間を例として利用する。
【0089】
この場合、スペクトルは「良好」1102および「不良」1104としてクラス標識で分類され、「良好」のクラス標識したスペクトルの徴候1102を1つのパターンとしてグラフ1100上に表し、「不良」のクラス標識したスペクトルの徴候1104を別のパターンとして表す。既に記載したように、クラス標識したスペクトルは癌研究診療所から展開したものであってよく、イレッサなどの抗癌薬に応答する癌患者の臨床結果に基づいた分類目的のために対照試料として用い得る。試験スペクトル徴候1106を、治療計画を決定する新しい癌患者からの試験スペクトルを表す位置でグラフ1100に配置し得る。試験スペクトル徴候1106の位置は、2つの特徴の振幅(すなわち、xおよびyの振幅)に基づく。示すように、かつ確率KNNアルゴリズムに従って、最も近い3つのクラス標識したスペクトルの徴候1108a、1108b、および1108cが、関連させる試験スペクトルの潜在的な候補である。
【0090】
二次元の特徴空間の試験点の分類プロセスのための例示的な確率試験は、
である。
【0091】
2つのクラス間の確率差が、ユーザが提供した特定の閾値Δ−pを超える場合は、確率は有意であると見なすことができ、「良好」または「不良」の分類を行うことができる。確率差が特定の閾値未満の場合は、「不確定」の分類を行うことができる。
【0092】
KNNアルゴリズムを分類子アルゴリズムとして利用し得る一方で、他の分類アルゴリズムも利用し得る。本発明の原理に従って開発した別のアルゴリズムは、さらなる柔軟性を提供し、臨床応用のためのさらなる情報を提供する改良KNNアルゴリズムである、確率的k最近傍アルゴリズムである。
【0093】
改良(確率的)k最近傍アルゴリズム
本発明の原理に従って、改良k最近傍アルゴリズムを分類に用い得る。その最も単純な実施では、改良KNNアルゴリズムは、特徴空間中のk最近傍を検索し、これらの最近傍の標識にわたる単純な多数決に従ってクラス標識を割り当てる。特徴空間は、スペクトルを定義するために用いる特徴の数(たとえば12個の特徴)として定義される。一実施形態では、明確な訓練期は存在せず、すべての事例をスペクトルの分類に用いる。通常は、単純なユークリッド距離のみを用いて近傍を決定するが、他の定義も可能である(たとえば、適切に定義された共分散マトリックスからのマハラノビス距離)。
【0094】
従来のK−最近傍(KNN)フレームワークでは、以下のように分類を行う。
分類するそれぞれの対象または事例(ここでは質量スペクトル)をd数xi、I=1・・・D(ここではd個の特徴の値)によって特徴づけ、したがって、これはd次元の空間内の点によって表される。2つの事例間の距離は、通常のユークリッド測定基準
によって定義される。もちろん、任意の類似の測定基準もここで用いてもよい。さらに、実施では、2つのスペクトル間の距離を決定するにあたって、ウィンザライズを行ったマハラノビス距離を用い得る。
【0095】
訓練組には、既知のクラス割当てを有する事例が含まれ得る。訓練組および正の奇数整数kを与えた場合、試験対象の分類を以下のように行う。
1.訓練組中、d次元の空間内で試験対象(すなわちスペクトル)のk最近傍を探す。
2.これらのk近傍のそれぞれがクラスの1つ(たとえば良好または不良)に属する。どのクラスが最大数の表現を有するかを探す。
3.試験対象をこのクラスに属するものとして分類する。
【0096】
このKNN分類は2つの欠点を有する。第1に、これはクラスの割当ての信頼度に関する情報を提供しない。k=15かつ2つのクラスの場合、15:0の状態におけるクラスの割当ての信頼度が8:7の状態よりもはるかに高いことは、直観的に明らかである。臨床応用では、それぞれの個々のクラスの割当ての信頼水準の特徴は関連性のあるものであり、患者を診断するために使用する。実際、このレベルを最初に定義し得る。
【0097】
第2に、これは、訓練組中のそれぞれのクラスの事例の数を適切に考慮していない。所定のクラスのさらなる事例を訓練組に単に追加することは、分類結果をこのクラスに有利に偏らせる傾向がある。
【0098】
これらの問題を修正するために、訓練組からのk最近傍のクラスに関する情報から開始するが、クラスを割り当てる代わりにそれぞれのクラスに属する試験事例の確率を生成する「確率的KNN」分類子を開発した。以下に、確率的KNNの主な式の理論および誘導の簡潔な説明を示す。
【0099】
スペクトル試料を分類するKNN手法は以下のように見なすことができる。d次元の空間内にあり、試験事例を中心とする、特定の半径の球を考える。球の半径は、訓練組から正確にk個の事例を含むという要件によって決定される。その後、それぞれのクラスのうち何個のメンバーがこれらのk個の事例に混じっているかを観察し、この情報を用いてクラス標識を割り当てるか(標準の手法で)、または何らかのクラスに属する試験事例の確率を計算する(確率的手法で)。
【0100】
訓練組は、何らかの(未知の)確率分布から引き出した試料であり得る。より正確には、それぞれのクラスについて、クラスに属する訓練組の部分組は対応する確率分布から引き出した試料であると見なされ、これはそれぞれのクラスについて異なる。
【0101】
同じ確率分布から引き出した訓練組の集合を考える。分類するためのKNN手法では、試験事例の周りの球の半径は、必ず正確にk最近傍を含むことを確実にするために、それぞれの訓練組の具現化について異なる。以前のセクションのKNN方法の説明も参照されたい。
【0102】
以下の近似を行い得る。
1.試験事例の周りの球は固定されていると見なし得る。これは、これが試験事例の位置および訓練組を引き出した確率分布に依存するが、それぞれの訓練組の具現化で同じであることを意味する。この近似は、kが小さすぎない場合に妥当である。
2.それぞれのクラスについて、球内のそのクラスの事例の数をポアソン分布から引き出す。この近似は、球が小さな割合のこのクラスの全体的な確率のみを含む場合に妥当である。
3.クラスの確率密度は球内でほぼ一定である。
【0103】
2つのクラスの場合を考える。それぞれの事例は、d次元の空間内の点
によって表される。完全なd次元の空間をΩによって示す。
クラス1は、確率分布
によって特徴づけられる。クラス2は、確率分布
によって特徴づけられる。
【0104】
訓練組は、クラス1から引き出したN1個の点、およびクラス2から引き出したN2個の点から形成され得る。試験点の近傍はωによって示し得る。これは、実際は試験点を中心とした球であるが、これは以下には関連性がない。訓練組の所定の具現化には、ω中にクラス1からk1個の点およびω中にクラス2からk2個の点が存在する。k1<<N1、
が仮定される。同じことがクラス2についても当てはまる。
【0105】
これは、ポアソン近似の妥当性を保証する。k1は期待値λ1、
のポアソン分布から生じ、k2は期待値λ2、
のポアソン分布から生じる。
【0106】
ここで、試験点(ωの中心)を「さらに別の点」として扱う。言い換えれば、ω中にはk1+k2個ではなくk1+k2+1個の点が存在し、どのクラスに試験点が属するかは知られていない。試験点がクラス1およびクラス2に属する確率は、以下:
のように割り当て得る。したがって、
である。
【0107】
試験点(ωの中心)を「さらに別の点」として扱うことによって、
および
がどちらもω内で有意に変化しないことが黙示的に仮定される。
【0108】
問題は、λ1およびλ2が実際に未知なことである。しかし、その確率は、ベイジアン様式で推定することができる。k1およびk2はどちらも、ポアソン分布、
に従うように仮定する。
λの以前の分布をp0(λ)と示した場合、
である。
標準のベイジアン理論では、
である。
【0109】
以降、λの平坦な以前の分布、p0(λ)=1を仮定して、以下:
を得ることができる。
最終的には、以下:
が得られるが、ただし、
である。
【0110】
これらの積分の計算により、以下:
が得られる。
訓練組で用いた試料の大きさが同じ場合は(N1=N2)、これは以下:
に簡素化される。
【0111】
2つを超えるクラスおよび訓練組中の異なる試料の大きさでは、閉形式でp(クラスI)を得るのは困難である。この場合、以下:
のはるかに簡素化した推定を用い得る。
あるいは、同等に、それぞれのp(クラスI)が
に比例する一方で、
である。
【0112】
結果の頑健性を欠陥のあるスペクトルに特徴づけるパラメータは、標識をスペクトルで関連づけるためにクラス確率が異なっていなければならない度合を定義する、ユーザが提供したパラメータp−diffである。たとえば、p−diffが0.1に設定され、クラスAの確率が0.6であり、クラスBが0.4である場合、差2は0.1よりも大きく、クラスAが選択される。他方で、クラスAのクラス確率が0.52であり、クラスBが0.48である場合、差0.04は0.1よりも小さく、分類子はクラス標識を「未定義」として返す。
【0113】
あるいは、仮説試験は、分類が外部指定した有意性αで有意になり得る。標準の仮説試験の形成では、分類を以下のように説明することができる。
データ:試験事例には、2つのクラスAおよびB、クラスAおよびクラスBのkAおよびkB最近傍、ならびにクラスAのNA個の事例およびクラスBのNA個の事例の集団が含まれ得る。
【0114】
試験統計学:単純にクラスA中の近傍の数:
T=kA
である。
ヌル分布:ヌルは、集団比のみから予測されるA近傍の数であると仮定される、すなわち、ヌル下のkAは、パラメータk=kA+kBおよびp*=NA/NBを用いた二項式ランダム変数である。
仮説:(両側)これは、当分野で理解される二項式試験の実施である。
H0:pA=p*
H1:pA≠p*
【0115】
試験開発事例では、最近傍の数が20を超えることは稀であり、通常の近似は使用しない。所定の全体的な有意性には、αを表から解き(またはコンピュータで実行し)、t1およびt2についてP(Y≦t1)=α1かつP(Y≦t2)=1−α2であり、Yはヌル下で定義された二項式ランダム変数であり、α1およびα2はα/2に近似し合計するとαとなる。拒絶領域は、t1未満またはt2を超えるTの値である。二項式試験のセクションで概要を示した手順に従って、信頼領域もp*について推定し得る。
【0116】
改良KNNアルゴリズムを上述のように分類アルゴリズムとして利用し得るが、代替分類アルゴリズムを本発明の原理に従って利用し得る。そのような分類アルゴリズムには、たとえば、ファジーKNN、カーネル方法(たとえばSVM)、教師なし分類、スペクトルクラスタリング、カーネルPCA、ノンパラメトリッククラスタリング、k−平均、k−ヒストグラム、階層的クラスタリング、およびランダムフォレストが含まれ得る。これらの分類アルゴリズムは、クラス標識したスペクトル(たとえば、癌患者の対照群から分類および標識したスペクトル)に従ってスペクトルを分類する能力を提供するが、上述のKNNアルゴリズムの明瞭性および使用の容易さを欠く。
【0117】
引き続き図3、工程312で、スペクトルの訓練組の分類子を生成するために学習を利用し得る。抗癌薬が非小細胞肺癌に対して有効であるかどうかを検出するために血清をサンプリングする場合は、癌が化学療法後に進行した3組の患者の使用を含めて患者の対照群を利用した。患者のそれぞれをイレッサで治療し、これらの患者の生存期間を含めた情報を記録した。対照試料は、EGFR−k1阻害剤を用いた治療を受けなかった、重篤度がより低い患者(癌段階IIIおよびIV)からのものであり、血清は治療中に生成された。いくつかの研究で用いたデータ組の要約を表IIIに提供する。それぞれのデータ組は、受け取ったスペクトルおよび関連する患者情報の癌研究センターを表す。
【0118】
【表2】
表III.研究で用いたデータ組
表IIIは、分類子アルゴリズムが、癌患者がイレッサに対して応答性となるかどうかを決定するために有効かどうかを決定するための研究に用いた、データ組属性の要約である。試料の収集後、イタリア人1、イタリア人2、日本人1、および日本人2のデータ組をイレッサで治療した。開発期における訓練および試験は、イタリア人1の組および2つの日本人の組で交差するように行った。患者データには生存データが含まれ、イタリア人の組は非常に完成した患者病歴と共に治療および癌の種類を有しており、日本人の組には、CTイメージングによって測定した、安定疾患(SD)、進行性疾患(PD)、および部分応答者(PR)を含めた臨床標識のWHO定義に関する予後情報のみが含まれていた。分類子を確立した後、十分に盲検化された試験をイタリア人2の組で行った。
【0119】
図10Aは、本発明の原理に従って、試験スペクトルをクラス標識したスペクトル(class labeled spectra)の群に関連して分類するための例示的なプロセスを表すグラフ1000aである。試験スペクトルは、試験スペクトルが、クラス標識したスペクトルからの少なくとも1つのクラス標識したスペクトルと同じクラスに標識されると分類子によって決定された場合に、クラス標識したスペクトルに関連すると見なされる。曲線は群平均スペクトルである。示すように、分類で用いた11700ダルトン(Da)の周辺に識別ピークのクラスターが存在する。群間の差異は、臨床的に細標識した群PD−初期1002およびSD−長1004スペクトルの平均間にある。示していないが、イタリア人のデータ組(表III)から分類子(すなわち、改良k−最近傍分類子を用いた分類子アルゴリズム)を構築するために用いた11個の識別ピークが存在し、そのパラメータはクロスバリデーションを用いて最適化する。2つの群平均スペクトルを比較すると、高速進行性癌(PD−初期1002)に罹患している患者のスペクトル中に識別ピークを生じるバイオマーカーの存在が、長期間生存し、SD−長癌(SD−長1004)を分類された患者ではほぼ存在しないことが明らかである。
【0120】
図10Bおよび10Cは、イタリア人および2つの日本人の訓練組からの例示的なプロットを示すグラフ1000bおよび1000cである。図10Bでは、グラフ1000bの範囲は5500〜6000Daであり、図10cでは、グラフ1000cの範囲は11000〜13000Daである。これら2つのグラフ1000aおよび100bで示すように、異なる群間の多数の識別ピークが示される。群のプロットは、それぞれのスペクトル群にわたって平均する。すなわち、プロットは個々のスペクトルからのものではない。
【0121】
標準の識別ピークの普通でない細分類は、実際に示した識別ピークの強度に反映されている。用いた識別ピークのリストを表IVに示す。表Vは表IVと同じ識別ピークのリストであるが、発見期試料の特徴値の群平均を含む特徴の値も含まれる(イタリア人1、日本人1および2)。支配的な一組のクラスターを群平均として図10に示す。示した識別ピークは例示的であり、薬物イレッサの癌患者応答者を予測するために同じまたは他の識別ピークを本発明の原理に従って利用し得ることを、理解されたい。さらに、他の抗癌薬または他の薬物に対する予測を行う場合は、記載したもの以外の識別ピークをそのような予測に利用し得る。
【0122】
最適なk−NN分類子は1つ残す(leave-one-cut)クロスバリデーション(LOOCV)の誤差をもたらし、一方で、26個中6個のスペクトルを分類することができなかった。確率的k−NN分類子の要件を高めることによって、この誤標識を1つの分類不可能なスペクトルの事例に移動することが可能である。細分類が予後診断に相関していると合理的に仮定され、PD−初期事例が最悪の進行であり、SD−長事例が最も長い安定疾患である場合は、治療前血清スペクトルから見込みのある薬物応答情報を得ることが可能であると、仮に結論づけることができる。
【0123】
【表3】
表IV.識別ピークのリスト
【表4】
表V.特徴値のパラメータを含む識別ピークのリスト
【0124】
分類子アルゴリズムの試験にあたって、以下の関連づけを用いてイレッサの応答マーカーを作成することができる。SDおよびPRの事例を「良好」のクラス標識を有する群として一緒の群とし、PDの事例を「不良」としてクラス標識する。上記細分類から展開した分類子は、ここでも、「良好」をSD−長と関連づけ、「不良」をPD−初期と関連づける。その後、この分類子を日本人の事例(表I)に適用し、これらのスペクトルのうち18個を分類することができず、51個のスペクトルが分類された。これら51個のスペクトルのうち、37個がクラス標識「良好」を有し、14個がクラス標識「不良」を有していた。試験結果を表VIに要約する。
【表5】
表VI.クラス標識
【0125】
この試験は、90%の感度および57%の特異度を有する。イレッサを用いる目的では、応答がなかった、すなわち「不良」であった6個の事例が応答を有すると標識されており、0.84の陽性適中率が得られた。同様に、5個の事例が「不良」として誤標識されており、0.61の陰性適中率が得られた。
【0126】
要約すると、日本人集団において非応答者を応答者からフィルタリングするために血清に基づいた質量分析装置試験を用いることで、イレッサの応答率が65%から90%に上昇し、一方で、51人の患者中、イレッサの恩恵を受ける可能性のあった5人が取り残される。これら5人の患者のうち、1人がSDを標識され、4人がPRを標識されていた。一般に、PDへの分類は、この群内での変動が高いことにより、最悪である。これは「良好」事例の選択に影響を与えないが、低い特異度をもたらす。この増加は、特定の患者群においてイレッサを治療段階の初期で用いることで、従事者が予想外に良好な予後診断の予測を得ることができることを示す。これらの患者ではイレッサを継続することができ、一方で予後不良を予測された患者は代替抗癌治療に切替えることができる。代替抗癌治療の利用が早ければ早いほど、有益な効果をもたらす可能性が高くなるので、これにより、より良好な長期生存率が可能となる。
【0127】
引き続き図3、工程312で、分類子の盲検試験を行い得る。これは、クラス標識したスペクトルからの癌患者と同じ癌に罹患している癌患者が抗癌薬に応答するかどうかを決定するために、試験スペクトルを(たとえば新しい癌患者から)分類するためにクラス標識したスペクトルを分類子アルゴリズムが用いることを意味する。本明細書中で上述したように、確率的KNN分類子を用いて、分類子を生成し得る。分類子からは、3つの潜在的なクラス標識、すなわち「良好」、「不良」、または「未定義」がもたらされ得る。「良好」のクラス標識または分類は、試験スペクトルの処理において、試験スペクトルがクラス標識したスペクトルの「良好」群と同じ群であることを分類子が決定することを意味する。そのような盲検試験の結果を図14に示し、開発期の結果が確認される。
【0128】
図3の工程314では、既に記載したように、可視化を行ってよく、可視化には、(i)スペクトルの平均、(ii)スペクトルの変動、および(iii)特徴の位置決定を行うツールが含まれ得る。これらの可視化ツールは診断目的に有用であり得る。
【0129】
分類子によって試験スペクトルがスペクトルの「良好」群に最も密接に関連していると決定された場合は、試験スペクトルが「良好」と分類され、患者に、その人が応答するという特定のレベルの信頼度を有する抗癌薬を処方し得る。分類子によって試験スペクトルがスペクトルの「不良」群に最も密接に関連していると決定された場合は、試験スペクトルが「不良」と分類され、患者にはその抗癌薬を処方しない。試験スペクトルがクラス標識したスペクトルの「良好」または「不良」群のどちらかと関連していることが決定できない場合は、試験スペクトルを「不確定」と分類し、患者には抗癌薬を処方しない。
【0130】
表VIIは、表Vと類似の、図3の工程308および310の特徴抽出および選択アルゴリズムによって決定した平均識別ピーク値の別の例示的な組を表す。これらのスペクトルは、図3の工程312の分類子によって「良好」、「不良」、または「未定義」と分類および標識される。記載したように、「不良」スペクトルは、典型的にはピークの振幅よりも大きい、大きな標準偏差を有する識別ピークを有しており、ピークを測定することができない。「良好」と分類されたスペクトルは、より小さな振幅および標準偏差を有する傾向にある識別ピークを有する。「未定義」スペクトルはそのどこか中間にあり、識別ピークの振幅が一部のm/z位置では小さく、他の位置では高い。
【表6】
表VII.例示的な識別ピークおよび標準偏差
【0131】
信頼度のレベルは、確率的KNNアルゴリズムのΔ−pパラメータによって設定されたスペクトルの訓練組を用いた関連性の確率に基づいている。Δ−pパラメータは、試験スペクトルを訓練組と関連づけるために所望される信頼度のレベルに応じて、上方または下方に増加し得る。盲検試験研究では、Δ−pパラメータを0.2に設定し、92%精度の予測結果がもたらされた。
【0132】
図11は、スペクトルを二次元の特徴空間でグラフによって表すために有用であるが、実世界のスペクトルは典型的には8〜12次元の特徴空間をもたらし、多くの場合8〜12次元またはそれ以上に達する。より高次元または低次元の特徴空間が、癌患者が抗癌薬に対して応答性となるかどうかを決定するにあたって十分または必要であると決定され得る。したがって、特定の実施形態では、従事者は、1個または2個のみの識別ピークを利用する場合があり、他の実施形態では3個または4個の識別ピークを使用し、さらに他の実施形態では5個または6個の識別ピークを使用し、さらに他の実施形態では7個または8個の識別ピークを使用し、さらに他の実施形態では9個または10個の識別ピークを使用し、他の実施形態では11個または12個の識別ピークを使用する。実際、12個よりも多くの識別ピークを追加することが本発明によって企図される。決定性があるように十分な情報を提供する特徴の数の決定は、たとえば、特徴の振幅、スペクトルの分類、および抗癌治療に対する患者応答を含めたいくつかの要因に基づき得る。
【0133】
引き続き図3で、データベース220(図2)などのデータベースを利用して、識別ピーク、質量分析装置の診断、および/または他の出力パラメータを、記載した分類および診断プロセスから受け取って格納し得る。これらのパラメータを格納し、新しい癌患者からの新しいスペクトルの将来の分類に使用し得る。最終的に、データベースは、試験スペクトルの分類における精度および信頼性に関して癌患者が抗癌薬に応答することが98%などの高確率で実質的に保証される程度まで満たされ得る。
【0134】
図12は、本発明の原理に従って分類した患者群の生存率を示す試験データのカプラン・マイヤープロット1200である。カプラン・マイヤープロット1200は、一定期間にわたる生存率を示す、死亡率のプロットである。示すように、「良好」と分類された癌患者が、抗癌薬を受けたことが原因で最も長く生存した。「不良」と分類された癌患者では、最初の数カ月で急激な降下があった。「未定義」と分類された癌患者は、低い生存率で徐々に低下していった。このプロットは、発見期に、イタリア人1の試料で訓練した分類子を日本人の1および2の試料で試験することによって得た。
【0135】
図13は、日本人の試料1および2で訓練した分類子をイタリア人1の組で試験した、図12に類似のカプラン・マイヤープロット1300である。示すように、関連づけられたスペクトルが「良好」と分類された患者は、抗癌薬で治療したことから寿命が延長すると予測された。「不良」と分類された患者は、低い割合が1年を超えて延長される急激な死亡率を有すると予測された。「未定義」と分類された患者は急激な低下を有し、6カ月を超えて生存すると予測された者はいなかった。これらの予測は、臨床試験で正確であることが証明された。
【0136】
図14は、イタリア人2の試料で妥当性確認した分類子を盲検的に用いて得た、図12および13に類似のカプラン・マイヤープロット1400である。試験時、生存データは機密であったためその知識はなかった。分類を行った後に生存データが公開され、図14の曲線により開発試験からの結果が確認された。示すように、「良好」と分類された患者は生存率が延長されたことが予測され、「不良」と分類された患者は急激な降下を有しており寿命がより限られていた。この具体的な事例では、試験を低いΔ−pで実行したので、「未定義」と分類された患者は存在しなかった。ここでも、結果は実際の臨床試験と一致していた。
【0137】
図15は、本発明の原理に従って癌患者が抗癌薬に対して応答性となるかどうかを決定する、例示的なプロセス1500を示すブロック図である。プロセス1500は工程1502から開始し、癌患者から生じた血清から質量分析装置によって生成された試験スペクトルを得る。工程1504で、試験スペクトルを処理して、同じまたは類似の臨床段階の癌に罹患しており、抗癌薬に応答したまたは応答しなかったことが知られている他の癌患者からの対応する血清から生成されたクラス標識したスペクトルの群との関連性を決定する。関連性とは、試験スペクトルが、1つまたは別のクラス標識したスペクトルと同じまたは類似の特徴に関連するまたはそれを有する可能性が高いことを意味する。抗癌薬は、非小細胞肺癌を治療するものであり得る。工程1506で、分類されたスペクトルの群に対する試験スペクトルの関連性に基づいて、患者が抗癌薬に対して応答するかどうかを決定する。応答性であることは、抗癌薬が癌患者に対して何らかの正の利点をもたらすことを意味する。肯定応答は望ましくは患者の寿命を延長するが、癌患者を抗癌薬で治療することで他の正の利点ももたらされ得る。
【0138】
本発明によって測定するバイオマーカーは、質量分析スペクトル中でピークとして現れる任意の種類の定量可能なパラメータであり得る。質量分析ピークを引き起こすパラメータは、それだけには限定されないが、特定の酵素、ホルモン、mRNA、DNA、RNA、タンパク質、脂質、ビタミン、ミネラル、代謝物、および化学物質を含めた任意の物質によって生じ得る。さらに、バイオマーカーは、それだけには限定されないが、血清、赤血球、白血球、爪、皮膚、毛髪、生検組織、脳脊髄液、骨髄、尿、糞便、痰、胆汁、気管支肺胞液、胸膜液、および内耳液を含めた、患者から採取した任意の組織または液体から測定することができる。
【0139】
バイオマーカーは、環境的または遺伝的トリガーに対する曝露レベル、疾患プロセス自体の要素、曝露と疾患の発症の間の中間段階、または病状に関連するが発症の原因ではない独立した要因を含めた、様々な疾患特徴を反映することができる。したがって、本発明の原理は、疾患および障害の特定の段階の決定にも適用し得ることが企図される。
【0140】
本発明の原理の例を非小細胞肺癌および特定の抗癌薬を用いた治療に関して記載したが、この原理は、現在または将来利用可能な他の癌および他の抗癌薬に適用し得ることを理解されたい。さらに、本発明の原理および方法は、それだけには限定されないが、癌、自己免疫疾患もしくは障害、糖尿病、遺伝病もしくは障害、ウイルス感染症、細菌感染症、寄生虫感染症、プリオン疾患、栄養障害、ビタミン欠乏症、ミネラル欠乏症、ミトコンドリア疾患もしくは障害、性行為感染症もしくは障害、先天性欠損症、性病もしくは障害、免疫疾患もしくは障害、バランス疾患もしくは障害、疼痛、全身病もしくは障害、血液疾患もしくは障害、血管疾患もしくは障害、神経疾患もしくは障害、筋系疾患もしくは障害、心疾患もしくは障害、脊髄疾患もしくは障害、眼疾患もしくは障害、精神疾患もしくは障害、代謝性疾患もしくは障害、内臓疾患もしくは障害、肺疾患もしくは障害、肝疾患もしくは障害、腎臓病もしくは障害、胆嚢疾患もしくは障害、膵臓疾患もしくは障害、胃腸管系疾患もしくは障害、前立腺疾患もしくは障害、婦人科疾患もしくは障害、および聴覚疾患もしくは障害を含めた任意の疾患または障害の検出に適用し得る。さらに、本発明の原理および方法は、治療が環境的曝露およびその効果、物質乱用、および疫学研究に役立つかどうかの決定にも適用し得る。
【0141】
本発明の原理および方法は、それだけには限定されないが、一般麻酔薬、不安および睡眠障害薬、精神障害薬、抗精神病剤、情動障害薬、運動障害薬、癲癇薬および抗癲癇薬、心不全を管理する薬物、抗虚血薬、抗不整脈薬、血管の薬物、心血管および肺の薬物、オピオイド鎮痛剤およびアゴニスト、気管支拡張剤、抗炎症薬、気管支痙攣を管理する薬物、クロモリンナトリウムおよび関連する薬物、呼吸刺激剤、鎮咳薬、粘膜毛様体輸送を変調する薬物、利尿剤、抗利尿ホルモン、合成類似体、および関連する薬物、インスリン、グルカゴン、経口血糖降下剤、真性糖尿病を治療する薬物、副甲状腺ホルモン薬、ビスホスホネート、カルシトニン、副腎コルチコステロイド、コルチコトロピン放出ホルモン、アドレノコルチコトロピン、および抗副腎薬、甲状腺ホルモン、甲状腺刺激ホルモン、チロトロピン放出ホルモン、および抗甲状腺薬、エストロゲン、抗エストロゲン、プロゲスチン、避妊薬、アンドロゲンおよび同化(anabolic)およびアンタゴニスト、ゴナドトロピン、抗黄体ホルモン、アクチビン、インヒビン、ゴナドトロピン放出ホルモン(GNRH)、GNRHスーパーアゴニスト(GNRH supragonist)、およびアゴニスト、成長ホルモン、インスリン様増殖因子、プロラクチン、高プロラクチン血症を治療する薬物、脂溶性ビタミン、水溶性ビタミン、多量ミネラル、微量ミネラル、フッ化物、緩下剤、抗下痢薬、胃腸管運動に影響を与える薬物、制吐剤、血液および血液形成器官に作用する薬物、免疫系に作用する薬物、非アヘン鎮痛剤、抗炎症薬、血漿脂質調節剤、局所的コルチコステロイド、タール、ジスラノール、亜鉛製剤、レチノイド、抗菌化合物、角質化治療薬、外寄生生物を治療する薬物、皮膚の新生物性障害を治療する薬物、抗ヒスタミン剤、皮膚の疱疹障害の治療剤、スルホンアミド、スルホン、トリメトプリム−スルファメトキサゾール、アミノグリコシド、テトラサイクリン、クロラムフェニコール、エリスロマイシン、タンパク質合成阻害剤、フルオロキノロン、キノロン、ニトロフラン、メセナミン、β−ラクタム抗生物質、マイコバクテリア感染症を治療する薬物、抗真菌剤、抗ウイルス薬、抗寄生生物薬、および癌化学療法薬を含めた任意の薬物治療に適用し得る。
【0142】
さらに、本発明の原理をヒト以外の種に適用し得る。分類および解析を行うために血清を利用することを記載したが、本発明の原理の様々な側面を、癌患者が抗癌薬に応答した他の癌患者の特徴を有するかどうかを決定するために、他の液体または組織試料を用いて識別ピークを有することができるスペクトルを生成することによって、同様に適用できることが理解されよう。
【0143】
既に記載した説明は、本発明を実行するための小数の実施形態のものであり、範囲を限定することを意図しない。当業者は、この発明を詳述した領域よりも他の領域を実行するために用いる方法および変形をすぐに予見するであろう。以下の特許請求の範囲は、より詳細に開示した本発明のいくつかの実施形態を記載する。
(このページの残りの部分は意図的に空白のままにしてある)
【図面の簡単な説明】
【0144】
【図1】図1は、研究室試験処理センター(laboratory test processing center)、癌研究診療所(cancer research clinic)、および癌患者診療所(cancer patient clinic)の間の関係の例のブロック図であり;
【図2】図2は、図1の研究室試験処理センター、癌研究診療所、および癌患者診療所の間の情報を伝達および処理するためのシステムの例のブロック図であり;
【0145】
【図3】図3は、癌患者が本発明の原理に従った抗癌薬に応答するかどうかを決定するための試験を展開するワークフロー工程の例の流れ図であり;
【図4】図4は、試験の展開に用いられるすべてのスペクトルのゲルプロットの例の画像であり;
【図5】図5は、ノイズおよびシグナル成分を有する分光計から出力するデータ点のセットの例を示すヒストグラムであり;
【0146】
【図6A】図6Aは、スペクトルからバックグラウンドを除去した後のバックグラウンドありのスペクトルを示すグラフであり;
【図6B】図6Bは、スペクトルからバックグラウンドを除去した後のバックグラウンドなしのスペクトルを示すグラフであり;
【図7A】図7Aは、図7Bに示されるスペクトルの比較を単純化するために完全に前処理した複数のスペクトルを示すグラフであり;
【図8A】図8Aは、重ね合わせた複数の試料スペクトルを示すグラフであり;
【図8B】図8Bは、重ね合わせた複数の試料スペクトルを示すグラフであり;
【0147】
【図9】図9は、特定の幅を有するx個を超えるスペクトルによく見られるピークを位置づけることによる、形状的特徴を選択するための工程の例のグラフであり;
【図10】図10は、それぞれの群において、すべての利用可能なテスト開発サンプル(test development sample)にわたって平均化した、臨床群のPD、PD−初期、PR、SD−短、およびSD−長における平均スペクトルを代表するグラフであり;
【0148】
【図11】図11は、2つの異なった種類の疾患進行を代表するクラス標識したスペクトルの群の例の徴候(indicia)および分類されるべき試験スペクトルの徴候を示すグラフであり;
【図12】図12は、イタリア人の試料を訓練組として用い、日本人の試料を試験組(テストセット)として用いて得られ、本発明の原理に従って分類された患者群の生存率を示す試験データのカプラン・マイヤープロットであり;
【0149】
【図13】図13は、日本人の試料を訓練組として用い、イタリア人の試料を試験組として用いて得られ、本発明の原理に従って分類された患者群の生存率を示す試験データのカプラン・マイヤープロットであり;
【図14】図14は、試料の十分に盲検化されたセット(blinded set)について、分類アルゴリズムによって得られ、本発明の原理に従って分類された患者群の生存率を示す試験データのカプラン・マイヤープロットであり;並びに
【0150】
【図15】図15は、癌患者が本発明の原理に従って抗癌薬に応答するかどうかを決定するための工程の例のブロック図である。
【特許請求の範囲】
【請求項1】
患者が薬物または治療に応答するかどうかを決定する方法であって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得し;
該試験スペクトルを処理して、同一または類似の臨床段階の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定し;および
該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかを決定することを特徴とする方法。
【請求項2】
試験スペクトルの取得には、癌の疾患を有する患者から取得することが含まれ、該薬物が抗癌薬である、請求項1の方法。
【請求項3】
該試験スペクトルの取得が非小細胞肺癌を有する患者からのものである、請求項2の方法。
【請求項4】
それぞれの該患者についての癌の治療の間に該抗癌薬が有していた公知の臨床的有用性に基づいて、該試験スペクトルを処理する前に該クラス標識したスペクトルの群を標識することをさらに特徴とする、請求項2の方法。
【請求項5】
該試験スペクトルの処理が、該試験スペクトルの少なくとも8つのピークを選択して、該患者が該抗癌薬に応答するかどうかを決定することができるように、該試験スペクトルとクラス標識したスペクトルの群との関係を決定することを特徴とする、請求項2の方法。
【請求項6】
該試験スペクトルの取得がマトリックス支援レーザー脱離/イオン化(MALDI)質量分析計からのものである、請求項1の方法。
【請求項7】
決定が、該試験スペクトルにおいて分類アルゴリズムを実行して、該クラス標識したスペクトルの群に対する関係を決定することを特徴とする、請求項1の方法。
【請求項8】
該分類アルゴリズムの実行が、確率的k最近傍計算を実行することを特徴とする、請求項7の方法。
【請求項9】
該患者が、
(i)該薬物もしくは治療に応答するかどうか、
(ii)該薬物もしくは治療に応答しないかどうか、または
(iii)該薬物もしくは治療に応答する患者への応答性の決定がなされ得ないこと
を示すクラス標識を出力することをさらに特徴とする、請求項7の方法。
【請求項10】
該クラス標識したスペクトルの群において実行された処理に従って、該試験スペクトルを調製する処理の前に該試験スペクトルを前処理することをさらに特徴とする、請求項1の方法。
【請求項11】
前処理が、該試験スペクトルに含まれるバックグラウンドを低減させることを特徴とする、請求項10の方法。
【請求項12】
前処理が、該バックグラウンドを低減させた試験スペクトルを正規化することをさらに特徴とする、請求項11の方法。
【請求項13】
前処理が、該正規化され、バックグラウンドを低減させた試験スペクトルのピークを選択することをさらに特徴とする、請求項12の方法。
【請求項14】
前処理が、該正規化され、バックグラウンドを低減させた試験スペクトルの選択されたピークをスペクトル的に重ね合わせることをさらに特徴とする、請求項13の方法。
【請求項15】
該患者が該薬物または治療に応答するかどうかを決定するのに利用されるパラメータを設定して、該患者が該薬物または治療に応答すると決定される信頼度をパーセンテージの形で確立することをさらに特徴とする、請求項1の方法。
【請求項16】
パラメータの設定に、ログランクp値の設定が含まれる、請求項15の方法。
【請求項17】
決定が、該患者が薬物ゲフィチニブに応答するかどうかを決定することを特徴とする、請求項1の方法。
【請求項18】
該試験スペクトルの処理が、該クラス標識したスペクトルの群のピークとの関連で処理されるべき試験スペクトルの複数の識別ピークを選択することを特徴とする、請求項1の方法。
【請求項19】
該クラス標識したスペクトルの群を処理して、いずれの臨床からのクラス標識したスペクトルの群を用いて実行される処理も可能となるように、実質的に臨床に依存せず、かつ実質的に質量分析計に依存しないスペクトル群を得ることをさらに特徴とする、請求項1の方法。
【請求項20】
請求項1の血清試料を用いて該試験スペクトルを得、該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該決定がインターネットで遠隔的になされるビジネス方法。
【請求項21】
患者が薬物または治療に応答するかどうかを決定するシステムであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトル、および同一もしくは類似の臨床段階の疾患を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群を保存するように形成された記憶装置;並びに
該記憶装置と通信するプロセッサであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得し;
該試験スペクトルを処理して、同一または類似の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定し;および
該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかを決定するためのソフトウェアを実行するプロセッサを含むシステム。
【請求項22】
該患者が癌の疾患を有しており、該薬物が抗癌薬である、請求項21のシステム。
【請求項23】
該癌患者が非小細胞肺癌を有している、請求項22のシステム。
【請求項24】
それぞれの該癌患者についての癌の治療の間に該抗癌薬が有していた公知の臨床的有用性に基づいて、該試験スペクトルを処理する前に該クラス標識したスペクトルの群を標識することをさらに特徴とする、請求項22のシステム。
【請求項25】
該試験スペクトルの少なくとも8つのピークを選択して、該癌患者が該抗癌薬に応答するかどうかを決定することができるように、該試験スペクトルとクラス標識したスペクトルの群との関係を決定することによって、該プロセッサが該試験スペクトルを処理する、請求項22のシステム。
【請求項26】
該質量分析計がマトリックス支援レーザー脱離/イオン化(MALDI)質量分析計である、請求項21のシステム。
【請求項27】
該試験スペクトルにおいて分類アルゴリズムを実行して、該クラス標識したスペクトルの群に対する関係を決定することによって、該患者が該薬物に応答するかどうかを該プロセッサが決定する、請求項21のシステム。
【請求項28】
該分類アルゴリズムが確率的k最近傍計算を含む、請求項27のシステム。
【請求項29】
該患者が、
(i)該薬物もしくは治療に応答するかどうか、
(ii)該薬物もしくは治療に応答しないかどうか、または
(iii)該薬物もしくは治療に応答する患者への応答性の決定がなされ得ないこと
を示すクラス標識を該プロセッサがさらに出力する、請求項27のシステム。
【請求項30】
該プロセッサがさらに、該クラス標識したスペクトルの群において実行された処理に従って、該試験スペクトルを調製する処理の前に該試験スペクトルを前処理する、請求項21のシステム。
【請求項31】
該試験スペクトルに含まれるバックグラウンドを低減させることによって、該プロセッサが該試験スペクトルを前処理する、請求項30のシステム。
【請求項32】
該バックグラウンドを低減させた試験スペクトルをさらに正規化することによって、該プロセッサが該試験スペクトルを前処理する、請求項31のシステム。
【請求項33】
該正規化され、バックグラウンドを低減させた試験スペクトルのピークをさらに選択することによって、該プロセッサが前処理する、請求項32のシステム。
【請求項34】
該正規化され、バックグラウンドを低減させた試験スペクトルの選択されたピークをさらにスペクトル的に重ね合わせることによって、該プロセッサが前処理する、請求項33のシステム。
【請求項35】
該プロセッサがさらに、該患者が該薬物または治療に応答するかどうかを決定するのに利用されるパラメータを設定して、該患者が該薬物または治療に応答すると決定される信頼度をパーセンテージの形で確立する、請求項21のシステム。
【請求項36】
該プロセッサがログランクp値の設定によって該パラメータを設定する、請求項35のシステム。
【請求項37】
該癌患者が該薬物ゲフィチニブに応答するかどうかを該プロセッサが決定する、請求項21のシステム。
【請求項38】
該クラス標識したスペクトルの群のピークとの関連で処理されるべき該試験スペクトルの複数の識別ピークを選択することによって、該プロセッサが該試験スペクトルを処理する、請求項21のシステム。
【請求項39】
いずれの臨床からのクラス標識したスペクトルの群を用いて実行される前記処理も可能となるように、実質的に臨床に依存せず、かつ実質的に質量分析計に依存しない該クラス標識したスペクトルの群を得る生スペクトル群を該プロセッサがさらに処理する、請求項21のシステム。
【請求項40】
患者が薬物または治療に応答するかどうかを決定するシステムであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得する方法;
該試験スペクトルを処理して、同一もしくは類似の臨床段階の疾患を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定する方法;並びに
該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかを決定する方法
を含むことを特徴とするシステム。
【請求項41】
該患者が癌疾患を有する、請求項40のシステム。
【請求項42】
該患者が非小細胞肺癌を有する、請求項41のシステム。
【請求項43】
該クラス標識したスペクトルの群において実行された前記処理方法に従って、該試験スペクトルを調製する処理の前に該試験スペクトルを前処理する方法をさらに含むことを特徴とする、請求項40のシステム。
【請求項44】
該患者が該薬物または治療に応答するかどうかを決定する前記方法によって利用されるパラメータを設定して、該患者が該薬物または治療に応答すると決定される信頼度をパーセンテージの形で確立する方法をさらに含むことを特徴とする、請求項40のシステム。
【請求項45】
該薬物がゲフィチニブである、請求項40のシステム。
【請求項46】
患者が薬物または治療に応答するかどうかを決定する方法であって、
疾患を有する患者から得た血清から質量分析計によって得られた複数の形状的特徴を有する試験スペクトルを取得し;
該試験スペクトルの形状的特徴を処理して、該患者として同一または類似の臨床段階の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得た識別ピークを有するクラス標識したスペクトルの群と、該試験スペクトルとの間に関係が存在しているかどうかを決定し;並びに
該試験スペクトルの処理されたピークに基づいて、該患者が該薬物または治療に応答するかどうかを決定することを特徴とする方法。
【請求項47】
該クラス標識したスペクトルの群からの識別ピークを選択することをさらに特徴とする、請求項46の方法。
【請求項48】
識別ピークの選択が、下表:
【表1】
からなるリストからのおおよそのm/z中心を有する少なくとも一つのピークを選択することを特徴とする、請求項47の方法。
【請求項49】
識別ピークの選択が、少なくとも8つのピークを選択することを特徴とする、請求項48の方法。
【請求項50】
識別ピークの選択が、12個のピークを選択することを特徴とする、請求項48の方法。
【請求項51】
識別ピークの選択が、下表:
【表2】
からなるおおよそのピーク幅をそれぞれ有するピークから選択することを特徴とする、請求項48の方法。
【請求項52】
患者が薬物または治療に応答するかどうかを決定するシステムであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトル、および該患者として同一もしくは類似の臨床段階の疾患を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群を保存するように形成された記憶装置;並びに
該記憶装置と通信するプロセッサであって、
複数の形状的特徴を有する試験スペクトルを取得し;
該試験スペクトルの形状的特徴を処理して、同一または類似の臨床段階の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得た識別ピークを有するクラス標識したスペクトルの群と、該試験スペクトルとの間に関係が存在しているかどうかを決定し;並びに
該試験スペクトルの処理されたピークに基づいて、該患者が該薬物または治療に応答するかどうかを決定するためのソフトウェアを実行するプロセッサを含むことを特徴とするシステム。
【請求項53】
該プロセッサが、該クラス標識したスペクトルの群からの識別ピークをさらに選択する、請求項52のシステム。
【請求項54】
下表:
【表3】
からなるリストからのおおよそのm/z中心を有する少なくとも一つのピークを選択することによって、該プロセッサがさらに該識別ピークを選択する、請求項53のシステム。
【請求項55】
少なくとも8つのピークを選択することによって、該プロセッサが該識別ピークを選択する、請求項53のシステム。
【請求項56】
12個のピークを選択することによって、該プロセッサが該識別ピークを選択する、請求項53のシステム。
【請求項57】
下表:
【表4】
からなるおおよそのピーク幅をそれぞれ有するピークから選択することによって、該プロセッサが該識別ピークを選択する、請求項48のシステム。
【請求項1】
患者が薬物または治療に応答するかどうかを決定する方法であって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得し;
該試験スペクトルを処理して、同一または類似の臨床段階の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定し;および
該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかを決定することを特徴とする方法。
【請求項2】
試験スペクトルの取得には、癌の疾患を有する患者から取得することが含まれ、該薬物が抗癌薬である、請求項1の方法。
【請求項3】
該試験スペクトルの取得が非小細胞肺癌を有する患者からのものである、請求項2の方法。
【請求項4】
それぞれの該患者についての癌の治療の間に該抗癌薬が有していた公知の臨床的有用性に基づいて、該試験スペクトルを処理する前に該クラス標識したスペクトルの群を標識することをさらに特徴とする、請求項2の方法。
【請求項5】
該試験スペクトルの処理が、該試験スペクトルの少なくとも8つのピークを選択して、該患者が該抗癌薬に応答するかどうかを決定することができるように、該試験スペクトルとクラス標識したスペクトルの群との関係を決定することを特徴とする、請求項2の方法。
【請求項6】
該試験スペクトルの取得がマトリックス支援レーザー脱離/イオン化(MALDI)質量分析計からのものである、請求項1の方法。
【請求項7】
決定が、該試験スペクトルにおいて分類アルゴリズムを実行して、該クラス標識したスペクトルの群に対する関係を決定することを特徴とする、請求項1の方法。
【請求項8】
該分類アルゴリズムの実行が、確率的k最近傍計算を実行することを特徴とする、請求項7の方法。
【請求項9】
該患者が、
(i)該薬物もしくは治療に応答するかどうか、
(ii)該薬物もしくは治療に応答しないかどうか、または
(iii)該薬物もしくは治療に応答する患者への応答性の決定がなされ得ないこと
を示すクラス標識を出力することをさらに特徴とする、請求項7の方法。
【請求項10】
該クラス標識したスペクトルの群において実行された処理に従って、該試験スペクトルを調製する処理の前に該試験スペクトルを前処理することをさらに特徴とする、請求項1の方法。
【請求項11】
前処理が、該試験スペクトルに含まれるバックグラウンドを低減させることを特徴とする、請求項10の方法。
【請求項12】
前処理が、該バックグラウンドを低減させた試験スペクトルを正規化することをさらに特徴とする、請求項11の方法。
【請求項13】
前処理が、該正規化され、バックグラウンドを低減させた試験スペクトルのピークを選択することをさらに特徴とする、請求項12の方法。
【請求項14】
前処理が、該正規化され、バックグラウンドを低減させた試験スペクトルの選択されたピークをスペクトル的に重ね合わせることをさらに特徴とする、請求項13の方法。
【請求項15】
該患者が該薬物または治療に応答するかどうかを決定するのに利用されるパラメータを設定して、該患者が該薬物または治療に応答すると決定される信頼度をパーセンテージの形で確立することをさらに特徴とする、請求項1の方法。
【請求項16】
パラメータの設定に、ログランクp値の設定が含まれる、請求項15の方法。
【請求項17】
決定が、該患者が薬物ゲフィチニブに応答するかどうかを決定することを特徴とする、請求項1の方法。
【請求項18】
該試験スペクトルの処理が、該クラス標識したスペクトルの群のピークとの関連で処理されるべき試験スペクトルの複数の識別ピークを選択することを特徴とする、請求項1の方法。
【請求項19】
該クラス標識したスペクトルの群を処理して、いずれの臨床からのクラス標識したスペクトルの群を用いて実行される処理も可能となるように、実質的に臨床に依存せず、かつ実質的に質量分析計に依存しないスペクトル群を得ることをさらに特徴とする、請求項1の方法。
【請求項20】
請求項1の血清試料を用いて該試験スペクトルを得、該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該決定がインターネットで遠隔的になされるビジネス方法。
【請求項21】
患者が薬物または治療に応答するかどうかを決定するシステムであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトル、および同一もしくは類似の臨床段階の疾患を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群を保存するように形成された記憶装置;並びに
該記憶装置と通信するプロセッサであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得し;
該試験スペクトルを処理して、同一または類似の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定し;および
該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかを決定するためのソフトウェアを実行するプロセッサを含むシステム。
【請求項22】
該患者が癌の疾患を有しており、該薬物が抗癌薬である、請求項21のシステム。
【請求項23】
該癌患者が非小細胞肺癌を有している、請求項22のシステム。
【請求項24】
それぞれの該癌患者についての癌の治療の間に該抗癌薬が有していた公知の臨床的有用性に基づいて、該試験スペクトルを処理する前に該クラス標識したスペクトルの群を標識することをさらに特徴とする、請求項22のシステム。
【請求項25】
該試験スペクトルの少なくとも8つのピークを選択して、該癌患者が該抗癌薬に応答するかどうかを決定することができるように、該試験スペクトルとクラス標識したスペクトルの群との関係を決定することによって、該プロセッサが該試験スペクトルを処理する、請求項22のシステム。
【請求項26】
該質量分析計がマトリックス支援レーザー脱離/イオン化(MALDI)質量分析計である、請求項21のシステム。
【請求項27】
該試験スペクトルにおいて分類アルゴリズムを実行して、該クラス標識したスペクトルの群に対する関係を決定することによって、該患者が該薬物に応答するかどうかを該プロセッサが決定する、請求項21のシステム。
【請求項28】
該分類アルゴリズムが確率的k最近傍計算を含む、請求項27のシステム。
【請求項29】
該患者が、
(i)該薬物もしくは治療に応答するかどうか、
(ii)該薬物もしくは治療に応答しないかどうか、または
(iii)該薬物もしくは治療に応答する患者への応答性の決定がなされ得ないこと
を示すクラス標識を該プロセッサがさらに出力する、請求項27のシステム。
【請求項30】
該プロセッサがさらに、該クラス標識したスペクトルの群において実行された処理に従って、該試験スペクトルを調製する処理の前に該試験スペクトルを前処理する、請求項21のシステム。
【請求項31】
該試験スペクトルに含まれるバックグラウンドを低減させることによって、該プロセッサが該試験スペクトルを前処理する、請求項30のシステム。
【請求項32】
該バックグラウンドを低減させた試験スペクトルをさらに正規化することによって、該プロセッサが該試験スペクトルを前処理する、請求項31のシステム。
【請求項33】
該正規化され、バックグラウンドを低減させた試験スペクトルのピークをさらに選択することによって、該プロセッサが前処理する、請求項32のシステム。
【請求項34】
該正規化され、バックグラウンドを低減させた試験スペクトルの選択されたピークをさらにスペクトル的に重ね合わせることによって、該プロセッサが前処理する、請求項33のシステム。
【請求項35】
該プロセッサがさらに、該患者が該薬物または治療に応答するかどうかを決定するのに利用されるパラメータを設定して、該患者が該薬物または治療に応答すると決定される信頼度をパーセンテージの形で確立する、請求項21のシステム。
【請求項36】
該プロセッサがログランクp値の設定によって該パラメータを設定する、請求項35のシステム。
【請求項37】
該癌患者が該薬物ゲフィチニブに応答するかどうかを該プロセッサが決定する、請求項21のシステム。
【請求項38】
該クラス標識したスペクトルの群のピークとの関連で処理されるべき該試験スペクトルの複数の識別ピークを選択することによって、該プロセッサが該試験スペクトルを処理する、請求項21のシステム。
【請求項39】
いずれの臨床からのクラス標識したスペクトルの群を用いて実行される前記処理も可能となるように、実質的に臨床に依存せず、かつ実質的に質量分析計に依存しない該クラス標識したスペクトルの群を得る生スペクトル群を該プロセッサがさらに処理する、請求項21のシステム。
【請求項40】
患者が薬物または治療に応答するかどうかを決定するシステムであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトルを取得する方法;
該試験スペクトルを処理して、同一もしくは類似の臨床段階の疾患を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群に対する関係を決定する方法;並びに
該クラス標識したスペクトルの群に対する該試験スペクトルの関係に基づいて、該患者が該薬物または治療に応答するかどうかを決定する方法
を含むことを特徴とするシステム。
【請求項41】
該患者が癌疾患を有する、請求項40のシステム。
【請求項42】
該患者が非小細胞肺癌を有する、請求項41のシステム。
【請求項43】
該クラス標識したスペクトルの群において実行された前記処理方法に従って、該試験スペクトルを調製する処理の前に該試験スペクトルを前処理する方法をさらに含むことを特徴とする、請求項40のシステム。
【請求項44】
該患者が該薬物または治療に応答するかどうかを決定する前記方法によって利用されるパラメータを設定して、該患者が該薬物または治療に応答すると決定される信頼度をパーセンテージの形で確立する方法をさらに含むことを特徴とする、請求項40のシステム。
【請求項45】
該薬物がゲフィチニブである、請求項40のシステム。
【請求項46】
患者が薬物または治療に応答するかどうかを決定する方法であって、
疾患を有する患者から得た血清から質量分析計によって得られた複数の形状的特徴を有する試験スペクトルを取得し;
該試験スペクトルの形状的特徴を処理して、該患者として同一または類似の臨床段階の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得た識別ピークを有するクラス標識したスペクトルの群と、該試験スペクトルとの間に関係が存在しているかどうかを決定し;並びに
該試験スペクトルの処理されたピークに基づいて、該患者が該薬物または治療に応答するかどうかを決定することを特徴とする方法。
【請求項47】
該クラス標識したスペクトルの群からの識別ピークを選択することをさらに特徴とする、請求項46の方法。
【請求項48】
識別ピークの選択が、下表:
【表1】
からなるリストからのおおよそのm/z中心を有する少なくとも一つのピークを選択することを特徴とする、請求項47の方法。
【請求項49】
識別ピークの選択が、少なくとも8つのピークを選択することを特徴とする、請求項48の方法。
【請求項50】
識別ピークの選択が、12個のピークを選択することを特徴とする、請求項48の方法。
【請求項51】
識別ピークの選択が、下表:
【表2】
からなるおおよそのピーク幅をそれぞれ有するピークから選択することを特徴とする、請求項48の方法。
【請求項52】
患者が薬物または治療に応答するかどうかを決定するシステムであって、
疾患を有する患者から得た血清から質量分析計によって得られた試験スペクトル、および該患者として同一もしくは類似の臨床段階の疾患を有しており、かつ薬物もしくは治療に応答しているかもしくは応答していないことが知られている他の患者からのそれぞれの血清から得たクラス標識したスペクトルの群を保存するように形成された記憶装置;並びに
該記憶装置と通信するプロセッサであって、
複数の形状的特徴を有する試験スペクトルを取得し;
該試験スペクトルの形状的特徴を処理して、同一または類似の臨床段階の疾患を有しており、かつ薬物または治療に応答しているかまたは応答していないかが知られている他の患者からのそれぞれの血清から得た識別ピークを有するクラス標識したスペクトルの群と、該試験スペクトルとの間に関係が存在しているかどうかを決定し;並びに
該試験スペクトルの処理されたピークに基づいて、該患者が該薬物または治療に応答するかどうかを決定するためのソフトウェアを実行するプロセッサを含むことを特徴とするシステム。
【請求項53】
該プロセッサが、該クラス標識したスペクトルの群からの識別ピークをさらに選択する、請求項52のシステム。
【請求項54】
下表:
【表3】
からなるリストからのおおよそのm/z中心を有する少なくとも一つのピークを選択することによって、該プロセッサがさらに該識別ピークを選択する、請求項53のシステム。
【請求項55】
少なくとも8つのピークを選択することによって、該プロセッサが該識別ピークを選択する、請求項53のシステム。
【請求項56】
12個のピークを選択することによって、該プロセッサが該識別ピークを選択する、請求項53のシステム。
【請求項57】
下表:
【表4】
からなるおおよそのピーク幅をそれぞれ有するピークから選択することによって、該プロセッサが該識別ピークを選択する、請求項48のシステム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6A】
【図6B】
【図7A】
【図7B】
【図8A】
【図8B】
【図9】
【図10A】
【図10B】
【図10C】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6A】
【図6B】
【図7A】
【図7B】
【図8A】
【図8B】
【図9】
【図10A】
【図10B】
【図10C】
【図11】
【図12】
【図13】
【図14】
【図15】
【公表番号】特表2009−532673(P2009−532673A)
【公表日】平成21年9月10日(2009.9.10)
【国際特許分類】
【出願番号】特願2009−502923(P2009−502923)
【出願日】平成19年3月26日(2007.3.26)
【国際出願番号】PCT/US2007/007467
【国際公開番号】WO2007/126758
【国際公開日】平成19年11月8日(2007.11.8)
【出願人】(508293966)バイオデシックス・インコーポレイテッド (3)
【氏名又は名称原語表記】BIODESIX INC
【Fターム(参考)】
【公表日】平成21年9月10日(2009.9.10)
【国際特許分類】
【出願日】平成19年3月26日(2007.3.26)
【国際出願番号】PCT/US2007/007467
【国際公開番号】WO2007/126758
【国際公開日】平成19年11月8日(2007.11.8)
【出願人】(508293966)バイオデシックス・インコーポレイテッド (3)
【氏名又は名称原語表記】BIODESIX INC
【Fターム(参考)】
[ Back to top ]