循環器疾患の診断と分類のためのバイオマーカーアッセイ
本開示の方法、アッセイおよびキットは、ヒトの心臓血管の健康を評価するため、バイオマーカー、特にmiRNAおよび/またはタンパク質バイオマーカーを同定する。特定の実施形態において、方法、アッセイおよびキットは、ヒトの心臓血管の健康を評価するために、血液循環するmiRNAおよび/またはタンパク質バイオマーカーを識別する。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願のためのクロスリファレンス)
この出願では、2009年12月9日に出願された、米国仮特許出願第61/285,121号を基礎に優先権を主張しており、その全体が参照により本明細書に組み込まれている。
【背景技術】
【0002】
アテローム性動脈硬化症(ASCVD)は、世界的に、罹患率と死亡率の主な原因である。心筋梗塞(MIs)の約60%は、危険因子が0または1の人に発生する。すなわち、心臓イベントが発生した人々の大多数は、現在の方法で評価した場合、低めの中間または中間のリスクのカテゴリにある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
遺伝的要因と環境的要因の組み合わせは、疾患の開始および進行に責任がある。アテローム性動脈硬化症はしばしば無症候性であり、現在の診断法によって検出されない。実際、多くの場合、アテローム性動脈硬化症の最初の症状は、心臓発作や心臓突然死である。
【0004】
循環器疾患やその進展を、正確に予測し、診断することができるアッセイや方法は、非常に望ましい。
【課題を解決するための手段】
【0005】
この開示は、人間の心臓血管系の健康を評価するための方法、アッセイおよびキットを提供する。一実施形態では、以下の工程を含む、人間の心臓血管系の健康を評価するための方法が提供されている。 a)人間から生物学的サンプルを得ること; b)前記生物学的サンプルで、表20に記載されているmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定すること; c)各miRNAマーカーのレベルを有するデータセットを得ること; d)前記生物学的サンプルを分類するためにデータを使用する分析・分類プロセスに、前記データを入力すること; ここで該分類は、アテローム性動脈硬化症、健康、薬剤曝露、薬剤非曝露からなる分類群から選択されるものであり、そして、e)ステップ(d)の分類に基づいて、人間のための治療法を決定することであって、ここでヒトの心臓血管系の健康を評価すること。
【0006】
ヒトの心臓血管系の健康を評価するための方法であって、 a)ヒトから生物学的サンプルを得ること; b)前記生物学的サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFから成る群から選択される少なくとも3つのタンパク質バイオマーカーのレベルを決定すること; c)各タンパク質マーカーのレベルを有するデータセットを得ること; d)前記生物学的サンプルを分類するために前記データを使用する分析・分類プロセスに、前記データを入力すること;ここで該分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、薬剤非曝露分類からなる分類群から選択されること、および、e)ステップ(d)の分類に基づいて、ヒトのための治療計画を決定することであって、ヒトの心臓血管系の健康を評価すること、を特徴とする、方法。
【0007】
治療計画の必要性や有効性を判断するためにヒトの心臓血管系の健康を評価するための方法であって、以下を含む。ヒトから生物学的サンプルを得ること、前記生物学的サンプル中の、表20に記載されているmiRNAの中から選ばれる少なくとも2つのmiRNAのマーカーのレベルを決定することと、前記生物学的サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFから成る群から選択される少なくとも3つのタンパク質バイオマーカーのレベルを決定すること、各miRNAマーカーとタンパク質バイオマーカーのレベルを有するデータセットを取得すること、前記生物学的サンプルを分類するために前記データを使用して、分析・分類プロセスに前記データを入力することであって、ここで該分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、薬剤非曝露分類からなる分類群から選択されること、および、前記分類プロセスの出力に応じて前記生物学的サンプルを分類し、前記分類に基づいてヒトのための治療計画を決定すること。
【0008】
さらに別の実施形態では、治療計画の必要性や有効性を決定するためにヒトの心臓血管系の健康を評価するためのキットが提供されている。キットは以下を含む:生物学的サンプル中の表20に記載されているmiRNAの中から選ばれる少なくとも2つのmiRNAマーカーのレベルを決定するためのアッセイと、及び/又は、生物学的サンプル中の、IL−16、SFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF及びEGFからなる群から選択される少なくとも3つのタンパク質マーカーのレベルを決定するためのアッセイと、以下のための使用説明書とを含み、使用説明書は、(1)各miRNA及び/又はタンパク質マーカーのレベルを有するデータセットを取得すること、(2)生物学的サンプルを分類するためのデータを使用して、分析・分類プロセスにデータを入力することであって、前記分類は、アテローム性動脈硬化症心血管疾患分類、健康分類、薬剤曝露分類、薬剤非曝露分類から成る群から選択されること、(3)前記分類に基づいてヒトのための治療計画を決定すること、のためのものである。
【0009】
さらに別の実施形態は、ヒトの心血管イベントのリスクを評価するための方法であって、a)ヒトから生物学的サンプルを得ること、b)前記サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGFおよびEGFからなる群から選ばれる3以上のタンパク質バイオマーカーのレベル、及び/又は、表20の中の2つ以上のmiRNAのレベルを決定すること、c)各タンパク質バイオマーカー及び/又はmiRNAバイオマーカーのレベルを有するデータセットを得ること、d)前記データセットに基づいて心血管イベントのリスクを決定するために、リスク予測分析プロセスにデータを入力すること、e)ステップ(d)の心血管イベントの予測リスクに基づいてヒトのための治療計画を決定することであって、ここでは、ヒトの心血管イベントのリスクが評価される、方法、である。
【図面の簡単な説明】
【0010】
【図1】ロジスティック回帰分析アプローチに基づいた52検体セット(26症例(cases)と26のコントロール)の予想される分類性能を示すグラフである。予想されるAUCとそれに対応する95%信頼区間は、52の個々人またはプールされたサンプルのいずれかのセット分類の500のシミュレーションから得られた。破線のエラーバー上の白丸は、対数正規分布に従うと仮定されたバイオマーカー濃度やスコア値と共に、期待値と、プールされたサンプル(各プール内の5サンプル)を用いた信頼区間を表している。実線のエラーバー上の白丸は、期待値と同じ分布から個々の試料を用いて信頼区間を表している。実線の黒い点は、理論的な結果を表している。x軸は、症例とコントロールのバイオマーカーやスコア分布の平均の差を表している。
【0011】
【図2】ロジスティック回帰分析アプローチに基づいた52検体セット(26症例と26コントロール)の予想される分類性能を示すグラフである。予想されるAUCとそれに対応する95%信頼区間は、52の個々人またはプールされたサンプルのいずれかのセット分類の500のシミュレーションから得られた。破線のエラーバー上の白丸は、「正規分布」に従うと仮定されたバイオマーカー濃度やスコア値と共に、期待値と、プールされたサンプル(各プール内の5サンプル)を用いた信頼区間を表している。実線のエラーバー上の白丸は、期待値と同じ分布から個々の試料を用いて信頼区間を表している。実線の黒い点は、理論的な結果を表している。x軸は、症例とコントロールのバイオマーカーやスコア分布の平均の差を表している。
【0012】
【図3】44のmiRのセットから共変量を選択するモデルに基づいてプールされたサンプルの分類のためのAUC値の分布のグラフである。AUC値の計算は、ペナルティ付きロジスティック回帰モデル(L1ペナルティ付き)のデータへの適合を介して、100の事前検証済み(prevalidated)分類スコアベクトルを得ることに基づいている。X軸はAUCを表し、Y軸は頻度を表している。示されているように、平均AUCは0.68である。
【0013】
【図4】44のmiRのセットから共変量を選択するモデルに基づいた、個々のサンプル分類のためのAUC値分布のグラフである。AUC値の計算は、ペナルティ付きロジスティック回帰モデル(L1ペナルティ付き)のデータへの適合を介して、100の事前検証済み(prevalidated)分類スコアベクトルを得ることに基づいている。示されているように、平均AUCは0.78である。
【0014】
【図5】44のmiRのセットと47のタンパク質バイオマーカーから共変量を選択するモデルに基づいた、個々のサンプル分類のためのAUC値分布のグラフである。AUC値の計算は、ペナルティ付きロジスティック回帰モデル(L1ペナルティ付き)のデータへの適合を介して、100の事前検証済み(prevalidated)分類スコアベクトルを得ることに基づいている。示されているように、平均AUCは0.75である。
【0015】
【図6】垂直線で示された、最も高い負の相関と、最も高い正の相関を含めた、miRとタンパク質との相関分布を示すグラフである。
【0016】
【図7】miRs単独での相関の分布を示すグラフである。
【0017】
【図8】単独の、タンパク質バイオマーカーのデータに基づいて算出され、事前検証済みのスコア(500リピート)に基づいたAUCの分布を示すグラフである。
【0018】
【図9】コントロールの平均値と標準偏差に正規化されたタンパク質バイオマーカーの単変量ハザード比を示すグラフである。
【0019】
【図10】タンパク質バイオマーカーの調整ハザード比(adjusted hazard ratio、HR)を示すグラフである。調整は、従来の危険因子(TRFs)である、年齢、性別、収縮期血圧(BP)、拡張期血圧、コレステロール、高比重リポ蛋白(HDL)、高血圧症、高血圧薬の使用、高脂血症、糖尿病、喫煙状態、に基づいて行った。
【0020】
【図11A】最も高い時間依存性AUCを有するマーカー群と、5年までのフォローアップ対応値を示すグラフである。sFAS、NT.proBNP、MIG、IL.16、MIG、及びANG2に対するAUCが示されている。
【図11B】最も高い時間依存性AUCを有するマーカー群と、5年までのフォローアップ対応値を示すグラフである。Fasリガンド、SCD40L、アディポネクチン、MCP.3、レプチン及びRANTESに対するAUCが示されている。
【0021】
【図12】Cox比例ハザード回帰モデルの用語の数の関数として、絶対値とドロップ・イン・逸脱(drop−in−deviance)の標準誤差を示すグラフである。モデルに含まれるマーカーの最適な数は、「1−標準誤差ルール」を使用して、選択されている。
【0022】
【図13A】コントロールの、Marshfieldサンプルセットでの4CoxPHモデルから得られた線形予測のカーネル密度推定を示すグラフである。
【図13B】症例の、Marshfieldサンプルセットでの4CoxPHモデルから得られた線形予測のカーネル密度推定を示すグラフである。
【0023】
【図14A】コントロールの、MESAサンプルセットでの4CoxPHモデルから得られた線形予測のカーネル密度推定を示すグラフである。
【図14B】症例の、MESAサンプルセットでの4CoxPHモデルから得られた線形予測のカーネル密度推定を示すグラフである。
【発明を実施するための形態】
【0024】
本開示は、ヒトの心臓血管系の健康を評価するための方法、アッセイおよびキットを提供し、特に、ヒトでのアテローム性動脈硬化症(ASCVD)を、予測、診断、および監視するために、提供する。開示される方法、アッセイおよびキットは、ヒトの心臓血管の健康を評価するための、循環するマイクロリボ核酸(miRNA)バイオマーカー及び/又は蛋白質バイオマーカーを、識別(同定)する。これら方法、アッセイおよびキットの特定の実施例では、循環するmiRNA及び/又はタンパク質バイオマーカーは、ヒトの心臓血管系の健康を評価するために識別される。
【0025】
一実施形態において、本開示は、治療計画のための必要性、またはその有効性を決定するためにヒトの心臓血管系の健康を評価するための方法を提供し、それは、以下の、ヒトから生物試料を得ること、前記生物試料で、表20に記載されている群から選択された少なくとも2つのmiRNAマーカーのレベルを決定すること、各miRNAマーカーのレベルを含むデータセットを得ること、前記生物試料を分類するためにデータを使用する分析・分類プロセスに、前記データを入力すること、ここで該分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、薬剤非曝露分類からなる分類群から選択されるものであって、分類プロセスの出力に応じて前記生物学的サンプルを分類すること、および、前記分類に基づいて、ヒトのための治療計画を決定すること、からなる。
【0026】
特定の実施形態では、治療計画の必要性、または有効性を判断するために、以下(の工程)、つまり、ヒトから生物学的サンプルを得ること(工程)、前記生物学的サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFから成る群から選択される少なくとも3つのタンパク質マーカーのレベルを決定すること、各タンパク質バイオマーカーのレベルを含むデータセットを得ること、前記生物学的サンプルを分類するために前記データを使用する分析・分類プロセスに、前記データを入力すること;ここで該分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、薬剤非曝露分類からなる分類群から選択されること、および、前記分類プロセスの出力に応じて前記生物学的サンプルを分類し、前記分類に基づいて人間のための治療計画を決定すること、を含む、ヒトの心臓血管系の健康を評価するための方法が、開示されている。
【0027】
別の実施形態においては、ヒトの心臓血管系の健康を評価するための方法が、提供されている。特定の実施形態においては、前記評価は、治療計画の必要性や有効性を決定するために使用することができる。当該方法は、ヒトから生物学的サンプルを得ること、前記生物学的サンプルで、表20に記載されているmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定すること、前記生物学的サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFから成る群から選択される少なくとも3つのタンパク質バイオマーカーのレベルを決定すること、miRNAマーカーとタンパク質バイオマーカーの個々のレベルで構成されるデータセットを取得すること、前記生物学的サンプルを分類するために前記データを使用して分析・分類プロセスに前記データを入力することであって、ここで該分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、薬剤非曝露分類からなる分類群から選択されること、および、前記分類プロセスの出力に応じて前記生物学的サンプルを分類し、前記分類に基づいてヒトのための治療計画を決定すること、である。
【0028】
さらに別の実施形態では、ヒトの心血管系イベントのリスクを評価するための方法を提供する。この方法は、以下を含む。つまり、ヒトから生物学的サンプルを得ること、当該サンプル中の、(1)IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFから成る群から選択される3つまたはそれ以上のタンパク質バイオマーカーのレベル、及び又は、(2)表20のmiRNAの中から選ばれる2つまたはそれ以上の miRNAのマーカーのレベル、を決定すること。当該方法では、各タンパク質バイオマーカー及び又は各miRNAバイオマーカーのレベルを含むデータセットが得られる。前記データセットに基づいて心血管イベントのリスクを予測するリスク予測分析プロセスへデータが入力され、この心血管イベントの予測リスクに基づいて、ヒトのための治療計画が決定される。心血管系イベントのリスクは、サンプルが得られ、及び又は、分析された日から、約1年、約2年、約3年、約4年、約5年、又はそれ以上の期間、予測することができる。当該予測された心血管系イベントは、後述するように、アテローム性動脈硬化疾患の進展、MI(心筋梗塞、myocardial infarction)等を予測できる。
【0029】
用語「マーカー」と「バイオマーカー」は、本開示を通して同義語として使われている。
【0030】
本開示の方法では、検出され、そのレベルが決定されたmiRNAマーカーの数は、1つ、又は、2、3、4、5、6、7、8、9、10やそれ以上であり得る。特定の実施形態では、検出されたmiRNAのマーカーの数は、3、または5以上である。検出され、そのレベルが決定されているタンパク質バイオマーカー数は、1か、またはそれより多く、例えば2、3、4、5、6、7、8、9、10以上である。特定の実施形態では、1、2、3、または5以上のmiRNAマーカーが検出されて、そのレベルが決定され、そして、1、2、3、または5以上のタンパク質バイオマーカーが検出され、そのレベルが決定されている。
【0031】
本開示の方法は、アテローム性動脈硬化症の診断とモニタリングのために有用である。アテローム性動脈硬化症は、また、アテローム性動脈硬化症、動脈硬化症、アテローム性血管疾患、動脈閉塞性疾患、または心臓血管疾患として知られており、血管壁へのプラーク蓄積や、血管の炎症によって特徴づけられる。血管の炎症は、アクティブなアテローム性動脈硬化症、不安定プラーク、または脆弱性プラークの特質である。プラークは、蓄積された、細胞内および細胞外脂質、平滑筋細胞、結合組織、炎症性細胞、およびグリコサミノグリカンから構成されている。特定のプラークはまた、カルシウムを含む。不安定な、アクティブな、または、脆弱なプラークは、炎症性細胞で濃縮される。
【0032】
例によって、本発明は、サンプルに関連付けられたデータセットであって、少なくともmiRNAのマーカー単独か、またはアテローム性動脈硬化症の予測因子として同定されているタンパク質バイオマーカーとの組み合わせによる定量的データを含むデータセットを取得すること、前記データセットを、アテローム性動脈硬化症の診断とモニタリングに有用な結果を生成するために前記データセットを使用する分析プロセスに前記データセットを入力することによって、アテローム性動脈硬化症の診断とモニタリングに有用な結果を生成するための方法を含む。この定量的データは、DNA、RNA、タンパク質の発現レベル、およびそれらの組み合わせを含めることができる。
【0033】
本開示の、方法、アッセイおよびキットはまた、心筋梗塞(MI)、急性冠症候群、脳卒中、心不全、および狭心症を含む心血管疾患の合併症の診断およびモニタリングのために有用である。一般的な合併症の例としては、通常、心筋のセグメントへの冠(冠状動脈)血流量の急激な減少に起因する虚血性心筋壊死に関連するMIである。急性MIの患者の大多数で、しばしばプラーク破裂に伴う急性血栓が、損傷部位を供給する動脈を閉塞する。プラークの破裂は、炎症性細胞が濃縮されたアテローム性動脈硬化プラークによって以前に部分的に遮られた動脈で一般的に発生する。一般的なアテローム性動脈硬化の合併症の他の例は、胸部の痛みや心臓への不十分な血流に起因する不快感の症状を伴う状態の、狭心症である。
【0034】
本開示は、与えられた個々人のために、採血から特定の期間内に、心血管イベント(例えば、MI)のリスク予測と同様に、アテローム性動脈硬化症の診断と分類に使用することができる炎症のバイオマーカーのプロファイルを識別する。本開示でアッセイされたmiRNAおよび蛋白質バイオマーカーは、別のアテローム性動脈硬化症の分類、例えば、診断、ステージング、予後、モニタリング、治療反応、擬似冠動脈カルシウムスコアの予測を区別することが可能である学習アルゴリズムを用いて同定されるものである。臨床的しるし(例えば、従来の危険因子)のような、アテローム性動脈硬化症の分類をするために有用なその他のデータはまた、アテローム性動脈硬化症分類のための有用な結果を生成するために使用されるデータセットの一部であり得る。
【0035】
様々なmiRNAマーカーおよび蛋白質バイオマーカーの定量的なデータを含むデータセットは、単独または併用で、本明細書に開示され、他のデータセットコンポーネント(例えば、DNA、RNA、臨床的しるしの程度)の定量的データは、分析プロセスに入力され、結果を生成するために使用することができる。分析プロセスは、定義されたパラメータ、言い換えれば、予測モデルでの、任意の学習アルゴリズムのタイプであり得る。予測モデルは、学習アルゴリズムを参照または対照データの適切な型に適用することによって、様々なアテローム性動脈硬化症の分類やリスク予測のために開発することができる。分析プロセス/予測モデルの結果は、適切な個人が、適切な処置を取るために使用することができる。例えば、分類が、「健康」や 「アテローム性動脈硬化症」である場合、その結果は、個々の治療の適切な臨床経路を決定するために使用することができる。
【0036】
マイクロRNA(本明細書では、また、miRNA、pRNA、miRと称す)は、約17〜27ヌクレオチドの長さの一本鎖RNA分子の形態で、遺伝子発現を調節する。miRNAは、遺伝子によってコードされ、そのDNAから転写される。しかし、miRNAは、タンパク質に翻訳されず(すなわち、miRNAはノンコーディングRNAである)、代わりに、各一次転写産物(pri−miRNA)は、プレmiRNAと呼ばれる短いステムループ構造になり、最終的には機能的なmiRNAへとプロセスされる。
【0037】
ヒトの(心血管系の)炎症に関連し、心血管系の健康を評価するために有用なmiRNAマーカーは、以下に限定されはしないが、1つ以上の、miR−26a、miR−16、miR−222、miR−10b、miR−93、miR−192、miR−15a、miR−125−a.5p、miR−130a、miR−92a、miR−378、miR−20a、miR−20b、miR−107、miR−186、hsa.let.7f、miR−19a、miR−150、miR−106b、miR−30c、及び、let 7bを含む。特定の実施形態では、miRNAマーカーは、1つ以上のmiR−26a、miR−16、miR−222、miR−10b、miR−93、miR−192、miR−15a、miR−125−a.5p、miR−130a、miR−92a、miR−378、及び、let 7bを含む。特に、表20に記載されているmiRNAは、ヒトの心血管系の健康を評価するのに有用である。
【0038】
ヒトの(心血管系の)炎症に関連し、心血管系の健康を評価するために有用なタンパク質バイオマーカーは、以下に限定されないが、1つ以上のRANTES、TIMP1、MCP−1、MCP−2、MCP−3、MCP−4、エオタキシン(eotaxin)、IP−10、M−CSF、IL−3、TNFa、Ang−2、IL−5、IL−7、IGF−1、sVCAM、slCAM−1、E−selectin、P−selection、インターロイキン−6、インターロイキン−18、クレアチンキナーゼ、LDL、oxLDL、LDL粒子サイズ、リポプロテイン(a)トロポニンI、トロポニンT、LPPLA2、CRP、HDL、トリグリセリド、インスリン、BNP、フラクタルキン、オステオポンチン、オステオプロテゲリン、オンコスタチン−M、ミエロペルオキシダーゼ、ADMA、PAI−1(プラスミノゲンアクチベーター阻害剤)、SAA(循環アミロイドA)、t−PA(組織型プラスミノゲン活性化因子)、sCD40リガンド、フィブリノーゲン、ホモシステイン、D−ダイマー、白血球数、心臓型脂肪酸結合タンパク質、MMP1、プラスミノゲン、葉酸、ビタミンB6、レプチン、可溶性トロンボモジュリン、PAPPA、MMP9、MMP2、VEGF、PIGF、HGF、vWF、及び、シスタチンC、を含む。特定の実施形態では、タンパク質バイオマーカーは、1つ以上の、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及び、EGFを含む。特定のバイオマーカーに加えて、本開示は、さらに、例示配列と、約90%、約95%、または約97%同一であるバイオマーカー変異体を含む。本明細書で使用される変異体は、多型、スプライシング(splice)変異体、遺伝子変異などが含まれている。
【0039】
タンパク質バイオマーカーは、種々の方法で検出することができる。たとえば、in vivoイメージングは、心臓組織におけるアテローム性動脈硬化症関連タンパク質の存在を検出するために利用することができる。このような方法は、例えば、その様なタンパク質に特異的な標識抗体またはリガンドを利用することができる。これらの実施形態において、ポリペプチドに対して特異的である検出可能に標識された部分、例えば、抗体、リガンド等は、(例えば、注射によって)個々人に投与され、そして、これらに標識された細胞は、限定はされないが、磁気共鳴イメージング、コンピュータ断層撮影スキャンなどを含む、標準的なイメージング技術を使用して、検出される。しかし、磁気共鳴イメージング、コンピュータ断層撮影スキャン、などが挙げられるが、これらに限定されない。検出には、イメージング試薬の1つか、またはカクテルを利用することができる。
【0040】
追加のマーカーは、以下に限定されないが、年齢、性別、LDL濃度、HDL濃度、トリグリセリド濃度、血圧、ボディマス指数(体格指数)、CRP濃度、冠動脈カルシウムスコア、ウエスト周囲径、タバコ喫煙状況、心血管疾患の既往歴、心血管疾患の家族歴、心拍数、空腹時インスリン濃度、空腹時グルコース濃度、糖尿病の状態、および高血圧の薬の使用を含む、1つ以上の臨床的しるしから選択することができる。アテローム性動脈硬化症の分類を行うために有用な追加の臨床的しるしは、線形判別分析、サポートベクターマシン分類(support vector machine classification)、帰納的な特徴除去(recursive feature elimination)、マイクロアレイ予測分析、ロジスティック回帰、CART、フレックスツリー(FlexTree)、LART、ランダムフォレスト、MART及び/又は、生存分析回帰など、当技術分野で知られているこれらの学習アルゴリズムを用いて、同定することができる。これらは、当業者に知られており、さらに本明細書に記載されている。
【0041】
本明細書に開示された分析分類は、予測モデルの使用を含むことができる。予測モデルは、さらに、分類のために、少なくとも約0.68またはそれ以上の品質要求基準(品質メトリック、a quality metric)を備えている。特定の実施形態では、分類のために、少なくとも約0.70またはそれ以上の品質要求基準を備えている。特定の実施形態では、品質要求基準(品質メトリック)は、曲線(AUC)、ハザード比(HR)、相対リスク(RR)、再分類、陽性適中率(PPV)、陰性適中率(NPV)、精度、感度と特異性、ネット再分類指数(Net reclassification Index)、臨床ネット分類インデックス(Clinical Net reclassification Index)下の領域から、選択される。これらおよびその他のメトリックは、本明細書中に記載されるように使用することができる。さらに、様々な用語が、品質要求基準(品質メトリック)を提供するように選択することができる。
【0042】
定量的データは、データセットの各コンポーネントに対して得られ、以前に定義されたパラメータでの分析プロセス(予測モデル)へ入力され、それから、結果を生成するために使用される。
【0043】
データは、サンプルに関連したデータを受け取る個人に帰着する任意の技術を介して、取得することができる。たとえば、個々人は、当業者に公知の方法によって、自分自身でデータセットを生成することにより、データセットを取得することができる。また、データセットは、他の個人または団体からのデータセット、または、1つ以上のデータ値を受け取ることにより、取得することができる。例えば、ある研究室専門家は、特定のデータ値を生成することができ、一方、医療専門家のような他の個人は、そのデータセットの全部又は一部を、分析プロセスに入力して、結果を出すことができる。
【0044】
本開示を通して、参照が「サンプル」になされるが、定量的データは、調達方法、調達時間、組織の由来など、特性の任意の数が変化する複数のサンプルから得ることができることを、当業者は理解すべきである。
【0045】
アテローム性動脈硬化症の分類に有用な結果を生成する方法で、本明細書で提示されたタンパク質マーカーの血液、血清、その他での発現パターンが、得られる。興味あるタンパク質マーカーに関連する定量的データは、そのようなマーカーに関連するDNAまたはRNAレベルの測定を含むアテローム性動脈硬化症の分類に有用な結果の生成を許可する如何なるデータでもあり得るが、一般的には、タンパク発現パターンである。タンパク質レベルは、個別に、または発現プロファイルの一部のような、ハイスループット法を介して定量的測定を生成するような、当業者に公知の任意の方法を介して測定することができる。たとえば、血液由来の患者サンプル、例えば血液、血漿、血清などが、興味のあるタンパク質マーカーの存在と量を決定するために、特定の結合剤や、特定の結合剤のパネルに適用され得る。
【0046】
血液サンプル、または、例えば、血漿、血清などの血液由来のサンプルは、(複数の)miRNAマーカーだけで、または関心ある(複数の)タンパク質マーカーとの組み合わせで、それらの発現レベルの存在についてアッセイされる。一般的には、血液サンプルが採血され、血漿または血清のような血液由来物が、テストされる。加えて、サンプルは、唾液、尿、精液、母乳や汗の様な他の体液由来のものでも可能である。さらに、サンプルは、動脈、静脈、毛細血管のような組織由来でも可能である。さらに、miRNAマーカー、タンパク質バイオマーカーの両方を測定する場合、それらは同じサンプルからでも、または異なるサンプルからでも派生させることができる。例えば、miRNAバイオマーカーは、血液由来のサンプルでアッセイし、タンパク質バイオマーカーは、組織サンプルでアッセイすることもできる。
【0047】
興味あるmiRNAマーカーとタンパク質マーカーに関連付けられる定量的データは、通常、発現プロファイルの形式をとる。発現プロファイルは、多数の評価されたマーカーに対応した、多くのmiRNAまたはタンパク質産物の、相対的または絶対的な発現値のセットを構成している。様々な実施形態において、少なくとも約2、3、4、5、6、7またはそれ以上のマーカーの発現パターンを含む発現プロファイルが作られる。発現プロファイルの個々の発現が異なる各構成メンバーの発現パターンは、例えば、診断、予後、治療のモニタリングのための予測値に関して、特定の特異性と感度を提供することができる。
【0048】
発現データを取得するための多数の方法が知られており、これらテクニックのうちの1つかまたは複数は、単独でまたは組み合わせで、本開示での発現パターンとそのプロファイルを決定するのに適している。
【0049】
例えば、DNAとRNA(mRNA、pri−miRNA、pre−miRNA、miRNA、前駆体ヘアピンRNA、マイクロRNPなど)の発現パターンは、ノーザン解析、PCR、RT−PCR、Taq Man分析、FRET検出、1つまたは複数の分子標識(ビーコン)のモニタリング、オリゴヌクレオチドアレイのハイブリダイゼーション、cDNAアレイのハイブリダイゼーション、ポリヌクレオチドアレイへのハイブリダイゼーション、液体マイクロアレイへのハイブリダイゼーション、マイクロ電気アレイへのハイブリダイゼーション、cDNAシークエンシング、クローン・ハイブリダイゼーション、cDNA断片フィンガープリント、遺伝子発現の連続解析(SAGE法)、サブトラクティブハイブリダイゼーション、ディファレンシャルディスプレイ及び/又はディファレンシャルスクリーニングによって、評価することができる。これらや他のテクニックは、当業者に周知の技術である。
【0050】
本開示は、好ましくは単離された形態の核酸分子を含む。本明細書中で使用されているように、核酸分子が、実質的に他のポリペプチドをコードする核酸分子のコンタミから分離されている場合に、核酸分子は、「単離」されるべきである。用語「核酸」は、コーディングまたは非コーディングのRNAまたはDNAとして定義される。相補的で、即ちハイブリダイズし、適切なストリンジェンシーな条件下で、分子に安定的に結合した状態を保つ核酸は、本開示の範囲内に含まれる。このような配列は、本明細書に開示されたRNAとのヌクレオチド配列の同一性が、少なくとも50%、60%、70%または75%、好ましくは少なくとも約80〜90%、より好ましくは少なくとも約92〜94%、さらにより好ましくは少なくとも約95%、98%、99%かそれ以上で、また、挿入、欠失、ゆらぎ塩基(wobble bases)、置換なども含む。さらに、本明細書に開示のタンパク質バイオマーカーの配列との同一性を、少なくとも約50%、60%、70%または75%、好ましくは少なくとも約80〜90%、より好ましくは少なくとも約92〜94%、そして、最も好ましくは少なくとも約95%、98%、99%以上共有する配列が考えられている。
【0051】
ゲノムDNA、cDNA、RNA(mRNA、pri−miRNA、pre−miRNA、miRNA、ヘアピン前駆体RNA、RNPなど)の分子が、天然物由来かまたは合成で、代替バックボーンに基づく核酸や別の塩基を含む核酸と同様に、具体的な開示の範囲内で意図されている。
【0052】
ヌクレオチドまたはアミノ酸配列レベルでの相同性または同一性は、配列類似性検索用に調整されている、blastp、blastn、blastx、tblastnおよびtblastxプログラムで採用されたアルゴリズムを用いたBLAST(Basic Local Alignment Search Tool)解析によって決定される。BLASTプログラムによって使用されるアプローチは、まず最初に、検索配列とデータベース配列との間で、ギャップの有無で類似セグメントを考慮し、その後、同定された一致の全ての統計学的意義を評価し、最後に、選択された有意なしきい値を満たす一致データのみサマライズすることである。ヒストグラム、説明、アライメント、期待(すなわち、データベース配列に対する一致をレポートするための統計学的に有意なしきい値)、カットオフ、マトリックスおよびフィルタ(低複雑さ)のための検索パラメータは、デフォルト設定である。blastp、blastx、tblastnおよびtblastxで使用されるデフォルトのスコアリングマトリックスは、85ヌクレオチドまたはアミノ酸長さ以上の検索配列に推奨される、BLOSUM62マトリックスである。
【0053】
blastnについては、スコアリングマトリックスは、N(即ち、ミスマッチ残基ペアに対するペナルティスコア)に対するM(即ち、マッチ残基ペアに対する報酬スコア)の比によって設定されるが、ここで、MとNのデフォルト値は、それぞれ、5と−4である。4つのblastnパラメータは、以下のように調整された。つまり、Q=10(ギャップ生成ペナルティ)、R=10(ギャップ伸長ペナルティ)、wink=1(クエリに沿ってすべてのwinkth位置で単語のヒットを生成する)、及びgapw−16(ギャップアライメントが生成される範囲内でウィンドウ幅を設定する)。同等のBlastpパラメータセッティングは、Q=9、R=2、wink=1およびgapw=32である。GCGパッケージのバージョン10.0で利用可能な、配列間のベストフィットな比較は、DNAパラメータのGAP=50(ギャップ生成ペナルティ)と、LEN=3(ギャップ伸長ペナルティ)を使用し、および、タンパク質比較での同等の設定は、GAP=8とLEN=2である。
【0054】
「ストリンジェントな条件」は以下のようであって、(1)低イオン強度および高温を採用する、例えば、50℃で0.015M NaCl/0.0015Mクエン酸ナトリウム/0.1%SDS℃での洗浄、(2)ハイブリダイゼーション中にホルムアミドなどの変性剤を採用、例えば、50%(体積/体積)のホルムアミドに、0.1%ウシ血清albumin/0.1%Ficoll/0.1%polyvinylpyrrolidone/pH6.5の50 mMリン酸ナトリウム緩衝液、750mM NaCl、75mMクエン酸ナトリウム、42℃で。別の例では、50%ホルムアミド中、5xSSC(0.75MのNaCl、0.075Mクエン酸ナトリウム)、50mMリン酸ナトリウム(pH6.8)、0.1%ピロリン酸ナトリウム、5xDenhardt液、超音波処理サケ精子DNA(50pg/ml)、0.1%SDS、10%硫酸デキストランで42℃でのハイブリダイゼーション後、42℃、0.2xSSC及び0.1%SDSで洗浄。当業者であれば、明確で検出可能なハイブリダイゼーションシグナルを得るために、適切なストリンジェンシー条件を、容易に決定し、変えることができる。
【0055】
本開示はさらに、開示の核酸分子のフラグメント(断片)を提供する。本明細書中で使用されるように、核酸分子のフラグメントとは、コーディングまたは非コーディング配列の小さな部分を指している。フラグメントのサイズは、使用目的によって決定される。例えば、フラグメントがタンパク質の活性部分をエンコードするように選択されている場合、フラグメントは、タンパク質の機能的領域をエンコードするのに十分な大きさである必要がある。例えば、予測抗原領域に対応するペプチドをコードするフラグメントを、調製することができる。フラグメントが、核酸プローブまたはPCRプライマーとして使用される場合、フラグメントの長さは、プライミング/プロービング時の偽陽性の数が比較的小さくなるように、選択される。
【0056】
タンパク質の発現パターンは、定量的な尺度を提供し、以下の1つかまたはそれ以上の方法のように、サンプルから抽出された多数のマーカーの評価に適している、当業者に公知の任意の方法によって評価することができる。つまり、タンパク質アレイ(例えば、抗体アレイ)または蛍光活性化セルソーティング(FACS)に結合する、ELISAサンドイッチアッセイ、フローサイトメトリー、質量分析検出、熱量測定アッセイ、など。
【0057】
一実施形態では、あるアプローチは、ELISA、抗体標識蛍光ビーズアレイ、抗体アレイ、またはFACSスクリーンで、1つまたは複数のタンパク質産物のエピトープを認識する、標識されたアフィニティー試薬(例えば、抗体、小分子など)の使用を含む。抗体の産生・評価方法は、当該分野で周知である。
【0058】
沢山の適切なハイスループットフォーマットが、開示されたバイオマーカーの発現パターンとプロファイルを評価するために存在している。一般的に、用語「ハイスループット」は、一日に、少なくとも約100アッセイ、または少なくとも約500アッセイ、または少なくとも約1000アッセイ、または少なくとも約5000アッセイ、または少なくとも約10,000アッセイ、またはそれ以上を実行するフォーマットを指している。アッセイを列挙するとき、サンプル数やアッセイされるマーカー数のどちらかを考慮することができる。
【0059】
ハイスループット発現解析を行うための多数の技術的プラットフォームが知られている。一般的に、このような方法は、対象サンプル、タンパク質マーカー、またはその両方のうちのいずれかの論理的アレイまたは物理的なアレイを含んでいる。一般的なアレイフォーマットは、液体相、固体相の両方のアレイを含む。例えば、核酸のハイブリダイゼーション、リガンドへの抗体または他の受容体の結合などのための、液相アレイを採用するアッセイは、マルチウェルまたはマイクロタイタープレートで行うことができる。96、384または1536ウェルのマイクロタイタープレートは、広く入手可能であり、例えば、3456や9600のより多くのウェルでさえ、使用することができる。一般的には、マイクロタイタープレートの選択は、例えば、サンプルの調製および分析のために使用される、ロボットによるハンドリングやローディングシステムのような、方法や装置によって決定される。典型的なシステムは、例えば、ルミネックス社(Austin、TX)のxMAP(登録商標)テクノロジー、メソスケールディスカバリー社(Gaithersburg、MD)のMULTI−ARRAY(登録商標)やMULTI−SPOT(登録商標)テクノロジーを伴うSECTOR(登録商標)イメージャ、Beckman−Coulter社(Fullerton、Calif.)のORCA(商標)システム、及び、Zymark株式会社(Hopkinton、MA)のZYMATE(商標)システム、miRCURY LNA(商標)microRNAアレイ(Exiqon社、Woburn、MA)、である。
【0060】
また、様々な固相アレイが、好ましくは、本開示の方法、アッセイおよびキットの属性内で、発現パターンを決定するために用いることができる。典型的なフォーマットは、膜またはフィルタアレイ(例えば、ニトロセルロース、ナイロンの)、ピンアレイ、およびビーズアレイ(例えば、液体の「スラリー」内で)を含む。一般的に、候補ライブラリーのメンバーに対応する発現産物と特異的に相互作用する(例えば、ハイブリダイズするか結合する)核酸またはタンパク質試薬に対応するプローブは、固体支持体に、例えば直接または間接的に架橋するなどして、固定化されている。本質的には、特定の発現アッセイを行うために必要な試薬および条件に耐えることができる任意の固体支持体を利用することができる。例えば、機能化ガラス、シリコン、二酸化ケイ素、変性シリコン、(ポリ)テトラフルオロエチレン、(ポリ)フッ化ビニリデン(vinylidenedifluoride)、ポリスチレン、ポリカーボネートのような様々なポリマーのいずれか、またはそれらの組み合わせは全て、固相アレイの基質として役立つことができる。
【0061】
一実施形態において、アレイは、例えば、上記指定された材料の一つで構成される「チップ」である。候補となるライブラリの個々のコンポーネントの発現産物と特異的に相互作用する、例えば、cDNA、合成オリゴヌクレオチドなどのような、例えばRNAまたはDNAの、ポリヌクレオチドプローブ、または、抗体や抗原結合フラグメントまたはそれらの誘導体のような、結合タンパク質が、論理的に順序付けられた方法、すなわち、アレイで、チップに固定されている。さらに、(サンプル標識のデザインに応じて)マーカーの塩基配列のセンスまたはアンチセンス配列のいずれかに特異的親和性を持つ分子は、マーカーに対して特異的親和性を失うことなく、アレイ表面に固定することができ、アレイ作成のため取得し製造することができる。それらは、例えば、マーカーの特定の核酸配列を認識するタンパク質、リボザイム、ペプチド核酸(PNA)、または特定の親和性を有する他の化学物質や分子である。
【0062】
マイクロアレイの発現は、様々なレーザーやCCDベースのスキャナでマイクロアレイをスキャンし、そして、例えば、IMAGENE(商標)(バイオディスカバリー社)、Feature Extractionソフトウェア(アジレント社)、SCANLYZE(商標)(スタンフォード大学、Stanford、CA.)、GENEPIX(商標)(アクソン・インスツルメンツ社)の様な、多数のソフトウェアパッケージで、特徴を抽出することによって、検出することができる。
【0063】
ハイスループットのタンパク質システムは、Ciphergen Biosystems社(Fremont、Calif.)のPROTEIN CHIP(商標)アレイや、S&S Bioscences社(Keene、N.H.、US)のFASTQUANT(商標)ヒトケモカインタンパク質マイクロアレイの様に市販のシステムを含む。
【0064】
臨床的しるし(clinical indicia)、代謝的測定(metabolic measures)、遺伝子解析など、他のデータセット構成要素に関する定量的データは、当業者に公知の方法によって決定することができる。
【0065】
したがって、miRNA、タンパク質マーカー、及び他のデータセット構成要素(すなわち、臨床的しるしなど)について得られた定量的データは、予測モデルに入力された学習アルゴリズムを使用して以前に決定されたパラメータを用いた分析プロセスに供される。分析プロセスのパラメータは、本明細書に開示されたもの、または本明細書に記載のガイドラインを使用して導き出されたものかもしれない。線形判別分析、回帰的特徴の排除、マイクロアレイの予測分析、ロジスティック回帰、CART、FlexTree、LART、ランダムフォレスト、MART、または他の機械学習アルゴリズムの様な学習アルゴリズムは、様々なアテローム性動脈硬化症分類に適している分析プロセスのためのパラメータを決定するために、適切な参照またはトレーニングデータに適用される。
【0066】
結果(分類、生存/タイム・トゥ・イベント(出来事までの期間)など)を生成するために使用される分析的プロセスは、サンプルを分類するための有用な結果、例えば、取得したデータセットと参照データセットとの比較、線形アルゴリズム、二次式アルゴリズム、決定ツリーアルゴリズム(a decision tree algorithm)、または投票アルゴリズムを用いて得られたデータセットの比較など、を提供することができるプロセスの任意のタイプかもしれない。
【0067】
アテローム性動脈硬化症の分類を行うための有用な結果を得るための様々な分析的プロセスが、本明細書に記載されているが、当業者であれば、容易に、分析プロセスに適切な任意のタイプは、この開示の範囲内であることを理解するであろう。
【0068】
分析プロセスへの入力前に、各データセット内のデータは、通常、2回、3回、または複数回反復して各マーカーの値を測定することにより、収集される。データは、操作することができ、例えば、生データは、標準曲線や、各患者の平均と標準偏差を計算するために使用される反復測定の平均を用いて、変換できる。それから、これらの値は、例えば、対数変換、Box−Cox変換などのモデルで使用される前に、変換することができる。このデータは、定義されたパラメータを使用して、分析プロセスへ入力することができる。
【0069】
分析プロセスでは、サンプルが、ある与えられたクラスに属する確率を決定するためのしきい値を、設定することができる。確率は、好ましくは少なくとも50%、または少なくとも60%または少なくとも70%または少なくとも80%、少なくとも90%、またはそれ以上である。
【0070】
他の実施形態では、分析プロセスは、得られたデータと参照データセット間の比較で、統計学的に有意な差をもたらすかどうかを決定する。もしそうであれば、データセットが取得されたサンプルは、参照データセットのクラスには属さないと分類される。逆に、このような比較で、参照データセットとは統計学的に有意な差がない場合、データセットが得られたサンプルは、参照データセットのクラスに属するものとして分類される。
【0071】
一般的には、分析プロセスは、以下で説明するものの様に、統計学的分析法によって生成されたモデルの形式である。そのような分析プロセスの例としては、線形アルゴリズム、二次式アルゴリズム、多項式アルゴリズム、決定ツリーアルゴリズム(a decision tree algorithm)、投票アルゴリズム(a voting algorithm)を含めることができる。線形アルゴリズムは次式を有することができる:
【数1】
(ここで、Rは、得られた有用な結果、C0はゼロになるかもしれない定数、Ciおよびxiは、それぞれ、定数と、適用可能なバイオマーカーや臨床的しるしの値、及び、Nはマーカーの合計数、である。)
【0072】
二次式アルゴリズムは、次式を有することができる:
【数2】
(ここで、Rは、得られた有用な結果、C0はゼロになるかもしれない定数、Ciおよびxiは、それぞれ、定数と、適用可能なバイオマーカーや臨床的しるしの値、及び、Nはマーカーの合計数、である。)
【0073】
多項式アルゴリズムは、線形または二次式アルゴリズムの、より一般化された式である次式を有することができる:
【数3】
(ここで、Rは、得られた有用な結果、C0はゼロになるかもしれない定数、Ciおよびxiは、それぞれ、定数と、適用可能なバイオマーカーや臨床的しるしの値、yは、xiが上昇するパワーであり、Nはマーカーの合計数、である。)
【0074】
適切な参照(基準)またはトレーニングデータセットは、任意の適切な学習アルゴリズムを使い、分類に用いる分析プロセスのパラメータを決定するため、すなわち、予測モデルを開発するために、使用することができる。使用する参照またはトレーニングデータセットは、決定すべき望ましいアテローム性動脈硬化症の分類に依存する。データセットは、2、3、4又はそれ以上のクラスからのデータを含めることができる。例えば、アテローム性動脈硬化症を診断するために用いる分析プロセスのパラメータを決定するために監督下にある学習アルゴリズムを使用するには、コントロールと患者の各サンプルを含むデータセットが、トレーニングセットとして使用される。あるいは、管理された学習アルゴリズムを、アテローム性動脈硬化症のステージ分類のための予測モデルを開発するために使用する場合は、トレーニングセットは、心血管疾患のさまざまなステージのそれぞれのデータを含めることができる。
【0075】
以下は、開示された方法、アッセイおよびキットの実施を支援するために、当業者に利用可能な統計学的解析方法のタイプの例である。統計分析は、2つのタスクのいずれかまたは両方に適用される可能性がある。まず、これらおよびその他の統計的方法は、好適なデータセットを形成する、マーカーや他のしるし(indica)の好ましいサブセットを識別するために使用されることがある。さらに、これらと他の統計的方法は、結果を生み出すデータセットで使用される分析プロセスを生成するために使用されることがある。本明細書中に提示された、あるいは先行技術で使用可能な統計的手法のいくつかは、これらのタスクの両方を実行し、本明細書に開示される方法の実施のための分析プロセスとしての使用に適するモデルを提供するだろう。
【0076】
その対応する特徴的な値(例えば、濃度、発現レベル)で、例えば健康とアテローム性動脈硬化症との間を識別することができるバイオマーカーが、本明細書で同定されている。これらのマーカーと、それに対応する特徴(例えば、濃度、発現量)の同定は、患者のクラスを区別する1つの分析プロセス、または複数の分析プロセスを開発するために使用することができる。以下の(実施)例では、データ解析アルゴリズムが、そのような沢山の分析プロセスを構築するためにどの様に使用することができるかを示している。実施例に記載のデータ解析アルゴリズムの各々は、健康とアテローム性動脈硬化症患者を含むトレーニング集団を交えて本明細書で同定された、マーカーのサブセットの特徴(例えば、発現値)を、使用する。本明細書に開示の、被験者を区別する1つ又は複数の分析プロセスを構築するための特定のデータ解析アルゴリズムは、以下の節で説明する。分析プロセスは、これらの例示的なデータ解析アルゴリズム、または当該技術分野で公知の他の技術を使用して構築された後、分析プロセスは、2つまたはそれ以上の表現型のいずれかのクラス(例えば、健康やアテローム性動脈硬化症患者)に被験者を分類するために、及び又は生存/タイム・トゥ・イベント(出来事までの期間)を予測するために使用することができる。これは、被験者から得られた1つ以上のマーカープロファイルに1つまたは複数の分析プロセスを適用することによって達成される。このような分析プロセスは、したがって、診断指標として非常に大きな価値を有する。
【0077】
本開示の方法、アッセイおよびキットは、一態様では、トレーニング集団から得られるマーカープロファイルに対する、被験者から1つまたは複数のマーカープロファイルの評価のために、提供される。いくつかの実施形態では、被験者と同様に、トレーニング集団の被験者から得られた各マーカーのプロファイルは、多くの異なるマーカーのそれぞれの特徴を構成する。いくつかの実施形態では、この比較は、(i)トレーニング集団からマーカープロファイルを用いた分析プロセスを開発し、(ii)被験者からのマーカープロファイルに分析プロセスを適用することによって、達成される。このように、本明細書に開示のメソッドのいくつかの実施形態に適用される分析プロセスは、テスト被験者がアテローム性動脈硬化症を持っているかどうかを判断するために使用される。代替の実施形態では、本明細書に開示の方法は、被験者がMIを経験するか否かを決定し、および/または(例えば、MIおよび/または生存の)イベントまでの時間(タイム・トゥ・イベント)を予測することができる。
【0078】
本明細書に開示の方法のいくつかの実施形態では、分析プロセスのアプリケーションの結果が、対象(被験者)が、MIを経験する(に見舞われる)可能性が高いことを示しているときは、対象(被験者)は、「MI」対象(被験者)として診断/分類される。また、もし、例えば、分析プロセスの結果が、対象がアテローム性動脈硬化症に発展する可能性が高いことを示していれば、対象は、「アテローム性動脈硬化症」対象として診断される。分析プロセスの適用の結果が、対象がアテローム性動脈硬化症に発展しないことを示している場合は、対象は健常と診断される。したがって、いくつかの実施形態において、上述した二元的な決定状況の結果は、4つの可能な結果を有する。すなわち、(i)真のアテローム性動脈硬化症:分析プロセスは、対象(被験者)がアテローム性動脈硬化症に発展することを予想し、実際に対象は、一定期間内にアテローム性動脈硬化症に進展する場合(真陽性、TP)。(ii)偽(仮性)アテローム性動脈硬化症:分析プロセスは、対象が、アテローム性動脈硬化症に発展することを予想したが、実際は、対象は、一定期間内にアテローム性動脈硬化症に進展しない場合(偽陽性、FP)。(iii)真の健康:分析プロセスは、対象が、アテローム性動脈硬化症に発展しないことを予想し、実際に、一定期間内にアテローム性動脈硬化症に進展しない場合(真陰性、TN)。(iv)偽(仮性)健康:分析プロセスは、対象が、アテローム性動脈硬化症に進展しないと予想したが、実際には、一定期間内にアテローム性動脈硬化症に進展する場合(偽陰性、FN)、である。
【0079】
これらTP(真陽性)、FP(偽陽性)、TN(真陽性)、FN(偽陰性)のための他の定義がなされ得ることが理解されるであろう。そのようなすべての選択的な定義は、本開示の方法、アッセイ、キットの範囲内であるが、理解を容易にするため、TP、FP、TN、FNの定義は、特に明記しない限り、上記(i)から(iv)によるものを、本明細書では使用する。
【0080】
当業者によって理解されるように、多くの定量的な判断基準は、あるテストマーカーのプロファイルとリファレンスマーカーのプロファイル間での比較のパフォーマンス(例えば、被験者からのマーカープロファイルへの分析プロセスの適用)を伝えるために使用することができる。これらは、陽性予測値(PPV)、陰性予測値(NPV)、特異性、感度、精度、および確実性を含んでいる。さらに、受信者操作曲線(ROC曲線)の様な他の構築物は、分析プロセスのパフォーマンスを評価するために使用することができる。本明細書中で使用されるのは:PPV=TP/(TP+FP)、NPV=TN/(TN+FN)、特異性=TN/(TN+FP)、感度=TP/(TP+FN)、及び、精度=確実性=(TP+TN)/N。
【0081】
ここで、Nは、比較したサンプルの数(例えば、アテローム性動脈硬化か健康かの判定が求められているテストのサンプル数)である。例えば、この分類が求められている10の被験者がある場合を考えてみよう。各マーカーのプロファイルが、10の被験者のそれぞれのために構築される。次に、各マーカープロファイルは、トレーニング集団から得られたマーカープロファイルに基づいて開発された、分析プロセスを適用することによって、評価される。この例では、上記の式のNは10に等しい。一般的に、Nは、サンプルをある集団の異なるメンバーから収集した サンプルの数である。この集団は、実際に、二つの異なるタイプからなる。1つのタイプでは、集団は、そのサンプルと表現型(例えば、マーカーの特徴値や、対象(被験者)がアテローム性動脈硬化症に進展するか否かの指標)のデータが、分析プロセスを構築または改良するために使用された対象で構成されている。この様な集団は、本明細書では、トレーニング集団と称する。他のタイプでは、集団は、分析プロセスを構築するために使用されてはいない対象で構成されている。このような集団は、検証集団と称する。特に断りのない限り、Nによって表される集団は、もっぱら、トレーニング集団か、または、検証集団であり、2つの集団タイプの混合物とは対照的である。検証集団とは対照的に、トレーニング集団に基づいている場合、精度などのスコアは、より高値(単一(unity)に近い)となることが理解されるであろう。それにもかかわらず、そうでなければ特に断りのない限り、確実性(精度)を含む1つの分析プロセス(または被験者からのバイオマーカーのプロファイルの評価の他の形態)のパフォーマンスを評価するのに使用された全ての基準は、トレーニング集団または検証集団のいずれかへの基準に関連する分析プロセスを適用することによって測定される基準に、対応している。
【0082】
いくつかの実施形態では、Nは、1より大きく、5より大きく、10より大きく、20より大きく、10から100の間、或いは、100より大きく、1000より小さい対象(被験者)である。ある実施形態では、分析プロセス(または他の比較形態)は、トレーニング集団または検証集団に対して、少なくとも約99%の確実性、あるいはそれ以上を有することができる。他の実施形態では、確実性は、トレーニング集団または検証集団に対して、少なくとも約97%、少なくとも約95%、少なくとも約90%、少なくとも約85%、少なくとも約80%、少なくとも約75%、少なくとも約70%、少なくとも約65%、少なくとも約60%である。確実性の有用度は、特定の方法に依存して変化しうる。本明細書中で使用されるように、「確実性」は、「精度」を意味している。一実施形態では、感度および/または特異性は、トレーニング集団または検証集団に対して、少なくとも約97%、少なくとも約95%、少なくとも約90%、少なくとも約85%、少なくとも約80%、少なくとも約75%、少なくとも約70%である。いくつかの実施形態では、このような分析プロセスは、定められた精度で、アテローム性動脈硬化症の進展を予測するために使用されている。いくつかの実施形態では、このような分析プロセスは、定められた精度で、アテローム性動脈硬化症を診断するために使用されている。いくつかの実施形態では、このような分析プロセスは、定められた精度で、アテローム性動脈硬化症のステージを決定するために使用されている。
【0083】
十分な確実性を有する被験者を分類するための分析プロセスで使用される可能性のある特徴の数は、2またはそれ以上である。いくつかの実施形態では、それが3以上、4以上、10以上、または10から200の間である。しかしながら、求められる確実性の程度に応じて、分析プロセスで使用される特徴の数は、多かれ少なかれではあるが、すべてのケースで、少なくとも2であることができる。一実施形態では、被験者を分類するための分析プロセスによって使用され得る特徴の数は、高い確実性で、テスト対象(被験者)の分類を可能にするために最適化されている。
【0084】
特定の実施形態では、分析プロセスが生存率を予測するために利用される。生存分析は、タイムトゥイベント・データのモデリングを含む。比例ハザードモデルは、統計学における生存モデルの1つのクラスである。生存モデルは、いくつかのイベントがその量に関連付けられているかもしれない1つ以上の共変量を発生する前に経過する時間と、関連している。比例ハザードモデルでは、共変量の単位増加のユニークな効果は、ハザード率に関して掛け算の関係である。生存モデルは、以下の二つの部分から成ると見なすことができる:つまり、しばしばA0(t)と記述され、ハザード(リスク)が共変量のベースラインレベルで経時的にどの様に変化するかを表す、基本的なハザード関数、及び、ハザードが、説明的な共変量に応じてどの様に変化するかを表す、エフェクト・パラメータ、である。典型的な医療の例は、変動の減少および/または交絡に対する制御のために、年齢や、性別の様な患者の特性と同様に、治療の指定(割当て)や、他の疾患の存在の様な共変量を含む。
【0085】
比例ハザードの仮説は、共変数がハザードを増加させる仮説である。ベースラインハザードが異なるかもしれないが、固定係数の最も単純なケースでは、例えば、薬剤による治療は、言ってみれば、任意の時刻tにおける被験者のハザードを半減させることができる。ただし、共変数は、二元的予測に限定されないことに、注意されたい:連続的な共変数xの場合には、ハザードは、対数的に反応し、xでの各ユニットの増加は、結果としてハザードの比例スケーリングとなる。通常は完全に一般的なCoxモデルの下では、ベースラインハザードは、「統合外(integrated out)」とされ、またはヒューリスティックに考慮から除外され、残りの部分的尤度(likelihood)が最大化される。任意の比例ハザードモデルにより推定された共変数の影響が、こうしてハザード比として報告される。Coxモデルでは、比例ハザード仮説が成り立つ場合、それはハザード関数を考慮せずにエフェクト・パラメータを推定可能であることを前提としている。
【0086】
分析プロセスを開発するための適切なデータ解析アルゴリズムとしては、例えば、分類、回帰ツリー(Classification and Regression Tree)(CART)およびその変異体の様なツリーベースアルゴリズム、一般化された加算モデル、ペナルティー付き回帰手法の様に、線形、ロジスティック、より柔軟な識別技術を含む判別分析を含有するが、これらに限定されない。
【0087】
一実施形態では、トレーニング集団から得られたマーカープロファイルへの被験者のマーカープロファイルの比較が行われ、分析プロセスが適用される。分析プロセスは、コンピュータのパターン認識アルゴリズムの様なデータ解析アルゴリズムを使用して構築される。分析プロセスを構築するための他の適切なデータ解析アルゴリズムは、ロジスティック回帰または特徴値の分布の違いを検出するノンパラメトリックなアルゴリズム(例えば、ウィルコクソンの符号順位検定(Wilcoxon Signed Rank Test)(未調整と調整済み))を含むが、これらに限定されない。分析プロセスは、1、2、3、4、5、10、20及びそれ以上のマーカーから測定観測量に対応する2、3、4、5、10、20及びそれ以上の特徴に基づくことができる。一実施形態では、分析プロセスは、数百以上の特徴に基づいている。分析プロセスは、また、分類ツリーアルゴリズムを使用して構築することもできる。たとえば、トレーニング集団からの各マーカーのプロファイルは、少なくとも3つの特徴を含むことができ、そこでは、特徴が、分類ツリーアルゴリズムの予測因子である。分析プロセスは、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約100%の精度で、集団(またはクラス)内でのメンバーシップを予測する。
【0088】
適切なデータ解析アルゴリズムは、当該技術分野では知られている。一実施形態では、開示のデータ解析アルゴリズムは、分類と回帰ツリー(Classification and Regression Tree)(CART)、多重加法回帰ツリー(Multiple Additive Regression Tree)(MART)、マイクロアレイの予測分析(PAM)、またはランダムフォレスト分析で構成されている。このようなアルゴリズムは、対象(被験者)を、正常として、または、特定の疾患状態に特徴的なバイオマーカーレベルを有するとして、判別するために、血液サンプルなどの生体材料から複雑なスペクトルを分類する。他の実施形態では、本開示のデータ解析アルゴリズムは、分散分析(ANOVA)とノンパラメトリック同等物、線形判別分析、ロジスティック回帰分析、最近傍分類分析(nearest neighbor classifier analysis)、ニューラルネットワーク、主成分分析、二次判別分析、回帰分類とサポートベクトルマシン(support vector machine)で構成されている。そのようなアルゴリズムは、分析プロセスを構築され、および/または分析プロセスのアプリケーションの速度と効率を向上させ、研究者のバイアスを避けるために使用できるかもしれないが、当業者は、コンピュータベースのアルゴリズムが、本開示の方法を実行する必要はないことを認識するだろう。
【0089】
バイオマーカーのプロファイルを生成するために使用することができるにもかかわらず、分析プロセスは、マーカーのプロファイルを評価するために使用することができる。例えば、適切な分析プロセスは、ガスクロマトグラフィーによって生じるマーカープロファイルや、静的な飛行時間型二次イオン質量分析(static time−of−flight secondary ion mass spectrometry)(TOF−SIMS)により得られるスペクトラ、を評価するために使用することができ、MALDI−TOF−MSスペクトラの解析により、高い確実性(79−89%の正しい分類率)で菌株を識別し、複雑な生体サンプル中のバイオマーカープロファイルを分類するために、MALDI−TOF−MSと液体クロマトグラフィー・エレクトロスプレーイオン化質量分析(LC/ESI−MS)を使用できる。
【0090】
本明細書に開示されるマーカーの発現レベルを使用して、分析プロセスを開発するための一つのアプローチは、最近の重心分類(the nearest centroid classifier)である。このような技術は、各クラス(例えば、健康とかアテローム性動脈硬化症)や、クラス内のマーカーの平均発現レベルによって与えられた重心のために、計算し、その重心に最も近いクラスに新しいサンプルを割り当てる。クラスタが既知のクラスで置き換えられます場合を除き、このアプローチは、k−meansクラスタリングと似ている。このアルゴリズムは、マーカーの多数が使用されているとき、ノイズに敏感となり得る。それらが偶然によるものである可能性が高いと判断される場合は、テクニックの1つのエンハンスメントは、シュリンケージ(shrinkage)を使用することであり、そこでは、各マーカーに対して、クラスの重心の違いが、ゼロに設定されている。このアプローチは、マイクロアレイ、またはPAMの予測分析に実装されている。シュリンケージ(shrinkage)は、差異がノイズとみなされるしきい値下によって制御される。ノイズレベル以上の有意差を示さないマーカーは削除される。しきい値は、相互検証(クロスバリデーション)によって選択することができる。しきい値が減少するにつれて、より多くのマーカーが含まれ、ノイズマーカの結果として、底に到達して、登山を再開する(過剰適合としてしられる現象)まで、推定される分類エラーが減少する。
【0091】
多重加法回帰ツリー(Multiple Additive Regression Tree)(MART)は、本明細書に開示される方法で使用することができる分析プロセスを構築するための他の方法を表している。 MARTのための一般的なアルゴリズムは以下のとおりである。
1.初期化
【数4】
2.m=1〜Mに対し:
(a)1=1,2,・・・、Nを計算。
【数5】
(b)末端領域のRJMを与えるターゲットリムへ回帰ツリー(regression tree)をフィットさせる。ここで、j=1、2、...Jmである。
(c)j=1、2、...Jmに対して計算する。
【数6】
3.アウトプット。f(x)=fM(x)
【0092】
特定のアルゴリズムが、さまざまな損失基準L(y,f(x))の挿入によって、得られる。アルゴリズムの最初のラインは、単に単一のターミナルノードツリー(a single terminal node tree)である最適な定数モデルに初期化する。ライン2(a)に計算された負の勾配の成分は、一般的な疑似残差、rと呼ばれている。一般的に使用される損失関数の勾配は、当技術分野で知られている。MARTの手順に関連付けられているチューニングパラメータは、反復数Mと構成するツリーJ.サブm(m=1、2、・・・、M)のそれぞれのサイズである。
【0093】
いくつかの実施形態では、対象(被験者)を分類するために使用される分析プロセスは、回帰分析を用いて構築されている。このような実施形態では、分析プロセスは、回帰分類(regression classifier)、好ましくはロジスティック回帰分類として特徴づけることができる。このような回帰分類は、分類(classifier)を構築するために使用されるマーカー(例えば、そのような各マーカーの発現レベル)の各係数を含む。このような実施形態では、回帰分類の係数は、例えば、最尤法を用いて計算される。このような計算では、バイオマーカーの特徴(例えば、RT−PCR、マイクロアレイデータ)が使用されている。特定の実施形態では、2つだけの形質のサブグループからの分子マーカーデータが使用される(例えば、健康な対象やアテローム性動脈硬化症患者で)と、従属変数は、マーカーのデータが利用可能である被験者の特定の形質の存在の有無である。
【0094】
別の実施形態では、トレーニング集団は多くの形質のサブグループ(例えば、3つ以上の形質のサブグループ、4つ以上の特定形質のサブグループ、等)から構成されている。これら多くの形質のサブグループは、トレーニング集団での、健康体から、軽度や中程度のアテローム性動脈硬化症等、表現型の進行での個別のステージに対応することができる。この実施形態では、マルチカテゴリの応答を処理するロジスティック回帰モデルの一般化は、トレーニング集団で見つかった、さまざまな形質の任意のサブグループ間を区別する意思決定を開発するために使用することができる。たとえば、選択した分子マーカーの測定データは、トレーニング集団で表される多くの形質のサブグループのいずれかの間を区別することができる分類(classifier)を開発するために、マルチカテゴリーロジットモデルのいずれにも適用することができる。
【0095】
いくつかの実施形態では、分析プロセスは、回帰モデル、好ましくは、ロジスティック回帰モデルに基づいている。このような回帰モデルでは、本明細書に開示されるマーカーの選択されたセット内のマーカーのそれぞれの係数が含まれている。このような実施形態では、回帰モデルの係数は、例えば、最尤法を用いて計算される。特定の実施形態では、2つのグループ(例えば、健康と病気)の分子マーカーデータが使用され、従属変数は、マーカーの特性データに対応する患者の状態である。
【0096】
本開示の方法、アッセイおよびキットのいくつかの実施形態は、マルチカテゴリの(多くの部分に分かれた)応答を処理するロジスティック回帰モデルの一般化を提供している。このような実施形態は、1つまたは3つまたはそれ以上の分類に生体を区別するために使用することができる。このような回帰モデルは、同時に全てのカテゴリペアを参照し、他方のカテゴリではなく、ある一方のカテゴリの応答の可能性(odds)を記述する、マルチカテゴリのロジットモデルを使用している。モデルカテゴリのある特定の(J−1)ペアのロジット(logits)を指定したら、残りは不要になる。
【0097】
線形判別分析(LDA)は、特定の客体の特性に基づいて、2つのカテゴリのいずれかに対象を分類しようとする。言い換えれば、実験で測定された客体が寄与しているか否かのLDAテストは、対象の分類(categorization)を予測する。LDAは、通常、連続的な独立変数と二分カテゴリ従属変数を必要とする。本開示の方法で使用するために、トレーニング集団のサブセット間のマーカーの選択された一連の式の値が、必要な連続的な独立変数として機能する。トレーニング集団のメンバーのそれぞれのグループの分類は、二分カテゴリ従属変数としての役割を果たす。
【0098】
LDAは、グループ情報を使用して、群間分散と群内分散との比を最大にする、変数の線形結合(the linear combination)を求める。暗黙のうちに、LDAで使用される線形重みは、トレーニング・セット全体でのあるマーカーの発現は、両群(例えば、アテローム性動脈硬化症を持つグループ、アテローム性動脈硬化症を持たないグループ)にどの様に分離するか、また、この発現は、他のマーカーの発現とどの様に相関するかに、依存する。いくつかの実施形態では、LDAは、本開示に記載された遺伝子の組合せ中、K個の遺伝子によって、トレーニングサンプルのN数のメンバーのデータマトリックスに適用される。その後、トレーニング集団の各メンバーの線形判別式(discriminant)が、プロットされる。理想的には、第1のサブグループ(アテローム性動脈硬化症を持たない被験者など)を表すトレーニング集団のそれらのメンバーは、線形判別値(例えば、負の値)の第1の範囲にクラスタし、第2のサブグループ(アテローム性動脈硬化症を持つ被験者など)を表すトレーニング集団のそれらのメンバーは、線形判別値(例えば、正の値)の第2の範囲にクラスタするだろう。判別値のクラスタ間の分離が大きい場合には、LDAは、より成功したとみなされる。
【0099】
二次判別分析(QDA)は、LDAと同じ入力パラメータを受け取り、同じ結果を返す。QDAは、結果を生成するために、線形方程式ではなく、二次方程式を使用している。LDAとQDAは、(要求される対象数に関連した違いがあるが)ほぼ互換性があり、かつ、使用するかは、好み、および/または分析をサポートするためのソフトウェアの可用性の、問題である。ロジスティック回帰は、LDAとQDAと同じ入力パラメータを受け取り、同じ結果を返す。
【0100】
本明細書で同定されたマーカーの発現レベルを用いて構築することができる分析プロセスの一つのタイプは、決定ツリー(decision tree)である。ここで、「データ解析アルゴリズム」は、最終「決定ツリー」が、分析プロセスであるのに対し、分析プロセスを構築することができる任意のテクニックである。分析プロセスは、トレーニング集団と、特定のデータ解析アルゴリズムとを使用して、構築される。ツリーベースの方法は、特徴空間を四角形のセットに分かち、その後、あるモデル(定数など)をそれぞれ1つに適合させる。
【0101】
トレーニング集団のデータは、トレーニングのセット集団全体のマーカーのための特徴(例えば、発現値、または他のいくつかの観察可能なもの)を含む。分析プロセスを構築するために使用することができる、ある特定のアルゴリズムは、分類・回帰ツリー(CART)である。他の特定の決定ツリーアルゴリズム(decision tree algorithms)は、ID3、C4.5、MART、及びランダム森林を含むが、これらに限定されない。すべてのそのようなアルゴリズムは、当技術分野で公知である。
【0102】
本開示の方法、アッセイおよびキットのいくつかの実施形態では、決定ツリー(decision trees)は、マーカーの選択されたセットのための発現データを用いて患者を分類するために使用される。決定ツリーアルゴリズムは、監督下にある学習アルゴリズムのクラスに属する。決定ツリーの目的は、実世界の実施例データから分析プロセス(ツリー)を誘導することである。このツリーは、決定ツリーを導き出すために使用されていない、目に見えないサンプルを分類するために、使用することができる。
【0103】
決定ツリー(decision tree)はトレーニングデータから導出される。ある例は、様々な属性に対する値と、その例がどのクラスに属するかを、含んでいる。一実施形態では、トレーニングデータは、トレーニング集団全体に亘って本明細書に記載のマーカーの組合せに対する、発現データである。
【0104】
次のアルゴリズムは、決定ツリーの導出について説明している。
ツリー(事例、クラス、属性)。
ルートノード(root node)を作成する。
すべての事例で、同じクラス値を使用している場合は、ルートにこのラベルを与える。
でなければ、属性が空の場合は、最も一般的な値に基づいてルートにラベルを付ける。
でなければ、開始する。
各属性の情報利得を計算する。
最高情報利得を持つ属性Aを選択し、このルートの属性を作る。
この属性の各々の値vのために
A=vに対応して、ルートの下に新しい枝(ブランチ)を追加する。
事例(v)は、A=vの事例とする。
事例(v)が空の場合、新しい枝に、複数の事例の中で最も一般的な値で標識されたリーフノードを作る。
でなければ、この新しい枝は、ツリー(事例(v)、クラス、属性{A})によって作成されたツリーとする。
終了。
【0105】
情報利得(information gain)の計算の詳細については、以下に示されている。事例の有り得べきクラスviが、確率P(vi)を持つ場合、実際の答えの情報コンテンツIは次式で与えられる:
【数7】
I値は、使用される特定のデータセットの分類の結果を記述できるようにするためには、情報がどの程度必要であるかを示している。仮に、データセットが、pポジティブ(例えば、アテローム性動脈硬化症を持っている)や、nネガティブ(例えば、健康)の事例(例えば、個人)を含むと仮定すると、正解に含まれる情報は以下の通りである:
【数8】
ここで、log2は、ベース2を使用する対数である。単一の属性をテストすることによって、正しい分類を行うために必要な情報量を減らすことができる。ある特定の属性A(例えば、マーカー)の残りの部分は、必要とされる情報をどの位減らすことができるかを示している。
【数9】
ここで「v」は、特定のデータセットにおける、属性Aに固有な属性値の数である。
「i」は、ある特定の属性値である。「pi」は、分類が正(ポジティブ)(例えば、アテローム性動脈硬化症)である、属性Aの事例数である。「ni」は、分類が負(ネガティブ)(例えば、健康)である、属性Aの事例の数である。
【0106】
特定の属性Aの情報利得(information gain)は、属性Aの特定クラスと属性Aの残りのものとの情報量の差として計算される。
【数10】
情報利得は、異なる複数の属性(どの様にうまく複数の事例を分割するか)、そして最高の情報を有する属性は、分類のためにどの程度重要かを評価するために使用される。
【0107】
分類・回帰ツリー(CART)、多変量の決定ツリー、ID3及びC4.5を含み、これらに限定されないが、一般的に、沢山の様々な決定ツリーアルゴリズムが、存在する。
【0108】
一実施形態では、決定ツリーを用いた場合には、トレーニング集団全体のある選択されたマーカーセットのための発現データは、平均ゼロ、単位分散(unit variance)を持つことが標準化されている。トレーニング集団のメンバーは、ランダムに、トレーニングセットとテストセットに分割される。例えば、一実施形態では、トレーニング集団のメンバーの3分の2は、トレーニング・セットに配置され、トレーニング集団のメンバーの3分の1は、テストセットに配置される。本明細書中に記載のマーカーの選択・組合せのための発現値は、分析プロセスを構築するために使用されている。その後、テスト・セットのメンバーを正しく分類するための、分類プロセスの能力が、決定される。いくつかの実施形態では、この計算は、ある与えられたマーカーの組合せで複数回実行される。各々の計算の繰り返しにおいて、トレーニング集団のメンバーは、ランダムにトレーニングセットとテストセットに割り当てられる。その後、分子マーカーの組合せの品質が、分析プロセス計算の個々のそのような反復の平均値として取り扱われる。
【0109】
分割が、本明細書に開示マーカーのセットの中で対応するマーカーの発現レベル、または2つのその様なマーカーの発現レベルに基づいている、一変量の決定ツリーに加えて、多変量の決定ツリーを、分析プロセスとして実装することができる。このような多変量の決定ツリーでは、意思決定の一部またはすべては、実際には、マーカーの複数の発現レベルの線形結合で構成されている。このような線形結合は、分類上の勾配降下(gradient descent)などの公知の技法や、二乗和誤差基準(sum−squared−error criterion)を用いて訓練することができる。
【0110】
このような分析プロセスを説明するために、式:0.04x1+0.16x2<500を考えてみよう。ここでは、x1とx2は、本明細書に開示のマーカーの中から、二つの異なるマーカーの2つの異なる特徴を、参照している。分析プロセスを調査する(poll)ために、特徴x1とx2の値は、分類されていない被験体から得られた測定値から取得される。これらの値は、式に挿入される。500未満の値が計算されている場合は、意思決定ツリー(決定ツリー)の最初の分岐(ブランチ)が取られる。それ以外の場合は、意思決定ツリーの2番目のブランチが取得される。
【0111】
本開示で使用可能なもう一つのアプローチは、多変量適応型回帰スプライン(MARS)である。MARSは、回帰の適応手順で、本明細書に開示される方法によって処理される高次元の問題によく適している。MARSは、段階的な線形回帰の一般化、または、回帰の設定でCARTのパフォーマンスを向上させるためのCART法の修正、とみなすことができる。
【0112】
いくつかの実施形態では、マーカーの選択されたセットのための発現値は、トレーニングセットをクラスタするために使用される。たとえば、10個のマーカーが使用されている場合を考える。トレーニング集団の各メンバmは10個のマーカーのそれぞれの発現値を持つ。トレーニング集団のあるメンバーmからのそのような値は、ベクトルを定義する。
x1mx2mx3mx4mx5mx6mx7mx8mx9mx10m
ここで、ximは、被検体mのi番目のマーカーの発現レベルである。トレーニングセットにmの生物が存在する場合、iマーカーの選択は、mのベクトルを定義する。本明細書に開示される方法は、ベクトルで使用するすべての単一マーカーの発現値はすべての単一ベクトルmで表されることを必要としないことに注意されたい。言い換えれば、i番目のマーカーのいずれかが見つからない被検体(対象)からのデータでも、まだクラスタリングに使用することができる。このような場合には、ミスしている発現値が、「ゼロ」または他の基準化された値が割り当てられている。いくつかの実施形態では、クラスタリングの前に、発現値の式の値がゼロと、単位分散の平均値を持つように基準化されている。
【0113】
トレーニング集団全体で同様の発現パターンを示すトレーニング集団のそれらのメンバーは、一緒にクラスタする傾向がある。マーカーの特定の組み合わせは、ベクトルがトレーニング集団に見られる形質群にクラスタ化するときに、本明細書に開示される方法のこの局面では良い分類指標であると考えられている。例えば、トレーニング集団が、健康な対象やアテローム性動脈硬化症患者を含む場合、クラスタリングの分類指標は、その集団を、健康な対象とアテローム性動脈硬化症患者のいずれかをそれぞれ一意的に表す、2つのグループにクラスタ化するだろう。
【0114】
クラスタリングの問題は、データセット内のナチュラルなグループを見つけることの一つとして記載されている。ナチュラルなグループを識別するために、2つの問題点が扱われる。まず、2つのサンプル間の類似度(または非類似度)を測定する方法が決定される。このメトリック(類似度測定)は、1つのクラスタ内のサンプル同士は、他のクラスタ内のサンプルに対してよりも互いに似ていることを確認するために使用される。第二に、類似性の尺度を使用して各クラスタにデータを分割するためのメカニズムが決定される。
【0115】
クラスタリング調査を開始する一つの方法は、距離関数を定義し、データセット内のサンプルのすべてのペア間の距離の行列を計算することである。距離が類似性の良い指標である場合は、同じクラスタ内のサンプル間の距離は、異なるクラスタ内のサンプル間の距離よりも大幅に少ない。しかし、クラスタリングは、距離メトリックを使用する必要はない。たとえば、ノンメトリックな類似度関数s(x,x’)は、2つのベクトルxとx’を比較するために使用することができる。従来、s(x,x’)は、xとx’が幾分「類似」している場合にその値が大きい、対称関数(symmetric function)である。
【0116】
データセット内のポイント間の「類似性」または「類似度」を測定するための方法が選択された後、クラスタリングは、データの任意のパーティションのクラスタリング品質を測定する、評価関数を必要とする。評価関数を極端化する(extremize)データセットのパーティションは、データをクラスタ化するのに使用される。しかしながら、本明細書に開示の方法で使用できる特定の例示的なクラスタリング技術は、以下に限定はされないが、階層的クラスタリング(最近傍アルゴリズム(nearest−neighbor algorithm)を用いた凝集クラスタリング(agglomerative clustering)、最遠傍アルゴリズム(farthest−neighbor algorithm)、平均連鎖アルゴリズム、重心アルゴリズム、または二乗和(平方和)アルゴリズム(sum−of−squares algorithm))、K平均法(k−means clustering)、ファジィK平均法アルゴリズム(fuzzy k−means clustering algorithm)、及び、ジャーヴィス・パトリック・クラスタリング(Jarvis−Patrick clustering)を含有する。
【0117】
主成分分析(PCA)は、バイオマーカーデータを分析することを提案している。より一般的には、PCAは、患者の1クラスとその他(例えば、アテローム性動脈硬化症を持っている人とそうでない人)とを判別する分析プロセスを構築するために、本明細書に開示されるマーカーの特徴値のデータを分析するために使用することができる。主成分分析は、データの特徴を要約し、データを、その変数(主成分)の新しいセットに変換することによって、データセットの次元数を削減するための、古典的な手法である。
【0118】
PCAのいくつかの非限定的な例は次のとおりである。主要なコンポーネント(PC)に相関が無く、k番目のPCは、PCの中でk番目の最大分散を有するように順序付けされる。k番目のPCは、最初のk−1のPCに直交するデータポイントの予測の変動を最大限に高める方向として解釈することができる。最初のいくつかのPCは、データセット内の変動の大部分をキャプチャする。対照的に、最後のいくつかのPCは、データ内の残りの「ノイズ」のみをキャプチャするために度々仮定される。
【0119】
PCAはまた、本明細書に開示されているように分析プロセスを作成するために使用することができる。そのようなアプローチでは、マーカーの選択セットのためのベクトルは、クラスタリングのために説明したのと同じ方法で構築することができる。実際には、ベクトルのセットは、各ベクトルが、トレーニング集団の特定メンバーからの選択マーカーの発現値を表す、ある行列(matrix)で表すことができる。いくつかの実施形態では、このマトリックスは、モノマーの定性バイナリ記述のフリー・ウィルソン法(Free−Wilson method)で表され、第1主成分(PC)が、可能な分散情報の最大量をキャプチャし、第2主成分(PC)が、すべての分散情報の二番目の最大量をキャプチャして、マトリックス内のすべての分散情報が占められるまで、PCAを使用して最大限に圧縮された空間に分布される。
【0120】
次に、ベクトル(各ベクトルは、トレーニング集団のメンバーを表す)の各々は、プロットされる。多くの異なる種類のプロットが可能である。いくつかの実施形態では、一次元のプロットが行われる。プロットのこの形式では、予想(the expectation)は、最初のグループ(例えば、健康な対象)のメンバーが、第1主成分の値の1つの範囲にクラスタし、第2のグループ(例えば、アテローム性動脈硬化症患者)のメンバーが、第1主成分の値の2番目の範囲にクラスタするだろう(当業者は、マーカー値の分布は、これが有効であるためにいかなる変数も伸長がないことを示す必要があることを、理解されよう。)。
【0121】
一例では、トレーニング集団は、2つのグループ:健康な対象とアテローム性動脈硬化症の患者:で構成されている。第1主成分は、トレーニング集団のデータセット全体にわたって、選択マーカーのマーカー発現値を使用して、計算される。その後、トレーニングセットの各メンバーは、第1主成分の値の関数としてプロットされる。この例では、第1主成分が正であるトレーニング集団のそれらのメンバーは、健康な対象者であり、第1主成分が負であるトレーニング集団のそれらのメンバーは、アテローム性動脈硬化症患者である。
【0122】
いくつかの実施形態では、トレーニング集団のメンバーは、複数の主成分に対してプロットされている。たとえば、いくつかの実施形態では、トレーニング集団のメンバーは、第1の次元が第1の主要成分(principal component)であり、第2の次元は、第2の主成分である、2次元プロット上にプロットされる。そのような二次元プロットでは、予想(the expectation)は、トレーニング集団で表される各々のサブグループのメンバーが、個別のグループにクラスタすることである。たとえば、2次元プロットのメンバーの第1のクラスタは、軽度のアテローム性動脈硬化症を有する被験者を表し、2次元プロットのメンバーの第2のクラスタは、中等度のアテローム性動脈硬化症を有する被験者を表す、などである。
【0123】
いくつかの実施形態では、トレーニング集団のメンバーは、2つ以上の主成分に対してプロットフされており、トレーニング集団のメンバーが、それぞれがトレーニング集団で見つかったサブグループをユニークに表す複数のグループにクラスタリングされているかどうか、判定される。いくつかの実施形態では、主成分分析は、当業者に公知の、R mvaパッケージ(統計解析言語)を使用して実行される。
【0124】
最近傍分類指標(Nearest neighbor classifiers)は、メモリベースのものであり、適合モデルは必要ない。クエリポイント(query point)x0を考えると、kトレーニングポイントx(r)、x0までの距離が最も近いr・・・kが識別され、その後、ポイントx0は、k最近傍を使用して分類される。結合はランダムに分けることができる。いくつかの実施形態では、特徴空間におけるユークリッド距離は、以下のように距離を決定するために使用される。
d(r)=||x(r)−x(0)||
【0125】
一般的に、最近傍アルゴリズムを使用する場合は、線形判別式を計算するのに使われる発現データは、平均がゼロで分散が1であるよう標準化されている。本開示の方法については、トレーニング集団のメンバーは、ランダムに、トレーニングセットとテストセットに分割される。例えば、一実施形態では、トレーニング集団のメンバーの3分の2は、トレーニング・セットに配置され、トレーニング集団のメンバーの3分の1は、テストセットに配置される。本明細書に開示されるマーカーの選択されたセットのプロファイルは、テスト・セットのメンバーがプロットされている特徴空間を表している。次に、テスト・セットのメンバーを正しく特徴づけるためのトレーニングセットの能力が計算される。いくつかの実施形態では、最近傍計算(nearest neighbor computation)は、マーカーのある特定の組合せで複数回実行される。計算の各繰り返しで、トレーニング集団のメンバーは、ランダムにトレーニングセットとテストセットに割り当てられる。その後、マーカーの組み合わせの品質が、最近傍計算(nearest neighbor computation)の各繰り返しの平均値として扱われる。
【0126】
最近傍ルールは、不平等クラスの事前確率、差動の誤分類コスト、特徴選択の問題に対処するために改良することができる。これらの改良の多くは、近傍の加重投票のいくつかのフォームを含んでいる。
【0127】
生物進化の過程に触発され、分類指標の設計の進化的な方法は、分析プロセスのための確率的探索を採用している。概観では、このような方法は、本明細書に開示されたデータセットを生成するバイオマーカーのようなものの測定から、いくつかの集団分析プロセスを作成する。各分析プロセスは、他から多少異なる。次に、分析のプロセスは、トレーニングデータセット全体のデータに記録される。生物進化とのアナロジーを維持するために、得られた(スカラー)のスコアは、時々フィットネス(適応)と呼ばれている。分析プロセスは、そのスコアに基づいてランク付けされ、最良の分析プロセスは、(分析プロセスの総集団のある部分)保持される。再び、生物学的な用語に合わせて、これは適者生存と呼ばれている。分析プロセスは、確率的に次の世代の子供や子孫で変更される。いくつかの子孫の分析プロセスは、前の世代の親よりも高いスコアを持っているが、いくつかは低いスコアを持っている。全体的なプロセスは、その後の世代のために繰り返される。つまり、分析プロセスがスコアリングされて、ベストのものが保持され、別の世代へ与えるためにランダムに変更される。部分的には、ランキングが故に、各世代が、平均して以前のものよりわずかに高いスコアを有する。プロセスは、ある世代内の単一の最良の分析プロセスが、所望の基準値を超えるスコアを持つ場合、停止される。
【0128】
バギング、ブスティング、ランダム部分空間法、及び付加的ツリーは、脆弱な分析プロセスを改善するために使用することができる技術の組合せとして知られている、データ解析のアルゴリズムである。これらの技術は、前に述べた意思決定ツリーのような決定ツリーのために設計され、通常、適用される。さらに、このような技術はまた、線形判別分析のような他のタイプのデータ解析アルゴリズムを使用して開発された分析プロセスにも有用である。
【0129】
バギングにおいて、トレーニングデータセットを試し、ランダムな独立したブートストラップを生成、複製し、これらの各々の分析プロセスを構築し、最終的な分析プロセスの単純多数決によってそれらを集約する。ブースティングでは、分析プロセスは、以前の分析プロセスの結果に依存するトレーニング・セットの重み付けのバージョン上に構築される。最初に、すべてのオブジェクトが等しい重みを持っており、最初の分析プロセスは、このデータセット上に構築される。次に、重みは、分析プロセスのパフォーマンスに応じて変更される。誤って分類されたオブジェクトは、より大きな重みを取得し、次の分析プロセスは、再重み付けされた(reweight)トレーニングセットにブースト(boost)される。このように、一連のトレーニングセットと分類が、単純な多数決によって、または最終決定での加重多数決によって結合され、取得される。
【0130】
ブースティングを説明するために、研究下の集団によって示された2つの表現型のグループ、表現型1(例えば、予後不良の患者)、および表現型2(例えば、予後良好の患者)が存在する場合を考える。分子マーカーXのベクトルを考えると、分類G(X)は、上記2つの値のセット:{表現型1、表現型2}でのタイプ値のいずれか1つを取って予測を生成する。トレーニングサンプルのエラー率は以下で、
【数11】
ここで、Nはトレーニングセットでの被験者の数(表現型1または2のいずれかの表現型を持つ被験者の合計)である。例えば、35人の健康者と46人の(アテローム性動脈)硬化症の患者が存在する場合、Nは81である。
【0131】
弱い分析プロセスは、そのエラー率が、ランダム推測よりわずかに優れているに過ぎないものである。ブースティングのアルゴリズムでは、弱い分析プロセスを、繰り返し、データの修正バージョンに適用し、これにより、一連の弱い分類指標Gm(x)、m=1、2、・・・、M.のシーケンスを生成する。このシーケンスの分類のすべての予測は、最終的な予測を生成するために加重多数決を介して結合される:
【数12】
1.観察加重wi=1/N、i=1,2,...,Nを初期化
2.m=1からM、に対して:
(a)分析プロセスGm(x)を、重みwiを使用するトレーニングセットへ適合
(b)計算
【数13】
(c)計算am=log((1−errm/errm)
(d)wiをセット ⇔ wiexp[αmI(yi≠Gm(Xi))],i=1,2,・・・・,N3.アウトプット
【0132】
ここでa1,a2,....,amは、ブースティング・アルゴリズムによって計算され、その目的は、それぞれのGm(x)の寄与を比較検討することである。その効果は、シーケンス内のより正確な分類に高い影響を与えることである。
【0133】
各ブースティング段階でのデータ変更は、重みwi,w2,...,wnを、各トレーニング観察結果(xi,yi),i=1,2,...,Nのそれぞれに適用することから構成されている。最初に、すべてのウェイトは、Wi=1/Nにセットされ、その結果、最初のステップは、単に通常の方法でデータでの分析プロセスを養成する。それぞれの連続した反復m=2,3,...,Mのために、観察結果加重は個別に変更され、分析プロセスは、加重された観察結果(observation)に再適用される。幹mで、前のステップで誘導される分析プロセスGm−1(x)で誤って分類されたとの観察結果は、それらの加重は増加し、一方、正しく分類された観察結果は、その加重は減少する。反復が進むにつれてこのように、正しく分類するのが困難な観察結果は、増え続ける影響を享受する。それぞれの連続した分析プロセスは、それによってそのシーケンスの前の時に見逃されているトレーニング観測結果に集中するように強制される。
【0134】
典型的なブースティングアルゴリズムは以下のとおり:
1.観察加重wi=1/N、i=1,2,...,Nを初期化
2.m=1〜M、に対して:
(a)分析プロセスGm(x)を、重みwiを使用するトレーニング・セットへ適合
(b)計算
【数14】
(c)計算am=log((1−errm/errm)
(d)wiをセット:wiexp[αmI(yi≠Gm(Xi))],i=1,2,・・・・,N
3.アウトプット
【数15】
【0135】
アルゴリズムmで、現在の分類指標Gm(x)は、ライン2aで加重観察に誘導される。結果の重み付き誤差率は、ライン2bで計算される。ライン2cは、最終的な分類GM(ライン3)の生成で、Gm(x)に与えられる重みamを計算する。それぞれの観察の個々の重みは、ライン2dでの次の反復のために更新される。Gm(x)によって誤って分類された観察結果は、シーケンスでの次の分類Gm+l(x)を誘導するための相対的な影響力を増加させる因子exp(αm)によって、その重みがスケーリングされている。いくつかの実施形態では、ブースティングまたは適応ブースティング方法が使用されている。
【0136】
いくつかの実施形態では、特徴の事前選択は、ノンパラメトリック・スコアリング方法の様な技術を使用して実行される。特徴の事前選択は、分類指標に使用されるために選択されるマーカーが、分類間でベストなものを識別する、二次元的削減の一形式です。その後、ロジット・ブースト(LogitBoost)手法は、ブースティング手順よりむしろ、使用されている。いくつかの実施形態では、ブースティングおよび他の分類方法が、開示された方法で使用されている。
【0137】
ランダム部分空間法では、分類指標は、データ特徴空間のランダム部分空間で構築されている。これらの分類指標は、通常、最終決定ルールで単純過半数の議決権によって結合される(すなわち、分析プロセスで)。
【0138】
示されているように、本明細書に記載の統計的手法は、データセットに含めるべき好ましいマーカーグループを同定するために使用でき、そのデータセットを使用して結果を生成するために使用できる分析プロセスを生成するために、使用できる、アルゴリズムやモデルの種類の例を単に示しているに過ぎない。また、上記や別の場所で説明した技法の組み合わせは、同じタスクのため、あるいは異なるタスクのためのいずれにも使用できる。決定ツリーとブースティングの組合せの使用の様な、いくつかの組合を、記載している。しかし、他の多くの組み合わせが可能である。例によって、射影追跡(Projection Pursuit)と重み付き多数決(Weighted Voting)の様な、技術上の他の統計的手法は、データセットに含めると、マーカーの優先グループを識別するために使用することができ、また、そのデータセットを使用して結果を生成するために使用できる分析プロセスを生成するために使用することができる。
【0139】
分析プロセスで評価されるべきデータセットコンポーネントの最適な数を決定することができる。ある予測モデルを開発するために、上記の学習アルゴリズムを使用した場合、当業者は、分析プロセスを定義するために、マーカーのサブセットを、すなわち、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、マーカーの完全なセットとなるまで、選択することができる。通常、マーカーのサブセットは、精度の高い予測モデルを維持しながら、例えば、試薬の有用性、定量等の利便性等、定量的なサンプル分析のニーズに合わせて用意されて選択される。
【0140】
分類モデル構築のための、多くの有益なマーカーの選択は、パフォーマンス・メトリックの定義と、このメトリックに基づいた有用な予測能力を持つモデルを生成するためのユーザー定義しきい値(a user−defined threshold)とを、必要とする。たとえば、パフォーマンス・メトリックは、AUC、予測性の感度および/または特異性と同様に、予測モデルの全体的な精度である。
【0141】
あるモデルの予測能力は、例えば、特定の値や値の範囲のAUCまたは正確さなど、品質メトリックを提供する能力に基づいて評価することができる。いくつかの実施形態では、所望の品質のしきい値は、少なくとも約0.7、少なくとも約0.75、少なくとも約0.8、少なくとも約0.85、少なくとも約0.9、少なくとも約0.95、またはそれ以上の精度で、サンプルを分類する予測モデルである。代替措置として、所望の品質のしきい値は、少なくとも約0.7、少なくとも約0.75、少なくとも約0.8、少なくとも約0.85、少なくとも約0.9、またはそれ以上の精度で、あるAUCでサンプルを分類する予測モデルである。
【0142】
当技術分野で知られているように、予測モデルの相対的な感度と特異度は、互いに反比例の関係を持つ、選択性メトリックまたは感受性メトリックのいずれかを、優先するように「調整」することができる。上記のようにモデルでの制限は、実行されるテストの特定の要件に応じて、選択した感度や特異性のレベルを提供するために調整することができる。感度と特異性のいずれかまたは両方は少なくとも約0.7、少なくとも約0.75、少なくとも約0.8、少なくとも約0.85、少なくとも約0.9、またはそれ以上とすることができる。
【0143】
様々な方法がトレーニングモデルで使用されている。マーカーのサブセットの選択は、マーカーのサブセットの順方向選択、または逆方向選択を経由するかもしれない。選択されるマーカーの数は、すべてのマーカーを使用しなくても、モデルのパフォーマンスを最適化する数である。用語の最適な数を定義する一つの方法は、ある与えられたアルゴリズムのために使用される用語の任意の組み合わせと数を使用して、このメトリックのために得られた最大値から1標準誤差以下の範囲にある、所望の予測能力(例えば、AUC>0.75、または感度/特異性の同等の測定)を持つモデルを生成するいくつかの用語を選択することである。
【0144】
上述したように、データセットのコンポーネントの定量的データは、分析プロセスに入力され、結果を生成するために使用されている。この結果は、例えば、分類、連続的な変数、またはベクトルといった、アテローム性動脈硬化症の分類を行うために有用な、任意のタイプの情報であり得る。例えば、連続変数またはベクトルの値は、あるサンプルが特定の分類に関連付けられる可能性(the likelihood)を決定するために使用されることがある。
【0145】
アテローム性動脈硬化症の分類は、あらゆるタイプの情報またはアテローム性動脈硬化症状態に関連付けられた任意の種類の情報の生成を参照する。例えば、診断、ステージング、アテローム性動脈硬化進行の評価範囲、予後、モニタリング、処置に対する治療的反応、既知のアテローム性動脈硬化症の治療と同様のメカニズムを介して作用する化合物を同定するためのスクリーニング、擬似冠動脈カルシウムスコアの予測、安定(すなわち、心筋梗塞)か不安定(すなわち、狭心症)か、アテローム性動脈硬化症の合併症の識別などである。
【0146】
好ましい実施形態では、結果は、アテローム性動脈硬化症発生の診断や、検出のために使用され、その様なアテローム性動脈硬化症は、特に、心筋梗塞、心不全などの傾向の指標となる。この実施形態では、「健康」と「アテローム性動脈硬化症」のサンプルを含む基準またはトレーニングセットが、予測モデルを開発するために使用されている。データセットは、好ましくは、アテローム性動脈硬化症を示すマーカーのタンパク質発現レベルを含み、結果を生成するために、予測モデルに入力される。その結果、「健康」または「アテローム性動脈硬化症」のいずれかとしてサンプルを分類することができる。他の実施形態では、結果は、サンプルを分類するための有用な情報を提供する連続的な変数であり、例えば、高値は「アテローム性動脈硬化症」のサンプルである確率が高いことを示し、低値は「健康」のサンプルであることの確率が低いことを示す。
【0147】
他の実施形態では、結果は、アテローム性動脈硬化症のステージ分類のために使用される。この実施形態では、さまざまなステージで疾患を持つ個人からのサンプルを含む基準またはトレーニングデータセットが、予測モデルを開発するために使用される。モデルは、既知のステージの病気のサンプルや、1つまたは複数のデータセットに対する個々のデータセットの単純な比較であり得るし、より複雑な多変量分類モデルでもあり得る。特定の実施形態では、モデルにデータセットを入力することは、データセットが、指定された心血管疾患のステージであるものとして生成されるから、サンプルの分類結果を生成する。同様のメソッドは、参照(基準)セットまたはトレーニングセットが、病気に進展し、後に病気に進展しなかった個々人から得られたデータを含む場合を除いて、アテローム性動脈硬化症の予後を提供するために使用することができる。
【0148】
他の実施形態では、結果は、アテローム性動脈硬化症の治療への応答を決定するために使用される。この実施形態では、参照(基準)データセットまたはトレーニングデータセットと予測モデルは、アテローム性動脈硬化症(疾患を有する患者と、疾患を有さない個人からのサンプル)を診断するために使用されるものと同じである。しかし、診断不明とされた個人からのサンプルで構成されるデータセットを入力する代わりに、データセットは、特定の治療が施されている既知の疾患を持つ個々人で構成され、サンプルが、「正常・健康の分類」対「アテローム性動脈硬化症の分類」の傾向があるか、その範囲内に置かれているかが、決定される。
【0149】
本明細書中で使用される様に、治療は、制限なしに、3,6,又は12ヶ月後のフォローアップ検診を含めることができ、例えば、それは、β遮断薬、カルシウムチャネル遮断薬、アスピリン、コレステロール低下剤、等の薬理学的介入、および/または心血管疾患/状況の存在または程度を決定するためのさらなるテストなどである。特定の例では、即時の治療は必要ない。
【0150】
別の実施形態では、結果は、薬剤スクリーニング、すなわち、既知のアテローム性動脈硬化症の薬物治療と同様のメカニズムを介して作用する化合物を識別するのに、使用される。この実施形態では、既知のアテローム性動脈硬化症の薬物治療を受けた個人や、特定の治療を受けていない個人を含む基準またはトレーニングセットは、予測モデルの開発に使用することができる。未知のメカニズムを持つ化合物で処理された個人からのデータセットは、モデルに入力される。結果が、サンプルは、既知のアテローム性動脈硬化症の薬物治療で投与された対象から来たものとして分類することができることを示している場合は、新しい化合物は、同じメカニズムを介して作用する可能性がある。
【0151】
好ましい実施形態では、結果は冠動脈カルシウムスコア(CCS)に相関する定量的な尺度である、「擬似冠動脈カルシウムスコア」を決定するために使用される。CCSは、全体的な動脈硬化性プラークの負荷を測定する、臨床的心血管疾患のスクリーニング手法である。イメージング技術の様々な異なるタイプを、アテローム性動脈硬化プラークのカルシウム面積と密度を定量化するために使用することができる。電子ビームCTとマルチスライスCTが使用されている場合、CCSは、X線減衰係数とカルシウム沈着の面積の関数である。通常、0のスコアが、動脈硬化性プラークの負荷が無いことを示し、>0から10は、プラークの負荷の証拠は最小限のもので、11から100は、少なくとも軽度で、101から400は、少なくとも中等度で、400を超えると、プラーク負荷の大規模な証拠を示すと考えられる。従来の危険因子と組み合わせて使用するCCSは、心血管疾患の合併症の予測能力を向上させる。さらに、CCSはまた、心血管疾患の合併症に依存しない予測因子として作用することができる。
【0152】
冠動脈カルシウムスコアが高値の人と低値の人とを含む基準セットまたはトレーニングセットは、個々の擬似冠動脈カルシウムスコアを予測するモデルを開発するために使用することができる。この予測された擬似冠動脈カルシウムスコアは、アテローム性動脈硬化症の診断およびモニタリングに有用である。いくつかの実施形態では、擬似冠動脈カルシウムスコアは、そのような心血管疾患の診断およびモニターするためのイメージング技術から派生した実際の冠動脈カルシウムスコアのように、他の既知の心血管疾患の診断とモニタリング手法と組み合わせて使用される。
【0153】
当業者は、これらのメソッドを使用して生成された結果は、心血管疾患の診断およびモニタリングするための、当業者に公知の様々な他の多数の方法と組み合わせて使用することができることを認識するであろう。
【0154】
当業者であれば、これらのメソッドを使用して生成された結果は、心血管疾患の診断およびモニタリングのために、当業者に公知の様々な他の任意の数の方法と組み合わせて使用することもできることを、認識するだろう。
【0155】
一実施形態では、必要性や治療法の有効性を判断するために人間の心臓血管の健康を評価するためのキットが提供され、これは、生物学的サンプル中の表20のmiRNAから選択される少なくとも2種のmiRNAマーカーのレベルを決定するためのアッセイ、各miRNAマーカーのレベルから成るデータセットを取得するための手順、を含み、そして、生物学的サンプルを分類するためのデータを使用する分析・分類プロセスに、データを入力すること(ここで、分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、非薬剤曝露分類がないからなる群から選択される)、分類プロセスのアウトプットに従って生物学的サンプルを分類すること、そして、分類に基づいて治療法を決定すること、を含む。
【0156】
特定の実施形態では、キットはさらに、生物学的サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFからなる群から選択される少なくとも3つのタンパク質バイオマーカーのレベルを決定するためのアッセイと、タンパク質マーカーの個々のレベルから構成されるデータセットを取得するための手順とを含み、そして、生物学的サンプルを分類するためのデータを使用する、分析・分類プロセスにmiRNAとタンパク質マーカーのデータを入力すること(ここで、分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、非薬剤曝露分類がないからなる群から選択される)、分類プロセスのアウトプットに従って生物学的サンプルを分類すること、そして、分類に基づいて治療法を決定すること、を含む。
【0157】
そのような試薬の一つのタイプは、興味の対象のマーカーセットに結合する抗体のアレイまたはキットである。様々に異なるアレイフォーマットが、様々に広範囲に異なるプローブ構造、基板組成物および接着技術と共に、当該分野で知られている。代表的なアレイや興味の対象であるキット組成物は、少なくとも2、少なくとも3、少なくとも4、少なくとも5かそれ以上のmiRNAマーカーの単独、またはタンパク質マーカーとの組合せによる定量用試薬を含有するかまたはそれから構成されている。この点で、試薬は、表1にリストされたmiRNA、そして好ましくは表20でリストされたmiRNAから選択された、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5のmiRNAマーカーの定量のために可能である。
表1(表1−1〜表1−15)
【表1−1】
【表1−2】
【表1−3】
【表1−4】
【表1−5】
【表1−6】
【表1−7】
【表1−8】
【表1−9】
【表1−10】
【表1−11】
【表1−12】
【表1−13】
【表1−14】
【表1−15】
代わりに、または、加えて、試薬は、表2から選択された、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10のタンパク質バイオマーカーの定量のためにできる。
表2(表2−1〜表2−5)
【表2−1】
【表2−2】
【表2−3】
【表2−4】
【表2−5】
【0158】
特定の実施形態では、タンパク質バイオマーカーは、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGF、から選択されている。
【0159】
キットはさらに、1つ以上の表現型の統計分析用のソフトウェアパッケージを含むことができ、分類の確率を計算するためのリファレンス・データベースが含まれる場合がある。キットは、血液サンプル、セカンドステージ抗体、ELISA試薬、チューブ、スピンカラム等の回収や処理のためのデバイスなど、様々な方法で用いられる試薬を含めることができる。
【0160】
上記構成要素に加えて、対象キットはさらに、本発明の方法を実施するための使用説明書を含む。これら使用説明書は、様々な形態で対象キット中に、1つ以上存在し得る。これら使用説明が存在する1つの態様は、例えば、キットのパッケージや添付文書内の、情報が印刷された紙片など、適切な媒体や基質に関する印刷情報の様なものである。さらに別の手段は、例えば、フロッピーディスク、CDなど、情報が記録されたコンピュータ可読媒体であろう。また、存在し得る別の手段は、隔離されたサイト情報にアクセスするために、インターネットを介して使用することができるウェブサイトアドレスである。任意の便利な手段がキット内に存在し得る。
【0161】
さらなる態様において、本明細書に開示される方法アッセイおよびキットは、プールされたサンプル中のバイオマーカーを検出するために使用することができる。この方法は、特に、複数のサンプルでわずかな量しか利用できない場合(例えば、保管されていた臨床サンプルセット)、及び/又は患者または対象集団に関連する有用なテータセットを生成する時に、有用である。この点で、(たとえば、約10μl、約15μl、約20μl、約30μl、約40μl、約50μl、またはそれ以上の)等量のサンプルが、約2、5、10、15、20、30、50、100またはそれ以上の)複数の個人から得ることができる。個人は、様々なしるし(indicia)によって一致させることができる。このしるしには、年齢、性別、疾患の既往歴、イベントまでの時間(time to event)などを含めることができる。各個人から得られたサンプルの等量をプールし、1つまたは複数のバイオマーカーの存在について分析することができる。結果は、本明細書に記載の予測・分類モデルを使用して、リファレンス・セットを生成し、予測を実行し、与えられた条件等に関連付けられるバイオマーカーを決定することができる。当業者であれば、本方法の多くの用途を容易に認識し、本明細書に開示されるmiRNA、タンパク質、疾患状態に限定されるものではないことを認識する。実際に、本方法は、様々な疾患や状況に関連付けられている、DNA、RNA(mRNA、miRNA、ヘアピン前駆体RNA、RNP)、タンパク質等を検出するために使用することができる。
【0162】
定義
本明細書中で使用される用語は、特記のない限り、以下に記載するように定義されている。
【0163】
本明細書で使用される用語「モニタリング」は、個人または個々人の健康や疾患の状況に関する有用な情報を提供するために、データセットから生成された結果を使用することを指す。「モニタリング」は、例えば、予後の判定、リスク層別化、薬物療法の選択、進行中の薬物療法の評価、治療の有効性の決定、結果の予測、治療への応答の決定、疾患または合併症の診断を含むことができ、疾患の進行の後に、または時間をかけて患者の健康状態に関連する情報を提供し、作用の既知の分子メカニズムを伴う実験的治療の恩恵を受ける可能性が最も高い患者を選択し、そのメカニズムが、投薬にラベルがない様なある疾患の小さなサブセットで重要であるかもしれない既知の分子メカニズムを伴う承認薬の恩恵を受ける可能性が最も高い患者を選択し、例えば、非侵襲的な血液検査から、より侵襲的な生検などのオプションなど、より侵襲的な/高価なテストを決定を支援する患者集団をスクリーニングし、または別の指標を治療するために使用される薬の副作用を評価するテストを含めることができる。特に、用語「モニタリング」は、アテローム性動脈硬化症のステージング、アテローム性動脈硬化症の予後、血管炎症のレベルを参照することができ、アテローム性動脈硬化症の進行の程度を評価し、治療応答をモニタリングし、冠動脈カルシウムスコアを予測し、またはアテローム性動脈硬化症の不安定な症状から安定した症状を区別することができる。
【0164】
本明細書中で使用される用語「定量的なデータ」は、数値を特定することができる任意のデータセットコンポーネント(例えば、miRNAマーカー、タンパク質マーカー、臨床的しるし(臨床的標識)、代謝的計測、または遺伝的アッセイ)に関連付けられたデータを指す。定量的データは、マーカーのDNA、RNAまたはタンパク質レベルの尺度であることができ、モル濃度、重量濃度などのような測定の単位で表現することができる。例えば、マーカーがタンパク質である場合、そのマーカーの定量的データは、当業者に公知の方法を使用して測定され、mMまたはmg/dLの濃度単位で表現される、タンパク質の発現レベルである。
【0165】
本明細書で使用される用語「哺乳動物」は、ヒトおよび非ヒトの両方を含み、ヒト、非ヒト霊長類、イヌ、ネコ、マウス、ウシ、ウマ、およびブタも含むが、これに限定されるものではない。
【0166】
本明細書で使用される用語「擬似冠動脈カルシウムスコア」は、画像診断法による測定を通じてというよりむしろ、本明細書に開示されるような方法を使用して生成された冠動脈カルシウムスコアを指す。当業者であれば、擬似冠動脈カルシウムスコアは、画像診断法による測定により生成された冠動脈カルシウムスコアと交換可能に使用され得ることを認識するであろう。
【0167】
二つ以上の核酸またはポリペプチド配列の構成における用語であるパーセント「同一性」(percent identity)は、以下で説明する配列比較アルゴリズム(例えば、BLASTP及びBLASTNまたは当業者に利用可能な他のアルゴリズム)のいずれかを使用し、または目視検査によって測定されて、比較され、最大一致のために整列された場合に、二つ以上のシーケンスまたはサブシーケンスが、特定の比率で同一のヌクレオチドまたはアミノ酸残基を有することを、指す。アプリケーションに応じて、パーセント「同一性」は、比較される配列領域、例えば、機能ドメインに亘って存在することができ、あるいはまた、比較される2つの配列の全長にわたって存在することができる。
【0168】
特定の実施形態では、治療法の「効果」が決定される。治療法は、改善、改良、リスクの低減、または病状または疾患の進行の減速に基づいて有効であると認識される。このような決定は、当業者によって容易になされる。
【実施例】
【0169】
(実施例1)
プールされたサンプル中のmiRNA解析
本研究で利用されたプーリングアプローチ(pooling approach)は、a)血清中のmiRNAを識別するためにExiqon社のLocked Nucleic Acid(LNA(商標))技術の能力を調査すること、及び、b)テストのために貴重な保管臨床サンプルから最小量を利用することという、2つの目標を達成した。
【0170】
血清中のmiRNAを識別する、LNA(商標)技術の能力を評価するために、52のプールが、前向き研究(prospective study)から保管されていた血清サンプルを使用して作成された(Marshfield Clinical Personalized Medicine Research Project (PMRP), Personalized Medicine, 2(1): 49−79 (2005))。そのうち26プールは、患者ケースを、他の26プールは、コントロールを構成した。各プールは、年齢(40〜80歳の間の5歳毎の8つの範囲の中から選択)、性別や事象までの時間(time to event)(即ち、0−6ヶ月内でMI(心筋梗塞)、6−12ヶ月内でMIなど)をマッチさせた、5人の各個人からの等量(50μL)の血清サンプルを含有した。以後のマッチングは、近似的であった。患者ケースは、採血から5年以内にMlや、入院の不安定狭心症を伴った被験者であった。コントロールは、採血から5年以内に上記のいずれの疾患イベントとならなかった被験者であった。これらサンプルは、分類問題として評価され、テストパフォーマンスは、曲線下面積(AUC)を用いて判定した。
【0171】
AUCの観点からテストパフォーマンスは、(個々のマーカーに対する)測定値の分布、または実験デザインの時点で不明であったスコアの分布に、依存する。実際の実験デザイン(26症例、26コントロール)と同様のサンプルサイズのセットに対するテストの期待される性能を見積もるために、多くのシミュレーションが、変数やプールしているサンプル数に対する、異なる仮定分布を用いて行なわれた。使用された仮定分布は、a)正常、b)無仮説(chisq)、および、c)対数正規(log−normal)であった。あるプールサンプルの分布と数に対する適切な数の「コントロール」は、ランダムに選択されたものであり、対応する数の症例は、集団間の差異を表すために、既知の平均シフト分布から選択された。したがって、サイズMのプールのために、26*Mコントロールと26*M症例が選択され、プールサンプルの各々は、Mサンプルの値を平均することによって作成される。このプロセスは、500回繰り返され、予想されるAUCの分布は、プールされたサンプルの与えられた数と母集団の距離に対して推定された。
【0172】
図1は、個々のサンプル(白丸と実線の誤差範囲)と、プールされたサンプル(プール毎に5の固体サンプル)(白丸と破線の誤差範囲)を使用した際の、バイオマーカーの濃度やスコアの仮定対数正規分布の結果を示している。実線の黒のドットは、個々の測定のための理論的な答えを示している。予測AUCが、一貫して、個々のサンプルに対する真のAUCと予測AUCを過小評価していると観察されるが、(個々のサンプルの)不確かさの範囲は、プールされたサンプルのそれより小さい。図2は、測定値の想定正規分布の結果を表す。このケースでは、プールされたサンプルの結果は、理論的結果や個々のサンプル結果によく一致している。再び、プールされたサンプルの不確かさは、ヒトサンプルの対応する不確かさよりも小さい。仮定の無仮説分布は、対数正規分布から得られたものと一致する、多くのシミュレーション結果を提供した。これらのシミュレーションは、ヒトサンプルの分布が正規分布に従う場合は、プールされたサンプルの結果が、予測AUCの非常に良好な推定値を提供することを示しており、そうでなければ計算されたAUCは過小評価される。
【0173】
52のプールされたサンプルの38のmiRNAが、EXIQON社のUniRT(商標)LNA技術を用いて分析した。全RNAは、多少変更された、QIAGEN RNEASY(登録商標)ミニキットプロトコル(QIAGEN社、Valenica,CA)を使用して、提供血清サンプル(上記)から抽出した。
【0174】
全RNAはQIAGEN RNEASY(登録商標)ミニキットを用いて血清から抽出した。血清は、氷上で融解し、4℃5分間1,000×gで遠心した。サンプルあたり200μLの分量の血清を、新しいマイクロ遠心チューブへ移し、それに0.94μg/μLのMS2バクテリオファージを含むQiazol混合液750μLを添加した。チューブを混合し、200μLのクロロホルムを加えて、5分間インキュベートした。チューブを混合して2分間インキュベートし、4℃15分間12,000xgで遠心した。上澄部分を新しいマイクロ遠心チューブに回収し、1.5倍量の100%エタノールを追加した。チューブを完全に混合し、750μLのサンプルを、コレクションチューブ内のQIAGEN RNEASY(登録商標)ミニスピンカラムへ移し、室温で30秒、15,000xgで遠心分離した。
表3(表3−1〜表3−2)
【表3−1】
【表3−2】
【0175】
各RNAサンプルは、3つの独立した逆転写(RT)反応でcDNAに逆転写(RT)され、singlicateリアルタイムPCRまたは定量PCR(qPCR)反応として実行される。
【0176】
各384ウェルプレートは、2つのmiRNAのアッセイのためのすべてのサンプルの反応液を含んでいた。RTステップでの無テンプレートコントロール(RNAを水で置換)、及び、RTステップでの無酵素コントロール(テンプレートとしてプールされたRNAを使用)を、ネガティブコントロールとして、実験に含めた。すべてのアッセイで、無テンプレートコントロール及び無酵素コントロールの結果が陰性であったという点で、この品質管理手順をパスした。
【0177】
リアルタイムPCR解析の追加のステップは、各反応の融解曲線を生成することにより、アッセイの特異性を評価するために行われた。融解曲線解析時に単一のピークの出現は、単一の特定の産物が定量PCRの過程で増幅されたことを示している。複数の融解曲線ピークの出現は、関連する複数の定量PCR増幅産物の指標を提供し、これは特異性の欠如の証拠である。複数のピークを示したアッセイは、いずれもデータセットから除外されている。Cp(交点、すなわち、測定されたシグナルが予め設定されたしきい値を超えて交差する点で、標的配列の測定可能な濃度を示す点)の決定のため(2次微分法による)、及び、溶解曲線分析のために、増幅曲線は、LIGHTCYCLER(登録商標)ソフトウェア(Roche,Indianapolis,IN)を用いて分析された。
【0178】
PCR効率は、また、LIN REG(登録商標)ソフトウェア(オープンソースソフトウェア)でPCR増幅曲線を分析することにより評価した。5つのハウスキーピングmiRNA(miR−16、miR−93、miR−103、miR−192、およびmiR−451)の成績が、付属の血清サンプルから抽出したRNAの品質を評価するために使用された。
【0179】
38のmiRNAターゲット中の24は、サンプルで検出された。50のサンプル(26症例と24コントロール)が、これらのサンプルの分類分析の成績を評価し、状態を予測するmiRNAを選択するために使用された。次の方法論、a)ロジスティック回帰アプローチ、およびb)(L1ペナルティー・ラッソ(L1 penalty−lasso))を使用したペナルティロジスティック回帰アプローチは、モデルを構築するために用いた。モデルでベストの分類を提供した用語の選択は、a) 非ペナルティロジスティック回帰アプローチ(unpenalized logistic regression approach)のために、ベイズの情報基準(Bayesian Information criterion)を使用して前方選択を行うことにより、及び、b)のペナルティアプローチ(penalized approach)のために、最適なペナルティのクロスバリデーションに基づく選択により、完成した。後者では、ペナルティパラメータは、使用可能なパラメータの係数をゼロに追いやるため、結果として得られるモデルは、減少した数の予測miRNAだけを含む。パフォーマンスの客観的な尺度を評価するために、AUCは事前検証されたスコアを用いて算出した。事前検証は、クロスバリデーションのアプローチと非常によく似ており、与えられた結果を伴う「スコア」の関連付けは、与えられた検体のために、トレーニングセット内の特定の検体を使用せずにフィットしたモデルから予測されている値に基づいてされている。この分析では事前検証されたスコアは、以下の二つのアプローチに基づいて計算された。a)K分割交差検定(k−fold cross−validation)と、b)リーブ・ワン・アウト・交差検定(leave−one−out cross validation)である。事前検証の繰り返しは、N回(Nは、通常、100から1000まで)なされた。分析の完全なシーケンスは以下の通りである。
1)モデル選択のためのBICでの、ロジスティック回帰を使用して、またはトレーニングセットでの入れ子式の交差検定(nested cross−validation)を介して、ペナルティ関数を推定するペナルティロジスティック回帰を使用して、データのサブセットにモデルをフィットさせる。
2)K分割交差検定ために、モデルを、サンプルのK−1グループにフィットさせる。
3)リーブ・ワン・アウト・交差検定(leave−one−out cross validation)のために、M−1サンプル(ここでは、M=50)にフィットさせる。
4)フィットモデルを使用して、抜き出しサンプル(left−out samples)のスコアを予測する(交差検定のためのグループKと、リーブ・ワン・アウト・交差検定(leave−one−out cross validation)のための、1つの抜き出しサンプル(single left−out sample))。
5)すべてのスコアがすべてのサンプルに対して予測された後、分類問題のためにAUCを計算する。
6)AUCの変動を評価するために、ステップをN回(1から3)繰り返す。
【0180】
図3は、事前検定スコア計算100リピートで、ペナルティロジスティック回帰モデル(L1ペナルティ・ラッソ(L1 penalty−lasso))を使用して得られたAUC値の分布を示す。表4は、モデル選択と、ペナルティロジスティック回帰(L1ペナルティ・ラッソ(L1 penalty−lasso))とペナルティスコア計算のための10分割交差検定とを使用したフィッティングの過程で選択されたトップのmiRNAを示す。あるマーカーが、この実行で選択され得る最大回数は、1000である(100リピートのスコア事前検定と、各リピート間での10分割交差検定)。
表4(表4−1〜表4−2)
【表4−1】
【表4−2】
【0181】
表5は、L1ペナルティロジスティック回帰アプローチと組合せてリーブ・ワン・アウト・交差検定(leave−one−out(LOOV)cross−validation)(LOOCV)を使用して選択した、マーカーの数を示す。この2つの方法は、ほぼ同じ順序で選択された、非常に重複したマーカーのセットを、提供している。カウントの違いは、セット内のサンプル数からくるものである。対応するAUCは0.66である。
表5(表5−1〜表5−2)
【表5−1】
【表5−2】
【0182】
(実施例2)
個々のサンプル中のmiRNAの評価
フォローアップの実験は、実施例1に記載のEXIQON LNA(登録商標)を使用して、個々の血清サンプル中のmiRNAの検出と成績(26症例、26コントロール)の評価に集中した。合計90の miRNA(表6を参照)が、スクリーニングされ、それには、プールされたサンプルでスクリーニングされたmiRNAを含んでいた。この90 miRNAのターゲットのうち44は、個々の血清サンプルで検出された。プールされたサンプルで検出された24の miRNAは、個々のサンプルでも検出され、さらに追加的に、20のmiRNAが、個々のサンプルで検出された。5のmiRNAは、データの正規化のために使用され、分析対象から除外された。
表6(表6−1〜表6−4)
【表6−1】
【表6−2】
【表6−3】
【表6−4】
* 実施例1の一部として評価
**実施例2の一部として評価
【0183】
実施例1での記載と同様の方法論(methodlogy)は、このデータセットの分析のために使用された。リーブ・ワン・アウト・交差検定(leave−one−out crossvalidation)(LOOCV)と共に、ペナルティロジスティック回帰を使用することで、0.778に等しいAUCが提示された。個々のmiRNAが事前検定スコアの計算に使用されるモデルで選択された回数は、表7に示されている(50個のサンプルがあったので、合計50モデル)。平均モデルサイズは、〜8ターム(上位8のmiRNAは「*」で示されている)であった。期待値は、プールされたデータに対して得られた対応値よりも高い。
【表7】
【0184】
表8は、4分割交差検定でのL1ペナルティロジスティック回帰アプローチが50の個人サンプルに適用された時に選択されたmiRNAを提供する。再び、マーカーと順番のかなりの重複は、この2つの方法間で観察されている。図4は、この分析から得られたAUC値の分布を示す。
【表8】
【0185】
(実施例3)
タンパク質バイオマーカーの分析
(実施例1、2で使用されたマーシュフィールド・コホート(Marshfield cohort)からの)タンパク質のデータのみを含むモデルが、開発された。総計47のユニークなタンパク質バイオマーカー(表9)が分析された。血清サンプルは、回収され、−80℃で凍結保存され、その後、使用直前に解凍された。各サンプルは、2つの異なる検出技術:ルミネックス社(Luminex)(Austin,TX)のxMAP(登録商標)技術と、メソスケールディスカバリ社(Meso Scale Discovery)(MSD,Gaithersburg,MD)のMULTI−SPOT(登録商標)技術と、を使用して、分析された。
【表9】
【0186】
ルミネックスのxMAP(登録商標)技術は、色分けされた微粒子にプレコートされた分析物特異的抗体を利用している。微粒子、スタンダード、サンプルをウェルに分注し、固定化抗体は、対象分析物と結合する。適切な時間インキュベーションした後、粒子は、すべての非結合物質を除去するため、複数回、洗浄バッファー内で再懸濁される。対象分析物に特異的なビオチン化抗体カクテルを各ウェルに添加する。すべての非結合ビオチン化抗体を除去するための、第2のインキュベーション時間と洗浄を終えた後、ビオチン化検出抗体に結合する、ストレプトアビジン − フィコエリスリン結合体(streptavidin−phycoerythrin conjugate)(ストレプトアビジン−PE)を、各ウェルに添加する。最後の洗浄で、非結合のストレプトアビジン−PEを除去し、微粒子を緩衝液に再懸濁して、ルミネックス・アナライザを使用して読み込む。アナライザは、マルチレーザー検出システムを介して微粒子を方向付けるためにフローセルを使用している。1つのレーザーは、微粒子特異的であり、対象物が検出されていることを決定する。他のレーザーは、結合した分析物の量に直接比例して、フィコエリトリン由来の信号の大きさを決定する。曲線は、スタンダードによって生成された信号を使用して構築され サンプルのタンパク質バイオマーカーの濃度は、それぞれの曲線から読み込まれる。47のルミネックス(Luminex)タンパク質バイオマーカーアッセイの感度(検出限界、Limit of Detection, LOD)と精度(アッセイ内およびアッセイ間CV%)は、表10に示されている。
表10(表10−1〜表10−2)
【表10−1】
【表10−2】
【0187】
45のユニークなタンパク質バイオマーカーの中の10は、MSDプラットフォーム(表11)のに10プレックスアッセイ(10−plex assay)で分析した。
【表11】
【0188】
MSD(メソスケールディスカバリー、Meso Scale Discovery)技術は、各プレートの底部を炭素表面で構築された、特殊な96ウェルマイクロタイタープレートを採用している。各タンパク質バイオマーカーに特異的な抗体は、マイクロタイタープレートの各ウェルの底部にアレイ(spatial arrays)でスポットされている。スタンダードとサンプルを、プレコートプレートされたウェルに分注し、固定化抗体は、対象の分析物と結合する。適切な時間インキュベーションした後、プレートを複数回洗浄して、すべての非結合物質を除去する。SULFO−TAG(登録商標)で標識された、分析物に特異的な二次抗体カクテルを各ウェルに添加する。2回目のインキュベーションの後、プレートを再度複数回洗浄して、任意の非結合物質を除去し、専用のリード・バッファ(Read Buffer)を各ウェルに添加する。次いで、プレートをSECTOR(登録商標)イメージャーに設置すると、電流がマイクロタイタープレートの底部のカーボン電極に印加される。各スポットで、特異的二次抗体に結合したSULFO−TAG(登録商標)標識は、この電気刺激時に発光し、高感度CCDカメラで検出される。曲線は、スタンダードで生成されたシグナルを使用して構築され、サンプルの蛋白質バイオマーカーの濃度は、それぞれの曲線で読み込まれる。10のMSD(メソスケールディスカバリー)タンパク質バイオマーカーアッセイの感度(検出限界、LOD)と精度(内およびアッセイ間CV%)は、表12に示されている。
【表12】
【0189】
前述の事前検証済みスコア(prevalidated score)の計算にLOOVまたはK−分割交差検定でロジスティック回帰アプローチを用いて、モデルが構築され、パフォーマンスが評価された。図8は、事前検証済みスコアを予測するためにK−分割交差検定法のみを用いたタンパク質ベースのモデルから得られた、AUC値の分布を提供している。表13は、任意の交差検定モデルにおける、あるタンパク質マーカーの選択度数を提供する。高いカウントは、あるマーカーが一貫してコントロールから症例を分類する能力を持つことを示す。AUCは、事前検証済みスコアの計算にLOOVアプローチを使用して、0.698であると計算され、および、表14は、LOOV方法論を使用して構築した任意のモデル内のマーカーの、選択度数を提供している。後者のAUCは、k−分割交差検定アプローチから計算された不確実性の限界内にある。どちらの手法も同じトップマーカーを選択している。
【表13】
【表14】
【0190】
(実施例4)
miRNAとタンパク質バイオマーカーの複合解析
(実施例1、2からの)タンパク質データとmiRNAのデータの両方を含むモデルが、開発された。(実施例3からの)47のバイオマーカー全体のタンパク質データは、ルミネックス(Luminex Corp, Austin, TX)システムと、メソスケールディスカバリー(Meso Scale Discovery、MSD)システムの、2つの異なる検出技術を用いて得られた。タンパク質とmiRNAのデータを組み合わせたため、候補説明的変数(candidate explanatory variables)の数がサンプルの数を超えている。このような状況では、非ペナルティーメソッドの使用は適切ではないため、前述の事前検証済みスコア(prevalidated score)の計算にLOOVまたはK−分割交差検定(k−fold cross−validation)でペナルティ付きロジスティック回帰を用いて、モデルが構築され、パフォーマンスが評価された。図5は、miRNAとタンパク質の両方に基づいたモデルのためのAUC分布を提供する。AUCは、miRNAのみに対して得られたものと統計的に同等であるが、2つのmiRNAは一貫してモデルで選択されていた(表15を参照)。図6は、miRNAとタンパク質の相関の分布を示し、一方、図7は、miRNAの分布を示す。図6の2つの垂直線は、タンパク質とmiRNA間の最大と最小の相関関係を表している。いかなる特定の理論にも拘束されることを望まなければ、これらの相関関係は現在調査されていない調節作用に対応することができる。これら2つの図を比較すると、タンパク質は、このデータ・セット内の正の相関の高い数値を生成することを示している。
【表15】
【0191】
(実施例5)
miRNAバイオマーカーを用いた生存
本研究では、miRNAのレベルは、時間の経過とともに発生するあるイベント(ここではMl)のリスクを説明している。112の候補miRNAマーカーの、単変量、多変量分類および生存分析を行った。分類結果は、実施例2、3に記載の手法に基づいて得られた。生存解析はCox比例ハザード回帰手法を用いて行った。後の分析のための応答変数は、時間を含み、それは、あるイベントが発生した時間、または、研究の終了までの時間、および、時間があるイベントまたは研究の終了(打ち切り)に関連しているかどうかを示す指標、である。実施例2に記載の52サンプルについて、事象の時間またはフォローアップの終了時間が知られていた。研究の終了前にあるイベントを起こした26例については、ある事象のインジケータ変数は1に設定され、研究の期間内にある事象が起きなかった26例については、インジケータ変数は0に設定された。分析に含まれる説明変数は以下の通りで、: a)タンパク質レベル単独、 b)miRNAレベル単独、および、 c)miRNAレベル、タンパク質レベルのいずれか又は両方。モデルフィッティング(Model fitting)は、Cox比例ハザードモデルのペナルティ付きバージョンとペナルティ無し(unpenalized)バージョンの両方を使用して行われた。 モデルのペナルティ付きバージョンが適用される時は必ず、L1−ペナルティ(ラッソ(Lasso))を用いた。各モデルの変数選択(variable selection)は、実施例1に記載したものと同じアプローチを使用して行った。すなわち、 a)モデルの、ペナルティ無し(unpenalized)バージョンのための前進選択(forward selection)でのベイズ情報量規準(the Bayesian information criterion)を使用して、及び、 b)ペナルティ付きアプローチのための最適なペナルティの選択に基づいた交差検定(cross−validation)を使用して。客観的な方法でこれらのモデルの性能を評価するために、実施例1に記載のものと同様の方法で得られた事前検証済みスコア(prevalidated score)の計算が採用された。
【0192】
最初の分析(分類)では、生存時間は無視され、イベントまでの時間(タイム・ツー・イベント(time−to−event))にかかわらず、すべてのケースが同じように処理された。表16は、単変量の分類分析(univariate classification analysis)の結果を示している。この表内のマーカーは、予測AUCによって順位づけられている。表18(表17のミス!)は、多変量分類モデルにおけるmiRNAの選択度数(the selection frequency)を示している。多重ロジスティック回帰モデルは、LOOVアプローチを通じて得られたトレーニングセットの事前検証プロセス中に構築され、無視されたサンプル(the left−out−sample)のスコアを提供した。モデルのサイズは、ベイズ情報量規準(the Bayesian Information Criterion)の使用によって決定した。平均的な分類性能は、事前検証済み分類スコアのベクトルに基づいており、0.7に等しかった。
表16(表16−1〜表16−2)
【表16−1】
【表16−2】
【表17】
【0193】
表18は、単変量生存率分析の結果を示している。再び、このテーブル内のマーカーは、予測AUCによって順位づけられている。トップの選択マーカーは、分類分析から得られたものとほぼ同一であり、全体的なパフォーマンスは、時間依存性AUCで評価されるように、分類アプローチから得られたそれと同等であった。表19は、Cox比例ハザード回帰アプローチを用いた多変量生存率解析でのmiRNAマーカーの選択度数を示している。モデルにのみ基づいたmiRNAのために期待されるパフォーマンスは、事前検証(AUC= 0.78)を用いて推定した。トレーニングセットは、リーブ・ワン・アウト(leave−one−out)アプローチを介して構築され、各区画内でのモデルのサイズは、ベイズ情報量基準(the Bayesian information criterion)に基づいて決定された。平均的なモデルのサイズは8であった。
【表18】
【表19】
【0194】
(実施例6)
拡張されたmiRNAスクリーニング
miRNAバイオマーカーの、症例(case)対コントロールを区別するための能力を調べるために、現在miRBASE13に更新されている、Exiqonの水銀LNA(登録商標)ユニバーサルRTマイクロRNA PCRアレイ技術プラットフォームを使用して、以前に、実施例2の52の血清サンプルから得たRNA抽出物を、表1に示す720のmiRNA標的配列の存在に関してスクリーニングした。
【0195】
多くの分析が、各miRNAバイオマーカーの全体的な意義を提供するために結合された。単変量分類と生存分析は、重要な順に各ターゲットをランク付けするために使用された各個人のmiRNAターゲットのために、AUC値を提供した。多変量解析もまた、47の多変量モデルを生成するために実施された。miRNAターゲットは、それらが選択されたモデルの数によってランク付けされた。t−検定分析(1−tailed)もまた、症例(case)集団とコントロール集団における各miRNAターゲットのために測定されたCp値を比較して行われた。最後に、四分位数分析(a quartile analysis)が、データセットに対して行われた。各miRNAターゲットについては、すべてのサンプル(結合された症例集団とコントロール(対照)集団)が、Cp値に従って(低い値から高い値へ)ランク付けされた。ランク付けされた集団は、その後、各々が総集団の25%を含む4つの四分位数(four quartiles)に分割された。各四分位数での症例被験者と対照被験者の数は、その後記録された。もし、総数26症例のうち、65%より多いまたは35%未満が、「低い」四分位数にランクされた場合には、そのmiRNAターゲットは、重要とみなされた。
【0196】
拡張セットの720のmiRNAバイオマーカーの分析に基づいて、最終的な全体的なランクスコアが割り当てられるが、これは、miRNAターゲットのセット全体がランク付けされたことにより、全体の重要度スコアの生成を説明している。表20は、トップ50にスコアされているmiRNAを示している。
【表20】
【0197】
(実施例7)
タンパク質バイオマーカーベースの心血管リスクスコア
PMRP(Personalized Medicine,2(1):49−79(2005)).からの1123人のサンプルによって、心血管リスクスコアの開発がなされた。セットは、症例コホート・デザイン(a case−cohort design)に基づいて選択された。ベースラインの採血の時に40−80歳であった場合、および、事象MIを有した、または5年フォローアップの間に不安定狭心症(UA)のために入院した場合は、PMRPコホートからの被験者は、「症例」(cases)とみなした。合計で、385人の症例(初期Mlの164例、およびUAの221例)と838人のコントロールであった。利用可能なデータは、個々で測定された59(47のユニークな)のタンパク質バイオマーカー、および107の臨床的特徴であって、人口統計(年齢、性別、人種、糖尿病の状態、M1の家族歴、喫煙など)と、実験室での測定(総コレステロール、HDL、LDLなど)や薬の使用(スタチン、降圧薬、血糖降下薬など)を、含んでいた。
【0198】
単変量解析
各バイオマーカーと患者の転帰との関連付けは、Cox比例ハザード回帰と、Heagertyら(Survival Model Predictive Accuracy and ROC Curves Biometrics,61:92−105(2005))のKaplan−Meier法を使用した曲線(AUC)での時間依存的領域と、を使用して評価された。共通のスケール上で異なる濃度範囲のすべてのタンパク質バイオマーカーに亘ってハザード比(hazard ratio、HR)を提示するために、すべての被験者の値は、データをログ変換後コントロールの標準偏差で割ったコントロールの濃度の平均値を差し引くことにより、正規化された。ハザード比は、このように1つの標準偏差単位ごとに、表現された。図9は、リスクの多変量モデルを開発するための候補として使用された35のバイオマーカーの、未調整のハザード比と標準誤差を示す。22のバイオマーカーは、統計的に有意なHRを有する。
【0199】
年齢、性別、収縮期血圧、拡張期血圧、コレステロール、HDL、高血圧症、高血圧症治療薬の使用、高脂血症、糖尿病、喫煙という、従来型危険因子(traditional risk factors、TRFs)に対して各バイオマーカーを調整しながら、同じ分析を繰り返した(図10)。調整後、11のバイオマーカーだけが、統計的有意性を維持していたが、選択された上記TRFsが、心血管疾患に関連付けられていることは既知であったので、驚くべきことではない。図11A、図11Bは、最も高い時間依存性AUCと5年間のフォローアップでのその対応値を有するマーカーを示している。すべてのマーカーのAUCは、時間とともに減少していたNT−プロBNP(NT−proBNP)アッセイの2つのバージョンを除き、時間とともに一定のままであった
【0200】
多変量解析:Ml(心筋梗塞)および/またはUA(不安定狭心症)の予後スコアの開発
予後スコアの開発は、タンパク質バイオマーカーと同様、TRFs(従来型危険因子)を含めることを基礎としていた。年齢、性別、糖尿病、および家族歴の心血管イベントとの関連性が既知であったならば、これら4つのパラメータは、モデルに含まれた。これら4つのパラメータを含めることは、沢山のフォワードマーカー選択アルゴリズム(forward marker selection algorithms)を実行することによって確認された。すべてのアルゴリズムは、最終的な多変量アルゴリズムで4つの変数を選択した。最適なモデルサイズの決定は、以下の基準の使用に基づいてなされた。(a)赤池情報量基準(Akaike information criterion)、(b)ベイズ情報量基準(Bayesian information criterion)、(c)ドロップ・イン−逸脱基準(Drop−in−deviance criterion)、である。最初の2つは、インサンプルエラー推定法(in−sample error estimators)で知られており、3番目は、適合度(goodness−of−fit.)を推定する交差検証ループ(cross−validation loop)を利用している。3つのすべてのケースでは、モデルサイズは、最良のデータに適合し、過学習を回避するモデルに対して選ばれた。モデル選択のための特徴的なドロップイン・逸脱曲線(drop−in−deviance curve)(量の絶対値のプロット)を図12に示す。モデルのサイズは、曲線の最大値が同定され、その後、最大値の下に1標準誤差ポイントからラインを引く、1標準誤差ルール(1 standard error rule)の使用に基づいて選択された。タンパク質バイオマーカーの最適な数は、対応する平均絶対逸脱値が前述のラインを超える最小数として選ばれた。その数は7つのタンパク質バイオマーカーと一致し、すなわち、最適なリスクスコアは、それ故、4つのTRFsと7つのタンパク質バイオマーカーから構成されていた(図12)。すべての3つの方法は、モデル内のバイオマーカーの最適な数として5〜7のマーカーを選択した。バイオマーカーのより小さなセットは、常により大きなセットのサブセットであった。表21は、年齢、性別、糖尿病、およびMlの家族歴が、モデル内に入れ込まれた後に、選択されたバイオマーカーの度数とランキングを示している。これらのカウントとランキングは、交差検定プロセスの間に構築された別のモデルから得られた。1つのモデルは、すべてのトレーニング集団(training fold)のために構築され、そのサイズは、前述のモデル選択法の1つによって選択される。交差検定プロセスは、順番に平均的に各被験者のメンバーシップの割り当てによって導入された変動にわたって繰り返された。
【表21】
【0201】
表21は、5倍の事前検証(交差検証のフォーム)プロセスの4回繰り返し以上の各マーカーの、頻度選択(the frequency selection)、平均値、最小と最大のランクを示す。4つのTRFsは、各モデルに含めた。
【0202】
ドロップ・イン・逸脱アプローチ(the drop−in−deviance approach)で予測される最適なモデルサイズを使用して、Cox比例ハザードモデルは、異なる集団の検証を使用することができるモデルを得るために使用可能なすべてのデータにフィットした。この最終的なタンパク質ベースのモデルには、選択した順番で、次のタンパク質バイオマーカー、IL−16、エオタキシン、fasリガンド、CTACK、MCP−3、HGF、およびsFas、が含まれていた。
【0203】
(実施例8)
タンパク質モデルと他の標準的な予測モデルとの比較
心血管イベント(すなわち、MlまたはUA)の予測リスクの開示モデルのトランスポータビリティは、45−84歳の米国の集団から選択された第2の多民族コホートで評価した(アテローム性動脈硬化症コホートの多民族的研究)[Bild DE,Bluemke DA,Burke GL,Detrano R,Diez Roux AV,Folsom AR,Greenland P,Jacob DR,Jr.,Kronmal R,Liu K,Nelson JC,O’Leary D,Saad MF,Shea S,Szklo M,Tracy RP.アテローム性動脈硬化症の多民族的研究:目的とデザインAm J Epidemiol.2002;156(9):871−881]。
【0204】
開発に使用されたサンプルと、似て非なるサンプルでモデルの期待される性能を確立するために、事前検証メソッドが、第2の集団へモデルを適用する前に、再び使用された。2つのパフォーマンス・メトリック、純再分類指数(the Net Reclassification Index 、NRI)と臨床再分類指数(the Clinical Net Reclassification Index、CNRI)、が使用された。純再分類指数の定義は次式で与えられる。
【数16】
【0205】
式は、パーセントの観点から、症例(cases)とコントロールに対する改善を別々に評価し、単一の数値に結果を組み合わせる。症例に対する正パーセンタイル値とコントロールに対する負の正パーセンタイル値は、開示されたモデルで導入された性能の向上を表している。リスクカテゴリーは、既存の開示モデルによって予測されるリスクスコアのための、適切なしきい値を確立することによって定義されている。CNRIは同じ方法で定義されるが、改良された、グループ内の真のリスクの同定方法から得ることのできる集団のサブセットに適用される。心血管疾患については、例えばフラミンガム(Franimgham)スコアによって定義された中程度リスク集団で、NRIメトリックのアプリケーションは、この基準を満たす。計算値は、中程度リスクカテゴリのCNRIパフォーマンスを表している。
【0206】
伝統的に、10年リスクに対するラミンガム・スコアで計算された中程度リスクカテゴリーは、10%から20%の間のリスク・スコアを持つ個人として定義されている。ここで示した結果は、中程度リスクカテゴリーを定義するために、以下のカットオフ値:<3.5%、> 7.5%、を基礎としている。a)開示モデルは5年という期間に焦点を当て、およびb)フラミンガム・スコアが開発された場合、現在の集団でのイベント率は、観察値よりも低いので、これらのより低いカットオフ値の使用が正当化される。
【0207】
再分類比較は、与えられた対象に対して、各モデルからの絶対リスクの計算を必要とした。Cox比例ハザード(Cox PH)モデルを使用した各個人の絶対リスクの計算は、その特性とベースラインハザード推定とに基づいて、この個々人のための相対リスクの計算を必要とした。Cox PHモデルは相対的リスクを予測するために設計されているが、ハザード関数の特定を必要としない。Cox PHモデルから絶対リスク推定値を生成するために、我々は個々人の、または、「平均的」個人の絶対リスクを必要とし、この個人の、または平均人の、相対的なリスク推定を使用して、個々人の絶対リスクを計算した。平均人は、それぞれの予測因子に対する集団平均値を有する、仮想上の個人である。集団の真のベースライン・ハザードとそれに対応する「平均的な」人が知られていなければ、(心血管イベントのリスクを計算するための正しいモデルが未知であるため)、推定が提供される必要があった。R言語[R:統計コンピューティングのための言語と環境、R開発コアチーム、統計コンピューティングのためのR財団、ウィーン、オーストリア、2010]サーブフィット(survfit)関数が、平均的な個人のベースラインハザードを計算するために使用された。サーブフィット(survfit)関数は、計算に重みを使用している。つまり、集団の各メンバーは、平均と比較して推定されたリスクスコアに応じて重みを受容し、加重ハザード推定値は、ベースラインハザードのために使用される。ベースラインハザードの推定は、使用されたモデルに依存し、予測された相対的リスクにも依存する。開示モデル対FRS及びTRFベースのモデルの、再分類性能の公正な比較を行うために、適切なベースラインハザード推定が、不当にいずれかのモデルを支持していないことが必要とされた。比較対象の2つのモデルの平均スコアであるリスク・スコアを使用してベースラインハザードを計算するための好ましいアプローチは、以下に説明する。さらに、サーブフィット(survfit)関数は、カプラン・マイヤー(Kaplan−Meier)とアーレンの、2つの異なる推定法を実行した。両方の推定法は、テストの結果、観測された差異はごくわずかなものであった。集団に我々の結論を拡張するために、ベースライン生存関数は、研究のケース・コホートの重みを使用して、共変量の集団平均で評価された。
【0208】
絶対的なリスク・スコアに関して、二つのモデルを比較するためのベースラインハザードの推定の選択は難しい問題であり、文献では取り上げていない。集団の真のベースラインハザードが未知であるため、各モデルによって異なる推定を使用すると、比較の結果に重大な影響が生じ得る。ベースラインハザード推定の影響を調べるために、2つの異なる方法を用いて、すべての計算が行われた。 1)線形予測スコアを使用した個々のベースライン生存者の推定値に基づいて、各モデルの絶対リスクスコアが、各モデルによって計算され、 2)2つのスコアから平均線形予測を計算することによって得られる共通のベースライン生存者の推定値に基づいた、絶対リスクスコアは、集団平均で中央を占める。
【0209】
表22、表23、および表24は、以下の3つの代替モデルに対して、バイオマーカーを含む事前検証モデルのパフォーマンスが期待された、NRIとCNRIを提示している。 1)フラミンガム・リスクスコア(Framingham risk score、「FRS」)、 2)共変量として4つのTRFs(「4−TRF」:年齢、性別、糖尿病、M1の家族歴)を使用してマーシュフィールド・データ(Marshfield data)に適合されたモデル、 3)共変量として9のTRFs(「9−TRF」:年齢、性別、糖尿病、Mlの家族歴、喫煙、総コレステロール、HDL、高血圧治療薬服用、収縮期血圧)を使用してマーシュフィールド・データに適合された代替モデル。
【0210】
全体的に、タンパク質バイオマーカーを含有するモデルは、心血管イベントに対する5年リスクの3.5−7.5%および3.5−10%の範囲で、FRSまたはTRFベースモデルの、より優れた再分類を提供した。表22は、事前検証(マーシュフィールドのデータセット)に基づいて校正されたFRSスコアに対する、本開示のモデルのスコアの期待される再分類パフォーマンスを示している。表23および24は、それぞれ、事前検証(マーシュフィールドのデータセット)に基づいた4−TRFと9−TRFモデルのスコアに対する、期待される再分類スコアを示している。
【0211】
NRIとCNRIの両面で、総合的な再分類は、ベースライン生存関数を計算するための2つの方法のいずれの使用においても、同程度であった。しかし、2つの方法の総NRIまたは総CNRIを構成する、症例(cases)およびコントロールの再分類のバランスに、違いがあった。共通のベースライン生存関数法は、よりバランスのとれた再分類を提供してくれた。この結果は、モデルの相対的リスク予測のために得られた結果と一致した。図13A−Bは、FRS、本開示モデル(事前検証のアプローチの複数のリピートから得られる)、4−TRF、および9−TRFモデルのリニアスコア(linear scores)のカーネル密度推定の観点から、この比較を示している。本開示モデルのスコアは、他のモデルよりもより高く症例(case)の相対リスクを提供した。コントロールの分布はまた、本開示モデルのスコアのためにより広く、他のスコアに比してコントロールのリスクの上下のバランスを示した。これらの結果は、本開示モデルスコアが、他のスコアに関連する症例を正しく分類したという強力な特徴を提供した。
【0212】
(平均スコアを使用した)共通のベースライン生存関数法は、また、予測精度を向上させるための投票方式(voting scheme)(すなわち、加重平均)を使用する多くの統計的アプローチと一致した。
【表22】
事前検証(マーシュフィールドのデータセット)に基づいて校正されたフラミンガム・スコア(Framingham score)に対するアヴィール・スコア(Aviir score)の予測される再分類パフォーマンス
【表23】
事前検証(マーシュフィールドのデータセット)に基づいた4−TRFモデルスコアに対するアヴィール・スコア(Aviir score)の予測される再分類パフォーマンス
【表24】
事前検証(マーシュフィールドのデータセット)に基づいた9−TRFモデルスコアに対するアヴィール・スコア(Aviir score)の予測される再分類パフォーマンス
【0213】
(実施例9)
第2集団への開示モデルのトランスポータビリティ(transportability)
複数の集団間の予後モデルのトランスポータビリティの問題は、予測モデルの有用性のための究極のテストを提供する。モデルの統計的および臨床的妥当性は、モデルのトランスポータビリティの、等しく重要な側面である。1)内部検証、2)時間的検証、3)外部検証の、3段階の検証アプローチが、新しいテストのために提案されている。モデリング手法を検証するために、事前検証のアプローチ(交差検定フォーム)を使用した第1ステップの完了は、上述した。第2ステップは、同じ集団や臨床センターからの異なる患者セットでのアルゴリズムテストをする必要がある。マーシュフィールド・スタディと現在の時間との間の、最後のイベントが起きた時間が、単に短い期間(2年程度)であるなら、後発イベントの数は、同じ集団内の検証のためには小さすぎであった。したがって、外部検証ステップは、本開示のタンパク質モデルのトランスポータビリティのデモンストレーションとして設定された、MESAサンプルに、本開示のタンパク質モデルをテストすることによって実施された。
【0214】
MESAコホートにおける本開示モデルのパフォーマンスを評価するために、824のサンプル(222人の症例および602人のコントロール)が、実施例7に記載の蛋白質バイオマーカー(IL−16、エオタキシン(eotaxin)、fasリガンド、CTACK、MCP−3、HGF、およびsFas)のパネルを使用してアッセイされた。
【0215】
マーシュフィールド訓練済みモデル(Marshfield−trained model)は、MESAの結果からの知見やインプットなしに、マーシュフィールド集団で実行されたマーカー選択とモデルフィッティングによって、MESAサンプルの各対象のスコアを予測するために使用された。
【0216】
すべてのモデルの絶対リスクスコアの計算は、上記のアプローチに基づくものであった。危険因子とバイオマーカーに対する幾らかの欠損値のため、コホートの重みは各比較のそれぞれの状態(status)と性別の組み合わせに変更された。女性と男性の症例またはコントロールの再分類は、同じ重みを運ばないので、再分類の計算でも、同じ修正済みの重みを占めた。これは、欠損値はランダムな欠落によると仮定して、全集団に対して結果を適切に拡張する試みで行われた。
【0217】
表25、表26は、レイノルズスコア(Reynolds score)に対する比較と同様に、以前に提示したNRIとCNRIの観点から、本開示のモデルと、3つの他のモデルとの比較を示している[Ridker PM, Buring JE, Rifai N, et al. Development and validation of improved algorithms for the assessment of global cardiovascular risk in women: the Reynolds Risk Score JAMA 2007;297:611−619]。比較はマーシュフィールド・セットからの予測パフォーマンスと一致していた。本開示モデルは、ここに提示の他のいかなるトランスポートモデルの上にも、より良い臨床ネット再分類(clinical net reclassification)を提供した。ベースライン生存関数を推定するためのスコアの平均を用いる方法は、個々の推定値を用いる方法に比べて、症例とコントロール間の再分類によりよいバランスを提供した。これは、MESAサンプル(図14Aおよび14B)上でこれらのモデルの相対的リスク予測に、再度一致した。これらの結果は、明らかに、MESAセット内の、低中間(low intermediate)/中間のリスク集団の本開示モデルの臨床的有用性とトランスポータビリティをサポートしている。非糖尿病集団でのモデルの予測能力は、NRIとCNRIの観点から、表27に示されている。以降では、リスクの中間範囲は、参照モデルに基づいて、3.5から7.5%の間隔に設定されている。ベースラインで糖尿病と診断されたすべての被験者は、比較から除外されている。結果は、再び、非糖尿病患者のための中間リスクカテゴリーのモデルの臨床的有用性を示している。
【表25】
FRS、4−TRF、9−TRFモデルおよびレイノルズスコアモデル(Reynolds score models)に対してアヴィール・スコア(Aviir score)を比較した、MESAデータセットに対するNRIとCNRIの結果。CNRIは、参照モデルの3.5−10%リスクのベースラインの範囲に基づいている。バイオマーカーデータが不足している被験者は、比較から除外されている。
【表26】
FRS、4−TRF、9−TRFモデルおよびレイノルズスコアモデル(Reynolds score models)に対してアヴィール・スコア(Aviir score)を比較した、MESAデータセットに対するNRIとCNRIの結果。CNRIは、参照モデルの3.5−7.5%リスクのベースラインの範囲に基づいている。バイオマーカーデータが不足している被験者は、比較から除外されている。
【表27】
FRS、4−TRF、および9−TRFモデルに対してアヴィール・スコアを比較した、MESAデータセットに対するNRIとCNRIの結果。CNRIは、参照モデルの3.5−7.5%リスクのベースラインの範囲に基づいている。バイオマーカーデータが不足している被験者は、比較から除外されている。
【0218】
(実施例10)
ハイブリッド・バイオマーカー予後/診断モデル
タンパク質バイオマーカー/TRFに加えて、miRNAは、血液などの人間の体液で測定でき、ある被験者の将来の心血管イベントを予測するために使用することができる。
【0219】
表28で提示されているmiRNAセットから選択された共変量を有するハイブリッド予後モデルと、症例・コホート研究デザインを使用して単一スコアとして開示されたタンパク質・バイオマーカーモデル(実施例7−9を参照)とを、構築することによって、ハイブリッドのmiRNA/タンパク質バイオマーカーセットの予後パワーが決定される。コホート(cohort)は、対象とする時間フレーム内にMlに進展した全ての症例(N=200)と200のコントロールを含んでいる。より小さなコホートを効率的に利用するために、TRFsとタンパク質予測因子は、単一の計算されたスコア(単一変数)の観点から処理される、miRNAバイオマーカーの単変量関連づけ(univariate association)が、タンパク質バイオマーカーまたはTRFsについて観察されたそれよりも強力でない限り。後者のケースでは、多変量モデルが、使用可能なすべてのマーカー(TRFs、タンパク質バイオマーカー、miRNAs)から変数を選択する、ペナルティー付き回帰法の使用に基づいて構築される。前者の場合には、スコアの計算は、前述のように、より大きなコホートで事前に推定された係数を使用して行われる。交差検定(Cross−validation)とペナルティ付き回帰テクニックは、3タイプのモデルのモデルサイズとmiRNAマーカーを選択するために使用されている。 a)miRNAのみ(miRNA−only)のモデル、 b) TRF+miRNAベースモデル、および、 c)TRF+タンパク質+miRNAバイオマーカーベースモデル。適合されたモデルの期待されるパフォーマンスは、前述したTRF+タンパク質ベースモデル(実施例8−9を参照)と同様に、ハイブリッドモデルの時間依存性AUC、NRI、およびCNRI特性、対、FRSに基づいて、評価される。
【表28】
【0220】
特に断りのない限り、明細書および特許請求の範囲で使用されている、分子量、反応条件の様に、成分、特性などの量を表現するすべての数字は、全ての例で、用語「約」で変更されるものとして理解されるべきである。したがって、これに反する指示がない限り、明細書及び添付の特許請求の範囲に記載の数値パラメータは、本開示によって得られるように求められた所望の特性に依存して変化しうる近似である。少なくとも、特許請求の範囲に均等論の適用を制限する試みとしてではなく、各数値パラメータは少なくとも、報告された有効桁数の光の中で、普通の丸め技術を適用することによって解釈されるべきである。開示の広い範囲を記載した数値範囲および数値パラメータは近似値であるにもかかわらず、特定の実施例に記載の数値は可能な限り正確に報告されている。しかし、任意の数値は、本質的には、それぞれの試験測定に見られる標準偏差に必然的に起因する特定のエラーが含まれている。
【0221】
用語「a」、「an」、「the」、および本発明を説明する文脈(特に以下の特許請求の範囲の文脈)で使用される同様の指示は、特に文脈と明らかに矛盾したりまたはここに示さない限り、単数および複数の両方をカバーするために解釈されるべきである。本明細書での数値範囲の列挙は、単に、各個別の値がその範囲内にあることを個別に参照する簡単な方法として機能することを意図しているに過ぎない。そうでなければここに示されない限り、各個々の値は、それが本明細書に個々に記載されたかのように、本明細書に組み込まれている。そうでなければ本明細書に示された、あるいは明らかに文脈と矛盾しない限り、本明細書に記載のすべてのメソッドは、任意の適切な順序で実行することができる。本明細書で提供される任意のおよび全ての例、または典型的な言語(例えば、「など」)の使用は、本発明をより明らかにするためだけに意図され、それ以外の場合は、請求項に係る発明の範囲に制限をもたらすことはない。本明細書の言語は、本発明の実施に不可欠な任意のクレームされていない要素(non−claimed element)を示すものとして解釈されるべきではない。
【0222】
本発明の別の要素または実施形態のグループ分けは、それに制限されて解釈されるべきではない。各グループのメンバーは、参照され、個々にクレイムされ、グループの他のメンバーと組み合わされ、または、本明細書にある他の要素と組み合わされてクレムされることができる。利便性、および/または特許性の理由で、グループの1つまたは複数のメンバーが含まれるか、グループから削除されることは予想される。そのような包含または削除が発生した場合、明細書は、添付の特許請求の範囲で使用されているすべてのマーカッシュ群の記述要件を満たすよう修正されたグループが含まれているとみなされる。
【0223】
本発明の特定の実施形態は、本発明を実施するよう発明者に知られているベストモードを含んで、本明細書に記載されている。もちろん、これらの記載した実施形態のバリエーションは、上記の説明を読めば当業者に明らかになるであろう。本発明者は、当業者がそのようなバリエーションを適切に採用することを期待し、そして、さもなければ、本明細書に具体的に記載したこと以上に実施されると考えている。したがって、本発明は、適用される法律によって許可されているように、ここに添付した特許請求の範囲に記載されている主題のすべての改変および均等物を含んでいる。さらに、そうでなければここに示された、あるいは明らかに文脈と矛盾しない限り、すべての可能なバリエーションで、上記の要素の任意の組み合わせは、本発明に包含される。
【0224】
本明細書に開示される特定の実施形態は、言語からなる構成を使用する特許請求の範囲、または、本質的に言語からなる特許請求の範囲において、さらに制限を受けている。当初のクレーム又は補正の際に追加されるクレームで使用する場合、「〜から成る(consisting of)」との遷移用語は、特許請求の範囲に指定されていない任意の要素、ステップ、または成分を除外する。「本質的に、〜から成る(consisting essentially of)」との遷移用語は、指定された材料、ステップ、および基本的かつ新規な特徴に実質的に影響を与えないものに、特許請求の範囲が制限される。その様にクレームされた本発明の実施の形態は、本明細書に、本質的または明示的に記述され、使用可能である。
【0225】
さらに、本明細書を通して、多数の特許や刊行物が参照されている。上記の引用文献および刊行物の各々は、個別に、その全体が参照により本明細書に援用されている。
【0226】
最後に、本明細書に開示の本発明の実施形態は、本発明の原理を例示するものであることは理解されるべきである。採用可能な他の修正は、本発明の範囲内である。この様に、例示の方法で、しかしそれに限定されることなく、本発明の他の構成は、本明細書の教示に従って利用することができる。したがって、本発明は、正確に示され記載されたものに、限定されない。
【0227】
本明細書に開示される特定の実施形態は、言語からなる構成を使用する特許請求の範囲、または、本質的に言語からなる特許請求の範囲において、さらに制限を受けている。当初のクレーム又は補正の際に追加されるクレームで使用する場合、「〜から成る(consisting of)」との遷移用語は、特許請求の範囲に指定されていない任意の要素、ステップ、または成分を除外する。「本質的に、〜から成る(consisting essentially of)」との遷移用語は、指定された材料、ステップ、および基本的かつ新規な特徴に実質的に影響を与えないものに、特許請求の範囲が制限される。その様にクレームされた本発明の実施の形態は、本明細書に、本質的または明示的に記述され、使用可能である。
【技術分野】
【0001】
(関連出願のためのクロスリファレンス)
この出願では、2009年12月9日に出願された、米国仮特許出願第61/285,121号を基礎に優先権を主張しており、その全体が参照により本明細書に組み込まれている。
【背景技術】
【0002】
アテローム性動脈硬化症(ASCVD)は、世界的に、罹患率と死亡率の主な原因である。心筋梗塞(MIs)の約60%は、危険因子が0または1の人に発生する。すなわち、心臓イベントが発生した人々の大多数は、現在の方法で評価した場合、低めの中間または中間のリスクのカテゴリにある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
遺伝的要因と環境的要因の組み合わせは、疾患の開始および進行に責任がある。アテローム性動脈硬化症はしばしば無症候性であり、現在の診断法によって検出されない。実際、多くの場合、アテローム性動脈硬化症の最初の症状は、心臓発作や心臓突然死である。
【0004】
循環器疾患やその進展を、正確に予測し、診断することができるアッセイや方法は、非常に望ましい。
【課題を解決するための手段】
【0005】
この開示は、人間の心臓血管系の健康を評価するための方法、アッセイおよびキットを提供する。一実施形態では、以下の工程を含む、人間の心臓血管系の健康を評価するための方法が提供されている。 a)人間から生物学的サンプルを得ること; b)前記生物学的サンプルで、表20に記載されているmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定すること; c)各miRNAマーカーのレベルを有するデータセットを得ること; d)前記生物学的サンプルを分類するためにデータを使用する分析・分類プロセスに、前記データを入力すること; ここで該分類は、アテローム性動脈硬化症、健康、薬剤曝露、薬剤非曝露からなる分類群から選択されるものであり、そして、e)ステップ(d)の分類に基づいて、人間のための治療法を決定することであって、ここでヒトの心臓血管系の健康を評価すること。
【0006】
ヒトの心臓血管系の健康を評価するための方法であって、 a)ヒトから生物学的サンプルを得ること; b)前記生物学的サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFから成る群から選択される少なくとも3つのタンパク質バイオマーカーのレベルを決定すること; c)各タンパク質マーカーのレベルを有するデータセットを得ること; d)前記生物学的サンプルを分類するために前記データを使用する分析・分類プロセスに、前記データを入力すること;ここで該分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、薬剤非曝露分類からなる分類群から選択されること、および、e)ステップ(d)の分類に基づいて、ヒトのための治療計画を決定することであって、ヒトの心臓血管系の健康を評価すること、を特徴とする、方法。
【0007】
治療計画の必要性や有効性を判断するためにヒトの心臓血管系の健康を評価するための方法であって、以下を含む。ヒトから生物学的サンプルを得ること、前記生物学的サンプル中の、表20に記載されているmiRNAの中から選ばれる少なくとも2つのmiRNAのマーカーのレベルを決定することと、前記生物学的サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFから成る群から選択される少なくとも3つのタンパク質バイオマーカーのレベルを決定すること、各miRNAマーカーとタンパク質バイオマーカーのレベルを有するデータセットを取得すること、前記生物学的サンプルを分類するために前記データを使用して、分析・分類プロセスに前記データを入力することであって、ここで該分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、薬剤非曝露分類からなる分類群から選択されること、および、前記分類プロセスの出力に応じて前記生物学的サンプルを分類し、前記分類に基づいてヒトのための治療計画を決定すること。
【0008】
さらに別の実施形態では、治療計画の必要性や有効性を決定するためにヒトの心臓血管系の健康を評価するためのキットが提供されている。キットは以下を含む:生物学的サンプル中の表20に記載されているmiRNAの中から選ばれる少なくとも2つのmiRNAマーカーのレベルを決定するためのアッセイと、及び/又は、生物学的サンプル中の、IL−16、SFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF及びEGFからなる群から選択される少なくとも3つのタンパク質マーカーのレベルを決定するためのアッセイと、以下のための使用説明書とを含み、使用説明書は、(1)各miRNA及び/又はタンパク質マーカーのレベルを有するデータセットを取得すること、(2)生物学的サンプルを分類するためのデータを使用して、分析・分類プロセスにデータを入力することであって、前記分類は、アテローム性動脈硬化症心血管疾患分類、健康分類、薬剤曝露分類、薬剤非曝露分類から成る群から選択されること、(3)前記分類に基づいてヒトのための治療計画を決定すること、のためのものである。
【0009】
さらに別の実施形態は、ヒトの心血管イベントのリスクを評価するための方法であって、a)ヒトから生物学的サンプルを得ること、b)前記サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGFおよびEGFからなる群から選ばれる3以上のタンパク質バイオマーカーのレベル、及び/又は、表20の中の2つ以上のmiRNAのレベルを決定すること、c)各タンパク質バイオマーカー及び/又はmiRNAバイオマーカーのレベルを有するデータセットを得ること、d)前記データセットに基づいて心血管イベントのリスクを決定するために、リスク予測分析プロセスにデータを入力すること、e)ステップ(d)の心血管イベントの予測リスクに基づいてヒトのための治療計画を決定することであって、ここでは、ヒトの心血管イベントのリスクが評価される、方法、である。
【図面の簡単な説明】
【0010】
【図1】ロジスティック回帰分析アプローチに基づいた52検体セット(26症例(cases)と26のコントロール)の予想される分類性能を示すグラフである。予想されるAUCとそれに対応する95%信頼区間は、52の個々人またはプールされたサンプルのいずれかのセット分類の500のシミュレーションから得られた。破線のエラーバー上の白丸は、対数正規分布に従うと仮定されたバイオマーカー濃度やスコア値と共に、期待値と、プールされたサンプル(各プール内の5サンプル)を用いた信頼区間を表している。実線のエラーバー上の白丸は、期待値と同じ分布から個々の試料を用いて信頼区間を表している。実線の黒い点は、理論的な結果を表している。x軸は、症例とコントロールのバイオマーカーやスコア分布の平均の差を表している。
【0011】
【図2】ロジスティック回帰分析アプローチに基づいた52検体セット(26症例と26コントロール)の予想される分類性能を示すグラフである。予想されるAUCとそれに対応する95%信頼区間は、52の個々人またはプールされたサンプルのいずれかのセット分類の500のシミュレーションから得られた。破線のエラーバー上の白丸は、「正規分布」に従うと仮定されたバイオマーカー濃度やスコア値と共に、期待値と、プールされたサンプル(各プール内の5サンプル)を用いた信頼区間を表している。実線のエラーバー上の白丸は、期待値と同じ分布から個々の試料を用いて信頼区間を表している。実線の黒い点は、理論的な結果を表している。x軸は、症例とコントロールのバイオマーカーやスコア分布の平均の差を表している。
【0012】
【図3】44のmiRのセットから共変量を選択するモデルに基づいてプールされたサンプルの分類のためのAUC値の分布のグラフである。AUC値の計算は、ペナルティ付きロジスティック回帰モデル(L1ペナルティ付き)のデータへの適合を介して、100の事前検証済み(prevalidated)分類スコアベクトルを得ることに基づいている。X軸はAUCを表し、Y軸は頻度を表している。示されているように、平均AUCは0.68である。
【0013】
【図4】44のmiRのセットから共変量を選択するモデルに基づいた、個々のサンプル分類のためのAUC値分布のグラフである。AUC値の計算は、ペナルティ付きロジスティック回帰モデル(L1ペナルティ付き)のデータへの適合を介して、100の事前検証済み(prevalidated)分類スコアベクトルを得ることに基づいている。示されているように、平均AUCは0.78である。
【0014】
【図5】44のmiRのセットと47のタンパク質バイオマーカーから共変量を選択するモデルに基づいた、個々のサンプル分類のためのAUC値分布のグラフである。AUC値の計算は、ペナルティ付きロジスティック回帰モデル(L1ペナルティ付き)のデータへの適合を介して、100の事前検証済み(prevalidated)分類スコアベクトルを得ることに基づいている。示されているように、平均AUCは0.75である。
【0015】
【図6】垂直線で示された、最も高い負の相関と、最も高い正の相関を含めた、miRとタンパク質との相関分布を示すグラフである。
【0016】
【図7】miRs単独での相関の分布を示すグラフである。
【0017】
【図8】単独の、タンパク質バイオマーカーのデータに基づいて算出され、事前検証済みのスコア(500リピート)に基づいたAUCの分布を示すグラフである。
【0018】
【図9】コントロールの平均値と標準偏差に正規化されたタンパク質バイオマーカーの単変量ハザード比を示すグラフである。
【0019】
【図10】タンパク質バイオマーカーの調整ハザード比(adjusted hazard ratio、HR)を示すグラフである。調整は、従来の危険因子(TRFs)である、年齢、性別、収縮期血圧(BP)、拡張期血圧、コレステロール、高比重リポ蛋白(HDL)、高血圧症、高血圧薬の使用、高脂血症、糖尿病、喫煙状態、に基づいて行った。
【0020】
【図11A】最も高い時間依存性AUCを有するマーカー群と、5年までのフォローアップ対応値を示すグラフである。sFAS、NT.proBNP、MIG、IL.16、MIG、及びANG2に対するAUCが示されている。
【図11B】最も高い時間依存性AUCを有するマーカー群と、5年までのフォローアップ対応値を示すグラフである。Fasリガンド、SCD40L、アディポネクチン、MCP.3、レプチン及びRANTESに対するAUCが示されている。
【0021】
【図12】Cox比例ハザード回帰モデルの用語の数の関数として、絶対値とドロップ・イン・逸脱(drop−in−deviance)の標準誤差を示すグラフである。モデルに含まれるマーカーの最適な数は、「1−標準誤差ルール」を使用して、選択されている。
【0022】
【図13A】コントロールの、Marshfieldサンプルセットでの4CoxPHモデルから得られた線形予測のカーネル密度推定を示すグラフである。
【図13B】症例の、Marshfieldサンプルセットでの4CoxPHモデルから得られた線形予測のカーネル密度推定を示すグラフである。
【0023】
【図14A】コントロールの、MESAサンプルセットでの4CoxPHモデルから得られた線形予測のカーネル密度推定を示すグラフである。
【図14B】症例の、MESAサンプルセットでの4CoxPHモデルから得られた線形予測のカーネル密度推定を示すグラフである。
【発明を実施するための形態】
【0024】
本開示は、ヒトの心臓血管系の健康を評価するための方法、アッセイおよびキットを提供し、特に、ヒトでのアテローム性動脈硬化症(ASCVD)を、予測、診断、および監視するために、提供する。開示される方法、アッセイおよびキットは、ヒトの心臓血管の健康を評価するための、循環するマイクロリボ核酸(miRNA)バイオマーカー及び/又は蛋白質バイオマーカーを、識別(同定)する。これら方法、アッセイおよびキットの特定の実施例では、循環するmiRNA及び/又はタンパク質バイオマーカーは、ヒトの心臓血管系の健康を評価するために識別される。
【0025】
一実施形態において、本開示は、治療計画のための必要性、またはその有効性を決定するためにヒトの心臓血管系の健康を評価するための方法を提供し、それは、以下の、ヒトから生物試料を得ること、前記生物試料で、表20に記載されている群から選択された少なくとも2つのmiRNAマーカーのレベルを決定すること、各miRNAマーカーのレベルを含むデータセットを得ること、前記生物試料を分類するためにデータを使用する分析・分類プロセスに、前記データを入力すること、ここで該分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、薬剤非曝露分類からなる分類群から選択されるものであって、分類プロセスの出力に応じて前記生物学的サンプルを分類すること、および、前記分類に基づいて、ヒトのための治療計画を決定すること、からなる。
【0026】
特定の実施形態では、治療計画の必要性、または有効性を判断するために、以下(の工程)、つまり、ヒトから生物学的サンプルを得ること(工程)、前記生物学的サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFから成る群から選択される少なくとも3つのタンパク質マーカーのレベルを決定すること、各タンパク質バイオマーカーのレベルを含むデータセットを得ること、前記生物学的サンプルを分類するために前記データを使用する分析・分類プロセスに、前記データを入力すること;ここで該分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、薬剤非曝露分類からなる分類群から選択されること、および、前記分類プロセスの出力に応じて前記生物学的サンプルを分類し、前記分類に基づいて人間のための治療計画を決定すること、を含む、ヒトの心臓血管系の健康を評価するための方法が、開示されている。
【0027】
別の実施形態においては、ヒトの心臓血管系の健康を評価するための方法が、提供されている。特定の実施形態においては、前記評価は、治療計画の必要性や有効性を決定するために使用することができる。当該方法は、ヒトから生物学的サンプルを得ること、前記生物学的サンプルで、表20に記載されているmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定すること、前記生物学的サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFから成る群から選択される少なくとも3つのタンパク質バイオマーカーのレベルを決定すること、miRNAマーカーとタンパク質バイオマーカーの個々のレベルで構成されるデータセットを取得すること、前記生物学的サンプルを分類するために前記データを使用して分析・分類プロセスに前記データを入力することであって、ここで該分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、薬剤非曝露分類からなる分類群から選択されること、および、前記分類プロセスの出力に応じて前記生物学的サンプルを分類し、前記分類に基づいてヒトのための治療計画を決定すること、である。
【0028】
さらに別の実施形態では、ヒトの心血管系イベントのリスクを評価するための方法を提供する。この方法は、以下を含む。つまり、ヒトから生物学的サンプルを得ること、当該サンプル中の、(1)IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFから成る群から選択される3つまたはそれ以上のタンパク質バイオマーカーのレベル、及び又は、(2)表20のmiRNAの中から選ばれる2つまたはそれ以上の miRNAのマーカーのレベル、を決定すること。当該方法では、各タンパク質バイオマーカー及び又は各miRNAバイオマーカーのレベルを含むデータセットが得られる。前記データセットに基づいて心血管イベントのリスクを予測するリスク予測分析プロセスへデータが入力され、この心血管イベントの予測リスクに基づいて、ヒトのための治療計画が決定される。心血管系イベントのリスクは、サンプルが得られ、及び又は、分析された日から、約1年、約2年、約3年、約4年、約5年、又はそれ以上の期間、予測することができる。当該予測された心血管系イベントは、後述するように、アテローム性動脈硬化疾患の進展、MI(心筋梗塞、myocardial infarction)等を予測できる。
【0029】
用語「マーカー」と「バイオマーカー」は、本開示を通して同義語として使われている。
【0030】
本開示の方法では、検出され、そのレベルが決定されたmiRNAマーカーの数は、1つ、又は、2、3、4、5、6、7、8、9、10やそれ以上であり得る。特定の実施形態では、検出されたmiRNAのマーカーの数は、3、または5以上である。検出され、そのレベルが決定されているタンパク質バイオマーカー数は、1か、またはそれより多く、例えば2、3、4、5、6、7、8、9、10以上である。特定の実施形態では、1、2、3、または5以上のmiRNAマーカーが検出されて、そのレベルが決定され、そして、1、2、3、または5以上のタンパク質バイオマーカーが検出され、そのレベルが決定されている。
【0031】
本開示の方法は、アテローム性動脈硬化症の診断とモニタリングのために有用である。アテローム性動脈硬化症は、また、アテローム性動脈硬化症、動脈硬化症、アテローム性血管疾患、動脈閉塞性疾患、または心臓血管疾患として知られており、血管壁へのプラーク蓄積や、血管の炎症によって特徴づけられる。血管の炎症は、アクティブなアテローム性動脈硬化症、不安定プラーク、または脆弱性プラークの特質である。プラークは、蓄積された、細胞内および細胞外脂質、平滑筋細胞、結合組織、炎症性細胞、およびグリコサミノグリカンから構成されている。特定のプラークはまた、カルシウムを含む。不安定な、アクティブな、または、脆弱なプラークは、炎症性細胞で濃縮される。
【0032】
例によって、本発明は、サンプルに関連付けられたデータセットであって、少なくともmiRNAのマーカー単独か、またはアテローム性動脈硬化症の予測因子として同定されているタンパク質バイオマーカーとの組み合わせによる定量的データを含むデータセットを取得すること、前記データセットを、アテローム性動脈硬化症の診断とモニタリングに有用な結果を生成するために前記データセットを使用する分析プロセスに前記データセットを入力することによって、アテローム性動脈硬化症の診断とモニタリングに有用な結果を生成するための方法を含む。この定量的データは、DNA、RNA、タンパク質の発現レベル、およびそれらの組み合わせを含めることができる。
【0033】
本開示の、方法、アッセイおよびキットはまた、心筋梗塞(MI)、急性冠症候群、脳卒中、心不全、および狭心症を含む心血管疾患の合併症の診断およびモニタリングのために有用である。一般的な合併症の例としては、通常、心筋のセグメントへの冠(冠状動脈)血流量の急激な減少に起因する虚血性心筋壊死に関連するMIである。急性MIの患者の大多数で、しばしばプラーク破裂に伴う急性血栓が、損傷部位を供給する動脈を閉塞する。プラークの破裂は、炎症性細胞が濃縮されたアテローム性動脈硬化プラークによって以前に部分的に遮られた動脈で一般的に発生する。一般的なアテローム性動脈硬化の合併症の他の例は、胸部の痛みや心臓への不十分な血流に起因する不快感の症状を伴う状態の、狭心症である。
【0034】
本開示は、与えられた個々人のために、採血から特定の期間内に、心血管イベント(例えば、MI)のリスク予測と同様に、アテローム性動脈硬化症の診断と分類に使用することができる炎症のバイオマーカーのプロファイルを識別する。本開示でアッセイされたmiRNAおよび蛋白質バイオマーカーは、別のアテローム性動脈硬化症の分類、例えば、診断、ステージング、予後、モニタリング、治療反応、擬似冠動脈カルシウムスコアの予測を区別することが可能である学習アルゴリズムを用いて同定されるものである。臨床的しるし(例えば、従来の危険因子)のような、アテローム性動脈硬化症の分類をするために有用なその他のデータはまた、アテローム性動脈硬化症分類のための有用な結果を生成するために使用されるデータセットの一部であり得る。
【0035】
様々なmiRNAマーカーおよび蛋白質バイオマーカーの定量的なデータを含むデータセットは、単独または併用で、本明細書に開示され、他のデータセットコンポーネント(例えば、DNA、RNA、臨床的しるしの程度)の定量的データは、分析プロセスに入力され、結果を生成するために使用することができる。分析プロセスは、定義されたパラメータ、言い換えれば、予測モデルでの、任意の学習アルゴリズムのタイプであり得る。予測モデルは、学習アルゴリズムを参照または対照データの適切な型に適用することによって、様々なアテローム性動脈硬化症の分類やリスク予測のために開発することができる。分析プロセス/予測モデルの結果は、適切な個人が、適切な処置を取るために使用することができる。例えば、分類が、「健康」や 「アテローム性動脈硬化症」である場合、その結果は、個々の治療の適切な臨床経路を決定するために使用することができる。
【0036】
マイクロRNA(本明細書では、また、miRNA、pRNA、miRと称す)は、約17〜27ヌクレオチドの長さの一本鎖RNA分子の形態で、遺伝子発現を調節する。miRNAは、遺伝子によってコードされ、そのDNAから転写される。しかし、miRNAは、タンパク質に翻訳されず(すなわち、miRNAはノンコーディングRNAである)、代わりに、各一次転写産物(pri−miRNA)は、プレmiRNAと呼ばれる短いステムループ構造になり、最終的には機能的なmiRNAへとプロセスされる。
【0037】
ヒトの(心血管系の)炎症に関連し、心血管系の健康を評価するために有用なmiRNAマーカーは、以下に限定されはしないが、1つ以上の、miR−26a、miR−16、miR−222、miR−10b、miR−93、miR−192、miR−15a、miR−125−a.5p、miR−130a、miR−92a、miR−378、miR−20a、miR−20b、miR−107、miR−186、hsa.let.7f、miR−19a、miR−150、miR−106b、miR−30c、及び、let 7bを含む。特定の実施形態では、miRNAマーカーは、1つ以上のmiR−26a、miR−16、miR−222、miR−10b、miR−93、miR−192、miR−15a、miR−125−a.5p、miR−130a、miR−92a、miR−378、及び、let 7bを含む。特に、表20に記載されているmiRNAは、ヒトの心血管系の健康を評価するのに有用である。
【0038】
ヒトの(心血管系の)炎症に関連し、心血管系の健康を評価するために有用なタンパク質バイオマーカーは、以下に限定されないが、1つ以上のRANTES、TIMP1、MCP−1、MCP−2、MCP−3、MCP−4、エオタキシン(eotaxin)、IP−10、M−CSF、IL−3、TNFa、Ang−2、IL−5、IL−7、IGF−1、sVCAM、slCAM−1、E−selectin、P−selection、インターロイキン−6、インターロイキン−18、クレアチンキナーゼ、LDL、oxLDL、LDL粒子サイズ、リポプロテイン(a)トロポニンI、トロポニンT、LPPLA2、CRP、HDL、トリグリセリド、インスリン、BNP、フラクタルキン、オステオポンチン、オステオプロテゲリン、オンコスタチン−M、ミエロペルオキシダーゼ、ADMA、PAI−1(プラスミノゲンアクチベーター阻害剤)、SAA(循環アミロイドA)、t−PA(組織型プラスミノゲン活性化因子)、sCD40リガンド、フィブリノーゲン、ホモシステイン、D−ダイマー、白血球数、心臓型脂肪酸結合タンパク質、MMP1、プラスミノゲン、葉酸、ビタミンB6、レプチン、可溶性トロンボモジュリン、PAPPA、MMP9、MMP2、VEGF、PIGF、HGF、vWF、及び、シスタチンC、を含む。特定の実施形態では、タンパク質バイオマーカーは、1つ以上の、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及び、EGFを含む。特定のバイオマーカーに加えて、本開示は、さらに、例示配列と、約90%、約95%、または約97%同一であるバイオマーカー変異体を含む。本明細書で使用される変異体は、多型、スプライシング(splice)変異体、遺伝子変異などが含まれている。
【0039】
タンパク質バイオマーカーは、種々の方法で検出することができる。たとえば、in vivoイメージングは、心臓組織におけるアテローム性動脈硬化症関連タンパク質の存在を検出するために利用することができる。このような方法は、例えば、その様なタンパク質に特異的な標識抗体またはリガンドを利用することができる。これらの実施形態において、ポリペプチドに対して特異的である検出可能に標識された部分、例えば、抗体、リガンド等は、(例えば、注射によって)個々人に投与され、そして、これらに標識された細胞は、限定はされないが、磁気共鳴イメージング、コンピュータ断層撮影スキャンなどを含む、標準的なイメージング技術を使用して、検出される。しかし、磁気共鳴イメージング、コンピュータ断層撮影スキャン、などが挙げられるが、これらに限定されない。検出には、イメージング試薬の1つか、またはカクテルを利用することができる。
【0040】
追加のマーカーは、以下に限定されないが、年齢、性別、LDL濃度、HDL濃度、トリグリセリド濃度、血圧、ボディマス指数(体格指数)、CRP濃度、冠動脈カルシウムスコア、ウエスト周囲径、タバコ喫煙状況、心血管疾患の既往歴、心血管疾患の家族歴、心拍数、空腹時インスリン濃度、空腹時グルコース濃度、糖尿病の状態、および高血圧の薬の使用を含む、1つ以上の臨床的しるしから選択することができる。アテローム性動脈硬化症の分類を行うために有用な追加の臨床的しるしは、線形判別分析、サポートベクターマシン分類(support vector machine classification)、帰納的な特徴除去(recursive feature elimination)、マイクロアレイ予測分析、ロジスティック回帰、CART、フレックスツリー(FlexTree)、LART、ランダムフォレスト、MART及び/又は、生存分析回帰など、当技術分野で知られているこれらの学習アルゴリズムを用いて、同定することができる。これらは、当業者に知られており、さらに本明細書に記載されている。
【0041】
本明細書に開示された分析分類は、予測モデルの使用を含むことができる。予測モデルは、さらに、分類のために、少なくとも約0.68またはそれ以上の品質要求基準(品質メトリック、a quality metric)を備えている。特定の実施形態では、分類のために、少なくとも約0.70またはそれ以上の品質要求基準を備えている。特定の実施形態では、品質要求基準(品質メトリック)は、曲線(AUC)、ハザード比(HR)、相対リスク(RR)、再分類、陽性適中率(PPV)、陰性適中率(NPV)、精度、感度と特異性、ネット再分類指数(Net reclassification Index)、臨床ネット分類インデックス(Clinical Net reclassification Index)下の領域から、選択される。これらおよびその他のメトリックは、本明細書中に記載されるように使用することができる。さらに、様々な用語が、品質要求基準(品質メトリック)を提供するように選択することができる。
【0042】
定量的データは、データセットの各コンポーネントに対して得られ、以前に定義されたパラメータでの分析プロセス(予測モデル)へ入力され、それから、結果を生成するために使用される。
【0043】
データは、サンプルに関連したデータを受け取る個人に帰着する任意の技術を介して、取得することができる。たとえば、個々人は、当業者に公知の方法によって、自分自身でデータセットを生成することにより、データセットを取得することができる。また、データセットは、他の個人または団体からのデータセット、または、1つ以上のデータ値を受け取ることにより、取得することができる。例えば、ある研究室専門家は、特定のデータ値を生成することができ、一方、医療専門家のような他の個人は、そのデータセットの全部又は一部を、分析プロセスに入力して、結果を出すことができる。
【0044】
本開示を通して、参照が「サンプル」になされるが、定量的データは、調達方法、調達時間、組織の由来など、特性の任意の数が変化する複数のサンプルから得ることができることを、当業者は理解すべきである。
【0045】
アテローム性動脈硬化症の分類に有用な結果を生成する方法で、本明細書で提示されたタンパク質マーカーの血液、血清、その他での発現パターンが、得られる。興味あるタンパク質マーカーに関連する定量的データは、そのようなマーカーに関連するDNAまたはRNAレベルの測定を含むアテローム性動脈硬化症の分類に有用な結果の生成を許可する如何なるデータでもあり得るが、一般的には、タンパク発現パターンである。タンパク質レベルは、個別に、または発現プロファイルの一部のような、ハイスループット法を介して定量的測定を生成するような、当業者に公知の任意の方法を介して測定することができる。たとえば、血液由来の患者サンプル、例えば血液、血漿、血清などが、興味のあるタンパク質マーカーの存在と量を決定するために、特定の結合剤や、特定の結合剤のパネルに適用され得る。
【0046】
血液サンプル、または、例えば、血漿、血清などの血液由来のサンプルは、(複数の)miRNAマーカーだけで、または関心ある(複数の)タンパク質マーカーとの組み合わせで、それらの発現レベルの存在についてアッセイされる。一般的には、血液サンプルが採血され、血漿または血清のような血液由来物が、テストされる。加えて、サンプルは、唾液、尿、精液、母乳や汗の様な他の体液由来のものでも可能である。さらに、サンプルは、動脈、静脈、毛細血管のような組織由来でも可能である。さらに、miRNAマーカー、タンパク質バイオマーカーの両方を測定する場合、それらは同じサンプルからでも、または異なるサンプルからでも派生させることができる。例えば、miRNAバイオマーカーは、血液由来のサンプルでアッセイし、タンパク質バイオマーカーは、組織サンプルでアッセイすることもできる。
【0047】
興味あるmiRNAマーカーとタンパク質マーカーに関連付けられる定量的データは、通常、発現プロファイルの形式をとる。発現プロファイルは、多数の評価されたマーカーに対応した、多くのmiRNAまたはタンパク質産物の、相対的または絶対的な発現値のセットを構成している。様々な実施形態において、少なくとも約2、3、4、5、6、7またはそれ以上のマーカーの発現パターンを含む発現プロファイルが作られる。発現プロファイルの個々の発現が異なる各構成メンバーの発現パターンは、例えば、診断、予後、治療のモニタリングのための予測値に関して、特定の特異性と感度を提供することができる。
【0048】
発現データを取得するための多数の方法が知られており、これらテクニックのうちの1つかまたは複数は、単独でまたは組み合わせで、本開示での発現パターンとそのプロファイルを決定するのに適している。
【0049】
例えば、DNAとRNA(mRNA、pri−miRNA、pre−miRNA、miRNA、前駆体ヘアピンRNA、マイクロRNPなど)の発現パターンは、ノーザン解析、PCR、RT−PCR、Taq Man分析、FRET検出、1つまたは複数の分子標識(ビーコン)のモニタリング、オリゴヌクレオチドアレイのハイブリダイゼーション、cDNAアレイのハイブリダイゼーション、ポリヌクレオチドアレイへのハイブリダイゼーション、液体マイクロアレイへのハイブリダイゼーション、マイクロ電気アレイへのハイブリダイゼーション、cDNAシークエンシング、クローン・ハイブリダイゼーション、cDNA断片フィンガープリント、遺伝子発現の連続解析(SAGE法)、サブトラクティブハイブリダイゼーション、ディファレンシャルディスプレイ及び/又はディファレンシャルスクリーニングによって、評価することができる。これらや他のテクニックは、当業者に周知の技術である。
【0050】
本開示は、好ましくは単離された形態の核酸分子を含む。本明細書中で使用されているように、核酸分子が、実質的に他のポリペプチドをコードする核酸分子のコンタミから分離されている場合に、核酸分子は、「単離」されるべきである。用語「核酸」は、コーディングまたは非コーディングのRNAまたはDNAとして定義される。相補的で、即ちハイブリダイズし、適切なストリンジェンシーな条件下で、分子に安定的に結合した状態を保つ核酸は、本開示の範囲内に含まれる。このような配列は、本明細書に開示されたRNAとのヌクレオチド配列の同一性が、少なくとも50%、60%、70%または75%、好ましくは少なくとも約80〜90%、より好ましくは少なくとも約92〜94%、さらにより好ましくは少なくとも約95%、98%、99%かそれ以上で、また、挿入、欠失、ゆらぎ塩基(wobble bases)、置換なども含む。さらに、本明細書に開示のタンパク質バイオマーカーの配列との同一性を、少なくとも約50%、60%、70%または75%、好ましくは少なくとも約80〜90%、より好ましくは少なくとも約92〜94%、そして、最も好ましくは少なくとも約95%、98%、99%以上共有する配列が考えられている。
【0051】
ゲノムDNA、cDNA、RNA(mRNA、pri−miRNA、pre−miRNA、miRNA、ヘアピン前駆体RNA、RNPなど)の分子が、天然物由来かまたは合成で、代替バックボーンに基づく核酸や別の塩基を含む核酸と同様に、具体的な開示の範囲内で意図されている。
【0052】
ヌクレオチドまたはアミノ酸配列レベルでの相同性または同一性は、配列類似性検索用に調整されている、blastp、blastn、blastx、tblastnおよびtblastxプログラムで採用されたアルゴリズムを用いたBLAST(Basic Local Alignment Search Tool)解析によって決定される。BLASTプログラムによって使用されるアプローチは、まず最初に、検索配列とデータベース配列との間で、ギャップの有無で類似セグメントを考慮し、その後、同定された一致の全ての統計学的意義を評価し、最後に、選択された有意なしきい値を満たす一致データのみサマライズすることである。ヒストグラム、説明、アライメント、期待(すなわち、データベース配列に対する一致をレポートするための統計学的に有意なしきい値)、カットオフ、マトリックスおよびフィルタ(低複雑さ)のための検索パラメータは、デフォルト設定である。blastp、blastx、tblastnおよびtblastxで使用されるデフォルトのスコアリングマトリックスは、85ヌクレオチドまたはアミノ酸長さ以上の検索配列に推奨される、BLOSUM62マトリックスである。
【0053】
blastnについては、スコアリングマトリックスは、N(即ち、ミスマッチ残基ペアに対するペナルティスコア)に対するM(即ち、マッチ残基ペアに対する報酬スコア)の比によって設定されるが、ここで、MとNのデフォルト値は、それぞれ、5と−4である。4つのblastnパラメータは、以下のように調整された。つまり、Q=10(ギャップ生成ペナルティ)、R=10(ギャップ伸長ペナルティ)、wink=1(クエリに沿ってすべてのwinkth位置で単語のヒットを生成する)、及びgapw−16(ギャップアライメントが生成される範囲内でウィンドウ幅を設定する)。同等のBlastpパラメータセッティングは、Q=9、R=2、wink=1およびgapw=32である。GCGパッケージのバージョン10.0で利用可能な、配列間のベストフィットな比較は、DNAパラメータのGAP=50(ギャップ生成ペナルティ)と、LEN=3(ギャップ伸長ペナルティ)を使用し、および、タンパク質比較での同等の設定は、GAP=8とLEN=2である。
【0054】
「ストリンジェントな条件」は以下のようであって、(1)低イオン強度および高温を採用する、例えば、50℃で0.015M NaCl/0.0015Mクエン酸ナトリウム/0.1%SDS℃での洗浄、(2)ハイブリダイゼーション中にホルムアミドなどの変性剤を採用、例えば、50%(体積/体積)のホルムアミドに、0.1%ウシ血清albumin/0.1%Ficoll/0.1%polyvinylpyrrolidone/pH6.5の50 mMリン酸ナトリウム緩衝液、750mM NaCl、75mMクエン酸ナトリウム、42℃で。別の例では、50%ホルムアミド中、5xSSC(0.75MのNaCl、0.075Mクエン酸ナトリウム)、50mMリン酸ナトリウム(pH6.8)、0.1%ピロリン酸ナトリウム、5xDenhardt液、超音波処理サケ精子DNA(50pg/ml)、0.1%SDS、10%硫酸デキストランで42℃でのハイブリダイゼーション後、42℃、0.2xSSC及び0.1%SDSで洗浄。当業者であれば、明確で検出可能なハイブリダイゼーションシグナルを得るために、適切なストリンジェンシー条件を、容易に決定し、変えることができる。
【0055】
本開示はさらに、開示の核酸分子のフラグメント(断片)を提供する。本明細書中で使用されるように、核酸分子のフラグメントとは、コーディングまたは非コーディング配列の小さな部分を指している。フラグメントのサイズは、使用目的によって決定される。例えば、フラグメントがタンパク質の活性部分をエンコードするように選択されている場合、フラグメントは、タンパク質の機能的領域をエンコードするのに十分な大きさである必要がある。例えば、予測抗原領域に対応するペプチドをコードするフラグメントを、調製することができる。フラグメントが、核酸プローブまたはPCRプライマーとして使用される場合、フラグメントの長さは、プライミング/プロービング時の偽陽性の数が比較的小さくなるように、選択される。
【0056】
タンパク質の発現パターンは、定量的な尺度を提供し、以下の1つかまたはそれ以上の方法のように、サンプルから抽出された多数のマーカーの評価に適している、当業者に公知の任意の方法によって評価することができる。つまり、タンパク質アレイ(例えば、抗体アレイ)または蛍光活性化セルソーティング(FACS)に結合する、ELISAサンドイッチアッセイ、フローサイトメトリー、質量分析検出、熱量測定アッセイ、など。
【0057】
一実施形態では、あるアプローチは、ELISA、抗体標識蛍光ビーズアレイ、抗体アレイ、またはFACSスクリーンで、1つまたは複数のタンパク質産物のエピトープを認識する、標識されたアフィニティー試薬(例えば、抗体、小分子など)の使用を含む。抗体の産生・評価方法は、当該分野で周知である。
【0058】
沢山の適切なハイスループットフォーマットが、開示されたバイオマーカーの発現パターンとプロファイルを評価するために存在している。一般的に、用語「ハイスループット」は、一日に、少なくとも約100アッセイ、または少なくとも約500アッセイ、または少なくとも約1000アッセイ、または少なくとも約5000アッセイ、または少なくとも約10,000アッセイ、またはそれ以上を実行するフォーマットを指している。アッセイを列挙するとき、サンプル数やアッセイされるマーカー数のどちらかを考慮することができる。
【0059】
ハイスループット発現解析を行うための多数の技術的プラットフォームが知られている。一般的に、このような方法は、対象サンプル、タンパク質マーカー、またはその両方のうちのいずれかの論理的アレイまたは物理的なアレイを含んでいる。一般的なアレイフォーマットは、液体相、固体相の両方のアレイを含む。例えば、核酸のハイブリダイゼーション、リガンドへの抗体または他の受容体の結合などのための、液相アレイを採用するアッセイは、マルチウェルまたはマイクロタイタープレートで行うことができる。96、384または1536ウェルのマイクロタイタープレートは、広く入手可能であり、例えば、3456や9600のより多くのウェルでさえ、使用することができる。一般的には、マイクロタイタープレートの選択は、例えば、サンプルの調製および分析のために使用される、ロボットによるハンドリングやローディングシステムのような、方法や装置によって決定される。典型的なシステムは、例えば、ルミネックス社(Austin、TX)のxMAP(登録商標)テクノロジー、メソスケールディスカバリー社(Gaithersburg、MD)のMULTI−ARRAY(登録商標)やMULTI−SPOT(登録商標)テクノロジーを伴うSECTOR(登録商標)イメージャ、Beckman−Coulter社(Fullerton、Calif.)のORCA(商標)システム、及び、Zymark株式会社(Hopkinton、MA)のZYMATE(商標)システム、miRCURY LNA(商標)microRNAアレイ(Exiqon社、Woburn、MA)、である。
【0060】
また、様々な固相アレイが、好ましくは、本開示の方法、アッセイおよびキットの属性内で、発現パターンを決定するために用いることができる。典型的なフォーマットは、膜またはフィルタアレイ(例えば、ニトロセルロース、ナイロンの)、ピンアレイ、およびビーズアレイ(例えば、液体の「スラリー」内で)を含む。一般的に、候補ライブラリーのメンバーに対応する発現産物と特異的に相互作用する(例えば、ハイブリダイズするか結合する)核酸またはタンパク質試薬に対応するプローブは、固体支持体に、例えば直接または間接的に架橋するなどして、固定化されている。本質的には、特定の発現アッセイを行うために必要な試薬および条件に耐えることができる任意の固体支持体を利用することができる。例えば、機能化ガラス、シリコン、二酸化ケイ素、変性シリコン、(ポリ)テトラフルオロエチレン、(ポリ)フッ化ビニリデン(vinylidenedifluoride)、ポリスチレン、ポリカーボネートのような様々なポリマーのいずれか、またはそれらの組み合わせは全て、固相アレイの基質として役立つことができる。
【0061】
一実施形態において、アレイは、例えば、上記指定された材料の一つで構成される「チップ」である。候補となるライブラリの個々のコンポーネントの発現産物と特異的に相互作用する、例えば、cDNA、合成オリゴヌクレオチドなどのような、例えばRNAまたはDNAの、ポリヌクレオチドプローブ、または、抗体や抗原結合フラグメントまたはそれらの誘導体のような、結合タンパク質が、論理的に順序付けられた方法、すなわち、アレイで、チップに固定されている。さらに、(サンプル標識のデザインに応じて)マーカーの塩基配列のセンスまたはアンチセンス配列のいずれかに特異的親和性を持つ分子は、マーカーに対して特異的親和性を失うことなく、アレイ表面に固定することができ、アレイ作成のため取得し製造することができる。それらは、例えば、マーカーの特定の核酸配列を認識するタンパク質、リボザイム、ペプチド核酸(PNA)、または特定の親和性を有する他の化学物質や分子である。
【0062】
マイクロアレイの発現は、様々なレーザーやCCDベースのスキャナでマイクロアレイをスキャンし、そして、例えば、IMAGENE(商標)(バイオディスカバリー社)、Feature Extractionソフトウェア(アジレント社)、SCANLYZE(商標)(スタンフォード大学、Stanford、CA.)、GENEPIX(商標)(アクソン・インスツルメンツ社)の様な、多数のソフトウェアパッケージで、特徴を抽出することによって、検出することができる。
【0063】
ハイスループットのタンパク質システムは、Ciphergen Biosystems社(Fremont、Calif.)のPROTEIN CHIP(商標)アレイや、S&S Bioscences社(Keene、N.H.、US)のFASTQUANT(商標)ヒトケモカインタンパク質マイクロアレイの様に市販のシステムを含む。
【0064】
臨床的しるし(clinical indicia)、代謝的測定(metabolic measures)、遺伝子解析など、他のデータセット構成要素に関する定量的データは、当業者に公知の方法によって決定することができる。
【0065】
したがって、miRNA、タンパク質マーカー、及び他のデータセット構成要素(すなわち、臨床的しるしなど)について得られた定量的データは、予測モデルに入力された学習アルゴリズムを使用して以前に決定されたパラメータを用いた分析プロセスに供される。分析プロセスのパラメータは、本明細書に開示されたもの、または本明細書に記載のガイドラインを使用して導き出されたものかもしれない。線形判別分析、回帰的特徴の排除、マイクロアレイの予測分析、ロジスティック回帰、CART、FlexTree、LART、ランダムフォレスト、MART、または他の機械学習アルゴリズムの様な学習アルゴリズムは、様々なアテローム性動脈硬化症分類に適している分析プロセスのためのパラメータを決定するために、適切な参照またはトレーニングデータに適用される。
【0066】
結果(分類、生存/タイム・トゥ・イベント(出来事までの期間)など)を生成するために使用される分析的プロセスは、サンプルを分類するための有用な結果、例えば、取得したデータセットと参照データセットとの比較、線形アルゴリズム、二次式アルゴリズム、決定ツリーアルゴリズム(a decision tree algorithm)、または投票アルゴリズムを用いて得られたデータセットの比較など、を提供することができるプロセスの任意のタイプかもしれない。
【0067】
アテローム性動脈硬化症の分類を行うための有用な結果を得るための様々な分析的プロセスが、本明細書に記載されているが、当業者であれば、容易に、分析プロセスに適切な任意のタイプは、この開示の範囲内であることを理解するであろう。
【0068】
分析プロセスへの入力前に、各データセット内のデータは、通常、2回、3回、または複数回反復して各マーカーの値を測定することにより、収集される。データは、操作することができ、例えば、生データは、標準曲線や、各患者の平均と標準偏差を計算するために使用される反復測定の平均を用いて、変換できる。それから、これらの値は、例えば、対数変換、Box−Cox変換などのモデルで使用される前に、変換することができる。このデータは、定義されたパラメータを使用して、分析プロセスへ入力することができる。
【0069】
分析プロセスでは、サンプルが、ある与えられたクラスに属する確率を決定するためのしきい値を、設定することができる。確率は、好ましくは少なくとも50%、または少なくとも60%または少なくとも70%または少なくとも80%、少なくとも90%、またはそれ以上である。
【0070】
他の実施形態では、分析プロセスは、得られたデータと参照データセット間の比較で、統計学的に有意な差をもたらすかどうかを決定する。もしそうであれば、データセットが取得されたサンプルは、参照データセットのクラスには属さないと分類される。逆に、このような比較で、参照データセットとは統計学的に有意な差がない場合、データセットが得られたサンプルは、参照データセットのクラスに属するものとして分類される。
【0071】
一般的には、分析プロセスは、以下で説明するものの様に、統計学的分析法によって生成されたモデルの形式である。そのような分析プロセスの例としては、線形アルゴリズム、二次式アルゴリズム、多項式アルゴリズム、決定ツリーアルゴリズム(a decision tree algorithm)、投票アルゴリズム(a voting algorithm)を含めることができる。線形アルゴリズムは次式を有することができる:
【数1】
(ここで、Rは、得られた有用な結果、C0はゼロになるかもしれない定数、Ciおよびxiは、それぞれ、定数と、適用可能なバイオマーカーや臨床的しるしの値、及び、Nはマーカーの合計数、である。)
【0072】
二次式アルゴリズムは、次式を有することができる:
【数2】
(ここで、Rは、得られた有用な結果、C0はゼロになるかもしれない定数、Ciおよびxiは、それぞれ、定数と、適用可能なバイオマーカーや臨床的しるしの値、及び、Nはマーカーの合計数、である。)
【0073】
多項式アルゴリズムは、線形または二次式アルゴリズムの、より一般化された式である次式を有することができる:
【数3】
(ここで、Rは、得られた有用な結果、C0はゼロになるかもしれない定数、Ciおよびxiは、それぞれ、定数と、適用可能なバイオマーカーや臨床的しるしの値、yは、xiが上昇するパワーであり、Nはマーカーの合計数、である。)
【0074】
適切な参照(基準)またはトレーニングデータセットは、任意の適切な学習アルゴリズムを使い、分類に用いる分析プロセスのパラメータを決定するため、すなわち、予測モデルを開発するために、使用することができる。使用する参照またはトレーニングデータセットは、決定すべき望ましいアテローム性動脈硬化症の分類に依存する。データセットは、2、3、4又はそれ以上のクラスからのデータを含めることができる。例えば、アテローム性動脈硬化症を診断するために用いる分析プロセスのパラメータを決定するために監督下にある学習アルゴリズムを使用するには、コントロールと患者の各サンプルを含むデータセットが、トレーニングセットとして使用される。あるいは、管理された学習アルゴリズムを、アテローム性動脈硬化症のステージ分類のための予測モデルを開発するために使用する場合は、トレーニングセットは、心血管疾患のさまざまなステージのそれぞれのデータを含めることができる。
【0075】
以下は、開示された方法、アッセイおよびキットの実施を支援するために、当業者に利用可能な統計学的解析方法のタイプの例である。統計分析は、2つのタスクのいずれかまたは両方に適用される可能性がある。まず、これらおよびその他の統計的方法は、好適なデータセットを形成する、マーカーや他のしるし(indica)の好ましいサブセットを識別するために使用されることがある。さらに、これらと他の統計的方法は、結果を生み出すデータセットで使用される分析プロセスを生成するために使用されることがある。本明細書中に提示された、あるいは先行技術で使用可能な統計的手法のいくつかは、これらのタスクの両方を実行し、本明細書に開示される方法の実施のための分析プロセスとしての使用に適するモデルを提供するだろう。
【0076】
その対応する特徴的な値(例えば、濃度、発現レベル)で、例えば健康とアテローム性動脈硬化症との間を識別することができるバイオマーカーが、本明細書で同定されている。これらのマーカーと、それに対応する特徴(例えば、濃度、発現量)の同定は、患者のクラスを区別する1つの分析プロセス、または複数の分析プロセスを開発するために使用することができる。以下の(実施)例では、データ解析アルゴリズムが、そのような沢山の分析プロセスを構築するためにどの様に使用することができるかを示している。実施例に記載のデータ解析アルゴリズムの各々は、健康とアテローム性動脈硬化症患者を含むトレーニング集団を交えて本明細書で同定された、マーカーのサブセットの特徴(例えば、発現値)を、使用する。本明細書に開示の、被験者を区別する1つ又は複数の分析プロセスを構築するための特定のデータ解析アルゴリズムは、以下の節で説明する。分析プロセスは、これらの例示的なデータ解析アルゴリズム、または当該技術分野で公知の他の技術を使用して構築された後、分析プロセスは、2つまたはそれ以上の表現型のいずれかのクラス(例えば、健康やアテローム性動脈硬化症患者)に被験者を分類するために、及び又は生存/タイム・トゥ・イベント(出来事までの期間)を予測するために使用することができる。これは、被験者から得られた1つ以上のマーカープロファイルに1つまたは複数の分析プロセスを適用することによって達成される。このような分析プロセスは、したがって、診断指標として非常に大きな価値を有する。
【0077】
本開示の方法、アッセイおよびキットは、一態様では、トレーニング集団から得られるマーカープロファイルに対する、被験者から1つまたは複数のマーカープロファイルの評価のために、提供される。いくつかの実施形態では、被験者と同様に、トレーニング集団の被験者から得られた各マーカーのプロファイルは、多くの異なるマーカーのそれぞれの特徴を構成する。いくつかの実施形態では、この比較は、(i)トレーニング集団からマーカープロファイルを用いた分析プロセスを開発し、(ii)被験者からのマーカープロファイルに分析プロセスを適用することによって、達成される。このように、本明細書に開示のメソッドのいくつかの実施形態に適用される分析プロセスは、テスト被験者がアテローム性動脈硬化症を持っているかどうかを判断するために使用される。代替の実施形態では、本明細書に開示の方法は、被験者がMIを経験するか否かを決定し、および/または(例えば、MIおよび/または生存の)イベントまでの時間(タイム・トゥ・イベント)を予測することができる。
【0078】
本明細書に開示の方法のいくつかの実施形態では、分析プロセスのアプリケーションの結果が、対象(被験者)が、MIを経験する(に見舞われる)可能性が高いことを示しているときは、対象(被験者)は、「MI」対象(被験者)として診断/分類される。また、もし、例えば、分析プロセスの結果が、対象がアテローム性動脈硬化症に発展する可能性が高いことを示していれば、対象は、「アテローム性動脈硬化症」対象として診断される。分析プロセスの適用の結果が、対象がアテローム性動脈硬化症に発展しないことを示している場合は、対象は健常と診断される。したがって、いくつかの実施形態において、上述した二元的な決定状況の結果は、4つの可能な結果を有する。すなわち、(i)真のアテローム性動脈硬化症:分析プロセスは、対象(被験者)がアテローム性動脈硬化症に発展することを予想し、実際に対象は、一定期間内にアテローム性動脈硬化症に進展する場合(真陽性、TP)。(ii)偽(仮性)アテローム性動脈硬化症:分析プロセスは、対象が、アテローム性動脈硬化症に発展することを予想したが、実際は、対象は、一定期間内にアテローム性動脈硬化症に進展しない場合(偽陽性、FP)。(iii)真の健康:分析プロセスは、対象が、アテローム性動脈硬化症に発展しないことを予想し、実際に、一定期間内にアテローム性動脈硬化症に進展しない場合(真陰性、TN)。(iv)偽(仮性)健康:分析プロセスは、対象が、アテローム性動脈硬化症に進展しないと予想したが、実際には、一定期間内にアテローム性動脈硬化症に進展する場合(偽陰性、FN)、である。
【0079】
これらTP(真陽性)、FP(偽陽性)、TN(真陽性)、FN(偽陰性)のための他の定義がなされ得ることが理解されるであろう。そのようなすべての選択的な定義は、本開示の方法、アッセイ、キットの範囲内であるが、理解を容易にするため、TP、FP、TN、FNの定義は、特に明記しない限り、上記(i)から(iv)によるものを、本明細書では使用する。
【0080】
当業者によって理解されるように、多くの定量的な判断基準は、あるテストマーカーのプロファイルとリファレンスマーカーのプロファイル間での比較のパフォーマンス(例えば、被験者からのマーカープロファイルへの分析プロセスの適用)を伝えるために使用することができる。これらは、陽性予測値(PPV)、陰性予測値(NPV)、特異性、感度、精度、および確実性を含んでいる。さらに、受信者操作曲線(ROC曲線)の様な他の構築物は、分析プロセスのパフォーマンスを評価するために使用することができる。本明細書中で使用されるのは:PPV=TP/(TP+FP)、NPV=TN/(TN+FN)、特異性=TN/(TN+FP)、感度=TP/(TP+FN)、及び、精度=確実性=(TP+TN)/N。
【0081】
ここで、Nは、比較したサンプルの数(例えば、アテローム性動脈硬化か健康かの判定が求められているテストのサンプル数)である。例えば、この分類が求められている10の被験者がある場合を考えてみよう。各マーカーのプロファイルが、10の被験者のそれぞれのために構築される。次に、各マーカープロファイルは、トレーニング集団から得られたマーカープロファイルに基づいて開発された、分析プロセスを適用することによって、評価される。この例では、上記の式のNは10に等しい。一般的に、Nは、サンプルをある集団の異なるメンバーから収集した サンプルの数である。この集団は、実際に、二つの異なるタイプからなる。1つのタイプでは、集団は、そのサンプルと表現型(例えば、マーカーの特徴値や、対象(被験者)がアテローム性動脈硬化症に進展するか否かの指標)のデータが、分析プロセスを構築または改良するために使用された対象で構成されている。この様な集団は、本明細書では、トレーニング集団と称する。他のタイプでは、集団は、分析プロセスを構築するために使用されてはいない対象で構成されている。このような集団は、検証集団と称する。特に断りのない限り、Nによって表される集団は、もっぱら、トレーニング集団か、または、検証集団であり、2つの集団タイプの混合物とは対照的である。検証集団とは対照的に、トレーニング集団に基づいている場合、精度などのスコアは、より高値(単一(unity)に近い)となることが理解されるであろう。それにもかかわらず、そうでなければ特に断りのない限り、確実性(精度)を含む1つの分析プロセス(または被験者からのバイオマーカーのプロファイルの評価の他の形態)のパフォーマンスを評価するのに使用された全ての基準は、トレーニング集団または検証集団のいずれかへの基準に関連する分析プロセスを適用することによって測定される基準に、対応している。
【0082】
いくつかの実施形態では、Nは、1より大きく、5より大きく、10より大きく、20より大きく、10から100の間、或いは、100より大きく、1000より小さい対象(被験者)である。ある実施形態では、分析プロセス(または他の比較形態)は、トレーニング集団または検証集団に対して、少なくとも約99%の確実性、あるいはそれ以上を有することができる。他の実施形態では、確実性は、トレーニング集団または検証集団に対して、少なくとも約97%、少なくとも約95%、少なくとも約90%、少なくとも約85%、少なくとも約80%、少なくとも約75%、少なくとも約70%、少なくとも約65%、少なくとも約60%である。確実性の有用度は、特定の方法に依存して変化しうる。本明細書中で使用されるように、「確実性」は、「精度」を意味している。一実施形態では、感度および/または特異性は、トレーニング集団または検証集団に対して、少なくとも約97%、少なくとも約95%、少なくとも約90%、少なくとも約85%、少なくとも約80%、少なくとも約75%、少なくとも約70%である。いくつかの実施形態では、このような分析プロセスは、定められた精度で、アテローム性動脈硬化症の進展を予測するために使用されている。いくつかの実施形態では、このような分析プロセスは、定められた精度で、アテローム性動脈硬化症を診断するために使用されている。いくつかの実施形態では、このような分析プロセスは、定められた精度で、アテローム性動脈硬化症のステージを決定するために使用されている。
【0083】
十分な確実性を有する被験者を分類するための分析プロセスで使用される可能性のある特徴の数は、2またはそれ以上である。いくつかの実施形態では、それが3以上、4以上、10以上、または10から200の間である。しかしながら、求められる確実性の程度に応じて、分析プロセスで使用される特徴の数は、多かれ少なかれではあるが、すべてのケースで、少なくとも2であることができる。一実施形態では、被験者を分類するための分析プロセスによって使用され得る特徴の数は、高い確実性で、テスト対象(被験者)の分類を可能にするために最適化されている。
【0084】
特定の実施形態では、分析プロセスが生存率を予測するために利用される。生存分析は、タイムトゥイベント・データのモデリングを含む。比例ハザードモデルは、統計学における生存モデルの1つのクラスである。生存モデルは、いくつかのイベントがその量に関連付けられているかもしれない1つ以上の共変量を発生する前に経過する時間と、関連している。比例ハザードモデルでは、共変量の単位増加のユニークな効果は、ハザード率に関して掛け算の関係である。生存モデルは、以下の二つの部分から成ると見なすことができる:つまり、しばしばA0(t)と記述され、ハザード(リスク)が共変量のベースラインレベルで経時的にどの様に変化するかを表す、基本的なハザード関数、及び、ハザードが、説明的な共変量に応じてどの様に変化するかを表す、エフェクト・パラメータ、である。典型的な医療の例は、変動の減少および/または交絡に対する制御のために、年齢や、性別の様な患者の特性と同様に、治療の指定(割当て)や、他の疾患の存在の様な共変量を含む。
【0085】
比例ハザードの仮説は、共変数がハザードを増加させる仮説である。ベースラインハザードが異なるかもしれないが、固定係数の最も単純なケースでは、例えば、薬剤による治療は、言ってみれば、任意の時刻tにおける被験者のハザードを半減させることができる。ただし、共変数は、二元的予測に限定されないことに、注意されたい:連続的な共変数xの場合には、ハザードは、対数的に反応し、xでの各ユニットの増加は、結果としてハザードの比例スケーリングとなる。通常は完全に一般的なCoxモデルの下では、ベースラインハザードは、「統合外(integrated out)」とされ、またはヒューリスティックに考慮から除外され、残りの部分的尤度(likelihood)が最大化される。任意の比例ハザードモデルにより推定された共変数の影響が、こうしてハザード比として報告される。Coxモデルでは、比例ハザード仮説が成り立つ場合、それはハザード関数を考慮せずにエフェクト・パラメータを推定可能であることを前提としている。
【0086】
分析プロセスを開発するための適切なデータ解析アルゴリズムとしては、例えば、分類、回帰ツリー(Classification and Regression Tree)(CART)およびその変異体の様なツリーベースアルゴリズム、一般化された加算モデル、ペナルティー付き回帰手法の様に、線形、ロジスティック、より柔軟な識別技術を含む判別分析を含有するが、これらに限定されない。
【0087】
一実施形態では、トレーニング集団から得られたマーカープロファイルへの被験者のマーカープロファイルの比較が行われ、分析プロセスが適用される。分析プロセスは、コンピュータのパターン認識アルゴリズムの様なデータ解析アルゴリズムを使用して構築される。分析プロセスを構築するための他の適切なデータ解析アルゴリズムは、ロジスティック回帰または特徴値の分布の違いを検出するノンパラメトリックなアルゴリズム(例えば、ウィルコクソンの符号順位検定(Wilcoxon Signed Rank Test)(未調整と調整済み))を含むが、これらに限定されない。分析プロセスは、1、2、3、4、5、10、20及びそれ以上のマーカーから測定観測量に対応する2、3、4、5、10、20及びそれ以上の特徴に基づくことができる。一実施形態では、分析プロセスは、数百以上の特徴に基づいている。分析プロセスは、また、分類ツリーアルゴリズムを使用して構築することもできる。たとえば、トレーニング集団からの各マーカーのプロファイルは、少なくとも3つの特徴を含むことができ、そこでは、特徴が、分類ツリーアルゴリズムの予測因子である。分析プロセスは、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約100%の精度で、集団(またはクラス)内でのメンバーシップを予測する。
【0088】
適切なデータ解析アルゴリズムは、当該技術分野では知られている。一実施形態では、開示のデータ解析アルゴリズムは、分類と回帰ツリー(Classification and Regression Tree)(CART)、多重加法回帰ツリー(Multiple Additive Regression Tree)(MART)、マイクロアレイの予測分析(PAM)、またはランダムフォレスト分析で構成されている。このようなアルゴリズムは、対象(被験者)を、正常として、または、特定の疾患状態に特徴的なバイオマーカーレベルを有するとして、判別するために、血液サンプルなどの生体材料から複雑なスペクトルを分類する。他の実施形態では、本開示のデータ解析アルゴリズムは、分散分析(ANOVA)とノンパラメトリック同等物、線形判別分析、ロジスティック回帰分析、最近傍分類分析(nearest neighbor classifier analysis)、ニューラルネットワーク、主成分分析、二次判別分析、回帰分類とサポートベクトルマシン(support vector machine)で構成されている。そのようなアルゴリズムは、分析プロセスを構築され、および/または分析プロセスのアプリケーションの速度と効率を向上させ、研究者のバイアスを避けるために使用できるかもしれないが、当業者は、コンピュータベースのアルゴリズムが、本開示の方法を実行する必要はないことを認識するだろう。
【0089】
バイオマーカーのプロファイルを生成するために使用することができるにもかかわらず、分析プロセスは、マーカーのプロファイルを評価するために使用することができる。例えば、適切な分析プロセスは、ガスクロマトグラフィーによって生じるマーカープロファイルや、静的な飛行時間型二次イオン質量分析(static time−of−flight secondary ion mass spectrometry)(TOF−SIMS)により得られるスペクトラ、を評価するために使用することができ、MALDI−TOF−MSスペクトラの解析により、高い確実性(79−89%の正しい分類率)で菌株を識別し、複雑な生体サンプル中のバイオマーカープロファイルを分類するために、MALDI−TOF−MSと液体クロマトグラフィー・エレクトロスプレーイオン化質量分析(LC/ESI−MS)を使用できる。
【0090】
本明細書に開示されるマーカーの発現レベルを使用して、分析プロセスを開発するための一つのアプローチは、最近の重心分類(the nearest centroid classifier)である。このような技術は、各クラス(例えば、健康とかアテローム性動脈硬化症)や、クラス内のマーカーの平均発現レベルによって与えられた重心のために、計算し、その重心に最も近いクラスに新しいサンプルを割り当てる。クラスタが既知のクラスで置き換えられます場合を除き、このアプローチは、k−meansクラスタリングと似ている。このアルゴリズムは、マーカーの多数が使用されているとき、ノイズに敏感となり得る。それらが偶然によるものである可能性が高いと判断される場合は、テクニックの1つのエンハンスメントは、シュリンケージ(shrinkage)を使用することであり、そこでは、各マーカーに対して、クラスの重心の違いが、ゼロに設定されている。このアプローチは、マイクロアレイ、またはPAMの予測分析に実装されている。シュリンケージ(shrinkage)は、差異がノイズとみなされるしきい値下によって制御される。ノイズレベル以上の有意差を示さないマーカーは削除される。しきい値は、相互検証(クロスバリデーション)によって選択することができる。しきい値が減少するにつれて、より多くのマーカーが含まれ、ノイズマーカの結果として、底に到達して、登山を再開する(過剰適合としてしられる現象)まで、推定される分類エラーが減少する。
【0091】
多重加法回帰ツリー(Multiple Additive Regression Tree)(MART)は、本明細書に開示される方法で使用することができる分析プロセスを構築するための他の方法を表している。 MARTのための一般的なアルゴリズムは以下のとおりである。
1.初期化
【数4】
2.m=1〜Mに対し:
(a)1=1,2,・・・、Nを計算。
【数5】
(b)末端領域のRJMを与えるターゲットリムへ回帰ツリー(regression tree)をフィットさせる。ここで、j=1、2、...Jmである。
(c)j=1、2、...Jmに対して計算する。
【数6】
3.アウトプット。f(x)=fM(x)
【0092】
特定のアルゴリズムが、さまざまな損失基準L(y,f(x))の挿入によって、得られる。アルゴリズムの最初のラインは、単に単一のターミナルノードツリー(a single terminal node tree)である最適な定数モデルに初期化する。ライン2(a)に計算された負の勾配の成分は、一般的な疑似残差、rと呼ばれている。一般的に使用される損失関数の勾配は、当技術分野で知られている。MARTの手順に関連付けられているチューニングパラメータは、反復数Mと構成するツリーJ.サブm(m=1、2、・・・、M)のそれぞれのサイズである。
【0093】
いくつかの実施形態では、対象(被験者)を分類するために使用される分析プロセスは、回帰分析を用いて構築されている。このような実施形態では、分析プロセスは、回帰分類(regression classifier)、好ましくはロジスティック回帰分類として特徴づけることができる。このような回帰分類は、分類(classifier)を構築するために使用されるマーカー(例えば、そのような各マーカーの発現レベル)の各係数を含む。このような実施形態では、回帰分類の係数は、例えば、最尤法を用いて計算される。このような計算では、バイオマーカーの特徴(例えば、RT−PCR、マイクロアレイデータ)が使用されている。特定の実施形態では、2つだけの形質のサブグループからの分子マーカーデータが使用される(例えば、健康な対象やアテローム性動脈硬化症患者で)と、従属変数は、マーカーのデータが利用可能である被験者の特定の形質の存在の有無である。
【0094】
別の実施形態では、トレーニング集団は多くの形質のサブグループ(例えば、3つ以上の形質のサブグループ、4つ以上の特定形質のサブグループ、等)から構成されている。これら多くの形質のサブグループは、トレーニング集団での、健康体から、軽度や中程度のアテローム性動脈硬化症等、表現型の進行での個別のステージに対応することができる。この実施形態では、マルチカテゴリの応答を処理するロジスティック回帰モデルの一般化は、トレーニング集団で見つかった、さまざまな形質の任意のサブグループ間を区別する意思決定を開発するために使用することができる。たとえば、選択した分子マーカーの測定データは、トレーニング集団で表される多くの形質のサブグループのいずれかの間を区別することができる分類(classifier)を開発するために、マルチカテゴリーロジットモデルのいずれにも適用することができる。
【0095】
いくつかの実施形態では、分析プロセスは、回帰モデル、好ましくは、ロジスティック回帰モデルに基づいている。このような回帰モデルでは、本明細書に開示されるマーカーの選択されたセット内のマーカーのそれぞれの係数が含まれている。このような実施形態では、回帰モデルの係数は、例えば、最尤法を用いて計算される。特定の実施形態では、2つのグループ(例えば、健康と病気)の分子マーカーデータが使用され、従属変数は、マーカーの特性データに対応する患者の状態である。
【0096】
本開示の方法、アッセイおよびキットのいくつかの実施形態は、マルチカテゴリの(多くの部分に分かれた)応答を処理するロジスティック回帰モデルの一般化を提供している。このような実施形態は、1つまたは3つまたはそれ以上の分類に生体を区別するために使用することができる。このような回帰モデルは、同時に全てのカテゴリペアを参照し、他方のカテゴリではなく、ある一方のカテゴリの応答の可能性(odds)を記述する、マルチカテゴリのロジットモデルを使用している。モデルカテゴリのある特定の(J−1)ペアのロジット(logits)を指定したら、残りは不要になる。
【0097】
線形判別分析(LDA)は、特定の客体の特性に基づいて、2つのカテゴリのいずれかに対象を分類しようとする。言い換えれば、実験で測定された客体が寄与しているか否かのLDAテストは、対象の分類(categorization)を予測する。LDAは、通常、連続的な独立変数と二分カテゴリ従属変数を必要とする。本開示の方法で使用するために、トレーニング集団のサブセット間のマーカーの選択された一連の式の値が、必要な連続的な独立変数として機能する。トレーニング集団のメンバーのそれぞれのグループの分類は、二分カテゴリ従属変数としての役割を果たす。
【0098】
LDAは、グループ情報を使用して、群間分散と群内分散との比を最大にする、変数の線形結合(the linear combination)を求める。暗黙のうちに、LDAで使用される線形重みは、トレーニング・セット全体でのあるマーカーの発現は、両群(例えば、アテローム性動脈硬化症を持つグループ、アテローム性動脈硬化症を持たないグループ)にどの様に分離するか、また、この発現は、他のマーカーの発現とどの様に相関するかに、依存する。いくつかの実施形態では、LDAは、本開示に記載された遺伝子の組合せ中、K個の遺伝子によって、トレーニングサンプルのN数のメンバーのデータマトリックスに適用される。その後、トレーニング集団の各メンバーの線形判別式(discriminant)が、プロットされる。理想的には、第1のサブグループ(アテローム性動脈硬化症を持たない被験者など)を表すトレーニング集団のそれらのメンバーは、線形判別値(例えば、負の値)の第1の範囲にクラスタし、第2のサブグループ(アテローム性動脈硬化症を持つ被験者など)を表すトレーニング集団のそれらのメンバーは、線形判別値(例えば、正の値)の第2の範囲にクラスタするだろう。判別値のクラスタ間の分離が大きい場合には、LDAは、より成功したとみなされる。
【0099】
二次判別分析(QDA)は、LDAと同じ入力パラメータを受け取り、同じ結果を返す。QDAは、結果を生成するために、線形方程式ではなく、二次方程式を使用している。LDAとQDAは、(要求される対象数に関連した違いがあるが)ほぼ互換性があり、かつ、使用するかは、好み、および/または分析をサポートするためのソフトウェアの可用性の、問題である。ロジスティック回帰は、LDAとQDAと同じ入力パラメータを受け取り、同じ結果を返す。
【0100】
本明細書で同定されたマーカーの発現レベルを用いて構築することができる分析プロセスの一つのタイプは、決定ツリー(decision tree)である。ここで、「データ解析アルゴリズム」は、最終「決定ツリー」が、分析プロセスであるのに対し、分析プロセスを構築することができる任意のテクニックである。分析プロセスは、トレーニング集団と、特定のデータ解析アルゴリズムとを使用して、構築される。ツリーベースの方法は、特徴空間を四角形のセットに分かち、その後、あるモデル(定数など)をそれぞれ1つに適合させる。
【0101】
トレーニング集団のデータは、トレーニングのセット集団全体のマーカーのための特徴(例えば、発現値、または他のいくつかの観察可能なもの)を含む。分析プロセスを構築するために使用することができる、ある特定のアルゴリズムは、分類・回帰ツリー(CART)である。他の特定の決定ツリーアルゴリズム(decision tree algorithms)は、ID3、C4.5、MART、及びランダム森林を含むが、これらに限定されない。すべてのそのようなアルゴリズムは、当技術分野で公知である。
【0102】
本開示の方法、アッセイおよびキットのいくつかの実施形態では、決定ツリー(decision trees)は、マーカーの選択されたセットのための発現データを用いて患者を分類するために使用される。決定ツリーアルゴリズムは、監督下にある学習アルゴリズムのクラスに属する。決定ツリーの目的は、実世界の実施例データから分析プロセス(ツリー)を誘導することである。このツリーは、決定ツリーを導き出すために使用されていない、目に見えないサンプルを分類するために、使用することができる。
【0103】
決定ツリー(decision tree)はトレーニングデータから導出される。ある例は、様々な属性に対する値と、その例がどのクラスに属するかを、含んでいる。一実施形態では、トレーニングデータは、トレーニング集団全体に亘って本明細書に記載のマーカーの組合せに対する、発現データである。
【0104】
次のアルゴリズムは、決定ツリーの導出について説明している。
ツリー(事例、クラス、属性)。
ルートノード(root node)を作成する。
すべての事例で、同じクラス値を使用している場合は、ルートにこのラベルを与える。
でなければ、属性が空の場合は、最も一般的な値に基づいてルートにラベルを付ける。
でなければ、開始する。
各属性の情報利得を計算する。
最高情報利得を持つ属性Aを選択し、このルートの属性を作る。
この属性の各々の値vのために
A=vに対応して、ルートの下に新しい枝(ブランチ)を追加する。
事例(v)は、A=vの事例とする。
事例(v)が空の場合、新しい枝に、複数の事例の中で最も一般的な値で標識されたリーフノードを作る。
でなければ、この新しい枝は、ツリー(事例(v)、クラス、属性{A})によって作成されたツリーとする。
終了。
【0105】
情報利得(information gain)の計算の詳細については、以下に示されている。事例の有り得べきクラスviが、確率P(vi)を持つ場合、実際の答えの情報コンテンツIは次式で与えられる:
【数7】
I値は、使用される特定のデータセットの分類の結果を記述できるようにするためには、情報がどの程度必要であるかを示している。仮に、データセットが、pポジティブ(例えば、アテローム性動脈硬化症を持っている)や、nネガティブ(例えば、健康)の事例(例えば、個人)を含むと仮定すると、正解に含まれる情報は以下の通りである:
【数8】
ここで、log2は、ベース2を使用する対数である。単一の属性をテストすることによって、正しい分類を行うために必要な情報量を減らすことができる。ある特定の属性A(例えば、マーカー)の残りの部分は、必要とされる情報をどの位減らすことができるかを示している。
【数9】
ここで「v」は、特定のデータセットにおける、属性Aに固有な属性値の数である。
「i」は、ある特定の属性値である。「pi」は、分類が正(ポジティブ)(例えば、アテローム性動脈硬化症)である、属性Aの事例数である。「ni」は、分類が負(ネガティブ)(例えば、健康)である、属性Aの事例の数である。
【0106】
特定の属性Aの情報利得(information gain)は、属性Aの特定クラスと属性Aの残りのものとの情報量の差として計算される。
【数10】
情報利得は、異なる複数の属性(どの様にうまく複数の事例を分割するか)、そして最高の情報を有する属性は、分類のためにどの程度重要かを評価するために使用される。
【0107】
分類・回帰ツリー(CART)、多変量の決定ツリー、ID3及びC4.5を含み、これらに限定されないが、一般的に、沢山の様々な決定ツリーアルゴリズムが、存在する。
【0108】
一実施形態では、決定ツリーを用いた場合には、トレーニング集団全体のある選択されたマーカーセットのための発現データは、平均ゼロ、単位分散(unit variance)を持つことが標準化されている。トレーニング集団のメンバーは、ランダムに、トレーニングセットとテストセットに分割される。例えば、一実施形態では、トレーニング集団のメンバーの3分の2は、トレーニング・セットに配置され、トレーニング集団のメンバーの3分の1は、テストセットに配置される。本明細書中に記載のマーカーの選択・組合せのための発現値は、分析プロセスを構築するために使用されている。その後、テスト・セットのメンバーを正しく分類するための、分類プロセスの能力が、決定される。いくつかの実施形態では、この計算は、ある与えられたマーカーの組合せで複数回実行される。各々の計算の繰り返しにおいて、トレーニング集団のメンバーは、ランダムにトレーニングセットとテストセットに割り当てられる。その後、分子マーカーの組合せの品質が、分析プロセス計算の個々のそのような反復の平均値として取り扱われる。
【0109】
分割が、本明細書に開示マーカーのセットの中で対応するマーカーの発現レベル、または2つのその様なマーカーの発現レベルに基づいている、一変量の決定ツリーに加えて、多変量の決定ツリーを、分析プロセスとして実装することができる。このような多変量の決定ツリーでは、意思決定の一部またはすべては、実際には、マーカーの複数の発現レベルの線形結合で構成されている。このような線形結合は、分類上の勾配降下(gradient descent)などの公知の技法や、二乗和誤差基準(sum−squared−error criterion)を用いて訓練することができる。
【0110】
このような分析プロセスを説明するために、式:0.04x1+0.16x2<500を考えてみよう。ここでは、x1とx2は、本明細書に開示のマーカーの中から、二つの異なるマーカーの2つの異なる特徴を、参照している。分析プロセスを調査する(poll)ために、特徴x1とx2の値は、分類されていない被験体から得られた測定値から取得される。これらの値は、式に挿入される。500未満の値が計算されている場合は、意思決定ツリー(決定ツリー)の最初の分岐(ブランチ)が取られる。それ以外の場合は、意思決定ツリーの2番目のブランチが取得される。
【0111】
本開示で使用可能なもう一つのアプローチは、多変量適応型回帰スプライン(MARS)である。MARSは、回帰の適応手順で、本明細書に開示される方法によって処理される高次元の問題によく適している。MARSは、段階的な線形回帰の一般化、または、回帰の設定でCARTのパフォーマンスを向上させるためのCART法の修正、とみなすことができる。
【0112】
いくつかの実施形態では、マーカーの選択されたセットのための発現値は、トレーニングセットをクラスタするために使用される。たとえば、10個のマーカーが使用されている場合を考える。トレーニング集団の各メンバmは10個のマーカーのそれぞれの発現値を持つ。トレーニング集団のあるメンバーmからのそのような値は、ベクトルを定義する。
x1mx2mx3mx4mx5mx6mx7mx8mx9mx10m
ここで、ximは、被検体mのi番目のマーカーの発現レベルである。トレーニングセットにmの生物が存在する場合、iマーカーの選択は、mのベクトルを定義する。本明細書に開示される方法は、ベクトルで使用するすべての単一マーカーの発現値はすべての単一ベクトルmで表されることを必要としないことに注意されたい。言い換えれば、i番目のマーカーのいずれかが見つからない被検体(対象)からのデータでも、まだクラスタリングに使用することができる。このような場合には、ミスしている発現値が、「ゼロ」または他の基準化された値が割り当てられている。いくつかの実施形態では、クラスタリングの前に、発現値の式の値がゼロと、単位分散の平均値を持つように基準化されている。
【0113】
トレーニング集団全体で同様の発現パターンを示すトレーニング集団のそれらのメンバーは、一緒にクラスタする傾向がある。マーカーの特定の組み合わせは、ベクトルがトレーニング集団に見られる形質群にクラスタ化するときに、本明細書に開示される方法のこの局面では良い分類指標であると考えられている。例えば、トレーニング集団が、健康な対象やアテローム性動脈硬化症患者を含む場合、クラスタリングの分類指標は、その集団を、健康な対象とアテローム性動脈硬化症患者のいずれかをそれぞれ一意的に表す、2つのグループにクラスタ化するだろう。
【0114】
クラスタリングの問題は、データセット内のナチュラルなグループを見つけることの一つとして記載されている。ナチュラルなグループを識別するために、2つの問題点が扱われる。まず、2つのサンプル間の類似度(または非類似度)を測定する方法が決定される。このメトリック(類似度測定)は、1つのクラスタ内のサンプル同士は、他のクラスタ内のサンプルに対してよりも互いに似ていることを確認するために使用される。第二に、類似性の尺度を使用して各クラスタにデータを分割するためのメカニズムが決定される。
【0115】
クラスタリング調査を開始する一つの方法は、距離関数を定義し、データセット内のサンプルのすべてのペア間の距離の行列を計算することである。距離が類似性の良い指標である場合は、同じクラスタ内のサンプル間の距離は、異なるクラスタ内のサンプル間の距離よりも大幅に少ない。しかし、クラスタリングは、距離メトリックを使用する必要はない。たとえば、ノンメトリックな類似度関数s(x,x’)は、2つのベクトルxとx’を比較するために使用することができる。従来、s(x,x’)は、xとx’が幾分「類似」している場合にその値が大きい、対称関数(symmetric function)である。
【0116】
データセット内のポイント間の「類似性」または「類似度」を測定するための方法が選択された後、クラスタリングは、データの任意のパーティションのクラスタリング品質を測定する、評価関数を必要とする。評価関数を極端化する(extremize)データセットのパーティションは、データをクラスタ化するのに使用される。しかしながら、本明細書に開示の方法で使用できる特定の例示的なクラスタリング技術は、以下に限定はされないが、階層的クラスタリング(最近傍アルゴリズム(nearest−neighbor algorithm)を用いた凝集クラスタリング(agglomerative clustering)、最遠傍アルゴリズム(farthest−neighbor algorithm)、平均連鎖アルゴリズム、重心アルゴリズム、または二乗和(平方和)アルゴリズム(sum−of−squares algorithm))、K平均法(k−means clustering)、ファジィK平均法アルゴリズム(fuzzy k−means clustering algorithm)、及び、ジャーヴィス・パトリック・クラスタリング(Jarvis−Patrick clustering)を含有する。
【0117】
主成分分析(PCA)は、バイオマーカーデータを分析することを提案している。より一般的には、PCAは、患者の1クラスとその他(例えば、アテローム性動脈硬化症を持っている人とそうでない人)とを判別する分析プロセスを構築するために、本明細書に開示されるマーカーの特徴値のデータを分析するために使用することができる。主成分分析は、データの特徴を要約し、データを、その変数(主成分)の新しいセットに変換することによって、データセットの次元数を削減するための、古典的な手法である。
【0118】
PCAのいくつかの非限定的な例は次のとおりである。主要なコンポーネント(PC)に相関が無く、k番目のPCは、PCの中でk番目の最大分散を有するように順序付けされる。k番目のPCは、最初のk−1のPCに直交するデータポイントの予測の変動を最大限に高める方向として解釈することができる。最初のいくつかのPCは、データセット内の変動の大部分をキャプチャする。対照的に、最後のいくつかのPCは、データ内の残りの「ノイズ」のみをキャプチャするために度々仮定される。
【0119】
PCAはまた、本明細書に開示されているように分析プロセスを作成するために使用することができる。そのようなアプローチでは、マーカーの選択セットのためのベクトルは、クラスタリングのために説明したのと同じ方法で構築することができる。実際には、ベクトルのセットは、各ベクトルが、トレーニング集団の特定メンバーからの選択マーカーの発現値を表す、ある行列(matrix)で表すことができる。いくつかの実施形態では、このマトリックスは、モノマーの定性バイナリ記述のフリー・ウィルソン法(Free−Wilson method)で表され、第1主成分(PC)が、可能な分散情報の最大量をキャプチャし、第2主成分(PC)が、すべての分散情報の二番目の最大量をキャプチャして、マトリックス内のすべての分散情報が占められるまで、PCAを使用して最大限に圧縮された空間に分布される。
【0120】
次に、ベクトル(各ベクトルは、トレーニング集団のメンバーを表す)の各々は、プロットされる。多くの異なる種類のプロットが可能である。いくつかの実施形態では、一次元のプロットが行われる。プロットのこの形式では、予想(the expectation)は、最初のグループ(例えば、健康な対象)のメンバーが、第1主成分の値の1つの範囲にクラスタし、第2のグループ(例えば、アテローム性動脈硬化症患者)のメンバーが、第1主成分の値の2番目の範囲にクラスタするだろう(当業者は、マーカー値の分布は、これが有効であるためにいかなる変数も伸長がないことを示す必要があることを、理解されよう。)。
【0121】
一例では、トレーニング集団は、2つのグループ:健康な対象とアテローム性動脈硬化症の患者:で構成されている。第1主成分は、トレーニング集団のデータセット全体にわたって、選択マーカーのマーカー発現値を使用して、計算される。その後、トレーニングセットの各メンバーは、第1主成分の値の関数としてプロットされる。この例では、第1主成分が正であるトレーニング集団のそれらのメンバーは、健康な対象者であり、第1主成分が負であるトレーニング集団のそれらのメンバーは、アテローム性動脈硬化症患者である。
【0122】
いくつかの実施形態では、トレーニング集団のメンバーは、複数の主成分に対してプロットされている。たとえば、いくつかの実施形態では、トレーニング集団のメンバーは、第1の次元が第1の主要成分(principal component)であり、第2の次元は、第2の主成分である、2次元プロット上にプロットされる。そのような二次元プロットでは、予想(the expectation)は、トレーニング集団で表される各々のサブグループのメンバーが、個別のグループにクラスタすることである。たとえば、2次元プロットのメンバーの第1のクラスタは、軽度のアテローム性動脈硬化症を有する被験者を表し、2次元プロットのメンバーの第2のクラスタは、中等度のアテローム性動脈硬化症を有する被験者を表す、などである。
【0123】
いくつかの実施形態では、トレーニング集団のメンバーは、2つ以上の主成分に対してプロットフされており、トレーニング集団のメンバーが、それぞれがトレーニング集団で見つかったサブグループをユニークに表す複数のグループにクラスタリングされているかどうか、判定される。いくつかの実施形態では、主成分分析は、当業者に公知の、R mvaパッケージ(統計解析言語)を使用して実行される。
【0124】
最近傍分類指標(Nearest neighbor classifiers)は、メモリベースのものであり、適合モデルは必要ない。クエリポイント(query point)x0を考えると、kトレーニングポイントx(r)、x0までの距離が最も近いr・・・kが識別され、その後、ポイントx0は、k最近傍を使用して分類される。結合はランダムに分けることができる。いくつかの実施形態では、特徴空間におけるユークリッド距離は、以下のように距離を決定するために使用される。
d(r)=||x(r)−x(0)||
【0125】
一般的に、最近傍アルゴリズムを使用する場合は、線形判別式を計算するのに使われる発現データは、平均がゼロで分散が1であるよう標準化されている。本開示の方法については、トレーニング集団のメンバーは、ランダムに、トレーニングセットとテストセットに分割される。例えば、一実施形態では、トレーニング集団のメンバーの3分の2は、トレーニング・セットに配置され、トレーニング集団のメンバーの3分の1は、テストセットに配置される。本明細書に開示されるマーカーの選択されたセットのプロファイルは、テスト・セットのメンバーがプロットされている特徴空間を表している。次に、テスト・セットのメンバーを正しく特徴づけるためのトレーニングセットの能力が計算される。いくつかの実施形態では、最近傍計算(nearest neighbor computation)は、マーカーのある特定の組合せで複数回実行される。計算の各繰り返しで、トレーニング集団のメンバーは、ランダムにトレーニングセットとテストセットに割り当てられる。その後、マーカーの組み合わせの品質が、最近傍計算(nearest neighbor computation)の各繰り返しの平均値として扱われる。
【0126】
最近傍ルールは、不平等クラスの事前確率、差動の誤分類コスト、特徴選択の問題に対処するために改良することができる。これらの改良の多くは、近傍の加重投票のいくつかのフォームを含んでいる。
【0127】
生物進化の過程に触発され、分類指標の設計の進化的な方法は、分析プロセスのための確率的探索を採用している。概観では、このような方法は、本明細書に開示されたデータセットを生成するバイオマーカーのようなものの測定から、いくつかの集団分析プロセスを作成する。各分析プロセスは、他から多少異なる。次に、分析のプロセスは、トレーニングデータセット全体のデータに記録される。生物進化とのアナロジーを維持するために、得られた(スカラー)のスコアは、時々フィットネス(適応)と呼ばれている。分析プロセスは、そのスコアに基づいてランク付けされ、最良の分析プロセスは、(分析プロセスの総集団のある部分)保持される。再び、生物学的な用語に合わせて、これは適者生存と呼ばれている。分析プロセスは、確率的に次の世代の子供や子孫で変更される。いくつかの子孫の分析プロセスは、前の世代の親よりも高いスコアを持っているが、いくつかは低いスコアを持っている。全体的なプロセスは、その後の世代のために繰り返される。つまり、分析プロセスがスコアリングされて、ベストのものが保持され、別の世代へ与えるためにランダムに変更される。部分的には、ランキングが故に、各世代が、平均して以前のものよりわずかに高いスコアを有する。プロセスは、ある世代内の単一の最良の分析プロセスが、所望の基準値を超えるスコアを持つ場合、停止される。
【0128】
バギング、ブスティング、ランダム部分空間法、及び付加的ツリーは、脆弱な分析プロセスを改善するために使用することができる技術の組合せとして知られている、データ解析のアルゴリズムである。これらの技術は、前に述べた意思決定ツリーのような決定ツリーのために設計され、通常、適用される。さらに、このような技術はまた、線形判別分析のような他のタイプのデータ解析アルゴリズムを使用して開発された分析プロセスにも有用である。
【0129】
バギングにおいて、トレーニングデータセットを試し、ランダムな独立したブートストラップを生成、複製し、これらの各々の分析プロセスを構築し、最終的な分析プロセスの単純多数決によってそれらを集約する。ブースティングでは、分析プロセスは、以前の分析プロセスの結果に依存するトレーニング・セットの重み付けのバージョン上に構築される。最初に、すべてのオブジェクトが等しい重みを持っており、最初の分析プロセスは、このデータセット上に構築される。次に、重みは、分析プロセスのパフォーマンスに応じて変更される。誤って分類されたオブジェクトは、より大きな重みを取得し、次の分析プロセスは、再重み付けされた(reweight)トレーニングセットにブースト(boost)される。このように、一連のトレーニングセットと分類が、単純な多数決によって、または最終決定での加重多数決によって結合され、取得される。
【0130】
ブースティングを説明するために、研究下の集団によって示された2つの表現型のグループ、表現型1(例えば、予後不良の患者)、および表現型2(例えば、予後良好の患者)が存在する場合を考える。分子マーカーXのベクトルを考えると、分類G(X)は、上記2つの値のセット:{表現型1、表現型2}でのタイプ値のいずれか1つを取って予測を生成する。トレーニングサンプルのエラー率は以下で、
【数11】
ここで、Nはトレーニングセットでの被験者の数(表現型1または2のいずれかの表現型を持つ被験者の合計)である。例えば、35人の健康者と46人の(アテローム性動脈)硬化症の患者が存在する場合、Nは81である。
【0131】
弱い分析プロセスは、そのエラー率が、ランダム推測よりわずかに優れているに過ぎないものである。ブースティングのアルゴリズムでは、弱い分析プロセスを、繰り返し、データの修正バージョンに適用し、これにより、一連の弱い分類指標Gm(x)、m=1、2、・・・、M.のシーケンスを生成する。このシーケンスの分類のすべての予測は、最終的な予測を生成するために加重多数決を介して結合される:
【数12】
1.観察加重wi=1/N、i=1,2,...,Nを初期化
2.m=1からM、に対して:
(a)分析プロセスGm(x)を、重みwiを使用するトレーニングセットへ適合
(b)計算
【数13】
(c)計算am=log((1−errm/errm)
(d)wiをセット ⇔ wiexp[αmI(yi≠Gm(Xi))],i=1,2,・・・・,N3.アウトプット
【0132】
ここでa1,a2,....,amは、ブースティング・アルゴリズムによって計算され、その目的は、それぞれのGm(x)の寄与を比較検討することである。その効果は、シーケンス内のより正確な分類に高い影響を与えることである。
【0133】
各ブースティング段階でのデータ変更は、重みwi,w2,...,wnを、各トレーニング観察結果(xi,yi),i=1,2,...,Nのそれぞれに適用することから構成されている。最初に、すべてのウェイトは、Wi=1/Nにセットされ、その結果、最初のステップは、単に通常の方法でデータでの分析プロセスを養成する。それぞれの連続した反復m=2,3,...,Mのために、観察結果加重は個別に変更され、分析プロセスは、加重された観察結果(observation)に再適用される。幹mで、前のステップで誘導される分析プロセスGm−1(x)で誤って分類されたとの観察結果は、それらの加重は増加し、一方、正しく分類された観察結果は、その加重は減少する。反復が進むにつれてこのように、正しく分類するのが困難な観察結果は、増え続ける影響を享受する。それぞれの連続した分析プロセスは、それによってそのシーケンスの前の時に見逃されているトレーニング観測結果に集中するように強制される。
【0134】
典型的なブースティングアルゴリズムは以下のとおり:
1.観察加重wi=1/N、i=1,2,...,Nを初期化
2.m=1〜M、に対して:
(a)分析プロセスGm(x)を、重みwiを使用するトレーニング・セットへ適合
(b)計算
【数14】
(c)計算am=log((1−errm/errm)
(d)wiをセット:wiexp[αmI(yi≠Gm(Xi))],i=1,2,・・・・,N
3.アウトプット
【数15】
【0135】
アルゴリズムmで、現在の分類指標Gm(x)は、ライン2aで加重観察に誘導される。結果の重み付き誤差率は、ライン2bで計算される。ライン2cは、最終的な分類GM(ライン3)の生成で、Gm(x)に与えられる重みamを計算する。それぞれの観察の個々の重みは、ライン2dでの次の反復のために更新される。Gm(x)によって誤って分類された観察結果は、シーケンスでの次の分類Gm+l(x)を誘導するための相対的な影響力を増加させる因子exp(αm)によって、その重みがスケーリングされている。いくつかの実施形態では、ブースティングまたは適応ブースティング方法が使用されている。
【0136】
いくつかの実施形態では、特徴の事前選択は、ノンパラメトリック・スコアリング方法の様な技術を使用して実行される。特徴の事前選択は、分類指標に使用されるために選択されるマーカーが、分類間でベストなものを識別する、二次元的削減の一形式です。その後、ロジット・ブースト(LogitBoost)手法は、ブースティング手順よりむしろ、使用されている。いくつかの実施形態では、ブースティングおよび他の分類方法が、開示された方法で使用されている。
【0137】
ランダム部分空間法では、分類指標は、データ特徴空間のランダム部分空間で構築されている。これらの分類指標は、通常、最終決定ルールで単純過半数の議決権によって結合される(すなわち、分析プロセスで)。
【0138】
示されているように、本明細書に記載の統計的手法は、データセットに含めるべき好ましいマーカーグループを同定するために使用でき、そのデータセットを使用して結果を生成するために使用できる分析プロセスを生成するために、使用できる、アルゴリズムやモデルの種類の例を単に示しているに過ぎない。また、上記や別の場所で説明した技法の組み合わせは、同じタスクのため、あるいは異なるタスクのためのいずれにも使用できる。決定ツリーとブースティングの組合せの使用の様な、いくつかの組合を、記載している。しかし、他の多くの組み合わせが可能である。例によって、射影追跡(Projection Pursuit)と重み付き多数決(Weighted Voting)の様な、技術上の他の統計的手法は、データセットに含めると、マーカーの優先グループを識別するために使用することができ、また、そのデータセットを使用して結果を生成するために使用できる分析プロセスを生成するために使用することができる。
【0139】
分析プロセスで評価されるべきデータセットコンポーネントの最適な数を決定することができる。ある予測モデルを開発するために、上記の学習アルゴリズムを使用した場合、当業者は、分析プロセスを定義するために、マーカーのサブセットを、すなわち、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、マーカーの完全なセットとなるまで、選択することができる。通常、マーカーのサブセットは、精度の高い予測モデルを維持しながら、例えば、試薬の有用性、定量等の利便性等、定量的なサンプル分析のニーズに合わせて用意されて選択される。
【0140】
分類モデル構築のための、多くの有益なマーカーの選択は、パフォーマンス・メトリックの定義と、このメトリックに基づいた有用な予測能力を持つモデルを生成するためのユーザー定義しきい値(a user−defined threshold)とを、必要とする。たとえば、パフォーマンス・メトリックは、AUC、予測性の感度および/または特異性と同様に、予測モデルの全体的な精度である。
【0141】
あるモデルの予測能力は、例えば、特定の値や値の範囲のAUCまたは正確さなど、品質メトリックを提供する能力に基づいて評価することができる。いくつかの実施形態では、所望の品質のしきい値は、少なくとも約0.7、少なくとも約0.75、少なくとも約0.8、少なくとも約0.85、少なくとも約0.9、少なくとも約0.95、またはそれ以上の精度で、サンプルを分類する予測モデルである。代替措置として、所望の品質のしきい値は、少なくとも約0.7、少なくとも約0.75、少なくとも約0.8、少なくとも約0.85、少なくとも約0.9、またはそれ以上の精度で、あるAUCでサンプルを分類する予測モデルである。
【0142】
当技術分野で知られているように、予測モデルの相対的な感度と特異度は、互いに反比例の関係を持つ、選択性メトリックまたは感受性メトリックのいずれかを、優先するように「調整」することができる。上記のようにモデルでの制限は、実行されるテストの特定の要件に応じて、選択した感度や特異性のレベルを提供するために調整することができる。感度と特異性のいずれかまたは両方は少なくとも約0.7、少なくとも約0.75、少なくとも約0.8、少なくとも約0.85、少なくとも約0.9、またはそれ以上とすることができる。
【0143】
様々な方法がトレーニングモデルで使用されている。マーカーのサブセットの選択は、マーカーのサブセットの順方向選択、または逆方向選択を経由するかもしれない。選択されるマーカーの数は、すべてのマーカーを使用しなくても、モデルのパフォーマンスを最適化する数である。用語の最適な数を定義する一つの方法は、ある与えられたアルゴリズムのために使用される用語の任意の組み合わせと数を使用して、このメトリックのために得られた最大値から1標準誤差以下の範囲にある、所望の予測能力(例えば、AUC>0.75、または感度/特異性の同等の測定)を持つモデルを生成するいくつかの用語を選択することである。
【0144】
上述したように、データセットのコンポーネントの定量的データは、分析プロセスに入力され、結果を生成するために使用されている。この結果は、例えば、分類、連続的な変数、またはベクトルといった、アテローム性動脈硬化症の分類を行うために有用な、任意のタイプの情報であり得る。例えば、連続変数またはベクトルの値は、あるサンプルが特定の分類に関連付けられる可能性(the likelihood)を決定するために使用されることがある。
【0145】
アテローム性動脈硬化症の分類は、あらゆるタイプの情報またはアテローム性動脈硬化症状態に関連付けられた任意の種類の情報の生成を参照する。例えば、診断、ステージング、アテローム性動脈硬化進行の評価範囲、予後、モニタリング、処置に対する治療的反応、既知のアテローム性動脈硬化症の治療と同様のメカニズムを介して作用する化合物を同定するためのスクリーニング、擬似冠動脈カルシウムスコアの予測、安定(すなわち、心筋梗塞)か不安定(すなわち、狭心症)か、アテローム性動脈硬化症の合併症の識別などである。
【0146】
好ましい実施形態では、結果は、アテローム性動脈硬化症発生の診断や、検出のために使用され、その様なアテローム性動脈硬化症は、特に、心筋梗塞、心不全などの傾向の指標となる。この実施形態では、「健康」と「アテローム性動脈硬化症」のサンプルを含む基準またはトレーニングセットが、予測モデルを開発するために使用されている。データセットは、好ましくは、アテローム性動脈硬化症を示すマーカーのタンパク質発現レベルを含み、結果を生成するために、予測モデルに入力される。その結果、「健康」または「アテローム性動脈硬化症」のいずれかとしてサンプルを分類することができる。他の実施形態では、結果は、サンプルを分類するための有用な情報を提供する連続的な変数であり、例えば、高値は「アテローム性動脈硬化症」のサンプルである確率が高いことを示し、低値は「健康」のサンプルであることの確率が低いことを示す。
【0147】
他の実施形態では、結果は、アテローム性動脈硬化症のステージ分類のために使用される。この実施形態では、さまざまなステージで疾患を持つ個人からのサンプルを含む基準またはトレーニングデータセットが、予測モデルを開発するために使用される。モデルは、既知のステージの病気のサンプルや、1つまたは複数のデータセットに対する個々のデータセットの単純な比較であり得るし、より複雑な多変量分類モデルでもあり得る。特定の実施形態では、モデルにデータセットを入力することは、データセットが、指定された心血管疾患のステージであるものとして生成されるから、サンプルの分類結果を生成する。同様のメソッドは、参照(基準)セットまたはトレーニングセットが、病気に進展し、後に病気に進展しなかった個々人から得られたデータを含む場合を除いて、アテローム性動脈硬化症の予後を提供するために使用することができる。
【0148】
他の実施形態では、結果は、アテローム性動脈硬化症の治療への応答を決定するために使用される。この実施形態では、参照(基準)データセットまたはトレーニングデータセットと予測モデルは、アテローム性動脈硬化症(疾患を有する患者と、疾患を有さない個人からのサンプル)を診断するために使用されるものと同じである。しかし、診断不明とされた個人からのサンプルで構成されるデータセットを入力する代わりに、データセットは、特定の治療が施されている既知の疾患を持つ個々人で構成され、サンプルが、「正常・健康の分類」対「アテローム性動脈硬化症の分類」の傾向があるか、その範囲内に置かれているかが、決定される。
【0149】
本明細書中で使用される様に、治療は、制限なしに、3,6,又は12ヶ月後のフォローアップ検診を含めることができ、例えば、それは、β遮断薬、カルシウムチャネル遮断薬、アスピリン、コレステロール低下剤、等の薬理学的介入、および/または心血管疾患/状況の存在または程度を決定するためのさらなるテストなどである。特定の例では、即時の治療は必要ない。
【0150】
別の実施形態では、結果は、薬剤スクリーニング、すなわち、既知のアテローム性動脈硬化症の薬物治療と同様のメカニズムを介して作用する化合物を識別するのに、使用される。この実施形態では、既知のアテローム性動脈硬化症の薬物治療を受けた個人や、特定の治療を受けていない個人を含む基準またはトレーニングセットは、予測モデルの開発に使用することができる。未知のメカニズムを持つ化合物で処理された個人からのデータセットは、モデルに入力される。結果が、サンプルは、既知のアテローム性動脈硬化症の薬物治療で投与された対象から来たものとして分類することができることを示している場合は、新しい化合物は、同じメカニズムを介して作用する可能性がある。
【0151】
好ましい実施形態では、結果は冠動脈カルシウムスコア(CCS)に相関する定量的な尺度である、「擬似冠動脈カルシウムスコア」を決定するために使用される。CCSは、全体的な動脈硬化性プラークの負荷を測定する、臨床的心血管疾患のスクリーニング手法である。イメージング技術の様々な異なるタイプを、アテローム性動脈硬化プラークのカルシウム面積と密度を定量化するために使用することができる。電子ビームCTとマルチスライスCTが使用されている場合、CCSは、X線減衰係数とカルシウム沈着の面積の関数である。通常、0のスコアが、動脈硬化性プラークの負荷が無いことを示し、>0から10は、プラークの負荷の証拠は最小限のもので、11から100は、少なくとも軽度で、101から400は、少なくとも中等度で、400を超えると、プラーク負荷の大規模な証拠を示すと考えられる。従来の危険因子と組み合わせて使用するCCSは、心血管疾患の合併症の予測能力を向上させる。さらに、CCSはまた、心血管疾患の合併症に依存しない予測因子として作用することができる。
【0152】
冠動脈カルシウムスコアが高値の人と低値の人とを含む基準セットまたはトレーニングセットは、個々の擬似冠動脈カルシウムスコアを予測するモデルを開発するために使用することができる。この予測された擬似冠動脈カルシウムスコアは、アテローム性動脈硬化症の診断およびモニタリングに有用である。いくつかの実施形態では、擬似冠動脈カルシウムスコアは、そのような心血管疾患の診断およびモニターするためのイメージング技術から派生した実際の冠動脈カルシウムスコアのように、他の既知の心血管疾患の診断とモニタリング手法と組み合わせて使用される。
【0153】
当業者は、これらのメソッドを使用して生成された結果は、心血管疾患の診断およびモニタリングするための、当業者に公知の様々な他の多数の方法と組み合わせて使用することができることを認識するであろう。
【0154】
当業者であれば、これらのメソッドを使用して生成された結果は、心血管疾患の診断およびモニタリングのために、当業者に公知の様々な他の任意の数の方法と組み合わせて使用することもできることを、認識するだろう。
【0155】
一実施形態では、必要性や治療法の有効性を判断するために人間の心臓血管の健康を評価するためのキットが提供され、これは、生物学的サンプル中の表20のmiRNAから選択される少なくとも2種のmiRNAマーカーのレベルを決定するためのアッセイ、各miRNAマーカーのレベルから成るデータセットを取得するための手順、を含み、そして、生物学的サンプルを分類するためのデータを使用する分析・分類プロセスに、データを入力すること(ここで、分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、非薬剤曝露分類がないからなる群から選択される)、分類プロセスのアウトプットに従って生物学的サンプルを分類すること、そして、分類に基づいて治療法を決定すること、を含む。
【0156】
特定の実施形態では、キットはさらに、生物学的サンプル中の、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、及びEGFからなる群から選択される少なくとも3つのタンパク質バイオマーカーのレベルを決定するためのアッセイと、タンパク質マーカーの個々のレベルから構成されるデータセットを取得するための手順とを含み、そして、生物学的サンプルを分類するためのデータを使用する、分析・分類プロセスにmiRNAとタンパク質マーカーのデータを入力すること(ここで、分類は、アテローム性動脈硬化症分類、健康分類、薬剤曝露分類、非薬剤曝露分類がないからなる群から選択される)、分類プロセスのアウトプットに従って生物学的サンプルを分類すること、そして、分類に基づいて治療法を決定すること、を含む。
【0157】
そのような試薬の一つのタイプは、興味の対象のマーカーセットに結合する抗体のアレイまたはキットである。様々に異なるアレイフォーマットが、様々に広範囲に異なるプローブ構造、基板組成物および接着技術と共に、当該分野で知られている。代表的なアレイや興味の対象であるキット組成物は、少なくとも2、少なくとも3、少なくとも4、少なくとも5かそれ以上のmiRNAマーカーの単独、またはタンパク質マーカーとの組合せによる定量用試薬を含有するかまたはそれから構成されている。この点で、試薬は、表1にリストされたmiRNA、そして好ましくは表20でリストされたmiRNAから選択された、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5のmiRNAマーカーの定量のために可能である。
表1(表1−1〜表1−15)
【表1−1】
【表1−2】
【表1−3】
【表1−4】
【表1−5】
【表1−6】
【表1−7】
【表1−8】
【表1−9】
【表1−10】
【表1−11】
【表1−12】
【表1−13】
【表1−14】
【表1−15】
代わりに、または、加えて、試薬は、表2から選択された、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10のタンパク質バイオマーカーの定量のためにできる。
表2(表2−1〜表2−5)
【表2−1】
【表2−2】
【表2−3】
【表2−4】
【表2−5】
【0158】
特定の実施形態では、タンパク質バイオマーカーは、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン、アディポネクチン、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGF、から選択されている。
【0159】
キットはさらに、1つ以上の表現型の統計分析用のソフトウェアパッケージを含むことができ、分類の確率を計算するためのリファレンス・データベースが含まれる場合がある。キットは、血液サンプル、セカンドステージ抗体、ELISA試薬、チューブ、スピンカラム等の回収や処理のためのデバイスなど、様々な方法で用いられる試薬を含めることができる。
【0160】
上記構成要素に加えて、対象キットはさらに、本発明の方法を実施するための使用説明書を含む。これら使用説明書は、様々な形態で対象キット中に、1つ以上存在し得る。これら使用説明が存在する1つの態様は、例えば、キットのパッケージや添付文書内の、情報が印刷された紙片など、適切な媒体や基質に関する印刷情報の様なものである。さらに別の手段は、例えば、フロッピーディスク、CDなど、情報が記録されたコンピュータ可読媒体であろう。また、存在し得る別の手段は、隔離されたサイト情報にアクセスするために、インターネットを介して使用することができるウェブサイトアドレスである。任意の便利な手段がキット内に存在し得る。
【0161】
さらなる態様において、本明細書に開示される方法アッセイおよびキットは、プールされたサンプル中のバイオマーカーを検出するために使用することができる。この方法は、特に、複数のサンプルでわずかな量しか利用できない場合(例えば、保管されていた臨床サンプルセット)、及び/又は患者または対象集団に関連する有用なテータセットを生成する時に、有用である。この点で、(たとえば、約10μl、約15μl、約20μl、約30μl、約40μl、約50μl、またはそれ以上の)等量のサンプルが、約2、5、10、15、20、30、50、100またはそれ以上の)複数の個人から得ることができる。個人は、様々なしるし(indicia)によって一致させることができる。このしるしには、年齢、性別、疾患の既往歴、イベントまでの時間(time to event)などを含めることができる。各個人から得られたサンプルの等量をプールし、1つまたは複数のバイオマーカーの存在について分析することができる。結果は、本明細書に記載の予測・分類モデルを使用して、リファレンス・セットを生成し、予測を実行し、与えられた条件等に関連付けられるバイオマーカーを決定することができる。当業者であれば、本方法の多くの用途を容易に認識し、本明細書に開示されるmiRNA、タンパク質、疾患状態に限定されるものではないことを認識する。実際に、本方法は、様々な疾患や状況に関連付けられている、DNA、RNA(mRNA、miRNA、ヘアピン前駆体RNA、RNP)、タンパク質等を検出するために使用することができる。
【0162】
定義
本明細書中で使用される用語は、特記のない限り、以下に記載するように定義されている。
【0163】
本明細書で使用される用語「モニタリング」は、個人または個々人の健康や疾患の状況に関する有用な情報を提供するために、データセットから生成された結果を使用することを指す。「モニタリング」は、例えば、予後の判定、リスク層別化、薬物療法の選択、進行中の薬物療法の評価、治療の有効性の決定、結果の予測、治療への応答の決定、疾患または合併症の診断を含むことができ、疾患の進行の後に、または時間をかけて患者の健康状態に関連する情報を提供し、作用の既知の分子メカニズムを伴う実験的治療の恩恵を受ける可能性が最も高い患者を選択し、そのメカニズムが、投薬にラベルがない様なある疾患の小さなサブセットで重要であるかもしれない既知の分子メカニズムを伴う承認薬の恩恵を受ける可能性が最も高い患者を選択し、例えば、非侵襲的な血液検査から、より侵襲的な生検などのオプションなど、より侵襲的な/高価なテストを決定を支援する患者集団をスクリーニングし、または別の指標を治療するために使用される薬の副作用を評価するテストを含めることができる。特に、用語「モニタリング」は、アテローム性動脈硬化症のステージング、アテローム性動脈硬化症の予後、血管炎症のレベルを参照することができ、アテローム性動脈硬化症の進行の程度を評価し、治療応答をモニタリングし、冠動脈カルシウムスコアを予測し、またはアテローム性動脈硬化症の不安定な症状から安定した症状を区別することができる。
【0164】
本明細書中で使用される用語「定量的なデータ」は、数値を特定することができる任意のデータセットコンポーネント(例えば、miRNAマーカー、タンパク質マーカー、臨床的しるし(臨床的標識)、代謝的計測、または遺伝的アッセイ)に関連付けられたデータを指す。定量的データは、マーカーのDNA、RNAまたはタンパク質レベルの尺度であることができ、モル濃度、重量濃度などのような測定の単位で表現することができる。例えば、マーカーがタンパク質である場合、そのマーカーの定量的データは、当業者に公知の方法を使用して測定され、mMまたはmg/dLの濃度単位で表現される、タンパク質の発現レベルである。
【0165】
本明細書で使用される用語「哺乳動物」は、ヒトおよび非ヒトの両方を含み、ヒト、非ヒト霊長類、イヌ、ネコ、マウス、ウシ、ウマ、およびブタも含むが、これに限定されるものではない。
【0166】
本明細書で使用される用語「擬似冠動脈カルシウムスコア」は、画像診断法による測定を通じてというよりむしろ、本明細書に開示されるような方法を使用して生成された冠動脈カルシウムスコアを指す。当業者であれば、擬似冠動脈カルシウムスコアは、画像診断法による測定により生成された冠動脈カルシウムスコアと交換可能に使用され得ることを認識するであろう。
【0167】
二つ以上の核酸またはポリペプチド配列の構成における用語であるパーセント「同一性」(percent identity)は、以下で説明する配列比較アルゴリズム(例えば、BLASTP及びBLASTNまたは当業者に利用可能な他のアルゴリズム)のいずれかを使用し、または目視検査によって測定されて、比較され、最大一致のために整列された場合に、二つ以上のシーケンスまたはサブシーケンスが、特定の比率で同一のヌクレオチドまたはアミノ酸残基を有することを、指す。アプリケーションに応じて、パーセント「同一性」は、比較される配列領域、例えば、機能ドメインに亘って存在することができ、あるいはまた、比較される2つの配列の全長にわたって存在することができる。
【0168】
特定の実施形態では、治療法の「効果」が決定される。治療法は、改善、改良、リスクの低減、または病状または疾患の進行の減速に基づいて有効であると認識される。このような決定は、当業者によって容易になされる。
【実施例】
【0169】
(実施例1)
プールされたサンプル中のmiRNA解析
本研究で利用されたプーリングアプローチ(pooling approach)は、a)血清中のmiRNAを識別するためにExiqon社のLocked Nucleic Acid(LNA(商標))技術の能力を調査すること、及び、b)テストのために貴重な保管臨床サンプルから最小量を利用することという、2つの目標を達成した。
【0170】
血清中のmiRNAを識別する、LNA(商標)技術の能力を評価するために、52のプールが、前向き研究(prospective study)から保管されていた血清サンプルを使用して作成された(Marshfield Clinical Personalized Medicine Research Project (PMRP), Personalized Medicine, 2(1): 49−79 (2005))。そのうち26プールは、患者ケースを、他の26プールは、コントロールを構成した。各プールは、年齢(40〜80歳の間の5歳毎の8つの範囲の中から選択)、性別や事象までの時間(time to event)(即ち、0−6ヶ月内でMI(心筋梗塞)、6−12ヶ月内でMIなど)をマッチさせた、5人の各個人からの等量(50μL)の血清サンプルを含有した。以後のマッチングは、近似的であった。患者ケースは、採血から5年以内にMlや、入院の不安定狭心症を伴った被験者であった。コントロールは、採血から5年以内に上記のいずれの疾患イベントとならなかった被験者であった。これらサンプルは、分類問題として評価され、テストパフォーマンスは、曲線下面積(AUC)を用いて判定した。
【0171】
AUCの観点からテストパフォーマンスは、(個々のマーカーに対する)測定値の分布、または実験デザインの時点で不明であったスコアの分布に、依存する。実際の実験デザイン(26症例、26コントロール)と同様のサンプルサイズのセットに対するテストの期待される性能を見積もるために、多くのシミュレーションが、変数やプールしているサンプル数に対する、異なる仮定分布を用いて行なわれた。使用された仮定分布は、a)正常、b)無仮説(chisq)、および、c)対数正規(log−normal)であった。あるプールサンプルの分布と数に対する適切な数の「コントロール」は、ランダムに選択されたものであり、対応する数の症例は、集団間の差異を表すために、既知の平均シフト分布から選択された。したがって、サイズMのプールのために、26*Mコントロールと26*M症例が選択され、プールサンプルの各々は、Mサンプルの値を平均することによって作成される。このプロセスは、500回繰り返され、予想されるAUCの分布は、プールされたサンプルの与えられた数と母集団の距離に対して推定された。
【0172】
図1は、個々のサンプル(白丸と実線の誤差範囲)と、プールされたサンプル(プール毎に5の固体サンプル)(白丸と破線の誤差範囲)を使用した際の、バイオマーカーの濃度やスコアの仮定対数正規分布の結果を示している。実線の黒のドットは、個々の測定のための理論的な答えを示している。予測AUCが、一貫して、個々のサンプルに対する真のAUCと予測AUCを過小評価していると観察されるが、(個々のサンプルの)不確かさの範囲は、プールされたサンプルのそれより小さい。図2は、測定値の想定正規分布の結果を表す。このケースでは、プールされたサンプルの結果は、理論的結果や個々のサンプル結果によく一致している。再び、プールされたサンプルの不確かさは、ヒトサンプルの対応する不確かさよりも小さい。仮定の無仮説分布は、対数正規分布から得られたものと一致する、多くのシミュレーション結果を提供した。これらのシミュレーションは、ヒトサンプルの分布が正規分布に従う場合は、プールされたサンプルの結果が、予測AUCの非常に良好な推定値を提供することを示しており、そうでなければ計算されたAUCは過小評価される。
【0173】
52のプールされたサンプルの38のmiRNAが、EXIQON社のUniRT(商標)LNA技術を用いて分析した。全RNAは、多少変更された、QIAGEN RNEASY(登録商標)ミニキットプロトコル(QIAGEN社、Valenica,CA)を使用して、提供血清サンプル(上記)から抽出した。
【0174】
全RNAはQIAGEN RNEASY(登録商標)ミニキットを用いて血清から抽出した。血清は、氷上で融解し、4℃5分間1,000×gで遠心した。サンプルあたり200μLの分量の血清を、新しいマイクロ遠心チューブへ移し、それに0.94μg/μLのMS2バクテリオファージを含むQiazol混合液750μLを添加した。チューブを混合し、200μLのクロロホルムを加えて、5分間インキュベートした。チューブを混合して2分間インキュベートし、4℃15分間12,000xgで遠心した。上澄部分を新しいマイクロ遠心チューブに回収し、1.5倍量の100%エタノールを追加した。チューブを完全に混合し、750μLのサンプルを、コレクションチューブ内のQIAGEN RNEASY(登録商標)ミニスピンカラムへ移し、室温で30秒、15,000xgで遠心分離した。
表3(表3−1〜表3−2)
【表3−1】
【表3−2】
【0175】
各RNAサンプルは、3つの独立した逆転写(RT)反応でcDNAに逆転写(RT)され、singlicateリアルタイムPCRまたは定量PCR(qPCR)反応として実行される。
【0176】
各384ウェルプレートは、2つのmiRNAのアッセイのためのすべてのサンプルの反応液を含んでいた。RTステップでの無テンプレートコントロール(RNAを水で置換)、及び、RTステップでの無酵素コントロール(テンプレートとしてプールされたRNAを使用)を、ネガティブコントロールとして、実験に含めた。すべてのアッセイで、無テンプレートコントロール及び無酵素コントロールの結果が陰性であったという点で、この品質管理手順をパスした。
【0177】
リアルタイムPCR解析の追加のステップは、各反応の融解曲線を生成することにより、アッセイの特異性を評価するために行われた。融解曲線解析時に単一のピークの出現は、単一の特定の産物が定量PCRの過程で増幅されたことを示している。複数の融解曲線ピークの出現は、関連する複数の定量PCR増幅産物の指標を提供し、これは特異性の欠如の証拠である。複数のピークを示したアッセイは、いずれもデータセットから除外されている。Cp(交点、すなわち、測定されたシグナルが予め設定されたしきい値を超えて交差する点で、標的配列の測定可能な濃度を示す点)の決定のため(2次微分法による)、及び、溶解曲線分析のために、増幅曲線は、LIGHTCYCLER(登録商標)ソフトウェア(Roche,Indianapolis,IN)を用いて分析された。
【0178】
PCR効率は、また、LIN REG(登録商標)ソフトウェア(オープンソースソフトウェア)でPCR増幅曲線を分析することにより評価した。5つのハウスキーピングmiRNA(miR−16、miR−93、miR−103、miR−192、およびmiR−451)の成績が、付属の血清サンプルから抽出したRNAの品質を評価するために使用された。
【0179】
38のmiRNAターゲット中の24は、サンプルで検出された。50のサンプル(26症例と24コントロール)が、これらのサンプルの分類分析の成績を評価し、状態を予測するmiRNAを選択するために使用された。次の方法論、a)ロジスティック回帰アプローチ、およびb)(L1ペナルティー・ラッソ(L1 penalty−lasso))を使用したペナルティロジスティック回帰アプローチは、モデルを構築するために用いた。モデルでベストの分類を提供した用語の選択は、a) 非ペナルティロジスティック回帰アプローチ(unpenalized logistic regression approach)のために、ベイズの情報基準(Bayesian Information criterion)を使用して前方選択を行うことにより、及び、b)のペナルティアプローチ(penalized approach)のために、最適なペナルティのクロスバリデーションに基づく選択により、完成した。後者では、ペナルティパラメータは、使用可能なパラメータの係数をゼロに追いやるため、結果として得られるモデルは、減少した数の予測miRNAだけを含む。パフォーマンスの客観的な尺度を評価するために、AUCは事前検証されたスコアを用いて算出した。事前検証は、クロスバリデーションのアプローチと非常によく似ており、与えられた結果を伴う「スコア」の関連付けは、与えられた検体のために、トレーニングセット内の特定の検体を使用せずにフィットしたモデルから予測されている値に基づいてされている。この分析では事前検証されたスコアは、以下の二つのアプローチに基づいて計算された。a)K分割交差検定(k−fold cross−validation)と、b)リーブ・ワン・アウト・交差検定(leave−one−out cross validation)である。事前検証の繰り返しは、N回(Nは、通常、100から1000まで)なされた。分析の完全なシーケンスは以下の通りである。
1)モデル選択のためのBICでの、ロジスティック回帰を使用して、またはトレーニングセットでの入れ子式の交差検定(nested cross−validation)を介して、ペナルティ関数を推定するペナルティロジスティック回帰を使用して、データのサブセットにモデルをフィットさせる。
2)K分割交差検定ために、モデルを、サンプルのK−1グループにフィットさせる。
3)リーブ・ワン・アウト・交差検定(leave−one−out cross validation)のために、M−1サンプル(ここでは、M=50)にフィットさせる。
4)フィットモデルを使用して、抜き出しサンプル(left−out samples)のスコアを予測する(交差検定のためのグループKと、リーブ・ワン・アウト・交差検定(leave−one−out cross validation)のための、1つの抜き出しサンプル(single left−out sample))。
5)すべてのスコアがすべてのサンプルに対して予測された後、分類問題のためにAUCを計算する。
6)AUCの変動を評価するために、ステップをN回(1から3)繰り返す。
【0180】
図3は、事前検定スコア計算100リピートで、ペナルティロジスティック回帰モデル(L1ペナルティ・ラッソ(L1 penalty−lasso))を使用して得られたAUC値の分布を示す。表4は、モデル選択と、ペナルティロジスティック回帰(L1ペナルティ・ラッソ(L1 penalty−lasso))とペナルティスコア計算のための10分割交差検定とを使用したフィッティングの過程で選択されたトップのmiRNAを示す。あるマーカーが、この実行で選択され得る最大回数は、1000である(100リピートのスコア事前検定と、各リピート間での10分割交差検定)。
表4(表4−1〜表4−2)
【表4−1】
【表4−2】
【0181】
表5は、L1ペナルティロジスティック回帰アプローチと組合せてリーブ・ワン・アウト・交差検定(leave−one−out(LOOV)cross−validation)(LOOCV)を使用して選択した、マーカーの数を示す。この2つの方法は、ほぼ同じ順序で選択された、非常に重複したマーカーのセットを、提供している。カウントの違いは、セット内のサンプル数からくるものである。対応するAUCは0.66である。
表5(表5−1〜表5−2)
【表5−1】
【表5−2】
【0182】
(実施例2)
個々のサンプル中のmiRNAの評価
フォローアップの実験は、実施例1に記載のEXIQON LNA(登録商標)を使用して、個々の血清サンプル中のmiRNAの検出と成績(26症例、26コントロール)の評価に集中した。合計90の miRNA(表6を参照)が、スクリーニングされ、それには、プールされたサンプルでスクリーニングされたmiRNAを含んでいた。この90 miRNAのターゲットのうち44は、個々の血清サンプルで検出された。プールされたサンプルで検出された24の miRNAは、個々のサンプルでも検出され、さらに追加的に、20のmiRNAが、個々のサンプルで検出された。5のmiRNAは、データの正規化のために使用され、分析対象から除外された。
表6(表6−1〜表6−4)
【表6−1】
【表6−2】
【表6−3】
【表6−4】
* 実施例1の一部として評価
**実施例2の一部として評価
【0183】
実施例1での記載と同様の方法論(methodlogy)は、このデータセットの分析のために使用された。リーブ・ワン・アウト・交差検定(leave−one−out crossvalidation)(LOOCV)と共に、ペナルティロジスティック回帰を使用することで、0.778に等しいAUCが提示された。個々のmiRNAが事前検定スコアの計算に使用されるモデルで選択された回数は、表7に示されている(50個のサンプルがあったので、合計50モデル)。平均モデルサイズは、〜8ターム(上位8のmiRNAは「*」で示されている)であった。期待値は、プールされたデータに対して得られた対応値よりも高い。
【表7】
【0184】
表8は、4分割交差検定でのL1ペナルティロジスティック回帰アプローチが50の個人サンプルに適用された時に選択されたmiRNAを提供する。再び、マーカーと順番のかなりの重複は、この2つの方法間で観察されている。図4は、この分析から得られたAUC値の分布を示す。
【表8】
【0185】
(実施例3)
タンパク質バイオマーカーの分析
(実施例1、2で使用されたマーシュフィールド・コホート(Marshfield cohort)からの)タンパク質のデータのみを含むモデルが、開発された。総計47のユニークなタンパク質バイオマーカー(表9)が分析された。血清サンプルは、回収され、−80℃で凍結保存され、その後、使用直前に解凍された。各サンプルは、2つの異なる検出技術:ルミネックス社(Luminex)(Austin,TX)のxMAP(登録商標)技術と、メソスケールディスカバリ社(Meso Scale Discovery)(MSD,Gaithersburg,MD)のMULTI−SPOT(登録商標)技術と、を使用して、分析された。
【表9】
【0186】
ルミネックスのxMAP(登録商標)技術は、色分けされた微粒子にプレコートされた分析物特異的抗体を利用している。微粒子、スタンダード、サンプルをウェルに分注し、固定化抗体は、対象分析物と結合する。適切な時間インキュベーションした後、粒子は、すべての非結合物質を除去するため、複数回、洗浄バッファー内で再懸濁される。対象分析物に特異的なビオチン化抗体カクテルを各ウェルに添加する。すべての非結合ビオチン化抗体を除去するための、第2のインキュベーション時間と洗浄を終えた後、ビオチン化検出抗体に結合する、ストレプトアビジン − フィコエリスリン結合体(streptavidin−phycoerythrin conjugate)(ストレプトアビジン−PE)を、各ウェルに添加する。最後の洗浄で、非結合のストレプトアビジン−PEを除去し、微粒子を緩衝液に再懸濁して、ルミネックス・アナライザを使用して読み込む。アナライザは、マルチレーザー検出システムを介して微粒子を方向付けるためにフローセルを使用している。1つのレーザーは、微粒子特異的であり、対象物が検出されていることを決定する。他のレーザーは、結合した分析物の量に直接比例して、フィコエリトリン由来の信号の大きさを決定する。曲線は、スタンダードによって生成された信号を使用して構築され サンプルのタンパク質バイオマーカーの濃度は、それぞれの曲線から読み込まれる。47のルミネックス(Luminex)タンパク質バイオマーカーアッセイの感度(検出限界、Limit of Detection, LOD)と精度(アッセイ内およびアッセイ間CV%)は、表10に示されている。
表10(表10−1〜表10−2)
【表10−1】
【表10−2】
【0187】
45のユニークなタンパク質バイオマーカーの中の10は、MSDプラットフォーム(表11)のに10プレックスアッセイ(10−plex assay)で分析した。
【表11】
【0188】
MSD(メソスケールディスカバリー、Meso Scale Discovery)技術は、各プレートの底部を炭素表面で構築された、特殊な96ウェルマイクロタイタープレートを採用している。各タンパク質バイオマーカーに特異的な抗体は、マイクロタイタープレートの各ウェルの底部にアレイ(spatial arrays)でスポットされている。スタンダードとサンプルを、プレコートプレートされたウェルに分注し、固定化抗体は、対象の分析物と結合する。適切な時間インキュベーションした後、プレートを複数回洗浄して、すべての非結合物質を除去する。SULFO−TAG(登録商標)で標識された、分析物に特異的な二次抗体カクテルを各ウェルに添加する。2回目のインキュベーションの後、プレートを再度複数回洗浄して、任意の非結合物質を除去し、専用のリード・バッファ(Read Buffer)を各ウェルに添加する。次いで、プレートをSECTOR(登録商標)イメージャーに設置すると、電流がマイクロタイタープレートの底部のカーボン電極に印加される。各スポットで、特異的二次抗体に結合したSULFO−TAG(登録商標)標識は、この電気刺激時に発光し、高感度CCDカメラで検出される。曲線は、スタンダードで生成されたシグナルを使用して構築され、サンプルの蛋白質バイオマーカーの濃度は、それぞれの曲線で読み込まれる。10のMSD(メソスケールディスカバリー)タンパク質バイオマーカーアッセイの感度(検出限界、LOD)と精度(内およびアッセイ間CV%)は、表12に示されている。
【表12】
【0189】
前述の事前検証済みスコア(prevalidated score)の計算にLOOVまたはK−分割交差検定でロジスティック回帰アプローチを用いて、モデルが構築され、パフォーマンスが評価された。図8は、事前検証済みスコアを予測するためにK−分割交差検定法のみを用いたタンパク質ベースのモデルから得られた、AUC値の分布を提供している。表13は、任意の交差検定モデルにおける、あるタンパク質マーカーの選択度数を提供する。高いカウントは、あるマーカーが一貫してコントロールから症例を分類する能力を持つことを示す。AUCは、事前検証済みスコアの計算にLOOVアプローチを使用して、0.698であると計算され、および、表14は、LOOV方法論を使用して構築した任意のモデル内のマーカーの、選択度数を提供している。後者のAUCは、k−分割交差検定アプローチから計算された不確実性の限界内にある。どちらの手法も同じトップマーカーを選択している。
【表13】
【表14】
【0190】
(実施例4)
miRNAとタンパク質バイオマーカーの複合解析
(実施例1、2からの)タンパク質データとmiRNAのデータの両方を含むモデルが、開発された。(実施例3からの)47のバイオマーカー全体のタンパク質データは、ルミネックス(Luminex Corp, Austin, TX)システムと、メソスケールディスカバリー(Meso Scale Discovery、MSD)システムの、2つの異なる検出技術を用いて得られた。タンパク質とmiRNAのデータを組み合わせたため、候補説明的変数(candidate explanatory variables)の数がサンプルの数を超えている。このような状況では、非ペナルティーメソッドの使用は適切ではないため、前述の事前検証済みスコア(prevalidated score)の計算にLOOVまたはK−分割交差検定(k−fold cross−validation)でペナルティ付きロジスティック回帰を用いて、モデルが構築され、パフォーマンスが評価された。図5は、miRNAとタンパク質の両方に基づいたモデルのためのAUC分布を提供する。AUCは、miRNAのみに対して得られたものと統計的に同等であるが、2つのmiRNAは一貫してモデルで選択されていた(表15を参照)。図6は、miRNAとタンパク質の相関の分布を示し、一方、図7は、miRNAの分布を示す。図6の2つの垂直線は、タンパク質とmiRNA間の最大と最小の相関関係を表している。いかなる特定の理論にも拘束されることを望まなければ、これらの相関関係は現在調査されていない調節作用に対応することができる。これら2つの図を比較すると、タンパク質は、このデータ・セット内の正の相関の高い数値を生成することを示している。
【表15】
【0191】
(実施例5)
miRNAバイオマーカーを用いた生存
本研究では、miRNAのレベルは、時間の経過とともに発生するあるイベント(ここではMl)のリスクを説明している。112の候補miRNAマーカーの、単変量、多変量分類および生存分析を行った。分類結果は、実施例2、3に記載の手法に基づいて得られた。生存解析はCox比例ハザード回帰手法を用いて行った。後の分析のための応答変数は、時間を含み、それは、あるイベントが発生した時間、または、研究の終了までの時間、および、時間があるイベントまたは研究の終了(打ち切り)に関連しているかどうかを示す指標、である。実施例2に記載の52サンプルについて、事象の時間またはフォローアップの終了時間が知られていた。研究の終了前にあるイベントを起こした26例については、ある事象のインジケータ変数は1に設定され、研究の期間内にある事象が起きなかった26例については、インジケータ変数は0に設定された。分析に含まれる説明変数は以下の通りで、: a)タンパク質レベル単独、 b)miRNAレベル単独、および、 c)miRNAレベル、タンパク質レベルのいずれか又は両方。モデルフィッティング(Model fitting)は、Cox比例ハザードモデルのペナルティ付きバージョンとペナルティ無し(unpenalized)バージョンの両方を使用して行われた。 モデルのペナルティ付きバージョンが適用される時は必ず、L1−ペナルティ(ラッソ(Lasso))を用いた。各モデルの変数選択(variable selection)は、実施例1に記載したものと同じアプローチを使用して行った。すなわち、 a)モデルの、ペナルティ無し(unpenalized)バージョンのための前進選択(forward selection)でのベイズ情報量規準(the Bayesian information criterion)を使用して、及び、 b)ペナルティ付きアプローチのための最適なペナルティの選択に基づいた交差検定(cross−validation)を使用して。客観的な方法でこれらのモデルの性能を評価するために、実施例1に記載のものと同様の方法で得られた事前検証済みスコア(prevalidated score)の計算が採用された。
【0192】
最初の分析(分類)では、生存時間は無視され、イベントまでの時間(タイム・ツー・イベント(time−to−event))にかかわらず、すべてのケースが同じように処理された。表16は、単変量の分類分析(univariate classification analysis)の結果を示している。この表内のマーカーは、予測AUCによって順位づけられている。表18(表17のミス!)は、多変量分類モデルにおけるmiRNAの選択度数(the selection frequency)を示している。多重ロジスティック回帰モデルは、LOOVアプローチを通じて得られたトレーニングセットの事前検証プロセス中に構築され、無視されたサンプル(the left−out−sample)のスコアを提供した。モデルのサイズは、ベイズ情報量規準(the Bayesian Information Criterion)の使用によって決定した。平均的な分類性能は、事前検証済み分類スコアのベクトルに基づいており、0.7に等しかった。
表16(表16−1〜表16−2)
【表16−1】
【表16−2】
【表17】
【0193】
表18は、単変量生存率分析の結果を示している。再び、このテーブル内のマーカーは、予測AUCによって順位づけられている。トップの選択マーカーは、分類分析から得られたものとほぼ同一であり、全体的なパフォーマンスは、時間依存性AUCで評価されるように、分類アプローチから得られたそれと同等であった。表19は、Cox比例ハザード回帰アプローチを用いた多変量生存率解析でのmiRNAマーカーの選択度数を示している。モデルにのみ基づいたmiRNAのために期待されるパフォーマンスは、事前検証(AUC= 0.78)を用いて推定した。トレーニングセットは、リーブ・ワン・アウト(leave−one−out)アプローチを介して構築され、各区画内でのモデルのサイズは、ベイズ情報量基準(the Bayesian information criterion)に基づいて決定された。平均的なモデルのサイズは8であった。
【表18】
【表19】
【0194】
(実施例6)
拡張されたmiRNAスクリーニング
miRNAバイオマーカーの、症例(case)対コントロールを区別するための能力を調べるために、現在miRBASE13に更新されている、Exiqonの水銀LNA(登録商標)ユニバーサルRTマイクロRNA PCRアレイ技術プラットフォームを使用して、以前に、実施例2の52の血清サンプルから得たRNA抽出物を、表1に示す720のmiRNA標的配列の存在に関してスクリーニングした。
【0195】
多くの分析が、各miRNAバイオマーカーの全体的な意義を提供するために結合された。単変量分類と生存分析は、重要な順に各ターゲットをランク付けするために使用された各個人のmiRNAターゲットのために、AUC値を提供した。多変量解析もまた、47の多変量モデルを生成するために実施された。miRNAターゲットは、それらが選択されたモデルの数によってランク付けされた。t−検定分析(1−tailed)もまた、症例(case)集団とコントロール集団における各miRNAターゲットのために測定されたCp値を比較して行われた。最後に、四分位数分析(a quartile analysis)が、データセットに対して行われた。各miRNAターゲットについては、すべてのサンプル(結合された症例集団とコントロール(対照)集団)が、Cp値に従って(低い値から高い値へ)ランク付けされた。ランク付けされた集団は、その後、各々が総集団の25%を含む4つの四分位数(four quartiles)に分割された。各四分位数での症例被験者と対照被験者の数は、その後記録された。もし、総数26症例のうち、65%より多いまたは35%未満が、「低い」四分位数にランクされた場合には、そのmiRNAターゲットは、重要とみなされた。
【0196】
拡張セットの720のmiRNAバイオマーカーの分析に基づいて、最終的な全体的なランクスコアが割り当てられるが、これは、miRNAターゲットのセット全体がランク付けされたことにより、全体の重要度スコアの生成を説明している。表20は、トップ50にスコアされているmiRNAを示している。
【表20】
【0197】
(実施例7)
タンパク質バイオマーカーベースの心血管リスクスコア
PMRP(Personalized Medicine,2(1):49−79(2005)).からの1123人のサンプルによって、心血管リスクスコアの開発がなされた。セットは、症例コホート・デザイン(a case−cohort design)に基づいて選択された。ベースラインの採血の時に40−80歳であった場合、および、事象MIを有した、または5年フォローアップの間に不安定狭心症(UA)のために入院した場合は、PMRPコホートからの被験者は、「症例」(cases)とみなした。合計で、385人の症例(初期Mlの164例、およびUAの221例)と838人のコントロールであった。利用可能なデータは、個々で測定された59(47のユニークな)のタンパク質バイオマーカー、および107の臨床的特徴であって、人口統計(年齢、性別、人種、糖尿病の状態、M1の家族歴、喫煙など)と、実験室での測定(総コレステロール、HDL、LDLなど)や薬の使用(スタチン、降圧薬、血糖降下薬など)を、含んでいた。
【0198】
単変量解析
各バイオマーカーと患者の転帰との関連付けは、Cox比例ハザード回帰と、Heagertyら(Survival Model Predictive Accuracy and ROC Curves Biometrics,61:92−105(2005))のKaplan−Meier法を使用した曲線(AUC)での時間依存的領域と、を使用して評価された。共通のスケール上で異なる濃度範囲のすべてのタンパク質バイオマーカーに亘ってハザード比(hazard ratio、HR)を提示するために、すべての被験者の値は、データをログ変換後コントロールの標準偏差で割ったコントロールの濃度の平均値を差し引くことにより、正規化された。ハザード比は、このように1つの標準偏差単位ごとに、表現された。図9は、リスクの多変量モデルを開発するための候補として使用された35のバイオマーカーの、未調整のハザード比と標準誤差を示す。22のバイオマーカーは、統計的に有意なHRを有する。
【0199】
年齢、性別、収縮期血圧、拡張期血圧、コレステロール、HDL、高血圧症、高血圧症治療薬の使用、高脂血症、糖尿病、喫煙という、従来型危険因子(traditional risk factors、TRFs)に対して各バイオマーカーを調整しながら、同じ分析を繰り返した(図10)。調整後、11のバイオマーカーだけが、統計的有意性を維持していたが、選択された上記TRFsが、心血管疾患に関連付けられていることは既知であったので、驚くべきことではない。図11A、図11Bは、最も高い時間依存性AUCと5年間のフォローアップでのその対応値を有するマーカーを示している。すべてのマーカーのAUCは、時間とともに減少していたNT−プロBNP(NT−proBNP)アッセイの2つのバージョンを除き、時間とともに一定のままであった
【0200】
多変量解析:Ml(心筋梗塞)および/またはUA(不安定狭心症)の予後スコアの開発
予後スコアの開発は、タンパク質バイオマーカーと同様、TRFs(従来型危険因子)を含めることを基礎としていた。年齢、性別、糖尿病、および家族歴の心血管イベントとの関連性が既知であったならば、これら4つのパラメータは、モデルに含まれた。これら4つのパラメータを含めることは、沢山のフォワードマーカー選択アルゴリズム(forward marker selection algorithms)を実行することによって確認された。すべてのアルゴリズムは、最終的な多変量アルゴリズムで4つの変数を選択した。最適なモデルサイズの決定は、以下の基準の使用に基づいてなされた。(a)赤池情報量基準(Akaike information criterion)、(b)ベイズ情報量基準(Bayesian information criterion)、(c)ドロップ・イン−逸脱基準(Drop−in−deviance criterion)、である。最初の2つは、インサンプルエラー推定法(in−sample error estimators)で知られており、3番目は、適合度(goodness−of−fit.)を推定する交差検証ループ(cross−validation loop)を利用している。3つのすべてのケースでは、モデルサイズは、最良のデータに適合し、過学習を回避するモデルに対して選ばれた。モデル選択のための特徴的なドロップイン・逸脱曲線(drop−in−deviance curve)(量の絶対値のプロット)を図12に示す。モデルのサイズは、曲線の最大値が同定され、その後、最大値の下に1標準誤差ポイントからラインを引く、1標準誤差ルール(1 standard error rule)の使用に基づいて選択された。タンパク質バイオマーカーの最適な数は、対応する平均絶対逸脱値が前述のラインを超える最小数として選ばれた。その数は7つのタンパク質バイオマーカーと一致し、すなわち、最適なリスクスコアは、それ故、4つのTRFsと7つのタンパク質バイオマーカーから構成されていた(図12)。すべての3つの方法は、モデル内のバイオマーカーの最適な数として5〜7のマーカーを選択した。バイオマーカーのより小さなセットは、常により大きなセットのサブセットであった。表21は、年齢、性別、糖尿病、およびMlの家族歴が、モデル内に入れ込まれた後に、選択されたバイオマーカーの度数とランキングを示している。これらのカウントとランキングは、交差検定プロセスの間に構築された別のモデルから得られた。1つのモデルは、すべてのトレーニング集団(training fold)のために構築され、そのサイズは、前述のモデル選択法の1つによって選択される。交差検定プロセスは、順番に平均的に各被験者のメンバーシップの割り当てによって導入された変動にわたって繰り返された。
【表21】
【0201】
表21は、5倍の事前検証(交差検証のフォーム)プロセスの4回繰り返し以上の各マーカーの、頻度選択(the frequency selection)、平均値、最小と最大のランクを示す。4つのTRFsは、各モデルに含めた。
【0202】
ドロップ・イン・逸脱アプローチ(the drop−in−deviance approach)で予測される最適なモデルサイズを使用して、Cox比例ハザードモデルは、異なる集団の検証を使用することができるモデルを得るために使用可能なすべてのデータにフィットした。この最終的なタンパク質ベースのモデルには、選択した順番で、次のタンパク質バイオマーカー、IL−16、エオタキシン、fasリガンド、CTACK、MCP−3、HGF、およびsFas、が含まれていた。
【0203】
(実施例8)
タンパク質モデルと他の標準的な予測モデルとの比較
心血管イベント(すなわち、MlまたはUA)の予測リスクの開示モデルのトランスポータビリティは、45−84歳の米国の集団から選択された第2の多民族コホートで評価した(アテローム性動脈硬化症コホートの多民族的研究)[Bild DE,Bluemke DA,Burke GL,Detrano R,Diez Roux AV,Folsom AR,Greenland P,Jacob DR,Jr.,Kronmal R,Liu K,Nelson JC,O’Leary D,Saad MF,Shea S,Szklo M,Tracy RP.アテローム性動脈硬化症の多民族的研究:目的とデザインAm J Epidemiol.2002;156(9):871−881]。
【0204】
開発に使用されたサンプルと、似て非なるサンプルでモデルの期待される性能を確立するために、事前検証メソッドが、第2の集団へモデルを適用する前に、再び使用された。2つのパフォーマンス・メトリック、純再分類指数(the Net Reclassification Index 、NRI)と臨床再分類指数(the Clinical Net Reclassification Index、CNRI)、が使用された。純再分類指数の定義は次式で与えられる。
【数16】
【0205】
式は、パーセントの観点から、症例(cases)とコントロールに対する改善を別々に評価し、単一の数値に結果を組み合わせる。症例に対する正パーセンタイル値とコントロールに対する負の正パーセンタイル値は、開示されたモデルで導入された性能の向上を表している。リスクカテゴリーは、既存の開示モデルによって予測されるリスクスコアのための、適切なしきい値を確立することによって定義されている。CNRIは同じ方法で定義されるが、改良された、グループ内の真のリスクの同定方法から得ることのできる集団のサブセットに適用される。心血管疾患については、例えばフラミンガム(Franimgham)スコアによって定義された中程度リスク集団で、NRIメトリックのアプリケーションは、この基準を満たす。計算値は、中程度リスクカテゴリのCNRIパフォーマンスを表している。
【0206】
伝統的に、10年リスクに対するラミンガム・スコアで計算された中程度リスクカテゴリーは、10%から20%の間のリスク・スコアを持つ個人として定義されている。ここで示した結果は、中程度リスクカテゴリーを定義するために、以下のカットオフ値:<3.5%、> 7.5%、を基礎としている。a)開示モデルは5年という期間に焦点を当て、およびb)フラミンガム・スコアが開発された場合、現在の集団でのイベント率は、観察値よりも低いので、これらのより低いカットオフ値の使用が正当化される。
【0207】
再分類比較は、与えられた対象に対して、各モデルからの絶対リスクの計算を必要とした。Cox比例ハザード(Cox PH)モデルを使用した各個人の絶対リスクの計算は、その特性とベースラインハザード推定とに基づいて、この個々人のための相対リスクの計算を必要とした。Cox PHモデルは相対的リスクを予測するために設計されているが、ハザード関数の特定を必要としない。Cox PHモデルから絶対リスク推定値を生成するために、我々は個々人の、または、「平均的」個人の絶対リスクを必要とし、この個人の、または平均人の、相対的なリスク推定を使用して、個々人の絶対リスクを計算した。平均人は、それぞれの予測因子に対する集団平均値を有する、仮想上の個人である。集団の真のベースライン・ハザードとそれに対応する「平均的な」人が知られていなければ、(心血管イベントのリスクを計算するための正しいモデルが未知であるため)、推定が提供される必要があった。R言語[R:統計コンピューティングのための言語と環境、R開発コアチーム、統計コンピューティングのためのR財団、ウィーン、オーストリア、2010]サーブフィット(survfit)関数が、平均的な個人のベースラインハザードを計算するために使用された。サーブフィット(survfit)関数は、計算に重みを使用している。つまり、集団の各メンバーは、平均と比較して推定されたリスクスコアに応じて重みを受容し、加重ハザード推定値は、ベースラインハザードのために使用される。ベースラインハザードの推定は、使用されたモデルに依存し、予測された相対的リスクにも依存する。開示モデル対FRS及びTRFベースのモデルの、再分類性能の公正な比較を行うために、適切なベースラインハザード推定が、不当にいずれかのモデルを支持していないことが必要とされた。比較対象の2つのモデルの平均スコアであるリスク・スコアを使用してベースラインハザードを計算するための好ましいアプローチは、以下に説明する。さらに、サーブフィット(survfit)関数は、カプラン・マイヤー(Kaplan−Meier)とアーレンの、2つの異なる推定法を実行した。両方の推定法は、テストの結果、観測された差異はごくわずかなものであった。集団に我々の結論を拡張するために、ベースライン生存関数は、研究のケース・コホートの重みを使用して、共変量の集団平均で評価された。
【0208】
絶対的なリスク・スコアに関して、二つのモデルを比較するためのベースラインハザードの推定の選択は難しい問題であり、文献では取り上げていない。集団の真のベースラインハザードが未知であるため、各モデルによって異なる推定を使用すると、比較の結果に重大な影響が生じ得る。ベースラインハザード推定の影響を調べるために、2つの異なる方法を用いて、すべての計算が行われた。 1)線形予測スコアを使用した個々のベースライン生存者の推定値に基づいて、各モデルの絶対リスクスコアが、各モデルによって計算され、 2)2つのスコアから平均線形予測を計算することによって得られる共通のベースライン生存者の推定値に基づいた、絶対リスクスコアは、集団平均で中央を占める。
【0209】
表22、表23、および表24は、以下の3つの代替モデルに対して、バイオマーカーを含む事前検証モデルのパフォーマンスが期待された、NRIとCNRIを提示している。 1)フラミンガム・リスクスコア(Framingham risk score、「FRS」)、 2)共変量として4つのTRFs(「4−TRF」:年齢、性別、糖尿病、M1の家族歴)を使用してマーシュフィールド・データ(Marshfield data)に適合されたモデル、 3)共変量として9のTRFs(「9−TRF」:年齢、性別、糖尿病、Mlの家族歴、喫煙、総コレステロール、HDL、高血圧治療薬服用、収縮期血圧)を使用してマーシュフィールド・データに適合された代替モデル。
【0210】
全体的に、タンパク質バイオマーカーを含有するモデルは、心血管イベントに対する5年リスクの3.5−7.5%および3.5−10%の範囲で、FRSまたはTRFベースモデルの、より優れた再分類を提供した。表22は、事前検証(マーシュフィールドのデータセット)に基づいて校正されたFRSスコアに対する、本開示のモデルのスコアの期待される再分類パフォーマンスを示している。表23および24は、それぞれ、事前検証(マーシュフィールドのデータセット)に基づいた4−TRFと9−TRFモデルのスコアに対する、期待される再分類スコアを示している。
【0211】
NRIとCNRIの両面で、総合的な再分類は、ベースライン生存関数を計算するための2つの方法のいずれの使用においても、同程度であった。しかし、2つの方法の総NRIまたは総CNRIを構成する、症例(cases)およびコントロールの再分類のバランスに、違いがあった。共通のベースライン生存関数法は、よりバランスのとれた再分類を提供してくれた。この結果は、モデルの相対的リスク予測のために得られた結果と一致した。図13A−Bは、FRS、本開示モデル(事前検証のアプローチの複数のリピートから得られる)、4−TRF、および9−TRFモデルのリニアスコア(linear scores)のカーネル密度推定の観点から、この比較を示している。本開示モデルのスコアは、他のモデルよりもより高く症例(case)の相対リスクを提供した。コントロールの分布はまた、本開示モデルのスコアのためにより広く、他のスコアに比してコントロールのリスクの上下のバランスを示した。これらの結果は、本開示モデルスコアが、他のスコアに関連する症例を正しく分類したという強力な特徴を提供した。
【0212】
(平均スコアを使用した)共通のベースライン生存関数法は、また、予測精度を向上させるための投票方式(voting scheme)(すなわち、加重平均)を使用する多くの統計的アプローチと一致した。
【表22】
事前検証(マーシュフィールドのデータセット)に基づいて校正されたフラミンガム・スコア(Framingham score)に対するアヴィール・スコア(Aviir score)の予測される再分類パフォーマンス
【表23】
事前検証(マーシュフィールドのデータセット)に基づいた4−TRFモデルスコアに対するアヴィール・スコア(Aviir score)の予測される再分類パフォーマンス
【表24】
事前検証(マーシュフィールドのデータセット)に基づいた9−TRFモデルスコアに対するアヴィール・スコア(Aviir score)の予測される再分類パフォーマンス
【0213】
(実施例9)
第2集団への開示モデルのトランスポータビリティ(transportability)
複数の集団間の予後モデルのトランスポータビリティの問題は、予測モデルの有用性のための究極のテストを提供する。モデルの統計的および臨床的妥当性は、モデルのトランスポータビリティの、等しく重要な側面である。1)内部検証、2)時間的検証、3)外部検証の、3段階の検証アプローチが、新しいテストのために提案されている。モデリング手法を検証するために、事前検証のアプローチ(交差検定フォーム)を使用した第1ステップの完了は、上述した。第2ステップは、同じ集団や臨床センターからの異なる患者セットでのアルゴリズムテストをする必要がある。マーシュフィールド・スタディと現在の時間との間の、最後のイベントが起きた時間が、単に短い期間(2年程度)であるなら、後発イベントの数は、同じ集団内の検証のためには小さすぎであった。したがって、外部検証ステップは、本開示のタンパク質モデルのトランスポータビリティのデモンストレーションとして設定された、MESAサンプルに、本開示のタンパク質モデルをテストすることによって実施された。
【0214】
MESAコホートにおける本開示モデルのパフォーマンスを評価するために、824のサンプル(222人の症例および602人のコントロール)が、実施例7に記載の蛋白質バイオマーカー(IL−16、エオタキシン(eotaxin)、fasリガンド、CTACK、MCP−3、HGF、およびsFas)のパネルを使用してアッセイされた。
【0215】
マーシュフィールド訓練済みモデル(Marshfield−trained model)は、MESAの結果からの知見やインプットなしに、マーシュフィールド集団で実行されたマーカー選択とモデルフィッティングによって、MESAサンプルの各対象のスコアを予測するために使用された。
【0216】
すべてのモデルの絶対リスクスコアの計算は、上記のアプローチに基づくものであった。危険因子とバイオマーカーに対する幾らかの欠損値のため、コホートの重みは各比較のそれぞれの状態(status)と性別の組み合わせに変更された。女性と男性の症例またはコントロールの再分類は、同じ重みを運ばないので、再分類の計算でも、同じ修正済みの重みを占めた。これは、欠損値はランダムな欠落によると仮定して、全集団に対して結果を適切に拡張する試みで行われた。
【0217】
表25、表26は、レイノルズスコア(Reynolds score)に対する比較と同様に、以前に提示したNRIとCNRIの観点から、本開示のモデルと、3つの他のモデルとの比較を示している[Ridker PM, Buring JE, Rifai N, et al. Development and validation of improved algorithms for the assessment of global cardiovascular risk in women: the Reynolds Risk Score JAMA 2007;297:611−619]。比較はマーシュフィールド・セットからの予測パフォーマンスと一致していた。本開示モデルは、ここに提示の他のいかなるトランスポートモデルの上にも、より良い臨床ネット再分類(clinical net reclassification)を提供した。ベースライン生存関数を推定するためのスコアの平均を用いる方法は、個々の推定値を用いる方法に比べて、症例とコントロール間の再分類によりよいバランスを提供した。これは、MESAサンプル(図14Aおよび14B)上でこれらのモデルの相対的リスク予測に、再度一致した。これらの結果は、明らかに、MESAセット内の、低中間(low intermediate)/中間のリスク集団の本開示モデルの臨床的有用性とトランスポータビリティをサポートしている。非糖尿病集団でのモデルの予測能力は、NRIとCNRIの観点から、表27に示されている。以降では、リスクの中間範囲は、参照モデルに基づいて、3.5から7.5%の間隔に設定されている。ベースラインで糖尿病と診断されたすべての被験者は、比較から除外されている。結果は、再び、非糖尿病患者のための中間リスクカテゴリーのモデルの臨床的有用性を示している。
【表25】
FRS、4−TRF、9−TRFモデルおよびレイノルズスコアモデル(Reynolds score models)に対してアヴィール・スコア(Aviir score)を比較した、MESAデータセットに対するNRIとCNRIの結果。CNRIは、参照モデルの3.5−10%リスクのベースラインの範囲に基づいている。バイオマーカーデータが不足している被験者は、比較から除外されている。
【表26】
FRS、4−TRF、9−TRFモデルおよびレイノルズスコアモデル(Reynolds score models)に対してアヴィール・スコア(Aviir score)を比較した、MESAデータセットに対するNRIとCNRIの結果。CNRIは、参照モデルの3.5−7.5%リスクのベースラインの範囲に基づいている。バイオマーカーデータが不足している被験者は、比較から除外されている。
【表27】
FRS、4−TRF、および9−TRFモデルに対してアヴィール・スコアを比較した、MESAデータセットに対するNRIとCNRIの結果。CNRIは、参照モデルの3.5−7.5%リスクのベースラインの範囲に基づいている。バイオマーカーデータが不足している被験者は、比較から除外されている。
【0218】
(実施例10)
ハイブリッド・バイオマーカー予後/診断モデル
タンパク質バイオマーカー/TRFに加えて、miRNAは、血液などの人間の体液で測定でき、ある被験者の将来の心血管イベントを予測するために使用することができる。
【0219】
表28で提示されているmiRNAセットから選択された共変量を有するハイブリッド予後モデルと、症例・コホート研究デザインを使用して単一スコアとして開示されたタンパク質・バイオマーカーモデル(実施例7−9を参照)とを、構築することによって、ハイブリッドのmiRNA/タンパク質バイオマーカーセットの予後パワーが決定される。コホート(cohort)は、対象とする時間フレーム内にMlに進展した全ての症例(N=200)と200のコントロールを含んでいる。より小さなコホートを効率的に利用するために、TRFsとタンパク質予測因子は、単一の計算されたスコア(単一変数)の観点から処理される、miRNAバイオマーカーの単変量関連づけ(univariate association)が、タンパク質バイオマーカーまたはTRFsについて観察されたそれよりも強力でない限り。後者のケースでは、多変量モデルが、使用可能なすべてのマーカー(TRFs、タンパク質バイオマーカー、miRNAs)から変数を選択する、ペナルティー付き回帰法の使用に基づいて構築される。前者の場合には、スコアの計算は、前述のように、より大きなコホートで事前に推定された係数を使用して行われる。交差検定(Cross−validation)とペナルティ付き回帰テクニックは、3タイプのモデルのモデルサイズとmiRNAマーカーを選択するために使用されている。 a)miRNAのみ(miRNA−only)のモデル、 b) TRF+miRNAベースモデル、および、 c)TRF+タンパク質+miRNAバイオマーカーベースモデル。適合されたモデルの期待されるパフォーマンスは、前述したTRF+タンパク質ベースモデル(実施例8−9を参照)と同様に、ハイブリッドモデルの時間依存性AUC、NRI、およびCNRI特性、対、FRSに基づいて、評価される。
【表28】
【0220】
特に断りのない限り、明細書および特許請求の範囲で使用されている、分子量、反応条件の様に、成分、特性などの量を表現するすべての数字は、全ての例で、用語「約」で変更されるものとして理解されるべきである。したがって、これに反する指示がない限り、明細書及び添付の特許請求の範囲に記載の数値パラメータは、本開示によって得られるように求められた所望の特性に依存して変化しうる近似である。少なくとも、特許請求の範囲に均等論の適用を制限する試みとしてではなく、各数値パラメータは少なくとも、報告された有効桁数の光の中で、普通の丸め技術を適用することによって解釈されるべきである。開示の広い範囲を記載した数値範囲および数値パラメータは近似値であるにもかかわらず、特定の実施例に記載の数値は可能な限り正確に報告されている。しかし、任意の数値は、本質的には、それぞれの試験測定に見られる標準偏差に必然的に起因する特定のエラーが含まれている。
【0221】
用語「a」、「an」、「the」、および本発明を説明する文脈(特に以下の特許請求の範囲の文脈)で使用される同様の指示は、特に文脈と明らかに矛盾したりまたはここに示さない限り、単数および複数の両方をカバーするために解釈されるべきである。本明細書での数値範囲の列挙は、単に、各個別の値がその範囲内にあることを個別に参照する簡単な方法として機能することを意図しているに過ぎない。そうでなければここに示されない限り、各個々の値は、それが本明細書に個々に記載されたかのように、本明細書に組み込まれている。そうでなければ本明細書に示された、あるいは明らかに文脈と矛盾しない限り、本明細書に記載のすべてのメソッドは、任意の適切な順序で実行することができる。本明細書で提供される任意のおよび全ての例、または典型的な言語(例えば、「など」)の使用は、本発明をより明らかにするためだけに意図され、それ以外の場合は、請求項に係る発明の範囲に制限をもたらすことはない。本明細書の言語は、本発明の実施に不可欠な任意のクレームされていない要素(non−claimed element)を示すものとして解釈されるべきではない。
【0222】
本発明の別の要素または実施形態のグループ分けは、それに制限されて解釈されるべきではない。各グループのメンバーは、参照され、個々にクレイムされ、グループの他のメンバーと組み合わされ、または、本明細書にある他の要素と組み合わされてクレムされることができる。利便性、および/または特許性の理由で、グループの1つまたは複数のメンバーが含まれるか、グループから削除されることは予想される。そのような包含または削除が発生した場合、明細書は、添付の特許請求の範囲で使用されているすべてのマーカッシュ群の記述要件を満たすよう修正されたグループが含まれているとみなされる。
【0223】
本発明の特定の実施形態は、本発明を実施するよう発明者に知られているベストモードを含んで、本明細書に記載されている。もちろん、これらの記載した実施形態のバリエーションは、上記の説明を読めば当業者に明らかになるであろう。本発明者は、当業者がそのようなバリエーションを適切に採用することを期待し、そして、さもなければ、本明細書に具体的に記載したこと以上に実施されると考えている。したがって、本発明は、適用される法律によって許可されているように、ここに添付した特許請求の範囲に記載されている主題のすべての改変および均等物を含んでいる。さらに、そうでなければここに示された、あるいは明らかに文脈と矛盾しない限り、すべての可能なバリエーションで、上記の要素の任意の組み合わせは、本発明に包含される。
【0224】
本明細書に開示される特定の実施形態は、言語からなる構成を使用する特許請求の範囲、または、本質的に言語からなる特許請求の範囲において、さらに制限を受けている。当初のクレーム又は補正の際に追加されるクレームで使用する場合、「〜から成る(consisting of)」との遷移用語は、特許請求の範囲に指定されていない任意の要素、ステップ、または成分を除外する。「本質的に、〜から成る(consisting essentially of)」との遷移用語は、指定された材料、ステップ、および基本的かつ新規な特徴に実質的に影響を与えないものに、特許請求の範囲が制限される。その様にクレームされた本発明の実施の形態は、本明細書に、本質的または明示的に記述され、使用可能である。
【0225】
さらに、本明細書を通して、多数の特許や刊行物が参照されている。上記の引用文献および刊行物の各々は、個別に、その全体が参照により本明細書に援用されている。
【0226】
最後に、本明細書に開示の本発明の実施形態は、本発明の原理を例示するものであることは理解されるべきである。採用可能な他の修正は、本発明の範囲内である。この様に、例示の方法で、しかしそれに限定されることなく、本発明の他の構成は、本明細書の教示に従って利用することができる。したがって、本発明は、正確に示され記載されたものに、限定されない。
【0227】
本明細書に開示される特定の実施形態は、言語からなる構成を使用する特許請求の範囲、または、本質的に言語からなる特許請求の範囲において、さらに制限を受けている。当初のクレーム又は補正の際に追加されるクレームで使用する場合、「〜から成る(consisting of)」との遷移用語は、特許請求の範囲に指定されていない任意の要素、ステップ、または成分を除外する。「本質的に、〜から成る(consisting essentially of)」との遷移用語は、指定された材料、ステップ、および基本的かつ新規な特徴に実質的に影響を与えないものに、特許請求の範囲が制限される。その様にクレームされた本発明の実施の形態は、本明細書に、本質的または明示的に記述され、使用可能である。
【特許請求の範囲】
【請求項1】
ヒトの心臓血管の健康を評価するための方法であって、
a)ヒトから生物学的サンプルを得ること、
b)前記生物学的サンプル中の、表20に記載のmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定すること、
c)各miRNAマーカーのレベルを有するデータセットを得ること、
d)前記生物学的サンプルを分類するために前記データを使用する分析・分類プロセスに、前記データを入力することであって、ここで、分類は、アテローム性動脈硬化心血管疾患の分類、健康の分類、薬剤曝露の分類、薬剤曝露無しの分類から成る群から選択されること、及び、
e)ステップ(d)の分類に基づいてヒトのための治療計画を決定することを含み、
当該ヒトの心臓血管の健康が評価されること、
を特徴とする、方法。
【請求項2】
前記少なくとも2つのmiRNAマーカーは、miR−378、miR−497、miR−21、miR−15b、miR−99a、miR−29a、miR−24、miR−30b、miR−29c、miR−331.3p、miR−19a、miR−22、miR−126、let−7b、miR−502.3、およびmiR−652から成る群から選択される、請求項1に記載の方法。
【請求項3】
前記少なくとも2つのmiRNAのマーカーは、miR−378、miR−497、miR−21、miR−15b、miR−99a、およびmiR−652から成る群から選択される、請求項2に記載の方法。
【請求項4】
前記アテローム性動脈硬化心血管疾患の分類は、冠動脈疾患、心筋梗塞(MI)、不安定狭心症から成る群から選択される、請求項1に記載の方法。
【請求項5】
さらに、アテローム性動脈硬化症の診断、アテローム性動脈硬化症のステージング、アテローム性動脈硬化症の予後、血管の炎症レベル、アテローム性動脈硬化症の進行の程度を、決定すること、治療反応をモニタリングすること、冠動脈カルシウムスコアを予測すること、アテローム性動脈硬化症症状の安定性のものと不安定なものとを区別すること、および、それらの組み合わせのために分類を使用することを特徴とする、請求項1に記載の方法。
【請求項6】
前記データセットはさらに、1つ以上の臨床的しるし(clinical indicia)のためのデータを含む、請求項1に記載の方法。
【請求項7】
前記1個以上の臨床的しるしは、年齢、性別、LDL濃度、HDL濃度、トリグリセリド濃度、血圧、ボディマス指数、CRP濃度、冠動脈カルシウムスコア、ウエスト周囲径、喫煙状況、心血管疾患の既往歴、心血管疾患の家族歴、心拍数、空腹時インスリン濃度、空腹時グルコース濃度、糖尿病の状態、高血圧薬の使用、およびそれらの組合せ、から成る群から選択される、請求項6に記載の方法。
【請求項8】
前記選択された臨床的しるしは、年齢、性別、糖尿病、およびMlの家族歴である、請求項7に記載の方法。
【請求項9】
前記生物学的サンプルは、血液、血清、血漿、唾液、尿、汗、母乳、及びそれらの組合せを含む、請求項1に記載の方法。
【請求項10】
さらに、前記生物学的サンプル中の少なくとも一つのタンパク質バイオマーカーのレベルを決定することを含む、請求項1に記載の方法。
【請求項11】
前記少なくとも1つのタンパク質バイオマーカーは、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGFおよびEGFから成る群から選択される、請求項10に記載の方法。
【請求項12】
前記少なくとも1つのタンパク質バイオマーカーは、IL−16、エオタキシン、Fasリガンド、CTACK、MCP−3、HGF、およびsFASから成る群から選択される、請求項11に記載の方法。
【請求項13】
3またはそれ以上の蛋白質バイオマーカーのレベルが決定される、請求項11に記載の方法。
【請求項14】
前記分析・分類プロセスは、予測モデルの使用を含む、請求項1に記載の方法
【請求項15】
前記分析・分類プロセスは、得られた前記データセットを参照データセットと比較することを含む、請求項1に記載の方法。
【請求項16】
前記予測モデルは、分類のために少なくとも0.68の少なくとも1つの品質メトリック(metric)を含む、請求項13に記載の方法。
【請求項17】
前記品質メトリックは、AUCと精度から選択される、請求項15に記載の方法。
【請求項18】
前記分析・分類プロセスは、線形判別分析モデル、サポートベクターマシン分類(support vector machine classification)アルゴリズム、帰納的な特徴除去(recursive feature elimination)モデル、マイクロアレイモデルの予測分析、ロジスティック回帰モデル、CARTアルゴリズム、フレックス・ツリー・アルゴリズム、LARTアルゴリズム、ランダムフォレスト・アルゴリズム、MARTアルゴリズム、機械学習アルゴリズム、ペナルティ付き回帰法(a penalized regression method)、およびそれらの組み合わせから成る群から選択される1以上のものの使用を含む、請求項1に記載の方法。
【請求項19】
前記分析・分類プロセスは、少なくとも0.68の品質メトリックを提供するように選択されるターム(terms)を含む、請求項18に記載の方法。
【請求項20】
前記分析・分類プロセスは、0.70の品質メトリックを提供するように選択されるタームを含む、請求項18に記載の方法。
【請求項21】
前記分析・分類プロセスは、分類のための少なくとも0.70の少なくとも1つの品質メトリックを含む、請求項18に記載の方法。
【請求項22】
前記治療計画は、追加検査、薬理学的介入、無治療、及びそれらの組合せからなる群から選択される1つまたは複数を含む、請求項1に記載の方法。
【請求項23】
ヒトの心臓血管の健康を評価するための方法であって、
a)ヒトから生物学的サンプルを得ること、
b)前記生物学的サンプル中の、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGFから成る群から選択される少なくとも3つのタンパク質マーカーのレベルを決定すること、
c)各タンパク質マーカーのレベルを有するデータセットを得ること、
d)生物学的サンプルを分類するために前記データを使用する分析・分類プロセスに、前記データを入力することであって、ここで、分類は、アテローム性動脈硬化症心血管疾患分類、健康分類、薬剤曝露分類、薬剤非曝露分類から成る群から選択されること、及び、
e)ステップ(d)の分類に基づいてヒトのための治療計画を決定することを含み、
当該ヒトの心臓血管の健康が評価されること、
を特徴とする、方法。
【請求項24】
前記少なくとも3つのタンパク質マーカーは、IL−16、エオタキシン(EOTAXIN)、Fasリガンド、CTACK、MCP−3、HGF、およびsFasからなる群から選択される、請求項23に記載の方法。
【請求項25】
前記データセットは、さらに、年齢、性別、LDL濃度、HDL濃度、トリグリセリド濃度、血圧、ボディマス指数、CRP濃度、冠動脈カルシウムスコア、ウエスト周囲径、喫煙状況、心血管疾患の既往歴、心血管疾患の家族歴、心拍数、空腹時インスリン濃度、空腹時グルコース濃度、糖尿病の状態、高血圧薬の使用、およびそれらの組合せから成る群から選ばれる1以上の臨床的しるしのためのデータを含む、請求項23に記載の方法。
【請求項26】
治療計画の必要性または有効性を決定するためにヒトの心臓血管の健康を評価するための方法であって、
ヒトから生物学的サンプルを得ること、
前記生物学的サンプルでの、表20に記載のmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定すること、
前記生物学的サンプルでの、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGFから成る群から選択される少なくとも3つのタンパク質マーカーのレベルを決定すること、
個々のmiRNAマーカーおよびタンパク質マーカーのレベルを構成するデータセットを得ること、
前記生物学的サンプルを分類するために前記データを使用する分析・分類プロセスに、前記データを入力することであって、ここで、該分類は、アテローム性動脈硬化症心血管疾患分類、健康分類、薬剤曝露分類、薬剤非曝露分類から成る群から選択されること、および、
前記分類プロセスの出力に応じて前記生物学的サンプルを分類し、前記分類に基づいてヒトのための治療計画を決定すること、
を特徴とする、方法。
【請求項27】
前記miRNAマーカーは、miR−378、miR−497、miR−21、miR−15b、miR−99a、miR−29a、miR−24、miR−30b、miR−29c、miR−331.3p、miR−19a、miR−22、 miR−126、let−7b、miR−502.3、およびmiR−652から成る群から選択される、請求項26に記載の方法。
【請求項28】
前記タンパク質バイオマーカーは、IL−16、エオタキシン、Fasリガンド、CTACK、MCP−3、HGF、およびsFASから成る群から選択される、請求項26に記載の方法。
【請求項29】
治療計画の必要性または有効性を決定するためにヒトの心臓血管の健康を評価するためのキットであって、
生物学的サンプル中の表20に記載のmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定するためのアッセイと、
使用説明書であって、
miRNAマーカーの個々のレベルで構成されるデータセットを取得すること、
前記生物学的サンプルを分類するために前記データを使用する、分析・分類プロセスに前記データを入力することであって、前記分類は、アテローム性動脈硬化心血管疾患の分類、健康の分類、薬剤曝露の分類、薬剤曝露無しの分類から成る群から選択されること、
前記分類プロセスの出力に応じて前記生物学的サンプルを分類すること、および、
前記分類に基づいてヒトのための治療計画を決定すること、のための使用説明書と、
を含む、キット。
【請求項30】
さらに、前記生物学的サンプルでの、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGFから成る群から選択される少なくとも3つのタンパク質マーカーのレベルを決定するためのアッセイと、
使用説明書であって、
前記タンパク質マーカーの個々のレベルで構成されるデータセットを取得すること、
前記生物学的サンプルを分類するために前記データを使用する、分析・分類プロセスに前記miRNAと前記タンパク質マーカーの前記データを入力することであって、前記分類は、アテローム性動脈硬化症心血管疾患分類、健康分類、薬剤曝露分類、薬剤非曝露分類から成る群から選択されること、
前記分類プロセスの出力に応じて前記生物学的サンプルを分類すること、および、
前記分類に基づいてヒトのための治療計画を決定すること、のための使用説明書と、
を含む、請求項29に記載のキット。
【請求項31】
ヒトの心血管イベントのリスクを評価するための方法であって、
a)ヒトから生物学的サンプルを得ること、
b)前記生物学的サンプル中の、表20に記載のmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定すること、
c)各miRNAマーカーのレベルを構成するデータセットを得ること、
d)前記データセットに基づいて心血管イベントのリスクを決定するために、リスク予測分析プロセスに前記データを入力すること、及び、
e)ステップ(d)の心血管イベントの予測リスクに基づいてヒトのための治療計画を決定することを含み、
当該ヒトの心臓血管イベントが評価されること、
を特徴とする、方法。
【請求項32】
前記心血管イベントのリスクは、サンプルが得られた日から、約1年、約2年、約3年、約4年、および約5年から成る群から選択された期間に対して決定される、請求項31に記載の方法。
【請求項33】
前記生物学的サンプルでの、3つ以上のタンパク質バイオマーカーのレベルを決定することを、さらに含む、請求項31に記載の方法。
【請求項34】
前記3つ以上のタンパク質バイオマーカーは、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGFから成る群から選択される、請求項33に記載の方法。
【請求項35】
前記3つ以上のタンパク質バイオマーカーは、IL−16、エオタキシン、Fasリガンド、CTACK、MCP−3、HGF、およびsFASから成る群から選択される、請求項34に記載の方法。
【請求項36】
ヒトの心臓血管イベントのリスクを評価するための方法であって、
a)ヒトから生物学的サンプルを得ること、
b)前記生物学的サンプルでの、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGFから成る群から選択される1以上のタンパク質マーカーのレベルを決定すること、
c)各タンパク質マーカーのレベルを構成するデータセットを得ること、
d) 前記データセットに基づいて心血管イベントのリスクを決定するために、リスク予測分析プロセスに前記データを入力こと、及び、
e)ステップ(d)の心血管イベントの予測リスクに基づいて、ヒトのための治療計画を決定することを含み、
当該ヒトの心血管イベントのリスクが評価されること、
を特徴とする、方法。
【請求項37】
心血管イベントのリスクは、サンプルが得られた日から、約1年、約2年、約3年、約4年、および約5年から成る群から選択された期間に対して決定される、請求項36に記載の方法。
【請求項1】
ヒトの心臓血管の健康を評価するための方法であって、
a)ヒトから生物学的サンプルを得ること、
b)前記生物学的サンプル中の、表20に記載のmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定すること、
c)各miRNAマーカーのレベルを有するデータセットを得ること、
d)前記生物学的サンプルを分類するために前記データを使用する分析・分類プロセスに、前記データを入力することであって、ここで、分類は、アテローム性動脈硬化心血管疾患の分類、健康の分類、薬剤曝露の分類、薬剤曝露無しの分類から成る群から選択されること、及び、
e)ステップ(d)の分類に基づいてヒトのための治療計画を決定することを含み、
当該ヒトの心臓血管の健康が評価されること、
を特徴とする、方法。
【請求項2】
前記少なくとも2つのmiRNAマーカーは、miR−378、miR−497、miR−21、miR−15b、miR−99a、miR−29a、miR−24、miR−30b、miR−29c、miR−331.3p、miR−19a、miR−22、miR−126、let−7b、miR−502.3、およびmiR−652から成る群から選択される、請求項1に記載の方法。
【請求項3】
前記少なくとも2つのmiRNAのマーカーは、miR−378、miR−497、miR−21、miR−15b、miR−99a、およびmiR−652から成る群から選択される、請求項2に記載の方法。
【請求項4】
前記アテローム性動脈硬化心血管疾患の分類は、冠動脈疾患、心筋梗塞(MI)、不安定狭心症から成る群から選択される、請求項1に記載の方法。
【請求項5】
さらに、アテローム性動脈硬化症の診断、アテローム性動脈硬化症のステージング、アテローム性動脈硬化症の予後、血管の炎症レベル、アテローム性動脈硬化症の進行の程度を、決定すること、治療反応をモニタリングすること、冠動脈カルシウムスコアを予測すること、アテローム性動脈硬化症症状の安定性のものと不安定なものとを区別すること、および、それらの組み合わせのために分類を使用することを特徴とする、請求項1に記載の方法。
【請求項6】
前記データセットはさらに、1つ以上の臨床的しるし(clinical indicia)のためのデータを含む、請求項1に記載の方法。
【請求項7】
前記1個以上の臨床的しるしは、年齢、性別、LDL濃度、HDL濃度、トリグリセリド濃度、血圧、ボディマス指数、CRP濃度、冠動脈カルシウムスコア、ウエスト周囲径、喫煙状況、心血管疾患の既往歴、心血管疾患の家族歴、心拍数、空腹時インスリン濃度、空腹時グルコース濃度、糖尿病の状態、高血圧薬の使用、およびそれらの組合せ、から成る群から選択される、請求項6に記載の方法。
【請求項8】
前記選択された臨床的しるしは、年齢、性別、糖尿病、およびMlの家族歴である、請求項7に記載の方法。
【請求項9】
前記生物学的サンプルは、血液、血清、血漿、唾液、尿、汗、母乳、及びそれらの組合せを含む、請求項1に記載の方法。
【請求項10】
さらに、前記生物学的サンプル中の少なくとも一つのタンパク質バイオマーカーのレベルを決定することを含む、請求項1に記載の方法。
【請求項11】
前記少なくとも1つのタンパク質バイオマーカーは、IL−16、sFAS、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGFおよびEGFから成る群から選択される、請求項10に記載の方法。
【請求項12】
前記少なくとも1つのタンパク質バイオマーカーは、IL−16、エオタキシン、Fasリガンド、CTACK、MCP−3、HGF、およびsFASから成る群から選択される、請求項11に記載の方法。
【請求項13】
3またはそれ以上の蛋白質バイオマーカーのレベルが決定される、請求項11に記載の方法。
【請求項14】
前記分析・分類プロセスは、予測モデルの使用を含む、請求項1に記載の方法
【請求項15】
前記分析・分類プロセスは、得られた前記データセットを参照データセットと比較することを含む、請求項1に記載の方法。
【請求項16】
前記予測モデルは、分類のために少なくとも0.68の少なくとも1つの品質メトリック(metric)を含む、請求項13に記載の方法。
【請求項17】
前記品質メトリックは、AUCと精度から選択される、請求項15に記載の方法。
【請求項18】
前記分析・分類プロセスは、線形判別分析モデル、サポートベクターマシン分類(support vector machine classification)アルゴリズム、帰納的な特徴除去(recursive feature elimination)モデル、マイクロアレイモデルの予測分析、ロジスティック回帰モデル、CARTアルゴリズム、フレックス・ツリー・アルゴリズム、LARTアルゴリズム、ランダムフォレスト・アルゴリズム、MARTアルゴリズム、機械学習アルゴリズム、ペナルティ付き回帰法(a penalized regression method)、およびそれらの組み合わせから成る群から選択される1以上のものの使用を含む、請求項1に記載の方法。
【請求項19】
前記分析・分類プロセスは、少なくとも0.68の品質メトリックを提供するように選択されるターム(terms)を含む、請求項18に記載の方法。
【請求項20】
前記分析・分類プロセスは、0.70の品質メトリックを提供するように選択されるタームを含む、請求項18に記載の方法。
【請求項21】
前記分析・分類プロセスは、分類のための少なくとも0.70の少なくとも1つの品質メトリックを含む、請求項18に記載の方法。
【請求項22】
前記治療計画は、追加検査、薬理学的介入、無治療、及びそれらの組合せからなる群から選択される1つまたは複数を含む、請求項1に記載の方法。
【請求項23】
ヒトの心臓血管の健康を評価するための方法であって、
a)ヒトから生物学的サンプルを得ること、
b)前記生物学的サンプル中の、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGFから成る群から選択される少なくとも3つのタンパク質マーカーのレベルを決定すること、
c)各タンパク質マーカーのレベルを有するデータセットを得ること、
d)生物学的サンプルを分類するために前記データを使用する分析・分類プロセスに、前記データを入力することであって、ここで、分類は、アテローム性動脈硬化症心血管疾患分類、健康分類、薬剤曝露分類、薬剤非曝露分類から成る群から選択されること、及び、
e)ステップ(d)の分類に基づいてヒトのための治療計画を決定することを含み、
当該ヒトの心臓血管の健康が評価されること、
を特徴とする、方法。
【請求項24】
前記少なくとも3つのタンパク質マーカーは、IL−16、エオタキシン(EOTAXIN)、Fasリガンド、CTACK、MCP−3、HGF、およびsFasからなる群から選択される、請求項23に記載の方法。
【請求項25】
前記データセットは、さらに、年齢、性別、LDL濃度、HDL濃度、トリグリセリド濃度、血圧、ボディマス指数、CRP濃度、冠動脈カルシウムスコア、ウエスト周囲径、喫煙状況、心血管疾患の既往歴、心血管疾患の家族歴、心拍数、空腹時インスリン濃度、空腹時グルコース濃度、糖尿病の状態、高血圧薬の使用、およびそれらの組合せから成る群から選ばれる1以上の臨床的しるしのためのデータを含む、請求項23に記載の方法。
【請求項26】
治療計画の必要性または有効性を決定するためにヒトの心臓血管の健康を評価するための方法であって、
ヒトから生物学的サンプルを得ること、
前記生物学的サンプルでの、表20に記載のmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定すること、
前記生物学的サンプルでの、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGFから成る群から選択される少なくとも3つのタンパク質マーカーのレベルを決定すること、
個々のmiRNAマーカーおよびタンパク質マーカーのレベルを構成するデータセットを得ること、
前記生物学的サンプルを分類するために前記データを使用する分析・分類プロセスに、前記データを入力することであって、ここで、該分類は、アテローム性動脈硬化症心血管疾患分類、健康分類、薬剤曝露分類、薬剤非曝露分類から成る群から選択されること、および、
前記分類プロセスの出力に応じて前記生物学的サンプルを分類し、前記分類に基づいてヒトのための治療計画を決定すること、
を特徴とする、方法。
【請求項27】
前記miRNAマーカーは、miR−378、miR−497、miR−21、miR−15b、miR−99a、miR−29a、miR−24、miR−30b、miR−29c、miR−331.3p、miR−19a、miR−22、 miR−126、let−7b、miR−502.3、およびmiR−652から成る群から選択される、請求項26に記載の方法。
【請求項28】
前記タンパク質バイオマーカーは、IL−16、エオタキシン、Fasリガンド、CTACK、MCP−3、HGF、およびsFASから成る群から選択される、請求項26に記載の方法。
【請求項29】
治療計画の必要性または有効性を決定するためにヒトの心臓血管の健康を評価するためのキットであって、
生物学的サンプル中の表20に記載のmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定するためのアッセイと、
使用説明書であって、
miRNAマーカーの個々のレベルで構成されるデータセットを取得すること、
前記生物学的サンプルを分類するために前記データを使用する、分析・分類プロセスに前記データを入力することであって、前記分類は、アテローム性動脈硬化心血管疾患の分類、健康の分類、薬剤曝露の分類、薬剤曝露無しの分類から成る群から選択されること、
前記分類プロセスの出力に応じて前記生物学的サンプルを分類すること、および、
前記分類に基づいてヒトのための治療計画を決定すること、のための使用説明書と、
を含む、キット。
【請求項30】
さらに、前記生物学的サンプルでの、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGFから成る群から選択される少なくとも3つのタンパク質マーカーのレベルを決定するためのアッセイと、
使用説明書であって、
前記タンパク質マーカーの個々のレベルで構成されるデータセットを取得すること、
前記生物学的サンプルを分類するために前記データを使用する、分析・分類プロセスに前記miRNAと前記タンパク質マーカーの前記データを入力することであって、前記分類は、アテローム性動脈硬化症心血管疾患分類、健康分類、薬剤曝露分類、薬剤非曝露分類から成る群から選択されること、
前記分類プロセスの出力に応じて前記生物学的サンプルを分類すること、および、
前記分類に基づいてヒトのための治療計画を決定すること、のための使用説明書と、
を含む、請求項29に記載のキット。
【請求項31】
ヒトの心血管イベントのリスクを評価するための方法であって、
a)ヒトから生物学的サンプルを得ること、
b)前記生物学的サンプル中の、表20に記載のmiRNAの中から選択される少なくとも2つのmiRNAマーカーのレベルを決定すること、
c)各miRNAマーカーのレベルを構成するデータセットを得ること、
d)前記データセットに基づいて心血管イベントのリスクを決定するために、リスク予測分析プロセスに前記データを入力すること、及び、
e)ステップ(d)の心血管イベントの予測リスクに基づいてヒトのための治療計画を決定することを含み、
当該ヒトの心臓血管イベントが評価されること、
を特徴とする、方法。
【請求項32】
前記心血管イベントのリスクは、サンプルが得られた日から、約1年、約2年、約3年、約4年、および約5年から成る群から選択された期間に対して決定される、請求項31に記載の方法。
【請求項33】
前記生物学的サンプルでの、3つ以上のタンパク質バイオマーカーのレベルを決定することを、さらに含む、請求項31に記載の方法。
【請求項34】
前記3つ以上のタンパク質バイオマーカーは、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGFから成る群から選択される、請求項33に記載の方法。
【請求項35】
前記3つ以上のタンパク質バイオマーカーは、IL−16、エオタキシン、Fasリガンド、CTACK、MCP−3、HGF、およびsFASから成る群から選択される、請求項34に記載の方法。
【請求項36】
ヒトの心臓血管イベントのリスクを評価するための方法であって、
a)ヒトから生物学的サンプルを得ること、
b)前記生物学的サンプルでの、IL−16、sFas、Fasリガンド、MCP−3、HGF、CTACK、エオタキシン(EOTAXIN)、アディポネクチン(adiponectin)、IL−18、TIMP.4、TIMP.1、CRP、VEGF、およびEGFから成る群から選択される1以上のタンパク質マーカーのレベルを決定すること、
c)各タンパク質マーカーのレベルを構成するデータセットを得ること、
d) 前記データセットに基づいて心血管イベントのリスクを決定するために、リスク予測分析プロセスに前記データを入力こと、及び、
e)ステップ(d)の心血管イベントの予測リスクに基づいて、ヒトのための治療計画を決定することを含み、
当該ヒトの心血管イベントのリスクが評価されること、
を特徴とする、方法。
【請求項37】
心血管イベントのリスクは、サンプルが得られた日から、約1年、約2年、約3年、約4年、および約5年から成る群から選択された期間に対して決定される、請求項36に記載の方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11A】
【図11B】
【図12】
【図13A−B】
【図14A−B】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11A】
【図11B】
【図12】
【図13A−B】
【図14A−B】
【公表番号】特表2013−513387(P2013−513387A)
【公表日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願番号】特願2012−543298(P2012−543298)
【出願日】平成22年12月9日(2010.12.9)
【国際出願番号】PCT/US2010/059781
【国際公開番号】WO2011/072177
【国際公開日】平成23年6月16日(2011.6.16)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(512151539)アヴィール インコーポレイテッド (1)
【Fターム(参考)】
【公表日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願日】平成22年12月9日(2010.12.9)
【国際出願番号】PCT/US2010/059781
【国際公開番号】WO2011/072177
【国際公開日】平成23年6月16日(2011.6.16)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(512151539)アヴィール インコーポレイテッド (1)
【Fターム(参考)】
[ Back to top ]