説明

インビトロで多因子疾患を診断する方法

本発明は、生体試料中の癌、特に、急性骨髄性白血病(AML)、結腸癌、腎臓癌、前立腺癌;一過性脳虚血発作(TIA)、虚血、特に脳卒中、低酸素、低酸素性虚血性脳症、周産期脳損傷、仮死新生児低酸素性虚血性脳症;脱髄性疾患、特に、白質疾患、脳室周囲白質脳症、多発性硬化症、アルツハイマーおよびパーキンソン病、等の多因子疾患をインビトロで診断するための方法およびキットに関する。診断のために、少なくとも2つの異なる種の生体分子ならびに適切な分類器アルゴリズムおよび他の統計的手法による結果の分類を利用する。本発明により、例えば、発現プロファイルの信頼性の大きな改善がなされる。すなわち、一定の集団において100%までの正確な確定診断が可能となり、このことが本発明方法を先行技術に対して優れたものにしている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は請求項1に従ってインビトロで多因子疾患またはそのタブタイプを診断する方法、および請求項18に従ってその方法を実行するキットに関する。
【0002】
標準的な患者の検診および診断では、開業医は多くの診断ツールを使って特定の疾患を有する患者を診断する。これらのツールのなかで、一連の単一のルーチンパラメーター、例えば、血液サンプル中のパラメーター、の測定が通常の実験室的診断手法である。これらの単一パラメーターには、例えば、酵素活性および酵素濃度および/またはグルコース等の代謝指標の検出がある。容易にかつ明確に臨床化学により確立された単一のパラメーター、または2、3のパラメーターに関連付けることができる疾患に関する限り、これらのツールは最近の臨床検査および診断には不可欠なツールであることが明らかになっている。糖尿病の場合のようにうまく適合したカットオフ値があるという前提があれば、血糖のような臨床化学パラメーターを信頼して診断に使うことができる。通常、高い血中グルコース濃度がインスリン遺伝子の遺伝的欠損を反映しているように、先導的パラメーターが生成されるよく知られている病態生理学的メカニズムを根底に内在している病態生理学的状態を調査する場合、特に、このような単一パラメーターが「その」疾患の信頼できるバイオマーカーであることがわかっている。
【0003】
しかし、癌または多発性硬化症等の脱髄疾患のような病態生理学的条件では、明確に帰すべき単一パラメーターまたはマーカーが無く、血液または組織試料による鑑別診断は現状では困難ないし不可能となっている。それでも、癌の予防、検診、診断、治療および後処理では、特定の種類の癌に対しある程度特異性のある一連のいわゆる「腫瘍マーカー」をそれぞれ使って悪性プロセスの診断と治療のモニターを行うのが臨床ルーチンである。現在使われているこのような腫瘍マーカーには、例えば、α1−フェトプロテイン、癌抗原125(CA125)、癌抗原15−3、CA50、CA72−4、炭水化物抗原19−9、カルシトニン、癌胎児抗原(CEA)、サイトケラチン断片21−1、ムチン様癌関連抗原、神経特異的エノラーゼ、核マトリックスタンパク質22、アルカリフォスファターゼ、前立腺特異的抗原(PSA)、扁平上皮癌抗原、テロメラーゼ、チミジンキナーゼ、チレオグロブリン、および組織ポリペプチド抗原がある。
【0004】
先行技術では、この間もすでに多くの上記腫瘍マーカーがルーチン的に使われているが、一回の測定により信頼できる診断を得るのが難しいことが多い。一例であるが、非喫煙者ではCEAのカットオフ値は4.6ng/mlで、一方、喫煙者の25%が3.5〜10ng/mlの範囲の正常値を示し、また喫煙者の1%が10ng/mlを越える正常値を示す。従って、20ng/mlを越える値のみが、「悪性プロセスが極めて疑わしい」と解釈されねばならない。これでは、大きなグレーゾーンが残され、この領域では医師は患者の試料から測定したCEA値に頼ることはできない。
【0005】
EP540573B1には、前立腺特異的抗原(PSA)に関して同様のカットオフ値の問題が開示されている。通常、総PSAが測定され、患者の前立腺癌を診断または除去するが、この値がグレーゾーンにある場合、遊離PSAに特異的なモノクローナル抗体アッセイを使って、総PSAに追加して遊離PSAも測定し両パラメーターの比率を計算することにより良性の前立腺肥大と前立腺癌を鑑別する、さらに正確な手段を用いるのが普通である。
【0006】
前記のCEAとPSA検出の例は、単一の腫瘍マーカーでは、一方で比較的低い特異性と、他方で、得られた値の解釈が難しい不確かで信頼性の低いカットオフ値が普通であることを強く示すものである。
【0007】
従って、一般的な結論として、検診における腫瘍マーカーの使用を曖昧なものとして考えるのが望ましい。さらなる臨床的相関のない腫瘍マーカーの増加レベルにより患者が落胆させられ、また、これがいかなる診断の価値も有しないことが、珍しいことではない。
【0008】
さらに、悪性疾患の後処理において、各腫瘍マーカーが陽性反応を示すまでに、癌細胞の「臨界質量」が最初に必要であることに注意しなければならない。また、全ての再発性腫瘍が腫瘍マーカーレベルの増加を伴わねばならないとは限らない。
【0009】
要約すると、単一の腫瘍マーカーは、内視鏡検査および生検のような他の診断ツールと一緒に、また続けて組織学的検査を行う場合のみ診断に使えることがわかったが、ルーチン癌検診に使うには信頼性がない。
【0010】
単一腫瘍マーカーの腫瘍マーカーの先行技術に対し、マイクロアレイ技術による複数の遺伝子の遺伝子発現レベルを利用することが急速に進展した。
【0011】
例えば、WO 2004111197A2は、発現プロファイリング、例えば、アレイベース遺伝子発現プロファイリングによって解析できる気道上皮細胞RNAを得るための低侵襲試料入手方法を開示している。これらの方法を使って、肺障害もしくは肺障害に対する感受性の診断または予測のために、癌のような肺障害の診断法である遺伝子発現のパターンを特定し、肺障害の進行の危険に曝されている患者を特定し、また、アレイ、例えば、マイクロアレイのカスタムデザインを行うことができる。配列と情報価値のある遺伝子も、この目的のため開示されている。
【0012】
このような同義遺伝子手法は上述の単一パラメーターよりは信頼性がずっと高いが、複雑な数学的、かつバイオインフォマティクス的手順が必要である。にもかかわらず、これらの遺伝子発現サインは癌の診断に有望なツールである。しかし、内在する統計データや一種の核酸への限定に起因して信頼性のない結果や検証問題に繋がることもあるという不確定な制約もある。
【0013】
疾患のある患者を特定するための早期診断のために、患者の予備選択と層別化に使用するために、また、治療の管理が診断法開発の主要目的であり、種々の多因子疾患、特に癌で緊急の必要性がいまだにあることから、前述の先行技術から明らかなように、可能な限り高い信頼性のある感度と特異性を有する診断ツールとしてバイオマーカーの使用を可能にすることが本発明の課題である。
【0014】
上述の課題は、請求項1に記載の方法および請求項18に記載のキットにより解決される。特に、本発明は、インビトロで、少なくとも1つの哺乳類の患者の組織の少なくとも1つの生物学的試料を用いて、癌、特に、急性骨髄性白血病(AML)結腸癌、腎臓癌、前立腺癌;虚血、特に脳卒中、低酸素症、低酸素性虚血性脳症、周産期脳損傷、仮死新生児低酸素性虚血性脳症; 脱髄性疾患、特に、白質疾患、脳室周囲白質脳症、多発性硬化症、からなる群から選択された多因子疾患またはそのサブタイプを診断する方法であって、
a)少なくとも2つの異なった種の生体分子を選択するステップであって、前記生体分子がRNAおよび/またはそのDNAカウンターパート、マイクロRNAおよび/またはそのDNAカウンターパート、ペプチド、タンパク質、および代謝物の群から選択されるステップと、
b)前記試料のそれぞれの種の複数の生体分子の存在(陽性または陰性)、定性的および/または定量的分子パターンおよび/または分子サイン、レベル、量、濃度および発現レベルの群から選択された少なくとも1つのパラメーターを、少なくとも2セットの異なる種の生体分子を使って測定し、得られた一連の値を生データとしてデータベースに蓄積するステップと、
c)前記生データを数学的に前処理してステップb)の測定手続きに固有の技術的エラーを減らすステップと、
d)ロジスティック回帰分析、(対角)線形または二次判別分析(LDA、QDA、DLDA、DQDA)、パーセプトロン、収縮重心法正規化判別分析(RDA)、ランダムフォレスト(RF)、ニューラルネットワーク(NN)、ベイジアンネットワーク、隠れマルコフモデル、サポートベクターマシン(SVM)、一般部分最小二乗法(GPLS)、パーティショニングアラウンドメドイド法(partitioning around medoid)(PAM)、自己組織化マップ(SOM)、再帰分割および回帰ツリー、K近傍分類器(K−NN)、ファジー分類器、バッギング、ブースティング、および単純ベイズの群から少なくとも1つの適切な分類アルゴリズムを選択し、前記選択した分類アルゴリズムを前記ステップc)の前処理データに適用するステップと、
e)ステップd)の前記分類アルゴリズムを、その病態生理学的、生理的、予後的、または応答者としての状態に従ってクラスに分類された患者の前処理データを含む、少なくとも1つの訓練データセットを使って訓練して分類器機能を選択し前記前処理データを前記状態にマッピングするステップと、
f)前記訓練したステップe)の分類アルゴリズムを病態生理学的、生理的、予後的、または応答者としての未知の状態の患者の前処理したデータセットに適用し、訓練した分類アルゴリズムを使って前記データセットのクラスラベルを予測して患者の状態を診断するステップと、
を含む方法を提供する。
従属請求項2〜18は本発明の好ましい実施形態である。
【0015】
本発明は、前述の課題に対する回答を与え、また、一般的には、これに限定されるものではないが、mRNA発現データ、マイクロRNA発現データ、プロテオミクスデータ、およびメタボロミクスデータを含む「オミクス(omics)」データの使用、分子サインの特定のための機械学習によるそれぞれ統計的な訓練、およびバイオマーカーに関する。これには、ポリメラーゼ連鎖反応(PCR)、マイクロアレイおよびRNA濃度の測定のためのシーケンシング等の他の方法、質量分析(MS)によるタンパク質の特定と定量化、特にMALDI、ESI、大気圧化学イオン化(APCI)等のMS技術、および他の方法、等の既知の方法による前述の生体分子の濃度の測定、MS技術または代替法による代謝物濃度の測定、これに続く特徴選択および少なくとも2つの分子レベルの分子データ(すなわち、少なくとも2つの異なるタイプの内在性生体分子、例えば、RNA濃度+メタボロミクスデータ、それぞれ代謝物濃度またはRNA濃度+タンパク質またはペプチド、等の濃度)を含むこれらの特徴と分類器との組み合わせ、および最適な複合マーカーセットが、統計的方法とデータ分類法により抽出される。
【0016】
個別の分子レベル(RNA分子、ペプチド/タンパク質、代謝物等)の各マーカーの濃度はこのようにして測定され、データは分類器へ送られるが、1つのタイプの生体分子に限定された方式とバイオマーカーに比べて優れた感度と特異性を発揮して病的状態等を指摘する。
【0017】
診断および早期診断に使用するためにこれらの分子群のデータ由来の統計的方法および分類器を使って特定された、バイオマーカーおよび生体分子、特に1つまたはいくつかのmRNA、マイクロRNA、タンパク質、またはペプチド、小さな内在性化合物(代謝物)について、これらと体液または組織から得られた生体分子との組み合わせ(少なくとも2つの前述のタイプの生体分子の組み合わせ)、の分子サインの選択と組み合わせの方法が、多因子疾患における患者の層別化、治療選択、治療モニタリングおよびテラグノスティックス(theragnostics=治療と診断の融合)への利用を目的として記載される。
【背景技術】
【0018】
先行技術
ゲノミクス、プロテオミクス、およびメタボロミクス等の様々なオミクス手法を使ったシステムバイオロジー法の多因子疾患の研究と診断への適用が増えてきている。これらの技術により、診断の臨床診療に変革をもたらす可能性のあるデータおよび生物指標、いわゆる(診断、予知、および薬力学的)バイオマーカーの提供が可能となる。
【0019】
早期癌検出のために、通常は単一バイオマーカーが用いられる。しかし、例えば、広く用いられている癌抗原125(CA125)は、第1期卵巣癌の患者の50%−60%を検出できているに過ぎない。同様に、早期前立腺癌の特定に使われる前立腺特異的抗原(PSA)値の単独使用は擬陽性の数を減らすのに十分に特異的ではない[Petricoin EF 3rd、Ornstein DK、Paweletz CP、Ardekani A、Hackett PS、 Hitt BA、Velassco A、Trucco C、Wiegand L、Wood K、Simone CB、Levine PJ、 Linehan WM、Emmert−Buck MR、Steinberg SM、Kohn EC、Liotta LA、前立腺癌検出用血清プロテオミクスパターン、J Natl Cancer Inst.2002;94(20):1576−8.]、また、多因子疾患を特徴付け、または診断できそうにないこと、および単一のバイオマーカーを使用して治療の効果を評価できそうにないことは極めて明らかである。
【0020】
診断ツール、例えば、癌診断の最近の進歩には、通常、いくつかのタンパク質、RNAまたはマイクロRNA等のいくつかの同じクラスの生体分子を使う多成分試験が含まれる。また、高度の寸法データの分析により、異常な信号伝達およびネットワーキングに対してより深い洞察が得られ、このことにより、以前は見つけられなかったマーカー候補を特定できる大きな可能性が得られる。しかし、現時点での最新技術による方法は、いくつかのRNA、マイクロRNAまたはタンパク質分子等のバイオマーカーセットのための単一の生体分子または単一型生体分子のセットを使用する。Garzon R、 Volinia S、Liu CG Fernandez−Cymering C、Palumbo T、Pichiorri F、Fabbri M、Coombes K、Alder H、Nakamura T、Flomenberg N、Marcucci G、Calin GA、Komblau SM、Kantarjian H、Bloomfield CD、 Andreeff M、Croce CM、急性骨髄性白血病の細胞遺伝学および予後に関連したマイクロRNAのサイン、Blood.2008;111(6):3183−9 and Ramaswamy S、Tamayo P、Rifkin R、Mukherjee S Yeang CH、Angelo M、Ladd C、 Reich M、Latulippe E、Mesirov JP、Poggio T、Gerald W、Loda M、Lander ES、Golub TR.、腫瘍遺伝子発現サインを使ったマルチクラス癌診断、Proc Natl Acad Sci USA.2001;98(26):15149−54を参照。癌のmiRNAについてはWO2008055158を参照。
【0021】
さらに、Oncotype DXは最近の、多重遺伝子活性アッセイのような、多成分RNAベース試験で、タモキシフェン治療リンパ節転移陰性乳癌の再発を予測するために行われる。これは、Paik S、Shak S、Tang G、Kim C、Baker J、 Cronin M、Baehner FL、Walker MG、Watson D、 Park T、Hiller W、Fisher ER、Wickerham DL、 Bryant J、Wolmark N、Engl J Med.2004;351(27):2817−26に記載されている。
【0022】
Habel LA、Shak S、Jacobs MK、Capra A、Alexander C、Pho M、 Baker J、 Walker M、 Watson D、 Hackett J、Blick NT、Greenberg D、Fehrenbacher L、Langholz B、Quesenberry CPは、Breast Cancer Res.2006;8(3):R25でリンパ節無症状患者の中で腫瘍遺伝子発現および乳癌死亡のリスクに関する集団ベースの調査について報告している。
【0023】
他の最近の例には、乳癌遺伝子発現サインがある。これは臨床用途用にMammaPrint(Agendia)として販売された。
【0024】
さらに、Glas AM、 Floore A、 Delahaye LJ、 Witteveen AT、Pover RC、Bakx N、Lahti−Domenici JS、 Bruinsma TJ、Warmoes MO、Bernards R、Wessels LF、Van’t Veer LJは、BMC Genomics.2006;7:278中で、乳癌マイクロアレイサインを高スループットで診断試験に変換する方法を開示している。
【0025】
別の既知の方法は、いわゆるH/I試験(AviaraDx)として開示されている(Nicholas C Turner and Alison L Jones BMJ. 2008 July 19;337(7662):164−169)。この方法では、切除後の元の乳癌の再発確率が推定されている。
【0026】
これらの製品やプロトタイプには、特定の分野での診断に大きな進展が認められるが、多くの多因子疾患、例えば、これに限定されないが、癌、特に、急性骨髄性白血病(AML)、結腸癌、腎臓癌、前立腺癌;虚血、特に、脳卒中、低酸素、低酸素性虚血性脳症、周産期脳損傷、仮死新生児低酸素性虚血性脳症;脱髄性疾患、特に、白質疾患、脳室周囲白質脳症、多発性硬化症、アルツハイマーおよびパーキンソン病、に対し高い感度と特異性を有する信頼性のある早期診断に対する差し迫った必要性がいまだ存在する。これらの診断ツールとバイオマーカーは、患者中の応答者の選別のため、また、疾患再発、治療オプションの選択、有効性、薬剤耐性および毒性の評価のためにも使われる。
【0027】
本発明はこれらの問題に対処するために優れた感度と特異性を有する多因子疾患診断用診断ツールを創出可能とする原理と方法を提供する。
【0028】
例えば、変質RNA転写物からのタンパク質濃度のあり得る変化を特定するために、種々の「オミクス」 データのデータ統合を行うことは、システムバイオロジーと当業者にとって長年にわたりよく知られている問題である。
【0029】
それにもかかわらず、異なるタイプの生体分子からのバイオマーカーセットの統計的な組み合わせはデータ統合とは無関係であり、本明細書に記載のように、組み合わせた診断サイン(いくつかのタイプの生体分子の組み合わせ)の種々の分類法を適用した統計的ベースに基づいた生化学的解釈は明らかでなく、当業者に知られておらず、また、文献にも記載がない。それは統合多次元解析や、例えば、ゲノム、エピゲノムおよびトランスクリプトームの組み合わせを使った試み(SIGMA2:癌ゲノム、エピゲノム、およびトランスクリプトームの統合的ゲノム多次元解析のためのシステム、Raj Chari et al.BMC Bioinformatics 2008、9:422、ここでは異なるオミクスデータ間の生物学的関係を種々の手段を使って解析することを試みている)とは別物であることは明らかである。
【0030】
基本的に、本発明の方法は、既知または未知のいかなる生物学的関係、因果関係、およびいくつかのタイプの生体分子からなる組み合わせバイオマーカーを利用可能にする明らかな生物学的妥当性には全く関係なく、統計的ベースに基づいて少なくとも2つの異なるタイプの生体分子の重要な生体分子パラメーターを統計的に組み合わせる。本発明の基礎となる患者の症例により、少なくとも2つの前述の生体分子タイプおよび測定分子の集合体の中で細胞、組織、器官または生命体のそれぞれの状態を最も良く記述した少なくとも2つのタイプのこれら組み合わせ生体分子からなる診断法および疾患状態特異的分類器は、分子組成物またはマーカーおよびそれらの記述された分子サインよりも優れていることが示される。さらに、それは、1つのタイプのみの生体分子からなる生体分子の分類器より優れており、本明細書に示すように診断への利用に際しより高い感度と特異性をもたらす。このように、本発明は現在の技術レベルを遙かに超えて、これまでの方法に比べて、より高い感度と特異性、および偽陽性比率の減少化をもたらす診断用分子サインを生成する方法を提供する。この方法は種々の多因子疾患および完全に非関連の多因子疾患、例えば、癌や虚血の診断に適用でき、また、通常の診断にも使用可能である。
【発明を実施するための形態】
【0031】
定義
本明細書で使われる用語 の「遺伝子発現」は、遺伝子をコードした遺伝情報を遺伝子の「転写」(例えば、RNAポリメラーゼの酵素作用により)を経由してリボ核酸、RNA(例えば、mRNA、rRNA、tRNA、またはsnRNA)に変換するプロセス、および遺伝子をコードしたタンパク質に対しては、mRNAの「翻訳」経由でタンパク質に変換するプロセスを指す。遺伝子発現はこのプロセスの多くの段階で調節されうる。「上方制御」または「活性化」は、遺伝子発現産物の産生を増加させる調節を指し、他方、「下方制御」または「抑制」はその産生を減らす調節を指す。
【0032】
ポリヌクレオチド:3つ以上の塩基を有する核酸ポリマー。
「ペプチド」はαアミノ酸を決まった順序で結合して作られるヘテロポリマーである。1つのアミノ酸残基と次のものとの間の結合はアミド結合またはペプチド結合として知られる。タンパク質はポリペプチド分子(または、多数のポリペプチドサブユニットからなる分子)である。ペプチドは短く、ポリペプチド/タンパク質は長いことから区別できる。これらに定義にはいくつかの異なる慣習があり、その全てに補足説明や微妙なニュアンスの差がある。
【0033】
本発明の範囲における「多因子疾患」は、これに限定されないが、以下に記載の群に属するものである:癌、特に、急性骨髄性白血病(AML)、結腸癌、腎臓癌、前立腺癌;一過性脳虚血発作(TIA)、虚血、特に、脳卒中、低酸素、低酸素性虚血性脳症、周産期脳損傷、仮死新生児低酸素性虚血性脳症;脱髄性疾患、特に、白質疾患、脳室周囲白質脳症、多発性硬化症、アルツハイマーおよびパーキンソン病。
【0034】
代謝物:本明細書で使われる用語 「代謝物」は、通常、分子量1500ダルトン未満の、細胞、生命体、組織の内在性有機化合物または前述のソースから得られた体液中または抽出物中に存在する内在性有機化合物を指す。代謝物の典型的例には、炭水化物、脂質、リン脂質、スフィンゴ脂質およびスフィンゴリン脂質、アミノ酸、コレステロール、ステロイドホルモンおよび酸化型ステロールおよびヒト代謝物データベース (http://www.hmdb.ca/) および他のデータベースや文献に収集されているような他の化合物がある。これには、代謝または代謝プロセスにより産生された任意の物質、および代謝に関わる任意の物質が含まれる。
【0035】
本発明の範囲内では「メタボロミクス」は、例えば、これに限定されないが、質量分析、または液体クロマトグラフィー、ガスクロマトグラフィーや他の分離法クロマトグラフィーと質量分析の組み合わせ、等の方法により、いくつかの(2千の)代謝物の網羅的な定量測定を示す。
【0036】
「オリゴヌクレオチド配列」または「オリゴヌクレオチドチップ」または「遺伝子チップ」は「マイクロアレイ」に関する用語で、「チップ」、「バイオチップ」、または「生物学的チップ」とも呼ばれ、例えば、少なくとも100/cm、および好ましくは少なくとも約1000/cmの適切な不連続領域密度を有する領域のアレイである。マイクロアレイ中のその領域は、例えば、径で好ましくは約10〜25μmに寸法を有し、アレイ中で他の領域から同じ距離だけ離れている。通常用いられる形式には、Agilent、Affymetrix、llluminaの製品、ならびにオリゴヌクレオチドおよびcDNAをディスペンサーまたはマニュアルで固体表面上に析出させてスポット状に製作されたアレイが含まれる。
【0037】
核酸、タンパク質およびペプチドならびに代謝物は上記アレイシステムおよび、これには限定されないが、定量シーケンシング、定量ポリメラーゼ連鎖反応および定量逆転写ポリメラーゼ連鎖反応(qPCRおよびRT−PCR)、イムノアッセイ、抗体を使ったタンパク質アレイ、質量分析、を含む種々の方法により数量化できることは当業者には自明である。
【0038】
「マイクロRNA」(miRNA)は、19〜25ヌクレオチドの小形RNAで遺伝子発現に対し負の制御因子である。miRNAが急性骨髄性白血病(AML)で細胞遺伝学的異常および臨床的特徴に関連しているかどうかを決定するために、CD34(+)細胞のmiRNA発現および122の成人AML症例がマイクロアレイプラットホームを用いて評価されている。
【0039】
これに関して、異なる種、タイプまたはクラスの生体分子に対して、代謝物と同様に種々の長さのRNA、マイクロRNA、タンパク質およびペプチドが知られている。
【0040】
これに関するバイオマーカーは、特徴的で、生物学的プロセス、病原性プロセス、または治療介入の指標として測定し評価される少なくとも2つの異なるタイプの少なくとも2つの生体分子(RNA、マイクロRNA、タンパク質およびペプチド、代謝物)を含む。本明細書で使われる、組み合わせたバイオマーカーは、少なくとも2つの次のタイプの生体分子を選択することができる:センスおよびアンチセンス核酸、メッセンジャーRNA、小型RNA、すなわち、siRNAおよびマイクロRNA、ポリペプチド、抗体を含むタンパク質、小形内在性分子および代謝物。
【0041】
データ分類は、最も有効で能率的に使えるようにデータをカテゴリー化することである。分類器は、典型的な決定論的関数であり、この関数は、生物学的測定値の多次元ベクトルを臨床的に意義のあるクラス、表現型、特異的生理的状態または特異的疾患状態の非存在または存在をコードした2値(またはn値変数)の結果変数にマッピングする。これを実行するため、種々の分類法、例えば、これに限定されないが、ロジスティック回帰分析、(対角)線形または二次判別分析(LDA、QDA、DLDA、DQDA)、パーセプトロン、収縮重心法正規化判別分析(RDA)、ランダムフォレスト(RF)、ニューラルネットワーク(NN)、ベイジアンネットワーク、隠れマルコフモデル、サポートベクターマシン(SVM)、一般部分最小二乗法(GPLS)、パーティショニングアラウンドメドイド法(PAM)、自己組織化マップ(SOM)、再帰分割および回帰ツリー、K近傍分類器(K−NN)、ファジー分類器、バッギング、ブースティング、および単純ベイズ、等々を使用可能である。
【0042】
用語の「結合(binding)」、「結合する(to bind)」、「結合(bind)」、「結合(bound)」またはそのいずれかの派生語は、2つ以上の分子間の任意の安定な、一過性ではない、化学結合を指す。この化学結合には、これに限定されないが、共有結合、イオン結合、および水素結合が含まれる。従って、この用語は、2つ以上の分子間の別のタイプの化学結合に属する2つの核酸分子間のハイブリダイゼーションも包含する。
【0043】
説明
本発明の方法において、異なる種の生体分子の内の少なくとも2つの異なるタイプの生体分子の組み合わせにより得られたバイオマーカーデータおよび分類器は、生理的な状態の説明を可能にし、多因子疾患診断用の優れたツールとして使用可能である。ここで前記生体分子の種は、本発明に従って特定されたRNAおよび/またはそのDNAカウンターパート、マイクロRNAおよび/またはそのDNAカウンターパート、ペプチド、タンパク質、および代謝物からなる群より選択される。
【0044】
健常検体由来の病理学的試料または組織の識別には、下記の表1に示した方法に従って、少なくとも2つの異なるタイプの生体分子のデータの組み合わせ、その濃度の決定および統計的処理と分類器生成が必要である。
【0045】
上述のように、分類の手段によりバイオマーカーとして組み合わされた分子間の生物学的関連性は問題の結果や選択とは全く無関係であり、必ずしも生物学的モデルで説明できない。
【0046】
本発明による方法は、基本的に次のステップを含む:
ステップ1;患者または生命体生命体からの生体試料の取得。
ステップ2;次のタイプ(RNA、マイクロRNA、ペプチドまたはタンパク質、代謝物)の生体分子の量の測定およびデータベースへの生データとしての保存。
ステップ3;データベースの生データの前処理。
ステップ4;試料中で検出されたRNA および/またはそのDNAカウンターパート、マイクロRNAおよび/またはそのDNAカウンターパート、ペプチドまたはタンパク質、代謝物の量は、正常細胞または組織で測定されたそれぞれの生体分子の標準量またはデータベースに保存されたそれぞれの生体分子の参照量と比較される。試料中の目的の生体分子の量が標準または対照試料で測定した生体分子の量と異なる場合は、差分濃度データは処理され、下記のステップ5の分類器の生成のステップで使用される。
分類器はステップ6で検証され、ステップ7で使われる:本発明に従って、 分類器は、上述のタイプの内の少なくとも2つの群の生体分子からのデータを使用し、値またはスコアを与える。 このスコアは、血漿、組織または器官の変化した生理的な状態に対し計算確率として割り当てられ、病的状態、介入(例えば、治療、手術または薬物療法による治療的介入)による状態または中毒による状態を確率で示すことが可能である。このスコアを診断ツールとして使用して患者または生命体に対し病気であるとの診断を提示し、また、中毒症を癌があると指摘する。
スコアとスコアの時間依存変化は、治療の成果または患者や生命体への薬剤投与に対する成果の評価、または患者または生命体の治療に対する個別反応の評価、または生理的な状態または疾患および転帰の成り行きについての予測のために使用可能である。予後は、少なくとも2つの生体分子から構成されているスコアまたは分類器の正常なレベルまたは平均値を有する、疾患や中毒のない患者に対する相対値である。


【表1】

【0047】
mRNAおよびマイクロRNAデータの場合、データの前処理は、通常、バックグラウンド補正および正規化で構成される。当業者なら多くの適切な既知のバックグラウンド補正および正規化方策を知っている;Affymetrixデータの比較調査については、L.M.Cope et al.、 Affymetrix遺伝子チップ発現量のベンチマーク、Bioinformatics 2004、20(3)、323−331またはR.A.Irizarry et al.、Affymetrix遺伝子チップ発現量の比較、Bioinformatics 2006、22(7)、789−794に記載されている。
【0048】
手元にあるデータによっては、例えば、対数化、またはボックス−コックスべき変換[Box、G.E.P.and Cox、D.R.変換による解析(ディスカッション付き).Journal of the Royal Statistical Society B 1964、26、211−252] の使用のような、いくつかの分散安定化変換または正規性への変換により構成しても良い。
【0049】
ときには、例えば、標準偏差または中央絶対偏差(MAD)を使った拡大縮小を使って生データを変換しても良い。しかし、このステップは、全ての種類のデータ、後で行うそれぞれのデータの統計解析に対し必ずしも必要ではなく、従って省略しても良い。
【0050】
特徴(変数、測定値)選択ステップもまた任意選択で良い。しかし、特徴の数が標本数より多い場合はこれを行うことが推奨される。特徴選択方法により最高の識別能を有する特徴のサブセットを見つけ出す試みがなされる。
【0051】
mRNAおよびマイクロRNAデータの高次元性のため、大抵の分類アルゴリズは直接適用できない。1つの理由はいわゆる次元の呪いである:次元の増加と共にインスタンスの間の距離が同化する。雑音および無関係の特徴がさらにこの効果に加わり、分類アルゴリズムが決定境界を確立するのを難しくする。分類アルゴリズムが全次元空間で適用できないさらなる理由はパフォーマンス上の制約である。最終的には、特徴変換技術が分類の前に適用される。例えば、[J.S.Yu et al.、高スループット質量分析データのための次元縮小法に基づく卵巣癌特定、Bioinformatics、21(10):2200−2209、2005]に記載がある。 さらに、未知のマーカー候補特定の目的のために、従来の方法を使用することもデータの高次元性のために制約がある。
【0052】
可能な限り高い感度と特異性で病気の患者を特定することが、診断手法開発の主要目的である。この目的のため、多くの分類 アルゴリズムが選択可能である。例えば、ロジスティック回帰分析、(対角)線形または二次判別分析(LDA、QDA、DLDA、DQDA)、収縮重心法正規化判別分析(RDA)、ランダムフォレスト(RF)、ニューラルネットワーク(NN)、サポートベクターマシン(SVM)、一般部分最小二乗法(GPLS)、パーティショニングアラウンドメドイド法(PAM)、自己組織化マップ(SOM)、再帰分割および回帰ツリー、K近傍分類器(K−NN)、バッギング、ブースティング、単純ベイズ、等々、が新しいマーカー候補の開発のために適用可能である。これらのアルゴリズムは、例えば、健康や病気のクラスに従ってラベル付けしたインスタンスを含む少なくとも1つの訓練データセットで訓練され、次いで、訓練には使用されなかった新規インスタンスを含む少なくとも1つの試験データセットで試験される。訓練試験ステップでは、1つまたは複数のラウンドの交差検定、ブートストラップまたはいくつかの分割検体手法を使って実際にどれくらい正確に予測モデルが機能するかを評価する。最後に、分類器を使って新規のラベル付けされていないインスタンスのクラスラベルを予測する[T.M.Mitchell.Machine Learning.McGraw−Hill、1997]。
【0053】
分類器は、典型的な決定論的関数であり、この関数は、生物学的測定値の多次元ベクトルを臨床的に意義のあるクラス、表現型、または特異的疾患状態の非存在または存在をコードした2値(またはn値)の結果変数にマッピングする。分類器の構築または学習プロセスは2つのステップ:(1)システムの応答を近似できるファミリー関数群の選択、および(2)有限の観察試料(訓練データ)を使って関数のファミリーから任意の時点でのシステムの応答と関数の予測との間の相違または期待損失を最小化することにより、最も良く近似できる関数を選択すること、を含む。
【0054】
選んだ特徴選択方策に応じて、特徴選択のまたは後で異なるデータ(臨床データ、mRNA、マイクロRNA、代謝物、タンパク質)の組み合わせが実施される。組み合わされたデータは、次に、分類器を訓練し検証する入力データとして使われる。しかし、異なる分類器を異なるデータで別々に訓練し、分類器を予測特性に結びつけることも可能である。データ型は、定性的/カテゴリー的から定量的/数値的まで大きく異なっていても良いので、必ずしも全ての分類器がこのような複数のレベルのデータに対し機能しなくても良い。例えば、一部の分類器は定量的データのみ受け付けるのであっても良い。従って、データ型に応じて、適切な領域を有する分類に対応した関数を選ぶ必要がある。
【0055】
網羅的調査を目的として、分類に対応した多くの特徴選択方策が提案されており、例えば、[M.A.Hall and G.Holmes、離散クラスデータマイニングのためのベンチマーク属性選択技術、IEEE Transactions on Knowledge and Data Engineering、15(6):1437−1447、2003.] を参照。ここでは、通常のキャラクタリゼーションに続き、フィルターとラッパー手法の区別がなされている。
【0056】
フィルター手法は、特徴の識別能力を判定する評価基準を使用する。フィルター手法の中で、さらにランカーと特徴サブセット評価法の区別がなされる。ランカーはその分類に対する有用性に関し各特徴を独立に評価する。結果として、ランク付けされたリストがユーザーに戻される。ランカーは非常に孤立的であるが、交互作用項であり、特徴間の相関は無視される。特徴サブセット評価法は、特徴のサブセットの有用性を判定する。特徴間の相互作用の情報は、原則として保存されるが、探索空間はO(2<d>)のサイズに拡張される。高次元データに対しては、極単純で効率的探索方策、例えば、前進選択アルゴリズムのみがパフォーマンスの制約の理由から適用される。
【0057】
ラッパー属性選択法は分類器を使って属性サブセットを評価する。交差検定を使って未分類オブジェクトに対する分類器の正確さを評価する。それぞれの調査属性サブセットに対し、分類の正確さが測定される。大抵の場合、分類器の特性に合わせて、ラッパー手法は、フィルター手法より高い分類精度の属性サブセットを特定する(Pochet、N.、De Smet、F.、Suykens、J.A.、and De Moor、B.L.、マイクロアレイデータ分類のシステマティックベンチマーキング:非線形性および次元縮退の役割評価、Bioinformatics、20(17):3185−95(2004))。属性サブセット評価法として、ラッパー手法は、品位の探索法策と共に使用可能である。全ての特徴選択方法の中で、ラッパーはそれぞれ調査した特徴サブセットに対し学習アルゴリズムを使用するため、計算費用が最も高価である。
【0058】
本発明の好ましい実施形態は、前記多因子疾患がAML、前記哺乳類患者がヒトで、前記生体試料が血液および/または血液細胞および/または骨髄であり;前記生体分子の異なる種がマイクロRNAおよびタンパク質、特に非成熟造血幹細胞由来の表面タンパク質、好ましくはCD34であり;マイクロRNA発現レベルおよびCD34の存在がステップb)の前記パラメーターとして使用され;マイクロRNA発現の生データが分散安定化正規化を使って前処理され、中央値を使って多重プローブ信号(技術的複製物)を単一の発現値に集約し;ランカー、特にマイクロRNA発現データ用のフィルターとして最大中央値のペワイズ差と組み合わされたMann−Whitney有意性検定が前記特徴選択に用いられ;ロジスティック回帰分析が適切な分類アルゴリズムとして選択され、前処理されフィルターを通したマイクロRNA発現データおよびCD34情報(陽性または陰性)を含む分類アルゴリズムの訓練がn分割交差検定、特に、5〜10分割、好ましくは、5分割交差検定を使って実行され;前記訓練したロジスティック回帰分析分類器をAMLの疑いのある患者の前記前処理したマイクロRNA発現データセットおよびCD34情報に適用し、訓練した分類器を使って具体的なAMLタイプを診断する、方法である。
【0059】
本発明の別の好ましい実施形態は、前記多因子疾患が結腸癌であり、前記哺乳類患者がヒトであり、前記生体試料が結腸組織であり;生体分子の前記異なる種がmRNAおよび/またはそのDNAカウンターパートおよびマイクロRNAおよび/またはそのDNAカウンターパートであり;mRNA発現レベルおよびマイクロRNA発現レベルがステップb)の前記パラメーターとして使われ;マイクロRNA発現の生データが分散安定化正規化を使って前処理され;mRNA発現の生データが分散安定化正規化を使って前処理され、パーフェクトマッチ(PM)およびミスマッチ(MM)プローブをロバストマルチアレイ(RMA)法を使って発現測定値に集約し;ランカー、特に、マイクロRNA発現データ用のフィルターとして最大中央値のペアワイズ差と組み合わされたMann−Whitney有意性検定が前記特徴選択に用いられ;ランダムフォレストが適切な分類アルゴリズムとして選択され、前処理およびフィルター処理されたmRNAおよびマイクロRNA発現データを含む分類アルゴリズムの訓練がleave−one−out(LOO)交差検定を使って実行され;前記訓練したランダムフォレスト分類器を結腸癌の疑いのある患者の前記前処理したmRNAおよびマイクロRNA発現データセットに適用し、訓練した分類器を使って結腸癌および/またはそのサブタイプを診断する、方法である。
【0060】
本発明のさらに好ましい実施形態は、前記多因子疾患が腎臓癌であり、前記哺乳類患者がヒトであり、前記生体試料が腎臓組織であり;生体分子の前記異なる種がmRNAおよび/またはそのDNAカウンターパートおよびマイクロRNAおよび/またはそのDNAカウンターパートであり;mRNA発現レベルおよびマイクロRNA発現レベルがステップb)の前記パラメーターとして使われ;マイクロRNA発現の生データが分散安定化正規化を使って前処理され;mRNA発現の生データが分散安定化正規化を使って前処理され、パーフェクトマッチ(PM)およびミスマッチ(MM)プローブをロバストマルチアレイ(RMA)法を使って発現測定値に集約し;ランカー、特に、マイクロRNA発現データ用のフィルターとして最大中央値のペアワイズ差と組み合わされたWelch t検定(有意差検定)が前記特徴選択に用いられ;単一隠れ層ニューラルネットワークが適切な分類アルゴリズムとして選択され、前処理されフィルターを通されたmRNAおよびマイクロRNA発現データを含む分類アルゴリズムの訓練がleave−one−out(LOO)交差検定を使って実行され;前記訓練した単一隠れ層ニューラルネットワーク分類器を腎臓癌の疑いのある患者の前記前処理したmRNAおよびマイクロRNA発現データセットに適用し、訓練した分類器を使って腎臓癌および/またはそのサブタイプを診断する、方法である。
【0061】
本発明の別の好ましい実施形態は、前記多因子疾患が前立腺癌であり、前記哺乳類患者がヒトであり、前記生体試料が尿および/または前立腺組織であり;生体分子の前記異なる種がmRNAおよび/またはそのDNAカウンターパートおよびマイクロRNAおよび/またはそのDNAカウンターパートであり;mRNA発現レベルおよびマイクロRNA発現レベルがステップb)の前記パラメーターとして使われ;マイクロRNA発現の生データが分散安定化正規化を使って前処理され;mRNA発現の生データが分散安定化正規化を使って前処理され、パーフェクトマッチ(PM)およびミスマッチ(MM)プローブをロバストマルチアレイ(RMA)法を使って発現測定値に集約され;ランカー、特に、mRNAおよびマイクロRNA発現データ用のフィルターとして最大中央値のペアワイズ差と組み合わされたMann−Whitney有意性検定が前記特徴選択に用いられ;線形判別分析が適切な分類アルゴリズムとして選択され、前処理されフィルターを通されたmRNAおよびマイクロRNA発現データを含む分類アルゴリズムの訓練がleave−one−out(LOO)交差検定を使って実行され;前記訓練した線形判別分析分類器を前立腺癌の疑いのある患者の前記前処理したmRNAおよびマイクロRNA発現データセットに適用し、訓練した分類器を使って前立腺癌および/またはそのサブタイプを診断する、方法である。
【0062】
本発明のさらに別の好ましい実施形態は、前記多因子疾患が一過性脳虚血発作(TIA)および/または虚血 および/または低酸素症であり、前記哺乳類患者がヒトであり、前記生体試料が血液および/または血液細胞および/または脳脊髄液および/または脳組織であり;生体分子の前記異なる種がmRNAおよび/またはそのDNAカウンターパートおよび脳代謝物、特に、遊離プロスタグランジン、リポオキシゲナーゼ由来の脂肪酸代謝物、グルタミン、グルタミン酸、ロイシン、アラニン、セリン、ドコサヘキサエン酸(DHA)、12(S)−ヒドロキシエイコサテトラエン酸(12S−HETE);mRNA発現レベルおよび定量的および/または定性的分子代謝物パターン(メタボロミクスデータ)がステップb)の前記パラメーターとして使われ;mRNA発現の生データが参照遺伝子としてβアクチンを使って前処理され、前記脳代謝物のメタボロミクスデータがバイナリー対数(すなわち、2が底の対数)を使って分散安定化変換によって前処理され;ランカー、特に、メタボロミクスデータ用のフィルターとして最大中央値のペアワイズ差と組み合わされたWelch t検定(有意差検定)が前記特徴選択に用いられ;サポートベクターマシンが適切な分類アルゴリズムとして選択され、前処理およびフィルター処理されたmRNAおよびマイクロRNA発現データを含む分類アルゴリズムの訓練がleave−one−out(LOO)交差検定を使って実行され;前記訓練したサポートベクターマシン分類器を虚血および/または低酸素症の疑いのある患者の前記前処理したmRNAおよび前記メタボロミクスデータセットに適用し、訓練した分類器を使って虚血および/または低酸素症および/またはそのグレードを診断する、方法である。
【0063】
実施例
実施例1:マイクロRNAおよびタンパク質データを使用する方法
最初の実施例として、マイクロRNAおよびGarzon R、Garofalo M、Martelli MP、Briesewitz R、Wang L、Fernandez−Cymering C、Volinia S、Liu CG、Schnittger S、Haferlach T、Liso A、Diverio D、Mancini M、Meloni G、Foa R、Martelli MF、Mecucci C、Croce CM、Falini B、細胞質変異ヌクレオフォスミンを有する急性骨髄性白血病の特徴的なマイクロRNAサイン、PNAS 2008、105(10):3945−50の臨床データを使用する。
【0064】
これらのデータはArrayExpressオンラインデータベースhttp://www.ebi.ac.uk/arrayexpressの受入番号E−TABM−429から入手可能である。NPM1およびFLT3変異の細胞内局在/変異の状態が特徴である85例の新規成人AML患者の全てのマイクロRNAデータが入手可能である。ハイブリダイゼーションは、オハイオ州立大学(OSU−CCC)総合がんセンターのOSU−CCCヒトおよびマウスマイクロRNA 11K
v2 マイクロアレイ共有リソースを使って行った。
【0065】
NPM1変異と細胞質ヌクレオフォスミン(NPMc+ AML)保有急性骨髄性白血病(AML)は、成人AMLの約1/3を占め、独特の遺伝子発現プロファイルを含む明確な特徴を示す。発明者はマイクロRNA発現値を使ってNPMc+変異(n=55)を細胞質陰性(NPMc−、すなわち、未変異NPM1)症例(n=30)と区別した。
【0066】
分析:
これらのデータに基づき分類器の開発と検証を行うために、我々は5分割交差検定と組み合わせてロジスティック回帰分析を使用した。この方法では、低レベル分析を含む各分析ステップが交差検定ステップ毎に繰り返される。さらに、我々は5分割交差検定を20回繰り返した。これは実行可能な1つの例である。むろん、分割検体、ブートストラップまたは別のk−分割(kは5ではない)交差検定、等の手法を使うことも可能であった。さらに、別のクラスの分類関数、例えば、(対角)線形または二次判別分析(LDA、QDA、DLDA、DQDA)、収縮重心法正規化判別分析(RDA)、ランダムフォレスト(RF)、ニューラルネットワーク(NN)、サポートベクターマシン(SVM)、一般部分最小二乗法(GPLS)、パーティショニングアラウンドメドイド法(PAM)、自己組織化マップ(SOM)、再帰分割および回帰ツリー、K近傍分類器(K−NN)、バッギング、ブースティング、単純ベイズ、等々を使うことも可能であった。低レベル分析は、Huber et al.(2002)の分散安定化変換(正規化と呼ばれることが多い)[Huber W、von Heydebreck A、Sueltmann H、Poustka A、Vingron M.分散安定化のマイクロアレイデータ検量および発現差異の定量化への適用、Bioinformatics 2002、18:96−104]および中央値を使った正規化反復の平均化で構成された。ここでも、使用可能な多くの別の方法がある。いくつかの例が、L.M.Cope et al.、Bioinformatics 2004、20(3)、323−331またはR.A.Irizarry et al.、Bioinformatics 2006、22(7)、789−794に報告されている。各交差検証ステップで、分類用として、5つの正規化および平均化したマイクロRNAプローブを選択した。これらはマイクロRNAプローブを超える最大のペアワイズ差中央値(絶対値で)を有し、またMann−Whitney検定で0.01以下のp値を有している。これは、いわゆる特徴選択用のランカーである。またここでも、使用可能な多くの他の特徴選択方策があり、いくつかの例が、[M.A.Hall and G.Holmes.IEEE Transactions on Knowledge and Data Engineering、15(6):1437−1447、 2003.]に記載されている。マイクロRNAプローブは、5分割交差検定の20回反復により全部で100回まで選択することが可能である。
【0067】
表2に得られたエラー推計値を示した。
【表2】

5分割交差検定を使った場合の推計全体精度は、79.9%である。第2ステップでは、これらマイクロRNAアレイだけを使い、CD34に関する情報(すなわち、CD34陰性またはCD34陽性)を付加し;残されている54のNPMc+および29のNPMc−試料を選択している。分類にCD34のみを使った場合の結果を表3に示す。全体精度は85.5%である。
【表3】

【0068】
次に、上位5つのマイクロRNAプローブの情報をCD34情報と組み合わせた場合、表4の結果が得られている。交差検定を使った場合の推計全体精度は88.1%である。従って、この組み合わせにより、それぞれ79.9%と85.5%から88.1%に向上している。
【表4】

【0069】
交差検定に使われたプローブを表5に示す

【表5】

【0070】
Griffiths−Jones S、Saini HK、van Dongen S、Enright AJ.、miRBase:マイクロRNAゲノム科学のためのツール、NAR 2008 36(Database lssue):D154−D158による既知のヒトマイクロRNAに対するSanger配列探索結果を表6に示す。

【表6】


【0071】
実施例2.1:mRNAおよびマイクロRNA:結腸癌
Ramaswamy et al.(2001)[Ramaswamy S Tamayo P、Rifkin R、Mukherjee S、 Yeang CH、Angeio M、Ladd C、Reich M、Latulippe E、Mesirov JP、Poggio T Gerald W、Loda M、Lander ES、Golub TR.、腫瘍遺伝子発現サインを使ったマルチクラス癌診断、Proc Natl Acad Sci USA.2001;98(26):15149−54]およびLu et al.(2005)[Lu J、Getz G、Miska EA、Alvarez−Saavedra E、Lamb J、Peck D、Sweet−Cordero A、Ebert BL、Mak RH、Ferrando AA、Downing JR、Jacks T、Horvitz HR、Golub TR.、マイクロRNA発現プロファイルによるヒト癌の分類、Nature.2005;435(7043):834−8]の結腸癌データを使用してmRNAおよびマイクロRNAデータを使ったマルチレベル分類器の開発を行う。データは、Broad Instituteのホームページ[http://www.broad.mit.edu/publications/broad900およびhttp://www.broad.mit.edu/publications/broad993s]から入手可能である。
全体として4つの正常組織および7つの腫瘍組織のmRNAおよびマイクロRNAデータが入手可能である。マイクロRNAプローブを含むビーズベースのアレイおよびmRNA測定用Affymetrix HU6800とHU35KsubAアレイを使ってハイブリダイゼーションを行った。HU6800アレイのmRNAデータのみを使用した。
【0072】
分析:
これらのデータに基づいて分類器を開発および検証するために、ランダムフォレスト法[Breiman、L.Random Forests、Machine Learning 2001、45(1)、5−32]をleave−one−out(LOO)交差検定と組み合わせて使用し、低レベル分析を含む各分析ステップを交差検定ステップ毎に繰り返した。これは実行可能な1つの例である。むろん、分割検体、ブートストラップまたは別のk−分割(kは1ではない)交差検定、等の手法を使うことも可能であった。さらに、別のクラスの分類関数、例えば、ロジスティック回帰分析、(対角)線形または二次判別分析(LDA、QDA、DLDA、DQDA)、収縮重心法正規化判別分析(RDA)、ニューラルネットワーク(NN)、サポートベクターマシン(SVM)、一般部分最小二乗法(GPLS)、パーティショニングアラウンドメドイド法(PAM)、自己組織化マップ(SOM)、再帰分割および回帰ツリー、K近傍分類器(K−NN)、バッギング、ブースティング、単純ベイズ、等々を使うことも可能であった。前処理(低レベル分析とも呼ばれる)は、マイクロRNAおよびmRNAデータの場合には、Huber et al(2002)の分散安定化変換(正規化と呼ばれることが多い)により構成されている。 ここでも、使用可能な多くの別の方法がある。いくつかの例が、Cope et al.(2004)またはIrizarry et al.(2006)に報告されている。各交差検定ステップで、分類用として、6つの正規化マイクロRNAプローブと、これらのプローブを超える最大のペアワイズ差中央値(絶対値で)を有し、Mann−Whitney検定で0.1以下のp値を有している6つの正規化mRNAプローブをそれぞれ選択した。これは、いわゆる特徴選択用のランカーである。またここでも、使用可能な多くの他の特徴選択方策があり、いくつかの例が、[M.A.Hall and G.Holmes.IEEE Transactions on Knowledge and Data Engineering、15(6):1437−1447、 2003.]に記載されている。マイクロRNAプローブ、mRNAプローブはそれぞれ、LOO交差検定により全部で11回まで選択することが可能である。
【0073】
マイクロRNAデータのみを使って表7の推計値エラーを得た。
【表7】

すなわち、85.7%の感度と100.0%の特異性が観察された。陽性的中率は100.0%で、陰性的中率は80%である。LOO交差検定を使った推計全体精度は90.9%である。
【0074】
次のステップでは、HU6800アレイのmRNAデータを使った。結果は表8から読み取ることができる。LOO交差検定を再度使用した推計全体精度は72.7%である。推計感度は85.7%、推計特異性は50%、推計陽性的中率は75.0%、推計陰性的中率は66.7%である。
【表8】

【0075】
最後のステップでは、マイクロRNAおよびmRNAデータを組み合わせ、表9の結果を得た。すなわち、公差検定を使った推計全体精度は100.0%である。従って、この組み合わせは全体精度がそれぞれ90.9%と72.7%から100.0%に向上する。同様に、感度、特異性、陽性的中率および陰性適中率が100%に向上する。
【表9】

公差検定で選択されたマイクロRNAプローブを表10に示す。
【表10】

【0076】
既知ヒトマイクロRNAに対するSanger配列探索(Griffiths−Jones S、Saini HK、van Dongen S、Enright AJ. miRBase:マイクロRNAゲノム科学のためのツール、NAR 2008 36(Database lssue):D154−D158を参照)の結果を表11に示す。
【表11】


【0077】
公差検定中に選択されたmRNAを表12に示す。プローブ配列は、Bioconductorパッケージのhu6800probe[The Bioconductor Project、www.bioconductor.org(2008).hu6800probe:hu6800.Rpackage version2.2.0型マイクロアレイ用プローブ配列データ]から得た。
中間のアミノ酸を変性することにより、より具体的には、AをTに、TをAに、GをCに、さらにCをGにそれぞれ変えることによりミスマッチ(MM)プローブを得た。プローブはそれぞれ長さ25で、すなわちそれぞれ13アミノ酸が置き換えられている。

【表12】










【0078】
選択したmRNAプローブの注釈を表13に示す。この注釈は、Bioconductorパッケージhu6800.db[Marc Carlson、 Seth Falcon、Herve Pages and Nianhua Li(2008)、hu6800.db:Affymetrix HuGeneFLゲノムアレイ注釈データ(chip hu6800)、 R package version 2.2.3]の情報とPubMed[http://www.ncbi.nlm.nih.gov/pubmed/]経由の情報とを組み合わせて得たものである。

【表13】

【0079】
実施例2.2:mRNAおよびマイクロRNA:腎臓癌
Ramaswamy et al.(2001)[Ramaswamy S Tamayo P、Rifkin R、Mukherjee S、 Yeang CH、Angeio M、Ladd C、Reich M、Latulippe E、Mesirov JP、Poggio T Gerald W、Loda M、Lander ES、Golub TR.、腫瘍遺伝子発現サインを使ったマルチクラス癌診断、Proc Natl Acad Sci USA.2001;98(26):15149−54]およびLu et al.(2005)[Lu J、Getz G、Miska EA、Alvarez−Saavedra E、Lamb J、Peck D、Sweet−Cordero A、Ebert BL、Mak RH、Ferrando AA、Downing JR、Jacks T、Horvitz HR、Golub TR.、マイクロRNA発現プロファイルによるヒト癌の分類、Nature.2005;435(7043):834−8]の腎臓癌データを使用してmRNAおよびマイクロRNAデータを用いたマルチレベル分類器の開発を行った。データは、Broad Instituteのホームページ[http://www.broad.mit.edu/publications/broad900およびhttp://www.broad.mit.edu/publications/broad993sを参照]から入手可能である。全体として3つの正常組織および4つの腫瘍組織のmRNAおよびマイクロRNAデータが入手可能である。マイクロRNAプローブを含むビーズベースのアレイおよびmRNA測定用Affymetrix HU6800とHU35KsubAアレイを使ってハイブリダイゼーションを行った。HU35KsubAアレイのmRNAデータのみを使用した。
【0080】
分析:
これらのデータに基づいて分類器の開発と検証を行うために、単一隠れ層ニューラルネットワーク[Ripley、B.D.(1996)、パターン認識とニューラルネットワーク、Cambridge]をleave−one−out(LOO)交差検定と組み合わせて使用し、低レベル分析を含む各分析ステップを交差検定ステップ毎に繰り返した。これは実行可能な1つの例である。むろん、分割検体、ブートストラップまたは別のk−分割(kは1ではない)交差検定、等の手法を使うことも可能であった。さらに、別のクラスの分類関数、例えば、ロジスティック回帰分析、(対角)線形または二次判別分析(LDA、QDA、DLDA、DQDA)、収縮重心法正規化判別分析(RDA)、ランダムフォレスト(RF)、サポートベクターマシン(SVM)、一般部分最小二乗法(GPLS)、パーティショニングアラウンドメドイド法(PAM)、自己組織化マップ(SOM)、再帰分割および回帰ツリー、K近傍分類器(K−NN)、バッギング、ブースティング、単純ベイズ、等々を使うことも可能であった。低レベル分析(前処理)は、マイクロRNAおよびmRNAデータの場合には、Huber et al(2002)の分散安定化変換(正規化と呼ばれることが多い)により構成されている。 ここでも、使用可能な多くの別の方法がある。いくつかの例が、Cope et al.(2004)またはIrizarry et al.(2006)に報告されている。各交差検定ステップで、分類用として、6つの正規化マイクロRNAプローブと、これらのプローブを超える最大のペアワイズ差平均値(絶対値で)を有し、Welch t検定で0.1以下のp値を有している6つの正規化mRNAプローブをそれぞれ選択した。これは、いわゆる特徴選択用のランカーである。またここでも、使用可能な多くの他の特徴選択方策があり、いくつかの例が、Hall et al.(2003)に記載されている。
【0081】
マイクロRNAプローブ、mRNAプローブはそれぞれ、LOO交差検定により全部で7回まで選択することが可能である。マイクロRNAデータのみを使って表14の推計分類エラーを得た。

【表14】

LOO交差検定を使った推計全体精度は42.9%、感度は50%、特異性は33.3%、陽性的中率は50%および陰性適中率は33.3%]である。
【0082】
次のステップでは、HU35KsubAアレイのmRNAデータを使用した。結果は表15から読みとれる。LOO交差検定を使って、推計全体精度42.9%を得た。特異性、陽性および陰性適中率の推計値は、それぞれ50%、33.3%、50%および33.3%である。
【表15】

【0083】
最終ステップでは、マイクロRNAとmRNAデータを組み合わせて、得られた結果を表16に示す。すなわち、交差検定を使ったときの推計全体精度は71.4%である。従って、この組み合わせにより、全体精度が42.9%から71.4%に向上する。感度、特異性、陽性および陰性適中率は、それぞれ75.0%、66.7%、75.0%および66.7%に向上する。
【表16】

公差検定中に選択されたマイクロRNAプローブを表17に示す。

【表17】

【0084】
既知ヒトマイクロRNAに対するGriffiths−Jones et al.(2008)によるSanger配列探索の結果を表18に示す。

【表18】


【0085】
公差検定中に選択されたmRNAプローブを表19に示す。プローブの配列は、Bioconductorパッケージhu35ksubaprobe (The Bioconductor Project、www.bioconductor.org(2008).hu35ksubaprobe:マイクロアレイタイプhu35ksuba R package version 2.2.0用プローブ配列データ、を参照)から得た。
【表19】



















【0086】
選択したmRNAプローブの注釈を表20に示す。この注釈は、Bioconductorパッケージhu35ksuba.db[Marc Carlson、 Seth Falcon、Herve Pages and Nianhua Li(2008).hu35ksuba.db:Affymetrix ヒトゲノムHU35Kセット注釈データ(chip hu35ksuba).R package version 2.2.3.]の情報とPubMed[http://www.ncbi.nlm.nih.gov/pubmed/]経由の情報とを組み合わせて得たものである。
【表20】

【0087】
実施例2.3:mRNAおよびマイクロRNA、前立腺癌
Ramaswamy et al.(2001)[Ramaswamy S Tamayo P、Rifkin R、Mukherjee S、Yeang CH、Angeio M、Ladd C、Reich M、Latulippe E、Mesirov JP、Poggio T、Gerald W、Loda M、Lander ES、Golub TR.、腫瘍遺伝子発現サインを使ったマルチクラス癌診断、Proc Natl Acad Sci USA.2001;98(26):15149−54]およびLu et al.(2005)[Lu J、Getz G、Miska EA、Alvarez−Saavedra E、Lamb J、Peck D、Sweet−Cordero A、Ebert BL、Mak RH、Ferrando AA、Downing JR、Jacks T、Horvitz HR、Golub TR.、マイクロRNA発現プロファイルによるヒト癌の分類、Nature.2005;435(7043):834−8]の前立腺癌データを使ってmRNAおよびマイクロRNAデータを用いたマルチレベル分類器の開発を行う。データは、Broad Instituteのホームページ[http://www.broad.mit.edu/publications/broad900およびhttp://www.broad.mit.edu/publications/broad993sを参照]から入手可能である。全体として6つの正常組織および6つの腫瘍組織のmRNAおよびマイクロRNAデータが入手可能である。マイクロRNAプローブを含むビーズベースのアレイおよびmRNA測定用Affymetrix HU6800とHU35KsubAアレイを使ってハイブリダイゼーションを行った。HU6800アレイのmRNAデータのみを使用した。
【0088】
分析:
これらのデータに基づいて分類器の開発と検証を行うために、線形判別分析をleave−one−out(LOO)交差検定と組み合わせて使用し、低レベル分析を含む各分析ステップを交差検定ステップ毎に繰り返した。これは実行可能な1つの例である。むろん、分割検体、ブートストラップまたは別のk−分割(kは1ではない)交差検定、等の手法を使うことも可能であった。さらに、別のクラスの分類関数、例えば、ロジスティック回帰分析、(対角)線形または二次判別分析(LDA、QDA、DLDA、DQDA)、収縮重心法正規化判別分析(RDA)、ランダムフォレスト(RF)、ニューラルネットワーク(NN)、サポートベクターマシン(SVM)、一般部分最小二乗法(GPLS)、パーティショニングアラウンドメドイド法(PAM)、自己組織化マップ(SOM)、再帰分割および回帰ツリー、K近傍分類器(K−NN)、バッギング、ブースティング、単純ベイズ、等々を使うことも可能であった。低レベル分析は、マイクロRNAおよびmRNAデータの場合には、Huber et al(2002)の分散安定化変換(正規化と呼ばれることが多い)により構成されている。 ここでも、使用可能な多くの別の方法がある。いくつかの例が、Cope et al.(2004)またはIrizarry et al.(2006)に報告されている。各交差検定ステップで、分類用として、2つの正規化マイクロRNAプローブと、これらマイクロRNAプローブを超える最大のペアワイズ差中央値(絶対値で)を有し、Mann−Whitney検定で0.01以下のp値を有している4つの正規化mRNAプローブをそれぞれ選択した。これは、いわゆる特徴選択用のランカーである。またここでも、使用可能な多くの他の特徴選択方策があり、いくつかの例が、Hall et al.(2003)に記載されている。
【0089】
マイクロRNA、mRNAプローブはそれぞれ、LOO交差検定により全部で12回まで選択することが可能である。マイクロRNAデータのみを使って表21の推計分類エラーを得た。
【表21】

LOO交差検定を使った推計全体精度は91.7%である。感度、特異性、陽性および陰性適中率はそれぞれ、83.3%、100%、100%および85.7%である。
【0090】
第2ステップでは、HU6800アレイのmRNAデータを使用した。結果は表22から読み取れる。LOO交差検定を使って推計全体精度75.0%を得た。感度、特異性、陽性および陰性適中率はそれぞれ、83.3%、66.7%、71.4%および80.0%である。
【表22】

【0091】
最終ステップでは、マイクロRNAおよびmRNAデータを組み合わせ、表22の結果を得た。すなわち、交差検定を使った推計全体精度は91.7%である。感度、特異性、陽性および陰性適中率はそれぞれ、100.0%、83.3%、85.7%および100.0%である。従って、この組み合わせにより、感度が(癌試料の正確な分類)83.3%から100.0%に上がり、また、陰性適中率がそれぞれ85.7%と80.0%から100.0%に向上する。
【表23】

【0092】
交差検定中に用いたマイクロRNAを表24に示す。
【表24】

【0093】
Griffiths−Jones et al.(2008)による既知ヒトマイクロRNAのSanger配列探索の結果を表25に示す。
【表25】

【0094】
交差検定中に選択されたmRNAプローブを表26に示す。プローブ配列は、Bioconductorパッケージのhu6800probe[The Bioconductor Project、www.bioconductor.org(2008).hu6800probe:hu6800.Rpackage version2.2.0型マイクロアレイ用プローブ配列データ]から得た。

【表26】


【0095】
選択したmRNAプローブの注釈を表27に示す。この注釈は、Bioconductorパッケージhu6800.db[Marc Carlson、 Seth Falcon、Herve Pages and Nianhua Li(2008).hu6800.db:Affymetrix ゲノムアレイ注釈データ(chip hu6800)R package version 2.2.3]の情報とPubMed[http://www.ncbi.nlm.nih.gov/pubmed/]経由の情報とを組み合わせて得たものである。
【表27】

【0096】
実施例3:代謝物およびmRNA:虚血/低酸素
虚血および低酸素
早期診断を行うことによりタイムリーな介入と適切な治療の選択に必要な重要な時間を手に入れることになり、その結果、致命的な 持続性脳損傷を防ぐことになる。先進国の乳幼児に関する限りは、ここ数十年、早産患者の割合が増え、今では全出生数の12%にまで達している[Martin JA、Hamilton BE、Sutton PD et al.出生:2004年期末データ。Natl Vital Stat Rep.2006;55:1−101;Martin JA、 Hamilton BE、Sutton PD et al.出生:2005年期末データ。Natl Vital Stat Rep.2007;56:1−103]。
【0097】
また、発達脳損傷およびその後に起こる神経学的後遺症は患者とその家族にとっていまだ大きな苦しみであり、重要な社会経済的問題になっている。
ヒトの虚血/低酸素や脳卒中状態や周産期の成人患者および未熟児の脳病変の状態の早期発見により、成功する治療法の適用が可能となり、また、これらの方法の結果を管理することが可能となる。
【0098】
ラット低酸素モデルから得られた虚血データを使って脳検体由来の代謝物データと血漿由来のqPCRデータを用いたマルチレベル分類器の開発を行う。
【0099】
動物モデル
Rice−Vanucci製法によるHI脳損傷の生後7日目(P7)のラットモデルを使用した[Rice JE、III、Vannucci RC、Brierley JB、ラットにおいて未成熟が低酸素性虚血性脳損傷に及ぼす影響、Ann Neurol.1981;9:131−141]。

Sprague−Dawleyラットの両性の子供(Charles River、Wilmington、MA、U.S.A.から)をa)実験群とb)時間群にランダムに割り付けた。動物の手術のため、酸素中3%イソフルランの吸入により麻酔をかけ、正中切開により右頚動脈にアクセスして二重縫合および恒久切開により外科的結紮を行った。この処置は、室温(23〜25℃)で行った。首の創傷を閉じた後、ラットの子供を2時間雌親のところに戻した。全外科手術は10分以内に終わった。次にラットの子供を8%酸素の低酸素に100分間曝した。痛みと不快感を最小限にする適切な手段を講じて、EC共同体の実験動物の使用に関するガイドラインを遵守した。試験プロトコルはオーストリア動物実験委員会に承認された。
麻酔、首切開および結紮なしの血管操作または低酸素処理を受けて偽手術された動物は、少しの損傷もなく維持された。動物は、低酸素暴露後i)直ちに(P7)、ii)24時間後(P8)、iii)5日後(P12)に安楽死させられ、脳を集めてPBSですすぎ、すぐに液体窒素で凍結して次の調製まで−70℃で保存した。
【0100】
試料調製
脳試料を氷の上で1時間解凍し、PBS緩衝液(燐酸塩緩衝食塩水、0.1μmol/L;シグマアルドリッチ、ビエンナ、オーストリア)を組織試料に3:1(w/v)の比率で添加してホモジネートを調製した。9gを氷の上でPotter Sホモジナイザー (Sartorius、ゲッチンゲン、ドイツ)を使って1分間ホモジナイズした。全試料を1バッチで分析できるようにするため、試料を再度凍結し(−70℃)、分析の日に氷の上で解凍して(1h)、2℃で18000g5分の遠心分離をかけた。自動酸化を防ぐため、全チューブに0.001%のBHT(ブチルヒドロキシトルエン;シグマアルドリッチ、ビエンナ、オーストリア)を加えて調製した[Morrow、J.D.and L.J.Roberts、プロスタノイドの質量分析:非シクロオキシゲナーゼフリーラジカル触媒機構により作成したF2イソプロスタン、Methods Enzymol.233(1994):163−74]。9つの対照および7つの虚血性動物の試料から得た全体のデータを処理した。代謝物濃度を市販キット(Marker IDQ(登録商標)、Biocrates AG、インスブルック、オーストリア)ならびに下記の他の質量分析ベースの方法を使って測定した。
【0101】
抽出した試料を新規開発のオンライン固相抽出液体クロマトグラフィータンデム型質量分析法(オンラインSPE−LC−MS/MS)を使って分析した。全処理(試料取り扱い、分析)は群について知らされていない共同研究者が実施した。
脳ホモジネート中の脂肪酸代謝物由来の遊離プロスタグランジンとリポキシゲナーゼの同時定量のため、Unterwurzacher et alにより記載された脳組織のためのLC−MS/MSベースの方法を使った[Unterwurzacher I、Koal T、Bonn GK et al、小容量試料の液体クロマトグラフィー質量分析による脂肪酸代謝物由来のプロスタグランジンとリポキシゲナーゼ急速試料調製および同時定量、Clin Chem Lab Med.2008;46:1589−1597]。脳試料分析の間に観察されたマトリックス効果のため、オンラインSPEカラムとしてC18 Oasis HLBカラム(2.1x20mm、25μm粒径;Waters、ビエンナ、オーストリア)を使うクロマトグラフ分離の前に、オンライン固相抽出(SPE)ステップを実施した。適切な内部標準に対する参照、および最も感度と選択性の高いエレクトロスプレーイオン化(ESI)多段反応モニタリング(MRM)MS/MS検出モードの使用により抽出生体試料中の代謝物の定量化を行った。この方法は組織試料ホモジネートに対し、「業界向けガイダンス−生物学的分析法検証」、アメリカ合衆国保健社会福祉省、食品医薬品局、2001に従って検証された。オンラインSPE−LC−MS/MS分析のため、20μLの抽出ホモジネートを注入した。
【0102】
RNA抽出および相補DNA合成:
新生RNUラットの2分割脳半球を1mlのトリゾール試薬(Invitrogen Life Technologies、オーストリア)中に集め、液体窒素中で凍結し、次の処理まで−80℃で保存した。RNA抽出をメーカーのインストラクションに従って行った。簡単に説明すると、脳半球をトリゾール中でmicropistillを使って氷上でホモジナイズした。完全にホモジナイズした後、クロロホルム抽出ステップによりRNA含有水相が得られ、次いでイソプロピルアルコールによる沈殿が生成する。75%エタノールによる2回の洗浄ステップ後、短時間空気乾燥したRNAを、再度DEPC−処理水に再懸濁し、UV分光光度計(Ultrospec 3300 pro、アマシャム、米国)を使ってRNA濃度を測定し、相補DNA合成処理まで−80℃で保存した。
逆転写(RT)の前に、合計1μgのRNAを、メーカーのインストラクションに従ってDNase I(RNase不含)(デオキシリボヌクレアーゼI、Fermentas、ドイツ)で処理し、含まれている可能性のあるDNAを除去した。DNase I処理後、RevertAid M−MuLV逆転写酵素 (Fermentas、ドイツ)を使って試料を処理し相補性DNAを合成した。各反応は、5x RT反応緩衝液、10mMデオキシリボヌクレオチド3リン酸塩混合物(dNTP)、0、2μg/μlランダム六量体プライマー、RNase抑制剤およびRevertAid M−MuLV−RT(全てFermentas、ドイツから入手)で構成された。25℃で10分間、次いで水浴中42℃で60分間試料をインキュベートした。70℃で10分間加熱し、次いで氷上で冷却することにより反応を停止した。BioRad iCycler iQを使った定量リアルタイムPCR処理まで、相補DNA試料を−20℃で保存した。定量リアルタイムPCR用テンプレートとして使用する前に、相補DNA試料を1:10に予備希釈した。
【0103】
定量リアルタイムPCR(q−RT−PCR):
全容量25μlの96ウエルで光学的に透明な接着シール(BioRad Laboratories、オーストリア)で被覆された0.2ml薄肉PCRプレートで定量リアルタイムPCRを行った。このリアルタイムPCR反応混合物は、1x iQ SYBR Green Supermix(BioRad Laboratories、オーストリア)、0.4μMの各遺伝子特異的プライマーおよび5μlの予備希釈した相補DNAで構成した。最初、混合物を95°Cで3分間加熱してiTaq DNAポリメラーゼを活性化し、次に、95°Cで20秒間の変性と60℃で45秒のアニーリングで構成される45サイクルを行った。増幅後、融解曲線分析を追加し、PCR生成物特異性を確認した。テンプレートを含まないコントロールではシグナルが検出されなかった。結果をiCycler iQ5 Optical System Software Version 2.0(BioRad Laboratories、オーストリア)を使って解析した。ベースラインをマニュアルで設定し、スレッシュホールドをソフトウェアで自動的に設定した。増幅曲線とスレッシュホールドラインとの交点がスレッドホールドサイクル(Ct値)である。全試料を3回測定し、平均値を以降の計算に使用した。最適化処理中、全遺伝子特異的プライマー対で勾配PCRを行い最適アニール温度を求めた。PCR産物を臭化エチジウム含有2%アガロースゲルにロードし増幅産物の特異性、およびプライマー二量体の形成の無いことを確認した。
使用した遺伝子特異的プライマー対の配列を表28に示す(1列目は配列番号)。
【表28】

【0104】
qPCRの分析およびメタボロミクスデータ:
これらのデータにもとづいた分類器の開発と検証のために、サポートベクターマシン[Schollkopf、B.and Smola、A.(2001) カーネル学習:サポートベクターマシン、正則化、最適化、そして次へ、MIT Press、Cambridge]をleave−one−out(LOO)交差検定と組み合わせて使用し、低レベル分析を含むそれぞれの分析ステップを公差検定ステップ毎に繰り返した。これは実行可能な1つの例である。むろん、分割検体、ブートストラップまたは別のk−分割(kは1ではない)交差検定、等の手法を使うことも可能であった。さらに、別のクラスの分類関数、例えば、ロジスティック回帰分析、(対角)線形または二次判別分析(LDA、QDA、DLDA、DQDA)、収縮重心法正規化判別分析(RDA)、ランダムフォレスト(RF)、ニューラルネットワーク(NN)、一般部分最小二乗法(GPLS)、パーティショニングアラウンドメドイド法(PAM)、自己組織化マップ(SOM)、再帰分割および回帰ツリー、K近傍分類器(K−NN)、バッギング、ブースティング、単純ベイズ、等々を使うことも可能であった。低レベル分析は、代謝物データの場合には、バイナリー対数(すなわち、底が2の対数)を使った分散安定化変換により構成されている。各交差検定ステップで、4つの正規化代謝物を選択した。選択した代謝物はこれらのプローブを超える最大のペアワイズ差平均値(絶対値で)、ならびに、0.1以下のWelch t検定p値を有している。これは、いわゆる特徴選択用のランカーである。またここでも、使用可能な多くの他の特徴選択方策があり、いくつかの例が、Hall et al.(2003)に記載されている。LOO交差のために代謝物は16回まで選択、可能である。
【0105】
メタボロミクスデータのみを使用して表29の推計エラーを得た。
【表29】

LOO交差検定を使った推計全体精度は62.5%、感度は57.1%、特異性は66.7%、陽性的中率は57.1%および陰性適中率は66.7%である。
【0106】
第2ステップで、SDF1とVEGF用に得られたqPCRデータを使った。PCRデータを参照遺伝子βアクチンにより正規化した。分類結果は表30から読み取れる。LOO交差検定を使って推計全体精度68.9%を得ている。感度、特異性、陽性および陰性適中率推計値は、それぞれ57.1%、77.8%、66.7%および70.0%である。
【表30】

【0107】
最終ステップで、代謝物およびqPCRデータを組み合わせ、表31の結果を得た。すなわち、交差検定を使った推計全体精度は75.0%である。従って、この組み合わせにより、全体精度がそれぞれ、62.5%と68.9%から75.0%に向上した。感度、特異性、陽性および陰性適中率は、それぞれ71.4%、77.8%、71.4%および77.8%である。すなわち、全体精度と共に、感度ならびに陽性および陰性適中率が向上している。
【表31】

【0108】
交差検定中に選択された代謝物を表32に示す。
【表32】


表32で、合計選択回数は64回であるが、それぞれの代謝物毎に16回の選択が可能であった。
【表33】

【0109】
本発明の実施形態
一実施形態では、最初、診断、または反応または生存予後診断の必要な患者から生体試料を入手する。第2ステップで、RNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の量を決め、生体試料から秤量採取する。第3ステップで、試料中のRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の量を検出し、正常細胞または非癌細胞または組織または血漿中に存在するそれぞれの生体分子の標準量、あるいは、対照試料中のRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の量と比較する。
試料中のRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の量が、標準試料または対照試料中のRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の量と異なる場合は、前述の(表1)ように、RNA、マイクロRNA、ペプチドまたはタンパク質、代謝物を含む少なくとも2つの群/種の生体分子を使った濃度データの処理および分類および分類器の生成にょり、病的状態に属する値またはスコアをもたらし、ある確率で、患者が癌に罹っていると診断される、癌治療に対し低い反応期待値が予測される、あるいは低い患者生存期待値が予測されることになる。予後は、正常なレベルのRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物を有する癌患者に対し相対的、または多因子疾患を有する患者の応答や生存の平均的予測に対し相対的なものである。また、多因子疾患の状態は中毒および薬物乱用が原因でありうることも明らかである。
【0110】
多因子疾患を検出または診断する方法、反応期待値を予測する方法、または生存期待値を予測する方法の別の実施形態は次のステップを含む。最初のステップで、RNA、マイクロRNA、ペプチドまたはタンパク質、代謝物を含む生体試料を患者から入手する。この生体試料をRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物に結合可能な試薬と反応させる。試薬とマイクロRNAの間の反応で測定可能なRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の産物または複合体が形成される。この測定可能なRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の産物または複合体を測定し、データを処理して図1に示したステップによりスコアを求めて、標準値または対照値と比較する。
【0111】
本実施例は、本発明による方法には、一個人由来の明確に異なる組織から得られた上述のタイプの生体分子の定量データからの分析および分類器生成が含まれることを示す。また、本実施例は、病気の生命体の異なる部位からのデータはバイオマーカー/分類器の記述に寄与するため、多因子疾患に関連した特徴的な状態を認識する点で好都合であることを示している。
【0112】
本発明は、本発明が意図する多因子疾患進行に関し何らかのリスクがある、任意のヒトを含む哺乳類患者に適用することができる。
【0113】
本発明に使われる試料は、当業者に既知のいずれかの手段により入手可能である。好ましい試料として、手術で除去された腫瘍等の癌性であると思われる組織や癌細胞を含む血液も含んでもよい。しかし、本発明は多因子疾患が原因で変質した(RNA、マイクロRNA、タンパク質、ペプチド、代謝物、等の生体分子濃度に関して) と考えられる組織にのみ限定されるものではない。それよりむしろ、試料が、多因子疾患、特に、癌に罹っていると思われる少なくとも一部の組織や細胞を含む患者の任意の部位に由来しても、および/または、癌組織や細胞に曝されるか接触したことがある、または特定の生体分子を体内に送り届ける血液等の体液に接触した組織や細胞に由来しても良い。
【0114】
RNAまたはマイクロRNAを定量する方法に関する別の実施例は、次の通りである:RNAまたはマイクロRNAの少なくとも一部を蛍光核酸とハイブリダイズし、ハイブリダイズしたRNAまたはマイクロRNAを蛍光試薬と反応させ、RNAまたはマイクロRNAに蛍光を発光させる。
試料中のRNAまたはマイクロRNAの量を定量する別の方法は、RNAまたはマイクロRNAの少なくとも一部を放射線標識した相補的な核酸にハイブリダイズする方法である。RNAまたはマイクロRNAにハイブリダイズすることが可能な核酸が測定ステップで使える場合で、マイクロRNAのケースでは、核酸は長さが、少なくとも5ヌクレオチド、少なくとも10ヌクレオチド、少なくとも15ヌクレオチド、少なくとも20ヌクレオチド、少なくとも25ヌクレオチド、少なくとも30ヌクレオチド、少なくとも40ヌクレオチドであり;また、25ヌクレオチド以下、35ヌクレオチド以下、50ヌクレオチド以下、75ヌクレオチド以下、100ヌクレオチド以下、125ヌクレオチド以下、が良い。核酸は、任意の核酸であって、マイクロRNAに対するいずれかの相補的配列と少なくとも80%の相同性、85%の相同性、90%の相同性、95%の相同性、または100%の相同性を有する。適切なRNAパラメーターは、例えば、RNAまたはマイクロRNAの量で、正常細胞または非癌細胞中のRNAまたはマイクロRNAの標準的な量、または、対照試料中のRNAまたはマイクロRNAの量と比較される。この比較は、当業者には既知の任意の方法で行うことができる。試料中のRNAまたはマイクロRNAの量の標準量との比較方法の例は、試料中の5S rRNAとRNAまたはマイクロRNAの間の比率を、発表されているか既知の、正常細胞または非癌細胞中の5S rRNAとRNAまたはマイクロRNAの間の比率と比較することである。試料中のマイクロRNAの量を対照と比較する例は、5S rRNAとRNAまたはマイクロRNAの間の比率を試料中および対照試料中の測定値間で比較することによる方法である。RNAまたはマイクロRNAの量を対照に対し比較する場合、対照試料を正常細胞または非癌細胞を有すると分かっている任意のソースから得ることができる。対照試料は、正常細胞のみを含む、または非癌細胞のみを含む多因子疾患に罹っていると思われるそれぞれの患者の組織または体液であることが好ましい。
【0115】
RNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の量の測定は、当業者なら試料中のRNA、マイクロRNA、ペプチドまたはタンパク質の量の既知の測定手法で行うことができる。RNAまたはマイクロRNAを定量する方法の例には、定量逆転写酵素ポリメラーゼ連鎖反応(定量RT−PCR)または定量および相対定量適用シークエンシングまたは第二世代 シーケンシングがある。
【0116】
タンパク質測定、各タンパク質種の絶対的および相対的タンパク質定量ならびに組織内または細胞調製中の代謝物の定量は、ウェスタンブロッティング、酵素結合免疫測定法(ELISA)、ラジオイムノアッセイまたは抗体または他のタンパク質結合分子を使った他のアッセイ、タンパク質またはペプチド同定用質量分析、MALDI、エレクトロスプレーまたは他のタイプのイオン化を使った定量または相対定量、抗体またはアプタマー等の他の分子結合蛋白質を使ったタンパク質および抗体アレイ、を適用して行うことができる。RNA、マイクロRNA、ペプチドまたはタンパク質および代謝物に結合可能な化合物は、分子の存在と量の検出を可能とする方法でRNA、マイクロRNA、ペプチドまたはタンパク質に結合可能であると当業者に知られている任意の化合物であってよい。RNA、マイクロRNA、ペプチドまたはタンパク質ならびに低分子量化合物および代謝物に結合可能な化合物の例は、ハイブリダイズ可能な核酸、または核酸、RNA、マイクロRNA、タンパク質およびペプチドに結合可能なアプタマーである。核酸は、少なくとも5ヌクレオチド、少なくとも10ヌクレオチド、少なくとも15ヌクレオチド、少なくとも20ヌクレオチド、少なくとも25ヌクレオチド、少なくとも30ヌクレオチド、少なくとも40ヌクレオチドまたは少なくとも50ヌクレオチドを有するのが好ましい。核酸は、RNAまたはマイクロRNAに相補的な配列に対し、少なくとも80%相同、85%相同、90%相同、95%相同または100%相同であるいずれかの核酸であることが好ましく、これらは対応するDNAデータから得ることも可能であり、またはRNA、マイクロRNA、ペプチドまたはタンパク質または代謝物に結合可能なアプタマーであってもよい。RNAまたはマイクロRNAに結合可能な核酸の1つの具体的な例は、逆転写酵素ポリメラーゼ連鎖反に使われる核酸プライマーである。
【0117】
RNA、マイクロRNA、ペプチドまたはタンパク質および代謝物の少なくとも一部への化合物の結合により測定可能な複合体が形成される。この測定可能な複合体は同業者には既知の方法により測定される。このような方法の例には、前に考察した本発明に使われるRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の量を測定する方法が含まれる。
【0118】
正常または非癌細胞、または対照試料中のRNA、マイクロRNA、ペプチドまたはタンパク質の標準的量に比較して測定可能な複合体中の量が増加または減少したレベルである場合、試料は、前癌細胞または癌細胞を含み、それにより癌の診断となり、癌治療に対し反応期待値の予測をするか、または患者の生存期待値の予測をする。
【0119】
本発明の異なるタイプの生体分子の組成物は、本発明の方法(その実施形態は上述した)で使用可能である。本発明の組成物の一実施形態には、RNA、マイクロRNA、ペプチドまたはタンパク質、代謝物からなる群より選択されたRNA、マイクロRNA、ペプチド、タンパク質または代謝物の少なくとも一部に結合可能な化合物が含まれる。この組成物には、記載した実施例中および分子リスト中にリストされた分子およびこれらの内在性生体分子に結合する結合プローブからなる群より選択されたRNA、マイクロRNA、ペプチドまたはタンパク質の少なくとも一部に結合可能な化合物が含まれるが、それに限定されない。上述の種々の実施例は、この方法は、通常、2〜4タイプの定義生体分子、タンパク質またはペプチド、RNA、マイクロRNA(すなわち、 RNA+マイクロRNA、RNA+タンパク質、タンパク質+マイクロRNA、RNA+タンパク質+マイクロRNA、およびこれら生体分子の組み合わせおよび生体分子と代謝物の組み合わせ)の、多因子疾患の患者からの組織を調査する種々の実験から選択し組み合わされた、組成物と一緒に機能し、RNA、タンパク質、代謝物またはマイクロRNAのみのような1つのタイプのみからなる予備選択された生体分子セットを含む試験または診断または予後診断のツールよりも優れたパフォーマンスを示すことを立証している。
【0120】
本発明の組成物の別の実施形態は、第1の化合物が結合できるRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物とは異なるRNA、マイクロRNA、ペプチドまたはタンパク質および代謝物に結合可能な第2の化合物を含む組成物である。本発明の組成物の別の実施形態は、第1および第2の化合物が結合できるRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物とは異なるRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物に結合可能な第3の化合物を含む組成物である。
【0121】
本発明は、さらに候補治療薬を評価する方法を提供する。この方法を使って、少なくとも2つ以上の定められた分子クラス;RNA、マイクロRNA、ペプチド/タンパク質、代謝物、に割り当てられた1つから数個の対象生体分子の濃度を調節する分子を特定することが可能である。あるいは、アッセイを行って、遺伝子によりコードされたタンパク質の活性を調節する分子を特定してもよい。
【0122】
本発明の別の態様は、多因子疾患の診断または予後診断のためのキットである。この態様の一実施形態では、キットは、多因子疾患の患者を診断するためのものである。この態様の別の実施形態は、多因子疾患の予後診断のためのキットで、予後は多因子疾患の治療に対する患者の反応期待値の予測である。この態様の別の実施形態では、キットは多因子疾患の予後診断のためのものであり、予後は多因子疾患の患者の生存期待値の予測である。このキットは、癌細胞中で濃度が増加または減少や、過剰または低発現した、RNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の少なくとも一部と結合可能な組成物を含む。ここでRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物が、前に概要を述べた実施例中で挙げた分子または結合プローブに結合する分子または上述の実施例中で記載された方法により定量的に測定された分子からなる群(これに限定されない)から選択される。またさらに、少なくとも2つの異なる生体分子クラス(RNA+マイクロRNA、RNA+タンパク質またはペプチド、マイクロRNA+タンパク質またはペプチド、RNA+マイクロRNA+タンパク質またはペプチドおよびこれらの全ての代謝物の組み合わせ)および、このクラスの化合物に限定されないが、記載した結合プローブ、記載実施例で特定された薬剤と配列を含む、分子の組み合わせにおける、発現差異 (過剰発現または低発現)またはRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物の内のいくつかの分子の濃度変化が、多因子疾患の診断となり、または患者の反応期待値の予測や生存期待値の予測となる。核酸またはアプタマーまたは抗体の標的RNA、マイクロRNA、ペプチドまたはタンパク質、および/または代謝物への結合は、多因子疾患の患者に対する多因子疾患診断、治療反応期待値の予測、または生存期待値の予測となる。
【0123】
単離したRNA、マイクロRNA、ペプチドまたはタンパク質、代謝物は、フルオロフォアの使用による検出、電気化学的検出または化学信号の電流、抵抗または電荷の変化への変換、RNAプローブ、またはRNAプライマー(これらに限定されない)を含む種々の結合の検出モードを備えたタンパク質チップ、抗体チップ、アプタマーチップ、DNAまたはRNAチップ、等の既知の診断ツールに結びつけることができる。
【0124】
本発明の一態様は、多因子疾患の早期診断、治療に対する反応期待値の予測、または生存率期待値の予測を目的とした検出方法である。本発明は、多因子疾患、癌に対して使うことができ、具体的実施形態では、白血病(AML)、前立腺癌および腎臓癌ならびに一過性脳虚血発作、低酸素/虚血に使用することができる。しかし、これらの別々の、無関係な疾患および完全に異なる分子病因学、表現型、遺伝子型および遺伝的素質を伴う様々なタイプの癌や疾患からすでに明らかであるように、この方法は、多因子疾患一般に適用可能である。
【0125】
具体的実施形態では、生命体(研究対象、患者)の異なる区画(組織)からの異なるタイプの生体分子から得られたデータを使って、本方法に従って一緒に処理することにより、多因子疾患に対する分類および診断の改善ができる。
【0126】
これまでの記載は説明のためのものであり、何ら制限するものではない。記載された方法と条件は変わる可能性があることから、本発明は、記載された詳細な方法、および実験条件に制限されるものではないことは理解されるべきである。
【0127】
本発明の出願に添付した、配列番号1〜配列番号908の配列を含む配列リストは、本発明の開示の一部である。

【特許請求の範囲】
【請求項1】
多因子疾患またはそのサブタイプをインビトロで診断する方法であって、
当該多因子疾患またはそのサブタイプが、癌、特に、急性骨髄性白血病(AML)、結腸癌、腎臓癌、前立腺癌;一過性脳虚血発作(TIA)、虚血、特に脳卒中、低酸素、低酸素性虚血性脳症、周産期脳損傷、仮死新生児低酸素性虚血性脳症;脱髄性疾患、特に、白質疾患、脳室周囲白質脳症、多発性硬化症、アルツハイマーおよびパーキンソン病からなる群より選択され;
哺乳類患者の少なくとも1つの組織の少なくとも1つの生体試料において、
a)少なくとも2つの異なる生体分子の種を選択するステップであって、前記生体分子の種が、RNAおよび/またはそのDNAカウンターパート、マイクロRNAおよび/またはそのDNAカウンターパート、ペプチド、タンパク質、および代謝物からなる群より選択されるステップ;
b)生体分子の異なる種の少なくとも2つのセットを使用して、前記試料中のそれぞれの種の複数の生体分子の、存在または非存在、定性的および/または定量的分子パターンおよび/または分子サイン、レベル、量、濃度および発現レベルからなる群より選択された少なくとも1つのパラメーターを測定し、得られた一連の数値を生データとしてデータベースに保存するステップ;
c)前記生データを数学的に前処理してステップb)で使われる測定手続きに固有の技術的誤差を減らすステップ;
d)ロジスティック回帰分析、(対角)線形または二次判別分析(LDA、QDA、DLDA、DQDA)、パーセプトロン、収縮重心法正規化判別分析(RDA)、ランダムフォレスト(RF)、ニューラルネットワーク(NN)、ベイジアンネットワーク、隠れマルコフモデル、サポートベクターマシン(SVM)、一般部分最小二乗法(GPLS)、パーティショニングアラウンドメドイド法(partitioning around medoid)(PAM)、自己組織化マップ(SOM)、再帰分割および回帰ツリー、K近傍分類器(K−NN)、ファジー分類器、バッギング、ブースティング、および単純ベイズからなる群から少なくとも1つの適切な分類アルゴリズムを選択し、前記分類アルゴリズムをステップc)の前記前処理データに適用するステップ;
e)分類器機能を選択して前記前処理データを前記条件にマッピングするために、ステップd)の前記分類アルゴリズムを病態生理学的、生理的、予後的、または応答者条件に従ってクラスに分類された患者からの前処理データを含む少なくとも1つの訓練データセットで訓練するステップ;
f)ステップe)の前記訓練した分類アルゴリズムを、未知の病態生理学的、生理的、予後的、または応答者の条件を有する患者の前処理データセットに適用し、訓練した分類アルゴリズムを使って前記データセットのクラスラベルを予測して、患者の病状を診断するステップ;
を含む方法。
【請求項2】
組織が、血液および他の体液、脳脊髄液、骨組織、骨髄組織、筋組織、腺組織、脳組織、神経組織、粘膜組織、結合組織、および皮膚組織からなる群から選択され、および/または前記試料が生検組織であり、および/または前記哺乳類患者がヒトを含む、ことを特徴とし;および/または、さらに、低分子量生化学的化合物の血清および/または血漿レベル、酵素、酵素活性、細胞表面受容体および/または細胞数、特に、赤血球数および/または白血球数、血小板数、等の臨床化学で通常使われる標準の実験室的パラメーターが追加で選択されることを特徴とする請求項1に記載の方法。
【請求項3】
ステップb)で得られた前記生データの数学的前処理の前記ステップが、
光学分光学(UV、可視、IR、蛍光)から得られた生データの場合:バックグラウンド補正および/または正規化;
メタボロミクスから得られた、および/または質量分析を液体またはガスクロマトグラフィーまたはキャピラリー電気泳動法と組み合わせて、または2Dゲル電気泳動法、ELISAまたはRIAを使った定量測定または免疫ブロットの定量またはアプタマーに結合した生体分子の量の定量による濃度/量の測定によって得られた生データの場合:スムージング、基準線補正、ピークピッキング、任意選択で、対数を取って分散安定化を実行、等のさらなるデータ媒体変換追加;
トランスクリプトミクスから得られた生データの場合:単一のピクセルを単一強度信号への集約;バックグラウンド補正;多重プローブ信号、特にパーフェクトマッチ/ミスマッチプローブ、の単一発現値への集約;正規化;
からなる群より選択された統計的方法により実行されることを特徴とする請求項1または2に記載の方法。
【請求項4】
前処理ステップc)後に、クラス間の最高の判別能力を有する低次元サブセットを見つけるために、追加の特徴選択ステップが挿入され;および前記特徴選択がフィルターおよび/またはラッパー法により実行され;ここで、前記フィルター法がランカーおよび/または特徴サブセット評価法を含むことを特徴とする請求項1〜3のいずれかに記載の方法。
【請求項5】
前記病態生理学的条件がラベル「病気(diseased)」に対応し、および前記生理的条件がラベル「健康(healthy)」に対応し、または前記病態生理学的条件が「疾患のグレード」、「疾患のサブタイプ」の異なるラベル、「定義された疾患のスコア」の異なる値に対応し;前記予後的条件がラベル「良(good)」、「中間(medium)」、「不良(poor)」、または「治療応答あり(therapeutically responding)」または「治療応答無し(therapeutically non−responding)」または「治療不良応答(therapeutically poor responding)」に対応することを特徴とする請求項1〜4のいずれかに記載の方法。
【請求項6】
代謝データが高スループット質量分析データであることを特徴とする請求項1〜5のいずれかに記載の方法。
【請求項7】
前記多因子疾患がAML、前記哺乳類患者がヒト、前記生体試料が血液および/または血液細胞および/または骨髄であり;前記異なる種の生体分子がマイクロRNAおよびタンパク質、特に非成熟造血幹細胞、好ましくはCD34からの表面タンパク質であり;マイクロRNA発現レベルおよびCD34の存在がステップb)の前記パラメーターとして使われ;マイクロRNA発現の生データが分散安定化正規化を使って前処理され、正規化多重プローブ信号(技術的複写物)を中央値を使って単一発現値に集約し;ランカー、特にマイクロRNA発現データのためのフィルターとして最大中央値のペアワイズ差と組み合わされたMann−Whitney有意性検定が前記特徴選択に使用され;ロジスティック回帰分析が適切な分類アルゴリズムとして選択され、前処理とフィルター処理を行ったマイクロRNA発現データおよびCD34情報を含む分類アルゴリズムの訓練がn分割交差検定、特に5〜10分割、好ましくは5分割交差検定、により実行され;前記訓練したロジスティック回帰分析分類器を前記前処理したAMLの疑いのある患者のマイクロRNA発現データセットおよびCD34情報に適用し、訓練した分類器を使って具体的AMLタイプを診断することを特徴とする請求項1〜6のいずれかに記載の方法。
【請求項8】
前記マイクロRNAを標的とする配列番号1〜配列番号14のDNAプローブが使われる;および/または配列番号15〜26のマイクロRNA標的配列が使われることを特徴とする請求項7に記載の方法。
【請求項9】
前記多因子疾患が結腸癌、前記哺乳類患者がヒト、前記生体試料が結腸組織であり;前記異なる種の生体分子のがmRNAおよび/またはそのDNAカウンターパートおよびマイクロRNAおよび/またはそのDNAカウンターパートであり;mRNA発現レベルおよびマイクロRNA発現レベルがステップb)の前記パラメーターとして使用され;マイクロRNA発現の生データが分散安定化正規化を使って前処理され;mRNA発現の生データが分散安定化正規化を使って前処理され、パーフェクトマッチ(PM)およびミスマッチ(MM)プローブをロバストマルチアレイ平均(RMA)を使って発現測定値に集約し;ランカー、特にマイクロRNA発現データのためのフィルターとして最大中央値のペアワイズ差と組み合わされたMann−Whitney有意性検定が前記特徴選択に使用され;ランダムフォレストが適切な分類アルゴリズムとして選択され、前処理とフィルター処理されたmRNAおよびマイクロRNA発現データを含む分類アルゴリズムの訓練がleave−one−out(LOO)交差検定により実行され;前記訓練したランダムフォレスト分類器を前記前処理した結腸癌の疑いのある患者のmRNAおよびマイクロRNA発現データセットに適用し、訓練した分類器を使って結腸癌および/またはそのサブタイプを診断することを特徴とする請求項1〜8のいずれかに記載の方法。
【請求項10】
前記マイクロRNAを標的とする配列番号27〜配列番号34のDNAプローブが使われ;および/または配列番号35〜配列番号42のマイクロRNA標的配列が使われ;および/または前記mRNAを標的とする配列番号43〜配列番号264のDNAプローブが使われ;および/または配列番号265〜276の標的DNA配列が使われることを特徴とする請求項9に記載の方法。
【請求項11】
前記多因子疾患が腎臓癌、前記哺乳類患者がヒト、前記生体試料が腎臓組織であり;前記異なる種の生体分子がmRNAおよび/またはそのDNAカウンターパートおよびマイクロRNAおよび/またはそのDNAカウンターパートであり;mRNA発現レベルおよびマイクロRNA発現レベルがステップb)の前記パラメーターとして使用され;マイクロRNA発現の生データが分散安定化正規化を使って前処理され;mRNA発現の生データが分散安定化正規化を使って前処理され、パーフェクトマッチ(PM)およびミスマッチ(MM)プローブをロバストマルチアレイ平均(RMA)を使って発現測定値に集約して;ランカー、特にmRNA発現データのためのフィルターとして最大中央値のペアワイズ差と組み合わされたWelcht検定(有意性検定)およびマイクロRNA発現データが前記特徴選択のために使われ;単一隠れ層ニューラルネットワークが適切な分類アルゴリズムとして選択され、前処理およびフィルター処理されたmRNAおよびマイクロRNA発現データを含む分類アルゴリズムの訓練がleave−one−out(LOO)交差検定を使って行なわれ;前記訓練された単一隠れ層ニューラルネットワーク分類器を前記前処理された腎臓癌の疑いのある患者のmRNAおよびマイクロRNA発現データセットに適用し、訓練された分類器を使って腎臓癌および/またはそのサブタイプを診断することを特徴とする請求項1〜6のいずれかに記載の方法。
【請求項12】
前記マイクロRNAを標的とする配列番号33、および277〜288のDNAプローブが使用され;および/または配列番号21、41、289〜297のマイクロRNA標的配列が使用され;および/または前記mRNAを標的とする配列番号298〜716のDNAプローブが使用され;および/または配列番号265、268、717〜732のDNA標的配列が使用されることを特徴とする請求項11に記載の方法。
【請求項13】
前記多因子疾患が前立腺癌、前記哺乳類患者がヒト、前記生体試料が尿および/または前立腺組織であり;前記異なる種の生体分子がmRNAおよび/またはそのDNAカウンターパートおよびマイクロRNAおよび/またはそのDNAカウンターパートであり;mRNA発現レベルおよびマイクロRNA発現レベルがステップb)の前記パラメーターとして使用され;マイクロRNA発現生データが分散安定化正規化を使って前処理され;mRNA発現生データが分散安定化正規化を使って前処理され、ロバストマルチアレイ平均(RMA)法を使ってパーフェクトマッチ(PM)およびミスマッチ(MM)プローブを発現測定値に集約し;ランカー、特にmRNAおよびマイクロRNA発現データのためのフィルターとして最大中央値のペアワイズ差と組み合わされたMann−Whitney有意性検定が前記特徴選択に使用され;線形判別分析が適切な分類アルゴリズムとして選択され、前処理およびフィルター処理されたmRNAおよびマイクロRNA発現データを含むその分類アルゴリズムの訓練がleave−one−out(LOO)交差検定を使って実行され;前記訓練した線形判別分析分類器を前記前処理された前立腺癌の疑いのある患者のmRNAおよびマイクロRNA発現データセットに適用し、訓練された分類器を使って前立腺癌および/またはそのサブタイプを診断することを特徴とする請求項1〜6のいずれかに記載の方法。
【請求項14】
前記マイクロRNAを標的とする配列番号733〜735のDNAプローブが使用され;および/または配列番号736〜738のマイクロRNA標的配列が使用され;および/または前記mRNAを標的とする配列番号739〜配列番号892のDNAプローブが使用され;および/または配列番号893〜900のDNA標的配列が使用されることを特徴とする請求項13に記載の方法。
【請求項15】
前記多因子疾患が一過性脳虚血発作(TIA)および/または虚血および/または低酸素で、前記哺乳類患者がヒト、前記生体試料が血液および/または血液細胞および/または脳脊髄液および/または脳組織であり;前記異なる生体分子の種がmRNAおよび/またはそのDNAカウンターパートおよび脳代謝物、特に遊離プロスタグランジン、リポキシゲナーゼ由来脂肪酸代謝物、グルタミン、グルタミン酸、ロイシン、アラニン、セリン、デコサヘキサエン酸(DHA)、12(S)−ヒドロキシエイコサテトラエン酸(12S−HETE)であり;mRNA発現レベルおよび定量および/または定性分子代謝物パターン(メタボロミクスデータ)がステップb)の前記パラメーターとして使用され;mRNA発現生データがβアクチンを参照遺伝子として使って前処理され、前記脳代謝物のメタボロミクスデータがバイナリー対数(すなわち、2を底とする対数)を使って分散安定化変換により前処理され;ランカー、特にメタボロミクスデータのためのフィルターとして最大平均値のペアワイズ差と組み合わされたWelch t検定(有意性検定)が前記特徴選択に使用され;サポートベクターマシンが適切な分類アルゴリズムとして選択され、前処理およびフィルター処理されたmRNAおよびマイクロRNA発現データを含む分類アルゴリズムの訓練がleave−one−out(LOO)交差検定を使って実行され;前記訓練されたサポートベクターマシン分類器を虚血および/または低酸素の疑いのある患者の前記前処理されたmRNA発現データおよび前記メタボロミクスデータセットに適用し、訓練された分類器を使って虚血および/または低酸素および/またはそのグレードを診断することを特徴とする請求項1〜6のいずれかに記載の方法。
【請求項16】
試料が固相抽出液体クロマトグラフィータンデム型質量分析(オンラインSPE−LC−MS/MS)で分析され、好ましくは、C18カラムが固相抽出カラムとして使われ;また、前記生物学的組織試料中の測定された代謝物濃度が、好ましくは、内部標準への参照により検量され、エレクトロスプレーイオン化多段反応モニタリングタンデム型質量分析検出モードにより定量化されることを特徴とする請求項15に記載の方法。
【請求項17】
mRNA発現データが定量リアルタイムPCR(q−RT−PCR)により得られ;および/または配列番号901〜906のプライマー対が使用され;および/または配列番号265、907および908のDNA標的配列が使用されることを特徴とする請求項15〜16のいずれかに記載の方法。
【請求項18】
生体試料を使って請求項1〜17のいずれかに記載の方法を実行するためのキットであって、
a)少なくとも2つの異なる生体分子種を検出するための検出試薬であって、前記生体分子種が、RNAおよび/またはそのDNAカウンターパート、マイクロRNAおよび/またはそのDNAカウンターパート、ペプチド、タンパク質、および代謝物からなる群より選択された試薬;
b)陽性対照および/または陰性対照;および
c)前記検出試薬で得られた結果の分類に使用する分類ソフトウェア、
を含むキット。

【公表番号】特表2012−523000(P2012−523000A)
【公表日】平成24年9月27日(2012.9.27)
【国際特許分類】
【出願番号】特願2012−503982(P2012−503982)
【出願日】平成22年3月31日(2010.3.31)
【国際出願番号】PCT/EP2010/054384
【国際公開番号】WO2010/115833
【国際公開日】平成22年10月14日(2010.10.14)
【出願人】(509324458)バイオクレイツ ライフ サイエンス エージー (3)
【Fターム(参考)】