生物体のタイプを判別するためのマーカーの選択方法及び選択されたマーカーの利用

【課題】染色体コピー数情報に基づいて生物体のタイプを判別する技術を提供する。
【解決手段】生物体のタイプを染色体コピー数情報に基づいて判別するためのマーカーを選択するのにあたり、生物体についてタイプが既知である複数個体の染色体コピー数情報を準備し、生物体についてタイプが既知である複数個体の染色体コピー数情報に基づいてタイプを判別するためのマーカーを選択するようにする。マーカーの選択は、タイプが既知である複数個体の染色体コピー数情報に対して、複数個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationを適用して得られる検証結果を利用する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、生物体が備える可能性のある少なくとも２種類のタイプを判別する技術に関し、詳しくは、生物体例えばアレイCGHによって得られる生物体の染色体コピー数情報に基づいて生物体のタイプを判定するためのマーカーの選択、選択されたマーカーによる生物体のタイプの判定、判定の検証方法等に関する。
【背景技術】
【０００２】
近年、各種態様の固相にオリゴヌクレオチドなどのプローブを固定化したアレイは、各種研究用途のほか、疾患診断や予後の予測、薬剤有効性の評価などへの医療分野への適用が期待されている。アレイは、遺伝子発現解析に利用され、個人の体質診断から疾患診断等へと応用されるようになってきている。また、アレイは、アレイＣＧＨ（Array Comparative Genomic Hybridizatoin）にも利用されている。アレイＣＧＨは、BACなどにクローニングされた染色体上の各部をガラスなどの担体に固定化し、被験試料中の核酸とハイブリダイゼーションさせ、ハイブリダイゼーションに基づく信号の強度から、染色体上の各部におけるコピー数の増減を高い精度で検出することができる手法である。アレイＣＧＨは、染色体における遺伝子コピー数の異常の検出が可能であるため、遺伝子の異常に起因する疾患や結果として遺伝子異常を生じる疾患の診断や治療方針の決定に使用できるものとして期待されるようになってきている。このため、悪性リンパ腫など遺伝子異常に起因する疾患についてのアレイCGHが行われている（非特許文献１）。
【０００３】
こうしたデータを活用するには、そのための判別アルゴリズムが重要となる。現在、遺伝子発現解析により得られるデータを利用して各種の診断に適用するための判別アルゴリズムは多数知られている（非特許文献２、３）。
【非特許文献１】Tagawa H, Suguoro K, Tsuzuki S, et al. Comparison of genome pro_les for identi_cation of distinct subtype of di_use large B-cell lymphoma. Blood 2005;106:1770-7.
【非特許文献２】Golub TR, Slonim DK, Tamayo P, et al. Molecular classi_cation of cancer: class discovery and class prediction by gene expression monitoring. Science 1999;286:531-7.
【非特許文献３】Radmacher MD, Mcshane LM, Simon R. A paradigm for class prediction using gene expression pro_les. J Compt Biol 2002;9:505-11.
【発明の開示】
【発明が解決しようとする課題】
【０００４】
遺伝子発現量は、あくまで遺伝子の発現情報であり、遺伝子の異常に関連するほか、それ以外の因子にも関連した情報である。したがって、遺伝子異常を直接検知することはできない。一方、アレイCGHは、遺伝子そのものを分析対象としているため、RNA量を分析対象とする遺伝子発現解析よりも、より正確に遺伝子異常を検出できるものと期待されている。
【０００５】
遺伝子発現解析に対しては、既に記載したように多数の判別アルゴリズムが検討され使用されているが、アレイCGHについては、安定したデータの採取が困難であったため、未だこうした判別アルゴリズムの検討はほとんどされてないのが現状である。したがって、上記のように疾患についてのアレイCGHデータを取得しても、その一部を利用しているに過ぎなかった。
【０００６】
また、アレイCGHから得られるデータは、遺伝子発現解析によって得られるデータとその特性が異なっている。すなわち、遺伝子発現量及び染色体コピー数は、それぞれ健常人の発現量及び染色体コピー数と対比して得られるものではあるが、遺伝子発現解析によって得ようとするデータは、どの程度発現量が増減しているかに関する連続量であり、アレイCGHから得ようとするデータはコピー数異常の有無に関する離散量である点において相違している。したがって、従来、遺伝子発現解析に適用される判別アルゴリズムは、アレイCGHにはそのまま適用できるものではなかった。
【０００７】
以上のことから、現状において、アレイCGHデータなどによって得られる染色体コピー数を用いて疾患を分類したり、染色体コピー数情報による判別を検証したり、あるいは、染色体コピー数情報から有用なマーカーを選択するなどの手法が要望されている。
【０００８】
そこで、本発明は、染色体コピー数情報に基づいて生物体のタイプを判別する技術を提供することを一つの目的とする。すなわち、本発明は、生物体のアレイCGHデータの解析に有用な解析手法及び解析プログラム並びにこれらの利用を提供することを一つの目的とする。
【課題を解決するための手段】
【０００９】
本発明者らは、アレイCGHから得られるデータの特性を検討したところ、データが離散量であるほか、アレイCGHでは、異常なクローン（マーカー）に隣接するクローン（マーカー）が本来異常でないのに異常な数値を取る傾向があり、アレイCGHにおいて遺伝子異常として検出されるデータには連続性があることを見出した。さらに、こうしたアレイCGHのデータ特性に基づいて各種の手法により解析を試みた結果、アレイCGHデータなどから得られる染色体コピー数情報を利用した生物体のタイプ判別に用いるマーカー選択方法及び選択されたマーカーを用いる判別方法を見出し、本発明を完成した。すなわち、本発明によれば、以下の手段が提供される。
【００１０】
本発明によれば、生物体が備える可能性のある少なくとも２種類のタイプを判別するためのマーカーの選択方法であって、前記タイプが既知である前記生物体の複数個体の複数種類のマーカー候補に関する染色体コピー数情報及び前記複数個体の前記マーカー候補毎のコピー数異常の有無に関するコピー数異常情報に基づいて、一つの前記マーカー候補につき前記複数個体においてコピー数異常が生じることについての統計的有意性が肯定的に判定されるときに当該マーカー候補を判別用マーカーとして選択する、選択方法が提供される。
【００１１】
この選択方法においては、前記判別用マーカーの選択に際し、前記コピー数異常情報から取得される、前記マーカー候補毎のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和である有意確率に基づく統計的有意性を用いることができる。また、前記タイプの種類がＣ種類（Ｃは２以上の整数）であるとき、前記有意確率pjxは、以下の式で表すことができる。
【数３】

【００１２】
また、設定された閾値を用いて前記マーカー候補毎のコピー数異常の有無を判定することにより前記コピー数異常情報を取得し、設定された有意水準を用いて前記コピー数異常が生じる統計的有意性を判定してもよい。さらに、前記閾値及び前記有意水準は、前記複数個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationを適用して得られる検証結果に基づいて設定することができる。さらに、前記閾値及び前記有意水準は、Leave-one-out cross-validationを適用して得られる検証結果において最も良好な検証結果が得られるものとして選択されることができる。また、前記選択方法においては、前記判別用マーカーの選択に先立って、前記閾値及び前記有意水準を設定するパラメータ設定工程を備えることができる。
【００１３】
本発明の選択方法では、前記判別用マーカーの選択に際し、以下の（ａ）〜（ｃ）を繰り返し実行することもできる。
（ａ）前記コピー数異常情報に基づく前記マーカー候補についてのコピー数異常の生起確率と当該コピー数異常よりも極端な方向における生起確率の和である有意確率の最小値を取得するとともに当該最小値を採るマーカー候補の識別情報を取得し、
（ｂ）前記最小値を採るマーカー候補に関するコピー数異常についての有意確率に基づいて統計的有意性が肯定的に判定されるとき、前記最小値を採るマーカー候補を判別用マーカーとして選択し、
（ｃ）前記選択された判別用マーカーが増幅異常マーカーであるとき、前記複数個体において前記判別用マーカーの前後で連続して増幅異常を示すマーカー候補を前記増幅異常を有しないものとして取り扱い、前記選択された判別用マーカーが欠失異常マーカーであるとき、前記複数個体において前記判別用マーカーの前後で連続して欠失異常を示すマーカー候補を欠失異常を有しないものとして取り扱う。
【００１４】
本発明の選択方法では、また、前記判別用マーカーの選択に先立って、前記染色体コピー数情報を取得し、前記染色体コピー数情報に基づいて前記コピー数異常情報を取得することができる。
【００１５】
また、前記染色体コピー数情報は、前記マーカー候補となる複数種類のDNAが固定化された固相担体上の核酸ハイブリダイゼーション結果に基づくことができる。また、判別しようとする前記タイプは、ヒト並びに非ヒト哺乳動物における疾患、先天性異常及び体質から選択されるいずれかの分類とすることができる。さらに、判別しようとする前記タイプは、ヒトの固形腫瘍及び造血器腫瘍における分類とすることができ、判別しようとする前記タイプは、非ホジキンリンパ腫のＢ細胞リンパ腫における分類とすることもできる。
【００１６】
本発明によれば、生物体が備える可能性のある少なくとも２種類のタイプを判別するためのマーカー選択プログラムであって、上記いずれかに記載の選択方法における各工程を処理する１又は２以上のステップを１又は２以上のコンピュータに実行させるためのプログラムが提供される。
【００１７】
本発明によれば、生物体が備える可能性のある少なくとも２種類のタイプを判別するための判別用マーカーセットであって、上記いずれかに記載のマーカー選択方法により選択される１種又は２種以上のマーカーを含む、マーカーセットが提供される。また、本発明によれば、表１Ａ、表１Ｂ、表１Ｃ、表１Ｄ及び表１Ｅに記載のマーカーから選択される１種又は２種以上を含む、非ホジキンリンパ腫のＢ細胞リンパ腫の分類を判別するためのマーカーセットや、表２Ａ、表２Ｂ、表２Ｃ及び表２Ｄに記載のマーカーから選択される１種又は２種以上を含む、非ホジキンリンパ腫のＢ細胞リンパ腫の分類を判別するためのマーカーセットも提供される。さらに、本発明によれば、表３Ａ、表３Ｂ、表３Ｃ及び表３Ｄに記載のマーカーから選択される１種又は２種以上を含む、びまん性大細胞リンパ腫の予後タイプの分類を判別するためのマーカーセットや表４Ａ、表４Ｂ、表４Ｃ及び表４Ｄに記載のマーカーから選択される１種又は２種以上を含む、びまん性大細胞リンパ腫の予後タイプの分類を判別するためのマーカーセットも提供される。これらのマーカーセットにおいては、それぞれのタイプに特異的なマーカー（ゲインおよび／またはロス）をそれぞれ含むことが好ましい。また、これらのマーカーセットは、それぞれの表に記載の全てのマーカーを含むものとすることができるが、表に記載されるNegative logに基づいて当該数値が高値を示すものから選択することもでき、例えば、Negative logが３を超であることが好ましく、より好ましくは４超であり、さらに好ましくは5超であり、一層好ましくは６超である。また、各マーカーセットにおいては、表に列挙されるマーカーから２０種類以上を含むことが好ましく、より好ましくは５０種類以上であり、さらに好ましくは１００種類以上である。
【００１８】
本発明によれば、生物体が備える可能性のある少なくとも２種類のタイプを判別する方法であって、判別しようとするタイプのそれぞれについてコピー数の異常が生じることについての統計的有意性が肯定された判別用マーカーと判別対象生物体の前記判別用マーカーについての染色体コピー数に関する染色体コピー数情報とを準備し、判別しようとする前記タイプの少なくとも一つについて、以下の情報：
（ａ）前記判別対象生物体が、前記一つのタイプの判別用マーカーに特徴的なコピー数異常を有するか否かに関する判別用コピー数異常情報及び
（ｂ）前記一つのタイプの判別用マーカーの統計的有意性が肯定された際の有意確率に関する有意確率情報、
を利用して前記判別用対象生物体が前記一つのタイプであるか否かを判別する、判別方法が提供される。なお、ここで有意確率は、前記コピー数異常情報から取得される、前記マーカー候補毎のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和とすることができる。
【００１９】
この判別方法においては、前記タイプの判別に際し、少なくとも前記一つのタイプについての以下の式（「数４」）に表される得票数Ｖxが、前記残余の各タイプについての以下の式（「数４」）に表されるＶｘのいずれよりも大きいとき、前記判別対象生物体が前記一つのタイプであると判定するｋとができる。また、この判別方法において、前記判別用マーカーは、上記いずれかに記載のマーカー選択方法により選択されていてもよい。
【数４】

【００２０】
この判別方法において判別しようとする前記タイプは、ヒト並びに非ヒト哺乳動物における疾患、先天性異常及び体質から選択されるいずれかの分類とすることができるし、判別しようとする前記タイプは、ヒトの固形腫瘍及び造血器腫瘍における分類とすることもできる。さらに、判別しようとする前記タイプは、非ホジキンリンパ腫のＢ細胞リンパ腫における分類とすることもできる。
【００２１】
本発明によれば、生物体が備える可能性のある少なくとも２種類のタイプを判別するためのプログラムであって、上記いずれかに記載の判別方法における各工程を処理する１又は２以上のステップを１又は２以上のコンピュータに実行させるためのプログラムが提供される。
【００２２】
本発明によれば、生物体が備える可能性のある少なくとも２種類のタイプを判別するための判別装置であって、固相担体と、当該固相担体に固定化された請求項１５〜１８のいずれかに記載のマーカーセットと、を備える、装置が提供される。
【００２３】
本発明によれば、生物体が備える可能性のある少なくとも２種類のタイプを判別する方法の検証方法であって、前記タイプが既知である複数個体の複数の判別用マーカー候補についての染色体コピー数に関する染色体コピー数情報を準備し、
前記染色体コピー数情報に係る前記複数個体から選択される一つの個体を判別対象とし残余の個体を判別器とするLeave-one-out cross-validationによる外部ループと、当該残余の個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationによる内部ループと、を構成し、
前記染色体コピー数情報に基づいて前記タイプの判別用マーカーを選択するためのパラメータを前記内部ループにより設定し、
設定した前記パラメータを前記外部ループの前記判別器に適用して判別用マーカーを選択し、選択した前記判別用マーカーを前記外部ループの前記判別対象に適用して前記判別対象のタイプについての判別結果を取得し、
前記外部ループの全ての判別対象についての前記判別結果により判別したタイプと前記判別対象について既知のタイプとを対比して得られる判別結果の当否に関する外部ループ当否情報を利用して前記内部ループによって設定した前記パラメータを用いた前記判別方法の判別精度を取得する、検証方法が提供される。
【００２４】
前記パラメータの設定に際し、複数のパラメータ候補の一つを前記内部ループの前記判別器に適用して判別用マーカーを選択し、当該判別用マーカーを前記内部ループの前記判別対象に適用して得られる判別結果と当該判別結果の当否に関する内部ループ当否情報とを取得して、前記複数のパラメータ候補の全てについて前記内部ループの全ての判別対象について取得した前記内部ループ当否情報に基づいて最も高い判別精度が得られた一つのパラメータ候補を前記パラメータとして設定することができる。
【００２５】
この検証方法において、前記パラメータは、前記各個体の前記各マーカー候補につき染色体コピー数が異常であるかどうかを判定するための閾値と、前記各マーカー候補につき前記複数個体においてコピー数異常が生じることについての統計的有意性を判定するための有意水準と、を含むことができる。
【発明を実施するための最良の形態】
【００２６】
本発明は、生物体が備える可能性のある２種類以上のタイプを判別するための判別用マーカーの選択、判別用マーカーセット、前記タイプの判別、判別装置及び判別方法の検証等に関する。以下、まず、本発明が利用する染色体コピー数情報の取得について説明し、次いで、染色体コピー数情報をタイプ判別に適用するための種々の形態について説明する。
【００２７】
本発明において、「生物体」とは、DNA又はRNAを固有の情報として保持するものであればよく、少なくとも動物、植物、微生物及びウイルスを包含している。例えば、動物としては、ヒト及び非ヒト哺乳動物、魚類、鳥類、昆虫等が挙げられる。また、本発明において「判別」とは、少なくとも２つのタイプのうちの一つに該当することを決定することを意味している。したがって、判別は、３つ以上のタイプのうちいずれか一つに該当することを決定することも包含される。ただし、「判別」には、結果として判別不能である場合も包含される。また、本発明の判別の対象である「タイプ」は、染色体のコピー数異常として区別可能なものであればよい。したがって、判定対象となるタイプとしては、例えば、ヒト及び非ヒト哺乳動物等においては、固形腫瘍や造血器腫瘍などの各種腫瘍や先天性異常を含む疾患の分類及び細分類、薬剤耐性、薬剤感受性等を含む体質、遺伝的素因等が挙げられる。また、哺乳動物以外の動物や植物体における病気の種類などが挙げられる。
【００２８】
本発明は、悪性リンパ腫、なかでも非ホジキンリンパ腫のＢ細胞リンパ腫におけるびまん性大細胞型Ｂ細胞リンパ腫（DLBCL）とマントル細胞リンパ腫（MCL）との判別に適し、さらにはDLBCLにおいてさらに予後不良な群（ABCタイプ）と予後良好な群（GCBタイプ）との判別にも適している。
【００２９】
（染色体コピー数情報）
本発明において、染色体のコピー数とは、生物体の染色体における特定部位（遺伝子の一部若しくは全部又は遺伝子としては特定されていないか若しくは遺伝子ではない染色体上の領域）のコピー数を意味している。また、コピー数とは、染色体上の特定の一部において対照個体と比較によって取得されることが好ましく、例えば、対照個体の染色体の特定部位（マーカー候補又は判別用マーカーの一部についてのコピー数に対応するシグナルと特定個体の前記特定の一部についてのコピー数に対応するシグナルとの比（対数）として表すことができる。生物体の染色体における特定部位は、マーカー候補又は判別用マーカーとなるアレイ化されるDNA等である。なお、こうした染色体のコピー数は、アレイCGHによって得られるものであることが好ましい。アレイCGHは、全染色体にわたってコピー数情報を良好な解像度で取得することができるとともに、1コピーレベルでのコピー数変化であっても検出が可能であるからである。
【００３０】
（染色体コピー数情報の取得）
（アレイCGHの準備）
次に、コピー数情報をアレイCGHによって取得する方法について説明する。コピー数情報を取得するには、まずアレイCGHに用いるアレイ（以下、CGHアレイともいう。）を準備する。CGHアレイは、コピー数変化を検出しようとする染色体上の領域あるいは大きさに対応したDNA等がアレイ化されている。
【００３１】
CGHアレイにアレイ化されるDNA等としては、BAC、PAC等の人工染色体などのベクターそのもの若しくはこれらBAC等に対してDOP-PCR法などで増幅した断片、あるいはcDNA等とすることができる。あるいはこれに類するベクター等を特に限定することなく用いることができる。
【００３２】
判別用マーカーの選択には、判別用マーカーをもれなく選択する観点から全染色体をおおよそカバーするようにアレイ化DNA（マーカー候補）を配したCGHアレイを準備することが好ましい。なお、判別用マーカーとなりえないことがわかっている染色体あるいはその一部はアレイ化DNAから予め排除されていてもよい。また、判別用マーカーとして可能性ある染色体領域のみでアレイCGHを構成してもよい。これに対して、判別用マーカーが既に確立されている場合においてタイプ未知の検体のためのCGHアレイは、確立された判別用マーカーとなるDNAのみが固定化されたカスタムアレイとすることもできる。
【００３３】
CGHアレイにおけるアレイ化DNAの平均解像度は、目的に応じて適宜選択されるものであり、特に限定するものではないが、コピー数変化の位置、広さ、程度、標的遺伝子についての情報を取得しやすくするには、2Mb以下であることが好ましい。より好ましくは、１．５Mb以下である。
【００３４】
CGHアレイは、こうしたDNA等が適当な固相担体に固定化されて構成されていればよい。アレイの形態は、従来公知の各種形態を特に限定することなく採ることができる。例えば、固相担体は、基板、ビーズ等の形態を採ることができる。また、固相担体材料も特に限定されないで、ガラス、プラスチックあるいは金属等を適宜用いることができる。さらに、固相担体の表層形態も平滑面、多孔質、クロス状等適宜選択することができる。CGHアレイとしては、ガラスやプラスチック等の基板にDNAがアレイ状に固定化されたものを用いることが好ましい。CGHアレイは、DNAマイクロアレイを構築するための従来公知の方法により得ることができる。
【００３５】
（アレイCGHアッセイ）
コピー数情報を取得するには、作製したCGHアレイ等に対して、検体の試料（核酸を含む）を適用してハイブリダイゼーションアッセイを行い、各アレイ化DNAについてのシグナル（蛍光色素などによる）を検出することが好ましい。コピー数情報を取得するには、同時に対比のための対照についてもCGHアレイに対してハイブリダイゼーションアッセイを行う。対照は、タイプ判別の対象とならない標準的な検体とすることが好ましく、例えば、疾患のタイプ判別を行う場合には、健常者から採取した検体とすることができる。
【００３６】
検体及び対照について、アレイ化DNA毎のシグナルを検出することにより、検体についてのコピー数情報を得ることができる。コピー数情報は、個々のアレイ化DNAについて、以下の式「数５」で表される反応値として得ることができる。
【００３７】
【数５】

【００３８】
反応値は、対照のシグナル強度に対する検体のシグナル強度の比を利用して、対照に対する検体のコピー数の比をlog₂スケールで表したものとなっている。反応値は、対照（例えば、健常者）に対する検体（患者）のシグナル強度の比が大きければ正（増幅）の値をとり、小さければ負（欠損）の値をとることになる。また、同一であれば、０（正常）となる。一例として、対照（健常者）と検体（DLBCL患者）の全染色体にわたるシグナル強度をlogスケールで表したグラフを図１に示す。
【００３９】
なお、検体及び対照についての試料調製方法は、従来のアレイCGHあるいはDNAマイクロアレイにおけるのと同様の手法を採用することができる。一般的には、コピー数情報を取得するのに適切な組織や体液を採取し、適宜当該採取試料から染色体（核酸）抽出操作を行い、さらに、ハイブリダイゼーションを検出するための蛍光色素の標識が付加される。ハイブリダイゼーションも作製したCGHアレイと適用する検体に適したハイブリダイゼーション条件を適宜設定して行えばよく、シグナル検出も従来のDNAマイクロアレイに適用するスキャナを適宜選択して使用すればよい。
【００４０】
（１．タイプの判別方法）
次に、コピー数情報を用いてマーカーを選択し、次いでタイプ未知の個体のコピー数情報に基づいてタイプを判別する方法について説明する。なお、以下の説明においては、マーカーを選択するためのタイプ既知の個体のコピー数情報と判別しようとするタイプ未知の個体のコピー数情報とはアレイCGHアッセイ等により既に取得されているものとする。
【００４１】
図２には、タイプを判別する処理のフローチャートの一例を示す。なお、以下に説明する判別用マーカーの選択処理等においては、アレイCGH等を構成するアレイ化DNAをマーカー候補として処理対象とすることができるが、予めその一部を処理対象から排除しておくこともできる。アレイCGHを構成するアレイ化DNAには、分析対象によっては判別に有効でないマーカー候補や機能的でないマーカー候補も含まれている。こうしたマーカー候補としては、例えば、性染色体に対するアレイ化DNAや欠損値を含むアレイ化DNAが挙げられる。予め、こうしたマーカー候補を処理対象から排除しておくことで、閾値処理等を効率的に実施できる。
【００４２】
（１−１．判別用マーカーの選択）
タイプが未知の個体のコピー数情報に基づいてタイプを判定するには、まず、タイプ判別用のマーカーを選択することが好ましい。タイプ判別のためのマーカーを選択するには、各種の方法が採用できる。判別用マーカーは、各種のクローンあるいはクローンから取得したDNA断片などのマーカー候補のうち判別しようとするタイプの少なくとも一つについてゲイン（増幅）又はロス（欠失）といったコピー数異常を有するものである。こうした判別用マーカーは、予め他の方法等によりタイプの分類が確立（判別）されている複数個体の複数種類のマーカー候補についてのコピー数情報を準備し、当該コピー数情報に基づいて選択することができる。判別用マーカーの選択にあたっては、こうしたタイプ既知のコピー数情報が各タイプにつき適数個あればよく、特に限定されないが、好ましくは、一つのタイプにつき２０例以上であり、より好ましくは４０例以上である。４０例以上であると、後述するパラメータβを０．０１とするとき、全体の２０％以上にコピー数異常があるマーカー候補を判別用マーカーとして判定することができる。さらに好ましくは６０例以上である。
【００４３】
以下、一例として２つのタイプを判別するための判別用マーカーの選択処理を、具体例を挙げて説明する。なお、こうした処理は、ＣＰＵ、ＲＡＭ及びＲＯＭ並びに適当な入出力装置等を備えるコンピュータにおいて処理されることが好ましい。したがって、以下の処理は、こうしたコンピュータのＣＰＵが処理するものとして記載する。
【００４４】
（１−１−１．パラメータの設定）
判別用マーカーを選択するには、まず、そのためのパラメータを取得する（ステップＳ１０）。判別用マーカーを選択するのにあたっては、まず、あるマーカー候補がコピー数に関して増幅又は欠失の異常を有しているかどうかを判定するためのパラメータと、あるマーカー候補がマーカーとして使用できるかどうかを判定するためのパラメータと、を設定することが好ましい。前者のパラメータは、個々のマーカー候補の反応値が増幅異常（ゲイン）又は欠失異常（ロス）若しくは正常であるのかを決定するための閾値処理用のパラメータαである。すなわち、コピー数異常情報を取得するためのパラメータである。このパラメータαは、個々のマーカー候補についての対照（健常者）群の正常な反応値の分布（ヒストグラム）に基づいて当該分布上下から一定比率にある反応値以上又は反応値以下であるときゲイン又はロスであると判定するための比率に関するパラメータである。
【００４５】
この閾値処理は、パラメータαのとき、図３に示すように、各マーカー候補についての対照群の分布の上下それぞれα／２点を閾値として、ある個体のマーカー候補についての反応値が上側の閾値より大きいときゲインがあると判定してゲインには数値１を付与し、反応値が下側の閾値より小さいときロスがあると判定してロスには数値−１を付与し、反応値が下側α／２より大きく上側α／２よりも小さい場合には、正常として数値０を付与するものとする。閾値処理を行うことで各反応値をより簡素な離散データとすることができる。なお、閾値処理のα／２点を決定する対照群の反応値の分布は、個体間のばらつき及びハイブリダイゼーション間のばらつきを考慮すると、複数あることが好ましく、より好ましくは１０個以上である。
【００４６】
このように各マーカー候補について、設定したゲイン及びロスの閾値を用いて予めアレイデータを閾値処理することで、マーカー選択処理を効率的に実施することができる。図４に、アレイCGHデータの閾値処理前後の一例を示す。なお、こうした閾値処理は、各マーカー候補について一括して判別用マーカーの選択工程に先立って行うことに限定されない。個々のマーカー候補について判別用マーカーとなりうるかどうかの選択処理において、マーカー候補毎に実施してもよい。
【００４７】
後者のパラメータは、閾値処理後の反応値に基づいて、個々のマーカー候補が判別用マーカーとなりうるのかどうかを判定するためマーカー選択処理用のパラメータβである。パラメータβは、あるマーカー候補についてゲイン又はロスが生じる統計的有意性の有無を判定するための有意水準に関するパラメータであり、より具体的には、あるマーカー候補について複数の個体でゲイン又はロスが偶然に生じやすいかどうかを判定するための有意水準のためパラメータである。したがって、例えば、当該有意水準を基準に、あるマーカー候補についてゲイン又はロスが生じる統計的有意性が肯定されるとき、当該パラメータ候補は、判別用マーカーとして選択することができる。統計的有意性は、あるマーカー候補についての複数個体のコピー数異常情報から取得される、当該マーカー候補のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和である有意確率を利用して判定することが好ましい。この有意確率が有意水準（β／２）未満であるときには、肯定され、有意水準以上のとき否定されることになる。
【００４８】
これらのパラメータ（α、β）は、ハイパーパラメータとしてユーザが設定することもできるが、タイプ既知の複数個体の複数種類のマーカー候補についてのコピー数情報に対してLeave-One-Out Cross Validations(LOOCV)法を用いて恣意性を排除して客観的に取得することもできる。
【００４９】
以下の説明では、説明の都合上、まず、（α、β）がハイパーパラメータあるいはLOOCV法によって設定されたかにかかわらず、予め準備されたものとしてマーカーの選択処理について説明し、後段にてLOOCV法によるパラメータ設定処理について詳細に説明する。
【００５０】
したがって、パラメータ取得ステップ（ステップＳ１０）では、ＣＰＵは、ＲＯＭ又はＲＡＭ等の所定領域からパラメータ（α、β）を取得する。αは、例えば、0.1％（0.001）、0.5％（0.005）、1％（0.01）、5％（0.05）及び10％（0.10）等から選択されるいずれかとすることができ、βは、例えば、0.1％（0.001）、0.5％（0.005）、1％（0.01）、5％（0.05）及び10％（0.10）等から選択されるいずれかとすることができる。
【００５１】
（１−１−２．マーカーの選択）
図２のマーカー選択処理（ステップＳ２０）のフローチャートの一例を図５に示す。なお、以下の説明では、タイプ１及びタイプ２についての判別が既知のN個の症例についてのアレイCGHによるコピー数情報が準備されており、マーカーの選択対象となるマーカー候補の個数は２０９９個であるものとする。また、N個の症例群において、タイプ１の個体がn1人、タイプ２の個体がn2人存在し（N＝n1+n2人）、あるマーカー候補ｊにつきMj人の個体にゲイン又はロスの異常がみられ、そのうちタイプ１の個体がmj1人、タイプ２の個体がmj2人いたとする。
【００５２】
マーカー選択処理では、マーカーの選択対象となるマーカー候補の個数(２０９９個)に対応する繰り返し数ｊを１にセットする（ステップＳ１１０）。そして、マーカー候補jについて、ゲイン又はロスのあるタイプ1の個体人数mj1とタイプ2の個体人数mj2及び個体人数Mjとを取得する（ステップＳ１２０）。すなわち、図２のステップＳ１０で取得したαを用いて閾値処理された全症例の反応値に基づいてマーカー候補ｊにおいて各タイプにつきゲイン又はロスのある個体を抽出し、人数mj1及びmj2を取得する。
【００５３】
次に、CPUは、マーカー候補jについて、以下の式（「数７」及び「数８」で表される確率pj1及びpj2を求める（ステップＳ１３０）。ここで、マーカー候補jについて、Mj人の個体にゲインがあり、そのうちタイプ１の個体がmj1人、タイプ２の個体がmj2人おり（Mj＝mj1＋mj2）、かつ、「マーカー候補jがタイプ1及び2の識別に有用でない、すなわち、どちらのタイプについても同じ確率でゲインが生じる」と仮定したとき、こうしたゲインが偶然生じる確率は以下の式「数６」で表すことができる。
【数６】

【００５４】
また、マーカー候補jについて上記事象（タイプ1がmj1人）及び上記事象よりもタイプ1が多くなる場合（より極端な事象が生じる場合）、すなわち、マーカー候補jについて、タイプ１の個体がmj1、mj1＋1、mj1＋2、・・・Mjとなる確率pj1は以下の式「数７」で表すことができる。この確率pj1は、本発明における有意確率（マーカー候補のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和）に相当する。
【数７】

【００５５】
同様に、Mjが与えられるとき、マーカー候補jについて上記事象（タイプ2がm2人）及び上記事象よりもタイプ2が多くなる場合（より極端な事象が生じる場合）、すなわち、マーカー候補jについてタイプ2の個体がmj2、mj2+1、mj2+2、・・・Mjとなる場合の確率pj2は、以下の式「数８」で表すことができる。この確率pj2は、本発明における有意確率（マーカー候補のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和）に相当する。
【数８】

【００５６】
次に、ＣＰＵは、マーカー候補jにつき、算出した確率pj1に対して予め設定したβを用いて、pj1＜β/2であるかどうかを判定する（ステップＳ１４０）。すなわち、ＣＰＵは、マーカー候補jにつきタイプ1で増幅の異常が生じることが偶然におきやすいかどうかを判定する。確率pj1＜β/2のときには、タイプ1で増幅となることが偶然には起こりにくいと判定する（ステップＳ１５０）。すなわち、マーカー候補jは、タイプ1で増幅になりやすい判別用マーカー（増幅マーカー）であると判定する。一方、確率pj1≧β/2のときには、タイプ1で増幅となることが偶然に起こりやすいと判定する（ステップＳ１６０）。すなわち、マーカー候補jは、タイプ１についての判別用マーカーではないと判定する。なお、CPUはマーカー候補ｊを判別用マーカーとして判定したときには、当該マーカー候補ｊをその特徴に関連付けしてＲＡＭ内の所定領域に記憶する。
【００５７】
同様に、マーカー候補jにつき、算出した確率pj2に対して予め設定パラメータβに基づいて、pj2＜β/2であるかどうかを判定する（ステップＳ１７０）。確率pj2＜β/2のときには、タイプ2で増幅となることが偶然には起こりにくいと判定する（ステップＳ１８０）。すなわち、マーカー候補jは、タイプ2で増幅になりやすい判別用マーカー（増幅マーカー）であると判定する。一方、確率pj2≧β/2のときには、タイプ2で増幅となることが偶然に起こりやすいと判定する（ステップＳ１９０）。すなわち、マーカー候補jは、タイプ2についての判別用マーカーではないと判定する。なお、ＣＰＵは、以上のようにマーカー候補ｊを判別用マーカーとして判定したときには、当該マーカー候補ｊをその特徴に関連付けしてＲＡＭ内の所定領域に記憶する。
【００５８】
こうして各マーカー候補がいずれかのタイプの判別用マーカーとなりうるかどうかの判定を２０９９個の全てのマーカー候補について繰り返し行い（ステップＳ２００〜ステップＳ２０２及びステップＳ１２０〜ステップＳ２００）、最終的に予め設定された一組の（α、β）について、タイプ1及びタイプ2のそれぞれについて特徴的な判別用マーカーセットをN個の症例から取得し、設定する（ステップＳ２１０）。なお、以上の具体例では、マーカー候補jについてゲインが見られた場合について説明したが、マーカー候補jについてロスが見られた場合においては、欠失マーカーとして判定できるかどうかを上記と同様の手法で判定することになる。
【００５９】
こうして得られるマーカーセットは、タイプ１にゲインがみられやすいマーカーであるM1＋マーカー、タイプ１にロスがみられやすいマーカーであるM1−マーカー、タイプ２にゲインがみられやすいでマーカーであるM2＋マーカー及びタイプ２にロスがみられやすいマーカーであるM2−マーカーを含むことができる。なお、常にこれらの全ての種類の特徴的マーカーを含むものではない。これらのうち１種〜３種のみの特徴的マーカーによりマーカーセットが構成される場合もある。
【００６０】
以上の方法によれば、判別用マーカーが確率の概念を用いて選択されるため、パラメータα、βがハイパーパラメータであっても判別用マーカーの選択について意味づけが可能となる。また、こうした判別用マーカーの選択方法をLOOCV法によるパラメータの設定に適用することでマーカーの選択を容易化することができる。さらに、確率pj1及びpj2は、それぞれが小さいほど偶然には起こりにくいこと、すなわち、タイプ１及びタイプ２のそれぞれに特徴的であることを示しており、これらの確率を判別用マーカーによる判別に反映させるようにすることで判別精度を上げることができる。
【００６１】
なお、上記方法によれば、α及びβについて各種の組み合わせ、例えば、αにつき0.001、0.005、0.01、0.05、0.10、βにつき0.001, 0.005、0.01、0.05、0.10として２５種の組み合わせについて上記マーカー選択を行うことにより、最大２５セットの判別用マーカーセットを得ることができる。一つのマーカーセットは、一組の（α，β）について一つのセットとして得ることができ、（α，β）の組み合わせ数に応じて判別用マーカーセットが得られる。
【００６２】
（１−２．タイプ未知の症例のコピー数情報に基づくタイプ判別）
次に、選択した判別用マーカーセットを用いてタイプ未知の個体のコピー数情報に基づいてその疾患や体質等のタイプを判別する処理（図２のステップＳ３０）について説明する。判別処理においては、Weighted Voting Method（Golub TR, Slonim DK, Tamayo P, et al. Molecular classi_cation of cancer:class discovery and class prediction by gene expression monitoring. Science1999;286:531-7）及びCompound Covariate Method（Radmacher MD, Mcshane LM, Simon R. A paradigm for class prediction using gene expression profiles. J Compt Biol 2002;9:505-11）を改変した線形識別関数的手法を用いることができる。当該手法を採用したタイプ判別処理のフローチャートの一例を図６に示す。図６に示すタイプ判別処理では、判別対象の個体のアレイCGHの各マーカーについての反応値の閾値処理が同様に設定されたαによってなされているものとする。
【００６３】
この処理では、まず、判別対象とするタイプ未知の全症例数に対応する繰り返し数iを１に設定する（ステップＳ２１０）。ｊ個のマーカー候補（マーカー系列）から上記処理で取得した判別用マーカーセットの個々の判別用マーカーにつき、判別対象であるタイプ未知の個体のタイプ1についての得票数v1(i)及びタイプ2についての得票数v2(i)を以下の式「数９」及び式「数１０」に基づいて算出する（ステップＳ２２０）（ただし、iはタイプ未知の症例の番号である。）。これらの各得票数は、判別対象の個体において得られた判別用マーカーにおいて、当該判別用マーカーの種類に応じたコピー数異常を認めた場合に投票し、当該投票結果に、当該マーカーに固有の影響力（重み付け）を付加した上で集計したものとなっている。
【００６４】
【数９】

【数１０】

ただし、zij+及びzij-はそれぞれゲイン及びロスの有無を表し１又は０であり、ｚij＋は、i番目の症例のj番目の判別用マーカーがゲインを示している場合には、数値１であり、それ以外の場合には数値０である。同様に、ｚij−は、i番目の症例のj番目の判別用マーカーが欠失を示している場合には、数値１であり、それ以外の場合には数値０である。なお、pj1及びpj2は、それぞれ式「数７」及び式「数８」に表される有意確率であり、−log pj1及び-logpj2は判別用マーカー固有の影響力を表す。
【００６５】
また、M1＋は、タイプ１に対してゲインが見られることが起こりやすい（ゲインが有意である）とされた判別用マーカーの添字集合を示しているものとし、M1−は、タイプ１に対してロスが見られることが起こりやすい（ロスが有意である）とされた判別用マーカーの添字集合を示し、M2＋は、タイプ２に対してゲインが見られることが起こりやすい（ゲインが有意である）とされた判別用マーカーの添字集合を示し、M2−は、タイプ２に対してロスが見られることが起こりやすい（ロスが有意である）とされた判別用マーカーの添字集合を示す。
【００６６】
上記式によれば、投票は、具体的には、あるM1＋マーカーについてゲイン（閾値処理後の反応値＝１、zij+＝１である。）があれば、タイプ１に１票を投じ、それ以外のとき（zij+＝０）のとき、タイプ１には投票しない（０票を投票する）。また、あるM1−マーカーにつきロス（閾値処理後の反応値＝−１、zij-＝１である。）があったときには、タイプ１に１票を投じ、それ以外のとき（zij-＝０で）には、タイプ１には投票しない。さらに、M2＋マーカーにゲインがあったときには、タイプ２に１票を投じ、そうでないときにはタイプ２には投票せず、M2−マーカーにロスがあったときにはタイプ２に１票を投じ、そうでないときにはタイプ２に投票しないものとする。
【００６７】
また、判別用マーカーの固有の影響力として、既に説明したマーカー毎の固有の確率pj1（式「数７」）又はpj2（式「数８」）を利用することができる。これらの確率pj1及びpj2は、それぞれが小さいほど偶然には起こりにくいこと、すなわち、よりタイプ1又はタイプ2に特徴的であることを示している。したがって、pj1及びpj2の逆数のlogである-logpj1及び-logpj2をマーカーの影響力を示す指標とし、マーカー毎の投票結果（数値１又は０）に乗じることでマーカー固有の影響力を得票数に反映させることができる。
【００６８】
なお、得票数の算出にあたっては、ＲＡＭの所定領域に格納された判別対象の症例のマーカー系列中の各種判別用マーカーについての反応値を順次参照してコピー数異常の有無を判定してzij＋又はzij−を取得すると同時に、異常と判定されたときには、そのマーカーの確率pj1及びpj2をRAMの所定領域から取得して、上記式「数９」又は式「数１０」に従って判別用マーカー毎に算出するようにすることができる。
【００６９】
以上のように、タイプ1の各マーカーについての投票結果を集計するにあたっては、各マーカーの投票結果、実質的にはM1＋及びM1−についてはそれぞれ増幅異常及び欠失異常の場合、それぞれの投票結果（数値１）に各マーカーの指標を乗じたものの総和をタイプ1の得票数v1(i)（式「数９」）として定義することができる。また、同様にタイプ2の各マーカーについての投票結果を集計するにあたっては、増幅異常及び欠失異常が検出されたマーカーの投票結果（数値１）にそれぞれのマーカーの指標を乗じたものの総和をタイプ2の得票数v2(i)（式「数１０」）として定義することができる。
【００７０】
次に、タイプ１及びタイプ２のそれぞれについて算出された得点v1(i)及びv2(i)の大小を判定する（ステップＳ２３０）。すなわち、v1(i)＞v2(i)のとき、タイプ1と判定し（ステップＳ２４０）、v1(i)＜v2(i)のときにはタイプ2と判定し（ステップＳ２６０）、v1(i)＝v2(i)のときには、判定不能とする（ステップＳ２５０）。タイプ未知の症例数ｉだけこの判定処理（ステップＳ２７０、ステップＳ２７２、ステップＳ２２０〜ステップＳ２６０）を繰り返して、この処理を終了する。
【００７１】
以上説明した判別方法によれば、マーカー毎の投票結果にマーカー固有の影響力を作用させて、得票数に判別用マーカー固有の影響力を反映させることができるため、より精度の高い判別が可能となっている。
【００７２】
（１−３．LOOCV法によるパラメータの設定）
次に、LOOCV法によりパラメータ（α、β）を設定する方法について説明する。このパラメータ設定処理は、それぞれ図２のステップＳ１０に替えて実施することができるものである。LOOCV法によるパラメータ設定のフローチャートの一例を図７に示す。なお、以下の説明においては、タイプ既知のN個の症例のマーカー候補についてのコピー数情報が予め取得されているものとする。
【００７３】
以下に説明するLOOCV法は、いくつものモデルを作製したときに，どのモデルが最適であったのかを検討する際に使用する解析方法である。すなわち、全サンプルから、1つのサンプルを除き、残りのサンプルでモデルを作製したとき、あらかじめ抜いていたサンプルを正確に予測することができるかを検定する方法である。本発明においては、タイプが既知である複数個体の複数のマーカー候補についての染色体コピー数情報について、複数個体から選択される一つの個体を判別対象とし残余の個体を判別器とするように分けて前記判別対象のタイプを前記判別器で判別する検証を、全ての判別対象について繰り返し行って判別手法自体を検証する。こうした検証を複数種類のパラメータ候補のそれぞれについて実施することにより、どのようなパラメータ候補を用いたときに最も正答率（判別精度）が高くなるかどうかを容易に知ることができる。したがって、こうした染色体コピー数情報に対してLOOCV法を適用して最も良好な判別精度が得られるパラメータを選択することで、最も判別精度の高い判別用マーカーを容易に選択することができる。
【００７４】
まず、ＣＰＵは、（α、β）の組み合わせ番号ｌを１に設定する（ステップＳ２８０）。ここで、本実施形態では、予め、0.1％（0.001）、0.5％（0.005）、1％（0.01）、5％（0.05）、10％（0.10）の５種類のαと、0.1％（0.001）、0.5％（0.005）、1％（0.01）、5％（0.05）、10％（0.10）の５種類のβとから、それぞれ一つずつ選択されて得られる第１の組み合わせから第２５の組み合わせの（α、β）が準備されているものとする。ここで、ＣＰＵは、これらのαとβとの組み合わせから第１の組み合わせの（α、β）を設定する（ステップＳ２８２）。次に、ＣＰＵは、正答スコアＮ（ｌ）を初期値（０）に設定し（ステップＳ２８４）、症例数Ｎに対応するｍの初期値を１に設定する（ステップＳ２８６）。
【００７５】
次に、ＣＰＵは、判別対象ｉに１番目の症例を設定するとともに、残余の症例である第２番目からN番目までの症例を判別器Ｉとして設定する（ステップＳ２８８）。
【００７６】
次いで（ステップＳ２８６）、判別器Ｉに対してステップＳ２８２で仮に設定した（α、β）を用いて、判別用マーカー選択処理を実行する（ステップＳ２９０）。判別用マーカー選択処理は、例えば、図５に示すフローチャートのステップＳ１１０〜Ｓ２１０に準じて行うことができる。こうして判別器Ｉについて判別用マーカーセットが選択される。
【００７７】
ＣＰＵは、選択された判別用マーカーセットを用いて判別対象ｉに対して検証処理を実行する（ステップＳ２９２）。すなわち、判別対象ｉのタイプ判別を実施する。この検証処理は、図６に示すフローチャートのステップＳ２２０〜Ｓ２６０に準じて行うことができる。こうして、判別対象ｉについてタイプが判定される。
【００７８】
そして、ＣＰＵは、上記検証処理において得られた判別対照ｉのタイプ判別結果が正しいかどうか判定する。すなわち、判別結果の当否情報を取得する。判別結果が正しいときには、正答スコアＮ（ｌ）に数値１を加算し、判別結果が誤っているときには、正答スコアＮ（ｌ）に何も加算せず、判別不能（v1(i)=v2(i)）のとき数値０．５を加算する（ステップＳ２９４）。なお、判別結果が正しいかどうかは、判別対象ｉについて判別されたタイプと既知のタイプとが一致するかどうかを判定することにより行う。この際、判別対象ｉの既知タイプについては、例えば、予めＲＡＭの所定領域に読み込んでおき、ＣＰＵが判定の際にＲＡＭの当該所定領域から当該既知タイプを取得するようにすればよい。
【００７９】
この検証のためのループ（ステップＳ２８８〜ステップＳ２９４）を、症例数（Ｎ）だけ実行したら（ステップＳ２９６及びステップＳ２９７）、次の組み合わせの（α、β）について、同様のループを実行して（ステップＳ２８８〜ステップＳ２９４）、準備された（α、β）の全ての組み合わせ数だけ実行する（ステップＳ２９８、ステップＳ２９９）。（α、β）の全ての組み合わせについて検証ループを実行することで、同数の正答スコアＮ（ｌ）（ｌ＝１〜２５）を得ることができる。次いで、ＣＰＵは、これらの正答スコアＮ（ｌ）のうち最も高い正答スコアを有する（α、β）を最適（α、β）として設定する（ステップＳ３００）。
【００８０】
以上のパラメータ選択処理（ステップＳ２８０〜ステップＳ３００）では、一つの（α,β）を判別器となる残余の症例に適用して、一組の判別用マーカーを選択し、この判別用マーカーにより判別対象となる一つの症例に適用して当該一つの症例のタイプを判別する検証をＮ個の判別対象と判別器に適用している。Ｎ個の判別対象について判別した個々のタイプがそれぞれ既知のタイプに一致するときには、正答スコアに数値１を加算し、判別結果が誤っているときには、正答スコアＮ（ｌ）に何も加算せず、判別不能（v1(i)=v2(i)）のとき数値０．５を加算することで、一つの（α，β）についてＮ個の検証結果の正答性を数値化（正答スコア：当否情報）する。すなわち、検証結果として、２５組の（α，β）のそれぞれを用いたときのＮ個の判別対象についての正答スコアＮを得ることができる。そして、当該正答スコアＮが最大となる（α，β）が最も高い正答性（判別精度）が得られるパラメータとして選択される。
【００８１】
こうして最適（α，β）を設定したら、この最適（α、β）をＮ個の症例に適用して、最適な判別用マーカーを選択する処理を実行して、判別用マーカーを選択することができる。この最適な判別用マーカーの選択処理は、例えば、図５に示すマーカー選択処理に準じて実行することができる。このようにして判別用マーカーを選択したら、既に説明したように、この判別用マーカーをタイプ未知の個体の染色体コピー数情報に適用することで、当該タイプ未知の個体のタイプを判別することができる。
【００８２】
このようにLOOCV法を利用してパラメータを設定し、このパラメータを利用して判別用マーカーを選択することで、恣意性を抑制若しくは排除して客観性の高いパラメータに基づいてマーカーを選択することができる。さらに、後述するように、LOOCV法による検証を染色体コピー数情報に適用することで、この判別方法の判別精度を得ることができる。このため判別精度に裏付けされた判別用マーカーセットを得ることができる。さらに、こうして選択されたマーカーセットをタイプ未知の症例の染色体コピー数情報に適用することで、客観性が高いタイプ判別が可能となる。
【００８３】
（１−４．再帰解析（Recursive Analysis）的手法によるマーカーの選択）
本発明においては、上記した判別用マーカー選択方法に替えて、CGHアレイに固定化されたマーカー候補に対して再帰解析的手法（以下、単にリカーシブ法という。）を適用して判別用マーカーを選択することもできる。この手法は、アレイＣＧＨによって得られるコピー数情報においては、連続してゲインやロスの存在する領域が多く観察されるという知見に基づくものである。リカーシブ法は、マーカー候補において、連続したゲインやロスなどが存在する場合、その連続領域において最も確率の低いマーカー候補を判別用マーカーとして選択することで、当該判別用マーカーにより当該判別用マーカーに連続する他のマーカー候補が「説明可能（explained）」であるとみなして削除することを特徴としている。こうしたリカーシブ法によれば、連続するマーカー候補を全て判別用マーカーとして選択してしまうことがなくなり、適切に判別に用いるマーカー数を選択することができる。
【００８４】
なお、リカーシブ法は、予め設定した（α，β）について判別用マーカーを選択するのに用いることができるほか、上記１．３に記載されるパラメータの設定に際して、LOOCV法におけるループで、判別器から判別用マーカーを選択するのにも用いることができる。
【００８５】
リカーシブ法では、判別用マーカーの選択に際し、以下の（ａ）〜（ｃ）を繰り返し実行することにより、判別用マーカーを選択することができる。すなわち、（ａ）コピー数異常情報に基づいてマーカー候補についてのコピー数異常の生起確率と当該コピー数異常よりも極端な方向における生起確率の和である有意確率の最小値を取得するとともに当該最小値を採るマーカー候補の識別情報を取得し、（ｂ）前記有意確率の最小値に基づいて統計的有意性が肯定的に判定されるとき、前記最小値を採る前記マーカー候補を判別用マーカーとして選択し、（ｃ）選択された判別用マーカーが増幅異常マーカーであるとき、複数個体において前記判別用マーカーの前後で連続して増幅異常を示すマーカー候補を増幅異常を有しないものとして取り扱い、選択された判別用マーカーが欠失異常マーカーであるとき、複数個体において判別用マーカーの前後で連続して欠失異常を示すマーカー候補を欠失異常を有しないものとして取り扱うこととする。こうした（ａ）〜（ｃ）を繰り返すことで、順次独立して有意確率が高い判別用マーカーが選択されることになる。
【００８６】
このリカーシブ法を用いた判別用マーカーの選択処理のフローチャートの一例を図８に示す。この選択処理においては、タイプ１及びタイプ２についての判別が既知のN個の症例のアレイCGHによるコピー数情報が準備されており、マーカーの選択対象となるマーカー候補の個数ｊは２０９９個であるものとする。また、N個の症例群において、タイプ１の個体がn1人、タイプ２の個体がn2人存在し（N＝n1+n2人）、あるマーカー候補ｊにつきMj人の個体にゲイン又はロスの異常がみられ、そのうちタイプ１の個体がmj1人、タイプ２の個体がmj2人いたとする。
【００８７】
まず、ＣＰＵは、パラメータ（α，β）を取得する（ステップＳ５１０）。これらのパラメータは、既に説明したように任意に設定されたものであってもよいし、LOOCV法によって設定されたものであってもよい。次に、ＣＰＵは、パラメータαを用いて複数個体の複数のマーカー候補のコピー数情報についてコピー数異常の有無を判定する処理を実行する（ステップＳ５２０）。すなわち、i番目の症例の全てのマーカー候補について、マーカー候補ｊの反応値がパラメータαに基づいて増幅異常があると判定したときには、zij+に数値１を付与し、そうでない場合には数値０を付与する。また、マーカー候補ｊの反応値がパラメータαに基づいて欠失異常があると判定したときには、そのパラメータ候補ｊのzij−に数値１を付与し、そうでない場合には数値０を付与する。マーカー候補の反応値に対してパラメータαを利用して直接にzij+及びzij-を付与する、こうしたコピー数異常判定処理は、既に説明した閾値処理とタイプ判別処理における得票数の算出処理の一部とを一括して実行するものであるが、閾値処理と当該閾値処理の結果に基づいてzij+及びzij-を付与するようにしてもよい。
【００８８】
次に、ＣＰＵは、全てのマーカー候補について、有意確率pj1及びpj2を算出する（ステップＳ５３０）。これらは、式「数９」及び式「数１０」に基づいて算出することができる。そして、ＣＰＵは、これらの有意確率のうち最も小さい有意確率pj minを取得するとともに、当該有意確率を示したマーカー候補の識別情報（全てのマーカー候補からなるマーカー系列において何番目のマーカー候補にあたるか）を取得する（ステップＳ５４０）。そして、この最も小さい有意確率pj minとなる事象の統計的有意性をパラメータβを用いて判定する（ステップＳ５５０）。すなわち、pj min＜β／２であるとき、対応するマーカー候補を判別用マーカーとして選択する（ステップＳ５６０）。
【００８９】
さらに、ＣＰＵは、選択した判別用マーカーが増幅異常マーカーであるときには、全ての個体について、判別用マーカーとして選択したマーカー候補の前後で判別用マーカーに連続して増幅異常（zij+＝１）を示す全てのマーカー候補を、増幅異常を有しないものとして取り扱う（ステップＳ５７０）。すなわち、これらのマーカー候補のzij+に数値０を付与する。また、選択された判別用マーカーが欠失異常マーカーであるとき、全ての個体において判別用マーカーの前後で判別用マーカーに連続して欠失異常を示す（zij-＝１）マーカー候補の全てを欠失異常を有しないものとして取り扱う。すなわち、これらのマーカー候補にzij-に数値０を付与することとする。こうすることで、選択された判別用マーカーに連続して同様のコピー数異常を有するマーカー候補は排除される。そして、ＣＰＵは、pj minとして選択されたマーカー候補を選択対象たるマーカー候補から削除して、ステップＳ５４０に戻る（ステップＳ５８０）。
【００９０】
こうして、新たにpj1及びpj2について計算し、順次最も小さい有意確率pj minとなる事象の統計的有意性を判定し、判別用マーカーとするかどうかを決定するとともに、判別用マーカーとして選択したときには連続する同様のコピー数異常態様のマーカー候補を排除することを繰り返し行って、判別用マーカーを選択する（ステップＳ５４０〜ステップＳ５８０）。
【００９１】
一方、ステップＳ５５０において、有意確率pj min≧β／２であるとき、対応するマーカー候補は判別用マーカーとはせずに、この処理を終了する（ステップＳ５９０）。こうして最終的に０個又は２個以上の判別用マーカーを得ることができる。
【００９２】
このようにして判別用マーカーを選択したら、既に説明したように、この判別用マーカーをタイプ未知の個体の染色体コピー数情報に適用することで、当該タイプ未知の個体のタイプを判別することができる。
【００９３】
以上説明したようにリカーシブ法によれば、順次小さい有意確率pj minのマーカー候補から判別用マーカーを選択し、さらに、この判別用マーカーに連続するマーカー候補に同様のコピー数異常があるときには、これらの連続するマーカー候補は判別用マーカーとして選択されないようになっている。このため、異常な判別用マーカーに隣接して本来異常ではないのにコピー数異常があるマーカー候補が判別用マーカーとして選択されてしまうことが回避され、適切に判別用マーカーを選択できるとともに、効果的に判別用マーカー数を削減することができる。判別用マーカーを削減することで、判別用マーカーを固相担体に固定化した判別装置の装置コストや判別操作コストを低減することができるようになる。
【００９４】
また、以上の説明では、判別用マーカーの選択に関して、マーカー候補から判別用マーカーを選択するためのパラメータ（α,β）を設定する手法として、ユーザが任意に設定する場合とLeave-one-out cross-validationによる場合とについて具体例を挙げて説明した。また、こうして設定したパラメータ（α，β）により判別用パラメータを選択する方法として、タイプ既知の個体の一つのマーカー候補についてのコピー数異常の統計的有意性の有無に基づく選択法、コピー数異常の統計的有意性レベルの高い順に選択するとともに、連続するマーカー候補を排除しつつ判別用マーカーを選択する選択法について具体例を挙げて説明した。さらに、選択された判別用マーカーを用いたタイプ未知の個体の判別方法として、特に判別用マーカー固有の影響力を有意確率の-logとして判別に反映させる判別手法について具体例を挙げて説明した。
【００９５】
しかしながら、本発明のパラメータの設定、判別用マーカーの選択、タイプ判別は、上記具体例に限定されるものではなく、これらの各手法は適宜組み合わせて実施することができる。例えば、パラメータ（α，β）をハイパーパラメータとして設定したのち、リカーシブ法で判別用マーカーを設定してもよいし、パラメータ（α，β）をリカーシブ法を用いたLOOCV法で設定した上、リカーシブ法で判別用パラメータを選択してもよい。
【００９６】
また、上記説明では、いずれもタイプ１とタイプ２の判別について説明したが、本発明では３種類以上のタイプを判別することができる。すなわち、N個の個体において、タイプ１、タイプ２、タイプ３、・・・タイプＣにつき、それぞれ個体数（症例数など）n1、n2、n3、・・・nc人存在し、あるマーカー候補ｊについてタイプ１がmj1人、タイプ２がmj2人、タイプ３がmj3人、・・・タイプｃがmjc人がコピー数異常を示したとする（mj1＋mj2＋mj3＋・・・＋mjc＝Mj）。ここで、マーカー候補jについて、「マーカー候補jがタイプ1と他のタイプの識別に有用でない、すなわち、タイプ１と他のタイプについて同じ確率で増幅異常が生じる」と仮定したとき、こうした増幅異常が偶然生じる確率は以下の式「数１１」で表すことができる。
【数１１】

【００９７】
また、マーカー候補jについて上記事象（タイプ１がmj1人）及び上記事象よりもタイプ1がmj1より多くなる場合（より極端な事象が生じる場合）、すなわち、マーカー候補jについて、タイプ１の個体がmｊ1、mj1＋1、mj1＋2、・・・Mjとなる確率pj１は以下の式「数１２」で表すことができる。
【数１２】

【００９８】
同様にして、pj2、pj3・・・及びpjcを求めることができる。このように、3種類以上のタイプを判別する場合であっても、一つのタイプとその他のタイプとの判別とみなすことで、既に説明した２種類のタイプを判別する際のアルゴリズムを適用することができ、これをタイプ毎に適用すれば、３種類以上のタイプのためのパラメータの選択、判別用マーカーの設定及び判別を実施することができる。判別にあたっては、以下の式「数１３」で表される一つのタイプについての得票数Ｖxが、残余の各タイプについての同式に表されるＶｘのいずれよりも大きいとき、判別対象が前記一つのタイプであると判定することができる。なお、判別しようとするタイプがＣ種類以上のとき（Ｃは２以上の整数）、判別処理中、正答スコアを求めるステップにおいて、判別不能とされたときには、数値１／Ｃを正答スコアに加算するものとする。すなわち、上記説明においては、判別しようとするタイプが２種類（C=2）であったため、判別不能時には、正答スコアに数値０．５を加算したが、判別しようとするタイプが３種類（C=3）のときには、判別不能時には、数値０．３３を加算するようにする。
【数１３】

【００９９】
また、Leave-one-out cross-validationを用いてパラメータを設定するのに際して、必ずしもα及びβについてそれぞれ５種類を準備し、合計２５種類のパラメータ（α，β）についてLeave-one-out cross-validationを実施する必要はなく、適宜パラメータ候補数を削減することもできる。
【０１００】
また、以上の説明では、選択した判別用マーカーをそのまま利用したが、選択した判別用マーカーは必ずしも全て利用しなくてもよい。必要な判別精度が得られる程度に選択した判別用マーカーを削減してもよい。一旦選択した判別用マーカーを削減するには、例えば、判別用マーカー固有の有意確率が低いものを選択することができる。また、リカーシブ法を用いることで効果的に判別用マーカー数を削減できる。あるいは、パラメータβに小さい数値を設定するようにした上で判別用マーカーを設定するなどすることができる。
【０１０１】
なお、意図した判別精度が得られる範囲で判別用マーカー数を選択又は削減することができるが、好ましくは２００個以下であり、より好ましくは１５０個以下であり、さらに好ましくは１００個以下程度である。なお、判別精度は、疾患の種類によっても異なるが、好ましくは、80％以上であり、より好ましくは90％以上である。なお、判別用マーカー数は、後述する検証によって良好な判別精度が得られる範囲であればよいが、好ましくは２０個以上であり、より好ましくは５０個以上である。
【０１０２】
なお、以上のタイプの判別方法の説明においては、マーカー選択とタイプ判別とは一連の処理であるかのごとく説明したが、マーカー選択はタイプ判別とは別個に予め実施しておくこともできる。したがって、マーカー選択方法としてのみ実施することもできる。また、予め準備されたマーカー又はマーカーセットを用いる判別方法として実施することもできる。タイプ既知の複数個の症例等の染色体コピー数情報に基づいてマーカーを選択しておくことが好ましい。
【０１０３】
以上、タイプの判別方法として本発明の一実施形態について説明したが、タイプの判別方法において説明したパラメータの設定、各種手法によるマーカーの選択及びこれらを組み合わせた判別方法は、いずれもパラメータの設定方法及び当該設定方法を実行するプログラム、マーカーの選択方法及び当該選択方法を実行するプログラム並びに判別方法及び判別方法を実行するプログラムの形態で実施することができる。さらに、本発明は、これら各種方法を実行するプログラムの記憶媒体のほか、こうしたプログラムが実行可能に格納された染色体コピー数情報の解析装置、該解析装置を備えるアレイCGHスキャナ装置の形態として実施することもできる。
【０１０４】
（２．マーカー及びマーカーセット）
本発明の判別用マーカーは、上記したいずれかのマーカー選択方法のいずれかによって選択される判別用マーカーであり、本発明のマーカーセットは、こうした判別用マーカーを１種又は２種以上、好ましくは２種以上含んでいる。こうしたマーカー及びマーカーセットを選択するのに好ましいタイプ既知の個体数やマーカーセットを構成する好ましいマーカー数は、「１．タイプ判別方法」において説明したのと同様の態様を適用することができる。また、マーカー又はマーカーセットを選択するのに２種類以上のマーカー選択方法を組み合わせる場合に好ましい選択方法の組み合わせについても。「１．タイプ判別方法」において説明したのと同様の態様を適用することができる。
【０１０５】
本発明のマーカーセットは、具体的には、マーカーとなるべき染色体領域を保持するBAC、PAC等の人工染色体やベクターのクローン、及びこうした核酸構築物からDOP-PCR等によって断片化されたDNA断片などの核酸断片とすることができる。また、マーカーの遺伝子が特定されている場合には、当該遺伝子のｃDNA又はその一部の形態を採ることもできる。
【０１０６】
本発明のマーカー及びマーカーセットとしては、表１〜表４に列挙したマーカー群から選択される１種又は２種以上を用いることができる。こうしたマーカーとしては、表１〜４に記載されるクローン、これらの各クローンに由来するDNA断片又はｃDNA等とすることができる。表１Ａ〜表１Ｅに列挙するマーカー群は、後述する実施例において、７５症例のDLBCL及びBCL（４６例のDLBCL及び２９症例のBCL）のアレイCGHから得られたコピー数情報に対して上記LOOCV法を適用して実施例でいうところの標準法（表１及び２おいてＡとして付記）により取得したDLBCL判別用マーカー（ゲイン及びロス）とBCL判別用マーカー（ゲイン及びロス）である。また、表２Ａ〜表２Ｄには、実施例においてＬＯＯＣＶ法を適用してリカーシブ法（表２においてＢとして付記）により取得したDLBCL判別用マーカー（ゲイン及びロス）とBCL判別用マーカー（ゲイン及びロス）を示す。さらに、表３Ａ〜表３Ｄには、実施例において、LOOCV法を適用して標準法（Ａ）により取得したABC判別用（ゲイン及びロス）及びGCB判別用マーカー（ゲイン及びロス）を示し、表４Ａ〜表４Ｄには、実施例において、LOOCV法を適用してリカーシブ法（Ｂ）により取得したABC判別用（ゲイン及びロス）及びGCB判別用マーカー（ゲイン及びロス）を示す。これらの各表に列挙されるマーカーは、それぞれのマーカー選択方法により各タイプにおいて増幅異常であることが有意であることが確認されたマーカーであるため、これらの全てをそれぞれ判別用マーカーとして使用できる。なお、後述する実施例における検証結果からすると、非ホジキンリンパ腫のＢ細胞リンパ腫の種類の判別のためには、少なくとも５０個、好ましくは１００個以上の判別用マーカーを用いることが好ましい。また、DLBCLにおける予後のタイプを判別するには、少なくとも２０個、好ましくは５０個以上の判別用マーカーを用いることが好ましい。なお、判別しようとするタイプのそれぞれに判別用マーカーを用いることが好ましい。なお、表１〜表４において、「ＮＤ」は「Not Determined」を意味する。
【０１０７】
【表１Ａ】

【表１Ｂ】

【表１Ｃ】

【表１Ｄ】

【表１Ｅ】

【表２Ａ】

【表２Ｂ】

【表２Ｃ】

【表２Ｄ】

【表３Ａ】

【表３Ｂ】

【表３Ｃ】

【表３Ｄ】

【表４Ａ】

【表４Ｂ】

【表４Ｃ】

【表４Ｄ】

【０１０８】
表１〜４に示す判別用マーカー群において、判別に好ましいマーカーとしては、表１においてnegative logを基準に選択することができる。例えば、Negative logが７より大きい場合には、有意確率が１０^-7未満であることを示している。したがって、Negative log値の数値を基準にして所定数値以上のNegative log値を有する判別用マーカーを選択してもよい。Negative Log値は好ましくは３より大きく、より好ましくは４より大きく、さらに好ましくは５より大きく、一層好ましくは６より大きい。また、各表の判別用マーカーについて、上位群から適数個を選択するようにしてもよい。また、標準法による判別用マーカーとリカーシブ法による判別用マーカーとを組み合わせて、リカーシブ法による判別用マーカーの全部又はNegative log上位群の適数個の判別用マーカー若しくは所定のNegative log値以上の判別用マーカーに加えて、リカーシブ法による判別用マーカーと重複しない判別用マーカーを標準法に基づく判別用マーカーをNegative logの高値群から選択するようにしてもよい。
【０１０９】
なお、表１〜４に列挙するマーカー（クローン）に関する情報（塩基長、マーカーに含まれる遺伝子及びマーカーの細胞遺伝学的位置）は、本件出願の出願日において英国Sanger Center のウェブサイト（http://www.sanger.ac.uk/）において公開されているデータベースを基本とし、補足的に米国National Center of Biotechnology Information（NCBI）のウェブサイト（http://www.ncbi.nlm.nih.gov/）において公開されているデータベースを用いて特定し、記載してある。
【０１１０】
（３．判別装置）
本発明の判別装置は、本発明のマーカー又はマーカーセットが固定化された固相担体とすることができる。こうした判別装置によれば、効率的に判別対象個体ついて各種のタイプを判別することができるとともに、判別に要する作業やコストも低減することができる。判別装置に用いる固相担体は、既に、CGHアレイに関して説明したのと同様の態様を適用することができる。好ましくは、基板上にマトリックス状にマーカーが固定化されたものである。例えば、基板状の固相担体には、２種以上のマーカーセットが固定化されていてもよい。こうした判別装置によれば、同一基板上において２種類以上の判別（一つのタイプ判別は少なくとも２種類のタイプを判別することを意味する。）が可能とすることができる。また、２種以上のマーカーセットにおいて、一部のマーカーが同一である場合には、一方のマーカーセット中の当該同一マーカーを他方のマーカーセットのマーカーとして兼用してもよい。
【０１１１】
例えば、こうした判別装置としては、表１及び表２に示すようなDLBCLとMCLとの判別に有効なマーカーセットの全部又は一部が固定化されたものが挙げられる。さらに、この判別装置において、さらに、表３及び表４に示すようなDLBCLのサブタイプであるABCとGCBとを判別するのに有効なマーカーセットの全部又は一部が同一の固相担体上に固定化されたものも挙げられる。また、表３及び表４に示すようなABCとGCBとの判別に有効なマーカーセットの全部又は一部が固相担体に固定化されたものが挙げられる。判別装置の固相担体に固定化される判別用マーカーの種類及び個数は、「２．マーカー及びマーカーセット」において好ましいとして説明した態様をそのまま適用することができる。また、固相担体については、CGHアレイにおいて説明した態様をそのまま適用することができる。
【０１１２】
こうした判別装置は、生物体の各種のタイプの判別装置であるが、判別しようとするタイプの内容により特定用途に特化させることができる。例えば、本発明の判別装置は、判別しようとするタイプがヒト及び非ヒト哺乳動物の疾患や予後である場合には、疾患の診断装置や予後の予測装置であり、当該タイプがヒト及び非ヒト哺乳動物の体質や薬剤感受性（薬剤耐性）である場合には、体質の診断装置及び薬剤感受性の診断装置となる。また、例えば、生物体が動物体や植物体等であり、判別タイプがこれらの種属や遺伝子型である場合には、種属等あるいは遺伝子型の分類装置となる。
【０１１３】
（４．LOOCV法による判別方法の検証方法）
本発明の検証方法は、タイプが既知である複数個体の複数の判別用マーカー候補についての染色体コピー数に関する染色体コピー数情報に係る複数個体から選択される一つの個体を判別対象とし残余の個体を判別器とするLeave-one-out cross-validationによる外部ループと、当該残余の個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationによる内部ループとを用いることが好ましい。本発明の検証方法では、内部ループで最適なパラメータ（α,β）を取得した上で、これらのパラメータを外部ループの判別器に適用して外部ループの判別対象に適用すべき判別用パラメータを選択し、選択した判別用パラメータを外部ループの判別対象に適用してタイプを判別し、既知のタイプと検証し、判別したタイプと既知のタイプとが一致しているかどうかの情報（外部ループ当否情報）を取得する。こうした検証を外部ループの全てに実施して全ての個体についてのタイプ検証結果を得ることで、一つのモデルとしての染色体コピー数情報によるタイプの判別方法を検証することができるとともにタイプ検証結果に基づいて判別精度を得ることができる。
【０１１４】
LOOCV法による検証処理のフローチャートの一例を図９に示す。なお、以下の説明においては、タイプ既知のN個の症例のコピー数情報が予め取得されているものとする。
【０１１５】
本実施例におけるLOOCV法は、二重のループを含むことができる。すなわち、全症例を判別対象である一つの症例（１）と判別器である残余の症例（N−１）とに分け外部ループを構築し、この残余の症例をさらに判別対象である一つの症例（１）と判別器である残余の症例（Ｎ−２）とに分けて内部ループを構築することができる。ここで、内部ループでは、25組の（α、β）から最適な（α、β）を選択し、外部ループでは、選択された最適な（α、β）を外部ループの判別器に適用して検証のための判別用マーカーを選択し、当該選択した判別用マーカーにより、外部ループの前記一つの症例のタイプを判別することを行う。
【０１１６】
まず、ＣＰＵは、全症例数に対応する繰り返し数kを１に設定するとともに総スコアNTを０に設定する（ステップＳ３１０）。なお、総スコアNTは、本発明における外部ループ当否情報に相当する。また、ＣＰＵは、外部ループで判別対象ｉouterに１番目の症例を設定するとともに、残余の症例である第２番目からN番目までの症例を外部ループの判別器Ｉouterとして設定する（ステップＳ３２０）。次に、ＣＰＵは、（α、β）の組み合わせ番号ｌを１に設定する（ステップＳ３３０）。ここで、本実施形態では、αとして予め、0.1％（0.001）、0.5％（0.005）、1％（0.01）、5％（0.05）、10％（0.10）の５種類を準備し、βとして予め、0.001, 0.005、0.01、0.05、0.10の５種類を準備しておき、第１の組み合わせから第２５の組み合わせの（α、β）が準備されているものとする。ここで、ＣＰＵは、これらのαとβとの組み合わせから第１の組み合わせの（α、β）を設定する（ステップＳ３４０）。
【０１１７】
次いで、ＣＰＵは内部ループ回数ｍに１を設定し（ステップＳ３５０）、正答スコアＮ（ｌ）を初期値（０）に設定する（ステップＳ３６０）。そして、ＣＰＵは、内部ループにおける判別対象ｉinnerを判別器Ｉouterの第１番目に設定するとともに、判別器Ｉouter中、当該判別対象症例以外の症例を判別器Ｉinnerに設定する（ステップＳ３７０）。
【０１１８】
次に、内部ループの判別器Ｉinnerに対してステップＳ３４０で仮に設定した（α、β）を用いて、判別用マーカー選択処理を実行する（ステップＳ３８０）。なお、正答スコアＮ（l）は、本発明における内部ループ当否情報に相当する。判別用マーカー選択処理は、図５に示すフローチャートのステップＳ１１０〜Ｓ２１０に準じて行うことができる。ただし、図５に示すフローチャートではＮ個の症例群を対象にしてマーカーを選択するのに対して、この判別用マーカー選択処理では、判別器Ｉinnerの（Ｎ−２）個の症例に対してマーカーを選択する点が異なる。こうして判別器Ｉinnerについて、特徴的な判別用マーカーセットが選択される。
【０１１９】
ＣＰＵは、選択された判別用マーカーセットを用いて内部ループの判別対象症例ｉinnerに対して検証処理を実行する（ステップＳ３９０）。すなわち、判別対象症例ｉinnerのタイプ判別を実施する。この検証処理は、図６に示すフローチャートのステップＳ２２０〜Ｓ２６０に準じて行うことができる。ただし、この検証処理では、図６に示すフローチャートでは判別対象のタイプ未知の個体のｊ個のマーカー系列（１〜２０９９）につき、タイプ1についての得票数v1(i)（式「数９」））及びタイプ2についての得票数v2(i)（式「数１０」）を算出し（ステップＳ２２０）、その得票数の大小の判定する（ステップＳ２３０〜ステップＳ２６０）のに替えて、ｉinnerのｊ個のマーカー系列についてタイプ１及びタイプ２のそれぞれの得票数を算出して、これらの大小を判定するように実行する点が異なる。
【０１２０】
そして、ＣＰＵは、上記検証処理において得られたｉinnerのタイプ判別結果が正しいかどうかを判定し、正しいときには、正答スコアＮ（ｌ）に数値１を加算し、判別結果が誤っているときには、正答スコアＮ（ｌ）に何も加算せず、判別不能（v1(i)=v2(i)）のとき数値０．５を加算し、これを記憶する（ステップＳ４００）。そして、この内部ループ（ステップＳ３７０〜ステップＳ４００）を、内部ループを構成する症例の数（Ｎ−１）だけ実行したら（ステップＳ４１０及びステップＳ４１２）、次の組み合わせの（α、β）について、同様の内部ループを実行して（ステップＳ３４０〜ステップＳ４１０）、準備された（α、β）の全ての組み合わせ数だけ実行したら（ステップＳ４２０、ステップＳ４２２）、内部ループを終了する。（α、β）の全ての組み合わせについて内部ループを（Ｎ−１）回実行することで、同数の正答スコアＮ（ｌ）（ｌ＝１〜２５）を得ることができる。
【０１２１】
次いで、ＣＰＵは、これらの正答スコアＮ（ｌ）のうち最も高いスコアを有する（α、β）を最適（α、β）として設定する（ステップＳ４３０）。そして、ＣＰＵは、この最適（α、β）を外部ループの判別器Ｉouterに適用して、最適な判別用マーカーを選択する処理を実行する（ステップＳ４４０）。この最適な判別用マーカーの選択処理は、図５に示すマーカー選択処理に準じて実行することができる。すなわち、最適（α，β）を用いて判別器Ｉouterの症例数Ｎ−１個について図５に示すステップＳ１１０〜ステップＳ２１０を実行するようにすればよい。
【０１２２】
次に、ＣＰＵは、こうして選択されたマーカーセットを用いて外部ループの判別対象症例ｉinnerについて検証処理を実行する（ステップＳ４５０）。この検証処理は、判別対象症例がタイプ１かタイプ２のいずれかのタイプであることをステップＳ４４０で設定した最適な判別用マーカーを用いて判別するものであり、図６に示す判別処理に準じて行うことができる。すなわち、そして、ＣＰＵは、この検証処理において外部ループの判別対象症例ｉinnerが正しく判定されたときには、総スコアＮＴに数値１を加算し、判別結果が誤っているときには、総スコアＮＴに何も加算せず、判別不能（v1(i)=v2(i)）のとき数値０．５を加算する（ステップＳ４６０）。さらに、こうした一連の処理をタイプ既知の症例数Ｎだけ繰り返して（ステップＳ３７０〜ステップＳ４７０）、最終的に得られた総スコアＮＴをＮで除することで判別精度を得て（ステップＳ４８０）、この処理を終了する。
【０１２３】
この処理によれば、Ｎ個の個々の症例についてそれぞれ最適（α、β）が設定されるとともに、特徴的な判別用マーカーセットが選択され、この判別用マーカーセットに基づく個々の症例の判別結果が得られる。同時に、これらの判別結果を集計した正答スコアＮを得ることができる。正答スコアＮを症例数Ｎで除することにより、タイプ既知のＮ個の症例についての判別精度を取得することができる。
【０１２４】
以上の処理によれば、タイプ既知の複数個体の染色体コピー数情報に基づく判別モデルの判別精度を取得することができるため、こうした判別モデルの有効性を知ることができる。
【０１２５】
なお、LOOCV法による検証方法は、上記したマーカー候補についてのコピー数異常の統計的有意性の有無に基づくパラメータの設定及び判別用マーカーの選択（標準法）を採用した判別モデルについて適用したが、これに限定するものではなく、統計的有意性レベルに基づくパラメータの設定及び判別用マーカーの選択（リカーシブ法）を採用した判別モデルについて適用することもできる。また、上記説明では、２種類のタイプについての判別モデルについてLOOCV法を適用して検証したが、既に述べたように判別モデルを３種類以上のタイプの判別についても構築できるため、本発明の検証方法も同様に３種類以上のタイプの判別モデルについて適用することができる。また、本発明によれば、こうした検証方法における処理に係る１又は２以上のステップを実行する検証プログラムも提供される。
【０１２６】
（５．診断方法等）
本発明によれば、マーカー又はマーカーセットを用いる疾患、予後、体質及び薬剤感受性等のヒト及び非ヒト哺乳動物のタイプの診断方法が提供される。また、マーカー又はマーカーセットが固定化された固相担体である判別装置を用いる、疾患、予後、体質及び薬剤感受性等のヒト及び非ヒト哺乳動物のタイプの診断方法も提供される。さらに、こうした判別装置を用いて得られるコピー数情報を利用して、疾患、予後、体質及び薬剤感受性等のタイプを診断する診断方法、当該診断方法における処理に係る１又は以上のステップを実行する診断プログラムも提供される。こうした診断方法においては、得られたコピー数情報を、「１．判別方法」において説明したように判別処理を実施することで判別結果を得ることができる。
【実施例１】
【０１２７】
（CGHアレイ）
（アレイCGH）
ACCアレイスライドバージョン4.0のスライドガラスを用いた以前に報告された方法により、CGHアレイを作製し、４６例のDLBCL症例（２８例のABC症例と１８例のGCB症例）及び２９例のMCL症例についてアレイCGH解析を実施した。
【０１２８】
（CGHアレイの作製）
CGHアレイは2304種のBAC（細菌人工染色体）とPAC（P-1由来人工染色体）のクローン（BAC/PACクローン）から成り、全ヒトゲノムを平均で約1.3Mb（メガベース）の解像度でカバーしたものとした。BACクローンはRP11及びRP13ライブラリから入手し、PACクローンはRP1、RP3、RP4、及びRP5ライブラリから入手した。10ngのBAC/PAC DNAをテンプレートに用いて縮重オリゴヌクレオチド（5’-CCGACTCGAGNNNNNNATGTGG-3’、Nは、A,T,CおよびGのいずれかである。）をプライマーとして用いたPCR（oligonucleotide primed PCR）（Hakan, T. et al., Genomics, 13:718-725, 1992）を行った。増幅は、TaKaRa PCR thermal Cycler MP(Takara、Tokyo、Japan)とExTaqポリメラーゼ(TaKaRa)を用いた。得られたPCR産物をエタノール沈殿により濃縮し、蒸留水で溶解し、続いて等量のDNAスポッティング溶液DSP0050（MATSUNAMI, Osaka, Japan）を添加し（〜1μg/μl）、インクジェット技術（NGK, Nagoya, Japan）によりロボットでCodeLink^TM活性スライド（Amersham Biosciences, Piscataway, NJ）上にデュプリケートでスポットした。なお、使用したBAC/PACクローンはNIBC（http://www.ncbi.nlm.nih.gov/）及びEnsembl Genome Data Resources（http://www.ensembl.org/）からの情報に基づいて選択した。これらのクローンは小児病院（Children's Hospital）（Oakland Research Institute, Oakland, CA: http://bacpac.chori.org/）のBACPACリリースセンターから入手した。
【０１２９】
このCGHアレイに対して、既に診断が確定した４６例のDLBCL症例（２８例のABCタイプと１８例のGCBタイプ）の患者及び２９例のMCL症例の患者から血液を採取して調製したハイブリダイズ用DNA溶液を、作製したCGHアレイに適用してアレイCGHを行った。また、１２例の健常者についても同様にハイブリダイズ用DNA溶液を調製してアレイCGHを行った。なお、これらのアレイCGHに際しては、いずれも、参照用の健常者のアレイCGHも同時に行った。
【０１３０】
なお、症例からのDNA溶液の調製、標識及びハイブリダイゼーションは以前の報告に従って実施した（Ota A, Tagawa H, Karnan S, et al. Identification and characterization of a novel gene, C13orf25, as a target for 13q31-q32 amplification in malignant lymphoma, Cancer Res. 2004; 64: 3087-3095、Tagawa H, Tsuzuki S, Suzuki R, et al. Genome-wide array-based comparative genomic hybridization of diffuse large B-cell lymphoma: comparison between CD5-Positive and CD5-negative cases. Cancer Res. 2004; 64: 5948-5955）。すなわち、検体DNAおよび対照（参照健常者）DNA（各１μg）をDpnIIで消化し、Bio prime DNA Labeling system（Invitrogen Life Technologies, Inc, Tokyo, Japan）により、Cy3-dUTP及びCy5-dUTP(Amersham Pharmacia Biotech, Piscataway, NJ) を用いて標識した。標識化された１μｇの検体DNAおよび対照DNAを、５０〜１００μｇのCot-1 DNA(Life Technologies, Inc., Gaithersburg, MD)と混合し沈殿させて、４５μｌのハイブリダイゼーション溶液（５０ｖｏｌ％ホルムアミド、１０％硫酸デキストラン、2x SCC、4%SDS及び１０μｇ／μｌ tRNA）に再懸濁させた。
【０１３１】
このハイブリダイズ用DNA溶液を、７３℃で５分間加熱してDNAを変性させ、続いて３７℃で４５分間インキュベートして反復配列のブロッキングがなされるようにした。DNAをスポットしたスライドは、７０％ホルムアミド／2xSSCを含む溶液中で７３℃で４分間にわたり変性させ、続いて５分づつ、７０％、８５％、１００％冷エタノール中で脱水して風乾させた。緩やかに振動するテーブル上で、湿度調節のために２００μlの５０％ホルムアミドと２xSSCを含む容器中において４８〜６６時間のハイブリダイゼーション後、スライドを洗浄（５０％ホルムアミド／2xSSC中、50℃で15分間、2xSSC／0.1％SDS中、50℃で30分間、0.1M Na_２HPO_４、pH8.0の0.1M Na_２HPO_４、0.1％NP-40により構成されるNP緩衝液中、室温で15分間）を行い、2xSSC中室温ですすぎを行い、最後に室温にてそれぞれ２分づつ70％、85％及び100％エタノール中で脱水して風乾した。
【０１３２】
スキャニング分析は、アジレントマイクロアレイスキャナー(Agilent Technologies, Palo Alto, CA) によりスキャンし、得られたアレイイメージをGenepix Pro 4.1 (Axon Instruments, Inc., Foster City, CA)により解析した。すなわち、ＤＮＡスポットを自動的に分割し、局所的なバックグラウンドを減算して、シグナル強度を決定した。引き続き、２種の色素（Ｃｙ３強度／Ｃｙ５強度）のシグナル強度の比を各スポットについて計算し、エクセルシート上において染色体における位置の順でlog₂比に変換した。
【０１３３】
なお、健常者に対する参照対照健常者の同時ハイブリダイゼーションを１２回実施し、同様にしてシグナル強度を決定しlog₂比の正常な変動分布を取得した。
【０１３４】
また、CGHアレイに適用した2304個のアレイ化DNA中、蛍光強度が欠損を示すアレイ化DNA及びＸ染色体由来のクローン（DNA）を除去した2099個を解析対象のクローン（マーカー候補）とした。
【０１３５】
こうして診断の確定した７５症例についてのそれぞれ2099個のlog₂比のデータ及び健常者対健常者ハイブリダイゼーションによるlog₂比の正常な変動分布データを利用して、図１０に示すフローチャートに従いデータの解析を行った。以下、このフローチャートに従い説明する。
【０１３６】
本実施例においては、リーブワンアウトクロスバリデーション（Leave-one-out- cross-validation， LOOCV）法を二重にネスト化して用いた（Nested Cross-Validation）。外側のループは、判別精度を検証するためのループとし、内側のループは、体系的にα及びβを選択するために用いた。外部ループは、全７５症例を１症例と残りの７４症例とに分けて実施し、内部ループはこの７４症例をさらに１症例と残りの７３症例に分けて実施した。内部ループの７４症例のLOOCV処理により最適なα及びβを決定し、外部ループの７５症例のLOOCV処理により、最適のα及びβを用いてマーカーセットを設定し当該マーカーセットにより他の１個の症例のタイプ判別をシミュレートする。
【０１３７】
まず、外部ループの繰り返し数ｋを１に初期化するとともに、総スコアNTを０に初期化した（ステップＳ５１０）。なお、ｋは、１〜７５の整数であり、症例数に対応している。次いで、外側のループにおいて判別対象とする症例ｉouterをｋにセットするとともに、そのための外部ループの判別器ＩouterをＩall-{ｉouter }（ただし、Ｉall：＝{１，２，３・・・７５}）をセットした（ステップＳ５２０）。例えば、ｋが１であり、外部ループにおいて１番目の症例が判別対象である場合には、判別器は、全７５症例から１番目の症例を除いた２番目から７５番目の全７４症例となり、ｋが２であり、２番目の症例が判別対象である場合には、判別器は全７５症例から2番目の症例を除いた１番目及び３番目から７５番目の全７４症例となる。
【０１３８】
次に、（α、β）の組み合わせ数に対応する繰り返し数ｌを１に初期化し（ステップＳ５３０）、繰り返し数ｌに対応して５種類のαｌ及びβlの組み合わせを設定する（ステップＳ５４０）。なお、αは、０．００１、０．００５、０．０１、０．０５及び０．１０から選択されるものとし、βは、０．００１、０．００５、０．０１、０．０５及び０．１０からそれぞれ選択されるものとする。
【０１３９】
次に、内部ループの繰り返し数ｍを１に初期化する（ステップＳ５５０）。なお、ｍは、１〜７４の整数であり、全症例数７５から１を引いた数値である。そして、正答スコアＮ（l）を０に初期化する（ステップＳ５６０）。
【０１４０】
さらに、ＣＰＵは、内部ループの判別対象をする症例ｉinnerをセットするとともに、Ｉouter−{ｉinner}＝Ｉall-{ｉouter }−{ｉinner}にセットする（ステッＳ５７０）。例えば、ｋが１であり、ｍが１であり、内部ループにおいて１番目の症例（第１の判別器のうちの１番目の症例）が判別対象である場合には、判別器は、外部ループの判別器から内部ループの判別対象となった症例を除いた７３症例、すなわち、全７５症例から第１の症例及び第２の症例を除いた７４症例が判別器となる。そして、内部ループの判別器Ｉinnerについて、第１の（α、β）の組み合わせを適用して、マーカー選択処理を実行する（ステップＳ５８０）。
【０１４１】
マーカー選択処理は、図１１に示すように、マーカー選択対象となるマーカー候補の個数（２０９９個）に対応する繰り返し数ｊを１にセットし（ステップＳ７１０）、判別器Ｉinnerを構成する７３個の症例の２０９９個の個々のDNAについてαを用いて閾値処理した反応値から、個々のDNAについて、DLBCL及びMCLについて異常なゲイン又はロスが偶然に観察される人数を取得し（ステップＳ７２０）、確率ｐjDLBCL及びｐjMCLを式「数１４」、式「数１５」により求める（ステップＳ７３０）。ただし、N個の症例群において、DLBCLの個体がn1人、MCLの個体がn2人存在し（N＝n1+n2人）、あるマーカー候補ｊにつきM人の個体にゲイン又はロスの異常がみられ、そのうちDLBCLの個体がmｊ1人、MCLの個体がmｊ2人、合計Ｍｊ人いるものとする。
【数１４】

【数１５】

【０１４２】
確率ｐjDLBCLがβ/2より小さいかどうかを判定し（ステップＳ７４０）、肯定的に判定されるときには、そのマーカー候補を、DLBCLにそうした確率の事象（ゲイン又はロス）が偶然には起こりにくいマーカー、すなわち、DLBCLに特徴的な判別用マーカーと判定する（ステップＳ７５０）。一方、否定的に判定されるときには、そのマーカー候補はDLBCL判別用マーカーでないと判定する（ステップＳ７６０）。
【０１４３】
次いで、確率ｐjMCLがβ/2より小さいかどうかを判定し（ステップＳ７７０）、肯定的に判定されるときには、そのマーカー候補を、MCLにそうした確率の事象（ゲイン又はロス）が偶然には起こりにくいマーカー、すなわち、MCLに特徴的な判別用マーカーと判定する（ステップＳ７８０）。一方、否定的に判定されるときには、そのマーカー候補はMCL判別用マーカーでないと判定する（ステップＳ７９０）。
【０１４４】
こうした処理を全てのマーカー候補（2099個）につき行い（ステップＳ８００）、DLBCL又はMCLに特徴的マーカーを判別用マーカーとして設定する（ステップＳ８１０）。特徴的マーカーは、マーカー候補についての特徴的な事象（ゲイン又はロス）の態様により、DLBCLのゲイン特異的マーカー（DLBCL+マーカー）、DLBCLのロス特異的マーカー（DLBCL-マーカー）、MCLゲイン特異的マーカー（MCL+マーカー）及びMCLロス特異的マーカー（MCL-マーカー）が選択される。
【０１４５】
次いで、内部ループ判別器Ｉinnerによって選択されたマーカーセットを用いて内部ループの判別対象であるｉinnerがDLBCLかMCLかを判別する検証処理を実行する（ステップＳ５９０）。この処理は、図１２に示すように、まず、判別対象であるｉinnerを構成するマーカー候補中、選択されたマーカーに対応するアレイ化DNAにおいてマーカーに特異的なDLBCL又はMCLについてのゲイン若しくはロスがあるかどうかを判定し、マーカー特異的事象がある場合には、その事象に対応する疾患（DLBCL又はMCL）に対して１票を投票するとともに、マーカー毎の影響度を考慮して式「数１６」及び式「数１７」に記載の得票数ｖDLBCL及びｖMCLを算出する（ステップＳ９１０）。そして、ｖDLBCLとｖMCLとの大小を判定し（ステップＳ９２０）、vDLBCL＞vMCLのときには、DLBCLと判別し（ステップＳ９３０）、ｖDLBCL＝ｖMCLのときには判別不明として判定し（ステップＳ９４０）判別し、ｖDLBCL＜ｖMCLのときにはMCLと判定し（ステップＳ９５０）、この処理を終了する。
【数１６】

【数１７】

【０１４６】
そして、ＣＰＵは、内部ループの判別対象ｉinnerがDLBCLかMCLかが正しく判別されたときには、正答スコアＮ(l)に数値１を加算し、誤判別の場合には、何も加算せず、不明の場合には、数値０．５を加算し、記憶する（ステップＳ６００）。
【０１４７】
こうして内部ループを判別対象ｉinnerと判別器Ｉinnerとに区分した数に対応する回数（７４回）実施する（ステップＳ６１０）。この結果、第１の組み合わせの（α,β）について74個の判別対象ｉinnerをそれぞれの判別器Ｉinnerで判別した結果に基づく正答スコアＮ(1)を得ることができる。さらに、次の組み合わせの（α,β）について同様の内部ループを７４回繰り返し行い、正答スコアＮ（2）を取得する（ステップＳ５７０〜ステップＳ６１０）。こうした繰り返しを(α,β)の全ての組み合わせについて実施し、最終的に正答スコアＮ(1)〜（25）を得る（ステップＳ５３０〜ステップＳ６２０）。
【０１４８】
そして、これらの正答スコアＮ（１）〜Ｎ（25）のうち最大のスコアを示したＮmaxについての（α,β）を選択する（ステップＳ６３０）。この（α,β）は、内部ループにおいて最も精度よくｉinnerがDLBCLかMCLかを判別することができた最適な（α,β）である。選択された最適な（α，β）は、（０．０５，０．００５）であった。
【０１４９】
次に、こうして内部ループの繰り返しによって選択された最適（α，β）を外部ループの判別器Ｉouterに適用して、マーカーセットを選択する処理を実行する（ステップＳ６４０）。なお、このマーカーセットの選択処理のフローチャートの一例を図１３に示す。この選択処理は、ステップＳ７２２で外部ループの判別器Ｉouterに最適（α,β）を適用し、ステップＳ８１２において、判別対象ｉouterを検証するためのマーカーを設定する以外は、図９に示す処理と同様に実施するものである。さらに、こうして選択されたマーカーを用いる検証処理を実行する（ステップＳ６５０）。この検証処理のフローチャートの一例を図１４に示す。この検証処理は、ステップＳ９１２で判別対象をｉouterとしステップＳ６４０で選択されたマーカーセットを用いて得票数を検出し、ステップＳ９３２〜ステップＳ９５２において判別対象をｉouterとする以外は、図１０に示す処理と同様に実施するものである。
【０１５０】
ＣＰＵは、こうして外部ループの判別対象ｉouterが正しくDLBCLかあるいはMCLに判別されたときには、総スコアNTに数値１を加算し、誤判別の場合には、何も加算せず、不明の場合には、数値０．５を加算し、記憶する（ステップＳ６６０）。
【０１５１】
こうした外部ループを症例数（７５例）だけ繰り返す（ステップＳ６７０）。全症例について外部ループを終了することで、全ての外部ループの判別対象ｉouterについて正誤の得点が加算されて得られる総スコアＮＴを得ることができる。さらに、この総スコアＮＴを全症例数（７５例）で除した数値を判別精度とし（ステップＳ６８０）、この検証処理を終了した。
【０１５２】
また、本実施例では、上記７５症例を１症例と７４症例に分けるLOOCV法により最適（α，β）として（０．０５，０．００５）を取得し、この（α，β）を７５症例に適用して、上位と同様の判別用マーカー選択手法（有意確率に基づく方法、以下、「標準法」という。）により判別用マーカーセットを選択した。
【０１５３】
さらに、本実施例では、上記検証処理における判別用マーカー選択の方法（標準法）に替えてリカーシブ法を採用して、リカーシブ法による判別モデルの検証処理も行い、判別精度を取得した。また、上記７５症例を１症例と７４症例に分けるLOOCV法（リカーシブ法によるマーカー選択）により最適（α，β）として（０．０５，０．００５）を取得し、この（α，β）を７５症例に適用してリカーシブ法によって判別用マーカーセットを選択した。
【０１５４】
さらにまた、本実施例では、４６例のDLBCL中２８例のABC及び１８例のGCBについても二重LOOCV法（標準法及びリカーシブ法）により検証するとともに、標準法及びリカーシブ法により判別用マーカーを選択した。
【０１５５】
以上の検証結果を表５に示し、標準法により選択されたDLBCL vs MCLマーカー及びABC vs GCBマーカーのそれぞれ上位２０個のマーカーを表６に示す。また、図１５Ａ及び図１５Ｂには、標準法及びリカーシブ法により選択されたDLBCL／MCL判別用マーカーを示し、図１５Ｃ及び図１５Ｄには、標準法及びリカーシブ法により選択されたABC/GBC判別用マーカーを示す。図１６Ａ及び図１６Ｂには、標準法及びリカーシブ法のそれぞれによる、得票数ｖDLBCL及びｖMCLの大小による判別結果をグラフとして示す。図１６Ｃ及び図１６Ｄには、標準法及びリカーシブ法のそれぞれによる、得票数ｖABC及びｖGCBの大小による判別結果をグラフとして示す。
【表５】

【表６】

【０１５６】
表５に示すように、本実施例（標準法）によれば、７５症例中、７１症例についてDLBCLかMCLかを正しく判別できた（判別率９４．７％）。これらの判別の検証に際して選択されたマーカーは平均して３４２．３個であった。また、DLBCL４６症例中３８．５例についてABCかGCBかを正しく判別できた（判別率８３．７％）。検証に際して選択されたマーカーは平均して１３６．０個であった。
【０１５７】
また、本実施例（リカーシブ法）によれば、判別率９６．０％で正しくDLBCLとMCLとを判別でき、マーカーの平均数は９３．９個であり、標準法に比較してマーカー数を７２．６％に削減できた。また、同様にリカーシブ法によれば、判別率８２．６％で正しくABCとGCBとを判別でき、マーカーの平均数は２６．２個であり、標準法に比較してマーカー数を８０．７％に削減できた。
【０１５８】
さらに、本実施例によれば、表６に示すように、ABCとGCBとを判別するための有用な領域が新たに見出された。すなわち、ゲインについては１ｑ（１ｑ４２．１３、１ｑ３２．１、１ｑ３１．２）、７ｑ（７ｑ３４、７ｑ２２．３）、ロスについては１ｐ３６（１ｐ３６．３２）などである。したがって、これらの領域を保持するクローン及びこれらの領域によってコードされる遺伝子若しくはcDNAも好ましいマーカーとして使用できる。
【０１５９】
本実施例によれば、染色体コピー数に異常が観察される疾患などの判別対象に対して、適切な判別アルゴリズムを適用することで高い判別率でタイプ判別が可能であることがわかった。すなわち、マーカーセットの選択に際し、マーカー選択のためのパラメータを恣意的でない手法で選択することで、マーカーセットの選択及び判別結果から恣意性を排除することができ、判別結果を客観性の高いものとすることができる。また、選択したマーカーセットを用いてタイプ判別を行う際、マーカーに特徴的な事象の有無による投票結果に各マーカーの影響力の大小を反映させることで判別率が向上されることがわかった。
【０１６０】
さらに、本実施例によれば、リカーシブ法により、判別率を維持してマーカーセットの削減が可能であることがわかった。さらにまた、本発明の実施例によれば、CGHアレイから得られるデータが、染色体コピー数情報に基づくタイプ判別に有利であることがわかった。特に、本実施例によれば、DLBCLとMCLという異なる疾患を判別することができるほか、一つの疾患であるDLBCL中のABCとGCBのサブタイプも判別することができることがわかった。すなわち、疾患及びサブタイプの判別を同一の染色体コピー数情報に基づいて行うことができるため、非常に有用である。また、アレイCGHは、発現プロファイリングよりも操作が簡便で信頼性の高い点においても有用である。
【０１６１】
また、本実施例によれば、タイプ未知の検体に対して、一般的なあるいはユーザが適宜設定した（α、β）を適用して選択したマーカーセットを用いてタイプ判別しても、マーカーの影響力を反映させることで良好な判別結果が得られることがわかる。さらに、タイプ未知の検体に対して、本実施例のようにして予め選択されたマーカーセットを適用しても判別率及び客観性の高い判別結果が得られることは明らかであった。
【０１６２】
さらに、本実施例で用いたマーカー選択手法によれば、多数個の染色体コピー数情報から判別に有用なマーカーを効率的にかつ客観的に選択することができる。従来は、感覚本実施例において選択された客観性の高いマーカーセットは、ただちにタイプ未知の検体に適用することができると考えられる。また、こうしたマーカーセットのみを固定化したアレイを提供することができるようになる。また、リカーシブ法により削減されたマーカーセットが固定化されたアレイによれば、アレイの作製コスト及び操作コストを低減することができる。
【０１６３】
さらにまた、本実施例によれば、既知の染色体コピー数情報に対して本実施例のような検証方法を適用して判別率を取得することで、染色体コピー数情報の信頼性やこうした情報を取得する実験手法の信頼性なども検証し検証することができる。
【実施例２】
【０１６４】
本実施例では、実施例１で算出した判別率の有意性を評価するために、ラベルパーミュテーションテスト（Label Permutation Test；LBT、Radmacher MD, Mcshane LM, Simon R. A paradigm for class prediction using gene expression profiles. J Compt Biol 2002;9:505-11）を実施した。すなわち、無作為な順序でモンテカルロシミュレーションを１００００回行い、判別精度の有意性を評価した。また、LPTにより、実施例１における標準法及びリカーシブ法によって選択されたマーカー数のFalse Discovery Rate（FDR、Benjamini Y, Hochberg Y. Controling the false discovery rate: a practical and powerful approach to multiple testing. J Roy Stat Soc A 1995;57:289-300.）を見積もった。これらの結果を表５に併せて示す。
【０１６５】
表５に示すように、判別率に関しては、標準法とリカーシブ法とでは同程度の判別精度であった。また、１００００回のLPTにおいて一度もこの判別精度を超えることはなかった（p＜０．０００１）。また、FDRについては、１００００回のシミュレーションでも、表５に示すマーカー数以上となることはなかった。すなわち、選択したマーカー数はｐ＜０．０００１のレベルで統計的に有意であることがわかった。
【図面の簡単な説明】
【０１６６】
【図１】アレイCGHによって得られた検体と対照における反応値をlogスケールで表した図である。
【図２】判別用マーカーを選択する処理のフローチャートの一例を示す図。
【図３】αによる閾値処理の概要を示す図。
【図４】アレイCGHの閾値処理前後の一例を示す図。
【図５】マーカー選択処理のフローチャートの一例を示す図。
【図６】線形識別関数的手法を採用したタイプ判別処理のフローチャートの一例を示す図。
【図７】LOOCV法によるパラメータ設定のフローチャートの一例を示す図。
【図８】リカーシブ法による判別用マーカーの選択処理のフローチャートの一例を示す図。
【図９】LOOCV法による検証処理のフローチャートの一例を示す図。
【図１０】実施例１における処理のフローチャートを示す図。
【図１１】内部ループにおけるマーカー選択処理のフローチャートを示す図。
【図１２】内部ループにおける検証処理のフローチャートを示す図。
【図１３】外部ループにおけるマーカー選択処理のフローチャートの一例を示す図。
【図１４】外部ループにおける検証処理のフローチャートの一例を示す図。
【図１５Ａ】実施例１において標準法で選択されたDLBCL/MCL判別用マーカーを示す図。
【図１５Ｂ】実施例１においてリカーシブ法により選択されたDLBCL/MCL判別用マーカーを示す図。
【図１５Ｃ】実施例１において標準法で選択されたABC/GCB判別用マーカーを示す図。
【図１５Ｄ】実施例１においてリカーシブ法により選択されたABC/GCB判別用マーカーを示す図。
【図１６Ａ】実施例１での標準法によるDLBCL/MCLの検証結果を示すグラフ図。
【図１６Ｂ】実施例１でのリカーシブ法によるDLBCL/MCLの検証結果を示すグラフ図
【図１６Ｃ】実施例１での標準法によるABC/GCBの検証結果を示すグラフ図。
【図１６Ｄ】実施例１でのリカーシブ法ABC/GCBの検証結果を示すグラフ図。

【特許請求の範囲】
【請求項１】
生物体が備える可能性のある少なくとも２種類のタイプを判別するためのマーカーの選択方法であって、
前記タイプが既知である前記生物体の複数個体の複数種類のマーカー候補に関する染色体コピー数情報及び前記複数個体の前記マーカー候補毎のコピー数異常の有無に関するコピー数異常情報に基づいて、一つの前記マーカー候補につき前記複数個体においてコピー数異常が生じることについての統計的有意性が肯定的に判定されるときに当該マーカー候補を判別用マーカーとして選択する、選択方法。
【請求項２】
前記判別用マーカーの選択に際し、前記コピー数異常情報から取得される、前記マーカー候補毎のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和である有意確率に基づく統計的有意性を用いる、請求項１に記載の選択方法。
【請求項３】
前記タイプの種類がＣ種類（Ｃは２以上の整数）であるとき、前記有意確率ｐjxは、以下の式で表される、請求項２に記載の選択方法。
【数１】

【請求項４】
設定された閾値を用いて前記マーカー候補毎のコピー数異常の有無を判定することにより前記コピー数異常情報を取得し、設定された有意水準を用いて前記コピー数異常が生じる統計的有意性を判定する、請求項１〜３のいずれかに記載の選択方法。
【請求項５】
前記閾値及び前記有意水準は、前記複数個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationを適用して得られる検証結果に基づいて設定される、請求項４に記載の選択方法。
【請求項６】
前記閾値及び前記有意水準は、Leave-one-out cross-validationを適用して得られる検証結果において最も良好な検証結果が得られるものとして選択されている、請求項５に記載の選択方法。
【請求項７】
前記判別用マーカーの選択に先立って、前記閾値及び前記有意水準を設定するパラメータ設定工程を備える、請求項４〜６のいずれかに記載の選択方法。
【請求項８】
前記判別用マーカーの選択に際し、以下の（ａ）〜（ｃ）を繰り返し実行する、請求項１〜４のいずれかに記載の選択方法。
（ａ）前記コピー数異常情報に基づく前記マーカー候補についてのコピー数異常の英気確率と当該コピー数異常よりも極端な方向における生起確率の和である有意確率の最小値を取得するとともに当該最小値を採るマーカー候補の識別情報を取得し、
（ｂ）前記最小値を採るマーカー候補に関するコピー数異常についての有意確率に基づいて統計的有意性が肯定的に判定されるとき、前記最小値を採るマーカー候補を判別用マーカーとして選択し、
（ｃ）前記選択された判別用マーカーが増幅異常マーカーであるとき、前記複数個体において前記判別用マーカーの前後で連続して増幅異常を示すマーカー候補を前記増幅異常を有しないものとして取り扱い、前記選択された判別用マーカーが欠失異常マーカーであるとき、前記複数個体において前記判別用マーカーの前後で連続して欠失異常を示すマーカー候補を欠失異常を有しないものとして取り扱う。
【請求項９】
前記判別用マーカーの選択に先立って、
前記染色体コピー数情報を取得し、
前記染色体コピー数情報に基づいて前記コピー数異常情報を取得する、請求項１〜８のいずれかに記載の選択方法。
【請求項１０】
前記染色体コピー数情報は、前記マーカー候補となる複数種類のDNAが固定化された固相担体上の核酸ハイブリダイゼーション結果に基づく、請求項１〜９のいずれかに記載の選択方法。
【請求項１１】
判別しようとする前記タイプは、ヒト並びに非ヒト哺乳動物における疾患、先天性異常及び体質から選択されるいずれかの分類である、請求項１〜１０のいずれかに記載の選択方法。
【請求項１２】
判別しようとする前記タイプは、ヒトの固形腫瘍及び造血器腫瘍における分類である、請求項１１に記載の選択方法。
【請求項１３】
判別しようとする前記タイプは、非ホジキンリンパ腫のＢ細胞リンパ腫における分類である、請求項１２に記載の選択方法。
【請求項１４】
生物体が備える可能性のある少なくとも２種類のタイプを判別するためのマーカー選択プログラムであって、
請求項１〜１３のいずれかに記載の選択方法における各工程を処理する１又は２以上のステップを１又は２以上のコンピュータに実行させるためのプログラム。
【請求項１５】
生物体が備える可能性のある少なくとも２種類のタイプを判別するための判別用マーカーセットであって、
請求項１〜１３のいずれかに記載のマーカー選択方法により選択される１種又は２種以上のマーカーを含む、マーカーセット。
【請求項１６】
以下の表１Ａ、表１Ｂ、表１Ｃ、表１Ｄ及び表１Ｅに記載のマーカーから選択される１種又は２種以上を含む、非ホジキンリンパ腫のＢ細胞リンパ腫の分類を判別するためのマーカーセット。
【表１Ａ】

【表１Ｂ】

【表１Ｃ】

【表１Ｄ】

【表１Ｅ】

【請求項１７】
以下の表２Ａ、表２Ｂ、表２Ｃ及び表２Ｄに記載のマーカーから選択される１種又は２種以上を含む、非ホジキンリンパ腫のＢ細胞リンパ腫の分類を判別するためのマーカーセット。
【表２Ａ】

【表２Ｂ】

【表２Ｃ】

【表２Ｄ】

【請求項１８】
以下の表３Ａ、表３Ｂ、表３Ｃ及び表３Ｄに記載のマーカーから選択される１種又は２種以上を含む、びまん性大細胞リンパ腫の予後タイプの分類を判別するためのマーカーセット。
【表３Ａ】

【表３Ｂ】

【表３Ｃ】

【表３Ｄ】

【請求項１９】
以下の表４Ａ、表４Ｂ、表４Ｃ及び表４Ｄに記載のマーカーから選択される１種又は２種以上を含む、びまん性大細胞リンパ腫の予後タイプの分類を判別するためのマーカーセット。
【表４Ａ】

【表４Ｂ】

【表４Ｃ】

【表４Ｄ】

【請求項２０】
生物体が備える可能性のある少なくとも２種類のタイプを判別する方法であって、
判別しようとするタイプのそれぞれについてコピー数の異常が生じることについての統計的有意性が肯定された判別用マーカーと判別対象生物体の前記判別用マーカーについての染色体コピー数に関する染色体コピー数情報とを準備し、
判別しようとする前記タイプの少なくとも一つについて、以下の情報：
（ａ）前記判別対象生物体が、前記一つのタイプの判別用マーカーに特徴的なコピー数異常を有するか否かに関する判別用コピー数異常情報及び
（ｂ）前記一つのタイプの判別用マーカーの統計的有意性が肯定された際の有意確率に関する有意確率情報、
を利用して前記判別用対象生物体が前記一つのタイプであるか否かを判別する、判別方法。
【請求項２１】
前記タイプの判別に際し、少なくとも前記一つのタイプについての以下の式に表される得票数Ｖxが、前記残余の各タイプについての以下の式に表されるＶｘのいずれよりも大きいとき、前記判別対象生物体が前記一つのタイプであると判定する、請求項２０に記載の判別方法。
【数２】

【請求項２２】
前記判別用マーカーは、請求項１〜１３のいずれかに記載のマーカー選択方法により選択される、請求項２０又は２１に記載の判別方法。
【請求項２３】
判別しようとする前記タイプは、ヒト並びに非ヒト哺乳動物における疾患、先天性異常及び体質から選択されるいずれかの分類である、請求項２０〜２２のいずれかに記載の判別方法。
【請求項２４】
判別しようとする前記タイプは、ヒトの固形腫瘍及び造血器腫瘍における分類である、請求項２３に記載の判別方法。
【請求項２５】
判別しようとする前記タイプは、非ホジキンリンパ腫のＢ細胞リンパ腫における分類である、請求項２３に記載の判別方法。
【請求項２６】
生物体が備える可能性のある少なくとも２種類のタイプを判別するためのプログラムであって、
請求項２０〜２５のいずれかに記載の判別方法における各工程を処理する１又は２以上のステップを１又は２以上のコンピュータに実行させるためのプログラム。
【請求項２７】
生物体が備える可能性のある少なくとも２種類のタイプを判別するための判別装置であって、
固相担体と、
当該固相担体に固定化された請求項１５〜１８のいずれかに記載のマーカーセットと、
を備える、装置。
【請求項２８】
生物体が備える可能性のある少なくとも２種類のタイプを判別する方法の検証方法であって、
前記タイプが既知である複数個体の複数の判別用マーカー候補についての染色体コピー数に関する染色体コピー数情報を準備し、
前記染色体コピー数情報に係る前記複数個体から選択される一つの個体を判別対象とし残余の個体を判別器とするLeave-one-out cross-validationによる外部ループと、当該残余の個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationによる内部ループと、を構成し、
前記染色体コピー数情報に基づいて前記タイプの判別用マーカーを選択するためのパラメータを前記内部ループにより設定し、
設定した前記パラメータを前記外部ループの前記判別器に適用して判別用マーカーを選択し、選択した前記判別用マーカーを前記外部ループの前記判別対象に適用して前記判別対象のタイプについての判別結果を取得し、
前記外部ループの全ての判別対象についての前記判別結果により判別したタイプと前記判別対象について既知のタイプとを対比して得られる判別結果の当否に関する外部ループ当否情報を利用して前記内部ループによって設定した前記パラメータを用いた前記判別方法の判別精度を取得する、検証方法。
【請求項２９】
前記パラメータの設定に際し、複数のパラメータ候補の一つを前記内部ループの前記判別器に適用して判別用マーカーを選択し、当該判別用マーカーを前記内部ループの前記判別対象に適用して得られる判別結果と当該判別結果の当否に関する内部ループ当否情報とを取得して、前記複数のパラメータ候補の全てについて前記内部ループの全ての判別対象について取得した前記内部ループ当否情報に基づいて最も高い判別精度が得られた一つのパラメータ候補を前記パラメータとして設定する、請求項２８に記載の検証方法。
【請求項３０】
前記パラメータは、前記各個体の前記各マーカー候補につき染色体コピー数が異常であるかどうかを判定するための閾値と、前記各マーカー候補につき前記複数個体においてコピー数異常が生じることについての統計的有意性を判定するための有意水準と、を含む、請求項２８又は２９に記載の検証方法。

【図２】

【図３】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１６Ａ】

【図１６Ｂ】

【図１６Ｃ】

【図１６Ｄ】

【図１】

【図４】

【図１５Ａ】

【図１５Ｂ】

【図１５Ｃ】

【図１５Ｄ】

【公開番号】特開２００８−４８６８９（Ｐ２００８−４８６８９Ａ）
【公開日】平成２０年３月６日（２００８．３．６）
【国際特許分類】

【出願番号】特願２００６−２２９７９８（Ｐ２００６−２２９７９８）
【出願日】平成１８年８月２５日（２００６．８．２５）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　研究集会名　第２０回東海ファジィ研究会　主催者名　日本知能情報ファジィ学会東海支部　発表日　平成１８年２月２７日　資料頒布日　平成１８年２月２７日
【出願人】（３０４０３１４２７）愛知県 (36)
【出願人】（３０４０２６６９６）国立大学法人三重大学 (270)
【出願人】（０００００４０６４）日本碍子株式会社 (2,325)
【Ｆターム（参考）】

[ Back to top ]

生物体のタイプを判別するためのマーカーの選択方法及び選択されたマーカーの利用

メニュー

スポンサーリンク

次の公報 »

« 前の公報

生物体のタイプを判別するためのマーカーの選択方法及び選択されたマーカーの利用

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク