説明

生物体のタイプを判別するためのマーカーの選択方法及び選択されたマーカーの利用

【課題】染色体コピー数情報に基づいて生物体のタイプを判別する技術を提供する。
【解決手段】生物体のタイプを染色体コピー数情報に基づいて判別するためのマーカーを選択するのにあたり、生物体についてタイプが既知である複数個体の染色体コピー数情報を準備し、生物体についてタイプが既知である複数個体の染色体コピー数情報に基づいてタイプを判別するためのマーカーを選択するようにする。マーカーの選択は、タイプが既知である複数個体の染色体コピー数情報に対して、複数個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationを適用して得られる検証結果を利用する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生物体が備える可能性のある少なくとも2種類のタイプを判別する技術に関し、詳しくは、生物体例えばアレイCGHによって得られる生物体の染色体コピー数情報に基づいて生物体のタイプを判定するためのマーカーの選択、選択されたマーカーによる生物体のタイプの判定、判定の検証方法等に関する。
【背景技術】
【0002】
近年、各種態様の固相にオリゴヌクレオチドなどのプローブを固定化したアレイは、各種研究用途のほか、疾患診断や予後の予測、薬剤有効性の評価などへの医療分野への適用が期待されている。アレイは、遺伝子発現解析に利用され、個人の体質診断から疾患診断等へと応用されるようになってきている。また、アレイは、アレイCGH(Array Comparative Genomic Hybridizatoin)にも利用されている。アレイCGHは、BACなどにクローニングされた染色体上の各部をガラスなどの担体に固定化し、被験試料中の核酸とハイブリダイゼーションさせ、ハイブリダイゼーションに基づく信号の強度から、染色体上の各部におけるコピー数の増減を高い精度で検出することができる手法である。アレイCGHは、染色体における遺伝子コピー数の異常の検出が可能であるため、遺伝子の異常に起因する疾患や結果として遺伝子異常を生じる疾患の診断や治療方針の決定に使用できるものとして期待されるようになってきている。このため、悪性リンパ腫など遺伝子異常に起因する疾患についてのアレイCGHが行われている(非特許文献1)。
【0003】
こうしたデータを活用するには、そのための判別アルゴリズムが重要となる。現在、遺伝子発現解析により得られるデータを利用して各種の診断に適用するための判別アルゴリズムは多数知られている(非特許文献2、3)。
【非特許文献1】Tagawa H, Suguoro K, Tsuzuki S, et al. Comparison of genome pro_les for identi_cation of distinct subtype of di_use large B-cell lymphoma. Blood 2005;106:1770-7.
【非特許文献2】Golub TR, Slonim DK, Tamayo P, et al. Molecular classi_cation of cancer: class discovery and class prediction by gene expression monitoring. Science 1999;286:531-7.
【非特許文献3】Radmacher MD, Mcshane LM, Simon R. A paradigm for class prediction using gene expression pro_les. J Compt Biol 2002;9:505-11.
【発明の開示】
【発明が解決しようとする課題】
【0004】
遺伝子発現量は、あくまで遺伝子の発現情報であり、遺伝子の異常に関連するほか、それ以外の因子にも関連した情報である。したがって、遺伝子異常を直接検知することはできない。一方、アレイCGHは、遺伝子そのものを分析対象としているため、RNA量を分析対象とする遺伝子発現解析よりも、より正確に遺伝子異常を検出できるものと期待されている。
【0005】
遺伝子発現解析に対しては、既に記載したように多数の判別アルゴリズムが検討され使用されているが、アレイCGHについては、安定したデータの採取が困難であったため、未だこうした判別アルゴリズムの検討はほとんどされてないのが現状である。したがって、上記のように疾患についてのアレイCGHデータを取得しても、その一部を利用しているに過ぎなかった。
【0006】
また、アレイCGHから得られるデータは、遺伝子発現解析によって得られるデータとその特性が異なっている。すなわち、遺伝子発現量及び染色体コピー数は、それぞれ健常人の発現量及び染色体コピー数と対比して得られるものではあるが、遺伝子発現解析によって得ようとするデータは、どの程度発現量が増減しているかに関する連続量であり、アレイCGHから得ようとするデータはコピー数異常の有無に関する離散量である点において相違している。したがって、従来、遺伝子発現解析に適用される判別アルゴリズムは、アレイCGHにはそのまま適用できるものではなかった。
【0007】
以上のことから、現状において、アレイCGHデータなどによって得られる染色体コピー数を用いて疾患を分類したり、染色体コピー数情報による判別を検証したり、あるいは、染色体コピー数情報から有用なマーカーを選択するなどの手法が要望されている。
【0008】
そこで、本発明は、染色体コピー数情報に基づいて生物体のタイプを判別する技術を提供することを一つの目的とする。すなわち、本発明は、生物体のアレイCGHデータの解析に有用な解析手法及び解析プログラム並びにこれらの利用を提供することを一つの目的とする。
【課題を解決するための手段】
【0009】
本発明者らは、アレイCGHから得られるデータの特性を検討したところ、データが離散量であるほか、アレイCGHでは、異常なクローン(マーカー)に隣接するクローン(マーカー)が本来異常でないのに異常な数値を取る傾向があり、アレイCGHにおいて遺伝子異常として検出されるデータには連続性があることを見出した。さらに、こうしたアレイCGHのデータ特性に基づいて各種の手法により解析を試みた結果、アレイCGHデータなどから得られる染色体コピー数情報を利用した生物体のタイプ判別に用いるマーカー選択方法及び選択されたマーカーを用いる判別方法を見出し、本発明を完成した。すなわち、本発明によれば、以下の手段が提供される。
【0010】
本発明によれば、生物体が備える可能性のある少なくとも2種類のタイプを判別するためのマーカーの選択方法であって、前記タイプが既知である前記生物体の複数個体の複数種類のマーカー候補に関する染色体コピー数情報及び前記複数個体の前記マーカー候補毎のコピー数異常の有無に関するコピー数異常情報に基づいて、一つの前記マーカー候補につき前記複数個体においてコピー数異常が生じることについての統計的有意性が肯定的に判定されるときに当該マーカー候補を判別用マーカーとして選択する、選択方法が提供される。
【0011】
この選択方法においては、前記判別用マーカーの選択に際し、前記コピー数異常情報から取得される、前記マーカー候補毎のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和である有意確率に基づく統計的有意性を用いることができる。また、前記タイプの種類がC種類(Cは2以上の整数)であるとき、前記有意確率pjxは、以下の式で表すことができる。
【数3】

【0012】
また、設定された閾値を用いて前記マーカー候補毎のコピー数異常の有無を判定することにより前記コピー数異常情報を取得し、設定された有意水準を用いて前記コピー数異常が生じる統計的有意性を判定してもよい。さらに、前記閾値及び前記有意水準は、前記複数個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationを適用して得られる検証結果に基づいて設定することができる。さらに、前記閾値及び前記有意水準は、Leave-one-out cross-validationを適用して得られる検証結果において最も良好な検証結果が得られるものとして選択されることができる。また、前記選択方法においては、前記判別用マーカーの選択に先立って、前記閾値及び前記有意水準を設定するパラメータ設定工程を備えることができる。
【0013】
本発明の選択方法では、前記判別用マーカーの選択に際し、以下の(a)〜(c)を繰り返し実行することもできる。
(a)前記コピー数異常情報に基づく前記マーカー候補についてのコピー数異常の生起確率と当該コピー数異常よりも極端な方向における生起確率の和である有意確率の最小値を取得するとともに当該最小値を採るマーカー候補の識別情報を取得し、
(b)前記最小値を採るマーカー候補に関するコピー数異常についての有意確率に基づいて統計的有意性が肯定的に判定されるとき、前記最小値を採るマーカー候補を判別用マーカーとして選択し、
(c)前記選択された判別用マーカーが増幅異常マーカーであるとき、前記複数個体において前記判別用マーカーの前後で連続して増幅異常を示すマーカー候補を前記増幅異常を有しないものとして取り扱い、前記選択された判別用マーカーが欠失異常マーカーであるとき、前記複数個体において前記判別用マーカーの前後で連続して欠失異常を示すマーカー候補を欠失異常を有しないものとして取り扱う。
【0014】
本発明の選択方法では、また、前記判別用マーカーの選択に先立って、前記染色体コピー数情報を取得し、前記染色体コピー数情報に基づいて前記コピー数異常情報を取得することができる。
【0015】
また、前記染色体コピー数情報は、前記マーカー候補となる複数種類のDNAが固定化された固相担体上の核酸ハイブリダイゼーション結果に基づくことができる。また、判別しようとする前記タイプは、ヒト並びに非ヒト哺乳動物における疾患、先天性異常及び体質から選択されるいずれかの分類とすることができる。さらに、判別しようとする前記タイプは、ヒトの固形腫瘍及び造血器腫瘍における分類とすることができ、判別しようとする前記タイプは、非ホジキンリンパ腫のB細胞リンパ腫における分類とすることもできる。
【0016】
本発明によれば、生物体が備える可能性のある少なくとも2種類のタイプを判別するためのマーカー選択プログラムであって、上記いずれかに記載の選択方法における各工程を処理する1又は2以上のステップを1又は2以上のコンピュータに実行させるためのプログラムが提供される。
【0017】
本発明によれば、生物体が備える可能性のある少なくとも2種類のタイプを判別するための判別用マーカーセットであって、上記いずれかに記載のマーカー選択方法により選択される1種又は2種以上のマーカーを含む、マーカーセットが提供される。また、本発明によれば、 表1A、表1B、表1C、表1D及び表1Eに記載のマーカーから選択される1種又は2種以上を含む、非ホジキンリンパ腫のB細胞リンパ腫の分類を判別するためのマーカーセットや、表2A、表2B、表2C及び表2Dに記載のマーカーから選択される1種又は2種以上を含む、非ホジキンリンパ腫のB細胞リンパ腫の分類を判別するためのマーカーセットも提供される。さらに、本発明によれば、表3A、表3B、表3C及び表3Dに記載のマーカーから選択される1種又は2種以上を含む、びまん性大細胞リンパ腫の予後タイプの分類を判別するためのマーカーセットや表4A、表4B、表4C及び表4Dに記載のマーカーから選択される1種又は2種以上を含む、びまん性大細胞リンパ腫の予後タイプの分類を判別するためのマーカーセットも提供される。これらのマーカーセットにおいては、それぞれのタイプに特異的なマーカー(ゲインおよび/またはロス)をそれぞれ含むことが好ましい。また、これらのマーカーセットは、それぞれの表に記載の全てのマーカーを含むものとすることができるが、表に記載されるNegative logに基づいて当該数値が高値を示すものから選択することもでき、例えば、Negative logが3を超であることが好ましく、より好ましくは4超であり、さらに好ましくは5超であり、一層好ましくは6超である。また、各マーカーセットにおいては、表に列挙されるマーカーから20種類以上を含むことが好ましく、より好ましくは50種類以上であり、さらに好ましくは100種類以上である。
【0018】
本発明によれば、生物体が備える可能性のある少なくとも2種類のタイプを判別する方法であって、判別しようとするタイプのそれぞれについてコピー数の異常が生じることについての統計的有意性が肯定された判別用マーカーと判別対象生物体の前記判別用マーカーについての染色体コピー数に関する染色体コピー数情報とを準備し、判別しようとする前記タイプの少なくとも一つについて、以下の情報:
(a)前記判別対象生物体が、前記一つのタイプの判別用マーカーに特徴的なコピー数異常を有するか否かに関する判別用コピー数異常情報及び
(b)前記一つのタイプの判別用マーカーの統計的有意性が肯定された際の有意確率に関する有意確率情報、
を利用して前記判別用対象生物体が前記一つのタイプであるか否かを判別する、判別方法が提供される。なお、ここで有意確率は、前記コピー数異常情報から取得される、前記マーカー候補毎のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和とすることができる。
【0019】
この判別方法においては、前記タイプの判別に際し、少なくとも前記一つのタイプについての以下の式(「数4」)に表される得票数Vxが、前記残余の各タイプについての以下の式(「数4」)に表されるVxのいずれよりも大きいとき、前記判別対象生物体が前記一つのタイプであると判定するkとができる。また、この判別方法において、前記判別用マーカーは、上記いずれかに記載のマーカー選択方法により選択されていてもよい。
【数4】

【0020】
この判別方法において判別しようとする前記タイプは、ヒト並びに非ヒト哺乳動物における疾患、先天性異常及び体質から選択されるいずれかの分類とすることができるし、判別しようとする前記タイプは、ヒトの固形腫瘍及び造血器腫瘍における分類とすることもできる。さらに、判別しようとする前記タイプは、非ホジキンリンパ腫のB細胞リンパ腫における分類とすることもできる。
【0021】
本発明によれば、生物体が備える可能性のある少なくとも2種類のタイプを判別するためのプログラムであって、上記いずれかに記載の判別方法における各工程を処理する1又は2以上のステップを1又は2以上のコンピュータに実行させるためのプログラムが提供される。
【0022】
本発明によれば、生物体が備える可能性のある少なくとも2種類のタイプを判別するための判別装置であって、固相担体と、当該固相担体に固定化された請求項15〜18のいずれかに記載のマーカーセットと、を備える、装置が提供される。
【0023】
本発明によれば、生物体が備える可能性のある少なくとも2種類のタイプを判別する方法の検証方法であって、前記タイプが既知である複数個体の複数の判別用マーカー候補についての染色体コピー数に関する染色体コピー数情報を準備し、
前記染色体コピー数情報に係る前記複数個体から選択される一つの個体を判別対象とし残余の個体を判別器とするLeave-one-out cross-validationによる外部ループと、当該残余の個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationによる内部ループと、を構成し、
前記染色体コピー数情報に基づいて前記タイプの判別用マーカーを選択するためのパラメータを前記内部ループにより設定し、
設定した前記パラメータを前記外部ループの前記判別器に適用して判別用マーカーを選択し、選択した前記判別用マーカーを前記外部ループの前記判別対象に適用して前記判別対象のタイプについての判別結果を取得し、
前記外部ループの全ての判別対象についての前記判別結果により判別したタイプと前記判別対象について既知のタイプとを対比して得られる判別結果の当否に関する外部ループ当否情報を利用して前記内部ループによって設定した前記パラメータを用いた前記判別方法の判別精度を取得する、検証方法が提供される。
【0024】
前記パラメータの設定に際し、複数のパラメータ候補の一つを前記内部ループの前記判別器に適用して判別用マーカーを選択し、当該判別用マーカーを前記内部ループの前記判別対象に適用して得られる判別結果と当該判別結果の当否に関する内部ループ当否情報とを取得して、前記複数のパラメータ候補の全てについて前記内部ループの全ての判別対象について取得した前記内部ループ当否情報に基づいて最も高い判別精度が得られた一つのパラメータ候補を前記パラメータとして設定することができる。
【0025】
この検証方法において、前記パラメータは、前記各個体の前記各マーカー候補につき染色体コピー数が異常であるかどうかを判定するための閾値と、前記各マーカー候補につき前記複数個体においてコピー数異常が生じることについての統計的有意性を判定するための有意水準と、を含むことができる。
【発明を実施するための最良の形態】
【0026】
本発明は、生物体が備える可能性のある2種類以上のタイプを判別するための判別用マーカーの選択、判別用マーカーセット、前記タイプの判別、判別装置及び判別方法の検証等に関する。以下、まず、本発明が利用する染色体コピー数情報の取得について説明し、次いで、染色体コピー数情報をタイプ判別に適用するための種々の形態について説明する。
【0027】
本発明において、「生物体」とは、DNA又はRNAを固有の情報として保持するものであればよく、少なくとも動物、植物、微生物及びウイルスを包含している。例えば、動物としては、ヒト及び非ヒト哺乳動物、魚類、鳥類、昆虫等が挙げられる。また、本発明において「判別」とは、少なくとも2つのタイプのうちの一つに該当することを決定することを意味している。したがって、判別は、3つ以上のタイプのうちいずれか一つに該当することを決定することも包含される。ただし、「判別」には、結果として判別不能である場合も包含される。また、本発明の判別の対象である「タイプ」は、染色体のコピー数異常として区別可能なものであればよい。したがって、判定対象となるタイプとしては、例えば、ヒト及び非ヒト哺乳動物等においては、固形腫瘍や造血器腫瘍などの各種腫瘍や先天性異常を含む疾患の分類及び細分類、薬剤耐性、薬剤感受性等を含む体質、遺伝的素因等が挙げられる。また、哺乳動物以外の動物や植物体における病気の種類などが挙げられる。
【0028】
本発明は、悪性リンパ腫、なかでも非ホジキンリンパ腫のB細胞リンパ腫におけるびまん性大細胞型B細胞リンパ腫(DLBCL)とマントル細胞リンパ腫(MCL)との判別に適し、さらにはDLBCLにおいてさらに予後不良な群(ABCタイプ)と予後良好な群(GCBタイプ)との判別にも適している。
【0029】
(染色体コピー数情報)
本発明において、染色体のコピー数とは、生物体の染色体における特定部位(遺伝子の一部若しくは全部又は遺伝子としては特定されていないか若しくは遺伝子ではない染色体上の領域)のコピー数を意味している。また、コピー数とは、染色体上の特定の一部において対照個体と比較によって取得されることが好ましく、例えば、対照個体の染色体の特定部位(マーカー候補又は判別用マーカーの一部についてのコピー数に対応するシグナルと特定個体の前記特定の一部についてのコピー数に対応するシグナルとの比(対数)として表すことができる。生物体の染色体における特定部位は、マーカー候補又は判別用マーカーとなるアレイ化されるDNA等である。なお、こうした染色体のコピー数は、アレイCGHによって得られるものであることが好ましい。アレイCGHは、全染色体にわたってコピー数情報を良好な解像度で取得することができるとともに、1コピーレベルでのコピー数変化であっても検出が可能であるからである。
【0030】
(染色体コピー数情報の取得)
(アレイCGHの準備)
次に、コピー数情報をアレイCGHによって取得する方法について説明する。コピー数情報を取得するには、まずアレイCGHに用いるアレイ(以下、CGHアレイともいう。)を準備する。CGHアレイは、コピー数変化を検出しようとする染色体上の領域あるいは大きさに対応したDNA等がアレイ化されている。
【0031】
CGHアレイにアレイ化されるDNA等としては、BAC、PAC等の人工染色体などのベクターそのもの若しくはこれらBAC等に対してDOP-PCR法などで増幅した断片、あるいはcDNA等とすることができる。あるいはこれに類するベクター等を特に限定することなく用いることができる。
【0032】
判別用マーカーの選択には、判別用マーカーをもれなく選択する観点から全染色体をおおよそカバーするようにアレイ化DNA(マーカー候補)を配したCGHアレイを準備することが好ましい。なお、判別用マーカーとなりえないことがわかっている染色体あるいはその一部はアレイ化DNAから予め排除されていてもよい。また、判別用マーカーとして可能性ある染色体領域のみでアレイCGHを構成してもよい。これに対して、判別用マーカーが既に確立されている場合においてタイプ未知の検体のためのCGHアレイは、確立された判別用マーカーとなるDNAのみが固定化されたカスタムアレイとすることもできる。
【0033】
CGHアレイにおけるアレイ化DNAの平均解像度は、目的に応じて適宜選択されるものであり、特に限定するものではないが、コピー数変化の位置、広さ、程度、標的遺伝子についての情報を取得しやすくするには、2Mb以下であることが好ましい。より好ましくは、1.5Mb以下である。
【0034】
CGHアレイは、こうしたDNA等が適当な固相担体に固定化されて構成されていればよい。アレイの形態は、従来公知の各種形態を特に限定することなく採ることができる。例えば、固相担体は、基板、ビーズ等の形態を採ることができる。また、固相担体材料も特に限定されないで、ガラス、プラスチックあるいは金属等を適宜用いることができる。さらに、固相担体の表層形態も平滑面、多孔質、クロス状等適宜選択することができる。CGHアレイとしては、ガラスやプラスチック等の基板にDNAがアレイ状に固定化されたものを用いることが好ましい。CGHアレイは、DNAマイクロアレイを構築するための従来公知の方法により得ることができる。
【0035】
(アレイCGHアッセイ)
コピー数情報を取得するには、作製したCGHアレイ等に対して、検体の試料(核酸を含む)を適用してハイブリダイゼーションアッセイを行い、各アレイ化DNAについてのシグナル(蛍光色素などによる)を検出することが好ましい。コピー数情報を取得するには、同時に対比のための対照についてもCGHアレイに対してハイブリダイゼーションアッセイを行う。対照は、タイプ判別の対象とならない標準的な検体とすることが好ましく、例えば、疾患のタイプ判別を行う場合には、健常者から採取した検体とすることができる。
【0036】
検体及び対照について、アレイ化DNA毎のシグナルを検出することにより、検体についてのコピー数情報を得ることができる。コピー数情報は、個々のアレイ化DNAについて、以下の式「数5」で表される反応値として得ることができる。
【0037】
【数5】

【0038】
反応値は、対照のシグナル強度に対する検体のシグナル強度の比を利用して、対照に対する検体のコピー数の比をlog2スケールで表したものとなっている。反応値は、対照(例えば、健常者)に対する検体(患者)のシグナル強度の比が大きければ正(増幅)の値をとり、小さければ負(欠損)の値をとることになる。また、同一であれば、0(正常)となる。一例として、対照(健常者)と検体(DLBCL患者)の全染色体にわたるシグナル強度をlogスケールで表したグラフを図1に示す。
【0039】
なお、検体及び対照についての試料調製方法は、従来のアレイCGHあるいはDNAマイクロアレイにおけるのと同様の手法を採用することができる。一般的には、コピー数情報を取得するのに適切な組織や体液を採取し、適宜当該採取試料から染色体(核酸)抽出操作を行い、さらに、ハイブリダイゼーションを検出するための蛍光色素の標識が付加される。ハイブリダイゼーションも作製したCGHアレイと適用する検体に適したハイブリダイゼーション条件を適宜設定して行えばよく、シグナル検出も従来のDNAマイクロアレイに適用するスキャナを適宜選択して使用すればよい。
【0040】
(1.タイプの判別方法)
次に、コピー数情報を用いてマーカーを選択し、次いでタイプ未知の個体のコピー数情報に基づいてタイプを判別する方法について説明する。なお、以下の説明においては、マーカーを選択するためのタイプ既知の個体のコピー数情報と判別しようとするタイプ未知の個体のコピー数情報とはアレイCGHアッセイ等により既に取得されているものとする。
【0041】
図2には、タイプを判別する処理のフローチャートの一例を示す。なお、以下に説明する判別用マーカーの選択処理等においては、アレイCGH等を構成するアレイ化DNAをマーカー候補として処理対象とすることができるが、予めその一部を処理対象から排除しておくこともできる。アレイCGHを構成するアレイ化DNAには、分析対象によっては判別に有効でないマーカー候補や機能的でないマーカー候補も含まれている。こうしたマーカー候補としては、例えば、性染色体に対するアレイ化DNAや欠損値を含むアレイ化DNAが挙げられる。予め、こうしたマーカー候補を処理対象から排除しておくことで、閾値処理等を効率的に実施できる。
【0042】
(1−1.判別用マーカーの選択)
タイプが未知の個体のコピー数情報に基づいてタイプを判定するには、まず、タイプ判別用のマーカーを選択することが好ましい。タイプ判別のためのマーカーを選択するには、各種の方法が採用できる。判別用マーカーは、各種のクローンあるいはクローンから取得したDNA断片などのマーカー候補のうち判別しようとするタイプの少なくとも一つについてゲイン(増幅)又はロス(欠失)といったコピー数異常を有するものである。こうした判別用マーカーは、予め他の方法等によりタイプの分類が確立(判別)されている複数個体の複数種類のマーカー候補についてのコピー数情報を準備し、当該コピー数情報に基づいて選択することができる。判別用マーカーの選択にあたっては、こうしたタイプ既知のコピー数情報が各タイプにつき適数個あればよく、特に限定されないが、好ましくは、一つのタイプにつき20例以上であり、より好ましくは40例以上である。40例以上であると、後述するパラメータβを0.01とするとき、全体の20%以上にコピー数異常があるマーカー候補を判別用マーカーとして判定することができる。さらに好ましくは60例以上である。
【0043】
以下、一例として2つのタイプを判別するための判別用マーカーの選択処理を、具体例を挙げて説明する。なお、こうした処理は、CPU、RAM及びROM並びに適当な入出力装置等を備えるコンピュータにおいて処理されることが好ましい。したがって、以下の処理は、こうしたコンピュータのCPUが処理するものとして記載する。
【0044】
(1−1−1.パラメータの設定)
判別用マーカーを選択するには、まず、そのためのパラメータを取得する(ステップS10)。判別用マーカーを選択するのにあたっては、まず、あるマーカー候補がコピー数に関して増幅又は欠失の異常を有しているかどうかを判定するためのパラメータと、あるマーカー候補がマーカーとして使用できるかどうかを判定するためのパラメータと、を設定することが好ましい。前者のパラメータは、個々のマーカー候補の反応値が増幅異常(ゲイン)又は欠失異常(ロス)若しくは正常であるのかを決定するための閾値処理用のパラメータαである。すなわち、コピー数異常情報を取得するためのパラメータである。このパラメータαは、個々のマーカー候補についての対照(健常者)群の正常な反応値の分布(ヒストグラム)に基づいて当該分布上下から一定比率にある反応値以上又は反応値以下であるときゲイン又はロスであると判定するための比率に関するパラメータである。
【0045】
この閾値処理は、パラメータαのとき、図3に示すように、各マーカー候補についての対照群の分布の上下それぞれα/2点を閾値として、ある個体のマーカー候補についての反応値が上側の閾値より大きいときゲインがあると判定してゲインには数値1を付与し、反応値が下側の閾値より小さいときロスがあると判定してロスには数値−1を付与し、反応値が下側α/2より大きく上側α/2よりも小さい場合には、正常として数値0を付与するものとする。閾値処理を行うことで各反応値をより簡素な離散データとすることができる。なお、閾値処理のα/2点を決定する対照群の反応値の分布は、個体間のばらつき及びハイブリダイゼーション間のばらつきを考慮すると、複数あることが好ましく、より好ましくは10個以上である。
【0046】
このように各マーカー候補について、設定したゲイン及びロスの閾値を用いて予めアレイデータを閾値処理することで、マーカー選択処理を効率的に実施することができる。図4に、アレイCGHデータの閾値処理前後の一例を示す。なお、こうした閾値処理は、各マーカー候補について一括して判別用マーカーの選択工程に先立って行うことに限定されない。個々のマーカー候補について判別用マーカーとなりうるかどうかの選択処理において、マーカー候補毎に実施してもよい。
【0047】
後者のパラメータは、閾値処理後の反応値に基づいて、個々のマーカー候補が判別用マーカーとなりうるのかどうかを判定するためマーカー選択処理用のパラメータβである。パラメータβは、あるマーカー候補についてゲイン又はロスが生じる統計的有意性の有無を判定するための有意水準に関するパラメータであり、より具体的には、あるマーカー候補について複数の個体でゲイン又はロスが偶然に生じやすいかどうかを判定するための有意水準のためパラメータである。したがって、例えば、当該有意水準を基準に、あるマーカー候補についてゲイン又はロスが生じる統計的有意性が肯定されるとき、当該パラメータ候補は、判別用マーカーとして選択することができる。統計的有意性は、あるマーカー候補についての複数個体のコピー数異常情報から取得される、当該マーカー候補のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和である有意確率を利用して判定することが好ましい。この有意確率が有意水準(β/2)未満であるときには、肯定され、有意水準以上のとき否定されることになる。
【0048】
これらのパラメータ(α、β)は、ハイパーパラメータとしてユーザが設定することもできるが、タイプ既知の複数個体の複数種類のマーカー候補についてのコピー数情報に対してLeave-One-Out Cross Validations(LOOCV)法を用いて恣意性を排除して客観的に取得することもできる。
【0049】
以下の説明では、説明の都合上、まず、(α、β)がハイパーパラメータあるいはLOOCV法によって設定されたかにかかわらず、予め準備されたものとしてマーカーの選択処理について説明し、後段にてLOOCV法によるパラメータ設定処理について詳細に説明する。
【0050】
したがって、パラメータ取得ステップ(ステップS10)では、CPUは、ROM又はRAM等の所定領域からパラメータ(α、β)を取得する。αは、例えば、0.1%(0.001)、0.5%(0.005)、1%(0.01)、5%(0.05)及び10%(0.10)等から選択されるいずれかとすることができ、βは、例えば、0.1%(0.001)、0.5%(0.005)、1%(0.01)、5%(0.05)及び10%(0.10)等から選択されるいずれかとすることができる。
【0051】
(1−1−2.マーカーの選択)
図2のマーカー選択処理(ステップS20)のフローチャートの一例を図5に示す。なお、以下の説明では、タイプ1及びタイプ2についての判別が既知のN個の症例についてのアレイCGHによるコピー数情報が準備されており、マーカーの選択対象となるマーカー候補の個数は2099個であるものとする。また、N個の症例群において、タイプ1の個体がn1人、タイプ2の個体がn2人存在し(N=n1+n2人)、あるマーカー候補jにつきMj人の個体にゲイン又はロスの異常がみられ、そのうちタイプ1の個体がmj1人、タイプ2の個体がmj2人いたとする。
【0052】
マーカー選択処理では、マーカーの選択対象となるマーカー候補の個数(2099個)に対応する繰り返し数jを1にセットする(ステップS110)。そして、マーカー候補jについて、ゲイン又はロスのあるタイプ1の個体人数mj1とタイプ2の個体人数mj2及び個体人数Mjとを取得する(ステップS120)。すなわち、図2のステップS10で取得したαを用いて閾値処理された全症例の反応値に基づいてマーカー候補jにおいて各タイプにつきゲイン又はロスのある個体を抽出し、人数mj1及びmj2を取得する。
【0053】
次に、CPUは、マーカー候補jについて、以下の式(「数7」及び「数8」で表される確率pj1及びpj2を求める(ステップS130)。ここで、マーカー候補jについて、Mj人の個体にゲインがあり、そのうちタイプ1の個体がmj1人、タイプ2の個体がmj2人おり(Mj=mj1+mj2)、かつ、「マーカー候補jがタイプ1及び2の識別に有用でない、すなわち、どちらのタイプについても同じ確率でゲインが生じる」と仮定したとき、こうしたゲインが偶然生じる確率は以下の式「数6」で表すことができる。
【数6】

【0054】
また、マーカー候補jについて上記事象(タイプ1がmj1人)及び上記事象よりもタイプ1が多くなる場合(より極端な事象が生じる場合)、すなわち、マーカー候補jについて、タイプ1の個体がmj1、mj1+1、mj1+2、・・・Mjとなる確率pj1は以下の式「数7」で表すことができる。この確率pj1は、本発明における有意確率(マーカー候補のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和)に相当する。
【数7】

【0055】
同様に、Mjが与えられるとき、マーカー候補jについて上記事象(タイプ2がm2人)及び上記事象よりもタイプ2が多くなる場合(より極端な事象が生じる場合)、すなわち、マーカー候補jについてタイプ2の個体がmj2、mj2+1、mj2+2、・・・Mjとなる場合の確率pj2は、以下の式「数8」で表すことができる。この確率pj2は、本発明における有意確率(マーカー候補のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和)に相当する。
【数8】

【0056】
次に、CPUは、マーカー候補jにつき、算出した確率pj1に対して予め設定したβを用いて、pj1<β/2であるかどうかを判定する(ステップS140)。すなわち、CPUは、マーカー候補jにつきタイプ1で増幅の異常が生じることが偶然におきやすいかどうかを判定する。確率pj1<β/2のときには、タイプ1で増幅となることが偶然には起こりにくいと判定する(ステップS150)。すなわち、マーカー候補jは、タイプ1で増幅になりやすい判別用マーカー(増幅マーカー)であると判定する。一方、確率pj1≧β/2のときには、タイプ1で増幅となることが偶然に起こりやすいと判定する(ステップS160)。すなわち、マーカー候補jは、タイプ1についての判別用マーカーではないと判定する。なお、CPUはマーカー候補jを判別用マーカーとして判定したときには、当該マーカー候補jをその特徴に関連付けしてRAM内の所定領域に記憶する。
【0057】
同様に、マーカー候補jにつき、算出した確率pj2に対して予め設定パラメータβに基づいて、pj2<β/2であるかどうかを判定する(ステップS170)。確率pj2<β/2のときには、タイプ2で増幅となることが偶然には起こりにくいと判定する(ステップS180)。すなわち、マーカー候補jは、タイプ2で増幅になりやすい判別用マーカー(増幅マーカー)であると判定する。一方、確率pj2≧β/2のときには、タイプ2で増幅となることが偶然に起こりやすいと判定する(ステップS190)。すなわち、マーカー候補jは、タイプ2についての判別用マーカーではないと判定する。なお、CPUは、以上のようにマーカー候補jを判別用マーカーとして判定したときには、当該マーカー候補jをその特徴に関連付けしてRAM内の所定領域に記憶する。
【0058】
こうして各マーカー候補がいずれかのタイプの判別用マーカーとなりうるかどうかの判定を2099個の全てのマーカー候補について繰り返し行い(ステップS200〜ステップS202及びステップS120〜ステップS200)、最終的に予め設定された一組の(α、β)について、タイプ1及びタイプ2のそれぞれについて特徴的な判別用マーカーセットをN個の症例から取得し、設定する(ステップS210)。なお、以上の具体例では、マーカー候補jについてゲインが見られた場合について説明したが、マーカー候補jについてロスが見られた場合においては、欠失マーカーとして判定できるかどうかを上記と同様の手法で判定することになる。
【0059】
こうして得られるマーカーセットは、タイプ1にゲインがみられやすいマーカーであるM1+マーカー、タイプ1にロスがみられやすいマーカーであるM1−マーカー、タイプ2にゲインがみられやすいでマーカーであるM2+マーカー及びタイプ2にロスがみられやすいマーカーであるM2−マーカーを含むことができる。なお、常にこれらの全ての種類の特徴的マーカーを含むものではない。これらのうち1種〜3種のみの特徴的マーカーによりマーカーセットが構成される場合もある。
【0060】
以上の方法によれば、判別用マーカーが確率の概念を用いて選択されるため、パラメータα、βがハイパーパラメータであっても判別用マーカーの選択について意味づけが可能となる。また、こうした判別用マーカーの選択方法をLOOCV法によるパラメータの設定に適用することでマーカーの選択を容易化することができる。さらに、確率pj1及びpj2は、それぞれが小さいほど偶然には起こりにくいこと、すなわち、タイプ1及びタイプ2のそれぞれに特徴的であることを示しており、これらの確率を判別用マーカーによる判別に反映させるようにすることで判別精度を上げることができる。
【0061】
なお、上記方法によれば、α及びβについて各種の組み合わせ、例えば、αにつき0.001、0.005、0.01、0.05、0.10、βにつき0.001, 0.005、0.01、0.05、0.10として25種の組み合わせについて上記マーカー選択を行うことにより、最大25セットの判別用マーカーセットを得ることができる。一つのマーカーセットは、一組の(α,β)について一つのセットとして得ることができ、(α,β)の組み合わせ数に応じて判別用マーカーセットが得られる。
【0062】
(1−2.タイプ未知の症例のコピー数情報に基づくタイプ判別)
次に、選択した判別用マーカーセットを用いてタイプ未知の個体のコピー数情報に基づいてその疾患や体質等のタイプを判別する処理(図2のステップS30)について説明する。判別処理においては、Weighted Voting Method(Golub TR, Slonim DK, Tamayo P, et al. Molecular classi_cation of cancer:class discovery and class prediction by gene expression monitoring. Science1999;286:531-7)及びCompound Covariate Method(Radmacher MD, Mcshane LM, Simon R. A paradigm for class prediction using gene expression profiles. J Compt Biol 2002;9:505-11)を改変した線形識別関数的手法を用いることができる。当該手法を採用したタイプ判別処理のフローチャートの一例を図6に示す。図6に示すタイプ判別処理では、判別対象の個体のアレイCGHの各マーカーについての反応値の閾値処理が同様に設定されたαによってなされているものとする。
【0063】
この処理では、まず、判別対象とするタイプ未知の全症例数に対応する繰り返し数iを1に設定する(ステップS210)。j個のマーカー候補(マーカー系列)から上記処理で取得した判別用マーカーセットの個々の判別用マーカーにつき、判別対象であるタイプ未知の個体のタイプ1についての得票数v1(i)及びタイプ2についての得票数v2(i)を以下の式「数9」及び式「数10」に基づいて算出する(ステップS220)(ただし、iはタイプ未知の症例の番号である。)。これらの各得票数は、判別対象の個体において得られた判別用マーカーにおいて、当該判別用マーカーの種類に応じたコピー数異常を認めた場合に投票し、当該投票結果に、当該マーカーに固有の影響力(重み付け)を付加した上で集計したものとなっている。
【0064】
【数9】

【数10】

ただし、zij+及びzij-はそれぞれゲイン及びロスの有無を表し1又は0であり、zij+は、i番目の症例のj番目の判別用マーカーがゲインを示している場合には、数値1であり、それ以外の場合には数値0である。同様に、zij−は、i番目の症例のj番目の判別用マーカーが欠失を示している場合には、数値1であり、それ以外の場合には数値0である。なお、pj1及びpj2は、それぞれ式「数7」及び式「数8」に表される有意確率であり、−log pj1及び-logpj2は判別用マーカー固有の影響力を表す。
【0065】
また、M1+は、タイプ1に対してゲインが見られることが起こりやすい(ゲインが有意である)とされた判別用マーカーの添字集合を示しているものとし、M1−は、タイプ1に対してロスが見られることが起こりやすい(ロスが有意である)とされた判別用マーカーの添字集合を示し、M2+は、タイプ2に対してゲインが見られることが起こりやすい(ゲインが有意である)とされた判別用マーカーの添字集合を示し、M2−は、タイプ2に対してロスが見られることが起こりやすい(ロスが有意である)とされた判別用マーカーの添字集合を示す。
【0066】
上記式によれば、投票は、具体的には、あるM1+マーカーについてゲイン(閾値処理後の反応値=1、zij+=1である。)があれば、タイプ1に1票を投じ、それ以外のとき(zij+=0)のとき、タイプ1には投票しない(0票を投票する)。また、あるM1−マーカーにつきロス(閾値処理後の反応値=−1、zij-=1である。)があったときには、タイプ1に1票を投じ、それ以外のとき(zij-=0で)には、タイプ1には投票しない。さらに、M2+マーカーにゲインがあったときには、タイプ2に1票を投じ、そうでないときにはタイプ2には投票せず、M2−マーカーにロスがあったときにはタイプ2に1票を投じ、そうでないときにはタイプ2に投票しないものとする。
【0067】
また、判別用マーカーの固有の影響力として、既に説明したマーカー毎の固有の確率pj1(式「数7」)又はpj2(式「数8」)を利用することができる。これらの確率pj1及びpj2は、それぞれが小さいほど偶然には起こりにくいこと、すなわち、よりタイプ1又はタイプ2に特徴的であることを示している。したがって、pj1及びpj2の逆数のlogである-logpj1及び-logpj2をマーカーの影響力を示す指標とし、マーカー毎の投票結果(数値1又は0)に乗じることでマーカー固有の影響力を得票数に反映させることができる。
【0068】
なお、得票数の算出にあたっては、RAMの所定領域に格納された判別対象の症例のマーカー系列中の各種判別用マーカーについての反応値を順次参照してコピー数異常の有無を判定してzij+又はzij−を取得すると同時に、異常と判定されたときには、そのマーカーの確率pj1及びpj2をRAMの所定領域から取得して、上記式「数9」又は式「数10」に従って判別用マーカー毎に算出するようにすることができる。
【0069】
以上のように、タイプ1の各マーカーについての投票結果を集計するにあたっては、各マーカーの投票結果、実質的にはM1+及びM1−についてはそれぞれ増幅異常及び欠失異常の場合、それぞれの投票結果(数値1)に各マーカーの指標を乗じたものの総和をタイプ1の得票数v1(i)(式「数9」)として定義することができる。また、同様にタイプ2の各マーカーについての投票結果を集計するにあたっては、増幅異常及び欠失異常が検出されたマーカーの投票結果(数値1)にそれぞれのマーカーの指標を乗じたものの総和をタイプ2の得票数v2(i)(式「数10」)として定義することができる。
【0070】
次に、タイプ1及びタイプ2のそれぞれについて算出された得点v1(i)及びv2(i)の大小を判定する(ステップS230)。すなわち、v1(i)>v2(i)のとき、タイプ1と判定し(ステップS240)、v1(i)<v2(i)のときにはタイプ2と判定し(ステップS260)、v1(i)=v2(i)のときには、判定不能とする(ステップS250)。タイプ未知の症例数iだけこの判定処理(ステップS270、ステップS272、ステップS220〜ステップS260)を繰り返して、この処理を終了する。
【0071】
以上説明した判別方法によれば、マーカー毎の投票結果にマーカー固有の影響力を作用させて、得票数に判別用マーカー固有の影響力を反映させることができるため、より精度の高い判別が可能となっている。
【0072】
(1−3.LOOCV法によるパラメータの設定)
次に、LOOCV法によりパラメータ(α、β)を設定する方法について説明する。このパラメータ設定処理は、それぞれ図2のステップS10に替えて実施することができるものである。LOOCV法によるパラメータ設定のフローチャートの一例を図7に示す。なお、以下の説明においては、タイプ既知のN個の症例のマーカー候補についてのコピー数情報が予め取得されているものとする。
【0073】
以下に説明するLOOCV法は、いくつものモデルを作製したときに,どのモデルが最適であったのかを検討する際に使用する解析方法である。すなわち、全サンプルから、1つのサンプルを除き、残りのサンプルでモデルを作製したとき、あらかじめ抜いていたサンプルを正確に予測することができるかを検定する方法である。本発明においては、タイプが既知である複数個体の複数のマーカー候補についての染色体コピー数情報について、複数個体から選択される一つの個体を判別対象とし残余の個体を判別器とするように分けて前記判別対象のタイプを前記判別器で判別する検証を、全ての判別対象について繰り返し行って判別手法自体を検証する。こうした検証を複数種類のパラメータ候補のそれぞれについて実施することにより、どのようなパラメータ候補を用いたときに最も正答率(判別精度)が高くなるかどうかを容易に知ることができる。したがって、こうした染色体コピー数情報に対してLOOCV法を適用して最も良好な判別精度が得られるパラメータを選択することで、最も判別精度の高い判別用マーカーを容易に選択することができる。
【0074】
まず、CPUは、(α、β)の組み合わせ番号lを1に設定する(ステップS280)。ここで、本実施形態では、予め、0.1%(0.001)、0.5%(0.005)、1%(0.01)、5%(0.05)、10%(0.10)の5種類のαと、0.1%(0.001)、0.5%(0.005)、1%(0.01)、5%(0.05)、10%(0.10)の5種類のβとから、それぞれ一つずつ選択されて得られる第1の組み合わせから第25の組み合わせの(α、β)が準備されているものとする。ここで、CPUは、これらのαとβとの組み合わせから第1の組み合わせの(α、β)を設定する(ステップS282)。次に、CPUは、正答スコアN(l)を初期値(0)に設定し(ステップS284)、症例数Nに対応するmの初期値を1に設定する(ステップS286)。
【0075】
次に、CPUは、判別対象iに1番目の症例を設定するとともに、残余の症例である第2番目からN番目までの症例を判別器Iとして設定する(ステップS288)。
【0076】
次いで(ステップS286)、判別器Iに対してステップS282で仮に設定した(α、β)を用いて、判別用マーカー選択処理を実行する(ステップS290)。判別用マーカー選択処理は、例えば、図5に示すフローチャートのステップS110〜S210に準じて行うことができる。こうして判別器Iについて判別用マーカーセットが選択される。
【0077】
CPUは、選択された判別用マーカーセットを用いて判別対象iに対して検証処理を実行する(ステップS292)。すなわち、判別対象iのタイプ判別を実施する。この検証処理は、図6に示すフローチャートのステップS220〜S260に準じて行うことができる。こうして、判別対象iについてタイプが判定される。
【0078】
そして、CPUは、上記検証処理において得られた判別対照iのタイプ判別結果が正しいかどうか判定する。すなわち、判別結果の当否情報を取得する。判別結果が正しいときには、正答スコアN(l)に数値1を加算し、判別結果が誤っているときには、正答スコアN(l)に何も加算せず、判別不能(v1(i)=v2(i))のとき数値0.5を加算する(ステップS294)。なお、判別結果が正しいかどうかは、判別対象iについて判別されたタイプと既知のタイプとが一致するかどうかを判定することにより行う。この際、判別対象iの既知タイプについては、例えば、予めRAMの所定領域に読み込んでおき、CPUが判定の際にRAMの当該所定領域から当該既知タイプを取得するようにすればよい。
【0079】
この検証のためのループ(ステップS288〜ステップS294)を、症例数(N)だけ実行したら(ステップS296及びステップS297)、次の組み合わせの(α、β)について、同様のループを実行して(ステップS288〜ステップS294)、準備された(α、β)の全ての組み合わせ数だけ実行する(ステップS298、ステップS299)。(α、β)の全ての組み合わせについて検証ループを実行することで、同数の正答スコアN(l)(l=1〜25)を得ることができる。次いで、CPUは、これらの正答スコアN(l)のうち最も高い正答スコアを有する(α、β)を最適(α、β)として設定する(ステップS300)。
【0080】
以上のパラメータ選択処理(ステップS280〜ステップS300)では、一つの(α,β)を判別器となる残余の症例に適用して、一組の判別用マーカーを選択し、この判別用マーカーにより判別対象となる一つの症例に適用して当該一つの症例のタイプを判別する検証をN個の判別対象と判別器に適用している。N個の判別対象について判別した個々のタイプがそれぞれ既知のタイプに一致するときには、正答スコアに数値1を加算し、判別結果が誤っているときには、正答スコアN(l)に何も加算せず、判別不能(v1(i)=v2(i))のとき数値0.5を加算することで、一つの(α,β)についてN個の検証結果の正答性を数値化(正答スコア:当否情報)する。すなわち、検証結果として、25組の(α,β)のそれぞれを用いたときのN個の判別対象についての正答スコアNを得ることができる。そして、当該正答スコアNが最大となる(α,β)が最も高い正答性(判別精度)が得られるパラメータとして選択される。
【0081】
こうして最適(α,β)を設定したら、この最適(α、β)をN個の症例に適用して、最適な判別用マーカーを選択する処理を実行して、判別用マーカーを選択することができる。この最適な判別用マーカーの選択処理は、例えば、図5に示すマーカー選択処理に準じて実行することができる。このようにして判別用マーカーを選択したら、既に説明したように、この判別用マーカーをタイプ未知の個体の染色体コピー数情報に適用することで、当該タイプ未知の個体のタイプを判別することができる。
【0082】
このようにLOOCV法を利用してパラメータを設定し、このパラメータを利用して判別用マーカーを選択することで、恣意性を抑制若しくは排除して客観性の高いパラメータに基づいてマーカーを選択することができる。さらに、後述するように、LOOCV法による検証を染色体コピー数情報に適用することで、この判別方法の判別精度を得ることができる。このため判別精度に裏付けされた判別用マーカーセットを得ることができる。さらに、こうして選択されたマーカーセットをタイプ未知の症例の染色体コピー数情報に適用することで、客観性が高いタイプ判別が可能となる。
【0083】
(1−4.再帰解析(Recursive Analysis)的手法によるマーカーの選択)
本発明においては、上記した判別用マーカー選択方法に替えて、CGHアレイに固定化されたマーカー候補に対して再帰解析的手法(以下、単にリカーシブ法という。)を適用して判別用マーカーを選択することもできる。この手法は、アレイCGHによって得られるコピー数情報においては、連続してゲインやロスの存在する領域が多く観察されるという知見に基づくものである。リカーシブ法は、マーカー候補において、連続したゲインやロスなどが存在する場合、その連続領域において最も確率の低いマーカー候補を判別用マーカーとして選択することで、当該判別用マーカーにより当該判別用マーカーに連続する他のマーカー候補が「説明可能(explained)」であるとみなして削除することを特徴としている。こうしたリカーシブ法によれば、連続するマーカー候補を全て判別用マーカーとして選択してしまうことがなくなり、適切に判別に用いるマーカー数を選択することができる。
【0084】
なお、リカーシブ法は、予め設定した(α,β)について判別用マーカーを選択するのに用いることができるほか、上記1.3に記載されるパラメータの設定に際して、LOOCV法におけるループで、判別器から判別用マーカーを選択するのにも用いることができる。
【0085】
リカーシブ法では、判別用マーカーの選択に際し、以下の(a)〜(c)を繰り返し実行することにより、判別用マーカーを選択することができる。すなわち、(a)コピー数異常情報に基づいてマーカー候補についてのコピー数異常の生起確率と当該コピー数異常よりも極端な方向における生起確率の和である有意確率の最小値を取得するとともに当該最小値を採るマーカー候補の識別情報を取得し、(b)前記有意確率の最小値に基づいて統計的有意性が肯定的に判定されるとき、前記最小値を採る前記マーカー候補を判別用マーカーとして選択し、(c)選択された判別用マーカーが増幅異常マーカーであるとき、複数個体において前記判別用マーカーの前後で連続して増幅異常を示すマーカー候補を増幅異常を有しないものとして取り扱い、選択された判別用マーカーが欠失異常マーカーであるとき、複数個体において判別用マーカーの前後で連続して欠失異常を示すマーカー候補を欠失異常を有しないものとして取り扱うこととする。こうした(a)〜(c)を繰り返すことで、順次独立して有意確率が高い判別用マーカーが選択されることになる。
【0086】
このリカーシブ法を用いた判別用マーカーの選択処理のフローチャートの一例を図8に示す。この選択処理においては、タイプ1及びタイプ2についての判別が既知のN個の症例のアレイCGHによるコピー数情報が準備されており、マーカーの選択対象となるマーカー候補の個数jは2099個であるものとする。また、N個の症例群において、タイプ1の個体がn1人、タイプ2の個体がn2人存在し(N=n1+n2人)、あるマーカー候補jにつきMj人の個体にゲイン又はロスの異常がみられ、そのうちタイプ1の個体がmj1人、タイプ2の個体がmj2人いたとする。
【0087】
まず、CPUは、パラメータ(α,β)を取得する(ステップS510)。これらのパラメータは、既に説明したように任意に設定されたものであってもよいし、LOOCV法によって設定されたものであってもよい。次に、CPUは、パラメータαを用いて複数個体の複数のマーカー候補のコピー数情報についてコピー数異常の有無を判定する処理を実行する(ステップS520)。すなわち、i番目の症例の全てのマーカー候補について、マーカー候補jの反応値がパラメータαに基づいて増幅異常があると判定したときには、zij+に数値1を付与し、そうでない場合には数値0を付与する。また、マーカー候補jの反応値がパラメータαに基づいて欠失異常があると判定したときには、そのパラメータ候補jのzij−に数値1を付与し、そうでない場合には数値0を付与する。マーカー候補の反応値に対してパラメータαを利用して直接にzij+及びzij-を付与する、こうしたコピー数異常判定処理は、既に説明した閾値処理とタイプ判別処理における得票数の算出処理の一部とを一括して実行するものであるが、閾値処理と当該閾値処理の結果に基づいてzij+及びzij-を付与するようにしてもよい。
【0088】
次に、CPUは、全てのマーカー候補について、有意確率pj1及びpj2を算出する(ステップS530)。これらは、式「数9」及び式「数10」に基づいて算出することができる。そして、CPUは、これらの有意確率のうち最も小さい有意確率pj minを取得するとともに、当該有意確率を示したマーカー候補の識別情報(全てのマーカー候補からなるマーカー系列において何番目のマーカー候補にあたるか)を取得する(ステップS540)。そして、この最も小さい有意確率pj minとなる事象の統計的有意性をパラメータβを用いて判定する(ステップS550)。すなわち、pj min<β/2であるとき、対応するマーカー候補を判別用マーカーとして選択する(ステップS560)。
【0089】
さらに、CPUは、選択した判別用マーカーが増幅異常マーカーであるときには、全ての個体について、判別用マーカーとして選択したマーカー候補の前後で判別用マーカーに連続して増幅異常(zij+=1)を示す全てのマーカー候補を、増幅異常を有しないものとして取り扱う(ステップS570)。すなわち、これらのマーカー候補のzij+に数値0を付与する。また、選択された判別用マーカーが欠失異常マーカーであるとき、全ての個体において判別用マーカーの前後で判別用マーカーに連続して欠失異常を示す(zij-=1)マーカー候補の全てを欠失異常を有しないものとして取り扱う。すなわち、これらのマーカー候補にzij-に数値0を付与することとする。こうすることで、選択された判別用マーカーに連続して同様のコピー数異常を有するマーカー候補は排除される。そして、CPUは、pj minとして選択されたマーカー候補を選択対象たるマーカー候補から削除して、ステップS540に戻る(ステップS580)。
【0090】
こうして、新たにpj1及びpj2について計算し、順次最も小さい有意確率pj minとなる事象の統計的有意性を判定し、判別用マーカーとするかどうかを決定するとともに、判別用マーカーとして選択したときには連続する同様のコピー数異常態様のマーカー候補を排除することを繰り返し行って、判別用マーカーを選択する(ステップS540〜ステップS580)。
【0091】
一方、ステップS550において、有意確率pj min≧β/2であるとき、対応するマーカー候補は判別用マーカーとはせずに、この処理を終了する(ステップS590)。こうして最終的に0個又は2個以上の判別用マーカーを得ることができる。
【0092】
このようにして判別用マーカーを選択したら、既に説明したように、この判別用マーカーをタイプ未知の個体の染色体コピー数情報に適用することで、当該タイプ未知の個体のタイプを判別することができる。
【0093】
以上説明したようにリカーシブ法によれば、順次小さい有意確率pj minのマーカー候補から判別用マーカーを選択し、さらに、この判別用マーカーに連続するマーカー候補に同様のコピー数異常があるときには、これらの連続するマーカー候補は判別用マーカーとして選択されないようになっている。このため、異常な判別用マーカーに隣接して本来異常ではないのにコピー数異常があるマーカー候補が判別用マーカーとして選択されてしまうことが回避され、適切に判別用マーカーを選択できるとともに、効果的に判別用マーカー数を削減することができる。判別用マーカーを削減することで、判別用マーカーを固相担体に固定化した判別装置の装置コストや判別操作コストを低減することができるようになる。
【0094】
また、以上の説明では、判別用マーカーの選択に関して、マーカー候補から判別用マーカーを選択するためのパラメータ(α,β)を設定する手法として、ユーザが任意に設定する場合とLeave-one-out cross-validationによる場合とについて具体例を挙げて説明した。また、こうして設定したパラメータ(α,β)により判別用パラメータを選択する方法として、タイプ既知の個体の一つのマーカー候補についてのコピー数異常の統計的有意性の有無に基づく選択法、コピー数異常の統計的有意性レベルの高い順に選択するとともに、連続するマーカー候補を排除しつつ判別用マーカーを選択する選択法について具体例を挙げて説明した。さらに、選択された判別用マーカーを用いたタイプ未知の個体の判別方法として、特に判別用マーカー固有の影響力を有意確率の-logとして判別に反映させる判別手法について具体例を挙げて説明した。
【0095】
しかしながら、本発明のパラメータの設定、判別用マーカーの選択、タイプ判別は、上記具体例に限定されるものではなく、これらの各手法は適宜組み合わせて実施することができる。例えば、パラメータ(α,β)をハイパーパラメータとして設定したのち、リカーシブ法で判別用マーカーを設定してもよいし、パラメータ(α,β)をリカーシブ法を用いたLOOCV法で設定した上、リカーシブ法で判別用パラメータを選択してもよい。
【0096】
また、上記説明では、いずれもタイプ1とタイプ2の判別について説明したが、本発明では3種類以上のタイプを判別することができる。すなわち、N個の個体において、タイプ1、タイプ2、タイプ3、・・・タイプCにつき、それぞれ個体数(症例数など)n1、n2、n3、・・・nc人存在し、あるマーカー候補jについてタイプ1がmj1人、タイプ2がmj2人、タイプ3がmj3人、・・・タイプcがmjc人がコピー数異常を示したとする(mj1+mj2+mj3+・・・+mjc=Mj)。ここで、マーカー候補jについて、「マーカー候補jがタイプ1と他のタイプの識別に有用でない、すなわち、タイプ1と他のタイプについて同じ確率で増幅異常が生じる」と仮定したとき、こうした増幅異常が偶然生じる確率は以下の式「数11」で表すことができる。
【数11】

【0097】
また、マーカー候補jについて上記事象(タイプ1がmj1人)及び上記事象よりもタイプ1がmj1より多くなる場合(より極端な事象が生じる場合)、すなわち、マーカー候補jについて、タイプ1の個体がmj1、mj1+1、mj1+2、・・・Mjとなる確率pj1は以下の式「数12」で表すことができる。
【数12】

【0098】
同様にして、pj2、pj3・・・及びpjcを求めることができる。このように、3種類以上のタイプを判別する場合であっても、一つのタイプとその他のタイプとの判別とみなすことで、既に説明した2種類のタイプを判別する際のアルゴリズムを適用することができ、これをタイプ毎に適用すれば、3種類以上のタイプのためのパラメータの選択、判別用マーカーの設定及び判別を実施することができる。判別にあたっては、以下の式「数13」で表される一つのタイプについての得票数Vxが、残余の各タイプについての同式に表されるVxのいずれよりも大きいとき、判別対象が前記一つのタイプであると判定することができる。なお、判別しようとするタイプがC種類以上のとき(Cは2以上の整数)、判別処理中、正答スコアを求めるステップにおいて、判別不能とされたときには、数値1/Cを正答スコアに加算するものとする。すなわち、上記説明においては、判別しようとするタイプが2種類(C=2)であったため、判別不能時には、正答スコアに数値0.5を加算したが、判別しようとするタイプが3種類(C=3)のときには、判別不能時には、数値0.33を加算するようにする。
【数13】

【0099】
また、Leave-one-out cross-validationを用いてパラメータを設定するのに際して、必ずしもα及びβについてそれぞれ5種類を準備し、合計25種類のパラメータ(α,β)についてLeave-one-out cross-validationを実施する必要はなく、適宜パラメータ候補数を削減することもできる。
【0100】
また、以上の説明では、選択した判別用マーカーをそのまま利用したが、選択した判別用マーカーは必ずしも全て利用しなくてもよい。必要な判別精度が得られる程度に選択した判別用マーカーを削減してもよい。一旦選択した判別用マーカーを削減するには、例えば、判別用マーカー固有の有意確率が低いものを選択することができる。また、リカーシブ法を用いることで効果的に判別用マーカー数を削減できる。あるいは、パラメータβに小さい数値を設定するようにした上で判別用マーカーを設定するなどすることができる。
【0101】
なお、意図した判別精度が得られる範囲で判別用マーカー数を選択又は削減することができるが、好ましくは200個以下であり、より好ましくは150個以下であり、さらに好ましくは100個以下程度である。なお、判別精度は、疾患の種類によっても異なるが、好ましくは、80%以上であり、より好ましくは90%以上である。なお、判別用マーカー数は、後述する検証によって良好な判別精度が得られる範囲であればよいが、好ましくは20個以上であり、より好ましくは50個以上である。
【0102】
なお、以上のタイプの判別方法の説明においては、マーカー選択とタイプ判別とは一連の処理であるかのごとく説明したが、マーカー選択はタイプ判別とは別個に予め実施しておくこともできる。したがって、マーカー選択方法としてのみ実施することもできる。また、予め準備されたマーカー又はマーカーセットを用いる判別方法として実施することもできる。タイプ既知の複数個の症例等の染色体コピー数情報に基づいてマーカーを選択しておくことが好ましい。
【0103】
以上、タイプの判別方法として本発明の一実施形態について説明したが、タイプの判別方法において説明したパラメータの設定、各種手法によるマーカーの選択及びこれらを組み合わせた判別方法は、いずれもパラメータの設定方法及び当該設定方法を実行するプログラム、マーカーの選択方法及び当該選択方法を実行するプログラム並びに判別方法及び判別方法を実行するプログラムの形態で実施することができる。さらに、本発明は、これら各種方法を実行するプログラムの記憶媒体のほか、こうしたプログラムが実行可能に格納された染色体コピー数情報の解析装置、該解析装置を備えるアレイCGHスキャナ装置の形態として実施することもできる。
【0104】
(2.マーカー及びマーカーセット)
本発明の判別用マーカーは、上記したいずれかのマーカー選択方法のいずれかによって選択される判別用マーカーであり、本発明のマーカーセットは、こうした判別用マーカーを1種又は2種以上、好ましくは2種以上含んでいる。こうしたマーカー及びマーカーセットを選択するのに好ましいタイプ既知の個体数やマーカーセットを構成する好ましいマーカー数は、「1.タイプ判別方法」において説明したのと同様の態様を適用することができる。また、マーカー又はマーカーセットを選択するのに2種類以上のマーカー選択方法を組み合わせる場合に好ましい選択方法の組み合わせについても。「1.タイプ判別方法」において説明したのと同様の態様を適用することができる。
【0105】
本発明のマーカーセットは、具体的には、マーカーとなるべき染色体領域を保持するBAC、PAC等の人工染色体やベクターのクローン、及びこうした核酸構築物からDOP-PCR等によって断片化されたDNA断片などの核酸断片とすることができる。また、マーカーの遺伝子が特定されている場合には、当該遺伝子のcDNA又はその一部の形態を採ることもできる。
【0106】
本発明のマーカー及びマーカーセットとしては、表1〜表4に列挙したマーカー群から選択される1種又は2種以上を用いることができる。こうしたマーカーとしては、表1〜4に記載されるクローン、これらの各クローンに由来するDNA断片又はcDNA等とすることができる。表1A〜表1Eに列挙するマーカー群は、後述する実施例において、75症例のDLBCL及びBCL(46例のDLBCL及び29症例のBCL)のアレイCGHから得られたコピー数情報に対して上記LOOCV法を適用して実施例でいうところの標準法(表1及び2おいてAとして付記)により取得したDLBCL判別用マーカー(ゲイン及びロス)とBCL判別用マーカー(ゲイン及びロス)である。また、表2A〜表2Dには、実施例においてLOOCV法を適用してリカーシブ法(表2においてBとして付記)により取得したDLBCL判別用マーカー(ゲイン及びロス)とBCL判別用マーカー(ゲイン及びロス)を示す。さらに、表3A〜表3Dには、実施例において、LOOCV法を適用して標準法(A)により取得したABC判別用(ゲイン及びロス)及びGCB判別用マーカー(ゲイン及びロス)を示し、表4A〜表4Dには、実施例において、LOOCV法を適用してリカーシブ法(B)により取得したABC判別用(ゲイン及びロス)及びGCB判別用マーカー(ゲイン及びロス)を示す。これらの各表に列挙されるマーカーは、それぞれのマーカー選択方法により各タイプにおいて増幅異常であることが有意であることが確認されたマーカーであるため、これらの全てをそれぞれ判別用マーカーとして使用できる。なお、後述する実施例における検証結果からすると、非ホジキンリンパ腫のB細胞リンパ腫の種類の判別のためには、少なくとも50個、好ましくは100個以上の判別用マーカーを用いることが好ましい。また、DLBCLにおける予後のタイプを判別するには、少なくとも20個、好ましくは50個以上の判別用マーカーを用いることが好ましい。なお、判別しようとするタイプのそれぞれに判別用マーカーを用いることが好ましい。なお、表1〜表4において、「ND」は「Not Determined」を意味する。
【0107】
【表1A】

【表1B】

【表1C】

【表1D】

【表1E】

【表2A】

【表2B】

【表2C】

【表2D】

【表3A】

【表3B】

【表3C】

【表3D】

【表4A】

【表4B】

【表4C】

【表4D】

【0108】
表1〜4に示す判別用マーカー群において、判別に好ましいマーカーとしては、表1においてnegative logを基準に選択することができる。例えば、Negative logが7より大きい場合には、有意確率が10-7未満であることを示している。したがって、Negative log値の数値を基準にして所定数値以上のNegative log値を有する判別用マーカーを選択してもよい。Negative Log値は好ましくは3より大きく、より好ましくは4より大きく、さらに好ましくは5より大きく、一層好ましくは6より大きい。また、各表の判別用マーカーについて、上位群から適数個を選択するようにしてもよい。また、標準法による判別用マーカーとリカーシブ法による判別用マーカーとを組み合わせて、リカーシブ法による判別用マーカーの全部又はNegative log上位群の適数個の判別用マーカー若しくは所定のNegative log値以上の判別用マーカーに加えて、リカーシブ法による判別用マーカーと重複しない判別用マーカーを標準法に基づく判別用マーカーをNegative logの高値群から選択するようにしてもよい。
【0109】
なお、表1〜4に列挙するマーカー(クローン)に関する情報(塩基長、マーカーに含まれる遺伝子及びマーカーの細胞遺伝学的位置)は、本件出願の出願日において英国Sanger Center のウェブサイト(http://www.sanger.ac.uk/)において公開されているデータベースを基本とし、補足的に米国National Center of Biotechnology Information(NCBI)のウェブサイト(http://www.ncbi.nlm.nih.gov/)において公開されている データベースを用いて特定し、記載してある。
【0110】
(3.判別装置)
本発明の判別装置は、本発明のマーカー又はマーカーセットが固定化された固相担体とすることができる。こうした判別装置によれば、効率的に判別対象個体ついて各種のタイプを判別することができるとともに、判別に要する作業やコストも低減することができる。判別装置に用いる固相担体は、既に、CGHアレイに関して説明したのと同様の態様を適用することができる。好ましくは、基板上にマトリックス状にマーカーが固定化されたものである。例えば、基板状の固相担体には、2種以上のマーカーセットが固定化されていてもよい。こうした判別装置によれば、同一基板上において2種類以上の判別(一つのタイプ判別は少なくとも2種類のタイプを判別することを意味する。)が可能とすることができる。また、2種以上のマーカーセットにおいて、一部のマーカーが同一である場合には、一方のマーカーセット中の当該同一マーカーを他方のマーカーセットのマーカーとして兼用してもよい。
【0111】
例えば、こうした判別装置としては、表1及び表2に示すようなDLBCLとMCLとの判別に有効なマーカーセットの全部又は一部が固定化されたものが挙げられる。さらに、この判別装置において、さらに、表3及び表4に示すようなDLBCLのサブタイプであるABCとGCBとを判別するのに有効なマーカーセットの全部又は一部が同一の固相担体上に固定化されたものも挙げられる。また、表3及び表4に示すようなABCとGCBとの判別に有効なマーカーセットの全部又は一部が固相担体に固定化されたものが挙げられる。判別装置の固相担体に固定化される判別用マーカーの種類及び個数は、「2.マーカー及びマーカーセット」において好ましいとして説明した態様をそのまま適用することができる。また、固相担体については、CGHアレイにおいて説明した態様をそのまま適用することができる。
【0112】
こうした判別装置は、生物体の各種のタイプの判別装置であるが、判別しようとするタイプの内容により特定用途に特化させることができる。例えば、本発明の判別装置は、判別しようとするタイプがヒト及び非ヒト哺乳動物の疾患や予後である場合には、疾患の診断装置や予後の予測装置であり、当該タイプがヒト及び非ヒト哺乳動物の体質や薬剤感受性(薬剤耐性)である場合には、体質の診断装置及び薬剤感受性の診断装置となる。また、例えば、生物体が動物体や植物体等であり、判別タイプがこれらの種属や遺伝子型である場合には、種属等あるいは遺伝子型の分類装置となる。
【0113】
(4.LOOCV法による判別方法の検証方法)
本発明の検証方法は、タイプが既知である複数個体の複数の判別用マーカー候補についての染色体コピー数に関する染色体コピー数情報に係る複数個体から選択される一つの個体を判別対象とし残余の個体を判別器とするLeave-one-out cross-validationによる外部ループと、当該残余の個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationによる内部ループとを用いることが好ましい。本発明の検証方法では、内部ループで最適なパラメータ(α,β)を取得した上で、これらのパラメータを外部ループの判別器に適用して外部ループの判別対象に適用すべき判別用パラメータを選択し、選択した判別用パラメータを外部ループの判別対象に適用してタイプを判別し、既知のタイプと検証し、判別したタイプと既知のタイプとが一致しているかどうかの情報(外部ループ当否情報)を取得する。こうした検証を外部ループの全てに実施して全ての個体についてのタイプ検証結果を得ることで、一つのモデルとしての染色体コピー数情報によるタイプの判別方法を検証することができるとともにタイプ検証結果に基づいて判別精度を得ることができる。
【0114】
LOOCV法による検証処理のフローチャートの一例を図9に示す。なお、以下の説明においては、タイプ既知のN個の症例のコピー数情報が予め取得されているものとする。
【0115】
本実施例におけるLOOCV法は、二重のループを含むことができる。すなわち、全症例を判別対象である一つの症例(1)と判別器である残余の症例(N−1)とに分け外部ループを構築し、この残余の症例をさらに判別対象である一つの症例(1)と判別器である残余の症例(N−2)とに分けて内部ループを構築することができる。ここで、内部ループでは、25組の(α、β)から最適な(α、β)を選択し、外部ループでは、選択された最適な(α、β)を外部ループの判別器に適用して検証のための判別用マーカーを選択し、当該選択した判別用マーカーにより、外部ループの前記一つの症例のタイプを判別することを行う。
【0116】
まず、CPUは、全症例数に対応する繰り返し数kを1に設定するとともに総スコアNTを0に設定する(ステップS310)。なお、総スコアNTは、本発明における外部ループ当否情報に相当する。また、CPUは、外部ループで判別対象iouterに1番目の症例を設定するとともに、残余の症例である第2番目からN番目までの症例を外部ループの判別器Iouterとして設定する(ステップS320)。次に、CPUは、(α、β)の組み合わせ番号lを1に設定する(ステップS330)。ここで、本実施形態では、αとして予め、0.1%(0.001)、0.5%(0.005)、1%(0.01)、5%(0.05)、10%(0.10)の5種類を準備し、βとして予め、0.001, 0.005、0.01、0.05、0.10の5種類を準備しておき、第1の組み合わせから第25の組み合わせの(α、β)が準備されているものとする。ここで、CPUは、これらのαとβとの組み合わせから第1の組み合わせの(α、β)を設定する(ステップS340)。
【0117】
次いで、CPUは内部ループ回数mに1を設定し(ステップS350)、正答スコアN(l)を初期値(0)に設定する(ステップS360)。そして、CPUは、内部ループにおける判別対象iinnerを判別器Iouterの第1番目に設定するとともに、判別器Iouter中、当該判別対象症例以外の症例を判別器Iinnerに設定する(ステップS370)。
【0118】
次に、内部ループの判別器Iinnerに対してステップS340で仮に設定した(α、β)を用いて、判別用マーカー選択処理を実行する(ステップS380)。なお、正答スコアN(l)は、本発明における内部ループ当否情報に相当する。判別用マーカー選択処理は、図5に示すフローチャートのステップS110〜S210に準じて行うことができる。ただし、図5に示すフローチャートではN個の症例群を対象にしてマーカーを選択するのに対して、この判別用マーカー選択処理では、判別器Iinnerの(N−2)個の症例に対してマーカーを選択する点が異なる。こうして判別器Iinnerについて、特徴的な判別用マーカーセットが選択される。
【0119】
CPUは、選択された判別用マーカーセットを用いて内部ループの判別対象症例iinnerに対して検証処理を実行する(ステップS390)。すなわち、判別対象症例iinnerのタイプ判別を実施する。この検証処理は、図6に示すフローチャートのステップS220〜S260に準じて行うことができる。ただし、この検証処理では、図6に示すフローチャートでは判別対象のタイプ未知の個体のj個のマーカー系列(1〜2099)につき、タイプ1についての得票数v1(i)(式「数9」))及びタイプ2についての得票数v2(i)(式「数10」)を算出し(ステップS220)、その得票数の大小の判定する(ステップS230〜ステップS260)のに替えて、iinnerのj個のマーカー系列についてタイプ1及びタイプ2のそれぞれの得票数を算出して、これらの大小を判定するように実行する点が異なる。
【0120】
そして、CPUは、上記検証処理において得られたiinnerのタイプ判別結果が正しいかどうかを判定し、正しいときには、正答スコアN(l)に数値1を加算し、判別結果が誤っているときには、正答スコアN(l)に何も加算せず、判別不能(v1(i)=v2(i))のとき数値0.5を加算し、これを記憶する(ステップS400)。そして、この内部ループ(ステップS370〜ステップS400)を、内部ループを構成する症例の数(N−1)だけ実行したら(ステップS410及びステップS412)、次の組み合わせの(α、β)について、同様の内部ループを実行して(ステップS340〜ステップS410)、準備された(α、β)の全ての組み合わせ数だけ実行したら(ステップS420、ステップS422)、内部ループを終了する。(α、β)の全ての組み合わせについて内部ループを(N−1)回実行することで、同数の正答スコアN(l)(l=1〜25)を得ることができる。
【0121】
次いで、CPUは、これらの正答スコアN(l)のうち最も高いスコアを有する(α、β)を最適(α、β)として設定する(ステップS430)。そして、CPUは、この最適(α、β)を外部ループの判別器Iouterに適用して、最適な判別用マーカーを選択する処理を実行する(ステップS440)。この最適な判別用マーカーの選択処理は、図5に示すマーカー選択処理に準じて実行することができる。すなわち、最適(α,β)を用いて判別器Iouterの症例数N−1個について図5に示すステップS110〜ステップS210を実行するようにすればよい。
【0122】
次に、CPUは、こうして選択されたマーカーセットを用いて外部ループの判別対象症例iinnerについて検証処理を実行する(ステップS450)。この検証処理は、判別対象症例がタイプ1かタイプ2のいずれかのタイプであることをステップS440で設定した最適な判別用マーカーを用いて判別するものであり、図6に示す判別処理に準じて行うことができる。すなわち、そして、CPUは、この検証処理において外部ループの判別対象症例iinnerが正しく判定されたときには、総スコアNTに数値1を加算し、判別結果が誤っているときには、総スコアNTに何も加算せず、判別不能(v1(i)=v2(i))のとき数値0.5を加算する(ステップS460)。さらに、こうした一連の処理をタイプ既知の症例数Nだけ繰り返して(ステップS370〜ステップS470)、最終的に得られた総スコアNTをNで除することで判別精度を得て(ステップS480)、この処理を終了する。
【0123】
この処理によれば、N個の個々の症例についてそれぞれ最適(α、β)が設定されるとともに、特徴的な判別用マーカーセットが選択され、この判別用マーカーセットに基づく個々の症例の判別結果が得られる。同時に、これらの判別結果を集計した正答スコアNを得ることができる。正答スコアNを症例数Nで除することにより、タイプ既知のN個の症例についての判別精度を取得することができる。
【0124】
以上の処理によれば、タイプ既知の複数個体の染色体コピー数情報に基づく判別モデルの判別精度を取得することができるため、こうした判別モデルの有効性を知ることができる。
【0125】
なお、LOOCV法による検証方法は、上記したマーカー候補についてのコピー数異常の統計的有意性の有無に基づくパラメータの設定及び判別用マーカーの選択(標準法)を採用した判別モデルについて適用したが、これに限定するものではなく、統計的有意性レベルに基づくパラメータの設定及び判別用マーカーの選択(リカーシブ法)を採用した判別モデルについて適用することもできる。また、上記説明では、2種類のタイプについての判別モデルについてLOOCV法を適用して検証したが、既に述べたように判別モデルを3種類以上のタイプの判別についても構築できるため、本発明の検証方法も同様に3種類以上のタイプの判別モデルについて適用することができる。また、本発明によれば、こうした検証方法における処理に係る1又は2以上のステップを実行する検証プログラムも提供される。
【0126】
(5.診断方法等)
本発明によれば、マーカー又はマーカーセットを用いる疾患、予後、体質及び薬剤感受性等のヒト及び非ヒト哺乳動物のタイプの診断方法が提供される。また、マーカー又はマーカーセットが固定化された固相担体である判別装置を用いる、疾患、予後、体質及び薬剤感受性等のヒト及び非ヒト哺乳動物のタイプの診断方法も提供される。さらに、こうした判別装置を用いて得られるコピー数情報を利用して、疾患、予後、体質及び薬剤感受性等のタイプを診断する診断方法、当該診断方法における処理に係る1又は以上のステップを実行する診断プログラムも提供される。こうした診断方法においては、得られたコピー数情報を、「1.判別方法」において説明したように判別処理を実施することで判別結果を得ることができる。
【実施例1】
【0127】
(CGHアレイ)
(アレイCGH)
ACCアレイスライドバージョン4.0のスライドガラスを用いた以前に報告された方法により、CGHアレイを作製し、46例のDLBCL症例(28例のABC症例と18例のGCB症例)及び29例のMCL症例についてアレイCGH解析を実施した。
【0128】
(CGHアレイの作製)
CGHアレイは2304種のBAC(細菌人工染色体)とPAC(P-1由来人工染色体)のクローン(BAC/PACクローン)から成り、全ヒトゲノムを平均で約1.3Mb(メガベース)の解像度でカバーしたものとした。BACクローンはRP11及びRP13ライブラリから入手し、PACクローンはRP1、RP3、RP4、及びRP5ライブラリから入手した。10ngのBAC/PAC DNAをテンプレートに用いて縮重オリゴヌクレオチド(5’-CCGACTCGAGNNNNNNATGTGG-3’、Nは、A,T,CおよびGのいずれかである。)をプライマーとして用いたPCR(oligonucleotide primed PCR)(Hakan, T. et al., Genomics, 13:718-725, 1992)を行った。増幅は、TaKaRa PCR thermal Cycler MP(Takara、Tokyo、Japan)とExTaqポリメラーゼ(TaKaRa)を用いた。得られたPCR産物をエタノール沈殿により濃縮し、蒸留水で溶解し、続いて等量のDNAスポッティング溶液DSP0050(MATSUNAMI, Osaka, Japan)を添加し(〜1μg/μl)、インクジェット技術(NGK, Nagoya, Japan)によりロボットでCodeLinkTM活性スライド(Amersham Biosciences, Piscataway, NJ)上にデュプリケートでスポットした。なお、使用したBAC/PACクローンはNIBC(http://www.ncbi.nlm.nih.gov/)及びEnsembl Genome Data Resources(http://www.ensembl.org/)からの情報に基づいて選択した。これらのクローンは小児病院(Children's Hospital)(Oakland Research Institute, Oakland, CA: http://bacpac.chori.org/)のBACPACリリースセンターから入手した。
【0129】
このCGHアレイに対して、既に診断が確定した46例のDLBCL症例(28例のABCタイプと18例のGCBタイプ)の患者及び29例のMCL症例の患者から血液を採取して調製したハイブリダイズ用DNA溶液を、作製したCGHアレイに適用してアレイCGHを行った。また、12例の健常者についても同様にハイブリダイズ用DNA溶液を調製してアレイCGHを行った。なお、これらのアレイCGHに際しては、いずれも、参照用の健常者のアレイCGHも同時に行った。
【0130】
なお、症例からのDNA溶液の調製、標識及びハイブリダイゼーションは以前の報告に従って実施した(Ota A, Tagawa H, Karnan S, et al. Identification and characterization of a novel gene, C13orf25, as a target for 13q31-q32 amplification in malignant lymphoma, Cancer Res. 2004; 64: 3087-3095、Tagawa H, Tsuzuki S, Suzuki R, et al. Genome-wide array-based comparative genomic hybridization of diffuse large B-cell lymphoma: comparison between CD5-Positive and CD5-negative cases. Cancer Res. 2004; 64: 5948-5955)。すなわち、検体DNAおよび対照(参照健常者)DNA(各1μg)をDpnIIで消化し、Bio prime DNA Labeling system(Invitrogen Life Technologies, Inc, Tokyo, Japan)により、Cy3-dUTP及びCy5-dUTP(Amersham Pharmacia Biotech, Piscataway, NJ) を用いて標識した。標識化された1μgの検体DNAおよび対照DNAを、50〜100μgのCot-1 DNA(Life Technologies, Inc., Gaithersburg, MD)と混合し沈殿させて、45μlのハイブリダイゼーション溶液(50vol%ホルムアミド、10%硫酸デキストラン、2x SCC、4%SDS及び10μg/μl tRNA)に再懸濁させた。
【0131】
このハイブリダイズ用DNA溶液を、73℃で5分間加熱してDNAを変性させ、続いて37℃で45分間インキュベートして反復配列のブロッキングがなされるようにした。DNAをスポットしたスライドは、70%ホルムアミド/2xSSCを含む溶液中で73℃で4分間にわたり変性させ、続いて5分づつ、70%、85%、100%冷エタノール中で脱水して風乾させた。緩やかに振動するテーブル上で、湿度調節のために200μlの50%ホルムアミドと2xSSCを含む容器中において48〜66時間のハイブリダイゼーション後、スライドを洗浄(50%ホルムアミド/2xSSC中、50℃で15分間、2xSSC/0.1%SDS中、50℃で30分間、0.1M NaHPO、pH8.0の0.1M NaHPO、0.1%NP-40により構成されるNP緩衝液中、室温で15分間)を行い、2xSSC中室温ですすぎを行い、最後に室温にてそれぞれ2分づつ70%、85%及び100%エタノール中で脱水して風乾した。
【0132】
スキャニング分析は、アジレントマイクロアレイスキャナー(Agilent Technologies, Palo Alto, CA) によりスキャンし、得られたアレイイメージをGenepix Pro 4.1 (Axon Instruments, Inc., Foster City, CA)により解析した。すなわち、DNAスポットを自動的に分割し、局所的なバックグラウンドを減算して、シグナル強度を決定した。引き続き、2種の色素(Cy3強度/Cy5強度)のシグナル強度の比を各スポットについて計算し、エクセルシート上において染色体における位置の順でlog2比に変換した。
【0133】
なお、健常者に対する参照対照健常者の同時ハイブリダイゼーションを12回実施し、同様にしてシグナル強度を決定しlog2比の正常な変動分布を取得した。
【0134】
また、CGHアレイに適用した2304個のアレイ化DNA中、蛍光強度が欠損を示すアレイ化DNA及びX染色体由来のクローン(DNA)を除去した2099個を解析対象のクローン(マーカー候補)とした。
【0135】
こうして診断の確定した75症例についてのそれぞれ2099個のlog2比のデータ及び健常者対健常者ハイブリダイゼーションによるlog2比の正常な変動分布データを利用して、図10に示すフローチャートに従いデータの解析を行った。以下、このフローチャートに従い説明する。
【0136】
本実施例においては、リーブ ワン アウト クロスバリデーション(Leave-one-out- cross-validation, LOOCV)法を二重にネスト化して用いた(Nested Cross-Validation)。外側のループは、判別精度を検証するためのループとし、内側のループは、体系的にα及びβを選択するために用いた。外部ループは、全75症例を1症例と残りの74症例とに分けて実施し、内部ループはこの74症例をさらに1症例と残りの73症例に分けて実施した。内部ループの74症例のLOOCV処理により最適なα及びβを決定し、外部ループの75症例のLOOCV処理により、最適のα及びβを用いてマーカーセットを設定し当該マーカーセットにより他の1個の症例のタイプ判別をシミュレートする。
【0137】
まず、外部ループの繰り返し数kを1に初期化するとともに、総スコアNTを0に初期化した(ステップS510)。なお、kは、1〜75の整数であり、症例数に対応している。次いで、外側のループにおいて判別対象とする症例iouterをkにセットするとともに、そのための外部ループの判別器IouterをIall-{iouter }(ただし、Iall:={1,2,3・・・75})をセットした(ステップS520)。例えば、kが1であり、外部ループにおいて1番目の症例が判別対象である場合には、判別器は、全75症例から1番目の症例を除いた2番目から75番目の全74症例となり、kが2であり、2番目の症例が判別対象である場合には、判別器は全75症例から2番目の症例を除いた1番目及び3番目から75番目の全74症例となる。
【0138】
次に、(α、β)の組み合わせ数に対応する繰り返し数lを1に初期化し(ステップS530)、繰り返し数lに対応して5種類のαl及びβlの組み合わせを設定する(ステップS540)。なお、αは、0.001、0.005、0.01、0.05及び0.10から選択されるものとし、βは、0.001、0.005、0.01、0.05及び0.10からそれぞれ選択されるものとする。
【0139】
次に、内部ループの繰り返し数mを1に初期化する(ステップS550)。なお、mは、1〜74の整数であり、全症例数75から1を引いた数値である。そして、正答スコアN(l)を0に初期化する(ステップS560)。
【0140】
さらに、CPUは、内部ループの判別対象をする症例iinnerをセットするとともに、Iouter−{iinner}=Iall-{iouter }−{iinner}にセットする(ステッS570)。例えば、kが1であり、mが1であり、内部ループにおいて1番目の症例(第1の判別器のうちの1番目の症例)が判別対象である場合には、判別器は、外部ループの判別器から内部ループの判別対象となった症例を除いた73症例、すなわち、全75症例から第1の症例及び第2の症例を除いた74症例が判別器となる。そして、内部ループの判別器Iinnerについて、第1の(α、β)の組み合わせを適用して、マーカー選択処理を実行する(ステップS580)。
【0141】
マーカー選択処理は、図11に示すように、マーカー選択対象となるマーカー候補の個数(2099個)に対応する繰り返し数jを1にセットし(ステップS710)、判別器Iinnerを構成する73個の症例の2099個の個々のDNAについてαを用いて閾値処理した反応値から、個々のDNAについて、DLBCL及びMCLについて異常なゲイン又はロスが偶然に観察される人数を取得し(ステップS720)、確率pjDLBCL及びpjMCLを式「数14」、式「数15」により求める(ステップS730)。ただし、N個の症例群において、DLBCLの個体がn1人、MCLの個体がn2人存在し(N=n1+n2人)、あるマーカー候補jにつきM人の個体にゲイン又はロスの異常がみられ、そのうちDLBCLの個体がmj1人、MCLの個体がmj2人、合計Mj人いるものとする。
【数14】

【数15】

【0142】
確率pjDLBCLがβ/2より小さいかどうかを判定し(ステップS740)、肯定的に判定されるときには、そのマーカー候補を、DLBCLにそうした確率の事象(ゲイン又はロス)が偶然には起こりにくいマーカー、すなわち、DLBCLに特徴的な判別用マーカーと判定する(ステップS750)。一方、否定的に判定されるときには、そのマーカー候補はDLBCL判別用マーカーでないと判定する(ステップS760)。
【0143】
次いで、確率pjMCLがβ/2より小さいかどうかを判定し(ステップS770)、肯定的に判定されるときには、そのマーカー候補を、MCLにそうした確率の事象(ゲイン又はロス)が偶然には起こりにくいマーカー、すなわち、MCLに特徴的な判別用マーカーと判定する(ステップS780)。一方、否定的に判定されるときには、そのマーカー候補はMCL判別用マーカーでないと判定する(ステップS790)。
【0144】
こうした処理を全てのマーカー候補(2099個)につき行い(ステップS800)、DLBCL又はMCLに特徴的マーカーを判別用マーカーとして設定する(ステップS810)。特徴的マーカーは、マーカー候補についての特徴的な事象(ゲイン又はロス)の態様により、DLBCLのゲイン特異的マーカー(DLBCL+マーカー)、DLBCLのロス特異的マーカー(DLBCL-マーカー)、MCLゲイン特異的マーカー(MCL+マーカー)及びMCLロス特異的マーカー(MCL-マーカー)が選択される。
【0145】
次いで、内部ループ判別器Iinnerによって選択されたマーカーセットを用いて内部ループの判別対象であるiinnerがDLBCLかMCLかを判別する検証処理を実行する(ステップS590)。この処理は、図12に示すように、まず、判別対象であるiinnerを構成するマーカー候補中、選択されたマーカーに対応するアレイ化DNAにおいてマーカーに特異的なDLBCL又はMCLについてのゲイン若しくはロスがあるかどうかを判定し、マーカー特異的事象がある場合には、その事象に対応する疾患(DLBCL又はMCL)に対して1票を投票するとともに、マーカー毎の影響度を考慮して式「数16」及び式「数17」に記載の得票数vDLBCL及びvMCLを算出する(ステップS910)。そして、vDLBCLとvMCLとの大小を判定し(ステップS920)、vDLBCL>vMCLのときには、DLBCLと判別し(ステップS930)、vDLBCL=vMCLのときには判別不明として判定し(ステップS940)判別し、vDLBCL<vMCLのときにはMCLと判定し(ステップS950)、この処理を終了する。
【数16】

【数17】

【0146】
そして、CPUは、内部ループの判別対象iinnerがDLBCLかMCLかが正しく判別されたときには、正答スコアN(l)に数値1を加算し、誤判別の場合には、何も加算せず、不明の場合には、数値0.5を加算し、記憶する(ステップS600)。
【0147】
こうして内部ループを判別対象iinnerと判別器Iinnerとに区分した数に対応する回数(74回)実施する(ステップS610)。この結果、第1の組み合わせの(α,β)について74個の判別対象iinnerをそれぞれの判別器Iinnerで判別した結果に基づく正答スコアN(1)を得ることができる。さらに、次の組み合わせの(α,β)について同様の内部ループを74回繰り返し行い、正答スコアN(2)を取得する(ステップS570〜ステップS610)。こうした繰り返しを(α,β)の全ての組み合わせについて実施し、最終的に正答スコアN(1)〜(25)を得る(ステップS530〜ステップS620)。
【0148】
そして、これらの正答スコアN(1)〜N(25)のうち最大のスコアを示したNmaxについての(α,β)を選択する(ステップS630)。この(α,β)は、内部ループにおいて最も精度よくiinnerがDLBCLかMCLかを判別することができた最適な(α,β)である。選択された最適な(α,β)は、(0.05,0.005)であった。
【0149】
次に、こうして内部ループの繰り返しによって選択された最適(α,β)を外部ループの判別器Iouterに適用して、マーカーセットを選択する処理を実行する(ステップS640)。なお、このマーカーセットの選択処理のフローチャートの一例を図13に示す。この選択処理は、ステップS722で外部ループの判別器Iouterに最適(α,β)を適用し、ステップS812において、判別対象iouterを検証するためのマーカーを設定する以外は、図9に示す処理と同様に実施するものである。さらに、こうして選択されたマーカーを用いる検証処理を実行する(ステップS650)。この検証処理のフローチャートの一例を図14に示す。この検証処理は、ステップS912で判別対象をiouterとしステップS640で選択されたマーカーセットを用いて得票数を検出し、ステップS932〜ステップS952において判別対象をiouterとする以外は、図10に示す処理と同様に実施するものである。
【0150】
CPUは、こうして外部ループの判別対象iouterが正しくDLBCLかあるいはMCLに判別されたときには、総スコアNTに数値1を加算し、誤判別の場合には、何も加算せず、不明の場合には、数値0.5を加算し、記憶する(ステップS660)。
【0151】
こうした外部ループを症例数(75例)だけ繰り返す(ステップS670)。全症例について外部ループを終了することで、全ての外部ループの判別対象iouterについて正誤の得点が加算されて得られる総スコアNTを得ることができる。さらに、この総スコアNTを全症例数(75例)で除した数値を判別精度とし(ステップS680)、この検証処理を終了した。
【0152】
また、本実施例では、上記75症例を1症例と74症例に分けるLOOCV法により最適(α,β)として(0.05,0.005)を取得し、この(α,β)を75症例に適用して、上位と同様の判別用マーカー選択手法(有意確率に基づく方法、以下、「標準法」という。)により判別用マーカーセットを選択した。
【0153】
さらに、本実施例では、上記検証処理における判別用マーカー選択の方法(標準法)に替えてリカーシブ法を採用して、リカーシブ法による判別モデルの検証処理も行い、判別精度を取得した。また、上記75症例を1症例と74症例に分けるLOOCV法(リカーシブ法によるマーカー選択)により最適(α,β)として(0.05,0.005)を取得し、この(α,β)を75症例に適用してリカーシブ法によって判別用マーカーセットを選択した。
【0154】
さらにまた、本実施例では、46例のDLBCL中28例のABC及び18例のGCBについても二重LOOCV法(標準法及びリカーシブ法)により検証するとともに、標準法及びリカーシブ法により判別用マーカーを選択した。
【0155】
以上の検証結果を表5に示し、標準法により選択されたDLBCL vs MCLマーカー及びABC vs GCBマーカーのそれぞれ上位20個のマーカーを表6に示す。また、図15A及び図15Bには、標準法及びリカーシブ法により選択されたDLBCL/MCL判別用マーカーを示し、図15C及び図15Dには、標準法及びリカーシブ法により選択されたABC/GBC判別用マーカーを示す。図16A及び図16Bには、標準法及びリカーシブ法のそれぞれによる、得票数vDLBCL及びvMCLの大小による判別結果をグラフとして示す。図16C及び図16Dには、標準法及びリカーシブ法のそれぞれによる、得票数vABC及びvGCBの大小による判別結果をグラフとして示す。
【表5】

【表6】

【0156】
表5に示すように、本実施例(標準法)によれば、75症例中、71症例についてDLBCLかMCLかを正しく判別できた(判別率94.7%)。これらの判別の検証に際して選択されたマーカーは平均して342.3個であった。また、DLBCL46症例中38.5例についてABCかGCBかを正しく判別できた(判別率83.7%)。検証に際して選択されたマーカーは平均して136.0個であった。
【0157】
また、本実施例(リカーシブ法)によれば、判別率96.0%で正しくDLBCLとMCLとを判別でき、マーカーの平均数は93.9個であり、標準法に比較してマーカー数を72.6%に削減できた。また、同様にリカーシブ法によれば、判別率82.6%で正しくABCとGCBとを判別でき、マーカーの平均数は26.2個であり、標準法に比較してマーカー数を80.7%に削減できた。
【0158】
さらに、本実施例によれば、表6に示すように、ABCとGCBとを判別するための有用な領域が新たに見出された。すなわち、ゲインについては1q(1q42.13、1q32.1、1q31.2)、7q(7q34、7q22.3)、ロスについては1p36(1p36.32)などである。したがって、これらの領域を保持するクローン及びこれらの領域によってコードされる遺伝子若しくはcDNAも好ましいマーカーとして使用できる。
【0159】
本実施例によれば、染色体コピー数に異常が観察される疾患などの判別対象に対して、適切な判別アルゴリズムを適用することで高い判別率でタイプ判別が可能であることがわかった。すなわち、マーカーセットの選択に際し、マーカー選択のためのパラメータを恣意的でない手法で選択することで、マーカーセットの選択及び判別結果から恣意性を排除することができ、判別結果を客観性の高いものとすることができる。また、選択したマーカーセットを用いてタイプ判別を行う際、マーカーに特徴的な事象の有無による投票結果に各マーカーの影響力の大小を反映させることで判別率が向上されることがわかった。
【0160】
さらに、本実施例によれば、リカーシブ法により、判別率を維持してマーカーセットの削減が可能であることがわかった。さらにまた、本発明の実施例によれば、CGHアレイから得られるデータが、染色体コピー数情報に基づくタイプ判別に有利であることがわかった。特に、本実施例によれば、DLBCLとMCLという異なる疾患を判別することができるほか、一つの疾患であるDLBCL中のABCとGCBのサブタイプも判別することができることがわかった。すなわち、疾患及びサブタイプの判別を同一の染色体コピー数情報に基づいて行うことができるため、非常に有用である。また、アレイCGHは、発現プロファイリングよりも操作が簡便で信頼性の高い点においても有用である。
【0161】
また、本実施例によれば、タイプ未知の検体に対して、一般的なあるいはユーザが適宜設定した(α、β)を適用して選択したマーカーセットを用いてタイプ判別しても、マーカーの影響力を反映させることで良好な判別結果が得られることがわかる。さらに、タイプ未知の検体に対して、本実施例のようにして予め選択されたマーカーセットを適用しても判別率及び客観性の高い判別結果が得られることは明らかであった。
【0162】
さらに、本実施例で用いたマーカー選択手法によれば、多数個の染色体コピー数情報から判別に有用なマーカーを効率的にかつ客観的に選択することができる。従来は、感覚本実施例において選択された客観性の高いマーカーセットは、ただちにタイプ未知の検体に適用することができると考えられる。また、こうしたマーカーセットのみを固定化したアレイを提供することができるようになる。また、リカーシブ法により削減されたマーカーセットが固定化されたアレイによれば、アレイの作製コスト及び操作コストを低減することができる。
【0163】
さらにまた、本実施例によれば、既知の染色体コピー数情報に対して本実施例のような検証方法を適用して判別率を取得することで、染色体コピー数情報の信頼性やこうした情報を取得する実験手法の信頼性なども検証し検証することができる。
【実施例2】
【0164】
本実施例では、実施例1で算出した判別率の有意性を評価するために、ラベルパーミュテーションテスト(Label Permutation Test;LBT、Radmacher MD, Mcshane LM, Simon R. A paradigm for class prediction using gene expression profiles. J Compt Biol 2002;9:505-11)を実施した。すなわち、無作為な順序でモンテカルロシミュレーションを10000回行い、判別精度の有意性を評価した。また、LPTにより、実施例1における標準法及びリカーシブ法によって選択されたマーカー数のFalse Discovery Rate(FDR、Benjamini Y, Hochberg Y. Controling the false discovery rate: a practical and powerful approach to multiple testing. J Roy Stat Soc A 1995;57:289-300.)を見積もった。これらの結果を表5に併せて示す。
【0165】
表5に示すように、判別率に関しては、標準法とリカーシブ法とでは同程度の判別精度であった。また、10000回のLPTにおいて一度もこの判別精度を超えることはなかった(p<0.0001)。また、FDRについては、10000回のシミュレーションでも、表5に示すマーカー数以上となることはなかった。すなわち、選択したマーカー数はp<0.0001のレベルで統計的に有意であることがわかった。
【図面の簡単な説明】
【0166】
【図1】アレイCGHによって得られた検体と対照における反応値をlogスケールで表した図である。
【図2】判別用マーカーを選択する処理のフローチャートの一例を示す図。
【図3】αによる閾値処理の概要を示す図。
【図4】アレイCGHの閾値処理前後の一例を示す図。
【図5】マーカー選択処理のフローチャートの一例を示す図。
【図6】線形識別関数的手法を採用したタイプ判別処理のフローチャートの一例を示す図。
【図7】LOOCV法によるパラメータ設定のフローチャートの一例を示す図。
【図8】リカーシブ法による判別用マーカーの選択処理のフローチャートの一例を示す図。
【図9】LOOCV法による検証処理のフローチャートの一例を示す図。
【図10】実施例1における処理のフローチャートを示す図。
【図11】内部ループにおけるマーカー選択処理のフローチャートを示す図。
【図12】内部ループにおける検証処理のフローチャートを示す図。
【図13】外部ループにおけるマーカー選択処理のフローチャートの一例を示す図。
【図14】外部ループにおける検証処理のフローチャートの一例を示す図。
【図15A】実施例1において標準法で選択されたDLBCL/MCL判別用マーカーを示す図。
【図15B】実施例1においてリカーシブ法により選択されたDLBCL/MCL判別用マーカーを示す図。
【図15C】実施例1において標準法で選択されたABC/GCB判別用マーカーを示す図。
【図15D】実施例1においてリカーシブ法により選択されたABC/GCB判別用マーカーを示す図。
【図16A】実施例1での標準法によるDLBCL/MCLの検証結果を示すグラフ図。
【図16B】実施例1でのリカーシブ法によるDLBCL/MCLの検証結果を示すグラフ図
【図16C】実施例1での標準法によるABC/GCBの検証結果を示すグラフ図。
【図16D】実施例1でのリカーシブ法ABC/GCBの検証結果を示すグラフ図。

【特許請求の範囲】
【請求項1】
生物体が備える可能性のある少なくとも2種類のタイプを判別するためのマーカーの選択方法であって、
前記タイプが既知である前記生物体の複数個体の複数種類のマーカー候補に関する染色体コピー数情報及び前記複数個体の前記マーカー候補毎のコピー数異常の有無に関するコピー数異常情報に基づいて、一つの前記マーカー候補につき前記複数個体においてコピー数異常が生じることについての統計的有意性が肯定的に判定されるときに当該マーカー候補を判別用マーカーとして選択する、選択方法。
【請求項2】
前記判別用マーカーの選択に際し、前記コピー数異常情報から取得される、前記マーカー候補毎のコピー数異常の生起確率と当該コピー数異常よりも極端な方向でのコピー数異常の生起確率との和である有意確率に基づく統計的有意性を用いる、請求項1に記載の選択方法。
【請求項3】
前記タイプの種類がC種類(Cは2以上の整数)であるとき、前記有意確率pjxは、以下の式で表される、請求項2に記載の選択方法。
【数1】

【請求項4】
設定された閾値を用いて前記マーカー候補毎のコピー数異常の有無を判定することにより前記コピー数異常情報を取得し、設定された有意水準を用いて前記コピー数異常が生じる統計的有意性を判定する、請求項1〜3のいずれかに記載の選択方法。
【請求項5】
前記閾値及び前記有意水準は、前記複数個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationを適用して得られる検証結果に基づいて設定される、請求項4に記載の選択方法。
【請求項6】
前記閾値及び前記有意水準は、Leave-one-out cross-validationを適用して得られる検証結果において最も良好な検証結果が得られるものとして選択されている、請求項5に記載の選択方法。
【請求項7】
前記判別用マーカーの選択に先立って、前記閾値及び前記有意水準を設定するパラメータ設定工程を備える、請求項4〜6のいずれかに記載の選択方法。
【請求項8】
前記判別用マーカーの選択に際し、以下の(a)〜(c)を繰り返し実行する、請求項1〜4のいずれかに記載の選択方法。
(a)前記コピー数異常情報に基づく前記マーカー候補についてのコピー数異常の英気確率と当該コピー数異常よりも極端な方向における生起確率の和である有意確率の最小値を取得するとともに当該最小値を採るマーカー候補の識別情報を取得し、
(b)前記最小値を採るマーカー候補に関するコピー数異常についての有意確率に基づいて統計的有意性が肯定的に判定されるとき、前記最小値を採るマーカー候補を判別用マーカーとして選択し、
(c)前記選択された判別用マーカーが増幅異常マーカーであるとき、前記複数個体において前記判別用マーカーの前後で連続して増幅異常を示すマーカー候補を前記増幅異常を有しないものとして取り扱い、前記選択された判別用マーカーが欠失異常マーカーであるとき、前記複数個体において前記判別用マーカーの前後で連続して欠失異常を示すマーカー候補を欠失異常を有しないものとして取り扱う。
【請求項9】
前記判別用マーカーの選択に先立って、
前記染色体コピー数情報を取得し、
前記染色体コピー数情報に基づいて前記コピー数異常情報を取得する、請求項1〜8のいずれかに記載の選択方法。
【請求項10】
前記染色体コピー数情報は、前記マーカー候補となる複数種類のDNAが固定化された固相担体上の核酸ハイブリダイゼーション結果に基づく、請求項1〜9のいずれかに記載の選択方法。
【請求項11】
判別しようとする前記タイプは、ヒト並びに非ヒト哺乳動物における疾患、先天性異常及び体質から選択されるいずれかの分類である、請求項1〜10のいずれかに記載の選択方法。
【請求項12】
判別しようとする前記タイプは、ヒトの固形腫瘍及び造血器腫瘍における分類である、請求項11に記載の選択方法。
【請求項13】
判別しようとする前記タイプは、非ホジキンリンパ腫のB細胞リンパ腫における分類である、請求項12に記載の選択方法。
【請求項14】
生物体が備える可能性のある少なくとも2種類のタイプを判別するためのマーカー選択プログラムであって、
請求項1〜13のいずれかに記載の選択方法における各工程を処理する1又は2以上のステップを1又は2以上のコンピュータに実行させるためのプログラム。
【請求項15】
生物体が備える可能性のある少なくとも2種類のタイプを判別するための判別用マーカーセットであって、
請求項1〜13のいずれかに記載のマーカー選択方法により選択される1種又は2種以上のマーカーを含む、マーカーセット。
【請求項16】
以下の表1A、表1B、表1C、表1D及び表1Eに記載のマーカーから選択される1種又は2種以上を含む、非ホジキンリンパ腫のB細胞リンパ腫の分類を判別するためのマーカーセット。
【表1A】

【表1B】

【表1C】

【表1D】

【表1E】

【請求項17】
以下の表2A、表2B、表2C及び表2Dに記載のマーカーから選択される1種又は2種以上を含む、非ホジキンリンパ腫のB細胞リンパ腫の分類を判別するためのマーカーセット。
【表2A】

【表2B】

【表2C】

【表2D】

【請求項18】
以下の表3A、表3B、表3C及び表3Dに記載のマーカーから選択される1種又は2種以上を含む、びまん性大細胞リンパ腫の予後タイプの分類を判別するためのマーカーセット。
【表3A】

【表3B】

【表3C】

【表3D】

【請求項19】
以下の表4A、表4B、表4C及び表4Dに記載のマーカーから選択される1種又は2種以上を含む、びまん性大細胞リンパ腫の予後タイプの分類を判別するためのマーカーセット。
【表4A】

【表4B】

【表4C】

【表4D】

【請求項20】
生物体が備える可能性のある少なくとも2種類のタイプを判別する方法であって、
判別しようとするタイプのそれぞれについてコピー数の異常が生じることについての統計的有意性が肯定された判別用マーカーと判別対象生物体の前記判別用マーカーについての染色体コピー数に関する染色体コピー数情報とを準備し、
判別しようとする前記タイプの少なくとも一つについて、以下の情報:
(a)前記判別対象生物体が、前記一つのタイプの判別用マーカーに特徴的なコピー数異常を有するか否かに関する判別用コピー数異常情報及び
(b)前記一つのタイプの判別用マーカーの統計的有意性が肯定された際の有意確率に関する有意確率情報、
を利用して前記判別用対象生物体が前記一つのタイプであるか否かを判別する、判別方法。
【請求項21】
前記タイプの判別に際し、少なくとも前記一つのタイプについての以下の式に表される得票数Vxが、前記残余の各タイプについての以下の式に表されるVxのいずれよりも大きいとき、前記判別対象生物体が前記一つのタイプであると判定する、請求項20に記載の判別方法。
【数2】

【請求項22】
前記判別用マーカーは、請求項1〜13のいずれかに記載のマーカー選択方法により選択される、請求項20又は21に記載の判別方法。
【請求項23】
判別しようとする前記タイプは、ヒト並びに非ヒト哺乳動物における疾患、先天性異常及び体質から選択されるいずれかの分類である、請求項20〜22のいずれかに記載の判別方法。
【請求項24】
判別しようとする前記タイプは、ヒトの固形腫瘍及び造血器腫瘍における分類である、請求項23に記載の判別方法。
【請求項25】
判別しようとする前記タイプは、非ホジキンリンパ腫のB細胞リンパ腫における分類である、請求項23に記載の判別方法。
【請求項26】
生物体が備える可能性のある少なくとも2種類のタイプを判別するためのプログラムであって、
請求項20〜25のいずれかに記載の判別方法における各工程を処理する1又は2以上のステップを1又は2以上のコンピュータに実行させるためのプログラム。
【請求項27】
生物体が備える可能性のある少なくとも2種類のタイプを判別するための判別装置であって、
固相担体と、
当該固相担体に固定化された請求項15〜18のいずれかに記載のマーカーセットと、
を備える、装置。
【請求項28】
生物体が備える可能性のある少なくとも2種類のタイプを判別する方法の検証方法であって、
前記タイプが既知である複数個体の複数の判別用マーカー候補についての染色体コピー数に関する染色体コピー数情報を準備し、
前記染色体コピー数情報に係る前記複数個体から選択される一つの個体を判別対象とし残余の個体を判別器とするLeave-one-out cross-validationによる外部ループと、当該残余の個体から選択される一つの個体を判別対象とし、残余の個体を判別器とするLeave-one-out cross-validationによる内部ループと、を構成し、
前記染色体コピー数情報に基づいて前記タイプの判別用マーカーを選択するためのパラメータを前記内部ループにより設定し、
設定した前記パラメータを前記外部ループの前記判別器に適用して判別用マーカーを選択し、選択した前記判別用マーカーを前記外部ループの前記判別対象に適用して前記判別対象のタイプについての判別結果を取得し、
前記外部ループの全ての判別対象についての前記判別結果により判別したタイプと前記判別対象について既知のタイプとを対比して得られる判別結果の当否に関する外部ループ当否情報を利用して前記内部ループによって設定した前記パラメータを用いた前記判別方法の判別精度を取得する、検証方法。
【請求項29】
前記パラメータの設定に際し、複数のパラメータ候補の一つを前記内部ループの前記判別器に適用して判別用マーカーを選択し、当該判別用マーカーを前記内部ループの前記判別対象に適用して得られる判別結果と当該判別結果の当否に関する内部ループ当否情報とを取得して、前記複数のパラメータ候補の全てについて前記内部ループの全ての判別対象について取得した前記内部ループ当否情報に基づいて最も高い判別精度が得られた一つのパラメータ候補を前記パラメータとして設定する、請求項28に記載の検証方法。
【請求項30】
前記パラメータは、前記各個体の前記各マーカー候補につき染色体コピー数が異常であるかどうかを判定するための閾値と、前記各マーカー候補につき前記複数個体においてコピー数異常が生じることについての統計的有意性を判定するための有意水準と、を含む、請求項28又は29に記載の検証方法。

【図2】
image rotate

【図3】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図16A】
image rotate

【図16B】
image rotate

【図16C】
image rotate

【図16D】
image rotate

【図1】
image rotate

【図4】
image rotate

【図15A】
image rotate

【図15B】
image rotate

【図15C】
image rotate

【図15D】
image rotate


【公開番号】特開2008−48689(P2008−48689A)
【公開日】平成20年3月6日(2008.3.6)
【国際特許分類】
【出願番号】特願2006−229798(P2006−229798)
【出願日】平成18年8月25日(2006.8.25)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 研究集会名 第20回東海ファジィ研究会 主催者名 日本知能情報ファジィ学会東海支部 発表日 平成18年2月27日 資料頒布日 平成18年2月27日
【出願人】(304031427)愛知県 (36)
【出願人】(304026696)国立大学法人三重大学 (270)
【出願人】(000004064)日本碍子株式会社 (2,325)
【Fターム(参考)】