説明

遺伝子コピー数の変化のパターンに基づいた悪性メラノーマのゲノム分類

本発明は、悪性メラノーマ細胞をゲノムプロファイルによって分類することができる方法およびキット、ならびにその方法およびキットを使用して、臨床試験および治療のために臨床転帰を診断し、予測し、患者集団を階層化する方法に関する。

【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2008年10月31日に出願された米国特許出願第61/110,308号の優先権を主張するものであり、その内容は参照により本明細書に組み込まれている。
【0002】
本出願は、「METHODS FOR ASSEMBLING PANELS OF CANCER CELL LINES FOR USE IN TESTING THE EFFICACY OF ONE OR MORE PHARMACEUTICAL COMPOSITIONS」という名称の出願(Dimitri Semizarov、Xin Lu、Ke Zhang、およびRick Lesniewski、発明者;2009年10月28日に出願され、2008年10月31日に出願された米国特許出願第61/110,281号の優先権を主張するものである)も参照により組み込む。
【0003】
連邦政府による資金提供を受けた研究開発の記載
該当なし
【0004】
コンパクトディスク資料の参照
該当なし
【0005】
本発明は、悪性メラノーマ(MM)に関連する腫瘍、癌細胞系および対象の試料のゲノムサブグループを定義するための方法に関する。本発明は、対象に施すための1種以上の治療介入の有効性を試験することに使用するために、ゲノムサブグループによって腫瘍、癌細胞系および対象の試料のパネルを構築するための方法にも関する。
【背景技術】
【0006】
癌は、臨床経過、転帰および治療への応答性における相当な変動性を特徴とするゲノム疾患である。この変動性の根底にある主要因子は、癌に固有の遺伝的異質性である。病理組織学的なサブタイプが同じである個々の腫瘍は、細胞DNAにおいて異なる異常を有する。
【0007】
皮膚の悪性メラノーマは、西欧諸国において発生率が上昇している、非常に攻撃的な型の皮膚癌である(TuckerおよびGoldstein、2003年)。メラノーマは、予測不可能な臨床転帰、攻撃的な増殖の可能性および現存する化学療法レジメンへの抵抗を持つ異種疾患である。臨床的、形態学的および細胞学的な変化のスペクトルおよび個別の病期を欠くので、個々のメラノーマ患者の臨床転帰を予測することは難しい(Onkenら、2004年;Weyersら、1999年)。
【0008】
癌の分類を改善することは、抗癌薬を発見するために重要である。現在、前臨床モデルは、マウスにおける腫瘍形成および培養物中での増殖および他のパラメータに対するそれらの有用性、適応性に基づいて選択されているが、それらのモデルは親腫瘍の遺伝的異質性を表していない。このことは、前臨床モデルにおいて優れた応答を示した作用剤に対する、臨床試験での低い応答につながる。
【0009】
メラノーマ腫瘍の表現型の多様性は、遺伝子コピー数の異常のパターンにおける対応する多様性を伴う。染色体異常は、多くの発達障害および癌に関連する有害事象である。体細胞内で発生する染色体領域の増幅および欠失は、癌を導く主要因子の1つであると考えられている。したがって、悪性メラノーマにおける遺伝子コピー数のパターンを系統的に検査することが、悪性メラノーマのゲノム科学に基づいた分子分類学の土台となり得る。予後的に重要な再発性染色体異常は、古典的な細胞遺伝学的分析または蛍光インサイツハイブリダイゼーション法(FISH)(LevskyおよびSinger、2003年)によって、個々に検出され得る。しかし、FISH分析は、適用したプローブパネルによって定義された限られた染色体の遺伝子座のセットのみを調べるので、遺伝学的異常の全範囲を検出することはできない。より有利な診断ツールは、疾患の微細な分類に基づくことになる。対象のMMの遺伝的な状態に基づいて治療に対して合理的に患者選定をすることが可能になる。
【先行技術文献】
【非特許文献】
【0010】
【非特許文献1】TuckerおよびGoldstein、2003年
【非特許文献2】Onkenら、2004年
【非特許文献3】Weyersら、1999年
【非特許文献4】LevskyおよびSinger、2003年
【発明の概要】
【課題を解決するための手段】
【0011】
第1の態様において、本発明は、
(a)少なくとも1つのMM細胞を含む、細胞系または腫瘍を含む複数のm個の試料を得るステップ、
(b)ステップ(a)において得られた各試料から、各染色体からの少なくとも1つの遺伝子座からのコピー数の変化の情報を含むデータセットを取得するステップ、
(c)
(1)腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
(2)機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
(3)正常細胞を含有する確率が50%以上であるとスコア化する各試料についてのデータをデータセットから削除すること
を含む、データセットにおいて正常細胞が混入した試料を同定し、混入試料をデータセットから削除するステップ、
(d)データセット内のサブグループの数rを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もるステップ、
(e)データセット内の各試料を、
(1)乗法的更新を100ステップ行うごとに、次式を用いてアルゴリズムの発散を計算するステップ、
【0012】
【数1】

(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)
(2)ステップ(e)(1)において計算された発散が、アルゴリズムの乗法的更新の前の100ステップに対して計算された発散と比較して約0.001%超減少していない場合にアルゴリズムを停止するステップ、
(3)アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してHのピアソン相関係数行列を計算するステップ、
【0013】
【数2】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i、H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはステップ(d)からのサブグループの数である。)
(4)ステップ(e)(3)から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均するステップ、および
(5)データセット内の腫瘍および細胞系を、1引く(ステップ(e)(4)において決定された平均相関行列)を用いた教師なしクラスタリングアルゴリズムを適用することによってr個のサブグループに割り当て、デンドログラムをr個のクラスターにカットするステップ
を含む改変ゲノム非負値行列因子分解(gNMF)アルゴリズムを用いて少なくとも1つのクラスターに割り当てるステップ、
(f)コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定するステップ、および
(g)場合によって、ステップ(f)において選択された最終的なクラスターの数の安定性を、10倍の安定性検定を用いて評価するステップ
を含む、悪性メラノーマ(MM)ゲノムサブグループのデータベースを得るための方法に関する。
【0014】
第2の態様において、本発明は、
(a)
(i)少なくとも1つのMM腫瘍またはMM細胞系を含む複数のm個の試料を得ること、
(ii)ステップ(i)において得られた各試料から、各染色体からの少なくとも1つの遺伝子座からのコピー数の変化の情報を含む第1のデータセットを取得すること、
(iii)
(1)腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
(2)機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
(3)正常細胞を含有する確率が50%以上であるとスコア化する各試料についてのデータを第1のデータセットから削除すること
を含む、第1のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第1のデータセットから削除すること、
(iv)データセット内のサブグループの数rを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
(v)データセット内の各試料を、
(1)乗法的更新を100ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、
【0015】
【数3】

(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)
(2)ステップ(v)(1)において計算された発散が、アルゴリズムの乗法的更新の前の100ステップに対して計算された発散と比較して、約0.001%超減少していない場合にアルゴリズムを停止すること、
(3)アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してHのピアソン相関係数行列を計算すること、
【0016】
【数4】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i,H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはステップ(iv)からのサブグループの数である。)
(4)ステップ(v)(3)から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および、
(5)データセット内の腫瘍および細胞系を、1引く(ステップ(v)(4)において決定された平均相関行列)を用いた教師なしクラスタリングアルゴリズムを適用することによって、r個のサブグループに割り当て、デンドログラムをr個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解(gNMF)アルゴリズムを用いて少なくとも1つのクラスターに割り当てること、
(vi)コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、および
(vii)場合によって、ステップ(vi)において選択された最終的なクラスターの数の安定性を、10倍の安定性検定を用いて評価すること
を含む方法によって開発されたデータベースを準備すること、
(b)MM細胞を含有すると疑われる試料を準備すること、
(c)ステップ(ii)からのものと同じ、少なくとも1つの遺伝子座からのコピー数の変化の情報を含む第2のデータセットVsampleを取得すること、および
(d)Vsampleからの試料を、Vsampleを、ステップ(i)−(vii)において決定されたクラスターと比較することによって分類すること
を含む、MM腫瘍またはMM細胞系を分類する方法に関する。
【0017】
第3の態様において、本発明は、
(a)
(i)MM細胞を含む複数のm個の試料を得ること、
(ii)ステップ(i)において得られた各試料から、各染色体からの少なくとも1つの遺伝子座からのコピー数の変化の情報を含む第1のデータセットを取得すること、
(iii)
(1)腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
(2)機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
(3)正常細胞を含有する確率が50%以上であるとスコア化する各試料についてのデータを第1のデータセットから削除すること
を含む、第1のデータセットにおいて、正常細胞が混入した試料を同定し、混入試料を第1のデータセットから削除すること、
(iv)データセット内のサブグループの数rを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
(v)データセット内の各試料を、
(1)乗法的更新を100ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、
【0018】
【数5】

(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)
(2)ステップ(v)(1)において計算された発散が、アルゴリズムの乗法的更新の前の100ステップに対して計算された発散と比較して約0.001%超減少していない場合にアルゴリズムを停止すること、
(3)アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してHのピアソン相関係数行列を計算すること、
【0019】
【数6】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i,H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはステップ(iv)からのサブグループの数である。)
(4)ステップ(v)(3)から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
(5)データセット内の試料を、1引く(ステップ(v)(4)において決定された平均相関行列)を用いた教師なしクラスタリングアルゴリズムを適用することによってr個のサブグループに割り当て、デンドログラムをr個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解(gNMF)アルゴリズムを用いて少なくとも1つのクラスターに割り当てること、
(vi)コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
(vii)場合によって、ステップ(vi)において選択された最終的なクラスターの数の安定性を、10倍の安定性検定を用いて評価すること、および
(viii)ステップ(vi)において選択された各クラスターから少なくとも1つのMM細胞系を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む方法で構築された、ゲノムサブグループによって分類されたMM細胞のパネルから、各サブグループからの少なくとも1つのMM細胞系を選択すること、
(b)各サブグループからの少なくとも1つのMM細胞を治療介入と接触させること、
(c)各サブグループからの少なくとも1つのMM細胞を抑えるまたは死滅させるための治療介入の有効性をアッセイすること、
(d)治療介入を、各サブグループからの少なくとも1つのMM細胞を抑えるまたは死滅させるための治療介入の決定された有効性によって分類し、1つのサブグループからの少なくとも1つのMM細胞系を抑えるまたは死滅させるが、別のサブグループからのMM細胞系を抑えない、または死滅させないことにより、このサブグループのMM細胞系を抑えるまたは死滅させるための治療介入の特異性が示されること、
を含む、悪性メラノーマ(MM)細胞を抑えるまたは死滅させるための治療介入を分類する方法に関する。治療介入は、化学療法、生体応答修飾物質、ワクチン免疫療法または生化学療法であり得る。治療介入が生体応答修飾物質である場合、それはインターフェロン、インターロイキン−2、モノクローナル抗体および腫瘍壊死因子アルファ、またはそれらの組合せなどの活性薬剤を含む医薬組成物であり得る。
【0020】
第4の態様において、本発明は、
(a)
(i)少なくとも1つのMM細胞を含む複数のm個の試料を得ること、
(ii)ステップ(i)において得られた各試料から、各染色体からの少なくとも1つの遺伝子座からのコピー数の変化の情報を含む第1のデータセットを取得すること、
(iii)
(1)腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
(2)機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
(3)正常細胞を含有する確率が50%以上であるとスコア化する各試料についてのデータを第1のデータセットから削除すること
を含む、第1のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第1のデータセットから削除すること、
(iv)データセット内のサブグループの数rを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
(v)データセット内の各試料を、
(1)乗法的更新を100ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、
【0021】
【数7】

(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)
(2)ステップ(v)(1)において計算された発散が、アルゴリズムの乗法的更新の前の100ステップに対して計算された発散と比較して約0.001%超減少していない場合にアルゴリズムを停止すること、
(3)アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してHのピアソン相関係数行列を計算すること、
【0022】
【数8】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i,H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはステップ(iv)からのサブグループの数である。)
(4)ステップ(v)(3)から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
(5)データセット内の腫瘍および細胞系を、1引く(ステップ(v)(4)において決定された平均相関行列)を用いた教師なしクラスタリングアルゴリズムを適用することによって、r個のサブグループに割り当て、デンドログラムをr個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解(gNMF)アルゴリズムを用いて少なくとも1つのクラスターに割り当てること、
(vi)コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
(vii)場合によって、ステップ(vi)において選択された最終的なクラスターの数の安定性を、10倍の安定性検定を用いて評価すること、および
(viii)ステップ(vi)において選択された各クラスターから少なくとも1つの試料を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む、データベースを構築すること、
(b)ステップ(a)のデータベースを分析して各サブグループに対して特徴的なコピー数の異常を決定すること、および
(c)各サブグループについての決定された特徴的なコピー数の異常に基づいて、複数のプローブを設計し、各プローブをゲノムサブグループに割り当てること
を含む、試料からのMM細胞を分類するためのプローブパネルを構築する方法に関する。
【0023】
第5の態様において、本発明は、MM腫瘍試料を分類するためのプローブパネルを含むキットに関する。プローブパネル内のプローブは、例えば、FISHプローブであり得る。
【0024】
第6の態様において、本発明は、
(a)データベースを構築するための説明書であって、
(i)少なくとも1つのMM細胞を含む複数のm個の試料を得ること、
(ii)ステップ(i)において得られた各試料から、各染色体からの少なくとも1つの遺伝子座からのコピー数の変化の情報を含む第1のデータセットを取得すること、
(iii)
(1)腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
(2)機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
(3)正常細胞を含有する確率が50%以上であるとスコア化する各試料についてのデータを第1のデータセットから削除すること
を含む、第1のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第1のデータセットから削除すること、
(iv)データセット内のサブグループの数rを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
(v)データセット内の各試料を、
(1)乗法的更新を100ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、
【0025】
【数9】

(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)
(2)ステップ(v)(1)において計算された発散が、アルゴリズムの乗法的更新の前の100ステップに対して計算された発散と比較して約0.001%超減少していない場合にアルゴリズムを停止すること、
(3)アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してHのピアソン相関係数行列を計算すること、
【0026】
【数10】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i,H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはステップ(iv)からのサブグループの数である。)
(4)ステップ(v)(3)から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
(5)データセット内の腫瘍および細胞系を、1引く(ステップ(v)(4)において決定された平均相関行列)を用いた教師なしクラスタリングアルゴリズムを適用することによって、r個のサブグループに割り当て、デンドログラムをr個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解(gNMF)アルゴリズムを用いて少なくとも1つのクラスターに割り当てること、
(vi)コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、および
(vii)場合によって、ステップ(vi)において選択された最終的なクラスターの数の安定性を、10倍の安定性検定を用いて評価すること
についての説明を含む、前記データベースを構築するための説明書、ならびに
(b)場合によって、第1、第2、第3、第4、第5、第6の細胞系またはこれらの単離ゲノムDNAであって、
ここで、
第1の細胞系は、SKMEL119、HS944、WM1366およびWM88からなる群から選択され、
第2の細胞系は、WM3248であり、
第3の細胞系は、1205LUであり、
第4の細胞系は、451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63、WM35、WM983およびWM983Cからなる群から選択され、
第5の細胞系は、WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793Bおよび501MELからなる群から選択され、および
第6の細胞系は、MALME3MまたはWM882である前記細胞系
を含む、MM腫瘍試料を分類するためのキット。
【0027】
本発明のすべての態様において、教師なしクラスタリングアルゴリズムは、階層クラスタリングであってよく、コーフェン相関またはベイズ情報量規準が、データセットから最終的なクラスターの数を規定するために独立にまたは一緒に用いられ得る。
【0028】
本発明の全態様において、複数の試料(m個)は、第1、第2、第3、第4、第5、第6の細胞系を含み、
ここで、
第1の細胞系は、SKMEL119、HS944、WM1366およびWM88からなる群から選択され、
第2の細胞系は、WM3248であり、
第3の細胞系は、1205LUであり、
第4の細胞系は、451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63、WM35、WM983およびWM983Cからなる群から選択され、
第5の細胞系は、WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793Bおよび501MELからなる群から選択され、および
第6の細胞系は、MALME3MまたはWM882である。
【0029】
本発明の一部の態様において、MM細胞は細胞系からのものである。
【図面の簡単な説明】
【0030】
【図1】ゲノム科学に基づいた、腫瘍を分類する手順のワークフローを示す図である。
【図2】階層クラスタリングを用いることによって、予想される生成クラスター数を導くための、MMデータセットのデンドログラムを示す図である。
【図3】MM腫瘍および細胞系のCGHデータを、6つのクラスターに分類したヒートマップを示す図である。各行は試料を表し、各列はSNP遺伝子座を表す。赤色、白色および青色は、それぞれ、コピー数が多いこと、コピー数が正常であること、コピー数が少ないことを示す。水平な黒線は、異なるクラスターを分離している。垂直の空間は、染色体1−22を分離している。細胞系は緑色の円で強調されている。
【発明を実施するための形態】
【0031】
本発明は、MM腫瘍を評価し、分類し、階層化すること、ならびにMM腫瘍に対する治療介入の有効性を評価することを提供する。本発明は、マイクロアレイに基づいた比較的なゲノムハイブリダイゼーション技法を利用して、ゲノム全域にわたる規模で遺伝子コピー数の異常性を検出し、したがって、DNAコピー数の変化を伴う染色体異常の全ゲノム的な考察を提供する。以前の病理組織学に基づいた分類スキームと異なり、本発明の方法は、臨床的介入において観察される変動性の背後の主要因子であるMM細胞の遺伝的異質性を確かめる。
【0032】
本発明の方法は、MMをゲノムサブグループ化して、MMに対する標的療法の発見および開発を容易にすること、ならびにそれらの療法に対する感受性が高いと思われるMMを有する個別の患者集団を定義することを可能にする。この患者群の階層化も、臨床試験の設計において非常に有用である。
【0033】
本発明のクラスタリング手順によって定義されたサブグループは、起源および腫瘍発生の機構が異なることを示す別個のパターンのゲノム異常を保有した。この知見は、異なるサブグループは、各サブグループに特有な別個の臨床的挙動および治療介入への感受性を表すことを示唆している。このようなことは、乳癌におけるHER2の増幅、肺癌におけるEGFRの増幅、神経芽細胞腫におけるMYCNの増幅などの他のコピー数の異常について以前観察されている(例えば、(Anandら、2003年;Hirschら、2006年;Seegerら、1985年;Vogelら、2002年を参照されたい))。
【0034】
本発明の方法は、新規の計算アルゴリズムによって可能になり、複雑な、ゲノム全般にわたるコピー数の変化のパターンを分析することに基づいている。本発明の方法は、MMのゲノムサブタイプを完全に特徴付けすることおよび臨床的挙動と治療介入のより正確な相関を生成させることを提供する。
【0035】
提案したゲノム分類法は、(i)試料セットが十分に大きかったこと(約110の試料)および(ii)試料は種々の供給源から取得され、したがってバイアスの可能性が排除されているので、MMの対象の全集団に対して妥当である。
【0036】
そこで、一態様において、本発明は、高解像度の比較的なゲノムハイブリダイゼーション(CGH)を使用してMM試料をプロファイリングする方法および外注の統計的アルゴリズムを用いてコピー数のプロファイルを分類する方法を提供する。得られたMMの分類は、薬物に対する患者の応答を予測し、前臨床モデルを選択するために使用され得る。
【0037】
本発明の方法は、ゲノム異常性のパターンに基づいてMMを分類し、したがって、疾患の分子サブグループを決定することを可能にする。
【0038】
別の態様において、本発明は、MM細胞のゲノムサブグループを定義または分類するために使用され得る独特の計算アルゴリズムを利用する。一般に、計算アルゴリズムは、
1.機械学習アルゴリズム(ランダムフォレストなど)を適用して、正常細胞が著しく混入した試料を同定し、削除するステップ、
2.教師なしクラスタリング(階層クラスタリングなど)を使用して、データをゲノム非負値行列因子分解(gNMF)モデルに適合させる前に、予想されるクラスター数を見積もるステップ、
3.gNMFの多数のランダムスタートを使用し、続いてgNMFから得られたH行列の相関を距離行列として適用して試料を分類するステップ、
4.腫瘍および癌細胞系を、gNMFアルゴリズムを使用していくつかの予想されるクラスター数に分類し、続いてコーフェン相関係数およびベイズ情報量規準(BIC)を使用して最良モデルを選択し、最終的なクラスターの数を決定するステップ、および
5.場合によって、10倍安定性検定を適用してクラスターの安定性を評価するステップ
を含む。
【0039】
一実施形態において、(1)MM細胞試料からゲノムDNA(gDNA)を抽出するステップ、(2)gDNAをマイクロアレイにハイブリダイズし、マイクロアレイを分析してマイクロアレイ分析で使用された各プローブについて生のシグナルを取得するステップ、(3)各遺伝子座のコピー数を決定し、コピー数の変化領域を検出するステップ、(4)データの品質管理を行うステップ、(5)コピー数のデータを平滑化し、分割アルゴリズムを用いて次元を縮小するステップ、(6)階層クラスタリングによって見積もられたクラスターの見積もり数に対してgNMFを用いて、平滑化されたデータを分類するステップ、(7)コーフェン相関および/またはベイズ情報量規準を用いて最良の分類モデルを選択するステップおよび(8)場合によって、gNMF分類の安定性を検定するステップを含む本発明は、MM細胞を分類する。
【0040】
本発明の方法は、前臨床試験モデルのパネルにおける親腫瘍の完全な表示を提供することによって、前臨床試験モデルの合理的な選択を容易にし、前臨床試験の予測性を改善する。どんな理論にも縛られることは希望しないが、本発明の基本原理は、以下の通りである。ヒトの腫瘍の表現型を決定するために、コピー数の変化(CNA)のパターンが示されている。したがって、腫瘍集団のサブグループがCNAのパターンによって定義され、次いで少なくとも1つの細胞系が各サブグループに見合うように選択され、現在利用可能なモデルのセットよりもMM細胞集団の多様性を適切に表す細胞系のパネルが開発され得る。これらの細胞系のパネルは、治療介入を試験することに使用され得る。さらに、これらのデータベースは、患者のMM腫瘍をより細かく分類することを可能にし、癌を有効に治療する可能性が高い、精密な治療介入の処方を可能にする。
【0041】
本発明の方法は、治療介入および前臨床試験モデルを合理的に選択することを容易にする。
【0042】
定義
ゲノム全般にわたるコピー数のプロファイル、または「コピー数」は、2つ以上の遺伝子座のDNAコピー数の測定値である。コピー数のプロファイルは、細胞が本質的に野生型であり、各遺伝子座が2つのコピーで存在している(二倍体のため、性染色体を除く)場合、または野生型の異常体、すなわち、遺伝子座の増幅および欠失を含有する場合に評価することができる。増幅および欠失は、エレメントの一部およびエレメントの全体、または多くのエレメントに同時に影響を与え得る。コピー数のプロファイルにより、増幅または欠失の正確な数は必ずしも決定されないが、遺伝学的異常性を含有する領域および異常性が欠失であるか増幅であるかは同定される。
【0043】
一部の実施形態において、「野生型」ゲノムは、試料の遺伝子型を決定する状況において使用されるとき、必ずしも野生型の試料が厳密に二倍体であることを意味しない。本発明に照らして、「野生型」ゲノムは、MMなどの特定の病態を現していない、または現しそうにない細胞から取り出したゲノムである。例えば、野生型ゲノムは、対象によって健康な、正常細胞から提供され、同じ対象のMM細胞と比較され得る。
【0044】
「ベイズ情報量規準」または「BIC」は、モデル選択に対する統計的基準として使用されるパラメトリック法を指す。BICは、(Schwarz、1978年)によって記載されている。BICは式(1)によって定義される:
BIC=−2*lnL+kln(n) (1)
式中、Lは、モデルがデータにどれくらい正確に近似しているかを測定する尤度であり、kはモデルにおいて使用されるパラメータの数であり、nは試料の数である。二次の項、k*ln(n)は、過剰適合を回避するためにモデルにおいて使用されるパラメータの数のペナルティとして機能する。
【0045】
「コーフェン相関係数」または「コーフェン相関」は互換的に使用され、最終的なクラスタリングを導くために使用されるデンドログラムが、元のモデル化されていないデータポイントとのペアワイズ距離をどれだけ忠実に保存したかを測定するために用いられるアルゴリズムを指す。本発明における使用に関して、元のデータXがデンドログラムTによってモデル化されている場合、距離の測定値は式(2)によって定義される:
x(i,j)=|X−X| (2)
i番目の試料とj番目の試料の間の距離、およびt(i,j)=モデルポイント、TとTの間のデンドログラムの距離であり、この距離はこれらの2つのポイントが最初に一緒に連結される結節の高さである。
【0046】
それから、xがx(i,j)の平均であり、tがt(i,j)の平均である場合、コーフェン相関係数cは式(3)によって定義される:
【0047】
【数11】

rが増加するにつれて、コーフェン相関は特定のポイントで劇的に減少し、したがって、最良のクラスター数に対応する(Carrascoら、2006年;Maherら、2006年)。
【0048】
「クラスター解析」は、「データ分割」としても公知であり、目的物(観測値、個体、事例またはデータ行とも称される)の集団をサブセット、サブグループまたは「クラスター」にグループ分けまたは分割し、各クラスター内の目的物が互いに、異なるクラスターに割り当てられた目的物よりも密接に関連しているようにする。クラスター解析の目標のすべての中核をなすのは、クラスタリングされた個々の目的物間の類似性(または非類似性性)の程度の観念である。クラスタリングの種類の例は、階層クラスタリングおよびk−平均クラスタリングである。
【0049】
「階層クラスタリング」は、クラスターの階層を構築すること(集塊性)または解体すること(分裂的)を指す。この階層の伝統的な表示は、デンドログラムであり、その一方の端に個々のエレメントがあり、他方にすべてのエレメントを含有する単一のクラスターがある。集塊性のアルゴリズムは、木の葉から始まるが、一方、分裂的なアルゴリズムは根から始まる。階層クラスタリングを行うための方法は、当技術分野で周知である。
【0050】
階層クラスタリング手法は、生物医学的な研究において、生体試料をその遺伝子発現パターンに基づいてクラスタリングし、試料集団におけるサブグループ構造を導くために広く使用されている(Bhattacharjeeら、2001年;Hedenfalkら、2003年;Sotiriouら、2003年;Wilhelmら、2002年)。例えば、階層クラスタリングは、64のヒト腫瘍細胞系を、1161の選択された遺伝子の発現パターン基づいていくつかのクラスターにグループ分けし、異なるクラスターの分子的特徴を導くために使用されている(Rossら、2000年)。
【0051】
「機械学習」は、コンピュータに「学習」させることを可能にするアルゴリズムおよび技法を設計および開発することに関連する人工知能のサブフィールドを指す。一般に、帰納的学習および演繹的学習の2種類がある。帰納的な機械学習の方法は、データセットからルールおよびパターンを抽出する。機械学習研究の主要な焦点は、計算的方法および統計的方法によって、データから自動的に情報を抽出することである。分類学に系統立てられたいくつもの機械学習アルゴリズムは、アルゴリズムの所望の転帰に基づいて、当業者に公知である。これらとしては、(1)教師あり学習(例えば、ランダムフォレスト)、(2)教師なし学習(例えば、主成分分析、ベクトル量子化など)(3)半教師あり学習、(4)強化学習、(5)トランスダクションおよび(6)学習の学習が挙げられる。
【0052】
「非負値行列因子分解」(NMF)は、部分に基づいた、非負データの線形表現を見出すためのアルゴリズムを指す。非負値行列因子分解は、もともとは、画像解析において使用するための数学的ツールとして開発された(LeeおよびSeung、1999年;LeeおよびSeung、2001年)。NMFは、遺伝子発現データを分析するためにゲノム科学において採用された(Brunetら、2004年)。具体的には、NMFは、遺伝子コピー数のデータの分析において使用するために適合され、遺伝子コピー数の分析に使用されるこの方法の変形型はゲノム非負値行列因子分解(gNMF)と称される(Carrascoら、2006年;Maherら、2006年)。試料セットに対して平滑化されたコピー数のデータのnxm行列V(nはセグメントの数であり、mは試料の数である)を与えると、gNMFアルゴリズムは式(4)に示すように行列Vをnxr行列Wおよびrxm行列Hに因子分解する:
V=W*H+e (4)
(式中、Wは各サブグループに対する標準モデルとみなすことができ、Hは各サブグループに属する各試料の相対的な重量とみなすことができ、eはモデル適合の剰余を表し、rはクラスタリングされるサブグループの数である(通常mよりもずっと小さい))。入力としてrおよびVを与えると、gNMFアルゴリズムはまずWおよびHの初期値をランダムに設定し、次いで、式(5)および(6)に従った乗法更新ルールを用いてWおよびHを繰り返し更新する:
【0053】
【数12】


式中、aは1からrまでにわたり、μは1からmまでにわたり、iは1からnまでにわたる。
【0054】
「ピアソンの線形非類似性」は、式(7)を指す:
【0055】
【数13】

式中、x→およびy→は長さnの2つのベクトルであり、ρ(x→、y→)は式(8)を有するピアソンの線形相関である:
【0056】
【数14】

式中、試料の標準偏差sおよびsは式(9)を有し:
【0057】
【数15】

試料の平均は式(10)を有する:
【0058】
【数16】

「ランダムフォレスト」は、予測木を、独立にサンプリングされたランダムベクターの値に各木が依存するように、またフォレスト内のすべての木が同じ分布を持つように組み合わせて使用する教師あり学習アルゴリズムを指す(Breiman、2001年)。
【0059】
ランダムフォレストは、多くの分類木を成長させる。新しい目的物を入力ベクターから分類するために、入力ベクターをフォレスト内の木それぞれに置く。各木から分類が与えられ、それは木がクラスに「投票する」と言われる。フォレストは、最も多い票(フォレスト内のすべての木にわたって)を有する分類を選出する。各木は以下の通り成長する:
1.訓練セット内の事象の数がnである場合、n個の事象をランダムにサンプリングするが、元のデータからの置き換えがある。この試料は、木を成長させるための訓練セットになる。
2.m個の入力変数がある場合、数m<<Mは、各結節において、m個の変数がMからランダムに選択され、結節を分割するためにこれらのm個の変数に対する最良の分割が使用されるように特定される。mの値はフォレストが成長する間、一定に保たれる。
3.各木は可能な限りの最大規模まで成長させる。剪定はしない。
【0060】
フォレストのエラー発生率は2つの因子に左右される:
1.フォレスト内の任意の2つの木間の相関。相関が大きくなるとフォレストのエラー発生率が増加する。
2.フォレスト内の個々の木それぞれの強度。エラー発生率が低い木は強力な分類器である。個々の木の強度が増加すると、フォレストのエラー発生率が減少する。
【0061】
オリゴヌクレオチドまたはポリヌクレオチドは、長さが少なくとも2ヌクレオチド、好ましくは少なくとも8ヌクレオチド、より好ましくは少なくとも20ヌクレオチドまでにわたる核酸またはポリヌクレオチドに特異的にハイブリダイズする化合物である。ポリヌクレオチドとしては、デオキシリボ核酸(DNA)またはリボ核酸(RNA)が挙げられる。ポリヌクレオチドの別の例は、ペプチド核酸(PNA)である。
【0062】
プローブは、特定の標的に認識され得る表面固定分子である。
【0063】
「固体支持体」、「支持体」および「基質」は互換的に使用され、1つ以上の硬質または半硬質の表面を有する材料または材料群を指す。
【0064】
「ハイブリダイゼーション」は、ワトソン・クリックの塩基対合または非標準の塩基対合によって複合体を形成するために十分相補的な核酸配列間の複合体の形成を指す。例えば、プライマーが標的配列(鋳型)と「ハイブリダイズする」際、そのような複合体(またはハイブリッド)は、例えば、DNA合成を開始するためにDNAポリメラーゼが必要とするプライマー機能を果たすために十分に安定である。ハイブリダイズする配列は、安定なハイブリッドをもたらすために完全な相補性を有する必要はない。多くの場合、安定なハイブリッドは、約10%未満の塩基がミスマッチである場合に形成される。本明細書で使用する、「相補的な」という用語は、アッセイ条件下で、一般に約80%超、約81%超、約82%超、約83%超、約84%超、約85%超、約86%超、約87%超、約88%超、約89%超、約90%超、約91%超、約92%超、約93%超、約94%超、約95%超、約96%超、約97%超、約98%超または約99%超の相同性でその相補物と安定な二本鎖を形成するオリゴヌクレオチドを指す。当業者は、少なくとも所望のレベルの相補性を有する配列が安定にハイブリダイズするが、低い相補性を有する配列は安定にハイブリダイズしないように、ハイブリダイゼーション条件の厳密性をどのように見積もり、調整するかを理解している。ハイブリダイゼーション条件およびパラメータの例は周知である(Ausubel、1987年;SambrookおよびRussell、2001年)。
【0065】
核酸アレイ(「アレイ」)は、固体支持体に付着した核酸プローブを含む。アレイは、一般には、異なる既知の位置で基質の表面に結合する、複数の異なる核酸プローブを含む。これらのアレイは、マイクロアレイとも記載され、「チップ」は、当技術分野において例えばU.S.Pat.No.5,143,854、5,445,934、5,744,305、5,677,195、6,040,193、5,424,186および(Fodorら、1991)に一般に記載されている。これらのアレイは、一般に、フォトリソグラフィー法および固相合成法の組合せを組み込んだ機械的な合成方法または光指向性合成方法を使用して作製され得る。機械的な合成を使用するアレイの合成技法は、例えば、U.S.Pat.No.5,384,261に記載されている。平面のアレイ表面が好ましいが、アレイは実質的にどんな形状の表面にも作り上げることができ、多重の表面にさえ作り上げることができる。アレイは、例えば、U.S.Pat.No.5,770,358、5,789,162、5,708,153、6,040,193および5,800,992に記載のように、ビーズ、ゲル、ポリマー表面、光ファイバーなどのファイバー、ガラスまたは任意の他の適切な基質上の核酸であり得る。アレイは、すべてを含んだデバイスでの診断または他の操作が可能になるように一括され得る。例えば、U.S.Pat.No.5,856,174および5,922,591を参照されたい。
【0066】
アレイは、一塩基多型(SNP)を使用して、ゲノム全体を包含するように設計され得る。例えば、アレイは、ヒトゲノム中の116,204個の一塩基多型(SNP)遺伝子座を包含し得、マーカー間の平均距離は23.6kb SNP遺伝子座である。
【0067】
「標識された」および「検出可能な標識(または作用剤または部分)で標識された」は、互換的に使用され、実体(例えば、DNA断片、プライマーまたはプローブ)が、例えば、別の実体(例えば増幅産物)に結合した後に可視化され得ることを明示する。検出可能な標識は、その標識が測定され得るシグナルを生成し、その強度が結合した実体の量に関連する(例えば、比例する)ように選択され得る。プライマーおよびプローブなどの核酸分子を標識および/または検出するための多種多様なシステムが周知である。標識された核酸は、分光的な方法、光化学的な方法、生化学的な方法、免疫化学的な方法、電気的な方法、光学的な方法、化学的な方法または他の方法によって直接的または間接的に検出可能な標識を組み込むまたはコンジュゲートすることによって調製され得る。適切な検出可能な作用剤としては、放射線核種、蛍光体、化学発光剤、微粒子、酵素、比色標識、磁気標識、ハプテンなどが挙げられる。
【0068】
「プローブ」は、CGHマイクロアレイ、SNPマイクロアレイまたは適切な条件下で標的配列の少なくとも一部分と選択的にハイブリダイズすることができる、当技術分野で公知の任意の他のマイクロアレイと関連して使用するために設計されたオリゴヌクレオチドを指す。一般に、プローブ配列は、「相補的」(すなわち、コード鎖またはセンス鎖(+)に対して相補的)または「逆相補的」(すなわち、アンチセンス鎖(−)に対して相補的)のいずれかであると同定される。プローブは、約10−100ヌクレオチド、好ましくは約15−75ヌクレオチド、最も好ましくは約15−50ヌクレオチドの長さを有することができる。
【0069】
「医薬組成物」または「薬物」は互換的に使用され、小分子(例えば、一般には非ペプチド性の活性薬剤を含有する薬物)であろうと生物製剤(例えば、ペプチド、タンパク質または抗体に基づいた薬物、ペグ化などの修飾を伴う任意の薬物を含む)であろうと、少なくとも1種の癌に罹患している対象または患者を治療するために使用され得る任意の作用剤を指す。
【0070】
「細胞」は、腫瘍、細胞系、または対象に由来し得る。
【0071】
「療法」または「治療レジメン」は、疾患の影響または症状を低減または除去すること、または1つの状態から二次的な好ましくない状態に疾患が進行するのを防ぐことを意図した治療過程を指す。治療レジメンは、処方された薬物、外科的手術または放射線治療を含み得る。対象の腫瘍のコピー数のプロファイルは、選択された療法の副作用および有効性にも影響を及ぼす可能性がある。本発明において、対象の腫瘍のコピー数のプロファイルは、最も有効である可能性が高い療法または治療レジメンを決定するために使用され得る。
【0072】
「対象」または「患者」は、哺乳動物および非哺乳動物を含む。哺乳動物の例としては、ヒト、チンパンジーおよび類人猿種およびサル種などの他の霊長類;ウシ、ウマ、ヒツジ、ヤギ、ブタなどの家畜動物;ウサギ、イヌおよびネコなどの家庭動物;ラット、マウスおよびモルモットなどのげっ歯類を含めた実験動物が挙げられる。非哺乳動物の例としては、鳥類および魚類が挙げられる。
【0073】
「治療する」「治療すること」および「治療」は、予防的および/または治療的に、疾患または状態の症状を緩和する、和らげるまたは改善すること、追加の症状を予防すること、根底にある症状の代謝性の原因を改善または予防すること、疾患または症状を阻害すること、例えば、疾患または状態の発生を抑えること、疾患または状態を軽減すること、疾患または状態の退縮を引き起こすこと、疾患または状態によって引き起こされた状態を軽減すること、または疾患または状態の症状を止めることを意味する。
【0074】
発明の実施
本発明の方法において、コピー数のプロファイルの参照データベースが作成され、そこでMM細胞を含む複数(m個)の試料におけるゲノムのコピー数が決定される(mは1から5,000,000までの整数である。例えば、複数の試料は、2個、5個、10個、15個、20個、25個、50個、100個、200個、500個、1,000個、10,000個、50,000個、100,000個の試料、250,000個の試料、500,000個、1,000,000個の試料などであり得る)。次に、MM細胞はコピー数のパターン、コピー数のプロファイルに従ってゲノムサブグループに分類される。これらのサブグループのそれぞれは、遺伝子型に基づいた分類を表すだけではなく、種々の治療介入に対する特徴的な応答性も示すことが予想される。例えば、サブグループの1つが放射線に対して感受性である一方、別のサブグループは化学療法などの薬学的介入に対して感受性である可能性がある。
【0075】
コピー数の変化は、MMに罹患している、または罹患する危険性がある対象から得られ得るMM細胞において検出される。そのような細胞は、常用の技法を使用して得られ得る。例えば、腫瘍は、癌に罹患しているまたは罹患している疑いがある対象から外科的に解剖され、次いで、即座に、例えば−80℃で凍結され得る。
【0076】
対象を分類することを可能にする、異なるサブグループのデータベースを開発するために、MM腫瘍および癌細胞系が、商業的にまたは公共の供給源から得られ得る。有用な細胞系セットを表1に示す。表中、ATTCは、American Type Culture Collection (Manassus、VA)であり、CLSは、Cell Line Service (Germany)であり、DSMZは、Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH (Braunschweig、Germany)である。
【0077】
MM細胞および癌細胞系からの追加のコピー数およびコピー数の変化の情報は、National Center for Biotechnology Information(NCBI)から入手可能なGene Expression Omnibus(GEO)、Dana Farber Cancer Instituteのウェブサイトからの、オンラインのBroad Institute/Dana Farber Cancer Institute internet Portalなどからなど、いくつもの市販の供給源または公共の供給源から得られ得る。
【0078】
【表1】


【0079】
腫瘍および癌細胞系が得られたら、ゲノムDNA(gDNA)は、フェノールクロロホルム抽出、塩析、消化なしの抽出などの常用の技法を使用して、またはDNEasy(登録商標)キットまたはQIAAMP(登録商標)キット(Qiagen、Valencia、CA)などの市販のキットを使用することによって、腫瘍または細胞系のそれぞれから抽出される。次に、腫瘍または細胞系のそれぞれから得られたgDNAは、分析を容易にするために修飾または変更され得る。例えば、プライマー配列またはアダプター配列が、常用の技法を使用してgDNAにライゲーションされ得る。例えば、gDNAは最初に、HindIIIまたはXbaIなどの制限エンドヌクレアーゼで消化され得る。消化されたら、1つ以上のプライマー配列またはアダプター配列が消化されたgDNAにライゲーションされ得る。アダプターは粘着性の4塩基対突出を認識するものであることが好ましい。
【0080】
単離されたDNAは慣例的な方法を使用して増幅される。有用な核酸の増幅方法としては、ポリメラーゼ連鎖反応(PCR)が挙げられる。PCRは、それぞれが参照により本明細書に組み込まれている、いくつもの参照文献に記載されている(Innis、1990年;Innisら、1995年;McPhersonら、1991年;Saikiら、1986年;Sninskyら、1999年);およびU.S.Patent No.4,683,195、4,683,202および4,889,818。PCRの変形型としては、TAQMAN(登録商標)に基づいたアッセイ(Hollandら、1991年)および逆転写酵素ポリメラーゼ連鎖反応(RT−PCR、例えば、それぞれが参照により本明細書に組み込まれているU.S.Patent No.5,322,770および5,310,652に記載されている)が挙げられる。
【0081】
一般に、プライマーの対が、標的核酸の相補鎖とハイブリダイズさせるために、単離されたgDNAに添加される。腫瘍または癌細胞系から得られたgDNAが消化され、プライマー配列またはアダプター配列にライゲーションされれば、そのときは、増幅方法において使用されたプライマーの1つがアダプター配列を認識することが好ましい。増幅方法において使用されたプライマーが、250から2000までの塩基対のサイズ範囲で断片を増幅することも好ましい。
【0082】
増幅が完了すると、生じた増幅DNAは、MINELUTE(登録商標)96 UF PCR Purificationシステム(Qiagen)などの常用の技法を使用して精製される。精製された後、増幅DNAは、次いで超音波処理またはDNaseIなどの酵素的消化などの常用の技法を使用して断片化される。断片化された後、DNAは検出可能な標識で標識される。DNAおよびDNA断片を標識する方法は周知である。
【0083】
多種多様な検出可能な標識はいずれも使用され得る。適切な検出可能な標識としては、種々のリガンド、放射線核種(例えば、32P、35S、H、14C、1251、131Iなど);蛍光色素;化学発光剤(例えば、アクリジニウムエステル、安定化ジオキセタンなど);スペクトルで解像可能な無機蛍光半導体ナノ結晶(例えば、量子ドット)、金属ナノ粒子(例えば、金、銀、銅および白金)またはナノクラスター;酵素(例えば、西洋ワサビペルオキシダーゼ、ベータガラクトシダーゼ、ルシフェラーゼ、アルカリホスファターゼ);比色標識(例えば、色素、コロイド金など);磁気標識(例えば、DYNABEADS(商標));およびビオチン、ジゴキシゲニンまたは他のハプテンおよびタンパク質が挙げられるが、これらに限定されない。
【0084】
増幅されたら、断片化されたDNAは検出可能な標識で標識され、常用の技法を使用してマイクロアレイにハイブリダイズされる。マイクロアレイは、ゲノムの増加および減少を探すために比較的なゲノムハイブリダイゼーション(CGH)において使用され得るオリゴヌクレオチド、遺伝子またはゲノムクローンを含有し得る。あるいは、マイクロアレイは、一塩基多型(SNP)などの突然変異または多型を検出するオリゴヌクレオチドまたはゲノムクローンを含有し得る。マイクロアレイは、当技術分野で公知の常用の技法を使用して製造され得る。あるいは、市販のマイクロアレイが使用され得る。使用され得るマイクロアレイの例は、AFFYMETRIX(登録商標)GENECHIP(登録商標)Mapping 100K Set SNP Array(Matsuzakiら、2004年)(Affymetrix、Inc.、Santa Clara、CA)、Agilent Human Genome aCGH Microarray 44B(Agilent Technologies、Inc.、Santa Clara、CA)、Illuminaマイクロアレイ(Illumina、Inc.、San Diego、CA)、Nimblegen aCGHマイクロアレイ(Nimblegen、Inc.、Madison、WI)などである。
【0085】
ハイブリダイゼーションされた後、マイクロアレイは、ハイブリダイズしていない核酸を取り除くために常用の技法を使用して洗浄される。洗浄された後、マイクロアレイは、リーダーまたはスキャナーで分析される。リーダーおよびスキャナーの例としては、GENECHIP(登録商標)Scanner 3000 G7(Affymetrix、Inc.)、Agilent DNA Microarray Scanner(Agilent Technologies、Inc.)、GENEPIX(登録商標)4000B(Molecular Devices、Sunnyvale、CA)などが挙げられる。マイクロアレイに含有されるプローブから集められたシグナルは、AffymetrixまたはAgilent Technologiesによって供給されているものなどの市販のソフトウェアを使用して分析され得る。例えば、AffymetrixからのGENECHIP(登録商標)Scanner 3000 G7が使用される場合、AFFYMETRIX(登録商標)GENECHIP(登録商標)Operating Softwareが使用され得る。AFFYMETRIX(登録商標)GENECHIP(登録商標)Operating Softwareは、すべてのプローブからのシグナルを検出するAFFYMETRIX(登録商標)GENECHIP(登録商標)スキャナーからの生データ(シグナル)または特徴データ(シグナル)を収集し、抽出する。生データまたは特徴データは、CELファイル(CELファイルの形式はWindows(登録商標) INI形式と同様のASCIIテキストファイルである。)、CHIPファイル、CNTファイル、メタプローブセットファイルまたはプレーンテキストファイルなどの任意の適切なファイル形式の1つに電子的に保管され得る。
【0086】
マイクロアレイから収集および抽出されたデータは、各染色体上の遺伝子座のそれぞれにおけるコピー数を決定するため、およびコピー数の変化領域を定義するために処理される。そのような処理は、バイナリーサーキュラー(Binary Circular)分割(Olshenら、2004年)、DNAの増加および減少の分析(Gain and Loss Analysis of DNA)(GLAD)(Hupeら、2004年)、隠れマルコフモデルに基づいた手法(Fridlyandら、2004年;Zhaoら、2004年)、またはクラスタリング手法(Wangら、2005年)などの公知のアルゴリズムを用いて行われ得る。あるいは、PARTEK(登録商標)GENOMICSUITE(商標)ソフトウェア、例えば6.08.0103バージョン(Partek、St.Louis、MOから入手可能)、GenePattern(オンラインで入手可能;(Reichら、2006年))およびdChip(オンラインで入手可能;(LiおよびHung Wong、2001年;LiおよびWong、2001年)などの市販のソフトウェアが使用され得る。
【0087】
例えば、PARTEK(登録商標)GENOMICSUITE(商標)ソフトウェア、例えば6.08.0103バージョンが使用される場合、スキャナーによって検出される、マイクロアレイ中のすべてのプローブからのシグナルを含有するCELファイルがソフトウェアにローディングされ得る。コピー数は、あらかじめ設定した基線(あらかじめ設定した基線を確立するために使用された数は決定的ではなく、整数(n)であり、nは1から100までである。例えば、あらかじめ設定した基線は2であり得る。)に対して補正した後、マイクロアレイから決定された腫瘍または癌細胞系の試料についてのシグナル強度と、参照または対照のシグナル強度を比較することによって計算される。使用される参照または対照は、同じマイクロアレイプラットフォームによって測定される腫瘍試料と同じ患者からの正常な組織試料のセットまたは正常な組織の対であり得る。参照または対照は、少なくとも5個の試料、少なくとも10個の試料、少なくとも15個の試料、少なくとも20個の試料、少なくとも25個の試料、少なくとも30個の試料、少なくとも35個の試料、少なくとも40個の試料、少なくとも45個の試料、少なくとも50個の試料、少なくとも75個の試料、少なくとも100個の試料、少なくとも150個の試料、少なくとも200個の試料、などを含むことができる。
【0088】
次いで、得られたコピー数のデータは分割され、各試料においてコピー数の変化領域が検出される。コピー数の変化領域の分割および検出は、以下の制御パラメータを使用して得られ得る:
(i)コピー数領域は少なくとも100個のプローブを含有しなければならない;
(ii)コピー数領域の平均コピー数と隣接するコピー数領域を比較したp値は0.00001未満でなければならない;
(iii)トランジションのシグナル/ノイズ比は0.1超でなければならない。
コピー数の変化領域は、これらの領域における平均コピー数が実質的に1.65未満である(欠失)または2.65超である(増加)場合に、0.01を下回るp値を伴って検出され得る。
【0089】
腫瘍試料はコピー数の変化のシグナルを弱める可能性がある正常細胞を相当な割合で含有する可能性があるので、機械学習アルゴリズムは、腫瘍試料および癌細胞系試料のコピー数のパターンと正常試料のコピー数のパターンの間の差異を捕捉するために使用され得る。そのようなアルゴリズムは、さらなる分析から正常細胞が混入した腫瘍試料を同定し、排除するために使用され得る。したがって、このアルゴリズムは、データの品質管理に役立ち、「データの品質管理アルゴリズム」と称される。
【0090】
データの品質管理アルゴリズムは、本明細書で前記したように、腫瘍試料および癌細胞系試料からのコピー数の変化領域の数が最も多い試料のサブセット(以下、第1の試料セット)を選択することを含む。正常な試料セットも選択される(以下、第2の試料セット)。これらの第1の試料セットおよび第2の試料セットは、第1の試料セットと第2の試料セットの間の差異を最もよく表すようにアルゴリズムのパラメータを合わせることによって、試料が「正常」試料または「腫瘍」試料のいずれであるかを分類するための機械学習アルゴリズムを開発するための訓練セットとして使用される。訓練された分類器は、各試料に対してスコアを割り当てるために、残りの腫瘍または癌細胞系の試料に適用される。このスコアは、各試料の、正常細胞が混入している確率を表す。50%を超える混入確率を有する試料は、続くクラスタリング解析から除外される。この目的で使用され得る機械学習アルゴリズムとしては、ランダムフォレスト(RF)(Breiman、2001年)、サポートベクターマシン(SVM)(Vapnik、1995年)、再帰的SVM(Zhangら、2006年)、最小角度回帰(LARS)(Efronら、2004年)などが挙げられる。
【0091】
マイクロアレイから得られたコピー数のデータは密度が高くノイズが多い傾向があるので、コピー数のデータは、ノイズレベルを低下させ、次元を縮小させ(「次元縮小」とも称される)、データの複雑さを低減するために平滑化され得る。データの平滑化は、最初に、常用の技法を使用して、各試料において有意に増加または欠失したコピー数領域を検出することによって行われ得る。そのような領域が同定されたら、隣接する領域が、同様のコピー数の変化を有する場合、およびこれらの領域間の距離が500キロ塩基未満である場合、合併され得る。次いで、ゲノム全体が、データセット内のすべての試料からの区切り点の連結を使用して分割され得、各セグメントのコピー数が、各セグメント内のSNPプローブのコピー数を平均することによって計算され得る(Carrascoら、2006年)。データの平滑化によって、各試料からのコピー数の増加および欠失が良好に解像され得る。
【0092】
データの平滑化および次元縮小をした後、データセットは、腫瘍および癌細胞系の試料のそれぞれの間の相対的な類似性の概要を得るため、およびこれまでにデータ内に存在しているサブグループの数(本明細書ではr個のサブグループとも称される)の見積もり(例えば、大まかな見積もり)を得るために、教師なしクラスタリング手法に供される。データの平滑化および次元縮小をした後、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリング手法が、「データセット」またはVと称される平滑化された腫瘍および細胞系のコピー数のデータセットに適用される。クラスタリングパターンが、データセット内の予想されるサブグループの数、rの範囲を導くために、プロットされ、視覚的に検査され得る(データセット内の予想されるサブグループの数の範囲は、1から100までの整数(n)になる)。使用され得る教師なしクラスタリング手法の例としては、階層クラスタリング、主成分分析(PCA)(Pearson、1901年)または多次元尺度構成法(MDS)(BorgおよびGroenen、2005年)が挙げられるが、これらに限定されない。次いで、サブグループの数(それぞれが「r値」と称され、各r値は1から100までの整数である。)が、ゲノム非負値行列因子分解(「gNMF」)を使用したクラスタリング解析において入力として使用される。
【0093】
以前のgNMFのクラスターCGHデータへの適用において(Carrascoら、2006年;Maherら、2006年)、アルゴリズムは、所定のステップ数(例えば100)の後、腫瘍または癌細胞系の試料のサブグループの割り当てに変化がなかったところで停止された。模擬データならびに実際のCGHデータを用いた試験に基づいて、この基準は、gNMFアルゴリズムをあまりにも早く停止する(例えば、終結させる)と考えられる。したがって、gNMFアルゴリズムは、選択されたステップ数(選択されたステップ数は決定的ではなく、例えば、5ステップ、10ステップ、25ステップ、50ステップ、100ステップ、200ステップなど、1から1000までの整数(n)である。)の乗法的更新の後に、データセットからのアルゴリズムの発散が式(11)を使用して計算されるように改変され得る:
【0094】
【数17】

(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)。
【0095】
上記の式を使用して、反復性のアルゴリズムは、上記で計算された発散が、前の、または事前に選択された、アルゴリズムの乗法的更新のステップ数(例えば100)に対して計算された発散と比較して、約0.001%超減少していない場合に停止する(本明細書では「停止基準」とも称される)。gNMFアルゴリズムに対するこの改変によってクラスタリングの正確度が有意に改善されたことが分かっている。
【0096】
gNMFは確率論的な手順であるので、アルゴリズムは、異なる初期値から開始された場合、異なる転帰を生成し得る。クラスタリングアルゴリズムの性能をさらに改善するために、新規の複数開始戦略が開発された。各データセットについて、この戦略は上記の停止基準を使用し、gNMFアルゴリズムをランダムに開始し、選択された実行回数繰り返す(アルゴリズムがランダムに開始され繰り返され得る、選択された実行回数は、例えば、1、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、350など、1から1000までの整数(n)である。)ことを含む。アルゴリズムがそのランダムに選択された実行回数を完了したら、これらの実行のそれぞれに対して、式(12)を使用してHのピアソン相関係数行列が計算される:
【0097】
【数18】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i,H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはサブグループの数(本明細書においてあらかじめ決定された)である)。各実行に対してHのピアソン相関係数行列が決定されたら、相関行列が平均される。最終的なクラスタリングの結果は、1引く(距離行列として平均相関行列)を用いた教師なしクラスタリング手法(例えば、階層クラスタリングアルゴリズムなど)を実行し、デンドログラムをr個のサブグループにカットすることによって導かれ得る。
【0098】
例えば、gNMFアルゴリズムがランダムに200回実行された場合、200回の実行後、200回のランダムなgNMFの実行のそれぞれの出力からのHのピアソン相関係数行列が、上記の式を使用して計算される。次いで、200回の実行を通して相関行列が平均される。最終的なクラスタリングの結果は、1引く(距離行列として平均相関行列)を使用した階層クラスタリングアルゴリズムを実行し、デンドログラムをr個のサブグループにカットすることによって導かれ得る。
【0099】
最終的なクラスタリングの結果が得られたら、次いで、コーフェン相関係数、ベイズ情報量規準(BIC)またはコーフェン相関とBICの組合せが、これらの腫瘍および細胞系の試料の遺伝子パターンの分布を最も反映する最良のモデル(すなわち、最良のクラスター数およびクラスターの1つへの各試料の最良の割り当て)を選択するために用いられる。対数正規分布が、DNAコピー数の適合に広く使用されているので(Hodgsonら、2001年)、この分析において使用され得る。尤度を計算するために、各クラスター内の試料は、各セグメントの平均コピー数が対数正規分布に従う場合、同じ多変量対数正規分布に由来すると仮定され得る。セグメント間の相関が弱い場合、独立性が計算におけるセグメント間に仮定され得る。この場合、得られる対数尤度、式(13)は、
【0100】
【数19】

(式中、rはクラスターの数であり、nはクラスターi内の試料の数であり、mはセグメントの数であり、yijはi番目のクラスター内のj番目の試料のt番目の対数変換されたコピー数であり、μitはi番目のクラスター内のt番目の対数変換されたコピー数の平均であり、σitはi番目のクラスター内のt番目の対数変換されたコピー数の標準偏差である。このとき、特定されたモデルにおけるパラメータの数kは2×r×mになる。)である。
【0101】
何度も、教師なしクラスタリングにおいて最良のモデルを選択するための基準としてコーフェン相関係数およびBICの両方を用いる場合、これらの2つのアルゴリズムは多くの場合同じモデルを選択する。
【0102】
10倍安定性検定の手順が、クラスタリングの結果の安定性を評価するために使用され得る。10倍安定性検定は以下の通り行われ得る。データセットに対してgNMFを実行し、試料をクラスターに割り当てた後、少なくとも約10%の腫瘍および癌細胞系の試料が除外され、2回目の上記の改変gNMFアルゴリズムが、残りの90%の腫瘍および癌細胞系の試料に対して実行される(少なくとも約15%の腫瘍および癌細胞系の試料が除外される場合、2回目の上記のgNMFアルゴリズムが、残りの85%の腫瘍および癌細胞系の試料に対して実行される、など。)。次いで、異なるクラスターに割り当てられた試料の数が、この並べ替えの結果として計算される。この検定は、当技術分野で公知の常用の技法を使用してエラー発生率を導くために、選択された回数繰り返される(この検定は、1回から1000回まで繰り返され得る。例えば、この検定は、1回、20回、25回、50回、100回、200回、500回、750回、1000回など、繰り返され得る。)。このエラー発生率は、腫瘍および癌細胞系の試料の並べ替えに関してクラスタリングの結果の安定性を表す。この10倍安定性検定は、同じデータセット(腫瘍および癌細胞系の試料)を用いた教師なしクラスタリング手法(例えば階層クラスタリング)において使用され得る。
【0103】
これらの方法を使用して、MM細胞を有する腫瘍およびMM細胞系が、ゲノムサブグループに分類され得る。最初に、十分な数のMM腫瘍およびMM細胞系が、上記の方法体系を使用して別個のサブグループにクラスタリングされる。これらのサブグループのそれぞれから、サブグループのそれぞれからの少なくとも1つの細胞系が選択され、パネルに加えられ、したがって、各パネルはゲノムサブグループを含む。したがって、得られたパネルはMMのすべてのゲノムサブタイプを適切に表している。このパネルは、MMに対する医薬組成物または薬物の試験の前臨床モデルとして使用され得、したがって、検討している腫瘍の種類のゲノム多様性の総括的な適用範囲をもたらし得る。
【0104】
適用
診断パネルを構築すると、MMの診断に対する感受性が増加する。これから対象はMMについて診断されるだけでなく、対象は、分類パネルにおける対象のMM遺伝子型の分類に基づいてMMの「ゲノム型」についても診断され得る。このように、治療の成功を高め、対象の生活の質を改善する標的治療介入が施され得る。
【0105】
本発明の診断方法において、少なくとも1つのMM細胞を含有すると疑われる試料を得る。次いで、試料中の細胞は、元の診断パネルを確立するために使用されたものと同じプローブおよびパラメータ、またはコピー数の変化を検出することができる任意の他のプローブおよびパラメータのセットを使用したマイクロアレイに供され、マイクロアレイ分析からのデータセットは、どのサブグループと対象のMMの遺伝子型が似ているかを決定するために処理される。次いで、対象のMMの遺伝子型がそのサブグループに割り当てられる。
【0106】
サブグループの情報から、治療介入および試行実験が設計される。例えば、MMの遺伝子型に関連して治療の成功についてデータが入手可能になるので、対象は、対象のMMの遺伝子型およびサブグループの分類に基づいて、最も高いMMの治療確率を有する治療を施され得る。このように、最も侵襲性の治療(外科手術)が信頼でき、対象の寛解および治療中の高い生活の質の両方の可能性が高くなるので、試行錯誤の治療が大幅に減少する。対象の生活の質は、治療期間および治療介入の数が減少するため、改善される。
【0107】
治療が確立されていない場合、治療介入は、細胞パネルのデータを使用して決定され得る。例えば、細胞系S、K、IおよびNが単一のサブグループに入る場合、これらは潜在的な有効性に対する種々の治療オプションのインビトロにおける試験に供され得る。クラスター内の最多数の細胞系に対する有害作用を有するのに有効な治療介入は、それらの介入が対象を有効に治療する可能性が最も高いことを表している。
【0108】
発生部位を越えて転移していないメラノーマを含めたMMに対する治療介入は、
一次病巣の顕微鏡的に判定された病期(microstage)に釣り合ったマージンを伴う外科的切除である;厚さが2mm以下である病巣のほとんどに対して、放射状再切除マージンは1cmになる。
【0109】
Breslow thicknessが2mm以上であるメラノーマの治療は、通常、Breslow thicknessおよび解剖学的位置に基づいたマージンを伴う外科的切除である。厚さが2mmから4mmまでを超えるメラノーマのほとんどに対して、放射状切除マージンは2cmから3cmまでになる。4mmを超えるBreslow thicknessを有するメラノーマを持つ対象は、通常、高用量のインターフェロンを用いたアジュバント療法について考慮される。
【0110】
局所リンパ節に転移している一部のメラノーマは、原発腫瘍の広範囲局所切除および関係している局所リンパ節の除去で治療され得る。アジュバント高用量インターフェロンにより生存期間が延長し得る。現在利用可能なアジュバント化学療法では通常生存期間が改善されない。
【0111】
遠隔部位に転移しているメラノーマは、標準療法で治療することが難しいが、高用量インターロイキン−2(IL−2)は一部の対象において応答を生じ得る。他の治療としては、化学療法、生体応答修飾物質(特異的なモノクローナル抗体、インターフェロン、IL−2または腫瘍壊死因子アルファなど)、ワクチン免疫療法または生化学療法(化学免疫療法)の組合せが挙げられる。
【0112】
代表的な細胞系および腫瘍試料は、MMを治療するための治療介入の能力を評価するインビトロにおける試験に供され得る。例えば、細胞系は、単独および組み合わせた種々の化学療法剤に対するその感受性についてアッセイされ得る。複数の細胞系が1つ以上の介入に対して同様に応答する場合、そのときはそれらの介入が対象に施すために選択される。したがって、細胞パネルは、インビトロで、最終的に、MMコピー数のプロファイルに基づいた治療に役立つ行列をもたらす実在の治療データによって増大し得る。
【0113】
別の実施形態において、本発明の方法は、MM細胞を分類するためのプローブパネルを構築することに関する。ゲノムサブグループのデータベースは、各サブグループに対して、最も特徴的なコピー数の異常について分析され、プローブが、これらの領域を検出するために設計される。プローブは、元のマイクロアレイ分析手順において使用される、または個別の特性に対して設計および最適化されたプローブのサブセットであり得る。一実施形態において、そのようなプローブは、FISHプローブである。別の実施形態において、そのようなプローブパネルはキットで提供される。
【0114】
他の実施形態において、キットは、MM細胞を分類するために提供され、例えば、ゲノムサブグループによってMM細胞を分類するデータベースを構築するための説明書、および、各細胞系またはgDNAがゲノムサブグループを表している少なくとも第1、第2、第3、第4、第5および第6の細胞系またはそれらの単離ゲノムDNAを含有する。例えば、第1の細胞系またはgDNAは、SKMEL119、HS944、WM1366、WM88であり得;第2の細胞系は、WM3248であり得;第3の細胞系は、1205LUであり得;第4の細胞系は、451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63、WM35、WM983またはWM983Cであり得;第5の細胞系は、WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793Bまたは501MELであり得;および第6の細胞系は、MELME3MまたはWM882であり得る。
【0115】
キットは、プローブパネルならびに正常であるまたはMM細胞でない、対照の細胞系またはgDNAを含み得る。
【0116】
(実施例)
以下の実施例は例示する目的のみのものであり、特許請求された発明を限定するものと解釈されるべきではない。所期の発明を同様に首尾よく実行することができる種々の代替の技法および手順が、当業者にとって利用可能である。
【0117】
MMを分類することに関する本発明の方法は、図1に要約されている。
【実施例1】
【0118】
細胞系および腫瘍組織試料のCGHデータ
本発明者らは、30のメラノーマ細胞系および109のメラノーマの短期培養物についてのCGHデータを、種々の発表された供給源(Greshockら、2007年;Linら、2008年)から集め、メラノーマの分類モデルを確立した。この研究において使用された細胞系の供給源は表1に列挙されている。これらのデータは、AffymetrixのGENECHIP(登録商標)Mapping 250K STY SNPアレイを使用して、製造者の指示に従って取得された。
【0119】
コピー数のデータは、AFFYMETRIX(登録商標)SNPマイクロアレイ、Agilent aCGHマイクロアレイ(Agilent、Inc.、Santa Clara、CA)、ILLUMINA(登録商標)マイクロアレイ(Illumina、Inc.、San Diego、CA)およびNIMBLEGEN(登録商標)aCGHマイクロアレイ(Nimblegen、Inc.、Madison、WI)の他のバージョンなどの他のSNPまたはCGHマイクロアレイプラットフォームを使用しても得られ得る。
【実施例2】
【0120】
ステップ2:コピー数の決定およびコピー数の変化の検出
Genomic Suiteソフトウェア(バージョン6.08.0103)(Partek; St.Louis、MO)が、各遺伝子座のコピー数を決定し、コピー数の変化領域を定義するためのデータを低レベル処理するために使用された。すべてのSNPプローブに対するシグナルを含有するCELファイルが、ソフトウェアにローディングされ、コピー数が、腫瘍または細胞系の試料に対するシグナル強度を、基線2に対して補正された、正常な雌性組織試料90個の参照セットに対するシグナル強度と比較することによって計算された。参照セットは、同じマイクロアレイプラットフォームによって測定された、他の正常試料のセットまたは腫瘍試料と同じ患者からの対合正常組織からなってもよい。
【0121】
得られたプローブレベルのコピー数のデータは分割され、各試料におけるコピー数の変化領域が検出された。具体的には、プローブレベルのコピー数は、以下の制御パラメータを使用して領域に分割された:
(i)領域は少なくとも100個のプローブを含有しなければならない;
(ii)領域の平均コピー数と隣接するコピー数領域を比較したp値は0.00001未満でなければならない;
(iii)トランジションのシグナル/ノイズ比は0.1超でなければならない。
コピー数の変化領域は、これらの領域の平均コピー数が1.65未満である(欠失)または2.65超である(増加)場合に、0.01を下回るp値を伴って検出された。
【0122】
コピー数の分割およびコピー数の変化の検出は、バイナリーサーキュラー(Binary Circular)分割(Olshenら、2004年)、DNAの増加および減少の分析(Gain and Loss Analysis of DNA)(GLAD)(Hupeら、2004年)、隠れマルコフモデルに基づいた手法(Fridlyandら、2004年)(Zhaoら、2004年)、またはクラスタリング手法(Wangら、2005年)などの他のアルゴリズムによっても活性化され得る。これらの方法は、GenePattern(Reichら、2006年)およびdChip(LiおよびHung Wong、2001年;LiおよびWong、2001年)などのいくつかのソフトウェアパッケージにおいて実行されている。
【実施例3】
【0123】
ステップ3:データの品質管理
腫瘍試料は、腫瘍細胞に存在するコピー数の変化のシグナルを弱める、相当な割合の正常細胞を含有する可能性がある。腫瘍試料と正常試料のコピー数のパターン間の差異を捕捉するための機械学習アルゴリズムが展開され、次いでさらなる分析から、正常物が混入した試料を同定し、排除するために使用された。最初に、コピー数の変化領域の数が最も多い試料のサブセットおよび正常試料のセットが選択された。これら2つの試料群は、パラメータを、腫瘍と正常試料との間の差異を最もよく表すように合わせることによって正常試料と腫瘍試料を分類するために、機械学習アルゴリズム(ランダムフォレスト:RF(Breiman、2001))を訓練するために使用された。次に、訓練された分類アルゴリズムは、残りの試料に適用され;分類子は、正常細胞が混入している試料の確率を表すスコアを各試料に割り当てた。正常細胞混入の確率スコアが50%を超える試料は、クラスタリング解析から除外された。
【実施例4】
【0124】
ステップ4:データの平滑化および次元の縮小
SNPマイクロアレイによって得られたコピー数のデータ密度は高く、相当量のノイズがあった。したがって、コピー数のデータは、ノイズ、次元およびクラスタリング解析の複雑さを縮小するために平滑化された。各試料における有意に増加または欠失した領域の検出後、隣接する領域は、それらの領域が同様のコピー数変化を有し、それらの領域の距離が500kb未満の場合、合併された。DNAセグメントが、データセット内のすべての試料からの区切り点の連結を使用することによって形成された。各セグメント内のプローブの平均コピー数が、さらなる分析に使用された。このステップにより、ハイスループット分析におけるDNAの増加および欠失の明確な解像が可能になった。
【実施例5】
【0125】
ステップ5:予想されるサブグループの数を決定するための階層クラスタリングを用いたパイロットクラスタリング解析
各データセットについて、本発明者らは、ピアソンの非類似性((1−r)/2で定義され、rはピアソン相関である)を用いて腫瘍および細胞系のCGHデータを階層クラスタリングした。階層クラスタリングパターンは、データセット内の予想されるサブグループの数の範囲を導くために、プロットされ、視覚的に検査された。次いで、これらの数は、ゲノム非負値行列因子分解を用いたクラスタリング解析において入力として使用された。
【実施例6】
【0126】
ステップ6:腫瘍および細胞系のCGHデータのgNMFクラスタリング
gNMFアルゴリズムが、ステップ5において決定された範囲のクラスター数を使用して腫瘍および細胞系のCGHデータを分類するために使用された。各クラスター数について、gNMFアルゴリズムが、我々が開発した停止基準を用いて200回実行された。次いで、分類モデルが、1引く(Hの相関行列の平均)に対する階層クラスタリングによって導かれた。
【実施例7】
【0127】
ステップ7:ベイズ情報量規準(BIC)を用いたモデル選択
上記のgNMF手順は、最初の階層クラスタリング解析において選出された、いくつかの予想されるr値(サブグループの数)を用いて実行され、サブグループの数が異なるいくつかのモデルが構成された。次いで、ベイズ情報量規準(BIC)が、腫瘍および細胞系の試料の遺伝子パターンの分布を最もよく反映した最良モデルを選択するために使用された(サブグループの数および各試料のサブグループの1つへの割り当て)。
【0128】
BICが、教師なしクラスタリングにおいてこれらの腫瘍および細胞系の試料の遺伝子パターン分布を最もよく反映しているモデルを選択するための基準として使用された。最良モデルが選出された後、メラノーマの腫瘍試料および細胞系のそれぞれが、選択されたモデルに基づいてゲノムサブグループの1つに割り当てられた。将来プロファイリングされる追加のメラノーマ腫瘍試料も、それらのゲノムパターンに基づいてサブグループの1つに割り当てられ得る。
【実施例8】
【0129】
ステップ8:クラスタリングの安定性の10倍安定性検定
10倍安定性検定の手順が、分類結果の安定性を評価するために展開された。データセットに対してgNMFを実行し、腫瘍および細胞系の試料をサブグループに割り当てた後、10%の試料がランダムに除外され、同じ手順が残りの90%の試料に対して適用された。この並べ替えによって異なるサブグループに割り当てられた試料の数が計算された。この除外検定は、試料の並べ替えに関してクラスタリングの結果の安定性を表すエラー発生率を導くために、200回繰り返された。同じデータセットに対して同じ手順を用いた階層クラスタリングの安定性も評価され、常にgNMFクラスタリングよりもはるかに高いことが見出された。
【実施例9】
【0130】
結果
ステップ1−2。139のMMの腫瘍および細胞系の試料のCGHデータが、実施例1および2に記載の通り処理された。全部で5616のコピー数が有意に変化したセグメントが検出された。
【0131】
ステップ3。データの品質管理の手順が、MMのCGHデータに対して適用された。29の腫瘍試料について、正常細胞が著しく混入していることが分かった。残りの混入していない80の腫瘍試料および30の細胞系がその後の分析に使用された。
【0132】
ステップ4。CGHデータの次元は4637まで縮小された。
【0133】
ステップ5。階層クラスタリングが、クラスターの数を見積もるためのMMデータセットに対する最初の解析として使用された。クラスタリングのデンドログラムは図2に示されている。デンドログラムの視覚的な検査により、データに2−7個の主要なクラスターが存在することが示唆された。
【0134】
ステップ6。gNMFアルゴリズムが、腫瘍および細胞系のCGHデータを分類するために、2−7個の範囲のクラスター数を用いて使用された。gNMFアルゴリズムは、各クラスター数について、我々が開発した停止基準を用いて200回実行された。次いで、分類モデルが、1引く(Hの相関行列の平均)に対する階層クラスタリングによって導かれた。
【0135】
ステップ7。gNMFモデルに対するBICが、ステップ6において適合された。結果は表2に列挙されており、rは各モデルにおけるクラスターの数を示す。表2から、本発明者らは、6つのクラスターを持つモデルが最小のBICを有することを見出した。したがって、4個のクラスターが、このデータセットに対して最良の選出であった。6個のクラスターを持つgNMFの出力のヒートマップは図3に示されている。
【0136】
【表2】

【0137】
80のMMの腫瘍試料が、それらのコピー数の変化のパターンに基づいて6つのサブグループに分類され、細胞系が適切なサブグループに割り当てられた。各クラスターについての腫瘍試料の数および細胞系の素性は表3に列挙されている。
【0138】
表3.MMの各サブグループ内のMMの腫瘍の数および細胞系の素性
【0139】
【表3】

【0140】
ステップ8。10倍安定性検定が、4つのクラスターを持つgNMFモデルに対して適用された。クラスタリングの安定性の10倍検定。エラー発生率は26.42%であった。比較として、ステップ5において平滑化されたコピー数のデータを用いて導かれた階層クラスタリングのデンドログラムが2−7個のクラスターにカットされ、同じ10倍検定を使用してクラスターの安定性が検定された。エラー発生率は17.94%−32.14%であった。
【0141】
クラスタリングの手順によって定義された6つのサブグループは、異なる起源および腫瘍発生の機構を意味する別個のパターンのゲノム異常を有し、それらが、各サブグループに特有な別個の臨床的挙動および治療介入への感受性を表すことを示唆している。
【0142】
【表4】





【特許請求の範囲】
【請求項1】
悪性メラノーマゲノムサブグループのデータベースを得るための方法であって、
(a)少なくとも1つのMM細胞を含む、複数のm個の試料を得るステップ、
(b)ステップ(a)において得られた各試料から、各染色体からの少なくとも1つの遺伝子座からのコピー数の変化の情報を含むデータセットを取得するステップ、
(c)
(1)腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
(2)機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
(3)正常細胞を含有する確率が50%以上であるとスコア化する各試料についてのデータをデータセットから削除すること、
を含む、データセットにおいて正常細胞が混入した試料を同定し、混入試料をデータセットから削除するステップ、
(d)データセット内のサブグループの数rを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もるステップ、
(e)データセット内の各試料を、
(1)乗法的更新を100ステップ行うごとに、次式を用いてアルゴリズムの発散を計算するステップ、
【数1】


(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)
(2)ステップ(e)(1)において計算された発散が、アルゴリズムの乗法的更新の前の100ステップに対して計算された発散と比較して約0.001%超減少していない場合にアルゴリズムを停止するステップ、
(3)アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してHのピアソン相関係数行列を計算するステップ、
【数2】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i,H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはステップ(d)からのサブグループの数である。)
(4)ステップ(e)(3)から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均するステップ、および
(5)データセット内の腫瘍および細胞系を、1引く(ステップ(e)(4)において決定された平均相関行列)を用いた教師なしクラスタリングアルゴリズムを適用することによってr個のサブグループに割り当て、デンドログラムをr個のクラスターにカットするステップ
を含む改変ゲノム非負値行列因子分解(gNMF)アルゴリズムを用いて少なくとも1つのクラスターに割り当てるステップ、
(f)コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定するステップ、および
(g)場合によって、ステップ(f)において選択された最終的なクラスターの数の安定性を、10倍の安定性検定を用いて評価するステップ
を含む、前記悪性メラノーマゲノムサブグループのデータベースを得るための方法。
【請求項2】
MM腫瘍またはMM細胞系を分類する方法であって、
(a)
(i)少なくとも1つのMM腫瘍またはMM細胞系を含む複数のm個の試料を得ること、
(ii)ステップ(i)において得られた各試料から、各染色体からの少なくとも1つの遺伝子座からのコピー数の変化の情報を含む第1のデータセットを取得すること、
(iii)
(1)腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
(2)機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
(3)正常細胞を含有する確率が50%以上であるとスコア化する各試料についてのデータを第1のデータセットから削除すること
を含む、第1のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第1のデータセットから削除すること、
(iv)データセット内のサブグループの数rを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
(v)データセット内の各試料を、
(1)乗法的更新を100ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、
【数3】

(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)
(2)ステップ(v)(1)において計算された発散が、アルゴリズムの乗法的更新の前の100ステップに対して計算された発散と比較して約0.001%超減少していない場合にアルゴリズムを停止すること、
(3)アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してHのピアソン相関係数行列を計算すること、
【数4】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i,H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはステップ(iv)からのサブグループの数である。)
(4)ステップ(v)(3)から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
(5)データセット内の腫瘍および細胞系を、1引く(ステップ(v)(4)において決定された平均相関行列)を用いた教師なしクラスタリングアルゴリズムを適用することによってr個のサブグループに割り当て、デンドログラムをr個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解(gNMF)アルゴリズムを用いて少なくとも1つのクラスターに割り当てること、
(vi)コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、および
(vii)場合によって、ステップ(vi)において選択された最終的なクラスターの数の安定性を、10倍の安定性検定を用いて評価すること
を含む方法によって開発されたデータベースを準備すること、
(b)MM細胞を含有すると疑われる試料を準備すること、
(c)ステップ(ii)からのものと同じ、少なくとも1つの遺伝子座からのコピー数の変化の情報を含む第2のデータセットVsampleを取得すること、
(d)Vsampleからの試料を、Vsampleをステップ(i)−(vii)において決定されたクラスターと比較することによって分類すること
を含む、前記MM腫瘍またはMM細胞系を分類する方法。
【請求項3】
教師なしクラスタリングアルゴリズムが階層クラスタリングである、請求項1または2に記載の方法。
【請求項4】
データセットから最終的なクラスターの数を規定するためにコーフェン相関が使用される、請求項1または2に記載の方法。
【請求項5】
データセットから最終的なクラスターの数を規定するためにベイズ情報量規準が使用される、請求項1または2に記載の方法。
【請求項6】
データセットから最終的なクラスターの数を規定するためにコーフェン相関およびベイズ情報量規準が使用される、請求項1または2に記載の方法。
【請求項7】
複数の試料(m個)が、第1、第2、第3、第4、第5、第6の細胞系であって、
ここで、
第1の細胞系は、SKMEL119、HS944、WM1366およびWM88からなる群から選択され、
第2の細胞系は、WM3248であり、
第3の細胞系は、1205LUであり、
第4の細胞系は、451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63、WM35、WM983およびWM983Cからなる群から選択され、
第5の細胞系は、WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793Bおよび501MELからなる群から選択され、および
第6の細胞系は、MALME3MまたはWM882である前記細胞系
を含む、請求項1または2に記載の方法。
【請求項8】
複数の試料(m個)が、SKMEL119、HS944、WM1366、WM88;WM3248;1205LU;451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63;WM35、WM983、WM983C、WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793B、501MEL、MALME3MおよびWM882からなる、請求項1または2に記載の方法。
【請求項9】
(a)
(i)MM細胞を含む複数のm個の試料を得ること、
(ii)ステップ(i)において得られた各試料から、各染色体からの少なくとも1つの遺伝子座からのコピー数の変化の情報を含む第1のデータセットを取得すること、
(iii)
(1)腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
(2)機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
(3)正常細胞を含有する確率が50%以上であるとスコア化する各試料についてのデータを第1のデータセットから削除すること
を含む、第1のデータセットにおいて、正常細胞が混入した試料を同定し、混入試料を第1のデータセットから削除すること、
(iv)データセット内のサブグループの数rを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
(v)データセット内の各試料を、
(1)乗法的更新を100ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、
【数5】

(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)
(2)ステップ(v)(1)において計算された発散が、アルゴリズムの乗法的更新の前の100ステップに対して計算された発散と比較して約0.001%超減少していない場合にアルゴリズムを停止すること、
(3)アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してHのピアソン相関係数行列を計算すること、
【数6】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i,H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはステップ(iv)からのサブグループの数である。)
(4)ステップ(v)の(3)から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
(5)データセット内の試料を、1引く(ステップ(v)の(4)において決定された平均相関行列)を用いた教師なしクラスタリングアルゴリズムを適用することによってr個のサブグループに割り当て、デンドログラムをr個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解(gNMF)アルゴリズムを用いて少なくとも1つのクラスターに割り当てること、
(vi)コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
(vii)場合によって、ステップ(vi)において選択された最終的なクラスターの数の安定性を、10倍の安定性検定を用いて評価すること、および
(viii)ステップ(vi)において選択された各クラスターから少なくとも1つのMM細胞を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む方法で構築された、ゲノムサブグループによって分類されたMM細胞のパネルから、各サブグループからの少なくとも1つのMM細胞系を選択すること、
(b)各サブグループからの少なくとも1つのMM細胞を治療介入と接触させること、
(c)各サブグループからの少なくとも1つのMM細胞を抑えるまたは死滅させるための治療介入の有効性をアッセイすること、
(d)治療介入を、各サブグループからの少なくとも1つのMM細胞を抑えるまたは死滅させるための治療介入の決定された有効性によって分類し、1つのサブグループからの少なくとも1つのMM細胞を抑えるまたは死滅させるが、別のサブグループからのMM細胞を抑えない、または死滅させないことにより、このサブグループのMM細胞を抑えるまたは死滅させるための治療介入の特異性が示されること、
を含む、悪性メラノーマ(MM)細胞を抑えるまたは死滅させるための治療介入を分類する方法。
【請求項10】
教師なしクラスタリングアルゴリズムが階層クラスタリングである、請求項9に記載の方法。
【請求項11】
データセットから最終的なクラスターの数を規定するためにコーフェン相関が使用される、請求項9に記載の方法。
【請求項12】
データセットから最終的なクラスターの数を規定するためにベイズ情報量規準が使用される、請求項9に記載の方法。
【請求項13】
データセットから最終的なクラスターの数を規定するためにコーフェン相関およびベイズ情報量規準が使用される、請求項9に記載の方法。
【請求項14】
MM細胞が細胞系からのものである、請求項9に記載の方法。
【請求項15】
複数の試料(m個)が、第1、第2、第3、第4、第5、第6の細胞系であって、
ここで、
第1の細胞系は、SKMEL119、HS944、WM1366およびWM88からなる群から選択され、
第2の細胞系は、WM3248であり、
第3の細胞系は、1205LUであり、
第4の細胞系は、451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63、WM35、WM983およびWM983Cからなる群から選択され、
第5の細胞系は、WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793Bおよび501MELからなる群から選択され、および
第6の細胞系は、MALME3MまたはWM882である前記細胞系
を含む、請求項9に記載の方法。
【請求項16】
複数の試料(m個)が、SKMEL119、HS944、WM1366、WM88;WM3248;1205LU;451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63;WM35、WM983、WM983C、WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793Bおよび501MEL、MALME3MおよびWM882からなる、請求項9に記載の方法。
【請求項17】
治療介入が、化学療法、生体応答修飾物質、ワクチン免疫療法または生化学療法を含む、請求項9に記載の方法。
【請求項18】
治療介入が生体応答修飾物質によるものであり、生体応答修飾物質が、インターフェロン、インターロイキン−2、モノクローナル抗体および腫瘍壊死因子アルファからなる群から選択される活性薬剤を含む少なくとも1つの医薬組成物を投与することを含む、請求項17に記載の方法。
【請求項19】
生体応答修飾物質が2種以上の活性薬剤を投与することを含む、請求項18に記載の方法。
【請求項20】
(a)
(i)少なくとも1つのMM細胞を含む複数のm個の試料を得ること、
(ii)ステップ(i)において得られた各試料から、各染色体からの少なくとも1つの遺伝子座からのコピー数の変化の情報を含む第1のデータセットを取得すること、
(iii)
(1)腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
(2)機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
(3)正常細胞を含有する確率が50%以上であるとスコア化する各試料についてのデータを第1のデータセットから削除すること
を含む、第1のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第1のデータセットから削除すること、
(iv)データセット内のサブグループの数rを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
(v)データセット内の各試料を、
(1)乗法的更新を100ステップ行うごとに、次式を用いてアルゴリズムの発散を計算するステップ、
【数7】

(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)
(2)ステップ(v)(1)において計算された発散が、アルゴリズムの乗法的更新の前の100ステップに対して計算された発散と比較して約0.001%超減少していない場合にアルゴリズムを停止すること、
(3)アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してHのピアソン相関係数行列を計算すること、
【数8】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i,H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはステップ(iv)からのサブグループの数である。)
(4)ステップ(v)(3)から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
(5)データセット内の腫瘍および細胞系を、1引く(ステップ(v)(4)において決定された平均相関行列)を用いた教師なしクラスタリングアルゴリズムを適用することによって、r個のサブグループに割り当て、デンドログラムをr個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解(gNMF)アルゴリズムを用いて少なくとも1つのクラスターに割り当てること、
(vi)コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
(vii)場合によって、ステップ(vi)において選択された最終的なクラスターの数の安定性を、10倍の安定性検定を用いて評価すること、および
(viii)ステップ(vi)において選択された各クラスターから少なくとも1つの試料を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む、データベースを構築すること、
(b)ステップ(a)のデータベースを分析して各サブグループに対して特徴的なコピー数の異常を決定すること、および
(c)各サブグループについての決定された特徴的なコピー数の異常に基づいて、複数のプローブを設計し、各プローブをゲノムサブグループに割り当てること
を含む、試料からのMM細胞を分類するためのプローブパネルを構築する方法。
【請求項21】
請求項20に記載のプローブパネルを含むキット。
【請求項22】
各プローブがFISHプローブである、請求項21に記載のキット。
【請求項23】
(a)
(i)少なくとも1つのMM細胞を含む複数のm個の試料を得ること、
(ii)ステップ(i)において得られた各試料から、各染色体からの少なくとも1つの遺伝子座からのコピー数の変化の情報を含む第1のデータセットを取得すること、
(iii)
(1)腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
(2)機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
(3)正常細胞を含有する確率が50%以上であるとスコア化する各試料についてのデータを第1のデータセットから削除すること
を含む、第1のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第1のデータセットから削除すること、
(iv)データセット内のサブグループの数rを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
(v)データセット内の各試料を、
(1)乗法的更新を100ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、
【数9】

(式中、Vijは行列Vのi行j列目であり、(WH)ijは行列(W*H)のi行j列目であり、iは1からnまでにわたり、nはデータセット内のセグメントの数であり、jは1からmまでにわたり、mはデータセット内の試料の数である。)
(2)ステップ(v)(1)において計算された発散が、アルゴリズムの乗法的更新の前の100ステップに対して計算された発散と比較して約0.001%超減少していない場合にアルゴリズムを停止すること、
(3)アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してHのピアソン相関係数行列を計算すること、
【数10】

(式中、Cは相関行列であり、Ci,jは行列Cのi行j列目であり、H,iおよびH,jは行列Hにおけるi列目およびj列目のベクトルであり、ρ(H,i,H,j)はH,iとH,j間のピアソン相関係数であり、iおよびjは1からmまでにわたり、mはデータセット内の試料の数であり、kは1からrまでにわたり、rはステップ(iv)からのサブグループの数である。)
(4)ステップ(v)(3)から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
(5)データセット内の腫瘍および細胞系を、1引く(ステップ(v)(4)において決定された平均相関行列)を用いた教師なしクラスタリングアルゴリズム)を適用することによって、r個のサブグループに割り当て、デンドログラムをr個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解(gNMF)アルゴリズムを用いて少なくとも1つのクラスターに割り当てること、
(vi)コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、および
(vii)場合によって、ステップ(vi)において選択された最終的なクラスターの数の安定性を、10倍の安定性検定を用いて評価すること
についての説明を含む、データベースを構築するための説明書、および
(b)場合によって、第1、第2、第3、第4、第5、第6の細胞系、またはそれらの単離ゲノムDNAであって、
ここで、
第1の細胞系は、SKMEL119、HS944、WM1366およびWM88からなる群から選択され、
第2の細胞系は、WM3248であり、
第3の細胞系は、1205LUであり、
第4の細胞系は、451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63、WM35、WM983およびWM983Cからなる群から選択され、
第5の細胞系は、WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793Bおよび501MELからなる群から選択され、および
第6の細胞系は、MALME3MまたはWM882である、
を含む、MM腫瘍試料または細胞系を分類するためのキット。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公表番号】特表2012−507799(P2012−507799A)
【公表日】平成24年3月29日(2012.3.29)
【国際特許分類】
【出願番号】特願2011−534724(P2011−534724)
【出願日】平成21年10月28日(2009.10.28)
【国際出願番号】PCT/US2009/062414
【国際公開番号】WO2010/051319
【国際公開日】平成22年5月6日(2010.5.6)
【出願人】(391008788)アボット・ラボラトリーズ (650)
【氏名又は名称原語表記】ABBOTT LABORATORIES
【Fターム(参考)】