説明

生体データから隠れたパターンに基づいて生物学的状態相互間を区別する方法

【課題】隠れた、または明白でない区別的生体データ・パターンの発見および分析を通して、生物学的状態を確定するプロセスを提供する。
【解決手段】対象から採取した生体試料の分析を行うことにより得られたデータ・ストリームを分析することにより対象が疾患を有するか否かを測定する方法であって、該データ・ストリームを表すベクトル、及び、該ベクトルが、多次元空間中の疾患に関係するデータ・クラスター内に存在しているか否かを測定すること、ならびに、該ベクトルが疾患クラスター内に存在する場合には、対象が疾患を有することを示すアウトプットを産生すること、を含んで成る、方法。

【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2000年9月12日に出願された出願番号第60/232,909号明細書、2001年3月23日に出願された出願番号第60/278,550号明細書、2000年7月18日に出願された出願番号第60/219,067号明細書および2001年5月8日に出願された「血清中の卵巣癌および前立腺癌のタンパク質シグナルで、データ法アルゴリズムが疾患を明らかにする (A Data Method Algorithm Reveals Disease with Protein Signal of Ovarian and Prostate Cancer in Serum)」(出願番号未定)と題する米国仮出願の優先権を、米国特許法第119条(e)(1)項の規定に基づいて主張する。前記明細書の全体を参照により、本明細書中に組み込む。
【0002】
I. 発明の分野
本発明の分野は、隠れた、または明白でない区別的生体データ・パターンの発見および分析を通して、生物学的状態を確定するプロセスに関する。生体データは健康データ、臨床データ、または生体試料(例えば、ヒトからの生体試料、例えば、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質(swabbing)、針吸引物質、精液、膣液、射精前物質等)等から得ることができる。このようなデータまたは試料は、ドナーの生物学的状態を確定するために分析される。生物学的状態は、病理学的診断、毒性状態、薬物の有効性、疾患の予後診断等であってよい。
【0003】
具体的には、本発明は、分析法に関し、この分析法は、a)より大きなデータ・ストリームのサブセットである隠れた区別的生体データ・パターン(例えば、器官の生物学的状態を分類する血清試料中のタンパク質発現のパターン)を発見し、前記区別が、学習データセット内の2つ以上の生物学的状態を区別する能力を示唆し、b)前記パターンを未知の試料または試験試料を分類するのに適用する。より具体的には、本発明はデータ・ストリームの分析法に関し、この方法は生体試料中の分子(例えば、タンパク質、ペプチド、DNA、RNA等)の物理的または化学的な分析(例えば、試料の質量分析)から導き出される。
【0004】
これらのパターンは、「隠れた」ものとして定義付けされている。なぜならば、これらのパターンは、比較的大きな極めて複雑なデータセット内にしばしば埋もれており、明白でなく、または、眼または他の既存の分類システムでは明らかでない。このパターン自体は、3つ以上の値の組み合わせとして定義付けすることができ、これにより、n次元空間内のベクトルの位置は、個々の値が区別可能でない場合にも生物学的状態相互間で区別的である。本発明の区別的なパターンは新規である。なぜならば、これらのパターンは、生物学的データ内の個々のデータポイント相互間の同一性または関連性の認識なしに、または、生体試料中の分子相互間の同一性または関連性の認識なしに定義付けすることができるからである。
【0005】
このような生物学的状態を発見するための1つの分析法は、2つの関連ヒューリスティック・アルゴリズムである、学習アルゴリズムと、診断アルゴリズムとを適用することから成り、診断アルゴリズムのパラメータは、学習アルゴリズムを学習データセットに適用することにより設定されるので、2つ以上の生物学的状態を区別することができる。このような生物学的状態は、疾患の有無、薬剤の効果の有無、薬剤の毒性の有無等であってよい。本発明は種々の癌(癌腫、黒色腫、リンパ腫、肉腫、芽細胞腫、白血病、骨髄腫、神経腫瘍等、および、卵巣、前立腺および乳房のような器官の癌を含むが、これらに限定されるものではない)の診断のための総体的、特定的な実施であるが、病原体および毒性の存在も明らかにされる。本発明の好ましい態様は、器官または組織の現在または将来の生物学的状態を反映する分子パターンの発見および使用である。本発明の別の態様は、生物学的状態の分子パターンを記述するデータと他の非生物学的または臨床的データ(例えば、精神医学的事項)とを組み合わせることにより、患者の健康を記述する分類をもたらすことである。
【背景技術】
【0006】
II. 発明の背景
生物学的状態の変化、特に疾患の早期発見は、医学研究および臨床分野の主要な焦点である。従来技術には、組織試料の物理的または化学的な分析により形成されたデータ・ストリームからの診断情報を抽出しようとする取組みの例が含まれる。これらの技術は総体的に「データ・マイニング」と呼ばれる。マイニングされたデータ・ストリームは、2つの形から成るのが典型的である。すなわち、DNAオリゴヌクレオチド・アレイ(「DNAマイクロアレイ」)とのハイブリッド形成によるmRNA発現のレベルの分析、および、細胞または血清の試料中に存在するタンパク質のレベルの分析である。この場合、タンパク質は、質量分析を用いて分子量によって特徴付けされるか、または、2−Dゲル技術を用いて分子量と電荷との組み合わせにより特徴付けされる。
【0007】
ラジエシュ・パレック(Rajesh Parekh)および共同研究者は、血清または血漿の試料を使用した、タンパク質に基づく肝細胞癌のデータ・マイニング診断について(国際公開第99/41612号パンフレット)、組織試料を使用した、タンパク質に基づく乳癌のデータ・マイニング診断について(国際公開第00/55628号パンフレット)、また、血清または血漿試料を使用した、タンパク質に基づくリウマチ様関節炎のデータ・マイニング診断について(国際公開第99/47925号パンフレット)記載している。それぞれのパンフレットにおいて、二次元ゲル分析が実施される。分析は、2−Dゲルによって確定される個々のタンパク質のレベルを測定し、正常な組織と比較して悪性度が上昇または低下したタンパク質を同定することから成る。
【0008】
リオッタ(Liotta)およびペトリコイン(Petricoin)(国際公開第00/49410号パンフレット)は、2−Dゲルおよび質量分析の両方を用いる、タンパク質に基づく診断法の付加的な例を提供している。しかし、リオッタおよびペトリコインの分析は、これが特異的な腫瘍マーカーの探索から成るという点で、パレックの分析と同様である。腫瘍マーカーを同定しようという取組みもまた、DNAマイクロアレイを使用して行われている。ロギング(Loging)・W. T. (2000, Genome Res. 10, 1393-02)は、多形性膠芽腫においてDNAマイクロアレイによって腫瘍マーカーを同定する取組みを記載している。ヘルデンフォーク(Heldenfalk)・I. 他(2001, New England J. Med. 344, 539)は、相互のおよび共通の突発性乳癌から、DNAマイクロアレイ・データのデータ・マイニングによって、BRCA1およびBRCA2突然変異から生じる乳癌の遺伝性の形を区別する腫瘍マーカーを同定する取組みを報告している。
【0009】
アロン(Alon)他(1999, PNAS 96, 6745-50)は、DNAマイクロアレイ技術を用いて、結腸腫瘍試料と正常な結腸組織とを比較して、調和的に働く発現レベルを有する遺伝子のクラスターを同定することを記載している。このような研究は実際に、正常な組織と比較して、腫瘍中で相対的に過剰発現または過少発現させられる遺伝子を同定した。しかし、クラスタリング・アルゴリズムは、腫瘍マーカーのタイプのパターンと異なる遺伝子発現の診断パターンを同定できるように構成されたものではない。
【0010】
腫瘍マーカーとは異なるインジケーターに向けられたデータ・マイニングの取組みが診断に利用されている。これらの取組みは通常、パターン認識法を採用することにより、個々の診断マーカーを同定するか、または、データセット相互の関係を分類する。種々異なる条件下での相関した発現に基づいて、遺伝子をカテゴリーに分類するためのパターン認識法の利用の先駆けとなったのは、アイゼン・M. (Eisen, M.)他 (1998, PNAS 95, 14863-68);ブラウン・MPS(Brown, MPS)他 (2000, PNAS 97, 262-67)およびアルター・O. (Alter, O.)他 (2000, PNAS 97, 10101-06)であった。一般に、これらの技術はベクトル空間を利用し、この空間内で、各ベクトルは遺伝子またはDNAマイクロアレイ上の位置に相当する。各ベクトルは、種々異なる条件下での遺伝子の相対的な発現レベルに個別に相当するスカラーから構成されている。従って、例えば、ブラウン他は、79次元ベクトル空間内でベクトルを分析する。この空間内で、各次元は酵母ライフサイクルの段階における時点に相当し、2,467個のベクトルのそれぞれは遺伝子に相当する。パターン認識アルゴリズムは、互いに相関して発現する遺伝子のクラスターを同定するのに使用される。主要な関心は遺伝子発現の相関であるから、アイゼン他のパターン認識アルゴリズムおよび関連作業において採用される測定基準は、ピアソン係数または内積型測定基準であり、ユークリッド距離測定基準ではない。クラスタリングが一旦確立されると、各クラスターの有意性は、クラスターの遺伝子のいかなる共通の既知の特性に留意することによっても確定できる。同一クラスター内に見出される、従来特徴付けされていない遺伝子は、これらの共通の特性のうちの1以上を共有し得ることが推定される。
【0011】
アイゼン他のパターン認識技術は、アリザデー(Alizadeh)およびシュタウト(Staudt)によって、悪性腫瘍のタイプの診断に応用された。アリザデーおよびシュタウトは初めに、それぞれが遺伝子に対応するベクトルを構築した。それぞれのベクトルは、ある特定の差別化状態下における、例えば休止末梢血リンパ球またはマイトジェンによって刺激されたT細胞における遺伝子の相対的な発現レベルに対応するスカラーを有する。次いでパターン認識アルゴリズムは、遺伝子の発現の相関に従って遺伝子をクラスタリングし、それぞれの差別化状態の特徴を示す発現パターンを定義付けする。次いで、mRNAを遺伝子クラスターの定義付けに用いられるのと同じDNAマイクロアレイとハイブリッド形成することにより、びまん性大型B細胞リンパ腫(DLBCL)の試料が分析された。DLBCLは、それぞれが標準的な差別化状態の特徴を示す少なくとも2つの発現パターンを有することが判った。DLBCLの予後は、特徴的な差別化状態と相関することが判った。従って、アリザデーおよびシュタウトにおいて提示され回答された診断に関する論点は、良性であるかまたは悪性であるかを確定することではなく、悪性の遺伝子発現パターンと最も類似した遺伝子発現パターンを有する差別化された細胞のタイプを同定することにより、悪性のタイプまたはサブタイプを確定するのものである。アリザデー他 (2000, Nature 403, 503-511)。急性骨髄性白血病と急性リンパ性白血病とを区別するのに、同様の技術が使用されている。ゴルブ(Golub, T.R.)他、(1999, Science 286, 531-537)。
【0012】
従って、多数の、すなわち1,000個を上回るデータポイントを有する物理的または化学的な分析に基づくデータ・マイニング法が、2つのタイプから成ることが判る。すなわち、正常な細胞と比較して、所定のタイプの悪性細胞中で増減する発現レベルを有する遺伝子またはタンパク質のような個々のマーカーを同定するためのデータ・マイニング;および、最も類似する正常な細胞型に従って既知の悪性細胞を分類するために、差別化された正常な細胞型の特徴を示す既知の遺伝子発現のパターンを使用するデータ・マイニング、という2つのタイプである。
【0013】
従って、単独のマーカー(例えば、腫瘍マーカー)または遺伝子発現クラスター以外の生体データを使用して、生物学的状態を確定することができる方法が必要となる。通常の場合、疾患の病理において単独のマーカーが果たす役割を、生体試料の分析に先立って認識し、確立しなければならず、これには極めて多くの場合、高いコストがかかる。さらに、これらのマーカーは、内部の器官または腫瘍内に局在化し、このようなマーカーを含有する生体試料を得るためには、複雑で侵襲的な局在化された生検を行わなければならない。疾患のような生物学的状態が複雑な場合には、このような試料中に存在する分子の相互関係に関する事前の広範囲な知識なしに、その生物学的状態に固有の複雑なデータを用いて、生物学的状態を診断する能力が例外的に必要となる。
【0014】
さらに、遺伝子発現クラスター分析は範囲を限定される。なぜならば、このような分析は、その遺伝子の発現が原因となるにせよ、生物学的状態の特徴を示す遺伝子の原因となる作用によって影響されるにすぎないにせよ、このこととは無関係に全ての発現遺伝子の分析を組み込むからである。クラスタリング分析は、当該生物学的状態の特徴を示す遺伝子だけを組み込むのではなく、アッセイから生じたデータ範囲全体を使用し、従ってこの分析は複雑かつ厄介になる。さらに、遺伝子発現分析は核酸抽出法に関与せねばならず、これによりこの分析は複雑になり、時間がかかるようになる。適用時のパターン認識アルゴリズムも難しくなる。なぜならば、採用された遺伝子発現相関が複雑なピアソン係数または内積型測定基準であり、単純なユークリッド距離測定基準ではないからである。
【0015】
従来技術とは異なり、本発明は、より広範囲な複雑なデータフィールド内のサブセットとして、最適な隠れた分子パターンを発見する。これによりパターン自体は生物学的状態相互間で区別を示す。従って、本発明は、従来技術において開示した分析法と関連する前述の問題の全てを回避し、それまで未知であった診断パターンを発見することができる。このような隠れた分子パターンは、健康データ、臨床データ、または生体データから導き出されたデータ・ストリーム内に存在する。生体データは単純な生体液、例えば、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質等から導出されてよく、このような導出は、定期的なサンプリングを簡単にする。ただしこのような分子パターンの発現は遠隔器官の疾患状態の特徴を示す。生体試料中に存在する特異的腫瘍マーカーまたは分子の相互関係に関する事前の知識は必要とされず、または望まれもしない。本発明はまた、データ生成法およびデータ分析法を開示する。このようなデータ分析法は、最適化アルゴリズムを組み込む。このようなアルゴリズムにおいて、分子パターンは認識されて適応度を試験される。この適応試験において、生体試料の分析に際して、生物学的状態相互間を最良に区別する適応パターンが選ばれる。
【発明の概要】
【0016】
III. 発明の概要
本発明は、生物学的状態を事実上診断可能な、または予測可能な生体試料中のある特定の分子の発現パターンがもし全体的に隠れているのでないならば、その微妙なパターンを検出するための、パターン発見法およびパターン発見アルゴリズムを使用することを含む。本発明の1つの態様の場合、このような分子発現パターンは、タンパク質、特に低分子量タンパク質(すなわち、20,000Da未満)の発現パターンである。タンパク質発現のこのような隠れたパターンは、アルゴリズムに提供されたデータ・ストリーム全体の唯一のサブセット、またはいくつかのサブセットから得ることができ、または、データ・ストリーム全体の分析から得ることができる。パターンは、3つ以上の値のベクトルとして定義付けすることができるので、n次元空間におけるベクトルの位置は、個々の値が区別的でなくても、生物学的状態相互間で区別を示す。当該分子は、タンパク質(完全タンパク質、分割タンパク質、または部分発現タンパク質)、ペプチド、リン脂質、DNA、RNA等のような適切な生体物質であってよい。
【0017】
生物学的状態相互間を区別する区別的パターンは、生体試料の物理的または化学的な分析から導出されたより大きなデータ・ストリーム内に隠された小さなデータ・サブセットである場合が多い。従って生物学的状態相互間を区別するこのような区別的パターンを見出すためには、この区別的パターンを形成する特徴の最適集合を見出すための手段が必要となる。本発明は特徴のこのような最適集合を見出すためのプロセスを組み込む。種々の分類成功度で本発明を実施するのに、区別的パターンのための多数の特徴選択法を用いることができる。これらの方法としては、統計法、段階的回帰法、線形最適化法等が挙げられるが、これらに限定されるものではない。しかし、統計法は多変量線形回帰のような少なくとも単純な周知の形においてしばしば線形である点で、いくつかの限界を有する。さらに、統計モデルは、非線形データに関して堅牢ではない傾向がある。統計モデルが成功裡に採用できる個々の変数の数は、一般に10以下であり、事実上好ましい限界は5つまたは6つである。好ましい態様は、遺伝的アルゴリズム、進化計算法を適応パターン認識アルゴリズムに直接に結びつけることにより、最適な特徴集合を効率的に見出す。標題「ヒューリスティックな分類法 (Heuristic Method of Classification) 」(出願日:2001年6月19日、2000年6月19日出願の出願番号60/212,404号明細書の優先権を主張)を参照されたい。
【0018】
本発明により開示される1つの方法は、2つの関連ヒューリスティック・アルゴリズムである、学習アルゴリズムと、診断アルゴリズムとから成る。診断アルゴリズムは、学習アルゴリズムを学習(または訓練)データセットに適用することにより生成される。学習データセットは、生体試料から形成されたデータセットである。この生体試料には、パターン発見のために当該生物学的状態が提供される。例えば、学習データセットは、確立された生検診断、例えば、良性腫瘍や悪性腫瘍を有する個体の血清から採取されたデータから成ってよい。このことは、学習アルゴリズムが、癌血清試料から正常な血清を区別できるタンパク質の認証(signature)パターンを見出すことを可能にする。
【0019】
1つの態様では、本発明による方法は、先ず、生体試料に高処理能力の物理的または化学的な分析を受けさせることにより、データ・ストリームを得る。このようなデータ・ストリームとしては、限定するものでなく、サンプル中に見出されたタンパク質、または、種々異なる試験ポリヌクレオチドから成るアレイとのmRNAハイブリッド形成強度に見出されたタンパク質の質量スペクトル・データが挙げられる。一般には、データ・ストリームは、多数(10,000以上)の強度によって特徴付けされる。これらの強度は、種々異なる試料のデータ・ストリーム中の相応する個々のデータが同定可能となるように生成される。
【0020】
診断法の第1のステップは、ベクトル、すなわち、データ・ストリームの特徴を示す少数(2〜20100個、より典型的には5〜208個)から成る順序のある集合を算出することである。データ・ストリームをベクトルに変換することを「抽象化」と呼ぶ。この態様では、抽象化は、データ・ストリームから少数の特定の強度を選択することにより実施される。
【0021】
診断法の第2のステップは、そのベクトルが存在するデータ・クラスターを、もしそれがあるならば確定することである。データ・クラスターは数学的構造である。これらの構造は、ベクトル空間内で固定的サイズを有する互いに重なり合わない「球」と多次元同等物である。このようなデータ・クラスターは超球として知られる。各データ・クラスターの位置および関連診断は、訓練データセットから学習アルゴリズムによって確定される。生体試料のベクトルが既知のクラスター内に存在する場合、試料には、そのクラスターと関連する診断が与えられる。試料ベクトルがいかなる既知のクラスターからも外れて存在する場合、試料はその分類基準には合致しないという診断、または、詳細不明の異型のもの、すなわち「異型試料、NOS」であるという診断を下すことができる。例えば、患者から採取された生体試料が特定の癌の悪性状態の分類と合致しない場合、この試料は、非悪性、非正常として、または詳細不明の異型のもの、「異型試料、NOS」として分類されることになる。
【0022】
学習アルゴリズムは、既知の数学的技術と、2つのプリセット・パラメータとの組み合わせを利用する。ユーザーは、ベクトル空間の次元数とデータ・クラスターのサイズとを前もってセットする。典型的には、ベクトル空間は、各次元における強度の変化が一定であるような、正規化されたベクトル空間である。このように、クラスターのサイズは、クラスター内に存在するベクトルの間の最小類似百分率として表すことができる。
【0023】
1つの態様では、学習アルゴリズムは2つの包括的な部分から成る。これらの部分は、他者によって開発され、この分野では周知である、遺伝的アルゴリズム(J.H. Holland, 「自然系および人為系における適応(Adaptation in Natural and Artificial Systems)」, MIT Press 1992年)および自己編成型適応パターン認識システム(T. Kohonen, 「自己編成・連想記憶(Self Organizing and Associative Memory), 情報科学(Information Sciences)における8集」, Springer Verlag, 1984年; Kohonen, T, 「自己編成マップ (Self-organizing Maps)」, ハイデルベルク、Springer Verlag, 1997年)である。遺伝的アルゴリズムは、これらがあたかも、コンピュータによる自然淘汰プロセスを通して操作可能である個々のエレメントから成る情報であるかのように、複雑なデータセットを編成し分析する。
【0024】
本発明の場合、それ自体において、かつ自ずから「診断的」な、隠れたまたは微妙な分子発現パターンの探索は、学習アルゴリズムまたはデータ・マイニング技術の従来の実施によって生成されるパターンの探索とは質的に異なる。これまでのデータ・マイニングの実施は、分類を示す特異的分子産物、例えば、病理学的条件において上昇または下降するタンパク質または転写物を同定した。従って、識別された分子産物のレベルはそれ自体、診断的と呼ばれる。なぜならば産物のレベルは、分子産物のレベルを正規化するのに用いられるおそらくは正規化分子産物以外の、試料中の分子産物のレベルをさらに考えに入れることなしに診断に用いられるからである。それ自体診断的なこのような分子産物の一例は腫瘍マーカーである。
【0025】
これに対して、本発明によるデータ・クラスター分析の場合、特定のマーカー、例えばタンパク質または転写物のレベルの診断有意性は、試料ベクトルを算出するのに用いられる他の要素のレベルに関連する。このような結果を以後、前後関係による診断結果と呼ぶ。このようにデータ・マイニング技術の従来の実施では、当該生体試料と学習データセットとの間の類似は、特定の診断分子産物と比較した、生体試料の特定のグループ分けに基づいていた。しかし本発明の場合、学習アルゴリズムは、データパターンの同一性または関係に関して事前の情報を知ることなしに、すなわち、特定の診断分子産物が特定の分類を示すという事前の入力なしに、全体的に新しい分類パターンを発見する。
【0026】
本発明は、分類、例えば、癌腫、黒色腫、リンパ腫、肉腫、芽細胞腫、白血病、骨髄腫および神経腫瘍のような癌における悪性度の診断をもたらすために、隠れた、前後関係による診断パターンを見出すという、予期せぬ、または明白でない発見に一部基づく。
【0027】
IV. (発明の詳細な説明)
本発明は、a)生体データを表すデータ・ストリーム(または生体データを表すデータ・ストリームと臨床データ、健康データまたは非生体データとの組み合わせ)を生成し、そのデータを抽象化して固有ベクトルにし;b)分子発現の隠れた診断パターンを発見し(すなわち、パターン発見);さらに、c)このような分子発現パターンがどの当該生物学的状態を表すのかを確定する、ことを含む。当該分子としては、限定するものではないが、タンパク質、ペプチド、RNA、DNA等が挙げられる。生体試料としては、限定するものではないが、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質等が挙げられる。
【0028】
当該生物学的状態は、病理学的診断、毒性状態、薬物の有効性、疾患の予後診断、病期、器官の生物学的状態、病原体(例えば、ウィルス)の存在、1種以上の薬物の毒性等であってよい。本発明は、タンパク質のような或る特定の分子の発現パターンの変化が、非罹患状態とは区別可能であるようないかなる疾患の診断にも用いることができる。このようにして、遺伝的異常を発現させる遺伝的要素を有する疾患、薬物毒性の発現が認められるような疾患、または、体内の分子レベルが影響されるような疾患も、本発明により研究することができる。このような疾患としては、限定するものではなく、癌(癌腫、黒色腫、リンパ腫(ホジキン型および非ホジキン型)、肉腫、芽細胞腫、白血病、骨髄腫および神経腫瘍、例えば膠芽腫等)、アルツハイマー病、関節炎、糸球体腎炎、自己免疫疾患等が挙げられる。癌腫の例としては、限定するものではなく、すい臓、腎臓、肝臓および肺の癌腫;胃腸の癌腫が挙げられる。
【0029】
本発明は、早期診断が重要であるがしかし症状がないため技術的に難しい特定の疾患の診断、および、病理組織の代謝活性のため、血清中で検出可能な差異を形成することが予期されるような疾患の診断に特に有用である。従って悪性度の早期診断が、本発明を利用する上での主要な焦点となる。
【0030】
本発明の具体的な構成要素を以下に説明する。
【実施例】
【0031】
A. データ・ストリームの生成
データ・ストリームは、高処理量データ・ストリームをもたらす生体試料の、いかなる再現可能な物理的または化学的な分析であってもよい。高処理量データ・ストリームは、少なくとも千分の一(3つの有効数字)、より好ましくは一万分の一で定量可能な1,000個以上の測定値によって特徴付けされることが好ましい。データ・ストリーム生成法は数多く存在する。当該分子がタンパク質またはペプチドの場合、本発明の1つの態様では、データ・ストリームを生成するのに、タンパク質の「飛行時間(time of flight)」形質量スペクトルを使用してもよい。当該分子がタンパク質またはペプチドの場合、より具体的には、マトリックス支援レーザー脱離イオン化飛行時間(MALDI−TOF)分光法および表面増強レーザー脱離イオン化飛行時間(SELDI−TOF)分光法を用いてもよい。国際公開第00/49410号パンフレットを一般的に参照されたい。1つの態様では、毒性を表す生物学的状態に対応するデータ・ストリーム、および、病原体を検出するためのデータ・ストリームを生成するのに、SELDI−TOFを用いてもよい。別の態様では、遺伝子発現分類のための連続増幅遺伝子発現(SAGE)を用いて、データ・ストリームを生成することができる。ある特定の環境では、データ・ストリームは、2−Dゲル、例えば二次元ポリアクリルアミドゲル電気泳動法(2D−PAGE)を用いて生成することができる。
【0032】
臨床病理学の場合、分析のための好ましい患者試料は血清である。しかし、比較的均質な生検標本を用いることもできる。ある特定の病状の場合、他の液体、例えば、滑液を関節炎の鑑別診断に、または尿を膠芽腫の鑑別診断に用いることができる。
【0033】
SELDI−TOFおよびMALDI−TOFのどちらの分析にも含まれる特定のタンパク質は、採用される表面またはマトリックスに依存する。C−18アルカン表面のような親油性表面は、陰イオンまたは陽イオン性の表面と比較して特に便利である。しかし、種々異なる表面を利用して同一試料から、複数のスペクトルを生成できることは当業者には明らかである。これらのスペクトルを繋げて、本発明により分析可能な「超スペクトル」をもたらすことができる。同様に、本発明により分析可能な2つ以上の高処理アッセイ法からのデータを1つに合わせることもできる。さらに、本発明に記載した生体データを、臨床データ、健康データまたは非生体データと結びつけることもできる。
【0034】
使用されるのが表面であれ、マトリックスであれ、表面とマトリックスとの組み合わせであれ、1つの生体試料から次の生体試料まで、表面が確実に均一になるように、大きな注意を払わなければならない。
【0035】
データ・ストリームには、分子量のような決まった順序を有するパラメータによって本質的には編成されず任意の順序を有する測定値も含むことができる。このように、組織試料が生検標本である場合、データ・ストリーム中の個々の遺伝子の順序が任意であることを認識した上で、2,000個以上の遺伝子の発現レベルを同時に測定するDNAマイクロアレイ・データをデータ・ストリームとして使用することができる。
【0036】
当業者には明らかであるように、機器の利用可能な商業的な態様に沿って、生体試料からのデータ・ストリームの生成と、最適な論理染色体に基づくデータ・ストリームの抽象化とを2つの別個のプロセスと考えて、本発明を説明する。しかし、唯一のルーティン設計を選択すると、測定機器自体が抽象機能を発揮することが可能になる。このことによって、このような診断法および特許請求の範囲に対する本発明の関与に変化が生じることはなく、主張した診断法の抽象化部分とベクトル分析部分とを相異なるコンピュータ・デバイス上で実施可能であると見なすことができる。
【0037】
なお、本発明の方法を用いて、患者試料からの単独のデータ・ストリームを複合診断のために分析することができる。このような複合診断にかかる付加的なコストは僅かである。なぜならば、それぞれの診断にとって特異的なステップはコンピュータ処理だけで済むからである。
【0038】
B. 抽象化プロセス
本発明の診断プロセスにおける第1のステップは、データ・ストリームを固有ベクトルに変換することである。データは、ピーク全体に1.0の任意の値を割り当て、他の全ての点には所与の分数値を割り当てることにより、抽象化に先立って正規化すると便利である。例えば、データ・ストリームがTOF質量スペクトルによって生成される実施例の場合、TOF質量スペクトルの最も単純な抽象化は、少数のデータポイントの選択から成る。当業者には明らかなように、インターバル全体にわたる平均、または、選択された典型的データから所定の距離を置いたデータポイント相互間のより複雑な和または差のような、複数のポイントのより複雑な関数を構築することもできる。データ・ストリームの強度値のこのような関数も使用することができ、実施例において示す単純な抽象化と同等に機能することが期待される。
【0039】
やはり当業者に明らかなように、任意のポイントに瞬間的な勾配をつけることにより行われる抽象化が本発明において機能を発揮できるかどうかを、ルーティン実行により確定することができる。従って実施例のルーティン実行時に得られるこのような変化は本発明の範囲内にある。
【0040】
C. パターン発見
上記概要において論議した多数の方法により、パターン発見が達成される。ただし好ましい態様の場合、パターン発見は診断アルゴリズムと学習アルゴリズムを含む。本発明のこの態様を実践するために、ルーティン実行者は、学習アルゴリズムを採用することにより、診断アルゴリズムを作成しなければならない。学習アルゴリズムを採用するために、ルーティン実行者は訓練データセットを使用し、2つのパラメータと、次元数と、データ・クラスターのサイズとを選択しなければならない。標題「ヒューリスティックな分類法 (Heuristic Method of Classification) 」を有する米国特許出願明細書(出願日:2001年6月19日、2000年6月19日出願の出願番号60/212,404号明細書の優先権を主張)を参照されたい。
【0041】
1つの態様の場合、他者によって開発され業界では周知の2つの異なるタイプの、公然と入手可能な汎用ソフトウェア、つまりデータ・ストリームの抽象化を制御する最適な論理染色体(注1)を同定するために論理染色体集合を処理する遺伝学的アルゴリズム(J.H. Holland著「自然系および人為系における適応(Adaptation in Natural and Artificial Systems)と、論理染色体によって生成されたあらゆるベクトル集合に基づいてデータ・クラスターの集合を同定する、メリーランド州グリーンベルトの、Group One Softwareから入手可能な適応型自己編成パターン認識システム(T. Kohonen著「自己編成・連想記憶、情報科学第8集(Self Organizing and Associative Memory, 8 Series in Information Sciences)」 Springer Verlag刊 1984年; Kohonen T著 「自己編成マップ(Self-organizing Maps)」ハイデルベルクのSpringer Verlag刊 1997年参照)とを組み合わせることにより、学習アルゴリズムを実行することができる。具体的には、適応型パターン認識ソフトウェアは、均質なデータ・クラスター、すなわち、唯1つの分類タイプを備えた学習集合のベクトルを含有するクラスター内に存在するベクトルの数を最大化する。(注1:「論理染色体」という用語は遺伝学的学習アルゴリズムと関連して使用される。なぜならば、アルゴリズムの論理動作は、再生、選択、組換えおよび変異と類似しているからである。もちろん、DNAその他における論理染色体の生物学的な態様はない。本発明の遺伝学的学習アルゴリズムは純粋にコンピュータ・デバイスであり、生物学に基づいた情報処理のためのスキームと混同してはならない。)
遺伝学的アルゴリズムは本質的に、固有ベクトルを算出するのに使用されるデータポイントを確定する。ただし専門技術用語と調和させて、選択されるべき特定のポイントのリストを論理染色体と呼ぶ。論理染色体は、固有ベクトルの次元の数と同数の「遺伝子」を含有する。妥当な数のデータポイントから成るいかなる集合も論理染色体であり得る。ただしこの場合、重複する染色体の遺伝子がないことだけが条件となる。遺伝子の順序は本発明にとって重要ではない。
【0042】
2つの見合った条件がある場合に遺伝学的アルゴリズムを使用することができる。固定サイズの不連続要素から成る集合またはストリングによって、問題に対する特定の解決策が表現可能でなければならない。これらの要素は数字または文字であってよい。さらなる解決策をもたらすために、ストリングを組み換えることができる。また各解決策の相対的な長所を示す数値、つまりその適応度を算出できなければならない。このような条件下では、遺伝学的アルゴリズムの詳細は、解決が求められている問題とは無関係である。従って、本発明の場合、汎用の遺伝学的アルゴリズム・ソフトウェアを採用することができる。アルゴンヌ国立研究所から入手可能なPGAPackライブラリのアルゴリズムが適している。特定の論理染色体の適応度の算出について、以下に説明する。
【0043】
説明のための例では、約100個の試料データ・ストリームから成る訓練データセットを使用した。それぞれの試料データ・ストリームは約15,000個のデータポイントを含有する。遺伝学的アルゴリズムを、ランダムに選択した15,000個の論理染色体で初期化した。アルゴリズムが進行するのに伴い、より適応性の高い論理染色体は複製され、より適応性の低い論理染色体は終結される。論理染色体間で組換えが行われ、突然変異が生じる。この突然変異は、染色体の要素のランダムな置き換えによって発生する。論理染色体の最初に選択された集まりがランダムであることは、本発明の重要な特徴ではない。極めて高い可変性を有するデータポイントを同定するためにデータ・ストリームの全体集合を予め選別することは有用であるが、しかしこのような技術は、所望しない初期化の傾向を招いてしまうおそれもある。このようなプロセスを生き延びた最良適応パターンは、生物学的状態相互間を区別し、望ましい分類を確定するのに用いられる。
【0044】
D. パターン認識プロセスおよび適応度スコア生成
遺伝学的アルゴリズムによって生成される論理染色体のそれぞれの適応度スコアが算出される。適応度スコアの算出には、所与の論理染色体に最適なデータ・クラスター集合を生成することが必要になる。データ・クラスターは単に、訓練データセットの目的ベクトルが内在するベクトル空間の容積である。最適なデータ・クラスター集合の生成法は、本発明にとって重大ではなく、後で考察する。しかし、データ・クラスター・マップを生成するのにどのような方法を使用するのであれ、マップは以下の規則、すなわち:(i)各データ・クラスターはそのデータ・クラスター内に位置するデータポイントの中心に配置すべきであり、(ii)2つのデータ・クラスターが重なり合ってはならず、(iii)正規化ベクトル空間内の各クラスターの次元が、マップの生成に先立って固定される、という規則によって制約される。
【0045】
上述のように、学習アルゴリズムを採用するために、ルーティン実行者は訓練データセットを使用し、2つのパラメータと、次元数と、データ・クラスターのサイズとを選択しなければならない。両パラメータは、ルーティン実験を用いて設定することができる。ベクトルにおける次元数には絶対的または固有の上限はないが、しかし、学習アルゴリズム自体が各実行中に次元数を本質的に制限する。次元数が過度に少ないかまたはクラスターのサイズが過度に大きいと、学習アルゴリズムは、全てのサンプルを均質なクラスターに正確に分類する論理染色体を生成しそこなう。次元数が多すぎる場合には逆のことが言える。この環境下では、学習アルゴリズムは、学習プロセスの早期に、最大限可能な適応度を有する多くの論理染色体を発生させ、したがって、実りのない選択しか行えない。同様に、データ・クラスターのサイズが余りにも小さいと、クラスターの数は訓練データセット内のサンプルの数に近似するのが判り、また、やはりこの場合もルーティン実行者は、多数の論理染色体が最大適応度をもたらすことを見出すことになる。
【0046】
当業者には明らかなように、訓練データセットはほぼ常に均質なデータ・クラスターに割り当てることができる。従って、学習アルゴリズムによって生成された診断アルゴリズムの値は、訓練データセット以外のデータセットを選別する診断アルゴリズムの能力によって試験されなければならない。学習アルゴリズムが生成する診断アルゴリズムが、訓練データセットを首尾よく割り当てるものの、試験データセットを不十分にしか割り当てない場合、訓練データは、学習アルゴリズムによって過剰適応させられたと言われる。過剰適応は、次元数が過度に多い場合、および/または、データ・クラスターのサイズが過度に小さい場合に生じる。
【0047】
データ・クラスターのサイズを定義付けするのに用いられる方法は、本発明の一部である。クラスターのサイズは、データ・クラスターのあらゆる2つの構成要素の間のユークリッド距離(根二乗和)に相当する最大値によって定義付けすることができる。データ・ストリームがSELDI−TOF質量分析データによって生成される場合、本発明には、90%の類似率の要求に相応するデータ・クラスターのサイズが適している。数学的には、90%の類似率は、クラスターのあらゆる2つの構成要素間の距離が、正規化ベクトル空間内の2つのポイント相互間の最大距離の0.1未満であることを要求することにより定義付けされる。この算出に際して、ベクトル空間は、訓練データセット内のベクトルの各スカラーの範囲が0.0〜1.0となるように正規化される。こうして正規化された、ベクトル空間内のあらゆる2つのベクトル間の最大限生じ得る距離はルートNとなる。この場合Nは次元数である。各クラスターのユークリッド直径は0.1 × ルート(N)となる。
【0048】
ベクトル空間の特定の正規化は、この方法の重大な特徴ではない。前述の方法は、算出を簡単にするために選択したものである。それぞれの次元を所定の範囲に合わせるのではなく、各次元が等しい差異を有するように基準化することにより、別の正規化を達成することもできる。
【0049】
当業者にはさらに明らかなように、データ・ストリーム内の値の分布が正規分布または非正規分布された対数である場合、データ・ストリームを、対数の形に変換してもよい。
【0050】
論理染色体のための最適なデータ・クラスター集合が生成されると、その染色体に対応する適応度スコアを算出することができる。本発明の場合、染色体の適応度スコアは、均質なクラスター内、すなわち、単独診断を有する試料からの固有ベクトルを含有するクラスター内に存在する訓練データセットのベクトルの数に概ね相当する。より正確に述べるなら、適応度スコアは、それぞれのクラスターに均質性スコアを割り当てることにより算出される。均質性スコアは、均質なクラスターに対応する0.0から、等しい数の悪性および良性の試料ベクトルを含有するクラスターに対応する0.5まで変化する。染色体の適応度スコアは、データ・クラスターの平均適応度スコアである。従って、0.0の適応度スコアは最も適応度が高い。論理染色体はより多くのデータ・クラスターを生成する傾向がある。すなわち、2つの論理染色体がデータの割り当てにおいて同数のエラーを有する場合、論理染色体がより多数のクラスターを生成すると、平均均質性スコアは低くなり、ひいては適応度スコアがより良好になる。
【0051】
データ・クラスターを生成するための好ましい技術は、コホーネン(Kohonen)によって開発された自己編成マップ・アルゴリズムを使用することである(Kohonen, T, 「自己編成マップ (Self-organizing Maps)」, ハイデルベルク、Springer Verlag, 1997年)。「リード・クラスター・マップ(Lead Cluster Map(LCM))」または「アダプティブ・フィーチャ・マップ(Adaptive Feature Map)」と様々に呼ばれるこの種の技術は、公然と入手可能な汎用ソフトウェアによって実施することができる。適切な製造供給元および製品には、Group One Softwareから入手可能なモデル1(Model 1)およびアダプティブ・フィーチャ・マップ(Adaptive Fuzzy Feature Map) (American Heuristics Corp.)が含まれる。LCMは、a) 非線形モデル化法であり; b) 独立変数が事実上無限であり; c) 他の非線形モデル化技術と比べて適応性を有する、という重要な利点を有する。LCMはデータストリーム中の新規なパターンを検出し、めったにないパターンを追跡することができる。このことは生物学的状態、つまりウィルスへの変異を分類する上で特に重要である。
【0052】
E. 特定の態様の説明および検証
1.前立腺癌の診断の経緯
上述の学習アルゴリズムを利用して、55人の血清試料のSELDI−TOF質量スペクトル(MS)を使用した前立腺癌の診断のために、本発明を採用した。これらの試料のうち30個の試料は、生検により前立腺癌と診断されており、4.0ng/mlを上回る前立腺血清抗原(PSA)レベルを有しており、25個の正常な試料は1ng/ml未満のPSAレベルを有している。7つの分子量値(2092、2367、2582、3080、4819、5439および18,220Da)を選択することにより、MSデータを抽象化した。7個の分子量値を選択することにより、MSデータを抽象化した。特定の分子量は本発明の重要なパラメータではなく、吸収面に応じて変わってよい。訓練データセット内の各ベクトルを均質なデータ・クラスターに割り当てるクラスター・マップを生成した。クラスター・マップは34個のクラスター、つまり17個の良性クラスターと17個の悪性クラスターとを含有した。
【0053】
訓練データセットから排除された231個のサンプルを使用して、診断アルゴリズムを試験した。種々の臨床診断および病理学的診断を有する患者から採取した6組の試料を使用した。病理学的・臨床的記述およびアルゴリズムの結果は次の通りであった:1) PSA>4ng/mlを有し、生検で癌と証明されている24人の患者のうち、22人が疾患データ・クラスターに位置し、2人はどのクラスターにも位置しなかった;2) 6人の正常者は全て健康クラスターに位置した;3) 良性前立腺肥大(BPH)または前立腺炎を患い、PSA<4ng/mlを有する39人のうち、7人は疾患データ・クラスターに位置し、健康データ・クラスターに位置する者はおらず、32人がどのデータ・クラスターにも位置しなかった;4) BPHまたは前立腺炎を患い、4<PSA<10ng/mlを有する139人の患者のうち、42人が疾患データ・クラスターに位置し、2人が健康データ・クラスターに位置し、95人がどのデータ・クラスターにも位置しなかった;5) BPHまたは前立腺炎を患い、PSA>10ng/mlを有する19人のうち、9人が疾患データ・クラスターに位置し、健康データ・クラスターに位置する者はおらず、10人がどのデータ・クラスターにも位置しなかった。生検で悪性腫瘍と証明されており、PSA>10ng/mlを有する患者から、前立腺摘除の前後に試料を採取することにより、第6のデータセットを作成した。予想通り、手術前の7つの試料のそれぞれは疾患データセットに割り当てられた。しかし、手術の6週間後、PSAレベルが1ng/ml未満に低下した時点で採取されたサンプルは、いかなるデータセットにも割り当てることができなかった。これらの結果を表1に要約する。
【0054】
前述の試験の結果を評価するときには、4〜10ng/mlのPSAを有し、生検により良性と診断された患者の潜伏癌の率が約30%であることを思い出さなければならない。従って、高PSAを有するがしかし癌の組織診断は下されていない患者の18%〜47%が悪性であるという所見は、悪性腫瘍の存在の正確な予測を裏付けている。
【0055】
目下のところより重要なのは、非癌・非正常カテゴリーが訓練中には存在しなかったにもかかわらず、診断アルゴリズムが3)、4)および5)のうちの試料を有意な割合で非癌・非正常カテゴリーに分類できることである。実際に、この群からのいずれの試料も相当数の潜伏癌キャリヤを必ず含むことになるという事実から、BPHまたは前立腺炎試料が訓練データセット内に含まれているはずがないことが明らかである。
【0056】
【表1】

【0057】
2.卵巣癌の診断の経緯
再び患者の血清のSELDI−TOF MS分析を利用して、卵巣癌の診断アルゴリズムを生成するのに、上述の方法を採用した。クラスター集合マップを構築するのに、100個の試料から成る訓練集合を用いた。5つの分子量(531、681、903、1108および2863m/e)を選択することにより、MSデータを抽象化した。15個の疾患クラスターと11個の健康クラスターとから成るクラスター・マップを構築した。卵巣癌であることが証明されている訓練データセット中の50個の試料のうち、40個が疾患データ・クラスターに割り当てられ、残りの10個は偽陰性に割り当てられた。健常者からの50個の試料のうち、44個が健康データ・クラスターに割り当てられ、残りの6つは偽陽性に割り当てられた。
【0058】
選択された分子量のそれぞれに関して、健康データ・クラスターの値および疾患データ・クラスターの値の範囲が重なり合うことが判った。実際、5つの分子量のうちの4つに関して、疾患データ・クラスターの範囲は、健康データ・クラスターの範囲を包含する。さらに、検出された診断パターンは、腫瘍マーカーによってもたらされたものではなく、前後関係による診断結果によってもたらされたものである。
【0059】
さらに100個の試料を用いて、診断アルゴリズムを試験した。これらの試料を3つの臨床的、病理学的な群に分けた。これらの群およびアルゴリズムの結果は以下の通りであった:1) 疾患を有していない患者からの50個の試料のうち、47個が健康データ・クラスターに割り当てられ、3つが疾患データ・クラスターに割り当てられ;2) 卵巣癌第II期、第III期、または第IV期の32人の患者の全てが疾患データ・クラスターに割り当てられ、さらに、3) 卵巣癌第I期の18人の患者の全てが、疾患データ・クラスターに位置した。これらの結果を表2に要約した。
【0060】
【表2】

【0061】
3.早期疾患に対する感度
200個の標本から成る卵巣癌研究集合内の、ランダムに選択した血清(対照集団から50個および疾患集団から50個の血清)から成る集合を、SELDI−TOF質量分析およびこれに続く生物情報学法の訓練に際して選択した。15,0005個のパターン順列から成る開始集合から見出された、534、989、2111、2251および2465Daの5つの独立した分子量領域における質量強度のパターンは、98%(49/50)の卵巣癌試料と94%の対照とを、訓練集合において正しく分離した。最適なタンパク質の(proteomic)パターンは、診断内容を知らせない事例からの100個のSELDI−TOFデータ・ストリームで挑戦して、100個の未知の試験試料中に含有された50個全ての癌標本内の卵巣癌の存在を正確に予知することができた(50/50、93%〜100%の95%信頼区間)。このような予知は、18/18の第I期癌の正確な分類(82%〜100%の95%信頼区間)を含む一方、癌のないことを知らせない試料に対する特異性を維持する(47/50、84%〜99%の95%信頼区間、カイ二乗検定でp全体<10-10)。これらの結果は、血清中の低分子量タンパク質のパターンが、隔たった部位の器官内部の組織の病理の変化を反映するという仮説を裏付ける。さらに、このようなパターンは、早期の病理学的変化の敏感なインジケータであり得る。それというのも、このようなパターンは、器官に閉じ込められた第I期の卵巣癌標本からの18個の血清全てを正確に分類したからである。
【0062】
4.前立腺癌および良性前立腺肥大症の存在の特定、予知および区別
先ず、本発明により、無症状の、年齢の整合した男性から導出された血清から、生検によって前立腺癌であることが証明された男性からの血清を区別可能なタンパク質のパターンを見出すことに挑戦した。訓練集合は56個の血清から成り、そのうち31個は、生検によって前立腺癌が証明された無症状の男性からのものであり(PSA>4ng/ml、平均14.5ng/ml)、25個は、前立腺癌の証拠のない、年齢の整合した男性からのものである(PSA<1ng/ml、平均0.3ng/ml)。これら56個の血清をSELDI−TOFによって分析した。パターン発見分析は、2092、2367、2582、3080、4819、5439および18220Daの特定の分子量における、(15,0007個の可能な順列からの)7つのタンパク質ピークを組み合わせた正規化強度の有意なパターンを見出した。これらのパターンは前立腺血清訓練集合において分析された56個全ての試料を区別することができた。
【0063】
訓練後、最適なタンパク質のパターンを、227個の内容を知らせない血清試料で試験した。内容を知らせない研究集合は、a) 捕集時点で4〜10ng/mlのPSA値を有する、無症状であり、次いで生検により癌と証明された男性からの24個の血清、b) 年齢の整合した6人の男性からの対照血清(PSA<1ng/ml)、およびc) 生検により良性前立腺肥大症または前立腺炎と証明された男性からの197個の血清(PSA値範囲:0.4ng/ml〜36ng/ml)を含有した。
【0064】
前立腺認証パターンを用いて、データ・マイニング・ツールは、4〜10ng/mlのPSA値を含有する17/18を含めて、内容を知らせない研究集合中の前立腺癌の存在を正確に予知することができた(92%、22/24、BPH患者と比較してp<0.000001)。重要なのは、生検によってBPHと証明された患者の70%(137/197)が独自(非正常・非癌)の表現型に属するとして分類されたことである。BPH陽性集団からの血清の1%だけが正常表現型として分類された。6個の健康対照からの血清を、生検により癌と証明された24人の患者の血清と比較すると、6/6人の健康な患者が正しく分類され、これと比較して22/24人の前立腺癌患者が正しく分類された(p<0.000001)。さらに、PSAレベルの上昇(PSAが上昇した正常、BPH)と、疾患の重症度分類の上昇との間の関係には統計学的に有意な傾向が生じた(p=1.4 × 10-4)。前立腺切除治療を受けた7被験者のうちの7人からの適合された血清から成るブラインド集合において、最適化前立腺認証は、癌表現型から非癌(ただし非正常)表現型に戻った(p=0.016;59%〜100%の95%信頼区間)。
【0065】
5.試料源の調製および分析
a.卵巣癌
施設内治験審査委員会(Institutional Review Board: IRM)完全管理に従って、早期発見研究ネットワーク(Early Detection Research Network: EDRN)の全国卵巣癌早期発見プログラム(National Ovarian Cancer Early Detection Program)から、匿名の卵巣スクリーニング血清を得た。この集合は、200人の無症状の女性からの血清を含有し、このうち100人は試料採取時点で卵巣癌を患い、100人は、家系または以前の乳癌診断から判断して卵巣癌の危険がある対照女性である(表3)。この罹患していない女性群は、過去5年間にわたって追跡されており、病気にかかっていない。診断および介入に先立って、全ての血清を得た。疾患集団は、組織学的に確認された漿液性乳頭状癌、類内膜癌、明細胞癌、粘液性癌、腺癌および全ての段階の混合型卵巣癌を含んだ。疾患集団における全ての女性は、広範囲な外科的審査および正式なFIGO段階付けを受けた。
【0066】
【表3】

【0067】
b.前立腺癌
匿名の前立腺スクリーニング血清研究集合を、前立腺癌スクリーニング・クリニックから得た。ここではインフォームド・コンセント承認下で試料を得た(277個の試料)(表3)。施設内治験審査委員会承認のインフォームド・コンセント下で国立癌研究所 (National Cancer Institute)で、付加的な20個の匿名の標本を捕集した。1996年にチリでの試行が開始され、5年間続けられた。被験者資格基準は、前立腺癌の病歴がない50歳を上回る無症状の男性であることを必要とした。全ての男性は血清試料を提供し、次いで医学評価およびデジタル直腸検査を受けた。次いで血清PSA>4.0ng/mlであるかまたはデジタル直腸検査で疑わしいと考えられる男性は、病理診断のためにシングルコア針生検を受けた。前立腺癌は段階全範囲(I〜III)およびグリーソン・スコア(4〜9)で表した。NCIで取得した20個の血清は、a)診断時および生検により、器官に閉じ込められた前立腺癌の存在が証明された、診断時点および前立腺切除から6週間後の7人の男性、およびb)PSA<1.0ng/mlの正常な健康な男性有志から採取されたものである。医学検査、診断および処置に先立って、全ての血清を得た。全ての血清を捕集し、遠心分離し、アリコートし、使用するまで液体窒素中に保存した。受け取った血清を一度融解し、10ミリリットルのアリコートに分離し、次いでSELDI−TOF分析を実施するまで液体窒素中に再冷凍した。
【0068】
5.タンパク質分析
Protein Biology System 1 SELDI−TOF質量分析計 (カリフォルニア州フリーモント在、Ciphergen Biosystems)でタンパク質質量認証を生成するために、血清を一度融解して使用した。アンギオテンシンI(アミノ酸配列1〜10)とウシのシトクロムc(カリフォルニア州フリーモント、Ciphergen Biosystems)とをそれぞれ1286.5Daおよび12230.9Daの質量で使用して、外部質量較正を達成した。1000〜20,000Da質量範囲内でC18逆相疎水性相互作用表面に結合可能な全てのタンパク質のタンパク質プロフィールを生成した。有機酸マトリックス表面は、α−シアノ−4−ヒドロキシ−桂皮酸(CHCA)であった。このマトリックスは、選択された標的(bait)からの完全タンパク質電離のために、タンパク質混合物と共結晶化することが必要とされる。
【0069】
試料調製:1マイクロリットルのアセトニトリル(ミズーリ州セントルイス、Sigma-Aldrich Co.)を、8−フィーチャ(feature)C18疎水性相互作用タンパク質チップ(カリフォルニア州フリーモント、Ciphergen Biosystems)の試料スポットに加えた。このチップは、タンパク質毎に特異的な固有一次アミノ酸配列に依存する疎水性相互作用を介してタンパク質と結合することになる。アセトニトリルの塗布に続いて、1μLの血清を添加した。試料をチップ上で空気乾燥させた。チップを4分間、脱イオン水中で渦状に運動させることにより、強力に洗浄し、空気乾燥させた。最後に、0.5μLのCHCA溶液を添加した。マトリックス溶液を乾燥させた後、付加的な0.5μLのマトリックスを各試料に塗布し、空気乾燥させた。C18チップを選んだ理由は、このチップが、最も多数の相異なるタンパク質認証およびペプチド認証を一貫して、かつ再現可能に生成することが判ったからである(データは図示せず)。SELDI−TOFは、他の飛行時間形分光分析技術と同様に、低分子量範囲(<20,000Da)においてその最良の感度を有する。データを記録し、SELDIプロテイン・バイオロジー・システム(バージョン2.0)ソフトウェア(カリフォルニア州パロアルト在、Ciphergen Biosystems, Inc.)での分析のために最適化した。フィルタリングや規準化を全くしていない生のSELDIデータを、データ・マイニング・ツールによる分析のために、ASCIIデータ・ファイルに変換した。
【0070】
6.薬物毒性の検出
ドキソルビシンで処置されたラットからの生体試料から得られたデータ・ストリームで、本発明の方法を試験した。このドキソルビシンは心臓毒性を生じさせることが証明されている。生理食塩水で対照を処置した。心臓毒性を示すラットから得られた生体試料は、100%の選択度と100%の感度とで正確に分離され、偽陽性はなかった。表4参照。
【0071】
【表4】

【0072】
7.薬物処置の検出
ドキソルビシンおよび心臓保護剤とでラットを処置した。従って、毒性を有する動物と、毒性を有しない動物とがいることになる。表8に示すように、本発明の方法を用いて、処置された動物は1匹を除いて全て正しく同定することができ、誤分類されたのは2匹の対照動物だけであった。表5参照。
【0073】
【表5】

【0074】
8.ウィルスの検出
細胞溶解物中でシミアン・フォーミ・ウィルス (Simian Foamy Virus) を検出した。感染細胞からの溶解物は時間の80%(8/10)だけ、偽陽性なしで正しく分類された。表6参照。
【0075】
【表6】

【0076】
9.卵巣癌のためのウィンドイング(windowing)技術の利用
最初の具体化は、タンパク質データ・ストリーム中の100個の連続的な特徴から成る群を単純な試行錯誤で選択することに基づく。適応パターン認識アルゴリズム、Lead Cluster Map(LCM)を採用した。データ・ストリームのサンプリングは、走行毎にデータ・ストリーム中の異なる点において開始した。走行は、100個の特徴から成る14〜15の集団を集めることから成る。連続25回の走行後、最良のモデルが、ほぼ30%の偽陽性率で、正しい生物学的状態を80%だけ正確に予知した。これらの結果は、生物学的状態を分類する上でタンパク質パターンの使用が有効であることを示す。実際に、このようなレベルの精度を有するモデルは、有力な治療用化合物をバッチ・スクリーニングするのに極めて適するはずである。表7参照。
【0077】
【表7】

【0078】
10.乳癌の検出
乳癌患者から採取した乳頭吸引分質を、本発明のプロセスを用いて分類した。乳頭吸引物質を質量分析にかけ、この物質にパターン発見法を施した。92%近くの感度を観察した。表8参照。
【0079】
【表8】


【特許請求の範囲】
【請求項1】
生体データから生物学的状態を分類する方法であって、前記生物学的状態を記述している区別的パターンを検出することにより、生体データから生物学的状態を分類する方法。
【請求項2】
生体データから生物学的状態を分類する方法であって、該方法が以下のステップ、すなわち:
a. データ・ストリーム内のより大きいデータセットのサブセットである、学習データセットでの成功により定義付けされた区別を示す区別的パターンを検出するステップと、
b. 既知のデータサンプルまたは試験データサンプルを分類するために、前記区別的パターンを適用するステップと、
c. 生物学的状態を示す、個々のデータポイントが区別的でなくても区別的である前記区別的パターンを使用することにより、未知のデータサンプルを分類するステップと、
から成る、生体データから生物学的状態を分類する方法。
【請求項3】
既知の生物学的状態を定義付けする複数の所定の診断クラスターを有するベクトル空間を使用して区別的パターンを検出することにより、生体データ内の生物学的状態を分類する方法であって、該方法が以下のステップ:
a. 前記生体データを記述する正規化されたデータ・ストリームを形成するステップと;
b. 前記データ・ストリームを特徴付けする試料ベクトルを算出するために、前記データ・ストリームを抽象化するステップと;
c. 前記試料ベクトルが内在する診断クラスターを、もしこれがあるならば同定するステップと;
d. 前記同定された診断クラスターの診断を前記生体データに割り当てるか、または、同定されるクラスターがない場合には、異型試料、NOSという診断を前記生体データに割り当てるステップと、さらに;
e. 前記生物学的状態を記述した、個々のデータポイントが区別的でなくても区別的である前記区別的パターンを使用することにより、未知のデータサンプルを分類するステップと
を含む、生体データ内の生物学的状態を分類する方法。
【請求項4】
前記区別が、学習データセットにおける成功によって定義付けされ、前記学習データセットが、生物学的状態が知られている生体データから形成される、請求項1から3までのいずれか1項に記載の方法。
【請求項5】
前記生体データが、生体試料中の分子の発現を記述するデータである、請求項1から3までのいずれか1項に記載の方法。
【請求項6】
前記生体データが臨床データから導出される、請求項1から3までのいずれか1項に記載の方法。
【請求項7】
生体データが、臨床データと、生体試料中の分子の発現を記述するデータとの組み合わせである、請求項1から3までのいずれか1項に記載の方法。
【請求項8】
生体データが、非生体データと、生体試料中の分子の発現を記述するデータとの組み合わせである、請求項1から3までのいずれか1項に記載の方法。
【請求項9】
前記分子が、タンパク質、ペプチド、リン脂質、DNAおよびRNAから成る群から選択される、請求項5に記載の方法。
【請求項10】
前記分子が、タンパク質、ペプチド、リン脂質、DNAおよびRNAから成る群から選択される、請求項7に記載の方法。
【請求項11】
前記分子が、タンパク質、ペプチド、リン脂質、DNAおよびRNAから成る群から選択される、請求項8に記載の方法。
【請求項12】
前記生体試料が、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質から成る群から選択される、請求項5に記載の方法。
【請求項13】
前記生体試料が、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質のような体液から成る群から選択される、請求項7に記載の方法。
【請求項14】
前記生体試料が、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質のような体液から成る群から選択される、請求項8に記載の方法。
【請求項15】
前記生体試料が、組織培養上清、凍結乾燥組織培養、およびウィルス培養から成る群から選択される、請求項5に記載の方法。
【請求項16】
前記生体試料が、組織培養上清、凍結乾燥組織培養、およびウィルス培養から成る群から選択される、請求項7に記載の方法。
【請求項17】
前記生体試料が、組織培養上清、凍結乾燥組織培養、およびウィルス培養から成る群から選択される、請求項8に記載の方法。
【請求項18】
前記生物学的状態が疾患である、請求項1から3までのいずれか1項に記載の方法。
【請求項19】
前記生物学的状態が病期である、請求項1から3までのいずれか1項に記載の方法。
【請求項20】
前記生物学的状態が疾患の予後である、請求項1から3までのいずれか1項に記載の方法。
【請求項21】
前記生物学的状態が身体内部器官の疾患である、請求項1から3までのいずれか1項に記載の方法。
【請求項22】
前記生物学的状態が身体内部器官の病期である、請求項1から3までのいずれか1項に記載の方法。
【請求項23】
前記生物学的状態が身体内部器官の健康である、請求項1から3までのいずれか1項に記載の方法。
【請求項24】
前記生物学的状態が1種以上の化学薬品の毒性である、請求項1から3までのいずれか1項に記載の方法。
【請求項25】
前記生物学的状態が1種以上の化学薬品の相対毒性である、請求項1から3までのいずれか1項に記載の方法。
【請求項26】
前記生物学的状態が薬物の有効性である、請求項1から3までのいずれか1項に記載の方法。
【請求項27】
前記生物学的状態が1種以上の薬物の有効性である、請求項1から3までのいずれか1項に記載の方法。
【請求項28】
前記生物学的状態が治療の養生法に対する感応性である、請求項1から3までのいずれか1項に記載の方法。
【請求項29】
前記生物学的状態が身体器官の動揺状態である、請求項1から3までのいずれか1項に記載の方法。
【請求項30】
前記生物学的状態が1種以上の病原体の存在である、請求項1から3までのいずれか1項に記載の方法。
【請求項31】
前記疾患が、罹患状態における固有分子の発現パターンの変化が非罹患状態とは異なる疾患である、請求項18に記載の方法。
【請求項32】
前記疾患が癌である、請求項18に記載の方法。
【請求項33】
前記疾患が自己免疫疾患、アルツハイマー病および関節炎から成る群から選択される、請求項18に記載の方法。
【請求項34】
前記疾患が糸球体腎炎である、請求項18に記載の方法。
【請求項35】
前記疾患が感染病である、請求項18に記載の方法。
【請求項36】
前記癌が癌腫、黒色腫、リンパ腫、肉腫、芽細胞腫、白血病、骨髄腫および神経腫瘍から成る群から選択される、請求項32に記載の方法。
【請求項37】
前記癌腫が前立腺癌である、請求項37に記載の方法。
【請求項38】
前記癌腫が卵巣癌である、請求項36に記載の方法。
【請求項39】
前記データ・ストリームが、高処理量データ生成法によって形成される、請求項2または3に記載の方法。
【請求項40】
前記データ・ストリームが、飛行時間形質量スペクトルである、請求項2または3に記載の方法。
【請求項41】
前記飛行時間形質量スペクトルが、表面増強レーザ脱離飛行時間形質量分析によって生成される、請求項40に記載の方法。
【請求項42】
前記飛行時間形質量スペクトルが、マトリックス支援レーザ脱離イオン化飛行時間によって生成される、請求項40に記載の方法。
【請求項43】
前記方法がさらに、パターン認識法を用いることから成る、請求項1から3までのいずれか1項に記載の方法。
【請求項44】
前記パターン認識法がさらに、学習アルゴリズムと診断アルゴリズムとを含む、請求項43に記載の方法。
【請求項45】
前記方法がさらに、学習データ・ストリーム集合を用いることによって、当該生物学的状態に対応する診断アルゴリズムを構築することを含み、前記診断アルゴリズムが、固定数の次元のベクトル空間内で所定の等しいサイズの複数の診断クラスターを有することを特徴とし、以下のステップ、すなわち:
a. 各学習データ・ストリームが既知の生物学的状態で生体試料を記述する、学習データ・ストリーム集合を提供するステップと;
b. 前記データ・ストリームの所定数のポイントの位置を指定するランダムな論理染色体の初期集合を選択するステップと;
c. 前記染色体によって指定された位置でのデータ・ストリームを抽象化することにより、各染色体および各データ・ストリームに対応するベクトルを算出するステップと;
d. 均一なステータスを有するクラスター内に存在するベクトルの数を最大化する所定の等しいサイズの複数の非重複データ・クラスターのベクトル空間内の位置を見出すことにより、前記ベクトルの数が多くなればなるほど高くなる、各染色体の適応度を確定するステップと;
e. 前記ステップ(c)および(d)とを繰り返し、適応度が低い論理染色体を終結し、高適応度の論理染色体を複製し、前記染色体を組換え、ランダムに修飾することから成る反復プロセスによって、前記論理染色体集合を最適化するステップと;
f. 前記反復プロセスを終結し、非重複データ・クラスターの好ましい集合を可能にする論理染色体を選択するステップと;さらに、
g. 前記選択された論理染色体と、均質な非重複データ・クラスターとを構築する診断アルゴリズムを構築するステップと
を含む、請求項1から3までのいずれか1項に記載の方法。
【請求項46】
前記方法がさらに、最適化された染色体と、データ・クラスターの適応度最大化集合とを具体化する診断アルゴリズムを試験することにより、前記診断アルゴリズムがいかに正確に試験データ・ストリーム集合を診断するかを確定するステップを含み、前記試験データ・ストリーム集合がそれぞれ、前記学習データ・ストリームとは無関係な既知の診断を有する、請求項45に記載の方法。
【請求項47】
前記ベクトル空間が5〜10個の次元を含有する、請求項45に記載の方法。
【請求項48】
個体の器官の疾患を診断する方法であって、該方法が:
a. 被験体からの生体試料を分析し、前記分析から、前記試料の特徴を示す4〜20個のスカラーを有する正規化ベクトルを算出し、
b. データ・クラスター・マップによって占有された4〜20個の次元のベクトル空間を提供し、前記データ・クラスター・マップが、等しいサイズの少なくとも6つの非重複データ・クラスターから成り、複数の前記データ・クラスターが疾患診断と関連し、複数の前記データ・クラスターが正常試料と関連し、前記マップのデータ・クラスターが2つ以上の診断と関連することはなく;
c. 前記データ・クラスター・マップのデータ・クラスターのいずれかに固有ベクトルが存在するならば、該ベクトルがどのデータ・クラスターに存在するのかを算出し;さらに、
d. 前記固有ベクトルが内在するデータ・クラスターと関連する疾患診断を、前記試料に割り当てるか、または、前記ベクトルが内在するクラスターがない場合には、非正常という分類を割り当てる、
ことを含む、個体の器官の疾患を診断する方法。
【請求項49】
個体の器官の病期を診断する方法であって、該方法が:
a. 被験体からの生体試料を分析し、前記分析から、前記試料の特徴を示す4〜20個のスカラーを有する正規化ベクトルを算出し、
b. データ・クラスター・マップによって占有された4〜20個の次元のベクトル空間を提供し、前記データ・クラスター・マップが、等しいサイズの少なくとも6つの非重複データ・クラスターから成り、複数の前記データ・クラスターが疾患診断と関連し、複数の前記データ・クラスターが正常試料と関連し、前記マップのデータ・クラスターが2つ以上の診断と関連することはなく;
c. 前記データ・クラスター・マップのデータ・クラスターのいずれかに固有ベクトルが存在するならば、該ベクトルがどのデータ・クラスターに存在するのかを算出し;さらに、
d. 前記固有ベクトルが内在するデータ・クラスターと関連する疾患診断を、前記試料に割り当てるか、または、前記ベクトルが内在するクラスターがない場合には、非正常という分類を割り当てる、
ことを含む、個体の器官の病期を診断する方法。
【請求項50】
前記疾患が癌である、請求項48に記載の方法。
【請求項51】
前記疾患が癌である、請求項49に記載の方法。
【請求項52】
前記病期が原発性悪性腫瘍である、請求項49に記載の方法。
【請求項53】
前記生体試料が、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質のような体液から成る群から選択される、請求項48または49に記載の方法。
【請求項54】
前記データ・クラスターマップがパターンを定義付けし、前記ベクトルの少なくとも1つのスカラーが前後関係による診断結果である、請求項48または49に記載の方法。
【請求項55】
前記データ・クラスターのサイズが、ユークリッド測定基準によって定義付けされる、請求項48または49に記載の方法。
【請求項56】
被験体の器官の原発性悪性腫瘍を診断する方法であって、該方法が:
a. 被験体からの生体試料を分析し、前記分析から、前記試料の特徴を示す少なくとも4つのスカラーを有する正規化ベクトルを算出し、
b. データ・クラスター・マップによって占有されたベクトル空間を提供し、前記データ・クラスター・マップが、等しいサイズの少なくとも6つの非オーバラップ・データ・クラスターから成り、複数の前記データ・クラスターが悪性診断と関連し、複数の前記データ・クラスターが良性診断と関連し、前記マップのデータ・クラスターが2つ以上の診断と関連することはなく、少なくとも1つのスカラーが前後関係による診断結果である結果を測定し、前記データ・クラスターのサイズが、ユークリッド測定基準によって定義付けされ;
c. 前記データ・クラスター・マップのデータ・クラスターのいずれかに固有ベクトルが存在するならば、該ベクトルがどのデータ・クラスターに存在するのかを算出し;さらに、
d. 前記固有ベクトルが内在するデータ・クラスターと関連する診断を、前記試料に割り当てるか、または、前記ベクトルが内在するクラスタがない場合には、非正常、非悪性という診断を割り当てる、
ことを含む、個体の器官の原発性悪性腫瘍を診断する方法。
【請求項57】
前記生体試料が、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質のような体液から成る群から選択される、請求項56に記載の方法。
【請求項58】
複数のスカラーが、前後関係による診断結果である結果を測定する、請求項56に記載の方法。
【請求項59】
プログラムを実行するためのコンピュータ実行可能コードを指定するコンピュータ・ソフトウェア製品であって、前記プログラムが以下のステップ、すなわち:
a. 生体試料を試料識別子で記述する正規化データ・ストリームを入力するステップと;
b. 各クラスターが既知の生物学的状態の診断と関連する診断クラスターの集合を入力するステップと、
c. 前記データ・ストリームを特徴付けする試料ベクトルを算出するために、前記データ・ストリームを抽象化するステップと;
d. 前記試料ベクトルが内在する前記診断クラスタがあれば、これを同定するステップと;
e. 特定された診断クラスターの診断を前記試料に割り当てるか、または、特定されたクラスターがない場合には、非正常、非悪性という診断を前記試料に割り当てるステップと;
f. 前記割り当てられた診断と前記試料識別子とを出力するステップと
を含むプログラムを実行するための、コンピュータ実行可能コードを指定するコンピュータ・ソフトウェア製品。
【請求項60】
汎用デジタル・コンピュータであって、該コンピュータが、請求項59に記載の実行可能コードを実行するためのプログラムを含む、汎用デジタル・コンピュータ。
【請求項61】
プログラムを実行するためのコンピュータ実行可能コードを指定するコンピュータ・ソフトウェア製品であって、前記プログラムが以下のステップ、すなわち:
a. 各データ・ストリームが既知の生物学的状態で生体試料を記述する教育データ・ストリームから成る集合を入力するステップと;
b. オペレータによって指定された数のポイントと、オペレータによって指定されたクラスターのサイズとを入力するステップと;
c. 前記データ・ストリームの予め指定された数のポイントの位置を指定するランダムな論理染色体の初期集合を選択するステップと;
d. 前記染色体によって指定された位置でのデータ・ストリームを抽象化することにより、各染色体および各データ・ストリームに対応するベクトルを算出するステップと;
e. 均一なステータスを有するクラスター内に存在するベクトルの数を最大化する所定の等しいサイズの複数の非重複データ・クラスターのベクトル空間内の位置を見出すことにより、前記ベクトルの数が多くなればなるほど高くなる、各染色体の適応度を確定するステップと;
f. 前記ステップ(d)および(e)とを繰り返し、適応度が低い論理染色体を終結し、高適応度の論理染色体を複製し、前記染色体を組換え、ランダムに修飾することから成る反復プロセスによって、論理染色体集合を最適化するステップと;
g. 前記反復プロセスを終結するステップと;
h. 最適化された論理染色体と、該最適化された染色体の適応度を最大化する前記データ・クラスターの位置とを出力して、前記出力された論理染色体とデータ・クラスターとを具体化する診断アルゴリズムを実施可能にするステップとを含む、プログラムを実行するための、コンピュータ実行可能コードを指定するコンピュータ・ソフトウェア製品。
【請求項62】
汎用デジタル・コンピュータであって、該コンピュータが、請求項61に記載の実行可能コードを実行するためのプログラムを含む、汎用デジタル・コンピュータ。
【請求項63】
生物学的状態を確定するための診断モデルであって、診断アルゴリズムが、固定数の次元のベクトル空間内で所定の等しいサイズの複数の診断クラスターを有することを特徴とする、生物学的状態を確定するための診断モデル。
【請求項64】
前記診断クラスターが以下のステップ、すなわち:
a. 各学習データ・ストリームが既知の生物学的状態で生体試料を記述する、学習データ・ストリームの集合を提供するステップと;
b. 前記データ・ストリームの所定数のポイントの位置を指定するランダムな論理染色体の初期集合を選択するステップと;
c. 前記染色体によって指定された位置でのデータ・ストリームを抽象化することにより、各染色体および各データ・ストリームに対応するベクトルを算出するステップと;
d. 均一なステータスを有するクラスター内に存在するベクトルの数を最大化する所定の等しいサイズの複数の非重複データ・クラスターのベクトル空間内の位置を見出すことにより、前記ベクトルの数が多くなればなるほど高くなる、各染色体の適応度を確定するステップと;
e. 前記ステップ(c)および(d)とを繰り返し、適応度が低い論理染色体を終結し、高適応度の論理染色体を複製し、前記染色体を組換え、ランダムに修飾することから成る反復プロセスによって、論理染色体集合を最適化するステップと;
f. 前記反復プロセスを終結し、非重複データ・クラスターの好ましい集合を可能にする論理染色体を選択するステップと
によって生成される、請求項63に記載の診断モデル。
【請求項65】
診断クラスターであって、該診断クラスターが請求項64に記載のモデルによって生成される、診断クラスター。

【公開番号】特開2013−101130(P2013−101130A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−286014(P2012−286014)
【出願日】平成24年12月27日(2012.12.27)
【分割の表示】特願2002−512687(P2002−512687)の分割
【原出願日】平成13年7月18日(2001.7.18)
【出願人】(511137150)アングーク ファーマシューティカル カンパニー,リミティド (1)
【出願人】(502006782)アメリカ合衆国 (47)
【Fターム(参考)】