説明

分子署名に基づくバイオマーカ

生物学的データの新しい署名を構成する方法(10)である。該方法は、パターン発見法により特定された複数の署名に基づき生成されたトレンド値に基づきフィーチャをランク付けする段階を有する。さらに、方法(10)による段階を実行する装置(30)とコンピュータプログラム製品(40)を提供する。臨床データの統計的分析、複数の分子署名に基づく検査の設計、及び複数の分子署名に基づく検査の解釈のための上記方法の使用も提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概してバイオインフォマティックスの分野に関する。より具体的に、本発明は複数の生物学的データ署名のランキングに基づき、新しい生物学的データ署名を構成する方法に関する。また、本発明は、複数の分子署名(molecular signature)を比較する装置、新しい署名を構成する装置、コンピュータプログラム製品、及びかかる方法と装置の使用に関する。
【背景技術】
【0002】
生物学的サンプルの高スループット分子プロファイリングにより、サンプルをカテゴリに階層化するのに用いられる署名が得られることが知られている。かかるグループは、状態の診断(正常か、病気か)、疾病経過(悪性か、非悪性か)、治療選択(薬剤応答)などである。署名の例は分子署名である。
【0003】
分子署名などの署名は、一般的に、臨床研究により発見され実証されるが、臨床における同じ疑問に答えるには、かかる署名のコンテンツには大きなばらつきがあることが分かってきた。これは主に、分析に利用できるデータの性質によるものである。高スループット測定により何万ないし何十万というフィーチャ(features)が得られるが、測定点(サンプル)の数は数百である。また、これは、フィーチャ(features)の数とサンプルの数の間に何桁も差がある次元の呪いとも呼ばれる。さらに、同じ臨床研究や同じ発見方法のコンテキストであれば、パラメータの選択にばらつきがあり、または異なるランダム化をした場合には、まったく同じプロシージャを繰り返しても同様だがそれでもなお異なる署名が得られることが多い。
【0004】
本技術分野の発展は速く、患者をカテゴリに階層化する多くの署名が使われている。標準が無いため、このデータは一貫性のないバラバラなものであることが多い。また、生物学的システムの複雑性とその研究方法により、出所が異なるゲノムのアイデンティティのセットの比較は困難になる。
【0005】
そのため、生物学的データの分析方法を改善すれば有利であり、柔軟性、コストエフェクティブネス、速さ、及び/または分析精度が高い方法が有利である。
【発明の概要】
【発明が解決しようとする課題】
【0006】
従って、本発明は、好ましくは、単独でまたは組み合わされて、本技術分野における上記の1つ以上の欠点を緩和もしくは解消するものである。この目的は、添付した独立請求項による生物学的データの複数の署名をグループ化する方法、装置、コンピュータプログラム製品、及び使用を提供することにより、達成される。
【0007】
本発明によるソリューションは、概して、同じ予測値の複数の署名の測定を可能とすることである。
【課題を解決するための手段】
【0008】
本発明の一態様において、生物学的データの複数の署名のセットの分析に基づき、複数のフィーチャ
【0009】
[外1]

を有する生物学的データの新しい署名を構成する方法を提供する。該方法は、生物学的データに対してN回フィーチャサブセット選択アルゴリズムを実行して、生物学的データの複数の署名のセットを求める段階を有する。該方法は、複数の実行
【0010】
[外2]

のうちの各実行riについて、サイズ(F×F)の第1の行列(Mi)を構成する段階を有する。第1の行列(Mi)の各行列要素(i,j)は、実行riにおける分析する署名の共起性に基づき、対応する各フィーチャペア(FiFj)を定量化する。該方法は、サイズ(F×N)の第2の行列(T)を構成する段階も有する。第2の行列(T)の各要素(T(i,j))には、対応する第1の行列(Mi)の対応する行(Fi)の和が入っている。さらに、該方法は、サイズ(F)のベクトル(C)であって、ベクトル(C)の各要素(CFi)が第2の行列(T)のすべての列(1ないしN)の対応する行(Ti)の平均であるベクトルを構成する段階を有する。該方法はさらに、ベクトル(C)の各値を降順にソートして、降順のベクトル(C)の各要素により表される各フィーチャ(Fi)をランキングする段階を有する。該方法は、ランキングが同じ署名の少なくとも2つのフィーチャを組み合わせて、ランク付けしたフィーチャに基づき、新しい署名のセットを構成する段階も含む。
【0011】
本発明の第2の態様によると、互いに動作可能に接続されているとき、本発明の第1の態様によるステップを実行するように構成されたユニットを有する装置を提供する。
【0012】
本発明の第3の態様によると、コンピュータにより処理されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。このコンピュータプログラムは、本発明の第1の態様による方法を実行するコードセグメントを有する。
【0013】
本発明の第4の態様によると、臨床データを統計的に分析する、第1の態様による方法または第2の態様による装置の使用を提供する。
【0014】
本発明の第5の態様によると、複数の分子署名に基づき検査を設計する、第1の態様による方法または第2の態様による装置の使用を提供する。
【0015】
本発明の第6の態様によると、複数の分子署名に基づき検査結果を解釈する、第1の態様による方法または第2の態様による装置の使用を提供する。
【0016】
本発明の実施形態は従属項に規定した。
【0017】
本発明は、署名発見プロセスからのより包括的な出力を得られるという点で、従来技術に対する優位性を有している。単一の署名出力の替わりに、一組の測定値の複数の臨床的見方を可能にする、より広い記述トレンドをキャプチャする。この記述は様々な方法で利用できる。臨床研究では、複数の署名により、調べている臨床的疑問の基礎にある生命現象の評価をよりよくすることができる。これを用いて、例えば、複数の薬剤ターゲットを探し、疾病メカニズムを評価することができる。さらにまた、診断検査の設計において、本発明により、予測値が同じ複数の署名が共存できる。これにより、例えば、ゲノムフィーチャ(genomic features)の最適なセットの選択を可能とし、検査設計における問題を回避できる。臨床医は患者データを異なった見方で見て、ゲノムフィーチャの多くの組み合わせを利用し、生理的サンプルの生物学的状態と患者の臨床的状態を最もよく記述する最適なフィーチャを選択できる。
【0018】
単一の署名出力の替わりに、一組の測定値の複数の臨床的見方を可能にする、より広い記述トレンドをキャプチャする。この記述は様々な方法で利用できる。臨床研究では、複数の署名のインスタンス化により、調べている臨床的疑問の基礎にある生命現象の評価をよりよくすることができる。さらなる優位性は、本発明により患者データを異なる角度から見て、多くのゲノムフィーチャの組み合わせを利用し、遺伝子情報から結論を引き出せる最適なものを選択できることである。
【図面の簡単な説明】
【0019】
本発明による上記その他の態様、特徴、利点は、添付した図面を参照して、本発明の実施形態に関する以下の説明により明らかになり、説明される。
【図1】一実施形態による方法を示すフローチャートである。
【図2】一実施形態によるフィーチャサブセット生成を示す図である。
【図3】一実施形態による装置を示すフローチャートである。
【図4】一実施形態によるコンピュータプログラム製品を示す図である。
【発明を実施するための形態】
【0020】
本技術分野の当業者が本発明を実施できるように、添付した図面を参照しつつ本発明の実施形態を詳細に説明する。しかし、本発明は、多数の異なる形式で実施でき、ここに開示した実施形態だけに限定されると解釈してはならない。むしろ、これらの実施形態は、この開示が完全であり、当業者に本発明の範囲を完全に伝えるように提供するものである。実施形態は本発明を限定するものではなく、本発明は添付した特許請求の範囲によってのみ限定される。さらに、添付した図面に示した実施形態の詳細な説明で用いる用語は、本発明を限定するものではない。
【0021】
図1の一実施形態において、複数の生物学的データの署名のセットの分析に基づき、複数のフィーチャ
【0022】
[外3]

を有する生物学的データの新しい署名を構成する方法10を示す。該方法は、ステップ110において、生物学的データに対してN回フィーチャサブセット選択アルゴリズムを実行して、生物学的データの複数の署名のセットを求める段階を有する。複数の実行
【0023】
[外4]

のうちの各実行riについて、方法10は、サイズ(F×F)の第1の行列
【0024】
[外5]

を構成する段階120aを有する。第1の行列(Mi)の各行列要素(i,j)は、実行riにおける分析する署名の共起性に基づき、対応する各フィーチャペア(FiFj)を定量化する。方法10は、サイズ(F×N)の第2の行列
【0025】
[外6]

を構成する段階120bも有する。第2の行列(T)の各要素(T(i,j))には、対応する第1の行列(Mi)の対応する行(Fi)の和が入っている。方法10は、さらにステップ130において、サイズ(F)のベクトル
【0026】
[外7]

を構成する段階を有する。このベクトルの各要素(CFi)には、第2の行列(T)のすべての列(1ないしN)の対応する行(Ti)の平均が入っている。この方法は、ベクトル(C)の各値を降順にソートして、降順のベクトル(C)の各要素により表される各フィーチャ(Fi)をランキングする段階140を有する。さらに、方法10は、同じランキングの署名の少なくとも2つのフィーチャを組み合わせて、ランク付けしたフィーチャに基づき、新しい署名のセットを構成する段階150を有する。
【0027】
署名を、測定した分子フィーチャ(molecular features)のランキング等の特徴付けと、フィーチャの共起の発生などのトレンドにより説明する。これは、どのフィーチャをどんな順序で組み合わせるか判断する役に立つ。また、分子署名のファミリを構成(インスタンス化)できる。これらは、診断分析を設計し、ゲノムフィーチャのセットを変えて分子測定を行うのに用いられる。各実行において平均フィーチャサブセットサイズや(サンプルの分類などにおける)平均性能などの追加的特性を保存し、考慮してもよい。
【0028】
一実施形態では、かかる署名は、ヌクレオチドシーケンス、ジェネティックバリエーション、メチル化状態、またはジェネティックエクスプレッションなどの分子署名でもよい。しかし、どんな署名を利用してもよい。
【0029】
一実施形態では、前記フィーチャサブセット選択は、フィルタリング法、前方フィーチャ選択法、ジェネティックアルゴリズムなどを含み、これらは本技術分野で周知である。しかし、どんなフィーチャサブセット選択を利用してもよい。
【0030】
【表1】

【0031】
プログラミング言語「R」に基づく、より具体的な実施形態では、表1の入力を用いて、以下のステップを実行する。
【表2】

【0032】
上記の擬似コードによると、Tに基づくフィーチャの「近傍」に基づき、最も相関が高いフィーチャと最も逆相関が高いフィーチャを同様の方法で求める。これを行う1つの方法は、N個の最も相関(または逆相関)が高いフィーチャを探して、Cを用いて、そのN個のフィーチャから最もランクの高いものを取ることである。この方法を用いると、相関(逆相関)しているが場合の数が少ない、関連が低いフィーチャを避けることができる。
【0033】
図2を参照して、さらにフィーチャサブセット生成を説明する。
【0034】
大文字の表記はサブセットに加えられるフィーチャを示す。その各フィーチャについて、逆相関する遺伝子を示す小文字のノードをマークした。これらのうち、1つのノードに大文字と小文字の表記がある場合のみに興味がある。点線で囲んだ領域は最も逆相関が高いと考えられるフィーチャである。相関が高く足し合わせるフィーチャは、図示を簡明にするため示していない。
【0035】
レベル1では、サブセット={{A}}であり、BとCが加えられ(features.added.per.level=3)、D、E、Fは次のレベルで加えるようマークされる。4つの(逆)相関フィーチャの近傍を考える。レベル1の後、S={{A,B,C}}である。今のところ逆相関コンフリクトがないからである。
【0036】
レベル2において、Dをサブセットに加え、次のレベルでGを加えることを考える。サブセット={{A,B,C,D}}。次に、Eをサブセットに加え、次のレベルでHを加えることを考える。サブセット={{A,B,C,D,E}}。Fをサブセットに加え、次のレベルでIを加えることを考える。しかし、EとFは一緒には使えないので、サブセット={{A,B,C,D,E},{A,B,C,D,F}}。
【0037】
レベル3では、Gをサブセットに加え、サブセット={{A,B,C,D,E,G}, {A,B,C,D,F,G}}。Hをサブセットに加え、サブセット={{A,B,C,D,E,G,H}, {A,B,C,D,F,G,H}}。Iをサブセットに加えるが、IとHは一緒には使えないので、サブセット={{A,B,C,D,E,G,H}, {A,B,C,D,F,G,H}, {A,B,C,D,E,G,I}, {A,B,C,D,F,G,I}}。
【0038】
上記の例は、フィーチャ間の相関や逆相関(anti-correlations)など、ペアごとのトレンド値をどう使って、新しい署名を求めるかを示している。
【0039】
一実施形態では、Nが4の場合、フィーチャサブセット選択アルゴリズムは、本技術分野で知られた任意のフィーチャサブセットアルゴリズムでもよいが、生物学的データの複数の署名のセットを求めるため、4回実行される(110)。表2に示すように、これらの署名に基づき、第1の行列(Mi)を構成する(120a)。
【0040】
【表3】

【0041】
次に、表3に示すように、第2の行列(T)を構成する(120b)。
【0042】
【表4】

【0043】
第2行列(T)に基づき、第2行列(T)のすべての列(1ないしN)の対応する行(Ti)の平均を割り当てることにより、Cベクトルを構成する(130)。表4に示すように、Cベクトルも降順にソートする(140)。
【0044】
【表5】

【0045】
次に、ランク付けしたフィーチャに基づき、新しい署名のセットを構成する(150)。この実施形態では、Aがトップである。そこで、何をするか決めるため、ランキングが同様のフィーチャ、すなわち相関フィーチャが必要であり、関連のないフィーチャ、すなわち逆相関フィーチャも必要である。これはT行列に基づきフィーチャペアの相関を計算することにより求められる。結果を表5に示す。
【0046】
【表6】

【0047】
フィーチャ{A}から始めて、次のトップランクのフィーチャを加える。{A,B}となる。次のトップランクのフィーチャ(C)は、BとCとの逆相関が高いので、加えない。その替わり2つのセットを生成する{{A,B},{A,C}}。以下、DとEは逆相関が高いので、一緒にしておくことはできない。このように、この実施形態では、構成される新しい署名のセットは(150)、{{A,B,D},{A,C,E}}である。
【0048】
本技術分野で周知の、フィーチャサブセットアルゴリズムの各実行の追加的特性を、保存して考慮してもよい。一実施形態では、平均フィーチャサブセットサイズ、サンプルの分類の平均性能などを考慮してもよい。例えば、フィーチャサブセットにおいて、フィーチャの平均数などの統計を利用してもよい。一サブセットは20個のフィーチャを有し、他の一サブセットは35個のフィーチャを有してもよい。さらにまた、結果の予測力に関する各フィーチャサブセットの性能は異なってもよい。例えば、あるサブセットは98%の予測精度を有し、他のサブセットは95%の精度を有する。このように、フィーチャの特徴Cを計算しつつ、各サブセットの貢献をその性能に関して重み付けしてもよい。それゆえ、フィーチャのペアが署名において共起するが、予測性能が低いとき、そのペアごとの共起スコアを、署名の平均予測精度に反比例する量だけペナルティをかけて、これを調整することができる。例えば、共起ごとに1を加えるのではなく、性能がよくないサブセットには0.5を足してもよい。
【0049】
臨床における一実施形態において、臨床医は患者データを異なった見方で見て、ゲノムフィーチャの多くの組み合わせを利用し、生理的サンプルの生物学的状態と患者の臨床的状態を最もよく記述する最適なフィーチャを選択する。例えば、分析により患者サンプルの100個のゲノムフィーチャを測定するとき、複数の測定のセットで「ワンショット」を取るのではなく、診断テストは単一の研究に基づく複数の評価よりなる。そのため、単一のテストではなく、テストの結果を集合的に決定する署名の代表(committee)を用いてもよい。例えば、臨床研究に基づく場合、5つのゲノムフィーチャA、B、C、DおよびEに基づくトレンドは3つのコンビネーションA、B、C;A、C、D;A、C、Eによりキャプチャできる。ノイズが大きいフィーチャBの測定結果によりA、B、Cからの出力は歪んでしまうだろう。しかし、残る2つの新しい署名によりサンプルのシグナルを正しくキャッチできる。
【0050】
図3に示した本発明の他の一実施形態では、生物学的データの新しい署名を構成する装置30を示す。この装置30は、生物学的データに対してN回フィーチャサブセット選択アルゴリズムを実行して、生物学的データの複数の署名のセットを求めるように構成された第1のユニット310を有する。
【0051】
装置30は、複数の実行
【0052】
[外8]

のうちの各実行riについて、サイズ(F×F)の第1の行列
【0053】
[外9]

を構成する(320a)ように構成された第2のユニット320を有する。第1の行列(Mi)の各行列要素(i,j)は、実行riにおいて分析する署名の共起性に基づき、対応する各フィーチャペア(FiFj)を定量化する。第2のユニット320は、サイズ(F×N)の第2の行列
【0054】
[外10]

を構成する(320b)ようにも構成されている。第2の行列(T)の各要素(T(i,j))には、対応する第1の行列(Mi)の対応する行(Fi)の和が入っている。
【0055】
装置30はさらに、サイズ(F)のベクトル
【0056】
[外11]

を構成するように構成された第3のユニット330を有する。このベクトルの各要素(CFi)には、第2の行列(T)のすべての列(1ないしN)の対応する行(Ti)の平均が入っている。
【0057】
装置30は、ベクトル(C)の各値を降順にソートして、降順のベクトル(C)の各要素により表される各フィーチャ(Fi)をランキングする第4のユニット340を有する。
【0058】
装置30はさらに、同じランキングの署名の少なくとも2つのフィーチャを組み合わせて、ランク付けしたフィーチャに基づき、新しい署名のセットを構成するように構成された第5のユニット350を有する。
【0059】
ユニット310、320、330、340、350は互いに接続され動作している。ユニット310、320、330、340、350は、接続された、別々の物理的実体として実施してもよい。しかし、ユニット310、320、330、340、350は、単一の物理的実体として実施してもよい。ユニット310、320、330、340、350のどんな組み合わせも、異なる別々の物理的実体として実施してもよいし、単一の物理的実体として実施してもよい。この実体はさらにどのような設定で結合して、物理的実体間の接続を構成してもよい。
【0060】
ユニット310、320、330、340、350は、メモリを有するプロセッサなどのハードウェアなどの、関連するタスクの実行に使える任意のユニットであり得る。
【0061】
一実施形態では、装置30またはシステム100は、コンピュータ断層撮影(CT)システム、磁気共鳴画像化(MRI)システム、または超音波画像化(US)システムなどの医療用ワークステーションや医療用システムに含まれてもよい。
【0062】
図4に示した一実施形態では、コンピュータプログラム製品は、コンピュータにより処理するコンピュータプログラム40を有する。コンピュータプログラム40は、N回、複数の実行
【0063】
[外12]

の各実行において、生物学的データにフィーチャサブセット選択アルゴリズムを実行して、生物学的データの複数の署名のセットを取得する第1のコードセグメント410を有する。コンピュータプログラム40は、複数の実行
【0064】
[外13]

のうちの各実行(ri)について、サイズ(F×F)の第1の行列
【0065】
[外14]

を構成する(420a)第2のコードセグメント420を有する。第1の行列(Mi)の各行列要素(i,j)は、実行riにおいて分析する署名の共起性に基づき、対応する各フィーチャペア(FiFj)を定量化する。第2のコードセグメント420は、サイズ(F×N)の第2の行列
【0066】
[外15]

を構成する(420b)。第2の行列(T)の各要素(T(i,j))には、対応する第1の行列(Mi)の対応する行(Fi)の和が入っている。
【0067】
コンピュータプログラム40はさらに、サイズ(F)のベクトル
【0068】
[外16]

を構成するように構成された第3のコードセグメント430を有する。このベクトルの各要素(CFi)には、第2の行列(T)のすべての列(1ないしN)の対応する行(Ti)の平均が入っている。
【0069】
コンピュータプログラム40は、ベクトル(C)の各値を降順にソートして、降順のベクトル(C)の各要素により表される各フィーチャ(Fi)をランキングする第4のコードセグメント440を有する。コンピュータプログラム40はさらに、同じランキングの署名の少なくとも2つのフィーチャを組み合わせて、ランク付けしたフィーチャに基づき、新しい署名のセットを構成する第5のコードセグメント450を有する。
【0070】
一実施形態では、コンピュータプログラム製品は、コンピュータにより処理されるコンピュータプログラム40を有する。外コンピュータプログラム40は、コンピュータ処理機能を有する装置により実行されると、方法10で画定された方法ステップの全てを実行するように構成されている。
【0071】
一実施形態では、方法10または装置30は、医師が患者を診断または治療する際に支援する、生物学的データの複数の分子署名などの情報を提供する。
【0072】
このように、一実施形態では、臨床データを統計的に分析する方法10または装置30の使用を提供する。
【0073】
例えば、100人の患者のデータを含むデータセットにおいて、一部は癌の再発などの結果を生じ、一部は異なる結果を生じる。上記のように、複数の署名を発見し、特徴付ける。例えば、各患者の再発状態を予測する能力に基づき、署名を評価する。診断検査によりオリジナルな研究に基づく関連フィーチャをすべて測定する。新しい患者に対して、臨床医は、各々がその患者の再発を予測する複数の署名を生成し、その署名の特性に基づきそれぞれを評価する。例えば、臨床医は、特定の治療に関する生物学的経路に関連する遺伝子についての情報を含む署名のみを用いることができる。
【0074】
一実施形態では、複数の分子署名に基づき検査を設計する、方法10と装置30の使用を提供する。
【0075】
上記に基づき、生成したフィーチャの一部(smaller subset)を含む検査(assays)を設計してもよい。この場合、フィーチャは、例えば、疾病に関連することが分かっている遺伝子や、その測定装置でよい特性が得られるフィーチャ(遺伝子)などの特性に基づいて選択する。
【0076】
一実施形態では、複数の分子署名に基づき検査結果を解釈する、方法10と装置30の使用を提供する。
【0077】
上記の検査結果により、臨床医は、その特徴を用いて、第1の検査結果からの出力を解釈する第2の検査を設計する。検査結果におけるフィーチャの信号の存否に基づき、臨床医は第1の検査では明示的に測られていないフィーチャについての追加情報を推論できる。例えば、分子署名においてフィーチャAとBが広く共起することが分かっており、第1の検査ではフィーチャAの測定結果のみが得られている場合、臨床医は、フィーチャBのありうる測定結果を推論し、患者に関する新しい臨床的に関連のある情報を得ることができる。
【0078】
本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせを含むいかなる好適な形式で実施することもできる。しかし、本発明は、1つ以上のデータプロセッサ及び/またはデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして実施することが好ましい。本発明の実施形態の構成要素は、いかなる好適な方法で物理的、機能的、論理的に実施してもよい。機能は単一のユニット、複数のユニット、または他の機能ユニットの一部として実施することもできる。このように、本発明は、単一ユニットで実施することもできるし、異なる複数のユニットやプロセッサに物理的かつ機能的に分散して実施することもできる。
【0079】
好ましい実施形態を参照して本発明を説明したが、ここに記載した具体的な形式に限定することを意図したものではない。むしろ、本発明は添付した請求項によってのみ限定され、上記の実施形態以外の実施形態も添付した請求項の範囲に等しく入りうる。
【0080】
請求項では、「有する」という用語は他の要素やステップの存在を排除するものではない。さらに、個別的に列挙されていても、複数の手段、要素、方法ステップは、例えば単一のユニットまたはプロセッサにより実施してもよい。また、個々の機能(feature)は異なる請求項に含まれていても、これらを有利に組み合わせることが可能であり、異なる請求項に含まれていても、機能を組み合わせられないとか、組み合わせても有利ではないということを示唆するものでもない。また、単数扱いをしても複数の場合を排除するものではない。よって、「1つの」、「第1の」、「第2の」等は複数の場合を排除するものではない。請求項中の参照符号は、明りょうにするために設けており、請求項の範囲を限定するものと解してはならない。

【特許請求の範囲】
【請求項1】
生物学的データの複数の署名のセットの分析に基づき、複数のフィーチャを有する生物学的データの新しい署名を構成する方法であって、
N回、複数の実行の各実行において、生物学的データにフィーチャサブセット選択アルゴリズムを実行して、前記生物学的データの複数の署名のセットを求める段階と、
サイズ(F×F)の第1の行列であって、前記第1の行列の各行列要素が実行riで分析する署名における共起性に基づき、対応する各フィーチャペアを定量化する第1の行列を構成する段階と、
サイズ(F×N)の第2の行列であって、前記第2の行列の各要素が対応する第1の行列の対応する行の和である第2の行列を構成する段階と、
サイズ(F)のベクトルであって、前記ベクトルの各要素が前記第2の行列のすべての列の対応する行の平均であるベクトルを構成する段階と、
ベクトルの各値を降順にソートして、降順のベクトルの各要素により表される各フィーチャをランキングする段階と、
ランキングが同じ署名の少なくとも2つのフィーチャを組み合わせて、ランク付けしたフィーチャに基づき、新しい署名のセットを構成する段階とを有する、方法。
【請求項2】
前記署名は分子署名である、請求項1に記載の方法。
【請求項3】
前記分子署名は、ヌクレオチドシーケンス、遺伝子変異、メチル化状態、または遺伝子発現よりなるグループから選択される、請求項2に記載の方法。
【請求項4】
前記フィーチャサブセット選択はパターン発見である、請求項1に記載の方法。
【請求項5】
生物学的データの新しい署名を構成する装置であって、
生物学的データに対してN回フィーチャサブセット選択アルゴリズムを実行して、前記生物学的データの複数の署名のセットを求めるように構成された第1のユニットと、
複数の実行の各実行において、
サイズ(F×F)の第1の行列であって、前記第1の行列の各行列要素が実行riで分析する署名における共起性に基づき、対応する各フィーチャペアを定量化する第1の行列を構成し、
サイズ(F×N)の第2の行列であって、前記第2の行列の各要素が対応する第1の行列の対応する行の和である第2の行列を構成する第2のユニットと、
サイズ(F)のベクトルであって、前記ベクトルの各要素が前記第2の行列のすべての列の対応する行の平均であるベクトルを構成するように構成された第3のユニットと、
ベクトルの各値を降順にソートして、降順のベクトルの各要素により表される各フィーチャをランキングするように構成された第4のユニットと、
ランキングが同じ署名の少なくとも2つのフィーチャを組み合わせて、ランク付けしたフィーチャに基づき、新しい署名のセットを構成するように構成された第5のユニットとを有し、
前記ユニットは相互に動作可能に接続されている、装置。
【請求項6】
コンピュータで処理するコンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、
生物学的データに対してN回フィーチャサブセット選択アルゴリズムを実行して、前記生物学的データの複数の署名のセットを求めるように構成された第1のコードセグメントと、
複数の実行の各実行において、
サイズ(F×F)の第1の行列であって、前記第1の行列の各行列要素が実行riで分析する署名における共起性に基づき、対応する各フィーチャペアを定量化する第1の行列を構成し、
サイズ(F×N)の第2の行列であって、前記第2の行列の各要素が対応する第1の行列の対応する行の和である第2の行列を構成する第2のコードセグメントと、
サイズ(F)のベクトルであって、前記ベクトルの各要素が前記第2の行列のすべての列の対応する行の平均であるベクトルを構成するように構成された第3のコードセグメントと、
ベクトルの各値を降順にソートして、降順のベクトルの各要素により表される各フィーチャをランキングするように構成された第4のコードセグメントと、
ランキングが同じ署名の少なくとも2つのフィーチャを組み合わせて、ランク付けしたフィーチャに基づき、新しい署名のセットを構成するように構成された第5のコードセグメントとを有する、コンピュータプログラム製品。
【請求項7】
コンピュータ処理機能を有する装置により実行されたとき、請求項1ないし4いずれか一項に記載の方法のすべての段階を実行するように構成されたコードセグメントを有する、請求項6に記載のコンピュータプログラム製品。
【請求項8】
臨床データを統計的に分析する、請求項1に記載の方法または請求項5に記載の装置の使用。
【請求項9】
複数の分子署名に基づき検査を設計する、請求項1に記載の方法または請求項5に記載の装置の使用。
【請求項10】
複数の分子署名に基づき検査結果を解釈する、請求項1に記載の方法または請求項5に記載の装置の使用。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公表番号】特表2012−527679(P2012−527679A)
【公表日】平成24年11月8日(2012.11.8)
【国際特許分類】
【出願番号】特願2012−511392(P2012−511392)
【出願日】平成22年5月18日(2010.5.18)
【国際出願番号】PCT/IB2010/052208
【国際公開番号】WO2010/134023
【国際公開日】平成22年11月25日(2010.11.25)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】