説明

分類器アンサンブルを用いた遺伝的アルゴリズムに基づく特徴選択のための方法

遺伝的アルゴリズムに基づく特徴選択を行うための方法がここに規定される。ある実施例において、前記方法は、少なくとも1つの分類結果を得るための複数の分類器を構築するために、学習データセットに複数のデータ分割パターンを適用するステップ、統合した精度結果を得るために、前記複数の分類器から前記少なくとも1つの分類結果を統合するステップ、及び候補の特徴サブセットに対する適合度値として前記統合した精度結果を遺伝的アルゴリズムに出力するステップであり、ここで遺伝的アルゴリズムに基づく特徴選択が行われているステップを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2006年9月22日に出願された米国仮出願番号60/826,593号の利点を主張し、この米国出願は言及することにより全て本書に組み込まれる。
【0002】
遺伝的アルゴリズムを用いた特徴選択のための方法が提供される。
【背景技術】
【0003】
遺伝的アルゴリズム(GA)は、最適化及び検索問題に対する解法を見つけるための検索技術として計算に用いられる進化的アルゴリズムのクラスである。GAは、例えば遺伝、突然変異、選択及び交叉のような概念を含む進化生物学がきっかけで生み出される技術を発展させるための専門用語及び概念を使用する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
サブセット選択又は変数選択としても知られる特徴選択は、機械学習に用いられる方法である。学習アルゴリズムをデータセットに適用する前に、このデータセットから利用可能な特徴のサブセットが選択される。データセットにある全ての利用可能な特徴を用いることは計算上実行不可能であるため、この特徴選択の処理が使用される。特徴選択は、データセットが多数の特徴を含んでいる限られたデータサンプルを持つ場合、推定及び過剰適合の問題を最小化するのにも使用される。
【0005】
特徴選択が利用される代表的な分野は、コンピュータ支援診断(CADx)である。CADxは、例えば不明な病巣を悪性又は良性と分類するためのように、医学的転帰を予測するために機械学習技術を用いる方法である。例えば、肺がんの診断のための肺のCT撮像において、これらの入力特徴は、検査中の肺結節に適用されるような画像処理アルゴリズムの結果を含んでいる。CADxシステムの診断精度を向上させることは、この技術をクリニックにうまく導入する上で重要なステップである。
【0006】
各病巣に対して計算及び抽出される画像特徴及び臨床特徴が多いため、特徴選択は、データセットにある全ての利用可能な特徴を用いることの実行不可能性及びデータセットが多数の特徴を含んでいる限られたデータサンプルを持つときの推定の問題のおかげで重要なステップである。GA及びサポートベクターマシン(SVM)を用いる特徴選択は、コンピュータ支援検出(CAD;Boroczky他著、IEEE Transaction on Biomedical Engineering, 10(3),pp.504-551,2006)に対する効率的な特徴選択方法であると示されている。
【0007】
GAに基づく特徴選択が多くの分野で成功していると示されていたとしても、ノイズの多い及び小さな医療データセットが原因による問題及び偏りがしばしば生じる。これはGA内部での無作為な分割により生じ、これが学習データセットから偏った学習データセット及び偏った試験データセットを生成させ得る。
【課題を解決するための手段】
【0008】
それゆえに、遺伝的アルゴリズムに基づく特徴選択を行うための方法がここに記載される。ある実施例における方法は、少なくとも1つの分類結果を得るための複数の分類器を構築するために、学習データセットに複数のデータ分割パターンを適用するステップ、統合した精度結果を得るために、前記複数の分類器から前記少なくとも1つの分類結果を統合するステップ、及び候補の特徴サブセットに対する適合度値として前記統合した精度結果を遺伝的アルゴリズムに出力するステップであり、ここで遺伝的アルゴリズムに基づく特徴選択が行われるステップ、を含む。
【0009】
関連する実施例はさらに、前記候補の特徴サブセットを得るために、前記遺伝的アルゴリズムを使用することを含む。
【0010】
関連する実施例において、前記複数のデータ分割パターンは、学習データセットを訓練データと試験データとに分ける。前記学習データセットは学習規則のパラメタを調整するのに使用される。訓練データセットは、(利用可能な特徴を含んでいる)入力ベクトルと、(分かっている診断、すなわち悪性/良性を含んでいる)応答ベクトルとを含み、事例及び分かっている診断を有するデータベースを用いてコンピュータを訓練するための管理された学習方法と一緒に用いられる。試験データセットは、前記訓練データに基づいて構築された前記分類器の動作を試験するのに使用される既知の実施例を含んでいる。
【0011】
もう1つの関連する実施例において、前記複数の分類器は、SVM、決定木、線形判別分析及び神経回路網の少なくとも1つから選択される。
【0012】
もう1つの関連する実施例において、前記複数の分析器を構築することはさらに、前記学習データセットから複数の訓練セット及び複数の試験セットの各々を得るための再サンプリング技術を用いることを含む。
【0013】
さらにもう1つの関連する実施例において、前記複数の分析器を構築することはさらに、複数の訓練セットを使用することを含む。
【0014】
もう1つの実施例において、前記方法はさらに、グループの予測を形成するために、前記複数の分類器からの分析結果を組み合わせることを含む。
【0015】
関連する実施例において、少なくとも1つの分類結果を統合することはさらに、平均、加重平均、多数決、加重多数決及び中央値のグループから選択される少なくとも1つの結果を計算することを含む。
【0016】
もう1つの関連する実施例において、前記方法はさらに、適合度値(fitness value)を用いて候補の特徴サブセットを繰り返し評価して、新しい候補の特徴サブセットを生成し、最適の最終的な特徴サブセットを得るために、遺伝的アルゴリズムを使用することを含む。
【0017】
関連する実施例において、前記方法は、CT、MRI、X線及び超音波の少なくとも1つのグループから選択される医療撮像モダリディに用いられる。
【0018】
もう1つの実施例において、前記方法はCADに用いられる。関連する実施例において、前記方法は、肺がん、乳がん、前立腺がん及び結腸直腸がんの少なくとも1つのグループから選択される疾病のCADに用いられる。
【0019】
さらにもう1つの実施例において、前記方法はCADxに用いられる。関連する実施例において、前記方法は、肺がん、乳がん、前立腺がん及び結腸直腸がんの少なくとも1つのグループから選択される疾病のCADxに用いられる。
【0020】
ここに記載される前記方法は、GAに基づく特徴選択を改善させるために、分類アンサンブル方法を進化的特徴選択処理に統合する。前記GAは、単一のデータ分割パターンを評価するよりも、複数のデータ分割パターンに基づく統合した予測結果を用いて、各特徴サブセットを評価する。これは、さもなくは偏った適合度値の計算をさせるノイズの多いデータに対し特に有用である。
【図面の簡単な説明】
【0021】
【図1】図1は、分類の精度に関するデータ分割の影響を示す棒グラフである。
【図2】図2は、データセットを分析して、最良の特徴サブセットを得るために複数の分類器を構築するステップを示すフローチャートである。
【発明を実施するための形態】
【0022】
特徴選択は、分類器を構築するために、最適な特徴サブセットを決めるのに使用される。GA及びSVMに基づく特徴選択処理が使用される。分類器は、最適な特徴セブセットに基づいて構築される。
【0023】
分類器は、例えば肺がん及び固形腫瘍を持つ他の形式のがんに対する異なる疾病のCAD及びCADxに使用される。機械学習の分野において、分類器は、類似の特徴値を持つ項目をグループ化するのに使用される。考えられる分類器は、SVM、決定木、線形判別分析及び神経回路網を含んでいる。SVMは線形分類器であり、これが分類器に対し優れた性能を示しているのでしばしば使用される。決定木は、ある項目についての考察をその項目の目標値についての結論にマッピングする予測モデルである。線形判別分析は、オブジェクト又はイベントの2つ以上のクラスを最も上手く分ける特徴の線形結合を見つけるのに使用される。結果生じる結合は、線形分類器として使用される又は後の分類の前に次元削減に使用される。神経回路網は、入力と出力との間の関係をモデリングする及び/又はデータからパターンを見つけるのに使用される非線形統計データモデリングツールである。
【0024】
臨床医に高い信頼を提供するCADxシステムは、迅速且つ正確な診断(より少ない偽陽性及び偽陰性)を提供することにより、臨床医のワークフローを改善する。CADxシステムは、それらの診断において臨床医の信頼を高める第2のリーダーとして使用され、例えば結節のような肺病巣の不要な生検を大幅に減少させ、治療の不要な遅れを大幅に減少させることになる。さらに、CADxシステムは、診断が素早く及び正確になるので、無症候性患者の肺がんスクリーニングを容易にすることができる。フィリップス社のブリリアンスシリーズにより例示されるが、それに限定されないMSCTスキャナは、増大する分解能を提供し、より細かい構造が観察されることを可能にする一方、放射線専門医により解釈される画像データの量の増大をもたらす。
【0025】
CADx分野に基づく機械学習において、最も一般的な問題の1つは、訓練データが通常ノイズが多いことである。ノイズは、訓練データセットが十分に大きくないときに見られる。これは、特徴選択の効果にかなりの影響を与える。GAは特徴サブセットを表す各染色体を評価するための無作為のデータ分割を信頼しているので、ノイズの多いデータは、特徴サブセットが行う方法の不正確な評価を与える。結果として、良好な特徴サブセットは、"ダメな"無作為のデータ分割の実施のせいで切り捨てられることがある。これは後に正常な最適な特徴サブセットへの収束に影響する。
【0026】
図1は、129の肺がんの症例からのデータを用いた実験結果のグラフを示す。無作為に選択されたデータのサブセットが訓練、すなわちSVM分類器を構築するのに用いられ、残りのデータは試験に用いられる。これはデータ分割として知られている。図1の結果は、異なるデータ分割が用いられたとき、分類の精度、すなわち試験の精度が大きく異なることを示している。
【0027】
以前の方法は通常、ノイズ成分が偏りの無い、すなわち零平均の正規分布から無作為に抽出されると仮定する。適合度値は通常、ノイズの偏りを推定し、前記適合度値からそれを取り去ることにより訂正される(Miller他著、Evolutionary Computation, 1996, http://leitl.org/docs/ecj96.ps.gzにて入手可能)。適合度値は、解の質の客観的尺度である。
【0028】
現実世界にある全てのデータが偏りの無い分布を持っている訳ではない、すなわち偏りは推定するのが難しい。これら問題に取り組むために、ここに記載される方法は、GAの進化中に特徴サブセットを評価するとき、ノイズの影響を減少させるための分類器アンサンブルを使用する。
【0029】
分類器アンサンブルは、このアンサンブルを構成している個々の分類器の何れよりもより正確であることが理論上及び経験上証明されている(Opitz他著、Journal of Artificial Intelligence Research, pp. 169-198, 1999)。ここに記載される方法は、以下の相違、
−複数の分類器を構築するための別々の訓練セットを得るために再サンプリング技術への信頼、
−複数の分類器を構築するために複数の特徴サブセットの使用、
を用いる。前記複数の分類器による分類結果は、グループの予測を形成するために一緒に組み合わされる。
【0030】
特徴サブセットの性能を評価するために、従来の方法に従って1つの分類器を構築する(すなわち1つのデータ分割パターンを用いる)代わりに、ここに記載される方法は、アンサンブルとしても知られる複数の分類器を構築し、これら分類器からの分類結果を統合する。この場合、幾つかの分類器が異なるデータ分割で構築される。各分類器は、例えば腫瘍が良性又は悪性であるかの決定をする。統合方法は多数決、すなわち大半の分類器により選ばれた予測である。代替の統合方法は、平均、加重平均又は中央値を計算することを含んでいる(Kuncheva著、L.I. IEEE Transaction on Pattern Analysis and Machine Intelligence, 24(2), pp. 281-286, 2002)。前記分類器アンサンブルにより得られる精度は、如何なる1つの分類器のよりも優れている。分類器アンサンブルにより決められるような統合した精度は、ある特定の特徴サブセットに対する適合度値としてGAに戻される。
【0031】
図2は、2つのセット、セットA(学習データセット)及びセットB(最終試験のために確保されるデータセット)に分割したデータサンプルを示す。セットAはデータ分割を受けて、このセットAのデータを訓練セット及び試験セットに分割する。複数の分類器、すなわちSVMを構築するために、複数のデータ分割パターンが利用される。これら複数の分類器からの結果が統合され、評価される。分類の精度は本来のデータセットの一部である試験セットのデータに行われる。各分類器からの統合した結果である、分類の精度の結果は、候補の特徴サブセットに対する適合度値としてGAに戻される。この適合度値は、特異度及び感度の両方を含むことができる。前記統合した結果がGAに戻された後、このGAは、どの特徴が保持/破棄されるかを決め、内部の突然変異及び交叉動作を介して新しい候補の特徴サブセットを生成する。前記GAの進化処理は、最良の特徴サブセットが決められたとき、終了基準に達するまで繰り返す。
【0032】
ここに記載される方法は、例えばMRI、CT、X線又は超音波のような幾つかの撮像モダリティと共に使用されることができる。ここに記載される方法は、例えば撮像システム、すなわち電子スキャナから集められるデータのような人間の身体にある異常な病変を検知及び診断するのに使用される撮像モダリティを含む医療撮像モダリティに応用される。ここに記載される方法及びシステムは、フィリップス社の拡張ブリリアンスワークステーションPhilips Mx8000及びフィリップス社のブリリアンスCTスキャナシリーズにより例示されるが、それに限定されない放射線ワークステーションに用いられるか、又はStentor iSiteシステムにより例示されるが、それに限定されないPACSシステムに実装されることができる。ここに記載される本発明は、CAD及びCADxにも使用される。CAD及びCADxに応用されるとき、ここに記載される本発明は、例えば肺がん、大腸ポリープ、結腸直腸がん、前立腺がん及び乳がん、並びに他のがん性及び非がん性の病巣のような疾病を検知及び診断するのに使用される。
【0033】
本発明の他の及び更なる形態、並びに上述した特定及び例示的な実施例以外の実施例は、付随する請求項及びこれらに相当するものの意図並びに範囲から外れることなく考案されてもよいことは明らかであり、従って本発明の範囲がこれらに相当するものも包含すること、並びに明細書及び特許請求の範囲は、模範とするものであり、更に制限するとは考えるべきではないことを意味している。ここに引用される全ての参照文献の内容は、言及することにより組み込まれる。

【特許請求の範囲】
【請求項1】
遺伝的アルゴリズムに基づく特徴選択を行うための方法において、
少なくとも1つの分類結果を得るための複数の分類器を構築するために、学習データセットに複数のデータ分割パターンを適用するステップ、
統合した精度結果を得るために、前記複数の分類器から前記少なくとも1つの分類結果を統合するステップ、及び
候補の特徴サブセットに対する適合度値として前記統合した精度結果を遺伝的アルゴリズムに出力するステップであり、ここで遺伝的アルゴリズムに基づく特徴選択が行われているステップ
を有する方法。
【請求項2】
前記候補の特徴サブセットを得るために、前記遺伝的アルゴリズムを使用するステップをさらに有する請求項1に記載の方法。
【請求項3】
前記複数のデータ分割パターンは、前記学習データを訓練データと試験データとに分ける請求項1に記載の方法。
【請求項4】
前記複数の分類器は、サポートベクターマシン(SVM)、決定木、線形判別分析及び神経回路網の少なくとも1つからなるグループから選択される請求項1に記載の方法、
【請求項5】
前記複数の分類器を構築するステップはさらに、前記学習データセットから複数の訓練セット及び複数の試験セットの各々を得るための再サンプリング技術を用いるステップを有する請求項1に記載の方法。
【請求項6】
前記複数の分類器を構築するステップはさらに、複数の訓練セットを使用するステップを有する請求項1に記載の方法。
【請求項7】
グループの予測を形成するために、前記複数の分類器からの分類結果を組み合わせるステップをさらに有する請求項1に記載の方法。
【請求項8】
少なくとも1つの分類結果を統合することはさらに、平均、加重平均、多数決、加重多数決及び中央値からなるグループから選択される少なくとも1つの結果を計算するステップを有する請求項1に記載の方法。
【請求項9】
最適の最終的な特徴サブセットを得るために遺伝的アルゴリズムを使用するステップをさらに有する請求項1に記載の方法。
【請求項10】
CT、MRI、X線及び超音波の少なくとも1つからなるグループから選択される医療撮像モダリティに用いられる請求項1に記載の方法。
【請求項11】
コンピュータ支援決定に用いられる請求項1に記載の方法。
【請求項12】
肺がん、乳がん、前立腺がん及び結腸直腸がんの少なくとも1つからなるグループから選択される疾病のコンピュータ支援決定に用いられる請求項11に記載の方法。
【請求項13】
コンピュータ支援診断に用いられる請求項1に記載の方法。
【請求項14】
肺がん、乳がん、前立腺がん及び結腸直腸がんの少なくとも1つからなるグループから選択される疾病のコンピュータ支援診断に用いられる請求項13に記載の方法

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2010−504578(P2010−504578A)
【公表日】平成22年2月12日(2010.2.12)
【国際特許分類】
【出願番号】特願2009−528832(P2009−528832)
【出願日】平成19年9月17日(2007.9.17)
【国際出願番号】PCT/IB2007/053750
【国際公開番号】WO2008/035276
【国際公開日】平成20年3月27日(2008.3.27)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】