系統的なデータ・スケーリングを遺伝的アルゴリズムに基づく特徴サブセット選択に統合する方法および装置
データ・マイニング、偽陽性低減、計算機支援検出、計算機支援診断および人工知能のプロセスを発展させるためにシステムをトレーニングするための方法および装置が提供される。方法は、系統的なデータ・スケーリングを使ってトレーニング・ケースのセットからトレーニング・セットを選ぶ段階と、ある分類方法を使って前記トレーニング・セットに基づいて分類器を生成する段階とを有する。本方法は、サポート・ベクトル機械、ニューラル・ネットワークおよび決定樹を含む多様なデータ・マイニング技法とともに使うのに好適である。
【発明の詳細な説明】
【技術分野】
【0001】
本願の技術分野は、データ・マイニング、偽陽性低減(FPR: false positive reduction)、計算機支援検出(CAD: computer-aided detection)、計算機支援診断(CADx: computer-aided diagnosis)および人工知能のための、系統的なデータ・スケーリング(data scaling)を遺伝的アルゴリズムに基づく特徴サブセット選択(feature subset selection)に統合する方法および装置である。
【背景技術】
【0002】
CADアルゴリズムは、自動的にマルチスライス計算機断層撮影(MSCT: multi-slice computed tomography)スキャンのような医療上重要な解剖学的特徴を識別し、それにより放射線医による使用のためのセカンド・オピニオンを提供するために開発されてきた。これらのアルゴリズムは、癌の早期検出を支援し、生存率の上昇につながる。たとえば、肺癌は最も一般的な致命的な病気の一つであり、米国では2006年に肺癌による死者は162,460人に上ると予想されており(非特許文献1)、肺癌患者の五年生存率は、外科的技術および療法の改善にもかかわらず、約15%でしかない。しかしながら、生存率は、病がまだ局在化しているときに検出されるケースについては、約50%と著しく改善する。よって、疑わしい病変の早期検出および診断が早期の介入を許容し、よりよい予後および生存率につながりうる。
【0003】
後処理ステップとして機械学習技法を使うことが、CADアルゴリズムによって肺結節(lung nodule)であると誤同定された偽陽性構造をなくすために知られている。ムーサとカーンは、肺結節を非結節から分別するためにサポート・ベクトル機械(SVM: support vector machines)を使った(非特許文献2)。
【0004】
ガーらは3D特徴に基づく線形判別分類器(linear discriminant classifier)を提案している(非特許文献3)。
【0005】
鈴木らは、画像データに直接作用でき、特徴抽出を必要としない大規模トレーニング人工ニューラル・ネットワーク(MTANN: massive training artificial neural network)を提案した(非特許文献4)。鈴木らは、MTANN単独というよりは、MTANNと規則ベース/線形判別分類器との組み合わせがFPRのために有用であろうと結論している。FPRについてのたいていの既存の研究は、監督された学習についての同じ方法論に従っている:直接わかっている真実(ground truth)をもつデータの集合から始まって、一または複数のユーザーが適切であると見なす(画像から計算される)特徴の集合を使って前記データをもって分類器がトレーニングされる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】米国癌協会(American Cancer Society)、「癌:事実と統計 2006年版(Cancer Facts & Figures 2006)」、米国アトランタ、2006年
【非特許文献2】W・A・H・ムーサ(Mousa)、M・A・U・カーン(Kahn)、「サポート・ベクトル機械を使った肺結節の分別(Lung nodule classification utilizing support vector machines)」、画像処理に関する国際会議(Int'l Conf. On Image Processing)で発表、2002年
【非特許文献3】ガー(Ge)ら、「肺結節の計算機支援検出:3D勾配場法を使った偽陽性低減(Computer aided detection of lung nodules: false positive reduction using a 3D gradient field method)」、「医療撮像2004:画像処理(Medical Imaging 2004: Image Processing)」、米国サンディエゴ、2004年
【非特許文献4】鈴木ら、「低線量計算機断層撮影における肺結節の電算化検出における偽陽性の削減のための大規模トレーニング人工ニューラル・ネットワーク(Massive training artificial neural network (MTANN) for reduction of false positives in computerized detection of lung nodules in low-dose computed tomography)」、30 MED. PHYSICS、1692‐17頁、2003年
【非特許文献5】L・J・エシェルマン(Eshelman)、「CHC適応探索アルゴリズム:非伝統的な遺伝的組み換えに従事するときにいかにして安全な探索をもつか(The CHC Adaptive Search Algorithm: How to Have Safe Search When Engaging in Nontraditional Genetic Recombination)」、「遺伝的アルゴリズムの基礎(Foundations of Genetic Algorithms)」、265‐83、G・J・E・ローリンズ(Rawlines)(編)、1991年
【非特許文献6】B・E・ボーザー(Boser)、I・ギヨン(Guyon)、V・ヴァプニック(Vapnik)、「最適マージン分類器のためのトレーニング・アルゴリズム(A training algorithm for optimal margin classifiers)」、計算機学習理論についての第5回年次ACMワークショップで発表、米国ピッツバーグ、1992年
【非特許文献7】R・コハヴィ(Kohavi)およびG・H・ジョン(John)、「ラッパー・アプローチ(The Wrapper Approach)」、「人工知能(Artificial Intelligence)」、97、273‐324頁、1997年
【非特許文献8】D・シェーファー(Schaffer)ら、「分子測定データにおける診断パターンを発見するための遺伝的アルゴリズム・アプローチ(A Genetic Algorithm Approach for Discovering Diagnostic Patterns in Molecular Measurement Data)」、「バイオインフォマティクスおよび計算機生物学における計算機知能に関する2005年IEEEシンポジウム講演集録(Proceedings of the 2005 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology)」、1頁、2005年
【非特許文献9】G・E・A・P・A・バティスタ(Batista)、「機械学習トレーニング・データをバランス化するためのいくつかの方法の振る舞いの研究(A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data)」、6 SIGKDD Explorations、20‐29頁、2004年
【発明の概要】
【発明が解決しようとする課題】
【0007】
MSCTの近年の進歩は、以前よりも早い段階での肺癌、肝臓癌または乳癌のような癌の検出を可能にするものの、これらの方法は、放射線医によって解釈されるというコスト高で時間がかかる手順を必要とする莫大な量のデータを生じもする。CADアルゴリズムは高い感度をもつものの、そのいずれも完璧な精確さで動作する(すなわち、真の肺結節である構造をすべて検出し、かつそのような構造しか検出しない)ものではない。いくつかの非結節構造(たとえば血管)がしばしば誤って結節であるとラベル付けされる。放射線医のような臨床医は識別された構造を一つ一つ調べる必要があるので、無用な偽陽性の検査によって引き起こされる疲労およびミスを回避するためには、真の陽性(TP: true positive)、すなわち結節は保持しつつできるだけ多くの偽陽性を解消することがきわめて望ましい。これは偽陽性低減(FPR: false positive reduction)として知られている。誤って分類されるケースの総数の削減をねらいとする他の分類タスクと異なり、ここでの目的は、すべてのTPが保持される(100%の感度を維持する)という制約条件のもとでできるだけ多くのFPをなくす(特異性を最大にする)ことである。
【0008】
複数の偽陽性低減システムがこれまで記述されてきたが、そのようなシステムの目標である、100%感度を維持しながらの最大限の特異性はなかなか達成できずにいる。
【課題を解決するための手段】
【0009】
本発明のある実施形態は、データ・マイニング、計算機支援検出、計算機支援診断および人工知能において分類精度を改善し、偽陽性を低減する方法を提供する。本方法は、系統的なデータ・スケーリングを使ってトレーニング・ケースのセットからトレーニング・セットを選ぶことを含む。本方法はまた、ある分類方法を使って前記トレーニング・セットに基づいて分類器を生成することをも含む。ここで、前記系統的なデータ・スケーリングと前記分類方法が前記分類器を生じ、それにより偽陽性を減らし、分類精度を改善する。
【0010】
ある関係した実施形態では、分類器は、サポート・ベクトル機械、ニューラル・ネットワークおよび決定樹からなる群より選択される。
【0011】
もう一つの実施形態は、前記トレーニング・セットに基づいて前記分類方法によって生成された分類器を、試験セットを使って評価することをさらに含む。
【0012】
もう一つの実施形態では、トレーニング・セットを選ぶことはさらに、ある閾値が満たされるまで、前記トレーニング・セットから、真の結節とトメック・リンク(Tomek link)をなす偽の結節を除去していくことを含む。ある関係した実施形態では、閾値は、ダウンスケーリング因子xに関し、系統的なデータ・スケーリング後にトレーニング・セット内に残っている偽結節の数がトレーニング・セット中の真の結節の数のx倍を超えないように、決定される。
【0013】
ある関係した実施形態では、本方法は、試験ケースのセットまたはそのサブセットを用いて前記分類器を検証することを含む。
【0014】
また、実行されたときに上記の方法のうち任意のものを実装する遺伝的アルゴリズムも提供される。ある関係した実施形態では、その遺伝的アルゴリズムはCHCアルゴリズムである(非特許文献5)。
【0015】
また、上述した遺伝的アルゴリズムを使って特徴プールから特徴を選ぶ方法であって:上記の方法に基づいて第一の遺伝的アルゴリズムおよび第二の遺伝的アルゴリズムのそれぞれを用意し、ここで、前記第一の遺伝的アルゴリズムは前記特徴セットの最良サイズを決定するために使われ、前記特徴セット・サイズを固定し、前記第二の遺伝的アルゴリズムを使って特徴を選択するステップを有する方法も提供される。ある関係した実施形態では、前記第一の遺伝的アルゴリズムを用意することにおいて、前記方法はさらに:異なる特徴サブセット・サイズを表す染色体の生起数および平均誤り数の少なくとも一つを使って結果を解析することを含む。あるさらなる実施形態では、「平均誤り数」は、これらの染色体に基づく分類器によって帰結した、誤って分類された肺結節の数である。
【0016】
また、実行されたときに上記の方法のいずれかを実装するコンピュータ可読媒体も提供される。
【0017】
また、撮像デバイスまたは偽陽性低減デバイスであって、該デバイスは上記の方法のいずれかを実装することによって画像データを解析するようプログラムされているコンピュータである、製造物も提供される。
【0018】
ある関係した実施形態では、上記の製造物において、撮像デバイスは:計算機断層撮影(CT)、計算機体軸断層撮影(CAT)、マルチスライス計算機断層撮影(MSCT)、身体断面X線撮影法(body section roentgenography)、超音波、磁気共鳴撮像(MRI)、磁気共鳴断層撮影法(MRT)、核磁気共鳴(NMR)、X線、顕微鏡法、蛍光透視法、断層撮影およびデジタル・イメージングからなる群より選択される。上記製造物のあるさらなる実施形態では、該製造物は肺結節CADシステムである。
【図面の簡単な説明】
【0019】
【図1】胸部超音波スキャンのCAD出力の画像で、一つの病変が検出され、輪郭付けされたものを示す図である。
【図2】肺CTスキャンのCAD出力で、二つの検出された病変が識別されたものを示す図である。
【図3】遺伝的アルゴリズムに基づく特徴サブセット選択の図である。
【図4】図3において選択された最良の特徴サブセットを使う選択された最良の特徴サブセットを使う偽陽性低減プロセスの図である。
【図5】トレーニング・セットから偽陽性を取り除く系統的ダウンスケーリング方法の動作の効果を示す図である。
【図6】系統的データ・スケーリング(系統的ダウンスケーリング)のGA特徴サブセット選択プロセスへの統合を描いた図である。
【図7】サイズ5の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図8】サイズ6の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図9】サイズ7の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図10】サイズ8の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図11】サイズ9の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図12】サイズ10の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図13】サイズ11の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図14】サイズ12の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【発明を実施するための形態】
【0020】
前記のように、遺伝的アルゴリズムにおける候補特徴サブセットの評価に系統的データ・スケーリングを統合することが本発明の一つの目的である。
【0021】
サポート・ベクトル機械(SVM)は、機械学習のための比較的新しいツールである(非特許文献6)。サポート・ベクトル機械は現在、テキストからゲノム・データまで多数の分類タスクについて最良の性能を示すもの一つである。しかしながら、本稿で述べるように、いくつかの問題が残っている。
【0022】
SVMは、複数のオブジェクトを二つのクラスのうちの一つに分類するタスクを扱うもので、いくつかの例がすでに分類されていることを想定する。この型の監督された機械学習における目標は、任意の新しいオブジェクトを「正しく」分類する関数をもたらすことである。SVM理論は次のように定式化できる:トレーニング・データのサイズmの集合{xi,yi}について、各データ点は、特徴ベクトルxi∈Rdと、各xiが二つのクラスyi∈{−1,1}のうちの一つに属するという先験的な情報とによって記述される。新しいデータ点xが与えられたとき、SVM理論の目標は、{x,f(x)}が何らかの意味で与えられているトレーニング・データと同様であるような関数fを決定することである。すべての正の例(y=1)が一方の側にあり、負の例(y=−1)が他方の側にある超平面wx+b=0、すなわち
yi=1 ならば wxi+b≧+1
yi=−1ならば wxi+b≦−1
を見出すことが可能であるとする。
【0023】
この場合、トレーニング・セットは線形に分離可能である。新しいデータ点xが与えられると、wx+bが計算され、その値の符号から、xが正の例であるか負の例であるかがわかる。換言すれば、関数f(x)=sgn(wx+b)が任意の新しいベクトルxの分類を決定する。
【0024】
たいていの状況では、正の例と負の例をうまく分離する超平面を見出すことは可能ではない。SVMは、もとの特徴ベクトルを、そのような超平面を見出すことのできる(通例)より高次元の空間に、
Φ:x→φ(x)
とマッピングする。
【0025】
このマッピングΦはカーネル関数と呼ばれる。データ・セットを分離できる超平面はたくさんある。超平面は、トレーニング・データの諸ベクトルの最小距離(すなわち、超平面への垂直距離)が最大になるように選択される。超平面からのこの最小距離にあるベクトルはサポート・ベクトル(support vector)と呼ばれる。サポート・ベクトルの集合が、分離する超平面を決定する。他のベクトルは解を変えることなく破棄でき、サポート・ベクトルのいずれかが除去されれば超平面は変化する。このように、この超平面を見出すことは最適化問題である。
【0026】
表面上で、より高次元の空間にマッピングすることは、計算上の問題を引き起こすことがある。しかしながら、SVM理論は、結果として得られる関数fが計算量的に魅力的なものであるようカーネル関数を選ぶことができることを示す。
【0027】
語「分類器(classifier)」は、ここでの用法では、オブジェクトがどのグループまたはカテゴリーに属するかを予測することのできる任意の型の方法または装置を記述するものである。この定義は、これに限られないが、サポート・ベクトル機械のようなデータ・マイニング用ツールおよび技法、ニューラル・ネットワークおよび決定樹を含む。
【0028】
用語「分類方法(classification method)」は、ここでの用法では、分類器を生じる任意の手段を記述する。この定義は、これに限られないが、SVMを生成するためのボーザーらのアルゴリズム、C4.5、J4.8およびAPRIORI法といったデータ・マイニング用ツールおよび技法を含む(非特許文献6)。
【0029】
本稿で提供される本発明のある実施形態は機械学習ベースのFPRユニットであり、特徴抽出、SVM駆動のGAベースの特徴サブセット選択およびSVM分類器という三つの主要な処理コンポーネントをもつ。特徴抽出ユニットは、真の結節と非結節の間の判別において使うため、CTスキャンからいくつかの2Dおよび3D特徴を計算する。これらの特徴は、特徴サブセット選択ステップのための特徴プールをなす。特徴サブセット選択ステップはシステムの設計段階においてのみ実行され、ひとたび最適な特徴サブセットが選択され、それから分類器が構築されたら、システムは特徴抽出および分類器のみからなる。本発明のある実施形態は、医療判断支援を含むさまざまな分類タスクについての優れた性能のため、サポート・ベクトル機械を使う。ニューラル・ネットワークのような他の分類器も使用できる。
【0030】
無用な計算および過剰な適合(over-fitting)を防ぐため、そして信頼できる分類器を保証するため、遺伝的アルゴリズム(GA: Genetic Algorithms)を使って特徴サブセットが選択される。ラッパー・アプローチ(wrapper approach)は、選択基準を作り出すための、分類器と結合された特徴選択アルゴリズムに関わる(非特許文献7)。一つの可能な分類器/特徴選択アルゴリズムの組み合わせでは、SVMとCHCと呼ばれるGAとが使われる(非特許文献5)。CHCが望ましいのは、大きなクラスの諸問題について、その堅牢な探索挙動のためである。特徴選択方法は自動的に最適なサイズおよびそのような特徴のセットを決定することができる。
【0031】
一般に、ここでの方法は、複数の「遺伝子(gene)」からなるいくつかの「染色体(chromosome)」を生成することを含み、各遺伝子がある選択された特徴を表す(非特許文献8)。
【0032】
染色体によって表現される特徴のセットは、トレーニング・データの、特徴サブセットに対応する部分を使って、SVMをトレーニングするために使われる。その染色体の適合度は、結果として得られるSVMがデータを試験する際にどのくらいよい性能を発揮するかに従って評価される。ある実施形態では、SVM分類の真の結節保持および偽陽性消去の率に基づく階層的な適合度関数が試験セットに対して実行される。代替的な実施形態では、異なる複数の適合度関数を開発して使用することが可能である。
【0033】
プロセスの開始において、染色体の群(population)が、染色体を形成する特徴をランダムに選ぶことによって生成される。本アルゴリズムは次いで、逐次反復的により高い性能値(より高い適合度)をもつ染色体を探す。各世代において、GAは群中の各染色体の適合度を評価し、突然変異と交差という二つの主要な進化の方法を通じて、より適合したもののほうから新しい染色体を生成する。よい染色体内にある遺伝子は、次の世代のために保持される可能性がより高く、貧弱な性能の遺伝子は破棄される可能性がより高い。最終的には、適者生存のこのプロセスを通じて、高い性能をもつ特徴の集合が見出される。
【0034】
候補となる特徴サブセットの評価に系統的なデータ・スケーリングを統合することによって遺伝的アルゴリズムの性能を改善することが本発明の一つの目的である。この実施形態では、トレーニング・ケースのセットからトレーニング・セットを選ぶために、系統的データ・スケーリングが使われる。
【0035】
候補となる特徴サブセットの各セットについて、トレーニング・ケースのセットからトレーニング・セットが選択される。ボーダーラインの偽陽性ケースはトレーニング・セットからは除去される。トレーニング・セットは次いで、遺伝的アルゴリズムの一部として候補となる特徴サブセットの適合度を評価するために使われる分類器を生成するために使われる。
【0036】
別の実施形態では、ボーダーラインの偽陽性がトメック・リンクの概念を通じて識別できる(非特許文献9)。真の結節ケースAおよび偽の結節ケースBが与えられたとき、d(A,B)をAとBの間の距離とする。(A,B)の対は、d(A,C)<d(A,B)またはd(B,C)<d(A,B)となるような例C(これは真の結節または偽の結節であってよい)がなければ、トメック・リンクと呼ばれる。AとBがトメック・リンクをなすなら、AまたはBがノイズであるか、AとBの両方がボーダーラインである。トメック・リンクがこの偽陽性低減シナリオで使われるとき、偽陽性ケースBのみがダウンスケーリング方法として除去される。図5は、真の結節のより多くを保持するためにこのダウンスケーリング方法がどのようにしてはたらくかを示している。
【0037】
あるさらなる実施形態では、除去される偽陽性ケースの数は、所望される特異性または感度をよりよく達成するために調節されることができる。これは、ダウンスケーリング因子xの使用を通じて実現される。ダウンスケーリング因子(x)は、(ボーダーラインの偽陽性ケースを除去した後で)トレーニング・セット中に残っている偽の結節の数がトレーニング・セットにおける真の結節の数のx倍を超えない、として定義される。この因子は調節されることができる。xを減らすことは、感度をよりよく(特異性はより少なく)優遇する。xを増すことは、感度をより少なく(特異性をよりよく)優遇する。偽陽性低減のためには、典型的な目標は、100%の感度を保ちながら特異性を最大化する最も大きな因子(xの値)である。
【0038】
本発明を検証するために例が実施された。第一の例は、ランダム・ダウンスケーリング、系統的ダウンスケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)の三つのダウンスケーリング方法を比較した。
【0039】
データ・セットはまず、学習セットと検証セットに分割された。
【0040】
【表1】
データ分割の諸方法は以下のパターンを使った。
ランダム・ダウンスケーリングについては:
【0041】
【表2】
系統的ダウンスケーリング(因子2と3の両方)については:
【0042】
【表3】
この例について、特徴サブセット・サイズ5ないし12が評価された。これらは、23特徴の特徴プールから最良の特徴サブセット・サイズとして以前に決定されたものである。各サイズについて、以下のテーブルにおける実行が実施された。
【0043】
【表4】
各GAランについて、ここで記載したデータ分割パターンのほか、以下の構成設定ファイルが使われた。各GAランは、3つの独立した実験からなる。各実験について最大800,000回の試行がある。
【0044】
【表5】
上記の表における最良の特徴サブセットのそれぞれについて、検証が実施され、「感度」(誤って分類された「真の陽性」の数として計算される)および「特異性」(「偽陽性」低減の割合として計算される)の値が取得されて、10個のシードすべてについて平均された。比較のためにいくつかの散布プロット(ROC曲線)が描かれた(図7〜図14)。
【0045】
各サブセット・サイズについて一つの図が描かれている。図では、X軸は感度(誤って分類された「真の陽性」の数)、Y軸は特異性(「偽陽性」低減の割合)を表す。各図に、16通りのダウンスケーリング因子(1.5、1.6、1.7、…、3.0)についての検証結果によって生成される3つの曲線がある。
【0046】
図に示されるように、サイズ11および12のほかは、1‐2個の真の結節の誤分類が許容されるとき(これは合理的な数である)、「系統的ダウンスケーリング―因子2」によって選択される特徴サブセットのほうが、「ランダム・ダウンスケーリング」によって選択される特徴サブセットよりも、よい性能を発揮する(より高い特異性を与える)。このことは、xが1と2の間の値をもつとき、「因子2特徴」の曲線が「ランダム特徴」曲線より上にあるという事実に反映される。
【0047】
この例は、本方法によって選択される特徴サブセットのほうが、従来のランダムなデータ・スケーリングに基づくGA特徴サブセット選択よりもよいということを示している。
【0048】
さらに、本発明の他の形態およびさらなる形態ならびに上記の個別的で例示的な実施形態以外の実施形態が付属の請求項およびその等価物の精神および範囲から外れることなく考案されてもよく、したがって、本発明の範囲はそれらの等価物を包含し、本記載および請求項は、例示的であって、それ以上に限定するものと解釈されるべきではないことが意図されていることは明白であろう。
【技術分野】
【0001】
本願の技術分野は、データ・マイニング、偽陽性低減(FPR: false positive reduction)、計算機支援検出(CAD: computer-aided detection)、計算機支援診断(CADx: computer-aided diagnosis)および人工知能のための、系統的なデータ・スケーリング(data scaling)を遺伝的アルゴリズムに基づく特徴サブセット選択(feature subset selection)に統合する方法および装置である。
【背景技術】
【0002】
CADアルゴリズムは、自動的にマルチスライス計算機断層撮影(MSCT: multi-slice computed tomography)スキャンのような医療上重要な解剖学的特徴を識別し、それにより放射線医による使用のためのセカンド・オピニオンを提供するために開発されてきた。これらのアルゴリズムは、癌の早期検出を支援し、生存率の上昇につながる。たとえば、肺癌は最も一般的な致命的な病気の一つであり、米国では2006年に肺癌による死者は162,460人に上ると予想されており(非特許文献1)、肺癌患者の五年生存率は、外科的技術および療法の改善にもかかわらず、約15%でしかない。しかしながら、生存率は、病がまだ局在化しているときに検出されるケースについては、約50%と著しく改善する。よって、疑わしい病変の早期検出および診断が早期の介入を許容し、よりよい予後および生存率につながりうる。
【0003】
後処理ステップとして機械学習技法を使うことが、CADアルゴリズムによって肺結節(lung nodule)であると誤同定された偽陽性構造をなくすために知られている。ムーサとカーンは、肺結節を非結節から分別するためにサポート・ベクトル機械(SVM: support vector machines)を使った(非特許文献2)。
【0004】
ガーらは3D特徴に基づく線形判別分類器(linear discriminant classifier)を提案している(非特許文献3)。
【0005】
鈴木らは、画像データに直接作用でき、特徴抽出を必要としない大規模トレーニング人工ニューラル・ネットワーク(MTANN: massive training artificial neural network)を提案した(非特許文献4)。鈴木らは、MTANN単独というよりは、MTANNと規則ベース/線形判別分類器との組み合わせがFPRのために有用であろうと結論している。FPRについてのたいていの既存の研究は、監督された学習についての同じ方法論に従っている:直接わかっている真実(ground truth)をもつデータの集合から始まって、一または複数のユーザーが適切であると見なす(画像から計算される)特徴の集合を使って前記データをもって分類器がトレーニングされる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】米国癌協会(American Cancer Society)、「癌:事実と統計 2006年版(Cancer Facts & Figures 2006)」、米国アトランタ、2006年
【非特許文献2】W・A・H・ムーサ(Mousa)、M・A・U・カーン(Kahn)、「サポート・ベクトル機械を使った肺結節の分別(Lung nodule classification utilizing support vector machines)」、画像処理に関する国際会議(Int'l Conf. On Image Processing)で発表、2002年
【非特許文献3】ガー(Ge)ら、「肺結節の計算機支援検出:3D勾配場法を使った偽陽性低減(Computer aided detection of lung nodules: false positive reduction using a 3D gradient field method)」、「医療撮像2004:画像処理(Medical Imaging 2004: Image Processing)」、米国サンディエゴ、2004年
【非特許文献4】鈴木ら、「低線量計算機断層撮影における肺結節の電算化検出における偽陽性の削減のための大規模トレーニング人工ニューラル・ネットワーク(Massive training artificial neural network (MTANN) for reduction of false positives in computerized detection of lung nodules in low-dose computed tomography)」、30 MED. PHYSICS、1692‐17頁、2003年
【非特許文献5】L・J・エシェルマン(Eshelman)、「CHC適応探索アルゴリズム:非伝統的な遺伝的組み換えに従事するときにいかにして安全な探索をもつか(The CHC Adaptive Search Algorithm: How to Have Safe Search When Engaging in Nontraditional Genetic Recombination)」、「遺伝的アルゴリズムの基礎(Foundations of Genetic Algorithms)」、265‐83、G・J・E・ローリンズ(Rawlines)(編)、1991年
【非特許文献6】B・E・ボーザー(Boser)、I・ギヨン(Guyon)、V・ヴァプニック(Vapnik)、「最適マージン分類器のためのトレーニング・アルゴリズム(A training algorithm for optimal margin classifiers)」、計算機学習理論についての第5回年次ACMワークショップで発表、米国ピッツバーグ、1992年
【非特許文献7】R・コハヴィ(Kohavi)およびG・H・ジョン(John)、「ラッパー・アプローチ(The Wrapper Approach)」、「人工知能(Artificial Intelligence)」、97、273‐324頁、1997年
【非特許文献8】D・シェーファー(Schaffer)ら、「分子測定データにおける診断パターンを発見するための遺伝的アルゴリズム・アプローチ(A Genetic Algorithm Approach for Discovering Diagnostic Patterns in Molecular Measurement Data)」、「バイオインフォマティクスおよび計算機生物学における計算機知能に関する2005年IEEEシンポジウム講演集録(Proceedings of the 2005 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology)」、1頁、2005年
【非特許文献9】G・E・A・P・A・バティスタ(Batista)、「機械学習トレーニング・データをバランス化するためのいくつかの方法の振る舞いの研究(A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data)」、6 SIGKDD Explorations、20‐29頁、2004年
【発明の概要】
【発明が解決しようとする課題】
【0007】
MSCTの近年の進歩は、以前よりも早い段階での肺癌、肝臓癌または乳癌のような癌の検出を可能にするものの、これらの方法は、放射線医によって解釈されるというコスト高で時間がかかる手順を必要とする莫大な量のデータを生じもする。CADアルゴリズムは高い感度をもつものの、そのいずれも完璧な精確さで動作する(すなわち、真の肺結節である構造をすべて検出し、かつそのような構造しか検出しない)ものではない。いくつかの非結節構造(たとえば血管)がしばしば誤って結節であるとラベル付けされる。放射線医のような臨床医は識別された構造を一つ一つ調べる必要があるので、無用な偽陽性の検査によって引き起こされる疲労およびミスを回避するためには、真の陽性(TP: true positive)、すなわち結節は保持しつつできるだけ多くの偽陽性を解消することがきわめて望ましい。これは偽陽性低減(FPR: false positive reduction)として知られている。誤って分類されるケースの総数の削減をねらいとする他の分類タスクと異なり、ここでの目的は、すべてのTPが保持される(100%の感度を維持する)という制約条件のもとでできるだけ多くのFPをなくす(特異性を最大にする)ことである。
【0008】
複数の偽陽性低減システムがこれまで記述されてきたが、そのようなシステムの目標である、100%感度を維持しながらの最大限の特異性はなかなか達成できずにいる。
【課題を解決するための手段】
【0009】
本発明のある実施形態は、データ・マイニング、計算機支援検出、計算機支援診断および人工知能において分類精度を改善し、偽陽性を低減する方法を提供する。本方法は、系統的なデータ・スケーリングを使ってトレーニング・ケースのセットからトレーニング・セットを選ぶことを含む。本方法はまた、ある分類方法を使って前記トレーニング・セットに基づいて分類器を生成することをも含む。ここで、前記系統的なデータ・スケーリングと前記分類方法が前記分類器を生じ、それにより偽陽性を減らし、分類精度を改善する。
【0010】
ある関係した実施形態では、分類器は、サポート・ベクトル機械、ニューラル・ネットワークおよび決定樹からなる群より選択される。
【0011】
もう一つの実施形態は、前記トレーニング・セットに基づいて前記分類方法によって生成された分類器を、試験セットを使って評価することをさらに含む。
【0012】
もう一つの実施形態では、トレーニング・セットを選ぶことはさらに、ある閾値が満たされるまで、前記トレーニング・セットから、真の結節とトメック・リンク(Tomek link)をなす偽の結節を除去していくことを含む。ある関係した実施形態では、閾値は、ダウンスケーリング因子xに関し、系統的なデータ・スケーリング後にトレーニング・セット内に残っている偽結節の数がトレーニング・セット中の真の結節の数のx倍を超えないように、決定される。
【0013】
ある関係した実施形態では、本方法は、試験ケースのセットまたはそのサブセットを用いて前記分類器を検証することを含む。
【0014】
また、実行されたときに上記の方法のうち任意のものを実装する遺伝的アルゴリズムも提供される。ある関係した実施形態では、その遺伝的アルゴリズムはCHCアルゴリズムである(非特許文献5)。
【0015】
また、上述した遺伝的アルゴリズムを使って特徴プールから特徴を選ぶ方法であって:上記の方法に基づいて第一の遺伝的アルゴリズムおよび第二の遺伝的アルゴリズムのそれぞれを用意し、ここで、前記第一の遺伝的アルゴリズムは前記特徴セットの最良サイズを決定するために使われ、前記特徴セット・サイズを固定し、前記第二の遺伝的アルゴリズムを使って特徴を選択するステップを有する方法も提供される。ある関係した実施形態では、前記第一の遺伝的アルゴリズムを用意することにおいて、前記方法はさらに:異なる特徴サブセット・サイズを表す染色体の生起数および平均誤り数の少なくとも一つを使って結果を解析することを含む。あるさらなる実施形態では、「平均誤り数」は、これらの染色体に基づく分類器によって帰結した、誤って分類された肺結節の数である。
【0016】
また、実行されたときに上記の方法のいずれかを実装するコンピュータ可読媒体も提供される。
【0017】
また、撮像デバイスまたは偽陽性低減デバイスであって、該デバイスは上記の方法のいずれかを実装することによって画像データを解析するようプログラムされているコンピュータである、製造物も提供される。
【0018】
ある関係した実施形態では、上記の製造物において、撮像デバイスは:計算機断層撮影(CT)、計算機体軸断層撮影(CAT)、マルチスライス計算機断層撮影(MSCT)、身体断面X線撮影法(body section roentgenography)、超音波、磁気共鳴撮像(MRI)、磁気共鳴断層撮影法(MRT)、核磁気共鳴(NMR)、X線、顕微鏡法、蛍光透視法、断層撮影およびデジタル・イメージングからなる群より選択される。上記製造物のあるさらなる実施形態では、該製造物は肺結節CADシステムである。
【図面の簡単な説明】
【0019】
【図1】胸部超音波スキャンのCAD出力の画像で、一つの病変が検出され、輪郭付けされたものを示す図である。
【図2】肺CTスキャンのCAD出力で、二つの検出された病変が識別されたものを示す図である。
【図3】遺伝的アルゴリズムに基づく特徴サブセット選択の図である。
【図4】図3において選択された最良の特徴サブセットを使う選択された最良の特徴サブセットを使う偽陽性低減プロセスの図である。
【図5】トレーニング・セットから偽陽性を取り除く系統的ダウンスケーリング方法の動作の効果を示す図である。
【図6】系統的データ・スケーリング(系統的ダウンスケーリング)のGA特徴サブセット選択プロセスへの統合を描いた図である。
【図7】サイズ5の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図8】サイズ6の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図9】サイズ7の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図10】サイズ8の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図11】サイズ9の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図12】サイズ10の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図13】サイズ11の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【図14】サイズ12の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
【発明を実施するための形態】
【0020】
前記のように、遺伝的アルゴリズムにおける候補特徴サブセットの評価に系統的データ・スケーリングを統合することが本発明の一つの目的である。
【0021】
サポート・ベクトル機械(SVM)は、機械学習のための比較的新しいツールである(非特許文献6)。サポート・ベクトル機械は現在、テキストからゲノム・データまで多数の分類タスクについて最良の性能を示すもの一つである。しかしながら、本稿で述べるように、いくつかの問題が残っている。
【0022】
SVMは、複数のオブジェクトを二つのクラスのうちの一つに分類するタスクを扱うもので、いくつかの例がすでに分類されていることを想定する。この型の監督された機械学習における目標は、任意の新しいオブジェクトを「正しく」分類する関数をもたらすことである。SVM理論は次のように定式化できる:トレーニング・データのサイズmの集合{xi,yi}について、各データ点は、特徴ベクトルxi∈Rdと、各xiが二つのクラスyi∈{−1,1}のうちの一つに属するという先験的な情報とによって記述される。新しいデータ点xが与えられたとき、SVM理論の目標は、{x,f(x)}が何らかの意味で与えられているトレーニング・データと同様であるような関数fを決定することである。すべての正の例(y=1)が一方の側にあり、負の例(y=−1)が他方の側にある超平面wx+b=0、すなわち
yi=1 ならば wxi+b≧+1
yi=−1ならば wxi+b≦−1
を見出すことが可能であるとする。
【0023】
この場合、トレーニング・セットは線形に分離可能である。新しいデータ点xが与えられると、wx+bが計算され、その値の符号から、xが正の例であるか負の例であるかがわかる。換言すれば、関数f(x)=sgn(wx+b)が任意の新しいベクトルxの分類を決定する。
【0024】
たいていの状況では、正の例と負の例をうまく分離する超平面を見出すことは可能ではない。SVMは、もとの特徴ベクトルを、そのような超平面を見出すことのできる(通例)より高次元の空間に、
Φ:x→φ(x)
とマッピングする。
【0025】
このマッピングΦはカーネル関数と呼ばれる。データ・セットを分離できる超平面はたくさんある。超平面は、トレーニング・データの諸ベクトルの最小距離(すなわち、超平面への垂直距離)が最大になるように選択される。超平面からのこの最小距離にあるベクトルはサポート・ベクトル(support vector)と呼ばれる。サポート・ベクトルの集合が、分離する超平面を決定する。他のベクトルは解を変えることなく破棄でき、サポート・ベクトルのいずれかが除去されれば超平面は変化する。このように、この超平面を見出すことは最適化問題である。
【0026】
表面上で、より高次元の空間にマッピングすることは、計算上の問題を引き起こすことがある。しかしながら、SVM理論は、結果として得られる関数fが計算量的に魅力的なものであるようカーネル関数を選ぶことができることを示す。
【0027】
語「分類器(classifier)」は、ここでの用法では、オブジェクトがどのグループまたはカテゴリーに属するかを予測することのできる任意の型の方法または装置を記述するものである。この定義は、これに限られないが、サポート・ベクトル機械のようなデータ・マイニング用ツールおよび技法、ニューラル・ネットワークおよび決定樹を含む。
【0028】
用語「分類方法(classification method)」は、ここでの用法では、分類器を生じる任意の手段を記述する。この定義は、これに限られないが、SVMを生成するためのボーザーらのアルゴリズム、C4.5、J4.8およびAPRIORI法といったデータ・マイニング用ツールおよび技法を含む(非特許文献6)。
【0029】
本稿で提供される本発明のある実施形態は機械学習ベースのFPRユニットであり、特徴抽出、SVM駆動のGAベースの特徴サブセット選択およびSVM分類器という三つの主要な処理コンポーネントをもつ。特徴抽出ユニットは、真の結節と非結節の間の判別において使うため、CTスキャンからいくつかの2Dおよび3D特徴を計算する。これらの特徴は、特徴サブセット選択ステップのための特徴プールをなす。特徴サブセット選択ステップはシステムの設計段階においてのみ実行され、ひとたび最適な特徴サブセットが選択され、それから分類器が構築されたら、システムは特徴抽出および分類器のみからなる。本発明のある実施形態は、医療判断支援を含むさまざまな分類タスクについての優れた性能のため、サポート・ベクトル機械を使う。ニューラル・ネットワークのような他の分類器も使用できる。
【0030】
無用な計算および過剰な適合(over-fitting)を防ぐため、そして信頼できる分類器を保証するため、遺伝的アルゴリズム(GA: Genetic Algorithms)を使って特徴サブセットが選択される。ラッパー・アプローチ(wrapper approach)は、選択基準を作り出すための、分類器と結合された特徴選択アルゴリズムに関わる(非特許文献7)。一つの可能な分類器/特徴選択アルゴリズムの組み合わせでは、SVMとCHCと呼ばれるGAとが使われる(非特許文献5)。CHCが望ましいのは、大きなクラスの諸問題について、その堅牢な探索挙動のためである。特徴選択方法は自動的に最適なサイズおよびそのような特徴のセットを決定することができる。
【0031】
一般に、ここでの方法は、複数の「遺伝子(gene)」からなるいくつかの「染色体(chromosome)」を生成することを含み、各遺伝子がある選択された特徴を表す(非特許文献8)。
【0032】
染色体によって表現される特徴のセットは、トレーニング・データの、特徴サブセットに対応する部分を使って、SVMをトレーニングするために使われる。その染色体の適合度は、結果として得られるSVMがデータを試験する際にどのくらいよい性能を発揮するかに従って評価される。ある実施形態では、SVM分類の真の結節保持および偽陽性消去の率に基づく階層的な適合度関数が試験セットに対して実行される。代替的な実施形態では、異なる複数の適合度関数を開発して使用することが可能である。
【0033】
プロセスの開始において、染色体の群(population)が、染色体を形成する特徴をランダムに選ぶことによって生成される。本アルゴリズムは次いで、逐次反復的により高い性能値(より高い適合度)をもつ染色体を探す。各世代において、GAは群中の各染色体の適合度を評価し、突然変異と交差という二つの主要な進化の方法を通じて、より適合したもののほうから新しい染色体を生成する。よい染色体内にある遺伝子は、次の世代のために保持される可能性がより高く、貧弱な性能の遺伝子は破棄される可能性がより高い。最終的には、適者生存のこのプロセスを通じて、高い性能をもつ特徴の集合が見出される。
【0034】
候補となる特徴サブセットの評価に系統的なデータ・スケーリングを統合することによって遺伝的アルゴリズムの性能を改善することが本発明の一つの目的である。この実施形態では、トレーニング・ケースのセットからトレーニング・セットを選ぶために、系統的データ・スケーリングが使われる。
【0035】
候補となる特徴サブセットの各セットについて、トレーニング・ケースのセットからトレーニング・セットが選択される。ボーダーラインの偽陽性ケースはトレーニング・セットからは除去される。トレーニング・セットは次いで、遺伝的アルゴリズムの一部として候補となる特徴サブセットの適合度を評価するために使われる分類器を生成するために使われる。
【0036】
別の実施形態では、ボーダーラインの偽陽性がトメック・リンクの概念を通じて識別できる(非特許文献9)。真の結節ケースAおよび偽の結節ケースBが与えられたとき、d(A,B)をAとBの間の距離とする。(A,B)の対は、d(A,C)<d(A,B)またはd(B,C)<d(A,B)となるような例C(これは真の結節または偽の結節であってよい)がなければ、トメック・リンクと呼ばれる。AとBがトメック・リンクをなすなら、AまたはBがノイズであるか、AとBの両方がボーダーラインである。トメック・リンクがこの偽陽性低減シナリオで使われるとき、偽陽性ケースBのみがダウンスケーリング方法として除去される。図5は、真の結節のより多くを保持するためにこのダウンスケーリング方法がどのようにしてはたらくかを示している。
【0037】
あるさらなる実施形態では、除去される偽陽性ケースの数は、所望される特異性または感度をよりよく達成するために調節されることができる。これは、ダウンスケーリング因子xの使用を通じて実現される。ダウンスケーリング因子(x)は、(ボーダーラインの偽陽性ケースを除去した後で)トレーニング・セット中に残っている偽の結節の数がトレーニング・セットにおける真の結節の数のx倍を超えない、として定義される。この因子は調節されることができる。xを減らすことは、感度をよりよく(特異性はより少なく)優遇する。xを増すことは、感度をより少なく(特異性をよりよく)優遇する。偽陽性低減のためには、典型的な目標は、100%の感度を保ちながら特異性を最大化する最も大きな因子(xの値)である。
【0038】
本発明を検証するために例が実施された。第一の例は、ランダム・ダウンスケーリング、系統的ダウンスケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)の三つのダウンスケーリング方法を比較した。
【0039】
データ・セットはまず、学習セットと検証セットに分割された。
【0040】
【表1】
データ分割の諸方法は以下のパターンを使った。
ランダム・ダウンスケーリングについては:
【0041】
【表2】
系統的ダウンスケーリング(因子2と3の両方)については:
【0042】
【表3】
この例について、特徴サブセット・サイズ5ないし12が評価された。これらは、23特徴の特徴プールから最良の特徴サブセット・サイズとして以前に決定されたものである。各サイズについて、以下のテーブルにおける実行が実施された。
【0043】
【表4】
各GAランについて、ここで記載したデータ分割パターンのほか、以下の構成設定ファイルが使われた。各GAランは、3つの独立した実験からなる。各実験について最大800,000回の試行がある。
【0044】
【表5】
上記の表における最良の特徴サブセットのそれぞれについて、検証が実施され、「感度」(誤って分類された「真の陽性」の数として計算される)および「特異性」(「偽陽性」低減の割合として計算される)の値が取得されて、10個のシードすべてについて平均された。比較のためにいくつかの散布プロット(ROC曲線)が描かれた(図7〜図14)。
【0045】
各サブセット・サイズについて一つの図が描かれている。図では、X軸は感度(誤って分類された「真の陽性」の数)、Y軸は特異性(「偽陽性」低減の割合)を表す。各図に、16通りのダウンスケーリング因子(1.5、1.6、1.7、…、3.0)についての検証結果によって生成される3つの曲線がある。
【0046】
図に示されるように、サイズ11および12のほかは、1‐2個の真の結節の誤分類が許容されるとき(これは合理的な数である)、「系統的ダウンスケーリング―因子2」によって選択される特徴サブセットのほうが、「ランダム・ダウンスケーリング」によって選択される特徴サブセットよりも、よい性能を発揮する(より高い特異性を与える)。このことは、xが1と2の間の値をもつとき、「因子2特徴」の曲線が「ランダム特徴」曲線より上にあるという事実に反映される。
【0047】
この例は、本方法によって選択される特徴サブセットのほうが、従来のランダムなデータ・スケーリングに基づくGA特徴サブセット選択よりもよいということを示している。
【0048】
さらに、本発明の他の形態およびさらなる形態ならびに上記の個別的で例示的な実施形態以外の実施形態が付属の請求項およびその等価物の精神および範囲から外れることなく考案されてもよく、したがって、本発明の範囲はそれらの等価物を包含し、本記載および請求項は、例示的であって、それ以上に限定するものと解釈されるべきではないことが意図されていることは明白であろう。
【特許請求の範囲】
【請求項1】
データ・マイニング、計算機支援検出、計算機支援診断および人工知能において分類精度を改善し、偽陽性を低減する方法であって:
系統的なデータ・スケーリングを使ってトレーニング・ケースのセットからトレーニング・セットを選ぶ段階と、
ある分類方法を使って前記トレーニング・セットに基づいて分類器を生成する段階とを有し、
前記系統的なデータ・スケーリングおよび前記分類方法が前記分類器を生じ、それにより偽陽性を減らし、分類精度を改善する、方法。
【請求項2】
前記分類器が、サポート・ベクトル機械、ニューラル・ネットワークおよび決定樹からなる群より選択される、請求項1記載の方法。
【請求項3】
前記トレーニング・セットに基づいて前記分類方法によって生成された前記分類器を、試験セットを使って評価する段階をさらに有する、請求項1記載の方法。
【請求項4】
前記選ぶ段階がさらに、ある閾値が満たされるまで、前記トレーニング・セットから、真の結節とトメック・リンクをなす偽の結節を除去していくことを含む、請求項1記載の方法。
【請求項5】
前記閾値は、ダウンスケーリング因子xに関し、系統的なデータ・スケーリング後にトレーニング・セット内に残っている偽結節の数がトレーニング・セット中の真の結節の数のx倍を超えないように、決定される、請求項4記載の方法。
【請求項6】
トレーニング・ケースのセットまたはそのサブセットを用いて前記分類器を検証する段階をさらに有する、請求項1記載の方法。
【請求項7】
実行されたときに請求項1記載の方法を実装する遺伝的アルゴリズム。
【請求項8】
前記遺伝的アルゴリズムがCHCアルゴリズムである、請求項7記載の遺伝的アルゴリズム。
【請求項9】
特徴プールから特徴を選ぶ方法であって:
請求項7記載の第一の遺伝的アルゴリズムおよび第二の遺伝的アルゴリズムのそれぞれを用意し、前記第一の遺伝的アルゴリズムは前記特徴セットの最良サイズを決定するために使われる、段階と;
前記特徴セット・サイズを固定し、前記第二の遺伝的アルゴリズムを使って特徴を選択する段階とを有する方法。
【請求項10】
前記第一の遺伝的アルゴリズムを用意することにおいて、当該方法はさらに:異なる特徴サブセット・サイズを表す染色体の生起数および平均誤り数の少なくとも一つを使って結果を解析することを含む、請求項9記載の方法。
【請求項11】
前記平均誤り数が誤って分類された肺結節の数である、請求項10記載の方法。
【請求項12】
実行されたときに請求項1記載の方法を実装するコンピュータ可読媒体。
【請求項13】
撮像デバイスまたは偽陽性低減デバイスであって、該デバイスは請求項1記載の方法を実装することによって画像データを解析するようプログラムされているコンピュータである、製造物。
【請求項14】
請求項13記載の製造物であって、前記撮像デバイスは:計算機断層撮影(CT)、計算機体軸断層撮影(CAT)、マルチスライス計算機断層撮影(MSCT)、身体断面X線撮影法、超音波、磁気共鳴撮像(MRI)、磁気共鳴断層撮影(MRT)、核磁気共鳴(NMR)、X線、顕微鏡法、蛍光透視法、断層撮影およびデジタル・イメージングからなる群より選択される、製造物。
【請求項15】
前記製造物が肺結節CADシステムである、請求項13記載の製造物。
【請求項1】
データ・マイニング、計算機支援検出、計算機支援診断および人工知能において分類精度を改善し、偽陽性を低減する方法であって:
系統的なデータ・スケーリングを使ってトレーニング・ケースのセットからトレーニング・セットを選ぶ段階と、
ある分類方法を使って前記トレーニング・セットに基づいて分類器を生成する段階とを有し、
前記系統的なデータ・スケーリングおよび前記分類方法が前記分類器を生じ、それにより偽陽性を減らし、分類精度を改善する、方法。
【請求項2】
前記分類器が、サポート・ベクトル機械、ニューラル・ネットワークおよび決定樹からなる群より選択される、請求項1記載の方法。
【請求項3】
前記トレーニング・セットに基づいて前記分類方法によって生成された前記分類器を、試験セットを使って評価する段階をさらに有する、請求項1記載の方法。
【請求項4】
前記選ぶ段階がさらに、ある閾値が満たされるまで、前記トレーニング・セットから、真の結節とトメック・リンクをなす偽の結節を除去していくことを含む、請求項1記載の方法。
【請求項5】
前記閾値は、ダウンスケーリング因子xに関し、系統的なデータ・スケーリング後にトレーニング・セット内に残っている偽結節の数がトレーニング・セット中の真の結節の数のx倍を超えないように、決定される、請求項4記載の方法。
【請求項6】
トレーニング・ケースのセットまたはそのサブセットを用いて前記分類器を検証する段階をさらに有する、請求項1記載の方法。
【請求項7】
実行されたときに請求項1記載の方法を実装する遺伝的アルゴリズム。
【請求項8】
前記遺伝的アルゴリズムがCHCアルゴリズムである、請求項7記載の遺伝的アルゴリズム。
【請求項9】
特徴プールから特徴を選ぶ方法であって:
請求項7記載の第一の遺伝的アルゴリズムおよび第二の遺伝的アルゴリズムのそれぞれを用意し、前記第一の遺伝的アルゴリズムは前記特徴セットの最良サイズを決定するために使われる、段階と;
前記特徴セット・サイズを固定し、前記第二の遺伝的アルゴリズムを使って特徴を選択する段階とを有する方法。
【請求項10】
前記第一の遺伝的アルゴリズムを用意することにおいて、当該方法はさらに:異なる特徴サブセット・サイズを表す染色体の生起数および平均誤り数の少なくとも一つを使って結果を解析することを含む、請求項9記載の方法。
【請求項11】
前記平均誤り数が誤って分類された肺結節の数である、請求項10記載の方法。
【請求項12】
実行されたときに請求項1記載の方法を実装するコンピュータ可読媒体。
【請求項13】
撮像デバイスまたは偽陽性低減デバイスであって、該デバイスは請求項1記載の方法を実装することによって画像データを解析するようプログラムされているコンピュータである、製造物。
【請求項14】
請求項13記載の製造物であって、前記撮像デバイスは:計算機断層撮影(CT)、計算機体軸断層撮影(CAT)、マルチスライス計算機断層撮影(MSCT)、身体断面X線撮影法、超音波、磁気共鳴撮像(MRI)、磁気共鳴断層撮影(MRT)、核磁気共鳴(NMR)、X線、顕微鏡法、蛍光透視法、断層撮影およびデジタル・イメージングからなる群より選択される、製造物。
【請求項15】
前記製造物が肺結節CADシステムである、請求項13記載の製造物。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公表番号】特表2010−500081(P2010−500081A)
【公表日】平成22年1月7日(2010.1.7)
【国際特許分類】
【出願番号】特願2009−523398(P2009−523398)
【出願日】平成19年8月2日(2007.8.2)
【国際出願番号】PCT/IB2007/053048
【国際公開番号】WO2008/017991
【国際公開日】平成20年2月14日(2008.2.14)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】
【公表日】平成22年1月7日(2010.1.7)
【国際特許分類】
【出願日】平成19年8月2日(2007.8.2)
【国際出願番号】PCT/IB2007/053048
【国際公開番号】WO2008/017991
【国際公開日】平成20年2月14日(2008.2.14)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】
[ Back to top ]