説明

予測装置及びその学習装置並びにそれらのコンピュータプログラム

【課題】データ欠損があっても、症例についてある事象の発生を信頼性をもって予測可能な装置を提供する。
【解決手段】予測装置54は、ADTreeからなる予測モデル138を記憶する予測モデル記憶装置を含む。予測モデル138は、症例データから抽出される特性の組のデータが与えられると、その患者に関連したAxLN転移等の発生を予測するように予め学習がされている。装置はさらに、診断対象となる症例データから、特性の組のデータを抽出する特性抽出部152と、特性抽出部152により抽出された特性の組のデータを予測モデル138に与えて、診断対象となる症例データの患者におけるAxLN転移等の発生を予測し、予測154として出力するモデル適用部156とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、ある疾病に関するある患者の予後に関するリスクを診断したり、ある患者に対する投薬の効果を予測したりするための装置に関し、特に、診断のために必要な情報に欠損が多いときでも安定して高い精度で診断できる予測装置に関する。
【背景技術】
【0002】
原発性乳がんの治療をする際、腋窩リンパ節(AxLN)への転移(AxLN転移)があるか否かは、治療に関する種々の判断に非常に大きな影響を与える診断要因である。この情報は、腋窩の局所的治療をする際にも、薬物療法などの全身的治療をする際にも使用される。センチネルリンパ節(SLN)生検は、従来の腋窩郭清に比較して侵襲性が低く、リンパ節への転移があるか否かを明らかにできる。しかし、最終的にリンパ節への転移を認めず手術の必要がないと判定される患者であっても、生検のための外科的処置を受ける必要があるという問題がある。SLN生検が禁忌であるときには、リンパ節の状態に関わらず、侵襲性の高い腋窩リンパ節の郭清をすることが通常の手続きである。
【0003】
このような外科的処置を受ける必要をなくし、容易に得られる検査情報のみから腋窩リンパ節の状態を予測できれば、患者の負担を小さくできる。また、抗がん剤などの薬物療法の適応を判断する上で重要な情報が、迅速かつ非侵襲的に得られる。その目的のため、AxLN転移を数値的に予測する方法がいくつか提案されている。それらの中には、数式内のいくつかの変数に値を代入することによりスコアを計算し、Logistic回帰分析を用いてモデルを構築する統計的分析方法がある。
【0004】
これら従来のモデルは、通常は、一定数の、互いに独立した予測因子を含む。これら予測因子は、既知の予測要因のグループに対する一変量又は多変量解析により特定される。既知の予測要因との関連でセンチネルリンパ節への転移の確率を予測する上では、例えばノモグラムと呼ばれるグラフィック表示を用いるモデルが便利である。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】フロインド他、「交互決定木の学習アルゴリズム」、第16回国際機械学習会議予稿集、ブレド、スロベニア、1999年、124−133(Freund, Y., Mason, L.: "The alternating decision tree learning algorithm". Proceeding of the Sixteenth International Conference on Machine Learning, Bled, Slovenia, (1999) 124-133)
【非特許文献2】ロウジア他、「乳がんの術前化学療法後の、病理的完全奏効 及び無再発生存を予測するノモグラム」、Journal of Clinical Oncology誌、2005年;23(33):8331−9(Rouzier R,Pusztai L,Delaloge S,Gonzalez-Angulo AM,Andre F,Hess KR,et al.Nomograms to predict pathologic complete response and metastasis-free survival after preoperative chemotherapy for breast cancer.J Clin Oncol 2005;23(33):8331-9.)
【非特許文献3】ロウジア他、「乳がんに対する術前化学療法後の乳房温存手術の成功確率及び残存腫瘍径を予測するためのノモグラムの開発及び評価」、 Cancer誌、2006年;107(7):1459−66(Rouzier R, Pusztai L, Garbay JR, Delaloge S, Hunt KK, Hortobagyi GN, et al. Development and validation of nomograms for predicting residual tumor size and the probability of successful conservative surgery with neoadjuvant chemotherapy for breast cancer. Cancer 2006;107(7):1459-66.)
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、そのような方法は、説明変数の間に存在する、目には見えない互いの依存関係又は規則のようなものを調べるためには適していない。そうした依存関係及び隠れた規則などは、単独ではAxLN転移の予測精度に直接的な影響を与えることはほとんどないかも知れない。しかし、これらを互いに組合わせれば、AxLN転移の確率の予測精度を高めることができる可能性がある。したがって、既知の予測要因を単に用いるだけではなく、臨床的に利用可能な情報をできるだけ多く用いることができるようにして、正確な予測を得ることができるような枠組みを得て、そうした枠組みにより、それら情報を用いた高精度な予測の可能性を探ることができるような方法が必要である。
【0007】
この目的のために、従来用いられていた統計的分析に代え、決定木、人工神経回路網(ニューラルネットワーク)、及びサポートベクターマシン(SVM)のような人工知能又はデータマイニング手法を用いることもできる。これらの手法は、多数の変量を分析に組込んだり、変量間の非線形な関係又は依存性を探ったりするためのものである。しかし、特に過去の時点にさかのぼって後ろ向きに得られた臨床データをこうした手法を用いて分析する場合、欠損データが多くなるという問題がある。データの欠損は、患者の状態の相違、並びに患者の状態に応じて病院施設で採用される診断手法及び診療手法の相違から生じるものである。したがって、分析時にそれら欠損データを補うことは不可能である。このような欠損データを持つデータを取扱うための方法は、理想的には、構造化されたデータを取扱うよう最適化されること、同時に種々の臨床的変量を組込むことができること、及びデータ欠損に対して耐性を持つことが必要である。そのために、そうした方法を実現するための数理モデルの開発方法と、そうした数理モデルを利用して腋窩リンパ節への転移の可能性を推定できるシステムが望まれている。
【0008】
容易に理解できるように、こうした問題は、原発性乳がんに伴って生じるだけでなく、その他、非原発性のものも含む種々のがん、さらには一般的な疾病全般について、最適な治療方法を決定するときにも生じ得る。特に、乳がんのように手術の結果が患者の生活の質に大きな影響を及ぼす可能性があり、患者数の多い病気であるため、過剰医療による医療コストの増大を防ぐ必要が高い場合には、個人ごとに最適な治療方法を精度高く決定することの必要性が高い。さらに、治療方法を決定するために必要な情報が容易には得られなかったり、得るためには患者に大きな負担を強いたりするような場合に、そうした問題を解決する必要性はいっそう高くなる。こうした診断情報に利用できる数理モデルは、データの内で欠けているものがどれかにはかかわりなく、安定して高い精度で得られる必要がある。このためには、データの間の依存性などに関わらず、できるだけ数多くの情報を用いることができることが望ましい。
【0009】
さらに、こうした手法は、例えばある薬品の投薬にリスクはあるが、症例によっては効果が期待できるような薬を患者に与えるにあたっての判断にも適用できる可能性がある。
【0010】
したがって、本発明の目的は、データ欠損があっても、特定の症例について特定の事象の発生をある信頼性をもって予測可能な予測装置を提供することである。
【0011】
本発明の他の目的は、データ欠損があっても、患者の身体における特定の事象の発生について、確度の高い診断を行なうことができる予測装置を提供することである。
【0012】
この発明のさらに他の目的は、データ欠損が多くても、患者の身体における特定の事象の発生について、確度の高い、堅牢性の高い診断結果を提示できる予測装置を提供することである。
【0013】
この発明の別の目的は、使用するデータの種類を絞る必要がなく、データ欠損があっても、患者の身体における特定の事象の発生について、確度の高い、堅牢性の高い診断結果を提示できる予測装置を提供することである。
【0014】
この発明のさらに他の目的は、使用するデータの種類を絞る必要がなく、データ欠損があっても、患者の身体における特定の事象の発生について、確度の高い、堅牢性の高い診断を行なうことができ、かつ汎化能力の高い予測装置を提供することである。
【0015】
こうした予測装置は、例えば乳癌のAxLN転移の発生の予測、特定の薬品の投与による奏効の可能性の予測などに用いることができればなお好ましい。
【課題を解決するための手段】
【0016】
本発明の第1の局面に係る予測装置は、ADTree(Alternative Decision Tree:交互決定木)からなる予測モデルを記憶するための予測モデル記憶手段と、予測モデルは、症例データから抽出される所定の特性の組のデータが与えられると、当該症例データが得られた患者に関連した所定の事象の発生を予測するように予め学習がされており、診断対象となる症例データから、予測モデルについて特性の組のデータを抽出するための特性抽出手段と、特性抽出手段により抽出された特性の組のデータを予測モデルに与えることにより、診断対象となる症例データの患者に関連した所定の事象の発生を、予測モデルを用いて予測し、所定の事象に関する診断結果として出力するための予測手段とを含む。
【0017】
ADTreeを用いた予測モデルでは、決定木を用いたモデルと異なり、与えられる特性の組に欠損データがあったとしてもある程度の信頼性を持って予測を行なうことができる。診断対象となる症例データから必要な特性の値が得られなくても、予測を行なうことが可能になり、症例データが得られた患者に関する所定の事象の発生を頑健に行なうことができる。
【0018】
好ましくは、予測モデルは、複数個のADTreeを含み、予測手段は、特性抽出手段により抽出された特性の組のデータを、予測モデル中の複数個のADTreeの各々に与えることにより、各ADTreeによる、所定の事象の発生の確率に関連した数値を算出するためのモデル適用手段と、モデル適用手段により複数個のADTreeの各々から得られた数値を総合することにより、診断対象となる症例データの患者に関連した所定の事象の発生に関する判定を行ない、判定結果を診断結果として出力するための判定手段とを含む。
【0019】
予測モデルが複数のADTreeを含み、判定はこれらADTreeの出力を総合することにより行なわれる。個々のADTreeだけでなく複数のADTreeの出力を総合的に使用して判定を行なうため、判定の安定性が増加し、信頼性を高めることができる。欠損値が存在したときにも頑健な判定を行なうことができる。
【0020】
より好ましくは、判定手段は、モデル適用手段により複数個のADTreeの各々から得られた数値の合計値を算出するための合計算出手段と、合計算出手段により算出された合計値と所定のしきい値とを比較することにより、診断対象となる症例データの患者に関連した所定の事象の発生に関する判定を行ない、判定結果を診断結果として出力するための手段とを含む。
【0021】
ADTreeの出力は数値として得られる。これら数値と、予め定められたしきい値との比較という簡単な処理により、予測を行なうことができる。
【0022】
さらに好ましくは、特性の組のデータは、いずれも非侵襲性の検査により得られる値である。
【0023】
非侵襲性の特性のデータを使用して、特定の事象の発生に関する予測を行なうことができる。侵襲性の特性のデータを使用する必要が減り、診断のために患者に無用の負担を減らすことができる。
【0024】
予測モデルは、特性の組のデータが与えられると、当該特性の組のデータが得られた患者において、特定の部位に病変が生じているか否かを予測するように予め学習済でもよい。
【0025】
好ましくは、病変は特定の部位へのがんの転移でもよく、特定の部位は、当該部位に病変が生じているか否かを、患者の外部から確認ができない部位でもよい。
【0026】
より好ましくは、予測モデルは、特性の組のデータが与えられると、当該特性の組のデータが得られた患者に所定の薬品を投与したときに奏効するか否かを予測するように予め学習済である。
【0027】
さらに好ましくは、予測装置はさらに、診断対象となる症例データから、特性抽出手段により抽出された特性の組の中に欠損データが存在している場合に、当該欠損データに対して予め定められている値を補充してから予測手段に与えるための欠損データ補充手段を含んでもよい。
【0028】
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの予測装置の各手段として機能させる。したがって、第1の局面の予測装置と同様の効果を得ることができる。
【0029】
本発明の第2の局面に係る学習装置は、症例データから抽出される所定の特性の組のデータが与えられると、当該症例データが得られた患者に関連した所定の事象の発生を予測するように、ADTreeからなる予測モデルを学習するための学習装置であって、学習データを記憶するための記憶手段と、記憶手段に記憶された学習データから、乱数を用いてリサンプリングすることにより、学習のためのリサンプリングデータセットを作成するためのリサンプリング手段と、リサンプリング手段により作成されたリサンプリングデータセットを学習データとして用い、特性の組を入力として所定の事象の発生を予測するように、ADTreeからなる予測モデルの学習を行なうためのADTree学習手段と、リサンプリング手段によるリサンプリングデータセットの作成及びADTree学習手段による予測モデルの学習を、終了条件が成立するまで、処理の条件を変化させて繰返し行なうことにより、複数個の予測モデルを作成するためのモデル作成手段と、モデル作成手段により作成された複数個の予測モデルの、学習データに対する予測精度を算出し、最も高い予測精度が得られた予測モデルを出力するためのモデル選択手段とを含む。
【0030】
所定の特性の組のデータを用いて、各々がADTreeからなる多数の予測モデルを作成できる。ADTreeは、欠損データがあっても一定の範囲(例えば、50%−70%など)で対象とする事象になる確率予測を行なうことが可能になる。そのため、過去に蓄積された、必ずしも統一的な基準によって収集されたわけではない症例データを用いて、特定の事象の発生に関して一定の予測範囲で予測が可能な予測モデルを得ることができる。
【0031】
好ましくは、この学習装置においては、各々が複数種類の特性からなる特性の組で、互いに異なるものが複数個、予め規定されており、モデル選択手段は、処理の条件の1つとして、複数個の特性の組のいずれを使用するかを変化させる。
【0032】
どのような特性の組を使用するかは、モデル作成の上で重要である。特性の組を変えてモデルを作成し、その中で最も予測精度が高いものを選択することが可能となり、高精度な予測モデルの構築が可能になる。
【0033】
より好ましくは、学習装置は、複数種類の特性を、所定の事象の発生の予測に関する重要性の順番に順位付けするための特性順位付け手段をさらに含み、複数個の特性の組はいずれも、特定順位付け手段による順位付けの上位から所定個数の特性からなる。
【0034】
特性の組のうち、予測に関して重要なものの上位を含む特性の組を選択することにより、予測モデルとして最も高精度なものが得られる可能性が高くなる。その結果、高精度な予測モデルの構築が可能になる。
【0035】
さらに好ましくは、リサンプリング手段は、乱数の種を複数通りに変化させることにより、複数個のリサンプリングデータセットを作成するための手段を含み、モデル選択手段は、処理の条件の1つとして、作成するための手段を動作させるための乱数の種の数を変化させる。
【0036】
学習データとして、互いに異なる様々なものを使用してモデルを構築し、その中から最高精度のモデルを選択すると、得られるモデルの信頼性は高くなる。しかし、場合によっては学習データの数そのものに限度があり、十分な数を集めることが難しい。そうした場合でも、リサンプリングにより複数種類の学習データを作成してそれぞれからモデルを構築し、その中から最高精度のモデルを選択すると、得られるモデルの精度が向上する可能性が高い。
【0037】
リサンプリング手段は、記憶手段に記憶された学習データのうち、所定の事象が発生した学習データからのサンプル数、及び発生しなかった学習データからのサンプル数の偏りを、両サンプル数の比が所定の値となるようにサンプリング比を調整し、乱数を用いてリサンプリングすることにより、学習のためのリサンプリングデータセットを作成するための手段を含んでもよい。
【0038】
症例データによっては、所定の事象が発生した場合の数が極端に少ない場合がある。そうした場合でも、このように両者からのサンプル数の比が所定の値となるようにリサンプリングを調製することで、偏りの少ない、汎化能力の高いモデルの構築が可能になる。
【0039】
本発明の第4の局面に係るコンピュータプログラムは、コンピュータを、上記のいずれかの学習装置の各手段として機能させる、コンピュータプログラムである。
【図面の簡単な説明】
【0040】
【図1】本発明の一実施の形態に係る、AxLN転移確率に関する診断装置50の構成を示すブロック図である。
【図2】図1に示す特性順位決定処理60をコンピュータ上で実現するためのコンピュータプログラムの制御構造を示すフローチャートである。
【図3】ADTreeの1例を示す図である。
【図4】ADTreeにおけるスコアの計算方法を説明するための図である。
【図5】学習処理52をコンピュータ上で実現するためのプログラムの概略の制御構造を示すフローチャートである。
【図6】学習処理52をコンピュータ上で実現するためのプログラムの概略の制御構造の詳細を示すフローチャートである。
【図7】図6のステップ266で実行される予測精度算出処理のためのプログラムルーチンの制御構造の詳細を示すフローチャートである。
【図8】予測処理54をコンピュータハードウェアとの協働により実現するコンピュータプログラムの制御構造をフローチャート形式で示す。
【図9】診断装置50を実現するコンピュータシステム550の外観を示す図である。コンピュータシステム550の内部構成を示す。
【図10】コンピュータシステム550の内部構成を示す図である。
【図11】実施例1において、AxLN転移の予測された確率及び選択された予測器を用いて生成した受動者動作特性(ROC)曲線をプロットした図である。
【図12】実施例1において選択された予測器のADTreeを示す図である。
【図13】実施例1において選択された予測器のADTreeを示す図である。
【図14】実施例1において選択された予測器のADTreeを示す図である。
【図15】実施例1において選択された予測器のADTreeを示す図である。
【図16】実施例1において選択された予測器のADTreeを示す図である。
【図17】実施例1において選択された予測器のADTreeを示す図である。
【図18】実施例1において選択された予測器のADTreeを示す図である。
【図19】実施例1の検証テストの結果を示すグラフである。
【図20】実施例1において、リサンプリングされたデータに対する予測結果を示すグラフである。
【図21】実施例1において、全学習データに対する予測結果を示すグラフである。
【図22】実施例2において、術前化学療法実施前において構築されたモデル内のADTreeを示す図である。
【図23】実施例2において、術前化学療法実施前において構築されたモデル内のADTreeを示す図である。
【図24】実施例2において、術前化学療法実施前において構築されたモデル内のADTreeを示す図である。
【図25】実施例2において、術前化学療法実施前において構築されたモデル内のADTreeを示す図である。
【図26】実施例2において、術前化学療法実施前において構築されたモデル内のADTreeを示す図である。
【図27】実施例2において、術前化学療法実施前において構築されたモデル内のADTreeを示す図である。
【図28】実施例2において、術前化学療法実施前において構築されたモデル内のADTreeを示す図である。
【図29】実施例2において、術前化学療法実施前において構築されたモデル内のADTreeを示す図である。
【図30】実施例2において、術前化学療法実施前において構築されたモデル内のADTreeを示す図である。
【図31】実施例2において、FECレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図32】実施例2において、FECレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図33】実施例2において、FECレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図34】実施例2において、FECレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図35】実施例2において、FECレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図36】実施例2において、FECレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図37】実施例2において、FECレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図38】実施例2において、FECレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図39】実施例2において、全てのレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図40】実施例2において、全てのレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図41】実施例2において、全てのレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図42】実施例2において、全てのレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図43】実施例2において、全てのレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図44】実施例2において、全てのレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図45】実施例2において、全てのレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図46】実施例2において、全てのレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図47】実施例2において、全てのレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【図48】実施例2において、全てのレジメンが終了した段階において構築されたモデル内のADTreeを示す図である。
【発明を実施するための形態】
【0041】
以下の実施の形態の説明及び添付した図面では、同一の部品には同一の参照番号を付してある。それらの機能も同一である。したがってそれらについての詳細な説明は繰返さない。また、以下の実施の形態の説明は、発明の内容を分かりやすくするため、後述の実施例1にしたがい、原発性乳がんの患者において、腋窩リンパ節に転移が生じているか否かを診断する装置について行なう。しかし容易に理解できるように、本発明はそうした場合のみに適用可能なわけではない。診断目的に応じ、利用する症例データを変え、特性を適切に選択することにより、投薬によって効果が得られるか否かを推定する際など、他の診断又はリスクの推定にも本発明を適用できる。
【0042】
<概略>
データベースとして整備されているか否かはともかく、病院には過去の臨床データがかなり蓄積されていることが一般的である。こうした過去の臨床データに対する統計的処理により得られたモデルを使用することにより、確度の高い診断情報を提供できれば好ましい。しかしそのために、過去の臨床データから統計的モデルを構築する際には、必ずデータ欠損の問題が生じる。最初から一貫した方針で一定の検査項目については必ずデータを収集する、という方針で臨床データを蓄積することは不可能に近い。信頼性の高いモデルを作成するためには、臨床データの症例数も多くなければならない。しかし、集める臨床データの症例数が多くなるほど、データ欠損の問題も大きくなり、理想的な臨床データの集合は得られない。データ欠損があるときには、一般的には精度の高いモデルの構築はむずかしい。逆に、特定の病気では、事例が少なく、臨床データを多数集めることが難しいこともある。そうした場合には、モデルの汎化性能が不十分なことが多い。得られる臨床データについて、例えば異常が生じていなかった事例については多数集められるが、異常が生じていた事例については少数のデータしか得られない場合、すなわちデータに偏りがある場合がある。そうしたデータセットからモデルを構築でき、使用したデータでは精度よく予測できたとしても、そのモデルを用いて、他の施設などで得られる偏りの異なる独立したデータでも信頼性の高い予測を行なうことは難しい。
【0043】
以下に説明する実施の形態では、こうした問題を解決するために、以下に説明する4つの手順を組合わせたデータマイニング手法を採用した。
【0044】
(1)偏りを考慮したリサンプリングによるデータセットの再構成
(2)臨床データとして得られた検査項目の結果のうち、高精度のモデルを得るために有効と思われる一部の項目を選択すること(特性選択)
(3)予測のためのモデルとして、データ欠損に比較的強いと思われるADTreeと呼ばれる決定木の一種を採用すること、及び
(4)高精度でかつ汎化性の高いモデルを構築するために、バギングと呼ばれる技法を採用すること。
【0045】
ADTreeとは、複数の弱分類器を組合わせたもので、図3及び図4を参照して後述するように、決定木と類似した形で表すことができる。その名前の由来についても後述する。
【0046】
一般に使用されているif−then型の決定木は、単純で理解が容易であるが、データ欠損があるときには確率を全く計算することができないという欠点がある。それに対してADTreeは、データ点が存在しないときでも、予測対象の分類を決定するための確率を一定の範囲で算出できるという長所がある。以下に説明する実施の形態では、こうしたADTreeの特性を生かし、欠損データが比較的多く含まれるデータセットにおいても分類を行なえるようにする。なお、ADTree作成及びADTreeを使用した確率算出のためのアルゴリズムについては前掲の非特許文献1に詳述されている。本実施の形態でも、非特許文献1に記載されたアルゴリズムを使用した。
【0047】
以下の実施の形態では、過去の症例を学習データとした多変量を扱うADTreeの学習をすることで予測モデルを構築した例を説明する。実施例1ではさらに、この予測モデルを学習データセットとは独立したデータセットを用いて検証した例を説明する。以下に説明する例は、ウェブサーバを介して遠隔端末からAxLN転移の診断要求を受けて、上記モデルを用いて転移発生を予測し、診断結果を相手端末に返信するためのものである。
【0048】
なお、以下の実施の形態では項目の数値化処理を行なう。その際、症例データ内の量的変数は特性としてそのまま用いることもできるし、何らかの形で別の値に変換すること(例えば正規化など)もできる。定性的変数については、適切な方法で等級付けして数値化し、特性として用いる。例えばある所見の「あり」「なし」などは「1」「0」などの値に変換できる。等級付けの基準は、精度を高めるためにはできるだけ客観的な値となるように定めることが望ましい。他の変数に依存するカテゴリ変数は除外することが望ましい。関係する変数のうち、いずれが関連しているかを明確にするためである。全ての患者について同じ値であった変数も除外するべきである。以下の実施の形態では、各変数は線形正規化により0から1までの値に変換するものとする。
【0049】
[構成]
<装置の全体構成>
図1を参照して、本実施の形態に係る、AxLN転移の発生に関する予測装置である診断装置50の構成について説明する。この診断装置50は、過去の乳がん患者の症例から得た学習データ70を用いて、ADTreeからなる、AxLN転移の確率の予測モデル138の学習を行なう学習処理52と、学習データ70に含まれる患者の特性のうち、予測精度の高い予測モデル138を構築するために特に有効と思われる特性の組を選択する特性選択処理56と、学習処理52による学習が行なわれた予測モデル138を用い、対象となる患者のデータから、特性選択処理56により選択された特性のデータを抽出し、予測モデル138を使用して対象患者にAxLN転移が生じているか否かを予測し、予測結果を出力する予測処理54とを含む。
【0050】
学習処理52と予測処理54とは、いずれもコンピュータハードウェアと、そのコンピュータハードウェアにより実行されるコンピュータプログラムとにより、両者の協働により実現される。学習処理52と予測処理54とは別々のコンピュータ上に実装されてもよいし、別々のコンピュータ上に実装されてもよい。本実施の形態では、これらは同一のコンピュータ上に実装されていることを前提としている。
【0051】
<特性選択処理56の構成>
特性選択処理56は、本実施の形態では、予め決めた複数種類(例えば35種類)の特性からなる集合について、SVMを用いた特性選択(SVM−FS:SVM−Feature Selection)により順位を定める特性順位決定処理60を含む。特性順位決定処理60における特性の順位の決定方法の詳細については後述する。要するに特性順位決定処理60では、複数種類の特性のうち、予測精度に与える影響の大きさにしたがって特性に順位をつける処理を行なう。
【0052】
《特性順位決定処理60のコンピュータプログラムによる実現》
図2を参照して、図1に示す特性順位決定処理60をコンピュータ上で実現するためのコンピュータプログラム(以下単に「プログラム」と呼ぶ。)は、属性の順位を格納すべき配列領域をコンピュータのメモリ上に確保するステップ220と、ステップ220に続き、変数IXに0を代入するステップ222と、ステップ224に続き、学習データ70から得られた利用可能な特性の全てを用いてSVMの学習を行なうステップ224と、ステップ224により得られたSVMを用いて学習データ70に対する予測と結果の判定とを行ない、SVMの判定精度を確認し記憶するステップ226と、全特性に対して以下のステップ230及び232を実行するステップ228とを含む。
【0053】
すなわち、ステップ230では、全特性の中から特性を1つだけ抜き、残りの特性を用いてステップ224と同様の処理でSVMの学習を行なう。ステップ232では、ステップ230で学習されたSVMの精度を学習データで確認し、記憶装置に記憶する。
【0054】
上記のプログラムはさらに、ステップ228の処理が全ての特性について完了したときに実行され、ステップ232で確認されたSVMの精度をステップ226で確認された元の特性の集合から得られたものと比較し、最も精度の低下の小さかった特性の番号を、ステップ220で確保した配列のうち、変数IXをインデックスとするロケーションに記憶するステップ234と、選択された特性を、残りの特性から削除するステップ236と、変数IXに1を加算するステップ238と、ステップ236の処理の結果、残った特性が1個のみか否かを判定し、判定結果に応じて制御を分岐させるステップ240とを含む。
【0055】
このプログラムはさらに、ステップ240での判定結果がNOのときに実行され、残りの特性を新たな特性の全体集合として、ステップ224に制御を戻すステップ242と、ステップ240での判定結果がYESのときに実行され、残りの特性の番号を配列内のインデックスIXの値で示されるロケーションに記憶するステップ244と、ステップ244に続き、得られた配列を外部記憶に出力するステップ246とを含む。
【0056】
この処理により、学習データにより学習したSVMの精度に与える影響の大きさにしたがって、特性に順位をつけることができる。
【0057】
<学習処理52の構成>
再び図1を参照して、学習処理52は、学習データ70からモデル作成のためのパラメータを種々に変化させることによって多数のADTreeの予測モデル110を作成するためのモデル作成処理72と、モデル作成処理72により作成された多数の予測モデル110を用いて、学習データ70の全体に対して腋窩リンパ節への転移の発生予測を行ない、その予測の精度を算出して、最も精度の高い予測モデルを最適な予測モデル138として出力するモデル選択処理74とを含む。
【0058】
最終的に得られるモデルの精度を高めるために、本実施の形態では、モデル作成時のパラメータの値を種々変化させながら、予測モデル110を多数個生成する。これら多数の予測モデル110の中で、元の学習データから結果を予測したときの予測精度が最も高いモデルを最終的な予測モデル138として選択する。
【0059】
モデル作成処理72は、以下のようにして多数のモデルを作成する。この過程では、様々な繰返し処理が行なわれるが、以下では、説明を分かりやすくするために、繰返しの条件が全て固定された場合について説明し、その説明が終了してから、どの部分でどのように条件を変えて繰返し処理を実行するかを説明する。
【0060】
モデル作成処理72は、学習データ70について、そのデータの偏りを考慮したサンプリングをすることにより、実際にAxLN転移が見つかった患者と見つからなかった患者とのデータ数が等しくなるようなリサンプル学習データセット92,…,94を所定個数作成するリサンプル処理90と、リサンプル処理90により得られたリサンプル学習データセット92,…,94の各々について、データをさらにランダムにサンプリングすることでK個のデータサブセット(第1のデータサブセット100、第2のデータサブセット102、…、第Kのデータサブセット104)を作成するデータサブセットのサンプリング処理95とを含む。ここでは、リサンプル学習データセット92,…,94の各々について、予め指定されるK個のデータサブセット100,…,104が作成される。なお、この「K」は、後述するバギング数に相当する。
【0061】
モデル作成処理72はさらに、リサンプル学習データセット92,…,94の各々から得られた第1〜第Kのデータサブセット100,…,104により、それぞれ第1〜第KのADTree120,122,…,124の学習を行なって予測モデル110を作成するモデル学習処理97を含む。
【0062】
以上の処理により、繰返し条件を固定した状態で、1つの予測モデル110が作成される。この予測モデル110にはK個のADTree120,…,124が含まれる。
【0063】
《繰返し条件》
以下、繰返し条件について説明する。
【0064】
─特性の集合─
繰返し条件の第1は、モデル学習に使用する特性の集合である。特性選択処理56により順位付けされた特性の先頭から順番に、それぞれF個、…、F個の要素からなる特性の集合(集合の個数はQ個)を選び、これらについて上記した処理を繰返す(F<F<…<F)。特性集合を変更することによって、Q回の繰返しが行なわれる。
【0065】
─リサンプリング─
学習データ70からリサンプル学習データセット92,…,94をリサンプリングする際には乱数を用いる。この乱数の種を変更することにより、リサンプル学習データセット92,…,94の内容が変化する。このとき、いずれの場合にも学習データ70の症例データの偏りを補償するようにリサンプリングすることに注意する必要がある。乱数の種を表す変数Iの値を1〜IMAXまで1ずつ変化させることにより、IMAX通りのリサンプル学習データセットが得られる。これがリサンプル学習データセット92,…,94である。
【0066】
─バギング数─
上記した説明では、リサンプル学習データセット92,…,94の各々について、第1〜第Kのデータサブセット100,…,104のK個のデータセットをサンプリングにより作成するものとした。この個数は、予測モデル110に含まれるADTreeの個数である。この数をバギング数と呼ぶ。このバギング数について、本実施の形態では1個〜KMAX個まで、1ずつ変化させながら上記した処理を繰返す。この1回の繰返しにより、KMAX個のモデルが作成される。
【0067】
─バギング用データセットのサンプリング─
上記したバギング用の第1〜第Kのデータサブセット100,…,104について、あるKに対し、これらデータセットのサンプリングのための乱数を変えることにより、第1〜第Kのデータサブセット100,…,104のバリエーションができる。本実施の形態では、あるKに対してサンプリングを1〜JMAXまでのJMAX通りに変化させる。したがって、あるKに対し、JMAX通りの第1〜第Kのデータサブセット100,…,104が作成される。
【0068】
─BOOSTING数─
ADTreeの作成には、パラメータとしてツリーに含むノード数をいくつにするかを指定する必要がある。この値をBOOSTING数と呼ぶ。BOOSTING数を1からMMAXまで変化させることにより、MMAX個のモデルが作成される。
【0069】
《作成されるモデルの個数》
以上の条件によれば、繰返しの回数を決める要因として、以下の5つがある。
【0070】
(1)特性の組の個数 Q通り
(2)リサンプリング回数 IMAX通り
(3)学習データセットのサンプリング回数 JMAX通り
(4)データサブセットの数の変化 KMAX通り
(5)BOOSTING数の変化 MMAX通り
これらをそれぞれ変化させて上記処理を実行すると、全部でQ×IMAX×JMAX×KMAX×MMAX個のモデルが作成される。
【0071】
後述の実施例1では、Q=7、IMAX=10、JMAX=5、KMAX=MMAX=10とした。したがって、全部で7×10×5×10×10=35,000通りのモデルが得られ、その中から1つだけモデルを選択する。この処理について以下、説明する。
【0072】
《モデル選択処理》
モデル選択処理も、大きく分けて2つのステージに分割される。第1のステージは、モデル作成処理72により得られたモデルごとに、学習データ70の全症例データについて診断結果の予測をし、予測結果を学習データ70と比較してその精度を算出する予測ステージであり、第2のステージは、全てのモデルのうち、予測ステージで最も高い精度が得られたモデルを選択し、予測モデル138として出力する選択ステージ136である。
【0073】
─予測ステージ─
予測ステージは、モデル作成処理72により得られた全ての予測モデル110の各々に対して、以下のような処理をする。
【0074】
すなわち、予測ステージは、学習データ70中の全症例データの各々から、予測のために必要な特性の組を抽出する特性抽出処理130と、抽出された特性の組の中に欠損データがあったときに、その特性データの平均値で欠損データを補う欠損データ補充処理140とを含む。このため、予め各特性について、学習データ70内の有効データの平均値を算出しておき、記憶装置144に記憶しておく。ここで注意すべきことは、モデルが作成されたときに使用された特性の組が、モデルにより異なることである。モデルごとに、適切な特性の組を使用することが必要である。
【0075】
予測ステージはさらに、抽出された特性の組の各々を予測モデル110に含まれるADTree120,122,…,124にそれぞれ与えて、特性の組ごとに、各ADTree120,122,…,124に後述するスコアを算出させるモデル適用処理142と、特性の組の各々について予測モデル110のADTree120,122,…,124により算出されるスコアの平均を算出する平均値計算処理132と、平均値計算処理132により出力される平均スコアをモデルごとに記憶装置134に蓄積する処理とを含む。
【0076】
モデル選択処理74の予測ステージでは、上記した処理を、1つのモデルに対して、学習データ70に含まれる全症例データを対象に行なう。その結果、モデルごとに、全症例データに関する予測結果の集合が得られる。
【0077】
─選択ステージ─
予測ステージで得られた結果から、モデルごとに、その予測結果のスコアと実際の学習データ70の内容とを統計的に処理し、比較することにより、モデルごとにその予測精度が算出できる。選択ステージでは、最も予測精度の高いモデルを予測モデル138として選択する。本実施の形態では、モデルごとにROC曲線を描き、その下側面積AUCが最も大きくなったモデルを選択する。
【0078】
《ADTree》
ADTreeの一例を図3に示す。図3において、長方形で示されているノードを「分岐ノード」、楕円で示されているノードを「予測ノード」と呼ぶ。図3から明らかなように、ADTreeは、分岐ノードからなる層と、予測ノードからなる層とが交互に配置されている。これが「Alternative」という名称の由来である。
【0079】
さらにこのADTreeでは、通常の決定木と異なり、1つのノードから複数の分岐が出ている場合、その全てのノードを辿る場合と、1つのノードのみを選択的に辿る場合とがある。図3において、前者の分岐は点線で示され、後者の分岐は実線で示されている。ADTreeの各分岐ノードには、数値が割当てられている。ADTreeでは、ルートノードから分岐しながら全ての可能なルートを辿り、その過程で通過した分岐ノードに割当てられている数値を加算し、最終的に得られた数値を予測のための出力(スコア)とする。
【0080】
図3に示すADTreeは、ルートノード170と、ルートノード170の下に並ぶ3つの予測ノード172、174及び176とを含む。ルートノード170には数値「−0.1」が割当てられている。ノード172,174及び176は親ノードと点線で結ばれているので、ルートノード170からはこれらノードへの分岐を必ず辿る。予測ノード172からは、分岐ノード180及び182が分岐している。この分岐は実線なので、ノード172での判定結果にしたがって分岐ノード180及び182のいずれか一方が選択される。図3において、各分岐には、各ノードでの判断の対象となる特定の変数が満たすべき条件が示されている。たとえばノード172では、条件Aの判定結果がNOかYESかにしたがってノード180及び182のいずれかが選択される。
【0081】
分岐ノード180及び182にはそれぞれ、数値「−0.2」及び「+1.0」が割当てられている。ルートノード170から予測ノード172、ノード180と辿った場合、得られる数値は「−0.1−0.2=−0.3」となる。逆にルートノード170から予測ノード172、ノード182と辿った場合には、数値は「−0.1+1.0=0.9」となる。ADTreeによるスコアは、このように可能なノードを全て辿りながら、辿ったノードに割当てられている数値を加算していくことにより得られる。
【0082】
このADTreeはさらに、ノード174から実線により分岐するノード184及び186と、ノード184から点線で分岐するノード192及び194と、ノード192から実線で分岐するノード196及び198と、ノード196から点線で連結されるノード204と、ノード204から実線で分岐するノード206及び208と、ノード194から実線で分岐するノード200及び202と、ノード176から実線で分岐するノード188及び190とからなる。
【0083】
ルートノード170、ノード180及び182と同様、ノード184,186,188,190、196,198、200、202、206及び208には数値が割当てられている。
【0084】
例えば、図3に示したADTreeにおいて、A=NO,B=NO,C=5,D=1,E=X,F=YESの場合の計算例を図4に示す。図4において、選択される分岐ノード内の数値には下線を付してある。
【0085】
図4を参照して、この例の場合、ノード172,174,176の全てで判定が行なわれ、ノード180、184及び188が選択される。さらにノード184からはノード192と194との双方に分岐が生じる。ノード192からはノード196、204、208というルートが辿られる。ノード194からはノード200が選択される。以上の結果、このケースではルートノード170、分岐ノード180,184,196,208,200、及び188がパス上にあることになる。ADTreeの出力するスコアは
−0.1−0.2−0.2+0.5−0.4−0.4−0.3=−1.1
(ルート)(A) (B) (C) (D) (E) (F)
となる。
【0086】
《学習処理52のプログラムによる実現》
図5を参照して、図1に示す学習処理52をコンピュータ上で実現するためのプログラムの概略の制御構造は以下のとおりである。すなわちこのプログラムは、学習を行なうためのパラメータを利用者に設定させるステップ260を含む。この実施の形態では、この処理において、前述した特性の組の各々の構成及びその個数Q、リサンプリング回数を決めるIMAX、学習データセットのサンプリング回数を決めるJMAX、データサブセットの数の範囲を決めるKMAX、及びBOOSTING数の範囲を決めるMMAXが設定される。この設定は、通常のユーザインタフェースを使用して行なわれる。予めこうした設定を構成ファイルに記述しておき、プログラム開始時に読込むようにしてもよい。
【0087】
以下のステップ262から266は、繰返し実行される。しかも上記したように、この繰返しは5個の変数に対し、順に入れ子となるように実行される。繰返しが複雑になるため、詳細については図6に示し、図5は、理解を容易にするために全ての条件が固定された場合について示してある。
【0088】
すなわち、このプログラムはさらに、図1に示す学習データ70をリサンプリングしてリサンプル学習データセットを作成するステップ262と、ADTreeによる予測モデル110を作成するステップ264と、ステップ264で作成された予測モデル110を用い、学習データ70の全てに対してスコアを算出し、実際の症例データとの比較結果を統計的に処理することによりその精度を確認して保存するステップ266とを含む。
【0089】
このステップ262から266について、上記した全ての繰返しが完了すると、ステップ260で入力された設定により定まる数の予測モデル110が得られる。ステップ266に続くステップ268では、これら予測モデル110のうち、学習データとの比較で最も高い精度が得られた予測モデルを予測モデル138(図1)として選択し、外部記憶装置に保存して処理を終了する。
【0090】
図6を参照して、図5に示すプログラムの詳細は以下のとおりである。すなわち、このプログラムは、既に説明したステップ260と、ステップ260に続き、ステップ260で入力された設定のうち、特性の組として指定された複数個の特性の組F=F,…,Fの各々に対して以下のステップ282を繰返すステップ280を含む。繰返し回数はQ回である。
【0091】
ステップ282は、学習データ70からリサンプル学習データセット92,…,94をリサンプリングする際の乱数の種となる変数I(1≦I≦IMAX)の値を1ずつ変化させながら以下の処理283を繰返す。繰返し回数はIMAXである。
【0092】
処理283は、変数Iの値を乱数の種として、学習データ70をリサンプリングし、リサンプリングデータセットを作成するステップ262と、ステップ262でリサンプリングされたデータセットから、変数J(1≦J≦JMAX)の値を1ずつ変化させながら、次のステップ286を実行するステップ284とを含む。繰返し回数はJMAXである。
【0093】
ステップ286は、バギング数K(1≦K≦KMAX)を1ずつ変化させながら、以下の処理287を繰返すステップ286を含む。
【0094】
処理287は、変数Jを乱数の種として用い、ステップ262で作成されたリサンプリングデータセットから、K個のデータサブセット100,…,104(図1を参照)を作成するステップ288と、ステップ288で作成されたK個のデータサブセット100,…,104を用い、Boosting数M(1≦M≦MMAX)の値を1ずつ変化させながら、以下の処理を繰返すステップ290とを含む。
【0095】
ステップ290で繰返される処理は、1つのBoosting数Mに対して、特性の組F、Boosting数M、バギング数(予測モデル110内のADTreeの数)Kを用い、予測モデル110を構築するステップ264と、ステップ264で構築された予測モデル110について、学習データ70に含まれる全症例データを適用してそのスコアを算出し、実際の結果と比較してその予測モデル110の予測精度を算出するステップ266とを含む。
【0096】
以上のように説明したステップ280以降の繰返し処理が終了すると、これらの処理で構築されたQ×IMAX×JMAX×KMAX×MMAXだけの個数の予測モデル110とそれらの予測精度とが得られる。
【0097】
このプログラムはさらに、これら予測モデル110のうち、予測精度が最も高いものを予測モデル138(図1を参照)として選択し、記憶装置134に出力して処理を終了するステップ268を含む。
【0098】
図7は、図6のステップ266で実行される予測精度算出処理のためのプログラムルーチンの制御構造の詳細を示すフローチャートである。図7を参照して、このルーチンは、学習データ70に格納された全症例データに対し、以下に説明するステップ304−ステップ318を繰返すことにより、全症例データについてスコアを算出しこのときの症例データを識別する情報とともに保存するステップ302と、ステップ302により得られた結果を、学習データ70内の実際の症例データと比較した結果に基づいて、予測モデル110による予測の精度を算出するステップ330と、ステップ330で算出された精度を、予測モデルの識別子とともに記憶装置134に保存して主ルーチンに復帰するステップ332とを含む。
【0099】
予測の精度の算出方法としては種々考えられる。たとえば後述の実施例1では各モデルごとに実際の症例データとスコアとを比較してROC曲線を描き、ROC曲線の下側の面積AUCが大きいほど予測精度が高いと判定する。
【0100】
ステップ302で繰返し行なわれる処理は、繰返し条件により定まる特性の組Fにより定められる特性の組を処理対象の症例データから抽出するステップ304と、ステップ304で抽出された特性の組のうち欠損データがあるときに、それらを予め準備した値で補充するステップ306とを含む。補充する値として、本実施の形態では、全症例データのうちで、この特性の有効な値の平均値を用いるものとする。
【0101】
ステップ302で行なわれる処理はさらに、予測モデル110内のADTreeのスコアの合計値を示す変数Sを0に初期化するステップ308と、変数Lを1からバギング数Kまで1ずつ変化させながら以下のステップ312及びステップ314の処理を繰返すことにより、予測モデル110のADTreeのスコアの合計を計算するステップ310と、ステップ310により予測モデル110に対して算出されたスコアSの平均SCOREを算出するステップ316と、SCOREと、このときの繰返し条件とを組にして記憶してこのルーチンを抜け、つぎの症例データの処理に制御を移すステップ318とを含む。
【0102】
ステップ310において予測モデル110の各ADTreeに対して実行される処理は、予測モデル110のうち、L番目のADTreeについて、ステップ304及び306により得られた特性の組を与えてそのスコアSを算出するステップ312と、スコアの合計値の変数Sにステップ312で得られたスコアSを加算するステップ314とを含む。
【0103】
<予測処理54の構成>
再び図1を参照して、予測処理54は、学習処理52により選択された予測モデル138を記憶する記憶装置(図示せず)と、予測対象の患者の臨床データ150と予測要求とをネットワーク又は端末から受け、学習処理52において予測モデル138が生成されたときの特性の組に対応する特性を抽出する特性抽出処理152と、特性抽出処理152により抽出された特性データの中に欠損値があれば、その欠損値を学習データ70から算出されたその特性の平均値で置換することで補充するための欠損データ補充処理160とを含む。このため、学習データ70から得られた各特性の平均値を記憶装置162に予め記憶しておく。
【0104】
予測処理54はさらに、特性抽出処理152により抽出され、欠損データが補充された特性の組を、予測モデル138に含まれるADTreeの各々に与えてそれぞれスコアを出力させるモデル適用処理156と、これに応答して予測モデル138の各ADTreeが出力するスコアを受け、その平均値を算出する平均値算出処理158とを含む。平均値算出処理158は、学習処理52の平均値計算処理132と同様の機能を持つ。ただし、平均値計算処理132は予測モデル110内のADTreeの数(変化する)に応じて平均の計算方法を変化させるのに対し、平均値算出処理158は予測モデル138のADTree(個数は固定)の出力の平均を算出する機能さえ持てばよい。ADTreeの個数はすなわちバギング数である。予測モデル138のバギング数をLMAXとする。
【0105】
予測処理54はさらに、平均値算出処理158から出力された平均スコアに基づいて、対象患者にAxLN転移が生じているか否かを診断し、予測依頼を送信してきた端末に診断結果を返信するための出力装置154を含む。
【0106】
図8に、予測処理54をコンピュータハードウェアとの協働により実現するコンピュータプログラムの制御構造をフローチャート形式で示す。図8を参照して、このプログラムは、ネットワーク上の端末から予測対象の患者のデータとともに予測依頼を受けたことに応答して処理を開始する。このプログラムは、予測モデル138が必要とする特性の組の値を予測依頼のメッセージから抽出するステップ440と、ステップ440で抽出された特性の組の値の中に欠損しているものがあれば、その値として記憶装置162に記憶された平均値を代入するステップ442と、予測モデル138に含まれるADTreeのスコアの合計を示す変数Sを0で初期化するステップ442と、この特性の値に対応する、予測モデル138のスコアSを算出するステップ446と、ステップ446で算出されたスコアSの平均を計算することにより、与えられた症例データに対する最終的なスコアSCOREを算出するステップ452と、このスコアSCOREの値の範囲に応じて処理を分岐させるステップ454とを含む。
【0107】
ステップ454の判定では、SCORE<第1のしきい値(例えば30)の時には高確率で転移なし(ステップ456)、第1のしきい値≦SCORE≦第2のしきい値(第1のしきい値より大なる値であり、例えば70)のときには予測不能(ステップ458)、第2のしきい値<SCOREの時には高確率で転移ありとする(ステップ460)。もちろん、このときの判定のしきい値は、設計により変化させることができる。この例では3つの場合に分けて判定しているが、2値的な判定をすることも可能である。
【0108】
このプログラムはさらに、ステップ456,458,460のいずれかの判定結果を開いて端末に返信して処理を終了するステップ462を含む。
【0109】
ステップ446の処理では、変数Lを1から予測モデル138内のADTreeの数を示す値LMAXまで1ずつ変化させながら、以下の処理が繰返される。すなわち、患者データから得られた特性の組を、L番目のADTREEに与えてそのスコアSを算出し(ステップ448)、そのスコアSを変数Sに加算する(ステップ450)。
【0110】
ステップ452では、スコアの合計Sをバギング数LMAXで除算することにより、SCOREが算出される。
【0111】
[動作]
上記実施の形態に係る診断装置50は以下のように動作する。診断装置50の動作は、大きく分けて3つのフェーズに分割される。第1のフェーズは特性選択処理56による、特性の順位付けの処理である。第2のフェーズは、学習処理52による予測モデル138の生成である。第3の処理は、学習処理52により得られた予測モデル138を用いた予測処理54を起動し、外部からの予測依頼を待って、予測依頼があるたびにその患者にAxLN転移が起こっている可能性があるかどうかを診断し、送信する処理である。
【0112】
最初に特性選択処理56による特性の選択処理について説明する。この処理では、学習データ70を用い、予め定められた種類の特性を全て用いてSVMの学習を行ない、その結果得られたSVMの学習データ70に対する予測精度がどの程度かを測定する(図2のステップ220−226)。次に、全体の特性の中から任意の1つをのぞき、SVMの学習を行なう(ステップ230)。得られたSVMによる学習データ70の予測精度を算出し、記憶する(232)。次に、全体の特性データから、別の特性データを抜いたもので同様にSVMの学習をし、その精度を確認し記憶する(ステップ230、232)。この処理を、全ての特性から1つだけ順番に取り除きながら繰返す。全ての特性についてこの処理が終了した時点で、その特性を抜いてSVMを学習したときの精度低下が最も大きかった特性が判明する。その特性の番号を配列に記憶する(ステップ234)。
【0113】
以上の処理で、SVMの精度に最も影響を与える特性が判明する。
【0114】
次に、上記した処理で選ばれた特性を抜いた残りの特性についても、同様にしてSVMの精度に最も影響を与える特性を判定し、その特性の番号を配列に記憶する。こうして、順番に、SVMの精度に影響を与える特性の番号が記憶されてゆく。最後の2つの特性について、一方が他方よりもSVMの精度に影響を与えることが分かった時点で、全ての特性について、精度に対する重要度が分かる。これらを予め記憶しておく。これら特性の先頭からいくつかの特性を選ぶことにより、複数の特性の組Fを作成する。たとえば先頭から5個までを組F、10個までを組F、15個までを組F、20個までを組F、25個までを組F、30個までを組F、及び35個までを組Fという7種類の特性グループとしてそれぞれまとめる。
【0115】
このようにして特性の順位付けが終わると、学習処理52による予測モデル138の生成が可能になる。
【0116】
図1及び図6を参照して、リサンプル処理90の開始に先立って、学習の条件を設定する(ステップ260)。ここでは、特性の組として先頭からどの組までを学習で使用するかに関する指定(Q)、リサンプル学習データセット92,…,94の数に関する指定(IMAX)、バギング時のバギング数に関する指定(KMAX)、同一バギング数で何回モデル作成を繰返すかに関する指定(JMAX)、及びADTreeのBoosting数に関する指定(MMAX)が行なわれる。
【0117】
次に、学習データ70を準備し、特性の組をFからFまで変えながら、かつ変数Iの値を1からIMAXまで1ずつ変化させながら、以下の処理(図6の処理283)を繰返す(図6のステップ282)。
【0118】
この繰返し処理では、学習データ70から変数Iの値を乱数の種とするリサンプルによりI個のリサンプル学習データセット92,…,94を作成する。ここでは、学習データ70の偏りを考慮して、AxLN転移が生じていた症例データとAxLN転移が生じていなかった症例データとが同数だけサンプリングされるように、サンプルの抽出比率を調整する。
【0119】
次に、変数Jの値を1からJMAXまで変化させながら(図6のステップ254)、かつバギング数Kの値を1からKMAXまで1ずつ変化させながら(図6のステップ286)、次のデータサブセットのサンプリング処理95(図6の処理287)を繰返す。
【0120】
データサブセットのサンプリング処理95では、リサンプル学習データセット92,…,94の各々に対して変数Jの値を乱数を種とするサンプリングを行ない、1つのJの値につきバギング数Kに応じた個数のデータサブセット100,…,104を作成する。
【0121】
モデル学習処理97(図6のステップ290)は、Boosting数Mを1からMMAXまで1ずつ変化させながら以下を実行する。すなわち、作成されたデータサブセット100,…,104をそれぞれ学習データとして、ADTreeの最大深さをBoosting数Mとして、予測モデル110に含まれるADTreeの学習を行なう(図5及び図6のステップ264)。学習が行なわれた予測モデル110は、モデル選択処理74による精度計算に供される(ステップ266)。この繰返しにより、全ての予測モデル110に対して精度が計算される。
【0122】
モデル選択処理74(ステップ264)では、全ての症例データについて以下の処理が実行される。その症例データから特性データの組Fを抽出する。抽出された特性の中に、欠損データがあれば、その特性の平均値として予め計算されていた値を補充する。欠損データを補充した後の特性の組を予測モデル110に与える。症例データに対して予測モデル110中の複数のADTreeが出力するスコアは平均値計算処理132において平均され、その症例データのスコアが算出される。このスコアが保存され、実際の症例データと比較される。比較結果を統計的に処理し、ROC曲線より下の面積(AUC値)を算出する(ステップ330)。この予測精度は、このときの予測モデルの識別子とともに記憶装置に記憶される(ステップ332)。
【0123】
以下同様にして、Boosting数M、バギング数K,変数J及びI,ならびに変数の組Fを指定された範囲で順番に変化させながら、全ての組合せについて、構築された予測モデル110の予測制度を算出して記憶する。この結果、予測モデルはQ×IMAX×JMAX×KMAX×MMAXだけ作成され、それと同数の予測精度が記憶装置に記憶されていることになる。
【0124】
たとえばQ=7(特性の組が7個)、IMAX=10(リサンプル学習データセット92,…,94の数が10)、JMAX=5(特定のバギング数に対するモデル作成の繰返し数が5)、バギング数の数KMAX=10、Boosting数の数MMAX=10とすると、得られる予測モデル110の数は全部で7×10×5×10×10=35,000個である。これら予測モデル110の中で、学習データに対する予測精度が最も高い予測モデルを予測モデル138として選択する(ステップ268)。この予測モデル138が予測処理54に格納され、対象患者データについての予測請求を受けたときの予測に用いられる。予測モデル138が得られたときの条件のうち、使用された特性の組F及びバギング数Mが同時に予測処理54に与えられ記憶される。
【0125】
−予測時−
図1及び図8を参照して、予測処理54は以下のように実行される。対象患者の臨床データ150及び予測要求をオンラインで、又は端末から受信すると、特性抽出処理152は、臨床データ150から、予測モデル138が得られたときの特性の組Fにしたがって特性を抽出する(ステップ440)。記憶装置162には、特性の組Fに含まれる各特性について、学習データ70中の有効データから算出した平均値が記憶されている。欠損データ補充処理160は、特性抽出処理152が臨床データ150から抽出した特性データの中に欠損データがあるときには、そのデータの平均値をその箇所に補充する(ステップ442)。こうして欠損データが補充された特性はモデル適用処理156に与えられる。モデル適用処理156は、これら特性を予測モデル138内の各ADTreeに適用することで、各ADTreeについてスコアを算出し出力する(ステップ440)。これらADTreeの出力は平均値算出処理158に与えられる。平均値算出処理158は、予測モデル138のADTreeの出力するスコアの合計を計算し、さらに予測モデル138が得られたときのバギング数LMAXで除算することにより、予測のためのスコアを算出する(ステップ452)。そのスコアの値により、高確率で転移あり、予測不能、高確率で転移なし、という診断がされ(ステップ454−460)、予測要求を送信してきた端末に返信される(ステップ462)。
【0126】
本実施の形態に係る診断装置50によれば、予測処理54の予測のためのモデルとしてADTreeが用いられる。ADTreeによる予測モデルによれば、通常の決定木とは異なり、特性に欠損値が存在していても予測が不可能となることはなく、ある程度の信頼性を持ってスコアを算出できる。そのため、対象患者に対するAxLN転移の発生の可能性を判断するための1つの重要な診断情報を得ることができる。予測モデル138としてADTreeを複数個有するものが選択された場合には、さらに複数個のADTreeの出力が平均されるので、データ欠損による影響が少なくなり、予測の信頼性がより高くなる。特に特定の病気の臨床データについては、過去の症例までさかのぼって欠損のない学習データを準備することはほとんど不可能であり、欠損データの発生は避けがたい。本実施の形態のように欠損データに対しても安定して信頼性の高い予測結果が利用可能となることにより、医師は、治療方針を決定する際に、より確信を持って適切な処置を選択することが可能となる。なお、後掲の実施例1の記載から分かるように、欠損データにどのような平均値以外の値を補充した場合であっても、得られる予測モデルの精度は安定している。
【0127】
学習時には、バギング数、リサンプルにより作成する学習データセットの数、ADTreeのBoosting数、予測の際に利用される特性の組、同じバギング数で繰返し生成するモデルの数などを変化させて予測モデル110の構築をさせ、学習データで各モデルの予測精度を検証し、実際の予測には、最も高い予測精度を示したモデルを用いる。そのため、数多くの要因を考慮し、特性間の隠れた関係まで考慮した診断が可能となっている可能性が高い。症例データの偏りを補償するために、リサンプル時にはデータの偏りを制御している。その結果、症例数の偏りが異なる可能性もある独立した別のデータであっても、比較的安定した高い精度でAxLN転移の発生を予測できる。
【0128】
なお、上記した実施の形態は、理解を容易とするために乳がん患者におけるAxLN転移の発生を予測する場合を例として説明した。後掲の実施例1はその具体例である。しかし本発明はそのような実施の形態に限定されることはない。たとえば乳がん以外の病気の患者に対する診断に適用することもできる。さらに、症例データと同様のデータが学習データとして準備できれば、それらに対しても適用できる。しかも少ない症例データでも比較的信頼性の高い結果を得ることができる。
【0129】
上記した実施の形態では、予測モデル中の複数個のADTreeによる出力する数値の平均値を算出し、その数値に基づいてAxLN転移の有無を予測している。しかし本発明はそのような実施の形態には限定されない。もともとADTreeでは、各ツリーの出力値がプラスかマイナスかにより、サンプルがあるカテゴリに属するか否かを判定するためのものである。したがって上記実施の形態において、予測モデル中の各ADTreeの出力する数値の符号がプラスかマイナスかを調べ、多数決によりAxLN転移の有無の予測を行なってもよい。また、各ADTreeの出力する数値はそのまま合計し、合計の符号がプラスかマイナスかによって予測を行なうようにしてもよい。こうした場合には、学習時にも同様の判定を行なうようにする必要があるのはいうまでもない。
【0130】
なお、ADTreeの数は予め分かっているから、平均値としきい値との比較は、論理的には合計値としきい値との比較と同等である。しきい値にADTreeの数を乗ずるか否かが異なるだけである。
【0131】
さらに、上記した実施の形態は、使用するデータ及び特性などを別のものに置換えると、そのまま別のケースに適用できる。たとえば、特定の薬がある患者には非常に有効であるが、ほかの患者にはそれほど有効ではなく、しかも副作用の可能性もある、というような場合がある。従来、投薬するか否かは医師が経験により判断していた。しかし、実際にその薬を投与した患者に関する症例データを集めることができれば、新たな患者に対してその薬を投与すべきか否かの判断に本実施の形態と同様の装置を適用できる。実際の症例データに対して本実施の形態を適用したのが後掲の実施例2である。
【0132】
特性の組を構成する特性は、いずれも非侵襲性であると、患者に与える負担が少なくて好ましい。しかし、仮に侵襲性の検査結果が利用可能であれば、それを利用することもできる。ADTreeでは、欠損データがあっても比較的精度高い予測を行なうことができるという特徴がある。したがって、侵襲性の検査結果が特性の組に入っている場合、診断対象の患者についてその検査結果が得られていなくても比較的正確な結果が得られることが期待できる。
【0133】
[コンピュータによる実現]
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図9はこのコンピュータシステム550の外観を示し、図10はコンピュータシステム550の内部構成を示す。
【0134】
図9を参照して、このコンピュータシステム550は、メモリポート572及びDVD(Digital Versatile Disc)ドライブ570を有するコンピュータ560と、キーボード566と、マウス568と、モニタ562とを含む。
【0135】
図10を参照して、コンピュータ560は、メモリポート572及びDVDドライブ570に加えて、CPU(中央演算処理装置)576と、CPU576、メモリポート572及びDVDドライブ570に接続されたバス586と、コンピュータ560のブートアッププログラムなどを記憶する読出専用メモリ(ROM)578と、バス586に接続され、アプリケーションプログラム、システムプログラム、及び作業データなどを記憶するランダムアクセスメモリ(RAM)580と、不揮発性の記憶装置であるハードディスクドライブ(HDD)574とを含む。
【0136】
コンピュータ560はさらに、ローカルエリアネットワーク(LAN)552への接続を提供するネットワークI/F596を含む。LAN552は図示しないルータなどを介してインターネット接続されている。HDD574にはWEBサーバプログラムが格納されており、コンピュータ560の起動時に実行を開始する。このWEBサーバプログラムは、予め所定のプログラム名を指定して診断要求がインターネットから受信されると、受信したパラメータを引数としてそのプログラムを起動し、プログラムの出力(HMTLファイル)を相手端末のWEBブラウザに返信する機能を持つ。この機能は通常のWEBサーバが持つよく知られた機能である。
【0137】
コンピュータシステム550にリンパ節転移診断装置としての動作を行なわせるためのコンピュータプログラムは、DVDドライブ570に挿入されるDVD582、又はメモリポート572に装着されるフラッシュメモリ584に記憶され、DVDドライブ570又はメモリポート572を介してHDD574に転送される。又は、プログラムはLAN552上のコンピュータからLAN552を通じてコンピュータ560に送信されHDD574に記憶されてもよい。プログラムは実行の際にRAM580にロードされる。
【0138】
このプログラムは、コンピュータ560にこの実施の形態に係るリンパ節転移診断装置としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ560上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、又はコンピュータ560にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記したリンパ節転移診断装置としての動作を実行する命令のみを含んでいればよい。コンピュータシステム550の動作は周知であるので、ここでは繰返さない。
【実施例1】
【0139】
以下の条件で上記した診断装置50を作成し、実際の症例データを使用してその性能について評価した。適用する症例は原発性の乳がん患者におけるAxLN転移の有無の判定である。
【0140】
(使用するパラメータ)
使用する特性の具体的な項目は後述することとし、この実施例では、特性の組として、上位5個、10個、15個、20個、25個、30個、及び35個の7組を選び、ステップ280(図6を参照)での繰返しに用いる。すなわちQ=7である。バギング数、Boosting数、リサンプリング時の乱数の種はそれぞれ1〜10の範囲で1ずつ変化させる。すなわちMMAX=KMAX=10、IMAX=10である。Bagging時の乱数の種は1−5までの5種類とした。すなわちJMAX=5である。
【0141】
(学習データ及び学習方法)
─患者─
本実施例では、2005年から2006年にかけて東京都立がん・感染症センター駒込病院で治療を受けた原発性乳がん患者の症例272件のうちの168件を学習データ70として用いた。この中には、組織学的に原発性侵襲性乳がんと診断された患者であって、SLN生検を受けて、以前に治療経験のなかった患者(及びneoadjuvant療法を受ける前にSLN生検を受けた患者も含む。)、又は、組織学的に原発性侵襲性乳がんと診断された患者であって、ALNDを受け、それ以前に何ら治療を受けなかった患者とが含まれる。
【0142】
検証に用いたデータは、2008年1月から2008年8月の間に京都大学医学部付属病院で治療を受けた原発性乳がん患者86人のうちの56人のデータからなる。検証に用いた患者の選択基準は、学習に用いた患者の選択基準と同じである。
【0143】
(SLN生検及び組織学的評価)
SLNを特定するために用いた方法は公知のものである。学習データの患者については、テクネシウム−リン酸化合物からなる放射性トレーサを用いてSLNを特定した。検証用データの患者については、インドシアニン・グリーン(ICG)を用いた染色・蛍光ナビゲーション技術を用いてSLNを特定した。
【0144】
学習データの患者については、ステップ−セクション法により病理組織切片を作成し、ヘマトキシリン/エオジン(H/E)染色し、CAM5.2免疫組織化学染色を行なってSLNを評価した。検証データの患者については、2ミリメートル間隔でSLNをスライスし切片を作成し、H/E染色して評価した。
【0145】
ALND(腋窩リンパ節郭清)に続いて得られたリンパ節については、各ノードから割面が最大となる1つのH/E染色後の切片を用いて評価した。
【0146】
転移があるか否かは、直径が少なくとも0.2ミリメートルのがん細胞群が少なくとも1つのリンパ節に存在しているか否かによって定めた。孤立した腫瘍細胞(直径2ミリメートル未満)が存在していたとしても、本実施例ではリンパ節への転移はないものとして扱った。
【0147】
(変量及び前処理)
各患者について収集された臨床データは、年齢、身長、体重、閉経状態、身体所見(視診又は触診による所見)、画像所見(マンモグラフィ及び超音波診断による所見)、治療前の針生検病理組織学的所見(組織型、核グレード、エストロゲン受容体[ER]、プロゲステロン受容体[PgR]、ヒト上皮成長因子受容体2[HER2]、腋窩外科処置の方法(SLN生検又はALND)、及び手術後の病理組織学的所見(リンパ節転移)を含む。テーブル1に、収集したデータの詳細を示す。
【0148】
身体所見は日本乳癌学会により認定された認定医又は専門医により得た。画像所見は適切な認定機関(マンモグラフィ検診精度管理中央委員会、日本乳腺甲状腺超音波診断会議)により認定された乳癌を専門とする医師又は日本乳癌学会専門医の少なくとも2人により得た。病理学的所見は乳腺を専門とする病理学専門医により得た。
【0149】
統計的分析では、量的変数はそのまま直接用い、定性的変数については等級付けして用いた。等級付けの基準は乳腺外科、放射線診断科、及び病理学の分野の専門医からなる委員会により定めた。他の変数に依存するカテゴリ変数、例えばTNMステージ又はマンモグラフィカテゴリなどはこの分析からは除外された。関係する変数のうち、いずれが関連しているかを明確にするためである。全ての患者について同じ値であった変数も除外した。各変数は線形正規化により0から1までの値に変換した。
【0150】
(データ分析)
学習時、リサンプリングフェーズにおいて、偏りを制御したリサンプリングによって、学習データセットの多数の複製サブセットを、リサンプリングされた各データセット中でリンパ節転移陰性の疾患患者数とリンパ節転移陽性の疾患患者数との比率がほぼ等しくなるように生成した。これらリサンプリングデータセットの数は10個である。
【0151】
次に、これらリサンプリングデータセットの各々を用いて予測モデルを構築した。テストフェーズでは、学習データセット全体の症例データを用いてAxLN転移の有無を各モデルで予測し、ROC曲線の下側面積AUCが最も大きくなったモデルが選択された。検証フェーズにおいて、選択されたモデルを検証データセットに適用した。
【0152】
この実施の形態では、リサンプル学習データセット92,…,94の数は10(IMAX=10)である。SVMを用いた特性の順位付けを行なった上、それぞれ上位5個、10個、…35個の変数からなる7個の特性の組を重要な変数のサブセットとして選択した(Q=7)。Boosting数Mは1、2、…10であった(MMAX=10)。バギング数は1,2,…,10とし(KMAX=10)、その各々について乱数の種の値を1、2、…5(JMAX=5)と異ならせたサンプリングにより学習データのサブセットを作成した。したがって、35,000個の予測器が開発された。
【0153】
モデルの汎化能力を評価するために、10分割相互検証(10−fold cross validation:CV)を行なった。
【0154】
まず、重要度の認識されていない変数が予測結果に及ぼす影響を評価するために、いくつかの既知の予測因子を除く、利用可能な全ての変数を用いて、ADTreeを開発し、作成されたモデルの予測値を評価した。したがって、重要度が認識されていない変数も予測器に組入れられている。その後、変数減少法による変数選択を行なって、予め外しておいた既知の予測因子と予測器の結果から独立した共変量を決定し、SNL転移を予測するLogisticモデルを開発した。
【0155】
最良のモデルを用いた検証分析ののち、さらに検証データセットのリサンプリングを行ない、多数のリサンプルされた検証サブセットを生成した。その後、各データセットについてモデルの予測値を評価した(ブートストラップ分析)。さらに、欠損値に対する予測器の堅牢性を評価するため、データセット中の欠損値をランダムに埋めた。
【0156】
リサンプリング、SVM−FS、バギング及びADTreeの開発にはWeka(ver.3.6.1;University of Waikato,Hamilton, NZ)を用い、多変数解析にはJMP(登録商標)(ver.7.0.1,SAS Institute Japan,Tokyo,Japan)を用いた。
3.結果
学習及び検証データの臨床病理学的特性を表1にまとめた。学習データセットでは49名の患者にリンパ節転移があり(29.2%)、検証データセットでは15名(26.8%)であった(統計的有意差ではない)。いくつかの変数の分布に関して、2つのデータセットに有意の差があった。
(テーブル1の1)
【0157】
【表1】

(テーブル1の2)
【0158】
【表2】

(テーブル1の3)
【0159】
【表3】

(テーブル1の4)
【0160】
【表4】

モデル開発の繰返しの間に、テストで予測器が最も良いAUC値を示したのは、SVM−FSに20の変数を選択し、バギング数が7であり、ADTreeのBoosting数が10の時であった。AxLN転移の予測された確率及び選択された予測器を用いて生成したROC曲線をプロットしたものを図11に示す。AUC値は、リサンプリングされた学習データセットについてはROC曲線420で示されるように0.96(95%CI(信頼区間):0.93−0.98、p<0.0001)、テストについてはROC曲線424で示されるように0.89(95%CI:0.84−0.94、p<0.0001)、検証データセットについては曲線426で示されるように0.86(95%CI:0.76−0.95、p<0.0001)であった。図11には、全学習データセットを使用したCVについてのROC曲線422も参考のために示してある。
【0161】
図12−図18は選択された予測器のADTreeを示す。これらツリーは14個の変数からなる:4個の超音波所見(腫瘤の縦横比、ハロー、前方乳腺境界線断裂、及びリンパ節最大サイズ)、4個のマンモグラフィ所見(腫瘤の存在、石灰化の形状、背景濃度、及び分布)、4個の視触診所見(乳頭牽引、乳頭分泌、皮膚の陥凹所見、及びリンパ節の触知可能性)、2個の病理組織学的所見(核グレード、組織型)である。
【0162】
予測器の予測結果と既知の予測因子を用いた多変量解析には、以下の因子を用いた。すなわち、年齢、閉経、腫瘤のサイズ(超音波による)、腫瘤の数(超音波及びマンモグラフィによる)、ERレベル、及びPgRレベルである。肥満度指数(Body mass index:BMI)も変数に加えた。特性選択により、以下の特性の組が選ばれた。すなわち、予測器の予測結果(オッズ比12190.9,95%CI:912.7−285137.4、p<0.0001)、腫瘤の数(超音波による)(オッズ比1.398、95%CI:0.7827−2.470、p<0.2483)、及び腫瘤のサイズ(超音波による)(オッズ比6・694、95%CI:1.003−55.72、p<0.0613)。これら3個の変数によるLogistic回帰モデルによって生成されたAUC値はそれぞれ、テストについて(全学習データセットを使用)0.89(95%CI:0.84−0.94、p<0.0001)、全学習データセットを使用したCVについて0.88(95%CI:0.82−0.93、p<0.0001)、検証テストについて0.85(95%CI:0.75−0.95、p<0.0001)であった。CV及び検証テストの結果は予測器の予測結果のみに比べわずかに劣った。
【0163】
比較的偏りのない推定を得るために、ブートストラップ法を用いて学習及び検証データセットを1000回繰返して得た。ブートストラップされたデータセットの平均AUC値は,学習データセット及び検証データセットのそれぞれについて、0.90±0.026(標準偏差[SD])及び0.85±0.053であった。欠損値に対する予測器の堅牢性を評価するため、欠損値をランダムな値に置換えて学習データセット及び検証データセットの繰返しを1000個生成した。生成されたデータセットの平均AUC値は、学習データセット及び検証データセットのそれぞれについて、0.86±0.011及び0.83±0.02であった。
【0164】
この実施例で用いた、偏りを制御したリサンプリング、特性選択及びバギング技術の寄与を評価するため、各手順ありとなしとの場合に分けて比較試験を行なった(表2)。リサンプリング手順なしの場合、CV及び検証テストでのAUC値はそれぞれ0.86から0.69、0.86から0.75と大幅に劣化した。特性選択の特徴をなしにした場合も結果は同様であり、CV及び検証のAUC値はそれぞれ0.82と0.55とに下がった。バギング技術なしの場合、検証テストのAUC値はわずかに影響を受けたのみで(0.87)、CVでは値は0.86から0.83へ、テストでは0.89から0.85へとわずかに減少した。
(テーブル2)
【0165】
【表5】

4.議論
これまでに報告されているノモグラム及びスコアリングシステムでは、独立した予測因子として、腫瘍サイズ、年齢、リンパ管侵襲(lymphovascular invasion:LVI)、組織型、多病巣性、ER及びPgRを含む変数が用いられている。AxLN転移予測のために開発されたメモリアルスローン−ケッタリング癌センター(Memorial Sloan−Kettering Cancer Center:MSKCC)ノモグラムは9個の変数を含む:年齢、腫瘍サイズ、腫瘍の種類、LVI、多病巣性、核グレード、腫瘍の局在、ER及びPgRである。本件の予測モデル(図12−図18)の14個の変数のうち、12個は画像検査又は視触診で入手できる。視触診での皮膚の陥凹所見、ハロー及び前方乳腺境界線断裂は全て、周囲組織への腫瘍の浸潤の指標として知られている。これらの変数は多くのツリーのルートノードに直接リンクしており、スコアを増大させる。すなわち、これらのスコアは多くの場合加算され、所見の存在により、指標は転移を示す結果へ傾く。腫瘍の浸潤の具体的な所見とAxLN転移との間に相関関係があるという証拠は少ないが、デロレンティス(De Laurentiis)らは、マンモグラムにおいてスピキュラを伴う腫瘍境界はAxLN転移と相関があると結論付けている。触診によるリンパ節触知可能性と超音波画像によるAxLNの最大サイズは本件のモデルではともに何回か選択されている。これらの変数は互いに相関があり、AxLNの腫脹は経験的に転移の兆候であると考えられる。触診から判断される臨床的なリンパ節の状態もまた、オリボット(Olivotto)らによりAxLN転移の予測因子であると報告されている。
【0166】
視触診で特定された乳頭分泌と、マンモグラムで石灰化から乳頭までの距離が短いこととは、それぞれ、乳管内腫瘍の存在と、乳管内腫瘍の乳頭への広がりを示唆する。本件のモデルでは、もしこれら変数のスコアを合計すると、総スコアが減少する。これらの変数は以前にはAxLN転移に関連があるという報告はなされていない。視触診で特定された乳頭牽引は、皮膚の陥凹所見がある場合のみ計算され、これはスコアを減少させる。これら2つの変数をこのように扱うのは、乳頭牽引と皮膚の陥没所見とが本質的に同じ現象に基づくものであり、これらは通常同時には存在しないからである。
【0167】
いくつかの変数は、スコア増加要因となる場合も、減少要因となる場合もあることが分かった。超音波での腫瘤の縦横比が大きいことはBI−RADS(登録商標)レキシコンにおける「非平行配向」と同義であり、悪性(腫瘍)の兆候であると考えられる。しかし、これが本件モデルにおいてスコアを増加させるか減少させるかは関連の変数に依存する。本件モデルは、マンモグラムによる石灰化の所見を含む。石灰化とAxLN転移との関係は不明であるが、石灰化もまた、関連の変数に依存して、スコアを増加又は減少させるように作用する。本件モデルでは、マンモグラムで腫瘤が存在すると、そのスコアを合計したときにスコアが減少する。これに対し、腫瘍の触知可能性は、リンパ節転移を予測するものであるという報告がある。しかし、これら2つの所見は直接比較可能なものではない。なぜならマンモグラフでの腫瘤の検出可能性は腫瘍のサイズのみならず背景乳腺濃度にも影響を受けるからである。
【0168】
2つの病理学的変数、組織型と核グレードとは、本件のツリーの第2層と第3層とに位置する。核グレードのスコアは超音波での評価で腫瘤が小さい場合に計算され、高グレードであるとツリーのスコアは減少する。この結果はバースら(Barth A, Craig PH, Silverstein MJ. Predictors of axillary lymph node metastases in patients with T1 breast carcinoma. Cancer. May 15 1997;79(10):1918-1922.)、及びケイウッドら(Caywood J, Gray RJ, Hentz J, Pockaj BA. Older age independently predicts a lower risk of sentinel lymph node metastasis in breast cancer. Ann Surg Oncol. Dec 2005;12(12):1061-1065.)の所見とは対立するが、本件での所見を、これら2件の先行する研究で行なわれた単純な一変量相関分析の結果と比較することはできない。なぜなら、本件では、変数は第1層より下に位置づけられ、そのスコアは全ての場合に加算されるわけではないからである。さらに、これら2つの変数は、このツリーでは各々1度選択されるだけなので、最終的な予測値に及ぼす影響は限られている。
【0169】
本件のモデルは、これまでは予測因子として報告されていなかった画像所見又は診察所見からいくつかの具体的な変数を含める点を特徴とする。いずれにせよ、AxLN転移の予測に対する本件変数の効果を解釈するためには、他の変数との関係を考慮する必要がある。
【0170】
どのような予測モデルにおいても、入力の利用可能性と精度とがモデルの予測可能性を決定する。MSKCCノモグラムにおける変数のうち、LVIは針生検標本から得ることは困難であり、ER及びPgRは免疫組織化学的手法を必要とする。これに対し、本件モデルで利用する変数は、視触診所見、マンモグラム、超音波、及び針生検の病理学的所見から容易に入手可能である。
【0171】
ここでは、学習データセットと検証データセットとの間でいくつかの変数の分布に差があった。そのような変数の1つが、ハローの存在の有無である。このような差が生じるのは、一部には、検証データセット(年齢中央値=60)が学習データセット(年齢中央値=55)に比べより背景乳腺が疎であると思われる、有意に年齢の高い患者(p=0.0326)から得られたものであることが原因と思われる。しかし、これらの差は実際には本件モデルの正確さと汎化能力とを支えるものである。なぜなら、変数の分布が異なっていても、独立したデータセットについて比較的安定した予測値を生成できるからである。
【0172】
使用したモデル化方法は、ブートストラップ及び欠損値置換分析において堅牢性が高く汎化能力も高いことが認められた。これは、しばしば欠損値の割合が高い臨床データセットを扱う場合には極めて重要である。さらに、新たな予測因子を見出すための分析を行なう場合には欠損値の問題に直面することがある。こうした問題の解決策の1つは、変数依存性をマニュアルで定義し、予測モデルを単純化することである。しかし、このような方策には、これまで予測因子として認められていなかった変数の予測に関する潜在的可能性を探るよりも、既知の予測因子を特定するのみになりがちである、という危険が伴う。このようなモデルの開発にあたっては、客観的基準に基づく変数のスクリーニングのための自動処理が重要である。
【0173】
本件の手順にはいくつかの限界があり、ここでそれに言及しておくべきであろう。検証テストの結果(図19)において、N+患者の全ての予測された転移可能性は38%を超えているが、N−患者のうち少数の者は予測された転移可能性が50%を超えていた。リサンプリングされたデータセット(図20)と全学習データセット(図21)とのプロットも、同様の分布を示した。したがって、リンパ節転移陽性の予測結果は、リンパ節転移陰性のものより信頼性が低い。学習データセット(n=168)及び検証データセット(n=56)に寄与した患者数が比較的少ないこともまた考慮すべきであろう。ここで開発したモデルは従来の統計的分析に比べより大きな変数空間を記述する潜在力があり、この結果、所与の問題について過学習を起こしやすい。したがって、厳格な検証が必要である。バギング手順によってモデルの汎化能力が改善されるが、これはまた、モデルに複雑にしツリーの解釈可能性を減じる。予測性能のみならず変数依存規則についてもこのモデルで評価するためには、単純なモデル構造と正確な予測性能を達成しなければならない。
【0174】
ここで開発したモデルは、視触診所見、画像所見及び病理学的所見といった侵襲度の低いリンパ節転移予測因子を成功裏に探索した。低侵襲の因子を用いて高度に予測可能なモデルは、不要な侵襲度の高い検査を減じる可能性があり、このため、患者の生活の質と、医療費の削減とに寄与するであろう。例えば、このモデルがAxLN転移のリスクは低いと予測した場合、合併症があり再発の危険が低いと想定される高齢の患者にはSLN生検は不要となるかもしれない。しかし、視触診所見及び画像診断による所見は、医療機関ごと、又は所見の判定者ごとの変動があり、このため、変数(又は画像所見の自動解釈)を的確に定義したガイドラインを用いて、大規模な他施設共同の検証研究を行なう必要があるであろう。最後に、本件で開発されたモデルは、その時点で入手可能な臨床データに基づいたものであって、より新しい臨床検査又は生体マーカ(例えば遺伝子マーカ)などが利用可能となった場合は、モデルを更新することも可能である。
【実施例2】
【0175】
術前化学療法の効果予測モデル
[背景]
原発性乳癌に対する術前化学療法は手術などの局所療法に先立って行なわれ、腫瘍径を小さくして乳房温存の可能性を高める、又は、抗癌剤などの薬剤に対する腫瘍の反応性を確認することなどを目的に行なわれる。術前化学療法により腫瘍が消失した場合(病理学的完全奏効:Pathological Complete Response、pCR)には、腫瘍が消失しなかった場合に比較して予後が良好であることが示されていることから、pCRによる予後の層別化が可能になる。しかし、術前化学療法は全例に有効というわけではなく、奏効率は60−80%、pCR率は4−30%程度である。治療開始前にpCRとなる可能性が高くはないと予測される場合には、治療内容(レジメン)の再検討及び治療開始後の経過観察を密にするなどの治療計画における工夫が求められると共に、術前化学療法そのものの適応を再検討する必要がある。術前化学療法の治療途中には、治療開始後早期の反応性(縮小の程度)により最終的にpCRとなる可能性が異なることが報告されており、non−pCR(非pCR)と予測される場合にはその後のレジメンを調整するか、又は手術療法を検討する必要がある。また、術前化学療法終了後には手術が行なわれるが、pCRと予測される場合には手術による切除範囲は最小限にとどめられる可能性がある。しかし、画像上の残存腫瘍の程度と実際の病理組織での残存腫瘍の程度には時に乖離がみられることから、手術切除範囲の適正化という面でも高い精度でのpCR予測性が求められる。このため、術前化学療法前の情報に加え、術前化学療法の途中又は終了時の情報にてpCRを予測することは臨床的に重要性が高い。また、こうした試みにより治療の個別化・適正化が推進され、さらには医療経済効果も期待できるものと考えられる。
【0176】
同様の研究として、RouzierらがLogistic回帰分析を用いたNomogramを用いて術前化学療法の奏効性を予測するモデルを公開している(前掲の非特許文献2、3)。pCRを予測するモデルはTカテゴリ、病理組織学的所見としての組織学的グレード、エストロゲン受容体、年齢、及び投与された化学療法のコース数を変数として取り込んでいる。学習データで学習時のAUC値は0.77と低い(非特許文献2)。乳房温存療法の適応可能の可能となる腫瘤径が3cm以下になる確率を予測するモデルでは、エストロゲン受容体、腫瘤径の初期値、組織学的グレードと組織型、及びレジメン中の投薬コースの回数を変数としている。このモデルでも、学習データで学習時のAUC値は0.71と低い。どちらも少数の変数しか考慮できず、予測精度が低い問題がある。
【0177】
[手法]
以下に説明する実施例の化学療法の効果予測は、がん・感染症センター都立駒込病院、国立病院機構大阪医療センター、国立病院機構九州がんセンターの3施設から収集した、術前化学療法が実施された173症例を学習データとした。対象は、術前化学療法としてアンスラサイクリン系抗癌剤とタキサン系抗癌剤による順次投与を施行された症例(FEC→ドセタキセル±カペシタビン)であり、主に特定非営利活動法人Organisation for Oncology and Translational Research(OOTR)により行なわれた臨床試験(OOTR−N003 trial;UMIN ID:C000000322)にエントリーされた症例を対象としている。予測する目的変数としては手術後病理組織標本にて判定される組織学的効果判定(pCR)とした。予測モデルは、術前化学療法実施前、FECレジメンが終了段階、全てのレジメンが終了段階の3つを作成した。特徴変数としては、化学療法実施前に収集できる情報を全てのモデルの入力とした。FECレジメンが終了した段階では、そのレジメン終了段階で取得可能な臨床的効果判定(レジメン1)(触診・超音波検査・造影MRI検査などにより総合的に判定された4段階のCR(完全奏効)、PR(部分奏効)、SD(安定)、PD(進行)の分類した値)を、入力変数として追加した。全てのレジメン終了時も、同様に臨床的効果判定(レジメン2)を入力変数として追加した。モデルの学習に用いた特徴変数及び患者の特徴をテーブル3に示す。
(テーブル3)
【0178】
【表6】

【0179】
【表7】

【0180】
【表8】

【0181】
【表9】

モデルの構築方法はAxLN転移モデルと同等である。ただし、対象とした特性が49のため、SVMによって選択される特性の組が5,10,15、…、45、49の10組となる。1つのモデルあたり50,000ケースの学習を行なった。
【0182】
[結果]
術前化学療法実施前、FECレジメンが終了した段階、全てのレジメンが終了した段階の3つのモデルの予測精度をテーブル4に示す。また、それぞれの場合で最終的に選択したモデルを生成した学習パラメータをテーブル5に示す。
(テーブル4)
【0183】
【表10】

【0184】
【表11】

それぞれのモデルは図22−図30、図31−図38、及び図39−図48にそれぞれ示す。今回3施設のデータを全て学習データとして用いたため、評価試験は行なわず、学習時、クロスバリデーション時、テスト施行時の3種類の精度が得られた。全てのケースでクロスバリデーションでもACU>0.9、テスト施行時のAUC値>0.97と極めて高い感度と特異度を示している。また、bootstrap試験にても、欠損値を乱数に置換えた試験にても、平均値はテスト施行時とほぼ同値で、標準偏差も極めて小さい結果であった(テーブル6)。
【0185】
【表12】

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【0186】
50 診断装置
52 学習処理
54 予測処理
56 特性選択処理
60 特性順位決定処理
70 学習データ
72 モデル作成処理
74 モデル選択処理
90 リサンプル処理
92,…,94 リサンプル学習データセット
95 データサブセットのサンプリング処理
97 モデル学習処理
100,…,104 データサブセット
110 予測モデル
130,152 特性抽出処理
132,158 平均値計算処理
136 選択ステージ
138 選択された予測モデル
140,160 欠損データ補充処理
142,156 モデル適用処理
150 臨床データ

【特許請求の範囲】
【請求項1】
ADTreeからなる予測モデルを記憶するための予測モデル記憶手段と、前記予測モデルは、症例データから抽出される所定の特性の組のデータが与えられると、当該症例データが得られた患者に関連した所定の事象の発生を予測するように予め学習がされており、
診断対象となる症例データから、前記予測モデルについて前記特性の組のデータを抽出するための特性抽出手段と、
前記特性抽出手段により抽出された前記特性の組のデータを前記予測モデルに与えることにより、前記診断対象となる症例データの患者に関連した前記所定の事象の発生を前記予測モデルを用いて予測し、前記所定の事象に関する診断結果として出力するための予測手段とを含む、予測装置。
【請求項2】
請求項1に記載の予測装置であって、
前記予測モデルは、複数個のADTreeを含み、
前記予測手段は、
前記特性抽出手段により抽出された前記特性の組のデータを、前記予測モデル中の前記複数個のADTreeの各々に与えることにより、各ADTreeによる、前記所定の事象の発生の確率に関連した数値を算出するためのモデル適用手段と、
前記モデル適用手段により前記複数個のADTreeの各々から得られた数値を総合することにより、前記診断対象となる症例データの患者に関連した前記所定の事象の発生に関する判定を行い、判定結果を診断結果として出力するための判定手段とを含む、予測装置。
【請求項3】
請求項2に記載の予測装置であって、
前記判定手段は、
前記モデル適用手段により前記複数個のADTreeの各々から得られた数値の合計値を算出するための合計算出手段と、
前記合計算出手段により算出された合計値と所定のしきい値とを比較することにより、前記診断対象となる症例データの患者に関連した前記所定の事象の発生に関する判定を行い、判定結果を診断結果として出力するための手段とを含む、予測装置。
【請求項4】
請求項1〜請求項3のいずれかに記載の予測装置であって、
前記特性の組のデータは、いずれも非侵襲性の検査により得られる値である、予測装置。
【請求項5】
請求項1〜請求項4のいずれかに記載の予測装置であって、前記予測モデルは、前記特性の組のデータが与えられると、当該特性の組のデータが得られた患者において、特定の部位に病変が生じているか否かを予測するように予め学習済である、予測装置。
【請求項6】
請求項5に記載の予測装置であって、前記病変は前記特定の部位へのがんの転移である、予測装置。
【請求項7】
請求項5に記載の予測装置であって、前記特定の部位は、当該部位に病変が生じているか否かを、患者の外部から確認ができない部位である、予測装置。
【請求項8】
請求項1〜請求項4のいずれかに記載の予測装置であって、前記予測モデルは、前記特性の組のデータが与えられると、当該特性の組のデータが得られた患者に所定の薬品を投与したときに奏功するか否かを予測するように予め学習済である、予測装置。
【請求項9】
請求項1〜請求項8のいずれかに記載の予測装置であって、さらに、前記診断対象となる症例データから、前記特性抽出手段により抽出された前記特性の組の中に欠損データが存在している場合に、当該欠損データに対して予め定められている値を補充してから前記予測手段に与えるための欠損データ補充手段を含む、予測装置。
【請求項10】
コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項9のいずれかに記載の予測装置の各手段として機能させる、コンピュータプログラム。
【請求項11】
症例データから抽出される所定の特性の組のデータが与えられると、当該症例データが得られた患者に関連した所定の事象の発生を予測するように、ADTreeからなる予測モデルを学習するための学習装置であって、
学習データを記憶するための記憶手段と、
前記記憶手段に記憶された前記学習データから、乱数を用いてリサンプリングすることにより、学習のためのリサンプリングデータセットを作成するためのリサンプリング手段と、
前記リサンプリング手段により作成されたリサンプリングデータセットを学習データとして用い、前記特性の組を入力として前記所定の事象の発生を予測するように、ADTreeからなる予測モデルの学習を行なうためのADTree学習手段と、
前記リサンプリング手段によるリサンプリングデータセットの作成及び前記ADTree学習手段による予測モデルの学習を、終了条件が成立するまで、処理の条件を変化させて繰返し行なうことにより、複数個の予測モデルを作成するためのモデル作成手段と、
前記モデル作成手段により作成された前記複数個の予測モデルの、前記学習データに対する予測精度を算出し、最も高い予測精度が得られた予測モデルを出力するためのモデル選択手段とを含む、学習装置。
【請求項12】
請求項11に記載の学習装置であって、
各々が複数種類の特性からなる特性の組で、互いに異なるものが複数個、予め規定されており、
前記モデル選択手段は、前記処理の条件の一つとして、前記複数個の特性の組のいずれを使用するかを変化させる、学習装置。
【請求項13】
請求項12に記載の学習装置であって、
前記複数種類の特性を、前記所定の事象の発生の予測に関する重要性の順番に順位付けするための特性順位付け手段をさらに含み、
前記複数個の特性の組はいずれも、前記特定順位付け手段による順位付けの上位から所定個数の特性からなる、学習装置。
【請求項14】
請求項11〜請求項13のいずれかに記載の学習装置であって、前記リサンプリング手段は、乱数の種を複数通りに変化させることにより、複数個のリサンプリングデータセットを作成するための手段を含み、
前記モデル選択手段は、前記処理の条件の一つとして、前記作成するための手段を動作させるための乱数の種の数を変化させる、学習装置。
【請求項15】
請求項11〜請求項14のいずれかに記載の学習装置であって、前記リサンプリング手段は、前記記憶手段に記憶された前記学習データのうち、前記所定の事象が発生した学習データからのサンプル数、及び発生しなかった学習データからのサンプル数の偏りを、両サンプル数の比が所定の値となるようにサンプリング比を調整し、乱数を用いてリサンプリングすることにより、学習のためのリサンプリングデータセットを作成するための手段を含む、学習装置。
【請求項16】
コンピュータを、請求項11〜請求項15のいずれかに記載の学習装置の各手段として機能させる、コンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate

【図33】
image rotate

【図34】
image rotate

【図35】
image rotate

【図36】
image rotate

【図37】
image rotate

【図38】
image rotate

【図39】
image rotate

【図40】
image rotate

【図41】
image rotate

【図42】
image rotate

【図43】
image rotate

【図44】
image rotate

【図45】
image rotate

【図46】
image rotate

【図47】
image rotate

【図48】
image rotate


【公開番号】特開2011−227838(P2011−227838A)
【公開日】平成23年11月10日(2011.11.10)
【国際特許分類】
【出願番号】特願2010−99327(P2010−99327)
【出願日】平成22年4月23日(2010.4.23)
【出願人】(504132272)国立大学法人京都大学 (1,269)
【出願人】(899000079)学校法人慶應義塾 (742)
【Fターム(参考)】