予測装置及びその学習装置並びにそれらのコンピュータプログラム

【課題】データ欠損があっても、症例についてある事象の発生を信頼性をもって予測可能な装置を提供する。
【解決手段】予測装置５４は、ＡＤＴｒｅｅからなる予測モデル１３８を記憶する予測モデル記憶装置を含む。予測モデル１３８は、症例データから抽出される特性の組のデータが与えられると、その患者に関連したＡｘＬＮ転移等の発生を予測するように予め学習がされている。装置はさらに、診断対象となる症例データから、特性の組のデータを抽出する特性抽出部１５２と、特性抽出部１５２により抽出された特性の組のデータを予測モデル１３８に与えて、診断対象となる症例データの患者におけるＡｘＬＮ転移等の発生を予測し、予測１５４として出力するモデル適用部１５６とを含む。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、ある疾病に関するある患者の予後に関するリスクを診断したり、ある患者に対する投薬の効果を予測したりするための装置に関し、特に、診断のために必要な情報に欠損が多いときでも安定して高い精度で診断できる予測装置に関する。
【背景技術】
【０００２】
原発性乳がんの治療をする際、腋窩リンパ節（ＡｘＬＮ）への転移（ＡｘＬＮ転移）があるか否かは、治療に関する種々の判断に非常に大きな影響を与える診断要因である。この情報は、腋窩の局所的治療をする際にも、薬物療法などの全身的治療をする際にも使用される。センチネルリンパ節（ＳＬＮ）生検は、従来の腋窩郭清に比較して侵襲性が低く、リンパ節への転移があるか否かを明らかにできる。しかし、最終的にリンパ節への転移を認めず手術の必要がないと判定される患者であっても、生検のための外科的処置を受ける必要があるという問題がある。ＳＬＮ生検が禁忌であるときには、リンパ節の状態に関わらず、侵襲性の高い腋窩リンパ節の郭清をすることが通常の手続きである。
【０００３】
このような外科的処置を受ける必要をなくし、容易に得られる検査情報のみから腋窩リンパ節の状態を予測できれば、患者の負担を小さくできる。また、抗がん剤などの薬物療法の適応を判断する上で重要な情報が、迅速かつ非侵襲的に得られる。その目的のため、ＡｘＬＮ転移を数値的に予測する方法がいくつか提案されている。それらの中には、数式内のいくつかの変数に値を代入することによりスコアを計算し、Ｌｏｇｉｓｔｉｃ回帰分析を用いてモデルを構築する統計的分析方法がある。
【０００４】
これら従来のモデルは、通常は、一定数の、互いに独立した予測因子を含む。これら予測因子は、既知の予測要因のグループに対する一変量又は多変量解析により特定される。既知の予測要因との関連でセンチネルリンパ節への転移の確率を予測する上では、例えばノモグラムと呼ばれるグラフィック表示を用いるモデルが便利である。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】フロインド他、「交互決定木の学習アルゴリズム」、第１６回国際機械学習会議予稿集、ブレド、スロベニア、１９９９年、１２４−１３３（Freund, Y., Mason, L.: "The alternating decision tree learning algorithm". Proceeding of the Sixteenth International Conference on Machine Learning, Bled, Slovenia, (1999) 124-133）
【非特許文献２】ロウジア他、「乳がんの術前化学療法後の、病理的完全奏効及び無再発生存を予測するノモグラム」、Journal of Clinical Oncology誌、２００５年；２３（３３）：８３３１−９（Rouzier R，Pusztai L，Delaloge S，Gonzalez-Angulo AM，Andre F，Hess KR，et al．Nomograms to predict pathologic complete response and metastasis-free survival after preoperative chemotherapy for breast cancer．J Clin Oncol 2005；23(33)：8331-9.）
【非特許文献３】ロウジア他、「乳がんに対する術前化学療法後の乳房温存手術の成功確率及び残存腫瘍径を予測するためのノモグラムの開発及び評価」、 Cancer誌、２００６年；１０７（７）：１４５９−６６（Rouzier R, Pusztai L, Garbay JR, Delaloge S, Hunt KK, Hortobagyi GN, et al. Development and validation of nomograms for predicting residual tumor size and the probability of successful conservative surgery with neoadjuvant chemotherapy for breast cancer. Cancer 2006；107(7)：1459-66.）
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかし、そのような方法は、説明変数の間に存在する、目には見えない互いの依存関係又は規則のようなものを調べるためには適していない。そうした依存関係及び隠れた規則などは、単独ではＡｘＬＮ転移の予測精度に直接的な影響を与えることはほとんどないかも知れない。しかし、これらを互いに組合わせれば、ＡｘＬＮ転移の確率の予測精度を高めることができる可能性がある。したがって、既知の予測要因を単に用いるだけではなく、臨床的に利用可能な情報をできるだけ多く用いることができるようにして、正確な予測を得ることができるような枠組みを得て、そうした枠組みにより、それら情報を用いた高精度な予測の可能性を探ることができるような方法が必要である。
【０００７】
この目的のために、従来用いられていた統計的分析に代え、決定木、人工神経回路網（ニューラルネットワーク）、及びサポートベクターマシン（ＳＶＭ）のような人工知能又はデータマイニング手法を用いることもできる。これらの手法は、多数の変量を分析に組込んだり、変量間の非線形な関係又は依存性を探ったりするためのものである。しかし、特に過去の時点にさかのぼって後ろ向きに得られた臨床データをこうした手法を用いて分析する場合、欠損データが多くなるという問題がある。データの欠損は、患者の状態の相違、並びに患者の状態に応じて病院施設で採用される診断手法及び診療手法の相違から生じるものである。したがって、分析時にそれら欠損データを補うことは不可能である。このような欠損データを持つデータを取扱うための方法は、理想的には、構造化されたデータを取扱うよう最適化されること、同時に種々の臨床的変量を組込むことができること、及びデータ欠損に対して耐性を持つことが必要である。そのために、そうした方法を実現するための数理モデルの開発方法と、そうした数理モデルを利用して腋窩リンパ節への転移の可能性を推定できるシステムが望まれている。
【０００８】
容易に理解できるように、こうした問題は、原発性乳がんに伴って生じるだけでなく、その他、非原発性のものも含む種々のがん、さらには一般的な疾病全般について、最適な治療方法を決定するときにも生じ得る。特に、乳がんのように手術の結果が患者の生活の質に大きな影響を及ぼす可能性があり、患者数の多い病気であるため、過剰医療による医療コストの増大を防ぐ必要が高い場合には、個人ごとに最適な治療方法を精度高く決定することの必要性が高い。さらに、治療方法を決定するために必要な情報が容易には得られなかったり、得るためには患者に大きな負担を強いたりするような場合に、そうした問題を解決する必要性はいっそう高くなる。こうした診断情報に利用できる数理モデルは、データの内で欠けているものがどれかにはかかわりなく、安定して高い精度で得られる必要がある。このためには、データの間の依存性などに関わらず、できるだけ数多くの情報を用いることができることが望ましい。
【０００９】
さらに、こうした手法は、例えばある薬品の投薬にリスクはあるが、症例によっては効果が期待できるような薬を患者に与えるにあたっての判断にも適用できる可能性がある。
【００１０】
したがって、本発明の目的は、データ欠損があっても、特定の症例について特定の事象の発生をある信頼性をもって予測可能な予測装置を提供することである。
【００１１】
本発明の他の目的は、データ欠損があっても、患者の身体における特定の事象の発生について、確度の高い診断を行なうことができる予測装置を提供することである。
【００１２】
この発明のさらに他の目的は、データ欠損が多くても、患者の身体における特定の事象の発生について、確度の高い、堅牢性の高い診断結果を提示できる予測装置を提供することである。
【００１３】
この発明の別の目的は、使用するデータの種類を絞る必要がなく、データ欠損があっても、患者の身体における特定の事象の発生について、確度の高い、堅牢性の高い診断結果を提示できる予測装置を提供することである。
【００１４】
この発明のさらに他の目的は、使用するデータの種類を絞る必要がなく、データ欠損があっても、患者の身体における特定の事象の発生について、確度の高い、堅牢性の高い診断を行なうことができ、かつ汎化能力の高い予測装置を提供することである。
【００１５】
こうした予測装置は、例えば乳癌のＡｘＬＮ転移の発生の予測、特定の薬品の投与による奏効の可能性の予測などに用いることができればなお好ましい。
【課題を解決するための手段】
【００１６】
本発明の第１の局面に係る予測装置は、ＡＤＴｒｅｅ（ＡｌｔｅｒｎａｔｉｖｅＤｅｃｉｓｉｏｎＴｒｅｅ：交互決定木）からなる予測モデルを記憶するための予測モデル記憶手段と、予測モデルは、症例データから抽出される所定の特性の組のデータが与えられると、当該症例データが得られた患者に関連した所定の事象の発生を予測するように予め学習がされており、診断対象となる症例データから、予測モデルについて特性の組のデータを抽出するための特性抽出手段と、特性抽出手段により抽出された特性の組のデータを予測モデルに与えることにより、診断対象となる症例データの患者に関連した所定の事象の発生を、予測モデルを用いて予測し、所定の事象に関する診断結果として出力するための予測手段とを含む。
【００１７】
ＡＤＴｒｅｅを用いた予測モデルでは、決定木を用いたモデルと異なり、与えられる特性の組に欠損データがあったとしてもある程度の信頼性を持って予測を行なうことができる。診断対象となる症例データから必要な特性の値が得られなくても、予測を行なうことが可能になり、症例データが得られた患者に関する所定の事象の発生を頑健に行なうことができる。
【００１８】
好ましくは、予測モデルは、複数個のＡＤＴｒｅｅを含み、予測手段は、特性抽出手段により抽出された特性の組のデータを、予測モデル中の複数個のＡＤＴｒｅｅの各々に与えることにより、各ＡＤＴｒｅｅによる、所定の事象の発生の確率に関連した数値を算出するためのモデル適用手段と、モデル適用手段により複数個のＡＤＴｒｅｅの各々から得られた数値を総合することにより、診断対象となる症例データの患者に関連した所定の事象の発生に関する判定を行ない、判定結果を診断結果として出力するための判定手段とを含む。
【００１９】
予測モデルが複数のＡＤＴｒｅｅを含み、判定はこれらＡＤＴｒｅｅの出力を総合することにより行なわれる。個々のＡＤＴｒｅｅだけでなく複数のＡＤＴｒｅｅの出力を総合的に使用して判定を行なうため、判定の安定性が増加し、信頼性を高めることができる。欠損値が存在したときにも頑健な判定を行なうことができる。
【００２０】
より好ましくは、判定手段は、モデル適用手段により複数個のＡＤＴｒｅｅの各々から得られた数値の合計値を算出するための合計算出手段と、合計算出手段により算出された合計値と所定のしきい値とを比較することにより、診断対象となる症例データの患者に関連した所定の事象の発生に関する判定を行ない、判定結果を診断結果として出力するための手段とを含む。
【００２１】
ＡＤＴｒｅｅの出力は数値として得られる。これら数値と、予め定められたしきい値との比較という簡単な処理により、予測を行なうことができる。
【００２２】
さらに好ましくは、特性の組のデータは、いずれも非侵襲性の検査により得られる値である。
【００２３】
非侵襲性の特性のデータを使用して、特定の事象の発生に関する予測を行なうことができる。侵襲性の特性のデータを使用する必要が減り、診断のために患者に無用の負担を減らすことができる。
【００２４】
予測モデルは、特性の組のデータが与えられると、当該特性の組のデータが得られた患者において、特定の部位に病変が生じているか否かを予測するように予め学習済でもよい。
【００２５】
好ましくは、病変は特定の部位へのがんの転移でもよく、特定の部位は、当該部位に病変が生じているか否かを、患者の外部から確認ができない部位でもよい。
【００２６】
より好ましくは、予測モデルは、特性の組のデータが与えられると、当該特性の組のデータが得られた患者に所定の薬品を投与したときに奏効するか否かを予測するように予め学習済である。
【００２７】
さらに好ましくは、予測装置はさらに、診断対象となる症例データから、特性抽出手段により抽出された特性の組の中に欠損データが存在している場合に、当該欠損データに対して予め定められている値を補充してから予測手段に与えるための欠損データ補充手段を含んでもよい。
【００２８】
本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの予測装置の各手段として機能させる。したがって、第１の局面の予測装置と同様の効果を得ることができる。
【００２９】
本発明の第２の局面に係る学習装置は、症例データから抽出される所定の特性の組のデータが与えられると、当該症例データが得られた患者に関連した所定の事象の発生を予測するように、ＡＤＴｒｅｅからなる予測モデルを学習するための学習装置であって、学習データを記憶するための記憶手段と、記憶手段に記憶された学習データから、乱数を用いてリサンプリングすることにより、学習のためのリサンプリングデータセットを作成するためのリサンプリング手段と、リサンプリング手段により作成されたリサンプリングデータセットを学習データとして用い、特性の組を入力として所定の事象の発生を予測するように、ＡＤＴｒｅｅからなる予測モデルの学習を行なうためのＡＤＴｒｅｅ学習手段と、リサンプリング手段によるリサンプリングデータセットの作成及びＡＤＴｒｅｅ学習手段による予測モデルの学習を、終了条件が成立するまで、処理の条件を変化させて繰返し行なうことにより、複数個の予測モデルを作成するためのモデル作成手段と、モデル作成手段により作成された複数個の予測モデルの、学習データに対する予測精度を算出し、最も高い予測精度が得られた予測モデルを出力するためのモデル選択手段とを含む。
【００３０】
所定の特性の組のデータを用いて、各々がＡＤＴｒｅｅからなる多数の予測モデルを作成できる。ＡＤＴｒｅｅは、欠損データがあっても一定の範囲（例えば、５０％−７０％など）で対象とする事象になる確率予測を行なうことが可能になる。そのため、過去に蓄積された、必ずしも統一的な基準によって収集されたわけではない症例データを用いて、特定の事象の発生に関して一定の予測範囲で予測が可能な予測モデルを得ることができる。
【００３１】
好ましくは、この学習装置においては、各々が複数種類の特性からなる特性の組で、互いに異なるものが複数個、予め規定されており、モデル選択手段は、処理の条件の１つとして、複数個の特性の組のいずれを使用するかを変化させる。
【００３２】
どのような特性の組を使用するかは、モデル作成の上で重要である。特性の組を変えてモデルを作成し、その中で最も予測精度が高いものを選択することが可能となり、高精度な予測モデルの構築が可能になる。
【００３３】
より好ましくは、学習装置は、複数種類の特性を、所定の事象の発生の予測に関する重要性の順番に順位付けするための特性順位付け手段をさらに含み、複数個の特性の組はいずれも、特定順位付け手段による順位付けの上位から所定個数の特性からなる。
【００３４】
特性の組のうち、予測に関して重要なものの上位を含む特性の組を選択することにより、予測モデルとして最も高精度なものが得られる可能性が高くなる。その結果、高精度な予測モデルの構築が可能になる。
【００３５】
さらに好ましくは、リサンプリング手段は、乱数の種を複数通りに変化させることにより、複数個のリサンプリングデータセットを作成するための手段を含み、モデル選択手段は、処理の条件の１つとして、作成するための手段を動作させるための乱数の種の数を変化させる。
【００３６】
学習データとして、互いに異なる様々なものを使用してモデルを構築し、その中から最高精度のモデルを選択すると、得られるモデルの信頼性は高くなる。しかし、場合によっては学習データの数そのものに限度があり、十分な数を集めることが難しい。そうした場合でも、リサンプリングにより複数種類の学習データを作成してそれぞれからモデルを構築し、その中から最高精度のモデルを選択すると、得られるモデルの精度が向上する可能性が高い。
【００３７】
リサンプリング手段は、記憶手段に記憶された学習データのうち、所定の事象が発生した学習データからのサンプル数、及び発生しなかった学習データからのサンプル数の偏りを、両サンプル数の比が所定の値となるようにサンプリング比を調整し、乱数を用いてリサンプリングすることにより、学習のためのリサンプリングデータセットを作成するための手段を含んでもよい。
【００３８】
症例データによっては、所定の事象が発生した場合の数が極端に少ない場合がある。そうした場合でも、このように両者からのサンプル数の比が所定の値となるようにリサンプリングを調製することで、偏りの少ない、汎化能力の高いモデルの構築が可能になる。
【００３９】
本発明の第４の局面に係るコンピュータプログラムは、コンピュータを、上記のいずれかの学習装置の各手段として機能させる、コンピュータプログラムである。
【図面の簡単な説明】
【００４０】
【図１】本発明の一実施の形態に係る、ＡｘＬＮ転移確率に関する診断装置５０の構成を示すブロック図である。
【図２】図１に示す特性順位決定処理６０をコンピュータ上で実現するためのコンピュータプログラムの制御構造を示すフローチャートである。
【図３】ＡＤＴｒｅｅの１例を示す図である。
【図４】ＡＤＴｒｅｅにおけるスコアの計算方法を説明するための図である。
【図５】学習処理５２をコンピュータ上で実現するためのプログラムの概略の制御構造を示すフローチャートである。
【図６】学習処理５２をコンピュータ上で実現するためのプログラムの概略の制御構造の詳細を示すフローチャートである。
【図７】図６のステップ２６６で実行される予測精度算出処理のためのプログラムルーチンの制御構造の詳細を示すフローチャートである。
【図８】予測処理５４をコンピュータハードウェアとの協働により実現するコンピュータプログラムの制御構造をフローチャート形式で示す。
【図９】診断装置５０を実現するコンピュータシステム５５０の外観を示す図である。コンピュータシステム５５０の内部構成を示す。
【図１０】コンピュータシステム５５０の内部構成を示す図である。
【図１１】実施例１において、ＡｘＬＮ転移の予測された確率及び選択された予測器を用いて生成した受動者動作特性（ＲＯＣ）曲線をプロットした図である。
【図１２】実施例１において選択された予測器のＡＤＴｒｅｅを示す図である。
【図１３】実施例１において選択された予測器のＡＤＴｒｅｅを示す図である。
【図１４】実施例１において選択された予測器のＡＤＴｒｅｅを示す図である。
【図１５】実施例１において選択された予測器のＡＤＴｒｅｅを示す図である。
【図１６】実施例１において選択された予測器のＡＤＴｒｅｅを示す図である。
【図１７】実施例１において選択された予測器のＡＤＴｒｅｅを示す図である。
【図１８】実施例１において選択された予測器のＡＤＴｒｅｅを示す図である。
【図１９】実施例１の検証テストの結果を示すグラフである。
【図２０】実施例１において、リサンプリングされたデータに対する予測結果を示すグラフである。
【図２１】実施例１において、全学習データに対する予測結果を示すグラフである。
【図２２】実施例２において、術前化学療法実施前において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図２３】実施例２において、術前化学療法実施前において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図２４】実施例２において、術前化学療法実施前において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図２５】実施例２において、術前化学療法実施前において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図２６】実施例２において、術前化学療法実施前において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図２７】実施例２において、術前化学療法実施前において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図２８】実施例２において、術前化学療法実施前において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図２９】実施例２において、術前化学療法実施前において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図３０】実施例２において、術前化学療法実施前において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図３１】実施例２において、ＦＥＣレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図３２】実施例２において、ＦＥＣレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図３３】実施例２において、ＦＥＣレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図３４】実施例２において、ＦＥＣレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図３５】実施例２において、ＦＥＣレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図３６】実施例２において、ＦＥＣレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図３７】実施例２において、ＦＥＣレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図３８】実施例２において、ＦＥＣレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図３９】実施例２において、全てのレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図４０】実施例２において、全てのレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図４１】実施例２において、全てのレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図４２】実施例２において、全てのレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図４３】実施例２において、全てのレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図４４】実施例２において、全てのレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図４５】実施例２において、全てのレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図４６】実施例２において、全てのレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図４７】実施例２において、全てのレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【図４８】実施例２において、全てのレジメンが終了した段階において構築されたモデル内のＡＤＴｒｅｅを示す図である。
【発明を実施するための形態】
【００４１】
以下の実施の形態の説明及び添付した図面では、同一の部品には同一の参照番号を付してある。それらの機能も同一である。したがってそれらについての詳細な説明は繰返さない。また、以下の実施の形態の説明は、発明の内容を分かりやすくするため、後述の実施例１にしたがい、原発性乳がんの患者において、腋窩リンパ節に転移が生じているか否かを診断する装置について行なう。しかし容易に理解できるように、本発明はそうした場合のみに適用可能なわけではない。診断目的に応じ、利用する症例データを変え、特性を適切に選択することにより、投薬によって効果が得られるか否かを推定する際など、他の診断又はリスクの推定にも本発明を適用できる。
【００４２】
＜概略＞
データベースとして整備されているか否かはともかく、病院には過去の臨床データがかなり蓄積されていることが一般的である。こうした過去の臨床データに対する統計的処理により得られたモデルを使用することにより、確度の高い診断情報を提供できれば好ましい。しかしそのために、過去の臨床データから統計的モデルを構築する際には、必ずデータ欠損の問題が生じる。最初から一貫した方針で一定の検査項目については必ずデータを収集する、という方針で臨床データを蓄積することは不可能に近い。信頼性の高いモデルを作成するためには、臨床データの症例数も多くなければならない。しかし、集める臨床データの症例数が多くなるほど、データ欠損の問題も大きくなり、理想的な臨床データの集合は得られない。データ欠損があるときには、一般的には精度の高いモデルの構築はむずかしい。逆に、特定の病気では、事例が少なく、臨床データを多数集めることが難しいこともある。そうした場合には、モデルの汎化性能が不十分なことが多い。得られる臨床データについて、例えば異常が生じていなかった事例については多数集められるが、異常が生じていた事例については少数のデータしか得られない場合、すなわちデータに偏りがある場合がある。そうしたデータセットからモデルを構築でき、使用したデータでは精度よく予測できたとしても、そのモデルを用いて、他の施設などで得られる偏りの異なる独立したデータでも信頼性の高い予測を行なうことは難しい。
【００４３】
以下に説明する実施の形態では、こうした問題を解決するために、以下に説明する４つの手順を組合わせたデータマイニング手法を採用した。
【００４４】
（１）偏りを考慮したリサンプリングによるデータセットの再構成
（２）臨床データとして得られた検査項目の結果のうち、高精度のモデルを得るために有効と思われる一部の項目を選択すること（特性選択）
（３）予測のためのモデルとして、データ欠損に比較的強いと思われるＡＤＴｒｅｅと呼ばれる決定木の一種を採用すること、及び
（４）高精度でかつ汎化性の高いモデルを構築するために、バギングと呼ばれる技法を採用すること。
【００４５】
ＡＤＴｒｅｅとは、複数の弱分類器を組合わせたもので、図３及び図４を参照して後述するように、決定木と類似した形で表すことができる。その名前の由来についても後述する。
【００４６】
一般に使用されているｉｆ−ｔｈｅｎ型の決定木は、単純で理解が容易であるが、データ欠損があるときには確率を全く計算することができないという欠点がある。それに対してＡＤＴｒｅｅは、データ点が存在しないときでも、予測対象の分類を決定するための確率を一定の範囲で算出できるという長所がある。以下に説明する実施の形態では、こうしたＡＤＴｒｅｅの特性を生かし、欠損データが比較的多く含まれるデータセットにおいても分類を行なえるようにする。なお、ＡＤＴｒｅｅ作成及びＡＤＴｒｅｅを使用した確率算出のためのアルゴリズムについては前掲の非特許文献１に詳述されている。本実施の形態でも、非特許文献１に記載されたアルゴリズムを使用した。
【００４７】
以下の実施の形態では、過去の症例を学習データとした多変量を扱うＡＤＴｒｅｅの学習をすることで予測モデルを構築した例を説明する。実施例１ではさらに、この予測モデルを学習データセットとは独立したデータセットを用いて検証した例を説明する。以下に説明する例は、ウェブサーバを介して遠隔端末からＡｘＬＮ転移の診断要求を受けて、上記モデルを用いて転移発生を予測し、診断結果を相手端末に返信するためのものである。
【００４８】
なお、以下の実施の形態では項目の数値化処理を行なう。その際、症例データ内の量的変数は特性としてそのまま用いることもできるし、何らかの形で別の値に変換すること（例えば正規化など）もできる。定性的変数については、適切な方法で等級付けして数値化し、特性として用いる。例えばある所見の「あり」「なし」などは「１」「０」などの値に変換できる。等級付けの基準は、精度を高めるためにはできるだけ客観的な値となるように定めることが望ましい。他の変数に依存するカテゴリ変数は除外することが望ましい。関係する変数のうち、いずれが関連しているかを明確にするためである。全ての患者について同じ値であった変数も除外するべきである。以下の実施の形態では、各変数は線形正規化により０から１までの値に変換するものとする。
【００４９】
［構成］
＜装置の全体構成＞
図１を参照して、本実施の形態に係る、ＡｘＬＮ転移の発生に関する予測装置である診断装置５０の構成について説明する。この診断装置５０は、過去の乳がん患者の症例から得た学習データ７０を用いて、ＡＤＴｒｅｅからなる、ＡｘＬＮ転移の確率の予測モデル１３８の学習を行なう学習処理５２と、学習データ７０に含まれる患者の特性のうち、予測精度の高い予測モデル１３８を構築するために特に有効と思われる特性の組を選択する特性選択処理５６と、学習処理５２による学習が行なわれた予測モデル１３８を用い、対象となる患者のデータから、特性選択処理５６により選択された特性のデータを抽出し、予測モデル１３８を使用して対象患者にＡｘＬＮ転移が生じているか否かを予測し、予測結果を出力する予測処理５４とを含む。
【００５０】
学習処理５２と予測処理５４とは、いずれもコンピュータハードウェアと、そのコンピュータハードウェアにより実行されるコンピュータプログラムとにより、両者の協働により実現される。学習処理５２と予測処理５４とは別々のコンピュータ上に実装されてもよいし、別々のコンピュータ上に実装されてもよい。本実施の形態では、これらは同一のコンピュータ上に実装されていることを前提としている。
【００５１】
＜特性選択処理５６の構成＞
特性選択処理５６は、本実施の形態では、予め決めた複数種類（例えば３５種類）の特性からなる集合について、ＳＶＭを用いた特性選択（ＳＶＭ−ＦＳ：ＳＶＭ−ＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎ）により順位を定める特性順位決定処理６０を含む。特性順位決定処理６０における特性の順位の決定方法の詳細については後述する。要するに特性順位決定処理６０では、複数種類の特性のうち、予測精度に与える影響の大きさにしたがって特性に順位をつける処理を行なう。
【００５２】
《特性順位決定処理６０のコンピュータプログラムによる実現》
図２を参照して、図１に示す特性順位決定処理６０をコンピュータ上で実現するためのコンピュータプログラム（以下単に「プログラム」と呼ぶ。）は、属性の順位を格納すべき配列領域をコンピュータのメモリ上に確保するステップ２２０と、ステップ２２０に続き、変数ＩＸに０を代入するステップ２２２と、ステップ２２４に続き、学習データ７０から得られた利用可能な特性の全てを用いてＳＶＭの学習を行なうステップ２２４と、ステップ２２４により得られたＳＶＭを用いて学習データ７０に対する予測と結果の判定とを行ない、ＳＶＭの判定精度を確認し記憶するステップ２２６と、全特性に対して以下のステップ２３０及び２３２を実行するステップ２２８とを含む。
【００５３】
すなわち、ステップ２３０では、全特性の中から特性を１つだけ抜き、残りの特性を用いてステップ２２４と同様の処理でＳＶＭの学習を行なう。ステップ２３２では、ステップ２３０で学習されたＳＶＭの精度を学習データで確認し、記憶装置に記憶する。
【００５４】
上記のプログラムはさらに、ステップ２２８の処理が全ての特性について完了したときに実行され、ステップ２３２で確認されたＳＶＭの精度をステップ２２６で確認された元の特性の集合から得られたものと比較し、最も精度の低下の小さかった特性の番号を、ステップ２２０で確保した配列のうち、変数ＩＸをインデックスとするロケーションに記憶するステップ２３４と、選択された特性を、残りの特性から削除するステップ２３６と、変数ＩＸに１を加算するステップ２３８と、ステップ２３６の処理の結果、残った特性が１個のみか否かを判定し、判定結果に応じて制御を分岐させるステップ２４０とを含む。
【００５５】
このプログラムはさらに、ステップ２４０での判定結果がＮＯのときに実行され、残りの特性を新たな特性の全体集合として、ステップ２２４に制御を戻すステップ２４２と、ステップ２４０での判定結果がＹＥＳのときに実行され、残りの特性の番号を配列内のインデックスＩＸの値で示されるロケーションに記憶するステップ２４４と、ステップ２４４に続き、得られた配列を外部記憶に出力するステップ２４６とを含む。
【００５６】
この処理により、学習データにより学習したＳＶＭの精度に与える影響の大きさにしたがって、特性に順位をつけることができる。
【００５７】
＜学習処理５２の構成＞
再び図１を参照して、学習処理５２は、学習データ７０からモデル作成のためのパラメータを種々に変化させることによって多数のＡＤＴｒｅｅの予測モデル１１０を作成するためのモデル作成処理７２と、モデル作成処理７２により作成された多数の予測モデル１１０を用いて、学習データ７０の全体に対して腋窩リンパ節への転移の発生予測を行ない、その予測の精度を算出して、最も精度の高い予測モデルを最適な予測モデル１３８として出力するモデル選択処理７４とを含む。
【００５８】
最終的に得られるモデルの精度を高めるために、本実施の形態では、モデル作成時のパラメータの値を種々変化させながら、予測モデル１１０を多数個生成する。これら多数の予測モデル１１０の中で、元の学習データから結果を予測したときの予測精度が最も高いモデルを最終的な予測モデル１３８として選択する。
【００５９】
モデル作成処理７２は、以下のようにして多数のモデルを作成する。この過程では、様々な繰返し処理が行なわれるが、以下では、説明を分かりやすくするために、繰返しの条件が全て固定された場合について説明し、その説明が終了してから、どの部分でどのように条件を変えて繰返し処理を実行するかを説明する。
【００６０】
モデル作成処理７２は、学習データ７０について、そのデータの偏りを考慮したサンプリングをすることにより、実際にＡｘＬＮ転移が見つかった患者と見つからなかった患者とのデータ数が等しくなるようなリサンプル学習データセット９２，…，９４を所定個数作成するリサンプル処理９０と、リサンプル処理９０により得られたリサンプル学習データセット９２，…，９４の各々について、データをさらにランダムにサンプリングすることでＫ個のデータサブセット（第１のデータサブセット１００、第２のデータサブセット１０２、…、第Ｋのデータサブセット１０４）を作成するデータサブセットのサンプリング処理９５とを含む。ここでは、リサンプル学習データセット９２，…，９４の各々について、予め指定されるＫ個のデータサブセット１００，…，１０４が作成される。なお、この「Ｋ」は、後述するバギング数に相当する。
【００６１】
モデル作成処理７２はさらに、リサンプル学習データセット９２，…，９４の各々から得られた第１〜第Ｋのデータサブセット１００，…，１０４により、それぞれ第１〜第ＫのＡＤＴｒｅｅ１２０，１２２，…，１２４の学習を行なって予測モデル１１０を作成するモデル学習処理９７を含む。
【００６２】
以上の処理により、繰返し条件を固定した状態で、１つの予測モデル１１０が作成される。この予測モデル１１０にはＫ個のＡＤＴｒｅｅ１２０，…，１２４が含まれる。
【００６３】
《繰返し条件》
以下、繰返し条件について説明する。
【００６４】
─特性の集合─
繰返し条件の第１は、モデル学習に使用する特性の集合である。特性選択処理５６により順位付けされた特性の先頭から順番に、それぞれＦ_１個、…、Ｆ_Ｑ個の要素からなる特性の集合（集合の個数はＱ個）を選び、これらについて上記した処理を繰返す（Ｆ_１＜Ｆ_２＜…＜Ｆ_Ｑ）。特性集合を変更することによって、Ｑ回の繰返しが行なわれる。
【００６５】
─リサンプリング─
学習データ７０からリサンプル学習データセット９２，…，９４をリサンプリングする際には乱数を用いる。この乱数の種を変更することにより、リサンプル学習データセット９２，…，９４の内容が変化する。このとき、いずれの場合にも学習データ７０の症例データの偏りを補償するようにリサンプリングすることに注意する必要がある。乱数の種を表す変数Ｉの値を１〜Ｉ_ＭＡＸまで１ずつ変化させることにより、Ｉ_ＭＡＸ通りのリサンプル学習データセットが得られる。これがリサンプル学習データセット９２，…，９４である。
【００６６】
─バギング数─
上記した説明では、リサンプル学習データセット９２，…，９４の各々について、第１〜第Ｋのデータサブセット１００，…，１０４のＫ個のデータセットをサンプリングにより作成するものとした。この個数は、予測モデル１１０に含まれるＡＤＴｒｅｅの個数である。この数をバギング数と呼ぶ。このバギング数について、本実施の形態では１個〜Ｋ_ＭＡＸ個まで、１ずつ変化させながら上記した処理を繰返す。この１回の繰返しにより、Ｋ_ＭＡＸ個のモデルが作成される。
【００６７】
─バギング用データセットのサンプリング─
上記したバギング用の第１〜第Ｋのデータサブセット１００，…，１０４について、あるＫに対し、これらデータセットのサンプリングのための乱数を変えることにより、第１〜第Ｋのデータサブセット１００，…，１０４のバリエーションができる。本実施の形態では、あるＫに対してサンプリングを１〜Ｊ_ＭＡＸまでのＪ_ＭＡＸ通りに変化させる。したがって、あるＫに対し、Ｊ_ＭＡＸ通りの第１〜第Ｋのデータサブセット１００，…，１０４が作成される。
【００６８】
─ＢＯＯＳＴＩＮＧ数─
ＡＤＴｒｅｅの作成には、パラメータとしてツリーに含むノード数をいくつにするかを指定する必要がある。この値をＢＯＯＳＴＩＮＧ数と呼ぶ。ＢＯＯＳＴＩＮＧ数を１からＭ_ＭＡＸまで変化させることにより、Ｍ_ＭＡＸ個のモデルが作成される。
【００６９】
《作成されるモデルの個数》
以上の条件によれば、繰返しの回数を決める要因として、以下の５つがある。
【００７０】
（１）特性の組の個数Ｑ通り
（２）リサンプリング回数Ｉ_ＭＡＸ通り
（３）学習データセットのサンプリング回数Ｊ_ＭＡＸ通り
（４）データサブセットの数の変化Ｋ_ＭＡＸ通り
（５）ＢＯＯＳＴＩＮＧ数の変化Ｍ_ＭＡＸ通り
これらをそれぞれ変化させて上記処理を実行すると、全部でＱ×Ｉ_ＭＡＸ×Ｊ_ＭＡＸ×Ｋ_ＭＡＸ×Ｍ_ＭＡＸ個のモデルが作成される。
【００７１】
後述の実施例１では、Ｑ＝７、Ｉ_ＭＡＸ＝１０、Ｊ_ＭＡＸ＝５、Ｋ_ＭＡＸ＝Ｍ_ＭＡＸ＝１０とした。したがって、全部で７×１０×５×１０×１０＝３５，０００通りのモデルが得られ、その中から１つだけモデルを選択する。この処理について以下、説明する。
【００７２】
《モデル選択処理》
モデル選択処理も、大きく分けて２つのステージに分割される。第１のステージは、モデル作成処理７２により得られたモデルごとに、学習データ７０の全症例データについて診断結果の予測をし、予測結果を学習データ７０と比較してその精度を算出する予測ステージであり、第２のステージは、全てのモデルのうち、予測ステージで最も高い精度が得られたモデルを選択し、予測モデル１３８として出力する選択ステージ１３６である。
【００７３】
─予測ステージ─
予測ステージは、モデル作成処理７２により得られた全ての予測モデル１１０の各々に対して、以下のような処理をする。
【００７４】
すなわち、予測ステージは、学習データ７０中の全症例データの各々から、予測のために必要な特性の組を抽出する特性抽出処理１３０と、抽出された特性の組の中に欠損データがあったときに、その特性データの平均値で欠損データを補う欠損データ補充処理１４０とを含む。このため、予め各特性について、学習データ７０内の有効データの平均値を算出しておき、記憶装置１４４に記憶しておく。ここで注意すべきことは、モデルが作成されたときに使用された特性の組が、モデルにより異なることである。モデルごとに、適切な特性の組を使用することが必要である。
【００７５】
予測ステージはさらに、抽出された特性の組の各々を予測モデル１１０に含まれるＡＤＴｒｅｅ１２０，１２２，…，１２４にそれぞれ与えて、特性の組ごとに、各ＡＤＴｒｅｅ１２０，１２２，…，１２４に後述するスコアを算出させるモデル適用処理１４２と、特性の組の各々について予測モデル１１０のＡＤＴｒｅｅ１２０，１２２，…，１２４により算出されるスコアの平均を算出する平均値計算処理１３２と、平均値計算処理１３２により出力される平均スコアをモデルごとに記憶装置１３４に蓄積する処理とを含む。
【００７６】
モデル選択処理７４の予測ステージでは、上記した処理を、１つのモデルに対して、学習データ７０に含まれる全症例データを対象に行なう。その結果、モデルごとに、全症例データに関する予測結果の集合が得られる。
【００７７】
─選択ステージ─
予測ステージで得られた結果から、モデルごとに、その予測結果のスコアと実際の学習データ７０の内容とを統計的に処理し、比較することにより、モデルごとにその予測精度が算出できる。選択ステージでは、最も予測精度の高いモデルを予測モデル１３８として選択する。本実施の形態では、モデルごとにＲＯＣ曲線を描き、その下側面積ＡＵＣが最も大きくなったモデルを選択する。
【００７８】
《ＡＤＴｒｅｅ》
ＡＤＴｒｅｅの一例を図３に示す。図３において、長方形で示されているノードを「分岐ノード」、楕円で示されているノードを「予測ノード」と呼ぶ。図３から明らかなように、ＡＤＴｒｅｅは、分岐ノードからなる層と、予測ノードからなる層とが交互に配置されている。これが「Ａｌｔｅｒｎａｔｉｖｅ」という名称の由来である。
【００７９】
さらにこのＡＤＴｒｅｅでは、通常の決定木と異なり、１つのノードから複数の分岐が出ている場合、その全てのノードを辿る場合と、１つのノードのみを選択的に辿る場合とがある。図３において、前者の分岐は点線で示され、後者の分岐は実線で示されている。ＡＤＴｒｅｅの各分岐ノードには、数値が割当てられている。ＡＤＴｒｅｅでは、ルートノードから分岐しながら全ての可能なルートを辿り、その過程で通過した分岐ノードに割当てられている数値を加算し、最終的に得られた数値を予測のための出力（スコア）とする。
【００８０】
図３に示すＡＤＴｒｅｅは、ルートノード１７０と、ルートノード１７０の下に並ぶ３つの予測ノード１７２、１７４及び１７６とを含む。ルートノード１７０には数値「−０．１」が割当てられている。ノード１７２，１７４及び１７６は親ノードと点線で結ばれているので、ルートノード１７０からはこれらノードへの分岐を必ず辿る。予測ノード１７２からは、分岐ノード１８０及び１８２が分岐している。この分岐は実線なので、ノード１７２での判定結果にしたがって分岐ノード１８０及び１８２のいずれか一方が選択される。図３において、各分岐には、各ノードでの判断の対象となる特定の変数が満たすべき条件が示されている。たとえばノード１７２では、条件Ａの判定結果がＮＯかＹＥＳかにしたがってノード１８０及び１８２のいずれかが選択される。
【００８１】
分岐ノード１８０及び１８２にはそれぞれ、数値「−０．２」及び「＋１．０」が割当てられている。ルートノード１７０から予測ノード１７２、ノード１８０と辿った場合、得られる数値は「−０．１−０．２＝−０．３」となる。逆にルートノード１７０から予測ノード１７２、ノード１８２と辿った場合には、数値は「−０．１＋１．０＝０．９」となる。ＡＤＴｒｅｅによるスコアは、このように可能なノードを全て辿りながら、辿ったノードに割当てられている数値を加算していくことにより得られる。
【００８２】
このＡＤＴｒｅｅはさらに、ノード１７４から実線により分岐するノード１８４及び１８６と、ノード１８４から点線で分岐するノード１９２及び１９４と、ノード１９２から実線で分岐するノード１９６及び１９８と、ノード１９６から点線で連結されるノード２０４と、ノード２０４から実線で分岐するノード２０６及び２０８と、ノード１９４から実線で分岐するノード２００及び２０２と、ノード１７６から実線で分岐するノード１８８及び１９０とからなる。
【００８３】
ルートノード１７０、ノード１８０及び１８２と同様、ノード１８４，１８６，１８８，１９０、１９６，１９８、２００、２０２、２０６及び２０８には数値が割当てられている。
【００８４】
例えば、図３に示したＡＤＴｒｅｅにおいて、Ａ＝ＮＯ，Ｂ＝ＮＯ，Ｃ＝５，Ｄ＝１，Ｅ＝Ｘ，Ｆ＝ＹＥＳの場合の計算例を図４に示す。図４において、選択される分岐ノード内の数値には下線を付してある。
【００８５】
図４を参照して、この例の場合、ノード１７２，１７４，１７６の全てで判定が行なわれ、ノード１８０、１８４及び１８８が選択される。さらにノード１８４からはノード１９２と１９４との双方に分岐が生じる。ノード１９２からはノード１９６、２０４、２０８というルートが辿られる。ノード１９４からはノード２００が選択される。以上の結果、このケースではルートノード１７０、分岐ノード１８０，１８４，１９６，２０８，２００、及び１８８がパス上にあることになる。ＡＤＴｒｅｅの出力するスコアは
−０．１−０．２−０．２＋０．５−０．４−０．４−０．３＝−１．１
（ルート）（Ａ）（Ｂ）（Ｃ）（Ｄ）（Ｅ）（Ｆ）
となる。
【００８６】
《学習処理５２のプログラムによる実現》
図５を参照して、図１に示す学習処理５２をコンピュータ上で実現するためのプログラムの概略の制御構造は以下のとおりである。すなわちこのプログラムは、学習を行なうためのパラメータを利用者に設定させるステップ２６０を含む。この実施の形態では、この処理において、前述した特性の組の各々の構成及びその個数Ｑ、リサンプリング回数を決めるＩ_ＭＡＸ、学習データセットのサンプリング回数を決めるＪ_ＭＡＸ、データサブセットの数の範囲を決めるＫ_ＭＡＸ、及びＢＯＯＳＴＩＮＧ数の範囲を決めるＭ_ＭＡＸが設定される。この設定は、通常のユーザインタフェースを使用して行なわれる。予めこうした設定を構成ファイルに記述しておき、プログラム開始時に読込むようにしてもよい。
【００８７】
以下のステップ２６２から２６６は、繰返し実行される。しかも上記したように、この繰返しは５個の変数に対し、順に入れ子となるように実行される。繰返しが複雑になるため、詳細については図６に示し、図５は、理解を容易にするために全ての条件が固定された場合について示してある。
【００８８】
すなわち、このプログラムはさらに、図１に示す学習データ７０をリサンプリングしてリサンプル学習データセットを作成するステップ２６２と、ＡＤＴｒｅｅによる予測モデル１１０を作成するステップ２６４と、ステップ２６４で作成された予測モデル１１０を用い、学習データ７０の全てに対してスコアを算出し、実際の症例データとの比較結果を統計的に処理することによりその精度を確認して保存するステップ２６６とを含む。
【００８９】
このステップ２６２から２６６について、上記した全ての繰返しが完了すると、ステップ２６０で入力された設定により定まる数の予測モデル１１０が得られる。ステップ２６６に続くステップ２６８では、これら予測モデル１１０のうち、学習データとの比較で最も高い精度が得られた予測モデルを予測モデル１３８（図１）として選択し、外部記憶装置に保存して処理を終了する。
【００９０】
図６を参照して、図５に示すプログラムの詳細は以下のとおりである。すなわち、このプログラムは、既に説明したステップ２６０と、ステップ２６０に続き、ステップ２６０で入力された設定のうち、特性の組として指定された複数個の特性の組Ｆ＝Ｆ_１，…，Ｆ_Ｑの各々に対して以下のステップ２８２を繰返すステップ２８０を含む。繰返し回数はＱ回である。
【００９１】
ステップ２８２は、学習データ７０からリサンプル学習データセット９２，…，９４をリサンプリングする際の乱数の種となる変数Ｉ（１≦Ｉ≦Ｉ_ＭＡＸ）の値を１ずつ変化させながら以下の処理２８３を繰返す。繰返し回数はＩ_ＭＡＸである。
【００９２】
処理２８３は、変数Ｉの値を乱数の種として、学習データ７０をリサンプリングし、リサンプリングデータセットを作成するステップ２６２と、ステップ２６２でリサンプリングされたデータセットから、変数Ｊ（１≦Ｊ≦Ｊ_ＭＡＸ）の値を１ずつ変化させながら、次のステップ２８６を実行するステップ２８４とを含む。繰返し回数はＪ_ＭＡＸである。
【００９３】
ステップ２８６は、バギング数Ｋ（１≦Ｋ≦Ｋ_ＭＡＸ）を１ずつ変化させながら、以下の処理２８７を繰返すステップ２８６を含む。
【００９４】
処理２８７は、変数Ｊを乱数の種として用い、ステップ２６２で作成されたリサンプリングデータセットから、Ｋ個のデータサブセット１００，…，１０４（図１を参照）を作成するステップ２８８と、ステップ２８８で作成されたＫ個のデータサブセット１００，…，１０４を用い、Ｂｏｏｓｔｉｎｇ数Ｍ（１≦Ｍ≦Ｍ_ＭＡＸ）の値を１ずつ変化させながら、以下の処理を繰返すステップ２９０とを含む。
【００９５】
ステップ２９０で繰返される処理は、１つのＢｏｏｓｔｉｎｇ数Ｍに対して、特性の組Ｆ、Ｂｏｏｓｔｉｎｇ数Ｍ、バギング数（予測モデル１１０内のＡＤＴｒｅｅの数）Ｋを用い、予測モデル１１０を構築するステップ２６４と、ステップ２６４で構築された予測モデル１１０について、学習データ７０に含まれる全症例データを適用してそのスコアを算出し、実際の結果と比較してその予測モデル１１０の予測精度を算出するステップ２６６とを含む。
【００９６】
以上のように説明したステップ２８０以降の繰返し処理が終了すると、これらの処理で構築されたＱ×Ｉ_ＭＡＸ×Ｊ_ＭＡＸ×Ｋ_ＭＡＸ×Ｍ_ＭＡＸだけの個数の予測モデル１１０とそれらの予測精度とが得られる。
【００９７】
このプログラムはさらに、これら予測モデル１１０のうち、予測精度が最も高いものを予測モデル１３８（図１を参照）として選択し、記憶装置１３４に出力して処理を終了するステップ２６８を含む。
【００９８】
図７は、図６のステップ２６６で実行される予測精度算出処理のためのプログラムルーチンの制御構造の詳細を示すフローチャートである。図７を参照して、このルーチンは、学習データ７０に格納された全症例データに対し、以下に説明するステップ３０４−ステップ３１８を繰返すことにより、全症例データについてスコアを算出しこのときの症例データを識別する情報とともに保存するステップ３０２と、ステップ３０２により得られた結果を、学習データ７０内の実際の症例データと比較した結果に基づいて、予測モデル１１０による予測の精度を算出するステップ３３０と、ステップ３３０で算出された精度を、予測モデルの識別子とともに記憶装置１３４に保存して主ルーチンに復帰するステップ３３２とを含む。
【００９９】
予測の精度の算出方法としては種々考えられる。たとえば後述の実施例１では各モデルごとに実際の症例データとスコアとを比較してＲＯＣ曲線を描き、ＲＯＣ曲線の下側の面積ＡＵＣが大きいほど予測精度が高いと判定する。
【０１００】
ステップ３０２で繰返し行なわれる処理は、繰返し条件により定まる特性の組Ｆにより定められる特性の組を処理対象の症例データから抽出するステップ３０４と、ステップ３０４で抽出された特性の組のうち欠損データがあるときに、それらを予め準備した値で補充するステップ３０６とを含む。補充する値として、本実施の形態では、全症例データのうちで、この特性の有効な値の平均値を用いるものとする。
【０１０１】
ステップ３０２で行なわれる処理はさらに、予測モデル１１０内のＡＤＴｒｅｅのスコアの合計値を示す変数Ｓを０に初期化するステップ３０８と、変数Ｌを１からバギング数Ｋまで１ずつ変化させながら以下のステップ３１２及びステップ３１４の処理を繰返すことにより、予測モデル１１０のＡＤＴｒｅｅのスコアの合計を計算するステップ３１０と、ステップ３１０により予測モデル１１０に対して算出されたスコアＳの平均ＳＣＯＲＥを算出するステップ３１６と、ＳＣＯＲＥと、このときの繰返し条件とを組にして記憶してこのルーチンを抜け、つぎの症例データの処理に制御を移すステップ３１８とを含む。
【０１０２】
ステップ３１０において予測モデル１１０の各ＡＤＴｒｅｅに対して実行される処理は、予測モデル１１０のうち、Ｌ番目のＡＤＴｒｅｅについて、ステップ３０４及び３０６により得られた特性の組を与えてそのスコアＳ_Ｌを算出するステップ３１２と、スコアの合計値の変数Ｓにステップ３１２で得られたスコアＳ_Ｌを加算するステップ３１４とを含む。
【０１０３】
＜予測処理５４の構成＞
再び図１を参照して、予測処理５４は、学習処理５２により選択された予測モデル１３８を記憶する記憶装置（図示せず）と、予測対象の患者の臨床データ１５０と予測要求とをネットワーク又は端末から受け、学習処理５２において予測モデル１３８が生成されたときの特性の組に対応する特性を抽出する特性抽出処理１５２と、特性抽出処理１５２により抽出された特性データの中に欠損値があれば、その欠損値を学習データ７０から算出されたその特性の平均値で置換することで補充するための欠損データ補充処理１６０とを含む。このため、学習データ７０から得られた各特性の平均値を記憶装置１６２に予め記憶しておく。
【０１０４】
予測処理５４はさらに、特性抽出処理１５２により抽出され、欠損データが補充された特性の組を、予測モデル１３８に含まれるＡＤＴｒｅｅの各々に与えてそれぞれスコアを出力させるモデル適用処理１５６と、これに応答して予測モデル１３８の各ＡＤＴｒｅｅが出力するスコアを受け、その平均値を算出する平均値算出処理１５８とを含む。平均値算出処理１５８は、学習処理５２の平均値計算処理１３２と同様の機能を持つ。ただし、平均値計算処理１３２は予測モデル１１０内のＡＤＴｒｅｅの数（変化する）に応じて平均の計算方法を変化させるのに対し、平均値算出処理１５８は予測モデル１３８のＡＤＴｒｅｅ（個数は固定）の出力の平均を算出する機能さえ持てばよい。ＡＤＴｒｅｅの個数はすなわちバギング数である。予測モデル１３８のバギング数をＬ_ＭＡＸとする。
【０１０５】
予測処理５４はさらに、平均値算出処理１５８から出力された平均スコアに基づいて、対象患者にＡｘＬＮ転移が生じているか否かを診断し、予測依頼を送信してきた端末に診断結果を返信するための出力装置１５４を含む。
【０１０６】
図８に、予測処理５４をコンピュータハードウェアとの協働により実現するコンピュータプログラムの制御構造をフローチャート形式で示す。図８を参照して、このプログラムは、ネットワーク上の端末から予測対象の患者のデータとともに予測依頼を受けたことに応答して処理を開始する。このプログラムは、予測モデル１３８が必要とする特性の組の値を予測依頼のメッセージから抽出するステップ４４０と、ステップ４４０で抽出された特性の組の値の中に欠損しているものがあれば、その値として記憶装置１６２に記憶された平均値を代入するステップ４４２と、予測モデル１３８に含まれるＡＤＴｒｅｅのスコアの合計を示す変数Ｓを０で初期化するステップ４４２と、この特性の値に対応する、予測モデル１３８のスコアＳを算出するステップ４４６と、ステップ４４６で算出されたスコアＳの平均を計算することにより、与えられた症例データに対する最終的なスコアＳＣＯＲＥを算出するステップ４５２と、このスコアＳＣＯＲＥの値の範囲に応じて処理を分岐させるステップ４５４とを含む。
【０１０７】
ステップ４５４の判定では、ＳＣＯＲＥ＜第１のしきい値（例えば３０）の時には高確率で転移なし（ステップ４５６）、第１のしきい値≦ＳＣＯＲＥ≦第２のしきい値（第１のしきい値より大なる値であり、例えば７０）のときには予測不能（ステップ４５８）、第２のしきい値＜ＳＣＯＲＥの時には高確率で転移ありとする（ステップ４６０）。もちろん、このときの判定のしきい値は、設計により変化させることができる。この例では３つの場合に分けて判定しているが、２値的な判定をすることも可能である。
【０１０８】
このプログラムはさらに、ステップ４５６，４５８，４６０のいずれかの判定結果を開いて端末に返信して処理を終了するステップ４６２を含む。
【０１０９】
ステップ４４６の処理では、変数Ｌを１から予測モデル１３８内のＡＤＴｒｅｅの数を示す値Ｌ_ＭＡＸまで１ずつ変化させながら、以下の処理が繰返される。すなわち、患者データから得られた特性の組を、Ｌ番目のＡＤＴＲＥＥに与えてそのスコアＳ_Ｌを算出し（ステップ４４８）、そのスコアＳ_Ｌを変数Ｓに加算する（ステップ４５０）。
【０１１０】
ステップ４５２では、スコアの合計Ｓをバギング数Ｌ_ＭＡＸで除算することにより、ＳＣＯＲＥが算出される。
【０１１１】
［動作］
上記実施の形態に係る診断装置５０は以下のように動作する。診断装置５０の動作は、大きく分けて３つのフェーズに分割される。第１のフェーズは特性選択処理５６による、特性の順位付けの処理である。第２のフェーズは、学習処理５２による予測モデル１３８の生成である。第３の処理は、学習処理５２により得られた予測モデル１３８を用いた予測処理５４を起動し、外部からの予測依頼を待って、予測依頼があるたびにその患者にＡｘＬＮ転移が起こっている可能性があるかどうかを診断し、送信する処理である。
【０１１２】
最初に特性選択処理５６による特性の選択処理について説明する。この処理では、学習データ７０を用い、予め定められた種類の特性を全て用いてＳＶＭの学習を行ない、その結果得られたＳＶＭの学習データ７０に対する予測精度がどの程度かを測定する（図２のステップ２２０−２２６）。次に、全体の特性の中から任意の１つをのぞき、ＳＶＭの学習を行なう（ステップ２３０）。得られたＳＶＭによる学習データ７０の予測精度を算出し、記憶する（２３２）。次に、全体の特性データから、別の特性データを抜いたもので同様にＳＶＭの学習をし、その精度を確認し記憶する（ステップ２３０、２３２）。この処理を、全ての特性から１つだけ順番に取り除きながら繰返す。全ての特性についてこの処理が終了した時点で、その特性を抜いてＳＶＭを学習したときの精度低下が最も大きかった特性が判明する。その特性の番号を配列に記憶する（ステップ２３４）。
【０１１３】
以上の処理で、ＳＶＭの精度に最も影響を与える特性が判明する。
【０１１４】
次に、上記した処理で選ばれた特性を抜いた残りの特性についても、同様にしてＳＶＭの精度に最も影響を与える特性を判定し、その特性の番号を配列に記憶する。こうして、順番に、ＳＶＭの精度に影響を与える特性の番号が記憶されてゆく。最後の２つの特性について、一方が他方よりもＳＶＭの精度に影響を与えることが分かった時点で、全ての特性について、精度に対する重要度が分かる。これらを予め記憶しておく。これら特性の先頭からいくつかの特性を選ぶことにより、複数の特性の組Ｆを作成する。たとえば先頭から５個までを組Ｆ_１、１０個までを組Ｆ_２、１５個までを組Ｆ_３、２０個までを組Ｆ_４、２５個までを組Ｆ_５、３０個までを組Ｆ_６、及び３５個までを組Ｆ_７という７種類の特性グループとしてそれぞれまとめる。
【０１１５】
このようにして特性の順位付けが終わると、学習処理５２による予測モデル１３８の生成が可能になる。
【０１１６】
図１及び図６を参照して、リサンプル処理９０の開始に先立って、学習の条件を設定する（ステップ２６０）。ここでは、特性の組として先頭からどの組までを学習で使用するかに関する指定（Ｑ）、リサンプル学習データセット９２，…，９４の数に関する指定（Ｉ_ＭＡＸ）、バギング時のバギング数に関する指定（Ｋ_ＭＡＸ）、同一バギング数で何回モデル作成を繰返すかに関する指定（Ｊ_ＭＡＸ）、及びＡＤＴｒｅｅのＢｏｏｓｔｉｎｇ数に関する指定（Ｍ_ＭＡＸ）が行なわれる。
【０１１７】
次に、学習データ７０を準備し、特性の組をＦ_１からＦ_Ｑまで変えながら、かつ変数Ｉの値を１からＩ_ＭＡＸまで１ずつ変化させながら、以下の処理（図６の処理２８３）を繰返す（図６のステップ２８２）。
【０１１８】
この繰返し処理では、学習データ７０から変数Ｉの値を乱数の種とするリサンプルによりＩ個のリサンプル学習データセット９２，…，９４を作成する。ここでは、学習データ７０の偏りを考慮して、ＡｘＬＮ転移が生じていた症例データとＡｘＬＮ転移が生じていなかった症例データとが同数だけサンプリングされるように、サンプルの抽出比率を調整する。
【０１１９】
次に、変数Ｊの値を１からＪ_ＭＡＸまで変化させながら（図６のステップ２５４）、かつバギング数Ｋの値を１からＫ_ＭＡＸまで１ずつ変化させながら（図６のステップ２８６）、次のデータサブセットのサンプリング処理９５（図６の処理２８７）を繰返す。
【０１２０】
データサブセットのサンプリング処理９５では、リサンプル学習データセット９２，…，９４の各々に対して変数Ｊの値を乱数を種とするサンプリングを行ない、１つのＪの値につきバギング数Ｋに応じた個数のデータサブセット１００，…，１０４を作成する。
【０１２１】
モデル学習処理９７（図６のステップ２９０）は、Ｂｏｏｓｔｉｎｇ数Ｍを１からＭ_ＭＡＸまで１ずつ変化させながら以下を実行する。すなわち、作成されたデータサブセット１００，…，１０４をそれぞれ学習データとして、ＡＤＴｒｅｅの最大深さをＢｏｏｓｔｉｎｇ数Ｍとして、予測モデル１１０に含まれるＡＤＴｒｅｅの学習を行なう（図５及び図６のステップ２６４）。学習が行なわれた予測モデル１１０は、モデル選択処理７４による精度計算に供される（ステップ２６６）。この繰返しにより、全ての予測モデル１１０に対して精度が計算される。
【０１２２】
モデル選択処理７４（ステップ２６４）では、全ての症例データについて以下の処理が実行される。その症例データから特性データの組Ｆを抽出する。抽出された特性の中に、欠損データがあれば、その特性の平均値として予め計算されていた値を補充する。欠損データを補充した後の特性の組を予測モデル１１０に与える。症例データに対して予測モデル１１０中の複数のＡＤＴｒｅｅが出力するスコアは平均値計算処理１３２において平均され、その症例データのスコアが算出される。このスコアが保存され、実際の症例データと比較される。比較結果を統計的に処理し、ＲＯＣ曲線より下の面積（ＡＵＣ値）を算出する（ステップ３３０）。この予測精度は、このときの予測モデルの識別子とともに記憶装置に記憶される（ステップ３３２）。
【０１２３】
以下同様にして、Ｂｏｏｓｔｉｎｇ数Ｍ、バギング数Ｋ，変数Ｊ及びＩ，ならびに変数の組Ｆを指定された範囲で順番に変化させながら、全ての組合せについて、構築された予測モデル１１０の予測制度を算出して記憶する。この結果、予測モデルはＱ×Ｉ_ＭＡＸ×Ｊ_ＭＡＸ×Ｋ_ＭＡＸ×Ｍ_ＭＡＸだけ作成され、それと同数の予測精度が記憶装置に記憶されていることになる。
【０１２４】
たとえばＱ＝７（特性の組が７個）、Ｉ_ＭＡＸ＝１０（リサンプル学習データセット９２，…，９４の数が１０）、Ｊ_ＭＡＸ＝５（特定のバギング数に対するモデル作成の繰返し数が５）、バギング数の数Ｋ_ＭＡＸ＝１０、Ｂｏｏｓｔｉｎｇ数の数Ｍ_ＭＡＸ＝１０とすると、得られる予測モデル１１０の数は全部で７×１０×５×１０×１０＝３５，０００個である。これら予測モデル１１０の中で、学習データに対する予測精度が最も高い予測モデルを予測モデル１３８として選択する（ステップ２６８）。この予測モデル１３８が予測処理５４に格納され、対象患者データについての予測請求を受けたときの予測に用いられる。予測モデル１３８が得られたときの条件のうち、使用された特性の組Ｆ及びバギング数Ｍが同時に予測処理５４に与えられ記憶される。
【０１２５】
−予測時−
図１及び図８を参照して、予測処理５４は以下のように実行される。対象患者の臨床データ１５０及び予測要求をオンラインで、又は端末から受信すると、特性抽出処理１５２は、臨床データ１５０から、予測モデル１３８が得られたときの特性の組Ｆにしたがって特性を抽出する（ステップ４４０）。記憶装置１６２には、特性の組Ｆに含まれる各特性について、学習データ７０中の有効データから算出した平均値が記憶されている。欠損データ補充処理１６０は、特性抽出処理１５２が臨床データ１５０から抽出した特性データの中に欠損データがあるときには、そのデータの平均値をその箇所に補充する（ステップ４４２）。こうして欠損データが補充された特性はモデル適用処理１５６に与えられる。モデル適用処理１５６は、これら特性を予測モデル１３８内の各ＡＤＴｒｅｅに適用することで、各ＡＤＴｒｅｅについてスコアを算出し出力する（ステップ４４０）。これらＡＤＴｒｅｅの出力は平均値算出処理１５８に与えられる。平均値算出処理１５８は、予測モデル１３８のＡＤＴｒｅｅの出力するスコアの合計を計算し、さらに予測モデル１３８が得られたときのバギング数Ｌ_ＭＡＸで除算することにより、予測のためのスコアを算出する（ステップ４５２）。そのスコアの値により、高確率で転移あり、予測不能、高確率で転移なし、という診断がされ（ステップ４５４−４６０）、予測要求を送信してきた端末に返信される（ステップ４６２）。
【０１２６】
本実施の形態に係る診断装置５０によれば、予測処理５４の予測のためのモデルとしてＡＤＴｒｅｅが用いられる。ＡＤＴｒｅｅによる予測モデルによれば、通常の決定木とは異なり、特性に欠損値が存在していても予測が不可能となることはなく、ある程度の信頼性を持ってスコアを算出できる。そのため、対象患者に対するＡｘＬＮ転移の発生の可能性を判断するための１つの重要な診断情報を得ることができる。予測モデル１３８としてＡＤＴｒｅｅを複数個有するものが選択された場合には、さらに複数個のＡＤＴｒｅｅの出力が平均されるので、データ欠損による影響が少なくなり、予測の信頼性がより高くなる。特に特定の病気の臨床データについては、過去の症例までさかのぼって欠損のない学習データを準備することはほとんど不可能であり、欠損データの発生は避けがたい。本実施の形態のように欠損データに対しても安定して信頼性の高い予測結果が利用可能となることにより、医師は、治療方針を決定する際に、より確信を持って適切な処置を選択することが可能となる。なお、後掲の実施例１の記載から分かるように、欠損データにどのような平均値以外の値を補充した場合であっても、得られる予測モデルの精度は安定している。
【０１２７】
学習時には、バギング数、リサンプルにより作成する学習データセットの数、ＡＤＴｒｅｅのＢｏｏｓｔｉｎｇ数、予測の際に利用される特性の組、同じバギング数で繰返し生成するモデルの数などを変化させて予測モデル１１０の構築をさせ、学習データで各モデルの予測精度を検証し、実際の予測には、最も高い予測精度を示したモデルを用いる。そのため、数多くの要因を考慮し、特性間の隠れた関係まで考慮した診断が可能となっている可能性が高い。症例データの偏りを補償するために、リサンプル時にはデータの偏りを制御している。その結果、症例数の偏りが異なる可能性もある独立した別のデータであっても、比較的安定した高い精度でＡｘＬＮ転移の発生を予測できる。
【０１２８】
なお、上記した実施の形態は、理解を容易とするために乳がん患者におけるＡｘＬＮ転移の発生を予測する場合を例として説明した。後掲の実施例１はその具体例である。しかし本発明はそのような実施の形態に限定されることはない。たとえば乳がん以外の病気の患者に対する診断に適用することもできる。さらに、症例データと同様のデータが学習データとして準備できれば、それらに対しても適用できる。しかも少ない症例データでも比較的信頼性の高い結果を得ることができる。
【０１２９】
上記した実施の形態では、予測モデル中の複数個のＡＤＴｒｅｅによる出力する数値の平均値を算出し、その数値に基づいてＡｘＬＮ転移の有無を予測している。しかし本発明はそのような実施の形態には限定されない。もともとＡＤＴｒｅｅでは、各ツリーの出力値がプラスかマイナスかにより、サンプルがあるカテゴリに属するか否かを判定するためのものである。したがって上記実施の形態において、予測モデル中の各ＡＤＴｒｅｅの出力する数値の符号がプラスかマイナスかを調べ、多数決によりＡｘＬＮ転移の有無の予測を行なってもよい。また、各ＡＤＴｒｅｅの出力する数値はそのまま合計し、合計の符号がプラスかマイナスかによって予測を行なうようにしてもよい。こうした場合には、学習時にも同様の判定を行なうようにする必要があるのはいうまでもない。
【０１３０】
なお、ＡＤＴｒｅｅの数は予め分かっているから、平均値としきい値との比較は、論理的には合計値としきい値との比較と同等である。しきい値にＡＤＴｒｅｅの数を乗ずるか否かが異なるだけである。
【０１３１】
さらに、上記した実施の形態は、使用するデータ及び特性などを別のものに置換えると、そのまま別のケースに適用できる。たとえば、特定の薬がある患者には非常に有効であるが、ほかの患者にはそれほど有効ではなく、しかも副作用の可能性もある、というような場合がある。従来、投薬するか否かは医師が経験により判断していた。しかし、実際にその薬を投与した患者に関する症例データを集めることができれば、新たな患者に対してその薬を投与すべきか否かの判断に本実施の形態と同様の装置を適用できる。実際の症例データに対して本実施の形態を適用したのが後掲の実施例２である。
【０１３２】
特性の組を構成する特性は、いずれも非侵襲性であると、患者に与える負担が少なくて好ましい。しかし、仮に侵襲性の検査結果が利用可能であれば、それを利用することもできる。ＡＤＴｒｅｅでは、欠損データがあっても比較的精度高い予測を行なうことができるという特徴がある。したがって、侵襲性の検査結果が特性の組に入っている場合、診断対象の患者についてその検査結果が得られていなくても比較的正確な結果が得られることが期待できる。
【０１３３】
［コンピュータによる実現］
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図９はこのコンピュータシステム５５０の外観を示し、図１０はコンピュータシステム５５０の内部構成を示す。
【０１３４】
図９を参照して、このコンピュータシステム５５０は、メモリポート５７２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ５７０を有するコンピュータ５６０と、キーボード５６６と、マウス５６８と、モニタ５６２とを含む。
【０１３５】
図１０を参照して、コンピュータ５６０は、メモリポート５７２及びＤＶＤドライブ５７０に加えて、ＣＰＵ（中央演算処理装置）５７６と、ＣＰＵ５７６、メモリポート５７２及びＤＶＤドライブ５７０に接続されたバス５８６と、コンピュータ５６０のブートアッププログラムなどを記憶する読出専用メモリ（ＲＯＭ）５７８と、バス５８６に接続され、アプリケーションプログラム、システムプログラム、及び作業データなどを記憶するランダムアクセスメモリ（ＲＡＭ）５８０と、不揮発性の記憶装置であるハードディスクドライブ（ＨＤＤ）５７４とを含む。
【０１３６】
コンピュータ５６０はさらに、ローカルエリアネットワーク（ＬＡＮ）５５２への接続を提供するネットワークＩ／Ｆ５９６を含む。ＬＡＮ５５２は図示しないルータなどを介してインターネット接続されている。ＨＤＤ５７４にはＷＥＢサーバプログラムが格納されており、コンピュータ５６０の起動時に実行を開始する。このＷＥＢサーバプログラムは、予め所定のプログラム名を指定して診断要求がインターネットから受信されると、受信したパラメータを引数としてそのプログラムを起動し、プログラムの出力（ＨＭＴＬファイル）を相手端末のＷＥＢブラウザに返信する機能を持つ。この機能は通常のＷＥＢサーバが持つよく知られた機能である。
【０１３７】
コンピュータシステム５５０にリンパ節転移診断装置としての動作を行なわせるためのコンピュータプログラムは、ＤＶＤドライブ５７０に挿入されるＤＶＤ５８２、又はメモリポート５７２に装着されるフラッシュメモリ５８４に記憶され、ＤＶＤドライブ５７０又はメモリポート５７２を介してＨＤＤ５７４に転送される。又は、プログラムはＬＡＮ５５２上のコンピュータからＬＡＮ５５２を通じてコンピュータ５６０に送信されＨＤＤ５７４に記憶されてもよい。プログラムは実行の際にＲＡＭ５８０にロードされる。
【０１３８】
このプログラムは、コンピュータ５６０にこの実施の形態に係るリンパ節転移診断装置としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ５６０上で動作するオペレーティングシステム（ＯＳ）もしくはサードパーティのプログラム、又はコンピュータ５６０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記したリンパ節転移診断装置としての動作を実行する命令のみを含んでいればよい。コンピュータシステム５５０の動作は周知であるので、ここでは繰返さない。
【実施例１】
【０１３９】
以下の条件で上記した診断装置５０を作成し、実際の症例データを使用してその性能について評価した。適用する症例は原発性の乳がん患者におけるＡｘＬＮ転移の有無の判定である。
【０１４０】
（使用するパラメータ）
使用する特性の具体的な項目は後述することとし、この実施例では、特性の組として、上位５個、１０個、１５個、２０個、２５個、３０個、及び３５個の７組を選び、ステップ２８０（図６を参照）での繰返しに用いる。すなわちＱ＝７である。バギング数、Ｂｏｏｓｔｉｎｇ数、リサンプリング時の乱数の種はそれぞれ１〜１０の範囲で１ずつ変化させる。すなわちＭ_ＭＡＸ＝Ｋ_ＭＡＸ＝１０、Ｉ_ＭＡＸ＝１０である。Ｂａｇｇｉｎｇ時の乱数の種は１−５までの５種類とした。すなわちＪ_ＭＡＸ＝５である。
【０１４１】
（学習データ及び学習方法）
─患者─
本実施例では、２００５年から２００６年にかけて東京都立がん・感染症センター駒込病院で治療を受けた原発性乳がん患者の症例２７２件のうちの１６８件を学習データ７０として用いた。この中には、組織学的に原発性侵襲性乳がんと診断された患者であって、ＳＬＮ生検を受けて、以前に治療経験のなかった患者（及びｎｅｏａｄｊｕｖａｎｔ療法を受ける前にＳＬＮ生検を受けた患者も含む。）、又は、組織学的に原発性侵襲性乳がんと診断された患者であって、ＡＬＮＤを受け、それ以前に何ら治療を受けなかった患者とが含まれる。
【０１４２】
検証に用いたデータは、２００８年１月から２００８年８月の間に京都大学医学部付属病院で治療を受けた原発性乳がん患者８６人のうちの５６人のデータからなる。検証に用いた患者の選択基準は、学習に用いた患者の選択基準と同じである。
【０１４３】
（ＳＬＮ生検及び組織学的評価）
ＳＬＮを特定するために用いた方法は公知のものである。学習データの患者については、テクネシウム−リン酸化合物からなる放射性トレーサを用いてＳＬＮを特定した。検証用データの患者については、インドシアニン・グリーン（ＩＣＧ）を用いた染色・蛍光ナビゲーション技術を用いてＳＬＮを特定した。
【０１４４】
学習データの患者については、ステップ−セクション法により病理組織切片を作成し、ヘマトキシリン／エオジン（Ｈ／Ｅ）染色し、ＣＡＭ５．２免疫組織化学染色を行なってＳＬＮを評価した。検証データの患者については、２ミリメートル間隔でＳＬＮをスライスし切片を作成し、Ｈ／Ｅ染色して評価した。
【０１４５】
ＡＬＮＤ（腋窩リンパ節郭清）に続いて得られたリンパ節については、各ノードから割面が最大となる１つのＨ／Ｅ染色後の切片を用いて評価した。
【０１４６】
転移があるか否かは、直径が少なくとも０．２ミリメートルのがん細胞群が少なくとも１つのリンパ節に存在しているか否かによって定めた。孤立した腫瘍細胞（直径２ミリメートル未満）が存在していたとしても、本実施例ではリンパ節への転移はないものとして扱った。
【０１４７】
（変量及び前処理）
各患者について収集された臨床データは、年齢、身長、体重、閉経状態、身体所見（視診又は触診による所見）、画像所見（マンモグラフィ及び超音波診断による所見）、治療前の針生検病理組織学的所見（組織型、核グレード、エストロゲン受容体［ＥＲ］、プロゲステロン受容体［ＰｇＲ］、ヒト上皮成長因子受容体２［ＨＥＲ２］、腋窩外科処置の方法（ＳＬＮ生検又はＡＬＮＤ）、及び手術後の病理組織学的所見（リンパ節転移）を含む。テーブル１に、収集したデータの詳細を示す。
【０１４８】
身体所見は日本乳癌学会により認定された認定医又は専門医により得た。画像所見は適切な認定機関（マンモグラフィ検診精度管理中央委員会、日本乳腺甲状腺超音波診断会議）により認定された乳癌を専門とする医師又は日本乳癌学会専門医の少なくとも２人により得た。病理学的所見は乳腺を専門とする病理学専門医により得た。
【０１４９】
統計的分析では、量的変数はそのまま直接用い、定性的変数については等級付けして用いた。等級付けの基準は乳腺外科、放射線診断科、及び病理学の分野の専門医からなる委員会により定めた。他の変数に依存するカテゴリ変数、例えばＴＮＭステージ又はマンモグラフィカテゴリなどはこの分析からは除外された。関係する変数のうち、いずれが関連しているかを明確にするためである。全ての患者について同じ値であった変数も除外した。各変数は線形正規化により０から１までの値に変換した。
【０１５０】
（データ分析）
学習時、リサンプリングフェーズにおいて、偏りを制御したリサンプリングによって、学習データセットの多数の複製サブセットを、リサンプリングされた各データセット中でリンパ節転移陰性の疾患患者数とリンパ節転移陽性の疾患患者数との比率がほぼ等しくなるように生成した。これらリサンプリングデータセットの数は１０個である。
【０１５１】
次に、これらリサンプリングデータセットの各々を用いて予測モデルを構築した。テストフェーズでは、学習データセット全体の症例データを用いてＡｘＬＮ転移の有無を各モデルで予測し、ＲＯＣ曲線の下側面積ＡＵＣが最も大きくなったモデルが選択された。検証フェーズにおいて、選択されたモデルを検証データセットに適用した。
【０１５２】
この実施の形態では、リサンプル学習データセット９２，…，９４の数は１０（Ｉ_ＭＡＸ＝１０）である。ＳＶＭを用いた特性の順位付けを行なった上、それぞれ上位５個、１０個、…３５個の変数からなる７個の特性の組を重要な変数のサブセットとして選択した（Ｑ＝７）。Ｂｏｏｓｔｉｎｇ数Ｍは１、２、…１０であった（Ｍ_ＭＡＸ＝１０）。バギング数は１，２，…，１０とし（Ｋ_ＭＡＸ＝１０）、その各々について乱数の種の値を１、２、…５（Ｊ_ＭＡＸ＝５）と異ならせたサンプリングにより学習データのサブセットを作成した。したがって、３５，０００個の予測器が開発された。
【０１５３】
モデルの汎化能力を評価するために、１０分割相互検証（１０−ｆｏｌｄｃｒｏｓｓｖａｌｉｄａｔｉｏｎ：ＣＶ）を行なった。
【０１５４】
まず、重要度の認識されていない変数が予測結果に及ぼす影響を評価するために、いくつかの既知の予測因子を除く、利用可能な全ての変数を用いて、ＡＤＴｒｅｅを開発し、作成されたモデルの予測値を評価した。したがって、重要度が認識されていない変数も予測器に組入れられている。その後、変数減少法による変数選択を行なって、予め外しておいた既知の予測因子と予測器の結果から独立した共変量を決定し、ＳＮＬ転移を予測するＬｏｇｉｓｔｉｃモデルを開発した。
【０１５５】
最良のモデルを用いた検証分析ののち、さらに検証データセットのリサンプリングを行ない、多数のリサンプルされた検証サブセットを生成した。その後、各データセットについてモデルの予測値を評価した（ブートストラップ分析）。さらに、欠損値に対する予測器の堅牢性を評価するため、データセット中の欠損値をランダムに埋めた。
【０１５６】
リサンプリング、ＳＶＭ−ＦＳ、バギング及びＡＤＴｒｅｅの開発にはＷｅｋａ（ｖｅｒ．３．６．１；ＵｎｉｖｅｒｓｉｔｙｏｆＷａｉｋａｔｏ，Ｈａｍｉｌｔｏｎ，ＮＺ）を用い、多変数解析にはＪＭＰ（登録商標）（ｖｅｒ．７．０．１，ＳＡＳＩｎｓｔｉｔｕｔｅＪａｐａｎ，Ｔｏｋｙｏ，Ｊａｐａｎ）を用いた。
３．結果
学習及び検証データの臨床病理学的特性を表１にまとめた。学習データセットでは４９名の患者にリンパ節転移があり（２９．２％）、検証データセットでは１５名（２６．８％）であった（統計的有意差ではない）。いくつかの変数の分布に関して、２つのデータセットに有意の差があった。
（テーブル１の１）
【０１５７】
【表１】

（テーブル１の２）
【０１５８】
【表２】

（テーブル１の３）
【０１５９】
【表３】

（テーブル１の４）
【０１６０】
【表４】

モデル開発の繰返しの間に、テストで予測器が最も良いＡＵＣ値を示したのは、ＳＶＭ−ＦＳに２０の変数を選択し、バギング数が７であり、ＡＤＴｒｅｅのＢｏｏｓｔｉｎｇ数が１０の時であった。ＡｘＬＮ転移の予測された確率及び選択された予測器を用いて生成したＲＯＣ曲線をプロットしたものを図１１に示す。ＡＵＣ値は、リサンプリングされた学習データセットについてはＲＯＣ曲線４２０で示されるように０．９６（９５％ＣＩ（信頼区間）：０．９３−０．９８、ｐ＜０．０００１）、テストについてはＲＯＣ曲線４２４で示されるように０．８９（９５％ＣＩ：０．８４−０．９４、ｐ＜０．０００１）、検証データセットについては曲線４２６で示されるように０．８６（９５％ＣＩ：０．７６−０．９５、ｐ＜０．０００１）であった。図１１には、全学習データセットを使用したＣＶについてのＲＯＣ曲線４２２も参考のために示してある。
【０１６１】
図１２−図１８は選択された予測器のＡＤＴｒｅｅを示す。これらツリーは１４個の変数からなる：４個の超音波所見（腫瘤の縦横比、ハロー、前方乳腺境界線断裂、及びリンパ節最大サイズ）、４個のマンモグラフィ所見（腫瘤の存在、石灰化の形状、背景濃度、及び分布）、４個の視触診所見（乳頭牽引、乳頭分泌、皮膚の陥凹所見、及びリンパ節の触知可能性）、２個の病理組織学的所見（核グレード、組織型）である。
【０１６２】
予測器の予測結果と既知の予測因子を用いた多変量解析には、以下の因子を用いた。すなわち、年齢、閉経、腫瘤のサイズ（超音波による）、腫瘤の数（超音波及びマンモグラフィによる）、ＥＲレベル、及びＰｇＲレベルである。肥満度指数（Ｂｏｄy ｍａｓｓｉｎｄｅｘ：ＢＭＩ）も変数に加えた。特性選択により、以下の特性の組が選ばれた。すなわち、予測器の予測結果（オッズ比１２１９０．９，９５％ＣＩ：９１２．７−２８５１３７．４、ｐ＜０．０００１）、腫瘤の数（超音波による）（オッズ比１．３９８、９５％ＣＩ：０．７８２７−２．４７０、ｐ＜０．２４８３）、及び腫瘤のサイズ（超音波による）（オッズ比６・６９４、９５％ＣＩ：１．００３−５５．７２、ｐ＜０．０６１３）。これら３個の変数によるＬｏｇｉｓｔｉｃ回帰モデルによって生成されたＡＵＣ値はそれぞれ、テストについて（全学習データセットを使用）０．８９（９５％ＣＩ：０．８４−０．９４、ｐ＜０．０００１）、全学習データセットを使用したＣＶについて０．８８（９５％ＣＩ：０．８２−０．９３、ｐ＜０．０００１）、検証テストについて０．８５（９５％ＣＩ：０．７５−０．９５、ｐ＜０．０００１）であった。ＣＶ及び検証テストの結果は予測器の予測結果のみに比べわずかに劣った。
【０１６３】
比較的偏りのない推定を得るために、ブートストラップ法を用いて学習及び検証データセットを１０００回繰返して得た。ブートストラップされたデータセットの平均ＡＵＣ値は，学習データセット及び検証データセットのそれぞれについて、０．９０±０．０２６（標準偏差［ＳＤ］）及び０．８５±０．０５３であった。欠損値に対する予測器の堅牢性を評価するため、欠損値をランダムな値に置換えて学習データセット及び検証データセットの繰返しを１０００個生成した。生成されたデータセットの平均ＡＵＣ値は、学習データセット及び検証データセットのそれぞれについて、０．８６±０．０１１及び０．８３±０．０２であった。
【０１６４】
この実施例で用いた、偏りを制御したリサンプリング、特性選択及びバギング技術の寄与を評価するため、各手順ありとなしとの場合に分けて比較試験を行なった（表２）。リサンプリング手順なしの場合、ＣＶ及び検証テストでのＡＵＣ値はそれぞれ０．８６から０．６９、０．８６から０．７５と大幅に劣化した。特性選択の特徴をなしにした場合も結果は同様であり、ＣＶ及び検証のＡＵＣ値はそれぞれ０．８２と０．５５とに下がった。バギング技術なしの場合、検証テストのＡＵＣ値はわずかに影響を受けたのみで（０．８７）、ＣＶでは値は０．８６から０．８３へ、テストでは０．８９から０．８５へとわずかに減少した。
（テーブル２）
【０１６５】
【表５】

４．議論
これまでに報告されているノモグラム及びスコアリングシステムでは、独立した予測因子として、腫瘍サイズ、年齢、リンパ管侵襲（ｌｙｍｐｈｏｖａｓｃｕｌａｒｉｎｖａｓｉｏｎ：ＬＶＩ）、組織型、多病巣性、ＥＲ及びＰｇＲを含む変数が用いられている。ＡｘＬＮ転移予測のために開発されたメモリアルスローン−ケッタリング癌センター（ＭｅｍｏｒｉａｌＳｌｏａｎ−ＫｅｔｔｅｒｉｎｇＣａｎｃｅｒＣｅｎｔｅｒ：ＭＳＫＣＣ）ノモグラムは９個の変数を含む：年齢、腫瘍サイズ、腫瘍の種類、ＬＶＩ、多病巣性、核グレード、腫瘍の局在、ＥＲ及びＰｇＲである。本件の予測モデル（図１２−図１８）の１４個の変数のうち、１２個は画像検査又は視触診で入手できる。視触診での皮膚の陥凹所見、ハロー及び前方乳腺境界線断裂は全て、周囲組織への腫瘍の浸潤の指標として知られている。これらの変数は多くのツリーのルートノードに直接リンクしており、スコアを増大させる。すなわち、これらのスコアは多くの場合加算され、所見の存在により、指標は転移を示す結果へ傾く。腫瘍の浸潤の具体的な所見とＡｘＬＮ転移との間に相関関係があるという証拠は少ないが、デロレンティス(ＤｅＬａｕｒｅｎｔｉｉｓ)らは、マンモグラムにおいてスピキュラを伴う腫瘍境界はＡｘＬＮ転移と相関があると結論付けている。触診によるリンパ節触知可能性と超音波画像によるＡｘＬＮの最大サイズは本件のモデルではともに何回か選択されている。これらの変数は互いに相関があり、ＡｘＬＮの腫脹は経験的に転移の兆候であると考えられる。触診から判断される臨床的なリンパ節の状態もまた、オリボット（Ｏｌｉｖｏｔｔｏ）らによりＡｘＬＮ転移の予測因子であると報告されている。
【０１６６】
視触診で特定された乳頭分泌と、マンモグラムで石灰化から乳頭までの距離が短いこととは、それぞれ、乳管内腫瘍の存在と、乳管内腫瘍の乳頭への広がりを示唆する。本件のモデルでは、もしこれら変数のスコアを合計すると、総スコアが減少する。これらの変数は以前にはＡｘＬＮ転移に関連があるという報告はなされていない。視触診で特定された乳頭牽引は、皮膚の陥凹所見がある場合のみ計算され、これはスコアを減少させる。これら２つの変数をこのように扱うのは、乳頭牽引と皮膚の陥没所見とが本質的に同じ現象に基づくものであり、これらは通常同時には存在しないからである。
【０１６７】
いくつかの変数は、スコア増加要因となる場合も、減少要因となる場合もあることが分かった。超音波での腫瘤の縦横比が大きいことはＢＩ−ＲＡＤＳ（登録商標）レキシコンにおける「非平行配向」と同義であり、悪性（腫瘍）の兆候であると考えられる。しかし、これが本件モデルにおいてスコアを増加させるか減少させるかは関連の変数に依存する。本件モデルは、マンモグラムによる石灰化の所見を含む。石灰化とＡｘＬＮ転移との関係は不明であるが、石灰化もまた、関連の変数に依存して、スコアを増加又は減少させるように作用する。本件モデルでは、マンモグラムで腫瘤が存在すると、そのスコアを合計したときにスコアが減少する。これに対し、腫瘍の触知可能性は、リンパ節転移を予測するものであるという報告がある。しかし、これら２つの所見は直接比較可能なものではない。なぜならマンモグラフでの腫瘤の検出可能性は腫瘍のサイズのみならず背景乳腺濃度にも影響を受けるからである。
【０１６８】
２つの病理学的変数、組織型と核グレードとは、本件のツリーの第２層と第３層とに位置する。核グレードのスコアは超音波での評価で腫瘤が小さい場合に計算され、高グレードであるとツリーのスコアは減少する。この結果はバースら（Barth A, Craig PH, Silverstein MJ. Predictors of axillary lymph node metastases in patients with T1 breast carcinoma. Cancer. May 15 1997;79(10):1918-1922.）、及びケイウッドら（Caywood J, Gray RJ, Hentz J, Pockaj BA. Older age independently predicts a lower risk of sentinel lymph node metastasis in breast cancer. Ann Surg Oncol. Dec 2005;12(12):1061-1065.）の所見とは対立するが、本件での所見を、これら２件の先行する研究で行なわれた単純な一変量相関分析の結果と比較することはできない。なぜなら、本件では、変数は第１層より下に位置づけられ、そのスコアは全ての場合に加算されるわけではないからである。さらに、これら２つの変数は、このツリーでは各々１度選択されるだけなので、最終的な予測値に及ぼす影響は限られている。
【０１６９】
本件のモデルは、これまでは予測因子として報告されていなかった画像所見又は診察所見からいくつかの具体的な変数を含める点を特徴とする。いずれにせよ、ＡｘＬＮ転移の予測に対する本件変数の効果を解釈するためには、他の変数との関係を考慮する必要がある。
【０１７０】
どのような予測モデルにおいても、入力の利用可能性と精度とがモデルの予測可能性を決定する。ＭＳＫＣＣノモグラムにおける変数のうち、ＬＶＩは針生検標本から得ることは困難であり、ＥＲ及びＰｇＲは免疫組織化学的手法を必要とする。これに対し、本件モデルで利用する変数は、視触診所見、マンモグラム、超音波、及び針生検の病理学的所見から容易に入手可能である。
【０１７１】
ここでは、学習データセットと検証データセットとの間でいくつかの変数の分布に差があった。そのような変数の１つが、ハローの存在の有無である。このような差が生じるのは、一部には、検証データセット（年齢中央値＝６０）が学習データセット（年齢中央値＝５５）に比べより背景乳腺が疎であると思われる、有意に年齢の高い患者（ｐ＝０．０３２６）から得られたものであることが原因と思われる。しかし、これらの差は実際には本件モデルの正確さと汎化能力とを支えるものである。なぜなら、変数の分布が異なっていても、独立したデータセットについて比較的安定した予測値を生成できるからである。
【０１７２】
使用したモデル化方法は、ブートストラップ及び欠損値置換分析において堅牢性が高く汎化能力も高いことが認められた。これは、しばしば欠損値の割合が高い臨床データセットを扱う場合には極めて重要である。さらに、新たな予測因子を見出すための分析を行なう場合には欠損値の問題に直面することがある。こうした問題の解決策の１つは、変数依存性をマニュアルで定義し、予測モデルを単純化することである。しかし、このような方策には、これまで予測因子として認められていなかった変数の予測に関する潜在的可能性を探るよりも、既知の予測因子を特定するのみになりがちである、という危険が伴う。このようなモデルの開発にあたっては、客観的基準に基づく変数のスクリーニングのための自動処理が重要である。
【０１７３】
本件の手順にはいくつかの限界があり、ここでそれに言及しておくべきであろう。検証テストの結果（図１９）において、Ｎ＋患者の全ての予測された転移可能性は３８％を超えているが、Ｎ−患者のうち少数の者は予測された転移可能性が５０％を超えていた。リサンプリングされたデータセット(図２０)と全学習データセット（図２１）とのプロットも、同様の分布を示した。したがって、リンパ節転移陽性の予測結果は、リンパ節転移陰性のものより信頼性が低い。学習データセット（ｎ＝１６８）及び検証データセット（ｎ＝５６）に寄与した患者数が比較的少ないこともまた考慮すべきであろう。ここで開発したモデルは従来の統計的分析に比べより大きな変数空間を記述する潜在力があり、この結果、所与の問題について過学習を起こしやすい。したがって、厳格な検証が必要である。バギング手順によってモデルの汎化能力が改善されるが、これはまた、モデルに複雑にしツリーの解釈可能性を減じる。予測性能のみならず変数依存規則についてもこのモデルで評価するためには、単純なモデル構造と正確な予測性能を達成しなければならない。
【０１７４】
ここで開発したモデルは、視触診所見、画像所見及び病理学的所見といった侵襲度の低いリンパ節転移予測因子を成功裏に探索した。低侵襲の因子を用いて高度に予測可能なモデルは、不要な侵襲度の高い検査を減じる可能性があり、このため、患者の生活の質と、医療費の削減とに寄与するであろう。例えば、このモデルがＡｘＬＮ転移のリスクは低いと予測した場合、合併症があり再発の危険が低いと想定される高齢の患者にはＳＬＮ生検は不要となるかもしれない。しかし、視触診所見及び画像診断による所見は、医療機関ごと、又は所見の判定者ごとの変動があり、このため、変数（又は画像所見の自動解釈）を的確に定義したガイドラインを用いて、大規模な他施設共同の検証研究を行なう必要があるであろう。最後に、本件で開発されたモデルは、その時点で入手可能な臨床データに基づいたものであって、より新しい臨床検査又は生体マーカ（例えば遺伝子マーカ）などが利用可能となった場合は、モデルを更新することも可能である。
【実施例２】
【０１７５】
術前化学療法の効果予測モデル
［背景］
原発性乳癌に対する術前化学療法は手術などの局所療法に先立って行なわれ、腫瘍径を小さくして乳房温存の可能性を高める、又は、抗癌剤などの薬剤に対する腫瘍の反応性を確認することなどを目的に行なわれる。術前化学療法により腫瘍が消失した場合(病理学的完全奏効:ＰａｔｈｏｌｏｇｉｃａｌＣｏｍｐｌｅｔｅＲｅｓｐｏｎｓｅ、ｐＣＲ)には、腫瘍が消失しなかった場合に比較して予後が良好であることが示されていることから、ｐＣＲによる予後の層別化が可能になる。しかし、術前化学療法は全例に有効というわけではなく、奏効率は６０−８０％、ｐＣＲ率は４−３０％程度である。治療開始前にｐＣＲとなる可能性が高くはないと予測される場合には、治療内容（レジメン）の再検討及び治療開始後の経過観察を密にするなどの治療計画における工夫が求められると共に、術前化学療法そのものの適応を再検討する必要がある。術前化学療法の治療途中には、治療開始後早期の反応性（縮小の程度）により最終的にｐＣＲとなる可能性が異なることが報告されており、ｎｏｎ−ｐＣＲ（非ｐＣＲ）と予測される場合にはその後のレジメンを調整するか、又は手術療法を検討する必要がある。また、術前化学療法終了後には手術が行なわれるが、ｐＣＲと予測される場合には手術による切除範囲は最小限にとどめられる可能性がある。しかし、画像上の残存腫瘍の程度と実際の病理組織での残存腫瘍の程度には時に乖離がみられることから、手術切除範囲の適正化という面でも高い精度でのｐＣＲ予測性が求められる。このため、術前化学療法前の情報に加え、術前化学療法の途中又は終了時の情報にてｐＣＲを予測することは臨床的に重要性が高い。また、こうした試みにより治療の個別化・適正化が推進され、さらには医療経済効果も期待できるものと考えられる。
【０１７６】
同様の研究として、ＲｏｕｚｉｅｒらがＬｏｇｉｓｔｉｃ回帰分析を用いたＮｏｍｏｇｒａｍを用いて術前化学療法の奏効性を予測するモデルを公開している（前掲の非特許文献２、３）。ｐＣＲを予測するモデルはＴカテゴリ、病理組織学的所見としての組織学的グレード、エストロゲン受容体、年齢、及び投与された化学療法のコース数を変数として取り込んでいる。学習データで学習時のＡＵＣ値は０．７７と低い（非特許文献２）。乳房温存療法の適応可能の可能となる腫瘤径が３ｃｍ以下になる確率を予測するモデルでは、エストロゲン受容体、腫瘤径の初期値、組織学的グレードと組織型、及びレジメン中の投薬コースの回数を変数としている。このモデルでも、学習データで学習時のＡＵＣ値は０．７１と低い。どちらも少数の変数しか考慮できず、予測精度が低い問題がある。
【０１７７】
［手法］
以下に説明する実施例の化学療法の効果予測は、がん・感染症センター都立駒込病院、国立病院機構大阪医療センター、国立病院機構九州がんセンターの３施設から収集した、術前化学療法が実施された１７３症例を学習データとした。対象は、術前化学療法としてアンスラサイクリン系抗癌剤とタキサン系抗癌剤による順次投与を施行された症例（ＦＥＣ→ドセタキセル±カペシタビン）であり、主に特定非営利活動法人ＯｒｇａｎｉｓａｔｉｏｎｆｏｒＯｎｃｏｌｏｇｙａｎｄＴｒａｎｓｌａｔｉｏｎａｌＲｅｓｅａｒｃｈ（ＯＯＴＲ）により行なわれた臨床試験（ＯＯＴＲ−Ｎ００３ｔｒｉａｌ；ＵＭＩＮＩＤ：Ｃ００００００３２２）にエントリーされた症例を対象としている。予測する目的変数としては手術後病理組織標本にて判定される組織学的効果判定(ｐＣＲ)とした。予測モデルは、術前化学療法実施前、ＦＥＣレジメンが終了段階、全てのレジメンが終了段階の３つを作成した。特徴変数としては、化学療法実施前に収集できる情報を全てのモデルの入力とした。ＦＥＣレジメンが終了した段階では、そのレジメン終了段階で取得可能な臨床的効果判定（レジメン１）（触診・超音波検査・造影ＭＲＩ検査などにより総合的に判定された４段階のＣＲ（完全奏効）、ＰＲ（部分奏効）、ＳＤ（安定）、ＰＤ（進行）の分類した値）を、入力変数として追加した。全てのレジメン終了時も、同様に臨床的効果判定（レジメン２）を入力変数として追加した。モデルの学習に用いた特徴変数及び患者の特徴をテーブル３に示す。
（テーブル３）
【０１７８】
【表６】

【０１７９】
【表７】

【０１８０】
【表８】

【０１８１】
【表９】

モデルの構築方法はＡｘＬＮ転移モデルと同等である。ただし、対象とした特性が４９のため、ＳＶＭによって選択される特性の組が５，１０，１５、…、４５、４９の１０組となる。１つのモデルあたり５０，０００ケースの学習を行なった。
【０１８２】
［結果］
術前化学療法実施前、ＦＥＣレジメンが終了した段階、全てのレジメンが終了した段階の３つのモデルの予測精度をテーブル４に示す。また、それぞれの場合で最終的に選択したモデルを生成した学習パラメータをテーブル５に示す。
（テーブル４）
【０１８３】
【表１０】

【０１８４】
【表１１】

それぞれのモデルは図２２−図３０、図３１−図３８、及び図３９−図４８にそれぞれ示す。今回３施設のデータを全て学習データとして用いたため、評価試験は行なわず、学習時、クロスバリデーション時、テスト施行時の３種類の精度が得られた。全てのケースでクロスバリデーションでもＡＣＵ＞０．９、テスト施行時のＡＵＣ値＞０．９７と極めて高い感度と特異度を示している。また、ｂｏｏｔｓｔｒａｐ試験にても、欠損値を乱数に置換えた試験にても、平均値はテスト施行時とほぼ同値で、標準偏差も極めて小さい結果であった（テーブル６）。
【０１８５】
【表１２】

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【０１８６】
５０診断装置
５２学習処理
５４予測処理
５６特性選択処理
６０特性順位決定処理
７０学習データ
７２モデル作成処理
７４モデル選択処理
９０リサンプル処理
９２，…，９４リサンプル学習データセット
９５データサブセットのサンプリング処理
９７モデル学習処理
１００，…，１０４データサブセット
１１０予測モデル
１３０，１５２特性抽出処理
１３２，１５８平均値計算処理
１３６選択ステージ
１３８選択された予測モデル
１４０，１６０欠損データ補充処理
１４２，１５６モデル適用処理
１５０臨床データ

【特許請求の範囲】
【請求項１】
ＡＤＴｒｅｅからなる予測モデルを記憶するための予測モデル記憶手段と、前記予測モデルは、症例データから抽出される所定の特性の組のデータが与えられると、当該症例データが得られた患者に関連した所定の事象の発生を予測するように予め学習がされており、
診断対象となる症例データから、前記予測モデルについて前記特性の組のデータを抽出するための特性抽出手段と、
前記特性抽出手段により抽出された前記特性の組のデータを前記予測モデルに与えることにより、前記診断対象となる症例データの患者に関連した前記所定の事象の発生を前記予測モデルを用いて予測し、前記所定の事象に関する診断結果として出力するための予測手段とを含む、予測装置。
【請求項２】
請求項１に記載の予測装置であって、
前記予測モデルは、複数個のＡＤＴｒｅｅを含み、
前記予測手段は、
前記特性抽出手段により抽出された前記特性の組のデータを、前記予測モデル中の前記複数個のＡＤＴｒｅｅの各々に与えることにより、各ＡＤＴｒｅｅによる、前記所定の事象の発生の確率に関連した数値を算出するためのモデル適用手段と、
前記モデル適用手段により前記複数個のＡＤＴｒｅｅの各々から得られた数値を総合することにより、前記診断対象となる症例データの患者に関連した前記所定の事象の発生に関する判定を行い、判定結果を診断結果として出力するための判定手段とを含む、予測装置。
【請求項３】
請求項２に記載の予測装置であって、
前記判定手段は、
前記モデル適用手段により前記複数個のＡＤＴｒｅｅの各々から得られた数値の合計値を算出するための合計算出手段と、
前記合計算出手段により算出された合計値と所定のしきい値とを比較することにより、前記診断対象となる症例データの患者に関連した前記所定の事象の発生に関する判定を行い、判定結果を診断結果として出力するための手段とを含む、予測装置。
【請求項４】
請求項１〜請求項３のいずれかに記載の予測装置であって、
前記特性の組のデータは、いずれも非侵襲性の検査により得られる値である、予測装置。
【請求項５】
請求項１〜請求項４のいずれかに記載の予測装置であって、前記予測モデルは、前記特性の組のデータが与えられると、当該特性の組のデータが得られた患者において、特定の部位に病変が生じているか否かを予測するように予め学習済である、予測装置。
【請求項６】
請求項５に記載の予測装置であって、前記病変は前記特定の部位へのがんの転移である、予測装置。
【請求項７】
請求項５に記載の予測装置であって、前記特定の部位は、当該部位に病変が生じているか否かを、患者の外部から確認ができない部位である、予測装置。
【請求項８】
請求項１〜請求項４のいずれかに記載の予測装置であって、前記予測モデルは、前記特性の組のデータが与えられると、当該特性の組のデータが得られた患者に所定の薬品を投与したときに奏功するか否かを予測するように予め学習済である、予測装置。
【請求項９】
請求項１〜請求項８のいずれかに記載の予測装置であって、さらに、前記診断対象となる症例データから、前記特性抽出手段により抽出された前記特性の組の中に欠損データが存在している場合に、当該欠損データに対して予め定められている値を補充してから前記予測手段に与えるための欠損データ補充手段を含む、予測装置。
【請求項１０】
コンピュータにより実行されると、当該コンピュータを、請求項１〜請求項９のいずれかに記載の予測装置の各手段として機能させる、コンピュータプログラム。
【請求項１１】
症例データから抽出される所定の特性の組のデータが与えられると、当該症例データが得られた患者に関連した所定の事象の発生を予測するように、ＡＤＴｒｅｅからなる予測モデルを学習するための学習装置であって、
学習データを記憶するための記憶手段と、
前記記憶手段に記憶された前記学習データから、乱数を用いてリサンプリングすることにより、学習のためのリサンプリングデータセットを作成するためのリサンプリング手段と、
前記リサンプリング手段により作成されたリサンプリングデータセットを学習データとして用い、前記特性の組を入力として前記所定の事象の発生を予測するように、ＡＤＴｒｅｅからなる予測モデルの学習を行なうためのＡＤＴｒｅｅ学習手段と、
前記リサンプリング手段によるリサンプリングデータセットの作成及び前記ＡＤＴｒｅｅ学習手段による予測モデルの学習を、終了条件が成立するまで、処理の条件を変化させて繰返し行なうことにより、複数個の予測モデルを作成するためのモデル作成手段と、
前記モデル作成手段により作成された前記複数個の予測モデルの、前記学習データに対する予測精度を算出し、最も高い予測精度が得られた予測モデルを出力するためのモデル選択手段とを含む、学習装置。
【請求項１２】
請求項１１に記載の学習装置であって、
各々が複数種類の特性からなる特性の組で、互いに異なるものが複数個、予め規定されており、
前記モデル選択手段は、前記処理の条件の一つとして、前記複数個の特性の組のいずれを使用するかを変化させる、学習装置。
【請求項１３】
請求項１２に記載の学習装置であって、
前記複数種類の特性を、前記所定の事象の発生の予測に関する重要性の順番に順位付けするための特性順位付け手段をさらに含み、
前記複数個の特性の組はいずれも、前記特定順位付け手段による順位付けの上位から所定個数の特性からなる、学習装置。
【請求項１４】
請求項１１〜請求項１３のいずれかに記載の学習装置であって、前記リサンプリング手段は、乱数の種を複数通りに変化させることにより、複数個のリサンプリングデータセットを作成するための手段を含み、
前記モデル選択手段は、前記処理の条件の一つとして、前記作成するための手段を動作させるための乱数の種の数を変化させる、学習装置。
【請求項１５】
請求項１１〜請求項１４のいずれかに記載の学習装置であって、前記リサンプリング手段は、前記記憶手段に記憶された前記学習データのうち、前記所定の事象が発生した学習データからのサンプル数、及び発生しなかった学習データからのサンプル数の偏りを、両サンプル数の比が所定の値となるようにサンプリング比を調整し、乱数を用いてリサンプリングすることにより、学習のためのリサンプリングデータセットを作成するための手段を含む、学習装置。
【請求項１６】
コンピュータを、請求項１１〜請求項１５のいずれかに記載の学習装置の各手段として機能させる、コンピュータプログラム。

【図１】