発症確率算出装置、および、プログラム

【課題】疾患等の発症予測をより正確におこなう。
【解決手段】
記憶部１６０には、複数人の医療データがコホートデータとして蓄積されている。データ分類部１１１は、指定された疾患についてのコホートデータを記憶部１６０から取得し、体質タイプ別に分類する。発症確率算出部１１４が、指定された疾患の発症確率を体質タイプ別に算出するとともに、特徴量算出部１１２が、体質タイプ毎の特徴量を算出する。発症確率算出部１１４は、指定された被評価者についてのコホートデータを記憶部１６０から取得し、各体質タイプの特徴量との類似度を算出する。発症確率算出部１１４は、体質タイプ別に算出した発症確率を、算出した類似度で重み付けすることで、被評価者についての発症確率を算出し、出力制御部１４０を介して出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、発症確率算出装置、および、プログラムに関し、特に、疾患の発症予測に好適な発症確率算出装置、および、プログラムに関する。
【背景技術】
【０００２】
近時の疫学の進展により、種々の疾患（疾病）が発症する際の因果関係などが解明されており、疾患の予防や健康増進のために活用されている。一方で、医療機関などにおける情報化が進み、健康診断の結果や被験者のカルテ情報などが電子的に蓄積・管理され、各個人の健康管理等に用いられている。
【０００３】
こうした情報をデータベース化し、情報処理装置によって処理することで、個人の健康状態を指標化し、健康度を評価する手法が提案されている（例えば、特許文献１）。
【０００４】
このような手法において、被評価者の健康診断データ（健診データ）を用いて疾患の発症予測をおこなう場合、健診データを指標化した値（健康度）について、健常者の健康標準モデルと非健常者（擬似被験者）の疾患モデルとを比較解析し、その類似度によって将来の健康度を予測している。
【０００５】
ここで、疾患によっては、発症の因果関係として体質が深く影響する場合も多い。例えば、糖尿病において、コレステロールがいくら高くても発症しないが血圧が高くなると発症しやすい体質や、逆に、血圧がいくら高くても発症しないがコレステロールが高くなると発症しやすい体質などがあることが知られている。このような、体質が発症に影響を与える疾患については、単に健常者の健康標準モデルと非健常者の疾患モデルとを比較解析しただけでは、正確な発症予測をおこなうことができない。すなわち、従来の手法では、疾患の発症予測などを正確におこなうことができなかった。
【特許文献１】特開２００２−６３２７８号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
本発明は上記実状に鑑みてなされたもので、疾患の発症予測をより正確におこなうことができる発症確率算出装置、および、プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００７】
上記目的を達成するため、本発明の第１の観点にかかる発症確率算出装置は、
所定の医療データをコホートデータとして取得して蓄積するコホートデータ蓄積手段と、
前記コホートデータ蓄積手段が取得したコホートデータを、疾患毎の所定のタイプ別に分類するデータ分類手段と、
指定された被評価者に関するコホートデータを前記コホートデータ蓄積手段から取得し、指定された疾患に関するコホートデータを前記データ分類手段による分類に応じて前記コホートデータ蓄積手段から取得する対象データ取得手段と、
前記指定された疾患の発症確率を分類毎に算出し、前記対象データ取得手段が取得したコホートデータに基づいて重み付けして演算することで、被評価者の発症確率を算出する発症確率算出手段と、
前記発症確率算出手段による算出結果を示す情報を出力する出力手段と、を備える、
ことを特徴とする。
【０００８】
上記発症確率算出装置において、
前記データ分類手段は、コホートデータを疾患毎の体質タイプ別に分類し、
前記発症確率算出手段は、
前記指定された疾患に関するコホートデータに基づいて、前記データ分類手段が分類した該疾患についての体質タイプ別の特徴量を算出する特徴量算出手段と、
前記特徴量算出手段が算出した特徴量と、前記被評価者に関するコホートデータとの類似度を算出する類似度算出手段と、をさらに備えていることが望ましく、この場合、
前記類似度算出手段が算出した類似度を重み付け係数として重み付けすることが望ましい。
【０００９】
上記発症確率算出装置は、
所定の疾患を示す情報と対象となるデータ項目を示す情報とを対応付けた疾患情報を予め記憶する疾患情報記憶手段をさらに備えていることが望ましく、この場合、
前記対象データ取得手段は、前記疾患情報記憶手段が記憶する疾患情報に基づいて、前記コホートデータから対象となるデータ項目を抽出することが望ましい。
【００１０】
上記目的を達成するため、本発明の第２の観点にかかるプログラムは、
コンピュータに、
所定の医療データをコホートデータとして取得して蓄積する機能と、
指定された疾患を示す情報に基づいて、蓄積されているコホートデータから該疾患に関するコホートデータを取得する機能と、
指定された疾患のコホートデータを体質タイプ別に分類し、体質タイプ別の発症確率を算出する機能と、
指定された被評価者を示す情報に基づいて、蓄積されているコホートデータから、該被評価者に関するコホートデータを取得する機能と、
前記指定された疾患の体質タイプ別の特徴量を算出し、前記取得した被評価者に関するコホートデータとの類似度を算出する機能と、
前記算出した体質タイプ別の発症確率を、前記算出した類似度で重み付けすることで前記被評価者の発症確率として算出する機能と、
算出した前記被評価者の発症確率を示す情報を出力する機能と、
を実現させることを特徴とする。
【発明の効果】
【００１１】
本発明によれば、予測対象として指定された疾患についてのコホートデータを、例えば、体質タイプに応じて分類し、各体質タイプ毎の発症確率を算出するとともに、各体質タイプ毎の特徴量を算出する。そして、指定された被評価者についてのコホートデータと、各体質タイプの特徴量との類似度を算出し、算出した類似度で各体質タイプ毎に算出した発症確率を重み付けすることで、被評価者が当該疾患を発症する確率を算出ので、体質を考慮した発症予測をおこなうことができる。この結果、体質が発症に影響する疾患についても、正確な発症予測をおこなうことができる。
【発明を実施するための最良の形態】
【００１２】
本発明にかかる実施の形態を、以下図面を参照して説明する。
【００１３】
図１は、本実施の形態にかかる医療情報処理装置１００の構成を模式的に示す図である。本実施の形態にかかる医療情報処理装置１００は、例えば、医療機関などで運用されるワークステーションやパーソナルコンピュータなどといった情報処理装置から構成され、疾患や患者等についての種々情報を出力する。本実施形態では、特に、所定の疾患についての発症確率を算出して出力する発症確率算出装置として機能する。このような医療情報処理装置１００の構成を図１を参照して説明する。図１は、医療情報処理装置１００の構成を示すブロック図である。
【００１４】
図示するように、本実施形態にかかる医療情報処理装置１００は、制御部１１０、通信制御部１２０、入力制御部１３０、出力制御部１４０、プログラム格納部１５０、記憶部１６０、などから構成されている。
【００１５】
制御部１１０は、例えば、ＣＰＵ（Central Processing Unit：中央演算処理装置）などから構成され、医療情報処理装置１００の各部を制御するとともに、プログラム格納部１５０に格納されているプログラムの実行により、通信制御部１２０、入力制御部１３０、出力制御部１４０、記憶部１６０と協働して、後述する各処理を実現する。
【００１６】
より詳細には、プログラム格納部１５０に格納されているプログラムを実行することで、制御部１１０は、図２に示す各構成として機能する。すなわち、制御部１１０は、プログラムの実行により、データ分類部１１１、特徴量算出部１１２、発症確率予測関数作成部１１３、発症確率算出部１１４、として機能する。
【００１７】
データ分類部１１１は、記憶部１６０のデータベースに蓄積されるコホートデータ（詳細後述）に基づいて、各疾患を所定のタイプに応じて分類する。本実施形態では、コホートデータを体質タイプに応じた複数の体質タイプ群に分類する。
【００１８】
特徴量算出部１１２は、データ分類部１１１により分類された体質タイプ群毎の特徴量を算出する。
【００１９】
発症確率予測関数作成部１１３は、疾患毎の発症確率を算出するための発症確率予測関数を、データ分類部１１１が分類した体質タイプ群毎に作成する。
【００２０】
発症確率算出部１１４は、指定された発症予測対象となる疾患および被評価者についてのコホートデータを記憶部１６０から取得し、当該対象疾患について特徴量算出部１１２が算出した特徴量、発症確率予測関数作成部１１３が作成した発症確率予測関数、および、取得したコホートデータを用いて、指定された疾患の発症確率を被評価者の体質に応じて算出する。
【００２１】
本実施形態では、制御部１１０がプログラムを実行することで、ソフトウェア処理により上記各構成として機能するものとするが、これらの構成を、例えば、ＡＳＩＣ（Application Specific Integrated Circuit：特定用途向け集積回路）などで構成し、ハードウェア処理により実現してもよい。
【００２２】
通信制御部１２０は、例えば、ＮＩＣ（Network Interface Card）やモデムなどといった通信装置から構成され、医療情報処理装置１００と所定の通信ネットワーク１０（不図示）とを接続して通信をおこなう。通信ネットワーク１０は、例えば、ＬＡＮ（Local Area Network：構内通信網）、もしくは、インターネットなどのＷＡＮ（Wide Area Network：広域通信網）などとすることができる。本実施形態では、通信制御部１２０によって、記憶部１６０のデータベースに蓄積するデータを、必要に応じて外部の装置から通信ネットワーク１０を介して取得する。
【００２３】
入力制御部１３０は、例えば、キーボードやポインティングデバイスなどの入力装置１３を接続し、ユーザの操作に応じた入力信号を制御部１１０に入力する。
【００２４】
出力制御部１４０は、例えば、ディスプレイやプリンタなどの出力装置１４を接続し、制御部１１０の処理結果などを出力装置１４に出力する。
【００２５】
プログラム格納部１５０は、例えば、ハードディスク装置などの記憶装置から構成され、制御部１１０が実行するプログラムを格納する。プログラム格納部１５０には、制御部１１０を、上述したデータ分類部１１１、特徴量算出部１１２、発症確率予測関数作成部１１３、発症確率算出部１１４、として機能させるためのプログラムが格納される。また、制御部１１０が、通信制御部１２０、入力制御部１３０、出力制御部１４０、記憶部１６０を制御するためのプログラムも格納される。すなわち、制御部１１０がプログラム格納部１５０に格納されている各プログラムを実行することにより、医療情報処理装置１００全体として後述する各処理が実現される。
【００２６】
記憶部１６０は、例えば、ハードディスク装置などの記憶装置から構成され、本実施の形態にかかる各処理を実現するために必要な種々の情報が記録される。本実施の形態では、図３に示すようなデータベースが記憶部１６０に構成される。図示するように、記憶部１６０には、コホートＤＢ１６１、疾患情報ＤＢ１６２、解析手法ＤＢ１６３、群別特徴量ＤＢ１６４、群別発症確率予測関数ＤＢ１６５、などのデータベースが構成される。各データベースについて以下説明する。
【００２７】
コホートＤＢ１６１は、医療情報処理装置１００により疾患の発症予測を行う際に必要となる「コホートデータ」（母集団データ）を蓄積する。ここでは、所定の医療データがコホートデータとして蓄積される。本実施形態では、医療機関などにおいて、診察や治療、あるいは、健康診断などを受けた複数の者（以下、「被験者」とする）を対象とし、これらの被験者についての医療データをコホートデータとして蓄積するものとする。「医療データ」とは、例えば、種々の疾患（疾病）に関する情報の他、被験者の身体や健康状態に関する情報などである。被験者に関する医療データには、例えば、診察や治療、あるいは、健康診断などの結果を示す情報（健診データ）の他、被験者の体質や身体的特徴を示す情報（遺伝子タイプや血液型、身長・体重など）、その他年齢や性別などの属性情報などが含まれる。
【００２８】
このようなコホートデータを管理するため、コホートＤＢ１６１には、図４に示すように、被験者基本データテーブル１６１ａ、臨床情報データテーブル１６１ｂ、遺伝子情報データテーブル１６１ｃ、発症情報データテーブル１６１ｄ、などのテーブルが作成され、各種コホートデータが記録される。
【００２９】
被験者基本データテーブル１６１ａに記録される情報の例を図４（ａ）に示す。図示するように、被験者基本データテーブル１６１ａには、対象となる被験者毎に一意に割り当てられている被験者ＩＤをキーとしたレコードが作成されており、各レコードには、例えば、当該被験者についての属性情報（例えば、性別、氏名、生年月日、年齢、血液型、など）が記録されている。すなわち、被験者基本データテーブル１６１ａには、対象となる被験者についての基本情報が記録される。
【００３０】
臨床情報データテーブル１６１ｂに記録される情報の例を図４（ｂ）に示す。図示するように、臨床情報データテーブル１６１ｂには、被験者ＩＤをキーとしたレコードが作成されており、各レコードには、例えば、当該被験者についての健康診断データ（以下、「健診データ」とする）などが記録される。健診データは、健診日毎の健診結果（例えば、身長、体重、血圧、血糖値、コレステロール、などの計測結果）を示すものである。すなわち、臨床情報データテーブル１６１ｂには、各被験者毎の複数回の健診結果によって示される、被験者毎の体質を示す情報が記録される。
【００３１】
遺伝子情報データテーブル１６１ｃに記録される情報の例を図４（ｃ）に示す。図示するように、遺伝子情報データテーブル１６１ｃには、被験者ＩＤをキーとしたレコードが作成されており、各レコードには、当該被験者の遺伝子タイプを示す情報などが記録される。ここでは、例えば、個体毎に異なる体質に影響する遺伝子について記録されるものとする。すなわち、遺伝子情報データテーブル１６１ｃには、被験者毎の体質を示す情報が記録されることになる。
【００３２】
発症情報データテーブル１６１ｄに記録される情報の例を図４（ｄ）に示す。図示するように、発症情報データテーブル１６１ｄには、被験者ＩＤをキーとしたレコードが作成されており、各レコードには、当該被験者について、所定の疾患（疾病）の発症履歴を示す情報などが記録される。ここでは、少なくとも、発症予測の対象となる疾患についての発症履歴が記録されるものとする。すなわち、所定の疾患の発症日などを示す情報が、発症した被験者の被験者ＩＤに対応付けて記録される。この発症情報データテーブル１６１ｄに記録される情報は、例えば、各被験者についてのカルテ情報などに基づいて記録される。
【００３３】
疾患情報ＤＢ１６２には、対象となる疾患（疾病）についての情報が記録される。疾患情報ＤＢ１６２に記録される情報の例を図５（ａ）に示す。図示するように、疾患情報ＤＢ１６２には、対象となる疾患毎に一意に付与されている疾患ＩＤをキーとしたレコードが作成されており、各レコードには、当該ＩＤに対応する疾患名を示す情報の他、当該疾患についての発症予測をおこなう際の解析手法を示す情報（解析手法ＩＤ）や、当該疾患についての発症予測をおこなう際に必要となるコホートデータの項目（対象項目）などが記録されている。「対象項目」とは、当該疾患の発症確率を算出する際に必要となるデータ項目を指定する情報である。ここで指定されるデータ項目とは、コホートＤＢ１６１に記録される各コホートデータ中のデータ項目である。
【００３４】
解析手法ＤＢ１６３には、疾患の発症予測をおこなうための発症確率算出に用いられる解析手法を示す情報が記録される。解析手法ＤＢ１６３に記録される情報の例を図５（ｂ）に示す。図示するように、解析手法ＤＢ１６３には、各解析手法毎に一意に割り当てられている解析手法ＩＤをキーとしたレコードが作成されており、各レコードには、当該ＩＤに対応する解析手法名を示す情報の他、当該解析手法のアルゴリズムデータなどが記録される。ここには、例えば、cox比例ハザードモデルやロジスティックモデルなどといった生存時間解析方法に基づくアルゴリズムデータなどが記録される。
【００３５】
群別特徴量ＤＢ１６４には、特徴量算出部１１２が算出したタイプ群別の特徴量を示す情報が記録される。群別特徴量ＤＢ１６４に記録される情報の例を図６（ａ）に示す。図示するように、群別特徴量ＤＢ１６４には、疾患ＩＤをキーとしたレコードが作成されており、各レコードには、当該疾患を体質タイプに応じて分類したタイプ毎に一意に割り当てられている疾患タイプＩＤや当該疾患タイプＩＤに対応する疾患タイプ名を示す情報の他、当該疾患タイプについて算出された特徴量を示す情報などが記録される。ここでの「特徴量」とは、例えば、当該疾患タイプに属するデータの対象項目毎の平均値を示す。
【００３６】
群別発症確率予測関数ＤＢ１６５には、発症確率予測関数作成部１１３により作成された、疾患タイプ毎の発症確率予測関数が記録される。群別発症確率予測関数ＤＢ１６５に記録される情報の例を図６（ｂ）に示す。図示するように、群別発症確率予測関数ＤＢ１６５には、疾患タイプＩＤをキーとしたレコードが作成されており、各レコードには、当該疾患タイプについて作成された発症確率予測関数が記録される。
【００３７】
記憶部１６０には、以上のような各種データベースが構成されるが、これらのデータベースに記録される情報は、例えば、オペレータが入力装置１３を操作することで入力される他、例えば、制御部１１０の制御により、通信ネットワーク１０に接続されている他の装置等から取得して入力されてもよい。この場合、例えば、医療機関において患者情報を管理している装置など（例えば、電子カルテシステムなど）から各種情報を取得可能であることはもとより、例えば、診察や治療に用いられる医療用装置（診断装置や計測装置など）から測定結果等を示す情報を取得するようにしてもよい。あるいは、例えば、ＣＤ−ＲＯＭなどの記録媒体に記録されている情報を取得するようにしてもよい。この場合、記憶部１６０には、例えば、ＣＤ−ＲＯＭドライブなどの読取装置等が含まれるものとする。
【００３８】
このようにして、医療情報処理装置１００は、コホートデータを随時取得し、コホートＤＢ１６１に蓄積する。例えば、医療活動（診察、診断、治療、健康診断など）において発生するデータを随時取得したり、夜間のバッチ処理などによって定期的に取得することでコホートデータが蓄積される。
【００３９】
また、記憶部１６０は、上記データベースとして用いられる他、例えば、取得した情報や処理中の演算結果などを一時的に記憶しておく記憶領域としても用いられる。なお、プログラム格納部１５０および記憶部１６０を構成する記憶装置はハードディスク装置に限られず、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）などを含んでいてもよい。
【００４０】
以上のように構成された医療情報処理装置１００の動作を以下説明する。医療情報処理装置１００は、被評価者が所定の疾患を発症する確率を算出して発症予測をおこなうための「発症確率算出処理」を実行する。この発症確率算出処理は、オペレータによる操作などにより処理開始が指示されたことを契機に開始される。
【００４１】
図７に示すフローチャートを参照して発症確率算出処理における医療情報処理装置１００の動作を説明する。ここでは、プログラム格納部１５０に格納されているプログラムを実行することにより、制御部１１０が、データ分類部１１１、特徴量算出部１１２、発症確率予測関数作成部１１３、発症確率算出部１１４として機能し、記憶部１６０に構成されている各データベースとの協働により処理が実行される。
【００４２】
発症確率算出処理においては、被評価者が所定の疾患を発症する確率を予測するため、対象となる疾患および被評価者を特定する情報を入力して指定する。ここでは、例えば、オペレータなどが入力装置１３を操作することにより、対象とする疾患を特定する情報（例えば、疾患名）、および、被評価者を特定する情報（例えば、被評価者の氏名）を医療情報処理装置１００に入力して指定する。この場合、発症確率算出処理の開始に応じて、例えば、これらの情報を入力するための入力画面が出力装置１４（ディスプレイ）に表示され、この入力画面から疾患名や被評価者氏名などを入力するものとする。
【００４３】
疾患名が制御部１１０に入力されると、データ分類部１１１は、記憶部１６０に構成されている疾患情報ＤＢ１６２にアクセスし、指定された疾患名に対応する疾患ＩＤを取得するとともに、コホートＤＢ１６１から、指定された疾患名に対応するコホートデータを取得する（ステップＳ１０１）。
【００４４】
ここでは、データ分類部１１１が発症情報データテーブル１６１ｄにアクセスし、対象とする疾患を発症した被験者（以下、「患者」とする）を特定する。例えば、入力された疾患名が「糖尿病」である場合、発症情報データテーブル１６１ｄ内で糖尿病の発症履歴が記録されているレコードを特定し、当該レコードのキー項目となっている被験者ＩＤを特定する。
【００４５】
次にデータ分類部１１１は、被験者基本データテーブル１６１ａ、臨床情報データテーブル１６１ｂ、遺伝子情報データテーブル１６１ｃにアクセスし、特定した被験者ＩＤがキーとなっているレコードを各テーブル上で特定し、特定したレコードを抽出することでコホートデータを取得する。
【００４６】
すなわち、入力された疾患を発症したことのある患者について、被験者基本データテーブル１６１ａから基本情報が取得され、臨床情報データテーブル１６１ｂから健診データが取得され、遺伝子情報データテーブル１６１ｃから遺伝子情報が取得される。ここで、対象とする疾患の患者が複数人いる場合、当該疾患について、複数人の医療データが取得されることになる。すなわち、当該疾患の発症確率の算出に用いられるデータとしてコホートデータが取得される。
【００４７】
データ分類部１１１は、取得したコホートデータのうち、疾患情報ＤＢ１６２に記録されている対象項目が示す項目のデータを抽出する。例えば、当該疾患についての対象項目が、「年齢」、「血圧」、「体重」、「コレステロール」、「血糖値」である場合には、年齢を示す情報を被験者基本データテーブル１６１ａから抽出し、血圧、体重、コレステロール、血糖値を示す情報を臨床情報データテーブル１６１ｂから抽出する。すなわち、発症確率の算出において対象となるデータを、コホートＤＢ１６１から選択的に取得する。
【００４８】
ここで、例えば、ある患者が複数回の健診を受けている場合などには、対象項目のそれぞれについて複数のデータが臨床情報データテーブル１６１ｂに記録されていることがある。このような場合には、例えば、データ分類部１１１が各対象項目毎に平均値を算出するか、最新のデータを取得するものとする。
【００４９】
次にデータ分類部１１１は、ステップＳ１０１で取得したコホートデータを体質タイプに応じた複数のタイプ群に分類する（ステップＳ１０２）。ここでは、取得したコホートデータを、例えば、体質タイプ別にｎ個の群Ｇ₁,Ｇ₂, . . . ,Ｇ_nに分類する。データ分類部１１１は、例えば、k-平均法（k-means method）などといったクラスタリング手法でクラスタ分析を実行することで、コホートデータを自動的に体質タイプ別に分類する。すなわち、コホートデータを構成する複数のデータ項目を多次元空間上にプロットし、ある一定の特徴を持つクラスタに収束させることで、コホートデータを分類する。
【００５０】
ここでは、例えば、当該疾患を発症した者の体質タイプに応じて複数の群に分類する。例えば、糖尿病の場合、「血圧は高くなくてもコレステロールが高い」、「コレステロールは高くなくても血圧が高い」、「血圧、コレステロールのいずれも高い」、などといった体質タイプに分類する。
【００５１】
データ分類部１１１は、このようにして、対象となる疾患を複数のタイプ群に分類すると、各分類毎に一意の疾患タイプＩＤを割り当て、群別特徴量ＤＢ１６４にレコードを作成する。
【００５２】
データ分類部１１１は、対象とする疾患についてのデータが体質タイプ別に分類すると、ステップＳ１０１で取得したコホートデータを特徴量算出部１１２に提供する。特徴量算出部１１２は、データ分類部１１１から提供されたコホートデータを用いて、各体質タイプ毎の特徴量を算出する（ステップＳ１０３）。上述したように、「特徴量」とは、例えば、各タイプ群に属するデータの項目毎の平均値を示すものである。したがって、特徴量算出部１１２は、取得したコホートデータが示す数値の平均値を項目毎に算出する。
【００５３】
例えば、対象としている疾患の対象項目が、年齢（項目１）、血圧（項目２）、体重（項目３）、コレステロール（項目４）、血糖値（項目５）の５項目であり、分類された体質タイプ群が、群１（G₁）、群２（G₂）、群３（G₃）の３群であった場合、データ分類部１１１が各項目についてコホートＤＢ１６１から取得したデータの項目毎の平均値を算出し、群別特徴量ＤＢ１６４に記録する。ここでは、対応するタイプ群のレコードに算出した特徴量を記録する。
【００５４】
以下、本実施形態では、発症予測対象としている疾患を疾患ＴＤとし、疾患ＴＤについての対象項目が上記５項目、分類された体質タイプ群が上記３群である場合を例に説明することとする。
【００５５】
対象となる疾患についてのコホートデータが体質タイプに応じて分類され、分類毎に特徴量が算出されると、発症確率予測関数作成部１１３が、各体質タイプ（群）毎に発症確率予測関数（群別発症確率予測関数）を作成し、群別発症確率予測関数ＤＢ１６５に記録する（ステップＳ１０４）。ここではまず、発症確率予測関数作成部１１３が疾患情報ＤＢ１６２にアクセスし、疾患ＴＤに対応する解析手法を特定する。そして、解析手法ＤＢ１６３にアクセスし、特定した解析手法のアルゴリズムを取得し、当該アルゴリズムにしたがった演算をおこなうことで、疾患ＴＤの各体質タイプ別（G₁〜G₃）に発症確率予測関数を作成する。
【００５６】
ここでは、例えば、cox比例ハザードモデルやロジスティックモデルなどの生存時間解析方法を用いて、発症確率予測関数を体質タイプ別に作成する。発症確率予測関数作成部１１３は、各体質タイプを示す疾患タイプＩＤをキーとしたレコードを群別発症確率予測関数ＤＢ１６５に作成し、作成した発症確率予測関数を各レコードに記録する。
【００５７】
このようにして、対象とする疾患について体質タイプ別の発症確率予測関数が作成されると、発症確率算出部１１４が、作成された発症確率予測関数を用いて、被評価者が当該疾患を発症する確率を算出するための処理を開始する。
【００５８】
まず、発症確率算出部１１４は、被験者基本データテーブル１６１ａにアクセスし、本処理の開始時に指定された被評価者の氏名に対応する被験者ＩＤを特定する。そして、コホートＤＢ１６１の各テーブルにおいて、当該被験者ＩＤに対応するレコードを特定し、当該レコードに記録されている情報を、被評価者のコホートデータ（以下、「被評価者データ」とする）として取得する（ステップＳ１０５）。
【００５９】
発症確率算出部１１４は、さらに、取得した被評価者データから、疾患ＴＤの対象項目に対応するデータ（すなわち、年齢（項目１）、血圧（項目２）、体重（項目３）、コレステロール（項目４）、血糖値（項目５）、についてのデータ）を抽出する。すなわち、疾患情報ＤＢ１６２に記録されている対象項目が示す項目のデータを抽出することで、発症確率の算出において対象となるデータを、コホートＤＢ１６１から選択的に取得する。
【００６０】
ここで、ある対象項目について複数のデータが記録されている場合には、例えば、発症確率算出部１１４が各対象項目毎に平均値を算出するか最新のデータを取得することで、被評価者データとして取得する。
【００６１】
被評価者データを取得すると、発症確率算出部１１４は、当該被評価者データと、疾患ＴＤについての体質タイプ毎の特徴量とに基づき、被評価者が疾患ＴＤを発症する確率を算出する。
【００６２】
この場合、発症確率算出部１１４は、疾患ＴＤについて体質タイプ別に算出される発症確率に、被評価者のコホートデータに基づく重み付けをおこなうことで、当該被評価者の体質に応じた発症確率を算出する。発症確率算出部１１４による発症確率の算出手法を以下説明する。
【００６３】
まず、発症確率算出部１１４は、疾患ＴＤについて、体質タイプ別の発症確率を算出する（ステップＳ１０６）。体質タイプ別の発症確率は、ステップＳ１０４で作成した群別発症確率予測関数を用いて算出される。ここでは、ステップＳ１０２での分類に応じて取得されたコホートデータを用いて、発症確率算出部１１４が群別発症確率予測関数を演算することで、体質タイプ別に疾患ＴＤの発症確率を算出する。ここで、疾患ＴＤについての体質タイプ群の番号をｉとした場合、群別発症確率予測関数は、例えば、各項目のデータをxとした、数１に示すようなベクトル関数で表される。
【００６４】
（数１）
F_i(x)＝β_i1x_i1＋β_i2x_i2＋…＋β_inx_in （nは対象項目数）
【００６５】
このような群別発症確率予測関数を演算することで、疾患ＴＤの発症確率が体質タイプ別に算出される。すなわち、群１についての発症確率は関数F₁(x)で求められ、群２についての発症確率は関数F₂(x)で求められ、群３についての発症確率は関数F₃(x)で求められる。
【００６６】
次に発症確率算出部１１４は、算出した体質タイプ別の発症確率を被評価者の体質に応じて重み付けするための重み付け係数を算出する。本実施形態では、重み付け係数をαとし、体質タイプ群別の重み付け係数は「α_i」で表すものとする。本実施形態では、体質タイプ群がG₁〜G₃の３群であるため、α_iは、α₁、α₂、α₃のいずれかとなる。
【００６７】
ここで、重み付け係数αは、例えば、被評価者データと、疾患ＴＤについての体質タイプ群毎の特徴量（平均値）との「類似度」を算出することで求める。すなわち、発症確率算出部１１４は、疾患ＴＤについてのコホートデータから算出した体質タイプ別の特徴量と、被評価者のコホートデータとの類似度を算出することで重み付け係数を算出する（ステップＳ１０７）。
【００６８】
類似度の算出には、例えば、クラスタ分析における類似度の判定に用いられる「ユークリッド距離」を用いる。すなわち、k-平均法などのクラスタ分析により体質タイプ別に分類されたコホートデータのクラスタと、被評価者データとの多次元空間上での距離を求めることにより、被評価者データがどの体質タイプに近いかを示す類似度として算出する。ユークリッド距離を用いた類似度の算出方法の例を以下説明する。
【００６９】
ここでは、対象項目の項目番号をjとし、各体質タイプ群に属するデータを「z_ij」、被評価者データ中の各対象項目のデータを「y_j」で表すこととする。例えば、群１における項目１（年齢）のデータは「z₁₁」、群３における項目５（血糖値）のデータは「z₃₅」と表し、被評価者についての項目３（体重）のデータは「y₃」と表す。
【００７０】
そして、例えば、i番目の体質タイプ群における、被評価者データと当該体質タイプ群に属するデータとのユークリッド距離の逆数（以下、ユークリッド逆数D_iとする）を用いて重み付け係数となる類似度を求める。この場合、発症確率算出部１１４が以下の数２を演算することによりユークリッド逆数D_iを求める。なお、数２において、SQRD(a)は、aの平方根を示す。
【００７１】
（数２）
D_i＝1／SQRD ((y₁−z_i1)²＋(y₂−z_i2)²＋…＋(y_n−z_in)² （nは対象項目数）
【００７２】
このようにして求められたユークリッド逆数D_iを用いて、各体質タイプ群別の重み付け係数α_iを求める。この場合、発症確率算出部１１４が以下の数３を演算することより重み付け係数α_iが求められる。
【００７３】
（数３）
α_i＝D_i／(D₁＋D₂＋…＋D_m) （mはタイプ群数）
【００７４】
そして、各体質タイプ群毎の発症確率はそれぞれ、F₁(x)、F₂(x)、F₃(x)であるので、これらと被評価者について算出された体質タイプ群別の重み付け係数αとを乗じることで、当該被評価者が疾患ＴＤを発症する確率（F(x)）を算出する。ここでは、発症確率算出部１１４が以下の数４を演算することで、被評価者の発症確率を算出する。
【００７５】
（数４）
F(x)＝(α₁×F₁(x))＋(α₂×F₂(x))＋…＋(α_m×F_m(x)) （mはタイプ群数）
【００７６】
すなわち、発症確率算出部１１４は、指定された疾患について算出された体質タイプ別の発症確率を、被評価者データと当該疾患についての体質タイプ別の特徴量との類似度で重み付けすることで、被評価者が疾患ＴＤを発症する確率を算出する（ステップＳ１０８）。
【００７７】
上記ステップＳ１０６〜Ｓ１０８における発症確率算出部１１４の動作、具体的な数値例を用いて以下説明する。ここでは、被評価者について取得したコホートデータ（被評価者データ）の例を図８（ａ）の表１に示し、予測対象となっている疾患についての群別の特徴量の例を図８（ｂ）の表２に示す。
【００７８】
発症確率算出部１１４は、重み付け係数α_i（すなわち、α₁、α₂、α₃）のそれぞれを算出するにあたり、各体質タイプ群に対応するユークリッド逆数D_i（すなわち、D₁、D₂、D₃）を算出する。
【００７９】
ここで、図８（ａ）の表１示す被評価者データによれば、被評価者についての各対象項目のデータ（数値）は、「項目１（年齢）：４０」、「項目２（血圧）：１２５」、「項目３（体重）：６５」、「項目４（コレステロール）：１３０」、「項目５（血糖値）：１２５」となる。
【００８０】
一方、図８（ｂ）の表２に示すように、群１（G₁）の各対象項目のデータ（平均値）は、「項目１（年齢）：５０」、「項目２（血圧）：１３０」、「項目３（体重）：６０」、「項目４（コレステロール）：２００」、「項目５（血糖値）：１３０」となる。
【００８１】
この場合、発症確率算出部１１４は、被評価者の各データをy₁〜y₅、群１の各データをz₁₁〜z₁₅として数２を演算することで、まず、群１についての被評価者とのユークリッド距離の逆数であるユークリッド逆数D₁を算出する。この場合、上記各数値を数２に代入することにより、発症確率算出部１１４は、「D₁＝1／SQRT((40−50)²＋(125−130)²＋(65−60)²＋(130−200)²＋(125−130)²) （SQRT(a)はaの平方根を示す）」を演算する。この結果、群１における被評価者データとのユークリッド距離の逆数として「D₁＝0.014」が算出される。
【００８２】
同様にして、発症確率算出部１１４は、群２および群３について、それぞれ被評価者データとのユークリッド距離の逆数を求める。ここでは、図８（ｂ）の表２に示すように、群２（G₂）のデータ（平均値）が、「項目１（年齢）：３０」、「項目２（血圧）：１２０」、「項目３（体重）：５０」、「項目４（コレステロール）：１５０」、「項目５（血糖値）：１１０」であり、群３（G₃）のデータ（平均値）が、「項目１（年齢）：６０」、「項目２（血圧）：１４０」、「項目３（体重）：７０」、「項目４（コレステロール）：２５０」、「項目５（血糖値）：１２０」であるので、発症確率算出部１１４は、これらの各データと被評価者データを数２に代入して演算する。この結果、群２と群３については、それぞれ「D₂＝0.032」、「D₃＝0.008」が算出される。
【００８３】
このようにして、各体質タイプ群毎にユークリッド逆数D_iを算出すると、発症確率算出部１１４は、算出したユークリッド逆数D_iを用いて数３を演算することにより、重み付け係数α_i（α₁、α₂、α₃）を算出する。ここで、D₁＝0.014、D₂＝0.032、D₃＝0.008であるので、発症確率算出部１１４は、「α₁＝0.014／(0.014＋0.032＋0.008)」を演算することで、群１についての重み付け係数を求める。この結果、群１についての重み付け係数は「α₁＝0.26」となる。同様にして、群２および群３についての重み付け係数を求めると、それぞれ「α₂＝0.59」、「α₃＝0.15」となる。
【００８４】
ここで、例えば、群１についての発症確率が「F₁(x)＝30%」、群２についての発症確率が「F₂(x)＝20%」、群３についての発症確率が「F₃(x)＝10%」であるとする。これらは、ステップＳ１０６において、発症確率算出部１１４が、各タイプ群毎のコホートデータを用いて、当該タイプ群について作成された発症確率予測関数を演算することで求められたものである。
【００８５】
そして、発症確率算出部１１４は、このような各タイプ群毎の発症確率と算出した重み付け係数αを用いて数４を演算することで、被評価者が疾患ＴＤを発症する確率を算出する。ここでは、α₁＝0.26、α₂＝0.59、α₃＝0.15であり、F₁(x)＝30%、F₂(x)＝20%、F₃(x)＝10%であるので、発症確率算出部１１４は、各値を数４に代入し、「F(x)＝0.26×30＋0.59×20＋0.15×10」を演算する。この結果、被評価者が疾患ＴＤを発症する確率として「F(x)＝21.1%」が算出される。
【００８６】
このようにして、被評価者の発症確率を算出すると、発症確率算出部１１４は、算出結果を出力装置１４が出力して（ステップＳ１０９）、処理を終了する。ここでは、発症確率算出部１１４（制御部１１０）が、算出結果を出力制御部１４０に送出することで、被評価者が疾患ＴＤを発症する確率を示す情報（以下、「発症予測情報」とする）が出力装置１４により出力される。
【００８７】
ここでは、例えば、ディスプレイなどの表示装置によって表示出力されたり、プリンタなどの印刷装置により帳票に印字出力等される他、例えば、所定の記憶装置（記憶部１６０など）や記憶媒体などに算出結果を出力することで、発症予測情報をこれらに電子的に記録するようにしてもよい。あるいは、算出結果を通信制御部１２０に出力することで、発症予測情報を通信ネットワーク１０を介して他の装置等に送信（出力）するようにしてもよい。
【００８８】
以上説明したように、上記実施の形態によれば、予測対象として指定された疾患についてのコホートデータを体質タイプに応じて分類し、各体質タイプ毎の発症確率を算出するとともに、各体質タイプ毎の特徴量を算出する。そして、指定された被評価者についてのコホートデータと、各体質タイプの特徴量との類似度を算出し、算出した類似度で各体質タイプ毎に算出した発症確率を重み付けすることで、被評価者が当該疾患を発症する確率を算出する。これにより、体質を考慮した発症予測をおこなうことができるので、体質が発症に影響する疾患についても、正確な発症予測をおこなうことができる。
【００８９】
上記実施の形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。
【００９０】
例えば、上記実施の形態では、発症予測対象とする疾患が指定されたことに応じて、当該疾患についての体質タイプ別の発症確率予測関数を作成したが、発症確率予測関数は予め生成して群別発症確率予測関数ＤＢ１６５に蓄積しておいてもよい。また、特徴量についても同様であり、種々の疾患について予め体質タイプ別に分類して特徴量を算出し、群別特徴量ＤＢ１６４に蓄積しておいてもよい。
【００９１】
また、上記実施の形態では、被評価者についてのデータを、コホートデータから取得するものとしたが、対象項目についてのデータ（数値）をその都度入力するようにしてもよい。このような構成によれば、例えば、診察や健康診断等を受診していない者についての発症予測をおこなうことができる。
【００９２】
また、このような構成によれば、例えば、インターネットなどの通信ネットワークを介したウェブサービスなどによって、任意の被評価者について疾患の発症予測情報を提供するサービスを実現することもできる。すなわち、上記実施の形態にかかる医療情報処理装置１００と同様の構成を有するウェブサーバを構成する。被評価者は、例えば、パーソナルコンピュータなど端末装置を用い、インターネットなどの通信ネットワークを介して上記ウェブサーバが提供するウェブサイトにアクセスする。ウェブサーバは、アクセスに応じて、発症予測対象とする疾患を指定する情報を入力するためのウェブページをアクセス元の端末装置に送信する。端末装置から疾患を指定する情報がウェブサーバに送信されると、ウェブサーバは、当該疾患についての対象項目を抽出し、各項目のデータを入力するためのウェブページをアクセス元の端末装置に送信する。端末装置から各対象項目のデータがウェブサーバに送信されると、ウェブサーバは、上記「発症確率算出処理」と同様の処理をおこなうことで、当該被評価者の発症確率を算出し、算出結果を示すウェブページをアクセス元の端末装置に送信する。
【００９３】
このような構成によれば、例えば、被評価者の自宅などといった、医療機関などとは異なる場所からでも、任意の疾患についての発症確率を知ることができ、容易に自己の健康管理等に利用することができる。
【００９４】
また、上記実施の形態では、コホートデータを体質タイプに応じて分類したが、分類の形態は任意であり、体質以外の要素に基づいて分類してもよい。
【００９５】
上記実施の形態にかかる医療情報処理装置１００は、専用装置から構成可能であることはもとより、汎用のコンピュータ装置などを用いて構成することもできる。すなわち、このような汎用装置に上述したプログラムをインストールして実行させることで、上記実施の形態にかかる医療情報処理装置１００として機能させることができる。
【００９６】
このようなプログラムの提供方法は任意であり、例えば、ＣＤ−ＲＯＭなどの記憶媒体に格納して配布可能であることはもとより、プログラムデータを搬送波に重畳することで、所定の通信媒体（例えば、インターネットなど）を介して配布することもできる。
【図面の簡単な説明】
【００９７】
【図１】本発明の実施の形態にかかる医療情報処理装置の構成を示すブロック図である。
【図２】図１に示す制御部が実現する機能を示す機能ブロック図である。
【図３】図１に示す記憶部に構成されるデータベースの例を示す図である。
【図４】図３に示すコホートＤＢに蓄積される情報の例を示す図であり、（ａ）は被験者基本データテーブルに記録される情報の例を示し、（ｂ）は臨床情報データテーブルに記録される情報の例を示し、（ｃ）は遺伝子情報データテーブルに記録される情報の例を示し、（ｄ）は発症情報データテーブルに記録される情報の例を示す。
【図５】図３に示すデータベースに蓄積される情報の例を示す図であり、（ａ）は疾患情報ＤＢに記録される情報の例を示し、（ｂ）は解析手法ＤＢに記録される情報の例を示す。
【図６】図３に示すデータベースに蓄積される情報の例を示す図であり、（ａ）は群別特徴量ＤＢに記録される情報の例を示し、（ｂ）は群別発症確率予測関数ＤＢに記録される情報の例を示す。
【図７】本発明の実施の形態にかかる発症確率算出処理を説明するためのフローチャートである。
【図８】図７に示す発症確率算出処理の具体例に用いるデータ例を示す図であり、（ａ）は被評価者データの例を示し、（ｂ）は群別特徴量の例を示す。
【符号の説明】
【００９８】
１０通信ネットワーク
１００医療情報処理装置
１１１データ分類部
１１２特徴量算出部
１１３発症確率予測関数作成部
１１４発症確率算出部
１６１コホートＤＢ
１６２疾患情報ＤＢ
１６３解析手法ＤＢ
１６４群別特徴量ＤＢ
１６５群別発症確率予測関数ＤＢ

【特許請求の範囲】
【請求項１】
所定の医療データをコホートデータとして取得して蓄積するコホートデータ蓄積手段と、
前記コホートデータ蓄積手段が取得したコホートデータを、疾患毎の所定のタイプ別に分類するデータ分類手段と、
指定された被評価者に関するコホートデータを前記コホートデータ蓄積手段から取得し、指定された疾患に関するコホートデータを前記データ分類手段による分類に応じて前記コホートデータ蓄積手段から取得する対象データ取得手段と、
前記指定された疾患の発症確率を分類毎に算出し、前記対象データ取得手段が取得したコホートデータに基づいて重み付けして演算することで、被評価者の発症確率を算出する発症確率算出手段と、
前記発症確率算出手段による算出結果を示す情報を出力する出力手段と、を備える、
ことを特徴とする発症確率算出装置。
【請求項２】
前記データ分類手段は、コホートデータを疾患毎の体質タイプ別に分類し、
前記発症確率算出手段は、
前記指定された疾患に関するコホートデータに基づいて、前記データ分類手段が分類した該疾患についての体質タイプ別の特徴量を算出する特徴量算出手段と、
前記特徴量算出手段が算出した特徴量と、前記被評価者に関するコホートデータとの類似度を算出する類似度算出手段と、をさらに備え、
前記類似度算出手段が算出した類似度を重み付け係数として重み付けする、
ことを特徴とする請求項１に記載の発症確率算出装置。
【請求項３】
所定の疾患を示す情報と対象となるデータ項目を示す情報とを対応付けた疾患情報を予め記憶する疾患情報記憶手段をさらに備え、
前記対象データ取得手段は、前記疾患情報記憶手段が記憶する疾患情報に基づいて、前記コホートデータから対象となるデータ項目を抽出する、
ことを特徴とする請求項１または２に記載の発症確率算出装置。
【請求項４】
コンピュータに、
所定の医療データをコホートデータとして取得して蓄積する機能と、
指定された疾患を示す情報に基づいて、蓄積されているコホートデータから該疾患に関するコホートデータを取得する機能と、
指定された疾患のコホートデータを体質タイプ別に分類し、体質タイプ別の発症確率を算出する機能と、
指定された被評価者を示す情報に基づいて、蓄積されているコホートデータから、該被評価者に関するコホートデータを取得する機能と、
前記指定された疾患の体質タイプ別の特徴量を算出し、前記取得した被評価者に関するコホートデータとの類似度を算出する機能と、
前記算出した体質タイプ別の発症確率を、前記算出した類似度で重み付けすることで前記被評価者の発症確率として算出する機能と、
算出した前記被評価者の発症確率を示す情報を出力する機能と、
を実現させることを特徴とするプログラム。

【図１】