説明

医療データ解析方法、医療データ解析装置およびプログラム

【課題】臨床的データと基礎医学的データの両方を使用して、診断技術や医学的及び科学的に有益な知見を得ることができる医療データ解析方法、医療データ解析装置およびプログラムを提供する。
【解決手段】一般的に行われる健康診断や検査において得られる臨床的データと、糞便、尿、唾液、鼻腔粘液、皮膚や膣液等や血液等の被検査物を基に基礎医学系の研究所等における検査および/または分析により生成される基礎医学的データと、を基に、データマイニングの手法によるデータ解析を行い、臨床的データと基礎医学的データとを有機的に対応付け、これらの関連性を容易に把握・分別可能な分別モデルを構築する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータにより、医療データの解析を行う解析方法、医療データ解析装置およびプログラムに関する。
【背景技術】
【0002】
定期的な健康診断が一般的に行われている。
健康診断では、例えば、性別、年齢、身長、体重、肥満度(BMI:Body Mass Index)等の身体的データ、喫煙・飲酒の習慣、食事の嗜好や内容、睡眠状況、運動の質と量等の生活習慣データ、血圧、服薬状況、既往病歴、自覚症状、医療関係者による疾病状況の診断等の生理学的データ、血液検査や尿検査等により得られる検査結果データ等、様々なデータが得られる。
これらのデータは、診断する医師に提供され、健康診断受診者の健康状態の評価や、健康の維持や疾患の予防・早期発見等に役立てられる。
【0003】
市中で行われる健康診断とは別に、人体から得られた被検査物について、成分分析や微生物の分析等、詳細な検査・分析を行うことにより、より多くの医学関連情報を得ようとする試みが、基礎医学系の研究を行う研究所や大学等で行われている。
このような基礎医学系の研究所等では、例えば、血液のメタボローム解析(全成分解析)や、口腔粘液、糞便、尿、唾液、鼻腔粘液、皮膚や膣液等に含まれる共生微生物の存在状態の解析を基に、患者の特性の詳細を特定することが行われている。
【0004】
このような基礎医学系の検査・分析によって得られる基礎医学的データは、血液内の微少成分や共生微生物等が人体に与える影響を推測し、疾病状況の診断や疾病の予防・予測等を行う試みに使用されている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、一般的に行われる健康診断において得られる様々なデータ(患者から直接得られるデータであるので、以下臨床的データと称する)と、基礎医学的データとは、全く異なるデータであり、上述した基礎医学的データは、現状では基礎医学系の研究を行っている研究所や大学の研究室等でしか扱っていない。このため、臨床的データを扱う医師が基礎医学的データに触れる機会は極めて少ない。
従って、臨床的データと基礎医学的データとの関連性を抽出することや、臨床的データと基礎医学的データの両方を使用して医学的に有益な知見を得ようとする試みは、今までほとんど行われていなかった。
【0006】
本発明はかかる事情に鑑みてなされたものであり、臨床的データと基礎医学的データの両方を使用して、診断技術や医学的及び科学的に有益な知見を得ることができる医療データ解析方法、医療データ解析装置およびプログラムを提供することを目的とするものである。
【課題を解決するための手段】
【0007】
第1の発明の医療データ解析方法は、複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置の医療データ解析方法であって、医療データ解析装置が、同一患者に関する前記臨床的データと前記基礎医学的データを対応付ける第1のステップと、医療データ解析装置が、予め選択された前記臨床的データの一項目に対して、前記第1のステップにおいて対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第2のステップと、を有する。
【0008】
第2の発明の医療データ解析装置は、複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置であって、前記臨床的データおよび前記基礎医学的データを記憶する記憶部と、入力操作を受け付ける入力部と、制御部と、を有し、前記制御部は、同一患者に関する前記臨床的データと前記基礎医学的データを対応付け、前記入力部を介した入力操作により予め選択された前記臨床的データの一項目に対して、前記対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う。
【0009】
第3の発明のプログラムは、複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置が有するコンピュータの実行するプログラムであって、同一患者に関する前記臨床的データと前記基礎医学的データを対応付ける第1の手順と、予め選択された前記臨床的データの一項目に対して、前記第1の手順において対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第2の手順と、を前記コンピュータに実行させる。
【発明の効果】
【0010】
本発明によれば、臨床的データと基礎医学的データの両方を使用して、診断技術や医学的及び科学的に有益な知見を得ることができる医療データ解析方法、医療データ解析装置およびプログラムを提供することができる。
【図面の簡単な説明】
【0011】
【図1】図1は、医療データ解析方法の事業モデルの一例を示す図である。
【図2】図2は、医療データ解析装置100の構成例を示す図である。
【図3】図3は、データマイニングの手法を使用した医療データ解析方法の一例を示すフローチャートである。
【図4】図4は、医療データ解析方法の対象となるデータの例を示した図である。
【図5】図5は、C&RT法でHbA1cを特性として解析を行った結果得られた決定木の一例を示す図である。
【図6】図6は、HbA1cについて、患者のカテゴリ分けを行う際のしきい値の一例を示す表である。
【図7】図7は、C&RT法で収縮期血圧を特性として解析を行った結果得られた決定木の一例を示す図である。
【図8】図8は、収縮期血圧について、患者のカテゴリ分けを行う際のしきい値の一例を示す表である。
【図9】図9は、C&RT法でLDL−CおよびHDL−Cを特性として解析を行った結果得られた決定木の一例を示す図である。
【図10】図10は、LDL−CおよびHDL−Cについて、患者のカテゴリ分けを行う際のしきい値の一例を示す表である。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態について説明する。
まず、本実施形態において扱うデータの種類について説明する。
【0013】
(1)臨床的データ
本実施形態では、例えば健康診断や、市中の病院等の一般的な医療施設における検査等において、患者から得られる様々なデータを、総称して臨床的データと称する。
ここで一般的な医療施設とは、後述する基礎医学系の研究を行う研究所や大学等を含まない医療施設を意味している。
臨床的データは、例えば、医師の問診や患者に対するアンケート、身体的データの測定、採血や採尿後の血液検査及び尿検査等により得られるデータである。
臨床的データには、例えば、性別、年齢、身長、体重、肥満度等の身体的データ、喫煙・飲酒の習慣、食事の嗜好や内容、睡眠状況、運動の質と量等の生活習慣データ、血圧、服薬状況、既往病歴、自覚症状、医療関係者による疾病状況の検査や診断等の生理学的データ、血液検査や尿検査等により得られる検査・分析結果データ等が含まれる。
【0014】
(2)基礎医学的データ
本実施形態では、例えば基礎医学系の研究を行う研究所や大学等において、患者から採取した血液に対するメタボローム解析(全成分の検査・分析)を実施して得られたデータや、患者の糞便、尿、唾液、鼻腔粘液、皮膚や膣液等から得た共生微生物の存在状態に関するデータを基礎医学的データと称する。
【0015】
本実施形態では、これら臨床的データと基礎医学的データとの両方を使用して、診断技術や医学的及び科学的に有益な知見を得るための医療データ解析方法について説明する。
【0016】
・事業モデル
図1は、本実施形態の医療データ解析方法の事業モデルの一例を示す図である。
図1には、事業モデルの一例を示す。
図1に示すように、事業者1、患者2、病院3を含む。
【0017】
事業者1は、患者2および病院3から臨床的データおよび被検査物を収集し、収集した被検査物を基に例えば図示しない基礎医学系の研究を行う研究所や大学等が生成した基礎医学的データを取得する。そして、収集した臨床的データと取得した基礎医学的データとを使用して、データマイニングの手法により、所定の目的に応じた解析を行い、解析結果を得る。
あるいは、事業者1自体が患者から収集した被検査物を基に、基礎医学的データを生成してもよい。
なお、データマイニングとは、蓄積されたデータを解析し、目的とする特性に関して、その中に潜む項目間の相関関係や特徴などを探し出して特性の動向を予測する手法である。
事業者1の行うデータマイニングの手法による解析の具体的方法については後に詳述する。
事業者1は、解析結果を基に、患者2の個体別に生活改善方法や生体内共生微生物の制御方法等を含む、健康のための具体的なアドバイス情報を作成することができる。そして、解析結果とともに、アドバイス情報を患者2および病院3に提供することができる。
【0018】
患者2は、例えば事業者1により市民の中から抽出された複数人であり、事業者1の行う解析の対象となる。患者2の人数については本発明では特に限定しない。事業者1が行う解析の目的に合わせて適正な人数とすればよい。また、患者2を抽出する条件は、事業者1が行う解析の目的に応じて設定されればよい。
病院3は、例えば事業者1の要請に従い、患者2を診察し臨床的データを得る。病院3は1つである必要はなく、患者毎に異なる病院3を利用するようにしてもよい。
【0019】
なお、図1に示した例では、事業者1の行う解析の対象となっているのは人間の患者2であるが、本実施形態における解析の対象は人間に限られず、例えば家畜等でもよい。この場合、病院3は動物病院や畜産業者ということになる。
【0020】
・医療データ解析装置
事業者1は、医療データ解析装置100を有し、上述した臨床的データおよび基礎医学的データを使用した解析処理を行う。
以下、医療データ解析装置100の構成例について説明する。
図2は、医療データ解析装置100の構成例を示す図である。
図2に示すように、医療データ解析装置100は、記憶部101、表示部102、制御部103、入力部104の各要素を有するコンピュータである。
【0021】
記憶部101は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等の記憶装置である。記憶部101には、各種データ(上述した臨床的データや基礎医学的データを含む)や、所定のプログラム、プログラムの実行に必要なデータ等が記憶される。
表示部102は、例えば液晶ディスプレイやCRT(Cathode Ray Tube)等の表示装置である。
制御部103は、例えばCPU(Central Processing Unit)等の主演算装置であり、記憶部101に記憶された所定のプログラムを実行して所定の処理を行う。
入力部104は、例えばキーボードやマウス、スキャナ等のデータ入力装置である。また、入力部104は、データ入力端子であって、オンラインでのデータ入力を受け付ける。
【0022】
以下説明する解析方法は、このような記憶部101、表示部102、制御部103、入力部104を有するコンピュータである医療データ解析装置100によって実行される。具体的には、このような解析方法を実行するプログラムが記憶部101に記憶されており、入力部104を介した操作に応じて制御部103がプログラムを実行させることにより、解析が行われる。
医療データ解析装置100は上述した構成以外にも、例えば印刷等の出力を行う出力部を有していてもよい。
【0023】
・解析方法
次に、事業者1の医療データ解析装置100により行われる、臨床的データと基礎医学的データとの両方を使用したデータマイニングの手法による解析の具体的方法について説明する。
図3は、医療データ解析装置100において行われる、データマイニングの手法を使用した解析方法の一例を示すフローチャートである。
【0024】
ステップST1:
複数の患者2および病院3から取得した臨床的データのデータ入力を行う。
臨床的データは、予め複数の患者2および病院3から取得されたものを使用する。なお、臨床的データを患者2から採取する方法については、本発明では限定しない。臨床的データは、患者2が病院3まで出向いて生成されるのが一般的である。
【0025】
ステップST2:
予め患者2から取得した被検査物を基に生成した基礎医学的データを入力する。
ここで、被検査物とは、患者2から採取された血液、糞便、尿、唾液、鼻孔粘液、皮膚、膣液等である。本実施形態では、特に、糞便を被検査物として、糞便内に存在する共生微生物である腸内常在菌を対象とした解析を行う場合について説明する。
なお、被検査物を患者2から採取する方法については、本発明では限定しない。被検査物は、患者2自身が採取してもよいし、病院3において採取されてもよい。
基礎医学的データの生成方法については後述する。
ステップST3:
ステップST1において入力した臨床的データおよび、ステップST2において入力した基礎医学的データを基に、データマイニングの手法による解析を好適に行うために、データ整理を行う。
まず、取得した臨床的データおよび基礎医学的データを、行(縦)方向に患者2(被験生体)を、列(横)方向にデータの各項目を配置し、2次元のデータ(表)を生成する。
【0026】
図4(a)に、2次元のデータとしての臨床的データの例を示す。
また、図4(b)に、2次元のデータとしての基礎医学的データの例を示す。
図4(a)では、列方向に患者名が示され、行方向にHbA1c、収縮期血圧、LDL−C、HDL−C・・・等、患者2毎の臨床的データの項目が示されている。
図4(b)では、列方向に患者名が、行方向にB332、B494、B641、B657・・・等、患者毎の基礎医学的データの項目名(ここでは、腸内常在菌の種類と量的な構成を示す名称)が示されている。B332、B494等の項目名の詳細については、後述する。
【0027】
臨床的データと基礎医学的データとをデータマイニングの手法によりデータ解析するために、これらのデータセットを単一の表で表すことが必要である。このため、本ステップにおいて、図4(a)に例示した臨床的データと図4(b)に例示した基礎医学的データとを基にして、単一の表を作成する処理を行う。
具体的には、図4(a)に例示した臨床的データと図4(b)に例示した基礎医学的データとを基に、同一患者に関する臨床的データと基礎医学的データを対応付ける。
図4(c)に、図4(a)に示す臨床的データと図4(b)に示す基礎医学的データを基に作成した単一の表の例を示す。
図4(c)に示す表は、図4(a)に示す臨床的データと図4(b)に示す基礎医学的データの両方のデータを、患者名毎に示した単一の表である。列方向には患者名が示され、行方向にはHbA1c、収縮期血圧、LDL−C、HDL−C・・・等の臨床的データの項目名の後、B332、B494、B641、B657・・・等の基礎医学的データの項目名が示される。
同一患者に関する臨床的データと基礎医学的データが対応付けられるため、図4(a)の表には存在し図4(b)の表示は存在しない患者Cおよび、図4(b)の表には存在し図4(a)の表示は存在しない患者Eは図4(c)に示す単一の表からは削除されている。
このような処理により、患者毎の臨床的データと基礎医学的データとの対応関係が明瞭になる。
【0028】
ステップST4:
本ステップでは、解析の目的となる「特性」の入力を医療データ解析装置100の入力部104を介して受け付ける。
ここで、「特性」とは、例えば事業者1により予め決定される解析の目的に応じたデータの一項目を意味する。
「特性」は、例えば解析の目的となる疾病に対応する臨床的データの一項目から選択される。
例えば、上述した図4の例では、図4(a)に示すように、臨床的データは、HbA1c、収縮期血圧、LDL−C、HDL−C・・・と様々な項目を有している。
ここで、HbA1cは、糖尿病に関連の深い項目であり、収縮期血圧は、高血圧に関連の高い項目であり、LDL−C及びHDL−Cは、脂質異常症(高脂血症)に関連の高い項目である。
【0029】
すなわち、事業者1は、例えば糖尿病に関して解析を行うことを目的とする場合には、「特性」としてHbA1cを選択する。同様に、高血圧に関して解析を行うことを目的とする場合には、「特性」として収縮期血圧を、脂質異常症に関して解析を行うことを目的とする場合には、「特性」としてLDL−C及びHDL−Cを選択すればよい。
また、上述した例以外の疾病に関して解析を行うことを目的とする場合は、その疾病に関連が高い項目の臨床的データをステップ1において予め入力し、本ステップにおいてその項目を選択すればよい。
このように、事業者1は、解析の目的に合わせて、臨床的データの1項目を選択し、入力部104を介して選択した項目を入力する。そして、以降のステップでは、入力された選択された項目の値に応じて解析を行うことになる。
【0030】
なお、本実施形態では、臨床的データとして、上述したように医師の診断内容や、患者2に対するアンケートの結果等、数値やカテゴリ値ではなく文章で記述されるデータも含まれる。本実施形態では、図4(a)には例示していないものの、数値データ以外の記述データも特性として設定することができる(詳しくは後述する)。
【0031】
上述した「特性」の選択は、事業者1の入力部104を介した操作により行われる。
なお、事業者1は、例えば、解析の目的とする疾病に応じて、患者2および病院3から当該疾病に関連が高い項目の臨床的データを取得するようにしてもよいし、無作為に患者2および病院3から取得した臨床的データの中から、事業者1が任意に解析の目的とする「特性」を決定するようにしてもよい。
【0032】
ステップST5:
ステップST3において生成した2次元データを基に、ステップST4において選択した「特性」に関して、データマイニングの手法によるデータ解析を行う。
データマイニングとは、蓄積されたデータを解析し、目的とする特性に関して、その中に潜む項目間の相関関係や特徴などを探し出して特性の動向を予測する手法である。
【0033】
データマイニングの手法としては、例えば、C&RT法、CHAID(Chi-square Automatic Interaction Detection)法、QUEST(Quick, Unbiased, Efficient, Statistical Tree)法、C5.0法等の決定木(ルールセット)の構築と分別モデルとを提供する演算方法や、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、SVM(Support Vector Machine)法等の決定木を構築せず分別モデルを提供する演算方法がある。
決定木(Decision Tree)とは、木構造を利用して、入力パターンに対応する分別結果のアルゴリズムを表現したものである。
分別モデルとは、与えられた数値資料に含まれるデータの特徴をデータマイニングの演算方式によって、資料中の特定項目の動向に着目及び/または整理し、データを類似集団への帰属状況に基づき個別にまとめ分類して、資料全体の持つ構造特性を再現性よく分別すること、また、後続する別の数値資料を該モデルに適用することで、容易に類似の分別結果や予測確率が得られることを特徴とする演算数式群である。
分別モデルはデータマイニングの演算方式毎に構築可能である。また、同じ数値資料、同じ演算方式であっても目的とする特性が異なれば、異なる分別モデルが生成され、電子ファイル等に保存可能である、という特徴を有する。
【0034】
・データマイニングによる解析方法
解析に使用するデータマイニングの手法は、例えば、C&RT法、CHAID法、QUEST法、C5.0法、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、SVM(Support Vector Machine)、等の手法のうち、解析の目的や性質に合わせて事業者1が任意に選択した手法を使用すればよい。
上記例示したデータマイニングの演算手法のうち、C&RT法、CHAID法、QUEST法、C5.0法を使用した場合には、決定木と分別モデルとが提供され、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、SVMを使用した場合には、分別モデルのみが提供され決定木は提供されない。
【0035】
以下、まず、決定木を提供する演算方式の一例として、C&RT法を使用した場合について説明する。
(1)C&RT法
C&RT法は、目的変数に対してできるだけ等質なデータサブセットを作成すべく、対象を2つに分別することにより決定木を構築していくものである。
具体的には、データの不純度(Gini係数)を定義し、元のデータ(親ノードのデータ)を2つのサブセット(子ノードのデータ)に分割するとき、子ノードの不純度が親ノードの不純度に対してどの程度改善されたかを示す改善度を分別作業の評価基準として構築していく。
そして、改善度が最大となるような分別点(分別変数及びその値)を再帰的に探索する過程を、停止規則を満たすまで反復する。
【0036】
不純度g(t)および改善度f(t)は、以下のように算出される。
【0037】
【数1】

【0038】
【数2】

【0039】
ただし、数式1および数式2において、
【0040】
【数3】

【0041】
【数4】

【0042】
【数5】


である。
【0043】
ここで、π(j)は、カテゴリjの事前確率、N(t)は、ノードtにおけるカテゴリjのケース数(本実施形態の場合は、患者数)、Nは、ルートノードにおけるカテゴリjのケース数である。また、Pは、ノードtにおいて1つ目の子ノードに送られるケースの割合であり、Pは、ノードtにおいて2つ目の子ノードに送られるケースの割合である。
C&RT法においては、改善度f(t)が最大となるように分別する。すなわち、不純度が最も大きく減少するように分別する。
このようにして、決定木を構築し、出力する。
なお、C&RT法による決定木の作出には、上述したようにGini係数を使用する他に、Twoing、最小2乗偏差(LSD)等を使用する方法もあり、目的とする特性や被検査物の性格によって使い分けるようにしてもよい。
【0044】
次に、決定木を提供しない演算方式の一例として、ロジスティック回帰法を使用した場合について説明する。
(2)ロジスティック回帰法
部分母集団iにおける応答カテゴリjの確率πijは以下のようになる。
【0045】
【数6】


ここで、Jは最後のカテゴリである。
x’βは、次のように表現される。
【0046】
【数7】


ただし、j=1、・・・Jである。
【0047】
数式6はロジット変換の逆関数であり、J=2のとき、このモデルは2項ロジスティック回帰モデルと同じである。このため、上記モデルは2項のレスポンスから多項名義レスポンスへの、2項ロジスティック回帰モデルの延長と考えられる。
【0048】
このモデルの対数尤度は以下の式により得られる。
【0049】
【数8】

【0050】
ここで、対数尤度を最大とするパラメータBを求めるために、Newton-Raphson法を用いる。ただし、この方法は、パラメータBに対する1の二次導関数の期待値が観測対象の期待値と同じため、このモデルのFisherのスコアリングアルゴリズムと同一となる。
∂l/∂Bを、パラメータBに関する1の一次導関数の(J−1)p×1ベクトルとする。
さらに、[∂l/∂B∂B]を、パラメータBに関する二次導関数1の(J−1)p×(J−1)p行列とする。
【0051】
ここで、[∂l/∂B∂B]は、以下のように与えられる。
【0052】
【数9】


Δは、次のような(J−1)×(J−1)行列である。
【0053】
【数10】


ここで、π(−J)=πi1,...,πiJ−1であり、Diag(π(−J))はπ(−J)のβj*対角行列である。
【0054】
反復νにおけるパラメータ推定値をB(ν)とすると、反復ν+1におけるパラメータ推定値B(ν+1)は次の式のように与えられる。
【0055】
【数11】


ξ>0はl(B(ν+1))−l(B(ν))≧0となるようなステップ基準スカラーであり、Xは独立ベクトルの(J−1)p×(J−1)行列となる。
l(B(ν+1))−l(B(ν))<0の場合は、段階二分法を使用し、νがステップの最大数とすると、ξの値のセットは{1/2ν:ν=0,...,ν−1}となる。
【0056】
2つの収束基準ε>0及びε>0が与えられると、次の何れかの基準が満たされた場合に反復が収束したものと見なされる。
(1)|l(B(ν+1))−l(B(ν))|<ε
(2)max|B(ν+1)−B(ν)|<ε
(3)∂l/∂B(ν+1)中の上記要素の最大値がmin(ε,ε)未満
このような演算方法により、分別モデルが生成される。
【0057】
・基礎医学的データの生成方法
次に、基礎医学的データの生成方法について説明する。
本実施形態では、基礎医学的データとして患者から採取した糞便に含まれる腸内常在菌等の分析値を使用する場合について説明する。
【0058】
まず、腸内常在菌の分析値を得る方法について詳述する。
腸内常在菌の分析値を得る方法には、例えばターミナル−RFLP(Terminal Restriction Fragment Length Polymorphism Analysis:T−RFLP)法がある。
T−RFLP法は、被検査物から微生物由来の16S rDNA遺伝子を抽出し、その鋳型DNAをPCR(ポリメラーゼ連鎖反応:Polymerase Chain Reaction)により増幅し、制限酵素(DNAの特定の塩基配列部位を切断する性質を持つ酵素)による消化後にフラグメント検査・分析を行い、制限酵素の切断部位が異なることを利用してそのピーク位置や強度の違いを計測する方法である。
T−RFLP法において、各DNA断片は共生微生物由来のOTU(Operational Taxonomic Unit:操作上の分別単位)として分別・計測される。
【0059】
このような分析により、例えば図4(b)に示したような基礎医学的データが得られる。
ここで、「B332」や「B494」等の項目名は、使用した制限酵素と、その制限酵素を使用して得られたピーク位置とを示すものである。
すなわち、「B332」の場合、例えばBslIという制限酵素を用いて得られたピーク位置が「332」であるOTUを意味している。すなわち、制限酵素の頭文字と、その制限酵素を用いて得られたピーク位置とを結びつけて項目名としている。
本実施形態では、制限酵素としてBslIを使用した例を示したが、本発明はこれには限定されない。他の制限酵素、例えば、MspI、AluI、HaeIII等を使用してもよい。
【0060】
各OTUに帰属する微生物種は極めて多く、また人の共生微生物はその大部分がその種名や生理機能について未解明であるため、どのOTUがどの微生物由来のものであるかは現状では複数の制限酵素を使用する等により類推するしかない。しかし今後、安価で再現性のある画期的なDNA検査方法が開発されれば、基礎医学的データとして、現状のOTUよりも正確な個別微生物群名、種名などを含む資料を得られると思われる。
このような事情により、本実施形態では、使用した制限酵素と、その制限酵素を使用して得られたピーク位置とを示すOTUを項目名として採用している。
【0061】
・データマイニングの手法によるデータ解析の具体例
以下では、データマイニングの手法によりデータ解析の具体例を示す。
一例として、図4(a)に示す各項目をそれぞれ特性とした場合のデータ解析結果を示す。
[1]HbA1cを特性とした場合
HbA1c(ヘモグロビンA1c)を特性として選択した場合について説明する。
HbA1cはブドウ糖と結びついたヘモグロビン(血色素)であり、糖尿病と大きな関連性を有する項目である。
図5は、C&RT法でHbA1cを特性として解析を行った結果得られた決定木の一例である。図5は、定期健康診断で生活習慣病が懸念された男女121名を対象にしたアンケート、問診、血液も含む各種検査からの取得された臨床的データおよび基礎医学的データを基にしたものである。
【0062】
図5において、決定木は左側から右側へと伸長している。
最も左側のノードであるノード0をルートノードといい、データ解析の対象となった全ての患者がこのノードに含まれる。
ノード0に含まれる全ての患者は、予めA〜Dの4つのカテゴリに分別されている。
このカテゴリ分けは、例えば解析の目的や性格に合わせて、事業者1によって例えば事業者1の入力部104を介した操作により予め行われている。
図5に示す例では、HbA1cの値の多寡に応じてカテゴリ分けがなされている。カテゴリ分けは、例えばHbA1cの値が所定のしきい値以下であるか、所定のしきい値より大であるか、に応じてなされればよい。
【0063】
図6に、図5におけるHbA1cのカテゴリ分けに使用したしきい値の一例を表として示す。
図6に示すように、カテゴリAは最もHbA1c濃度の低い患者が属するカテゴリであり、カテゴリDが最もHbA1c濃度の高い患者が属するカテゴリである。最もHbA1c濃度の高いカテゴリDに属する患者群は、糖尿病の重篤な患者である。
【0064】
図5及び図6に示す例では、HbA1c濃度が正常である患者が属するカテゴリ(カテゴリA)と、要注意状態の患者が属するカテゴリ(カテゴリBおよびC)、重篤な糖尿病である患者が属するカテゴリDとにカテゴリ分けを行うことにより、共生微生物とHbA1c濃度との関連性、ひいては共生微生物と糖尿病との関連性についての知見を得ることを目的としている。
【0065】
図5において、各ノードには類別された各カテゴリA〜DそれぞれのHbA1cの値に対応する患者数を「n」の欄に、患者数全体における各カテゴリの患者数の割合(パーセンテージ)を「%」の欄に示している。従って、ノード0において、「n」欄の合計は患者数全体の121人であり、「%」欄の合計は「100.000」%である。
図5に示す例では、全患者数121人のうち、カテゴリAに該当する患者数は42人であり、割合は34.711%である。カテゴリBに該当する患者数は46人であり、割合は38.017%である。カテゴリCに該当する患者数は14人であり、割合は11.570%である。カテゴリDに該当する患者数は19人であり、割合は15.702%である。
【0066】
図5において、ノード0は、ノード1およびノード2に分別されている。
この分別の条件が図5におけるノード0とノード1および2との間に記述されている。ノード0の右側に記述された「B494_tr」が分別に寄与するOTUを示し、ノード1の左側に記述された「<=21.923」およびノード2の左側に記述された「>21.023」が分別の際の境界値を示している。
すなわち、図5では、ノード0からノード1および2に分別する際に、「B494_tr」というOTUの値が境界値21.923以下であればノード1に、21.923より大であればノード2に分別している。
【0067】
ここで、分別に寄与するOTUは、上述したようにC&RT法による改善度の算出により、最も改善度の高くなるように選択されたものである。図5のノード0からノード1および2への分別の場合は、「B494_tr」となる。
なお、「B494_tr」とは、Bを頭文字とする制限酵素BslIによるピーク位置が494であるOTUを意味しており、上述した基礎医学的データの項目の一つである。なお、「B494_tr」の「_tr」は上述したC&RT法による演算の際、各項目毎に基準化した値を使用したことを示している。
【0068】
図5に示した例では、ノード1には、カテゴリAに41人、カテゴリBに14人含まれカテゴリCおよびDの患者は0人である。一方、ノード2には、カテゴリAが1人、カテゴリBが32人、カテゴリCが14人、カテゴリDが19人含まれる。
【0069】
また、図5に示した例では、ノード3にはカテゴリAの患者のみが含まれ、ノード15もほぼカテゴリAの患者のみが集まっている。また、ノード9にはカテゴリBの患者のみが集まり、ノード7、ノード16、ノード18、ノード26には、カテゴリBの患者が多く集まっている。また、ノード11および25にはカテゴリCの患者のみが集まっている。カテゴリDの患者は、ノード12にのみ全員集まっている。
【0070】
以上のことから、ノード11およびノード12に、HbA1c濃度が最も高い(糖尿病の重篤な患者である)カテゴリDの全員と、その次にHbA1c濃度が高いCグループの患者とが集まっていることがわかる。図5によれば、ノード11および12へと分別するOTUは「B494」と「B332」であるため、これらのOTUが糖尿病の発生に大きな関連性を有する、ということを上記解析から容易に推測することができる。
【0071】
[2]収縮期血圧を特性とした場合
収縮期血圧を特性として選択した場合について説明する。
収縮期血圧は高血圧症と大きな関連性を有する特性である。
図7は、C&RT法で収縮期血圧を特性として解析を行った結果得られた決定木の一例である。図7は、定期健康診断で生活習慣病が懸念された男女121名を対象にしたアンケート、問診、血液も含む各種検査からの取得された臨床的データおよび基礎医学的データを基にしたものである。
【0072】
図7に示す例では、図5に示した例と同様に、ノード0からC&RT法による改善度が高くなるように分別を決定し、右側へ向かって決定木を伸長し、各ノードが単一カテゴリ或いはそれに近い状態になるまで分別処理を行っている。
【0073】
図7に示す例では、全ての患者は予め、例えば事業者1によりJ〜Mの4つのカテゴリに分別されている。各患者は収縮期血圧の値に応じて、カテゴリJ〜Mのいずれかに分別される。図8に、収縮期血圧の値に応じたカテゴリ分けに使用したしきい値の一例を示す。
図8に示すしきい値によりカテゴリ分けされたカテゴリJ〜Mにおいて、カテゴリMが最も収縮期血圧が高い患者の属するカテゴリである。
【0074】
最も収縮期血圧が高いカテゴリMに属する患者は、図7によれば、ノード10に全員が含まれ、次に収縮期血圧が高いカテゴリであるカテゴリLに属する患者は、その多くがノード9に含まれる。
従って、図7に示す決定木からは、「B469」、「B124」、「B366」等のOTUが高血圧症の発生に大きな関連性を有することを容易に推測することができる。
[3]LDL−CおよびHDL−Cを特性とした場合
LDL−CおよびHDL−C(コレステロール値)を特性として選択した場合について説明する。
LDL−CおよびHDL−Cは脂質異常症(高脂血症)と大きな関連性を有する特性である。
図9は、C&RT法でLDL−CおよびHDL−Cを特性として解析を行った結果得られた決定木の一例である。図9は、定期健康診断で生活習慣病が懸念された男女121名を対象にしたアンケート、問診、血液も含む各種検査からの取得された臨床的データおよび基礎医学的データを基にしたものである。
【0075】
図9に示す例では、図5および7に示した例と同様に、ノード0からC&RT法による改善度が高くなるように分別を決定し、右側へ向かって決定木を伸長し、各ノードが単一カテゴリ或いはそれに近い状態になるまで分別処理を行っている。
【0076】
図9に示す例では、全ての患者は予め、例えば事業者1によりP〜Sの4つのカテゴリに分別されている。各患者はLDL−CおよびHDL−Cの値に応じて、カテゴリP〜Sのいずれかに分別される。図10にLDL−CおよびHDL−Cの値に応じたカテゴリ分けに使用したしきい値の一例を示す。
図10に示すようなしきい値によりカテゴリ分けされたカテゴリP〜Sにおいて、カテゴリSは最も重篤な脂質異常症の患者の属するカテゴリ、カテゴリPは正常な患者の属するカテゴリである。カテゴリQおよびRは脂質異常症に関して要注意状態の患者の属するカテゴリである。
【0077】
図9によれば、ノード1には、重篤な脂質異常症の患者が属するカテゴリSの全ての患者が含まれており、ノード4には、要注意状態の患者が属するカテゴリQおよびRの全ての患者が含まれている。
そして、ノード5にはカテゴリQの多くの患者が含まれ、ノード12にはカテゴリRの全員が含まれている。ノード4からノード5とノード12への分別に関わるOTUは「B990」である。すなわち、ノード12からノード13(全員が正常な患者の属するカテゴリPに含まれる)とノード14(要注意状態の患者の属するカテゴリQおよびRの患者が含まれる)への分別を考慮すると、「B990」の微妙な濃度差が脂質異常症の発症に大きく影響していることが推測できる。
【0078】
以上説明したように、本実施形態の医療データ解析方法によれば、一般的に行われる健康診断や検査において得られる臨床的データと、糞便、尿、唾液、鼻腔粘液、皮膚や膣液等や血液等の被検査物を基に基礎医学系の研究所等における検査および/または分析により生成される基礎医学的データと、を基に、データマイニングの手法によるデータ解析を行うので、臨床的データと基礎医学的データとを有機的に対応付け、これらの関連性を容易に把握可能な決定木を構築することができる。
また、臨床的データに含まれる複数の項目のうち、データ解析の目的に応じた項目を選択し、選択した項目(特性)と基礎医学的データの各項目の数値データを基にデータ解析を行うことができる。従って、同一のデータ(臨床的データおよび基礎医学的データ)から、目的とする項目を変更するだけで、目的に応じた決定木を構築することができる。
【0079】
さらに、データ解析に使用するデータマイニングの手法として、決定木を構築可能である演算方法(例えば、C&RT法、CHAID法、QUEST法、C5.0法等)を使用することにより、目的とする特性に対応した患者がどのノードに含まれているかを視覚的かつ容易に把握することが可能であり、目的とする特性に応じた疾病等に対応する基礎医学的データの項目を容易に理解することができる。
【0080】
さらに、決定木および分別モデルの構築に使用した臨床的データと基礎医学的データの患者以外の新しい患者のデータに対して、予め構築した決定木および分別モデルを適用することにより、新しい患者に対する疾病状況の予測分別等が可能になる。
具体的には、例えば、新しい患者の基礎医学的データのみを取得した場合に、上述した実施形態において特性「HbA1c」について構築した決定木(図5参照)を参照するならば、構築した決定木において、分別に対応するOTUと分別境界値とが明らかになっているので、新しい患者のデータに対しては既に生成されている分別モデルを適用するだけで、新しい患者のそれぞれがどのノードに含まれるかを容易に推測することができ、これにより目的とする特性に対する新しい患者の疾病状況の予測分別等が可能となる。
【0081】
本発明は上述した実施形態には限定されない。
すなわち、当業者は、本発明の技術的範囲またはその均等の範囲内において、上述した実施形態の構成要素に関し、様々な変更、コンビネーション、サブコンビネーション、並びに代替を行ってもよい。
【0082】
上述した実施形態では、図5、7、9に示す決定木を構築するデータ解析において、選択された特性の値に応じてそれぞれ4つのカテゴリに分割したが、これは一例であり、本発明はこれには限定されない。より多くのカテゴリ、例えば6〜8つのカテゴリに分割することにより、より重篤な患者が含まれるカテゴリを見いだし、特性の関連するOTUをより好適に特定することが可能となる。
【0083】
また、上述した実施形態では、図5、7、9に示す決定木を構築するデータ解析において、事業者1が予め目的とした特性の値に応じたカテゴリ分けを行う例について説明したが、本発明はこれには限定されない。臨床的データは必ずしも数値やカテゴリ・データとは限らず、例えば、患者2によるアンケートの回答結果や、医師の診断結果等、文章や語句の羅列により記述されている場合もある。例えば、事業者1がこのような文章や語句の羅列の項目を特性として選択し、記述の内容に応じてカテゴリ分けをするようにしてもよい。例えば、データとして「なし」、「腹部に痛みあり」、「脚部に痛みあり」・・・等が記述されている「自覚症状」という項目を選択し、「自覚症状のありなし」でカテゴリ分けをしてもよいし、「自覚症状のある部位」でカテゴリ分けをしてもよい。このように、カテゴリ分けは解析の目的に応じて事業者1が自由に設定することが可能である。
【0084】
上述した実施形態では、データマイニングの手法の例としてC&RT法及びロジスティック回帰法について説明したが、本発明にて使用するデータマイニングの演算方式はこれらには限定されない。例えば、CHAID法、QUEST法、C5.0法等、決定木(Decision Tree)の構築と分別モデルとを提供する演算方法や、ベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、SVM等、決定木を構築せずに分別モデルを提供する演算方法、のうち、解析の目的に合わせた演算方法を例えば事業者1が任意に選択して使用すればよい。なお、決定木を構築しない演算方法の場合は、ノードの分別や関連性について視覚的に把握することは不可能となるが、いずれの演算方法でも分別モデルは構築されるので、目的とする特性に関するデータ解析と分別は可能である。
【0085】
また、決定木を構築せずに分別モデルを生成する演算方式を採用した場合は、以下説明する数理的重要度をさらに算出し、目的とする特性に対して関係の深い項目を推定することが可能である。
数理的重要度は、例えば最近隣分析法等により算出する。
数理的重要度は、目的とする特性に対する類似性に基づいて各成分のデータパターンを識別し、その遠近距離を分類する非類似度の尺度として用いるものである。
具体的には、成分の重要度をFI(p)とし、パターンを比較した際の誤差率または誤差平方和をeとすると、生成された数値モデルにX(1),X(2),...,X(m)(1≦m≦P)があれば、そのモデルOTU X(p)の重要度を、次の式で算出する。
【0086】
まず、モデルから当該成分X(p)を除き、残りの成分X(1),X(2),...,X(p−1),X(p+1),...,X(m)に基づいて、誤差率または誤差平方和e(p)を算出・比較する。
そして、FI(p)=e(p)+1/mを算出し、最後に当該成分X(p)の重要度を得る。
ここで、Xは、要素Xpnを持つ2次元のP×N行列で、p=1,〜,Pは成分を、n=1,〜,Nは被験生体の計測事例を指す。また、Pは、目的とする特性の次元数であって、連続型では成分の数、カテゴリ型の特性では成分全体のカテゴリ数である。
【0087】
また、上述した実施形態では、基礎医学的データとして、患者2の糞便を被検査物とし、腸内常在菌についてのデータを使用する場合について説明したが、本発明はこれには限定されない。例えば、尿、唾液、鼻腔粘液、皮膚や膣液を被検査物としてこれらに含まれる共生微生物を解析の対象としてもよい。また、例えば、血液を被検査物としたメタボローム解析(全成分解析:代謝産物を網羅的に解析すること)の結果を基礎医学的データとして使用してもよい。
【符号の説明】
【0088】
1・・・事業者、2・・・患者、3・・・病院、100・・・医療データ解析装置、101・・・記憶部、102・・・表示部、103・・・制御部、104・・・入力部

【特許請求の範囲】
【請求項1】
複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置の医療データ解析方法であって、
医療データ解析装置が、同一患者に関する前記臨床的データと前記基礎医学的データを対応付ける第1のステップと、
医療データ解析装置が、予め選択された前記臨床的データの一項目に対して、前記第1のステップにおいて対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第2のステップと、
を有する医療データ解析方法。
【請求項2】
前記第2のステップにおいて、前記データマイニングの手法により、前記基礎医学的データにおける類似集団を抽出し、当該基礎医学的データ全体の有する構造特性を分別するための分別モデルを生成する
請求項1に記載の医療データ解析方法。
【請求項3】
前記第2のステップにおいて、前記データマイニングの手法として、少なくともC&RT法、CHAID法、QUEST法、C5.0法のいずれかを使用し、前記医療データ解析装置は、当該手法により決定木及び前記分別モデルを構築する
請求項2に記載の医療データ解析方法。
【請求項4】
前記第2のステップにおいて、前記データマイニングの手法として、少なくともベイズ法、ロジスティック回帰法、ニューラルネットワークアルゴリズム、SVM(Support Vector Machine)のいずれかを使用し、前記医療データ解析装置は、当該手法により前記分別モデルを構築する
請求項2または3に記載の医療データ解析方法。
【請求項5】
前記第2のステップにおいて、前記医療データ解析装置は、前記予め選択された前記臨床的データの一項目を目的変数として設定し、前記対応付けられた基礎医学的データの各項目を説明変数として、データマイニングの手法により前記分別モデルを構築する
請求項2から4のいずれか一項に記載の医療データ解析方法。
【請求項6】
前記複数の患者に関する身体的データは、性別、年齢、身長、体重、肥満度の内、少なくともいずれかのデータを含み、
前記患者の生活習慣に関するデータは、喫煙習慣、晩酌習慣、食事の嗜好、食事の内容、睡眠状況、運動の質、運動の量の内、少なくともいずれかのデータを含み、
前記患者の疾病状態に関するデータは、血圧、服薬状況、既往病歴、自覚症状、医療関係者による診断結果の内、少なくともいずれかのデータを含み、
前記患者から得られる被検査物の検査結果に関するデータは、血液検査の結果および尿検査の結果の内、少なくともいずれかのデータを含む
請求項1から5のいずれか一項に記載の医療データ解析方法。
【請求項7】
前記患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータは、患者の糞便、尿、唾液、鼻腔粘液、皮膚や膣液の少なくともいずれかを検査及び/または分析して得られる共生微生物に関するデータである
請求項1から5のいずれか一項に記載の医療データ解析方法。
【請求項8】
前記患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータは、患者の血液のメタボローム解析による解析結果データである
請求項1から5のいずれか一項に記載の医療データ解析方法。
【請求項9】
複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置であって、
前記臨床的データおよび前記基礎医学的データを記憶する記憶部と、
入力操作を受け付ける入力部と、
制御部と、
を有し、
前記制御部は、同一患者に関する前記臨床的データと前記基礎医学的データを対応付け、前記入力部を介した入力操作により予め選択された前記臨床的データの一項目に対して、前記対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う
医療データ解析装置。
【請求項10】
複数の患者に関する身体的データ、患者の生活習慣に関するデータ、患者の疾病状態に関するデータ、患者から得られる被検査物の検査結果に関するデータ、の内、少なくともいずれかのデータを含む臨床的データと、患者から得られる被検査物に対する基礎医学的な検査及び/または分析の結果に関するデータである基礎医学的データと、を基に、データ解析を行う医療データ解析装置が有するコンピュータの実行するプログラムであって、
同一患者に関する前記臨床的データと前記基礎医学的データを対応付ける第1の手順と、
予め選択された前記臨床的データの一項目に対して、前記第1の手順において対応付けられた基礎医学的データを基に、データマイニングの手法を用いたデータ解析を行う第2の手順と、
を前記コンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2013−8159(P2013−8159A)
【公開日】平成25年1月10日(2013.1.10)
【国際特許分類】
【出願番号】特願2011−139811(P2011−139811)
【出願日】平成23年6月23日(2011.6.23)
【出願人】(504337028)