予測プログラムおよび予測装置

【課題】評価対象に応じて精度の高い予測をおこなうことができ、その予測の根拠も示すことができる予測プログラムおよび予測装置を提供すること。
【解決手段】構造化部２１は、評価対象のデータに応じて、属性値の組合せパターンを生成する。再構成部２２は、構造化部２１が生成した組合せパターンに一致するデータを集積データから検索し、部分集合データを生成する。そして、リスク判定指標処理部２３が、各部分集合データと評価対象データの関連の強さを評価し、リスク判定部２４は、その評価結果に基づいて部分集合データを選択し、予測処理をおこなう。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測プログラムおよび予測装置に関し、特に、評価対象に応じて精度の高い予測をおこなうことができ、その予測の根拠も示すことができる予測プログラムおよび予測装置に関するものである。
【背景技術】
【０００２】
近年、ニューラルネットワークやＳＶＭ（Support Vector Machine）といった非線形分析手法をもちいた予測システムの研究が進んでいる。これらの非線形分析手法をもちいた予測システムは、従来の単純な線形手法をもちいた予測システムと異なり、学習に基づいて予測をおこなうため、非線形性を有する事象に対しても適用することができる。
【０００３】
非線形分析手法を応用した予測システムの例として、遺伝子の組合せから疾患の発生リスクを予測するリスク予測システムがある。遺伝子の組合せパターンは膨大であり、集団の階層化に代表される非線形効果が存在する。このため、単純な線形手法をもちいた予測システムよりも、非線形分析手法をもちいた予測システムの方が適切な予測結果を得ることができる。
【０００４】
非線形分析手法をもちいて遺伝子の組合せから疾患の発生リスクを予測する技術については、たとえば、特許文献１において開示されている。
【０００５】
【特許文献１】特開２００３−４７３９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
しかしながら、非線形分析手法をもちいた予測システムは、学習順序や学習の程度によって予測精度が左右されるため、予測の信頼性が学習過程に依存してしまうという問題がある。また、予測の根拠が曖昧であり、予測結果に関して明確な根拠を示すのが難しいという問題もある。
【０００７】
疾患の発生リスクの予測は、場合によっては生命にも影響を与えるため、予測結果には高い精度と明確な根拠がともなっていることが非常に重要である。
【０００８】
この発明は、上述した従来技術による問題点を解消するためになされたものであり、評価対象に応じて精度の高い予測をおこなうことができ、その予測の根拠も示すことができる予測プログラムおよび予測装置を提供することを目的とする。
【課題を解決するための手段】
【０００９】
上述した課題を解決し、目的を達成するため、本発明は、属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測プログラムであって、前記評価対象データの属性値と不特定の値を意味する属性値とを組み合わせて属性値の組合せパターンを生成する構造化手順と、前記組合せパターンと一致するデータを前記集積データより検索し、部分集合データを生成する再構成手順と、前記再構成手順により生成された各部分集合データに対して、評価データとの関連の重要性を示す指標を設定する指標設定手順と、前記指標設定手順により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手順とをコンピュータに実行させることを特徴とする。
【００１０】
また、本発明は、属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測装置であって、前記評価対象データの属性値と不特定の値を意味する属性値とを組み合わせて属性値の組合せパターンを生成する構造化手段と、前記組合せパターンと一致するデータを前記集積データより検索し、部分集合データを生成する再構成手段と、前記再構成手段により生成された各部分集合データに対して、評価データとの関連の重要性を示す指標を設定する指標設定手段と、前記指標設定手段により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手段とを備えたことを特徴とする。
【００１１】
これらの発明によれば、集積データから評価対象データに応じた複数の部分集合データを導出し、これらの部分集合データのうち、評価対象データにとって重要性が高いものに基づいて予測処理をおこなうように構成したので、評価対象データに適合した精度の高い予測をおこなうことができる。
【００１２】
また、本発明は、上記の発明において、前記指標設定手順は、属性値の組合せが統計的に有効な部分集合データが優位になるように指標を設定することを特徴とする。
【００１３】
また、本発明は、上記の発明において、前記指標設定手順は、評価データと値が一致する属性値が多い部分集合データが優位になるように指標を設定することを特徴とする。
【００１４】
また、本発明は、上記の発明において、前記指標設定手順は、第１の部分集合データが第２の部分集合データに内包されている場合に、前記第１の部分集合データが前記第２の部分集合データよりも優位になるように指標を設定することを特徴とする。
【００１５】
これらの発明によれば、部分集合データ毎に評価対象データに対する重要性を評価するように構成したので、集積データ全体としては隠れていたデータの関連性が部分集合データにおいて明確になり、非線形手法のような高度な手法をもちいることなく一般的な手法で予測処理をおこなうことができ、また、予測の根拠も明確となる。
【発明の効果】
【００１６】
本発明によれば、集積データから評価対象データに応じた複数の部分集合データを導出し、これらの部分集合データのうち、評価対象データにとって重要性が高いものに基づいて予測処理をおこなうように構成したので、評価対象データに適合した精度の高い予測をおこなうことができるという効果を奏する。
【００１７】
また、本発明によれば、部分集合データ毎に評価対象データに対する重要性を評価するように構成したので、集積データ全体としては隠れていたデータの関連性が部分集合データにおいて明確になり、非線形手法のような高度な手法をもちいることなく一般的な手法で予測処理をおこなうことができ、また、予測の根拠も明確となるという効果を奏する。
【発明を実施するための最良の形態】
【００１８】
以下に添付図面を参照して、本発明に係る予測プログラムおよび予測装置の好適な実施の形態を詳細に説明する。なお、以下の実施例では、本発明に係る予測プログラムおよび予測装置を疾患リスクの予測にもちいる場合を例にして説明するが、本発明の用途は、疾患リスクの予測に限定されるものではなく、たとえば、金融、マーケティングおよび保険などの分野におけるリスク評価に適用することができる。
【実施例】
【００１９】
まず、本実施例に係る予測方式の概要について説明する。本実施例に係る予測方式では、遺伝子情報と疾患情報とを集積した疫学データに基づいて特定の個体の疾患リスクの予測をおこなう。遺伝子は、複数の塩基の配列からなるが、この配列にはゆらぎがあり、個体ごとに塩基の配列の一部が異なることが知られている。そして、この塩基の配列の違いが疾患リスクと関連していると考えられている。
【００２０】
遺伝子上の一塩基の違いを意味するＳＮＰ（Single Nucleotide Polymorphism）において、一つのＳＮＰについて２通りのパターンをとりうる場合、ＳＮＰ１００個の組合せの総数は、２の１００乗となる。これは、１０の３０乗程度の桁であり、１００個程度の組合せでも単純な数え上げの手法で分析することは困難である。なお、遺伝子が２倍体以上となる生物では、単純に２の乗数ではない。たとえば、２倍体である人間においては、ＳＮＰが２パターンである場合（例：Ａ/Ｃ）、２倍体なので、ホモ（ＡＡ，ＣＣ）、ヘテロ（ＡＣ）の３パターンとなり、３の乗数になる。このような場合であっても、本手法は、扱うことが可能である。
【００２１】
一般に、人間１人あたり、遺伝子上にＳＮＰが数百万程度あると予測されている上、通常、こうした分析においては、ＳＮＰだけでなく、多種多様な付加情報（年齢、性別、体重、地域、既往症等）を組み合わせて分析をおこなう必要がある。このため、調べるべき組合せは膨大なものとなり、全ての組合せについて疾患リスクを事前に分析しておくことは、設備コストや、処理時間の観点から、非常に困難である。
【００２２】
また、遺伝子の組合せパターンと疾患の関連には、非線形性があるため、単純な数え上げの手法のような線形手法では、有効な分析結果を得ることが難しい。ニューラルネットワークのような非線形手法をもちいて分析をおこなうことも可能であるが、非線形手法では、一般に、分析結果について明快な根拠を示すことができない。
【００２３】
疾患リスクの予測の用途としては、たとえば、顧客の依頼を受けてその顧客の遺伝子情報を取得し、取得した遺伝子情報と集積データから疾患リスクを予測し、予測結果を基にして診断やアドバイスをおこなうというモデルが考えられる。このような場合において、顧客に対して予測結果の根拠を示すことは、顧客に対して予測結果の信頼性を保証する上で重要である。
【００２４】
本実施例に係る予測方式では、評価対象のデータに応じて、動的に集積データの再構成をおこない、部分集合データを構成する。そして、構成した部分集合データに対して統計情報等を付与し、評価対象のデータとの適合性を求め、適合性の高い部分集合データを基にして予測をおこなう。
【００２５】
このように、評価対象のデータに応じて、動的に集積データの再構成をおこなうことにより、全ての組合せパターンを分析する場合と比較して、データの処理量が大きく減少し、処理時間の短縮を図ることができる。また、評価対象のデータと適合性の高い部分集合データに基づいて予測をおこなうことにより、集約データのもつ非線形特性を排除しながら、根拠が明確な予測をおこなうことができる。
【００２６】
次に、本実施例に係る予測装置の構成について説明する。図１は、本実施例に係る予測装置の構成を示すブロック図である。同図に示すように、本実施例に係る予測装置１０は、集積データベース１１と、個データベース１２と、設定条件データベース１３と、リスク予測部１４と、関係構造データベース１５と、再構成結果データベース１６と、リスク指標データベース１７と、リスク予測結果データベース１８と、入出力部１９とを有する。
【００２７】
集積データベース１１は、遺伝子情報を含む疫学データを記憶する。個データベース１２は、評価対象のデータを記憶する。設定条件データベース１３は、各種の設定条件を記憶する。
【００２８】
リスク予測部１４は、設定条件データベース１３に記憶された設定条件に従って、集積データベース１１に記憶された集積データと個データベース１２に記憶された評価対象データに基づいてリスク予測をおこなう処理部である。
【００２９】
リスク予測部１４は、データの再構成とデータの構造化、および統計・数学的手法等のデータマイニングを組み合わせることによりリスク判定指標を算出する。そして、各処理の結果を、関係構造データベース１５、再構成結果データベース１６、リスク指標データベース１７およびリスク予測結果データベース１８へ出力する。これらの結果は、評価対象のデータに対するリスク評価として入出力部１９から出力することで、ユーザからのデータの取得、閲覧が可能となる。
【００３０】
入出力部１９は、データの入出力するための処理部であり、データ入力用のキーボードやマウス、データ出力用のモニタや印刷装置などからなる。
【００３１】
次に、図１に示したリスク予測部１４の構成について説明する。図２は、図１に示したリスク予測部１４の構成を示すブロック図である。同図に示すように、リスク予測部１４は、構造化部２１と、再構成部２２と、リスク判定指標処理部２３と、リスク判定部２４と、シミュレーション部２５とを有する。
【００３２】
構造化部２１は、所定のルールに従って、集積データベース１１の各属性値の組合せを生成する処理部である。ここで、構造化部２１の処理内容について具体例を示して説明する。
【００３３】
図３は、集積データベース１１のデータ構成の一例を示すサンプル図である。同図に示すように、集積データベース１１は、各データを識別するためのＩＤと、複数の項目からなる属性情報から構成される。図３の例では、遺伝子Ａのタイプ、遺伝子Ｂのタイプ、遺伝子Ｃのタイプ、病気Ａの発症の有無、病気Ｂの発症の有無、病気Ｃの発症の有無という属性情報が存在しているが、これら以外にも、多種多様の属性情報（たとえば、年齢、体重等）が存在してもよい。また、図３では単純に、各遺伝子が最大２パターンの例で示しているが、各属性情報の値が２パターン以上であってもよい。実際に、人間の場合、遺伝子のパターンは３パターン以上になる（塩基の種類は４種類あり、２倍体であるため）。
【００３４】
図４は、個データベース１２のデータ構成の一例を示すサンプル図である。同図に示すように、個データベース１２は、各データを識別するためのＩＤと、複数の項目からなる属性情報から構成される。図４の例では、遺伝子Ａのタイプ、遺伝子Ｂのタイプおよび遺伝子Ｃのタイプという属性情報が存在しているが、これら以外にも、多種多様の属性情報（たとえば、年齢、体重等）が存在してもよい。また、各属性情報のパターンが２以上であってもよく、個データベース１２と、集積データベース１１の属性情報が全て一致している必要もない。
【００３５】
なお、図４の例では、個データベース１２にデータが１件しか存在しないが、データは複数件存在してもよく、その場合、データごとに予測処理が実行される。
【００３６】
図５は、構造化部２１の処理手順を示すフローチャートである。同図に示すように、構造化部２１は、所定の初期処理をおこなった後（ステップＳ１０１）、設定条件データベース１３や入出力部１９から、構造化の手法とパラメータを取得する（ステップＳ１０２）。そして、個データベース１２から評価対象のデータを取得し（ステップＳ１０３）、集積データベース１１から属性情報の項目情報を取得する（ステップＳ１０４）。
【００３７】
続いて、取得した手法とパラメータに従って、集積データベース１１の項目の組合せを生成し（ステップＳ１０５）、結果を関係構造データベース１５に出力する（ステップＳ１０６）。なお、処理結果については、関係構造データベース１５に出力せずに、次工程となる処理部に直接引き渡すように構成してもよい。
【００３８】
図６は、構造化部２１の出力結果の一例を示すサンプル図である。この例は、構造化の手法として、適合する属性数を評価した数（以降、「評価数」という）を使って関係構造情報を表現する旨が指定され、パラメータとして、遺伝子Ａ、遺伝子Ｂおよび遺伝子Ｃの３つの項目を組み合わせるように指定された場合を示している。
【００３９】
この例では、構造化部２１の処理結果は、名称と、評価数と、組み合わせる項目とからなる。組み合わせる項目は、指定されたパラメータにより変化し、この例では、遺伝子Ａ、遺伝子Ｂおよび遺伝子Ｃである。
【００４０】
名称は、構造化部２１により作成された各データを識別するための識別名である。評価数は、組み合わせる項目のうち、評価対象データと値が一致する項目の数を示す。たとえば、１行目のデータは、遺伝子Ａの値が「Ａ１」であり、遺伝子Ｂの値が「Ｂ２」であり、遺伝子Ｃの値が「Ｃ２」であることを求めているので、評価数は３となる。また、２行目のデータは、遺伝子Ａの値が任意であり、遺伝子Ｂの値が「Ｂ２」であり、遺伝子Ｃの値が「Ｃ２」であることを求めているので、評価数は２となる。
【００４１】
組み合わせる項目には、評価対象データの同一項目の値、もしくは、属性値の関連が未評価であることを示す「＊」が設定される。これらのデータは、後続の再構成処理において部分集合データを生成する際の検索条件となり、「＊」は、任意の値にマッチする、いわゆる、ワイルドカードとして機能する。この例では、評価数が０〜３の全て組合せを生成し、評価対象データの値と全く適合しない組合せから、完全に適合している組合せまで作成している。
【００４２】
なお、構造化の手法は、リスク予測の処理の目的に応じて、各種統計や数学的表現、名称付与等の適切な方法を利用可能である。
【００４３】
図７に、評価数を使って関係構造を示した意味を示す。ｎ次元（例では３次元）の立方体上の各頂点がそれぞれの評価属性の組合せパターンを示しており、各辺は、各頂点間の関係構造を示している。たとえば、（ａ１，ａ２，ａ３）＝（Ａ１，Ｂ２，Ｃ２）とした場合、（ａ１，ａ２，ａ３）は最も評価数が多いパターンであり、（ａ１，ａ２，０），（０，ａ２，ａ３），（ａ１，０，ａ３）は、一つだけ評価数が少ないパターンを示している。なお、図６における「＊」は、図７では「０」に対応している。
【００４４】
この構造化により、評価対象の属性情報の値との一致の程度や、各属性値の組合せパターンの間の関連が明確にされる。また、属性情報の評価対象データへの関連性が明確になるので、未評価の属性値間の詳細な分析をおこなう必要がなくなり、計算量を節約することが可能になる。
【００４５】
なお、リスク判定部２４で使用する処理方法（集計数をカウントするなど）によっては、再構成結果データベース１６から、存在している（部分集合が空集合でない）集合の一致パターンを取得して、空集合以外の処理のみ行うことで、計算量を節約することもできる。
【００４６】
図２に戻って、再構成部２２は、構造化部２１が生成した属性値の組合せに従って部分集合データを生成し、これに統計データを付加する処理部である。ここで、再構成部２２の処理内容について具体例を示して説明する。
【００４７】
図８は、再構成部２２の処理手順を示すフローチャートである。同図に示すように、再構成部２２は、所定の初期処理をおこなった後（ステップＳ２０１）、関係構造データベース１５等から、属性値の組合せ情報（構造化部２１の処理結果）を取得し（ステップＳ２０２）、設定条件データベース１３や入出力部１９から、再構成の手法とパラメータを取得する（ステップＳ２０３）。
【００４８】
そして、取得した組合せ情報に従って集積データベース１１からデータを検索して部分集合データを生成し、取得した手法とパラメータに従って統計情報を付与し（ステップＳ２０４）、結果を再構成結果データベース１６に出力する（ステップＳ２０５）。なお、処理結果については、再構成結果データベース１６に出力せずに、次工程となる処理部に直接引き渡すように構成してもよい。
【００４９】
図９は、再構成部２２の出力結果の一例を示すサンプル図である。この例では、関係構造データベース１５の、すべての属性値の組合せに対して処理を行った結果を示している。一度にすべての組合せを処理する必要がない場合は、リスク判定指標処理部２３、もしくは、リスク判定部２４からの要求に応じて、個別の組合せパターンに対して、その都度、必要な再構成処理をおこなってもよい。
【００５０】
属性情報のうち、利用する属性情報や具体的な条件、再構成時に付加する統計情報等は、入出力部１９を介してユーザから受け付けるか、設定条件データベース１３から読み込むか、もしくは、リスク判定部２４等他の処理部からの指定に応じて処理される。
【００５１】
図９の例では、図６に示した組合せごとに「病気Ａ」の発症のあるデータと発症のないデータとを集計し、統計量Ｙを求めている。この統計量Ｙは、たとえば、データ件数や、値の合計や平均値等であり、後続のリスク判定指標処理部２３がもちいる手法において必要とされる情報である。この例では、統計情報として統計量Ｙのみを付加しているが、複数の統計量を付加してもよい。
【００５２】
図２に戻って、リスク判定指標処理部２３は、再構成部２２が生成した部分集合データと評価対象データとの適合性を判断する処理部である。ここで、リスク判定指標処理部２３の処理内容について具体例を示して説明する。
【００５３】
図１０は、リスク判定指標処理部２３の処理手順を示すフローチャートである。同図に示すように、リスク判定指標処理部２３は、所定の初期処理をおこなった後（ステップＳ３０１）、設定条件データベース１３や入出力部１９から、リスク判定指標の設定手法とパラメータを取得する（ステップＳ３０２）。
【００５４】
そして、再構成結果データベース１６等から部分集合データを取得し（ステップＳ３０３）、取得した手法とパラメータに従って統計量Ｚを算出し、統計的に有効かどうかの判定結果を設定する（ステップＳ３０４）。この統計量Ｚは、当該の部分集合データにおける属性値の組合せと予測対象の事象（この例では「病気Ａ」）との因果関係の有無を判定するための統計データであり、たとえば、オッズ比がもちいられる。前述のように、どのような統計手法をもちいて統計量Ｚを求めるかによって統計量Ｙとして必要とされる統計データの種類も変化するが、オッズ比をもちいて統計量Ｚを求める場合、統計量Ｙは該当パターンを有するデータの件数等になる。
【００５５】
続いて、後述するリスク判定指標付与処理をおこなって各部分集合データにリスク判定指標を付与し（ステップＳ３０５）、結果をリスク指標データベース１７に出力する（ステップＳ３０６）。リスク判定指標は、当該の部分集合データと評価対象のデータとの適合性を判定するための統計データである。なお、処理結果については、リスク指標データベース１７に出力せずに、次工程となる処理部に直接引き渡すように構成してもよい。
【００５６】
図１１は、リスク判定指標処理部２３の出力結果の一例を示すサンプル図である。この例では、因果関係の有効性判定のための統計量Ｚと、それを元にしておこなった有効性の判定結果と、部分集合データが評価対象のデータに対して重要かを示すリスク判定指標を付与した結果を示している。図１１では、リスク判定指標が０以外で小さい数字ほど評価対象のデータに近い組合せパターンであることを示し、そのうち、判定結果が有効であるものが、評価対象のデータにより重要であることを示す。
【００５７】
図１２は、統計量Ｚとして、疫学でよく利用されるオッズ比をもちいた例を示している。この例では、「処理を行う値の組合せパターンとそれ以外のパターン」と「リスク評価を行いたい属性のとりうる２つの値」で２×２のクロス表を作成し、統計量Ｚを算出している。個々のクロス表の値は、条件に該当するデータ件数であり、統計量Ｙより得て計算をおこなっている。
【００５８】
具体的には、処理を行う組合せパターンでリスク評価の属性毎に再構成した統計量Ｙ（図９の例では図Ｙ３ＨおよびＹ３Ｐ）と、同様に全く評価を行わない組合せパターンの場合の統計量Ｙ（図９の例では、Ｙ０Ｈ、Ｙ０Ｐ）を再構成結果データベース１６より取得する。この結果、図１２に示す２×２のクロス表｛＝Ａ、Ｂ、Ｃ、Ｄ｝が得られ、統計量Ｚが算出される。この例では、統計量Ｚは、オッズ比（Ｚ３ｏ）や、信頼区間（Ｚ３ｒ＋、Ｚ３ｒ−）とすることができる。
【００５９】
オッズ比以外の統計手法では、集積データベース１１のデータ以外のデータを必要とする場合がある。この場合は、必要に応じて設定条件データベース１３等にそのデータを記録しておき、取得することとすればよい。たとえば、ベイズ統計の場合は、事前分布の情報を必要とするので、これを外部データとして設定条件データベース１３や、入出力部１９から取得する必要がある。
【００６０】
次に、図１０に示したリスク判定指標付与処理について説明する。本処理で付与するリスク判定指標は、統計的に有効と判定され、かつ、属性の値の適合状況が高いパターンに対して優位になるように設定されるのが特徴である。
【００６１】
図１３−１は、リスク判定指標付与処理の概念を説明するための概念図である。この図では、図７と同様に属性値の各組合せパターンをｎ次元（この例では３次元）の立方体の各頂点とし、さらに、図１１に示した統計的な有効性／無効性を各頂点に追記したものである。
【００６２】
リスク判定指標は、統計的に無効な組合せパターンについては常に０となる。また、統計的に有効な組合せパターンについては、他の有効な組合せパターンを内包しないパターンほど小さな値となる。すなわち、リスク判定指標が１以上であって小さいものほど組合せパターンの適合状況が高いことを示す。さらに、判定結果が有効（統計的に優位）であれば、評価対象のデータにとって、有効かつ重要な要素の組合せパターンであることを示す。
【００６３】
たとえば、（Ａ１，０，Ｃ２）という有効なパターンは、他の有効な組合せパターンを内包しないため、リスク判定指標は１となる。同様に、（０，Ｂ２，０）という有効なパターンも、リスク判定指標は１となる。（Ａ１，０，０）という有効なパターンは、（Ａ１，０，Ｃ２）という有効なパターンを内包しているため、属性の適合状況が低くなり、リスク判定指標は２となる。これは、０という座標値は、「＊」を示し、とりうる全ての値を含むためである。
【００６４】
（０，Ｂ２，０）と（Ａ１，０，０）は、どちらも有効なパターンであり、評価数も１で共通しているが、他の有効なパターンを内包していない（０，Ｂ２，０）の方がリスク判定指標の値が小さくなり、評価対象のデータに対してより適合性が高いと判断される。
【００６５】
他の有効な組合せパターンを内包しているか否かは、図１３−１に示した図において、評価対象のパターンと完全に一意する頂点までの経路上に他の有効なパターンを示す頂点が存在するか否かで判断することができる。（Ａ１，０，Ｃ２）と（０，Ｂ２，０）は、（Ａ１，Ｂ２，Ｃ２）に到達するまでの経路上に他の有効なパターンを示す頂点が存在しないが、（Ａ１，０，０）は経路上に（Ａ１，０，Ｃ２）が存在している。
【００６６】
図１３−２は、リスク判定指標付与処理の処理手順を示すフローチャートである。同図に示すように、まず、全てのデータのリスク判定指標を０でクリアする（ステップＳ４０１）。
【００６７】
そして、再構成データを１件取得する（ステップＳ４０２）。このデータの統計的な有効性の判定結果が有効でない場合は（ステップＳ４０３否定）、ステップＳ４０２で取得していないデータがあるか否かを確認し、存在すれば（ステップＳ４１１肯定）、ステップＳ４０２へ復帰し、ステップＳ４０２で全てのデータを取得済みであれば（ステップＳ４１１否定）、処理を終了する。
【００６８】
ステップＳ４０２で取得したデータの統計的な有効性の判定結果が有効である場合は（ステップＳ４０３肯定）、当該のデータのリスク判定指標を１だけ加算する（ステップＳ４０４）。
【００６９】
そして、再構成データを１件取得する（ステップＳ４０５）。ここで、ステップＳ４０５で取得したデータが、ステップＳ４０２で取得したデータと同一データでなく（ステップＳ４０６否定）、かつ、統計的に有効であり（ステップＳ４０７肯定）、かつ、ステップＳ４０２で取得したデータを内包している場合は（ステップＳ４０８肯定）、ステップＳ４０５で取得したデータのリスク判定指標を１だけ加算する（ステップＳ４０９）。
【００７０】
ステップＳ４０６〜Ｓ４０９の後、ステップＳ４０５で取得していないデータがあるか否かを確認し、存在すれば（ステップＳ４１０肯定）、ステップＳ４０５へ復帰する。ステップＳ４０５で全てのデータを取得済みの場合は（ステップＳ４１０否定）、ステップＳ４１１へ進む。
【００７１】
ステップＳ４１１へ進んだ場合は、ステップＳ４０２で取得していないデータがあるか否かを確認し、存在すれば（ステップＳ４１１肯定）、ステップＳ４０２へ復帰する。ステップＳ４０２で全てのデータを取得済みの場合は（ステップＳ４１１否定）、処理を終了する。
【００７２】
図１３−３は、リスク判定指標付与処理のもう一つの処理手順を示すサンプル図である。同図に示すように、リスク判定指標付与処理においては、関係構造に従って、評価数の大きい層から順にリスク判定処理をおこなうこととしてもよい。
【００７３】
本例では、リスク判定指標の算出方法として、(対象データも含む)経路上にある上流の有効数と対象データの有効性から算出した例を示した。算出方法は、対象データの有効数の算出を算出し、有効数から、リスク判定指標の算出をおこなう。具体的には、処理を行うデータの上位にある、起点（患者の状態ベクトル：図７参照）からの複数の経路のうち、最大の有効状態がある経路上の有効数を取得する。
【００７４】
この有効数に対して、対象データ自身が有効である場合は、１を加算する処理をおこない、無効である場合は、何も加算しない。こうして得られた処理結果を、処理対象データの有効数とする。次に、処理対象データが有効である場合は有効数に１を掛け、無効である場合は０を掛け、その結果をリスク判定指標とする。
【００７５】
同じ評価数の組合せパターンがない場合、もしくは、リスク判定指標が付与済みである場合は、評価数が一つ少ない下位の層の組合せパターン群を取得し、同様の判定処理をおこなう。リスク判定部２４に必要なパターンが得られるまで、この処理を繰り返しおこなう。この方式で処理をおこなった場合のリスク判定指標付与処理の処理結果の一例を図１３−４に示す。
【００７６】
たとえば、リスク判定部２４の処理において、リスク判定指標が１までのデータしか利用しない場合は、全ての経路が０でなくなった時点で処理を終了すれば、リスク判定指標が１の組合せを得ることができる。この結果、全ての組合せを処理する必要が無くなり、コンピュータの処理の量をさらに減らすことも可能である。
【００７７】
リスク判定指標付与処理には、関係構造の表現方法や、属性要素のデータの性質（連続量／離散量等）、リスク判定方法、組み合わせる統計・数学的手法に応じて、多様なアルゴリズムがありうるが、本実施例に係る予測装置においてもちいる場合は、属性情報の組合せパターンが評価対象データに近く、かつ、因果関係が統計的に有効なデータほどリスク判定指標が優位になるようにすればよい。この際、有効な組合せパターン間で、属性要素の組合せに包含関係がある場合は、評価数の大きい大きな集合の組合せを優位とする必要がある。
【００７８】
実際、図１３−２と、図１３−３に示した処理例では、処理対象データが内包する組合せに対してリスク判定指標の値が異なる。図１３−２の場合は、処理対象データ内のある組み合わせパターンが内包する全ての有効な組合せパターンの数（有効数）に対して＋１のリスク判定指標が与えられ、図１３−３の場合の例は、状態ベクトルが示す起点から、ある組合せパターンまでの、複数の経路上に内包される有効な組合せパターンに対して、最大の有効数である経路の有効数（最大有効数）に＋１となる。いずれの場合も、対象データの属性の組合せに対して、最も近い有効な例は１となる。
【００７９】
なお、リスク判定指標処理部２３で使用する統計手法を、設定条件データベース１３より取得することができるようにし、統計手法を目的に応じてユーザが選択することができるようにしてもよい。本手法で用いたオッズ比以外にも、χ二乗検定などの統計検定法や、ベイズ統計等の一般的手法を組み合わせて有効性の判定を行うことができる。
【００８０】
図２に戻って、リスク判定部２４は、構造化部２１と再構成部２２とリスク判定指標処理部２３の処理結果に基づいて、評価対象データのリスク評価をおこなう処理部である。ここで、リスク判定部２４の処理内容について具体例を示して説明する。
【００８１】
図１４は、リスク判定部２４の処理手順を示すフローチャートである。同図に示すように、リスク判定部２４は、所定の初期処理をおこなった後（ステップＳ５０１）、設定条件データベース１３や入出力部１９から、リスク判定の手法とパラメータを取得する（ステップＳ５０２）。
【００８２】
そして、関係構造データベース１５、再構成結果データベース１６、リスク指標データベース１７等から必要なデータを取得し（ステップＳ５０３）、それを基にしてリスクの予測をおこない（ステップＳ５０４）、結果をリスク予測結果データベース１８に出力する（ステップＳ５０５）。なお、処理結果については、予測結果データベース１８に出力せずに、入出力部１９に出力したり、他の処理部に引き渡したりするように構成してもよい。
【００８３】
図１５は、リスク判定部２４の出力結果の一例を示すサンプル図である。この例では、予測結果を識別するためのＩＤと予測結果とが対で出力されている。出力結果には、予測の根拠となった部分集合データ等を含めてもよい。
【００８４】
上記のステップＳ５０４でおこなう予測処理の手法は、ステップＳ５０２で取得した手法により決定されるが、この手法はいかなるものであってもよい。図１６にリスク予測処理の例を示す。
【００８５】
この例では、リスク判定指標が１（最も重要）であり、かつ、信頼区間が設定された条件を満たすデータをもちいて予測をおこなっている。また、予測は、所定の判定ルールに基づいておこなっている。具体的には、安全側に有効なデータが１件でもあれば、「安全」と判断する。安全側に有効なデータが１件もなく、危険側に有効なデータが１件でもあれば、「危険」と判断する。安全側に有効なデータも、危険側に有効なデータも存在しなければ、「判定不可」と判断する。なお、この判定ルールは、予測の対象や目的に応じて変更してよい。
【００８６】
本例は、最も単純な判定例を示したが、判定対象によっては、リスク判定指標が２以下の状態を考慮した複雑な判定ルールを設定してもよい。この際、上述したように、判定指標付与処理の処理手順によって、２以上のリスク判定指標の値が異なるため、判定ルールを判定指標付与処理に応じて変更してもよい。
【００８７】
このように本実施例に係る予測方式では、再構成をおこなって生成した部分集合データのうち、評価対象データと類似性が高く、さらに、属性値の組合せが統計的に有効であると判断されたデータに基づいて予測をおこなうため、非線形手法のような高度な手法をもちいなくても、一般的な手法を利用して予測をおこなうことができる。また、予測にもちいた部分集合データ等や、解析結果を提示することで、予測の明快な根拠を示すこともできる。
【００８８】
上記の例では、リスク判定指標処理部２３が求めたオッズ比をもちいて予測をおこなっているが、新たに、ベイズ統計、多変量解析法等の手法をもちいてリスクの傾向を把握し、リスク予測をおこなうこともできる。また、本実施例では、リスク判定指標処理部２３、リスク判定部２４、ともにオッズ比単体で、有効性とリスクの傾向（危険率）を処理しているが、処理を行う集団データの特性に応じて複数の手法を組み合わせて処理をおこなってもよい。
【００８９】
なお、上記実施例において説明した構造化部２１、再構成部２２およびリスク判定指標処理部２３の処理順序は、必ずこの例の通りである必要はなく、処理目的等に応じて変更することもできる。
【００９０】
図２に戻って、シミュレーション部２５は、リスク予測結果や、得られた統計情報が指定された条件になるまで、設定条件を変更し、予測処理を繰り返す等のシミュレーションをおこなう処理部である。
【００９１】
図１７は、シミュレーション部２５の処理手順を示すフローチャートである。同図に示すように、シミュレーション部２５は、所定の初期処理をおこなった後（ステップＳ６０１）、設定条件データベース１３や入出力部１９から、各処理部の処理手法とパラメータを取得する（ステップＳ６０２）。
【００９２】
そして、取得した手法とパラメータをもちいて構造化部２１と、再構成部２２と、リスク判定指標処理部２３と、リスク判定部２４に処理をおこなわせ、予測結果を得る（ステップＳ６０３）。この処理結果がステップＳ６０２で取得した条件に適合する場合は（ステップＳ６０４肯定）、結果を出力して処理を終了する（ステップＳ６０５）。
【００９３】
処理結果がステップＳ６０２で取得した条件に適合しない場合は（ステップＳ６０４否定）、ステップＳ６０２で取得した情報に基づいてパラメータを再設定し（ステップＳ６０６）、ステップＳ６０３に復帰して予測処理を再実行する。
【００９４】
ステップＳ６０４で判定する条件は、たとえば、予測結果が「判定不可」でないことといった条件や、リスク判定指標の値が１で、かつ、有効と判定されたデータが全て危険方向もしくは安全方向の一方で有効であることといった条件を設定することができる。また、ステップＳ６０６でパラメータの再設定では、たとえば、有効性の判断基準を厳しくしたり、緩めたりといった変更をおこなう。
【００９５】
このように、指定された条件に適合するまで予測を繰り返し実施することで、パラメータを試行錯誤しながら設定することなく、自動的に適切な判定処理をおこなうことができる。この結果、品質のよい予測結果を得ることが可能になる。
【００９６】
次に、ユーザが各種設定をおこなったり、リスク予測結果等を参照したりするための入出力部１９のユーザインターフェースの例を示す。
【００９７】
図１８は、画面の全体構成とビュー画面に登録データの一覧結果を示した例を示すサンプル図である。ビュー画面には、リスク予測をおこないたい評価対象データのＩＤと、リスク予測結果（病名リスク該当数、病名）と各詳細データや、登録した検査データ等へのリンクボタンが表示されている。また、設定値を変更して再予測をおこなう場合の再評価対象先が示してある。この画面を参照することで、リスクがある病気等をユーザが把握することができる。また、マウス等を用いての操作が可能である。
【００９８】
なお、この画面に表示されている処理結果は、複数の評価対象データごと、かつ、リスクを予測したい病気ごとに予測処理を繰り返し実行した結果である。
【００９９】
また、画面には、ＩＤ単位で詳細表示をおこなう「詳細表示ボタン」、データをデジタルファイルとして取得する「詳細データ取得ボタン」、新しいデータを登録する「新規データの登録ボタン」、リスク予測をおこないたい病気等を設定する「リスク評価対象の病名の設定」ボタン、リスク判定をおこなう手法を設定する「リスク判定法の設定」ボタン、リスク判定結果から、リスク予測をおこなう条件を設定する「リスク予測法の設定」ボタン、ユーザの設定に基づいてリスク予測を開始する「予測開始」ボタンがある。また、現在の設定状態の一部（リスク評価対象の病気の設定結果、リスク判定法の設定結果、リスク予測法の設定結果）を表示し、ユーザの利便性を図ることができる。
【０１００】
図１９は、ＩＤ単位でリスク予測結果の詳細表示をおこなう画面の一例を示すサンプル図である。詳細表示のリンクか、マウスフォーカスと詳細表示ボタンをもちいて、この画面を表示させることができる。この例では、ＩＤと、ＩＤが示す評価対象データの各種属性値（身長、体重、体脂肪率、性別等）などが上部に示される。また、リスクを予測する病気の名称と、それを示す証拠となる属性の組合せパターン、予測結果、付加情報（参考文献）等が中央に一覧表示され、ユーザがリスク予測の根拠等を詳細に把握することができる。
【０１０１】
また、評価対象データの氏名、年齢、国籍、居住場所等も表示設定できる。これらのデータは画面上で直接変更可能であり、データを更新／編集することができる。加えて各種検査データや、遺伝子データなどを表示するリンクボタンがあり、使用したデータを直ちに呼び足すことができる。他のリスク等を予測する場合、例えばマーケティングであれば、「リスクの病気の名称」が、「購入可能性のある商品／サービス」に変わり、組合せパターンが、アンケートや購入履歴等の組合せに置き換わる。
【０１０２】
図２０は、ＩＤ単位での検査データを表示する画面の一例を示すサンプル図である。これらは、いわゆる生理学的な検査の例を示しており、各種の検査項目、検査機関、検査日付等を記録できる。また、画面上で表示項目の編集／更新等をおこなうことができる。病気のリスク予測でなく、他のリスクを予測する場合、例えばマーケティングなどであれば、個人情報等などを記録することができる。
【０１０３】
図２１は、ＩＤ単位での遺伝子データを表示する画面の一例を示すサンプル図である。本ビュー画面では、検査遺伝子名称と、その検査結果と、参考データ（該当遺伝子とＳＮＰｓの名称）を示している。また、該当遺伝子や、ＳＮＰｓは公開ネットワーク上に存在するデータのリンク等を示してもよい。
【０１０４】
本ビュー画面で、検査遺伝子の編集／更新等もおこなうことができる。この例では、遺伝子情報と、検査データを別項目としたが、遺伝子情報は膨大なデータ量があるため、便宜的に分けただけであり、共有化することも可能である。
【０１０５】
図２２は、リスク評価対象の病気の設定をおこなう画面の一例を示すサンプル図である。本画面には、リスク予測をおこなう病気をすべて選択状態とする「すべて選択」ボタン、すべてを非選択状態とする「すべて解除」ボタン、各項目単位でリスク予測をおこなうかどうかを設定する「設定」ボタンおよび「解除」ボタンがある。
【０１０６】
また、「リスク予測可能な病名」と、予測をおこなうか否かの設定状態を示す「予測設定」と、各種付加情報を示す「備考：関連参考資料」からなる一覧表を表示する。リスク予測可能なデータはシステム上にある疫学データに依存するため、リスク予測可能な病名をシステム側が自動的に表示可能である。この例では、リスク予測可能な病気すべてについて予測をおこなうように設定した例を示している。マーケティング等で使用する場合は、病名を購入予測可能な商品／サービス等に置き換えればよい。
【０１０７】
図２３は、リスク予測をおこなう際に必要なリスク判定手法を設定するための画面の一例を示すサンプル図である。画面上には、リスク判定法を選択する選択エリアと、リスク判定法毎の各種設定項目を示すサブウインドウがある。サブウインドウ内は、選択エリアの選択内容によって表示が切り替わるようになっている。
【０１０８】
この例では、選択エリアにおいてオッズ比が選択されており、サブウインドウには、有効性の判定をおこなう手法、判定の条件、データの構成方法等を示している。本インターフェースを利用して、ユーザは、リスク判定で使用するデータ分析／解析手法を選択することができ、判定条件、手法等を設定することができる。これにより、本手法では、汎用的な統計・数学的なデータ分析／解析手法をユーザの選択に基づいて組み合わせてリスク判定をおこなうことが可能になっている。
【０１０９】
図２４は、リスク予測をおこなう際の条件を設定する画面の一例を示すサンプル図である。この画面では、リスク予測をおこなう際に必要な統計手法と、その手法の適用結果から得られるリスク分析パターンとリスク予測の対応関係を指定することができる。図に示したように、設定条件に数式等を利用して判定を設定することも可能である。
【０１１０】
注意すべきは、図２３に示したリスク判定法とはまったく同じでないことである。オッズ比や、ベイズ統計などは、リスクの割合や確率等でリスクの傾向を示すことができ、同時に信頼性も示すことができる。リスク判定では、信頼性を調べることが重要であり、リスク予測では、リスクの傾向を示すことが重要である。このため、χ二乗検定のように、信頼性のみに適応した手法はリスク予測では利用できない。また、オッズ比や、ベイズ統計のようにいずれにも利用できる場合でも、データによっては手法を使い分けたほうがよい場合もあるので、本実施例では、別々に設定できるようになっている。
【０１１１】
上記実施例で説明した予測装置１０の各種の処理は、あらかじめ用意された予測プログラムをコンピュータで実行することによって実現することができる。そこで、以下では、図２５をもちいて、予測プログラムを実行するコンピュータの一例を説明する。
【０１１２】
図２５は、予測プログラムを実行するコンピュータを示す機能ブロック図である。このコンピュータ１００は、ユーザからのデータの入力を受け付ける入力装置１０１、モニタ１０２、各種プログラムを記録した記録媒体からプログラムを読み取る媒体読取り装置１０３、各種情報を一時記憶するＲＡＭ（Random Access Memory）１０４、ネットワークを介して他のコンピュータとの間でデータの授受をおこなうネットワークインターフェース装置１０５、ＨＤＤ（Hard Disk Drive）１０６およびＣＰＵ（Central Processing Unit）１０７をバス１０８で接続して構成される。
【０１１３】
そして、ＨＤＤ１０６には、予測装置１０の機能と同様の機能を発揮するプログラムである予測プログラム１０６ｂが記憶されている。ＨＤＤ１０６には、図１の集積データベース１１〜リスク予測結果データベース１８に対応する予測用データベース１０６ａも記憶される。
【０１１４】
なお、予測用データベース１０６ａについては、適宜統合または分散して配置することとしてもよい。
【０１１５】
そして、ＣＰＵ１０７が、予測プログラム１０６ｂをＨＤＤ１０６から読み出して実行することにより、同プログラムは、予測プロセス１０７ａとして機能するようになる。この予測プロセス１０７ａは、図１に示したリスク予測部１４に対応する。
【０１１６】
また、ＣＰＵ１０７は、ＨＤＤ１０６の予測用データベース１０６ａから適宜必要な情報を読み出してＲＡＭ１０４に予測用データ１０４ａとして格納し、このＲＡＭ１０４に格納された予測用データ１０４ａに基づいて各種データ処理を実行する。
【０１１７】
なお、上記の予測プログラム１０６ｂについては、必ずしもＨＤＤ１０６に格納されている必要はなく、ＣＤ−ＲＯＭ等の記憶媒体に記憶された予測プログラム１０６ｂを、コンピュータ１００が読み出して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮ等を介してコンピュータ１００に接続される他のコンピュータ（またはサーバ）などに予測プログラム１０６ｂを記憶させておき、コンピュータ１００がこれらからプログラムを読み出して実行するようにしてもよい。
【０１１８】
上述してきたように、本実施例に係る予測方式では、予測の基礎となる集積データが、多数の組合せパターンが内包し、事前に法則抽出が困難であっても、適切な予測結果をえることができる。集積データに埋もれている特殊な関係を、評価対象データの属性情報と少なくとも一部が一致する部分集合を生成することにより抽出することができる。
【０１１９】
また、評価対象データの属性情報の内容に応じて、集積データを再構成して分析するので、個々の評価対象データに適応した予測結果を得ることができる。同一のアルゴリズムと集積データをもちいて予測をおこなう場合であっても、評価対象データのデータパターン毎に構造化結果が異なるため、各種統計量やリスク判定指標、要素の値の組合せパターンなどが評価対象データ毎に異なったものとなり、集積データに応じて適切な評価をおこなうことができる。
【０１２０】
また、構造化によって部分集合の組合せを生成し、これ対象として予測処理をおこない、さらに、各組合せに優先順位を付け、集積データの大部分が属する組合せである、評価対象データと適合性の低い組合せの優先順位を下げて予測処理をおこなうことで、集積データ全体を詳細に分析する場合と比べて、計算機資源を大幅に節約することができる。
【０１２１】
また、シミュレーションをおこなうことで、予測処理のパラメータ設定の適正化を自動化することができ、高度な分析・予測を自動的におこなうことができる。
【０１２２】
またＳＶＭや、ニューラルネットワーク等の解析手法と異なり、リスク判定指標処理部２３や、リスク判定部２４において使用するデータマイニング／分析手法や、予測の判定条件に、一般的な統計・数学的手法を採用することができる。この結果、リスクの判定基準や予測基準としてデータの特性に応じた手法を採用することができ、判断根拠も採用した統計手法に基づいて示すことができる。
【０１２３】
（付記１）属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測プログラムであって、
前記評価対象データの属性値と不特定の値を意味する属性値とを組み合わせて属性値の組合せパターンを生成する構造化手順と、
前記組合せパターンと一致するデータを前記集積データより検索し、部分集合データを生成する再構成手順と、
前記再構成手順により生成された各部分集合データに対して、評価データとの関連の重要性を示す指標を設定する指標設定手順と、
前記指標設定手順により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手順と
をコンピュータに実行させることを特徴とする予測プログラム。
【０１２４】
（付記２）前記指標設定手順は、属性値の組合せが統計的に有効な部分集合データが優位になるように指標を設定することを特徴とする付記１に記載の予測プログラム。
【０１２５】
（付記３）前記指標設定手順は、評価データと値が一致する属性値が多い部分集合データが優位になるように指標を設定することを特徴とする付記１または２に記載の予測プログラム。
【０１２６】
（付記４）前記指標設定手順は、第１の部分集合データが第２の部分集合データに内包されている場合に、前記第１の部分集合データが前記第２の部分集合データよりも優位になるように指標を設定することを特徴とする付記１〜３のいずれか一つに記載の予測プログラム。
【０１２７】
（付記５）前記判定手順は、部分集合データを基にして予測結果を判定する手法を複数備え、切り替えて実行することができることを特徴とする付記２〜４のいずれか一つに記載の予測プログラム。
【０１２８】
（付記６）前記指標設定手順は、組合せの統計的な有効性を判定する手法を複数備え、切り替えて実行することができることを特徴とする付記１〜５のいずれか一つに記載の予測プログラム。
【０１２９】
（付記７）所定の条件が満足されるまで、パラメータを変動させて他の手順を繰り返し実行するシミュレーション手順をさらにコンピュータに実行させることを特徴とする付記１〜６のいずれか一つに記載の予測プログラム。
【０１３０】
（付記８）前記予測プログラムは、各手順が処理に使用した情報を表示可能なユーザインターフェースを備えたことを特徴とする付記１〜７のいずれかひとつに記載の予測プログラム。
【０１３１】
（付記９）属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測装置であって、
前記評価対象データの属性値と不特定の値を意味する属性値とを組み合わせて属性値の組合せパターンを生成する構造化手段と、
前記組合せパターンと一致するデータを前記集積データより検索し、部分集合データを生成する再構成手段と、
前記再構成手段により生成された各部分集合データに対して、評価データとの関連の重要性を示す指標を設定する指標設定手段と、
前記指標設定手段により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手段と
を備えたことを特徴とする予測装置。
【０１３２】
（付記１０）属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測方法であって、
前記評価対象データの属性値と不特定の値を意味する属性値とを組み合わせて属性値の組合せパターンを生成する構造化工程と、
前記組合せパターンと一致するデータを前記集積データより検索し、部分集合データを生成する再構成工程と、
前記再構成工程により生成された各部分集合データに対して、評価データとの関連の重要性を示す指標を設定する指標設定工程と、
前記指標設定工程により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定工程と
を含んだことを特徴とする予測方法。
【産業上の利用可能性】
【０１３３】
以上のように、本発明に係る予測プログラムおよび予測装置は、属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する場合に有用であり、特に、評価対象に応じて精度の高い予測をおこない、その予測の根拠も示すことが必要な場合に適している。
【図面の簡単な説明】
【０１３４】
【図１】本実施例に係る予測装置の構成を示すブロック図である。
【図２】図１に示したリスク予測部の構成を示すブロック図である。
【図３】集積データベースのデータ構成の一例を示すサンプル図である。
【図４】個データベースのデータ構成の一例を示すサンプル図である。
【図５】構造化部の処理手順を示すフローチャートである。
【図６】構造化部の出力結果の一例を示すサンプル図である。
【図７】構造化の数学的意味を説明するためのサンプル図である。
【図８】再構成部の処理手順を示すフローチャートである。
【図９】再構成部の出力結果の一例を示すサンプル図である。
【図１０】リスク判定指標処理部の処理手順を示すフローチャートである。
【図１１】リスク判定指標処理部の出力結果の一例を示すサンプル図である。
【図１２】統計量Ｚの一例を示すサンプル図である。
【図１３−１】リスク判定指標付与処理の概念を説明するための概念図である。
【図１３−２】リスク判定指標付与処理の処理手順を示すフローチャートである。
【図１３−３】リスク判定指標付与処理のもう一つの処理手順を示すサンプル図である。
【図１３−４】リスク判定指標処理部の出力結果の一例を示すサンプル図である。
【図１４】リスク判定部の処理手順を示すフローチャートである。
【図１５】リスク判定部の出力結果の一例を示すサンプル図である。
【図１６】リスク予測処理の一例を示すサンプル図である。
【図１７】シミュレーション部の処理手順を示すフローチャートである。
【図１８】画面の全体構成とビュー画面に登録データの一覧結果を示した例を示すサンプル図である。
【図１９】ＩＤ単位でリスク予測結果の詳細表示をおこなう画面の一例を示すサンプル図である。
【図２０】ＩＤ単位での検査データを表示する画面の一例を示すサンプル図である。
【図２１】ＩＤ単位での遺伝子データを表示する画面の一例を示すサンプル図である。
【図２２】リスク評価対象の病気の設定をおこなう画面の一例を示すサンプル図である。
【図２３】リスク予測をおこなう際に必要なリスク判定手法を設定するための画面の一例を示すサンプル図である。
【図２４】リスク予測をおこなう際の条件を設定する画面の一例を示すサンプル図である。
【図２５】予測プログラムを実行するコンピュータを示す機能ブロック図である。
【符号の説明】
【０１３５】
１１集積データベース
１２個データベース
１３設定条件データベース
１４リスク予測部
１５関係構造データベース
１６再構成結果データベース
１７リスク指標データベース
１８リスク予測結果データベース
１９入出力部
２１構造化部
２２再構成部
２３リスク判定指標処理部
２４リスク判定部
２５シミュレーション部
１００コンピュータ
１０１入力装置
１０２モニタ
１０３媒体読取り装置
１０４ＲＡＭ
１０４ａ予測用データ
１０５ネットワークインターフェース装置
１０６ＨＤＤ
１０６ａ予測用データベース
１０６ｂ予測プログラム
１０７ＣＰＵ
１０７ａ予測プロセス
１０８バス

【特許請求の範囲】
【請求項１】
属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測プログラムであって、
前記評価対象データの属性値と不特定の値を意味する属性値とを組み合わせて属性値の組合せパターンを生成する構造化手順と、
前記組合せパターンと一致するデータを前記集積データより検索し、部分集合データを生成する再構成手順と、
前記再構成手順により生成された各部分集合データに対して、評価データとの関連の重要性を示す指標を設定する指標設定手順と、
前記指標設定手順により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手順と
をコンピュータに実行させることを特徴とする予測プログラム。
【請求項２】
前記指標設定手順は、属性値の組合せが統計的に有効な部分集合データが優位になるように指標を設定することを特徴とする請求項１に記載の予測プログラム。
【請求項３】
前記指標設定手順は、評価データと値が一致する属性値が多い部分集合データが優位になるように指標を設定することを特徴とする請求項１または２に記載の予測プログラム。
【請求項４】
前記指標設定手順は、第１の部分集合データが第２の部分集合データに内包されている場合に、前記第１の部分集合データが前記第２の部分集合データよりも優位になるように指標を設定することを特徴とする請求項１〜３のいずれか一つに記載の予測プログラム。
【請求項５】
属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測装置であって、
前記評価対象データの属性値と不特定の値を意味する属性値とを組み合わせて属性値の組合せパターンを生成する構造化手段と、
前記組合せパターンと一致するデータを前記集積データより検索し、部分集合データを生成する再構成手段と、
前記再構成手段により生成された各部分集合データに対して、評価データとの関連の重要性を示す指標を設定する指標設定手段と、
前記指標設定手段により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手段と
を備えたことを特徴とする予測装置。

【図１】