プログラム及び情報処理システム
【課題】蓄積された木構造の情報群から抽出した部分木のパターンを、パターンの特徴に応じて分類して表示させる。
【解決手段】情報処理システム10は、木構造の情報群から部分木の複数のパターンを抽出し、抽出された各パターンの特徴情報を生成し、生成された各パターンの特徴情報に基づいて、当該各パターンを分類し、その分類結果に応じて各パターンを表示する表示情報を生成する。
【解決手段】情報処理システム10は、木構造の情報群から部分木の複数のパターンを抽出し、抽出された各パターンの特徴情報を生成し、生成された各パターンの特徴情報に基づいて、当該各パターンを分類し、その分類結果に応じて各パターンを表示する表示情報を生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プログラム及び情報処理システムに関する。
【背景技術】
【0002】
蓄積した大量のデータを分析して有意な情報を抽出する技術がある。例えば、下記の特許文献1には、蓄積された診療記録情報を分析して、クリニカルパスの作成や修正を行う技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2003−331055号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
蓄積された木構造の情報群から部分木のパターンを抽出する場合に、抽出されるパターンの数が膨大なものとなると必要とする情報が見つけ難いことがある。
【0005】
本発明の目的は、蓄積された木構造の情報群から抽出した部分木のパターンを、パターンの特徴に応じて分類して表示させるプログラム及び情報処理システムを提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するために、請求項1に記載の発明は、コンピュータを、木構造の情報群から部分木の複数のパターンを抽出する抽出手段と、前記抽出手段により抽出された各パターンの特徴情報を生成する特徴情報生成手段と、前記特徴情報生成手段により生成された各パターンの特徴情報に基づいて、当該各パターンを分類する分類手段と、前記分類手段による分類結果に応じて前記各パターンを表示する表示情報を生成する表示情報生成手段として機能させるためのプログラムである。
【0007】
また、請求項2に記載の発明は、請求項1に記載のプログラムにおいて、前記表示情報生成手段は、前記分類手段により分類された分類毎に表示範囲を分けて、当該分類毎に応じた表示範囲内に当該分類に含まれるパターンをそれぞれ要素として表示する表示情報を生成することを特徴とする。
【0008】
また、請求項3に記載の発明は、請求項1又は2に記載のプログラムにおいて、前記特徴情報生成手段は、前記パターンの特徴情報を、当該パターンの木構造の予め定められた階層に位置する要素の序列に基づいて生成することを特徴とする。
【0009】
また、請求項4に記載の発明は、請求項3に記載のプログラムにおいて、一のパターンと他のパターンとの距離を、当該一のパターンの前記予め定められた階層に位置する要素の序列を当該他のパターンの前記予め定められた階層に位置する要素の序列に変換する各作業について予め定められた値の総和として算出する算出手段をさらに含み、前記算出手段は、前記特徴情報生成手段により生成された各パターンの前記予め定められた階層に位置する要素の序列に基づいて、当該各パターン間の距離を算出し、前記分類手段は、前記算出手段により算出された前記各パターン間の距離に基づいて当該各パターンを分類することを特徴とする。
【0010】
また、請求項5に記載の発明は、請求項4に記載のプログラムにおいて、前記分類手段により分類された各分類について、当該各分類に含まれるパターンの中からそれぞれ1つのパターンを標準パターンとして選択する手段と、前記各分類に含まれるパターンの中から前記標準パターンとの距離に応じて表示するパターンを選択する表示選択手段と、をさらに含むことを特徴とする。
【0011】
また、請求項6に記載の発明は、請求項5に記載のプログラムにおいて、前記各パターンに含まれる要素毎に重みが定められ、前記表示選択手段は、前記分類毎に含まれるパターンの中から、当該分類の標準パターンの特徴情報と異なる要素に定められた重みに基づいて、表示するパターンを選択することを特徴とする。
【0012】
また、請求項7に記載の発明は、木構造の情報群から部分木の複数のパターンを抽出する抽出手段と、前記抽出手段により抽出された各パターンの特徴情報を生成する特徴情報生成手段と、前記特徴情報生成手段により生成された各パターンの特徴情報に基づいて、当該各パターンを分類する分類手段と、前記分類手段による分類結果に応じて前記各パターンを表示する表示情報を生成する表示情報生成手段と、を含むことを特徴とする情報処理システムである。
【発明の効果】
【0013】
請求項1、7に記載の発明によれば、蓄積された木構造の情報群から抽出した部分木のパターンを、パターンの特徴に応じて分類して表示させることができる。
【0014】
請求項2に記載の発明によれば、抽出されたパターンの関係を俯瞰することができる。
【0015】
請求項3に記載の発明によれば、パターンに含まれる要素の序列の特徴に応じてパターンを分類できる。
【0016】
請求項4に記載の発明によれば、パターンに含まれる要素の序列の特徴が類似するパターンを同一の群に分類できる。
【0017】
請求項5に記載の発明によれば、標準パターンからの距離に応じて表示するパターンを絞り込むことができる。
【0018】
請求項6に記載の発明によれば、パターンの重要度に応じて表示を制御できる。
【図面の簡単な説明】
【0019】
【図1】本実施形態に係る情報処理システムの機能ブロック図である。
【図2】DPCデータを構成する様式1、Eファイル、Fファイルの関係の例を示す図である。
【図3】ツリーデータの一例を示す図である。
【図4】抽出パターンの一例を示す図である。
【図5】パターン特徴情報の一例を示す図である。
【図6】パターン間距離の算出処理の例を説明する図である。
【図7】重み付け設定テーブルの一例を示す図である。
【図8】距離行列(A)と、分類結果(B)の一例を示す図である。
【図9】ユーザーインターフェース画面の一例を示す図である。
【図10】閾値に応じてグラフ表示領域に表示されるパターン数の変化の例を示す図である。
【図11】グラフ表示領域に表示される一部のグループに関する表示の一例を示す図である。
【図12】グループ間の情報を比較する画面の一例を示す図である。
【図13】診療データのパターン分析処理例のフローチャートである。
【図14】ツリーデータから抽出したパターンを可視化する処理例のフローチャートである。
【発明を実施するための形態】
【0020】
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。
【0021】
図1には、本実施形態に係る情報処理システム10の機能ブロック図を示した。図1に示されるように、情報処理システム10は、入力部12、データ格納部14、ツリーデータ生成部16、パターン抽出部18、パターン特徴情報生成部20、重み付け設定部22、パターン間距離算出部24、分類部26、結果保持部28、表示情報生成部30、及び表示部32を含む。
【0022】
上記の各部の機能は、CPU等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えた1又は複数のコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは情報記憶媒体によって各コンピュータに供給されることとしてもよいし、インターネット等のデータ通信手段を介して供給されることとしてもよい。
【0023】
入力部12は、キーボードやマウス等の入力デバイスと接続する入力インターフェースであり、入力デバイスからの入力信号を受け付けるものである。
【0024】
データ格納部14は、半導体メモリや磁気ディスク装置等の記憶装置により実現され、分析対象のデータを格納するものである。分析対象のデータは、例えばDPCデータ等の診療データとしてよい。本実施形態では、DPCデータを例として、DPCデータから診療行為のパターンを抽出し、抽出したパターンを可視化して提示する処理について説明する。なお、DPCデータは、様式1、Eファイル、Fファイルから構成されるデータである。様式1には、患者の疾病情報を含む臨床情報が入退院毎に作成され格納されている。Eファイルには、患者について行った診療行為、診療行為の点数、診療行為の実施日等が格納されている。そして、Fファイルには、診療行為に用いた薬剤、薬剤の使用量、材料等の診療行為の詳細情報が格納されている。
【0025】
図2には、DPCデータを構成する様式1、Eファイル、Fファイルの関係の例を示した。図2に示されるように、様式1に含まれる患者情報に対して行った診療行為と、その詳細を示す診療明細とがそれぞれEファイルとFファイルに格納されている。様式1に格納されたレコード、Eファイルに格納されたレコード、そしてFファイルに格納されたレコードとの関連づけは、各レコードに含まれる識別情報(例えば患者IDとしてもよい)に基づいて行うこととしてよい。
【0026】
ツリーデータ生成部16は、データ格納部14に格納された分析対象のデータ(DPCデータ)に基づいて木構造の情報群(ツリーデータ)を生成するものである。本実施形態では、例えば入力部12を介して受け付けた条件に合致するデータをデータ格納部14から抽出し、当該抽出したデータに基づいてツリーデータを生成することとする。具体的に、入力部12を介してある疾病が条件に指定された場合には、その疾病を患った患者に関する情報をDPCデータの各ファイルから抽出する。すなわち、ツリーデータ生成部16は、様式1から疾病情報に基づいて患者情報を抽出し、当該抽出した患者情報に基づいてEファイルから診療行為を抽出し、さらに当該抽出された診療行為に基づいてFファイルから診療明細情報を抽出する。そして、ツリーデータ生成部16は、上記抽出された各情報をノードとし、各情報間の関連性をリンクとしてツリーデータを生成する。
【0027】
図3には、ツリーデータ生成部16により生成されるツリーデータの一例を示す。本実施形態では、ツリーデータには、患者ノードをルートとして、その子ノードに診療行為の日程を示すノード、さらにその子ノードとして各日程において行われる診療行為を示すノードを含んでいる。図3には、簡単のため1つの木構造を示したが、実際にはツリーデータには複数の木構造の情報が含まれている。
【0028】
パターン抽出部18は、ツリーデータ生成部16により生成されたツリーデータの中から指定された条件を満たす部分木のパターンを抽出する(すなわち、サブツリーマイニングを行う)ものである。パターン抽出部18によるサブツリーマイニングの手法には、ノード間の親子関係が厳密に一致している頻出パターンを抽出するinduced subtree miningを用いても良いし、ノード間の先祖子孫関係が保たれていれば親子関係が厳密に保たれていなくとも良いこととして、頻出パターンを抽出するenbeded subtree miningのいずれを用いても構わない。また、サブツリーマイニングにおける閾値(ツリーデータのうち何%に共通したパターンを抽出するかを決める閾値)は、入力部12により受け付けた値に応じて変更することとしてもよい。
【0029】
図4には、ツリーデータからサブツリーマイニングの手法を用いて抽出された抽出パターンの一例を示した。図4に示されるように、ツリーデータにおいて指定された数の木構造に共通して現れる部分木の構造が抽出パターンとして取得される。この際、ツリーデータのデータ量が膨大であると、抽出される部分木のパターン数も多くなるため、抽出されたパターンをユーザにそのまま提示してもユーザが必要とするパターンを見つけ出すことは困難である。そこで、本実施形態では、後述する処理によって抽出したパターンを分類し、分類結果に応じて抽出したパターンを提示することとする。
【0030】
パターン特徴情報生成部20は、パターン抽出部18により抽出された各パターンの特徴情報を生成するものである。例えば、パターン特徴情報生成部20は、パターン(部分木)の木構造に基づいて、パターンの特徴情報を生成することとしてよく、本実施形態では、パターンの木構造において予め定められた階層のノードを抽出して順列させたデータをパターン特徴情報として用いることとする。なお、本実施形態では、患者に対して行った診療行為に注目するため、パターンのリーフノード(葉ノード)であるFファイルの順序をパターン特徴情報として用いることとしている。また、パターン特徴情報には、Fファイルの順列に加えて、例えばFファイルの先祖ノードの情報(例えば、「日単位」等の時間情報)を属性情報として用いることとしてもよい。
【0031】
図5には、パターン特徴情報生成部20により生成されるパターン特徴情報の一例を示した。図5に示されるように、パターン特徴情報は、部分木パターンにおけるFファイルの階層に位置するリーフノードを抽出し、当該抽出したリーフノードを例えば親ノードの日時情報が若い順から並べてパターン特徴情報を生成することとしてよい。
【0032】
パターン間距離算出部24は、パターン特徴情報生成部20により生成された各パターンの特徴情報に基づいて、各パターンの間の距離情報を算出するものである。本実施形態では、2つのパターン間の距離は、一方のパターン特徴情報を他方のパターン特徴情報に変換するのに要するコストに基づいて算出することとする。以下、具体例を用いてパターン間距離の算出処理について説明する。
【0033】
図6には、パターン間距離の算出処理の例を説明する図を示した。図6に示されるように、第1のパターンの特徴情報は{(F1,F2,F3,F4)1,(F5,F6)2,(F7,F8)3}であり、第2のパターンの特徴情報は{(F1,F4)1,(F9)2,(F7,F6,F8)3}であるとする。なお、F1〜F9は抽出されたパターンのいずれかに含まれるFファイルであり、()で囲まれたノードは期間の属性情報が共通していることとする。なお、{(F1,F2,F3,F4)1,(F5,F6)2,(F7,F8)3}とは、期間1においてF1,F2,F3,F4の順で診療行為が行われ、期間2においてF5,F6の順で診療行為が行われ、期間3においてF7,F8の順で診療行為が行われたことを示している。
【0034】
ここで、第1のパターン特徴情報を第2のパターン特徴情報に変換するには、第1のパターンの期間1についてF2,F3を削除し、期間2についてF5を削除してF9を追加し、期間2のF6を期間3に移動する作業が必要となる。よって、第1のパターンと第2のパターンとの距離Dは、
D=F2の削除コスト+F3の削除コスト+F5の削除コスト+F9の追加コスト+F6の移動コスト、として算出される。なお、各作業に要するコストは同等としてもよいし、作業毎(削除、追加、移動毎)に定めておくこととしてもよいし、作業対象のFファイルに応じてコストに重みを付けてもよい。
【0035】
重み付け設定部22は、パターン特徴情報を構成するノード毎の作業コストに重みを設定するものである。本実施形態では、ノード毎に削除(又は追加)に要するコストを定め、移動のコストは削除のコストに基づいて算出することとする。なお、各コストの値は、予め定められていることとしてもよいし、入力部12により受け付けた値に応じて変更することとしてもよい。
【0036】
図7には、重み付け設定部22により設定される重み付け設定テーブルの一例を示した。図7に示されるように、重み付け設定テーブルは、基準毎に、各ノード(F1〜F9)の削除(又は追加)コストを定めたものである。図7に示された例では、第i(iは自然数)の基準に対してFj(jは自然数)のノードの削除コストはwijとして表すこととしている。なお、基準とは例えば副作用の観点、安全性の観点、費用の観点等の各種の基準としてよく、コストは各基準の下での医療行為への影響に応じて設定されることとしてよい。
【0037】
ここで、パターンPi={(Fj)p}、Fファイルの重みをwkjとすると、パターン間の距離Dは、以下の式(1)により算出される。
【数1】
ここで、Cost(j)は、Fjに対する作業コストであり、Fjを削除、追加、移動する各々の作業について予めコスト値を与えておくこととしてよい。例えば、削除と追加のコストは同等とし、移動のコストCostT(j)は、以下の式(2)により表すこととしてよい。
【数2】
ここで、βjはFjを移動させる作業に関して定めた係数である。
【0038】
また、Cost(j)は、固定値でなくともよく、例えば、作業回数にCost(j)を比例させたり、作業回数とCost(j)との関係を多項式で定めたりする等して、Cost(j)の値を可変にすることとしてもよい。
【0039】
例えば、図6に示した例において、パターン間距離算出部24は、第1の基準の下で第1のパターンと第2のパターンとの距離Dを算出する場合には、
D=w12+w13+w15+w19+α・(移動距離)・w16、として算出することとしてよい。なお、αは係数(例えば0.5)、移動距離は対象のノード(Fファイル)を移動させる距離に応じた値であり、対象のノードを移動させる期間がどれだけ離れているか(図6の例では第2と第3の期間の離れている日時)に応じて決定してもよいし、対象のノードを移動させる際に飛び越える他のノード数に応じて決定してもよい。また、パターン間距離を第1の基準と第2の基準の下で算出する場合には、
D=(w12+w22)+(w13+w23)+(w15+w25)+(w19+w29)+α・(移動距離)・(w16+w26)、のように各基準の下での距離を足し合わせて算出することとしてよい。
【0040】
分類部26は、パターン間距離算出部24により算出された各パターン間の距離に基づいて、各パターンを1又は複数のグループ(群)に分類するものである。例えば、分類部26は、パターン間の距離が予め定められた閾値未満のパターンを同一のグループに分類することとしてよい。
【0041】
図8には、パターン間距離算出部24により算出された各パターンの距離を格納した距離行列(A)と、分類結果(B)の一例を示した。図8に示される例において、距離の閾値を10とすると、パターン1〜8が第1のグループ、パターン9,10が第2のグループに分類される。
【0042】
結果保持部28は、分類部26による分類結果を含む処理結果情報を保持するものである。例えば、結果保持部28では、診療データ(DPCデータ)から情報を抽出する際に用いた条件(例えば、検索文字列等)と、パターン間距離を算出する際に用いた基準毎に、抽出されたパターン及び各パターン間の距離(距離行列)及び分類結果の情報を保持することとしてよい。
【0043】
表示情報生成部30は、結果保持部28に保持された処理結果情報に基づいて表示情報を生成するものである。なお、表示情報は、ユーザにより指定された条件に応じてツリーデータから抽出された各パターンを、分類結果に応じた態様で可視化して表示する情報である。以下、表示情報により表示される画面の具体例について説明する。
【0044】
図9には、表示情報生成部30により生成される表示情報に基づき表示されるユーザーインターフェース画面(UI画面40)の一例を示す。図9に示されるように、UI画面40には、グラフ表示領域42、パターン詳細情報表示領域44、そして閾値設定領域46が含まれる。
【0045】
グラフ表示領域42は、抽出された各パターンをノード、各パターンのリンク及び配置を分類結果に基づいて構成したグラフを表示する領域である。グラフ表示領域42に表示される各パターンの配置はグループ毎に範囲が定められており、グループの中心部には、グループを代表する標準パターン50が配置される。グループの標準パターン50は、グループに属する他のパターンとの距離の総和が最小のものを選択することとしてよい。また、同一グループに含まれるパターン間のリンクの太さは、パターン間の距離に応じて定めることとしてよい。なお、図9に示された例では、パターン間の距離が近いほど、リンクを太く設定している。グループ同士の配置位置は、グループ間の距離を反映して決定することとしてよい。グループ間の距離は、標準ノード間の距離としてもよいし、グループに属する各ノードに基づくマハラノビス距離としてもよい。
【0046】
表示情報生成部30は、グラフ表示領域42の表示情報を生成する際に、各グループについて、そのグループに含まれるノード間の距離に基づいて各ノードの配置位置を決定する。次に、グループ間の距離に基づいて各グループの代表位置の配置を決定し、当該決定した代表位置に各グループの標準パターン50を配置して全ノードの配置を決定する。以下、パターンについて算出された距離行列に基づいて、グラフ構造を生成する処理の一例について具体的に説明する。
【0047】
まず、表示情報生成部30は、距離行列GDM={dij}に基づいて、ローカル隣接行列LAM={axy}を生成する。axyは、以下の式(3)により生成する。
【数3】
ここで、γ、φは係数である。そして、LAMを閾値Tを用いて以下の式(4)により補正する。
【数4】
【0048】
次に、表示情報生成部30は、グループkとグループmに関するグローバル隣接行列GAM={akm}を以下の式(5)により生成する。
【数5】
ここで、wとzはグループkとmのそれぞれの標準ノードであり、δはグループ間の距離に応じた係数である。以上の処理により生成したグラフ構造の行列LAM及びGAMに基づいて各パターンの配置位置を決定する。
【0049】
パターン詳細情報表示領域44は、グラフ表示領域42に表示されたパターンの中から選択されたパターンの詳細情報を表示する領域である。例えば、パターン詳細情報表示領域44には、グラフ表示領域42に表示されたパターンの中からカーソル52により選択されたパターンの詳細情報を表示することとしてよい。また、図9に示すように、パターンの詳細情報のうち、重要度の高い項目(Fファイル)を強調表示することとしてよい。項目(Fファイル)の重要度は、例えば重み付け設定テーブルに格納された重み付けに基づいて得ることとしてよい。
【0050】
閾値設定領域46は、グラフ表示領域42に表示するパターンを選択するための閾値を設定する入力画面である。本実施形態では、グラフ表示領域42には、閾値設定領域46により設定される閾値thよりも標準ノードからの距離が小さい(又は大きい)パターンを選択的に表示することとする。
【0051】
図10には、閾値設定領域46により設定される閾値に応じて、グラフ表示領域42に表示されるパターン数の変化の例を示した。図10(A)は、閾値を設定しない場合にグラフ表示領域42に表示される内容であり、図10(B)は、閾値をD1とした場合にグラフ表示領域42に表示される内容であり、そして図10(C)は閾値をD1より小さいD2に設定した場合にグラフ表示領域42に表示される内容である。図10に示されるように、抽出されたパターン数が膨大である場合には、閾値設定領域46に設定する閾値を変化させることで、表示するパターンの数が制御される。
【0052】
図11は、グラフ表示領域42に表示される一部のグループに関する表示の一例である。図11に示される例では、グループに含まれる各パターンに関して、標準パターン50と異なる項目(Fファイル)の重要度に応じて表示を制御することとしている。具体的には、標準パターン50(p7)と異なる項目の重要度が、予め定められた閾値よりも低い場合には、そのパターンを非表示とする、又はグレーアウトして目立たないように表示することとする。なお、パターンjの重要度Wjは、例えば以下の式(6)により算出することとしてよい。
【数6】
ここで、Sは選択した基準の集合であり、μiは係数、wijは重みである。
【0053】
図12には、グループ間の情報を比較する画面の一例を示した。図12に示されるように、各グループの詳細情報を表示すると共に、基準グループ(例えば要素数が最大のグループ)からの相違点には強調表示やマーク等を付することとしてよい。なお、グループの詳細情報は、グループの標準パターンの内容としてもよいし、グループについて選択された他のパターンの内容としてもよい。
【0054】
表示部32は、液晶ディスプレイ等の表示装置を含み、表示情報生成部30により生成された表示情報に基づいてユーザーインターフェース画面を表示するものである。なお、本実施形態では情報処理システム10に表示部32が含まれていることとするが、表示部32は情報処理システム10の外部にあってもよい。
【0055】
次に、図13に示されるフローチャートに基づき、情報処理システム10において行われる診療データのパターン分析処理の流れの例を説明する。
【0056】
情報処理システム10は、蓄積されたDPCデータの中から指定された条件に合致するDPCデータを抽出し(S101)、抽出したDPCデータに含まれる様式1、Eファイル、Fファイルの関連性に基づいて、木構造の情報群からなるツリーデータを生成する(S102)。
【0057】
次に、情報処理システム10は、生成したツリーデータの中から指定された条件を満足するパターンを抽出し(S103)、抽出した各パターンについての特徴情報を生成する(S104)。パターンの特徴情報は、パターンに含まれるFファイルを木構造の構成に基づく順序で並べたデータとしてよい。
【0058】
情報処理システム10は、各パターンに含まれるFファイルの重みを読み込み(S105)、読み込んだ重みと、各パターンの特徴情報の差分情報に基づいて、パターン間の距離を算出する(S106)。情報処理システム10は、算出した各パターン間の距離を閾値と比較して、パターンを1又は複数のグループに分類する(S107)。そして、情報処理システム10は、分類結果を含むアウトプットデータを結果保持部28に格納して(S108)処理を終える。
【0059】
次に、図14に示されるフローチャートに基づき、情報処理システム10において行われるツリーデータから抽出したパターンを可視化する処理の流れの例を説明する。
【0060】
情報処理システム10は、結果保持部28に格納されたアウトプットデータを読み込み、グループ情報(グループ数はKとする)を取得する(S201)。ここでグループi(初期値1)に属するパターンの配置を決定すると共に(S202)、グループiの表示範囲を決定する(S203)。次に、情報処理システム10は、現在のiがKより大きいか否かを判定し(S204)、iがKよりも大きくないと判定する場合には(S204:N)、iをインクリメントして(S205)、処理S202に戻る。また、情報処理システム10は、iがKより大きいと判定した場合には(S204:Y)、各グループをノードとみなして各グループの配置を決定し(S206)、決定した配置に各グループを構成するパターンを配置した表示情報を生成する(S207)。
【0061】
上記実施形態に係る情報処理システム10では、DPCデータ等の診療記録情報から診療行為のパターンを抽出し、抽出したパターンを分類して提示することで、個別のパターンからは見えにくい診療行為間の関係を俯瞰する表示を提供すると共に、抽出したパターンを指定の条件に応じて絞り込むことで、抽出したパターンについて表示した際の閲覧性が向上する。
【0062】
本発明は上記の実施形態に限定されるものではなく、本発明の分析対象を診療データではなく、他の木構造を有する情報群としてもよいのはもちろんである。
【符号の説明】
【0063】
10 情報処理システム、12 入力部、14 データ格納部、16 ツリーデータ生成部、18 パターン抽出部、20 パターン特徴情報生成部、22 重み付け設定部、24 パターン間距離算出部、26 分類部、28 結果保持部、30 表示情報生成部、32 表示部、40 UI画面、42 グラフ表示領域、44 パターン詳細情報表示領域、46 閾値設定領域、50 標準パターン、52 カーソル。
【技術分野】
【0001】
本発明は、プログラム及び情報処理システムに関する。
【背景技術】
【0002】
蓄積した大量のデータを分析して有意な情報を抽出する技術がある。例えば、下記の特許文献1には、蓄積された診療記録情報を分析して、クリニカルパスの作成や修正を行う技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2003−331055号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
蓄積された木構造の情報群から部分木のパターンを抽出する場合に、抽出されるパターンの数が膨大なものとなると必要とする情報が見つけ難いことがある。
【0005】
本発明の目的は、蓄積された木構造の情報群から抽出した部分木のパターンを、パターンの特徴に応じて分類して表示させるプログラム及び情報処理システムを提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するために、請求項1に記載の発明は、コンピュータを、木構造の情報群から部分木の複数のパターンを抽出する抽出手段と、前記抽出手段により抽出された各パターンの特徴情報を生成する特徴情報生成手段と、前記特徴情報生成手段により生成された各パターンの特徴情報に基づいて、当該各パターンを分類する分類手段と、前記分類手段による分類結果に応じて前記各パターンを表示する表示情報を生成する表示情報生成手段として機能させるためのプログラムである。
【0007】
また、請求項2に記載の発明は、請求項1に記載のプログラムにおいて、前記表示情報生成手段は、前記分類手段により分類された分類毎に表示範囲を分けて、当該分類毎に応じた表示範囲内に当該分類に含まれるパターンをそれぞれ要素として表示する表示情報を生成することを特徴とする。
【0008】
また、請求項3に記載の発明は、請求項1又は2に記載のプログラムにおいて、前記特徴情報生成手段は、前記パターンの特徴情報を、当該パターンの木構造の予め定められた階層に位置する要素の序列に基づいて生成することを特徴とする。
【0009】
また、請求項4に記載の発明は、請求項3に記載のプログラムにおいて、一のパターンと他のパターンとの距離を、当該一のパターンの前記予め定められた階層に位置する要素の序列を当該他のパターンの前記予め定められた階層に位置する要素の序列に変換する各作業について予め定められた値の総和として算出する算出手段をさらに含み、前記算出手段は、前記特徴情報生成手段により生成された各パターンの前記予め定められた階層に位置する要素の序列に基づいて、当該各パターン間の距離を算出し、前記分類手段は、前記算出手段により算出された前記各パターン間の距離に基づいて当該各パターンを分類することを特徴とする。
【0010】
また、請求項5に記載の発明は、請求項4に記載のプログラムにおいて、前記分類手段により分類された各分類について、当該各分類に含まれるパターンの中からそれぞれ1つのパターンを標準パターンとして選択する手段と、前記各分類に含まれるパターンの中から前記標準パターンとの距離に応じて表示するパターンを選択する表示選択手段と、をさらに含むことを特徴とする。
【0011】
また、請求項6に記載の発明は、請求項5に記載のプログラムにおいて、前記各パターンに含まれる要素毎に重みが定められ、前記表示選択手段は、前記分類毎に含まれるパターンの中から、当該分類の標準パターンの特徴情報と異なる要素に定められた重みに基づいて、表示するパターンを選択することを特徴とする。
【0012】
また、請求項7に記載の発明は、木構造の情報群から部分木の複数のパターンを抽出する抽出手段と、前記抽出手段により抽出された各パターンの特徴情報を生成する特徴情報生成手段と、前記特徴情報生成手段により生成された各パターンの特徴情報に基づいて、当該各パターンを分類する分類手段と、前記分類手段による分類結果に応じて前記各パターンを表示する表示情報を生成する表示情報生成手段と、を含むことを特徴とする情報処理システムである。
【発明の効果】
【0013】
請求項1、7に記載の発明によれば、蓄積された木構造の情報群から抽出した部分木のパターンを、パターンの特徴に応じて分類して表示させることができる。
【0014】
請求項2に記載の発明によれば、抽出されたパターンの関係を俯瞰することができる。
【0015】
請求項3に記載の発明によれば、パターンに含まれる要素の序列の特徴に応じてパターンを分類できる。
【0016】
請求項4に記載の発明によれば、パターンに含まれる要素の序列の特徴が類似するパターンを同一の群に分類できる。
【0017】
請求項5に記載の発明によれば、標準パターンからの距離に応じて表示するパターンを絞り込むことができる。
【0018】
請求項6に記載の発明によれば、パターンの重要度に応じて表示を制御できる。
【図面の簡単な説明】
【0019】
【図1】本実施形態に係る情報処理システムの機能ブロック図である。
【図2】DPCデータを構成する様式1、Eファイル、Fファイルの関係の例を示す図である。
【図3】ツリーデータの一例を示す図である。
【図4】抽出パターンの一例を示す図である。
【図5】パターン特徴情報の一例を示す図である。
【図6】パターン間距離の算出処理の例を説明する図である。
【図7】重み付け設定テーブルの一例を示す図である。
【図8】距離行列(A)と、分類結果(B)の一例を示す図である。
【図9】ユーザーインターフェース画面の一例を示す図である。
【図10】閾値に応じてグラフ表示領域に表示されるパターン数の変化の例を示す図である。
【図11】グラフ表示領域に表示される一部のグループに関する表示の一例を示す図である。
【図12】グループ間の情報を比較する画面の一例を示す図である。
【図13】診療データのパターン分析処理例のフローチャートである。
【図14】ツリーデータから抽出したパターンを可視化する処理例のフローチャートである。
【発明を実施するための形態】
【0020】
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。
【0021】
図1には、本実施形態に係る情報処理システム10の機能ブロック図を示した。図1に示されるように、情報処理システム10は、入力部12、データ格納部14、ツリーデータ生成部16、パターン抽出部18、パターン特徴情報生成部20、重み付け設定部22、パターン間距離算出部24、分類部26、結果保持部28、表示情報生成部30、及び表示部32を含む。
【0022】
上記の各部の機能は、CPU等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えた1又は複数のコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは情報記憶媒体によって各コンピュータに供給されることとしてもよいし、インターネット等のデータ通信手段を介して供給されることとしてもよい。
【0023】
入力部12は、キーボードやマウス等の入力デバイスと接続する入力インターフェースであり、入力デバイスからの入力信号を受け付けるものである。
【0024】
データ格納部14は、半導体メモリや磁気ディスク装置等の記憶装置により実現され、分析対象のデータを格納するものである。分析対象のデータは、例えばDPCデータ等の診療データとしてよい。本実施形態では、DPCデータを例として、DPCデータから診療行為のパターンを抽出し、抽出したパターンを可視化して提示する処理について説明する。なお、DPCデータは、様式1、Eファイル、Fファイルから構成されるデータである。様式1には、患者の疾病情報を含む臨床情報が入退院毎に作成され格納されている。Eファイルには、患者について行った診療行為、診療行為の点数、診療行為の実施日等が格納されている。そして、Fファイルには、診療行為に用いた薬剤、薬剤の使用量、材料等の診療行為の詳細情報が格納されている。
【0025】
図2には、DPCデータを構成する様式1、Eファイル、Fファイルの関係の例を示した。図2に示されるように、様式1に含まれる患者情報に対して行った診療行為と、その詳細を示す診療明細とがそれぞれEファイルとFファイルに格納されている。様式1に格納されたレコード、Eファイルに格納されたレコード、そしてFファイルに格納されたレコードとの関連づけは、各レコードに含まれる識別情報(例えば患者IDとしてもよい)に基づいて行うこととしてよい。
【0026】
ツリーデータ生成部16は、データ格納部14に格納された分析対象のデータ(DPCデータ)に基づいて木構造の情報群(ツリーデータ)を生成するものである。本実施形態では、例えば入力部12を介して受け付けた条件に合致するデータをデータ格納部14から抽出し、当該抽出したデータに基づいてツリーデータを生成することとする。具体的に、入力部12を介してある疾病が条件に指定された場合には、その疾病を患った患者に関する情報をDPCデータの各ファイルから抽出する。すなわち、ツリーデータ生成部16は、様式1から疾病情報に基づいて患者情報を抽出し、当該抽出した患者情報に基づいてEファイルから診療行為を抽出し、さらに当該抽出された診療行為に基づいてFファイルから診療明細情報を抽出する。そして、ツリーデータ生成部16は、上記抽出された各情報をノードとし、各情報間の関連性をリンクとしてツリーデータを生成する。
【0027】
図3には、ツリーデータ生成部16により生成されるツリーデータの一例を示す。本実施形態では、ツリーデータには、患者ノードをルートとして、その子ノードに診療行為の日程を示すノード、さらにその子ノードとして各日程において行われる診療行為を示すノードを含んでいる。図3には、簡単のため1つの木構造を示したが、実際にはツリーデータには複数の木構造の情報が含まれている。
【0028】
パターン抽出部18は、ツリーデータ生成部16により生成されたツリーデータの中から指定された条件を満たす部分木のパターンを抽出する(すなわち、サブツリーマイニングを行う)ものである。パターン抽出部18によるサブツリーマイニングの手法には、ノード間の親子関係が厳密に一致している頻出パターンを抽出するinduced subtree miningを用いても良いし、ノード間の先祖子孫関係が保たれていれば親子関係が厳密に保たれていなくとも良いこととして、頻出パターンを抽出するenbeded subtree miningのいずれを用いても構わない。また、サブツリーマイニングにおける閾値(ツリーデータのうち何%に共通したパターンを抽出するかを決める閾値)は、入力部12により受け付けた値に応じて変更することとしてもよい。
【0029】
図4には、ツリーデータからサブツリーマイニングの手法を用いて抽出された抽出パターンの一例を示した。図4に示されるように、ツリーデータにおいて指定された数の木構造に共通して現れる部分木の構造が抽出パターンとして取得される。この際、ツリーデータのデータ量が膨大であると、抽出される部分木のパターン数も多くなるため、抽出されたパターンをユーザにそのまま提示してもユーザが必要とするパターンを見つけ出すことは困難である。そこで、本実施形態では、後述する処理によって抽出したパターンを分類し、分類結果に応じて抽出したパターンを提示することとする。
【0030】
パターン特徴情報生成部20は、パターン抽出部18により抽出された各パターンの特徴情報を生成するものである。例えば、パターン特徴情報生成部20は、パターン(部分木)の木構造に基づいて、パターンの特徴情報を生成することとしてよく、本実施形態では、パターンの木構造において予め定められた階層のノードを抽出して順列させたデータをパターン特徴情報として用いることとする。なお、本実施形態では、患者に対して行った診療行為に注目するため、パターンのリーフノード(葉ノード)であるFファイルの順序をパターン特徴情報として用いることとしている。また、パターン特徴情報には、Fファイルの順列に加えて、例えばFファイルの先祖ノードの情報(例えば、「日単位」等の時間情報)を属性情報として用いることとしてもよい。
【0031】
図5には、パターン特徴情報生成部20により生成されるパターン特徴情報の一例を示した。図5に示されるように、パターン特徴情報は、部分木パターンにおけるFファイルの階層に位置するリーフノードを抽出し、当該抽出したリーフノードを例えば親ノードの日時情報が若い順から並べてパターン特徴情報を生成することとしてよい。
【0032】
パターン間距離算出部24は、パターン特徴情報生成部20により生成された各パターンの特徴情報に基づいて、各パターンの間の距離情報を算出するものである。本実施形態では、2つのパターン間の距離は、一方のパターン特徴情報を他方のパターン特徴情報に変換するのに要するコストに基づいて算出することとする。以下、具体例を用いてパターン間距離の算出処理について説明する。
【0033】
図6には、パターン間距離の算出処理の例を説明する図を示した。図6に示されるように、第1のパターンの特徴情報は{(F1,F2,F3,F4)1,(F5,F6)2,(F7,F8)3}であり、第2のパターンの特徴情報は{(F1,F4)1,(F9)2,(F7,F6,F8)3}であるとする。なお、F1〜F9は抽出されたパターンのいずれかに含まれるFファイルであり、()で囲まれたノードは期間の属性情報が共通していることとする。なお、{(F1,F2,F3,F4)1,(F5,F6)2,(F7,F8)3}とは、期間1においてF1,F2,F3,F4の順で診療行為が行われ、期間2においてF5,F6の順で診療行為が行われ、期間3においてF7,F8の順で診療行為が行われたことを示している。
【0034】
ここで、第1のパターン特徴情報を第2のパターン特徴情報に変換するには、第1のパターンの期間1についてF2,F3を削除し、期間2についてF5を削除してF9を追加し、期間2のF6を期間3に移動する作業が必要となる。よって、第1のパターンと第2のパターンとの距離Dは、
D=F2の削除コスト+F3の削除コスト+F5の削除コスト+F9の追加コスト+F6の移動コスト、として算出される。なお、各作業に要するコストは同等としてもよいし、作業毎(削除、追加、移動毎)に定めておくこととしてもよいし、作業対象のFファイルに応じてコストに重みを付けてもよい。
【0035】
重み付け設定部22は、パターン特徴情報を構成するノード毎の作業コストに重みを設定するものである。本実施形態では、ノード毎に削除(又は追加)に要するコストを定め、移動のコストは削除のコストに基づいて算出することとする。なお、各コストの値は、予め定められていることとしてもよいし、入力部12により受け付けた値に応じて変更することとしてもよい。
【0036】
図7には、重み付け設定部22により設定される重み付け設定テーブルの一例を示した。図7に示されるように、重み付け設定テーブルは、基準毎に、各ノード(F1〜F9)の削除(又は追加)コストを定めたものである。図7に示された例では、第i(iは自然数)の基準に対してFj(jは自然数)のノードの削除コストはwijとして表すこととしている。なお、基準とは例えば副作用の観点、安全性の観点、費用の観点等の各種の基準としてよく、コストは各基準の下での医療行為への影響に応じて設定されることとしてよい。
【0037】
ここで、パターンPi={(Fj)p}、Fファイルの重みをwkjとすると、パターン間の距離Dは、以下の式(1)により算出される。
【数1】
ここで、Cost(j)は、Fjに対する作業コストであり、Fjを削除、追加、移動する各々の作業について予めコスト値を与えておくこととしてよい。例えば、削除と追加のコストは同等とし、移動のコストCostT(j)は、以下の式(2)により表すこととしてよい。
【数2】
ここで、βjはFjを移動させる作業に関して定めた係数である。
【0038】
また、Cost(j)は、固定値でなくともよく、例えば、作業回数にCost(j)を比例させたり、作業回数とCost(j)との関係を多項式で定めたりする等して、Cost(j)の値を可変にすることとしてもよい。
【0039】
例えば、図6に示した例において、パターン間距離算出部24は、第1の基準の下で第1のパターンと第2のパターンとの距離Dを算出する場合には、
D=w12+w13+w15+w19+α・(移動距離)・w16、として算出することとしてよい。なお、αは係数(例えば0.5)、移動距離は対象のノード(Fファイル)を移動させる距離に応じた値であり、対象のノードを移動させる期間がどれだけ離れているか(図6の例では第2と第3の期間の離れている日時)に応じて決定してもよいし、対象のノードを移動させる際に飛び越える他のノード数に応じて決定してもよい。また、パターン間距離を第1の基準と第2の基準の下で算出する場合には、
D=(w12+w22)+(w13+w23)+(w15+w25)+(w19+w29)+α・(移動距離)・(w16+w26)、のように各基準の下での距離を足し合わせて算出することとしてよい。
【0040】
分類部26は、パターン間距離算出部24により算出された各パターン間の距離に基づいて、各パターンを1又は複数のグループ(群)に分類するものである。例えば、分類部26は、パターン間の距離が予め定められた閾値未満のパターンを同一のグループに分類することとしてよい。
【0041】
図8には、パターン間距離算出部24により算出された各パターンの距離を格納した距離行列(A)と、分類結果(B)の一例を示した。図8に示される例において、距離の閾値を10とすると、パターン1〜8が第1のグループ、パターン9,10が第2のグループに分類される。
【0042】
結果保持部28は、分類部26による分類結果を含む処理結果情報を保持するものである。例えば、結果保持部28では、診療データ(DPCデータ)から情報を抽出する際に用いた条件(例えば、検索文字列等)と、パターン間距離を算出する際に用いた基準毎に、抽出されたパターン及び各パターン間の距離(距離行列)及び分類結果の情報を保持することとしてよい。
【0043】
表示情報生成部30は、結果保持部28に保持された処理結果情報に基づいて表示情報を生成するものである。なお、表示情報は、ユーザにより指定された条件に応じてツリーデータから抽出された各パターンを、分類結果に応じた態様で可視化して表示する情報である。以下、表示情報により表示される画面の具体例について説明する。
【0044】
図9には、表示情報生成部30により生成される表示情報に基づき表示されるユーザーインターフェース画面(UI画面40)の一例を示す。図9に示されるように、UI画面40には、グラフ表示領域42、パターン詳細情報表示領域44、そして閾値設定領域46が含まれる。
【0045】
グラフ表示領域42は、抽出された各パターンをノード、各パターンのリンク及び配置を分類結果に基づいて構成したグラフを表示する領域である。グラフ表示領域42に表示される各パターンの配置はグループ毎に範囲が定められており、グループの中心部には、グループを代表する標準パターン50が配置される。グループの標準パターン50は、グループに属する他のパターンとの距離の総和が最小のものを選択することとしてよい。また、同一グループに含まれるパターン間のリンクの太さは、パターン間の距離に応じて定めることとしてよい。なお、図9に示された例では、パターン間の距離が近いほど、リンクを太く設定している。グループ同士の配置位置は、グループ間の距離を反映して決定することとしてよい。グループ間の距離は、標準ノード間の距離としてもよいし、グループに属する各ノードに基づくマハラノビス距離としてもよい。
【0046】
表示情報生成部30は、グラフ表示領域42の表示情報を生成する際に、各グループについて、そのグループに含まれるノード間の距離に基づいて各ノードの配置位置を決定する。次に、グループ間の距離に基づいて各グループの代表位置の配置を決定し、当該決定した代表位置に各グループの標準パターン50を配置して全ノードの配置を決定する。以下、パターンについて算出された距離行列に基づいて、グラフ構造を生成する処理の一例について具体的に説明する。
【0047】
まず、表示情報生成部30は、距離行列GDM={dij}に基づいて、ローカル隣接行列LAM={axy}を生成する。axyは、以下の式(3)により生成する。
【数3】
ここで、γ、φは係数である。そして、LAMを閾値Tを用いて以下の式(4)により補正する。
【数4】
【0048】
次に、表示情報生成部30は、グループkとグループmに関するグローバル隣接行列GAM={akm}を以下の式(5)により生成する。
【数5】
ここで、wとzはグループkとmのそれぞれの標準ノードであり、δはグループ間の距離に応じた係数である。以上の処理により生成したグラフ構造の行列LAM及びGAMに基づいて各パターンの配置位置を決定する。
【0049】
パターン詳細情報表示領域44は、グラフ表示領域42に表示されたパターンの中から選択されたパターンの詳細情報を表示する領域である。例えば、パターン詳細情報表示領域44には、グラフ表示領域42に表示されたパターンの中からカーソル52により選択されたパターンの詳細情報を表示することとしてよい。また、図9に示すように、パターンの詳細情報のうち、重要度の高い項目(Fファイル)を強調表示することとしてよい。項目(Fファイル)の重要度は、例えば重み付け設定テーブルに格納された重み付けに基づいて得ることとしてよい。
【0050】
閾値設定領域46は、グラフ表示領域42に表示するパターンを選択するための閾値を設定する入力画面である。本実施形態では、グラフ表示領域42には、閾値設定領域46により設定される閾値thよりも標準ノードからの距離が小さい(又は大きい)パターンを選択的に表示することとする。
【0051】
図10には、閾値設定領域46により設定される閾値に応じて、グラフ表示領域42に表示されるパターン数の変化の例を示した。図10(A)は、閾値を設定しない場合にグラフ表示領域42に表示される内容であり、図10(B)は、閾値をD1とした場合にグラフ表示領域42に表示される内容であり、そして図10(C)は閾値をD1より小さいD2に設定した場合にグラフ表示領域42に表示される内容である。図10に示されるように、抽出されたパターン数が膨大である場合には、閾値設定領域46に設定する閾値を変化させることで、表示するパターンの数が制御される。
【0052】
図11は、グラフ表示領域42に表示される一部のグループに関する表示の一例である。図11に示される例では、グループに含まれる各パターンに関して、標準パターン50と異なる項目(Fファイル)の重要度に応じて表示を制御することとしている。具体的には、標準パターン50(p7)と異なる項目の重要度が、予め定められた閾値よりも低い場合には、そのパターンを非表示とする、又はグレーアウトして目立たないように表示することとする。なお、パターンjの重要度Wjは、例えば以下の式(6)により算出することとしてよい。
【数6】
ここで、Sは選択した基準の集合であり、μiは係数、wijは重みである。
【0053】
図12には、グループ間の情報を比較する画面の一例を示した。図12に示されるように、各グループの詳細情報を表示すると共に、基準グループ(例えば要素数が最大のグループ)からの相違点には強調表示やマーク等を付することとしてよい。なお、グループの詳細情報は、グループの標準パターンの内容としてもよいし、グループについて選択された他のパターンの内容としてもよい。
【0054】
表示部32は、液晶ディスプレイ等の表示装置を含み、表示情報生成部30により生成された表示情報に基づいてユーザーインターフェース画面を表示するものである。なお、本実施形態では情報処理システム10に表示部32が含まれていることとするが、表示部32は情報処理システム10の外部にあってもよい。
【0055】
次に、図13に示されるフローチャートに基づき、情報処理システム10において行われる診療データのパターン分析処理の流れの例を説明する。
【0056】
情報処理システム10は、蓄積されたDPCデータの中から指定された条件に合致するDPCデータを抽出し(S101)、抽出したDPCデータに含まれる様式1、Eファイル、Fファイルの関連性に基づいて、木構造の情報群からなるツリーデータを生成する(S102)。
【0057】
次に、情報処理システム10は、生成したツリーデータの中から指定された条件を満足するパターンを抽出し(S103)、抽出した各パターンについての特徴情報を生成する(S104)。パターンの特徴情報は、パターンに含まれるFファイルを木構造の構成に基づく順序で並べたデータとしてよい。
【0058】
情報処理システム10は、各パターンに含まれるFファイルの重みを読み込み(S105)、読み込んだ重みと、各パターンの特徴情報の差分情報に基づいて、パターン間の距離を算出する(S106)。情報処理システム10は、算出した各パターン間の距離を閾値と比較して、パターンを1又は複数のグループに分類する(S107)。そして、情報処理システム10は、分類結果を含むアウトプットデータを結果保持部28に格納して(S108)処理を終える。
【0059】
次に、図14に示されるフローチャートに基づき、情報処理システム10において行われるツリーデータから抽出したパターンを可視化する処理の流れの例を説明する。
【0060】
情報処理システム10は、結果保持部28に格納されたアウトプットデータを読み込み、グループ情報(グループ数はKとする)を取得する(S201)。ここでグループi(初期値1)に属するパターンの配置を決定すると共に(S202)、グループiの表示範囲を決定する(S203)。次に、情報処理システム10は、現在のiがKより大きいか否かを判定し(S204)、iがKよりも大きくないと判定する場合には(S204:N)、iをインクリメントして(S205)、処理S202に戻る。また、情報処理システム10は、iがKより大きいと判定した場合には(S204:Y)、各グループをノードとみなして各グループの配置を決定し(S206)、決定した配置に各グループを構成するパターンを配置した表示情報を生成する(S207)。
【0061】
上記実施形態に係る情報処理システム10では、DPCデータ等の診療記録情報から診療行為のパターンを抽出し、抽出したパターンを分類して提示することで、個別のパターンからは見えにくい診療行為間の関係を俯瞰する表示を提供すると共に、抽出したパターンを指定の条件に応じて絞り込むことで、抽出したパターンについて表示した際の閲覧性が向上する。
【0062】
本発明は上記の実施形態に限定されるものではなく、本発明の分析対象を診療データではなく、他の木構造を有する情報群としてもよいのはもちろんである。
【符号の説明】
【0063】
10 情報処理システム、12 入力部、14 データ格納部、16 ツリーデータ生成部、18 パターン抽出部、20 パターン特徴情報生成部、22 重み付け設定部、24 パターン間距離算出部、26 分類部、28 結果保持部、30 表示情報生成部、32 表示部、40 UI画面、42 グラフ表示領域、44 パターン詳細情報表示領域、46 閾値設定領域、50 標準パターン、52 カーソル。
【特許請求の範囲】
【請求項1】
コンピュータを、
木構造の情報群から部分木の複数のパターンを抽出する抽出手段と、
前記抽出手段により抽出された各パターンの特徴情報を生成する特徴情報生成手段と、
前記特徴情報生成手段により生成された各パターンの特徴情報に基づいて、当該各パターンを分類する分類手段と、
前記分類手段による分類結果に応じて前記各パターンを表示する表示情報を生成する表示情報生成手段として機能させるためのプログラム。
【請求項2】
前記表示情報生成手段は、前記分類手段により分類された分類毎に表示範囲を分けて、当該分類毎に応じた表示範囲内に当該分類に含まれるパターンをそれぞれ要素として表示する表示情報を生成する
ことを特徴とする請求項1に記載のプログラム。
【請求項3】
前記特徴情報生成手段は、前記パターンの特徴情報を、当該パターンの木構造の予め定められた階層に位置する要素の序列に基づいて生成する
ことを特徴とする請求項1又は2に記載のプログラム。
【請求項4】
一のパターンと他のパターンとの距離を、当該一のパターンの前記予め定められた階層に位置する要素の序列を当該他のパターンの前記予め定められた階層に位置する要素の序列に変換する各作業について予め定められた値の総和として算出する算出手段をさらに含み、
前記算出手段は、前記特徴情報生成手段により生成された各パターンの前記予め定められた階層に位置する要素の序列に基づいて、当該各パターン間の距離を算出し、
前記分類手段は、前記算出手段により算出された前記各パターン間の距離に基づいて当該各パターンを分類する
ことを特徴とする請求項3に記載のプログラム。
【請求項5】
前記分類手段により分類された各分類について、当該各分類に含まれるパターンの中からそれぞれ1つのパターンを標準パターンとして選択する手段と、
前記各分類に含まれるパターンの中から前記標準パターンとの距離に応じて表示するパターンを選択する表示選択手段と、をさらに含む
ことを特徴とする請求項4に記載のプログラム。
【請求項6】
前記各パターンに含まれる要素毎に重みが定められ、
前記表示選択手段は、前記分類毎に含まれるパターンの中から、当該分類の標準パターンの特徴情報と異なる要素に定められた重みに基づいて、表示するパターンを選択する
ことを特徴とする請求項5に記載のプログラム。
【請求項7】
木構造の情報群から部分木の複数のパターンを抽出する抽出手段と、
前記抽出手段により抽出された各パターンの特徴情報を生成する特徴情報生成手段と、
前記特徴情報生成手段により生成された各パターンの特徴情報に基づいて、当該各パターンを分類する分類手段と、
前記分類手段による分類結果に応じて前記各パターンを表示する表示情報を生成する表示情報生成手段と、
を含むことを特徴とする情報処理システム。
【請求項1】
コンピュータを、
木構造の情報群から部分木の複数のパターンを抽出する抽出手段と、
前記抽出手段により抽出された各パターンの特徴情報を生成する特徴情報生成手段と、
前記特徴情報生成手段により生成された各パターンの特徴情報に基づいて、当該各パターンを分類する分類手段と、
前記分類手段による分類結果に応じて前記各パターンを表示する表示情報を生成する表示情報生成手段として機能させるためのプログラム。
【請求項2】
前記表示情報生成手段は、前記分類手段により分類された分類毎に表示範囲を分けて、当該分類毎に応じた表示範囲内に当該分類に含まれるパターンをそれぞれ要素として表示する表示情報を生成する
ことを特徴とする請求項1に記載のプログラム。
【請求項3】
前記特徴情報生成手段は、前記パターンの特徴情報を、当該パターンの木構造の予め定められた階層に位置する要素の序列に基づいて生成する
ことを特徴とする請求項1又は2に記載のプログラム。
【請求項4】
一のパターンと他のパターンとの距離を、当該一のパターンの前記予め定められた階層に位置する要素の序列を当該他のパターンの前記予め定められた階層に位置する要素の序列に変換する各作業について予め定められた値の総和として算出する算出手段をさらに含み、
前記算出手段は、前記特徴情報生成手段により生成された各パターンの前記予め定められた階層に位置する要素の序列に基づいて、当該各パターン間の距離を算出し、
前記分類手段は、前記算出手段により算出された前記各パターン間の距離に基づいて当該各パターンを分類する
ことを特徴とする請求項3に記載のプログラム。
【請求項5】
前記分類手段により分類された各分類について、当該各分類に含まれるパターンの中からそれぞれ1つのパターンを標準パターンとして選択する手段と、
前記各分類に含まれるパターンの中から前記標準パターンとの距離に応じて表示するパターンを選択する表示選択手段と、をさらに含む
ことを特徴とする請求項4に記載のプログラム。
【請求項6】
前記各パターンに含まれる要素毎に重みが定められ、
前記表示選択手段は、前記分類毎に含まれるパターンの中から、当該分類の標準パターンの特徴情報と異なる要素に定められた重みに基づいて、表示するパターンを選択する
ことを特徴とする請求項5に記載のプログラム。
【請求項7】
木構造の情報群から部分木の複数のパターンを抽出する抽出手段と、
前記抽出手段により抽出された各パターンの特徴情報を生成する特徴情報生成手段と、
前記特徴情報生成手段により生成された各パターンの特徴情報に基づいて、当該各パターンを分類する分類手段と、
前記分類手段による分類結果に応じて前記各パターンを表示する表示情報を生成する表示情報生成手段と、
を含むことを特徴とする情報処理システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2011−118550(P2011−118550A)
【公開日】平成23年6月16日(2011.6.16)
【国際特許分類】
【出願番号】特願2009−273863(P2009−273863)
【出願日】平成21年12月1日(2009.12.1)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成23年6月16日(2011.6.16)
【国際特許分類】
【出願日】平成21年12月1日(2009.12.1)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]