説明

類似症例検索プログラム

【課題】症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索プログラムを提供する。
【解決手段】 コンピュータに、複数の単語及び当該複数の単語の各々に対する重要度を対応させた抽出症例情報データを複数格納する手段、検索対象症例情報データを入力する入力フォームを表示する手段、前記入力フォームに入力された検索対象症例情報データに基づき検索処理を行う手段、前記検索処理により抽出された抽出症例情報データをリストとして表示する手段、として機能させるための類似症例検索プログラムとする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、類似症例検索プログラムに関する。
【背景技術】
【0002】
近年医療分野において、病院情報システムの普及により情報の電子化が進んでいる。そのうえで、これまで困難とされてきた文書データの再利用についても知識の抽出・共有等の活用が期待されている。その1つに、医師が診断の参考とする、過去の類似症例の検索がある。
【0003】
過去の類似症例の検索方法には、退院時サマリー等の医師個人や施設固有の情報を利用する方法と、学会等に提出される症例報告や論文から検索する方法とがある。従来の症例検索においては、医学中央雑誌やCiNiiでの論文検索においてもキーワード検索が採用されている。また、下記文献1ではMML化された退院時サマリーを知識ソースとして、独自の医療用語集に加えn−gram法・tf−idf法を用いて文書データをベクトルという定量表現に変換し、MMLのメタ構造と合わせて意味的に類似した症例を出力している。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】鈴木隆弘他、テキストマイニングによる退院サマリーからの類似症例検索の試み、第27回医療情報学連合大会論文集、2007、pp635−636
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記キーワード検索は、病名等の限られた語の有無のみを指標としており、症例内容の類似性を忠実に評価することは困難であるといった課題がある。
【0006】
また、上記非特許文献1に代表される手法は、MML化された退院時サマリーという限られた医療文書でしか利用できないといった課題がある。類似症例検索に限らず、先行研究において採用されている医療文書は、いずれも単一施設で利用されている文書に限定されており、共有・運用を図るには適していない。また、退院時サマリーには施設間で作成や保存の様式、内容に大きな差があり、その上、個人情報保護法により持ち出しや公開に関して厳しい制限がなされているため、知識共有のためのソースとしては不向きである。つまり、キーワード検索や上記文献1に代表される技術ではこれらへの対応が不十分であり、汎用的な1つのアプリケーションとして幅広く利用されることは非常に困難である。
【0007】
そこで、本発明は、上記課題を解決し、症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するための手段として、本発明の一観点に係る類似症例検索プログラムは、コンピュータに、複数の単語及び複数の単語の各々に対する重要度を対応させた抽出症例情報データを複数格納する手段、検索対象症例情報データを入力する入力フォームを表示する手段、入力フォームに入力された検索対象症例情報データに基づき検索処理を行う手段、検索処理により抽出された抽出症例情報データをリストとして表示する手段、として機能させる。
【発明の効果】
【0009】
以上、本発明によると、症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索プログラムを提供することができる。
【図面の簡単な説明】
【0010】
【図1】実施形態に係る類似症例検索プログラムの処理のフローを示す図である。
【図2】類似症例検索プログラムの実行により表示される入力フォームの例を示す図である。
【図3】類似症例検索プログラムの実行により表示される検索表示フォームの例を示す図である。
【図4】類似症例検索プログラムの実行により表示される検索結果のより詳細な表示を行なうフォームの例を示す図である。
【発明を実施するための最良の形態】
【0011】
以下、本発明を実施するための最良の形態について、図面を用いて詳細に説明するが、本発明は多くの異なる形態による実施が可能であって、以下に示す実施形態、実施例の例示に限定されるものではない。
【0012】
図1は、本実施形態に係る類似症例検索プログラム(以下「本プログラム」という。)の処理のフローを示す図である。本プログラムは、コンピュータに、(1)複数の単語及びこれら複数の単語の各々に対する重要度を対応させた抽出症例情報データを複数格納する手段、(2)検索対象症例情報データを入力する入力フォームを表示する手段、(3)入力フォームに入力された検索対象症例情報データに基づき検索処理を行う手段、(4)検索処理により抽出された抽出症例情報データをリストとして表示する手段、として機能させ、これにより、症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索を行なうことができるようになる。
【0013】
本プログラムは、いわゆるコンピュータのハードディスク等の記録媒体に格納され、必要に応じ実行されることで、上記各手段として機能し、類似症例検索を行なうことができるようになる。
【0014】
本プログラムは、一台のコンピュータで完結するよう構成してもよいが、一台のコンピュータをサーバとして用い、インターネット等の電気通信回線を介して接続される他のコンピュータからのアクセスを可能とし、機能するように構成しても良い。なおこの場合において接続されるコンピュータの数に関し制限はない。このような構成によると、幅広く用いることができる汎用的なシステムとなり、ユーザーの利便性と運用の簡素化が達成できる。なおこの場合において、ユーザーがより気軽に利用できるよう、webブラウザを利用して検索ができるシステムとなっていることは好ましい。
【0015】
まず、本プログラムは、コンピュータに、(1)複数の単語及びこれら複数の単語の各々に対する重要度を対応させた抽出症例情報データを複数格納する手段として機能させる。本実施形態に係る抽出症例情報データとは、類似症例について検索処理を行う際に検索の対象となるデータであって、テキストを含むデータである。抽出症例情報データは一般又は特定の者に公表される公表症例データを加工して作成されるものである。この公表症例データもテキストを含むデータであるが、公表症例データとしては、退院時サマリーだけでなく、通常の論文も利用することができ、症例に関する単語が含まれる文章であれば特に限定はされないが、例えば学会に提出される症例報告であることが好ましい。学会に提出される症例報告は、個人情報が予め削除されたものであって、情報量も統一されており、知識共有の指標としては最適なソースである。
【0016】
本プログラムでは、公表症例データに対し形態素解析処理及び重要度計算処理を行い、抽出症例情報データに加工した後、抽出症例情報データとして記録媒体に格納される。この結果、本プログラムは、多数の抽出症例情報データを格納し、一つのデータベースを構築する。
【0017】
本実施形態において形態素解析処理とは、自然言語処理の一つであって、自然言語を用いて記述された文章を複数の単語に分割し、そのそれぞれに対し品詞を特定する処理を言う。この処理については、上記実現することができる限りにおいて限定されるわけではないが、市販の形態素解析ソフトを用いることができ、例えばMecabを用いることができる。
【0018】
本プログラムにおいて重要度計算処理とは、いわゆるベクトル化処理であり、上記形態素解析処理により抽出された上記単語に対しその重要度を付与する処理をいい、限定されるわけではないが、いわゆるtf−idf法を採用することができる。tf−idf法とは、文書中の特徴的な単語を抽出するためのアルゴリズムであって、単語の出現頻度を基に重要度を計算することができるものである。具体的には、下記式で示す方法で文書中の単語の重要性を計算する。tf−idf法は、各抽出症例情報データの各単語の重要度を、当該抽出症例情報データにおける当該単語の出現回数、全抽出症例情報データの数、全抽出症例情報データにおいて当該単語が出現する抽出症例情報データの数、抽出症例情報データの全重要度の二重和の平方根を用いて計算される。この結果、抽出症例情報データは、複数の単語と、この各単語に重要度が付されたデータが並べられたベクトルとなっている。
【数1】

【0019】
なお、上記重要度計算を行うためのソフトウェアとしては、市販のものを使用することができ、例えばCache等を用いることができる。
【0020】
また抽出症例情報データにおいて、学会に提出される症例報告を用いる場合、当該学会の開催日時のデータ、開催場所のデータ、タイトル、著者、著者の所属、著者の連絡先、キーワード、患者の年齢、性別等の付帯情報を付しておくことが好ましい。このようにしておくことで、抽出された場合に、より詳細な表示を可能とし、その後の詳細な検討に役立てることができる。
【0021】
また本実施形態では、形態素解析処理や入力フォームにおける検索対象症例情報データの入力補助等において、処理をより詳細正確に行うためにユーザー辞書を予め格納しておくことが好ましい。ここでユーザー辞書とは、医療に関連する単語をデータ化したものであって、一般的な医療辞書、実際の医療機関で使用されている用語集、研究過程により追加された未知の用語集等を含み、これを適宜準備しておくことが好ましい。
【0022】
また本プログラムは、コンピュータに、(2)索対象症例情報データを入力する入力フォームを表示する手段として機能させる。このフォームの一例の図を図2に示しておく。
【0023】
本実施形態に係る入力フォームは、少なくとも、テキストを入力させるためのテキストボックスと、検索を開始させるための検索開始ボタンと、を有している。ユーザーは、このテキストボックスに必要な文章を入力し、検索開始ボタンを押すことで検索を開始させることができる。本プログラムは、上記のとおり、抽出症例情報データが、単語ごとに重要度が付されベクトル化されたものとなっているため、自然言語処理を用いた検索処理が可能となり、キーワードだけでなく、病態を表現する文章を入れることが可能となり、より正確、詳細な検索が可能となる。
【0024】
また、本プログラムは、コンピュータに、(3)入力フォームに入力された検索対象症例情報データに対し検索処理を行う手段として機能させる。
【0025】
ここで、検索処理とは、入力フォームに入力された検索対称症例データに対し所定の処理を行った後、予め格納した上記複数の抽出症例情報データから類似度が高い即ち病態が似ている症例を抽出する作業である。
【0026】
ここで検索処理は、限定されるわけではないが、入力された検索対象症例情報データに対し形態素解析処理及び重要度計算処理を行い、更に、格納された複数の抽出症例情報データ各々との計算処理を行い、当該結果に基づき抽出を行なう処理であることが好ましい。形態素解析処理及び重要度計算は上述したものを適宜使用することができる。
【0027】
なおこの処理において、検索処理に個人情報や不適切な単語が含まれている場合もあるため、別途除外単語データを含む除外単語データベースを設けることや、形態素解析等により個人の氏名であると認識された単語について削除処理を行わせることは好ましい一例である。
【0028】
また、入力された検索対象症例情報データと格納された複数の抽出症例情報データ各々との計算処理は、検索対象症例情報データ、複数の抽出症例情報データがいずれもベクトル化されたものであるため、内積を求め、その内積の値順に評価する処理であることが好ましい。文章自体の類似度が高いということが同じ病態を有する疾患であると判断できるためである。
【0029】
また、本プログラムは、コンピュータに、(4)検索処理により抽出された抽出症例情報データをリストとして表示する手段、として機能させる。
【0030】
またこの場合においては、抽出症例情報データの一部をリストとして表示するとともに、各抽出症例情報データの表示近傍に、詳細表示を行なうための詳細表示ボタンを表示させ、この詳細表示ボタンが押された場合に、当該抽出症例情報データの詳細を表示する抽出症例情報データ詳細表示手段、としても機能することが好ましい。このようにすることで、リスト表示を必要最小限に抑えるとともに、必要と思われるもののみをピックアップしてより詳細に確認することができるようになるといった効果がある。この場合において、リストを表示した場合のフォームの一例のイメージ図を図3に、リストのうちの一つについてより詳細に表示した場合のフォームの一例のイメージ図を図4に示しておく。なお限定されるわけではないが、詳細情報には、抽出症例情報データが学会に提出された症例報告である場合、当該学会の開催日時のデータ、開催場所のデータ、タイトル、著者、著者の所属、著者の連絡先等を表示するようにすることが好ましい。
【0031】
また、本プログラムは、このリスト表示の際、又は他の入力可能な状態おいてアンケートを表示し、入力を受け付ける手段、さらにはこのアンケートの結果を集計処理を行う手段、を有していることが好ましい。このようにすることで、検索処理の正確性に対しきめ細やかなフィードバックをかけることが可能となるといった効果がある。
【0032】
さらに、本プログラムには、管理者専用のページを作成し、システムの停止・復旧の手動操作処理を行うための手段、データベースの自動更新処理を行う手段等を適宜設けてもよい。このようにすることで、より細やかな管理・運用が可能となるといった効果がある。
【0033】
以上、本プログラムは、類似症例検索システムを1つのアプリケーションとして導入することが可能であり、自由文を入力することで、文書の類似性を検索することが可能となる。また、データベースとして個人情報の含まれない学会症例報告を利用していることにより、個人情報を考慮することなく、自然言語処理技術を利用した検索技術を幅広く普及させることが可能である。以上、本実施形態に係るプログラムは、症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索プログラムを提供することができる。
【実施例】
【0034】
上記実施形態に係るプログラムについて、実際に作成し、その効果を確認した。以下説明する。
【0035】
まず、基礎となる公表症例データとして、日本内科学会地方会に提出された過去4年分約15000件の症例報告を用いた。この症例データは、患者個人の情報は含まれていない。1症例1テキストのデータからなるデータベースを作成した。
【0036】
これに対し、Mecabのver0.96を用い、形態素解析を行い、さらに、cache(インターシステムズ社製)によるtf−idf法を用いた重要度解析処理を行い、複数の抽出症例情報データからなるデータベースを構築し、ハードディスクに格納した。
【0037】
なおユーザー辞書として、市販の医療用語集、実際の病院において使用されている用語集等を用い、約32万語のユーザー辞書を作成し、使用した。
【0038】
その後、入力フォーム、結果表示フォーム、さらに結果の詳細について表示するフォームを作成し、類似症例検索システムを構築した。
【0039】
そして、検索の一例として、2001年に発症したパーキンソン患者に関する類似検索を実行し、結果を確認したところ、非常に類似する一例を抽出することができた。この結果、症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索プログラムを提供することができることを確認した。この実施例の入力フォーム、結果表示フォーム、詳細な結果表示のフォームは既に示した図2乃至4のとおりである。
【産業上の利用可能性】
【0040】
本発明は、類似症例検索プログラムとして、産業上の利用可能性がある。


【特許請求の範囲】
【請求項1】
コンピュータに、
複数の単語及び当該複数の単語の各々に対する重要度を対応させた抽出症例情報データを複数格納する手段、
検索対象症例情報データを入力する入力フォームを表示する手段、
前記入力フォームに入力された検索対象症例情報データに基づき検索処理を行う手段、
前記検索処理により抽出された抽出症例情報データをリストとして表示する手段、として機能させるための類似症例検索プログラム。
【請求項2】
前記検索処理は、前記入力された検索対象症例情報データに対し形態素解析及び重要度計算を行い、更に、格納された複数の前記抽出症例情報データ各々との計算処理を行い、当該結果に基づき抽出を行なう請求項1記載の類似症例検索プログラム。
【請求項3】
前記検索処理により抽出された抽出症例情報データをリストとして表示する手段は、前記抽出症例情報データの一部をリストとして表示するとともに、当該抽出症例情報データの詳細表示を行なうための詳細表示ボタンを表示するものであり、更に、
前記詳細表示ボタンが押された場合に、当該抽出症例データの詳細を表示する抽出症例データ詳細表示手段、としても機能する請求項1記載の類似症例検索プログラム。




【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−244849(P2011−244849A)
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【出願番号】特願2010−117837(P2010−117837)
【出願日】平成22年5月21日(2010.5.21)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成21年11月21日発行の日本医療情報学会主催の保健医療情報学国際共同会議広島2009のプログラム・抄録集
【出願人】(304021831)国立大学法人 千葉大学 (601)
【Fターム(参考)】