医療情報抽出装置、及び医療情報抽出プログラム

【課題】病名の階層構造を利用して個々の病名に関しての文書だけでなく、関連した文書の情報を合わせて用いることが可能となり、統計的な情報の推定が、より安定的に行うことができる医療情報抽出装置及びプログラムを提供する。
【解決手段】
医療情報抽出装置１のＣＰＵ１０は処理対象病名と、病名間の階層構造をなす関連病名とをキーワードとして検索が行われた対象文書を取得する。ＣＰＵ１０は、処理対象病名とその関連病名との間の関係を利用して対象文書から該処理対象病名と関連のあるパッセージを抽出する。ＣＰＵ１０は抽出したパッセージを含む対象文書集合を元にして、関連項目の項目リスト内の各項目と処理対象病名との相関度を、対象病名と関連病名との関係を利用して算出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は医療情報抽出装置及び医療情報抽出プログラムに関する。特に、医師が診断などの際に電子カルテルシステムを用いたり、患者や患者の家族が病気についての情報をインターネットで調べたりする場合など、人間が医療に関わる情報を処理する場面において、コンピュータを用いて情報処理を支援する医療情報抽出装置、及び医療情報抽出プログラムに関する。
【背景技術】
【０００２】
電子カルテルシステムなどの医療情報システムは、病院、診療所などの医療機関において、医師や看護士が診断や処置についての判断を行う際に、コンピュータを介して診断や処置を支援する情報システムである。このような情報システムで利用することが可能な医学的な知識を、自動的に抽出する装置が提案されている。抽出した医学的な知識は、前記医療機関において、利用することが可能だけではなく、患者や患者の家族が病気についての情報をインターネットで調べようとする際にも、利用可能である。
【０００３】
こうした医療情報抽出方法についての従来技術としては特許文献１〜特許文献２、或いは、非特許文献１がある。
特許文献１は２単語間の類似度を計算する技術であり、単語間の相関をシソーラス辞書とコーパスを用いて算出するようにしている。特許文献２、特許文献３は、文書検索において、適切な検索を行うために単語間の概念階層を利用するものであり、検索キーに関連する文書の検索時の検索漏れや、不要文書を抽出するようなノイズを少なくするために、シソーラス辞書を用いる技術である。
【０００４】
非特許文献１では、医療分野を例として、インターネット上のWeb文書から、ある話題に適合するパッセージ（文書の一部）を自動的に抽出する方法が提案されている。具体的には、まず、病名を検索キーとして、Web文書を自動的に収集し、タグの情報を用いて文書を細かく分割してパッセージの候補を抽出する。次に、症状を表わす表現を症状リストとして予め人手で用意しておき、この症状リストに適合するパッセージを候補の中から選択する。次に選択したパッセージの候補を類似度の大きなものから、順に出力するというものである。
【特許文献１】特開２００５-３８１６２号公報
【特許文献２】特開２００３-２２２７７号公報
【特許文献３】特開２００３-３４５８２４号公報
【非特許文献１】「医療分野におけるWeb文書からの話題抽出方法」，人工知能学会全国大会（第１９回）、1E1-01,2005
【発明の開示】
【発明が解決しようとする課題】
【０００５】
ところで、病名と症状や、病名と薬品名、病名と検査項目などのような医学的知識は、その量が膨大であること、日々更新される知識であることなどの理由により、従来は、コンピュータによる支援には用いられていない。データマイニングを医療分野に適用しようとする試みは見られるものの、まだ、限定的な適用に留まっている。
【０００６】
このような医学的知識を特定する上で、「病名」は、非常重要である。Webの検索において、必要とする知識を特定するために病名を用いることで、かなり、適切な限定を行うことができる。
【０００７】
しかしながら、Webから得られる膨大な文書や、電子カルテ上の医療情報から、病名と症状のような医学的に知識を取り出すためには、個々の病名に関する情報を統計的に安定して推定することが難しいことや、個々の病名に関する情報がバラバラで関連付けられていないという問題があった。
【０００８】
特許文献１は、２単語間の類似度をシソーラス上の階層の深さ、概念の階層及びパス上の概念に依存させて計算する技術である。しかし、階層構造の利用は、２単語間のみに対して適応され、類似度が算出されている。又、情報量の少ない単語や情報量のオーダーの異なる単語間に対しては、統計的に有効な類似度の算出が困難となる。
【０００９】
特許文献２や、特許文献３に示されている従来技術は、文書検索における検索結果の質の向上を目的としたものであり、検索時に階層構造を表現した辞書から検索キーの上位概念単語、下位概念単語を抽出し、それらの単語を検索キーに追加して文書検索を行うものである。
【００１０】
非特許文献１は、病名は検索のためのキーとして利用するだけなので、病名の間に存在する階層構造を利用していない。非特許文献１は、病名そのものを検索キーとして病名に関する症状パッセージを抽出する手法のため、Web上に蓄積されたテキスト量が少ない病名に関しては抽出できるパッセージが限定される。さらに、非特許文献１では、人手で用意した症状リストは、多様な表現を持つ症状を的確に表わすことが困難であり、症状を含むパッセージの抽出精度を左右する。又、非特許文献１の技術は、類似度の大きいパッセージそのものを出力する形式であることから、パッセージの質や大きさに依存した結果には一貫性がなく、さらに、同じ意味（症状）を表現したパッセージに対する処理は行われておらず、２次利用しにくいという問題があった。
【００１１】
すなわち、上記の特許文献１〜３、非特許文献１の技術には、病名と症状との間の階層的な情報などによって医療情報を抽出するための装置及びプログラムについてや、或いは、文書と、病名に関する既存の知識を利用して抽出する装置及びプログラムに関しても開示されいない。又、上記各文献には検索後に、検索された文書集合を用いて統計的な情報を推定する装置及びプログラムについては開示されていない。
【００１２】
そして、従来の医療情報の抽出は個々の病名から得られた文書を別々に使用していたため、病名に対応する文書の量が少なく、統計的な情報の推定が安定して行えない問題があった。
【００１３】
本発明の目的は、病名の階層構造を利用して、個々の病名に関しての文書だけでなく、関連した文書の情報を合わせて用いることが可能となり、統計的な情報の推定が、より安定的に行うことができる医療情報抽出装置及び医療情報抽出プログラムを提供することを目的としている。
【課題を解決するための手段】
【００１４】
上記問題点を解決するために本発明の医療情報抽出装置は、病名と、該病名と関連する関連項目との関係を自由書式の文書から抽出する医療情報抽出装置において、処理対象病名と、病名間の階層構造をなす関連病名とをキーワードとして検索が行われた対象文書を取得する文書取得手段と、前記処理対象病名とその関連病名との間の関係を利用して前記対象文書から該処理対象病名と関連のあるパッセージを抽出するパッセージ抽出手段と、前記パッセージ抽出手段が抽出したパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を、対象病名と関連病名との関係を利用して算出する概念関係抽出手段とを備えたことを特徴とする。
【００１５】
ここで、「病名と関連する関連項目」とは、病名と関連する症状、原因、処置、薬品名などをいい、その病名に関して関連して取り上げられている事項をいう。又、相関度は、項目と病名とが共に出現する度合のことである。従来は、個々の病名から得られた文書を別々に使用していたため、個々の病名に対応する文書の量が少なく、統計的な情報の推定が安定して行えないという問題があった。それに対して、本発明によれば、病名の階層構造を利用して個々の病名に関する情報を統計的に安定して推定することができ、又、個々の病名に関しての文書だけでなく、関連した文書の情報を合わせて用いることが可能となり、統計的な情報の推定が、より安定的に行うことができる。
【００１６】
例えば、上位概念である病名には、階層構造が形成されているものがある。例えば「糖尿病」の中に階層構造を形成する「１型糖尿病」、「２型糖尿病」などが存在する。従って、それぞれの病名をキーとして検索して得られた文書は互いに関連しており、類似していることが期待できる。本発明では、こうした情報を利用するのである。
【００１７】
前記医療情報抽出装置は、前記構成に加えて、前記パッセージ抽出手段が、前記パッセージを、処理対象病名に対するパッセージの適合度を算出して、該適合度に基づいて抽出するようにしてもよい。
【００１８】
このように構成されていることにより、対象文書から該処理対象病名と関連のあるパッセージが、適合度という客観的な数値に基づいて抽出できるため、的確に対象文書から該処理対象病名と関連のあるパッセージを抽出することができる。
【００１９】
又、前記医療情報抽出装置は、前記構成加えて、前記パッセージ抽出手段が、各パッセージの処理対象病名の出現頻度に対して、関連病名の出現頻度を処理対象病名と各関連病名との関連度で重み付けしたものを加算することによりパッセージの適合度を求めるようにしてもよい。
【００２０】
このように構成されていることにより、パッセージの適合度が、各パッセージの処理対象病名の出現頻度と、関連病名の出現頻度を処理対象病名と各関連病名との関連度で重み付けしたものが加算されているため、前記各出現頻度に応じたものとすることができる。
【００２１】
さらには、医療情報抽出装置は、前記構成に加えて、前記処理対象病名と各関連病名に関してそれぞれ対象文書から共起語と該共起語の共起度を求める共起語取得手段を有し、前記パッセージ抽出手段が、各パッセージの適合度を求める際に、各病名の共起語の共起度と出現頻度とをさらに用いるようにしてもよい。
【００２２】
ここで、共起語とは、項目の間において、共起する語のことであり、共起度は、共起する度合いのことである。
このように構成されていることにより、パッセージの適合度が、各病名の共起語の共起度と出現頻度に応じたものにすることができる。
【００２３】
又、医療情報抽出装置は、前記構成に加えて、概念関係抽出手段が、処理対象病名と前記関連項目の項目リスト内の各項目との相関度（以下、第１相関度という）と、処理対象病名の関連病名と前記関連項目の項目リスト内の各項目との相関度（以下、第２相関度という）を求め、さらに、前記第２相関度を、前記処理対象病名と各関連病名との関連度で重み付けしたものを前記第１相関度に加算することにより、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出するようにしてもよい。
【００２４】
このように構成されていることにより、処理対象病名と前記関連項目の項目リスト内の各項目との相関度（第１相関度）と、処理対象病名の関連病名と前記関連項目の項目リスト内の各項目との相関度（第２相関度）の両相関度が考慮され相関度を得ることができる。
【００２５】
又、医療情報抽出装置は、前記構成に加えて、概念関係抽出手段が、処理対象病名が予め与えられている病名間の階層構造において複数のノードに分類されている場合には、それぞれのノードが前記関連項目のうちのどの観点により分類されているかに基づいて、観点が一致する項目リスト内の各項目との相関度を算出する場合のみ、同じノードに分類されている病名を関連病名として用いるようにしてもよい。
【００２６】
すなわち、病名が複数のノードに分類されるとともに、あるノードがある項目（例えば「原因」）の観点で分類されている場合は、その観点が一致する項目リスト内の項目（「原因」）との相関度を算出する場合のみ、該同じノードに分類されている病名を関連病名として用いるようにする。
【００２７】
このようにすることにより、病名のそれぞれの分類箇所が、「原因」による分類であるか、又は、「症状」による分類で有るかを利用して、他の病名から概念関係を抽出する際に利用できる。
【００２８】
又、医療情報抽出装置は、前記構成に加えて、前記概念関係抽出手段が、複数のノードに分類されている病名を含むノードに対し、このノードに分類されている各病名について求めた関連項目の項目リスト内の各項目との相関度の内、どの項目リスト内の各項目との相関度が各病名間で最も似通っているかに基づいて、このノードが分類されている観点を推定するようにしてもよい。
【００２９】
例えば、ノードが「原因」の観点による分類であるか、「症状」の観点による分類であるかは、各病名毎に抽出した原因リストや、症状リストがどの程度類似しているかに基づいて推定できる。このように概念関係抽出手段がノードが分類されている観点を推定することによって、請求項６の作用を容易に実現できる。
【００３０】
又、本発明の医療情報抽出方法は、病名と、該病名と関連する関連項目との関係を自由書式の文書から抽出する医療情報抽出方法において、処理対象病名と、病名間の階層構造をなす関連病名とをキーワードとして検索が行われた対象文書を取得する段階と、前記処理対象病名とその関連病名との間の関係を利用して前記対象文書から該処理対象病名と関連のあるパッセージを抽出する段階と、前記抽出されたパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を、対象病名と関連病名との関係を利用して算出して概念関係を抽出する段階と含むことを特徴とする。
【００３１】
このように構成されていることにより、病名の階層構造を利用して個々の病名に関する情報を統計的に安定して推定することができ、又、個々の病名に関しての文書だけでなく、関連した文書の情報を合わせて用いることが可能となり、統計的な情報の推定が、より安定的に行うことができる方法を提供できる。
【００３２】
又、前記パッセージを抽出する段階が、前記処理対象病名とその関連病名との間の関係を利用して前記対象文書から該処理対象病名と関連のあるパッセージを、処理対象病名に対するパッセージの適合度を算出して該適合度に基づいて抽出するようにしてもよい。
【００３３】
このように構成されていることにより、対象文書から該処理対象病名と関連のあるパッセージが、パッセージの適合度という客観的な数値に基づいて抽出できるため、的確に対象文書から該処理対象病名と関連のあるパッセージを抽出することができる方法を提供できる。
【００３４】
又、本発明のプログラムは、病名と、該病名と関連する関連項目との関係を自由書式の文書から抽出する際に、コンピュータに、処理対象病名と、病名間の階層構造をなす関連病名とをキーワードとして検索が行われた対象文書を取得する文書取得手段、前記処理対象病名とその関連病名との間の関係を利用して前記対象文書から該処理対象病名と関連のあるパッセージを抽出するパッセージ抽出手段、前記パッセージ抽出手段が抽出したパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を、対象病名と関連病名との関係を利用して算出する概念関係抽出手段として、機能させることを特徴とする。
【００３５】
このように構成されていることにより、病名の階層構造を利用して個々の病名に関する情報を統計的に安定して推定することができ、又、個々の病名に関しての文書だけでなく、関連した文書の情報を合わせて用いることが可能となり、統計的な情報の推定が、より安定的に行うことができるプログラムを提供できる。
【００３６】
又、前記プログラムにより、コンピュータが前記パッセージ抽出手段として機能する際に、前記処理対象病名とその関連病名との間の関係を利用して前記対象文書から該処理対象病名と関連のあるパッセージを、処理対象病名に対するパッセージの適合度を算出して、該適合度に基づいて抽出するようにしてもよい。
【００３７】
このように構成されていることにより、対象文書から該処理対象病名と関連のあるパッセージが、パッセージの適合度という客観的な数値に基づいて抽出できるため、的確に対象文書から該処理対象病名と関連のあるパッセージを抽出することができるプログラムを提供できる。
【００３８】
又、前記プログラムにより、コンピュータが前記パッセージ抽出手段として機能する際に、各パッセージの処理対象病名の出現頻度に対して、関連病名の出現頻度を処理対象病名と各関連病名との関連度で重み付けしたものを加算することによりパッセージの適合度を求めるようにしてもよい。
【００３９】
このように構成されていることにより、パッセージの適合度が、各パッセージの処理対象病名の出現頻度と、関連病名の出現頻度を処理対象病名と各関連病名との関連度で重み付けしたものが加算されているため、前記各出現頻度に応じたものとすることができるプログラムを提供できる。
【発明を実施するための最良の形態】
【００４０】
以下、本発明を具体化した医療情報抽出装置、方法及びプログラムの一実施形態を図１〜５を参照して説明する。
図１に示すように、医療情報抽出装置１はパーソナルコンピュータからなる。医療情報抽出装置１は互いにバスで接続されたＣＰＵ１０、ＲＯＭ１１、ＲＡＭ１２、及び文書取得部１３を備えるとともにシソーラスのデータを記憶するシソーラス辞書部２０、コーパスのデータや、テキスト文のデータを記憶するテキストコーパス３０、データベース４０、入力部５０、出力部６０を備える。前記ＲＯＭ１１には、医療情報抽出プログラム等の各種プログラムが格納されている。ＲＡＭ１２は前記各種プログラムを実行する際に使用される作業用記憶領域や、バッファ領域を備えている。
【００４１】
シソーラス辞書部２０、テキストコーパス３０、及びデータベース４０は例えば、ハードデイスクからなるが、限定されるものではない。入力部５０はキーボード、マウス、等からなる。又、出力部６０は表示装置やプリンタ等からなる。文書取得部１３は、インターネットＩＴに接続されている。
【００４２】
次に、医療情報抽出装置１による医療情報の抽出について説明する。
まず、医療情報を収集するためのキーワードリストである病名リストと、関連項目リストについて説明する。該病名リスト、及び関連項目リストはデータベース４０に格納されている。ここで、関連項目リストは初期セットとなる。
【００４３】
病名リストは、上位概念の階層構造を記した、例えば、MEDISのICD10の国際疾病分類第１０版のデータを利用し、このMEDISに対し病名を検索クエリとして検索エンジンで検索し、検索ヒット数順に並べ替えたものを病名リストとして作成してもよい。
【００４４】
MEDISのICD10の国際疾病分類第１０版の例を図４に例示する。図４（ａ）は、「感染症」に関するノードの部分であり、例えば、「Ａ０１腸チフス及びパラチフス」では、Ａ０１.０〜Ａ０１.４まで分類されているが、さらには、Ａ０１の内には、図４（ｂ）に示すように１〜１５に亘って各種の病名に細分類されている。この場合、「腸チフス」を処理対象病名とした場合、これ以外の「Ａ０１」に挙げられている他の病名は関連病名となる。
【００４５】
又、「病名」を上位概念としたとき、下位概念である「病名と関連する関連項目」は、病名と関連する「症状」、「原因」、「処置」、「薬品名」などがある。これには、「病名」と密接に関連する事項である。「症状」は当該病名の罹患患者が呈する状態を示し、「原因」は、当該病名の罹患原因となるものであり、「処置」は、当該病名の対応治療等を示し、「薬品名」は、当該病名に使用される治療薬等を示す。初期セットである関連項目リストとはこれらがそれぞれリストとして作成されたものである。例えば、「症状」に関しては、症状リストといい、「原因」に関しては、原因リストという。他の関連項目についても同様のリストが作成される。下位概念である「症状」、「原因」、「処置」、「薬品名」などは、各病名に対してリスト形式で提示されている。
【００４６】
なお、両リストは、医学事典に記載されている主な症状、原因、薬品名を人手により抽出したものをそれぞれリストの項目として作成した上で、データベース４０に格納するようにしてもよい。
【００４７】
次に、医療情報抽出装置１のＣＰＵ１０は、医療情報抽出プログラムを起動すると、図２に示すフローチャートを実行する。
（文書の収集処理）
Ｓ１０では、ＣＰＵ１０は文書収集を行う。文書収集は、前記病名リストから病名（関連病名も含む）をキーワードとして用いて行われる。ＣＰＵ１０は、病名リストから病名（関連病名も含む）を順次読込みして、文書取得部１３を介してインターネットＩＴへ送出する。このとき、ＣＰＵ１０はインターネットＩＴ上の自由書式の文書としてのWeb文書を検索するためには、ウェブブラウザの検索エンジンを使用してもよい。インターネットＩＴ上で検索されたWeb文書は、文書取得部１３を介してテキストコーパス３０に収集される。ここでの機能によりＣＰＵ１０は文書取得手段に相当する。
【００４８】
（パッセージ抽出処理）
Ｓ２０では、ＣＰＵ１０は、収集したWeb文書を元にパッセージ抽出を行う。Web文書は、１文書内に複数の話題が含まれていることがあり、不要部が存在する可能性がある。そのため、ＣＰＵ１０は分割情報に基づいてパッセージの抽出を行う。ここで、分割情報とは、Web文書がHTML文書の場合は、タグであり、Web文書が通常のテキスト文書の場合は、段落が相当する。この分割情報に基づいて、該文書の書き手の意図する分割点で文書を分割し、医療情報がない不要な部分を除去し、医療情報があるパッセージを抽出する。
【００４９】
このとき、対象とするキーワードの上位階層及び下位階層の各病名の出現頻度に基づいてパッセージを抽出してもよく、又、上位階層と下位階層の病名間の関連度を重みとして利用してもよい。ここでの機能により、ＣＰＵ１０はパッセージ抽出手段に相当する。
【００５０】
本実施形態では、パッセージの適合度を算出して、該適合度が閾値以上のパッセージを適合度が高いとして抽出する。又、適合度が閾値未満のパッセージは、パッセージの適合度が低いものとして抽出の対象から除外される。
【００５１】
図３は、検索によって得られた対象文書集合を示し、各パッセージｐ_１，ｐ_２、…ｐ_ｋが抽出された例が示されている。
（パッセージの適合度の算出方法）
ここで、上位概念である「病名」の階層構造を利用する場合のパッセージの適合度の算出方法を説明する。ここでは、処理対象病名ｄＴ＝”腸チフス性関節炎”に対するパッセージp_kの適合度の例を挙げる。
【００５２】
下記に示すように処理対象病名ｄＴ＝”腸チフス性関節炎”に対して、Ｌ個の関連病名｛r₁,r₂,…,ｒ_L｝とその関連度{I(d_T,r₁),I(d_T,r₂),……,I(d_T,r_L)}が与えられている。なお、関連度については、後述する。
【００５３】
関連病名｛r₁,r₂,…,ｒL｝＝{"腸チフス"，"腸チフス性心筋炎"，……}
関連度{I(d_T,r₁),I(d_T,r₂),……,I(d_T,r_L)}＝{０.４,０.１５,……}
このとき、処理対象病名ｄｒに対するパッセージｐｋの適合度F(d_T,p_k)を次式（１）により算出する。
【００５４】
【数１】

上記式中、Ｐ（r_i,p_k）はパッセージp_kにおける関連病名r_iの出現確率であり、パッセージp_kにおける関連病名r_iの出現回数ｆ(r_i,p_k)からＰ(r_i,pk)＝ｆ(r_i,p_k)／Ｑ_kとして算出する。
【００５５】
（病名間の関連度の算出方法）
ある病名ｄと関連病名ｒとの関連度I(d,_r)の算出方法について説明する。
病名ｄをキーワードとして検索して得られた文書集合をＤ_ｄ、関連病名ｒをキーワードとして検索して得られた文書集合をＤ_ｒとする。
【００５６】
文書集合Ｄ_ｄと文書集合Ｄ_ｒの和集合Ｄ_０＝（Ｄ_ｄ∪Ｄ_ｒ）に含まれる単語の異なり数（語彙数）をＶとし、文書集合Ｄ_ｄとＤ_ｒのそれぞれについて、各単語{t₁,t₂…t_V}の出現回数を要素値とする
【００５７】
【数２】

を生成する。
【００５８】
【数３】

前記２つのベクトル間のコサイン類似度
【００５９】
【数４】

は文書集合Ｄ_ｄとＤ_ｒがどの程度類似しているかを示している。これを病名ｄと関連病名ｒとの関連度Ｉ（ｄ，ｒ）として用いる。
【００６０】
なお、この他、文書集合Ｄ_ｄとＤ_ｒの和集合Ｄ０＝（Ｄ_ｄ∪Ｄ_ｒ）における病名ｄと関連病名ｒの相互情報量を関連度として用いてもよい。
【００６１】
【数５】

（概念関係抽出処理、すなわち統計情報の抽出）
再び図２のフローチャートの説明に戻る。Ｓ３０では、ＣＰＵ１０は、キーワードリストの階層構造を利用して統計情報の抽出を行う。すなわち、ＣＰＵ１０は、作成したリスト（例えば関連項目リストである症状リスト）の初期セットを利用してキーワードである病名と関連項目（例えば「ある症状」）の間の統計的な情報（以下、統計情報という）を抽出する。この統計情報の抽出が、概念関係抽出に相当する。ここでの機能により、ＣＰＵ１０は、概念関係抽出手段に相当する。
【００６２】
ここで、統計情報としては、２つの単語が共起する頻度や、共起する頻度とそれぞれの生起確率を考慮した後述する相互情報量や、TF-IDFなどを用いることが可能である。この時、それぞれの情報量にパッセージ文書が属するドメインや検索ヒット数に対応した重みを掛けてもよい。このようにすることによりどのような症状が、どの程度の頻度で、生起するかの情報を得ることができる。
【００６３】
本実施形態では、下記（１. 相関度R(d_T,w)の算出）を行い、さらに、（２. 相関度R(r_i,w)の算出及び相関度R'(d_T,w)の算出）を行うことにより、関連項目の項目リスト内の各項目と処理対象病名との相関度を、対象病名と関連病名との関係を利用して算出する。
【００６４】
（相関度の算出）
ここで、概念関係抽出において、使用される相関度の算出、すなわち、関連項目の項目リスト内の各項目と前記処理対象病名との相関度の算出方法について説明する。
【００６５】
なお、ここでは原因を表わす項目リストＬ_C、症状を表わす項目リストＬ_S、薬品を表わす項目リストＬ_Mが、下記のように与えられているとする。
Ｌ_C＝{w_c1,w_c2,……w_cNc}、
Ｌ_S＝{w_s1,w_s2,……w_sNs}、
Ｌ_M＝{w_m1,w_m2,……w_mNm}、
Ｎ_ｃ、Ｎ_ｓ、Ｎ_ｍは各リストの項目数である。
【００６６】
（１. 相関度R(d_T,w)の算出）
処理対象病名ｄ_Ｔ＝"腸チフス性関節炎"に対して、各項目リスト内の各項目ｗとの相関度R(d_T,w)を算出し、病名ｄＴにはどのような原因／症状／薬品がどの程度関連しているかを知識として抽出する。相関度R(d_T,w)は第１相関度に相当する。この場合、相関度R(d_T,w)は、統計的尺度により算出する。統計的尺度としては、下記のものを挙げることができ、いずれの統計的尺度を使用してもよい。
【００６７】
１. 対象文書集合における処理対象病名ｄＴと各項目ｗとの共起回数freq(d_T,w)
共起回数freq(d_T,w)は、同じパッセージの中に各項目ｗがどれだけあったかを示している。
【００６８】
２. 対象文書集合における処理対象病名ｄ_Ｔと相互情報量
【００６９】
【数６】

３. 対象文書集合における各項目ｗのＴＦ-ＩＤＦ値
【００７０】
【数７】

（２. 相関度R(r_i,w)の算出及び相関度R'(d_T,w)の算出）
次に、Ｌ個の関連病名ｒ_ｉと各項目リスト内の各項目ｗとの相関度R(r_i,w)の算出する。相関度R(r_i,w)は第２相関度に相当する。
【００７１】
前述したように、処理対象病名ｄ_Ｔ＝”腸チフス性関節炎”に対して、Ｌ個の関連病名｛r₁,r₂,…,ｒ_L｝とその関連度{I(d_T,r₁),I(d_T,r₂),……,I(d_T,r_L)}が与えられている。
関連病名｛r₁,r₂,…,ｒ_L｝＝{"腸チフス"，"腸チフス性心筋炎"，……}
関連度{I(d_T,r₁),I(d_T,r₂),……,I(d_T,r_L)}＝{０.４,０.１５,……}
各関連病名｛r₁,r₂,…,ｒ_L｝に対しても、上記の統計的尺度により相関度R(d_T,w)を求めたと同様に相関度R(r_i,w)(なお、ｉ＝1,2,……Ｌである)を算出する。
【００７２】
そして、得られた前記相関度R(r_i,w))と各関連病名との関連度I(d_T,r_ｉ)で重み付けしながら加算し、これを処理対象病名ｄＴと項目ｗとの相関度R'(d_T,w)とする。すなわち、
【００７３】
【数８】

を処理対象病名ｄ_Ｔと項目ｗとの相関度として用いる。
【００７４】
（処理対象病名が複数のノードに分類されている場合）
ところで、処理対象病名が複数のノードに分類されている場合について説明する。
前述したように、図４（ａ）は、「感染症」に関するノードの部分であり、例えば、「Ａ０１腸チフス及びパラチフス」について記載されている。
【００７５】
一方、図５（ａ）、（ｂ）は、MEDISのICD10の国際疾病分類第１０版において、「症状」が共通している観点での分類の例である。この場合、例えば、図４（ｂ）、図５（ｂ）に示すように「腸チフス性心内膜炎（ＩＣＤ１０コード＝Ａ０１０，１３９８）」は、階層的分類の中で複数に分類されていることが分かる。このように複数ノードに分類されている「病名」は、それぞれのノードに属する他の病名が関連病名となるが、ここでＡ０１（腸チフス及びパラチフス）に属する病名は原因がチフス菌である点が共通であり、Ｉ３９（……心内膜炎及び心弁膜障害）に属する病名は症状が心内膜炎・心弁膜障害である点が共通である。
【００７６】
このようにある病名が複数箇所に分類されている場合、観点が異なってそれぞれ分類されていることになる。それぞれの分類箇所が、原因による分類であるか、又は、症状による分類であるかを利用して、他の病名から概念関係を抽出する際に利用する。
【００７７】
すなわち、概念関係抽出手段であるＣＰＵ１０は、観点が一致する項目リスト内の各項目との相関度を算出する場合のみ、同じノードに分類されている病名を関連病名として用いるようにする。
【００７８】
このようにすることにより、同じノードに分類されていない病名については関連病名としては扱われずその相関度が算出されないため、同じノードに分類された処理対象病名と関連病名に関する相関度のみが算出され、概念関係抽出の際に同じノードに分類されていない病名の影響を受けることがない。
【００７９】
なお、「原因」という観点での分類であるか、又は、「症状」という観点での分類かは、ＣＰＵ１０は、各病名毎に原因リストや症状リストに対して求めた相関度がどの程度類似しているかに基づいて推定できる。以下、分類の観点を推定する方法を具体的に説明する。
【００８０】
あるノードＡに分類されているＭ個の病名を｛ｄ_１，ｄ_２，…，ｄ_Ｍ｝とする。｛ｄ_１，ｄ_２，…，ｄ_Ｍ｝のうちいくつかの病名がノードＡとは異なるノードにも分類されている場合、下記の手順でノードＡの分類の観点を推定する。
【００８１】
まず、各病名｛ｄ_１，ｄ_２，…，ｄ_Ｍ｝に対して、前述の方法により関連項目の項目リスト内の各項目ｗとの相関度Ｒ（ｄ_ｉ，ｗ）を求める。原因を表わす項目リストＬ_Ｃ、症状を現す項目リストＬ_Ｓ、薬品を表わす項目リストＬ_Mに対応する病名ｄ_ｉとの相関度のセットをそれぞれ以下のように表わす。
【００８２】
R_C(d_i,L_C)＝{R(d_i,w_c1), R(d_i,w_c2), …,R(d_i,w_cNc),}
Rs(d_i,Ls)＝{R(d_i,w_s1), R(d_i,w_s2), …,R(d_i,w_sNs),}
R_M(d_i,L_M)＝{R(d_i,w_m1), R(d_i,w_m2), …,R(d_i,w_mNm),}
ノードＡ内の各病名｛ｄ_１，ｄ_２，…，ｄ_Ｍ｝に対して得られた原因を表わす項目リストＬ_Ｃとの相関度のセットR_C(d_i,L_C) {i=1,2,…Ｍ}がどの程度似通っているかは、R_C(d_i,L_C)を次元数Ｎ_Ｃの相関度ベクトルと見なして、これらの分散を計算することにより評価できる。即ち、Ｍ個のベクトルR_C(d_i,L_C) {i=1,2,…Ｍ}の分散Ｖ（Ａ，L_C）を次式により求める。
【００８３】
【数９】

ここで、μ（Ａ，L_C）はＭ個の相関度ベクトルR_C(d_i,L_C)の平均ベクトルであり、下記式で表わされる。
【００８４】
【数１０】

また、(R_C(d_i,L_C)−μ(A,L_C))^２はR_C(d_i,L_C)とμ(A,L_C)とのユークリッド距離の２乗である。
【００８５】
症状を表わす項目リストＬ_Ｓ、薬品を表わす項目リストＬ_Mに対しても、同様の手順で相関度ベクトルRs(d_i,Ls)及びR_M(d_i,L_M)の分散Ｖ(A,L_S)及びＶ(A,L_M)を計算する。
ノードＡ内の各病名の原因が共通している場合、ノードＡ内の各病名と原因を表わす項目リストL_C内の各項目との相関度が似通った傾向を示すため、Ｍ個の相関度ベクトルR_C(d_i,L_C)の分散Ｖ(A,L_C)の値は小さくなる。又、原因が各病名間で異なっていれば分散Ｖ(A,L_C)の値は大きくなる。従って、Ｖ(A,L_C)、Ｖ(A,L_S)及びＶ(A,L_M)の値を比較して、これら３つの中でＶ(A,L_C)が最も小さい場合に、ノードＡの分類の観点が「原因」である、と判断する。又、Ｖ(A,L_S)が最も小さければ「症状」、Ｖ(A,L_M)が最も小さければ「薬品」であると判断する。
【００８６】
以上のようにして、ノード内の各病名毎に求めた各項目リスト内の項目との相関度がどの程度類似しているかに基づいて、そのノードの分類の観点を推定することができる。なお、上記の説明で評価尺度として用いたＭ個の相関度ベクトルR_C(d_i,L_C)の分散の代わりに、Ｍ個の相関度ベクトルR_C(d_i,L_C)とこれらの平均ベクトルμ（Ａ，L_C）とのコサイン類似度の総和(又は平均値)を用いることも可能である（この場合、相関度ベクトルが似通っている評価尺度の値は大きくなる。）
なお、複数ノードに分類されている病名を含む全てのノードについて、予め人手で分類の観点（原因、症状、部位等）のコードを関連付けしておいてもよい。ＣＰＵ１０は、このコードを読みとることによりどの観点での分類かを判断することができる。
【００８７】
このようにして、ＣＰＵ１０はＳ３０の処理が終了すると、このプログラムの実行を終了する。
以上詳述した本実施の形態によれば、以下に記載する各効果を得ることができる。
【００８８】
（１）本実施形態の医療情報抽出装置１のＣＰＵ１０は、文書取得手段として、処理対象病名と、病名間の階層構造をなす関連病名とをキーワードとして検索が行われた対象文書を取得するようにした。そして、ＣＰＵ１０は、パッセージ抽出手段として、処理対象病名とその関連病名との間の関係を利用して対象文書から該処理対象病名と関連のあるパッセージを抽出するようにした。さらに、ＣＰＵ１０は、抽出したパッセージを含む対象文書集合を元にして、関連項目の項目リスト内の各項目と処理対象病名との相関度を、対象病名と関連病名との関係を利用して算出するようにした。この結果、本実施形態によれば、病名の階層構造を利用して個々の病名に関する情報を統計的に安定して推定することができ、又、個々の病名に関しての文書だけでなく、関連した文書の情報を合わせて用いることが可能となり、統計的な情報の推定が、より安定的に行うことができる。
【００８９】
（２）又、医療情報抽出装置１のＣＰＵ１０は、処理対象病名とその関連病名との間の関係を利用して対象文書から該処理対象病名と関連のあるパッセージを、処理対象病名に対するパッセージの適合度を算出して、該適合度に基づいて抽出するようにした。この結果、対象文書から該処理対象病名と関連のあるパッセージが、適合度という客観的な数値に基づいて抽出できるため、的確に対象文書から該処理対象病名と関連のあるパッセージを抽出することができる。
【００９０】
（３）又、医療情報抽出装置１のＣＰＵ１０は、各パッセージの処理対象病名の出現頻度に対して、関連病名の出現頻度を処理対象病名と各関連病名との関連度で重み付けしたものを加算することによりパッセージの適合度を求めるようにした。この結果、パッセージの適合度が、各パッセージの処理対象病名の出現頻度と、関連病名の出現頻度を処理対象病名と各関連病名との関連度で重み付けしたものが加算されているため、各出現頻度に応じたものとすることができる。
【００９１】
（４）又、本実施形態では、医療情報抽出装置１のＣＰＵ１０は、処理対象病名と関連項目の項目リスト内の各項目との第１相関度（相関度R(d_T,w)）と、処理対象病名の関連病名と関連項目の項目リスト内の各項目との第２相関度（相関度R(r_i,w)）を求めるようにした。そして、ＣＰＵ１０は、さらに、第２相関度（相関度R(r_i,w)）を、前記処理対象病名と各関連病名との関連度で重み付けしたものを第１相関度（相関度R(d_T,w)）に加算することにより、関連項目の項目リスト内の各項目と処理対象病名との相関度を算出するようにした。この結果、処理対象病名と前記関連項目の項目リスト内の各項目との第１相関度と、処理対象病名の関連病名と前記関連項目の項目リスト内の各項目との第２相関度の両相関度が考慮され相関度を得ることができる。
【００９２】
（５）本実施形態は、ＣＰＵ１０が処理対象病名が予め与えられている病名間の階層構造において複数のノードに分類されている場合、それぞれのノードが前記関連項目のうちのどの観点により分類されているかに基づき観点が一致する項目リスト内の各項目との相関度を算出する場合のみ、同じノードに分類されている病名を関連病名として用いる。この結果、病名のそれぞれの分類箇所が、「原因」による分類であるか、又は、「症状」による分類で有るかを利用して、他の病名から概念関係を抽出する際に利用できる。
【００９３】
（６）本実施形態の医療情報抽出装置１は、ＣＰＵ１０が複数のノードに分類されている病名を含むノードに対し、このノードに分類されている各病名について求めた関連項目の項目リストの内、どの項目リストが各病名間で最も似通っているかに基づいて、このノードが分類されている観点を推定するようにした。この結果、このように概念関係抽出手段がノードが分類されている観点を推定することによって、病名のそれぞれの分類箇所が、「原因」による分類であるか、又は、「症状」による分類で有るかを利用して、他の病名から概念関係を抽出する際に利用できる。
【００９４】
（７）本実施形態の医療情報抽出方法は、処理対象病名と、病名間の階層構造をなす関連病名とをキーワードとして検索が行われた対象文書を取得するし、前記処理対象病名とその関連病名との間の関係を利用して前記対象文書から該処理対象病名と関連のあるパッセージを抽出する。そして、本実施形態の医療情報抽出方法は、前記抽出されたパッセージを含む対象文書集合を元にして、関連項目の項目リスト内の各項目と処理対象病名との相関度を、対象病名と関連病名との関係を利用して算出して概念関係を抽出する。この結果、病名の階層構造を利用して個々の病名に関する情報を統計的に安定して推定することができる。又、個々の病名に関しての文書だけでなく、関連した文書の情報を合わせて用いることが可能となり、統計的な情報の推定が、より安定的に行うことができる。
【００９５】
（８）又、本実施形態の医療情報抽出方法は、前記パッセージを抽出する段階が、前記処理対象病名とその関連病名との間の関係を利用して前記対象文書から該処理対象病名と関連のあるパッセージを、処理対象病名に対するパッセージの適合度を算出して、該適合度に基づいて抽出する。この結果、対象文書から該処理対象病名と関連のあるパッセージが、パッセージの適合度という客観的な数値に基づいて抽出できるため、的確に対象文書から該処理対象病名と関連のあるパッセージを抽出することができる。
【００９６】
（９）又、本実施形態の医療情報抽出プログラムは、パーソナルコンピュータのＣＰＵ１０に、処理対象病名と、病名間の階層構造をなす関連病名とをキーワードとして検索が行われた対象文書を取得する文書取得手段として機能させる。又、前記プログラムは、ＣＰＵ１０に処理対象病名とその関連病名との間の関係を利用して前記対象文書から該処理対象病名と関連のあるパッセージを抽出するパッセージ抽出手段として機能させる。さらに、前記プログラムは、ＣＰＵ１０に、抽出したパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を、対象病名と関連病名との関係を利用して算出する概念関係抽出手段として機能させる。この結果、このプログラムがＣＰＵ１０に実行されることにより、病名の階層構造を利用して個々の病名に関する情報を統計的に安定して推定することができ、又、個々の病名に関しての文書だけでなく、関連した文書の情報を合わせて用いることが可能となり、統計的な情報の推定が、より安定的に行うことができる。
【００９７】
（１０）又、本実施形態の医療情報抽出プログラムは、ＣＰＵ１０に、処理対象病名とその関連病名との間の関係を利用して対象文書から該処理対象病名と関連のあるパッセージを、処理対象病名に対するパッセージの適合度を算出して、該適合度に基づいて抽出するように機能させる。この結果、このプログラムがＣＰＵ１０に実行されることにより、対象文書から該処理対象病名と関連のあるパッセージが、パッセージの適合度という客観的な数値に基づいて抽出できるため、的確に対象文書から該処理対象病名と関連のあるパッセージを抽出することができる。
【００９８】
（１１）又、本実施形態の医療情報抽出プログラムは、ＣＰＵ１０に、各パッセージの処理対象病名の出現頻度に対して、関連病名の出現頻度を処理対象病名と各関連病名との関連度で重み付けしたものを加算することによりパッセージの適合度を求めるように機能させる。この結果、このプログラムがＣＰＵ１０に実行されることにより、パッセージの適合度が、各パッセージの処理対象病名の出現頻度と、関連病名の出現頻度を処理対象病名と各関連病名との関連度で重み付けしたものが加算されているため、前記各出現頻度に応じたものとすることができる。
【００９９】
なお、本発明の実施形態は以下のように変更してもよい。
○ 前記実施形態で説明した「パッセージの適合度の算出方法」の代わりに下記のようにパッセージの適合度の算出を行ってもよい。
【０１００】
すなわち、ＣＰＵ１０は、対象文書集合から、処理対象病名ｄ_ｒに対してＭ個の共起語{c₁(d_T),c₂(d_T)……,c_M(d_T)}と共起度{C₁(d_T),C₂(d_T)……,C_M(d_T)}を予め求めておく。又、各関連病名{r₁,r₂,……,r_L}に対しても同様にＭ個の共起語{c₁(r_i),c₂(r_i)……,c_M(r_i)}と共起度{C₁(r_i),C₂(r_i)……,C_M(r_i)}(i＝1,……Ｌ)を、適合度の算出の前に予め求めておく。
【０１０１】
ＣＰＵ１０は、各病名について、パッセージにおける共起語の出現頻度を共起度で重みつけしながら加算することにより、個々の病名に対するパッセージの適合度が得られる。これらをさらに、処理対象病名と関連病名との関連度で重み付けしながら加算することにより、処理対象病名ｄＴに対するパッセージの適合度とする（下記式（２）参照）。
【０１０２】
【数１１】

なお、この式には処理対象病名ｄＴの出現頻度P(d_T,p_k)と各関連病名ｒ_ｉの出現頻度P(r_i、p_k)が直接含まれていないが、病名ｄの共起語リスト{c₁(d),c₂(d)……,c_M(d)}の中にｄ自身が含まれることを許せば上記式（２）でのパッセージの適合度Ｆ（ｄ_Ｔ，ｐ_ｋ）の定義を包含することになる。又、共起語リストに自陣を含めない場合には、Ｆ'（ｄ_Ｔ，ｐ_ｋ）とＦ（ｄ_Ｔ，ｐ_ｋ）の和をパッセージ適合度とすればよい。
【０１０３】
そして、ＣＰＵ１０はこの適合度が閾値以上のパッセージのみを抽出する。ここでは、ＣＰＵ１０は共起語取得手段に相当する。
このようにすると、パッセージの適合度が、各病名の共起語の共起度と出現頻度に応じたものにすることができる。
【図面の簡単な説明】
【０１０４】
【図１】医療情報抽出装置１の概略ブロック図。
【図２】ＣＰＵ１０が実行する医療情報抽出プログラムのフローチャート。
【図３】検索によって得られた対象文書集合の説明図。
【図４】（ａ）、（ｂ）はMEDISのICD10の国際疾病分類第１０版の分類例の説明図。
【図５】（ａ）、（ｂ）はMEDISのICD10の国際疾病分類第１０版の分類例の説明図。
【符号の説明】
【０１０５】
１…医療情報抽出装置、１０…ＣＰＵ（文書取得手段、パッセージ抽出手段、概念関係抽出手段、共起語取得手段）。

【特許請求の範囲】
【請求項１】
病名と、該病名と関連する関連項目との関係を自由書式の文書から抽出する医療情報抽出装置において、
処理対象病名と、病名間の階層構造をなす関連病名とをキーワードとして検索が行われた対象文書を取得する文書取得手段と、
前記処理対象病名とその関連病名との間の関係を利用して前記対象文書から該処理対象病名と関連のあるパッセージを抽出するパッセージ抽出手段と、
前記パッセージ抽出手段が抽出したパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を、対象病名と関連病名との関係を利用して算出する概念関係抽出手段とを備えたことを特徴とする医療情報抽出装置。
【請求項２】
前記パッセージ抽出手段が、前記パッセージを、処理対象病名に対するパッセージの適合度を算出して、該適合度に基づいて抽出することを特徴とする請求項１に記載の医療情報抽出装置。
【請求項３】
前記パッセージ抽出手段が、各パッセージの処理対象病名の出現頻度に対して、関連病名の出現頻度を処理対象病名と各関連病名との関連度で重み付けしたものを加算することによりパッセージの適合度を求めることを特徴とする請求項２に記載の医療情報抽出装置。
【請求項４】
前記処理対象病名と各関連病名に関してそれぞれ対象文書から共起語と該共起語の共起度を求める共起語取得手段を有し、
前記パッセージ抽出手段が、各パッセージの適合度を求める際に、各病名の共起語の共起度と出現頻度とをさらに用いることを特徴とする請求項２又は請求項３に記載の医療情報抽出装置。
【請求項５】
前記概念関係抽出手段が、処理対象病名と前記関連項目の項目リスト内の各項目との相関度（以下、第１相関度という）と、処理対象病名の関連病名と前記関連項目の項目リスト内の各項目との相関度（以下、第２相関度という）を求め、さらに、前記第２相関度を、前記処理対象病名と各関連病名との関連度で重み付けしたものを前記第１相関度に加算することにより、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出することを特徴とする請求項１乃至請求項４のうちいずれか１項に記載の医療情報抽出装置。
【請求項６】
前記概念関係抽出手段が、処理対象病名が予め与えられている病名間の階層構造において複数のノードに分類されている場合には、それぞれのノードが前記関連項目のうちのどの観点により分類されているかに基づいて、観点が一致する項目リスト内の各項目との相関度を算出する場合のみ、同じノードに分類されている病名を関連病名として用いることを特徴とする請求項１乃至請求項５のうちいずれか１項に記載の医療情報抽出装置。
【請求項７】
前記概念関係抽出手段が、複数のノードに分類されている病名を含むノードに対し、このノードに分類されている各病名について求めた関連項目の項目リスト内の各項目との相関度の内、どの項目リスト内の各項目との相関度が各病名間で最も似通っているかに基づいて、このノードが分類されている観点を推定することを特徴とする請求項６に記載の医療情報抽出装置。
【請求項８】
コンピュータに、
病名と、該病名と関連する関連項目との関係を自由書式の文書から抽出する際に、処理対象病名と、病名間の階層構造をなす関連病名とをキーワードとして検索が行われた対象文書を取得する文書取得手段、
前記処理対象病名とその関連病名との間の関係を利用して前記対象文書から該処理対象病名と関連のあるパッセージを抽出するパッセージ抽出手段、
前記パッセージ抽出手段が抽出したパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を、対象病名と関連病名との関係を利用して算出する概念関係抽出手段として、機能させるためのプログラム。

【図１】