説明

医用同義語辞書作成装置および医用同義語辞書作成方法

【課題】複数種類の疾病名が混在する医用文書に対して同義語となるキーワードの組を正しく、かつ小さい処理負荷で抽出する同義語辞書作成装置を提供する。
【解決手段】読影レポートからキーワードを取得するキーワード取得部104と、取得したキーワードと共起する疾病名を取得する共起疾病名取得部105と、取得したキーワードから一組のキーワード対を選択するキーワード対選択部106と、(i)取得した疾病名の中から、キーワード対を構成する各キーワードと共起する疾病名を選択し、(ii)選択した疾病名からキーワード対を構成するキーワード間で共通する疾病名を抽出し、(iii)抽出した疾病名を含む読影レポートを、症例データベース101に記憶されている症例データの中から抽出する共通疾病名文書抽出部107と、抽出した読影レポートを用いて、キーワード対が同義語であるか否かを判定する同義語判定部108とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医用文書における同義語辞書を自動的に作成する医用同義語辞書作成装置および医用同義語辞書作成方法に関する。
【背景技術】
【0002】
近年、医療分野ではカルテや読影レポートのデジタル化が進み、医療従事者が大量の診断データを共有することが容易になっている。これらの医用文書は、共通のIDやキーワードで互いに紐付けされて保管されており、保管されている過去の文書の有効な二次利用が求められている。
【0003】
これらの医用文書の有効な二次利用の一つとしては、キーワードによる文書検索が挙げられる。一般的なキーワード検索では、検索キーワードと同じキーワードを持つ読影レポートを検索結果として出力するが、同じ意味を持ちながら異なる表記がされているレポートについては検索結果から外れてしまうという問題が存在する。そのため、より汎用性の高いテキスト検索を実現するためには、同じ意味を持つキーワード同士を結びつける同義語辞書の作成が必須になる。
【0004】
このような同義語辞書を作成する従来技術として、特許文献1では、類似文書(例えば共通の疾病名を持つ文書)を選択し、選択文書内のキーワード同士を比較することで、同義語か否か判定する方法が提案されている。この方法では、「類似文書(同一の疾病名について記述された文書)では、ほぼ同一のキーワードが用いられる一方、異なるキーワードについては、それらが同一の概念を表す場合が多い」という医用文書の性質を利用しており、類似文書内で利用されるキーワード間の同義語辞書を効率的に作成することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−128968号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1に記載の方法では、同一の疾病名について記述された医用文書からキーワード間の同義語関係(キーワードが同義語か否か)を判定している。このため、複数種類の疾病名が混在する医用文書から抽出したキーワード間の同義語関係を正しく判定できないという課題がある。
【0007】
例えば、医用文書のデータベースに、疾病名A(例えば肝細胞癌)と疾病名B(例えば肝転移)の疾病名が付与された医用文書がそれぞれ格納されており、同文書内のキーワード1(低吸収領域)とキーワード2(washout領域)が共に疾病名A(肝細胞癌)と疾病名B(肝転移)と共起しているとする。この時、従来手法による同義語処理では、肝細胞癌の文書集合を用いて算出されたキーワード1(低吸収領域)とキーワード2(washout領域)の同義語関係と、肝転移の文書集合から算出されたキーワード1(低吸収領域)とキーワード2(washout領域)の同義語関係がそれぞれ抽出される。この時、各疾病名を含む文章集合におけるキーワード1(低吸収領域)の出現頻度とキーワード2(washout領域)の出現頻度の偏りが大きい場合には、キーワード1(低吸収領域)の出現頻度とキーワード2(washout領域)の出現頻度の合計が小さい方の疾病名(例えば、肝転移)の文書集合から算出された同義語評価の信頼性が低下する。このため、キーワード1(低吸収領域)とキーワード2(washout領域)が、一方の疾病名の文書集合では同義語と判定され、他方の疾病名に対しては同義語と判定されない、という矛盾した同義語判定がなされる可能性がある。すなわち、同じキーワード対に対して同義語関係が一意に求まらないという問題が生じる。
【0008】
このような問題は、キーワード間の同義語関係を疾病名が同一の文書単位で算出していることに起因している。一般的な医用文書には、特定の疾病名に限定して用いられるキーワードと、複数の疾病名に跨って用いられるキーワードとが混在する。このため、正しい同義語関係を一意に算出するためには、個々のキーワード対ごとに、同義語関係の算出に用いる文書を動的に選択する必要がある。
【0009】
複数の疾病名に跨って用いられるキーワードについて同義語関係を求めるために、全ての医用文書を対象としてキーワード対の同義語関係を求めることも考えられるが、この場合には同義語関係の算出の処理負荷が大きいという問題がある。
【0010】
そこで本発明は、上記課題を解決するためになされたものであり、複数種類の疾病名が混在する医用文書に対して同義語となるキーワードの組を正しく、かつ小さい処理負荷で抽出する、医用同義語辞書作成装置および医用同義語辞書作成方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記課題を解決するために、本発明のある局面に係る医用同義語辞書作成装置は、同義語であるキーワード対を含む医用同義語辞書を作成する医用同義語辞書作成装置であって、医用画像と当該医用画像を読影した結果が記載された文書データである読影レポートとの組である症例データが記憶されている症例データベースから、読影レポートを取得する読影レポート取得部と、医用画像の特徴を示す文字列からなる読影項目または医用画像の診断結果を示す文字列からなる疾病名であるキーワードが登録されているキーワード辞書データを参照して、前記読影レポート取得部が取得した読影レポートから前記キーワード辞書データに登録されているキーワードを取得するキーワード取得部と、前記キーワード取得部が取得したキーワードと共起する疾病名を取得する共起疾病名取得部と、前記キーワード取得部が取得したキーワードから一組のキーワード対を選択するキーワード対選択部と、(i)前記共起疾病名取得部が取得した疾病名の中から、前記キーワード対を構成する各キーワードと共起する疾病名を選択し、(ii)選択した疾病名から前記キーワード対を構成するキーワード間で共通する疾病名を抽出し、(iii)抽出した疾病名を含む読影レポートを、前記症例データベースに記憶されている症例データの中から抽出する共通疾病名文書抽出部と、前記共通疾病名文書抽出部が抽出した読影レポートを用いて、前記キーワード対が同義語であるか否かを判定する同義語判定部と、前記同義語判定部が同義語であると判定したキーワード対を、医用同義語辞書に含まれる同義語として出力する出力部とを備える。
【0012】
この構成によると、キーワード対を構成するキーワード間で、そのキーワードと共起する疾病名が共通する読影レポートを用いて、キーワード対が同義語か否かを判定する。このため、キーワード対ごとに共起する症例名が共通する読影レポートを動的に抽出することができる。よって、複数種類の疾病名が混在する医用文書に対して同義語となるキーワードの組を正しく、かつ小さい処理負荷で抽出することができ、正しい同義語辞書を作成することができる。
【0013】
なお、本発明は、このような特徴的な処理部を備える医用同義語辞書作成装置として実現することができるだけでなく、医用同義語辞書作成装置に含まれる特徴的な処理部が実行する処理をステップとする医用同義語辞書作成方法として実現することができる。また、医用同義語辞書作成装置が備える特徴的な処理部としてコンピュータを機能させるためのプログラムとして実現することもできる。また、医用同義語辞書作成方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムを、CD−ROM(Compact Disc−Read Only Memory)等のコンピュータ読取可能な不揮発性の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
【発明の効果】
【0014】
本発明によると、複数種類の疾病名が混在する医用文書に対して、同義語となるキーワードの組を正しく、かつ小さい処理負荷で抽出することができる。
【図面の簡単な説明】
【0015】
【図1】本発明の実施の形態1における、医用同義語辞書作成装置の特徴的な機能構成を示すブロック図
【図2】本発明の実施の形態1における、症例データベースに記憶されている症例データの一例を示す図
【図3】本発明の実施の形態1における、キーワード辞書の一例を示す図
【図4】本発明の実施の形態1における、医用同義語辞書作成装置の詳細な処理の流れを示すフローチャート
【図5】本発明の実施の形態1における、キーワードと疾病名の共起関係を格納したデータの一例を示す図
【図6】本発明の実施の形態1における、共通疾病名文書抽出部の処理の概念図
【図7】本発明の実施の形態1における、キーワードベクトルの概念図
【図8】本発明の実施の形態2における、医用同義語辞書作成装置の特徴的な機能構成を示すブロック図
【図9】本発明の実施の形態2における、初診文書選択部の詳細な構成を示すブロック図
【図10】本発明の実施の形態2における、医用同義語辞書作成装置が実行する全体的な処理の流れを示すフローチャート
【図11】本発明の実施の形態2における、記入時刻が異なる読影レポートの一例を示す図
【図12】本発明の実施の形態2における、初診文書選択処理(図10のステップS201)の詳細な処理の流れの一例を示すフローチャート
【図13】本発明の実施の形態3における、医用同義語辞書作成装置の特徴的な機能構成を示すブロック図
【図14】本発明の実施の形態3における、医用同義語辞書作成装置が実行する全体的な処理の流れを示すフローチャート
【図15】医用同義語辞書データベースを利用したシステムの構成を示す図
【図16】本発明の実施の形態1〜3に係る医用同義語辞書作成装置を実現するコンピュータシステムのハードウェア構成を示すブロック図
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも本発明の好ましい一具体例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。本発明は、特許請求の範囲だけによって限定される。よって、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、本発明の課題を達成するのに必ずしも必要ではないが、より好ましい形態を構成するものとして説明される。
【0017】
本発明の実施の形態に係る医用同義語辞書作成装置は、電子カルテまたは医用画像の読影レポート等、医用文書に記述されたキーワードに関する同義語辞書を作成する装置である。
【0018】
本発明の一実施態様に係る医用同義語辞書作成装置は、同義語であるキーワード対を含む医用同義語辞書を作成する医用同義語辞書作成装置であって、医用画像と当該医用画像を読影した結果が記載された文書データである読影レポートとの組である症例データが記憶されている症例データベースから、読影レポートを取得する読影レポート取得部と、医用画像の特徴を示す文字列からなる読影項目または医用画像の診断結果を示す文字列からなる疾病名であるキーワードが登録されているキーワード辞書データを参照して、前記読影レポート取得部が取得した読影レポートから前記キーワード辞書データに登録されているキーワードを取得するキーワード取得部と、前記キーワード取得部が取得したキーワードと共起する疾病名を取得する共起疾病名取得部と、前記キーワード取得部が取得したキーワードから一組のキーワード対を選択するキーワード対選択部と、(i)前記共起疾病名取得部が取得した疾病名の中から、前記キーワード対を構成する各キーワードと共起する疾病名を選択し、(ii)選択した疾病名から前記キーワード対を構成するキーワード間で共通する疾病名を抽出し、(iii)抽出した疾病名を含む読影レポートを、前記症例データベースに記憶されている症例データの中から抽出する共通疾病名文書抽出部と、前記共通疾病名文書抽出部が抽出した読影レポートを用いて、前記キーワード対が同義語であるか否かを判定する同義語判定部と、前記同義語判定部が同義語であると判定したキーワード対を、医用同義語辞書に含まれる同義語として出力する出力部とを備える。
【0019】
この構成によると、キーワード対を構成するキーワード間で、そのキーワードと共起する疾病名が共通する読影レポートを用いて、キーワード対が同義語か否かを判定する。このため、キーワード対ごとに共起する症例名が共通する読影レポートを動的に抽出することができる。よって、複数種類の疾病名が混在する医用文書に対して同義語となるキーワードの組を正しく、かつ小さい処理負荷で抽出することができ、正しい同義語辞書を作成することができる。
【0020】
好ましくは、上述の医用同義語辞書作成装置は、さらに、前記読影レポート取得部が取得した読影レポートから、初期診断に関する記述の読影レポートを選択する初診文書選択部を備え、前記キーワード取得部は、前記キーワード辞書データを参照して、前記初診文書選択部が選択した読影レポートから前記キーワード辞書データに登録されているキーワードを取得する。
【0021】
この構成によると、同じ患者に対して複数回の診断を行った結果の読影レポートが含まれる場合であっても、初期診断に関する記述の読影レポートのみを用いて医用同義語辞書を作成することができる。このため、精度の高い同義語辞書を作成することが可能になる。
【0022】
具体的には、前記初診文書選択部は、(i)前記読影レポート取得部が取得した読影レポートを患者ごとに分類し、(ii)患者ごとに、分類された読影レポートの集合の中から読影者による記入時刻が最も古い読影レポートのみを選択する。
【0023】
また、前記初診文書選択部は、(i)前記読影レポート取得部が取得した読影レポートを患者ごとに分類し、(ii)患者ごとに、分類された読影レポートの集合の中から読影者による記入時刻が最も古い第1読影レポートを選択し、(iii)患者ごとに、分類された読影レポートの集合の中から、前記第1読影レポートには含まれないキーワードを含む文章を選択し、前記キーワード取得部は、前記キーワード辞書データを参照して、前記初診文書選択部が選択した前記第1読影レポートおよびキーワードから前記キーワード辞書データに登録されているキーワードを取得しても良い。
【0024】
この構成によると、初期診断の読影レポートに加え、2回目以降の診断の読影レポートの中から経時診断以外の文章を用いて医用同義語辞書を作成することができる。
【0025】
好ましくは、前記キーワード対選択部は、読影項目同士または疾病名同士のキーワード対のみを選択する。
【0026】
疾病名は複数の診断項目の上位概念であるため、疾病名と診断項目とは直接同義語にはならない。そのため、疾病名と診断項目の対を選択しないことで、医用辞書作成のための処理時間を低減することができる。
【0027】
また、上述の医用同義語辞書作成装置は、さらに、前記出力部が出力するキーワード対を、前記医用同義語辞書に含まれる同義語として記憶する記憶部を備えていても良い。
【0028】
また、上述の医用同義語辞書作成装置は、さらに、前記症例データベースに記憶されている症例データが更新されているか否かを判断し、前記症例データが更新されていると判断した場合に、前記読影レポート取得部、前記キーワード取得部、前記共起疾病名取得部、前記キーワード対選択部、前記共通疾病名文書抽出部、前記同義語判定部および前記出力部を動作させ、前記医用同義語辞書に含まれる同義語を更新する更新制御部を備えていても良い。
【0029】
この構成によると、症例データベースに記憶されている症例データが更新された場合であっても、医用同義語辞書を自動的に更新することができるため、より汎用性の高い医用同義語辞書を用いた検索が可能になる。
【0030】
なお、前記更新制御部は、前記症例データが更新されていると判断した場合に、前記読影レポート取得部、前記キーワード取得部、前記共起疾病名取得部、前記キーワード対選択部、前記共通疾病名文書抽出部、前記同義語判定部および前記出力部を動作させることにより、前記医用同義語辞書に含まれる全てのキーワードについて同義語を更新しても良い。
【0031】
また、前記更新制御部は、(i)前記症例データベースに記憶されている前記症例データにおける各キーワードの出現頻度を算出し、(ii)前記症例データが更新されていると判断した場合に、前記読影レポート取得部、前記キーワード取得部、前記共起疾病名取得部、前記キーワード対選択部、前記共通疾病名文書抽出部、前記同義語判定部および前記出力部を動作させることにより、出現頻度が第1閾値以下のキーワードについてのみ同義語を更新しても良い。
【0032】
高頻度のキーワードが新しく追加された場合は、仮に同義語か否かの判定をし直したとしても結果は変わらないため、医用同義語辞書の更新を行う必要性が低い。一方、出現頻度が少ないキーワードに対しては、同義語関係の不確実性が高いため、医用同義語辞書を更新する必要性が高い。このように、症例データベース内のキーワード頻度に応じて同義語辞書の更新の可否を判定することにより、更新時の計算量を低減できるため、更新時間を短縮することができる。
【0033】
また、前記同義語判定部は、前記キーワード対を構成する各キーワードについて、前記共通疾病名文書抽出部が抽出した読影レポート中の当該キーワードを含む文章中の当該キーワード以外のキーワードの出現頻度をベクトルの要素とするキーワードベクトルを作成し、作成したキーワードベクトル間の距離が第2閾値以下であれば、前記キーワード対が同義語であると判定しても良い。
【0034】
本発明の他の実施態様に係る医用同義語辞書作成方法は、コンピュータが、同義語であるキーワード対を含む医用同義語辞書を作成する医用同義語辞書作成方法であって、医用画像と当該医用画像を読影した結果が記載された文書データである読影レポートとの組である症例データが記憶されている症例データベースから、読影レポートを取得する読影レポート取得ステップと、医用画像の特徴を示す文字列からなる読影項目または医用画像の診断結果を示す文字列からなる疾病名であるキーワードが登録されているキーワード辞書データを参照して、前記読影レポート取得ステップで取得された読影レポートから前記キーワード辞書データに登録されているキーワードを取得するキーワード取得ステップと、前記キーワード取得ステップで取得されたキーワードと共起する疾病名を取得する共起疾病名取得ステップと、前記キーワード取得ステップで取得されたキーワードから一組のキーワード対を選択するキーワード対選択ステップと、(i)前記共起疾病名取得ステップで取得された疾病名の中から、前記キーワード対を構成する各キーワードと共起する疾病名を選択し、(ii)選択した疾病名から前記キーワード対を構成するキーワード間で共通する疾病名を抽出し、(iii)抽出した疾病名を含む読影レポートを、前記症例データベースに記憶されている症例データの中から抽出する共通疾病名文書抽出ステップと、前記共通疾病名文書抽出ステップで抽出された読影レポートを用いて、前記キーワード対が同義語であるか否かを判定する同義語判定ステップと、前記同義語判定ステップで同義語であると判定されたキーワード対を、医用同義語辞書に含まれる同義語として出力する出力ステップとを含む。
【0035】
本発明のさらに他の実施態様に係るプログラムは、上述の医用同義語辞書作成方法に含まれる各ステップをコンピュータに実行させるためのプログラムである。
【0036】
(実施の形態1)
以下の各実施の形態で用いる用語を説明する。
【0037】
「キーワード」とは、以下に述べる「読影項目」と「疾病名」の何れかを示す。
【0038】
「読影項目」とは、本実施の形態では、「読影医が、読影対象の画像の特徴を言語化した文字列」と定義する。使用する医用画像撮影装置、対象臓器等で使用される用語はほぼ限定されるが、例えば、分葉状、棘状、不整形、境界明瞭、輪郭不明瞭、低/高濃度、低/高吸収、スリガラス状、石灰化、モザイク状、濃染、低/高エコー、毛羽立ち、等が挙げられる。
【0039】
「疾病名」とは、読影者が医用画像やその他の検査を基に診断した疾病名のことである。例えば、肝細胞癌、嚢胞、血管腫、等が挙げられる。
【0040】
(実施の形態1:構成の説明)
以下、本発明の実施の形態1に係る医用同義語辞書作成装置について、図面を用いて詳細に説明する。
【0041】
本実施の形態では、医用画像の読影レポートに記述されたキーワードに関する同義語辞書を作成する場合を例に説明する。
【0042】
図1は、本発明の実施の形態に係る医用同義語辞書作成装置100の特徴的な機能構成を示すブロック図である。
【0043】
図1に示すように、医用同義語辞書作成装置100は、症例データベース101内に記憶されている読影レポートから抽出されるキーワードの同義語辞書である医用同義語辞書を作成する装置である。なお、本明細書中で同義語とは同一の意味の語に限定されず、類似の意味の語である類義語も含むものとする。つまり、本発明に係る医用同義語辞書作成装置は、医用類義語辞書作成装置としても利用可能である。
【0044】
医用同義語辞書作成装置100は、読影レポート取得部103、キーワード取得部104、共起疾病名取得部105、キーワード対選択部106、共通疾病名文書抽出部107、同義語判定部108、出力部110、および記憶部109を備える。医用同義語辞書作成装置100は、外部の症例データベース101、キーワード辞書102、および表示装置111に接続される。
【0045】
以下、図1に示した、症例データベース101、キーワード辞書102、および医用同義語辞書作成装置100の各構成要素の詳細について順に説明する。
【0046】
症例データベース101は、例えばハードディスク、メモリ等からなる記憶装置である。症例データベース101は、読影者に提示する読影対象の画像を示す医用画像データと、その医用画像データに対応する読影レポートとから構成される症例データを記憶しているデータベースである。ここで、医用画像データとは、画像診断のために用いられる画像データであり、電子媒体に格納された画像データを示す。また、読影レポートとは、医用画像データの読影結果に加え、画像診断後に行われる生検等の確定診断結果までを示す情報である。読影レポートは、文書データ(テキストデータ)である。生検とは、患部の一部を切り取って、顕微鏡などで調べる検査のことである。本明細書中では「画像データ」のことを単に「画像」と言う。
【0047】
図2は、症例データベース101に記憶されている症例データを構成する、医用画像20としてのCT(Computed Tomography)画像および読影レポート21の一例をそれぞれ示す図である。読影レポート21は、患者ID22、読影レポートID23、画像ID24、画像所見25、確定診断結果26、記入時刻27および検査項目28を含む。1つの症例データは同一の患者から作成される。
【0048】
患者ID22は、診断対象の患者を特定するための識別子である。読影レポートID23は、読影レポート21を識別するための識別子である。画像ID24は、医用画像20を識別するための識別子である。画像所見25は、画像ID24の医用画像20に対する診断結果を示す情報である。つまり、画像所見25は、病名を含む診断結果(読影結果)および診断理由(読影理由)を示す情報である。確定診断結果26は、読影レポートID23で示される患者の確定診断結果を示す。ここで確定診断結果とは、手術または生検で得られた試験体の顕微鏡による病理検査、またはその他様々な手段によって、対象の患者の真の状態が何であったのかを明らかにした診断結果である。記入時刻27は、読影レポート21が記入された時刻を示す情報である。検査項目28は、読影レポート21の検査項目を示す情報であり、例えばCTまたはMRI(Magnetic Resonance Imaging)などのモーダル情報が記入される。
【0049】
キーワード辞書102は、例えばハードディスク、メモリ等からなる記憶装置である。
【0050】
キーワード辞書102は、読影レポート21からの抽出対象となるキーワード(キーワード辞書データ)を記憶しているデータベースである。図3は、キーワード辞書102に記憶されているキーワードの一例を示す図である。図3に示すように、キーワード辞書102には、キーワード名30とキーワード属性31とがリスト形式で記憶されている。ここで、キーワード属性31とは、キーワード名30のキーワードが読影項目か疾病名かを示すデータである。例えば、濃染というキーワードのキーワード属性は読影項目である。
【0051】
読影レポート取得部103は、症例データベース101から、読影者が診断を行った読影レポート21を取得する。読影レポート取得部103は、取得した読影レポート21を、キーワード取得部104および共起疾病名取得部105に出力する。
【0052】
キーワード取得部104は、キーワード辞書102を参照することにより、読影レポート取得部103が取得した読影レポート21の中からキーワード辞書102に登録されているキーワードを取得し、取得したキーワードをリスト化してキーワード対選択部106に出力する。具体的なキーワード取得方法については後述する。
【0053】
共起疾病名取得部105は、読影レポート取得部103が取得した読影レポート21から、キーワード取得部104が取得したキーワードと共起する疾病名を取得し、共通疾病名文書抽出部107に出力する。
【0054】
キーワード対選択部106は、キーワード取得部104から取得したキーワードリストから未選択のキーワード対を選択し、選択したキーワード対を、共通疾病名文書抽出部107、同義語判定部108、および出力部110に出力する。
【0055】
共通疾病名文書抽出部107は、キーワード対選択部106から取得したキーワード対と、共起疾病名取得部105から取得した共起疾病名とを用いて、前記キーワード対の共起疾病名が共通する読影レポート21(共通する共起疾病名を含む読影レポート21)を抽出し、同義語判定部108に出力する。つまり、共通疾病名文書抽出部107は、(i)共起疾病名取得部105が取得した疾病名の中から、キーワード対を構成する各キーワードと共起する疾病名を選択し、(ii)選択した疾病名からキーワード対を構成するキーワード間で共通する疾病名を抽出し、(iii)抽出した疾病名を含む読影レポートを、症例データベース101に記憶されている症例データの中から抽出する。具体的な読影レポート抽出方法については後述する。
【0056】
同義語判定部108は、キーワード対選択部106から取得したキーワード対と、共通疾病名文書抽出部107から取得した読影レポート21とを用いて、前記キーワード対が同義語であるか否かの判定を行い、判定結果を出力部110に出力する。具体的な同義語判定方法については後述する。
【0057】
出力部110は、キーワード対選択部106から取得したキーワード対のうち、同義語判定部108で同義語と判定されたキーワード対を、医用同義語辞書に含まれる同義語として記憶部109に書き込む、または、表示装置111に表示する。
【0058】
次に、以上のように構成された医用同義語辞書作成装置100の動作について順に説明する。
【0059】
(実施の形態1:医用同義語辞書作成装置100の動作の説明)
図4は、医用同義語辞書作成装置100が実行する処理の全体的な流れを示すフローチャートである。以下、図4を用いて、医用同義語辞書作成装置100が実行する処理の全体的な流れについて説明する。
【0060】
まず、読影レポート取得部103は、症例データベース101から読影レポート21を取得し、キーワード取得部104および共起疾病名取得部105に出力する(ステップS101)。読影レポート21は、例えば、1週間単位などの固定期間ごとに取得してもよいし、ユーザが指定する任意のタイミングで取得してもよい。
【0061】
次に、キーワード取得部104は、キーワード辞書102を参照することにより、読影レポート取得部103から取得した読影レポート21の中からキーワードを取得し、取得したキーワードをリスト化してキーワード対選択部106に出力する(ステップS102)。特に、キーワード取得部104は、読影レポート21の画像所見25および確定診断結果26からキーワードを抽出する。
【0062】
キーワード抽出方法としては、例えば、読影レポート21の中から、キーワード辞書102に記憶されているキーワードと一致するキーワードを抽出すればよい。
【0063】
次に、共起疾病名取得部105は、読影レポート取得部103から取得した読影レポート21から、キーワード取得部104で取得したキーワードと共起する疾病名を取得し、共通疾病名文書抽出部107に出力する(ステップS103)。ここで、共起とは、同一文書内(本実施の形態では同一の読影レポート21内)に出現するという意味である。図5にキーワードと疾病名の共起関係を示すデータの一例を示す。共起する場合は○印を付し、共起しない場合は×印を付している。各キーワードは共起する疾病名と対応付けられた形で出力される。図5では、例えば、キーワード「腫瘤」と共起する疾病名は「肝細胞癌」、「肝転移」、「血管腫」および「嚢胞」であることが示されている。また、キーワード「washout領域」と共起する疾病名は「肝細胞癌」および「肝転移」であり、キーワード「washout領域」と疾病名「血管腫」および「嚢胞」とは共起しないことが示されている。
【0064】
次に、キーワード対選択部106は、キーワード取得部104から取得したキーワードリストから未選択のキーワード対を選択し、選択したキーワード対を共通疾病名文書抽出部107、同義語判定部108、および出力部110に出力する(ステップS104)。
【0065】
なお、キーワード対選択部106は、キーワード対を選択する際に、疾病名の対、および診断項目の対のみを選択してもよい。疾病名は複数の診断項目の上位概念であるため、疾病名と診断項目とは同義語関係にはならない。そのため、疾病名と診断項目の対を選択しないことで、医用辞書作成のための処理時間を低減することができる。
【0066】
次に、共通疾病名文書抽出部107は、キーワード対選択部106から取得したキーワード対と、共起疾病名取得部105から取得した、キーワード対を構成する各キーワードの共起疾病名とを用いて、前記キーワード対間で共起疾病名が共通する読影レポート21を、症例データベース101から抽出し、抽出した読影レポート21を同義語判定部108に出力する(ステップS105)。
【0067】
ここで、キーワード間の同義語関係を判定するために、共起疾病名が共通する読影レポート21を選択する理由について述べる。
【0068】
疾病名が共通する読影レポート21において同じ意味を持つキーワードは、異なる表記であっても、前後に出現するキーワードが類似する。何故なら、読影者によるキーワード表記の違いはあるが、疾病名の診断指針は当該分野において共通だからである。即ち、1つの疾病名が付与された読影レポート21内では、同義語判定を行うキーワードの前後に出現するキーワードの類似性を計ることで、同義語関係を評価することができる。
【0069】
しかし、読影レポートや電子カルテなどの医用データは、複数の疾病名が診断された読影レポート21の集合であるため、キーワードは複数の疾病名と共起することが一般的である。そのため、疾病名単位で同義語関係を判定すると、同じキーワード対に対して複数の同義語の組が作られ、作成された同義語関係に矛盾が生じた場合は、同義語関係を評価することができない。
【0070】
また、疾病名を無視して全ての読影レポート21を用いてキーワード間の同義語関係を判定する場合は、同義語関係は一意に求められるが、共起する疾病名が一部共通するキーワード対に対しては正しい判定を行うことができない。
【0071】
例えば、図5に示すように肝細胞癌、肝転移、血管腫、嚢胞の4つの疾病名と共起する「低吸収領域」というキーワードと、肝細胞癌および肝転移と共起する「washout領域」というキーワードは、画像診断上では同じ画像様態を示すため同義語と判断することができる。ここで、共通疾病名である肝細胞癌または肝転移の読影レポート21だけを用いれば、前後に出現するキーワードの類似性からキーワード対が同義語であると判定することができる。しかし、全読影レポート21(疾病名が肝細胞癌、肝転移、血管腫、嚢胞の読影レポート21)を用いた場合には、疾病名が血管腫または嚢胞の読影レポート21における「低吸収領域」の使われ方(前後に出現するキーワードの類似性)が疾病名が肝細胞癌または肝転移の読影レポート21の場合と大きく異なる。このため、肝細胞癌または肝転移の読影レポート21だけを用いて同義語であると判定されたキーワード対であっても同義語と判定されない。
【0072】
そこで、キーワード対ごとに共起疾病名が共通する読影レポート21を動的に選択できれば、キーワードの使われ方を比較することができ、すべてのキーワード対に対して、一意に、同義語関係を評価することができる。また、読影レポート21を動的に選択することにより、全ての読影レポート21を用いて同義語であるか否かを判定する場合に比べて、処理負荷を減らすことができる。
【0073】
具体的な文書抽出方法として、共通疾病名文書抽出部107は、共起疾病名取得部105から取得した各キーワードに対する共起疾病名の中から、キーワード対で共通する疾病名を算出し、算出された疾病名が付与された読影レポート21を、症例データベース101から抽出する。図6に共通疾病名文書抽出部107の処理の概念図を示す。キーワード対選択部106から取得したキーワード対が(腫瘤,低吸収領域)の場合、各キーワードの共起疾病名は、共に肝細胞癌、肝転移、血管腫、嚢胞となるため、共通疾病名文書抽出部107は、共通した共起疾病名である肝細胞癌、肝転移、血管腫、嚢胞が付与された読影レポート21を症例データベース101から抽出する。また、キーワード対選択部106から取得したキーワード対が(低吸収領域,washout領域)の場合、低吸収領域と共起する疾病名は肝細胞癌、肝転移、血管腫、嚢胞であり、washout領域と共起する疾病名は肝細胞癌と肝転移である。このため、共通疾病名文書抽出部107は、2つのキーワードに共通する共起疾病名である肝細胞癌と肝転移が付与された読影レポート21を、症例データベース101から抽出する。
【0074】
次に、同義語判定部108は、キーワード対選択部106から取得したキーワード対と、共通疾病名文書抽出部107から取得した読影レポート21を用いて、前記キーワード対に対する同義語判定を行い、判定結果を出力部110に出力する(ステップS106)。具体的には、同義語判定部108は、例えば、共通疾病名文書抽出部107から取得した読影レポート21において、判定対象となるキーワード対を構成する各キーワードの前後に出現するキーワード頻度の類似性に基づいて同義語か否かを判定すればよい。以下、キーワード対選択部106で「低吸収領域」と「washout領域」の2つのキーワードが選択された場合を例に、同義語判定部108の処理の一例を説明する。まず初めに、同義語判定部108は、共通疾病名文書抽出部107から取得した読影レポート21の画像所見25および確定診断結果26から、「低吸収領域」が含まれている画像所見25および確定診断結果26の各テキストデータを取得する。次に、同義語判定部108は、取得したテキストデータから「低吸収領域」を含む一文(文章)を選択する。同義語判定部108は、選択した一文から「低吸収領域」以外のキーワードを抽出し、図7に示すようなキーワードベクトルを作成する。ここで、ti(i=1〜n)はキーワードの出現頻度、nはキーワードの種類数であり、各キーワードの出現頻度がベクトルの要素である。次に、同義語判定部108は、「washout領域」に対するキーワードベクトルを、「低吸収領域」の場合と同様の手法で作成する。最後に、同義語判定部108は、作成された2つのキーワードベクトル間のコサイン距離を算出し、算出した距離が閾値以下であれば同義語であると判定し、閾値より大きければ同義語でないと判定する。このような同義語判定の詳細なアルゴリズムは、非特許文献:「山本,梅村,“辞書を用いない関連語リストの構築方法”,情報処理学会研究報告,vol.2002(20),pp.81−88,2002−03−04」に開示されている。
【0075】
次に、出力部110は、同義語判定部108で同義語と判定された場合に、キーワード対選択部106から取得したキーワード対を、医用同義語辞書に含まれる同義語として記憶部109へ書き込む(ステップS107)。これにより、記憶部109には複数の同義語を含む医用同義語辞書が記憶される。
【0076】
最後に、キーワード対選択部106は、ステップS103で全てのキーワード対を選択したか否かを判定し、選択されていないキーワード対がある場合にはステップS104に戻り、全てのキーワード対が選択されている場合には処理を終了する(ステップS108)。
【0077】
以上説明したように、図4に示すステップS101〜S108の処理を実行することにより、医用同義語辞書作成装置100は、キーワード対毎に共起する症例名が共通する読影レポート21を動的に選択し、複数種類の疾病名が混在する読影レポート21に対して同義語辞書を作成することができる。
【0078】
なお、症例データベース101、キーワード辞書102は、医用同義語辞書作成装置100に備えられていてもよい。
【0079】
また、症例データベース101、キーワード辞書102は、医用同義語辞書作成装置100とネットワークを介して接続されたサーバ上に備えられてもよい。
【0080】
また、読影レポート21は、医用画像20内に付属データとして含まれていてもよい。
【0081】
(従来手法との比較)
例えば肝細胞癌と診断された医用文書(読影レポート21)と、肝転移と診断された医用文書(読影レポート21)中に、それぞれキーワード「低吸収領域」および「washout領域」が含まれおり、これらのキーワード間の同義語関係を評価することを考える。特許文献1の手法では、肝細胞癌の文書集合を用いて算出された「低吸収領域」および「washout領域」の同義語関係と、肝転移の文書集合から算出された「低吸収領域」および「washout領域」の同義語関係がそれぞれ抽出される。この時、各疾病名を含む読影レポート21における「低吸収領域」の出現頻度と「washout領域」の出現頻度との偏りが大きい場合には、「低吸収領域」の出現頻度と「washout領域」の出現頻度の合計が小さい方の疾病名(例えば、肝転移)の文書集合から算出された同義語評価の信頼性が低下し、「低吸収領域」および「washout領域」が、一方の疾病名の文書集合では同義語と判定され、他方の疾病名に対しては同義語と判定されない、という矛盾した同義語判定がなされる可能性がある。
【0082】
しかし、本手法では、「低吸収領域」および「washout領域」の双方のキーワードと共起する疾病名を含む文書(読影レポート21)を選択するため、肝細胞癌と肝転移の両方の読影レポート21を用いて一意に同義語関係を求めることが可能になり、複数種類の疾病名が混在する医用文書に対しても、正しく同義語辞書を作成することができる。
【0083】
以上のように、本実施の形態に係る医用同義語辞書作成装置100は、キーワード対ごとに共起する症例名が共通する文書を動的に選択することにより、複数種類の疾病名が混在する医用文書に対しても正しく同義語辞書を作成することができる。
【0084】
(実施の形態2)
次に、本発明の実施の形態2に係る医用同義語辞書作成装置について説明する。
【0085】
図8に示す本実施の形態に係る医用同義語辞書作成装置200は、読影レポート取得部103から取得した読影レポート21に対して、医用同義語辞書作成に用いる文書を取捨選択する特徴を有する。
【0086】
症例データベース101には、同じ患者に対して複数回の診断を行った症例データが記憶されている場合がある。この場合には、初回の詳細な診断(以下、「初期診断」と言う。)が記載され、2回目以降は経時観察による診断(以下、「経時診断」と言う。)が主な記載内容になる。初期診断と経時診断では、診断結果が同じ疾病名であっても、表記体系が異なるという特徴がある。
【0087】
初期診断では、「高吸収領域が見られ、肝細胞癌を疑う」のように、疾病名(ここでは、「肝細胞癌」)とその診断理由となるキーワード(ここでは、「高吸収領域」)が記述されるが、経時診断では「前回と変わらず、肝細胞癌を疑う」のように、変化の無いキーワード(ここでは、「高吸収領域」)については記述されない。このため、初期診断の医用文書では同義語関係が特定されたキーワード(ここでは、「高吸収領域」)であっても、同一の患者について記述された経時診断の医用文書では同義語関係が不定となる。
【0088】
即ち、初期診断と経時診断が混在したデータを用いて同義語判定を行うと、本来同義語関係にあるキーワード対が、表記体系の違いによって「同義語ではない」と判定され、同義語判定の精度が低下するという問題が生じる。
【0089】
そこで本実施の形態における医用同義語辞書作成装置200は、読影レポート取得部103から取得した読影レポート21の中から初期診断の文書(読影レポート)を用いて医用同義語辞書を作成し、記憶部109に記憶する。
【0090】
これにより、症例データベース101に同じ患者に対して複数回の診断を行ったデータが含まれる場合であっても、精度の高い同義語辞書を作成することが可能になる。
【0091】
以下、初めに図8を参照しながら、医用同義語辞書作成装置200の各構成について順に説明する。
【0092】
(実施の形態2:構成の説明)
図8は、本発明の実施の形態2に係る医用同義語辞書作成装置200の特徴的な機能構成を示すブロック図である。
【0093】
図8において、図1と同じ構成要素については同じ符号を付し、説明を繰り返さない。図8に示す医用同義語辞書作成装置200が図1に示す医用同義語辞書作成装置100と相違する点は、読影レポート取得部103から取得した読影レポート21から、初期診断の文書を選択する初診文書選択部201を有する点である。また、キーワード取得部104および共起疾病名取得部105の代わりに、キーワード取得部104Aおよび共起疾病名取得部105Aをそれぞれ有する点である。
【0094】
初診文書選択部201は、読影レポート取得部103から取得した読影レポート21から、初期診断の読影レポート21を選択し、選択した読影レポート21をキーワード取得部104Aおよび共起疾病名取得部105Aに出力する。具体的な選択方法については後述する。
【0095】
キーワード取得部104Aおよび共起疾病名取得部105Aは、キーワード取得部104および共起疾病名取得部105と異なり、初診文書選択部201から読影レポート21を取得するが、実行する処理はキーワード取得部104および共起疾病名取得部105とそれぞれ同様である。
【0096】
図9に初診文書選択部201の詳細な構成図を示す。
【0097】
初診文書選択部201は、患者IDリスト作成部2001と、患者ID選択部2002と、初期文書記録部2003と、初期キーワードリスト作成部2004と、差分キーワード抽出部2005、差分センテンス記録部2006とを備える。
【0098】
初診文書選択部201は、読影レポート取得部103から、各患者に対して初めて記入された読影レポート21を取得し、さらに、2回目以降に記入された読影レポート21の中から、初回に記入された読影レポート21に含まれない新しい記述部分を初診文書として取得する。
【0099】
患者IDリスト作成部2001は、読影レポート取得部103から取得した読影レポート21から患者ID22のリスト(患者IDリスト)を作成し、作成した患者IDリストと、患者IDリストに含まれる各患者ID22に紐付けられた読影レポート21を患者ID選択部2002に出力する。
【0100】
患者ID選択部2002は、患者IDリスト作成部2001から取得した患者IDリストから、1つの患者ID22を選択し、選択した患者ID22に紐付けられた読影レポート21を初期文書記録部2003、差分キーワード抽出部2005および差分センテンス記録部2006に出力する。つまり、一人の患者(1つの患者ID22)について、複数回の診断が行われている場合には複数の読影レポート21が初期文書記録部2003、差分キーワード抽出部2005および差分センテンス記録部2006に出力される。
【0101】
初期文書記録部2003は、患者ID選択部2002から取得した読影レポート21の中から、読影者による記入時刻27が最も古い読影レポート21のテキストデータ(画像所見25)を記録媒体(図示せず)に記録し、初期キーワードリスト作成部2004に出力する。
【0102】
初期キーワードリスト作成部2004は、キーワード辞書102を参照して、初期文書記録部2003から取得したテキストデータから、キーワード辞書102に登録されているキーワードを抽出し、抽出したキーワードをリスト化して差分キーワード抽出部2005に出力する。
【0103】
差分キーワード抽出部2005は、キーワード辞書102を参照して、患者ID選択部2002から取得した全てのテキストデータから、キーワード辞書102に登録されているキーワードを抽出する。差分キーワード抽出部2005は、患者ID選択部2002から取得した全てのテキストデータから抽出したキーワードの中から、初期キーワードリスト作成部2004から取得したキーワードリストに存在しないキーワードである差分キーワードを抽出し、差分センテンス記録部2006に出力する。
【0104】
差分センテンス記録部2006は、患者ID選択部2002から取得した全てのテキストデータから、差分キーワード抽出部2005から取得した差分キーワードが含まれる文章を抽出し、抽出した文章を記録媒体に記録し、抽出した文章と初期文書記録部2003で記録媒体に記録したテキストデータと合わせてキーワード取得部104Aおよび共起疾病名取得部105Aに出力する。
【0105】
以上の処理を行うことにより、初診文書選択部201は、読影レポート取得部103から、各患者に対して初めて記入された読影レポート21を取得し、さらに、2回目以降に記入された読影レポート21の中から、初回に記入された読影レポート21に含まれない新しい記述部分を初診文書として取得することができる。具体的な処理方法については後述する。
【0106】
次に、以上のように構成された医用同義語辞書作成装置200の動作について説明する。
【0107】
(実施の形態2:動作の説明)
図10は、医用同義語辞書作成装置200が実行する処理の全体的な流れを示すフローチャートである。図10において、図4と同じ処理については同じ符号を付し、説明を繰り返さない。また、図11に同じ患者(患者ID:10224)に対して異なる時期に診断された読影レポートの一例を示す。この患者は2回の診断を受けており、初期診断の読影レポート40と、2回目の診断の読影レポート41とが存在する。以下、図11の例を用いて、医用同義語辞書作成装置200が実行する処理の全体的な流れについて説明する。
【0108】
ステップS101の処理の後、初診文書選択部201は、読影レポート取得部103から取得した読影レポート21から、経時診断以外の文書を選択し、選択した文書をキーワード取得部104Aに出力する(ステップS201)。
【0109】
経時診断以外の文書の具体的な選択方法としては、初診文書選択部201は、例えば、取得した読影レポート21の中から同一の患者ID22を持つ読影レポート21を抽出し、その中から記入時刻27が最も古い読影レポート21を選択する。例えば、初診文書選択部201は、図11の読影レポート40のみを、経時診断以外の文書として選択すればよい。これにより、簡便に初期診断の文書だけ抽出することが可能になる。
【0110】
また、経時診断以外の文書の別の選択方法としては、初診文書選択部201は、例えば、取得した読影レポート21の中から同一の患者ID22を持つ読影レポート21(以下、データA)を抽出し、その中から記入時刻27が最も古い読影レポート21(以下、データB)を、経時診断以外の文書として選択する。初診文書選択部201は、さらに、データAの中からデータBには存在しないキーワードが出現した文章を、経時診断以外の文書として選択する。
【0111】
一人の患者に対して複数回の検査を行った場合、2回目以降の検査においても、新たな所見が加わる場合がある。この場合には、初回以外の検査であっても、初期診断のように疾病名とその診断理由となるキーワードが読影レポート21に記述される。同義語判定は、用いる文書数が多いほど正確な判定が行える為、初回以外の検査の読影レポート21からも、初期診断に該当する文書を選択できれば、より正確な同義語辞書を作成できる。
【0112】
図12にステップS201の処理の詳細なフローチャートの一例を示す。以下、図12を用いて具体的な文書選択方法について説明する。
【0113】
まず初めに、患者IDリスト作成部2001は、読影レポート取得部103から取得した読影レポートの患者IDリストを作成し、作成した患者IDリストを患者ID選択部2002に出力する(ステップS301)。
【0114】
次に、患者ID選択部2002は、患者IDリスト作成部2001から取得した患者IDリストの中から1つの患者IDを選択し、選択した患者IDを初期文書記録部2003に出力する(ステップS302)。
【0115】
次に、初期文書記録部2003は、患者ID選択部2002から取得した患者IDが付与されている読影レポートの中から後述する初期レポートを抽出し、抽出した初期レポートの読影レポートID23とテキストデータ(画像所見25)を記録媒体(図示せず)に記録し、抽出した読影レポートID23を初期キーワードリスト作成部2004に出力する(ステップS303)。初期レポートとは、図11の読影レポート40のように、同一の患者IDが付与されている読影レポートの中で、記入時刻が最も古い読影レポートのことである。具体的な初期レポートの抽出ためには、各読影レポートに付属している記入時刻27を比較すればよい。
【0116】
次に、初期キーワードリスト作成部2004は、初期文書記録部2003から取得した患者IDが付与されている読影レポートの中から後述する初期キーワードリストを作成し、作成した初期キーワードリストを差分キーワード抽出部2005に出力する(ステップS304)。初期キーワードリストとは、患者IDが付与されている読影レポートの中で、記入時刻が最も古い読影レポートから抽出したキーワードリストである。つまり、初期キーワードリスト作成部2004は、記入時刻が最も古い読影レポートの画像所見の中から、キーワード辞書102に記憶されているキーワードと一致するキーワードを抽出する。図11の例では、初期キーワードリスト作成部2004は、読影レポート40の画像所見からキーワードを抽出し、キーワードリストを作成する。この例では「動脈相」、「濃染」、「平衡相」、「washout」、「A癌」の各キーワードが抽出される。
【0117】
次に、初期文書記録部2003は、ステップS302で選択された患者IDが付与された読影レポートの中から1つのレポートを選択して、初期キーワードリスト作成部2004に出力する(ステップS305)。具体的には、初期文書記録部2003は、S302で選択されたのと同一の患者IDの読影レポートを記入時刻の古い順に選択する。図11の例では、読影レポート41が選択される。なお、記入時刻が最も古いレポートは、ステップS303で既に記録済みのため、ステップS305では選択しなくてもよい。
【0118】
次に、初期キーワードリスト作成部2004は、ステップS305で選択された読影レポートからキーワードを抽出してリスト化し、差分キーワード抽出部2005に出力する(ステップS306)。つまり、初期キーワードリスト作成部2004は、ステップS305で選択された読影レポートの画像所見の中から、キーワード辞書102に記憶されているキーワードと一致するキーワードを抽出する。図11の例では、初期キーワードリスト作成部2004は、読影レポート41の画像所見からキーワードを抽出し、キーワードリストを作成する。この例では、「A癌」、「平衡相」、「濃染」、「B癌」の各キーワードが抽出される。
【0119】
次に、差分キーワード抽出部2005は、ステップS306で作成されたキーワードリストに含まれるキーワードのうち、ステップS304で作成された初期キーワードリストに含まれないキーワードである差分キーワードを抽出する(ステップS307)。この時、差分キーワードが存在する場合は(ステップS308でYes)、差分キーワード抽出部2005は、差分キーワードを差分センテンス記録部2006に出力し、差分キーワードが存在しない場合は(ステップS308でNo)、ステップS310へ進む。
【0120】
差分キーワードは、初回の読影レポートとは異なる所見が記入された時に生成される。即ち、差分キーワードの有無により、2回目以降に記入された読影レポートに対しても、初期診断が含まれる文書か否かを判定することができる。
【0121】
図11の例では、差分キーワード42として「B癌」が抽出される。
【0122】
次に、差分センテンス記録部2006は、ステップS305で選択されたレポートIDと、そのレポートIDの読影レポートの中でステップS307で抽出された差分キーワードが含まれるセンテンス(文章)とを、初診文書選択部201の出力として記録媒体に記録する(ステップS309)。具体的には、レポートIDと該当するセンテンスのテキストデータを記録媒体に記録すればよい。また、レポートIDと該当するセンテンスの行番号の組を記録媒体に記録してもよい。図11の例では、ステップS308から受け取った差分キーワード42(B癌)を含む「新たに平衡相で濃染を認め、B癌を疑う」のセンテンスが初診文書選択部201の出力として記録媒体に記録される。これにより、医用同義語辞書作成装置200は、初期診断の読影レポート40に加え、2回目以降の診断の読影レポートの中から経時診断(読影レポート41の画像所見中の「A癌は変化無し」)以外のテキストを用いて同義語関係を評価することができる。
【0123】
次に、初期文書記録部2003は、ステップS305で同一患者IDの読影レポートが全て選択されたかを判定し、選択されている場合(ステップS310でYes)はステップS311へ進み、選択されていな場合(ステップS310でNo)はステップS305に戻る。
【0124】
最後に、患者ID選択部2002は、ステップS302で全ての患者IDが選択されたか否かを判定し、選択されていない場合(ステップS311でNo)はステップS302に戻り、選択されている場合(ステップS311でYes)は、処理を終了する。
【0125】
以上のステップS301からステップS311の処理を行うことにより、図10のステップS201において、初診文書選択部201は、読影レポート取得部103から取得した読影レポート21の中から経時診断以外の文書を選択することが可能になる。
【0126】
ステップS201の処理の後、医用同義語辞書作成装置200は、ステップS201で選択された文書を用いて、ステップS102からステップS108の処理を実行する。
【0127】
以上のステップS101からステップS108、およびステップS201の処理を行うことにより、本実施の形態に係る医用同義語辞書作成装置200は、同じ患者に対して複数回の診断を行った結果の医用文書(読影レポート)が含まれる場合であっても、初期診断に関する記述の医用文書のみを用いて医用同義語辞書を作成することができる。このため、精度の高い医用同義語辞書を作成することが可能になる。
【0128】
(実施の形態3)
次に、本発明の実施の形態3に係る医用同義語辞書作成装置300について説明する。
【0129】
図13に示す本実施の形態の医用同義語辞書作成装置300は、症例データベース101に記憶されている症例データが更新された際に、医用同義語辞書を自動的に更新する特徴を有する。
【0130】
上述の実施の形態1に係る医用同義語辞書作成装置100は、症例データベース101が与えられた際に医用同義語辞書を自動的に算出する。ここで、症例データベース101には日々の診断の結果が蓄積され、逐次更新される特徴を持つ。医用同義語辞書に存在しないキーワードを含んだ読影レポート21が、症例データベース101に新しく追加された場合、新たに追加されたキーワードに対しては、そのキーワードと同義語となるキーワードが存在するか否かについては決定されていない。このため、この新たに追加されたキーワードを使った汎用性の高い検索を行うことができないという問題が生じる。
【0131】
そこで本実施の形態における医用同義語辞書作成装置300は、症例データベース101に記憶されている症例データの更新に応じて、キーワードに関する医用同義語辞書を新たに作成し、記憶部109に記憶する。
【0132】
これにより、症例データベース101に記憶されている症例データが更新された場合であっても、汎用性の高い検索が可能になる。
【0133】
以下、初めに図13を参照しながら、医用同義語辞書作成装置300の各構成について順に説明する。
【0134】
(実施の形態3:構成の説明)
図13は、本発明の実施の形態3に係る医用同義語辞書作成装置300の特徴的な機能構成を示すブロック図である。
【0135】
図13において、図1と同じ構成要素については同じ符号を付し、説明を繰り返さない。図13に示す医用同義語辞書作成装置300が図1に示す医用同義語辞書作成装置100と相違する点は、症例データベース101から取得した症例から、同義語辞書を更新するか否かを判定する更新制御部301を有する点である。
【0136】
更新制御部301は、症例データベース101から取得した医用画像および症例データを用いて、医用同義語辞書を更新するか否かを判定する。ここで、医用同義語辞書を更新すると判定した場合は、更新制御部301は、読影レポート取得部103、キーワード取得部104、共起疾病名取得部105、キーワード対選択部106、共通疾病名文書抽出部107、同義語判定部108および出力部110を動作させ、医用同義語辞書に含まれる同義語を更新する。一方、医用同義語辞書を更新しないと判定した場合には、更新制御部301は、医用同義語辞書に含まれる同義語を更新しない。医用同義語辞書を更新するか否かの具体的な判定方法については後述する。
【0137】
次に、以上のように構成された医用同義語辞書作成装置300の動作について説明する。
【0138】
(実施の形態3:動作の説明)
図14は、医用同義語辞書作成装置300が実行する処理の全体的な流れを示すフローチャートである。図14において、図4と同じ処理については同じ符号を付し、説明を繰り返さない。
【0139】
更新制御部301は、症例データベース101から取得した症例データを用いて、同義語辞書を更新するか否かを判定する。ここで、医用同義語辞書を更新すると判定した場合は、ステップS101へ進む。一方、医用同義語辞書を更新しないと判定した場合には、処理を終了する(ステップS401)。
【0140】
具体的には、更新制御部301は、症例データベース101に記憶されている症例データが追加、削除または変更されることにより、症例データが更新された場合に、医用同義語辞書を更新すると判定し、症例データが更新されていない場合に、医用同義語辞書を更新しないと判定する。
【0141】
更新制御部301は、症例データが更新された場合に、全てのキーワードについて医用同義語辞書を更新しても良いし、症例データベース101に記憶されている全症例データにおける各キーワードの出現頻度をカウントし、出現頻度が閾値以下のキーワードに対してのみ、医用同義語辞書を更新してもよい。症例データベース101内に含まれるキーワードの出現頻度が十分に大きければ、既に十分な数のデータを用いて同義語関係が評価されたことになる。このような高頻度のキーワードが新しく追加された場合は、仮にキーワードベクトル間のコサイン距離の再計算を行ったとしても値は大きく変化しないため、医用同義語辞書の更新を行う必要性が低い。一方、出現頻度が少ないキーワードに対しては、同義語関係の不確実性が高いため、医用同義語辞書を更新する必要性が高い。このように、症例データベース内のキーワード頻度に応じて医用同義語辞書の更新の可否を判定することにより、更新時の計算量を低減できるため、更新時間を短縮することができる。
【0142】
以上のように、本実施の形態に係る医用同義語辞書作成装置300は、症例データベース101に記憶されている症例データが更新された場合であっても、医用同義語辞書を自動的に更新することができるため、より汎用性の高い医用同義語辞書を用いた検索が可能になる。
【0143】
以上、本発明に係る医用同義語辞書作成装置について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、異なる実施の形態における構成要素を組み合わせて構築される形態なども、本発明の範囲内に含まれる。
【0144】
例えば、図5に示すキーワードと疾病名の共起関係を示すデータでは、着目キーワードと着目疾病名とが共起する読影レポート21が1つでもあれば該当する欄に○印を付している。しかし、共起関係を求める際にキーワードが誤って抽出される場合、または読影者による読影レポート21の入力ミスにより誤った疾病名が読影レポート21に記載されてしまう場合がある。このため、本来共起しないはずのキーワードと疾病名とが、誤ったキーワードまたは誤った疾病名によって共起していると判断され、誤った読影レポート21が共通疾病名文書抽出部107により抽出される場合がある。このため、誤った読影レポート21を用いて同義語判定が行われてしまい、同義語判定の精度が低下する場合がある。これを防止するために、着目キーワードと着目疾病名とが共起しているか否かを判定するための判定閾値を設定し、着目キーワードと着目疾病名とが共起する読影レポート21の数が所定閾値以上の場合にのみ、着目キーワードと着目疾病名とが共起すると判断し、図5に示すデータの該当箇所に○印を付し、上記数が所定閾値未満の場合には、上記データに×印を付すようにしても良い。これにより、同義語判定の精度が向上する。なお、上記数が1以上かつ所定閾値未満の着目キーワードと着目疾病名との組み合わせについては、その着目キーワードおよびその着目疾病名が共起する読影レポート21をユーザに提示し、その着目キーワードおよびその着目疾病名が共起しているのか共起していないのかをユーザに判断させるようにしても良い。
【0145】
また、実施の形態1または実施の形態2で作成され記憶部109に記憶された医用同義語辞書は、診断の支援に用いたり、医用情報の検索に用いたりすることができる。例えば、図15に示すように、医用同義語辞書データベース401と、診断支援装置402または検索装置403とをインターネット等のネットワーク404を介して接続しても良い。医用同義語辞書データベース401には、記憶部109に記憶されたのと同じ医用同義語辞書が記憶されている。診断支援装置402は、医用同義語辞書データベース401に記憶されている医用同義語辞書を参照することにより、読影項目または疾病名の同義語も含めて診断支援を行う。また、検索装置403は、医用同義語辞書データベース401に記憶されている医用同義語辞書を参照することにより、読影項目または疾病名の同義語も含めて類似症例の検索を行う。
【0146】
また、上記の各実施の形態の医用同義語辞書作成装置は、コンピュータシステムによる構成されていても良い。
【0147】
図16は、医用同義語辞書作成装置を実現するコンピュータシステムのハードウェア構成を示すブロック図である。
【0148】
医用同義語辞書作成装置は、コンピュータ34と、コンピュータ34に指示を与えるためのキーボード36およびマウス38と、コンピュータ34の演算結果等の情報を提示するためのディスプレイ32と、コンピュータ34で実行されるプログラムを読み取るためのCD−ROM(Compact Disc−Read Only Memory)装置43および通信モデム(図示せず)とを含む。
【0149】
医用同義語辞書作成装置が行う処理であるプログラムは、コンピュータで読取可能な記録媒体であるCD−ROM45に記憶され、CD−ROM装置43で読み取られる。または、コンピュータネットワークを通じて通信モデム52で読み取られる。プログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
【0150】
コンピュータ34は、CPU(Central Processing Unit)44と、ROM(Read Only Memory)46と、RAM(Random Access Memory)48と、ハードディスク50と、通信モデム52と、バス54とを含む。
【0151】
CPU44は、CD−ROM装置43または通信モデム52を介して読み取られたプログラムを実行する。ROM46は、コンピュータ34の動作に必要なプログラムやデータを記憶する。RAM48は、プログラム実行時のパラメータなどのデータを記憶する。ハードディスク50は、プログラムやデータなどを記憶する。通信モデム52は、コンピュータネットワークを介して他のコンピュータとの通信を行う。バス54は、CPU44、ROM46、RAM48、ハードディスク50、通信モデム52、ディスプレイ32、キーボード36、マウス38およびCD−ROM装置43を相互に接続する。
【0152】
さらに、上記の医用同義語辞書作成装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしても良い。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
【0153】
さらにまた、上記の医用同義語辞書作成装置を構成する構成要素の一部または全部は、医用同義語辞書作成装置に脱着可能なICカードまたは単体のモジュールから構成されているとしても良い。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしても良い。
【0154】
また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。
【0155】
さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な非一時的な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc(登録商標))、半導体メモリなどに記録したものとしても良い。また、これらの非一時的な記録媒体に記録されている上記デジタル信号であるとしても良い。
【0156】
また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
【0157】
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。
【0158】
また、上記プログラムまたは上記デジタル信号を上記非一時的な記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。
【産業上の利用可能性】
【0159】
本発明は、医用文書における医用同義語辞書作成装置等として利用可能である。
【符号の説明】
【0160】
20 医用画像
21、40、41 読影レポート
22 患者ID
23 読影レポートID
24 画像ID
25 画像所見
26 確定診断結果
27 記入時刻
28 検査項目
30 キーワード名
31 キーワード属性
32 ディスプレイ
34 コンピュータ
36 キーボード
38 マウス
42 差分キーワード
43 CD−ROM装置
44 CPU
45 CD−ROM
46 ROM
48 RAM
50 ハードディスク
52 通信モデム
54 バス
100、200、300 医用同義語辞書作成装置
101 症例データベース
102 キーワード辞書
103 読影レポート取得部
104、104A キーワード取得部
105、105A 共起疾病名取得部
106 キーワード対選択部
107 共通疾病名文書抽出部
108 同義語判定部
109 記憶部
110 出力部
111 表示装置
201 初診文書選択部
301 更新制御部
401 医用同義語辞書データベース
402 診断支援装置
403 検索装置
404 ネットワーク
2001 患者IDリスト作成部
2002 患者ID選択部
2003 初期文書記録部
2004 初期キーワードリスト作成部
2005 差分キーワード抽出部
2006 差分センテンス記録部

【特許請求の範囲】
【請求項1】
同義語であるキーワード対を含む医用同義語辞書を作成する医用同義語辞書作成装置であって、
医用画像と当該医用画像を読影した結果が記載された文書データである読影レポートとの組である症例データが記憶されている症例データベースから、読影レポートを取得する読影レポート取得部と、
医用画像の特徴を示す文字列からなる読影項目または医用画像の診断結果を示す文字列からなる疾病名であるキーワードが登録されているキーワード辞書データを参照して、前記読影レポート取得部が取得した読影レポートから前記キーワード辞書データに登録されているキーワードを取得するキーワード取得部と、
前記キーワード取得部が取得したキーワードと共起する疾病名を取得する共起疾病名取得部と、
前記キーワード取得部が取得したキーワードから一組のキーワード対を選択するキーワード対選択部と、
(i)前記共起疾病名取得部が取得した疾病名の中から、前記キーワード対を構成する各キーワードと共起する疾病名を選択し、(ii)選択した疾病名から前記キーワード対を構成するキーワード間で共通する疾病名を抽出し、(iii)抽出した疾病名を含む読影レポートを、前記症例データベースに記憶されている症例データの中から抽出する共通疾病名文書抽出部と、
前記共通疾病名文書抽出部が抽出した読影レポートを用いて、前記キーワード対が同義語であるか否かを判定する同義語判定部と、
前記同義語判定部が同義語であると判定したキーワード対を、医用同義語辞書に含まれる同義語として出力する出力部と
を備える医用同義語辞書作成装置。
【請求項2】
さらに、
前記読影レポート取得部が取得した読影レポートから、初期診断に関する記述の読影レポートを選択する初診文書選択部を備え、
前記キーワード取得部は、前記キーワード辞書データを参照して、前記初診文書選択部が選択した読影レポートから前記キーワード辞書データに登録されているキーワードを取得する
請求項1に記載の医用同義語辞書作成装置。
【請求項3】
前記初診文書選択部は、(i)前記読影レポート取得部が取得した読影レポートを患者ごとに分類し、(ii)患者ごとに、分類された読影レポートの集合の中から読影者による記入時刻が最も古い読影レポートのみを選択する
請求項2に記載の医用同義語辞書作成装置。
【請求項4】
前記初診文書選択部は、(i)前記読影レポート取得部が取得した読影レポートを患者ごとに分類し、(ii)患者ごとに、分類された読影レポートの集合の中から読影者による記入時刻が最も古い第1読影レポートを選択し、(iii)患者ごとに、分類された読影レポートの集合の中から、前記第1読影レポートには含まれないキーワードを含む文章を選択し、
前記キーワード取得部は、前記キーワード辞書データを参照して、前記初診文書選択部が選択した前記第1読影レポートおよびキーワードから前記キーワード辞書データに登録されているキーワードを取得する
請求項2に記載の医用同義語辞書作成装置。
【請求項5】
前記キーワード対選択部は、読影項目同士または疾病名同士のキーワード対のみを選択する
請求項1〜4のいずれか1項に記載の医用同義語辞書作成装置。
【請求項6】
さらに、
前記出力部が出力するキーワード対を、前記医用同義語辞書に含まれる同義語として記憶する記憶部を備える
請求項1〜5のいずれか1項に記載の医用同義語辞書作成装置。
【請求項7】
さらに、
前記症例データベースに記憶されている症例データが更新されているか否かを判断し、前記症例データが更新されていると判断した場合に、前記読影レポート取得部、前記キーワード取得部、前記共起疾病名取得部、前記キーワード対選択部、前記共通疾病名文書抽出部、前記同義語判定部および前記出力部を動作させ、前記医用同義語辞書に含まれる同義語を更新する更新制御部を備える
請求項1に記載の医用同義語辞書作成装置。
【請求項8】
前記更新制御部は、前記症例データが更新されていると判断した場合に、前記読影レポート取得部、前記キーワード取得部、前記共起疾病名取得部、前記キーワード対選択部、前記共通疾病名文書抽出部、前記同義語判定部および前記出力部を動作させることにより、前記医用同義語辞書に含まれる全てのキーワードについて同義語を更新する
請求項7に記載の医用同義語辞書作成装置。
【請求項9】
前記更新制御部は、(i)前記症例データベースに記憶されている前記症例データにおける各キーワードの出現頻度を算出し、(ii)前記症例データが更新されていると判断した場合に、前記読影レポート取得部、前記キーワード取得部、前記共起疾病名取得部、前記キーワード対選択部、前記共通疾病名文書抽出部、前記同義語判定部および前記出力部を動作させることにより、出現頻度が第1閾値以下のキーワードについてのみ同義語を更新する
請求項7に記載の医用同義語辞書作成装置。
【請求項10】
前記同義語判定部は、前記キーワード対を構成する各キーワードについて、前記共通疾病名文書抽出部が抽出した読影レポート中の当該キーワードを含む文章中の当該キーワード以外のキーワードの出現頻度をベクトルの要素とするキーワードベクトルを作成し、作成したキーワードベクトル間の距離が第2閾値以下であれば、前記キーワード対が同義語であると判定する
請求項1〜9のいずれか1項に記載の医用同義語辞書作成装置。
【請求項11】
コンピュータが、同義語であるキーワード対を含む医用同義語辞書を作成する医用同義語辞書作成方法であって、
医用画像と当該医用画像を読影した結果が記載された文書データである読影レポートとの組である症例データが記憶されている症例データベースから、読影レポートを取得する読影レポート取得ステップと、
医用画像の特徴を示す文字列からなる読影項目または医用画像の診断結果を示す文字列からなる疾病名であるキーワードが登録されているキーワード辞書データを参照して、前記読影レポート取得ステップで取得された読影レポートから前記キーワード辞書データに登録されているキーワードを取得するキーワード取得ステップと、
前記キーワード取得ステップで取得されたキーワードと共起する疾病名を取得する共起疾病名取得ステップと、
前記キーワード取得ステップで取得されたキーワードから一組のキーワード対を選択するキーワード対選択ステップと、
(i)前記共起疾病名取得ステップで取得された疾病名の中から、前記キーワード対を構成する各キーワードと共起する疾病名を選択し、(ii)選択した疾病名から前記キーワード対を構成するキーワード間で共通する疾病名を抽出し、(iii)抽出した疾病名を含む読影レポートを、前記症例データベースに記憶されている症例データの中から抽出する共通疾病名文書抽出ステップと、
前記共通疾病名文書抽出ステップで抽出された読影レポートを用いて、前記キーワード対が同義語であるか否かを判定する同義語判定ステップと、
前記同義語判定ステップで同義語であると判定されたキーワード対を、医用同義語辞書に含まれる同義語として出力する出力ステップと
を含む医用同義語辞書作成方法。
【請求項12】
請求項11に記載の医用同義語辞書作成方法に含まれる各ステップをコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図2】
image rotate