医用同義語辞書作成装置および医用同義語辞書作成方法

【課題】読影レポートに対して画像の類似性を正しく評価した上で医用同義語辞書を作成する医用同義語辞書作成装置を提供する。
【解決手段】同義語判定部１２０は、（ｉ）読影レポートに基づいて、キーワード対が同義語であるか否かを判定し、（ｉｉ）各画像特徴量とキーワードとの間の関連性を予め定めた二項間関係情報に基づいて、キーワード対を構成するキーワードの作成の基となった医用画像から算出した各画像特徴量に対して重み付けを行うことにより、重み付けされた各画像特徴量を要素とする各キーワードの画像特徴量ベクトルを作成し、キーワード対に対する２つの画像特徴量ベクトルを比較することにより、キーワード対が同義語であるか否かを判定し、（ｉｉｉ）２つの判定結果が共に同義語であることを示す場合に、前記キーワード対選択部が選択したキーワード対が同義語であると判定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、読影レポートにおける医用同義語辞書を自動的に作成する医用同義語辞書作成装置および医用同義語辞書作成方法に関する。
【背景技術】
【０００２】
近年、画像診断の分野では撮影画像および読影レポートのデジタル化が進み、医師が大量のデータを共有することが容易になっている。ここで、読影レポートとは、撮影画像に対して読影者が下した診断を示すテキスト情報のことである。つまり、読影レポートは、医用画像を読影した結果が記載された文書データである。また、画像を保管および通信するシステムであるＰＡＣＳ（ＰｉｃｔｕｒｅＡｒｃｈｉｖｉｎｇａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍｓ）内に保管されている読影レポート同士は、共通のＩＤやキーワードで互いに紐付けされて管理されており、保管されている過去の読影レポートの有効な二次利用が求められている。
【０００３】
読影レポートの有効な二次利用の一つとしては、レポートのテキスト検索が挙げられる。一般的なテキスト検索では、検索キーワードと同じキーワードを持つ読影レポートを検索結果として出力するが、同じ意味を持ちながら異なる表記がされているレポートについては検索結果から外れてしまうという問題が存在する。そのため、より汎用性の高いテキスト検索を実現するためには、同じ意味を持つキーワード同士を結びつける同義語辞書の作成が必須になる。
【０００４】
このような同義語辞書を作成する従来技術として、特許文献１では、「人名に対応する顔画像は一意に決まる」ことを利用し、ウェブ上のドキュメントから様々な表記の人名と、その人名が付与された顔画像を抽出し、類似した顔画像に付与された人名を全て同義語（別名）として登録する方法が提案されている。この方法では画像の類似性に基づいた同義語処理を行っており、テキスト情報だけを用いた処理よりも、より精度の高い同義語辞書を作成することができる。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２０１０−１２８９２６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかし、特許文献１に記載の方法を画像診断分野における読影レポートに適用した場合、キーワードごとに関連する画像特徴量が異なるため、単純に画像の類似性を用いるだけでは、キーワード間の正しい同義語関係を判定できないという課題がある。
【０００７】
例えば、肝腫瘤の画像に対して付与された「辺縁明瞭」というキーワードはエッジ等の形状に関する画像特徴量と関係しているが、濃度に関する画像特徴量とは関係しない。一方、「高吸収」というキーワードは濃度に関する画像特徴量と関係しているが、形状に関する画像特徴量とは関係しない。このため、「辺縁明瞭」と「高吸収」の同義語関係を画像の類似性を用いて評価する際、形状と濃度に関する画像特徴量の値をそのまま用いると、「辺縁明瞭」とは関係のない濃度に関する画像特徴量、また、「高吸収」とは関係のない形状に関する画像特徴量が、それぞれ画像の類似判定に含まれてしまう。よって、画像の類似性を正しく評価することができない。そのため、読影レポートにおいて画像を用いてキーワード間の同義語関係を判定するためには、画像特徴量の中からキーワードに関連する画像特徴量を適切に選択する必要がある。
【０００８】
本発明は、上記課題を解決するためになされたものであり、キーワードに適合する画像特徴量を選択することにより、読影レポートに対して画像の類似性を正しく評価した上で医用同義語辞書を作成する医用同義語辞書作成装置および医用同義語辞書作成方法を提供することを目的とする。
【課題を解決するための手段】
【０００９】
上記課題を解決するために、本発明のある局面に係る医用同義語辞書作成装置は、医用画像と、当該医用画像を読影した結果が記載された文書データである読影レポートとを取得する取得部と、医用画像の特徴を示す文字列の読影項目または医用画像の診断結果を示す文字列の疾病名であるキーワードが登録されているキーワード辞書データを参照して、前記取得部が取得した読影レポートから前記キーワード辞書データに登録されているキーワードを抽出するキーワード抽出部と、前記キーワード抽出部が抽出したキーワードからキーワード対を選択するキーワード対選択部と、前記キーワード対選択部が選択したキーワード対が同義語であるか否かを判定する同義語判定部と、前記同義語判定部が同義語であると判定したキーワード対を、医用同義語辞書に含まれる同義語として出力する出力部とを備え、前記同義語判定部は、（ｉ）前記読影レポートに基づいて、前記キーワード対が同義語であるか否かを判定し、（ｉｉ）医用画像から抽出される各画像特徴量と前記医用画像に対するキーワードとの間の関連性を予め定めた二項間関係情報に基づいて、前記キーワード対を構成するキーワードごとに当該キーワードの作成の基となった医用画像から算出した各画像特徴量に対して当該画像特徴量と当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより、重み付けされた各画像特徴量を要素とする各キーワードの画像特徴量ベクトルを作成し、前記キーワード対に対する２つの画像特徴量ベクトルを比較することにより、前記キーワード対が同義語であるか否かを判定し、（ｉｉｉ）２つの判定結果が共に同義語であることを示す場合に、前記キーワード対選択部が選択したキーワード対が同義語であると判定する。
【００１０】
この構成によると、読影レポートに基づいた同義語判定と、医用画像から抽出される画像特徴量に基づいた同義語判定とを行っている。後者については、医用画像から抽出される各画像特徴量について、読影レポートに記載されているキーワードとの間の関連性が高いものほど大きな重みで重み付けを行った上で、重み付けされた画像特徴量同士を比較している。このため、読影レポートに対して画像の類似性を正しく評価した上で医用同義語辞書を作成することができる。
【００１１】
なお、本発明は、このような特徴的な処理部を備える医用同義語辞書作成装置として実現することができるだけでなく、医用同義語辞書作成装置に含まれる特徴的な処理部が実行する処理をステップとする医用同義語辞書作成方法として実現することができる。また、医用同義語辞書作成装置が備える特徴的な処理部としてコンピュータを機能させるためのプログラムとして実現することもできる。また、医用同義語辞書作成方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムを、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等のコンピュータ読取可能な不揮発性の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
【発明の効果】
【００１２】
本発明によると、読影レポートに対して画像の類似性を正しく評価した上で医用同義語辞書を作成することができる。
【図面の簡単な説明】
【００１３】
【図１】本発明の実施の形態１における、医用同義語辞書作成装置の特徴的な機能構成を示すブロック図
【図２】本発明の実施の形態１における、症例データベースに記憶されている症例データの一例を示す図
【図３】本発明の実施の形態１における、キーワード辞書の一例を示す図
【図４】本発明の実施の形態１における、読影知識作成の手順を示すフローチャート
【図５】本発明の実施の形態１における、画像特徴量抽出の手順を示すフローチャート
【図６】本発明の実施の形態１における、腹部ＣＴ検査の読影レポートの例を示す図
【図７】本発明の実施の形態１における、読影レポートから抽出された読影項目および疾病名を示す図
【図８】本発明の実施の形態１における、読影レポートから抽出された読影項目および疾病名、及び、読影項目と同時に抽出された位置と時相の情報を示す図
【図９】本発明の実施の形態１における、読影レポートから抽出された読影項目および疾病名、及び、文脈解釈を行って読影項目と同時に抽出された位置と時相の情報を示す図
【図１０】本発明の実施の形態１における、読影知識抽出のために取得したデータ一式を示す図
【図１１】本発明の実施の形態１における、読影項目と画像特徴量との間の相関関係（二値）の概念図
【図１２】本発明の実施の形態１における、読影項目と画像特徴量との間の相関関係（多値）の概念図
【図１３】本発明の実施の形態１における、疾病名と画像特徴量との間の相関関係（二値）の概念図
【図１４】本発明の実施の形態１における、読影項目と疾病名との間の相関関係（二値）の概念図
【図１５】本発明の実施の形態１における、読影知識として抽出した（画像特徴量−読影項目）間の相関関係の格納形式を示す図
【図１６】本発明の実施の形態１における、読影知識として抽出した（画像特徴量−疾病名）間の相関関係の格納形式を示す図
【図１７】本発明の実施の形態１における、読影知識として抽出した（読影項目−疾病名）間の相関関係の格納形式を示す図
【図１８】本発明の実施の形態１における、医用同義語辞書作成装置が実行する全体的な処理の流れを示すフローチャート
【図１９】本発明の実施の形態１における、キーワード抽出処理（図１８のステップＳ３０２）の出力例を示す図
【図２０】本発明の実施の形態１における、同義語判定処理（図１８のステップＳ３０３）に用いるキーワードベクトルの概念図
【図２１】本発明の実施の形態１における、代表画像ベクトル生成処理（図１８のステップＳ３０５）の詳細な処理の流れの一例を示すフローチャート
【図２２】本発明の実施の形態１における、代表画像ベクトル生成処理（図１８のステップＳ３０５）の詳細な処理の流れの一例を示すフローチャート
【図２３】本発明の実施の形態１の変形例に係る医用同義語辞書作成装置の特徴的な機能構成を示すブロック図
【図２４】本発明の実施の形態２における、医用同義語辞書作成装置の特徴的な機能構成を示すブロック図
【図２５】本発明の実施の形態２における、医用同義語辞書作成装置が実行する全体的な処理の流れを示すフローチャート
【図２６】医用同義語辞書データベースを利用したシステムの構成を示す図
【発明を実施するための形態】
【００１４】
以下、本発明の実施の形態について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも本発明の好ましい一具体例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。本発明は、特許請求の範囲だけによって限定される。よって、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、本発明の課題を達成するのに必ずしも必要ではないが、より好ましい形態を構成するものとして説明される。
【００１５】
本発明の実施の形態に係る医用同義語辞書作成装置は、超音波画像、ＣＴ（ＣｏｍｐｕｔｅｄＴｏｍｏｇｒａｐｈｙ）画像、または核磁気共鳴画像等の医用画像に対する読影レポートに記述されたキーワードに関する医用同義語辞書を作成する装置である。本明細書中では「画像データ」のことを単に「画像」と言う。
【００１６】
本発明の一実施態様に係る医用同義語辞書作成装置は、医用画像と、当該医用画像を読影した結果が記載された文書データである読影レポートとを取得する取得部と、医用画像の特徴を示す文字列の読影項目または医用画像の診断結果を示す文字列の疾病名であるキーワードが登録されているキーワード辞書データを参照して、前記取得部が取得した読影レポートから前記キーワード辞書データに登録されているキーワードを抽出するキーワード抽出部と、前記キーワード抽出部が抽出したキーワードからキーワード対を選択するキーワード対選択部と、前記キーワード対選択部が選択したキーワード対が同義語であるか否かを判定する同義語判定部と、前記同義語判定部が同義語であると判定したキーワード対を、医用同義語辞書に含まれる同義語として出力する出力部とを備え、前記同義語判定部は、（ｉ）前記読影レポートに基づいて、前記キーワード対が同義語であるか否かを判定し、（ｉｉ）医用画像から抽出される各画像特徴量と前記医用画像に対するキーワードとの間の関連性を予め定めた二項間関係情報に基づいて、前記キーワード対を構成するキーワードごとに当該キーワードの作成の基となった医用画像から算出した各画像特徴量に対して当該画像特徴量と当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより、重み付けされた各画像特徴量を要素とする各キーワードの画像特徴量ベクトルを作成し、前記キーワード対に対する２つの画像特徴量ベクトルを比較することにより、前記キーワード対が同義語であるか否かを判定し、（ｉｉｉ）２つの判定結果が共に同義語であることを示す場合に、前記キーワード対選択部が選択したキーワード対が同義語であると判定する。
【００１７】
この構成によると、読影レポートに基づいた同義語判定と、医用画像から抽出される画像特徴量に基づいた同義語判定とを行っている。後者については、医用画像から抽出される各画像特徴量について、読影レポートに記載されているキーワードとの間の関連性が高いものほど大きな重みで重み付けを行った上で、重み付けされた画像特徴量同士を比較している。このため、読影レポートに対して画像の類似性を正しく評価した上で医用同義語辞書を作成することができる。
【００１８】
具体的には、前記同義語判定部は、前記読影レポートに基づいて、前記キーワード対が同義語であるか否かを判定するテキスト判定部と、前記テキスト判定部で同義語であると判定された場合に、前記二項間関係情報に基づいて、前記キーワード対を構成するキーワードごとに当該キーワードの作成の基となった医用画像から算出した各画像特徴量に対して当該画像特徴量と当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより、重み付けされた各画像特徴量を要素とする各キーワードの画像特徴量ベクトルを生成する代表画像ベクトル生成部と、前記代表画像ベクトル生成部が生成した前記キーワード対に対する２つの画像特徴量ベクトルを比較することにより、前記キーワード対が同義語であるか否かを判定する画像判定部とを含み、前記出力部は、前記画像判定部が同義語であると判定したキーワード対を、前記医用同義語辞書に含まれる同義語として出力する。
【００１９】
また、前記同義語判定部は、前記二項間関係情報に基づいて、前記キーワード対を構成するキーワードごとに当該キーワードの作成の基となった医用画像から算出した各画像特徴量に対して当該画像特徴量と当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより各キーワードの画像特徴量ベクトルを生成する代表画像ベクトル生成部と、前記代表画像ベクトル生成部が生成した前記キーワード対に対する２つの画像特徴量ベクトルを比較することにより、前記キーワード対が同義語であるか否かを判定する画像判定部と、前記画像判定部で同義語であると判定された場合に、前記読影レポートに基づいて、前記キーワード対が同義語であるか否かを判定するテキスト判定部とを含み、前記出力部は、前記テキスト判定部が同義語であると判定したキーワード対を、前記医用同義語辞書に含まれる同義語として出力するものであっても良い。
【００２０】
また、前記テキスト判定部は、前記キーワード対を構成する各キーワードについて、前記読影レポート中の当該キーワードを含む文章中の当該キーワード以外のキーワードの出現頻度をベクトルの要素とするキーワードベクトルを作成し、作成したキーワードベクトル間の距離が第１閾値以下であれば、前記キーワード対が同義語であると判定するものであっても良い。
【００２１】
また、前記代表画像ベクトル生成部は、前記キーワード対を構成するキーワードが読影項目である場合、医用画像から抽出される各画像特徴量と前記医用画像に対する読影項目との関連性を予め定めた二項間関係情報に基づいて、当該キーワードの作成の基となった医用画像から算出した各画像特徴量に当該画像特徴量と読影項目である当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより当該キーワードの画像特徴量ベクトルを生成するものであっても良い。
【００２２】
この構成によると、読影項目と関連性のある画像特徴量に大きな重みで重み付けを行うことができる。
【００２３】
また、前記代表画像ベクトル生成部は、前記キーワード対を構成するキーワードが疾病名である場合、医用画像から抽出される各画像特徴量と前記医用画像に対する疾病名との関連性を予め定めた二項間関係情報に基づいて、当該キーワードの作成の基となった医用画像から算出した各画像特徴量に当該画像特徴量と疾病名である当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより当該キーワードの画像特徴量ベクトルを生成するものであっても良い。
【００２４】
この構成によると、疾病名と関連性のある画像特徴量に大きな重みで重み付けを行うことができる。
【００２５】
また、前記代表画像ベクトル生成部は、前記キーワード対を構成するキーワードが読影項目である場合、（ｉ）医用画像から抽出される各画像特徴量と前記医用画像に対する読影項目との関連性を予め定めた二項間関係情報に基づいて、当該キーワードの作成の基となった医用画像から算出した各画像特徴量に当該画像特徴量と読影項目である当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うとともに、（ｉｉ）前記読影レポートの中から当該キーワードと共起する疾病名を検出し、読影項目と疾病名との関連性を予め定めた二項間関係情報に基づいて、前記各画像特徴量を読影項目である当該キーワードと当該キーワードと共起する前記疾病名との間の関連性が高いほど大きな値の重みでさらに重み付けを行うことにより、重み付けされた各画像特徴量を要素とする当該キーワードの画像特徴量ベクトルを生成するものであっても良い。
【００２６】
この構成によると、読影項目と関連性の低い症例の重みは小さくなるため、読影項目と関連性の低い症例を取り除いた画像特徴量ベクトルを生成することができる。これにより、画像の類似性をより正しく評価することができ、医用同義語辞書の精度を向上させることができる。
【００２７】
好ましくは、前記キーワード対選択部は、読影項目同士または疾病名同士のキーワード対のみを選択する。
【００２８】
疾病名は複数の診断項目の上位概念であるため、疾病名と診断項目とは直接同義語にはならない。そのため、疾病名と診断項目の対を選択しないことで、処理時間を低減することができる。
【００２９】
また、上述の医用同義語辞書作成装置は、さらに、前記出力部が出力するキーワード対を、前記医用同義語辞書に含まれる同義語として記憶する記憶部を備えるものであっても良い。
【００３０】
好ましくは、前記取得部は、医用画像と当該医用画像に対する読影レポートとの組である症例データが記憶されている症例データベースから、前記医用画像と前記読影レポートとを取得し、前記医用同義語辞書作成装置は、さらに、前記症例データベースに記憶されている症例データが更新されているか否かを判断し、前記症例データが更新されていると判断した場合に、前記取得部、前記キーワード抽出部、前記キーワード対選択部、前記同義語判定部および前記出力部を動作させ、前記医用同義語辞書に含まれる同義語を更新する更新制御部を備える。
【００３１】
この構成によると、症例データベースに記憶されている症例データが更新された場合であっても、医用同義語辞書を自動的に更新することができるため、より汎用性の高い医用同義語辞書を用いた検索が可能になる。
【００３２】
なお、前記更新制御部は、前記症例データが更新されていると判断した場合に、前記取得部、前記キーワード抽出部、前記キーワード対選択部、前記同義語判定部および前記出力部を動作させることにより、前記医用同義語辞書に含まれる全てのキーワードについて同義語を更新するものであっても良い。
【００３３】
また、前記更新制御部は、（ｉ）前記症例データベースに記憶されている前記症例データにおける各キーワードの出現頻度を算出し、（ｉｉ）前記症例データが更新されていると判断した場合に、前記取得部、前記キーワード抽出部、前記キーワード対選択部、前記同義語判定部および前記出力部を動作させることにより、出現頻度が第２閾値以下のキーワードについてのみ同義語を更新するものであっても良い。
【００３４】
高頻度のキーワードが新しく追加された場合は、仮に同義語か否かの判定をし直したとしても結果は変わらないため、医用同義語辞書の更新を行う必要性が低い。一方、出現頻度が少ないキーワードに対しては、同義語関係の不確実性が高いため、医用同義語辞書を更新する必要性が高い。このように、症例データベース内のキーワード頻度に応じて同義語辞書の更新の可否を判定することにより、更新時の計算量を低減できるため、更新時間を短縮することができる。
【００３５】
本発明の他の実施態様に係る医用同義語辞書作成方法は、医用画像と、当該医用画像を読影した結果が記載された文書データである読影レポートとを取得する取得ステップと、医用画像の特徴を示す文字列の読影項目または医用画像の診断結果を示す文字列の疾病名であるキーワードが登録されているキーワード辞書データを参照して、前記取得ステップで取得された読影レポートから前記キーワード辞書データに登録されているキーワードを抽出するキーワード抽出ステップと、前記キーワード抽出ステップで抽出されたキーワードからキーワード対を選択するキーワード対選択ステップと、前記キーワード対選択ステップで選択されたキーワード対が同義語であるか否かを判定する同義語判定ステップと、前記同義語判定ステップで同義語であると判定されたキーワード対を、医用同義語辞書に含まれる同義語として出力する出力ステップとを含み、前記同義語判定ステップでは、（ｉ）前記読影レポートに基づいて、前記キーワード対が同義語であるか否かを判定し、（ｉｉ）医用画像から抽出される各画像特徴量と前記医用画像に対するキーワードとの間の関連性を予め定めた二項間関係情報に基づいて、前記キーワード対を構成するキーワードごとに当該キーワードの作成の基となった医用画像から算出した各画像特徴量に対して当該画像特徴量と当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより、重み付けされた各画像特徴量を要素とする各キーワードの画像特徴量ベクトルを作成し、前記キーワード対に対する２つの画像特徴量ベクトルを比較することにより、前記キーワード対が同義語であるか否かを判定し、（ｉｉｉ）２つの判定結果が共に同義語であることを示す場合に、前記キーワード対選択ステップで選択されたキーワード対が同義語であると判定する。
【００３６】
本発明のさらに他の実施態様に係るプログラムは、上述の医用同義語辞書作成方法に含まれる各ステップをコンピュータに実行させるためのプログラムである。
【００３７】
（実施の形態１）
本実施の形態で用いる用語を説明する。
【００３８】
「画像特徴量」とは、医用画像における臓器や病変部分の形状に関するもの、輝度分布に関するものなどを示す。画像特徴量として、例えば、非特許文献：「根本，清水，萩原，小畑，縄野，“多数の特徴量からの特徴選択による乳房Ｘ線像上の腫瘤影判別精度の改善と高速な特徴選択法の提案”，電子情報通信学会論文誌Ｄ−ＩＩ，Ｖｏｌ．Ｊ８８−Ｄ−ＩＩ，Ｎｏ．２，ｐｐ．４１６−４２６，２００５年２月」に４９０種類の特徴量を用いることが記載されている。本実施の形態においても、使用した医用画像撮影装置（モダリティ）、または対象臓器ごとに予め定めた数十〜数百種の画像特徴量を用いる。
【００３９】
「キーワード」とは、以下に述べる「読影項目」と「疾病名」の何れかを示す。
【００４０】
「読影項目」とは、本実施の形態では、「読影医が、読影対象の画像の特徴を言語化した文字列」と定義する。使用する医用画像撮影装置、対象臓器等で使用される用語はほぼ限定されるが、例えば、分葉状、棘状、不整形、境界明瞭、輪郭不明瞭、低／高濃度、低／高吸収、スリガラス状、石灰化、モザイク状、濃染、低／高エコー、毛羽立ち、等が挙げられる。
【００４１】
「疾病名」とは、読影者が医用画像やその他の検査を基に診断した疾病名のことである。例えば、肝細胞癌、嚢胞、血管腫、等が挙げられる。
【００４２】
（実施の形態１：構成の説明）
以下、本発明の実施の形態１に係る医用同義語辞書作成装置について、図面を用いて詳細に説明する。
【００４３】
図１は、本発明の実施の形態１に係る医用同義語辞書作成装置の特徴的な機能構成を示すブロック図である。
【００４４】
図１に示すように、医用同義語辞書作成装置１００は、症例データベース１０１内に記憶されている読影レポートから抽出されるキーワードの同義語辞書である医用同義語辞書を作成する装置である。なお、本明細書中で同義語とは同一の意味の語に限定されず、類似の意味の語である類義語も含むものとする。つまり、本発明に係る医用同義語辞書作成装置は、医用類義語辞書作成装置としても利用可能である。
【００４５】
医用同義語辞書作成装置１００は、取得部１０４、キーワード抽出部１０５、キーワード対選択部１０６、同義語判定部１２０、出力部１２１、および記憶部１１０を備える。
【００４６】
同義語判定部１２０は、テキスト判定部１０７、代表画像ベクトル生成部１０８、および画像判定部１０９を備える。
【００４７】
医用同義語辞書作成装置１００は、外部の症例データベース１０１、キーワード辞書１０２、読影知識データベース１０３、および表示装置１２２に接続される。
【００４８】
以下、図１に示した、症例データベース１０１、キーワード辞書１０２、読影知識データベース１０３、および医用同義語辞書作成装置１００の各構成要素の詳細について順に説明する。
【００４９】
症例データベース１０１は、例えばハードディスク、メモリ等からなる記憶装置である。症例データベース１０１は、読影者に提示する読影対象の画像を示す医用画像と、その医用画像に対応する読影レポートとから構成される症例データを記憶しているデータベースである。ここで、医用画像とは、画像診断のために用いられる画像データであり、電子媒体に格納された画像データを示す。また、読影レポートとは、医用画像の読影結果に加え、画像診断後に行われる生検等の確定診断結果までを示す情報である。読影レポートは、文書データ（テキストデータ）である。生検とは、患部の一部を切り取って、顕微鏡などで調べる検査のことである。
【００５０】
図２は、症例データベース１０１に記憶されている症例データを構成する、医用画像２０としてのＣＴ画像および読影レポート２１の一例をそれぞれ示す図である。読影レポート２１は、読影レポートＩＤ２２、画像ＩＤ２３、画像所見２４および確定診断結果２５を含む。１つの症例データは同一の患者から作成される。
【００５１】
読影レポートＩＤ２２は、読影レポート２１を識別するための識別子であり、読影レポート２１ごとに識別子が異なる。画像ＩＤ２３は、医用画像２０を識別するための識別子であり、医用画像２０ごとに識別子が異なる。画像所見２４は、画像ＩＤ２３の医用画像２０に対する読影者の診断結果を示す情報である。つまり、画像所見２４は、疾病名を含む診断結果（読影結果）および診断理由（読影理由）を示す情報である。確定診断結果２５は、医用画像２０の患者の確定診断結果を示す。ここで確定診断結果とは、手術または生検で得られた試験体の顕微鏡による病理検査、またはその他様々な手段によって、対象の患者の真の状態が何であったのかを明らかにした診断結果である。
【００５２】
キーワード辞書１０２は、例えばハードディスク、メモリ等からなる記憶装置である。
【００５３】
キーワード辞書１０２は、読影レポート２１からの抽出対象となるキーワード（キーワード辞書データ）を記憶しているデータベースである。図３は、キーワード辞書１０２に記憶されているキーワードの一例を示す図である。図３に示すように、キーワード辞書１０２には、キーワード名３０とキーワード属性３１とがリスト形式で記憶されている。ここで、キーワード属性３１とは、キーワード名３０のキーワードが読影項目か疾病名かを示すデータである。例えば、濃染というキーワードのキーワード属性は読影項目である。
【００５４】
読影知識データベース１０３は、例えばハードディスク、メモリ等からなる記憶装置である。
【００５５】
読影知識データベース１０３は、読影レポート２１から抽出したキーワード間の相関関係（関連性）を示す二項間関係情報と、キーワードと医用画像２０から抽出した画像特徴量との相関関係（関連性）を示す二項間関係情報とを記憶しているデータベースである。二項間関係情報は、症例データベース１０１のデータを用いて自動的に作成される。データベースの構成および作成方法については後述する。
【００５６】
取得部１０４は、症例データベース１０１から、読影者が診断を行った医用画像２０および読影レポート２１を取得する。取得部１０４は、取得した医用画像２０および読影レポート２１を、キーワード抽出部１０５に出力する。
【００５７】
キーワード抽出部１０５は、キーワード辞書１０２を参照することにより、取得部１０４が取得した読影レポート２１の中からキーワード辞書１０２に登録されているキーワードを抽出し、抽出したキーワードをリスト化してキーワード対選択部１０６に出力する。具体的なキーワード抽出方法については後述する。
【００５８】
キーワード対選択部１０６は、キーワード抽出部１０５が抽出したキーワードリストから未選択のキーワード対を選択し、選択したキーワード対を、テキスト判定部１０７、代表画像ベクトル生成部１０８、および出力部１２１に出力する。
【００５９】
同義語判定部１２０は、キーワード対選択部１０６が選択したキーワード対が同義語であるか否かを判定する。
【００６０】
つまり、テキスト判定部１０７は、読影レポート２１に基づいて、キーワード対選択部１０６が選択したキーワード対に対して同義語判定を行い、同義語と判定した場合には、判定結果を代表画像ベクトル生成部１０８に出力する。具体的な同義語判定方法については後述する。
【００６１】
代表画像ベクトル生成部１０８は、テキスト判定部１０７でキーワード対選択部１０６が選択したキーワード対が同義語であると判定された場合に、キーワード対選択部１０６から取得したキーワード対と、読影知識データベース１０３に記憶されている二項間関係情報と、症例データベース１０１に記憶されている医用画像２０とを用いて、キーワード対選択部１０６が選択したキーワード対を構成する各キーワードに対する代表画像ベクトルを生成し、画像判定部１０９に出力する。ここで、代表画像ベクトルとは、各キーワードが付与されている医用画像群に対して算出された画像特徴量のベクトルであり、このベクトルには読影知識データベース１０３に記憶されているキーワード毎に算出された画像特徴量に対する重みが付加される。
【００６２】
医用同義語辞書作成に代表画像ベクトルを用いる理由は以下の通りである。
【００６３】
読影レポート２１とは、医用画像２０に対して医学的に統一された診断指針に基づいて記述されたテキストであるため、同義語関係にあるキーワードは同じ画像特徴を呈する。つまり、キーワード間の同義語関係は画像の類似性で評価することができる。すなわち、テキストだけを用いて作成された同義語関係を画像の類似性で再評価することにより、テキストだけを用いるよりも精度の高い医用同義語辞書を作成することができる。
【００６４】
しかし、読影レポート２１中のキーワードの同義語関係を評価するために、すべてのキーワードに対して同一の画像特徴量を用いて画像の類似性を評価することはできない。何故なら、それぞれのキーワードごとに、関連する画像特徴量が異なるからである。例えば、「辺縁明瞭」というキーワードはエッジ等の形状に関する画像特徴量と関係しているが、「高吸収」というキーワードは濃度に関する画像特徴量と関係している。「辺縁明瞭」と「高吸収」の同義語関係を画像の類似性を用いて評価する際、形状と濃度に関する画像特徴量の値をそのまま用いてしまうと、「辺縁明瞭」とは関係のない濃度に関する画像特徴量、そして、「高吸収」とは関係のない形状に関する画像特徴量が、それぞれ画像の類似判定に含まれてしまい、画像の類似性を正しく評価することができない。
【００６５】
そこで、代表画像ベクトル生成部１０８は、各キーワードが付属する画像から算出された画像特徴量に対して、読影知識データベース１０３に記憶されている（キーワード−画像特徴量）間の関連性を示す値によって重み付けを行うことによって代表画像ベクトルを生成する。
【００６６】
これにより、「辺縁明瞭」の画像に対しては形状情報の値に、「高吸収」の画像に対しては濃度情報の値に大きな重みを付けることができるため、画像の類似性を正しく評価することができ、画像の類似性に基づくキーワード間の同義語判定が可能になる。
【００６７】
具体的な代表画像ベクトル生成方法は後述する。
【００６８】
画像判定部１０９は、代表画像ベクトル生成部１０８が生成した代表画像ベクトルを用いて、キーワード対選択部１０６が選択したキーワード対が同義語であるか否かを再判定し、判定結果を出力部１２１に出力する。
【００６９】
出力部１２１は、キーワード対選択部１０６から取得したキーワード対のうち、画像判定部１０９で同義語と判定されたキーワード対を、医用同義語辞書に含まれる同義語として記憶部１１０に書き込む、または、表示装置１２２に表示する。
【００７０】
次に、読影知識データベース１０３の作成方法、および以上のように構成された医用同義語辞書作成装置１００の動作について順に説明する。
【００７１】
（実施の形態１：読影知識データベース１０３の事前作成）
医用同義語辞書作成を行うに当たり、事前に読影知識を得て、読影知識データベース１０３に格納しておく。読影知識は、医用画像とその医用画像を読影した結果である読影レポートとの対から構成される“症例”（症例データ）を複数集めたものから得られる。症例は、症例データベース１０１に格納されたものを用いてもよいし、他のデータベースに格納されたものを用いてもよい。必要な症例数は、種種のデータマイニングアルゴリズムを用いて何らかの法則性および知識を得るために十分となる数である。通常は数百〜数万個のデータが用いられる。本実施の形態では、読影知識として、（１）画像特徴量、（２）読影項目、（３）疾病名の三項のうち二項間の相関関係を用いる。ここで、読影時の診断疾病名とその他の検査を経て確定診断した疾病名とは異なることがあるが、読影知識データベースを作成する際は、確定診断の結果を用いる。
【００７２】
以下、図４のフローチャートを用いて読影知識作成の手順を説明する。本実施の形態で対象とする、つまり使用する医用画像撮影装置はマルチスライスＣＴとし、対象臓器および疾病は、それぞれ肝臓および肝腫瘤とする。
【００７３】
ステップＳ１０１では、読影知識を得るための症例が格納されたデータベースから症例を１つ取得する。ここで読影知識を得るための症例の総数をＣ個とする。１つの症例は、医用画像とその医用画像を読影した結果である読影レポートとの対で構成されている。医用画像がマルチスライスＣＴ装置により取得された場合、１つの症例は多数枚のスライス画像を含むことになる。また、通常、マルチスライスＣＴ画像を医師が読影する場合、重要なスライス画像１〜数枚を、キー画像として読影レポートに添付する。以後、多数枚のスライス画像集合、あるいは、数枚のキー画像を単に「医用画像」、「画像」と呼ぶこともある。
【００７４】
ステップＳ１０２では、医用画像から画像特徴量を抽出する。ステップＳ１０２の処理を、図５のフローチャートを用いて詳細に説明する。
【００７５】
ステップＳ２０１では、対象臓器の領域を抽出する。本実施の形態では肝臓領域を抽出する。肝臓領域抽出法として、例えば、非特許文献：「田中，清水，小畑，“異常部位の濃度パターンを考慮した肝臓領域抽出手法の改良＜第二報＞”，電子情報通信学会技術研究報告，医用画像，１０４（５８０），ｐｐ．７−１２，２００５年１月」等の手法を用いることができる。
【００７６】
ステップＳ２０２では、ステップＳ２０１で抽出された臓器領域から病変領域を抽出する。本実施の形態では肝臓領域から腫瘤領域を抽出する。肝腫瘤領域抽出法として、例えば、非特許文献「中川、清水，一杉，小畑，“３次元腹部ＣＴ像からの肝腫瘤影の自動抽出手法の開発＜第二報＞”，医用画像，１０２（５７５），ｐｐ．８９−９４，２００３年１月」等の手法を用いることができる。ここで、ｉ番目の症例における画像から抽出した腫瘤の数をＭ_ｉとすると、腫瘤は（症例番号，腫瘤番号）の組（ｉ，ｊ）で特定できる。ここで、１≦ｉ≦Ｃ，１≦ｊ≦Ｍ_ｉである。また本実施の形態では病変として肝腫瘤を対象としているため、“腫瘤番号”と呼んだが、本発明で共通の表現を用いて“病変番号”と呼ぶこともできる。
【００７７】
ステップＳ２０３では、ステップＳ２０２で抽出された病変領域のうち、１つの領域を選択する。
【００７８】
ステップＳ２０４では、ステップＳ２０３で選択された病変領域から画像特徴量を抽出する。本実施の形態では、画像特徴量として、非特許文献：「根本，清水，萩原，小畑，縄野，“多数の特徴量からの特徴選択による乳房Ｘ線像上の腫瘤影判別精度の改善と高速な特徴選択法の提案”，電子情報通信学会論文誌Ｄ−ＩＩ，Ｖｏｌ．Ｊ８８−Ｄ−ＩＩ，Ｎｏ．２，ｐｐ．４１６−４２６，２００５年２月」に記載された４９０種類の特徴量のうち、肝腫瘤にも適用可能な特徴量をいくつか選択して用いる。この特徴量数をＮ_Ｆ個とする。本ステップで抽出された特徴量は、（症例番号，この症例（医用画像）から抽出された腫瘤番号，特徴量番号）の組（ｉ，ｊ，ｋ）で特定できる。ここで、１≦ｉ≦Ｃ，１≦ｊ≦Ｍ_ｉ，１≦ｋ≦Ｎ_Ｆである。
【００７９】
ステップＳ２０５では、ステップＳ２０２で抽出された病変領域のうち未選択の病変があるかどうかをチェックし、未選択の病変がある場合は、ステップＳ２０３に戻り未選択の病変領域を選択した後、ステップＳ２０４を再実行する。未選択の病変がない場合、すなわち、ステップＳ２０２で抽出された全ての病変領域に対し、ステップＳ２０４の特徴量選択を行った場合は図５のフローチャートの処理を終了し、図４のフローチャートに戻る。
【００８０】
図４のステップＳ１０３では、読影レポートの解析処理を行う。具体的には読影レポートから読影項目及び疾病名を抽出する。本実施の形態では読影項目が格納された読影項目単語辞書、および疾病名が格納された疾病名単語辞書を用いた形態素解析及び構文解析を行う。これらの処理により、各単語辞書に格納された単語と一致する単語を抽出する。形態素解析技術としては、例えば、ＭｅＣａｂ（ｈｔｔｐ：／／ｍｅｃａｂ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ）やＣｈａＳｅｎ（ｈｔｔｐ：／／ｃｈａｓｅｎ−ｌｅｇａｃｙ．ｓｏｕｒｃｅｆｏｒｇｅ．ｊｐ）等が、構文解析技術としては、ＫＮＰ（ｈｔｔｐ：／／ｎｌｐ．ｋｕｅｅ．ｋｙｏｔｏ−ｕ．ａｃ．ｊｐ／ｎｌ−ｒｅｓｏｕｒｃｅ／ｋｎｐ．ｈｔｍｌ）、ＣａｂｏＣｈａ（ｈｔｔｐ：／／ｃｈａｓｅｎ．ｏｒｇ／〜ｔａｋｕ／ｓｏｆｔｗａｒｅ／ｃａｂｏｃｈａ／）等が存在する。読影レポートは医師により読影レポート独特の表現で記述されることが多いので、読影レポートに特化した形態素解析技術、構文解析技術、各単語辞書を開発することが望ましい。
【００８１】
図６は腹部ＣＴ検査の読影レポートの例であり、図７は図６の読影レポートから抽出された読影項目および疾病名を示す。読影項目は通常複数個、疾病名は１個抽出される。ｉ番目の症例における読影レポートから抽出した読影項目の数をＮ_ｉとすると、読影項目は（症例番号，読影項目番号）の組（ｉ，ｊ）で特定できる。ここで、１≦ｉ≦Ｃ，１≦ｊ≦Ｎ_ｉである。
【００８２】
また、図７では、読影項目および疾病名の単語のみを抽出しているが、読影レポートにおける病変の位置を表す文字列、時相を表す文字列を同時に抽出してもよい。ここで、時相について補足する。肝臓の病変の鑑別には、造影剤を急速静注して経時的に撮像する造影検査が有用とされている。肝臓の造影検査では一般に、肝動脈に造影剤が流入し多血性の腫瘍が濃染する動脈相、腸管や脾臓に分布した造影剤が門脈から肝臓に流入し肝実質が最も造影される門脈相、肝の血管内外の造影剤が平衡に達する平衡相、肝の間質に造影剤が貯留する晩期相などにおいて、肝臓が撮像される。読影レポートには病変の臓器における位置や、造影検査であれば着目した時相の情報が記述されていることが多い。このため、読影項目だけでなく位置や時相の情報も合わせて抽出することで、後で説明する読影知識の抽出に有効となる。図８に、読影項目と同時に位置と時相の情報を抽出した例を示す。例えば、図６の読影レポートを解析し、「肝Ｓ３区域に早期濃染を認め」という文節から「早期濃染」の位置属性として「肝Ｓ３区域」が抽出される。同様に、「後期相でｗａｓｈｏｕｔされており」という文節から「ｗａｓｈｏｕｔ」の時相属性として「後期相」が抽出される。
【００８３】
図６の読影レポートを、単純に解釈すると、図８のように「早期濃染」に関する時相、ｗａｓｈｏｕｔに関する位置の部分が空白になる。これに対し、読影項目「早期濃染」は早期相に対応した単語であるという事前知識を利用したり、「早期濃染」の状態を示す腫瘤と「後期相でｗａｓｈｏｕｔ」される腫瘤が同一の腫瘤を指すという高度な文脈解釈を行ったりすることができれば、抽出される位置と時相の情報は図９のようになる。
【００８４】
ステップＳ１０４では、読影知識を得るための症例が格納されたデータベースにおいて未取得の症例があるかどうかをチェックし、未取得の症例がある場合は、ステップＳ１０１に戻り未取得の症例を取得した後、ステップＳ１０２およびＳ１０３を実行する。未取得の症例がない場合、すなわち、全ての症例に対し、ステップＳ１０２の画像特徴抽出およびステップＳ１０３のレポート解析を実施済の場合は、ステップＳ１０５に進む。
【００８５】
ステップＳ１０２とステップＳ１０３の結果は相互に依存しないため、実行順は逆でも構わない。
【００８６】
ステップＳ１０５に到達した時点で、図１０で表されるデータ一式が取得できたことになる。つまり、症例ごとに画像特徴量と読影項目と疾病名とが取得される。症例番号１の症例については、医用画像中にＭ１個の病変が含まれており、各病変から抽出される画像特徴量の個数はＮＦ個である。また、読影レポート中の読影項目の数はＮ１個である。例えば、病変番号（１，１）で示される１つ目の病変のうち、１つ目の画像特徴量の値は０．８５１である。また、読影項目番号（１，１）で示される１つ目の読影項目の値は「早期濃染」である。
【００８７】
ステップＳ１０５では、ステップＳ１０２で得られた画像特徴量、ステップＳ１０３で得られた読影項目および疾病名から、読影知識を抽出する。本実施の形態では、画像特徴量、読影項目、疾病名という三項のうちの二項の相関関係を、読影知識とする。
【００８８】
以下では、画像特徴量、読影項目、疾病名という三項から得られる三組の二項の相関関係について説明する。
【００８９】
（１）（画像特徴量−読影項目）間の相関関係
１対の（画像特徴量，読影項目）間の相関関係の求め方について説明する。相関関係の表現形態は複数あるが、ここでは相関比を用いる。相関比は、質的データと量的データとの間の相関関係を表す指標であり、（式１）で表される。
【００９０】
【数１】

【００９１】
読影レポート中に、ある読影項目を含む場合および含まない場合の２カテゴリを考え、これを質的データとする。医用画像から抽出した、ある画像特徴量の値そのものを量的データとする。例えば、読影知識を抽出するための症例データベースに含まれる全症例に対し、読影レポートを、ある読影項目を含むものまたは含まないものに区分する。ここでは、読影項目「早期濃染」と画像特徴量「早期相における腫瘤内部の輝度平均値」との相関比を求める方法について説明する。（式１）においては、カテゴリｉ＝１を「早期濃染」を含むもの、カテゴリｉ＝２を「早期濃染」を含まないものとする。読影レポートに「早期濃染」を含む症例から抽出した腫瘤画像の「早期相における腫瘤内部の輝度平均値」であるｊ番目の観測値をｘ_１ｊとする。また、読影レポートに「早期濃染」を含まない症例から抽出した腫瘤画像の「早期相における腫瘤内部の輝度平均値」であるｊ番目の観測値をｘ_２ｊとする。「早期濃染」とは造影早期相にてＣＴ値が上昇することを表すため、この場合、相関比が大きく（１に近く）なることが予想される。また、早期濃染は腫瘤の種類に依存し、腫瘤の大きさには依存しないため、読影項目「早期濃染」と画像特徴量「腫瘤面積」との相関比は小さく（０に近く）なることが予想される。このようにして、全ての読影項目と全ての画像特徴量との間の相関比を計算する。
【００９２】
図１１に、読影項目と画像特徴量との間の相関関係（ここでは、相関比）の概念図を示す。左側には複数の読影項目、右側には複数の画像特徴量の名称が列挙されている。そして、相関比が閾値以上の読影項目と画像特徴量の間が実線で結ばれている。計算した相関比を最終的に閾値で二値化すると、図１１のような情報が求められることになる。その一例について補足する。肝腫瘤の造影ＣＴ検査においては、殆どの腫瘤は造影剤使用前のＣＴ画像（単純、単純ＣＴ、単純相などと呼ぶ）で低濃度に描出され、多くの場合、読影レポートに「低濃度」「ＬＤＡ（ＬｏｗＤｅｎｓｉｔｙＡｒｅａ）あり」などと記述される。そのため、「低輝度」や「ＬＤＡ」といった読影項目と、造影剤使用前のＣＴ画像における腫瘤内部の輝度平均（図１１では「単純相輝度平均」と略記載）との相関が大きくなる。
【００９３】
また、図１２に、読影項目と画像特徴量との間の相関関係（例えば、相関比）の別の概念図を示す。この図では、相関比を多値表現しており、読影項目と画像特徴量の間の実線の太さが相関比の大きさに相当している。例えば、造影早期相にてＣＴ値が上昇する「早期濃染」と、早期動脈相（早期相、動脈相とも略される）における腫瘤内部の輝度平均（図１２では「動脈相輝度平均」と略記載）との相関が大きくなっている。
【００９４】
相関比の値に着目することで、ある読影項目と相関の高い画像特徴量を特定することができる。実際には１つの症例には、複数の画像や複数の病変（腫瘤）を含む場合が多く、その場合は読影レポートには複数の病変に関する記載が含まれることになる。例えば、造影ＣＴ検査では、造影剤使用前や使用後の複数時刻におけるタイミングでＣＴ撮影を行う。そのため、スライス画像の集合が複数得られ、スライス画像の１つの集合には複数の病変（腫瘤）が含まれ、１つの病変からは複数の画像特徴量が抽出される。そのため、（スライス画像集合数）×（１人の患者から検出された病変数）×（画像特徴量の種類数）の個数だけ画像特徴量が得られ、これら複数の画像特徴量と、１つの読影レポートから抽出された複数の読影項目や疾病名との相関関係を求める必要がある。もちろん大量の症例を用いることにより、対応が正しく得られる可能性があるが、図９のように病変位置と時相を用いる等して、読影レポートの記載と、対応する画像特徴量とをある程度事前に対応づけることができれば、より正確に相関関係を求めることができる。
【００９５】
先の説明では、質的データが、ある読影項目を含むものおよび含まないものの２カテゴリである場合について説明したが、ある読影項目（例えば、「境界明瞭」）と、その対義語となる読影項目（例えば、「境界不明瞭」）との２カテゴリであってもよい。また、読影項目が「低濃度」、「中濃度」、「高濃度」などの序数尺度の場合は、それらの各々をカテゴリとして（この例では３カテゴリ）、相関比を計算してもよい。
【００９６】
また、「低濃度」、「低輝度」、「低吸収」などの同義語については、予め医用同義語辞書を作成しておき、それらを同一の読影項目として扱う。
【００９７】
（２）（画像特徴量−疾病名）間の相関関係
１対の（画像特徴量，疾病名）間の相関関係については、（画像特徴量，読影項目）間の場合と同じく相関比を用いることができる。図１３に、疾病名と画像特徴量との間の相関関係（例えば、相関比）の概念図を示す。この図では図１１と同じく相関関係を二値表現しているが、もちろん図１２のような多値表現を行うことも可能である。
【００９８】
（３）（読影項目−疾病名）間の相関関係
１対の（読影項目，疾病名）間の相関関係の求め方について説明する。相関関係の表現形態は複数あるが、ここでは支持度を用いる。支持度は、質的データ間の相関ルールを表す指標であり、（式２）で表される。
【００９９】
【数２】

【０１００】
この支持度は、全症例において読影項目Ｘと疾病名Ｙとが同時に出現する確率（共起確率）を意味する。支持度を用いることで、関連性の強い読影項目と疾病名との組合せを特定することができる。
【０１０１】
なお、支持度の代わりに、（式３）で示される確信度や、（式４）で示されるリフト値を用いても良い。
【０１０２】
【数３】

【０１０３】
【数４】

【０１０４】
確信度とは、条件部Ｘのアイテムの出現を条件としたときの結論部Ｙのアイテムが出現する確率である。リフト値とは、Ｘの出現を条件としないときのＹの出現確率に対して、Ｘの出現を条件としたときのＹの出現確率がどの程度上昇したかを示す指標である。その他、ｃｏｎｖｉｃｔｉｏｎ，φ係数を用いても良い。ｃｏｎｖｉｃｔｉｏｎ，φ係数については相関ルール分析に関する文献（例えば、非特許文献：「データマイニングとその応用」、加藤／羽室／矢田共著、朝倉書店）に記載されている。
【０１０５】
図１４に、読影項目と疾病名との間の相関関係（例えば、支持度）の概念図を示す。この図では図１１と同じく相関関係を二値表現しているが、もちろん図１２のような多値表現を行うことも可能である。
【０１０６】
以上の方法にて、ステップＳ１０５の処理を行うと、図１５、図１６、図１７のような、（画像特徴量−読影項目）間の相関関係、（画像特徴量−疾病名）間の相関関係、（読影項目−疾病名）間の相関関係が、それぞれ得られる。なお表中の数値は、図１５、図１６では相関比、図１７では支持度である。また、得られた相関関係は、図１５、図１６、図１７の形式にて読影知識データベース１０３に格納される。
【０１０７】
以上、読影知識データベース１０３の作成方法について述べた。次に、医用同義語辞書作成装置１００の動作について説明する。
【０１０８】
（実施の形態１：医用同義語辞書作成装置１００の動作の説明）
図１８は、医用同義語辞書作成装置１００が実行する処理の全体的な流れを示すフローチャートである。以下、図１８を用いて、医用同義語辞書作成装置１００が実行する処理の全体的な流れについて説明する。
【０１０９】
まず、取得部１０４は、症例データベース１０１から、読影者が診断した医用画像２０と読影レポート２１を取得し、キーワード抽出部１０５に出力する（ステップＳ３０１）。医用画像２０と読影レポート２１は、例えば、１週間単位などの固定期間ごとに取得してもよいし、ユーザが指定する任意のタイミングで取得してもよい。
【０１１０】
次に、キーワード抽出部１０５は、キーワード辞書１０２を参照することにより、取得部１０４から取得した読影レポート２１の中からキーワードを抽出し、抽出したキーワードと読影レポートＩＤ２２をリスト化してキーワード対選択部１０６に出力する（ステップＳ３０２）。特に、キーワード抽出部１０５は、画像所見２４と確定診断結果２５とからキーワードを抽出する。
【０１１１】
抽出されたキーワードと読影レポートＩＤ２２のリストの一例を図１９に示す。キーワード抽出方法としては、例えば、読影レポート２１の中から、キーワード辞書１０２に記憶されているキーワードと一致するキーワードを抽出すればよい。図１９に示すリストより、例えば、キーワード「高吸収」を含む読影レポート２１の読影レポートＩＤ２２は、ｒ＿１２およびｒ＿１４などであることが分かる。
【０１１２】
次に、キーワード対選択部１０６は、キーワード抽出部１０５から取得したキーワードリストから未選択のキーワード対を選択し、選択したキーワード対をテキスト判定部１０７、代表画像ベクトル生成部１０８、および出力部１２１に出力する（ステップＳ３０３）。
【０１１３】
なお、キーワード対選択部１０６は、キーワード対を選択する際に、疾病名の対、および診断項目の対のみを選択してもよい。疾病名は複数の診断項目の上位概念であるため、疾病名と診断項目とは直接同義語にはならない。そのため、疾病名と診断項目の対を選択しないことで、処理時間を低減することができる。
【０１１４】
次に、テキスト判定部１０７は、取得部１０４が取得した読影レポート２１に基づいて、キーワード対選択部１０６が選択したキーワード対に対して同義語判定を行い、同義語と判定した場合には、判定結果を代表画像ベクトル生成部１０８に通知する。一方、同義語と判定しなかった場合は、ステップＳ３０３へ戻る（ステップＳ３０４）。具体的な同義語判定方法としては、例えば、判定対象となるキーワードの前後に出現するキーワード頻度の類似性に基づいて、キーワード対が類義語か否かを判定すればよい。以下、キーワード対選択部１０６で「辺縁明瞭」と「高吸収」の２つのキーワードが選択された場合を例に、テキスト判定部１０７の処理の一例を説明する。つまり、テキスト判定部１０７は、図１９に示すキーワードと読影レポートＩＤ２２のリストを参照し、「辺縁明瞭」が付与されている読影レポートＩＤ２２を抽出する。テキスト判定部１０７は、抽出した読影レポートＩＤ２２の読影レポート２１の画像所見２４および確定診断結果２５に含まれるテキストデータを取得する。テキスト判定部１０７は、取得したテキストデータから「辺縁明瞭」を含む一文を選択する。テキスト判定部１０７は、選択した一文から「辺縁明瞭」以外のキーワードを抽出し、図２０に示すようなキーワードベクトルを作成する。ここで、ｔｉ（ｉ＝１〜ｎ）はキーワードｉの出現頻度、ｎはキーワードの種類数であり、各キーワードの出現頻度がベクトルの要素である。次に、テキスト判定部１０７は、「高吸収」に対するキーワードベクトルを、「辺縁明瞭」の場合と同様の手法で作成する。最後に、テキスト判定部１０７は、作成された２つのキーワードベクトル間のコサイン距離を算出し、算出した距離が閾値以下であれば同義語であると判定し、閾値より大きければ同義語でないと判定する。このようなテキストに基づいた同義語判定の詳細なアルゴリズムは、非特許文献：「山本，梅村，“辞書を用いない関連語リストの構築方法”，情報処理学会研究報告，ｖｏｌ．２００２（２０），ｐｐ．８１−８８，２００２−０３−０４」に開示されている。
【０１１５】
次に、代表画像ベクトル生成部１０８は、テキスト判定部１０７でキーワード対が同義語であると判定された場合に、キーワード対選択部１０６が選択したキーワード対と、読影知識データベース１０３に記憶されている二項間関係情報と、症例データベース１０１に記憶されている医用画像２０とを用いて、キーワード対選択部１０６から取得したキーワードに対する代表画像ベクトルを生成し、画像判定部１０９に出力する（ステップＳ３０５）。
【０１１６】
図２１にステップＳ３０５の処理の詳細なフローチャートの一例を示す。以下、図２１を用いて具体的な代表画像ベクトル生成方法について説明する。
【０１１７】
まず初めに、代表画像ベクトル生成部１０８は、キーワード対選択部１０６から取得したキーワード対の中から１つのキーワードを選択する（ステップＳ４０１）。
【０１１８】
次に、代表画像ベクトル生成部１０８は、読影知識データベース１０３から、ステップＳ４０１で選択したキーワードに対する画像重みを取得する（ステップＳ４０２）。画像重みとは、画像特徴量に掛けられる重みのことである。キーワードが読影項目の場合には、図１５に示す（画像特徴量−読影項目）間の相関関係より画像重みを取得する。例えば、キーワードが読影項目１の場合には、画像特徴量１に対する画像重みは０．８０８であり、画像特徴量２に対する画像重みは０．６２７である。また、キーワードが疾病名の場合には、図１６に示す（画像特徴量−疾病名）間の相関関係より画像重みを取得する。例えば、キーワードが疾病名１の場合には、画像特徴量１に対する画像重みは０．６７１であり、画像特徴量２に対する画像重みは０．６９７である。
【０１１９】
次に、代表画像ベクトル生成部１０８は、ステップＳ４０１で選択したキーワードが付与された医用画像２０に対して画像特徴量ベクトルを算出する（ステップＳ４０３）。キーワードが付与された医用画像２０とは、キーワードを含む読影レポート２１の作成の基となった医用画像２０のことである。画像特徴量ベクトルとは、医用画像２０から算出された画像特徴量をベクトル表現したものである。例えば、画像特徴量としてエッジ強度と輝度分散を算出する場合は、医用画像２０から算出したエッジ強度の平均値ｓと輝度分散の平均値ｔを、画像特徴量ベクトル（ｓ，ｔ）として出力する。実際には、前述のように臓器および病変部分の形状および輝度分布に関する数十〜数百種の画像特徴量を用いるため、画像特徴量ベクトルは数十から数百次元のベクトルとなる。なお、個々の医用画像２０に対して算出される画像特徴量は、予め症例データベース１０１に記憶しておき、症例データベース１０１を参照することで取得しても構わない。これにより、本ステップでの処理時間が低減できる。
【０１２０】
次に、代表画像ベクトル生成部１０８は、ステップＳ４０５から取得した画像重みを、ステップＳ４０６で算出した画像特徴量ベクトルに掛け合わせ、代表画像ベクトルとして出力する（ステップＳ４０４）。例えば、ステップＳ４０２で画像重み（エッジ強度の重みｗ１，輝度分散の重みｗ２）が取得され、ステップＳ４０３で画像特徴量ベクトル（例えばエッジ強度の平均値ｆ１と輝度分散の平均値ｆ２）が、（ｆ１，ｆ２）のベクトル形式で出力されたとする。この場合、ステップＳ４０４で、代表画像ベクトル生成部１０８は、代表画像ベクトルとして、画像特徴量ベクトルに画像重みを掛け合わせた（ｗ１・ｆ１，ｗ２・ｆ２）を出力する。
【０１２１】
なお、ステップＳ４０３では、画像特徴量ベクトルを、画像ＩＤ２３と画像特徴量とを対応付けたリスト形式で出力してもよい。この場合、ステップＳ４０４では、画像ＩＤ２３ごとに画像重みと画像特徴量ベクトルを掛け合わせ、最後に掛け合わせにより得られるベクトルの平均ベクトルを代表画像ベクトルとして出力すればよい。
【０１２２】
ステップＳ４０４で代表画像ベクトルを算出することにより、前述した「辺縁明瞭」と「高吸収」の同義語関係を画像の類似性を用いて評価する際、「辺縁明瞭」の画像に対しては形状情報、「高吸収」の画像に対しては濃度情報の画像特徴量に大きな重みを重みづけることができるため、画像の類似性に基づくキーワード間の同義語判定を正しく行うことが可能になる。
【０１２３】
最後に、代表画像ベクトル生成部１０８は、キーワード対選択部１０６から取得した全てのキーワードが、ステップＳ４０１において選択されたか否かを判定し、選択されてないキーワードがある場合はステップＳ４０１へ戻り、全てのキーワードが選択されている場合は処理を終了する（ステップＳ４０５）。
【０１２４】
以上のステップＳ４０１〜Ｓ４０５の処理を行うことにより、ステップＳ３０５において、ステップＳ３０３で選択したキーワードに対する代表画像ベクトルを生成することが可能になる。
【０１２５】
なお、ステップＳ４０１で選択したキーワードが読影項目の場合は、共起する疾病名による重みを付加した代表画像ベクトルを生成してもよい。
【０１２６】
図１７に示すように、疾病名と読影項目の相関関係（支持度）は疾病名によって異なる。支持度の値は、疾病名に対する読影項目の寄与度を示す。医師が疾病名を決める際に典型的に利用される読影項目に対する支持度は高くなり、一方、Ｓ３０１で取得された症例が非典型な症例の場合、または、医用同義語辞書作成装置による読影項目の誤抽出があった場合には、疾病名に対する読影項目の支持度は低くなる。代表画像ベクトルは各読影項目に対する典型的な画像特徴量を示すベクトルであり、支持度の低い読影項目が付与された画像は、代表画像ベクトルを作成する際のノイズ要因の一つになる。例えば、「高吸収」という読影項目は、「肝細胞癌（疾病名）」の診断に典型的に用いられるため、「肝細胞癌」に対する「高吸収」の支持度は高い値となり、濃度に関する画像特徴量の重みが大きくなる。一方、「高吸収」は「嚢胞（疾病名）」の診断には殆ど用いられないため、「嚢胞」に対する「高吸収」の支持度の値は低くなり、濃度に関する画像特徴量の重みが小さくなる。よって、代表画像ベクトルを作成する際に、このような支持度の低い症例を取り除くことができれば、より正しく画像の類似性を評価することができ、医用同義語辞書の精度を向上させることができる。
【０１２７】
具体的なステップＳ３０５の処理のフローチャートを図２２に示す。以下、図２２を用いて、読影項目と共起する疾病名による重みを付加した代表画像ベクトル生成方法について説明する。なお、図２１と同じ構成要素については同じ符号を付し、説明を繰り返さない。
【０１２８】
ステップＳ４０１〜Ｓ４０３の処理の実行後、代表画像ベクトル生成部１０８は、ステップＳ４０１で取得したキーワードのキーワード属性３１が読影項目か否かを判定し、読影項目の場合はステップＳ５０２に進み、読影項目でなかった場合はステップＳ４０４に進む（ステップＳ５０１）。
【０１２９】
次に、代表画像ベクトル生成部１０８は、ステップＳ４０１で取得したキーワードと共起する疾病名を取得し、画像ＩＤ２３と共にリスト化する（ステップＳ５０２）。具体的には、代表画像ベクトル生成部１０８は、取得したキーワードが含まれる画像所見２４と同じ読影レポート２１に含まれる確定診断結果２５を、取得したキーワードとともに共起する疾病名として決定する。代表画像ベクトル生成部１０８は、確定診断結果２５を、確定診断結果２５と同じ読影レポート２１に含まれる画像ＩＤ２３と共にリスト化する。
【０１３０】
次に、代表画像ベクトル生成部１０８は、ステップＳ４０１で選択した読影項目と、ステップＳ５０２で取得した疾病名との間の相関関係（支持度）を、（読影項目−疾病名）の重みとして読影知識データベース１０３から取得し、画像ＩＤ２３と共にリスト化する（ステップＳ５０３）。この画像ＩＤ２３は、ステップＳ５０２で説明した画像ＩＤ２３と同じである。
【０１３１】
次に、代表画像ベクトル生成部１０８は、ステップＳ４０５から取得したキーワード重みベクトルと、ステップＳ４０６で算出した画像特徴量ベクトルと、ステップＳ５０３から取得した（読影項目−疾病名）の重みを掛け合わせることにより、代表画像ベクトルを算出する（ステップＳ５０４）。例えば、ステップＳ４０１で読影項目Ａが選択された時に、ステップＳ４０２で読影項目Ａに対する画像重み（ｗ１，ｗ２）が取得されたとする。また、ステップＳ４０３で画像特徴量ベクトル（例えばエッジ強度の値ｆ１と輝度分散の値ｆ２）が、画像ＩＤ２３ごとに（ｆ１，ｆ２）のベクトル形式で算出されたとする。また、ステップＳ５０３では（読影項目−疾病名）の重みαが画像ＩＤ２３ごとに取得されたとする。このとき、ステップＳ５０４では、代表画像ベクトル生成部１０８は、画像特徴量ベクトル（ｆ１，ｆ２）に、画像重み（ｗ１，ｗ２）と（読影項目−疾病名）の重みαを掛け合わせた（α・ｗ１・ｆ１，α・ｗ２・ｆ２）を画像ＩＤ２３ごとに算出し、これらの平均ベクトルを代表画像ベクトルとして出力する。
【０１３２】
ステップＳ５０４またはＳ４０４の処理後、ステップＳ４０５の処理が実行される。
【０１３３】
以上のステップＳ４０１〜Ｓ４０５およびステップＳ５０１〜Ｓ５０４の処理を行うことにより、ステップＳ３０５において、ステップＳ３０３で選択したキーワードが読影項目の場合に、共起する疾病名による重みを付加した代表画像ベクトルを生成することが可能になる。例えば、「高吸収」という読影項目に対する代表画像ベクトルを作成する場合では、肝細胞癌と共起して利用されている画像に対しては重みが大きく付与され、一方、嚢胞と共起して利用されている画像に対しては小さい重みが付与される。このため、実際には肝細胞癌の画像のみを用いて代表画像ベクトルを作成することができ、「高吸収」に対してより典型的な画像特徴量を表す画像ベクトルを作成することができる。
【０１３４】
ここで、図１８に示した医用同義語辞書作成装置１００の動作の説明に戻る。
【０１３５】
画像判定部１０９は、代表画像ベクトル生成部１０８から取得した代表画像ベクトルを用いて、キーワード対選択部１０６が選択したキーワード対の同義語関係を再判定し、判定結果を出力部１２１に通知する（ステップＳ３０６）。
【０１３６】
例えば、画像判定部１０９は、代表画像ベクトル間のユークリッド距離を算出し、算出した距離が閾値以下の場合に、選択したキーワード対が同義語であると判定し、算出した距離が閾値よりも大きい場合に、選択したキーワード対が同義語でないと判定する。これにより、複数の画像特徴量の中から、医師が着目した画像特徴量のみを用いて画像の類似性を評価することができる。
【０１３７】
次に、出力部１２１は、画像判定部１０９で同義語と判定された場合に、キーワード対選択部１０６から取得したキーワード対を、医用同義語辞書に含まれる同義語として記憶部１１０に書き込む（ステップＳ３０７）。これにより、記憶部１１０には複数の同義語を含む医用同義語辞書が記憶される。
【０１３８】
最後に、キーワード対選択部１０６は、ステップＳ３０３で全てのキーワード対を選択下か否かを判定し、選択されていないキーワード対がある場合にはステップＳ３０３に戻り、全てのキーワード対が選択されている場合には処理を終了する（ステップＳ３０８）。
【０１３９】
以上、図１８に示すステップＳ３０１〜Ｓ３０８の処理を実行することにより、医用同義語辞書作成装置１００は、キーワードに適合する画像特徴量を動的に選択することができ、読影レポート２１に対して画像の類似性に基づく医用同義語辞書を作成することができる。
【０１４０】
（従来手法との比較）
例えば「辺縁明瞭」と「高吸収」の同義語関係を画像の類似性を用いて評価する場合、特許文献１の手法では、形状情報と濃度情報の両方を用いて画像の類似性を評価するため、キーワードとは関係の無い画像特徴量が類似評価に含まれてしまい、同義語であると間違って判定される可能性がある。しかし、本手法では「辺縁明瞭」の画像に対しては形状情報、「高吸収」の画像に対しては濃度情報の値に重みづけて画像の類似度を評価できるため、画像の類似度は低くなり、この２つのキーワードは同義語ではないと正しく判定することができる。
【０１４１】
以上のように、本実施の形態に係る医用同義語辞書作成装置１００は、キーワードに適合する画像特徴量を動的に選択することにより、読影レポート２１に対して画像の類似性に基づいた医用同義語辞書を作成することができる。
【０１４２】
なお、症例データベース１０１、キーワード辞書１０２、および読影知識データベース１０３は、医用同義語辞書作成装置１００に備えられていてもよい。
【０１４３】
また、症例データベース１０１、キーワード辞書１０２、および読影知識データベース１０３は、医用同義語辞書作成装置１００とネットワークを介して接続されたサーバ上に備えられてもよい。
【０１４４】
また、読影レポート２１は、医用画像２０内に付属データとして含まれていてもよい。
【０１４５】
（実施の形態１の変形例）
図１に示した実施の形態１に係る医用同義語辞書作成装置１００の同義語判定部１２０は、テキスト判定部１０７、代表画像ベクトル生成部１０８、画像判定部１０９の順に処理を実行した。つまり、テキスト判定部１０７が、キーワード対選択部１０６が選択したキーワード対が同義語か否かを判定する。次に、代表画像ベクトル生成部１０８および画像判定部１０９が、テキスト判定部１０７が同義語であると判定したキーワード対について同義語か否かを再判定する。
【０１４６】
実施の形態１の変形例では、同義語判定部による同義語判定の順序が実施の形態１とは異なる。
【０１４７】
図２３は、実施の形態１の変形例に係る医用同義語辞書作成装置の特徴的な機能構成を示すブロック図である。
【０１４８】
医用同義語辞書作成装置１００Ａは、図１に示した医用同義語辞書作成装置１００の構成において、同義語判定部１２０の代わりに、同義語判定部１２０Ａを用いている点が異なる。それ以外の構成は実施の形態１と同様であるため、その詳細な説明は繰り返さない。
【０１４９】
同義語判定部１２０Ａは、代表画像ベクトル生成部１０８と、画像判定部１０９と、テキスト判定部１０７とを含む。各処理部は接続先が実施の形態１とは異なるが、処理は実施の形態１と同様である。
【０１５０】
つまり、代表画像ベクトル生成部１０８は、キーワード対選択部１０６が選択したキーワード対と、読影知識データベース１０３に記憶されている二項間関係情報と、症例データベース１０１に記憶されている医用画像２０とを用いて、キーワード対選択部１０６が選択したキーワード対を構成する各キーワードに対する代表画像ベクトルを生成し、画像判定部１０９に出力する。
【０１５１】
画像判定部１０９は、代表画像ベクトル生成部１０８が生成した代表画像ベクトルを用いて、キーワード対選択部１０６が選択したキーワード対が同義語であるか否かを判定し、判定結果をテキスト判定部１０７に出力する。
【０１５２】
テキスト判定部１０７は、画像判定部１０９でキーワード対選択部１０６が選択したキーワード対が同義語であると判定された場合に、読影レポート２１に基づいて、キーワード対選択部１０６が選択したキーワード対に対して同義語であるか否かの再判定を行い、同義語と判定した場合には、判定結果を出力部１２１に出力する。具体的な同義語判定方法については後述する。
【０１５３】
実施の形態１の変形例に係る医用同義語辞書作成装置１００Ａは、キーワードに適合する画像特徴量を動的に選択することにより、読影レポート２１に対して画像の類似性に基づいた医用同義語辞書を作成することができる。
【０１５４】
（実施の形態２）
次に、本発明の実施の形態２に係る医用同義語辞書作成装置２００について、図面を用いて詳細に説明する。
【０１５５】
本実施の形態の医用同義語辞書作成装置２００は、症例データベース１０１に記憶されている症例データが更新された際に、医用同義語辞書を自動的に更新する特徴を有する。
【０１５６】
上述の実施の形態１に係る医用同義語辞書作成装置１００は、症例データベース１０１が与えられた際に医用同義語辞書を自動的に算出する。ここで、症例データベース１０１には日々の診断の結果が蓄積され、逐次更新される特徴を持つ。医用同義語辞書に存在しないキーワードを含んだ読影レポート２１が、症例データベース１０１に新しく追加された場合、新たに追加されたキーワードに対しては、そのキーワードと同義語となるキーワードが存在するか否かについて決定されていない。このため、この新たに追加されたキーワードを使った汎用性の高い検索を行うことができないという問題が生じる。
【０１５７】
そこで本実施の形態における医用同義語辞書作成装置２００は、症例データベース１０１に記憶されている症例データの更新に応じて、キーワードに関する医用同義語辞書を新たに作成し、記憶部１１０に記憶する。
【０１５８】
これにより、症例データベース１０１に記憶されている症例データが更新された場合であっても、汎用性の高い検索が可能になる。
【０１５９】
以下、初めに図２４を参照しながら、医用同義語辞書作成装置２００の各構成について順に説明する。
【０１６０】
（実施の形態２：構成の説明）
図２４は、本発明の実施の形態２に係る医用同義語辞書作成装置２００の特徴的な機能構成を示すブロック図である。
【０１６１】
図２４において、図１と同じ構成要素については同じ符号を付し、説明を繰り返さない。図２４に示す医用同義語辞書作成装置２００が図１に示す医用同義語辞書作成装置１００と相違する点は、症例データベース１０１から取得した症例から、医用同義語辞書を更新するか否かを判定する更新制御部２０１を有する点である。
【０１６２】
更新制御部２０１は、症例データベース１０１から取得した医用画像２０および読影レポート２１を用いて、医用同義語辞書を更新するか否かを判定する。ここで、更新すると判定した場合は、更新制御部２０１は、取得部１０４、キーワード抽出部１０５、キーワード対選択部１０６、同義語判定部１２０および出力部１２１を動作させ、医用同義語辞書に含まれる同義語を更新する。一方、更新しないと判定した場合には、更新制御部２０１は、医用同義語辞書に含まれる同義語の更新を行わない。医用同義語辞書を更新するか否かの具体的な判定方法については後述する。
【０１６３】
次に、以上のように構成された医用同義語辞書作成装置２００の動作について説明する。
【０１６４】
（実施の形態２：動作の説明）
図２５は、医用同義語辞書作成装置２００が実行する処理の全体的な流れを示すフローチャートである。図２５において、図１８と同じ構成要素については同じ符号を付し、説明を繰り返さない。
【０１６５】
更新制御部２０１は、症例データベース１０１から取得した症例データを用いて、医用同義語辞書を更新するか否かを判定する。ここで、医用同義語辞書を更新すると判定した場合は、ステップＳ３０１へ進む。一方、医用同義語辞書を更新しないと判定した場合には、処理を終了する（ステップＳ６０１）。
【０１６６】
具体的には、更新制御部２０１は、症例データベース１０１に記憶されている症例データが追加、削除または変更されることにより、症例データが更新された場合に、医用同義語辞書を更新すると判定し、症例データが更新されていない場合に、医用同義語辞書を更新しないと判定する。
【０１６７】
更新制御部２０１は、症例データが更新された場合に、全てのキーワードについて医用同義語辞書を更新しても良いし、症例データベース１０１に記憶されている全症例データにおける各キーワードの出現頻度をカウントし、出現頻度が閾値以下のキーワードに対してのみ、医用同義語辞書を更新してもよい。症例データベース１０１内に含まれるキーワードの出現頻度が十分に大きければ、既に十分な数のデータを用いて同義語関係が評価されたことになる。このような高頻度のキーワードが新しく追加された場合は、仮にキーワードベクトル間のコサイン距離および代表画像ベクトル間のユークリッド距離の再計算を行ったとしても値は大きく変化しないため、医用同義語辞書の更新を行う必要性が低い。一方、出現頻度が少ないキーワードに対しては、同義語関係の不確実性が高いため、医用同義語辞書を更新する必要性が高い。このように、症例データベース内のキーワード頻度に応じて同義語辞書の更新の可否を判定することにより、更新時の計算量を低減できるため、更新時間を短縮することができる。
【０１６８】
以上のように、本実施の形態に係る医用同義語辞書作成装置２００は、症例データベース１０１に記憶されている症例データが更新された場合であっても、医用同義語辞書を自動的に更新することができるため、より汎用性の高い医用同義語辞書を用いた検索が可能になる。
【０１６９】
以上、本発明に係る医用同義語辞書作成装置について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、異なる実施の形態における構成要素を組み合わせて構築される形態なども、本発明の範囲内に含まれる。
【０１７０】
例えば、実施の形態２に係る医用同義語辞書作成装置２００の同義語判定部１２０の代わりに、実施の形態１の変形例で説明した同義語判定部１２０Ａを用いても良い。
【０１７１】
また、実施の形態１または実施の形態２で作成され記憶部１１０に記憶された医用同義語辞書は、診断の支援に用いたり、医用情報の検索に用いたりすることができる。例えば、図２６に示すように、医用同義語辞書データベース３０１と、診断支援装置３０２または検索装置３０３とをインターネット等のネットワーク３０４を介して接続しても良い。医用同義語辞書データベース３０１には、記憶部１１０に記憶されたのと同じ医用同義語辞書が記憶されている。診断支援装置３０２は、医用同義語辞書データベース３０１に記憶されている医用同義語辞書を参照することにより、読影項目または疾病名の同義語も含めて診断支援を行う。また、検索装置３０３は、医用同義語辞書データベース３０１に記憶されている医用同義語辞書を参照することにより、読影項目または疾病名の同義語も含めて類似症例の検索を行う。
【０１７２】
また、上記の医用同義語辞書作成装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクドライブ、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムとして構成されても良い。ＲＡＭまたはハードディスクドライブには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、医用同義語辞書作成装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
【０１７３】
さらに、上記の医用同義語辞書作成装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしても良い。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。ＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。
【０１７４】
さらにまた、上記の医用同義語辞書作成装置を構成する構成要素の一部または全部は、医用同義語辞書作成装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしても良い。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールは、上記の超多機能ＬＳＩを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしても良い。
【０１７５】
また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。
【０１７６】
さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な非一時的な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標））、半導体メモリなどに記録したものとしても良い。また、これらの非一時的な記録媒体に記録されている上記デジタル信号であるとしても良い。
【０１７７】
また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
【０１７８】
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。
【０１７９】
また、上記プログラムまたは上記デジタル信号を上記非一時的な記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。
【産業上の利用可能性】
【０１８０】
本発明は、画像診断分野の読影レポートにおける医用同義語辞書作成装置等として利用可能である。
【符号の説明】
【０１８１】
２０医用画像
２１読影レポート
２２読影レポートＩＤ
２３画像ＩＤ
２４画像所見
２５確定診断結果
３０キーワード名
３１キーワード属性
１００、１００Ａ、２００医用同義語辞書作成装置
１０１症例データベース
１０２キーワード辞書
１０３読影知識データベース
１０４取得部
１０５キーワード抽出部
１０６キーワード対選択部
１０７テキスト判定部
１０８代表画像ベクトル生成部
１０９画像判定部
１１０記憶部
１２０、１２０Ａ同義語判定部
１２１出力部
１２２表示装置
２０１更新制御部
３０１医用同義語辞書データベース
３０２診断支援装置
３０３検索装置
３０４ネットワーク

【特許請求の範囲】
【請求項１】
医用画像と、当該医用画像を読影した結果が記載された文書データである読影レポートとを取得する取得部と、
医用画像の特徴を示す文字列の読影項目または医用画像の診断結果を示す文字列の疾病名であるキーワードが登録されているキーワード辞書データを参照して、前記取得部が取得した読影レポートから前記キーワード辞書データに登録されているキーワードを抽出するキーワード抽出部と、
前記キーワード抽出部が抽出したキーワードからキーワード対を選択するキーワード対選択部と、
前記キーワード対選択部が選択したキーワード対が同義語であるか否かを判定する同義語判定部と、
前記同義語判定部が同義語であると判定したキーワード対を、医用同義語辞書に含まれる同義語として出力する出力部と
を備え、
前記同義語判定部は、（ｉ）前記読影レポートに基づいて、前記キーワード対が同義語であるか否かを判定し、（ｉｉ）医用画像から抽出される各画像特徴量と前記医用画像に対するキーワードとの間の関連性を予め定めた二項間関係情報に基づいて、前記キーワード対を構成するキーワードごとに当該キーワードの作成の基となった医用画像から算出した各画像特徴量に対して当該画像特徴量と当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより、重み付けされた各画像特徴量を要素とする各キーワードの画像特徴量ベクトルを作成し、前記キーワード対に対する２つの画像特徴量ベクトルを比較することにより、前記キーワード対が同義語であるか否かを判定し、（ｉｉｉ）２つの判定結果が共に同義語であることを示す場合に、前記キーワード対選択部が選択したキーワード対が同義語であると判定する
医用同義語辞書作成装置。
【請求項２】
前記同義語判定部は、
前記読影レポートに基づいて、前記キーワード対が同義語であるか否かを判定するテキスト判定部と、
前記テキスト判定部で同義語であると判定された場合に、前記二項間関係情報に基づいて、前記キーワード対を構成するキーワードごとに当該キーワードの作成の基となった医用画像から算出した各画像特徴量に対して当該画像特徴量と当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより、重み付けされた各画像特徴量を要素とする各キーワードの画像特徴量ベクトルを生成する代表画像ベクトル生成部と、
前記代表画像ベクトル生成部が生成した前記キーワード対に対する２つの画像特徴量ベクトルを比較することにより、前記キーワード対が同義語であるか否かを判定する画像判定部と
を含み、
前記出力部は、前記画像判定部が同義語であると判定したキーワード対を、前記医用同義語辞書に含まれる同義語として出力する
請求項１記載の医用同義語辞書作成装置。
【請求項３】
前記同義語判定部は、
前記二項間関係情報に基づいて、前記キーワード対を構成するキーワードごとに当該キーワードの作成の基となった医用画像から算出した各画像特徴量に対して当該画像特徴量と当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより各キーワードの画像特徴量ベクトルを生成する代表画像ベクトル生成部と、
前記代表画像ベクトル生成部が生成した前記キーワード対に対する２つの画像特徴量ベクトルを比較することにより、前記キーワード対が同義語であるか否かを判定する画像判定部と、
前記画像判定部で同義語であると判定された場合に、前記読影レポートに基づいて、前記キーワード対が同義語であるか否かを判定するテキスト判定部と
を含み、
前記出力部は、前記テキスト判定部が同義語であると判定したキーワード対を、前記医用同義語辞書に含まれる同義語として出力する
請求項１記載の医用同義語辞書作成装置。
【請求項４】
前記テキスト判定部は、前記キーワード対を構成する各キーワードについて、前記読影レポート中の当該キーワードを含む文章中の当該キーワード以外のキーワードの出現頻度をベクトルの要素とするキーワードベクトルを作成し、作成したキーワードベクトル間の距離が第１閾値以下であれば、前記キーワード対が同義語であると判定する
請求項２または３に記載の医用同義語辞書作成装置。
【請求項５】
前記代表画像ベクトル生成部は、前記キーワード対を構成するキーワードが読影項目である場合、医用画像から抽出される各画像特徴量と前記医用画像に対する読影項目との関連性を予め定めた二項間関係情報に基づいて、当該キーワードの作成の基となった医用画像から算出した各画像特徴量に当該画像特徴量と読影項目である当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより当該キーワードの画像特徴量ベクトルを生成する
請求項２または３に記載の医用同義語辞書作成装置。
【請求項６】
前記代表画像ベクトル生成部は、前記キーワード対を構成するキーワードが疾病名である場合、医用画像から抽出される各画像特徴量と前記医用画像に対する疾病名との関連性を予め定めた二項間関係情報に基づいて、当該キーワードの作成の基となった医用画像から算出した各画像特徴量に当該画像特徴量と疾病名である当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより当該キーワードの画像特徴量ベクトルを生成する
請求項２または３に記載の医用同義語辞書作成装置。
【請求項７】
前記代表画像ベクトル生成部は、前記キーワード対を構成するキーワードが読影項目である場合、（ｉ）医用画像から抽出される各画像特徴量と前記医用画像に対する読影項目との関連性を予め定めた二項間関係情報に基づいて、当該キーワードの作成の基となった医用画像から算出した各画像特徴量に当該画像特徴量と読影項目である当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うとともに、（ｉｉ）前記読影レポートの中から当該キーワードと共起する疾病名を検出し、読影項目と疾病名との関連性を予め定めた二項間関係情報に基づいて、前記各画像特徴量を読影項目である当該キーワードと当該キーワードと共起する前記疾病名との間の関連性が高いほど大きな値の重みでさらに重み付けを行うことにより、重み付けされた各画像特徴量を要素とする当該キーワードの画像特徴量ベクトルを生成する
請求項２または３に記載の医用同義語辞書作成装置。
【請求項８】
前記キーワード対選択部は、読影項目同士または疾病名同士のキーワード対のみを選択する
請求項１〜７のいずれか１項に記載の医用同義語辞書作成装置。
【請求項９】
さらに、
前記出力部が出力するキーワード対を、前記医用同義語辞書に含まれる同義語として記憶する記憶部を備える
請求項１〜８のいずれか１項に記載の医用同義語辞書作成装置。
【請求項１０】
前記取得部は、医用画像と当該医用画像に対する読影レポートとの組である症例データが記憶されている症例データベースから、前記医用画像と前記読影レポートとを取得し、
前記医用同義語辞書作成装置は、さらに、
前記症例データベースに記憶されている症例データが更新されているか否かを判断し、前記症例データが更新されていると判断した場合に、前記取得部、前記キーワード抽出部、前記キーワード対選択部、前記同義語判定部および前記出力部を動作させ、前記医用同義語辞書に含まれる同義語を更新する更新制御部を備える
請求項１〜９のいずれか１項に記載の医用同義語辞書作成装置。
【請求項１１】
前記更新制御部は、前記症例データが更新されていると判断した場合に、前記取得部、前記キーワード抽出部、前記キーワード対選択部、前記同義語判定部および前記出力部を動作させることにより、前記医用同義語辞書に含まれる全てのキーワードについて同義語を更新する
請求項１０に記載の医用同義語辞書作成装置。
【請求項１２】
前記更新制御部は、（ｉ）前記症例データベースに記憶されている前記症例データにおける各キーワードの出現頻度を算出し、（ｉｉ）前記症例データが更新されていると判断した場合に、前記取得部、前記キーワード抽出部、前記キーワード対選択部、前記同義語判定部および前記出力部を動作させることにより、出現頻度が第２閾値以下のキーワードについてのみ同義語を更新する
請求項１０に記載の医用同義語辞書作成装置。
【請求項１３】
医用画像と、当該医用画像を読影した結果が記載された文書データである読影レポートとを取得する取得ステップと、
医用画像の特徴を示す文字列の読影項目または医用画像の診断結果を示す文字列の疾病名であるキーワードが登録されているキーワード辞書データを参照して、前記取得ステップで取得された読影レポートから前記キーワード辞書データに登録されているキーワードを抽出するキーワード抽出ステップと、
前記キーワード抽出ステップで抽出されたキーワードからキーワード対を選択するキーワード対選択ステップと、
前記キーワード対選択ステップで選択されたキーワード対が同義語であるか否かを判定する同義語判定ステップと、
前記同義語判定ステップで同義語であると判定されたキーワード対を、医用同義語辞書に含まれる同義語として出力する出力ステップと
を含み、
前記同義語判定ステップでは、（ｉ）前記読影レポートに基づいて、前記キーワード対が同義語であるか否かを判定し、（ｉｉ）医用画像から抽出される各画像特徴量と前記医用画像に対するキーワードとの間の関連性を予め定めた二項間関係情報に基づいて、前記キーワード対を構成するキーワードごとに当該キーワードの作成の基となった医用画像から算出した各画像特徴量に対して当該画像特徴量と当該キーワードとの間の関連性が高いほど大きな値の重み付けを行うことにより、重み付けされた各画像特徴量を要素とする各キーワードの画像特徴量ベクトルを作成し、前記キーワード対に対する２つの画像特徴量ベクトルを比較することにより、前記キーワード対が同義語であるか否かを判定し、（ｉｉｉ）２つの判定結果が共に同義語であることを示す場合に、前記キーワード対選択ステップで選択されたキーワード対が同義語であると判定する
医用同義語辞書作成方法。
【請求項１４】
請求項１３に記載の医用同義語辞書作成方法に含まれる各ステップをコンピュータに実行させるためのプログラム。

【図１】