説明

類似文書検索装置および類似文書検索方法

【課題】 検索効率および検索速度を落とすことなく、さらに、検索を行うために必要な情報の不足を補う。
【解決手段】 検索対象文書と検索キー文書とを比較する対象となる単語を文書から抽出する第1の抽出ルールおよび第2の抽出ルールとを記憶する抽出ルール記憶部と、第1の抽出ルールに基づいて検索キー単語を抽出する検索キー単語抽出部と、抽出単語数を基準単語数と比較したとき、抽出単語数が基準単語数よりも少ない場合、第2の抽出ルールに基づいてさらに検索キー単語を抽出する第二次検索キー単語抽出部と、検索対象文書から検索対象文書単語を抽出する検索対象文書単語抽出部と、検索キー単語抽出部または第二次検索キー単語抽出部で抽出された検索キー単語と、検索対象文書単語とを比較して類似度を算出する類似度算出部と、類似度算出部で算出された類似度をソートして、類似度が高い検索対象文書を類似文書と決定するソート部とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、類似文書を検索する類似文書検索装置および類似文書検索方法に関する。
【背景技術】
【0002】
従来、文書をキーとし、予め記憶している複数の検索対象文書から検索キー文書と類似する文書を検索する文書検索装置が利用されている。
【0003】
このような従来の文書検索装置は、検索キー文書から抽出された単語と、検索対象文書から抽出された単語とを比較し、検索キー文書と複数の検索対象文書との類似度を算出した上で、算出された類似度の高い検索対象文書を類似文書としている。
【0004】
また、上述したような文書中の単語を利用して類似文書を抽出する文書検索の技術では、検索の効率化や高速化を図るため、検索に有用な範囲を限定し、特定の範囲のみから、比較の対象とする単語の抽出を行う方法が用いられることがある。
【0005】
一方、特定の範囲から単語を抽出する場合、例えば、範囲を特定するための見出しや記号が欠如したとき、または、特定のフォーマットと異なる書式データが検索キー文書に指定されたとき等、比較の対象とする単語が十分に抽出されないことがある。必要な単語が抽出できない場合、検索の精度が著しく低下するおそれがある。
【0006】
このような精度の低下を回避するために、あらかじめ指定された代替データを、不足部分にあてがうなどして、検索に必要な情報量すなわち単語数を一定に保つ文書検索装置及び文書検索方法もある。 (例えば、特許文献1参照)。
【特許文献1】特開2003−022276号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1に記載されているような代替データを用いる方法では、検索キー文書が所定のフォーマットに従っていない場合、代替する領域の特定も不可能となり、データの不足を補うことができない問題が生じることがある。
【0008】
上記課題に鑑み、本発明は、検索効率および検索速度を落とすことなく、過度の情報の補填を抑制し、さらに、検索を行うために必要な情報の不足を補うことができる類似文書検索装置および類似文書検索方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決するために、本発明の特徴に係る類似文書検索装置は、検索対象文書記憶部に記憶される複数の検索対象文書と比較して、検索キー文書と類似する検索対象文書を検索する文書検索装置であって、文書から単語を抽出する際、検索結果の精度を保証するために最小の単語数である基準単語数を記憶する基準単語数格納バッファ部と、検索対象文書と検索キー文書とを比較する対象となる単語を文書から抽出する第1の抽出ルールと、第1の抽出ルールで抽出された単語数である抽出単語数が基準単語数以下である場合に検索対象文書と検索キー文書とを比較する対象となる単語を文書から抽出する第2の抽出ルールとを記憶する抽出ルール記憶部と、第1の抽出ルールに基づいて検索キー単語を抽出する検索キー単語抽出部と、抽出単語数を基準単語数と比較したとき、抽出単語数が基準単語数よりも少ない場合、第2の抽出ルールに基づいてさらに検索キー単語を抽出する第二次検索キー単語抽出部と、検索対象文書から検索対象文書単語を抽出する検索対象文書単語抽出部と、検索キー単語抽出部または第二次検索キー単語抽出部で抽出された検索キー単語と、検索対象文書単語とを比較して類似度を算出する類似度算出部と、類似度算出部で算出された類似度をソートして、類似度が高い検索対象文書を類似文書と決定するソート部とを有することを特徴とする。
【0010】
上記構成による本発明によれば、必要最低限の情報量により比較を行うことで、検索精度の低下を抑制し、効率を向上させることができる。
【発明の効果】
【0011】
本発明によれば、検索効率および検索速度を落とすことなく、過度の情報の補填を抑制し、さらに、検索を行うために必要な情報の不足を補う類似文書検索装置および類似文書検索方法を提供することができる。
【発明を実施するための最良の形態】
【0012】
以下、図面を参照して、本発明の最良の実施の形態を説明する。
【0013】
<類似文書検索装置>
図1は、本発明の最良の実施の形態に係る類似文書検索装置1を示すブロック構成図である。図1に示すように類似文書検索装置1は、検索制御部10、検索対象文書記憶部11、形態素解析辞書記憶部12、抽出ルール記憶部13、入力制御部14、出力制御部15を有している。
【0014】
本発明の最良の実施の形態に係る類似文書検索装置1は、図2に示すように、中央処理制御装置121、ROM(Read Only Memory)122、RAM(Random Access Memory)123および入出力インタフェース129が、バス130を介して接続されている。入出力インタフェース129には、入力装置124、表示装置125、通信制御装置126、記憶装置127およびリムーバブルディスク128が接続されている。
【0015】
中央処理制御装置121は、入力装置124からの入力信号に基づいてROM122から類似文書検索装置1を起動するためのブートプログラムを読み出して実行し、更に記憶装置127に記憶されたオペレーティングシステムを読み出す。更に中央処理制御装置121は、入力装置124や通信制御装置126などの入力信号に基づいて、各種装置の制御を行ったり、RAM123や記憶装置127などに記憶されたプログラムおよびデータを読み出してRAM123にロードするとともに、RAM123から読み出されたプログラムのコマンドに基づいて、データの計算または加工など、後述する一連の処理を実現する処理装置である。
【0016】
入力装置124は、操作者が各種の操作を入力するキーボード、マウスなどの入力デバイスにより構成されており、操作者の操作に基づいて入力信号を作成し、入出力インタフェース129およびバス120を介して中央処理制御装置121に送信される。表示装置125は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどであり、中央処理制御装置121からバス120および入出力インタフェース129を介して表示装置125において表示させる出力信号を受信し、たとえば、中央処理制御装置121の処理結果などを表示する装置である。通信制御装置126は、LANカードやモデムなどの装置であり、類似文書検索装置1をインターネットやLANなどの通信ネットワークに接続する装置である。通信制御装置126を介して通信ネットワークと送受信したデータは入力信号または出力信号として、入出力インタフェース129およびバス120を介して中央処理制御装置121に送受信される。
【0017】
記憶装置127は半導体記憶装置または磁気ディスク装置等であって、中央処理制御装置121で実行されるプログラムやデータが記憶されている。リムーバブルディスク128は、光ディスクやフレキシブルディスクのことであり、ディスクドライブによって読み書きされた信号は、入出力インタフェース129およびバス120を介して中央処理制御装置121に送受信される。本発明に係る類似文書検索装置1の記憶装置127には、画面提供プログラムが記憶されるとともに、検索対象文書記憶部11、形態素解析辞書記憶部12および、抽出ルール記憶部13が記憶される。また、この類似文書検索プログラムが類似文書検索装置1の中央処理制御装置121に読み込まれて実行されることによって、検索制御部10、入力制御部14および出力制御部15が実装される。
【0018】
検索対象文書記憶部11は、記憶装置127に検索キー文書と類似を比較する対象である複数の比較対象文書を記憶している。
【0019】
形態素解析辞書記憶部12は、記憶装置127にテキスト文書から単語の抽出に利用する単語情報を記憶している。具体的には、形態素解析辞書記憶部12は、単語の抽出に利用される各単語の「見出し」、名詞やサ変名詞等の「品詞情報」または、代表語等の「単語情報」を記憶している。
【0020】
抽出ルール記憶部13は、記憶装置127にテキスト文書から、サブ文書を切り出し、切り出したサブ文書から類似度算出に利用する単語を抽出するルールを記憶している。
【0021】
検索制御部10は、類似文書を検索する各処理を制御する。
【0022】
入力制御部14は、キーボードやマウス等の入力装置124から操作者により入力される操作指示や検索キー文書を入力する。
【0023】
出力制御部15は、類似検索結果などを表示装置に表示する。
【0024】
なお、本発明の最良の実施の形態に係る類似文書検索装置1は、一つのコンピュータによって実現されても良いし、互いに通信可能な複数のコンピュータによって実現されても良い。
【0025】
図3は、検索制御部10の詳細な構成の一例を示す図である。検索制御部10は、制御部100とメモリ部200を有している。
【0026】
制御部100は、検索制御部10における各処理を制御する。この制御部100は、具体的には、メイン処理部101、初期化部102、入力部103、出力部104、検索対象文書読み出し部105、検索対象文書単語抽出部106、検索キー文書入力部107、単語抽出ルール適用部108、検索キー単語抽出部109、抽出単語数取得部110、基準単語数指定部111、最低抽出単語数判定部112、第二次単語抽出ルール適用部113、第二次検索キー単語抽出部114、類似度算出部115、ソート部116および、検索結果出力部117を有している。
【0027】
また、メモリ部200は、検索制御部10における処理で用いられるデータを記憶する。このメモリ部200は、具体的には、検索対象文書格納バッファ部201、検索対象単語情報格納バッファ部202、検索キー文書格納バッファ部203、検索キー単語情報格納バッファ部204、抽出ルール格納バッファ部205、抽出単語数格納バッファ部206、基準単語数格納バッファ部207、単語不足判定結果格納バッファ部208、第二次抽出ルール格納バッファ部209、類似度格納バッファ部210、ソート結果格納バッファ部211および、検索結果出力バッファ部212を有している。
【0028】
検索対象文書格納バッファ部201は、検索キー文書と比較して類似度を算出する対象となる複数の検索対象文書が記憶される。
【0029】
検索対象単語情報格納バッファ部202は、検索対象文書中に存在し、検索対象文書あるいは項目の内容を表す検索対象単語により生成される検索対象単語情報が記憶される。
【0030】
検索キー文書格納バッファ部203には、類似文書を検索する対象として入力された検索キー文書が記憶される。
【0031】
検索キー単語情報格納バッファ部204には、検索キー文書中に存在し、検索キー文書あるいは項目の内容を表す検索キー単語が記憶される。具体的には、検索キー単語情報格納バッファ部204には、検索キー単語と検索処理に有効な単語の数である単語種数とが関連付けられた検索キー単語情報が記憶される。
【0032】
抽出ルール格納バッファ部205は、テキスト文書からテキスト文書の内容を表す単語を抽出するための第1の抽出ルールが記憶される。
【0033】
抽出単語数格納バッファ部206は、検索キー文書から抽出された単語種数を記憶する。この、単語種数とは、文書中に含まれる単語数を求めた上で同一の単語については複数回カウントせずに1回づつカウントした文書中に含まれた単語の数である。
【0034】
基準単語数格納バッファ部207は、検索処理に必要とされる最低限の単語数である基準単語数が記憶される。
【0035】
単語不足判定結果格納バッファ部208は、単語が不足であるか否かの判定結果が記憶される。
【0036】
第二次抽出ルール格納バッファ部209は、テキスト文書からテキスト文書の内容を表す単語を切り出すための第2の抽出ルールが記憶される。
【0037】
類似度格納バッファ部210は、検索キー文書と検索対象文書の類似度が文書情報と関連付けて記憶される。文書情報は、算出された類似度が何れの検索対象文書との類似度であるかを識別するために例えば類似度と関連付けられる文書IDを含んでいる。
【0038】
ソート結果格納バッファ部211は、類似度をキーとして降順にソートされた文書情報の結果が記憶される。
【0039】
検索結果出力バッファ部212は、出力するための検索結果が記憶される。
【0040】
メイン処理部101は、検索制御部10における各処理を制御する。
【0041】
初期化部102は、メモリ部200の各バッファ部201〜212を初期化する。
【0042】
入力部103は、入力制御部14を介して入力されたユーザの指示に従って、検索キー文書等の類似文書の検索に利用する情報を入力する。
【0043】
出力部104は、入力制御部14を介して入力した検索キー文書や処理における設定の内容等を出力制御部15に出力する。
【0044】
検索対象文書読み出し部105は、検索対象文書記憶部11に記憶されているテキスト文書を読み出し、検索対象文書格納バッファ部201に記憶させる。
【0045】
検索対象文書単語抽出部106は、検索対象文書格納バッファ部201からテキスト文書の検索対象文書を読み出し、形態素解析辞書記憶部12に記憶されている単語情報を利用して、必要なサブ文書を切り出すとともに、切り出したサブ文書から、文書あるいは項目の内容を表す上でキーとなる単語を抽出し、抽出された単語に基づく検索対象単語情報として検索対象単語情報格納バッファ部202に記憶する。
【0046】
検索キー文書入力部107は、入力されたテキスト文書の検索キー文書を、検索キー文書格納バッファ部203に読み込む。
【0047】
単語抽出ルール適用部108は、テキスト文書から単語を切り出すための第1の抽出ルールを、抽出ルール記憶部13から抽出ルール格納バッファ部205に読み込む。
【0048】
検索キー単語抽出部109は、検索キー文書格納バッファ部203に記憶されているテキスト文書の検索キー文書を読み出し、抽出ルール格納バッファ部205に記憶される第1の抽出ルールに基づいて、形態素解析辞書記憶部12に記憶されている単語情報を利用して、必要なサブ文書を切り出すとともに、切り出したサブ文書からその文書あるいは項目の内容を表す上でキーとなる単語を抽出し、抽出された単語に基づく検索キー単語情報を検索キー単語情報格納バッファ部204に記憶させる。
【0049】
抽出単語数取得部110は、検索キー単語情報格納バッファ部204に記憶されている検索キー単語情報から検索処理に有効な単語の数である単語種数を求め、抽出単語数格納バッファ部206に記憶させる。
【0050】
基準単語数指定部111は、検索処理に最低限必要な単語数として入力部103を介して入力された基準単語数を、基準単語数格納バッファ部207に記憶させる。この基準単語数は外部の入力装置から入力される方法であってもよく、また、外部または内部の記憶装置において予め記憶される基準単語数を利用する方法であってもよい。
【0051】
最低抽出単語数判定部112は、抽出単語数格納バッファ部206に記憶される単語の単語種数と基準単語数格納バッファ部207に記憶される基準単語数とを比較し、基準単語数を満足しているかあるいは不足しているかを判定した結果を単語不足判定結果格納バッファ部208に記憶させる。
【0052】
第二次単語抽出ルール適用部113は、単語不足判定結果格納バッファ部208に記憶される判定結果において求められた単語種数が不足している場合、抽出ルール記憶部13に記憶される第2の抽出ルールを読み込み、第二次抽出ルール格納バッファ部209に記憶させる。
【0053】
第二次検索キー単語抽出部114は、検索キー文書格納バッファ部203に記憶されているテキスト文書の検索キー文書を、第二次抽出ルール格納バッファ部209に記憶された抽出ルールに基づいて形態素解析辞書記憶部12に記憶されている単語情報を利用して、必要なサブ文書を切り出すとともに、切り出したサブ文書からその文書あるいは項目の内容を表す上でキーとなる単語を抽出し、抽出された単語に基づく検索キー単語情報を検索キー単語情報格納バッファ部204に記憶させる。
【0054】
類似度算出部115は、検索キー単語情報格納バッファ部204から読み出した検索キー単語情報と検索対象単語情報格納バッファ部202から読み出した検索対象文書情報とに基づいて、検索キー文書と検索対象文書との類似度を算出し、その類似度を文書情報と関連付けて類似度格納バッファ部210に記憶させる。その類似度は例えば、分母を「一致した単語種数」とし、分子を「検索キー単語の単語種数」とした割合により求める。
【0055】
ソート部116は、類似度格納バッファ部210に記憶された検索キー文書と検索対象文書との類似度と文書情報を読出し、類似度キーに降順にソートし、類似度の最も高い比較対象文書を類似文書として決定するとともに、ソートされた結果の類似度と関連付けられる文書情報を、ソート結果格納バッファ部211に記憶させる。
【0056】
検索結果出力部117は、ソート結果格納バッファ部211に記憶されているソートされた類似度や文書情報を出力制御部15に出力する。
【0057】
<類似文書検索処理>
次に、図4に示すフローチャートを用いて、本発明の最良の実施の形態にかかる類似文書検索装置1における類似文書検索処理を説明する。
【0058】
まず、分類処理文書の検索が開始されると、初期化部102は、メモリ部200内の各バッファ部201〜212を確定する(S001)。
【0059】
基準単語数指定部111は、検索処理を行うために必要な最低の単語種数である「基準単語数」が入力され、「基準単語数」が決定すると(S002)、基準単語数指定部111は、入力された基準単語数を、基準単語数格納バッファ部207に記憶させる(S003)。
【0060】
「基準単語数」は、類似文書検索の精度を保証する条件を設定する値である。具体的には図5に示すように、「基準単語数」として「50」が設定された場合、文書から抽出された単語種数が50以下であると検索の精度が保証できないという条件を設定する。「基準単語数」は、入力制御部14を介して外部から入力されてもよく、または、類似文書検索装置1において予め記憶されてもよい。
【0061】
続いて、検索対象文書読み出し部105は、検索対象文書記憶部11から検索対象文書を読み出し、検索対象文書格納バッファ部201へ記憶させる(S004)。
【0062】
次に、検索キー文書入力部107は、類似文書検索の対象である検索キー文書が入力されると(S005)、入力された検索キー文書を検索キー文書格納バッファ部203に記憶させる(S006)。
【0063】
続いて、単語抽出ルール適用部108は、テキスト文書から単語を抽出するための抽出範囲の情報などを記述した第1の抽出ルールを、抽出ルール記憶部13から読み出し、抽出ルール格納バッファ部205に記憶させる(S007)。
【0064】
図6に、検索キー文書として特許文献を用いて単語抽出する場合の第1の抽出ルールの一例を示す。図6に示す例によれば、「名称」を抽出する場合、「[発明の名称]以降次の改行まで」を切り出すことにより抽出する。また、「要約」を抽出する場合、「[課題]から[解決手段]以外の「[」が出現するまでの間」を切り出し、「[]で括られた文字列を削除する」ことにより抽出する。
【0065】
なお、本文中において、「[」および「]」と記載する符号は、図面中では、特許文献で本来使用する符号で記載している。
【0066】
検索キー単語抽出部109は、抽出ルール格納バッファ部205に記憶された第1の抽出ルールに基づき、検索キー文書格納バッファ部203に記憶される検索キー文書から該当するサブ文書を切り出すとともに、切り出されたサブ文書を形態素解析などにより単語毎に分割して検索キー単語を抽出して生成された検索キー単語情報を検索キー単語情報格納バッファ部204に記憶させる(S008)。
【0067】
たとえば、対象とする検索キー文書が図7に示す文書であった場合、各項目名に対して、切り出されたサブ文書は図8に示すように得られる。図8に示す例では、「名称」の項目について「文書検索装置及び文書検索方法」が切り出されている。また、「要約」の項目について「文書を検索することができる・・・」が切り出されている。なお、図8の例では、切り出されたサブ文書の文末は省略して示している。
【0068】
また、この図8に示したサブ文書からは、形態素解析結果によって抽出されて、図9に示すような検索キー単語情報が得られ、検索キー単語情報格納バッファ部204で記憶される。図9に示す例では、「名称」の項目名で切り出されたサブ文書から「文書」、「検索」、「装置」、「及び」および「方法」が切り出され、検索キー単語情報格納バッファ部204に記憶されている。
【0069】
図6および図7に示した例によれば、第1の抽出ルールでは、「[」が区切り記号となり、「[]」で囲まれた文言がサブ文書の識別子となり、次の区切り記号「[」までの文章がサブ文書の実体となる。たとえば、図7に示す例では、「[]」に囲まれた「発明の名称」や「従来技術」などがサブ文書の識別子であり、「文書検索装置及び文書検索方法」や「任意に入力された・・・」が、それぞれのサブ文書の実体である。第1の抽出ルールでは、このサブ文書の実体から検索キー単語を抽出する。
【0070】
続いて、抽出単語数取得部110は、検索キー単語情報格納バッファ部204に記憶されている検索キー単語の単語種数を算出するとともに、算出された単語種数を抽出単語数格納バッファ部206に記憶させる(S009)。
【0071】
たとえば、検索キー単語情報格納バッファ部204で図9に示す検索キー単語情報を記憶していた場合、抽出単語数取得部で算出した結果により抽出単語数格納バッファ部206は、図10に示すようになる。図10に示す例では、項目「名称」で抽出された単語は「6」であり、項目「要約」で抽出された単語は「15」であり、項目「請求項」で抽出された単語は「50」であることが記憶されている。また、対象とした検索キー文書における「延べ単語種数」は「120」単語であることが記憶されている。
【0072】
次に、最低抽出単語数判定部112は、抽出単語数格納バッファ部206に記憶されている単語種数が、ステップS003で基準単語数格納バッファ部207に記憶された基準単語数以下であるか否かを比較し、比較した結果を単語不足判定結果として、単語不足判定結果格納バッファ部208に記憶させる(S010)。
【0073】
図11に、単語不足判定結果格納バッファ部208で記憶する単語不足判定結果の一例を示す。図11に示す例では、「文書A」は単語種数が「120」であり、判定結果が「満足」であり、「文書B」は単語種数が「45」であり、判定結果が「不足」であることを記憶している。
【0074】
なお、本実施例では、文書中の全項目について単語種数を判定しているが、項目毎に基準単語数を設け、項目毎に単語種数を判定することもできる。
【0075】
単語種数が基準単語数を下回っていると判定された場合(S011)、第2の抽出ルールが適応される。具体的には、判定結果が「不足」であった場合、第二次単語抽出ルール適用部113は、検索キー文書より単語抽出するための第2の抽出ルールを、抽出ルール記憶部13から読み出すとともに、抽出ルール格納バッファ部205に記憶させる(S012)。
【0076】
図12に示すのは、特許文献を検索対象文書として単語抽出を行う第2の抽出ルールの設定例である。図12に示す例では、「名称」は「<invention-title>から</invention-title>の間」を抽出し、「要約」は「<abstract>から</abstract>の間」を抽出することが規定されている。
【0077】
続いて、第二次検索キー単語抽出部114は、抽出ルール格納バッファ部205に記憶された第2の抽出ルールに基づき、検索キー文書格納バッファ部203に記憶される検索キー文書から該当するサブ文書を切り出すとともに、切り出されたサブ文書を形態素解析などにより単語毎に分割して検索キー単語を抽出して生成された検索キー単語情報を検索キー単語情報格納バッファ部204に記憶させる (S013)。
【0078】
上述したステップS012、S013は、例えば、図13のような検索キー文書が入力された場合に実施される。図13に示す文書は、「請求項」の欄や「従来の技術」の欄、「特許文献」の情報を抽出するための情報が、図7に示した単語抽出ルールに則っておらず、単語種数が基準単語数以下となる文書である。
【0079】
図14および図15に、図13の検索キー文書について、図7に示した第1の抽出ルールに基づいて検索キー単語抽出部109を実施した結果を示す。図14に示す例では、「要約」の項目以外の全ての項目について、サブ文書の抽出に失敗している。この場合にも、図15に示すように検索キー単語は抽出されるが、その単語種数は基準単語を下回ったものとなる。
【0080】
このような文書に対して、第二次検索キー単語抽出部114が図12に示したような第2の抽出ルールを用いて、検索キー単語を抽出することで、図16に示した単語抽出結果のように正確に文書が切り出される。その結果、図17に示すように単語が抽出され、単語数の不足を補うことができる。
【0081】
図12及び図13に示した例によれば、第2の抽出ルールでは、XML形式で記述される文書から単語を抽出するため、各ルールとして定められた「タグ」が区切り記号であるサブ文書の識別子となり、「タグ」で囲まれた文章がサブ文書の実体となる。たとえば、図13に示す例では、「<invention-title>」及び「</invention-title>」が「発明の名称」のサブ文書の識別子であり、「文書検索装置及び文書検索方法」が、そのサブ文書の実体である。第2の抽出ルールでは、このサブ文書の実体から検索キー単語を抽出する。
【0082】
なお、上述する説明では、第2の抽出ルールの適用のみを示しているが、例えば、抽出された単語種数が満足するまで、予め規定される第3の抽出ルールや、第4の単語抽出ルールを適用してもよい。また、第1の抽出ルールを適用しても満足する単語種数を得られない場合、第2の抽出ルールで文書全体を単語の抽出対象としてもよく、複数規定される抽出ルールを適用しても満足する単語種数を得られない場合、文書全体を単語の抽出対象としてもよい。
【0083】
検索対象文書単語抽出部106は、検索対象文書格納バッファ部201に記憶された検索対象文書を読出して該当するサブ文書を切り出すとともに、切り出されたサブ文書を形態素解析などにより単語毎に分割して検索対象単語を抽出して生成された検索対象単語情報を検索対象単語情報格納バッファ部202に記憶させる(S014)。
【0084】
続いて、類似度算出部115は、検索キー単語情報格納バッファ部204に記憶されている検索キー単語と検索対象単語情報格納バッファ部202に記憶された検索対象単語とを読み出して比較し、共通して出現する単語の数により類似度を算出し、その類似度値を類似度格納バッファ部210に記憶させる(S015)。
【0085】
類似度算出方法としては、ここに挙げた共通単語数から算出する方式以外にも、ベクトル空間法などを用いることもできる。
【0086】
図18に示すのは、ステップS015に示す処理により類似度が文書情報と関連付けられて記憶された、類似度格納バッファ部210である。図18に示す類似度格納バッファ部210では、「検索対象文書A」、「検索対象文書B」および「検索対象文書C」に関する類似度が「0.14」であり、「検索対象文書D」に関する類似度が「0.28」であることが記憶されている。
【0087】
全ての検索対象文書との類似度が算出されると(S016でYES)、ソート部116は、ステップS014で取得された類似度格納バッファ部210の内容を類似度上位から下位へと降順にソートする。また、ソート部116は、類似度の最も高い検索対象文書を類似文書として決定し、ソートされた結果をソート結果格納バッファ部211へ記憶させる(S017)。
【0088】
図19に示すのは、類似度のソート結果が記憶されたソート結果格納バッファ部211の一例である。図19に示すソート結果格納バッファ部211では、「検索対象文書D」に最も類似しており、また、「検索対象文書A」と「検索対象文書B」と「検索対象文書C」とが同一の類似度であることが記憶されている。
【0089】
続いて、検索結果出力部117は、ソート結果格納バッファ部211に記憶されたソート結果順に類似度格納バッファ部210に記憶された類似度や、検索対象文書の文書情報を、検索結果出力バッファ部212を用いて整形処理などを行い、出力制御部15を介して出力させる(S018)。
【0090】
図20に示すのは、出力部出力結果の一例である。図20では、「検索対象文書D」に類似度「0.28」で最も類似している結果となり表示されている。
【0091】
上述したように、本発明の最良の実施の形態に係る文書検索装置および文書検索方法によれば、第1の抽出ルールで類似文書を検索するために必要なデータが検出されない場合、第2の抽出ルールで類似文書を検索する。これにより、第1の検出ルールで検索ができない場合であっても、全ての検索キー文書について文書中の全てを利用して類似文書を検索する方法をとらず、検索効率および検索速度を低下させずに検索を行うことができる。
【0092】
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明に記載した事項と自明な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
【図面の簡単な説明】
【0093】
【図1】本発明の最良の形態に係る文書検索装置の構成を示すブロック図である。
【図2】本発明の最良の形態に係る文書検索装置の構成を示す図である。
【図3】本発明の最良の形態に係る文書検索装置の制御部を示す図である。
【図4】本発明の最良の形態に係る文書検索装置における処理を説明するフローチャートである。
【図5】本発明の最良の形態に係る文書検索装置における「基準単語数」の確定方法の一例である。
【図6】本発明の最良の形態に係る文書検索装置における第1の抽出ルールの一例である。
【図7】本発明の最良の形態に係る文書検索装置に入力される検索キー文書の一例である。
【図8】本発明の最良の形態に係る文書検索装置において検索キー文書から第1の抽出ルールにより切り出されたサブ文書の一例である。
【図9】本発明の最良の形態に係る文書検索装置において検索キー文書から第1の抽出ルールにより抽出された検索キー単語情報の一例である。
【図10】本発明の最良の形態に係る文書検索装置において抽出単語数格納バッファ部で記憶される単語種数の一例である。
【図11】本発明の最良の形態に係る文書検索装置において単語不足判定結果格納バッファ部で記憶される単語不足判定結果の一例である。
【図12】本発明の最良の形態に係る文書検索装置における第2の抽出ルールの一例である。
【図13】本発明の最良の形態に係る文書検索装置に入力される検索キー文書の一例である。
【図14】本発明の最良の形態に係る文書検索装置において検索キー文書から第1の抽出ルールにより切り出されたサブ文書の一例である。
【図15】本発明の最良の形態に係る文書検索装置において検索キー単語情報格納バッファ部で記憶される検索キー単語情報の一例である。
【図16】本発明の最良の形態に係る文書検索装置における検索キー文書から第2の抽出ルールにより切り出されたサブ文書の一例である。
【図17】本発明の最良の形態に係る文書検索装置において検索キー単語情報格納バッファ部で記憶される検索キー単語情報の一例である。
【図18】本発明の最良の形態に係る文書検索装置における類似度格納バッファ部で記憶される類似度の一例である。
【図19】本発明の最良の形態に係る文書検索装置におけるソート結果格納バッファ部で記憶されるソート結果格納バッファ部の一例である。
【図20】本発明の最良の形態に係る文書検索装置における出力部出力結果の一例である。
【符号の説明】
【0094】
1…類似文書検索装置
10…検索制御部
11…検索対象文書記憶部
12…形態素解析辞書記憶部
13…抽出ルール記憶部
14…入力制御部
15…出力制御部
100…制御部
101…メイン処理部
102…初期化部
103…入力部
104…出力部
105…検索対象文書読み出し部
106…検索対象文書単語抽出部
107…検索キー文書入力部
108…単語抽出ルール適用部
109…検索キー単語抽出部
110…抽出単語数取得部
111…基準単語数指定部
112…最低抽出単語数判定部
113…第二次単語抽出ルール適用部
114…第二次検索キー単語抽出部
115…類似度算出部
116…ソート部
117…検索結果出力部
120…バス
121…中央処理制御装置
122…ROM
123…RAM
124…入力装置
125…表示装置
126…通信制御装置
127…記憶装置
128…リムーバブルディスク
129…入出力インタフェース
130…バス
200…メモリ部
201…検索対象文書格納バッファ部
202…検索対象単語情報格納バッファ部
203…検索キー文書格納バッファ部
204…検索キー単語情報格納バッファ部
205…抽出ルール格納バッファ部
206…抽出単語数格納バッファ部
207…基準単語数格納バッファ部
208…単語不足判定結果格納バッファ部
209…第二次抽出ルール格納バッファ部
210…類似度格納バッファ部
211…ソート結果格納バッファ部
212…検索結果出力バッファ部

【特許請求の範囲】
【請求項1】
検索対象文書記憶部に記憶される複数の検索対象文書と比較して、検索キー文書と類似する検索対象文書を検索する類似文書検索装置であって、
文書から単語を抽出する際、検索結果の精度を保証する最小の単語数である基準単語数を記憶する基準単語数格納バッファ部と、
前記検索対象文書と前記検索キー文書とを比較する単語を前記検索キー文書または前記検索対象文書から抽出する第1の抽出ルールと、前記第1の抽出ルールで抽出された単語数である抽出単語数が前記基準単語数以下である場合に検索対象文書と検索キー文書とを比較する単語を前記検索キー文書または前記検索対象文書から抽出する第2の抽出ルールとを記憶する抽出ルール記憶部と、
前記第1の抽出ルールに基づいて、前記検索キー文書中に存在する前記検索キー文書の内容を表す検索キー単語を抽出する検索キー単語抽出部と、
前記抽出単語数を前記基準単語数と比較したとき、前記抽出単語数が前記基準単語数よりも少ない場合、前記第2の抽出ルールに基づいて、前記検索キー文書中に存在する前記検索キー文書の内容を表す検索キー単語を抽出する第二次検索キー単語抽出部と、
前記検索対象文書から、前記検索対象文書中に存在する前記検索対象文書の内容を表す検索対象文書単語を抽出する検索対象文書単語抽出部と、
前記検索キー単語抽出部または第二次検索キー単語抽出部で抽出された検索キー単語と、前記検索対象文書単語とを比較して類似度を算出する類似度算出部と、
前記類似度算出部で算出された類似度をソートして、類似度が高い検索対象文書を類似文書と決定するソート部と、
を有することを特徴とする類似文書検索装置。
【請求項2】
請求項1に記載の類似文書検索装置において、
前記検索キー単語抽出部は、第1の抽出ルールに基づいて、検索キー文書から検索キー単語を抽出する対象となるサブ文書を指定し、該サブ文書から検索キー単語を抽出し、
前記第二次検索キー単語抽出部は、第2の抽出ルールに基づいて、検索キー文書から検索キー単語を抽出する対象となるサブ文書を指定し、該サブ文書から検索キー単語を抽出し、
前記検索対象文書単語抽出部は、検索対象文書から検索対象文書単語を抽出する対象となるサブ文書を指定し、該サブ文書から検索対象文書単語を抽出する
ことを特徴とする類似文書検索装置。
【請求項3】
請求項2に記載の類似文書検索装置において、
前記第1の抽出ルールは、前記検索キー文書または前記検索対象文書を複数のサブ文書に分割するための区切り記号を検索して、検索キー単語を検索する対象となるサブ文書を抽出して、該サブ文書から前記検索キー単語を抽出するルールであって、
前記第2の抽出ルールは、XML形式の前記検索キー文書または前記検索対象文書からタグを検索して、前記タグに基づいて検索キー単語を検索する対象となるサブ文書を抽出して、該サブ文書から前記検索キー単語を抽出するルールである
ことを特徴とする類似文書検索装置。
【請求項4】
予め記憶される複数の検索対象文書と比較して、検索キー文書と類似する検索対象文書を検索する類似文書検索方法であって、
検索対象文書と検索キー文書とを比較する対象となる検索キー単語を検索キー文書から抽出する第1の抽出ルールに基づいて検索キー単語を抽出し、
前記抽出された検索キー単語の数を検索結果の精度を保証するための最小の単語数として予め記憶される基準単語数と比較したとき前記検索キー単語の数が前記基準単語数よりも少ない場合、検索対象文書と検索キー文書とを比較する対象となる検索キー単語を検索キー文書から抽出する第2の抽出ルールに基づいてさらに検索キー単語を抽出し、
抽出された前記検索キー単語と、予め記憶される検索対象文書から抽出された検索対象文書単語とを比較して類似度を算出し、
算出された前記類似度をソートして、類似度が高い検索対象文書を類似文書と決定する類似文書検索方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate


【公開番号】特開2006−99477(P2006−99477A)
【公開日】平成18年4月13日(2006.4.13)
【国際特許分類】
【出願番号】特願2004−285363(P2004−285363)
【出願日】平成16年9月29日(2004.9.29)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】