説明

文書検索装置、文書検索方法、プログラム及び記憶媒体

【課題】 文書検索において、コストを抑え高い精度で文書群から検索者が求める適合文書を得ることである。
【解決手段】 検索者が入出力部23を操作することで指定した適合文書に基づいて関連文書検索結果から不適合文書抽出部35により不適合文書を自動的に抽出し、学習部36により適合文書及び不適合文書から学習データを生成し、その学習データに基づいて、関連文書検索部32によりデータベース21の文書群から関連文書を検索し、その検索結果から分類部37により適合文書を抽出することによって、コストを抑え高い精度で文書群から検索者が求める適合文書を得ることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書検索装置、文書検索方法、プログラム及び記憶媒体に関する。
【背景技術】
【0002】
文書検索装置は、複数の文書群からユーザが求める適合文書を検索する装置である(特許文献1参照)。このような文書検索装置の中には、文書フィルタリングを用いて適合文書を検索する装置もある(特許文献2参照)。文書フィルタリングは、ユーザが関連文書の検索結果から適合文書/不適合文書を選択し、それらを学習データとして分類用のパラメータを生成し、その分類パラメータを使用して、サーバ装置が管理する全文書(文書群)を適合文書と不適合文書とに分類する技術である。
【0003】
【特許文献1】特開2003−216646公報
【特許文献2】特開2001−256253公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、ユーザが適合文書/不適合文書を選択する場合には、その文書の内容を確認して適合文書であるか否かを判断する必要がある。文書のタイトルと文書の内容とがかけ離れている場合もあるので、文書のタイトルだけで内容を判断することは危険である。また、文書の要約技術を利用して文書の内容を把握することは有効であるが、それでもユーザには無視できないコストになる。
【0005】
また、文書フィルタリングでは、学習データがあるほどフィルタリングの精度が良くなるので、その精度を良くするためには、十分な量の学習データを指定する必要がある。特に、フィルタリングの精度は不適合文書を適合文書と同数程度にする方が良くなるため、適合文書/不適合文書の選択作業はますますユーザには高いコストになる。
【0006】
例えば、実際に適合文書/不適合文書を5文書ずつ指定する場合には、関連文書の検索結果を上位から文書の内容を見ながら確認していくことになる。それらの中には、適合文書/不適合文書であるかを判断することができない文書、あるいは前に不適合文書と思えた文書が新しい文書の内容を確認した途端に不適合文書でないように思えてきたりする場合等が多々ある。このため、検索結果の上位数十件の内容を確認しなければ、良いフィルタリングの精度を得るための分類用のパラメータを生成することはできない。
【0007】
そこで、適合文書に基づいて関連文書の検索結果から不適合文書を自動的に抽出する技術が必要になる。関連文書の検索結果から自動で不適合文書を抽出することができれば、ユーザのコストは従来の半分に減る。しかもユーザの主観が入らないので適合文書に対して安定した不適合文書が得られる。さらに、文書フィルタリングを関連文書検索と一緒に使用するとフィルタリングのためにわざわざ適合文書を指定する必要がなくなる。
【0008】
本発明の目的は、文書検索において、コストを抑え高い精度で文書群から検索者が求める適合文書を得ることである。
【課題を解決するための手段】
【0009】
請求項1記載の発明の文書検索装置は、操作を受け付ける操作部に対する検索者の入力操作に応じて検索用の語句を検索語として設定する第1手段と、電子化された複数の文書を文書群として蓄積する蓄積部に蓄積されている文書群から、前記第1手段により設定された前記検索語を含む文書を関連文書として検索する第2手段と、表示動作を行う表示部に前記第2手段による検索結果を表示させる第3手段と、前記操作部に対する検索者の入力操作に応じて、前記第2手段により検索された複数の前記関連文書から検索者が求める適合文書を指定する第4手段と、前記第4手段により指定された前記適合文書に基づいて検索用の語句を関連語として設定する第5手段と、前記蓄積部に蓄積されている文書群から、前記第5手段により設定された前記関連語を含む文書を関連文書として検索する第6手段と、前記第6手段により検索された複数の前記関連文書から、前記第4手段により指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する第7手段と、前記第4手段により指定された前記適合文書及び前記第7手段により抽出された前記不適合文書に基づいて分類用のパラメータを生成する第8手段と、前記第8手段により生成された前記パラメータに基づいて前記検索語を再設定する第9手段と、前記蓄積部に蓄積されている文書群から、前記第9手段により再設定された前記検索語を含む文書を前記関連文書として検索する第10手段と、前記第10手段により検索された複数の前記関連文書から、前記第8手段により生成された前記パラメータに基づいて前記適合文書を抽出する第11手段と、前記表示部に前記第11手段による抽出結果を表示させる第12手段と、を備える。
【0010】
請求項2記載の発明は、請求項1記載の文書検索装置において、前記蓄積部を備える。
【0011】
請求項3記載の発明は、請求項1又は2記載の文書検索装置において、前記操作部及び前記表示部を備える。
【0012】
請求項4記載の発明は、請求項1、2又は3記載の文書検索装置において、前記第3手段は、前記表示部に前記第6手段による検索結果も表示させ、前記第4手段は、前記操作部に対する検索者の入力操作に応じて、前記第6手段により検索された複数の前記関連文書からも前記適合文書を指定し、前記第3手段、前記第4手段、第5手段及び第6手段を複数回繰り返す第13手段を備える。
【0013】
請求項5記載の発明は、請求項1、2、3又は4記載の文書検索装置において、前記第7手段は、前記適合文書及び前記関連文書間の類似度を求め、その類似度に基づいて複数の前記関連文書から前記不適合文書を抽出する。
【0014】
請求項6記載の発明は、請求項1、2、3、4又は5記載の文書検索装置において、前記第7手段は、前記適合文書と同数の前記不適合文書を抽出する。
【0015】
請求項7記載の発明は、請求項1、2、3、4、5又は6記載の文書検索装置において、前記第11手段は、前記パラメータに基づいて前記適合文書と前記不適合文書とを分類するフィルタリングを行って前記第10手段により検索された複数の前記関連文書から前記適合文書を抽出する。
【0016】
請求項8記載の発明の文書検索方法は、操作を受け付ける操作部に対する検索者の入力操作に応じて検索用の語句を検索語として設定する第1ステップと、電子化された複数の文書を文書群として蓄積する蓄積部に蓄積されている文書群から、前記第1ステップにより設定された前記検索語を含む文書を関連文書として検索する第2ステップと、表示動作を行う表示部に前記第2ステップによる検索結果を表示させる第3ステップと、前記操作部に対する検索者の入力操作に応じて、前記第2ステップにより検索された複数の前記関連文書から検索者が求める適合文書を指定する第4ステップと、前記第4ステップにより指定された前記適合文書に基づいて検索用の語句を関連語として設定する第5ステップと、前記蓄積部に蓄積されている文書群から、前記第5ステップにより設定された前記関連語を含む文書を関連文書として検索する第6ステップと、前記第6ステップにより検索された複数の前記関連文書から、前記第4ステップにより指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する第7ステップと、前記第4ステップにより指定された前記適合文書及び前記第7ステップにより抽出された前記不適合文書に基づいて分類用のパラメータを生成する第8ステップと、前記第8ステップにより生成された前記パラメータに基づいて前記検索語を再設定する第9ステップと、前記蓄積部に蓄積されている文書群から、前記第9ステップにより再設定された前記検索語を含む文書を前記関連文書として検索する第10ステップと、前記第10ステップにより検索された複数の前記関連文書から、前記第8ステップにより生成された前記パラメータに基づいて前記適合文書を抽出する第11ステップと、前記表示部に前記第11ステップによる抽出結果を表示させる第12ステップと、を備える。
【0017】
請求項9記載の発明は、請求項8記載の文書検索方法において、前記第3ステップは、前記表示部に前記第6ステップによる検索結果も表示させ、前記第4ステップは、前記操作部に対する検索者の入力操作に応じて、前記第6ステップにより検索された複数の前記関連文書からも前記適合文書を指定し、前記第3ステップ、前記第4ステップ、第5ステップ及び第6ステップを複数回繰り返す第13ステップを備える。
【0018】
請求項10記載の発明は、請求項8又は9記載の文書検索方法において、前記第7ステップは、前記適合文書及び前記関連文書間の類似度を求め、その類似度に基づいて複数の前記関連文書から前記不適合文書を抽出する。
【0019】
請求項11記載の発明は、請求項8、9又は10記載の文書検索方法において、前記第7ステップは、前記適合文書と同数の前記不適合文書を抽出する。
【0020】
請求項12記載の発明は、請求項8、9、10又は11記載の文書検索方法において、前記第11ステップは、前記パラメータに基づいて前記適合文書と前記不適合文書とを分類するフィルタリングを行って前記第10ステップにより検索された複数の前記関連文書から前記適合文書を抽出する。
【0021】
請求項13記載の発明のコンピュータ読取可能なプログラムは、操作を受け付ける操作部に対する検索者の入力操作に応じて検索用の語句を検索語として設定する第1機能と、電子化された複数の文書を文書群として蓄積する蓄積部に蓄積されている文書群から、前記第1機能により設定された前記検索語を含む文書を関連文書として検索する第2機能と、表示動作を行う表示部に前記第2機能による検索結果を表示させる第3機能と、前記操作部に対する検索者の入力操作に応じて、前記第2機能により検索された複数の前記関連文書から検索者が求める適合文書を指定する第4機能と、前記第4機能により指定された前記適合文書に基づいて検索用の語句を関連語として設定する第5機能と、前記蓄積部に蓄積されている文書群から、前記第5機能により設定された前記関連語を含む文書を関連文書として検索する第6機能と、前記第6機能により検索された複数の前記関連文書から、前記第4機能により指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する第7機能と、前記第4機能により指定された前記適合文書及び前記第7機能により抽出された前記不適合文書に基づいて分類用のパラメータを生成する第8機能と、前記第8機能により生成された前記パラメータに基づいて前記検索語を再設定する第9機能と、前記蓄積部に蓄積されている文書群から、前記第9機能により再設定された前記検索語を含む文書を前記関連文書として検索する第10機能と、前記第10機能により検索された複数の前記関連文書から、前記第8機能により生成された前記パラメータに基づいて前記適合文書を抽出する第11機能と、前記表示部に前記第11機能による抽出結果を表示させる第12機能と、をコンピュータに実行させる。
【0022】
請求項14記載の発明は、請求項13記載のプログラムにおいて、前記第3機能は、前記表示部に前記第6機能による検索結果も表示させ、前記第4機能は、前記操作部に対する検索者の入力操作に応じて、前記第6機能により検索された複数の前記関連文書からも前記適合文書を指定し、前記第3機能、前記第4機能、第5機能及び第6機能を複数回繰り返す第13機能を前記コンピュータに実行させる。
【0023】
請求項15記載の発明は、請求項13又は14記載のプログラムにおいて、前記第7機能は、前記適合文書及び前記関連文書間の類似度を求め、その類似度に基づいて複数の前記関連文書から前記不適合文書を抽出する。
【0024】
請求項16記載の発明は、請求項13、14又は15記載のプログラムにおいて、前記第7機能は、前記適合文書と同数の前記不適合文書を抽出する。
【0025】
請求項17記載の発明は、請求項13、14、15又は16記載のプログラムにおいて、前記第11機能は、前記パラメータに基づいて前記適合文書と前記不適合文書とを分類するフィルタリングを行って前記第10機能により検索された複数の前記関連文書から前記適合文書を抽出する。
【0026】
請求項18記載の発明のコンピュータ読取可能な記憶媒体は、請求項13ないし17のいずれか一記載のプログラムを記憶している。
【発明の効果】
【0027】
本発明によれば、検索者が指定した適合文書に基づいて関連文書検索結果から不適合文書が自動的に抽出され、それらを学習データとして分類用のパラメータが生成され、そのパラメータに基づいて文書群から適合文書が得られるため、コストを抑え高い精度で文書群から検索者が求める適合文書を得ることができる。
【発明を実施するための最良の形態】
【0028】
本発明を実施するための最良の一形態を図面に基づいて説明する。
【0029】
図1は本実施の形態の文書検索装置1の電気的な接続を示すブロック図である。
【0030】
図1に示すように、文書検索装置1は、各種演算を行って文書検索装置1の各部を集中的に制御するCPU11と各種のROMやRAMからなるメモリ12とを備えており、それらはバス13で接続されている。
【0031】
バス13には、所定のインターフェースを介して、ハードディスクなどの磁気記憶装置14と、キーボードやマウスなどの入力装置15と、表示動作を行うLCDやCRTなどの表示装置16と、光ディスクなどの記憶媒体17を読み取る記憶媒体読取装置18とが接続され、また、ネットワーク2と通信を行う所定の通信インターフェース(通信制御装置)19が接続されている。なお、記憶媒体17としては、CDやDVDなどの光ディスク、光磁気ディスク、フレキシブルディスクなどの各種メディアが用いられる。また、記憶媒体読取装置18は、記憶媒体17の種類に応じて光ディスク装置、光磁気ディスク装置、フレキシブルディスク装置などが用いられる。
【0032】
磁気記憶装置14には、この発明のプログラムを実現する文書検索プログラム20が記憶されている。この文書検索プログラム20は、記憶媒体17から記憶媒体読取装置18により読取るか、あるいは、インターネットなどのネットワーク2からダウンロードするかなどして、磁気記憶装置14にインストールされたものである。このインストールにより文書検索装置1は動作可能な状態となる。なお、この文書検索プログラム20は、所定のOS上で動作するものであってもよい。また、特定のアプリケーションソフトの一部をなすものであってもよい。
【0033】
文書検索装置1は、サーバコンピュータなどのサーバ装置としてネットワーク2を介して端末装置(図示せず)に接続されている。この場合には、検索者は文書検索装置1を端末装置により操作することができる。例えば、端末装置としては、パーソナルコンピュータ、携帯情報端末(PDA)、携帯電話などの情報処理装置が用いられる。また、ネットワーク2としては、無線、有線及び放送波のいずれを用いたものでもよく、例えば、LAN、WAN、インターネット、アナログ電話網、デジタル電話網(ISDN)、PHS(パーソナルハンディホンシステム)網、携帯電話網、衛星通信網などを利用することができる。
【0034】
次に、文書検索プログラム20に基づいて文書検索装置1が行う処理の内容について説明する。
【0035】
図2は文書検索装置1の機能を示すブロック図である。
【0036】
図2に示すように、文書検索装置1は、電子化された複数の文書を文書群として蓄積している蓄積部であるデータベース(DB)21と、文書群から適合文書を抽出するための文書フィルタリング部22と、入出力部23とを備えている。なお、文書群は、電子化された複数の文書から構成されている。
【0037】
データベース21は磁気記憶装置14により構築されており、入出力部23は入力装置15及び表示装置16により構築されている。また、端末装置も入出力部23として機能する。ここで、入出力部23は操作部及び表示部として機能する。なお、データベース21は、磁気記憶装置14に構築されているが、これに限るものではなく、例えば、ネットワーク2を介して文書検索装置1に接続されていてもよい。
【0038】
文書フィルタリング部22は、操作者である検索者が指定した検索文から検索語(検索用の語句)を抽出する検索語抽出部31、文書群から関連文書を検索する関連文書検索部32、入出力部23に対する検索者の操作に応じて関連文書から適合文書を指定する適合文書指定部33、適合文書に基づいて関連語(検索用の語句)を抽出する関連語抽出部34、適合文書でない不適合文書を抽出する不適合文書抽出部35、不適合文書(学習データ)を使用して分類用のパラメータを生成する学習部36、及び分類用のパラメータを使用して関連文書から適合文書を抽出する分類部37から構成されている。
【0039】
なお、検索語抽出部31は第1手段(第1ステップ及び第1機能)として機能する。関連文書検索部32は、第2手段、第3手段、第6手段、第10手段、第12手段及び第13手段(各ステップ及び各機能)として機能する。適合文書指定部33は第4手段(第4ステップ及び第4機能)として機能する。関連語抽出部34は、第5手段(第5ステップ及び第5機能)として機能する。不適合文書抽出部35は、第7手段(第7ステップ及び第7機能)として機能する。学習部36は第8手段及び第9手段(各ステップ及び各機能)として機能する。分類部37は第11手段(第11ステップ及び第11機能)として機能する。
【0040】
このような文書検索装置1の動作の流れについて説明する。
【0041】
検索者は入出力部23を操作することにより検索要求となる検索文を指定する。すると、検索語抽出部31は検索者が指定した検索文から検索語を抽出し、関連文書検索部32に入力する。関連文書検索部32は、データベース21の文書群から検索語を含む文書を関連文書としてランキング検索し、その検索結果を入出力部23に入力する。入出力部23はその検索結果を表示する。
【0042】
検索者は検索結果の内容を吟味して、入出力部23を操作することにより自身が求める(すなわち適合する)文書を適合文書として選択する。すると、適合文書指定部33は、その選択に応じて検索結果から複数の適合文書を指定する。関連語抽出部34は、検索者が指定した適合文書から関連語を抽出し、関連文書検索部32に入力する。関連文書検索部32は、データベース21の文書群から関連語を含む文書を関連文書としてランキング検索し、その検索結果を入出力部23に入力する。入出力部23はその検索結果を表示する。これにより、検索者が指定した適合文書は検索上位に現れるようになる。このような適合文書の指定及び関連文書の検索が複数回繰り返され、十分な適合文書が得られる。
【0043】
検索者は入出力部23を操作することによりフィルタリング要求を指定する。すると、不適合文書抽出部35は、適合文書を入力データとして検索者が要求しない(すなわち適合しない)不適合文書を「不適合文書の抽出法(後述する)」に従って検索結果から自動的に抽出する。抽出された不適合文書は、適合文書とともに学習部36に渡り、分類用のパラメータを生成する学習データとなる。学習部36はその学習データを使用して分類用のパラメータを生成し、分類用のパラメータを関連文書検索部32に渡す。
【0044】
関連文書検索部32は、分類用のパラメータを検索語として再検索を行い、その再検索結果を分類部37に入力する。分類部37は、再検索結果を関連文書検索部32から受け取り、分類用のパラメータを使用してフィルタリングを行い、関連文書のみを取り出して、その関連文書を適合文書として入出力部23に入力する。入出力部23はその適合文書を検索結果として表示する。
【0045】
ここで、不適合文書の抽出法は、与えられた文書群(文書集合)の中から適合文書に基づいて不適合文書を抽出する方法であり、文書間の類似度を決めて、ベクトル空間上で類似度計算を行うことで不適合文書を抽出する。ここでは、適合文書と(適合文書の中心ベクトルをCとする)とラベルなしの各文書(ラベルなし文書の文書ベクトルをDとする)との類似度simが閾値α以下(sim(C,D)≦α)の文書が不適合文書とされる。また、ラベルなし文書としては、関連文書の検索結果の上位からユーザが指定した適合文書を除いたn個の文書が選択される。そして、不適合文書は適合文書と同じ数だけ抽出される。
【0046】
不適合文書の抽出方法は次の手順による。まず、適合文書の集合Rから中心ベクトルCを求める。関連文書の検索結果の上位からn個の文書を選択してSとする。Sから未選択の文書を1つ選択し文書ベクトルDを求め、中心ベクトルCとの類似度sim(C,D)を計算し、その計算結果を優先順序キューQに入れる。なお、優先順序キューQはsim(C,D)の値で半整列(判順序化)されている。また、キューサイズは適合文書サイズとなるように管理されている。優先順序キューQ内の要素の最大値がαになると、優先順序キューQ内の文書を不適合文書Nとし、不適合文書の抽出は完了する。S中の全て(n個)の文書に対して類似度を計算しても、優先順序キューQ内の要素の最大値がα以下にならない場合には、関連文書の検索結果からm個の文書をさらに選択してS中の文書数をnからn+mに拡張し、S中で未選択の文書の文書ベクトルDに対して、上述と同じことを繰り返す。
【0047】
このような文書フィルタリング部22の各機能は文書検索プログラム20に基づいてCPU11が実行する処理により実現される。
【0048】
図3は文書検索プログラム20に基づいてCPU11が実行する処理の流れを示すフローチャート、図4から図8はそれぞれ検索画面の表示例を示す平面図である。
【0049】
図3に示すように、まず、CPU11は、例えば図4に示すような検索画面を入出力部23により表示し(ステップS1)、検索語の入力及び検索実行ボタン23aの押下に待機する(ステップS2のN)。
【0050】
検索者は入出力部23を操作して検索語(検索文)を入力し、入力後に検索実行ボタン23aを押下(クリック)する。これにより、CPU11は、検索語に基づいて関連文書の検索を実行し(ステップS3)、その関連文書の検索結果を入出力部23により表示する(ステップS4)。これにより、数千や数万になる関連文書の検索結果が表示される。このとき、検索画面は例えば図5に示すような画面になる。その後、適合文書の指定及び検索実行ボタン23aの押下に待機する(ステップS5のN)。
【0051】
検索者は検索結果を確認して、より良い検索結果を得るために検索結果の文書の内容を確認し、入出力部23を操作して、自身が求める(適合する)文書に○(図5参照)をつけて適合文書とし、入力後に検索実行ボタン23aを押下(クリック)する。
【0052】
これにより、CPU11は、○がついている関連文書を適合文書として指定し、その適合文書に基づいて関連語を抽出し、その関連語に基づいて関連文書の検索を実行する(ステップS6)。その後、その関連文書の検索結果を入出力部23により表示する(ステップS7)。すると、検索画面は例えば図6に示すような画面になり、図5に示すような画面で適合文書として指定した文書が検索上位に移動する。また、それに合わせて適合文書と関連する文書が検索結果の上位に出現するようになる。CPU11は、関連文書の検索結果の適合性をさらに良くするために、入出力部23に対する検索者の操作に応じて適合文書を指定して、再び適合性フィードバック検索を行う(ステップS8のN)。ここに、第13手段としての機能が実行される。
【0053】
このような処理を複数回(N回)繰り返し(ステップS8のY)、フィルタリングボタン23bの押下に待機する(ステップS9のN)。このとき、検索画面は例えば図7に示すような画面になり、検索上位に適合文書が並ぶようになる。この状態で、フィルタリングボタン23bが押されると(ステップS9のY)、適合文書を入力データとして不適合文書を抽出し、分類用のパラメータを生成して、そのパラメータを検索語として再検索を実行する(ステップS10)。その検索結果の関連文書をフィルタリングし(ステップS11)、その結果を表示する(ステップS12)。これにより、検索画面は図8に示すような画面になる。
【0054】
このとき、図7に示すような画面の検索結果には、適合文書よりも不適合文書のほうが多く含まれるのが普通であるが、図8に示すような画面の再検索結果には、適合文書と関連しない文書は含まれていない。
【0055】
このような処理により、図4に示すような画面は、検索実行ボタン23aが押されるとデータが図2に示すようにa→b→c→d→eと流れ、図5に示すような画面になる。より良い検索結果を得るために図5及び図6に示すような画面において、検索者が検索結果に○をつけると、適合文書が指定されて適合性フィードバック検索が行われる。このとき、データは図2に示すようにf→g→h→c→d→eと流れる。その後、図6に示すような画面は十分な適合文書が得られると図7に示すような画面になる。この図7に示すような画面は、フィルタリングボタン23bが押されるとデータがi→j→k→c→d→l→mと流れ、図8に示すような画面になる。
【0056】
ステップS10での不適合文書の抽出処理について説明する。
【0057】
図9は不適合文書の抽出処理の流れを示すフローチャートである。
【0058】
図9に示すように、まず、CPU11は、適合文書の集合Rの入力に待機する(ステップS21のN)。適合文書の集合Rが入力されると(ステップS21のY)、適合文書の集合Rから中心ベクトルCを求め(ステップS22)、関連文書の検索結果の上位からn個の文書を選択してSとする(ステップS23)。
【0059】
次に、S中の文書を全て選択したか否かを判断する(ステップS24)。S中の文書を全て選択した場合には(ステップS24のY)、関連文書の検索結果からm個の文書をさらに選択してS中の文書数をnからn+mに拡張し(ステップS30)、ステップS23に処理を戻す。一方、S中の文書を全て選択していない場合には(ステップS24のN)、S中の文書から未選択の文書を1つ選択し文書ベクトルDを求める(ステップS25)。中心ベクトルCと文書ベクトルDとの類似度sim(C,D)を計算し、その計算結果を優先順序キューQに入れ、sim(C,D)の値が大きい順にQ中の要素を半整列(半順序化)させる(ステップS26)。
【0060】
次いで、QのサイズがRのサイズ以上か否かを判断する(ステップS27)。QのサイズがRのサイズ以上でない場合には(ステップS27のN)、ステップS24に処理を戻す。一方、QのサイズがRのサイズ以上である場合には(ステップS27のY)、Qの先頭要素の値が閾値αより小さいか否かを判断する(ステップS28)。
【0061】
Qの先頭要素が閾値αより大きい場合には(ステップS28のN)、QのサイズがRのサイズより大きいか否かを判断する(ステップS31)。QのサイズがRのサイズより大きい場合には(ステップS31のY)、Qの先頭要素を削除して(ステップS32)、ステップS24に処理を戻し、QのサイズがRのサイズより小さい場合には(ステップS31のN)、そのままステップS24に処理を戻す。一方、Qの先頭要素の値が閾値αより小さい場合には(ステップS28のY)、Q内の文書を不適合文書Nとし(ステップS29)、不適合文書の抽出は完了する。
【0062】
このように本実施の形態によれば、検索者が指定した適合文書に基づいて関連文書検索結果から不適合文書が自動的に抽出され、それらを学習データとして分類用のパラメータが生成され、そのパラメータに基づいて文書群から適合文書が得られるため、コストを抑え高い精度で文書群から適合文書を得ることができる。特に、適合文書から不適合文書を自動的に抽出することが可能になるため、ユーザのコストは従来の半分に抑えることができる。しかも、ユーザの主観が入らないので適合文書に対して安定した不適合文書を得ることができる。
【0063】
さらに、フィルタリングを関連文書の検索と一緒に用いるため、フィルタリングのためにわざわざ適合文書を指定する必要がなくなる。すなわち、関連文書検索では、良い検索結果を得るために文書の内容を確認して適合性フィードバックを行いながら、ある程度満足いく結果に到達するまで検索を繰り返す。満足いく結果に到達した時点では、ある程度の量の適合文書が蓄積されているので(例えば、1回の検索において3つの適合文書を指定し、適合性フィードバック検索を行う。3〜4回の適合性フィードバック検索を行えば、9文書から12文書の適合文書が得られる)、ユーザはフィルタリングのために適合文書の指定をせずともフィルタリングを実行することができる。このフィルタリングを行うことで、複数回の適合性フィードバックにより得られた関連文書から適合文書を抽出することができる。さらに、ユーザは一連のフローにおいてフィルタリングのために余計な処理を強要されず、操作性が向上する。
【図面の簡単な説明】
【0064】
【図1】本発明の実施の一形態の文書検索装置の電気的な接続を示すブロック図である。
【図2】文書検索装置の機能を示すブロック図である。
【図3】文書検索プログラムに基づいてCPUが実行する処理の流れを示すフローチャートである。
【図4】検索画面の表示例を示す平面図である。
【図5】検索画面の表示例を示す平面図である。
【図6】検索画面の表示例を示す平面図である。
【図7】検索画面の表示例を示す平面図である。
【図8】検索画面の表示例を示す平面図である。
【図9】不適合文書の抽出処理の流れを示すフローチャートである。
【符号の説明】
【0065】
1 文書検索装置
21 蓄積部(データベース)
23 表示部(入出力部)
23 操作部(入出力部)
31 第1手段、第1機能、第1ステップ(検索語抽出部)
32 第2手段、第2機能、第2ステップ(関連文書検索部)
32 第3手段、第3機能、第3ステップ(関連文書検索部)
32 第6手段、第6機能、第6ステップ(関連文書検索部)
32 第10手段、第10機能、第10ステップ(関連文書検索部)
32 第12手段、第12機能、第12ステップ(関連文書検索部)
32 第13手段、第13機能、第13ステップ(関連文書検索部)
33 第4手段、第4機能、第4ステップ(適合文書指定部)
34 第5手段、第5機能、第5ステップ(関連語抽出部)
35 第7手段、第7機能、第7ステップ(不適合文書抽出部)
36 第8手段、第8機能、第8ステップ(学習部)
36 第9手段、第9機能、第9ステップ(学習部)
37 第11手段、第11機能、第11ステップ(分類部)
S8 第13手段、第13機能、第13ステップ

【特許請求の範囲】
【請求項1】
操作を受け付ける操作部に対する検索者の入力操作に応じて検索用の語句を検索語として設定する第1手段と、
電子化された複数の文書を文書群として蓄積する蓄積部に蓄積されている文書群から、前記第1手段により設定された前記検索語を含む文書を関連文書として検索する第2手段と、
表示動作を行う表示部に前記第2手段による検索結果を表示させる第3手段と、
前記操作部に対する検索者の入力操作に応じて、前記第2手段により検索された複数の前記関連文書から検索者が求める適合文書を指定する第4手段と、
前記第4手段により指定された前記適合文書に基づいて検索用の語句を関連語として設定する第5手段と、
前記蓄積部に蓄積されている文書群から、前記第5手段により設定された前記関連語を含む文書を関連文書として検索する第6手段と、
前記第6手段により検索された複数の前記関連文書から、前記第4手段により指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する第7手段と、
前記第4手段により指定された前記適合文書及び前記第7手段により抽出された前記不適合文書に基づいて分類用のパラメータを生成する第8手段と、
前記第8手段により生成された前記パラメータに基づいて前記検索語を再設定する第9手段と、
前記蓄積部に蓄積されている文書群から、前記第9手段により再設定された前記検索語を含む文書を前記関連文書として検索する第10手段と、
前記第10手段により検索された複数の前記関連文書から、前記第8手段により生成された前記パラメータに基づいて前記適合文書を抽出する第11手段と、
前記表示部に前記第11手段による抽出結果を表示させる第12手段と、
を備える文書検索装置。
【請求項2】
前記蓄積部を備える、
請求項1記載の文書検索装置。
【請求項3】
前記操作部及び前記表示部を備える、
請求項1又は2記載の文書検索装置。
【請求項4】
前記第3手段は、前記表示部に前記第6手段による検索結果も表示させ、
前記第4手段は、前記操作部に対する検索者の入力操作に応じて、前記第6手段により検索された複数の前記関連文書からも前記適合文書を指定し、
前記第3手段、前記第4手段、第5手段及び第6手段を複数回繰り返す第13手段を備える、
請求項1、2又は3記載の文書検索装置。
【請求項5】
前記第7手段は、前記適合文書及び前記関連文書間の類似度を求め、その類似度に基づいて複数の前記関連文書から前記不適合文書を抽出する、
請求項1、2、3又は4記載の文書検索装置。
【請求項6】
前記第7手段は、前記適合文書と同数の前記不適合文書を抽出する、
請求項1、2、3、4又は5記載の文書検索装置。
【請求項7】
前記第11手段は、前記パラメータに基づいて前記適合文書と前記不適合文書とを分類するフィルタリングを行って前記第10手段により検索された複数の前記関連文書から前記適合文書を抽出する、
請求項1、2、3、4、5又は6記載の文書検索装置。
【請求項8】
操作を受け付ける操作部に対する検索者の入力操作に応じて検索用の語句を検索語として設定する第1ステップと、
電子化された複数の文書を文書群として蓄積する蓄積部に蓄積されている文書群から、前記第1ステップにより設定された前記検索語を含む文書を関連文書として検索する第2ステップと、
表示動作を行う表示部に前記第2ステップによる検索結果を表示させる第3ステップと、
前記操作部に対する検索者の入力操作に応じて、前記第2ステップにより検索された複数の前記関連文書から検索者が求める適合文書を指定する第4ステップと、
前記第4ステップにより指定された前記適合文書に基づいて検索用の語句を関連語として設定する第5ステップと、
前記蓄積部に蓄積されている文書群から、前記第5ステップにより設定された前記関連語を含む文書を関連文書として検索する第6ステップと、
前記第6ステップにより検索された複数の前記関連文書から、前記第4ステップにより指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する第7ステップと、
前記第4ステップにより指定された前記適合文書及び前記第7ステップにより抽出された前記不適合文書に基づいて分類用のパラメータを生成する第8ステップと、
前記第8ステップにより生成された前記パラメータに基づいて前記検索語を再設定する第9ステップと、
前記蓄積部に蓄積されている文書群から、前記第9ステップにより再設定された前記検索語を含む文書を前記関連文書として検索する第10ステップと、
前記第10ステップにより検索された複数の前記関連文書から、前記第8ステップにより生成された前記パラメータに基づいて前記適合文書を抽出する第11ステップと、
前記表示部に前記第11ステップによる抽出結果を表示させる第12ステップと、
を備える文書検索方法。
【請求項9】
前記第3ステップは、前記表示部に前記第6ステップによる検索結果も表示させ、
前記第4ステップは、前記操作部に対する検索者の入力操作に応じて、前記第6ステップにより検索された複数の前記関連文書からも前記適合文書を指定し、
前記第3ステップ、前記第4ステップ、第5ステップ及び第6ステップを複数回繰り返す第13ステップを備える、
請求項8記載の文書検索方法。
【請求項10】
前記第7ステップは、前記適合文書及び前記関連文書間の類似度を求め、その類似度に基づいて複数の前記関連文書から前記不適合文書を抽出する、
請求項8又は9記載の文書検索方法。
【請求項11】
前記第7ステップは、前記適合文書と同数の前記不適合文書を抽出する、
請求項8、9又は10記載の文書検索方法。
【請求項12】
前記第11ステップは、前記パラメータに基づいて前記適合文書と前記不適合文書とを分類するフィルタリングを行って前記第10ステップにより検索された複数の前記関連文書から前記適合文書を抽出する、
請求項8、9、10又は11記載の文書検索方法。
【請求項13】
操作を受け付ける操作部に対する検索者の入力操作に応じて検索用の語句を検索語として設定する第1機能と、
電子化された複数の文書を文書群として蓄積する蓄積部に蓄積されている文書群から、前記第1機能により設定された前記検索語を含む文書を関連文書として検索する第2機能と、
表示動作を行う表示部に前記第2機能による検索結果を表示させる第3機能と、
前記操作部に対する検索者の入力操作に応じて、前記第2機能により検索された複数の前記関連文書から検索者が求める適合文書を指定する第4機能と、
前記第4機能により指定された前記適合文書に基づいて検索用の語句を関連語として設定する第5機能と、
前記蓄積部に蓄積されている文書群から、前記第5機能により設定された前記関連語を含む文書を関連文書として検索する第6機能と、
前記第6機能により検索された複数の前記関連文書から、前記第4機能により指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する第7機能と、
前記第4機能により指定された前記適合文書及び前記第7機能により抽出された前記不適合文書に基づいて分類用のパラメータを生成する第8機能と、
前記第8機能により生成された前記パラメータに基づいて前記検索語を再設定する第9機能と、
前記蓄積部に蓄積されている文書群から、前記第9機能により再設定された前記検索語を含む文書を前記関連文書として検索する第10機能と、
前記第10機能により検索された複数の前記関連文書から、前記第8機能により生成された前記パラメータに基づいて前記適合文書を抽出する第11機能と、
前記表示部に前記第11機能による抽出結果を表示させる第12機能と、
をコンピュータに実行させるコンピュータ読取可能なプログラム。
【請求項14】
前記第3機能は、前記表示部に前記第6機能による検索結果も表示させ、
前記第4機能は、前記操作部に対する検索者の入力操作に応じて、前記第6機能により検索された複数の前記関連文書からも前記適合文書を指定し、
前記第3機能、前記第4機能、第5機能及び第6機能を複数回繰り返す第13機能を前記コンピュータに実行させる、
請求項13記載のプログラム。
【請求項15】
前記第7機能は、前記適合文書及び前記関連文書間の類似度を求め、その類似度に基づいて複数の前記関連文書から前記不適合文書を抽出する、
請求項13又は14記載のプログラム。
【請求項16】
前記第7機能は、前記適合文書と同数の前記不適合文書を抽出する、
請求項13、14又は15記載のプログラム。
【請求項17】
前記第11機能は、前記パラメータに基づいて前記適合文書と前記不適合文書とを分類するフィルタリングを行って前記第10機能により検索された複数の前記関連文書から前記適合文書を抽出する、
請求項13、14、15又は16記載のプログラム。
【請求項18】
請求項13ないし17のいずれか一記載のプログラムを記憶しているコンピュータ読取可能な記憶媒体。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate