文書検索処理方法及び装置並びに記憶媒体
【課題】 文書検索の処理速度向上を図った文書検索処理装置を提供する。
【解決手段】 CPU101により、文書を特徴付ける文書ベクトルを生成し、文書ベクトル間から文書間の文書類似度を生成し、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成し、前記文書ベクトルを用いて前記文書類似度によって類似文書を検索すると共に前記基準類似度をも用いて検索を行うように制御する。
【解決手段】 CPU101により、文書を特徴付ける文書ベクトルを生成し、文書ベクトル間から文書間の文書類似度を生成し、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成し、前記文書ベクトルを用いて前記文書類似度によって類似文書を検索すると共に前記基準類似度をも用いて検索を行うように制御する。
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データを検索する文書検索処理方法及び装置並びに記憶媒体に関する。
【0002】
【従来の技術】近年、大量の文書データを扱う機会が増加してきたため、所望の文書データを検索処理する手段も多種多様になってきている。その理由は、単純なキーワード(キーワードを指示し、それが出現するか否かで検索を行う)では、ユーザの要求を十分に満たさなくなってきているためである。
【0003】そのため文書の内容を特徴付ける意味、分野、単語そのものを次元とし、その特徴量を値とすることでベクトル表現し、文書べクトル間の内積等の値を用いて文書間の類似度を求める方法が主流である。
【0004】斯かる文書類似度の精度向上のため、つまり文書の特徴を深く捉えるためにベクトルの次元数は数百、数千のレベルで用意される傾向にある。
【0005】
【発明が解決しようとする課題】しかしながら、上記従来の技術によれば、類似度の精度は向上するが、文書類似度の生成負荷が増大し、文書検索処理の速度低下を招いているという問題点があった。
【0006】本発明は、上記従来技術の有する問題点を解消するためになされたもので、その第1の目的は、文書検索の処理速度向上を図った文書検索処理方法及び装置を提供することである。
【0007】また、本発明の第2の目的は、上述したような本発明の文書検索処理装置を制御するための制御プログラムを格納した記憶媒体を提供することである。
【0008】
【課題を解決するための手段】上記第1の目的を達成するために、本発明の請求項1に記載の文書検索処理方法は、文書を特徴付ける文書ベクトルを生成する文書ベクトル生成ステップと、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成ステップと、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成ステップと、前記文書ベクトル生成ステップで生成された文書ベクトルを用いて前記文書類似度生成ステップによって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成ステップで生成された基準類似度をも用いて検索を行う文書検索ステップとを有することを特徴とする。
【0009】また、上記第1の目的を達成するために、本発明の請求項2に記載の文書検索処理方法は、請求項1に記載の文書検索処理方法において、検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする。
【0010】また、上記第1の目的を達成するために、本発明の請求項3に記載の文書検索処理装置は、文書を特徴付ける文書ベクトルを生成する文書ベクトル生成手段と、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成手段と、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成手段と、前記文書ベクトル生成手段で生成された文書ベクトルを用いて前記文書類似度生成手段によって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成手段で生成された基準類似度をも用いて検索を行う文書検索手段とを有することを特徴とする。
【0011】また、上記第1の目的を達成するために、本発明の請求項4に記載の文書検索処理装置は、請求項3に記載の文書検索処理装置において、検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする。
【0012】また、上記第2の目的を達成するために、本発明の請求項5に記載の記憶媒体は、文書データを検索する文書検索処理装置を制御するためのコンピュータで読み取り可能な制御プログラムを格納した記憶媒体であって、前記制御プログラムは、文書を特徴付ける文書ベクトルを生成する文書ベクトル生成モジュールと、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成モジュールと、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成モジュールと、前記文書ベクトル生成モジュールで生成された文書ベクトルを用いて前記文書類似度生成モジュールによって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成モジュールで生成された基準類似度をも用いて検索を行う文書検索モジュールとを有することを特徴とする。
【0013】また、上記第2の目的を達成するために、本発明の請求項6に記載の記憶媒体は、請求項5に記載の記憶媒体において、検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする。
【0014】
【発明の実施の形態】以下、本発明の各実施の形態について、図面を用いて説明する。
【0015】(第1の実施の形態)まず、本発明の第1の実施の形態について、図1〜図14を用いて説明する。
【0016】図1は、本実施の形態に係る文書検索処理装置のシステム構成を示すブロック図である。同図において、101はCPU(マイクロプロセッサ:中央演算処理装置)で、文書検索のための演算、論理判断等を行い、後述するバス(BUS)102を介して該バス102に接続された後述する各構成要素を制御する。また、CPU101が文書検索表示手段としても動作する。
【0017】102はバス(BUS)で、CPU101の制御対象である後述する各構成要素を指示するアドレス信号、コントロール信号を転送する。また、後述する各構成要素間のデータ転送を行う。
【0018】103はROM(リードオンリーメモリ)で、読み出し専用の固定メモリであり、CPU101による制御プログラム等を記憶している。104はRAM(ランダムアクセスメモリ)で、各構成要素からの各種データの一時記憶に用いる。105は入力装置で、キーボード及びマウス等からなる。106は表示装置で、CRT(陰極線管)或いは液晶表示器等からなる。
【0019】107は記憶装置で、ハードディスクからなり、検索対象となる文書ファイルデータベース(文書DB)107a及び辞書DIC107b等が格納されている。108は外部記憶装置で、フロッピー(登録商標)ディスクや書き込み可能CD(コンパクトディスク)、DVD(デジタルビデオディスク)等の外部記憶装置にアクセスするためのドライブ等である。この外部記憶装置107は、記憶装置107と同等に使用でき、それらの記憶媒体を通して他の文書検索処理装置とのデータ交換を行う装置である。109は通信装置で、モデム或いはLAN(ローカルエリアネットワーク)コントローラ等からなり、通信回線を介して外部とのデータ交換を行う装置である。
【0020】斯かる各構成要素からなる本実施の形態に斯かる文書検索処理装置においては、入力装置105からの各種の入力に応じて作動するものであって、入力装置105からの入力が供給されると、まず、インタラプタ信号がCPU101に送られ、該CPU101がROM103内に記憶してある各種の制御信号を読み出し、それらの制御信号に従って各種の制御が行われる。
【0021】以下、上記構成になる本実施の形態に係る文書検索処理装置では、基準類似度で検索対象の文書を絞り込むことことにより、文書類似度判定の負荷を大幅に軽減することで、高速な文書検索処理を行うことが可能である。
【0022】以下に、この文書検索処理の一例を説明する。
【0023】図2は、本実施の形態に係る文書検索処理装置における文書検索結処理果の表示画面構成例を示す図である。同図において、201は検索条件パネルで、今回の検索指示内容が表示される。検索指示としての表示例としては、ユーザの手による自然文或いはユーザの入力した複数のキーワードの羅列、またユーザが指示した既存の文書の内容等である。202は検索結果パネルで、上記検索条件によって行われた文書検索結果が表示される。検索結果としてリストアップされた各文書のID202aと文書タイトル202b、類似度202cが表示される。
【0024】次に、本実施の形態に係る文書検索処理装置における基準類似度を用いた検索対象の絞込みの基本動作を説明する。この基本動作は、基準類似度の作成、検索クエリーの文書ベクトルから基準ベクトルへの展開、基準類似度による検索対象の判定の3つに大きく分けられる。
【0025】最初に基準類似度の生成過程を説明する。
【0026】文書は、記憶装置107の文書DB107aに登録される段階で、最初に文書を特徴付ける文書ベクトルが生成される。文書からの文書ベクトル生成は、文書内に出現する単語から記憶装置107の辞書DIC107bを用いて算出される。
【0027】図3は、辞書DIC107bの構成を示す図である。同図に示すように、辞書DIC107bは、単語毎にベクトル表現時のそれぞれの次元(Dim.)に対応した特徴量が格納されている。次元は、その単語本来の意味によって分類された基準や、その単語の使用分野に応じて分類された基準等が採用される。単語1のDim.1の特徴量は0であり、Dim.2の特徴量は23であることが分かる。
【0028】このように辞書DIC107bから1つの単語におけるそれぞれの次元(Dim.)の特徴量を得ることが可能となる。特徴量は、その単語が使用されることにより、その文書がその分類基準(=次元)をどれくらい特徴付ける可能性があるかを示す値と解釈することが可能である。文書を構成する全ての単語から得られた分類基準別(次元別)の特徴量から、文書全体の特徴量を分類基準(=次元)とするベクトルで表現する。得られたベクトルをノルム=1で正規化した値を文書ベクトルとして格納する。
【0029】図4は、格納された文書ベクトルの状態の一例を示す図である。同図に示すように、例えば、文書ID=6947の文書ベクトルのDim.1の特徴量は0.183であり、Dim.2の特徴量は0.214であることが分かる。
【0030】生成された文書ベクトルから基準類似度を生成する。基準類似度は、用意された固定の値を持つ基準ベクトル(Base Vector=BV)と文書ベクトルの類似度から生成する。基準ベクトルは、各次元の特徴量比率を整数比で持たせたベクトルPをノルム=1で正規化したベクトルBVの形で保持する。用意する基準ベクトルは、ターゲットの文書DBを考慮し、より有効な任意の値を用意することが可能である。
【0031】図5は、特徴量を整数比で持たせた基準ベクトルPの状態の一例を示す図であり、図6は、図5の基準ベクトルをノルム=1で正規化した基準ベクトルBVの状態の一例を示す図であり、文書ベクトルと同様に基準ベクトルの各次元の特徴量を示している。
【0032】図6において、例えば、基準ベクトルBV1のDim.1〜3の特徴量はいずれも0、Dim.4〜5の特徴量は0.408であることが分かる。
【0033】本実施の形態に係る文書検索処理装置においては、以上の文書ベクトルと基準ベクトルの余弦測度による類似度を基に基準類似度を生成している。
【0034】図7は、基準類似度の算出方法の一例を示す図である。同図に示すように、文書ベクトルXは、各次元にx1〜xnの値を持つn次元のベクトル、同様に基準ベクトルPは、各次元にp1〜pnの値を持つn次元のベクトルである。
【0035】ここで、余弦測度による類似度をSD(X,P)、基準類似度をS(X,P)と表わすことにする。
【0036】余弦測度による類似度SD(X,P)は、両ベクトルの内積を両ベクトルのノルムの積で割った値となる。両ベクトルがノルム=1で正規化されている本実施の形態では、SD(X,P)は内積そのものに相当する。よって、両ベクトルの同次元の値の総和で求めることができる。基準類似度は、この総和の値を閾値でαで判別し、1或いは0の2値いずれかに転値する。値を簡易化することにより、基準類似度にとる判定効率が向上し、更に処理速度が向上する。本実施の形態では、閾値αの値として0.302をセットしている。
【0037】以上の手段によって文書単位で基準ベクトル毎の基準類似度を生成する。
【0038】図8は、文書毎の基準類似度の状態の一例を示す図である。同図において、基準ベクトル1(BV1)による基準類似度{(SD(X,BV1))をBSV1と表現している。文書ID=6947のBSV1〜2の値は1であり、BSV3〜5の値は0であることが分かる。
【0039】次に、検索文の文書ベクトルから基準ベクトルのサブセットへの展開を説明する。
【0040】検索クエリーとしての入力文も文書ベクトル生成と同手段で入力文の文書ベクトルを生成する。生成されたクエリーの文書ベクトルを基準ベクトルのサブセットに展開する。
【0041】図9は、クエリーの文書ベクトルを基準ベクトルのサブセットに展開するための展開方法を示す図である。
【0042】入力文の特徴ベクトルYの各次元の特徴量を閾値βによって0/1に転値したベクトルY’を算出する。本実施の形態では、閾値βの値として0.302をセットする。これは基準類似度の閾値と同じ値を使用している。この方法では、0/1に転値されるので、0/1の整数比で用意された基準ベクトルPのサブセットに展開することがベクトルの加減によって可能である。
【0043】次に、規準類似度による検索対象を判定する過程を説明する。
【0044】Y’=Pi+Pj+Pkに展開された場合、展開された基準ベクトルに対応する基準類似度BSVi,BSVj,BSVkによって対象文書に絞り込むことが可能となる。仮に、Y’=P3+P4となる検索クエリーが入力されたとする。これは基準類似度BSV3,BSV4の値が1である文書煮を絞り込むことが可能である。
【0045】図3の例で確認すると、BSV3=1またはBSV4=1である文書IDは、6954,6955,6959の3文書である。この3文書が対象文書として絞り込まれ、入力文の特徴ベクトルYとそれぞれの文書ベクトルの類似度が実際に算出される。逆に、3文書以外の文書の類似度算出は行われないため、高速な検索が可能である。
【0046】以下、上述した説明事項に付いて、図10〜図14のフローチャートを用いて説明する。
【0047】図10は、本実施の形態に係る文書検索処理装置におけるCPU101の処理手順を示すフローチャートである。同図において、まず、ステップS1001でシステムの初期化処理、即ち、各種パラメータの初期化や初期画面の表示等の処理を行う。次に、ステップS1002でキー入力を待つ。即ち、入力装置105から何らかのキーが押下され、割り込みが発生するのをCPU101において待つ。そして、キーが入力されると、次のステップS1003でCPU101は、入力されたキーを判別し、次のステップS1004でキーの種類において各種の処理に分岐する。この各種キーに対応した分岐先の複数の処理をステップS1004においては、「各種対応処理」として纏めて表現している。図11R>1及び図12で説明する文書の登録処理及び検索処理がこの分岐先の一部となる。
【0048】次に、ステップS1005へ進んで、上記の処理の結果、変更された部分を表示する表示処理を行う。この表示処理は、表示内容を表示パターンに展開し、バッファに出力するといった通常行われている処理である。このステップS1005における表示処理を終了後は、前記ステップS1002へ戻る。
【0049】図11は、図10におけるステップS1004の一部である文書の登録処理の詳細な流れを示すフローチャートである。同図において、まず、ステップS1101で文書から単語を抽出する処理である単語抽出処理、即ち、形態素解析用辞書を使用して形態素解析を行う。次に、ステップS1102で文書ベクトルの生成処理を行う。即ち、前記ステップS1101において抽出された単語から辞書DIC107bを検索し、単語毎の次元別の特徴量を得て、その総和から文書ベクトルを生成する。
【0050】次に、ステップS1103で基準類似度生成処理を行う。即ち、前記ステップS1102において得られた文書ベクトルと基準ベクトルBVから基準類似度を算出する。この算出方法の一例を図7に示している。
【0051】次に、ステップS1104で文書DB107aへの登録処理である文書DB登録処理を行う。即ち、文書の内容と前記ステップS1102において得られた文書ベクトルと前記ステップS1103において得られた基準類似度とを登録すると共に、文書DB107aのインデックスを更新する。このステップS1104における文書DB登録処理を終了後は、リターンする。
【0052】図12は、図10におけるステップS1004の一部である文書の検索実行処理の詳細な流れを示すフローチャートである。同図において、まず、ステップS1201で検索条件入力処理、即ちユーザーは自然文或いは複数のキーワードを入力する或いは既存の文書を指定する形で指示する処理を行う。次に、次に、ステップS1202で検索条件情報生成処理、即ち類似度生成に必要な検索条件文の文書ベクトルと検索対象絞込みに必要な基準ベクトルのサブセットを得る処理を行う。
【0053】次に、ステップS1203で類似度生成格納処理、即ち前記ステップS1202において得られた基準ベクトルのサブセットに応じた基準類似度を基に対象文書を絞り、同じくステップS1202において得られた文書ベクトルと対象文書ベクトルとから類似度を生成し、RAM104に格納する処理を行う。生成した値を記憶装置107の文書DB107aに登録することも可能である。
【0054】次に、ステップS1204で類似度による順序付け処理、即ち前記ステップS1203において格納した文書毎の類似度を順序付けする処理を行う。次に、ステップS1205で検索結果表示処理、即ち前記ステップS1204において順序付けされた文書を検索結果としてリストアップして表示装置106に表示する処理を行う。その際に、前記ステップS1203において登録された類似度の値も同時に表示する。このステップS1205における検索結果表示処理を終了後は、リターンする。
【0055】図13は、図12のステップS1202における検索条件情報生成処理の詳細な流れを示すフローチャートである。同図において、まず、ステップS1301で前記図12のステップS1201において得られたユーザーの検索条件を読み込む処理を行う。次に、ステップS1302で前記ステップS1301において読み込まれたユーザー指定の検索条件文から単語を抽出する処理、即ち形態素解析用辞書を使用して形態素解析処理を行う。
【0056】次に、ステップS1303で検索文の文書ベクトル生成処理、即ち前記ステップS1302において抽出された単語から記憶装置107の辞書DIC107bを検索し、単語毎の次元別の特徴量を得て、その総和から文書ベクトルを生成する処理を行う。
【0057】これらのステップS1302及びステップS1303における処理は、前記図11のステップS1101及びステップS1102における処理と同等の処理である。
【0058】次に、ステップS1304で検索文の配置ベクトルを生成する処理を行う。次に、ステップS1305で、基準ベクトルセット展開処理、即ち前記ステップS1304において得られた配置ベクトルから基準ベクトルに展開する処理を行う。このステップS1304における配置ベクトルセット展開処理を終了後は、リターンする。
【0059】図14は、図12のステップS1203における類似度生成格納処理の詳細な流れを示すフローチャートである。同図において、まず、ステップS1401で検索対象である文書DB107a内の文書を指定するカウンタNに初期値1をセットし、次の、ステップS1402で文書DB107aからN番目の文書の文書ベクトルと基準類似度を呼び出す処理を行う。
【0060】次に、ステップS1403で前記ステップS1402において呼び出された基準類似度から前記ステップS1305において展開された基準ベクトルセットに対応した基準類似度のみを抽出する。次に、ステップS1404で基準類似度から類似度算出の対象になるか否かを判定する。
【0061】図8に示した基準類似度の例では、前記ステップS1403において抽出された基準類似度の総和が0か否かで判定している。
【0062】そして、前記ステップS1404において類似度算出の対象になると判定された場合は、ステップS1405で検索文の文書ベクトルと呼び出されている文書の文書ベクトルとから類似度を算出する。また、前記ステップS1404において類似度算出の対象にならないと判定された場合は、ステップS1406で前記ステップS1405において行われるような類似度算出処理は行わず、類似度を固定値0とする。
【0063】前記ステップS1405或いは前記ステップS1406における処理が終了後は、ステップS1407で類似度格納処理、即ち前記ステップS1405において算出された類似度或いは前記ステップS1406においてセットされた類似度(=0)を、文書DB107a或いはRAM104に格納し、前記図12のステップS1204において参照する。
【0064】次に、ステップS1408で文書DB107a内の検索対象文書に残りがあるか否かを判定する。そして、文書DB107a内の検索対象文書に残りがあると判定された場合は、ステップS1409でカウンタであるnをカウントアップした後、前記ステップS1402へ戻り、検索条件適合値の算出を繰り返す。また、文書DB107a内の検索対象文書に残りがないと判定された場合は、リターンする。
【0065】以上詳述したように、本実施の形態に係る文書検索処理方法及び装置によれば、特定の値を持つ基準ベクトルを複数用意し、基準ベクトルと検索対象となる文書の文書ベクトル間の基準類似度を生成し、検索クリエー文を用意された基準ベクトルのサブセットに展開し、該展開された基準ベクトルに応じた基準類似度で検索対象の文書を絞り込み、文書ベクトルと検索文の文書ベクトル間の類似度を算出することにより、処理負荷の高い文書類似度生成手段による文書類似度判定の負荷を大幅に削減することが可能となり、高速な文書検索が可能で、処理速度が向上するという効果を奏する。
【0066】(他の実施の形態)上述した第1の実施の形態における基準類似度の算出方法は、1つの閾値αによって2段階の値(0または1)を取る方法であったが、本発明はこれに限られるものではなく、複数の閾値を用意し、2以上の段階の値を取らせることも可能である。また、基準ベクトルの配置方法の閾値βも同様である。その際に基準類似度の判定基準としての閾値を持たせることが可能である。また、事前に検索対象数を得る手法にした場合は、その値によって判定基準を動的に変化させることも可能である。
【0067】また、上述した第1の実施の形態においては、基準類似度の算出、基準ベクトルの配置のいずれの閾値(αとβ)も固定の値をとる方法であったが、本発明はこれに限られるものではなく、その時点での文書DB内のベクトル及び検索文の基準ベクトルの特徴量から平均値等の統計処理した値を基に動的に変化させる方法も可能である。
【0068】また、本発明は、単体の装置に限らず、複数の装置から構成されるシステムに適用可能である。また、それらの装置やシステムに記憶媒体や通信装置を使ってソフトウェアを提供することによっても実現可能であることは言うまでもない。
【0069】この場合、本発明を達成するためのソフトウェアによって表わされる制御プログラムを格納した記憶媒体を、システム或いは装置に読み出すこと、或いは前記制御プログラムを、ネットワーク経由でシステム或いは装置に読み出すことによって、そのシステム或いは装置が本発明の効果を享受することが可能となる。
【0070】また、前記制御プログラムを記憶するための記憶媒体としては、ハードディスク、フロッピー(登録商標)ディスク、光ディスク、光磁気ディスク、CD−R、DVD、磁気テープ、不揮発性のメモリカード、CD−ROM等を用いることができるのは言うまでもない。
【0071】
【発明の効果】以上詳述したように、本発明の文書検索処理方法及び装置によれば、文書検索の処理速度が向上するという効果を奏する。
【0072】また、本発明の記憶媒体によれば、上述したような本発明の文書検索処理装置を円滑に制御することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る文書検索処理装置のシステム構成を示すブロック図である。
【図2】本発明の第1の実施の形態に係る文書検索処理装置における文書検索結果の表示画面構成の一例を示す図である。
【図3】本発明の第1の実施の形態に係る文書検索処理装置における辞書DICの構成の一例を示す図である。
【図4】本発明の第1の実施の形態に係る文書検索処理装置における文書の文書ベクトルの状態の一例を示す図である。
【図5】本発明の第1の実施の形態に係る文書検索処理装置における基準ベクトルPの状態の一例を示す図である。
【図6】本発明の第1の実施の形態に係る文書検索処理装置における基準ベクトルBVの状態の一例を示す図である。
【図7】本発明の第1の実施の形態に係る文書検索処理装置における基準類似度の算出方法の一例を示す図である。
【図8】本発明の第1の実施の形態に係る文書検索処理装置における基準類似度BSVの状態の一例を示す図である。
【図9】本発明の第1の実施の形態に係る文書検索処理装置における検索文の展開方法を示す図である。
【図10】本発明の第1の実施の形態に係る文書検索処理装置における文書検索処理動作全体の流れを示すフローチャートである。
【図11】本発明の第1の実施の形態に係る文書検索処理装置における文書を文書DBに登録する処理動作の流れを示すフローチャートである。
【図12】本発明の第1の実施の形態に係る文書検索処理装置における文書検索実行処理動作の詳細な流れを示すフローチャートである。
【図13】本発明の第1の実施の形態に係る文書検索処理装置における検索条件情報生成処理動作の詳細な流れを示すフローチャートである。
【図14】本発明の第1の実施の形態に係る文書検索処理装置における類似度生成格納処理動作の詳細な流れを示すフローチャートである。
【符号の説明】
101 CPU(マイクロプロセッサ:中央演算処理装置)
102 バス(BUS)102
103 ROM(リードオンリーメモリ)
104 RAM(ランダムアクセスメモリ)
105 入力装置
106 表示装置
107 記憶装置
107a 文書ファイルデータベース(文書DB)
107b 辞書DIC
108 外部記憶装
109 通信装置
【0001】
【発明の属する技術分野】本発明は、文書データを検索する文書検索処理方法及び装置並びに記憶媒体に関する。
【0002】
【従来の技術】近年、大量の文書データを扱う機会が増加してきたため、所望の文書データを検索処理する手段も多種多様になってきている。その理由は、単純なキーワード(キーワードを指示し、それが出現するか否かで検索を行う)では、ユーザの要求を十分に満たさなくなってきているためである。
【0003】そのため文書の内容を特徴付ける意味、分野、単語そのものを次元とし、その特徴量を値とすることでベクトル表現し、文書べクトル間の内積等の値を用いて文書間の類似度を求める方法が主流である。
【0004】斯かる文書類似度の精度向上のため、つまり文書の特徴を深く捉えるためにベクトルの次元数は数百、数千のレベルで用意される傾向にある。
【0005】
【発明が解決しようとする課題】しかしながら、上記従来の技術によれば、類似度の精度は向上するが、文書類似度の生成負荷が増大し、文書検索処理の速度低下を招いているという問題点があった。
【0006】本発明は、上記従来技術の有する問題点を解消するためになされたもので、その第1の目的は、文書検索の処理速度向上を図った文書検索処理方法及び装置を提供することである。
【0007】また、本発明の第2の目的は、上述したような本発明の文書検索処理装置を制御するための制御プログラムを格納した記憶媒体を提供することである。
【0008】
【課題を解決するための手段】上記第1の目的を達成するために、本発明の請求項1に記載の文書検索処理方法は、文書を特徴付ける文書ベクトルを生成する文書ベクトル生成ステップと、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成ステップと、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成ステップと、前記文書ベクトル生成ステップで生成された文書ベクトルを用いて前記文書類似度生成ステップによって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成ステップで生成された基準類似度をも用いて検索を行う文書検索ステップとを有することを特徴とする。
【0009】また、上記第1の目的を達成するために、本発明の請求項2に記載の文書検索処理方法は、請求項1に記載の文書検索処理方法において、検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする。
【0010】また、上記第1の目的を達成するために、本発明の請求項3に記載の文書検索処理装置は、文書を特徴付ける文書ベクトルを生成する文書ベクトル生成手段と、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成手段と、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成手段と、前記文書ベクトル生成手段で生成された文書ベクトルを用いて前記文書類似度生成手段によって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成手段で生成された基準類似度をも用いて検索を行う文書検索手段とを有することを特徴とする。
【0011】また、上記第1の目的を達成するために、本発明の請求項4に記載の文書検索処理装置は、請求項3に記載の文書検索処理装置において、検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする。
【0012】また、上記第2の目的を達成するために、本発明の請求項5に記載の記憶媒体は、文書データを検索する文書検索処理装置を制御するためのコンピュータで読み取り可能な制御プログラムを格納した記憶媒体であって、前記制御プログラムは、文書を特徴付ける文書ベクトルを生成する文書ベクトル生成モジュールと、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成モジュールと、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成モジュールと、前記文書ベクトル生成モジュールで生成された文書ベクトルを用いて前記文書類似度生成モジュールによって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成モジュールで生成された基準類似度をも用いて検索を行う文書検索モジュールとを有することを特徴とする。
【0013】また、上記第2の目的を達成するために、本発明の請求項6に記載の記憶媒体は、請求項5に記載の記憶媒体において、検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする。
【0014】
【発明の実施の形態】以下、本発明の各実施の形態について、図面を用いて説明する。
【0015】(第1の実施の形態)まず、本発明の第1の実施の形態について、図1〜図14を用いて説明する。
【0016】図1は、本実施の形態に係る文書検索処理装置のシステム構成を示すブロック図である。同図において、101はCPU(マイクロプロセッサ:中央演算処理装置)で、文書検索のための演算、論理判断等を行い、後述するバス(BUS)102を介して該バス102に接続された後述する各構成要素を制御する。また、CPU101が文書検索表示手段としても動作する。
【0017】102はバス(BUS)で、CPU101の制御対象である後述する各構成要素を指示するアドレス信号、コントロール信号を転送する。また、後述する各構成要素間のデータ転送を行う。
【0018】103はROM(リードオンリーメモリ)で、読み出し専用の固定メモリであり、CPU101による制御プログラム等を記憶している。104はRAM(ランダムアクセスメモリ)で、各構成要素からの各種データの一時記憶に用いる。105は入力装置で、キーボード及びマウス等からなる。106は表示装置で、CRT(陰極線管)或いは液晶表示器等からなる。
【0019】107は記憶装置で、ハードディスクからなり、検索対象となる文書ファイルデータベース(文書DB)107a及び辞書DIC107b等が格納されている。108は外部記憶装置で、フロッピー(登録商標)ディスクや書き込み可能CD(コンパクトディスク)、DVD(デジタルビデオディスク)等の外部記憶装置にアクセスするためのドライブ等である。この外部記憶装置107は、記憶装置107と同等に使用でき、それらの記憶媒体を通して他の文書検索処理装置とのデータ交換を行う装置である。109は通信装置で、モデム或いはLAN(ローカルエリアネットワーク)コントローラ等からなり、通信回線を介して外部とのデータ交換を行う装置である。
【0020】斯かる各構成要素からなる本実施の形態に斯かる文書検索処理装置においては、入力装置105からの各種の入力に応じて作動するものであって、入力装置105からの入力が供給されると、まず、インタラプタ信号がCPU101に送られ、該CPU101がROM103内に記憶してある各種の制御信号を読み出し、それらの制御信号に従って各種の制御が行われる。
【0021】以下、上記構成になる本実施の形態に係る文書検索処理装置では、基準類似度で検索対象の文書を絞り込むことことにより、文書類似度判定の負荷を大幅に軽減することで、高速な文書検索処理を行うことが可能である。
【0022】以下に、この文書検索処理の一例を説明する。
【0023】図2は、本実施の形態に係る文書検索処理装置における文書検索結処理果の表示画面構成例を示す図である。同図において、201は検索条件パネルで、今回の検索指示内容が表示される。検索指示としての表示例としては、ユーザの手による自然文或いはユーザの入力した複数のキーワードの羅列、またユーザが指示した既存の文書の内容等である。202は検索結果パネルで、上記検索条件によって行われた文書検索結果が表示される。検索結果としてリストアップされた各文書のID202aと文書タイトル202b、類似度202cが表示される。
【0024】次に、本実施の形態に係る文書検索処理装置における基準類似度を用いた検索対象の絞込みの基本動作を説明する。この基本動作は、基準類似度の作成、検索クエリーの文書ベクトルから基準ベクトルへの展開、基準類似度による検索対象の判定の3つに大きく分けられる。
【0025】最初に基準類似度の生成過程を説明する。
【0026】文書は、記憶装置107の文書DB107aに登録される段階で、最初に文書を特徴付ける文書ベクトルが生成される。文書からの文書ベクトル生成は、文書内に出現する単語から記憶装置107の辞書DIC107bを用いて算出される。
【0027】図3は、辞書DIC107bの構成を示す図である。同図に示すように、辞書DIC107bは、単語毎にベクトル表現時のそれぞれの次元(Dim.)に対応した特徴量が格納されている。次元は、その単語本来の意味によって分類された基準や、その単語の使用分野に応じて分類された基準等が採用される。単語1のDim.1の特徴量は0であり、Dim.2の特徴量は23であることが分かる。
【0028】このように辞書DIC107bから1つの単語におけるそれぞれの次元(Dim.)の特徴量を得ることが可能となる。特徴量は、その単語が使用されることにより、その文書がその分類基準(=次元)をどれくらい特徴付ける可能性があるかを示す値と解釈することが可能である。文書を構成する全ての単語から得られた分類基準別(次元別)の特徴量から、文書全体の特徴量を分類基準(=次元)とするベクトルで表現する。得られたベクトルをノルム=1で正規化した値を文書ベクトルとして格納する。
【0029】図4は、格納された文書ベクトルの状態の一例を示す図である。同図に示すように、例えば、文書ID=6947の文書ベクトルのDim.1の特徴量は0.183であり、Dim.2の特徴量は0.214であることが分かる。
【0030】生成された文書ベクトルから基準類似度を生成する。基準類似度は、用意された固定の値を持つ基準ベクトル(Base Vector=BV)と文書ベクトルの類似度から生成する。基準ベクトルは、各次元の特徴量比率を整数比で持たせたベクトルPをノルム=1で正規化したベクトルBVの形で保持する。用意する基準ベクトルは、ターゲットの文書DBを考慮し、より有効な任意の値を用意することが可能である。
【0031】図5は、特徴量を整数比で持たせた基準ベクトルPの状態の一例を示す図であり、図6は、図5の基準ベクトルをノルム=1で正規化した基準ベクトルBVの状態の一例を示す図であり、文書ベクトルと同様に基準ベクトルの各次元の特徴量を示している。
【0032】図6において、例えば、基準ベクトルBV1のDim.1〜3の特徴量はいずれも0、Dim.4〜5の特徴量は0.408であることが分かる。
【0033】本実施の形態に係る文書検索処理装置においては、以上の文書ベクトルと基準ベクトルの余弦測度による類似度を基に基準類似度を生成している。
【0034】図7は、基準類似度の算出方法の一例を示す図である。同図に示すように、文書ベクトルXは、各次元にx1〜xnの値を持つn次元のベクトル、同様に基準ベクトルPは、各次元にp1〜pnの値を持つn次元のベクトルである。
【0035】ここで、余弦測度による類似度をSD(X,P)、基準類似度をS(X,P)と表わすことにする。
【0036】余弦測度による類似度SD(X,P)は、両ベクトルの内積を両ベクトルのノルムの積で割った値となる。両ベクトルがノルム=1で正規化されている本実施の形態では、SD(X,P)は内積そのものに相当する。よって、両ベクトルの同次元の値の総和で求めることができる。基準類似度は、この総和の値を閾値でαで判別し、1或いは0の2値いずれかに転値する。値を簡易化することにより、基準類似度にとる判定効率が向上し、更に処理速度が向上する。本実施の形態では、閾値αの値として0.302をセットしている。
【0037】以上の手段によって文書単位で基準ベクトル毎の基準類似度を生成する。
【0038】図8は、文書毎の基準類似度の状態の一例を示す図である。同図において、基準ベクトル1(BV1)による基準類似度{(SD(X,BV1))をBSV1と表現している。文書ID=6947のBSV1〜2の値は1であり、BSV3〜5の値は0であることが分かる。
【0039】次に、検索文の文書ベクトルから基準ベクトルのサブセットへの展開を説明する。
【0040】検索クエリーとしての入力文も文書ベクトル生成と同手段で入力文の文書ベクトルを生成する。生成されたクエリーの文書ベクトルを基準ベクトルのサブセットに展開する。
【0041】図9は、クエリーの文書ベクトルを基準ベクトルのサブセットに展開するための展開方法を示す図である。
【0042】入力文の特徴ベクトルYの各次元の特徴量を閾値βによって0/1に転値したベクトルY’を算出する。本実施の形態では、閾値βの値として0.302をセットする。これは基準類似度の閾値と同じ値を使用している。この方法では、0/1に転値されるので、0/1の整数比で用意された基準ベクトルPのサブセットに展開することがベクトルの加減によって可能である。
【0043】次に、規準類似度による検索対象を判定する過程を説明する。
【0044】Y’=Pi+Pj+Pkに展開された場合、展開された基準ベクトルに対応する基準類似度BSVi,BSVj,BSVkによって対象文書に絞り込むことが可能となる。仮に、Y’=P3+P4となる検索クエリーが入力されたとする。これは基準類似度BSV3,BSV4の値が1である文書煮を絞り込むことが可能である。
【0045】図3の例で確認すると、BSV3=1またはBSV4=1である文書IDは、6954,6955,6959の3文書である。この3文書が対象文書として絞り込まれ、入力文の特徴ベクトルYとそれぞれの文書ベクトルの類似度が実際に算出される。逆に、3文書以外の文書の類似度算出は行われないため、高速な検索が可能である。
【0046】以下、上述した説明事項に付いて、図10〜図14のフローチャートを用いて説明する。
【0047】図10は、本実施の形態に係る文書検索処理装置におけるCPU101の処理手順を示すフローチャートである。同図において、まず、ステップS1001でシステムの初期化処理、即ち、各種パラメータの初期化や初期画面の表示等の処理を行う。次に、ステップS1002でキー入力を待つ。即ち、入力装置105から何らかのキーが押下され、割り込みが発生するのをCPU101において待つ。そして、キーが入力されると、次のステップS1003でCPU101は、入力されたキーを判別し、次のステップS1004でキーの種類において各種の処理に分岐する。この各種キーに対応した分岐先の複数の処理をステップS1004においては、「各種対応処理」として纏めて表現している。図11R>1及び図12で説明する文書の登録処理及び検索処理がこの分岐先の一部となる。
【0048】次に、ステップS1005へ進んで、上記の処理の結果、変更された部分を表示する表示処理を行う。この表示処理は、表示内容を表示パターンに展開し、バッファに出力するといった通常行われている処理である。このステップS1005における表示処理を終了後は、前記ステップS1002へ戻る。
【0049】図11は、図10におけるステップS1004の一部である文書の登録処理の詳細な流れを示すフローチャートである。同図において、まず、ステップS1101で文書から単語を抽出する処理である単語抽出処理、即ち、形態素解析用辞書を使用して形態素解析を行う。次に、ステップS1102で文書ベクトルの生成処理を行う。即ち、前記ステップS1101において抽出された単語から辞書DIC107bを検索し、単語毎の次元別の特徴量を得て、その総和から文書ベクトルを生成する。
【0050】次に、ステップS1103で基準類似度生成処理を行う。即ち、前記ステップS1102において得られた文書ベクトルと基準ベクトルBVから基準類似度を算出する。この算出方法の一例を図7に示している。
【0051】次に、ステップS1104で文書DB107aへの登録処理である文書DB登録処理を行う。即ち、文書の内容と前記ステップS1102において得られた文書ベクトルと前記ステップS1103において得られた基準類似度とを登録すると共に、文書DB107aのインデックスを更新する。このステップS1104における文書DB登録処理を終了後は、リターンする。
【0052】図12は、図10におけるステップS1004の一部である文書の検索実行処理の詳細な流れを示すフローチャートである。同図において、まず、ステップS1201で検索条件入力処理、即ちユーザーは自然文或いは複数のキーワードを入力する或いは既存の文書を指定する形で指示する処理を行う。次に、次に、ステップS1202で検索条件情報生成処理、即ち類似度生成に必要な検索条件文の文書ベクトルと検索対象絞込みに必要な基準ベクトルのサブセットを得る処理を行う。
【0053】次に、ステップS1203で類似度生成格納処理、即ち前記ステップS1202において得られた基準ベクトルのサブセットに応じた基準類似度を基に対象文書を絞り、同じくステップS1202において得られた文書ベクトルと対象文書ベクトルとから類似度を生成し、RAM104に格納する処理を行う。生成した値を記憶装置107の文書DB107aに登録することも可能である。
【0054】次に、ステップS1204で類似度による順序付け処理、即ち前記ステップS1203において格納した文書毎の類似度を順序付けする処理を行う。次に、ステップS1205で検索結果表示処理、即ち前記ステップS1204において順序付けされた文書を検索結果としてリストアップして表示装置106に表示する処理を行う。その際に、前記ステップS1203において登録された類似度の値も同時に表示する。このステップS1205における検索結果表示処理を終了後は、リターンする。
【0055】図13は、図12のステップS1202における検索条件情報生成処理の詳細な流れを示すフローチャートである。同図において、まず、ステップS1301で前記図12のステップS1201において得られたユーザーの検索条件を読み込む処理を行う。次に、ステップS1302で前記ステップS1301において読み込まれたユーザー指定の検索条件文から単語を抽出する処理、即ち形態素解析用辞書を使用して形態素解析処理を行う。
【0056】次に、ステップS1303で検索文の文書ベクトル生成処理、即ち前記ステップS1302において抽出された単語から記憶装置107の辞書DIC107bを検索し、単語毎の次元別の特徴量を得て、その総和から文書ベクトルを生成する処理を行う。
【0057】これらのステップS1302及びステップS1303における処理は、前記図11のステップS1101及びステップS1102における処理と同等の処理である。
【0058】次に、ステップS1304で検索文の配置ベクトルを生成する処理を行う。次に、ステップS1305で、基準ベクトルセット展開処理、即ち前記ステップS1304において得られた配置ベクトルから基準ベクトルに展開する処理を行う。このステップS1304における配置ベクトルセット展開処理を終了後は、リターンする。
【0059】図14は、図12のステップS1203における類似度生成格納処理の詳細な流れを示すフローチャートである。同図において、まず、ステップS1401で検索対象である文書DB107a内の文書を指定するカウンタNに初期値1をセットし、次の、ステップS1402で文書DB107aからN番目の文書の文書ベクトルと基準類似度を呼び出す処理を行う。
【0060】次に、ステップS1403で前記ステップS1402において呼び出された基準類似度から前記ステップS1305において展開された基準ベクトルセットに対応した基準類似度のみを抽出する。次に、ステップS1404で基準類似度から類似度算出の対象になるか否かを判定する。
【0061】図8に示した基準類似度の例では、前記ステップS1403において抽出された基準類似度の総和が0か否かで判定している。
【0062】そして、前記ステップS1404において類似度算出の対象になると判定された場合は、ステップS1405で検索文の文書ベクトルと呼び出されている文書の文書ベクトルとから類似度を算出する。また、前記ステップS1404において類似度算出の対象にならないと判定された場合は、ステップS1406で前記ステップS1405において行われるような類似度算出処理は行わず、類似度を固定値0とする。
【0063】前記ステップS1405或いは前記ステップS1406における処理が終了後は、ステップS1407で類似度格納処理、即ち前記ステップS1405において算出された類似度或いは前記ステップS1406においてセットされた類似度(=0)を、文書DB107a或いはRAM104に格納し、前記図12のステップS1204において参照する。
【0064】次に、ステップS1408で文書DB107a内の検索対象文書に残りがあるか否かを判定する。そして、文書DB107a内の検索対象文書に残りがあると判定された場合は、ステップS1409でカウンタであるnをカウントアップした後、前記ステップS1402へ戻り、検索条件適合値の算出を繰り返す。また、文書DB107a内の検索対象文書に残りがないと判定された場合は、リターンする。
【0065】以上詳述したように、本実施の形態に係る文書検索処理方法及び装置によれば、特定の値を持つ基準ベクトルを複数用意し、基準ベクトルと検索対象となる文書の文書ベクトル間の基準類似度を生成し、検索クリエー文を用意された基準ベクトルのサブセットに展開し、該展開された基準ベクトルに応じた基準類似度で検索対象の文書を絞り込み、文書ベクトルと検索文の文書ベクトル間の類似度を算出することにより、処理負荷の高い文書類似度生成手段による文書類似度判定の負荷を大幅に削減することが可能となり、高速な文書検索が可能で、処理速度が向上するという効果を奏する。
【0066】(他の実施の形態)上述した第1の実施の形態における基準類似度の算出方法は、1つの閾値αによって2段階の値(0または1)を取る方法であったが、本発明はこれに限られるものではなく、複数の閾値を用意し、2以上の段階の値を取らせることも可能である。また、基準ベクトルの配置方法の閾値βも同様である。その際に基準類似度の判定基準としての閾値を持たせることが可能である。また、事前に検索対象数を得る手法にした場合は、その値によって判定基準を動的に変化させることも可能である。
【0067】また、上述した第1の実施の形態においては、基準類似度の算出、基準ベクトルの配置のいずれの閾値(αとβ)も固定の値をとる方法であったが、本発明はこれに限られるものではなく、その時点での文書DB内のベクトル及び検索文の基準ベクトルの特徴量から平均値等の統計処理した値を基に動的に変化させる方法も可能である。
【0068】また、本発明は、単体の装置に限らず、複数の装置から構成されるシステムに適用可能である。また、それらの装置やシステムに記憶媒体や通信装置を使ってソフトウェアを提供することによっても実現可能であることは言うまでもない。
【0069】この場合、本発明を達成するためのソフトウェアによって表わされる制御プログラムを格納した記憶媒体を、システム或いは装置に読み出すこと、或いは前記制御プログラムを、ネットワーク経由でシステム或いは装置に読み出すことによって、そのシステム或いは装置が本発明の効果を享受することが可能となる。
【0070】また、前記制御プログラムを記憶するための記憶媒体としては、ハードディスク、フロッピー(登録商標)ディスク、光ディスク、光磁気ディスク、CD−R、DVD、磁気テープ、不揮発性のメモリカード、CD−ROM等を用いることができるのは言うまでもない。
【0071】
【発明の効果】以上詳述したように、本発明の文書検索処理方法及び装置によれば、文書検索の処理速度が向上するという効果を奏する。
【0072】また、本発明の記憶媒体によれば、上述したような本発明の文書検索処理装置を円滑に制御することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る文書検索処理装置のシステム構成を示すブロック図である。
【図2】本発明の第1の実施の形態に係る文書検索処理装置における文書検索結果の表示画面構成の一例を示す図である。
【図3】本発明の第1の実施の形態に係る文書検索処理装置における辞書DICの構成の一例を示す図である。
【図4】本発明の第1の実施の形態に係る文書検索処理装置における文書の文書ベクトルの状態の一例を示す図である。
【図5】本発明の第1の実施の形態に係る文書検索処理装置における基準ベクトルPの状態の一例を示す図である。
【図6】本発明の第1の実施の形態に係る文書検索処理装置における基準ベクトルBVの状態の一例を示す図である。
【図7】本発明の第1の実施の形態に係る文書検索処理装置における基準類似度の算出方法の一例を示す図である。
【図8】本発明の第1の実施の形態に係る文書検索処理装置における基準類似度BSVの状態の一例を示す図である。
【図9】本発明の第1の実施の形態に係る文書検索処理装置における検索文の展開方法を示す図である。
【図10】本発明の第1の実施の形態に係る文書検索処理装置における文書検索処理動作全体の流れを示すフローチャートである。
【図11】本発明の第1の実施の形態に係る文書検索処理装置における文書を文書DBに登録する処理動作の流れを示すフローチャートである。
【図12】本発明の第1の実施の形態に係る文書検索処理装置における文書検索実行処理動作の詳細な流れを示すフローチャートである。
【図13】本発明の第1の実施の形態に係る文書検索処理装置における検索条件情報生成処理動作の詳細な流れを示すフローチャートである。
【図14】本発明の第1の実施の形態に係る文書検索処理装置における類似度生成格納処理動作の詳細な流れを示すフローチャートである。
【符号の説明】
101 CPU(マイクロプロセッサ:中央演算処理装置)
102 バス(BUS)102
103 ROM(リードオンリーメモリ)
104 RAM(ランダムアクセスメモリ)
105 入力装置
106 表示装置
107 記憶装置
107a 文書ファイルデータベース(文書DB)
107b 辞書DIC
108 外部記憶装
109 通信装置
【特許請求の範囲】
【請求項1】 文書を特徴付ける文書ベクトルを生成する文書ベクトル生成ステップと、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成ステップと、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成ステップと、前記文書ベクトル生成ステップで生成された文書ベクトルを用いて前記文書類似度生成ステップによって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成ステップで生成された基準類似度をも用いて検索を行う文書検索ステップとを有することを特徴とする文書検索処理方法。
【請求項2】 検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする請求項1に記載の文書検索処理方法。
【請求項3】 文書を特徴付ける文書ベクトルを生成する文書ベクトル生成手段と、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成手段と、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成手段と、前記文書ベクトル生成手段で生成された文書ベクトルを用いて前記文書類似度生成手段によって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成手段で生成された基準類似度をも用いて検索を行う文書検索手段とを有することを特徴とする文書検索処理装置。
【請求項4】 検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする請求項3に記載の文書検索処理装置。
【請求項5】 文書データを検索する文書検索処理装置を制御するためのコンピュータで読み取り可能な制御プログラムを格納した記憶媒体であって、前記制御プログラムは、文書を特徴付ける文書ベクトルを生成する文書ベクトル生成モジュールと、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成モジュールと、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成モジュールと、前記文書ベクトル生成モジュールで生成された文書ベクトルを用いて前記文書類似度生成モジュールによって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成モジュールで生成された基準類似度をも用いて検索を行う文書検索モジュールとを有することを特徴とする記憶媒体。
【請求項6】 検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする請求項5に記載の記憶媒体。
【請求項1】 文書を特徴付ける文書ベクトルを生成する文書ベクトル生成ステップと、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成ステップと、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成ステップと、前記文書ベクトル生成ステップで生成された文書ベクトルを用いて前記文書類似度生成ステップによって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成ステップで生成された基準類似度をも用いて検索を行う文書検索ステップとを有することを特徴とする文書検索処理方法。
【請求項2】 検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする請求項1に記載の文書検索処理方法。
【請求項3】 文書を特徴付ける文書ベクトルを生成する文書ベクトル生成手段と、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成手段と、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成手段と、前記文書ベクトル生成手段で生成された文書ベクトルを用いて前記文書類似度生成手段によって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成手段で生成された基準類似度をも用いて検索を行う文書検索手段とを有することを特徴とする文書検索処理装置。
【請求項4】 検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする請求項3に記載の文書検索処理装置。
【請求項5】 文書データを検索する文書検索処理装置を制御するためのコンピュータで読み取り可能な制御プログラムを格納した記憶媒体であって、前記制御プログラムは、文書を特徴付ける文書ベクトルを生成する文書ベクトル生成モジュールと、文書ベクトル間から文書間の文書類似度を生成する文書類似度生成モジュールと、文書と独立して存在する複数の基準ベクトルと文書ベクトルとの類似度を生成する基準類似度生成モジュールと、前記文書ベクトル生成モジュールで生成された文書ベクトルを用いて前記文書類似度生成モジュールによって生成された文書類似度によって類似文書を検索すると共に前記基準類似度生成モジュールで生成された基準類似度をも用いて検索を行う文書検索モジュールとを有することを特徴とする記憶媒体。
【請求項6】 検索対象の文書が検索以前に文書ベクトルと基準類似度を生成保持していることを特徴とする請求項5に記載の記憶媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図10】
【図11】
【図7】
【図8】
【図9】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図10】
【図11】
【図7】
【図8】
【図9】
【図12】
【図13】
【図14】
【公開番号】特開2003−6214(P2003−6214A)
【公開日】平成15年1月10日(2003.1.10)
【国際特許分類】
【出願番号】特願2001−193444(P2001−193444)
【出願日】平成13年6月26日(2001.6.26)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成15年1月10日(2003.1.10)
【国際特許分類】
【出願日】平成13年6月26日(2001.6.26)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]