説明

情報検索装置及び方法及びプログラム

【課題】 検索実行時に検索結果の表示に遅延を生じることなく、検索語の同義語を考慮した高精度の検索結果を出力する。
【解決手段】 本発明は、検索範囲を解析し、単語毎に各電子文書内での出現頻度等の情報(以下単語頻度情報)と、当該単語の含まれる同義語IDの情報を合わせて当該単語のレコードとして集約した単語インデックスを作成し、単語インデックスの単語毎の単語頻度情報を同義語ID毎に集約した同義語インデックスを作成し、検索語をキーとして単語インデックスを参照して得られた同義語IDをキーとして同義語インデックスを参照し、取得した単語頻度情報を用いて検索語との一致度を算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報検索装置及び方法及びプログラムに係り、特に、インターネット上の検索エンジンをはじめとする、情報検索装置及び方法及びプログラムに関する。
【背景技術】
【0002】
近年、インターネットの普及により、インターネット上には膨大な電子文書群が存在し、利用者がその中から必要とする情報を的確に検索する検索システム及びサービスの重要性が高まっている。一般的な検索サービスでは、ユーザが入力した検索語が検索対象の文書や該文書に対する別の文書からのリンクアンカーテキストに含まれる数に基づき、検索語と文書の一致度と、該文書が別の文書から参照されている度合い等を用いた該文書の重要度とを合わせて検索結果の出力順を決定している。
【0003】
文書の一致度には「BM25」や「tf・idf」といった単語の統計量を用いた手法が利用されている(例えば、非特許文献1参照)。ここでは特定の文書群全体の平均と比較して文書に高い頻度で現れる単語が、該文書を特徴付けるものであるという推定に基づいて、ユーザが入力した検索語が文書の特徴と一致する度合いが高い文書を高い出力順位としている。
【0004】
この手法によれば、検索語が比較的珍しい単語であれば良好な検索結果が得られるが、検索語が極ありふれた単語であれば同程度の一致度となる文書が多くなりすぎてしまう。一般的な情報検索サービスでは、検索語との一致度が同程度となった文書が多い場合に、順位付けのために文書毎の重要度を利用して、検索結果の出力順を決定している。
【0005】
文書の重要度としては、PageRank(例えば、非特許文献2参照)やHITS(例えば、非特許文献3参照)といった手法が一般的に利用されている。これらの手法は、Webページのリンク情報を用いて、特定の文書が他の多くの文書からリンクされている場合にはその文書が重要であろうという推定に基づいている。
【0006】
また、インターネットにおける検索サービスを利用するユーザにとって、入力する検索語が含まれるWebページ以外にも、検索語の同義語が含まれているWebページもユーザの意図に沿ったものであることもある。ユーザが探しているものを意味する単語が複数あり、各Webページで異なる単語で書かれている場合があるからである(例:「秋葉原」と「アキバ」、「セール」と「バーゲン」、など)。このように同じ物や事柄などを同じく意味する異なる単語を同義語や類義語と呼び(本明細書では以下「同義語」と記す)、同義語辞書として数多くまとめられている。
【0007】
上記のように、ユーザが入力した検索語は無いが同義語は含まれており、ユーザの検索意図に沿ったページを検索結果として出力する手段として、検索語に対して検索システムが自動的もしくは利用者の応答を介して同義語を検索語に追加及び置換し、それを用いて検索する方式などがある。(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2004−164662号公報
【非特許文献】
【0009】
【非特許文献1】S Robertson, H Zaragoza, M Taylor 'Simple BM25 extension to multiple weighted fields' Proceedings of the thirteenth ACM international conference on Information and knowledge management, 2004.
【非特許文献2】Lawrence Page, Sergey Brin, Rajeev Motwai, Terry Winograd, 'The PageRank Citation Ranking: Bringing Order to the Web', 7th International World Wide Web conference (WWW98).
【非特許文献3】Jon M. Kleinberg, Authoritative sources in a hyperlinked environment, Journal of the ACM (JACM), v.46 n.5, p.604-632, Sept. 1999.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、従来のこのような同義語を考慮した検索方式には次の問題が存在する。
【0011】
検索語が多数の同義語を持つものであった場合、検索システムが同義語を検索語に追加をすると、多数の単語を用いた検索となり、検索システムにおける一致度の算出や、検索結果表示順の計算に要する処理が大きくなってしまう。
【0012】
通常、検索システムは検索対象となるWebページを任意の単位(以下「単語」)に分割したインデックスを保持しており、インデックス内を、検索語をキーとして適合するWebページを参照しているため、検索語に多数の同義語が追加されると、文書インデックス内を参照する回数が増加する。また、ページと検索語に対する一致度は各組み合わせ毎に計算され、検索語が複数の場合には各検索語と当該ページとの一致度を任意の割合や均等に足し合わせたり、任意の関数で集約したものを用いる。検索語が増加すれば、各検索語と各ページの一致度を算出するための計算量が増加し、各検索語及び同義語毎に算出された各ページの一致度を突合せながらページ毎に集約する作業にも時間を要してしまうため、ユーザへの応答時間が長くなり、利便性を低下させてしまう。同義語の数を制限すれば、結果表示は迅速に表示されるが、除外された同義語が含まれる文書が検索されず、ユーザを満足させる検索結果が得られない可能性が高くなる。
【0013】
本発明は上記課題を解決するものであり、その目的は検索実行時に検索結果の表示に遅延を生じることなく、検索語の同義語を考慮した高精度の検索結果を出力することができる情報検索装置及び方法及びプログラムを提供することである。
【課題を解決するための手段】
【0014】
図1は、本発明の原理構成図である。
【0015】
本発明(請求項1)は、ユーザ端末から指示された検索語(単語単位)を用いて電子文書群を検索する際に、検索範囲となる電子文書を任意の単位(以下、「単語」と記す)に分割して格納したインデックスを参照して該検索語との一致度を算出する情報検索装置であって、
予め同義語の関係にある単語同士をグループ化し、グループ毎にID付けした情報(以下、「同義語ID」と記す)を持つ同義語テーブルを格納した同義語テーブル記憶手段101と、
検索範囲を解析し、単語毎に各電子文書内での出現頻度等の情報(以下、「単語頻度情報」と記す)と、当該単語の含まれる同義語IDの情報を合わせて当該単語のレコードとして集約した単語インデックスを作成し、単語インデックス記憶手段102に格納するインデックス作成手段110と、
単語インデックス記憶手段102の単語インデックスの単語毎の単語頻度情報を同義語ID毎に集約した同義語インデックスを作成し、同義語インデックス記憶手段103に格納する同義語インデックス作成手段120と、
検索語との一致度を、検索語をキーとして単語インデックス記憶手段102を参照して得られた同義語IDをキーとして同義語インデックス記憶手段103を参照して取得した単語頻度情報を用いて算出する検索語一致度計算手段130と、を有する。
【0016】
また、本発明(請求項2)は、検索語一致度計算手段130において、
検索語との一致度を計算する際に、検索語をキーとして単語インデックス記憶手段を参照し、当該単語の同義語IDに加えて、単語頻度情報も取得しておき、同義語インデックス記憶手段を参照して得られた同義語IDの単語頻度情報と併せて、一致度の算出に用いる。
【0017】
また、本発明(請求項3)は、同義語インデックス作成手段120において、
単語インデックス記憶手段の情報から各単語頻度情報の集約の際に任意に設定した条件を用いて、情報を取捨選択して同義語インデックスとして同義語インデックス記憶手段に格納する。
【0018】
図2は、本発明の原理を説明するための図である。
【0019】
本発明(請求項4)は、ユーザ端末から指示された検索語(単語単位)を用いて電子文書群を検索する際に、検索範囲となる電子文書を任意の単位(以下、「単語」と記す)に分割して格納したインデックスを参照して該検索語との一致度を算出する情報検索方法であって、
予め同義語の関係にある単語同士をグループ化し、グループ毎にID付けした情報(以下、「同義語ID」と記す)を持つ同義語テーブルを格納した同義語テーブル記憶手段と、
単語インデックスを格納する単語インデックス記憶手段と、
同義語インデックスを格納する同義語インデックス記憶手段と、
を有する装置が、
検索範囲を解析し、単語毎に各電子文書内での出現頻度等の情報(以下、「単語頻度情報」と記す)と、当該単語の含まれる同義語IDの情報を合わせて当該単語のレコードとして集約した単語インデックスを作成し、単語インデックス記憶手段に格納するインデックス作成ステップ(ステップ1)と、
単語インデックス記憶手段の単語インデックスの単語毎の単語頻度情報を同義語ID毎に集約した同義語インデックスを作成し、同義語インデックス記憶手段に格納する同義語インデックス作成ステップ(ステップ2)と、
検索語との一致度を、検索語をキーとして単語インデックス記憶手段を参照して得られた同義語IDをキーとして同義語インデックス記憶手段を参照して取得した単語頻度情報を用いて算出する検索語一致度計算ステップ(ステップ3)と、を行う。
【0020】
また、本発明(請求項5)は、検索語一致度計算ステップ(ステップ3)において、
検索語との一致度を計算する際に、検索語をキーとして単語インデックス記憶手段を参照し、当該単語の同義語IDに加えて、単語頻度情報も取得しておき、同義語インデックス記憶手段を参照して得られた同義語IDの単語頻度情報と併せて、一致度の算出に用いる。
【0021】
また、本発明(請求項6)は、同義語インデックス作成ステップ(ステップ2)において、
単語インデックス記憶手段の情報から各単語頻度情報の集約の際に任意に設定した条件を用いて、情報を取捨選択して同義語インデックスとして同義語インデックス記憶手段に格納する。
【0022】
本発明(請求項7)は、請求項1乃至3のいずれか1項に記載の情報検索装置を構成する各手段としてコンピュータを機能させるための情報検索プログラムである。
【発明の効果】
【0023】
上記のように本発明によれば、以下のような効果を奏する。
【0024】
(1)検索語の同義語を多く含んでいても、インデックスの参照は単語インデックスを検索語を用いて参照する1回と、そこで得られた同義語IDを用いて同義語インデックスを参照する2回だけでよく、検索語の同義語が2つ以上ある場合に、インデックスの参照回数が削減され、検索に要する時間を短縮できる。
【0025】
(2)検索語の同義語を多く含んでいても、各ページの検索語に対する一致度は同義語インデックスからの単語頻度情報から計算される1つの値だけであるため、従来の技術で行っていた、各検索語及び同義語毎に計算された一致度の突合せ処理が不要となり、検索に要する時間を短縮できる。
【0026】
(3)請求項2、5の発明によれば、検索語を含む電子文書を優先し、検索結果の上位とするとことで、よりユーザの満足度の高い検索結果をユーザに提供することができる。
【0027】
(4)請求項3、6の発明によれば、単語頻度情報が低い電子文書は検索結果の下位となることが多いため、検索結果の上位に重点を置き単語頻度を絞り込むことで、全体の計算量を削減し、より迅速な検索結果をユーザに提供することができる。
【図面の簡単な説明】
【0028】
【図1】本発明の原理構成図である。
【図2】本発明の原理を説明するための図である。
【図3】本発明の第1の実施の形態における情報検索システムの構成図である。
【図4】本発明の第2の実施の形態における情報検索システムの構成図である。
【図5】従来の検索手法を示す図である。
【図6】本発明の手法と従来技術の手法との比較を示す図である。
【発明を実施するための形態】
【0029】
以下、図面と共に本発明の実施の形態を説明する。
以下、本発明の情報検索装置は、電子文書を検索対象とし、電子文書内(以下、「検索範囲」を記す)の検索語の有無に加えて、同義語を考慮し、検索語と各電子文書の一致度を計算し、その一致度に基づいて検索結果の出力を実行する装置である。
【0030】
[第1の実施の形態]
図3は、本発明の第1の実施の形態における情報検索システムの構成を示す。
【0031】
同図に示す情報検索システムは、情報検索装置100、検索対象文書記憶装置200、情報検索端末300から構成される。
【0032】
情報検索装置100は、インデックス機能部110、同義語インデックス機能部120、検索語一致度計算部130、総合ランキング計算部140、同義語テーブル記憶部101、単語インデックス記憶部102、同義語インデックス記憶部103から構成される。
【0033】
インデックス機能部110は、外部の検索対象文書記憶装置200に接続されており、また、検索語一致度計算部130と総合ランキング計算部140は情報検索端末300に接続されており、インターネット等のネットワークを通じてデータの送受信が可能である。
【0034】
情報検索端末300は、パーソナルコンピュータ(PC等や携帯やPDA含む)からなり、ユーザ入力の検索要求(検索語含む)を情報検索装置100の検索一致度計算部130に送信し、その検索要求に対する検索結果を総合ランキング計算部140から受信する。
【0035】
情報検索装置100は、予め全文検索用の単語インデックスと同義語インデックスを作成し、それぞれ単語インデックス記憶部102と同義語インデックス記憶部103に保存しておく事前処理と、情報検索端末300から検索要求時に送信される検索語に応じて単語インデックス記憶部102及び同義語インデックス記憶部103を参照して検索結果を作成する検索処理を実施する。
【0036】
情報検索装置100は、インターネット上等に存在する電子文書群を検索する検索エンジンのシステムを構成し、通常のコンピュータのハードウェアリソース(CPUやメモリ、HDD、各インタフェース等)を備える。
【0037】
このハードウェアリソースと、その上で動作する各種ソフトウェア(OSやアプリケーション等)により、情報検索装置100は、検索対象文書記憶装置200の検索対象の電子文書と同義語テーブル記憶部101の同義語情報から単語インデックスを作成し、単語インデックス記憶部102に格納するインデックス機能部110と、単語インデックス記憶部102と同義語テーブル記憶部101の情報から同義語インデックスを作成し、同義語インデックス記憶部103に格納する同義語インデックス機能部120と、情報検索端末300から送信された検索語に基づき単語インデックス記憶部102及び同義語インデックス記憶部103を参照して検索語と検索対象の電子文書との一致度を計算する検索語一致度計算部130と、検索語一致度計算部130の算出した一致度に基づき情報検索端末300に返却する検索結果の出力順を決定する総合ランキング計算部140とを実装する。
【0038】
インデックス機能部110及び同義語インデックス機能部120を通じて事前処理が実施され、検索語一致度計算部130及び総合ランキング計算部140を通じて検索処理が実施される。また、情報検索装置100と情報検索端末300とのデータ送受信は、ハードウェアリソースに含まれる通信インタフェースを通じて実施され、同義語テーブル記憶部101、単語インデックス記憶部102、同義語インデックス記憶部103は、ハードウェアリソースに含まれるハードディスクドライブ装置上に構築される。
【0039】
なお、前記同義語テーブル記憶部101に記録される同義語に関する情報は、既存のシソーラス辞書や各種辞典の利用により得ることができる。以下、インデックス機能部110、同義語インデックス機能部120、検索語一致度計算部130、総合ランキング計算部140の処理内容を、検索対象文書記憶装置200の電子文書10,11を検索対象とする事例に基づき説明する。
【0040】
<事前処理部分>
・インデックス機能部110
インデックス機能部110は、検索対象文書の情報を単語、n-gram、サフィックスアレイといった全文検索用の単位(以下「単語」とする)に分割して単語インデックスを作成し、単語頻度情報((電子文書番号,単語頻度)の組の情報の集合)及び、単語が同義語テーブル記憶部101内の同義語テーブルのいずれかの同義語のグループに含まれる場合はその同義語IDを単語インデックス記憶部102に保存する。なお、分割単位は任意であり、当該方法以外の方式を用いて分割してもよい。
【0041】
ここでは単語インデックス記憶部102の単語インデックスの一例として、検索対象文書記憶装置200の電子文書10,11を単語インデックス記憶部102に格納している。この文書インデックスには、単語頻度情報以外に通常の全文検索インデックスで利用されている情報が含まれてもよい。「html」による単語のマークアップ統計情報など電子文書単位の情報で他の単語の情報との加算が可能なものは単語頻度情報に加えても良い。
【0042】
・同義語インデックス機能部120
同義語インデックス機能部120は、単語インデックス記憶部102の単語インデックスの単語頻度情報を同義語ID毎に集約したものを同義語インデックスとして作成し、同義語インデックス記憶部103に格納する。各単語頻度情報は電子文書番号が同じならば単語頻度は加算される。
【0043】
例として、共に同義語ID「002」である「特売」と「セール」について説明する。単語インデックスは「特売」の単語頻度情報として「(10(電子文書番号),1(出現頻度))(11(電子文書番号),1(出現頻度))」を、「セール」の単語頻度情報として「(11(電子文書番号),1(出現頻度))」を保持している。これを同義語インデックスに集約すると、同義語ID「002」の単語頻度情報「(10,1)(11,2)」として同義語インデックス記憶部103に保存される。
【0044】
<検索処理部分>
・検索語一致度計算部130
検索語一致度計算部130は、情報検索端末300から検索語を指定した検索要求を受信後に、検索語をキーとして単語インデックス記憶部102を参照し、検索語の同義語IDが無ければ、単語インデックスの単語頻度情報を用いて一致度を計算する。同義語IDがあれば同義語IDを取得し、同義語IDをキーとして同義語インデックス記憶部103を参照し、取得した単語頻度情報を用いて一致度を計算する。ここで一致度を非特許文献1のBM25,BM25F,tf・idfなどの方法で算出する。
【0045】
・総合ランキング計算部140
総合ランキング計算部140は、検索語一致度計算部130から転送された一致度の情報に基づき検索結果の出力順を決定する。ここで決定された出力順に従って前記情報検索端末300に検索結果が送信される。
【0046】
[第2の実施の形態]
第1の実施の形態に加えて以下の点を変更したものを第2の実施の形態とし、図4に第2の実施の形態における情報検索システムを示す。
【0047】
図4において、第1の実施の形態に、文書番号と重要度の項目を有する文書重要度テーブル記憶部104が加わり、これにより、総合ランキング計算部140の処理が異なる。図4において、図3と同一構成部分については同一符号を付し、その説明を省略する。
【0048】
・総合ランキング計算部140
総合ランキング計算部140は、文書番号毎の重要度を格納した文書重要度テーブル記憶部104を参照してリスト化された各文書の重要度のリストを取得する。取得したリストに掲載された各電子文書の重要度と検索語一致度計算部130から転送された一致度とを総合して検索結果の出力順を決定する。
【0049】
なお、文書重要度テーブル記憶部104に記録される各電子文書の重要度は、非特許文献2、3などに記載の手法により算出する事が出来る。
【0050】
[第3の実施の形態]
本実施の形態は、請求項2,5に対応する。
【0051】
本実施の形態では、検索語一致度計算部130の処理が前述の第1、第2の実施の形態と異なる。当該検索語一覧計算部130以外の機能については、第1、第2の実施の形態のいずれを適用してもよい。
【0052】
同義語インデックス記憶部103からの単語頻度情報と単語インデックス記憶部102からの単語頻度情報とを任意の割合で加算する方式は下記のように実施する。
【0053】
単語「特売」での検索をした場合、単語インデックス記憶部102からの単語頻度情報は、
(電子文書10、電子文書11)=(tt10=1,tt11=1)
であり、同義語インデックス記憶部103から同義語IDを利用しての単語頻度情報は
(電子文書10、電子文書11)=(td10=1,td11=2)
であり、同義語インデックス記憶部103の単語頻度情報と単語インデックス記憶部102の単語頻度情報を1:αの割合で加算をする際は、
(電子文書10、電子文書11)=(td10+(α×tt10),td11+(α×tt11))
となる。但し、(td10,td11)には(tt10,tt11)が含まれているため、α=1の際には「特売」は他の同義語「セール」等に対して2倍の重みを与えられている事となる。
【0054】
[第4の実施の形態]
本実施の形態は、請求項3、6に対応する。
【0055】
本実施の形態は、前述の実施の形態の処理とは同義語インデックス機能部120の処理が異なる。なお、他の機能については、第1〜第3の実施の形態のいずれを適用してもよい。
【0056】
単語インデックス記憶部102の単語インデックスから情報を同義語ID毎に単語頻度情報を集約する際に任意で設定した条件を用いて、情報を取捨選択する。例としては、条件が、
条件:「文書内での単語頻度が1の情報は除外する」
であるとき、例えば、図3において同義語ID「001」の集約を行うと
「アキバ:(10,2)」「秋葉原:(11,1)」⇒「001:(10,2)」
となる。
【0057】
以下に、従来の同義語を追加するクエリ拡張手法(図5)と本発明の手法(図6)の比較を示す。
【0058】
情報検索装置300から検索語『セール』が与えられた場合、従来の手法では、図5に示すように、検索エンジンは同義語テーブルを参照して、検索語を増やして(例えば、「特売」「バーゲン」)単語インデックスを検索し、各検索語に対応する単語出現頻度情報を得る。つまり、「セール」と当該単語の同義語「特売」「バーゲン」の3つの検索語を用いて、当該検索語毎に単語インデックスを参照して、それぞれの単語頻度情報を取得し、各単語毎に一致度を計算し(3回)、ドキュメント毎に一つの値となるように突合せ処理を行い、一致度に基づいてランキングして出力する。
【0059】
これに対し、本発明の手法は、図6に示すように、情報検索端末300から検索語『セール』が与えられると、当該検索語『セール』に基づいて、単語インデックス記憶部102の単語インデックスを参照して同義語IDを得る。そして、当該同義語IDに基づいて同義語インデックス記憶部103の同義語インデックスを参照し、当該同義語IDに対応する単語頻度情報を取得し、単語毎に一致度を計算し、突合せ処理をすることなく、その一致度に基づいてランキングする。
【0060】
従来の手法では、単語インデックスを3つの単語分として3回参照しているのに対し、本発明では、単語インデックスを1回、同義語インデックスを1回の計2回参照すればよい。さらに、同義語インデックスから導出される単語出現頻度は1つの同義語IDに対応する値のみであるので、一致度の突合せ処理が不要となる。
【0061】
上記の第1〜第4の実施の形態における情報検索装置の構成要素の動作をプログラムとして構築し、情報検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0062】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0063】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【符号の説明】
【0064】
100 情報検索装置
200 検索対象文書記憶装置
300 情報検索端末
101 同義語テーブル記憶手段、同義語テーブル記憶部
102 単語インデックス記憶手段、単語インデックス記憶部
103 同義語インデックス記憶手段、同義語インデックス記憶部
110 インデックス作成手段、インデックス機能部
120 同義語インデックス作成手段、同義語インデックス機能部
130 検索語一致度計算手段、検索語一致度計算部
140 総合ランキング計算部

【特許請求の範囲】
【請求項1】
ユーザ端末から指示された検索語(単語単位)を用いて電子文書群を検索する際に、検索範囲となる電子文書を任意の単位(以下、「単語」記す)に分割して格納したインデックスを参照して該検索語との一致度を算出する情報検索装置であって、
予め同義語の関係にある単語同士をグループ化し、グループ毎にID付けした情報(以下、「同義語ID」と記す)を持つ同義語テーブルを格納した同義語テーブル記憶手段と、
検索範囲を解析し、単語毎に各電子文書内での出現頻度等の情報(以下、「単語頻度情報」と記す)と、当該単語の含まれる同義語IDの情報を合わせて当該単語のレコードとして集約した単語インデックスを作成し、単語インデックス記憶手段に格納するインデックス作成手段と、
前記単語インデックス記憶手段の前記単語インデックスの単語毎の単語頻度情報を前記同義語ID毎に集約した同義語インデックスを作成し、同義語インデックス記憶手段に格納する同義語インデックス作成手段と、
前記検索語との一致度を、検索語をキーとして前記単語インデックス記憶手段を参照して得られた同義語IDをキーとして前記同義語インデックス記憶手段を参照して取得した単語頻度情報を用いて算出する検索語一致度計算手段と、
を有することを特徴とする情報検索装置。
【請求項2】
前記検索語一致度計算手段は、
前記検索語との一致度を計算する際に、検索語をキーとして前記単語インデックス記憶手段を参照し、当該単語の同義語IDに加えて、単語頻度情報も取得しておき、前記同義語インデックス記憶手段を参照して得られた同義語IDの単語頻度情報と併せて、一致度の算出に用いる
請求項1記載の情報検索装置。
【請求項3】
前記同義語インデックス作成手段は、
前記単語インデックス記憶手段の情報から各単語頻度情報の集約の際に任意に設定した条件を用いて、情報を取捨選択して前記同義語インデックスとして前記同義語インデックス記憶手段に格納する
請求項1記載の情報検索装置。
【請求項4】
ユーザ端末から指示された検索語(単語単位)を用いて電子文書群を検索する際に、検索範囲となる電子文書を任意の単位(以下、「単語」と記す)に分割して格納したインデックスを参照して該検索語との一致度を算出する情報検索方法であって、
予め同義語の関係にある単語同士をグループ化し、グループ毎にID付けした情報(以下、「同義語ID」と記す)を持つ同義語テーブルを格納した同義語テーブル記憶手段と、
単語インデックスを格納する単語インデックス記憶手段と、
同義語インデックスを格納する同義語インデックス記憶手段と、
を有する装置が、
検索範囲を解析し、単語毎に各電子文書内での出現頻度等の情報(以下、「単語頻度情報」と記す)と、当該単語の含まれる同義語IDの情報を合わせて当該単語のレコードとして集約した単語インデックスを作成し、前記単語インデックス記憶手段に格納するインデックス作成ステップと、
前記単語インデックス記憶手段の前記単語インデックスの単語毎の単語頻度情報を前記同義語ID毎に集約した同義語インデックスを作成し、前記同義語インデックス記憶手段に格納する同義語インデックス作成ステップと、
前記検索語との一致度を、検索語をキーとして前記単語インデックス記憶手段を参照して得られた同義語IDをキーとして前記同義語インデックス記憶手段を参照して取得した単語頻度情報を用いて算出する検索語一致度計算ステップと、
を行うことを特徴とする情報検索方法。
【請求項5】
前記検索語一致度計算ステップにおいて、
前記検索語との一致度を計算する際に、検索語をキーとして前記単語インデックス記憶手段を参照し、当該単語の同義語IDに加えて、単語頻度情報も取得しておき、前記同義語インデックス記憶手段を参照して得られた同義語IDの単語頻度情報と併せて、一致度の算出に用いる
請求項4記載の情報検索方法。
【請求項6】
前記同義語インデックス作成ステップにおいて、
前記単語インデックス記憶手段の情報から各単語頻度情報の集約の際に任意に設定した条件を用いて、情報を取捨選択して前記同義語インデックスとして前記同義語インデックス記憶手段に格納する
請求項4記載の情報検索方法。
【請求項7】
請求項1乃至3のいずれか1項に記載の情報検索装置を構成する各手段としてコンピュータを機能させるための情報検索プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate