類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム
【課題】検索語を類義語にまで拡張しつつ効果的に検索するのに好適な類義語リストの生成方法等を提供する。
【解決手段】生成装置1において、判定部101は、類義語データベース300が備える複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(文書データ群400)のうちのいずれかに含まれているか否かを判定する。抽出部102は、文書データ群400に含まれると判定された基準語と類義語を抽出する。設定部103は、抽出された類義語のそれぞれに、文書データ群400における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する。生成部104は、抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち出力優先度が設定された類義語を対応付けて、類義語リスト900を生成する。
【解決手段】生成装置1において、判定部101は、類義語データベース300が備える複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(文書データ群400)のうちのいずれかに含まれているか否かを判定する。抽出部102は、文書データ群400に含まれると判定された基準語と類義語を抽出する。設定部103は、抽出された類義語のそれぞれに、文書データ群400における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する。生成部104は、抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち出力優先度が設定された類義語を対応付けて、類義語リスト900を生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索語を類義語にまで拡張しつつ効果的に検索するのに好適な類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラムに関する。
【背景技術】
【0002】
文書の電子化の増大に伴い、これまでに蓄積されてきた大量の文書群から所望の文書を見つけ出す検索技術の重要性が高まっている。電子機器における典型的な検索は、検索対象の文書群のうちから、ユーザが入力した検索語を含む文書を見つけ出し、当該見つけ出された文書をユーザへと表示するというものである。
【0003】
ところで、自然言語においては、ある言葉と同じような意味を別の言葉で表現することが可能である。例えば、「世界で最大の島」という言葉は、「世界で最も大きい島」という言葉と同義である。単純に文字列の一致をみる検索では、ユーザが検索語として「世界で最大の島」と入力しても、「世界で最も大きい島」と記述された文書を見つけ出すことはできないため、ユーザの意図する文書が見つけにくいという問題があった。これに対して近年では、ユーザの使い勝手の向上のため、このような類義語にまで拡張して検索を行う技術が、種々に開発されてきている。
【0004】
例えば特許文献1には、検索語を類義語にまで拡張しつつ、検索ノイズを減らすために検索する文書数を制限する技術が開示されている。また特許文献2には、検索語に対する類義語の類似度を評価し、類似度に基づいて検索することで、なるべく検索語に意味の近い類義語を優先して検索する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2004−118262号公報
【特許文献2】特開2006−215717号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
検索語を類義語にまで拡張することで、検索漏れを抑えることができるようになるが、一方で、必ずしも効果的な検索結果につながらないこともある。例えば、ユーザが意図しない文書まで検索したり、複数の類義語で重複した文書を検索したりといった、不必要な検索が行われることもあった。そのため、検索語を類義語にまで拡張しつつ、効果的に検索するための技術が求められてきた。
【0007】
本発明は、以上のような課題を解決するためのものであり、検索語を類義語にまで拡張しつつ効果的に検索するのに好適な類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明にかかる類義語リストの生成方法は、
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定ステップと、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出ステップと、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定ステップと、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成ステップと、
を備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、検索語を類義語にまで拡張しつつ効果的に検索するのに好適な類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラムを提供することができる。
【図面の簡単な説明】
【0010】
【図1】本発明の実施形態に係る類義語リストの生成装置の概要構成を示す図である。
【図2】本発明の実施形態に係る類義語リストの生成装置の物理構成を示す図である。
【図3】本発明の実施形態に係る類義語データベースの構成を示す図である。
【図4】本発明の実施形態に係る文書データの構成を示す図である。
【図5】本発明の実施形態に係る生成装置の処理の流れを示すフローチャートである。
【図6】本発明の実施形態において、類義語データベースから基準語と類義語が抽出される様子を表す図である。
【図7】本発明の実施形態に係る生成装置において、類義語のランク設定処理の流れを示すフローチャートである。
【図8】本発明の実施形態において、類義語にランクが設定される様子を示す図である。
【図9】本発明の実施形態に係る生成された類義語リストの例を示す図である。
【図10】本発明の実施形態に係る検索装置の概要構成を示す図である。
【図11】本発明の実施形態に係る検索装置の物理構成を示す図である。
【図12】本発明の実施形態に係る検索装置の処理の流れを示すフローチャートである。
【図13】本発明の実施形態に係る検索結果がモニタに表示された様子を示す図である。
【図14】本発明に係る検索装置の構成概要について、別の例を示す図である。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は説明のためのものであり、本発明の範囲を制限するものではない。したがって、当業者であれば下記の各構成要素を均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。また、以下の説明では、本発明の理解を容易にするため、重要でない公知の技術的事項の説明を適宜省略する。
【0012】
まず、本実施形態に係る類義語リストの生成装置1が実現される情報処理装置は、図1に示されるような構成をとる。すなわち、生成装置1は、制御部100と、記憶部110と、入力部120と、出力部130と、通信部140と、を備える。一方、当該生成装置1は、物理的には図2に示されるように構成され、CPU(Central Processing Unit)151と、ROM(Read Only Memory)152と、RAM(Random Access Memory)153と、ハードディスク154と、キーボード155と、モニタ156と、DVD−ROMドライブ157と、通信装置158と、を備える。以下、図1および図2を参照して、生成装置1の構成要素の説明をする。
【0013】
制御部100は、生成装置1全体の動作を制御し、各構成要素と接続され、制御信号やデータをやりとりする。すなわち、制御部100は、記憶部110、入力部120、出力部130、通信部140と接続され、これら各部の機能を活用しながら、類義語リストの生成処理を実行する。
【0014】
ここで制御部100は、判定部101と、抽出部102と、設定部103と、生成部104と、を備える。詳細には後述するように、類義語リストの生成装置1は、これらの各部の機能により、類義語データベース300をもとにして、検索対象の複数の文書データ(文書データ群400)の検索を行うための類義語リスト900を生成する処理を実行する。
【0015】
このような制御部100(判定部101、抽出部102、設定部103、生成部104)は、例えばCPU151によって構成される。ここでCPU151は、命令やデータを転送するための伝送経路であるシステムバスにより各構成要素と相互に接続され、ROM152に記録されている生成装置1全体の動作制御に必要なコンピュータプログラムや各種データに従って動作する。そしてCPU151は、ROM152から読み出したコンピュータプログラムやデータ、その他処理の進行に必要なデータを、RAM153に一時的に記憶しながら、各種動作を制御する。このようにCPU151がROM152やRAM153と協働することで、制御部100は、生成装置1全体の動作を制御する。
【0016】
記憶部110は、例えばハードディスク154のような大容量外部記憶装置によって構成され、制御部100が類義語リスト900を生成する処理のために必要な各種データを記憶する。具体的にここでは、類義語リスト900を生成するもとになる類義語データベース300、および、検索装置により検索対象とされる複数の文書データ(文書データ群400)が記憶される。また、記憶部110は、当該生成装置1の処理によって生成された類義語リスト900も記憶する。
【0017】
ここで、記憶部110にあらかじめ記憶される類義語データベース300は、図3に示されるように構成される。すなわち、類義語データベース300は、基準語とそれに対応する類義語という組み合わせを複数備えるものであり、1つの基準語に対して、当該基準語に意味が類似する類義語が1つ以上の数だけ対応付けられている。例えば、「アース」という基準語には、意味の似通った語句である「地面」や「接地」という2つの類義語が対応付けられ、「試合」という基準語には、「取り組み」「勝負」「マッチ」「競争」という4つの類義語が対応付けられている。
【0018】
このとき、基準語と類義語は、単語単位である必要はなく、例えば本図の「特許を受ける」という基準語や「返答のことば」という類義語のように、複数の単語から構成されるものであってもよい。
【0019】
このような類義語データベース300は、どのように作成されてもよい。例えば、種々に存在する公知の類義語辞典等、既存の類義語のデータベースを利用して作成されるものであってもよい。例えば掲載される語数が豊富な類義語辞典を利用した場合は、その分生成装置1は語数の豊富な類義語リスト900を生成でき、検索のユーザビリティの向上につながる。一方で、生成される類義語リスト900のデータサイズが増大することにもなる。
【0020】
また、同じくあらかじめ記憶される文書データ群400は、図4に示されるように構成される。すなわち文書データ群400は、個々の文書データ401a〜401c等から構成され、さらに文書データ401a〜401c等はそれぞれ、「見出し語」と「説明文」とから構成される。すなわち、文書データ401a〜401c等は、辞書を構成する構成単位であり、「見出し語」とは、当該辞書の見出しとなる1つの語句であり、1つの文書データ401に対して1つの見出し語が対応付けられる。そして、「見出し語」には当該見出し語を説明する「説明文」が対応付けられ、これらを合わせて1つの文書データ401を構成する。さらに、このような文書データ401が「見出し語」の数だけ存在し、全体で文書データ群400を構成する。
【0021】
図1および図2に戻って、記憶部110が記憶するこれらのデータは、例えば生成装置1のDVD−ROMドライブ157を介して、あるいは通信部140によって接続されるネットワーク150を介して、外部とやり取りされる。
【0022】
入力部120は、例えばキーボード155のような入力装置によって構成され、ユーザからの入力を受け付ける。受け付けられた入力情報は、制御部100へと供給される。本実施形態では、類義語リスト900を生成するためのユーザからの命令を受け付ける。
【0023】
出力部130は、例えばモニタ156のような表示装置によって構成され、制御部100が処理を行った結果をユーザへ出力する。本実施形態では、判定部101、抽出部102、設定部103、生成部104のそれぞれが行う類義語リスト900の生成処理の経過や結果がモニタ156に表示される。これにより、ユーザは当該生成処理の経過や結果についての情報を得ることができる。
【0024】
通信部140は、生成装置1をインターネット等のネットワーク150に接続し、制御部100の制御のもと、ネットワーク150を介してデータをやり取りする。このような通信部140は、例えばモデム等の適宜の通信装置158によって構成される。
【0025】
以上のように構成される生成装置1は、制御部100の制御のもと、類義語リスト900の生成処理を行う。具体的には、図5のフローチャートに示される手順で処理を実行する。
【0026】
本処理は、ユーザからの類義語リスト900を生成する旨の指示を、生成装置1の入力部120が受け付けることを契機として、開始される。すなわち、キーボード155を用いて、ユーザが類義語リスト900を生成する旨を指示することで、本処理が開始する。
【0027】
処理が開始されると、まず生成装置1の判定部101が、類義語データベース300の最初の基準語を指定する(ステップS501)。すなわち、判定部101は、記憶部110にあらかじめ用意された類義語データベース300にアクセスし、当該類義語データベース300が備える複数の基準語のうち、最初のものを指定する。具体的に図3に示された類義語データベース300の例では、「アース」という最初の基準語が指定される。
【0028】
次に、判定部101は、指定された基準語が文書データ群400の中にあるか否かを判定する(ステップS502)。すなわち、判定部101は、指定された基準語の文字列が、記憶部110に記憶される複数の文書データ401a〜401c等のうち、いずれか1つにでも含まれるか否かを判定する。ここで複数の文書データ401a〜401c等のそれぞれは、上記図4に示されたように、見出し語と説明文とから構成されるものであるが、ここでは基準語が見出し語と説明文とのいずれかにでも含まれれば、その文書データ401に含まれると判定する。
【0029】
指定された基準語が文書データ群400の中にあると判定されると(ステップS502;YES)、次に抽出部102が、当該指定された基準語を抽出する(ステップS503)。すなわち、いずれかの文書データ401中に存在する基準語を、生成する類義語リスト900の基準語として取り出す。
【0030】
ここでさらに、抽出部102は、当該抽出された基準語について文書データ群400の中にある類義語を抽出する(ステップS504)。すなわち、いずれかの文書データ401中に存在すると判定された基準語については、当該基準語に対応付けられた類義語についても同様に、いずれかの文書データ401中に存在するか否かが判定部101によって判定され、存在すると判定された類義語が抽出される。
【0031】
具体的に上記図3の類義語データベース300の例を参照して説明する。まず、最初の基準語「アース」が文書データ群400の中にあると判定されたとすると、当該基準語「アース」が抽出される。そしてさらに、類義語として対応付けられている「地面」と「接地」という2つの語句についても、文書データ群400の中にあるか否かが判定される。ここで例えば、類義語「地面」があると判定され、類義語「接地」はないと判定されると、当該類義語「地面」は抽出され、当該類義語「接地」は抽出されないことになる。
【0032】
図5のフローチャートに戻って、一方、基準語がいずれの文書データ401中にもないと判定されると(ステップS502;NO)、当該基準語は抽出されず、対応する類義語も抽出されない。文書データ群400中に存在しない基準語は、当該文書データ群400を検索対象とする検索には必要がなく、類義語リスト900に搭載する必要がないからである。
【0033】
このように最初の基準語についての処理が終わると、次に判定部101は、類義語データベース300の全ての基準語を処理したか否かを判定する(ステップS505)。未処理の基準語が存在すれば(ステップS505;NO)、判定部101は次の基準語を指定し(ステップS506)、処理はステップS502へと戻る。すなわち、2番目の基準語と対応する類義語について、いずれかの文書データ401中に存在するものを抽出する処理を繰り返す。
【0034】
類義語データベース300が備えるすべての基準語に対してこのような処理が繰り返されることで、複数の文書データ401a〜401c等のいずれかに含まれる基準語と類義語が抽出される。その結果、図6に示されるように、あらかじめ用意された類義語データベース300からは、いずれの文書データ401にも存在しない基準語と類義語が除かれ(本図では横線を重ねて表示)、それ以外の基準語と類義語が抽出されて残ることになる。
【0035】
具体的に本図では、最初の基準語「アース」からは類義語「地面」が抽出される一方で、類義語「接地」が除かれる。また、2番目の基準語「答辞」は、いずれの文書データ401にも存在しないとして、対応する2つの類義語「挨拶」「返答のことば」とともに、抽出されずに除かれる。
【0036】
図5のフローチャートに戻って、このようにいずれかの文書データ401に含まれる基準語と対応する類義語が抽出され、類義語データベース300の全ての基準語が処理されると(ステップS505;YES)、次に設定部103が、抽出された類義語にランクを設定する(ステップS507)。ここで「ランク」とは、後述する検索装置により検索された際、検索語に関連する類義語を出力する優先度の指標を示すものであり、抽出された類義語のそれぞれに対して1つの値のランクが設定される。検索において類義語は、ここで設定されたランクの値の大きい順に出力されることになる。
【0037】
具体的な類義語に対するランク設定処理は、ここから図7のフローチャートを参照し、改めて詳細に説明する。
【0038】
類義語のランク設定処理が開始されると、まず設定部103は、抽出された基準語のうち、最初の基準語を指定する(ステップS701)。上記図6の具体例では、「アース」という最初の基準語が指定される。
【0039】
次に設定部103は、指定された基準語について全ての類義語のランクを0に初期化する(ステップS702)。具体的に、「アース」という最初の基準語が指定されていた場合は、対応する類義語「地面」のランクが0に初期化される。このような初期化を、指定された基準語から複数の類義語が抽出されていた場合は、当該複数の類義語全てについて行う。
【0040】
次に設定部103は、最初の文書データ401を指定し(ステップS703)、当該指定された文書データ401内に指定された基準語があるか否かを判定する(ステップS704)。すなわち設定部103は、記憶部110に記憶された文書データ群400にアクセスし、最初の文書データ401aの見出し語や説明文の中に、基準語の文字列が含まれているか否かを判定する。
【0041】
基準語があると判定された場合(ステップS704;YES)、指定された基準語について最初の類義語を指定する(ステップS705)。上記図6の具体例では、最初に指定された「アース」という基準語に対して、対応する類義語「地面」が指定される。ここで対応する類義語が複数ある場合は、最初の1つが指定される。
【0042】
類義語が指定されると、設定部103は、指定された文書データ401内に指定された類義語があるか否かを判定する(ステップS706)。ここではすなわち、基準語が存在する文書データ401内に、さらに対応する類義語も共存しているか否かが判定される。具体的には図8の例のように、基準語「アース」が存在している文書データ401内に、さらに対応する類義語「地面」も存在しているか否かが判定される。
【0043】
類義語があると判定された場合(ステップS706;YES)、当該指定された類義語のランクを−1する(S707)。すなわち、同一の文書データ401内に基準語と共存している類義語は、当該基準語の検索結果として同一文書データ401内に見つけ出すことができるため、ユーザに優先して出力する必要性が低いと判断され、出力優先度に相当するランクが下げられる。図8の具体例では、文書データ401内の説明文中に基準語「アース」とともに存在する「地面」という類義語のランクは、値が1だけ下げられることになる。
【0044】
一方で、類義語があると判定されなかった場合は(ステップS706;NO)、当該類義語のランクは下げられず、それまでの値から変化しない。すなわち、同一の文書データ401内に基準語と共存していない類義語は、当該基準語の検索とともには見つけ出しにくい語句であるとして、当該基準語が検索された際にユーザへ出力される優先度は下げられず維持される。
【0045】
このように類義語のランクが低減または維持されると、設定部103は、指定された基準語について全ての類義語を処理したか否かを判定する(ステップS708)。未処理の類義語があれば(ステップS708;NO)、設定部103は次の類義語を指定して(ステップS709)、処理はステップS706へと戻る。すなわち、指定された類義語が、同一文書データ401内に基準語と共存する場合には、当該類義語のランクが下げられる。このように、指定された基準語に対応する全ての類義語について、ステップS706〜S707の処理が繰り返され、同一文書データ401内に共存している類義語のランクが下げられる。
【0046】
指定された基準語について全ての類義語の処理がなされると(ステップS708;YES)、次に設定部103は、全ての文書データ401を処理したか否かを判定する(ステップS710)。すなわち、記憶部110に記憶された複数の文書データ401a〜401c等のうち、全ての文書データ401が処理されたか否かが判定される。未処理の文書データ401があると(ステップS710;NO)、設定部103は次の文書データ401を指定して(ステップS711)、処理はステップS704へと戻る。すなわち、次に指定された文書データ401について、その見出し語または説明文中に基準語が存在するかが判定され、存在する場合に、さらに当該文書データ401内に共存している類義語のランクの値を1だけ下げる処理が行われる。
【0047】
ここで、指定された文書データ401内に基準語が存在しない場合は(ステップS704;NO)、当該基準語に対応する類義語についての処理(ステップS705〜S709)は行われず、処理はステップS710にまで移り、次の未処理の文書データ401の処理へと移行する。基準語が存在しない文書データ401には、基準語と類義語が共存することもないため、類義語のランクを下げる必要もないからである。
【0048】
このように文書データ401ごとにランク設定処理が繰り返され、基準語に対応付けられた類義語は、当該基準語と共に存在する文書データ401があるごとにランクの値が1下げられる。その結果、類義語のランクは、基準語と共に存在する文書データ401の個数に相当する値だけ、初期値である0から下げられた値となる。例えば、基準語と共に存在する文書データ401がN個あった場合は、類義語のランクは−Nとなる。
【0049】
指定された基準語について、全ての文書データ401を処理し終えると(ステップS710;YES)、次に設定部103は、全ての基準語を処理したか否かを判定する(ステップS712)。抽出部102によって抽出された基準語のうち、未処理の基準語があれば(ステップS712;NO)、未処理の基準語のうち次の基準語を指定して(ステップS713)、処理はステップS702へと戻る。すなわち、次に指定された基準語について、対応する類義語にランクを設定する処理(ステップS702〜S711)を行う。上記図6の具体例では、最初の基準語「アース」の処理が終わると、次の基準語「試合」が指定され、当該基準語に対応する3つの類義語「勝負」「マッチ」「競争」にランクを設定する処理が行われる。
【0050】
このように、抽出された基準語の全てに対して、それぞれに対応する類義語のランクを設定する処理が繰り返され、その後全ての基準語の処理が終わると(ステップS712)、当該フローチャートでの類義語のランク設定処理は終わる。その後、図5のフローチャートに戻り、生成部104が、抽出された基準語に、ランクが設定された類義語を対応付けて、類義語リスト900を生成し(ステップS508)、生成された類義語リスト900はハードディスク154のような記憶部110に記憶され、本フローチャートの処理は終了する。
【0051】
その結果、生成された類義語リスト900は、図9に示されるように、抽出部102によって抽出された基準語のそれぞれに、ランクとして0以下の整数であるいずれか1つの値が設定された類義語が対応付けられたものとなる。例えば、基準語「アース」の類義語「地面」は、当該基準語と同時に出現する文書データ401の個数が3個であったとして、−3というランクが設定される。また、基準語「試合」の類義語「勝負」「マッチ」「競争」は、当該基準語と同時に出現する文書データ401の個数が、それぞれ1個、0個、4個であったとして、それぞれ−1、0、−4というランクが設定される。
【0052】
以上のような構成により、本実施形態の類義語リスト900の生成装置1は、類義語データベース300に備えられた基準語と対応する類義語から、検索対象の複数の文書データ401a〜401c等のいずれかに存在する基準語と類義語を抽出する。そして、当該抽出された類義語に、基準語とともに出現する文書データ401の個数に応じて下げられた出力優先度を設定した上で、類義語リスト900を生成する。
【0053】
その結果、当該生成された類義語リスト900を用いて検索する際に、所望の検索語に対する類義語をユーザに提示し、ユーザの検索を補助することができるとともに、検索語と同一の文書データ401に存在する類義語の出力優先度を下げることで、ユーザはより多くの種類の文書データ401を優先的に検索することができるようになる。
【0054】
本発明では、上記のような類義語リスト900の生成装置1、およびそれを用いた類義語リスト900の生成方法に加え、当該生成された類義語リスト900を用いて、文書データ群400を検索対象とした検索を行う検索装置、およびそれを用いた検索方法を提供する。
【0055】
ここで検索装置は、通常は上記類義語リスト900の生成装置1とは異なる情報処理装置によって実現される。具体的に本実施形態では、検索装置として、電子辞書等の機能を備える小型の情報処理装置を想定して説明する。すなわち、検索対象である文書データ群400(複数の文書データ401a〜401c等)についての類義語リスト900の生成については、あらかじめ上記図1および図2に示されたような一般的な情報処理装置において行われ、一方で当該生成された類義語リスト900を用いた文書データ群400の検索については、生成装置1とは異なる情報処理装置、すなわち電子辞書等の小型の情報処理装置において実現される。
【0056】
このような検索装置2として、その構成は図10に示されるようなものになる。すなわち検索装置2は、制御部200と、記憶部210と、入力部220と、表示部230と、を備える。一方、当該検索装置2は、物理的には図11に示されるように構成され、CPU251と、ROM252と、RAM253と、キーボード255と、モニタ256と、を備える。以下、図10および図11を参照して、検索装置2の構成要素の説明をする。
【0057】
制御部200は、検索装置2全体の動作を制御し、各構成要素と接続され、制御信号やデータをやりとりする。すなわち、制御部200は、記憶部210、入力部220、表示部230と接続され、これら各部の機能を活用しながら、検索処理を実行する。
【0058】
ここで制御部200は、文書特定部201と、文書出力部202と、基準語判定部203と、類義語出力部204と、を備える。詳細には後述するように、検索装置2は、これらの各部の機能により、文書データ群400(複数の文書データ401a〜401c等)のうちから所望の検索語の文字列(検索文字列)を含む文書データを特定し、さらに類義語リスト900を用いて検索語の類義語もあわせて提示する処理を実行する。
【0059】
このような制御部200(文書特定部201、文書出力部202、基準語判定部203、類義語出力部204)は、例えばCPU251によって構成される。ここでCPU251は、基本的には生成装置1におけるCPU151と同様、命令やデータを転送するための伝送経路であるシステムバスにより各構成要素と相互に接続され、ROM252に記録されている検索装置2全体の動作制御に必要なコンピュータプログラムや各種データに従って動作し、さらにROM252から読み出したコンピュータプログラムやデータ、その他処理の進行に必要なデータを、RAM253に一時的に記憶しながら、各種動作を制御する。このようにCPU251がROM252やRAM253と協働することで、制御部200は、検索装置2全体の動作を制御する。
【0060】
記憶部210は、例えば検索装置2内に備えられたROM252のような読出し専用の記憶媒体によって構成され、制御部200が検索処理に必要な各種データを記憶する。具体的にここでは、検索対象とされる文書データ群400、および類義語リスト900が記憶される。
【0061】
この文書データ群400は、上記生成装置1の記憶部110に記憶された文書データ群400と同一のものであり、また類義語リスト900は、上記生成装置1が、当該文書データ群400から生成した類義語リスト900と同一のものである。
【0062】
入力部220は、例えばキーボード255のような入力装置によって構成され、ユーザからの入力を受け付ける。具体的にここでは、ユーザからの検索語を受け付ける。受け付けられた検索語は、制御部200の文書特定部201と基準語判定部203へと供給され、当該検索語を含む文書データ401を検索する処理および当該検索語に一致する基準語が類義語リスト900内にあるか否かを判定する処理に用いられる。
【0063】
表示部230は、例えばモニタ256のような表示装置によって構成され、制御部200が処理を行った結果をユーザへ表示する。具体的にここでは、ユーザが入力した検索語を含む文書データ401や検索語についての類義語を、モニタ256に出力することで、当該ユーザへと表示する。これにより、ユーザは、自身が入力した検索語を含む文書データ401や類義語を出力結果として取得し、種々に利用することができるようになる。
【0064】
なお、入力部220と表示部230は、タッチパネル等のような入力装置と表示装置が組み合わされた装置によって構成されてもよい。この場合には、タッチパネルに内蔵されたタッチセンサ等からなる位置入力装置が入力部220を、液晶ディスプレイ等からなる表示装置が表示部230を、それぞれ構成する。
【0065】
以上のように構成される検索装置2は、制御部200の制御のもと、検索処理を行う。具体的には、図12のフローチャートに示される手順で処理を実行する。
【0066】
本処理は、ユーザから入力された検索語を、検索装置2の入力部220が受け付けることを契機として、開始される。すなわち、キーボード255を用いて、ユーザが所望の検索語を入力し、検索する旨を指示することで、本処理が開始する。
【0067】
ユーザから検索語が受け付けられ処理が開始されると、まず文書特定部201が、複数の文書データ401a〜401c等のうちから、検索語を含む文書データ401を特定する(ステップS1201)。すなわち、例えばユーザが「試合」という検索語を入力したとすると、文書特定部201は複数の文書データ401a〜401c等に含まれる文字列の検索を行い、当該「試合」という検索語の文字列(検索文字列)を含む文書データ401を特定する。
【0068】
このとき行われる検索は、いわゆる全文検索であり、各文書データ401内の見出し語および説明文の文字列に対して行われる。すなわち、文書データ401内の見出し語か説明文かのいずれかに入力された検索語の文字列が含まれていれば、当該文書データ401が特定される。特定された文書データ401は、RAM253に一時的に保持される。
【0069】
また、このとき行われる検索は、公知の検索技術のいずれによって行われてもよい。すなわち、例えば複数の文書データ401a〜401c等を順次走査して検索文字列を探し出す逐次型の検索(grep型の検索)が用いられてもよいし、あるいは検索処理の高速化のためあらかじめ索引ファイルを用意しておく索引型(インデックス型)の検索が用いられてもよい。また、索引型の検索の場合は、例えばいわゆる形態素解析の手法によって索引ファイルが生成されるものであってもよいし、いわゆるNグラムの手法(N文字インデックス法)によって索引ファイルが生成されるものであってもよい。
【0070】
このようにして検索語が含まれる文書データ401が特定されると、文書出力部202が、特定された文書データ401を出力する(ステップS1202)。すなわち、文書出力部202は、入力された検索語が含まれる文書データ401を、モニタ256のような表示部230に表示することで、ユーザへと出力する。これにより、ユーザは、自身が入力した検索語が、どの文書データ401に含まれているのかを認識することができるようになる。
【0071】
さらに検索装置2では、基準語判定部203が、類義語リスト900を用いて検索語に一致する基準語があるか否かを判定する(ステップS1203)。すなわち、基準語判定部203は、生成装置1によってあらかじめ生成され、記憶部210に記憶されている類義語リスト900にアクセスし、当該類義語リスト900が備える基準語に、入力された検索語に一致するものがあるか否かを判定する。
【0072】
検索語に一致する基準語がないと判定されると(ステップS1203;NO)、ここでは何も処理されず、そのまま検索処理は終了する。すなわち、入力された検索語は、類義語リスト900内に対応する類義語が存在しないため、ここでは類義語が出力されず、上記特定された文書データ401のみ出力されて、検索処理が終了する。
【0073】
一方、検索語に一致する基準語があると判定されると(ステップS1203;YES)、類義語出力部204が、当該一致する基準語に対応する類義語をランク(出力優先度)の高い順に出力し(ステップS1204)、その後検索処理は終了する。すなわち、類義語出力部204は、検索語に一致する基準語について、対応するすべての類義語を類義語リスト900から取得し、あらかじめ類義語ごとに設定されたランクの値に基づいた順序でモニタ256に表示する等によりユーザへ出力する。
【0074】
例えば、ユーザが「試合」という検索語を入力した場合、当該「試合」という検索語を含む文書データ401が、検索結果として出力されるとともに、類義語リスト900内で当該「試合」という基準語に対応付けられた3つの類義語「勝負」「マッチ」「競争」も出力される。その結果、具体的には図13に示されるような出力結果が検索装置2のモニタ256に表示される。すなわち本図のように、「試合」という検索語を含む文書データ401として、「AAA」「BBB」「XXX」「ZZZ」等の文書データ401がモニタ256内の検索結果の欄に表示され、「試合」という基準語に対する類義語として、類義語リスト900内に記憶されている「マッチ」「勝負」「競争」という3つの語句がモニタ256内の推奨検索語の欄に表示される。
【0075】
このとき推奨検索語として表示される3つの類義語は、それぞれのランクの値が比較された上で、当該ランクの高い順に表示される。それぞれの類義語のランクは、当該類義語と検索語とが同時に出現する文書データ401の個数が多いほど小さな値に設定されているため、検索語と同時に出現する文書データ401の個数が少ない順に表示されることになる。具体的には上記図9に示されたように、「勝負」という類義語のランクは−1に、「マッチ」という類義語のランクは0に、「競争」という類義語のランクは−4にそれぞれ設定されているため、図13のモニタ256のように、ランクの高い順に「マッチ」「勝負」「競争」と並べ替えられて出力される。
【0076】
さらにこのとき3つの類義語は、設定されたランクの値が大きいほど大きな文字で表示される。すなわち、ランクが0の「マッチ」という類義語が最も大きな文字で表示され、ランクが−4の「競争」という類義語は最も小さな文字で表示される。これにより、検索語と同時に出現する文書データ401の個数が少ない類義語ほど、推奨検索語としてユーザから確認しやすいように表示されるため、ユーザは効率的に多くの種類の文書データ401を検索することができるようになる。
【0077】
以上のような構成により、本実施形態の検索装置2は、入力された検索語が類義語リスト900のいずれかの基準語と一致している場合、検索語による検索結果とともに、当該一致した基準語に対応付けられた類義語もあわせて出力する。このとき、検索語と同時に出現する文書データ401の個数が少ないほど、高い優先度で類義語を出力する。その結果、ユーザは、効率的に多くの種類の文書データ401を検索することができるようになる。
【0078】
とくに本実施形態のように、検索対象の文書データ401が辞書を構成するものである場合には、意味の類似する複数の語句が同じ文書データ401内に存在する場合が多い。そのため、重複した文書データ401が検索されることになる類義語ユーザへ出力する優先度を下げることで、より多くの種類の文書データ401を検索できるようにするのに効果的である。
【0079】
なお、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。
【0080】
例えば、上記実施形態では、検索装置2は、ROM252のような記憶部210内に文書データ群400等を記憶した。しかしこれに限られず、検索装置2は、ハードディスク等の大容量記憶装置やDVD−ROMドライブを備え、文書データ群400等がハードディスクやDVD−ROM等に記憶されるようにしてもよい。あるいは、検索装置2は、ネットワークに接続され、文書データ群400等がネットワーク上に存在するようにしてもよい。
【0081】
また、上記実施形態では、検索装置2は、ユーザが検索語を入力する入力部220や検索結果を表示する表示部230は、制御部200や記憶部210と同一の装置内に存在した。しかしこれに限られず、入力部220と表示部230は、検索装置2の外部にあってもよい。すなわち、例えば図14に示すように、検索装置2は入力部220と表示部230を備えず、これらを備える端末装置3とネットワーク150を介して接続されるようにし、オンライン型の電子辞書のような情報機器として構成するようにしてもよい。
【0082】
このとき、検索装置2と端末装置3は、それぞれが備える通信部240a,240bにより、ネットワーク150を介して互いにデータを通信しあう。すなわち、端末装置3のユーザが入力した検索語は、検索装置2へと送信され、制御部200により検索処理が実行される。その後、検索結果としての文書データ401と類義語の情報が再び端末装置3へと送信され、端末装置3のユーザへと出力される。このような構成をとることで、検索装置2内の文書データ群400等を一括して管理して複数のユーザに利用できるようになり、またユーザ側の端末装置3は、文書データ群400等を保持する必要がないため、データサイズを抑えることができるといった利点がある。
【0083】
また、上記実施形態では、検索装置2として電子辞書のような小型の情報処理装置を想定して説明した。しかしこれに限られず、検索装置2は、ビジネス用・家庭用の一般的なコンピュータ装置や、携帯電話等の他の情報機器であってもよい。また、電子辞書における検索に限られず、種々の電子データを検索するものであってもよい。例えば、一般的なコンピュータ装置において、ハードディスク等の大容量記憶装置やDVD−ROM等に記憶された電子ファイルのうちから、所望の検索語を含む電子ファイルを検索するものであってもよい。あるいは、ネットワークと接続され、ネットワーク上に存在するウェブページを検索するものであってもよい。
【0084】
また、生成装置1について、上記実施形態での生成装置1は、ハードディスク154のような記憶部110に記憶されている類義語データベース300および文書データ群400から類義語リスト900を生成し、当該生成された類義語リスト900を記憶部110に記憶した。しかし、これら類義語データベース300や文書データ群400は、生成装置1内に備えられた記憶部110に記憶されることに限られず、通信部140を介して接続されるネットワーク150上に存在していてもよいし、あるいはDVD−ROMドライブ157に搭載されるDVD−ROM内に記憶されていてもよい。
【0085】
また、上記実施形態では、文書データ群400を構成する複数の文書データ401は、「見出し語」と「説明文」とから構成された。しかしこれらに限られず、様々な要素から構成されてもよい。例えば、「見出し語」を説明するための図や表を有するものであってもよい。あるいは、辞書における検索以外の一般的な電子ファイル等の検索では、このような「見出し語」と「説明文」といった構成要素に限らず、文書データ401は様々な形式で文字列データを有していてもよい。
【0086】
また、上記実施形態での類義語リスト900の生成装置1は、類義語と対応する基準語をともに含む文書データ401の個数に基づいて、その類義語の出力優先度を設定した。すなわち、1つの文書データ401内に、類義語と対応する基準語が少なくとも1つずつ含まれていれば、当該類義語のランク(出力優先度)は、一様に値が1だけ下げられた。しかしこれに限られず、類義語と対応する基準語のうちの少なくとも一方の種々の出現態様に基づいて、様々にランクを設定するようにしてもよい。
【0087】
例えば、類義語が単独で出現する文書データ401の個数や頻度が多いほど、当該類義語のランクを上げてもよい。基準語の検索では特定できなかった文書データ401をより多く特定でき、またその中でも出現頻度の多い類義語は、ユーザの検索意図に沿うものである可能性が高いからである。
【0088】
あるいはまた、類義語の文書データ401中での出現位置に応じて、当該類義語に設定されるランクを変動させてもよい。例えば、文書データ401の先頭に近い位置に出現することの多い類義語ほど、ランクを高く設定し、出力優先度を上げるようにしてもよい。さらに、基準語に近い位置に出現する類義語ほど、基準語に意味が類似する度合いが高いものと推測し、ランクを高く設定して出力優先度を上げるようにしてもよい。
【0089】
また、上記実施形態では、文書データ401内の「見出し語」と「説明文」とに区別をつけず、いずれかに基準語と対応する類義語が含まれていれば、その類義語のランクの値を一様に下げた。しかしこれに限られず、「見出し語」と「説明文」とを区別してもよい。例えば、基準語が「見出し語」に含まれ、かつ類義語が「説明文」に含まれる場合や、類義語が「見出し語」に含まれ、かつ基準語が「説明文」に含まれる場合等に応じて、当該類義語のランクの値を変動させてもよい。
【0090】
また、上記実施形態での検索装置2は、設定されたランクが高いほど文字の大きさを大きくして類義語を出力した。しかしこれに限られず、設定されたランクに基づいて、種々に態様を変化させて類義語を出力してもよい。例えば、設定されたランクが高いほど視認しやすい色で類義語を表示するようにしてもよい。あるいは、設定されたランクが高いほど類義語を表示する明度を高くする等によって強調して表示するようにしてもよい。これにより、ランクの高い類義語ほどユーザから確認しやすいように表示されるため、ユーザは当該ランクの高い類義語に基づく効率的な検索ができるようになる。
【0091】
また、上記実施形態での検索装置2は、類義語リスト900内の基準語のうち、入力された検索語に一致する基準語についての類義語を出力した。しかし、基準語と検索語とが完全に一致することに限られず、検索語に含まれる基準語についても、類義語を出力するようにしてもよい。例えば、検索語として「特許権」という文字列が入力された場合、これに包含される基準語「特許」についての類義語も出力されるようにしてもよい。これにより、検索語そのものだけでなく、検索語に含まれる語句にも対応でき、様々に入力される検索語に対して、柔軟に類義語を出力できるようになる。
【0092】
さらにこのとき、検索語の文字列のうち、類義語を出力する文字列をユーザが指定できるようにしてもよい。すなわち、検索語に包含されるすべての基準語についての類義語を出力するのではなく、検索装置2は、ユーザから指定された文字列に一致する基準語についてのみ、類義語を出力する。具体的に説明すると、例えば、入力された検索語が「世界で最大の島」という文字列であった場合、類義語リスト900内に「世界」「最大」「島」という基準語が登録されているとすると、検索文字列に包含されるこれら3つの基準語すべてについての類義語が出力されると、出力される類義語の数が多くなりすぎてしまう事態が想定される。そのため、ユーザが指定した文字列のみについて類義語を出力するようにすることで、出力が煩雑になりすぎることを防ぐことができるようになる。
【0093】
あるいは、検索装置2は、あらかじめ出力する類義語の個数に上限値を設けておき、設定されたランクの高い順に上限値に達するまでの個数のみを出力するようにしてもよい。これにより、入力された検索語に一致または含まれる基準語に対応付けられた類義語の個数が多いことにより出力が煩雑になるといった状況を防ぐことができる。
【0094】
なお、本発明に係る機能を実現するための構成を予め備えた類義語リストの生成装置および当該類義語リストを用いた検索装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る生成装置および検索装置として機能させることもできる。すなわち、上記実施形態で例示した生成装置1および検索装置2による各機能構成を実現させるための生成プログラムまたは検索プログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、それぞれ本発明に係る生成装置1および検索装置2として機能させることができる。また、本発明に係る類義語リストの生成方法および当該類義語リストを用いた検索方法は、それぞれ生成装置1および検索装置2を用いて実施できる。
【0095】
また、このようなプログラムの適用方法は任意であり、例えば、CD−ROMやDVD−ROM、メモリカードなどのコンピュータ読み取り可能な記憶媒体に格納して適用できる他、例えば、インターネットなどの通信媒体を介して適用することもできる。
【0096】
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
【0097】
(付記1)
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定ステップと、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出ステップと、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定ステップと、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成ステップと、
を備えることを特徴とする類義語リストの生成方法。
【0098】
(付記2)
前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数に基づいて、出力優先度を設定する、
ことを特徴とする付記1に記載の類義語リストの生成方法。
【0099】
(付記3)
前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数が少ないほど、出力優先度を高く設定する、
ことを特徴とする付記1または2に記載の類義語リストの生成方法。
【0100】
(付記4)
付記1から3のいずれか1つに記載の生成方法によって生成された類義語リストを用いる検索方法であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定ステップと、
前記特定された文書データを出力する文書出力ステップと、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定ステップと、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力ステップと、
を備えることを特徴とする検索方法。
【0101】
(付記5)
前記基準語判定ステップでは、前記類義語リストが有する基準語のそれぞれについて、前記検索文字列のうち、ユーザが指定した文字列に含まれるか否かを判定し、
前記類義語出力ステップでは、前記ユーザが指定した文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する、
ことを特徴とする付記4に記載の検索方法。
【0102】
(付記6)
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段と、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段と、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段と、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段と、
を備えることを特徴とする類義語リストの生成装置。
【0103】
(付記7)
付記1から3のいずれか1つに記載の生成方法によって生成された類義語リストを用いる検索装置であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段と、
前記特定された文書データを出力する文書出力手段と、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段と、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段と、
を備えることを特徴とする検索装置。
【0104】
(付記8)
コンピュータを、
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段、
として機能させることを特徴とするコンピュータプログラム。
【0105】
(付記9)
コンピュータを、
付記1から3のいずれか1つに記載の生成方法によって生成された類義語リストを用いる検索装置として機能させるコンピュータプログラムであって、
前記コンピュータを、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段、
前記特定された文書データを出力する文書出力手段、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段、
として機能させることを特徴とするコンピュータプログラム。
【符号の説明】
【0106】
1…生成装置、2…検索装置、3…端末装置、100…制御部、101…判定部、102…抽出部、103…設定部、104…生成部、110…記憶部、120…入力部、130…出力部、140…通信部、150…ネットワーク、151…CPU、152…ROM、153…RAM、154…ハードディスク、155…キーボード、156…モニタ、157…DVD−ROMドライブ、158…通信装置、200…制御部、201…文書特定部、202…文書出力部、203…基準語判定部、204…類義語出力部、210…記憶部、220…入力部、230…表示部、240a,240b…通信部、251…CPU、252…ROM、253…RAM、255…キーボード、256…モニタ、300…類義語データベース、400…文書データ群、401a,401b,401c…文書データ、900…類義語リスト
【技術分野】
【0001】
本発明は、検索語を類義語にまで拡張しつつ効果的に検索するのに好適な類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラムに関する。
【背景技術】
【0002】
文書の電子化の増大に伴い、これまでに蓄積されてきた大量の文書群から所望の文書を見つけ出す検索技術の重要性が高まっている。電子機器における典型的な検索は、検索対象の文書群のうちから、ユーザが入力した検索語を含む文書を見つけ出し、当該見つけ出された文書をユーザへと表示するというものである。
【0003】
ところで、自然言語においては、ある言葉と同じような意味を別の言葉で表現することが可能である。例えば、「世界で最大の島」という言葉は、「世界で最も大きい島」という言葉と同義である。単純に文字列の一致をみる検索では、ユーザが検索語として「世界で最大の島」と入力しても、「世界で最も大きい島」と記述された文書を見つけ出すことはできないため、ユーザの意図する文書が見つけにくいという問題があった。これに対して近年では、ユーザの使い勝手の向上のため、このような類義語にまで拡張して検索を行う技術が、種々に開発されてきている。
【0004】
例えば特許文献1には、検索語を類義語にまで拡張しつつ、検索ノイズを減らすために検索する文書数を制限する技術が開示されている。また特許文献2には、検索語に対する類義語の類似度を評価し、類似度に基づいて検索することで、なるべく検索語に意味の近い類義語を優先して検索する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2004−118262号公報
【特許文献2】特開2006−215717号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
検索語を類義語にまで拡張することで、検索漏れを抑えることができるようになるが、一方で、必ずしも効果的な検索結果につながらないこともある。例えば、ユーザが意図しない文書まで検索したり、複数の類義語で重複した文書を検索したりといった、不必要な検索が行われることもあった。そのため、検索語を類義語にまで拡張しつつ、効果的に検索するための技術が求められてきた。
【0007】
本発明は、以上のような課題を解決するためのものであり、検索語を類義語にまで拡張しつつ効果的に検索するのに好適な類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明にかかる類義語リストの生成方法は、
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定ステップと、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出ステップと、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定ステップと、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成ステップと、
を備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、検索語を類義語にまで拡張しつつ効果的に検索するのに好適な類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラムを提供することができる。
【図面の簡単な説明】
【0010】
【図1】本発明の実施形態に係る類義語リストの生成装置の概要構成を示す図である。
【図2】本発明の実施形態に係る類義語リストの生成装置の物理構成を示す図である。
【図3】本発明の実施形態に係る類義語データベースの構成を示す図である。
【図4】本発明の実施形態に係る文書データの構成を示す図である。
【図5】本発明の実施形態に係る生成装置の処理の流れを示すフローチャートである。
【図6】本発明の実施形態において、類義語データベースから基準語と類義語が抽出される様子を表す図である。
【図7】本発明の実施形態に係る生成装置において、類義語のランク設定処理の流れを示すフローチャートである。
【図8】本発明の実施形態において、類義語にランクが設定される様子を示す図である。
【図9】本発明の実施形態に係る生成された類義語リストの例を示す図である。
【図10】本発明の実施形態に係る検索装置の概要構成を示す図である。
【図11】本発明の実施形態に係る検索装置の物理構成を示す図である。
【図12】本発明の実施形態に係る検索装置の処理の流れを示すフローチャートである。
【図13】本発明の実施形態に係る検索結果がモニタに表示された様子を示す図である。
【図14】本発明に係る検索装置の構成概要について、別の例を示す図である。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は説明のためのものであり、本発明の範囲を制限するものではない。したがって、当業者であれば下記の各構成要素を均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。また、以下の説明では、本発明の理解を容易にするため、重要でない公知の技術的事項の説明を適宜省略する。
【0012】
まず、本実施形態に係る類義語リストの生成装置1が実現される情報処理装置は、図1に示されるような構成をとる。すなわち、生成装置1は、制御部100と、記憶部110と、入力部120と、出力部130と、通信部140と、を備える。一方、当該生成装置1は、物理的には図2に示されるように構成され、CPU(Central Processing Unit)151と、ROM(Read Only Memory)152と、RAM(Random Access Memory)153と、ハードディスク154と、キーボード155と、モニタ156と、DVD−ROMドライブ157と、通信装置158と、を備える。以下、図1および図2を参照して、生成装置1の構成要素の説明をする。
【0013】
制御部100は、生成装置1全体の動作を制御し、各構成要素と接続され、制御信号やデータをやりとりする。すなわち、制御部100は、記憶部110、入力部120、出力部130、通信部140と接続され、これら各部の機能を活用しながら、類義語リストの生成処理を実行する。
【0014】
ここで制御部100は、判定部101と、抽出部102と、設定部103と、生成部104と、を備える。詳細には後述するように、類義語リストの生成装置1は、これらの各部の機能により、類義語データベース300をもとにして、検索対象の複数の文書データ(文書データ群400)の検索を行うための類義語リスト900を生成する処理を実行する。
【0015】
このような制御部100(判定部101、抽出部102、設定部103、生成部104)は、例えばCPU151によって構成される。ここでCPU151は、命令やデータを転送するための伝送経路であるシステムバスにより各構成要素と相互に接続され、ROM152に記録されている生成装置1全体の動作制御に必要なコンピュータプログラムや各種データに従って動作する。そしてCPU151は、ROM152から読み出したコンピュータプログラムやデータ、その他処理の進行に必要なデータを、RAM153に一時的に記憶しながら、各種動作を制御する。このようにCPU151がROM152やRAM153と協働することで、制御部100は、生成装置1全体の動作を制御する。
【0016】
記憶部110は、例えばハードディスク154のような大容量外部記憶装置によって構成され、制御部100が類義語リスト900を生成する処理のために必要な各種データを記憶する。具体的にここでは、類義語リスト900を生成するもとになる類義語データベース300、および、検索装置により検索対象とされる複数の文書データ(文書データ群400)が記憶される。また、記憶部110は、当該生成装置1の処理によって生成された類義語リスト900も記憶する。
【0017】
ここで、記憶部110にあらかじめ記憶される類義語データベース300は、図3に示されるように構成される。すなわち、類義語データベース300は、基準語とそれに対応する類義語という組み合わせを複数備えるものであり、1つの基準語に対して、当該基準語に意味が類似する類義語が1つ以上の数だけ対応付けられている。例えば、「アース」という基準語には、意味の似通った語句である「地面」や「接地」という2つの類義語が対応付けられ、「試合」という基準語には、「取り組み」「勝負」「マッチ」「競争」という4つの類義語が対応付けられている。
【0018】
このとき、基準語と類義語は、単語単位である必要はなく、例えば本図の「特許を受ける」という基準語や「返答のことば」という類義語のように、複数の単語から構成されるものであってもよい。
【0019】
このような類義語データベース300は、どのように作成されてもよい。例えば、種々に存在する公知の類義語辞典等、既存の類義語のデータベースを利用して作成されるものであってもよい。例えば掲載される語数が豊富な類義語辞典を利用した場合は、その分生成装置1は語数の豊富な類義語リスト900を生成でき、検索のユーザビリティの向上につながる。一方で、生成される類義語リスト900のデータサイズが増大することにもなる。
【0020】
また、同じくあらかじめ記憶される文書データ群400は、図4に示されるように構成される。すなわち文書データ群400は、個々の文書データ401a〜401c等から構成され、さらに文書データ401a〜401c等はそれぞれ、「見出し語」と「説明文」とから構成される。すなわち、文書データ401a〜401c等は、辞書を構成する構成単位であり、「見出し語」とは、当該辞書の見出しとなる1つの語句であり、1つの文書データ401に対して1つの見出し語が対応付けられる。そして、「見出し語」には当該見出し語を説明する「説明文」が対応付けられ、これらを合わせて1つの文書データ401を構成する。さらに、このような文書データ401が「見出し語」の数だけ存在し、全体で文書データ群400を構成する。
【0021】
図1および図2に戻って、記憶部110が記憶するこれらのデータは、例えば生成装置1のDVD−ROMドライブ157を介して、あるいは通信部140によって接続されるネットワーク150を介して、外部とやり取りされる。
【0022】
入力部120は、例えばキーボード155のような入力装置によって構成され、ユーザからの入力を受け付ける。受け付けられた入力情報は、制御部100へと供給される。本実施形態では、類義語リスト900を生成するためのユーザからの命令を受け付ける。
【0023】
出力部130は、例えばモニタ156のような表示装置によって構成され、制御部100が処理を行った結果をユーザへ出力する。本実施形態では、判定部101、抽出部102、設定部103、生成部104のそれぞれが行う類義語リスト900の生成処理の経過や結果がモニタ156に表示される。これにより、ユーザは当該生成処理の経過や結果についての情報を得ることができる。
【0024】
通信部140は、生成装置1をインターネット等のネットワーク150に接続し、制御部100の制御のもと、ネットワーク150を介してデータをやり取りする。このような通信部140は、例えばモデム等の適宜の通信装置158によって構成される。
【0025】
以上のように構成される生成装置1は、制御部100の制御のもと、類義語リスト900の生成処理を行う。具体的には、図5のフローチャートに示される手順で処理を実行する。
【0026】
本処理は、ユーザからの類義語リスト900を生成する旨の指示を、生成装置1の入力部120が受け付けることを契機として、開始される。すなわち、キーボード155を用いて、ユーザが類義語リスト900を生成する旨を指示することで、本処理が開始する。
【0027】
処理が開始されると、まず生成装置1の判定部101が、類義語データベース300の最初の基準語を指定する(ステップS501)。すなわち、判定部101は、記憶部110にあらかじめ用意された類義語データベース300にアクセスし、当該類義語データベース300が備える複数の基準語のうち、最初のものを指定する。具体的に図3に示された類義語データベース300の例では、「アース」という最初の基準語が指定される。
【0028】
次に、判定部101は、指定された基準語が文書データ群400の中にあるか否かを判定する(ステップS502)。すなわち、判定部101は、指定された基準語の文字列が、記憶部110に記憶される複数の文書データ401a〜401c等のうち、いずれか1つにでも含まれるか否かを判定する。ここで複数の文書データ401a〜401c等のそれぞれは、上記図4に示されたように、見出し語と説明文とから構成されるものであるが、ここでは基準語が見出し語と説明文とのいずれかにでも含まれれば、その文書データ401に含まれると判定する。
【0029】
指定された基準語が文書データ群400の中にあると判定されると(ステップS502;YES)、次に抽出部102が、当該指定された基準語を抽出する(ステップS503)。すなわち、いずれかの文書データ401中に存在する基準語を、生成する類義語リスト900の基準語として取り出す。
【0030】
ここでさらに、抽出部102は、当該抽出された基準語について文書データ群400の中にある類義語を抽出する(ステップS504)。すなわち、いずれかの文書データ401中に存在すると判定された基準語については、当該基準語に対応付けられた類義語についても同様に、いずれかの文書データ401中に存在するか否かが判定部101によって判定され、存在すると判定された類義語が抽出される。
【0031】
具体的に上記図3の類義語データベース300の例を参照して説明する。まず、最初の基準語「アース」が文書データ群400の中にあると判定されたとすると、当該基準語「アース」が抽出される。そしてさらに、類義語として対応付けられている「地面」と「接地」という2つの語句についても、文書データ群400の中にあるか否かが判定される。ここで例えば、類義語「地面」があると判定され、類義語「接地」はないと判定されると、当該類義語「地面」は抽出され、当該類義語「接地」は抽出されないことになる。
【0032】
図5のフローチャートに戻って、一方、基準語がいずれの文書データ401中にもないと判定されると(ステップS502;NO)、当該基準語は抽出されず、対応する類義語も抽出されない。文書データ群400中に存在しない基準語は、当該文書データ群400を検索対象とする検索には必要がなく、類義語リスト900に搭載する必要がないからである。
【0033】
このように最初の基準語についての処理が終わると、次に判定部101は、類義語データベース300の全ての基準語を処理したか否かを判定する(ステップS505)。未処理の基準語が存在すれば(ステップS505;NO)、判定部101は次の基準語を指定し(ステップS506)、処理はステップS502へと戻る。すなわち、2番目の基準語と対応する類義語について、いずれかの文書データ401中に存在するものを抽出する処理を繰り返す。
【0034】
類義語データベース300が備えるすべての基準語に対してこのような処理が繰り返されることで、複数の文書データ401a〜401c等のいずれかに含まれる基準語と類義語が抽出される。その結果、図6に示されるように、あらかじめ用意された類義語データベース300からは、いずれの文書データ401にも存在しない基準語と類義語が除かれ(本図では横線を重ねて表示)、それ以外の基準語と類義語が抽出されて残ることになる。
【0035】
具体的に本図では、最初の基準語「アース」からは類義語「地面」が抽出される一方で、類義語「接地」が除かれる。また、2番目の基準語「答辞」は、いずれの文書データ401にも存在しないとして、対応する2つの類義語「挨拶」「返答のことば」とともに、抽出されずに除かれる。
【0036】
図5のフローチャートに戻って、このようにいずれかの文書データ401に含まれる基準語と対応する類義語が抽出され、類義語データベース300の全ての基準語が処理されると(ステップS505;YES)、次に設定部103が、抽出された類義語にランクを設定する(ステップS507)。ここで「ランク」とは、後述する検索装置により検索された際、検索語に関連する類義語を出力する優先度の指標を示すものであり、抽出された類義語のそれぞれに対して1つの値のランクが設定される。検索において類義語は、ここで設定されたランクの値の大きい順に出力されることになる。
【0037】
具体的な類義語に対するランク設定処理は、ここから図7のフローチャートを参照し、改めて詳細に説明する。
【0038】
類義語のランク設定処理が開始されると、まず設定部103は、抽出された基準語のうち、最初の基準語を指定する(ステップS701)。上記図6の具体例では、「アース」という最初の基準語が指定される。
【0039】
次に設定部103は、指定された基準語について全ての類義語のランクを0に初期化する(ステップS702)。具体的に、「アース」という最初の基準語が指定されていた場合は、対応する類義語「地面」のランクが0に初期化される。このような初期化を、指定された基準語から複数の類義語が抽出されていた場合は、当該複数の類義語全てについて行う。
【0040】
次に設定部103は、最初の文書データ401を指定し(ステップS703)、当該指定された文書データ401内に指定された基準語があるか否かを判定する(ステップS704)。すなわち設定部103は、記憶部110に記憶された文書データ群400にアクセスし、最初の文書データ401aの見出し語や説明文の中に、基準語の文字列が含まれているか否かを判定する。
【0041】
基準語があると判定された場合(ステップS704;YES)、指定された基準語について最初の類義語を指定する(ステップS705)。上記図6の具体例では、最初に指定された「アース」という基準語に対して、対応する類義語「地面」が指定される。ここで対応する類義語が複数ある場合は、最初の1つが指定される。
【0042】
類義語が指定されると、設定部103は、指定された文書データ401内に指定された類義語があるか否かを判定する(ステップS706)。ここではすなわち、基準語が存在する文書データ401内に、さらに対応する類義語も共存しているか否かが判定される。具体的には図8の例のように、基準語「アース」が存在している文書データ401内に、さらに対応する類義語「地面」も存在しているか否かが判定される。
【0043】
類義語があると判定された場合(ステップS706;YES)、当該指定された類義語のランクを−1する(S707)。すなわち、同一の文書データ401内に基準語と共存している類義語は、当該基準語の検索結果として同一文書データ401内に見つけ出すことができるため、ユーザに優先して出力する必要性が低いと判断され、出力優先度に相当するランクが下げられる。図8の具体例では、文書データ401内の説明文中に基準語「アース」とともに存在する「地面」という類義語のランクは、値が1だけ下げられることになる。
【0044】
一方で、類義語があると判定されなかった場合は(ステップS706;NO)、当該類義語のランクは下げられず、それまでの値から変化しない。すなわち、同一の文書データ401内に基準語と共存していない類義語は、当該基準語の検索とともには見つけ出しにくい語句であるとして、当該基準語が検索された際にユーザへ出力される優先度は下げられず維持される。
【0045】
このように類義語のランクが低減または維持されると、設定部103は、指定された基準語について全ての類義語を処理したか否かを判定する(ステップS708)。未処理の類義語があれば(ステップS708;NO)、設定部103は次の類義語を指定して(ステップS709)、処理はステップS706へと戻る。すなわち、指定された類義語が、同一文書データ401内に基準語と共存する場合には、当該類義語のランクが下げられる。このように、指定された基準語に対応する全ての類義語について、ステップS706〜S707の処理が繰り返され、同一文書データ401内に共存している類義語のランクが下げられる。
【0046】
指定された基準語について全ての類義語の処理がなされると(ステップS708;YES)、次に設定部103は、全ての文書データ401を処理したか否かを判定する(ステップS710)。すなわち、記憶部110に記憶された複数の文書データ401a〜401c等のうち、全ての文書データ401が処理されたか否かが判定される。未処理の文書データ401があると(ステップS710;NO)、設定部103は次の文書データ401を指定して(ステップS711)、処理はステップS704へと戻る。すなわち、次に指定された文書データ401について、その見出し語または説明文中に基準語が存在するかが判定され、存在する場合に、さらに当該文書データ401内に共存している類義語のランクの値を1だけ下げる処理が行われる。
【0047】
ここで、指定された文書データ401内に基準語が存在しない場合は(ステップS704;NO)、当該基準語に対応する類義語についての処理(ステップS705〜S709)は行われず、処理はステップS710にまで移り、次の未処理の文書データ401の処理へと移行する。基準語が存在しない文書データ401には、基準語と類義語が共存することもないため、類義語のランクを下げる必要もないからである。
【0048】
このように文書データ401ごとにランク設定処理が繰り返され、基準語に対応付けられた類義語は、当該基準語と共に存在する文書データ401があるごとにランクの値が1下げられる。その結果、類義語のランクは、基準語と共に存在する文書データ401の個数に相当する値だけ、初期値である0から下げられた値となる。例えば、基準語と共に存在する文書データ401がN個あった場合は、類義語のランクは−Nとなる。
【0049】
指定された基準語について、全ての文書データ401を処理し終えると(ステップS710;YES)、次に設定部103は、全ての基準語を処理したか否かを判定する(ステップS712)。抽出部102によって抽出された基準語のうち、未処理の基準語があれば(ステップS712;NO)、未処理の基準語のうち次の基準語を指定して(ステップS713)、処理はステップS702へと戻る。すなわち、次に指定された基準語について、対応する類義語にランクを設定する処理(ステップS702〜S711)を行う。上記図6の具体例では、最初の基準語「アース」の処理が終わると、次の基準語「試合」が指定され、当該基準語に対応する3つの類義語「勝負」「マッチ」「競争」にランクを設定する処理が行われる。
【0050】
このように、抽出された基準語の全てに対して、それぞれに対応する類義語のランクを設定する処理が繰り返され、その後全ての基準語の処理が終わると(ステップS712)、当該フローチャートでの類義語のランク設定処理は終わる。その後、図5のフローチャートに戻り、生成部104が、抽出された基準語に、ランクが設定された類義語を対応付けて、類義語リスト900を生成し(ステップS508)、生成された類義語リスト900はハードディスク154のような記憶部110に記憶され、本フローチャートの処理は終了する。
【0051】
その結果、生成された類義語リスト900は、図9に示されるように、抽出部102によって抽出された基準語のそれぞれに、ランクとして0以下の整数であるいずれか1つの値が設定された類義語が対応付けられたものとなる。例えば、基準語「アース」の類義語「地面」は、当該基準語と同時に出現する文書データ401の個数が3個であったとして、−3というランクが設定される。また、基準語「試合」の類義語「勝負」「マッチ」「競争」は、当該基準語と同時に出現する文書データ401の個数が、それぞれ1個、0個、4個であったとして、それぞれ−1、0、−4というランクが設定される。
【0052】
以上のような構成により、本実施形態の類義語リスト900の生成装置1は、類義語データベース300に備えられた基準語と対応する類義語から、検索対象の複数の文書データ401a〜401c等のいずれかに存在する基準語と類義語を抽出する。そして、当該抽出された類義語に、基準語とともに出現する文書データ401の個数に応じて下げられた出力優先度を設定した上で、類義語リスト900を生成する。
【0053】
その結果、当該生成された類義語リスト900を用いて検索する際に、所望の検索語に対する類義語をユーザに提示し、ユーザの検索を補助することができるとともに、検索語と同一の文書データ401に存在する類義語の出力優先度を下げることで、ユーザはより多くの種類の文書データ401を優先的に検索することができるようになる。
【0054】
本発明では、上記のような類義語リスト900の生成装置1、およびそれを用いた類義語リスト900の生成方法に加え、当該生成された類義語リスト900を用いて、文書データ群400を検索対象とした検索を行う検索装置、およびそれを用いた検索方法を提供する。
【0055】
ここで検索装置は、通常は上記類義語リスト900の生成装置1とは異なる情報処理装置によって実現される。具体的に本実施形態では、検索装置として、電子辞書等の機能を備える小型の情報処理装置を想定して説明する。すなわち、検索対象である文書データ群400(複数の文書データ401a〜401c等)についての類義語リスト900の生成については、あらかじめ上記図1および図2に示されたような一般的な情報処理装置において行われ、一方で当該生成された類義語リスト900を用いた文書データ群400の検索については、生成装置1とは異なる情報処理装置、すなわち電子辞書等の小型の情報処理装置において実現される。
【0056】
このような検索装置2として、その構成は図10に示されるようなものになる。すなわち検索装置2は、制御部200と、記憶部210と、入力部220と、表示部230と、を備える。一方、当該検索装置2は、物理的には図11に示されるように構成され、CPU251と、ROM252と、RAM253と、キーボード255と、モニタ256と、を備える。以下、図10および図11を参照して、検索装置2の構成要素の説明をする。
【0057】
制御部200は、検索装置2全体の動作を制御し、各構成要素と接続され、制御信号やデータをやりとりする。すなわち、制御部200は、記憶部210、入力部220、表示部230と接続され、これら各部の機能を活用しながら、検索処理を実行する。
【0058】
ここで制御部200は、文書特定部201と、文書出力部202と、基準語判定部203と、類義語出力部204と、を備える。詳細には後述するように、検索装置2は、これらの各部の機能により、文書データ群400(複数の文書データ401a〜401c等)のうちから所望の検索語の文字列(検索文字列)を含む文書データを特定し、さらに類義語リスト900を用いて検索語の類義語もあわせて提示する処理を実行する。
【0059】
このような制御部200(文書特定部201、文書出力部202、基準語判定部203、類義語出力部204)は、例えばCPU251によって構成される。ここでCPU251は、基本的には生成装置1におけるCPU151と同様、命令やデータを転送するための伝送経路であるシステムバスにより各構成要素と相互に接続され、ROM252に記録されている検索装置2全体の動作制御に必要なコンピュータプログラムや各種データに従って動作し、さらにROM252から読み出したコンピュータプログラムやデータ、その他処理の進行に必要なデータを、RAM253に一時的に記憶しながら、各種動作を制御する。このようにCPU251がROM252やRAM253と協働することで、制御部200は、検索装置2全体の動作を制御する。
【0060】
記憶部210は、例えば検索装置2内に備えられたROM252のような読出し専用の記憶媒体によって構成され、制御部200が検索処理に必要な各種データを記憶する。具体的にここでは、検索対象とされる文書データ群400、および類義語リスト900が記憶される。
【0061】
この文書データ群400は、上記生成装置1の記憶部110に記憶された文書データ群400と同一のものであり、また類義語リスト900は、上記生成装置1が、当該文書データ群400から生成した類義語リスト900と同一のものである。
【0062】
入力部220は、例えばキーボード255のような入力装置によって構成され、ユーザからの入力を受け付ける。具体的にここでは、ユーザからの検索語を受け付ける。受け付けられた検索語は、制御部200の文書特定部201と基準語判定部203へと供給され、当該検索語を含む文書データ401を検索する処理および当該検索語に一致する基準語が類義語リスト900内にあるか否かを判定する処理に用いられる。
【0063】
表示部230は、例えばモニタ256のような表示装置によって構成され、制御部200が処理を行った結果をユーザへ表示する。具体的にここでは、ユーザが入力した検索語を含む文書データ401や検索語についての類義語を、モニタ256に出力することで、当該ユーザへと表示する。これにより、ユーザは、自身が入力した検索語を含む文書データ401や類義語を出力結果として取得し、種々に利用することができるようになる。
【0064】
なお、入力部220と表示部230は、タッチパネル等のような入力装置と表示装置が組み合わされた装置によって構成されてもよい。この場合には、タッチパネルに内蔵されたタッチセンサ等からなる位置入力装置が入力部220を、液晶ディスプレイ等からなる表示装置が表示部230を、それぞれ構成する。
【0065】
以上のように構成される検索装置2は、制御部200の制御のもと、検索処理を行う。具体的には、図12のフローチャートに示される手順で処理を実行する。
【0066】
本処理は、ユーザから入力された検索語を、検索装置2の入力部220が受け付けることを契機として、開始される。すなわち、キーボード255を用いて、ユーザが所望の検索語を入力し、検索する旨を指示することで、本処理が開始する。
【0067】
ユーザから検索語が受け付けられ処理が開始されると、まず文書特定部201が、複数の文書データ401a〜401c等のうちから、検索語を含む文書データ401を特定する(ステップS1201)。すなわち、例えばユーザが「試合」という検索語を入力したとすると、文書特定部201は複数の文書データ401a〜401c等に含まれる文字列の検索を行い、当該「試合」という検索語の文字列(検索文字列)を含む文書データ401を特定する。
【0068】
このとき行われる検索は、いわゆる全文検索であり、各文書データ401内の見出し語および説明文の文字列に対して行われる。すなわち、文書データ401内の見出し語か説明文かのいずれかに入力された検索語の文字列が含まれていれば、当該文書データ401が特定される。特定された文書データ401は、RAM253に一時的に保持される。
【0069】
また、このとき行われる検索は、公知の検索技術のいずれによって行われてもよい。すなわち、例えば複数の文書データ401a〜401c等を順次走査して検索文字列を探し出す逐次型の検索(grep型の検索)が用いられてもよいし、あるいは検索処理の高速化のためあらかじめ索引ファイルを用意しておく索引型(インデックス型)の検索が用いられてもよい。また、索引型の検索の場合は、例えばいわゆる形態素解析の手法によって索引ファイルが生成されるものであってもよいし、いわゆるNグラムの手法(N文字インデックス法)によって索引ファイルが生成されるものであってもよい。
【0070】
このようにして検索語が含まれる文書データ401が特定されると、文書出力部202が、特定された文書データ401を出力する(ステップS1202)。すなわち、文書出力部202は、入力された検索語が含まれる文書データ401を、モニタ256のような表示部230に表示することで、ユーザへと出力する。これにより、ユーザは、自身が入力した検索語が、どの文書データ401に含まれているのかを認識することができるようになる。
【0071】
さらに検索装置2では、基準語判定部203が、類義語リスト900を用いて検索語に一致する基準語があるか否かを判定する(ステップS1203)。すなわち、基準語判定部203は、生成装置1によってあらかじめ生成され、記憶部210に記憶されている類義語リスト900にアクセスし、当該類義語リスト900が備える基準語に、入力された検索語に一致するものがあるか否かを判定する。
【0072】
検索語に一致する基準語がないと判定されると(ステップS1203;NO)、ここでは何も処理されず、そのまま検索処理は終了する。すなわち、入力された検索語は、類義語リスト900内に対応する類義語が存在しないため、ここでは類義語が出力されず、上記特定された文書データ401のみ出力されて、検索処理が終了する。
【0073】
一方、検索語に一致する基準語があると判定されると(ステップS1203;YES)、類義語出力部204が、当該一致する基準語に対応する類義語をランク(出力優先度)の高い順に出力し(ステップS1204)、その後検索処理は終了する。すなわち、類義語出力部204は、検索語に一致する基準語について、対応するすべての類義語を類義語リスト900から取得し、あらかじめ類義語ごとに設定されたランクの値に基づいた順序でモニタ256に表示する等によりユーザへ出力する。
【0074】
例えば、ユーザが「試合」という検索語を入力した場合、当該「試合」という検索語を含む文書データ401が、検索結果として出力されるとともに、類義語リスト900内で当該「試合」という基準語に対応付けられた3つの類義語「勝負」「マッチ」「競争」も出力される。その結果、具体的には図13に示されるような出力結果が検索装置2のモニタ256に表示される。すなわち本図のように、「試合」という検索語を含む文書データ401として、「AAA」「BBB」「XXX」「ZZZ」等の文書データ401がモニタ256内の検索結果の欄に表示され、「試合」という基準語に対する類義語として、類義語リスト900内に記憶されている「マッチ」「勝負」「競争」という3つの語句がモニタ256内の推奨検索語の欄に表示される。
【0075】
このとき推奨検索語として表示される3つの類義語は、それぞれのランクの値が比較された上で、当該ランクの高い順に表示される。それぞれの類義語のランクは、当該類義語と検索語とが同時に出現する文書データ401の個数が多いほど小さな値に設定されているため、検索語と同時に出現する文書データ401の個数が少ない順に表示されることになる。具体的には上記図9に示されたように、「勝負」という類義語のランクは−1に、「マッチ」という類義語のランクは0に、「競争」という類義語のランクは−4にそれぞれ設定されているため、図13のモニタ256のように、ランクの高い順に「マッチ」「勝負」「競争」と並べ替えられて出力される。
【0076】
さらにこのとき3つの類義語は、設定されたランクの値が大きいほど大きな文字で表示される。すなわち、ランクが0の「マッチ」という類義語が最も大きな文字で表示され、ランクが−4の「競争」という類義語は最も小さな文字で表示される。これにより、検索語と同時に出現する文書データ401の個数が少ない類義語ほど、推奨検索語としてユーザから確認しやすいように表示されるため、ユーザは効率的に多くの種類の文書データ401を検索することができるようになる。
【0077】
以上のような構成により、本実施形態の検索装置2は、入力された検索語が類義語リスト900のいずれかの基準語と一致している場合、検索語による検索結果とともに、当該一致した基準語に対応付けられた類義語もあわせて出力する。このとき、検索語と同時に出現する文書データ401の個数が少ないほど、高い優先度で類義語を出力する。その結果、ユーザは、効率的に多くの種類の文書データ401を検索することができるようになる。
【0078】
とくに本実施形態のように、検索対象の文書データ401が辞書を構成するものである場合には、意味の類似する複数の語句が同じ文書データ401内に存在する場合が多い。そのため、重複した文書データ401が検索されることになる類義語ユーザへ出力する優先度を下げることで、より多くの種類の文書データ401を検索できるようにするのに効果的である。
【0079】
なお、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。
【0080】
例えば、上記実施形態では、検索装置2は、ROM252のような記憶部210内に文書データ群400等を記憶した。しかしこれに限られず、検索装置2は、ハードディスク等の大容量記憶装置やDVD−ROMドライブを備え、文書データ群400等がハードディスクやDVD−ROM等に記憶されるようにしてもよい。あるいは、検索装置2は、ネットワークに接続され、文書データ群400等がネットワーク上に存在するようにしてもよい。
【0081】
また、上記実施形態では、検索装置2は、ユーザが検索語を入力する入力部220や検索結果を表示する表示部230は、制御部200や記憶部210と同一の装置内に存在した。しかしこれに限られず、入力部220と表示部230は、検索装置2の外部にあってもよい。すなわち、例えば図14に示すように、検索装置2は入力部220と表示部230を備えず、これらを備える端末装置3とネットワーク150を介して接続されるようにし、オンライン型の電子辞書のような情報機器として構成するようにしてもよい。
【0082】
このとき、検索装置2と端末装置3は、それぞれが備える通信部240a,240bにより、ネットワーク150を介して互いにデータを通信しあう。すなわち、端末装置3のユーザが入力した検索語は、検索装置2へと送信され、制御部200により検索処理が実行される。その後、検索結果としての文書データ401と類義語の情報が再び端末装置3へと送信され、端末装置3のユーザへと出力される。このような構成をとることで、検索装置2内の文書データ群400等を一括して管理して複数のユーザに利用できるようになり、またユーザ側の端末装置3は、文書データ群400等を保持する必要がないため、データサイズを抑えることができるといった利点がある。
【0083】
また、上記実施形態では、検索装置2として電子辞書のような小型の情報処理装置を想定して説明した。しかしこれに限られず、検索装置2は、ビジネス用・家庭用の一般的なコンピュータ装置や、携帯電話等の他の情報機器であってもよい。また、電子辞書における検索に限られず、種々の電子データを検索するものであってもよい。例えば、一般的なコンピュータ装置において、ハードディスク等の大容量記憶装置やDVD−ROM等に記憶された電子ファイルのうちから、所望の検索語を含む電子ファイルを検索するものであってもよい。あるいは、ネットワークと接続され、ネットワーク上に存在するウェブページを検索するものであってもよい。
【0084】
また、生成装置1について、上記実施形態での生成装置1は、ハードディスク154のような記憶部110に記憶されている類義語データベース300および文書データ群400から類義語リスト900を生成し、当該生成された類義語リスト900を記憶部110に記憶した。しかし、これら類義語データベース300や文書データ群400は、生成装置1内に備えられた記憶部110に記憶されることに限られず、通信部140を介して接続されるネットワーク150上に存在していてもよいし、あるいはDVD−ROMドライブ157に搭載されるDVD−ROM内に記憶されていてもよい。
【0085】
また、上記実施形態では、文書データ群400を構成する複数の文書データ401は、「見出し語」と「説明文」とから構成された。しかしこれらに限られず、様々な要素から構成されてもよい。例えば、「見出し語」を説明するための図や表を有するものであってもよい。あるいは、辞書における検索以外の一般的な電子ファイル等の検索では、このような「見出し語」と「説明文」といった構成要素に限らず、文書データ401は様々な形式で文字列データを有していてもよい。
【0086】
また、上記実施形態での類義語リスト900の生成装置1は、類義語と対応する基準語をともに含む文書データ401の個数に基づいて、その類義語の出力優先度を設定した。すなわち、1つの文書データ401内に、類義語と対応する基準語が少なくとも1つずつ含まれていれば、当該類義語のランク(出力優先度)は、一様に値が1だけ下げられた。しかしこれに限られず、類義語と対応する基準語のうちの少なくとも一方の種々の出現態様に基づいて、様々にランクを設定するようにしてもよい。
【0087】
例えば、類義語が単独で出現する文書データ401の個数や頻度が多いほど、当該類義語のランクを上げてもよい。基準語の検索では特定できなかった文書データ401をより多く特定でき、またその中でも出現頻度の多い類義語は、ユーザの検索意図に沿うものである可能性が高いからである。
【0088】
あるいはまた、類義語の文書データ401中での出現位置に応じて、当該類義語に設定されるランクを変動させてもよい。例えば、文書データ401の先頭に近い位置に出現することの多い類義語ほど、ランクを高く設定し、出力優先度を上げるようにしてもよい。さらに、基準語に近い位置に出現する類義語ほど、基準語に意味が類似する度合いが高いものと推測し、ランクを高く設定して出力優先度を上げるようにしてもよい。
【0089】
また、上記実施形態では、文書データ401内の「見出し語」と「説明文」とに区別をつけず、いずれかに基準語と対応する類義語が含まれていれば、その類義語のランクの値を一様に下げた。しかしこれに限られず、「見出し語」と「説明文」とを区別してもよい。例えば、基準語が「見出し語」に含まれ、かつ類義語が「説明文」に含まれる場合や、類義語が「見出し語」に含まれ、かつ基準語が「説明文」に含まれる場合等に応じて、当該類義語のランクの値を変動させてもよい。
【0090】
また、上記実施形態での検索装置2は、設定されたランクが高いほど文字の大きさを大きくして類義語を出力した。しかしこれに限られず、設定されたランクに基づいて、種々に態様を変化させて類義語を出力してもよい。例えば、設定されたランクが高いほど視認しやすい色で類義語を表示するようにしてもよい。あるいは、設定されたランクが高いほど類義語を表示する明度を高くする等によって強調して表示するようにしてもよい。これにより、ランクの高い類義語ほどユーザから確認しやすいように表示されるため、ユーザは当該ランクの高い類義語に基づく効率的な検索ができるようになる。
【0091】
また、上記実施形態での検索装置2は、類義語リスト900内の基準語のうち、入力された検索語に一致する基準語についての類義語を出力した。しかし、基準語と検索語とが完全に一致することに限られず、検索語に含まれる基準語についても、類義語を出力するようにしてもよい。例えば、検索語として「特許権」という文字列が入力された場合、これに包含される基準語「特許」についての類義語も出力されるようにしてもよい。これにより、検索語そのものだけでなく、検索語に含まれる語句にも対応でき、様々に入力される検索語に対して、柔軟に類義語を出力できるようになる。
【0092】
さらにこのとき、検索語の文字列のうち、類義語を出力する文字列をユーザが指定できるようにしてもよい。すなわち、検索語に包含されるすべての基準語についての類義語を出力するのではなく、検索装置2は、ユーザから指定された文字列に一致する基準語についてのみ、類義語を出力する。具体的に説明すると、例えば、入力された検索語が「世界で最大の島」という文字列であった場合、類義語リスト900内に「世界」「最大」「島」という基準語が登録されているとすると、検索文字列に包含されるこれら3つの基準語すべてについての類義語が出力されると、出力される類義語の数が多くなりすぎてしまう事態が想定される。そのため、ユーザが指定した文字列のみについて類義語を出力するようにすることで、出力が煩雑になりすぎることを防ぐことができるようになる。
【0093】
あるいは、検索装置2は、あらかじめ出力する類義語の個数に上限値を設けておき、設定されたランクの高い順に上限値に達するまでの個数のみを出力するようにしてもよい。これにより、入力された検索語に一致または含まれる基準語に対応付けられた類義語の個数が多いことにより出力が煩雑になるといった状況を防ぐことができる。
【0094】
なお、本発明に係る機能を実現するための構成を予め備えた類義語リストの生成装置および当該類義語リストを用いた検索装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る生成装置および検索装置として機能させることもできる。すなわち、上記実施形態で例示した生成装置1および検索装置2による各機能構成を実現させるための生成プログラムまたは検索プログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、それぞれ本発明に係る生成装置1および検索装置2として機能させることができる。また、本発明に係る類義語リストの生成方法および当該類義語リストを用いた検索方法は、それぞれ生成装置1および検索装置2を用いて実施できる。
【0095】
また、このようなプログラムの適用方法は任意であり、例えば、CD−ROMやDVD−ROM、メモリカードなどのコンピュータ読み取り可能な記憶媒体に格納して適用できる他、例えば、インターネットなどの通信媒体を介して適用することもできる。
【0096】
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
【0097】
(付記1)
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定ステップと、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出ステップと、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定ステップと、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成ステップと、
を備えることを特徴とする類義語リストの生成方法。
【0098】
(付記2)
前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数に基づいて、出力優先度を設定する、
ことを特徴とする付記1に記載の類義語リストの生成方法。
【0099】
(付記3)
前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数が少ないほど、出力優先度を高く設定する、
ことを特徴とする付記1または2に記載の類義語リストの生成方法。
【0100】
(付記4)
付記1から3のいずれか1つに記載の生成方法によって生成された類義語リストを用いる検索方法であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定ステップと、
前記特定された文書データを出力する文書出力ステップと、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定ステップと、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力ステップと、
を備えることを特徴とする検索方法。
【0101】
(付記5)
前記基準語判定ステップでは、前記類義語リストが有する基準語のそれぞれについて、前記検索文字列のうち、ユーザが指定した文字列に含まれるか否かを判定し、
前記類義語出力ステップでは、前記ユーザが指定した文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する、
ことを特徴とする付記4に記載の検索方法。
【0102】
(付記6)
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段と、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段と、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段と、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段と、
を備えることを特徴とする類義語リストの生成装置。
【0103】
(付記7)
付記1から3のいずれか1つに記載の生成方法によって生成された類義語リストを用いる検索装置であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段と、
前記特定された文書データを出力する文書出力手段と、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段と、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段と、
を備えることを特徴とする検索装置。
【0104】
(付記8)
コンピュータを、
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段、
として機能させることを特徴とするコンピュータプログラム。
【0105】
(付記9)
コンピュータを、
付記1から3のいずれか1つに記載の生成方法によって生成された類義語リストを用いる検索装置として機能させるコンピュータプログラムであって、
前記コンピュータを、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段、
前記特定された文書データを出力する文書出力手段、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段、
として機能させることを特徴とするコンピュータプログラム。
【符号の説明】
【0106】
1…生成装置、2…検索装置、3…端末装置、100…制御部、101…判定部、102…抽出部、103…設定部、104…生成部、110…記憶部、120…入力部、130…出力部、140…通信部、150…ネットワーク、151…CPU、152…ROM、153…RAM、154…ハードディスク、155…キーボード、156…モニタ、157…DVD−ROMドライブ、158…通信装置、200…制御部、201…文書特定部、202…文書出力部、203…基準語判定部、204…類義語出力部、210…記憶部、220…入力部、230…表示部、240a,240b…通信部、251…CPU、252…ROM、253…RAM、255…キーボード、256…モニタ、300…類義語データベース、400…文書データ群、401a,401b,401c…文書データ、900…類義語リスト
【特許請求の範囲】
【請求項1】
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定ステップと、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出ステップと、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定ステップと、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成ステップと、
を備えることを特徴とする類義語リストの生成方法。
【請求項2】
前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数に基づいて、出力優先度を設定する、
ことを特徴とする請求項1に記載の類義語リストの生成方法。
【請求項3】
前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数が少ないほど、出力優先度を高く設定する、
ことを特徴とする請求項1または2に記載の類義語リストの生成方法。
【請求項4】
請求項1から3のいずれか1項に記載の生成方法によって生成された類義語リストを用いる検索方法であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定ステップと、
前記特定された文書データを出力する文書出力ステップと、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定ステップと、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力ステップと、
を備えることを特徴とする検索方法。
【請求項5】
前記基準語判定ステップでは、前記類義語リストが有する基準語のそれぞれについて、前記検索文字列のうち、ユーザが指定した文字列に含まれるか否かを判定し、
前記類義語出力ステップでは、前記ユーザが指定した文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する、
ことを特徴とする請求項4に記載の検索方法。
【請求項6】
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段と、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段と、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段と、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段と、
を備えることを特徴とする類義語リストの生成装置。
【請求項7】
請求項1から3のいずれか1項に記載の生成方法によって生成された類義語リストを用いる検索装置であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段と、
前記特定された文書データを出力する文書出力手段と、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段と、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段と、
を備えることを特徴とする検索装置。
【請求項8】
コンピュータを、
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段、
として機能させることを特徴とするコンピュータプログラム。
【請求項9】
コンピュータを、
請求項1から3のいずれか1項に記載の生成方法によって生成された類義語リストを用いる検索装置として機能させるコンピュータプログラムであって、
前記コンピュータを、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段、
前記特定された文書データを出力する文書出力手段、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段、
として機能させることを特徴とするコンピュータプログラム。
【請求項1】
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定ステップと、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出ステップと、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定ステップと、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成ステップと、
を備えることを特徴とする類義語リストの生成方法。
【請求項2】
前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数に基づいて、出力優先度を設定する、
ことを特徴とする請求項1に記載の類義語リストの生成方法。
【請求項3】
前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数が少ないほど、出力優先度を高く設定する、
ことを特徴とする請求項1または2に記載の類義語リストの生成方法。
【請求項4】
請求項1から3のいずれか1項に記載の生成方法によって生成された類義語リストを用いる検索方法であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定ステップと、
前記特定された文書データを出力する文書出力ステップと、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定ステップと、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力ステップと、
を備えることを特徴とする検索方法。
【請求項5】
前記基準語判定ステップでは、前記類義語リストが有する基準語のそれぞれについて、前記検索文字列のうち、ユーザが指定した文字列に含まれるか否かを判定し、
前記類義語出力ステップでは、前記ユーザが指定した文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する、
ことを特徴とする請求項4に記載の検索方法。
【請求項6】
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段と、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段と、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段と、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段と、
を備えることを特徴とする類義語リストの生成装置。
【請求項7】
請求項1から3のいずれか1項に記載の生成方法によって生成された類義語リストを用いる検索装置であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段と、
前記特定された文書データを出力する文書出力手段と、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段と、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段と、
を備えることを特徴とする検索装置。
【請求項8】
コンピュータを、
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段、
として機能させることを特徴とするコンピュータプログラム。
【請求項9】
コンピュータを、
請求項1から3のいずれか1項に記載の生成方法によって生成された類義語リストを用いる検索装置として機能させるコンピュータプログラムであって、
前記コンピュータを、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段、
前記特定された文書データを出力する文書出力手段、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段、
として機能させることを特徴とするコンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2012−203569(P2012−203569A)
【公開日】平成24年10月22日(2012.10.22)
【国際特許分類】
【出願番号】特願2011−66511(P2011−66511)
【出願日】平成23年3月24日(2011.3.24)
【出願人】(000001443)カシオ計算機株式会社 (8,748)
【Fターム(参考)】
【公開日】平成24年10月22日(2012.10.22)
【国際特許分類】
【出願日】平成23年3月24日(2011.3.24)
【出願人】(000001443)カシオ計算機株式会社 (8,748)
【Fターム(参考)】
[ Back to top ]