説明

文書検索方法および文書検索装置

【課題】必要なメモリ量を抑えつつキーワードを漏れなく抽出することができ、全文検索も高速で漏れなく処理することができる文書検索方法および文書検索装置を提供せんとする。
【解決手段】文書データをIDを付して文書データ記憶部11aに記憶する文書記憶処理部10aと、文書データからキーワードを切り出して抽出するキーワード抽出部10bと、キーワードをキーワード記憶テーブル11bの所定数のレコードにそれぞれ一文字づつずらして格納するキーワード記憶処理部10cと、文字列IDと文書IDとを関連付けて記憶する関連ID記憶処理部10dと、検索語記憶処理部10eと、検索語記憶テーブルの各レコードの文字列と合致した文字列IDを抽出する文字列ID抽出部10fと、文書ID特定部10gと、特定された同一文書IDの数が当該検索語のレコード数以上の場合にヒットしたと判定するヒット判定部10hと、文書出力処理部10iとを備えた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツに関連する検索対象文書をキーワードを付けて保存し、そのキーワードに合致する検索語の入力によって対応する文書、コンテンツを検索する技術に係り、とくに文書の全文検索に好適な文書検索技術に関する。
【背景技術】
【0002】
この種の文書検索技術としては、キーワードを抽出する対象文書中のテキストを形態素解析する解析手段と、その解析手段による解析の中間結果と、最終的な結果を記憶する解析結果記憶手段と、キーワードを決定するための条件を記憶する条件記憶手段と、解析手段により得られた解析の中間結果および最終結果から条件記憶手段の保持する条件を満たすものをキーワードとして抽出するキーワード抽出手段とを備えたキーワード抽出装置が提案されている(例えば、特許文献1参照。)。
【0003】
このようなキーワード抽出装置によれば、従来の技術では、キーワードの抽出において制限が多く、検索に有用なキーワードを漏れなく抽出することが困難であったのに対し、検索式に指定される可能性のあるキーワードを登録時に漏れなく抽出することができるようになり、全文検索も可能になるといったメリットがある。
【0004】
しかしながら、このように可能性のあるキーワードを漏れなく抽出するためには単語辞書や文法辞書などの大規模なデータが必要であるとともに、システムを動作させるのに必要なメモリ量が増大すると共に、処理速度が遅くなる。これはキーワードの登録時のみならず、検索時にも同様の問題が生じることとなる。
【0005】
これに対し、検索時の高速化を図ったものとして、検索対象の文書中の文字列が出現する位置を対応づけるインデックステーブルを生成し、それも基に検索タームを含む文書を検索する全文検索方式が提案されている(非特許文献1参照。)。これによれば、多くの可能性のあるキーワードを予め辞書等を用いて抽出、登録する処理が省ける。しかしながら、これは検索対象文書中の文字すべての位置を予め登録するものであり、重複するキーワードもすべて別個のものとして登録されることから分かるように必要なメモリ量が多くなり、効率的でない。
【0006】
【特許文献1】特開平9−44522号公報
【非特許文献1】株式会社日立製作所、高速全文検索エンジン「Bibliotheca2 TextSearch」、[online]、HITACHIホーム Computer & Network System Site Global Sites of related products、[平成18年4月5日検索]、インターネット(URL:http://www.hitachi.co.jp/Prod/comp/soft1/textsearch/product/component/bib2/ngram.html)
【発明の開示】
【発明が解決しようとする課題】
【0007】
そこで、本発明が前述の状況に鑑み、解決しようとするところは、必要なメモリ量を抑えつつキーワードを漏れなく抽出することができ、全文検索も高速で漏れなく処理することができる文書検索方法および文書検索装置を提供する点にある。
【課題を解決するための手段】
【0008】
本発明は、前述の課題解決のために、コンピュータからなる文書検索装置が、入力された検索対象となる文書データを、IDを付して文書データ記憶部に記憶する手順と、前記文書データ記憶部に記憶される文書データから、複数の連続した文字列からなるキーワードを切り出して抽出する手順と、抽出した各キーワードを、一文字づつ格納される一定数のカラムを有したレコードからなるキーワード記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する手順と、前記キーワード記憶テーブルの各レコードに記憶された文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けてID参照テーブルに記憶する手順と、入力された検索語を、前記キーワード記憶テーブルの各レコードと同数のカラムを有したレコードからなる検索語記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する手順と、検索語記憶テーブルの各カラム毎に、キーワード記憶テーブルの同一カラムを参照することにより、検索語記憶テーブルの各レコードの文字列とキーワード記憶テーブルの各レコードの文字列とが合致するか否か判定し、合致した文字列のIDを抽出する手順と、抽出した文字列のIDに基づき、前記ID参照テーブルを参照し、対応する文書IDを特定する手順と、特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものとして出力する手順と、を備えていることを特徴とする文書検索方法を提供する。
【0009】
また、本発明は、コンピュータからなる文書検索装置であって、文書データを入力する文書入力手段と、前記文書入力手段により入力された検索対象となる文書データをIDを付して記憶する文書記憶手段と、前記文書記憶手段に記憶される文書データから、複数の連続した文字列からなるキーワードを切り出して抽出するキーワード抽出手段と、前記キーワード抽出手段により抽出された各キーワードを、一文字づつ格納される一定数のカラムを有したレコードからなるキーワード記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納するキーワード記憶手段と、前記キーワード記憶テーブルの各レコードに記憶された文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けてID参照テーブルに記憶する関連ID記憶手段と、検索語を入力する検索語入力手段と、前記検索語入力手段により入力された検索語を、前記キーワード記憶テーブルの各レコードと同数のカラムを有したレコードからなる検索語記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する検索語記憶手段と、検索語記憶テーブルの各カラム毎に、キーワード記憶テーブルの同一カラムを参照することにより、検索語記憶テーブルの各レコードの文字列とキーワード記憶テーブルの各レコードの文字列とが合致するか否か判定し、合致した文字列IDを抽出する文字列抽出手段と、前記文字列抽出手段により抽出されたIDに基づき、前記ID参照テーブルを参照し、対応する文書IDを特定する文書特定手段と、特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものと判定するヒット判定手段と、前記ヒット判定手段により判定された文書を出力する文書出力手段と、よりなることを特徴とする文書検索装置をも提供する。
【0010】
ここで、キーワード記憶テーブルに格納される各キーワードのレコード数、および検索語記憶テーブルに格納される各検索語のレコード数は、それぞれ各キーワードの文字数、各検索語の文字数とされる。
【0011】
また、各キーワードをレコードに格納する際、および各検索語をレコードに格納する際には、中央部のカラムに先頭の文字を格納したレコードから順に、先頭文字を一つ前のカラムに格納したレコードがそれぞれ作成される。
【0012】
さらに、キーワード記憶テーブル、および検索語記憶テーブルにおける前記カラムの数は、5〜9に設定される。
【発明の効果】
【0013】
以上にしてなる本願発明によれば、抽出した各キーワードを所定数のレコードにそれぞれ一文字づつずらして格納することで、長い文字列も短い文字列でも容易かつ確実に登録でき、入力される検索語も同様にして一文字づつずらし、各カラム毎に、キーワード記憶テーブルの同一カラムを参照するので、漏れなく高速に検索できる。
【0014】
さらに、特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものとして出力するので、入力された検索語に完全一致したキーワードを含むものが選定され、検索精度が非常に高くなる。
【0015】
また、文書中の文字すべてを登録する必要がなく、登録済みのキーワードは重複登録を排除でき、効率よくキーワードを登録でき、メモリ量を少なく抑えつつ、大量の文書データから任意の検索語を条件に全文検索することが可能となる。
【0016】
また、キーワード記憶テーブルに格納される各キーワードのレコード数、および検索語記憶テーブルに格納される各検索語のレコード数を、それぞれ各キーワードの文字数、各検索語の文字数としたので、必要最小限のレコードの登録でキーワードの一部に含まれる検索語の場合も精度よく検索できる。
【0017】
また、各キーワードをレコードに格納する際、および各検索語をレコードに格納する際には、中央部のカラムに先頭の文字を格納したレコードから順に、先頭文字を一つ前のカラムに格納したレコードがそれぞれ作成したので、先頭文字のカラムから効率よくキーワードの検索を行うことができる。
【0018】
また、キーワード記憶テーブル、および検索語記憶テーブルにおける前記カラムの数は、5〜9に設定したので、通常用いられる検索語を無理なくカバーでき、登録されるレコード数の増大を防止できる。
【発明を実施するための最良の形態】
【0019】
次に、本発明の実施形態を添付図面に基づき詳細に説明する。図1は、本発明に係る文書検索装置の構成を示す説明図であり、図1〜11は代表的実施形態を示している。
【0020】
本発明の文書検索装置1は、図1に示すように、処理装置10を中心に、記憶装置11、入力手段12、出力手段13が接続されたコンピュータであり、前記処理装置10は、マイクロプロセッサを主体に構成され、図示しないRAM、ROMからなる記憶部を有して各種処理動作の手順を規定するプログラムや処理データが記憶される。
【0021】
前記処理装置10は、機能的には、文書中のキーワードを管理する処理機能と検索を行う処理機能とを備え、具体的には、以下のような各処理機能を備えている。
【0022】
文書/キーワードの管理機能として、文書入力手段により入力された検索対象となる電子的な文書データをIDを付して文書データ記憶部11aに記憶する文書記憶処理部10aと、文書データ記憶部11aに記憶される文書データから、複数の連続した文字列からなるキーワードを切り出して抽出するキーワード抽出部10bと、抽出された各キーワードをキーワード記憶テーブル11bの所定数のレコードにそれぞれ一文字づつずらして格納するキーワード記憶処理部10cと、キーワード記憶テーブル11bの各レコードに記憶された文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けてID参照テーブル11cに記憶する関連ID記憶処理部10dとを備える。
【0023】
また、検索時の処理機能として、入力手段12により入力された検索語を検索語記憶テーブル11dの所定数のレコードにそれぞれ一文字づつずらして格納する検索語記憶処理部10eと、検索語記憶テーブル11dの各カラム毎に、キーワード記憶テーブル11bの同一カラムを参照することにより検索語記憶テーブルの各レコードの文字列とキーワード記憶テーブルの各レコードの文字列とが合致するか否か判定し、合致した文字列IDを抽出する文字列ID抽出部10fと、抽出されたIDに基づき、ID参照テーブル11cを参照して文書IDを特定する文書ID特定部10gと、特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものと判定するヒット判定部10hと、ヒット判定された文書を出力手段13に出力する文書出力処理部10iとを備えている。これら処理装置10の各機能は上記プログラムにより実現される。
【0024】
記憶装置11は、文書入力手段により入力された検索対象となる文書データをIDを付して記憶する文書データ記憶部11aと、一文字づつ格納される一定数のカラムを有したレコードからなり、キーワード抽出部10bにより抽出された各キーワードを所定数のレコードにそれぞれ一文字づつずらして格納するキーワード記憶テーブル11bと、キーワード記憶テーブル11bの各レコードに記憶される文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けて記憶するID参照テーブル11cと、キーワード記憶テーブル11bの各レコードと同数のカラムを有したレコードからなり、検索語入力手段により入力された検索語を所定数のレコードにそれぞれ一文字づつずらして格納する検索語記憶テーブル11dとを備えており、リレーショナルデータベースが構築されている。
【0025】
本例では、検索されるべきコンテンツを登録する際、当該コンテンツの名称やタイトル、その説明文、リンク集のタイトル、その説明文などを検索対象の文書とし、各文書データをその帰属するコンテンツを示す同一のID(文書ID)を付して文書データ記憶部11aに管理される。その他、各コンテンツのデータ自体もここで管理される。
【0026】
キーワード記憶テーブル11bは、たとえば図2に示すように、一文字づつ格納される一定数のカラムを有したレコードからなり、カラム数は5〜9、より好ましくは本例のように7つに設定されている。そして、分節や単語に区切られたキーワードを1単位あたり7文字を上限に1セットで文字列を生成し、最初のレコードは中心位置にあたるw4のカラムに先頭文字を格納し、順次先頭文字を1カラムずつ左にずらして格納したレコードが作成される。
【0027】
ID参照テーブル11cは、図3に示すように登録した文書IDと該文書中のキーワードを各レコードに一文字ずつずらして登録された各文字列IDとを関連付けたテーブルであり、検索の際には、特定された文字列IDに基づいてこのID参照テーブル11cを参照し、文書が特定される。
【0028】
入力手段12は、登録される文書を含むコンテンツデータの入力や、ユーザによる検索語の入力を司るインタフェースであり、コンテンツデータはインターネット上のWebサイトなどからダウンロードする等して入力され、検索語はキーボード等で入力できるもの以外に、インターネットや専用回線などのネットワークを通じて接続される他のコンピュータから入力できる検索画面などが好ましい。また、出力手段13は、ユーザに対してヒットの有無、ヒットしたコンテンツを表示する表示画面や、上記ネットワークを通じてアクセスしているコンピュータに対して結果データを送信するものである。
【0029】
次に、図4のフロー図に基づき、コンテンツに含まれる検索対象文書から検索用キーワードを抽出して登録する手順を説明する。
【0030】
まず、文書記憶処理部10aにより、コンテンツのうち検索対象となる文書データがIDを付されて文書データ記憶部11aに記憶される(S101)。この文書IDは、後述するキーワードの文字列IDと関連づけてコンテンツテーブルに登録されるものである。コンテンツの全データは、別途図示しないコンテンツ記憶部に記憶される。
【0031】
この文書データを記憶する際に、キーワード抽出部10bにより、テキストからなる当該文書データが所定の法まりに則って単語/分節ごとに分解され、複数のキーワードが切り出し抽出される(S102)。本例では、全文検索を可能とするべく、検索対象の文書データの文字すべてがキーワードとして抽出されるが、すべてを抽出せずに選択的にキーワードを抽出するようにしてもよい。文書データを切り出す法則については、従来から公知のものとして、たとえば解析辞書等を参照して単語の組合せを解析し、同じ文字種の連続であれば分解せず、異なれば分解するといった法則などを利用できる。
【0032】
次に、キーワード記憶処理部10cにより、抽出された各キーワードがキーワード記憶テーブルに登録される(S103)。
【0033】
たとえば、3つのコンテンツ「c001」、「c002」、「c003」の文書が文書データ記憶部11aに登録され、コンテンツ「c001」の文書に「ホウ酸が」と「田んぼができるまで」のキーワードが含まれ、コンテンツ「c002」の文書に「微生物」と「バクテリア」のキーワードが含まれ、コンテンツ「c003」の文書に「長時間使わないとき」のキーワードが含まれており、それぞれキーワード抽出部10bによりキーワードとして抽出されたとする。
【0034】
抽出された各キーワードは、図2に示すように、一文字づつ格納されるカラムw1〜w7を有したレコードを複数備えたキーワード記憶テーブル11bに対し、それぞれ一文字づつずらして格納される。本例では、先頭文字をカラムw4に格納したレコードから、順に先頭文字を前のカラムにずれして格納したレコードに格納し、w4に最後尾の文字が格納されるまで、すなわち文字数分のレコードに一文字ずつずらしながら格納されるのである。そして、各レコードの文字列にはユニークなIDが付与される。
【0035】
たとえば、キーワード「ホウ酸が」は「w00011」〜「w0014」までの4つのレコードに一文字ずつカラムがずれた文字列が登録され、他のキーワードも同様に登録される。文字列はずらして格納するため、7文字を超える長いキーワード、たとえば「田んぼができるまで」や「長時間使わないとき」のキーワードも問題なく各レコードに格納できる。
【0036】
なお、この登録の際、同一の位置(w1〜w7)に同一文字が格納された同値レコードがすでに登録されている場合には、そのIDをID参照テーブル11cに登録して、当該キーワードについては登録を行わない。これにより、同じキーワードを使用する文章において、キーワードの再利用が可能となるため、キーワード記憶テーブルの容量増加が防止されている。
【0037】
レコードへの格納の仕方はこのように中央部のカラムw4に先頭の文字を格納したレコードから順に、先頭文字を一つ前のカラムに格納したレコードをそれぞれ作成してなる方法に限定されず、他の方法でもよいが、本例のように格納することでキーワードが整備され、検索も効率よく行うことができる。
【0038】
次に、キーワード記憶テーブル11bの各レコードに記憶された文字列のIDと、当該キーワードを含む文書IDとが、互いに関連付けられてID参照テーブル11cに記憶される(S104)。図3は、ID参照テーブルの例を示しており、文書ID「c001」に対して、「ホウ酸が」の文字列ID「w00011」〜「w00014」と、「田んぼができるまで」の文字列ID「w00021」〜「w00029」がそれぞれ関連付けて登録され、同様に文書ID「c002」に対して、「微生物」の文字列ID「w00051」〜「w00053」と「バクテリア」の文字列ID「w00061」〜「w00065」がそれぞれ関連付けて登録され、文書ID「c003」に対して、「長時間使わないとき」の文字列ID「w00101」〜「w00109」が関連付けて登録されている。
【0039】
このように、キーワード記憶テーブル11bに登録された文字列IDは、文書IDと結びつけてID参照テーブル11cに格納され、このテーブルは、単に追記が行われるのみでコンテンツの変更等により文章が削除/変更されるときは、該当する文書IDのレコードが削除された後、変更の場合は新たに追加されることとなる。
【0040】
次に、図5のフロー図に基づき、検索の手順を説明する。
【0041】
まずユーザにより、任意の検索語が入力される(S201)。たとえば「ホウ酸が」が入力されたとする。入力された検索語は、キーワード登録時と同様の方法により、複数の検索語に切り分けられ、各検索語が上述したキーワード記憶テーブル11bへのキーワードの格納とまったく同様に、一文字づつ格納されるカラムw1〜w7を有したレコードを複数備えた検索語記憶テーブル11dに対し、先頭文字をカラムw4に格納したレコードから、順に先頭文字を前のカラムにずらして格納したレコードに格納し、w4に最後尾の文字が格納されるまで、すなわち文字数分のレコードに一文字ずつずらしながら格納される(S202)。
【0042】
図6は検索語「ホウ酸が」を格納した検索語記憶テーブル11dの例を示し、各レコードには「k01」〜「k04」のIDが付されている。そして、図7に示すように、各レコードについて、文字が入っているカラム(wX)ごとにキーワード記憶テーブル11bを参照し、文字が入っているすべてのカラムの文字が合致した文字列IDを抽出する(S203)。本例では、図2から分かるように、「w00011」〜「w00014」が抽出される。
【0043】
次に、抽出された文字列のIDを用いて、図3に示すID参照テーブル11cを参照し、対応するそれぞれの文書IDが取得される(S204)。そして、特定された文書IDのうち、同一の文書IDの数と、検索語記憶テーブルに格納される当該検索語の所定のレコード数(検索語の文字数)とを対比し、同一文書IDの数が前記レコード数以上の場合に、当該IDの文書をヒットしたものと判断し(S205)、当該文書が属するコンテンツをヒットしたものとして検索結果を出力する(S206)。
【0044】
本例では、図8に示すように、「w00011」〜「w00014」の各文字列IDに対応する文書IDとして4つの同じ「c001」IDが取得され、同一の文書IDの数「4」が当該検索語のレコードk01〜k04の数「4」と一致することから、ID「c001」の文書がヒットしたものとして、当該文書を含むコンテンツが出力される。
【0045】
以下、その他の検索語で検索する場合を説明する。まず、キーワード記憶テーブルに記憶されているキーワード「ホウ酸が」と一文字異なる「ホウ酸は」で検索する場合、図9に示すように、この検索語「ホウ酸は」を格納した検索語記憶テーブルが作成される。そして、S203においてキーワード記憶テーブルを参照してすべての文字カラムが一致する文字列IDを抽出するのであるが、本例では、k01はw00011とw4〜w6まで一致するものの、w7が不一致となり、同様にk02はw6が不一致、k03はw5が不一致、k04はw4が不一致となり、文字列IDは抽出されない。この場合、S204においても文書IDは取得できず、S205ではヒットなしと判定され、該当するコンテンツも登録がないとしてその旨の結果が出力される。
【0046】
同様に、キーワード「長時間使わないとき」と一部が異なる「長時間使わずに」で検索する場合を説明する。検索語記憶処理部10eにより、図10(a)に示すように検索語記憶テーブルが作成される。本例では、k01はw00101とw4〜w7までのすべてのカラムで一致し、k02もw00102とw3〜w7まですべてのカラムが一致する。しかし、k03はw00103とw7が不一致であり、同様にk04はw6とw7が不一致、k05はw5とw6が不一致、k06はw4とw5が不一致、k07はw3とw4で不一致となり、結局、S203において文字列ID「w00101」,「w00102」の二つが抽出される。
【0047】
これによりS204では図10(b)に示す2つの同一文書ID「c003」が取得されるが、その数は検索語のレコード数7に満たないため、S205ではヒットなしと判定され、その旨が出力される。このように、キーワードと異なる文字を含む検索語の場合、登録されている文字列が存在してもヒットしないものと正確に判断できるのである。
【0048】
次に、キーワード「ホウ酸が」に対して一文字足りない「ホウ酸」で検索する場合、検索語記憶テーブル11dは、図11(a)に示すようになる。k01のレコードのうち文字が入っているカラムw4〜w6は、それぞれ文字列ID「w00011」のカラムw4〜w6の文字とすべて一致し、同様にk02は「w00012」,k03は「w00013」と一致し、「w00011」〜「w00013」の3つの文字列IDが抽出される。これによりS204では図11(b)に示す3つの同一文書ID「c001」が取得され、検索語のレコード数に一致するためS205でヒットしたと判定される。そして、文書「c001」に対応するコンテンツがヒットしたものとして表示される。このように、検索語「ホウ酸」自体がキーワードとして登録されていなくても、それを含むキーワード「ホウ酸が」が登録されていることにより問題なく検索できるのである。なお、上述した登録時も、このような一部一致のキーワードは登録されず、切り出しの仕方によって登録数がいたずらに増大することが回避され、優れた検索効率を維持できるシステムとされている。
【0049】
検索文章が長いと複数の検索語のアンド検索となる。また、検索語や検索文章のほかに検索式が入力されると、従来と同様の方法によりアンド処理等が行われることは言うまでもない。
【0050】
以上本発明の実施形態について説明したが、本発明はこうした実施例に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲において種々なる形態で実施し得ることは勿論である。
【図面の簡単な説明】
【0051】
【図1】本発明の代表的実施形態に係る文書検索装置の構成を示す説明図。
【図2】キーワード記憶テーブルの一例を示す説明図。
【図3】ID参照テーブルの一例を示す説明図。
【図4】キーワードの登録までの手順を示すフロー図。
【図5】入力される検索語に基づき検索を行う手順を示すフロー図。
【図6】検索語「ホウ酸が」を格納した検索語記憶テーブルを示す説明図。
【図7】文字列IDを抽出する仕方を示す説明図。
【図8】取得された文書IDを示す説明図。
【図9】検索語「ホウ酸は」を格納した検索語記憶テーブルを示す説明図。
【図10】(a)は検索語「長時間使わずに」を格納した検索語記憶テーブルを示す説明図、(b)は取得された文書IDを示す説明図。
【図11】(a)は検索語「ホウ酸」を格納した検索語記憶テーブルを示す説明図、(b)は取得された文書IDを示す説明図。
【符号の説明】
【0052】
1 文書検索装置
10 処理装置
10a 文書記憶処理部
10b キーワード抽出部
10c キーワード記憶処理部
10d 記憶処理部
10e 検索語記憶処理部
10f 抽出部
10g 特定部
10h ヒット判定部
10i 文書出力処理部
11 記憶装置
11a 文書データ記憶部
11b キーワード記憶テーブル
11c 参照テーブル
11d 検索語記憶テーブル
12 入力手段
13 出力手段


【特許請求の範囲】
【請求項1】
コンピュータからなる文書検索装置が、
入力された検索対象となる文書データを、IDを付して文書データ記憶部に記憶する手順と、
前記文書データ記憶部に記憶される文書データから、複数の連続した文字列からなるキーワードを切り出して抽出する手順と、
抽出した各キーワードを、一文字づつ格納される一定数のカラムを有したレコードからなるキーワード記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する手順と、
前記キーワード記憶テーブルの各レコードに記憶された文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けてID参照テーブルに記憶する手順と、
入力された検索語を、前記キーワード記憶テーブルの各レコードと同数のカラムを有したレコードからなる検索語記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する手順と、
検索語記憶テーブルの各カラム毎に、キーワード記憶テーブルの同一カラムを参照することにより、検索語記憶テーブルの各レコードの文字列とキーワード記憶テーブルの各レコードの文字列とが合致するか否か判定し、合致した文字列のIDを抽出する手順と、
抽出した文字列のIDに基づき、前記ID参照テーブルを参照し、対応する文書IDを特定する手順と、
特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものとして出力する手順と、
を備えていることを特徴とする文書検索方法。
【請求項2】
前記キーワード記憶テーブルに格納される各キーワードのレコード数、および前記検索語記憶テーブルに格納される各検索語のレコード数が、それぞれ各キーワードの文字数、各検索語の文字数とされる請求項1記載の文書検索方法。
【請求項3】
各キーワードをレコードに格納する際、および各検索語をレコードに格納する際に、中央部のカラムに先頭の文字を格納したレコードから順に、先頭文字を一つ前のカラムに格納したレコードをそれぞれ作成してなる請求項1又は2記載の文書検索方法。
【請求項4】
前記キーワード記憶テーブル、および検索語記憶テーブルにおける前記カラムの数を5〜9に設定してなる請求項1〜3の何れか1項に記載の文書検索方法。
【請求項5】
コンピュータからなる文書検索装置であって、
文書データを入力する文書入力手段と、
前記文書入力手段により入力された検索対象となる文書データをIDを付して記憶する文書記憶手段と、
前記文書記憶手段に記憶される文書データから、複数の連続した文字列からなるキーワードを切り出して抽出するキーワード抽出手段と、
前記キーワード抽出手段により抽出された各キーワードを、一文字づつ格納される一定数のカラムを有したレコードからなるキーワード記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納するキーワード記憶手段と、
前記キーワード記憶テーブルの各レコードに記憶された文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けてID参照テーブルに記憶する関連ID記憶手段と、
検索語を入力する検索語入力手段と、
前記検索語入力手段により入力された検索語を、前記キーワード記憶テーブルの各レコードと同数のカラムを有したレコードからなる検索語記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する検索語記憶手段と、
検索語記憶テーブルの各カラム毎に、キーワード記憶テーブルの同一カラムを参照することにより、検索語記憶テーブルの各レコードの文字列とキーワード記憶テーブルの各レコードの文字列とが合致するか否か判定し、合致した文字列IDを抽出する文字列抽出手段と、
前記文字列抽出手段により抽出されたIDに基づき、前記ID参照テーブルを参照し、対応する文書IDを特定する文書特定手段と、
特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものと判定するヒット判定手段と、
前記ヒット判定手段により判定された文書を出力する文書出力手段と、
よりなることを特徴とする文書検索装置。
【請求項6】
キーワード記憶手段によりキーワード記憶テーブルに格納される各キーワードのレコード数、および検索語記憶手段により検索語記憶テーブルに格納される各検索語のレコード数を、それぞれ各キーワードの文字数、各検索語の文字数としてなる請求項5記載の文書検索装置。
【請求項7】
キーワード記憶手段により各キーワードをレコードに格納する際、および検索語記憶手段により各検索語をレコードに格納する際に、中央部のカラムに先頭の文字を格納したレコードから順に、先頭文字を一つ前のカラムに格納したレコードをそれぞれ作成してなる請求項5又は6記載の文書検索装置。
【請求項8】
前記キーワード記憶テーブル、および検索語記憶テーブルにおける前記カラムの数を5〜9に設定してなる請求項5〜7の何れか1項に記載の文書検索装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2007−316788(P2007−316788A)
【公開日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願番号】特願2006−143604(P2006−143604)
【出願日】平成18年5月24日(2006.5.24)
【出願人】(599108242)Sky株式会社 (257)
【Fターム(参考)】