説明

検索装置、検索装置の制御方法及び検索装置の制御プログラム

【課題】オペレータによる管理負担を増大させることなく、高精度な文字列の正規化を実現すること。
【解決手段】文書の情報から索引となる文字列を抽出して検索対象の情報として格納する登録処理部201と、検索条件を生成する検索条件作成部205と、検索条件に基づいて検索対象の情報を検索する検索処理部206と、入力された文字列を単位文字列に分割すると共に、分割された単位文字列を代表表記に変換する文字列処理部203とを含み、登録処理部201は、文書の情報を文字列処理部203に入力し、代表表記に変換された単位文字列を索引となる文字列として抽出し、検索条件作成部205は、文字列を文字列処理部203に入力し、代表表記に変換された単位文字列に基づいて検索条件を生成し、文字列処理部203は連続して配置されている単位文字列を連結した連結文字列をも代表表記に変換することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索装置、検索装置の制御方法及び検索装置の制御プログラムに関し、特に、同一とみなすことができて且つ表記の異なる文字列の変換に関する。
【背景技術】
【0002】
従来から、入力された文書やキーワードから検索文字列を設定し、その検索文字列を含む文書を検索する検索方法がある。日本語のように単語の区切りが明確でない言語で記述された文書を全文検索する場合、検索対象となる文書を索引に登録する。登録方法としては、任意の文字数により文字列単位に分割する方法や、形態素解析により単語単位に分割する方法などが用いられる。
【0003】
一方、検索文字列として設定された文書やキーワードは索引登録と同様の方法で分割され検索語として抽出される。しかし、文書検索やキーワード検索では、同一単語に対する異表記による検索洩れの問題がある。例えば、「とり扱」を検索語として入力しても、異表記である「取扱」を含む文書は検索できない。また、「トレーニングセンター」を検索語として入力しても、「トレセン」のような略語が用いられている場合は検索できない。
【0004】
このような課題に対して、入力された検索文字列と類語辞書の見出し語との異表記による不一致を回避するために、異表記辞書を用いて入力された文字列と見出し語をそれぞれ代表語に正規化することが行われている(例えば、特許文献1参照)。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、このような手法を全文検索に用いた場合、次のような問題がある。例えば、「取扱」「取りあつかい」「とり扱」を異表記群とし、「取扱」を代表表記とする異表記パターンを想定する。この場合、「とり扱」という文字列を形態素解析で分割する場合、「とり」「扱」という2単語に分割してしまうため、「とり扱」を対象とする異表記パターンと一致せず、代表表記である「取扱」に正規化することはできない。また、「取りあつかい」についても「取り」「あつかい」に分割されるため「取扱」に正規化できない。
【0006】
このように、形態素解析により単語単位に分割する場合、異表記群に「とり扱」が含まれていても、形態素解析で「とり扱」と分割されない限り代表表記の「取扱」には正規化されない。この結果、検索対象の文書データ中の表記「とり扱」は「とり扱」として索引に登録され、「取扱」では検索できないことになる。
【0007】
この問題を回避するために形態素解析辞書に「とり扱」を追加し、「とり扱」一語で解析するようにすることも可能であるが、常に形態素辞書と異表記パターンの表記との整合をとってメンテナンスする必要がありオペレータによる管理負担が大きい。
【0008】
本発明は上記実情に鑑みてなされたものであり、オペレータによる管理負担を増大させることなく、高精度な文字列の正規化を実現することを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決するために、本発明の一態様は、検索対象として格納するべき文書の情報を取得し、取得した文書の情報に含まれる文字列から索引となる文字列を抽出して検索対象の情報として格納する文書登録部と、検索条件となる文字列を取得し、取得した文字列に基づいて検索条件を生成する検索条件生成部と、前記生成された検索条件に基づいて前記格納された検索対象の情報を検索する検索処理部と、入力された文字列を辞書情報に基づいて分割可能な単位文字列に分割する文字列分割部と、同一とみなすことができて且つ表記の異なる複数の単位文字列と前記複数の単位文字列の代表として定められた代表表記とが関連付けられた異表記情報に基づき、前記分割された単位文字列を前記代表表記に変換する異表記処理部とを含み、前記文書登録部は、前記格納するべき文書の情報に含まれる文字列を前記文字列分割部に入力し、前記異表記処理部から前記代表表記に変換された単位文字列を取得し、前記代表表記に変換された単位文字列を前記索引となる文字列として抽出し、前記検索条件生成部は、前記取得した検索条件となる文字列を前記文字列分割部に入力し、前記異表記処理部から前記代表表記に変換された単位文字列を取得し、前記代表表記に変換された単位文字列に基づいて前記検索条件を生成し、前記異表記処理部は、分割される前の文字列において連続して配置されている単位文字列を連結して連結文字列を生成し、前記異表記情報に基づいて前記連結文字列を前記代表表記に変換することを特徴とする。
【0010】
また、本発明の他の態様は、検索対象として格納するべき文書の情報を取得し、取得した文書の情報に含まれる文字列から索引となる文字列を抽出して検索対象の情報として記憶媒体に格納し、検索条件となる文字列を取得し、取得した文字列に基づいて検索条件を生成して記憶媒体に格納し、前記生成された検索条件に基づいて前記格納された検索対象の情報を検索した結果を記憶媒体に格納する検索装置の制御方法であって、前記格納するべき文書の情報に含まれる文字列を辞書情報に基づいて分割可能な単位文字列に分割して記憶媒体に格納し、同一とみなすことができて且つ表記の異なる複数の単位文字列と前記複数の単位文字列の代表として定められた代表表記とが関連付けられた異表記情報に基づき、前記分割された単位文字列及び分割される前の文字列において連続して配置されている単位文字列を連結した連結文字列を前記代表表記に変換することにより、前記索引となる文字列として抽出して前記検索対象の情報として記憶媒体に格納し、前記取得した検索条件となる文字列を辞書情報に基づいて分割可能な単位文字列に分割して記憶媒体に格納し、前記異表記情報に基づいて前記分割された単位文字列及び分割される前の文字列において連続して配置されている単位文字列を連結した連結文字列を前記代表表記に変換し、前記代表表記に変換された単位文字列に基づいて前記検索条件を生成することを特徴とする。
【0011】
また、本発明の更に他の態様は、検索対象として格納するべき文書の情報を取得し、取得した文書の情報に含まれる文字列から索引となる文字列を抽出して検索対象の情報として記憶媒体に格納し、検索条件となる文字列を取得し、取得した文字列に基づいて検索条件を生成して記憶媒体に格納し、前記生成された検索条件に基づいて前記格納された検索対象の情報を検索した結果を記憶媒体に格納する検索装置の制御プログラムであって、前記格納するべき文書の情報に含まれる文字列を辞書情報に基づいて分割可能な単位文字列に分割して記憶媒体に格納するステップと、同一とみなすことができて且つ表記の異なる複数の単位文字列と前記複数の単位文字列の代表として定められた代表表記とが関連付けられた異表記情報に基づき、前記分割された単位文字列及び分割される前の文字列において連続して配置されている単位文字列を連結した連結文字列を前記代表表記に変換することにより、前記索引となる文字列として抽出して前記検索対象の情報として記憶媒体に格納するステップと、前記取得した検索条件となる文字列を辞書情報に基づいて分割可能な単位文字列に分割して記憶媒体に格納するステップと、前記異表記情報に基づいて前記分割された単位文字列及び分割される前の文字列において連続して配置されている単位文字列を連結した連結文字列を前記代表表記に変換し、前記代表表記に変換された単位文字列に基づいて前記検索条件を生成するステップとを情報処理装置に実行させることを特徴とする。
【発明の効果】
【0012】
本発明によれば、オペレータによる管理負担を増大させることなく、高精度な文字列の正規化を実現することができる。
【図面の簡単な説明】
【0013】
【図1】本発明の実施形態に係る検索装置のハードウェア構成を示すブロック図である。
【図2】本発明の実施形態に係る検索装置の機能構成を示すブロック図である。
【図3】本発明の実施形態に係る検索画面の例を示す図である。
【図4】本発明の実施形態に係る形態素分割の例を示す図である。
【図5】本発明の実施形態に係る異表記パターンデータベースの例を示す図である。
【図6】本発明の実施形態に係る文書登録の動作を示すフローチャートである。
【図7】本発明の実施形態に係る文書登録の際の文字列処理の動作を示すフローチャートである。
【図8】本発明の実施形態に係る検索処理の動作を示すフローチャートである。
【図9】本発明の実施形態に係る検索処理の際の文字列処理の動作を示すフローチャートである。
【図10】本発明の実施形態に係る異表記処理の動作を示すフローチャートである。
【図11】本発明の他の実施形態に係る表記パターンデータベースの例を示す図である。
【図12】本発明の他の実施形態に係る異表記処理の動作を示すフローチャートである。
【図13】本発明の他の実施形態に係る異表記処理の動作を示すフローチャートである。
【図14】本発明の他の実施形態にシステムの形態を示す図である。
【発明を実施するための形態】
【0014】
実施の形態1.
以下、図面を参照して、本発明の実施形態を詳細に説明する。本実施形態においては、検索システムの例として、データベース等に格納される文書データや文書を検索するために入力された検索文字列を形態素解析等で分割し、最初の分割文字列から順に分割文字列をつなげた文字列により異表記パターンを検索し、最長の文字列の表記に対応する表記を代表表記とする検索装置について説明する。
【0015】
図1は、本実施形態に係る検索装置のハードウェア構成を示す図である。図1に示すように、本実施形態に係る検索装置100は、一般的なPC(Personal Computer)やサーバ等と同様の構成を有する。即ち、本実施形態に係る検索装置100は、CPU(Central Processing Unit)101、メモリユニット102、出力ユニット103、入力ユニット104、通信ユニット105、記憶装置106及びドライブ装置107を含み、夫々がシステムバスBに接続されている。
【0016】
CPU101は、メモリユニット102に格納されたプログラムに従って演算を行うことにより、検索装置100全体の動作を制御する。メモリユニット102は、RAM(Random Access Memory)及びROM(Read−Only Memory)等にて構成され、CPU101にて実行されるプログラム、CPU101での処理に必要なデータ、CPU101での処理にて得られたデータ等を格納する。また、メモリユニット102の一部の領域が、CPU101での処理に利用されるワークエリアとして割り付けられている。
【0017】
出力ユニット103は、利用者の操作や検索装置100の動作状態に応じて各種情報を出力するために用いられる。出力ユニット103は、例えばCPU101の制御に基づき、各種情報を表示する表示部として機能する。入力ユニット104は、マウス、キーボード等を有し、検索装置100が処理を行なうための必要な各種情報を利用者が入力するための操作部として機能する。通信ユニット105は、検索装置100が例えばインターネット、LAN(Local Area Network)等のネットワークを介する通信の制御をするための装置である。記憶装置106は、例えば、ハードディスクユニットにて構成され、各種処理を実行するプログラム等のデータを格納する。
【0018】
検索装置100によって行われる処理を実現するプログラムは、例えば、CD−ROM(Compact Disk Read−Only Memory)や磁気ディスク等の記憶媒体108によって検索装置100に提供される。即ち、プログラムが保存された記憶媒体108がドライブ装置107にセットされると、ドライブ装置107が記憶媒体108からプログラムを読み出し、その読み出されたプログラムがシステムバスBを介して記憶装置106にインストールされる。
【0019】
そして、ユーザの操作によってプログラムが起動されると、記憶装置106にインストールされたプログラムがメモリユニット102にロードされ、CPU101がそのプログラムに従って演算を行うことにより、そのプログラムに従った機能が検索装置100の機能として実現される。
【0020】
なお、プログラムを格納する媒体としてCD−ROMに限定するものではなく、コンピュータが読み取り可能な媒体であればよい。本発明に係る処理を実現するプログラムは、通信ユニット105によってネットワークを介してダウンロードし、記憶装置106にインストールするようにしても良い。また、検索装置100が外部との接続を行うUSB(Universal Serial Bus)等のインタフェースを有する場合には、USB接続によって外部記憶媒体からプログラムを読み込んでもよい。
【0021】
図2は、本実施形態に係る検索装置100の機能構成を説明する図である。本実施形態の検索装置100は、上述したように、CPU101がプログラムに従って演算を行うことにより、以下の各部の機能を実現する。図2に示すように、本実施形態に係る検索装置100は、登録処理部201、入力部202、文字列処理部203、出力処理部204、検索条件作成部205、検索処理部206、文書格納部207、索引格納部208、異表記パターン格納部209、形態素解析辞書格納部210を有する。
【0022】
まず、本実施形態の検索装置100における索引登録処理の概略を説明する。登録処理部201は文書格納部207から1文書ずつ文書データを読み出し、その読み出された文書データを文字列処理部203に送る。文字列処理部203は、形態素解析辞書格納部210に格納されている辞書の情報を参照して形態素解析処理を行う。そして、文字列処理部203は、形態素解析処理の結果に基づき、異表記パターン格納部209に格納された異表記パターンデータベースに基づいて異表記処理を行い、その処理結果を索引語として取得する。
【0023】
文字列処理部203は、上述したような処理によって索引語(文字列)を抽出し、夫々の索引語が夫々の文書中において出現する位置を示す出現位置情報と共に登録処理部201に返す。登録処理部201は、文字列処理部203から取得した情報を索引格納部208に登録する。即ち、登録処理部201が、文書登録部として機能する。
【0024】
次に、本実施形態の検索装置100における検索処理の概略を説明する。検索条件作成部205は入力部202から入力された検索文字列を文字列処理部203に送る。文字列処理部203は、形態素解析辞書格納部210に格納される辞書の情報を参照して形態素解析処理を行う。そして、文字列処理部203は、形態素解析処理の結果に基づき、異表記パターン格納部209に格納された異表記パターンデータベースに基づいて異表記処理を行い、その処理結果を検索語として取得する。
【0025】
文字列処理部203は、上述したような処理によって検索語を生成し、検索処理部206に渡す。そして、検索処理部206は、文字列処理部203から取得した検索語を検索キーとして、索引格納部208に格納された索引語を検索し、検索語に適合する索引が含まれる文書を抽出する。出力処理部204は検索処理部206で抽出された結果を表示する。
【0026】
なお、検索処理部206による検索対象となる索引格納部208及び検索結果の抽出対象となる文書格納部207は、本実施形態においては検索装置100内部の構成として、例えば、記憶装置106に索引情報及び文書情報が格納されることによって設けられる。この他、文書格納部207及び索引格納部208は、検索装置100とは別の情報処理装置によって実現されるデータベースとして設けられても良い。このデータベースは、例えばネットワーク等を介して検索装置100と接続されることにより、図2に示すように検索装置100内部の構成として設けられる場合と同様に処理することが可能である。
【0027】
本実施形態の入力部202は、入力ユニット104に対するユーザの操作に応じて、検索対象となる文書データおよび入力された検索文字列を受け付ける。本実施形態の文字列処理部203は、入力部202から入力された文字列を処理し、処理結果を記憶装置106へ記憶させる。以下に図3、図4を参照して検索処理における文字列処理部203の処理について説明する。
【0028】
図3は、検索文字列の入力画面の一例を示す図である。本実施形態の検索装置100においては、検索を実行するためにそのためのアプリケーションが起動されると、入力部202が、図3に示すような検索文字列の入力欄を有する入力画面を出力ユニット103に表示させる。ユーザによる入力ユニット104への操作により、図3に示す入力欄に検索文字列が入力され、検索ボタンが選択されると、入力部202は、入力欄に入力された検索文字列を取得し、検索条件作成部205に入力する。
【0029】
検索条件作成部205は、入力部202から入力された検索文字列を文字列処理部203に渡す。これにより、文字列処理部203は、形態素解析辞書格納部210に格納されている辞書の情報を参照して形態素分割する。即ち、文字列処理部203が、形態素解析事務所格納部210に格納されている辞書情報を参照することにより、文字列分割部として機能する。なお、以下の本実施形態の説明では、検索文字列の例を「とり扱説明書」として説明する。また、本実施形態においては、文字列処理部203が検索文字列の「とり扱説明書」を分割した結果、「とり」、「扱」、「説明書」と分割される場合を例とする。
【0030】
図4は、文字列処理部203による形態素解析結果の一例を示す図である。本実施形態においては、文字列処理部203により処理された結果は記憶装置106またはメモリユニット102等の記憶媒体に記憶される。処理結果は、分割された文字列である分割文字列が、検索文字列に登場する順番と対応付けられて記憶されている。図4に示すように、本実施形態に係る形態素解析による処理結果には、一番目の分割文字列を示す値と「とり」、二番目の分割文字列を示す値と「扱」、三番目の分割文字列を示す値と「説明書」、がそれぞれ対応付けられて記憶されている。
【0031】
図2に戻って、次に本実施形態の文字列処理部203について説明する。本実施形態の文字列処理部203は、入力された文字列を形態素解析により分割すると共に、分割された分割文字列や、連続する分割文字列を連結した文字列(以降、連結文字列とする)を、異表記パターンデータベースを参照して代表表記に正規化して正規化文字列を生成する。
【0032】
このため、本実施形態の文字列処理部203は、形態素解析された分割文字列を組み合わせた連結文字列を生成する。具体的には文字列処理部203は連続する分割文字列同士をつなげて文字列を生成する。以下に図5を参照して本実施形態の異表記パターンデータベースについて説明する。
【0033】
図5は、本実施形態に係る異表記パターンデータベースの例を示す図である。本実施形態の異表記パターンデータベースは、正規化文字列を得るためのものであり、異表記パターン格納部209に格納されている。なお、異表記パターン格納部209は、記憶装置106によって実現される。図5に示すように、異表記パターンデータベースでは、検索キーとなる「表記」と、「表記」に対応する文字列であって正規化された文字列である「代表表記」とが格納されている。本実施形態では、「とり扱」を検索キーとして異表記パターンデータベースを検索した場合、検索結果として「取扱」という正規化文字列が得られる。
【0034】
換言すると、図5に示す異表記パターンデータベースは、「取扱い」、「取り扱い」、「とり扱い」、「取りあつかい」のように、同一とみなすことができて且つ表記の異なる複数の単位文字列と、「取扱」のように代表として定められた代表表記とが関連付けられた異表記情報である。そして、文字列処理部203は、異表記パターン格納部209に格納された異表記パターンデータベースを参照することにより、異表記処理部として機能する。
【0035】
図2に戻って、検索処理部206と出力処理部204について説明する。本実施形態の検索処理部206は、文字列処理部203により得られた正規化文字列により、検索対象である索引格納部208に格納される索引を検索する。出力処理部204は、検索処理部206による検索結果等を表示する。なお、本実施形態の出力処理部204は、検索結果以外にも、例えば検索キーとなった正規化文字列を表示しても良い。
【0036】
図6は、本実施形態に係る検索装置100における文書登録処理の動作を説明するフローチャートである。本実施形態の検索装置100において、ユーザによる入力ユニット104への操作に応じて文書登録の実行指示がなされると、登録処理部201は、記憶装置104の文書格納部207に格納された文書データの中に、索引未作成の文書があるか否かを判断する(S601)。インデックス未作成の文書がない場合は全ての検索対象の文書データの索引が作成されているので、登録処理部201は文書登録処理を終了する。
【0037】
一方、索引未作成の文書がある場合(S601/YES)、登録処理部201は、索引未作成の文書を読み込み(S602)、文書格納部207に格納された各文書をユニークに示す文書IDを取得し(S603)、文書データを文字列処理部203に入力して文字列処理を依頼する(S604)。文字列処理部203においては、上述した形態素解析及び正規化処理を行い、索引語を生成する。
【0038】
登録処理部201は、文字列処理部203による文字列処理が完了するのを待ち(S605/NO)、文字列処理が完了すると(S605/YES)、その処理結果である索引語を取得して、文書IDと共に索引格納部208に登録し(S606)、S601の処理に戻る。
【0039】
図7は、図6のS604に応じて文字列処理部203が実行する文字列処理の動作を示すフローチャートである。文書登録処理において文書データが文字列処理部203に送られると(S604)、文字列処理部203は、まず出現位置を初期化し(S701)、開始位置をセットする(S702)。
【0040】
開始位置をセットした結果、文書末尾に達していれば(S703/YES)、文字列処理部203は、登録処理部201に終了を通知して(S704)、処理を終了する。文書末尾に達していない場合(S703/NO)、文字列処理部203は、形態素解析辞書格納部210に格納されている辞書の情報を参照して文書を形態素解析して(S705)、分割文字列を生成する(S706)。分割文字列を生成すると、文字列処理部203は、その分割文字列について異表記パターン格納部209に格納された異表記データベースを参照して異表記を代表表記に正規化する異表記正規化処理を実行する(S707)。
【0041】
異表記正規化処理により、正規化された代表表記及びその表記の出現位置を取得すると、文字列処理部203は、取得した代表表記及びその表記の出現位置を索引語表記及びその出現位置として登録処理部201に出力する(S708)。その後、文字列処理部203は、出現位置を1つ進めて(S709)、S702に戻って処理を繰り返す。ここで、S709において、文字列処理部203は、S706において分割した分割文字列を単位とし、現在の出現位置に対応する分割文字列の次の分割文字列へ出現位置を進める。
【0042】
図8は、本実施形態に係る検索装置100における検索処理の動作を説明するフローチャートである。本実施形態の検索装置100において、ユーザによる入力ユニット104への操作に応じて検索文字列及び検索の実行指示が入力されると、入力部202は、入力された検索文字列を検索条件作成部205に入力する(S801)。検索条件作成部205は、入力された検索文字列を文字列処理部203に送り、文字列処理を依頼する(S802)。文字列処理部203においては、上述した形態素解析及び正規化処理を行い、検索語を生成する。
【0043】
検索条件作成部205は、文字列処理部203による文字列処理が完了するのを待ち(S803/NO)、文字列処理が完了すると(S803/YES)、その処理結果である検索語を取得して記憶する(S804)。検索語を取得した検索条件作成部205は、取得した検索語に基づいて検索条件を生成し、検索処理部206に入力する。これにより、検索処理部206が、検索条件作成部205から取得した検索条件に基づいて索引格納部208を検索し(S805)、検索結果を出力する(S806)。
【0044】
図9は、図8のS802に応じて文字列処理部203が実行する文字列処理の動作を締めすフローチャートである。検索処理において検索文字列が文字列処理部203に入力されると(S802)、文字列処理部203は、開始位置をセットし(S901)、その結果最後の文字列に達していれば(S902/YES)、検索条件作成部205に終了を通知して(S903)、処理を終了する。
【0045】
検索文字列として入力される文字列は、複数の単語や言葉がスペースで区切られた文字列である場合が多い。これに対して、S902において判断される最後の文字列とは、上記スペースで区切られた複数の文字列のうちの最後の文字列を示す。
【0046】
最後の文字列に達していない場合(S902/NO)、文字列処理部203は、形態素解析格納部210に格納されている辞書の情報を参照して検索語の形態素解析を行い(S904)、分割文字列を生成する(S905)。分割文字列を生成すると、文字列処理部203は、その分割文字列について異表記パターン格納部209に格納された異表記データベースを参照して異表記正規化処理を行う(S906)。
【0047】
異表記正規化処理により正規化された代表表記及を取得すると、検索条件作成部205は、取得した代表表記を検索語として出力する(S907)。その後、文字列処理部203は、出現位置を1つ進めて(S908)S901に戻って処理を繰り返す。ここで、S908において、文字列処理部203は、上述したようにスペースによって区切られた文字列を単位とし、現在の出現位置に対応する文字列の次の文字列へ出現位置を進める。
【0048】
次に、本実施形態の要旨に係る処理である、図7のS706とS707および図9のS905とS906における索引文字列、検索文字列を得る処理の詳細について、図10を参照して説明する。図10は、本実施形態に係る検索装置100による索引文字列、検索文字列を得る処理の動作を説明するフローチャートである。
【0049】
文字列処理部203は、文字列を形態素分割すると、分割された文字列の先頭の文字列を検索キーとしてセットする(S1001)。なお、形態素分割した分割文字列は、記憶装置106等の記憶媒体に格納される。次に、文字列処理部203は、異表記パターンデータベース内にセットされた文字列と対応する表記が存在するか否かを判断する(S1002)。
【0050】
S1002において、セットされた文字列に対応する表記が存在しない場合(S1002/NO)、文字列処理部203は、セットされている文字列が連結を判断するべき最後の分割文字列か否かを判断する(S1007)。ここで、S1007における“最後の分割文字列”については後に詳述する。その判断の結果、最後の分割文字列であった場合(S1007/YES)、文字列処理部203は、後述するS1005へ進む。
【0051】
S1007において最後の分割文字列でない場合(S1007/NO)、文字列処理部203は、現在セットされている文字列に続く次の分割文字列を連結して(S1008)、S1002へ戻る。具体的には形態素解析で分割された文字列を参照し、二番目の分割文字列を一番目の分割文字列の後につなげて文字列を生成する。即ち、文字列処理部203は、一の単位文字列について異表記処理を行った後、その単位文字列に続いて配置されている次の単位文字列を連結して連結文字列を生成した上で異表記処理を行う。
【0052】
S1002において、セットされた文字列と対応する表記が異表記パターンデータベースに存在する場合(S1002/YES)、文字列処理部203は、異表記パターンデータベースから表記に対応する正規化文字列を抽出し、正規化文字列をメモリユニット102等に格納する(S1003)。
【0053】
次に、文字列処理部203は、検索キーとなった文字列に、連結を判断するべき最後の分割文字列が含まれるか否かを判断する(S1004)。ここで、S1004における“最後の分割文字列”は、S1007と同様であり、後に詳述する。S1004において、最後の分割文字列が含まれていなかった場合(S1004/NO)、文字列処理部203は、上記S1008に進む。
【0054】
他方、S1004において、最後の分割文字列が含まれると判断された場合(S1004/YES)、文字列処理部203は、S1003で抽出された正規化文字列を代表表記として確定する(S1005)。このときメモリユニット102に格納された正規化文字列のうち、確定された正規化文字列以外の正規化文字列を削除しても良い。
【0055】
次に、文字列処理部203は、最後の分割文字列を先頭として検索を実行したか否かを判断する(S1006)。S1006において、最後の分割文字列を先頭として検索を実行した場合(S1006/YES)、文字列処理部203はそのまま処理を終了する。S1006において、最後の分割文字列を先頭として検索を実行していない場合、文字列処理部203は、現在の分割文字列における二番目の分割文字列を次の分割文字列としてセットし(S1009)、S1002へ戻る。
【0056】
S109の処理により、入力された文字列に含まれる分割文字列の全てについて、先頭としてセットされて連結文字列が生成されることとなり、漏れのない異表記処理を実現することができる。以下に、文字列処理部203に渡された文字列を「とり扱説明書」として図10の処理について説明する。文字列処理部203は、まず「とり」を先頭の分割文字列としてセットする(S1001)。続いて文字列処理部203は、異表記パターンデータベース内に「とり」という表記が存在するか否かを判断する(S1002)。
【0057】
図5に示すように、異表記パターンデータベースには「取り」の異表記として「とり」が存在するので(S1002/YES)、文字列処理部203は、正規化表記である「取り」をメモリユニット102に格納する(S1003)。そして、文字列処理部203は、現在セットされている「とり」が、最後の分割文字列か否かを判断する(S1004)。
【0058】
「とり」は最後の分割文字列ではないので(S1004/NO)、文字列処理部203は、形態素解析結果を参照して、「とり」の後に二番目の分割文字列「扱」をつなげた連結文字列「とり扱」を生成し(S1008)、S1002へ戻る。そして、文字列処理部203は、異表記パターンデータベース内に「とり扱」という表記が存在するか否か判断する(S1002)。
【0059】
図5に示すように、異表記パターンデータベースには「取扱」の異表記として「とり扱」が存在するので(S1002/YES)、文字列処理部203は、正規化表記である「取扱」をメモリユニット102に格納する(S1003)。その後のS1004の判断においては、「とり扱」は最後の分割文字列ではないので、文字列処理部203は、形態素解析結果を参照して次の分割文字列を先頭の分割文字列へ追加する(S1008)。これにより、「扱」の後に三番目の分割文字列「説明書」をつなげた連結文字列「とり扱説明書」が生成される。そして文字列処理部203は、「とり扱説明書」をセットされた文字列としてS1002以降の処理を行う。
【0060】
このように、本実施形態に係る文字列処理部203は、分割文字列を追加して文字列を生成する際に、現在セットされている文字列のうち、最後尾の分割文字列の次に位置する分割文字列を現在セットされている文字列に連結した文字列を生成する。具体的には、例えば「とり扱」を異表記パターンデータベースの検索キーとした後には、検索文字列において「とり扱」の最後尾の分割文字列である「扱」の次に位置する分割文字列である「説明書」を「とり扱」に連結し、「とり扱説明書」とする。
【0061】
文字列「とり扱説明書」がセットされた場合、異表記パターンデータベース内に対応する表記が存在しない(S1002/NO)。よって、文字列処理部203は、「とり扱説明書」に最後の分割文字列が含まれるか否かを判断する(S1007)。この場合、最後の分割文字列「説明書」が含まれるため(S1007/YES)、文字列処理部203は、既にメモリユニット102に格納されている「取扱」を分割文字列「とり扱」の正規化文字列として確定させ(S1005)、この正規化文字列をメモリユニット102に記憶させる。尚、上述したように、S1005においては、メモリユニット102に格納されている正規化表記をクリアしても良く、この場合、「取り」、「取扱」といった表記がクリアされる。
【0062】
そして、文字列処理部203は、最後の分割文字列すなわち、分割文字列「説明書」を先頭として異表記パターンデータベースの検索を行ったか否かを判断する(S1006)。ここではまだ検索を行っていないため、文字列処理部203は、現在セットされている連結文字列「とり扱説明書」における二番目の文字列である「扱」を先頭の文字列としてセットし(S1009)、S1002からの処理を繰り返す。
【0063】
次のS1002からの処理においては、「扱」の異表記パターンは異表記パターンデータベースに格納されており(S1002/YES)、代表表記である「扱い」が正規化文字列としてメモリユニットに格納され(S1003)、最後の分割文字列ではないので(S1004/NO)、「扱」に続く分割文字列「説明書」を連結して「扱説明書」という連結文字列に基づいてS1002からの処理を繰り返す。
【0064】
次のS1002からの処理においては、「扱説明書」の異表記パターンは異表記パターンデータベースに格納されておらず(S1002/NO)、「扱説明書」は最後の分割文字列「説明書」を含むため(S1007/YES)、文字列処理部203は、メモリユニット102に格納されている「扱い」を分割文字列「扱」の代表表記として確定させる(S1005)。そして、現在先頭にセットされている分割文字列「扱」は最後の分割文字列ではないため、(S1006/NO)、文字列処理部203は、現在セットされている連結文字列「扱扱説明書」における二番目の文字列である「説明書」を先頭の文字列としてセットし(S1009)、S1002からの処理を繰り返す。
【0065】
次のS1002からの処理においては、「説明書」の異表記パターンは異表記パターンデータベースに格納されておらず(S1002/NO)、分割文字列「説明書」は最後の分割文字列である(S1007/YES)。この際、メモリユニット102には未だ正規化表記が格納されていないため、「説明書」がそのまま代表表記として確定されてメモリユニット102に格納される(S1005)。そして、分割文字列「説明書」は最後の分割文字列であるため(S1006/YES)、文字列処理部203は、処理を終了する。このような処理の結果、正規化表記である「取扱」、「扱」、「説明書」を含む正規化表記群がメモリユニット102に記憶される。
【0066】
このように、判断対象の分割文字列や連結文字列が異表記パターンデータベースに存在しない場合は、判断対象の分割文字列や連結文字列そのものが代表表記として確定される。これにより、索引語や検索語の抽出漏れを防ぐことができる。
【0067】
このように、正規化表記がメモリユニット102に格納されると、文字列処理部203は、まず異表記データベースに登録されていた代表表記のうち、分割文字列の連結数が最も多い文字列を優先的に採用する。この場合、「取扱」が優先的に採用される。これにより、正規化前の分割文字列のうち「とり」、「扱」は表記が確定するため、「扱い」は破棄される。残りの分割文字列「説明書」については、「説明書」が正規化文字列として確定しているため、文字列処理部203は、「説明書」をそのまま採用する。結果的に、「取扱」、「説明書」という正規化文字列が抽出される。
【0068】
このように、異表記パターンデータベースから抽出された表記を優先的に採用することにより、検索語や索引語の抽出精度を向上すると共に、冗長的な索引語や検索語の生成を回避し、処理負荷を低減することができる。また、連結数の多い文字列を優先的に採用することにより、抽出精度を下げることなく、冗長的な索引語や検索語の生成を回避することができる。
【0069】
なお、仮に、「取扱」と「扱説明書」とが共に異表記データベースに登録されていた代表表記である場合、何れが採用するべき表記であるのを判断することは容易ではない。この場合の処理方法の1つとしては、「取扱」と「扱説明書」との両方を採用する方法が考えられる。これにより、索引語や検索語の抽出漏れを回避することができる。この場合、「取扱」が正しければ「説明書」を採用するべきであり、「扱説明書」が正しければ「取り」を採用するべきであるため、文字列処理部203は、「取扱」、「扱説明書」と共に、「取り」、「説明書」も正規化表記として採用する。
【0070】
また、「取扱」と「扱説明書」とが共に異表記データベースに登録されていた代表表記である場合の他の方法としては、「取扱」、「扱説明書」の夫々についての出現頻度を比較し、出現頻度の高い方を採用する方法が考えられる。これにより、索引語や検索語の抽出漏れを回避しつつ、冗長的な索引語や検索語の生成を回避することができる。この場合、出現頻度を参照するためのデータベースとしては、既に索引格納部208に記憶されているtf−idfの情報の他、専用の出現頻度参照用のデータベースを参照しても良い。
【0071】
ここで、図10のS1004、S1007における判断対象である“最後の分割文字列”について説明する。図10の動作からも明らかな通り、S1004、S1007において“最後の分割文字列”であることが判断されると、S1005、S1006を経てS1009へ進むため、それ以上分割文字列を連結しての異表記パターンデータベースの検索は行われない。即ち、S1004、S1007における“最後の分割文字列”とは、異表記パターンデータベースの検索を行う対象として、更に分割文字列を連結する必要があるか否かの判断基準となる文字列の区切りである。
【0072】
図9の検索語の生成の場合、入力される検索文字列は上述したようにスペースによって区切られているため、上記“最後の分割文字列”の判断としては、スペースで区切られた夫々の文字列の最後の分割文字列であるか否かを判断すれば良い。これにより、容易に連結文字列の生成要否を判断することができる。
【0073】
他方、図7の索引語の生成の場合、入力される文字列は文書の文字列、即ち自然文であり、日本語のような単語の区切りが明確ではない言語の場合は、上記“最後の分割文字列”の判断は容易ではない。この場合において、自然文を構成する全ての分割文字列について連結を行うとすれば、大部分が冗長的な処理となってしまい、処理効率が悪い。この場合に“最後の分割文字列”を判断する方法としては、形態素解析によって助詞や接続詞等の単体では意味をなさない文字列を判断し、その文字列を図9の場合のスペースと同様に文字列の区切りとして用いることが考えられる。これにより、文章の構成に応じて連結文字列の生成要否を判断することができる。
【0074】
また、連結する分割文字列の文字数に上限として閾値を設け、その閾値を超える場合に“最後の分割文字列”であると判断することもできる。これにより、文章の構成に応じた判断が困難であっても、冗長な処理をなるべく回避して連結文字列の生成要否を判断することができる。更には、句読点を文字列の区切りとして用いることもできる。これにより、漏れのない連結文字列の生成要否の判断を実現することができる。
【0075】
以上説明したように、本実施形態に係る検索装置100においては、文書を登録するために入力された文書に基づいて索引を生成する際及び入力された検索文字列に基づいて検索語を生成する際に、異表記パターンデータベースを参照して異表記を代表表記に正規化する。その際、形態素解析を経て分割された個々の分割文字列のみについて異表記パターンの検索を行うのではなく、個々の分割文字列を連結した文字列について異表記パターンの検索を行う。これにより、オペレータによる管理負担を増大させることなく、高精度な文字列の正規化を実現することができる。
【0076】
なお、上記実施形態においては、図9において説明したように、入力される検索文字列は、複数の文字列がスペースによって区切られている形態の場合を例として説明した。しかしながら、自然文検索のように、文章が検索文字列として入力される場合であっても適用可能である。この場合、上述した“最後の分割文字列”の判断は、文書登録時の処理と同様に、助詞や接続詞、文字数の閾値、句読点等を用いて行うことが可能である。
【0077】
実施の形態2.
実施の形態1においては、図5に示すように異表記パターンデータベースが1つである場合を例として説明した。本実施形態においては、複数の異表記パターンデータベースが存在する場合を例として説明する。なお、以下の説明において、実施の形態1と同一の符号を付す構成については同一若しくは相当部を示すものとし、詳細な説明を省略する。
【0078】
図11は、本実施形態に係る検索装置100の異表記パターン格納部209に格納された異表記パターンデータベースの一例を示す図である。なお、本実施形態においては、図11に示す本実施形態の異表記パターンデータベース11a、11bが、検索装置100の記憶装置106等に格納されることにより、記憶装置106によって異表記パターン格納部209が実現されるが、ネットワークを介して検索装置100と接続された外部のデータベースに格納されていても良い。また異表記パターンデータベース11aと異表記パターンデータベース11bとは、それぞれが異なる記憶装置に格納されていても良い。
【0079】
次に、本実施形態の検索装置100の動作について説明する。本実施形態では、図7のS706とS707および図9のS905とS906における文字列処理、即ち、実施の形態1における図10の動作のみ実施の形態1と異なる。よって以下に図12を参照して本実施形態における図7のS706とS707および図9のS905とS906の文字列処理について説明する。
【0080】
図12は、本実施形態に係る検索装置100による図7のS706とS707および図9のS905と906における文字列処理の詳細を説明する第一のフローチャートである。図12の例は、異表記パターンデータベースが複数存在する場合に、全ての異表記パターンデータベースに対して検索を行う。これにより、幅広い異表記パターンの検索を行うことができる。
【0081】
S1201からS1203までの処理は、図10のS1001からS1003までの処理と同様であるから説明を省略する。S1203に続いて、文字列処理部203は、異表記パターン格納部209に格納されている全ての異表記パターンデータベースについて検索したか否かを判断する(S1204)。
【0082】
S1204の判断の結果、全ての異表記パターンデータベースについて検索を行っていない場合(S1204/NO)、文字列処理部203は、S1202へ戻る。他方、全ての異表記パターンデータベースについて検索を行った場合(S1204/YES)、S1205へ進む。
【0083】
S1205からS1210までの処理は、図10のS1004からS1009までの処理と同様であるから説明を省略する。例えば異表記パターン格納部209に格納された異表記パターンデータベースが、異表記パターンデータベース11a、11bの場合、本実施形態に係る文字列処理部203は、最初に異表記パターンデータベース11a内を検索した後に異表記パターンデータベース11b内を検索する。
【0084】
次に、データベースが複数存在する場合の処理の別の例について説明する。図13は、本実施形態に係る検索装置100による図7のS706と707および図9のS905と906における文字列処理の詳細を説明する第二のフローチャートである。図13の例では、異表記パターンデータベースが複数存在するとき、最初に検索した異表記パターンデータベースに該当する表記が存在しない場合にのみ、他の異表記パターンデータベースを検索する。これにより、冗長的な異表記パターンの検索処理を回避することができ、処理負荷を低減することができる。
【0085】
図13のS1301、S1302は、図10のS1001、S1002と同様であるから説明を省略する。文字列処理部203は、S1302で検索した異表記パターンデータベースに対応する表記がない場合(S1303/NO)、記憶装置106に格納された他の異表記パターンデータベースに対応する表記が存在するか否かを判断する(S1307)。S1303からS1306及びS1308からS1310までの処理は、図10のS1003からS1009までの処理と同様であるため説明を省略する。
【0086】
図13の例では、例えば異表記パターン格納部209に格納された異表記パターンデータベースが、異表記パターンデータベース11a、11bの場合、文字列処理部203は、異表記パターンデータベース11a内を検索して対応する表記が存在しない場合にのみ異表記パターンデータベース11b内を検索する。
【0087】
以上のように、本実施形態に係る検索装置100では、複数の辞書データベースを有する場合でも第一の実施形態と同様の効果を得ることができる。
【0088】
なお、実施の形態1、2においては、図2に示すように、異表記パターン格納部209が検索装置100内に設けられている場合を例として説明した。この他、図14に示すように、サーバ等の情報処理装置によって実現される異表記パターンデータベース14a、14bがネットワークを介して接続されていても良い。
【0089】
本実施形態に係る検索装置100は、入力ユニット104から入力された文書データや文書を検索するためのテキストを文字列処理部203により形態素に分割し、生成した分割文字列を異表記パターンデータベース14a、14bへ送信する。異表記パターンデータベース14a、14bは、分割文字列で異表記パターンの検索を行って異表記正規化処理を行い、正規化文字列を検索装置100へ送信する。その後、検索装置100において、文書登録処理であれば、正規化文字列による索引の登録、検索処理であれば、正規化文字列による検索条件の生成が行われる。
【0090】
このように、本実施形態に係る検索装置100では、実施形態1、2と同様の効果を得ることができる。なお本実施形態の検索システム140では、異表記パターンデータベースを2つ有する構成としたが、これに限定されない。本実施形態の検索システム140は、異表記パターンデータベースが1つであっても良いし3つ以上であっても良い。また、図2の例と同様に、検索装置100内部に設けられた異表記パターン格納部209と同時に用いられても良い。
【0091】
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0092】
100 検索装置
101 CPU
102 メモリユニット
103 出力ユニット
104 入力ユニット
105 通信ユニット
106 記憶装置
107 ドライブ装置
140 検索システム
201 登録処理部
202 入力部
203 文字列処理部
204 出力処理部
205 検索条件作成部
206 検索処理部
207 文書格納部
208 索引格納部
209 異表記パターン格納部
210 形態素解析辞書格納部
【先行技術文献】
【特許文献】
【0093】
【特許文献1】特開平7−65013号公報

【特許請求の範囲】
【請求項1】
検索対象として格納するべき文書の情報を取得し、取得した文書の情報に含まれる文字列から索引となる文字列を抽出して検索対象の情報として格納する文書登録部と、
検索条件となる文字列を取得し、取得した文字列に基づいて検索条件を生成する検索条件生成部と、
前記生成された検索条件に基づいて前記格納された検索対象の情報を検索する検索処理部と、
入力された文字列を辞書情報に基づいて分割可能な単位文字列に分割する文字列分割部と、
同一とみなすことができて且つ表記の異なる複数の単位文字列と前記複数の単位文字列の代表として定められた代表表記とが関連付けられた異表記情報に基づき、前記分割された単位文字列を前記代表表記に変換する異表記処理部とを含み、
前記文書登録部は、前記格納するべき文書の情報に含まれる文字列を前記文字列分割部に入力し、前記異表記処理部から前記代表表記に変換された単位文字列を取得し、前記代表表記に変換された単位文字列を前記索引となる文字列として抽出し、
前記検索条件生成部は、前記取得した検索条件となる文字列を前記文字列分割部に入力し、前記異表記処理部から前記代表表記に変換された単位文字列を取得し、前記代表表記に変換された単位文字列に基づいて前記検索条件を生成し、
前記異表記処理部は、分割される前の文字列において連続して配置されている単位文字列を連結して連結文字列を生成し、前記異表記情報に基づいて前記連結文字列を前記代表表記に変換することを特徴とする検索装置。
【請求項2】
前記異表記処理部は、一の前記単位文字列について前記異表記情報に基づく前記代表表記への変換を行った後、分割される前の文字列において前記単位文字列に続いて配置されている次の単位文字列を連結して連結文字列を生成することを特徴とする請求項1に記載の検索装置。
【請求項3】
前記異表記処理部は、分割される前の文字列における文字列の区切りを判断し、前記文字列の区切りに到達するまで、連続して配置されている単位文字列を連結して連結文字列を生成することを特徴とする請求項1または2に記載の検索装置。
【請求項4】
前記異表記処理部は、分割される前の文字列に含まれるスペースに基づいて文字列の区切りを判断することを特徴とする請求項3に記載の検索装置。
【請求項5】
前記異表記処理部は、分割される前の文字列に含まれる文字列のうち、辞書情報に基づいて分割された結果単体では意味をなさない文字列として認識される文字列に基づいて文字列の区切りを判断することを特徴とする請求項3に記載の検索装置。
【請求項6】
前記異表記処理部は、分割される前の文字列に含まれる句読点に基づいて文字列の区切りを判断することを特徴とする請求項3に記載の検索装置。
【請求項7】
前記異表記処理部は、全ての前記分割された単位文字列夫々を先頭として、その先頭の単位文字列に続く単位文字列を連結して連結文字列を生成することを特徴とする請求項1乃至6いずれか1項に記載の検索装置。
【請求項8】
前記異表記処理部は、前記単位文字列または前記連結文字列に関連付けられた代表表記が前記異表記情報に存在しない場合、前記単位文字列または前記連結文字列そのものを代表表記として出力し、出力した前記代表表記において元となる前記単位文字列または前記連結文字列の一部が同一である複数の代表表記がある場合、前記異表記情報に基づいて変換された代表表記を優先的に採用することを特徴とする請求項7に記載の検索装置。
【請求項9】
前記異表記処理部は、前記異表記情報に基づいて変換された複数の代表表記であって元となる前記連結文字列の一部が同一である複数の代表表記がある場合、前記元となる連結文字列における前記単位文字列の連結数が最も多い代表表記を採用することを特徴とする請求項8に記載の検索装置。
【請求項10】
前記異表記処理部は、前記異表記情報に基づいて変換された複数の代表表記であって元となる前記連結文字列を構成する分割文字列の一部が同一であり、且つ前記同一である分割文字列に夫々異なる分割文字列が連結された複数の代表表記がある場合、前記複数の代表表記の全てを採用することを特徴とする請求項8に記載の検索装置。
【請求項11】
前記異表記処理部は、前記異表記情報に基づいて変換された複数の代表表記であって元となる前記連結文字列を構成する分割文字列の一部が同一であり、且つ前記同一である分割文字列に夫々異なる分割文字列が連結された複数の代表表記がある場合、前記複数の代表表記夫々の出現頻度を示す情報に基づいていずれか1つの代表表記を採用することを特徴とする請求項8に記載の検索装置。
【請求項12】
前記異表記処理部は、複数の前記異表記情報に基づき、前記分割された単位文字列または前記連結文字列を前記代表表記に変換することを特徴とする請求項1乃至11いずれか1項に記載の検索装置。
【請求項13】
前記異表記処理部は、複数の前記異表記情報の一つに基づいて前記分割された単位文字列または前記連結文字列を前記代表表記に変換し、一の前記異表記情報において前記分割された単位文字列または前記連結文字列に関連付けられた代表表記が存在しない、他の異表記情報に基ついて前記分割された単位文字列または前記連結文字列を前記代表表記に変換することを特徴とする請求項12に記載の検索装置。
【請求項14】
検索対象として格納するべき文書の情報を取得し、取得した文書の情報に含まれる文字列から索引となる文字列を抽出して検索対象の情報として記憶媒体に格納し、
検索条件となる文字列を取得し、取得した文字列に基づいて検索条件を生成して記憶媒体に格納し、
前記生成された検索条件に基づいて前記格納された検索対象の情報を検索した結果を記憶媒体に格納する検索装置の制御方法であって、
前記格納するべき文書の情報に含まれる文字列を辞書情報に基づいて分割可能な単位文字列に分割して記憶媒体に格納し、
同一とみなすことができて且つ表記の異なる複数の単位文字列と前記複数の単位文字列の代表として定められた代表表記とが関連付けられた異表記情報に基づき、前記分割された単位文字列及び分割される前の文字列において連続して配置されている単位文字列を連結した連結文字列を前記代表表記に変換することにより、前記索引となる文字列として抽出して前記検索対象の情報として記憶媒体に格納し、
前記取得した検索条件となる文字列を辞書情報に基づいて分割可能な単位文字列に分割して記憶媒体に格納し、
前記異表記情報に基づいて前記分割された単位文字列及び分割される前の文字列において連続して配置されている単位文字列を連結した連結文字列を前記代表表記に変換し、前記代表表記に変換された単位文字列に基づいて前記検索条件を生成することを特徴とする検索装置の制御方法
【請求項15】
検索対象として格納するべき文書の情報を取得し、取得した文書の情報に含まれる文字列から索引となる文字列を抽出して検索対象の情報として記憶媒体に格納し、
検索条件となる文字列を取得し、取得した文字列に基づいて検索条件を生成して記憶媒体に格納し、
前記生成された検索条件に基づいて前記格納された検索対象の情報を検索した結果を記憶媒体に格納する検索装置の制御プログラムであって、
前記格納するべき文書の情報に含まれる文字列を辞書情報に基づいて分割可能な単位文字列に分割して記憶媒体に格納するステップと、
同一とみなすことができて且つ表記の異なる複数の単位文字列と前記複数の単位文字列の代表として定められた代表表記とが関連付けられた異表記情報に基づき、前記分割された単位文字列及び分割される前の文字列において連続して配置されている単位文字列を連結した連結文字列を前記代表表記に変換することにより、前記索引となる文字列として抽出して前記検索対象の情報として記憶媒体に格納するステップと、
前記取得した検索条件となる文字列を辞書情報に基づいて分割可能な単位文字列に分割して記憶媒体に格納するステップと、
前記異表記情報に基づいて前記分割された単位文字列及び分割される前の文字列において連続して配置されている単位文字列を連結した連結文字列を前記代表表記に変換し、前記代表表記に変換された単位文字列に基づいて前記検索条件を生成するステップとを情報処理装置に実行させることを特徴とする検索装置の制御プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2012−194647(P2012−194647A)
【公開日】平成24年10月11日(2012.10.11)
【国際特許分類】
【出願番号】特願2011−56545(P2011−56545)
【出願日】平成23年3月15日(2011.3.15)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】