説明

文書検索装置、文書検索方法、及び文書検索プログラム

【課題】効率の良い文書の検索、および、ユーザへの適切な検索結果の出力を実現することでユーザの作業効率の向上を可能とする。
【解決手段】本実施形態の文書検索装置は、構造化文書データと、構造化文書データに含まれる語句毎の、抽出元の構造化文書データの識別子と抽出元の構造化文書データにおける属性とを含む抽出語句情報と、属性毎の検索方式と表示方式とを含む検索表示方式判定ルールとを記憶する記憶装置を備える。また、本実施形態の文書検索装置は、検索語句を入力し、検索語句と一致する語句が抽出語句情報に存在する場合に、抽出語句情報を参照して検索語句の属性を判定し、判定した属性に基づいて検索表示方式判定ルールを参照して構造化文書データを検索する検索方式と検索結果の表示形式とを判定し、判定された検索方式によって検索語句に基づく文書検索を行い、判定された表示形式によって検索結果を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は文書検索装置文書検索方法、及び文書検索プログラムに関する。
【背景技術】
【0002】
文書の電子化やWorldWideWeb(ワールドワイドウェブ、略名WWW)の普及に伴い、文書検索は日常生活や様々な業務で広く利用されるようになっている。例えば、インターネットの検索サービスを利用することにより、ユーザはキーワードを入力するだけで世界中のWebページに記載された情報を収集することができる。また、インターネットの検索サービス以外にも企業や官公庁での文書管理や情報共有を目的としたシステム、個人の情報整理のためのツールなどに文書検索は利用されている。
【0003】
文書検索は通常、キーワードに代表される検索要求を入力することで実行され、その結果として文書タイトルなどによる文書一覧が出力される。ユーザは出力された文書一覧の中から興味のある文書を選択して内容を確認するという手順を踏み、必要な情報を入手する。
【0004】
例えば、コールセンターでは、文書検索により過去事例を検索する。この検索の際の手間が小さければ、オペレータは関連事例を参照しながら問合せに対応できるようになるため、作業効率を向上することが可能となる。このように、文書検索の効率化や手間の低減が求められている。
【0005】
文書検索の手順や手間を削減し、作業効率を向上する方法がいくつかある。これらの方法の一つとして、インターネットの検索サービスの中に、一覧形式の検索結果を出力するための検索処理を実行させるボタンの他に、検索結果の1位の文書の内容を直接表示するボタンを用意する方法がある。しかしながら、この方式が有効になる場合は、事前に検索結果の1位が正解文書であることをユーザがわかっているときのみであるという問題がある。
【0006】
また、Web検索における過去の操作履歴を用いて、検索要求として入力されたキーワードに対応するWebサイトを推薦するという方法もある。この方法では、入力されたキーワードによって過去の検索で頻繁に参照されたWebサイトを判別し、そのキーワードの入力が完了された時点、かつ、検索処理が実行される前に、吹き出し形式などで上記Webサイトを推薦する。
【0007】
この方法では、検索要求の入力が終了した直後にユーザが求める情報が記載される文書を推薦することが可能である。しかしながら、対象がWeb検索に限定され、大量の操作ログを利用できる環境でのみ有効な方法であるという問題がある。すなわち、Web検索のような大量の操作ログを期待できない企業内や個人向け文書検索では有効に機能しないという問題がある。また、ユーザが検索要求のキーワードを最後まで入力する必要があるという問題もある。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2009−116422号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明が解決しようとする課題は、効率の良い文書の検索、および、ユーザへの適切な検索結果の出力を実現することである。
【課題を解決するための手段】
【0010】
本実施形態の文書検索装置は、構造化文書データと、構造化文書データに含まれる語句毎の、抽出元の構造化文書データの識別子と抽出元の構造化文書データにおける属性とを含む抽出語句情報と、属性毎の検索方式と表示方式とを含む検索表示方式判定ルールとを記憶する記憶装置を備える。また、本実施形態の文書検索装置は、検索語句を入力し、検索語句と一致する語句が抽出語句情報に存在する場合に、抽出語句情報を参照して検索語句の属性を判定し、判定した属性に基づいて検索表示方式判定ルールを参照して構造化文書データを検索する検索方式と検索結果の表示形式とを判定し、判定された検索方式によって検索語句に基づく文書検索を行い、判定された表示形式によって検索結果を出力する。
【図面の簡単な説明】
【0011】
【図1】第1の実施形態に係る文書検索装置の全体構成の一例を示す図。
【図2】第1の実施形態に係る文書検索装置の検索画面の一例を示す図。
【図3】第1の実施形態に係る文書検索装置の文書データの一例を示す図。
【図4】第1の実施形態に係る文書検索装置の文書構造情報の一例を示す図。
【図5】第1の実施形態に係る文書検索装置の抽出語句情報の一例を示す図。
【図6】第1の実施形態に係る文書検索装置の検索表示方式判定ルールテーブルの一例を示す図。
【図7】第1の実施形態に係る文書検索装置の文書検索処理の一例を示すフローチャート。
【図8】第1の実施形態に係る文書検索装置の検索表示方式判定処理の一例を示すフローチャート。
【図9】第1の実施形態に係る文書検索装置の出力部に出力される検索結果画面の一例を示す図。
【図10】第1の実施形態に係る文書検索装置の出力部に出力される検索結果画面の一例を示す図。
【図11】第2の実施形態に係る文書検索装置の全体構成の一例を示す図。
【図12】第2の実施形態に係る文書検索装置の検索方式指定画面の一例を示す図。
【図13】第2の実施形態に係る文書検索装置の検索方式指定領域の一例を示す図。
【図14】第3の実施形態に係る文書検索装置の全体構成の一例を示す図。
【図15】第3の実施形態に係る文書検索装置のクエリ選択処理の一例を示すフローチャート。
【図16】第3の実施形態に係る文書検索装置のアイコンの一例を示す図。
【図17】第3の実施形態に係る文書検索装置の検索画面の一例を示す図。
【図18】第4の実施形態に係る文書検索装置の検索画面の一例を示す図。
【図19】第4の実施形態に係る文書検索装置のクエリ候補生成処理の一例を示すフローチャート。
【図20】第4の実施形態に係る文書検索装置のクエリ選択処理の一例を示すフローチャート。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態について図面を参照して説明する。
【0013】
(第1の実施形態)
図1に本発明の第1の実施形態に係る文書検索装置の全体構成を示す。
【0014】
本実施形態の文書検索装置は、入力部11、文書検索部12、出力部15、文書記憶部16、文書構造記憶部17、抽出語句記憶部18、検索表示方式判定ルール記憶部19を備える。
【0015】
入力部11は、ユーザによる文書検索を行う際に検索要求である文字列の入力を行う。すなわち、ユーザが入力部11を用いて入力した文字列が文書検索装置に送信される。入力部11は、例えばキーボードとマウスであり、ユーザによる入力や指示などに用いられる。具体的には、ディスプレイに表示された入力画面にユーザがキーボードによって入力した入力文字列が表示され、入力部11であるマウスが入力画面上の「送信」ボタンをクリックすることによって本実施形態の文書検索装置に送信される。
【0016】
文書検索部12は、入力部11から入力された文字列(以下、入力文字列という)を検索クエリに変換し、この検索クエリに基づいて文書記憶部16に格納された文書データを検索する。文書検索部12は、抽出語句判定部13と検索表示方式判定部14とを備える。
【0017】
抽出語句判定部13は入力文字列が抽出語句記憶部18に保持されている語句であるか否かを判定する。検索表示方式判定部14は抽出語句判定部13の判定結果に基づいて、検索方式と表示形式とを判定する。
【0018】
例えば、文書検索部12は、入力文字列が後述する抽出語句記憶部18に保持されている語句である場合、抽出語句記憶部18に格納された当該語句の属性に基づいて、検索方式と表示形式とを判定する。判定した検索方式に基づいて、文書検索部12は文書記憶部16の文書データの検索を行う。また、判定した表示形式に基づいて、検索結果を出力部15に出力する。出力部15は例えば液晶ディスプレイなどの表示装置である。なお、あらかじめ、出力部15である液晶ディスプレイには検索画面100が表示される。検索画面100の一例を図2に示す。
【0019】
図2に示すように、検索画面100は、検索要求を入力するための入力フォーム101と、検索結果表示領域102と、入力ボタン103とを有する。ユーザが入力部11によって入力した検索要求である文字列が入力フォーム101に表示され、入力ボタン103を入力部11であるマウスがクリックすると、当該文字列が文書検索部12に入力され、文書検索が行われる。文書検索の結果は検索結果表示領域102に表示される。
【0020】
文書記憶部16は、文書検索装置の検索対象の文書データを文書データの構造情報とともに保持する。すなわち、文書記憶部16が保持する文書データはタグ付与などによる構造情報を含むデータであり、例えばWebページ文書、業務上作成された文書、特許公報などのデータを含む。本実施形態では、文書記憶部16はXML(Extensible Markup Language)で文書の構造情報を表現した形式で文書データを保持している。
【0021】
図3に文書記憶部16に保持されている文書データの一例を示す。図3に示した文書データは文書IDが34281であり、構成要素は「/doc/header/category」、「/doc/header/title」、および「/doc/body/section/title」、「/doc/body/section/description」である。
【0022】
「/doc/header/category」とは文書データのカテゴリを示す。「/doc/header/title」とは文書データのタイトルを示す。「/doc/body/section/title」とは文書データの章タイトルを示す。「/doc/body/section/description」とは文書データの章ごとの記述内容を示す。すなわち、本実施形態の文書データはカテゴリ毎に分類されている。
【0023】
文書構造記憶部17は、文書記憶部16に保持された文書データの構成要素を示す構成要素情報と、この構成要素に対する属性を示す属性情報とを有する文書構造情報を保持する。図4に文書構造記憶部17に保持されている文書構造情報200の一例を示す。なお、文書構造情報は文書データごと、すなわち文書IDごとに保持されている。
【0024】
図4に示した文書構造情報200は、文書データの構成要素201と、各構成要素から抽出した語句に付与する属性202とを有する。なお、構成要素が付与されていない部分の語句の属性を「term」とする。例えば、図3に示した文書データの構成要素「/doc/body/section/description」は文書構造情報の構成要素にないため、構成要素「/doc/body/section/description」に出現する語句の属性は「term」である。
【0025】
抽出語句記憶部18は、文書記憶部16が保持する文書データから抽出された語句(以下、抽出語句という)を、抽出元の文書データ(以下、抽出元文書という)の文書IDと、属性とに対応付けて保持している。この属性は、図4に示した文書構造情報を参照して決定される。
【0026】
図5に抽出語句記憶部18に保持されている抽出語句情報300の一例を示す。図5に示したように、抽出語句情報300は、抽出語句を識別するための「語句ID」301と、抽出語句の「表記」302と「読み」303と、抽出元情報304として抽出元の「文書ID」305と、この抽出元文書における抽出語句の「属性」306とを有する。ここでは、語句ID301が“1001”であり、表記302が“動作環境”であり、読み303が“どうさかんきょう”である語句の抽出元情報304として、4つの文書ID305と属性306のペアを示している。なお、読み303は抽出語句に形態素処理を施し、形態素解析辞書に登録しておいた形態素単位の読みを組み合わせることで付与する。
【0027】
なお、抽出語句記憶部18に格納される抽出語句は、あらかじめ、図示していない語句抽出部によって文書記憶部16が保持する文書データから抽出される。この語句抽出部は、文書記憶部16が保持する文書データに対応する文書構造記憶部17の文書構造情報を参照して抽出語句を抽出する。
【0028】
例えば、語句抽出部は、文書構造情報の構成要素を参照して、構成要素内に出現した文字列をそのまま抽出語句として抽出する。もしくは、形態素解析、意味情報抽出、複合語抽出、固有表現抽出など、さまざまな抽出を行っても良い。もしくは、形態素解析や意味情報抽出、複合語抽出などの抽出結果から、ある特定の種類を選択してもよい。もしくは、語句そのものだけではなく、品詞や意味属性名、語句の読みや出現した文書情報などを組にして抽出してもよい。
【0029】
さらに語句抽出部は、上記で抽出された抽出語句で再度、文書記憶部16中の文書データを検索し、各抽出語句に対して属性が付与された文書データ以外に出現文書があるかを検索する。出現文書があった場合には、その文書IDと属性のペア(文書ID,属性)を当該抽出語句情報300の抽出元情報304に格納する。
検索表示方式判定ルール記憶部19は、文書検索部12によって文書検索処理を行う際に用いられる検索表示方式判定ルール400を保持する。図6に検索表示方式判定ルール400の一例を示す。図6に示すように、検索表示方式判定ルール400は属性401ごとの、検索単位402、検索種別403、および表示形式404を示す。検索単位402と検索種別403とを合わせて検索方式という。
【0030】
検索単位402は、文書検索部12が検索を行う際の単位であり、例えば「文書/部分文書」である。検索単位402が「文書」の場合、文書検索部12は文書単位の検索を行う。検索単位402が「部分文書」の場合、文書検索部12は文書データ内の構成要素単位の検索を行う。例えば、章・節の構造を持つ構造化文書データを検索する場合に、検索単位402が「部分文書」の場合は、文書検索部12は文書データの章・節の単位で検索する。
【0031】
検索種別403は検索方式の種類を示すものであり、例えば「属性検索/全文検索」である。「属性検索」は属性に対応した文書中の特定の部分や書誌情報の一部が検索語句に一致する文書を検索する。「全文検索」は文書中のどこかに検索語句を含む文書を検索する。
【0032】
表示形式404は、出力部15に出力する形式を示すものであり、例えば「一覧表示/文書直接表示」である。「一覧表示」は文書データのタイトル一覧を出力部15に表示する。「文書直接表示」は検索結果の文書データの内容を出力部15に表示する。
【0033】
なお、文書記憶部16、文書構造記憶部17、抽出語句記憶部18、検索表示方式判定ルール記憶部19は、同一の記憶装置に格納されてもよいし、複数の記憶装置に格納されてもよい。記憶装置は、例えばハードディスクやフラッシュメモリである。
【0034】
ここで、図7乃至図10を用いて、本実施形態の文書検索装置の文書検索処理について説明する。以下では、企業など組織内で公開される仕様書や報告書などの構造化文書のデータを文書記憶部16に保持し、ユーザからの検索要求に基づいてこの構造化文書データを検索して、検索結果を出力する文書検索装置について説明する。例えば、文書記憶部16はXMLデータベースで実現し、検索要求である入力文字列に基づいて文書検索部12において作成される検索クエリは、XMLデータベースの問合せ言語であるXQueryで作成されて、検索が実行されるとする。また、ここでは、文書検索処理の開始時に出力部15である液晶ディスプレイには図2の検索要求画面100が表示されており、検索要求画面100の入力フィールド101にはユーザによって入力された文字列である「社内文書管理システム仕様書」が表示されているとする。
【0035】
図7は文書検索装置がユーザの検索要求に対して検索結果を出力する際の動作を示すフローチャートである。
【0036】
まず、文書入力部11はユーザにより入力された入力文字列を取得する(ステップS101)。具体的には、ユーザが、入力部11であるマウスを用いて入力ボタン103をクリックすると、入力フィールド101に表示された文字列が文書検索部12に入力される。ここでは、「社内文書管理システム仕様書」という入力文字列が文書検索部12に入力される。
【0037】
文書検索部12が入力文字列を取得すると、文書検索部12の抽出語句判定部13は、この入力文字列が抽出語句記憶部18に格納されているか否かを判定する(ステップS102)。すなわち、抽出語句記憶部18に入力文字列と一致する抽出語句が格納されているか否かを検索する。
【0038】
入力文字列が語句抽出記憶部18に格納されている場合(ステップS102がYes)、検索表示方式判定部14が検索表示方式判定処理を行う(ステップS103)。
【0039】
具体的には、検索表示方式判定部14は、入力文字列と一致する抽出語句の抽出語句情報と検索表示方式判定ルール記憶部19に格納された検索表示方式判定ルール400とを参照して、検索単位402と検索種別403からなる検索方式および表示形式404の判定を行う。この検索表示方式判定処理については後述する。
【0040】
ステップS103における検索方式の判定結果に基づいて、文書検索部12は文書記憶部16に格納されている文書データ群に対して文書検索を実行する(ステップ104)。 検索が完了すると、ステップS103で判定された表示形式404に基づいて、出力部15に検索結果が表示され(ステップS105)、文書検索処理が終了する。
【0041】
入力文字列が語句抽出記憶部18に格納されていない場合(ステップS102がNo)、文書検索部12は文書記憶部16に格納されている文書データ群に対して「文書単位」の「全文検索」を実行する(ステップS106)。検索が完了すると、一覧形式において出力部15に検索結果が表示され(ステップS107)、文書検索処理を終了する。
【0042】
ここで、図7のステップS103における、文書検索部12による検索表示方式判定処理について、図8に示すフローチャートを用いて説明する。図8は文書検索部12による検索表示方式判定処理の一例を示すフローチャートである。
【0043】
まず、文書検索部12は、図7のステップS101で入力された入力文字列に基づいて、抽出語句記憶部13から当該入力文字列と一致する語句の抽出語句情報300を取得する(ステップS201)。続いて、文書検索部12の抽出語句判定部13が、当該抽出語句の属性306に基づいて、当該入力文字列の代表属性を判定する。
【0044】
具体的には、ステップS201で取得された抽出語句情報300に含まれる抽出元情報304に基づき、文書検索部12の抽出語句判定部13は、当該抽出語句の属性306が「doc_title」であるかどうかを判定する(ステップS202)。なお、取得された抽出語句情報300が複数の文書から抽出された語句の抽出語句情報である場合、すなわち、取得された語句の抽出語句情報300に含まれる抽出元文書ID305が複数ある場合は、そのうちのいずれかの抽出元文書IDが示す文書データにおける抽出語句の属性306が「doc_title」であれば、入力文字列の属性が「doc_title」であるとする。
【0045】
ステップS201で取得された抽出語句情報300の属性306が「doc_title」である場合(ステップS202がYes)、検索表示方式判定部14は、属性306に基づいて検索表示方式判定ルール400を参照して検索単位402と検索種別403とを決定する(ステップS203)。ここでは、属性306が「doc_title」であるため、検索表示方式判定部14は検索単位402を「文書」とし、検索種別403を「属性検索」とする。
【0046】
続いて、検索表示方式判定部14は検索表示方式判定ルール400を参照して表示形式を判定する。具体的には、検索表示方式判定ルール400の表示形式が、「一覧表示/文書直接表示」であるため、まず、語句の属性が「doc_title」である抽出元文書が一つであるかを判定する。(ステップS204)。
【0047】
語句の属性が「doc_title」である抽出元文書が一つである場合(ステップS204がYes)、検索表示方式判定部14は検索表示方式判定ルール400の「文書直接表示」を選択し(ステップS205)、検索表示方式判定処理を終了する。
【0048】
語句の属性が「doc_title」である抽出元文書が複数である場合(ステップS204がNo)、検索表示方式判定部14は検索表示方式判定ルール400の「一覧表示」を選択し(ステップS206)、検索表示方式判定処理を終了する。
【0049】
語句の属性が「doc_title」でない場合(ステップS202がNo)、抽出語句判定部13は、語句の属性が「doc_category」であるかどうかを判定する(ステップS207)。なお、取得された語句情報が複数の文書から抽出された語句の語句情報である場合、すなわち、取得された語句の語句情報に含まれる抽出元文書IDが複数である場合は、そのうちのいずれかの文書データにおける語句の属性が「doc_category」であれば、語句の属性が「doc_category」であるとする。
【0050】
語句の属性が「doc_category」である場合(ステップS207がYes)、検索表示方式判定部14は、語句の属性に基づいて検索表示方式判定ルール400を参照して検索単位と検索種別と表示形式とを決定する(ステップS208)。具体的には、語句の属性が「doc_category」であるため、検索表示方式判定部14は検索の単位を文書とし、検索方式を属性検索とし、表示形式を一覧表示とする。そして、検索表示方式判定処理は終了する。
【0051】
語句の属性が「doc_category」でない場合(ステップS207がNo)、抽出語句判定部13は、語句の属性がsection_titleであるかどうかを判定する(ステップS209)。なお、取得された語句情報が複数の文書から抽出された語句の語句情報である場合、すなわち、取得された語句の語句情報に含まれる抽出元文書IDが複数である場合は、そのうちのいずれかの文書データにおける語句の属性のうち所定の割合以上の属性がsection_titleであれば、語句の属性がsection_titleであるとする。すなわち、属性「section_title」が所定の割合に満たない場合は、ステップS209はNoと判定される。なお、所定の割合とはあらかじめ定められているものとする。
【0052】
語句の属性がsection_titleである場合(ステップS209がYes)、検索表示方式判定部14は、語句の属性に基づいて検索表示方式判定ルール400を参照して検索単位と検索種別とを決定する(ステップS210)。ここでは、語句の属性がsection_titleであるため、検索表示方式判定部14は検索の単位を「/doc/body/section」とし、検索方式を属性検索とする。
【0053】
続いて、検索表示方式判定部14は検索表示方式判定ルール400を参照して表示形式を判定する。具体的には、検索表示方式判定ルール400の表示形式が、「一覧表示/文書直接表示」であるため、まず、語句の属性がsection_titleである抽出元文書が一つであるかを判定する。(ステップS211)。
【0054】
語句の属性がsection_titleである抽出元文書が一つである場合(ステップS211がYes)、検索表示方式判定部14は検索表示方式判定ルール400の「文書直接表示」を選択し(ステップS212)、検索表示方式判定処理を終了する。この場合、出力部15は、検索表示方式判定処理結果に基づいて検索された、語句に属性section_titleが付与された文書の、/doc/body/section/title、当該語句の構成要素/doc/body/sectionを直接表示する。
【0055】
語句の属性がsection_titleである抽出元文書が複数である場合(ステップS211がNo)、検索表示方式判定部14は検索表示方式判定ルール400の「一覧表示」を選択し(ステップS213)、検索表示方式判定処理を終了する。この場合、出力部15は、検索表示方式判定処理結果に基づいて検索された、語句に属性section_titleが付与された文書の一覧を検索結果として表示する。なお、表示された文書がユーザに選択されたときには、/doc/body/section/titleが当該語句の構成要素/doc/body/sectionを提示するようにしてもよい。
【0056】
語句の属性がsection_titleでない場合(ステップS209がNo)、検索表示方式判定部14は、語句の属性を「term」と判定し、当該属性に基づいて検索表示方式判定ルール400を参照して検索単位と検索種別と表示形式とを決定する(ステップS214)。そして、検索表示方式判定部14は検索表示方式判定処理を終了する。
【0057】
図9に全文検索の結果を一覧形式で提示する検索方式による検索結果を表示する出力部15の一例を示す。図9は、文書入力部11からユーザが入力した「社内文書管理システム」という入力文字列が入力された場合の出力部15に表示される検索画面100の一例である。
【0058】
図9に示す検索画面100は、検索種別が「全文検索」であり、表示形式が「一覧形式示」の場合である。検索が行われた結果が検索結果表示領域102に、各文書の本文へのリンクとなる文書データ名の一覧の形式で表示されている。ユーザは検索結果表示領域102に表示された文書データ名のうち一つを選択することで、当該文書を閲覧することができる。また、再度入力フォーム101に文字列を入力し、送信することで、検索をやり直すことも可能である。
【0059】
図10に検索式を用いて単一の文書に絞り込む検索方式による検索結果を表示する出力部15の一例を示す。入力フォーム101に「社内文書管理システム仕様書」という文字列を入力し、入力ボタン103をクリックした後の状態を示す。本実施形態の入力部は、入力フォーム101に入力された語句に基づいて、検索式「/doc/header/title=“社内文書管理システム仕様書”」を生成し、検索を行う。検索の結果、入力文字列と同一の「社内文書管理システム仕様書」という文書データが検索結果として検索結果表示領域102に表示される。なお、この場合、文書「社内文書管理システム仕様書」の本文へのリンクを表示するのではなく、本文を直接表示する。ユーザが別の文書を要求する場合は、再度入力フォーム101に文字列を入力することで検索をやり直すことが可能である。
【0060】
上述したように、本実施形態の文書検索装置は、入力された語句の属性によって、適切な検索を行うことができるため、効率の良い検索を行うことが可能である。また、検索結果に対して適切な出力を行うことができるため、ユーザの作業効率を向上することが可能である。
【0061】
(第2の実施形態)
図11に本発明の第2の実施形態に係る文書検索装置の概略構成を示す。なお、第1の実施形態と同一の構成には同一の符号を付し、説明は省略する。
【0062】
図11に示すように本実施形態に係る文書検索装置は、図1に示した文書検索装置の構成に検索方式指定部20をさらに有する構成である。
【0063】
ユーザは、検索方式指定部20を用いて検索方式の指定を行う。この検索方式指定部20によって指定された検索方式に基づいて、文書検索部12は再度文書記憶部16の検索を行う。
【0064】
図12を参照して検索方式指定部20による検索方式指定処理の一例を説明する。図12に示す検索画面110は、ユーザによって、入力フォーム110に「社内文書管理システム仕様書」という文字列が入力されて入力ボタン113がクリックされ、入力部11によってこの入力文字列が入力された後の状態を示す。検索結果表示領域112に検索結果の文書が表示されている。
【0065】
図12に示した検索画面110においては、「社内文書管理システム仕様書」は文書名として抽出されており、抽出された文書がひとつであるため検索結果の文書が直接表示されている。
【0066】
本実施形態の検索装置においては、第1の実施形態における検索方式提示処理が行われた後に、図12の他の検索方式リンク114がユーザによって選択されると、検索方式指定部20によって検索方式指定処理が行われる。
【0067】
すなわち、他の検索方式リンク114をユーザが入力部11によって選択すると、検索方式指定部20が検索方式選択領域115をポップアップ表示する。図13に検索方式選択領域115が表示された出力部15の一例を示す。図13に示す出力部15には、検索方式選択領域115、他の検索方式として「全文検索」が例示されている。すなわち、検索方式提示処理において選択された検索方式以外の検索方式が検索方式選択領域115に表示される。ここで、「はい」ボタンをクリックすると、「社内文書管理システム仕様書」に対する文書検索を別の検索方式である全文検索で行う。
【0068】
上述したように、本実施形態の文書検索装置によると、検索結果がユーザの意に沿わない場合に、検索方式を再設定することが可能であるため、ユーザが効率的な検索を行うことを可能とする。
【0069】
(第3の実施形態)
図14に本発明の第3の実施形態に係る文書検索装置の概略構成を示す。なお、第1の実施形態と同一の構成には同一の符号を付し、説明は省略する。
【0070】
図14に示すように本実施形態に係る文書検索装置は、図1に示した文書検索装置の構成に、クエリ候補生成部27およびクエリ選択部28をさらに有する構成である。
【0071】
クエリ候補生成部27はユーザの入力文字列に対応する検索クエリの候補(以下、クエリ候補という)を生成する。すなわち、クエリ候補生成部27は、入力部11から入力された入力文字列と、抽出語句記憶部18に格納されている抽出語句の表記302、あるいは読み303を比較し、対応すると判断した語句をクエリ候補としてクエリ選択部28へ送信する。
【0072】
本実施形態の文書検索装置は、文書検索部12が文書記憶部16を検索する際に、クエリ候補生成部27が生成したクエリ候補の中からクエリ選択部28を介してユーザが選択したクエリを用いて検索を行う。
【0073】
なお、本実施形態の抽出語句記憶部18に格納される抽出語句は、第1の実施形態と同様に、図示していない語句抽出部によって文書記憶部16が保持する文書データから抽出される。
【0074】
本実施形態の語句抽出部は、文書記憶部12に保持された文書データの全範囲に対して、形態素解析、固有表現抽出、および複合語抽出をそれぞれ行い、それぞれの結果から特定の品詞や意味属性を持つ語句を抽出する。語句抽出部は、これらのような公知の手法により抽出した語句に、抽出元の文書IDとこの抽出元文書における抽出語句の属性とのペア(文書ID,属性)を付与する。
【0075】
クエリ候補生成部27は、入力部11から受信した入力文字列と、抽出語句記憶部18に記憶されている語句の表記302、あるいは読み303を比較して、対応するか否かを判定する。対応すると判定される語句がある場合、クエリ候補生成部27は、当該語句をクエリ候補としてクエリ選択部28へ送る。なお、クエリ候補生成部27が入力部11から入力文字列を受信するタイミングは、例えば、入力部11においてユーザが入力ボタンをクリックしたタイミングである。または、特定の文字数が入力されたタイミングや、入力中に一定時間が経過したタイミングでもよい。
【0076】
クエリ候補生成部27は、抽出語句記憶部18に記憶されている語句と入力文字列との表記302、または、読み303が一致する場合に対応すると判定する。また、例えば入力文字列を部分的に包含する表記、読みを持つ語句、類似する表記を持つ語句、あるいは意味や統計上密接に関係する語句などを対応すると判定してもよい。
【0077】
例えば、表記302もしくは読み303が前方一致した語句からクエリ候補を生成する場合、「し」をクエリ候補生成部27が受け取ると、「社内文書管理」、「社内文書検索」、「社内文書管理システム仕様書」、「社内文書の選択方法」等の読み303が「し」で始まる抽出語句記憶部18中の語句がクエリ候補として抽出される。なお、クエリ候補の個数が多い場合は、term frequency・inverse document frequency法(tf・idf法)などによって優先度付けをし、一定数のクエリ候補に絞り込んでもよい。また、その際に、優先度の高いクエリ候補と先頭からの表記302が一定文字数以上、あるいは、一定割合以上共通するクエリ候補は削除してもよい。
【0078】
そして、ユーザは、入力部11を用いて、クエリ候補生成部27が作成したクエリ候補からクエリを選択する。選択されたクエリは、クエリ選択部28に送信される。クエリ選択部28は、受信したクエリに基づいてクエリ選択処理を行い、処理結果とともに文書検索部12へ送信する。
【0079】
ここで、図15を参照して、クエリ選択部28によるクエリ選択処理の一例を説明する。図15はクエリ選択処理の一例を示すフローチャートである。
【0080】
まず、クエリ選択部28はクエリ候補生成部27より生成されたクエリ候補とその属性とを受信する(ステップS301)。クエリ選択部28は受信したクエリ候補とその属性とのペアをユーザに表示し、ユーザはこのクエリ候補とその属性とに基づいて、検索対象のクエリ候補を選択する。
【0081】
このとき、クエリ選択部28が受信したクエリ候補において、対応する属性が複数の場合がある。この場合、全てのクエリ候補とその属性とのペアをユーザに表示しても良い。もしくは、クエリ候補に対する代表する属性を一つ選択して、当該クエリ候補とその属性とのペアを表示するようにしても良い。本実施形態では、図15のステップS302〜ステップS308において、クエリ選択部28は、クエリ候補の代表属性を選択する処理(以下、代表属性選択処理という)を行っている。
【0082】
まず、クエリ選択部28は、受信したクエリ候補に対する属性に、「doc_title」が含まれるかどうかを判定する(ステップS302)。
【0083】
クエリ候補の属性に「doc_title」が含まれる場合(ステップS302がYes)、クエリ選択部28は、クエリ候補の属性が「doc_title」であると判定する(ステップS303)。
【0084】
受信したクエリ候補に対する属性に、「doc_title」が含まれない場合(ステップS302がNo)、クエリ選択部28は、クエリ候補の属性が「doc_category」が含まれるかどうかを判定する(ステップS304)。
【0085】
クエリ候補の属性に「doc_category」が含まれる場合(ステップS304がYes)、クエリ選択部28は、クエリ候補の属性が「doc_category」であると判定する(ステップS305)。
【0086】
クエリ候補の属性に「doc_category」が含まれない場合(ステップS304がNo)、クエリ選択部28は、クエリ候補の属性に、クエリ候補に付与された全ての属性の数に対して所定の割合以上のsection_titleが含まれるかどうかを判定する(ステップS306)。すなわち、属性「section_title」が所定の割合に満たない場合は、ステップS306はNoと判定される。なお、所定の割合とはあらかじめ定められているものとする。
【0087】
クエリ候補の属性に所定の割合以上のsection_titleが含まれる場合(ステップS306がYes)、クエリ選択部28は、クエリ候補の属性がsection_titleであると判定する(ステップS307)。
【0088】
クエリ候補の属性に所定の割合以上のsection_titleが含まれない場合(ステップS306がNo)、クエリ選択部28は、クエリ候補の属性がtermであると判定する(ステップS308)。
【0089】
クエリ候補生成部27から受信したクエリ候補全てに対して代表属性選択処理が行われていない場合(ステップS309がNo)、次のクエリ候補に対して代表属性選択処理を開始する(ステップS312)。
【0090】
クエリ候補生成部27から受信したクエリ候補全てに対して代表属性選択処理が行われた場合(ステップS309がYes)、クエリ選択部28は、クエリ候補とその属性とを対応付けて、ユーザに表示する(ステップS310)。この場合、出力部15であディスプレイに表示しても良い。 なお、ここでは属性はアイコンによって表現され、表示されるとする。図16に本実施形態の各属性を示すアイコンの一例を示す。
【0091】
図17にクエリ候補とその属性との一覧をユーザに表示する画面の一例を示す。図17は検索画面120の一例であり、入力フォーム121と、検索結果表示領域122と、入力ボタン123と、クエリ候補表示領域124を備える。入力フォーム121、検索結果表示領域122、および入力ボタン123は第1の実施形態の検索画面100の入力フォーム101、検索結果表示領域102、および入力ボタン103と同様の機能を有する。
【0092】
クエリ候補表示領域124は、ステップS310において、ユーザにクエリ候補とその属性とを対応付けて表示するための領域である。図17にはクエリ候補として、「社内文書管理システム仕様書」、「社外発表申請」、「システムエンジニア」、および「四半期」が表示されている。「社内文書管理システム仕様書」の属性は、“doc_title”であり、「社外発表申請」の属性は、“section_title”であり、「システムエンジニア」および「四半期」の属性は、“term”である。
【0093】
ユーザがクエリ候補表示領域124に表示されたクエリ候補の語句の中から一つを選択すると、クエリ選択部28は選択されたクエリ候補とその属性とを文書検索部12へ送信する(ステップS311)。
【0094】
文書検索部12がクエリ選択部28よりクエリ候補である語句とその属性とを受信すると、検索方式判定部14が、クエリ選択部28より受信したクエリ候補である語句とその属性とに基づいて図8に示す検索方式判定処理を実行する。そして文書検索部12は検索表示方式判定部14の判定結果に基づいて文書検索を実行し、出力部15に出力する。
【0095】
上述したように、本実施形態の文書検索装置によると、ユーザの入力した文字に対するクエリ候補を示すことが可能である。すなわち、ユーザは検索対象の文字列をすべて入力しなくとも、提示される候補を選択することで文書検索を実行できるため、ユーザによる入力の負担を低減することが可能となる。
【0096】
また、上述したような方法で検索を実行する際に、出力する各候補に適用可能な検索処理の種類についての情報がユーザに開示されるため、直接単一の文書に絞り込む検索処理など、その後の検索処理の種類に基づいた候補選択をユーザが積極的に行うことができる。
【0097】
(第4の実施形態)
本実施形態の文書検索装置は第3の実施形態の文書検索装置と同様の構成である。
【0098】
図18に第4の実施形態に係る文書検索装置の入力部11によってユーザが検索の対象の語句を入力する際の検索画面130の一例を示す。
【0099】
図18に示す検索画面130はカテゴリ検索用の検索画面130であり、ユーザが文書検索を行う語句を入力するための入力フィールド131と、文書データ中の“/doc/header/category”の語句によって検索対象文書を絞り込むための語句(以下、絞り込み語句という)を入力するメニュー134を備えている。すなわち、本実施形態の文書検索装置では、カテゴリ検索用の入力画面130のメニュー134にユーザが入力部11を用いて絞り込み語句を入力する。
【0100】
すなわち、入力部11から入力された絞り込み語句によって、検索対象の文書が絞り込まれる。ここでは、検索対象の文書が入力された絞り込み語句とカテゴリが一致する文書集合に絞り込まれるとする。具体的には、例えば、ユーザが入力部11を用いてメニュー134に入力する絞り込み語句に基づいて、抽出語句情報300を参照し、当該絞り込み語句に対する属性306が、“doc_category”である抽出元文書ID305を検索対象の文書群とする。
【0101】
なお、絞り込み語句は、ユーザが入力部11を用いて直接メニュー134に入力してもいいし、または、抽出語句記憶部18に格納された抽出語句情報300に含まれる、属性306に“doc_category”を含む抽出語句を、メニュー134に表示し、ユーザが入力部134を用いて選択しても良い。
【0102】
図18に示すように、本実施形態の文書検索装置においては、抽出語句記憶部18に格納された抽出語句情報300に含まれる、属性306に“doc_category”を含む抽出語句「規程」、「仕様書」、及び「マニュアル」が、メニュー134の下部に表示され、ユーザが、斜線部分で示された「仕様書」というカテゴリを入力部11を用いて選択したとする。
指定されたカテゴリに基づいて、クエリ候補生成部27がクエリ候補を生成する。すなわち、ユーザが指定したカテゴリ内におけるクエリ候補を生成する。生成されたクエリ候補はクエリ選択部28に送信され、ユーザがクエリ選択部28によってクエリ候補の中から一つを選択することによって、文書検索を行う。
【0103】
ここで、図19を参照して、本実施形態の文書検索装置の動作について説明する。図19は本実施形態の文書検索装置のクエリ候補生成処理の一例を示すフローチャートである。
【0104】
なお、ここではユーザが、入力部11であるマウスによってカテゴリ検索用入力画面130のメニュー134をクリックすると、クエリ候補生成処理が開始される。
【0105】
ユーザが入力部11によってメニュー134をクリックすると、クエリ候補生成部27は、抽出語句記憶部18から“doc_category”属性を持つ全ての語句の抽出語句情報300を取得する(ステップS401)。クエリ候補生成部27は、図18に示すように、取得した語句をメニュー134の下部に一覧表示する(ステップS402)。
【0106】
ユーザが、入力部11であるマウスによって、ステップS402で表示された語句の一覧から一つの語句を選択すると、文書検索部12はメニュー134から入力された語句が“/doc/header/category”に出現する文書の文書ID305を抽出する(ステップS403)。このとき、文書検索部12は、例えば、抽出語句記憶部18の当該選択語句の抽出語句情報300において、属性「doc_category」とペアで記憶された文書ID305を取得することにより実現できる。
【0107】
続いて、ユーザによって、入力フィールド131に検索対象の文字列が入力される(ステップS404)。クエリ候補生成部27は、入力された文字列に対応するクエリ候補を生成する(ステップS405)。生成した各クエリ候補において文書ID集合に含まれる文書に出現するクエリ候補のみと、文書ID集合とをクエリ選択部28へ送信する(ステップS406)。具体的には、例えばステップS405において生成したクエリ候補の抽出語句情報300の抽出元文書ID305に、ステップS405で抽出された文書ID305が含まれる語句のみをクエリ候補とする。
【0108】
クエリ選択部28は受信した各クエリ候補に対して当該文書ID集合に関する抽出語句情報300を参照し、対する属性判定処理を行う(ステップS407)。
また、本実施形態のクエリ選択部28は、クエリ候補生成部27から受信した各クエリ候補に対して、ステップS405で抽出された文書ID305に対する属性の中から属性の判定を行い、クエリ選択処理を行う。具体的には、図20に示すように、図15のステップS301とステップS302との間に、受信したクエリ候補の抽出語句情報300から、ステップS405において抽出された文書ID集合における属性のみを抽出するステップS313を追加し、抽出した属性に対して、図15のステップS302からステップS308の処理を行う。本実施形態のクエリ選択部28によって生成されたクエリ候補は、入力フィールド131の下部に表示される。
【0109】
本実施形態の文書検索装置によると、カテゴリに基づいて、検索対象の文書データを絞り込み、絞り込まれた文書データから生成されるクエリ候補をユーザが選択することによって文書検索を行うため、より効率的な検索を行うことを可能とする。すなわち、カテゴリによって検索対象の文書データを絞り込んで検索を行うことによって検索結果をより絞り込むことが可能となる。したがって、検索結果の文書データをユーザに直接表示しやすくなる。なお、カテゴリ以外の属性で絞り込むことも可能である。
【0110】
以上、本発明のいくつかの実施形態を説明したが、これら実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0111】
11…入力部、12…文書検索部、13…抽出語句判定部、14…検索表示方式判定部、15…出力部、16…文書記憶部、17…文書構造記憶部、18…抽出語句記憶部、19…検索表示方式判定ルール記憶部

【特許請求の範囲】
【請求項1】
構造化文書データと、前記構造化文書データに含まれる語句毎の、抽出元の構造化文書データの識別子と前記抽出元の構造化文書データにおける属性とを含む抽出語句情報と、属性毎の検索方式と表示方式とを含む検索表示方式判定ルールとを記憶する記憶装置と、
検索語句を入力する文字入力部と、
前記検索語句と一致する語句が前記抽出語句情報に存在する場合に、当該抽出語句情報を参照して前記検索語句の属性を判定し、判定した前記属性に基づいて前記検索表示方式判定ルールを参照して前記構造化文書データを検索する検索方式と検索結果の表示形式とを判定する検索表示方式判定部と、
判定された前記検索方式によって、前記検索語句に基づいて前記構造化文書データの検索を行う文書検索部と、
判定された前記表示形式によって前記文書検索部による検索結果を出力する出力部と、
を備える文書検索装置。
【請求項2】
前記検索表示方式判定部は、判定した前記属性に対応する前記構造化文書データの識別子が一つである場合に、前記表示形式を文書直接表示とする請求項1に記載の文書検索装置。
【請求項3】
前記検索表示方式判定部が判定した前記検索方式以外の検索方式を指定するための検索方式指定部をさらに備え、
前記文書検索部は前記検索方式指定部によって指定された検索方式に基づいて検索を行う請求項1乃至請求項2のいずれか一項に記載の文書検索装置。
【請求項4】
前記文字入力部からの入力文字に基づいて前記抽出語句情報を検索し、検索クエリの候補を生成するクエリ候補生成部と、
前記抽出語句情報を参照して生成された前記クエリ候補に対する属性を判定し、当該クエリ候補と当該属性とを対応付けてユーザに示し、ユーザによって選択されたクエリ候補と属性とを前記文書検索部に送信するクエリ選択部と、
を備え、
前記文書検索部は前記クエリ選択部から送信された前記クエリ候補を前記検索語句とし、前記クエリ選択部から送信された前記属性に基づいて前記検索表示方式判定ルールを参照して前記検索方式を判定し、判定された前記検索方式によって前記構造化文書データを検索する請求項1乃至請求項3のいずれか一項に記載の文書検索装置。
【請求項5】
前記入力部は、絞り込み語句を入力し、
前記文書検索部は、前記絞り込み語句に基づいて前記構造化文書データを絞り込み、判定された前記検索方式によって、前記検索語句に基づいて前記絞り込んだ構造化文書データを検索する請求項1乃至請求項4のいずれか一項に記載の文書検索装置。
【請求項6】
構造化文書データと、前記構造化文書データに含まれる語句毎の、抽出元の構造化文書データの識別子と前記抽出元の構造化文書データにおける属性とを含む抽出語句情報と、属性毎の検索方式と表示方式とを含む検索表示方式判定ルールとを記憶する記憶装置を備える文書検索装置における文書検索方法であって、
検索語句を入力するステップと、
前記検索語句と一致する語句が前記抽出語句情報に存在する場合に、当該抽出語句情報を参照して前記検索語句の属性を判定し、判定した前記属性に基づいて前記検索表示方式判定ルールを参照して前記構造化文書データを検索する検索方式と検索結果の表示形式とを判定するステップと、
判定された前記検索方式によって、前記検索語句に基づいて前記構造化文書データの検索を行うステップと、
判定された前記表示形式によって前記文書検索部による検索結果を出力するステップと、
を備える文書検索方法。
【請求項7】
構造化文書データと、前記構造化文書データに含まれる語句毎の、抽出元の構造化文書データの識別子と前記抽出元の構造化文書データにおける属性とを含む抽出語句情報と、属性毎の検索方式と表示方式とを含む検索表示方式判定ルールとを記憶する記憶装置を備える文書検索装置の文書検索プログラムであって、
コンピュータに、
検索語句を入力する機能と、
前記検索語句と一致する語句が前記抽出語句情報に存在する場合に、当該抽出語句情報を参照して前記検索語句の属性を判定し、判定した前記属性に基づいて前記検索表示方式判定ルールを参照して前記構造化文書データを検索する検索方式と検索結果の表示形式とを判定する機能と、
判定された前記検索方式によって、前記検索語句に基づいて前記構造化文書データの検索を行う機能と、
判定された前記表示形式によって前記文書検索部による検索結果を出力する機能と、
を実行させる文書検索プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate


【公開番号】特開2012−146097(P2012−146097A)
【公開日】平成24年8月2日(2012.8.2)
【国際特許分類】
【出願番号】特願2011−3439(P2011−3439)
【出願日】平成23年1月11日(2011.1.11)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】