説明

文書検索装置及び文書検索プログラム

【課題】ユーザの検索したい文書に対する記憶の確信度を客観的に反映させた文書検索を行う。
【解決手段】表示された用紙上に配置される構成要素に設定可能な属性であって異なる粒度にて細分類可能な属性の階層関係が定義された属性情報を記憶する属性情報記憶部24と、表示された仮想紙面上に所定の位置及び大きさで、また属性が指定されて配置することにより検索キー情報を生成する検索キー情報生成部21と、検索キー情報及び比較対象の文書画像の各構成要素の類似の度合いに応じた重みが設定された重み情報記憶部25と、文書検索を行う際に、検索キー情報と比較対象の文書画像それぞれに含まれる構成要素の類似度を重みを参照に類似度を算出することによって類似文書を特定する文書検索部22と、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書検索装置及び文書検索プログラムに関する。
【背景技術】
【0002】
特許文献1には、入力された問い合わせ画像の各領域に対して利用者の確信度または重要度に基づく形状情報および色情報を問い合わせ画像に付加し、検索の際、問い合わせ画像と概略画像の各領域の確信度または重要度との整合度を導出することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平6−309377号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、ユーザの検索したい文書に対する記憶の確信度を客観的に反映させた文書検索を行うことを目的とする。
【課題を解決するための手段】
【0005】
本発明に係る文書検索装置は、用紙を表示する表示手段と、表示された用紙上に配置される構成要素に設定可能な属性の階層関係が定義された属性情報を記憶する記憶手段と、 ユーザに、表示された用紙上に1又は複数の構成要素を配置させると共に、配置された各構成要素に、前記属性情報に定義された属性の中からユーザに選択された属性を設定することによって検索キー情報を生成する生成手段と、文書検索を行う際に、検索キー情報に含まれる構成要素に設定された属性が前記属性情報において定義された階層関係において最下位層に近いほど算出する類似度が大きくなるように設定された重みを用いて、検索キー情報と検索対象文書との類似度を算出し、その類似度を参照して検索キー情報に類似する文書を特定する検索手段と、を有することを特徴とする。
【0006】
また、前記検索手段は、検索キー情報に含まれる構成要素の紙面上における位置が、当該構成要素に対応する検索対象文書に含まれる構成要素と近いほど算出する類似度が大きくなるように設定された重みを用いて、検索キー情報と検索対象文書との類似度を算出することを特徴とする。
【0007】
また、前記検索手段は、検索キー情報に含まれる構成要素の大きさが、当該構成要素に対応する検索対象文書に含まれる構成要素と近いほど算出する類似度が大きくなるように設定された重みを用いて、検索キー情報と検索対象文書との類似度を算出することを特徴とする。
【0008】
また、前記検索手段は、検索キー情報に含まれる構成要素と、当該構成要素に対応する検索対象文書に含まれる構成要素とが、前記階層関係上近い親等にあるほど算出する類似度が大きくなるように設定された重みを用いて、検索キー情報と検索対象文書との類似度を算出することを特徴とする。
【0009】
本発明に係る文書検索プログラムは、コンピュータを、用紙を表示する表示手段、表示された用紙上に配置される構成要素に設定可能な属性の階層関係が定義された属性情報を記憶する記憶手段、ユーザに、表示された用紙上に1又は複数の構成要素を配置させると共に、配置された各構成要素に、前記属性情報に定義された属性の中からユーザに選択された属性を設定することによって検索キー情報を生成する生成手段、文書検索を行う際に、検索キー情報に含まれる構成要素に設定された属性が前記属性情報において定義された階層関係において最下位層に近いほど算出する類似度が大きくなるように設定された重みを用いて、検索キー情報と検索対象文書との類似度を算出し、その類似度を参照して検索キー情報に類似する文書を特定する検索手段、として機能させる。
【発明の効果】
【0010】
請求項1,5記載の発明によれば、ユーザの検索したい文書に対する記憶の確信度を客観的に反映させた文書検索を行うことができる。
【0011】
請求項2記載の発明によれば、ユーザの検索したい文書に含まれる構成要素の位置に関する記憶違いの程度を考慮した文書検索を行うことができる。
【0012】
請求項3記載の発明によれば、ユーザの検索したい文書に含まれる構成要素の大きさに関する記憶違いの程度を考慮した文書検索を行うことができる。
【0013】
請求項4記載の発明によれば、ユーザの検索したい文書に含まれる構成要素の属性に関する記憶違いがあった場合でも、その記憶違いの程度を考慮した文書検索を行うことができる。
【図面の簡単な説明】
【0014】
【図1】本発明に係る文書検索装置の一実施の形態を示したブロック構成図である。
【図2】本実施の形態における文書検索装置を形成するコンピュータのハードウェア構成図である。
【図3】本実施の形態において検索キー情報生成処理の過程における検索キー情報生成画面の表示状態の遷移の一例を示した図である。
【図4】本実施の形態における属性情報記憶部に記憶される属性情報の一例を示した図である。
【図5】本実施の形態における重み情報記憶部に記憶される階層関係に関する重み情報の一例を示した図である。
【図6】本実施の形態における重み情報記憶部に記憶される位置に関する重み情報の一例を示した図である。
【図7】本実施の形態における重み情報記憶部に記憶されるサイズに関する重み情報の一例を示した図である。
【図8】本実施の形態における重み情報記憶部に記憶される親等に関する重み情報の一例を示した図である。
【図9】本実施の形態における検索キー情報生成処理において生成された検索キー情報の一例を示した図である。
【図10】本実施の形態における文書検索処理において検索キー情報と比較される文書画像の例と各文書画像との類似度の算出結果とを示した図である。
【発明を実施するための形態】
【0015】
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
【0016】
図1は、本発明に係る文書検索装置の一実施の形態を示したブロック構成図である。また、図2は、本実施の形態における文書検索装置20を形成するコンピュータのハードウェア構成図である。
【0017】
図2において、コンピュータは、従前から存在する汎用的なハードウェア構成で実現できる。すなわち、文書検索装置20を形成するコンピュータは、図2に示したようにCPU1、ROM2、RAM3、ハードディスクドライブ(HDD)4を接続したHDDコントローラ5、入力手段として設けられたマウス6とキーボード7、及び表示装置として設けられたディスプレイ8をそれぞれ接続する入出力コントローラ9、通信手段として設けられたネットワークコントローラ10を内部バス11に接続して構成される。
【0018】
図1に戻り、本実施の形態における文書検索装置20は、検索キー情報生成部21、文書検索部22、検索結果表示部23、属性情報記憶部24及び重み情報記憶部25を有している。
【0019】
検索キー情報生成部21は、所定の検索キー情報生成画面に対するユーザ操作に応じて検索キー情報を生成する。文書検索部22は、生成された検索キー情報をキーにして文書検索を行うことで、検索キー情報に類似した文書を抽出する。検索結果表示部23は、文書検索部22による文書検索処理の結果をディスプレイ8に表示する。属性情報記憶部24及び重み情報記憶部25に登録される情報については追って説明する。
【0020】
文書検索装置20における各構成要素21〜23は、文書検索装置20を形成するコンピュータと、コンピュータに搭載されたCPU1で動作するプログラムとの協調動作により実現される。また、各記憶部24,25は、文書検索装置20に搭載されたHDD4にて実現される。あるいは、記憶手段を有する外部のコンピュータ上に設け、文書検索装置20は、そのコンピュータから直接若しくはネットワーク経由で必要な情報を取得するように構成してもよい。
【0021】
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD−ROMやDVD−ROM等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがインストールプログラムを順次実行することで各種処理が実現される。
【0022】
図3は、本実施の形態における検索キー情報生成画面の表示状態の遷移の一例を示した図である。検索キー情報生成画面は、検索キー情報を生成するための仮想紙面31の表示領域と、仮想紙面31上に配置する構成要素ボックス32を収納する領域とが設けられている。
【0023】
ところで、以下に詳述するように、本実施の形態では、構成要素ボックス32を仮想紙面31上に配置して、配置した構成要素ボックス32それぞれに属性を設定することによって検索キー情報を生成していく。構成要素ボックス32に設定される属性としては、必ずしも画像を示す属性ばかりとは限らず、画像データそのものではなく、文字情報の属性として本文や要約などを示す画像以外の属性も存在する。本実施の形態では、仮想紙面上において文字情報が占める領域を、文字情報であることを示すアイコンを配置することによって特定する。アイコンは、ディスプレイ8に表示される画像の一形態であり、コンピュータが作成する記号表現の画像であるけれども、文書画像から抽出されたオブジェクト画像とは性質を異にする。このため、本発明では、文書画像の検索に用いるキー情報として「検索キー画像」ではなく「検索キー情報」という用語を用いることにした。
【0024】
以下、図3を用いて検索キー情報生成部21における検索キー情報生成処理について説明する。検索キー情報生成処理は、検索キー情報生成画面を利用して検索キー情報を生成したいユーザによる操作指示に従い所定のアプリケーションが起動され、検索キー情報生成画面がディスプレイ8に表示される。
【0025】
まず、ユーザは、マウスカーソル33を用いて構成要素ボックス32をドラッグ&ドロップして仮想紙面31上にコピーする(図3(a),(b))。そして、ユーザは、マウス6を操作することにより構成要素(オブジェクト)が検索キー情報において存在する位置及び大きさに調整する(図3(b),(c))。この位置及び大きさの設定は、ユーザの記憶に委ねられる。
【0026】
構成要素が仮想紙面31上に配置されると、ユーザは、例えば、構成要素を右クリックなどして属性選択用のプルダウンメニュー34を表示させ(図3(d))、その構成要素に属性を設定する。例えばユーザがプルダウンメニュー34の中から「絵柄」を選択すると、検索キー情報生成部21は、「絵柄」が細分類された属性である「図表」、「線画」及び「写真」をプルダウンメニュー34に表示する(図3(e))。続いて、ユーザによりプルダウンメニュー34の中から「図表」が選択されると、検索キー情報生成部21は、「図表」が細分類された属性である「グラフ」、「表」及び「その他図」をプルダウンメニュー34に表示する(図3(f))。更に、ユーザによりプルダウンメニュー34の中から「グラフ」が選択されると、検索キー情報生成部21は、「グラフ」が細分類された属性である「円グラフ」、「棒グラフ」、「折線グラフ」及び「その他グラフ」をプルダウンメニュー34に表示する(図3(g))。そして、ユーザによりプルダウンメニュー34の中から「円グラフ」が選択されると、検索キー情報生成部21は、構成要素の属性として「円グラフ」を設定する。
【0027】
ユーザが、構成要素に設定すべき属性は「円グラフ」であると鮮明に記憶しているとすると、上述のように「円グラフ」を選択することになるが、「円グラフ」とまでは明確に記憶しておらずグラフとまでしか記憶していなければ、図3(f)で表示された「グラフ」を選択することになる。また、ユーザは、構成要素に設定すべき属性として表やグラフとまでは明確に記憶しておらず図表とまでしか記憶していなければ、図3(e)で表示された「図表」を選択することになる。また、構成要素に設定すべき属性として図表とまでは明確に記憶しておらず絵柄とまでしか記憶していなければ、図3(d)で表示された「絵柄」を選択することになる。このように、ユーザは、記憶の確信度に応じたレベルの属性を選択することによって構成要素に属性を設定することになる。なお、「確信度」というのは、ユーザが検索したい文書又はその文書に含まれる構成要素をどれだけ確信して覚えているかという度合いを示す用語である。鮮明に記憶していればいるほど確信度は高くなる。その反面、記憶が曖昧であれば確信度は低くなる。
【0028】
ところで、検索キー情報生成部21は、属性情報記憶部24に登録された属性情報の設定内容に従いプルダウンメニュー34を形成し表示させている。ここで、本実施の形態における属性情報記憶部24に記憶される属性情報の一例を図4を用いて説明する。
【0029】
属性情報は、本実施の形態を利用して検索キー情報を生成する処理が実施される前に作成されて、属性情報記憶部24に予め登録され、上記のように構成要素の生成の際に参照される。つまり、構成要素に設定可能な属性は、属性情報記憶部24に事前に登録されていることになる。属性は、細分類化されることによって階層関係を成している。図4に示した例によれば、最上位の属性として「絵柄」又は「文字」が設定されている。「絵柄」は、「図表」、「線画」及び「写真」に細分類されている。そして、「図表」は、「グラフ」、「表」及び「その他図」に細分類されている。このうち、「グラフ」は、更に「円グラフ」、「棒グラフ」、「折線グラフ」及び「その他グラフ」に細分類されている。図3に示した属性情報の例は、図4に示した属性情報の設定例に従ったものであるので、ユーザは、この属性情報の中に設定されたいずれかの属性を構成要素に設定することになる。
【0030】
以上のようにして検索キー情報が生成されると、文書検索部22は、検索キー情報に基づき、図示しない文書データベース等に格納されている文書画像を検索することによって検索キー情報に類似する文書を特定する。類似性の判断として、本実施の形態では、類似度を算出するが、ここで、この算出の際に参照する重み情報について説明する。
【0031】
図5乃至図8は、それぞれ重み情報記憶部25に登録された階層関係、位置、サイズ及び親等に関する重み情報の一例を示した図である。各項目につき、各レベルにより重み(値)を予め設定することで客観性を持たせている。
【0032】
階層関係に関する重み情報は、最下位に位置する属性には重み1.0を、その直上位の階層に位置する属性には重み0.8を、というように最下位から上位に向けて値が小さくなるように重みが設定される。なお、階層の数は図4の例に限定されるものではなく、文書の種類等に含まれる構成要素を考慮して増減させてよい。
【0033】
位置に関する重み情報には、検索キー情報に配置された構成要素の位置と、当該構成要素に対応する、比較対象となる文書画像に含まれる構成要素の位置との差に対する重みが設定される。つまり、±2cm以内のずれであれば、ユーザは、仮想紙面上に構成要素を、検索したい文書に含まれる構成要素と同じ位置に配置したとみなして、最も大きい重み1.0を設定する。つまり、2cm以下のずれを許容範囲としている。次の「≦±5cm」というのは、正確には2cmより大きく5cm以下のずれということを意味しているが、このずれは、記憶が曖昧なことに基づくものであることから、0.8と、より小さい値の重みが設定される。なお、構成要素の位置は、例えば、文書紙面の左上の角を原点座標とし、矩形形状の構成要素の左上角の座標データを得て、この座標データを比較することによって位置の比較を行ってもよい。
【0034】
サイズに関する重み情報には、検索キー情報に配置された構成要素の大きさと、当該構成要素に対応する、比較対象となる文書画像に含まれる構成要素の大きさとの差に対する重みが設定される。つまり、面積が±1cm以内のずれであれば、ユーザは、仮想紙面上に構成要素を、検索したい文書に含まれる構成要素と同じ大きさで配置したとみなして、最も大きい重み1.0を設定する。次の「≦±3cm」というのは、正確には1cmより大きく3cm以下のずれということを意味しているが、このずれは、記憶が曖昧なことに基づくものであることから、0.8と、より小さい値の重みが設定される。なお、構成要素の大きさは、例えば、仮想紙面の左上の角を原点座標とし、矩形形状の構成要素の左上角及び右下角の各座標データを得ることで面積を算出し、この面積を比較することによって大きさの比較を行ってもよい。また、本実施の形態では、サイズを表す指標として面積を用いたが、例えば矩形形状の構成要素の縦の辺と横の辺の和を用いてもよい。
【0035】
以上の重みの設定値の例から明らかなように、重みの各値は、検索対象となる文書画像の属性、紙面上における位置及び大きさに対する記憶が鮮明であるほど重たくし、つまり、大きい値を設定し、算出される類似度が大きくなるようにしている。換言すると、このような重みを設定することで、検索結果への影響度を大きくしている。
【0036】
なお、位置に関する重み情報は、「≦±2cm」や「≦±5cm」などの刻みで位置ずれの量を4分割したが、±2cmや±5cmなどの刻みや分割数は、検索対象とする文書の種類や、用紙サイズ等に応じて適切な値を設定すればよい。また、重みの値は、図に例示した値に限定されるものではなく、検索対象とする文書の種類や、用紙サイズ等に応じて適切な値を設定すればよい。
【0037】
最後に、親等に関する重み情報に関して説明する。例えば、本実施の形態では、属性の階層関係において「絵柄」の直下位には「図表」「線画」「写真」という属性が設定されているが、この場合、「絵柄」と「図表」「線画」「写真」とを親子関係(直系)にあると考える。また、同階層にある「図表」「線画」「写真」を兄弟関係(傍系)にあると考える。前述した階層関係に関する重み情報が親・子・孫といった直系の関係にある属性間、すなわち階層関係上、上下関係に位置する属性間に反映される重み情報であるのに対し、この親等に関する重み情報は、直系の関係にない(傍系の関係にある)属性に対して付与する重みが設定されている。例えば、検索キー情報に階層3の「カラー」(以下、「カラー線画」とも称する)と設定されたものの、実際に検索して見つけたい文書画像は階層3の「白黒」(以下、「白黒線画」とも称する)であった場合、これは2親等に相当するが、階層関係に関する重みでは0となってしまう。このように遠くない関係にある属性が設定された場合には、ユーザの属性のわずかな記憶違いを救済するために、階層関係に関する重みと比して低い重みを付与する親等に関する重み情報を設けるようにしてもよい。比較対象となる文書画像に含まれる構成要素と検索キー情報に配置された構成要素とが1親等の関係にある場合は、直系に相当するため、階層関係に関する重みを採用するものとし、比較対象となる文書画像に含まれる構成要素とが直系ではないが2親等の関係にある場合に重み0.4を、3親等の関係にある場合に重み0.2をそれぞれ設定する。
【0038】
図9は、前述した検索キー情報生成処理において生成された検索キー情報の一例を示した図である。図9には、階層4の属性「棒グラフ」が紙面右上に、階層2の属性「写真」が紙面左下に、それぞれ図示された大きさで配置された検索キー情報の例が示されている。また、図10(a)〜(d)にはそれぞれ、その上段に検索キー情報と比較される文書画像(以下、「比較画像」とも称する)の一例と、その下段に当該文書画像から算出される類似度が示されている。以下、これらの図を用いて、文書検索部22が文書を検索する際に行う類似度の算出について説明する。なお、比較対象となる文書画像に関する構成要素の属性は、最下位に位置する属性が設定されているものとする。
【0039】
まず、図10(a)の上段に例示された文書画像が比較対象として選択されたとする。この比較画像は、階層4の属性「棒グラフ」が紙面右上に、階層3の属性「人物」(以下、「人物写真」と称する)が紙面左下に、それぞれ図示された大きさで配置された文書画像の例であり、検索キー情報と比較画像の各構成要素の位置及び大きさは一致しているものとする。この場合、まず「棒グラフ」に着目すると、属性は一致しているため、図5に示した属性情報を参照することにより階層関係に関する重みは1.0である。そして、前述したように位置及び大きさは一致するので、図6,7に示した属性情報を参照することにより位置及び大きさの重みはそれぞれ1.0となる。なお、属性が一致する場合、親等は同一であるため考慮しない。それぞれの項目についての重みが決定すると、これらを乗算することで「棒グラフ」との類似度は1.0×1.0×1.0=1.0と算出される。
【0040】
続いて、「人物写真」に着目すると、検索キー情報の「写真」は1階層上位なので、この場合階層関係に関する重みは図5に示した属性情報を参照すると0.8であることがわかる。そして、前述したように位置及び大きさは一致するので、図6,7に示した属性情報を参照することにより位置及び大きさの重みはそれぞれ1.0となる。なお、検索キー情報に配置された構成要素と比較画像の構成要素の属性の関係が直系の場合、親等は考慮しない。それぞれの項目についての重みが決定すると、これらを乗算することで「人物写真」との類似度は0.8×1.0×1.0=0.8と算出される。この結果、図10(a)の比較画像との類似度は1.0+0.8=1.8と算出される。
【0041】
次に、図10(b)の上段に例示された文書画像が比較対象として選択されたとする。この比較画像は、階層4の属性「棒グラフ」が紙面右上に、階層3の属性「白黒」(以下、「白黒線画」と称する)が紙面左下に、それぞれ図示された大きさで配置された文書画像の例であり、検索キー情報と比較画像の各構成要素の位置及び大きさは一致しているものとする。この場合、「棒グラフ」に関しては、図10(a)と同じなので、説明を省略する。なお、「棒グラフ」との類似度は1.0である。
【0042】
続いて、「白黒線画」に着目すると、検索キー情報の「写真」とは直系ではないが3親等の関係にあるので、親等の重みは、図8に示した属性情報を参照すると0.2であることがわかる。直系でない場合は、階層関係に関する重みにかえて親等の重みを採用して類似度を算出する。そして、前述したように位置及び大きさは一致するので、図6,7に示した属性情報を参照することにより位置及び大きさの重みはそれぞれ1.0となる。すなわち、「白黒線画」との類似度は0.2×1.0×1.0=0.2と算出される。この結果、図10(b)の比較画像との類似度は1.0+0.2=1.2と算出される。
【0043】
次に、図10(c)の上段に例示された文書画像が比較対象として選択されたとする。この比較画像は、階層3の属性「カラー線画」が紙面右上に、階層3の属性人物写真が紙面左下に、それぞれ図示された大きさで配置された文書画像の例であり、検索キー画像と比較画像の各構成要素の位置及び大きさは一致しているものとする。この場合、まず「カラー線画」に着目すると、検索キー情報の「写真」とは直系ではないが5親等の位置関係にあるので、親等の重みを参照すると、親等の重みは0となる。そして、前述したように位置及び大きさは一致するので、図6,7に示した属性情報を参照することにより位置及び大きさの重みはそれぞれ1.0となる。よって、「カラー線画」との類似度は0×1.0×1.0+0=0と算出される。
【0044】
続いて、「人物写真」に関しては、図10(a)と同じなので、説明を省略する。なお、「人物写真」との類似度は0.8である。この結果、図10(c)の比較画像との類似度は0+0.8=0.8と算出される。
【0045】
最後に、図10(d)の上段に例示された文書画像が比較対象として選択されたとする。この比較画像は、階層4の属性「棒グラフ」が紙面左下に、階層3の属性「風景」(以下、「風景写真」とも称する)が紙面右下に、それぞれ図示された大きさで配置された文書画像の例である。この場合、まず「棒グラフ」に着目すると、属性は一致しているため、図5に示した属性情報を参照することにより階層関係に関する重みは1.0である。そして、位置に関しては、10cmより大きくずれているとすると、位置の重みは図6に示した属性情報を参照することにより0.2と求まる。大きさに関しては、1cmより大きいが3cm以内の差があるものとすると、大きさの重みは、図7に示した属性情報を参照することにより0.8と求まる。なお、属性は一致するので親等は考慮しない。よって、「棒グラフ」との類似度は1.0×0.2×0.8=0.16と算出される。
【0046】
続いて、「風景写真」に着目すると、検索キー情報の「写真」は1階層上位なので、この場合の階層関係に関する重みは図5に示した属性情報を参照すると0.8であることがわかる。そして、位置に関しては、2cmより大きく5cm以内のずれがあるとすると、位置の重みは図6に示した属性情報を参照することにより0.8と求まる。大きさに関しては、1cmより大きいが3cm以内の差があるものとすると、大きさの重みは、図7に示した属性情報を参照することにより0.8と求まる。なお、属性は直系の関係にあるので親等は考慮しない。よって、「風景写真」との類似度は0.8×0.8×0.8=0.512と算出される。この結果、図10(d)の比較画像との類似度は0.16+0.512=0.672と算出される。
【0047】
以上の処理の結果、図10の中で検索キー情報に類似している順番は、(a),(b),(c),(d)となる。
【0048】
以上のようにして検索キー情報に類似している文書画像を特定すると、検索結果表示部23は、所定の表示規則に従い、文書画像を類似している順番に所定数並べて表示したり、最も類似している文書画像のみを表示したり、所定の閾値以上の類似度の文書画像を表示する。あるいは、文書画像そのものではなく、格納先等文書画像に関連する情報を表示するようにしてもよい。
【符号の説明】
【0049】
1 CPU、2 ROM、3 RAM、4 ハードディスクドライブ(HDD)、5 HDDコントローラ、6 マウス、7 キーボード、8 ディスプレイ、9 入出力コントローラ、10 ネットワークコントローラ、11 内部バス、20 文書検索装置、21 検索キー情報生成部、22 文書検索部、23 検索結果表示部、24 属性情報記憶部、25 重み情報記憶部。


【特許請求の範囲】
【請求項1】
用紙を表示する表示手段と、
表示された用紙上に配置される構成要素に設定可能な属性の階層関係が定義された属性情報を記憶する記憶手段と、
ユーザに、表示された用紙上に1又は複数の構成要素を配置させると共に、配置された各構成要素に、前記属性情報に定義された属性の中からユーザに選択された属性を設定することによって検索キー情報を生成する生成手段と、
文書検索を行う際に、検索キー情報に含まれる構成要素に設定された属性が前記属性情報において定義された階層関係において最下位層に近いほど算出する類似度が大きくなるように設定された重みを用いて、検索キー情報と検索対象文書との類似度を算出し、その類似度を参照して検索キー情報に類似する文書を特定する検索手段と、
を有することを特徴とする文書検索装置。
【請求項2】
前記検索手段は、検索キー情報に含まれる構成要素の紙面上における位置が、当該構成要素に対応する検索対象文書に含まれる構成要素と近いほど算出する類似度が大きくなるように設定された重みを用いて、検索キー情報と検索対象文書との類似度を算出することを特徴とする請求項1に記載の文書検索装置。
【請求項3】
前記検索手段は、検索キー情報に含まれる構成要素の大きさが、当該構成要素に対応する検索対象文書に含まれる構成要素と近いほど算出する類似度が大きくなるように設定された重みを用いて、検索キー情報と検索対象文書との類似度を算出することを特徴とする請求項1または2に記載の文書検索装置。
【請求項4】
前記検索手段は、検索キー情報に含まれる構成要素と、当該構成要素に対応する検索対象文書に含まれる構成要素とが、前記階層関係上近い親等にあるほど算出する類似度が大きくなるように設定された重みを用いて、検索キー情報と検索対象文書との類似度を算出することを特徴とする請求項1から3のいずれか1項に記載の文書検索装置。
【請求項5】
コンピュータを、
用紙を表示する表示手段、
表示された用紙上に配置される構成要素に設定可能な属性の階層関係が定義された属性情報を記憶する記憶手段、
ユーザに、表示された用紙上に1又は複数の構成要素を配置させると共に、配置された各構成要素に、前記属性情報に定義された属性の中からユーザに選択された属性を設定することによって検索キー情報を生成する生成手段、
文書検索を行う際に、検索キー情報に含まれる構成要素に設定された属性が前記属性情報において定義された階層関係において最下位層に近いほど算出する類似度が大きくなるように設定された重みを用いて、検索キー情報と検索対象文書との類似度を算出し、その類似度を参照して検索キー情報に類似する文書を特定する検索手段、
として機能させる文書検索プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2011−170778(P2011−170778A)
【公開日】平成23年9月1日(2011.9.1)
【国際特許分類】
【出願番号】特願2010−36333(P2010−36333)
【出願日】平成22年2月22日(2010.2.22)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】