文書検索支援装置及びプログラム
【課題】 検索結果の文書データが所望の文書データであるか否かの判定が容易な文書検索支援装置を提供する。
【解決手段】 文書データを記憶した文書管理部20と、文書データに含まれるイメージデータの特徴量を記憶した文書要素特徴管理部19と、指定された文書データ中に含まれるイメージデータとテキストデータとを抽出するページ画像生成分割部12と、抽出したイメージデータと、文書要素特徴管理部19に記憶したイメージデータとの特徴量を比較して、抽出したイメージデータに類似するイメージデータを検索すると共に、抽出したテキストデータからキーワードを取り出し、文書管理部20に記憶された文書データの中から、キーワードが含まれる文書データを検索する検索実行部18と、検索された文書データからイメージデータを抽出してステンドグラス状画像を生成するSG状画像要約作成部15とを有している。
【解決手段】 文書データを記憶した文書管理部20と、文書データに含まれるイメージデータの特徴量を記憶した文書要素特徴管理部19と、指定された文書データ中に含まれるイメージデータとテキストデータとを抽出するページ画像生成分割部12と、抽出したイメージデータと、文書要素特徴管理部19に記憶したイメージデータとの特徴量を比較して、抽出したイメージデータに類似するイメージデータを検索すると共に、抽出したテキストデータからキーワードを取り出し、文書管理部20に記憶された文書データの中から、キーワードが含まれる文書データを検索する検索実行部18と、検索された文書データからイメージデータを抽出してステンドグラス状画像を生成するSG状画像要約作成部15とを有している。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データベースに蓄積された大量の文書データの中から目的の文書データを探し出す作業を支援する文書検索支援装置に関する。
【背景技術】
【0002】
インターネットをはじめとした情報メディアの発達により、様々な種類の文書が蓄積され、閲覧されるようになってきた。このため、大量の文書群に対し、より効率的な検索システムが求められている。
【0003】
特許文献1では、入力された文書をパラグラフに分割し、書式と共にインデックスを作成して記憶部に記憶する。検索要求があると、この要求に適合する文書の取り出しを文書単位ではなく、パラグラフ単位に行う。
【0004】
特許文献2では、ユーザの端末操作に基づいて文書を検索して表示する機能を有する情報端末において、情報入力・表示ウィンドウ中に表示された一部または全部の情報から、関連する別の文書を検索するためのキーオブジェクト(テキスト、図表、ビットマップ)を抽出し、文書データベースの中からキーオブジェクト集合と一定以上の類似度を持つキーオブジェクト集合を含む文書を検索して取り出し、その文書の一覧を文書一覧表示・選択ウィンドウに表示する。
【0005】
【特許文献1】特開平6−28403号公報
【特許文献2】特開平10−254892号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、検索された文書データが複数のページから構成されていた場合、所望の文書データであるかどうかを確認するのに手間がかかるという問題がある。
【0007】
本発明は上記事情に鑑みてなされたものであり、検索結果として表示された文書データが所望の文書データであるか否かの判定が容易な文書検索支援装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
かかる目的を達成するために本発明の文書検索支援装置は、文書データと、該文書データに含まれるイメージデータの特徴量とを少なくとも記憶した記憶手段と、クライアント端末より指定された文書データ中に含まれるイメージデータとテキストデータとを抽出する抽出手段と、前記抽出手段で抽出したイメージデータと、前記記憶手段に記憶したイメージデータとの特徴量を比較して、前記抽出手段で抽出したイメージデータに類似するイメージデータを前記記憶手段から検索する第1検索手段と、前記抽出手段で抽出したテキストデータからキーワードを取り出し、前記記憶手段に記憶した文書データの中から、前記キーワードが含まれる文書データを検索する第2検索手段と、前記第1検索手段及び前記第2検索手段で検索した文書データに含まれるイメージデータからステンドグラス状画像を生成する生成手段とを有する構成としている。
このように本発明は、文書検索の結果がステンドグラス状画像として表示されるので、検索結果として挙げられた文書データが所望の文書データであるか否かの判断を容易につけることができる。
【0009】
上記文書検索支援装置において、前記記憶手段は、文書データが他の文書データの作成時に利用された文書データであるか否かを示す情報を記憶しており、前記第1検索手段及び前記第2検索手段で検索した文書データの表示順を、該文書データの利用状況に応じて変更する表示制御手段を更に有することを特徴としている。
従って、利用度の高い文書データを検索結果の上位に表示することができる。
【0010】
上記文書検索支援装置において、スキャナによって読み込まれたイメージデータが検索対象に指定されると、前記抽出手段で図表領域のイメージデータを抽出して、前記第1検索手段で前記図表領域のイメージデータと、前記記憶手段に記憶したイメージデータとの特徴量を比較することを特徴としている。
【0011】
上記文書検索支援装置において、前記第1検索手段と前記第2検索手段との少なくとも一方は、前記記憶手段に記憶した文書データのうち、アノテーションが付与された文書データを検索対象とすることを特徴としている。
従って、アノテーションが付与された利用頻度の高い文書データを検索することができる。
【0012】
上記文書検索支援装置において、前記第2検索手段は、文書データの属性情報を検索キーとして前記記憶手段から該属性情報の一致する文書データを検出することを特徴としている。
従って、属性情報の一致する文書データを検索することができる。
【0013】
本発明のプログラムは、コンピュータを、クライアント端末より指定された文書データ中に含まれるイメージデータとテキストデータとを抽出する抽出手段と、前記抽出手段で抽出したイメージデータと、記憶手段に記憶されたイメージデータとの特徴量を比較して、前記抽出手段で抽出したイメージデータに類似するイメージデータを前記記憶手段から検索する第1検索手段と、前記抽出手段で抽出したテキストデータからキーワードを取り出し、前記記憶手段に記憶された文書データの中から、前記キーワードが含まれる文書データを検索する第2検索手段と、前記第1検索手段及び前記第2検索手段で検索した文書データからイメージデータを抽出してステンドグラス状画像を生成する生成手段として機能させることを特徴としている。
【発明の効果】
【0014】
本発明によれば、文書検索の結果がステンドグラス状画像で表示されるので、検索結果として挙げられた文書データが所望の文書データであるか否かの判断を容易につけることができる。
【発明を実施するための最良の形態】
【0015】
添付図面を参照しながら本発明の好適な実施例を説明する。
【実施例】
【0016】
まず、図1を参照しながら本実施例の構成を説明する。本実施例の文書検索支援装置10は、クライアントサーバシステムのサーバ装置としてネットワーク2上に配置されている。このネットワーク2には、文書の検索を要求する複数のクライアント端末3が接続可能な構成をとっている。
【0017】
文書検索支援装置10は、図1に示すようにメッセージ送受信部11、ページ画像生成分割部12、特徴量抽出部(抽出手段)13、サムネイル生成部14、ステンドグラス(以下、SGとも略記する)状画像要約作成部15、制御部16、更新部17、検索実行部(第1検索手段、第2検索手段)18、文書要素特徴管理部19、文書管理部20、検索結果記憶部21を有している。
【0018】
メッセージ送受信部11は、クライアント端末3から送信される検索要求等のメッセージを受信する。受信したメッセージは制御部16に出力する。また、メッセージ送受信部11は、前述の検索要求に対する検索結果を制御部16から受け取って、クライアント端末3に送信する。
【0019】
ページ画像生成分割部12は、所望の文書データを検索するために利用される文書データ(以下、種文書ともいう)や、文書検索支援装置10に登録する文書データの各ページからテキストデータと図表データ(イメージデータ)との少なくとも一方を抽出する。
対象の文書データがパーソナルコンピュータ等によって生成された文書データであった場合には、ページ画像生成分割部12は、対象文書データからテキストデータを抽出する。また、ページ画像生成分割部12は、対象文書データをイメージデータに変換して、イメージ形式の図表データを抽出する。
また、対象の文書データがスキャナ等によって読み込まれたイメージデータであった場合には、ページ画像生成分割部12は、OCR(光学式文字読取装置)等によって文字認識を行うと共に、エッジ抽出、濃度判定等の処理によってイメージデータから図表データ部分を抽出する。抽出したテキストデータや図表データはページ画像生成分割部12から制御部16に出力される。
【0020】
特徴量抽出部13は、制御部16からテキストデータやイメージ形式の図表データを取得して、これらのデータから特徴量を抽出する。
特徴量抽出部13は、図表データを複数の領域に分割し、各領域から画像的な特徴量を抽出する。抽出される特徴量には、分割した領域内の平均色やエッジ量、画像の色成分(RGBの各成分)、スペクトル、黒画素塊の面積、画像の偏平率、輪郭線の複雑さなどが挙げられる。なお、特徴量の抽出方法の詳細は、特開2004−21430号公報に開示がある。
また、テキストデータの場合には、辞書等を使用して固有表現を抽出し、キーワードとなる単語や、文書データのカテゴリを抽出する。特徴量抽出部13は、抽出した特徴量を制御部16に出力する。
【0021】
サムネイル生成部14は、登録する文書データのサムネイルを作成する。SG状画像要約作成部15は、文書データから文書データに含まれる画像等の重要度の高い領域を判定して抽出し、これらの領域を合成して1枚の画像としたステンドグラス状画像(以下、SG状画像と略記する)を生成する。なお、SG状画像の詳細な作成方法は、特開2005-293576号公報や特開2005-293577号公報に開示がある。
サムネイル生成部14で作成されたサムネイルや、SG状画像要約作成部15で作成されたSG状画像は、制御部16に転送される。
【0022】
制御部16は、文書検索支援装置10の全体を制御する。
また、制御部16は、メッセージ送受信部11で受信したメッセージを解析し、解析の結果、メッセージが文書データの検索要求であった場合には、クライアント端末3から検索キーワードを取得して検索実行部18に転送し、文書検索を実行させる。また、キーワードではなく、文書データを種文書とし、この種文書データに類似する文書データ(例えば、種文書に含まれるキーワードを含んだ文書データや、種文書に含まれる図表と同一又は類似する図表を含んだ文書データ)を検索する場合には、クライアント端末3から取得した種文書データをページ画像生成分割部12に転送してテキストデータとイメージデータを抽出させ、特徴量抽出部13でこれらのデータの特徴量を抽出する。制御部16は抽出した特徴量を検索実行部18に転送して、検索実行部18に文書要素特徴管理部19及び文書管理部20を検索させて、種文書に類似する文書データを検出させる。
また、制御部16は、検索実行部18から検索結果を受け取って、受け取った検索結果をメッセージ送受信部11に転送して、要求のあったクライアント端末3に送信する。
また、クライアント端末3からの要求が、文書データや、スキャナ等で読み込んだイメージデータの登録要求であった場合には、制御部16は、取得した文書データやイメージデータを前述のようにページ画像生成分割部12、特徴量抽出部13に転送してイメージデータ、テキストデータの特徴量を抽出する。抽出した特徴量を元の文書データやイメージデータに関連付けて文書要素特徴管理部19や文書管理部20に登録する。
【0023】
制御部16のハードウェア構成を図2に示す。制御部16は、CPU22、ROM23、RAM24、NVRAM(Non Volatile RAM)25、入出力部26などで構成される。CPU22は、ROM23に格納したプログラムを読み込んで、このプログラムに従った演算を行うことにより、後述する図11、図12に示したフローチャートに従った処理を実行する。また、RAM24には、演算結果のデータが書き込まれ、NVRAM25は、RAM24に書き込まれていたデータで、電源オフ時に保存の必要なデータが書き込まれる。
なお、CPU22の制御に使用するプログラムは、CD−ROM等の記録媒体に格納されたものを読み込んでNVRAM25に格納してもよいし、通信網を介して送信されたプログラムを入出力部26で受信してNVRAM25に格納してもよい。
【0024】
更新部17は、制御部16の制御に従って、文書要素特徴管理部19、文書管理部20へのデータの登録、更新を行う。データには、ページ画像生成分割部12で文書データから取り出したテキストデータや図表データと、特徴量抽出部13で抽出されたデータの特徴量と、サムネイル生成部14で生成されたサムネイルと、SG状画像要約作成部15で作成されたSG状画像とが挙げられる。
【0025】
図3、4には、文書要素特徴管理部19の管理テーブルの構造を示す。図3に示す管理テーブルには、文書データに付与された文書IDと、この文書IDに対応付けてサムネイルと、SG状画像と、文書データ中のテキストデータから抽出したキーワード情報やカテゴリ情報とが登録される。サムネイルは、文書データのページ数分登録される。
また、図4に示す管理テーブルでは、図表データに付与された図表IDと、図表データが図であるのか表であるのかを示す種別情報と、図表データが含まれる文書データの文書IDと、図表データが表れる文書データ中のページ番号と、特徴量抽出部13で抽出された図表データの特徴量とが対応付けて登録されている。
【0026】
また、図5には、文書管理部20に作成される管理テーブルの構成を示す。
この管理テーブルには、文書データを一意に識別するための文書ID、又は文書データを格納した他の記憶装置の場所を示すURI(Uniform Resource Identifier)と、文書の属性情報として、文書名、文書の作成者、文書の更新日時、文書の種別、利用状況などが登録される。
文書種別とは、提案書、仕様書、マニュアル、カタログなどの文書の種類を示す情報であり、利用状況とは、どのような場面で文書が利用され、そのときの成果がどのようなものであったのかを示している。例えば、商談に利用され、その商談が成立した場合には成約と記録される。
【0027】
検索実行部18は、文書要素特徴管理部19、文書管理部20を検索して全文検索、属性検索、類似検索等を実行する。
全文検索は、クライアント端末3から入力されたキーワードを検索キーとして文書データの全体を検索し、該当するキーワードの含まれている文書データを検出する。
属性検索は、文書名、文書の作成者、更新日時、種別などの属性情報を検索キーとして該当する文書データを検索する。
類似検索は、種文書データの指定を受けて、この種文書データ中に含まれる図表データと類似する図表データを含んだ文書データを検索する。
類似検索では、文書要素特徴管理部19に登録された図表データの特徴量を用いて検索が行われる。種文書に含まれる図表データの特徴量と、登録された文書データに含まれる図表データの特徴量とを比較することで類似する図表データが検索される。類似検索の詳細については、特開2004−21430号公報に開示がある。
【0028】
検索結果記憶部21は、検索実行部18による検索の結果を記憶する。
図6、7に、検索結果記憶部21に作成される管理テーブルの構造を示す。
図6に示す管理テーブルでは、指定された種文書データとの類似検索を実施した文書データのID(文書ID)、全文検索結果の一致度と、属性検索結果の一致度と、類似検索結果の一致度と、これらの一致度を加算した総合一致度と、一致すると判定された文書データのサムネイルと、SG状画像とが登録される。
また、図7に示す管理テーブルの例は、文書データのページごとの類似度を記録したものであり、指定された種文書データとの類似検索を実施した文書データのID(文書ID)、類似すると判定された図表データを記載したページのページ番号と、類似検索結果の一致度と、ページ内に出現する図表データのID番号とが記録される。
【0029】
図8(A)(B)には、クライアント端末3の表示画面に表示される検索条件を入力する画面の一例を示す。
この入力画面では、検索条件を入力する画面と、オプションを設定する画面とが表示可能となっており、これらの画面をタグで切替え可能になっている。図8(A)に示す検索条件の入力画面では、検索を行う文字列の入力欄30と、検索を行う種文書を指定する入力欄31と、属性検索の条件入力欄32とが設けられている。
また、図8(B)に示すオプション設定画面には、アノテーションが付与された文書だけを検索対象とするか否かを設定する入力欄33と、アノテーションが付与された文書を優先的に検索するか否かを設定する入力欄34と、アノテーションの付与された文書と付与されていない文書とを区別しない設定を入力する入力欄35と、検索結果の表示形式を指定する入力欄36とが設けられている。
入力欄33が入力されると、制御部16は、アノテーションの付与された文書データだけを検索対象とするように検索実行部18に指示を出す。また、入力欄34が入力されると、制御部16は、アノテーションの付与された文書データを優先的に検索するように検索実行部18に指示を出す。また、入力欄36が入力されると、制御部16は、アノテーションの付与された文書データと付与されていない文書データとの区別をしないように検索実行部18に指示を出す。
【0030】
図9及び図10には、クライアント端末3の表示画面に表示される検索結果の表示例を示す。文書名と、文書の要約と、サムネイルと、SG要約とが表示される。また、検索結果の表示順は、図6に示す全文検索、属性検索、類似検索の何れかの一致度が高い順か、これらを総合した総合一致度が高い順に表示する。
図10に示す表示例では、マウスポインタを検索結果として表示したサムネイルやSG要約上に移動させると、文書データの属性データ(作成者、引用者、その他に同一の図表データが出現する出現文書データなど)が表示される。
【0031】
図11に示すフローチャートを参照しながら制御部16の処理手順を説明する。
制御部16は、クライアント端末3より検索要求を受信すると(ステップS1/YES)、検索要求を解析して検索条件を取り出す(ステップS2)。この検索条件には、図8(B)に示すオプション設定の情報も含まれる。
【0032】
検索条件として検索文字列が入力されている場合(ステップS3/YES)には、制御部16は、検索文字列を検索実行部18に転送して全文検索を実行させる。検索実行部18は、文書管理部20を検索して該当文字列を含む文書データを検索する。検索実行部18は検索結果を検索結果記憶部21に登録する(ステップS6)。
【0033】
次に制御部16は、検索条件に「サムネイルの付加」が設定されていた場合(ステップS7/YES)、サムネイル生成部14で生成され、文書要素特徴管理部19に登録されている該当文書データのサムネイルを読み出して、検索結果記憶部21に登録する。
【0034】
次に、制御部16は、検索条件に「SG状画像の付加」が設定されていた場合には(ステップS9/YES)、SG状画像要約作成部15で作成され、文書要素特徴管理部19に登録されている該当文書データのSG状画像を読み出して、検索結果記憶部21に登録する(ステップS10)。
【0035】
また、検索条件として種文書データが指定されていた場合には(ステップS3/NO)、この種文書データからテキストデータと図表データとを取り出して特徴量を抽出し、文書要素特徴管理部19、文書管理部20に登録された文書データとの類似検索を行う(ステップS4)。ステップS4の詳細については、図11を参照しながら後述する。
【0036】
次に制御部16は、検索結果の総合一致度を求め、一致度に従って検索結果をソートする(ステップS11)。ソートした検索結果をクライアント端末3に送信してクライアント端末3の表示画面に表示させる。
【0037】
次に、図12に示すフローチャートを参照しながら文書の検索に種文書データが設定された場合の制御部16の処理手順を説明する。
制御部16は、まずページカウンタを初期化して、1カウントアップする(ステップS21)。
次に制御部16は、処理対象のページを設定し、このページをページ画像生成分割部12に出力して、該当ページ内にテキストデータが含まれているか否かを判定する(ステップS22)。処理対象のページにテキストデータが含まれている場合には(ステップS22/YES)、特徴量抽出部13によって処理対象のページからキーワードや文書データのカテゴリを示すテキストデータを抽出する(ステップS23)。また、制御部16は、抽出したキーワードを検索実行部18に出力して、文書管理部20に登録された文書の全文検索を実施する(ステップS24)。検索結果は、検索実行部18から検索結果記憶部21に記憶される。
【0038】
次に制御部16は、処理対象のページに図表データが含まれているか否かを判定する。制御部16は、処理対象のページをページ画像生成分割部12に出力して、処理対象のページから図表データを抽出させる。処理対象のページに図表データが含まれていた場合には(ステップS25/YES)、この図表データを特徴量抽出部13に出力して、図表データの特徴量を抽出させる(ステップS26)。制御部16は、特徴量抽出部13から特徴量を取得すると、この特徴量を検索実行部18に出力して、特徴量に対する類似検索を実施する(ステップS27)。類似検索の結果は、検索結果記憶部に登録される(ステップ27)。
種文書に含まれる全てのキーワード、図表データに対する検索が終了すると(ステップS28)、制御部16は、検索結果を表示する文書の表示順を利用状況に応じて変更する。例えば、類似検索の対象となった文書が商談等に使用され、成約している文書データであった場合には、全文検索、属性検索、類似検索の一致度が低い文書であっても、表示順位を高く設定する。
【0039】
なお、このフローでは説明を省略したが、例えば、アノテーション(注釈)が付与された文書データだけを検索の対象に設定したり、アノテーションが付与された文書のデータを優先的に検索するようにしてもよい。
【0040】
上述した実施例は本発明の好適な実施の例である。但し、これに限定するものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施が可能である。
例えば、検索結果に所望とする図表データが含まれていなかった場合、クライアント端末3に検索結果を表示して、ユーザが検索結果から所望とする図表データに類似する図表データにアノテーションを付与する。
制御部16は新たにアノテーションが付与された図表データに類似する図表データを検索実行部18で検索させる。
【図面の簡単な説明】
【0041】
【図1】システム構成、及び文書検索支援装置の構成を示すブロック図である。
【図2】制御部のハードウェア構成を示す図である。
【図3】文書要素特徴管理部の管理テーブルの構成を示す図である。
【図4】文書要素特徴管理部の管理テーブルの構成を示す図である。
【図5】文書管理部の管理テーブルの構成を示す図である。
【図6】検索結果記憶部に検索結果として登録されるデータの管理テーブルを示す図である。
【図7】検索結果記憶部に検索結果として登録されるデータの管理テーブルの他の例を示す図である。
【図8】クライアント端末に表示される検索要求の入力画面を示す図である。
【図9】クライアント端末に表示される検索結果の表示の例を示す図である。
【図10】クラアント端末に表示される検索結果の表示の他の例を示す図である。
【図11】クライアント端末より検索文字列が指定された場合の処理手順を示すフローチャートである。
【図12】指定された種文書データに類似する文書データを検索する処理手順を示すフローチャートである。
【符号の説明】
【0042】
2 ネットワーク
3 クライアント端末
10 文書検索支援装置
11 メッセージ送受信部
12 ページ画像生成分割部
13 特徴量抽出部
14 サムネイル生成部
15 SG要約作成部
16 制御部
17 更新部
18 検索実行部
19 文書要素特徴管理部
20 文書管理部
21 検索結果記憶部
【技術分野】
【0001】
本発明は、データベースに蓄積された大量の文書データの中から目的の文書データを探し出す作業を支援する文書検索支援装置に関する。
【背景技術】
【0002】
インターネットをはじめとした情報メディアの発達により、様々な種類の文書が蓄積され、閲覧されるようになってきた。このため、大量の文書群に対し、より効率的な検索システムが求められている。
【0003】
特許文献1では、入力された文書をパラグラフに分割し、書式と共にインデックスを作成して記憶部に記憶する。検索要求があると、この要求に適合する文書の取り出しを文書単位ではなく、パラグラフ単位に行う。
【0004】
特許文献2では、ユーザの端末操作に基づいて文書を検索して表示する機能を有する情報端末において、情報入力・表示ウィンドウ中に表示された一部または全部の情報から、関連する別の文書を検索するためのキーオブジェクト(テキスト、図表、ビットマップ)を抽出し、文書データベースの中からキーオブジェクト集合と一定以上の類似度を持つキーオブジェクト集合を含む文書を検索して取り出し、その文書の一覧を文書一覧表示・選択ウィンドウに表示する。
【0005】
【特許文献1】特開平6−28403号公報
【特許文献2】特開平10−254892号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、検索された文書データが複数のページから構成されていた場合、所望の文書データであるかどうかを確認するのに手間がかかるという問題がある。
【0007】
本発明は上記事情に鑑みてなされたものであり、検索結果として表示された文書データが所望の文書データであるか否かの判定が容易な文書検索支援装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
かかる目的を達成するために本発明の文書検索支援装置は、文書データと、該文書データに含まれるイメージデータの特徴量とを少なくとも記憶した記憶手段と、クライアント端末より指定された文書データ中に含まれるイメージデータとテキストデータとを抽出する抽出手段と、前記抽出手段で抽出したイメージデータと、前記記憶手段に記憶したイメージデータとの特徴量を比較して、前記抽出手段で抽出したイメージデータに類似するイメージデータを前記記憶手段から検索する第1検索手段と、前記抽出手段で抽出したテキストデータからキーワードを取り出し、前記記憶手段に記憶した文書データの中から、前記キーワードが含まれる文書データを検索する第2検索手段と、前記第1検索手段及び前記第2検索手段で検索した文書データに含まれるイメージデータからステンドグラス状画像を生成する生成手段とを有する構成としている。
このように本発明は、文書検索の結果がステンドグラス状画像として表示されるので、検索結果として挙げられた文書データが所望の文書データであるか否かの判断を容易につけることができる。
【0009】
上記文書検索支援装置において、前記記憶手段は、文書データが他の文書データの作成時に利用された文書データであるか否かを示す情報を記憶しており、前記第1検索手段及び前記第2検索手段で検索した文書データの表示順を、該文書データの利用状況に応じて変更する表示制御手段を更に有することを特徴としている。
従って、利用度の高い文書データを検索結果の上位に表示することができる。
【0010】
上記文書検索支援装置において、スキャナによって読み込まれたイメージデータが検索対象に指定されると、前記抽出手段で図表領域のイメージデータを抽出して、前記第1検索手段で前記図表領域のイメージデータと、前記記憶手段に記憶したイメージデータとの特徴量を比較することを特徴としている。
【0011】
上記文書検索支援装置において、前記第1検索手段と前記第2検索手段との少なくとも一方は、前記記憶手段に記憶した文書データのうち、アノテーションが付与された文書データを検索対象とすることを特徴としている。
従って、アノテーションが付与された利用頻度の高い文書データを検索することができる。
【0012】
上記文書検索支援装置において、前記第2検索手段は、文書データの属性情報を検索キーとして前記記憶手段から該属性情報の一致する文書データを検出することを特徴としている。
従って、属性情報の一致する文書データを検索することができる。
【0013】
本発明のプログラムは、コンピュータを、クライアント端末より指定された文書データ中に含まれるイメージデータとテキストデータとを抽出する抽出手段と、前記抽出手段で抽出したイメージデータと、記憶手段に記憶されたイメージデータとの特徴量を比較して、前記抽出手段で抽出したイメージデータに類似するイメージデータを前記記憶手段から検索する第1検索手段と、前記抽出手段で抽出したテキストデータからキーワードを取り出し、前記記憶手段に記憶された文書データの中から、前記キーワードが含まれる文書データを検索する第2検索手段と、前記第1検索手段及び前記第2検索手段で検索した文書データからイメージデータを抽出してステンドグラス状画像を生成する生成手段として機能させることを特徴としている。
【発明の効果】
【0014】
本発明によれば、文書検索の結果がステンドグラス状画像で表示されるので、検索結果として挙げられた文書データが所望の文書データであるか否かの判断を容易につけることができる。
【発明を実施するための最良の形態】
【0015】
添付図面を参照しながら本発明の好適な実施例を説明する。
【実施例】
【0016】
まず、図1を参照しながら本実施例の構成を説明する。本実施例の文書検索支援装置10は、クライアントサーバシステムのサーバ装置としてネットワーク2上に配置されている。このネットワーク2には、文書の検索を要求する複数のクライアント端末3が接続可能な構成をとっている。
【0017】
文書検索支援装置10は、図1に示すようにメッセージ送受信部11、ページ画像生成分割部12、特徴量抽出部(抽出手段)13、サムネイル生成部14、ステンドグラス(以下、SGとも略記する)状画像要約作成部15、制御部16、更新部17、検索実行部(第1検索手段、第2検索手段)18、文書要素特徴管理部19、文書管理部20、検索結果記憶部21を有している。
【0018】
メッセージ送受信部11は、クライアント端末3から送信される検索要求等のメッセージを受信する。受信したメッセージは制御部16に出力する。また、メッセージ送受信部11は、前述の検索要求に対する検索結果を制御部16から受け取って、クライアント端末3に送信する。
【0019】
ページ画像生成分割部12は、所望の文書データを検索するために利用される文書データ(以下、種文書ともいう)や、文書検索支援装置10に登録する文書データの各ページからテキストデータと図表データ(イメージデータ)との少なくとも一方を抽出する。
対象の文書データがパーソナルコンピュータ等によって生成された文書データであった場合には、ページ画像生成分割部12は、対象文書データからテキストデータを抽出する。また、ページ画像生成分割部12は、対象文書データをイメージデータに変換して、イメージ形式の図表データを抽出する。
また、対象の文書データがスキャナ等によって読み込まれたイメージデータであった場合には、ページ画像生成分割部12は、OCR(光学式文字読取装置)等によって文字認識を行うと共に、エッジ抽出、濃度判定等の処理によってイメージデータから図表データ部分を抽出する。抽出したテキストデータや図表データはページ画像生成分割部12から制御部16に出力される。
【0020】
特徴量抽出部13は、制御部16からテキストデータやイメージ形式の図表データを取得して、これらのデータから特徴量を抽出する。
特徴量抽出部13は、図表データを複数の領域に分割し、各領域から画像的な特徴量を抽出する。抽出される特徴量には、分割した領域内の平均色やエッジ量、画像の色成分(RGBの各成分)、スペクトル、黒画素塊の面積、画像の偏平率、輪郭線の複雑さなどが挙げられる。なお、特徴量の抽出方法の詳細は、特開2004−21430号公報に開示がある。
また、テキストデータの場合には、辞書等を使用して固有表現を抽出し、キーワードとなる単語や、文書データのカテゴリを抽出する。特徴量抽出部13は、抽出した特徴量を制御部16に出力する。
【0021】
サムネイル生成部14は、登録する文書データのサムネイルを作成する。SG状画像要約作成部15は、文書データから文書データに含まれる画像等の重要度の高い領域を判定して抽出し、これらの領域を合成して1枚の画像としたステンドグラス状画像(以下、SG状画像と略記する)を生成する。なお、SG状画像の詳細な作成方法は、特開2005-293576号公報や特開2005-293577号公報に開示がある。
サムネイル生成部14で作成されたサムネイルや、SG状画像要約作成部15で作成されたSG状画像は、制御部16に転送される。
【0022】
制御部16は、文書検索支援装置10の全体を制御する。
また、制御部16は、メッセージ送受信部11で受信したメッセージを解析し、解析の結果、メッセージが文書データの検索要求であった場合には、クライアント端末3から検索キーワードを取得して検索実行部18に転送し、文書検索を実行させる。また、キーワードではなく、文書データを種文書とし、この種文書データに類似する文書データ(例えば、種文書に含まれるキーワードを含んだ文書データや、種文書に含まれる図表と同一又は類似する図表を含んだ文書データ)を検索する場合には、クライアント端末3から取得した種文書データをページ画像生成分割部12に転送してテキストデータとイメージデータを抽出させ、特徴量抽出部13でこれらのデータの特徴量を抽出する。制御部16は抽出した特徴量を検索実行部18に転送して、検索実行部18に文書要素特徴管理部19及び文書管理部20を検索させて、種文書に類似する文書データを検出させる。
また、制御部16は、検索実行部18から検索結果を受け取って、受け取った検索結果をメッセージ送受信部11に転送して、要求のあったクライアント端末3に送信する。
また、クライアント端末3からの要求が、文書データや、スキャナ等で読み込んだイメージデータの登録要求であった場合には、制御部16は、取得した文書データやイメージデータを前述のようにページ画像生成分割部12、特徴量抽出部13に転送してイメージデータ、テキストデータの特徴量を抽出する。抽出した特徴量を元の文書データやイメージデータに関連付けて文書要素特徴管理部19や文書管理部20に登録する。
【0023】
制御部16のハードウェア構成を図2に示す。制御部16は、CPU22、ROM23、RAM24、NVRAM(Non Volatile RAM)25、入出力部26などで構成される。CPU22は、ROM23に格納したプログラムを読み込んで、このプログラムに従った演算を行うことにより、後述する図11、図12に示したフローチャートに従った処理を実行する。また、RAM24には、演算結果のデータが書き込まれ、NVRAM25は、RAM24に書き込まれていたデータで、電源オフ時に保存の必要なデータが書き込まれる。
なお、CPU22の制御に使用するプログラムは、CD−ROM等の記録媒体に格納されたものを読み込んでNVRAM25に格納してもよいし、通信網を介して送信されたプログラムを入出力部26で受信してNVRAM25に格納してもよい。
【0024】
更新部17は、制御部16の制御に従って、文書要素特徴管理部19、文書管理部20へのデータの登録、更新を行う。データには、ページ画像生成分割部12で文書データから取り出したテキストデータや図表データと、特徴量抽出部13で抽出されたデータの特徴量と、サムネイル生成部14で生成されたサムネイルと、SG状画像要約作成部15で作成されたSG状画像とが挙げられる。
【0025】
図3、4には、文書要素特徴管理部19の管理テーブルの構造を示す。図3に示す管理テーブルには、文書データに付与された文書IDと、この文書IDに対応付けてサムネイルと、SG状画像と、文書データ中のテキストデータから抽出したキーワード情報やカテゴリ情報とが登録される。サムネイルは、文書データのページ数分登録される。
また、図4に示す管理テーブルでは、図表データに付与された図表IDと、図表データが図であるのか表であるのかを示す種別情報と、図表データが含まれる文書データの文書IDと、図表データが表れる文書データ中のページ番号と、特徴量抽出部13で抽出された図表データの特徴量とが対応付けて登録されている。
【0026】
また、図5には、文書管理部20に作成される管理テーブルの構成を示す。
この管理テーブルには、文書データを一意に識別するための文書ID、又は文書データを格納した他の記憶装置の場所を示すURI(Uniform Resource Identifier)と、文書の属性情報として、文書名、文書の作成者、文書の更新日時、文書の種別、利用状況などが登録される。
文書種別とは、提案書、仕様書、マニュアル、カタログなどの文書の種類を示す情報であり、利用状況とは、どのような場面で文書が利用され、そのときの成果がどのようなものであったのかを示している。例えば、商談に利用され、その商談が成立した場合には成約と記録される。
【0027】
検索実行部18は、文書要素特徴管理部19、文書管理部20を検索して全文検索、属性検索、類似検索等を実行する。
全文検索は、クライアント端末3から入力されたキーワードを検索キーとして文書データの全体を検索し、該当するキーワードの含まれている文書データを検出する。
属性検索は、文書名、文書の作成者、更新日時、種別などの属性情報を検索キーとして該当する文書データを検索する。
類似検索は、種文書データの指定を受けて、この種文書データ中に含まれる図表データと類似する図表データを含んだ文書データを検索する。
類似検索では、文書要素特徴管理部19に登録された図表データの特徴量を用いて検索が行われる。種文書に含まれる図表データの特徴量と、登録された文書データに含まれる図表データの特徴量とを比較することで類似する図表データが検索される。類似検索の詳細については、特開2004−21430号公報に開示がある。
【0028】
検索結果記憶部21は、検索実行部18による検索の結果を記憶する。
図6、7に、検索結果記憶部21に作成される管理テーブルの構造を示す。
図6に示す管理テーブルでは、指定された種文書データとの類似検索を実施した文書データのID(文書ID)、全文検索結果の一致度と、属性検索結果の一致度と、類似検索結果の一致度と、これらの一致度を加算した総合一致度と、一致すると判定された文書データのサムネイルと、SG状画像とが登録される。
また、図7に示す管理テーブルの例は、文書データのページごとの類似度を記録したものであり、指定された種文書データとの類似検索を実施した文書データのID(文書ID)、類似すると判定された図表データを記載したページのページ番号と、類似検索結果の一致度と、ページ内に出現する図表データのID番号とが記録される。
【0029】
図8(A)(B)には、クライアント端末3の表示画面に表示される検索条件を入力する画面の一例を示す。
この入力画面では、検索条件を入力する画面と、オプションを設定する画面とが表示可能となっており、これらの画面をタグで切替え可能になっている。図8(A)に示す検索条件の入力画面では、検索を行う文字列の入力欄30と、検索を行う種文書を指定する入力欄31と、属性検索の条件入力欄32とが設けられている。
また、図8(B)に示すオプション設定画面には、アノテーションが付与された文書だけを検索対象とするか否かを設定する入力欄33と、アノテーションが付与された文書を優先的に検索するか否かを設定する入力欄34と、アノテーションの付与された文書と付与されていない文書とを区別しない設定を入力する入力欄35と、検索結果の表示形式を指定する入力欄36とが設けられている。
入力欄33が入力されると、制御部16は、アノテーションの付与された文書データだけを検索対象とするように検索実行部18に指示を出す。また、入力欄34が入力されると、制御部16は、アノテーションの付与された文書データを優先的に検索するように検索実行部18に指示を出す。また、入力欄36が入力されると、制御部16は、アノテーションの付与された文書データと付与されていない文書データとの区別をしないように検索実行部18に指示を出す。
【0030】
図9及び図10には、クライアント端末3の表示画面に表示される検索結果の表示例を示す。文書名と、文書の要約と、サムネイルと、SG要約とが表示される。また、検索結果の表示順は、図6に示す全文検索、属性検索、類似検索の何れかの一致度が高い順か、これらを総合した総合一致度が高い順に表示する。
図10に示す表示例では、マウスポインタを検索結果として表示したサムネイルやSG要約上に移動させると、文書データの属性データ(作成者、引用者、その他に同一の図表データが出現する出現文書データなど)が表示される。
【0031】
図11に示すフローチャートを参照しながら制御部16の処理手順を説明する。
制御部16は、クライアント端末3より検索要求を受信すると(ステップS1/YES)、検索要求を解析して検索条件を取り出す(ステップS2)。この検索条件には、図8(B)に示すオプション設定の情報も含まれる。
【0032】
検索条件として検索文字列が入力されている場合(ステップS3/YES)には、制御部16は、検索文字列を検索実行部18に転送して全文検索を実行させる。検索実行部18は、文書管理部20を検索して該当文字列を含む文書データを検索する。検索実行部18は検索結果を検索結果記憶部21に登録する(ステップS6)。
【0033】
次に制御部16は、検索条件に「サムネイルの付加」が設定されていた場合(ステップS7/YES)、サムネイル生成部14で生成され、文書要素特徴管理部19に登録されている該当文書データのサムネイルを読み出して、検索結果記憶部21に登録する。
【0034】
次に、制御部16は、検索条件に「SG状画像の付加」が設定されていた場合には(ステップS9/YES)、SG状画像要約作成部15で作成され、文書要素特徴管理部19に登録されている該当文書データのSG状画像を読み出して、検索結果記憶部21に登録する(ステップS10)。
【0035】
また、検索条件として種文書データが指定されていた場合には(ステップS3/NO)、この種文書データからテキストデータと図表データとを取り出して特徴量を抽出し、文書要素特徴管理部19、文書管理部20に登録された文書データとの類似検索を行う(ステップS4)。ステップS4の詳細については、図11を参照しながら後述する。
【0036】
次に制御部16は、検索結果の総合一致度を求め、一致度に従って検索結果をソートする(ステップS11)。ソートした検索結果をクライアント端末3に送信してクライアント端末3の表示画面に表示させる。
【0037】
次に、図12に示すフローチャートを参照しながら文書の検索に種文書データが設定された場合の制御部16の処理手順を説明する。
制御部16は、まずページカウンタを初期化して、1カウントアップする(ステップS21)。
次に制御部16は、処理対象のページを設定し、このページをページ画像生成分割部12に出力して、該当ページ内にテキストデータが含まれているか否かを判定する(ステップS22)。処理対象のページにテキストデータが含まれている場合には(ステップS22/YES)、特徴量抽出部13によって処理対象のページからキーワードや文書データのカテゴリを示すテキストデータを抽出する(ステップS23)。また、制御部16は、抽出したキーワードを検索実行部18に出力して、文書管理部20に登録された文書の全文検索を実施する(ステップS24)。検索結果は、検索実行部18から検索結果記憶部21に記憶される。
【0038】
次に制御部16は、処理対象のページに図表データが含まれているか否かを判定する。制御部16は、処理対象のページをページ画像生成分割部12に出力して、処理対象のページから図表データを抽出させる。処理対象のページに図表データが含まれていた場合には(ステップS25/YES)、この図表データを特徴量抽出部13に出力して、図表データの特徴量を抽出させる(ステップS26)。制御部16は、特徴量抽出部13から特徴量を取得すると、この特徴量を検索実行部18に出力して、特徴量に対する類似検索を実施する(ステップS27)。類似検索の結果は、検索結果記憶部に登録される(ステップ27)。
種文書に含まれる全てのキーワード、図表データに対する検索が終了すると(ステップS28)、制御部16は、検索結果を表示する文書の表示順を利用状況に応じて変更する。例えば、類似検索の対象となった文書が商談等に使用され、成約している文書データであった場合には、全文検索、属性検索、類似検索の一致度が低い文書であっても、表示順位を高く設定する。
【0039】
なお、このフローでは説明を省略したが、例えば、アノテーション(注釈)が付与された文書データだけを検索の対象に設定したり、アノテーションが付与された文書のデータを優先的に検索するようにしてもよい。
【0040】
上述した実施例は本発明の好適な実施の例である。但し、これに限定するものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施が可能である。
例えば、検索結果に所望とする図表データが含まれていなかった場合、クライアント端末3に検索結果を表示して、ユーザが検索結果から所望とする図表データに類似する図表データにアノテーションを付与する。
制御部16は新たにアノテーションが付与された図表データに類似する図表データを検索実行部18で検索させる。
【図面の簡単な説明】
【0041】
【図1】システム構成、及び文書検索支援装置の構成を示すブロック図である。
【図2】制御部のハードウェア構成を示す図である。
【図3】文書要素特徴管理部の管理テーブルの構成を示す図である。
【図4】文書要素特徴管理部の管理テーブルの構成を示す図である。
【図5】文書管理部の管理テーブルの構成を示す図である。
【図6】検索結果記憶部に検索結果として登録されるデータの管理テーブルを示す図である。
【図7】検索結果記憶部に検索結果として登録されるデータの管理テーブルの他の例を示す図である。
【図8】クライアント端末に表示される検索要求の入力画面を示す図である。
【図9】クライアント端末に表示される検索結果の表示の例を示す図である。
【図10】クラアント端末に表示される検索結果の表示の他の例を示す図である。
【図11】クライアント端末より検索文字列が指定された場合の処理手順を示すフローチャートである。
【図12】指定された種文書データに類似する文書データを検索する処理手順を示すフローチャートである。
【符号の説明】
【0042】
2 ネットワーク
3 クライアント端末
10 文書検索支援装置
11 メッセージ送受信部
12 ページ画像生成分割部
13 特徴量抽出部
14 サムネイル生成部
15 SG要約作成部
16 制御部
17 更新部
18 検索実行部
19 文書要素特徴管理部
20 文書管理部
21 検索結果記憶部
【特許請求の範囲】
【請求項1】
文書データと、該文書データに含まれるイメージデータの特徴量とを少なくとも記憶した記憶手段と、
クライアント端末より指定された文書データ中に含まれるイメージデータとテキストデータとを抽出する抽出手段と、
前記抽出手段で抽出したイメージデータと、前記記憶手段に記憶したイメージデータとの特徴量を比較して、前記抽出手段で抽出したイメージデータに類似するイメージデータを前記記憶手段から検索する第1検索手段と、
前記抽出手段で抽出したテキストデータからキーワードを取り出し、前記記憶手段に記憶した文書データの中から、前記キーワードが含まれる文書データを検索する第2検索手段と、
前記第1検索手段及び前記第2検索手段で検索した文書データに含まれるイメージデータからステンドグラス状画像を生成する生成手段と、
を有することを特徴とする文書検索支援装置。
【請求項2】
前記記憶手段は、文書データが他の文書データの作成時に利用された文書データであるか否かを示す情報を記憶しており、
前記第1検索手段及び前記第2検索手段で検索した文書データの表示順を、該文書データの利用状況に応じて変更する表示制御手段を更に有することを特徴とする請求項1記載の文書検索支援装置。
【請求項3】
スキャナによって読み込まれたイメージデータが検索対象に指定されると、前記抽出手段で図表領域のイメージデータを抽出して、前記第1検索手段で前記図表領域のイメージデータと、前記記憶手段に記憶したイメージデータとの特徴量を比較することを特徴とする請求項1または2記載の文書検索支援装置。
【請求項4】
前記第1検索手段と前記第2検索手段との少なくとも一方は、前記記憶手段に記憶した文書データのうち、アノテーションが付与された文書データを検索対象とすることを特徴とする請求項1から3のいずれか一項記載の文書検索支援装置。
【請求項5】
前記第2検索手段は、文書データの属性情報を検索キーとして前記記憶手段から該属性情報の一致する文書データを検出することを特徴とする請求項1から4のいずれか一項記載の文書検索支援装置。
【請求項6】
コンピュータを、
クライアント端末より指定された文書データ中に含まれるイメージデータとテキストデータとを抽出する抽出手段と、
前記抽出手段で抽出したイメージデータと、記憶手段に記憶されたイメージデータとの特徴量を比較して、前記抽出手段で抽出したイメージデータに類似するイメージデータを前記記憶手段から検索する第1検索手段と、
前記抽出手段で抽出したテキストデータからキーワードを取り出し、前記記憶手段に記憶された文書データの中から、前記キーワードが含まれる文書データを検索する第2検索手段と、
前記第1検索手段及び前記第2検索手段で検索した文書データからイメージデータを抽出してステンドグラス状画像を生成する生成手段として機能させることを特徴とするプログラム。
【請求項1】
文書データと、該文書データに含まれるイメージデータの特徴量とを少なくとも記憶した記憶手段と、
クライアント端末より指定された文書データ中に含まれるイメージデータとテキストデータとを抽出する抽出手段と、
前記抽出手段で抽出したイメージデータと、前記記憶手段に記憶したイメージデータとの特徴量を比較して、前記抽出手段で抽出したイメージデータに類似するイメージデータを前記記憶手段から検索する第1検索手段と、
前記抽出手段で抽出したテキストデータからキーワードを取り出し、前記記憶手段に記憶した文書データの中から、前記キーワードが含まれる文書データを検索する第2検索手段と、
前記第1検索手段及び前記第2検索手段で検索した文書データに含まれるイメージデータからステンドグラス状画像を生成する生成手段と、
を有することを特徴とする文書検索支援装置。
【請求項2】
前記記憶手段は、文書データが他の文書データの作成時に利用された文書データであるか否かを示す情報を記憶しており、
前記第1検索手段及び前記第2検索手段で検索した文書データの表示順を、該文書データの利用状況に応じて変更する表示制御手段を更に有することを特徴とする請求項1記載の文書検索支援装置。
【請求項3】
スキャナによって読み込まれたイメージデータが検索対象に指定されると、前記抽出手段で図表領域のイメージデータを抽出して、前記第1検索手段で前記図表領域のイメージデータと、前記記憶手段に記憶したイメージデータとの特徴量を比較することを特徴とする請求項1または2記載の文書検索支援装置。
【請求項4】
前記第1検索手段と前記第2検索手段との少なくとも一方は、前記記憶手段に記憶した文書データのうち、アノテーションが付与された文書データを検索対象とすることを特徴とする請求項1から3のいずれか一項記載の文書検索支援装置。
【請求項5】
前記第2検索手段は、文書データの属性情報を検索キーとして前記記憶手段から該属性情報の一致する文書データを検出することを特徴とする請求項1から4のいずれか一項記載の文書検索支援装置。
【請求項6】
コンピュータを、
クライアント端末より指定された文書データ中に含まれるイメージデータとテキストデータとを抽出する抽出手段と、
前記抽出手段で抽出したイメージデータと、記憶手段に記憶されたイメージデータとの特徴量を比較して、前記抽出手段で抽出したイメージデータに類似するイメージデータを前記記憶手段から検索する第1検索手段と、
前記抽出手段で抽出したテキストデータからキーワードを取り出し、前記記憶手段に記憶された文書データの中から、前記キーワードが含まれる文書データを検索する第2検索手段と、
前記第1検索手段及び前記第2検索手段で検索した文書データからイメージデータを抽出してステンドグラス状画像を生成する生成手段として機能させることを特徴とするプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2009−123033(P2009−123033A)
【公開日】平成21年6月4日(2009.6.4)
【国際特許分類】
【出願番号】特願2007−297341(P2007−297341)
【出願日】平成19年11月15日(2007.11.15)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成21年6月4日(2009.6.4)
【国際特許分類】
【出願日】平成19年11月15日(2007.11.15)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]