説明

文書検索装置

【課題】重要な文書は印刷されることが多いことに着目し、重要性のある文書を効率良く探し出すことのできる装置を提供する。
【解決手段】文書検索装置1は、プリンタドライバ17が文書の印刷指示を受けると、プリンタドライバ17が生成した印刷ジョブから所定の印刷情報を取得し、印刷情報を少なくとも記述した索引データを索引DB11に記憶する索引データ管理手段10を備え、更に、少なくとも印刷情報に係る検索条件を受け付けるUIに入力された検索条件に適合する文書を、索引データを利用して検索し、検索した文書の索引データのスコア順に従い、検索結果に含まれる文書を一覧表示する検索手段12を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、重要な文書は印刷されることが多いことに着目し、重要性のある文書を効率良く探し出すための技術に関する。
【背景技術】
【0002】
企業で取り扱う電子化した文書は、文書の重要性に係わらず、従業員が利用するパーソナルコンピュータ又は部門毎に共通のサーバなどの同一の補助記憶装置に保管されることが多く、時間の経過と共に、過去に作成した文書の重要性が不明になってしまうことがある。
【0003】
過去に作成した文書の重要性が不明であると、補助記憶装置に保管されている文書を削除する際、削除して良い文書がわからなくなるし、また、過去の作成した文書を流用したいとき、流用可能な重要性の高い文書を見つけるのに時間がかかってしまう問題がある。
【0004】
重要性のある文書を効率良く探し出すための発明として、例えば、特許文献1では、重要度を示す指標を関連付けて文書を記憶しておき、利用者によって一つの文書を閲覧する旨の指示があると、文書の重要度が高くなるように、文書に関連付けられた指標を更新する一方、他の文書については、放置された時間に応じて、その重要度が低くなるように、当該他の文書に関連付けられた指標を更新する文書管理装置が開示されている。
【0005】
また、重要性のある文書を効率良く探し出すためには、文書の相関関係を示した文書相関図を提示することも有用で、例えば、特許文献2では、文書相関図を自動作成する装置として、複数の文書の相関を示す樹状図を作成し、樹状図を所定の規則に基づき切断してクラスタを抽出し、抽出したクラスタに含まれる文書の時間データに基づきクラスタ内の配列を決定する装置が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第4151288号公報
【特許文献2】特許第4171514号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、重要な文書は、一定期間の保存や配布のために印刷されることが多いが、従来の技術は、このことに着目して、重要性のある文書を効率良く探し出すための発明ではなかった。そこで、本発明は、重要な文書は印刷されることが多いことに着目し、重要性のある文書を効率良く探し出すことのできる装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決する第1の発明は、印刷された文書の索引を記憶するために、文書の印刷指示を受けると、プリンタドライバが生成した印刷ジョブから所定の印刷情報を取得し、前記印刷情報を少なくとも記述した索引データを記憶する索引データ管理手段を備え、更に、印刷された文書を検索できるために、前記印刷情報を利用した検索条件を少なくとも受け付ける第1のUI(User Interface)を有し、前記索引データを利用して、前記第1のUIに入力された検索条件に適合する文書を検索し、検索結果に含まれる文書を一覧表示する検索手段を備えたことを特徴とする文書検索装置である。
【0009】
更に、第2の発明は、第1の発明に記載の文書検索装置において、重要な文書をより効率良く探すことができるようにするために、前記索引データ管理手段は、前記印刷情報を所定のアルゴリズムに従い評価した値であるスコア値を前記索引データに付加しておき、前記検索手段は、検索結果に含まれる文書を前記スコア順に一覧表示することを特徴とする。
【0010】
更に、第3の発明は、第2の発明に記載の文書検索装置において、重要な文書ほど印刷されることが多くなる点に着目し、前記索引データ管理手段は、印刷情報に印刷回数を含ませ、同一の文書が印刷される毎に該文書に対応した前記索引データの印刷回数をインクリメントし、前記スコア値を算出する際に少なくとも前記印刷情報を用いることを特徴とする。
【0011】
更に、第4の発明は、第1の発明から第3の発明のいずれか一つに記載の文書検索装置において、検索結果に含まれる文書を含む文書相関図を表示できるように、前記索引データ管理手段は、前記印刷ジョブを利用して、文書に含まれるテキストを自然言語解析することで、印刷要求を受けた文書を特徴付ける特徴情報を生成し、前記索引データに前記特徴情報を含ませて記憶し、前記文書検索装置は、前記検索結果に含まれる一つの文書が参照元の文書として指定されると、参照元の文書と他の文書の相関の度合いを示す相関値を索引データの特徴情報を用いて算出した後、参照元の文書と相関値が閾値以上の文書を相関のある文書対として記憶する処理を、参照元の文書を指定された文書から開始して、相関値が閾値以上の文書を新たな参照元の文書とするように再帰的に実行することで相関のある文書対を求め、前記相関のある文書対を線で結んだ文書相関図を作成する相関図作成手段を備えていることを特徴とする。
【0012】
更に、第5の発明は、第4の発明のいずれか一つに記載の文書検索装置において、前記特徴情報を文書ベクトルとすることを特徴とする。
【発明の効果】
【0013】
このように、本発明によれば、重要な文書は印刷されることが多いことに着目し、重要性のある文書を効率良く探し出すことのできる文書検索装置を提供することができる。
【図面の簡単な説明】
【0014】
【図1】文書検索装置に備えられた機能を示すブロック図。
【図2】文書検索装置として利用されるコンピュータのブロック図。
【図3】索引データ管理手段の動作を説明するフロー図。
【図4】検索手段の動作を説明するフロー図。
【図5】検索手段が有するUIの一例を示した図。
【図6】相関図作成手段の動作を説明するフロー図。
【図7】文書相関図を説明する図。
【発明を実施するための形態】
【0015】
ここから,本発明の実施形態について,本発明の技術分野に係わる当業者が,発明の内容を理解し,発明を実施できる程度に説明する。なお、これから説明する実施形態は本発明の一実施形態にしか過ぎず、本発明は,これから説明する実施形態に限定されることなく、種々の変形や変更が可能である。
【0016】
図1は、本実施形態に係る文書検索装置1に備えられた機能を示すブロック図で、図2は、文書検索装置1として利用されるコンピュータのブロック図ある。
【0017】
文書検索装置1は、プリンタ2で出力された文書を重要な文書として判断し、プリンタ2で出力された文書の中から、所望する文書を検索できるように開発され、コンピュータにより実現される装置で、図2に図示したように、文書検索装置1として機能するコンピュータには、CPU1a、メモリやI/Oが接続されるチップセット1bが実装され、チップセットには、メインのメモリ1c、ディスプレイ1eが接続されるグラフィックボード1d、LANインターフェース1f、キーボード/マウス1g、補助記憶装置なるハードディスク1h、USBポート1iが接続されている。
【0018】
図1は、文書検索装置1として利用されるコンピュータに実装されているオペレーティングシステムがWindows(登録商標)の場合の図で、図1に図示したように、本実施形態に係る文書検索装置1は、文書を印刷するための機能として、文書が記憶されている文書記憶部14と、文書の印刷指示を出すアプリケーション15と、印刷指示を受けた文書をレンダリングするGDI(Graphical Device Interface)16と、プリンタ2が対応している形式の印刷ジョブを生成する機能とプリンタ2を制御する機能を有するプリンタドライバ17と、プリンタドライバ17が生成した印刷ジョブがスプールされる印刷スプーラ18を備え、印刷スプーラ18には、LANインターフェース1fやUSBポート1iを介してプリンタ2が接続されている。
【0019】
文書記憶部14は、補助記憶装置なるハードディスク1hに設けられたドライブ又はフォルダで、アプリケーション15、GDI16、プリンタドライバ17及び印刷スプーラ18はコンピュータプログラムで実現され、このコンピュータプログラムのプログラムコードはハードディスク1hに記憶されている。
【0020】
文書記憶部14に記憶された文書を印刷する操作がなされると、該文書に対応したアプリケーション14はGDI16を呼び出し、GDI16は、文書検索装置1として利用されるコンピュータに設定されているプリンタ2に対応するプリンタドライバ17を呼び出し、プリンタドライバ17は、プリンタ2が対応しているページ記述言語に対応しているデータに文書を変換することで印刷ジョブを生成し、生成した印刷ジョブを印刷スプーラ18にスプールする。そして、バックグラウンドで印刷を行う印刷スプーラ18は、印刷スプーラ18にスプールされた順に印刷ジョブをプリンタ2に送信して、印刷ジョブに対応した印刷がプリンタ2で実行される。
【0021】
また、図1に図示したように文書検索装置1は、重要な文書は印刷されることが多いことに着目して重要性のある文書を効率良く探し出すための機能として、プリンタドライバ17が文書の印刷指示を受けると、プリンタドライバ17が生成した印刷ジョブから所定の印刷情報を取得し、印刷情報を少なくとも記述した索引データを記憶する索引データ管理手段10と、索引データを記憶する索引DB11(DB: Data Base)を備えている。
【0022】
索引データ管理手段10は、単体のコンピュータプログラムで実現することができるが、文書検索装置1の索引データ管理手段10の機能をプリンタドライバ17に備えさせるようにすることもできる。
【0023】
本実施形態において、文書検索装置1の索引データ管理手段10が索引DB11に記憶する索引データには、索引データ毎にユニークなIDが振られ、プリンタドライバ17から取得した所定の印刷情報に加え、印刷要求を受けた文書を自然言語解析して得られた特徴情報が含まれる。
【0024】
文書検索装置1の索引データ管理手段10が、プリンタドライバ17が生成した印刷ジョブから取得する印刷情報には、文章の印刷状況を示すデータとして、印刷要求を受けた文書のファイル名、文書が印刷要求された回数、文書の印刷要求を受け付けた印刷日時、及び、印刷要求したユーザ名である印刷者が含まれ、索引データには、印刷情報から演算されたスコア値が付加されている。
【0025】
索引データに特徴情報を含ませるのは、文書検索装置1を操作するユーザが、文書の印刷に係わる検索に加え、文書の内容に係る検索(例えば、指定された単語を含む文書の検索)を行えるようにするためである。また、文書を流用して他の文書を作成する際、作成された文書は参照元の文書と類似しているため、索引データに含まれる特徴情報を利用して、文書の相関値が求めれば、文書の相関を図示した文書相関図を生成することが可能になる。
【0026】
更に、図1で図示した文書検索装置1は、重要な文書は印刷されることが多いことに着目して重要性のある文書を効率良く探し出すための機能として、少なくとも印刷情報に係る検索条件を受け付けるUI(User Interface)に入力された検索条件に適合する文書を、索引データを利用して検索し、検索した文書の索引データのスコア順に従い、検索結果に含まれる文書を一覧表示する検索手段12を備え、検索手段12はコンピュータプログラムにより実現されている。
【0027】
少なくとも印刷情報に係る検索条件に適合する文書を、索引DB11に記憶された索引データを利用して検索することで、検索結果に含まれる文書は過去に印刷された文書のみとなる。重要な文書は印刷されることが多いことに着目すると、一覧表示される文書は、重要な文書のリストと見なすことができ、このリストを見れば、重要性のある文書を効率良く探し出すことができるようになる。
【0028】
また、重要な文書と判断するために印刷情報を評価した値をスコア値とし、検索した文書の索引データのスコア順に従い、検索結果に含まれる文書を一覧表示することで、重要な文書をより効率良く探すことができるようになる。なお、重要な文書ほど印刷される回数は多くなるため、少なくとも印刷回数を評価した値をスコア値とするとよい。
【0029】
更に、図1で図示した文書検索装置1は、重要な文書は印刷されることが多いことに着目して重要性のある文書を効率良く探し出すための機能として、検索結果に含まれる一つの文書が指定されると、該文書を含む文書相関図を作成してディスプレイ1eに表示する相関図作成手段13を備え、相関図作成手段13はコンピュータプログラムにより実現される。なお、文書検索装置1に相関図作成手段13を備えさせるのは、指定された文書の参照元になった文書を文書相関図から探すことができるようにするためである。
【0030】
ここから、文書検索装置1に備えられた各手段の動作について説明する。図3は、文書検索装置1の索引データ管理手段10の動作を説明するフロー図である。
【0031】
文書検索装置1の索引データ管理手段10は、文書検索装置1として利用するコンピュータが起動すると自動的に起動して文書の印刷要求の発生を監視する動作を行い、文書の印刷要求の発生を検知すると、プリンタドライバが生成した印刷ジョブを取得する(S1)。例えば、文書検索装置1の索引データ管理手段10は、印刷スプーラ18を常時監視し、印刷スプーラ18に新規の印刷ジョブがスプールされると、印刷スプーラ18からプリンタドライバ17が生成した印刷ジョブを取得する。
【0032】
文書検索装置1の索引データ管理手段10は、プリンタドライバ17が生成した印刷ジョブを取得すると、該印刷ジョブから得られた文書のファイル名を利用して、印刷要求を受けた文書の索引データが既に索引DB11に記憶されているか否か確認する(S2)。
【0033】
文書検索装置1の索引データ管理手段10は、印刷要求を受けた文書の索引データが索引DB11に記憶されていない場合、該文書の索引データを新規に生成する処理(S3)を実行し、印刷要求を受けた文書の索引データが索引DB11に記憶されている場合、該文書の索引データを更新する処理(S4)を実行し、図3の手順は終了する。
【0034】
印刷要求を受けた文書の索引データを新規に生成する処理において、文書検索装置1の索引データ管理手段10は、新規に索引データのIDを生成する(S3a)。
【0035】
次に、文書検索装置1の索引データ管理手段10は、印刷要求を受けた文書のファイル名、印刷者及び印刷日時を印刷ジョブから取得し(S3b)、ここでは初回の印刷であるため印刷回数を「1」とし(S3c)、これらのデータから所定のアルゴリズムに従い、重要な文書と判断するために印刷情報を評価した値であるスコア値を演算する(S3d)。
【0036】
重要な文書と判断するために印刷情報を評価した値であるスコア値を演算するアルゴリズムは任意で、最も、簡単なアルゴリズムは、印刷回数そのものをスコア値とすればよいが、ユーザ名にスコア値に加算する値を関連付けておき、印刷回数の整数倍にユーザ名に対応する値を加算してスコア値を演算することができる。
【0037】
次に、文書検索装置1の索引データ管理手段10は、印刷ジョブの本体を自然言語解析することで、索引データに含ませる特徴情報を生成する(S3e)。特徴情報を生成する手法は、文書の内容が特徴情報に反映されれば如何なる手法でよいが、本実施形態では、TF(Term Frequency)/IDF(Inverse Document Frequency)法により、印刷ジョブに含まれるテキストを自然言語解析することで得られた単語と文書ベクトルを特徴情報として生成する。
【0038】
そして、文書検索装置1の索引データ管理手段10は、印刷ジョブから得られた印刷情報及び特徴情報を記述し、スコア値を付加した索引データを索引DB11に記憶する(S3f)。
【0039】
なお、印刷要求を受けた文書の索引データを更新する処理において、文書検索装置1の索引データ管理手段10は、印刷要求を受けた文書のファイル名を利用して、印刷要求を受けた文書の索引データを索引DB11から検索すると、検索した索引データの印刷回数を一つインクリメントし(S4a)、更に、印刷日時及び印刷者を索引データに追加し(S4b)、これに基づきスコア値を演算・更新(S4c)する。
【0040】
次に、文書検索装置1の検索手段12について説明する。図4は、文書検索装置1の検索手段12の動作を説明するフロー図である。
【0041】
文書検索装置1の検索手段12が文書を検索する際、検索手段12が有するUIをディスプレイに表示し、文書検索装置1の検索手段12は、該UIに入力された検索条件を取得する(S10)。
【0042】
図5は、検索手段12が有するUIの一例を示した図である。検索条件を受け付けるUIが表示されるダイアログ120には、索引データの印刷情報に係る検索条件を入力するフォーム121が少なくとも含まれ、本実施形態では、更に、索引データの特徴情報を利用する検索条件を入力するフォーム122が含まれる。
【0043】
図5において、索引データの印刷情報を利用する検索条件として、索引データの印刷情報に対応する各項目、すなわち、検索する文書の印刷回数、印刷日時、印刷者及びファイル名それぞれを検索条件として設定できようにしている。加えて、図5では、索引データの特徴情報を利用する検索条件として、検索する文書に含まれる単語を設定できるようにしている。
【0044】
文書検索装置1の検索条件が有するUIに入力された検索条件を取得すると、文書検索装置1の検索手段12は、UIに入力された検索条件に適合する索引データを索引DB11から検索することで、UIに入力された検索条件に適合する文書を検索する(S11)。
【0045】
印刷情報を利用する検索条件に適合する索引データを検索する際、該検索条件に対応する印刷情報が含む索引データが検索される。例えば、印刷に係る検索条件として印刷日時が指定された場合、検索条件に適合する印刷日時が記述されている索引データが検索される。また、特徴情報を利用する検索条件に適合する索引データを検索する際、該検索条件に対応する特徴情報が含む索引データが検索される。ここでは、特徴情報を利用する検索条件として文書に含まれる単語が指定されるため、検索条件として指定された単語が特徴情報に記述されている索引データが検索される。
【0046】
なお、UIに複数の検索条件が入力された場合、それぞれの検索条件はANDで取り扱われ、それぞれ検索条件を用いた検索結果で共通となる文書が、UIに入力された複数の検索条件に適合する索引データとして索引DB11から検索される。
【0047】
検索条件を受け付けるUIに入力された検索条件に適合する索引データを索引DB11から検索すると、文書検索装置1の検索手段12は、検索結果に含まれる索引データ毎に、該索引データの印刷情報に含まれる文書のファイル名を、該索引データに付加されたスコア順に従い一覧表示するデータを生成し、該データをディスプレイに表示して(S12)、図4で図示した手順は終了する。
【0048】
次に、文書検索装置1の相関図作成手段13について説明する。図6は、文書検索装置1の相関図作成手段13の動作を説明するフロー図である。
【0049】
文書検索装置1に検索結果として表示されている一覧表示に含まれる一つの文書のファイル名がクリックされることで一つの文書が指定されると(S20)、文書検索装置1の相関図作成手段13が作動し、文書検索装置1の相関図作成手段13は、指定された文書を含む文書相関図を作成する処理を開始する。
【0050】
文書相関図を作成する手法は様々あるが、本実施形態において、文書検索装置1の相関図作成手段13は、参照元の文書と他の文書の相関の度合いを示す相関値(ここでは、類似度)を索引データの特徴情報(ここでは、文書ベクトル)を用いて算出した後、参照元の文書と相関値が閾値以上の文書を相関のある文書対として記憶する処理を、参照元の文書を指定された文書から開始して、相関値が閾値以上の文書を参照元の文書とするように再帰的に実行することで、相関のある文書対を求める(S21)。
【0051】
ここでは、索引データの特徴情報として、TF/IDF法により求められた文書ベクトルが記述されているため、2つの文書ベクトルがなす角度を利用する手法により文書間の類似度が相関値として算出され、この類似度により文書間の相関が判断される。
【0052】
指定された文書を起点して相関性のある文書対を求めると、文書検索装置1の相関図作成手段13は、相関性のある文書対として抽出した各文書の索引データを参照し、印刷日時が最近の文書を最上位になるように該文書に対応するアイコンを並べ、相関のある文書対のアイコンを線で結ぶことで文書相関図を作成し、作成した文書相関図をディスプレイに表示して(S22)、この手順を終了する。
【0053】
図7は、文書相関図を説明する図である。図7において、文書はアイコン130で表示され、このアイコン130は印刷日時が古いもの下になるように配置されている。文書Bは検索結果から指定された文書で、図7に従えば、文書Bと相関のある文書は文書Aと文書Eであるため、文書Bの元になった文書は文書Eであり、文書Bは文書Aの元になっていることがわかる。また、図7に従えば、相関のある文書の数が最も多い文書は文書Eであるため、文書Eを流用して数多くの文書が作成されたことがわかる。
【符号の説明】
【0054】
1 文書検索装置
10 索引データ管理手段
11 索引DB
12 検索手段
13 相関図作成手段
17 プリンタドライバ
18 印刷スプーラ
2 プリンタ


【特許請求の範囲】
【請求項1】
文書の印刷指示を受けると、プリンタドライバが生成した印刷ジョブから所定の印刷情報を取得し、前記印刷情報を少なくとも記述した索引データを記憶する索引データ管理手段と、前記印刷情報を利用した検索条件を少なくとも受け付ける第1のUI(User Interface)を有し、前記索引データを利用して、前記第1のUIに入力された検索条件に適合する文書を検索し、検索結果に含まれる文書を一覧表示する検索手段を備えたことを特徴とする文書検索装置。
【請求項2】
前記索引データ管理手段は、前記印刷情報を所定のアルゴリズムに従い評価した値であるスコア値を前記索引データに付加しておき、前記検索手段は、検索結果に含まれる文書を前記スコア順に一覧表示することを特徴とする、請求項1に記載の文書検索装置。
【請求項3】
前記索引データ管理手段は、印刷情報に印刷回数を含ませ、同一の文書が印刷される毎に該文書に対応した前記索引データの印刷回数をインクリメントし、前記スコア値を算出する際に少なくとも前記印刷情報を用いることを特徴とする、請求項2に記載の文書検索装置。
【請求項4】
前記索引データ管理手段は、前記印刷ジョブを利用して、文書に含まれるテキストを自然言語解析することで、印刷要求を受けた文書を特徴付ける特徴情報を生成し、前記索引データに前記特徴情報を含ませて記憶し、前記文書検索装置は、前記検索結果に含まれる一つの文書が指定されると、参照元の文書と他の文書の相関の度合いを示す相関値を索引データの特徴情報を用いて算出した後、参照元の文書と相関値が閾値以上の文書を相関のある文書対として記憶する処理を、参照元として指定された文書から開始して、相関値が閾値以上の文書を新たな参照元の文書とするように再帰的に実行することで相関のある文書対を求め、前記相関のある文書対を線で結んだ文書相関図を作成する相関図作成手段を備えていることを特徴とする、請求項1から請求項3のいずれか一つに記載の文書検索装置。
【請求項5】
前記特徴情報を文書ベクトルとすることを特徴とする、請求項4に記載の文書検索装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate