説明

文書追跡システム

【課題】識別情報が得られない文書や、登録されていない識別情報が割り当てられた文書の追跡を行うことができる文書追跡システムを提供すること。
【解決手段】追跡スキャナ20または追跡PC21によって追跡対象の文書が指定されると、コンテンツ解析サーバ2は、追跡対象の文書に内容が類似する文書をファイルサーバ1から抽出し、追跡サーバ22は、抽出した文書に対する入出力の履歴を追跡して追跡スキャナ20または追跡PC21に追跡結果を提示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書追跡システムに関し、特に、文書が複製または複写された経路を追跡する文書追跡システムに関する。
【背景技術】
【0002】
近年、ITシステムの発達によって重要文書の流出が広範囲に発生するようになり、情報漏洩が大きな問題となっている。その対策として、電子文書に関してはユーザ認証やアクセス制御、紙文書に関してはマル秘スタンプの追加による心理的な抑止や印刷情報の付加による生成元の判別等が提案されている。
【0003】
しかしながら、特に紙文書に関するセキュリティ対策は不十分である。このため、ある紙文書に対して、それがどのプリンタで印刷され、どの複合機でコピーされ、どのスキャナでスキャンされたか等という文書の流通経路を正確に把握するために、用紙を一意に識別する識別子と、用紙と、その用紙に対する操作情報とを関連付けて追跡ログとして記録し、追跡したい対象用紙をユーザがデジタル複合機で「追跡スキャン」すると、複合機が対象用紙から識別子を検出し、追跡ログに基づいて、その用紙の来歴と流通先を解析し、結果をユーザに示すものがある(例えば、特許文献1参照)。
【0004】
また、スキャナによって紙文書から読み取られた画像データを一方向関数(ハッシュ関数)にかけ、算出されたハッシュ値をその画像データの識別子として使用することで、その電子ファイルの流通経路を後から追跡できるようにしたことにより、紙文書をスキャンして得られた電子文書も追跡対象とすることができ、文書の流通経路の追跡範囲を広げるものもある(例えば、特許文献2参照)。
【特許文献1】特開2008−42666号公報
【特許文献2】特願2008−039612号
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した従来の技術は、対象となる文書が記録された記録媒体(例えば、スキャンする文書が記録された用紙)を識別するための識別情報に基づいて対象文書の追跡を行っているため、識別情報が得られない文書や、登録されていない識別情報が割り当てられた文書の追跡を行うことができないといった課題があった。
【0006】
本発明は、従来の課題を解決するためになされたもので、識別情報が得られない文書や、登録されていない識別情報が割り当てられた文書の追跡を行うことができる文書追跡システムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の文書追跡システムは、文書に対する入出力操作を追跡する文書追跡システムにおいて、前記文書を格納するファイルサーバと、前記ファイルサーバに格納された文書の内容から取得される特徴量に該文書を識別するための登録文書識別情報を関連付けた特徴量テーブルを予め格納する特徴量テーブル格納装置と、前記文書に対する入出力操作が行われるたびに、該文書を識別するための流通文書識別情報を取得する少なくとも1つの端末装置と、前記端末装置による入出力操作を表す操作情報を該流通文書識別情報に関連付けた操作テーブルを格納する操作テーブル格納装置と、追跡対象の文書が指定される追跡対象文書指定装置と、前記追跡対象文書指定装置に指定された文書の内容から特徴量を取得し、取得した特徴量と、前記特徴量テーブルに含まれる特徴量とを比較することによって、前記追跡対象の文書に内容が類似する文書の登録文書識別情報を検出する文書識別情報検出装置と、前記文書識別情報検出装置によって検出された登録文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、該文書に対する入出力の履歴を追跡する追跡処理を行う追跡処理装置と、を備えた構成を有している。
【0008】
この構成により、本発明の文書追跡システムは、追跡対象の文書に内容が類似する文書をファイルサーバから抽出し、抽出した文書に対する入出力の履歴を追跡するため、識別情報が得られない文書や、登録されていない識別情報が割り当てられた文書の追跡を行うことができる。
【0009】
前記追跡対象文書指定装置は、前記追跡対象の文書から前記流通文書識別情報を取得し、前記追跡処理装置は、前記追跡対象文書指定装置によって取得された流通文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、前記ファイルサーバに格納された文書からの入出力の履歴を追跡する追跡処理を行い、前記文書識別情報検出装置は、該追跡処理の結果が得られなかった場合に限り、該追跡対象の文書に内容が類似する文書の登録文書識別情報を検出するようにしてもよい。
【0010】
この構成により、本発明の文書追跡システムは、追跡が可能な識別情報が得られた文書に対しては、この識別情報に基づいた追跡を行うことができる。
【0011】
また、本発明の文書追跡システムは、前記ファイルサーバの特定の場所に格納された文書を監視する文書監視装置を備え、前記文書監視装置は、該文書の状態の変化を検出したときに、前記特徴量テーブル格納装置に前記特徴量テーブルを更新させるようにしてもよい。
【0012】
この構成により、本発明の文書追跡システムは、ファイルサーバに格納された文書の状態が変化した場合に、特徴量テーブルを更新することができる。
【0013】
また、本発明の文書追跡システムは、文書に対する入出力操作を追跡する文書追跡システムにおいて、前記文書に対する入出力操作が行われるたびに、該文書を識別するための流通文書識別情報を取得する少なくとも1つの端末装置と、該文書の内容から取得される特徴量に該流通文書識別情報を関連付けた特徴量テーブルを格納する特徴量テーブル格納装置と、前記端末装置による入出力操作を表す操作情報を前記流通文書識別情報に関連付けた操作テーブルを格納する操作テーブル格納装置と、追跡対象の文書が指定される追跡対象文書指定装置と、前記追跡対象文書指定装置に指定された文書の内容から特徴量を取得し、取得した特徴量と、前記特徴量テーブルに含まれる特徴量とを比較することによって、前記追跡対象の文書に内容が類似する文書の流通文書識別情報を検出する文書識別情報検出装置と、前記文書識別情報検出装置によって検出された流通文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、該文書に対する入出力の履歴を追跡する追跡処理を行う追跡処理装置と、を備えた構成を有している。
【0014】
この構成により、本発明の文書追跡システムは、追跡対象の文書に内容が類似する文書を他の識別情報が割り当てられた文書から抽出し、抽出した文書に対する入出力の履歴を追跡するため、識別情報が得られない文書や、登録されていない識別情報が割り当てられた文書の追跡を行うことができる。
【0015】
また、前記追跡対象文書指定装置は、前記追跡対象の文書から前記流通文書識別情報を取得し、前記追跡処理装置は、前記追跡対象文書指定装置によって取得され流通文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、該流通文書識別情報によって識別される文書の入出力の履歴を追跡する追跡処理を行い、前記文書識別情報検出装置は、該追跡処理の結果が得られなかった場合に限り、該追跡対象の文書に内容が類似する文書の流通文書識別情報を検出するようにしてもよい。
【0016】
この構成により、本発明の文書追跡システムは、追跡が可能な流通識別情報が得られた文書に対しては、この識別情報に基づいた追跡を行うことができる。
【0017】
また、前記追跡処理装置は、前記追跡処理によって複数の結果が得られた場合には、前記複数の結果を前記追跡対象文書指定装置に出力させ、該追跡対象文書指定装置のユーザに1つの結果を選択させるようにしてもよい。
【0018】
この構成により、本発明の文書追跡システムは、追跡対象の文書に内容が類似する文書が多く抽出された場合には、抽出された文書をユーザに絞り込ませることができる。
【0019】
また、前記特徴量テーブル格納装置は、前記文書を断片化した文書ピースを該文書の特徴量として取得するようにしてもよい。
【0020】
この構成により、本発明の文書追跡システムは、追跡対象の文書が他の文書に含まれている場合であっても、当該文書を検出することができる。
【0021】
また、前記追跡対象文書指定装置は、前記追跡対象の文書が読み込まれるスキャナによって構成してもよい。
【0022】
この構成により、本発明の文書追跡システムは、スキャナを用いて追跡対象の文書を指定させることができる。
【0023】
また、前記追跡対象文書指定装置は、前記追跡対象の文書のファイル名が指定されるようにしてもよい。
【0024】
この構成により、本発明の文書追跡システムは、ファイル名によって追跡対象の文書を指定させることができる。
【0025】
また、前記流通文書識別情報は、前記文書の内容が記録された記録媒体を識別するための記録媒体識別情報であってもよい。
【0026】
この構成により、本発明の文書追跡システムは、記録媒体を識別するための記録媒体識別情報から文書の識別情報を得ることができる。
【0027】
ここで、前記記録媒体識別情報は、前記記録媒体としての用紙の表面の凹凸パターンに基づいた情報であってもよく、前記記録媒体としての用紙に無作為に漉き込まれた金属繊維のパターンに基づいた情報であってもよく、前記記録媒体としての用紙に埋め込まれたICチップに記録されている識別子に基づいた情報であってもよい。
【0028】
また、本発明の文書追跡システムは、前記追跡処理の結果を出力する追跡結果出力装置を備えるようにしてもよい。
【0029】
この構成により、本発明の文書追跡システムは、追跡対象の文書の追跡結果をユーザに提示することができる。
【0030】
また、前記操作情報には、該操作情報が表す入出力操作を行ったユーザを識別するためのユーザ識別情報が含まれていてもよい。
【0031】
この構成により、本発明の文書追跡システムは、追跡対象の文書に対して入出力操作を行ったユーザを特定することができる。
【0032】
また、本発明の文書追跡方法は、ファイルサーバに格納された文書に対する入出力操作をコンピュータに追跡させる文書追跡方法において、前記ファイルサーバに格納された文書の内容から取得される特徴量に該文書を識別するための登録文書識別情報を関連付けた特徴量テーブルを予め格納しておく特徴量テーブル格納ステップと、前記文書に対する入出力操作が行われるたびに、該文書を識別するための流通文書識別情報を取得する識別情報取得ステップと、前記入出力操作を表す操作情報を該流通文書識別情報に関連付けた操作テーブルを格納する操作テーブル格納ステップと、追跡対象の文書が指定される追跡対象文書指定ステップと、前記追跡対象文書指定ステップで指定された文書の内容から特徴量を取得し、取得した特徴量と、前記特徴量テーブルに含まれる特徴量とを比較することによって、前記追跡対象の文書に内容が類似する文書の登録文書識別情報を検出する文書識別情報検出ステップと、前記文書識別情報検出ステップで検出された登録文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、該文書に対する入出力の履歴を追跡する追跡処理ステップと、を有する。
【0033】
したがって、本発明の文書追跡方法は、追跡対象の文書に内容が類似する文書をファイルサーバから抽出し、抽出した文書に対する入出力の履歴を追跡するため、識別情報が得られない文書や、登録されていない識別情報が割り当てられた文書の追跡を行うことができる。
【0034】
また、本発明の文書追跡方法は、文書に対する入出力操作をコンピュータに追跡させる文書追跡方法において、前記文書に対する入出力操作が行われるたびに、該文書を識別するための流通文書識別情報を取得する識別情報取得ステップと、該文書の内容から取得される特徴量に該流通文書識別情報を関連付けた特徴量テーブルを格納する特徴量テーブル格納ステップと、前記入出力操作を表す操作情報を該流通文書識別情報に関連付けた操作テーブルを格納する操作テーブル格納ステップと、追跡対象の文書が指定される追跡対象文書指定ステップと、前記追跡対象文書指定ステップで指定された文書の内容から特徴量を取得し、取得した特徴量と、前記特徴量テーブルに含まれる特徴量とを比較することによって、前記追跡対象の文書に内容が類似する文書の流通文書識別情報を検出する文書識別情報検出ステップと、前記文書識別情報検出ステップで検出された流通文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、該文書に対する入出力の履歴を追跡する追跡ステップと、を有する。
【0035】
したがって、本発明の文書追跡方法は、追跡対象の文書に内容が類似する文書を他の識別情報が割り当てられた文書から抽出し、抽出した文書に対する入出力の履歴を追跡するため、識別情報が得られない文書や、登録されていない識別情報が割り当てられた文書の追跡を行うことができる。
【発明の効果】
【0036】
本発明は、識別情報が得られない文書や、登録されていない識別情報が割り当てられた文書の追跡を行うことができる文書追跡システムを提供することができる。
【発明を実施するための最良の形態】
【0037】
以下、本発明の実施の形態について、図面を参照して説明する。
【0038】
(第1の実施の形態)
本発明の第1の実施の形態としての文書追跡システムを図1に示す。本実施の形態の文書追跡システムは、ファイルサーバ1と、コンテンツ解析サーバ2と、クライアントパーソナルコンピュータ(PC)10と、プリンタ11と、複合機12、13と、スキャナ14と、追跡スキャナ20と、追跡PC21と、追跡サーバ22とを備えている。
【0039】
なお、本実施の形態において、ファイルサーバ1は、本発明におけるファイルサーバおよび文書監視装置を構成し、コンテンツ解析サーバ2は、本発明における特徴量テーブル格納装置および文書識別情報検出装置を構成し、クライアントPC10、プリンタ11、複合機12、13およびスキャナ14は、本発明における端末装置を構成する。
【0040】
また、追跡スキャナ20および追跡PC21は、本発明における追跡対象文書指定装置および追跡結果出力装置を構成し、追跡サーバ22は、本発明における操作テーブル格納装置および追跡処理装置を構成する。
【0041】
ファイルサーバ1は、コンピュータ装置によって構成され、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、入力装置、表示装置およびネットワークモジュール等を有する。
【0042】
ファイルサーバ1のROMおよびハードディスク装置には、当該コンピュータ装置をファイルサーバ1として機能させるためにCPUに実行させるプログラムが格納されている。
【0043】
また、ファイルサーバ1のハードディスク装置には、監視フォルダ40が格納されている。監視フォルダ40には、クライアントPC10等の端末装置がアクセス可能な電子文書(以下、「ファイル」という。)が格納されている。
【0044】
また、図2に示すように、ファイルサーバ1は、文書監視部50を有し、文書監視部50は、監視フォルダ40を設定する監視フォルダ設定部51と、監視フォルダ40の格納内容を監視する文書保存監視部52と、監視フォルダ40の格納内容が変更されたときに、変更された文書の登録をコンテンツ解析サーバ2に要求する文書登録要求部53とを有する。
【0045】
例えば、ファイルサーバ1の監視フォルダ40に新たなファイルが登録されたことが文書保存監視部52によって検出された場合には、文書登録要求部53は、監視フォルダ40に新たに登録されたファイルの登録文書識別情報を文書保存監視部52から取得するようになっている。ここで、登録文書識別情報は、ファイルサーバ1におけるファイルのファイル名、パス、生成日時および生成ユーザ名(ユーザ識別情報)等よりなる。
【0046】
さらに、文書登録要求部53は、当該ファイルの内容(以下、「文書データ」という。)を監視フォルダ40から取得し、取得した文書データおよび登録文書識別情報をコンテンツ解析サーバ2に送信するようになっている。
【0047】
コンテンツ解析サーバ2は、ファイルサーバ1と同様に、コンピュータ装置によって構成され、CPUに実行されるプログラムによって、コンテンツ解析サーバ2として機能するようになっている。
【0048】
コンテンツ解析サーバ2には、ファイルサーバ1の監視フォルダ40に格納されたファイルの内容から取得される特徴量と、当該ファイルの登録文書識別情報とが対応付けられた特徴量テーブルが予め格納されている。
【0049】
また、コンテンツ解析サーバ2は、文書登録部60を有し、文書登録要求部53からの登録要求を処理する文書登録処理部61と、文書データを複数の文書ピースに分割する文書ピース分割部62と、文書ピースを特徴量テーブルに登録する特徴量テーブル登録部63と、特徴量テーブルを格納する特徴量テーブル格納部64とを有する。
【0050】
ここで、文書ピースは、文書データを文字数単位に分割したものでもよく、各頁を均等に分割したものでもよく、段落単位、文単位または文節単位に分割したものでもよい。
【0051】
文書登録処理部61は、文書登録要求部53によって送信された文書データが画像や映像を表す場合には、OCR(Optical Character Reader)等によって画像や映像から文字情報を抽出するようになっている。
【0052】
文書ピース分割部62は、文書登録処理部61によって抽出された文書データおよび登録文書識別情報を受信し、受信した文書データを複数の文書ピースに分割し、分割した文書ピース、当該文書ピースの番号(以下、「ピース番号」という。)および登録文書識別情報を特徴量テーブル登録部63に出力するようになっている。
【0053】
特徴量テーブル登録部63は、文書ピース分割部62によって出力された文書ピース、ピース番号を登録文書識別情報に対応付けて、特徴量テーブル格納部64に格納された特徴量テーブルに登録するようになっている。
【0054】
図1において、追跡サーバ22は、ファイルサーバ1と同様に、コンピュータ装置によって構成され、CPUに実行されるプログラムによって、追跡サーバ22として機能するようになっている。
【0055】
追跡サーバ22は、クライアントPC10、プリンタ11、複合機12、13およびスキャナ14等の各端末装置による入出力操作を表す操作情報を流通文書識別情報に関連付けた操作テーブルを格納するようになっている。
【0056】
ここで、流通文書識別情報は、文書を一意に識別する情報である。例えば、記録媒体に記録された文書には、この記録媒体を識別するための記録媒体識別情報が流通文書識別情報として割り当てられる。
【0057】
ここで、記録媒体が用紙である場合には、記録媒体識別情報は、用紙の表面の凹凸パターン(以下、「紙紋」という。)、用紙に無作為に漉き込まれた金属繊維のパターン、用紙の地紋または用紙に埋め込まれたICチップに記録されている識別子等に基づいて検出される。
【0058】
また、電子化された文書、すなわち、ファイルには、当該ファイルの文書データにハッシュ関数を用いて得られるハッシュ値が流通文書識別情報として割り当てられる。
【0059】
例えば、ファイル30aがファイルサーバ1からクライアントPC10に複製された場合には、クライアントPC10は、入出力操作内容(複製)、操作対象を識別するための操作対象識別情報(ファイル30aの登録文書識別情報)、操作日時、ユーザ名(ユーザ識別情報)および機器ID(例えば、当該端末のネットワークインタフェイスに割り当てられているMAC(Media Access Control)アドレス)を含む操作情報と、ファイル30aの文書データのハッシュ値である流通文書識別情報とを追跡サーバ22に送信し、追跡サーバ22は、この操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録するようになっている。
【0060】
また、ファイル30aの文書データがプリンタ11によって印刷された場合には、プリンタ11は、入出力操作内容(印刷)、操作対象識別情報(ファイル30aの文書データのハッシュ値)、操作日時、ユーザ名および機器IDを含む操作情報と、ファイル30aの文書データを印刷した用紙30bの記録媒体識別情報である流通文書識別情報とを追跡サーバ22に送信し、追跡サーバ22は、この操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録するようになっている。
【0061】
ここで、プリンタ11は、文書データを印刷する用紙から記録媒体識別情報を検出する記録媒体識別情報検出部を有する。本実施の形態において、記録媒体識別情報検出部は、用紙の表面の一部にレーザを照射し、その反射光の強度分布を検出することによって、記録媒体識別情報として紙紋を検出するものとする。
【0062】
また、用紙30bから複合機12、13によって文書データがそれぞれ読み込まれた場合には、複合機12、13は、入出力操作内容(スキャン)、操作対象識別情報(用紙30bの記録媒体識別情報)、操作日時、ユーザ名および機器IDを含む操作情報と、読み込んだ文書データのハッシュ値である流通文書識別情報とを追跡サーバ22に送信し、追跡サーバ22は、この操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録するようになっている。
【0063】
また、複合機12、13によってそれぞれ読み込まれた文書データが印刷された場合には、複合機12、13は、入出力操作内容(印刷)、操作対象識別情報(当該文書データのハッシュ値)、操作日時、ユーザ名および機器IDを含む操作情報と、当該文書データを印刷した用紙30c、30dの記録媒体識別情報である流通文書識別情報とを追跡サーバ22にそれぞれ送信し、追跡サーバ22は、この操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録するようになっている。
【0064】
ここで、複合機12、13は、文書データを読み込む用紙から記録媒体識別情報を検出する第1の記録媒体識別情報検出部と、文書データを印刷する用紙から記録媒体識別情報を検出する第2の記録媒体識別情報検出部を有する。
【0065】
また、用紙30dからスキャナ14によって文書データが読み込まれた場合には、スキャナ14は、入出力操作内容(スキャン)、操作対象識別情報(用紙30dの記録媒体識別情報)、操作日時、ユーザ名および機器IDを含む操作情報と、読み込んだ文書データのハッシュ値である流通文書識別情報とを追跡サーバ22に送信し、追跡サーバ22は、この操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録するようになっている。
【0066】
ここで、スキャナ14は、文書データを読み込む用紙から記録媒体識別情報を検出する記録媒体識別情報検出部を有する。
【0067】
追跡スキャナ20は、追跡対象の文書が記録された用紙30fから、文書データを読み込むときに、用紙30fから記録媒体識別情報を検出する記録媒体識別情報検出部を有し、記録媒体識別情報検出部によって検出された流通文書識別情報を追跡サーバ22に送信するようになっている。
【0068】
また、追跡PC21は、ファイル30gが追跡対象の文書として指定された場合には、ファイル30gの文書データのハッシュ値を流通文書識別情報として算出し、算出した流通文書識別情報を追跡サーバ22に送信するようになっている。
【0069】
ここで、追跡サーバ22は、追跡スキャナ20や追跡PC21から送信された流通文書識別情報に基づいて操作テーブルから流通文書識別情報を抽出し、抽出した流通文書識別情報に関連付けられた操作情報に含まれる操作対象識別情報を検出して行くことにより、当該文書の流通経路を表す流通情報を生成し、返信するようになっている。
【0070】
一方で、追跡サーバ22が操作テーブルから当該流通文書識別情報を含む要素を抽出することができず、流通情報が得られなかった場合、または、追跡対象の文書の流通文書識別情報が検出できなかった場合には、追跡スキャナ20は、用紙30fから読み込んだ文書データをコンテンツ解析サーバ2に送信し、追跡PC21は、ファイル30gの文書データをコンテンツ解析サーバ2に送信するようになっている。
【0071】
ここで、コンテンツ解析サーバ2は、追跡スキャナ20や追跡PC21から送信された追跡対象の文書データを前述した文書登録処理部61および文書ピース分割部62を用いて複数の文書ピースに分割するようになっている。
【0072】
コンテンツ解析サーバ2は、分割した各文書ピースに対する相関値が予め定められた閾値TH1より高い文書ピースを特徴量テーブルに基づいて検出し、検出した文書ピースが追跡対象の文書データに占める割合を類似度として算出し、算出した類似度が予め定められた閾値TH2より高い文書データを有するファイル(以下、「類似文書」という。)の登録文書識別情報を返信するようになっている。
【0073】
ここで、複数の類似文書が検出された場合には、コンテンツ解析サーバ2は、ユーザが各類似文書を識別できる情報(例えば、登録文書識別情報)を追跡スキャナ20や追跡PC21に提示させ、追跡スキャナ20や追跡PC21は、ユーザに1つの類似文書を選択させるようになっている。
【0074】
なお、類似文書が複数ある場合には、コンテンツ解析サーバ2は、類似度が最も高い文書データを有する類似文書の登録文書識別情報を返信するようにしてもよい。
【0075】
追跡スキャナ20および追跡PC21は、コンテンツ解析サーバ2から返信された登録文書識別情報を追跡サーバ22に送信するようになっている。ここで、追跡サーバ22は、追跡スキャナ20や追跡PC21から送信された登録文書識別情報に基づいて操作テーブルから操作情報を抽出し、抽出した操作情報に関連付けられた流通文書識別情報を検出して行くことにより、当該文書の流通経路を表す流通情報を生成し、返信するようになっている。
【0076】
このように、追跡サーバ22から返信された流通情報に対して、追跡スキャナ20および追跡PC21は、図3に示すように、系図等を以って画像表示するようになっている。
【0077】
以上のように構成された文書追跡システムの追跡動作を図4を用いて説明する。以下、追跡スキャナ20によって用紙30fから追跡対象の文書データが読み込まれた場合を例として説明する。
【0078】
まず、追跡スキャナ20によって用紙30fから追跡対象の文書データが読み込まれるときに、用紙30fから流通文書識別情報が取得される(ステップS1)。ここで、流通文書識別情報が取得された場合には(ステップS2:YES)、取得された流通文書識別情報が追跡サーバ22によって操作テーブルから抽出され、抽出された流通文書識別情報に関連付けられた操作情報に含まれる操作対象識別情報が追跡サーバ22によって検出されて行くことにより、当該文書の流通経路を表す流通情報が追跡サーバ22によって生成される(ステップS3)。
【0079】
ここで、追跡サーバ22によって流通情報が生成された場合には(ステップS4:YES)、追跡サーバ22によって生成された流通情報が追跡スキャナ20に設けられた表示部に表示され(ステップS5)、追跡動作は、終了する。
【0080】
一方、追跡サーバ22によって流通情報が生成されなかった場合(ステップS4:NO)、または、ステップS1で流通文書識別情報が取得されなかった場合には(ステップS2:NO)、追跡スキャナ20によって用紙30fから読み込まれた文書データと類似する文書データを有する類似文書がファイルサーバ1の監視フォルダ40のなかからコンテンツ解析サーバ2によって検出される(ステップS6)。
【0081】
ここで、類似文書が検出されなかった場合には(ステップS7:NO)、追跡対象の文書の追跡が行えなかった旨が追跡スキャナ20に設けられた表示部に表示され(ステップS8)、追跡動作は、終了する。
【0082】
一方、類似文書が検出された場合において(ステップS7:YES)、複数の類似文書が検出されたときには(ステップS9:YES)、ユーザに各類似文書を識別させる情報が追跡スキャナ20の表示部に表示され、追跡スキャナ20のユーザによって1つの類似文書が選択される(ステップS10)。
【0083】
次に、類似文書の登録文書識別情報に基づいて操作テーブルから操作情報が追跡サーバ22によって抽出され、抽出された操作情報に関連付けられた流通文書識別情報が追跡サーバ22によって検出されて行くことにより、当該文書の流通経路を表す流通情報が追跡サーバ22によって生成される(ステップS11)。
【0084】
ここで、追跡サーバ22によって流通情報が生成された場合には(ステップS12:YES)、追跡サーバ22によって生成された流通情報が追跡スキャナ20に設けられた表示部に表示され(ステップS5)、追跡動作は、終了する。
【0085】
一方、追跡サーバ22によって流通情報が生成されなかった場合には(ステップS12:NO)、追跡対象の文書の追跡が行えなかった旨が追跡スキャナ20に設けられた表示部に表示され(ステップS8)、追跡動作は、終了する。
【0086】
以上に説明したように、本発明の第1の実施の形態としての文書追跡システムは、追跡対象の文書に内容が類似する文書をファイルサーバ1から抽出し、抽出した文書に対する入出力の履歴を追跡するため、識別情報が得られない文書や、登録されていない識別情報が割り当てられた文書の追跡を行うことができる。
【0087】
なお、本実施の形態においては、ファイルサーバ1が、本発明におけるファイルサーバおよび文書監視装置を構成し、コンテンツ解析サーバ2が、本発明における特徴量テーブル格納装置および文書識別情報検出装置を構成し、追跡スキャナ20および追跡PC21が、本発明における追跡対象文書指定装置および追跡結果出力装置を構成し、追跡サーバ22が、本発明における操作テーブル格納装置および追跡処理装置を構成する例について説明したが、これに限定するものではない。
【0088】
例えば、追跡サーバ22が、本発明における追跡対象文書指定装置、追跡結果出力装置、操作テーブル格納装置および追跡処理装置を構成してもよい。また、追跡サーバ22が、特徴量テーブル格納装置および文書識別情報検出装置をさらに構成するようにしてもよい。
【0089】
(第2の実施の形態)
本発明の第2の実施の形態としての文書追跡システムを図5に示す。本実施の形態の文書追跡システムは、ファイルサーバ101と、コンテンツ解析サーバ102と、クライアントPC110と、プリンタ111と、複合機112、113と、スキャナ114と、追跡スキャナ120と、追跡PC121と、追跡サーバ122とを備えている。
【0090】
なお、本実施の形態において、コンテンツ解析サーバ102は、本発明における特徴量テーブル格納装置および文書識別情報検出装置を構成し、クライアントPC110、プリンタ111、複合機112、113およびスキャナ114は、本発明における端末装置を構成する。
【0091】
また、追跡スキャナ120および追跡PC121は、本発明における追跡対象文書指定装置および追跡結果出力装置を構成し、追跡サーバ122は、本発明における操作テーブル格納装置および追跡処理装置を構成する。
【0092】
ファイルサーバ101は、コンピュータ装置によって構成され、CPU、RAM、ROM、ハードディスク装置、入力装置、表示装置およびネットワークモジュール等を有する。
【0093】
ファイルサーバ101のROMおよびハードディスク装置には、当該コンピュータ装置をファイルサーバ101として機能させるためにCPUに実行させるプログラムが格納されている。また、ファイルサーバ101のハードディスク装置には、クライアントPC110等の端末装置がアクセス可能なファイルが格納されている。
【0094】
追跡サーバ122は、ファイルサーバ101と同様に、コンピュータ装置によって構成され、CPUに実行されるプログラムによって、追跡サーバ122として機能するようになっている。
【0095】
追跡サーバ122は、クライアントPC110、プリンタ111、複合機112、113およびスキャナ114等の各端末装置による入出力操作を表す操作情報を流通文書識別情報に関連付けた操作テーブルを格納すると共に、端末装置によって入出力された文書データと、流通文書識別情報とをコンテンツ解析サーバ102に送信するようになっている。
【0096】
例えば、ファイル30aがファイルサーバ101からクライアントPC110に複製された場合には、クライアントPC110は、入出力操作内容(複製)、操作対象を識別するための操作対象識別情報(ファイル30aの登録文書識別情報)、操作日時、ユーザ名および機器IDを含む操作情報と、ファイル30aの文書データのハッシュ値である流通文書識別情報と、ファイル30aの文書データとを追跡サーバ122に送信し、追跡サーバ122は、この操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録すると共に、ファイル30aの文書データと流通文書識別情報とをコンテンツ解析サーバ102に送信するようになっている。
【0097】
また、ファイル30aの文書データがプリンタ111によって印刷された場合には、プリンタ111は、入出力操作内容(印刷)、操作対象識別情報(ファイル30aの文書データのハッシュ値)、操作日時、ユーザ名および機器IDを含む操作情報と、ファイル30aの文書データを印刷した用紙30bの記録媒体識別情報である流通文書識別情報と、ファイル30aの文書データとを追跡サーバ122に送信し、追跡サーバ122は、この操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録すると共に、文書データと流通文書識別情報とをコンテンツ解析サーバ102に送信するようになっている。
【0098】
ここで、プリンタ111は、文書データを印刷する用紙から記録媒体識別情報を検出する記録媒体識別情報検出部を有する。本実施の形態において、記録媒体識別情報検出部は、用紙の表面の一部にレーザを照射し、その反射光の強度分布を検出することによって、記録媒体識別情報として紙紋を検出するようになっている。
【0099】
また、用紙30bから複合機112、113によって文書データがそれぞれ読み込まれた場合には、複合機112、113は、入出力操作内容(スキャン)、操作対象識別情報(用紙30bの記録媒体識別情報)、操作日時、ユーザ名および機器IDを含む操作情報と、読み込んだ文書データのハッシュ値である流通文書識別情報と、読み込んだ文書データとを追跡サーバ122に送信し、追跡サーバ122は、この操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録すると共に、文書データと流通文書識別情報とをコンテンツ解析サーバ102に送信するようになっている。
【0100】
また、複合機112、113によってそれぞれ読み込まれた文書データが印刷された場合には、複合機112、113は、入出力操作内容(印刷)、操作対象識別情報(当該文書データのハッシュ値)、操作日時、ユーザ名および機器IDを含む操作情報と、当該文書データを印刷した用紙30c、30dの記録媒体識別情報である流通文書識別情報と、当該文書データとを追跡サーバ122にそれぞれ送信し、追跡サーバ122は、この操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録すると共に、当該文書データと流通文書識別情報とをコンテンツ解析サーバ102に送信するようになっている。
【0101】
ここで、複合機112、113は、文書データを読み込む用紙から記録媒体識別情報を検出する第1の記録媒体識別情報検出部と、文書データを印刷する用紙から記録媒体識別情報を検出する第2の記録媒体識別情報検出部を有する。
【0102】
また、用紙30dからスキャナ114によって文書データが読み込まれた場合には、スキャナ114は、入出力操作内容(スキャン)、操作対象識別情報(用紙30dの記録媒体識別情報)、操作日時、ユーザ名および機器IDを含む操作情報と、読み込んだ文書データのハッシュ値である流通文書識別情報と、読み込んだ文書データとを追跡サーバ122に送信し、追跡サーバ122は、この操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録すると共に、当該文書データと流通文書識別情報とをコンテンツ解析サーバ102に送信するようになっている。
【0103】
ここで、スキャナ114は、文書データを読み込む用紙から記録媒体識別情報を検出する記録媒体識別情報検出部を有する。
【0104】
コンテンツ解析サーバ102は、ファイルサーバ101と同様に、コンピュータ装置によって構成され、CPUに実行されるプログラムによって、コンテンツ解析サーバ102として機能するようになっている。
【0105】
コンテンツ解析サーバ102は、追跡サーバ122によって送信された文書データと流通文書識別情報とを受信し、この文書データから取得される特徴量に流通文書識別情報を関連付けた特徴量テーブルを格納するようになっている。
【0106】
例えば、図6に示すように、複合機112は、スキャン部141と、印刷部142と、操作情報を生成する操作情報収集部143とを備えている。スキャン部141は、画像読取部151と、第1の記録媒体識別情報検出部としての紙紋検出部152とを有し、印刷部142は、画像描画部155と、第2の記録媒体識別情報検出部としての紙紋検出部156とを有している。
【0107】
操作情報収集部143は、複合機112に行われた入出力操作を表す操作情報を生成し、生成した操作情報と、紙紋検出部152または紙紋検出部156によって検出された流通文書識別情報と、画像読取部151によって読み込まれた文書データまたは画像描画部155によって印刷された文書データとを追跡サーバ122に送信するようになっている。
【0108】
追跡サーバ122は、操作テーブルを格納する操作テーブル格納部161と、操作情報収集部143によって送信された操作情報と、流通文書識別情報とを関連付けて操作テーブルに登録すると共に、操作情報収集部143によって送信された文書データと流通文書識別情報とをコンテンツ解析サーバ102に送信する操作テーブル登録部162とを備えている。
【0109】
また、コンテンツ解析サーバ102は、文書登録部170を有し、操作テーブル登録部162からの登録要求を処理する文書登録処理部171と、文書データを複数の文書ピースに分割する文書ピース分割部172と、文書ピースを特徴量テーブルに登録する特徴量テーブル登録部173と、特徴量テーブルを格納する特徴量テーブル格納部174とを有する。
【0110】
文書登録処理部171は、操作テーブル登録部162によって送信された文書データが画像や映像を表す場合には、OCR等によって画像や映像から文字情報を抽出するようになっている。
【0111】
文書ピース分割部172は、文書登録処理部171によって抽出された文書データおよび流通文書識別情報を受信し、受信した文書データを複数の文書ピースに分割し、分割した文書ピース、ピース番号および流通文書識別情報を特徴量テーブル登録部173に出力するようになっている。
【0112】
特徴量テーブル登録部173は、文書ピース分割部172によって出力された文書ピース、ピース番号を流通文書識別情報に対応付けて、特徴量テーブル格納部174に格納された特徴量テーブルに登録するようになっている。
【0113】
図5において、追跡スキャナ120は、追跡対象の文書が記録された用紙30fから、文書データを読み込むときに、用紙30fから記録媒体識別情報を検出する記録媒体識別情報検出部を有し、記録媒体識別情報検出部によって検出された流通文書識別情報と文書データとを追跡サーバ122に送信するようになっている。
【0114】
また、追跡PC121は、ファイル30gが追跡対象の文書として指定された場合には、ファイル30gの文書データのハッシュ値を流通文書識別情報として算出し、算出した流通文書識別情報と文書データとを追跡サーバ122に送信するようになっている。
【0115】
ここで、追跡サーバ122は、追跡スキャナ120や追跡PC121から送信された流通文書識別情報に基づいて操作テーブルから流通文書識別情報を抽出し、抽出した流通文書識別情報に関連付けられた操作情報に含まれる操作対象識別情報を検出して行くことにより、当該文書の流通経路を表す流通情報を生成し、返信するようになっている。
【0116】
一方で、操作テーブルから当該流通文書識別情報を含む要素を抽出することができず、流通情報が得られなかった場合、または、追跡対象の文書の流通文書識別情報が検出できなかった場合には、追跡サーバ122は、追跡スキャナ120や追跡PC121から送信された文書データをコンテンツ解析サーバ102に送信するようになっている。
【0117】
ここで、コンテンツ解析サーバ102は、追跡サーバ122から送信された追跡対象の文書データを前述した文書登録処理部171および文書ピース分割部172を用いて複数の文書ピースに分割するようになっている。
【0118】
コンテンツ解析サーバ102は、分割した各文書ピースに対する相関値が予め定められた閾値TH1より高い文書ピースを特徴量テーブルに基づいて検出し、検出した文書ピースが追跡対象の文書データに占める割合を類似度として算出し、算出した類似度が予め定められた閾値TH2より高い文書データを有する類似文書の流通文書識別情報を返信するようになっている。
【0119】
ここで、複数の類似文書が検出された場合には、コンテンツ解析サーバ102は、ユーザが各類似文書を識別できる情報(例えば、流通文書識別情報)を追跡スキャナ120や追跡PC121に提示させ、追跡スキャナ120や追跡PC121は、ユーザに1つの類似文書を選択させるようになっている。
【0120】
なお、類似文書が複数ある場合には、コンテンツ解析サーバ102は、類似度が最も高い文書データを有する類似文書の流通文書識別情報を返信するようにしてもよい。
【0121】
追跡サーバ122は、コンテンツ解析サーバ102から返信された流通文書識別情報に基づいて操作テーブルから操作情報を抽出し、抽出した操作情報に関連付けられた流通文書識別情報を検出して行くことにより、当該文書の流通経路を表す流通情報を生成し、返信するようになっている。
【0122】
このように、追跡サーバ122から返信された流通情報に対して、追跡スキャナ120および追跡PC121は、図3に示したように、系図等を以って画像表示するようになっている。
【0123】
以上のように構成された文書追跡システムの追跡動作は、本発明の第1の実施の形態で図4を用いて説明した追跡動作と同様であるため、その説明を省略する。
【0124】
ただし、本実施の形態においては、クライアントPC110、プリンタ111、複合機112、113およびスキャナ114等の端末装置で入出力操作が行われるたびに、コンテンツ解析サーバ102に格納された特徴量テーブルに同一の内容の文書が何度も登録されてしまうことがある。
【0125】
したがって、追跡動作で類似文書の検出を行うと、多数の類似文書が検出されることとなり、その結果をそのままユーザに提示して選択させるのは好ましくない。このため、本実施の形態においては、追跡スキャナ120や追跡PC121がコンテンツ解析サーバ102に対して類似文書の検出を要求するよりも、端末装置で入出力操作が行われるたびに、追跡サーバ122がコンテンツ解析サーバ102に対して類似文書の検出を要求するほうが好ましい。
【0126】
この場合には、追跡サーバ122は、コンテンツ解析サーバ102から得られた検出結果に基づいて、操作情報を分析して該当する文書の流通経路を表す流通情報を生成して行くように構成する。
【0127】
このように構成することにより、同じ流通経路(同じツリー)に含まれる類似文書を一つのセットとして扱うことができるため、ユーザに提示する選択肢を減らすことができる。具体的には、追跡サーバ122は、同じ流通経路に含まれる対象文書のうち、最も上流に存在する文書を候補として提示すればよい。
【0128】
以上に説明したように、本発明の第2の実施の形態としての文書追跡システムは、追跡対象の文書に内容が類似する文書を他の識別情報が割り当てられた文書から抽出し、抽出した文書に対する入出力の履歴を追跡するため、識別情報が得られない文書や、登録されていない識別情報が割り当てられた文書の追跡を行うことができる。
【図面の簡単な説明】
【0129】
【図1】本発明の第1の実施の形態としての文書追跡システムを示すブロック図である。
【図2】本発明の第1の実施の形態としての文書追跡システムを構成するファイルサーバおよびコンテンツ解析サーバの機能ブロック図である。
【図3】本発明の第1の実施の形態としての文書追跡システムを構成する追跡スキャナまたは追跡PCに表示される追跡結果の例を示すイメージである。
【図4】本発明の第1の実施の形態としての文書追跡システムの追跡動作を示すフローチャートである。
【図5】本発明の第2の実施の形態としての文書追跡システムを示すブロック図である。
【図6】本発明の第1の実施の形態としての文書追跡システムを構成する複合機、追跡サーバおよびコンテンツ解析サーバの機能ブロック図である。
【符号の説明】
【0130】
1、101 ファイルサーバ
2、102 コンテンツ解析サーバ
10、110 クライアントPC
11、111 プリンタ
12、13、112、113 複合機
14、114 スキャナ
20、120 追跡スキャナ
21、121 追跡PC
22、122 追跡サーバ
40 監視フォルダ
50 文書監視部
51 監視フォルダ設定部
52 文書保存監視部
53 文書登録要求部
60、170 文書登録部
61、171 文書登録処理部
62、172 文書ピース分割部
63、173 特徴量テーブル登録部
64、174 特徴量テーブル格納部
141 スキャン部
142 印刷部
143 操作情報収集部
151 画像読取部
152、156 紙紋検出部
155 画像描画部
161 操作テーブル格納部
162 操作テーブル登録部

【特許請求の範囲】
【請求項1】
文書に対する入出力操作を追跡する文書追跡システムにおいて、
前記文書を格納するファイルサーバと、
前記ファイルサーバに格納された文書の内容から取得される特徴量に該文書を識別するための登録文書識別情報を関連付けた特徴量テーブルを予め格納する特徴量テーブル格納装置と、
前記文書に対する入出力操作が行われるたびに、該文書を識別するための流通文書識別情報を取得する少なくとも1つの端末装置と、
前記端末装置による入出力操作を表す操作情報を該流通文書識別情報に関連付けた操作テーブルを格納する操作テーブル格納装置と、
追跡対象の文書が指定される追跡対象文書指定装置と、
前記追跡対象文書指定装置に指定された文書の内容から特徴量を取得し、取得した特徴量と、前記特徴量テーブルに含まれる特徴量とを比較することによって、前記追跡対象の文書に内容が類似する文書の登録文書識別情報を検出する文書識別情報検出装置と、
前記文書識別情報検出装置によって検出された登録文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、該文書に対する入出力の履歴を追跡する追跡処理を行う追跡処理装置と、を備えたことを特徴とする文書追跡システム。
【請求項2】
前記追跡対象文書指定装置は、前記追跡対象の文書から前記流通文書識別情報を取得し、
前記追跡処理装置は、前記追跡対象文書指定装置によって取得された流通文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、前記ファイルサーバに格納された文書からの入出力の履歴を追跡する追跡処理を行い、
前記文書識別情報検出装置は、該追跡処理の結果が得られなかった場合に限り、該追跡対象の文書に内容が類似する文書の登録文書識別情報を検出することを特徴とする請求項1に記載の文書追跡システム。
【請求項3】
前記ファイルサーバの特定の場所に格納された文書を監視する文書監視装置を備え、
前記文書監視装置は、該文書の状態の変化を検出したときに、前記特徴量テーブル格納装置に前記特徴量テーブルを更新させることを特徴とする請求項1または請求項2に記載の文書追跡システム。
【請求項4】
文書に対する入出力操作を追跡する文書追跡システムにおいて、
前記文書に対する入出力操作が行われるたびに、該文書を識別するための流通文書識別情報を取得する少なくとも1つの端末装置と、
該文書の内容から取得される特徴量に該流通文書識別情報を関連付けた特徴量テーブルを格納する特徴量テーブル格納装置と、
前記端末装置による入出力操作を表す操作情報を前記流通文書識別情報に関連付けた操作テーブルを格納する操作テーブル格納装置と、
追跡対象の文書が指定される追跡対象文書指定装置と、
前記追跡対象文書指定装置に指定された文書の内容から特徴量を取得し、取得した特徴量と、前記特徴量テーブルに含まれる特徴量とを比較することによって、前記追跡対象の文書に内容が類似する文書の流通文書識別情報を検出する文書識別情報検出装置と、
前記文書識別情報検出装置によって検出された流通文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、該文書に対する入出力の履歴を追跡する追跡処理を行う追跡処理装置と、を備えたことを特徴とする文書追跡システム。
【請求項5】
前記追跡対象文書指定装置は、前記追跡対象の文書から前記流通文書識別情報を取得し、
前記追跡処理装置は、前記追跡対象文書指定装置によって取得され流通文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、該流通文書識別情報によって識別される文書の入出力の履歴を追跡する追跡処理を行い、
前記文書識別情報検出装置は、該追跡処理の結果が得られなかった場合に限り、該追跡対象の文書に内容が類似する文書の流通文書識別情報を検出することを特徴とする請求項4に記載の文書追跡システム。
【請求項6】
前記追跡処理装置は、前記追跡処理によって複数の結果が得られた場合には、前記複数の結果を前記追跡対象文書指定装置に出力させ、該追跡対象文書指定装置のユーザに1つの結果を選択させることを特徴とする請求項1乃至請求項5の何れかに記載の文書追跡システム。
【請求項7】
前記特徴量テーブル格納装置は、前記文書を断片化した文書ピースを該文書の特徴量として取得することを特徴とする請求項1乃至請求項6の何れかに記載の文書追跡システム。
【請求項8】
前記追跡対象文書指定装置は、前記追跡対象の文書が読み込まれるスキャナによって構成されることを特徴とする請求項1乃至請求項7の何れかに記載の文書追跡システム。
【請求項9】
前記追跡対象文書指定装置は、前記追跡対象の文書のファイル名が指定されることを特徴とする請求項1乃至請求項7の何れかに記載の文書追跡システム。
【請求項10】
前記流通文書識別情報は、前記文書の内容が記録された記録媒体を識別するための記録媒体識別情報であることを特徴とする請求項1乃至請求項9の何れかに記載の文書追跡システム。
【請求項11】
前記記録媒体識別情報は、前記記録媒体としての用紙の表面の凹凸パターンに基づいた情報であることを特徴とする請求項10に記載の文書追跡システム。
【請求項12】
前記記録媒体識別情報は、前記記録媒体としての用紙に無作為に漉き込まれた金属繊維のパターンに基づいた情報であることを特徴とする請求項10に記載の文書追跡システム。
【請求項13】
前記記録媒体識別情報は、前記記録媒体としての用紙に埋め込まれたICチップに記録されている識別子に基づいた情報であることを特徴とする請求項10に記載の文書追跡システム。
【請求項14】
前記追跡処理の結果を出力する追跡結果出力装置を備えたことを特徴とする請求項1乃至請求項13の何れかに記載の文書追跡システム。
【請求項15】
前記操作情報には、該操作情報が表す入出力操作を行ったユーザを識別するためのユーザ識別情報が含まれることを特徴とする請求項1乃至請求項14の何れかに記載の文書追跡システム。
【請求項16】
ファイルサーバに格納された文書に対する入出力操作をコンピュータに追跡させる文書追跡方法において、
前記ファイルサーバに格納された文書の内容から取得される特徴量に該文書を識別するための登録文書識別情報を関連付けた特徴量テーブルを予め格納しておく特徴量テーブル格納ステップと、
前記文書に対する入出力操作が行われるたびに、該文書を識別するための流通文書識別情報を取得する識別情報取得ステップと、
前記入出力操作を表す操作情報を該流通文書識別情報に関連付けた操作テーブルを格納する操作テーブル格納ステップと、
追跡対象の文書が指定される追跡対象文書指定ステップと、
前記追跡対象文書指定ステップで指定された文書の内容から特徴量を取得し、取得した特徴量と、前記特徴量テーブルに含まれる特徴量とを比較することによって、前記追跡対象の文書に内容が類似する文書の登録文書識別情報を検出する文書識別情報検出ステップと、
前記文書識別情報検出ステップで検出された登録文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、該文書に対する入出力の履歴を追跡する追跡処理ステップと、を有することを特徴とする文書追跡方法。
【請求項17】
文書に対する入出力操作をコンピュータに追跡させる文書追跡方法において、
前記文書に対する入出力操作が行われるたびに、該文書を識別するための流通文書識別情報を取得する識別情報取得ステップと、
該文書の内容から取得される特徴量に該流通文書識別情報を関連付けた特徴量テーブルを格納する特徴量テーブル格納ステップと、
前記入出力操作を表す操作情報を該流通文書識別情報に関連付けた操作テーブルを格納する操作テーブル格納ステップと、
追跡対象の文書が指定される追跡対象文書指定ステップと、
前記追跡対象文書指定ステップで指定された文書の内容から特徴量を取得し、取得した特徴量と、前記特徴量テーブルに含まれる特徴量とを比較することによって、前記追跡対象の文書に内容が類似する文書の流通文書識別情報を検出する文書識別情報検出ステップと、
前記文書識別情報検出ステップで検出された流通文書識別情報によって識別される文書に対する入出力操作を表す操作情報を前記操作テーブルから抽出し、抽出した操作情報に基づいて、該文書に対する入出力の履歴を追跡する追跡ステップと、を有することを特徴とする文書追跡方法。

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図6】
image rotate

【図1】
image rotate

【図5】
image rotate


【公開番号】特開2010−44556(P2010−44556A)
【公開日】平成22年2月25日(2010.2.25)
【国際特許分類】
【出願番号】特願2008−207780(P2008−207780)
【出願日】平成20年8月12日(2008.8.12)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】