説明

文書利用追跡システム

【課題】注目する情報を含んだ電子文書が特定できなくても、その情報に関与の強い操作を行ったユーザを絞り込む。
【解決手段】利用履歴保管部105には、文書保管部104から提供した各文書内の各ページに対して各ユーザが行った操作を示す利用履歴レコードが蓄積されている。分析部106は、ユーザが入力した検索条件に対する各ページの適合度を示すページスコアを計算し、それら各ページに対する各ユーザの閲覧時間を利用履歴レコードから求め、ページスコアと閲覧時間に基づき、利用履歴レコードについての閲覧スコアを計算する。そして、利用履歴レコードを閲覧スコアが高い順にソートして表示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、各ユーザの電子文書の利用の監視のためのシステムに関する。
【背景技術】
【0002】
企業等の組織における情報セキュリティのため、社内の電子文書を特定の文書管理サーバに保管し、電子文書に対するユーザのアクセスの履歴を文書管理サーバ側で記録することが行われている。このような履歴管理の従来技術として、以下のようなものが知られている。
【0003】
特許文献1には、サーバに保管された電子文書に対するユーザからのアクセスの履歴を保管し、活用するものが示される。
【0004】
特許文献2には、ドキュメント管理部が管理する電子化されたドキュメントに関する印刷やコピーなどの操作を監視し、その操作履歴をその操作を行なったユーザ名および操作時刻を含めて取得して記録するシステムが示される。
【0005】
特許文献3には、メールサーバを介する電子メール経由での文書ファイルの送受信を記録することで、文書ファイルのやりとりを追跡可能とするシステムが示される。
【0006】
特許文献4には、送信者が文書サーバ上にある電子文書のURLを含んだ電子メールを受信者宛に送信し、受信者がそのURLを用いて文書サーバ上のその文書にアクセスすると、ログ管理サーバにそのアクセスログが記録されるシステムが開示される。
【0007】
特許文献5には、文書ファイルの中にその文書に対する操作の履歴情報を蓄積するシステムが開示されている。
【0008】
特許文献6には、クライアント装置内に保存した電子文書に対して閲覧や印刷などの処理を行う際には、必ず、サーバ装置とオンライン接続した状態にして、処理監視部の監視下でのみ処理が行われるようにしたシステムが開示される。実施された処理内容は、処理監視部側に報告され、履歴情報として履歴格納部内に格納される。
【0009】
特許文献7には、装置が記録媒体を介してコンテンツを複写する場合に、記録媒体IDとコンテンツIDとを履歴管理サーバに送り、履歴管理サーバがそれを記録するシステムが開示される。
【0010】
特許文献8に示されるシステムでは、文書配信サーバは、ユーザに対して暗号化された電子文書を配信する。ユーザは、その電子文書を利用する場合、閲覧管理サーバにアクセスして復号鍵を得る必要がある。閲覧管理サーバは、復号鍵を求めてアクセスしてきたユーザを記録する。
【0011】
これら従来技術は、基本的に、電子文書の単位としたアクセスや操作の履歴を記録するものである。例えば、電子文書の漏洩が発覚した場合、このような従来技術により記録した履歴情報を調べることで、その電子文書に対してアクセスしていたユーザを絞り込むことができる。
【0012】
ところが、情報漏洩は、1つの電子文書全体が漏洩する場合には限らず、電子文書の中の一部の重要な情報のみが漏洩することも多い。後者の場合、どの電子文書が漏洩したのかが判明しない場合もある。漏洩した電子文書が特定できれば、その電子文書にアクセスしたユーザを文書単位の履歴から求め、漏洩源の可能性のある者と判定することもできる。しかし、そうでない場合は、電子文書単位での操作履歴だけでは、十分な漏洩源の絞込は難しい。
【0013】
【特許文献1】特開平09−311802号公報
【特許文献2】特開平11−249777号公報
【特許文献3】特開2001−125841号公報
【特許文献4】特開2003−157212号公報
【特許文献5】特開平11−259459号公報
【特許文献6】特開2003−016057号公報
【特許文献7】特開2003−280993号公報
【特許文献8】特開2004−140715号公報
【発明の開示】
【発明が解決しようとする課題】
【0014】
本発明は、(漏洩した情報などのような)注目する情報を含んだ電子文書が特定できなくても、その情報に関与の強い操作を行ったユーザを絞り込むためのシステムを提供する。
【課題を解決するための手段】
【0015】
本発明の1つの側面では、文書蓄積部に蓄積された文書ごとに、その文書内の各要素に対する各ユーザの利用履歴レコードを記録する利用履歴記録部と、検索条件の入力を受け付ける検索条件入力部と、各文書の各要素ごとに、検索条件に対するその要素の適合度を示す要素スコアを求める要素スコア計算部と、要素とその要素に対して操作を行ったユーザとの組合せごとに、その要素の要素スコアとその要素に対するそのユーザの利用履歴レコードとに基づき重要度スコアを求める重要度スコア計算部と、を備える文書利用追跡システムを提供する。
【発明を実施するための最良の形態】
【0016】
以下、図面を参照して、本発明の実施の形態(以下「実施形態」と呼ぶ)について説明する。
図1は、実施形態のシステムの全体像を示している。なお、便宜上、ネットワーク300により接続された文書管理サーバ100およびクライアントコンピュータ200を一括して文書管理システムと呼ぶ。
図1において、文書管理システムは、ネットワーク300に接続された文書管理サーバ100およびクライアントコンピュータ200を含む。文書管理サーバ100およびクライアントコンピュータ200は1つずつしか示さないが、複数個あってもよいことはもちろんである。ネットワーク300はLAN、WAN、インターネット等の任意の通信ネットワークで良い。
文書管理サーバ100は、本システムにおいてユーザが利用する電子文書群(以下単に文書と呼ぶ)を保存し、要求に応じて文書をユーザに提供し、ユーザが文書に対して行った操作の履歴(利用履歴と呼ぶ)を記録する。また、文書管理サーバ100は、記録した利用履歴及び各文書のデータに基づき、情報漏洩源の絞込などのための助けとなる分析データを作成する。
【0017】
文書管理サーバ100が提供する文書は、例えば、DocuWorks文書(DocuWorksは富士ゼロックス株式会社の商標)や、PDF(Portable Document Format)文書などのように、文書の内容データに加え、その文書の属性データを保持できる文書である。文書には、一意な文書ID(識別情報)が属性データとして組み込まれている。文書IDとして、グローバリ・ユニーク・アイデンティファイヤ(GUID)やユニバーサル・ユニーク・アイデンティファイヤ(UUID)などのように、全世界で一意性が保証されたIDを用いることもできる。この場合、文書がどの文書管理サーバ100に管理されているかを調べるためのディレクトリサーバをネットワーク上に設け、クライアントコンピュータ200が文書IDをそのディレクトリサーバに提示すれば、その文書IDがどの文書管理サーバ100に管理された文書のものかを判別できるようにしてもよい。
【0018】
また、文書管理サーバ100が管理する文書の文書IDとして、その文書管理サーバ100に対して一意に付与されたサーバIDと、その文書管理サーバ100内でその文書に対して一意に与えられたIDとの組合せを用いてもよい。
【0019】
文書管理サーバ100は、機能ブロックで表すと、ログイン管理部101、文書利用要求/文書利用履歴受信部102、文書送信部103、文書保管部104、利用履歴保管部105、分析部106及び分析結果提示部107を含む。これら各機能ブロックは、典型的には、ソフトウエアとして実現される。
【0020】
ログイン管理部101はクライアントコンピュータ200を用いたユーザからのログインを管理するものである。ログイン管理部101は、ログイン処理の際、ユーザからユーザIDとパスワード等の認証情報の入力を受け付け、それらに基づきユーザ認証を行う。ユーザ認証により特定されたユーザIDは、利用履歴の一部として利用履歴保管部105に保管することも可能である。
【0021】
要求/履歴受信部102はクライアントコンピュータ200から文書利用要求を受け取り、また文書利用履歴を受け取る。文書利用要求はファイル名等を指定して文書のダウンロードを要求するものである。文書利用履歴(以下、単に利用履歴とも呼ぶ)は、クライアントコンピュータ200を用いるユーザが、当該文書管理サーバ100に対する前回アクセス時のログアウトから今回のログインまでの間に、各文書に対して行った操作の履歴である。本実施形態では、クライアントコンピュータ200が文書管理サーバ100にアクセスしていない時にユーザが行った文書に対する操作の履歴を、クライアントコンピュータ200が記録し、その後文書管理サーバ100にアクセスした際に、記録した利用履歴を文書管理サーバ100へと送信する。要求/履歴受信部102は、このようにしてクライアントコンピュータ200から送られてくる文書利用履歴を受信し、利用履歴保管部105に保管する。要求/履歴受信部102は、文書利用要求を受け取る部分と、文書利用履歴を受け取る部分とに分けて別々に構成されていても良い。
【0022】
文書送信部103は、クライアントコンピュータ200からの文書利用要求に応じて、文書保管部104から文書を読みだしてクライアントコンピュータ200に送出する。文書保管部104には、ユーザに提供される文書が保存されている。
【0023】
分析部106は、注目する情報に対する各ユーザの関与の度合いを分析する。この分析は、例えば、情報漏洩が発覚した場合に、漏洩した情報に対して関与の深いユーザを絞り込むのに、この分析部106が利用される。分析部106は、文書保管部104に保管された文書群と、利用履歴保管部105に保管された利用履歴と、に基づき、この分析を行う。分析部106の実行する分析の詳細は、後で説明する。
【0024】
分析結果提示部107は、分析部106が実行した分析の結果を、例えば画面表示などの方法で提示する。
クライアントコンピュータ200は、文書を利用するユーザが用いるコンピュータである。クライアントコンピュータ200は、機能ブロックで表すと、ログイン管理部201、要求/履歴送信部202、文書受信部203、文書利用部204、利用履歴抽出部205、利用履歴保管部206、文書保管部207等を含んでいる。クライアントコンピュータ200の各機能ブロックは、例えば、アプリケーションプログラムやOS(オペレーティングシステム)等のプロセスとして実現される。
【0025】
ログイン管理部201は、文書管理サーバ100へのログインのためのログインプロトコルを実行する。このログインプロトコルでは、ユーザID及びパスワード等の認証情報の提示をユーザに求め、これらを文書管理サーバ100のログイン管理部101に送り、ユーザ認証を受ける。ここで、ログインに用いられたユーザIDに対応づけて、文書利用履歴を利用履歴保管部206に登録するようにしてもよい。
【0026】
要求/履歴送信部202は、文書利用要求すなわち文書ダウンロード要求を文書管理サーバ100に送信する処理と、利用履歴保管部206に保管している文書利用履歴を文書管理サーバ100に送信する処理とを実行する。文書利用履歴は、文書管理サーバ100へのログイン時に、一括して送信される。
【0027】
文書受信部203は、文書利用要求に応じて文書管理サーバ100から転送されてくる文書を受信する。受信した文書は文書利用部204により利用される。文書利用部204は、例えば文書の閲覧サービス機能などである。文書利用部204は、文書のオープン、表示するページの移動、同一ページ内での表示部分のスクロール、文書中の文字列その他のデータのコピー、文書中にあるハイパーリンクの利用、アノテーション(文書の内容データとは区別してその文書に付加される注釈データ)の追加、などといったユーザからの操作指示を受け付け、その指示に応じた操作を実行する。
【0028】
利用履歴抽出部205は、文書利用部205上でのユーザの文書に対する操作を検出し、その操作に関する情報を示す利用履歴レコードを生成する。生成された利用履歴レコードは、利用履歴保管部206に保管される。
【0029】
1つの操作に対応して生成される利用履歴レコードには、例えば、その操作の対象となる文書の文書ID、その操作の種別を示す「操作内容」、その操作の行われた時刻を示す「操作時刻」、及びその操作の詳細な内容を示す「内容詳細」が含まれる(例えば図3参照)。クライアントコンピュータ200に対して文書を提供する文書管理サーバ100が複数存在する場合は、文書IDには、その文書の提供元である文書管理サーバ100を一意に識別するサーバIDを組み込んでもよい。この場合、文書IDは、サーバIDと、当該文書管理100内でその文書を一意に識別するIDとの組合せでもよい。「操作内容」には、例えば、前述した文書ファイルの「オープン」と「クローズ」、表示するページを切り換える「ページ移動」、ページ内での「スクロール」、文書内でユーザが選択した文字列のデータをコピーする「文字列コピー」、などがある。また、例えば、表示するページを移動するページ移動操作の場合、移動先となるページ番号が「内容詳細」の欄に記録する情報となる。また、文字列のコピー操作の場合、「内容詳細」の欄にはコピーされた文字列が記録される。
【0030】
なお、クライアントコンピュータ200が複数のユーザにより共用される場合は、操作を行ったユーザのユーザIDを利用履歴レコードに記録してもよい。この場合、ユーザIDとしては、例えば、クライアントコンピュータ200のOS又は文書ビューワ(文書利用部204を含む)に対してそのユーザがログインしたときに提示したユーザIDを用いればよい。例えば、OS又は文書ビューワに対するローカルのユーザIDと、文書管理サーバ100におけるユーザIDとを共通にしておけば、利用履歴レコードに記録したユーザIDをそのまま文書管理サーバ100でも利用できる。また、クライアントコンピュータ200におけるローカルのユーザIDと、文書管理サーバ100におけるユーザIDとの対応関係をログイン管理部201が保持するようにしても良い。この場合、クライアントコンピュータ200上でユーザが文書に操作を行った場合、利用履歴抽出部205は、そのユーザが提示したローカルのユーザIDを、その対応関係に従って文書管理サーバ100のユーザIDに変換し、利用履歴レコードに記録すればよい。
【0031】
また、クライアントコンピュータ200が個人専用であると想定できるのであれば、利用履歴レコードにはユーザIDを記録する必要はない。
【0032】
また、その操作が行われた場所の情報を、利用履歴レコードに記録するようにしてもよい。この場所の情報は、クライアントコンピュータ200が備えるGPS(グローバルポジショニングシステム)デバイスで取得されるものでもよいし、ユーザが文書オープン時に入力するものでもよい。また、クライアントコンピュータ200が入退室管理システムからユーザの居る部屋の情報を得て、それを場所の情報として記録してもよい。
【0033】
文書受信部203が受信した文書は、文書保管部207に保管することができる。ユーザは、文書保管部207に保管された文書を後で文書利用部204によりオープンして、利用することができる。この再利用の際も、利用履歴レコードが記録される。
【0034】
なお、クライアントコンピュータ200の要求/履歴送信部202も、文書利用要求を送信する部分と、文書利用履歴を送信する部分とに分けて構成してもよい。
【0035】
なお、クライアントコンピュータ200の機能ブロックのうち、要求/履歴送信部202,文書受信部203,文書利用部204,利用履歴抽出部205は、ダウンロードした文書を取り扱う文書ビューワソフトウエアの機能モジュールとして実現することができる。更に、ログイン管理部201も、文書ビューワソフトウエアに組み込んでもよい。
次に図2を参照して、利用履歴収集処理の流れを説明する。この流れでは、クライアントコンピュータ200のユーザが文書管理サーバ100にログインする(X01)。このログイン処理において、クライアントコンピュータ200から文書管理サーバ100にユーザID(この例では「U04667」)が送信される。
ログイン後、ユーザは、文書ダウンロード要求を文書管理サーバ100に送信して所望の文書を取得する(X02、X03)。文書管理サーバ100は、要求された文書を文書保管部104から取り出し、要求元のクライアントコンピュータ100に返す。
【0036】
文書利用部204は、文書受信部203が受信した文書ファイルをユーザの指示に従ってオープンし、その文書をユーザの利用のために提供する。文書利用部204は、ユーザからの操作指示に応じ、その文書を操作する。利用履歴抽出部205は、文書利用部204を監視して、ユーザが文書に対して行った操作を示す利用履歴レコードを作成し、利用履歴保管部206に保管する(X04)。
【0037】
また、ユーザは、文書管理サーバ100からダウンロードされ文書保管部207に保管された文書(文書IDを含んでいる)を文書利用部204を用いてオープンし、その文書に操作を加えることができる。利用履歴抽出部205は、文書保管部207から読み出された文書に対する操作についても利用履歴レコードを生成し、利用履歴保管部に保管する(X04)。
【0038】
このように、クライアントコンピュータ200上で文書に対して操作が行われると、利用履歴抽出部がその操作の履歴(すなわち利用履歴レコード)を作成し、利用履歴保管部206に登録する。
【0039】
このようにして、利用履歴保管部206に蓄積された各文書に対する利用履歴レコードの集まりは、ユーザが次に文書管理サーバ100にログインしたときに、その文書管理サーバ100にアップロードされる(X05)。ここで、文書管理サーバ100がシステム内に複数存在する場合は、利用履歴保管部206に蓄積された利用履歴レコードのうち、ログイン先の文書管理サーバ100からダウンロードした文書についての利用履歴レコードのみがアップロードされる。ここで、文書管理サーバ100からダウンロードされた文書に含まれる文書IDには、その文書管理サーバ100を特定できる情報が含まれており、利用履歴レコードには文書IDが含まれているので、各利用履歴レコードがログイン先の文書管理サーバ100にアップロードすべきものか否かは、その利用履歴レコードの文書IDを用いて判別できる。このようにアップロードされた利用履歴レコードは、クライアントコンピュータ200の利用履歴保管部206から削除してもよい(X06)。
【0040】
また、文書管理サーバ100は、クライアントコンピュータ200から受け取った利用履歴レコードを利用履歴保管部206に登録する(X07)。このとき、文書管理サーバ100は、後での分析を容易にするために、クライアントコンピュータ200から受け取った利用履歴レコードのうち特定の関係にあるもの同士を併合(マージ)して、利用履歴保管部105に登録するようにしてもよい。このマージ処理を、図3を参照して説明する。
【0041】
図3に例示するマージ処理では、例えば、クライアントコンピュータ200の利用履歴保管部206に登録された利用履歴レコードのうち、同一の文書のオープン操作とクローズ操作(ただしオープン操作の次のもの)との組が抽出され、それが文書閲覧操作のレコードにまとめられる。図示例でいえば、利用履歴保管部206の持つテーブル(以下、簡単のためテーブル206と呼ぶ。テーブル105も同様)における2番目のレコードと7番目のレコードの組が、テーブル105の2番目のレコード(文書閲覧)にまとめられる。
【0042】
ここで、文書管理サーバ100の利用履歴保管部105に登録される利用履歴レコードには、文書ID、ユーザID、操作内容、操作時刻、閲覧ページ、コピー内容、閲覧時間の各項目が含まれる。文書ID、ユーザID、操作内容、操作時刻は、既に説明した。閲覧ページは、ユーザが閲覧したページの番号を示す情報であり、ページ移動操作の利用履歴レコードから求めることができる。また、コピー内容は、ユーザが文書中からコピーした文字列等の内容を示すデータであり、コピー操作の利用履歴レコードから求めることができる。閲覧ページもコピー内容も、いずれもクライアントコンピュータ200側で作成された利用履歴レコードの「内容詳細」の情報から作成することができる。閲覧時間は、ユーザが、文書、又はその文書のページを閲覧した時間である。閲覧時間は、利用履歴レコード内の操作時刻の情報を組み合わせることで求めることができる。例えば、図示のテーブル206における2番目のレコードと7番目のレコードの組は、1つの文書のオープンからクローズまでのスパンを表しており、オープン時の操作時刻とクローズ時の操作時刻との差分が、その文書全体についての閲覧時間となる。
【0043】
また、図3に例示するマージ処理では、テーブル206の2番目のレコード(オープン)と、4番目のレコード(オープンの直後のページ移動)とから、テーブル105の3番目に示す「1ページ目のページ閲覧」のレコードが生成される。オープン時には文書の1ページ目が開かれ、次のページ移動操作で5ページ目に移動したので、その間は1ページ目が閲覧されていたと推定するのである。このときのオープンとページ移動との操作時間の差分が、1ページ目を閲覧していた時間となる。
【0044】
また、このマージ処理では、テーブル206の4番目の5ページ目へのページ移動のレコードと、その直後にある同一文書内でのページ移動を示す6番目のレコード(すなわち6ページ目へのページ移動)から、テーブル105の4番目のレコード(すなわち5ページ目の閲覧)が生成される。
【0045】
また、このマージ処理では、テーブル206の5番目のレコード(文字列コピー)から、テーブル105の5番目のレコード(文字列コピー)が生成される。生成されるレコードの閲覧ページの値は、その文字列コピー操作の前後のページ移動(或いはオープン又はクローズ)の操作におけるページ番号から求めることができる。また、コピー内容は、元になったクライアントコンピュータ200側のレコードの「内容詳細」の値である。なお、コピー操作については「閲覧時間」の値はない。
【0046】
また、テーブル206の6番目のレコード(6ページ目への移動)と7番目のレコード(文書のクローズ)から、テーブル105における6番目のレコード(6ページ目の閲覧)が生成される。
【0047】
このようにして文書管理サーバ100の利用履歴保管部105には、そのサーバ100が各ユーザに提供した文書について、文書単位及びページ単位での閲覧、及びコピー操作などの利用履歴が形成され、その利用履歴が順次更新されていくことになる。
【0048】
分析部106は、このような利用履歴保管部105内の情報と、文書保管部104に登録された各文書とに基づき、注目する情報に対して関与度合いの高いユーザを特定する。例えば、文書保管部104に登録された文書に含まれる情報の漏洩が発覚したとする。このような場合、このシステムを管理する管理者が、この分析部106を用いることで、漏洩した可能性の高い情報に対して漏洩リスクの高い関与を行ったユーザを特定する。以下、この分析部106処理について、図4を参照して説明する。
【0049】
図4に示すように、分析部106は、検索条件入力部110,検索部111及び閲覧スコア評価部113を備える。
【0050】
分析者(例えばシステム管理者)は、まず注目する情報(例えば漏洩した可能性の高い情報)を示す検索条件を、検索条件入力部110に入力する。図示例は、"ナスカ2000GT"という自動車の"燃費"が漏洩した場合の、漏洩源特定のための分析処理を示したものである。この場合、分析者は、検索条件として"ナスカ2000GT"と"燃費"というキーワードを入力する。
【0051】
検索部111は、文書保管部104に保管された各文書の各ページについて、それぞれ、検索条件入力部110に入力された検索条件に対する適合度を示すスコア(ページスコア)を計算する。ページスコアは、例えば、検索条件に指定されたキーワードの出現頻度の高いページほど高い値となるような計算式を用いて求める。このような計算式としては、例えば「TF*IDF積」を用いることができる。これは、ページ中でのキーワードの出現頻度(TF:term frequency)と、文書保管部104に保管された全文書のうちそのキーワードを含む文書の数の逆数(IDF:inverted document frequency)(の対数)と、の積である。キーワードが複数指定された場合は、各キーワードについてのTF*IDF積を組み合わせたもの(例えば各キーワードについてのTF*IDF積を乗算したもの)をページスコアとすればよい。もちろん、以上に示したページスコアの求め方はあくまで一例に過ぎない。検索条件に対する対象(例えばページ)の適合度を求める計算方法には、従来より様々なものがあり、検索部111はそのような従来のどの計算式を用いてもよい。
【0052】
なお、公知の検索技術でも行われているように、指定されたキーワードの類義語を辞書から求め、類義語を考慮してスコアを求めるようにしてもよい。
【0053】
検索部111は、以上のような処理により、図4に示す検索結果112を出力する。検索結果112は、文書の各ページをページスコアの高い順にソートしたリストである。文書のページは、文書IDとページ番号の組により特定される。なお、ページスコアの順にソートしているのは、検索条件に対して関連の深いページから順に処理することで処理効率を高めるためである。処理効率を問題にしなければ、ソートは必要ない。
【0054】
閲覧スコア評価部113は、この検索結果112と利用履歴保管部105とを総合することで、注目する情報(すなわち検索条件)を含んだページに対するユーザの関与度合い、言い換えれば分析の目的における重要度、を示す閲覧スコアを求める。
【0055】
例えば、一例としては、検索結果112に示されるページのページスコアと、利用履歴保管部105から求められるユーザのそのページの閲覧時間との乗算結果を、そのユーザのそのページに対する閲覧スコアとすることができる。この処理では、例えば、検索結果112のページスコア上位から順に文書のページを1つずつ選択し、選択したページを「閲覧ページ」に含む利用履歴レコードを、利用履歴保管部105から抽出する。そして、抽出した利用履歴レコードごとに、そのレコードの閲覧時間とそのページのスコアを乗算したものを、そのレコードに対する閲覧スコア(重要度スコア)として求める。この処理をページスコア上位のページから順に、所定の終了条件が満たされるまで繰り返す。終了条件は、例えば、所定数のページについての処理が完了するまで、などを例示することができるが、これはあくまで一例であり、どのような条件でもよい。
【0056】
ページスコアが高いほど、注目する情報に対するページ内容の関連性が高いと言える。また、ページに対するユーザの閲覧時間が長いほど、ユーザがそのページを注意深く観察している可能性が高く、漏洩等のリスクが高いといえる。これらのことから、以上では、ページスコアと当該ページの閲覧時間との積を閲覧スコアとした。
【0057】
分析部106は、このようにして各利用履歴レコードに対応する閲覧スコアを計算し、各利用履歴レコードをその閲覧スコアの高い順にソートする。分析結果提示部107は、そのソート結果を表示する。図4の例では、分析結果提示部107の示す分析結果には、閲覧スコアの高い利用履歴レコードから順に、その利用履歴レコードのユーザID、文書ID、閲覧ページの番号、操作時刻が示され、更にその閲覧ページのページスコア、閲覧時間、及び閲覧スコアが示される。分析者は、この分析結果の表示を見ることで、注目する情報に対して関連の強いページに対して深い関与を示すユーザを知ることができる。これにより、例えば漏洩した情報に対して深い関与を示していたユーザの絞込ができる。
【0058】
この例は、注目する情報に関連の強いページを長く閲覧しているユーザほど、文書利用の追跡目的からみて重要性が高いとの考えに基づくものである。
【0059】
以上の例では、ページスコアと当該ページの閲覧時間との積を閲覧スコアとしたが、これは一例に過ぎない。ページスコアが高いほど閲覧スコアが高くなり、また閲覧時間が長いほど閲覧スコアが高くなるような、別の関数を用いてもよい。
【0060】
また、例えば、ページの閲覧中にユーザがそのページで行った操作(例えばそのページ内のデータのコピー)を利用履歴レコードから求め、その操作の種類(「操作内容」)に応じてそのページに対するユーザの操作スコアを求め、その操作スコアとページスコアとから閲覧スコアを求めるようにしてもよい。例えば、ページ中の文字列等のデータがコピーされた場合、そのコピーによりデータが流出する可能性が高いと言えるので、コピー操作には単なる閲覧よりも操作スコアを割り当てる、などである。操作内容と操作スコアとの関係を予め分析部106に登録しておけばよい。
【0061】
また、同じ操作内容でも、定量的な情報に応じて操作スコアを変えてもよい。例えば、コピーされた文字列の長さが長いほど、操作スコアを高くするなどである。また、コピーされた文字列中での検索キーワードの含有率が高いほど操作スコアが高くなるようにしてもよい。また、コピーされた文字列の中に、検索キーワードに関連する具体的な数値表現が含まれる場合に、情報漏洩監視の観点ではそのような数値情報は重要な場合が多いので、操作スコアを高くすることも好適である。例えば、キーワード「燃費」に対して「22km/リットル」等といった燃費を示す文字列がコピーされた場合、操作スコアに対して1より大きい所定係数を乗ずる、などの処理を行えばよい。このために、閲覧スコア評価部113は、単位を含む数値表現を抽出する機能を備える。また、キーワードの属性とその属性に対応する数値表現(すなわち単位)との対応表を閲覧スコア評価部113に持たせてもよい。対応表では、例えば属性「速度」に対して数値表現形式「××時間」、「××秒」、「××km/h」などが対応づけられ、属性「価格」には「××円」、「××ドル」などの数値表現形式が対応づけられる。また、属性「日時」又は「時期」には、「××月××日」や「来春」、「次年度」などといった表現が対応づけられる(「来春」なども広義の数値表現に含まれる)。この場合、指定されたキーワードの属性を辞書から求め、その属性に対応する数値表現形式を対応表から特定し、その数値表現形式に適合する文字列をコピーされた文字列の中から探索すればよい。また、数値表現形式を、属性の代わりに具体的なキーワードそのものに対応づけた対応表を用いてもよい。
【0062】
なお、以上の処理において、コピーされた文字列の内容や長さは、利用履歴レコードの「コピー内容」の欄から求めることができる。
【0063】
また、ページスコアの計算の際に、同様に、検索キーワードに対応する具体的な数値表現がそのページに含まれるかどうかを調べ、含まれていればそうでない場合よりもページスコアを高くしてもよい。また、そのような具体的な数値表現が多く含まれるほど、ページスコアを高くしてもよい(操作スコアの場合も同様である)。
【0064】
また、ページスコアと閲覧時間との関数として求めたスコアに対し、当該利用履歴レコードにおける操作内容を加味して閲覧スコアを求めるようにしてもよい。例えば、あるページについてコピー操作が行われていれば、そのページについてのページスコアと閲覧時間の積に対し、コピー操作に対応する1より大きい係数を掛けて閲覧スコアを求める、などである。この場合にも、コピーされた文字列に、検索キーワードに対応する具体的な数値表現が含まれている場合には、そうでない場合よりも閲覧スコアが高くなるようにすることも好適である。また、キーワードに対応する具体的数値表現の含有度合いが高いほど、閲覧スコアが高くなるようにしてもよい。
【0065】
また、以上の例では、文書のオープンから次のページ移動、或いはページ移動から次のページ移動などの間が、該当するページの閲覧時間であると想定したが、ユーザがそのページを表示させただけで実際には閲覧していない可能性もある。そこで、このような可能性も考慮した変形例として、次のような変形例も考えられる。すなわち、この変形例では、ページ内での画面表示範囲のスクロール操作も利用履歴レコードに記録する。スクロール操作は、クライアントコンピュータ200の入力デバイスからのスクロール操作指示を監視することで検出できる。そして、個々の操作に対する閲覧時間に上限を設ける。例えば、ページ移動が行われた場合、そのページ移動の時点から次の操作までの時間がどれだけ長くても、閲覧時間はその上限値を上限とする。そして、同じページの中でスクロール操作がなされた場合は、そのスクロール操作を起点とした次の操作までの時間を、それまでの閲覧時間に加算する。この場合、加算する時間についても上限値を設定しておく。このようにすれば、ユーザがページ内でスクロール操作をするほど、閲覧時間が長くなる。スクロール操作に限らず、コピー操作など、ページ内で行われるあらゆる操作に対してそのような時間加算をするようにしてもよい。いずれにしても、ページを表示中にユーザから操作が行われれば、そのユーザがそのページを閲覧している可能性が高いので、閲覧時間としてカウントする意味がある。
【0066】
以上説明したように、本実施形態によれば、注目する情報に対して関連の深いページに対し、強い関与を示したユーザを求めることができ、それを分析者に提示することができる。以上の例では、ページ単位で閲覧スコアを求めたが、ページ以外の要素を単位としてその要素単位で閲覧スコアを求めるようにしてもよい。HTML文書やXML文書などの構造化文書では、文書要素が明示的に記述されているので、その文書要素を単位として閲覧スコアを求めることができる。
【0067】
また、分析部106の別の分析処理の例として、図5に示すようなものも考えられる。
【0068】
図5の例では、検索条件として、注目する情報を含んだページ(例えば漏洩した可能性の高いページ)を特定する情報(例えば文書IDとページ番号)の入力を受け付ける(Y00)。分析部106は、利用履歴保管部105中の利用履歴レコードのうち、該当するページに関する操作を示すレコードを抽出する(Y01)。そして、抽出したレコードを、閲覧時間の長い順にソートし、そのソート結果を列挙して表示する(Y02)。
【0069】
この例は、注目するページを長く閲覧していたユーザほど、文書利用の追跡目的からみて重要性が高いとの考えに基づくものである。この例でも、閲覧時間だけでなく、コピーなどの操作内容を加味してスコアを求め、そのスコアが高いほど、重要度が高いユーザと判定してもよい。
【0070】
以上の例では、分析部106及び分析結果提示部107を文書管理サーバ100の機能として実現したが、分析部106及び分析結果提示部107を、文書管理サーバ100とは別の分析装置として実装してももちろんよい。
【0071】
以上に説明した文書管理サーバ100又は分析装置は、典型的には、汎用のコンピュータにて上述の各部の機能又は処理内容を記述したプログラムを実行することにより実現される。コンピュータは、例えば、ハードウエアとして、図6に示すように、CPU(中央演算装置)10、メモリ(一次記憶)12、各種I/O(入出力)インタフェース14等がバス16を介して接続された回路構成を有する。また、そのバス16に対し、例えばI/Oインタフェース14経由で、ハードディスクドライブ18やCDやDVD、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体を読み取るためのディスクドライブ20が接続される。このようなドライブ18又は20は、メモリに対する外部記憶装置として機能する。実施形態の処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク経由で、ハードディスクドライブ18等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがメモリに読み出されCPUにより実行されることにより、実施形態の処理が実現される。
【図面の簡単な説明】
【0072】
【図1】実施形態のシステムの全体像を示す図である。
【図2】利用履歴の収集処理の流れを説明するための図である。
【図3】利用履歴レコードのマージ処理を説明するための図である。
【図4】分析部の処理を説明するための図である。
【図5】分析部の処理の別の例を示す図である。
【図6】実施形態の装置が実装されるコンピュータのハードウエア構成の一例を示す図である。
【符号の説明】
【0073】
100 文書管理サーバ、101 ログイン管理部、102 要求/履歴受信部、103 文書送信部、104 文書保管部、105 利用履歴保管部、106 分析部、107 分析結果提示部、200 クライアントコンピュータ、201 ログイン管理部、202 要求/履歴送信部、203 文書受信部、204 文書利用部、205 利用履歴抽出部、206 利用履歴保管部、207 文書保管部。

【特許請求の範囲】
【請求項1】
文書蓄積部に蓄積された文書ごとに、その文書内の各要素に対する各ユーザの利用履歴レコードを記録する利用履歴記録部と、
検索条件の入力を受け付ける検索条件入力部と、
各文書の各要素ごとに、検索条件に対するその要素の適合度を示す要素スコアを求める要素スコア計算部と、
要素とその要素に対して操作を行ったユーザとの組合せごとに、その要素の要素スコアとその要素に対するそのユーザの利用履歴レコードとに基づき重要度スコアを求める重要度スコア計算部と、
を備える文書利用追跡システム。
【請求項2】
請求項1記載の文書利用追跡システムであって、
前記重要度スコア計算部が求めた重要度スコアを、その重要度スコアに対応するユーザと共に提示する監視対象情報提示部、
を更に備える文書利用追跡システム。
【請求項3】
請求項1記載の文書利用追跡システムであって、
前記重要度スコア計算部は、利用履歴レコードが示す要素に対するユーザの閲覧時間に基づき、その要素に対するそのユーザの重要度スコアを求める、
ことを特徴とする文書利用追跡システム。
【請求項4】
請求項1記載の文書利用追跡システムであって、
前記重要度スコア計算部は、利用履歴レコードが示す要素に対するユーザの操作の種類に基づき、その要素に対するそのユーザの重要度スコアを求める、
ことを特徴とする文書利用追跡システム。
【請求項5】
請求項1記載の文書利用追跡システムであって、
前記重要度スコア計算部は、利用履歴レコードが示す要素に対するユーザの操作の種類がデータコピー操作を含む場合に、そうでない場合よりも重要度スコアを高くする、
ことを特徴とする文書利用追跡システム。
【請求項6】
請求項1記載の文書利用追跡システムであって、
前記重要度スコア計算部は、利用履歴レコードが示すデータコピー操作の対象となったデータの中に前記検索条件に適合するものがあった場合に、そうでない場合よりも重要度スコアを高くする、
ことを特徴とする文書利用追跡システム。
【請求項7】
請求項1記載の文書利用追跡システムであって、
前記重要度スコア計算部は、利用履歴レコードが示すデータコピー操作の対象となったデータの中に前記検索条件に関連する数値が含まれていた場合に、そうでない場合よりも重要度スコアを高くする、
ことを特徴とする文書利用追跡システム。
【請求項8】
請求項1記載の文書利用追跡システムであって、
各ユーザが用いる端末装置にインストールされ、文書をユーザに提示してその文書の各要素に対するユーザの操作を受け付ける文書利用部、を含み、
前記文書提示部は、
文書の各要素に対するユーザの操作の記録を示す利用履歴レコードを作成する履歴作成部と、
履歴作成部が作成した利用履歴レコードを前記利用履歴記録部へと送信する履歴送信部と、
を備え、
前記利用履歴記録部は、前記各ユーザの端末装置の履歴送信部から送られてきた利用履歴レコードを記録する、
ことを特徴とする文書利用追跡システム。
【請求項9】
コンピュータを、
文書蓄積部に蓄積された文書ごとに、その文書内の各要素に対する各ユーザの利用履歴レコードを記録する利用履歴記録部、
検索条件の入力を受け付ける検索条件入力部、
各文書の各要素ごとに、検索条件に対するその要素の適合度を示す要素スコアを求める要素スコア計算部、
要素とその要素に対して操作を行ったユーザとの組合せごとに、その要素の要素スコアとその要素に対するそのユーザの利用履歴レコードとに基づき重要度スコアを求める重要度スコア計算部、
として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate