説明

情報処理装置、電子文書データ処理システム、及びプログラム

【課題】統計的に判断して、自動的、かつ、正確に改ざんされた可能性がある電子文書データを抽出する。
【解決手段】情報処理装置は、内蔵又は外付けされ、データ蓄積装置に記憶された各電子文書データへの改ざんを抽出するための抽出用データを記憶する記憶部と、抽出用データに基づき、データ蓄積装置に記憶される電子文書データの中から電子文書データの抽出処理を行う処理部と、を含み、処理部は、抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータ値の平均値を求め、抽出用パラメータ値が平均値と予め定められた値以上異なる電子文書データを抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ蓄積装置に蓄積して記憶された電子文書データの改ざんの抽出を行う情報処理装置、電子文書データ処理システム、及びプログラムに関する。
【背景技術】
【0002】
従来、保存される文書は、紙媒体への印刷物である。しかし、省スペース化、紙使用量の削減、近年のHDD等の記憶装置の記憶容量増大などを背景とし、近年では、文書を電子化して保存することが行われている。例えば、紙文書をスキャンし、スキャンで得られた画像データが電子文書データとしてデータ蓄積装置に保存にされる。近年では、病院のカルテや、帳票や税関係書類等の財務文書、企業の開発資料など、機密情報に属するような文書の電子文書データ化も行われている。ここで、データ蓄積装置に記憶された電子文書データは改ざんされることがある。この電子文書データの改ざんに関する発明が特許文献1に記載されている。
【0003】
具体的に、特許文献1には、個人情報を記憶する個人ファイルと、診療内容を入力するための診療画面と個人ファイルに記憶された治療等の内容の履歴を表示するための履歴表示画面とを表示する表示器とを備え、診療画面における診療内容の入力を、入力日および/または入力時刻に基づいて「改ざん」とみなすか否かの時間的基準が予め設定され、診療画面において入力された診療内容が時間的基準内であるか否かを判断し、基準内である場合は「改ざん」に相当しないとして診療画面の診療内容を個人ファイルに記憶させ、基準外である場合は診療画面の診療内容と、診療画面に相当する個人ファイルの過去の診療内容とを照合し、照合の結果、両診療内容が一致しない場合、「改ざん」とみなして両診療内容を個人ファイルに記憶させると共に、「改ざん」前後の区別が分かるように記憶内容にフラグを付して記憶させた医療電子化システムが記載されている。この構成により、電子カルテの信憑性を向上させようとする(特許文献1:請求項1、段落[0003]等参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2004−334466号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
改ざんを防ぐべき情報を含む紙文書も電子文書データ化されることがある。例えば、電子カルテを例に挙げると、電子カルテには患者に関する情報が含まれ、改ざんがなされることは好ましくない。この点は、財務文書や企業の開発資料などの電子文書データでも同様である。
【0006】
改ざん目的で電子文書データは更新されることがあるが、一方で、電子文書データの内容の誤り修正や、後日の内容追加、最新データへの差し替えなど、電子文書データの更新は正当な目的でなされることが多い。そのため、電子文書データを全く更新できないとすると、使用者にとって不便である。従って、使用者による電子文書データの更新を許容しつつ、改ざんがなされた可能性のある電子文書データを抽出できるようにすることが好ましい。ここで、一般には、データ蓄積装置に多くの電子文書データが蓄積されるので、改ざんのなされた可能性のある電子文書データを自動的かつできるだけ正確に抽出すべきであるという問題がある。
【0007】
ここで、特許文献1記載の医療電子化システムは、ある程度の改ざん抽出効果はあるものの、時間的基準内外の基準でのみ改ざんがなされたか否かを判断する(特許文献1では時間的基準を72時間と例示。段落[0006]参照)。しかし、時期的基準を超えても正当な更新はあり得る(例えば、誤りの修正や長時間を要する検査結果の追加など)。このため、正当な電子文書データの更新も改ざんとみなされ得る。又、時期的基準が長いほど、改ざんを検出しづらくなり、時期的基準が短いほど正当な更新でも改ざんと誤検出する。従って、特許文献1記載の発明は、改ざん検出基準が不十分で、改ざんの誤検出が多くなり得るという問題がある。
【0008】
本発明は、上記従来技術の問題点に鑑み、統計的に判断して、自動的、かつ、正確に改ざんされた可能性がある電子文書データを抽出することを課題とする。
【課題を解決するための手段】
【0009】
上記課題解決のため、請求項1に係る情報処理装置は、内蔵又は外付けされ、データ蓄積装置に記憶された各電子文書データへの改ざんを抽出するための抽出用データを記憶する記憶部と、前記抽出用データに基づき、前記データ蓄積装置に記憶される電子文書データの中から電子文書データの抽出処理を行う処理部と、を含み、前記処理部は、前記抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータ値の平均値を求め、前記抽出用パラメータ値が前記平均値と予め定められた値以上異なる電子文書データを抽出することとした。
【0010】
この構成によれば、処理部は、抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータ値の平均値を求め、抽出用パラメータ値が前記平均値と予め定められた値以上異なる電子文書データを抽出する。改ざんの更新は異常な更新であるところ、正常な更新(例えば、業務上の習慣や日常的な通常業務での更新処理)がなされた電子文書データの抽出用パラメータ値は、平均値近辺に位置することになる。これにより、統計的に見て、平均値よりも外れた異常な値を示す電子文書データを、改ざんの可能性があるとして抽出することができる。言い換えると、改ざんを伴うような異常な更新がなされた電子文書データを自動的に抽出することができる。従って、改ざんを探し出すために電子文書データを一つずつ確認するという膨大な手間を省き、改ざんされた可能性のある電子文書データのみを拾い上げることができる。又、改ざんという異常な更新を反映し、平均値からかけ離れるような電子文書データには、改ざんされた電子文書データが含まれる可能性が高く、正確に改ざんがなされた電子文書データを抽出することができる。
【0011】
又、請求項2に係る発明は、請求項1の発明において、前記記憶部は、前記抽出用データとして、各電子文書データの新規登録日時情報と更新日時情報とを記憶し、前記処理部は、電子文書データの更新間隔を前記抽出用パラメータとして用い、各電子文書データについて、直近の更新日時と直近の更新の1つ前の電子文書データの更新又は新規登録日時との間隔と求めるとともに前記間隔の平均値を求め、前記間隔が前記平均値と予め定められた時間以上異なる電子文書データを抽出することとした。
【0012】
この構成によれば、処理部は、電子文書データの更新間隔を抽出用パラメータとして用い、各電子文書データについて、直近の更新日時と直近の更新の1つ前の電子文書データの更新又は新規登録日時との間隔と求めるとともに前記間隔の平均値を求め、前記間隔が前記平均値と予め定められた時間以上異なる電子文書データを抽出する。日常的に行われる通常の更新であれば、更新間隔は平均値近辺になる傾向を示すところ、異常な更新間隔であり改ざんがなされた可能性の高い電子文書データを自動的に抽出することができる。
【0013】
又、請求項3に係る発明は、請求項1又は2の発明において、前記記憶部は、前記抽出用データとして、各電子文書データの更新回数情報を記憶し、前記処理部は、電子文書データの更新回数を前記抽出用パラメータとして用い、更新回数の平均値を求め、更新回数が前記平均値と予め定められた回数以上異なる電子文書データを抽出することとした。
【0014】
この構成によれば、処理部は、電子文書データの更新回数を抽出用パラメータとして用い、更新回数の平均値を求め、更新回数が前記平均値と予め定められた回数以上異なる電子文書データを抽出する。日常的に行われる通常の更新であれば、更新回数は平均値近辺になる傾向を示すところ、異常な更新回数であり、改ざんがなされた可能性の高い電子文書データを自動的に抽出することができる。
【0015】
又、請求項4に係る発明は、請求項1乃至3の発明において、前記記憶部は、前記抽出用データとして、各電子文書データの登録時及び更新後のデータサイズを記憶し、前記処理部は、電子文書データの更新前後のデータサイズ差を前記抽出用パラメータとして用い、各電子文書データについて、直近の更新後の電子文書データのデータサイズと直近の更新前の電子文書データのデータサイズとの前記データサイズ差を求めるとともに前記データサイズ差の平均値を求め、前記データサイズ差が前記平均値と予め定められたサイズ差以上異なる電子文書データを抽出することとした。
【0016】
この構成によれば、処理部は、電子文書データの更新前後のデータサイズ差を抽出用パラメータとして用い、各電子文書データについて、直近の更新後の電子文書データのデータサイズと直近の更新前の電子文書データのデータサイズとのデータサイズ差を求めるとともにデータサイズ差の平均値を求め、データサイズ差が平均値と予め定められたサイズ差以上異なる電子文書データを抽出する。日常的に行われる通常の更新であれば、更新前と更新後のデータサイズの差は、平均値近辺になる傾向を示すところ、更新前と更新後のデータサイズの差が異常で、改ざんがなされた可能性の高い電子文書データを自動的に抽出することができる。
【0017】
又、請求項5に係る発明は、請求項1乃至4の発明において、前記予め定められた値は、前記抽出用パラメータを確率変数とし、前記抽出用パラメータの値の標準偏差をσとしたとき、2σ又は3σであることとした。
【0018】
この構成によれば、予め定められた値は、抽出用パラメータを確率変数とし、抽出用パラメータ値の標準偏差をσとしたとき、2σ又は3σである。統計的にみて、抽出用パラメータの値の分布が、平均値を中心として左右対称に近ければ、平均値±2σの範囲外のデータは、全体の約5%程度であり、平均値±3σの範囲外のデータは、全体の約ゼロコンマ数%程度とされる。これにより、全体からみて平均値からかけ離れた異常な抽出用パラメータ値の電子文書データを抽出することができる。
【0019】
又、請求項6に係る発明は、請求項2乃至5の発明において、前記記憶部は、勤務時間帯を示す勤務時間帯データを記憶し、前記処理部は、前記勤務時間帯データに基づき、更新日時又は新規登録日時が勤務時間帯外の電子文書データを抽出することとした。
【0020】
この構成によれば、処理部は、勤務時間帯データに基づき、更新日時又は新規登録日時が勤務時間帯外の電子文書データを抽出する。これにより、勤務時間外での更新という異常な更新がなされ、改ざんされた可能性が高い電子文書データを抽出することができる。
【0021】
又、請求項7に係る発明は、請求項1乃至6の発明において、電子文書データのうち、抽出範囲の設定を受け付ける入力部を備え、前記記憶部は、前記抽出用データとして電子文書データを生成した生成装置を示す生成元情報を記憶し、前記処理部は、前記入力部で特定の前記生成装置が生成した電子文書データを抽出範囲とする設定がなされたとき、特定の前記生成装置が生成した電子文書データを対象として抽出処理を行うこととした。
【0022】
又、請求項8に係る発明は、請求項7の発明において、前記記憶部は、前記抽出用データとして電子文書データのジョブ番号情報を記憶し、前記入力部は、前記抽出範囲の設定として前記ジョブ番号を指定する入力を受け付け、前記処理部は、前記入力部で指定された前記ジョブ番号の電子文書データを対象として抽出処理を行うこととした。
【0023】
又、請求項9に係る発明は、請求項7又は8の発明において、前記記憶部は、前記抽出用データとして電子文書データが属する部門情報を記憶し、前記入力部は、前記抽出範囲の設定として前記部門を指定する入力を受け付け、前記処理部は、前記入力部で指定された前記部門に属する電子文書データを対象として抽出処理を行うこととした。
【0024】
これら請求項7〜9の構成によれば、改ざんされた電子文書データを抽出するうえで、抽出処理の対象となる電子文書データを絞り込んだ上で抽出処理を行うことができる。また、使用者の所望する範囲で抽出処理を行えるので、利便性を高めることができるとともに、電子文書データ全体に対して抽出処理を行う場合に比べ、抽出処理に要する時間を短くすることができる。
【0025】
又、請求項10に係る電子文書データ処理システムは、電子文書データを生成しデータ蓄積装置に記憶させる電子文書データを送信する生成装置と、情報処理装置と、前記情報処理装置から送信された電子文書データを記憶するデータ蓄積装置と、を含み、前記情報処理装置は、前記データ蓄積装置に記憶させる電子文書データを受信し、受信した電子文書データを前記データ蓄積装置に送信して記憶させる通信部と、内蔵又は外付けされ、前記データ蓄積装置に記憶された各電子文書データへの改ざんを抽出して抽出するための抽出用データを記憶する記憶部と、前記抽出用データに基づき、前記データ蓄積装置に記憶される電子文書データの中から電子文書データの抽出処理を行う処理部と、を含み、前記処理部は、前記抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータの値の平均値を求め、前記抽出用パラメータ値が前記平均値と予め定められた値以上異なる電子文書データを抽出することとした。
【0026】
この構成は、本発明を電子文書データ処理システムとして捉えたものであり、請求項1記載の発明と同様の効果を得ることができる。
【0027】
又、請求項11に係るプログラムは、情報処理装置に、各電子文書データへの改ざんを抽出して抽出するための前記抽出用データを取得させ、前記抽出用データに基づき、データ蓄積装置に記憶される電子文書データの中から電子文書データの抽出処理を行わせ、前記抽出処理では、前記抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータの値の平均値を求めさせ、前記抽出用パラメータ値が前記平均値と予め定められた値以上異なる電子文書データを抽出する前記平均値との差の絶対値が予め定められた値よりも大きい前記抽出用パラメータの値を有する電子文書データを抽出させることとした。
【0028】
この構成は、本発明を電子文書データ処理用のプログラムとして捉えたものであり、請求項1記載の発明と同様の効果を得ることができる。
【発明の効果】
【0029】
上述したように、本発明によれば、改ざんを伴うような異常な更新がなされたかを判断し、異常な更新がなされた電子文書データを自動的、統計的に抽出することができる。また、改ざんという異常な更新がなされた可能性がある電子文書データを正確に抽出するができる。
【図面の簡単な説明】
【0030】
【図1】実施形態に係る電子文書データ処理システムの一例の概要を示す説明図である。
【図2】実施形態に係る複合機の一例を示す模型的正面断面図である。
【図3】実施形態に係る電子文書データ処理システムの構成の一例を示すブロック図である。
【図4】実施形態に係る電子文書データの新規登録でのシーケンスの一例を示す説明図である。
【図5】実施形態に係る電子文書データの更新シーケンスの一例を示す説明図である。
【図6】本実施形態に係る抽出用データのイメージ図である。
【図7】実施形態の情報処理装置、電子文書処理システムでの抽出範囲設定画面の一例を示す説明図である。
【図8】実施形態の情報処理装置、電子文書処理システムでの抽出用データを用いた電子文書データの抽出の流れの一例を示すフローチャートである。
【図9】改ざんされた電子文書データの抽出手法の一例を説明するための説明図である。
【発明を実施するための形態】
【0031】
以下、図1〜図8を用いて本発明の実施形態に係る情報処理装置1、情報処理装置1を含む電子文書データ処理システム100、プログラムを説明する。但し、本実施の形態に記載されている構成、配置等の各要素は、発明の範囲を限定するものではなく単なる説明例にすぎない。
【0032】
(電子文書データ処理システム100の概要)
まず、図1を用いて、実施形態に係る電子文書データ処理システム100の一例を説明する。図1は、実施形態に係る電子文書データ処理システム100の一例の概要を示す説明図である。尚、図1では、電子文書データの流れを白抜矢印で示している。
【0033】
本実施形態の電子文書データ処理システム100には、例えば、データ蓄積装置3と、データ蓄積装置3に記憶させる基礎となる電子文書データを生成する生成装置2と、生成装置2で生成された電子文書データを受信し、受信した電子文書データをデータ蓄積装置3に送信する情報処理装置1が含まれる。
【0034】
本実施形態の電子文書データ処理システム100は、さまざまな紙文書の電子化に対応する。例えば、病院における電子カルテシステムに用いられると、例えば、紙文書は、紙カルテ、証明書、診断書、病院への紹介状など、病院内で発生する紙文書の全てに対応することができる。又、企業や官公庁においても、財務文書や開発資料や内部連絡資料や決裁書など、様々な種類の紙文書が存在するが、これらの文書を電子化して蓄積することにも本実施形態の電子文書データ処理システム100は対応することができる。
【0035】
そして、生成装置2としては、例えば、スキャン機能を備えた複合機2aや、スキャナ2bを用いることができる。図1では、左側上部に複合機2aを示し、左側下部にスキャナ2bを示している。複合機2aやスキャナ2bは、紙文書をスキャンし、スキャンにより得られた画像データに基づき電子文書データを生成する。例えば、複合機2aやスキャナ2bは、電子文書データとして、PDFファイルやTIFFファイルを生成する。そして、複合機2aやスキャナ2bは生成した電子文書データを情報処理装置1に送信する。
【0036】
情報処理装置1は、例えば、パーソナルコンピューターである。操作者は、生成装置2(複合機2aやスキャナ2b)からの電子文書データに対し加工、修正を行うことができる。例えば、情報処理装置1の操作者は、情報処理装置1を用いて、電子文書データの傾き補正や、白紙ページの削除を行うことができる。又、例えば、操作者は、情報処理装置1を用いて、電子文書データの元になった紙文書の部門(電子文書データの所属部門)を設定できる。例えば、電子カルテシステムの場合、例えば、部門は、第1内科、小児科、耳鼻科など、診療科単位で定めることができる。
【0037】
電子文書データを確認し、加工、修正が必要ならば、加工、修正を行った後、操作者は、電子文書データのデータ蓄積装置3への送信を指示する。これにより、情報処理装置1からデータ蓄積装置3に電子文書データが送信される。データ蓄積装置3は、受信した電子文書データを不揮発的に記憶する。例えば、データ蓄積装置3は、データベースサーバーである。電子文書データの生成→確認、修正→データ蓄積装置3の記憶を繰り返し、電子文書データがデータ蓄積装置3に蓄積されていく。
【0038】
(複合機2aの概略)
次に、図2に基づき、実施形態に係る複合機2aの概略を説明する。図2は実施形態に係る複合機2aの一例を示す模型的正面断面図である。
【0039】
図2に示すように、本実施形態の複合機2aは、最上部に原稿搬送装置21を有し、複合機2a本体には、操作パネル22、画像読取部23、給紙部24、搬送路25、画像形成部26、定着部27等が設けられる。
【0040】
まず、図2に破線で示すように、操作パネル22は、複合機2aの正面上方に設けられる。そして、操作パネル22は、複合機2aの状態や各種メッセージを表示する液晶表示部221を備える。液晶表示部221は、機能の選択、設定や文字入力等を行うためのキーを1又は複数表示できる。又、液晶表示部221の上面に透明なタッチパネル222(例えば、抵抗膜方式)が設けられる。タッチパネル222は、液晶表示部221で押下された部分の位置、座標を抽出するためのものである。又、操作パネル22には、コピー等の各種機能の実行開始を指示するためのスタートキー223等、各種のハードキーも設けられる。
【0041】
原稿搬送装置21は、図2の紙面奥行き方向に支点を有し、紙面上下方向に開閉可能である。原稿搬送装置21は、載置読取用コンタクトガラス231に載置された原稿を押さえる。又、原稿搬送装置21上部に載置された原稿束から、原稿を1枚ずつ送り読取用コンタクトガラス232(読み取り位置)に向けて連続的、自動的に搬送する。
【0042】
画像読取部23は、原稿を読み取り、原稿の画像データを形成する。又、画像読取部23内には露光ランプ、ミラー、レンズ、イメージセンサ(例えば、CCD)等の光学系部材(不図示)が設けられる。これらの光学系部材を用い、画像読取部23は、載置読取用コンタクトガラス231に載置される原稿や、送り読取用コンタクトガラス232を通過する原稿に光を照射し、その原稿の反射光を受けたイメージセンサの各画素の出力値をA/D変換し、画像データを生成する。この生成された画像データに基づき、複合機2aでは電子文書データが生成される。
【0043】
給紙部24は、複数の用紙(例えば、コピー用紙、普通紙、再生紙、厚紙、OHPシート等の各種シート)を収容し、1枚ずつ搬送路25に送り込む。搬送路25は、給紙部24から排出トレイ251まで用紙を搬送する通路である。そして、搬送路25には、用紙搬送の際に回転駆動する搬送ローラ対252や、搬送されてくる用紙を画像形成部26の手前で待機させ、トナー像形成のタイミングを合わせて用紙を送り出すレジストローラ対253等が設けられる。
【0044】
画像形成部26は、画像データに基づきトナー像を形成し、搬送される用紙にトナー像を転写する(感光体ドラム261と、その周囲に配設された帯電装置262、レーザ走査ユニット263、現像装置264、転写ローラ265、清掃装置266等を備える)。
【0045】
定着部27は、用紙に転写されたトナー像を定着させる。本実施形態における定着部27は主として発熱体を内蔵する加熱ローラ271と加圧ローラ272で構成される。加熱ローラ271と加圧ローラ272は圧接しニップを形成する。そして、用紙が、このニップを通過することで、用紙表面のトナーが溶融・加熱され、トナー像が用紙に定着する。トナー定着後の用紙は、排出トレイ251が受け止める。このようにして、コピー機能、プリンタ機能の使用時、画像形成(印刷)が行われる。
【0046】
(電子文書データ処理システム100のハードウェア構成)
次に、図3に基づき、実施形態に係る電子文書データ処理システム100のハードウェア構成の一例を説明する。図3は、実施形態に係る電子文書データ処理システム100の構成の一例を示すブロック図である。
【0047】
まず、生成装置2としての複合機2aから説明する。複合機2a内には、主制御部28が設けられ、主制御部28は複合機2aの動作を制御し、CPU28a、画像処理部108b等を含む制御基板である。尚、主制御部28は、全体制御や画像処理を行うメイン制御部と、画像形成や各種回転体を回転させるモータ等のON/OFF等を制御するエンジン制御部等、機能ごとに分割し複数種設けられてもよい。
【0048】
CPU28aは、中央演算処理装置であって、記憶部29に格納され、展開されるプログラムやデータに基づき複合機2aの各部を制御する。画像処理部108bは、例えば、印刷を行う画像データへの画像処理や、画像読取部23で読み取られた画像データを電子文書データとして用いるファイル形式に変換する変換処理を行う。
【0049】
記憶部29は、ROM、RAM、HDD、フラッシュROM等を含み、不揮発性と揮発性の記憶装置を組み合わせて構成される。記憶部29は、複合機2aの制御用等の各種のプログラムやデータ、設定データ、画像データ等の各種データを記憶する。
【0050】
そして、主制御部28は、操作パネル22、原稿搬送装置21、画像読取部23、給紙部24、搬送路25、画像形成部26、定着部27等の各部とバスや信号線等で接続され各部、各装置を制御して複合機2aの動作(例えば、スキャン動作や印刷動作)を制御する。
【0051】
更に、主制御部28は、各種コネクタ、ソケット、通信制御用のチップ等を備えたI/F部210と接続される。I/F部210は、ネットワークや公衆回線やケーブル等により、情報処理装置1のデータ通信部14と通信可能に接続される。I/F部210は、画像読取部23で読み取られ画像処理部108bで処理されて生成された電子文書データを情報処理装置1のデータ通信部14に向けて送信する。
【0052】
尚、生成装置2としてスキャナ2bも情報処理装置1と通信可能に接続してもよい。スキャナ2bは、複合機2aのうち、給紙部24、搬送路25、画像形成部26、定着部27など印刷機能に関する部分等を除いたものである。そのため、上記の説明は、スキャナ2bについても同様にあてはまり、スキャナ2b内の機能ブロックは、図3のブロック図のうち、給紙部24、搬送路25、画像形成部26、定着部27を取り除いた図と同様となる。そこで、図3では、スキャナ2b内部の詳細な構成の説明、図示は省略する。
【0053】
次に、情報処理装置1について説明する。情報処理装置1は、例えば、CPU101やタイマ102を含む処理部10や、HDDやRAMやROMで構成される記憶部11や、キーボードやマウス等の入力部12や、表示装置としてのディスプレイ13や、外部と通信を行うためのインターフェイスであるデータ通信部14を備える。又、情報処理装置1には、外付けの記憶部15(例えば、外付けHDD)を接続することもできる。
【0054】
処理部10は、例えば、CPU101やタイマ102が実装された基板であり、情報処理装置1での演算などの処理を行う。記憶部11や記憶部15は、情報処理装置1を動作させるために必要なプログラム、データを記憶する。又、記憶部11や記憶部15には、電子文書データ処理システム100を利用するためのアプリケーションやプログラムがインストールされる。アプリケーションには、例えば、生成装置2(複合機2aやスキャナ2b)で生成された電子文書データ等を認識するプログラムや、電子文書データを加工、修正するプログラムや、電子文書データ等をデータ蓄積装置3に記憶させるプログラムなどが含まれる。又、改ざんされた可能性のある電子文書データの抽出処理用プログラムや、抽出処理を行うときに用いる抽出用データを記憶させるプログラムなども、記憶部11や記憶部15にインストールされる。
【0055】
データ蓄積装置3は、例えば、CPUやチップやメモリー等を含み、データ蓄積装置3の動作、処理を制御する処理部31を含む。又、データ蓄積装置3は、外部と通信を行うためのインターフェイスであるデータ通信部32を備える。データ通信部32は、情報処理装置1のデータ通信部14とネットワーク、ケーブル等により通信可能に接続される。データ通信部32は、情報処理装置1のデータ通信部14と通信し、電子文書データ等を受信する。そして、データ蓄積装置3には、ストレージ33(大容量記憶装置、例えば、複数台のHDDなど)が内蔵され、処理部31は、データ通信部32が受信した電子文書データをストレージ33に記憶させる。又、削除する電子文書データを指示するデータをデータ通信部32が情報処理装置1から受けたとき、処理部31は、指示された電子文書データをストレージ33に削除させる。尚、データ蓄積装置3に、キーボードやマウス等の入力装置や、表示装置としてのディスプレイ34を設けても良い。
【0056】
(電子文書データの新規登録)
次に、図4を用いて、実施形態に係る電子文書データ処理システム100で電子文書データを新規登録するときのシーケンスの一例を説明する。図4は、実施形態に係る電子文書データの新規登録でのシーケンスの一例を示す説明図である。
【0057】
データ蓄積装置3に電子文書データを新規に登録するとき、まず、生成装置2(複合機2aやスキャナ2b)は、文書の読込(読取)を行う(ステップ1.1)。そして、複合機2aやスキャナ2bは、予め定められたファイル形式(例えば、PDFやTIFF等)の電子文書データを生成する(ステップ1.2)。その後、生成装置2のI/F部210は、情報処理装置1のデータ通信部14に向けて、生成した電子文書データを送信する(ステップ1.3)。
【0058】
情報処理装置1が電子文書データを受信し、操作者は、必要が有れば、情報処理装置1の入力部12やディスプレイ13を確認しつつ、電子文書データの修正、加工を行う(ステップ1.4)。このとき、電子文書データ処理用のアプリケーションが、情報処理装置1上で起動済みであり、動作している。
【0059】
そして、電子文書データの修正、加工や確認の完了に伴い、電子文書データ処理用のアプリケーション上で、操作者が、入力部12を用いて電子文書データのデータ蓄積装置3への登録を指示する。この指示をトリガとして、情報処理装置1のデータ通信部14は、データ蓄積装置3のデータ通信部32に向けて、電子文書データを送信する(ステップ1.5)。そして、データ蓄積装置3の処理部31は、データ通信部32が受信した電子文書データをストレージ33に記憶させる(ステップ1.6)。
【0060】
更に、情報処理装置1の処理部10は、電子文書データの新規登録に関する情報を含み、改ざんの可能性のある電子文書データの抽出に用いる抽出用データを記憶させる(ステップ1.7、ステップ1.8)。尚、抽出用データの詳細は後述する。抽出用データの記憶先としては、情報処理装置1内の記憶部11でもよいし、情報処理装置1に外付けされる記憶部15でもよい(ステップ1.7)。又、情報処理装置1に外付けされる記憶装置には、データ蓄積装置3も該当するので、情報処理装置1は、データ蓄積装置3に抽出用データを記憶させても良い(ステップ1.8)
【0061】
(電子文書データの更新)
次に、図5を用いて、実施形態に係る電子文書データ処理システム100での電子文書データの更新するときのシーケンスの一例を説明する。図5は、実施形態に係る電子文書データの更新シーケンスの一例を示す説明図である。
【0062】
データ蓄積装置3に蓄積(記憶)された電子文書データを更新するとき、操作者は、情報処理装置1を操作して、削除する電子文書データを指定し、指定した電子文書データの削除を行う旨の指示入力を行う。このとき、電子文書データ処理用のアプリケーションが、情報処理装置1上で起動済みであり、動作している。この削除指示により、情報処理装置1のデータ通信部14は、データ蓄積装置3のデータ通信部32に向けて、削除する電子文書データを示すデータを送信する(ステップ2.1)。この削除指示を受け、データ蓄積装置3の処理部31は、指示された電子文書データをストレージ33に削除させる(ステップ2.2)。
【0063】
更に、情報処理装置1の処理部10は、電子文書データ削除処理に関する情報を抽出用データとして、新規登録時に作成、記憶させた抽出用データに追加記憶させる(ステップ2.3、ステップ2.4)。尚、抽出用データの詳細は後述する。上述のように、抽出用データの記憶先としては、情報処理装置1内の記憶部11でもよいし(ステップ2.3)、記憶部15でもよいし(ステップ2.3)、データ蓄積装置3でも良い(ステップ2.4)。
【0064】
そして、更新する電子文書データが生成装置2(複合機2aやスキャナ2b)から情報処理装置1に送信される(ステップ2.5)。この送信された電子文書データは、例えば、生成装置2で新たに読み込まれたものである。必要であれば、操作者は、情報処理装置1で更新する(差し替える)電子文書データの修正、加工を行っても良い(修正、加工のステップは省略)。
【0065】
そして、電子文書データ処理用のアプリケーション上で、操作者は入力部12を用いて、削除した電子文書データの更新用(差替用)の電子文書データのデータ蓄積装置3への登録を指示する。この指示をトリガとして、情報処理装置1のデータ通信部14は、データ蓄積装置3のデータ通信部32に向けて、更新用(差替用)の電子文書データを送信する(ステップ2.6)。そして、データ蓄積装置3の処理部31は、もともと記憶されていた電子文書データに替えて、データ通信部32が受信した電子文書データをストレージ33に記憶させる(ステップ2.7)。
【0066】
更に、情報処理装置1の処理部10は、電子文書データ更新(差替)処理に関する情報を抽出用データとして、新規登録時に作成、記憶させた抽出用データに追加記憶させる(ステップ2.8、ステップ2.9)。上述のように、抽出用データの記憶先としては、情報処理装置1内の記憶部11でもよいし(ステップ2.8)、記憶部15でもよいし(ステップ2.8)、データ蓄積装置3でも良い(ステップ2.9)
【0067】
尚、本説明では、電子文書データの更新に関し、電子文書データが削除された後、電子文書データが生成装置2から送信される例を説明したが、操作者は、ステップ2.1の前に、更新する(差し替える)電子文書データを予め生成装置2から送信しておき準備していてもよい。この場合、ステップ2.1〜ステップ2.9(ステップ2.5を除く)までの更新前の電子文書データの削除と、電子文書データの更新(差替)が連続的に行われる。
【0068】
(抽出用データ)
次に、図6を用いて、本実施形態に係る抽出用データの一例を説明する。図6は、本実施形態に係る抽出用データのイメージ図である。
【0069】
本実施形態の情報処理装置1、電子文書データ処理システム100では、改ざんの可能性のある電子文書データを抽出する。この電子文書データの抽出に用いる抽出用データが記憶部11、記憶部15、データ蓄積装置3のいずれか、あるいは、複数に記憶される。
【0070】
抽出用データは、図6に示すように、電子文書データごとに記憶される。例えば、抽出用データごとに番号が付される。図6では、番号1(No.1)の抽出用データから番号n(No.n)までの抽出用データが記憶されている例を示している。例えば、1万件の電子文書データがデータ蓄積装置3に記憶されていれば、nは1万となる。
【0071】
電子文書データの新規登録時に作成され、記憶される抽出用データとして、抽出用データに対応する電子文書データの識別用情報(対象電子文書データ識別用情報)や、電子文書データの新規登録日時情報、電子文書データの生成元情報、登録時データサイズ情報、電子文書データの生成装置2でのジョブ番号情報、電子文書データの属する部門情報がある。
【0072】
対象電子文書データ識別用情報は、抽出用データに対応する電子文書データを特定するための情報である。例えば、対象電子文書データ識別用情報は、電子文書データのファイル名や、電子文書データのデータ蓄積装置3のストレージ33でのアドレスとされる。情報処理装置1の処理部10は、電子文書データの新規登録にあわせ、対象電子文書データ識別用情報を生成する。
【0073】
新規登録日時情報は、電子文書データが新規登録されたときの日時情報である(図4のステップ1.5に対応)。例えば、「2010/10/10 10時10分10秒」のように日付+時刻として示される。情報処理装置1の処理部10は、タイマ102で電子文書データの新規登録日時を認識し、新規登録日時を示すデータ(新規登録日時情報)を生成する。あるいは、生成装置2が電子文書データに生成日時を付して送信し、処理部10は、電子文書データに付された生成日時を新規登録日時と扱ってもよい。
【0074】
生成元情報は、電子文書データを生成した生成装置2を示す情報である。例えば、生成元情報は、電子文書データを生成した複合機2aやスキャナ2bの形式番号や、アドレスなどである。データ通信部14は、生成装置2から電子文書データを受信するとき、電子文書データの送信元を認識する。この認識にあわせ、情報処理装置1の処理部10は、電子文書データの読込元(生成元)を示すデータ(生成元情報)を生成する。
【0075】
登録時データサイズ情報は、新規登録する電子文書データのデータサイズを示す情報である。情報処理装置1の処理部10は、データ蓄積装置3に送信するとき、あるいは、生成装置2から受信したときの電子文書データのデータサイズを認識する。この認識にあわせ、情報処理装置1の処理部10は、新規登録する電子文書データのデータサイズを示すデータ(登録時データサイズ情報)を生成する。
【0076】
ジョブ番号情報は、電子文書データが生成されたときの生成装置2でのジョブ番号である。複合機2aやスキャナ2bでは、1頁分の原稿(紙文書)を読み込み、1つの電子文書データを生成できる他、複数頁の原稿(紙文書)を連続して読み込み、各頁の画像データを結合して1つの電子文書データを生成することがある。この電子文書データの生成に伴うスキャンジョブにおいて、複合機2aやスキャナ2bは、1つのジョブを単位としてジョブ番号を用いることがある。そして、生成装置2が電子文書データにジョブ番号を付して情報処理装置1に送信するものであるとき、情報処理装置1の処理部10は、取得できたジョブ番号に基づき、ジョブ番号を示すデータ(ジョブ番号情報)を生成する。
【0077】
部門情報は、電子文書データの属する部門を示す情報である。例えば、電子カルテシステムに情報処理装置1や電子文書データ処理システム100を適用した場合、例えば、所属部門は、第1内科、小児科、耳鼻科など、診療科が部門と定められる。データ通信部14は、生成装置2から電子文書データを受信するとき、電子文書データの送信元を認識するところ、情報処理装置1の処理部10は、送信元の生成装置2が設置された部門に基づき、電子文書データが属する部門を認識してもよい。又、電子文書データのデータ蓄積装置3への送信前の修正、加工の際に、情報処理装置1で部門情報を設定可能としてもよい。又、情報処理装置1の処理部10が、紙文書に付された記号やマーク(例えば、バーコード)に基づき、電子文書データ内の記号やマークを確認し、部門を判断してもよい。そして、処理部10は、部門を示すデータ(部門情報)を生成する。
【0078】
電子文書データの新規登録のとき、情報処理装置1の処理部10は、電子文書データに関連付けて生成した各データ(対象電子文書データ識別用情報、新規登録日時情報、生成元情報、登録時データサイズ情報、ジョブ番号情報、部門情報)を1つにまとめ、記憶部11、記憶部15、データ蓄積装置3などに抽出用データとして記憶させる。
【0079】
次に、電子文書データの更新(差替)に伴い、抽出用データに追加されるデータ(情報)を説明する。電子文書データの更新時に、もともとの抽出用データに、削除日時情報、更新日時情報、更新後データサイズ情報が追加される。
【0080】
削除日時情報は、データ蓄積装置3に登録していた電子文書データを削除したときの日時情報である(図5のステップ2.1に対応)。例えば、「2011/11/11 11時11分11秒」のように、日付+時刻として示される。情報処理装置1の処理部10は、タイマ102で電子文書データの削除日時を認識し、削除日時を示すデータ(削除日時情報)を生成する。
【0081】
更新日時情報は、電子文書データの更新を行った(差し替えを行った)ときの日時情報である(図5のステップ2.6に対応)。例えば、「2012/12/12 12時12分12秒」のように、日付+時刻として示される。情報処理装置1の処理部10は、タイマ102で電子文書データの更新(差替)日時を認識し、更新日時を示すデータ(更新日時情報)を生成する。
【0082】
更新後データサイズ情報は、更新により新たにデータ蓄積装置3に登録された電子文書データのデータサイズである。情報処理装置1の処理部10は、更新に伴いデータ蓄積装置3に新たに記憶させる電子文書データを送信するとき、あるいは、更新に伴いデータ蓄積装置3に新たに記憶させる電子文書データを生成装置2から受信したとき、データサイズを認識する。この認識にあわせ、処理部10は、更新登録する電子文書データのデータサイズを示すデータ(更新後データサイズ情報)を生成する。
【0083】
電子文書データの更新に伴い、記憶部11、記憶部15、データ蓄積装置3は、情報処理装置1の処理部10が生成した抽出用データ用の各データ(削除日時情報、更新日時情報、更新後データサイズ情報)を、対応する電子文書データの抽出用データに追加して記憶する。
【0084】
尚、複数回の電子文書データの更新(差替)が行われる場合があるので、図6に示すように、削除日時情報、更新日時情報、更新後データサイズ情報は、更新がなされるごとに抽出用データに追加されても良い。
【0085】
(抽出用データを用いた電子文書データの抽出)
次に、図7〜図9を用いて、本実施形態の情報処理装置1、電子文書処理システムでの抽出用データを用いた電子文書データの抽出の流れの一例を説明する。図7は、本実施形態の情報処理装置1、電子文書処理システムでの抽出範囲設定画面S1の一例を示す説明図である。図8は、本実施形態の情報処理装置1、電子文書処理システムでの抽出用データを用いた電子文書データの抽出の流れの一例を示すフローチャートである。図9は、改ざんされた電子文書データの抽出手法の一例を説明するための説明図である。
【0086】
操作者は、本実施形態の情報処理装置1を用いて、改ざんされた可能性のある電子文書データを抽出できる。この抽出処理を行うとき、操作者は、例えば、抽出処理用プログラムを起動させる。抽出処理用プログラムは、抽出用データを用いて処理部10に抽出処理を行わせる。
【0087】
ここで、データ蓄積装置3に蓄積された電子文書データの件数が多数に及ぶこともある(例えば、数千件以上)。電子文書データの件数が多数に及ぶと、常に電子文書データ全体に対し抽出処理を行うと、情報処理装置1の処理能力にもよるが、抽出処理に時間を要することがある。又、操作者は、所望の範囲の電子文書データに対してのみ抽出処理を行いたい場合もある。
【0088】
そこで、本実施形態の情報処理装置1では、抽出処理での電子文書データの範囲(抽出処理を行う対象)を設定することができる。この抽出範囲設定画面S1の一例を図7に示している。
【0089】
抽出範囲設定画面S1は、抽出処理用プログラムを起動させたとき、情報処理装置1に表示されるウィンドウである。図7に示すように、例えば、「全体」、「スキャナ単位」、「ジョブ番号単位」、「部門単位」といった項目が抽出範囲を定めるための項目として設けられる。そして、各項目に対し、選択用のチェックボックスが設けられる。図7において、全体の項目のものにCB1、スキャナ単位の項目のものにCB2、ジョブ番号単位の項目のものにCB3、部門単位の項目のものにCB4の符号を付す。
【0090】
そして、操作者は、入力部12としてのマウスやキーボートを用いて、いずれか又は複数のチェックボックスCB1〜CB4を押して、抽出対象となる電子文書データの範囲を選択して設定する。例えば、図7に示すように、「スキャナ単位」のチェックボックスCB2と「部門単位」のチェックボックスCB4にチェックが入れることができ、「スキャナ単位」で設定される範囲又は「部門単位」で設定される範囲に該当する電子文書データに対し抽出処理を行うことができる(ORの関係)。図7では、尚、チェックボックスに変えて、ラジオボタン形式としてもよい。
【0091】
抽出範囲設定画面S1のOKキーK1が押されると、情報処理装置1の処理部10は、選択された項目に基づき抽出処理を行う電子文書データの絞込をかける。言い換えると、処理部10は選択された項目に基づき、抽出処理を行う標本を定める。
【0092】
「全体」の項目が選択されると、情報処理装置1の処理部10は、電子文書データの全体を対象として抽出処理を行う。この場合、処理部10は、電子文書データ全件に対応する全件分の抽出用データを用いて抽出処理を行う。
【0093】
「スキャナ単位」の項目に付随して、抽出範囲設定画面S1には、例えば、プルダウンメニュー形式のスキャナ選択欄B1が設けられる。情報処理装置1の処理部10は、情報処理装置1に通信可能に接続される生成装置2をプルダウンメニューに表示する。操作者は、スキャナ選択欄B1で生成装置2を選択する。尚、情報処理装置1に通信可能に接続される生成装置2を一覧表示して、複数の生成装置2を選択できるようにしてもよい。
【0094】
「スキャナ単位」の項目が選択されると、情報処理装置1の処理部10は、各抽出用データの生成元情報を参照し、選択された生成装置2で生成された電子文書データに処理対象を絞り込み、絞り込んだ電子文書データに対応する抽出用データを用いて抽出処理を行う。
【0095】
「ジョブ番号」の項目に付随して、抽出範囲設定画面S1には、例えば、ジョブ番号入力欄B21、B22が設けられる。ジョブ番号入力欄B21、B22は、範囲指定できるように2つ設けられる。操作者は、入力部12としてのキーボード等を用いて、ジョブ番号を入力する。
【0096】
「ジョブ番号」の項目が選択されると、情報処理装置1の処理部10は、各抽出用データのジョブ番号情報を参照し、設定されたジョブ番号の電子文書データに処理対象を絞り込み、絞り込んだ電子文書データに対応する抽出用データを用いて抽出処理を行う。
【0097】
「部門単位」の項目に付随して、抽出範囲設定画面S1には、例えば、プルダウンメニュー形式の部門選択欄B3が設けられる。情報処理装置1の処理部10は、抽出用データの部門情報として含まれ得る部門名を予め記憶部11などに記憶しておき、部門の一覧をプルダウンメニューに表示する。操作者は、部門選択欄B3で部門を選択する。尚、予め記憶している部門名を一覧表示して、複数の部門を選択できるようにしてもよい。
【0098】
「部門単位」の項目が選択されると、情報処理装置1の処理部10は、各抽出用データの部門情報を参照し、選択された部門に関する電子文書データに処理対象を絞り込み、絞り込んだ電子文書データに対応する抽出用データを用いて抽出処理を行う。
【0099】
次に、図8を用いて、本実施形態の情報処理装置1、電子文書データ処理システム100での改ざんされた可能性のある電子文書データの抽出処理の流れを説明する。
【0100】
まず、図8でのスタートは、情報処理装置1を用いて、改ざんされた可能性のある電子文書データの抽出を行う時点である。このとき、抽出処理用プログラムが情報処理装置1で起動され、操作者が抽出の実行指示を入力部12に入力した時点である。この指示に基づき、抽出処理用プログラムは、処理部10を動作させて、抽出処理を行わせる。
【0101】
尚、図8では、スタートの時点で図7を用いて説明した抽出処理を行う電子文書データの範囲設定(抽出処理を行う対象電子文書データの絞込)が既に行われている例を説明する。しかし、以下のフローのいずれかの時点で、操作者による抽出を行う電子文書データの範囲設定処理がなされてもよい。
【0102】
まず、情報処理装置1の処理部10は、抽出処理用プログラムに基づき、抽出対象として設定された各電子文書データに対応する抽出用データ内の更新日時情報、更新日時情報が無ければ新規登録日時情報を抽出用データの記憶元(記憶部11や記憶部15やデータ蓄積装置3など)から取得する(ステップ♯1)。
【0103】
次に、情報処理装置1の処理部10は、勤務時間帯を示すデータ(勤務時間帯データ)を取得する(ステップ♯2)。勤務時間帯データは、情報処理装置1や電子文書処理システムの使用者、操作者により、実態にあわせて予め設定され、記憶部11や記憶部15やデータ蓄積装置3に記憶される。例えば、勤務時間帯を示すデータとしては、勤務日(例えば、月曜日〜金曜日)と、各勤務日における勤務時間帯(例えば、AM8:00〜PM6:00など任意の時間)を示すデータが含まれる。
【0104】
そして、情報処理装置1の処理部10は、ステップ♯1で取得した各更新日時情報(更新日時情報がないときは新規登録日時情報)と勤務時間帯を比較し、勤務時間外に更新や新規登録がなされた電子文書データを改ざんの可能性がある電子文書データとして抽出する(ステップ♯3)。
【0105】
次に、情報処理装置1の処理部10は、抽出処理対象として設定された各電子文書データに対応する各抽出用データから、更新間隔を求めるための情報を取得する(ステップ♯4)。例えば、処理部10は、更新がなされた回数が1回であれば、更新日時情報と新規登録日時情報を取得する。又、更新された回数が2回以上であれば、直近の更新日時情報と直近の更新の1つ前の更新の更新日時情報を取得する。
【0106】
そして、情報処理装置1の処理部10は、ステップ♯4で取得した情報を用いて、各電子文書データについて、直近の更新と直近の更新の1つ前の更新又は新規登録の時間的な間隔(期間)を求める(ステップ♯5)。次に、処理部10は、求めた各間隔の平均値を求める(ステップ♯6)。更に、処理部10は、間隔が平均値と予め定められた時間以上異なる(差がある)電子文書データを改ざんの可能性がある電子文書データとして抽出する(ステップ♯7)。
【0107】
次に、情報処理装置1の処理部10は、抽出処理対象として設定された各電子文書データに対応する各抽出用データに基づき、各抽出用データでの更新日時情報の数を確認する等により、各電子文書データの更新回数を示す情報を取得する(ステップ♯8)。例えば、処理部10は、更新日時情報が2つ抽出用データに含まれていれば、更新回数を2回と判断する。尚、抽出用データに予め更新回数を示す情報を含めておくようにしてもよい。
【0108】
そして、情報処理装置1の処理部10は、ステップ♯8で取得した情報を用いて、処理対象の各電子文書データの更新回数の平均値を求める(ステップ♯9)。更に、処理部10は、更新回数が平均値と予め定められた回数以上異なる(差がある)電子文書データを改ざんの可能性がある電子文書データとして抽出する(ステップ♯10)。
【0109】
次に、情報処理装置1の処理部10は、抽出処理対象として設定された各電子文書データに対応する各抽出用データに基づき、直近の更新の更新後データサイズ情報と直近の更新前の電子文書データのサイズ情報を取得する(ステップ♯11)。例えば、処理部10は、更新が1回であれば、更新後データサイズ情報と登録時データサイズ情報を取得する。又、更新が2回以上であれは、直近の更新の更新後データサイズ情報と、直近の更新の1つの前の更新後データサイズ情報を取得する。
【0110】
そして、情報処理装置1の処理部10は、ステップ♯11で取得した情報を用いて、各電子文書データについて、更新前と更新後の電子文書データのデータサイズの差を求める(ステップ♯12)。次に、処理部10は、求めた各データサイズ差の平均値を求める(ステップ♯13)。更に、処理部10は、データサイズ差が平均値と予め定められたサイズ差以上異なる(差がある)電子文書データを改ざんの可能性がある電子文書データとして抽出する(ステップ♯14)。
【0111】
本実施形態では、上述のように、電子文書データの更新間隔、更新回数、更新前後のデータサイズ差を改ざんの可能性がある電子文書データの抽出用パラメータとして用いる。言い換えると、情報処理装置1は、更新間隔、更新回数、更新前後のデータサイズの差に着目して抽出処理を行う。これにより、異常に短いあるいは長い間隔で更新がなされた電子文書データや、更新回数が異常に少ないあるいは多い電子文書データや、更新前と更新後のデータサイズが異常なほど差がある電子文書データを抽出することができる。
【0112】
尚、本実施形態では、勤務時間帯及び3つの抽出用パラメータを用いて抽出する例を説明した。しかし、3つの抽出用パラメータのうち、いずれか1つ又は何れか2つの組み合わせで抽出処理を行ってもよい。又、勤務時間帯による抽出処理を行っても良いし、行わなくてもよい。更に、別の抽出用パラメータ(例えば、電子文書データへのアクセス回数)を用いて抽出を行ってもよい。別の抽出用パラメータを用いるとき、必要であれば、別の抽出用パラメータを用いるための情報を抽出用データに別途記憶させる。
【0113】
ここで、図9を用いて、各抽出用パラメータに関する予め定められた値(時間、回数差、サイズ差)を説明する。図9に示す例は、各抽出用パラメータの値をx軸に取り、各抽出用パラメータの値をとるサンプル(電子文書データ)の度数をy軸にとり、各パラメータの値の分布の一例を示すグラフである。
【0114】
図9では、各抽出用パラメータの平均値をμで示している。図9のグラフは、正規分布的な曲線を示している。そして、図9では、予め定められた値(時間、回数、サイズ差)をΔで示している。業務で通常に行われる更新が行われた電子文書データについては、抽出用パラメータの値は、平均値からかけ離れることは少ない。言い換えると、平均値から離れるほど電子文書データの数は少なくなり、異常な更新であるといえる。そこで、本実施形態の抽出処理用プログラムは、各抽出用パラメータの平均値からかけ離れるような更新がなされた電子文書データを抽出する。
【0115】
ここで、各抽出用パラメータでの予め定められた値(時間、回数、サイズ差)は、固定値として予め定めた物でも良い。又、統計的に求めたものでもよい。統計的に、正規分布では、「確率変数Xが、平均μ、分散σ2の正規分布に従うとき、平均μからのずれが±1σ以下の範囲にXが含まれる確率は約68%、±2σ以下の範囲にXが含まれる確率は約95%、±3σ以下の範囲にXが含まれる確率は約99%となる」といわれている(σは標準偏差)。
【0116】
そこで、予め定められた値(時間、回数、サイズ差)は、2σや3σとしてもよい。抽出用パラメータに関する予め定められた値として2σや3σを用いるとき、情報処理装置1の処理部10は、求めた抽出用パラメータの平均値と各抽出用パラメータの値を用いて標準偏差σを求め、標準偏差σを用いて、電子文書データの抽出を行う。尚、標準偏差σの求め方はよく知られているが、念のため、以下に上げておく(σの平方根をとる)。
(式)
σ=1/(n−1)×((X1−Xa)+(X2−Xa)+・・・+(Xn−Xa)
但し、n=全抽出用パラメータの個数
Xa=全抽出用パラメータの平均値
X1〜Xn=各抽出用パラメータの値
【0117】
ステップ♯14までの処理により、改ざんの可能性がある電子文書データの抽出処理が完了すると、情報処理装置1の処理部10は、ディスプレイ13に抽出結果を表示させる(ステップ♯15)。これにより、改ざんの可能性がある電子文書データを示す情報を手に入れることができる。尚、ディスプレイ13に表示された抽出結果は、複合機2aで印刷できるようにしてもよい。
【0118】
このようにして、本実施形態に係る情報処理装置1は、内蔵又は外付けされ、データ蓄積装置3に記憶された各電子文書データへの改ざんを抽出するための抽出用データを記憶する記憶部(記憶部11、記憶部15、データ蓄積装置3でもよい)と、抽出用データに基づき、データ蓄積装置3に記憶される電子文書データの中から電子文書データの抽出処理を行う処理部10と、を含み、処理部10は、抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータ値の平均値を求め、抽出用パラメータ値が平均値と予め定められた値以上異なる電子文書データを抽出する。
【0119】
改ざんの更新は異常な更新であるところ、正常な更新(例えば、業務上の習慣や日常的な通常業務での更新処理)がなされた電子文書データの抽出用パラメータ値は、平均値近辺に位置することになる。これにより、統計的に見て、平均値よりも外れた異常な値を示す電子文書データを、改ざんの可能性があるとして抽出することができる。言い換えると、改ざんを伴うような異常な更新がなされた電子文書データを自動的に抽出することができる。従って、改ざんを探し出すために電子文書データを一つずつ確認するという膨大な手間を省き、改ざんされた可能性のある電子文書データのみを拾い上げることができる。又、改ざんという異常な更新を反映し、平均値からかけ離れるような電子文書データには、改ざんされた電子文書データが含まれる可能性が高く、正確に改ざんがなされた電子文書データを抽出することができる。
【0120】
又、記憶部(記憶部11、記憶部15、データ蓄積装置3でもよい)は、抽出用データとして、各電子文書データの新規登録日時情報と更新日時情報とを記憶し、処理部10は、電子文書データの更新間隔を抽出用パラメータとして用い、各電子文書データについて、直近の更新日時と直近の更新の1つ前の電子文書データの更新又は新規登録日時との間隔と求めるとともに間隔の平均値を求め、間隔が平均値と予め定められた時間以上異なる電子文書データを抽出する。日常的に行われる通常の更新であれば、更新間隔は平均値近辺になる傾向を示すところ、異常な更新間隔であり、改ざんがなされた可能性の高い電子文書データを自動的に抽出することができる。
【0121】
記憶部(記憶部11、記憶部15、データ蓄積装置3でもよい)は、抽出用データとして、各電子文書データの更新回数情報を記憶し、処理部10は、電子文書データの更新回数を抽出用パラメータとして用い、更新回数の平均値を求め、更新回数が平均値と予め定められた回数以上異なる電子文書データを抽出する。日常的に行われる通常の更新であれば、更新回数は平均値近辺になる傾向を示すところ、異常な更新回数であり、改ざんがなされた可能性の高い電子文書データを自動的に抽出することができる。
【0122】
記憶部(記憶部11、記憶部15、データ蓄積装置3でもよい)は、抽出用データとして、各電子文書データの登録時及び更新後のデータサイズを記憶し、処理部10は、電子文書データの更新前後のデータサイズ差を抽出用パラメータとして用い、各電子文書データについて、直近の更新後の電子文書データのデータサイズと直近の更新前の電子文書データのデータサイズとのデータサイズ差を求めるとともにデータサイズ差の平均値を求め、データサイズ差が平均値と予め定められたサイズ差以上異なる電子文書データを抽出する。日常的に行われる通常の更新であれば、更新前と更新後のデータサイズの差は、平均値近辺になる傾向を示すところ、更新前と更新後のデータサイズの差が異常で、改ざんがなされた可能性の高い電子文書データを自動的に抽出することができる。
【0123】
又、予め定められた値は、抽出用パラメータを確率変数とし、抽出用パラメータの値の標準偏差をσとしたとき、2σ又は3σとしてもよい。統計的にみて、抽出用パラメータの値の分布が、平均値を中心として左右対称に近ければ、平均値±2σの範囲外のデータは、全体の約5%であり、平均値±3σの範囲外のデータは、全体の約ゼロコンマ数%とされる。これにより、全体からみて平均値からかけ離れた異常な抽出用パラメータの値の電子文書データを抽出することができる。
【0124】
又、記憶部(記憶部11、記憶部15、データ蓄積装置3でもよい)は、勤務時間帯を示す勤務時間帯データを記憶し、処理部10は、勤務時間帯データに基づき、更新日時又は新規登録日時が勤務時間帯外の電子文書データを抽出する。これにより、勤務時間外での更新という異常な更新がなされ、改ざんされた可能性が高い電子文書データを抽出することができる。
【0125】
又、電子文書データのうち、抽出範囲の設定を受け付ける入力部12を備え、記憶部(記憶部11、記憶部15、データ蓄積装置3でもよい)は、抽出用データとして電子文書データを生成した生成装置2を示す生成元情報を記憶し、処理部10は、入力部12で特定の生成装置2が生成した電子文書データを抽出範囲とする設定がなされたとき、特定の生成装置2が生成した電子文書データを対象として抽出処理を行う。又、記憶部は、抽出用データとして電子文書データのジョブ番号情報を記憶し、入力部12は、抽出範囲の設定としてジョブ番号を指定する入力を受け付け、処理部10は、入力部12で指定されたジョブ番号の電子文書データを対象として抽出処理を行う。又、記憶部は、抽出用データとして電子文書データが属する部門情報を記憶し、入力部12は、抽出する範囲の設定として部門を指定する入力を受け付け、処理部10は、入力部12で指定された部門に属する電子文書データを対象として抽出処理を行う。
【0126】
これらのように抽出処理の対象となる電子文書データを絞り込んだ上で抽出処理を行うことができる。また、使用者の所望する範囲で抽出処理を行えるので、利便性を高めることができるとともに、電子文書データ全体に対して抽出処理を行う場合に比べ、抽出処理に要する時間を短くすることができる。
【0127】
又、本発明は、情報処理装置1だけでなく、電子文書データ処理システム100の発明として捉えることもできる。具体的に、電子文書データ処理システム100は、電子文書データを生成しデータ蓄積装置3に記憶させる電子文書データを送信する生成装置2と、情報処理装置1と、情報処理装置1から送信された電子文書データを記憶するデータ蓄積装置3と、を含み、情報処理装置1は、データ蓄積装置3に記憶させる電子文書データを受信し、受信した電子文書データをデータ蓄積装置3に送信して記憶させる通信部(データ通信部14)と、内蔵又は外付けされ、データ蓄積装置3に記憶された各電子文書データへの改ざんを抽出して抽出するための抽出用データを記憶する記憶部(記憶部11、記憶部15、データ蓄積装置3でもよい)と、抽出用データに基づき、データ蓄積装置3に記憶される電子文書データの中から電子文書データの抽出処理を行う処理部10と、を含み、処理部10は、抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータの値の平均値を求め、抽出用パラメータ値が平均値と予め定められた値以上異なる電子文書データを抽出する。
【0128】
又、本発明は、プログラムとして捉えることもできる。具体的にプログラム(抽出処理用プログラム)は、図8のフローチャートを用いて説明したように、情報処理装置1に、各電子文書データへの改ざんを抽出して抽出するための抽出用データを取得させ、抽出用データに基づき、データ蓄積装置3に記憶される電子文書データの中から電子文書データの抽出処理を行わせ、抽出処理では、抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータの値の平均値を求めさせ、抽出用パラメータ値が平均値と予め定められた値以上異なる電子文書データを抽出する平均値との差の絶対値が予め定められた値よりも大きい抽出用パラメータの値を有する電子文書データを抽出させる。
【0129】
本発明の実施形態を説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で種々の変更を加えて実施することができる。
【産業上の利用可能性】
【0130】
本発明は情報処理装置、電子文書データ処理システム、プログラムに使用可能である。
【符号の説明】
【0131】
100 電子文書データ処理システム 1 情報処理装置
10 処理部 11 記憶部
12 入力部 15 記憶部
2a 複合機(生成装置2) 2b スキャナ(生成装置2)
3 データ蓄積装置(記憶部の一種)

【特許請求の範囲】
【請求項1】
内蔵又は外付けされ、データ蓄積装置に記憶された各電子文書データへの改ざんを抽出するための抽出用データを記憶する記憶部と、
前記抽出用データに基づき、前記データ蓄積装置に記憶される電子文書データの中から電子文書データの抽出処理を行う処理部と、を含み、
前記処理部は、前記抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータ値の平均値を求め、前記抽出用パラメータ値が前記平均値と予め定められた値以上異なる電子文書データを抽出することを特徴とする情報処理装置。
【請求項2】
前記記憶部は、前記抽出用データとして、各電子文書データの新規登録日時情報と更新日時情報とを記憶し、
前記処理部は、電子文書データの更新間隔を前記抽出用パラメータとして用い、各電子文書データについて、直近の更新日時と直近の更新の1つ前の電子文書データの更新又は新規登録日時との間隔と求めるとともに前記間隔の平均値を求め、前記間隔が前記平均値と予め定められた時間以上異なる電子文書データを抽出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記記憶部は、前記抽出用データとして、各電子文書データの更新回数情報を記憶し、
前記処理部は、電子文書データの更新回数を前記抽出用パラメータとして用い、更新回数の平均値を求め、更新回数が前記平均値と予め定められた回数以上異なる電子文書データを抽出することを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
前記記憶部は、前記抽出用データとして、各電子文書データの登録時及び更新後のデータサイズを記憶し、
前記処理部は、電子文書データの更新前後のデータサイズ差を前記抽出用パラメータとして用い、各電子文書データについて、直近の更新後の電子文書データのデータサイズと直近の更新前の電子文書データのデータサイズとの前記データサイズ差を求めるとともに前記データサイズ差の平均値を求め、前記データサイズ差が前記平均値と予め定められたサイズ差以上異なる電子文書データを抽出することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
【請求項5】
前記予め定められた値は、前記抽出用パラメータを確率変数とし、前記抽出用パラメータの値の標準偏差をσとしたとき、2σ又は3σであることを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
【請求項6】
前記記憶部は、勤務時間帯を示す勤務時間帯データを記憶し、
前記処理部は、前記勤務時間帯データに基づき、更新日時又は新規登録日時が勤務時間帯外の電子文書データを抽出することを特徴とする請求項2乃至5の何れか1項に記載の情報処理装置。
【請求項7】
電子文書データのうち、抽出範囲の設定を受け付ける入力部を備え、
前記記憶部は、前記抽出用データとして電子文書データを生成した生成装置を示す生成元情報を記憶し、
前記処理部は、前記入力部で特定の前記生成装置が生成した電子文書データを抽出範囲とする設定がなされたとき、特定の前記生成装置が生成した電子文書データを対象として抽出処理を行うことを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
【請求項8】
前記記憶部は、前記抽出用データとして電子文書データのジョブ番号情報を記憶し、
前記入力部は、前記抽出範囲の設定として前記ジョブ番号を指定する入力を受け付け、
前記処理部は、前記入力部で指定された前記ジョブ番号の電子文書データを対象として抽出処理を行うことを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記記憶部は、前記抽出用データとして電子文書データが属する部門情報を記憶し、
前記入力部は、前記抽出範囲の設定として前記部門を指定する入力を受け付け、
前記処理部は、前記入力部で指定された前記部門に属する電子文書データを対象として抽出処理を行うことを特徴とする請求項7又は8に記載の情報処理装置。
【請求項10】
電子文書データを生成しデータ蓄積装置に記憶させる電子文書データを送信する生成装置と、情報処理装置と、前記情報処理装置から送信された電子文書データを記憶するデータ蓄積装置と、を含み、
前記情報処理装置は、
前記データ蓄積装置に記憶させる電子文書データを受信し、受信した電子文書データを前記データ蓄積装置に送信して記憶させる通信部と、
内蔵又は外付けされ、前記データ蓄積装置に記憶された各電子文書データへの改ざんを抽出して抽出するための抽出用データを記憶する記憶部と、
前記抽出用データに基づき、前記データ蓄積装置に記憶される電子文書データの中から電子文書データの抽出処理を行う処理部と、を含み、
前記処理部は、前記抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータの値の平均値を求め、前記抽出用パラメータ値が前記平均値と予め定められた値以上異なる電子文書データを抽出することを特徴とする電子文書データ処理システム。
【請求項11】
情報処理装置に、
各電子文書データへの改ざんを抽出して抽出するための前記抽出用データを取得させ、
前記抽出用データに基づき、データ蓄積装置に記憶される電子文書データの中から電子文書データの抽出処理を行わせ、
前記抽出処理では、前記抽出用データを用いて、改ざんの抽出条件として用いる抽出用パラメータの値の平均値を求めさせ、
前記抽出用パラメータ値が前記平均値と予め定められた値以上異なる電子文書データを抽出する前記平均値との差の絶対値が予め定められた値よりも大きい前記抽出用パラメータの値を有する電子文書データを抽出させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−212334(P2012−212334A)
【公開日】平成24年11月1日(2012.11.1)
【国際特許分類】
【出願番号】特願2011−77932(P2011−77932)
【出願日】平成23年3月31日(2011.3.31)
【出願人】(000006150)京セラドキュメントソリューションズ株式会社 (13,173)
【Fターム(参考)】