説明

類似画像検索機能を持つ情報漏えい抑止システム

【課題】 ジョブ実行データを蓄積し、追跡可能とする情報漏えい抑止システムにおいて、画像特徴量の抽出は、画像領域情報を抽出してから行なうが、領域情報の抽出は、一般的に文書画像のレイアウトや印刷条件に左右される。例えば、2つの画像が重なって配置されている場合などは、1つの大きな画像領域として認識される可能性がある。このような領域情報の誤認識の結果、画像特徴量の抽出および、類似画像検索の精度が低下するという問題があった。
【解決手段】 クライアントPC上のプリンタドライバにおいて収集、生成する文書画像や印刷実行環境情報に加え、文書データに含まれる画像領域情報を抽出し、合わせてサーバーへ送信する。サーバーではブロックセレクションなどの領域情報抽出処理を行なわず、プリンタドライバで抽出された領域情報を利用して特徴量抽出を行なう。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置および情報処理方法に関し、詳しくは、パーソナルコンピュータ等の情報処理装置とプリンタなどの印刷装置を有して構成されるシステムにおける特許である。特に、前記印刷装置から印刷された文書の内容を蓄積し追跡可能とすることで、情報漏えいを抑止するネットワーク印刷システムに関するものである。
【背景技術】
【0002】
近年、コンピュータ技術の発達やデジタル複合機の普及に伴い、原稿の印刷や複写、送信などの作業が容易に行なえるようになっている。このような利便性向上の反面、機密原稿の複写や送信といった情報漏えいの可能性が増加し、企業活動において情報管理が重要な問題となっている。このような情報漏えいへの対策として、プリンタ及びデジタル複合機の各ジョブを実行する際に、ジョブの実行情報(ジョブ実行時刻、ジョブ実行ユーザーなど)と、ジョブで扱った文書データを記憶装置に蓄積しておく情報漏えい抑止システムがある。このようなシステムでは、情報が漏えいした場合に蓄積された文書データを参照することで、その情報がいつ、どこで、どのような処理をされたか、などの情報を追跡でき、情報漏えいの原因究明が可能となる。
【0003】
蓄積したジョブデータを検索する手段は、大きく属性検索、全文検索、類似画像検索に分けられる。属性検索は、ジョブ実行情報に対して検索するものである。たとえば、ユーザー名を指定することで、そのユーザーが行ったジョブの履歴を参照することができる。全文検索は、文書内に含まれるテキストに対して検索するものである。たとえば、「印刷禁止」という文字列を指定することで、「印刷禁止」という文字列を含む文書を扱ったジョブの履歴を参照することができる。類似画像検索は、文書に含まれる画像に対して検索するものである。ある画像を指定することで、その画像に類似した画像を含む文書を扱ったジョブの履歴を参照することができる。一般に、類似しているかどうかは画像のエッジ情報、輝度情報などを比較することで判断する。
【0004】
属性やテキストに対する検索が文字列のマッチングを行なうのに対し、類似画像検索は画像の特徴のパターンマッチングを行なう。そのため、蓄積したジョブデータに含まれる画像に対して類似画像検索を行なうためには、ジョブデータに含まれる画像の特徴量を抽出しておく必要がある。大量のジョブデータを扱う情報漏えい抑止システムでは、各ユーザーが実行したジョブデータをサーバーに収集し、サーバーでの画像処理によって特徴量を抽出するのが一般的である。画像に対して画像領域を認識し、特徴量を抽出する方法して、特許文献1がある。
また、各ユーザーがジョブを実行した際にプリンタドライバで特徴量を抽出する手段として、特許文献2および特許文献3がある。
【特許文献1】特開2001−084274号公報
【特許文献2】特開平08−161467号公報
【特許文献3】特開平08−147446号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した従来の技術では、まず特許文献1に書かれている方法を情報漏えい抑止システムに適用した場合、大量のジョブデータに対してサーバーで画像処理を行なうため、サーバーの負荷が高くなり、システムのボトルネックとなる危険性がある。また、画像の色情報などに基づいて画像領域を判断するため、印刷条件や文書レイアウトに影響されやすいという問題がある。たとえば、近い位置に二つの画像が貼り付けられた文書データの場合、サーバーでの画像領域抽出処理によって、二つの画像が一つの大きな画像と誤認識される可能性もある。そのため、画像の特徴量を正確に抽出することができず、類似画像検索の精度低下につながる。
【0006】
それに対し、特許文献2および特許文献3では、ユーザーが印刷実行した際に、プリンタドライバにて特徴量抽出することにより、サーバーの負荷を低減することができる。また、プリンタドライバで描画情報を認識しているため、二つの画像を一つの大きな画像と誤認識する恐れもない。しかし、これら2つの特許文献はいずれも、プリンタドライバ内で抽出した検索用キーワードを画像の特徴量と考え、それを画像と共にデータベースへ格納している。これはすなわち、属性検索を実現する方法であり、類似画像検索を実現することができない。そもそも、プリンタドライバはGDI(Graphic Device Interface)などの描画情報を認識するものであり、画像の特徴を表すエッジや輝度といった情報は認識することができない。
【課題を解決するための手段】
【0007】
プリンタで印刷した文書データを蓄積することで、追跡可能とする情報漏えい抑止システムであって、文書データ印刷時に文書データ内画像の領域情報を抽出する第一領域情報抽出手段と、文書データから追跡用ジョブデータを抽出するジョブデータ抽出手段と、前記第一領域情報抽出手段で抽出された領域情報と前記ジョブデータ抽出手段によって抽出された追跡用ジョブデータをサーバーへ送信するジョブデータ送信手段と、領域情報に基づいてジョブデータの画像から画像特徴量を抽出する特徴量抽出手段と、前記ジョブデータ抽出手段によって得られたジョブデータと前記特徴量抽出手段によって得られた画像特徴量を関連付けて蓄積するジョブデータ蓄積手段と、前記ジョブデータ蓄積手段によって蓄積されたジョブデータの中から、ジョブデータを検索するジョブデータ検索手段と、前記ジョブデータ検索手段の結果をユーザーに提示する検索結果表示手段と、を有することを特徴とする。
【発明の効果】
【0008】
本発明は、上記のような構成を有することで、精度の良い特徴量抽出を実現することができる。その結果、情報漏えい抑止システムが蓄積したジョブデータの画像に対する類似画像検索の精度を高める効果がある。
【0009】
また、サーバーでの領域情報抽出処理が不要となるため、画像処理の負荷が低減され、システムのスループットが向上する。
【発明を実施するための最良の形態】
【0010】
以下、本発明の実施の形態に係る情報漏えい抑止システムに関する実施形態について説明する。
【0011】
図1は、本実施形態におけるシステム構成図を示す。図示するように、LANなどのネットワーク101を介して、各構成要素が相互に接続されている。クライアントPC102は、ユーザーの印刷指示に応じてジョブデータをデータ処理サーバー103へ送信する。また、クライアントPC102は、印刷指示に応じて印刷情報をプリンタ104やデジタル複合機105へ送信する。プリンタ104やデジタル複合機105は、クライアントPC102から受信した印刷情報にしたがって、印刷を実行する。データ処理サーバー103は、クライアントPC102から受信したジョブデータに対して、画像の特徴量抽出やOCRなどの処理を行い、印刷された文書データを検索可能な情報と合わせてアーカイブサーバー106へ送信する。同様に、デジタル複合機105で行なわれたコピー、スキャン、Sendなどの各入出力ジョブデータは、データ処理サーバー103へ送信され、データ処理を行なった後にアーカイブサーバー106に送信される。アーカイブサーバー106は、データ処理サーバー103から受信したジョブデータを蓄積する。検索サーバー107は、検索クライアント108からクエリー画像や検索条件を受信し、クエリー画像に対しては画像領域抽出処理や特徴量抽出処理を行なう。そして、クエリー画像の特徴量と検索条件に基づいて、アーカイブサーバー106に蓄積されたジョブデータの中から、検索条件を満たし、かつクエリー画像と類似した文書画像を検索する。検索クライアント108は、ユーザーが指定したクエリー画像や検索条件を検索サーバー107へ送信して検索指示を出し、算出された類似度に応じた検索結果をーに表示する。
【0012】
図2は、本実施形態における図1のクライアントPC102、データ処理サーバー103、アーカイブサーバー106、検索サーバー107および検索クライアント108のハードウェア構成を示すブロック図である。いずれもIBM−PC/AT互換機などの汎用PCなので同じブロック図としている。なお、本発明の機能が実行されるのであれば、単体の機器であっても、複数の機器からなるシステムであっても、LANやWAN等のネットワークを介して接続され、処理が行われるシステムであっても本発明を適用できる。
【0013】
CPU201は、内部バスで接続されるRAMやHDDを制御し、本発明を実現するためのプログラムを実行する。ROM202は、BIOSなどの基本ソフトウェアを格納している。RAM203は、CPU201のワークスペースや、本発明を実現するためのプログラムを読み込むための一時記憶領域として利用される。HDD204は、前記プログラムをファイルとして格納してある。また、アーカイブサーバー106においては、ジョブデータを蓄積するデータベースを備える。入力装置205は、前記プログラムの中で操作画面を持つものを操作する機能を備える。モニタ206は、前記操作やプログラムの動作を確認するのため表示機能を備える。ネットワークインタフェース207は、ネットワークに接続するための機能を備える。
【0014】
システムで動作するアプリケーションやサービスはHDD204に格納されており、実行時にはRAM203上にロードされ、CPU201の制御のもと実行される。
【0015】
図3は、図1に示したクライアントPC102における印刷処理のための一構成を示す図である。アプリケーション301、グラフィックエンジン302、プリンタドライバ303、およびシステムスプーラ304は、HDD204に保存されたファイルとして存在する。これらプログラムモジュールは、RAM203にロードされて実行される。
【0016】
アプリケーション301からプリンタ104やデジタル複合機105に対して印刷を行なう際には、グラフィックエンジン302を利用して出力(描画)を行なう。
【0017】
グラフィックエンジン302は、プリンタなどの印刷装置ごとに用意されたプリンタドライバ303をHDD204からRAM203にロードし、アプリケーション301の出力をプリンタドライバ303に設定する。また、グラフィックエンジン302はアプリケーション301から受け取るGDI関数をDDI(Device Driver Interface)関数に変換して、プリンタドライバ303へ出力する。
【0018】
プリンタドライバ303は、グラフィックエンジン302から受け取ったDDI関数に基づいて、プリンタが認識可能な制御コマンド、例えばPDL(Page Description Language)に変換する。変換されたプリンタ制御コマンドは、OSによってRAM203にロードされたシステムスプーラ304を経て、プリンタ104やデジタル複合機105へ印刷データとして出力される。
【0019】
本実施形態の印刷システムは、プリンタドライバ303内にジョブ追跡機能部305を有する。ジョブ追跡機能部305はプリンタドライバ303のビルドインモジュールであってもよいし、個別のインストーレーションによって追加されるライブラリモジュールの形式であっても構わない。また、プリンタドライバ303は、ジョブ追跡機能部305の実行により、追跡用データの抽出・生成を行い、ジョブ追跡管理部306へ送る。
【0020】
ジョブ追跡管理部306は追跡用データを受け取り、これをデータ処理サーバー103へ転送する。尚、ジョブ追跡管理部306は受け取った追跡用データを必要に応じて加工したり、選別したりしてもよく、また更に、追跡用データを受け取ると同時にデータ処理サーバー103へ送信したり、一時的にハードディスク等の記憶領域内に貯め置きし、別途指定される送信スケジュールに従いデータ処理サーバー103へ送信しても良い。
【0021】
また、データ処理サーバー103での処理が不要であれば、直接アーカイブサーバー106へ送信しても良い。
【0022】
図4は、プリンタドライバの処理を示すフローチャートである。印刷ジョブが開始された後、ステップS401でプリンタドライバ303はGDIから描画命令(DDIコマンド)を受信する。ステップS402で、プリンタドライバ303とジョブ追跡機能部305は受信した描画命令に呼応した追跡用データの収集や生成を行なう。
【0023】
より詳しくは、例えば、受信した描画命令が印刷開始命令であればジョブに関する属性情報や印刷が行われている環境情報などを追跡用データとし、ページ開始命令であればそのページに関する属性情報等を追跡用データとする。
【0024】
また、ジョブ追跡機能部305に対して、テキスト情報の抽出とページイメージ抽出が指示できる。ジョブ追跡機能部に対305してテキスト情報の抽出が指示されている場合、テキスト描画コマンドから文字列情報など抽出し追跡用データとし、同じくイメージ抽出が指示されているのであれば、各描画命令を確保してあるメモリ領域等にビットマップイメージとして描く。
【0025】
さらに本発明では、ジョブ追跡機能部305において文書に含まれる画像の領域情報を抽出し、ジョブ追跡管理部306へと転送する。この領域情報は、追跡用データとなるのではなく、データ処理サーバー103において画像の特徴量を抽出するために使用されるものである。
【0026】
上記のようにジョブ追跡機能部305で収集・生成されたジョブデータは、ジョブ追跡管理部306へと転送される。
【0027】
ステップS403では、ステップS401で受信した描画命令に合致する印刷データ(プリンタ104やデジタル複合機105が認知可能な制御コマンド)の生成を行なう。そして、この印刷データシステムスプーラ304へ書き出し、プリンタ104やデジタル複合機105へ転送する。
【0028】
このようにして、描画コマンドの受信(S401)、追跡用データの生成・送信(S402)、印刷データ生成・転送(S403)の各処理をジョブ終了命令が処理されるまで繰り返し実行する。(ステップS404)
図5は、本実施形態におけるデータ処理サーバー103での画像特徴量登録のフローチャートである。ステップS501では、クライアントPC102(より詳しくは、ジョブ追跡管理部306)からジョブデータを受信する。
【0029】
ステップS502では、ジョブデータ内に含まれる領域情報が特徴量抽出に有効かどうかを判断する。判断の方法としては、あらかじめアプリケーションを指定しておき、指定されたアプリケーションから印刷したジョブデータに対しては領域情報が有効であると判断する方法がある。またさらには、あらかじめファイルの種類を指定しておき、指定された種類のファイルを印刷したジョブデータに対しては領域情報が有効であると判断する方法がある。またさらには、ジョブデータに文書のサイズを保持しておき、領域情報のサイズが文書のサイズと同一の場合には領域情報が無効であると判断し、データ処理サーバーで改めて領域情報抽出処理を行なう方法がある。
【0030】
ステップS503では、ステップS502において領域情報が無効であると判断された場合に、データ処理サーバーで改めて領域情報抽出処理を行なう。より詳しくは、ブロックセレクションなどの領域情報抽出アルゴリズムを文書画像に適用し、文書画像に含まれる領域情報を抽出する。ブロックセレクションとは、入力された画像を解析して、文字領域、線画領域、自然画(イメージ)領域、表領域などの、属性毎の領域に分割して領域情報を抽出する処理である。本発明においては、ブロックセレクションに限らず公知の領域抽出方法であればどのような方法であってもよい。
【0031】
ステップS504では、クライアントPC102から受信したジョブデータ中の領域情報、あるいはステップS503で抽出した領域情報を用いて、画像の特徴量抽出を行なう。
【0032】
ステップS505では、ステップ504で抽出された画像特徴量を、アーカイブサーバー106に送信し、格納する。
【0033】
図6は、領域情報抽出の一例を示す説明図である。文書データ601のように、複数の画像や図形が重なっている場合について説明する。文書データ601では、自動車の画像と人物の画像が重なって配置されていると考えられる。データ処理サーバー103に送信される画像に対して画像領域抽出処理を行なった場合、領域情報は領域602にように1つの領域として得られる。それに対し、プリンタドライバで領域情報を抽出した場合は、領域603および領域604のように重なっていても別の領域として抽出することができる。
【0034】
画像特徴量の抽出処理は、領域情報に対して行なうため、領域602のように複数の画像、図形が1つの領域として誤認識されてしまうと、特徴量も誤って抽出されてしまうため、画像検索の精度が低下してしまう恐れがある。本発明では、プリンタドライバで領域情報を抽出するため、幾何学的なアルゴリズムの適用による領域情報の誤認識を避けることができる。
【0035】
検索においてもプリンタドライバと同様の領域情報抽出処理を適用することができる。ユーザーがクエリー画像として文書データ601を選択した場合、領域情報抽出処理によって領域603および領域604を抽出する。その中からユーザーが選択した領域の画像をクエリー画像として類似画像検索を行なうことで、検索精度が向上される。ユーザーが選択したファイルが画像やテキストから構成される文書データではなく、601のようなレイアウトの一枚の画像データであった場合は、従来どおりブロックセレクションなどの処理により、領域602を抽出し、その領域の画像をクエリー画像として類似画像検索を行なう。
【図面の簡単な説明】
【0036】
【図1】本発明の実施形態に係るシステム構成図
【図2】本発明の実施形態に係るクライアントPC102、データ処理サーバー103、アーカイブサーバー106、検索サーバ−107および検索クライアント108の構成を示すブロック図
【図3】クライアントPC102における印刷処理のための一構成を示す図
【図4】プリンタドライバの処理を示すフローチャート
【図5】データ処理サーバー103での画像特徴量登録のフローチャート
【図6】領域情報抽出の一例を示す説明図
【符号の説明】
【0037】
101 ネットワーク
102 クライアントPC
103 データ処理サーバー
104 プリンタ
105 デジタル複合機
106 アーカイブサーバー
107 検索サーバー
108 検索クライアント
201 CPU
202 ROM
203 RAM
204 HDD
205 入力装置
206 モニタ
207 ネットワークインタフェース

【特許請求の範囲】
【請求項1】
プリンタで印刷した文書データを蓄積することで、追跡可能とする情報漏えい抑止システムであって、
文書データ印刷時に文書データ内画像の領域情報を抽出する第一領域情報抽出手段と、
文書データから追跡用ジョブデータを抽出するジョブデータ抽出手段と、
前記第一領域情報抽出手段で抽出された領域情報と前記ジョブデータ抽出手段によって抽出された追跡用ジョブデータをサーバーへ送信するジョブデータ送信手段と、
領域情報に基づいてジョブデータの画像から画像特徴量を抽出する特徴量抽出手段と、
前記ジョブデータ抽出手段によって得られたジョブデータと前記特徴量抽出手段によって得られた画像特徴量を関連付けて蓄積するジョブデータ蓄積手段と、
前記ジョブデータ蓄積手段によって蓄積されたジョブデータの中から、ジョブデータを検索するジョブデータ検索手段と、
前記ジョブデータ検索手段の結果をユーザーに提示する検索結果表示手段と、
を有することを特徴とする情報漏えい抑止システム。
【請求項2】
前記ジョブデータ抽出手段によって得られる追跡用ジョブデータは、文書データを画像化した文書画像データと、文書データに含まれるテキストデータと、印刷実行環境データと、
から構成されることを特徴とする請求項1に記載の情報漏えい抑止システム。
【請求項3】
前記特徴量抽出手段は、前記第一領域情報抽出手段によって抽出された領域情報が有効であるかを判断する領域情報有効性判断手段と、
前記領域情報有効性判断手段が有効でないと判断した場合にあらためて領域情報を抽出する第二領域情報抽出手段と、
前記第一領域情報抽出手段または前記第二領域情報抽出手段によって抽出された領域情報に対して、画像の特徴量を抽出する特徴量抽出手段と、
を有することを特徴とする請求項1に記載の情報漏えい抑止システム。
【請求項4】
請求項3に記載の領域情報有効性判断手段は、印刷を実行したアプリケーションの種類に応じて判断することを特徴とする情報漏えい抑止システム。
【請求項5】
請求項3に記載の判断手段は、印刷された文書ファイルの種類に基づいて判断することを特徴とする情報漏えい抑止システム。
【請求項6】
請求項3に記載の判断手段は、前記領域情報と文書データの大きさを比較することにより判断することを特徴とする情報漏えい抑止システム。
【請求項7】
前記ジョブデータ検索手段は、文書に含まれる文字列を検索対象とする全文検索手段と、
前記印刷実行環境データを検索対象とする属性検索手段と、
文書画像データを検索対象とする類似画像検索手段と、
上記3つの検索手段の少なくとも1つ以上組み合わせて検索する複合検索手段と、
を有することを特徴とする請求項1に記載の情報漏えい抑止システム。
【請求項8】
前記類似画像検索手段は、ユーザーが検索条件とするクエリー画像指定手段と、
前記クエリー画像指定手段で指定されたクエリー画像の特徴量を抽出するクエリー画像特徴量抽出手段と、
前記クエリー画像特徴量抽出手段によって得られたクエリー画像の特徴量を、前記蓄積手段に蓄積されているジョブデータの画像特徴量と比較し、類似度を算出する類似度算出手段と、
前記類似度算出手段によって得られた類似度が高いジョブデータを検索結果の上位とする検索結果算出手段と、
を有することを特徴とする請求項1に記載の情報漏えい抑止システム。
【請求項9】
前記クエリー画像指定手段は、ユーザーがクエリー画像を含む文書データを指定するための文書データ指定手段と、
前記文書データ指定手段で指定された文書データに含まれる画像の領域情報を抽出する第三領域情報抽出手段と、
前記第三領域情報抽出手段によって抽出された領域情報をユーザーに提示する領域情報提示手段と、
前記領域情報提示手段で示された領域情報をユーザーが選択するためのクエリー画像領域選択手段と、
を有することを特徴とする請求項8に記載の情報漏えい抑止システム。
【請求項10】
請求項9に記載の第三領域情報抽出手段は、第一領域情報抽出手段と同一の処理を行なうことを特徴とする情報漏えい抑止システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2008−299401(P2008−299401A)
【公開日】平成20年12月11日(2008.12.11)
【国際特許分類】
【出願番号】特願2007−142039(P2007−142039)
【出願日】平成19年5月29日(2007.5.29)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】