画像処理装置、画像処理方法およびプログラム
【課題】 必要箇所を確実にマスキングし、情報機密性を向上させることができる画像処理装置を提供する。
【解決手段】 この画像処理装置は、表示装置へ送信され表示される前の表示データを取得するデータ取得部202と、取得した表示データが画像データであるかを判定するデータ判定部203と、画像データである場合に該画像データに含まれる文字画像の文字認識を行う文字認識処理部204と、キーワードとマスキングすべき箇所とを対応付けて格納するマスキング辞書を用い、取得したテキストデータまたは文字認識された結果データの中にキーワードに一致するものを検索し、マスキングすべき箇所を特定するキーワード検索部205と、特定された箇所に対しマスキング処理するマスキング処理部207と、マスキング処理により生成されたテキストデータまたは画像データを表示データとして表示装置へ出力するデータ出力部208とを含む。
【解決手段】 この画像処理装置は、表示装置へ送信され表示される前の表示データを取得するデータ取得部202と、取得した表示データが画像データであるかを判定するデータ判定部203と、画像データである場合に該画像データに含まれる文字画像の文字認識を行う文字認識処理部204と、キーワードとマスキングすべき箇所とを対応付けて格納するマスキング辞書を用い、取得したテキストデータまたは文字認識された結果データの中にキーワードに一致するものを検索し、マスキングすべき箇所を特定するキーワード検索部205と、特定された箇所に対しマスキング処理するマスキング処理部207と、マスキング処理により生成されたテキストデータまたは画像データを表示データとして表示装置へ出力するデータ出力部208とを含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表示装置に表示させる前に表示データを取得し、マスキングが必要な箇所を見つけ、その箇所を塗りつぶす等のマスキング処理を行い、表示装置へ出力することにより、情報機密性を向上させることができる画像処理装置、その方法およびその方法を実現するためのコンピュータ可読なプログラムに関する。
【背景技術】
【0002】
画面UI(User Interface)の文字列、エディタやワープロ等のテキストデータ、スキャナやCCD(Charge Coupled Device)カメラといった画像読取装置により読み取った文書画像データ等の各種情報をディスプレイ等の表示装置に表示し、利用者がその表示された情報に基づいて閲覧や編集を行うために、画像処理装置が利用されている。
【0003】
画像読取装置から入力された画像データを外部に配布する場合において、その画像データに、他人には見られたくない情報が含まれているとき、その情報をマスキングして秘匿することが行われている。例えば、画像データ上に電子的にマスキング機能をもったオブジェクトを配置し、編集途中のデータではマスキングオブジェクト下にある画像データを確認する形で記録しておき、それをプリンタ等の出力装置で出力する際、マスキングオブジェクト下にある画像データを確認することができないようにする画像処理プログラムを実装した構成が知られている(特許文献1参照)。
【0004】
この特許文献1では、画像処理プログラムの実行により、データ記録媒体から画像データを読み込み、メモリ上に描画し、その一方で入力デバイスから図形オブジェクトを読み込み、ディスプレイ上に出力するときは、図形オブジェクトが有するマスクパターンの機能に従ってメモリ上の画像データに描画し、プリンタに出力するときは、図形オブジェクトが有する特徴通りにメモリ上の画像データに描画する。これにより、編集途中ではディスプレイ上にマスキング処理されて隠れている情報を確認することができ、外部配布用にプリンタに出力されたものは、情報を確認できないようにすることができる。
【0005】
また、個人情報の各項目と画像データに含まれる個人情報の座標位置とを対応付けて保持し、選択された項目に応じてその画像データにマスキング処理などの画像処理を施す画像処理部と、画像処理された画像データを印字出力する画像形成部とを備える画像処理装置が提案されている(特許文献2参照)。このように各個人情報の座標位置を保持し、コピーする際、見せたくない個人情報にマスキング処理等を施すことにより、所望の情報のみを選択的に出力できるようにすることができる。
【0006】
また、PDL(Page Description Language)データの画像を表示装置にプレビュー表示し、そのプレビュー表示された画像のうちユーザ選択された領域をマスキング領域に設定し、ユーザ入力された日時を設定されたマスキング領域をマスキングする有効期限として設定し、設定されたマスキング領域中の画像をマスキング対象画像として切り出し、この切り出したマスキング対象画像を暗号化して暗号画像を作成し、これを、有効期限を表現する有効期限画像と合成したマスキング画像を生成し、このマスキング画像がPDLデータの画像中のマスキング領域にはめ込まれた画像を印刷し、マスキング原稿を提供する装置や方法が提案されている(特許文献3参照)。これにより、一部領域が、有効期限が設定された状態でマスキング処理された電子文書とその印刷物の融合を容易にすることができる。
【0007】
画面上の情報を画像として扱い、光学的な文字認識技術を用いて空白にしたり、モザイクをかけたりする必要のある部分を判定する構成が提案されている(非特許文献1参照)。従来の隠ぺい方法とは異なり、ソフトウェアを修正したり、データを改変することなく、情報が画面に表示する前に情報にフィルタをかけることができ、また、隠ぺいすべき部分はユーザが変更することができるようにされている。これにより、提供先別に表示項目を修正したデータを用意するといった手間を省くことができる。
【発明の概要】
【発明が解決しようとする課題】
【0008】
上記の特許文献1に記載された発明では、見られたくない情報をマスキングすることができるが、ディスプレイ等の表示装置に表示する前の段階で、マスキングすべき箇所の設定漏れ等により、マスキングされずに表示されてしまい、機密情報が漏洩してしまうという問題がある。
【0009】
また、上記の特許文献2も、見られたくない情報をマスキングすることができるが、マスキング指定を手動で行っているため、かなり手間がかかるという問題がある。
【0010】
上記の特許文献3も同様に、見られたくない情報をマスキングすることができるが、マスキング指定について座標データが予め決められているため、定形外のデータが来た場合、対応することができないという問題がある。
【0011】
上記の非特許文献1では、ディスプレイに表示された情報を画像として扱うため、テキストデータであっても文字認識を行う必要があり、認識精度には限界があるため、誤認識により正しくマスキングされない可能性がある。
【課題を解決するための手段】
【0012】
本発明は、上記課題に鑑みなされたものであり、画面UIの文字列、エディタやワープロ等のテキストデータ、スキャナやCCDカメラ等で読み込んだ文書画像データ等の各種情報をディスプレイ等の表示装置に表示させる前に、例えば一定間隔で画面を取り込み、文字列やテキストデータはそのまま文字として扱い、画像データのみ文字認識を行い、その認識結果の文字データ、文字列、テキストデータからマスキングが必要なキーワードを見つけ、マスキング辞書を参照して必要な箇所を画面上で塗りつぶすという構成を採用する。
【0013】
このように、表示装置の画面に表示される表示データを、表示される前に取得し、画面UIの文字列やテキストデータはそのまま用い、画像データのみ文字認識を行い、マスキング辞書を参照して必要な箇所にマスキング処理を施し出力するため、マスキングし忘れによる情報漏洩を防止することができ、自動でマスキング指定を行うことができ、テキストデータ等は文字認識が不要であるため誤認識を減少させ、より確実にマスキングすることができる。
【0014】
本発明では、これらを実現するための画像処理装置、画像処理方法およびその方法を実現するためのコンピュータ可読なプログラムを提供することができる。
【0015】
本発明の画像処理装置は、表示データを処理して表示させる装置であり、表示装置へ送信され表示される前の表示データを取得するデータ取得部と、取得した表示データが画像データであるかテキストデータであるかを判定するデータ判定部と、表示データが画像データである場合に、該画像データに含まれる文字画像の文字認識を行う文字認識処理部と、キーワードとマスキングすべき箇所とを対応付けて格納するマスキング辞書を用い、取得したテキストデータまたは文字認識処理部により文字認識された結果データの中に、キーワードに一致するものを検索し、該テキストデータまたは該文字認識された結果データの中のマスキングすべき箇所を特定するキーワード検索部と、取得したテキストデータまたは画像データの特定された箇所に対しマスキング処理するマスキング処理部と、マスキング処理により生成されたテキストデータまたは画像データを表示データとして表示装置へ出力するデータ出力部とを含む。
【0016】
データ取得部は、取得する表示データに応じてフラグを設定し、データ判定部は、表示データに設定されたフラグに応じて画像データであるかテキストデータであるかを判定することができる。データ取得部は、画面をキャプチャするか、描画命令を出力するテキストデータやUIの文字列等を横取りし、表示データを取得する。このとき、画面をキャプチャして取得した表示データは画像データとして蓄積され、テキストデータやUIの文字列等はテキストデータとして蓄積され、それぞれに異なる値のフラグが設定される。
【0017】
また、データ取得部は、一定間隔で表示データを取得し、もしくはユーザ操作があったことに応答して表示データを取得し、または画面切り替えが発生したことに応答して表示データを取得する。このような条件に応じて表示データを取得することにより、途中で機密情報を含む表示データが表示装置へ送信された場合においても、また、ユーザ操作により機密情報を含む表示データが表示装置へ送信された場合においても、さらには、画面切り替えにより機密情報を含む表示データが表示装置へ送信された場合においても、確実にその機密情報をマスキングし、他人に見られないようにして表示装置に表示させることができる。
【0018】
文字認識処理部は、文字の領域を抽出し、予め作成された文字パターン辞書の各文字画像と照合して、文字を識別することにより結果データとしてのテキストデータへ変換する。
【0019】
マスキング辞書は、さらに、表示データを表示させるのに使用されるアプリケーションのアプリケーション名と、マスキングすべき箇所に含まれる文字の文字種とを含む。このため、使用されるアプリケーションや文字種を判断してマスキング処理することが可能である。
【0020】
マスキング辞書は、さらに、キーワードおよび文字種に対応する文字画像データを含み、
キーワード検索部は、画像データに含まれる文字画像と、マスキング辞書に含まれる文字画像とのマッチング処理を行い、マスキングすべき箇所を探し出すことができる。
【0021】
マスキング処理部は、ユーザが設定したセキュリティレベルを参照し、そのセキュリティレベルに応じて、マスキングすべき箇所を、低コントラスト、ぼかし、格子線の追加、塗りつぶし、モザイクのいずれかで表示されるようにマスキング処理を行うことができる。データ出力部は、表示装置に代えて、または表示装置とともに印刷装置へマスキング処理により生成されたテキストデータまたは画像データを出力することができ、ユーザ設定により、印刷不可とすることもできる。
【0022】
本発明の画像処理方法は、上記の画像処理装置が備える各部により実行される処理を処理ステップとして含み、プログラムは、この処理ステップをコンピュータに実行させるものとして構成することができる。
【図面の簡単な説明】
【0023】
【図1】本実施形態の画像処理装置のハードウェア構成を示した図。
【図2】画像処理装置の機能ブロック図。
【図3】画像処理装置が行う画像処理の第1実施形態を示したフローチャート。
【図4】マスキング辞書の第1実施形態を示した図。
【図5】画像処理装置が行う画像処理の第2実施形態を示したフローチャート。
【図6】マスキング辞書の第2実施形態を示した図。
【図7】表示データの1つの例を示した図。
【図8】マッチング処理を行っているところを例示した図。
【図9】表示データの別の例を示した図。
【図10】図9に示す表示データにマスキング処理を施した図。
【図11】セキュリティレベルに応じてマスキング処理を施した文字列を例示した図。
【発明を実施するための形態】
【0024】
図1は、本実施形態の画像処理装置のハードウェア構成を示した図である。画像処理装置100は、原稿等を読み取るスキャナ部101と、撮像して画像データを取得する撮像手段102と、装置全体の制御を行うCPU103と、読み取った画像データや撮像して取得した画像データ等を表示させるために記憶する表示データメモリ部104と、それら画像データを蓄積したり、他の装置から取得した画像データ等を記録したり、CPU103が実行するプログラムを格納するCD−ROM、DVD、メモリカード106やHDD107といった外部記憶部105と、マスキング処理を施したり、その他の画像処理を行う画像処理部108と、インターネット等のネットワーク110と接続し、ネットワーク110との間の通信を制御する通信制御部109と、マスキング処理やその他の画像処理が施された画像データを表示する表示部111とを含んで構成されている。なお、これら各部は、データを伝送するためのバス112により互いに接続され、互いにデータのやりとりを行うことができるようにされている。
【0025】
スキャナ部101は、読み取る対象の原稿に光を照射する光源と、その原稿に反射した光あるいは透過した光を読み取り、電気信号へ変換するCCDと、アナログデータである電気信号をデジタルデータへ変換するA/Dコンバータとを含んで構成される。
【0026】
撮像手段102は、例えば、デジタルカメラを挙げることができ、その構成は、集光するレンズ、光量を決定する絞り、光を検出する光学センサといった撮像素子、決定された時間に限って撮像素子に光を当てるシャッター、撮像対象を確認するためのファインダーを備えるものとされる。撮像素子としては、CCDやCMOSが用いられる。撮像手段102は、さらに、撮像素子から出力されたアナログデータをA/D変換するA/Dコンバータを備え、また、補間演算、色空間変換、ガンマ補正、収差の補正、ノイズリダクション、画像圧縮等の画像処理を行い、PC等による利用が可能な画像形式、例えばExif(Exchangeable image file format)形式やRAW画像として記録媒体に記録する画像エンジンを備える。ここで、Exif形式とは、コンピュータ等で扱われる静止画像のデジタルデータを圧縮する方式の1つであるJPEG(Joint Photographic Experts Group)の拡張規格であり、画像メタデータのフォーマットである。
【0027】
表示データメモリ部104は、テキストやUIデータ等の表示データや、上記のスキャナ部101や撮像手段102により取得した表示データを記憶する。
【0028】
画像処理部108は、表示部111に表示させる表示データにマスキングをかける処理を施し、また、色補正を施したり、所定の形式に変換する等の画像処理を行う。
【0029】
図2は、画像処理装置の機能ブロック図である。画像処理装置は、図1に示すハードウェア構成とされるが、外部記憶部105が記憶するプログラムをCPU103が実行し、また、画像処理部108が画像処理を行うことにより、図2に示す各部として機能させることができる。
【0030】
この画像処理装置は、機密情報の漏洩を防止すべく、機密情報の部分をマスキングし、出力する装置であり、UI提供部201と、データ取得部202と、データ判定部203と、文字認識処理部204と、キーワード検索部205と、マスキング辞書保管部206と、マスキング処理部207と、データ出力部208とを含んで構成されている。また、画像処理装置は、表示データを保管するための図示しないデータ保管部を備えることができる。
【0031】
UI提供部201は、Windows(登録商標)系統のウィンドウをはじめとするオブジェクトやテキストデータ等のUIデータを提供する。
【0032】
データ取得部202は、表示装置である表示部111へ送信される表示データであって、表示部111に表示される前のデータを取得する。表示された後にマスキングしても機密情報の漏洩を防止できないからである。表示データは、表示部111に表示するためのデータであって、スキャナ部101により読み取られた画像データや撮像手段102から取得した画像データ、描画命令を出力するテキストデータ、UI提供部201が提供するUIデータ等が挙げられる。
【0033】
このデータ取得部202は、画面をキャプチャするか、テキストデータやUIデータを横取りして、表示データを取得することから、画面をキャプチャして取得したデータは画像データと識別し、テキストデータやUIデータはテキストデータと識別する。このようにして識別されたデータは、例えばフラグを設定し、それらを判別することを可能にすることができる。フラグは1ビットで表現され、画像データを1、テキストデータを0といった数値で設定することができる。
【0034】
また、このデータ取得部202は、表示データを、一定間隔で取得したり、ユーザ操作(例えばボタンの押下)があったことに応答して取得したり、画面切り替えが発生したことに応答して取得することができ、次の画面が表示される前にマスキングを行い、確実に機密情報の漏洩を防止することができる。
【0035】
データ判定部203は、データ取得部202が取得した表示データが、画像データであるか、テキストデータであるかを判定する。この判定は、表示データに設定されたフラグを読み出し、そのフラグの値により判定することができる。
【0036】
文字認識処理部204は、データ判定部203で画像データと判定された表示データを受け取り、その表示データである画像データに含まれる文字を表す文字画像の文字認識を行う。文字認識の方法は、これまでに知られたいかなる方法でも採用することができるが、例えば、各字の文字パターンを文字パターン辞書として用意しておき、その文字パターンとマッチング処理を行うことにより文字認識を行うことができる。
【0037】
マスキング辞書保管部206は、キーワードとマスキングすべき箇所とを対応付けて格納するマスキング辞書を保管する。キーワードは、文字列からなる単語であり、機密情報となる氏名、住所、電話番号、携帯番号、生年月日、性別、会社名、所属等が挙げられる。マスキングとは、文字や画像上をカバーで覆うことをいい、具体的には、文字例を塗りつぶし見えなくすること等をいう。マスキングすべき箇所は、キーワードと同じ行の右側、キーワードと同じ列の下側、キーワードと同じ行の右側のセル等である。したがって、キーワードとして住所が設定され、マスキングすべき箇所として同じ行の右側が設定されている場合、マスキングすべき箇所は、「住所 A市B町C」と記載されていれば、キーワードである「住所」の同じ行の右側にある「A市B町C」の部分を意味する。このようにして機密情報を見えなくし、その情報の漏洩を防止する。
【0038】
キーワード検索部205は、このマスキング辞書を用い、取得したテキストデータまたは文字認識処理部204により文字認識された結果データの中に、キーワードに一致するものを検索する。そして、そのテキストデータまたは文字認識された結果データの中のマスキングすべき箇所を特定する。
【0039】
また、キーワード検索部205は、表示データが画像データである場合、画像データにより生成される文字画像と、マスキング辞書に含まれる文字画像データにより生成される文字画像とのマッチング処理を行い、マスキングすべき箇所を探し出す。このため、マスキング辞書は、文字画像データもキーワードと対応付けて格納することができる。
【0040】
マスキング処理部207は、キーワード検索部205により特定されたマスキングすべき箇所を、設定したマスキング方法によりマスキングを行う。ユーザは、セキュリティレベルを設定することができ、そのセキュリティレベルに応じて、マスキングすべき箇所を、低コントラストにしたり、ぼかしを入れたり、格子線を追加したり、塗りつぶしたり、モザイクをかけたりすることができる。なお、マスキング処理は、マスキングすべき箇所として特定された文字列や数字列等のすべてに対して行われるようになされる。
【0041】
マスキング辞書は、さらに、表示データを表示するために使用されるアプリケーションのアプリケーション名や、マスキングすべき箇所にある文字列の文字種等もキーワードに対応付けて格納することができる。これにより、マスキング処理部207が、使用されるアプリケーションを判断し、また、文字種を判断して適合した場合にマスキングを行うことができる。
【0042】
データ出力部208は、マスキング処理部207によりマスキング処理により生成されたテキストデータまたは画像データである表示データを表示部111へ出力し、表示させる。このデータ出力部208は、表示部111のほか、印刷装置へ出力することもでき、マスキング処理したデータを印刷出力することも可能である。また、セキュリティレベル等の設定により、その設定に応じて、印刷出力したり、印刷不可とすることも可能である。
【0043】
図3は、画像処理装置が行う画像処理の第1実施形態を示したフローチャートである。このフローチャートを参照して、画像処理の流れについて説明する。画像処理は、ステップ300から開始し、まず、ステップ310で、表示データを取得する。
【0044】
ここで、表示データを取得する方法の例を詳細に説明する。取得する条件は、例えば、一定期間ごと、特定の操作をしたとき、画面の切り替えがあったとき、に取得することができる。一定期間としては、例えば10〜100ミリ秒という間隔で画面をキャプチャすることが挙げられる。特定の操作をしたときとしては、ボタンが押下されたときや、閲覧しようとする操作をしたときが挙げられる。画面の切り替えがあったときとしては、表示用画面が変遷したときが挙げられる。
【0045】
このような条件が発生した場合に、画面をキャプチャしたり、描画命令を出すテキストデータやUIの文字列等を横取りして、表示データを取得することができる。画面をキャプチャした場合、そのデータは画像データとして蓄積される。また、テキストデータ等を横取りして取得した場合は、テキストデータ、UIの文字列等がテキストデータとして蓄積される。
【0046】
これらの具体的な方法としては、公知のスクリーンリーダ(例えば、JAWS(登録商標) for Windows(登録商標)を用いて行うことができる。このスクリーンリーダは、画面やウィンドウに表示された情報や入力した文字を読み上げるものである。
【0047】
次に、ステップ320で、取得した画面データが画像データであるか、テキストデータであるかの判定を行う。この判定は、ステップ310においてテキストデータを取得するというフラグの設定、あるいは画像データとして取得するというフラグの設定がなされるため、その設定されたフラグから判定することができる。
【0048】
そして、ステップ330において、ステップ320により判定した結果から、画像データである場合は、文字認識処理を行い、文字認識した結果の結果データであるテキストデータを取得する。文字認識処理としては、これまで知られたいかなる技術でも使用することができる。
【0049】
例えば、文書画像であれば、画像データが白と黒という情報から構成されるため、まず、黒のドットの分布のしかたを解析し、この黒の固まりを罫線や数字等と分類する。これは、面積や形状等の傾向を分析し、その特徴に基づいて分類する。分類後、予め作成した文字パターン辞書と照合し、文字や数字を識別することによりテキストデータへ変換する。その流れを説明すると、入力された文書画像から、写真等の画像として扱う領域と、文字の領域とに分け、文字画像をパターンに照らし合わせ、重なる面積の大きいものを変換すべき文字や数字として決定し、それをテキストデータとして変換する。
【0050】
カラー画像データである場合は、白と黒という2値の画像データではなく、多値の画像データとなる。まず、写真の領域を抽出し、背景色を特定して削除する。その後、白黒2値データに変換し、文字の部分をテキストデータへ変換する。この変換は、上記と同様、パターンと照合する方法により文字や数字を識別し、その識別された文字や数字に変換することにより行うことができる。
【0051】
このようにしてテキストデータへ変換するが、このデータにはレイアウト情報や文字の色情報等が含められ、ワープロ文書として再生できるようにされる。
【0052】
テキストデータへの変換の際、画像データに汚れや網掛けがある場合、それらを除去し、原稿が傾いてスキャンされた場合、文字や罫線の傾きを分析し、水平になるようにスキュー補正し、天地左右の向きを誤ってスキャンしても、その方向を判別し、正しい方向へ修正することができ、これらの処理後、画像領域と文字領域とに分け、パターン照合し、テキストデータへ変換することができる。
【0053】
ステップ320により判定した結果から、画面データにあるテキストデータの場合、あるいはステップ330でテキストデータへ変換された後、ステップ340へ進み、テキストデータから機密情報に該当するキーワードに一致するものを検索する。なお、機密情報に該当するキーワードは、マスキング辞書保管部206に保管されている。
【0054】
図4に、マスキング辞書保管部206に保管されているマスキング辞書の一例を示す。マスキング辞書は、テーブルとして構成され、キーワード、アプリケーション、マスキングすべき箇所であるマスキング位置、文字種をデータとして含む。キーワードは、マスキングして秘匿すべき情報と対応付けて用いられる単語であり、具体的には、上述したもののほか、電話、Tel、FAX、名前、name、address等の文字が挙げられる。アプリケーションは、マスキングを適用する画像データまたはテキストデータに使用されるアプリケーションである。
【0055】
マスキング位置は、キーワードに対してどの位置をマスキングするかを示し、「同じ行の右」であれば、キーワードと同じ行のキーワードの右側にあるテキストをマスキングすることを意味する。文字種は、マスキングして秘匿すべき情報がどのような文字種からなるものかを示す情報である。数字、ハイフンであれば、数字とハイフンから構成されるテキストデータであることを示す。
【0056】
再び図3を参照して、ステップ350で、キーワードが見つかった場合、上述したマスキング辞書を用いてキーワードがある箇所の付近を参照し、マスキングすべき箇所を探し出す。この探し出す処理の詳細については後述する。
【0057】
その後、ステップ360において、特定したマスキングすべき箇所に対し、マスキング処理を施す。そして、ステップ370で、マスキング処理により生成されたデータを出力し、画面に表示し、ステップ380でこの処理を終了する。ちなみに、ステップ340で、キーワードに一致するものがない場合、マスキング処理を施すことなく、ステップ370で、画像データあるいはテキストデータを含む画面データを表示し、ステップ380でこの処理を終了する。
【0058】
図5は、画像処理装置が行う画像処理の第2実施形態を示したフローチャートである。ステップ500から開始し、まず、ステップ510で、表示データを取得する。この表示データの取得は、上記と同様の方法で行うことができる。
【0059】
次に、ステップ520で、取得した画面データが画像データであるか、テキストデータであるかの判定を行う。これも、上記と同様に、設定されたフラグにより判定することができる。
【0060】
ステップ520でテキストデータであると判定された場合、ステップ530へ進み、テキストデータからマスキング辞書から機密情報に該当するキーワードに一致するものを検索する。キーワードに一致するものがある場合は、ステップ540へ進み、ない場合はステップ580へ進む。ステップ540では、マスキング辞書保管部206に保管されているマスキング辞書を参照し、マスキングすべき箇所を探し出す。そして、ステップ570で、そのマスキングすべき箇所に対しマスキング処理を施し、ステップ580で、マスキングされたデータを出力し、画面に表示し、ステップ590でこの処理を終了する。
【0061】
ステップ520で画像データであると判定された場合、ステップ550へ進み、画像データに含まれる文字画像と、マスキング辞書にある文字画像とのマッチングを行い、マスキングすべき箇所を探し出す。そして、ステップ560で、マスキングすべき箇所があったかどうかを判定し、あった場合、ステップ570へ進み、そのマスキングすべき箇所にマスキングを施す。これに対し、なかった場合は、ステップ580へ進み、そのまま出力して画面表示を行う。
【0062】
マッチング処理は、画像データにある文字画像とマスキング辞書にある文字との照合を行い、マスキングすべき箇所を探し出す処理である。このため、マスキング辞書には、図6のテーブルに示すように、機密情報に対応するキーワード(単語)、表示データの取得元で、表示するために使用されるアプリケーション、マスキングすべき箇所であるマスキング位置、文字種のほか、文字画像の画像データが含まれている。
【0063】
キーワードを探し、見つかった場合、その箇所をマークし、キーワードが見つかった箇所の前後にある文字列をマスキング辞書のマスキング位置を参照して、最終的にマスキングする位置を特定する。図7に示すように、「氏名」、「住所」というキーワードを見つけ、それらの後にある「画像太郎」、「東京都B市C町1−5−3」をマスキングすべき箇所の文字列等として特定し、この文字列等に対してマスキングを施す。
【0064】
帳票等の原稿画像データにおいて、レイアウト構成等のフォーマット形式が決まっているものについて、重要な情報であることを示す箇所をマスキング辞書に登録しておき、その箇所をマスキングすることも可能である。
【0065】
マッチング処理は、図8に示す「あ」や「お」といった要素を、マッチング用データと重ね合わせ、差分を見て、一致度が高いかどうかを判定することにより行うことができる。図8に示す実施形態では、要素2の「お」はマッチング用データ「あ」と照合しても、重なり合う面積が少ないため、一致度が低いが、要素1の「あ」は、重なり合う面積が大部分で、その一致度は高いことから、要素1は「あ」と識別する。例えば、閾値を設け、その閾値を超える面積が重なり合う文字あるいは数字を、一致度が高い文字あるいは数字と判断し、その文字あるいは数字が複数存在する場合には、最も一致度が高いものを変換すべき文字あるいは数字として識別することができる。
【0066】
図9は、画面に表示されるデータの表示例であるが、氏名、会社名、所属、郵便番号、住所、電話番号等が含まれている。これらは、個人を特定するための重要な情報であり、他人には見られたくない情報である。これらの情報がキーワードとして登録されている場合、本発明のマスキング処理の実行により、これらのキーワードの右側にある文字や数字等はマスキングされ、図10に示すような画面として表示される。図10では、マスキングされた箇所が黒く塗りつぶされ、見えなくなっている。
【0067】
マスキング処理は、ユーザ設定したセキュリティレベルに応じて、図11に示すように変更することができる。例えば、セキュリティレベルに応じて、通常表示、難視認表示、不可視表示を設定できるようにすることができる。通常表示の場合、そのままの表示にするか、強調表示することができる。難視認表示の場合、低コントラスト表示、ぼかし、格子線を入れる等の視認が難しい表示にすることができる。不可視表示の場合、べた塗り(塗りつぶし)、モザイク処理等の視認が不可能な表示にすることができる。
【0068】
また、画面表示に限らず、プリンタ等に出力する場合においても、ユーザが設定したセキュリティレベルに応じて、印刷可能、印刷不可のフラグをたて、そのフラグが印刷不可であれば、印刷しないようにすることができる。
【0069】
これまで本発明を上述した実施の形態をもって説明してきたが、本発明は上述した実施の形態に限定されるものではなく、他の実施の形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。したがって、本発明は、上記の画像処理装置および画像処理方法のほか、その方法を実行するためのコンピュータ可読なプログラム、そのプログラムが記録された記録媒体も提供することができるものである。
【符号の説明】
【0070】
100…画像処理装置、101…スキャナ部、102…撮像手段、103…CPU、104…表示データメモリ部、105…外部記憶部、106…CR−ROM、DVD、メモリカード、107…HDD、108…画像処理部、109…通信制御部、110…ネットワーク、111…表示部、112…バス、201…UI提供部、202…データ取得部、203…データ判定部、204…文字認識処理部、205…キーワード検索部、206…マスキング辞書保管部、207…マスキング処理部、208…データ出力部
【先行技術文献】
【特許文献】
【0071】
【特許文献1】特開2004−228709号公報
【特許文献2】特開2007−074295号公報
【特許文献3】特開2007−074088号公報
【非特許文献】
【0072】
【非特許文献1】“データの加工は不要:IBM、ディスプレイ上で機密情報をマスキングする技術を発表”、[online]、2009年7月10日、インターネット<URL:http://www.itmedia.co.jp/enterprise/articles/0907/10/news059.html>
【技術分野】
【0001】
本発明は、表示装置に表示させる前に表示データを取得し、マスキングが必要な箇所を見つけ、その箇所を塗りつぶす等のマスキング処理を行い、表示装置へ出力することにより、情報機密性を向上させることができる画像処理装置、その方法およびその方法を実現するためのコンピュータ可読なプログラムに関する。
【背景技術】
【0002】
画面UI(User Interface)の文字列、エディタやワープロ等のテキストデータ、スキャナやCCD(Charge Coupled Device)カメラといった画像読取装置により読み取った文書画像データ等の各種情報をディスプレイ等の表示装置に表示し、利用者がその表示された情報に基づいて閲覧や編集を行うために、画像処理装置が利用されている。
【0003】
画像読取装置から入力された画像データを外部に配布する場合において、その画像データに、他人には見られたくない情報が含まれているとき、その情報をマスキングして秘匿することが行われている。例えば、画像データ上に電子的にマスキング機能をもったオブジェクトを配置し、編集途中のデータではマスキングオブジェクト下にある画像データを確認する形で記録しておき、それをプリンタ等の出力装置で出力する際、マスキングオブジェクト下にある画像データを確認することができないようにする画像処理プログラムを実装した構成が知られている(特許文献1参照)。
【0004】
この特許文献1では、画像処理プログラムの実行により、データ記録媒体から画像データを読み込み、メモリ上に描画し、その一方で入力デバイスから図形オブジェクトを読み込み、ディスプレイ上に出力するときは、図形オブジェクトが有するマスクパターンの機能に従ってメモリ上の画像データに描画し、プリンタに出力するときは、図形オブジェクトが有する特徴通りにメモリ上の画像データに描画する。これにより、編集途中ではディスプレイ上にマスキング処理されて隠れている情報を確認することができ、外部配布用にプリンタに出力されたものは、情報を確認できないようにすることができる。
【0005】
また、個人情報の各項目と画像データに含まれる個人情報の座標位置とを対応付けて保持し、選択された項目に応じてその画像データにマスキング処理などの画像処理を施す画像処理部と、画像処理された画像データを印字出力する画像形成部とを備える画像処理装置が提案されている(特許文献2参照)。このように各個人情報の座標位置を保持し、コピーする際、見せたくない個人情報にマスキング処理等を施すことにより、所望の情報のみを選択的に出力できるようにすることができる。
【0006】
また、PDL(Page Description Language)データの画像を表示装置にプレビュー表示し、そのプレビュー表示された画像のうちユーザ選択された領域をマスキング領域に設定し、ユーザ入力された日時を設定されたマスキング領域をマスキングする有効期限として設定し、設定されたマスキング領域中の画像をマスキング対象画像として切り出し、この切り出したマスキング対象画像を暗号化して暗号画像を作成し、これを、有効期限を表現する有効期限画像と合成したマスキング画像を生成し、このマスキング画像がPDLデータの画像中のマスキング領域にはめ込まれた画像を印刷し、マスキング原稿を提供する装置や方法が提案されている(特許文献3参照)。これにより、一部領域が、有効期限が設定された状態でマスキング処理された電子文書とその印刷物の融合を容易にすることができる。
【0007】
画面上の情報を画像として扱い、光学的な文字認識技術を用いて空白にしたり、モザイクをかけたりする必要のある部分を判定する構成が提案されている(非特許文献1参照)。従来の隠ぺい方法とは異なり、ソフトウェアを修正したり、データを改変することなく、情報が画面に表示する前に情報にフィルタをかけることができ、また、隠ぺいすべき部分はユーザが変更することができるようにされている。これにより、提供先別に表示項目を修正したデータを用意するといった手間を省くことができる。
【発明の概要】
【発明が解決しようとする課題】
【0008】
上記の特許文献1に記載された発明では、見られたくない情報をマスキングすることができるが、ディスプレイ等の表示装置に表示する前の段階で、マスキングすべき箇所の設定漏れ等により、マスキングされずに表示されてしまい、機密情報が漏洩してしまうという問題がある。
【0009】
また、上記の特許文献2も、見られたくない情報をマスキングすることができるが、マスキング指定を手動で行っているため、かなり手間がかかるという問題がある。
【0010】
上記の特許文献3も同様に、見られたくない情報をマスキングすることができるが、マスキング指定について座標データが予め決められているため、定形外のデータが来た場合、対応することができないという問題がある。
【0011】
上記の非特許文献1では、ディスプレイに表示された情報を画像として扱うため、テキストデータであっても文字認識を行う必要があり、認識精度には限界があるため、誤認識により正しくマスキングされない可能性がある。
【課題を解決するための手段】
【0012】
本発明は、上記課題に鑑みなされたものであり、画面UIの文字列、エディタやワープロ等のテキストデータ、スキャナやCCDカメラ等で読み込んだ文書画像データ等の各種情報をディスプレイ等の表示装置に表示させる前に、例えば一定間隔で画面を取り込み、文字列やテキストデータはそのまま文字として扱い、画像データのみ文字認識を行い、その認識結果の文字データ、文字列、テキストデータからマスキングが必要なキーワードを見つけ、マスキング辞書を参照して必要な箇所を画面上で塗りつぶすという構成を採用する。
【0013】
このように、表示装置の画面に表示される表示データを、表示される前に取得し、画面UIの文字列やテキストデータはそのまま用い、画像データのみ文字認識を行い、マスキング辞書を参照して必要な箇所にマスキング処理を施し出力するため、マスキングし忘れによる情報漏洩を防止することができ、自動でマスキング指定を行うことができ、テキストデータ等は文字認識が不要であるため誤認識を減少させ、より確実にマスキングすることができる。
【0014】
本発明では、これらを実現するための画像処理装置、画像処理方法およびその方法を実現するためのコンピュータ可読なプログラムを提供することができる。
【0015】
本発明の画像処理装置は、表示データを処理して表示させる装置であり、表示装置へ送信され表示される前の表示データを取得するデータ取得部と、取得した表示データが画像データであるかテキストデータであるかを判定するデータ判定部と、表示データが画像データである場合に、該画像データに含まれる文字画像の文字認識を行う文字認識処理部と、キーワードとマスキングすべき箇所とを対応付けて格納するマスキング辞書を用い、取得したテキストデータまたは文字認識処理部により文字認識された結果データの中に、キーワードに一致するものを検索し、該テキストデータまたは該文字認識された結果データの中のマスキングすべき箇所を特定するキーワード検索部と、取得したテキストデータまたは画像データの特定された箇所に対しマスキング処理するマスキング処理部と、マスキング処理により生成されたテキストデータまたは画像データを表示データとして表示装置へ出力するデータ出力部とを含む。
【0016】
データ取得部は、取得する表示データに応じてフラグを設定し、データ判定部は、表示データに設定されたフラグに応じて画像データであるかテキストデータであるかを判定することができる。データ取得部は、画面をキャプチャするか、描画命令を出力するテキストデータやUIの文字列等を横取りし、表示データを取得する。このとき、画面をキャプチャして取得した表示データは画像データとして蓄積され、テキストデータやUIの文字列等はテキストデータとして蓄積され、それぞれに異なる値のフラグが設定される。
【0017】
また、データ取得部は、一定間隔で表示データを取得し、もしくはユーザ操作があったことに応答して表示データを取得し、または画面切り替えが発生したことに応答して表示データを取得する。このような条件に応じて表示データを取得することにより、途中で機密情報を含む表示データが表示装置へ送信された場合においても、また、ユーザ操作により機密情報を含む表示データが表示装置へ送信された場合においても、さらには、画面切り替えにより機密情報を含む表示データが表示装置へ送信された場合においても、確実にその機密情報をマスキングし、他人に見られないようにして表示装置に表示させることができる。
【0018】
文字認識処理部は、文字の領域を抽出し、予め作成された文字パターン辞書の各文字画像と照合して、文字を識別することにより結果データとしてのテキストデータへ変換する。
【0019】
マスキング辞書は、さらに、表示データを表示させるのに使用されるアプリケーションのアプリケーション名と、マスキングすべき箇所に含まれる文字の文字種とを含む。このため、使用されるアプリケーションや文字種を判断してマスキング処理することが可能である。
【0020】
マスキング辞書は、さらに、キーワードおよび文字種に対応する文字画像データを含み、
キーワード検索部は、画像データに含まれる文字画像と、マスキング辞書に含まれる文字画像とのマッチング処理を行い、マスキングすべき箇所を探し出すことができる。
【0021】
マスキング処理部は、ユーザが設定したセキュリティレベルを参照し、そのセキュリティレベルに応じて、マスキングすべき箇所を、低コントラスト、ぼかし、格子線の追加、塗りつぶし、モザイクのいずれかで表示されるようにマスキング処理を行うことができる。データ出力部は、表示装置に代えて、または表示装置とともに印刷装置へマスキング処理により生成されたテキストデータまたは画像データを出力することができ、ユーザ設定により、印刷不可とすることもできる。
【0022】
本発明の画像処理方法は、上記の画像処理装置が備える各部により実行される処理を処理ステップとして含み、プログラムは、この処理ステップをコンピュータに実行させるものとして構成することができる。
【図面の簡単な説明】
【0023】
【図1】本実施形態の画像処理装置のハードウェア構成を示した図。
【図2】画像処理装置の機能ブロック図。
【図3】画像処理装置が行う画像処理の第1実施形態を示したフローチャート。
【図4】マスキング辞書の第1実施形態を示した図。
【図5】画像処理装置が行う画像処理の第2実施形態を示したフローチャート。
【図6】マスキング辞書の第2実施形態を示した図。
【図7】表示データの1つの例を示した図。
【図8】マッチング処理を行っているところを例示した図。
【図9】表示データの別の例を示した図。
【図10】図9に示す表示データにマスキング処理を施した図。
【図11】セキュリティレベルに応じてマスキング処理を施した文字列を例示した図。
【発明を実施するための形態】
【0024】
図1は、本実施形態の画像処理装置のハードウェア構成を示した図である。画像処理装置100は、原稿等を読み取るスキャナ部101と、撮像して画像データを取得する撮像手段102と、装置全体の制御を行うCPU103と、読み取った画像データや撮像して取得した画像データ等を表示させるために記憶する表示データメモリ部104と、それら画像データを蓄積したり、他の装置から取得した画像データ等を記録したり、CPU103が実行するプログラムを格納するCD−ROM、DVD、メモリカード106やHDD107といった外部記憶部105と、マスキング処理を施したり、その他の画像処理を行う画像処理部108と、インターネット等のネットワーク110と接続し、ネットワーク110との間の通信を制御する通信制御部109と、マスキング処理やその他の画像処理が施された画像データを表示する表示部111とを含んで構成されている。なお、これら各部は、データを伝送するためのバス112により互いに接続され、互いにデータのやりとりを行うことができるようにされている。
【0025】
スキャナ部101は、読み取る対象の原稿に光を照射する光源と、その原稿に反射した光あるいは透過した光を読み取り、電気信号へ変換するCCDと、アナログデータである電気信号をデジタルデータへ変換するA/Dコンバータとを含んで構成される。
【0026】
撮像手段102は、例えば、デジタルカメラを挙げることができ、その構成は、集光するレンズ、光量を決定する絞り、光を検出する光学センサといった撮像素子、決定された時間に限って撮像素子に光を当てるシャッター、撮像対象を確認するためのファインダーを備えるものとされる。撮像素子としては、CCDやCMOSが用いられる。撮像手段102は、さらに、撮像素子から出力されたアナログデータをA/D変換するA/Dコンバータを備え、また、補間演算、色空間変換、ガンマ補正、収差の補正、ノイズリダクション、画像圧縮等の画像処理を行い、PC等による利用が可能な画像形式、例えばExif(Exchangeable image file format)形式やRAW画像として記録媒体に記録する画像エンジンを備える。ここで、Exif形式とは、コンピュータ等で扱われる静止画像のデジタルデータを圧縮する方式の1つであるJPEG(Joint Photographic Experts Group)の拡張規格であり、画像メタデータのフォーマットである。
【0027】
表示データメモリ部104は、テキストやUIデータ等の表示データや、上記のスキャナ部101や撮像手段102により取得した表示データを記憶する。
【0028】
画像処理部108は、表示部111に表示させる表示データにマスキングをかける処理を施し、また、色補正を施したり、所定の形式に変換する等の画像処理を行う。
【0029】
図2は、画像処理装置の機能ブロック図である。画像処理装置は、図1に示すハードウェア構成とされるが、外部記憶部105が記憶するプログラムをCPU103が実行し、また、画像処理部108が画像処理を行うことにより、図2に示す各部として機能させることができる。
【0030】
この画像処理装置は、機密情報の漏洩を防止すべく、機密情報の部分をマスキングし、出力する装置であり、UI提供部201と、データ取得部202と、データ判定部203と、文字認識処理部204と、キーワード検索部205と、マスキング辞書保管部206と、マスキング処理部207と、データ出力部208とを含んで構成されている。また、画像処理装置は、表示データを保管するための図示しないデータ保管部を備えることができる。
【0031】
UI提供部201は、Windows(登録商標)系統のウィンドウをはじめとするオブジェクトやテキストデータ等のUIデータを提供する。
【0032】
データ取得部202は、表示装置である表示部111へ送信される表示データであって、表示部111に表示される前のデータを取得する。表示された後にマスキングしても機密情報の漏洩を防止できないからである。表示データは、表示部111に表示するためのデータであって、スキャナ部101により読み取られた画像データや撮像手段102から取得した画像データ、描画命令を出力するテキストデータ、UI提供部201が提供するUIデータ等が挙げられる。
【0033】
このデータ取得部202は、画面をキャプチャするか、テキストデータやUIデータを横取りして、表示データを取得することから、画面をキャプチャして取得したデータは画像データと識別し、テキストデータやUIデータはテキストデータと識別する。このようにして識別されたデータは、例えばフラグを設定し、それらを判別することを可能にすることができる。フラグは1ビットで表現され、画像データを1、テキストデータを0といった数値で設定することができる。
【0034】
また、このデータ取得部202は、表示データを、一定間隔で取得したり、ユーザ操作(例えばボタンの押下)があったことに応答して取得したり、画面切り替えが発生したことに応答して取得することができ、次の画面が表示される前にマスキングを行い、確実に機密情報の漏洩を防止することができる。
【0035】
データ判定部203は、データ取得部202が取得した表示データが、画像データであるか、テキストデータであるかを判定する。この判定は、表示データに設定されたフラグを読み出し、そのフラグの値により判定することができる。
【0036】
文字認識処理部204は、データ判定部203で画像データと判定された表示データを受け取り、その表示データである画像データに含まれる文字を表す文字画像の文字認識を行う。文字認識の方法は、これまでに知られたいかなる方法でも採用することができるが、例えば、各字の文字パターンを文字パターン辞書として用意しておき、その文字パターンとマッチング処理を行うことにより文字認識を行うことができる。
【0037】
マスキング辞書保管部206は、キーワードとマスキングすべき箇所とを対応付けて格納するマスキング辞書を保管する。キーワードは、文字列からなる単語であり、機密情報となる氏名、住所、電話番号、携帯番号、生年月日、性別、会社名、所属等が挙げられる。マスキングとは、文字や画像上をカバーで覆うことをいい、具体的には、文字例を塗りつぶし見えなくすること等をいう。マスキングすべき箇所は、キーワードと同じ行の右側、キーワードと同じ列の下側、キーワードと同じ行の右側のセル等である。したがって、キーワードとして住所が設定され、マスキングすべき箇所として同じ行の右側が設定されている場合、マスキングすべき箇所は、「住所 A市B町C」と記載されていれば、キーワードである「住所」の同じ行の右側にある「A市B町C」の部分を意味する。このようにして機密情報を見えなくし、その情報の漏洩を防止する。
【0038】
キーワード検索部205は、このマスキング辞書を用い、取得したテキストデータまたは文字認識処理部204により文字認識された結果データの中に、キーワードに一致するものを検索する。そして、そのテキストデータまたは文字認識された結果データの中のマスキングすべき箇所を特定する。
【0039】
また、キーワード検索部205は、表示データが画像データである場合、画像データにより生成される文字画像と、マスキング辞書に含まれる文字画像データにより生成される文字画像とのマッチング処理を行い、マスキングすべき箇所を探し出す。このため、マスキング辞書は、文字画像データもキーワードと対応付けて格納することができる。
【0040】
マスキング処理部207は、キーワード検索部205により特定されたマスキングすべき箇所を、設定したマスキング方法によりマスキングを行う。ユーザは、セキュリティレベルを設定することができ、そのセキュリティレベルに応じて、マスキングすべき箇所を、低コントラストにしたり、ぼかしを入れたり、格子線を追加したり、塗りつぶしたり、モザイクをかけたりすることができる。なお、マスキング処理は、マスキングすべき箇所として特定された文字列や数字列等のすべてに対して行われるようになされる。
【0041】
マスキング辞書は、さらに、表示データを表示するために使用されるアプリケーションのアプリケーション名や、マスキングすべき箇所にある文字列の文字種等もキーワードに対応付けて格納することができる。これにより、マスキング処理部207が、使用されるアプリケーションを判断し、また、文字種を判断して適合した場合にマスキングを行うことができる。
【0042】
データ出力部208は、マスキング処理部207によりマスキング処理により生成されたテキストデータまたは画像データである表示データを表示部111へ出力し、表示させる。このデータ出力部208は、表示部111のほか、印刷装置へ出力することもでき、マスキング処理したデータを印刷出力することも可能である。また、セキュリティレベル等の設定により、その設定に応じて、印刷出力したり、印刷不可とすることも可能である。
【0043】
図3は、画像処理装置が行う画像処理の第1実施形態を示したフローチャートである。このフローチャートを参照して、画像処理の流れについて説明する。画像処理は、ステップ300から開始し、まず、ステップ310で、表示データを取得する。
【0044】
ここで、表示データを取得する方法の例を詳細に説明する。取得する条件は、例えば、一定期間ごと、特定の操作をしたとき、画面の切り替えがあったとき、に取得することができる。一定期間としては、例えば10〜100ミリ秒という間隔で画面をキャプチャすることが挙げられる。特定の操作をしたときとしては、ボタンが押下されたときや、閲覧しようとする操作をしたときが挙げられる。画面の切り替えがあったときとしては、表示用画面が変遷したときが挙げられる。
【0045】
このような条件が発生した場合に、画面をキャプチャしたり、描画命令を出すテキストデータやUIの文字列等を横取りして、表示データを取得することができる。画面をキャプチャした場合、そのデータは画像データとして蓄積される。また、テキストデータ等を横取りして取得した場合は、テキストデータ、UIの文字列等がテキストデータとして蓄積される。
【0046】
これらの具体的な方法としては、公知のスクリーンリーダ(例えば、JAWS(登録商標) for Windows(登録商標)を用いて行うことができる。このスクリーンリーダは、画面やウィンドウに表示された情報や入力した文字を読み上げるものである。
【0047】
次に、ステップ320で、取得した画面データが画像データであるか、テキストデータであるかの判定を行う。この判定は、ステップ310においてテキストデータを取得するというフラグの設定、あるいは画像データとして取得するというフラグの設定がなされるため、その設定されたフラグから判定することができる。
【0048】
そして、ステップ330において、ステップ320により判定した結果から、画像データである場合は、文字認識処理を行い、文字認識した結果の結果データであるテキストデータを取得する。文字認識処理としては、これまで知られたいかなる技術でも使用することができる。
【0049】
例えば、文書画像であれば、画像データが白と黒という情報から構成されるため、まず、黒のドットの分布のしかたを解析し、この黒の固まりを罫線や数字等と分類する。これは、面積や形状等の傾向を分析し、その特徴に基づいて分類する。分類後、予め作成した文字パターン辞書と照合し、文字や数字を識別することによりテキストデータへ変換する。その流れを説明すると、入力された文書画像から、写真等の画像として扱う領域と、文字の領域とに分け、文字画像をパターンに照らし合わせ、重なる面積の大きいものを変換すべき文字や数字として決定し、それをテキストデータとして変換する。
【0050】
カラー画像データである場合は、白と黒という2値の画像データではなく、多値の画像データとなる。まず、写真の領域を抽出し、背景色を特定して削除する。その後、白黒2値データに変換し、文字の部分をテキストデータへ変換する。この変換は、上記と同様、パターンと照合する方法により文字や数字を識別し、その識別された文字や数字に変換することにより行うことができる。
【0051】
このようにしてテキストデータへ変換するが、このデータにはレイアウト情報や文字の色情報等が含められ、ワープロ文書として再生できるようにされる。
【0052】
テキストデータへの変換の際、画像データに汚れや網掛けがある場合、それらを除去し、原稿が傾いてスキャンされた場合、文字や罫線の傾きを分析し、水平になるようにスキュー補正し、天地左右の向きを誤ってスキャンしても、その方向を判別し、正しい方向へ修正することができ、これらの処理後、画像領域と文字領域とに分け、パターン照合し、テキストデータへ変換することができる。
【0053】
ステップ320により判定した結果から、画面データにあるテキストデータの場合、あるいはステップ330でテキストデータへ変換された後、ステップ340へ進み、テキストデータから機密情報に該当するキーワードに一致するものを検索する。なお、機密情報に該当するキーワードは、マスキング辞書保管部206に保管されている。
【0054】
図4に、マスキング辞書保管部206に保管されているマスキング辞書の一例を示す。マスキング辞書は、テーブルとして構成され、キーワード、アプリケーション、マスキングすべき箇所であるマスキング位置、文字種をデータとして含む。キーワードは、マスキングして秘匿すべき情報と対応付けて用いられる単語であり、具体的には、上述したもののほか、電話、Tel、FAX、名前、name、address等の文字が挙げられる。アプリケーションは、マスキングを適用する画像データまたはテキストデータに使用されるアプリケーションである。
【0055】
マスキング位置は、キーワードに対してどの位置をマスキングするかを示し、「同じ行の右」であれば、キーワードと同じ行のキーワードの右側にあるテキストをマスキングすることを意味する。文字種は、マスキングして秘匿すべき情報がどのような文字種からなるものかを示す情報である。数字、ハイフンであれば、数字とハイフンから構成されるテキストデータであることを示す。
【0056】
再び図3を参照して、ステップ350で、キーワードが見つかった場合、上述したマスキング辞書を用いてキーワードがある箇所の付近を参照し、マスキングすべき箇所を探し出す。この探し出す処理の詳細については後述する。
【0057】
その後、ステップ360において、特定したマスキングすべき箇所に対し、マスキング処理を施す。そして、ステップ370で、マスキング処理により生成されたデータを出力し、画面に表示し、ステップ380でこの処理を終了する。ちなみに、ステップ340で、キーワードに一致するものがない場合、マスキング処理を施すことなく、ステップ370で、画像データあるいはテキストデータを含む画面データを表示し、ステップ380でこの処理を終了する。
【0058】
図5は、画像処理装置が行う画像処理の第2実施形態を示したフローチャートである。ステップ500から開始し、まず、ステップ510で、表示データを取得する。この表示データの取得は、上記と同様の方法で行うことができる。
【0059】
次に、ステップ520で、取得した画面データが画像データであるか、テキストデータであるかの判定を行う。これも、上記と同様に、設定されたフラグにより判定することができる。
【0060】
ステップ520でテキストデータであると判定された場合、ステップ530へ進み、テキストデータからマスキング辞書から機密情報に該当するキーワードに一致するものを検索する。キーワードに一致するものがある場合は、ステップ540へ進み、ない場合はステップ580へ進む。ステップ540では、マスキング辞書保管部206に保管されているマスキング辞書を参照し、マスキングすべき箇所を探し出す。そして、ステップ570で、そのマスキングすべき箇所に対しマスキング処理を施し、ステップ580で、マスキングされたデータを出力し、画面に表示し、ステップ590でこの処理を終了する。
【0061】
ステップ520で画像データであると判定された場合、ステップ550へ進み、画像データに含まれる文字画像と、マスキング辞書にある文字画像とのマッチングを行い、マスキングすべき箇所を探し出す。そして、ステップ560で、マスキングすべき箇所があったかどうかを判定し、あった場合、ステップ570へ進み、そのマスキングすべき箇所にマスキングを施す。これに対し、なかった場合は、ステップ580へ進み、そのまま出力して画面表示を行う。
【0062】
マッチング処理は、画像データにある文字画像とマスキング辞書にある文字との照合を行い、マスキングすべき箇所を探し出す処理である。このため、マスキング辞書には、図6のテーブルに示すように、機密情報に対応するキーワード(単語)、表示データの取得元で、表示するために使用されるアプリケーション、マスキングすべき箇所であるマスキング位置、文字種のほか、文字画像の画像データが含まれている。
【0063】
キーワードを探し、見つかった場合、その箇所をマークし、キーワードが見つかった箇所の前後にある文字列をマスキング辞書のマスキング位置を参照して、最終的にマスキングする位置を特定する。図7に示すように、「氏名」、「住所」というキーワードを見つけ、それらの後にある「画像太郎」、「東京都B市C町1−5−3」をマスキングすべき箇所の文字列等として特定し、この文字列等に対してマスキングを施す。
【0064】
帳票等の原稿画像データにおいて、レイアウト構成等のフォーマット形式が決まっているものについて、重要な情報であることを示す箇所をマスキング辞書に登録しておき、その箇所をマスキングすることも可能である。
【0065】
マッチング処理は、図8に示す「あ」や「お」といった要素を、マッチング用データと重ね合わせ、差分を見て、一致度が高いかどうかを判定することにより行うことができる。図8に示す実施形態では、要素2の「お」はマッチング用データ「あ」と照合しても、重なり合う面積が少ないため、一致度が低いが、要素1の「あ」は、重なり合う面積が大部分で、その一致度は高いことから、要素1は「あ」と識別する。例えば、閾値を設け、その閾値を超える面積が重なり合う文字あるいは数字を、一致度が高い文字あるいは数字と判断し、その文字あるいは数字が複数存在する場合には、最も一致度が高いものを変換すべき文字あるいは数字として識別することができる。
【0066】
図9は、画面に表示されるデータの表示例であるが、氏名、会社名、所属、郵便番号、住所、電話番号等が含まれている。これらは、個人を特定するための重要な情報であり、他人には見られたくない情報である。これらの情報がキーワードとして登録されている場合、本発明のマスキング処理の実行により、これらのキーワードの右側にある文字や数字等はマスキングされ、図10に示すような画面として表示される。図10では、マスキングされた箇所が黒く塗りつぶされ、見えなくなっている。
【0067】
マスキング処理は、ユーザ設定したセキュリティレベルに応じて、図11に示すように変更することができる。例えば、セキュリティレベルに応じて、通常表示、難視認表示、不可視表示を設定できるようにすることができる。通常表示の場合、そのままの表示にするか、強調表示することができる。難視認表示の場合、低コントラスト表示、ぼかし、格子線を入れる等の視認が難しい表示にすることができる。不可視表示の場合、べた塗り(塗りつぶし)、モザイク処理等の視認が不可能な表示にすることができる。
【0068】
また、画面表示に限らず、プリンタ等に出力する場合においても、ユーザが設定したセキュリティレベルに応じて、印刷可能、印刷不可のフラグをたて、そのフラグが印刷不可であれば、印刷しないようにすることができる。
【0069】
これまで本発明を上述した実施の形態をもって説明してきたが、本発明は上述した実施の形態に限定されるものではなく、他の実施の形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。したがって、本発明は、上記の画像処理装置および画像処理方法のほか、その方法を実行するためのコンピュータ可読なプログラム、そのプログラムが記録された記録媒体も提供することができるものである。
【符号の説明】
【0070】
100…画像処理装置、101…スキャナ部、102…撮像手段、103…CPU、104…表示データメモリ部、105…外部記憶部、106…CR−ROM、DVD、メモリカード、107…HDD、108…画像処理部、109…通信制御部、110…ネットワーク、111…表示部、112…バス、201…UI提供部、202…データ取得部、203…データ判定部、204…文字認識処理部、205…キーワード検索部、206…マスキング辞書保管部、207…マスキング処理部、208…データ出力部
【先行技術文献】
【特許文献】
【0071】
【特許文献1】特開2004−228709号公報
【特許文献2】特開2007−074295号公報
【特許文献3】特開2007−074088号公報
【非特許文献】
【0072】
【非特許文献1】“データの加工は不要:IBM、ディスプレイ上で機密情報をマスキングする技術を発表”、[online]、2009年7月10日、インターネット<URL:http://www.itmedia.co.jp/enterprise/articles/0907/10/news059.html>
【特許請求の範囲】
【請求項1】
表示データを処理して表示させる画像処理装置であって、
表示装置へ送信され表示される前の前記表示データを取得するデータ取得部と、
取得した前記表示データが画像データであるかテキストデータであるかを判定するデータ判定部と、
前記表示データが画像データである場合に、該画像データに含まれる文字画像の文字認識を行う文字認識処理部と、
キーワードとマスキングすべき箇所とを対応付けて格納するマスキング辞書を用い、取得した前記テキストデータまたは前記文字認識処理部により文字認識された結果データの中に前記キーワードに一致するものを検索し、該テキストデータまたは該文字認識された結果データの中のマスキングすべき箇所を特定するキーワード検索部と、
取得した前記テキストデータまたは前記画像データの特定された箇所に対しマスキング処理するマスキング処理部と、
マスキング処理により生成されたテキストデータまたは画像データを前記表示データとして前記表示装置へ出力するデータ出力部とを含む、画像処理装置。
【請求項2】
前記データ取得部は、取得する前記表示データに応じてフラグを設定し、前記データ判定部は、前記表示データに設定された前記フラグに応じて、前記画像データであるか前記テキストデータであるかを判定する、請求項1に記載の画像処理装置。
【請求項3】
前記データ取得部は、一定間隔で前記表示データを取得し、もしくはユーザ操作があったことに応答して前記表示データを取得し、または画面切り替えが発生したことに応答して前記表示データを取得する、請求項1または2に記載の画像処理装置。
【請求項4】
前記文字認識処理部は、文字の領域を抽出し、予め作成された文字パターン辞書の各文字画像と照合して、文字を識別することにより前記結果データとしてのテキストデータへ変換する、請求項1〜3のいずれか1項に記載の画像処理装置。
【請求項5】
前記マスキング辞書は、さらに、前記表示データを表示させるのに使用されるアプリケーションのアプリケーション名と、前記マスキングすべき箇所に含まれる文字の文字種とを含み、使用される前記アプリケーションおよび前記マスキングすべき箇所の前記文字種を判断してマスキング処理する、請求項1〜4のいずれか1項に記載の画像処理装置。
【請求項6】
前記マスキング辞書は、さらに、前記キーワードおよび前記文字種に対応する文字画像データを含み、
前記キーワード検索部は、前記画像データに含まれる文字画像と、前記マスキング辞書に含まれる文字画像とのマッチング処理を行い、前記マスキングすべき箇所を探し出す、請求項5に記載の画像処理装置。
【請求項7】
前記マスキング処理部は、ユーザが設定したセキュリティレベルを参照し、前記セキュリティレベルに応じて、前記マスキングすべき箇所を、低コントラスト、ぼかし、格子線の追加、塗りつぶし、モザイクのいずれかで表示されるようにマスキング処理を行う、請求項1〜6のいずれか1項に記載の画像処理装置。
【請求項8】
前記データ出力部は、前記表示装置に代えて、または前記表示装置とともに印刷装置へマスキング処理により生成されたテキストデータまたは画像データを出力する、請求項1〜7のいずれか1項に記載の画像処理装置。
【請求項9】
表示データを処理して表示させる画像処理方法であって、該方法は画像処理装置により実行され、
表示装置へ送信され表示される前の前記表示データを取得するステップと、
取得した前記表示データが画像データであるかテキストデータであるかを判定するステップと、
前記表示データが画像データである場合に、該画像データに含まれる文字画像の文字認識を行うステップと、
キーワードとマスキングすべき箇所とを対応付けて格納するマスキング辞書を用い、取得した前記テキストデータまたは前記文字認識を行うステップにおいて文字認識された結果データの中に前記キーワードに一致するものを検索し、該テキストデータまたは該文字認識された結果データの中のマスキングすべき箇所を特定するステップと、
取得した前記テキストデータまたは前記画像データの特定された箇所に対しマスキング処理するステップと、
マスキング処理により生成されたテキストデータまたは画像データを前記表示データとして前記表示装置へ出力するステップとを含む、画像処理方法。
【請求項10】
前記取得するステップでは、取得する前記表示データに応じてフラグを設定し、前記判定するステップでは、前記表示データに設定された前記フラグに応じて、前記画像データであるか前記テキストデータであるかを判定する、請求項9に記載の画像処理方法。
【請求項11】
前記取得するステップでは、一定間隔で前記表示データを取得し、もしくはユーザ操作があったことに応答して前記表示データを取得し、または画面切り替えが発生したことに応答して前記表示データを取得する、請求項9または10に記載の画像処理方法。
【請求項12】
前記文字認識を行うステップは、文字の領域を抽出し、予め作成された文字パターン辞書の各文字画像と照合して、文字を識別することにより前記結果データとしてのテキストデータへ変換するステップを含む、請求項9〜11のいずれか1項に記載の画像処理方法。
【請求項13】
前記マスキング辞書は、さらに、前記表示データを表示させるのに使用されるアプリケーションのアプリケーション名と、前記マスキングすべき箇所に含まれる文字の文字種とを含み、前記マスキング処理するステップでは、使用される前記アプリケーションおよび前記マスキングすべき箇所の前記文字種を判断してマスキング処理する、請求項9〜12のいずれか1項に記載の画像処理方法。
【請求項14】
前記マスキング辞書は、さらに、前記キーワードおよび前記文字種に対応する文字画像データを含み、
前記特定するステップは、前記画像データに含まれる文字画像と、前記マスキング辞書に含まれる文字画像とのマッチング処理を行い、前記マスキングすべき箇所を探し出すステップを含む、請求項13に記載の画像処理方法。
【請求項15】
前記マスキング処理するステップでは、ユーザが設定したセキュリティレベルを参照し、前記セキュリティレベルに応じて、前記マスキングすべき箇所を、低コントラスト、ぼかし、格子線の追加、塗りつぶし、モザイクのいずれかで表示されるようにマスキング処理を行う、請求項9〜14のいずれか1項に記載の画像処理方法。
【請求項16】
前記出力するステップでは、前記表示装置に代えて、または前記表示装置とともに印刷装置へマスキング処理により生成されたテキストデータまたは画像データを出力する、請求項9〜15のいずれか1項に記載の画像処理方法。
【請求項17】
請求項9〜16のいずれか1項に記載の画像処理方法を実行するためのコンピュータ可読なプログラム。
【請求項1】
表示データを処理して表示させる画像処理装置であって、
表示装置へ送信され表示される前の前記表示データを取得するデータ取得部と、
取得した前記表示データが画像データであるかテキストデータであるかを判定するデータ判定部と、
前記表示データが画像データである場合に、該画像データに含まれる文字画像の文字認識を行う文字認識処理部と、
キーワードとマスキングすべき箇所とを対応付けて格納するマスキング辞書を用い、取得した前記テキストデータまたは前記文字認識処理部により文字認識された結果データの中に前記キーワードに一致するものを検索し、該テキストデータまたは該文字認識された結果データの中のマスキングすべき箇所を特定するキーワード検索部と、
取得した前記テキストデータまたは前記画像データの特定された箇所に対しマスキング処理するマスキング処理部と、
マスキング処理により生成されたテキストデータまたは画像データを前記表示データとして前記表示装置へ出力するデータ出力部とを含む、画像処理装置。
【請求項2】
前記データ取得部は、取得する前記表示データに応じてフラグを設定し、前記データ判定部は、前記表示データに設定された前記フラグに応じて、前記画像データであるか前記テキストデータであるかを判定する、請求項1に記載の画像処理装置。
【請求項3】
前記データ取得部は、一定間隔で前記表示データを取得し、もしくはユーザ操作があったことに応答して前記表示データを取得し、または画面切り替えが発生したことに応答して前記表示データを取得する、請求項1または2に記載の画像処理装置。
【請求項4】
前記文字認識処理部は、文字の領域を抽出し、予め作成された文字パターン辞書の各文字画像と照合して、文字を識別することにより前記結果データとしてのテキストデータへ変換する、請求項1〜3のいずれか1項に記載の画像処理装置。
【請求項5】
前記マスキング辞書は、さらに、前記表示データを表示させるのに使用されるアプリケーションのアプリケーション名と、前記マスキングすべき箇所に含まれる文字の文字種とを含み、使用される前記アプリケーションおよび前記マスキングすべき箇所の前記文字種を判断してマスキング処理する、請求項1〜4のいずれか1項に記載の画像処理装置。
【請求項6】
前記マスキング辞書は、さらに、前記キーワードおよび前記文字種に対応する文字画像データを含み、
前記キーワード検索部は、前記画像データに含まれる文字画像と、前記マスキング辞書に含まれる文字画像とのマッチング処理を行い、前記マスキングすべき箇所を探し出す、請求項5に記載の画像処理装置。
【請求項7】
前記マスキング処理部は、ユーザが設定したセキュリティレベルを参照し、前記セキュリティレベルに応じて、前記マスキングすべき箇所を、低コントラスト、ぼかし、格子線の追加、塗りつぶし、モザイクのいずれかで表示されるようにマスキング処理を行う、請求項1〜6のいずれか1項に記載の画像処理装置。
【請求項8】
前記データ出力部は、前記表示装置に代えて、または前記表示装置とともに印刷装置へマスキング処理により生成されたテキストデータまたは画像データを出力する、請求項1〜7のいずれか1項に記載の画像処理装置。
【請求項9】
表示データを処理して表示させる画像処理方法であって、該方法は画像処理装置により実行され、
表示装置へ送信され表示される前の前記表示データを取得するステップと、
取得した前記表示データが画像データであるかテキストデータであるかを判定するステップと、
前記表示データが画像データである場合に、該画像データに含まれる文字画像の文字認識を行うステップと、
キーワードとマスキングすべき箇所とを対応付けて格納するマスキング辞書を用い、取得した前記テキストデータまたは前記文字認識を行うステップにおいて文字認識された結果データの中に前記キーワードに一致するものを検索し、該テキストデータまたは該文字認識された結果データの中のマスキングすべき箇所を特定するステップと、
取得した前記テキストデータまたは前記画像データの特定された箇所に対しマスキング処理するステップと、
マスキング処理により生成されたテキストデータまたは画像データを前記表示データとして前記表示装置へ出力するステップとを含む、画像処理方法。
【請求項10】
前記取得するステップでは、取得する前記表示データに応じてフラグを設定し、前記判定するステップでは、前記表示データに設定された前記フラグに応じて、前記画像データであるか前記テキストデータであるかを判定する、請求項9に記載の画像処理方法。
【請求項11】
前記取得するステップでは、一定間隔で前記表示データを取得し、もしくはユーザ操作があったことに応答して前記表示データを取得し、または画面切り替えが発生したことに応答して前記表示データを取得する、請求項9または10に記載の画像処理方法。
【請求項12】
前記文字認識を行うステップは、文字の領域を抽出し、予め作成された文字パターン辞書の各文字画像と照合して、文字を識別することにより前記結果データとしてのテキストデータへ変換するステップを含む、請求項9〜11のいずれか1項に記載の画像処理方法。
【請求項13】
前記マスキング辞書は、さらに、前記表示データを表示させるのに使用されるアプリケーションのアプリケーション名と、前記マスキングすべき箇所に含まれる文字の文字種とを含み、前記マスキング処理するステップでは、使用される前記アプリケーションおよび前記マスキングすべき箇所の前記文字種を判断してマスキング処理する、請求項9〜12のいずれか1項に記載の画像処理方法。
【請求項14】
前記マスキング辞書は、さらに、前記キーワードおよび前記文字種に対応する文字画像データを含み、
前記特定するステップは、前記画像データに含まれる文字画像と、前記マスキング辞書に含まれる文字画像とのマッチング処理を行い、前記マスキングすべき箇所を探し出すステップを含む、請求項13に記載の画像処理方法。
【請求項15】
前記マスキング処理するステップでは、ユーザが設定したセキュリティレベルを参照し、前記セキュリティレベルに応じて、前記マスキングすべき箇所を、低コントラスト、ぼかし、格子線の追加、塗りつぶし、モザイクのいずれかで表示されるようにマスキング処理を行う、請求項9〜14のいずれか1項に記載の画像処理方法。
【請求項16】
前記出力するステップでは、前記表示装置に代えて、または前記表示装置とともに印刷装置へマスキング処理により生成されたテキストデータまたは画像データを出力する、請求項9〜15のいずれか1項に記載の画像処理方法。
【請求項17】
請求項9〜16のいずれか1項に記載の画像処理方法を実行するためのコンピュータ可読なプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2012−49860(P2012−49860A)
【公開日】平成24年3月8日(2012.3.8)
【国際特許分類】
【出願番号】特願2010−190639(P2010−190639)
【出願日】平成22年8月27日(2010.8.27)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】
【公開日】平成24年3月8日(2012.3.8)
【国際特許分類】
【出願日】平成22年8月27日(2010.8.27)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】
[ Back to top ]