説明

セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置

【課題】簡易な定義で高精度にセキュアな文書を検出する。
【解決手段】セキュア文書検出装置が実行するセキュア文書検出方法であって、前記セキュア文書検出装置は、演算装置と、辞書を保持する記憶装置と、を備え、前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、前記セキュア文書検出方法は、入力された文書データから前記辞書に登録されたキーワードペアを抽出する第1手順と、前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第2手順と、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報のセキュリティを管理する技術に関し、特に、記憶装置に格納された文書又は印刷された文書からセキュアな文書を検出する技術に関する。
【背景技術】
【0002】
情報セキュリティに対する社会的関心の高まりに伴って、サーバ又は個人が所有するパーソナルコンピュータ(PC)に格納された大量の電子文書中に、セキュアな情報が存在するか否かを高精度に自動検出する技術が求められている。ここでセキュアな情報とは、例えば自社の秘密情報、他社の秘密情報又は個人情報のような、機密を保持する必要がある情報である。このような自動検出の技術として、例えば特許文献1が開示されている。
【0003】
特許文献1に記載された機密文書検出システムは、入力された文書を複数の領域に分割し、各領域に対応する辞書を参照することによって各領域の特徴要素を検出し、検出された特徴要素に基づいて各文書が属する機密情報カテゴリを判定する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−209649号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
個人のPCのチェックツールのような、従来のテキスト検索を用いた場合、セキュア文書の誤検出が多いため、人間が点検する手間が多く必要であった。また、従来のセキュア文書検出では、検出したいキーワードをユーザが指定することはできるが、多様な様式の文書に対応することは困難であった。
【0006】
例えば、特許文献1に記載された機密文書検出システムは、領域ごとに特徴要素を検出するが、定義されていない領域に出現した特徴要素を検出することはできない。さらに、この機密文書検出システムは、キーワードと、それが検出された領域との対応に基づいて機密情報カテゴリを判定するが、複数のキーワードの関係に基づいて機密情報カテゴリを判定することはできない。
【課題を解決するための手段】
【0007】
本発明の代表的な一例を示せば、次の通りである。すなわち、セキュア文書検出装置が実行するセキュア文書検出方法であって、前記セキュア文書検出装置は、演算装置と、辞書を保持する記憶装置と、を備え、前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、前記セキュア文書検出方法は、入力された文書データから前記辞書に登録されたキーワードペアを抽出する第1手順と、前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第2手順と、を含むことを特徴とする。
【発明の効果】
【0008】
本発明の一実施形態によれば、入力される文書の種類が増えた場合にも、簡易な定義で高精度にセキュアな文書を検出することができる。
【図面の簡単な説明】
【0009】
【図1】本発明の実施形態の概要を示すブロック図である。
【図2】本発明の第1の実施形態のセキュア電子文書管理システムのハードウェア構成を示すブロック図である。
【図3】本発明の第1の実施形態のセキュア文書検出装置が実行する処理の全体を示す説明図である。
【図4】本発明の第1の実施形態の文書要素抽出処理及びセキュア文書判定処理の詳細な手順を説明するフローチャートである。
【図5】本発明の第1の実施形態のセキュア文書検出装置に入力されるセキュア文書の具体例の説明図である。
【図6】本発明の第1の実施形態のセキュア文書検出装置が実行する複数のキーワードの組み合わせに基づくセキュア文書検出の説明図である。
【図7】本発明の第1の実施形態のセキュア文書検出装置によって識別されるブロックの説明図である。
【図8A】本発明の第1の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第1の具体例を示す説明図である。
【図8B】本発明の第1の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第2の具体例を示す説明図である。
【図8C】本発明の第1の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第3の具体例を示す説明図である。
【図8D】本発明の第1の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第4の具体例を示す説明図である。
【図8E】本発明の第1の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第5の具体例を示す説明図である。
【図9】本発明の第1の実施形態のセキュア文書辞書に含まれる配置コストテーブルの説明図である。
【図10】本発明の第1の実施形態のセキュア文書辞書の説明図である。
【図11】本発明の第2の実施形態のOCR一体型セキュア文書検出装置のハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【0010】
以下、図面を用いて本発明の実施の形態を説明する。
【0011】
図1は、本発明の実施形態の概要を示すブロック図である。
【0012】
最初に、従来のセキュア紙文書管理について説明する。
【0013】
光学式文字読み取り装置(OCR装置)0302は、入力された紙文書0301を読み取り、文書ファイル0303を作成する。この文書ファイル0303には、紙文書0301に記載された画像、テキスト又はその両方のデータが含まれる。この文書ファイルは、例えばPDF(Portable Document Format)(登録商標)ファイルであってもよい。ユーザは、計算機0304によって表示された文書ファイル0303を参照して、その文書ファイル0303がセキュアであるか否かを判定し、その結果を計算機0304に入力する。文書ファイル0303がセキュアであると判定した場合、ユーザは、文書ファイル0303をロックする指示を計算機0304に入力してもよい。計算機0304は、文書ファイル0303をロックすることによって、ロックされた文書ファイル0305を作成し、この文書ファイル0305を出力する。なお、ロックとは、文書ファイル0305の閲覧を制限するための処理を意味し、その典型的な例は暗号化である。
【0014】
次に、本発明の実施形態の一つであるOCR一体型セキュア紙文書管理について説明する。
【0015】
入力される紙文書0306は、既に説明した紙文書0301と同様のものであってよい。OCR装置0307は、入力された紙文書0306を読み取り、紙文書0306に含まれる画像情報及びテキスト情報を抽出する。計算機0308は、抽出された情報にセキュアな情報が含まれるか否かを判定する。抽出された情報にセキュアな情報が含まれると判定された場合、計算機0308は、抽出された情報を含む、ロックされた文書ファイル0309を作成し、出力する。これらの判定及び作成はユーザの介在なしに自動的に実行されるため、計算機0308はロックされる前の文書ファイルを表示する必要がない。このため、OCR装置0307及び計算機0308のいずれも、ロックされていない文書ファイルを上記の判定の前に作成する必要がない。また、ユーザは文書ファイルをロックする指示を計算機0308に入力する必要がない。
【0016】
なお、作成された文書ファイルがセキュアであることは、元の紙文書0306もセキュアであることを意味する。このため、計算機0308は、文書ファイルがセキュアであるか否かの判定結果に基づいて、OCR装置0307による紙文書0306の排出方法を制御してもよい。
【0017】
このOCR一体型セキュア紙文書管理の詳細については、本発明の第2の実施形態として後述する。
【0018】
次に、本発明のもう一つの実施形態であるセキュア電子文書管理について説明する。
【0019】
計算機0311は、文書ファイル0310を入力されると、その文書ファイル0310がセキュアか否かを判定する。文書ファイル0310は、例えば文書ファイル0303と同様のものであってもよい。計算機0311は、文書ファイル0310がセキュアであると判定された場合、それをロックすることによって、ロックされた文書ファイル0312を作成し、出力する。上記のOCR一体型セキュア紙文書管理の場合と同様、これらの判定及び作成はユーザの介在なしに自動的に実行される。
【0020】
このセキュア電子文書管理の詳細については、本発明の第1の実施形態として後述する。
【0021】
なお、上記の説明ではテキスト等のデータを含む文書ファイルの例としてPDFファイルを挙げたが、これらの文書ファイルはPDF以外の形式の文書ファイル又は図面ファイルであってもよい。
【0022】
<第1の実施形態>
図2は、本発明の第1の実施形態のセキュア文書検出装置0100のハードウェア構成を示すブロック図である。
【0023】
セキュア文書検出装置0100は、図1に示した本発明のセキュア電子文書管理を実現する装置の一例である。
【0024】
本実施形態のセキュア文書検出装置0100は、操作端末装置0101、表示端末装置0102、外部記憶装置0103、メモリ0104、中央演算装置0105、通信装置0107及びこれらを相互に接続する通信線0106を備える。セキュア文書検出装置0100は、例えば一般的なパーソナルコンピュータであってもよい。
【0025】
操作端末装置0101は、例えばキーボード又はマウス等であり、ユーザが指示又はデータ等をセキュア文書検出装置0100に入力するために使用される。
【0026】
表示端末装置0102は、例えば液晶表示装置のような、テキスト及び画像等を表示する装置である。
【0027】
外部記憶装置0103は、例えばハードディスク装置又はフラッシュメモリのような記憶装置であり、入力された文書データ(例えば文書ファイル0310)及び出力された文書データ(例えばロックされた文書ファイル0312)を格納する。さらに、本実施形態を実現するために中央演算装置0105によって実行されるプログラム等が格納されてもよい。
【0028】
メモリ0104は、例えば半導体メモリであり、中央演算装置0105によって実行されるプログラム及び参照されるデータ等を格納する。外部記憶装置0103に格納されたプログラム及びデータ等の少なくとも一部が必要に応じてメモリ0104にコピーされてもよい。
【0029】
中央演算装置0105は、メモリ0104に格納されたプログラムを実行し、必要に応じて操作端末装置0101、表示端末装置0102、外部記憶装置0103及び通信装置0107を制御する。以下の説明においてセキュア文書検出装置0100が実行する処理は、実際には中央演算装置0105によって実行される。
【0030】
通信装置0107は、ネットワーク(図示省略)に接続され、そのネットワークに接続された他の装置(図示省略)と通信するインターフェースである。例えば、通信装置0107は入力データとして文書ファイル0310を受信し、ロックされた文書ファイル0312を送信してもよい。
【0031】
図3は、本発明の第1の実施形態のセキュア文書検出装置0100が実行する処理の全体を示す説明図である。
【0032】
セキュア文書検出装置0100が実行する処理は、学習フェーズ0500と利用フェーズ0510とに分けられる。
【0033】
学習フェーズ0500において、セキュア文書検出装置0100は、入力された情報に基づいてセキュア文書辞書0504を作成する。
【0034】
具体的には、例えば、ユーザがセキュア文書例0501及びセキュア用語定義0502をセキュア文書検出装置0100に入力する。
【0035】
セキュア文書例0501は、セキュアな文書として検出されるべきであるとユーザが考える実際の文書ファイルである。セキュア文書例0501は、例えば通信装置0107を介してセキュア文書検出装置0100に入力されてもよい。
【0036】
セキュア用語定義0502は、セキュア文書検出に用いられるキーワードのリストである。ユーザは、セキュアな文書として検出されるべき文書に含まれる文字列からなるキーワードのリストを、セキュア用語定義0502としてセキュア文書検出装置0100に入力することができる。特に、例えば「××製作所」のような文書の作成者又は所有者を示す文字列と、「設計書」のような文書の種類を示す文字列との組み合わせを含む文書をセキュア文書として検出する必要がある場合、ユーザは、このような文字列からなるキーワードの組み合わせ(以下、キーワードペアとも記載)を、セキュア用語定義0502としてセキュア文書検出装置0100に入力することができる。セキュア用語定義0502は、例えば通信装置0107を介して入力されてもよいし、操作端末装置0101を介して入力されてもよい。
【0037】
セキュア文書検出装置0100は、入力されたセキュア文書例0501及びセキュア用語定義0502に基づいて、セキュア辞書学習処理0503を実行する。その結果、セキュア文書辞書0504が作成される。セキュア文書辞書0504には、後述するように(図10参照)、キーワードとして登録された文字列の組み合わせ、各キーワードペアに含まれる二つのキーワードの文書上の位置関係、等を示す情報が含まれる。なお、二つのキーワードの位置関係を示す情報は、例えば、それらのキーワードが配置される方向及び距離を表すベクトルである。このようなキーワードペアに含まれる二つのキーワードの位置関係を、以下、「キーワードペアの位置関係」とも記載する。
【0038】
次に、利用フェーズ0510について説明する。ユーザは、セキュア文書検出装置0100に非管理文書0511を入力する。非管理文書0511は、ユーザがこれから管理しようとする文書であり、言い換えると、それがセキュアな情報を含んでいるか否かを判定する必要がある文書である。その判定結果に応じて、その文書の管理方法(例えば文書をロックするか否か等)が決定される。非管理文書0511は、例えば、図1の文書ファイル0310に相当する。
【0039】
セキュア文書検出装置0100は、入力された非管理文書0511について、文書要素抽出処理0512を実行する。これによって、非管理文書0511から文書要素、すなわち、テキスト、キーワード(KW)、罫線、キーワードの位置を示す情報、及びブロックの配置を示す情報等が抽出される。なお、キーワード及びその位置を抽出するために、セキュア文書辞書0504に含まれるキーワード情報0513が参照される。
【0040】
入力された非管理文書0511のファイル形式と、文書要素抽出処理0512によって処理できるファイル形式とが異なる場合、セキュア文書検出装置0100は、文書変換処理0517を実行して、入力された非管理文書0511のファイル形式を変換する。例えば、文書要素抽出処理0512がPDFファイルしか処理できないにもかかわらず、それ以外の形式のファイル(例えば一般的な文書作成ソフトウェアによって作成された文書ファイル)が非管理文書0511として入力された場合、文書変換処理0517によって、非管理文書0511のファイル形式がPDFに変換される。
【0041】
次に、セキュア文書検出装置0100は、文書要素抽出処理0512によって抽出された文書情報0518について、セキュア文書判定処理0515を実行する。具体的には、セキュア文書検出装置0100は、文書情報0518と、セキュア文書辞書0504に含まれるパタン情報・配置尤度0514と、を参照して、入力された非管理文書0511のセキュア情報尤度を算出し、それに基づいて、非管理文書0511がセキュア文書であるか否か(すなわちセキュアな情報を含むか否か)を判定する。
【0042】
そして、セキュア文書検出装置0100は、セキュア文書判定処理0515の結果0516を出力する。この結果は非管理文書0511がセキュア文書であるか否かを示す情報を含み、さらに、セキュア尤度又はそれに基づく危険度を示す情報等を含んでもよい。
【0043】
なお、セキュア文書辞書0504を予め保持していれば、セキュア文書検出装置0100は、学習フェーズ0500を実行せずに、利用フェーズ0510のみを実行することができる。例えば、ユーザは、セキュア文書検出装置0100のメーカが作成したセキュア文書辞書0504を取得してもよいし、他のユーザが学習フェーズ0500を実行することによって作成したセキュア文書辞書0504を取得してもよい。
【0044】
図4は、本発明の第1の実施形態の文書要素抽出処理0512及びセキュア文書判定処理0515の詳細な手順を説明するフローチャートである。
【0045】
セキュア文書検出装置0100は、入力された電子文書ファイル0411について、文書要素を抽出する(ステップ0401)。具体的には、セキュア文書検出装置0100は、電子文書ファイル0411から、その電子文書に含まれるテキストの文字情報、その文字が書かれる紙面上の位置、罫線の位置、等を抽出する。これによって、各文字が抽出され、さらに、各文字の位置及び罫線の位置から、各行に相当する文字列が特定される。なお、電子文書ファイル0411は、図3の非管理文書0511に相当する。
【0046】
次に、セキュア文書検出装置0100は、抽出された文書要素を用いて、文書構造を解析する(ステップ0402)。具体的には、セキュア文書検出装置0100は、抽出された文字及び罫線の位置等に基づいて、文書上の文字をブロックに分ける。例えば、文書がヘッダ、フッタ及び本文からなる場合、ヘッダ、フッタ及び本文がそれぞれ一つのブロックとして識別される。本文が段組みされている場合、各段が一つのブロックとして識別される。文書に表が含まれる場合、その表が一つのブロックとして識別される。セキュア文書検出装置0100は、ステップ0402において文書構造辞書(図示省略)を参照してもよい。これによって、ステップ0401で抽出された各行が属するブロックが特定される。このような文書構造の解析は、公知の方法によって行うことができる。例えば、X−Y再帰的解析法、文字列間移動距離最小法などの手法がある。
【0047】
次に、セキュア文書検出装置0100は、ブロック及び行を、テキストの読み順(言い換えると、それらが文書中に現れる順)に整合するように並べ替える(ステップ0403)。これによって、各ブロック内の行がテキストの読み順に並べ替えられ、さらに、ブロックもテキストの読み順に並べ替えられる。例えば本文が複数のブロックからなる場合、それらのブロックがテキストの読み順に並べ替えられる。この並べ替えも、ステップ0402と同様、公知の方法によって行うことができる。
【0048】
次に、セキュア文書検出装置0100は、文書要素を抽出する(ステップ0404)。具体的には、セキュア文書検出装置0100は、罫線、及び、その罫線等によって形成されたレイアウトを抽出する。さらに、セキュア文書検出装置0100は、ステップ0401において抽出された文字列からキーワードを抽出する。具体的には、セキュア文書検出装置0100は、セキュア文書辞書のキーワード情報0412に登録されたキーワードを検索キーとして、ステップ0401において抽出された文字列を検索する。キーワード情報0412は、図3のキーワード情報0513に相当する。
【0049】
次に、セキュア文書検出装置0100は、セキュア文書辞書に含まれるパタン情報0413を用いてセキュア情報尤度を算出する(ステップ0405)。セキュア情報尤度とは、入力された文書のセキュア文書らしさを示す指標である(詳細は後述)。パタン情報0413は、図3のパタン情報・配置尤度0514の一部に相当する。
【0050】
次に、セキュア文書検出装置0100は、セキュア文書辞書に含まれる配置尤度情報0414を用いてセキュア情報尤度を算出する(ステップ0406)。配置尤度情報0414は、図3のパタン情報・配置尤度0514の一部に相当する。
【0051】
セキュア情報尤度の算出については後述する(図8〜図9及び数式(1)〜(3)等参照)。
【0052】
セキュア文書検出装置0100は、ステップ0405及び0406において算出されたセキュア情報尤度に基づいて、入力された電子文書がセキュア文書であるか否かを判定する(ステップ0407)。例えば、セキュア文書検出装置0100は、算出されたセキュア情報尤度が所定の閾値より大きい場合、入力された電子文書がセキュア文書であると判定してもよい。ユーザがこの閾値を設定してもよい。
【0053】
ステップ0407において、入力された電子文書がセキュア文書である(すなわち「Yes」)と判定された場合、セキュア文書検出装置0100は、入力された電子文書ファイル0411をロックする(ステップ0408)。一方、入力された電子文書がセキュア文書でない(すなわち「No」)と判定された場合、セキュア文書検出装置0100はステップ0408を実行しない。
【0054】
次に、セキュア文書検出装置0100は、電子文書を出力する(ステップ0409)。具体的には、セキュア文書検出装置0100は、ステップ0407で「Yes」の場合、ロックされた電子文書を出力し、「No」の場合、ロックされていない電子文書(すなわち入力された電子文書ファイル0411そのもの)を出力する。出力された電子文書0415(図1の文書ファイル0312に相当)は、外部記憶装置0103に格納される。さらに、セキュア文書検出装置0100は、セキュア情報尤度そのものを出力してもよいし、セキュア情報尤度に基づいて決定される危険度(又は要求される保護レベル)を出力してもよい。
【0055】
なお、上記はステップ0407において文書がセキュア文書であるか否かを判定する例を示したが、ステップ0407においてこのような二値判定の代わりに多値判定が行われてもよい。例えば、セキュア文書検出装置0100は、算出されたセキュア情報尤度と複数の閾値とを比較することで、セキュア情報尤度のランクを判定してもよい。その場合、判定されたランクに応じて電子文書の出力方法(例えば使用する暗号の強度等)が選択されてもよい。例えば、セキュア文書検出装置0100は、より高いランクの電子文書ファイル0411を暗号化するために、より長い暗号鍵を使用してもよい。
【0056】
以下、図4の処理の詳細を説明する。
【0057】
図5は、本発明の第1の実施形態のセキュア文書検出装置0100に入力されるセキュア文書の具体例の説明図である。
【0058】
本発明は、アクセスを制限する必要があるセキュア文書に適用することができる。そのようなセキュア文書の典型例は、自社が作成した自社の機密情報を含む文書、他社から取得した当該他社の機密情報を含む文書、又は顧客等の個人情報を含む文書、等である。このような典型例について説明する。
【0059】
図5(a)〜図5(c)は、文書のタイトル及び特定の企業の名称が表示されたセキュア文書の例である。例えば、文書の表紙のタイトルに「設計書」、「仕様書」又は「アライアンス」等の特定の文字列が含まれ、さらに、その表紙に(例えばその文書の作成者又はその文書の配布先として)特定の企業名「××」又は「××製作所」が含まれる。なお、図5に表示されたアンダーライン0601は、各文書に表示された特定の文字列及び企業名等を指し示して本実施形態を説明するために表示したものであり、そのアンダーライン0601自体が文書に表示されているわけではない。
【0060】
図5(d)〜図5(f)は、ヘッダ等に特定の文字列(例えば企業名)を含み、さらにその文字列の隣に特定の接頭辞又は接尾辞を含むセキュア文書の例である。図5(d)の例では、特定の文字列「(株)××」の隣に特定の接尾辞「作成」が表示される。図5(e)の例では、特定の文字列「××」の隣に特定の接尾辞「confidential」が表示される。図5(e)の例では、特定の文字列「××」の隣に特定の接尾辞「Prepeard」が表示される。
【0061】
図5(g)及び図5(h)は、それぞれ設計図面及び製品仕様書の例である。この種の文書は、必ずしも特定の文字列を含んでいないが、罫線を用いた特定のフォーマットを有する場合が多い。
【0062】
図5(i)は、機密情報を含むことを示す文字列又は図形(例えば、「秘」のような文字を含む印影)が表示された文書の例である。
【0063】
図5(j)及び図5(k)は、文書中に特定の文字列と特定の接頭辞又は接尾辞とが混在している例を示す。
【0064】
図5(j)の例では、本文中に「北海道」及びそれに連続して「札幌市」と表示され、フッタに「北海道」及びそれに連続して「製作所」が表示されている。この場合、本文中の「北海道」は単なる地名であるが、フッタの「北海道」は特定の企業名(又はその一部)である。
【0065】
図5(k)の例では、本文中に人名を示す特定の文字列「××△△」が表示され、さらにその前後に隣接して文字列「出席」及び「様」が表示されている。
【0066】
本実施形態のセキュア文書検出装置0100は、入力された文書に含まれるキーワード、そのキーワードが記載された位置、及びその文書のフォーマット等に基づいてこれらのセキュア文書を検出する。
【0067】
図5に示す文書は、例えばセキュア文書例0501としてセキュア文書検出装置0100に入力されてもよいし、非管理文書0511(すなわち電子文書ファイル0411)としてセキュア文書検出装置0100に入力されてもよい。
【0068】
例えば、図5(a)に示す文書がセキュア文書例0501として入力され、さらに、文字列「設計書」及び「××製作所」がセキュア用語定義0502として入力された場合、それらの入力に基づいてセキュア辞書学習処理0503が実行される。その結果、文字列「設計書」及び「××製作所」がキーワードとしてセキュア文書辞書0504に登録される。さらに、それらのキーワードの位置関係(例えばそれらの間の距離及びそれらが配置される方向を表すベクトル)もセキュア文書例0501から抽出され、セキュア文書辞書0504に登録される。このとき、例えば「××製作所」が主キーワード、「設計書」が補助キーワードとして、それらの組(キーワードペア)が登録されてもよい。
【0069】
なお、本実施形態では主に会社名「××製作所」のような固有名詞を主キーワード、「設計書」のような普通名詞を補助キーワードとして扱う例を示すが、実際には任意の文字列を主キーワード及び補助キーワードとして登録することができる。例えば、補助キーワード「××製作所」と主キーワード「設計書」とからなるキーワードペアが登録されてもよい。
【0070】
図5(a)に示す文書が非管理文書0511(すなわち電子文書ファイル0411)として入力された場合、その文書から抽出された複数のキーワード及びそれらの位置関係と、登録されている複数のキーワード及びそれらの位置関係とが参照され、その文書がセキュア文書であるか否かが判定される。
【0071】
図5(b)〜図5(f)、図5(j)及び図5(k)に示す文書も上記と同様である。すなわち、それらの文書に含まれる会社名、文書タイトル、接頭辞及び接尾辞等の文字列が主キーワード又は補助キーワードとして登録され、それらのキーワードに基づいて入力された文書がセキュア文書であるか否かが判定される。
【0072】
なお、図5に示す文書は典型例に過ぎず、本発明はあらゆる種類のセキュア文書に適用することができる。
【0073】
図6は、本発明の第1の実施形態のセキュア文書検出装置0100が実行する複数のキーワードの組み合わせに基づくセキュア文書検出の説明図である。
【0074】
図6に示す文書0701が非管理文書0511として入力されると、セキュア文書検出装置0100は、入力された文書から、自社名を示す主キーワード「××」と補助キーワード「confidential」とからなるキーワードペア、及び、他社名を示すキーワード「北海道」と補助キーワード「作成」とからなるキーワードペアを抽出する。そして、セキュア文書検出装置0100は、抽出されたキーワードペア及び各キーワードペアの位置関係を、セキュア文書辞書0504に登録された情報と比較することによって、セキュア情報尤度を算出する。
【0075】
図7は、本発明の第1の実施形態のセキュア文書検出装置0100によって識別されるブロックの説明図である。
【0076】
具体的には、図7には、図4のステップ0402において抽出され、ステップ0403において並べ替えられたブロックの具体例を示す。
【0077】
図7(a)に示す文書0820は、タイトル0851、著者名0852及び本文0853からなる。この文書0820が電子文書ファイル0411として入力された場合、セキュア文書検出装置0100は、ブロックB1_0801、ブロックB2_0802及びブロックB3_0803を抽出する(ステップ0402)。ブロックB1_0801はタイトル0851が表示された領域に、ブロックB2_0802は著者名0852が表示された領域に、ブロックB3_0803は本文0853が表示された領域に相当する。
【0078】
図7(b)に示す文書0830は、本文0855及び本文0856を含む。この例において本文は段組みされており、本文0855及び本文0856が各段に相当し、本文0856は本文0855の次に読まれるべきものである。この文書0830が電子文書ファイル0411として入力された場合、セキュア文書検出装置0100は、本文0855が表示された領域に相当するブロックB5_0805、及び、本文0856が表示された領域に相当するブロックB6_0806を抽出する(ステップ0402)。さらに、セキュア文書検出装置0100は、本文の読み順と同様、ブロックB6_0806がブロックB5_0805の後に続くようにこれらのブロックを並べ替える(ステップ0403)。
【0079】
図7(c)に示す文書0840は、本文0857、本文0858、脚注0859、ヘッダ0860及びフッタ0861を含む。この例において本文は段組みされており、本文0857及び本文0858が各段に相当し、本文0858は本文0857の次に読まれるべきものである。
【0080】
この文書0840が電子文書ファイル0411として入力された場合、セキュア文書検出装置0100は、ブロックB7_0807、ブロックB8_0808、ブロックB9_0809、ブロックB10_0810及びブロックB11_0811を抽出する(ステップ0402)。ブロックB7_0807及びブロックB8_0808はそれぞれ本文0857及び本文0858が表示された領域に、ブロックB9_0809は脚注0859が表示された領域に、ブロックB10_0810及びブロックB11_0811はそれぞれヘッダ0860及びフッタ0861が表示された領域に相当する。
【0081】
さらに、セキュア文書検出装置0100は、本文の読み順と同様、ブロックB8_0808がブロックB7_0807の後に続くようにこれらのブロックを並べ替える(ステップ0403)。
【0082】
図8A〜図8Eは、本発明の第1の実施形態のセキュア文書検出装置0100が実行するキーワード抽出及びセキュア文書判定の具体例を示す説明図である。
【0083】
図8Aの例では、電子文書ファイル0411として文書0610が入力される。文書0610は、図5(a)に示したものと同じである。この文書0610には文字列「設計書」0611及び「××製作所」0612が含まれる。例えば、会社名に相当する主キーワード「××製作所」と、補助キーワード「設計書」との組み合わせ(キーワードペア)がキーワード情報0412に登録されている場合、セキュア文書検出装置0100は、ステップ0404のキーワード抽出処理によって文字列「設計書」0611及び「××製作所」0612をそれぞれ補助キーワード0613及び主キーワード0614として抽出する。
【0084】
なお、図8Aの左側の文書0610は、入力される文書に実際に表示されている文字等を示す。一方、中央及び右側の文書0610は、キーワード抽出処理を説明するための図面である。すなわち、二重線の楕円及び二重線の長方形等の図形、並びに、「会社名」及び「補助KW」等の文字は、実際に文書0610に表示されているものではなく、キーワード抽出処理を説明する便宜上付与したものである。これは、図8B〜図8Eについても同様である。
【0085】
さらに、セキュア文書検出装置0100は、抽出された主キーワード0614及び補助キーワード0613の位置関係に基づいて、両者の関連の強さを算出し、その関連の強さ等に基づいて、抽出されたキーワードペアが連携キーワードペアであるか否かを判定する。本実施形態では、二つのキーワード間のユークリッド距離、及び、それぞれのキーワードの文脈上の距離に基づいて、両者の関連の強さが算出される。連携キーワードペアの意義については図8C等を参照して、連携キーワードペアの判定基準については数式(1)等を参照してそれぞれ後述する。
【0086】
抽出された主キーワード0614及び補助キーワード0613が連携キーワードペアである場合、それらの位置関係、具体的には位置関係を表すベクトル0615が抽出される。このベクトル0615は、主キーワード0614から補助キーワード0613に向かう方向、及び、それらの間の距離を表す。このベクトル0615と、セキュア文書辞書0504に登録されている主キーワード「××製作所」と補助キーワード「設計書」との位置関係を示すベクトルとの類似度が所定の閾値より高い場合、文書0610がセキュア文書であると判定される。
【0087】
なお、ユーザが予め学習フェーズ0500において文書0610をセキュア文書例0501としてセキュア文書検出装置0100に入力し、さらに、主キーワード「××製作所」と補助キーワード「設計書」との組み合わせをセキュア用語定義0502として入力すれば、主キーワード「××製作所」と補助キーワード「設計書」との組み合わせ、及び、文書0610におけるそれらのキーワードの位置関係を示す情報がキーワード情報0412としてセキュア文書辞書0504に登録される。その後、文書0610(又は、文書0610と同様に文字列「設計書」及び「××製作所」を含む文書)が入力された場合、セキュア文書検出装置0100は、キーワード情報0412を参照して、入力された文書から上記のように主キーワード0614及び補助キーワード0613を抽出し、それらに基づいて文書0610がセキュア文書か否かを判定することができる。これは、続いて説明する図8B及び図8Cについても同様である。
【0088】
図8Bの例では、電子文書ファイル0411として文書0620が入力される。文書0620は、図5(d)に示したものと同じである。この文書0620には文字列「(株)××」0621及び「作成」0622が含まれる。例えば、会社名に相当する主キーワード「(株)××」と、補助キーワード「作成」との組み合わせがキーワード情報0412として登録されている場合、ステップ0404のキーワード抽出処理によって文字列「(株)××」0621及び「作成」0622がそれぞれ主キーワード0623及び補助キーワード0624として抽出される。この場合も、図8Aの場合と同様、抽出されたキーワード間の位置関係を示すベクトル0625が特定され、それに基づいて文書0620がセキュア文書であるか否かが判定される。
【0089】
図8Cの例では、電子文書ファイル0411として文書0630が入力される。文書0630は、図5(j)に示したものと同じである。この文書0630には文字列「北海道」0631、「製作所」0632及び「北海道」0633が含まれる。例えば、会社名「北海道製作所」の前半部分に相当する主キーワード「北海道」と、後半部分に相当する補助キーワード「製作所」との組み合わせがキーワード情報0412として登録されている場合、ステップ0404のキーワード抽出処理によって文字列「北海道」0631及び「製作所」0632がそれぞれ会社名0634を構成する主キーワード0635及び補助キーワード0636として抽出される。この場合も、図8Aの場合と同様、抽出されたキーワード間の位置関係を示すベクトル0637が特定され、それに基づいて文書0630がセキュア文書であるか否かが判定される。
【0090】
なお、文書0630には、会社名の前半部分と同一の文字列「北海道」0633も含まれている。この場合、「北海道」0633と「製作所」0632との組み合わせもキーワードペアとして抽出される。しかし、文字列「北海道」0633の後に文字列「札幌市」が続いていることからわかるように、この文字列「北海道」0633は会社名の一部ではなく単なる地名である。
【0091】
例えば、「北海道製作所」なる会社が作成した資料のフッタ部分には、例えば図8Cに示すように「北海道製作所」という文字列が印刷され、そのような文書をセキュア文書として検出する必要がある場合、ユーザは、主キーワード「北海道」と補助キーワード「製作所」とを含むキーワードペア、及び、それらの位置関係を表すベクトル(例えばベクトル0637と同等のベクトル)をセキュア文書辞書0504に登録することができる。
【0092】
しかし、その後、文書0630が電子文書ファイル0411として入力されると、上記のように「北海道」0631と「製作所」0632との組み合わせだけでなく、「北海道」0633と「製作所」0632との組み合わせもキーワードペアとして抽出される。この例において、「北海道」0631と「製作所」0632とは会社名「北海道製作所」の一部であるからそれらの間の関連が強いが、「北海道」0633と「製作所」0632とはそれぞれ全く異なる文脈に属するからそれらの間に関連はない。このような場合に「北海道」0633と「製作所」0632との組み合わせについても位置関係を表すベクトルを特定し、そのベクトルとセキュア文書辞書0504に登録されたベクトルとを比較しても、その比較はセキュア文書の検出に寄与しない。このため、「北海道」0633と「製作所」0632との組み合わせをベクトルの比較の対象から除外することが望ましい。
【0093】
本実施形態のセキュア文書検出装置0100は、抽出されたキーワードペアからさらに、セキュア文書辞書0504に登録されたベクトルとの比較の対象とするキーワードペア(以下、連携キーワードペアと記載)を抽出する。抽出されたキーワードペアが連携キーワードペアであるか否かは、そのキーワードペアに含まれる二つのキーワードの関連の強さ、及び、それらのキーワードについて予め定められた重要度等に基づいて判定される。このように抽出された連携キーワードペアの位置関係がセキュア文書辞書0504に登録されたベクトルと比較される。
【0094】
例えば、セキュア文書検出装置0100は、一つの文書から抽出された全てのキーワードペアについてそれらに含まれる二つのキーワードの関連の強さを算出し、その値の順位が所定の閾値より高いものを、連携キーワードペアとして抽出してもよい。あるいは、セキュア文書検出装置0100は、上記のように算出された関連の強さが所定の閾値を超えるものを連携キーワードペアとして抽出してもよい。「北海道」0633と「製作所」0632との関連の強さが十分に低ければ、「北海道」0633と「製作所」0632との組み合わせは連携キーワードペアとして抽出されない。
【0095】
さらに、本実施形態のセキュア文書検出装置0100は、連携キーワードペアとして抽出されるべきでないキーワードを積極的に排除することもできる。
【0096】
例えば、学習フェーズ0500において、ユーザは、文字列「北海道」と文字列「札幌市」との組み合わせを、連携キーワードペアとして抽出されるべきでないキーワードペアとしてキーワード情報0412に登録してもよい。そのような情報が登録されていれば、文書0630が入力された場合、文字列「北海道」0633は、文字列「札幌市」との関連が強いものであると判定され、連携キーワードペアとしては抽出されない。
【0097】
図8Dの例では、電子文書ファイル0411として文書0640が入力される。文書0640は、図5(g)に示したものと同じである。文書0640は図面0641を含む。図面0641は、例えば部品等の図面(図示省略)、図面のタイトル0642及び図面の作成年月日0643等を含み、それらの要素のレイアウトは罫線0644によって定義される。ステップ0404の罫線・レイアウト抽出処理によって文書0640のレイアウトが特定様式0645として抽出される。この特定様式0645とパタン情報0413とを比較することによって、文書0640のセキュア情報尤度を算出することができる(ステップ0405)。
【0098】
なお、ユーザが予め学習フェーズ0500において文書0640をセキュア文書例0501としてセキュア文書検出装置0100に入力することによって、特定様式0645をパタン情報0413としてセキュア文書辞書0504に登録することができる。その後、文書0640(又は、文書0640と同様のレイアウトを有する文書)が入力された場合、セキュア文書検出装置0100は、パタン情報0413を参照して、入力された文書から上記のように特定様式0645を抽出することができる。これは、続いて説明する図8Eについても同様である。
【0099】
図8Eの例では、電子文書ファイル0411として文書0650が入力される。文書0650は、図5(i)に示したものと同じである。文書0650は印影0651を含む。印影0651は、それが表示された文書が機密情報を含むことを意味する「秘」の文字を含む。ステップ0404の罫線・レイアウト抽出処理によってこの印影0651が特定様式0652として抽出される。この特定様式0652とパタン情報0413とを比較することによって、文書0650のセキュア情報尤度を算出することができる(ステップ0405)。
【0100】
次に、図4のステップ0406において実行されるセキュア情報尤度算出について説明する。
【0101】
抽出された主キーワードmwi及び補助キーワードhwjの組み合わせ(ペア)の連携度を示す指標Lpair(mwi,hwj)は、次の数式(1)によって算出される。
【0102】
【数1】

【0103】
ここで、DBLK(mwi,hwj)は、主キーワードと補助キーワードとの間の文書型ブロック距離である。文書型ブロック距離とは、言い換えるとすれば、二つのキーワードの文脈中の距離であり、二つのキーワードの文脈上の関連の強さを示す指標である。一般には、二つのキーワードが読まれる順が近ければ、それらの文脈上の関連が強い。例えば二つのキーワードが一つのブロックに属する場合と、それぞれが別のブロックに属する場合との文書型ブロック距離を比較すると、両者におけるキーワード間のユークリッド距離が同じであっても、一般に、後者の文書型ブロック距離は前者の文書型ブロック距離より大きくなる。
【0104】
ここで、ブロック距離は画像処理の分野などで使われる距離の概念を文書向けに拡張したものである。一般に、画像処理におけるブロック距離では、2点間の距離をX方向の差とY方向の差の和|X|+|Y|や|X+Y|で表す距離尺度群を指す(マンハッタン距離とも称する)。単純なブロック距離は、文書上に書かれた段落や表など意味情報を表しているレイアウト構造を反映しない、文書上の任意の2点間で一様な距離尺度となっている。文書文脈上の関連の強さを文書構造から反映して、距離尺度の重みを変えるのが文書型ブロック距離である。
【0105】
αは、文書型ブロック距離に基づく連携度を算出するための重み係数である。ユーザは、αとして任意の値を設定することができるが、二つのキーワードの配置に応じた適切な値を設定することが望ましい。αの値の例については、図9を参照して後述する。
【0106】
EUC(mwi,hwj)は、主キーワードと補助キーワードとの間のユークリッド距離、すなわち、文書中の、主キーワードが表示された位置と、補助キーワードが表示された位置との間のユークリッド距離である。
【0107】
βは、ユークリッド距離に基づく連携度を算出するための重み係数である。ユーザは、βとして任意の値を設定することができる。
【0108】
なお、数式(1)の右辺の第1項及び第2項の分母の「+1」は、距離がゼロの場合に値が発散することを防ぐために付されている。
【0109】
word(mwi,hwj)は、キーワードの重要度(各キーワードの重要度又はキーワードペアの重要度)を表す指標であり、予めユーザによって定められる。例えば、ユーザは、重要顧客の名前を含むキーワードの組み合わせに関するLword(mwi,hwj)として、その他の組み合わせに関するものより高い値を設定してもよい。
【0110】
γは、キーワードの重要度に基づく連携度を算出するための重み係数である。ユーザは、γとして任意の値を設定することができる。
【0111】
結局、主キーワードmwi及び補助キーワードhwjの連携度は、文書型ブロック距離DBLK(mwi,hwj)が小さいほど高く、ユークリッド距離DEUC(mwi,hwj)が小さいほど高く、予め定められたキーワードの重要度が高いほど高く、重み係数(α、β及びγ)の値が大きいほど高くなる。
【0112】
セキュア文書検出装置0100は、入力された文書から抽出された全てのキーワードペアについてLword(mwi,hwj)を算出し、それらの値が大きいものが連携キーワードペアであると判定してもよい。具体的には、例えば、あるキーワードペアのLword(mwi,hwj)の値が所定の閾値より大きい場合に、そのキーワードペアが連携キーワードペアであると判定してもよい。あるいは、各文書について算出された全てのLword(mwi,hwj)のうち、大きさの順位が所定の閾値より大きいものに対応するキーワードペアが連携キーワードペアであると判定してもよい。
【0113】
入力された文書dociのセキュア情報尤度(すなわちその文書のセキュア文書らしさを示す指標)Lsequre(doci)は、次の数式(2)によって算出される。
【0114】
【数2】

【0115】
ここで、dicjは、セキュア文書辞書0504に入力されたセキュア文書例0501(すなわち文書事例0702)に含まれるj番目の文書である。
【0116】
format(doci,dicj)は、文書dociのフォーマットと文書dicjのフォーマットとの比較に基づく、文書dociのセキュア文書らしさを示す指標である。具体的には、図4のステップ0404において抽出された文書dociのレイアウトと、文書dicjのレイアウトとの間の類似度が高いほど、Lformat(doci,dicj)の値は大きくなる。
【0117】
keyword(doci,dicj)は、文書dociに含まれるキーワードと文書dicjに含まれるキーワードとの比較に基づく、文書dociのセキュア文書らしさを示す指標である。具体的には、図4のステップ0404において文書dociから抽出されたキーワードペアの位置関係と、文書dicjに含まれるキーワードペア(すなわちセキュア文書例0501から抽出されたキーワードの組み合わせ又はセキュア用語定義0502として入力されたキーワードの組み合わせ)の位置関係との間の類似度が計算され、その類似度が高いほどLkeyword(doci,dicj)の値は大きくなる。Lkeyword(doci,dicj)の算出方法については後述する(数式(3)参照)。
【0118】
全ての文書dicjについて算出されたLformat(doci,dicj)+Lkeyword(doci,dicj)の最大値がLsequre(doci)である。
【0119】
なお、文書のレイアウトによらず、キーワードの組み合わせのみに基づいて文書dociのセキュア情報尤度を算出してもよい。その場合、Lformat(doci,dicj)を算出する必要はなく、Lkeyword(doci,dicj)の最大値がLsequre(doci)である。
【0120】
keyword(doci,dicj)は数式(3)によって算出される。
【0121】
【数3】

【0122】
数式(3)によって、文書dociから抽出されたキーワードペアの位置関係を表すベクトルと、文書dicjに含まれるキーワードペアの位置関係を表すベクトルとの距離が算出され、その距離に基づいてセキュア情報尤度が算出される。このとき、文書dociから抽出された全てのキーワードペアについてではなく、連携キーワードペアのみについて数式(3)が算出されてもよい。その場合、文書dociから抽出された全ての連携キーワードペアについて算出された上記の尤度の総和がLkeyword(doci,dicj)である。
【0123】
formatの意図は辞書として登録した文書と、似たキーワードを持ち、それらが似た配置にあるような文書を見つけることにある。数式(3)は単純なユークリッド距離の定義によってキーワードペアの類似性を導くことを示している。すなわちキーワード間に何らかの距離尺度が存在し(例えば、「confidential」や「prepared」など文書発行元を指し得る補助キーワードは同類と看做し距離0とし、敬称や送付先を表すような補助キーワード「御中」「宛先」などはこれと別類と看做し距離が大きいとするように、キーワードの間に距離尺度が定義できる。
【0124】
例えば、形態素解析で同じ品詞の場合は距離0、その他は1とするなども距離尺度となる)、キーワードの配置位置の間に距離尺度が存在し(例えば、先に説明した文書型ブロック距離)、類似度尺度の間に距離尺度が存在するならば、これらを数式(3)のようにベクトルと看做してユークリッド距離を計算すれば、2つのキーワードペアの間の距離が計算できる。
【0125】
更に、これに尤度を導入することも可能である。2つのキーワードペアの各々の関連度Lwordが高く、かつ、配置が似ているものを尤度が高いとしたいならば、上記距離を0〜1の間に変換したものが尤度であると看做すことができる。すなわち、尤度を持つ項を入力とする、あらゆる計算式に対しては、それに付属する尤度を計算することができる。
【0126】
図9は、本発明の第1の実施形態のセキュア文書辞書0504に含まれる配置コストテーブル0900の説明図である。
【0127】
配置コストテーブル0900は、文書から抽出されたキーワードペアに含まれる二つのキーワードの当該文書中の位置(すなわち、それらのキーワードがその文書中のどの領域から抽出されたか)と、数式(1)の重み係数αとを対応付けるテーブルである。具体的には、配置コストテーブル0900は行0901〜0903及び列0911〜0913からなる。
【0128】
行0901には、主キーワードが文書中の表から抽出された場合の重み係数αの値が登録される。行0902には、主キーワードが文書中の本文又はタイトルから抽出された場合の重み係数αの値が登録される。行0903には、主キーワードが文書中のヘッダ又はフッタから抽出された場合の重み係数αの値が登録される。
【0129】
列0911には、補助キーワードが文書中の表から抽出された場合の重み係数αの値が登録される。列0912には、補助キーワードが文書中の本文から抽出された場合の重み係数αの値が登録される。列0913には、補助キーワードが文書中のヘッダ又はフッタから抽出された場合の重み係数αの値が登録される。
【0130】
なお、図9の例では列0912が本文に対応するが、列0912は、補助キーワードが本文又はタイトルから抽出された場合に対応してもよい。また、上記のような領域の分類は一例に過ぎない。例えば、文書が段組みされている場合、各段が独立した領域として扱われてもよい。あるいは、ヘッダ及びフッタがそれぞれ独立した領域として扱われてもよい。
【0131】
図9の例において、主キーワード及び補助キーワードがいずれも文書中の表から抽出された場合、重み係数αの値は「α11」となる。主キーワードがタイトル又は本文から抽出され、補助キーワードが表から抽出された場合、重み係数αの値は「α21」となる。
【0132】
ユーザは、配置コストテーブル0900に重み係数αとして任意の値を登録することができる。ただし、一般に、主キーワードと補助キーワードとが文書中の同一の領域(例えばタイトル、本文、表、ヘッダ又はフッタ等)から抽出された場合、そうでない場合と比較して主キーワードと補助キーワードとの文脈上の距離が近いと推定される。後述するように、二つのキーワードの文脈上の距離が近いほど、それらのキーワードの関連が強い可能性が高い。このため、典型的には、主キーワードと補助キーワードとが文書中の同一の領域から抽出された場合のαの値が、そうでない場合と比較して大きくなるように設定される。例えば、典型的には、α11の値は、α21の値より大きい。
【0133】
主キーワード及び補助キーワードが同一の領域から抽出された場合、重み係数αの値は、さらに、それらのキーワードの位置関係に応じて決定されてもよい。
【0134】
具体的には、主キーワードが本文又はタイトルから抽出され、補助キーワードが本文から抽出された場合、重み係数αは、さらに、タイトル及び本文の中における主キーワード及び補助キーワードの位置に応じて決定される。
【0135】
例えば、主キーワード及び補助キーワードがそれぞれ互いに隣接する単語である場合、重み係数αの値は「α22a」となる。主キーワード及び補助キーワードが隣接しないが、同一の行に含まれる場合、重み係数αの値は「α22b」となる。主キーワード及び補助キーワードがそれぞれ異なる行に含まれるが、同一の段落に含まれる場合、重み係数αの値は「α22c」となる。主キーワード及び補助キーワードがそれぞれ異なる段落に含まれる場合、重み係数αの値は「α22d」となる。
【0136】
ユーザは、これらの値を任意に設定することができる。ただし、二つのキーワードが異なる段落に含まれるよりは同一の段落に含まれるほうが、二つのキーワードが異なる行に含まれるよりは同一の行に含まれるほうが、二つのキーワードが隣接しないよりは隣接するほうが、それらのキーワードの文脈上の距離が近い。文脈上の距離が近いほど、それらのキーワードの関連が強い可能性が高い。
【0137】
例えば、主キーワード「(株)××」と補助キーワード「作成」とが、連続する文字列「(株)××作成」から抽出された場合、これらのキーワードは互いに隣接している。この場合、通常、「(株)××」及び「作成」の文脈上の意味は互いに関連する。具体的には、上記の文字列は「(株)××」なる会社が何かを「作成」したことを意味し、図5(d)の例のように、それらのキーワードを含む文書自体が「(株)××」なる会社によって作成されたものである可能性がある。
【0138】
一方、例えば主キーワード「(株)××」と補助キーワード「作成」とが異なる段落から抽出された場合であっても、それらのキーワードが互いに関連している可能性はある。しかし、補助キーワード「作成」は、例えば「○○製作所作成」という文字列から抽出されたものである可能性もある。この場合、上記の抽出されたキーワードの組み合わせは、「(株)××」が何かを「作成」したことを意味しない。すなわち、「(株)××」と「作成」との間に文脈上の関連はない。この場合、それらのキーワードを含む文書自体が「(株)××」なる会社によって作成されたものである可能性は低い。
【0139】
「(株)××」なる会社によって作成された文書がセキュア文書であると判定する必要がある場合、主キーワード「(株)××」と補助キーワード「作成」とからなるキーワードペアを連携キーワードペアとして抽出することが望ましい。上記のような例を考慮すると、主キーワード「(株)××」と補助キーワード「作成」とが隣接する場合の連携度を、そうでない場合より高くなるように算出することが望ましい。このため、典型的には、α22dよりα22cの値が大きく、α22cよりα22bの値が大きく、α22bよりα22aの値が大きくなるように重み係数αの値が設定される。
【0140】
ただし、実際には、互いに離れた領域から抽出された主キーワードと補助キーワードとの連携度を高く算出すべき場合もある。例えば、図5(b)の例では、主キーワード「××」がフッタから抽出され、補助キーワード「仕様書」はタイトルから抽出される。このように配置されたキーワードペアを連携キーワードペアとして抽出したい場合、そのキーワードペアに対応する配置コストテーブル0900のα32の値をその他の値より大きく設定してもよい。ただし、その場合、列0912が本文だけでなくタイトルにも対応する。
【0141】
主キーワード及び補助キーワードがいずれも表から抽出された場合も、上記のα22の場合と同様、重み係数αは、さらに、表の中における主キーワード及び補助キーワードの位置に応じて決定される。
【0142】
例えば、主キーワード及び補助キーワードがそれぞれ表の中の互いに隣接するセルから抽出された場合、重み係数αの値は「α11a」となる。主キーワード及び補助キーワードが同一の表から(ただし互いに隣接するセル以外から)抽出された場合、重み係数αの値は「α11b」となる。主キーワード及び補助キーワードがそれぞれ別の表から抽出された場合、重み係数αの値は「α11c」となる。α22の場合と同様、ユーザはこれらの値を任意に設定することができる。例えば、上記のα22の場合と同様の理由で、α11cよりα11bが大きく、α11bよりα11aがさらに大きくなるように設定されてもよい。
【0143】
同様に、主キーワード及び補助キーワードがいずれもヘッダ又はフッタから抽出された場合、重み係数αは、さらに、ヘッダ又はフッタの中における主キーワード及び補助キーワードの位置に応じて決定される。
【0144】
例えば、主キーワード及び補助キーワードが同一の行から抽出された場合、重み係数αの値は「α33a」となり、それらが互いに異なる行から抽出された場合、重み係数αの値は「α33b」となる。α22の場合と同様、ユーザはこれらの値を任意に設定することができる。例えば、上記のα22の場合と同様の理由で、α33aがα33bより大きくなるように設定されてもよい。
【0145】
なお、セキュア文書辞書0504は、複数の配置コストテーブル0900を含んでもよい。例えば、図8Cに示したように、「北海道製作所」という文字列は連携キーワードペアとして抽出したいが、「北海道札幌市」という文字列に含まれる「北海道」は連携キーワードペアに含めたくない場合、「北海道」と「札幌市」(又は同様の北海道内の市町村名)との組み合わせに関する配置コストテーブル0900をさらに作成し、その中のα22aの値を、連携キーワードペアとして抽出されるべきキーワードペアの配置に与えられる値より小さい値(例えば「0」)としてもよい。その場合、「北海道札幌市」という文字列に関する連携度が低くなるため、文書のセキュア情報尤度判定に「北海道札幌市」のような文字列が与える影響を抑えることができる。
【0146】
図10は、本発明の第1の実施形態のセキュア文書辞書0504の説明図である。
【0147】
セキュア文書辞書0504は、セキュア辞書ヘッダ1001、複数のキーワード1011等、一つ以上の配置コストテーブル1021等及び一つ以上の特定様式1031等を含む。
【0148】
セキュア辞書ヘッダ1001は、セキュア文書辞書0504のバージョンを示す情報及びその辞書の内容を説明する情報を含む。
【0149】
キーワード1011等の各々は、キーワードとして指定された文字列及びそのキーワードに関する付加情報を含む。付加情報は、そのキーワードが主キーワード又は補助キーワードのいずれであるかを示す情報、そのキーワードと組み合わせられる主キーワード又は補助キーワードを特定する情報、そのキーワードの品詞(例えば会社名のような固有名詞又は「秘」のような普通名詞)を示す情報、及びキーワードの重要度を示す情報等を含む。この付加情報は、上記の「北海道札幌市」の例のように、セキュア情報尤度判定に影響すべきでないキーワードの組み合わせを特定する情報をさらに含んでもよい。
【0150】
さらに、キーワード1011等の各々は、主キーワード及び補助キーワードからなるキーワードペアの位置関係を示すベクトルデータを含んでもよい。このベクトルデータは、例えば図4のステップ0406において、入力された文書から抽出されたキーワードペアの位置関係を示すベクトルデータと比較される。
【0151】
図10にはキーワード1011等の例としてキーワード1_1011及びキーワード2_1012を示すが、セキュア文書辞書0504はさらに多くのキーワードを含んでもよい。
【0152】
配置コストテーブル1021等の各々は、図9を参照して説明した配置コストテーブル0900に相当するものであり、その配置コストテーブル1021等に対応する主キーワード及び補助キーワードの種類を示す情報、及びそれらの重み(重要度)を示す情報を含む。図9を参照して説明したように、複数の配置コストテーブル0900が作成されてもよい。例えば、キーワードペアの種類ごとに、それに対応する配置コストテーブル1021等が作成されてもよい。あるいは、特定のキーワードペアのみに対応する配置コストテーブル1021等が作成されてもよい。
【0153】
図10には配置コストテーブル1021等の例として配置コストテーブル1_1021及び配置コストテーブル2_1022を示すが、セキュア文書辞書0504はさらに多くの配置コストテーブルを含んでもよい。
【0154】
特定様式1031等の各々は、文書からその文書の様式(具体的には図8D及び図8Eに示すような特定のフォーマット又は図形等に対応するベクトルデータ)を抽出する方式及び範囲、及び、抽出されたベクトルデータと比較される様式ベクトルデータ(すなわち予めセキュア文書例0501から抽出され、登録された罫線又は印影等のベクトルデータ)を含む。図10には特定様式1031等の例として特定様式1_1031及び特定様式2_1032を示すが、セキュア文書辞書0504はさらに多くの特定様式を含んでもよい。
【0155】
なお、上記の第1の実施形態では、文書から抽出された二つのキーワードからなるキーワードペアについて、抽出された位置関係と予め登録された位置関係とを比較する例を示した。しかし、三つ以上のキーワードからなるキーワードのグループについて上記と同様の処理が実行されてもよい。例えば、三つのキーワード及びそれらの相互の位置関係を示すベクトルデータがセキュア文書辞書0504に登録されてもよい。その場合、入力された文書からそれらの三つのキーワード及びそれらの相互の位置関係を示すベクトルデータが抽出される。そして、抽出されたベクトルデータと登録されたベクトルデータとの類似度に基づいて、入力された文書がセキュア文書であるか否かが判定される。
【0156】
以上に説明した本発明の第1の実施形態によれば、入力された文書に含まれるキーワード等に基づいて、その文書がセキュアであるか否かが自動的に判定され、セキュアである場合には暗号化等を施して保管することができる。特に、本実施形態によれば、複数のキーワードの組み合わせと、それらの組み合わせの文脈上の距離と、に基づいて、複数のキーワードの文脈中における関連を考慮したセキュア文書判定が行われる。文書から抽出されたキーワードの組み合わせの連携度に基づいて、その組み合わせをセキュア文書判定に用いるか否かが判定される。これによって、本来セキュアであるべき文書の検出漏れ及び本来セキュアでない文書の誤検出のいずれも減らすことができ、高精度のセキュア文書判定を実現することができる。これによって、ユーザによる管理コストを抑えながら、セキュアな文書を確実に保護することができる。
【0157】
<第2の実施形態>
図11は、本発明の第2の実施形態のOCR一体型セキュア文書検出装置0200のハードウェア構成を示すブロック図である。
【0158】
OCR一体型セキュア文書検出装置0200は、図1に示した本発明のOCR一体型紙文書管理を実現する装置の一例である。
【0159】
本実施形態のOCR一体型セキュア文書検出装置0200は、操作端末装置0201、表示端末装置0202、外部記憶装置0203、メモリ0204、中央演算装置0205、通信装置0207、画像撮像装置0208、ソータ装置0209及びこれらを相互に接続する通信線0206を備える。
【0160】
操作端末装置0201、表示端末装置0202、外部記憶装置0203、メモリ0204、中央演算装置0205、通信装置0207及び通信線0206は、それぞれ第1の実施形態の操作端末装置0101、表示端末装置0102、外部記憶装置0103、メモリ0104、中央演算装置0105、通信装置0107及び通信線0106と同様であるため、それらに関する詳細な説明は省略する。
【0161】
画像撮像装置0208は、入力された紙文書0306に記載された文字、罫線及び図形等を読み取ってデータ化する光学スキャナを含む。このとき読み取られたデータは、テキストデータ及び画像データを含むファイルとして外部記憶装置0203に格納されてもよい。
【0162】
ソータ装置0209は、画像撮像装置0208による読み取りが終了した後の紙文書0306を排出する装置である。例えば、ソータ装置0209は、紙文書0306の排出先として複数の棚を備えてもよい。この場合、ソータ装置0209は、必要に応じて選択された棚に紙文書0306を排出することができる。
【0163】
なお、OCR一体型セキュア文書検出装置0200は、第1の実施形態のセキュア文書検出装置0100に、従来のOCR装置を画像撮像装置0208及びソータ装置0209として追加することによって実現されてもよい。その場合、例えば、図11の画像撮像装置0208及びソータ装置0209が図1のOCR装置0307に相当し、図11の残りの部分が図1の計算機0308に相当する。あるいは、OCR一体型セキュア文書検出装置0200全体が一つのOCR装置として実現されてもよい。
【0164】
OCR一体型セキュア文書検出装置0200の中央演算装置0205は、画像撮像装置0208によって読み取られたデータを用いて、入力された文書がセキュア文書であるか否かを判定する。その処理は図3から図10を参照して説明した第1の実施形態と同様であるため、それについての説明は省略する。
【0165】
さらに、本実施形態のOCR一体型セキュア文書検出装置0200は、ステップ0407の判定結果に基づいて、セキュア化電子文書0415を出力するだけでなく、画像撮像装置0208による読み取りが終了した後の紙文書0306の排出方法を選択することができる。これは、紙文書0306がセキュア文書である場合に、そこに含まれるセキュア情報を流出から保護するためである。
【0166】
例えば、OCR一体型セキュア文書検出装置0200は、セキュア文書であると判定された紙文書0306を、そうでない紙文書0306とは異なる位置に排出してもよい。ここで「異なる位置」とは、例えば「異なる棚」であってもよいし、「同一の棚の中の異なる位置」であってもよい。
【0167】
あるいは、OCR一体型セキュア文書検出装置0200は、セキュア文書であると判定された紙文書0306を加工して排出してもよい。ここで「加工」とは、紙文書0306がセキュア文書であることを示す表示(例えば「秘」のような文字等)を印刷することであってもよいし、紙文書0306上の文字等を読み取りにくくするための所定の図形パタン等を印刷することであってもよいし、それらの文字等の読み取りを不可能にするために紙文書0306を破砕することであってもよい。この場合、ソータ装置0209は印刷装置又はシュレッダのような文書加工装置を含む。
【0168】
あるいは、OCR一体型セキュア文書検出装置0200は、セキュア文書でないと判定された紙文書0306を通常の棚に排出し、セキュア文書であると判定された紙文書0306を排出しなくてもよい。この場合、セキュア文書であると判定された紙文書0306は、適切な権限を持ったユーザに取り出されるまで、OCR一体型セキュア文書検出装置0200の内部に蓄積される。
【0169】
なお、上記はステップ0407において文書がセキュア文書であるか否かを判定する例を示したが、ステップ0407においてこのような二値判定の代わりに多値判定が行われてもよい。例えば、OCR一体型セキュア文書検出装置0200は、算出されたセキュア情報尤度と複数の閾値とを比較することで、セキュア情報尤度のランクを判定してもよい。その場合、判定されたランクに応じて紙文書0306の排出方法が選択されてもよい。例えば、一体型セキュア文書検出装置0200は、最も高いランクの紙文書0306を破砕して排出し、それ以外のランクの紙文書0306を、それぞれのランクに割り当てられた棚に排出してもよい。
【0170】
以上に説明した本発明の第2の実施形態によれば、紙に印刷された文書について、第1の実施形態と同様の高精度のセキュア文書判定を実現し、それによってセキュアな電子文書を確実に保護することができる。さらに、セキュア文書判定の結果と、入力された紙の排出とを連動させることによって、ユーザの管理コストを抑えながら、セキュアな紙文書を確実に保護することができる。
【符号の説明】
【0171】
0100 セキュア文書検出装置
0101、0201 操作端末装置
0102、0202 表示端末装置
0103、0203 外部記憶装置
0104、0204 メモリ
0105、0205 中央演算装置
0106、0206 通信線
0107、0207 通信装置
0200 OCR一体型セキュア文書検出装置
0208 画像撮像装置
0209 ソータ装置
0301、0306 紙文書
0302 光学式文字読取装置(OCR装置)
0303、0305、0309、0310、0312 文書ファイル
0304、0308、0311 計算機
0501 セキュア文書例
0502 セキュア用語定義
0504 セキュア文書辞書
0511 非管理文書
0900 配置コストテーブル

【特許請求の範囲】
【請求項1】
セキュア文書検出装置が実行するセキュア文書検出方法であって、
前記セキュア文書検出装置は、演算装置と、辞書を保持する記憶装置と、を備え、
前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、
前記セキュア文書検出方法は、
入力された文書データから前記辞書に登録されたキーワードペアを抽出する第1手順と、
前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第2手順と、を含むことを特徴とするセキュア文書検出方法。
【請求項2】
前記第2手順は、
前記抽出されたキーワードペアに含まれる二つのキーワードの関連の強さに基づいて、前記抽出されたキーワードペアが連携キーワードペアであるか否かを判定する第3手順と、
前記連携キーワードペアに含まれる二つのキーワードの位置関係と、前記辞書に登録された前記二つのキーワードの位置関係との類似度が高いほど大きくなるように、前記入力された文書データのセキュア情報尤度を算出する第4手順と、
前記セキュア情報尤度が所定の閾値より大きい場合に、前記入力された文書データがセキュア文書であると判定する第5手順と、を含むことを特徴とする請求項1に記載のセキュア文書検出方法。
【請求項3】
前記セキュア文書検出方法は、さらに、前記入力された文書データに含まれるテキストを複数の領域に分類する手順を含み、
前記第3手順は、
前記二つのキーワードが含まれる前記領域に基づいて、前記二つのキーワードの関連の強さを算出する第6手順と、
前記関連の強さが所定の閾値を超えた場合、又は、前記入力された文書データにおける前記関連の強さの順位が所定の閾値を超えた場合、前記抽出されたキーワードペアが連携キーワードペアであると判定する第7手順と、を含むことを特徴とする請求項2に記載のセキュア文書検出方法。
【請求項4】
前記複数の領域は、タイトル、本文、表、ヘッダ又はフッタの少なくとも一つを含み、
前記辞書は、前記領域の組み合わせと所定の重みとを対応付ける配置コスト情報をさらに含み、
前記第6手順は、前記二つのキーワードが属する領域の組み合わせに対応する前記所定の重みが大きいほど大きくなるように、前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項3に記載のセキュア文書検出方法。
【請求項5】
前記辞書には、前記連携キーワードとして抽出されるべきでないキーワードペアがさらに登録され、
前記配置コスト情報には、前記連携キーワードとして抽出されるべきでないキーワードペアに対応する前記重みとして、その他のキーワードペアに対応する前記重みより小さい値が登録されることを特徴とする請求項4に記載のセキュア文書検出方法。
【請求項6】
前記セキュア文書検出方法は、さらに、前記入力された文書データに含まれるテキストをそれが読まれる順に並べ替える手順を含み、
前記第6手順は、前記テキストが読まれる順に基づいて、前記二つのキーワードの文脈上の距離を算出し、前記算出された文脈上の距離が近いほど大きくなるように前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項3に記載のセキュア文書検出方法。
【請求項7】
前記第6手順は、前記二つのキーワードの前記入力された文書データにおけるユークリッド距離が近いほど大きくなるように、前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項3に記載のセキュア文書検出方法。
【請求項8】
前記セキュア文字検出方法は、さらに、前記入力された文書データがセキュア文書であると判定された場合、前記入力された文書データを暗号化して出力する手順を含むことを特徴とする請求項1に記載のセキュア文書検出方法。
【請求項9】
前記セキュア文字検出方法は、さらに、セキュア文書であると判定されるべき文書及びその文書に含まれる二つのキーワードを指定する情報を入力されると、指定された二つのキーワードの位置関係を示す情報を抽出し、前記指定されたキーワード及び前記抽出された位置関係を示す情報を前記辞書に登録する手順を含むことを特徴とする請求項1に記載のセキュア文書検出方法。
【請求項10】
前記キーワードペアに含まれる二つのキーワードの位置関係を示す情報は、前記二つのキーワードの文書中の配置を示す方向及びそれらの間の距離を示すベクトルデータを含むことを特徴とする請求項1に記載のセキュア文書検出方法。
【請求項11】
計算機によって実行されるセキュア文書検出プログラムであって、
前記計算機は、演算装置と、前記セキュア文書検出プログラムを格納するメモリと、辞書を保持する記憶装置と、を備え、
前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、
前記セキュア文書検出プログラムは、
入力された文書データから前記辞書に登録されたキーワードペアを抽出する第1手順と、
前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第2手順と、を前記計算機に実行させることを特徴とするセキュア文書検出プログラム。
【請求項12】
前記第2手順は、
前記抽出されたキーワードペアに含まれる二つのキーワードの関連の強さに基づいて、前記抽出されたキーワードペアが連携キーワードペアであるか否かを判定する第3手順と、
前記連携キーワードペアに含まれる二つのキーワードの位置関係と、前記辞書に登録された前記二つのキーワードの位置関係との類似度が高いほど大きくなるように、前記入力された文書データのセキュア情報尤度を算出する第4手順と、
前記セキュア情報尤度が所定の閾値より大きい場合に、前記入力された文書データがセキュア文書であると判定する第5手順と、を含むことを特徴とする請求項11に記載のセキュア文書検出プログラム。
【請求項13】
前記セキュア文書検出プログラムは、さらに、前記入力された文書データに含まれるテキストを複数の領域に分類する手順を前記計算機に実行させ、
前記第3手順は、
前記二つのキーワードが含まれる前記領域に基づいて、前記二つのキーワードの関連の強さを算出する第6手順と、
前記関連の強さが所定の閾値を超えた場合、又は、前記入力された文書データにおける前記関連の強さの順位が所定の閾値を超えた場合、前記抽出されたキーワードペアが連携キーワードペアであると判定する第7手順と、を含むことを特徴とする請求項12に記載のセキュア文書検出プログラム。
【請求項14】
前記複数の領域は、タイトル、本文、表、ヘッダ又はフッタの少なくとも一つを含み、
前記辞書は、前記領域の組み合わせと所定の重みとを対応付ける配置コスト情報をさらに含み、
前記第6手順は、前記二つのキーワードが属する領域の組み合わせに対応する前記所定の重みが大きいほど大きくなるように、前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項13に記載のセキュア文書検出プログラム。
【請求項15】
前記セキュア文字検出プログラムは、さらに、前記入力された文書データがセキュア文書であると判定された場合、前記入力された文書データを暗号化して出力する手順を前記計算機に実行させることを特徴とする請求項11に記載のセキュア文書検出プログラム。
【請求項16】
前記セキュア文字検出方法は、さらに、セキュア文書であると判定されるべき文書及びその文書に含まれる二つのキーワードを指定する情報を入力されると、指定された二つのキーワードの位置関係を示す情報を抽出し、前記指定されたキーワード及び前記抽出された位置関係を示す情報を前記辞書に登録する手順を前記計算機に実行させることを特徴とする請求項11に記載のセキュア文書検出プログラム。
【請求項17】
入力された紙文書から文字情報を読み取る光学式文字読取装置であって、
前記光学式文字読取装置は、演算装置と、セキュア情報辞書を保持する記憶装置と、前記入力された紙文書を読み取る画像撮像装置と、前記入力された紙文書を排出する排紙装置と、を備え、
前記セキュア情報辞書には、各々が二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、
前記光学式文字読取装置は、
前記入力された紙文書から文字情報を読み取ることによって文書データを作成し、
前記文書データから前記セキュア文書辞書に登録されたキーワードペアを抽出し、
前記抽出されたキーワードペアに含まれる二つのキーワードの前記文書データ中の位置関係に基づいて、前記入力された紙文書がセキュア文書であるか否かを判定し、
前記判定の結果に応じて、前記入力された紙文書の排出方法を制御することを特徴とする光学式文字読取装置。
【請求項18】
前記排紙装置は、複数の棚を備え、
前記光学式文字読取装置は、セキュア文書であると判定された紙文書と、セキュア文書でないと判定された紙文書とが、異なる前記棚に排出されるように、前記入力された紙文書を排出することを特徴とする請求項17に記載の光学式文字読取装置。
【請求項19】
前記排紙装置は、印刷装置を備え、
前記光学式文字読取装置は、前記入力された紙文書がセキュア文書であると判定された場合、前記入力された紙文書にそれがセキュア文書であることを示す表示を印刷し、前記印刷された紙文書を排出することを特徴とする請求項17に記載の光学式文字読取装置。
【請求項20】
前記排紙装置は、読み取り困難になるように前記入力された紙文書を加工する加工装置を備え、
前記光学式文字読取装置は、前記入力された紙文書がセキュア文書であると判定された場合、読み取り困難になるように前記入力された紙文書を加工し、前記加工された紙文書を排出することを特徴とする請求項17に記載の光学式文字読取装置。

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8A】
image rotate

【図8B】
image rotate

【図8C】
image rotate

【図8D】
image rotate

【図8E】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図1】
image rotate


【公開番号】特開2011−221894(P2011−221894A)
【公開日】平成23年11月4日(2011.11.4)
【国際特許分類】
【出願番号】特願2010−92071(P2010−92071)
【出願日】平成22年4月13日(2010.4.13)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】