セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置

【課題】簡易な定義で高精度にセキュアな文書を検出する。
【解決手段】セキュア文書検出装置が実行するセキュア文書検出方法であって、前記セキュア文書検出装置は、演算装置と、辞書を保持する記憶装置と、を備え、前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、前記セキュア文書検出方法は、入力された文書データから前記辞書に登録されたキーワードペアを抽出する第１手順と、前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第２手順と、を含む。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、情報のセキュリティを管理する技術に関し、特に、記憶装置に格納された文書又は印刷された文書からセキュアな文書を検出する技術に関する。
【背景技術】
【０００２】
情報セキュリティに対する社会的関心の高まりに伴って、サーバ又は個人が所有するパーソナルコンピュータ（ＰＣ）に格納された大量の電子文書中に、セキュアな情報が存在するか否かを高精度に自動検出する技術が求められている。ここでセキュアな情報とは、例えば自社の秘密情報、他社の秘密情報又は個人情報のような、機密を保持する必要がある情報である。このような自動検出の技術として、例えば特許文献１が開示されている。
【０００３】
特許文献１に記載された機密文書検出システムは、入力された文書を複数の領域に分割し、各領域に対応する辞書を参照することによって各領域の特徴要素を検出し、検出された特徴要素に基づいて各文書が属する機密情報カテゴリを判定する。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００６−２０９６４９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
個人のＰＣのチェックツールのような、従来のテキスト検索を用いた場合、セキュア文書の誤検出が多いため、人間が点検する手間が多く必要であった。また、従来のセキュア文書検出では、検出したいキーワードをユーザが指定することはできるが、多様な様式の文書に対応することは困難であった。
【０００６】
例えば、特許文献１に記載された機密文書検出システムは、領域ごとに特徴要素を検出するが、定義されていない領域に出現した特徴要素を検出することはできない。さらに、この機密文書検出システムは、キーワードと、それが検出された領域との対応に基づいて機密情報カテゴリを判定するが、複数のキーワードの関係に基づいて機密情報カテゴリを判定することはできない。
【課題を解決するための手段】
【０００７】
本発明の代表的な一例を示せば、次の通りである。すなわち、セキュア文書検出装置が実行するセキュア文書検出方法であって、前記セキュア文書検出装置は、演算装置と、辞書を保持する記憶装置と、を備え、前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、前記セキュア文書検出方法は、入力された文書データから前記辞書に登録されたキーワードペアを抽出する第１手順と、前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第２手順と、を含むことを特徴とする。
【発明の効果】
【０００８】
本発明の一実施形態によれば、入力される文書の種類が増えた場合にも、簡易な定義で高精度にセキュアな文書を検出することができる。
【図面の簡単な説明】
【０００９】
【図１】本発明の実施形態の概要を示すブロック図である。
【図２】本発明の第１の実施形態のセキュア電子文書管理システムのハードウェア構成を示すブロック図である。
【図３】本発明の第１の実施形態のセキュア文書検出装置が実行する処理の全体を示す説明図である。
【図４】本発明の第１の実施形態の文書要素抽出処理及びセキュア文書判定処理の詳細な手順を説明するフローチャートである。
【図５】本発明の第１の実施形態のセキュア文書検出装置に入力されるセキュア文書の具体例の説明図である。
【図６】本発明の第１の実施形態のセキュア文書検出装置が実行する複数のキーワードの組み合わせに基づくセキュア文書検出の説明図である。
【図７】本発明の第１の実施形態のセキュア文書検出装置によって識別されるブロックの説明図である。
【図８Ａ】本発明の第１の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第１の具体例を示す説明図である。
【図８Ｂ】本発明の第１の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第２の具体例を示す説明図である。
【図８Ｃ】本発明の第１の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第３の具体例を示す説明図である。
【図８Ｄ】本発明の第１の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第４の具体例を示す説明図である。
【図８Ｅ】本発明の第１の実施形態のセキュア文書検出装置が実行するキーワード抽出及びセキュア文書判定の第５の具体例を示す説明図である。
【図９】本発明の第１の実施形態のセキュア文書辞書に含まれる配置コストテーブルの説明図である。
【図１０】本発明の第１の実施形態のセキュア文書辞書の説明図である。
【図１１】本発明の第２の実施形態のＯＣＲ一体型セキュア文書検出装置のハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【００１０】
以下、図面を用いて本発明の実施の形態を説明する。
【００１１】
図１は、本発明の実施形態の概要を示すブロック図である。
【００１２】
最初に、従来のセキュア紙文書管理について説明する。
【００１３】
光学式文字読み取り装置（ＯＣＲ装置）０３０２は、入力された紙文書０３０１を読み取り、文書ファイル０３０３を作成する。この文書ファイル０３０３には、紙文書０３０１に記載された画像、テキスト又はその両方のデータが含まれる。この文書ファイルは、例えばＰＤＦ（Portable Document Format）（登録商標）ファイルであってもよい。ユーザは、計算機０３０４によって表示された文書ファイル０３０３を参照して、その文書ファイル０３０３がセキュアであるか否かを判定し、その結果を計算機０３０４に入力する。文書ファイル０３０３がセキュアであると判定した場合、ユーザは、文書ファイル０３０３をロックする指示を計算機０３０４に入力してもよい。計算機０３０４は、文書ファイル０３０３をロックすることによって、ロックされた文書ファイル０３０５を作成し、この文書ファイル０３０５を出力する。なお、ロックとは、文書ファイル０３０５の閲覧を制限するための処理を意味し、その典型的な例は暗号化である。
【００１４】
次に、本発明の実施形態の一つであるＯＣＲ一体型セキュア紙文書管理について説明する。
【００１５】
入力される紙文書０３０６は、既に説明した紙文書０３０１と同様のものであってよい。ＯＣＲ装置０３０７は、入力された紙文書０３０６を読み取り、紙文書０３０６に含まれる画像情報及びテキスト情報を抽出する。計算機０３０８は、抽出された情報にセキュアな情報が含まれるか否かを判定する。抽出された情報にセキュアな情報が含まれると判定された場合、計算機０３０８は、抽出された情報を含む、ロックされた文書ファイル０３０９を作成し、出力する。これらの判定及び作成はユーザの介在なしに自動的に実行されるため、計算機０３０８はロックされる前の文書ファイルを表示する必要がない。このため、ＯＣＲ装置０３０７及び計算機０３０８のいずれも、ロックされていない文書ファイルを上記の判定の前に作成する必要がない。また、ユーザは文書ファイルをロックする指示を計算機０３０８に入力する必要がない。
【００１６】
なお、作成された文書ファイルがセキュアであることは、元の紙文書０３０６もセキュアであることを意味する。このため、計算機０３０８は、文書ファイルがセキュアであるか否かの判定結果に基づいて、ＯＣＲ装置０３０７による紙文書０３０６の排出方法を制御してもよい。
【００１７】
このＯＣＲ一体型セキュア紙文書管理の詳細については、本発明の第２の実施形態として後述する。
【００１８】
次に、本発明のもう一つの実施形態であるセキュア電子文書管理について説明する。
【００１９】
計算機０３１１は、文書ファイル０３１０を入力されると、その文書ファイル０３１０がセキュアか否かを判定する。文書ファイル０３１０は、例えば文書ファイル０３０３と同様のものであってもよい。計算機０３１１は、文書ファイル０３１０がセキュアであると判定された場合、それをロックすることによって、ロックされた文書ファイル０３１２を作成し、出力する。上記のＯＣＲ一体型セキュア紙文書管理の場合と同様、これらの判定及び作成はユーザの介在なしに自動的に実行される。
【００２０】
このセキュア電子文書管理の詳細については、本発明の第１の実施形態として後述する。
【００２１】
なお、上記の説明ではテキスト等のデータを含む文書ファイルの例としてＰＤＦファイルを挙げたが、これらの文書ファイルはＰＤＦ以外の形式の文書ファイル又は図面ファイルであってもよい。
【００２２】
＜第１の実施形態＞
図２は、本発明の第１の実施形態のセキュア文書検出装置０１００のハードウェア構成を示すブロック図である。
【００２３】
セキュア文書検出装置０１００は、図１に示した本発明のセキュア電子文書管理を実現する装置の一例である。
【００２４】
本実施形態のセキュア文書検出装置０１００は、操作端末装置０１０１、表示端末装置０１０２、外部記憶装置０１０３、メモリ０１０４、中央演算装置０１０５、通信装置０１０７及びこれらを相互に接続する通信線０１０６を備える。セキュア文書検出装置０１００は、例えば一般的なパーソナルコンピュータであってもよい。
【００２５】
操作端末装置０１０１は、例えばキーボード又はマウス等であり、ユーザが指示又はデータ等をセキュア文書検出装置０１００に入力するために使用される。
【００２６】
表示端末装置０１０２は、例えば液晶表示装置のような、テキスト及び画像等を表示する装置である。
【００２７】
外部記憶装置０１０３は、例えばハードディスク装置又はフラッシュメモリのような記憶装置であり、入力された文書データ（例えば文書ファイル０３１０）及び出力された文書データ（例えばロックされた文書ファイル０３１２）を格納する。さらに、本実施形態を実現するために中央演算装置０１０５によって実行されるプログラム等が格納されてもよい。
【００２８】
メモリ０１０４は、例えば半導体メモリであり、中央演算装置０１０５によって実行されるプログラム及び参照されるデータ等を格納する。外部記憶装置０１０３に格納されたプログラム及びデータ等の少なくとも一部が必要に応じてメモリ０１０４にコピーされてもよい。
【００２９】
中央演算装置０１０５は、メモリ０１０４に格納されたプログラムを実行し、必要に応じて操作端末装置０１０１、表示端末装置０１０２、外部記憶装置０１０３及び通信装置０１０７を制御する。以下の説明においてセキュア文書検出装置０１００が実行する処理は、実際には中央演算装置０１０５によって実行される。
【００３０】
通信装置０１０７は、ネットワーク（図示省略）に接続され、そのネットワークに接続された他の装置（図示省略）と通信するインターフェースである。例えば、通信装置０１０７は入力データとして文書ファイル０３１０を受信し、ロックされた文書ファイル０３１２を送信してもよい。
【００３１】
図３は、本発明の第１の実施形態のセキュア文書検出装置０１００が実行する処理の全体を示す説明図である。
【００３２】
セキュア文書検出装置０１００が実行する処理は、学習フェーズ０５００と利用フェーズ０５１０とに分けられる。
【００３３】
学習フェーズ０５００において、セキュア文書検出装置０１００は、入力された情報に基づいてセキュア文書辞書０５０４を作成する。
【００３４】
具体的には、例えば、ユーザがセキュア文書例０５０１及びセキュア用語定義０５０２をセキュア文書検出装置０１００に入力する。
【００３５】
セキュア文書例０５０１は、セキュアな文書として検出されるべきであるとユーザが考える実際の文書ファイルである。セキュア文書例０５０１は、例えば通信装置０１０７を介してセキュア文書検出装置０１００に入力されてもよい。
【００３６】
セキュア用語定義０５０２は、セキュア文書検出に用いられるキーワードのリストである。ユーザは、セキュアな文書として検出されるべき文書に含まれる文字列からなるキーワードのリストを、セキュア用語定義０５０２としてセキュア文書検出装置０１００に入力することができる。特に、例えば「××製作所」のような文書の作成者又は所有者を示す文字列と、「設計書」のような文書の種類を示す文字列との組み合わせを含む文書をセキュア文書として検出する必要がある場合、ユーザは、このような文字列からなるキーワードの組み合わせ（以下、キーワードペアとも記載）を、セキュア用語定義０５０２としてセキュア文書検出装置０１００に入力することができる。セキュア用語定義０５０２は、例えば通信装置０１０７を介して入力されてもよいし、操作端末装置０１０１を介して入力されてもよい。
【００３７】
セキュア文書検出装置０１００は、入力されたセキュア文書例０５０１及びセキュア用語定義０５０２に基づいて、セキュア辞書学習処理０５０３を実行する。その結果、セキュア文書辞書０５０４が作成される。セキュア文書辞書０５０４には、後述するように（図１０参照）、キーワードとして登録された文字列の組み合わせ、各キーワードペアに含まれる二つのキーワードの文書上の位置関係、等を示す情報が含まれる。なお、二つのキーワードの位置関係を示す情報は、例えば、それらのキーワードが配置される方向及び距離を表すベクトルである。このようなキーワードペアに含まれる二つのキーワードの位置関係を、以下、「キーワードペアの位置関係」とも記載する。
【００３８】
次に、利用フェーズ０５１０について説明する。ユーザは、セキュア文書検出装置０１００に非管理文書０５１１を入力する。非管理文書０５１１は、ユーザがこれから管理しようとする文書であり、言い換えると、それがセキュアな情報を含んでいるか否かを判定する必要がある文書である。その判定結果に応じて、その文書の管理方法（例えば文書をロックするか否か等）が決定される。非管理文書０５１１は、例えば、図１の文書ファイル０３１０に相当する。
【００３９】
セキュア文書検出装置０１００は、入力された非管理文書０５１１について、文書要素抽出処理０５１２を実行する。これによって、非管理文書０５１１から文書要素、すなわち、テキスト、キーワード（ＫＷ）、罫線、キーワードの位置を示す情報、及びブロックの配置を示す情報等が抽出される。なお、キーワード及びその位置を抽出するために、セキュア文書辞書０５０４に含まれるキーワード情報０５１３が参照される。
【００４０】
入力された非管理文書０５１１のファイル形式と、文書要素抽出処理０５１２によって処理できるファイル形式とが異なる場合、セキュア文書検出装置０１００は、文書変換処理０５１７を実行して、入力された非管理文書０５１１のファイル形式を変換する。例えば、文書要素抽出処理０５１２がＰＤＦファイルしか処理できないにもかかわらず、それ以外の形式のファイル（例えば一般的な文書作成ソフトウェアによって作成された文書ファイル）が非管理文書０５１１として入力された場合、文書変換処理０５１７によって、非管理文書０５１１のファイル形式がＰＤＦに変換される。
【００４１】
次に、セキュア文書検出装置０１００は、文書要素抽出処理０５１２によって抽出された文書情報０５１８について、セキュア文書判定処理０５１５を実行する。具体的には、セキュア文書検出装置０１００は、文書情報０５１８と、セキュア文書辞書０５０４に含まれるパタン情報・配置尤度０５１４と、を参照して、入力された非管理文書０５１１のセキュア情報尤度を算出し、それに基づいて、非管理文書０５１１がセキュア文書であるか否か（すなわちセキュアな情報を含むか否か）を判定する。
【００４２】
そして、セキュア文書検出装置０１００は、セキュア文書判定処理０５１５の結果０５１６を出力する。この結果は非管理文書０５１１がセキュア文書であるか否かを示す情報を含み、さらに、セキュア尤度又はそれに基づく危険度を示す情報等を含んでもよい。
【００４３】
なお、セキュア文書辞書０５０４を予め保持していれば、セキュア文書検出装置０１００は、学習フェーズ０５００を実行せずに、利用フェーズ０５１０のみを実行することができる。例えば、ユーザは、セキュア文書検出装置０１００のメーカが作成したセキュア文書辞書０５０４を取得してもよいし、他のユーザが学習フェーズ０５００を実行することによって作成したセキュア文書辞書０５０４を取得してもよい。
【００４４】
図４は、本発明の第１の実施形態の文書要素抽出処理０５１２及びセキュア文書判定処理０５１５の詳細な手順を説明するフローチャートである。
【００４５】
セキュア文書検出装置０１００は、入力された電子文書ファイル０４１１について、文書要素を抽出する（ステップ０４０１）。具体的には、セキュア文書検出装置０１００は、電子文書ファイル０４１１から、その電子文書に含まれるテキストの文字情報、その文字が書かれる紙面上の位置、罫線の位置、等を抽出する。これによって、各文字が抽出され、さらに、各文字の位置及び罫線の位置から、各行に相当する文字列が特定される。なお、電子文書ファイル０４１１は、図３の非管理文書０５１１に相当する。
【００４６】
次に、セキュア文書検出装置０１００は、抽出された文書要素を用いて、文書構造を解析する（ステップ０４０２）。具体的には、セキュア文書検出装置０１００は、抽出された文字及び罫線の位置等に基づいて、文書上の文字をブロックに分ける。例えば、文書がヘッダ、フッタ及び本文からなる場合、ヘッダ、フッタ及び本文がそれぞれ一つのブロックとして識別される。本文が段組みされている場合、各段が一つのブロックとして識別される。文書に表が含まれる場合、その表が一つのブロックとして識別される。セキュア文書検出装置０１００は、ステップ０４０２において文書構造辞書（図示省略）を参照してもよい。これによって、ステップ０４０１で抽出された各行が属するブロックが特定される。このような文書構造の解析は、公知の方法によって行うことができる。例えば、Ｘ−Ｙ再帰的解析法、文字列間移動距離最小法などの手法がある。
【００４７】
次に、セキュア文書検出装置０１００は、ブロック及び行を、テキストの読み順（言い換えると、それらが文書中に現れる順）に整合するように並べ替える（ステップ０４０３）。これによって、各ブロック内の行がテキストの読み順に並べ替えられ、さらに、ブロックもテキストの読み順に並べ替えられる。例えば本文が複数のブロックからなる場合、それらのブロックがテキストの読み順に並べ替えられる。この並べ替えも、ステップ０４０２と同様、公知の方法によって行うことができる。
【００４８】
次に、セキュア文書検出装置０１００は、文書要素を抽出する（ステップ０４０４）。具体的には、セキュア文書検出装置０１００は、罫線、及び、その罫線等によって形成されたレイアウトを抽出する。さらに、セキュア文書検出装置０１００は、ステップ０４０１において抽出された文字列からキーワードを抽出する。具体的には、セキュア文書検出装置０１００は、セキュア文書辞書のキーワード情報０４１２に登録されたキーワードを検索キーとして、ステップ０４０１において抽出された文字列を検索する。キーワード情報０４１２は、図３のキーワード情報０５１３に相当する。
【００４９】
次に、セキュア文書検出装置０１００は、セキュア文書辞書に含まれるパタン情報０４１３を用いてセキュア情報尤度を算出する（ステップ０４０５）。セキュア情報尤度とは、入力された文書のセキュア文書らしさを示す指標である（詳細は後述）。パタン情報０４１３は、図３のパタン情報・配置尤度０５１４の一部に相当する。
【００５０】
次に、セキュア文書検出装置０１００は、セキュア文書辞書に含まれる配置尤度情報０４１４を用いてセキュア情報尤度を算出する（ステップ０４０６）。配置尤度情報０４１４は、図３のパタン情報・配置尤度０５１４の一部に相当する。
【００５１】
セキュア情報尤度の算出については後述する（図８〜図９及び数式（１）〜（３）等参照）。
【００５２】
セキュア文書検出装置０１００は、ステップ０４０５及び０４０６において算出されたセキュア情報尤度に基づいて、入力された電子文書がセキュア文書であるか否かを判定する（ステップ０４０７）。例えば、セキュア文書検出装置０１００は、算出されたセキュア情報尤度が所定の閾値より大きい場合、入力された電子文書がセキュア文書であると判定してもよい。ユーザがこの閾値を設定してもよい。
【００５３】
ステップ０４０７において、入力された電子文書がセキュア文書である（すなわち「Ｙｅｓ」）と判定された場合、セキュア文書検出装置０１００は、入力された電子文書ファイル０４１１をロックする（ステップ０４０８）。一方、入力された電子文書がセキュア文書でない（すなわち「Ｎｏ」）と判定された場合、セキュア文書検出装置０１００はステップ０４０８を実行しない。
【００５４】
次に、セキュア文書検出装置０１００は、電子文書を出力する（ステップ０４０９）。具体的には、セキュア文書検出装置０１００は、ステップ０４０７で「Ｙｅｓ」の場合、ロックされた電子文書を出力し、「Ｎｏ」の場合、ロックされていない電子文書（すなわち入力された電子文書ファイル０４１１そのもの）を出力する。出力された電子文書０４１５（図１の文書ファイル０３１２に相当）は、外部記憶装置０１０３に格納される。さらに、セキュア文書検出装置０１００は、セキュア情報尤度そのものを出力してもよいし、セキュア情報尤度に基づいて決定される危険度（又は要求される保護レベル）を出力してもよい。
【００５５】
なお、上記はステップ０４０７において文書がセキュア文書であるか否かを判定する例を示したが、ステップ０４０７においてこのような二値判定の代わりに多値判定が行われてもよい。例えば、セキュア文書検出装置０１００は、算出されたセキュア情報尤度と複数の閾値とを比較することで、セキュア情報尤度のランクを判定してもよい。その場合、判定されたランクに応じて電子文書の出力方法（例えば使用する暗号の強度等）が選択されてもよい。例えば、セキュア文書検出装置０１００は、より高いランクの電子文書ファイル０４１１を暗号化するために、より長い暗号鍵を使用してもよい。
【００５６】
以下、図４の処理の詳細を説明する。
【００５７】
図５は、本発明の第１の実施形態のセキュア文書検出装置０１００に入力されるセキュア文書の具体例の説明図である。
【００５８】
本発明は、アクセスを制限する必要があるセキュア文書に適用することができる。そのようなセキュア文書の典型例は、自社が作成した自社の機密情報を含む文書、他社から取得した当該他社の機密情報を含む文書、又は顧客等の個人情報を含む文書、等である。このような典型例について説明する。
【００５９】
図５（ａ）〜図５（ｃ）は、文書のタイトル及び特定の企業の名称が表示されたセキュア文書の例である。例えば、文書の表紙のタイトルに「設計書」、「仕様書」又は「アライアンス」等の特定の文字列が含まれ、さらに、その表紙に（例えばその文書の作成者又はその文書の配布先として）特定の企業名「××」又は「××製作所」が含まれる。なお、図５に表示されたアンダーライン０６０１は、各文書に表示された特定の文字列及び企業名等を指し示して本実施形態を説明するために表示したものであり、そのアンダーライン０６０１自体が文書に表示されているわけではない。
【００６０】
図５（ｄ）〜図５（ｆ）は、ヘッダ等に特定の文字列（例えば企業名）を含み、さらにその文字列の隣に特定の接頭辞又は接尾辞を含むセキュア文書の例である。図５（ｄ）の例では、特定の文字列「（株）××」の隣に特定の接尾辞「作成」が表示される。図５（ｅ）の例では、特定の文字列「××」の隣に特定の接尾辞「ｃｏｎｆｉｄｅｎｔｉａｌ」が表示される。図５（ｅ）の例では、特定の文字列「××」の隣に特定の接尾辞「Ｐｒｅｐｅａｒｄ」が表示される。
【００６１】
図５（ｇ）及び図５（ｈ）は、それぞれ設計図面及び製品仕様書の例である。この種の文書は、必ずしも特定の文字列を含んでいないが、罫線を用いた特定のフォーマットを有する場合が多い。
【００６２】
図５（ｉ）は、機密情報を含むことを示す文字列又は図形（例えば、「秘」のような文字を含む印影）が表示された文書の例である。
【００６３】
図５（ｊ）及び図５（ｋ）は、文書中に特定の文字列と特定の接頭辞又は接尾辞とが混在している例を示す。
【００６４】
図５（ｊ）の例では、本文中に「北海道」及びそれに連続して「札幌市」と表示され、フッタに「北海道」及びそれに連続して「製作所」が表示されている。この場合、本文中の「北海道」は単なる地名であるが、フッタの「北海道」は特定の企業名（又はその一部）である。
【００６５】
図５（ｋ）の例では、本文中に人名を示す特定の文字列「××△△」が表示され、さらにその前後に隣接して文字列「出席」及び「様」が表示されている。
【００６６】
本実施形態のセキュア文書検出装置０１００は、入力された文書に含まれるキーワード、そのキーワードが記載された位置、及びその文書のフォーマット等に基づいてこれらのセキュア文書を検出する。
【００６７】
図５に示す文書は、例えばセキュア文書例０５０１としてセキュア文書検出装置０１００に入力されてもよいし、非管理文書０５１１（すなわち電子文書ファイル０４１１）としてセキュア文書検出装置０１００に入力されてもよい。
【００６８】
例えば、図５（ａ）に示す文書がセキュア文書例０５０１として入力され、さらに、文字列「設計書」及び「××製作所」がセキュア用語定義０５０２として入力された場合、それらの入力に基づいてセキュア辞書学習処理０５０３が実行される。その結果、文字列「設計書」及び「××製作所」がキーワードとしてセキュア文書辞書０５０４に登録される。さらに、それらのキーワードの位置関係（例えばそれらの間の距離及びそれらが配置される方向を表すベクトル）もセキュア文書例０５０１から抽出され、セキュア文書辞書０５０４に登録される。このとき、例えば「××製作所」が主キーワード、「設計書」が補助キーワードとして、それらの組（キーワードペア）が登録されてもよい。
【００６９】
なお、本実施形態では主に会社名「××製作所」のような固有名詞を主キーワード、「設計書」のような普通名詞を補助キーワードとして扱う例を示すが、実際には任意の文字列を主キーワード及び補助キーワードとして登録することができる。例えば、補助キーワード「××製作所」と主キーワード「設計書」とからなるキーワードペアが登録されてもよい。
【００７０】
図５（ａ）に示す文書が非管理文書０５１１（すなわち電子文書ファイル０４１１）として入力された場合、その文書から抽出された複数のキーワード及びそれらの位置関係と、登録されている複数のキーワード及びそれらの位置関係とが参照され、その文書がセキュア文書であるか否かが判定される。
【００７１】
図５（ｂ）〜図５（ｆ）、図５（ｊ）及び図５（ｋ）に示す文書も上記と同様である。すなわち、それらの文書に含まれる会社名、文書タイトル、接頭辞及び接尾辞等の文字列が主キーワード又は補助キーワードとして登録され、それらのキーワードに基づいて入力された文書がセキュア文書であるか否かが判定される。
【００７２】
なお、図５に示す文書は典型例に過ぎず、本発明はあらゆる種類のセキュア文書に適用することができる。
【００７３】
図６は、本発明の第１の実施形態のセキュア文書検出装置０１００が実行する複数のキーワードの組み合わせに基づくセキュア文書検出の説明図である。
【００７４】
図６に示す文書０７０１が非管理文書０５１１として入力されると、セキュア文書検出装置０１００は、入力された文書から、自社名を示す主キーワード「××」と補助キーワード「ｃｏｎｆｉｄｅｎｔｉａｌ」とからなるキーワードペア、及び、他社名を示すキーワード「北海道」と補助キーワード「作成」とからなるキーワードペアを抽出する。そして、セキュア文書検出装置０１００は、抽出されたキーワードペア及び各キーワードペアの位置関係を、セキュア文書辞書０５０４に登録された情報と比較することによって、セキュア情報尤度を算出する。
【００７５】
図７は、本発明の第１の実施形態のセキュア文書検出装置０１００によって識別されるブロックの説明図である。
【００７６】
具体的には、図７には、図４のステップ０４０２において抽出され、ステップ０４０３において並べ替えられたブロックの具体例を示す。
【００７７】
図７（ａ）に示す文書０８２０は、タイトル０８５１、著者名０８５２及び本文０８５３からなる。この文書０８２０が電子文書ファイル０４１１として入力された場合、セキュア文書検出装置０１００は、ブロックＢ１＿０８０１、ブロックＢ２＿０８０２及びブロックＢ３＿０８０３を抽出する（ステップ０４０２）。ブロックＢ１＿０８０１はタイトル０８５１が表示された領域に、ブロックＢ２＿０８０２は著者名０８５２が表示された領域に、ブロックＢ３＿０８０３は本文０８５３が表示された領域に相当する。
【００７８】
図７（ｂ）に示す文書０８３０は、本文０８５５及び本文０８５６を含む。この例において本文は段組みされており、本文０８５５及び本文０８５６が各段に相当し、本文０８５６は本文０８５５の次に読まれるべきものである。この文書０８３０が電子文書ファイル０４１１として入力された場合、セキュア文書検出装置０１００は、本文０８５５が表示された領域に相当するブロックＢ５＿０８０５、及び、本文０８５６が表示された領域に相当するブロックＢ６＿０８０６を抽出する（ステップ０４０２）。さらに、セキュア文書検出装置０１００は、本文の読み順と同様、ブロックＢ６＿０８０６がブロックＢ５＿０８０５の後に続くようにこれらのブロックを並べ替える（ステップ０４０３）。
【００７９】
図７（ｃ）に示す文書０８４０は、本文０８５７、本文０８５８、脚注０８５９、ヘッダ０８６０及びフッタ０８６１を含む。この例において本文は段組みされており、本文０８５７及び本文０８５８が各段に相当し、本文０８５８は本文０８５７の次に読まれるべきものである。
【００８０】
この文書０８４０が電子文書ファイル０４１１として入力された場合、セキュア文書検出装置０１００は、ブロックＢ７＿０８０７、ブロックＢ８＿０８０８、ブロックＢ９＿０８０９、ブロックＢ１０＿０８１０及びブロックＢ１１＿０８１１を抽出する（ステップ０４０２）。ブロックＢ７＿０８０７及びブロックＢ８＿０８０８はそれぞれ本文０８５７及び本文０８５８が表示された領域に、ブロックＢ９＿０８０９は脚注０８５９が表示された領域に、ブロックＢ１０＿０８１０及びブロックＢ１１＿０８１１はそれぞれヘッダ０８６０及びフッタ０８６１が表示された領域に相当する。
【００８１】
さらに、セキュア文書検出装置０１００は、本文の読み順と同様、ブロックＢ８＿０８０８がブロックＢ７＿０８０７の後に続くようにこれらのブロックを並べ替える（ステップ０４０３）。
【００８２】
図８Ａ〜図８Ｅは、本発明の第１の実施形態のセキュア文書検出装置０１００が実行するキーワード抽出及びセキュア文書判定の具体例を示す説明図である。
【００８３】
図８Ａの例では、電子文書ファイル０４１１として文書０６１０が入力される。文書０６１０は、図５（ａ）に示したものと同じである。この文書０６１０には文字列「設計書」０６１１及び「××製作所」０６１２が含まれる。例えば、会社名に相当する主キーワード「××製作所」と、補助キーワード「設計書」との組み合わせ（キーワードペア）がキーワード情報０４１２に登録されている場合、セキュア文書検出装置０１００は、ステップ０４０４のキーワード抽出処理によって文字列「設計書」０６１１及び「××製作所」０６１２をそれぞれ補助キーワード０６１３及び主キーワード０６１４として抽出する。
【００８４】
なお、図８Ａの左側の文書０６１０は、入力される文書に実際に表示されている文字等を示す。一方、中央及び右側の文書０６１０は、キーワード抽出処理を説明するための図面である。すなわち、二重線の楕円及び二重線の長方形等の図形、並びに、「会社名」及び「補助ＫＷ」等の文字は、実際に文書０６１０に表示されているものではなく、キーワード抽出処理を説明する便宜上付与したものである。これは、図８Ｂ〜図８Ｅについても同様である。
【００８５】
さらに、セキュア文書検出装置０１００は、抽出された主キーワード０６１４及び補助キーワード０６１３の位置関係に基づいて、両者の関連の強さを算出し、その関連の強さ等に基づいて、抽出されたキーワードペアが連携キーワードペアであるか否かを判定する。本実施形態では、二つのキーワード間のユークリッド距離、及び、それぞれのキーワードの文脈上の距離に基づいて、両者の関連の強さが算出される。連携キーワードペアの意義については図８Ｃ等を参照して、連携キーワードペアの判定基準については数式（１）等を参照してそれぞれ後述する。
【００８６】
抽出された主キーワード０６１４及び補助キーワード０６１３が連携キーワードペアである場合、それらの位置関係、具体的には位置関係を表すベクトル０６１５が抽出される。このベクトル０６１５は、主キーワード０６１４から補助キーワード０６１３に向かう方向、及び、それらの間の距離を表す。このベクトル０６１５と、セキュア文書辞書０５０４に登録されている主キーワード「××製作所」と補助キーワード「設計書」との位置関係を示すベクトルとの類似度が所定の閾値より高い場合、文書０６１０がセキュア文書であると判定される。
【００８７】
なお、ユーザが予め学習フェーズ０５００において文書０６１０をセキュア文書例０５０１としてセキュア文書検出装置０１００に入力し、さらに、主キーワード「××製作所」と補助キーワード「設計書」との組み合わせをセキュア用語定義０５０２として入力すれば、主キーワード「××製作所」と補助キーワード「設計書」との組み合わせ、及び、文書０６１０におけるそれらのキーワードの位置関係を示す情報がキーワード情報０４１２としてセキュア文書辞書０５０４に登録される。その後、文書０６１０（又は、文書０６１０と同様に文字列「設計書」及び「××製作所」を含む文書）が入力された場合、セキュア文書検出装置０１００は、キーワード情報０４１２を参照して、入力された文書から上記のように主キーワード０６１４及び補助キーワード０６１３を抽出し、それらに基づいて文書０６１０がセキュア文書か否かを判定することができる。これは、続いて説明する図８Ｂ及び図８Ｃについても同様である。
【００８８】
図８Ｂの例では、電子文書ファイル０４１１として文書０６２０が入力される。文書０６２０は、図５（ｄ）に示したものと同じである。この文書０６２０には文字列「（株）××」０６２１及び「作成」０６２２が含まれる。例えば、会社名に相当する主キーワード「（株）××」と、補助キーワード「作成」との組み合わせがキーワード情報０４１２として登録されている場合、ステップ０４０４のキーワード抽出処理によって文字列「（株）××」０６２１及び「作成」０６２２がそれぞれ主キーワード０６２３及び補助キーワード０６２４として抽出される。この場合も、図８Ａの場合と同様、抽出されたキーワード間の位置関係を示すベクトル０６２５が特定され、それに基づいて文書０６２０がセキュア文書であるか否かが判定される。
【００８９】
図８Ｃの例では、電子文書ファイル０４１１として文書０６３０が入力される。文書０６３０は、図５（ｊ）に示したものと同じである。この文書０６３０には文字列「北海道」０６３１、「製作所」０６３２及び「北海道」０６３３が含まれる。例えば、会社名「北海道製作所」の前半部分に相当する主キーワード「北海道」と、後半部分に相当する補助キーワード「製作所」との組み合わせがキーワード情報０４１２として登録されている場合、ステップ０４０４のキーワード抽出処理によって文字列「北海道」０６３１及び「製作所」０６３２がそれぞれ会社名０６３４を構成する主キーワード０６３５及び補助キーワード０６３６として抽出される。この場合も、図８Ａの場合と同様、抽出されたキーワード間の位置関係を示すベクトル０６３７が特定され、それに基づいて文書０６３０がセキュア文書であるか否かが判定される。
【００９０】
なお、文書０６３０には、会社名の前半部分と同一の文字列「北海道」０６３３も含まれている。この場合、「北海道」０６３３と「製作所」０６３２との組み合わせもキーワードペアとして抽出される。しかし、文字列「北海道」０６３３の後に文字列「札幌市」が続いていることからわかるように、この文字列「北海道」０６３３は会社名の一部ではなく単なる地名である。
【００９１】
例えば、「北海道製作所」なる会社が作成した資料のフッタ部分には、例えば図８Ｃに示すように「北海道製作所」という文字列が印刷され、そのような文書をセキュア文書として検出する必要がある場合、ユーザは、主キーワード「北海道」と補助キーワード「製作所」とを含むキーワードペア、及び、それらの位置関係を表すベクトル（例えばベクトル０６３７と同等のベクトル）をセキュア文書辞書０５０４に登録することができる。
【００９２】
しかし、その後、文書０６３０が電子文書ファイル０４１１として入力されると、上記のように「北海道」０６３１と「製作所」０６３２との組み合わせだけでなく、「北海道」０６３３と「製作所」０６３２との組み合わせもキーワードペアとして抽出される。この例において、「北海道」０６３１と「製作所」０６３２とは会社名「北海道製作所」の一部であるからそれらの間の関連が強いが、「北海道」０６３３と「製作所」０６３２とはそれぞれ全く異なる文脈に属するからそれらの間に関連はない。このような場合に「北海道」０６３３と「製作所」０６３２との組み合わせについても位置関係を表すベクトルを特定し、そのベクトルとセキュア文書辞書０５０４に登録されたベクトルとを比較しても、その比較はセキュア文書の検出に寄与しない。このため、「北海道」０６３３と「製作所」０６３２との組み合わせをベクトルの比較の対象から除外することが望ましい。
【００９３】
本実施形態のセキュア文書検出装置０１００は、抽出されたキーワードペアからさらに、セキュア文書辞書０５０４に登録されたベクトルとの比較の対象とするキーワードペア（以下、連携キーワードペアと記載）を抽出する。抽出されたキーワードペアが連携キーワードペアであるか否かは、そのキーワードペアに含まれる二つのキーワードの関連の強さ、及び、それらのキーワードについて予め定められた重要度等に基づいて判定される。このように抽出された連携キーワードペアの位置関係がセキュア文書辞書０５０４に登録されたベクトルと比較される。
【００９４】
例えば、セキュア文書検出装置０１００は、一つの文書から抽出された全てのキーワードペアについてそれらに含まれる二つのキーワードの関連の強さを算出し、その値の順位が所定の閾値より高いものを、連携キーワードペアとして抽出してもよい。あるいは、セキュア文書検出装置０１００は、上記のように算出された関連の強さが所定の閾値を超えるものを連携キーワードペアとして抽出してもよい。「北海道」０６３３と「製作所」０６３２との関連の強さが十分に低ければ、「北海道」０６３３と「製作所」０６３２との組み合わせは連携キーワードペアとして抽出されない。
【００９５】
さらに、本実施形態のセキュア文書検出装置０１００は、連携キーワードペアとして抽出されるべきでないキーワードを積極的に排除することもできる。
【００９６】
例えば、学習フェーズ０５００において、ユーザは、文字列「北海道」と文字列「札幌市」との組み合わせを、連携キーワードペアとして抽出されるべきでないキーワードペアとしてキーワード情報０４１２に登録してもよい。そのような情報が登録されていれば、文書０６３０が入力された場合、文字列「北海道」０６３３は、文字列「札幌市」との関連が強いものであると判定され、連携キーワードペアとしては抽出されない。
【００９７】
図８Ｄの例では、電子文書ファイル０４１１として文書０６４０が入力される。文書０６４０は、図５（ｇ）に示したものと同じである。文書０６４０は図面０６４１を含む。図面０６４１は、例えば部品等の図面（図示省略）、図面のタイトル０６４２及び図面の作成年月日０６４３等を含み、それらの要素のレイアウトは罫線０６４４によって定義される。ステップ０４０４の罫線・レイアウト抽出処理によって文書０６４０のレイアウトが特定様式０６４５として抽出される。この特定様式０６４５とパタン情報０４１３とを比較することによって、文書０６４０のセキュア情報尤度を算出することができる（ステップ０４０５）。
【００９８】
なお、ユーザが予め学習フェーズ０５００において文書０６４０をセキュア文書例０５０１としてセキュア文書検出装置０１００に入力することによって、特定様式０６４５をパタン情報０４１３としてセキュア文書辞書０５０４に登録することができる。その後、文書０６４０（又は、文書０６４０と同様のレイアウトを有する文書）が入力された場合、セキュア文書検出装置０１００は、パタン情報０４１３を参照して、入力された文書から上記のように特定様式０６４５を抽出することができる。これは、続いて説明する図８Ｅについても同様である。
【００９９】
図８Ｅの例では、電子文書ファイル０４１１として文書０６５０が入力される。文書０６５０は、図５（ｉ）に示したものと同じである。文書０６５０は印影０６５１を含む。印影０６５１は、それが表示された文書が機密情報を含むことを意味する「秘」の文字を含む。ステップ０４０４の罫線・レイアウト抽出処理によってこの印影０６５１が特定様式０６５２として抽出される。この特定様式０６５２とパタン情報０４１３とを比較することによって、文書０６５０のセキュア情報尤度を算出することができる（ステップ０４０５）。
【０１００】
次に、図４のステップ０４０６において実行されるセキュア情報尤度算出について説明する。
【０１０１】
抽出された主キーワードｍｗ_i及び補助キーワードｈｗ_jの組み合わせ（ペア）の連携度を示す指標Ｌ_pair（ｍｗ_i，ｈｗ_j）は、次の数式（１）によって算出される。
【０１０２】
【数１】

【０１０３】
ここで、Ｄ_BLK（ｍｗ_i，ｈｗ_j）は、主キーワードと補助キーワードとの間の文書型ブロック距離である。文書型ブロック距離とは、言い換えるとすれば、二つのキーワードの文脈中の距離であり、二つのキーワードの文脈上の関連の強さを示す指標である。一般には、二つのキーワードが読まれる順が近ければ、それらの文脈上の関連が強い。例えば二つのキーワードが一つのブロックに属する場合と、それぞれが別のブロックに属する場合との文書型ブロック距離を比較すると、両者におけるキーワード間のユークリッド距離が同じであっても、一般に、後者の文書型ブロック距離は前者の文書型ブロック距離より大きくなる。
【０１０４】
ここで、ブロック距離は画像処理の分野などで使われる距離の概念を文書向けに拡張したものである。一般に、画像処理におけるブロック距離では、２点間の距離をＸ方向の差とＹ方向の差の和｜Ｘ｜＋｜Ｙ｜や｜Ｘ＋Ｙ｜で表す距離尺度群を指す（マンハッタン距離とも称する）。単純なブロック距離は、文書上に書かれた段落や表など意味情報を表しているレイアウト構造を反映しない、文書上の任意の２点間で一様な距離尺度となっている。文書文脈上の関連の強さを文書構造から反映して、距離尺度の重みを変えるのが文書型ブロック距離である。
【０１０５】
αは、文書型ブロック距離に基づく連携度を算出するための重み係数である。ユーザは、αとして任意の値を設定することができるが、二つのキーワードの配置に応じた適切な値を設定することが望ましい。αの値の例については、図９を参照して後述する。
【０１０６】
Ｄ_EUC（ｍｗ_i，ｈｗ_j）は、主キーワードと補助キーワードとの間のユークリッド距離、すなわち、文書中の、主キーワードが表示された位置と、補助キーワードが表示された位置との間のユークリッド距離である。
【０１０７】
βは、ユークリッド距離に基づく連携度を算出するための重み係数である。ユーザは、βとして任意の値を設定することができる。
【０１０８】
なお、数式（１）の右辺の第１項及び第２項の分母の「＋１」は、距離がゼロの場合に値が発散することを防ぐために付されている。
【０１０９】
Ｌ_word（ｍｗ_i，ｈｗ_j）は、キーワードの重要度（各キーワードの重要度又はキーワードペアの重要度）を表す指標であり、予めユーザによって定められる。例えば、ユーザは、重要顧客の名前を含むキーワードの組み合わせに関するＬ_word（ｍｗ_i，ｈｗ_j）として、その他の組み合わせに関するものより高い値を設定してもよい。
【０１１０】
γは、キーワードの重要度に基づく連携度を算出するための重み係数である。ユーザは、γとして任意の値を設定することができる。
【０１１１】
結局、主キーワードｍｗ_i及び補助キーワードｈｗ_jの連携度は、文書型ブロック距離Ｄ_BLK（ｍｗ_i，ｈｗ_j）が小さいほど高く、ユークリッド距離Ｄ_EUC（ｍｗ_i，ｈｗ_j）が小さいほど高く、予め定められたキーワードの重要度が高いほど高く、重み係数（α、β及びγ）の値が大きいほど高くなる。
【０１１２】
セキュア文書検出装置０１００は、入力された文書から抽出された全てのキーワードペアについてＬ_word（ｍｗ_i，ｈｗ_j）を算出し、それらの値が大きいものが連携キーワードペアであると判定してもよい。具体的には、例えば、あるキーワードペアのＬ_word（ｍｗ_i，ｈｗ_j）の値が所定の閾値より大きい場合に、そのキーワードペアが連携キーワードペアであると判定してもよい。あるいは、各文書について算出された全てのＬ_word（ｍｗ_i，ｈｗ_j）のうち、大きさの順位が所定の閾値より大きいものに対応するキーワードペアが連携キーワードペアであると判定してもよい。
【０１１３】
入力された文書ｄｏｃ_iのセキュア情報尤度（すなわちその文書のセキュア文書らしさを示す指標）Ｌ_sequre（ｄｏｃ_i）は、次の数式（２）によって算出される。
【０１１４】
【数２】

【０１１５】
ここで、ｄｉｃ_jは、セキュア文書辞書０５０４に入力されたセキュア文書例０５０１（すなわち文書事例０７０２）に含まれるｊ番目の文書である。
【０１１６】
Ｌ_format（ｄｏｃ_i，ｄｉｃ_j）は、文書ｄｏｃ_iのフォーマットと文書ｄｉｃ_jのフォーマットとの比較に基づく、文書ｄｏｃ_iのセキュア文書らしさを示す指標である。具体的には、図４のステップ０４０４において抽出された文書ｄｏｃ_iのレイアウトと、文書ｄｉｃ_jのレイアウトとの間の類似度が高いほど、Ｌ_format（ｄｏｃ_i，ｄｉｃ_j）の値は大きくなる。
【０１１７】
Ｌ_keyword（ｄｏｃ_i，ｄｉｃ_j）は、文書ｄｏｃ_iに含まれるキーワードと文書ｄｉｃ_jに含まれるキーワードとの比較に基づく、文書ｄｏｃ_iのセキュア文書らしさを示す指標である。具体的には、図４のステップ０４０４において文書ｄｏｃ_iから抽出されたキーワードペアの位置関係と、文書ｄｉｃ_jに含まれるキーワードペア（すなわちセキュア文書例０５０１から抽出されたキーワードの組み合わせ又はセキュア用語定義０５０２として入力されたキーワードの組み合わせ）の位置関係との間の類似度が計算され、その類似度が高いほどＬ_keyword（ｄｏｃ_i，ｄｉｃ_j）の値は大きくなる。Ｌ_keyword（ｄｏｃ_i，ｄｉｃ_j）の算出方法については後述する（数式（３）参照）。
【０１１８】
全ての文書ｄｉｃ_jについて算出されたＬ_format（ｄｏｃ_i，ｄｉｃ_j）＋Ｌ_keyword（ｄｏｃ_i，ｄｉｃ_j）の最大値がＬ_sequre（ｄｏｃ_i）である。
【０１１９】
なお、文書のレイアウトによらず、キーワードの組み合わせのみに基づいて文書ｄｏｃ_iのセキュア情報尤度を算出してもよい。その場合、Ｌ_format（ｄｏｃ_i，ｄｉｃ_j）を算出する必要はなく、Ｌ_keyword（ｄｏｃ_i，ｄｉｃ_j）の最大値がＬ_sequre（ｄｏｃ_i）である。
【０１２０】
Ｌ_keyword（ｄｏｃ_i，ｄｉｃ_j）は数式（３）によって算出される。
【０１２１】
【数３】

【０１２２】
数式（３）によって、文書ｄｏｃ_iから抽出されたキーワードペアの位置関係を表すベクトルと、文書ｄｉｃ_jに含まれるキーワードペアの位置関係を表すベクトルとの距離が算出され、その距離に基づいてセキュア情報尤度が算出される。このとき、文書ｄｏｃ_iから抽出された全てのキーワードペアについてではなく、連携キーワードペアのみについて数式（３）が算出されてもよい。その場合、文書ｄｏｃ_iから抽出された全ての連携キーワードペアについて算出された上記の尤度の総和がＬ_keyword（ｄｏｃ_i，ｄｉｃ_j）である。
【０１２３】
Ｌ_formatの意図は辞書として登録した文書と、似たキーワードを持ち、それらが似た配置にあるような文書を見つけることにある。数式（３）は単純なユークリッド距離の定義によってキーワードペアの類似性を導くことを示している。すなわちキーワード間に何らかの距離尺度が存在し（例えば、「ｃｏｎｆｉｄｅｎｔｉａｌ」や「ｐｒｅｐａｒｅｄ」など文書発行元を指し得る補助キーワードは同類と看做し距離０とし、敬称や送付先を表すような補助キーワード「御中」「宛先」などはこれと別類と看做し距離が大きいとするように、キーワードの間に距離尺度が定義できる。
【０１２４】
例えば、形態素解析で同じ品詞の場合は距離０、その他は１とするなども距離尺度となる）、キーワードの配置位置の間に距離尺度が存在し（例えば、先に説明した文書型ブロック距離）、類似度尺度の間に距離尺度が存在するならば、これらを数式（３）のようにベクトルと看做してユークリッド距離を計算すれば、２つのキーワードペアの間の距離が計算できる。
【０１２５】
更に、これに尤度を導入することも可能である。２つのキーワードペアの各々の関連度Ｌ_wordが高く、かつ、配置が似ているものを尤度が高いとしたいならば、上記距離を０〜１の間に変換したものが尤度であると看做すことができる。すなわち、尤度を持つ項を入力とする、あらゆる計算式に対しては、それに付属する尤度を計算することができる。
【０１２６】
図９は、本発明の第１の実施形態のセキュア文書辞書０５０４に含まれる配置コストテーブル０９００の説明図である。
【０１２７】
配置コストテーブル０９００は、文書から抽出されたキーワードペアに含まれる二つのキーワードの当該文書中の位置（すなわち、それらのキーワードがその文書中のどの領域から抽出されたか）と、数式（１）の重み係数αとを対応付けるテーブルである。具体的には、配置コストテーブル０９００は行０９０１〜０９０３及び列０９１１〜０９１３からなる。
【０１２８】
行０９０１には、主キーワードが文書中の表から抽出された場合の重み係数αの値が登録される。行０９０２には、主キーワードが文書中の本文又はタイトルから抽出された場合の重み係数αの値が登録される。行０９０３には、主キーワードが文書中のヘッダ又はフッタから抽出された場合の重み係数αの値が登録される。
【０１２９】
列０９１１には、補助キーワードが文書中の表から抽出された場合の重み係数αの値が登録される。列０９１２には、補助キーワードが文書中の本文から抽出された場合の重み係数αの値が登録される。列０９１３には、補助キーワードが文書中のヘッダ又はフッタから抽出された場合の重み係数αの値が登録される。
【０１３０】
なお、図９の例では列０９１２が本文に対応するが、列０９１２は、補助キーワードが本文又はタイトルから抽出された場合に対応してもよい。また、上記のような領域の分類は一例に過ぎない。例えば、文書が段組みされている場合、各段が独立した領域として扱われてもよい。あるいは、ヘッダ及びフッタがそれぞれ独立した領域として扱われてもよい。
【０１３１】
図９の例において、主キーワード及び補助キーワードがいずれも文書中の表から抽出された場合、重み係数αの値は「α１１」となる。主キーワードがタイトル又は本文から抽出され、補助キーワードが表から抽出された場合、重み係数αの値は「α２１」となる。
【０１３２】
ユーザは、配置コストテーブル０９００に重み係数αとして任意の値を登録することができる。ただし、一般に、主キーワードと補助キーワードとが文書中の同一の領域（例えばタイトル、本文、表、ヘッダ又はフッタ等）から抽出された場合、そうでない場合と比較して主キーワードと補助キーワードとの文脈上の距離が近いと推定される。後述するように、二つのキーワードの文脈上の距離が近いほど、それらのキーワードの関連が強い可能性が高い。このため、典型的には、主キーワードと補助キーワードとが文書中の同一の領域から抽出された場合のαの値が、そうでない場合と比較して大きくなるように設定される。例えば、典型的には、α１１の値は、α２１の値より大きい。
【０１３３】
主キーワード及び補助キーワードが同一の領域から抽出された場合、重み係数αの値は、さらに、それらのキーワードの位置関係に応じて決定されてもよい。
【０１３４】
具体的には、主キーワードが本文又はタイトルから抽出され、補助キーワードが本文から抽出された場合、重み係数αは、さらに、タイトル及び本文の中における主キーワード及び補助キーワードの位置に応じて決定される。
【０１３５】
例えば、主キーワード及び補助キーワードがそれぞれ互いに隣接する単語である場合、重み係数αの値は「α２２ａ」となる。主キーワード及び補助キーワードが隣接しないが、同一の行に含まれる場合、重み係数αの値は「α２２ｂ」となる。主キーワード及び補助キーワードがそれぞれ異なる行に含まれるが、同一の段落に含まれる場合、重み係数αの値は「α２２ｃ」となる。主キーワード及び補助キーワードがそれぞれ異なる段落に含まれる場合、重み係数αの値は「α２２ｄ」となる。
【０１３６】
ユーザは、これらの値を任意に設定することができる。ただし、二つのキーワードが異なる段落に含まれるよりは同一の段落に含まれるほうが、二つのキーワードが異なる行に含まれるよりは同一の行に含まれるほうが、二つのキーワードが隣接しないよりは隣接するほうが、それらのキーワードの文脈上の距離が近い。文脈上の距離が近いほど、それらのキーワードの関連が強い可能性が高い。
【０１３７】
例えば、主キーワード「（株）××」と補助キーワード「作成」とが、連続する文字列「（株）××作成」から抽出された場合、これらのキーワードは互いに隣接している。この場合、通常、「（株）××」及び「作成」の文脈上の意味は互いに関連する。具体的には、上記の文字列は「（株）××」なる会社が何かを「作成」したことを意味し、図５（ｄ）の例のように、それらのキーワードを含む文書自体が「（株）××」なる会社によって作成されたものである可能性がある。
【０１３８】
一方、例えば主キーワード「（株）××」と補助キーワード「作成」とが異なる段落から抽出された場合であっても、それらのキーワードが互いに関連している可能性はある。しかし、補助キーワード「作成」は、例えば「○○製作所作成」という文字列から抽出されたものである可能性もある。この場合、上記の抽出されたキーワードの組み合わせは、「（株）××」が何かを「作成」したことを意味しない。すなわち、「（株）××」と「作成」との間に文脈上の関連はない。この場合、それらのキーワードを含む文書自体が「（株）××」なる会社によって作成されたものである可能性は低い。
【０１３９】
「（株）××」なる会社によって作成された文書がセキュア文書であると判定する必要がある場合、主キーワード「（株）××」と補助キーワード「作成」とからなるキーワードペアを連携キーワードペアとして抽出することが望ましい。上記のような例を考慮すると、主キーワード「（株）××」と補助キーワード「作成」とが隣接する場合の連携度を、そうでない場合より高くなるように算出することが望ましい。このため、典型的には、α２２ｄよりα２２ｃの値が大きく、α２２ｃよりα２２ｂの値が大きく、α２２ｂよりα２２ａの値が大きくなるように重み係数αの値が設定される。
【０１４０】
ただし、実際には、互いに離れた領域から抽出された主キーワードと補助キーワードとの連携度を高く算出すべき場合もある。例えば、図５（ｂ）の例では、主キーワード「××」がフッタから抽出され、補助キーワード「仕様書」はタイトルから抽出される。このように配置されたキーワードペアを連携キーワードペアとして抽出したい場合、そのキーワードペアに対応する配置コストテーブル０９００のα３２の値をその他の値より大きく設定してもよい。ただし、その場合、列０９１２が本文だけでなくタイトルにも対応する。
【０１４１】
主キーワード及び補助キーワードがいずれも表から抽出された場合も、上記のα２２の場合と同様、重み係数αは、さらに、表の中における主キーワード及び補助キーワードの位置に応じて決定される。
【０１４２】
例えば、主キーワード及び補助キーワードがそれぞれ表の中の互いに隣接するセルから抽出された場合、重み係数αの値は「α１１ａ」となる。主キーワード及び補助キーワードが同一の表から（ただし互いに隣接するセル以外から）抽出された場合、重み係数αの値は「α１１ｂ」となる。主キーワード及び補助キーワードがそれぞれ別の表から抽出された場合、重み係数αの値は「α１１ｃ」となる。α２２の場合と同様、ユーザはこれらの値を任意に設定することができる。例えば、上記のα２２の場合と同様の理由で、α１１ｃよりα１１ｂが大きく、α１１ｂよりα１１ａがさらに大きくなるように設定されてもよい。
【０１４３】
同様に、主キーワード及び補助キーワードがいずれもヘッダ又はフッタから抽出された場合、重み係数αは、さらに、ヘッダ又はフッタの中における主キーワード及び補助キーワードの位置に応じて決定される。
【０１４４】
例えば、主キーワード及び補助キーワードが同一の行から抽出された場合、重み係数αの値は「α３３ａ」となり、それらが互いに異なる行から抽出された場合、重み係数αの値は「α３３ｂ」となる。α２２の場合と同様、ユーザはこれらの値を任意に設定することができる。例えば、上記のα２２の場合と同様の理由で、α３３ａがα３３ｂより大きくなるように設定されてもよい。
【０１４５】
なお、セキュア文書辞書０５０４は、複数の配置コストテーブル０９００を含んでもよい。例えば、図８Ｃに示したように、「北海道製作所」という文字列は連携キーワードペアとして抽出したいが、「北海道札幌市」という文字列に含まれる「北海道」は連携キーワードペアに含めたくない場合、「北海道」と「札幌市」（又は同様の北海道内の市町村名）との組み合わせに関する配置コストテーブル０９００をさらに作成し、その中のα２２ａの値を、連携キーワードペアとして抽出されるべきキーワードペアの配置に与えられる値より小さい値（例えば「０」）としてもよい。その場合、「北海道札幌市」という文字列に関する連携度が低くなるため、文書のセキュア情報尤度判定に「北海道札幌市」のような文字列が与える影響を抑えることができる。
【０１４６】
図１０は、本発明の第１の実施形態のセキュア文書辞書０５０４の説明図である。
【０１４７】
セキュア文書辞書０５０４は、セキュア辞書ヘッダ１００１、複数のキーワード１０１１等、一つ以上の配置コストテーブル１０２１等及び一つ以上の特定様式１０３１等を含む。
【０１４８】
セキュア辞書ヘッダ１００１は、セキュア文書辞書０５０４のバージョンを示す情報及びその辞書の内容を説明する情報を含む。
【０１４９】
キーワード１０１１等の各々は、キーワードとして指定された文字列及びそのキーワードに関する付加情報を含む。付加情報は、そのキーワードが主キーワード又は補助キーワードのいずれであるかを示す情報、そのキーワードと組み合わせられる主キーワード又は補助キーワードを特定する情報、そのキーワードの品詞（例えば会社名のような固有名詞又は「秘」のような普通名詞）を示す情報、及びキーワードの重要度を示す情報等を含む。この付加情報は、上記の「北海道札幌市」の例のように、セキュア情報尤度判定に影響すべきでないキーワードの組み合わせを特定する情報をさらに含んでもよい。
【０１５０】
さらに、キーワード１０１１等の各々は、主キーワード及び補助キーワードからなるキーワードペアの位置関係を示すベクトルデータを含んでもよい。このベクトルデータは、例えば図４のステップ０４０６において、入力された文書から抽出されたキーワードペアの位置関係を示すベクトルデータと比較される。
【０１５１】
図１０にはキーワード１０１１等の例としてキーワード１＿１０１１及びキーワード２＿１０１２を示すが、セキュア文書辞書０５０４はさらに多くのキーワードを含んでもよい。
【０１５２】
配置コストテーブル１０２１等の各々は、図９を参照して説明した配置コストテーブル０９００に相当するものであり、その配置コストテーブル１０２１等に対応する主キーワード及び補助キーワードの種類を示す情報、及びそれらの重み（重要度）を示す情報を含む。図９を参照して説明したように、複数の配置コストテーブル０９００が作成されてもよい。例えば、キーワードペアの種類ごとに、それに対応する配置コストテーブル１０２１等が作成されてもよい。あるいは、特定のキーワードペアのみに対応する配置コストテーブル１０２１等が作成されてもよい。
【０１５３】
図１０には配置コストテーブル１０２１等の例として配置コストテーブル１＿１０２１及び配置コストテーブル２＿１０２２を示すが、セキュア文書辞書０５０４はさらに多くの配置コストテーブルを含んでもよい。
【０１５４】
特定様式１０３１等の各々は、文書からその文書の様式（具体的には図８Ｄ及び図８Ｅに示すような特定のフォーマット又は図形等に対応するベクトルデータ）を抽出する方式及び範囲、及び、抽出されたベクトルデータと比較される様式ベクトルデータ（すなわち予めセキュア文書例０５０１から抽出され、登録された罫線又は印影等のベクトルデータ）を含む。図１０には特定様式１０３１等の例として特定様式１＿１０３１及び特定様式２＿１０３２を示すが、セキュア文書辞書０５０４はさらに多くの特定様式を含んでもよい。
【０１５５】
なお、上記の第１の実施形態では、文書から抽出された二つのキーワードからなるキーワードペアについて、抽出された位置関係と予め登録された位置関係とを比較する例を示した。しかし、三つ以上のキーワードからなるキーワードのグループについて上記と同様の処理が実行されてもよい。例えば、三つのキーワード及びそれらの相互の位置関係を示すベクトルデータがセキュア文書辞書０５０４に登録されてもよい。その場合、入力された文書からそれらの三つのキーワード及びそれらの相互の位置関係を示すベクトルデータが抽出される。そして、抽出されたベクトルデータと登録されたベクトルデータとの類似度に基づいて、入力された文書がセキュア文書であるか否かが判定される。
【０１５６】
以上に説明した本発明の第１の実施形態によれば、入力された文書に含まれるキーワード等に基づいて、その文書がセキュアであるか否かが自動的に判定され、セキュアである場合には暗号化等を施して保管することができる。特に、本実施形態によれば、複数のキーワードの組み合わせと、それらの組み合わせの文脈上の距離と、に基づいて、複数のキーワードの文脈中における関連を考慮したセキュア文書判定が行われる。文書から抽出されたキーワードの組み合わせの連携度に基づいて、その組み合わせをセキュア文書判定に用いるか否かが判定される。これによって、本来セキュアであるべき文書の検出漏れ及び本来セキュアでない文書の誤検出のいずれも減らすことができ、高精度のセキュア文書判定を実現することができる。これによって、ユーザによる管理コストを抑えながら、セキュアな文書を確実に保護することができる。
【０１５７】
＜第２の実施形態＞
図１１は、本発明の第２の実施形態のＯＣＲ一体型セキュア文書検出装置０２００のハードウェア構成を示すブロック図である。
【０１５８】
ＯＣＲ一体型セキュア文書検出装置０２００は、図１に示した本発明のＯＣＲ一体型紙文書管理を実現する装置の一例である。
【０１５９】
本実施形態のＯＣＲ一体型セキュア文書検出装置０２００は、操作端末装置０２０１、表示端末装置０２０２、外部記憶装置０２０３、メモリ０２０４、中央演算装置０２０５、通信装置０２０７、画像撮像装置０２０８、ソータ装置０２０９及びこれらを相互に接続する通信線０２０６を備える。
【０１６０】
操作端末装置０２０１、表示端末装置０２０２、外部記憶装置０２０３、メモリ０２０４、中央演算装置０２０５、通信装置０２０７及び通信線０２０６は、それぞれ第１の実施形態の操作端末装置０１０１、表示端末装置０１０２、外部記憶装置０１０３、メモリ０１０４、中央演算装置０１０５、通信装置０１０７及び通信線０１０６と同様であるため、それらに関する詳細な説明は省略する。
【０１６１】
画像撮像装置０２０８は、入力された紙文書０３０６に記載された文字、罫線及び図形等を読み取ってデータ化する光学スキャナを含む。このとき読み取られたデータは、テキストデータ及び画像データを含むファイルとして外部記憶装置０２０３に格納されてもよい。
【０１６２】
ソータ装置０２０９は、画像撮像装置０２０８による読み取りが終了した後の紙文書０３０６を排出する装置である。例えば、ソータ装置０２０９は、紙文書０３０６の排出先として複数の棚を備えてもよい。この場合、ソータ装置０２０９は、必要に応じて選択された棚に紙文書０３０６を排出することができる。
【０１６３】
なお、ＯＣＲ一体型セキュア文書検出装置０２００は、第１の実施形態のセキュア文書検出装置０１００に、従来のＯＣＲ装置を画像撮像装置０２０８及びソータ装置０２０９として追加することによって実現されてもよい。その場合、例えば、図１１の画像撮像装置０２０８及びソータ装置０２０９が図１のＯＣＲ装置０３０７に相当し、図１１の残りの部分が図１の計算機０３０８に相当する。あるいは、ＯＣＲ一体型セキュア文書検出装置０２００全体が一つのＯＣＲ装置として実現されてもよい。
【０１６４】
ＯＣＲ一体型セキュア文書検出装置０２００の中央演算装置０２０５は、画像撮像装置０２０８によって読み取られたデータを用いて、入力された文書がセキュア文書であるか否かを判定する。その処理は図３から図１０を参照して説明した第１の実施形態と同様であるため、それについての説明は省略する。
【０１６５】
さらに、本実施形態のＯＣＲ一体型セキュア文書検出装置０２００は、ステップ０４０７の判定結果に基づいて、セキュア化電子文書０４１５を出力するだけでなく、画像撮像装置０２０８による読み取りが終了した後の紙文書０３０６の排出方法を選択することができる。これは、紙文書０３０６がセキュア文書である場合に、そこに含まれるセキュア情報を流出から保護するためである。
【０１６６】
例えば、ＯＣＲ一体型セキュア文書検出装置０２００は、セキュア文書であると判定された紙文書０３０６を、そうでない紙文書０３０６とは異なる位置に排出してもよい。ここで「異なる位置」とは、例えば「異なる棚」であってもよいし、「同一の棚の中の異なる位置」であってもよい。
【０１６７】
あるいは、ＯＣＲ一体型セキュア文書検出装置０２００は、セキュア文書であると判定された紙文書０３０６を加工して排出してもよい。ここで「加工」とは、紙文書０３０６がセキュア文書であることを示す表示（例えば「秘」のような文字等）を印刷することであってもよいし、紙文書０３０６上の文字等を読み取りにくくするための所定の図形パタン等を印刷することであってもよいし、それらの文字等の読み取りを不可能にするために紙文書０３０６を破砕することであってもよい。この場合、ソータ装置０２０９は印刷装置又はシュレッダのような文書加工装置を含む。
【０１６８】
あるいは、ＯＣＲ一体型セキュア文書検出装置０２００は、セキュア文書でないと判定された紙文書０３０６を通常の棚に排出し、セキュア文書であると判定された紙文書０３０６を排出しなくてもよい。この場合、セキュア文書であると判定された紙文書０３０６は、適切な権限を持ったユーザに取り出されるまで、ＯＣＲ一体型セキュア文書検出装置０２００の内部に蓄積される。
【０１６９】
なお、上記はステップ０４０７において文書がセキュア文書であるか否かを判定する例を示したが、ステップ０４０７においてこのような二値判定の代わりに多値判定が行われてもよい。例えば、ＯＣＲ一体型セキュア文書検出装置０２００は、算出されたセキュア情報尤度と複数の閾値とを比較することで、セキュア情報尤度のランクを判定してもよい。その場合、判定されたランクに応じて紙文書０３０６の排出方法が選択されてもよい。例えば、一体型セキュア文書検出装置０２００は、最も高いランクの紙文書０３０６を破砕して排出し、それ以外のランクの紙文書０３０６を、それぞれのランクに割り当てられた棚に排出してもよい。
【０１７０】
以上に説明した本発明の第２の実施形態によれば、紙に印刷された文書について、第１の実施形態と同様の高精度のセキュア文書判定を実現し、それによってセキュアな電子文書を確実に保護することができる。さらに、セキュア文書判定の結果と、入力された紙の排出とを連動させることによって、ユーザの管理コストを抑えながら、セキュアな紙文書を確実に保護することができる。
【符号の説明】
【０１７１】
０１００セキュア文書検出装置
０１０１、０２０１操作端末装置
０１０２、０２０２表示端末装置
０１０３、０２０３外部記憶装置
０１０４、０２０４メモリ
０１０５、０２０５中央演算装置
０１０６、０２０６通信線
０１０７、０２０７通信装置
０２００ＯＣＲ一体型セキュア文書検出装置
０２０８画像撮像装置
０２０９ソータ装置
０３０１、０３０６紙文書
０３０２光学式文字読取装置（ＯＣＲ装置）
０３０３、０３０５、０３０９、０３１０、０３１２文書ファイル
０３０４、０３０８、０３１１計算機
０５０１セキュア文書例
０５０２セキュア用語定義
０５０４セキュア文書辞書
０５１１非管理文書
０９００配置コストテーブル

【特許請求の範囲】
【請求項１】
セキュア文書検出装置が実行するセキュア文書検出方法であって、
前記セキュア文書検出装置は、演算装置と、辞書を保持する記憶装置と、を備え、
前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、
前記セキュア文書検出方法は、
入力された文書データから前記辞書に登録されたキーワードペアを抽出する第１手順と、
前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第２手順と、を含むことを特徴とするセキュア文書検出方法。
【請求項２】
前記第２手順は、
前記抽出されたキーワードペアに含まれる二つのキーワードの関連の強さに基づいて、前記抽出されたキーワードペアが連携キーワードペアであるか否かを判定する第３手順と、
前記連携キーワードペアに含まれる二つのキーワードの位置関係と、前記辞書に登録された前記二つのキーワードの位置関係との類似度が高いほど大きくなるように、前記入力された文書データのセキュア情報尤度を算出する第４手順と、
前記セキュア情報尤度が所定の閾値より大きい場合に、前記入力された文書データがセキュア文書であると判定する第５手順と、を含むことを特徴とする請求項１に記載のセキュア文書検出方法。
【請求項３】
前記セキュア文書検出方法は、さらに、前記入力された文書データに含まれるテキストを複数の領域に分類する手順を含み、
前記第３手順は、
前記二つのキーワードが含まれる前記領域に基づいて、前記二つのキーワードの関連の強さを算出する第６手順と、
前記関連の強さが所定の閾値を超えた場合、又は、前記入力された文書データにおける前記関連の強さの順位が所定の閾値を超えた場合、前記抽出されたキーワードペアが連携キーワードペアであると判定する第７手順と、を含むことを特徴とする請求項２に記載のセキュア文書検出方法。
【請求項４】
前記複数の領域は、タイトル、本文、表、ヘッダ又はフッタの少なくとも一つを含み、
前記辞書は、前記領域の組み合わせと所定の重みとを対応付ける配置コスト情報をさらに含み、
前記第６手順は、前記二つのキーワードが属する領域の組み合わせに対応する前記所定の重みが大きいほど大きくなるように、前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項３に記載のセキュア文書検出方法。
【請求項５】
前記辞書には、前記連携キーワードとして抽出されるべきでないキーワードペアがさらに登録され、
前記配置コスト情報には、前記連携キーワードとして抽出されるべきでないキーワードペアに対応する前記重みとして、その他のキーワードペアに対応する前記重みより小さい値が登録されることを特徴とする請求項４に記載のセキュア文書検出方法。
【請求項６】
前記セキュア文書検出方法は、さらに、前記入力された文書データに含まれるテキストをそれが読まれる順に並べ替える手順を含み、
前記第６手順は、前記テキストが読まれる順に基づいて、前記二つのキーワードの文脈上の距離を算出し、前記算出された文脈上の距離が近いほど大きくなるように前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項３に記載のセキュア文書検出方法。
【請求項７】
前記第６手順は、前記二つのキーワードの前記入力された文書データにおけるユークリッド距離が近いほど大きくなるように、前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項３に記載のセキュア文書検出方法。
【請求項８】
前記セキュア文字検出方法は、さらに、前記入力された文書データがセキュア文書であると判定された場合、前記入力された文書データを暗号化して出力する手順を含むことを特徴とする請求項１に記載のセキュア文書検出方法。
【請求項９】
前記セキュア文字検出方法は、さらに、セキュア文書であると判定されるべき文書及びその文書に含まれる二つのキーワードを指定する情報を入力されると、指定された二つのキーワードの位置関係を示す情報を抽出し、前記指定されたキーワード及び前記抽出された位置関係を示す情報を前記辞書に登録する手順を含むことを特徴とする請求項１に記載のセキュア文書検出方法。
【請求項１０】
前記キーワードペアに含まれる二つのキーワードの位置関係を示す情報は、前記二つのキーワードの文書中の配置を示す方向及びそれらの間の距離を示すベクトルデータを含むことを特徴とする請求項１に記載のセキュア文書検出方法。
【請求項１１】
計算機によって実行されるセキュア文書検出プログラムであって、
前記計算機は、演算装置と、前記セキュア文書検出プログラムを格納するメモリと、辞書を保持する記憶装置と、を備え、
前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、
前記セキュア文書検出プログラムは、
入力された文書データから前記辞書に登録されたキーワードペアを抽出する第１手順と、
前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第２手順と、を前記計算機に実行させることを特徴とするセキュア文書検出プログラム。
【請求項１２】
前記第２手順は、
前記抽出されたキーワードペアに含まれる二つのキーワードの関連の強さに基づいて、前記抽出されたキーワードペアが連携キーワードペアであるか否かを判定する第３手順と、
前記連携キーワードペアに含まれる二つのキーワードの位置関係と、前記辞書に登録された前記二つのキーワードの位置関係との類似度が高いほど大きくなるように、前記入力された文書データのセキュア情報尤度を算出する第４手順と、
前記セキュア情報尤度が所定の閾値より大きい場合に、前記入力された文書データがセキュア文書であると判定する第５手順と、を含むことを特徴とする請求項１１に記載のセキュア文書検出プログラム。
【請求項１３】
前記セキュア文書検出プログラムは、さらに、前記入力された文書データに含まれるテキストを複数の領域に分類する手順を前記計算機に実行させ、
前記第３手順は、
前記二つのキーワードが含まれる前記領域に基づいて、前記二つのキーワードの関連の強さを算出する第６手順と、
前記関連の強さが所定の閾値を超えた場合、又は、前記入力された文書データにおける前記関連の強さの順位が所定の閾値を超えた場合、前記抽出されたキーワードペアが連携キーワードペアであると判定する第７手順と、を含むことを特徴とする請求項１２に記載のセキュア文書検出プログラム。
【請求項１４】
前記複数の領域は、タイトル、本文、表、ヘッダ又はフッタの少なくとも一つを含み、
前記辞書は、前記領域の組み合わせと所定の重みとを対応付ける配置コスト情報をさらに含み、
前記第６手順は、前記二つのキーワードが属する領域の組み合わせに対応する前記所定の重みが大きいほど大きくなるように、前記二つのキーワードの関連の強さを算出する手順を含むことを特徴とする請求項１３に記載のセキュア文書検出プログラム。
【請求項１５】
前記セキュア文字検出プログラムは、さらに、前記入力された文書データがセキュア文書であると判定された場合、前記入力された文書データを暗号化して出力する手順を前記計算機に実行させることを特徴とする請求項１１に記載のセキュア文書検出プログラム。
【請求項１６】
前記セキュア文字検出方法は、さらに、セキュア文書であると判定されるべき文書及びその文書に含まれる二つのキーワードを指定する情報を入力されると、指定された二つのキーワードの位置関係を示す情報を抽出し、前記指定されたキーワード及び前記抽出された位置関係を示す情報を前記辞書に登録する手順を前記計算機に実行させることを特徴とする請求項１１に記載のセキュア文書検出プログラム。
【請求項１７】
入力された紙文書から文字情報を読み取る光学式文字読取装置であって、
前記光学式文字読取装置は、演算装置と、セキュア情報辞書を保持する記憶装置と、前記入力された紙文書を読み取る画像撮像装置と、前記入力された紙文書を排出する排紙装置と、を備え、
前記セキュア情報辞書には、各々が二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、
前記光学式文字読取装置は、
前記入力された紙文書から文字情報を読み取ることによって文書データを作成し、
前記文書データから前記セキュア文書辞書に登録されたキーワードペアを抽出し、
前記抽出されたキーワードペアに含まれる二つのキーワードの前記文書データ中の位置関係に基づいて、前記入力された紙文書がセキュア文書であるか否かを判定し、
前記判定の結果に応じて、前記入力された紙文書の排出方法を制御することを特徴とする光学式文字読取装置。
【請求項１８】
前記排紙装置は、複数の棚を備え、
前記光学式文字読取装置は、セキュア文書であると判定された紙文書と、セキュア文書でないと判定された紙文書とが、異なる前記棚に排出されるように、前記入力された紙文書を排出することを特徴とする請求項１７に記載の光学式文字読取装置。
【請求項１９】
前記排紙装置は、印刷装置を備え、
前記光学式文字読取装置は、前記入力された紙文書がセキュア文書であると判定された場合、前記入力された紙文書にそれがセキュア文書であることを示す表示を印刷し、前記印刷された紙文書を排出することを特徴とする請求項１７に記載の光学式文字読取装置。
【請求項２０】
前記排紙装置は、読み取り困難になるように前記入力された紙文書を加工する加工装置を備え、
前記光学式文字読取装置は、前記入力された紙文書がセキュア文書であると判定された場合、読み取り困難になるように前記入力された紙文書を加工し、前記加工された紙文書を排出することを特徴とする請求項１７に記載の光学式文字読取装置。

【図２】