説明

文書の機密度判定を支援する方法、装置及びコンピュータプログラム

【課題】複数の組織で共有されるオフィス文書であっても、文書に対する機密度の判定処理の負荷を軽減することができる機密度判定を支援する方法、装置及びコンピュータプログラムを提供する。
【解決手段】包含するプロパティの所定の特徴を評価する単位である複数のブロックに分割することが可能な文書データを、ブロックごとに機密状態であるか否かを示す機密度情報に対応付けて記憶しておく。機密度の判定対象となる文書データを取得し、取得した文書データのブロックごとに、類似するブロックが存在する文書データが記憶してあるか否かを判断する。類似するブロックが存在する文書データが記憶してあると判断した場合、取得した文書データの対応するブロックに機密状態である旨を示す機密度情報が付与されているか否かを判断し、付与されていると判断した場合、取得した文書データは機密状態であると判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の組織で共有される文書に対する機密度の判定処理を支援する方法、装置及びコンピュータプログラムに関する。
【背景技術】
【0002】
グループウエアに代表されるコラボレーションシステムを用い、複数の組織で情報を共有して業務の効率化を図る機会が増大している。昨今のようにインターネット環境を活用する場合、機密情報を誤って共有したときには、個人情報漏洩による信用失墜、社内機密漏洩による経済的損失等のリスクが増大する。したがって、共有対象となる情報に対して正しく機密度を設定することが重要な課題の1つとなっている。
【0003】
また、共有対象となる情報、例えばオフィス文書には、使用者の個人情報、業務機密等の守秘性の高い情報が含まれるおそれが内在している。特にオフィスでは、電子文書ファイルを作成した使用者が、自ら使用するコンピュータ上で文書管理することが多く、電子文書ファイルに対する編集作業も頻繁に行われることから、機密情報の管理は使用者のスキル、モラル等に依存せざるを得ないという問題があった。
【0004】
もちろん、すべてのオフィス文書を管理サーバにて統合管理する企業も多い。しかし、使用者がダウンロードしたファイルについては、どのように更新され、編集されたのかトレースすることは困難であり、結局は、使用者のモラルに頼らざるを得ない。また、使用者が使用するコンピュータのすべてに監視用ソフトウェアを導入し、使用者の更新処理全体を監視する製品も開発されている。しかし、コスト対効果の観点、ソフトウェア保守の観点から効果的に運用することが困難である。また、システム開発の協力会社等のメンバがオフィス文書をダウンロードした場合、監視用ソフトウェアの監視対象範囲外でオフィス文書を更新する可能性があり、この場合については何ら監視することができない。
【0005】
そこで、文書の類似度から機密度を判断して、情報の漏洩を防止する製品等も発表されている(非特許文献3参照)。例えば特許文献2には、文書単位で類似度を算出し、機密文書との最大類似度に基づいて文書の機密度の判定を実行する情報処理装置が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2004−5063号公報
【特許文献2】特開2007−81955号公報
【特許文献3】特開2007−48236号公報
【非特許文献】
【0007】
【非特許文献1】ミカエル ダブリュー.ベリー(Michael W.Berry)、マレー ブローネ(Murray Browne)、「検索エンジンの理解−数学モデルとテキスト修正」
【非特許文献2】中澤拓磨、久保田秀和、角康之、西田豊明、「再利用部分の抽出によるプレゼンテーションストーリーの変遷の可視化」、2007年、人工知能学会全国大会
【非特許文献3】プルーフポイント(Proofpoint)、[online]、[平成20年12月1日検索]、インターネット<URL:http://www.source−pad.com/antivirus/proofpoint/function.html>
【非特許文献4】マーク プライアー(marc prior)、オメガT(Omega T)ホームページ、オメガTプロジェクト、[online]、[平成20年8月1日検索]、インターネット<URL:http://www.omegat.org>
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、特許文献2に開示されている情報処理装置では、機密度判定の対象となる文書と機密文書との類似度を算出しているだけであり、機密文書のどの部分が機密度の高い部分であるのか判断することができず、文書単位でしか機密度を判定することができないことから、本来非機密文書であるにもかかわらず機密文書であると誤って判定されるおそれがあるという問題点があった。
【0009】
また、一定のセキュリティポリシーにしたがって、例えば「社内機密」といった文字列を文書に埋め込んで機密度を記録する方法も採用されている。しかし、一定の文字列を文書に埋め込む作業は結局使用者の負担に係る作業であり、文書中に誤った文字列が埋め込まれた場合、誤った機密度の判定処理が実行されるおそれがあった。すなわち、本来機密文書として取り扱うべき文書に「社内機密」という文字列を埋め込むのを忘れたために、機密度の判定処理が実行されていないにもかかわらず非機密文書であると誤った判断がなされ、機密文書が広く共有されてしまうおそれが残されていた。
【0010】
本発明は斯かる事情に鑑みてなされたものであり、複数の組織で共有されるオフィス文書であっても、文書に対する機密度の判定処理の負荷を軽減することができる機密度判定を支援する方法、装置及びコンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するために第1発明に係る方法は、文書データの機密度判定を支援するコンピュータで実行することが可能な方法において、包含するプロパティの所定の特徴を評価する単位である複数のブロックに分割することが可能な文書データを、ブロックごとに機密状態であるか否かを示す機密度情報に対応付けて記憶するステップと、機密度の判定対象となる文書データを取得するステップと、取得した文書データのブロックごとに、類似するブロックが存在する文書データが記憶してあるか否かを判断するステップと、類似するブロックが存在する文書データが記憶してあると判断した場合、取得した文書データの対応するブロックに機密状態である旨を示す機密度情報が付与されているか否かを判断するステップと、機密状態である旨を示す機密度情報が付与されていると判断した場合、取得した文書データは機密状態であると判定するステップとを含む。
【0012】
また、第2発明に係る方法は、第1発明において、すべてのブロックに機密度情報が付与されたか否かを判断するステップと、機密度情報が付与されていないブロックが存在すると判断した場合、取得した文書データの部分集合となる文書データを抽出するステップと、取得した文書データの部分集合となる文書データがすべて非機密状態であるか否かを判断するステップと、取得した文書データの部分集合となる文書データがすべて非機密状態であると判断した場合、類似するブロックに付与されている機密度情報を付与するステップとを含む。
【0013】
また、第3発明に係る方法は、第2発明において、取得した文書データの部分集合となる文書データがすべて機密状態であるか否かを判断するステップと、取得した文書データの部分集合となる文書データがすべて機密状態であると判断した場合、文書データ単位で機密度を判定するときには機密状態である旨を示す機密度情報を付与するステップとを含む。
【0014】
また、第4発明に係る方法は、第3発明において、取得した文書データの部分集合となる文書データがすべて機密状態であると判断した場合、ブロック単位で機密度を判定するときには類似するブロックに付与されている機密度情報を付与するステップを含む。
【0015】
また、第5発明に係る方法は、第4発明において、取得した文書データの部分集合となる文書データが非機密状態である文書データを含むと判断した場合、取得した文書データを包含する文書データを抽出するステップと、取得した文書データを包含する文書データがすべて非機密状態であるか否かを判断するステップと、すべて非機密状態であると判断した場合、文書データに非機密状態である旨を示す機密度情報を付与するステップとを含む。
【0016】
また、第6発明に係る方法は、第5発明において、取得した文書データを包含する文書データが機密状態である文書データを含むと判断した場合、類似するブロックに非機密状態である旨を示す機密度情報が付与されているか否かを判断するステップと、非機密状態である旨を示す機密度情報が付与されていないと判断した場合、該ブロックに対する機密度情報の判定結果の入力を受け付けるステップとを含む。
【0017】
次に、上記目的を達成するために第7発明に係る方法は、文書データの機密度判定を支援するコンピュータで実行することが可能な方法において、機密状態であるか否かを示す機密度情報が付与された文書データ及び該文書データの特徴を示す特徴情報を記憶するステップと、機密度の判定対象となる文書データを取得するステップと、取得した文書データの特徴情報と類似する特徴情報を有する文書データが記憶してあるか否かを判断するステップと、類似する特徴情報を有する文書データが記憶してあると判断した場合、記憶してあると判断した類似する特徴情報を有する文書データのうち、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分を算出するステップと、算出した特徴情報の差分が、取得した文書データに含まれているか否かを判断するステップと、算出した特徴情報の差分が含まれていると判断した場合、取得した文書データは機密状態であると判定し、算出した特徴情報の差分が含まれていないと判断した場合、取得した文書データは非機密状態であると判定するステップとを含む。
【0018】
また、第8発明に係る方法は、第7発明において、特徴情報が類似する文書データが複数記憶してあると判断した場合、記憶してあると判断した、類似する特徴情報を有する複数の文書データの特徴情報の和集合を求めるステップと、求めた特徴情報の和集合のうち、機密状態である文書データの特徴情報の和集合と非機密状態である文書データの特徴情報の和集合との間の特徴情報の差分を算出するステップとを含む。
【0019】
次に、上記目的を達成するために第9発明に係る装置は、包含するプロパティの所定の特徴を評価する単位である複数のブロックに分割することが可能な文書データを、ブロックごとに機密状態であるか否かを示す機密度情報に対応付けて記憶する機密度情報記憶手段と、機密度の判定対象となる文書データを取得する文書データ取得手段と、取得した文書データのブロックごとに、類似するブロックが存在する文書データが記憶してあるか否かを判断する類似判断手段と、該類似判断手段で類似するブロックが存在する文書データが記憶してあると判断した場合、取得した文書データの対応するブロックに機密状態である旨を示す機密度情報が付与されているか否かを判断する付与判断手段と、該付与判断手段で機密状態である旨を示す機密度情報が付与されていると判断した場合、取得した文書データは機密状態であると判定する判定手段とを備える。
【0020】
次に、上記目的を達成するために第10発明に係る装置は、機密状態であるか否かを示す機密度情報が付与された文書データ及び該文書データの特徴を示す特徴情報を記憶する特徴情報記憶手段と、機密度の判定対象となる文書データを取得する文書データ取得手段と、取得した文書データの特徴情報と類似する特徴情報を有する文書データが記憶してあるか否かを判断する判断手段と、該判断手段で類似する特徴情報を有する文書データが記憶してあると判断した場合、記憶してあると判断した類似する特徴情報を有する文書データのうち、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分を算出する差分算出手段と、算出した特徴情報の差分が、取得した文書データに含まれているか否かを判断する差分包含判断手段と、該差分包含判断手段で算出した特徴情報の差分が含まれていると判断した場合、取得した文書データは機密状態であると判定し、算出した特徴情報の差分が含まれていないと判断した場合、取得した文書データは非機密状態であると判定する判定手段とを備える。
【0021】
次に、上記目的を達成するために第11発明に係るコンピュータプログラムは、文書データの機密度判定を支援するコンピュータで実行することが可能なコンピュータプログラムにおいて、前記コンピュータを、機密度の判定対象となる文書データを取得する文書データ取得手段、取得した文書データのブロックごとに、類似するブロックが存在する文書データが記憶してあるか否かを判断する類似判断手段、該類似判断手段で類似するブロックが存在する文書データが記憶してあると判断した場合、取得した文書データの対応するブロックに機密状態である旨を示す機密度情報が付与されているか否かを判断する付与判断手段、及び該付与判断手段で機密状態である旨を示す機密度情報が付与されていると判断した場合、取得した文書データは機密状態であると判定する判定手段として機能させる。
【0022】
次に、上記目的を達成するために第12発明に係るコンピュータプログラムは、文書データの機密度判定を支援するコンピュータで実行することが可能なコンピュータプログラムにおいて、前記コンピュータを、機密状態であるか否かを示す機密度情報が付与された文書データ及び該文書データの特徴を示す特徴情報を記憶する特徴情報記憶手段、機密度の判定対象となる文書データを取得する文書データ取得手段、取得した文書データの特徴情報と類似する特徴情報を有する文書データが記憶してあるか否かを判断する判断手段、該判断手段で類似する特徴情報を有する文書データが記憶してあると判断した場合、記憶してあると判断した類似する特徴情報を有する文書データのうち、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分を算出する差分算出手段、算出した特徴情報の差分が、取得した文書データに含まれているか否かを判断する差分包含判断手段、及び該差分包含判断手段で算出した特徴情報の差分が含まれていると判断した場合、取得した文書データは機密状態であると判定し、算出した特徴情報の差分が含まれていないと判断した場合、取得した文書データは非機密状態であると判定する判定手段として機能させる。
【発明の効果】
【0023】
本発明によれば、明らかに非機密状態であると判断することが可能なブロック及び明らかに機密状態であると判断することが可能なブロックについては機密度の判定処理の対象から除外することができ、ブロックに付与された機密度情報に応じて文書データごとに機密状態であるか又は非機密状態であるかを判断することができるので、すべてのブロックに対して機密度の判定処理を実行する必要がなく、機密度の判定処理の負荷を軽減することが可能となる。
【0024】
また、機密状態であると判定された文書データと非機密状態であると判定された文書データとの差分を算出することにより、機密情報の根幹をなす部分文書データを高い精度で類推することができ、文書データの機密度を精度良く判定することが可能となる。
【図面の簡単な説明】
【0025】
【図1】本発明の実施の形態1に係る機密度判定支援装置の構成例を示すブロック図である。
【図2】本発明の実施の形態1に係る機密度判定支援装置の機能ブロック図である。
【図3】本発明の実施の形態1に係る機密度判定支援装置のCPUの文書データ全体としての機密度判定の処理手順を示すフローチャートである。
【図4】文書データと、該文書データを部分文書とする文書データ及び該文書データに含まれるブロックとの関係を示す集合図である。
【図5】機密度判定の対象となる文書データが包含関係を有する場合の本発明の実施の形態1に係る機密度判定支援装置のCPUの機密度判定の処理手順を示すフローチャートである。
【図6】ステップS503での機密度判定処理の例示図である。
【図7】ステップS507での機密度判定処理の例示図である。
【図8】ステップS510での機密度判定処理の例示図である。
【図9】本発明の実施の形態1に係る機密度判定支援装置のCPUの機密度判定の詳細処理手順を示すフローチャートである。
【図10】ステップS905での機密度判定処理の第一の例示図である。
【図11】ステップS905での機密度判定処理の第二の例示図である。
【図12】ステップS905での機密度判定処理の第三の例示図である。
【図13】本発明の実施の形態2に係る機密度判定支援装置の構成例を示すブロック図である。
【図14】本発明の実施の形態2に係る機密度判定支援装置の機能ブロック図である。
【図15】本発明の実施の形態2に係る機密度判定支援装置のCPUの機密度判定の処理手順を示すフローチャートである。
【図16】特徴情報として単語の出現頻度を用いる場合の特徴情報の例示図である。
【図17】特徴情報の差分の算出結果の例示図である。
【図18】文書データ記憶部に事前に記憶してある文書データの例示図である。
【図19】取得した文書データの例示図である。
【図20】文書データに基づいて抽出された、特徴情報が類似している文書データの例示図である。
【図21】文書データの特徴情報の算出結果を示す図表である。
【図22】文書データの特徴情報と和集合との差分の算出結果を示す図表である。
【発明を実施するための形態】
【0026】
以下、本発明の実施の形態に係る機密度判定支援装置について、図面に基づいて具体的に説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせのすべてが解決手段の必須事項であるとは限らないことは言うまでもない。
【0027】
また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。
【0028】
以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入した機密度判定支援装置について説明するが、当業者であれば明らかな通り、本発明はその一部をコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、機密度判定支援装置というハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソフトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、DVD、CD、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。
【0029】
本発明の実施の形態1では、複数の使用者の間で共有することが可能に記憶してある文書データを、ブロックごとに機密状態であるか否かを示す機密度情報に対応付けて記憶しておき、文書データのブロックごとに、類似するブロックが存在する文書データが記憶してあるか否か、取得した文書データの対応するブロックに機密状態である旨を示す機密度情報が付与されているか否か等に基づいて、明らかに機密状態である場合、明らかに非機密状態である場合には使用者による機密度判定処理を省略することができるようにすることで、明らかに非機密状態であると判断することが可能なブロック及び明らかに機密状態であると判断することが可能なブロックについては、使用者が機密度判定を実行する必要がなく、ブロックに付与された機密度情報に応じて文書データ単位で機密状態であるか否かを判定することができるので、すべてのブロックに対して機密度の判定処理を実行する必要がなく、機密度の判定処理の負荷を軽減することが可能となる。
【0030】
なお、文書データの「プロパティ」とは、文書データに含まれる単語、図形等を意味しており、「ブロック」とは、プロパティの所定の特徴を機械的なメトリクスで定量的に評価することができ、使用者による情報更新が行われない限り機密度情報が変動しない単位を意味している。例えばプレゼンテーションソフトウェアで作成した文書では、1スライドがブロックに相当し、ワードプロセッサソフトウェアで作成した文書では、例えば章ごと、段落ごと等の一括りの文書がブロックに相当する。その他、ページごと、パラグラフごと、文書ごと等の一括りの文書がブロックに相当し、1文であっても複数文であっても良い。
【0031】
本発明の実施の形態2では、機密状態であるか否かを示す機密度情報が付与された文書データ及び該文書データの特徴を示す特徴情報を記憶しておき、機密度の判定対象となる文書データを取得して、取得した文書データの特徴情報と類似する特徴情報を有する文書データが記憶してあるか否かを判断する。類似する特徴情報を有する文書データが記憶してあると判断した場合、記憶してあると判断した類似する特徴情報を有する文書データのうち、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分を算出する。算出した特徴情報の差分が、取得した文書データに含まれている場合、取得した文書データは機密状態であると判定し、含まれていない場合、取得した文書データは非機密状態であると判定する。機密状態であると判定された文書データと非機密状態であると判定された文書データとの差分を算出することにより、機密情報の根幹をなす部分文書データを高い精度で類推することができ、文書データの機密度を精度良く判定することが可能となる。
【0032】
(実施の形態1)
図1は、本発明の実施の形態1に係る機密度判定支援装置の構成例を示すブロック図である。本発明の実施の形態1に係る機密度判定支援装置1は、少なくともCPU(中央演算装置)11、メモリ12、記憶装置13、I/Oインタフェース14、ビデオインタフェース15、可搬型ディスクドライブ16、通信インタフェース17及び上述したハードウェアを接続する内部バス18で構成されている。
【0033】
CPU11は、内部バス18を介して機密度判定支援装置1の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置13に記憶してあるコンピュータプログラム100に従って、種々のソフトウェア的機能を実行する。メモリ12は、SRAM、SDRAM等の揮発性メモリで構成され、コンピュータプログラム100の実行時にロードモジュールが展開され、コンピュータプログラム100の実行時に発生する一時的なデータ等を記憶する。
【0034】
記憶装置13は、内蔵される固定型記憶装置(ハードディスク)、SRAM等の揮発性メモリ、ROM等の不揮発性メモリ等で構成されている。記憶装置13に記憶してあるコンピュータプログラム100は、プログラム及びデータ等の情報を記録したDVD、CDROM等の可搬型記録媒体90から、可搬型ディスクドライブ16によりダウンロードされ、実行時には記憶装置13からメモリ12へ展開して実行される。もちろん、通信インタフェース17を介してネットワーク2に接続されている外部のコンピュータ3、3、・・・からダウンロードされたコンピュータプログラムであっても良い。
【0035】
また記憶装置13は、文書データ記憶部131、機密度情報記憶部132、及びブロック規則記憶部133を備えている。文書データ記憶部131には、ブロックに分割することが可能な文書データを取得して記憶する。なお、文書データ記憶部131は、ネットワーク2内の所定の使用者間で共有することができ、外部のコンピュータ3、3、・・・から読み出し処理、更新処理等を実行することが可能である。
【0036】
機密度情報記憶部132は、文書データごと及び文書データのブロックごとに機密度情報として付与された機密ラベル(以下、ラベルという)を記憶する。ラベルは、機密状態である旨を示すラベルと非機密状態である旨を示すラベルとの2種類存在する。
【0037】
ブロック規則記憶部133は、文書データの種類、例えば文書データファイルのファイル識別子、文書データの作成者等に対応付けて、ブロックに分割するための規則に関する情報を記憶する。具体的には、文書データがマイクロソフト(登録商標)社製のパワーポイント(登録商標)のデータである場合、ファイル識別子が「.ppt」であることから、ファイル識別子が「.ppt」である場合にはブロックとしてスライドごとに分割するようブロック分割規則を記憶する。
【0038】
また、文書データの作成者を識別する作成者IDごとに、文書記載の習慣に応じてブロックとして分割するようブロック分割規則を記憶する。例えば作成者IDごとに章立ての方法が相違する場合であっても、作成者IDごとの習慣に応じて章立てごとにブロックとして分割するようブロック分割規則を記憶する。
【0039】
通信インタフェース17は内部バス18に接続されており、インターネット、LAN、WAN等の外部のネットワーク2に接続されることにより、外部のコンピュータ3、3、・・・等とデータ送受信を行うことが可能となっている。
【0040】
I/Oインタフェース14は、キーボード21、マウス22等のデータ入力媒体と接続され、データの入力を受け付ける。また、ビデオインタフェース15は、CRTモニタ、LCD等の表示装置23と接続され、所定の画像を表示する。
【0041】
図2は、本発明の実施の形態1に係る機密度判定支援装置1の機能ブロック図である。文書データ取得部201は、機密度の判定対象となる文書データを取得する。文書データの取得方法は特に限定されるものではなく、ネットワーク2を介して外部のコンピュータ3、3、・・・から取得しても良いし、可搬型記録媒体90を介して取得しても良い。
【0042】
類似判断部202は、文書データ記憶部131に記憶してある文書データを読み出し、ブロック規則記憶部133に記憶してあるブロックに分割するための規則に関する情報に基づいて文書データを複数のブロックに分割し、分割したブロックごとに、類似するブロックを含む文書データが文書データ記憶部131に記憶してあるか否かを判断する。
【0043】
付与判断部203は、類似判断部202にて類似するブロックを含む文書データが記憶してあると判断した場合、機密度情報記憶部132に記憶してあるラベルを文書データごと又は文書データのブロックごとに抽出し、機密度情報記憶部132を照会して、文書データ中の類似するブロックに機密状態である旨を示すラベル(機密度情報)が付与されているか否かを判断する。すなわち、文書データ記憶部131に記憶してある文書データ中のブロックに類似すると判断されたブロックに既にラベルが付与されており、しかも付与されているラベルが機密状態である旨を示すラベルである場合には、該ブロックは機密度の高いブロックであると判断することができる。
【0044】
取得した文書データのブロックにラベルが付与されていない場合には、文書データ記憶部131に記憶されている文書データ中のブロックのうち類似するブロックであると判断されたブロックに付与されているラベルを、取得した文書データの対応するブロックに付与する。また、既にラベルが付与されている場合であって、文書データ記憶部131に記憶されている文書データ中のブロックのうち類似するブロックに付与されているラベルと矛盾する場合、すなわち一方が機密状態である旨を示すラベルであり、他方が非機密状態である旨を示すラベルである場合には、使用者によりいずれのラベルを付与するかに関する入力をブロックごとに受け付ける。
【0045】
判定部204は、付与判断部203にて機密状態である旨を示すラベルが付与されていると判断した場合、取得した文書データ全体として機密状態であると判定する。すなわち、機密度の高いブロックを含んでいる文書データについては、文書データ全体として機密状態であると判定することができる。文書データ全体として機密状態であるとの判定結果(ラベル)及び文書データは、それぞれ機密度情報記憶部132及び文書データ記憶部131に互いに対応付けて記憶され、次に取得した文書データの機密度判定に用いることができる。
【0046】
図3は、本発明の実施の形態1に係る機密度判定支援装置1のCPU11の文書データ全体としての機密度判定の処理手順を示すフローチャートである。図3に示すように、機密度判定支援装置1のCPU11は、機密度判定の対象となる文書データdを取得する(ステップS301)。具体的には、ネットワーク2を介して外部のコンピュータ3、3、・・・から受信しても良いし、記憶装置13に記憶してある文書データから読み出しても良い。可搬型記録媒体90を介して読み出しても良い。
【0047】
CPU11は、取得した文書データdの先頭のブロックb1を抽出し(ステップS302)、類似判断の対象となるブロックbに設定する(ステップS303)。ブロックの分割は、ブロック規則記憶部133に記憶してあるブロックへ分割するための規則に関する情報に基づいて実行される。例えば文書データがパワーポイント(登録商標)にて作成された文書データである場合には、最初のスライドがブロックb1となる。
【0048】
CPU11は、ブロックbと類似するブロックを含む文書データが文書データ記憶部131に記憶してあるか否かを判断し(ステップS304)、CPU11が、ブロックbと類似するブロックを含む文書データが文書データ記憶部131に記憶してあると判断した場合(ステップS304:YES)、CPU11は、ブロックbに機密状態である旨を示すラベルが付与されているか否かを判断する(ステップS305)。CPU11が、ブロックbに機密状態である旨を示すラベルが付与されていると判断した場合(ステップS305:YES)、CPU11は、抽出したブロックが機密度の高いブロックであると判断し、文書データdが機密状態であると判定し(ステップS306)、取得した文書データd及び文書データ全体として機密状態であるという判定結果を、それぞれ対応付けて文書データ記憶部131及び機密度情報記憶部132に記憶する。
【0049】
CPU11が、ブロックbと類似するブロックを含む文書データが文書データ記憶部131に記憶されていないと判断した場合(ステップS304:NO)、又はブロックbに機密状態である旨を示すラベルが付与されていないと判断した場合(ステップS305:NO)、CPU11は、ブロックbが最終ブロックであるか否かを判断する(ステップS307)。CPU11が、最終ブロックではないと判断した場合(ステップS307:NO)、CPU11は、次のブロックを抽出して類似判断の対象となるブロックbに設定し(ステップS308)、処理をステップS304へ戻して上述した処理を繰り返す。
【0050】
CPU11が、最終ブロックであると判断した場合(ステップS307:YES)、CPU11は、文書データdのすべてのブロックにラベルが付与されているか否かを判断する(ステップS309)。CPU11が、文書データdのすべてのブロックにラベルが付与されていると判断した場合(ステップS309:YES)、CPU11は、処理を終了する。CPU11が、文書データdのブロックにまだラベルが付与されていないブロックが存在すると判断した場合(ステップS309:NO)、CPU11は、機密度判定の対象となる文書データdと文書データ記憶部131に記憶してある文書データとの包含関係に基づいて、さらに詳細な機密度判定処理を実行する。
【0051】
図4は、文書データdと、文書データdを部分文書とする文書データ及び文書データdに含まれるブロックとの関係を示す集合図である。図4(a)では、文書データdを全体集合41とし、その部分集合42を削除する場合の説明図である。図4(a)では、文書データdの全体集合41に非機密状態である旨を示すラベルが付与されているので、部分集合42として、どのような文書データ及び該文書データに含まれるブロックが削除された場合であっても、文書データdを非機密状態として判定することができる。
【0052】
同様に図4(b)では、文書データdを部分集合44とし、部分集合44に機密状態である旨を示すラベルが付与されている。この場合、部分集合44を包含する全体集合43となるように、非機密状態である旨を示すラベルが付与された文書データがどのように追加された場合であっても、機密状態である旨を示すラベルが付与された部分集合44を含んでいることから、全体集合43に相当する文書データd全体としては機密状態として判定することができる。
【0053】
図5は、機密度判定の対象となる文書データdが包含関係を有する場合の本発明の実施の形態1に係る機密度判定支援装置1のCPU11の機密度判定の処理手順を示すフローチャートである。機密度判定支援装置1のCPU11が、文書データdのブロックにまだラベルが付与されていないブロックが存在すると判断した場合(ステップS309:NO)、CPU11は、文書データdの部分集合となる複数の文書データd’を抽出する(ステップS501)。
【0054】
CPU11は、抽出したすべての文書データd’に対して非機密状態である旨を示すラベルが付与されているか否かを判断する(ステップS502)。CPU11が、抽出したすべての文書データd’に対して非機密状態である旨を示すラベルが付与されていると判断した場合(ステップS502:YES)、CPU11は、抽出した文書データd’のうち類似するブロックごとのラベルを、文書データdの対応するブロックに付与する(ステップS503)。
【0055】
なお、取得した文書データdのブロックに既にラベルが付与されている場合であって、抽出した文書データd’の対応するブロックに付与されているラベルと矛盾する場合、すなわち一方が機密状態である旨を示すラベルであり、他方が非機密状態である旨を示すラベルである場合には、使用者によりいずれのラベルを付与するかに関する入力をブロックごとに受け付ける。これにより、機械的に判定することができない機密度についてのみ使用者が判定すれば足りることから、使用者による機密度の判定処理の負担を軽減することができる。
【0056】
図6は、ステップS503での機密度判定処理の例示図である。図6(a)は、文書データ記憶部131から抽出された文書データd’を、図6(b)は、機密度判定の対象として取得した文書データdを、それぞれ示している。
【0057】
図6(a)では、ブロックb1、b2について既に非機密状態である旨を示すラベルが付与されている。一方、図6(b)でもブロックb1、b2について既に非機密状態である旨を示すラベルが付与されているので両者は矛盾しない。したがって、ブロックb1、b2については使用者が機密度を判定することなく、非機密状態である旨を示すラベルが付与されている状態を維持することができる。
【0058】
これに対して図6(a)にはブロックb3が存在しないのに対し、図6(b)では新たにブロックb3が追加されている。したがって、文書データdが非機密状態であるか否かを判定するためには、追加されたブロックb3について非機密状態である旨を示すラベルが付与されているか否かを判断する必要が残されており、ブロックb3が機密度判定対象ブロック(ハッチング部分)となる。
【0059】
図5に戻って、機密度判定支援装置1のCPU11が、抽出した文書データd’に対して非機密状態である旨を示すラベルが付与されていない文書データd’が存在すると判断した場合(ステップS502:NO)、CPU11は、ステップS503をスキップし、抽出したすべての文書データd’に対して機密状態である旨を示すラベルが付与されているか否かを判断する(ステップS504)。CPU11が、抽出したすべての文書データd’に対して機密状態である旨を示すラベルが付与されていると判断した場合(ステップS504:YES)、CPU11は、文書データ単位で機密度を判定しているか否かを判断する(ステップS505)。
【0060】
CPU11が、文書データ単位で機密度を判定していると判断した場合(ステップS505:YES)、CPU11は、文書データdに対して機密状態である旨を示すラベルを付与して(ステップS506)、処理を終了する。つまり、文書データ単位で機密状態である旨を示すラベルが付与されている文書データd’を部分集合として含む文書データdは、図4(b)と同様、機密状態であると判定することができる。
【0061】
CPU11が、文書データ単位で機密度を判定していないと判断した場合(ステップS505:NO)、CPU11は、抽出した文書データd’のうち類似するブロックごとのラベルを、文書データdの対応するブロックに付与する(ステップS507)。
【0062】
なお、抽出したすべての文書データd’に対して機密状態である旨を示すラベルが付与されている場合であって、抽出した文書データd’の対応するブロックに付与されているラベルと矛盾する場合、すなわち一方が機密状態である旨を示すラベルであり、他方が非機密状態である旨を示すラベルである場合には、使用者によりいずれのラベルを付与するかに関する入力をブロックごとに受け付ける。これにより、機械的に判定することができない機密度についてのみ使用者が判定すれば足りることから、使用者による機密度の判定処理の負担を軽減することができる。
【0063】
図7は、ステップS507での機密度判定処理の例示図である。図7(a)は、文書データ記憶部131から抽出された文書データd’を、図7(b)は、機密度判定の対象として取得した文書データdを、それぞれ示している。
【0064】
図7(a)では、ブロックb1、b2について既に機密状態である旨を示すラベルが付与されている。一方、図7(b)でもブロックb1、b2について既に機密状態である旨を示すラベルが付与されているので両者は矛盾しない。したがって、ブロックb1、b2については使用者が機密度を判定することなく、機密状態である旨を示すラベルが付与されている状態を維持することができる。
【0065】
これに対して図7(a)にはブロックb3が存在しないのに対し、図7(b)では新たにブロックb3が追加されている。したがって、文書データdが機密状態であるか否かを判定するためには、追加されたブロックb3について機密状態である旨を示すラベルが付与されているか否かを判断する必要が残されており、ブロックb3が機密度判定対象ブロック(ハッチング部分)となる。
【0066】
図5に戻って、機密度判定支援装置1のCPU11が、抽出した複数の文書データd’中に機密状態である旨を示すラベルが付与されていない文書データd’が存在すると判断した場合(ステップS504:NO)、CPU11は、ステップS505、ステップS507をスキップし、文書データdを包含する文書データd”を抽出する(ステップS508)。CPU11は、抽出した文書データd”がすべて非機密状態である旨を示すラベルが付与されているか否かを判断する(ステップS509)。
【0067】
CPU11が、抽出した文書データd”がすべて非機密状態である旨を示すラベルが付与されていると判断した場合(ステップS509:YES)、CPU11は、文書データdに非機密状態である旨を示すラベルを付与して(ステップS510)、処理を終了する。
【0068】
なお、抽出したすべての文書データd”に対して非機密状態である旨を示すラベルが付与されている場合、図4(a)に示すようにどの部分集合に相当するブロックが削除されたときであっても文書データd”全体として非機密状態を維持する。したがって、使用者による機密度の判定処理の負担を軽減することができる。
【0069】
図8は、ステップS510での機密度判定処理の例示図である。図8(a)は、文書データ記憶部131から抽出された文書データd”を、図8(b)は、機密度判定の対象として取得した文書データdを、それぞれ示している。
【0070】
図8(a)では、ブロックb1、b2、b3について既に非機密状態である旨を示すラベルが付与されている。一方、図8(b)でもブロックb1、b2について既に非機密状態である旨を示すラベルが付与されているので両者は矛盾しない。したがって、ブロックb1、b2については使用者が機密度を判定することなく、非機密状態である旨を示すラベルが付与されている状態であることが自明であるので、使用者が機密度を判断する必要があるブロックは存在しない。
【0071】
図5に戻って、機密度判定支援装置1のCPU11が、抽出した文書データd”中に非機密状態である旨を示すラベルが付与されていない文書データd”が存在すると判断した場合(ステップS509:NO)、CPU11は、文書データごとにラベルが付与されている文書データに判定対象となる文書データdのブロックと類似するブロックが存在するか否かに基づいて、さらに詳細な機密度の判定処理を実行する。
【0072】
図9は、本発明の実施の形態1に係る機密度判定支援装置1のCPU11の機密度判定の詳細処理手順を示すフローチャートである。図9に示すように、機密度判定支援装置1のCPU11が、抽出した文書データd”が非機密状態である旨を示すラベルが付与されていない文書データd”が存在すると判断した場合(ステップS509:NO)、CPU11は、取得した文書データdの先頭のブロックb1を抽出し(ステップS901)、類似判断の対象となるブロックbに設定する(ステップS902)。ブロックの分割は、ブロック規則記憶部133に記憶してあるブロックに分割するための規則に関する情報に基づいて実行される。例えば文書データがパワーポイント(登録商標)にて作成された文書データである場合には、最初のスライドがブロックb1となる。
【0073】
CPU11は、文書データ全体に対してラベルが付与されている文書データの中でブロックbと類似するブロックを含む文書データが、文書データ記憶部131に記憶してあるか否かを判断し(ステップS903)、CPU11が、ブロックbと類似するブロックを含む文書データが文書データ記憶部131に記憶してあると判断した場合(ステップS903:YES)、CPU11は、ブロックbに非機密状態である旨を示すラベルが付与されているか否かを判断する(ステップS904)。
【0074】
CPU11が、ブロックbに非機密状態である旨を示すラベルが付与されていると判断した場合(ステップS904:YES)、CPU11は、抽出した文書データd”のうち類似するブロックごとのラベルを、文書データdの対応するブロックに付与する(ステップS905)。
【0075】
なお、抽出したすべての文書データに対して付与されているラベルに応じて、使用者により機密状態である旨を示すラベルと非機密状態である旨を示すラベルとのいずれのラベルを付与するかに関する入力をブロックごとに受け付ける必要が生じる。図10は、ステップS905での機密度判定処理の第一の例示図である。図10(a)及び図10(b)は、文書データ記憶部131から抽出された文書データd’を、図10(c)は、機密度判定の対象として取得した文書データdを、それぞれ示している。
【0076】
図10では、図10(a)に示す文書データd’はすべてのブロックに機密状態である旨を示すラベルが付与されており、図10(b)に示す文書データd’はすべてのブロックに非機密状態である旨を示すラベルが付与されている。そして、図10(c)に示す文書データdは、図10(a)に示す文書データd’のブロックb3と、図10(b)に示す文書データd’のブロックb3’と、図10(c)に示す追加された新規ブロックb3”とで構成されている。
【0077】
この場合、図10(b)に示す文書データd’のブロックb3’については非機密状態である旨を示すラベルが付与されているので、文書データd全体が機密状態であるか否かの判定には直接関与しない。一方、図10(a)に示す文書データd’のブロックb3、及び図10(c)に示す追加された新規ブロックb3”は、それぞれ機密状態であるか否かの判定結果に応じて文書データd全体が機密状態であるか否かの判定結果が変動するので、ブロックb3、b3”が機密度判定対象ブロック(ハッチング部分)となる。
【0078】
次に、図11は、ステップS905での機密度判定処理の第二の例示図である。図11(a)及び図11(b)は、文書データ記憶部131から抽出された文書データd’を、図11(c)は、機密度判定の対象として取得した文書データdを、それぞれ示している。
【0079】
図11では、図11(a)に示す文書データd’及び図11(b)に示す文書データd’はすべてのブロックに機密状態である旨を示すラベルが付与されている。そして、図11(c)に示す文書データdは、図11(a)に示す文書データd’のブロックb3と、図11(b)に示す文書データd’のブロックb3’と、図11(c)に示す追加された新規ブロックb3”とで構成されている。
【0080】
この場合、図11(a)に示す文書データd’のブロックb3、図11(b)に示す文書データd’のブロックb3’及び図11(c)に示す追加された新規ブロックb3”のすべてについて、それぞれ機密状態であるか否かの判定結果に応じて文書データd全体が機密状態であるか否かの判定結果が変動する。したがって、ブロックb3、b3’、b3”のすべてのブロックが機密度判定対象ブロック(ハッチング部分)となる。
【0081】
図12は、ステップS905での機密度判定処理の第三の例示図である。図12(a)及び図12(b)は、文書データ記憶部131から抽出された文書データd’を、図12(c)は、機密度判定の対象として取得した文書データdを、それぞれ示している。
【0082】
図12では、図12(a)に示す文書データd’及び図12(b)に示す文書データd’はすべてのブロックに非機密状態である旨を示すラベルが付与されている。そして、図12(c)に示す文書データdは、図12(a)に示す文書データd’のブロックb3と、図12(b)に示す文書データd’のブロックb3’と、図12(c)に示す追加された新規ブロックb3”とで構成されている。
【0083】
この場合、図12(a)に示す文書データd’のブロックb3及び図12(b)に示す文書データd’のブロックb3’については非機密状態である旨を示すラベルが付与されているので、文書データd全体が機密状態であるか否かの判定には直接関与しない。一方、図12(c)に示す追加された新規ブロックb3”は、機密状態であるか否かの判定結果に応じて文書データd全体が機密状態であるか否かの判定結果が変動する。したがって、ブロックb3”のみが機密度判定対象ブロック(ハッチング部分)となる。
【0084】
図9に戻って、機密度判定支援装置1のCPU11が、ブロックbと類似するブロックを含む文書データが文書データ記憶部131に記憶されていないと判断した場合(ステップS903:NO)、CPU11は、ステップS904及びステップS905を、CPU11が、ブロックbに非機密状態である旨を示すラベルが付与されていないと判断した場合(ステップS904:NO)、CPU11は、ステップS905を、それぞれスキップし、ブロックbの機密度の判定結果の入力を受け付ける(ステップS906)。
【0085】
CPU11は、ブロックbが最終ブロックであるか否かを判断し(ステップS907)、CPU11が、最終ブロックではないと判断した場合(ステップS907:NO)、CPU11は、次のブロックを抽出して類似判断の対象となるブロックbに設定し(ステップS908)、処理をステップS903へ戻して上述した処理を繰り返す。CPU11が、最終ブロックであると判断した場合(ステップS907:YES)、CPU11は、処理を終了する。
【0086】
以上のように本実施の形態1によれば、複数の使用者の間で共有することが可能に記憶してある文書データを、ブロックごとに機密状態であるか否かを示す機密度情報に対応付けて記憶しておき、文書データのブロックごとに、類似するブロックが存在する文書データが記憶してあるか否か、取得した文書データの対応するブロックに機密状態である旨を示す機密度情報が付与されているか否か等に基づいて、明らかに機密状態である場合、明らかに非機密状態である場合には使用者による機密度判定処理を省略することができるようにすることで、明らかに非機密状態であると判断することが可能なブロック及び明らかに機密状態であると判断することが可能なブロックについては、使用者が機密度判定を実行する必要がなく、ブロックに付与された機密度情報に応じて文書データ単位で機密状態であるか否かを判断することができるので、すべてのブロックに対して機密度の判定処理を実行する必要がなく、機密度の判定処理の負荷を軽減することが可能となる。
【0087】
(実施の形態2)
図13は、本発明の実施の形態2に係る機密度判定支援装置の構成例を示すブロック図である。本発明の実施の形態2に係る機密度判定支援装置1の構成は、実施の形態1と同様であることから、同一の符号を付することにより詳細な説明は省略する。本実施の形態2は、記憶してある類似する特徴情報を有する文書データのうち、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分が、機密状態であるか非機密状態であるかの判定対象である文書データに含まれているか否かに応じて、機密状態であるか否かを判定する点で実施の形態1とは相違する。
【0088】
機密度判定支援装置1の記憶装置13は、文書データ記憶部131、文書特徴情報記憶部134、及び機密度判定ポリシー記憶部135を備えている。文書データ記憶部131には、機密状態であるか非機密状態であるかの判定対象である文書データを記憶し、文書特徴情報記憶部134には、文書データごとに文書データの特徴を示す特徴情報を記憶する。機密度判定ポリシー記憶部135には、文書データの機密度を判定する基準となる情報、例えば機密度を判定する機密マーカ語等を記憶する。
【0089】
ここで「特徴情報」とは、文書データの性質を端的に示す単語、文書データの同一性を示すためのハッシュ値、使用者により明示的に指定された機密ラベル情報、機密度判定ポリシー記憶部135に記憶してある機密マーカ語等を含む広い概念であり、文書データごとに記憶しても良いし、部分的な文書構造単位、例えばセクション、段落等ごとに記憶しても良い。また、「機密ラベル情報」とは、文書データあるいは文書データ中のブロックが機密状態であるか非機密状態であるかに関するセキュリティ情報全般を意味する。
【0090】
なお、文書データ記憶部131、文書特徴情報記憶部134及び機密度判定ポリシー記憶部135は、ネットワーク2内の所定の使用者間で共有することができ、外部のコンピュータ3、3、・・・から読み出し処理、更新処理等を実行することが可能である。
【0091】
図14は、本発明の実施の形態2に係る機密度判定支援装置1の機能ブロック図である。文書データ取得部1401は、機密度の判定対象となる文書データを取得する。文書データの取得方法は特に限定されるものではなく、ネットワーク2を介して外部のコンピュータ3、3、・・・から取得しても良いし、可搬型記録媒体90を介して取得しても良い。
【0092】
特徴情報判断部1402は、文書データ記憶部131に記憶してある文書データを読み出し、読み出した文書データに対応付けて文書特徴情報記憶部134に記憶してある特徴情報と類似する特徴情報が記憶してあるか否かを判断する。これにより、類似する特徴情報を有する文書データが文書データ記憶部131に記憶してあるか否かを判断することができる。
【0093】
文書データの特徴情報の類比判断の方法は、機密度の判定対象となる文書データに含まれる特徴情報の種類に応じて相違する。例えば特徴情報が文書データの性質を端的に示す単語である場合には、文書データの内容を解析して対応する単語の出現頻度を比較することにより類似度を判断することができる。また、その他の特徴情報についても、例えば非特許文献1に開示されているようなベクトル空間モデルを適用して、特徴情報間のベクトル距離の大小に応じて類似度を判断しても良い。
【0094】
差分算出部1403は、特徴情報判断部1402で、読み出した文書データの特徴情報と類似する特徴情報が記憶してある、すなわち類似する特徴情報を有する文書データが記憶してあると判断した場合、記憶してあると判断した類似する特徴情報を有する文書データのうち、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分を算出する。
【0095】
差分包含判断部1404は、算出した特徴情報の差分が、取得した文書データに含まれているか否かを判断し、判定部1405は、差分包含判断部1404にて算出した特徴情報の差分が、取得した文書データに含まれていると判断した場合、取得した文書データは機密状態であると判定し、含まれていないと判断した場合、取得した文書データは非機密状態であると判定する。
【0096】
図15は、本発明の実施の形態2に係る機密度判定支援装置1のCPU11の機密度判定の処理手順を示すフローチャートである。図15に示すように、機密度判定支援装置1のCPU11は、機密度判定の対象となる文書データD1を取得する(ステップS1501)。具体的には、ネットワーク2を介して外部のコンピュータ3、3、・・・から受信しても良いし、記憶装置13に記憶してある文書データから読み出しても良い。可搬型記録媒体90を介して読み出しても良い。
【0097】
CPU11は、取得した文書データD1に対応付けて文書特徴情報記憶部134に記憶してある特徴情報を抽出し(ステップS1502)、抽出した特徴情報と類似する特徴情報が文書特徴情報記憶部134に記憶してあるか否かを判断する(ステップS1503)。これにより、類似する特徴情報を有する文書データが文書データ記憶部131に記憶してあるか否かを判断することができる。
【0098】
もちろん、文書データ記憶部131から文書データのみを読み出し、特徴情報を新たに生成しても良い。生成する特徴情報としては、例えば文書データを解析して、文書データに含まれる単語ごとの出現頻度c(x)、同一文書データであることを同定するためのハッシュ値h(x)等を用いる。このほか、機密マーカ語等を含むか否かにより判定される文書機密度p(x)、使用者に明示的に指定された機密ラベルu(x)等、様々な特徴情報を用いることができる。なお、いずれの特徴情報を表す関数においても、xは文書データを示している。
【0099】
また、文書データの特徴情報の類比判断の方法は、機密度の判定対象となる文書データに含まれる特徴情報の種類に応じて相違する。例えば特徴情報が文書データの性質を端的に示す単語である場合には、文書データの内容を解析して対応する単語の出現頻度を比較することにより類似度を判断することができる。また、その他の特徴情報についても、例えば非特許文献1に開示されているようなベクトル空間モデルを適用して、特徴情報間のベクトル距離の大小に応じて類似度を判断しても良い。
【0100】
図16は、特徴情報として単語の出現頻度を用いる場合の特徴情報c(x)の例示図である。図16(a)は取得する文書データD1、D2の例示図である。文書データD1は通常の文書データであり、文書データD2は、文書データD1中の固有名詞、日時等を一般化し(以下、サニタイズという)、含まれている冠詞、助動詞、副詞等の頻出単語(いわゆるストップワード)を除いた文書データとしている。なお、単語の出現頻度を累計して、所定数以上である単語を頻出単語として排除しても良い。
【0101】
図16(b)は、文書データD1、D2の特徴情報c(x)の例示図である。図16の例では、特徴情報として単語の出現頻度を用いており、文書データD1、D2それぞれについて単語ごとの出現頻度を累計している。
【0102】
図15に戻って、機密度判定支援装置1のCPU11が、抽出した特徴情報と類似する特徴情報を記憶していないと判断した場合(ステップS1503:NO)、CPU11は、従来の方法にて機密度を判定する(ステップS1507)。すなわち、特徴情報が類似しているか否かにかかわらず、例えば取得した文書データD1と記憶してある文書データとの類比判断等に基づいて機密状態であるか否かを判定する。
【0103】
CPU11が、抽出した特徴情報と類似する特徴情報が記憶してあると判断した場合(ステップS1503:YES)、CPU11は、記憶してある特徴情報を有する文書データを読み出す(ステップS1504)。CPU11は、読み出した文書データが複数であるか否かを判断する(ステップS1505)。
【0104】
CPU11が、読み出した文書データが複数ではないと判断した場合(ステップS1505:NO)、CPU11は、従来の方法にて機密度を判定する(ステップS1507)。すなわち、読み出した文書データが機密状態であれば取得した文書データD1は機密状態であると判定し、非機密状態であれば取得した文書データD1は非機密状態であると判定する。
【0105】
CPU11が、読み出した文書データが複数であると判断した場合(ステップS1505:YES)、CPU11は、機密状態である文書データ及び非機密状態である文書データを、それぞれ少なくとも1つ含むか否かを判断する(ステップS1506)。CPU11が、機密状態である文書データのみである、又は非機密状態である文書データのみであると判断した場合(ステップS1506:NO)、CPU11は、従来の方法にて機密度を判定する(ステップS1507)。すなわち、読み出した文書データが機密状態である文書データのみであれば取得した文書データD1は機密状態であると判定し、非機密状態のみであれば取得した文書データD1は非機密状態であると判定する。
【0106】
CPU11が、機密状態である文書データ、及び非機密状態である文書データを、それぞれ少なくとも1つ含むと判断した場合(ステップS1506:YES)、CPU11は、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分を算出する(ステップS1508)。特徴情報の差分は、読み出した複数の文書データのうち、機密状態である文書データと非機密状態である文書データとのすべての組み合わせについて算出する。
【0107】
図17は、図16の例に基づく特徴情報c(x)の差分の算出結果の例示図である。図17では、文書データD1の特徴情報c(D1)と文書データD2の特徴情報c(D2)との差分を算出している。特徴情報の差分c(D1)−c(D2)は、出現頻度については考慮せず、特徴情報c(D1)から特徴情報c(D2)に含まれない単語を抽出することにより算出する。
【0108】
図15に戻って、機密度判定支援装置1のCPU11は、算出した特徴情報の差分が、取得した文書データD1に含まれているか否かを判断し(ステップS1509)、CPU11が、特徴情報の差分が、取得した文書データD1に含まれていないと判断した場合(ステップS1509:NO)、CPU11は、取得した文書データD1が非機密状態であると判定する(ステップS1511)。CPU11が、特徴情報の差分が、取得した文書データD1に含まれていると判断した場合(ステップS1509:YES)、CPU11は、取得した文書データD1が機密状態であると判定する(ステップS1510)。
【0109】
以下、具体的な文書データを例に挙げて、上述した処理の詳細を説明する。図18は、文書データ記憶部131に事前に記憶してある文書データDp、Dq、Drの例示図である。図18(a)は文書データDpの例示図であり、機密状態であるとして記憶してある。図18(b)、(c)は文書データDq、Drの例示図であり、非機密状態であるとして記憶してある。
【0110】
図18(b)の下線部分は、文書データDqと文書データDpとの差分を示している。また、図18(c)の下線部分は、文書データDrと文書データDpとの差分を示している。
【0111】
判定対象となる文書データDを取得し、文書データDから抽出した特徴情報と類似する特徴情報が文書特徴情報記憶部134に記憶してあるか否かを判断する。図19は、取得した文書データDの例示図である。
【0112】
図19(a)は、取得した文書データDの例示図である。特徴情報の類比判断をする場合、文書データDに含まれている冠詞、助動詞、副詞等の頻出単語(いわゆるストップワード)を除いた文書データD’を生成し、文書データD’に基づいて類比判断する。図19(b)は、文書データD’の例示図である。
【0113】
図20は、文書データD’に基づいて抽出された、特徴情報が類似している文書データの例示図である。説明を簡単にするために、図18(a)〜(c)に記載されている文書データDp、Dq、Drが抽出されたものと仮定する。
【0114】
図20(a)は、文書データDpに含まれている冠詞、助動詞、副詞等の頻出単語(いわゆるストップワード)を除いた文書データDp’を、図20(b)は、文書データDqに含まれている冠詞、助動詞、副詞等の頻出単語(いわゆるストップワード)を除いた文書データDq’を、図20(c)は、文書データDrに含まれている冠詞、助動詞、副詞等の頻出単語(いわゆるストップワード)を除いた文書データDr’を、それぞれ示している。このように整理された文書データDp’、Dq’、Dr’に基づいて特徴情報の差分を算出する。
【0115】
図21は、文書データD’、Dp’、Dq’、Dr’の特徴情報c(x)の算出結果を示す図表である。図21でも特徴情報として単語の出現頻度を用いており、文書データD’、Dp’、Dq’、Dr’それぞれについて単語ごとの出現頻度を累計している。
【0116】
この例では、文書データD’は、機密情報を含む製品名、日付等の情報が元々「XXXXX」とサニタイズされていることから、文書データD’は非機密状態となっている。単純に類似度を算出する場合、文書データD’と文書データDp’との類似度は、文書データD’と文書データDq’又は文書データDr’の類似度よりも大きく算出される。しかし、類似度だけではなく、機密度判定の主たる特徴情報が含まれているか否かで機密度の大小を判定しないと正しく機密度判定をすることができない。そこで、文書データDp’の特徴情報c(Dp’)と文書データDr’の特徴情報c(Dr’)との和集合Pをc(Dp’)∪c(Dr’)として算出し、文書データDq’の特徴情報c(Dq’)と和集合Pとの差分を算出する。
【0117】
図22は、文書データDq’の特徴情報c(Dq’)と和集合Pとの差分の算出結果を示す図表である。図22に示すように、サニタイズされた機密情報を含む製品名、日付等の情報である「Hogehoge」、「September」、「2008」が差分に含まれている。したがって、機密度判定の主たる特徴情報が、差分である「Hogehoge」、「September」、「2008」であることがわかる。
【0118】
差分に含まれている単語「Hogehoge」、「September」、「2008」は、文書データDに含まれていないことから、文書データDは文書データDpに含まれている機密情報を含んでいないと判断することができ、文書データDは非機密状態であると判断することができる。仮に文書データDにおいて、機密情報を含む製品名、日付等の情報がサニタイズされていなかった場合には、文書データDは文書データDpに含まれている機密情報を含んでいると判断することができ、文書データDは機密状態であると判断することができる。
【0119】
以上のように本実施の形態2によれば、類似すると判断された文書データのうち、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分を算出することにより、機密情報の根幹をなす部分文書データを高い精度で類推することができ、算出した特徴情報の差分が、取得した文書データに含まれているか否かを判断することにより、文書データの機密度を精度良く判定することが可能となる。
【0120】
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えば文書データ記憶部131と機密度情報記憶部132とを一体化して、文書データを記憶する時点で複数のブロックに分割しておき、ブロックごとに機密度情報を示すラベルを記憶しておいても良い。また、文書データ記憶部131、文書特徴情報記憶部134、及び機密度判定ポリシー記憶部135を一体化して記憶しても良い。
【0121】
また、取得した文書データを包含する文書データについて、機密状態である文書データと非機密状態である文書データとが混在している場合、実施の形態2と同様の方法をブロック単位の差分を算出する方法として適用することで、文書データ全体として機密状態であるか否かを判定することもできる。例えば、3ページで構成された機密状態である文書データA1と、1ページ目及び2ページ目が文書データA1と類似し、3ページ目が類似していない、非機密状態である文書データA2とが存在する場合、両者の差分である文書データA1の3ページ目だけに機密情報が含まれていると考えることができる。したがって、文書データA1の3ページ目だけを包含する別の文書データA3は機密状態であると判断することができ、文書データA1の1ページ目だけを包含する文書データA4は非機密状態であると判断することができる。
【符号の説明】
【0122】
1 機密度判定支援装置
2 ネットワーク
3 コンピュータ
11 CPU
12 メモリ
13 記憶装置
14 I/Oインタフェース
15 ビデオインタフェース
16 可搬型ディスクドライブ
17 通信インタフェース
18 内部バス
23 表示装置
90 可搬型記録媒体
100 コンピュータプログラム
131 文書データ記憶部
132 機密度情報記憶部
133 ブロック規則記憶部
134 文書特徴情報記憶部
135 機密度判定ポリシー記憶部

【特許請求の範囲】
【請求項1】
文書データの機密度判定を支援するコンピュータで実行することが可能な方法において、
包含するプロパティの所定の特徴を評価する単位である複数のブロックに分割することが可能な文書データを、ブロックごとに機密状態であるか否かを示す機密度情報に対応付けて記憶するステップと、
機密度の判定対象となる文書データを取得するステップと、
取得した文書データのブロックごとに、類似するブロックが存在する文書データが記憶してあるか否かを判断するステップと、
類似するブロックが存在する文書データが記憶してあると判断した場合、取得した文書データの対応するブロックに機密状態である旨を示す機密度情報が付与されているか否かを判断するステップと、
機密状態である旨を示す機密度情報が付与されていると判断した場合、取得した文書データは機密状態であると判定するステップと
を含む方法。
【請求項2】
すべてのブロックに機密度情報が付与されたか否かを判断するステップと、
機密度情報が付与されていないブロックが存在すると判断した場合、取得した文書データの部分集合となる文書データを抽出するステップと、
取得した文書データの部分集合となる文書データがすべて非機密状態であるか否かを判断するステップと、
取得した文書データの部分集合となる文書データがすべて非機密状態であると判断した場合、類似するブロックに付与されている機密度情報を付与するステップと
を含む請求項1記載の方法。
【請求項3】
取得した文書データの部分集合となる文書データがすべて機密状態であるか否かを判断するステップと、
取得した文書データの部分集合となる文書データがすべて機密状態であると判断した場合、文書データ単位で機密度を判定するときには機密状態である旨を示す機密度情報を付与するステップと
を含む請求項2記載の方法。
【請求項4】
取得した文書データの部分集合となる文書データがすべて機密状態であると判断した場合、ブロック単位で機密度を判定するときには類似するブロックに付与されている機密度情報を付与するステップを含む請求項3記載の方法。
【請求項5】
取得した文書データの部分集合となる文書データが非機密状態である文書データを含むと判断した場合、取得した文書データを包含する文書データを抽出するステップと、
取得した文書データを包含する文書データがすべて非機密状態であるか否かを判断するステップと、
すべて非機密状態であると判断した場合、文書データに非機密状態である旨を示す機密度情報を付与するステップと
を含む請求項4記載の方法。
【請求項6】
取得した文書データを包含する文書データが機密状態である文書データを含むと判断した場合、類似するブロックに非機密状態である旨を示す機密度情報が付与されているか否かを判断するステップと、
非機密状態である旨を示す機密度情報が付与されていないと判断した場合、該ブロックに対する機密度情報の判定結果の入力を受け付けるステップと
を含む請求項5記載の方法。
【請求項7】
文書データの機密度判定を支援するコンピュータで実行することが可能な方法において、
機密状態であるか否かを示す機密度情報が付与された文書データ及び該文書データの特徴を示す特徴情報を記憶するステップと、
機密度の判定対象となる文書データを取得するステップと、
取得した文書データの特徴情報と類似する特徴情報を有する文書データが記憶してあるか否かを判断するステップと、
類似する特徴情報を有する文書データが記憶してあると判断した場合、記憶してあると判断した類似する特徴情報を有する文書データのうち、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分を算出するステップと、
算出した特徴情報の差分が、取得した文書データに含まれているか否かを判断するステップと、
算出した特徴情報の差分が含まれていると判断した場合、取得した文書データは機密状態であると判定し、算出した特徴情報の差分が含まれていないと判断した場合、取得した文書データは非機密状態であると判定するステップと
を含む方法。
【請求項8】
特徴情報が類似する文書データが複数記憶してあると判断した場合、記憶してあると判断した、類似する特徴情報を有する複数の文書データの特徴情報の和集合を求めるステップと、
求めた特徴情報の和集合のうち、機密状態である文書データの特徴情報の和集合と非機密状態である文書データの特徴情報の和集合との間の特徴情報の差分を算出するステップと
を含む請求項7記載の方法。
【請求項9】
包含するプロパティの所定の特徴を評価する単位である複数のブロックに分割することが可能な文書データを、ブロックごとに機密状態であるか否かを示す機密度情報に対応付けて記憶する機密度情報記憶手段と、
機密度の判定対象となる文書データを取得する文書データ取得手段と、
取得した文書データのブロックごとに、類似するブロックが存在する文書データが記憶してあるか否かを判断する類似判断手段と、
該類似判断手段で類似するブロックが存在する文書データが記憶してあると判断した場合、取得した文書データの対応するブロックに機密状態である旨を示す機密度情報が付与されているか否かを判断する付与判断手段と、
該付与判断手段で機密状態である旨を示す機密度情報が付与されていると判断した場合、取得した文書データは機密状態であると判定する判定手段と
を備える装置。
【請求項10】
機密状態であるか否かを示す機密度情報が付与された文書データ及び該文書データの特徴を示す特徴情報を記憶する特徴情報記憶手段と、
機密度の判定対象となる文書データを取得する文書データ取得手段と、
取得した文書データの特徴情報と類似する特徴情報を有する文書データが記憶してあるか否かを判断する判断手段と、
該判断手段で類似する特徴情報を有する文書データが記憶してあると判断した場合、記憶してあると判断した類似する特徴情報を有する文書データのうち、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分を算出する差分算出手段と、
算出した特徴情報の差分が、取得した文書データに含まれているか否かを判断する差分包含判断手段と、
該差分包含判断手段で算出した特徴情報の差分が含まれていると判断した場合、取得した文書データは機密状態であると判定し、算出した特徴情報の差分が含まれていないと判断した場合、取得した文書データは非機密状態であると判定する判定手段と
を備える装置。
【請求項11】
文書データの機密度判定を支援するコンピュータで実行することが可能なコンピュータプログラムにおいて、
前記コンピュータを、
機密度の判定対象となる文書データを取得する文書データ取得手段、
取得した文書データのブロックごとに、類似するブロックが存在する文書データが記憶してあるか否かを判断する類似判断手段、
該類似判断手段で類似するブロックが存在する文書データが記憶してあると判断した場合、取得した文書データの対応するブロックに機密状態である旨を示す機密度情報が付与されているか否かを判断する付与判断手段、及び
該付与判断手段で機密状態である旨を示す機密度情報が付与されていると判断した場合、取得した文書データは機密状態であると判定する判定手段
として機能させるコンピュータプログラム。
【請求項12】
文書データの機密度判定を支援するコンピュータで実行することが可能なコンピュータプログラムにおいて、
前記コンピュータを、
機密状態であるか否かを示す機密度情報が付与された文書データ及び該文書データの特徴を示す特徴情報を記憶する特徴情報記憶手段、
機密度の判定対象となる文書データを取得する文書データ取得手段、
取得した文書データの特徴情報と類似する特徴情報を有する文書データが記憶してあるか否かを判断する判断手段、
該判断手段で類似する特徴情報を有する文書データが記憶してあると判断した場合、記憶してあると判断した類似する特徴情報を有する文書データのうち、機密状態である文書データと非機密状態である文書データとの間の特徴情報の差分を算出する差分算出手段、
算出した特徴情報の差分が、取得した文書データに含まれているか否かを判断する差分包含判断手段、及び
該差分包含判断手段で算出した特徴情報の差分が含まれていると判断した場合、取得した文書データは機密状態であると判定し、算出した特徴情報の差分が含まれていないと判断した場合、取得した文書データは非機密状態であると判定する判定手段
として機能させるコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate


【公開番号】特開2010−198157(P2010−198157A)
【公開日】平成22年9月9日(2010.9.9)
【国際特許分類】
【出願番号】特願2009−40339(P2009−40339)
【出願日】平成21年2月24日(2009.2.24)
【公序良俗違反の表示】
特許法第64条第2項第4号の規定により図面の一部または全部を不掲載とする。
【出願人】(390009531)インターナショナル・ビジネス・マシーンズ・コーポレーション (4,084)
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【復代理人】
【識別番号】100117260
【弁理士】
【氏名又は名称】福永 正也
【Fターム(参考)】