説明

情報提示装置、情報提示方法、プログラム

【課題】 漏洩したファイルから2次的に派生して作成されたファイルを、最初に漏洩したファイルから検索し、この派生して作成されたファイルに関する情報を提示する、及び、広域ネットワークを介してアクセス可能なコンピュータに記録された個人情報を提示する。
【解決手段】 漏洩したファイルのオリジナル・データを記録する記録部と、前記オリジナル・データと、調査対象の記録領域に存在するファイルに含まれる漏洩を防止すべき情報に該当する表現を抽出する抽出部と、前記抽出した表現に基づいて、調査対象の記録領域に存在するファイルと、前記オリジナル・データとの関連度を調査する調査部と、前記関連度に基づいて、前記漏洩したファイルに基づいて作成されたファイルに関する情報を提示する提示部と、を備えた装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報提示装置、情報提示方法、プログラムに関し、特に、漏洩を防止すべき情報に関連した情報を提示する情報提示装置、情報提示方法、プログラムに関する。
【背景技術】
【0002】
近年、第三者が所定の情報を漏洩、盗難、不正利用することを、どのように防止するかが課題となっている。また、仮に所定の情報が漏洩してしまった場合に、情報処理システムの管理者が、所定の情報が漏洩した原因の追跡を行えることが望ましい。
【0003】
そこで、漏洩を防止すべき情報に対して、アクセスのあった履歴を残して、漏洩した後に、このアクセスした履歴を参照することで、漏洩した原因を追跡する方法が知られている(例えば、特許文献1、2)。この方法によれば、一度、漏洩した後に、このアクセスした履歴を参照することで、アクセス履歴のユーザ名により、漏洩した原因を特定することが可能である。
【特許文献1】特開2004−118243号公報
【特許文献2】特開2003−076662号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1、2の方法では、情報処理システムの管理者は、情報が漏洩した原因を追究することに留まり、この漏洩した情報から派生した情報を把握することはできない。すなわち、一度、情報が漏洩した場合には、この漏洩した情報に基づいて、新たなファイルが作成され、さらに、この新たなファイルから情報が漏洩する。したがって、漏洩した情報に基づいて、2次的、3次的に派生して漏洩した情報の有無や、これらが記録されている場所やファイル名を、管理者が把握できることが望ましい。
【0005】
加えて、特許文献1、2では、通信回線ネットワークでアクセス可能なコンピュータに記録された漏洩を防止すべき情報について管理者は把握することができない。
【0006】
本発明の目的は、漏洩したファイルから2次的、3次的に派生して作成されたファイルを検索し、この派生して作成されたファイルに関する情報を管理者に提示すること、及び、通信回線ネットワークでアクセス可能なコンピュータに記録された漏洩を防止すべき情報についての情報を管理者に提示することが可能な情報提示装置、情報提示方法、プログラムを提示することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の実施形態によると、漏洩したファイルのオリジナル・データを記録する記録部と、前記オリジナル・データと、調査対象の記録領域に存在するファイルに含まれる漏洩を防止すべき情報に該当する表現を抽出する抽出部と、前記抽出した表現に基づいて、調査対象の記録領域に存在するファイルと、前記オリジナル・データとの関連度を調査する調査部と、前記関連度に基づいて、前記漏洩したファイルに基づいて作成されたファイルに関する情報を提示する提示部と、を備えた装置、方法及びプログラムを提供する。
【発明の効果】
【0008】
本発明によれば、漏洩を防止すべき情報に関連した情報を提示する情報提示装置、情報提示方法、プログラムを提供することが可能である。
【発明を実施するための最良の形態】
【0009】
以下に、本発明の好適な実施形態を図面に基づいて説明する。
【0010】
図1は、漏洩情報提示装置10の構成を示すブロック図である。漏洩情報提示装置10は、漏洩を防止すべき情報に関連した情報を提示する情報提示装置である。例えば、漏洩情報提示装置10は、既に漏洩したファイルのオリジナル・データに基づいて作成されたファイルに関する情報をユーザに提示する装置である。漏洩情報提示装置10は、通常のコンピュータ装置、携帯情報端末、携帯電話等であってよい。漏洩情報提示装置10は、制御部100と、記録部160、記録領域170a、個人情報データ辞書135、単語辞書136とから構成される。
【0011】
制御部100は、漏洩情報提示装置10の情報を制御する。制御部100は、中央処理演算装置であってよい。制御部100は、漏洩を防止すべき情報に該当する表現を抽出する抽出部と、抽出した表現から、調査対象の記録領域に存在するファイルとオリジナル・データとの関連度を調査する調査部と、この関連度に基づいてオリジナル・データに基づいて作成されたファイルに関する情報を提示する提示部とから構成される。ここで、漏洩を防止すべき情報とは、ユーザが外部(企業外、家庭外等)に流出させたくない情報であり、ユーザが漏洩を防止したいと望む情報である。漏洩を防止すべき情報は、個人情報であってもよい。
【0012】
抽出部110は、漏洩を防止すべき情報に該当する表現を抽出する。すなわち、抽出部110は、特定のアプリケーション・プログラムの形式に従うデータをテキスト形式に変換するフィルター120と、このテキスト形式に変換されたデータに形態素解析を行う解析部130と、形態素解析を行った結果から、漏洩を防止すべき情報に該当する表現を抽出する表現抽出部132とから構成される。
【0013】
フィルター120は、特定のアプリケーション・プログラムの形式に従うファイルを、テキスト形式に変換する。すなわち、フィルター120は、編集プログラム、表計算プログラム等のアプリケーション・ソフトウェアで使用される書式のファイルや、HTML書式のファイル等のデータを、特定の書式を含まない形式(テキスト形式)のファイルに変換する。ここで、テキスト形式のファイルとは、人間が読み書きする文字で構成されているファイルのことである。また、フィルター120は、ファイルの中のテキストだけ抽出するプログラムとして動作する、テキストコンバータであってよい。
【0014】
解析部130は、フィルター120により抽出されたデータに対して、形態素解析を行う。ここで、形態素解析とは、文章を形態素に分割し、分割した形態素の品詞分けを行うことである。解析部130は、テキスト形式のファイルに対して単語辞書136(単語の意味と品詞等がデータとして記録された電子辞書)を参照して、単語や文字列で分離し、品詞コードを付与する。ここで、品詞コードとは、単に品詞に関する情報に限らず、品詞のうちどのような種類の単語かに関する情報を含む。例えば、「田中一郎、日本アイ・ビー・エム、東京都港区六本木x−x−x、tanaka@ibm.xxx」というテキスト文章が入力されると、表1のように形態素解析される。
【表1】

【0015】
表現抽出部132は、解析部130が解析した結果を用いて、テキスト形式のファイルの中から固有表現の抽出を行う。ここで、固有表現とは、漏洩を防止すべき情報である可能性の高い表現のことである。ここでの固有表現は、姓、名(人名、法人名、社名を含む)、郵便番号、住所、電話番号、所属組織、メールアドレス、ホームページアドレス、生年月日についての情報である。その他の固有表現として、カードの会員番号、口座番号等であってもよい。表現抽出部132は、解析部130の結果から、これらの固有表現のうち何れか一つでも検出した場合には、この検出した単語、文字列を固有表現として抽出する。
【0016】
表現抽出部132が、固有表現として、郵便番号を抽出する一例について説明する。表現抽出部132は、テキスト形式のファイルから7桁の数字あるいは、「XXX−XXXX」(Xは数字)の形式の数字の中で、郵便番号として存在するものを郵便番号辞書より検出し、条件にあった数字列を検出できた場合には、これを郵便番号の固有情報として抽出する。
【0017】
表現抽出部132が、固有表現として、電話番号を抽出する一例について説明する。表現抽出部132は、テキスト形式のファイルから4桁の数字であり、その4桁の数字の前に、ハイフン(−)もしくは半角空白があるかを判断し、かつ、このハイフン(−)もしくは半角空白の前に市外局番がある数字列を、電話番号の固有情報として抽出する。
【0018】
表現抽出部132が、固有表現として、メールアドレスを抽出する一例について説明する。表現抽出部132は、テキスト形式のファイルから“@”の前に英数字列があり、“@”の後に、“.”を含む英数字列があるかを判断して、この文字列を、メールアドレスの固有情報として抽出する。
【0019】
固有表現として、その他のカードの会員番号、口座番号等を抽出させる場合であっても、表現抽出部132は、各々の英数字や記号特有の書式に対応して、固有表現として、抽出することができる。
【0020】
表現抽出部132は、抽出された固有表現から、固有表現データを生成する。表現抽出部132は、一の固有表現を抽出した段階で、この固有表現を、表2のフレーム内の該当する値に入力する。表現抽出部132は、次に抽出した固有表現に対しても、表2のフレーム内の該当する値に入力する。
【表2】

【0021】
ここで、表現抽出部132が一のフレームを生成した後に、表現抽出部132がこのフレームを処理して、フレームの値を空にしてから、次の値をスロットに入力してもよい。例えば、表現抽出部132が、人名として(姓、名)の双方を抽出して、表現抽出部132がフレームを生成した場合に、このフレームを表現抽出部132が、個人情報と判断して、(姓、名)の値を記録部160に記録する。そして、空になったフレームに対して、表現抽出部132が次の固有表現の値を入力する態様であってよい。
【0022】
あるいは他の態様として、表現抽出部132は、フレーム内の同一のスロットに入力する必要が生じた場合には、次のフレームを生成してもよい。例えば、表現抽出部132が、人名として(姓、名)の双方を抽出した後に、さらに、他の人名(姓、名)を抽出した場合には、次のフレームを生成して、他の人名(姓、名)を値としてスロットに入力してもよい。
【0023】
表現抽出部132が、一のスロットに値を入力するか、新たなスロットを生成して、そのスロットに値を入力するかは、スロットごとに、値の寿命等の条件を設けてよい。例えば、スロット、“姓”が値として入力された後に“名”が値として入力されることは、“姓”が入力された後、3語以内程度であることが通常である。また、電話番号は、姓の出現から10語以内といった条件を設けてよい。したがって、このように予め設定した語数を越えた場合には、フレーム内の値を全てクリアにするような、値の寿命を設けてもよい。
【0024】
他のスロットも同様に、郵便番号のスロットの入力から、3語以内程度に、住所、電話番号が入力されれば、同じフレームに表現抽出部132が値を入力するように設定してもよい。
【0025】
表現抽出部132は、固有表現を抽出する前に、解析部130が解析した文字列もしくは単語に対して、正規化を行ってもよい。ここで、正規化とは、所定の規則に基づいて処理を行うことであり、例えば、検出した単語、文字列に対して、余分な空白やノイズを削除することである。表現抽出部132は、解析部130が解析した文字列もしくは単語に対して、個人情報データ辞書135(住所辞書、メールアドレス辞書、市外局番辞書などの電子辞書)を参考にすることで、意味的な要素の分析を行ってもよい。例えば、表1のような連続した地名から導かれる地名が、実在する地名であるかを、住所が登録された住所辞書等により分析してもよいし、メールアドレスの連続した英数字や記号の連続が、実際に存在するかを分析してもよい。
【0026】
さらに、表現抽出部132は、生成した固有表現が記載されたフレームから、“漏洩を防止すべき情報”を抽出する。表現抽出部132が、“漏洩を防止すべき情報”を判断する判断基準は、システムを利用するユーザの任意であってよく、調整可能であってよい。例えば、一つのフレーム内のスロット“姓”、“名”の双方に値が入力されていることを条件に、表現抽出部132が“漏洩を防止すべき情報”と判断してもよい。また、一つのフレーム内のスロット“姓”、“名”のどちらにも値が入力されていることに加えて、郵便番号、住所、電話番号、メールアドレス等の、コンタクト先のどれか一つに値が付与されていることを条件に、表現抽出部132が、このフレームを“漏洩を防止すべき情報”と判断してもよい。
【0027】
表現抽出部132が、固有表現を、該当するスロットの値に入力する際に、厳密に正しいスロットに値を入力しなくても、複数の固有表現が近接して抽出された場合には、これらの固有表現を“漏洩を防止すべき情報”であると判断させてもよい。
【0028】
表現抽出部132は、“漏洩を防止すべき情報”が記載されていると判断したフレームから値を抽出して、個人情報データとして記録部160に記録する。
【0029】
調査部140は、表現抽出部132が抽出した個人情報データから、調査対象の記録領域に存在する各々のファイルと、オリジナル・データとの関連度を調査する。ここで、関連度とは、オリジナル・データに記載されている“漏洩を防止すべき情報”と、調査対象の記録領域に存在するファイル(すなわち、2次ファイルの疑いがあるファイル)に記載されている“漏洩を防止すべき情報”との関連している度合いである。例えば、関連度とは、一致度であってよい。ここで、一致度とは、同一の“漏洩を防止すべき情報”がどの程度存在するかの度合いであってよい。
【0030】
提示部150は、調査部140が調査した関連度に基づいて、前記漏洩したファイルに基づいて作成されたファイルに関する情報を提示する。すなわち、提示部150は、検知した“漏洩を防止すべき情報”に基づいて、2次的、3次的、それ以降に作成されたファイルに関する情報を提示する。
【0031】
記録部160は、オリジナル・データを記録する。すなわち、記録部160は、ハードディスク、半導体メモリであってもよいし、外部記録装置(フレキシブル・ディスク、CD、DVD、テープ等)であってよい。また、記録部160は、漏洩情報提示装置10にて扱うデータ(フレームや個人情報データ)を記録してよい。
【0032】
記録領域170aは、オリジナル・データから作成された2次ファイル、3次ファイルが記録されている可能性がある記録領域である。すなわち、記録領域170aは、オリジナル・データに基づいて作成されたファイルが記録されていると、ユーザが考えている領域である。したがって、記録領域170aには、“漏洩を防止すべき情報”を含むファイル、データ、文章と、“漏洩を防止すべき情報”を含まないファイル、データ、文章との両方が記録されていてよい。ユーザが“漏洩を防止すべき情報”が、バックアップのテープや、共有フォルダ内のファイル、サーバのログファイル等に含まれていると想定している場合には、これらのテープやフォルダ内の保存場所が、記録領域170aとなってよい。記録領域170aは、ハードディスク、半導体メモリ等であってよい。また、記録領域170b(図5参照)のように、漏洩情報提示装置10の外部に接続される記録装置であってもよいし、通信回線ネットワークで接続された他のコンピュータ内の記録装置であってもよい。
【0033】
図2は、漏洩情報提示装置10のメイン動作フローを示す。最初に、抽出部110が、オリジナル・データに対して、“漏洩を防止すべき情報”に該当する表現を抽出する(ステップS01)。次に、抽出部110が、ユーザから指定された特定の記録領域に対してファイルのクロールを行う(ステップS02)。ここで、ファイルのクロールとは、所定の範囲内に記録されたデータから所定のファイルのみを取り出すことである。すなわち、抽出部110は、記録領域170a、bに記録されているファイルのうち、“漏洩を防止すべき情報”が記載されている可能性があるファイルを取り出す。ここで、抽出部110が、フィルター120によりテキスト形式に変換することが可能なファイルのみを取り出すことにより、結果的に“漏洩を防止すべき情報”が記載されている可能性があるファイルを取り出してもよい。
【0034】
次に、クロールした各々のファイルに対しても同様に、“漏洩を防止すべき情報”に該当する表現を抽出する(ステップS03)。次に、調査部140が、オリジナル・データから抽出した表現と、クロールして取り出したファイルから抽出した表現との一致度を調査する(ステップS04)。この調査結果から、提示部150が、オリジナル・データから2次的に作成されたファイルに関する情報を提示する(ステップS05)。結果として、ユーザは、オリジナル・データから2次的に作成されたファイルに関する情報を得ることが可能である。すなわち、ユーザは、記録領域170a、bの中に記録されていると考えているが、実際にはどのファイルが2次ファイルか特定できない場合に、漏洩情報提示装置10を用いることで、この2次ファイルに関する情報を得ることが可能である。
【0035】
図3は、抽出部110が、所定のファイルに対して“漏洩を防止すべき情報”に該当する表現を抽出するフローを示した図である。
【0036】
最初に、フィルター120が、オリジナル・データをテキスト形式に変換する(ステップS10)。次に、解析部130が、テキスト形式に変換したファイルに対して、形態素解析を行う(ステップS11)。すなわち、解析部130が、表1のようにテキスト形式のファイルの、各々の文字に対して品詞コードを付与して、単語、文字を分類する。次に、抽出部110が、形態素解析した結果に基づいて、固有表現を抽出し、固有表現データを作成する(ステップS12)。
【0037】
一例として、表現抽出部132が、固有表現に対して、フレームを生成した例を表3に示す。
【表3】

【0038】
次に、固有表現データから、表現抽出部132が“漏洩を防止すべき情報”を抽出する(ステップS13)。表現抽出部132が、“漏洩を防止すべき情報”であると認定したフレームにより個人情報データを生成する。
【0039】
上述の表3の例から、“漏洩を防止すべき情報”と検知された個人情報データを表4に示す。この例では、固有表現データ(漏洩を防止すべき情報である可能性の高い表現のデータ)から“漏洩を防止すべき情報”を抽出するための判断条件としては、姓、名が値として存在し、かつ住所、電話番号、メールアドレスのいずれかに値が入力されている場合である。
【表4】

【0040】
このように、抽出部110は、所定のファイルに対しての“漏洩を防止すべき情報”に該当する表現である個人情報データを抽出する。抽出部110は、オリジナル・データと、クロールしたファイルとの双方に対して、個人情報データを抽出する。そして、調査部140が、各々の個人情報データを比較し、一致度を調査する。この調査結果から、提示部150が、2次ファイルの情報の提示を行う。
【0041】
図4は、2次ファイルに関する情報の一例である。提示部150は、このような2次ファイルに関する情報(ファイル名、ファイルの記録場所、このファイルとオリジナル・データとの“漏洩を防止すべき情報”の関係)を提供する。この例では、“漏洩を防止すべき情報”の検索対象の記録領域170a、bは、“C:\My Documents”であり、ここに挙げられている、address.docのファイルは、漏洩したオリジナル・データから2次的に作成された可能性が高いファイルである。“個人情報”の項目は、このファイル内に個人情報と特定された個人情報データの数であり、“個人情報[要素数]”の項目は、このファイル内に個人情報と特定された個人情報データの、この個人情報データ内の値の数である。人名(diff)、住所(diff)とは、オリジナル・データに記載された人名、住所と異なる人名、住所の数である。一致数とは、オリジナル・データとこのファイルとで一致した個人情報(個人情報であると判断された個人情報データ)の数である。
【0042】
個人情報の一致数により、address.docのファイルが一次ファイルから2次的に作成されたファイルであるとユーザは判断することができる。また、Manager_address.txtのファイルが、address.docの次に、個人情報の一致数が多いため、これが3次ファイルである可能性が高いと判断することができる。
【0043】
漏洩情報提示装置10が通信回線ネットワーク30に接続されて、この通信回線ネットワーク30に接続された対象サーバ200内に記録領域170a、bが存在する場合について、図5を用いて説明する。対象サーバ200は、通常のコンピュータ装置である。この対象サーバ200の記録領域170a、bに“漏洩を防止すべき情報”が記載されたファイルが記録されている場合には、漏洩情報提示装置10の抽出部110は、通信回線ネットワーク30を介して、クロールを行い、“漏洩を防止すべき情報”に該当する表現(個人情報データ)を抽出する。
【0044】
次に、図5を用いて、漏洩情報提示装置10が、通信回線ネットワーク30に接続されたコンピュータ内に記録された“漏洩を防止すべき情報”であり、記録領域170a、bをユーザが特定できない場合に、“漏洩を防止すべき情報”を検知する方法について説明する。すなわち、前述では、ユーザが記録領域170a、bの場所(ファイルが保存されていると想定されるパス名やフォルダ名)を把握しており、この記録領域を特定できる場合に、この記録領域内の“漏洩を防止すべき情報”を検知する方法について説明した。以下では、この記録領域170a、bが、どこであるか不明であるときに、“漏洩を防止すべき情報”を検知する方法について説明する。
【0045】
漏洩情報提示装置10が、通信回線ネットワーク30に接続され、“漏洩を防止すべき情報”が記載されたファイルが対象サーバ200に記録されている場合に、このファイルに関する情報を、漏洩情報提示装置10が提示する(図5参照)。漏洩情報提示装置10と検索サーバ210と対象サーバ200とは、通信回線ネットワーク30に接続されており、これらのコンピュータは、互いに通信可能である。通信回線ネットワーク30は、インターネット、LANのいずれかであってもよいし、これらの組合せからなるネットワークであってよい。ここで、検索サーバ210は、ユーザからの情報の入力を受けて、通信回線ネットワーク30上でアクセス可能なコンピュータ装置(対象サーバ200等)に記録されたファイルへのリンク情報を提示するサーバである。
【0046】
漏洩情報提示装置10は、通信回線ネットワーク30に接続して通信を行う通信部と、検索サーバ210に“漏洩を防止すべき情報”についての検索を要求する検索要求部と、検索した結果を取得する取得部とを、さらに備えてよい。
【0047】
漏洩情報提示装置10を構成する各部について、図6に基づいて説明する。漏洩情報提示装置10は、“漏洩を防止すべき情報”の入力をユーザより受信する(ステップS20)。“漏洩を防止すべき情報”の入力は、単に、キーワードとして姓名や住所等の個人に関する情報の入力を受けてもよいし、“漏洩を防止すべき情報”が一覧となっているファイルの入力を受けてもよい。次に、検索要求部が、通信回線ネットワーク30を介して、検索サーバ210に、この“漏洩を防止すべき情報”についての検索を要求する(ステップS21)。検索サーバ210は、通信回線ネットワーク30に接続された対象サーバ200のうち、指定された“漏洩を防止すべき情報”が記載されているファイルを検索する。検索サーバ210は、検索した結果を、このファイルに対するリンク(このファイルへのアドレス・ロケーションを示したファイル)を含めた、リンクデータを作成する。このリンクデータを、取得部が受領する(ステップS22)。
【0048】
次に、取得部が取得したリンクデータのリンク先(対象サーバ200)にアクセスすることで、提示部150が、“漏洩を防止すべき情報”が記載されたファイルを受信する(ステップS23)。例えば、インターネットで公開されているファイルに対して、このファイルが記録されている対象サーバ200に対してアクセスして、このファイルを取得する。提示部150が、全てのリンク先に対して、このファイルを取得して、これらのファイルと、ユーザから入力を受け、検索要求した“漏洩を防止すべき情報”との関係についての情報を提示する(ステップS24)。例えば、提示部150は、ユーザが入力した“漏洩を防止すべき情報”と一致して記載されている“漏洩を防止すべき情報”の数を提示する。
【0049】
ユーザから受信を受けた“漏洩を防止すべき情報”が、例えば、「田中 一郎」といったように、姓、名として一つのスロットに対応する文字列である場合には、提示部150が、この「田中 一郎」に関する情報が記載されたファイルのアドレス・ロケーション(URL等)と、この「田中 一郎」が記載されているファイル内の場所や、記載されている数等の情報を提示する。検索要求部は、リンクデータに記載されたアドレス・ロケーションのファイルから、さらにリンクされるファイルに対して、入力された“漏洩を防止すべき情報”の検索を検索サーバ210に要求してもよい。
【0050】
ユーザから受信を受けた“漏洩を防止すべき情報”が、例えば、複数の姓名、電話番号等が記載されたファイルであり、このファイル(オリジナル・データ)に基づいて、作成されたと考えられるファイル(2次ファイル)を通信回線ネットワーク30から検索する場合には、この2次ファイルが記録されたアドレス・ロケーション(URL等)を提示することに加えて、オリジナル・データとの関係を示す情報を提示してもよい。すなわち、漏洩情報提示装置10が、オリジナル・データに対して、フィルター120、解析部130、表現抽出部132の各々の部が、各々の処理を行い“漏洩を防止すべき情報”となる個人情報データを生成する。この個人情報データに基づいて、取得部が検索サーバ210に“漏洩を防止すべき情報”の検索要求を行う。
【0051】
取得部は、検索サーバ210からリンクデータを受信した後に、2次ファイルを受信する。この2次ファイルに対して、フィルター120、漏洩防止情報抽出部130、表現抽出部132、表現抽出部132の各々の部が、各々の処理を行う。結果として、表現抽出部132が、“漏洩を防止すべき情報”となる個人情報データを、個々の2次ファイルに対して生成する。そして、調査部140が、オリジナル・データの個人情報データと、個々の2次ファイルの個人情報データを比較して、提示部150が、オリジナル・データから漏洩したと想定される2次ファイルあるいは3次ファイルに関する情報を提示する。つまり、調査部140が、オリジナル・データの個人情報データと個々のファイルから取得された個人情報データのうち、一致する“漏洩を防止すべき情報”の有無の数を計測する。その結果から、提示部150が、最も数が多い個人情報データを含むファイルを、オリジナル・データに基づいて作成された可能性が高いファイルとしてユーザに提示する。
【0052】
図7では、所定のオリジナル・データに基づいて生成されたと想定される2次ファイルの情報(アドレス・ロケーション(URL)や、一致した“漏洩を防止すべき情報”の数等)を提示部150が、ユーザに提示した一例を示した。http://www.aaa.xxx/1/2/abc/data.htmlのアドレスに記録されたファイルは、オリジナル・データと一致した“漏洩を防止すべき情報”の数が多いため、オリジナル・データに基づいて生成されたファイルである可能性が高い。また、http://www.gro.xx/aa/bb/DATA.html、http://www.bb.xx/qq/ss/data05.pdfであっても、一致した“漏洩を防止すべき情報”が1つ記載されているため、オリジナル・データから漏洩して生成されたファイルである可能性がある。
【0053】
以上の説明から明らかなように、本発明に係る情報提示装置、方法、プログラムによれば、一度、漏洩したファイルから2次的、3次的に派生して作成された文章を、最初に漏洩したファイルに基づいて、検索を行い、この派生して作成されたファイルに関する情報を提示することが可能である。加えて、広域ネットワークを介してアクセス可能なコンピュータに記録された“漏洩を防止すべき情報”に関する情報を提示し、かつ、一度、漏洩したファイルに基づいて、作成され、広域ネットワーク内で公開されているファイルを検索することが可能な装置、方法、プログラムを提供することができる。
【0054】
図8は、漏洩情報提示装置10のハードウェア構成の一例を示した図である。CPU500は、ハードディスク540や記録媒体読出装置560から漏洩情報提示方法を実現するプログラムを、ホストコントローラ510、I/Oコントローラ520を介して、読み込み、読み込んだプログラムをRAM550に記録して、プログラムを実行する。このプログラムを構成する各ステップを実行することにより、CPU500が、抽出部110、フィルター120、解析部130、表現抽出部132、調査部140、提示部150として機能してもよい。また、このプログラムを実行する際に、ハードディスク540や記録媒体読出装置560に記録されたデータを読み出してもよい。CPU500は、情報を判断した結果もしくは演算した結果を、ホストコントローラ510を介してモニタ590に表示する。CPU500は、ネットワークボード570とI/Oコントローラ520を介して、通信ネットワークに接続された検索サーバ210もしくは対象サーバ200から、データを取得する。CPU500は、グラフィックボード580を介して、モニタ590に、結果を表示してよい。
【0055】
このような実施形態を実現する方法を、コンピュータやサーバにて実行するためのプログラムにより実現することができる。このプログラムのための記録媒体としては、光学記録媒体、テープ媒体、半導体メモリ等が挙げられる。また、専用通信ネットワークやインターネットに接続されたサーバ・システムに設けられたハードディスク又はRAM等の記録装置を記録媒体として使用し、ネットワークを介してプログラムを提供してもよい。
【0056】
以上、本発明の実施形態を説明したが、具体例を例示したに過ぎず、特に本発明を限定しない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載された効果に限定されない。
【図面の簡単な説明】
【0057】
【図1】図1は、漏洩情報提示装置10の機能ブロック図である。
【図2】図2は、漏洩情報提示装置10のメイン動作フローを示す図である。
【図3】図3は、抽出部110の動作フローを示す図である。
【図4】図4は、2次ファイルに関する情報の一例を示す図である。
【図5】図5は、漏洩情報提示装置10に検索サーバ210を含んだシステムの構成を示す図である。
【図6】図6は、記録領域170a、bが特定できない場合の漏洩情報提示装置10のメイン動作フローを示す図である。
【図7】図7は、2次ファイルに関する情報の一例を示す図である。
【図8】図8は、漏洩情報提示装置10のハードウェア構成の一例を示す図である。
【符号の説明】
【0058】
10 漏洩情報提示装置
30 通信回線ネットワーク
100 制御部
110 抽出部
120 フィルター
130 解析部
132 表現抽出部
135 個人情報データ辞書
136 単語辞書
140 調査部
150 提示部
160 記録部
170a、b 記録領域
200 対象サーバ
210 検索サーバ
500 CPU
510 ホストコントローラ
520 I/Oコントローラ
530 ROM
540 ハードディスク
550 RAM
560 記録媒体読出装置
570 ネットワークボード
580 グラフィックボード
590 モニタ

【特許請求の範囲】
【請求項1】
漏洩したファイルのオリジナル・データを記録する記録部と、
前記オリジナル・データと、調査対象の記録領域に存在するファイルに含まれる漏洩を防止すべき情報に該当する表現を抽出する抽出部と、
前記抽出した表現に基づいて、調査対象の記録領域に存在するファイルと、前記オリジナル・データとの関連度を調査する調査部と、
前記関連度に基づいて、前記漏洩したファイルに基づいて作成されたファイルに関する情報を提示する提示部と、
を備えた装置。
【請求項2】
前記漏洩を防止すべき情報は、個人情報である、請求項1に記載の装置。
【請求項3】
前記抽出部は、特定のアプリケーション・プログラムの形式に従う前記オリジナル・データをテキスト形式に変換するフィルターを含む、請求項1に記載の装置。
【請求項4】
前記抽出部は、前記表現を抽出するための形態素解析を、テキスト形式に変換された前記オリジナル・データに対して実行する解析部を含む、請求項3に記載の装置。
【請求項5】
前記解析部は、テキスト形式に変換された前記オリジナル・データを単語に分解し、分解された単語のそれぞれに対して品詞コードを付与する、請求項4に記載の装置。
【請求項6】
前記抽出部は、前記データに含まれる姓、名、住所、電話番号、所属組織、メールアドレス、ホームページアドレス、生年月日の情報のうち少なくとも1つを前記表現として抽出する表現抽出部を含む、請求項1に記載の装置。
【請求項7】
個人情報を記録した電子辞書をさらに備え、
前記抽出部が、前記辞書に基づいて前記表現を抽出する、請求項1に記載の装置。
【請求項8】
前記調査対象の記録領域は、前記漏洩情報提示装置が接続されたネットワーク上のコンピュータ装置の記録領域である、請求項1に記載の装置。
【請求項9】
前記ネットワークが、インターネットである、請求項8に記載の漏洩情報提示装置。
【請求項10】
1以上のキーワードを検索条件として、前記1以上のコンピュータ装置に記録されたファイルの検索を要求する検索要求部と、
検索された前記検索条件に合致するファイルへのアドレス・ロケーションを受領する取得部をさらに備え、
前記調査対象の記録領域が、前記アドレス・ロケーションによりアクセスされるコンピュータ装置内である請求項8に記載の装置。
【請求項11】
前記漏洩を防止すべき情報は、個人情報であり、前記1以上のキーワードが、特定の個人に関するキーワードである、請求項10に記載の装置。
【請求項12】
前記検知部が、姓および名の双方を検知したことを条件に、漏洩を防止すべき情報を検知したと判断する、請求項6に記載の装置。
【請求項13】
前記提示部は、前記漏洩したファイルに基づいて作成されたファイルの、ファイル名、記録場所に関する情報の少なくとも一つを提示する、請求項1に記載の装置。
【請求項14】
漏洩したファイルのオリジナル・データを記録するステップと、
前記オリジナル・データから漏洩を防止すべき情報に該当する表現を抽出するステップと、
調査対象の記録領域に存在するファイルに含まれる漏洩を防止すべき情報に該当する表現を抽出するステップと、
前記各々のステップから抽出した表現に基づいて、前記調査対象の記録領域に存在するファイルと、前記オリジナル・データとの関連度を調査するステップと、
前記関連度に基づいて、前記漏洩したファイルに基づいて作成されたファイルに関する情報を提示するステップと、
を備えた方法。
【請求項15】
漏洩したファイルのオリジナル・データを記録するステップと、
前記オリジナル・データから漏洩を防止すべき情報に該当する表現を抽出するステップと、
調査対象の記録領域に存在するファイルに含まれる漏洩を防止すべき情報に該当する表現を抽出するステップと、
前記各々のステップから抽出した表現に基づいて、前記調査対象の記録領域に存在するファイルと、前記オリジナル・データとの関連度を調査するステップと、
前記関連度に基づいて、前記漏洩したファイルに基づいて作成されたファイルに関する情報を提示するステップと、
を備えたコンピュータ装置にて動作するプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2006−268751(P2006−268751A)
【公開日】平成18年10月5日(2006.10.5)
【国際特許分類】
【出願番号】特願2005−89579(P2005−89579)
【出願日】平成17年3月25日(2005.3.25)
【出願人】(592073101)日本アイ・ビー・エム株式会社 (42)
【復代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
【Fターム(参考)】