説明

データ検査装置、データ検査方法

【課題】 データファイルから検出したキーワードが所定の条件を満たすか否かを検査することにより、そのデータファイルに特定の情報が含まれているか否かを判定し、その特定の情報を検出する検出技術を提供することを目的とする。
【解決手段】 データ検査装置は、個人情報を形成するキーワードを記憶するキーワード記憶部と、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ部と、検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、データファイルに個人情報が含まれていると判定した場合に、警告信号を出力する警告出力部とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、テキストデータなどのデータファイルからキーワードを検出する技術に関する。特に、データファイルから検出したキーワードが所定の条件を満たす場合、そのデータファイルに目的とする情報が含まれていると判定する検出技術に関する。
【背景技術】
【0002】
コンピュータにキーワードを入力することにより、テキストデータなどのデータファイルから、そのキーワードを検出する技術(以後、「キーワード検出技術」と言う)がある。このキーワード検出技術は、汎用のワードプロセッサソフトウェアでも用いられている技術であり、この技術を用いたのテキスト検索機能は、通常の文章作成作業においてもよく利用される機能である。
【非特許文献1】“参考資料2:日本の人口・世帯数の将来推計”、[online]、平成16年1月19日、第2回地球温暖化対策技術検討会、[平成16年6月25日検索]、インターネット<http://www.env.go.jp/earth/gijyutsu_k/02/>
【非特許文献2】“日本の姓の全国順位データベース”、[online]、静岡大学人文学部言語文化学科比較言語文化コース言語学分野城岡研究室、[平成16年6月25日検索]、インターネット<http://www.ipc.shizuoka.ac.jp/〜jjksiro/shiro.html>
【非特許文献3】“国土交通省有資格者名簿”、[online]、国土交通省、[平成16年6月25日検索]、インターネット<http://www.ppi.go.jp/yusikaku/frm_csl.html>
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、従来のキーワード検出技術は、テキストデータなどのデータファイル内に含まれている特定のキーワードを検出するのみであり、データファイル内に目的とする特定の情報が含まれているか否かまでは判定することができなかった。
【0004】
本発明は、この問題を鑑みてなされたものであり、データファイルから検出したキーワードが所定の条件を満たすか否かを検査することにより、そのデータファイルに特定の情報が含まれているか否かを判定し、その特定の情報を検出する検出技術を提供することを目的とする。
【課題を解決するための手段】
【0005】
前記した課題を解決するためデータ検査装置は、個人情報を形成するキーワードを記憶するキーワード記憶部と、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ部と、データサーチ部が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、個人情報判定部がデータファイルに個人情報が含まれていると判定した場合に、警告信号を出力する警告出力部とを備えることとした。
【0006】
この発明に係るデータ検査装置は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部と、
データサーチ部が検出した複数種類のキーワードの検出場所が近接しており、かつ、データサーチ部が検出した少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とする。
【0007】
上記キーワード記憶部は、個人情報を形成するキーワードとして、複数の苗字を記憶する苗字ファイルを備えたことを特徴とする。
【0008】
上記苗字ファイルは、個人別および世帯別とのいずれかについて、使用頻度が高い上位の苗字を記憶することを特徴とする。
【0009】
上記苗字ファイルは、A件以上の苗字が含まれている検査対象データに苗字の検出件数がB件以上あることを検出して検査対象データにC%以上の確率で個人情報が含まれていると判定するために、使用頻度が高い上位の苗字を、A件とB件とC%とにより決定されるD件数だけ、記憶することを特徴とする。
【0010】
上記苗字ファイルは、所定の地域で使用頻度が高い上位200件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が5件以上あることを検出することにより、上記データ検査装置は、50件以上の苗字が含まれている検査対象データに対して98%以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする。
【0011】
上記苗字ファイルは、所定の地域で使用頻度が高い上位100件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が5件以上あることを検出することにより、上記データ検査装置は、50件以上の苗字が含まれている検査対象データに対して95%以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする。
【0012】
上記苗字ファイルは、所定の地域で使用頻度が高い上位50件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が5件以上あることを検出することにより、上記データ検査装置は、50件以上の苗字が含まれている検査対象データに対して90%以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする。
【0013】
上記データ検査装置は、さらに、苗字の統計データを有する統計データベースにアクセスして、所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が上記所定の数以上になる確率に基づいて決定される数以下の苗字を、上記苗字ファイルに登録する苗字登録部を備えたことを特徴とする。
【0014】
上記データ検査装置は、さらに、データサーチ部が読み込むことができない形式のファイルを、データサーチ部が読み込むことができる形式のファイルに変換して、検査対象データを記憶したデータファイルとして出力するファイル変換部を備えたことを特徴とする。
【0015】
上記キーワード記憶部は、個人情報を形成するキーワードとして、所定の地域ごとに、その所定の地域で使用頻度が高い複数の苗字を記憶する苗字ファイルを備えたことを特徴とする。
【0016】
上記データサーチ部は、データファイルを構成する構成部分ごとにキーワードを検出するとともに、
上記個人情報判定部は、データファイルの構成部分に対応して所定の数を変更することを特徴とする。
【0017】
上記データ検査装置は、さらに、検査対象データの用語が、検出すべきキーワードであるかを判定する補助情報を記憶する判定補助ファイルを備え、
上記データサーチ部は、判定補助ファイルに記憶された補助情報を用いて、検出すべきキーワードであるかを判定することを特徴とする。
【0018】
この発明に係るデータ検査装置は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部と、
データサーチ部が検出した複数種類のキーワードの検出場所が近接している場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とする。
【0019】
この発明に係るデータ検査方法は、データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ工程と、
データサーチ工程で検出したキーワードの検出件数が所定の数以上の場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定工程でデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とする。
【0020】
この発明に係るデータ検査方法は、データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、
近接関係検出部が、データサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、
近接関係検出工程で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定工程でデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とする。
【0021】
この発明に係るデータ検査方法は、データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、
近接関係検出部が、データサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、
近接関係検出工程が複数種類のキーワードの検出場所が近接していることを検出した場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とする。
【0022】
この発明に係るデータ検査プログラムは、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ処理と、
データサーチ処理で検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
個人情報判定処理でデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とする。
【0023】
この発明に係るデータ検査プログラムは、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、
データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、
近接関係検出処理で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
個人情報判定処理でデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とする。
【0024】
この発明に係るデータ検査プログラムは、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、
データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、
近接関係検出処理が複数種類のキーワードの検出場所が近接していることを検出した場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
データファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とする。
【発明の効果】
【0025】
この発明によればデータ検査装置は、個人情報を形成するキーワードを記憶するキーワード記憶部を備えており、データサーチ部が検査対象データを記憶したデータファイルから検査対象データを読み込んだ後、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして検査対象データ内にあるキーワードを検出し、個人情報判定部がデータサーチ部が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定し、警告出力部が個人情報判定部がデータファイルに個人情報が含まれていると判定した場合に、警告信号を出力することができる。
【発明を実施するための最良の形態】
【0026】
実施の形態では、苗字や都道府県名などをキーワードとし、名簿を個人情報とし、テキストデータを検査対象データとした場合について述べる。
【0027】
実施の形態1.
以下に述べる実施の形態1では、データ検査装置が、苗字が記載された名簿を含んでいる可能性のあるテキストデータの検査を行い、その中に苗字が所定の数以上存在する場合、テキストデータは名簿を含んでいると判定する実施の形態について説明する。
【0028】
図1は、実施の形態1におけるデータ検査装置の構成を示す図である。
データ検査装置100は、個人情報を形成するキーワードを記憶するキーワード記憶部110と、検査対象データを記憶したデータファイル120から検査対象データを読み込み、キーワード記憶部110に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ部131と、データサーチ部131が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部132と、個人情報判定部132がデータファイルに個人情報が含まれていると判定した場合に、警告信号を出力する警告出力部133とを備える。
【0029】
データ検査装置100のデータサーチ部131と個人情報判定部132と警告出力部133とは、テキスト検索部130を構成している。
【0030】
データ検査装置100のキーワード記憶部110は、個人情報を形成するキーワードとして、複数の苗字を記憶する苗字ファイル111を備える。
【0031】
キーワード記憶部110の苗字ファイル111は、複数の苗字を記憶する。データファイル120は、テキストデータを記憶する。データサーチ部131は、キーワード記憶部110の苗字ファイル111に記憶された苗字を用いて、テキストデータをサーチして、テキストデータ内にある苗字を検出する。個人情報判定部132は、データサーチ部131が検出した苗字の件数が所定の数以上の場合、そのデータファイルが記憶するテキストデータに名簿が含まれていると判定する。警告出力部133は、そのデータファイルが記憶するテキストデータに名簿が含まれていると個人情報判定部132が判定した場合、警告信号を出力する。
【0032】
次に、テキストデータを検査し、そこから所定の数以上の苗字を検出した場合、テキストデータに名簿が含まれていると判定するデータ検査方法を説明する。
【0033】
実施の形態1におけるデータ検査方法は、データサーチ部131が検査対象データを記憶したデータファイル120から検査対象データを読み込み、キーワード記憶部110に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ工程と、データサーチ工程で検出したキーワードの検出件数が所定の数以上の場合、個人情報判定部132が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、個人情報判定工程でデータファイルに個人情報が含まれていると判定した場合、警告出力部133が、警告信号を出力する警告出力工程とを実行する。
【0034】
また、データ検査プログラムは、検査対象データを記憶したデータファイル120から検査対象データを読み込み、キーワード記憶部110に記憶されたキーワードを用いて検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ処理と、データサーチ処理で検出したキーワードの検出件数が所定の数以上の場合、そのデータファイル120に個人情報が含まれていると判定する個人情報判定処理と、個人情報判定処理でデータファイル120に個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理とをコンピュータに実行させることにより、実施の形態1におけるデータ検査方法を実現する。
【0035】
実施の形態1におけるデータ検査方法を図2に示すフローチャートを用いて詳細に説明する。
まず、データ検査方法で用いる条件を説明する。
(苗字検出の条件)
テキストデータ内の文字列が苗字ファイル111に用意された苗字と一致した場合、その文字列は苗字であると判定し検出する。
(名簿であることの判定条件)
テキストデータから検出された苗字が所定の数r(rは1以上の整数)以上含まれている場合、テキストデータに名簿が含まれると判定する。
【0036】
データファイル120には、検査対象データであるテキストデータが記憶されている。また、キーワード記憶部110には、苗字が所定数記憶されている。
【0037】
データサーチ部131は、データファイル120からテキストデータを読み込み、キーワード記憶部110から読み込んだ苗字を用いて、テキストデータ内をサーチし、読み込んだ苗字と同じ苗字を検出する。(ステップS100)。これがデータサーチ工程である。
【0038】
個人情報判定部132は、サーチした結果、検出した苗字の件数がr以上であるか否かを判断する(ステップS101)。検出した苗字の件数がr以上でなかった場合(ステップS101のNoの場合)、処理を終了する。検出した苗字の件数がr以上である場合(ステップS101のYesの場合)、個人情報判定部132は、テキストデータに名簿が含まれていると判定する(ステップS102)。これが個人情報判定工程である。
【0039】
次に、ステップS102でテキストデータに名簿が含まれていると判定された場合、警告出力部133は、警告信号を出力して処理を終了する(ステップS103)。これが警告出力工程である。
【0040】
データ検査方法において、テキストデータが名簿を含んでいるか否かを判定するためには、名簿とそれ以外の情報を識別する必要がある。名簿を識別する手段の一つに、その中に含まれる苗字を検出する方法がある。この方法を用いて名簿を正確に識別するためには、苗字を苗字であると正確に検出する必要がある。
【0041】
苗字を正確に検出するためには、理想的には、前記したデータ検査装置100の苗字ファイル111に、全ての苗字を用意しておけば、それらとテキストデータとをそれぞれ照合することにより、漏れなく苗字を検出することが可能となる。理想的ではないにしろ、用意する苗字の数が多いほど、高い確率で苗字を検出することができる。
【0042】
例えば、約10万種類ある日本国内の全苗字を苗字ファイル111に用意すれば、テキストデータ内に記載されている苗字を苗字であると判定して検出する確率は1となる。逆に苗字ファイル111に用意された苗字の数が不足している場合は、テキストデータ内に苗字があったとしても、苗字であるとは判定されない可能性が生じる。
【0043】
このように漏れなくまたは高い確率で苗字を検出することができれば、検出した苗字が所定の数以上揃うことにより、テキストデータには名簿が含まれていると判定することができる。
【0044】
しかしながら、コンピュータの性能には限界があり、日本国内の全苗字とテキストデータとを照合することは困難である。そこで、現実的な処理時間で苗字を検出するためには、苗字ファイル111に用意する苗字の数(以後、「苗字プリセット数」と呼ぶ)を制限する必要がある。
【0045】
苗字プリセット数を制限した場合に、一つの苗字を苗字であると検出する確率pは(1)式で算出することができる。
【0046】
【数1】

【0047】
ここで、Npreは苗字プリセット数、Nallは全ての苗字数である。
【0048】
しかし、実際には、苗字ごとに使用頻度に違いがあることから、名簿には使用頻度の高い苗字ほど多数出現することが多い。そこで、検出する確率を上げるために、苗字ファイルにも、個人別および世帯別とのいずれかについて、使用頻度が高い上位の苗字を記憶することとした。
【0049】
苗字ファイルに世帯別の使用頻度が高い上位の苗字を記憶した場合、一つの苗字を苗字であると検出する確率pは(2)式で算出することができる。
【0050】
【数2】

【0051】
ここで、ΣSTpreは、苗字ファイル111に苗字プリセット数Npreだけ用意した各苗字の世帯数STpreの和であり、STallは全ての世帯数である。
【0052】
次に、(2)式に示す確率でテキストデータの中から苗字であるとして検出された苗字がr件以上となる確率、すなわち、テキストデータに名簿が含まれている確率(名簿判定確率)Pdは(3)式で算出できる。
【0053】
【数3】

【0054】
ここで、nはテキストデータ内に含まれる苗字の数である。
【0055】
図3に、20件、50件、100件の苗字が記載されたそれぞれの名簿を検査する場合において、以下の(a)、(b)、(c)の場合について、苗字プリセット数(横軸)と名簿であると判定される率(縦軸)との関係をグラフに示す。
(a)(2)式と(3)式から名簿判定確率を算出した場合(理論計算値:点線)。
(b)日本国内で調査した多い苗字から任意に10件、50件、100件、200件、500件(「苗字プリセット数」に相当する)の苗字を選び出し、選び出したそれぞれの件数の苗字を記載した苗字ファイル111を用いて実験によりテキストデータが名簿であると判定される率を求めた場合(理想的な名簿による試験データ:実線)。
(c)実際に用いられている名簿に記載されている苗字から任意に10件、50件、100件、200件、500件(「苗字プリセット数」に相当する)の苗字を選び出し、選び出したそれぞれの件数の苗字を記載した苗字ファイル111を用いて実験によりテキストデータが名簿であると判定される率を求めた場合(実際の名簿による試験データ:破線)。
【0056】
ここで、(a)においては、(2)式を用いて一つの苗字を苗字であると検出する確率pを求める際に、全ての世帯数STallには非特許文献1のデータ(国内の全世帯数=46780000)を利用し、苗字ファイル111に苗字プリセット数Npreだけ用意した各苗字の世帯数STpreの和ΣSTpreには、非特許文献2の中の使用頻度が高い上位の苗字の世帯数の和を利用している。また、(b)においては、日本国内で調査した多い苗字として、非特許文献2の中の使用頻度が高い上位の苗字を利用している。(c)においては、実際に用いられている名簿に記載されている苗字として、非特許文献3に記載されている苗字を利用している。
【0057】
図3からは、キーワード記憶部110が備える苗字ファイル111は、所定の地域で使用頻度が高い上位200件の苗字を記憶し、データ検査装置100の個人情報判定部132は、苗字の検出件数が5件以上あることを検出することにより、データ検査装置100は、50件以上の苗字が含まれている検査対象データに対して98%以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【0058】
また、図3からは、キーワード記憶部110が備える苗字ファイル111は、所定の地域で使用頻度が高い上位100件の苗字を記憶し、データ検査装置100の個人情報判定部132は、苗字の検出件数が5件以上あることを検出することにより、データ検査装置100は、50件以上の苗字が含まれている検査対象データに対して95%以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【0059】
また、図3からは、キーワード記憶部110が備える苗字ファイル111は、所定の地域で使用頻度が高い上位50件の苗字を記憶し、データ検査装置100の個人情報判定部132は、苗字の検出件数が5件以上あることを検出することにより、データ検査装置100は、50件以上の苗字が含まれている検査対象データに対して90%以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【0060】
以上より、理論計算値と理想的な名簿による試験データと実際の名簿による試験データは、ほぼ一致しており、テキストデータに名簿が含まれている確率(名簿判定確率)Pdの算出方法は正しいと言える。
【0061】
逆に、一定以上の確率でテキストデータの中からr件以上の苗字を検出するためには、苗字ファイル111に所定の数以上の苗字を用意する必要がある。
【0062】
このため、キーワード記憶部110が備える苗字ファイル111は、A件以上の苗字が含まれている検査対象データに苗字の検出件数がB件以上あることを検出して検査対象データにC%以上の確率で個人情報が含まれていると判定するために、使用頻度が高い上位の苗字を、A件とB件とC%とにより決定されるD件数だけ記憶するようにする。
【0063】
具体的には、苗字ファイル111に用意しなくてはならない苗字数は、図4と図5を用いて求めることができる。図4は、名簿であると判定するために必要となるテキストデータから検出された苗字の数がr=5以上含まれている場合であり、図5はr=10以上含まれている場合である。
【0064】
図4と図5の左図は前記した(3)式から求めたグラフであり、テキストデータ内の苗字数(横軸)と、一つの苗字を苗字であると検出する確率p(縦軸)との関係を各名簿判定確率Pd毎に示している。また、図4と図5の右図は前記した(2)式から求めたグラフであり、苗字プリセット数Npre(横軸)と、一つの苗字を苗字であると検出する確率p(縦軸)との関係を示している。なお、全ての苗字数Nallには非特許文献1のデータを利用し、苗字プリセット数Npreには、非特許文献2のデータを利用している。
【0065】
図4と図5を用いて苗字プリセット数Npreを決定する方法を説明する。
(1)テキストファイル内に何件苗字があったら名簿と判定するかを決定する。(rを決定する。図4の左図ではr=5、図5の左図ではr=10としてある。)
(2)対象とする名簿規模(テキストファイル内の苗字数)を決定する。(nを決定する。例として、n=50を選択し、太線矢印で示してある。)
(3)名簿判定確率を決定する。(Pdを決定する。例として、Pd=99.9%を選択し、太線矢印で示してある。)
(4)(1)〜(3)によりpが決定される。(例では、r=5の場合p=0.30、r=10の場合p=0.42となる。)
(5)右のグラフより、(4)で決定されたpにおけるNpreを求める。(例では、r=5の場合、Npreは210件、r=10の場合、Npreは610件となる。)
【0066】
従って、r=5では、典型的な1位〜210位の苗字を苗字ファイル111に用意すれば十分であることがわかり、r=10では、典型的な1位〜610位の苗字を苗字ファイルに用意すれば十分であることがわかる。
【0067】
この実施の形態によれば、データ検査装置100は、個人情報を形成するキーワードを記憶するキーワード記憶部110を備えており、データサーチ部131が検査対象データを記憶したデータファイル120から検査対象データを読み込んだ後、キーワード記憶部110に記憶されたキーワードを用いて検査対象データをサーチして検査対象データ内にあるキーワードを検出し、個人情報判定部132がデータサーチ部131が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイル120に個人情報が含まれていると判定し、個人情報判定部132がデータファイルに個人情報が含まれていると判定した場合、警告出力部133が警告信号を出力することができる。また、データ検査方法をプログラムで実現することにより、コンピュータをデータ検査装置100とすることができる。その結果、データ検査装置100は、テキストデータに含まれる名簿を検出することが可能となる。
【0068】
この実施の形態によれば、データ検査装置100のデータサーチ部131は、テキストデータに含まれる苗字を検出するに際に、キーワード記憶部110の苗字ファイル111に個人情報を形成するキーワードとして記憶された複数の苗字を利用することができる。
【0069】
この実施の形態によれば、データ検査装置100は、キーワード記憶部110の苗字ファイル111に使用頻度が高い上位の苗字を、A件とB件とC%とにより決定されるD件数だけ記憶することにより、A件以上の苗字が含まれている検査対象データに苗字の検出件数がB件以上あることを検出して検査対象データにC%以上の確率で個人情報が含まれていると判定することができる。
【0070】
この実施の形態によれば、データ検査装置100は、キーワード記憶部110の苗字ファイル111に所定の地域で使用頻度が高い上位200件の苗字を記憶し、個人情報判定部132が苗字の検出件数が5件以上あることを検出することにより、50件以上の苗字が含まれている検査対象データに対して、98%以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【0071】
この実施の形態によれば、データ検査装置100は、キーワード記憶部110の苗字ファイル111に所定の地域で使用頻度が高い上位100件の苗字を記憶し、個人情報判定部132が苗字の検出件数が5件以上あることを検出することにより、50件以上の苗字が含まれている検査対象データに対して、95%以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【0072】
この実施の形態によれば、データ検査装置100は、キーワード記憶部110の苗字ファイル111に所定の地域で使用頻度が高い上位50件の苗字を記憶し、個人情報判定部132が苗字の検出件数が5件以上あることを検出することにより、50件以上の苗字が含まれている検査対象データに対して、90%以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【0073】
実施の形態2.
実施の形態2では、データ検査装置が苗字や住所などが記載された名簿を含んでいる可能性のあるテキストデータの検査を行い、検出された苗字や住所などの記載位置が近接している場合、テキストデータは名簿を含んでいると判定する実施の形態について説明する。
【0074】
図6は、実施の形態2におけるデータ検査装置の構成を示す図である。
データ検査装置100は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部110と、検査対象データを記憶したデータファイル120から検査対象データを読み込み、キーワード記憶部110に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部131と、データサーチ部131が検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出部134と、近接関係検出部134が複数種類のキーワードの検出場所が近接していることを検出した場合、そのデータファイル120に個人情報が含まれていると判定する個人情報判定部132と、個人情報判定部132がデータファイル120に個人情報が含まれていると判定した場合に、警告信号を出力する警告出力部133とを備える。
【0075】
データ検査装置100のデータサーチ部131と個人情報判定部132と警告出力部133とは、テキスト検索部130を構成している。
【0076】
データ検査装置100のキーワード記憶部110は、個人情報を形成するキーワードとして、複数の苗字を記憶する苗字ファイル111と、各都道府県名を記憶する都道府県名ファイル112と、各市区町村名を記憶する市区町村名ファイル113とを備える。
【0077】
キーワード記憶部110の苗字ファイル111は複数の苗字を記憶し、都道府県名ファイル112は各都道府県名を記憶し、市区町村名ファイル113は各市区町村名を記憶する。
【0078】
データファイル120は、テキストデータを記憶する。データサーチ部131は、キーワード記憶部110の苗字ファイル111に記憶された苗字と、都道府県名ファイル112に記憶された都道府県名を用いて、テキストデータをサーチして、テキストデータ内にある苗字と住所を検出する。都道府県名ファイル112に代えて市区町村名ファイル113であってもよい。近接関係検出部134は、データサーチ部131が検出した苗字と都道府県名の検出場所が近接していることを検出する。個人情報判定部132は、データサーチ部131が苗字と都道府県名の検出場所が近接していることを検出した場合、そのデータファイルが記憶するテキストデータに名簿が含まれていると判定する。警告出力部133は、そのテキストデータに名簿が含まれていると個人情報判定部132が判定した場合、警告信号を出力する。
【0079】
次に、テキストデータから苗字と住所を検出し、それらを検出した場所が近接していた場合、テキストデータに名簿が含まれていると判定するデータ検査方法を説明する。
【0080】
実施の形態2におけるデータ検査方法は、データサーチ部131が検査対象データを記憶したデータファイル120から検査対象データを読み込み、キーワード記憶部110に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、近接関係検出部134がデータサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、近接関係検出工程で複数種類のキーワードの検出場所が近接していることを検出した場合、個人情報判定部132が、そのデータファイル120に個人情報が含まれていると判定する個人情報判定工程と、個人情報判定部132がデータファイル120に個人情報が含まれていると判定した場合、警告出力部133が警告信号を出力する警告出力工程とを実行する。
【0081】
また、データ検査プログラムは、検査対象データを記憶したデータファイル120から検査対象データを読み込み、キーワード記憶部110に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、近接関係検出処理が複数種類のキーワードの検出場所が近接していることを検出した場合、そのデータファイル120に個人情報が含まれていると判定する個人情報判定処理と、データファイル120に個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理とをコンピュータに実行させることにより、実施の形態2におけるデータ検査方法を実現する。
【0082】
実施の形態2におけるデータ検査方法を図7に示すフローチャートを用いて詳細に説明する。
まず、データ検査方法で用いる条件を説明する。
(苗字住所検出の条件)
テキストデータ内の文字列が苗字ファイル111に用意された苗字か都道府県名ファイル112に用意された都道府県名と一致した場合、その文字列は苗字か住所であると判定して検出する。
(名簿であることの判定条件)
テキストデータに検出された苗字と住所を検出した場所が近接していた場合、テキストデータに名簿が含まれていると判定する。
【0083】
データファイル120には、検査対象データであるテキストデータが記憶されている。また、キーワード記憶部110の苗字ファイル111には苗字が、都道府県名ファイル12には、都道府県名が記憶されている。
【0084】
データサーチ部131は、データファイル120からテキストデータを読み込み、キーワード記憶部110の苗字ファイル111から読み込んだ苗字か、都道府県名ファイル12から読み込んだ都道府県名を用いて、テキストデータ内をサーチし、同じ苗字または同じ都道府県名を検出する(ステップS200)。これがデータサーチ工程である。
【0085】
近接関係検出部134は、データサーチ工程で苗字を検出した場所と都道府県名を検出した場所が近接しているか否かを判断する(ステップS201)。苗字と都道府県名が近接していると判断しなかった場合(ステップS201のNoの場合)、処理を終了する。これが近接関係検出工程である。
【0086】
苗字を検出した場所と都道府県名を検出した場所が近接しているか否かの判断は、苗字を検出した場所と都道府県名を検出した場所との関係を正規表現により記載したテンプレートと照合することにより行う。
【0087】
正規表現とは、文字が配置される位置の規則を形式的に表現したものであり、例えば、「苗字の3文字分右に都道府県名が記載される」ということを形式的に記載する。
【0088】
近接関係検出工程で苗字と都道府県名が近接していると判断した場合(ステップS101のYesの場合)、個人情報判定部132は、テキストデータに名簿が含まれていると判定する(ステップS202)。これが個人情報判定工程である。
【0089】
次に、個人情報判定工程でテキストデータに名簿が含まれていると判定された場合、警告出力部133は、警告信号を出力し処理を終了する(ステップS203)。これが警告出力工程である。
【0090】
この実施の形態によればデータ検査装置100は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部110を備えており、データサーチ部131が検査対象データを記憶したデータファイル120から検査対象データを読み込んだ後、キーワード記憶部110に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出し、近接関係検出部134がデータサーチ部131で検出した複数種類のキーワードの検出場所が近接していることを検出し、個人情報判定部132が、そのデータファイル120に個人情報が含まれていると判定し、個人情報判定部132がデータファイル120に個人情報が含まれていると判定した場合に、警告出力部133が警告信号を出力することができる。また、データ検査方法をプログラムで実現することにより、コンピュータをデータ検査装置100とすることができる。その結果、データ検査装置100は、テキストデータに含まれる名簿を検出することが可能となる。
【0091】
実施の形態3.
実施の形態3では、実施の形態1と実施の形態2を合わせた実施の形態を説明する。すなわち、データ検査装置が、苗字や住所などが記載された名簿を含んでいる可能性のあるテキストデータの検査を行い、検出された苗字や住所などの記載位置が近接しており、かつ、テキストデータの中に苗字または住所が所定の数以上存在する場合、テキストデータは名簿を含んでいると判定する実施の形態について説明する。
【0092】
図8は、実施の形態3におけるデータ検査装置の構成を示す図である。
データ検査装置100は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部110と、検査対象データを記憶したデータファイル120から検査対象データを読み込み、キーワード記憶部110に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部131と、データサーチ部131が検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出部134と、近接関係検出部134が複数種類のキーワードの検出場所が近接していることを検出し、かつ、データサーチ部131が検出した少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイル120に個人情報が含まれていると判定する個人情報判定部132と、個人情報判定部132がデータファイル120に個人情報が含まれていると判定した場合に、警告信号を出力する警告出力部133とを備える。
【0093】
データ検査装置100のデータサーチ部131と個人情報判定部132と警告出力部133とは、テキスト検索部130を構成している。
【0094】
データ検査装置100のキーワード記憶部110は、個人情報を形成するキーワードとして、複数の苗字を記憶する苗字ファイル111と、各都道府県名を記憶する都道府県名ファイル112と、各市区町村名を記憶する市区町村名ファイル113とを備える。
【0095】
キーワード記憶部110の苗字ファイル111は複数の苗字を記憶し、都道府県名ファイル112は各都道府県名を記憶し、市区町村名ファイル113は各市区町村名を記憶する。データファイル120は、テキストデータを記憶する。データサーチ部131は、キーワード記憶部110の苗字ファイル111に記憶された苗字と、都道府県名ファイル112に記憶された都道府県名を用いて、テキストデータをサーチして、テキストデータ内にある苗字と都道府県名を検出する。都道府県名ファイル112に代えて市区町村名ファイル113であってもよい。近接関係検出部134は、データサーチ部131が検出した苗字と都道府県名の検出場所が近接していることを検出する。個人情報判定部132は、データサーチ部131が苗字と都道府県名の検出場所が近接していることを検出し、かつ、検出した苗字または都道府県名の件数が所定の数以上である場合、そのデータファイルが記憶するテキストデータに名簿が含まれていると判定する。警告出力部133は、そのデータファイルが記憶するテキストデータに名簿が含まれていると個人情報判定部132が判定した場合、警告信号を出力する。
【0096】
次に、テキストデータから苗字と住所を検出し、それらを検出した場所が近接しており、かつ、検出した苗字または住所の件数が所定の数以上である場合、テキストデータに名簿が含まれていると判定するデータ検査方法を説明する。
【0097】
実施の形態3におけるデータ検査方法は、データサーチ部131が検査対象データを記憶したデータファイル120から検査対象データを読み込み、キーワード記憶部110に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、近接関係検出部134がデータサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、近接関係検出工程で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、個人情報判定部132が、そのデータファイル120に個人情報が含まれていると判定する個人情報判定工程と、個人情報判定工程でデータファイル120に個人情報が含まれていると判定した場合に、警告出力部133が警告信号を出力する警告出力工程とを実行する。
【0098】
また、データ検査プログラムは、検査対象データを記憶したデータファイル120から検査対象データを読み込み、キーワード記憶部110に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、近接関係検出処理で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイル120に個人情報が含まれていると判定する個人情報判定処理と、個人情報判定処理でデータファイル120に個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理とをコンピュータに実行させることにより、実施の形態3におけるデータ検査方法を実現する。
【0099】
実施の形態3におけるデータ検査方法を図9に示すフローチャートを用いて詳細に説明する。
まず、データ検査方法で用いる条件を説明する。
(苗字住所検出の条件)
テキストデータ内の文字列が苗字ファイル111に用意された苗字か都道府県名ファイル112に用意された都道府県名と一致した場合、その文字列は苗字か住所であると判定して検出する。
(名簿であることの判定条件)
テキストデータで検出された苗字と住所を検出した場所が近接しており、かつ、検出した苗字または住所の件数が所定の数以上である場合、テキストデータに名簿が含まれていると判定する。
【0100】
データファイル120には、検査対象データであるテキストデータが記憶されている。また、キーワード記憶部110の苗字ファイル111には苗字が、都道府県名ファイル12には、都道府県名が記憶されている。
【0101】
データサーチ部131は、データファイル120からテキストデータを読み込み、キーワード記憶部110の苗字ファイル111から読み込んだ苗字か、都道府県名ファイル12から読み込んだ都道府県名を用いて、テキストデータ内をサーチし、同じ苗字または同じ都道府県名を検出する(ステップS300)。これがデータサーチ工程である。
【0102】
近接関係検出部134は、データサーチ工程で苗字を検出した場所と都道府県名を検出した場所が近接しているか否かを判断する(ステップS301)。苗字と都道府県名が近接していると判断しなかった場合(ステップS301のNoの場合)、処理を終了する。これが近接関係検出工程である。
【0103】
苗字を検出した場所と住所を検出した場所が近接しているか否かの判断は、実施の形態2で用いた方法と同じ方法を用いる。
【0104】
近接関係検出工程で苗字と都道府県名が近接していると判断した場合(ステップS301のYesの場合)、個人情報判定部132は、テキストデータから検出した苗字または都道府県名の件数がr以上であるか否かを判断する(ステップS302)。テキストデータから検出した苗字または都道府県名の件数がr以上でなかった場合(ステップS302のNoの場合)、処理を終了する。テキストデータから検出した苗字または都道府県名の件数がr以上であった場合(ステップS302のYesの場合)、テキストデータに名簿が含まれていると判定する(ステップS303)。これが個人情報判定工程である。
【0105】
次に、個人情報判定工程でテキストデータに名簿が含まれていると判定された場合、警告出力部133は、警告信号を出力し処理を終了する(ステップS304)。これが警告出力工程である。
【0106】
この実施の形態によればデータ検査装置100は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部110を備えており、データサーチ部131が検査対象データを記憶したデータファイル120から検査対象データを読み込んだ後、キーワード記憶部110に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出し、近接関係検出部134がデータサーチ部131で検出した複数種類のキーワードの検出場所が近接していることを検出し、かつ、データサーチ部131が検出した少なくとも一種類のキーワードの検出件数が所定の数以上の場合、個人情報判定部132が、そのデータファイル120に個人情報が含まれていると判定し、個人情報判定部132がデータファイル120に個人情報が含まれていると判定した場合、警告出力部133が警告信号を出力することができる。また、データ検査方法をプログラムで実現することにより、コンピュータをデータ検査装置100とすることができる。その結果、データ検査装置100は、テキストデータに含まれる名簿を検出することが可能となる。
【0107】
実施の形態4.
実施の形態4では、検査対象データを電子メールとした場合に、電子メールのパケットのヘッダ部に含まれるアドレスやデータ部に含まれる本文、そして添付ファイルに名簿が含まれているか否かをデータ検査装置が判定する実施の形態について説明する。なお、実施の形態4では、実施の形態1を基礎として説明するが、これ限らず実施形態2や実施の形態3を基礎としてもよい。
【0108】
図10は、実施の形態4におけるデータ検査装置の構成を示す図である。
実施の形態4でのデータ検査装置100のデータサーチ部131は、データファイル120を構成する構成部分ごとにキーワードを検出するとともに、個人情報判定部132は、データファイル120の構成部分に対応して所定の数を変更する。
【0109】
また、データ検査装置100は、実施の形態1での構成に加えて、さらに、データサーチ部131が読み込むことができない形式のファイルを、データサーチ部131が読み込むことができる形式のファイルに変換して、検査対象データを記憶したデータファイル120として出力するファイル変換部150を備える。
【0110】
実施の形態4でのデータ検査装置100のデータサーチ部131は、データファイル120に記憶される検査対象データが電子メールである場合、その電子メールを構成するヘッダ部とデータ部と添付ファイルにある、苗字(メールアドレスを含む)を検出する。
【0111】
実施の形態4での個人情報判定部132は、電子メールのパケットを構成するヘッダ部とデータ部と添付ファイルとによって、その中に名簿を含んでいると判定する基準となる苗字の数を変更する。例えば、データ部の場合、その中から苗字をr件以上を検出した場合に名簿が含まれると判定し、また、ヘッダ部とデータ部の場合、その中から苗字をr+s件以上を検出した場合に名簿が含まれると判定し、ヘッダ部とデータ部と添付ファイルの場合、その中から苗字をr+s+t件以上検出した場合に名簿が含まれると判定する。ただし、ここではメールアドレスを苗字とみなしている。
【0112】
また、添付データには多様な形式のファイルが添付されることから、その記載内容をデータサーチ部131が正しく認識できない場合がある。そこで、ファイル変換部150は、データサーチ部131が認識することができない形式で記載された添付データを、データサーチ部131が認識することができる形式に変換して、変換した添付データをデータファイル120へ出力する。
【0113】
実施の形態4におけるデータ検査方法を、図11に示すフローチャートを用いて詳細に説明する。
まず、データ検査方法で用いる条件を説明する。
(苗字検出の条件)
電子メール内の文字列が苗字ファイル111に用意された苗字と一致した場合、その文字列は苗字であると判定し検出する。
(名簿であることの判定条件)
電子メールのパケットを構成するデータ部に検出された苗字が所定の数r以上含まれている場合、データ部とヘッダ部に検出された苗字が所定の数r+s以上含まれている場合、データ部とヘッダ部と添付データに検出された苗字が所定の数r+s+t以上含まれている場合、電子メールに名簿が含まれると判定する。
【0114】
データファイル120には、検査対象データである電子メールが記憶されている。また、キーワード記憶部110には、苗字が所定数記憶されている。
【0115】
データサーチ部131は、データファイル120から電子メールを読み込み、キーワード記憶部110から読み込んだ苗字を用いて、電子メール内をサーチし、読み込んだ苗字と同じ苗字を検出する。(ステップS400)。これがデータサーチ工程である。
【0116】
個人情報判定部132は、サーチした結果、電子メールのデータ部から検出した苗字の件数がr以上であるか否かを判断する(ステップS401)。検出した苗字の件数がr以上であった場合(ステップS401のYesの場合)、電子メールに名簿が含まれていると判定する(ステップS405)。
【0117】
検出した苗字の件数がr以上でない場合(ステップS401のNoの場合)、個人情報判定部132は、サーチした結果、電子メールのデータ部とヘッダ部から検出した苗字の件数がr+s以上であるか否かを判断する(ステップS402)。検出した苗字の件数がr+s以上であった場合(ステップS402のYesの場合)、電子メールに名簿が含まれていると判定する(ステップS405)。
【0118】
検出した苗字の件数がr+s以上でない場合(ステップS402のNoの場合)、個人情報判定部132は、サーチした結果、電子メールのデータ部とヘッダ部と添付ファイルから検出した苗字の件数がr+s+t以上であるか否かを判断する(ステップS403)。検出した苗字の件数がr+s+t以上であった場合(ステップS403のYesの場合)、電子メールに名簿が含まれていると判定する(ステップS405)。
【0119】
検出した苗字の件数がr+s+t以上でない場合(ステップS403のNoの場合)、電子メールには名簿が含まれていないと判定する(ステップS404)。これが名簿判定工程である。
【0120】
ステップS405において電子メールに名簿が含まれていると判定した場合、警告信号を出力する(ステップS406)。これが警告出力工程である。
【0121】
この実施の形態によれば、データ検査装置100のデータサーチ部131は、データファイル120を構成する構成部分ごとにキーワードを検出することができる。また、個人情報判定部132は、データファイル120の構成部分に対応して、その中に名簿を含んでいると判定する基準となるキーワードの検出件数を変更することができる。
【0122】
この実施の形態によれば、データサーチ部131が読み込むことができない形式のファイルであっても、それをファイル変換部150がデータサーチ部131が読み込むことができる形式のファイルに変換してデータファイル120に記憶することにより、データサーチ部131はそれ読み込んで記載内容を認識することが可能となる。
【0123】
なお、データ部、ヘッダ部、添付ファイルそれぞれ個別に、名簿が含まれていると判定する件数を設定して検査を行ってもよい。
【0124】
実施の形態5.
実施の形態5では、苗字ファイルに所定の地域で使用頻度が高い苗字を用意し、また、検出した苗字と思われる文字列が、本当に苗字か否かを判定するための補助ファイルを備える場合に、テキストデータが名簿を含むか否かを判定する実施の形態について説明する。なお、実施の形態5では、実施の形態2を基礎として説明するが、これ限らず実施形態1や実施の形態3を基礎としてもよい。
【0125】
図12は、実施の形態5におけるデータ検査装置の構成を示す図である。
実施の形態5におけるデータ検査装置100は、実施の形態2に記載のデータ検査装置の構成に加えて、さらに、苗字の統計データを有する統計データベース200にアクセスして、所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が所定の数以上になる確率に基づいて決定される数以下の苗字を、苗字ファイル111に登録する苗字登録部140を備える。
【0126】
実施の形態5におけるデータ検査装置100のキーワード記憶部110は、個人情報を形成するキーワードとして、所定の地域ごとに、その所定の地域で使用頻度が高い複数の苗字を記憶する苗字ファイル111を備える。
【0127】
実施の形態5におけるデータ検査装置100は、実施の形態2に記載のデータ検査装置の構成に加えて、さらに、検査対象データの文字列が、検出すべきキーワードであるかを判定する補助情報を記憶する判定補助ファイル160を備え、データサーチ部131は判定補助ファイル160に記憶された補助情報を用いて、検出すべきキーワードであるかを判定する。
【0128】
苗字登録部140は、苗字の統計データを有する統計データベース200にアクセスして、所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が所定の数以上になる確率に基づいて決定される数以下の苗字を選択して、苗字ファイル111に登録する。
【0129】
キーワード記憶部110は、苗字登録部140が選択した、その所定の地域で使用頻度が高い複数の苗字を、所定の地域ごとに、個人情報を形成するキーワードとして、苗字ファイル111に記憶する。
【0130】
判定補助ファイル160は、テキストデータに記載されている用語が、検出すべき苗字であるか否かを判定する際の補助となる情報を記憶する。
【0131】
データサーチ部131は、判定補助ファイル160が記憶している補助となる情報を用いて、テキストデータに記載されている用語が、検出すべき苗字であるか否かを判定する。
【0132】
苗字登録部140による苗字ファイル111への選択した苗字の登録は、実施の形態2のデータ検査方法で述べたデータサーチ工程に先立って行われるものである。その結果、キーワード記憶部110の苗字ファイル111には、苗字登録部140が選択した苗字(所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が所定の数以上になる確率に基づいて決定される数以下の苗字)が登録される。
【0133】
判定補助ファイル160に記憶されている補助となる情報は、データサーチ部131がテキストデータから苗字を検出する際に、テキストデータに記載されている用語が苗字であることを識別するために利用される。
【0134】
例えば、「山口」や「福島」などの苗字であるか県名であるかの判別が難しい用語であっても、「氏」や「さん」などの補助となる情報と共にあれば苗字であると判定でき、「県」や「市」などの補助となる情報と共にあれば県や市の名称であると判定できる。
【0135】
この実施の形態によれば、データ検査装置100は苗字登録部140を用いて、苗字の統計データを有する統計データベース200にアクセスして、所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が所定の数以上になる確率に基づいて決定される数以下の苗字を読み出し、苗字ファイル111に登録することができる。そして、データ検査装置100は、苗字ファイル111に登録した所定の地域で使用頻度が高い上位の苗字を、テキストデータに含まれる苗字を検出する際に利用することができる。
【0136】
この実施の形態によれば、データ検査装置100は、個人情報を形成するキーワードとして、キーワード記憶部110が備える苗字ファイル111に記憶された所定の地域ごとに、その所定の地域で使用頻度が高い複数の苗字を利用することができる。そして、苗字ファイル111に登録した所定の地域で使用頻度が高い上位の苗字を、テキストデータに含まれる苗字を検出する際に利用することができる。
【0137】
この実施の形態によれば、データ検査装置100のデータサーチ部131は、判定補助ファイル160に記憶された検出すべきキーワードであるかを判定する補助情報を用いて、検査対象データの用語が検出すべきキーワードであるかを判定することができる。その結果、「山口」や「福島」などの、苗字であるか県名であるかを判別することが難しい名称についても、正しく識別することができるようになる。
【0138】
前記した各実施の形態では個人情報の例として苗字と住所を取り上げて説明したが、これらの実施の形態で検出する対象は、個人情報に限定されるものではなく、メールアドレス、資産情報、蔵書の情報、商品の情報、顧客情報、ペットの情報、技術情報、医療情報、書籍情報、音楽情報、経済情報、事件情報などのようなテキストデータなどのデータファイルに含まれる特定の情報でも検出することが可能である。
【0139】
図13は、前記した各実施の形態におけるデータ検査装置100のハードウェア構成を示す図である。
データ検査装置100は、プログラムを実行するCPU(Central Processing Unit)911を備えている。CPU911は、バス912を介してROM913、RAM914、通信ボード915、CRT表示装置901、キーボード(K/B)902、マウス903、FDD(Flexible Disk Drive)904、磁気ディスク装置920、CDD(Compact Disk Drive)905、プリンタ装置906、スキャナ装置907と接続されている。
【0140】
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。
【0141】
通信ボード915は、FAX機、電話器、LAN等に接続されている。例えば、通信ボード915、K/B902、FDD904などは、情報入力部の一例である。また、例えば、通信ボード915、スキャナ装置907、CRT表示装置901などは、出力部の一例である。
【0142】
ここで、通信ボード915は、LANに限らず、直接、インターネット、或いはISDN等のWAN(ワイドエリアネットワーク)に接続されていても構わない。直接、インターネット、或いはISDN等のWANに接続されている場合、データ検査装置100は、インターネット、或いはISDN等のWANに接続され、ウェブサーバは不用となる。
【0143】
磁気ディスク装置920には、オペレーティングシステム(OS)921、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923は、CPU911、OS921、ウィンドウシステム922により実行される。
【0144】
上記プログラム群923には、各機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、各ファイルが記憶されている。
また、前記した実施の形態で説明したフローチャートの矢印の部分は主としてデータの入出力を示し、そのデータの入出力のためにデータは、磁気ディスク装置920、FD(Flexible Disk)、光ディスク、CD(コンパクトディスク)、MD(ミニディスク)、DVD(Digital Versatile Disk)等のその他の記録媒体に記録される。あるいは、信号線やその他の伝送媒体により伝送される。
【0145】
また、データ検査装置100は、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、ハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。
【0146】
また、プログラムは、また、磁気ディスク装置920、FD(Flexible Disk)、光ディスク、CD(コンパクトディスク)、MD(ミニディスク)、DVD(Digital Versatile Disk)等のその他の記録媒体による記録装置を用いて記憶されても構わない。
【図面の簡単な説明】
【0147】
【図1】実施の形態1におけるデータ検査装置の構成を示す図である。
【図2】実施の形態1におけるデータ検査方法を示すフローチャートである。
【図3】実施の形態1における苗字プリセット数(横軸)と名簿であると判定される率(縦軸)との関係を示すグラフである。
【図4】実施の形態1における名簿苗字ファイルに用意しなくてはならない苗字数を求めるための図である(左図がr=5の場合)。
【図5】実施の形態1における名簿苗字ファイルに用意しなくてはならない苗字数を求めるための図である(左図がr=10の場合)。
【図6】実施の形態2におけるデータ検査装置の構成を示す図である。
【図7】実施の形態2におけるデータ検査方法を示すフローチャートである。
【図8】実施の形態3におけるデータ検査装置の構成を示す図である。
【図9】実施の形態3におけるデータ検査方法を示すフローチャートである。
【図10】実施の形態4におけるデータ検査装置の構成を示す図である。
【図11】実施の形態4におけるデータ検査方法を示すフローチャートである。
【図12】実施の形態5におけるデータ検査装置の構成を示す図である。
【図13】データ検査装置100のハードウェア構成を示す図である。
【符号の説明】
【0148】
100 データ検査装置、110 キーワード記憶部、111 苗字ファイル、112 都道府県名ファイル、113 市区町村名ファイル、120 データファイル、130 テキスト検索部、131 データサーチ部、132 個人情報判定部、133 警告出力部、134 近接関係検出部、140 苗字登録部、150 ファイル変換部、160 判定補助ファイル、200 統計データベース、300 文書ファイル、901 CRT表示装置、902 キーボード(K/B)、903 マウス、904 FDD、905 CDD、906 プリンタ装置、907 スキャナ装置、911 CPU、912 バス、913 ROM、914 RAM、915 通信ボード、920 磁気ディスク装置、921 OS、922 ウィンドウシステム、923 プログラム群、924 ファイル群。

【特許請求の範囲】
【請求項1】
個人情報を形成するキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ部と、
データサーチ部が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とするデータ検査装置。
【請求項2】
個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部と、
データサーチ部が検出した複数種類のキーワードの検出場所が近接しており、かつ、データサーチ部が検出した少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とするデータ検査装置。
【請求項3】
上記キーワード記憶部は、個人情報を形成するキーワードとして、複数の苗字を記憶する苗字ファイルを備えたことを特徴とする請求項1又は2に記載のデータ検査装置。
【請求項4】
上記苗字ファイルは、個人別および世帯別とのいずれかについて、使用頻度が高い上位の苗字を記憶することを特徴とする請求項3記載のデータ検査装置。
【請求項5】
上記苗字ファイルは、A件以上の苗字が含まれている検査対象データに苗字の検出件数がB件以上あることを検出して検査対象データにC%以上の確率で個人情報が含まれていると判定するために、使用頻度が高い上位の苗字を、A件とB件とC%とにより決定されるD件数だけ、記憶することを特徴とする請求項3記載のデータ検査装置。
【請求項6】
上記苗字ファイルは、所定の地域で使用頻度が高い上位200件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が5件以上あることを検出することにより、上記データ検査装置は、50件以上の苗字が含まれている検査対象データに対して98%以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする請求項3記載のデータ検査装置。
【請求項7】
上記苗字ファイルは、所定の地域で使用頻度が高い上位100件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が5件以上あることを検出することにより、上記データ検査装置は、50件以上の苗字が含まれている検査対象データに対して95%以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする請求項3記載のデータ検査装置。
【請求項8】
上記苗字ファイルは、所定の地域で使用頻度が高い上位50件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が5件以上あることを検出することにより、上記データ検査装置は、50件以上の苗字が含まれている検査対象データに対して90%以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする請求項3記載のデータ検査装置。
【請求項9】
上記データ検査装置は、さらに、苗字の統計データを有する統計データベースにアクセスして、所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が上記所定の数以上になる確率に基づいて決定される数以下の苗字を、上記苗字ファイルに登録する苗字登録部を備えたことを特徴とする請求項1又は2に記載のデータ検査装置。
【請求項10】
上記データ検査装置は、さらに、データサーチ部が読み込むことができない形式のファイルを、データサーチ部が読み込むことができる形式のファイルに変換して、検査対象データを記憶したデータファイルとして出力するファイル変換部を備えたことを特徴とする請求項1又は2に記載のデータ検査装置。
【請求項11】
上記キーワード記憶部は、個人情報を形成するキーワードとして、所定の地域ごとに、その所定の地域で使用頻度が高い複数の苗字を記憶する苗字ファイルを備えたことを特徴とする請求項1又は2に記載のデータ検査装置。
【請求項12】
上記データサーチ部は、データファイルを構成する構成部分ごとにキーワードを検出するとともに、
上記個人情報判定部は、データファイルの構成部分に対応して所定の数を変更することを特徴とする請求項1又は2に記載のデータ検査装置。
【請求項13】
上記データ検査装置は、さらに、検査対象データの用語が、検出すべきキーワードであるかを判定する補助情報を記憶する判定補助ファイルを備え、
上記データサーチ部は、判定補助ファイルに記憶された補助情報を用いて、検出すべきキーワードであるかを判定することを特徴とする請求項1又は2に記載のデータ検査装置。
【請求項14】
個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部と、
データサーチ部が検出した複数種類のキーワードの検出場所が近接している場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とするデータ検査装置。
【請求項15】
データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ工程と、
データサーチ工程で検出したキーワードの検出件数が所定の数以上の場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定工程でデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とするデータ検査方法。
【請求項16】
データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、
近接関係検出部が、データサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、
近接関係検出工程で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定工程でデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とするデータ検査方法。
【請求項17】
データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、
近接関係検出部が、データサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、
近接関係検出工程が複数種類のキーワードの検出場所が近接していることを検出した場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とするデータ検査方法。
【請求項18】
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ処理と、
データサーチ処理で検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
個人情報判定処理でデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とするデータ検査プログラム。
【請求項19】
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、
データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、
近接関係検出処理で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
個人情報判定処理でデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とするデータ検査プログラム。
【請求項20】
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、
データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、
近接関係検出処理が複数種類のキーワードの検出場所が近接していることを検出した場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
データファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とするデータ検査プログラム。
【請求項21】
特定の情報を形成するキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ部と、
データサーチ部が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに特定の情報が含まれていると判定する特定情報判定部と、
特定情報判定部がデータファイルに特定の情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とするデータ検査装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2006−23865(P2006−23865A)
【公開日】平成18年1月26日(2006.1.26)
【国際特許分類】
【出願番号】特願2004−199896(P2004−199896)
【出願日】平成16年7月6日(2004.7.6)
【出願人】(591102095)三菱スペース・ソフトウエア株式会社 (148)
【Fターム(参考)】