データ検査装置、データ検査方法

【課題】データファイルから検出したキーワードが所定の条件を満たすか否かを検査することにより、そのデータファイルに特定の情報が含まれているか否かを判定し、その特定の情報を検出する検出技術を提供することを目的とする。
【解決手段】データ検査装置は、個人情報を形成するキーワードを記憶するキーワード記憶部と、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ部と、検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、データファイルに個人情報が含まれていると判定した場合に、警告信号を出力する警告出力部とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、テキストデータなどのデータファイルからキーワードを検出する技術に関する。特に、データファイルから検出したキーワードが所定の条件を満たす場合、そのデータファイルに目的とする情報が含まれていると判定する検出技術に関する。
【背景技術】
【０００２】
コンピュータにキーワードを入力することにより、テキストデータなどのデータファイルから、そのキーワードを検出する技術（以後、「キーワード検出技術」と言う）がある。このキーワード検出技術は、汎用のワードプロセッサソフトウェアでも用いられている技術であり、この技術を用いたのテキスト検索機能は、通常の文章作成作業においてもよく利用される機能である。
【非特許文献１】“参考資料２：日本の人口・世帯数の将来推計”、［ｏｎｌｉｎｅ］、平成１６年１月１９日、第２回地球温暖化対策技術検討会、［平成１６年６月２５日検索］、インターネット＜ｈｔｔｐ：／／ｗｗｗ．ｅｎｖ．ｇｏ．ｊｐ／ｅａｒｔｈ／ｇｉｊｙｕｔｓｕ＿ｋ／０２／＞
【非特許文献２】“日本の姓の全国順位データベース”、［ｏｎｌｉｎｅ］、静岡大学人文学部言語文化学科比較言語文化コース言語学分野城岡研究室、［平成１６年６月２５日検索］、インターネット＜ｈｔｔｐ：／／ｗｗｗ．ｉｐｃ．ｓｈｉｚｕｏｋａ．ａｃ．ｊｐ／〜ｊｊｋｓｉｒｏ／ｓｈｉｒｏ．ｈｔｍｌ＞
【非特許文献３】“国土交通省有資格者名簿”、［ｏｎｌｉｎｅ］、国土交通省、［平成１６年６月２５日検索］、インターネット＜ｈｔｔｐ：／／ｗｗｗ．ｐｐｉ．ｇｏ．ｊｐ／ｙｕｓｉｋａｋｕ／ｆｒｍ＿ｃｓｌ．ｈｔｍｌ＞
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、従来のキーワード検出技術は、テキストデータなどのデータファイル内に含まれている特定のキーワードを検出するのみであり、データファイル内に目的とする特定の情報が含まれているか否かまでは判定することができなかった。
【０００４】
本発明は、この問題を鑑みてなされたものであり、データファイルから検出したキーワードが所定の条件を満たすか否かを検査することにより、そのデータファイルに特定の情報が含まれているか否かを判定し、その特定の情報を検出する検出技術を提供することを目的とする。
【課題を解決するための手段】
【０００５】
前記した課題を解決するためデータ検査装置は、個人情報を形成するキーワードを記憶するキーワード記憶部と、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ部と、データサーチ部が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、個人情報判定部がデータファイルに個人情報が含まれていると判定した場合に、警告信号を出力する警告出力部とを備えることとした。
【０００６】
この発明に係るデータ検査装置は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部と、
データサーチ部が検出した複数種類のキーワードの検出場所が近接しており、かつ、データサーチ部が検出した少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とする。
【０００７】
上記キーワード記憶部は、個人情報を形成するキーワードとして、複数の苗字を記憶する苗字ファイルを備えたことを特徴とする。
【０００８】
上記苗字ファイルは、個人別および世帯別とのいずれかについて、使用頻度が高い上位の苗字を記憶することを特徴とする。
【０００９】
上記苗字ファイルは、Ａ件以上の苗字が含まれている検査対象データに苗字の検出件数がＢ件以上あることを検出して検査対象データにＣ％以上の確率で個人情報が含まれていると判定するために、使用頻度が高い上位の苗字を、Ａ件とＢ件とＣ％とにより決定されるＤ件数だけ、記憶することを特徴とする。
【００１０】
上記苗字ファイルは、所定の地域で使用頻度が高い上位２００件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が５件以上あることを検出することにより、上記データ検査装置は、５０件以上の苗字が含まれている検査対象データに対して９８％以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする。
【００１１】
上記苗字ファイルは、所定の地域で使用頻度が高い上位１００件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が５件以上あることを検出することにより、上記データ検査装置は、５０件以上の苗字が含まれている検査対象データに対して９５％以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする。
【００１２】
上記苗字ファイルは、所定の地域で使用頻度が高い上位５０件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が５件以上あることを検出することにより、上記データ検査装置は、５０件以上の苗字が含まれている検査対象データに対して９０％以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする。
【００１３】
上記データ検査装置は、さらに、苗字の統計データを有する統計データベースにアクセスして、所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が上記所定の数以上になる確率に基づいて決定される数以下の苗字を、上記苗字ファイルに登録する苗字登録部を備えたことを特徴とする。
【００１４】
上記データ検査装置は、さらに、データサーチ部が読み込むことができない形式のファイルを、データサーチ部が読み込むことができる形式のファイルに変換して、検査対象データを記憶したデータファイルとして出力するファイル変換部を備えたことを特徴とする。
【００１５】
上記キーワード記憶部は、個人情報を形成するキーワードとして、所定の地域ごとに、その所定の地域で使用頻度が高い複数の苗字を記憶する苗字ファイルを備えたことを特徴とする。
【００１６】
上記データサーチ部は、データファイルを構成する構成部分ごとにキーワードを検出するとともに、
上記個人情報判定部は、データファイルの構成部分に対応して所定の数を変更することを特徴とする。
【００１７】
上記データ検査装置は、さらに、検査対象データの用語が、検出すべきキーワードであるかを判定する補助情報を記憶する判定補助ファイルを備え、
上記データサーチ部は、判定補助ファイルに記憶された補助情報を用いて、検出すべきキーワードであるかを判定することを特徴とする。
【００１８】
この発明に係るデータ検査装置は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部と、
データサーチ部が検出した複数種類のキーワードの検出場所が近接している場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とする。
【００１９】
この発明に係るデータ検査方法は、データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ工程と、
データサーチ工程で検出したキーワードの検出件数が所定の数以上の場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定工程でデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とする。
【００２０】
この発明に係るデータ検査方法は、データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、
近接関係検出部が、データサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、
近接関係検出工程で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定工程でデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とする。
【００２１】
この発明に係るデータ検査方法は、データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、
近接関係検出部が、データサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、
近接関係検出工程が複数種類のキーワードの検出場所が近接していることを検出した場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とする。
【００２２】
この発明に係るデータ検査プログラムは、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ処理と、
データサーチ処理で検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
個人情報判定処理でデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とする。
【００２３】
この発明に係るデータ検査プログラムは、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、
データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、
近接関係検出処理で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
個人情報判定処理でデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とする。
【００２４】
この発明に係るデータ検査プログラムは、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、
データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、
近接関係検出処理が複数種類のキーワードの検出場所が近接していることを検出した場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
データファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とする。
【発明の効果】
【００２５】
この発明によればデータ検査装置は、個人情報を形成するキーワードを記憶するキーワード記憶部を備えており、データサーチ部が検査対象データを記憶したデータファイルから検査対象データを読み込んだ後、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして検査対象データ内にあるキーワードを検出し、個人情報判定部がデータサーチ部が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定し、警告出力部が個人情報判定部がデータファイルに個人情報が含まれていると判定した場合に、警告信号を出力することができる。
【発明を実施するための最良の形態】
【００２６】
実施の形態では、苗字や都道府県名などをキーワードとし、名簿を個人情報とし、テキストデータを検査対象データとした場合について述べる。
【００２７】
実施の形態１．
以下に述べる実施の形態１では、データ検査装置が、苗字が記載された名簿を含んでいる可能性のあるテキストデータの検査を行い、その中に苗字が所定の数以上存在する場合、テキストデータは名簿を含んでいると判定する実施の形態について説明する。
【００２８】
図１は、実施の形態１におけるデータ検査装置の構成を示す図である。
データ検査装置１００は、個人情報を形成するキーワードを記憶するキーワード記憶部１１０と、検査対象データを記憶したデータファイル１２０から検査対象データを読み込み、キーワード記憶部１１０に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ部１３１と、データサーチ部１３１が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部１３２と、個人情報判定部１３２がデータファイルに個人情報が含まれていると判定した場合に、警告信号を出力する警告出力部１３３とを備える。
【００２９】
データ検査装置１００のデータサーチ部１３１と個人情報判定部１３２と警告出力部１３３とは、テキスト検索部１３０を構成している。
【００３０】
データ検査装置１００のキーワード記憶部１１０は、個人情報を形成するキーワードとして、複数の苗字を記憶する苗字ファイル１１１を備える。
【００３１】
キーワード記憶部１１０の苗字ファイル１１１は、複数の苗字を記憶する。データファイル１２０は、テキストデータを記憶する。データサーチ部１３１は、キーワード記憶部１１０の苗字ファイル１１１に記憶された苗字を用いて、テキストデータをサーチして、テキストデータ内にある苗字を検出する。個人情報判定部１３２は、データサーチ部１３１が検出した苗字の件数が所定の数以上の場合、そのデータファイルが記憶するテキストデータに名簿が含まれていると判定する。警告出力部１３３は、そのデータファイルが記憶するテキストデータに名簿が含まれていると個人情報判定部１３２が判定した場合、警告信号を出力する。
【００３２】
次に、テキストデータを検査し、そこから所定の数以上の苗字を検出した場合、テキストデータに名簿が含まれていると判定するデータ検査方法を説明する。
【００３３】
実施の形態１におけるデータ検査方法は、データサーチ部１３１が検査対象データを記憶したデータファイル１２０から検査対象データを読み込み、キーワード記憶部１１０に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ工程と、データサーチ工程で検出したキーワードの検出件数が所定の数以上の場合、個人情報判定部１３２が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、個人情報判定工程でデータファイルに個人情報が含まれていると判定した場合、警告出力部１３３が、警告信号を出力する警告出力工程とを実行する。
【００３４】
また、データ検査プログラムは、検査対象データを記憶したデータファイル１２０から検査対象データを読み込み、キーワード記憶部１１０に記憶されたキーワードを用いて検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ処理と、データサーチ処理で検出したキーワードの検出件数が所定の数以上の場合、そのデータファイル１２０に個人情報が含まれていると判定する個人情報判定処理と、個人情報判定処理でデータファイル１２０に個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理とをコンピュータに実行させることにより、実施の形態１におけるデータ検査方法を実現する。
【００３５】
実施の形態１におけるデータ検査方法を図２に示すフローチャートを用いて詳細に説明する。
まず、データ検査方法で用いる条件を説明する。
（苗字検出の条件）
テキストデータ内の文字列が苗字ファイル１１１に用意された苗字と一致した場合、その文字列は苗字であると判定し検出する。
（名簿であることの判定条件）
テキストデータから検出された苗字が所定の数ｒ（ｒは１以上の整数）以上含まれている場合、テキストデータに名簿が含まれると判定する。
【００３６】
データファイル１２０には、検査対象データであるテキストデータが記憶されている。また、キーワード記憶部１１０には、苗字が所定数記憶されている。
【００３７】
データサーチ部１３１は、データファイル１２０からテキストデータを読み込み、キーワード記憶部１１０から読み込んだ苗字を用いて、テキストデータ内をサーチし、読み込んだ苗字と同じ苗字を検出する。（ステップＳ１００）。これがデータサーチ工程である。
【００３８】
個人情報判定部１３２は、サーチした結果、検出した苗字の件数がｒ以上であるか否かを判断する（ステップＳ１０１）。検出した苗字の件数がｒ以上でなかった場合（ステップＳ１０１のＮｏの場合）、処理を終了する。検出した苗字の件数がｒ以上である場合（ステップＳ１０１のＹｅｓの場合）、個人情報判定部１３２は、テキストデータに名簿が含まれていると判定する（ステップＳ１０２）。これが個人情報判定工程である。
【００３９】
次に、ステップＳ１０２でテキストデータに名簿が含まれていると判定された場合、警告出力部１３３は、警告信号を出力して処理を終了する（ステップＳ１０３）。これが警告出力工程である。
【００４０】
データ検査方法において、テキストデータが名簿を含んでいるか否かを判定するためには、名簿とそれ以外の情報を識別する必要がある。名簿を識別する手段の一つに、その中に含まれる苗字を検出する方法がある。この方法を用いて名簿を正確に識別するためには、苗字を苗字であると正確に検出する必要がある。
【００４１】
苗字を正確に検出するためには、理想的には、前記したデータ検査装置１００の苗字ファイル１１１に、全ての苗字を用意しておけば、それらとテキストデータとをそれぞれ照合することにより、漏れなく苗字を検出することが可能となる。理想的ではないにしろ、用意する苗字の数が多いほど、高い確率で苗字を検出することができる。
【００４２】
例えば、約１０万種類ある日本国内の全苗字を苗字ファイル１１１に用意すれば、テキストデータ内に記載されている苗字を苗字であると判定して検出する確率は１となる。逆に苗字ファイル１１１に用意された苗字の数が不足している場合は、テキストデータ内に苗字があったとしても、苗字であるとは判定されない可能性が生じる。
【００４３】
このように漏れなくまたは高い確率で苗字を検出することができれば、検出した苗字が所定の数以上揃うことにより、テキストデータには名簿が含まれていると判定することができる。
【００４４】
しかしながら、コンピュータの性能には限界があり、日本国内の全苗字とテキストデータとを照合することは困難である。そこで、現実的な処理時間で苗字を検出するためには、苗字ファイル１１１に用意する苗字の数（以後、「苗字プリセット数」と呼ぶ）を制限する必要がある。
【００４５】
苗字プリセット数を制限した場合に、一つの苗字を苗字であると検出する確率ｐは（１）式で算出することができる。
【００４６】
【数１】

【００４７】
ここで、Ｎ_ｐｒｅは苗字プリセット数、Ｎ_ａｌｌは全ての苗字数である。
【００４８】
しかし、実際には、苗字ごとに使用頻度に違いがあることから、名簿には使用頻度の高い苗字ほど多数出現することが多い。そこで、検出する確率を上げるために、苗字ファイルにも、個人別および世帯別とのいずれかについて、使用頻度が高い上位の苗字を記憶することとした。
【００４９】
苗字ファイルに世帯別の使用頻度が高い上位の苗字を記憶した場合、一つの苗字を苗字であると検出する確率ｐは（２）式で算出することができる。
【００５０】
【数２】

【００５１】
ここで、ΣＳＴ_ｐｒｅは、苗字ファイル１１１に苗字プリセット数Ｎ_ｐｒｅだけ用意した各苗字の世帯数ＳＴ_ｐｒｅの和であり、ＳＴ_ａｌｌは全ての世帯数である。
【００５２】
次に、（２）式に示す確率でテキストデータの中から苗字であるとして検出された苗字がｒ件以上となる確率、すなわち、テキストデータに名簿が含まれている確率（名簿判定確率）Ｐｄは（３）式で算出できる。
【００５３】
【数３】

【００５４】
ここで、ｎはテキストデータ内に含まれる苗字の数である。
【００５５】
図３に、２０件、５０件、１００件の苗字が記載されたそれぞれの名簿を検査する場合において、以下の（ａ）、（ｂ）、（ｃ）の場合について、苗字プリセット数（横軸）と名簿であると判定される率（縦軸）との関係をグラフに示す。
（ａ）（２）式と（３）式から名簿判定確率を算出した場合（理論計算値：点線）。
（ｂ）日本国内で調査した多い苗字から任意に１０件、５０件、１００件、２００件、５００件（「苗字プリセット数」に相当する）の苗字を選び出し、選び出したそれぞれの件数の苗字を記載した苗字ファイル１１１を用いて実験によりテキストデータが名簿であると判定される率を求めた場合（理想的な名簿による試験データ：実線）。
（ｃ）実際に用いられている名簿に記載されている苗字から任意に１０件、５０件、１００件、２００件、５００件（「苗字プリセット数」に相当する）の苗字を選び出し、選び出したそれぞれの件数の苗字を記載した苗字ファイル１１１を用いて実験によりテキストデータが名簿であると判定される率を求めた場合（実際の名簿による試験データ：破線）。
【００５６】
ここで、（ａ）においては、（２）式を用いて一つの苗字を苗字であると検出する確率ｐを求める際に、全ての世帯数ＳＴ_ａｌｌには非特許文献１のデータ（国内の全世帯数＝４６７８００００）を利用し、苗字ファイル１１１に苗字プリセット数Ｎ_ｐｒｅだけ用意した各苗字の世帯数ＳＴ_ｐｒｅの和ΣＳＴ_ｐｒｅには、非特許文献２の中の使用頻度が高い上位の苗字の世帯数の和を利用している。また、（ｂ）においては、日本国内で調査した多い苗字として、非特許文献２の中の使用頻度が高い上位の苗字を利用している。（ｃ）においては、実際に用いられている名簿に記載されている苗字として、非特許文献３に記載されている苗字を利用している。
【００５７】
図３からは、キーワード記憶部１１０が備える苗字ファイル１１１は、所定の地域で使用頻度が高い上位２００件の苗字を記憶し、データ検査装置１００の個人情報判定部１３２は、苗字の検出件数が５件以上あることを検出することにより、データ検査装置１００は、５０件以上の苗字が含まれている検査対象データに対して９８％以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【００５８】
また、図３からは、キーワード記憶部１１０が備える苗字ファイル１１１は、所定の地域で使用頻度が高い上位１００件の苗字を記憶し、データ検査装置１００の個人情報判定部１３２は、苗字の検出件数が５件以上あることを検出することにより、データ検査装置１００は、５０件以上の苗字が含まれている検査対象データに対して９５％以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【００５９】
また、図３からは、キーワード記憶部１１０が備える苗字ファイル１１１は、所定の地域で使用頻度が高い上位５０件の苗字を記憶し、データ検査装置１００の個人情報判定部１３２は、苗字の検出件数が５件以上あることを検出することにより、データ検査装置１００は、５０件以上の苗字が含まれている検査対象データに対して９０％以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【００６０】
以上より、理論計算値と理想的な名簿による試験データと実際の名簿による試験データは、ほぼ一致しており、テキストデータに名簿が含まれている確率（名簿判定確率）Ｐｄの算出方法は正しいと言える。
【００６１】
逆に、一定以上の確率でテキストデータの中からｒ件以上の苗字を検出するためには、苗字ファイル１１１に所定の数以上の苗字を用意する必要がある。
【００６２】
このため、キーワード記憶部１１０が備える苗字ファイル１１１は、Ａ件以上の苗字が含まれている検査対象データに苗字の検出件数がＢ件以上あることを検出して検査対象データにＣ％以上の確率で個人情報が含まれていると判定するために、使用頻度が高い上位の苗字を、Ａ件とＢ件とＣ％とにより決定されるＤ件数だけ記憶するようにする。
【００６３】
具体的には、苗字ファイル１１１に用意しなくてはならない苗字数は、図４と図５を用いて求めることができる。図４は、名簿であると判定するために必要となるテキストデータから検出された苗字の数がｒ＝５以上含まれている場合であり、図５はｒ＝１０以上含まれている場合である。
【００６４】
図４と図５の左図は前記した（３）式から求めたグラフであり、テキストデータ内の苗字数（横軸）と、一つの苗字を苗字であると検出する確率ｐ（縦軸）との関係を各名簿判定確率Ｐｄ毎に示している。また、図４と図５の右図は前記した（２）式から求めたグラフであり、苗字プリセット数Ｎ_ｐｒｅ（横軸）と、一つの苗字を苗字であると検出する確率ｐ（縦軸）との関係を示している。なお、全ての苗字数Ｎ_ａｌｌには非特許文献１のデータを利用し、苗字プリセット数Ｎ_ｐｒｅには、非特許文献２のデータを利用している。
【００６５】
図４と図５を用いて苗字プリセット数Ｎ_ｐｒｅを決定する方法を説明する。
（１）テキストファイル内に何件苗字があったら名簿と判定するかを決定する。（ｒを決定する。図４の左図ではｒ＝５、図５の左図ではｒ＝１０としてある。）
（２）対象とする名簿規模（テキストファイル内の苗字数）を決定する。（ｎを決定する。例として、ｎ＝５０を選択し、太線矢印で示してある。）
（３）名簿判定確率を決定する。（Ｐｄを決定する。例として、Ｐｄ＝９９．９％を選択し、太線矢印で示してある。）
（４）（１）〜（３）によりｐが決定される。（例では、ｒ＝５の場合ｐ＝０．３０、ｒ＝１０の場合ｐ＝０．４２となる。）
（５）右のグラフより、（４）で決定されたｐにおけるＮ_ｐｒｅを求める。（例では、ｒ＝５の場合、Ｎ_ｐｒｅは２１０件、ｒ＝１０の場合、Ｎ_ｐｒｅは６１０件となる。）
【００６６】
従って、ｒ＝５では、典型的な１位〜２１０位の苗字を苗字ファイル１１１に用意すれば十分であることがわかり、ｒ＝１０では、典型的な１位〜６１０位の苗字を苗字ファイルに用意すれば十分であることがわかる。
【００６７】
この実施の形態によれば、データ検査装置１００は、個人情報を形成するキーワードを記憶するキーワード記憶部１１０を備えており、データサーチ部１３１が検査対象データを記憶したデータファイル１２０から検査対象データを読み込んだ後、キーワード記憶部１１０に記憶されたキーワードを用いて検査対象データをサーチして検査対象データ内にあるキーワードを検出し、個人情報判定部１３２がデータサーチ部１３１が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイル１２０に個人情報が含まれていると判定し、個人情報判定部１３２がデータファイルに個人情報が含まれていると判定した場合、警告出力部１３３が警告信号を出力することができる。また、データ検査方法をプログラムで実現することにより、コンピュータをデータ検査装置１００とすることができる。その結果、データ検査装置１００は、テキストデータに含まれる名簿を検出することが可能となる。
【００６８】
この実施の形態によれば、データ検査装置１００のデータサーチ部１３１は、テキストデータに含まれる苗字を検出するに際に、キーワード記憶部１１０の苗字ファイル１１１に個人情報を形成するキーワードとして記憶された複数の苗字を利用することができる。
【００６９】
この実施の形態によれば、データ検査装置１００は、キーワード記憶部１１０の苗字ファイル１１１に使用頻度が高い上位の苗字を、Ａ件とＢ件とＣ％とにより決定されるＤ件数だけ記憶することにより、Ａ件以上の苗字が含まれている検査対象データに苗字の検出件数がＢ件以上あることを検出して検査対象データにＣ％以上の確率で個人情報が含まれていると判定することができる。
【００７０】
この実施の形態によれば、データ検査装置１００は、キーワード記憶部１１０の苗字ファイル１１１に所定の地域で使用頻度が高い上位２００件の苗字を記憶し、個人情報判定部１３２が苗字の検出件数が５件以上あることを検出することにより、５０件以上の苗字が含まれている検査対象データに対して、９８％以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【００７１】
この実施の形態によれば、データ検査装置１００は、キーワード記憶部１１０の苗字ファイル１１１に所定の地域で使用頻度が高い上位１００件の苗字を記憶し、個人情報判定部１３２が苗字の検出件数が５件以上あることを検出することにより、５０件以上の苗字が含まれている検査対象データに対して、９５％以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【００７２】
この実施の形態によれば、データ検査装置１００は、キーワード記憶部１１０の苗字ファイル１１１に所定の地域で使用頻度が高い上位５０件の苗字を記憶し、個人情報判定部１３２が苗字の検出件数が５件以上あることを検出することにより、５０件以上の苗字が含まれている検査対象データに対して、９０％以上の確率で検査対象データに個人情報が含まれていると判定することができる。
【００７３】
実施の形態２．
実施の形態２では、データ検査装置が苗字や住所などが記載された名簿を含んでいる可能性のあるテキストデータの検査を行い、検出された苗字や住所などの記載位置が近接している場合、テキストデータは名簿を含んでいると判定する実施の形態について説明する。
【００７４】
図６は、実施の形態２におけるデータ検査装置の構成を示す図である。
データ検査装置１００は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部１１０と、検査対象データを記憶したデータファイル１２０から検査対象データを読み込み、キーワード記憶部１１０に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部１３１と、データサーチ部１３１が検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出部１３４と、近接関係検出部１３４が複数種類のキーワードの検出場所が近接していることを検出した場合、そのデータファイル１２０に個人情報が含まれていると判定する個人情報判定部１３２と、個人情報判定部１３２がデータファイル１２０に個人情報が含まれていると判定した場合に、警告信号を出力する警告出力部１３３とを備える。
【００７５】
データ検査装置１００のデータサーチ部１３１と個人情報判定部１３２と警告出力部１３３とは、テキスト検索部１３０を構成している。
【００７６】
データ検査装置１００のキーワード記憶部１１０は、個人情報を形成するキーワードとして、複数の苗字を記憶する苗字ファイル１１１と、各都道府県名を記憶する都道府県名ファイル１１２と、各市区町村名を記憶する市区町村名ファイル１１３とを備える。
【００７７】
キーワード記憶部１１０の苗字ファイル１１１は複数の苗字を記憶し、都道府県名ファイル１１２は各都道府県名を記憶し、市区町村名ファイル１１３は各市区町村名を記憶する。
【００７８】
データファイル１２０は、テキストデータを記憶する。データサーチ部１３１は、キーワード記憶部１１０の苗字ファイル１１１に記憶された苗字と、都道府県名ファイル１１２に記憶された都道府県名を用いて、テキストデータをサーチして、テキストデータ内にある苗字と住所を検出する。都道府県名ファイル１１２に代えて市区町村名ファイル１１３であってもよい。近接関係検出部１３４は、データサーチ部１３１が検出した苗字と都道府県名の検出場所が近接していることを検出する。個人情報判定部１３２は、データサーチ部１３１が苗字と都道府県名の検出場所が近接していることを検出した場合、そのデータファイルが記憶するテキストデータに名簿が含まれていると判定する。警告出力部１３３は、そのテキストデータに名簿が含まれていると個人情報判定部１３２が判定した場合、警告信号を出力する。
【００７９】
次に、テキストデータから苗字と住所を検出し、それらを検出した場所が近接していた場合、テキストデータに名簿が含まれていると判定するデータ検査方法を説明する。
【００８０】
実施の形態２におけるデータ検査方法は、データサーチ部１３１が検査対象データを記憶したデータファイル１２０から検査対象データを読み込み、キーワード記憶部１１０に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、近接関係検出部１３４がデータサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、近接関係検出工程で複数種類のキーワードの検出場所が近接していることを検出した場合、個人情報判定部１３２が、そのデータファイル１２０に個人情報が含まれていると判定する個人情報判定工程と、個人情報判定部１３２がデータファイル１２０に個人情報が含まれていると判定した場合、警告出力部１３３が警告信号を出力する警告出力工程とを実行する。
【００８１】
また、データ検査プログラムは、検査対象データを記憶したデータファイル１２０から検査対象データを読み込み、キーワード記憶部１１０に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、近接関係検出処理が複数種類のキーワードの検出場所が近接していることを検出した場合、そのデータファイル１２０に個人情報が含まれていると判定する個人情報判定処理と、データファイル１２０に個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理とをコンピュータに実行させることにより、実施の形態２におけるデータ検査方法を実現する。
【００８２】
実施の形態２におけるデータ検査方法を図７に示すフローチャートを用いて詳細に説明する。
まず、データ検査方法で用いる条件を説明する。
（苗字住所検出の条件）
テキストデータ内の文字列が苗字ファイル１１１に用意された苗字か都道府県名ファイル１１２に用意された都道府県名と一致した場合、その文字列は苗字か住所であると判定して検出する。
（名簿であることの判定条件）
テキストデータに検出された苗字と住所を検出した場所が近接していた場合、テキストデータに名簿が含まれていると判定する。
【００８３】
データファイル１２０には、検査対象データであるテキストデータが記憶されている。また、キーワード記憶部１１０の苗字ファイル１１１には苗字が、都道府県名ファイル１２には、都道府県名が記憶されている。
【００８４】
データサーチ部１３１は、データファイル１２０からテキストデータを読み込み、キーワード記憶部１１０の苗字ファイル１１１から読み込んだ苗字か、都道府県名ファイル１２から読み込んだ都道府県名を用いて、テキストデータ内をサーチし、同じ苗字または同じ都道府県名を検出する（ステップＳ２００）。これがデータサーチ工程である。
【００８５】
近接関係検出部１３４は、データサーチ工程で苗字を検出した場所と都道府県名を検出した場所が近接しているか否かを判断する（ステップＳ２０１）。苗字と都道府県名が近接していると判断しなかった場合（ステップＳ２０１のＮｏの場合）、処理を終了する。これが近接関係検出工程である。
【００８６】
苗字を検出した場所と都道府県名を検出した場所が近接しているか否かの判断は、苗字を検出した場所と都道府県名を検出した場所との関係を正規表現により記載したテンプレートと照合することにより行う。
【００８７】
正規表現とは、文字が配置される位置の規則を形式的に表現したものであり、例えば、「苗字の３文字分右に都道府県名が記載される」ということを形式的に記載する。
【００８８】
近接関係検出工程で苗字と都道府県名が近接していると判断した場合（ステップＳ１０１のＹｅｓの場合）、個人情報判定部１３２は、テキストデータに名簿が含まれていると判定する（ステップＳ２０２）。これが個人情報判定工程である。
【００８９】
次に、個人情報判定工程でテキストデータに名簿が含まれていると判定された場合、警告出力部１３３は、警告信号を出力し処理を終了する（ステップＳ２０３）。これが警告出力工程である。
【００９０】
この実施の形態によればデータ検査装置１００は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部１１０を備えており、データサーチ部１３１が検査対象データを記憶したデータファイル１２０から検査対象データを読み込んだ後、キーワード記憶部１１０に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出し、近接関係検出部１３４がデータサーチ部１３１で検出した複数種類のキーワードの検出場所が近接していることを検出し、個人情報判定部１３２が、そのデータファイル１２０に個人情報が含まれていると判定し、個人情報判定部１３２がデータファイル１２０に個人情報が含まれていると判定した場合に、警告出力部１３３が警告信号を出力することができる。また、データ検査方法をプログラムで実現することにより、コンピュータをデータ検査装置１００とすることができる。その結果、データ検査装置１００は、テキストデータに含まれる名簿を検出することが可能となる。
【００９１】
実施の形態３．
実施の形態３では、実施の形態１と実施の形態２を合わせた実施の形態を説明する。すなわち、データ検査装置が、苗字や住所などが記載された名簿を含んでいる可能性のあるテキストデータの検査を行い、検出された苗字や住所などの記載位置が近接しており、かつ、テキストデータの中に苗字または住所が所定の数以上存在する場合、テキストデータは名簿を含んでいると判定する実施の形態について説明する。
【００９２】
図８は、実施の形態３におけるデータ検査装置の構成を示す図である。
データ検査装置１００は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部１１０と、検査対象データを記憶したデータファイル１２０から検査対象データを読み込み、キーワード記憶部１１０に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部１３１と、データサーチ部１３１が検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出部１３４と、近接関係検出部１３４が複数種類のキーワードの検出場所が近接していることを検出し、かつ、データサーチ部１３１が検出した少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイル１２０に個人情報が含まれていると判定する個人情報判定部１３２と、個人情報判定部１３２がデータファイル１２０に個人情報が含まれていると判定した場合に、警告信号を出力する警告出力部１３３とを備える。
【００９３】
データ検査装置１００のデータサーチ部１３１と個人情報判定部１３２と警告出力部１３３とは、テキスト検索部１３０を構成している。
【００９４】
データ検査装置１００のキーワード記憶部１１０は、個人情報を形成するキーワードとして、複数の苗字を記憶する苗字ファイル１１１と、各都道府県名を記憶する都道府県名ファイル１１２と、各市区町村名を記憶する市区町村名ファイル１１３とを備える。
【００９５】
キーワード記憶部１１０の苗字ファイル１１１は複数の苗字を記憶し、都道府県名ファイル１１２は各都道府県名を記憶し、市区町村名ファイル１１３は各市区町村名を記憶する。データファイル１２０は、テキストデータを記憶する。データサーチ部１３１は、キーワード記憶部１１０の苗字ファイル１１１に記憶された苗字と、都道府県名ファイル１１２に記憶された都道府県名を用いて、テキストデータをサーチして、テキストデータ内にある苗字と都道府県名を検出する。都道府県名ファイル１１２に代えて市区町村名ファイル１１３であってもよい。近接関係検出部１３４は、データサーチ部１３１が検出した苗字と都道府県名の検出場所が近接していることを検出する。個人情報判定部１３２は、データサーチ部１３１が苗字と都道府県名の検出場所が近接していることを検出し、かつ、検出した苗字または都道府県名の件数が所定の数以上である場合、そのデータファイルが記憶するテキストデータに名簿が含まれていると判定する。警告出力部１３３は、そのデータファイルが記憶するテキストデータに名簿が含まれていると個人情報判定部１３２が判定した場合、警告信号を出力する。
【００９６】
次に、テキストデータから苗字と住所を検出し、それらを検出した場所が近接しており、かつ、検出した苗字または住所の件数が所定の数以上である場合、テキストデータに名簿が含まれていると判定するデータ検査方法を説明する。
【００９７】
実施の形態３におけるデータ検査方法は、データサーチ部１３１が検査対象データを記憶したデータファイル１２０から検査対象データを読み込み、キーワード記憶部１１０に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、近接関係検出部１３４がデータサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、近接関係検出工程で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、個人情報判定部１３２が、そのデータファイル１２０に個人情報が含まれていると判定する個人情報判定工程と、個人情報判定工程でデータファイル１２０に個人情報が含まれていると判定した場合に、警告出力部１３３が警告信号を出力する警告出力工程とを実行する。
【００９８】
また、データ検査プログラムは、検査対象データを記憶したデータファイル１２０から検査対象データを読み込み、キーワード記憶部１１０に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、近接関係検出処理で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイル１２０に個人情報が含まれていると判定する個人情報判定処理と、個人情報判定処理でデータファイル１２０に個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理とをコンピュータに実行させることにより、実施の形態３におけるデータ検査方法を実現する。
【００９９】
実施の形態３におけるデータ検査方法を図９に示すフローチャートを用いて詳細に説明する。
まず、データ検査方法で用いる条件を説明する。
（苗字住所検出の条件）
テキストデータ内の文字列が苗字ファイル１１１に用意された苗字か都道府県名ファイル１１２に用意された都道府県名と一致した場合、その文字列は苗字か住所であると判定して検出する。
（名簿であることの判定条件）
テキストデータで検出された苗字と住所を検出した場所が近接しており、かつ、検出した苗字または住所の件数が所定の数以上である場合、テキストデータに名簿が含まれていると判定する。
【０１００】
データファイル１２０には、検査対象データであるテキストデータが記憶されている。また、キーワード記憶部１１０の苗字ファイル１１１には苗字が、都道府県名ファイル１２には、都道府県名が記憶されている。
【０１０１】
データサーチ部１３１は、データファイル１２０からテキストデータを読み込み、キーワード記憶部１１０の苗字ファイル１１１から読み込んだ苗字か、都道府県名ファイル１２から読み込んだ都道府県名を用いて、テキストデータ内をサーチし、同じ苗字または同じ都道府県名を検出する（ステップＳ３００）。これがデータサーチ工程である。
【０１０２】
近接関係検出部１３４は、データサーチ工程で苗字を検出した場所と都道府県名を検出した場所が近接しているか否かを判断する（ステップＳ３０１）。苗字と都道府県名が近接していると判断しなかった場合（ステップＳ３０１のＮｏの場合）、処理を終了する。これが近接関係検出工程である。
【０１０３】
苗字を検出した場所と住所を検出した場所が近接しているか否かの判断は、実施の形態２で用いた方法と同じ方法を用いる。
【０１０４】
近接関係検出工程で苗字と都道府県名が近接していると判断した場合（ステップＳ３０１のＹｅｓの場合）、個人情報判定部１３２は、テキストデータから検出した苗字または都道府県名の件数がｒ以上であるか否かを判断する（ステップＳ３０２）。テキストデータから検出した苗字または都道府県名の件数がｒ以上でなかった場合（ステップＳ３０２のＮｏの場合）、処理を終了する。テキストデータから検出した苗字または都道府県名の件数がｒ以上であった場合（ステップＳ３０２のＹｅｓの場合）、テキストデータに名簿が含まれていると判定する（ステップＳ３０３）。これが個人情報判定工程である。
【０１０５】
次に、個人情報判定工程でテキストデータに名簿が含まれていると判定された場合、警告出力部１３３は、警告信号を出力し処理を終了する（ステップＳ３０４）。これが警告出力工程である。
【０１０６】
この実施の形態によればデータ検査装置１００は、個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部１１０を備えており、データサーチ部１３１が検査対象データを記憶したデータファイル１２０から検査対象データを読み込んだ後、キーワード記憶部１１０に記憶された複数種類のキーワードを用いて検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出し、近接関係検出部１３４がデータサーチ部１３１で検出した複数種類のキーワードの検出場所が近接していることを検出し、かつ、データサーチ部１３１が検出した少なくとも一種類のキーワードの検出件数が所定の数以上の場合、個人情報判定部１３２が、そのデータファイル１２０に個人情報が含まれていると判定し、個人情報判定部１３２がデータファイル１２０に個人情報が含まれていると判定した場合、警告出力部１３３が警告信号を出力することができる。また、データ検査方法をプログラムで実現することにより、コンピュータをデータ検査装置１００とすることができる。その結果、データ検査装置１００は、テキストデータに含まれる名簿を検出することが可能となる。
【０１０７】
実施の形態４．
実施の形態４では、検査対象データを電子メールとした場合に、電子メールのパケットのヘッダ部に含まれるアドレスやデータ部に含まれる本文、そして添付ファイルに名簿が含まれているか否かをデータ検査装置が判定する実施の形態について説明する。なお、実施の形態４では、実施の形態１を基礎として説明するが、これ限らず実施形態２や実施の形態３を基礎としてもよい。
【０１０８】
図１０は、実施の形態４におけるデータ検査装置の構成を示す図である。
実施の形態４でのデータ検査装置１００のデータサーチ部１３１は、データファイル１２０を構成する構成部分ごとにキーワードを検出するとともに、個人情報判定部１３２は、データファイル１２０の構成部分に対応して所定の数を変更する。
【０１０９】
また、データ検査装置１００は、実施の形態１での構成に加えて、さらに、データサーチ部１３１が読み込むことができない形式のファイルを、データサーチ部１３１が読み込むことができる形式のファイルに変換して、検査対象データを記憶したデータファイル１２０として出力するファイル変換部１５０を備える。
【０１１０】
実施の形態４でのデータ検査装置１００のデータサーチ部１３１は、データファイル１２０に記憶される検査対象データが電子メールである場合、その電子メールを構成するヘッダ部とデータ部と添付ファイルにある、苗字（メールアドレスを含む）を検出する。
【０１１１】
実施の形態４での個人情報判定部１３２は、電子メールのパケットを構成するヘッダ部とデータ部と添付ファイルとによって、その中に名簿を含んでいると判定する基準となる苗字の数を変更する。例えば、データ部の場合、その中から苗字をｒ件以上を検出した場合に名簿が含まれると判定し、また、ヘッダ部とデータ部の場合、その中から苗字をｒ＋ｓ件以上を検出した場合に名簿が含まれると判定し、ヘッダ部とデータ部と添付ファイルの場合、その中から苗字をｒ＋ｓ＋ｔ件以上検出した場合に名簿が含まれると判定する。ただし、ここではメールアドレスを苗字とみなしている。
【０１１２】
また、添付データには多様な形式のファイルが添付されることから、その記載内容をデータサーチ部１３１が正しく認識できない場合がある。そこで、ファイル変換部１５０は、データサーチ部１３１が認識することができない形式で記載された添付データを、データサーチ部１３１が認識することができる形式に変換して、変換した添付データをデータファイル１２０へ出力する。
【０１１３】
実施の形態４におけるデータ検査方法を、図１１に示すフローチャートを用いて詳細に説明する。
まず、データ検査方法で用いる条件を説明する。
（苗字検出の条件）
電子メール内の文字列が苗字ファイル１１１に用意された苗字と一致した場合、その文字列は苗字であると判定し検出する。
（名簿であることの判定条件）
電子メールのパケットを構成するデータ部に検出された苗字が所定の数ｒ以上含まれている場合、データ部とヘッダ部に検出された苗字が所定の数ｒ＋ｓ以上含まれている場合、データ部とヘッダ部と添付データに検出された苗字が所定の数ｒ＋ｓ＋ｔ以上含まれている場合、電子メールに名簿が含まれると判定する。
【０１１４】
データファイル１２０には、検査対象データである電子メールが記憶されている。また、キーワード記憶部１１０には、苗字が所定数記憶されている。
【０１１５】
データサーチ部１３１は、データファイル１２０から電子メールを読み込み、キーワード記憶部１１０から読み込んだ苗字を用いて、電子メール内をサーチし、読み込んだ苗字と同じ苗字を検出する。（ステップＳ４００）。これがデータサーチ工程である。
【０１１６】
個人情報判定部１３２は、サーチした結果、電子メールのデータ部から検出した苗字の件数がｒ以上であるか否かを判断する（ステップＳ４０１）。検出した苗字の件数がｒ以上であった場合（ステップＳ４０１のＹｅｓの場合）、電子メールに名簿が含まれていると判定する（ステップＳ４０５）。
【０１１７】
検出した苗字の件数がｒ以上でない場合（ステップＳ４０１のＮｏの場合）、個人情報判定部１３２は、サーチした結果、電子メールのデータ部とヘッダ部から検出した苗字の件数がｒ＋ｓ以上であるか否かを判断する（ステップＳ４０２）。検出した苗字の件数がｒ＋ｓ以上であった場合（ステップＳ４０２のＹｅｓの場合）、電子メールに名簿が含まれていると判定する（ステップＳ４０５）。
【０１１８】
検出した苗字の件数がｒ＋ｓ以上でない場合（ステップＳ４０２のＮｏの場合）、個人情報判定部１３２は、サーチした結果、電子メールのデータ部とヘッダ部と添付ファイルから検出した苗字の件数がｒ＋ｓ＋ｔ以上であるか否かを判断する（ステップＳ４０３）。検出した苗字の件数がｒ＋ｓ＋ｔ以上であった場合（ステップＳ４０３のＹｅｓの場合）、電子メールに名簿が含まれていると判定する（ステップＳ４０５）。
【０１１９】
検出した苗字の件数がｒ＋ｓ＋ｔ以上でない場合（ステップＳ４０３のＮｏの場合）、電子メールには名簿が含まれていないと判定する（ステップＳ４０４）。これが名簿判定工程である。
【０１２０】
ステップＳ４０５において電子メールに名簿が含まれていると判定した場合、警告信号を出力する（ステップＳ４０６）。これが警告出力工程である。
【０１２１】
この実施の形態によれば、データ検査装置１００のデータサーチ部１３１は、データファイル１２０を構成する構成部分ごとにキーワードを検出することができる。また、個人情報判定部１３２は、データファイル１２０の構成部分に対応して、その中に名簿を含んでいると判定する基準となるキーワードの検出件数を変更することができる。
【０１２２】
この実施の形態によれば、データサーチ部１３１が読み込むことができない形式のファイルであっても、それをファイル変換部１５０がデータサーチ部１３１が読み込むことができる形式のファイルに変換してデータファイル１２０に記憶することにより、データサーチ部１３１はそれ読み込んで記載内容を認識することが可能となる。
【０１２３】
なお、データ部、ヘッダ部、添付ファイルそれぞれ個別に、名簿が含まれていると判定する件数を設定して検査を行ってもよい。
【０１２４】
実施の形態５．
実施の形態５では、苗字ファイルに所定の地域で使用頻度が高い苗字を用意し、また、検出した苗字と思われる文字列が、本当に苗字か否かを判定するための補助ファイルを備える場合に、テキストデータが名簿を含むか否かを判定する実施の形態について説明する。なお、実施の形態５では、実施の形態２を基礎として説明するが、これ限らず実施形態１や実施の形態３を基礎としてもよい。
【０１２５】
図１２は、実施の形態５におけるデータ検査装置の構成を示す図である。
実施の形態５におけるデータ検査装置１００は、実施の形態２に記載のデータ検査装置の構成に加えて、さらに、苗字の統計データを有する統計データベース２００にアクセスして、所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が所定の数以上になる確率に基づいて決定される数以下の苗字を、苗字ファイル１１１に登録する苗字登録部１４０を備える。
【０１２６】
実施の形態５におけるデータ検査装置１００のキーワード記憶部１１０は、個人情報を形成するキーワードとして、所定の地域ごとに、その所定の地域で使用頻度が高い複数の苗字を記憶する苗字ファイル１１１を備える。
【０１２７】
実施の形態５におけるデータ検査装置１００は、実施の形態２に記載のデータ検査装置の構成に加えて、さらに、検査対象データの文字列が、検出すべきキーワードであるかを判定する補助情報を記憶する判定補助ファイル１６０を備え、データサーチ部１３１は判定補助ファイル１６０に記憶された補助情報を用いて、検出すべきキーワードであるかを判定する。
【０１２８】
苗字登録部１４０は、苗字の統計データを有する統計データベース２００にアクセスして、所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が所定の数以上になる確率に基づいて決定される数以下の苗字を選択して、苗字ファイル１１１に登録する。
【０１２９】
キーワード記憶部１１０は、苗字登録部１４０が選択した、その所定の地域で使用頻度が高い複数の苗字を、所定の地域ごとに、個人情報を形成するキーワードとして、苗字ファイル１１１に記憶する。
【０１３０】
判定補助ファイル１６０は、テキストデータに記載されている用語が、検出すべき苗字であるか否かを判定する際の補助となる情報を記憶する。
【０１３１】
データサーチ部１３１は、判定補助ファイル１６０が記憶している補助となる情報を用いて、テキストデータに記載されている用語が、検出すべき苗字であるか否かを判定する。
【０１３２】
苗字登録部１４０による苗字ファイル１１１への選択した苗字の登録は、実施の形態２のデータ検査方法で述べたデータサーチ工程に先立って行われるものである。その結果、キーワード記憶部１１０の苗字ファイル１１１には、苗字登録部１４０が選択した苗字（所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が所定の数以上になる確率に基づいて決定される数以下の苗字）が登録される。
【０１３３】
判定補助ファイル１６０に記憶されている補助となる情報は、データサーチ部１３１がテキストデータから苗字を検出する際に、テキストデータに記載されている用語が苗字であることを識別するために利用される。
【０１３４】
例えば、「山口」や「福島」などの苗字であるか県名であるかの判別が難しい用語であっても、「氏」や「さん」などの補助となる情報と共にあれば苗字であると判定でき、「県」や「市」などの補助となる情報と共にあれば県や市の名称であると判定できる。
【０１３５】
この実施の形態によれば、データ検査装置１００は苗字登録部１４０を用いて、苗字の統計データを有する統計データベース２００にアクセスして、所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が所定の数以上になる確率に基づいて決定される数以下の苗字を読み出し、苗字ファイル１１１に登録することができる。そして、データ検査装置１００は、苗字ファイル１１１に登録した所定の地域で使用頻度が高い上位の苗字を、テキストデータに含まれる苗字を検出する際に利用することができる。
【０１３６】
この実施の形態によれば、データ検査装置１００は、個人情報を形成するキーワードとして、キーワード記憶部１１０が備える苗字ファイル１１１に記憶された所定の地域ごとに、その所定の地域で使用頻度が高い複数の苗字を利用することができる。そして、苗字ファイル１１１に登録した所定の地域で使用頻度が高い上位の苗字を、テキストデータに含まれる苗字を検出する際に利用することができる。
【０１３７】
この実施の形態によれば、データ検査装置１００のデータサーチ部１３１は、判定補助ファイル１６０に記憶された検出すべきキーワードであるかを判定する補助情報を用いて、検査対象データの用語が検出すべきキーワードであるかを判定することができる。その結果、「山口」や「福島」などの、苗字であるか県名であるかを判別することが難しい名称についても、正しく識別することができるようになる。
【０１３８】
前記した各実施の形態では個人情報の例として苗字と住所を取り上げて説明したが、これらの実施の形態で検出する対象は、個人情報に限定されるものではなく、メールアドレス、資産情報、蔵書の情報、商品の情報、顧客情報、ペットの情報、技術情報、医療情報、書籍情報、音楽情報、経済情報、事件情報などのようなテキストデータなどのデータファイルに含まれる特定の情報でも検出することが可能である。
【０１３９】
図１３は、前記した各実施の形態におけるデータ検査装置１００のハードウェア構成を示す図である。
データ検査装置１００は、プログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１１を備えている。ＣＰＵ９１１は、バス９１２を介してＲＯＭ９１３、ＲＡＭ９１４、通信ボード９１５、ＣＲＴ表示装置９０１、キーボード（Ｋ／Ｂ）９０２、マウス９０３、ＦＤＤ（ＦｌｅｘｉｂｌｅＤｉｓｋＤｒｉｖｅ）９０４、磁気ディスク装置９２０、ＣＤＤ（ＣｏｍｐａｃｔＤｉｓｋＤｒｉｖｅ）９０５、プリンタ装置９０６、スキャナ装置９０７と接続されている。
【０１４０】
ＲＡＭ９１４は、揮発性メモリの一例である。ＲＯＭ９１３、ＦＤＤ９０４、ＣＤＤ９０５、磁気ディスク装置９２０は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。
【０１４１】
通信ボード９１５は、ＦＡＸ機、電話器、ＬＡＮ等に接続されている。例えば、通信ボード９１５、Ｋ／Ｂ９０２、ＦＤＤ９０４などは、情報入力部の一例である。また、例えば、通信ボード９１５、スキャナ装置９０７、ＣＲＴ表示装置９０１などは、出力部の一例である。
【０１４２】
ここで、通信ボード９１５は、ＬＡＮに限らず、直接、インターネット、或いはＩＳＤＮ等のＷＡＮ（ワイドエリアネットワーク）に接続されていても構わない。直接、インターネット、或いはＩＳＤＮ等のＷＡＮに接続されている場合、データ検査装置１００は、インターネット、或いはＩＳＤＮ等のＷＡＮに接続され、ウェブサーバは不用となる。
【０１４３】
磁気ディスク装置９２０には、オペレーティングシステム（ＯＳ）９２１、ウィンドウシステム９２２、プログラム群９２３、ファイル群９２４が記憶されている。プログラム群９２３は、ＣＰＵ９１１、ＯＳ９２１、ウィンドウシステム９２２により実行される。
【０１４４】
上記プログラム群９２３には、各機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵ９１１により読み出され実行される。
ファイル群９２４には、各ファイルが記憶されている。
また、前記した実施の形態で説明したフローチャートの矢印の部分は主としてデータの入出力を示し、そのデータの入出力のためにデータは、磁気ディスク装置９２０、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）、光ディスク、ＣＤ（コンパクトディスク）、ＭＤ（ミニディスク）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のその他の記録媒体に記録される。あるいは、信号線やその他の伝送媒体により伝送される。
【０１４５】
また、データ検査装置１００は、ＲＯＭ９１３に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、ハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。
【０１４６】
また、プログラムは、また、磁気ディスク装置９２０、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）、光ディスク、ＣＤ（コンパクトディスク）、ＭＤ（ミニディスク）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のその他の記録媒体による記録装置を用いて記憶されても構わない。
【図面の簡単な説明】
【０１４７】
【図１】実施の形態１におけるデータ検査装置の構成を示す図である。
【図２】実施の形態１におけるデータ検査方法を示すフローチャートである。
【図３】実施の形態１における苗字プリセット数（横軸）と名簿であると判定される率（縦軸）との関係を示すグラフである。
【図４】実施の形態１における名簿苗字ファイルに用意しなくてはならない苗字数を求めるための図である（左図がｒ＝５の場合）。
【図５】実施の形態１における名簿苗字ファイルに用意しなくてはならない苗字数を求めるための図である（左図がｒ＝１０の場合）。
【図６】実施の形態２におけるデータ検査装置の構成を示す図である。
【図７】実施の形態２におけるデータ検査方法を示すフローチャートである。
【図８】実施の形態３におけるデータ検査装置の構成を示す図である。
【図９】実施の形態３におけるデータ検査方法を示すフローチャートである。
【図１０】実施の形態４におけるデータ検査装置の構成を示す図である。
【図１１】実施の形態４におけるデータ検査方法を示すフローチャートである。
【図１２】実施の形態５におけるデータ検査装置の構成を示す図である。
【図１３】データ検査装置１００のハードウェア構成を示す図である。
【符号の説明】
【０１４８】
１００データ検査装置、１１０キーワード記憶部、１１１苗字ファイル、１１２都道府県名ファイル、１１３市区町村名ファイル、１２０データファイル、１３０テキスト検索部、１３１データサーチ部、１３２個人情報判定部、１３３警告出力部、１３４近接関係検出部、１４０苗字登録部、１５０ファイル変換部、１６０判定補助ファイル、２００統計データベース、３００文書ファイル、９０１ＣＲＴ表示装置、９０２キーボード（Ｋ／Ｂ）、９０３マウス、９０４ＦＤＤ、９０５ＣＤＤ、９０６プリンタ装置、９０７スキャナ装置、９１１ＣＰＵ、９１２バス、９１３ＲＯＭ、９１４ＲＡＭ、９１５通信ボード、９２０磁気ディスク装置、９２１ＯＳ、９２２ウィンドウシステム、９２３プログラム群、９２４ファイル群。

【特許請求の範囲】
【請求項１】
個人情報を形成するキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ部と、
データサーチ部が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とするデータ検査装置。
【請求項２】
個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部と、
データサーチ部が検出した複数種類のキーワードの検出場所が近接しており、かつ、データサーチ部が検出した少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とするデータ検査装置。
【請求項３】
上記キーワード記憶部は、個人情報を形成するキーワードとして、複数の苗字を記憶する苗字ファイルを備えたことを特徴とする請求項１又は２に記載のデータ検査装置。
【請求項４】
上記苗字ファイルは、個人別および世帯別とのいずれかについて、使用頻度が高い上位の苗字を記憶することを特徴とする請求項３記載のデータ検査装置。
【請求項５】
上記苗字ファイルは、Ａ件以上の苗字が含まれている検査対象データに苗字の検出件数がＢ件以上あることを検出して検査対象データにＣ％以上の確率で個人情報が含まれていると判定するために、使用頻度が高い上位の苗字を、Ａ件とＢ件とＣ％とにより決定されるＤ件数だけ、記憶することを特徴とする請求項３記載のデータ検査装置。
【請求項６】
上記苗字ファイルは、所定の地域で使用頻度が高い上位２００件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が５件以上あることを検出することにより、上記データ検査装置は、５０件以上の苗字が含まれている検査対象データに対して９８％以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする請求項３記載のデータ検査装置。
【請求項７】
上記苗字ファイルは、所定の地域で使用頻度が高い上位１００件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が５件以上あることを検出することにより、上記データ検査装置は、５０件以上の苗字が含まれている検査対象データに対して９５％以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする請求項３記載のデータ検査装置。
【請求項８】
上記苗字ファイルは、所定の地域で使用頻度が高い上位５０件の苗字を記憶し、上記個人情報判定部は、苗字の検出件数が５件以上あることを検出することにより、上記データ検査装置は、５０件以上の苗字が含まれている検査対象データに対して９０％以上の確率で検査対象データに個人情報が含まれていると判定することを特徴とする請求項３記載のデータ検査装置。
【請求項９】
上記データ検査装置は、さらに、苗字の統計データを有する統計データベースにアクセスして、所定の地域で使用頻度が高い上位の苗字から、苗字の検出件数が上記所定の数以上になる確率に基づいて決定される数以下の苗字を、上記苗字ファイルに登録する苗字登録部を備えたことを特徴とする請求項１又は２に記載のデータ検査装置。
【請求項１０】
上記データ検査装置は、さらに、データサーチ部が読み込むことができない形式のファイルを、データサーチ部が読み込むことができる形式のファイルに変換して、検査対象データを記憶したデータファイルとして出力するファイル変換部を備えたことを特徴とする請求項１又は２に記載のデータ検査装置。
【請求項１１】
上記キーワード記憶部は、個人情報を形成するキーワードとして、所定の地域ごとに、その所定の地域で使用頻度が高い複数の苗字を記憶する苗字ファイルを備えたことを特徴とする請求項１又は２に記載のデータ検査装置。
【請求項１２】
上記データサーチ部は、データファイルを構成する構成部分ごとにキーワードを検出するとともに、
上記個人情報判定部は、データファイルの構成部分に対応して所定の数を変更することを特徴とする請求項１又は２に記載のデータ検査装置。
【請求項１３】
上記データ検査装置は、さらに、検査対象データの用語が、検出すべきキーワードであるかを判定する補助情報を記憶する判定補助ファイルを備え、
上記データサーチ部は、判定補助ファイルに記憶された補助情報を用いて、検出すべきキーワードであるかを判定することを特徴とする請求項１又は２に記載のデータ検査装置。
【請求項１４】
個人情報を形成する複数種類のキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ部と、
データサーチ部が検出した複数種類のキーワードの検出場所が近接している場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定部と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とするデータ検査装置。
【請求項１５】
データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ工程と、
データサーチ工程で検出したキーワードの検出件数が所定の数以上の場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定工程でデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とするデータ検査方法。
【請求項１６】
データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、
近接関係検出部が、データサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、
近接関係検出工程で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定工程でデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とするデータ検査方法。
【請求項１７】
データサーチ部が、検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ工程と、
近接関係検出部が、データサーチ工程で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出工程と、
近接関係検出工程が複数種類のキーワードの検出場所が近接していることを検出した場合、個人情報判定部が、そのデータファイルに個人情報が含まれていると判定する個人情報判定工程と、
個人情報判定部がデータファイルに個人情報が含まれていると判定した場合、警告出力部が、警告信号を出力する警告出力工程と
を実行することを特徴とするデータ検査方法。
【請求項１８】
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ処理と、
データサーチ処理で検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
個人情報判定処理でデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とするデータ検査プログラム。
【請求項１９】
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、
データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、
近接関係検出処理で検出した検出場所が近接している複数種類のキーワードのうちの少なくとも一種類のキーワードの検出件数が所定の数以上の場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
個人情報判定処理でデータファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とするデータ検査プログラム。
【請求項２０】
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶された複数種類のキーワードを用いて、検査対象データをサーチして、検査対象データ内にある複数種類のキーワードを検出するデータサーチ処理と、
データサーチ処理で検出した複数種類のキーワードの検出場所が近接していることを検出する近接関係検出処理と、
近接関係検出処理が複数種類のキーワードの検出場所が近接していることを検出した場合、そのデータファイルに個人情報が含まれていると判定する個人情報判定処理と、
データファイルに個人情報が含まれていると判定した場合、警告信号を出力する警告出力処理と
をコンピュータに実行させることを特徴とするデータ検査プログラム。
【請求項２１】
特定の情報を形成するキーワードを記憶するキーワード記憶部と、
検査対象データを記憶したデータファイルから検査対象データを読み込み、キーワード記憶部に記憶されたキーワードを用いて、検査対象データをサーチして、検査対象データ内にあるキーワードを検出するデータサーチ部と、
データサーチ部が検出したキーワードの検出件数が所定の数以上の場合、そのデータファイルに特定の情報が含まれていると判定する特定情報判定部と、
特定情報判定部がデータファイルに特定の情報が含まれていると判定した場合、警告信号を出力する警告出力部と
を備えたことを特徴とするデータ検査装置。

【図１】