個人情報検査プログラム、個人情報検査方法及び個人情報検査システム
【課題】 個人情報の検査対象となるファイルに含まれる個人名を効率的に識別することが可能な、個人情報検査プログラム、個人情報検査方法及び個人情報検査システム提供する。
【解決手段】 対象となるファイルから、スペース等のセパレータにより区切られた文字又は文字列を切り出して、切り出した文字又は文字列が個人情報に該当するかを検査する。個人情報としてカウントすべき個人名(氏のみ又は氏名)については、1文字については当該文字と1文字からなる氏として用いられやすい漢字とを、2文字以上の文字列については2文字目に着目して、2文字目の文字と2文字以上からなる氏において2文字目に用いられやすい漢字とを照合することによって識別する。
【解決手段】 対象となるファイルから、スペース等のセパレータにより区切られた文字又は文字列を切り出して、切り出した文字又は文字列が個人情報に該当するかを検査する。個人情報としてカウントすべき個人名(氏のみ又は氏名)については、1文字については当該文字と1文字からなる氏として用いられやすい漢字とを、2文字以上の文字列については2文字目に着目して、2文字目の文字と2文字以上からなる氏において2文字目に用いられやすい漢字とを照合することによって識別する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プリントアウト、外部メディアへの書き出し、メール送信等の対象となるファイルに個人情報が含まれているかを検査するための個人情報検査プログラム、個人情報検査方法及び個人情報検査システムに関するものである。
【背景技術】
【0002】
企業等が保有する個人情報の漏洩事件が相次いでいることや、個人情報保護法の施行もあって、顧客情報等の個人情報の保護が企業等にとって近年特に重要な課題となっている。個人情報の漏洩は、記憶媒体等の持ち出しや、ネットワークへの不正アクセス等による電子データの流出や、電子データをプリントアウトした書類の流出によって発生することが多いため、企業等の組織内で使用するコンピュータからの情報漏洩対策が検討されるようになっている。
【0003】
コンピュータに記憶された個人情報の漏洩を防止するためには、個人情報が含まれる文書ファイルの書き出しやプリントアウト、個人情報が含まれる電子メールの送信等を監視して、適切な対処を行うことが好ましい。そのためには、対象となるファイルに個人情報が含まれるか否かを効率的に検査する技術が必要になる。
【0004】
このような課題に対処するために、コンピュータに記憶されているファイルのうち、個人情報要素を効率的に計数し、計数結果に基づいて個人情報が含まれるファイルを探索する発明が開示されている(特許文献1参照。)。
【0005】
【特許文献1】特許第3705439号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
対象となるファイルに個人情報が含まれるか否かの検査においては、特許文献1にも開示されているように、電話番号、電子メールアドレス、住所、氏名が所定の条件を満たす程度に含まれているか否かから、個人情報を含むファイルであることを判定することが可能である。この場合、電話番号、電子メールアドレス、住所については、文字列の形式に一定のパターンがあるため、これらの要素を識別することが比較的容易である。一方、個人(日本人)の氏名については、比較的文字数の少ない漢字やカナにより構成されるため、氏名以外の情報とどのように識別するかが問題になる。
【0007】
氏名である文字列を識別する方法として、日本人の一般的な氏名に用いられる文字列を氏名リストとして登録しておき、ファイルに含まれる文字列を氏名リストと対比する方法が考えられる。しかしながら、この方法によって精度の高い処理を行うためには、氏名リストの数をなるべく多くすることが必要であるが、氏名リストの数が多くなるほど照合処理の負担が重くなるという問題が生じる(特許文献1、5ページ1行目〜11行目参照。)。
【0008】
特許文献1記載の発明では、かかる問題に対応して、例えば「東京」「学校」「社長」といった、一般的な氏名においては出現し得ない文字列を不適切文字列として登録しておき、ファイルに含まれる文字列を不適切文字列と照合し、不適切文字列に該当しない文字列を氏名と判定することとしている。このような方法によって、氏名リストを登録して照合する場合に比べて、効率的な処理が可能になることとされている。
【0009】
しかしながら、特許文献1記載の不適切文字列を用いる方法においても、不適切文字列の登録が予め必要であることに相違はない。漢字で数文字の文字列であっても、氏名に該当し得ない文字列の数は膨大に存在することものと考えら得るが、精緻な判定を行うためには、なるべく多くの不適切文字列を登録しなければならないことにも相違はなく、精度を上げようとすると、結局のところ氏名リスト方式と同様に照合処理の負担が重くなることが予想される。
【0010】
本発明は、このような課題に対応するためになされたものであり、企業等の組織内から個人情報が漏洩することを防止するために、プリントアウト、外部メディアへの書き出し、メール送信等の対象となるファイルに個人情報が含まれているかを検査するための個人情報検査プログラム、個人情報検査方法及び個人情報検査システムであって、特にファイルに含まれる個人名(氏のみ、又は氏と名の組み合わせを含む)を効率的に識別することが可能な個人情報検査プログラム、個人情報検査方法及び個人情報検査システム提供することを目的とするものである。
【課題を解決するための手段】
【0011】
このような課題を解決するために、本発明は、検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査プログラムであって、漢字1文字について個人名と判定する漢字を記憶する第1の記憶部と、2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶部と、を備えるコンピュータに、前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別ステップと、前記識別ステップで識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択ステップと、前記選択ステップにおいて選択した文字又は文字列が1文字の場合、第1の記憶部に記憶された文字と対比して、一致する漢字がある場合には個人名と判定する第1の判定ステップと、前記選択ステップにおいて選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の漢字を第2の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定ステップと、前記第1の判定ステップ及び前記第2の判定ステップにおいて個人名と判定された件数をカウントする個人名カウントステップと、前記個人名カウントステップでカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査ステップと、を実行させることを特徴とする。
【0012】
本発明においては、対象となるファイルに個人情報が含まれるかの検査において、個人情報としてカウントすべき個人名(氏のみ又は氏名)を識別するために、1文字については当該文字と1文字からなる氏として用いられやすい漢字とを、2文字以上の文字列については2文字目に着目して、2文字目の文字と2文字以上からなる氏において2文字目に用いられやすい漢字とを照合することによって、効率的な処理を可能にしている。
【0013】
また、本発明は、前記コンピュータは、メールアドレスと判定する文字又は文字列を記憶する第3の記憶部と、住所と判定する文字又は文字列を記憶する第4の記憶部と、電話番号と判定する文字又は文字列を記憶する第5の記憶部と、を備えていて、前記コンピュータに、前記識別ステップで識別した文字又は文字列を、前記第3の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合にはメールアドレスと判定する第3の判定ステップと、前記識別ステップで識別した文字又は文字列を、前記第4の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には住所と判定する第4の判定ステップと、前記識別ステップで識別した文字又は文字列を、前記第5の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には電話番号と判定する第5の判定ステップと、前記第3の判定ステップにおいてメールアドレスと判定された件数をカウントするメールアドレスカウントステップと、前記第4の判定ステップにおいて住所と判定された件数をカウントする住所カウントステップと、前記第5の判定ステップにおいて電話番号と判定された件数をカウントする電話番号カウントステップと、を実行させ、前記検査ステップにおいては、前記個人名カウントステップでカウントした個人名の件数、前記メールアドレスカウントステップでカウントしたメールアドレスの件数、前記住所カウントステップでカウントした住所の件数、前記電話番号カウントステップでカウントした電話番号の件数から個人情報の件数をカウントし、所定の条件に合致するかを検査することを特徴としてもよい。
【0014】
対象となるファイルに含まれる個人情報は、個人名に限られず、メールアドレス、住所、電話番号も該当し得るものであるので、これらを個人情報として検査の対象に加えるよう構成することによって、精度の高い検査が可能になる。
【0015】
さらに、本発明は、前記コンピュータに、前記ファイルのデータサイズを特定し、前記データサイズが予め設定されたサイズを超過するかを判定するデータサイズ判定ステップを実行させ、前記コンピュータは、前記データサイズ判定ステップにおいて前記データサイズが予め設定されたサイズを超過すると判定された場合には、前記予め設定されたサイズを上限に検査を実行するか、又は個人情報の検査を実行しないことを特徴としてもよい。
【0016】
本発明によって、プリントアウトや外部メディアへの書き出し等が行われる全てのファイルを検査対象とすると、データサイズの大きいファイルについては処理に長時間を要することとなり、コンピュータにかかる負担が過大となる可能性がある。このように構成すると、コンピュータのユーザが処理負担と情報保全の必要性のバランスを考慮したデータサイズを設定することによって、効率的な検査が可能になる。
【0017】
さらに、本発明は、前記コンピュータは、ファイルのデータサイズに対応して先頭から読み飛ばすデータサイズを記憶する第6の記憶部を備えていて、前記コンピュータに、前記ファイルのデータサイズを特定し、前記第6の記憶部を参照して前記ファイルについて先頭から読み飛ばすデータサイズを特定する特定ステップを実行させ、前記コンピュータは、前記ファイルのうち、前記特定ステップにおいて特定されたデータサイズを読み飛ばした残りのデータを対象に、個人情報の検査を実行することを特徴としてもよい。
【0018】
コンピュータへの処理負担を軽減する方法として、このようにファイルサイズに応じた読み飛ばし部分を設定するように構成すると、ヘッダー情報等が記述されて比較的個人情報が含まれる可能性が低い先頭部分から所定のサイズを読み飛ばすことによって、検査の精度を著しく損なうことなく、検査にかかる処理負担を軽減することが可能になる。
【0019】
さらに、本発明は、本発明にかかる個人情報検査プログラムにより実行される個人情報検査方法として特定することもできる。
【0020】
つまり、本発明にかかる個人情報検査方法は、検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査方法であって、漢字1文字について個人名と判定する漢字を記憶する第1の記憶部と、2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶部と、を備えるコンピュータが、前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別ステップと、前記コンピュータが、前記識別ステップで識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択ステップと、前記コンピュータが、前記選択ステップにおいて選択した文字又は文字列が1文字の場合、第1の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第1の判定ステップと、前記コンピュータが、前記選択ステップにおいて選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の文字を第2の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定ステップと、前記コンピュータが、前記第1の判定ステップ及び前記第2の判定ステップにおいて個人名と判定された件数をカウントする個人名カウントステップと、前記コンピュータが、前記個人名カウントステップでカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査ステップと、を有することを特徴とする。
【0021】
また、本発明にかかる個人情報検査方法は、前記コンピュータは、メールアドレスと判定する文字又は文字列を記憶する第3の記憶部と、住所と判定する文字又は文字列を記憶する第4の記憶部と、電話番号と判定する文字又は文字列を記憶する第5の記憶部と、を備えていて、前記コンピュータが、前記識別ステップで識別した文字又は文字列を、前記第3の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合にはメールアドレスと判定する第3の判定ステップと、前記コンピュータが、前記識別ステップで識別した文字又は文字列を、前記第4の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には住所と判定する第4の判定ステップと、前記コンピュータが、前記識別ステップで識別した文字又は文字列を、前記第5の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には電話番号と判定する第5の判定ステップと、前記コンピュータが、前記第3の判定ステップにおいてメールアドレスと判定された件数をカウントするメールアドレスカウントステップと、前記コンピュータが、前記第4の判定ステップにおいて住所と判定された件数をカウントする住所カウントステップと、前記コンピュータが、前記第5の判定ステップにおいて電話番号と判定された件数をカウントする電話番号カウントステップと、を有していて、前記検査ステップにおいては、前記コンピュータが、前記個人名カウントステップでカウントした個人名の件数、前記メールアドレスカウントステップでカウントしたメールアドレスの件数、前記住所カウントステップでカウントした住所の件数、前記電話番号カウントステップでカウントした電話番号の件数から個人情報の件数をカウントし、所定の条件に合致するかを検査することを特徴とすることもできる。
【0022】
さらに、本発明にかかる個人情報検査方法は、前記コンピュータが、前記ファイルのデータサイズを特定し、前記データサイズが予め設定されたサイズを超過するかを判定するデータサイズ判定ステップを有していて、前記データサイズ判定ステップにおいて前記データサイズが予め設定されたサイズを超過すると判定された場合には、前記コンピュータは、個人情報の検査を実行しないことを特徴としてもよい。
【0023】
さらに、本発明にかかる個人情報検査方法は、前記コンピュータは、ファイルのデータサイズに対応して先頭から読み飛ばすデータサイズを記憶する第6の記憶部を備えていて、前記コンピュータが、前記ファイルのデータサイズを特定し、前記第6の記憶部を参照して前記ファイルについて先頭から読み飛ばすデータサイズを特定する特定ステップを有していて、前記コンピュータは、前記ファイルのうち、前記特定ステップにおいて特定されたデータサイズを読み飛ばした残りのデータを対象に、個人情報の検査を実行することを特徴としてもよい。
【0024】
さらに、本発明は、本発明にかかる個人情報検査プログラムを備えた個人情報検査システムとして特定することもできる。
【0025】
つまり、本発明にかかる個人情報検査システムは、検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査システムであって、漢字1文字について個人名と判定する漢字を記憶する第1の記憶手段と、2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶手段と、前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別手段と、前記識別手段が識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択手段と、前記選択手段が選択した文字又は文字列が1文字の場合、第1の記憶手段に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第1の判定手段と、前記選択手段において選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の文字を第2の記憶手段に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定手段と、前記第1の判定手段及び前記第2の判定手段において個人名と判定された件数をカウントする個人名カウント手段と、前記個人名カウント手段がカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査手段と、を備えることを特徴とする。
【0026】
また、本発明にかかる個人情報検査システムは、メールアドレスと判定する文字又は文字列を記憶する第3の記憶手段と、住所と判定する文字又は文字列を記憶する第4の記憶部と、電話番号と判定する文字又は文字列を記憶する第5の記憶手段部と、前記識別手段が識別した文字又は文字列を、前記第3の記憶手段に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合にはメールアドレスと判定する第3の判定手段と、前記識別手段が識別した文字又は文字列を、前記第4の記憶手段に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には住所と判定する第4の判定手段と、前記識別手段が識別した文字又は文字列を、前記第5の記憶手段に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には電話番号と判定する第5の判定手段と、前記第3の判定手段においてメールアドレスと判定された件数をカウントするメールアドレスカウント手段と、前記第4の判定手段において住所と判定された件数をカウントする住所カウント手段と、前記第5の判定手段において電話番号と判定された件数をカウントする電話番号カウント手段と、を備えていて、前記検査手段は、前記個人名カウントステップでカウントした個人名の件数、前記メールアドレスカウントステップでカウントしたメールアドレスの件数、前記住所カウントステップでカウントした住所の件数、前記電話番号カウントステップでカウントした電話番号の件数から個人情報の件数をカウントし、所定の条件に合致するかを検査することを特徴とすることもできる。
【発明の効果】
【0027】
本発明によって、企業等の組織内から個人情報が漏洩することを防止するために、プリントアウト、外部メディアへの書き出し、メール送信等の対象となるファイルに個人情報が含まれているかを検査する場合に、特にファイルに含まれる個人名(氏又は氏と名の組み合わせを含む)を効率的に識別することによって、コンピュータにかかる処理負担を軽減することが可能になる。
【発明を実施するための最良の形態】
【0028】
本発明を実施するための最良の形態について、図面を用いて以下に詳細に説明する。尚、以下の説明は本発明によって個人情報を検査する場合の一例を示したものであって、本発明はかかる実施形態に限定されるものではない。
【0029】
図1は、本発明にかかる個人情報検査プログラムの機能を示す図である。図2は、本発明にかかる個人情報検査システムの実施例を示す図である。図3は、本発明にかかる個人情報検査システムの構成を示すブロック図である。図4は、本発明にかかる個人情報検査プログラムにおいて用いられる検査対象イベントテーブルの一例を示す図である。図5は、本発明にかかる個人情報検査プログラムにおいて用いられる検査レベルに関する個人情報検査ルールの一例を示す図である。図6は、本発明にかかる個人情報検査プログラムにおいて用いられるデータ読み飛ばしに関する個人情報検査ルールの一例を示す図である。図7は、本発明にかかる個人情報検査プログラムにおいて用いられる個人名に関する個人情報検査ルールの一例を示す図である。図8は、本発明にかかる個人情報検査プログラムによって、個人名を検査する例を示す図である。図9〜図11は、本発明にかかる個人情報検査プログラムによる個人情報検査の処理フローを示す、それぞれ第1〜第3のフローチャートである。図12、図13は、本発明にかかる個人情報検査プログラムによる個人名をカウントする処理フローを示す、それぞれ第1、第2のフローチャートである。
【0030】
図1を用いて、本発明にかかる個人情報検査プログラムの機能と利用形態について説明する。企業等の組織内において使用されているコンピュータに、顧客名簿等の個人情報を含むファイルAと、社内報など個人情報を含まないファイルBが記憶されているとする。ここで、ファイルAとファイルBそれぞれについて、外部記憶媒体への書き出し命令が行われると、外部記憶媒体への書き出し処理を実行する前に、個人情報検査プログラムによって書き出し処理の対象であるファイルに個人情報が含まれるかの検査が行われる。
【0031】
個人情報検査プログラムによる検査では、個人情報に該当する情報が予め定義されていて、検査対象であるファイルに含まれる個人情報を検出し、検出した個人情報の件数等が所定のルールに該当する場合には、当該ファイルは個人情報の漏洩を防止するための対処が必要なファイルであると判定される。図1の例では、ファイルAは個人情報の漏洩を防止するための対処が必要と判定されるため、外部記憶媒体への書き出しが禁止されるが、ファイルBは対処が必要ないと判定され、外部記憶媒体への書き出し処理が実行される。
【0032】
尚、個人情報検査プログラムによる検査が必要となるのは、図1の例に示したファイルの外部記憶媒体への書き出しに限られず、ファイルのプリントアウト、添付ファイルを付した電子メールの送信、ファイルの新規作成や更新など、様々なイベントを実行する際に検査を行って、個人情報の漏洩を防止するように構成することができる。
【0033】
図2は、本発明にかかる個人情報検査システムを、企業等の組織内のネットワークにおいて活用する実施例を示す図である。図2に示した社内LAN等のネットワークには、組織の構成員が利用するユーザ端末の他、ファイルサーバ、ネットワークプリンタやメールサーバ等が接続されていて、ゲートウェイサーバを介してインターネットに接続されている。ユーザ端末を操作することによって、ユーザ端末やファイルサーバに記憶されたファイルをユーザ端末と接続されたプリンタへの出力、外部メディアへの書き出し等が行える他、ネットワークプリンタへの印刷、電子メールの送受信、Webページの閲覧等を行うことが可能となっている。
【0034】
本発明にかかる個人情報検査プログラムは、各々のユーザ端末に記憶されている。ユーザ端末において、ファイルのプリントアウトや書き出し命令、メールの送信命令などを受け付けると、個人情報検査プログラムによって対象となるファイルに個人情報が含まれているかの検査が実行される。検査の対象となるファイルは、ユーザ端末に記憶されたファイルであってもよいし、ネットワークで共有されるファイルサーバに記憶されたファイルであってもよい。
【0035】
個人情報の検査は、対象となるファイルから、ユーザ端末に記憶された個人情報を定義した条件に該当する文字や文字列を検出することによって行われる。個人情報を定義した条件としては、個人名、住所、電話番号、メールアドレスなどに含まれる文字や文字列が定められている。このような条件は、各々のユーザ端末に記憶されているが、モニタサーバにおいて設定された条件をユーザ端末に配信するように構成することによって、端末間の検査の精度のばらつきを防止し、各々のユーザ端末に記憶された条件が最新の状態に維持されることとなる。
【0036】
ユーザ端末において個人情報の検査が行われ、個人情報に該当する文字や文字列が所定の条件に合致する場合には、個人情報の漏洩を防止するための対処が実行される。対処の方法は特に限定されるものではないが、例えば、プリントアウトや書き出し、メール送信などのユーザ端末で受け付けたイベントの停止の他、ユーザ端末やモニタサーバへの警告表示などが含まれる。
【0037】
このような個人情報の検査は、ユーザによる操作を受け付けるユーザ端末において行うことが好ましいが、ユーザ端末からの命令を受けて処理を実行するファイルサーバ、メールサーバ、ゲートウェイサーバ等に本発明にかかる個人情報検査プログラムを記憶させ、検査を実行させることとしてもよい。
【0038】
図3〜図8を用いて、本発明にかかる個人情報検査プログラムによって実行されるコンピュータの動作と、個人情報検査の具体的な方法について説明する。図3は、本発明にかかる個人情報検査プログラムを動作させるためのコンピュータの構成の一例を示したものである。
【0039】
本発明にかかる個人情報検査プログラムによって個人情報の検査を行うユーザ端末10には、CPU11、RAM12、ROM13、HDD14、NIC15、外部接続バス16が備えられている。HDD14に記憶されたアプリケーションプログラムを実行する場合には、ROM13に記憶された入力制御や出力制御などのハードウェア制御のための基本的な各種プログラムを起動し、HDD14に記憶されたアプリケーションプログラムを読み出して、RAM12をワークエリアとして機能させながら、CPU11により演算処理を実行する。
【0040】
HDD14には個人情報検査プログラム141が記憶されていて、ファイルのプリントアウトや書き出しなどの検査対象イベント記憶部142に定められた所定のイベントの実行が受け付けられると、HDD14から個人情報検査プログラム141が読み出され、対象となるファイルに個人情報が含まれるかの検査が行われる。個人情報の検査は、個人情報検査ルール記憶部143に記憶された条件を基準にして行われる。
【0041】
尚、検査対象イベント記憶部142に記憶される検査対象イベントや、個人情報検査ルール記憶部143に記憶される個人情報の検査ルールなどの個人情報ポリシーについては、モニタサーバ50において設定され、ユーザ端末10に配信されるように構成することができる。これによって、ユーザ端末10ではモニタサーバ50に設定されたより精度の高いルールの適用を受けることが可能になるが、検査対象イベントや、個人情報の検査ルールのうち検査レベルなど一部のルールについては、ユーザ端末でユーザが各々設定できるよう構成してもよい。
【0042】
ユーザ端末10が、入力装置20から様々な処理命令を受け付けると、個人情報検査プログラム141によって、受け付けた命令が個人情報の検査を要するものであるか否かについて、検査対象イベント記憶部142を参照して判断される。図4は、検査対象イベント記憶部142に記憶された検査対象イベントテーブルの一例であるが、外部メディアへの書き出し、印刷、メールの送信、Webの閲覧、ファイルの新規作成、更新、削除、ファイル名変更等のイベント毎に、検査対象であるかが設定されている。この例では、メールの送信とファイル名の変更は検査対象にはならないが、それ以外のイベントについては、全て個人情報の検査が行われることとなっている。
【0043】
このような検査対象の設定については、ユーザ端末10を使用するユーザが各々行うこととしてもよいが、システム管理者等がモニタサーバ50において設定した検査対象を、各々のユーザ端末に配信することとしてもよい。
【0044】
ユーザ端末10が受け付けた操作が、検査対象イベント記憶部142において検査対象となるイベントであると定義されていた場合は、受け付けた操作において出力や書き出しの対象となっているファイル等の個人情報の検査対象となるファイルを取得する。尚、メールの送信を検査する場合については、メール本文には発信者の署名が含まれることが多いため、全てが個人情報と判定されて送信が停止されてしまう恐れがある。従って、メールを検査する場合については、メール本文を検査対象からは除外し、添付ファイルのみを検査することとしてもよい。
【0045】
続いて、取得したファイルのデータサイズを確認する。データサイズを個人情報検査ルール記憶部143に記憶されたルールと対比して、データサイズが検査対象から除外されているものである場合には、検査は行われずに受け付けた操作がそのまま実行される。
【0046】
図5は、個人情報検査ルール記憶部143に記憶されに記憶された検査レベルに関する個人情報検査ルールの一例を示したものであるが、検査対象として定められたデータサイズに対応する部分についてのみ個人情報の検査を行い、データサイズを超える部分については検査の対象外とする。尚、ファイルのどの部分を検査対象とするかについては、先頭から所定のサイズまで、末尾から所定のサイズまでなどを設定することが可能であるが、特に限定されるものではない。又は、検査対象として定められたデータサイズ以下のファイルについてのみ個人情報の検査を行い、定められたデータサイズを超えるがファイルについては検査を行わないこととしてもよい。データサイズが大きいものについて検査を行うと、コンピュータへの処理負担が増大し、処理にかかる時間も要することになるため、ユーザ端末10を使用するユーザ毎に与えられた権限や使用状況に応じて、検査レベルを設定することができることとなっている。
【0047】
このような検査レベルの設定については、ユーザ端末10を使用するユーザが各々行うこととしてもよいが、システム管理者等がモニタサーバ50において設定した検査レベルを、各々のユーザ端末に配信することとしてもよい。
【0048】
また、検査対象として取得したファイルのデータサイズに応じて、検査を行わない読み飛ばし部分を設定することもできる。取得したファイルのデータサイズを確認し、個人情報検査ルール記憶部143を参照して、データサイズに対応する読み飛ばしサイズを読み飛ばした後の部分から、個人情報の検査を実行する。
【0049】
図6は、個人情報検査ルール記憶部143に記憶されに記憶されたデータ読み飛ばしに関する個人情報検査ルールの一例を示したものであるが、取得したファイルのデータサイズに対応するデータ読み飛ばしサイズを特定し、特定されたデータ読み飛ばしサイズ分をファイルの先頭から読み飛ばした後のデータについて、個人情報の検査を実行する。
【0050】
このようなデータ読み飛ばしサイズの設定については、ユーザ端末10を使用するユーザが各々行うこととしてもよいが、システム管理者等がモニタサーバ50において設定したデータ読み飛ばしサイズを、各々のユーザ端末に配信することとしてもよい。また、全てのファイルについてデータ読み飛ばしを行わず、ファイルの全てのデータを検査するように設定することとしてもよい。
【0051】
検査対象となったファイルのうち、読み飛ばし部分の後の検査対象となるデータについては、以下のような処理によって個人情報が含まれるか否かの検査が行われる。まず、スペースやカンマなどの所定のセパレータによって区切られた文字又は文字列(以下の説明において、文字には数字や符号を、文字列には数字列や符号列及び文字、数字、符号の組合せを含むこととする)を、個人情報であるかを判定する対象として切り出す。切り出した文字又は文字列が、個人情報検査ルール記憶部143に記憶された個人名、メールアドレス、住所、電話番号等に含まれる文字等を定義したルールに該当するかを判定し、該当する場合には個人情報として件数がカウントされる。
【0052】
尚、ここで判定の対象となる文字又は文字列を切り出す方法は特に限定されるものではなく、セパレータについても、スペースやカンマの他に、>、<、改行、セミコロン、読点などのように文字や文字列を区切る様々な符号等を採用することが可能であり、ここに挙げた例に特に限定されるものではない。
【0053】
カウントされた個人情報の件数が所定の条件に該当する場合には、対象となったファイルについては、個人情報の漏洩を防止するための対処が必要なものであると判断され、プリンタ30へのプリントアウトや外部メディア40への書き出しの停止、モニタサーバ50への警告などの処理が実行される。ここで定められる条件について特に限定されるものではないが、カウントされた個人情報の絶対数を条件とする場合は、対処のための処理を要求する件数のレベルによって、個人情報の漏洩のための強度を調整することができる。このような条件については、個人情報検査ルール記憶部143に検査ルールの一部として記憶される。
【0054】
個人情報検査ルール記憶部143に記憶された個人情報を定義したルールについては、メールアドレスであれば、例えば、アットマーク(@)やドット(.)を含む文字列であること等を定めることができる。住所であれば、例えば、区、市、などの文字を含むこと等を定めることができる。電話番号であれば、例えば、半角9〜17文字であること、ハイフン(−)を含むこと等を定めることができる。
【0055】
一方、個人名であるかの判断については、メールアドレス、住所、電話番号等に比べて汎用的なルールを設定することが難しく、通常は個人名に該当する氏や氏名を定めた氏名リストを登録し、切り出された文字や文字列が氏名リストに登録された文字又は文字列に該当するかの対比が行われる。しかしながら、精度の高い判定を行うためには、氏名リストに登録する件数をなるべく多くしなければならず、氏名リストの件数が多くなるほど照合処理の負担が重くなり、通常の操作に支障が生じやすくなってしまう。
【0056】
そこで、本発明においては、図7の例に示したようなルールを設定することによって、少ない登録件数で検査の精度を高めて、コンピュータの処理負担を著しく軽減することを可能にしている。この例では、セパレータにより切り出された文字又は文字列のうち、全角1〜6文字の文字又は文字列を対象に、全角1文字の場合は当該文字がリストに登録された文字であるか否か、全角2〜6文字の場合は2文字目の文字がリストに登録された文字であるか否かによって、切り出した文字列が個人名であるか否かを判定することとしている。尚、検査の対象となる文字列の文字数の上限は6文字に限定されるものではなく、2文字以上であれば何文字であってもよいが、日本人の氏名の一般的な文字数を考慮すると、6文字に設定することが好ましい。
【0057】
セパレータにより切り出された文字又は文字列については、まず全角1文字の文字であるか否かが確認される。全角1文字の場合には、図7の例に示したように、日本人の1文字の氏に多く使われる「林、森、島、谷、原」等の文字が検査文字として登録されたリストと照合される。いずれかの検査文字と一致する場合には、個人名であると判定される。
【0058】
全角1文字の文字に該当しない場合には、全角2〜6文字の文字列であるか否かが確認される。全角2〜6文字の漢字の場合には、図7の例に示したように、日本人の2文字以上の氏の2文字目に多く使われる「藤、木、橋、中、辺、本、村、林、田」等の文字が検査文字として登録されたリストと照合される。いずれかの検査文字と一致する場合には、個人名であると判定される。
【0059】
日本人の氏名においては、2文字目に使用される漢字の種類が比較的限定されているため、このように2文字以上の文字列を対象にする場合には、2文字目の対比のみを行うことによって、リストに登録する文字の数を抑制しながら、比較的精度の高い検査を行うことが可能になる。また、リストに登録して照合する文字が1文字のみとなるため、2文字以上の氏名を登録する場合に比べて、照合の対象となる文字コードの数が著しく削減されて、コンピュータの処理負担を軽減することが可能になる。
【0060】
図8は、本発明によって行われる個人名の検査の具体例を示している。1行目からは、スペースをセパレータとして、「001」、「原」、「一郎」、「03−1234−5678・・・」という文字又は文字列が切り出され、このうち全角1〜6文字の文字又は文字列である「原」、「一郎」が個人名の検査の対象となる。「原」は1文字であるため、1文字の場合の検査文字と照合し、検査文字には「原」が含まれているため個人名であると判定され、個人情報が1件存在しているとカウントされる。「一郎」については2文字の文字列であるため、2文字目の「郎」と、2文字の場合の検査文字とを照合し、検査文字には「郎」が含まれていないため、個人情報にはカウントされない。
【0061】
2行目についても同様に、「佐藤」、「二郎」について、それぞれ2文字目の「藤」と「郎」と、2文字の場合の検査文字との照合が行われ、「佐藤」については、検査文字には「藤」が含まれているため個人名であると判定され、個人情報が1件存在しているとカウントされる。「二郎」については、検査文字には「郎」が含まれていないため、個人情報にはカウントされない。
【0062】
3行目については、氏と名の間にスペースが設けられていないため、「田中三郎」の4文字の文字列が切り出されて、2文字目の「中」と、2文字の場合の検査文字との照合が行われ、検査文字には「中」が含まれているため個人名であると判定され、個人情報が1件存在しているとカウントされる。
【0063】
尚、本発明においては、氏のみでなく、名についても同様に、1文字目と2文字目に用いられやすい文字を登録して検査を行うこととしてもよいが、氏、名、それぞれについて検査を行うこととすると、氏と名がスペースにおいて区切られていた場合に、1人の氏名を2件としてカウントしてしまう可能性が生じる。そうすると、同じ人数の個人情報が含まれるファイルであっても、氏のみのリストと氏名のリストではカウントされる件数が著しく異なることとなってしまうため、いずれか一方を基準にしてカウントすることが好ましい。その場合、名のみで個人名を特定するケースに比べて、氏のみで個人名を特定するケースが多いこと、名を基準にすると氏名をスペースなしで記載した場合に何番目の文字を検査するかが特定し難いことから、氏のみを基準に検査を行うことが好適である。
【0064】
このように個人名の件数のカウントが行われると、メールアドレス、住所、電話番号等の件数と合わせて検査対象となるファイルに含まれる個人情報の件数が集計され、個人情報の漏洩を防止するための対処を行う条件に合致するかが確認される。この条件については特に限定されるものではなく、全ての合計件数を基準にしてもよいし、各々の要素について基準値を設定して条件を定めることとしてもよく、個人情報の漏洩を防止する必要性とコンピュータにかかる処理負担等のバランスを考慮して、ユーザやシステム管理者が個別に設定できることとしてもよい。
【0065】
所定の条件に合致した場合に行われる対処としては、例えばプリンタ30へのプリントアウトや外部メディア40への書き出しの停止、モニタサーバ50への警告、NIC15を介してネットワークに発信されるメールの送信停止等を行うこととすればよい。
【0066】
図9〜図11のフローチャートを用いて、本発明にかかる個人情報検査プログラムによる個人情報検査の処理フローについて説明する。図9は対象イベントであるかを判定するフローを、図10は検査対象となるデータを特定するフローを、図11は個人情報をカウントして必要な場合は個人情報の漏洩を防止するための対処を実行するフローを、それぞれ示している。
【0067】
まず、本発明にかかる個人情報検査プログラムが動作するコンピュータにおいて、ファイルのプリントアウトやメール送信等のイベントの実行を受け付けると(S01)、個人情報の検査対象を指定した検査対象イベントテーブルを参照して(S02)、受け付けたイベントが個人情報の検査対象であるかを判定する(S03)。検査対象に該当しない場合は、個人情報の検査を終了し、受け付けたイベントを実行する処理に移行する。
【0068】
個人情報の検査対象であると判定された場合には、個人情報を検査する対象となるファイルを取得する(S04)。検査対象となるファイルは、プリントアウトや書き出しの対象として指定されたファイルや、送信されるメールの添付ファイル等である。取得したファイルのデータサイズを読み取って(S05)、検査対象として検査ルールに設定された所定のサイズ以下のファイルであるかを確認する(S06)。
【0069】
所定のサイズを超過する場合には、定められたデータサイズを上限として、検査の対象となるファイルのうち、検査対象となる部分を特定する(S09)。ここでファイルのどの部分を検査対象として特定するかについては、特に限定されるものではない。所定のサイズ以下である場合は、ファイル全体が検査対象となるが、いずれのケースにおいても、続いてデータサイズに応じて検査ルールとして設定された読み飛ばしサイズを取得し(S07)、読み飛ばしサイズを読み飛ばした後以降の検査対象データを特定する(S08)。
【0070】
続いて、検査対象データに含まれる個人情報として、個人名の件数のカウント(S10)、メールアドレスの件数のカウント(S11)、住所の件数のカウント(S12)、電話番号の件数のカウント(S13)が行われる。これらの件数が、検査ルールとして設定された個人情報の漏洩を防止するための対処を実行するための所定の条件に合致するかを確認し(S14)、対処が必要と認定された場合には(S15)、プリントアウトの停止やメールの送信停止などの個人情報の漏洩を防止するための対処が実行される(S16)。所定の条件に合致しない場合は、対処を必要としないものと判断されて、個人情報の検査を終了し、受け付けたイベントを実行する処理に移行する。
【0071】
図12、図13のフローチャートを用いて、本発明にかかる個人情報検査プログラムによる個人名をカウントする処理フローについて説明する。図12は1文字が個人名であるかを判定するフローを、図13は2文字以上の文字列が個人名であるかを判定するフローを、それぞれ示している。
【0072】
個人名のカウントにおいては、検査対象のデータから、セパレータによって区切られた所定の文字又は文字列(例えば全角1〜6文字の文字又は文字列)が切り出される(S091)。切り出された文字列が1文字であるかを判定し(S092)、1文字である場合には、その文字が検査文字として検査ルールに登録された文字のいずれかと合致するかを確認する(S093)。
【0073】
検査文字に合致する場合には、個人名が1件存在したとしてカウントし(S094)、次の文字列があるかを確認する(S095)。検査文字に合致しない場合には、個人名にはカウントされずに、次の文字列があるかを確認する(S095)。
【0074】
切り出された文字列が1文字でない場合は、文字列の2文字目の文字を特定する(S096)。2文字目の文字が検査文字として検査ルールに登録された文字のいずれかと合致するかを確認し(S097)、検査文字に合致する場合には、個人名が1件存在したとしてカウントし(S094)、次の文字列があるかを確認する(S095)。検査文字に合致しない場合には、個人名にはカウントされずに、次の文字列があるかを確認する(S095)。
【0075】
これらの処理は、切り出された全ての文字列について検査が行われるまで繰り返され、検査対象のデータに含まれる個人名の合計件数が算出される。個人名の合計件数が算出されると、図11に示したように、メールアドレスをカウントする処理に移行する。
【0076】
尚、個人名の件数のカウントについては、これまでの例に説明したように検査対象となるデータ全体を検査して合計件数を算出することとしてもよいが、予め設定された個人情報の漏洩を防止するための対処が必要な件数を超過した時点において検査を打ち切り、直ちに対処を行うこととしてもよい。個人名の件数に限らず、メールアドレス、住所等のカウントに移行してから所定の件数を超過した時点において、同様の処理を行うこととしてもよい。
【図面の簡単な説明】
【0077】
【図1】本発明にかかる個人情報検査プログラムの機能を示す図である。
【図2】本発明にかかる個人情報検査システムの実施例を示す図である。
【図3】本発明にかかる個人情報検査システムの構成を示すブロック図である。
【図4】本発明にかかる個人情報検査プログラムにおいて用いられる検査対象イベントテーブルの一例を示す図である。
【図5】本発明にかかる個人情報検査プログラムにおいて用いられる検査レベルに関する個人情報検査ルールの一例を示す図である。
【図6】本発明にかかる個人情報検査プログラムにおいて用いられるデータ読み飛ばしに関する個人情報検査ルールの一例を示す図である。
【図7】本発明にかかる個人情報検査プログラムにおいて用いられる個人名に関する個人情報検査ルールの一例を示す図である。
【図8】本発明にかかる個人情報検査プログラムによって、個人名を検査する例を示す図である。
【図9】本発明にかかる個人情報検査プログラムによる個人情報検査の処理フローを示す第1のフローチャートである。
【図10】本発明にかかる個人情報検査プログラムによる個人情報検査の処理フローを示す第2のフローチャートである。
【図11】本発明にかかる個人情報検査プログラムによる個人情報検査の処理フローを示す第3のフローチャートである。
【図12】本発明にかかる個人情報検査プログラムによる個人名をカウントする処理フローを示す第1のフローチャートである。
【図13】本発明にかかる個人情報検査プログラムによる個人名をカウントする処理フローを示す第2のフローチャートである。
【符号の説明】
【0078】
10 ユーザ端末
11 CPU
12 RAM
13 ROM
14 HDD
141 個人情報検査プログラム
142 検査対象イベント記憶部
143 個人情報検査ルール記憶部
15 NIC
16 外部接続バス
20 入力装置
30 プリンタ
40 外部メディア
50 モニタサーバ
【技術分野】
【0001】
本発明は、プリントアウト、外部メディアへの書き出し、メール送信等の対象となるファイルに個人情報が含まれているかを検査するための個人情報検査プログラム、個人情報検査方法及び個人情報検査システムに関するものである。
【背景技術】
【0002】
企業等が保有する個人情報の漏洩事件が相次いでいることや、個人情報保護法の施行もあって、顧客情報等の個人情報の保護が企業等にとって近年特に重要な課題となっている。個人情報の漏洩は、記憶媒体等の持ち出しや、ネットワークへの不正アクセス等による電子データの流出や、電子データをプリントアウトした書類の流出によって発生することが多いため、企業等の組織内で使用するコンピュータからの情報漏洩対策が検討されるようになっている。
【0003】
コンピュータに記憶された個人情報の漏洩を防止するためには、個人情報が含まれる文書ファイルの書き出しやプリントアウト、個人情報が含まれる電子メールの送信等を監視して、適切な対処を行うことが好ましい。そのためには、対象となるファイルに個人情報が含まれるか否かを効率的に検査する技術が必要になる。
【0004】
このような課題に対処するために、コンピュータに記憶されているファイルのうち、個人情報要素を効率的に計数し、計数結果に基づいて個人情報が含まれるファイルを探索する発明が開示されている(特許文献1参照。)。
【0005】
【特許文献1】特許第3705439号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
対象となるファイルに個人情報が含まれるか否かの検査においては、特許文献1にも開示されているように、電話番号、電子メールアドレス、住所、氏名が所定の条件を満たす程度に含まれているか否かから、個人情報を含むファイルであることを判定することが可能である。この場合、電話番号、電子メールアドレス、住所については、文字列の形式に一定のパターンがあるため、これらの要素を識別することが比較的容易である。一方、個人(日本人)の氏名については、比較的文字数の少ない漢字やカナにより構成されるため、氏名以外の情報とどのように識別するかが問題になる。
【0007】
氏名である文字列を識別する方法として、日本人の一般的な氏名に用いられる文字列を氏名リストとして登録しておき、ファイルに含まれる文字列を氏名リストと対比する方法が考えられる。しかしながら、この方法によって精度の高い処理を行うためには、氏名リストの数をなるべく多くすることが必要であるが、氏名リストの数が多くなるほど照合処理の負担が重くなるという問題が生じる(特許文献1、5ページ1行目〜11行目参照。)。
【0008】
特許文献1記載の発明では、かかる問題に対応して、例えば「東京」「学校」「社長」といった、一般的な氏名においては出現し得ない文字列を不適切文字列として登録しておき、ファイルに含まれる文字列を不適切文字列と照合し、不適切文字列に該当しない文字列を氏名と判定することとしている。このような方法によって、氏名リストを登録して照合する場合に比べて、効率的な処理が可能になることとされている。
【0009】
しかしながら、特許文献1記載の不適切文字列を用いる方法においても、不適切文字列の登録が予め必要であることに相違はない。漢字で数文字の文字列であっても、氏名に該当し得ない文字列の数は膨大に存在することものと考えら得るが、精緻な判定を行うためには、なるべく多くの不適切文字列を登録しなければならないことにも相違はなく、精度を上げようとすると、結局のところ氏名リスト方式と同様に照合処理の負担が重くなることが予想される。
【0010】
本発明は、このような課題に対応するためになされたものであり、企業等の組織内から個人情報が漏洩することを防止するために、プリントアウト、外部メディアへの書き出し、メール送信等の対象となるファイルに個人情報が含まれているかを検査するための個人情報検査プログラム、個人情報検査方法及び個人情報検査システムであって、特にファイルに含まれる個人名(氏のみ、又は氏と名の組み合わせを含む)を効率的に識別することが可能な個人情報検査プログラム、個人情報検査方法及び個人情報検査システム提供することを目的とするものである。
【課題を解決するための手段】
【0011】
このような課題を解決するために、本発明は、検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査プログラムであって、漢字1文字について個人名と判定する漢字を記憶する第1の記憶部と、2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶部と、を備えるコンピュータに、前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別ステップと、前記識別ステップで識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択ステップと、前記選択ステップにおいて選択した文字又は文字列が1文字の場合、第1の記憶部に記憶された文字と対比して、一致する漢字がある場合には個人名と判定する第1の判定ステップと、前記選択ステップにおいて選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の漢字を第2の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定ステップと、前記第1の判定ステップ及び前記第2の判定ステップにおいて個人名と判定された件数をカウントする個人名カウントステップと、前記個人名カウントステップでカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査ステップと、を実行させることを特徴とする。
【0012】
本発明においては、対象となるファイルに個人情報が含まれるかの検査において、個人情報としてカウントすべき個人名(氏のみ又は氏名)を識別するために、1文字については当該文字と1文字からなる氏として用いられやすい漢字とを、2文字以上の文字列については2文字目に着目して、2文字目の文字と2文字以上からなる氏において2文字目に用いられやすい漢字とを照合することによって、効率的な処理を可能にしている。
【0013】
また、本発明は、前記コンピュータは、メールアドレスと判定する文字又は文字列を記憶する第3の記憶部と、住所と判定する文字又は文字列を記憶する第4の記憶部と、電話番号と判定する文字又は文字列を記憶する第5の記憶部と、を備えていて、前記コンピュータに、前記識別ステップで識別した文字又は文字列を、前記第3の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合にはメールアドレスと判定する第3の判定ステップと、前記識別ステップで識別した文字又は文字列を、前記第4の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には住所と判定する第4の判定ステップと、前記識別ステップで識別した文字又は文字列を、前記第5の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には電話番号と判定する第5の判定ステップと、前記第3の判定ステップにおいてメールアドレスと判定された件数をカウントするメールアドレスカウントステップと、前記第4の判定ステップにおいて住所と判定された件数をカウントする住所カウントステップと、前記第5の判定ステップにおいて電話番号と判定された件数をカウントする電話番号カウントステップと、を実行させ、前記検査ステップにおいては、前記個人名カウントステップでカウントした個人名の件数、前記メールアドレスカウントステップでカウントしたメールアドレスの件数、前記住所カウントステップでカウントした住所の件数、前記電話番号カウントステップでカウントした電話番号の件数から個人情報の件数をカウントし、所定の条件に合致するかを検査することを特徴としてもよい。
【0014】
対象となるファイルに含まれる個人情報は、個人名に限られず、メールアドレス、住所、電話番号も該当し得るものであるので、これらを個人情報として検査の対象に加えるよう構成することによって、精度の高い検査が可能になる。
【0015】
さらに、本発明は、前記コンピュータに、前記ファイルのデータサイズを特定し、前記データサイズが予め設定されたサイズを超過するかを判定するデータサイズ判定ステップを実行させ、前記コンピュータは、前記データサイズ判定ステップにおいて前記データサイズが予め設定されたサイズを超過すると判定された場合には、前記予め設定されたサイズを上限に検査を実行するか、又は個人情報の検査を実行しないことを特徴としてもよい。
【0016】
本発明によって、プリントアウトや外部メディアへの書き出し等が行われる全てのファイルを検査対象とすると、データサイズの大きいファイルについては処理に長時間を要することとなり、コンピュータにかかる負担が過大となる可能性がある。このように構成すると、コンピュータのユーザが処理負担と情報保全の必要性のバランスを考慮したデータサイズを設定することによって、効率的な検査が可能になる。
【0017】
さらに、本発明は、前記コンピュータは、ファイルのデータサイズに対応して先頭から読み飛ばすデータサイズを記憶する第6の記憶部を備えていて、前記コンピュータに、前記ファイルのデータサイズを特定し、前記第6の記憶部を参照して前記ファイルについて先頭から読み飛ばすデータサイズを特定する特定ステップを実行させ、前記コンピュータは、前記ファイルのうち、前記特定ステップにおいて特定されたデータサイズを読み飛ばした残りのデータを対象に、個人情報の検査を実行することを特徴としてもよい。
【0018】
コンピュータへの処理負担を軽減する方法として、このようにファイルサイズに応じた読み飛ばし部分を設定するように構成すると、ヘッダー情報等が記述されて比較的個人情報が含まれる可能性が低い先頭部分から所定のサイズを読み飛ばすことによって、検査の精度を著しく損なうことなく、検査にかかる処理負担を軽減することが可能になる。
【0019】
さらに、本発明は、本発明にかかる個人情報検査プログラムにより実行される個人情報検査方法として特定することもできる。
【0020】
つまり、本発明にかかる個人情報検査方法は、検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査方法であって、漢字1文字について個人名と判定する漢字を記憶する第1の記憶部と、2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶部と、を備えるコンピュータが、前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別ステップと、前記コンピュータが、前記識別ステップで識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択ステップと、前記コンピュータが、前記選択ステップにおいて選択した文字又は文字列が1文字の場合、第1の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第1の判定ステップと、前記コンピュータが、前記選択ステップにおいて選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の文字を第2の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定ステップと、前記コンピュータが、前記第1の判定ステップ及び前記第2の判定ステップにおいて個人名と判定された件数をカウントする個人名カウントステップと、前記コンピュータが、前記個人名カウントステップでカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査ステップと、を有することを特徴とする。
【0021】
また、本発明にかかる個人情報検査方法は、前記コンピュータは、メールアドレスと判定する文字又は文字列を記憶する第3の記憶部と、住所と判定する文字又は文字列を記憶する第4の記憶部と、電話番号と判定する文字又は文字列を記憶する第5の記憶部と、を備えていて、前記コンピュータが、前記識別ステップで識別した文字又は文字列を、前記第3の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合にはメールアドレスと判定する第3の判定ステップと、前記コンピュータが、前記識別ステップで識別した文字又は文字列を、前記第4の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には住所と判定する第4の判定ステップと、前記コンピュータが、前記識別ステップで識別した文字又は文字列を、前記第5の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には電話番号と判定する第5の判定ステップと、前記コンピュータが、前記第3の判定ステップにおいてメールアドレスと判定された件数をカウントするメールアドレスカウントステップと、前記コンピュータが、前記第4の判定ステップにおいて住所と判定された件数をカウントする住所カウントステップと、前記コンピュータが、前記第5の判定ステップにおいて電話番号と判定された件数をカウントする電話番号カウントステップと、を有していて、前記検査ステップにおいては、前記コンピュータが、前記個人名カウントステップでカウントした個人名の件数、前記メールアドレスカウントステップでカウントしたメールアドレスの件数、前記住所カウントステップでカウントした住所の件数、前記電話番号カウントステップでカウントした電話番号の件数から個人情報の件数をカウントし、所定の条件に合致するかを検査することを特徴とすることもできる。
【0022】
さらに、本発明にかかる個人情報検査方法は、前記コンピュータが、前記ファイルのデータサイズを特定し、前記データサイズが予め設定されたサイズを超過するかを判定するデータサイズ判定ステップを有していて、前記データサイズ判定ステップにおいて前記データサイズが予め設定されたサイズを超過すると判定された場合には、前記コンピュータは、個人情報の検査を実行しないことを特徴としてもよい。
【0023】
さらに、本発明にかかる個人情報検査方法は、前記コンピュータは、ファイルのデータサイズに対応して先頭から読み飛ばすデータサイズを記憶する第6の記憶部を備えていて、前記コンピュータが、前記ファイルのデータサイズを特定し、前記第6の記憶部を参照して前記ファイルについて先頭から読み飛ばすデータサイズを特定する特定ステップを有していて、前記コンピュータは、前記ファイルのうち、前記特定ステップにおいて特定されたデータサイズを読み飛ばした残りのデータを対象に、個人情報の検査を実行することを特徴としてもよい。
【0024】
さらに、本発明は、本発明にかかる個人情報検査プログラムを備えた個人情報検査システムとして特定することもできる。
【0025】
つまり、本発明にかかる個人情報検査システムは、検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査システムであって、漢字1文字について個人名と判定する漢字を記憶する第1の記憶手段と、2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶手段と、前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別手段と、前記識別手段が識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択手段と、前記選択手段が選択した文字又は文字列が1文字の場合、第1の記憶手段に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第1の判定手段と、前記選択手段において選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の文字を第2の記憶手段に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定手段と、前記第1の判定手段及び前記第2の判定手段において個人名と判定された件数をカウントする個人名カウント手段と、前記個人名カウント手段がカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査手段と、を備えることを特徴とする。
【0026】
また、本発明にかかる個人情報検査システムは、メールアドレスと判定する文字又は文字列を記憶する第3の記憶手段と、住所と判定する文字又は文字列を記憶する第4の記憶部と、電話番号と判定する文字又は文字列を記憶する第5の記憶手段部と、前記識別手段が識別した文字又は文字列を、前記第3の記憶手段に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合にはメールアドレスと判定する第3の判定手段と、前記識別手段が識別した文字又は文字列を、前記第4の記憶手段に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には住所と判定する第4の判定手段と、前記識別手段が識別した文字又は文字列を、前記第5の記憶手段に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には電話番号と判定する第5の判定手段と、前記第3の判定手段においてメールアドレスと判定された件数をカウントするメールアドレスカウント手段と、前記第4の判定手段において住所と判定された件数をカウントする住所カウント手段と、前記第5の判定手段において電話番号と判定された件数をカウントする電話番号カウント手段と、を備えていて、前記検査手段は、前記個人名カウントステップでカウントした個人名の件数、前記メールアドレスカウントステップでカウントしたメールアドレスの件数、前記住所カウントステップでカウントした住所の件数、前記電話番号カウントステップでカウントした電話番号の件数から個人情報の件数をカウントし、所定の条件に合致するかを検査することを特徴とすることもできる。
【発明の効果】
【0027】
本発明によって、企業等の組織内から個人情報が漏洩することを防止するために、プリントアウト、外部メディアへの書き出し、メール送信等の対象となるファイルに個人情報が含まれているかを検査する場合に、特にファイルに含まれる個人名(氏又は氏と名の組み合わせを含む)を効率的に識別することによって、コンピュータにかかる処理負担を軽減することが可能になる。
【発明を実施するための最良の形態】
【0028】
本発明を実施するための最良の形態について、図面を用いて以下に詳細に説明する。尚、以下の説明は本発明によって個人情報を検査する場合の一例を示したものであって、本発明はかかる実施形態に限定されるものではない。
【0029】
図1は、本発明にかかる個人情報検査プログラムの機能を示す図である。図2は、本発明にかかる個人情報検査システムの実施例を示す図である。図3は、本発明にかかる個人情報検査システムの構成を示すブロック図である。図4は、本発明にかかる個人情報検査プログラムにおいて用いられる検査対象イベントテーブルの一例を示す図である。図5は、本発明にかかる個人情報検査プログラムにおいて用いられる検査レベルに関する個人情報検査ルールの一例を示す図である。図6は、本発明にかかる個人情報検査プログラムにおいて用いられるデータ読み飛ばしに関する個人情報検査ルールの一例を示す図である。図7は、本発明にかかる個人情報検査プログラムにおいて用いられる個人名に関する個人情報検査ルールの一例を示す図である。図8は、本発明にかかる個人情報検査プログラムによって、個人名を検査する例を示す図である。図9〜図11は、本発明にかかる個人情報検査プログラムによる個人情報検査の処理フローを示す、それぞれ第1〜第3のフローチャートである。図12、図13は、本発明にかかる個人情報検査プログラムによる個人名をカウントする処理フローを示す、それぞれ第1、第2のフローチャートである。
【0030】
図1を用いて、本発明にかかる個人情報検査プログラムの機能と利用形態について説明する。企業等の組織内において使用されているコンピュータに、顧客名簿等の個人情報を含むファイルAと、社内報など個人情報を含まないファイルBが記憶されているとする。ここで、ファイルAとファイルBそれぞれについて、外部記憶媒体への書き出し命令が行われると、外部記憶媒体への書き出し処理を実行する前に、個人情報検査プログラムによって書き出し処理の対象であるファイルに個人情報が含まれるかの検査が行われる。
【0031】
個人情報検査プログラムによる検査では、個人情報に該当する情報が予め定義されていて、検査対象であるファイルに含まれる個人情報を検出し、検出した個人情報の件数等が所定のルールに該当する場合には、当該ファイルは個人情報の漏洩を防止するための対処が必要なファイルであると判定される。図1の例では、ファイルAは個人情報の漏洩を防止するための対処が必要と判定されるため、外部記憶媒体への書き出しが禁止されるが、ファイルBは対処が必要ないと判定され、外部記憶媒体への書き出し処理が実行される。
【0032】
尚、個人情報検査プログラムによる検査が必要となるのは、図1の例に示したファイルの外部記憶媒体への書き出しに限られず、ファイルのプリントアウト、添付ファイルを付した電子メールの送信、ファイルの新規作成や更新など、様々なイベントを実行する際に検査を行って、個人情報の漏洩を防止するように構成することができる。
【0033】
図2は、本発明にかかる個人情報検査システムを、企業等の組織内のネットワークにおいて活用する実施例を示す図である。図2に示した社内LAN等のネットワークには、組織の構成員が利用するユーザ端末の他、ファイルサーバ、ネットワークプリンタやメールサーバ等が接続されていて、ゲートウェイサーバを介してインターネットに接続されている。ユーザ端末を操作することによって、ユーザ端末やファイルサーバに記憶されたファイルをユーザ端末と接続されたプリンタへの出力、外部メディアへの書き出し等が行える他、ネットワークプリンタへの印刷、電子メールの送受信、Webページの閲覧等を行うことが可能となっている。
【0034】
本発明にかかる個人情報検査プログラムは、各々のユーザ端末に記憶されている。ユーザ端末において、ファイルのプリントアウトや書き出し命令、メールの送信命令などを受け付けると、個人情報検査プログラムによって対象となるファイルに個人情報が含まれているかの検査が実行される。検査の対象となるファイルは、ユーザ端末に記憶されたファイルであってもよいし、ネットワークで共有されるファイルサーバに記憶されたファイルであってもよい。
【0035】
個人情報の検査は、対象となるファイルから、ユーザ端末に記憶された個人情報を定義した条件に該当する文字や文字列を検出することによって行われる。個人情報を定義した条件としては、個人名、住所、電話番号、メールアドレスなどに含まれる文字や文字列が定められている。このような条件は、各々のユーザ端末に記憶されているが、モニタサーバにおいて設定された条件をユーザ端末に配信するように構成することによって、端末間の検査の精度のばらつきを防止し、各々のユーザ端末に記憶された条件が最新の状態に維持されることとなる。
【0036】
ユーザ端末において個人情報の検査が行われ、個人情報に該当する文字や文字列が所定の条件に合致する場合には、個人情報の漏洩を防止するための対処が実行される。対処の方法は特に限定されるものではないが、例えば、プリントアウトや書き出し、メール送信などのユーザ端末で受け付けたイベントの停止の他、ユーザ端末やモニタサーバへの警告表示などが含まれる。
【0037】
このような個人情報の検査は、ユーザによる操作を受け付けるユーザ端末において行うことが好ましいが、ユーザ端末からの命令を受けて処理を実行するファイルサーバ、メールサーバ、ゲートウェイサーバ等に本発明にかかる個人情報検査プログラムを記憶させ、検査を実行させることとしてもよい。
【0038】
図3〜図8を用いて、本発明にかかる個人情報検査プログラムによって実行されるコンピュータの動作と、個人情報検査の具体的な方法について説明する。図3は、本発明にかかる個人情報検査プログラムを動作させるためのコンピュータの構成の一例を示したものである。
【0039】
本発明にかかる個人情報検査プログラムによって個人情報の検査を行うユーザ端末10には、CPU11、RAM12、ROM13、HDD14、NIC15、外部接続バス16が備えられている。HDD14に記憶されたアプリケーションプログラムを実行する場合には、ROM13に記憶された入力制御や出力制御などのハードウェア制御のための基本的な各種プログラムを起動し、HDD14に記憶されたアプリケーションプログラムを読み出して、RAM12をワークエリアとして機能させながら、CPU11により演算処理を実行する。
【0040】
HDD14には個人情報検査プログラム141が記憶されていて、ファイルのプリントアウトや書き出しなどの検査対象イベント記憶部142に定められた所定のイベントの実行が受け付けられると、HDD14から個人情報検査プログラム141が読み出され、対象となるファイルに個人情報が含まれるかの検査が行われる。個人情報の検査は、個人情報検査ルール記憶部143に記憶された条件を基準にして行われる。
【0041】
尚、検査対象イベント記憶部142に記憶される検査対象イベントや、個人情報検査ルール記憶部143に記憶される個人情報の検査ルールなどの個人情報ポリシーについては、モニタサーバ50において設定され、ユーザ端末10に配信されるように構成することができる。これによって、ユーザ端末10ではモニタサーバ50に設定されたより精度の高いルールの適用を受けることが可能になるが、検査対象イベントや、個人情報の検査ルールのうち検査レベルなど一部のルールについては、ユーザ端末でユーザが各々設定できるよう構成してもよい。
【0042】
ユーザ端末10が、入力装置20から様々な処理命令を受け付けると、個人情報検査プログラム141によって、受け付けた命令が個人情報の検査を要するものであるか否かについて、検査対象イベント記憶部142を参照して判断される。図4は、検査対象イベント記憶部142に記憶された検査対象イベントテーブルの一例であるが、外部メディアへの書き出し、印刷、メールの送信、Webの閲覧、ファイルの新規作成、更新、削除、ファイル名変更等のイベント毎に、検査対象であるかが設定されている。この例では、メールの送信とファイル名の変更は検査対象にはならないが、それ以外のイベントについては、全て個人情報の検査が行われることとなっている。
【0043】
このような検査対象の設定については、ユーザ端末10を使用するユーザが各々行うこととしてもよいが、システム管理者等がモニタサーバ50において設定した検査対象を、各々のユーザ端末に配信することとしてもよい。
【0044】
ユーザ端末10が受け付けた操作が、検査対象イベント記憶部142において検査対象となるイベントであると定義されていた場合は、受け付けた操作において出力や書き出しの対象となっているファイル等の個人情報の検査対象となるファイルを取得する。尚、メールの送信を検査する場合については、メール本文には発信者の署名が含まれることが多いため、全てが個人情報と判定されて送信が停止されてしまう恐れがある。従って、メールを検査する場合については、メール本文を検査対象からは除外し、添付ファイルのみを検査することとしてもよい。
【0045】
続いて、取得したファイルのデータサイズを確認する。データサイズを個人情報検査ルール記憶部143に記憶されたルールと対比して、データサイズが検査対象から除外されているものである場合には、検査は行われずに受け付けた操作がそのまま実行される。
【0046】
図5は、個人情報検査ルール記憶部143に記憶されに記憶された検査レベルに関する個人情報検査ルールの一例を示したものであるが、検査対象として定められたデータサイズに対応する部分についてのみ個人情報の検査を行い、データサイズを超える部分については検査の対象外とする。尚、ファイルのどの部分を検査対象とするかについては、先頭から所定のサイズまで、末尾から所定のサイズまでなどを設定することが可能であるが、特に限定されるものではない。又は、検査対象として定められたデータサイズ以下のファイルについてのみ個人情報の検査を行い、定められたデータサイズを超えるがファイルについては検査を行わないこととしてもよい。データサイズが大きいものについて検査を行うと、コンピュータへの処理負担が増大し、処理にかかる時間も要することになるため、ユーザ端末10を使用するユーザ毎に与えられた権限や使用状況に応じて、検査レベルを設定することができることとなっている。
【0047】
このような検査レベルの設定については、ユーザ端末10を使用するユーザが各々行うこととしてもよいが、システム管理者等がモニタサーバ50において設定した検査レベルを、各々のユーザ端末に配信することとしてもよい。
【0048】
また、検査対象として取得したファイルのデータサイズに応じて、検査を行わない読み飛ばし部分を設定することもできる。取得したファイルのデータサイズを確認し、個人情報検査ルール記憶部143を参照して、データサイズに対応する読み飛ばしサイズを読み飛ばした後の部分から、個人情報の検査を実行する。
【0049】
図6は、個人情報検査ルール記憶部143に記憶されに記憶されたデータ読み飛ばしに関する個人情報検査ルールの一例を示したものであるが、取得したファイルのデータサイズに対応するデータ読み飛ばしサイズを特定し、特定されたデータ読み飛ばしサイズ分をファイルの先頭から読み飛ばした後のデータについて、個人情報の検査を実行する。
【0050】
このようなデータ読み飛ばしサイズの設定については、ユーザ端末10を使用するユーザが各々行うこととしてもよいが、システム管理者等がモニタサーバ50において設定したデータ読み飛ばしサイズを、各々のユーザ端末に配信することとしてもよい。また、全てのファイルについてデータ読み飛ばしを行わず、ファイルの全てのデータを検査するように設定することとしてもよい。
【0051】
検査対象となったファイルのうち、読み飛ばし部分の後の検査対象となるデータについては、以下のような処理によって個人情報が含まれるか否かの検査が行われる。まず、スペースやカンマなどの所定のセパレータによって区切られた文字又は文字列(以下の説明において、文字には数字や符号を、文字列には数字列や符号列及び文字、数字、符号の組合せを含むこととする)を、個人情報であるかを判定する対象として切り出す。切り出した文字又は文字列が、個人情報検査ルール記憶部143に記憶された個人名、メールアドレス、住所、電話番号等に含まれる文字等を定義したルールに該当するかを判定し、該当する場合には個人情報として件数がカウントされる。
【0052】
尚、ここで判定の対象となる文字又は文字列を切り出す方法は特に限定されるものではなく、セパレータについても、スペースやカンマの他に、>、<、改行、セミコロン、読点などのように文字や文字列を区切る様々な符号等を採用することが可能であり、ここに挙げた例に特に限定されるものではない。
【0053】
カウントされた個人情報の件数が所定の条件に該当する場合には、対象となったファイルについては、個人情報の漏洩を防止するための対処が必要なものであると判断され、プリンタ30へのプリントアウトや外部メディア40への書き出しの停止、モニタサーバ50への警告などの処理が実行される。ここで定められる条件について特に限定されるものではないが、カウントされた個人情報の絶対数を条件とする場合は、対処のための処理を要求する件数のレベルによって、個人情報の漏洩のための強度を調整することができる。このような条件については、個人情報検査ルール記憶部143に検査ルールの一部として記憶される。
【0054】
個人情報検査ルール記憶部143に記憶された個人情報を定義したルールについては、メールアドレスであれば、例えば、アットマーク(@)やドット(.)を含む文字列であること等を定めることができる。住所であれば、例えば、区、市、などの文字を含むこと等を定めることができる。電話番号であれば、例えば、半角9〜17文字であること、ハイフン(−)を含むこと等を定めることができる。
【0055】
一方、個人名であるかの判断については、メールアドレス、住所、電話番号等に比べて汎用的なルールを設定することが難しく、通常は個人名に該当する氏や氏名を定めた氏名リストを登録し、切り出された文字や文字列が氏名リストに登録された文字又は文字列に該当するかの対比が行われる。しかしながら、精度の高い判定を行うためには、氏名リストに登録する件数をなるべく多くしなければならず、氏名リストの件数が多くなるほど照合処理の負担が重くなり、通常の操作に支障が生じやすくなってしまう。
【0056】
そこで、本発明においては、図7の例に示したようなルールを設定することによって、少ない登録件数で検査の精度を高めて、コンピュータの処理負担を著しく軽減することを可能にしている。この例では、セパレータにより切り出された文字又は文字列のうち、全角1〜6文字の文字又は文字列を対象に、全角1文字の場合は当該文字がリストに登録された文字であるか否か、全角2〜6文字の場合は2文字目の文字がリストに登録された文字であるか否かによって、切り出した文字列が個人名であるか否かを判定することとしている。尚、検査の対象となる文字列の文字数の上限は6文字に限定されるものではなく、2文字以上であれば何文字であってもよいが、日本人の氏名の一般的な文字数を考慮すると、6文字に設定することが好ましい。
【0057】
セパレータにより切り出された文字又は文字列については、まず全角1文字の文字であるか否かが確認される。全角1文字の場合には、図7の例に示したように、日本人の1文字の氏に多く使われる「林、森、島、谷、原」等の文字が検査文字として登録されたリストと照合される。いずれかの検査文字と一致する場合には、個人名であると判定される。
【0058】
全角1文字の文字に該当しない場合には、全角2〜6文字の文字列であるか否かが確認される。全角2〜6文字の漢字の場合には、図7の例に示したように、日本人の2文字以上の氏の2文字目に多く使われる「藤、木、橋、中、辺、本、村、林、田」等の文字が検査文字として登録されたリストと照合される。いずれかの検査文字と一致する場合には、個人名であると判定される。
【0059】
日本人の氏名においては、2文字目に使用される漢字の種類が比較的限定されているため、このように2文字以上の文字列を対象にする場合には、2文字目の対比のみを行うことによって、リストに登録する文字の数を抑制しながら、比較的精度の高い検査を行うことが可能になる。また、リストに登録して照合する文字が1文字のみとなるため、2文字以上の氏名を登録する場合に比べて、照合の対象となる文字コードの数が著しく削減されて、コンピュータの処理負担を軽減することが可能になる。
【0060】
図8は、本発明によって行われる個人名の検査の具体例を示している。1行目からは、スペースをセパレータとして、「001」、「原」、「一郎」、「03−1234−5678・・・」という文字又は文字列が切り出され、このうち全角1〜6文字の文字又は文字列である「原」、「一郎」が個人名の検査の対象となる。「原」は1文字であるため、1文字の場合の検査文字と照合し、検査文字には「原」が含まれているため個人名であると判定され、個人情報が1件存在しているとカウントされる。「一郎」については2文字の文字列であるため、2文字目の「郎」と、2文字の場合の検査文字とを照合し、検査文字には「郎」が含まれていないため、個人情報にはカウントされない。
【0061】
2行目についても同様に、「佐藤」、「二郎」について、それぞれ2文字目の「藤」と「郎」と、2文字の場合の検査文字との照合が行われ、「佐藤」については、検査文字には「藤」が含まれているため個人名であると判定され、個人情報が1件存在しているとカウントされる。「二郎」については、検査文字には「郎」が含まれていないため、個人情報にはカウントされない。
【0062】
3行目については、氏と名の間にスペースが設けられていないため、「田中三郎」の4文字の文字列が切り出されて、2文字目の「中」と、2文字の場合の検査文字との照合が行われ、検査文字には「中」が含まれているため個人名であると判定され、個人情報が1件存在しているとカウントされる。
【0063】
尚、本発明においては、氏のみでなく、名についても同様に、1文字目と2文字目に用いられやすい文字を登録して検査を行うこととしてもよいが、氏、名、それぞれについて検査を行うこととすると、氏と名がスペースにおいて区切られていた場合に、1人の氏名を2件としてカウントしてしまう可能性が生じる。そうすると、同じ人数の個人情報が含まれるファイルであっても、氏のみのリストと氏名のリストではカウントされる件数が著しく異なることとなってしまうため、いずれか一方を基準にしてカウントすることが好ましい。その場合、名のみで個人名を特定するケースに比べて、氏のみで個人名を特定するケースが多いこと、名を基準にすると氏名をスペースなしで記載した場合に何番目の文字を検査するかが特定し難いことから、氏のみを基準に検査を行うことが好適である。
【0064】
このように個人名の件数のカウントが行われると、メールアドレス、住所、電話番号等の件数と合わせて検査対象となるファイルに含まれる個人情報の件数が集計され、個人情報の漏洩を防止するための対処を行う条件に合致するかが確認される。この条件については特に限定されるものではなく、全ての合計件数を基準にしてもよいし、各々の要素について基準値を設定して条件を定めることとしてもよく、個人情報の漏洩を防止する必要性とコンピュータにかかる処理負担等のバランスを考慮して、ユーザやシステム管理者が個別に設定できることとしてもよい。
【0065】
所定の条件に合致した場合に行われる対処としては、例えばプリンタ30へのプリントアウトや外部メディア40への書き出しの停止、モニタサーバ50への警告、NIC15を介してネットワークに発信されるメールの送信停止等を行うこととすればよい。
【0066】
図9〜図11のフローチャートを用いて、本発明にかかる個人情報検査プログラムによる個人情報検査の処理フローについて説明する。図9は対象イベントであるかを判定するフローを、図10は検査対象となるデータを特定するフローを、図11は個人情報をカウントして必要な場合は個人情報の漏洩を防止するための対処を実行するフローを、それぞれ示している。
【0067】
まず、本発明にかかる個人情報検査プログラムが動作するコンピュータにおいて、ファイルのプリントアウトやメール送信等のイベントの実行を受け付けると(S01)、個人情報の検査対象を指定した検査対象イベントテーブルを参照して(S02)、受け付けたイベントが個人情報の検査対象であるかを判定する(S03)。検査対象に該当しない場合は、個人情報の検査を終了し、受け付けたイベントを実行する処理に移行する。
【0068】
個人情報の検査対象であると判定された場合には、個人情報を検査する対象となるファイルを取得する(S04)。検査対象となるファイルは、プリントアウトや書き出しの対象として指定されたファイルや、送信されるメールの添付ファイル等である。取得したファイルのデータサイズを読み取って(S05)、検査対象として検査ルールに設定された所定のサイズ以下のファイルであるかを確認する(S06)。
【0069】
所定のサイズを超過する場合には、定められたデータサイズを上限として、検査の対象となるファイルのうち、検査対象となる部分を特定する(S09)。ここでファイルのどの部分を検査対象として特定するかについては、特に限定されるものではない。所定のサイズ以下である場合は、ファイル全体が検査対象となるが、いずれのケースにおいても、続いてデータサイズに応じて検査ルールとして設定された読み飛ばしサイズを取得し(S07)、読み飛ばしサイズを読み飛ばした後以降の検査対象データを特定する(S08)。
【0070】
続いて、検査対象データに含まれる個人情報として、個人名の件数のカウント(S10)、メールアドレスの件数のカウント(S11)、住所の件数のカウント(S12)、電話番号の件数のカウント(S13)が行われる。これらの件数が、検査ルールとして設定された個人情報の漏洩を防止するための対処を実行するための所定の条件に合致するかを確認し(S14)、対処が必要と認定された場合には(S15)、プリントアウトの停止やメールの送信停止などの個人情報の漏洩を防止するための対処が実行される(S16)。所定の条件に合致しない場合は、対処を必要としないものと判断されて、個人情報の検査を終了し、受け付けたイベントを実行する処理に移行する。
【0071】
図12、図13のフローチャートを用いて、本発明にかかる個人情報検査プログラムによる個人名をカウントする処理フローについて説明する。図12は1文字が個人名であるかを判定するフローを、図13は2文字以上の文字列が個人名であるかを判定するフローを、それぞれ示している。
【0072】
個人名のカウントにおいては、検査対象のデータから、セパレータによって区切られた所定の文字又は文字列(例えば全角1〜6文字の文字又は文字列)が切り出される(S091)。切り出された文字列が1文字であるかを判定し(S092)、1文字である場合には、その文字が検査文字として検査ルールに登録された文字のいずれかと合致するかを確認する(S093)。
【0073】
検査文字に合致する場合には、個人名が1件存在したとしてカウントし(S094)、次の文字列があるかを確認する(S095)。検査文字に合致しない場合には、個人名にはカウントされずに、次の文字列があるかを確認する(S095)。
【0074】
切り出された文字列が1文字でない場合は、文字列の2文字目の文字を特定する(S096)。2文字目の文字が検査文字として検査ルールに登録された文字のいずれかと合致するかを確認し(S097)、検査文字に合致する場合には、個人名が1件存在したとしてカウントし(S094)、次の文字列があるかを確認する(S095)。検査文字に合致しない場合には、個人名にはカウントされずに、次の文字列があるかを確認する(S095)。
【0075】
これらの処理は、切り出された全ての文字列について検査が行われるまで繰り返され、検査対象のデータに含まれる個人名の合計件数が算出される。個人名の合計件数が算出されると、図11に示したように、メールアドレスをカウントする処理に移行する。
【0076】
尚、個人名の件数のカウントについては、これまでの例に説明したように検査対象となるデータ全体を検査して合計件数を算出することとしてもよいが、予め設定された個人情報の漏洩を防止するための対処が必要な件数を超過した時点において検査を打ち切り、直ちに対処を行うこととしてもよい。個人名の件数に限らず、メールアドレス、住所等のカウントに移行してから所定の件数を超過した時点において、同様の処理を行うこととしてもよい。
【図面の簡単な説明】
【0077】
【図1】本発明にかかる個人情報検査プログラムの機能を示す図である。
【図2】本発明にかかる個人情報検査システムの実施例を示す図である。
【図3】本発明にかかる個人情報検査システムの構成を示すブロック図である。
【図4】本発明にかかる個人情報検査プログラムにおいて用いられる検査対象イベントテーブルの一例を示す図である。
【図5】本発明にかかる個人情報検査プログラムにおいて用いられる検査レベルに関する個人情報検査ルールの一例を示す図である。
【図6】本発明にかかる個人情報検査プログラムにおいて用いられるデータ読み飛ばしに関する個人情報検査ルールの一例を示す図である。
【図7】本発明にかかる個人情報検査プログラムにおいて用いられる個人名に関する個人情報検査ルールの一例を示す図である。
【図8】本発明にかかる個人情報検査プログラムによって、個人名を検査する例を示す図である。
【図9】本発明にかかる個人情報検査プログラムによる個人情報検査の処理フローを示す第1のフローチャートである。
【図10】本発明にかかる個人情報検査プログラムによる個人情報検査の処理フローを示す第2のフローチャートである。
【図11】本発明にかかる個人情報検査プログラムによる個人情報検査の処理フローを示す第3のフローチャートである。
【図12】本発明にかかる個人情報検査プログラムによる個人名をカウントする処理フローを示す第1のフローチャートである。
【図13】本発明にかかる個人情報検査プログラムによる個人名をカウントする処理フローを示す第2のフローチャートである。
【符号の説明】
【0078】
10 ユーザ端末
11 CPU
12 RAM
13 ROM
14 HDD
141 個人情報検査プログラム
142 検査対象イベント記憶部
143 個人情報検査ルール記憶部
15 NIC
16 外部接続バス
20 入力装置
30 プリンタ
40 外部メディア
50 モニタサーバ
【特許請求の範囲】
【請求項1】
検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査プログラムであって、漢字1文字について個人名と判定する漢字を記憶する第1の記憶部と、2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶部と、を備えるコンピュータに、
前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別ステップと、
前記識別ステップで識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択ステップと、
前記選択ステップにおいて選択した文字又は文字列が1文字の場合、第1の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第1の判定ステップと、
前記選択ステップにおいて選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の文字を第2の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定ステップと、
前記第1の判定ステップ及び前記第2の判定ステップにおいて個人名と判定された件数をカウントする個人名カウントステップと、
前記個人名カウントステップでカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査ステップと、
を実行させることを特徴とする個人情報検査プログラム。
【請求項2】
前記コンピュータは、メールアドレスと判定する文字又は文字列を記憶する第3の記憶部と、住所と判定する文字又は文字列を記憶する第4の記憶部と、電話番号と判定する文字又は文字列を記憶する第5の記憶部と、を備えていて、前記コンピュータに、
前記識別ステップで識別した文字又は文字列を、前記第3の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合にはメールアドレスと判定する第3の判定ステップと、
前記識別ステップで識別した文字又は文字列を、前記第4の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には住所と判定する第4の判定ステップと、
前記識別ステップで識別した文字又は文字列を、前記第5の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には電話番号と判定する第5の判定ステップと、
前記第3の判定ステップにおいてメールアドレスと判定された件数をカウントするメールアドレスカウントステップと、
前記第4の判定ステップにおいて住所と判定された件数をカウントする住所カウントステップと、
前記第5の判定ステップにおいて電話番号と判定された件数をカウントする電話番号カウントステップと、を実行させ、
前記検査ステップにおいては、前記個人名カウントステップでカウントした個人名の件数、前記メールアドレスカウントステップでカウントしたメールアドレスの件数、前記住所カウントステップでカウントした住所の件数、前記電話番号カウントステップでカウントした電話番号の件数から個人情報の件数をカウントし、所定の条件に合致するかを検査すること
を特徴とする請求項1記載の個人情報検査プログラム。
【請求項3】
前記コンピュータに、
前記ファイルのデータサイズを特定し、前記データサイズが予め設定されたサイズを超過するかを判定するデータサイズ判定ステップを実行させ、
前記コンピュータは、前記データサイズ判定ステップにおいて前記データサイズが予め設定されたサイズを超過すると判定された場合には、前記予め設定されたサイズを上限に検査を実行するか、又は個人情報の検査を実行しないこと
を特徴とする請求項1又は2記載の個人情報検査プログラム。
【請求項4】
前記コンピュータは、ファイルのデータサイズに対応して先頭から読み飛ばすデータサイズを記憶する第6の記憶部を備えていて、前記コンピュータに、
前記ファイルのデータサイズを特定し、前記第6の記憶部を参照して前記ファイルについて先頭から読み飛ばすデータサイズを特定する特定ステップを実行させ、
前記コンピュータは、前記ファイルのうち、前記特定ステップにおいて特定されたデータサイズを読み飛ばした残りのデータを対象に、個人情報の検査を実行すること
を特徴とする請求項1乃至3いずれかに記載の個人情報検査プログラム。
【請求項5】
検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査方法であって、
漢字1文字について個人名と判定する漢字を記憶する第1の記憶部と、2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶部と、を備えるコンピュータが、前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別ステップと、
前記コンピュータが、前記識別ステップで識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択ステップと、
前記コンピュータが、前記選択ステップにおいて選択した文字又は文字列が1文字の場合、第1の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第1の判定ステップと、
前記コンピュータが、前記選択ステップにおいて選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の文字を第2の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定ステップと、
前記コンピュータが、前記第1の判定ステップ及び前記第2の判定ステップにおいて個人名と判定された件数をカウントする個人名カウントステップと、
前記コンピュータが、前記個人名カウントステップでカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査ステップと、
を有することを特徴とする個人情報検査方法。
【請求項6】
検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査システムであって、
漢字1文字について個人名と判定する漢字を記憶する第1の記憶手段と、
2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶手段と、
前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別手段と、
前記識別手段が識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択手段と、
前記選択手段が選択した文字又は文字列が1文字の場合、第1の記憶手段に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第1の判定手段と、
前記選択手段において選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の文字を第2の記憶手段に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定手段と、
前記第1の判定手段及び前記第2の判定手段において個人名と判定された件数をカウントする個人名カウント手段と、
前記個人名カウント手段がカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査手段と、
を備えることを特徴とする個人情報検査システム。
【請求項1】
検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査プログラムであって、漢字1文字について個人名と判定する漢字を記憶する第1の記憶部と、2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶部と、を備えるコンピュータに、
前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別ステップと、
前記識別ステップで識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択ステップと、
前記選択ステップにおいて選択した文字又は文字列が1文字の場合、第1の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第1の判定ステップと、
前記選択ステップにおいて選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の文字を第2の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定ステップと、
前記第1の判定ステップ及び前記第2の判定ステップにおいて個人名と判定された件数をカウントする個人名カウントステップと、
前記個人名カウントステップでカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査ステップと、
を実行させることを特徴とする個人情報検査プログラム。
【請求項2】
前記コンピュータは、メールアドレスと判定する文字又は文字列を記憶する第3の記憶部と、住所と判定する文字又は文字列を記憶する第4の記憶部と、電話番号と判定する文字又は文字列を記憶する第5の記憶部と、を備えていて、前記コンピュータに、
前記識別ステップで識別した文字又は文字列を、前記第3の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合にはメールアドレスと判定する第3の判定ステップと、
前記識別ステップで識別した文字又は文字列を、前記第4の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には住所と判定する第4の判定ステップと、
前記識別ステップで識別した文字又は文字列を、前記第5の記憶部に記憶された文字又は文字列と対比して、一致する文字又は文字列がある場合には電話番号と判定する第5の判定ステップと、
前記第3の判定ステップにおいてメールアドレスと判定された件数をカウントするメールアドレスカウントステップと、
前記第4の判定ステップにおいて住所と判定された件数をカウントする住所カウントステップと、
前記第5の判定ステップにおいて電話番号と判定された件数をカウントする電話番号カウントステップと、を実行させ、
前記検査ステップにおいては、前記個人名カウントステップでカウントした個人名の件数、前記メールアドレスカウントステップでカウントしたメールアドレスの件数、前記住所カウントステップでカウントした住所の件数、前記電話番号カウントステップでカウントした電話番号の件数から個人情報の件数をカウントし、所定の条件に合致するかを検査すること
を特徴とする請求項1記載の個人情報検査プログラム。
【請求項3】
前記コンピュータに、
前記ファイルのデータサイズを特定し、前記データサイズが予め設定されたサイズを超過するかを判定するデータサイズ判定ステップを実行させ、
前記コンピュータは、前記データサイズ判定ステップにおいて前記データサイズが予め設定されたサイズを超過すると判定された場合には、前記予め設定されたサイズを上限に検査を実行するか、又は個人情報の検査を実行しないこと
を特徴とする請求項1又は2記載の個人情報検査プログラム。
【請求項4】
前記コンピュータは、ファイルのデータサイズに対応して先頭から読み飛ばすデータサイズを記憶する第6の記憶部を備えていて、前記コンピュータに、
前記ファイルのデータサイズを特定し、前記第6の記憶部を参照して前記ファイルについて先頭から読み飛ばすデータサイズを特定する特定ステップを実行させ、
前記コンピュータは、前記ファイルのうち、前記特定ステップにおいて特定されたデータサイズを読み飛ばした残りのデータを対象に、個人情報の検査を実行すること
を特徴とする請求項1乃至3いずれかに記載の個人情報検査プログラム。
【請求項5】
検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査方法であって、
漢字1文字について個人名と判定する漢字を記憶する第1の記憶部と、2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶部と、を備えるコンピュータが、前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別ステップと、
前記コンピュータが、前記識別ステップで識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択ステップと、
前記コンピュータが、前記選択ステップにおいて選択した文字又は文字列が1文字の場合、第1の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第1の判定ステップと、
前記コンピュータが、前記選択ステップにおいて選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の文字を第2の記憶部に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定ステップと、
前記コンピュータが、前記第1の判定ステップ及び前記第2の判定ステップにおいて個人名と判定された件数をカウントする個人名カウントステップと、
前記コンピュータが、前記個人名カウントステップでカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査ステップと、
を有することを特徴とする個人情報検査方法。
【請求項6】
検査対象となるファイルに、個人名を含む所定の個人情報が含まれるかを検査するための個人情報検査システムであって、
漢字1文字について個人名と判定する漢字を記憶する第1の記憶手段と、
2文字以上n文字(nは2以上の自然数)以下の文字列において2文字目にある場合に個人名と判定する漢字を記憶する第2の記憶手段と、
前記ファイルに含まれる所定のセパレータで区切られた文字又は文字列を識別する識別手段と、
前記識別手段が識別した文字又は文字列のうち、1文字以上n文字以下の文字又は文字列を選択する選択手段と、
前記選択手段が選択した文字又は文字列が1文字の場合、第1の記憶手段に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第1の判定手段と、
前記選択手段において選択した文字又は文字列が2文字以上n文字以下の場合、前記文字列の2文字目の文字を第2の記憶手段に記憶された漢字と対比して、一致する漢字がある場合には個人名と判定する第2の判定手段と、
前記第1の判定手段及び前記第2の判定手段において個人名と判定された件数をカウントする個人名カウント手段と、
前記個人名カウント手段がカウントした個人名の件数を含む前記ファイルに含まれる個人情報の件数が、所定の条件に合致するかを検査する検査手段と、
を備えることを特徴とする個人情報検査システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2007−241580(P2007−241580A)
【公開日】平成19年9月20日(2007.9.20)
【国際特許分類】
【出願番号】特願2006−61929(P2006−61929)
【出願日】平成18年3月7日(2006.3.7)
【出願人】(397067853)株式会社インテリジェントウェイブ (20)
【Fターム(参考)】
【公開日】平成19年9月20日(2007.9.20)
【国際特許分類】
【出願日】平成18年3月7日(2006.3.7)
【出願人】(397067853)株式会社インテリジェントウェイブ (20)
【Fターム(参考)】
[ Back to top ]