説明

個人情報マスク方法、個人情報マスク装置、個人情報マスクプログラム

【課題】Web閲覧履歴を利用するにあたってマスクされた文字列を修正する作業を軽減し、データ収集作業の時間やコストの抑制に貢献する。
【解決手段】個人情報マスク装置1のデータ読込部2は入力データD1を読み込む。マスク対象指定部3は、マスク対象辞書DB8の辞書を用いて入力データD1内でマスク処理するマスク対象範囲を指定する。個人情報検出部4は、個人情報辞書DB9の個人情報辞書に含まれる文字列を前記指定部3で指定されたマスク対象範囲から検出する。個人情報マスク生成部5は、前記検出部4の検出文字列をマスクするためのマスク文字列を生成し、マスク文字列DB10に格納する。個人情報置換部6は、前記検出部4の検出文字列を前記DB10のマスク文字列に置換する。データ出力部7は、置換されたマスク文字列を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力データ中から姓名や住所などの個人情報の部分を検出し、検出された部分をマスク(マスキング)する技術に関する。
【背景技術】
【0002】
インターネット上の情報は容易に拡大し、半永久的に残ることがあり、特に個人情報の流出はプライバシー侵害となるおそれもある。そこで、個人情報保護の観点から姓名や住所などの個人情報を含むデータ中の個人情報の部分を検出し、検出された部分の文字列を読解不能のマスク文字などに置換してマスクする技術が提案されている。
【0003】
例えば特許文献1の文字列変換装置は、指定されたマスク範囲に含まる文字が変換文字リストの各テーブルに含まれる文字と一致するか否かを判定し、一致すれば個人情報として予め定義された変換規則にしたがってマスク文字などに変換している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−102540
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の文字列変換装置は、マスクしようとする個人情報の文字列と一致した文字列が前記テーブル内にあれば、一般名称であっても誤ってマスクされる問題がある。例えば「コシノジュンコ(登録商標)」などのアパレルブランド名が個人情報の人名と誤ってマスクされてしまうこともある。
【0006】
このときWeb閲覧履歴を活用してマーケッティングデータを収集する場合などには個人情報保護の観点から履歴データにマスク処理を施すものの、データ解析に必要な箇所、例えばブランド名などの一般名称が誤ってマスクされると人手で正しいデータに修正しなければならない。これではデータ収集作業などの時間やコストの抑制において有利ではない。
【0007】
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、Web閲覧履歴を活用するにあたって誤ってマスクされた文字列を修正する作業を軽減し、データ収集作業の時間やコストの抑制に貢献することを解決課題としている。
【課題を解決するための手段】
【0008】
そこで、本発明は、マスク処理をするにあたってマスクする個人情報のほかにマスク対象外となりうる汎用的な文字列と、マスク対象となりうる汎用的な文字列とを利用してマスク処理を実行するマスク対象範囲を限定し、一般名称に対する誤ったマスク処理を抑制する。
【0009】
例えばブランド名などは事前にマスク対象外の対象外指定文字列として登録し、その文字列から任意文字数の範囲を強制的なマスク対象外範囲とする。このときWebサイト中の「ようこそ」のように個人情報につながる可能性の高い文字列を事前にマスク対象の対象指定文字列に登録し、その文字列から任意文字数の範囲を強制的にマスク対象範囲に再設定する。このマスク対象範囲で個人情報をマスクする。
【0010】
本発明の一態様は、入力された電子文書中から個人情報の部分を検出し、検出された部分の文字列にマスク処理を施してマスク文字に置換し、置換されたマスク文字列を出力する個人情報マスク装置であって、マスク対象を識別する辞書を用いて前記電子文書内でマスク処理を施すマスク対象範囲を指定するマスク対象指定手段と、個人情報を保持する個人情報辞書に含まれる文字列をマスク対象指定手段で指定されたマスク対象範囲から検出する個人情報検出手段と、個人情報検出手段の検出した文字列をマスクするためのマスク文字列を生成するマスク生成手段と、個人情報検出手段の検出した文字列をマスク生成手段の生成したマスク文字列に置換する置換手段と、を備える。
本発明の他の態様は、入力された電子文書中から個人情報の部分を検出し、検出された部分の文字列にマスク処理を施してマスク文字に置換し、置換されたマスク文字列を出力する装置の実行する個人情報マスク方法であって、マスク対象を識別する辞書を用いて前記電子文書内でマスク処理を施すマスク対象範囲を指定するマスク対象指定ステップと、個人情報を保持する個人情報辞書に含まれる文字列をマスク対象指定手段で指定されたマスク対象範囲から検出する個人情報検出ステップと、個人情報検出手段の検出した文字列をマスクするためのマスク文字列を生成するマスク生成ステップと、個人情報検出手段の検出した文字列をマスク生成手段の生成したマスク文字列に置換する置換ステップと、を有する。
【0011】
前記各態様において、前記電子文書内から前記辞書に保持された対象外指定文字列の位置を検出し、検出された対象外指定文字列から任意文字数をマスク対象外範囲と設定してマスク対象範囲から除外する一方、前記電子文書内から前記辞書に保持された対象指定文字列の位置を検出し、検出された対象指定文字列から任意文字数の範囲を加えてマスク対象範囲を確定させてもよい。このとき検出された対象指定文字列から任意文字数の範囲がマスク対象外範囲と重複していれば重複範囲をマスク対象範囲に再設定することができる。
【0012】
なお、本発明は、前記装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。
【発明の効果】
【0013】
本発明によれば、誤ってマスクされた文字列を修正する作業が軽減され、Web閲覧履歴を活用するにあたってデータ収集作業の時間やコストの抑制に貢献できる。
【図面の簡単な説明】
【0014】
【図1】本発明の実施形態に係る個人情報マスク装置の構成図。
【図2】同 処理フロー図。
【発明を実施するための形態】
【0015】
≪構成例≫
図1に基づき本発明の実施形態に係る個人情報マスク装置を説明する。このマスク装置1は、ユーザが端末(PC.携帯電話など)のWebブラウザにて閲覧したWebページ(電子文書)の閲覧ログを収集するにあたって、閲覧ログに含まれるWebページ中の個人情報をマスクする。
【0016】
前記マスク装置1は、Webサイトのサーバ群に構成され、通常のコンピュータのハードウェアリソース、例えばCPU.メモリ(RAM)やハードディスクドライブ装置などの記憶装置を備える。このハードウェアリソースとソフトウェアリソース(OS.アプリケーションなど)との協働の結果、前記マスク装置1は、データ読込部2.マスク対象指定部3.個人情報検出部4.個人情報マスク生成部5.個人情報置換部6.データ出力部7.マスク対象辞書DB8.個人情報辞書DB9.マスク文字列DB10を実装する。この各DB8〜10は、前記記憶装置に構築されている。このうち前記DB8にはマスキング対象を識別する辞書が保持され、前記DB9には個人情報から構成される個人情報辞書が保持されている。
【0017】
前記読込部2は、ユーザのWeb閲覧ログデータ、即ちマスク対象の元データのWebページを入力データD1として読み込む。また、前記対象指定部3は、前記DB8を参照して入力データD1内でマスクする範囲、即ちマスク対象範囲を設定する。
【0018】
このとき前記対象指定部3は、入力データD1のすべての範囲をマスク対象範囲とする。その後に前記DB8の辞書に保持された対象外指定文字列と一致する文字列を入力データ内から抽出し、抽出された文字列から任意文字数の範囲を強制的にマスク対象外範囲と設定し、マスク対象範囲から除去する。
【0019】
また、前記DB8の辞書に保持された対象指定文字列と一致する文字列を入力データD1内から抽出する。抽出された文字列から任意文字数の範囲をマスク対象範囲に加えてマスク対象範囲を確定する。ここで加えられる範囲は、マスク対象外範囲と重複していても強制的にマスク対象範囲とされる。この意味で強制力がマスク対象外範囲よりも強く、本実施形態では強制的マスク対象範囲と称する。
【0020】
前記検出部4は、前記DB9の個人情報辞書に含まれる個人情報の文字列を入力データD1のマスク対象範囲から検出する。また、前記マスク生成部5は、前記検出部4が検出した個人情報の文字列をマスクするマスク文字列を生成する。このマスク文字列は、第三者が当該文字列を可読できないような文字列とする。生成されたマスク文字列は前記DB10に格納される。
【0021】
前記置換部6は、前記DB10を参照して前記マスク生成部5の生成したマスク文字列で前記検出部4が検出した個人情報の文字列を置換する。また、前記出力部7は、前記置換部6にて置換されたマスク文字列を閲覧ログデータ、即ち出力データD2として出力する。
【0022】
≪処理内容≫
図2に基づき前記マスク装置1の具体的な処理内容を説明する。ここでは一例として閲覧ログがマーケッティング用データとして利用されるケース、即ちユーザのEC(electronic commerce)サイトにおける購買行動の閲覧ログを中心に収集し、該閲覧ログを解析するケースに基づき説明する。
【0023】
この閲覧ログをマーケッティング用データとして利用する場合、特にECサイトにおける消費説明において、ユーザがどのような商品の詳細ページを閲覧したかを抽出し、解析することが重要となる。そのため、個人情報のマスク処理によって、商品の説明文の文字列(例えばブランド名など)の一部が誤ってマスクされると、解析が困難となる場合が生じる。このような場合を回避すべく、前記マスク装置1では、マスク範囲の適正化を図っている。
【0024】
(1)事前処理
前記マスク装置1のマスク処理にあたっては事前に前記DB8.9に辞書内容を登録しておく必要がある。すなわち、前記DB8のマスク対象辞書に対象外指定文字列と対象指定文字列とを登録する。この対象外指定文字列は、マスク処理に相応しくない文字列、例えば商品名・ブランド・価格・商品説明などの文字列とする。この文字列はECサイト内のWebページから収集すればよい。また、マスク対象外範囲を指定する文字数、即ち対象外指定文字列に後続する文字数を登録しておくものとする。この文字数はパラメータ変数とし、ここでは一例として200文字に登録されているものとする。
【0025】
対象指定文字列は、マスク処理すべき個人情報の文字列を表す用語、例えば氏名・住所・電話番号などの項目名が該当する。また、ECサイトのトップページなどで氏名の前に挿入される文言の文字列、例えば「ようこそ」や「こんにちは」なども該当する。ここでも強制的マスク対象範囲を指定する文字数、即ち対象指定文字列に後続する文字数を登録しておくものとする。この文字数もパラメータ変数とし、ここでは一例として50文字と登録されているものとする。
【0026】
また、前記DB9の個人情報辞書には、ユーザが自身の個人情報となりうる氏名・住所・電話番号などを登録しておくものとする。このとき氏名として「姓」と「名」に分けて登録したり、カタカナ文字やアルファベット表記の文字、ハンドル名の文字などを指定することもできる。
【0027】
(2)マスク処理
事前処理が完了していることを前提に前記マスク装置1のマスク処理が開始されるものとする。このマスク処理の順序は、(a)マスク対象範囲の確定(図2中のS01〜S04)、(b)マスク対象範囲のマスク処理(図2中のS05〜S08)の順で実行する。
【0028】
S01:処理が開始されると前記読込部2にて入力データD1、即ち閲覧ログ中の各Webページをテキストデータとして読み込んで、前記マスク装置1に取り込む。ここでは取り込む閲覧ログは、ECサイトのサーバに蓄積されているものとする。
【0029】
S02:前記対象指定部3は、初期設定として入力データD1内のすべての文字をマスク対象範囲D1´に設定する(S02)。この初期設定のマスク対象範囲D1´に対してS03.S04の処理が施される。
【0030】
S03:前記対象指定部3は、前記DB8のマスク対象辞書から対象外指定文字列を抽出し、抽出された対象外指定文字列が入力データD1中に存在するか否かの検出処理を実行する。この結果、対象外指定文字列が検出されれば、検出された文字列から指定する文字数の範囲、即ち該文字列から200文字の位置までをマスク対象外範囲に設定する。
【0031】
この処理(S03)をマスク対象辞書に対象外指定文字列として登録されたすべての文字列について実行する。このとき文字列毎に処理してもよく、各文字列を並行して処理してもよいものとする。なお、入力データD1から対象外指定文字列が検出されなければ、マスク対象外範囲は設定されない。
【0032】
S04:前記対象指定部3は、前記DB8のマスク対象辞書から対象指定文字列を抽出し、抽出された対象指定文字列が入力データD1中に存在するか否かの検出処理を実行する。この検出処理をマスク対象辞書に対象指定文字列として登録されたすべての文字列について実行する。この処理も文字列毎に処理してもよく、各文字列を並行して処理してもよいものとする。
【0033】
この結果、対象指定文字列が検出されれば、検出された文字列から指定する文字数の範囲、即ち該文字列から50文字の位置を検出する。この検出位置がS03で設定したマスク対象外範囲に含まれている場合、即ちマスク対象外範囲と強制的マスク対象範囲とが重複する場合は、その位置までの重複範囲をマスク対象範囲D1´に再設定する。
【0034】
一方、対象指定文字列が検出できない場合や、対象指定文字列から50文字の位置がマスク対象外範囲に含まれていない場合、あるいはS03で対象外範囲が設定されていない場合にはマスク対象範囲D1´の再設定は行われない。
【0035】
なお、S01〜S04によってマスク対象範囲D1´の設定が確定され、該確定されたマスク対象範囲D1´にてS05以降のマスク処理が行われる。
【0036】
S05:前記検出部4は、入力データD1のマスク対象範囲D1´に対して前記DB9の個人情報辞書に登録された各文字列が含まれているか否かの検出処理を実行し、登録された文字列が含まれていれば、その文字列を抽出する。なお、図2中では省略されているが、該文字列が含まれていなければマスク処理の必要が無いため処理を終了する。
【0037】
S06:前記マスク生成部5は、S05で抽出された各文字列について、その文字列をマスクするためのマスク文字列を生成する。このマスク文字列としては、「*」のような伏文字でもよく、あるいは文字列長と文字列とのハッシュ値とを利用した「*6:EA1A*」のような文字列でもよく、マスク文字列の生成方法は制限しないものとする。
【0038】
S07.S08:前記置換部6は、S05で抽出された各文字列をS06で生成されたマスク文字列で置換する(S07)。その後に前記出力部7は、S07でマスク文字列に置換されたテキストデータD2をマスク処理済の閲覧ログとしてモニタなどに出力する(S08)。ここで出力された閲覧ログは、ユーザの購買行動の解析のためのマーケッティング用データと利用される。
【0039】
このように前記マスク装置1によれば、S03で対象外指定文字列から指定文字数の範囲(該文字列から200文字の位置まで)がマスク対象外範囲に設定されるため、従来よりもマスクされる範囲が限定される。すなわち、商品の説明文の文字列(例えばブランド名など)をS05以降のマスク処理の対象外に設定できるため、該商品説明の文字列などに対する誤ったマスクを回避できる。したがって、誤ってマスクされた文字列を修正する作業が軽減され、Web閲覧履歴を活用するにあたってデータ収集作業の時間やコストの抑制に貢献できる。
【0040】
このときマスク対象外範囲にS04の検出位置が含まる場合、即ち強制的マスク対象範囲とマスク対象外範囲とが重複する場合は、その位置までがマスク対象範囲D1´に再設定される。この結果、S03のマスク対象外範囲に個人情報が含まれていても、S04でマスク対象範囲D1´に再設定され、この点で個人情報保護は尊重されている。
【0041】
≪S03.S04の処理例≫
以下、前記マスク装置1の主要処理、即ちS03.S04にてマスク対象範囲を確定する処理例を説明する。ここではS03にて対象外指定文字列が複数検出され、S04の処理段階にて対象指定文字列がマスク対象外範囲に存在しているものとする。
【0042】
具体的には、この処理例では
(a)対象外指定文字列を「商品名」「ブランド名」とする。
(b)指定対象文字列を「氏名」とする。
(c)E1=”商品名”、E2=”ブランド名”、W1=”氏名”
とする。
【0043】
また、入力データD1として閲覧ログのテキストデータを用いる。ここでは該テキストデータに1500文字数あるとし、該テキストデータ内のE1,E2,W1が出現する位置をそれぞれ検出する。この検出結果は、
Pos_E1=(10,562,768)
Pos_E2=(821)
Pos_W1=(37,1023)
とする。
【0044】
(1)マスク対象外範囲の設定
対象外指定文字列の位置から一定文字数分を加算し、マスク対象外範囲として範囲の終点の位置を算出する(S03)。このとき各対象外指定文字列に対し、同一の文字数を加算してもよいし、対象外指定文字列毎に加算する文字数を変更しても構わない。本例では、E1に対する範囲文字数を300,E2に対する範囲文字数を200とする。そして、マスク対象外範囲の始点と終点の組み合わせを以下のように算出する。
ar_E1=(10,309),(562,861),(768,1067)
ar_E2=(821,1020)
この算出後にマスク対象外範囲の統合を行う。すなわち、一方のマスク対象外範囲の始点が他方のマスク対象外範囲の終点よりも小さい場合に二つの範囲を統合する。例えば始点a.終点bのマスク対象範囲と始点c.終点dのマスク対象範囲との統合にあたっては、始点cよりも終点bが大きければ終点bを終点dに置き換え、始点cと終点dの範囲は削除する。このとき終点b<終点dの場合にのみ置き換え、終点b>終点dの場合は置き換えない。
【0045】
前述したar_E1とar_E2の組合例によれば、ar_E1の2番目と3番目、およびar_E2がそれぞれ重なるため、統合することができる。この統合にあたっては、
ar_E1の2番目の終点(861)とar_E1の3番目の始点(768)とを比較し、
ar_E1の2番目の終点(861)>ar_E1の3番目の始点(768)で、
ar_E1の2番目の終点(861)<ar_E1の3番目の終点(1067)であるので、
ar_E1の2番目の終点(861)をar_E1の3番目の終点(1067)で置き換え、「ar_E1」の3番目の範囲は削除する。
【0046】
つぎにar_S1の2番目の終点(上記の例では1067に置き換えた後)とar_E2の始点(821)とを比較する。この場合は、
ar_E1の2番目の終点(1067)>ar_E2の始点(821)であり
ar_E1の2番目の終点(1067)>ar_E2の終点(1020)であるため、
ar_E2の範囲はar_E1の2番目の範囲に含まれるため、これに吸収されることになる。このような操作によりマスク対象外範囲は、
ex_area=(10,309),(562,1067)
と算出される。
【0047】
(2)強制的マスク対象範囲の設定
続いて対象指定文字列により強制的マスク対象範囲の設定を行う(S04)。ここでは対象指定文字列W1の出現位置と範囲を指定する文字数を加算して強制的マスク対象範囲を算出する。このとき対象指定外文字列と同様に範囲の文字数を一定値としてもよく、文字列毎に文字数を変更してもよい。ここでは対象指定文字列は一つだけなので、範囲文字数を50とする。前述の例によれば、強制的マスク対象範囲の始点と終点の組み合わせは、
ar_W1=(37,86),(1023,1072)
と算出される。
【0048】
(3)マスク対象範囲の再設定
さらにマスク対象範囲D1´の再設定を行う(S04)。すなわち、マスク対象外範囲内に上記で求めた強制的マスク対象範囲が含まれる場合は、その範囲をマスク対象外範囲から除外する。このとき強制的マスク対象範囲の始点がマスク対象外範囲の始点と終点の間にあるかどうかを判定し、マスク対象外範囲を見直していく。
【0049】
ここでは前述の例から各マスク対象外範囲の始点と終点は、
ex_area[0].start=10
ex_area[0].end=309
ex_area[1].start=562
ex_area[1].end=1067
である一方、
強制マスク対象範囲の始点と終点は、
ar_W1[0].start=37
ar_W1[0].end=86
ar_W1[1].start=1023
ar_W1[1].end=1072
であるとし、
ar_W1の各始点・各終点とex_areaの各始点・各終点とをそれぞれ比較していく。
【0050】
その結果、
ex_area[0].start<ar_W1[0].start
ar_W1[0].start<ex_area[0].end
かつ
ar_W1[0].end<ex_area[0].end
であるため、
ar_W1[0]の範囲はex_area[0]に含まれることが分かる。この場合、マスク対象外範囲ex_area[0]を分割する。
【0051】
ここではマスク対象外範囲の終点を強制マスク対象範囲の始点に置き換え、強制マスク対象範囲の終点からマスク対象外範囲の終点までのマスク対象外範囲を一つ追加する。すなわち、
ex_area[0].start=10
ex_area[0].end=36
ex_area[2].start=87
ex_area[2].end=309
このとき、添字は要素数から加算して追加する。また、置き換える際の位置は置き換え元から1少ない文字数としている。
【0052】
続いて、2つ目の要素に対して比較し、
ex_area[1].start<ar_W1[1].start
ar_W1[1].start<ex_area[1].end
かつ
ar_W1[1].end>ex_area[1].end
であるため、
ar_W1[1]は、ex_area[1]の一部に重なることがわかる。この場合、マスク対象外範囲ex_area[1]の一部を削除する。ここではマスク対象外範囲の終点を強制マスク対象範囲の始点に置き換える。
【0053】
すなわち、
ex_area[1].start=562
ex_area[1].end=1022
とする。この場合も置き換える際の位置は置き換えもとから1少ない文字数としている。
【0054】
以上から、マスク対象外範囲を再設定でき、この逆数的範囲をマスク対象範囲D1´に確定する。すなわち、マスク対象外範囲は昇順で整列することで、
ex_area=(10,36),(87,309),(562,1022)
となるので、その逆数的範囲を算出し、
msk_area=(1,9),(37,86),(310,561),(1023,1500)を確定されたマスク対象範囲D1´に設定する。
【0055】
≪プログラムなど≫
本発明は、前記マスク装置1の各部2〜10の一部もしくは全部として、コンピュータを機能させる個人情報マスクプログラムとして構成することもできる。このプログラムによれば、S01〜S08の一部あるいは全部をコンピュータに実行させることが可能となる。
【0056】
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
【符号の説明】
【0057】
1…個人情報マスク装置
2…データ読込部
3…マスク対象指定部
4…個人情報検出部
5…個人情報マスク生成部
6…個人情報置換部
7…データ出力部
8…マスク対象辞書DB
9…個人情報辞書DB
10…マスク文字列DB

【特許請求の範囲】
【請求項1】
入力された電子文書中から個人情報の部分を検出し、検出された部分の文字列にマスク処理を施してマスク文字に置換し、置換されたマスク文字列を出力する個人情報マスク装置であって、
マスク対象を識別する辞書を用いて前記電子文書内でマスク処理を施すマスク対象範囲を指定するマスク対象指定手段と、
個人情報を保持する個人情報辞書に含まれる文字列をマスク対象指定手段で指定されたマスク対象範囲から検出する個人情報検出手段と、
個人情報検出手段の検出した文字列をマスクするためのマスク文字列を生成するマスク生成手段と、
個人情報検出手段の検出した文字列をマスク生成手段の生成したマスク文字列に置換する置換手段と、
を備えることを特徴とする個人情報マスク装置。
【請求項2】
マスク対象指定手段は、前記電子文書内から前記辞書に保持された対象外指定文字列の位置を検出し、検出された対象外指定文字列から任意文字数をマスク対象外範囲と設定してマスク対象範囲から除外する一方、
前記電子文書内から前記辞書に保持された対象指定文字列の位置を検出し、検出された対象指定文字列から任意文字数の範囲を加えてマスク対象範囲を確定する
ことを特徴とする請求項1記載の個人情報マスク装置。
【請求項3】
マスク対象指定手段は、検出された対象指定文字列から任意文字数の範囲がマスク対象外範囲と重複していれば重複範囲をマスク対象範囲に再設定する
ことを特徴とする請求項2記載の個人情報マスク装置。
【請求項4】
入力された電子文書中から個人情報の部分を検出し、検出された部分の文字列にマスク処理を施してマスク文字に置換し、置換されたマスク文字列を出力する装置の実行する個人情報マスク方法であって、
マスク対象を識別する辞書を用いて前記電子文書内でマスク処理を施すマスク対象範囲を指定するマスク対象指定ステップと、
個人情報を保持する個人情報辞書に含まれる文字列をマスク対象指定手段で指定されたマスク対象範囲から検出する個人情報検出ステップと、
個人情報検出手段の検出した文字列をマスクするためのマスク文字列を生成するマスク生成ステップと、
個人情報検出手段の検出した文字列をマスク生成手段の生成したマスク文字列に置換する置換ステップと、
を有することを特徴とする個人情報マスク方法。
【請求項5】
マスク対象指定ステップにおいて、前記電子文書内から前記辞書に保持された対象外指定文字列の位置を検出し、検出された対象外指定文字列から任意文字数をマスク対象外範囲と設定してマスク対象範囲から除外する一方、
前記電子文書内から前記辞書に保持された対象指定文字列の位置を検出し、検出された対象指定文字列から任意文字数の範囲を加えてマスク対象範囲を確定する
ことを特徴とする請求項4記載の個人情報マスク方法。
【請求項6】
マスク対象指定ステップにおいて、検出された対象指定文字列から任意文字数の範囲がマスク対象外範囲と重複していれば重複範囲をマスク対象範囲に再設定する
ことを特徴とする請求項5記載の個人情報マスク装置。
【請求項7】
請求項1〜3のいずれか1項に記載の個人情報マスク装置の各手段としてコンピュータを機能させることを特徴とする個人情報マスクプログラム。

【図1】
image rotate

【図2】
image rotate