説明

保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム

【課題】保護対象情報を含む電子文書(テキスト)を適切にマスキングする際、誤ってマスキング処理された場合であっても、マスキング前の元データを参照することなく、誤変換箇所の推定を行うことができるようにする。
【解決手段】保護対象の個人情報が格納された個人情報辞書DB10と、個人情報を有するテキストを元テキストとして入力し、該入力されたテキストから、前記個人情報辞書DB10に格納された個人情報に該当する文字列をマスク対象文字列として検出する個人情報検出手段20と、前記個人情報検出手段20により検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を生成する個人情報マスク生成手段30と、前記個人情報検出手段20により検出されたマスク対象文字列を、前記個人情報マスク生成手段30により生成されたマスク用文字列に置き換える個人情報置き換え手段40と、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、姓名、住所などの個人情報を含むテキストに対して、個人情報の保護を目的として個人情報を検出しその部分をマスクする保護対象情報マスクシステムに関し,特に、個人情報でない部分を誤ってマスクしてしまった可能性が高い場合でも、マスク前の状態を推測可能な個人情報マスクシステムに関する。
【背景技術】
【0002】
個人情報保護の重要性が増すなか、姓名、住所等の個人情報を含むテキストに対して、個人情報部分をマスクして読めなくする技術への期待が高まっている。
【0003】
個人情報部分をマスキングする既存技術としては、文字列変換を実施する手法(特許文献1)などがある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−102540号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、既存技術では、電子文書内における一般名称などであっても、個人情報辞書データ内に登録されている文言についてはマスキング対象とされてしまい、誤ってマスキングされてしまう可能性があった。例えば、ブランド名として「Junko Koshino」について人名として間違われてマスキングされてしまうことがあり、該当のブランド名箇所の文字列が暗号化されてしまうことや、「*** ***」のような文字列に置き換えられてしまうことがあった。
【0006】
これらの場合、誤ってマスキングされた箇所と正しくマスキングされた箇所とを区別することは困難であるため、マスキング結果データだけでは正しくマスキングされたかを確認することは難しいため、マスキング前の元データを参照する必要が発生する。
【0007】
しかしながら、そもそも文書データにマスキングを適用する目的としては、個人情報の保護のために個人情報箇所を隠すことが主となる。よって、極力元データを参照することは避けることが望ましい。よって、マスキング前の元データを参照することなく、誤ってマスキングされてしまった文字列を推定可能なマスキング技術が必要となる。
【0008】
本発明はこの課題を解決するための保護対象情報マスキング装置、方法、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
前記課題を解決するために本発明では、保護対象の情報が格納された保護対象情報辞書データベースと、保護対象の情報を有するテキストを元テキストとして入力し、該入力されたテキストから、前記保護対象情報辞書データベースに格納された保護対象情報に該当する文字列をマスク対象文字列として検出する保護対象情報検出手段と、前記保護対象情報検出手段により検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を生成する保護対象情報マスク生成手段と、前記保護対象情報検出手段により検出されたマスク対象文字列を、前記保護対象情報マスク生成手段により生成されたマスク用文字列に置き換える保護対象情報置き換え手段と、を備えたことを特徴としている。
【発明の効果】
【0010】
本発明によれば、保護対象情報を含む電子文書(テキスト)を適切にマスキングする際、誤ってマスキング処理された場合であっても、マスキング前の元データを参照することなく、誤変換箇所の推定を行うことができる。
【0011】
これにより、本発明によりマスキングされたデータを利用することで、保護対象情報、例えば個人情報の保護を実現しつつ、統計情報の抽出などを実現することが可能となる。
【図面の簡単な説明】
【0012】
【図1】本発明の一実施形態例を示す全体構成図。
【図2】本発明の一実施形態例における個人情報マスク生成手段の処理を示すフローチャート。
【図3】本発明の他の実施形態例における全体の処理を示すフローチャート。
【図4】本発明の個人情報マスク処理の適用例を示す説明図。
【図5】本発明をマーケティングデータ抽出に利用した実施例の説明図。
【図6】本発明を機密文書マスキングに利用した実施例の説明図。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
【0014】
尚、以下の図1〜図5で説明する実施形態例は、保護対象情報が個人情報である場合の実施形態を示している。
【0015】
図1は本発明の実施形態における全体構成を示している。図1において、個人情報マスキング装置100は、保護の対象とする個人情報が格納された個人情報辞書DB(データベース)10(本発明の保護対象情報辞書データベース)と、電子文書などの元テキストを入力とし、該テキストから個人情報辞書DB10に含まれる個人情報部分を文字列として検出する個人情報検出手段20(本発明の保護対象情報検出手段)と、前記検出された個人情報文字列に対して、個人情報箇所をマスクするための文字列を生成する個人情報マスク生成手段30(本発明の保護対象情報マスク生成手段)と、前記個人情報検出手段20によって検出された個人情報部分を、前記個人情報マスク生成手段30により生成された文字列に置き換えて、個人情報マスク後テキスト(電子文書)を出力する個人情報置き換え手段40(本発明の保護対象情報置き換え手段)とを備えている。
【0016】
個人情報マスキング装置100は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
【0017】
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、個人情報マスキング装置100は、図1に示すように、個人情報辞書DB10、個人情報検出手段20、個人情報マスク生成手段30、個人情報置き換え手段40を実装する。
【0018】
前記個人情報マスク生成手段30は、後述する、ハッシュ値の先頭からの文字数bが設定された文字数設定情報DB31(図2)と、マスク用文字列およびマスク対象文字列位置情報を保存するマスク文字列情報DB32(図3)とを備えており、これら文字数設定情報DB31、マスク文字列情報DB32と前記個人情報辞書DB10は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
【0019】
上記のように構成された装置において、個人情報マスキング装置100に個人情報を有する電子文書(元テキスト)が入力されると、個人情報検出手段20は、電子文書中の文字列に対し個人情報辞書DB10を元に、個人情報の対象となる文字列を検出する。
【0020】
個人情報辞書DB10にて保存されるデータとしては、例えば、個人情報保護対象とすべき文字列(氏名、住所、電話番号)などのデータが保存される。
【0021】
個人情報検出手段20では、個人情報辞書DB10に保存された個人情報データをキーとして、入力された電子文書(テキスト)データ中に個人情報に該当する文字列が存在するか検索を行い、該当する文字列をマスク対象文字列として検出する。
【0022】
この際、例えば、個人情報辞書DB10において、氏名データが「姓」「名」として保存されている場合、「姓」、「名」をそれぞれキーとして検索するだけでなく、それぞれを組み合わせた「姓名」をキーとして検索を行ってもよい。
【0023】
個人情報マスク生成手段30では、個人情報検出手段20にて抽出(検出)された個人情報対象文字列(マスク対象文字列)に対し、その文字列長とハッシュ値の一部からなるマスク用文字列を生成する。
【0024】
ここで、個人情報マスク生成手段30が行なう処理を図2を用いて説明する。図2において、ステップS101では、前記個人情報検出手段20によって抽出された個人情報データが、個人情報マスク生成手段30にマスク対象文字列として入力される。
【0025】
ステップS102では、入力されたマスク対象文字列の文字数をカウントし文字列長(a)を求める。例えば、マスク対象文字列が「Hanako」の場合、文字列長は6であり、a=6となる。
【0026】
ステップS103では、入力されたマスク対象文字列の分類(文字種類判定)を行う。この際、マスク対象文字列が数値のみで構成される数値列であるか、または、数字以外の文字を含む文字列であるかを判定する。
【0027】
例えば、マスク対象文字列が電話番号の場合は数字のみの数値列であると分類され、住所情報であれば文字列として分類される。
【0028】
ステップS103にてマスク対象文字列が文字列として判定された場合は、ステップS104以降のマスク用文字列を生成するための処理ステップに遷移する。
【0029】
ステップS104では、マスク対象文字列を元に、ハッシュ値を生成する。マスク対象文字列に対し、ランダムな文字列を加えたものから、ハッシュ値を求める。
【0030】
例えば、マスク対象文字列が「hanako」の場合では、ランダムな文字列(ex.rKRotFVB)+hanakoから、Sha1(Secure hash algorithm 1)のようなハッシュ値を求めた場合、下記のようなハッシュ値が得られる。
【0031】
EA1A9CF54F0DDB2065D2DAA9022B7F10875AF643
尚、このハッシュ値の生成の際には、Sha1以外にもハッシュ値を生成可能な手段であれば良いものとする。また、マスク対象文字列に加えるランダム文字列は、出力されたハッシュ値から元のマスク対象文字列を推定困難なものとするための値である。
【0032】
ステップS105では、マスク用文字列の生成を行う。ここでは個人情報文字列(マスク対象文字列)の箇所をマスクするための文字列を生成する。すなわち、ステップS104にて生成したハッシュ値に対し、先頭b文字(bは正の任意数)をとり、前記ステップS102で求めた文字列長aと組み合わせ、
「開始記号」+「文字列長a」+「区切記号」+「ハッシュ値部分列b」+「終端記号」
の順に文字列を結合したマスク用文字列を生成する。
【0033】
前記開始記号、終端記号はマスク箇所を発見しやすくするためのものであり、「*」などの記号を用いるものとし、区切記号としては、「:」などの記号を用いるものとする。
【0034】
例えば、マスク対象文字列「hanako」の場合、文字列長は6であることからa=6となり、b=4とした場合は、マスク用文字列は「*6:EA1A*」となる。
【0035】
この時、マスク用文字列として利用する、前記ハッシュ値の先頭からの文字数bは、文字数設定情報DB31(データ記憶領域)に保存された値であり、個人情報マスク生成処理開始時に設定する値とする。
【0036】
なお、マスク用文字列として利用するハッシュ値の文字列については、一定位置の文字列であれば良いものとする。例えば、先頭から10文字後の連続するb文字でも良いものとする。
【0037】
尚、マスク対象文字列の文字列長aをマスク用文字列に組み入れることにより、例えば姓、名などの文字列の場合、同一の電子文書内における文字列長の変動が少ないため、文字列長aを付与しても、元の個人情報データを絞り込む効果は少ない(マスク前文字列を推定しやすくならない)が、ブランド名などの一般名称の場合は、文字列長がさまざまなものが存在しており、文字列長aを指定することにより、絞り込みの効果が発生する。その分、ハッシュ値文字列長bを小さくしても、マスク前文字列を推定することが可能となる。
【0038】
よって、マスク対象文字列長aの値を付与することにより、同一の電子文書中において、姓、名であるか、または一般名称であるかを推定することが可能となる。
【0039】
尚、開始記号、終端記号の「*」を用いてマスク用文字列を生成する目的は、マスク変換箇所を他の箇所と区別するためのものであり、電子文書の特徴に応じ、「*」が多数含まれるなどの場合は、他の記号(例えば「#」など)を利用しても良い。
【0040】
前記ステップS103にて、マスク対象文字列が数値列として分類(判定)された場合は、ステップS106にて数値用のマスク用文字列を生成する。
【0041】
尚、マスク対象文字列が数値列の場合は、文字列の場合に比べ、ハッシュ値のパターン数が少なく、元の値の推定可能性が高くなる為、ハッシュ値は利用せず、固定値「N」を利用するものとする。よって、マスク対象文字列が文字数aの場合、マスク用文字列は、
「開始記号」+「文字列長a」+「区切記号」+「固定値N」+「終端記号」
の順に統合し、「*a:N*」として表示される。
【0042】
例えば、3桁の数値列がマスク対象文字列の場合は、マスク用文字列は「*3:N*」となる。
【0043】
従って、電話番号「012−345‐6789」がマスク対象文字列である場合は、マスク用文字列は「*3:N*−*3:N*−*4:N*」となる。
【0044】
以上のステップを通じ、マスク用文字列が生成され、個人情報マスク生成手段30から出力される(ステップS107)。
【0045】
その後、個人情報置き換え手段40では、個人情報の対象となる文字列(個人情報検出手段20の出力;マスク対象文字列)を、前記個人情報マスク生成手段30にて生成されたマスク用文字列に置き換える処理を行い、個人情報マスク後の電子文書(テキスト)として出力する。
【0046】
次に、個人情報辞書DB10に登録されているデータが複数の種別を持つ場合にマスキングを行う実施例について、装置全体の処理の流れを表す図3を用いて説明する。
【0047】
マスキング対象として、電話番号、携帯、カード、郵便番号、メールアドレス、ハンドル名、住所、カード名義、氏名、氏名カナ、などの個人情報が複数同時に存在する電子文書(元テキスト)について、個人情報箇所をマスクする場合は、各マスキング対象の文字列に対し、優先順位を設定したうえで、マスク対象文字列の抽出、及び、変換を実施する必要がある。
【0048】
図3における個人情報辞書DB10には、電話番号、携帯電話番号、クレジットカード番号、郵便番号、メールアドレス、Webハンドル名、住所等の複数の種類の個人情報文字列とそれらの文字列長のデータが格納されている(尚、文字列長が格納されていない個人情報文字列も存在するものとする)。
【0049】
まずステップS201では、前述した個人情報が複数同時に存在する電子文書(元テキスト)が個人情報検出手段20に入力される。
【0050】
ステップS202では、個人情報検出手段20が、個人情報辞書DB10中の複数の個人情報文字列について、文字列長が格納されている場合はその文字列長を採用し、文字列長が格納されていない場合はその文字列の文字数を算出する。 そしてステップS203では、個人情報検出手段20が、前記算出又は採用された各個人情報文字列の文字数を元に、検出優先順位の設定を行う。
【0051】
すなわち、例えば、個人情報文字列のうち、文字列長が長いものを優先的に検出するものとする。これは、メールアドレスの一部に氏名のアルファベット表記の一部が使用されているなどの場合、文字列長が短いものから検出を行ってしまうと、本来検出すべきメールアドレスが検出することができないなど、誤った検出処理を避けるためである。また、文字列長が同じ場合は、数値列を優先し検出するものとし、検出優先順位を設定する。
【0052】
その後ステップS204およびS205において、個人情報検出手段20は、前記設定された検出優先順位順に、個人情報辞書DB10内のすべての個人情報文字列について、前記入力されたテキストから個人情報辞書DB10内の個人情報文字列に該当する文字列をマスク対象文字列として検出する。
【0053】
尚、この際、検出優先順位が高く、先に検出された文字列箇所については、再度、検出対象としないものとする。例えば、抽出(検出)された箇所については、入力データ中の該当箇所を空白に置き換えるなどにより、重複して検出対象とされることを避けるものとしても良い。
【0054】
次にステップS206では、個人情報マスク生成手段30が、前記ステップS205の処理によって検出され個人情報検出手段20から順次入力されるマスク対象文字列の文字列長(a)を求める。
【0055】
ここでは、前記個人情報辞書DB10に該当する文字列の文字列長が格納されている場合は、その文字列長を採用し、格納されていない場合は前記図2のステップS102と同様に、入力されたマスク対象文字列の文字数をカウントして文字列長を求める。
【0056】
次にステップS207〜S210では、個人情報マスク生成手段30が、個人情報検出手段20から順次入力されるマスク対象文字列をマスクするためのマスク用文字列を、前記図2のステップS103〜S106の処理と同様の処理により生成する。
【0057】
すなわちステップS207では該当の文字列種類について判定を行い、数値のみの場合はステップS210にて数値用のマスク用文字列を生成する。ステップS207にて数値以外を含む文字列として判定された場合は、ステップS208にて該当文字列のハッシュ値を生成の上、ステップS209にて対象文字列数の値とハッシュ値を元にマスク用文字列を生成する。
【0058】
次にステップS211では、前記生成されたマスク用文字列と、該マスク用文字列に対応する、前記個人情報検出手段20により検出されたマスク対象文字列の位置情報とを、マスク文字列情報DB32に保存する。
【0059】
その後、すべての検出対象文字列についてステップS203にて規定された検出優先順位の順に、ステップS204〜S211の処理を繰り返し実施する。
【0060】
次に、ステップS204にてすべての検出対象文字列について検出が終了したと判定された場合、ステップS212において、個人情報置き換え手段40が、前記マスク文字列情報DB32内に保存された情報を元にマスク対象文字列を、該マスク対象文字列に対応するマスク用文字列に置換し、ステップS213においてマスク処理が行われたテキストを出力する。
【0061】
尚、前記ステップS205の文字列検出処理において、郵便番号と電話番号などの複数の数値列がハイフン「−」などの記号により組み合わされ構成されている文字列を検出する場合は、ハイフン「−」などの記号により組み合わされる部分数値列の全てが抽出対象とする電子文書(入力されたテキスト)内に存在する場合に検出処理を実施するものとする。
【0062】
これにより、ECサイトなどの場合、郵便番号や電話番号の一部の文字列が金額表示の数値列と一致する場合であっても、誤ってマスキングされることを防ぐことが可能となる。
【0063】
例えば、郵便番号が「234−0847」の場合、「234円」として金額表示されている場合であっても、「0847」も電子文書(入力されたテキスト)内に存在する場合のみ、マスキングを行うことになり、誤ったマスキングを避けることが可能となる。
【0064】
以上のマスキング処理によって、本発明を個人情報に適用した例を示す図4のように、保護対象である図4(a)の個人情報が図4(b)のように各々マスキングされる。
【0065】
図4によれば、開始記号「*」の次の数字(文字列長a)から、そのマスキングされた文字の字数を推定することができ、また、終端記号「*」の一つ手前に「N」が存在することから、そのマスキングされた文字が数値のみで成り立っていることを推定することができる。
【0066】
また、本発明をWebページのアクセスログ分析システムとして活用することにより、マーケティング情報の抽出を行うことが可能となる。例えば、ユーザがどのWebサイトで、どのようなブランドの商品を購入したか、という情報を収集することにより、購買情報を収集することが可能となる。この、本発明を利用してアクセスログ分析システムを構築した実施例について、図5を用いて説明する。
【0067】
図5において、200はユーザが使用するユーザ端末(複数存在する)であり、本発明の個人情報マスキング装置100を各々具備している。
【0068】
201は、ユーザ端末200上でWebページにアクセスした情報中に含まれる個人情報を図1〜図4で述べた処理と同様の処理によりマスキングしたWebアクセスデータを示している。
【0069】
202は、インターネットを介して入力された前記Webアクセスデータ201が格納されたWebアクセスデータDBである。
【0070】
203は、ブランド名と、ブランド名の文字列長と、ブランド名に対して予め本発明の図1〜図4で述べたマスキング処理を施した結果のマスキングデータ(b=4)とを対応させて格納したブランド名リストDBである。
【0071】
図5のアクセスログ分析システムによって、ユーザの端末上でWebページのアクセス情報中に含まれる個人情報に関わる文字列をマスキングする機能を実現することにより、個人情報をマスキングしたアクセスログを収集することが可能となる。
【0072】
尚、ブランド名については、個人名が利用されたものが存在するため、ブランド名についてもマスキングが行われる可能性があるが、事前にブランド名に関するマスキング結果データを作成し、ブランド名リストDB203のように辞書データとして保持することにより、Webアクセスデータを分析する際に、WebアクセスデータDB202とブランド名リストDB203を比較することにより、ブランド名に関する分析を行うことが可能となる。
【0073】
また、本発明を、機密情報や重要情報のマスキングシステムとして活用することにより、機密情報や重要情報の漏洩を防ぐことができる。
【0074】
通常、企業内の重要情報や機密情報などを含んだ機密文書については、閲覧権限が厳密に管理され、閲覧可能な利用者、環境が限られている。しかしながら、業務都合上、このような重要電子文書などを社外からアクセスする必要が発生する場合がある。例えば、契約文書を緊急的に確認するため、社外からリモートアクセスし、電子文書を閲覧・編集する場合がある。このような場合、部外者により覗き見られることで、重要情報が漏洩する可能性がある。
【0075】
そこで本発明のマスキング機能を活用することにより、顧客名などに対しマスキングを行うことが可能となる。この、本発明を利用して機密文書マスキングシステムを構築した実施例について図6を用いて説明する。
【0076】
図6において300は、各種社内システム、ファイルサーバ等から成り、機密情報や重要情報などを含んだ機密文書(電子文書)を保持しているテキストサーバである。
【0077】
301は、機密情報や重要情報の文字列とその文字列長などのデータが、前記図3の個人情報辞書DB10と同様に辞書として格納された重要情報辞書DBである。
【0078】
302は、テキストサーバ300の機密文書に含まれる機密情報や重要情報について、重要情報辞書DB301を利用して、図1〜図4で述べた処理と同様の処理によりマスキングを行なう重要情報マスキングサーバである。
【0079】
これらテキストサーバ300、重要情報辞書DB301、重要情報マスキングサーバ302は社内ネットワークで接続されている。
【0080】
303は、社外ネットワークで接続された複数のリモートアクセス端末である。
【0081】
304は、重要情報マスキングサーバ302とリモートアクセス端末303の間に設けられたファイアーウォールである。
【0082】
上記のように構成されたシステムにおいて、社外のリモートアクセス端末303から社内のネットワークにアクセスがあったとき、重要情報マスキングサーバ302が、テキストサーバ300の機密文書中の機密情報、重要情報に対してマスキングを行なって、マスキング処理後の機密情報、重要情報を出力することにより、機密情報、重要情報の漏洩を防ぐことが可能となる。
【0083】
また、本実施形態の保護対象情報マスキング装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の保護対象情報マスキング方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【符号の説明】
【0084】
10…個人情報辞書DB
20…個人情報検出手段
30…個人情報マスク生成手段
31…文字数設定情報DB
32…マスク文字列情報DB
40…個人情報置き換え手段
100…個人情報マスキング装置
200…ユーザ端末
202…WebアクセスデータDB
203…ブランド名リストDB
300…テキストサーバ
301…重要情報辞書DB
302…重要情報マスキングサーバ
303…リモートアクセス端末
304…ファイアーウォール

【特許請求の範囲】
【請求項1】
保護対象の情報を有するテキストに対して保護対象情報部分を検出してマスキングを行う情報マスキング装置であって、
保護対象の情報が格納された保護対象情報辞書データベースと、
保護対象の情報を有するテキストを元テキストとして入力し、該入力されたテキストから、前記保護対象情報辞書データベースに格納された保護対象情報に該当する文字列をマスク対象文字列として検出する保護対象情報検出手段と、
前記保護対象情報検出手段により検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を生成する保護対象情報マスク生成手段と、
前記保護対象情報検出手段により検出されたマスク対象文字列を、前記保護対象情報マスク生成手段により生成されたマスク用文字列に置き換える保護対象情報置き換え手段と、
を備えたことを特徴とする保護対象情報マスキング装置。
【請求項2】
前記保護対象情報辞書データベースは、複数種類の保護対象の情報と、それら情報の文字列長のデータとが格納され、
前記保護対象情報検出手段は、前記保護対象情報辞書データベース内の各保護対象情報の文字数を元に、保護対象情報の検出優先順位を設定し、該設定した検出優先順位順に、前記入力されたテキストから前記保護対象情報辞書データベース内の保護対象情報に該当する文字列をマスク対象文字列として検出し、
前記保護対象情報マスク生成手段は、前記保護対象情報検出手段により順次検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を順次生成し、該生成されたマスク用文字列と、該マスク用文字列に対応する、前記保護対象情報検出手段により検出されたマスク対象文字列の位置情報とを保存し、
前記保護対象情報置き換え手段は、前記保存された位置情報を元に、前記保護対象情報検出手段により検出されたマスク対象文字列を、該マスク対象文字列に対応するマスク用文字列に置き換えることを特徴とする請求項1に記載の保護対象情報マスキング装置。
【請求項3】
前記保護対象情報マスク生成手段は、前記マスク対象文字列が数値以外の文字で構成されている場合、マスク対象文字列を元にハッシュ値を求め、該ハッシュ値の部分列を含むマスク用文字列を生成することを特徴とする請求項1又は2に記載の保護対象情報マスキング装置
【請求項4】
保護対象の情報を有するテキストに対して保護対象情報部分を検出してマスキングを行う情報マスキング方法であって、
保護対象情報検出手段が、保護対象の情報を有するテキストを元テキストとして入力し、該入力されたテキストから、保護対象の情報が格納された保護対象情報辞書データベースに格納された保護対象情報に該当する文字列をマスク対象文字列として検出する保護対象情報検出ステップと、
保護対象情報マスク生成手段が、前記保護対象情報検出手段により検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を生成する保護対象情報マスク生成ステップと、
保護対象情報置き換え手段が、前記保護対象情報検出手段により検出されたマスク対象文字列を、前記保護対象情報マスク生成手段により生成されたマスク用文字列に置き換える保護対象情報置き換えステップと、
を備えたことを特徴とする保護対象情報マスキング方法。
【請求項5】
前記保護対象情報辞書データベースは、複数種類の保護対象の情報と、それら情報の文字列長のデータとが格納され、
前記保護対象情報検出ステップは、前記保護対象情報辞書データベース内の各保護対象情報の文字数を元に、保護対象情報の検出優先順位を設定し、該設定した検出優先順位順に、前記入力されたテキストから前記保護対象情報辞書データベース内の保護対象情報に該当する文字列をマスク対象文字列として検出し、
前記保護対象情報マスク生成ステップは、前記保護対象情報検出手段により順次検出されたマスク対象文字列の文字列長を求め、該文字列長を含むマスク用文字列を順次生成し、該生成されたマスク用文字列と、該マスク用文字列に対応する、前記保護対象情報検出手段により検出されたマスク対象文字列の位置情報とを保存し、
前記保護対象情報置き換えステップは、前記保存された位置情報を元に、前記保護対象情報検出手段により検出されたマスク対象文字列を、該マスク対象文字列に対応するマスク用文字列に置き換えることを特徴とする請求項4に記載の保護対象情報マスキング方法。
【請求項6】
前記保護対象情報マスク生成ステップは、前記マスク対象文字列が数値以外の文字で構成されている場合、マスク対象文字列を元にハッシュ値を求め、該ハッシュ値の部分列を含むマスク用文字列を生成することを特徴とする請求項4又は5に記載の保護対象情報マスキング方法。
【請求項7】
コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる保護対象情報マスキングプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−113606(P2012−113606A)
【公開日】平成24年6月14日(2012.6.14)
【国際特許分類】
【出願番号】特願2010−263566(P2010−263566)
【出願日】平成22年11月26日(2010.11.26)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】