文字列変換装置、文字列変換方法及び文字列変換プログラム

【課題】電子情報に含まれる個人情報を不必要なマスク処理を行うことなく洩れなくマスク処理する。
【解決手段】文字列変換装置１は入力データ１０から個人情報辞書３０に含まれる個人情報の文字列を文字列変換の候補文字列として検出する。この検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に、当該候補文字列の組合せの集合から所定の基準で抽出した文字列の組合せを文字列変換の対象として判定する。一方、前記検出された候補文字列が入力データ１０のタグ要素の内容に含まれている場合、個人情報辞書３０に含まれる個人情報と一致した候補文字列の組合せを文字列変換の対象として判定する。以上の文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は電子文書に含まれる個人情報を保護するための文字列変換技術に関する。
【背景技術】
【０００２】
個人情報保護の重要性が増すなか、姓名，住所等の個人情報を含む電子文書に対して個人情報部分をマスクして読めなくする技術への期待が高まっている。電子文書に含まれる個人情報部分をマスキングする既存技術としては文字列変換を実施する手法等が知られている（特許文献１等）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００７−１０２５４０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、既存技術では、マスキングしようとする個人情報の文字列と一致した文字列が入力データに含まれているとそのマスキングが行われてしまい、余計なマスキングを行ってしまう問題があった。
【０００５】
誤ったマスキング箇所が多数発生すると、マスクされた文字列から元の個人情報文字列の推測可能性が増加するなど、個人情報保護の点で問題が発生する。
【０００６】
特に、ＨＴＭＬタグ等を含むＷｅｂページ閲覧履歴データを入力データとして扱う場合、Ｗｅｂページの本文だけでなく、ＨＴＭＬの要素や属性情報の値に個人情報辞書に含まれる文字列とマッチするものが存在することがあり、該当箇所がマスク対象候補の文字列として検出されることがある。例えば、個人情報辞書に「田中太郎」や「0123」という文字列が含まれるとしたとき、ＨＴＭＬタグ中の属性情報として「value=“田中太郎”」や「width=“10123”」などが記載されている場合は、「田中太郎」「0123」の該当箇所がマスク対象候補の文字列として検出される。このとき、「width=“10123”」に含まれる「0123」の文字列は個人情報ではないため、本来マスクすべきではない箇所である。
【０００７】
このように、ＨＴＭＬタグ等を含むＷｅｂページ閲覧履歴データを入力データとする場合、誤マスク箇所が多数発生する可能性が高く、個人情報の漏洩リスクを低下することができない。
【０００８】
本発明は、上記の事情に鑑み、不必要なマスク処理を行うことなく電子情報に含まれる個人情報を洩れなくマスク処理することを課題とする。
【課題を解決するための手段】
【０００９】
そこで、本発明は電子文書の構造化言語の構造を考慮して変換すべき文字列を選別することにより、情報漏洩のリスクを低減させる。
【００１０】
本発明の文字列変換方法の態様としては、保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、電子文書から前記個人情報辞書に含まれる個人情報の文字列を文字列変換の候補文字列として検出する手順と、前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に当該候補文字列の組合せの集合から候補文字列間の文字数が最小数である文字列の組合せを文字列変換の対象として判定する手順と、前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順とを有する。
【００１１】
本発明の文字列変換方法の他の態様としては、保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、電子文書から前記個人情報辞書に含まれる個人情報の文字列を文字列変換の候補文字列として検出する手順と、前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に当該候補文字列の組合せの集合から平均文字列長より短い文字列の組合せを選択しこの選択した組合せを文字列変換の対象として判定する手順と、前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順とを有する。
【００１２】
本発明の文字列変換方法の他の態様としては、保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、電子文書から前記個人情報辞書に含まれる個人情報の文字列を文字列変換の候補文字列として検出する手順と、前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に当該候補文字列の組合せの集合から統計的指標に基づき選択された文字列の組合せを文字列変換の対象として判定する手順と、前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順とを有する。
【００１３】
尚、本発明はコンピュータに上記の文字列変換方法の各手順を実行させるための文字列変換プログラムの態様とすることもできる。
【発明の効果】
【００１４】
以上の発明によれば不必要なマスク処理を行うことなく電子情報に含まれる個人情報を洩れなくマスク処理できる。
【図面の簡単な説明】
【００１５】
【図１】本発明の実施形態に係る文字列変換装置の構成を示したブロック図。
【図２】本発明の実施形態に係る文字列変換処理のフローチャート。
【図３】本発明の実施形態に係る個人情報の一例（ａ），個人情報辞書の一例（ｂ）。
【図４】本発明の実施形態に係るマスク判定処理のフローチャート。
【図５】本発明の実施形態に係るマスク判定の説明図。
【図６】本発明の実施形態に係る個人情報周辺表記パターン辞書の一例。
【図７】本発明の実施形態に係るネットワークシステムの構成を示したブロック図。
【発明を実施するための形態】
【００１６】
以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。
【００１７】
［実施形態１］
（概要）
図１に示された発明の実施形態１に係る文字列変換装置１はマスク処理対象の電子文書の構造化言語の構造を考慮してマスキングすべき箇所を選別することにより、一律にマスキングする方式に比べて、情報漏洩のリスクを低減させる。具体的にはマスク処理対象の電子文書から個人情報辞書３０に含まれる個人情報の文字列を文字列変換の候補文字列として検出する。この検出した候補文字列が前記電子文書のタグ要素の内容に含まれない場合、当該候補文字列の組合せの集合から所定の基準で抽出した文字列の組合せを文字列変換の対象として判定する。一方、前記検出した候補文字列が前記電子文書のタグ要素の内容に含まれている場合、個人情報辞書３０に含まれる個人情報と一致した候補文字列の組合せを文字列変換の対象であると判定する。以上のように文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える。
【００１８】
（装置の構成）
文字列変換装置１は図１に示されたように少なくとも入力データ読込部２０、個人情報辞書３０、個人情報検出部４０、マスク対象判定部５０、マスク置換部６０、マスク文字列格納部８０を備える。文字列変換装置１の各機能部２０〜８０はサーバ（コンピュータ）のハードウェアリソースによって実現される。すなわち、文字列変換装置１は少なくとも演算装置（ＣＰＵ）、記憶装置（メモリ、ハードディスク装置等）、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース（ＯＳ、アプリケーション等）と協働することにより各機能部２０〜８０が実装される。
【００１９】
入力データ読込部２０は個人情報を含む入力データ１０（電子文書）を読み込み、メモリの内部データとして保存する。入力データとしては、個人情報文字列を含む可能性のある電子文書を入力データとするものとし、ＨＴＭＬ形式やＸＭＬ形式の電子ファイルが例示される。
【００２０】
個人情報辞書３０は保護対象の個人情報文字列データを個人情報の項目毎に格納している。個人情報辞書３０は例えば文字列変換装置１を所有するクライアントの個人情報の項目毎に個人情報文字列を格納している。
【００２１】
個人情報辞書３０は、図３（ａ）に例示したように、個人情報として、氏名、電話番号、携帯電話番号、クレジットカード番号、郵便番号、メールアドレス、住所等のような個人を特定可能な情報を格納している。また、複数の個人の個人情報を格納した場合、図３（ｂ）に例示したように、各個人の氏名に対応付けられてその個人情報が記録されている。これらの個人情報は複数の項目によって構成されるものが多く、例えば、電話番号「046‐123‐4567」であれば、３つの数値文字列「046」「123」「4567」の組み合わせで構成されているとして扱うことができる。個人情報辞書３０は、これらの個人情報を構成する項目文字列単位に辞書情報として登録したものであり、データベースシステムで管理されるものであってもよい。尚、間接的に個人を特定可能な情報として、Ｗｅｂページ上で利用しているハンドル名などを対象としてもよい。
【００２２】
個人情報検出部４０は入力データ１０から個人情報辞書３０に含まれる個人情報の文字列を文字列変換の候補文字列として検出する。具体的には個人情報辞書３０に保存された個人情報データをキーとして、入力データ１０中に個人情報に該当する文字列が存在するか検索を行い、該当する文字列を文字列変換の候補文字列とする。例えば図３（ｂ）に示された個人情報辞書３０にて、氏名が「姓」「名」として分割された項目の組み合わせとして保存されている場合、「姓」、「名」それぞれの項目をキーとして入力データ１０全体を対象に検索を行い、検出された文字列を文字列変換の候補文字列とする。
【００２３】
マスク対象判定部５０は、個人情報検出部４０によって検出された候補文字列を文字列変換の対象とするかを判定する。すなわち、個人情報辞書３０に登録されている個人情報文字列の各項目単位で検出を行うため、個人情報文字列の項目に一致する文字列は全て文字列変換の候補文字列として検出する。
【００２４】
例えば、個人情報辞書３０に電話番号「046‐123‐4567」が「046」、「123」、「4567」として項目に分解されて登録されている場合、入力データ１０に含まれる「046」、「123」、「4567」の文字列が文字列変換の候補となる。このとき、入力データ１０中に「ID:046」や「width=“123”」、「人口4567人」といった文字列を含んだ箇所が存在する場合、本来個人情報ではないこれらの箇所についても文字列変換の候補として検出されてしまうことになる。
【００２５】
そこで、マスク対象判定部５０は、入力データ１０中の個人情報検出部４０で検出された候補文字の間に含まれる文字列を解析することで、本来の個人情報を構成する項目文字列を検出する。
【００２６】
具体的には、個人情報検出部４０によって検出された候補文字列が入力データ１０のタグ要素の内容に含まれない場合、当該候補文字列の組合せの集合から所定の基準で抽出した文字列の組合せを文字列変換の対象として判定する。例えば、当該候補文字列の組合せの集合から候補文字列間の文字数が最小数である文字列の組合せを文字列変換の対象として判定する。または、当該候補文字列の組合せの集合から平均文字列長より短い文字列の組合せを選択しこの選択した組合せを文字列変換の対象として判定する。若しくは、当該候補文字列の組合せの集合から統計的指標に基づき選択された文字列の組合せを文字列変換の対象として判定する。前記統計的指標としては例えば共起頻度が挙げられる。
【００２７】
一方、個人情報検出部４０によって検出された候補文字列が入力データ１０のタグ要素の内容に含まれている場合、個人情報辞書３０に含まれる個人情報と一致した候補文字列の組合せを文字列変換の対象であると判定する。
【００２８】
マスク置換部６０はマスク対象判定部５０によって文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える。この他の文字列はマスク文字列格納部８０にて予め格納されている。
【００２９】
（処理手順の説明）
図２を参照しながら文字列変換装置１によって実行される文字列変換処理の手順Ｓ１〜Ｓ４について説明する。
【００３０】
Ｓ１：入力データ読込部２０は、入力データ１０（例えば個人情報を含むＷｅｂページ閲覧履歴データ）を受け付けると、このデータを読み込み、メモリの内部データとして保存する。
【００３１】
Ｓ２：個人情報検出部４０は手順Ｓ１で保存された入力データ１０から個人情報辞書３０に含まれる個人情報の文字列を文字列変換の候補文字列として検出する。
【００３２】
Ｓ３：マスク対象判定部５０は手順Ｓ２で検出された候補文字列を文字列変換の対象とするかを判定する。
【００３３】
図４，図５を参照しながら手順Ｓ３の具体的な手順Ｓ３０１〜Ｓ３０８について説明する。ここでは入力データ１０がＨＴＭＬ文書であり、この文書から個人情報として「電話番号」が検出された事例について説明する。
【００３４】
Ｓ３０１：入力データ１０であるＨＴＭＬ文書から手順Ｓ２によって検出された候補文字列を読み込む。図５の事例では例えば手順Ｓ２で検出された電話番号「046‐123‐4567」を構成する項目文字列「046」、「123」、「4567」をそれぞれp1，p2，p3としたとき、これらを文字列変換の候補文字列として読み込む。例えば、p1として検出された文字列変換の候補をmaskTargetP1と定義すると、前記ＨＴＭＬ文書におけるｐ１の記載箇所を例えば登場順にmaskTargetP1(1)，maskTargetP1(2)，…，maskTargetP1(n)と定義して読み込む。
【００３５】
Ｓ３０２：手順Ｓ３０１で読み込まれた候補文字列は前記ＨＴＭＬ文書のタグ要素（例えば開始タグと終了タグで囲まれた範囲）の内容に含まれるものも含まれていることがある。そこで、手順Ｓ３０１で読み込まれた候補文字列について、ＨＴＭＬ文書の前記タグ要素の内容に含まれているか否かを判断する。図５の事例では各maskTargetPn(n)についてＨＴＭＬ文書の開始タグと終了タグで囲まれた範囲の内容に含まれるか否かを判定する。
【００３６】
Ｓ３０３：手順Ｓ３０２にて候補文字列がＨＴＭＬ文書のタグ要素の内容に含まれない（Ｎｏ）と判断された場合、該当候補文字列が例えば「電話番号」「カード番号」のような複数の項目文字列から成る個人情報の項目文字列であるか否かを判断する。図５の事例では候補文字列「046」、「123」、「4567」が個人情報辞書３０に格納されている個人情報を構成する項目文字の一つであるかを判断する。
【００３７】
Ｓ３０４：手順３０３にて複数の項目文字列からなる個人情報の項目文字列である（Ｙｅｓ）と判断された場合、前記ＨＴＭＬ文書のタグ要素の内容に含まれない該当個人情報の項目文字列の組み合わせを全て選択する。図５の事例では前記ＨＴＭＬ文書の開始タグと終了タグで囲まれた範囲の内容に含まれない文字列変換の候補maskTargetP1(n)，maskTargetP2(n)，maskTargetP3(n)の組み合わせを選択する。
【００３８】
Ｓ３０５：手順Ｓ３０４で選択された項目文字列の組み合わせごとに項目文字列間の文字列データを読み取る。項目文字列間の文字列のうち、ＨＴＭＬ文書のタグ要素の内容に含まれていない文字列、すなわち、ＨＴＭＬ文書の開始タグと終了タグで囲まれた範囲以外の文字列について、その文字数をカウントする。そして、このカウント結果から、全項目文字列の組み合わせの中で最も文字数が少なくなる項目文字列の組み合わせを選択する。または、全項目文字列の組み合わせの集合からその平均文字列長よりも短くなる文字列の組み合わせをマスク対象候補として選出する。
【００３９】
図５の事例では、候補maskTargetP1(n)と候補maskTargetP2(n)の間の文字列、及び、候補maskTargetP2(n)と候補maskTargetP3(n)の間の文字列を読み取り、メモリの内部データとして保持する。そして、これらの組み合わせの文字列のうち、候補間に多数の文字列が含まれる場合は、文字列変換の候補の組み合わせとして適切ではないと考えられるため、候補間に含まれる文字数が最も少ない組み合わせが選択される。
【００４０】
手順Ｓ３０５では、上記の文字数や文字列長を考慮した選択法の代わりに、全項目文字列の組み合わせの集合から統計的指標に基づき選択された文字列の組合せをマスク対象候補として選出するようにしてもよい。統計的指標に基づき選択された文字列の組合せとしては例えば入力データ１０における共起頻度の最も高い文字列の組合せが挙げられる。
【００４１】
Ｓ３０６：手順Ｓ３０５で選択された文字列を文字列変換の対象とする。一方、手順Ｓ３０３で候補文字列が例えば「パスワード」「ハンドル名」のように複数項目で構成される個人情報ではない（Ｎｏ）と判断された場合、この候補文字列を文字列変換の対象とする。
【００４２】
Ｓ３０７：手順Ｓ３０２にて候補文字列がＨＴＭＬ文書の前記タグ要素の内容に含まれている（Ｙｅｓ）と判断された場合、当該候補文字列が個人情報を含む可能性があるもの（要素または属性）であるか否かを判定する。個人情報を含む可能性があるものである（Ｙｅｓ）と判断された場合、該当マスク対象の候補文字列を文字列変換の対象とする。図５の事例では「value=“…”」のようなタグ要素の内容において入力されたパラメータの値を示す文字列である場合、この文字列は個人情報を含む可能性があると判断する。この個人情報を含む可能性があると判断された文字列は手順Ｓ３０６で文字列変換の対象とされる。
【００４３】
Ｓ３０８：手順Ｓ３０７にて候補文字列が個人情報を含む可能性のあるタグ要素の内容でない（Ｎｏ）と判断された場合は、この候補文字列をマスク対象外として判定する。図５の事例では「width=“…”」のように文書構造を定義するタグの要素・属性の値として示す文字列である場合、この文字列は個人情報を含む可能性は無い（Ｎｏ）と判断され、文字列変換の対象外とする。
【００４４】
Ｓ４：マスク置換部６０は上述の手順Ｓ３で文字列変換の対象と判定された文字列を、マスク文字列格納部８０から引き出した他の文字列に置き換える。これにより入力データ１０に含まれる個人情報を特定できないようになる。このように個人情報がマスクされた入力データ１０は出力データ７０として出力される。
【００４５】
前記他の文字列は、事前に規定された文字列を用いて置き換えるとしても良いものとする。例えば、「＊」などの記号で置き換えても良い。第三者が可読できない文字列であるとし、マスク対象文字列長と文字列のハッシュ値を用いた「＊６：ＡＢ１Ｂ＊」のような文字列でもよく、マスク文字列の生成方法は制限しないものとする。マスク対象文字列をマスク用文字列にて置き換えた電子文書データを出力データ７０として出力する。
【００４６】
（本実施形態の効果）
したがって、文字列変換装置１によれば不必要なマスク処理を行うことなく電子情報に含まれる個人情報を洩れなくマスク処理できる。
【００４７】
すなわち、個人情報を含む電子文書を適切にマスキングする際、従来は個人情報文字列以外のＨＴＭＬタグ中の属性情報文字列についても誤ってマスキングされていたが、誤ってマスキングをすることなく、個人情報文字列のみを適切にマスキングできる。これにより、誤ってマスキングされた文字列の存在によってマスク処理前の文字列が推定される可能性を低減することができ、従来よりも安全な個人情報マスク処理の実施が可能となる。
【００４８】
特に、文字列変換装置１は、文字列変換の対象となる文字列の抽出にあたり、文字列変換の候補文字列の組合せの集合から、候補文字列間の文字数が最小数である文字列の組合せを文字列変換の対象として選択する。このような候補文字列間の文字数に依存した文字列の選択によりマスクすべき文字列を効率的に抽出できる。
【００４９】
または、候補文字列の組合せの集合から平均文字列長より短い文字列の組合せを選択しこの選択した組合せを文字列変換の対象として選択する。このような組み合わされた文字列の長さに依存した文字列の選択によりマスクすべき文字列を効率的に抽出できる。
【００５０】
若しくは、候補文字列の組合せの集合から統計的指標（共起頻度等）に基づき選択された文字列の組合せを文字列変換の対象として選択する。このような統計的な処理により、マスクすべき文字列を効率的に抽出できる。
【００５１】
［実施形態２］
個人情報の種類によっては、個人情報を構成する項目文字列の間に記号が介在する場合がある。例えば、個人情報が電話番号、クレジットカード、郵便番号の場合、「‐」（ハイフン）のような記号が介在することが多い。個人情報が郵便番号の場合、先頭の項目文字列の前に「〒」の記号が表記されることが多い一方で項目文字列間に「〒」の記号が介在する可能性は低い。また、メールアドレスの場合、これを構成する項目文字列の間に「＠」が含まれる可能性が高いが、電子文書のタグ要素の内容（例えばＨＴＭＬ文書やＸＭＬ文書の開始タグと終了タグで囲まれた範囲の内容）に含まれていない他の文字列が当該項目文字列の間に介在する可能性は低い。
【００５２】
その他の個人情報種類でも、先頭項目文字列の前や、項目文字列間に介在する可能性が高い記号や文字列が存在し、また、項目文字列間に含まれる可能性の低い記号、文字列が存在する。
【００５３】
そこで、実施形態２に係るマスク対象判定部５０は、個人情報の表記パターン情報を蓄積した個人情報表記パターン辞書９０を参照することにより、文字列変換候補の判定効率をさらに向上させている。
【００５４】
個人情報表記パターン辞書９０は図６に示したように個人情報の種類毎に個人情報の内容、表記パターン情報を格納している。当該表記パターン情報のカラムには個人情報の先頭文字文字列と当該個人情報を構成する項目文字列の間に介在する記号または文字若しくは文字列が格納されている。図６に例示された辞書９０では個人情報の種類のカラムには「氏名」「電話番号」「携帯電話番号」「クレジットカード番号」「郵便番号」「メールアドレス」「住所」が記録されている。
【００５５】
マスク対象判定部５０は、上述の手順Ｓ３０４での項目文字列の組合せの選択にあたり、個人情報表記パターン辞書９０を参照する。この参照により、例えば項目文字の間に「郵便番号」に関する「〒」の記号が介在する項目文字列の組み合わせを、文字列変換候補となる項目文字列の組み合わせの集合から除外する。また、例えば「電話番号」に関する文字列変換候補となる項目文字列の組合せの選択にあたり、当該文字間の文字列が電子文書（例えばＨＴＭＬ文書、ＸＭＬ文書）のタグ要素の内容に含まれない文字列「‐」（ハイフン）のみとなる組み合わせを選択する。
【００５６】
また、各個人情報の種類については表記パターン情報毎に重みづけを行い、マスク対象判定部５０が文字列変換候補の項目文字列の各組み合わせについて項目文字列間に介在する文字列の重みづけを計算するようにしてもよい。そして、重みづけの計算値が最も高くなる項目文字列の組み合わせが選択される。これにより個人情報のマスク精度が向上する。
【００５７】
［実施形態３］
図７に示された実施形態３に係るネットワークシステムはシステム内に存在する全てのクライアント端末２において文字列変換装置１を実装させている。個々のクライアント端末２はそのハードウェアリソースがソフトウェアリソースと協働することにより図１に示された文字列変換装置１の機能部２０〜６０，８０を実装している。個人情報表記パターン辞書９０は個人情報表記パターン辞書サーバ３に保存されている。
【００５８】
クライアント端末２はインターネット４を介して個人情報表記パターン辞書サーバ３と通信可能となっている。クライアント端末２を所有するクライアントの個人情報（例えば「氏名」「電話番号」「携帯電話番号」「クレジットカード番号」「郵便番号」「メールアドレス」「住所」）２０１は予め個人情報表記パターン辞書９０に格納される。
【００５９】
クライアント端末２はＷｅｂページ閲覧履歴データに含まれる個人情報のマスク処理（手順Ｓ１〜Ｓ４の実行）の際に個人情報表記パターン辞書サーバ３内の個人情報表記パターン辞書９０から個人情報の表示パターン情報２０２を引き出し、参照する。尚、本マスク処理の過程で新たに検出された個人情報は新たな個人情報表記パターン辞書９０に追加される。
【００６０】
本ネットワークシステムにおいてはＷｅｂ閲覧履歴収集サーバ５がインターネット４を介してクライアント端末２からＷｅｂページ閲覧履歴データ２０３を取得できるようになっている。Ｗｅｂページ閲覧履歴データ２０３に含まれる個人情報はクライアント端末２が実行する手順Ｓ１〜Ｓ４によりマスク処理されている。
【００６１】
［本発明のプログラムとしての態様］
本発明は文字列変換装置１を構成する上記の機能部２０〜６０，８０，９０の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることで実現できる。または、文字列変換装置１が実行する上記の手順Ｓ１〜Ｓ４の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることで実現できる。そして、前記プログラムをそのコンピュータが読み取り可能な記録媒体、例えば、ＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ‐Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）‐ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）‐ＲＯＭ、ＣＤ‐Ｒ、ＣＤ‐ＲＷ、ＨＤＤ、ＳＳＤ、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。さらに、上記のプログラムをインターネットや電子メールなど、ネットワークを介して提供することも可能である。
【符号の説明】
【００６２】
１…文字列変換装置
３０…個人情報辞書
４０…個人情報検出部
５０…マスク対象判定部
６０…マスク置換部

【特許請求の範囲】
【請求項１】
保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、
電子文書から前記個人情報辞書に含まれる個人情報の文字列を文字列変換の候補文字列として検出する手順と、
前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に当該候補文字列の組合せの集合から候補文字列間の文字数が最小数である文字列の組合せを文字列変換の対象として判定する手順と、
前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順と
を有すること
を特徴とする文字列変換方法。
【請求項２】
保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、
電子文書から前記個人情報辞書に含まれる個人情報の文字列を文字列変換の候補文字列として検出する手順と、
前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に当該候補文字列の組合せの集合から平均文字列長より短い文字列の組合せを選択しこの選択した組合せを文字列変換の対象として判定する手順と、
前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順と
を有すること
を特徴とする文字列変換方法。
【請求項３】
保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、
電子文書から前記個人情報辞書に含まれる個人情報の文字列を文字列変換の候補文字列として検出する手順と、
前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に当該候補文字列の組合せの集合から統計的指標に基づき選択された文字列の組合せを文字列変換の対象として判定する手順と、
前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順と
を有すること
を特徴とする文字列変換方法。
【請求項４】
コンピュータに請求項１から３のいずれか１項に記載の文字列変換方法の各手順を実行させるための文字列変換プログラム。

【図１】