説明

公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム

【課題】重要属性に対する匿名化を行う。
【解決手段】データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類し、重要情報の属性値を匿名化する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医療情報などの公開情報に対するプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムに関する。
【背景技術】
【0002】
従来より、多くのデータに基づいて、統計処理を行って、例えば、特定の病気にかかりやすい年代、性別、地域、人種といった情報を広く公開して、その傾向分析を行い、その対策に用いる場合がある。
【0003】
ところが、データを公開する場合において、データの所有者のプライバシーを保護するため、データの変形を行う必要がある。これまでの手法においては、擬ID情報に対して最適k−匿名性を満たすための匿名化手法を提案していた(例えば、非特許文献1参照。)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】B.Fung and K.Wang and P.Yu,“Top−down specialization for information and privacy preservation”Proc of ICDE 2005 pp.205−216
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、重要属性と呼ばれる擬ID情報の属性情報についても、複数の重要属性の組合せからデータ所有者を特定できる可能性があるという問題点があった。
【0006】
そこで、本発明は、上述の課題に鑑みてなされたものであり、重要属性に対する匿名化を行う公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
発明者は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0008】
(1)本発明は、ユーザからのデータを公開する場合の公開情報のプライバシー保護装置であって、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する分類手段と、前記重要情報の属性値を匿名化する匿名化手段と、を備えたことを特徴とする公開情報のプライバシー保護装置を提案している。
【0009】
この発明によれば、分類手段は、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する。匿名化手段は、重要情報の属性値を匿名化する。つまり、近年、重要属性と呼ばれる擬ID情報の属性情報についても、複数の重要属性の組合せからデータ所有者を特定できる可能性がある。しかし、本発明においては、重要情報についても匿名化するため、上記のような危険性を回避することができる。
【0010】
(2)本発明は、(1)の公開情報のプライバシー保護装置について、前記匿名化手段が、前記準識別子(Quasi−Identifier)を匿名化した上で、重要情報(Sensitive Information)を匿名化することを特徴とする公開情報のプライバシー保護装置を提案している。
【0011】
この発明によれば、匿名化手段が、準識別子(Quasi−Identifier)を匿名化した上で、重要情報(Sensitive Information)を匿名化する。つまり、準識別子が匿名化されている前提の下で、重要情報の匿名化を行うため、複数の重要属性の組合せからデータ所有者を特定することを防止することができる。
【0012】
(3)本発明は、(1)の公開情報のプライバシー保護装置について、前記匿名化手段が、前記重要情報のある属性値を消去することにより、属性値の匿名化を行うことを特徴とする公開情報のプライバシー保護装置を提案している。
【0013】
この発明によれば、匿名化手段が、重要情報のある属性値を消去することにより、属性値の匿名化を行う。したがって、属性情報の粒度を下げることなく、効率的に重要情報の匿名化を行うことができる。
【0014】
(4)本発明は、(1)の公開情報のプライバシー保護装置について、前記匿名化手段が、前記重要情報のある属性値を任意の属性値に置き換えることにより、属性値の匿名化を行うことを特徴とする公開情報のプライバシー保護装置を提案している。
【0015】
この発明によれば、匿名化手段が、重要情報のある属性値を任意の属性値に置き換えることにより、属性値の匿名化を行う。したがって、属性情報の粒度を下げることなく、効率的に重要情報の匿名化を行うことができる。
【0016】
(5)本発明は、(1)から(4)の公開情報のプライバシー保護装置について、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数kを設定する設定手段を備え、前記匿名化手段が、該組み合わせ数がk以上となるように匿名化することを特徴とする公開情報のプライバシー保護装置を提案している。
【0017】
この発明によれば、設定手段は、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数kを設定する。そして、匿名化手段が、組み合わせ数がk以上となるように匿名化する。したがって、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合であっても、確実に安全性を担保することができる。
【0018】
(6)本発明は、(1)または(5)の公開情報のプライバシー保護装置について、前記匿名化手段が、前記分類手段が、区分した表に対して、前記準識別子の属性を匿名化する初期処理手段と、該初期処理後の表から2つの重要属性を1組としたすべてのペアを抽出するペア抽出手段と、該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出するグループ抽出手段と、該グループ抽出手段が抽出したグループにおいて、前記ペア抽出手段が抽出したペア以外の残りの重要属性の値からなる表を作成する表作成手段と、を備え、該作成した表が攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、前記ペア抽出手段、グループ抽出手段および表作成手段の処理を行い、変形した表を出力することを特徴とする公開情報のプライバシー保護装置を提案している。
【0019】
この発明によれば、初期処理手段は、分類手段が、区分した表に対して、準識別子の属性を匿名化する。ペア抽出手段は、初期処理後の表から2つの重要属性を1組としたすべてのペアを抽出する。グループ抽出手段は、抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する。表作成手段は、グループ抽出手段が抽出したグループにおいて、ペア抽出手段が抽出したペア以外の残りの重要属性の値からなる表を作成する。そして、作成した表が攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、ペア抽出手段、グループ抽出手段および表作成手段の処理を行い、変形した表を出力する。したがって、すべてのグループが条件を満たすように、処理を行うことから、確実に安全性を担保することができる。
【0020】
(7)本発明は、(1)または(5)の公開情報のプライバシー保護装置について、前記匿名化手段が、前記分類手段が、区分した表に対して、前記準識別子の属性を匿名化する初期処理手段と、該初期処理後の表から2つの重要属性を1組としたすべてのペアを抽出するペア抽出手段と、該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出するグループ抽出手段と、該グループ抽出手段が抽出したグループにおいて、前記ペア抽出手段が抽出したペア以外の残りの重要属性の値からなる表を作成する表作成手段と、を備え、前記作成した表が、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個未満の属性値の組合せをもつ場合に、他のグループから前記レコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返し、すべてのグループについて条件を満たしたときに、変形した表を出力することを特徴とする公開情報のプライバシー保護装置を提案している。
【0021】
この発明によれば、初期処理手段は、分類手段が、区分した表に対して、準識別子の属性を匿名化する。ペア抽出手段は、初期処理後の表から2つの重要属性を1組としたすべてのペアを抽出する。グループ抽出手段は、抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する。表作成手段は、グループ抽出手段が抽出したグループにおいて、ペア抽出手段が抽出したペア以外の残りの重要属性の値からなる表を作成する。そして、作成した表が、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個未満の属性値の組合せをもつ場合に、他のグループからレコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返し、すべてのグループについて条件を満たしたときに、変形した表を出力する。したがって、すべてのグループが条件を満たすように、処理を行うことから、確実に安全性を担保することができる。
【0022】
(8)本発明は、ユーザからのデータを公開する場合の公開情報のプライバシー保護方法であって、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する第1のステップと、区分した表に対して、前記準識別子の属性を匿名化する第2のステップと、該第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出する第3のステップと、該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する第4のステップと、該第4のステップにおいて抽出したグループにおいて、前記第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する第5のステップと、該作成した表が攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、前記第3のステップ、第4のステップおよび第5のステップの処理を行い、変形した表を出力する第6のステップと、を備えたことを特徴とする公開情報のプライバシー保護方法を提案している。
【0023】
この発明によれば、まず、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する。次に、区分した表に対して、準識別子の属性を匿名化し、第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出して、抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する。さらに、第4のステップで抽出したグループにおいて、第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する。そして、作成した表が攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、第3のステップ、第4のステップおよび第5のステップの処理を行い、変形した表を出力する。したがって、すべてのグループが条件を満たすように、処理を行うことから、確実に安全性を担保することができる。
【0024】
(9)本発明は、ユーザからのデータを公開する場合の公開情報のプライバシー保護方法であって、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する第1のステップと、区分した表に対して、前記準識別子の属性を匿名化する第2のステップと、該第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出する第3のステップと、該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する第4のステップと、該第4のステップにおいて抽出したグループにおいて、前記第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する第5のステップと、前記作成した表が、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個未満の属性値の組合せをもつ場合に、他のグループから前記レコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返し、すべてのグループについて条件を満たしたときに、変形した表を出力する第6のステップと、を備えたことを特徴とする公開情報のプライバシー保護方法を提案している。
【0025】
この発明によれば、まず、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する。次に、区分した表に対して、準識別子の属性を匿名化し、第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出して、抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する。さらに、第4のステップで抽出したグループにおいて、第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する。そして、作成した表が、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個未満の属性値の組合せをもつ場合に、他のグループからレコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返し、すべてのグループについて条件を満たしたときに、変形した表を出力する。したがって、すべてのグループが条件を満たすように、処理を行うことから、確実に安全性を担保することができる。
【0026】
(10)本発明は、ユーザからのデータを公開する場合の公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する第1のステップと、区分した表に対して、前記準識別子の属性を匿名化する第2のステップと、該第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出する第3のステップと、該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する第4のステップと、該第4のステップにおいて抽出したグループにおいて、前記第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する第5のステップと、該作成した表が攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、前記第3のステップ、第4のステップおよび第5のステップの処理を行い、変形した表を出力する第6のステップと、をコンピュータに実行させるためのプログラムを提案している。
【0027】
この発明によれば、まず、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する。次に、区分した表に対して、準識別子の属性を匿名化し、第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出して、抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する。さらに、第4のステップで抽出したグループにおいて、第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する。そして、作成した表が攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、第3のステップ、第4のステップおよび第5のステップの処理を行い、変形した表を出力する。したがって、すべてのグループが条件を満たすように、処理を行うことから、確実に安全性を担保することができる。
【0028】
(11)本発明は、ユーザからのデータを公開する場合の公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する第1のステップと、区分した表に対して、前記準識別子の属性を匿名化する第2のステップと、該第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出する第3のステップと、該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する第4のステップと、該第4のステップにおいて抽出したグループにおいて、前記第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する第5のステップと、前記作成した表が、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個未満の属性値の組合せをもつ場合に、他のグループから前記レコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返し、すべてのグループについて条件を満たしたときに、変形した表を出力する第6のステップと、をコンピュータに実行させるためのプログラムを提案している。
【0029】
この発明によれば、まず、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する。次に、区分した表に対して、準識別子の属性を匿名化し、第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出して、抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する。さらに、第4のステップで抽出したグループにおいて、第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する。そして、作成した表が、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個未満の属性値の組合せをもつ場合に、他のグループからレコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返し、すべてのグループについて条件を満たしたときに、変形した表を出力する。したがって、すべてのグループが条件を満たすように、処理を行うことから、確実に安全性を担保することができる。
【発明の効果】
【0030】
本発明によれば、利用者の要求条件を考慮した公開データの作成が可能となるという効果がある。また、従来よりも最適化されたデータを得ることができるという効果がある。
【図面の簡単な説明】
【0031】
【図1】本発明に係る公開情報のプライバシー保護装置の構成図である。
【図2】本発明の第1の実施形態に係る匿名化部の構成を示した図である。
【図3】本発明の第1の実施形態に係る初期化処理後のデータを例示した図である。
【図4】本発明の第1の実施形態に係る匿名化部の処理を例示した図である。
【図5】本発明の第1の実施形態に係る匿名化部の処理を例示した図である。
【図6】本発明の第1の実施形態に係る匿名化部の処理を例示した図である。
【図7】本発明の第1の実施形態に係るプライバシー保護装置の処理を示した図である。
【図8】本発明の第2の実施形態に係る匿名化部の構成を示した図である。
【図9】本発明の第2の実施形態に係る初期化処理後のデータを例示した図である。
【図10】本発明の第2の実施形態に係る匿名化部の処理を例示した図である。
【図11】本発明の第2の実施形態に係る匿名化部の処理を例示した図である。
【図12】本発明の第2の実施形態に係る匿名化部の処理を例示した図である。
【図13】本発明の第2の実施形態に係るプライバシー保護装置の処理を示した図である。
【発明を実施するための形態】
【0032】
<第1の実施形態>
以下、本発明の第1の実施形態について、図1から図7を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0033】
<公開情報のプライバシー保護装置の構成>
図1を用いて、本実施形態に係る公開情報のプライバシー保護装置の構成について説明する。本実施形態に係る公開情報のプライバシー保護装置は、図1に示すように、分類部100と、匿名化部200と、設定部300とから構成されている。
【0034】
分類部100は、入力された元データ(オリジナルデータ)をそのデータの各属性に応じて、重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に分類する。なお、実際には、GUI(Graphical User Interface)等を用いて、コンピュータ上のグラフィックス表示をマウスなどでポインティングすることにより、利用者が分類を行う。なお、重要情報(Sensitive Information)に指定された属性の変更は行われない。
【0035】
匿名化部200は、重要情報の属性値を匿名化する。具体的には、重要情報のある属性値を消去あるいは任意の属性値に置き換えることにより、属性値の匿名化を行う。したがって、属性情報の粒度を下げることなく、効率的に重要情報の匿名化を行うことができる。設定部300は、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数kを設定する。
【0036】
<匿名化部の構成>
図2を用いて、本実施形態に係る匿名化部200の構成について説明する。本実施形態に係る匿名化部200は、図2に示すように、初期処理部210と、ペア抽出部220と、グループ抽出部230と、表作成部240と、条件判定部250とから構成されている。
【0037】
初期処理部210は、分類部100が、区分した表に対して、準識別子の属性を匿名化する。ペア抽出部220は、初期処理後の表から2つの重要属性を1組としたすべてのペアを抽出する。グループ抽出部230は、抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する。
【0038】
表作成部240は、グループ抽出部230が抽出したグループにおいて、ペア抽出部220が抽出したペア以外の残りの重要属性の値からなる表を作成する。条件判定部250は、作成した表がk個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、ペア抽出部220、グループ抽出部230および表作成部240の処理を行う。また、図示しない出力部は、変形した表を出力する。
【0039】
<匿名化部の処理>
図3から図6を用いて、匿名化部の処理について、具体例を提示して、説明する。
【0040】
図3は、初期化処理後のデータを例示したものである。本例によれば、「準識別子(Quasi−Identifier)」として、「Birth」、「Zip」、「Nationality」が示され、「重要情報(Sensitive Information)」として、「Problem」、「Weight」、「Commute」が示されている。なお、本表のうち、「*」は、データの一般化を意味する。
【0041】
本発明は、重要情報を匿名化するものであり、ペア抽出部220は、上記3つの重要情報を2つ1組のペアとする。つまり、図4は、「Problem」と「Weight」と(図中、(a))をペアにした場合を、図5は、「Problem」と「Commute」と(図中、(a))をペアにした場合を、図6は、「Weight」と「Commute」と(図中、(a))をペアにした場合を示している。
【0042】
グループ抽出部230は、抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する。つまり、図4の例では、「Problem」について、同じ属性値「Chest Pain」(図中、(A))、「Hypertension」(図中、(B))、「Obesity」(図中、(C))を有するレコード(属性値の列)をグループとして抽出する。図5の例では、「Problem」について、同じ属性値「Chest Pain」(図中、(A))、「Hypertension」(図中、(B))、「Obesity」(図中、(C))を有するレコード(属性値の列)をグループとして抽出する。また、図6の例では、「Weight」について、同じ属性値「Heavy」(図中、(A))、「Medium」(図中、(B))、「Slim」(図中、(C))を有するレコード(属性値の列)をグループとして抽出する。
【0043】
表作成部240は、グループ抽出部230が抽出したグループにおいて、ペア抽出部220が抽出したペア以外の残りの重要属性の値からなる表を作成する。つまり、図4、図5、図6の例では、それぞれ(b)の表を作成する。
【0044】
条件判定部250は、作成した表がk個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、ペア抽出部220、グループ抽出部230および表作成部240の処理を行う。本例では、k=2とすると、図4の場合、「Commute」には、各グループごとに、「Car」、「Walk」、「Train」の3つの属性値があり、図5の場合には、「Weight」には、各グループごとに、「Heavy」、「Slim」、「Medium」の3つの属性値がある。つまり、本例では、k=2の設定に対して、各グループごとに3つの属性値があるため、条件を満たしている。
【0045】
<公開情報のプライバシー保護装置の処理>
図7を用いて、公開情報のプライバシー保護装置の処理について説明する。
まず、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類し(ステップS101)、区分した表に対して、準識別子の属性を匿名化する(ステップS102)。
【0046】
第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出し(ステップS103)、抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する(ステップS104)。
【0047】
第4のステップで抽出したグループにおいて、第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成し(ステップS105)、作成した表がk個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、第3のステップ、第4のステップおよび第5のステップの処理を行い、変形した表を出力する(ステップS106)。
【0048】
したがって、本実施形態によれば、すべてのグループが条件を満たすように、処理を行うことから、確実に安全性を担保することができる。
【0049】
<第2の実施形態>
図8から図13を用いて、本発明の第2の実施形態について説明する。
【0050】
<匿名化部の構成>
図8を用いて、本実施形態に係る匿名化部200の構成について説明する。本実施形態に係る匿名化部200は、図8に示すように、初期処理部210と、ペア抽出部220と、グループ抽出部230と、表作成部240と、条件判定部251と、レコード数処理部260とから構成されている。なお、第1の実施形態と同一の符号を付す構成要素については、同様の機能を有することから、その詳細な説明は、省略する。
【0051】
レコード数処理部260は、表作成部240が、作成した表が、k個未満の属性値の組合せをもつ場合に、他のグループからレコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返す。条件判定部251は、すべてのグループについて条件を満たしているか否かを判定する。そして、すべてのグループが条件を満たしたときに、図示しない出力部が、変形した表を出力する。
【0052】
<匿名化部の処理>
図9から図12を用いて、匿名化部の処理について、具体例を提示して、説明する。
【0053】
図9は、初期化処理後のデータを例示したものである。本例によれば、「準識別子(Quasi−Identifier)」として、「Birth」、「Zip」、「Nationality」が示され、「重要情報(Sensitive Information)」として、「Problem」、「Weight」、「Commute」が示されている。なお、本表のうち、「*」は、データの一般化を意味する。
【0054】
レコード数処理部260は、表作成部240が、作成した表が、k個未満の属性値の組合せをもつ場合に、他のグループからレコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返す。本例では、k=2とすると、まず、図10において、重要属性の2段目の列における属性値「Chest Pain」および「Slim」を「*」として一般化することにより、重要情報「Problem」の属性値が「Chest Pain」であるときに、すべてのペアの組み合わせにおいて、属性値の数が3となり、条件を満たす。
【0055】
また、図11において、重要属性の2段目の列における属性値「Chest Pain」と「Slim」および4段目の列における属性値「Hypertension」と「Heavy」を「*」として一般化することにより、重要情報「Problem」の属性値が「Obesity」であるときに、すべてのペアの組み合わせにおいて、属性値の数が3となり、条件を満たす。
【0056】
しかしながら、図11の状態では、重要情報「Problem」の属性値が「Hypertension」であるときには、条件を満たさない。そこで、図12に示すように、さらに、重要属性の6段目の列における属性値「Chest Pain」と「Medium」とを「*」として一般化することにより、重要情報「Problem」の属性値が「Hypertension」であるときに、すべてのペアの組み合わせにおいて、属性値の数が3となり、条件を満たすようにする。なお、このままでは、重要情報「Commute」が全く一般化されないため、重要情報「Commute」の5列目の属性値「Train」を「*」として一般化する。
【0057】
<公開情報のプライバシー保護装置の処理>
図13を用いて、公開情報のプライバシー保護装置の処理について説明する。
まず、データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類し(ステップS201)、区分した表に対して、準識別子の属性を匿名化する(ステップS202)。
【0058】
第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出し(ステップS203)、抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する(ステップS204)。
【0059】
第4のステップで抽出したグループにおいて、第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成し(ステップS205)、作成した表が、k個未満の属性値の組合せをもつ場合に、他のグループからレコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返し、すべてのグループについて条件を満たしたときに、変形した表を出力する(ステップS206)。
【0060】
以上、説明したように、本実施形態によれば、利用者の要求条件を考慮した公開データの作成が可能となる。また、従来よりも最適化されたデータを得ることができる。
【0061】
なお、公開情報のプライバシー保護装置をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを公開情報のプライバシー保護装置に読み込ませ、実行することによって本発明の公開情報のプライバシー保護装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
【0062】
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0063】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0064】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0065】
100;分類部
200;匿名化部
210;初期処理部
220;ペア抽出部
230;グループ抽出部
240;表作成部
250;条件判定部
251;条件判定部
260;レコード数処理部
300;設定部

【特許請求の範囲】
【請求項1】
ユーザからのデータを公開する場合の公開情報のプライバシー保護装置であって、
データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する分類手段と、
前記重要情報の属性値を匿名化する匿名化手段と、
を備えたことを特徴とする公開情報のプライバシー保護装置。
【請求項2】
前記匿名化手段が、前記準識別子(Quasi−Identifier)を匿名化した上で、重要情報(Sensitive Information)を匿名化することを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
【請求項3】
前記匿名化手段が、前記重要情報のある属性値を消去することにより、属性値の匿名化を行うことを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
【請求項4】
前記匿名化手段が、前記重要情報のある属性値を任意の属性値に置き換えることにより、属性値の匿名化を行うことを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
【請求項5】
攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数kを設定する設定手段を備え、
前記匿名化手段が、該組み合わせ数がk以上となるように匿名化することを特徴とする請求項1から請求項4に記載の公開情報のプライバシー保護装置。
【請求項6】
前記匿名化手段が、
前記分類手段が、区分した表に対して、前記準識別子の属性を匿名化する初期処理手段と、
該初期処理後の表から2つの重要属性を1組としたすべてのペアを抽出するペア抽出手段と、
該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出するグループ抽出手段と、
該グループ抽出手段が抽出したグループにおいて、前記ペア抽出手段が抽出したペア以外の残りの重要属性の値からなる表を作成する表作成手段と、
を備え、
該作成した表が攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、前記ペア抽出手段、グループ抽出手段および表作成手段の処理を行い、変形した表を出力することを特徴とする請求項1または請求項5に記載の公開情報のプライバシー保護装置。
【請求項7】
前記匿名化手段が、
前記分類手段が、区分した表に対して、前記準識別子の属性を匿名化する初期処理手段と、
該初期処理後の表から2つの重要属性を1組としたすべてのペアを抽出するペア抽出手段と、
該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出するグループ抽出手段と、
該グループ抽出手段が抽出したグループにおいて、前記ペア抽出手段が抽出したペア以外の残りの重要属性の値からなる表を作成する表作成手段と、
を備え、
前記作成した表が、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個未満の属性値の組合せをもつ場合に、他のグループから前記レコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返し、すべてのグループについて条件を満たしたときに、変形した表を出力することを特徴とする請求項1または請求項5に記載の公開情報のプライバシー保護装置。
【請求項8】
ユーザからのデータを公開する場合の公開情報のプライバシー保護方法であって、
データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する第1のステップと、
区分した表に対して、前記準識別子の属性を匿名化する第2のステップと、
該第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出する第3のステップと、
該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する第4のステップと、
該第4のステップにおいて抽出したグループにおいて、前記第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する第5のステップと、
該作成した表が攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、前記第3のステップ、第4のステップおよび第5のステップの処理を行い、変形した表を出力する第6のステップと、
を備えたことを特徴とする公開情報のプライバシー保護方法。
【請求項9】
ユーザからのデータを公開する場合の公開情報のプライバシー保護方法であって、
データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する第1のステップと、
区分した表に対して、前記準識別子の属性を匿名化する第2のステップと、
該第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出する第3のステップと、
該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する第4のステップと、
該第4のステップにおいて抽出したグループにおいて、前記第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する第5のステップと、
前記作成した表が、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個未満の属性値の組合せをもつ場合に、他のグループから前記レコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返し、すべてのグループについて条件を満たしたときに、変形した表を出力する第6のステップと、
を備えたことを特徴とする公開情報のプライバシー保護方法。
【請求項10】
ユーザからのデータを公開する場合の公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、
データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する第1のステップと、
区分した表に対して、前記準識別子の属性を匿名化する第2のステップと、
該第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出する第3のステップと、
該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する第4のステップと、
該第4のステップにおいて抽出したグループにおいて、前記第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する第5のステップと、
該作成した表が攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個以上の属性値の組み合わせをもつ場合に、すべてのグループについて条件を満たすように、前記第3のステップ、第4のステップおよび第5のステップの処理を行い、変形した表を出力する第6のステップと、
をコンピュータに実行させるためのプログラム。
【請求項11】
ユーザからのデータを公開する場合の公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、
データの各属性を重要情報(Sensitive Information)、準識別子(Quasi−Identifier)に区分して表に分類する第1のステップと、
区分した表に対して、前記準識別子の属性を匿名化する第2のステップと、
該第2のステップ後の表から2つの重要属性を1組としたすべてのペアを抽出する第3のステップと、
該抽出したそれぞれのペアに対して、同じ属性値を持つレコードをグループとして抽出する第4のステップと、
該第4のステップにおいて抽出したグループにおいて、前記第3のステップで抽出したペア以外の残りの重要属性の値からなる表を作成する第5のステップと、
前記作成した表が、攻撃者がl個の重要情報の組み合わせに基づいて、もとの重要情報を類推できる能力を有する場合に、l個の重要情報の組み合わせ数k個未満の属性値の組合せをもつ場合に、他のグループから前記レコードを1つ取り、最大l個の属性を削除または任意の属性値に置き換え、当該グループに所属するレコード数を数え、属性値がk個以上になるまでこの処理を繰り返し、すべてのグループについて条件を満たしたときに、変形した表を出力する第6のステップと、
をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate