説明

公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム

【課題】k-匿名性に従ってグループ分けされたテーブル間におけるレコードの移動が頻繁に発生する場合において、その流量を定義し、その流量が一定の平衡状態となる(k+n)−匿名性まで拡張することで、頻繁なデータ再構築を回避する。
【解決手段】オリジナルデータに対して、k−匿名化処理を行い、そのk−匿名化処理で得られた各グループ間のデータの移動を流量として測定し、すべてのグループで測定した流量が可能な限り近い値となるように、匿名性の範囲を拡張する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、公開情報のプライバシー保護に関して、データの変更によるデータの再構築を頻繁に発生させないプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムに関する。
【背景技術】
【0002】
従来より、多くのデータに基づいて、統計処理を行って、例えば、特定の病気にかかりやすい年代、性別、地域、人種といった情報を広く公開して、その傾向分析を行い、その対策に用いる場合がある。
【0003】
ところが、データを公開する場合には、そのデータの所有者が特定されないように、プライバシーを慎重に保護する必要があるため、データの変形処理を行う必要がある。そのため、今までにも、プライバシーを保護するためのデータの変形処理に関する技術が多く開示されている(例えば、非特許文献1参照。)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】B.Fung and K.Wang and P.Yu, “Top−down specialization for information and privacy preservation”Proc of ICDE 2005 pp.205−216
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、これまでの手法においては、セキュリティ要件に従ってk-匿名性を満たすデータを作成していたが、位置情報のような比較的データの更新が頻繁であるデータに対しては、k-匿名性を満たすようにするためのデータの再構築が頻繁に発生するという問題点があった。例えば、位置情報においてk-匿名性を実現していた場合、1人のユーザが別の場所に移動するだけでk-匿名性を満たさなくなり、データの再構築が必要となるといった問題があった。
【0006】
そこで、本発明は、上述の課題に鑑みてなされたものであり、k-匿名性に従ってグループ分けされたテーブル間におけるレコードの移動が頻繁に発生する場合において、その流量を定義し、その流量が一定の平衡状態となる(k+n)−匿名性まで拡張することで、頻繁なデータ再構築を回避する公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
発明者は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0008】
(1)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、オリジナルデータに対して、k−匿名化処理を行う匿名化処理手段と、該k−匿名化処理で得られた各グループ間のデータの移動を流量して測定する流量測定手段(例えば、図5の流量測定部40に相当)と、すべてのグループで前記測定した流量が可能な限り近い値となるように、前記匿名性の範囲を拡張するデータ変更手段と、を備えたことを特徴とする公開情報のプライバシー保護装置を提案している。
【0009】
この発明によれば、匿名化処理手段は、オリジナルデータに対して、k−匿名化処理を行う。流量測定手段は、k−匿名化処理で得られた各グループ間のデータの移動を流量として測定する。データ変更手段は、すべてのグループで測定した流量が可能な限り近い値となるように、匿名性の範囲を拡張する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【0010】
(2)本発明は、(1)の公開情報のプライバシー保護装置について、前記流量測定手段は、各グループについて、新たにグループに加わったレコード数V1とグループから離脱したレコード数V2とを単位時間で除して、流量v1、v2を求めることを特徴とする公開情報のプライバシー保護装置を提案している。
【0011】
この発明によれば、流量測定手段は、各グループについて、新たにグループに加わったレコード数V1とグループから離脱したレコード数V2とを単位時間で除して、流量v1、v2を求める。したがって、これにより、各グループにおける単位時間当たりのデータの出入りを把握することができる。
【0012】
(3)本発明は、(1)の公開情報のプライバシー保護装置について、前記データ変更手段は、セキュリティ条件より定まる匿名性の範囲よりも広い範囲で匿名性の範囲を拡張することを特徴とする公開情報のプライバシー保護装置を提案している。
【0013】
この発明によれば、データ変更手段は、セキュリティ条件より定まる匿名性の範囲よりも広い範囲で匿名性の範囲を拡張する。したがって、これにより、データの変更によるデータの再構成を避けることができる。
【0014】
(4)本発明は、(1)の公開情報のプライバシー保護装置について、データ変更手段は、前記流量が可能な限り近い値となるように、グループを結合して、前記匿名性の範囲を拡張することを特徴とする公開情報のプライバシー保護装置を提案している。
【0015】
この発明によれば、データ変更手段は、流量が可能な限り近い値となるように、グループを結合して、前記匿名性の範囲を拡張する。つまり、例えば、流量の多いグループと流量の少ないグループとを結合することにより、全体的に、流量を平均値に近い値とすることができる。そのため、このような処理をすべてのグループで行えば、全体の流量を平準化することができる。
【0016】
(5)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う流量判定手段(例えば、図5の流量測定部40に相当)と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成するデータ生成手段(例えば、図5の(k+n)−匿名性データ作成部10に相当)と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行うデータ加工手段(例えば、図5のボトムアップ処理部20に相当)と、(k+n)−匿名性の判定を行う判定手段(例えば、図5の(k+n)−匿名性判定部30に相当)と、を備え、前記(k+n)−匿名性を満たし、かつ、すべてのグループにおける前記流量が可能な限り近い値となるようにnの値を拡張することを特徴とする公開情報のプライバシー保護装置を提案している。
【0017】
この発明によれば、流量判定手段は、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う。データ生成手段は、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する。データ加工手段は、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う。判定手段は、(k+n)−匿名性の判定を行う。そして、(k+n)−匿名性を満たし、かつ、すべてのグループにおける流量が可能な限り近い値となるようにnの値を拡張する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【0018】
(6)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う流量判定手段(例えば、図8の流量測定部40に相当)と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成するデータ生成手段(例えば、図8の(k+n)−匿名性データ作成部10に相当)と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行うデータ加工手段(図8のトップダウン処理部70に相当)と、(k+n)−匿名性の判定を行う判定手段(例えば、図8の(k+n)−匿名性判定部30に相当)と、を備え、前記(k+n)−匿名性を満たし、かつ、すべてのグループにおける前記流量が可能な限り近い値となるようにnの値を拡張することを特徴とする公開情報のプライバシー保護装置を提案している。
【0019】
この発明によれば、流量判定手段は、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う。データ生成手段は、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する。データ加工手段は、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う。判定手段は、(k+n)−匿名性の判定を行う。そして、(k+n)−匿名性を満たし、かつ、すべてのグループにおける流量が可能な限り近い値となるようにnの値を拡張する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【0020】
(7)本発明は、(5)の公開情報のプライバシー保護装置について、前記算出した評価ポイントの減少分が最小となるようなデータの加工方法が、ボトムアップ処理を用いて、データの加工方法であることを特徴とする公開情報のプライバシー保護装置を提案している。
【0021】
この発明によれば、算出した評価ポイントの減少分が最小となるようなデータの加工方法が、ボトムアップ処理を用いて、データの加工方法である。つまり、ボトムアップ処理においては、各属性について同一データを集めてソート処理およびグループ化処理を行い、各属性の属性値の数を算出し、評価ポイントを算出する。そして、設定された優先順位情報(重み付け)とk−匿名性判定からに基づいて、加工処理を行う属性およびグループを選択し、加工処理による評価ポイントの減少分を算出して、選択したグループにおいて加工処理を行い、データセット全体の処理結果に基づいて、k−匿名性の判定を行うため、データ利用者が求める情報を可能な限り保持するとともに、データの欠落を防止する。
【0022】
(8)本発明は、(6)の公開情報のプライバシー保護装置について、前記算出した評価ポイントの増加分が最大となるようなデータの加工方法が、トップダウン処理を用いて、データの加工方法であることを特徴とする公開情報のプライバシー保護装置を提案している。
【0023】
この発明によれば、算出した評価ポイントの増加分が最大となるようなデータの加工方法が、トップダウン処理を用いて、データの加工方法である。つまり、トップダウン処理においては、各属性について同一データを集めてソート処理およびグループ化処理を行い、各属性の属性値の数を算出し、評価ポイントを算出する。そして、設定された優先順位情報(重み付け)とk−匿名性判定からに基づいて、加工処理を行う属性およびグループを選択し、加工処理による評価ポイントの増加分を算出して、選択したグループにおいて加工処理を行い、データセット全体の処理結果に基づいて、k−匿名性の判定を行うため、データ利用者が求める情報を可能な限り保持するとともに、データの欠落を防止する。
【0024】
(9)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第1のステップと、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する第2のステップ(例えば、図6のステップS101に相当)と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第3のステップ(例えば、図6のステップS102に相当)と、(k+n)−匿名性の判定を行う第4のステップ(例えば、図6のステップS103に相当)と、各グループ間のデータの移動について流量判定を行う第5のステップ(例えば、図6のステップS104に相当)と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、前記第3のステップから第5のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第6のステップと、匿名データセットを出力する第7のステップ(例えば、図6のステップS105に相当)と、データの更新要求があったときに、更新処理を行い、匿名データを出力する第8のステップ(例えば、図6のステップS106に相当)と、を備えたことを特徴とする公開情報のプライバシー保護方法を提案している。
【0025】
この発明によれば、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する。次に、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行い、(k+n)−匿名性の判定を行う。さらに、各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、第3のステップから第5のステップをすべてのグループにおける流量が可能な限り近い値となるまで実行する。そして、匿名データセットを出力するとともに、データの更新要求があったときに、更新処理を行い、匿名データを出力する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【0026】
(10)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第1のステップと、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する第2のステップ(例えば、図9のステップS301に相当)と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第3のステップ(例えば、図9のステップS302に相当)と、(k+n)−匿名性の判定を行う第4のステップ(例えば、図9のステップS303に相当)と、各グループ間のデータの移動について流量判定を行う第5のステップ(例えば、図9のステップS304に相当)と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、前記第3のステップから第5のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第6のステップと、匿名データセットを出力する第7のステップ(例えば、図9のステップS305に相当)と、データの更新要求があったときに、更新処理を行い、匿名データを出力する第8のステップ(例えば、図9のステップS306に相当)と、を備えたことを特徴とする公開情報のプライバシー保護方法を提案している。
【0027】
この発明によれば、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する。次に、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行い、(k+n)−匿名性の判定を行う。さらに、各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、第3のステップから第5のステップをすべてのグループにおける流量が可能な限り近い値となるまで実行する。そして、匿名データセットを出力するとともに、データの更新要求があったときに、更新処理を行い、匿名データを出力する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【0028】
(11)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第1のステップと、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する第2のステップ(例えば、図6のステップS101に相当)と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第3のステップ(例えば、図6のステップS102に相当)と、(k+n)−匿名性の判定を行う第4のステップ(例えば、図6のステップS103に相当)と、各グループ間のデータの移動について流量判定を行う第5のステップ(例えば、図6のステップS104に相当)と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、前記第3のステップから第5のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第6のステップと、匿名データセットを出力する第7のステップ(例えば、図6のステップS105に相当)と、データの更新要求があったときに、更新処理を行い、匿名データを出力する第8のステップ(例えば、図6のステップS106に相当)と、をコンピュータに実行させるためのプログラムを提案している。
【0029】
この発明によれば、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する。次に、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行い、(k+n)−匿名性の判定を行う。さらに、各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、第3のステップから第5のステップをすべてのグループにおける流量が可能な限り近い値となるまで実行する。そして、匿名データセットを出力するとともに、データの更新要求があったときに、更新処理を行い、匿名データを出力する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【0030】
(12)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第1のステップと、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する第2のステップ(例えば、図9のステップS301に相当)と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第3のステップ(例えば、図9のステップS302に相当)と、(k+n)−匿名性の判定を行う第4のステップ(例えば、図9のステップS303に相当)と、各グループ間のデータの移動について流量判定を行う第5のステップ(例えば、図9のステップS304に相当)と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、前記第3のステップから第5のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第6のステップと、匿名データセットを出力する第7のステップ(例えば、図9のステップS305に相当)と、データの更新要求があったときに、更新処理を行い、匿名データを出力する第8のステップ(例えば、図9のステップS306に相当)と、をコンピュータに実行させるためのプログラムを提案している。
【0031】
この発明によれば、k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する。次に、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行い、(k+n)−匿名性の判定を行う。さらに、各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、第3のステップから第5のステップをすべてのグループにおける流量が可能な限り近い値となるまで実行する。そして、匿名データセットを出力するとともに、データの更新要求があったときに、更新処理を行い、匿名データを出力する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【発明の効果】
【0032】
本発明によれば、頻繁にデータの再構成が発生しない公開データの作成が可能となる。従って、匿名処理に関する運用コストを削減することができるという効果がある。
【図面の簡単な説明】
【0033】
【図1】k−匿名性を満足する公開情報の生成装置の構成図である。
【図2】加工処理前のデータを例示した図である。
【図3】本実施形態に係るボトムアップ処理およびトップダウン処理を示したイメージ図である。
【図4】本実施形態に係る概念図である。
【図5】第1の実施形態に係る公開情報のプライバシー保護装置の構成図である。
【図6】第1の実施形態に係る公開情報のプライバシー保護装置の処理フローである。
【図7】第1の実施形態に係るボトムアップ処理の処理フローである。
【図8】第1の実施形態に係る公開情報のプライバシー保護装置の構成図である。
【図9】第1の実施形態に係る公開情報のプライバシー保護装置の処理フローである。
【図10】本実施形態に係るトップダウン処理の処理フローである。
【発明を実施するための形態】
【0034】
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0035】
<k−匿名性を満足する公開情報の生成について>
まず、図1を用いて、本発明の前提となるk−匿名性を満足する公開情報の生成について説明する。k−匿名性を満足する公開情報の生成する公開情報のプライバシー保護装置は、図1に示すように、分類部1と、設定部2と、算出部3と、加工方法選択部4と、加工部5とから構成されている。
【0036】
分類部1は、元データをそのデータの各属性に応じて、重要情報(Sensitive Information)、準識別子(Quasi−Identifier)、削除すべき情報に分類する。なお、実際には、GUI(Graphical User Interface)等を用いて、コンピュータ上のグラフィックス表示をマウス等でポインティングすることにより、利用者が分類を行う。また、重要情報(Sensitive Information)に指定された属性の変更は行われない。さらに、削除すべき情報に指定された情報は加工処理の際に自動的に削除される。これにより、ユーザを直接的に特定できる情報を排除してプライバシーを保護するとともに、重要な情報を公開することができる。
【0037】
設定部2は、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する。具体的には、各属性の重み付けは、利用者の入力により行われる。重み付けは、属性の優先順位を表わし、利用者が最も重視する属性を最上位とする。また、加工処理においては、優先順位が最下位の属性から順に加工処理を行い、k−匿名性を満たした段階で終了する。従って、最上位の属性ほど元の情報が保持される確率が高くなる。また、これにより、直接的には、ユーザとの関連性の低い複数の情報を組み合わせることによりユーザを特定することも防止することにより、データ利用者が求める情報を可能な限り保持することができる。利用者は、GUI(Graphical User Interface)等を利用して各属性に対して優先順位を入力する。利用者は、各優先順位に対して、重み付けポイント(数値)を設定する。この値は、加工処理を行う属性を選択する際に使用する。
【0038】
算出部3は、設定部2において設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。具体的には、評価ポイントは、以下の数式を用いて、算出される。
評価ポイント=(属性値の数)*(重み付けポイント)
ここで、(属性値の数)とは、その属性が持つ属性値の種類の数を表す。加工処理によって、この評価ポイントの減少が最小になる属性を加工処理を行う属性として選択する。
【0039】
加工方法選択部4は、算出部3が算出した評価ポイントの減少分が最小となるようなデータの加工方法あるいは、算出した評価ポイントの増加分が最大となるようなデータの加工方法を選択する。
【0040】
図3は、ボトムアップ処理とトップダウン処理の概念を示している。
ボトムアップ処理は、ボトムアップ処理により匿名データを生成する処理であり以下の手順で行う。まず、その属性について同一データを集めてソート及びグループ化を行う。そして、各属性の属性値の数を算出する。その後、評価ポイントを算出しておく。次に、ユーザの入力した優先順位情報とk−匿名性判定からのフィードバック結果を基に、一般化を行う属性およびグループを選択する。その際には、一般化による評価ポイントの減少分を算出する。そして、選択したグループの一般化を行い、実施結果(データセット全体)をk−匿名性判定に入力する。
【0041】
トップダウン処理は、トップダウン処理により匿名データを生成する処理であり以下の手順で行う。まず、その属性について同一データを集めてソート及びグループ化を行う。そして、各属性の属性値の数を算出する。その後、評価ポイントを算出しておく。次に、ユーザの入力した優先順位情報とk−匿名性判定からのフィードバック結果を基に、一般化を行う属性およびグループを選択する。その際には、一般化による評価ポイントの増加分を算出する。そして、選択したグループの一般化を行い、実施結果(データセット全体)をk−匿名性判定に入力する。
【0042】
<加工処理前のデータ>
図2を用いて、加工処理前のデータについて、説明する。
図2は、加工処理前のデータとして医療情報を例示したものであり、本例では、データの属性として、「名前」、「年齢」、「性別」、「出身地」、「人種」、「位置情報」、「病名」等が例示されている。
【0043】
本例では、女性である25歳のAは東京出身の日本人であって、現在、道玄坂にいて、肥満症という病気を持っており、男性である37歳のBは北海道出身の日本人であって、現在、宮下公園にいて、糖尿病という病気を持っており、男性である55歳のCは沖縄出身の日本人であって、現在、六本木にいて、高血圧症という病気を持っており、男性である42歳のDは埼玉出身の日本人であって、現在、西麻布にいて、肥満という病気を持っており、女性である18歳のEは千葉の出身であり、現在、西新宿にいて、貧血という病気をもっていることが示されている。
【0044】
このうち、「名前」という属性は、個人を直接的に特定できるものであるため、「削除すべき情報」に分類される。また、「病名」という属性は、プライバシー情報であるため、「重要情報(Sensitive Information)」に分類される。さらに、「年齢」、「性別」、「出身地」、「人種」、「位置情報」という属性は、直接的に個人を特定できる情報ではないため、「準識別子(Quasi−Identifier)」に分類され、利用者の利用目的に応じて、重み付けが行われる。
【0045】
<本発明の概念>
図4は、本発明の概念を模式的に示している。
つまり、上記において説明したように、匿名性を施すデータに対して、k−匿名化の処理を行うことにより、いくつかのグループが形成される。これを図4に示すように、例えば、グループA、グループB、グループCのように分割する。このとき、例えば、位置情報のように頻繁にデータの更新が行われる要素が存在すると、あるグループの1人のユーザが別の場所に移動するだけでk-匿名性を満たさなくなり、データの再構築が必要となる。
【0046】
そこで、本発明は、k-匿名性に従ってグループ分けされたテーブル間におけるレコードの移動が頻繁に発生する場合において、その流量を定義し、その流量が一定の平衡状態となる(k+n)−匿名性まで拡張することで、頻繁なデータ再構築を回避するものである。なお、ここで、nは、0以上の正の整数である。
【0047】
<第1の実施形態>
上記の事項を踏まえつつ、図5から図7を用いて、本発明の第1の実施形態に係る公開情報のプライバシー保護装置について説明する。
【0048】
<公開情報のプライバシー保護装置の構成>
本実施形態に係る公開情報のプライバシー保護装置は、図5に示すように、(k+n)−匿名性データ作成部10と、ボトムアップ処理部20と、(k+n)−匿名性判定部30と、流量測定部40と、匿名性データセット出力部50と、更新処理部60とから構成されている。
【0049】
(k+n)−匿名性データ作成部10は、後述する流量測定部40の測定結果により、各グループ間の流量のばらつきが所定の範囲外であったときに、「n」の値をインクリメントして、データの作成を行う。具体的には、例えば、流量が最大のグループと流量が最小とを統合して新たなグループを形成して、データの作成を行う。nは、0以上の正の整数である。
【0050】
ボトムアップ処理部20は、データ加工の1つの手法であり、選択したグループの一般化を行う。なお、処理の詳細については、後述する。(k+n)−匿名性判定部30は、入力されたデータセットが(k+n)−匿名性を満たすかどうか判定する。
【0051】
流量測定部40は、一定期間、データの変化を観測し、(k+n)−匿名性によって生成された各グループのレコード数の増減を観察し、新たにグループに加わったレコード数と、グループから離脱したレコード数を単位時間で割って、それぞれのグループの流量v1、v2を算出する。さらに、算出した各グループの流量のばらつきが所定の範囲内であるか否かの判定を行う。
【0052】
匿名性データセット出力部50は、匿名性データセットを出力する。更新処理部60は、データの更新要求があったときに、データの更新処理を行い、匿名性データセットに対して、更新した匿名データを出力する。
【0053】
<公開情報のプライバシー保護装置の処理>
図6を用いて、本実施形態に係る公開情報のプライバシー保護装置の処理について説明する。
【0054】
まず、流量測定部40の測定結果により、各グループ間の流量のばらつきが所定の範囲外であったときに、「n」の値をインクリメントして、(k+n)−匿名性データを作成する(ステップS101)。次に、ボトムアップ処理によって、選択したグループの一般化を行う(ステップS102)。
【0055】
次に、入力されたデータセットが(k+n)−匿名性を満たすかどうか判定する(ステップS103)。判定の結果、(k+n)−匿名性を満たさない場合(ステップS103の「NO」)には、ステップS102に戻る。
【0056】
一方で、(k+n)−匿名性を満たす場合(ステップS103の「YES」)には、一定期間、データの変化を観測し、(k+n)−匿名性によって生成された各グループのレコード数の増減を観察し、新たにグループに加わったレコード数と、グループから離脱したレコード数を単位時間で割って、それぞれのグループの流量v1、v2を算出し、算出した各グループの流量のばらつきが所定の範囲内であるか否かの判定を行う(ステップS104)。
【0057】
判定の結果、各グループの流量のばらつきが所定の範囲内でない場合(ステップS104の「NO」)には、ステップS101に戻る。一方、各グループの流量のばらつきが所定の範囲内である場合(ステップS104の「YES」)には、匿名性データセットを出力する(ステップS105)。さらに、データの更新要求があったときには、データの更新処理を行い、匿名性データセットに対して、更新した匿名データを出力する(ステップS106)。
【0058】
<ボトムアップ処理>
図7を用いて、ボトムアップ処理について説明する。
【0059】
まず、各属性について同一データを集めてソート処理およびグループ化処理を行う(ステップS201)。そして、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する。次に、各属性の属性値の数を算出する(ステップS202)。
【0060】
次に、評価ポイントを算出する(ステップS203)。そして、設定された優先順位情報(重み付け)とk−匿名性判定からのフィードバックに基づいて、加工処理を行う属性およびグループを選択し(ステップS204)、一般化による評価ポイントの減少分を算出し(ステップS205)、選択したグループを一般化する(ステップS206)。
【0061】
図3を用いて具体的に説明すると、オリジナルデータセット(A0、B0、C0)に対して、(A1、B0、C0)、(A0、B1、C0)、(A0、B0、C1)の分岐があり、それぞれに対して、加工処理による評価ポイントの減少分を算出する。そして、加工処理による評価ポイントの減少分が最少となるものを選択する。図3の例では、これを(A1、B0、C0)とする。(A1、B0、C0)には、同様に、(A2、B0、C0)、(A1、B1、C0)、(A1、B0、C1)の分岐があり、それぞれに対して、加工処理による評価ポイントの減少分を算出する。そして、加工処理による評価ポイントの減少分が最少となるものを選択する。図3の例では、これを(A2、B0、C0)とする。(A2、B0、C0)には、同様に、(A2、B1、C0)、(A2、B0、C1)の分岐があり、それぞれに対して、加工処理による評価ポイントの減少分を算出する。そして、加工処理による評価ポイントの減少分が最少となるものを選択する。このような処理を最適k−匿名性に至るデータ、例えば、(A2、B1、C0)まで実行する。
【0062】
したがって、本実施形態によれば、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【0063】
<第2の実施形態>
本発明の第2の実施形態について、図8から図10を用いて、説明する。
なお、本実施形態は、第1の実施形態において、データ加工のための処理としてボトムアップ処理を用いていた点をトップダウン処理に置き換えたものであり、その他の事項は、同一であることから、特に、トップダウン処理の詳細について説明する。
【0064】
<トップダウン処理>
図10を用いて、トップダウン処理について説明する。
まず、各属性について同一データを集めてソート処理およびグループ化処理を行う(ステップS401)。次に、各属性の属性値の数を算出する(ステップS402)。
【0065】
次に、評価ポイントを算出する(ステップS403)。そして、設定された優先順位情報(重み付け)とk−匿名性判定からのフィードバックに基づいて、加工処理を行う属性およびグループを選択し(ステップS404)、一般化による評価ポイントの増加分を算出し(ステップS405)、選択したグループを一般化する(ステップS406)。なお、トップダウン処理は、ボトムアップ処理とは、逆方向に行われる処理であり、加工処理による評価ポイントの増加分が最大となるものを選択し、このような処理を最適k−匿名性に至るデータまで実行する。
【0066】
したがって、本実施形態によれば、第1の実施形態と同様に、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【0067】
なお、公開情報のプライバシー保護装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを公開情報のプライバシー保護装置に読み込ませ、実行することによって本発明の公開情報のプライバシー保護装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
【0068】
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0069】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0070】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0071】
1;分類部
2;設定部
3;算出部
4;加工方法選択部
5;加工部
10;(k+n)−匿名性データ作成部
20;ボトムアップ処理部
30;(k+n)−匿名性判定部
40;流量測定部
50;匿名性データセット出力部
60;更新処理部
70;トップダウン処理部

【特許請求の範囲】
【請求項1】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、
オリジナルデータに対して、k−匿名化処理を行う匿名化処理手段と、
該k−匿名化処理で得られた各グループ間のデータの移動を流量として測定する流量測定手段と、
すべてのグループで前記測定した流量が可能な限り近い値となるように、前記匿名性の範囲を拡張するデータ変更手段と、
を備えたことを特徴とする公開情報のプライバシー保護装置。
【請求項2】
前記流量測定手段は、各グループについて、新たにグループに加わったレコード数V1とグループから離脱したレコード数V2とを単位時間で除して、流量v1、v2を求めることを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
【請求項3】
前記データ変更手段は、セキュリティ条件より定まる匿名性の範囲よりも広い範囲で匿名性の範囲を拡張することを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
【請求項4】
データ変更手段は、前記流量が可能な限り近い値となるように、グループを結合して、前記匿名性の範囲を拡張することを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
【請求項5】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、
k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う流量判定手段と、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成するデータ生成手段と、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行うデータ加工手段と、
(k+n)−匿名性の判定を行う判定手段と、
を備え、
前記(k+n)−匿名性を満たし、かつ、すべてのグループにおける前記流量が可能な限り近い値となるようにnの値を拡張することを特徴とする公開情報のプライバシー保護装置。
【請求項6】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、
k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う流量判定手段と、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成するデータ生成手段と、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行うデータ加工手段と、
(k+n)−匿名性の判定を行う判定手段と、
を備え、
前記(k+n)−匿名性を満たし、かつ、すべてのグループにおける前記流量が可能な限り近い値となるようにnの値を拡張することを特徴とする公開情報のプライバシー保護装置。
【請求項7】
前記算出した評価ポイントの減少分が最小となるようなデータの加工方法が、ボトムアップ処理を用いて、データの加工方法であることを特徴とする請求項5に記載の公開情報のプライバシー保護装置。
【請求項8】
前記算出した評価ポイントの増加分が最大となるようなデータの加工方法が、トップダウン処理を用いて、データの加工方法であることを特徴とする請求項6に記載の公開情報のプライバシー保護装置。
【請求項9】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、
k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第1のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する第2のステップと、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第3のステップと、
(k+n)−匿名性の判定を行う第4のステップと、
各グループ間のデータの移動について流量判定を行う第5のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、前記第3のステップから第5のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第6のステップと、
匿名データセットを出力する第7のステップと、
データの更新要求があったときに、更新処理を行い、匿名データを出力する第8のステップと、
を備えたことを特徴とする公開情報のプライバシー保護方法。
【請求項10】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、
k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第1のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する第2のステップと、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第3のステップと、
(k+n)−匿名性の判定を行う第4のステップと、
各グループ間のデータの移動について流量判定を行う第5のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、前記第3のステップから第5のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第6のステップと、
匿名データセットを出力する第7のステップと、
データの更新要求があったときに、更新処理を行い、匿名データを出力する第8のステップと、
を備えたことを特徴とする公開情報のプライバシー保護方法。
【請求項11】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、
k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第1のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する第2のステップと、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第3のステップと、
(k+n)−匿名性の判定を行う第4のステップと、
各グループ間のデータの移動について流量判定を行う第5のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、前記第3のステップから第5のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第6のステップと、
匿名データセットを出力する第7のステップと、
データの更新要求があったときに、更新処理を行い、匿名データを出力する第8のステップと、
をコンピュータに実行させるためのプログラム。
【請求項12】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、
k−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第1のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、(k+n)−匿名性データ(nは0以上の正の整数)を生成する第2のステップと、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第3のステップと、
(k+n)−匿名性の判定を行う第4のステップと、
各グループ間のデータの移動について流量判定を行う第5のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、nをインクリメントして、(k+n)−匿名性データ(nは0以上の正の整数)を生成し、前記第3のステップから第5のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第6のステップと、
匿名データセットを出力する第7のステップと、
データの更新要求があったときに、更新処理を行い、匿名データを出力する第8のステップと、
をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate