公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム

【課題】ｋ-匿名性に従ってグループ分けされたテーブル間におけるレコードの移動が頻繁に発生する場合において、その流量を定義し、その流量が一定の平衡状態となる（ｋ＋ｎ）−匿名性まで拡張することで、頻繁なデータ再構築を回避する。
【解決手段】オリジナルデータに対して、ｋ−匿名化処理を行い、そのｋ−匿名化処理で得られた各グループ間のデータの移動を流量として測定し、すべてのグループで測定した流量が可能な限り近い値となるように、匿名性の範囲を拡張する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、公開情報のプライバシー保護に関して、データの変更によるデータの再構築を頻繁に発生させないプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムに関する。
【背景技術】
【０００２】
従来より、多くのデータに基づいて、統計処理を行って、例えば、特定の病気にかかりやすい年代、性別、地域、人種といった情報を広く公開して、その傾向分析を行い、その対策に用いる場合がある。
【０００３】
ところが、データを公開する場合には、そのデータの所有者が特定されないように、プライバシーを慎重に保護する必要があるため、データの変形処理を行う必要がある。そのため、今までにも、プライバシーを保護するためのデータの変形処理に関する技術が多く開示されている（例えば、非特許文献１参照。）。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】Ｂ．ＦｕｎｇａｎｄＫ．ＷａｎｇａｎｄＰ．Ｙｕ， “Ｔｏｐ−ｄｏｗｎｓｐｅｃｉａｌｉｚａｔｉｏｎｆｏｒｉｎｆｏｒｍａｔｉｏｎａｎｄｐｒｉｖａｃｙｐｒｅｓｅｒｖａｔｉｏｎ”ＰｒｏｃｏｆＩＣＤＥ２００５ｐｐ．２０５−２１６
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、これまでの手法においては、セキュリティ要件に従ってｋ-匿名性を満たすデータを作成していたが、位置情報のような比較的データの更新が頻繁であるデータに対しては、ｋ-匿名性を満たすようにするためのデータの再構築が頻繁に発生するという問題点があった。例えば、位置情報においてｋ-匿名性を実現していた場合、１人のユーザが別の場所に移動するだけでｋ-匿名性を満たさなくなり、データの再構築が必要となるといった問題があった。
【０００６】
そこで、本発明は、上述の課題に鑑みてなされたものであり、ｋ-匿名性に従ってグループ分けされたテーブル間におけるレコードの移動が頻繁に発生する場合において、その流量を定義し、その流量が一定の平衡状態となる（ｋ＋ｎ）−匿名性まで拡張することで、頻繁なデータ再構築を回避する公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００７】
発明者は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【０００８】
（１）本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、オリジナルデータに対して、ｋ−匿名化処理を行う匿名化処理手段と、該ｋ−匿名化処理で得られた各グループ間のデータの移動を流量して測定する流量測定手段（例えば、図５の流量測定部４０に相当）と、すべてのグループで前記測定した流量が可能な限り近い値となるように、前記匿名性の範囲を拡張するデータ変更手段と、を備えたことを特徴とする公開情報のプライバシー保護装置を提案している。
【０００９】
この発明によれば、匿名化処理手段は、オリジナルデータに対して、ｋ−匿名化処理を行う。流量測定手段は、ｋ−匿名化処理で得られた各グループ間のデータの移動を流量として測定する。データ変更手段は、すべてのグループで測定した流量が可能な限り近い値となるように、匿名性の範囲を拡張する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【００１０】
（２）本発明は、（１）の公開情報のプライバシー保護装置について、前記流量測定手段は、各グループについて、新たにグループに加わったレコード数Ｖ１とグループから離脱したレコード数Ｖ２とを単位時間で除して、流量ｖ１、ｖ２を求めることを特徴とする公開情報のプライバシー保護装置を提案している。
【００１１】
この発明によれば、流量測定手段は、各グループについて、新たにグループに加わったレコード数Ｖ１とグループから離脱したレコード数Ｖ２とを単位時間で除して、流量ｖ１、ｖ２を求める。したがって、これにより、各グループにおける単位時間当たりのデータの出入りを把握することができる。
【００１２】
（３）本発明は、（１）の公開情報のプライバシー保護装置について、前記データ変更手段は、セキュリティ条件より定まる匿名性の範囲よりも広い範囲で匿名性の範囲を拡張することを特徴とする公開情報のプライバシー保護装置を提案している。
【００１３】
この発明によれば、データ変更手段は、セキュリティ条件より定まる匿名性の範囲よりも広い範囲で匿名性の範囲を拡張する。したがって、これにより、データの変更によるデータの再構成を避けることができる。
【００１４】
（４）本発明は、（１）の公開情報のプライバシー保護装置について、データ変更手段は、前記流量が可能な限り近い値となるように、グループを結合して、前記匿名性の範囲を拡張することを特徴とする公開情報のプライバシー保護装置を提案している。
【００１５】
この発明によれば、データ変更手段は、流量が可能な限り近い値となるように、グループを結合して、前記匿名性の範囲を拡張する。つまり、例えば、流量の多いグループと流量の少ないグループとを結合することにより、全体的に、流量を平均値に近い値とすることができる。そのため、このような処理をすべてのグループで行えば、全体の流量を平準化することができる。
【００１６】
（５）本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う流量判定手段（例えば、図５の流量測定部４０に相当）と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成するデータ生成手段（例えば、図５の（ｋ＋ｎ）−匿名性データ作成部１０に相当）と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行うデータ加工手段（例えば、図５のボトムアップ処理部２０に相当）と、（ｋ＋ｎ）−匿名性の判定を行う判定手段（例えば、図５の（ｋ＋ｎ）−匿名性判定部３０に相当）と、を備え、前記（ｋ＋ｎ）−匿名性を満たし、かつ、すべてのグループにおける前記流量が可能な限り近い値となるようにｎの値を拡張することを特徴とする公開情報のプライバシー保護装置を提案している。
【００１７】
この発明によれば、流量判定手段は、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う。データ生成手段は、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する。データ加工手段は、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う。判定手段は、（ｋ＋ｎ）−匿名性の判定を行う。そして、（ｋ＋ｎ）−匿名性を満たし、かつ、すべてのグループにおける流量が可能な限り近い値となるようにｎの値を拡張する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【００１８】
（６）本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う流量判定手段（例えば、図８の流量測定部４０に相当）と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成するデータ生成手段（例えば、図８の（ｋ＋ｎ）−匿名性データ作成部１０に相当）と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行うデータ加工手段（図８のトップダウン処理部７０に相当）と、（ｋ＋ｎ）−匿名性の判定を行う判定手段（例えば、図８の（ｋ＋ｎ）−匿名性判定部３０に相当）と、を備え、前記（ｋ＋ｎ）−匿名性を満たし、かつ、すべてのグループにおける前記流量が可能な限り近い値となるようにｎの値を拡張することを特徴とする公開情報のプライバシー保護装置を提案している。
【００１９】
この発明によれば、流量判定手段は、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う。データ生成手段は、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する。データ加工手段は、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う。判定手段は、（ｋ＋ｎ）−匿名性の判定を行う。そして、（ｋ＋ｎ）−匿名性を満たし、かつ、すべてのグループにおける流量が可能な限り近い値となるようにｎの値を拡張する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【００２０】
（７）本発明は、（５）の公開情報のプライバシー保護装置について、前記算出した評価ポイントの減少分が最小となるようなデータの加工方法が、ボトムアップ処理を用いて、データの加工方法であることを特徴とする公開情報のプライバシー保護装置を提案している。
【００２１】
この発明によれば、算出した評価ポイントの減少分が最小となるようなデータの加工方法が、ボトムアップ処理を用いて、データの加工方法である。つまり、ボトムアップ処理においては、各属性について同一データを集めてソート処理およびグループ化処理を行い、各属性の属性値の数を算出し、評価ポイントを算出する。そして、設定された優先順位情報（重み付け）とｋ−匿名性判定からに基づいて、加工処理を行う属性およびグループを選択し、加工処理による評価ポイントの減少分を算出して、選択したグループにおいて加工処理を行い、データセット全体の処理結果に基づいて、ｋ−匿名性の判定を行うため、データ利用者が求める情報を可能な限り保持するとともに、データの欠落を防止する。
【００２２】
（８）本発明は、（６）の公開情報のプライバシー保護装置について、前記算出した評価ポイントの増加分が最大となるようなデータの加工方法が、トップダウン処理を用いて、データの加工方法であることを特徴とする公開情報のプライバシー保護装置を提案している。
【００２３】
この発明によれば、算出した評価ポイントの増加分が最大となるようなデータの加工方法が、トップダウン処理を用いて、データの加工方法である。つまり、トップダウン処理においては、各属性について同一データを集めてソート処理およびグループ化処理を行い、各属性の属性値の数を算出し、評価ポイントを算出する。そして、設定された優先順位情報（重み付け）とｋ−匿名性判定からに基づいて、加工処理を行う属性およびグループを選択し、加工処理による評価ポイントの増加分を算出して、選択したグループにおいて加工処理を行い、データセット全体の処理結果に基づいて、ｋ−匿名性の判定を行うため、データ利用者が求める情報を可能な限り保持するとともに、データの欠落を防止する。
【００２４】
（９）本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第１のステップと、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する第２のステップ（例えば、図６のステップＳ１０１に相当）と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第３のステップ（例えば、図６のステップＳ１０２に相当）と、（ｋ＋ｎ）−匿名性の判定を行う第４のステップ（例えば、図６のステップＳ１０３に相当）と、各グループ間のデータの移動について流量判定を行う第５のステップ（例えば、図６のステップＳ１０４に相当）と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、前記第３のステップから第５のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第６のステップと、匿名データセットを出力する第７のステップ（例えば、図６のステップＳ１０５に相当）と、データの更新要求があったときに、更新処理を行い、匿名データを出力する第８のステップ（例えば、図６のステップＳ１０６に相当）と、を備えたことを特徴とする公開情報のプライバシー保護方法を提案している。
【００２５】
この発明によれば、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する。次に、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行い、（ｋ＋ｎ）−匿名性の判定を行う。さらに、各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、第３のステップから第５のステップをすべてのグループにおける流量が可能な限り近い値となるまで実行する。そして、匿名データセットを出力するとともに、データの更新要求があったときに、更新処理を行い、匿名データを出力する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【００２６】
（１０）本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第１のステップと、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する第２のステップ（例えば、図９のステップＳ３０１に相当）と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第３のステップ（例えば、図９のステップＳ３０２に相当）と、（ｋ＋ｎ）−匿名性の判定を行う第４のステップ（例えば、図９のステップＳ３０３に相当）と、各グループ間のデータの移動について流量判定を行う第５のステップ（例えば、図９のステップＳ３０４に相当）と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、前記第３のステップから第５のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第６のステップと、匿名データセットを出力する第７のステップ（例えば、図９のステップＳ３０５に相当）と、データの更新要求があったときに、更新処理を行い、匿名データを出力する第８のステップ（例えば、図９のステップＳ３０６に相当）と、を備えたことを特徴とする公開情報のプライバシー保護方法を提案している。
【００２７】
この発明によれば、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する。次に、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行い、（ｋ＋ｎ）−匿名性の判定を行う。さらに、各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、第３のステップから第５のステップをすべてのグループにおける流量が可能な限り近い値となるまで実行する。そして、匿名データセットを出力するとともに、データの更新要求があったときに、更新処理を行い、匿名データを出力する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【００２８】
（１１）本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第１のステップと、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する第２のステップ（例えば、図６のステップＳ１０１に相当）と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第３のステップ（例えば、図６のステップＳ１０２に相当）と、（ｋ＋ｎ）−匿名性の判定を行う第４のステップ（例えば、図６のステップＳ１０３に相当）と、各グループ間のデータの移動について流量判定を行う第５のステップ（例えば、図６のステップＳ１０４に相当）と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、前記第３のステップから第５のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第６のステップと、匿名データセットを出力する第７のステップ（例えば、図６のステップＳ１０５に相当）と、データの更新要求があったときに、更新処理を行い、匿名データを出力する第８のステップ（例えば、図６のステップＳ１０６に相当）と、をコンピュータに実行させるためのプログラムを提案している。
【００２９】
この発明によれば、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する。次に、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行い、（ｋ＋ｎ）−匿名性の判定を行う。さらに、各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、第３のステップから第５のステップをすべてのグループにおける流量が可能な限り近い値となるまで実行する。そして、匿名データセットを出力するとともに、データの更新要求があったときに、更新処理を行い、匿名データを出力する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【００３０】
（１２）本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第１のステップと、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する第２のステップ（例えば、図９のステップＳ３０１に相当）と、各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第３のステップ（例えば、図９のステップＳ３０２に相当）と、（ｋ＋ｎ）−匿名性の判定を行う第４のステップ（例えば、図９のステップＳ３０３に相当）と、各グループ間のデータの移動について流量判定を行う第５のステップ（例えば、図９のステップＳ３０４に相当）と、前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、前記第３のステップから第５のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第６のステップと、匿名データセットを出力する第７のステップ（例えば、図９のステップＳ３０５に相当）と、データの更新要求があったときに、更新処理を行い、匿名データを出力する第８のステップ（例えば、図９のステップＳ３０６に相当）と、をコンピュータに実行させるためのプログラムを提案している。
【００３１】
この発明によれば、ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する。次に、各属性の属性値に基づいて、各データの評価ポイントを算出し、算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行い、（ｋ＋ｎ）−匿名性の判定を行う。さらに、各グループ間のデータの移動について流量判定を行い、各グループ間の流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、第３のステップから第５のステップをすべてのグループにおける流量が可能な限り近い値となるまで実行する。そして、匿名データセットを出力するとともに、データの更新要求があったときに、更新処理を行い、匿名データを出力する。したがって、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【発明の効果】
【００３２】
本発明によれば、頻繁にデータの再構成が発生しない公開データの作成が可能となる。従って、匿名処理に関する運用コストを削減することができるという効果がある。
【図面の簡単な説明】
【００３３】
【図１】ｋ−匿名性を満足する公開情報の生成装置の構成図である。
【図２】加工処理前のデータを例示した図である。
【図３】本実施形態に係るボトムアップ処理およびトップダウン処理を示したイメージ図である。
【図４】本実施形態に係る概念図である。
【図５】第１の実施形態に係る公開情報のプライバシー保護装置の構成図である。
【図６】第１の実施形態に係る公開情報のプライバシー保護装置の処理フローである。
【図７】第１の実施形態に係るボトムアップ処理の処理フローである。
【図８】第１の実施形態に係る公開情報のプライバシー保護装置の構成図である。
【図９】第１の実施形態に係る公開情報のプライバシー保護装置の処理フローである。
【図１０】本実施形態に係るトップダウン処理の処理フローである。
【発明を実施するための形態】
【００３４】
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【００３５】
＜ｋ−匿名性を満足する公開情報の生成について＞
まず、図１を用いて、本発明の前提となるｋ−匿名性を満足する公開情報の生成について説明する。ｋ−匿名性を満足する公開情報の生成する公開情報のプライバシー保護装置は、図１に示すように、分類部１と、設定部２と、算出部３と、加工方法選択部４と、加工部５とから構成されている。
【００３６】
分類部１は、元データをそのデータの各属性に応じて、重要情報（ＳｅｎｓｉｔｉｖｅＩｎｆｏｒｍａｔｉｏｎ）、準識別子（Ｑｕａｓｉ−Ｉｄｅｎｔｉｆｉｅｒ）、削除すべき情報に分類する。なお、実際には、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を用いて、コンピュータ上のグラフィックス表示をマウス等でポインティングすることにより、利用者が分類を行う。また、重要情報（ＳｅｎｓｉｔｉｖｅＩｎｆｏｒｍａｔｉｏｎ）に指定された属性の変更は行われない。さらに、削除すべき情報に指定された情報は加工処理の際に自動的に削除される。これにより、ユーザを直接的に特定できる情報を排除してプライバシーを保護するとともに、重要な情報を公開することができる。
【００３７】
設定部２は、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する。具体的には、各属性の重み付けは、利用者の入力により行われる。重み付けは、属性の優先順位を表わし、利用者が最も重視する属性を最上位とする。また、加工処理においては、優先順位が最下位の属性から順に加工処理を行い、ｋ−匿名性を満たした段階で終了する。従って、最上位の属性ほど元の情報が保持される確率が高くなる。また、これにより、直接的には、ユーザとの関連性の低い複数の情報を組み合わせることによりユーザを特定することも防止することにより、データ利用者が求める情報を可能な限り保持することができる。利用者は、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を利用して各属性に対して優先順位を入力する。利用者は、各優先順位に対して、重み付けポイント（数値）を設定する。この値は、加工処理を行う属性を選択する際に使用する。
【００３８】
算出部３は、設定部２において設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する。具体的には、評価ポイントは、以下の数式を用いて、算出される。
評価ポイント＝（属性値の数）＊（重み付けポイント）
ここで、（属性値の数）とは、その属性が持つ属性値の種類の数を表す。加工処理によって、この評価ポイントの減少が最小になる属性を加工処理を行う属性として選択する。
【００３９】
加工方法選択部４は、算出部３が算出した評価ポイントの減少分が最小となるようなデータの加工方法あるいは、算出した評価ポイントの増加分が最大となるようなデータの加工方法を選択する。
【００４０】
図３は、ボトムアップ処理とトップダウン処理の概念を示している。
ボトムアップ処理は、ボトムアップ処理により匿名データを生成する処理であり以下の手順で行う。まず、その属性について同一データを集めてソート及びグループ化を行う。そして、各属性の属性値の数を算出する。その後、評価ポイントを算出しておく。次に、ユーザの入力した優先順位情報とｋ−匿名性判定からのフィードバック結果を基に、一般化を行う属性およびグループを選択する。その際には、一般化による評価ポイントの減少分を算出する。そして、選択したグループの一般化を行い、実施結果（データセット全体）をｋ−匿名性判定に入力する。
【００４１】
トップダウン処理は、トップダウン処理により匿名データを生成する処理であり以下の手順で行う。まず、その属性について同一データを集めてソート及びグループ化を行う。そして、各属性の属性値の数を算出する。その後、評価ポイントを算出しておく。次に、ユーザの入力した優先順位情報とｋ−匿名性判定からのフィードバック結果を基に、一般化を行う属性およびグループを選択する。その際には、一般化による評価ポイントの増加分を算出する。そして、選択したグループの一般化を行い、実施結果（データセット全体）をｋ−匿名性判定に入力する。
【００４２】
＜加工処理前のデータ＞
図２を用いて、加工処理前のデータについて、説明する。
図２は、加工処理前のデータとして医療情報を例示したものであり、本例では、データの属性として、「名前」、「年齢」、「性別」、「出身地」、「人種」、「位置情報」、「病名」等が例示されている。
【００４３】
本例では、女性である２５歳のＡは東京出身の日本人であって、現在、道玄坂にいて、肥満症という病気を持っており、男性である３７歳のＢは北海道出身の日本人であって、現在、宮下公園にいて、糖尿病という病気を持っており、男性である５５歳のＣは沖縄出身の日本人であって、現在、六本木にいて、高血圧症という病気を持っており、男性である４２歳のＤは埼玉出身の日本人であって、現在、西麻布にいて、肥満という病気を持っており、女性である１８歳のＥは千葉の出身であり、現在、西新宿にいて、貧血という病気をもっていることが示されている。
【００４４】
このうち、「名前」という属性は、個人を直接的に特定できるものであるため、「削除すべき情報」に分類される。また、「病名」という属性は、プライバシー情報であるため、「重要情報（ＳｅｎｓｉｔｉｖｅＩｎｆｏｒｍａｔｉｏｎ）」に分類される。さらに、「年齢」、「性別」、「出身地」、「人種」、「位置情報」という属性は、直接的に個人を特定できる情報ではないため、「準識別子（Ｑｕａｓｉ−Ｉｄｅｎｔｉｆｉｅｒ）」に分類され、利用者の利用目的に応じて、重み付けが行われる。
【００４５】
＜本発明の概念＞
図４は、本発明の概念を模式的に示している。
つまり、上記において説明したように、匿名性を施すデータに対して、ｋ−匿名化の処理を行うことにより、いくつかのグループが形成される。これを図４に示すように、例えば、グループＡ、グループＢ、グループＣのように分割する。このとき、例えば、位置情報のように頻繁にデータの更新が行われる要素が存在すると、あるグループの１人のユーザが別の場所に移動するだけでｋ-匿名性を満たさなくなり、データの再構築が必要となる。
【００４６】
そこで、本発明は、ｋ-匿名性に従ってグループ分けされたテーブル間におけるレコードの移動が頻繁に発生する場合において、その流量を定義し、その流量が一定の平衡状態となる（ｋ＋ｎ）−匿名性まで拡張することで、頻繁なデータ再構築を回避するものである。なお、ここで、ｎは、０以上の正の整数である。
【００４７】
＜第１の実施形態＞
上記の事項を踏まえつつ、図５から図７を用いて、本発明の第１の実施形態に係る公開情報のプライバシー保護装置について説明する。
【００４８】
＜公開情報のプライバシー保護装置の構成＞
本実施形態に係る公開情報のプライバシー保護装置は、図５に示すように、（ｋ＋ｎ）−匿名性データ作成部１０と、ボトムアップ処理部２０と、（ｋ＋ｎ）−匿名性判定部３０と、流量測定部４０と、匿名性データセット出力部５０と、更新処理部６０とから構成されている。
【００４９】
（ｋ＋ｎ）−匿名性データ作成部１０は、後述する流量測定部４０の測定結果により、各グループ間の流量のばらつきが所定の範囲外であったときに、「ｎ」の値をインクリメントして、データの作成を行う。具体的には、例えば、流量が最大のグループと流量が最小とを統合して新たなグループを形成して、データの作成を行う。ｎは、０以上の正の整数である。
【００５０】
ボトムアップ処理部２０は、データ加工の１つの手法であり、選択したグループの一般化を行う。なお、処理の詳細については、後述する。（ｋ＋ｎ）−匿名性判定部３０は、入力されたデータセットが（ｋ＋ｎ）−匿名性を満たすかどうか判定する。
【００５１】
流量測定部４０は、一定期間、データの変化を観測し、（ｋ＋ｎ）−匿名性によって生成された各グループのレコード数の増減を観察し、新たにグループに加わったレコード数と、グループから離脱したレコード数を単位時間で割って、それぞれのグループの流量ｖ１、ｖ２を算出する。さらに、算出した各グループの流量のばらつきが所定の範囲内であるか否かの判定を行う。
【００５２】
匿名性データセット出力部５０は、匿名性データセットを出力する。更新処理部６０は、データの更新要求があったときに、データの更新処理を行い、匿名性データセットに対して、更新した匿名データを出力する。
【００５３】
＜公開情報のプライバシー保護装置の処理＞
図６を用いて、本実施形態に係る公開情報のプライバシー保護装置の処理について説明する。
【００５４】
まず、流量測定部４０の測定結果により、各グループ間の流量のばらつきが所定の範囲外であったときに、「ｎ」の値をインクリメントして、（ｋ＋ｎ）−匿名性データを作成する（ステップＳ１０１）。次に、ボトムアップ処理によって、選択したグループの一般化を行う（ステップＳ１０２）。
【００５５】
次に、入力されたデータセットが（ｋ＋ｎ）−匿名性を満たすかどうか判定する（ステップＳ１０３）。判定の結果、（ｋ＋ｎ）−匿名性を満たさない場合（ステップＳ１０３の「ＮＯ」）には、ステップＳ１０２に戻る。
【００５６】
一方で、（ｋ＋ｎ）−匿名性を満たす場合（ステップＳ１０３の「ＹＥＳ」）には、一定期間、データの変化を観測し、（ｋ＋ｎ）−匿名性によって生成された各グループのレコード数の増減を観察し、新たにグループに加わったレコード数と、グループから離脱したレコード数を単位時間で割って、それぞれのグループの流量ｖ１、ｖ２を算出し、算出した各グループの流量のばらつきが所定の範囲内であるか否かの判定を行う（ステップＳ１０４）。
【００５７】
判定の結果、各グループの流量のばらつきが所定の範囲内でない場合（ステップＳ１０４の「ＮＯ」）には、ステップＳ１０１に戻る。一方、各グループの流量のばらつきが所定の範囲内である場合（ステップＳ１０４の「ＹＥＳ」）には、匿名性データセットを出力する（ステップＳ１０５）。さらに、データの更新要求があったときには、データの更新処理を行い、匿名性データセットに対して、更新した匿名データを出力する（ステップＳ１０６）。
【００５８】
＜ボトムアップ処理＞
図７を用いて、ボトムアップ処理について説明する。
【００５９】
まず、各属性について同一データを集めてソート処理およびグループ化処理を行う（ステップＳ２０１）。そして、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する。次に、各属性の属性値の数を算出する（ステップＳ２０２）。
【００６０】
次に、評価ポイントを算出する（ステップＳ２０３）。そして、設定された優先順位情報（重み付け）とｋ−匿名性判定からのフィードバックに基づいて、加工処理を行う属性およびグループを選択し（ステップＳ２０４）、一般化による評価ポイントの減少分を算出し（ステップＳ２０５）、選択したグループを一般化する（ステップＳ２０６）。
【００６１】
図３を用いて具体的に説明すると、オリジナルデータセット（Ａ０、Ｂ０、Ｃ０）に対して、（Ａ１、Ｂ０、Ｃ０）、（Ａ０、Ｂ１、Ｃ０）、（Ａ０、Ｂ０、Ｃ１）の分岐があり、それぞれに対して、加工処理による評価ポイントの減少分を算出する。そして、加工処理による評価ポイントの減少分が最少となるものを選択する。図３の例では、これを（Ａ１、Ｂ０、Ｃ０）とする。（Ａ１、Ｂ０、Ｃ０）には、同様に、（Ａ２、Ｂ０、Ｃ０）、（Ａ１、Ｂ１、Ｃ０）、（Ａ１、Ｂ０、Ｃ１）の分岐があり、それぞれに対して、加工処理による評価ポイントの減少分を算出する。そして、加工処理による評価ポイントの減少分が最少となるものを選択する。図３の例では、これを（Ａ２、Ｂ０、Ｃ０）とする。（Ａ２、Ｂ０、Ｃ０）には、同様に、（Ａ２、Ｂ１、Ｃ０）、（Ａ２、Ｂ０、Ｃ１）の分岐があり、それぞれに対して、加工処理による評価ポイントの減少分を算出する。そして、加工処理による評価ポイントの減少分が最少となるものを選択する。このような処理を最適ｋ−匿名性に至るデータ、例えば、（Ａ２、Ｂ１、Ｃ０）まで実行する。
【００６２】
したがって、本実施形態によれば、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【００６３】
＜第２の実施形態＞
本発明の第２の実施形態について、図８から図１０を用いて、説明する。
なお、本実施形態は、第１の実施形態において、データ加工のための処理としてボトムアップ処理を用いていた点をトップダウン処理に置き換えたものであり、その他の事項は、同一であることから、特に、トップダウン処理の詳細について説明する。
【００６４】
＜トップダウン処理＞
図１０を用いて、トップダウン処理について説明する。
まず、各属性について同一データを集めてソート処理およびグループ化処理を行う（ステップＳ４０１）。次に、各属性の属性値の数を算出する（ステップＳ４０２）。
【００６５】
次に、評価ポイントを算出する（ステップＳ４０３）。そして、設定された優先順位情報（重み付け）とｋ−匿名性判定からのフィードバックに基づいて、加工処理を行う属性およびグループを選択し（ステップＳ４０４）、一般化による評価ポイントの増加分を算出し（ステップＳ４０５）、選択したグループを一般化する（ステップＳ４０６）。なお、トップダウン処理は、ボトムアップ処理とは、逆方向に行われる処理であり、加工処理による評価ポイントの増加分が最大となるものを選択し、このような処理を最適ｋ−匿名性に至るデータまで実行する。
【００６６】
したがって、本実施形態によれば、第１の実施形態と同様に、各グループ間のデータの流量が一定の平衡状態となるよう匿名性の範囲を拡張することから、頻繁なデータの再構築を回避することができる。
【００６７】
なお、公開情報のプライバシー保護装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを公開情報のプライバシー保護装置に読み込ませ、実行することによって本発明の公開情報のプライバシー保護装置を実現することができる。ここでいうコンピュータシステムとは、ＯＳや周辺装置等のハードウェアを含む。
【００６８】
また、「コンピュータシステム」は、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）システムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
【００６９】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
【００７０】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【００７１】
１；分類部
２；設定部
３；算出部
４；加工方法選択部
５；加工部
１０；（ｋ＋ｎ）−匿名性データ作成部
２０；ボトムアップ処理部
３０；（ｋ＋ｎ）−匿名性判定部
４０；流量測定部
５０；匿名性データセット出力部
６０；更新処理部
７０；トップダウン処理部

【特許請求の範囲】
【請求項１】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、
オリジナルデータに対して、ｋ−匿名化処理を行う匿名化処理手段と、
該ｋ−匿名化処理で得られた各グループ間のデータの移動を流量として測定する流量測定手段と、
すべてのグループで前記測定した流量が可能な限り近い値となるように、前記匿名性の範囲を拡張するデータ変更手段と、
を備えたことを特徴とする公開情報のプライバシー保護装置。
【請求項２】
前記流量測定手段は、各グループについて、新たにグループに加わったレコード数Ｖ１とグループから離脱したレコード数Ｖ２とを単位時間で除して、流量ｖ１、ｖ２を求めることを特徴とする請求項１に記載の公開情報のプライバシー保護装置。
【請求項３】
前記データ変更手段は、セキュリティ条件より定まる匿名性の範囲よりも広い範囲で匿名性の範囲を拡張することを特徴とする請求項１に記載の公開情報のプライバシー保護装置。
【請求項４】
データ変更手段は、前記流量が可能な限り近い値となるように、グループを結合して、前記匿名性の範囲を拡張することを特徴とする請求項１に記載の公開情報のプライバシー保護装置。
【請求項５】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、
ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う流量判定手段と、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成するデータ生成手段と、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行うデータ加工手段と、
（ｋ＋ｎ）−匿名性の判定を行う判定手段と、
を備え、
前記（ｋ＋ｎ）−匿名性を満たし、かつ、すべてのグループにおける前記流量が可能な限り近い値となるようにｎの値を拡張することを特徴とする公開情報のプライバシー保護装置。
【請求項６】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、
ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う流量判定手段と、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成するデータ生成手段と、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行うデータ加工手段と、
（ｋ＋ｎ）−匿名性の判定を行う判定手段と、
を備え、
前記（ｋ＋ｎ）−匿名性を満たし、かつ、すべてのグループにおける前記流量が可能な限り近い値となるようにｎの値を拡張することを特徴とする公開情報のプライバシー保護装置。
【請求項７】
前記算出した評価ポイントの減少分が最小となるようなデータの加工方法が、ボトムアップ処理を用いて、データの加工方法であることを特徴とする請求項５に記載の公開情報のプライバシー保護装置。
【請求項８】
前記算出した評価ポイントの増加分が最大となるようなデータの加工方法が、トップダウン処理を用いて、データの加工方法であることを特徴とする請求項６に記載の公開情報のプライバシー保護装置。
【請求項９】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、
ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第１のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する第２のステップと、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第３のステップと、
（ｋ＋ｎ）−匿名性の判定を行う第４のステップと、
各グループ間のデータの移動について流量判定を行う第５のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、前記第３のステップから第５のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第６のステップと、
匿名データセットを出力する第７のステップと、
データの更新要求があったときに、更新処理を行い、匿名データを出力する第８のステップと、
を備えたことを特徴とする公開情報のプライバシー保護方法。
【請求項１０】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、
ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第１のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する第２のステップと、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第３のステップと、
（ｋ＋ｎ）−匿名性の判定を行う第４のステップと、
各グループ間のデータの移動について流量判定を行う第５のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、前記第３のステップから第５のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第６のステップと、
匿名データセットを出力する第７のステップと、
データの更新要求があったときに、更新処理を行い、匿名データを出力する第８のステップと、
を備えたことを特徴とする公開情報のプライバシー保護方法。
【請求項１１】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、
ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第１のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する第２のステップと、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの減少分が最小となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第３のステップと、
（ｋ＋ｎ）−匿名性の判定を行う第４のステップと、
各グループ間のデータの移動について流量判定を行う第５のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、前記第３のステップから第５のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第６のステップと、
匿名データセットを出力する第７のステップと、
データの更新要求があったときに、更新処理を行い、匿名データを出力する第８のステップと、
をコンピュータに実行させるためのプログラム。
【請求項１２】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、
ｋ−匿名化処理で得られた各グループ間のデータの移動について流量判定を行う第１のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成する第２のステップと、
各属性の属性値に基づいて、各データの評価ポイントを算出し、該算出した評価ポイントの増加分が最大となるようなデータの加工方法によりデータを加工して、各グループの一般化を行う第３のステップと、
（ｋ＋ｎ）−匿名性の判定を行う第４のステップと、
各グループ間のデータの移動について流量判定を行う第５のステップと、
前記各グループ間の該流量のばらつきが規定範囲よりも大きい場合に、ｎをインクリメントして、（ｋ＋ｎ）−匿名性データ（ｎは０以上の正の整数）を生成し、前記第３のステップから第５のステップをすべてのグループにおける前記流量が可能な限り近い値となるまで実行する第６のステップと、
匿名データセットを出力する第７のステップと、
データの更新要求があったときに、更新処理を行い、匿名データを出力する第８のステップと、
をコンピュータに実行させるためのプログラム。

【図１】