説明

公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム

【課題】処理負荷の軽減や不要な処理の削減を行い、可能な限り最適な表を高速に導き出す。
【解決手段】公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定し、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。次に、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行い、一般化されたデータについて、算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う。次いで、第1のデータ加工手段において加工されたデータについて、算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行い、第4のステップと第5のステップとを繰り返して、最適なデータセットを出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医療情報等の公開情報に対するプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムに関する。
【背景技術】
【0002】
従来より、多くのデータに基づいて、統計処理を行って、例えば、特定の病気にかかりやすい年代、性別、地域、人種といった情報を広く公開して、その傾向分析を行い、その対策に用いる場合がある。
【0003】
ところが、データを公開する場合には、そのデータの所有者が特定されないように、プライバシーを慎重に保護する必要があるため、データの変形処理を行う必要がある。そのため、今までにも、プライバシーを保護するためのデータの変形処理に関する技術が多く開示されている(例えば、非特許文献1参照。)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】B.Fung and K.Wang and P.Yu, “Top−down specialization for information and privacy preservation”Proc of ICDE 2005 pp.205−216
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、これまでの手法においては、最適k−匿名性を満たすためにすべてのデータを平等に扱っていたが、データ利用者が求める情報が欠落してしまうという問題点があった。また、データの加工時に各データに対して優先順位を設定し、特殊な関数を用いて変形したデータを評価することにより、データ利用者が求める情報を可能な限り保持する方法も考えられるが、早期に枝刈りを実施するため、必ずしも最適な表が導出されるとは限らないという問題があった。
【0006】
そこで、本発明は、上述の課題に鑑みてなされたものであり、処理負荷の軽減や不要な処理の削減を行い、可能な限り最適な表を高速に導き出す公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
発明者は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0008】
(1)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する設定手段(例えば、図1の設定部2に相当)と、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する算出手段(例えば、図1の算出部3に相当)と、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う処理手段(例えば、図1の前処理部4に相当)と、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第1のデータ加工手段(例えば、図1の第1のデータ加工部5に相当)と、該第1のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第2のデータ加工手段(例えば、図1の第2のデータ加工部6に相当)と、を備え、前記第1のデータ加工手段による処理と前記第2のデータ加工手段による処理とを繰り返して、最適なデータセットを出力することを特徴とする公開情報のプライバシー保護装置を提案している。
【0009】
この発明によれば、設定手段は、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する。算出手段は、設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。処理手段は、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う。第1のデータ加工手段は、一般化されたデータについて、算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う。第2のデータ加工手段は、第1のデータ加工手段において加工されたデータについて、算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う。そして、第1のデータ加工手段による処理と第2のデータ加工手段による処理とを繰り返して、最適なデータセットを出力する。したがって、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。
【0010】
(2)本発明は、(1)の公開情報のプライバシー保護装置について、前記第1のデータ加工手段が、各属性に対して、一般化を行った場合に取り得る属性の種類数と前記利用者が入力した優先順位情報とに基づいて、一般化による評価ポイントの増加分を概算することを特徴とする公開情報のプライバシー保護装置を提案している。
【0011】
この発明によれば、第1のデータ加工手段が、各属性に対して、一般化を行った場合に取り得る属性の種類数と前記利用者が入力した優先順位情報とに基づいて、一般化による評価ポイントの増加分を概算する。したがって、以降、無駄な計算処理を省略できるため、全体の処理の高速化を図ることができる。
【0012】
(3)本発明は、(2)の公開情報のプライバシー保護装置について、前記第1のデータ加工手段が、前記評価ポイントの増加分の概算結果が大きい順番に一般化を行うことを特徴とする公開情報のプライバシー保護装置を提案している。
【0013】
この発明によれば、第1のデータ加工手段が、前記評価ポイントの増加分の概算結果が大きい順番に一般化を行う。したがって、より高速に最適な表を導出することができる。
【0014】
(4)本発明は、(2)または(3)の公開情報のプライバシー保護装置について、前記第1のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性を満たさなくなった場合に、k−匿名性を満たさなくなったデータの中から最も評価ポイントが高いものを前記第2の加工手段に出力することを特徴とする公開情報のプライバシー保護装置を提案している。
【0015】
この発明によれば、第1のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性を満たさなくなった場合に、k−匿名性を満たさなくなったデータの中から最も評価ポイントが高いものを前記第2の加工手段に出力する。したがって、より高速に最適な表を導出することができる。
【0016】
(5)本発明は、(4)の公開情報のプライバシー保護装置について、前記第2のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性を満たさなくなった場合に、k−匿名性を満たさなくなったデータの評価ポイントを比較し、前記第1のデータ加工手段において、最も評価ポイントが高いものを含めて、最大の評価ポイントであるデータを前記第1の加工手段に出力することを特徴とする公開情報のプライバシー保護装置を提案している。
【0017】
この発明によれば、第2のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性を満たさなくなった場合に、k−匿名性を満たさなくなったデータの評価ポイントを比較し、第1のデータ加工手段において、最も評価ポイントが高いものを含めて、最大の評価ポイントであるデータを第1の加工手段に出力する。したがって、より高速に最適な表を導出することができる。
【0018】
(6)本発明は、(1)の公開情報のプライバシー保護装置について、前記属性の値が数値データでない場合に、木構造のデータとして扱うことを特徴とする公開情報のプライバシー保護装置を提案している。
【0019】
この発明によれば、属性の値が数値データでない場合に、木構造のデータとして扱うことにより、属性値の上下関係を明確にできる。
【0020】
(7)本発明は、(1)の公開情報のプライバシー保護装置について、前記第1のデータ加工方法が、ボトムアップ処理を用いたデータの加工方法であることを特徴とする公開情報のプライバシー保護装置を提案している。
【0021】
この発明によれば、第1のデータ加工方法が、ボトムアップ処理を用いたデータの加工方法である。つまり、ボトムアップ処理においては、各属性について同一データを集めてソート処理およびグループ化処理を行い、各属性の属性値の数を算出し、評価ポイントを算出する。そして、設定された優先順位情報(重み付け)とk−匿名性判定からに基づいて、加工処理を行う属性およびグループを選択し、加工処理による評価ポイントの減少分を算出して、選択したグループにおいて加工処理を行い、データセット全体の処理結果に基づいて、k−匿名性の判定を行うため、データ利用者が求める情報を可能な限り保持するとともに、データの欠落を防止する。
【0022】
(8)本発明は、(1)の公開情報のプライバシー保護装置について、前記第2のデータ加工方法が、トップダウン処理を用いたデータの加工方法であることを特徴とする公開情報のプライバシー保護装置を提案している。
【0023】
この発明によれば、第2のデータ加工方法が、トップダウン処理を用いたデータの加工方法である。つまり、トップダウン処理においては、各属性について同一データを集めてソート処理およびグループ化処理を行い、各属性の属性値の数を算出し、評価ポイントを算出する。そして、設定された優先順位情報(重み付け)とk−匿名性判定からに基づいて、加工処理を行う属性およびグループを選択し、加工処理による評価ポイントの増加分を算出して、選択したグループにおいて加工処理を行い、データセット全体の処理結果に基づいて、k−匿名性の判定を行うため、データ利用者が求める情報を可能な限り保持するとともに、データの欠落を防止する。
【0024】
(9)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する第1のステップと、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する第2のステップと、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う第3のステップ(例えば、図4のステップS100に相当)と、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第4のステップ(例えば、図4のステップS300に相当)と、該第1のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第5のステップ(例えば、図4のステップS600に相当)と、前記第4のステップと前記第5のステップとを繰り返して、最適なデータセットを出力する第6のステップと、を備えることを特徴とする公開情報のプライバシー保護方法を提案している。
【0025】
この発明によれば、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定し、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。次に、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行い、一般化されたデータについて、算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う。次いで、第1のデータ加工手段において加工されたデータについて、算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行い、第4のステップと第5のステップとを繰り返して、最適なデータセットを出力する。したがって、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。
【0026】
(10)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する第1のステップと、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する第2のステップと、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う第3のステップ(例えば、図4のステップS100に相当)と、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第4のステップ(例えば、図4のステップS300に相当)と、該第1のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第5のステップ(例えば、図4のステップS600に相当)と、前記第4のステップと前記第5のステップとを繰り返して、最適なデータセットを出力する第6のステップと、をコンピュータに実行させるためのプログラムを提案している。
【0027】
この発明によれば、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定し、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。次に、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行い、一般化されたデータについて、算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う。次いで、第1のデータ加工手段において加工されたデータについて、算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行い、第4のステップと第5のステップとを繰り返して、最適なデータセットを出力する。したがって、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。
【発明の効果】
【0028】
本発明によれば、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できるという効果がある。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できるという効果がある。
【図面の簡単な説明】
【0029】
【図1】本実施形態に係る公開情報のプライバシー保護装置の構成図である。
【図2】本実施形態に係る加工処理前のデータを例示した図である。
【図3】本実施形態に係るボトムアップ処理およびトップダウン処理を示したイメージ図である。
【図4】本実施形態に係る公開情報のプライバシー保護装置の処理フローである。
【発明を実施するための形態】
【0030】
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0031】
<公開情報のプライバシー保護装置の構成>
図1を用いて、本実施形態に係る公開情報のプライバシー保護装置の構成について説明する。本実施形態に係る公開情報のプライバシー保護装置は、図1に示すように、分類部1と、設定部2と、算出部3と、前処理部4と、第1のデータ加工部5と、第2のデータ加工部6とから構成されている。
【0032】
分類部1は、元データをそのデータの各属性に応じて、重要情報(Sensitive Information)、準識別子(Quasi−Identifier)、削除すべき情報に分類する。なお、実際には、GUI(Graphical User Interface)等を用いて、コンピュータ上のグラフィックス表示をマウス等でポインティングすることにより、利用者が分類を行う。また、重要情報(Sensitive Information)に指定された属性の変更は行われない。さらに、削除すべき情報に指定された情報は加工処理の際に自動的に削除される。これにより、ユーザを直接的に特定できる情報を排除してプライバシーを保護するとともに、重要な情報を公開することができる。
【0033】
設定部2は、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する。具体的には、各属性の重み付けは、利用者の入力により行われる。重み付けは、属性の優先順位を表わし、利用者が最も重視する属性を最上位とする。また、加工処理においては、 優先順位が最下位の属性から順に加工処理を行い、 k−匿名性を満たした段階で終了する。したがって、最上位の属性ほど元の情報が保持される確率が高くなる。また、これにより、直接的には、ユーザとの関連性の低い複数の情報を組み合わせることによりユーザを特定することも防止することにより、データ利用者が求める情報を可能な限り保持することができる。利用者は、 GUI(Graphical User Interface)等を利用して各属性に対して優先順位を入力する。利用者は、各優先順位に対して、 重み付けポイント(数値)を設定する。この値は、加工処理を行う属性を選択する際に使用する。
【0034】
算出部3は、設定部2において設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。具体的には、評価ポイントは、以下の数式を用いて、算出される。
評価ポイント=(属性値の数)*(重み付けポイント)
ここで、(属性値の数)とは、その属性が持つ属性値の種類の数を表す。第1のデータ加工部5の処理においては、一般化によって、この評価ポイントの減少が最小になる属性を一般化を行う属性として選択する。また、第2のデータ加工部6の処理においては、この値の増加が最大になる属性を一般化を行う属性として選択する。
【0035】
前処理部4は、それぞれの属性単体を単体でk−匿名性を満たすように一般化する。また、属性によってユーザが一般化の限界レベルを設定しているものについては、それを超えて一般化はしない。さらに、生成したデータがk−匿名性を満たさなければ、各属性を1レベルだけ一般化して再度チェックを行う。この場合も、ユーザが設定した限界レベルを超えて一般化はせず、他の属性を一般化することで、k―匿名性を達成する。
【0036】
第1のデータ加工部5は、算出した評価ポイントの増加分が最大となるようなデータ加工方法(トップダウン処理)により、データの加工を行う。第2のデータ加工部6は、算出した評価ポイントの減少分が最小となるようなデータ加工方法(ボトムアップ処理)により、データの加工を行う。
【0037】
つまり、本実施形態においては、例えば、図3に示すように、ボトムアップ処理を行って、一般化を実施した後に、トップダウン処理により逆方向の変形を行い、この処理を繰り返して最適な表を導出する。
【0038】
<加工処理前のデータ>
図2を用いて、加工処理前のデータについて、説明する。
図2は、加工処理前のデータとして医療情報を例示したものであり、本例では、データの属性として、「名前」、「年齢」、「性別」、「出身地」、「人種」、「病名」等が例示されている。
【0039】
本例では、女性である25歳のAが東京出身の日本人であって、肥満症という病気を持っており、男性である37歳のBが北海道出身の日本人であって、糖尿病という病気を持っており、男性である55歳のCが沖縄出身の日本人であって、高血圧症という病気を持っていることが示されている。
【0040】
このうち、「名前」という属性は、個人を直接的に特定できるものであるため、「削除すべき情報」に分類される。また、「病名」という属性は、プライバシー情報であるため、「重要情報(Sensitive Information)」に分類される。さらに、「年齢」、「性別」、「出身地」、「人種」という属性は、直接的に個人を特定できる情報ではないため、「準識別子(Quasi−Identifier)」に分類され、利用者の利用目的に応じて、重み付けが行われる。
【0041】
なお、属性が数値データではない場合、例えば、「Country」、「State」、「City」のような場合、属性値の持つ意味の包含関係によって構築された木構造を用いて、上位ノードを探索する。従って、各属性に対してこのような木構造データを利用者が設定可能とする。
【0042】
<公開情報のプライバシー保護装置の処理>
図4を用いて、本実施形態に係る公開情報のプライバシー保護装置の処理について説明する。
【0043】
まず、オリジナルデータに対して、分類部1、設定部2、算出部3の処理を行ったオリジナルデータセットを前処理部4に入力する。前処理部4では、それぞれの属性単体を単体でk−匿名性を満たすように一般化する。また、属性によってユーザが一般化の限界レベルを設定しているものについては、それを超えて一般化はしない。さらに、生成したデータがk−匿名性を満たさなければ、各属性を1レベルだけ一般化して再度チェックを行う。この場合も、ユーザが設定した限界レベルを超えて一般化はせず、他の属性を一般化することで、k―匿名性を達成する(ステップS100、S200)。したがって、k−匿名性を満足するまで、繰り返し処理が行われる。
【0044】
トップダウン処理(ステップS300、S400)では、当該データに対してすべての属性が一致するデータを集めてソートおよびグループ化を行う。次に、ユーザの入力した優先順位情報とk−匿名性判定からのフィードバック結果を基に、一般化を行う属性およびグループを選択する。その際には、各属性に対して、一般化を行った場合に取り得る属性の種類の数とユーザの入力した優先順位情報から、一般化による評価ポイントの増加分を概算する。そして、この概算結果が大きい順から一般化の対象とする。
【0045】
また、可能性のある一般化を順番に行って候補データを作成していくわけであるが、直前の一般化を行ったデータの評価ポイントに対して、概算した評価ポイントの増加を考慮しても、次に行う一般化が評価ポイントの上で上回れない場合には、残りの一般化手順による候補データの作成は行わない。
【0046】
次に、選択したグループの一般化を行い、実施結果(データセット全体)をk−匿名性判定(ステップS400)に入力する。k−匿名性判定に合格したデータについては、各属性の属性値の数を算出し、評価ポイントを導出する。候補データのうち、最も評価ポイントの高いものを次の処理対象データとする。そしてk−匿名性を満たさなくなるまで、 トップダウン処理(ステップS300)を繰り返し、k−匿名性を満たさなくなった場合、k−匿名性を満たしたデータおよびその評価ポイントを保存しておくとともに、k−匿名性を満たさなくなったデータの中からもっとも評価ポイントが高いものをボトムアップ処理に受け渡す。
【0047】
最適データ判定(ステップS500)では、ステップS100からステップS300までの処理により、k−匿名性判定(ステップS400)に入力されたデータセットがk−匿名性を満たすと判定されたデータセット、k−匿名性判定(ステップS700)においてk−匿名性を満たすと判定されたデータセット、再トップダウン処理を行って、k−匿名性判定(ステップS400)においてk−匿名性を満たすと判定されたデータセットが最適データであるか否かの判定を行い、最適データである場合には、このデータセットを匿名データセットとして出力する。一方で、最適データでないと判定した場合には、このデータセットをボトムダウン処理(ステップS600)やトップダウン処理(ステップS300)に戻して、再度、処理を行う。
【0048】
ボトムアップ処理(ステップS600、S700)では、当該データに対してすべての属性が一致するデータを集めてソートおよびグループ化を行う。次に、ユーザの入力した優先順位情報とk−匿名性判定からのフィードバック結果を基に、一般化を行う属性およびグループを選択する。具体的には、利用者が入力した優先順位が高い属性から順に一般化して候補データを作成する。
【0049】
次に、選択したグループの一般化を行い、実施結果(データセット全体)をk−匿名性判定に入力する。k−匿名性判定に合格したデータについては、各属性の属性値の数を算出し、評価ポイントを導出する。そして、評価ポイントを比較し、トップダウン処理(ステップS300)において保存されたデータの評価ポイントも含めて最大の評価ポイントを得たデータを匿名データセットとして保存する。さらに、そのデータを再びトップダウン処理(ステップS300)に受け渡す。
【0050】
また、すべてのk−匿名性判定に合格しなかった場合には、候補データの中から前記の匿名データセットよりも評価ポイントが高くかつ評価ポイントが高いものを選択し、再度ボトムアップ処理(ステップS600)を行い同様の判定を行う。すべての候補データがk−匿名性を満たさず、かつ、現在保存されている匿名データセットの評価ポイントを上回ることができない場合には、保存されている匿名データセットを匿名データセット出力に渡して終了する、なお、ユーザが属性に対して一般化レベル限界を設定していた場合には、それを超えて一般化は行わない。
【0051】
再度のトップダウン処理では、前回のトップダウン処理とほぼ同様の手順で行う。k−匿名性判定に合格したデータについては、各属性の属性値の数を算出し、評価ポイントを導出する。候補データのうち、最も評価ポイントの高いものを次の処理対象データとする 。そして、k−匿名性を満たさなくなるまで、トップダウン理を繰り返す。
【0052】
k―匿名性を満たさなくなった場合、k―匿名性を満たしたデータおよびその評価ポイントを保存しておくとともに、k−匿名性を満たさなくなったデータの中からもっとも評価ポイントが高いものをボトムアップ処理(ステップS600)に受け渡す。
【0053】
なお、この場合も、評価ポイントの最も高い候補データは、現在保存されている匿名データセットの評価ポイントよりも評価ポイントが高くなければならない。現在保存されている匿名データセットの評価ポイントを上回ることができない場合には、保存されている匿名データセットを匿名データセットの出力に渡して終了する。
【0054】
匿名データセット出力は、受け取ったデータを成形して出力する。受け取ったデータは、データそのものではなく、各属性の一般化レベルで与えられている場合がある。このときには、元データも読み込み、一般化を行った後出力する。
【0055】
また、評価ポイントが一致した場合は、ユーザの優先順位が高い順から属性を見ていき、優先順位が高い属性のうち、一般化レベルが低いデータを採用する。
【0056】
したがって、本実施形態によれば、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。
【0057】
なお、公開情報のプライバシー保護装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを公開情報のプライバシー保護装置に読み込ませ、実行することによって本発明の公開情報のプライバシー保護装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
【0058】
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0059】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0060】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0061】
1;分類部
2;設定部
3;算出部
4;前処理部
5;第1のデータ加工部
6;第2のデータ加工部

【特許請求の範囲】
【請求項1】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、
公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する設定手段と、
該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する算出手段と、
それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う処理手段と、
該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第1のデータ加工手段と、
該第1のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第2のデータ加工手段と、
を備え、
前記第1のデータ加工手段による処理と前記第2のデータ加工手段による処理とを繰り返して、最適なデータセットを出力することを特徴とする公開情報のプライバシー保護装置。
【請求項2】
前記第1のデータ加工手段が、各属性に対して、一般化を行った場合に取り得る属性の種類数と前記利用者が入力した優先順位情報とに基づいて、一般化による評価ポイントの増加分を概算することを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
【請求項3】
前記第1のデータ加工手段が、前記評価ポイントの増加分の概算結果が大きい順番に一般化を行うことを特徴とする請求項2に記載の公開情報のプライバシー保護装置。
【請求項4】
前記第1のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性を満たさなくなった場合に、k−匿名性を満たさなくなったデータの中から最も評価ポイントが高いものを前記第2の加工手段に出力することを特徴とする請求項2または3に記載の公開情報のプライバシー保護装置。
【請求項5】
前記第2のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性を満たさなくなった場合に、k−匿名性を満たさなくなったデータの評価ポイントを比較し、前記第1のデータ加工手段において、最も評価ポイントが高いものを含めて、最大の評価ポイントであるデータを前記第1の加工手段に出力することを特徴とする請求項4に記載の公開情報のプライバシー保護装置。
【請求項6】
前記属性の値が数値データでない場合に、木構造のデータとして扱うことを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
【請求項7】
前記第1のデータ加工方法が、ボトムアップ処理を用いたデータの加工方法であることを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
【請求項8】
前記第2のデータ加工方法が、トップダウン処理を用いたデータの加工方法であることを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
【請求項9】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、
公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する第1のステップと、
該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する第2のステップと、
それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う第3のステップと、
該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第4のステップと、
該第1のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第5のステップと、
前記第4のステップと前記第5のステップとを繰り返して、最適なデータセットを出力する第6のステップと、
を備えることを特徴とする公開情報のプライバシー保護方法。
【請求項10】
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、
公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する第1のステップと、
該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する第2のステップと、
それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う第3のステップと、
該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第4のステップと、
該第1のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第5のステップと、
前記第4のステップと前記第5のステップとを繰り返して、最適なデータセットを出力する第6のステップと、
をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−209800(P2011−209800A)
【公開日】平成23年10月20日(2011.10.20)
【国際特許分類】
【出願番号】特願2010−74318(P2010−74318)
【出願日】平成22年3月29日(2010.3.29)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】