説明

データ匿名化の方法と装置

【課題】データ匿名化装置とその方法を提供する。
【解決手段】データ匿名化装置1は、複数のデータレコード中の2つのレコード毎の間の距離を計算する距離計算ユニット10と、各レコードを頂点として用い、全ての2つの頂点を辺で接続し、2つの対応するレコードの間の距離で辺に重みを加えることにより、全てのレコードを含む完全グラフを構築する完全グラフ構築ユニット12と、完全グラフを少なくともk個の頂点を含む複数のコンポーネントに分割するために、辺の重み順に辺を順番にカットする辺カットユニット14と、各クラスタに含まれる頂点の数がk個と2k−1個の間となるように、2k−1個を超える頂点を含むコンポーネントを複数のクラスタに分解するラージコンポーネント分解ユニット16と、各クラスタ内のレコードを互いに区別することができないように、各クラスタの頂点に対応するレコードを一般化する一般化ユニット18とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ保護の技術分野に関し、特に、データ匿名化のための方法と装置に関する。
【背景技術】
【0002】
社会の情報化が発展するにつれて、データ共有はますます広く普及してきている。しかしながら、攻撃者が、共有されるデータ・レコードのエントリから個人あるいは組織の秘密情報を取得し或いは推測する可能性があり、それは個人のプライバシーと組織の機密などの保護すべきデータに対するセキュリティ脅威をもたらす。
【0003】
一般に、各種のデータレコード(テーブル形式のデータレコード等)の属性は、4つのカテゴリに分類することができる。
個人の姓名やIDや会社の登記名称などの、対象を直接識別することができる明示的識別情報。
個人の年齢、性別、学歴、出生地や会社のカテゴリおよび所在地などの、関連する外部情報と組み合わせて対応する対象を推測するのに用いることができる準識別情報(quasi-identifiers)。
収入と病歴等の、一般に秘密保持を望む機密情報(sensitive attributes)。
情報開示が一般的に対象にほとんど影響を及ぼさない、非機密情報(non-sensitive attributes)。
【0004】
機密情報の値がデータ分析のために保存されるべきであると仮定すると、データ匿名化は、機密データを所有する個人の身元を隠すための操作を意味する。個人または組織のプライバシーを保護するために、明示的な識別情報は、例えば、”*”と置き換えられて、一般に完全に隠されるか削除される。非機密情報は、完全に公開することができる。準識別情報は、関連する外部情報と組み合わせて対応する対象を推測するのに必要なデータレコードの最小の集合と見なすことができ、そのため、保護することが必要である。しかしながら、準識別情報が明示的な識別情報として完全に隠され或いは削除されれば、データレコードが対象に関する有益な情報を提供することができないので、最終的に取得されるデータレコード内に含まれる情報は、ほとんど完全に失われることになる。この場合、そのようなデータレコードはもはや使用価値を有しない。
【0005】
従って、データレコード保護は、主に、データレコードの可用性を下げることなく、如何に情報の損失をできるだけ少なくし、如何に潜在的な攻撃脅威からデータレコード内の準識別情報を保護するかに焦点を置く。この点から、データ匿名化(Anonymization)技術が提案されている。2つの基本的なデータ匿名化技術が存在する。
1)一般化(Generalization);多くの準識別情報、属性あるいは属性値をそれらの一般化されたバージョンと置き換える。例えば、都市名「北京」と「上海」を国名「中国」に一般化する。
2)抑制(Suppression);多くの準識別情報、属性あるいは属性値を”*”などのような文字と符号に置き換える。抑制は、一般化の特殊な例と見なすことができる。
【0006】
一般化の処理において、情報の損失は避けられない。抑制は情報の完全消失を引き起こすだろう。情報の損失を減らすために、様々な匿名化方法が提案されており、その中で広く使用されているのは、k−匿名化方法と呼ばれている。テーブルAT内の各レコードについて、所定の準識別情報に関して少なくともk−1個のそれと同一の他のレコードが存在すれば、テーブルATはk−匿名性である。最適化されたk−匿名化方法は、テーブルTなどの所定のデータレコードについて、最小の情報の損失のために、準識別情報Qを考慮に入れてk−匿名性テーブルATを計算する。
【0007】
k−匿名化方法の重要な1つは、クラスタリングに基づいたk−匿名化方法である。それは2つの基本手順を含んでいる。まず、データレコードは、クラスタリングによって、それぞれ少なくともk個のレコードを有する複数のクラスタに分割される。その後、各クラスタは、クラスタ内の全てのレコードの準識別情報が同じ値を有するように一般化される。この方法によれば、互いに関連したレコードは、単一のクラスタへ分割できる。また、得られるクラスタを別々に一般化できる。クラスタリングなしのグローバルな一般化と比較して、このクラスタリングに基づいた局所的な一般化はより多くの情報を保持し、情報の損失を縮小する。最適化されたクラスタリング処理は、さらに情報の損失を縮小できる適切な方法でデータレコードを適切にクラスタに分割できる。
したがって、クラスタリングに基づいたk−匿名化方法は、情報の損失を最小限にしながら最適の方法でどのようにレコードを分割するかという、クラスタリングの問題を有している。
【0008】
上記の問題に対して、従来のクラスタリングに基づいたk−匿名化方法は、一般に局所的な最適化アプローチを採用する。非特許文献1は、レコード分割について局所的な最適化方法を使用する、k−匿名のための多項式時間近似アルゴリズムを提供する。特許文献1は、全ての一般化バージョンを考慮して任意の度量について最適解を見出すk−匿名のための動的プログラミング方法を提供する。
【0009】
これまでの方法においては、レコードのクラスタリングと一般化は、情報の損失の局所的最適化を考慮して実行される。非特許文献1に開示される方法は、頂点である各レコードについて、ボトムアップクラスタリングを実行する。具体的には、そのようなボトムアップ方法においては、まず、任意の頂点をサブグラフと見なす。
k個未満の頂点を含む任意のサブグラフについて、頂点(u)が、他の頂点に向かう何れの有向辺とも接続していなければ、指向性の辺(u、v)が生成される。ここで、vは頂点uに最も近いk−1個の近接する頂点の1つである(例えば、属性または属性値から計算された距離が最も近い)。
この処理において、ループフリー状態を満足し、かつどんな頂点も他の頂点に向かうただ1つの有向辺を有する(しかし、その頂点に向かう1つ以上の他の頂点が存在する)ことを保証することが必要である。任意の有向グラフに含まれる頂点が少なくともk個になるまで、上記の処理が繰り返される。
その後、辺の方向が削除され、有向グラフが無向グラフに変換される。max(2k−1、3k−5)以上の頂点を有するグラフについて(上記方法によって取得される何れのグラフも木と見なすことができる)、頂点(x)が、グラフからランダムに選択され、サブツリーと頂点xを合併するためのルートノードと見なされる。このようにして、グラフは、それぞれkより大きいサイズを有する2つのサブグラフに分解される。そのような分解ができない場合、頂点の数の条件をそれぞれ満足する2つの部分にグラフを分解することができるまで、同様の処理を行うことにより他の頂点(y)を選択する。最終的に取得される各サブグラフに含まれる頂点がmax(2k−1、3k−5)未満となるまで、上記処理が繰り返される。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】US20100027780 A1, “Systems andmethods for anonymizing personally identifiable information associated withepigenetic information”
【非特許文献】
【0011】
【非特許文献1】G. Aggarwal, A. Feder, K.Kenthapadi, R. Motwani, R. Panigrahy, D. Thomas, and A. Zhu, ApproximationAlgorithms for k-Anonymity, Journal of Privacy Technology, 2005.
【発明の概要】
【発明が解決しようとする課題】
【0012】
上記ボトムアップ方法によれば、ツリーの構築中に、頂点とそれらの隣接が、順番あるいはシーケンス制御メカニズムなしでランダムに選択される。max(2k−1、3k−5)以上の頂点(ラージコンポーネント(large component)と称する)を有するグラフの分解において、情報の損失の最適化は考慮されない。さらに、これらの方法は、主に、全てのレコード或いは頂点を含む大局的な最適化を考慮せず、情報の損失の局所的最適化に焦点を置く。そのような局所的最適化はある程度まで情報の損失を減らすことができるけれども、大局的な状況が考慮されないので、大局的最適化を実現することができない。引き起こされる情報の損失は、厳しい要求を有する後続のデータ分析にとってなお受け入れがたい。
【0013】
大局的最適化と情報損失のさらなる低減を実現することができるデータ匿名化方法が必要となっている。
【課題を解決するための手段】
【0014】
本発明によるデータ匿名化装置は、複数のデータレコード中の2つのレコード毎の間の距離を計算する距離計算ユニットと、各レコードを頂点として用い、全ての2つの頂点を辺で接続し、2つの対応するレコードの間の距離で辺に重みを加えることにより、全てのレコードを含む完全グラフを構築する完全グラフ構築ユニットと、完全グラフを少なくともk(所定の自然数)個の頂点を含む複数のコンポーネントに分割するために、辺の重み順に辺を順番にカットする辺カットユニットと、各クラスタに含まれる頂点の数がk個と2k−1個の間となるように、2k−1個を超える頂点を含むコンポーネントを複数のクラスタに分解するラージコンポーネント分解ユニットと、各クラスタ内のレコードを互いに区別することができないように、各クラスタの頂点に対応するレコードを一般化する一般化ユニットとを備え、2k−1個を超える頂点を含むコンポーネントをラージコンポーネントとし、k個以上で2k−1以下の頂点を含むコンポーネントがクラスタとする。
【0015】
本発明によるデータ匿名化方法は、複数のデータレコード中の2つのレコード毎の間の距離を計算する距離計算ステップと、各レコードを頂点として用い、全ての2つの頂点を辺で接続し、2つの対応するレコードの間の距離で辺に重みを加えることにより、全てのレコードを含む完全グラフを構築する完全グラフ構築ステップと、完全グラフを少なくともk(kは所定の自然数)個の頂点を含む複数のコンポーネントに分割するために、辺の重み順に辺を順番にカットする辺カットステップと、各クラスタに含まれる頂点の数がk個と2k−1個の間となるように、2k−1個を超える頂点を含むコンポーネントを複数のクラスタに分解するラージコンポーネント分解ステップと、各クラスタ内のレコードを互いに区別することができないように、各クラスタの頂点に対応するレコードを一般化する一般化ステップとを備え、2k−1個を超える頂点を含むコンポーネントをラージコンポーネントとし、k個以上で2k−1以下の頂点を含むコンポーネントがクラスタとする。
【発明の効果】
【0016】
本発明によるデータ匿名化装置と方法によれば、レコード分割/クラスタリング処理はトップダウン方法で実行される。そして、念入りに定められたシーケンス制御メカニズムを用いることによって、グラフ内の辺は決められた順番にカットされる。ラージコンポーネントを分解する際にも、辺は決められた順番にカットされる。このようにして、局所的最適化だけでなく大局的な最適化も実現することができ、情報の損失をさらに低減することが可能となる。
【図面の簡単な説明】
【0017】
本発明の上記および他の特徴、並びに効果は、図面を参照して説明された下記の好適な実施例からさらに明らかになるであろう。
【図1】本発明の好ましい実施の形態によるデータ匿名化装置の概略構成を示すブロック図である。
【図2】図1のデータ匿名化装置におけるラージコンポーネント分解ユニットの概略構成を示すブロック図である。
【図3】本発明の好ましい実施の形態によるデータ匿名化方法を説明するフローチャートである。
【図4】図3のデータ匿名化方法におけるラージコンポーネント分解手順を説明するフローチャートである。
【図5】本発明の好ましい実施の形態によるレコードに対する完全グラフ構築処理を示す概略図である。
【図6】本発明の好ましい実施の形態によるシーケンス制御メカニズムが導入される辺カット処理を示す概略図である。
【図7】本発明の好ましい実施の形態によるラージコンポーネント分解処理を示す概略図である。
【図8】本発明の好ましい実施の形態によるレコード分割の最終結果を概略的に示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。しかしながら、本発明は以下の実施の形態に限定されるものではない。本発明の基本概念の説明を明確にするため、本発明の解決方法に関連する構成要素、機能あるいはステップだけを図示する。既存の技術、機能、構成要素あるいはステップの詳細な記述は、以下の説明では省略している。
【0019】
図1は、本発明の好ましい実施の形態によるデータ匿名化装置1のブロック図を示している。データ匿名化装置1は、データレコードの匿名バージョンを取得するために、複数のデータレコードの匿名化を行うよう構成されている。ここで、「データレコード」、「レコード」また「レコード項目」等の用語は、同じ意味を有し、互いに交換して使用可能である。
【0020】
本発明の好ましい実施の形態によれば、データ匿名化装置1は、例えば、準識別情報を含んでいるデータレコードを主に考慮する。
k−匿名化方法(ここで、kは所定の自然数)を取り入れ、データ匿名化装置1は、準識別情報に起因するプライバシー漏洩を回避し、同時に情報の損失を最小限にするために、例えば、複数データレコードを含むテーブルTから、一般化によってk−匿名性テーブルATを生成する。
背景技術において記述したように、明示的識別情報は直接隠すか削除することができ、非機密情報は保護を必要としない。準識別情報は、関連する外部情報と組み合わせて対応する対象を推測するのに必要なデータレコードの最小の集合と見なすことができる。したがって、準識別情報については保護する必要がある。
準識別情報は、多次元的であり、多数の属性を含んでいる。例えば、準識別情報は、Q={A1, A2, …Am}と表わすことができる。ここで、A1, A2, …, Amは、準識別情報の個々の属性を示している。あるいは、準識別情報は、例えば、Q={Rec ID,A1, A2, …Am} 又はQ={Rec ID,A1-value1, A2-value1, …Am-valuem}等の形式で表わすことができる。ここで、RecIDは、全データレコードにおける準識別情報の索引を示し、valueは、それぞれ対応する属性の値を示している。
以下に、「データレコード」、「レコード」、「レコード項目」等の用語は、準識別情報のレコードを指すものとする。しかしながら、本発明は上記に限定されず、他のどんなデータレコードの匿名化と保護に適用することが可能である。さらに、以下の説明では、k−匿名化方法を例としてあげているけれども、本発明は、クラスタリングに基づくどのようなデータ匿名化方法にも適用可能である。
【0021】
データレコードは、リストまたはテーブルなどの様々な形式を有する。データレコードは、レコード記録ユニット20内に格納されている。
図1に示すように、レコード記憶ユニット20は、データ匿名化装置1によってアクセス可能なスタンド・アロンのユニットであってもよいし、あるいはデータ匿名化装置1の一部分であってもよい。
データ匿名化装置1は、複数のデータレコード中の各2つのレコード間の距離を計算するための距離計算ユニット10と、各レコードを頂点として用い、全ての2つの頂点を辺で接続し、2つの対応するレコードの間の距離で辺に重みを加えることにより、全てのレコードを含む完全グラフを構築するための完全グラフ構築ユニット12と、完全グラフを少なくともk個の頂点を含む複数のコンポーネント(component)に分割するために、辺の重み順に辺を順番にカットするための辺カットユニット14と、各クラスタに含まれる頂点の数がk個と2k−1個の間となるように、2k−1個を超える頂点を含むコンポーネントを複数のクラスタに分解するためのラージコンポーネント分解ユニット16と、各クラスタ内のレコードを互いに区別することができないように、各クラスタの頂点に対応するレコードを一般化するための一般化ユニット18とを含んでいる。
ここで、2k−1個を超える頂点を含むコンポーネントを「ラージコンポーネント」と称し、k個以上で2k−1以下の頂点を含むコンポーネントを「クラスタ」と称する。
一般化ユニット18は、辺カットユニット14とラージコンポーネント分解ユニット16両方によって取得された各クラスタの頂点に対応するレコードを一般化する。本発明において、コンポーネントはそれぞれ木である。
【0022】
距離計算ユニット10は、レコード記憶ユニットに格納される各レコードの名称、属性あるいは属性値に基づいてレコードの間の距離を計算するように構成されている。
例えば、定められた基準に従って各レコードの名称あるいは属性を量子化し、量子化された値に基づいてレコードの間の距離を計算することが可能である(例えば、周知のユークリッド距離アルゴリズムを用いることによって)。なお、可能であれば、計算された距離は、距離記憶装置(図示せず)に格納してもよい。
【0023】
完全グラフ構築ユニット12は、全てのレコードを含む完全グラフを構築するように構成されている。すなわち、任意の2つのレコードの間には辺が存在する。
上述したように、本発明によれば、トップダウン方式のレコード分割/クラスタリング処理が、構築が各レコードから開始される既存技術のボトムアップ処理の代わりに採用される。
このように、完全グラフが本発明に導入される。完全グラフは、2つの任意のレコードの間の距離を含んでいる。
全てのレコードは、完全グラフを分割あるいは分解することにより、トップダウン方法で、それぞれサブグラフあるいはコンポーネント(各サブグラフはここでコンポーネントと見なすことができる)に分割される。
なお、可能であれば、構築された完全グラフは、記憶装置(図示せず)に格納してもよい。
【0024】
辺カットユニット14は、それぞれの重みに従って辺をソートし、かつそれらの重みの降順に辺をカットするように構成されている。
この方法においては、任意に頂点の隣接値を選択することによりコンポーネントが構築される既存方式とは対照的に、局所的最適化を確保しながら大局的最適化を達成するために、シーケンス制御メカニズム(sequential control mechanism)が本発明に導入されている。
例えば、3つのレコード「修士」、「博士」および「エンジニア」について、定められた基準に基づいて、「修士」と「博士」の間の距離は、「修士」と「エンジニア」の間の距離より短く、「博士」と「エンジニア」の間の距離が最長であると判定される。
この場合、辺カットの処理において、「博士」と「エンジニア」の間の辺がまずカットされ、その後、「修士」と「エンジニア」の間の辺がカットされ、「修士」と「博士」の間の辺が保持される。
この方法で、「修士」と「博士」を含むサブグラフあるいはコンポーネントが、「エンジニア」から分離される。
【0025】
辺の連続的なカットにおいて、辺カットユニット14は、以下の条件の1つが満足されれば、辺をカットするように構成されている。
1)辺がブリッジであり(すなわち、辺がカットされると、その辺を含むグラフが2つのサブグラフに分割される)、かつ、辺をカットした後に得られる各サブグラフが少なくともk個の頂点を含む。
2)辺がブリッジではない(すなわち、辺がカットされても、その辺を含むグラフが2つのサブグラフに分割されない)。
【0026】
辺カットユニット14の動作については、具体例と図を参照して後述する。
なお、辺カットユニット14からの結果出力は、辺カット結果記憶ユニット(図示せず)に格納してもよい。
【0027】
辺カットユニット14の動作後に取得されるいくつかのコンポーネントは、k個以上で2k−1個以下の頂点を含む可能性がある。そのようなコンポーネントの各々は分解をそれ以上必要としないクラスタと見なされる。
他方、辺カットユニット14の動作後に取得されるいくつかのコンポーネントは、2k−1個を超える頂点を含む。そのようなコンポーネントは、ラージコンポーネントと称され、分解された各部分に含まれる頂点の数がk個と2k−1個の間となるように、分解する必要がある、
本発明の好ましい実施の形態によれば、ラージコンポーネントの分解のために以下の2つの方法を採用する。
1)既存技術における何れかの適切な方法を用いる。その詳細な説明については、本発明を必要以上に不明瞭としないために省略する。
2)既存のランダムマージ方法と異なり、辺カット処理において用いられるものと類似するシーケンス制御メカニズムを、大局的最適化と情報の損失を考慮して導入する。これについては、以下においてさらに説明する。
【0028】
図2は、図1のデータ匿名化装置1におけるラージコンポーネント分解ユニット16の構成を示すブロック図である。
ラージコンポーネント分解ユニット16は、k中心頂点検出ユニット160と、サブコンポーネント距離計算ユニット162と、サブコンポーネント完全グラフ構築ユニット164と、サブコンポーネント完全グラフ辺カットユニット166およびマージユニット168を含む。ここで、サブコンポーネントはそれぞれ木である。
【0029】
本発明の好ましい実施の形態によれば、k中心頂点(k-central-vertex)がラージコンポーネント分解に導入される。頂点が削除される時、取得される各サブコンポーネント(これらはサブグラフとも見なすことができる)が多くてもk−1個の頂点を含んでいれば、コンポーネント内の頂点は、k中心頂点と定義される。
ここで、以下の補題(Lemma)を導入する。
補題(Lemma)
2k−1個を超える頂点を有するコンポーネントについて、k中心頂点は1つだけ存在する。
【0030】
証明(Proof)
2k−1個を超える頂点を有する1つのコンポーネント内に、上記のように定義される2つのk中心頂点v1、v2が存在すると仮定する。
v1とv2の間の辺がカットされると、取得される各サブコンポーネントは多くてもk−1個の頂点を有する。それでは、ラージコンポーネントは、多くても2k−2個のノードを有することになり、上記の仮定と矛盾する。これにより、上記補題が成立することが証明される。
【0031】
k中心頂点検出ユニット160は、各ラージコンポーネントにおけるk中心頂点を検出し、かつk中心頂点以外の複数のサブコンポーネントあるいはサブグラフを取得するために、検出されたk中心頂点と接続されている全ての辺をカットするように構成されている。
【0032】
サブコンポーネント距離計算ユニット162は、各サブコンポーネントの中心を計算し、かつ2つのサブコンポーネント中心間の距離を計算するように構成されている。本発明の好ましい実施の形態によれば、k中心頂点は除外されるので、取得される各サブコンポーネントは多くてもk−1個の頂点を含んでいる。従って、サブコンポーネントのそれぞれを分解する必要はない。そのため、ラージコンポーネント分解処理において、各サブコンポーネントの全体をそのサブコンポーネントの中心によって表すことができる。サブコンポーネントの中心は、サブコンポーネントに含まれる頂点に対応するレコードの量子化された値或いは属性値の平均値あるいは中央値、あるいは他の適切な度量である。2つのサブコンポーネントの中心間の距離についても、適切な既存の方法(例えば、ユークリッド距離アルゴリズム)の何れかを用いることにより計算することができる。
【0033】
本発明の好ましい実施の形態によれば、上述したように、トップダウン式の分割/クラスタリング処理をラージコンポーネント分解にも導入し、それによって、大局的最適化を保証している。ラージコンポーネント分解ユニット16内のサブコンポーネント完全グラフ構築ユニット164は、サブコンポーネント全体を頂点として用いる。それにより、サブコンポーネント完全グラフ構築ユニット164は、各サブコンポーネントを頂点として用いることにより、具体的には、計算された各サブコンポーネントの中心を頂点として用い、全ての2つの頂点を辺で接続することにより、完全グラフを構築するように構成されている。
このような構築されたグラフにおいて、頂点は、対応するサブコンポーネントのサイズ(すなわち、サブコンポーネントに含まれる頂点の数)によってそれぞれ重み付けされ、辺は、2つの対応するサブコンポーネント中心間の距離によってそれぞれ重み付けされる。
【0034】
連続カット方法は、ラージコンポーネント分解にも導入される。辺カットユニット14の上記動作と同様に、サブコンポーネント完全グラフ辺カットユニット166は、辺の重みの順に辺を連続してカットし、サブコンポーネントを複数のクラスタに分割するように構成されている。各クラスタに含まれる全ての頂点の重みの和は、k以上で2k−1以下である。
【0035】
サブコンポーネント完全グラフ辺カットユニット166は、辺の重みの降順に辺を連続してカットする。辺の連続カット処理において、以下の条件の1つが満足されれば、サブコンポーネント完全グラフ辺カットユニット166は辺をカットする。
1)辺がブリッジであり(すなわち、辺がカットされると、その辺を含むグラフが2つのサブグラフに分割される)、かつ、辺をカットした後に得られる各コンポーネントに含められる頂点の重みの和が、少なくともkである。
2)辺がブリッジではない(すなわち、辺がカットされても、その辺を含むグラフが2つのサブグラフに分割されない)。
【0036】
サブコンポーネント完全グラフ辺カットユニット166の動作については、具体例と図を参照して後述する。
【0037】
サブコンポーネント完全グラフ辺カットユニット166の動作完了後、クラスタの1つに先に除外されたk中心頂点をマージすることが必要となる。マージユニット168は、k中心頂点に距離が最も近いクラスタに対してk中心頂点をマージするように構成されている。k中心頂点とマージされたクラスタに含まれる全ての頂点の重みの和が、2kに等しければ、クラスタはさらに2つのクラスタへ分解され、その結果、各クラスタに含まる全ての頂点の重みの和は、kと等しくなる。
【0038】
ラージコンポーネント分解ユニット16によって取得されたクラスタは、辺カットユニット14によって取得されたクラスタと共に、レコード分割/クラスタリングの結果を構成する。結果として得られた各クラスタに含まれる頂点或いはレコードの数は、k以上で2k−1以下である。なお、可能であれば、結果として得られたレコードは、レコード分割記憶装置(図示せず)に格納してもよい。
【0039】
一般化ユニット18は、結果として得られた各クラスタ毎に、頂点に対応するレコードを一般化するように構成されている。その結果、各クラスタ内のレコードは互いに分割することができなくなる。一般化ユニット18は、周知のどのような一般化方法も用いることが可能である。一例として、複数の数値については、それらの最小公倍数として一般化することが可能である。例えば、値2、4、10は、20として一般化することが可能である。
他の例として、複数の都市名称は、これらの都市が属している州の名称として一般化することが可能である。例えば、都市名称「成都(Chengdu)」、「綿陽(Mianyang)」および「楽山(Leshan)」は、州名称「四川(Sichuan)」として一般化することが可能である。一般に、異なる属性は、それらが属するカテゴリの最下位のレベルとして一般化することができる。これにより、それらの属性は互いに分割することができなくなり、同時に情報の損失を最小限に保つ。なお、一般化ユニット18からの結果出力は、匿名テーブルあるいはリスト等のような様々な形式で匿名のレコード記憶ユニット(図示せず)に格納される。
【0040】
以上、本発明の好ましい実施の形態によるデータ匿名化装置1について説明した。
図3は、本発明の好ましい実施の形態によるデータ匿名化方法300を説明するフローチャートである。このデータ匿名化方法300はデータ匿名化装置1によって実行される。
ステップ302で、複数のデータレコードを含むテーブル内の2つのレコードごとの間の距離を計算する。
ステップ304で、頂点として各レコードを用い、全ての2つの頂点を辺で接続し、2つの対応するレコードの間の距離で辺に重みを加えることにより、全てのレコードを含む完全グラフを構築する。
ステップ306で、完全グラフを少なくともk個の頂点を含む複数のコンポーネントに分割するために、辺の重み順に辺を順番にカットする。
ステップ308で、各クラスタに含まれる頂点の数がk個と2k−1個の間となるように、2k−1個を超える頂点を含むラージコンポーネントを複数のクラスタに分解する。
ステップ310で、得られた各クラスタ内のレコードを互いに分割することができないように、各クラスタの頂点に対応するレコードを一般化する。
【0041】
図4は、図3のデータ匿名化方法300におけるラージコンポーネント分解ステップ308を示すフローチャートである。
ステップ402で、2k−1個を超える頂点を含む各ラージコンポーネントにおけるk中心頂点を検出し、かつk中心頂点以外の複数のサブコンポーネントを取得するために、検出されたk中心頂点と接続されている全ての辺をカットする。
ステップ404で、各サブコンポーネントの中心と、2つのサブコンポーネント中心間の距離を計算する。
ステップ406で、計算された各サブコンポーネントの中心を頂点として用い、対応するサブコンポーネントのサイズによって頂点に重みを付け、全ての2つの頂点を辺で接続し、2つの対応するサブコンポーネント中心間の距離によって辺に重みを付けることにより、各サブコンポーネントを頂点する完全グラフを構築する。
ステップ408で、辺の重みの順に辺を連続してカットして、サブコンポーネントを複数のクラスタに分割し、各クラスタに含まれる全ての頂点の重みの和をk以上2k−1以下とする。
ステップ410で、k中心頂点に距離が最も近いクラスタにk中心頂点をマージし、マージされたクラスタに含まれる全ての頂点の重みの和が2kに等しければ、各クラスタに含まる全ての頂点の重みの和がkと等しくなるように、クラスタをさらに2つのクラスタに分解する。
【0042】
本発明の実施の形態をさらに明確に示すために、実施の形態による具体例について、図5〜図8を参照して以下に説明する。これらの具体例は、本発明の好ましい実施の形態を例示するためだけのものであり、本発明を制限するものではない。
【0043】
例えば、10個のデータレコードT=[Q0, Q1, …, Q9], Qi={A1, A2, …, Am},i={0, 2, .., 9}を含むテーブルがあるものとする。ここで、mは自然数である。k(=2)−匿名テーブルを形成するために、これらの10のデータレコードを匿名化する必要がある。
【0044】
まず、距離計算ユニット10が、ユークリッド距離アルゴリズムを用いることによって、全ての2つのQ0、Q1、…、Q9の間の距離を計算する。その後、完全グラフ構築ユニット12が完全グラフを構築する。
【0045】
図5は、本発明の好ましい実施の形態による完全グラフ構築を示す概略図である。図5に示すように、図の左側は、レコードの複数の頂点を示している。
図5の右側に示すような完全グラフを形成するために、これらの頂点を2つずつ辺で接続する。説明の便宜上、2つの頂点間の各辺の長さがその辺の重み(すなわち、2つの頂点に対応する2つのレコード間の距離)を表わすものと仮定する。
【0046】
次に、辺カットユニット14が、前述の条件に従って辺の重みの降順に辺をカットする。図6は、本発明の好ましい実施の形態によるシーケンス制御メカニズムが導入される辺カット処理を示す概略図である。図6から分かるように、Q3とQ8の間の辺edge38が最も長く、最大の重みを有する。Q0とQ4の間の辺edge04が2番めに長く、・・・、Q8とQ9の間の辺edge89が最も短い。
【0047】
まず、辺カットユニット14は、辺edge38が上述した2つの条件を満足するかどうかを判定する。この具体例において、辺edge38はブリッジではないので、カットされる。次に、辺カットユニット14は、辺edge04が2つの条件を満足するかどうかを判定する。辺edge04はブリッジではないので、カットされる。
Q0とQ1の間の辺edge01が2つの状態を満足するかどうかを判定するまで、辺カットユニット14はそのような動作を継続する。
辺edge01がカットされれば、グラフが2つのコンポーネントあるいはサブグラフに完全に分割されるので、辺edge01はブリッジである。従って、結果として得られる2つのコンポーネントがそれぞれ少なくともk個の頂点を有するかどうかを判定することが必要となる。図示のように、辺edge01のカットから得られた2つのコンポーネントは、それぞれ6個の頂点と4個の頂点を含んでいる。よって、辺カットユニット14は辺edge01をカットする。
Q0とQ9の間の辺edge09が2つの条件を満足するかどうかを判定する時、辺カットユニット14は、辺edge09がカットされれば、完全グラフのコンポーネントがさらに2つの部分に分けられると判定する。
よって、得られる2つの部分が、それぞれ少なくともk個の頂点を有するかどうかを判定することが再び必要となる。図示のように、辺edge09のカットから得られた2つの部分は、1個および5個の頂点をそれぞれ含んでいる。従って、条件を満足しない。よって、辺カットユニット14は辺edge09をカットしない。このようにして、図6の右下部分に示すように、部分CQ1、CQ2、CQ3およびCQ4が最終的に取得される。
【0048】
ここで、部分CQ2、CQ3およびCQ4は、それぞれ2個の頂点を含んでおり、したがってそれ以上分解を必要としない。すなわち、各部分CQ2、CQ3、CQ4はクラスタである。しかしながら、部分CQ1は、4つの頂点Q0、Q7、Q8およびQ9を含んでおり、その数は2k(=2)−1より大きい、したがって分解する必要がある。それゆえ、ラージコンポーネント分解ユニット16は、部分CQ1についてラージコンポーネント分解処理を実行する。
図7は、本発明の好ましい実施の形態によるラージコンポーネント分解処理を示す概略図である。
まず、k中心頂点検出ユニット160が、k中心頂点を検出する。図示のように、ラージコンポーネントCQ1のk中心頂点は、頂点Q9である。そこで、頂点Q9に接続される全ての辺をカットし、個々の分離したサブコンポーネントを取得する。この具体例においては、図7の2番目の部分図に示すように、各サブコンポーネントはただ1個の頂点を含んでいる。しかしながら、これは便宜上例として示しているだけであり、他の状況においては、各サブコンポーネントが1つ以上の頂点を含む場合もある。
【0049】
各サブコンポーネントが1つのみ頂点を含んでいるので、計算ユニット162は、サブコンポーネント中心として頂点の代表値を直接用いて、サブコンポーネント中心の間の距離を計算する。サブコンポーネント完全グラフ構築ユニット164は、図7の3番目の部分図に示すように、k中心頂点以外の全てのサブコンポーネント中心を接続し、全てのサブコンポーネントを含む完全グラフを取得する。サブコンポーネント完全グラフ辺カットユニット166は、図7の4番目の部分図に示すように、上述した2つの条件に従って、辺の重み(すなわち、図において示される辺の長さ)に基づいてQ0とQ7の間の辺をカットし、他の辺をカットしない。マージユニット168は、図7の5番目の部分図に示すように、頂点Q9を左のコンポーネントにマージし、4つの頂点を含むクラスタを取得する。これにより、マージユニット168は、図7の6番目の部分図に示すように、Q7とQ8の間の辺をカットし、それぞれ2つの頂点を含む2つのクラスタを取得する。
【0050】
図8は、本発明の好ましい実施の形態によるレコード分割の最終結果を概略的に示す。
本発明の好ましい実施の形態によるk(=2)−匿名化方法により、レコードQ0−Q9はそれぞれ2つのレコードを含む5個のクラスタに分割される。
その後、一般化ユニット18は、各クラスタについて一般化を実行し、k−匿名性テーブルAT=[AQ0, AQ1, …, AQ4]を取得する。ここで、AQiは、各クラスタにおけるレコードの一般化された値を表わす。
【0051】
以上、本発明の好ましい実施の形態によるデータ匿名化装置と方法について説明した。上記説明において、本発明の好ましい実施の形態を、具体例だけで図示しているが、そのことは、本発明が上記の手順とユニット構成に限定されることを意味するものではない。必要に応じて、これらの手段と要素を調整し、取捨選択し、組み合わせることも可能である。さらに、これらの手順と要素のいくつかは、本発明の発明概念を実現するうえで必要不可欠ではない。このように、本発明に必須の技術的特徴は、上記の特定の具体例ではなく、本発明の発明概念を実現するための最小の必要条件にのみ限定される。
【0052】
以上、本発明についてその好適な実施例を参照して説明したが、当該技術に精通した当業者には、本発明の精神と範囲から逸脱することなく他の様々な修正、変更、追加を行うことが可能なことは明らかであろう。したがって、本発明の範囲は上記の具体的な実施例に限定されず、付記した請求項によってのみ限定される。
【0053】
さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。
【0054】
(付記1)
複数のデータレコード中の2つのレコード毎の間の距離を計算する距離計算ユニットと、
各レコードを頂点として用い、全ての2つの頂点を辺で接続し、2つの対応するレコードの間の距離で辺に重みを加えることにより、全てのレコードを含む完全グラフを構築する完全グラフ構築ユニットと、
完全グラフを少なくともk(所定の自然数)個の頂点を含む複数のコンポーネントに分割するために、辺の重み順に辺を順番にカットする辺カットユニットと、
各クラスタに含まれる頂点の数がk個と2k−1個の間となるように、2k−1個を超える頂点を含むコンポーネントを複数のクラスタに分解するラージコンポーネント分解ユニットと、
各クラスタ内のレコードを互いに区別することができないように、各クラスタの頂点に対応するレコードを一般化する一般化ユニットとを備え、
2k−1個を超える頂点を含むコンポーネントをラージコンポーネントとし、k個以上で2k−1以下の頂点を含むコンポーネントがクラスタとする
ことを特徴とするデータ匿名化装置。
【0055】
(付記2)
前記辺カットユニットは、辺の重みに従って辺をソートし、かつそれらの重みの降順に辺をカットすることを特徴とする付記1に記載のデータ匿名化装置。
【0056】
(付記3)
前記辺カットユニットは、以下の条件の1つが満足されれば、辺をカットする
1)辺がブリッジであり、かつ、辺をカットした後に得られる各サブグラフが少なくともk個の頂点を含む
2)辺がブリッジではない
ここで、辺をカットすると、その辺を含むグラフが2つの個別の区分に分割されるなら、辺はブリッジであり、
辺をカットしても、その辺を含むグラフが2つの個別の区分に分割されないなら、辺はブリッジでない
ことを特徴とする付記1に記載のデータ匿名化装置。
【0057】
(付記4)
前記ラージコンポーネント分解ユニットが、
各ラージコンポーネントにおけるk中心頂点を検出し、かつk中心頂点以外の複数のサブコンポーネントを取得するために、検出されたk中心頂点と接続されている全ての辺をカットするk中心頂点検出ユニットと、
各サブコンポーネントの中心を計算し、かつ2つのサブコンポーネント中心間の距離を計算するサブコンポーネント距離計算ユニットと、
各サブコンポーネントの中心を頂点として用い、頂点を対応するサブコンポーネントのサイズ(サブコンポーネントに含まれるレコードの頂点の数によって表わされる)によって重み付けし、全ての2つの頂点を辺で接続し、辺を2つの対応するサブコンポーネント中心間の距離によって重み付けすることにより、サブコンポーネント完全グラフを構築するサブコンポーネント完全グラフ構築ユニットと、
辺の重みの順に辺を連続してカットし、サブコンポーネント完全グラフを複数のクラスタに分割し、各クラスタに含まれる全ての頂点の重みの和を、k以上で2k−1以下とするサブコンポーネント完全グラフ辺カットユニットと、
k中心頂点に距離が最も近いクラスタに対してk中心頂点をマージし、k中心頂点とマージされたクラスタに含まれる全ての頂点の重みの和が、2kに等しければ、クラスタを2つのクラスタに分解し、各クラスタに含まる全ての頂点の重みの和をkと等しくするマージユニットとを
備えることを特徴とする付記1に記載のデータ匿名化装置。
【0058】
(付記5)
前記サブコンポーネント完全グラフ辺カットユニットは、辺の重みに従って辺をソートし、それらの重みの降順に辺をカットすることを特徴とする付記4に記載のデータ匿名化装置。
【0059】
(付記6)
前記サブコンポーネント完全グラフ辺カットユニットは、以下の条件の1つが満足されれば、辺をカットする
1)辺がブリッジであり、かつ、辺をカットした後に得られる各コンポーネントに含められる頂点の重みの和が、少なくともkである。
2)辺がブリッジではない
ここで、辺をカットすると、その辺を含むグラフが2つのサブグラフに分割されるなら、辺はブリッジであり、
辺をカットしても、その辺を含むグラフが2つのサブグラフに分割されないなら、辺はブリッジでない
ことを特徴とする
付記4に記載のデータ匿名化装置。
【0060】
(付記7)
複数のデータレコード中の2つのレコード毎の間の距離を計算する距離計算ステップと、
各レコードを頂点として用い、全ての2つの頂点を辺で接続し、2つの対応するレコードの間の距離で辺に重みを加えることにより、全てのレコードを含む完全グラフを構築する完全グラフ構築ステップと、
完全グラフを少なくともk(kは所定の自然数)個の頂点を含む複数のコンポーネントに分割するために、辺の重み順に辺を順番にカットする辺カットステップと、
各クラスタに含まれる頂点の数がk個と2k−1個の間となるように、2k−1個を超える頂点を含むコンポーネントを複数のクラスタに分解するラージコンポーネント分解ステップと、
各クラスタ内のレコードを互いに区別することができないように、各クラスタの頂点に対応するレコードを一般化する一般化ステップとを備え、
2k−1個を超える頂点を含むコンポーネントをラージコンポーネントとし、k個以上で2k−1以下の頂点を含むコンポーネントがクラスタとする
ことを特徴とするデータ匿名化方法。
【0061】
(付記8)
前記辺カットステップにおいて、辺の重みに従って辺をソートし、かつそれらの重みの降順に辺をカットすることを特徴とする付記7に記載のデータ匿名化方法。
【0062】
(付記9)
前記辺カットステップにおいて、以下の条件の1つが満足されれば、辺をカットする
1)辺がブリッジであり、かつ、辺をカットした後に得られる各サブグラフが少なくともk個の頂点を含む
2)辺がブリッジではない
ここで、辺をカットすると、その辺を含むグラフが2つの個別の区分に分割されるなら、辺はブリッジであり、
辺をカットしても、その辺を含むグラフが2つの個別の区分に分割されないなら、辺はブリッジでない
ことを特徴とする付記7に記載のデータ匿名化方法。
【0063】
(付記10)
前記ラージコンポーネント分解ステップが、
各ラージコンポーネントにおけるk中心頂点を検出し、かつk中心頂点以外の複数のサブコンポーネントを取得するために、検出されたk中心頂点と接続されている全ての辺をカットするk中心頂点検出ステップと、
各サブコンポーネントの中心を計算し、かつ2つのサブコンポーネント中心間の距離を計算するサブコンポーネント距離計算ステップと、
各サブコンポーネントの中心を頂点として用い、頂点を対応するサブコンポーネントのサイズ(サブコンポーネントに含まれるレコードの頂点の数によって表わされる)によって重み付けし、全ての2つの頂点を辺で接続し、辺を2つの対応するサブコンポーネント中心間の距離によって重み付けすることにより、サブコンポーネント完全グラフを構築するサブコンポーネント完全グラフ構築ステップと、
辺の重みの順に辺を連続してカットし、サブコンポーネント完全グラフを複数のクラスタに分割し、各クラスタに含まれる全ての頂点の重みの和を、k以上で2k−1以下とするサブコンポーネント完全グラフ辺カットステップと、
k中心頂点に距離が最も近いクラスタに対してk中心頂点をマージし、k中心頂点とマージされたクラスタに含まれる全ての頂点の重みの和が、2kに等しければ、クラスタを2つのクラスタに分解し、各クラスタに含まる全ての頂点の重みの和をkと等しくするマージステップとを
含むことを特徴とする付記7に記載のデータ匿名化方法。
【0064】
(付記11)
前記サブコンポーネント完全グラフ辺カットステップにおいて、辺の重みに従って辺をソートし、それらの重みの降順に辺をカットすることを特徴とする付記10に記載のデータ匿名化方法。
【0065】
(付記12)
前記サブコンポーネント完全グラフ辺カットステップにおいて、以下の条件の1つが満足されれば、辺をカットする
1)辺がブリッジであり、かつ、辺をカットした後に得られる各コンポーネントに含められる頂点の重みの和が、少なくともkである。
2)辺がブリッジではない
ここで、辺をカットすると、その辺を含むグラフが2つのサブグラフに分割されるなら、辺はブリッジであり、
辺をカットしても、その辺を含むグラフが2つのサブグラフに分割されないなら、辺はブリッジでない
ことを特徴とする
付記10に記載のデータ匿名化方法。
【符号の説明】
【0066】
1:データ匿名化装置
10:距離計算ユニット
12:完全グラフ構築ユニット
14:辺カットユニット
16:ラージコンポーネント分解ユニット
18:一般化ユニット
20:レコード記録ユニット
16:ラージコンポーネント分解ユニット
160:k中心頂点検出ユニット
162:サブコンポーネント距離計算ユニット
164:サブコンポーネント完全グラフ構築ユニット
166:サブコンポーネント完全グラフ辺カットユニット
168:マージユニット

【特許請求の範囲】
【請求項1】
複数のデータレコード中の2つのレコード毎の間の距離を計算する距離計算ユニットと、
各レコードを頂点として用い、全ての2つの頂点を辺で接続し、2つの対応するレコードの間の距離で辺に重みを加えることにより、全てのレコードを含む完全グラフを構築する完全グラフ構築ユニットと、
完全グラフを少なくともk(所定の自然数)個の頂点を含む複数のコンポーネントに分割するために、辺の重み順に辺を順番にカットする辺カットユニットと、
各クラスタに含まれる頂点の数がk個と2k−1個の間となるように、2k−1個を超える頂点を含むコンポーネントを複数のクラスタに分解するラージコンポーネント分解ユニットと、
各クラスタ内のレコードを互いに区別することができないように、各クラスタの頂点に対応するレコードを一般化する一般化ユニットとを備え、
2k−1個を超える頂点を含むコンポーネントをラージコンポーネントとし、k個以上で2k−1以下の頂点を含むコンポーネントがクラスタとする
ことを特徴とするデータ匿名化装置。
【請求項2】
前記辺カットユニットは、辺の重みに従って辺をソートし、かつそれらの重みの降順に辺をカットすることを特徴とする請求項1に記載のデータ匿名化装置。
【請求項3】
前記辺カットユニットは、以下の条件の1つが満足されれば、辺をカットする
1)辺がブリッジであり、かつ、辺をカットした後に得られる各サブグラフが少なくともk個の頂点を含む
2)辺がブリッジではない
ここで、辺をカットすると、その辺を含むグラフが2つの個別の区分に分割されるなら、辺はブリッジであり、
辺をカットしても、その辺を含むグラフが2つの個別の区分に分割されないなら、辺はブリッジでない
ことを特徴とする請求項1に記載のデータ匿名化装置。
【請求項4】
前記ラージコンポーネント分解ユニットが、
各ラージコンポーネントにおけるk中心頂点を検出し、かつk中心頂点以外の複数のサブコンポーネントを取得するために、検出されたk中心頂点と接続されている全ての辺をカットするk中心頂点検出ユニットと、
各サブコンポーネントの中心を計算し、かつ2つのサブコンポーネント中心間の距離を計算するサブコンポーネント距離計算ユニットと、
各サブコンポーネントの中心を頂点として用い、頂点を対応するサブコンポーネントのサイズ(サブコンポーネントに含まれるレコードの頂点の数によって表わされる)によって重み付けし、全ての2つの頂点を辺で接続し、辺を2つの対応するサブコンポーネント中心間の距離によって重み付けすることにより、サブコンポーネント完全グラフを構築するサブコンポーネント完全グラフ構築ユニットと、
辺の重みの順に辺を連続してカットし、サブコンポーネント完全グラフを複数のクラスタに分割し、各クラスタに含まれる全ての頂点の重みの和を、k以上で2k−1以下とするサブコンポーネント完全グラフ辺カットユニットと、
k中心頂点に距離が最も近いクラスタに対してk中心頂点をマージし、k中心頂点とマージされたクラスタに含まれる全ての頂点の重みの和が、2kに等しければ、クラスタを2つのクラスタに分解し、各クラスタに含まる全ての頂点の重みの和をkと等しくするマージユニットとを
備えることを特徴とする請求項1に記載のデータ匿名化装置。
【請求項5】
前記サブコンポーネント完全グラフ辺カットユニットは、辺の重みに従って辺をソートし、それらの重みの降順に辺をカットすることを特徴とする請求項4に記載のデータ匿名化装置。
【請求項6】
前記サブコンポーネント完全グラフ辺カットユニットは、以下の条件の1つが満足されれば、辺をカットする
1)辺がブリッジであり、かつ、辺をカットした後に得られる各コンポーネントに含められる頂点の重みの和が、少なくともkである。
2)辺がブリッジではない
ここで、辺をカットすると、その辺を含むグラフが2つのサブグラフに分割されるなら、辺はブリッジであり、
辺をカットしても、その辺を含むグラフが2つのサブグラフに分割されないなら、辺はブリッジでない
ことを特徴とする
請求項4に記載のデータ匿名化装置。
【請求項7】
複数のデータレコード中の2つのレコード毎の間の距離を計算する距離計算ステップと、
各レコードを頂点として用い、全ての2つの頂点を辺で接続し、2つの対応するレコードの間の距離で辺に重みを加えることにより、全てのレコードを含む完全グラフを構築する完全グラフ構築ステップと、
完全グラフを少なくともk(kは所定の自然数)個の頂点を含む複数のコンポーネントに分割するために、辺の重み順に辺を順番にカットする辺カットステップと、
各クラスタに含まれる頂点の数がk個と2k−1個の間となるように、2k−1個を超える頂点を含むコンポーネントを複数のクラスタに分解するラージコンポーネント分解ステップと、
各クラスタ内のレコードを互いに区別することができないように、各クラスタの頂点に対応するレコードを一般化する一般化ステップとを備え、
2k−1個を超える頂点を含むコンポーネントをラージコンポーネントとし、k個以上で2k−1以下の頂点を含むコンポーネントがクラスタとする
ことを特徴とするデータ匿名化方法。
【請求項8】
前記辺カットステップにおいて、辺の重みに従って辺をソートし、かつそれらの重みの降順に辺をカットすることを特徴とする請求項7に記載のデータ匿名化方法。
【請求項9】
前記辺カットステップにおいて、以下の条件の1つが満足されれば、辺をカットする
1)辺がブリッジであり、かつ、辺をカットした後に得られる各サブグラフが少なくともk個の頂点を含む
2)辺がブリッジではない
ここで、辺をカットすると、その辺を含むグラフが2つの個別の区分に分割されるなら、辺はブリッジであり、
辺をカットしても、その辺を含むグラフが2つの個別の区分に分割されないなら、辺はブリッジでない
ことを特徴とする請求項7に記載のデータ匿名化方法。
【請求項10】
前記ラージコンポーネント分解ステップが、
各ラージコンポーネントにおけるk中心頂点を検出し、かつk中心頂点以外の複数のサブコンポーネントを取得するために、検出されたk中心頂点と接続されている全ての辺をカットするk中心頂点検出ステップと、
各サブコンポーネントの中心を計算し、かつ2つのサブコンポーネント中心間の距離を計算するサブコンポーネント距離計算ステップと、
各サブコンポーネントの中心を頂点として用い、頂点を対応するサブコンポーネントのサイズ(サブコンポーネントに含まれるレコードの頂点の数によって表わされる)によって重み付けし、全ての2つの頂点を辺で接続し、辺を2つの対応するサブコンポーネント中心間の距離によって重み付けすることにより、サブコンポーネント完全グラフを構築するサブコンポーネント完全グラフ構築ステップと、
辺の重みの順に辺を連続してカットし、サブコンポーネント完全グラフを複数のクラスタに分割し、各クラスタに含まれる全ての頂点の重みの和を、k以上で2k−1以下とするサブコンポーネント完全グラフ辺カットステップと、
k中心頂点に距離が最も近いクラスタに対してk中心頂点をマージし、k中心頂点とマージされたクラスタに含まれる全ての頂点の重みの和が、2kに等しければ、クラスタを2つのクラスタに分解し、各クラスタに含まる全ての頂点の重みの和をkと等しくするマージステップとを
含むことを特徴とする請求項7に記載のデータ匿名化方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−22315(P2012−22315A)
【公開日】平成24年2月2日(2012.2.2)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−137185(P2011−137185)
【出願日】平成23年6月21日(2011.6.21)
【出願人】(505418870)エヌイーシー(チャイナ)カンパニー, リミテッド (108)
【氏名又は名称原語表記】NEC(China)Co.,Ltd.
【Fターム(参考)】