データベース撹乱パラメータ設定装置、方法及びプログラム並びにデータベース撹乱システム
【課題】属性値が数値である場合にも適用することができる、Pk−匿名性を満たすデータベース撹乱技術に用いられるパラメータを決定する技術を提供する。
【解決手段】下記式を満たすパラメータpを決定する。
このパラメータpは、テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることによりテーブルの撹乱を行うとしてデータベース撹乱技術に用いられる。
【解決手段】下記式を満たすパラメータpを決定する。
このパラメータpは、テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることによりテーブルの撹乱を行うとしてデータベース撹乱技術に用いられる。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、プライバシーを保護しながらデータマイニングを行う技術に関する。
【背景技術】
【0002】
いわゆるPk−匿名性を満たすデータベース撹乱技術及びそのデータベース撹乱技術で用いられるパラメータ決定技術が、特許文献1で提案されている(例えば、特許文献1参照。)。
Pk−匿名性は、データベースの各レコードと、その各レコードに対応する個人とを1/k以上の確率で結びつけることができないという性質である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2011−100116号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1の技術は属性値がいわゆるカテゴリ属性値であることを想定しており、属性値がいわゆる数値属性値である場合には非特許文献1の技術を適用することができない。
【0005】
この発明の課題は、属性値が数値属性値である場合にも適用することができる、Pk−匿名性を満たすデータベース撹乱パラメータ設定装置、方法及びプログラム並びにデータベース撹乱システムを提供することである。
【課題を解決するための手段】
【0006】
この発明の一態様によるデータベース撹乱装置は、テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることによりテーブルの撹乱を行うデータベース撹乱装置に用いられる、パラメータpを決定するデータベース撹乱パラメータ決定装置であって、下記式を満たすパラメータpを決定するパラメータ決定部を含む。
【0007】
【数1】
【発明の効果】
【0008】
属性値が数値属性値である場合にも適用することができる。
【図面の簡単な説明】
【0009】
【図1】第一実施形態のデータベース撹乱システムを説明するためのブロック図。
【図2】第一実施形態のデータベース撹乱システムを説明するための流れ図。
【図3】第二実施形態のデータベース撹乱システムを説明するための流れ図。
【図4】データベース撹乱システムの変形例を説明するためのブロック図。
【図5】データベース撹乱システムの変形例を説明するためのブロック図。
【図6】データベース撹乱システムの変形例を説明するためのブロック図。
【図7】第一実施形態で撹乱の対象となるデータベースの例を説明するための図。
【図8】第二実施形態で撹乱の対象となるデータベースの例を説明するための図。
【図9】第一実施形態のパラメータの決定方法を説明するための流れ図。
【図10】第二実施形態のパラメータの決定方法を説明するための流れ図。
【図11】第二実施形態のパラメータの決定方法を説明するための流れ図。
【発明を実施するための形態】
【0010】
以下、図面を参照して、この発明の実施形態を説明する。
【0011】
[第一実施形態]
第一実施形態のデータベース撹乱システムは、図1に例示するように、撹乱装置1及び集計装置2を備えている。
撹乱装置1は、データベース記憶部11と、撹乱部12と、パラメータ決定部13とを例えば備えている。この例では、撹乱部12は、並替部14を備える。パラメータ決定部13が、特許請求の範囲のデータベース撹乱パラメータ決定装置に対応している。
【0012】
集計装置2は、集計部21を例えば備えている。
データベース記憶部11には、撹乱の対象となるデータベースが記憶されている。データベース記憶部11に記憶されたデータベースについての情報は、撹乱部12に送信される。
データベースは、図7に例示するように、複数のレコードから構成されている。
【0013】
各レコードは、レコード識別子と少なくとも1つの属性値とから構成されている。レコード識別子は、個人を識別する識別子であり、いわゆるレコードIDである。レコード識別子は、例えば氏名や氏名に対応するID番号である。
各属性値は、第一実施形態では、n次元実数ベクトルの部分集合Vに含まれるベクトルであり、いわゆる数値属性値である。nは、1以上の整数である。n=1であり属性が例えば「中間テストの点数」や「期末テストの点数」である場合には、属性値は0から100までの何れかの整数である。
【0014】
撹乱部12は、データベース記憶部11から読み込んだデータベースに含まれる一部又は全部の属性値のそれぞれについて、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行うことによりデータベースの撹乱を行う(ステップS1)。撹乱されたデータベースは、並替部14に送信される。撹乱の対象となる属性値が複数ある場合には、それらの複数の属性値を独立に撹乱してもよいし、従属に撹乱してもよい。
【0015】
確率密度関数Aa(p)v,v’に基づく撹乱とは、例えばデータベース記憶部11から読み込んだデータベースに含まれる一部又は全部の属性値のそれぞれについて、確率密度関数Aa(p)v,v’に従う値を加算することや、後述する維持確率ρの維持−置換撹乱を行うことを意味する。
【0016】
確率密度関数Aa(p)v,v’は、例えば下記式により定義される平均μであり分散2σ2のラプラス分布である。この場合、所定のパラメータpは、σである。
【数2】
||・||1は・のいわゆるL1ノルムである。
【0017】
例えば、μ=0とする。この場合、撹乱部12が用いるラプラス分布は以下のようになる。
【数3】
【0018】
以下、「ラプラス分布に従う値」について説明する。まず、ラプラス分布を含む一般の確率密度関数fに従う値について説明する。ここでは表記の簡略化のために、確率密度関数fと書く。確率密度関数fは上記確率密度関数Aa(p)v,v’と同じと考えてよい。
1.「確率密度関数fに従う値」について
(1)確率密度関数fの定義域及び属性値が1次元の場合
(i)累積分布関数F(x)=∫−∞xf(x’)dx’を求める。
(ii)累積分布関数F(x)の逆関数F−1を求める。
(iii)区間[0,1]上の一様乱数rを生成する。
(iv)F−1(r)を「確率密度関数fに従う値」として出力する。
累積分布関数F(x)や逆関数F−1が数式で得られる場合にはその数式に基づいてF−1(r)を計算してもよいし、そうでない場合には数値計算によってF−1(r)を計算してもよい。
【0019】
(2)確率密度関数fの定義域及び属性値がn次元の場合
i=0,…,n−1のそれぞれに対して、以下の(i)(ii)を行う。
(i)x0からxi−1までを固定し、xi+1からxn−1までを積分し、xiだけを変数として残した確率密度関数fiを求める。
【数4】
(ii)確率密度関数fiの定義域は1次元なので、上記「(1)確率密度関数fの定義域及び属性値が1次元の場合」で示した方法と同様の方法により、「確率密度関数fiに従う値」を計算する。
i=0,…,n−1のそれぞれに対して「確率密度関数fiに従う値」を計算することにより、n個の「確率密度関数fiに従う値」が得られる。
【0020】
上記の方法を、確率密度関数がラプラス分布の場合に当てはめると以下のようになる。
2.「ラプラス分布に従う値」について
(1)ラプラス分布の定義域及び属性値が1次元の場合
(i)区間[0,1]上の一様乱数r、区間(0,1)上の一様乱数bを生成する。
(ii)(−1)bσlogr+μを「ラプラス分布に従う値」として出力する。
【0021】
(2)ラプラス分布の定義域及び属性値がn次元の場合
(i)上記「(1)ラプラス分布の定義域及び属性値が1次元の場合」で示した方法と同様の方法により、n個の「ラプラス分布に従う値」であるx0,x1,…,xn−1を計算する。
(ii)これらのx0,x1,…,xn−1を「ラプラス分布に従う値」として出力する。
【0022】
並替部14は、撹乱部12により撹乱されたデータベースに含まれるレコードの順序を並び替える(ステップS2)。レコードが並び替えられたデータベースは、集計装置2に送信される。
【0023】
並び替えの対象となるのは、データベースに含まれる全部又は一部のレコードである。レコードの並び替えは、一様ランダムに行われてもよいし、ランダムに行われてもよいし、一部又は全部の属性値についての昇順、降順等の所定の並替規則に基づいて行われてもよい。
【0024】
パラメータ決定部13は、撹乱部2のステップS0の処理の前に、パラメータpを決定する(ステップS0)。決定されたパラメータpは、撹乱部2に送信される。
【0025】
例えば、確率密度関数Aa(p)v,v’が一般の確率密度関数であり、属性値の数が1である場合には、パラメータ決定部13は、パラメータpを以下の式(1)を満たすように決定する。kはセキュリティパラメータであり、|R|はデータベースのレコードの数であり、ess inf・は・の本質的下限である。撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’とする。
【数5】
【0026】
関数f(x)の定義域をχとすると、関数f(x)の本質的下限ess inf f(x)は、具体的には以下のように書ける。μ({f<b})を、関数f(x)<bとなる領域の測度(例えば、面積又は体積)とする。下記式のRは実数を意味する。
【数6】
【0027】
例えば、確率密度関数Aa(p)v,v’が一般の確率密度関数であり、属性値の数が1以上である場合には、パラメータ決定部13は、パラメータpを以下の式(2)を満たすように決定する。属性aに対応する確率密度関数をAa(p)v,v’として、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとする。
【数7】
【0028】
例えば、確率密度関数A(p)v,v’が平均μであり分散2σ2のラプラス分布であり、属性値の種類の数が1である場合には、パラメータ決定部13は、パラメータであるσを下記式(3)又は(4)を満たすよう定める。
【数8】
【0029】
属性値の種類の数が1以上である場合には、パラメータ決定部13は、パラメータであるσを下記式(5)又は(6)を満たすように定める。
【数9】
【0030】
パラメータ決定部13は、例えばいわゆる二分法により、上記式(1)から(6)の何れかを満たすパラメータp又はσを決定する。以下、図9を参照して、確率密度関数Aa(p)v,v’が平均μであり分散2σ2のラプラス分布であり、属性値の種類の数が1である場合を例に挙げて、二分法を用いてこの場合のパラメータであるσを決定する方法を説明する。
【0031】
まず、パラメータ決定部13は、σ=1とする(ステップS01)。
【0032】
パラメータ決定部13は、下記式(7)によりk’を計算する(ステップS02)。下記式(7)は、上記式(4)に対応するものである。
【数10】
【0033】
パラメータ決定部13は、計算されたk’と所望のkとを比較する(ステップS03)。
パラメータ決定部13は、k’がk以上であれば、σmax=σとする(ステップS04)。すなわち、σの値を、変数σmaxに代入する。その後、ステップS06に進む。
【0034】
パラメータ決定部13は、k’がk以上でなければ、σ=2σとする(ステップS05)。すなわち、現在のσの値を2倍した値を新たなσの値とする。その後、ステップS02に進む。
パラメータ決定部13は、区間[0,σmax]で、上記式(7)を評価式とする二分法によりkが所望の値になるまで反復計算して最適なσを求める(ステップS06)。
【0035】
このようにして撹乱されたデータベースは、いわゆるPk−匿名性を満たす。ここでは、その証明を省略する。Pk−匿名性は、データベースの各レコードと、その各レコードに対応する個人とを1/k以上の確率で結びつけることができないという性質である。
したがって、このようにして撹乱されたデータベースは、Pk−匿名性という明確な基準で匿名性が保障される。また、撹乱前のデータベース及び撹乱後のデータベースを用いずに匿名性を保障することができる。
【0036】
集計部21は、撹乱装置1により撹乱されたデータベースを用いて集計処理を行う(ステップS3)。集計部21は、例えば、参考文献1に記載された反復ベイズ手法等を用いて、クロス集計等の集計結果を推定する。
〔参考文献1〕
五十嵐大,外2名,「多値属性に適用可能な効率的プライバシー保護クロス集計」,コンピュータセキュリティシンポジウム2008
【0037】
[第二実施形態]
第一実施形態は、データベースの全ての属性値がいわゆる数値属性値である場合のデータベース撹乱システムであった。これに対して、第二実施形態は、データベースの属性値がいわゆるカテゴリ属性値を含む場合のデータベース撹乱システムである。第二実施形態で撹乱の対象となるデータベースの例を図8に示す。
カテゴリ属性値とは、例えば性別等の属性値であり、数値属性値とは異なり属性値の取り得る値がいくつかに制限されている属性値のことである。
【0038】
以下、第一実施形態と異なる部分を中心に説明する。第一実施形態と同様の部分については説明を省略する。
第二実施形態の撹乱部12は、図2のステップS1に代えて、図3のステップS10,S1,S11の処理を行う。
【0039】
撹乱部12は、まず、データベース記憶部11から読み込んだデータベースに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値がカテゴリ属性値であるか判定する(ステップS10)。
【0040】
属性値がカテゴリ属性値でない場合には、すなわち数値属性値である場合には、撹乱部12は、第一実施形態と同様の方法によりラプラス分布に従う値の加算を行う(ステップS1)。
属性値がカテゴリ属性値である場合には、撹乱部12は、その属性値を所定の確率で他のカテゴリ属性値に置換する(ステップS11)。具体的には、いわゆる維持確率ρの維持−置換撹乱を行う。
【0041】
維持確率ρの維持−置換撹乱は、維持確率ρが予め定められているとして、維持確率ρでその属性値を変更せずに維持し、1−ρの確率でその属性値を他のカテゴリ属性値に置換する撹乱方法である。他のカテゴリ属性値に置換するとは、例えば属性が性別であり属性値が「男」である場合には、その属性値「男」を属性値「女」に置換することを意味する。維持確率ρの維持−置換撹乱の詳細については、特許文献1を参照のこと。
【0042】
確率密度関数Aa(p)v,v’が平均μ分散2σ2のラプラス分布であり、属性の種類の数が2以上である場合には、パラメータ決定部13は、パラメータであるσ及び維持確率ρは下記式(8)を満たすように決定する。|Va|は、属性aのカテゴリ属性値の取り得る値の数である。
【数11】
【0043】
kという1つのパラメータからσ及びρの2つのパラメータを決定する場合には、σ=f(ρ)というρからσが定まる関数、又は、ρ=g(σ)というσからρが定まる関数を予め定めておいて、σ及びρを1つのパラメータに基づくものと見なしてσ及びρを決定する。
【0044】
まず、例えばσ=f(ρ)=tan((π/4)(1−ρ))とした場合の説明をする。この場合のkの評価式は、以下のようになる。
【数12】
この場合、図10に示すように、パラメータ決定部13は、まず区間[0,1]で、評価式を上記式(9)とする二分法によりkが所望の値となるまで反復計算して最適なρを求める(ステップS07)。
【0045】
その後、パラメータ決定部13は、求まったρに基づいて、σ=f(ρ)=tan((π/4)(1−ρ))を計算する(ステップS08)。
【0046】
つぎに、例えばρ=g(σ)=fL0,1/2(σ)とした場合を説明する。fL0,1/2(σ)は、以下のように定義される。
【数13】
【0047】
この場合のkの評価式は、以下のようになる。
【数14】
この場合、図11に示すように、まず、パラメータ決定部13は、第一実施形態のステップS01からステップS6と同様の方法により、適切なσを決定する。
【0048】
すなわち、パラメータ決定部13は、σ=1とする(ステップS01)。
パラメータ決定部13は、上記式(9)によりk’を計算する(ステップS02)。
パラメータ決定部13は、計算されたk’と所望のkとを比較する(ステップS03)。
パラメータ決定部13は、k’がk以上であれば、σmax=σとする(ステップS04)。すなわち、σの値を、変数σmaxに代入する。その後、ステップS06に進む。
【0049】
パラメータ決定部13は、k’がk以上でなければ、σ=2σとする(ステップS05)。すなわち、現在のσの値を2倍した値を新たなσの値とする。その後、ステップS02に進む。
パラメータ決定部13は、区間[0,σmax]で、上記式(10)を評価式とする二分法によりkが所望の値になるまで反復計算して最適なσを求める(ステップS06)。
【0050】
その後、パラメータ決定部13は、求まったσに基づいて、ρ=g(σ)=fL0,1/2(σ)を計算する(ステップS09)。
このようにして撹乱されたデータベースは、第一実施形態と同様に、いわゆるPk−匿名性を満たす。ここでは、その証明を省略する。
【0051】
したがって、このようにして撹乱されたデータベースは、第一実施形態と同様に、Pk−匿名性という明確な基準で匿名性が保障される。また、撹乱前のデータベース及び撹乱後のデータベースを用いずに匿名性を保障することができる。
【0052】
[変形例等]
パラメータ決定部13は、二分法によらなくても、パラメータを決定することができる。パラメータ決定部13は、例えば以下のようにしてパラメータσを決定することができる。
maxu,v∈V(||u-v||1)をmと表記し、c=(k-1)/(|R|-1)とおけば、上記式(4)は、
c≦exp(-2m/σ)
ln c≦-2m/σ
σ≦-2m/ln c
と変形することができる。したがって、パラメータ決定部13は、数値計算である二分法を用いなくても例えば下記の式によりσを計算することができる。
【数15】
【0053】
パラメータ決定部13は、同様にして、属性値の種類の数が1以上である場合には、下記式によりσを計算することができる。
【数16】
【0054】
並替部14の処理は行わなくてもよい。この場合、データベースのレコードの並び替えは行われず、撹乱部12により撹乱されたデータベースが集計装置2に送信される。集計装置2は、受信した並び替えが行われていないデータベースに基づいて集計処理を行う。
撹乱部12が撹乱装置1に備えられ、集計部21が集計装置2に備えられていれば、他の各部はデータベース撹乱システムを構成する装置の何れに備えられていてもよい。
【0055】
例えば、図4に例示するように、パラメータ決定部13が集計装置2に備えられていてもよい。この場合、パラメータ決定部13により決定されたパラメータは、撹乱装置1に送信される。
【0056】
また、例えば、図5に示すように、データベース撹乱システムが、撹乱装置1、集計装置2及び撹乱データサーバ装置3から構成されている場合には、パラメータ決定部13が撹乱データサーバ装置3に備えられていてもよい。この場合、パラメータ決定部13により決定されたパラメータは撹乱装置1に送信され、撹乱装置1により撹乱されたデータベースは撹乱データサーバ装置3を経由して集計装置2に送信される。具体的には、撹乱データサーバ装置3のデータ送受信部31が、撹乱装置1により撹乱されたデータベースを受信して、集計装置2に送信する。
【0057】
また、図6に例示するように、データベース撹乱システムに、撹乱装置1及び集計装置2のそれぞれが複数備えられていてもよい。
データベース撹乱装置の各部間のデータの送受信は直接行われてもよいし、図示していない記憶部を介して行われてもよい。データベース撹乱システムの各装置間のデータの送受信は直接行われてもよいし、他の装置を経由して行われてもよい。
その他、この発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0058】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき各部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各部がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0059】
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0060】
[追加の変形例]
なお、確率密度関数Aa(p)v,v’は、例えば、下記式により定義される分散2σ2のラプラス分布による区間[α,β]の有界ノイズ関数、又は、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であってもよい。
【数17】
α,βはα<βの関係を満たす任意の実数である。例えば、定義域Vaの区間を[α,β]とする。
【0061】
ラプラス分布及び正規分布等の確率密度関数f(x)による区間[α,β]の有界ノイズ関数とは、γをγ∈[α,β]として、あるγに応じて定まるδγに対して、γ+xが区間[α,β]に属するxに対しては(すなわち、区間[α−γ,β−γ]のxに対しては)fγ(x)=f(x)/δγ、γ+xが区間[α,β]に属しないxに対しては(すなわち、区間[α−γ,β−γ]の範囲外のxに対しては)fγ(x)=0となる確率密度関数fγのことである。確率密度関数fγに従う値のことを、確率密度関数f(x)による有界ノイズと表現してもよい。
【0062】
確率密度関数Aa(p)v,v’が、分散2σ2のラプラス分布による区間[α,β]の有界ノイズ関数である場合には、パラメータ決定部13は、確率密度関数Aa(p)v,v’が分散2σ2のラプラス分布である場合と同様にして、パラメータであるσを定める。すなわち、この場合、パラメータ決定部13は、パラメータであるσを上記式(3)から(10)を満たすよう定める。
【0063】
また、確率密度関数Aa(p)v,v’が、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であり、属性値の種類の数が1である場合には、パラメータ決定部13は、下記式を満たすパラメータσを決定する。
【数18】
【0064】
また、確率密度関数Aa(p)v,v’が、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であり、属性値の種類の数が1以上である場合には、パラメータ決定部13は、下記式を満たすパラメータσを決定する。
【数19】
【0065】
さらに、第二実施形態において、確率密度関数Aa(p)v,v’が、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であり、属性値の種類の数が1以上である場合には、パラメータ決定部13は、上記式(8)から(10)に代えて、それぞれ下記式(8’)から(10’)を満たすパラメータを決定してもよい。
【数20】
【0066】
【数21】
【0067】
【数22】
【符号の説明】
【0068】
1 撹乱装置
11 データベース記憶部
12 撹乱部
13 パラメータ決定部
14 並替部
21 集計部
2 集計装置
【技術分野】
【0001】
この発明は、プライバシーを保護しながらデータマイニングを行う技術に関する。
【背景技術】
【0002】
いわゆるPk−匿名性を満たすデータベース撹乱技術及びそのデータベース撹乱技術で用いられるパラメータ決定技術が、特許文献1で提案されている(例えば、特許文献1参照。)。
Pk−匿名性は、データベースの各レコードと、その各レコードに対応する個人とを1/k以上の確率で結びつけることができないという性質である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2011−100116号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1の技術は属性値がいわゆるカテゴリ属性値であることを想定しており、属性値がいわゆる数値属性値である場合には非特許文献1の技術を適用することができない。
【0005】
この発明の課題は、属性値が数値属性値である場合にも適用することができる、Pk−匿名性を満たすデータベース撹乱パラメータ設定装置、方法及びプログラム並びにデータベース撹乱システムを提供することである。
【課題を解決するための手段】
【0006】
この発明の一態様によるデータベース撹乱装置は、テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることによりテーブルの撹乱を行うデータベース撹乱装置に用いられる、パラメータpを決定するデータベース撹乱パラメータ決定装置であって、下記式を満たすパラメータpを決定するパラメータ決定部を含む。
【0007】
【数1】
【発明の効果】
【0008】
属性値が数値属性値である場合にも適用することができる。
【図面の簡単な説明】
【0009】
【図1】第一実施形態のデータベース撹乱システムを説明するためのブロック図。
【図2】第一実施形態のデータベース撹乱システムを説明するための流れ図。
【図3】第二実施形態のデータベース撹乱システムを説明するための流れ図。
【図4】データベース撹乱システムの変形例を説明するためのブロック図。
【図5】データベース撹乱システムの変形例を説明するためのブロック図。
【図6】データベース撹乱システムの変形例を説明するためのブロック図。
【図7】第一実施形態で撹乱の対象となるデータベースの例を説明するための図。
【図8】第二実施形態で撹乱の対象となるデータベースの例を説明するための図。
【図9】第一実施形態のパラメータの決定方法を説明するための流れ図。
【図10】第二実施形態のパラメータの決定方法を説明するための流れ図。
【図11】第二実施形態のパラメータの決定方法を説明するための流れ図。
【発明を実施するための形態】
【0010】
以下、図面を参照して、この発明の実施形態を説明する。
【0011】
[第一実施形態]
第一実施形態のデータベース撹乱システムは、図1に例示するように、撹乱装置1及び集計装置2を備えている。
撹乱装置1は、データベース記憶部11と、撹乱部12と、パラメータ決定部13とを例えば備えている。この例では、撹乱部12は、並替部14を備える。パラメータ決定部13が、特許請求の範囲のデータベース撹乱パラメータ決定装置に対応している。
【0012】
集計装置2は、集計部21を例えば備えている。
データベース記憶部11には、撹乱の対象となるデータベースが記憶されている。データベース記憶部11に記憶されたデータベースについての情報は、撹乱部12に送信される。
データベースは、図7に例示するように、複数のレコードから構成されている。
【0013】
各レコードは、レコード識別子と少なくとも1つの属性値とから構成されている。レコード識別子は、個人を識別する識別子であり、いわゆるレコードIDである。レコード識別子は、例えば氏名や氏名に対応するID番号である。
各属性値は、第一実施形態では、n次元実数ベクトルの部分集合Vに含まれるベクトルであり、いわゆる数値属性値である。nは、1以上の整数である。n=1であり属性が例えば「中間テストの点数」や「期末テストの点数」である場合には、属性値は0から100までの何れかの整数である。
【0014】
撹乱部12は、データベース記憶部11から読み込んだデータベースに含まれる一部又は全部の属性値のそれぞれについて、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行うことによりデータベースの撹乱を行う(ステップS1)。撹乱されたデータベースは、並替部14に送信される。撹乱の対象となる属性値が複数ある場合には、それらの複数の属性値を独立に撹乱してもよいし、従属に撹乱してもよい。
【0015】
確率密度関数Aa(p)v,v’に基づく撹乱とは、例えばデータベース記憶部11から読み込んだデータベースに含まれる一部又は全部の属性値のそれぞれについて、確率密度関数Aa(p)v,v’に従う値を加算することや、後述する維持確率ρの維持−置換撹乱を行うことを意味する。
【0016】
確率密度関数Aa(p)v,v’は、例えば下記式により定義される平均μであり分散2σ2のラプラス分布である。この場合、所定のパラメータpは、σである。
【数2】
||・||1は・のいわゆるL1ノルムである。
【0017】
例えば、μ=0とする。この場合、撹乱部12が用いるラプラス分布は以下のようになる。
【数3】
【0018】
以下、「ラプラス分布に従う値」について説明する。まず、ラプラス分布を含む一般の確率密度関数fに従う値について説明する。ここでは表記の簡略化のために、確率密度関数fと書く。確率密度関数fは上記確率密度関数Aa(p)v,v’と同じと考えてよい。
1.「確率密度関数fに従う値」について
(1)確率密度関数fの定義域及び属性値が1次元の場合
(i)累積分布関数F(x)=∫−∞xf(x’)dx’を求める。
(ii)累積分布関数F(x)の逆関数F−1を求める。
(iii)区間[0,1]上の一様乱数rを生成する。
(iv)F−1(r)を「確率密度関数fに従う値」として出力する。
累積分布関数F(x)や逆関数F−1が数式で得られる場合にはその数式に基づいてF−1(r)を計算してもよいし、そうでない場合には数値計算によってF−1(r)を計算してもよい。
【0019】
(2)確率密度関数fの定義域及び属性値がn次元の場合
i=0,…,n−1のそれぞれに対して、以下の(i)(ii)を行う。
(i)x0からxi−1までを固定し、xi+1からxn−1までを積分し、xiだけを変数として残した確率密度関数fiを求める。
【数4】
(ii)確率密度関数fiの定義域は1次元なので、上記「(1)確率密度関数fの定義域及び属性値が1次元の場合」で示した方法と同様の方法により、「確率密度関数fiに従う値」を計算する。
i=0,…,n−1のそれぞれに対して「確率密度関数fiに従う値」を計算することにより、n個の「確率密度関数fiに従う値」が得られる。
【0020】
上記の方法を、確率密度関数がラプラス分布の場合に当てはめると以下のようになる。
2.「ラプラス分布に従う値」について
(1)ラプラス分布の定義域及び属性値が1次元の場合
(i)区間[0,1]上の一様乱数r、区間(0,1)上の一様乱数bを生成する。
(ii)(−1)bσlogr+μを「ラプラス分布に従う値」として出力する。
【0021】
(2)ラプラス分布の定義域及び属性値がn次元の場合
(i)上記「(1)ラプラス分布の定義域及び属性値が1次元の場合」で示した方法と同様の方法により、n個の「ラプラス分布に従う値」であるx0,x1,…,xn−1を計算する。
(ii)これらのx0,x1,…,xn−1を「ラプラス分布に従う値」として出力する。
【0022】
並替部14は、撹乱部12により撹乱されたデータベースに含まれるレコードの順序を並び替える(ステップS2)。レコードが並び替えられたデータベースは、集計装置2に送信される。
【0023】
並び替えの対象となるのは、データベースに含まれる全部又は一部のレコードである。レコードの並び替えは、一様ランダムに行われてもよいし、ランダムに行われてもよいし、一部又は全部の属性値についての昇順、降順等の所定の並替規則に基づいて行われてもよい。
【0024】
パラメータ決定部13は、撹乱部2のステップS0の処理の前に、パラメータpを決定する(ステップS0)。決定されたパラメータpは、撹乱部2に送信される。
【0025】
例えば、確率密度関数Aa(p)v,v’が一般の確率密度関数であり、属性値の数が1である場合には、パラメータ決定部13は、パラメータpを以下の式(1)を満たすように決定する。kはセキュリティパラメータであり、|R|はデータベースのレコードの数であり、ess inf・は・の本質的下限である。撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’とする。
【数5】
【0026】
関数f(x)の定義域をχとすると、関数f(x)の本質的下限ess inf f(x)は、具体的には以下のように書ける。μ({f<b})を、関数f(x)<bとなる領域の測度(例えば、面積又は体積)とする。下記式のRは実数を意味する。
【数6】
【0027】
例えば、確率密度関数Aa(p)v,v’が一般の確率密度関数であり、属性値の数が1以上である場合には、パラメータ決定部13は、パラメータpを以下の式(2)を満たすように決定する。属性aに対応する確率密度関数をAa(p)v,v’として、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとする。
【数7】
【0028】
例えば、確率密度関数A(p)v,v’が平均μであり分散2σ2のラプラス分布であり、属性値の種類の数が1である場合には、パラメータ決定部13は、パラメータであるσを下記式(3)又は(4)を満たすよう定める。
【数8】
【0029】
属性値の種類の数が1以上である場合には、パラメータ決定部13は、パラメータであるσを下記式(5)又は(6)を満たすように定める。
【数9】
【0030】
パラメータ決定部13は、例えばいわゆる二分法により、上記式(1)から(6)の何れかを満たすパラメータp又はσを決定する。以下、図9を参照して、確率密度関数Aa(p)v,v’が平均μであり分散2σ2のラプラス分布であり、属性値の種類の数が1である場合を例に挙げて、二分法を用いてこの場合のパラメータであるσを決定する方法を説明する。
【0031】
まず、パラメータ決定部13は、σ=1とする(ステップS01)。
【0032】
パラメータ決定部13は、下記式(7)によりk’を計算する(ステップS02)。下記式(7)は、上記式(4)に対応するものである。
【数10】
【0033】
パラメータ決定部13は、計算されたk’と所望のkとを比較する(ステップS03)。
パラメータ決定部13は、k’がk以上であれば、σmax=σとする(ステップS04)。すなわち、σの値を、変数σmaxに代入する。その後、ステップS06に進む。
【0034】
パラメータ決定部13は、k’がk以上でなければ、σ=2σとする(ステップS05)。すなわち、現在のσの値を2倍した値を新たなσの値とする。その後、ステップS02に進む。
パラメータ決定部13は、区間[0,σmax]で、上記式(7)を評価式とする二分法によりkが所望の値になるまで反復計算して最適なσを求める(ステップS06)。
【0035】
このようにして撹乱されたデータベースは、いわゆるPk−匿名性を満たす。ここでは、その証明を省略する。Pk−匿名性は、データベースの各レコードと、その各レコードに対応する個人とを1/k以上の確率で結びつけることができないという性質である。
したがって、このようにして撹乱されたデータベースは、Pk−匿名性という明確な基準で匿名性が保障される。また、撹乱前のデータベース及び撹乱後のデータベースを用いずに匿名性を保障することができる。
【0036】
集計部21は、撹乱装置1により撹乱されたデータベースを用いて集計処理を行う(ステップS3)。集計部21は、例えば、参考文献1に記載された反復ベイズ手法等を用いて、クロス集計等の集計結果を推定する。
〔参考文献1〕
五十嵐大,外2名,「多値属性に適用可能な効率的プライバシー保護クロス集計」,コンピュータセキュリティシンポジウム2008
【0037】
[第二実施形態]
第一実施形態は、データベースの全ての属性値がいわゆる数値属性値である場合のデータベース撹乱システムであった。これに対して、第二実施形態は、データベースの属性値がいわゆるカテゴリ属性値を含む場合のデータベース撹乱システムである。第二実施形態で撹乱の対象となるデータベースの例を図8に示す。
カテゴリ属性値とは、例えば性別等の属性値であり、数値属性値とは異なり属性値の取り得る値がいくつかに制限されている属性値のことである。
【0038】
以下、第一実施形態と異なる部分を中心に説明する。第一実施形態と同様の部分については説明を省略する。
第二実施形態の撹乱部12は、図2のステップS1に代えて、図3のステップS10,S1,S11の処理を行う。
【0039】
撹乱部12は、まず、データベース記憶部11から読み込んだデータベースに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値がカテゴリ属性値であるか判定する(ステップS10)。
【0040】
属性値がカテゴリ属性値でない場合には、すなわち数値属性値である場合には、撹乱部12は、第一実施形態と同様の方法によりラプラス分布に従う値の加算を行う(ステップS1)。
属性値がカテゴリ属性値である場合には、撹乱部12は、その属性値を所定の確率で他のカテゴリ属性値に置換する(ステップS11)。具体的には、いわゆる維持確率ρの維持−置換撹乱を行う。
【0041】
維持確率ρの維持−置換撹乱は、維持確率ρが予め定められているとして、維持確率ρでその属性値を変更せずに維持し、1−ρの確率でその属性値を他のカテゴリ属性値に置換する撹乱方法である。他のカテゴリ属性値に置換するとは、例えば属性が性別であり属性値が「男」である場合には、その属性値「男」を属性値「女」に置換することを意味する。維持確率ρの維持−置換撹乱の詳細については、特許文献1を参照のこと。
【0042】
確率密度関数Aa(p)v,v’が平均μ分散2σ2のラプラス分布であり、属性の種類の数が2以上である場合には、パラメータ決定部13は、パラメータであるσ及び維持確率ρは下記式(8)を満たすように決定する。|Va|は、属性aのカテゴリ属性値の取り得る値の数である。
【数11】
【0043】
kという1つのパラメータからσ及びρの2つのパラメータを決定する場合には、σ=f(ρ)というρからσが定まる関数、又は、ρ=g(σ)というσからρが定まる関数を予め定めておいて、σ及びρを1つのパラメータに基づくものと見なしてσ及びρを決定する。
【0044】
まず、例えばσ=f(ρ)=tan((π/4)(1−ρ))とした場合の説明をする。この場合のkの評価式は、以下のようになる。
【数12】
この場合、図10に示すように、パラメータ決定部13は、まず区間[0,1]で、評価式を上記式(9)とする二分法によりkが所望の値となるまで反復計算して最適なρを求める(ステップS07)。
【0045】
その後、パラメータ決定部13は、求まったρに基づいて、σ=f(ρ)=tan((π/4)(1−ρ))を計算する(ステップS08)。
【0046】
つぎに、例えばρ=g(σ)=fL0,1/2(σ)とした場合を説明する。fL0,1/2(σ)は、以下のように定義される。
【数13】
【0047】
この場合のkの評価式は、以下のようになる。
【数14】
この場合、図11に示すように、まず、パラメータ決定部13は、第一実施形態のステップS01からステップS6と同様の方法により、適切なσを決定する。
【0048】
すなわち、パラメータ決定部13は、σ=1とする(ステップS01)。
パラメータ決定部13は、上記式(9)によりk’を計算する(ステップS02)。
パラメータ決定部13は、計算されたk’と所望のkとを比較する(ステップS03)。
パラメータ決定部13は、k’がk以上であれば、σmax=σとする(ステップS04)。すなわち、σの値を、変数σmaxに代入する。その後、ステップS06に進む。
【0049】
パラメータ決定部13は、k’がk以上でなければ、σ=2σとする(ステップS05)。すなわち、現在のσの値を2倍した値を新たなσの値とする。その後、ステップS02に進む。
パラメータ決定部13は、区間[0,σmax]で、上記式(10)を評価式とする二分法によりkが所望の値になるまで反復計算して最適なσを求める(ステップS06)。
【0050】
その後、パラメータ決定部13は、求まったσに基づいて、ρ=g(σ)=fL0,1/2(σ)を計算する(ステップS09)。
このようにして撹乱されたデータベースは、第一実施形態と同様に、いわゆるPk−匿名性を満たす。ここでは、その証明を省略する。
【0051】
したがって、このようにして撹乱されたデータベースは、第一実施形態と同様に、Pk−匿名性という明確な基準で匿名性が保障される。また、撹乱前のデータベース及び撹乱後のデータベースを用いずに匿名性を保障することができる。
【0052】
[変形例等]
パラメータ決定部13は、二分法によらなくても、パラメータを決定することができる。パラメータ決定部13は、例えば以下のようにしてパラメータσを決定することができる。
maxu,v∈V(||u-v||1)をmと表記し、c=(k-1)/(|R|-1)とおけば、上記式(4)は、
c≦exp(-2m/σ)
ln c≦-2m/σ
σ≦-2m/ln c
と変形することができる。したがって、パラメータ決定部13は、数値計算である二分法を用いなくても例えば下記の式によりσを計算することができる。
【数15】
【0053】
パラメータ決定部13は、同様にして、属性値の種類の数が1以上である場合には、下記式によりσを計算することができる。
【数16】
【0054】
並替部14の処理は行わなくてもよい。この場合、データベースのレコードの並び替えは行われず、撹乱部12により撹乱されたデータベースが集計装置2に送信される。集計装置2は、受信した並び替えが行われていないデータベースに基づいて集計処理を行う。
撹乱部12が撹乱装置1に備えられ、集計部21が集計装置2に備えられていれば、他の各部はデータベース撹乱システムを構成する装置の何れに備えられていてもよい。
【0055】
例えば、図4に例示するように、パラメータ決定部13が集計装置2に備えられていてもよい。この場合、パラメータ決定部13により決定されたパラメータは、撹乱装置1に送信される。
【0056】
また、例えば、図5に示すように、データベース撹乱システムが、撹乱装置1、集計装置2及び撹乱データサーバ装置3から構成されている場合には、パラメータ決定部13が撹乱データサーバ装置3に備えられていてもよい。この場合、パラメータ決定部13により決定されたパラメータは撹乱装置1に送信され、撹乱装置1により撹乱されたデータベースは撹乱データサーバ装置3を経由して集計装置2に送信される。具体的には、撹乱データサーバ装置3のデータ送受信部31が、撹乱装置1により撹乱されたデータベースを受信して、集計装置2に送信する。
【0057】
また、図6に例示するように、データベース撹乱システムに、撹乱装置1及び集計装置2のそれぞれが複数備えられていてもよい。
データベース撹乱装置の各部間のデータの送受信は直接行われてもよいし、図示していない記憶部を介して行われてもよい。データベース撹乱システムの各装置間のデータの送受信は直接行われてもよいし、他の装置を経由して行われてもよい。
その他、この発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0058】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき各部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各部がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0059】
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0060】
[追加の変形例]
なお、確率密度関数Aa(p)v,v’は、例えば、下記式により定義される分散2σ2のラプラス分布による区間[α,β]の有界ノイズ関数、又は、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であってもよい。
【数17】
α,βはα<βの関係を満たす任意の実数である。例えば、定義域Vaの区間を[α,β]とする。
【0061】
ラプラス分布及び正規分布等の確率密度関数f(x)による区間[α,β]の有界ノイズ関数とは、γをγ∈[α,β]として、あるγに応じて定まるδγに対して、γ+xが区間[α,β]に属するxに対しては(すなわち、区間[α−γ,β−γ]のxに対しては)fγ(x)=f(x)/δγ、γ+xが区間[α,β]に属しないxに対しては(すなわち、区間[α−γ,β−γ]の範囲外のxに対しては)fγ(x)=0となる確率密度関数fγのことである。確率密度関数fγに従う値のことを、確率密度関数f(x)による有界ノイズと表現してもよい。
【0062】
確率密度関数Aa(p)v,v’が、分散2σ2のラプラス分布による区間[α,β]の有界ノイズ関数である場合には、パラメータ決定部13は、確率密度関数Aa(p)v,v’が分散2σ2のラプラス分布である場合と同様にして、パラメータであるσを定める。すなわち、この場合、パラメータ決定部13は、パラメータであるσを上記式(3)から(10)を満たすよう定める。
【0063】
また、確率密度関数Aa(p)v,v’が、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であり、属性値の種類の数が1である場合には、パラメータ決定部13は、下記式を満たすパラメータσを決定する。
【数18】
【0064】
また、確率密度関数Aa(p)v,v’が、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であり、属性値の種類の数が1以上である場合には、パラメータ決定部13は、下記式を満たすパラメータσを決定する。
【数19】
【0065】
さらに、第二実施形態において、確率密度関数Aa(p)v,v’が、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であり、属性値の種類の数が1以上である場合には、パラメータ決定部13は、上記式(8)から(10)に代えて、それぞれ下記式(8’)から(10’)を満たすパラメータを決定してもよい。
【数20】
【0066】
【数21】
【0067】
【数22】
【符号の説明】
【0068】
1 撹乱装置
11 データベース記憶部
12 撹乱部
13 パラメータ決定部
14 並替部
21 集計部
2 集計装置
【特許請求の範囲】
【請求項1】
テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、上記テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行うデータベース撹乱装置に用いられる、上記パラメータpを決定するデータベース撹乱パラメータ決定装置において、
下記式を満たすパラメータpを決定するパラメータ決定部
【数23】
を含むデータベース撹乱パラメータ決定装置。
【請求項2】
請求項1のデータベース撹乱パラメータ決定装置において、
α,βをα<βの関係を満たす任意の実数とし、上記定義域Vaは区間[α,β]であるとして、
上記確率密度関数Aa(p)v,v’は、下記式により定義される分散2σ2のラプラス分布又はそのラプラス分布による区間[α,β]の有界ノイズ関数であるとし、上記パラメータpは上記σであるとし、||・||1を・のL1ノルムとして、
【数24】
上記パラメータ決定部は、下記式を満たすパラメータσを決定する、
【数25】
データベース撹乱パラメータ決定装置。
【請求項3】
請求項2のデータベース撹乱パラメータ決定装置において、
上記データベース撹乱装置は、上記それぞれの属性値の属性aがカテゴリ属性である場合には、上記それぞれの属性値vを所定の確率1−ρで他のカテゴリ属性値に置換し、
上記パラメータpは、上記σ及び上記ρであり、
|Va|を属性aのカテゴリ属性値の取り得る値の数として、上記パラメータ決定部は、下記式を満たすパラメータσ及びρを決定する、
【数26】
データベース撹乱パラメータ決定装置。
【請求項4】
請求項1のデータベース撹乱パラメータ決定装置において、
α,βをα<βの関係を満たす任意の実数とし、上記定義域Vaは区間[α,β]であるとして、
上記確率密度関数Aa(p)v,v’は、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であるとし、上記パラメータpは上記σであるとし、||・||1を・のL1ノルムとして、
上記パラメータ決定部は、下記式を満たすパラメータσを決定する、
【数27】
データベース撹乱パラメータ決定装置。
【請求項5】
請求項4のデータベース撹乱パラメータ決定装置において、
上記データベース撹乱装置は、上記それぞれの属性値の属性aがカテゴリ属性である場合には、上記それぞれの属性値vを所定の確率1−ρで他のカテゴリ属性値に置換し、
上記パラメータpは、上記σ及び上記ρであり、
|Va|を属性aのカテゴリ属性値の取り得る値の数として、上記パラメータ決定部は、下記式を満たすパラメータσ及びρを決定する、
【数28】
データベース撹乱パラメータ決定装置。
【請求項6】
テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、上記テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行うデータベース撹乱装置に用いられる、上記パラメータpを決定するデータベース撹乱パラメータ決定方法において、
パラメータ決定部が、下記式を満たすパラメータpを決定するパラメータ決定ステップ、
【数29】
を含むデータベース撹乱パラメータ決定方法。
【請求項7】
請求項1から5のデータベース撹乱パラメータ決定装置と、
上記データベース撹乱装置と、
を含むデータベース撹乱システム。
【請求項8】
請求項1から5の何れかのデータベース撹乱パラメータ決定装置の各部としてコンピュータを機能させるためのプログラム。
【請求項1】
テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、上記テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行うデータベース撹乱装置に用いられる、上記パラメータpを決定するデータベース撹乱パラメータ決定装置において、
下記式を満たすパラメータpを決定するパラメータ決定部
【数23】
を含むデータベース撹乱パラメータ決定装置。
【請求項2】
請求項1のデータベース撹乱パラメータ決定装置において、
α,βをα<βの関係を満たす任意の実数とし、上記定義域Vaは区間[α,β]であるとして、
上記確率密度関数Aa(p)v,v’は、下記式により定義される分散2σ2のラプラス分布又はそのラプラス分布による区間[α,β]の有界ノイズ関数であるとし、上記パラメータpは上記σであるとし、||・||1を・のL1ノルムとして、
【数24】
上記パラメータ決定部は、下記式を満たすパラメータσを決定する、
【数25】
データベース撹乱パラメータ決定装置。
【請求項3】
請求項2のデータベース撹乱パラメータ決定装置において、
上記データベース撹乱装置は、上記それぞれの属性値の属性aがカテゴリ属性である場合には、上記それぞれの属性値vを所定の確率1−ρで他のカテゴリ属性値に置換し、
上記パラメータpは、上記σ及び上記ρであり、
|Va|を属性aのカテゴリ属性値の取り得る値の数として、上記パラメータ決定部は、下記式を満たすパラメータσ及びρを決定する、
【数26】
データベース撹乱パラメータ決定装置。
【請求項4】
請求項1のデータベース撹乱パラメータ決定装置において、
α,βをα<βの関係を満たす任意の実数とし、上記定義域Vaは区間[α,β]であるとして、
上記確率密度関数Aa(p)v,v’は、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であるとし、上記パラメータpは上記σであるとし、||・||1を・のL1ノルムとして、
上記パラメータ決定部は、下記式を満たすパラメータσを決定する、
【数27】
データベース撹乱パラメータ決定装置。
【請求項5】
請求項4のデータベース撹乱パラメータ決定装置において、
上記データベース撹乱装置は、上記それぞれの属性値の属性aがカテゴリ属性である場合には、上記それぞれの属性値vを所定の確率1−ρで他のカテゴリ属性値に置換し、
上記パラメータpは、上記σ及び上記ρであり、
|Va|を属性aのカテゴリ属性値の取り得る値の数として、上記パラメータ決定部は、下記式を満たすパラメータσ及びρを決定する、
【数28】
データベース撹乱パラメータ決定装置。
【請求項6】
テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、上記テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行うデータベース撹乱装置に用いられる、上記パラメータpを決定するデータベース撹乱パラメータ決定方法において、
パラメータ決定部が、下記式を満たすパラメータpを決定するパラメータ決定ステップ、
【数29】
を含むデータベース撹乱パラメータ決定方法。
【請求項7】
請求項1から5のデータベース撹乱パラメータ決定装置と、
上記データベース撹乱装置と、
を含むデータベース撹乱システム。
【請求項8】
請求項1から5の何れかのデータベース撹乱パラメータ決定装置の各部としてコンピュータを機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2013−101324(P2013−101324A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2012−224743(P2012−224743)
【出願日】平成24年10月10日(2012.10.10)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願日】平成24年10月10日(2012.10.10)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]