説明

複数データベースのための差分プライバシー集合分類器

【課題】1組のデータベースのための差分プライバシー集合分類器を求めるためのシステムを提供する。
【解決手段】1組のデータベース110内の各データベース120、130は分類器121、131及び雑音値122、132に関連付けられる。該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが該データベースの差分データプライバシーを保証するように、データベース毎にローカルに求められる。差分プライバシー集合分類器は、1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて変更された、該1組のデータベースの分類器の組み合わせであり、各データベースの差分データプライバシーを保護する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は包括的には差分データプライバシー(differential data privacy)に関し、より詳細には、複数データベースのための差分プライバシー集合分類器(differentially private aggregate classifier)を求めることに関する。
【背景技術】
【0002】
データ収集は種々の学問、産業、商業及び政治目的のための情報を提供する。たとえば、データ収集は社会学研究、市場調査及び国勢調査において必要である。収集されたデータの有用性を最大にするために、全てのデータを蓄積し、如何なるプライバシーコントロールも用いることなく、解析のために利用されるようにすることができる。当然、大部分の人々及び組織(「プライバシー当事者」)は、データが容易に交換され、許可されない人がアクセスできるときに特に、全てのデータを開示することを好まない。プライバシーを保証することは、プライバシー当事者がデータを快く提供できるようにし、かつ不正行為、個人情報盗難、脅迫、及び十分なプライバシー保護を用いることなくデータを共有することから生じる可能性がある他の問題を軽減することができる。
【0003】
プライバシーを保護するための方法は、収集されたデータに関して実行されたクエリ(問合せ)の集合的結果を計算し、関与しているプライバシー当事者の入力を開示することなく、そのような集合的結果を開示することである。たとえば、医療データベースにクエリして、データベース内の何人がHIV陽性であるかを判断することができる。HIV陽性の個人の名前を開示することなく、HIV陽性の全人数を開示することができる。このようにして、当事者のプライバシーを明示的に或る程度まで保護しながら、有用なデータが抽出される。
【0004】
しかしながら、敵対者は種々の技法を適用して、医療データベースからHIV陽性である可能性が高い1組の個人を予測するか、又はその範囲を絞ることができる。たとえば、敵対者は、HIVを有しかつジョンスミスという名前でない人の数を尋ねる別のクエリを実行する可能性がある。その後、その敵対者は、第1のクエリ出力から第2のクエリ出力を引くことができ、それにより、プライバシー当事者の名前に関してデータベースに直に尋ねることなく、ジョンスミスのHIV状態を突き止めることができる。機密に関わるデータの場合、検証可能なプライバシー保証を提供することが有用である。たとえば、最初に知られていたこと以外に、いかなる特定のプライバシー当事者に関しても何も探り出すことができないことを検証可能に保証することが有用であろう。
【0005】
クエリ出力に雑音を付加することによって、当事者のプライバシーを高めることができる。上記の例を用いるとき、HIV陽性当事者の開示される数に或る乱数を付加することができる。その雑音は開示された出力の精度を低下させることになるが、それに応じてプライバシーに関する利益があるので、この損失を正当化することができる。
【0006】
クエリ結果に雑音を付加して当事者のプライバシーを保護するという概念は一般的に知られている。1つの方法は、付加された雑音を用いて個々のデータインスタンスのプライバシーを保護するために差分プライバシー分類器を用いる。或るデータベース内の任意の個々のデータインスタンスの存否に関わらず、分類器が特定の出力を生成する確率が概ね同じであるなら、そのデータベースに関して評価される分類器は、差分プライバシーを満たすと言われる。
【0007】
しかしながら、従来の差分プライバシー分類器は、データベース毎にローカルに求められ、その分類器を複数のデータベースにわたって用いる必要があるとき、プライバシーを提供できない。したがって、1組のデータベースに対して、各データベースの差分データプライバシーを保護するそのような分類器を求める必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0008】
差分プライバシーが、分類器の出力が個々のデータインスタンスについての情報を含まないという統計的保証を提供する。しかしながら、マルチパーティーの応用例では、分類器を求めるためのデータがいくつかのデータベースにわたって分散され、従来の差分プライバシー法は、複数の寄与しているパーティーのための差分データプライバシーを保護しない。
【0009】
これは、従来の方法が本来、分類器がデータベースの全データへのアクセスに基づいて求められ、データに関して計算された雑音値によって分類器を変更して、そのデータに専用の差分プライバシー分類器を生成するように設計されるためである。しかしながら、マルチパーティーの応用例では、セキュリティ制約に起因して、多くの場合に、異なるデータベースのデータにアクセスすることはできない。
【0010】
この発明の実施の形態は、1組のデータベースについて、データベースのデータへのアクセスを許可することなく、1組のデータベース内の個々のデータベースの分類器及び雑音値から、各データベースの差分データプライバシーを保護する差分プライバシー集合分類器を求めることができるという認識に基づいている。
【0011】
しかしながら、マルチパーティーの応用例では、分類器に雑音値を付加することはもはや簡単ではない。これは、雑音を付加した結果として各データベースの差分データプライバシーが達成されるという保証がないためである。たとえば、全ての分類器及び雑音値の集合は、論理的手法と見なされることになり、組み合わせられたデータに対する差分プライバシーを満たさない。
【0012】
この発明の実施の形態は、1組のデータベース内の最も小さなデータベースに対応する雑音値によって変更される各データベースの分類器の集合として、差分プライバシー集合分類器を求めることができるという別の認識に基づいている。最も小さなデータベースは、最も少ないエントリ数を有し、各エントリのデータ構造は全てのデータベースにわたって同じである。この認識が正しいことの裏付けは、付録において提供される。
【課題を解決するための手段】
【0013】
したがって、この発明の1つの実施の形態は、1組のデータベースのための差分プライバシー集合分類器を求めるための方法であって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが前記データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は各前記データベースの前記差分データプライバシーを保護し、該方法は、各前記データベースの前記分類器を組み合わせて集合分類器を求めるステップと、前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて前記集合分類器を変更するステップとを含み、前記最も小さなデータベースは最も少ないエントリ数を有し、各エントリのデータ構造は全てのデータベースについて同じである、方法を開示する。
【0014】
さらに、この発明の種々の実施の形態は、暗号プロトコルを用いてセキュア(安全)に差分プライバシー集合分類器を求める。それらの実施の形態は、各データベースのデータがいかなる他のパーティーとも共有されないこと、及び差分プライバシー集合分類器をリバースエンジニアリングによって解析していかなるデータベースのいかなる個々のデータも突き止めることができないことを保証する。
【0015】
別の実施の形態は、1組のデータベースのための差分プライバシー集合分類器を求めるためのシステムであって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが該データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は各前記データベースの前記差分データプライバシーを保護し、該システムは、前記分類器を組み合わせて集合分類器を求める手段と、前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて前記集合分類器を変更して、前記差分プライバシー集合分類器を生成する手段とを備える、システムを開示する。
【0016】
さらに別の実施の形態は、1組のデータベースのための差分プライバシー集合分類器を格納するコンピューター読み取り可能な記憶媒体であって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが前記データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は、前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて変更された、該1組のデータベースの前記分類器の組み合わせである、コンピューター読み取り可能な記憶媒体を開示する。
【発明の効果】
【0017】
この発明の実施の形態は、差分プライバシー集合分類器を求め、複数データベースの差分プライバシーを保証する。この発明は、マルチパーティー差分プライバシーを達成するのに、最も小さなデータベースのサイズに基づいて確率的成分を選択すれば十分であるという認識に基づいている。いくつかの実施の形態は、この認識のために、SMC法を介して雑音値の選択をセキュアに実行することができることをさらに認めている。
【0018】
しかしながら、従来の方法とは異なり、それらの実施の形態は分類器を構成するのにSMCを使用しない。それゆえ、この発明の実施の形態は、組み合わせられたデータにおいて分類器を計算する任意のSMC法よりもはるかに簡単である。
【図面の簡単な説明】
【0019】
【図1】この発明による差分プライバシー集合分類器を求めるための方法のブロック図である。
【図2A】取り得る雑音値の指数分布のグラフである。
【図2B】取り得る雑音値の正規分布のグラフである。
【図2C】取り得る雑音値の混成分布のグラフである。
【図3】この発明の一実施の形態による、差分プライバシー集合分類器をセキュアに求めるための方法のブロック図である。
【発明を実施するための形態】
【0020】
定義
この発明の実施の形態を説明する際に、全体を通して(上記の説明も含む)以下の定義が適用可能である。
【0021】
「コンピューター」は、構造化された入力を受け取り、構造化された入力を所定の規則に従って処理し、処理結果を出力として生成することができる任意の装置を指している。コンピューターの例には、コンピューター;汎用コンピューター;スーパーコンピューター;メインフレーム;スーパーミニコンピューター;ミニコンピューター;ワークステーション;マイクロコンピューター;サーバー;双方向テレビ;コンピューター及び双方向テレビの種々の組み合わせ;並びにコンピューター及び/又はソフトウエアをエミュレートする専用ハードウエアが含まれる。コンピューターは単一のプロセッサ又は複数のプロセッサを有することができ、それらのプロセッサは並列に、かつ/又は非並列に動作することができる。また、コンピューターは、コンピューター間で情報を送信又は受信するためのネットワークを介して共に接続される2つ以上のコンピューターも指している。そのようなコンピューターの例には、ネットワークによってリンクされるコンピューターを介して情報を処理するための分散コンピューターシステムが含まれる。
【0022】
「中央演算装置(CPU)」又は「プロセッサ」は、ソフトウエア命令を読み出し、実行するコンピューター、又はコンピューターの構成要素を指している。
【0023】
「メモリ」又は「コンピューター可読媒体」は、コンピューターによってアクセス可能なデータを格納するための任意の記憶装置を指している。その例には、磁気ハードディスク;フロッピィディスク;CD−ROM又はDVDのような光ディスク;磁気テープ;メモリチップ;電子メールを送受信する際に、又はネットワークにアクセスする際に用いられるような、コンピューター可読電子データを搬送するために用いられる搬送波、並びにコンピューターメモリ、たとえば、ランダムアクセスメモリ(RAM)が含まれる。
【0024】
「ソフトウエア」は、コンピューターを動作させるための所定の規則を指している。ソフトウエアの例には、ソフトウエア;コードセグメント;命令;コンピュータープログラム;及びプログラムされたロジックが含まれる。インテリジェントシステムのソフトウエアは、自己学習できる場合もある。
【0025】
「モジュール」又は「ユニット」は、タスク又はタスクの一部を実行するコンピューター内の基本構成要素を指している。それはソフトウエア又はハードウエアのいずれかによって実装することができる。
【0026】
図1に示されるように、この発明の実施の形態は、1組のデータベース110のための差分プライバシー集合分類器170であって、該1組のデータベース内の各データベースの差分データプライバシーを保護するような差分プライバシー集合分類器170を求めるためのシステム及び方法100を開示する。この発明の実施の形態は、当該技術分野において既知であるように、メモリ及び入力/出力インターフェースを含むプロセッサ101によって実施することができる。
【0027】
1組のデータベース110内の各データベース120〜130は、分類器、たとえば、分類器121及び131、並びに雑音値、たとえば、雑音値122及び132に関連付けられる。たとえば、データベースはD、…、Dと表される。ただし、D=(x,y)|は1組のエントリxと、対応する2値ラベルyとを含む。分類器及び雑音値の組み合わせがデータベースの差分データプライバシー125又は135を保証するように、分類器及び雑音値はデータベース毎にローカルに求められる。「ローカルに求められる」は、分類器及び雑音値が、方法100の実行前に、又は実行と同時にデータベースの各所有者によって独立して求められることを意味する。
【0028】
通常、差分プライバシーを保証するために、雑音値はデータベースのサイズ123又は133に依拠してデータベースの全データエントリにわたって求められる。本明細書において用いられるときに、「データベースのサイズ」は、エントリの数に基づいている。エントリは任意のデータ構造を有することができる。しかしながら、各エントリのデータ構造は全てのデータベースにわたって同じである。エントリの例は、フィールド、表内の行、表自体、ファイル、又は別のデータベースである。
【0029】
この発明の実施の形態は、データベースの和集合D∪D…∪Dからの差分プライバシー集合分類器を、1組のデータベース内の最も小さなデータベースに対応する雑音値によって変更される各データベースの分類器の集合として求めることができるという認識に基づいている。最も小さなデータベースは最も少ないエントリ数を有し、各エントリのデータ構造は全てのデータベースについて同じである。この認識が正しいことの裏付けは、付録Aにおいて提供される。
【0030】
したがって、一実施の形態は、各データベースの分類器を組み合わせて、集合分類器145を求める(140)。さらに、それらの実施の形態は、最も小さなデータベースに対応する雑音値155を求める(150)。次に、雑音値155を用いて集合分類器145を変更し(160)、差分プライバシー集合分類器170を生成する。差分プライバシー集合分類器は公開され、たとえば、メモリ175に格納されるか、又はインターネット上で配布される。
【0031】
差分プライバシー
差分プライバシーモデルの定義によれば、1つの要素だけ異なる任意の2つのデータベースD及びD’、すなわち、隣接するデータベースが与えられたとすると、関数MがデータベースDにおいて応答Sを生成する確率が、関数MがデータベースD’において同じ応答Sを生成する確率と同様である場合には、ランダム化クエリ関数Mによって定義される分類器は差分プライバシーを有する。個々のエントリの存在又は不在時に、クエリ出力が高い確率で概ね同じであるので、出力からいかなる個々のエントリについてもほとんど何も突き止めることはできない。
【0032】
全ての隣接するデータベースD及びD’の場合に、かつ任意のS∈range(M)の場合に、以下の式が成り立つ場合には、明確な確率密度Pを有するランダム化関数Mは、ε差分プライバシーを満たす。
【0033】
【数1】

【0034】
したがって、差分プライバシー分類器は、アプリオリの背景知識以外に、学習アルゴリズムの出力から確信を持って個々のエントリについてのさらに詳しい事柄を得ることができないことを保証する。差分プライバシーは、特定の1組の攻撃及び敵対的挙動に対して「その場限りの(ad hoc)」保証を与える大部分の他のモデルとは対照的に、「全てに通じる(ad omina)」保証を与える。多数のエントリにわたって差分プライバシー分類器を評価しても、敵対者は、そのデータの厳密な形を突き止めることはできない。
【0035】
図2A〜図2Cは、横軸に沿って雑音値を、縦軸においてそのような雑音値に関連付けられた確率を示す。したがって、高い確率を有する雑音値が、選択される可能性が高い。それらの分布は全て、絶対値が大きくなると、所与の雑音値の確率が小さくなるという有益な特徴を共有する。過度に高い雑音値の確率が起こる可能性は小さいので、この特徴によれば、雑音を含む出力を有用にすることができる。
【0036】
図2Aは、雑音値の指数分布210を示す。図2Bは、雑音値の正規分布220を示す。図2Cは、雑音値の混成分布230を示す。図2Cの混成分布は、最も確からしい雑音値を含む分布の部分、すなわち、より高い確率を有する部分を正規分布が定義し、最も確からしくない雑音値を含む分布の部分、すなわち、より大きな絶対雑音値に対応する低い確率を有する部分を指数分布が定義するような、正規分布及び指数分布である。
【0037】
図2A〜図2Cにおいて各分布を計算する際に、差分直径240及びプライバシーパラメーターεを用いることができる。大きな差分直径値は分布を広くし、より高い雑音値が用いられる確率を高める。逆に、小さな差分直径は、大きな雑音値が選択される可能性を小さくする。プライバシーパラメーターが分布関数の分母にあるとき、小さい値のプライバシーパラメーターεが強いプライバシーに対応し、その逆も成り立つ。上記の例示的な式は満足できるものであり、それを用いて無限の様々な分布を構成することができ、それらの分布は差分直径測定値及びプライバシーパラメーターを利用して、満足できる雑音分布を作り出すのに成功する。たとえば、図2A〜図2Cにおいて示される分布に対して無数の小さな変更を加えることができる。
【0038】
通常、それらの分類器は、分類器の重みに雑音値を加算することによって、差分プライバシーを有するように設計される。ただし、雑音値は上記の分布から選択される。さらに、分布のパラメーターは、イプシロンεによって表される所望のプライバシー度に依存し、それは通常、データベースのサイズに、かつ分類器の関数のタイプ、たとえば、平均関数、最大関数又は対数関数に依存する。一実施の形態では、雑音値はラプラス分布を有する。
【0039】
個々のデータベースにおいて分類器をローカルに求める
各データベース所有者Pが、そのデータベース(x,y)|を用いて、重みwを有する分類器を求める。ただし、jはデータベースのインデックスである。一実施の形態は、分類器のために、正則化ロジスティック回帰関数l(エル)を用いる。たとえば、分類器wは、以下の目的関数を最小にすることによって求めることができる。
【0040】
【数2】

【0041】
ただし、λ>0は正則化パラメーターであり、Tは転置演算子である。しかしながら、それらの分類器は個々のデータベース毎にローカルに求められ、データ又は情報は共有されない。
【0042】
差分プライバシー集合分類器の例
この発明の一実施の形態は、以下の式に従って、差分プライバシー集合分類器w170を定義する。
【0043】
【数3】

【0044】
ただし、Kは1組のデータベース内のデータベースの数であり、jはデータベースのインデックスであり、ηはパラメーター2/(n(1)ελ)を用いてスケーリングされるラプラス(Lap)分布からサンプリングされるd次元確率変数であり、n(1)は最も小さなデータベースに対応する雑音値、すなわち、n(1)=minであり、λはラプラス分布のパラメーターであり、εは差分プライバシーパラメーターである。
【0045】
差分プライバシー集合分類器wは、パーティーがそのプライバシーを保持できるようにしながら、全てのデータの和集合において分類器を直にトレーニングすることによって、十分に制限された過剰リスクのみを受ける。雑音値ηは、分類器wが差分プライバシーを満たすことを、すなわち、分類器から個々のデータインスタンスを判別できないことを保証する。
【0046】
上記の雑音値ηの定義は直観的ではなく、この発明によれば、ローカルにトレーニングされた分類器を集めることによって構成された差分プライバシー集合分類器が、最も少ない数のエントリを有する個々の分類器の性能によって制限されることが証明された。
【0047】
ローカルにトレーニングされた分類器を集めても、差分プライバシーを保証する正しい雑音値
【0048】
【数4】

【0049】
を与えないので、この発明のいくつかの実施の形態は、データベースPの所有者は、単にそのような分類器wを取り込み、雑音ベクトルを用いてそれらの分類器を摂動させて、摂動した分類器を公開することはできないという認識に基づいている。また、個々のデータベース所有者は、他の全ての分類器に対して差分プライバシーを課すために、それらの分類器に単に雑音を加算することはできないので、個々の分類器、又は各データベース内のエントリの数が暴かれないように、実際の平均化演算を実行しなければならない。したがって、いくつかの実施の形態は、プロセッサとインタラクトして平均化を実行するために、セキュアマルチパーティー計算(SMC)法を用いる。その方法の結果として、データベース所有者のそれぞれが所望の差分プライバシー分類器wの加法的持分(additive share)を得るようになり、差分プライバシー集合分類器を得るために、これら持分を加算しなければならないようになっている。
【0050】
セキュアマルチパーティー計算(SMC)法
それらの実施の形態は、非対称鍵加法的準同型暗号化を用いる。そのような暗号化の所望の特性は、暗号文要素において実行される演算が同じ平文要素における既知の演算に写像することである。加法的準同型暗号化関数の場合、ξ(・)は、任意のa及びbに対して、ξ(a)ξ(b)=ξ(a+b)、ξ(a)=ξ(ab)であることを意味する。
【0051】
加法的準同型暗号化は強秘匿性であり、すなわち、同じ平文を繰返し暗号化しても、結果として、異なる暗号文が生成される。SMC法の場合、暗号鍵は、公開されていると考えられ、解読鍵は、指定されたデータベース所有者によって非公開で所有される。
【0052】
図3は、SMC法を用いて、差分プライバシー集合分類器170を求めるための方法300のブロック図を示す。その方法はプロセッサ301によって実行することができる。
【0053】
最も小さなデータベースの不明瞭化インデックスを求める
プロセッサは、データベースのインデックスの置換から生じる置換済みインデックス320に基づいて最も小さなデータベースの不明瞭化インデックス315を求める(310)。たとえば、各データベース所有者、すなわち、パーティーPが、n=a+bを計算する。ただし、a及びbはデータベース長nの加法的持分を表す整数であり、j=1、2、…、Kである。加法的持分のK長ベクトルはそれぞれa及びbと定義される。
【0054】
パーティーPは、インデックスベクトル(1,2,…,K)に関する置換πに互いに合意する。この置換はプロセッサには未知である。その後、各パーティーPは、その持分aを代表するパーティー
【0055】
【数5】

【0056】
に送信し、置換に従ってインデックスが変更されている自身の持分bをプロセッサに送信する。したがって、そのステップの後に、そのパーティーは、π(a)によって与えられる置換済み加法的持分を有し、一方、プロセッサは、置換済み加法的持分π(b)を有する。
【0057】
パーティーPは鍵対(pk,sk)を生成する。ただし、pkは準同型暗号化のための公開鍵であり、skはパーティーにのみ知られており、プロセッサには知られていない秘密解読鍵である。aの要素単位の暗号化はξ(a)と定義される。パーティーは、プロセッサに、ξ(π(a))=π(ξ(a))を送信する。
【0058】
プロセッサは、ランダムベクトルr=(r,r,…,r)を生成する。ただし、要素rは無作為に均等に選択される整数であり、同程度に正又は負である可能性がある。その後、プロセッサは、ξ(π(a))ξ(r)=ξ(π(a)+r)を計算する。ベクトル表記では、プロセッサはξ(π(a)+r)を計算する。
【0059】
同様に、受信された加法的持分と同じ順序において同じ乱数整数を減算することによって、プロセッサはπ(b)−rを得て、無作為に置換πを選択し、信号
【0060】
【数6】

【0061】
及び信号π(b)−r)を得る。プロセッサは信号ξ(π(b)+r))を個々のパーティーに順に、たとえば、第1のパーティーPに第1の要素を、第2のパーティーPに第2の要素を、第KのパーティーPに第Kの要素を送信する。
【0062】
各パーティーは、プロセッサから受信された信号を解読する。すなわち、パーティーP、P、…、Pはそれぞれ、ベクトルπ(a)+r)の要素を有し、一方、プロセッサはベクトルπ(b)−r)を有する。πはプロセッサには未知であり、πはパーティーには未知であるので、両方のベクトル内のインデックスは不明瞭化される。
【0063】
【数7】

【0064】
かつ
【0065】
【数8】

【0066】
である場合には、以下の式が成り立つ。
【0067】
【数9】

【0068】
(i,j)対毎に(ただし、i、j∈{1、2、…、K})、セキュアな億万長者プロトコルを実施することによって、これらの比較を解くことができる。全ての比較が行われたとき、プロセッサは、
【0069】
【数10】

【0070】
が成り立つようなインデックス
【0071】
【数11】

【0072】
325を求める。しかしながら、最も小さなデータセットに対応する真のインデックスは不明瞭化される。
【0073】
最も小さなデータベースの雑音値の第1の加法的持分をオブリビアスに(obliviously:気付かずに)選択する
不明瞭化インデックス315に基づいて、プロセッサは、全ての雑音値の加法的持分340から、最も小さなデータベースに関連付けられた雑音値の第1の加法的持分335をオブリビアスに選択する(330)。最も小さなデータベースに関連付けられた雑音値の第2の加法的持分360が1つ又は複数のデータベースによって格納される。
【0074】
たとえば、プロセッサは、
【0075】
【数12】

【0076】
であり、かつ他の全ての要素が0であるような、長さKのインジケーターベクトルuを構成する。その後、プロセッサは、インジケーターベクトルを置換して、置換済みベクトルπ−1(u)を生成する。ただし、π−1はπを反転する。次に、プロセッサは、加法的準同型関数ζ(・)のための鍵対(pk’,sk’)を生成し、パーティーPにζ(π−1(u))=π−1(ζ(u))を送信する。ただし、暗号鍵pk’だけが、パーティーPが利用できるように公開される。
【0077】
パーティーは、置換済みベクトルπ−1−1(ζ(u)))=ζ(v)を互いに入手する。ただし、π−1は、パーティーPによって当初に適用された置換πを反転し、vは基底ベクトルである。ここで両方の置換が除去されたので、インジケーターベクトルv内の0以外の要素のインデックスは、最も小さなデータベースの真のインデックスに対応する。しかしながら、パーティーPはζ(・)を解読することができないので、パーティーはこのインデックスを見つけ出すことはできない。
【0078】
j=1、…、Kについて、パーティーPは雑音値ηを選択する。一実施の形態では、雑音値は、パラメーター2/(nελ)を有するラプラス(Lap)分布からサンプリングされるd次元雑音ベクトルである。別の実施の形態では、異なる分布から雑音ベクトルが選択される。さらに別の実施の形態では、雑音ベクトルは予め決定される。その後、パーティーはd次元ベクトルΨを入手する。ただし、i=1、…、dについて、以下の式が成り立つ。
【0079】
【数13】

【0080】
全てのパーティーPが、i=1、…、dについて、以下の式が成り立つようなd次元雑音ベクトルΨを計算する。
【0081】
【数14】

【0082】
構成によって、上記の式は、他の全てのデータベースのための雑音値を拒否しながら、最も小さなデータベースのための雑音値のみを選択する。これは、vが最も小さなデータベースに対応するインデックスにおいて値1を有する要素を有し、他の全ての場所において0を有するためである。
【0083】
パーティーのうちの1つ、たとえば、Pが、d次元乱数整数雑音ベクトルSを生成し、それにより、全てのi=1、…、dについて第1の加法的持分335ψ(i)ζ(s(i))を生成し、第1の加法的持分をプロセッサに送信する。また、パーティーPは、たとえば、w−Ksを計算することによって、雑音値の第2の加法的持分360を格納する。ただし、wはそのパーティーの分類器である。付加的に又は代替的に、第2の加法的持分は複数のデータベースによって格納される。
【0084】
プロセッサは、i=1、…、dについて、ψ(i)ξ(s(i))を解読して、η(i)+s(i)を入手する。したがって、プロセッサは、最も小さなデータベースに関連付けられた雑音値の第1の加法的持分をK(η+s)として格納し、選択されたパーティーPが雑音値の第2の加法的持分及び分類器をw−Ksとして格納し、他の全てのパーティーP(j=2、…、K)が分類器wを格納する。
【0085】
分類器、第1の加法的持分及び第2の加法的持分をオブリビアスに組み合わせる
種々の実施の形態において、プロセッサ、及びデータベースを所有するK個のパーティーは、K+1人の関係者のそれぞれが差分プライバシー集合分類器Kwの加法的持分を入手するように、セキュアな関数評価プロトコルを実行する。いくつかの実施の形態では、加法的持分は、計算上セキュアなプロトコルを用いて生成される。他の実施の形態では、加法的持分は、無条件にセキュアなプロトコルを用いて生成される。結果として生成されるK+1個の持分は、差分プライバシー集合分類器を形成し、公開され、たとえば、メモリ175に格納される。
【0086】
付録A
マルチパーティー環境における差分プライバシーのための理論的証明
最も小さなデータベースのサイズに基づいて確率的成分を選択すれば十分である。以下において、これが事実であるという理論的証明が与えられる。
【0087】
差分プライバシーの証明
この発明における摂動集合分類器は差分プライバシーを満たすことを示す。正則化回帰分類器の感度に関する以下の限界を用いる。
【0088】
定理1 半径1の球体内に存在するn個のデータインスタンスの集合を与えるとき、正則化ロジスティック回帰関数の感度は高くても2/(nλ)である。w及びwが正則化パラメーターλを用いてサイズnの隣接するデータベースにおいてトレーニングされた関数(分類器)であるとすると、以下の式が成り立つ。
【0089】
【数15】

【0090】
この限界は、Kamalika Chaudhuri及びClaire Monteleoni「Privacy-preserving logistic regression」(Neural Information Processing Systems, pages 289-296, 2008)によって証明されており、その文献は参照により本明細書に援用される。この発明における摂動関数又は分類器が差分プライバシーを満たすことを示すために、以下のように進める。
【0091】
定理2 分類器wはε差分プライバシーを保護する。任意の2つの隣接するデータベースD及びD’について、以下の式が成り立つ。
【0092】
【数16】

【0093】
証明 トレーニングデータベースDの1つのインスタンスが変更され、結果として隣接するデータベースD’が生成される場合について考える。これは、 1つのパーティーのトレーニングデータベース内の1つの要素の変更、それにより、対応する学習されたベクトルw内の変更を意味するであろう。その変更がパーティーPのデータベース内にあると仮定すると、学習されたベクトルの変更はw内に入るだけである。新たな分類器をwj’によって表すものとする。定理1において、wの感度を||w−wj’ ||≦2/(nελ)と制限する。トレーニングデータベースD及びD’のいずれかを用いて同じベクトルwを学習することを考えるとき、関数感度の定義によって、以下の式が得られる。
【0094】
【数17】

【0095】
同様に、exp(−ε)によって、その比の下限を設定することができる。
【0096】
過剰誤差の解析
予想されるように、摂動雑音項を付加することによって、関数評価において誤差が導入される。分類器として用いられる関数の場合、この誤差は過剰誤差又は過剰リスクと呼ばれる。それは、差分プライバシーに対して支払われる対価である。差分プライバシー分類器が有用であるためには、過剰リスクは小さいことが望ましい。言い換えると、雑音を付加することによって、分類性能をあまりにも劣化させないことが望ましい。
【0097】
上記の検討において、トレーニングデータ全体においてトレーニングされた非プライバシー非摂動分類器wに対して、この発明における(差分プライバシーを満たす)摂動集合分類器wを用いるときに、どの程度の誤差が導入されるかを考える。また、(非プライバシー)非摂動集合分類器wに対して、どの程度の誤差が導入されるかも考える。
【0098】
最初に、集合分類器wと、トレーニングデータ全体にわたってトレーニングされた分類器wとの間の差のl(エル)ノルムに関する限界を確立する。その限界を証明するために、以下の補助定理を適用する。
【0099】
補助定理1 G(w)及びg(w)をwの2つの区別可能な凸関数とする。
【0100】
【数18】

【0101】
とすると、||w−w||≦g/Gである。ただし、任意の単位ベクトルv∈Rについて、g=max||∇g(w)||及びG=minminG(w)vである。
【0102】
補助定理1は、Kamalika Chaudhuri及びClaire Monteleoni「Privacy-preserving logistic regression」(Neural Information Processing Systems, pages 289-296, 2008)から得られたものであり、その文献は参照により本明細書に援用される。最初に、非プライバシー非摂動集合分類器wと、データベース全体において調整された非プライバシー分類器wとの間の過剰リスクを制限する以下の定理を考える。
【0103】
定理3 集合分類器w、トレーニングデータ全体にわたってトレーニングされた分類器wが与えられ、n(1)が最も小さなトレーニングデータベースのサイズであるとすると、以下の式が成り立つ。
【0104】
【数19】

【0105】
証明:
2つの区別可能な凸関数g(w)及びG(w)を最小にすることに関して、個々の分類器w及びトレーニングデータ全体にわたってトレーニングされた分類器wを推定するという問題を定式化する。
【0106】
【数20】

【0107】
補助定理6.2におけるg及びGに関する限界を代入すると、以下の式が成り立つ。
【0108】
【数21】

【0109】
三角不等式を適用すると、以下の式が成り立つ。
【0110】
【数22】

【0111】
ただし、n(1)=minである。
【0112】
その限界は、最も小さなデータベース内のインスタンスの数に反比例する。これは、データベースが異なるサイズからなるとき、wはwとは大きくことなることを示す。n(1)が取り得る最も大きな値はn/Kであり、その場合、全てのパーティーが等しい量のトレーニングデータを有し、wはwに最も近くなるであろう。K=1の場合の1つのパーティーの事例では、その限界は、差のノルムの上限が0に設定されることを示し、それは、集合分類器wがwと同じであるときに有効なサニティーチェックである。
【0113】
この結果を用いて、以下の定理において、非摂動分類器wの経験的リスクを上回る摂動集合分類器w=w+ηの経験的リスクに関する限界を確立する。
【0114】
定理4 全てのデータインスタンスxが、少なくとも1−δの確率で単位球内に存在する場合には、トレーニングデータ全体にわたってトレーニングされた分類器wを上回る摂動集合分類器wの経験的正則化過剰リスクは以下の通りである。
【0115】
【数23】

【0116】
証明:或る
【0117】
【数24】

【0118】
について、関数Jのテイラー級数展開を用いて、以下の式が得られる。
【0119】
【数25】

【0120】
定義により、∇J(w)=0である。
【0121】
両辺のl(エル)ノルムを取り、コーシー−シュワルツ不等式を適用すると、以下の式が得られる。
【0122】
【数26】

【0123】
ロジスティック回帰のための正則化損失関数の第二勾配は以下の通りである。
【0124】
【数27】

【0125】
ロジスティック関数項は常に1未満であり、かつ全てのxが単位球内に存在するので、||∇J(w) ||≦λ+1である。これを式8に代入し、
【0126】
【数28】

【0127】
の場合に、J(w)≦J(w)であるという事実を用いるとき、以下の式が成り立つ。
【0128】
【数29】

【0129】
分類器wは、雑音項η:Lap(2/(n(1)ελ))を有する摂動集合分類器であり、すなわち、w=w+ηである。少なくとも1−δの確率で||η||を制限するために、Kamalika Chaudhuri及びClaire Monteleoni「Privacy-preserving logistic regression」(Neural Information Processing Systems, pages 289-296, 2008)からの以下の補助定理を適用し、その文献は参照により本明細書に援用される。
【0130】
補助定理2 少なくとも1−δの確率を有するd次元の確率変数η:Lap(β)、すなわち、
【0131】
【数30】

【0132】
が与えられたとすると、その確率変数のl(エル)ノルムは以下のように制限される。
【0133】
【数31】

【0134】
これを式9に代入すると、以下の式が得られる。
【0135】
【数32】

【0136】
最後の項においてコーシー−シュワルツ不等式を用いると、以下の式が得られる。
【0137】
【数33】

【0138】
その限界は、2つの要因:集合及び摂動による誤差を示唆する。εの値が小さいほど、同じ意味で、差分プライバシーの定義が厳しいほど、その限界は増大し、プライバシーと有用性との間に明らかなトレードオフがあることを示す。また、その限界はn(1)に反比例し、それは、パーティーが異なるサイズのトレーニングデータベースを有するときに、過剰リスクが増加することを意味する。
【0139】
極端な事例ε→∞では、無限小の分散のラプラシアン分布からサンプリングされる摂動項ηを加算しており、結果として、その摂動分類器は、差分プライバシーのあまり厳密でない定義を満たす非摂動集合分類器wを用いるのと概ね同じである。そのようなε値の場合、この発明の限界は以下のようになる。
【0140】
【数34】

【0141】
定理3の解析と同じように、集合分類器を用いる際の過剰誤差は最も小さなデータベースn(1)のサイズに反比例し、1パーティーの事例K=1では、集合分類器wがwと同じであるので、その限界は0になる。
【0142】
上記の定理は所与のトレーニングデータベースを上回る経験的過剰リスクに関する限界を与えるが、wを上回るwの真の過剰リスクに関する限界について考えることが重要である。分類器wの真のリスクを
【0143】
【数35】

【0144】
によって表し、同様に、分類器wの真のリスクを
【0145】
【数36】

【0146】
によって表すことにする。
【0147】
定理5 全てのトレーニングデータインスタンスxが、少なくとも1−δの確率で単位球内に存在する場合には、トレーニングデータ全体にわたってトレーニングされた分類器wを上回る摂動集合分類器wの真の過剰リスクは以下の通りである。
【0148】
【数37】

【0149】
証明:
を真のリスク
【0150】
【数38】

【0151】
を最小にする分類器とする。項を並べ替えることによって、以下の式が得られる。
【0152】
【数39】

【0153】
さらに進むために、最初に、分類器のための正則化経験的リスクに関する限界の表現としての任意の分類器の真の過剰リスクと、正則化経験的リスクを最小にする分類器の真の過剰リスクとの間の限界を必要とする。少なくとも1−δの確率で、以下の式が成り立つ。
【0154】
【数40】

【0155】
定理4からの限界を代入すると、以下の式が得られる。
【0156】
【数41】

【0157】
この限界を式10に代入することによって、分類器wを上回る分類器wの真の過剰リスクに関する限界が与えられる。

【特許請求の範囲】
【請求項1】
1組のデータベースのための差分プライバシー集合分類器を求めるための方法であって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが前記データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は各前記データベースの前記差分データプライバシーを保護し、該方法は、
前記分類器を組み合わせて集合分類器を求めるステップと、
前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて前記集合分類器を変更して前記差分プライバシー集合分類器を生成するステップとを含み、該方法の該ステップはプロセッサによって実行される、方法。
【請求項2】
前記最も小さなデータベースは最も少ない数のエントリを有し、前記エントリのデータ構造は全てのデータベースについて同一である、請求項1に記載の方法。
【請求項3】
前記データベースのインデックスの置換から生じる前記最も小さなデータベースの不明瞭化インデックスを求めるステップと、
全ての雑音値の加法的持分から、前記不明瞭化インデックスに基づいて、前記最も小さなデータベースに関連付けられた雑音値の第1の加法的持分をオブリビアスに選択するステップであって、第2の加法的持分が1つ又は複数のデータベース内に格納されるものと、
各前記分類器、前記雑音値の前記第1の加法的持分及び前記第2の加法的持分をオブリビアスに組み合わせることによって前記差分プライバシー集合分類器を求めるステップとをさらに含む、請求項1に記載の方法。
【請求項4】
前記雑音値はラプラス分布に従って分布する、請求項1に記載の方法。
【請求項5】
前記データベース毎の前記雑音値は前記データベースのサイズに基づいて求められる、請求項1に記載の方法。
【請求項6】
前記分類器は2値ロジスティック回帰分類器である、請求項1に記載の方法。
【請求項7】
前記分類器は、2値ロジスティック回帰分類器の組み合わせから構成されるマルチクラス分類器である、請求項6に記載の方法。
【請求項8】
前記差分プライバシー分類器を求めることは、暗号プロトコルによって実行される、請求項3に記載の方法。
【請求項9】
前記差分プライバシー分類器を求めることは、秘密共有プロトコルによって実行される、請求項3に記載の方法。
【請求項10】
1組のデータベースのための差分プライバシー集合分類器を求めるためのシステムであって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが該データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は各前記データベースの前記差分データプライバシーを保護し、該システムは、
前記分類器を組み合わせて集合分類器を求める手段と、
前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて前記集合分類器を変更して、前記差分プライバシー集合分類器を生成する手段とを備える、システム。
【請求項11】
前記最も小さなデータベースは最も少ない数のエントリを有し、前記エントリのデータ構造は全てのデータベースについて同一である、請求項10に記載のシステム。
【請求項12】
前記データベースのインデックスの置換から生じる前記最も小さなデータベースの不明瞭化インデックスを求める手段と、
全ての雑音値の加法的持分から、前記不明瞭化インデックスに基づいて、前記最も小さなデータベースに関連付けられた雑音値の第1の加法的持分をオブリビアスに選択する手段であって、第2の加法的持分が1つ又は複数のデータベース内に格納されるものと、
各前記分類器、前記雑音値の前記第1の加法的持分及び前記第2の加法的持分をオブリビアスに組み合わせることによって前記差分プライバシー集合分類器を求める手段とをさらに備える、請求項10に記載のシステム。
【請求項13】
前記雑音値はラプラス分布に従って分布する、請求項10に記載のシステム。
【請求項14】
前記データベース毎の前記雑音値は前記データベースのサイズに基づいて求められる、請求項10に記載のシステム。
【請求項15】
1組のデータベースのための差分プライバシー集合分類器を格納するコンピューター読み取り可能な記憶媒体であって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが前記データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は、前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて変更された、該1組のデータベースの前記分類器の組み合わせである、コンピューター読み取り可能な記憶媒体。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図2C】
image rotate

【図3】
image rotate


【公開番号】特開2012−133320(P2012−133320A)
【公開日】平成24年7月12日(2012.7.12)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−219252(P2011−219252)
【出願日】平成23年10月3日(2011.10.3)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】