説明

バイナリ埋め込みを用いたプライバシーが保護される信号をハッシュする方法

【課題】信号比較のためにバイナリ埋め込みを用いた、プライバシー保護ハッシング方法を提供する。
【解決手段】信号のハッシュが、信号のランダム射影のディザリング及びスケーリングによって求められる。次に、ディザリング及びスケーリングされたランダム射影は、非単調スカラー量子化器を用いて量子化されて、ハッシュが形成され、信号のプライバシーは、スケーリング、ディザリング、及び射影のパラメーターが、求めるステップ及び量子化するステップによってしか知られていない限り保護される。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、包括的には、基礎を成す信号のプライバシーを保護するように信号をハッシュすることに関し、より詳細には、ハッシュされた信号をセキュアに比較することに関する。
【背景技術】
【0002】
多くの信号処理、機械学習、及びデータマイニングの用途は、信号を比較して、それらの信号がどの程度類似しているかを何らかの類似度メトリック又は距離メトリックに従って求めることを必要とする。これらの用途の多くにおいて、比較は、信号のクラスター内の信号のうちのいずれがクエリ信号に最も類似しているかを求めるのに用いられる。
【0003】
距離尺度を用いる複数の最近傍探索(NNS)法が既知である。近接度探索又は類似度探索としても知られるNNSは、メトリック空間内の最も近い傍データを求める。メトリック空間M内のデータの集合S(クラスター)及びクエリq∈Mについて、探索は、集合S内でクエリqに最も近いデータsを求める。
【0004】
幾つかの用途では、探索はセキュアマルチパーティ計算(SMC)を用いて実行される。SMCは複数のパーティを可能にし、例えばサーバーが1つ又は複数のクライアントからの入力信号の関数を計算してクライアント(複数の場合もあり)への出力信号を生成する一方、入力及び出力は、クライアントにおいてのみ非公開で知られている。加えて、サーバーによって用いられるプロセス及びデータは、サーバーにおいて非公開のままである。このため、SMCは、クライアントもサーバーも互いの非公開データ及び非公開プロセスから何も知ることができないという意味でセキュアである。このため、以下において、セキュアとは、マルチパーティ計算に用いられるデータの所有者しか、そのデータ及びそのデータに適用されるプロセスが何であるかを知らないことを意味する。
【0005】
これらの用途では、信号を、サーバーにおける管理可能な計算複雑度、及びクライアントとサーバーとの間の低い通信オーバーヘッドと比較することが必要である。NNSの難度は、プライバシー制約が存在するとき、すなわちパーティのうちの1つ又は複数が、探索に関連した信号、データ、又は方法を他のパーティと共有することを望まないときに増大する。
【0006】
ソーシャルネットワーキング、ユーザーデータのインターネットベースのストレージ、及びクラウドコンピューティングの出現により、プライバシー保護計算は重要度を増している。プライバシー制約を満たすために、例えば類似度を求めることを依然として可能にしながら、1つ又は複数のパーティのデータは通常、加法的準同形暗号化システムを用いて暗号化される。
【0007】
1つの方法は、クライアントのクエリをサーバーに明らかにすることなくNNSを実行し、サーバーは、k最近傍集合内のデータ以外、そのサーバーのデータベースを明らかにしない。距離決定は暗号化領域内で実行される。したがって、本方法の計算複雑度はデータ項目数の二次式となり、入力の暗号化及び出力の復号化が必要とされるので、この計算複雑度は甚大である。剪定技法を用いて距離決定の回数を低減し、計算及び通信の線形複雑度を得ることができるが、暗号化データの処理及び送信に起因して、プロトコルオーバヘッドは依然として極めて大きい。
【0008】
したがって、プロセスに関与する全てのパーティのプライバシーを依然として確保しながら、ハッシュ計算を実行する複雑度を低減することが望ましい。
【0009】
この発明は、2010年8月24日にBoufounosによって出願された「Method for Hierarchical Signal Quantization and Hashing」と題する米国特許出願第12/861,923号に関連する。
【0010】
関連出願第12/861,923号は、階層的信号量子化及び局所性鋭敏型ハッシュのために非単調量子化器を用いる方法を記載している。階層的操作を可能にするために、比較的大きな値の感度パラメーターΔが、より広範囲の入力信号に対する精度の粗い操作を可能にする一方、比較的小さな値のパラメーターが、類似した入力信号に対し精度の細かい操作を可能にする。したがって、反復ごとに感度パラメーターは減少する。
【0011】
上記関連出願において記載されているように、選択する最も重要なパラメーターは感度パラメーターである。このパラメーターは、ハッシュがどのように信号を互いに区別するかを制御する。信号対間の距離尺度が検討される場合(距離が小さいほど、信号はより類似する)、Δによって、ハッシュが距離変化に対しどの程度感度が高いかが決まる。特に、Δが小さい場合、ハッシュは信号が非常に類似しているときの類似度変化に対し感度が高いが、類似していない信号の類似度変化に対し感度が高くない。Δが大きくなるとともに、ハッシュはそれほど類似していない信号に対し、より感度が高くなるが、類似している信号の感度のうちの幾らかが失われる。この特性は、信号の階層的ハッシュを構成するのに用いられる。ここで、第1の幾つかのハッシュ係数は、より大きな値をΔに用いて構成され、Δの値は後続の値について減少される。特に、大きなΔを用いて第1の幾つかのハッシュ値を計算することによって、計算的に単純な粗い信号再構成又は粗い距離推定が可能になり、これによって、離れた信号であってもその信号の情報が提供される。次に、より小さなΔを用いて得られた後続のハッシュ値を用いて、信号再構成を精緻化するか、又はより類似した信号の距離情報を精緻化することができる。
【0012】
この方法は、階層的信号量子化に有用である。しかしながら、この方法はプライバシーを保護しない。
【発明の概要】
【発明が解決しようとする課題】
【0013】
この発明は、信号比較のためにバイナリ埋め込みを用いた、プライバシー保護ハッシング方法を提供する。
【課題を解決するための手段】
【0014】
この発明の実施の形態は、信号比較のためにバイナリ埋め込みを用いた、プライバシー保護ハッシング方法を提供する。1つの応用形態では、セキュアな領域内で、1つ又は複数のハッシュされた信号が比較され、それらの信号の類似度が求められる。本方法を適用して、最近傍探索(NNS)及びクラスタリングを近似することができる。本方法は、量子化されたランダム埋め込みを用いて求められた埋め込みに基づく局所性鋭敏型バイナリハッシュ方式に部分的に基づく。
【0015】
信号から抽出されたハッシュは、2つの信号間の距離が或る所定のしきい値未満であるならば、その距離(類似度)に関する情報を提供する。信号間の距離がしきい値よりも大きい場合、距離に関する情報は明らかにされない。さらに、ランダム化された埋め込みパラメーターが知られていない場合、任意の2つの信号のハッシュ間の相互情報は、信号間のl距離(ユークリッドノルム)とともに指数関数的にゼロまで減少する。バイナリハッシュを用いて、暗号化された信号を直接用いる従来の方法と比較して大幅に低い複雑度で、プライバシーを保護したNNSを実行することができる。
【0016】
本方法は、量子化されたランダム射影を用いたセキュアな安定した埋め込みに基づく。局所性鋭敏型の特性が達成され、ここで、ハッシュ間のハミング距離は、基礎を成すデータ間のl距離が所定のしきい値未満である限り、この距離に比例する。
【0017】
基礎を成す信号又はデータが類似していない場合、ハッシュは、埋め込みパラメーターが明らかにされていないならば、データ間の真の距離に関する情報を提供しない。
【0018】
プライバシーを保護したNNSの埋め込み方式は、クラスタリング及び認証の用途のためのプロトコルを提供する。これらのプロトコルの顕著な特徴は、距離決定を、基礎を成す信号又はデータを明らかにすることなく、平文においてハッシュに対して実行することができることである。平文は暗号化されずに(unencrypted)、すなわち平文で(in the clear)格納又は送信される。このため、暗号化領域の距離決定の観点からの計算オーバーヘッドは、暗号化を用いる従来技術よりも大幅に低い。さらに、暗号化が必要な場合であっても、固有の最近傍特性により、特定の数の最近傍を選択する最終ステップにおいて必要とされる複雑な選択プロトコルが不要になる。
【0019】
本方法は、部分的に、レート効率のよい普遍的なスカラー量子化に基づく。このスカラー量子化は、量子化のための安定したバイナリ埋め込み、及び最近傍決定のための局所性鋭敏型ハッシュ(LSH)法と密接な関係を有する。LSHは、潜在的に大きな信号の非常に短いハッシュを用いて、それらの信号の近似距離を効率的に求める。
【0020】
本方法と従来技術との間の主要な差異は、この発明による方法が、この発明による埋め込みの情報理論的セキュリティを保証することである。
【図面の簡単な説明】
【0021】
【図1A】この発明の実施の形態による普遍的なスカラー量子化の概略図である。
【図1B】この発明の実施の形態による単位区間を用いた非単調量子化関数の図である。
【図1C】この発明の実施の形態による感度区間を用いた代替的な非単調量子化関数の図である。
【図1D】この発明の実施の形態による複数レベルの区間を用いた代替的な非単調量子化関数の図である。
【図2】この発明の実施の形態による2つの信号間の距離の関数としての上下界(bounds)を有する埋め込みマップの図である。
【図3】この発明の実施の形態による信号距離の関数としてのハミング距離の埋め込み挙動のグラフである。
【図4】この発明の実施の形態によるスター型接続されたパーティのための近似のセキュアな最近傍クラスタリングの概略図である。
【図5】この発明の実施の形態による、盗聴者の存在下におけるサーバーによるユーザー認証の概略図である。
【図6】この発明の実施の形態による、局所性鋭敏型ハッシュを用いたクエリの最近傍の近似の概略図である。
【発明を実施するための形態】
【0022】
普遍的なスカラー量子化
図1Aに概略的に示すように、普遍的なスカラー量子化100は、図1B又は図1Cに示される、互いに素な量子化領域を有する量子化器を用いる。K次元信号
【0023】
【数1】

【0024】
について、図1Aに示すように
【0025】
【数2】

【0026】
によって表される量子化プロセス
【0027】
【数3】

【0028】
を用いる。ここで、<x,a>はベクトル内積であり、Axは行列ベクトル乗算であり、m=1,…,Mは測定インデックスであり、yは量子化されていない(実数の)測定値であり、aは行列Aの行である測定ベクトルであり、wは加法的ディザーであり、Δは感度パラメーターであり、関数Q(・)は量子化器であり、ここで
【0029】
【数4】

【0030】
が対応する行列表現である。ここで、ΔはエントリーΔを有する対角行列であり、量子化器Q(・)はスカラー関数であり、すなわち、入力データ又は入力信号に対し要素単位で動作する。
【0031】
量子化、及び本明細書に記載の方法のいかなる他のステップも、当該技術分野において既知のメモリ及び入力/出力インターフェースに接続されたプロセッサにおいて実行することができることに留意されたい。さらに、プロセッサはクライアント又はサーバーとすることができる。
【0032】
行列Aはランダムであり、独立同一分布を有する(i.i.d.)、ゼロ平均の、正規分布したエントリーが分散σを有する。このため、行列A内のエントリーはガウス分布を有すると言うことができる。感度パラメーターΔ=Δは全ての測定値について”同一かつ所定”であり、wは区間[0,Δ]で一様分布している。
【0033】
以下において、パラメーターA、w、及びΔは埋め込みパラメーターとして知られている。
【0034】
関連出願における感度パラメーターは、mが増加するとともに減少することに留意されたい。これは階層表現に有用であるが、セキュリティを一切提供しない。今回は、パラメーターΔは全てのmについて一定のままであり、これによって、以下でより詳細に説明するようにセキュリティが提供される。
【0035】
図1Bに示すように、この発明では量子化関数Q(・)110を用いる。この発明の実施の形態によれば、この非単調量子化関数Q(・)は、普遍的なレート効率のよいスカラー量子化を可能にし、情報理論的セキュリティを提供する。この関数において、バイナリ量子化レベルの場合、関数の区間幅は1である。例えば図1Bに示すように、実数−3.2、1.5、及び2.5はそれぞれ1、0、及び1に量子化される。
【0036】
図1Cは、関数Qの代替的な実施の形態120を示している。ここで、区間幅は感度Δ121に等しく、これは本質的に区分をΔで置き換える。通常、関数Qは不連続量子化領域を有する量子化器を表す。
【0037】
図1Dは、関数Qの代替的な実施の形態130を示している。ここで、区間は複数の(マルチビット)量子化レベルに対応する。例えば、各量子化レベルの値はハッシュにおいて、1ビットではなく2ビットb、bとして符号化される。
【0038】
補題I
類似度測定用途の場合、入力は、差又は二乗距離d=||x−x’||を有する2つの(第1及び第2の)信号x及びx’、並びに図1に示すような量子化された測定関数100である。
【0039】
【数5】

【0040】
ここで、
【0041】
【数6】

【0042】
であり、
【0043】
【数7】

【0044】
は平均0、分散σを有する正規分布から選択されたi.i.d.要素を含み、wは区間[0,Δ]において一様分布する。
【0045】
図2に示すように、2つの信号の単一の測定が、一致した、すなわち等しい量子化された測定値を生成する確率202は、
【0046】
【数8】

【0047】
であり、ここで、確率は行列A及びwの分布にわたって取得される。「一致した」という用語は、双方の信号が同一のハッシュ値を生成する、すなわち、xのハッシュ値が1の場合、x’のハッシュ値も1であるか、双方について0及び0であることを意味する。図2において、確率は概して1−Pの形式で表される。
【0048】
さらに、上記の確率は以下を用いて有界にすることができる。
【0049】
【数9】

【0050】
ここで、Pc|dは、本明細書においてP(x,x’一致|d)を意味する。式(4)〜式(6)は、図2の204〜206に対応する。特定の信号の場合、各量子化ビットは、例えば図1Bに示すように同じ確率0.5で値0又は1をとる。
【0051】
セキュアなバイナリ埋め込み
この発明による量子化プロセスは、局所性鋭敏型ハッシュ(LSH)に類似した特性を有する。したがって、q、すなわちxの量子化された測定値を、xのハッシュと呼ぶ。したがって、この説明において、ハッシュ及び量子化という用語は交換可能に用いられる。
【0052】
この発明者らの目的は2つある。第1に、情報理論的議論を用いて、l距離d=||x−x’||が所定のしきい値未満である場合にのみ、量子化プロセスが2つの信号x及びx’間の距離に関する情報を提供することを実証する。さらに、プロセスは、l距離がしきい値よりも大きいとき、信号のセキュリティを保護する。第2に、測定値のハッシュが、正規化されたハミング距離の下でl距離の安定した埋め込みを提供することを実証することによって、この測定値のハッシュによって提供される情報を量子化する。すなわち、2つの信号間のl距離が、その2つの信号のハッシュ間の正規化されたハミング距離を制限することを示す。1つの要件は、測定行列A及びディザーwが、ハッシュの受信者から秘密のままであることである。そうでない場合、受信者は元の信号を再構成することができる。しかしながら、そのような測定値からの再構成は、測定パラメーターA及びwが知られている場合であっても、組み合わせ的複雑度を有し、おそらく計算量が非常に多い。
【0053】
情報理論的セキュリティ
この埋め込みのセキュリティ特性を理解するために、距離dを条件として、2つの信号x及びx’のi番目のビットq及びq’間の相互情報を検討する。
【0054】
【数10】

【0055】
ここで、最後のステップはlog x≦x−1を用いて式を統合する。
【0056】
このため、2つの信号の2つの長さMのハッシュq、q’間の相互情報は、以下の定理によって制限される。
【0057】
定理I
2つの信号x及びx’、並びに補題Iの量子化方法がM回適用され、それぞれ量子化されたベクトル(ハッシュ)q及びq’が生成されたと考える。2つの信号の2つの長さMのハッシュq及びq’間の相互情報は以下によって有界である。
【0058】
【数11】

【0059】
定理Iによれば、ハッシュ対間の相互情報は、そのハッシュを生成した信号間の距離とともに指数関数的に減少する。指数関数的減少率は、感度パラメーターΔによって制御される。このため、かけ離れた(Δによって制御されるようなしきい値よりも大きい)信号に関するいかなる情報も、それらの信号のハッシュを観測することのみによって復元することはできない。
【0060】
安定した埋め込み
この安定した埋め込みは、信号空間内の信号の距離と、測定値の距離、すなわちハッシュとの間の高次元関係からのジョンソンーリンデンシュトラウス埋め込みに趣旨が類似している。ハッシュはバイナリ空間{0,1}内にあるので、適切な距離メトリックは正規化されたハミング距離
【0061】
【数12】

【0062】
である。
【0063】
上述したようにl距離d=||x−x’||を有するベクトルx及びx’の量子化を考える。個々の量子化ビットの各対間の距離
【0064】
【数13】

【0065】
は、分布
【0066】
【数14】

【0067】
を有するランダムバイナリ値である。
【0068】
この分布及び上下界は図2にプロットされている。例えば図1Dにおけるようなマルチビット量子化器の場合、ハミング距離は埋め込み空間内の別の適切な距離によって置き換えることができる。例えば、ハミング距離は埋め込み空間内のl距離又はl距離によって置き換えることができる。
【0069】
ランダム変数の和がその予測値から逸れる確率に対する上界を与えるヘフディングの不等式を用いると、ハミング距離が
【0070】
【数15】

【0071】
を満たすことを示すのは簡単である。
【0072】
次に、セキュアに埋め込むことを望むL個のデータ点の「クラウド」を考える。それぞれが式(8)を満たす、このクラウド内の最大でL個の可能な信号対に対する和集合上界(union bound)を用いると、以下が成り立つ。
【0073】
定理II
【0074】
【数16】

【0075】
内のL個の信号の集合S及び補題Iの量子化方法を考える。確率
【0076】
【数17】

【0077】
で、全ての対x,x’∈S及びそれらの対応するハッシュq、q’について以下が成り立つ。
【0078】
【数18】

【0079】
ここで、Pc|dは補題Iにおいて定義され、dはl距離であり、d(・,・)はそれらのハッシュ間の正規化されたハミング距離である。
【0080】
定理IIは、圧倒的な確率で、2つのハッシュ間の正規化されたハミング距離が、tによって制御されて、1−Pc|dによって定義されるl距離のマッピングに非常に近いことを述べている。さらに、式(4)〜式(6)内の上下界を用いて、式(9)の閉形式の埋め込み境界を得ることができる。
【0081】
【数19】

【0082】
図2は、マッピング1−Pc|dを、その上下界とともに示す。マッピング201は、小さなdの場合に線形であり、大きなdの場合に実質的に平坦となり(202)、したがって可逆でなく、スケーリングを用いて感度パラメーターΔによって制御される。さらに、図2において、上界201
【0083】
【数20】

【0084】
が、それぞれ小さいd及び大きいdについて非常に厳密であり、マッピングの近似として用いることができることが明らかである。当然ながら、定理IIの結果及びマッピングに対する制限は、ハミング距離の関数としてl距離に対する保証を提供するように反転することができる。
【0085】
図3は、実際に埋め込みがどのように挙動するかを示している。図3の(A),(B)は、ハッシュの対間の正規化されたハミング距離に対する結果を、それらの距離を生成した信号間の距離の関数として示している。図面は、この発明によるセキュアなハッシングの重要な特性を示している。しきい値T301よりも大きな全ての距離について、正規化された距離応答は平坦であり、正規化されたハミング距離は全てのl距離について同一であるので、実際の距離については何も習得することができない。しかしながら、しきい値よりも小さな距離の場合、正規化されたハミング距離は実際の距離にほぼ比例する。
【0086】
示された例では、信号は
【0087】
【数21】

【0088】
、すなわちK=210においてランダムに生成される。図3の(A)のプロットは、ハッシュあたりM=212=4096個の測定値、すなわち係数あたり4ビットを用いる。図3の(B)のプロットは、ハッシュあたりM=2=256個の測定値、すなわち係数あたり1/4ビットを用いる。各プロットにおいて2つの異なるΔ、すなわちΔ=2−3、2−1が用いられる。Δが大きくなると、埋め込みの線形部分の傾斜が増大し、より大きな範囲のl距離を識別することができる。より大きな距離の信号について情報が明らかになるので、これによってセキュリティが低下する。さらに、ハッシュビット数Mが小さくなると、線形領域の幅301が増大し、これによって線形領域においてマップを反転させる際の不確実性が増大する。他方で、ハッシュビット数Mが増大すると、埋め込みは、帯域幅要件が大きくなることと引き換えに、より厳密になる。これは、近傍間のl距離をハッシュからより正確に推定することができることを意味する。信号が量子化されている場合であっても、信号の距離間の正確なマッピングにおける同様の不確実性が存在し、次に、例えば準同形暗号化システムを用いて、暗号化領域内で比較されることに留意されたい。
【0089】
この挙動は、埋め込みの、上述した情報理論的セキュリティと一致する。小さな距離dの場合、ハッシュ内に提供される情報が存在し、この情報を用いて信号間の距離を求めることができる。より大きな距離dの場合、情報は明らかにされない。したがって、2つの信号のハッシュからそれらの2つの信号間の距離も、いかなる他の情報も求めることが可能でない。
【0090】
応用形態
ハッシュに基づく最近傍探索が特に有利である様々な応用形態を説明する。全てのパーティが準正直である、すなわちパーティはプロトコルの規則に従うが、プロトコルの各ステップにおいて利用可能な情報を用いて他のパーティが保有するデータの発見を試みる可能性があると仮定する。
【0091】
以下に説明するプロトコルの全てにおいて、埋め込みパラメーターA、w、及びΔが、図2の線形比例領域が少なくとも最大でDのl距離まで拡張するように選択されると仮定する。Dによって表されるこの比例領域内では、ハッシュ間の正規化されたハミング距離は、基礎を成す信号間のDのl距離に対応する。線形比例領域の外側では、埋め込みは平坦な応答を有し、不可逆であり、したがってセキュアであることを想起されたい。換言すれば、2つの信号間の距離が線形比例領域の外側にある場合、信号のハッシュを観察することによってその信号に関するいかなる情報も得ることができない。
【0092】
スタートポロジーを用いたプライバシー保護クラスタリング
図4に示すようなこの応用形態では、埋め込み行列A及びディザーベクトルwが知られていないとき、対応するハッシュを観察することによってベクトルxに関する情報が明らかにされない特性を利用する。この応用形態では、複数のクライアントパーティP(i)がサーバーSによって解析されるデータx(i)を提供する。目標は、Sがデータを明らかにすることなくデータをクラスタリングし、クライアントPをクラスに編成することを可能にすることである。クライアントごとに、サーバーはDのl距離内のクライアントの近似最近傍を得る。
【0093】
プロトコル:プロトコルは図4に要約されている。
1)全てのパーティが、ランダム埋め込み行列Aと、ディザーベクトルwと、感度パラメーターΔとを等しく得る。これを達成する1つの方法は、1つのクライアントパーティが受信者の公開暗号化鍵を用いて他のクライアントパーティにA、w、及びΔを送信することである。
2)i∈I={1,2,…,N}について、各クライアントがq(i)=Q(Δ−1(Ax(i)+w))を求め、q(i)を平文としてサーバーSに送信する。
3)各パーティP(i)に応じて、サーバーは集合C={i|d(q,q(i))≦D}を構成する。
【0094】
式(9)から、Cの要素がパーティP(i)の近似最近傍であることがわかる。埋め込みの特性により、サーバーは基礎を成すデータx(i)を発見することなく、平文形式でバイナリハッシュを用いてクラスタリングを実行することができる。このため、パラメーターA、w、及びΔをN個のパーティに通信するために被る最初の一時的な前処理オーバーヘッドは別として、このプロトコルにおいて、いかなる後続の処理にも暗号化は必要とされない。
【0095】
これは、元のデータx(i)に基づいて距離計算を実行することが必要なプロトコルと対照的である。このプロトコルは、サーバーが追加のサブプロトコルに携わり、準同形暗号化を用いて暗号化領域内でO(N)個の対ごとの距離を求めることを必要とする。
【0096】
対称鍵を用いた認証
図5に示すようなこの応用形態では、例えば生体パラメーター又は画像から導出されたベクトルxを用いて認証する。目標は、データxを可能性のある盗聴者に明らかにすることなく、信頼されたサーバーを用いてユーザーxを認証することである。目標が認証である場合、クライアントユーザーはアイデンティティーを主張し、サーバーは、サブミットされた認証ハッシュベクトルqがサーバーにおけるデータベース内に格納された登録ハッシュベクトルq(N)ベクトルから所定のl距離内にあるか否かを判断する。目標が識別である場合、サーバーは、サブミットされたベクトルが、そのサーバーのデータベース内に格納された少なくとも1つの登録ベクトルから所定のl距離以内にあるか否かを判断する。量子化されたランダム埋め込みの部分空間内で認証を実行する。ここで、埋め込みパラメーター(A,w,Δ)は、クライアント及び信頼された認証サーバーにのみ知られているが盗聴者には知られていない対称鍵としての役割を果たす。ユーザー識別シナリオのためのプロトコルを以下で説明する。認証プロトコルは同様に進む。
【0097】
クライアントのユーザーは、識別に用いられるベクトルxを有する。サーバーはN個の登録ベクトルx(i)(i∈I={1,2,…,N})のデータベースを有する。ユーザー及びサーバー(盗聴者ではない)は埋め込みパラメーター(A,w,Δ)を有する。
【0098】
サーバーは、Dのl距離内のベクトルxの近似最近傍の集合Cを求める。
【0099】
【数22】

【0100】
である、すなわち空である場合、ユーザー識別は失敗し、そうでない場合、ユーザーは、データベース内の少なくとも1人の正当な登録ユーザーに近いと識別される。盗聴者はxに関する情報を得ない。
【0101】
プロトコル:プロトコル送信は図5に要約されている。
1)ユーザー501はq=Q(Δ−1(Ax+w))を求め、qを平文としてサーバーに送信する。
2)サーバー503は全てのiについてq(i)=Q(Δ―1(Ax(i)+w))を求める。
3)サーバーは集合C={i|d(q,q(i))≦D}を構成する。
【0102】
ここでも、式(9)から、集合Cがxの近似最近傍を含むことがわかる。
【0103】
【数23】

【0104】
である場合、識別は失敗し、そうでない場合、ユーザーはC内のインデックスのうちの1つを有するものとして識別されている。盗聴者502は(A,w,Δ)504を知らないので、量子化された埋め込みは基礎を成すベクトルに関する情報を明らかにしない。このプロトコルは、ハッシュを認証サーバーに送信する前にユーザーがハッシュを暗号化することを必要としない。通信オーバーヘッドの観点から、これは従来の最近傍探索を上回る利点である。従来の最近傍探索は、ベクトルを盗聴者から隠すために、クライアントがそのベクトルを暗号化形式でサーバーに送信することを必要とする。
【0105】
一変形形態として、信頼されていないサーバーのプロトコルを設計するために、サーバーはx(i)ではなくq(i)のみを格納し、埋め込みパラメーター(A,w,Δ)を保有しないことを規定することができる。認証サーバーが信用されていない場合、クライアントユーザーは、自身の識別ベクトルx(i)を用いて登録することを望まない。この場合、(サーバーではなく)ユーザーのみが(A,w,Δ)を保有するように上記のプロトコルを変更する。
【0106】
ユーザーは、対応するデータベクトルx(i)の代わりにハッシュq(i)を用いてサーバーのデータベースに登録する。ハッシュはサーバー上に格納される唯一のデータである。この場合、サーバーは、(A’,w,Δ)を知らないので、q(i)からx(i)を再構成することができない。さらに、データベースが危険にさらされている場合、q(i)を無効にすることができ、異なる埋め込みパラメーター(A’,w’,Δ’)を用いて新たなハッシュを登録することができる。
【0107】
2つのパーティを用いたプライバシー保護クラスタリング
次に図6に示すように、クライアント601がデータベースサーバー602に対しクエリを開始する2パーティプロトコルを考える。プライバシー制約は、クエリがサーバーに明らかにされないこと、及びクライアントが、そのクライアントのクエリから所定のl距離内にあるデータベースサーバー内のベクトルのみを知ることができることである。スタートポロジーのための前のプロトコルと異なり、ここでは、暗号化領域内で単純な操作を実行するのに、公開鍵暗号化のための確率非対称パイエ(Paillier)暗号化システム等の準同形暗号化システム方式を用いることが必要である。
【0108】
パイエ暗号化システムの加法的準同形特性により、ξ(a)ξ(b)=ξpq(a+b)であることが確実にされ、ここでa及びbはメッセージ空間内の整数であり、ξ(・)は暗号化関数である。整数p及びqはランダムに選択された暗号化パラメーターであり、これによってパイエ暗号化システムが意味論的にセキュアになる。すなわち、パラメーターp、qをランダムに選択することによって、所与の平文の繰り返された暗号化の結果として異なる暗号文が生成され、それによって選択平文攻撃(CPA)に対して保護されることを確実にすることができる。簡単にするために、この発明者らの表記から添え字p、qを省略する。加法的準同形特性の当然の帰結として、ξ(a)b=ξ(ab)である。
【0109】
クライアントはクエリベクトルxを有する。サーバーは、I=1,…,NについてN個のベクトルx(i)のデータベースを有する。サーバーは(A,w,Δ)を生成し、Δを公開する。クライアントは
【0110】
【数24】

【0111】
、すなわちDのl距離内のクエリベクトルxの近似最近傍の集合を得る。そのようなベクトルが存在しない場合、クライアントは
【0112】
【数25】

【0113】
を得る。
【0114】
プロトコル:プロトコル送信は図6に要約されている。
1)クライアントは、パイエ暗号化の公開暗号化鍵pk及び秘密復号化鍵skを生成する。次に、クライアントは、ξ(x)=(ξ(x),ξ(x),…,ξ(x))によって表される、xの要素ごとの暗号化を実行する。クライアントはξ(x)をサーバーに送信する。
2)サーバーは加法的準同形特性を用いてξ(y)=ξ(Ax+w)を求め、ξ(y)をクライアントに返す。
3)クライアントはyを復号化し、q=Δ−1yを求め、ξ(q)をサーバーに送信する。
4)サーバーは、ハッシュq(i)=Q(Δ―1(Ax(i)+w))を求める。
5)サーバーは、準同形特性を用いて、量子化されたクエリベクトルと、量子化されたデータベースベクトルとの間のハミング距離の暗号化を求め、すなわちd(q,q(i)):
【0115】
【数26】

【0116】
を求め、暗号化された距離をクライアントに送信する。
6)クライアントはd(q,q(i))を復号化し、集合D={i|d(q,q(i))}を得る。
7)D=0の場合、プロトコルは終了する。そうでない場合、クライアントはN個のうち|D|個の紛失通信(OT)プロトコルをサーバーとともに実行し、C={x(i)}を取り出す。OTは、クライアントが
【0117】
【数27】

【0118】
となるようなベクトルx(i)のうちのいずれも発見しないことを保証する一方で、クエリ集合Dがサーバーに明らかにされないことを確実にする。
【0119】
式(9)から、集合Cはクエリベクトルxの近似最近傍を含む。基礎を成すベクトル間の距離を暗号化領域で求めることに対する、ハッシュ部分空間において距離を求めることの利点を考える。サイズNのデータベース場合、ベクトル間の距離を求めることによって、全てのN個の距離||x−x(i)||が明らかとなる。最近傍に対応する距離、すなわち距離の局所分布のみがクライアントに明らかにされることを確実にするには別個のサブプロトコルが必要である。
【0120】
対照的に、この発明によるプロトコルは、||x−x(i)||≦Dの場合にのみ距離を明らかにする。||x−x(i)||>Dの場合、量子化されたランダム埋め込みを用いて求められたハミング距離はもはや真の距離に比例しない。これは、クライアントがサーバーのデータベース内のベクトルの大域分布を知ることを防ぐ一方、クエリベクトル付近のベクトルの局所分布のみを明らかにする。
【0121】
発明の効果
量子化されたランダム埋め込みを用いたセキュアなバイナリ法を説明している。このバイナリ法は、信号ベクトルとデータベクトルとの間の距離を特殊な形で保持する。1つのベクトルが別のベクトルからあらかじめ指定された距離d内にある限り、それらのベクトルの2つの量子化された埋め込み間の正規化されたハミング距離は2つのベクトル間のl距離にほぼ比例する。しかしながら、2つのベクトル間の距離がdを超えて増大すると、それらのベクトルの埋め込み間のハミング距離は、ベクトル間の距離と無関係になる。
【0122】
埋め込みは、幾つかの有用なプライバシー特性を更に示す。任意の2つのハッシュ間の相互情報は、それらのハッシュの基礎を成す信号間の距離とともに指数関数的にゼロまで減少する。
【0123】
この埋め込み手法を用いて、効率的なプライバシーを保護した最近傍探索を実行する。ほとんどの以前のプライバシーを保護した最近傍探索法は、プライバシー制約を満たすには暗号化しなくてはならない元のベクトルを用いて実行される。
【0124】
上記の特性に起因して、元のベクトルの代わりにこの発明によるハッシュを用いて、大幅に低い複雑度で又は高速に、暗号化されていない領域内でプライバシー保護された最近傍探索を実施することができる。これを動機付けするために、低複雑度のクラスタリング及びサーバーベースの認証においてプロトコルを説明している。
【0125】
好ましい実施の形態の例としてこの発明を説明してきたが、この発明の趣旨及び範囲内において、他の様々な適合及び変更を行えることが理解されるべきである。

【特許請求の範囲】
【請求項1】
信号をハッシュする方法であって、
前記信号のディザリング及びスケーリングされたランダム射影を求めるステップと、
ハッシュを形成するために、非単調スカラー量子化器を用いて前記ディザリング及びスケーリングされたランダム射影を量子化するステップと、
を含み、
前記信号のプライバシーは、前記スケーリング、前記ディザリング、及び前記射影のパラメーターが前記求めるステップ及び前記量子化するステップによってしか知られていない限り保護され、前記ステップはプロセッサにおいて実行される、信号をハッシュする方法。
【請求項2】
埋め込みパラメーターA、w、Δを定義するステップと、
y=Δ−1(Ax+w)を求めるステップと、
を更に含み、
ここで、Aはランダムに生成された射影行列であり、Δは同一で所定の感度パラメーターの対角行列であり、wは区間[0,Δ]で一様分布した加法的ディザーのベクトルである、請求項1に記載の方法。
【請求項3】
前記行列Aは、独立同一分布の行列要素を導出することによってランダムに生成される、請求項2に記載の方法。
【請求項4】
前記導出は正規分布から行われる、請求項3に記載の方法。
【請求項5】
複数の信号のハッシュq(i)を比較して、該複数の信号の類似度をセキュアに求める、請求項1に記載の方法。
【請求項6】
前記類似度は距離の観点からのものであり、該距離が所定のしきい値未満である場合、前記複数の信号は類似している、請求項5に記載の方法。
【請求項7】
前記ハッシュ間の埋め込み距離は、前記信号間のl距離が所定のしきい値未満である限り、該距離に比例する、請求項5に記載の方法。
【請求項8】
前記ハッシュ間の埋め込み距離はバイナリ空間内のハミング距離である、請求項7に記載の方法。
【請求項9】
距離が所定のしきい値よりも大きい限り、前記ハッシュは類似していない信号に関する情報を明らかにしない、請求項5に記載の方法。
【請求項10】
前記比較は、前記複数の信号の最近傍探索を近似する、請求項5に記載の方法。
【請求項11】
ハッシュqに従って前記複数の信号のクラスタリングを実行するステップを更に含む、請求項5に記載の方法。
【請求項12】
距離決定は、前記複数の信号を明らかにすることなく、平文において前記ハッシュに対して実行される、請求項5に記載の方法。
【請求項13】
前記ハッシュは感度パラメーターΔに等しい幅区間を有する非単調量子化関数を用いる、請求項1に記載の方法。
【請求項14】
前記ハッシュは複数の量子化レベルを用いる、請求項1に記載の方法。
【請求項15】
前記複数の信号のそれぞれは、対応するクライアントによってサーバーに提供され、前記方法は、
前記信号を明らかにすることなく前記クライアントをクラスに編成するステップを更に含む、請求項5に記載の方法。
【請求項16】
A、w、及びΔは埋め込みパラメーターであり、前記各クライアントは公開暗号化鍵を用いて前記埋め込みパラメーターのコピーを取得し、
前記各クライアントiにおいて、q(i)=Q(Δ−1(Ax(i)+w))を求め、q(i)を平文として前記サーバーに送信するステップと、
前記サーバーにおいて、集合C={i|d(q,q(i))≦D}を構成するステップであって、Dは比例領域であるものと、
を含む、請求項15に記載の方法。
【請求項17】
前記信号のうちの1つはクライアントにおいて格納されるユーザーの認証鍵であり、他のi個の信号はサーバーにおいて格納される登録鍵である、請求項5に記載の方法。
【請求項18】
前記認証鍵及び前記登録鍵は生体パラメーターに基づき、前記方法は、
前記クライアントにおいてq=Q(Δ−1(Ax+w))を求めるステップと、
qを平文として前記サーバーに送信するステップと、
前記サーバーにおいて、全てのIについてq(i)=Q(Δ−1(Ax(i)+w))を求めるステップと、
前記サーバーにおいて、集合C={i|d(q,q(i))≦D}を構成するステップであって、Dは比例領域であるものと、
を更に含む、請求項17に記載の方法。
【請求項19】
前記信号のうちの1つは、クライアントにおいて格納されるクエリであり、他のi個の信号は、サーバーにおいて格納されるベクトルである、請求項5に記載の方法。

【図1A】
image rotate

【図1B】
image rotate

【図1C】
image rotate

【図1D】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−101332(P2013−101332A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−227656(P2012−227656)
【出願日】平成24年10月15日(2012.10.15)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】