説明

パターンの特徴からコードを生成するための方法及び装置

ユーザの異なるサンプルが同一のコードを提供すると共に別のユーザの各サンプルとを区別することを可能にする方法でバイオメトリックサンプルから1つのコードを取得するための方法を提供している。平均値及び分散値を得るために異なる特徴が解析され、これらは異なる特徴値の判読方法を制御するために使用される。さらに、各特徴を組み合わせ、この組み合わせのビットの部分集合をコードとして使用する。これは、全てのユーザサンプルに共通な各ビットのみならず、同一ユーザの異なるサンプル間で違うこともあるビットの切り捨てを可能にする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、パターンの特徴からコードを生成することに関する。コードは、一例として暗号化システムで使用することを目的として、例えば、機密保護に使用することができる。
【背景技術】
【0002】
データの暗号化は、電子媒介データの保護用基本ツールであり、暗号化キーの使用を伴う。異なるシステムは異なる方法で動作し、通常通信する際にはその後秘密キーで複合化するデータの暗号化に使用する公開キーの交換を伴う。これらの暗号化システムは、秘密暗号化キーの機密保護が確実に保証されるものでない場合、不正なデータ改竄を必ずしも防ぐことができるわけではない。
【0003】
従来の暗号化システムにおいて、ユーザが公開及び秘密キーを使用する際、各自の秘密キーが通信中に回収および交換可能となるように、通信処理中に使用する各自の秘密キーを記憶する必要があった。この秘密キーの記憶方法こそが機密保護に影響を及ぼす。
【0004】
バイオメトリックデータ(指紋、網膜走査、手書き署名、音声プロフィールなど)を手段としてユーザが本人であることを確認するバイオメトリクスセキュリティシステムに対する関心は増しつつある。
【0005】
上記のようなデータを使用するシステムは、当然ながら、正当なユーザのプロフィールのデータベースを、各所定ユーザの特定生体情報に関連したデータを封入したバイオメトリックテンプレートの形で維持しなければならない。生体情報システムに備えられたセキュリティを回避するための所要データを入手するために、許可されていないユーザまたはシステム管理者が生体情報テンプレートへアクセスする場合もある。
【0006】
管理されているデータは、ユーザにとって個人的なものでもあり、このためユーザがシステム内に記憶するテンプレート生成用生体情報サンプルを提供したがらない場合がある。
【発明の概要】
【課題を解決するための手段】
【0007】
本発明によれば、各々がパターンを形成しているサンプルのセットからコードを生成する方法であって、
(i)各サンプルを複数の特徴と解し、複数のサンプルを解析して前記複数のサンプルの複数の特徴値を取得することと、
(ii)前記特徴値のそれぞれが概ね等しい尤度で所定範囲の値のみを取る前記特徴値を適合させることにより前記特徴値を正規化することと、
(iii)前記複数のサンプルから得た前記異なる特徴の平均値、分散値及び共分散値を取得することと、
(iv)取得した平均値及び分散値を用いて各特徴に対し、前記特徴値が同等とみなされる範囲を決定している、量子化レベルを設定することと、
(v)前記共分散値から取得される無相関係数を用いて前記特徴値を無相関化することと、
(vi)前記特徴値の組み合わせから単一コードを導くことであって、前記単一コードが前記特徴値の組み合わせから導いた前記ビットの部分集合を含む、単一コードを導くこと
を備えたコード生成方法が提供される。
【0008】
本発明は、一人のユーザより得た異なるサンプルから同一のコードを得つつも、異なるユーザのサンプル間で区別可能となるような形で、1つの生体情報サンプルから1つのコードを導き出す方法を提供する。平均値及び分散値を求めるために異なる特徴を解析し、これらの値は異なる特徴値の解読方法を操作するために使用される。さらに、特徴を組み合わせ、この組み合わせの複数のビットの部分集合をコードとして使用する。これにより全ユーザサンプルに共通したビットとともに同一ユーザの異なるサンプル間で相違することもあるビットの排除が可能となる。
【0009】
特徴値の標準化は、各特徴が(統計的に)等しく有効になることを可能にする。この標準化は、連続した変数を有する特徴値に量子化を利用することを含むこともある。
【0010】
本方法は、暗号化処理の動作を認証するためのバイオメトリック個人情報の可能性を引き出す、テンプレートを要しない暗号化システムの一部として使用できる。本発明による方法の基本的な一応用例は、生体に基づいたデータから直接暗号化キーを生成してデータ機密保護を向上させることである。
【0011】
このようなシステムは、ユーザを認証するための生体自体(テンプレートとして知られている)に関する全情報を格納する必要性をなくす有意な利点を示し、よって従来のシステムに伴う問題に直接対処する。格納されているデータへアクセスする危険が無いため、システムの機密性は採用している生体及び暗号化アルゴリズムと同程度に確実なものとなる。その後利用するための方法は、生体の別のサンプル提供すること、あるいは暗号化技術で採用している暗号を破ることだけである。
【0012】
本方法は非対称暗号化システムに使用できることが望ましい。通常のシステムは秘密キーを記憶することができないため、データを複合化するための秘密キーが何らかの方法で格納されていることを要する。本発明の方法を活用することにより、キーを特定の生体情報サンプルに一意に関連付けることを可能にし、従って別の生体情報サンプルには必要となる秘密キーを生成しなければならない。このためキーに関するあらゆる物理的記録を排除でき、よって、キーを収容している記憶装置への不正アクセスを通して感知可能なデータの機密性を脅かすことはできない。
【0013】
本発明の本方法を応用することにより、どのようなシステム障害があっても、さもなければ同じ生体情報で保護されている他のシステムへ、事実上存在する他の全ての生体情報テンプレートで保護されている全てのシステムへの不正アクセスを許す、感知可能な生体情報テンプレートデータを解放することはないという点でも有利である。
【0014】
単一の値を取得するための処理は
各特徴の無相関特徴値を取得することと、
前記無相関特徴値を組み合わせることと
を含むことが好ましい。
【0015】
無相関特徴値の使用は、1つの特徴の複数の値は他の特徴との相関関係に基づいて算出することができないことを意味する。特徴間の相関関係を取り除くことによりシステムの機密性が向上する。
【0016】
無相関特徴値の取得することには、その特徴の共分散値をその他の各特徴と組み合わせることを含む場合もある。各サンプルの1つの複合特徴値から、一組の複合無相関特徴値を取得することもできる。
【0017】
次に、その一組の無相関(特徴)値は折り返し(fold)操作を用いて、無相関特徴値を1つの単語に複合することもできる。これにより単語の最下位及び最上位ビットを取り除くことができる。この処理は、同一ユーザのサンプル間で異なりがちな音を表す複合化された単語の複数のビットを取り除くが、また多くのユーザにとって同じである可能性の高い複合化された単語の各ビットをも取り除いてしまうため、固有のコードを導くには有用性が低い。
【0018】
取り除いた最下位ビットの数と取り除いた最上位ビットの数は、システム較正の際にいくつかの異なる主体から得たサンプルの平均特徴値から形成された単語の解析に基づいて選択し、同一折り返し操作を用いて複合化することができる。よって、システム較正は(好ましくは)多数のサンプルの平均特徴値を決めるために使用され、平均値からの特定のユーザの偏りを表す複合化された単語の各部分が固有コードに使用される。
【0019】
初期較正段階は
複数ユーザから複数較正サンプルを取得することと、
前記較正サンプルを解析して前記サンプルの特徴値を取得することと、
前記複数サンプルから前記異なる特徴の平均値、分散値及び共分散値を取得すること
を含む場合がある。
【0020】
較正には、各特徴の無相関標準化特徴値を取得すること;また、与えられたサンプルから全ての特徴を複合化する単一の単語から、抽出すべき主体を一意に識別する最適ビットを算定することをも含むことが好ましい。
【0021】
本発明は、前述のいずれかの請求項に記載されている本発明の方法を用いてバイオメトリックサンプルからコードを生成し、そのコードを暗号化キーの形成に使用することを含む暗号化キー生成方法も提供する。そして、本方法は暗号化方法に使用される。
本方法はコンピュータプログラムで実行することができる。
【0022】
本発明は、
複数のサンプルを解析して前記サンプルの特徴値を取得するための手段であって、各サンプルが複数の特徴として解される、手段と、
前記複数のサンプルから得た前記異なる特徴の平均値及び分散値を計算し、
前記サンプルデータと合わせて前記取得した平均値及び分散値を用いて各特徴に対し、前記特徴値が同等とみなされる範囲を決定している、量子化レベルを設定し、
前記特徴値のそれぞれが概ね等しい尤度で所定範囲の値のみを取る前記特徴値を適合させることにより前記特徴値を正規化し、
前記特徴値の組み合わせから単一コードを導くことであって、前記単一コードが前記特徴値の組み合わせから導いた前記ビットの部分集合を含む、単一コードを導く
ための処理手段と
を備えるバイオメトリックサンプルのセットからコードを生成するためのシステムも提供する。
【図面の簡単な説明】
【0023】
本発明の方法を示すフロー図である、本発明の一例を添付の図面を参照して詳細に説明する。
【発明を実施するための形態】
【0024】
本発明は、主としてバイオメトリックサンプルから、サンプル毎に固有の、同一ユーザから得た異なるサンプル間で同じにするコードの生成方法を提供する。
異なる段階で使用する各手順の詳細な説明の前に、まず図に示す本方法の各ステップの概略を説明する。
【0025】
本手順では、一般ユーザの母集団に関する統計データを含むアルゴリズムを使用し、これは、ユーザデータを解析するステージ12の前に較正ステージ10(一回行う)で取得する。
【0026】
較正ステージ10では、多数のユーザから多数の較正サンプル(「相互サンプルデータ」)を取得すること(ステップ14)、各較正サンプルを解析して各サンプルの特徴値を取得すること(ステップ16)を伴う。各特徴値に同領域の値を持たせるステップ18における平均化の後に、ステップ20において異なる特徴の平均値、分散値及び共分散値を取得する。
【0027】
平均値及び分散値は、捕捉されたデータと異なる離散値とのマッピング方法を画定する(後述する)パターンデータの量子化に使用され、共分散値は特徴値の無相関化を可能にするために使用される。この無相関化は、互いに独立した特徴値を画定するために、ステップ22における相互サンプルデータに適用される。
【0028】
この無相関化された相互サンプルデータは、いわゆる基準値を得るために使用される。これは各無相関平均特徴値の1つの数値への集約を表す一次元数値である。後述するように、得られたパターンサンプルを集約した無相関化特徴ベクトルのどの部分をコード生成に使用するべきかを決めるために較正ステージではこの基準値を使用する。具体的に、この基準値は、特定パターンに固有かつ再現可能なコードを提供できるようなパターンサンプルの部分を導き出すために使用されている。これをステップ24として示す。
【0029】
基準値の使用方法は、取得したサンプルから得て複合化した特徴に関連付けて以下にて説明している。
【0030】
よって較正ステージ10は、一般平均値及び分散値を得、共分散値を用いて一つの無相関特徴値セットが得られる。(後述するように)平均特徴値を用いている無相関特徴値セットは、ステージ12において個別ユーザデータから得られるデータと同じ形という利点がある。
【0031】
データ解析ステージ12は、ステップ30において単一ユーザから、複数サンプル(通常2から10サンプル)の形で、ユーザデータを取得するステップを含む。特徴値はステップ32で取得し、これらは再びステップ34で標準化される。単一ユーザの複数サンプルから取得した異なる特徴の平均値、分散値及び共分散値は、ステップ36で得られ、これらは下記にて「域内サンプル」と称している。
【0032】
これらの値は、ステップ38で平均特徴値と同様に無相関化され、ステップ40で取得した平均値及び分散値を用いて各特徴に対する量子化レベルが設定される。この量子化は、捨てるべき低レベルビットを決定し、量子化レベルは等価とみなされる特徴値の範囲を決定する。
【0033】
ステップ42で、無相関特徴値の組み合わせから単一コードが得られる。
【0034】
量子化は、同一ユーザから得た複数のサンプルが同じ特徴値になるように平均及び分散を考慮する。無相関値の組み合わせは、同一ユーザの異なるサンプルから得たコードの差異を取り除くようにさらに処理する。
【0035】
システムの所有する主要なアプリケーションの一つは、テンプレートを必要としないバイオメトリック暗号化に使用される。しかしながら、本発明はより汎用性があり、通常、抽象的なパターン特徴値に固有の二進数列(コード)へのマッピングと関連する。
【0036】
パターン認識システムは、一般にクラスとして知られている特定のパターン群と関連付けて、パターンを構成する特徴を検知するように動作する。例えば、手書きの文字を識別することが考えられる。特定の主体の書いた文字がパターンのソースであり、例えば水平線及び垂直線などが特徴のパターン構成要素の場合があり(実際では多くの特徴はこれよりもっと抽象的であるが)、パターンのクラスが文字「A」、「B」、「C」等となる。
【0037】
パターン認識システムは、主体が供給した特定のパターンをあるパターンクラスへマッピングする、つまり主体の書いた文字を認識する、ためのアルゴリズムである。このシステムは、特徴の抽出(与えられた手書きのなぐり書きが水平線、垂直線等を含むか判断する)を行うように動作し、与えられた特徴セット(3本の水平線と1本の垂直線を有する文字が確実では無いが「E」である可能性が最も高い)を含む可能性が最も高いパターンクラスを算定する。
【0038】
本発明は、特にパターン認識システム自体にかかわるものではなく、むしろソースパターンからの抽出した特徴値を取って固有のキーへマッピングする技術に係わる。これは、下記にて「基数」として称し、ユーザ固有のコードである。
【0039】
また、本発明はパターンの特徴自体とは無関係であり、特徴抽出処理を扱わない。しかしながら、本発明の実用はソースパターンから抽出した有効な特徴セットに依存する。もちろん、これはあらゆるパターン認識システムついても同様である。
【0040】
本発明の動作の説明の前に、定義をいくつか示す。
ソースパターン:特定の主体からシステムへ提供される2値化されたデジタル入力。これらは生体情報に対応しているシステムにおいて、採用しているモダリティ(生体情報の種類)によって決まる指紋、署名、音紋等に関するデータで構成される。
特徴/特徴ベクトル:さらに進んだ処理のベースとして使用するソースパターンから抽出した構成値。各特徴は、1つの数字で表され、各特徴値のセットは、特徴ベクトルとして知られている各値のベクトルを形成する。
相互サンプルの平均ベクトル:システムは、それぞれがステージ10においてソースパターン例を提示する多数のサンプルユーザを用いて初期較正する。各パターンに設定される該当特徴セットが抽出され、各特徴値の算術平均(mean)が平方偏差(variance)とともに計算される。これらは下記にて定義される標準的な計算である。

ここで、xはサンプル特徴値を表し、nは総サンプル数を表す。
【0041】
域内サンプル平均:域内サンプル平均値は、サンプルソースパターンを1つの主体のみから取得している点を除いて相互サンプル平均と似ている。これらの値は、ステージ12でユーザから提供される実行時サンプルから算定することになる。下記はユーザiを対象に定義される標準的な計算である。

ここで、xはユーザiから得たサンプル値を表し、nはユーザiの提供した総サンプル数を表す。
【0042】
共分散マトリックス:2つの特徴値間の共分散は、これらの値間の相関関係を示す量を提供する。正の共分散は正相関を(ある特徴値は別の特徴値が増加すると共に増加する傾向がある)、0という共分散は独立した特徴を(ある特徴値は別の特徴値へ影響を及ぼさない)、また負の共分散は逆相関を示す(ある特徴値は別の特徴値が減少すると共に増加する傾向がある)。T個のサンプルの2つの特徴x及びx間の共分散は下記にて定義される。

共分散マトリックスとは、選択された特徴セットに対して考えられる全ての共分散値を含んだマトリックスであり、下記にて定義される。

【0043】
=基本操作=
上記の概略説明のように、本システムは、動作開始時に1度用いる較正段階とユーザが何らかのデータを暗号化または複合化するためにキーを必要とするたびに用いられるコード生成段階との2つの主要な段階に分かれている。これらの段階は以下にて詳細に説明する。
【0044】
=較正段階=
操作前に、システムで動作するパターン認識タスク(通常はバイオメトリックモダリティ;指紋、署名等)と選択したモダリティに使用する具体的な特徴セットについて判断がなされる。この段階は使用する各モダリティ、特徴セット及びおそらくは使用する各捕捉機器(例えば、指紋スキャナ)について繰り返す必要がある。システム動作に影響を与えることもある機器固有の特性によって後者の条件は変わる。
システム較正のためにユーザサンプルを取得する際、サンプル数が多い方がより良いシステム動作が得られるものの、ユーザ毎の正確なサンプル数は対象としているモダリティの安定性(例えば、指紋は署名より安定している)の違いに依存する。
下記にて説明するように、値の標準化はマッピング用ベクトルの生成を伴い、また無相関化動作についてもデータ解析段階の説明で詳細に述べている。
【0045】
=データ解析段階=
この段階ではユーザから得たサンプルの、基数として知られている数値へのマッピングを行い、これは後に設定する暗号化アルゴリズムを用いた暗号化キー生成のベースとして使用する場合がある。
ステップ30でユーザから取得した、特徴が抽出されるところの必要サンプル数は、モダリティによっては3つと少ない場合もあるが、他のモダリティはより多くのサンプル数を必要とする場合もある。システムの信頼性はサンプル数が増えると共に向上する。
【0046】
=特徴の正規化(ステップ34)=
パターン認識システムで使用する特徴は、高さや幅等の描写したパターンの筆跡から特定の署名を描く動作に関する動的な特徴まで数多くの形をとる場合もある。従って、特徴の値及び値域は、主に特徴自体の筆跡によって決まる。このため、各特徴の絶対値だけでは、他の特徴と関連付けて考えた場合、当然、意味論的価値をほとんど持たない(「3」という値をとる2つの特徴はどんな場合も等しいとはみなされないため、「3」という値はほとんど絶対的な意味を持たない)。
【0047】
根底にある意図は特徴値を組み合わせることにあるため、これらの絶対値に同等の意味を持たせるためには、特徴値を一定の等間隔目盛上に正規化する必要がある。この処理には、各特徴を等しく有効にする効果がある。本発明によるシステムの有意な特性は、下記から明らかなように、重み付け(各特徴値の重要度の割り当てという意味で)が、アルゴリズムの特徴組み合わせ段階42内で暗黙的に扱われていることである。
ある特徴が基数の生成にほとんど貢献しない場合、この事実が正規化段階において事前に演繹されないと、結果には暗にほとんど寄与しない。
2つの形の正規化を特定することができる。
【0048】
第1の形は、連続した値は均等性を定義する際に問題となるため、各特徴値が不連続となることを確実にする。多くの特徴は既に不連続でありこれらの処理にはこのステップは不要である。不連続でないものは最初に量子化操作が必要である。目盛上でとりうる値のとりうる非線形分布は、次の段階で対応しているため、この段階では重要ではない。しかし、間隔を定義して、計算値はこの間隔上にマッピングしなければならない。特定の特徴には正確な間隔が特定され、各区間は均等である必要はない。これらは各特徴に対して個々に定義されているが、強調されるべき点は、多くの特徴は既に不連続であることである。これらの間隔は各特徴に対して格納されている。
【0049】
第2の形は、取り得る決まった値域に関して特徴を正規化し、これらの値を取る可能性を均等化することである。(この問題は、濃度ヒストグラムの平滑化と類似している。)整数値の範囲は、最小値と最大値についてパラメータ表示して定義している。実際には、これらが大きく異なる必要なないが、各モダリティ、特徴セット及び候補となる装置について個別に定義されている。
【0050】
各特徴は同じ数値セットに対して正規化される。システム内の全ての特徴は、実際の数値セット(A)から訓練セット内の各サンプルの正規化された数値セット(N)へのマッピング用ベクトルが定義されており、下記の式に基づいて任意の実効値aは正規化数nにマッピングされる。

ここで、Tは総訓練サンプル数を表し、|A.A<a|はaより小なる値を示す全てのサンプル数を表す。
【0051】
上記の方程式において、サンプル値の値域の中央値は最小値から最大値までの値域の中央値上にマッピングされる。正規分布において(多くの特徴の場合に当てはまる)、平均値、最頻値及び中央値は同じになる傾向があり、上記の方程式で十分である。非正規分布、特に二山分布及び多峰形分布については、別の方法で実現される。
【0052】
これらの各分布に対し、特定ユーザのマッピング用ベクトルを定義してもよい。多峰形分布の場合、各構成モードは同じ正規化数へ、また局所的な中央平均に関連付けられた値はこの正規化平均からわずかにばらつきが生じてマッピングされる。簡単な例として、分布様式が10と20の値に集中している二山分布の特徴は、10と20のいずれの値をも正規化数nへマッピングできる。その後11と21はn+1へ、9と19はn−1へマッピングできる。最適なマッピングは特徴に依存するが、各特徴の正規化マッピングを微調整できる能力は、独特の分布を有する特徴をシステム内に効果的に取り入れることが可能となり、利点となる。
【0053】
=動的特徴の量子化(ステップ40)=
本システムに求められる基本的な特性は、各サンプルから同一基数を取得できることである。しかしながら、(バイオメトリック)パターンサンプルは必ずばらつきを含む(人間による署名は毎回異なる)。このようなばらつきを補正するために、特徴値にわずかな幅があっても同じ値を表すように特徴値のわずかなばらつきに対応する必要がある。類似した特徴値セットを同一結果値にグループ化する処理が量子化である。境界付近の値のわずかなばらつきは異なった量子化値へと導くため、各量子化範囲間の境界がどこに位置するかは、重要な問題である。テンプレートに対応したシステムの場合、量子化区間を作るために特定ユーザの特徴の平均値を求め、相互サンプルの分散に基づいたこの値のばらつきを用いる。
【0054】
先のサンプルの記録は、本発明のシステムにおいて保存されていないため、域内サンプル平均値及び分散値を、に毎回動的に再作成する必要があり、通常、量子化区間は誘導したサンプルセットと共に動的に決定される。このため、ばらつきは誤りをより起こしやすく、アルゴリズムはこれを補正できなければならない。この手順は以下の通りである。
【0055】
各正規化された特徴に対し、相互サンプル平均値及び分散値(例えば、較正段階で取得したもの)に基づいて静的量子化範囲が定義されている。
実際多くの特徴の場合、特徴のデフォルト正規化値は自然増分するために、量子化間隔として用いる場合がある。特徴によっては、この段階で区間数を再評価する必要がある(これらは格納されている値である)。
【0056】
ユーザから提供されたサンプルについて、域内サンプル平均値μiaと分散値σiaが算定される。域内サンプル平均値は特徴の期待値を決定し、域内分散値はその数値が平均値からどれだけ離れるかの指標となる。
その後域内分散値σiaは、潜在する特徴値に使用可能な分解能を減らすために、静的域内量子化幅の動的クラスター化に使用される。
【0057】
直感的に、分散量が大きいと結果として生じる特徴値に割り当てられるビット数は少なくなる。相互分散値σは特定の特徴から期待されるばらつきの全体パターンの決定に役立つ(域内分散値σiaが正確であれば相互分散値σを必要としないが域内分散値σiaは近似値であるため、これが何であるかの指標が役立つ)。
正確なアルゴリズムは量子化安全域qsmに基づいてパラメータ化され、下記にて表す。

で与えられる等価間隔を算定する。
この値は特徴のデフォルト間隔を含む値域を決定する。
【0058】
特徴に割り当てられた値は、正確な特徴語長を作成するために、右側がゼロでパディングされた全デフォルト間隔に共通したビットセットである。例えば、(異常に小さい)3ビットの特徴語長の場合、サンプルから代入された値が110であってivalの値域が両側の間隔をさらに含むと、含まれる値は101、110及び111となり結果として代入される値が100となる、つまり共通した第1のビットに2つのゼロでパディングされている。特徴語のビット数は正規化された量子化特徴間隔、max−minを十分に表す。
【0059】
従って量子化は、域内及び相互サンプル分散量を考慮することで、全サンプルの特徴値が同じ結果へマッピングされることを確実にすることを目的としている。
qsmの最適な値はバイオメトリックモダリティに依存する。
動的な分割及び量子化の問題点は、n個の特徴のn次元の特徴空間での問題として考えられる。各特徴を単独で扱い、量子化値を結合することは多くの特徴には安定的でない。
【0060】
各特徴は平均値と分散値を有する。域内サンプル特徴平均値は、n次元の特徴空間内での点を定義し、分散値は平均値まわりの種々の次元内での分布を規定する(特徴によってはこれを若干変化させる分布、例えば二方式及び複数方式、を有する場合もある原則は基本的に当てはまる)。域内サンプル平均値(一人の人間から提供されたサンプルに基づいて算定した平均値)は、空間内での異なる点を定義し、域内サンプルと相互サンプル間のベクトルは特定の主体に対する基本的な「バイオメトリック署名」を規定する。次にこのベクトルはキー生成システムの基礎を形成するが、これには問題もある。
【0061】
=相関関係=
特徴の相関関係(これは大雑把に言って個々の主体のベクトルが同じ方向を指す傾向として考えられる−−低次元空間で見た場合に最も明らかである)を取り除かなければならない。この背後にある重要な理由は、暗号解読する可能性のある者は生成されたキーの値を推定するために相関関係を利用する場合もあるからである。各キーが概ね同確率で起きるはずであるという意味で候補となるキースペース(keyspace)(この状況においては考えられる基数の範囲とみなすこともできる)を、十分に活用し予測不可能にすることが理想的である。
【0062】
候補キーが等しい確率で起きない場合、ある特徴値に関する情報または仮定を、たてまえ上無関係の特徴値を推定する際のガイドとして使用できるという点において、システムが攻撃を受ける可能性のある経路を示す。全てのキーが等しく確からしいわけではない場合、最も確率の高い値から続けて、システムを攻撃することがともすれば有利となる。
【0063】
実際のところ必要なことは、基数をできるだけ予測不可能にすることである。これを満たすためには、特徴どうしを可能な限り完全に無相関化することが必要である。これには他の特徴に依存する構成要素を全て取り除くような特徴値の調整を含む。これを達成するための一方法には共分散値を使用することがあり、これらは上述の通りステップ20及び36で取得する。
【0064】
各パターンの特徴について正規化された特徴値を用いて、上述のように共分散マトリックスが生成される。
【0065】
各特徴値に対して、共分散を合計し(主対角線上にある分散を除く)、平方根を求めることで無相関化係数が定義される。これは、さもなければ一桁大きい係数となってしまうために行われる。
【0066】
特徴fの係数κは下記にて定義され、ベクトルを形成するために組み合わせてもよい。

効果的な暗号化キーを形成するために全ての特徴値を組み合わせているため、この命題が成り立つ。従って、残る全ての正の相関関係は負の相関関係で打ち消され、結果的に中立で偏りのない基数となる。全ての分散は同じ次数で算定されるため、各特徴の正規化はこのようなことも可能にする。
【0067】
厳密に言えば、方程式は加法よりもむしろ下記にて説明する「折りたたみ関数(folding function)」を用いてパラメータ化する必要がある。この場合、方程式は下記の通りとなる。

ここで、「fold」とは折りたたみ関数を示し、fold-1は折りたたみ関数の逆数を示す。つまり、下記にて説明する組み合わせステージ42で折りたたみ関数に含まれる相関関係のずれを埋め合わせるために使用した共分散値のようである。
【0068】
=特徴の組み合わせ=
この最終段階は、特徴ベクトルを1次元(基)数上に集約させることを含み、量子化での域内サンプルの分散安定化と類似した技術を利用する。数値は、折りたたみ関数を用いて組み合わせ(例えば単純な和算の場合もある)後に下位バイトを切り捨て、残りの構成数値は各構成ビットの等しい有効なコードで表す。
【0069】
このように、上述の初期基数を得るために、無相関相互サンプルデータを組み合わせる方法と同じ方法で各特徴を組み合わせる。その後、RSAなどの「従来の」暗号数に利用される実際の基数は、初期基数中のビットの部分集合部で構成され、その正確な構成が後述するように較正段階での際に演繹される。
【0070】
最適なビットの部分集合を決定する較正アルゴリズムは、較正セット内の各構成主体κについて無相関で正規化された特徴ベクトルと、異なる特徴の全相互サンプル平均値の全ての組み合わせである相互サンプル平均ベクトルμirを利用する。実際には、較正セット内の各主体から取得したサンプル数は、次のキー生成段階で主体から取得するサンプル数を超えることになる。
【0071】
基本操作は、各ベクトルの各構成値を増やして特定ユーザ用の安定したビット集合を求めることである。アルゴリズムの操作は以下の通りである。
【0072】
上述の較正ステージの一部として、再度ベクトルを「平滑」し、基線数blを形成するために所定のパラメータ化された折りたたみ演算子(簡単な例として、足し算または掛け算がある)を相互サンプル平均ベクトルμirに用いる。この値は実際、所定の特徴セット、モダリティ及び機器用に格納されている。
【0073】
同じ折りたたみ演算子が、各特定サンプルjにそれぞれ無相関で、較正されたセット(つまり、較正の際に、各主体の各サンプルに対して疑似キー生成用連続演算がステップ40まで行われる)κij内の各特定主体iから順に正規化された特徴ベクトル内へ折りたたまれる。これらにより各主体について、これらは大基数basisセットが形成される。これは、各特定サンプルが1つの基数を有するセットであり、各基数は基線数blと同じ形である。
【0074】
問題となっているバイオメトリックモダリティを表す入力パターンのサンプルにばらつきがあるため、最上位ビットでは設定したbasisが同一であるが、最下位ビットは異なる。
【0075】
このように、異なるサンプルから固有のコードが得られるよう、基数のうち発散したビットを削除する必要がある。較正ステージの一部として、較正セット内に存在する拡張ユーザサンプルを解析することにより削除すべきビットを決定する。
【0076】
この決定は、較正データセットの全ての構成要素間をビット単位で比較し、各ユーザデータセット(同じビット数を含むことを確実にするために、最初に各サンプルの左を0で埋めることが必要となる場合もある)から各ビットが最初に発散する点を記録することで行える。次にこの記録位置は、右安全マージンとして知られている安全係数を用いて左に移動させる必要がある。右安全マージンの役割は、各サンプル間の類似性が偶然に起こるものでないことを確実にし、実際にはユーザが再現することのない非常に類似したサンプルにする。右安全マージンの値はバイオメトリックモダリティ、捕捉機器及び使用する折りたたみ演算子に依存してパラメータ化される。マージンの値が大きければ大きいほどシステムはより安定するが、その反面、暗号化キーの結果として得た基数内に存在する有効ビット数は少なくなる。
【0077】
結果として得た1つの値がより小なる基数basisとなる(つまり、より大なる基数basisセットの各要素の初めにある連続した同一ビットは、より小なる基数basisを形成するために使用される)。削除した各ビットは、価値の無い無秩序なノイズであり、削除してもよい。この演算は、較正セット内の各主体に対して行われ、右の削除する最適なビット数が推定される。これは、システムの安定性を最大にするために全ての主体について最も大きい値をとる。しかしながら、実際には、より大なる廃棄サイズを有する数少の主体のためにシステムを無能にするという代償を払って、システムのセキュリティを向上させるためにこれより小さい数を選択してもよい。廃棄する右側のビット数(右マージン)は、ここで、キー生成段階で使用するために格納してもよい。
【0078】
各主体のbasisの構成ビットがどの点で発散するかを判断するために、互いにまた基線数blと比較する。このようにしてサンプル値が基線数(これは各平均値から得られる)から発散する点を効果的に探す。これは、基線数に対応するビットは有用な暗号化関数を提供しないからである。
【0079】
発散前のビットは、全ユーザに共通のビットを表すため、特定ユーザに固有のキーを生成する際に有効ではない。再び、この位置を右側に移動することにより別のビットの左安全マージンが加えられるが、今回は、各ビットが大多数のユーザにとってたいていの場合は同じであるが常にとは限らない状態を防ぐために。左安全マージンのサイズを犠牲にする点は先の段階と類似している。今回は、ほとんどの場合で各ビットが同じであるため、左安全マージンが小さいほどキー空間内のキーがかたまる。左安全マージンが大きいほど結果として得られる基数内の有効ビット数が少なくなる。実際には、較正データの精度の信頼度が向上するため、較正セット内の主体数が多いほど左安全マージンのサイズが小さくなるであろう。再び、廃棄するビット数(左マージン)は、キー生成ステージで使用するために格納される。
【0080】
結果として得られるビットは特定のユーザには安定しているが、別のユーザにはそうでない。それでも、各ビットの左(最も有効な)側に向けて安定性が増す(つまり、右に向かうほどエラーが起きる可能性が高い)。特定ユーザ用の基数を形成するための最後の演算basisは、システムにパラメータ化されているランダム化関数を用いてビットの並びをランダム化することである。この演算は、キー空間のまとまりを実際に取り除くわけではなく、ただこれらを検知しにくくするだけであることに注意されたい。
【0081】
これらの計算は、基線数を求めるためにも使用する較正データセットを用いて行われる。そして、キー生成段階に特定の主体用に合わせて初期基数から抽出されるビットの部分集合を画定する2つのパラメータである左マージンと右マージンを生じることが最終的な結果となる。従って、1つのサンプル(または特定主体の少数サンプル)から生成される基数からキー生成段階で決まった数のビット数を抽出することができる。
【0082】
本技術の応用範囲は広い。応用範囲の具体的な例には以下を含む。
−(マルチメディア)文書の機密保護(テキスト、画像、ビデオ、音声)
−携帯電話へ/からの通信を含むモバイル通信、ネットワークセキュリティ及びユーザ確認
−DVD/ソフトウェア著作権保護
上述より、本発明は、システムに与えた2進数の入力源(パターン)から得た抽象的な特徴値から固有の2進数(ビット)を生成するアルゴリズムを提供することが明らかである。主な利用例の一つは、特定主体の提供したバイオメトリックサンプルから取得た特徴サンプルを取得し、これらを暗号化キー生成の土台を形成することもできる固有の数値へマッピングすることである。
【0083】
しかしながら、本発明は、いかなる特定パターンの特徴及びそれに伴って得る暗号化アルゴリズムにも限定されるものではない。
【0084】
実際、本発明の処理は、サンプルパターンを捕捉するための画像ハードウェアと共に使用するコンピュータプログラムとして実現される。
【0085】
本発明の方法を使用した暗号化システムは、システム利用者のバイオメトリックデータ用記憶部を必要としない。また、較正データも、個人ユーザの情報を一切提供しない、データ手段、分散値及び共分散値のみの格納を必要とする。
【0086】
組み合わせ処理は基本的に重み付けした特徴の組み合わせを実行するが、異なる重みを異なる特徴に割り当てる必要はない。
【0087】
その後に行われる暗号化については詳細に説明していないが、これは例えばRSA暗号化用の素数の生成を伴ってもよい。
【図1】


【特許請求の範囲】
【請求項1】
各々がパターンを形成しているサンプルのセットからコードを生成する方法であって、
(i)各サンプルを複数の特徴と解し、複数のサンプルを解析して前記複数のサンプルの複数の特徴値を取得することと、
(ii)前記特徴値のそれぞれが概ね等しい尤度で所定範囲の値のみを取る前記特徴値を適合させることにより前記特徴値を正規化することと、
(iii)前記複数のサンプルから得た前記異なる特徴の平均値、分散値及び共分散値を取得することと、
(iv)取得した平均値及び分散値を用いて各特徴に対し、前記特徴値が同等とみなされる範囲を決定している、量子化レベルを設定することと、
(v)前記共分散値から取得される無相関係数を用いて前記特徴値を無相関化することと、
(vi)前記特徴値の組み合わせから単一コードを導くことであって、前記単一コードが前記特徴値の組み合わせから導いた前記ビットの部分集合を含む、単一コードを導くこと
を備えたコード生成方法。
【請求項2】
前記正規化が連続した分散値を有する特徴値に量子化を適用することを含む請求項1に記載の方法。
【請求項3】
単一の値を求めることが
各特徴の無相関特徴値を取得することと、
前記無相関特徴値を組み合わせることと
を含む請求項1または2のいずれかに記載の方法。
【請求項4】
無相関特徴値を取得することが前記特徴の前記共分散値を他の各特徴と組み合わせることを含む請求項3に記載の方法。
【請求項5】
無相関特徴値セットが各サンプルにつき1つの組み合わせ特徴値を合わせて取得する請求項3または4に記載の方法。
【請求項6】
前記無相関特徴値を組み合わせることが
無相関特徴値を1つの単語に組み合わせるべく折りたたみ(fold)演算を行うことと、
前記単語の最下位ビットを取り除くことと、
前記単語の最上位ビットを取り除くこと
を含む請求項3,4または5に記載の方法。
【請求項7】
前記取り除いた最下位ビットの数及び前記取り除いた最上位ビットの数がシステム較正の際に取得したサンプルの平均特徴値から形成された単語の解析に基づいて選択し、前記同一折りたたみ演算を用いて組み合わせる請求項6に記載の方法。
【請求項8】
複数ユーザから複数較正サンプルを取得することと、
前記較正サンプルを解析して前記サンプルの特徴値を取得することと、
前記複数サンプルから前記異なる特徴の平均値、分散値及び共分散値を取得すること
を含む初期較正段階を実施することをさらに含む請求項1から7のいずれかに記載の方法。
【請求項9】
前記較正段階が各特徴の無相関正規化特徴値を取得することをさらに含む請求項8に記載の方法。
【請求項10】
平均値及び共分散値の取得前に前記特徴値を正規化することをさらに含む請求項8または9に記載の方法。
【請求項11】
前記較正段階で得た前記平均値及び分散値が量子化レベルの設定に用いられる請求項8から10のいずれかに記載の方法。
【請求項12】
請求項1から11のいずれかに記載の方法を用いてバイオメトリックサンプルからコードを生成することと、
暗号化キーを形成するために前記コードを使用すること
を備える暗号化キー生成方法。
【請求項13】
請求項12に記載の方法を用いて暗号化キーを生成し、データを暗号化するために前記暗号化キーを用いることを含む暗号化方法。
【請求項14】
コンピュータで実行すると請求項1から13のいずれかに記載の方法を遂行するようになっているコンピュータプログラム。
【請求項15】
複数のサンプルを解析して前記サンプルの特徴値を取得するための手段であって、各サンプルが複数の特徴として解される、手段と、
前記複数のサンプルから得た前記異なる特徴の平均値及び分散値を計算し、
前記サンプルデータと合わせて前記取得した平均値及び分散値を用いて各特徴に対し、前記特徴値が同等とみなされる範囲を決定している、量子化レベルを設定し、
前記特徴値のそれぞれが概ね等しい尤度で所定範囲の値のみを取る前記特徴値を適合させることにより前記特徴値を正規化し、
前記特徴値の組み合わせから単一コードを導くことであって、前記単一コードが前記特徴値の組み合わせから導いた前記ビットの部分集合を含む、単一コードを導く
ための処理手段と
を備えるバイオメトリックサンプルのセットからコードを生成するためのシステム。

【公表番号】特表2009−543392(P2009−543392A)
【公表日】平成21年12月3日(2009.12.3)
【国際特許分類】
【出願番号】特願2009−517416(P2009−517416)
【出願日】平成19年7月3日(2007.7.3)
【国際出願番号】PCT/GB2007/002471
【国際公開番号】WO2008/003945
【国際公開日】平成20年1月10日(2008.1.10)
【出願人】(509007193)ユニバーシティ オブ ケント (1)
【氏名又は名称原語表記】UNIVERSITY OF KENT
【住所又は居所原語表記】The Registry,University of Kent,Canterbury,Kent CT2 7NZ(GB)
【Fターム(参考)】