パターンの特徴からコードを生成するための方法及び装置

ユーザの異なるサンプルが同一のコードを提供すると共に別のユーザの各サンプルとを区別することを可能にする方法でバイオメトリックサンプルから１つのコードを取得するための方法を提供している。平均値及び分散値を得るために異なる特徴が解析され、これらは異なる特徴値の判読方法を制御するために使用される。さらに、各特徴を組み合わせ、この組み合わせのビットの部分集合をコードとして使用する。これは、全てのユーザサンプルに共通な各ビットのみならず、同一ユーザの異なるサンプル間で違うこともあるビットの切り捨てを可能にする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、パターンの特徴からコードを生成することに関する。コードは、一例として暗号化システムで使用することを目的として、例えば、機密保護に使用することができる。
【背景技術】
【０００２】
データの暗号化は、電子媒介データの保護用基本ツールであり、暗号化キーの使用を伴う。異なるシステムは異なる方法で動作し、通常通信する際にはその後秘密キーで複合化するデータの暗号化に使用する公開キーの交換を伴う。これらの暗号化システムは、秘密暗号化キーの機密保護が確実に保証されるものでない場合、不正なデータ改竄を必ずしも防ぐことができるわけではない。
【０００３】
従来の暗号化システムにおいて、ユーザが公開及び秘密キーを使用する際、各自の秘密キーが通信中に回収および交換可能となるように、通信処理中に使用する各自の秘密キーを記憶する必要があった。この秘密キーの記憶方法こそが機密保護に影響を及ぼす。
【０００４】
バイオメトリックデータ（指紋、網膜走査、手書き署名、音声プロフィールなど）を手段としてユーザが本人であることを確認するバイオメトリクスセキュリティシステムに対する関心は増しつつある。
【０００５】
上記のようなデータを使用するシステムは、当然ながら、正当なユーザのプロフィールのデータベースを、各所定ユーザの特定生体情報に関連したデータを封入したバイオメトリックテンプレートの形で維持しなければならない。生体情報システムに備えられたセキュリティを回避するための所要データを入手するために、許可されていないユーザまたはシステム管理者が生体情報テンプレートへアクセスする場合もある。
【０００６】
管理されているデータは、ユーザにとって個人的なものでもあり、このためユーザがシステム内に記憶するテンプレート生成用生体情報サンプルを提供したがらない場合がある。
【発明の概要】
【課題を解決するための手段】
【０００７】
本発明によれば、各々がパターンを形成しているサンプルのセットからコードを生成する方法であって、
（ｉ）各サンプルを複数の特徴と解し、複数のサンプルを解析して前記複数のサンプルの複数の特徴値を取得することと、
（ｉｉ）前記特徴値のそれぞれが概ね等しい尤度で所定範囲の値のみを取る前記特徴値を適合させることにより前記特徴値を正規化することと、
（ｉｉｉ）前記複数のサンプルから得た前記異なる特徴の平均値、分散値及び共分散値を取得することと、
（ｉｖ）取得した平均値及び分散値を用いて各特徴に対し、前記特徴値が同等とみなされる範囲を決定している、量子化レベルを設定することと、
（ｖ）前記共分散値から取得される無相関係数を用いて前記特徴値を無相関化することと、
（ｖｉ）前記特徴値の組み合わせから単一コードを導くことであって、前記単一コードが前記特徴値の組み合わせから導いた前記ビットの部分集合を含む、単一コードを導くこと
を備えたコード生成方法が提供される。
【０００８】
本発明は、一人のユーザより得た異なるサンプルから同一のコードを得つつも、異なるユーザのサンプル間で区別可能となるような形で、１つの生体情報サンプルから１つのコードを導き出す方法を提供する。平均値及び分散値を求めるために異なる特徴を解析し、これらの値は異なる特徴値の解読方法を操作するために使用される。さらに、特徴を組み合わせ、この組み合わせの複数のビットの部分集合をコードとして使用する。これにより全ユーザサンプルに共通したビットとともに同一ユーザの異なるサンプル間で相違することもあるビットの排除が可能となる。
【０００９】
特徴値の標準化は、各特徴が（統計的に）等しく有効になることを可能にする。この標準化は、連続した変数を有する特徴値に量子化を利用することを含むこともある。
【００１０】
本方法は、暗号化処理の動作を認証するためのバイオメトリック個人情報の可能性を引き出す、テンプレートを要しない暗号化システムの一部として使用できる。本発明による方法の基本的な一応用例は、生体に基づいたデータから直接暗号化キーを生成してデータ機密保護を向上させることである。
【００１１】
このようなシステムは、ユーザを認証するための生体自体（テンプレートとして知られている）に関する全情報を格納する必要性をなくす有意な利点を示し、よって従来のシステムに伴う問題に直接対処する。格納されているデータへアクセスする危険が無いため、システムの機密性は採用している生体及び暗号化アルゴリズムと同程度に確実なものとなる。その後利用するための方法は、生体の別のサンプル提供すること、あるいは暗号化技術で採用している暗号を破ることだけである。
【００１２】
本方法は非対称暗号化システムに使用できることが望ましい。通常のシステムは秘密キーを記憶することができないため、データを複合化するための秘密キーが何らかの方法で格納されていることを要する。本発明の方法を活用することにより、キーを特定の生体情報サンプルに一意に関連付けることを可能にし、従って別の生体情報サンプルには必要となる秘密キーを生成しなければならない。このためキーに関するあらゆる物理的記録を排除でき、よって、キーを収容している記憶装置への不正アクセスを通して感知可能なデータの機密性を脅かすことはできない。
【００１３】
本発明の本方法を応用することにより、どのようなシステム障害があっても、さもなければ同じ生体情報で保護されている他のシステムへ、事実上存在する他の全ての生体情報テンプレートで保護されている全てのシステムへの不正アクセスを許す、感知可能な生体情報テンプレートデータを解放することはないという点でも有利である。
【００１４】
単一の値を取得するための処理は
各特徴の無相関特徴値を取得することと、
前記無相関特徴値を組み合わせることと
を含むことが好ましい。
【００１５】
無相関特徴値の使用は、１つの特徴の複数の値は他の特徴との相関関係に基づいて算出することができないことを意味する。特徴間の相関関係を取り除くことによりシステムの機密性が向上する。
【００１６】
無相関特徴値の取得することには、その特徴の共分散値をその他の各特徴と組み合わせることを含む場合もある。各サンプルの１つの複合特徴値から、一組の複合無相関特徴値を取得することもできる。
【００１７】
次に、その一組の無相関（特徴）値は折り返し（fold）操作を用いて、無相関特徴値を１つの単語に複合することもできる。これにより単語の最下位及び最上位ビットを取り除くことができる。この処理は、同一ユーザのサンプル間で異なりがちな音を表す複合化された単語の複数のビットを取り除くが、また多くのユーザにとって同じである可能性の高い複合化された単語の各ビットをも取り除いてしまうため、固有のコードを導くには有用性が低い。
【００１８】
取り除いた最下位ビットの数と取り除いた最上位ビットの数は、システム較正の際にいくつかの異なる主体から得たサンプルの平均特徴値から形成された単語の解析に基づいて選択し、同一折り返し操作を用いて複合化することができる。よって、システム較正は（好ましくは）多数のサンプルの平均特徴値を決めるために使用され、平均値からの特定のユーザの偏りを表す複合化された単語の各部分が固有コードに使用される。
【００１９】
初期較正段階は
複数ユーザから複数較正サンプルを取得することと、
前記較正サンプルを解析して前記サンプルの特徴値を取得することと、
前記複数サンプルから前記異なる特徴の平均値、分散値及び共分散値を取得すること
を含む場合がある。
【００２０】
較正には、各特徴の無相関標準化特徴値を取得すること；また、与えられたサンプルから全ての特徴を複合化する単一の単語から、抽出すべき主体を一意に識別する最適ビットを算定することをも含むことが好ましい。
【００２１】
本発明は、前述のいずれかの請求項に記載されている本発明の方法を用いてバイオメトリックサンプルからコードを生成し、そのコードを暗号化キーの形成に使用することを含む暗号化キー生成方法も提供する。そして、本方法は暗号化方法に使用される。
本方法はコンピュータプログラムで実行することができる。
【００２２】
本発明は、
複数のサンプルを解析して前記サンプルの特徴値を取得するための手段であって、各サンプルが複数の特徴として解される、手段と、
前記複数のサンプルから得た前記異なる特徴の平均値及び分散値を計算し、
前記サンプルデータと合わせて前記取得した平均値及び分散値を用いて各特徴に対し、前記特徴値が同等とみなされる範囲を決定している、量子化レベルを設定し、
前記特徴値のそれぞれが概ね等しい尤度で所定範囲の値のみを取る前記特徴値を適合させることにより前記特徴値を正規化し、
前記特徴値の組み合わせから単一コードを導くことであって、前記単一コードが前記特徴値の組み合わせから導いた前記ビットの部分集合を含む、単一コードを導く
ための処理手段と
を備えるバイオメトリックサンプルのセットからコードを生成するためのシステムも提供する。
【図面の簡単な説明】
【００２３】
本発明の方法を示すフロー図である、本発明の一例を添付の図面を参照して詳細に説明する。
【発明を実施するための形態】
【００２４】
本発明は、主としてバイオメトリックサンプルから、サンプル毎に固有の、同一ユーザから得た異なるサンプル間で同じにするコードの生成方法を提供する。
異なる段階で使用する各手順の詳細な説明の前に、まず図に示す本方法の各ステップの概略を説明する。
【００２５】
本手順では、一般ユーザの母集団に関する統計データを含むアルゴリズムを使用し、これは、ユーザデータを解析するステージ１２の前に較正ステージ１０（一回行う）で取得する。
【００２６】
較正ステージ１０では、多数のユーザから多数の較正サンプル（「相互サンプルデータ」）を取得すること（ステップ１４）、各較正サンプルを解析して各サンプルの特徴値を取得すること（ステップ１６）を伴う。各特徴値に同領域の値を持たせるステップ１８における平均化の後に、ステップ２０において異なる特徴の平均値、分散値及び共分散値を取得する。
【００２７】
平均値及び分散値は、捕捉されたデータと異なる離散値とのマッピング方法を画定する（後述する）パターンデータの量子化に使用され、共分散値は特徴値の無相関化を可能にするために使用される。この無相関化は、互いに独立した特徴値を画定するために、ステップ２２における相互サンプルデータに適用される。
【００２８】
この無相関化された相互サンプルデータは、いわゆる基準値を得るために使用される。これは各無相関平均特徴値の１つの数値への集約を表す一次元数値である。後述するように、得られたパターンサンプルを集約した無相関化特徴ベクトルのどの部分をコード生成に使用するべきかを決めるために較正ステージではこの基準値を使用する。具体的に、この基準値は、特定パターンに固有かつ再現可能なコードを提供できるようなパターンサンプルの部分を導き出すために使用されている。これをステップ２４として示す。
【００２９】
基準値の使用方法は、取得したサンプルから得て複合化した特徴に関連付けて以下にて説明している。
【００３０】
よって較正ステージ１０は、一般平均値及び分散値を得、共分散値を用いて一つの無相関特徴値セットが得られる。（後述するように）平均特徴値を用いている無相関特徴値セットは、ステージ１２において個別ユーザデータから得られるデータと同じ形という利点がある。
【００３１】
データ解析ステージ１２は、ステップ３０において単一ユーザから、複数サンプル（通常２から１０サンプル）の形で、ユーザデータを取得するステップを含む。特徴値はステップ３２で取得し、これらは再びステップ３４で標準化される。単一ユーザの複数サンプルから取得した異なる特徴の平均値、分散値及び共分散値は、ステップ３６で得られ、これらは下記にて「域内サンプル」と称している。
【００３２】
これらの値は、ステップ３８で平均特徴値と同様に無相関化され、ステップ４０で取得した平均値及び分散値を用いて各特徴に対する量子化レベルが設定される。この量子化は、捨てるべき低レベルビットを決定し、量子化レベルは等価とみなされる特徴値の範囲を決定する。
【００３３】
ステップ４２で、無相関特徴値の組み合わせから単一コードが得られる。
【００３４】
量子化は、同一ユーザから得た複数のサンプルが同じ特徴値になるように平均及び分散を考慮する。無相関値の組み合わせは、同一ユーザの異なるサンプルから得たコードの差異を取り除くようにさらに処理する。
【００３５】
システムの所有する主要なアプリケーションの一つは、テンプレートを必要としないバイオメトリック暗号化に使用される。しかしながら、本発明はより汎用性があり、通常、抽象的なパターン特徴値に固有の二進数列（コード）へのマッピングと関連する。
【００３６】
パターン認識システムは、一般にクラスとして知られている特定のパターン群と関連付けて、パターンを構成する特徴を検知するように動作する。例えば、手書きの文字を識別することが考えられる。特定の主体の書いた文字がパターンのソースであり、例えば水平線及び垂直線などが特徴のパターン構成要素の場合があり（実際では多くの特徴はこれよりもっと抽象的であるが）、パターンのクラスが文字「Ａ」、「Ｂ」、「Ｃ」等となる。
【００３７】
パターン認識システムは、主体が供給した特定のパターンをあるパターンクラスへマッピングする、つまり主体の書いた文字を認識する、ためのアルゴリズムである。このシステムは、特徴の抽出（与えられた手書きのなぐり書きが水平線、垂直線等を含むか判断する）を行うように動作し、与えられた特徴セット（３本の水平線と１本の垂直線を有する文字が確実では無いが「Ｅ」である可能性が最も高い）を含む可能性が最も高いパターンクラスを算定する。
【００３８】
本発明は、特にパターン認識システム自体にかかわるものではなく、むしろソースパターンからの抽出した特徴値を取って固有のキーへマッピングする技術に係わる。これは、下記にて「基数」として称し、ユーザ固有のコードである。
【００３９】
また、本発明はパターンの特徴自体とは無関係であり、特徴抽出処理を扱わない。しかしながら、本発明の実用はソースパターンから抽出した有効な特徴セットに依存する。もちろん、これはあらゆるパターン認識システムついても同様である。
【００４０】
本発明の動作の説明の前に、定義をいくつか示す。
ソースパターン：特定の主体からシステムへ提供される２値化されたデジタル入力。これらは生体情報に対応しているシステムにおいて、採用しているモダリティ（生体情報の種類）によって決まる指紋、署名、音紋等に関するデータで構成される。
特徴／特徴ベクトル：さらに進んだ処理のベースとして使用するソースパターンから抽出した構成値。各特徴は、１つの数字で表され、各特徴値のセットは、特徴ベクトルとして知られている各値のベクトルを形成する。
相互サンプルの平均ベクトル：システムは、それぞれがステージ１０においてソースパターン例を提示する多数のサンプルユーザを用いて初期較正する。各パターンに設定される該当特徴セットが抽出され、各特徴値の算術平均（mean）が平方偏差（variance）とともに計算される。これらは下記にて定義される標準的な計算である。

ここで、ｘはサンプル特徴値を表し、ｎは総サンプル数を表す。
【００４１】
域内サンプル平均：域内サンプル平均値は、サンプルソースパターンを１つの主体のみから取得している点を除いて相互サンプル平均と似ている。これらの値は、ステージ１２でユーザから提供される実行時サンプルから算定することになる。下記はユーザｉを対象に定義される標準的な計算である。

ここで、ｘ_ｉはユーザｉから得たサンプル値を表し、ｎ_ｉはユーザｉの提供した総サンプル数を表す。
【００４２】
共分散マトリックス：２つの特徴値間の共分散は、これらの値間の相関関係を示す量を提供する。正の共分散は正相関を（ある特徴値は別の特徴値が増加すると共に増加する傾向がある）、０という共分散は独立した特徴を（ある特徴値は別の特徴値へ影響を及ぼさない）、また負の共分散は逆相関を示す（ある特徴値は別の特徴値が減少すると共に増加する傾向がある）。Ｔ個のサンプルの２つの特徴ｘ_１及びｘ_２間の共分散は下記にて定義される。

共分散マトリックスとは、選択された特徴セットに対して考えられる全ての共分散値を含んだマトリックスであり、下記にて定義される。

【００４３】
＝基本操作＝
上記の概略説明のように、本システムは、動作開始時に１度用いる較正段階とユーザが何らかのデータを暗号化または複合化するためにキーを必要とするたびに用いられるコード生成段階との２つの主要な段階に分かれている。これらの段階は以下にて詳細に説明する。
【００４４】
＝較正段階＝
操作前に、システムで動作するパターン認識タスク（通常はバイオメトリックモダリティ；指紋、署名等）と選択したモダリティに使用する具体的な特徴セットについて判断がなされる。この段階は使用する各モダリティ、特徴セット及びおそらくは使用する各捕捉機器（例えば、指紋スキャナ）について繰り返す必要がある。システム動作に影響を与えることもある機器固有の特性によって後者の条件は変わる。
システム較正のためにユーザサンプルを取得する際、サンプル数が多い方がより良いシステム動作が得られるものの、ユーザ毎の正確なサンプル数は対象としているモダリティの安定性（例えば、指紋は署名より安定している）の違いに依存する。
下記にて説明するように、値の標準化はマッピング用ベクトルの生成を伴い、また無相関化動作についてもデータ解析段階の説明で詳細に述べている。
【００４５】
＝データ解析段階＝
この段階ではユーザから得たサンプルの、基数として知られている数値へのマッピングを行い、これは後に設定する暗号化アルゴリズムを用いた暗号化キー生成のベースとして使用する場合がある。
ステップ３０でユーザから取得した、特徴が抽出されるところの必要サンプル数は、モダリティによっては３つと少ない場合もあるが、他のモダリティはより多くのサンプル数を必要とする場合もある。システムの信頼性はサンプル数が増えると共に向上する。
【００４６】
＝特徴の正規化（ステップ３４）＝
パターン認識システムで使用する特徴は、高さや幅等の描写したパターンの筆跡から特定の署名を描く動作に関する動的な特徴まで数多くの形をとる場合もある。従って、特徴の値及び値域は、主に特徴自体の筆跡によって決まる。このため、各特徴の絶対値だけでは、他の特徴と関連付けて考えた場合、当然、意味論的価値をほとんど持たない（「３」という値をとる２つの特徴はどんな場合も等しいとはみなされないため、「３」という値はほとんど絶対的な意味を持たない）。
【００４７】
根底にある意図は特徴値を組み合わせることにあるため、これらの絶対値に同等の意味を持たせるためには、特徴値を一定の等間隔目盛上に正規化する必要がある。この処理には、各特徴を等しく有効にする効果がある。本発明によるシステムの有意な特性は、下記から明らかなように、重み付け（各特徴値の重要度の割り当てという意味で）が、アルゴリズムの特徴組み合わせ段階４２内で暗黙的に扱われていることである。
ある特徴が基数の生成にほとんど貢献しない場合、この事実が正規化段階において事前に演繹されないと、結果には暗にほとんど寄与しない。
２つの形の正規化を特定することができる。
【００４８】
第１の形は、連続した値は均等性を定義する際に問題となるため、各特徴値が不連続となることを確実にする。多くの特徴は既に不連続でありこれらの処理にはこのステップは不要である。不連続でないものは最初に量子化操作が必要である。目盛上でとりうる値のとりうる非線形分布は、次の段階で対応しているため、この段階では重要ではない。しかし、間隔を定義して、計算値はこの間隔上にマッピングしなければならない。特定の特徴には正確な間隔が特定され、各区間は均等である必要はない。これらは各特徴に対して個々に定義されているが、強調されるべき点は、多くの特徴は既に不連続であることである。これらの間隔は各特徴に対して格納されている。
【００４９】
第２の形は、取り得る決まった値域に関して特徴を正規化し、これらの値を取る可能性を均等化することである。（この問題は、濃度ヒストグラムの平滑化と類似している。）整数値の範囲は、最小値と最大値についてパラメータ表示して定義している。実際には、これらが大きく異なる必要なないが、各モダリティ、特徴セット及び候補となる装置について個別に定義されている。
【００５０】
各特徴は同じ数値セットに対して正規化される。システム内の全ての特徴は、実際の数値セット（Ａ）から訓練セット内の各サンプルの正規化された数値セット（Ｎ）へのマッピング用ベクトルが定義されており、下記の式に基づいて任意の実効値ａは正規化数ｎにマッピングされる。

ここで、Ｔは総訓練サンプル数を表し、｜Ａ_ｉ．Ａ_ｉ＜ａ｜はａより小なる値を示す全てのサンプル数を表す。
【００５１】
上記の方程式において、サンプル値の値域の中央値は最小値から最大値までの値域の中央値上にマッピングされる。正規分布において（多くの特徴の場合に当てはまる）、平均値、最頻値及び中央値は同じになる傾向があり、上記の方程式で十分である。非正規分布、特に二山分布及び多峰形分布については、別の方法で実現される。
【００５２】
これらの各分布に対し、特定ユーザのマッピング用ベクトルを定義してもよい。多峰形分布の場合、各構成モードは同じ正規化数へ、また局所的な中央平均に関連付けられた値はこの正規化平均からわずかにばらつきが生じてマッピングされる。簡単な例として、分布様式が１０と２０の値に集中している二山分布の特徴は、１０と２０のいずれの値をも正規化数ｎへマッピングできる。その後１１と２１はｎ＋１へ、９と１９はｎ−１へマッピングできる。最適なマッピングは特徴に依存するが、各特徴の正規化マッピングを微調整できる能力は、独特の分布を有する特徴をシステム内に効果的に取り入れることが可能となり、利点となる。
【００５３】
＝動的特徴の量子化（ステップ４０）＝
本システムに求められる基本的な特性は、各サンプルから同一基数を取得できることである。しかしながら、（バイオメトリック）パターンサンプルは必ずばらつきを含む（人間による署名は毎回異なる）。このようなばらつきを補正するために、特徴値にわずかな幅があっても同じ値を表すように特徴値のわずかなばらつきに対応する必要がある。類似した特徴値セットを同一結果値にグループ化する処理が量子化である。境界付近の値のわずかなばらつきは異なった量子化値へと導くため、各量子化範囲間の境界がどこに位置するかは、重要な問題である。テンプレートに対応したシステムの場合、量子化区間を作るために特定ユーザの特徴の平均値を求め、相互サンプルの分散に基づいたこの値のばらつきを用いる。
【００５４】
先のサンプルの記録は、本発明のシステムにおいて保存されていないため、域内サンプル平均値及び分散値を、に毎回動的に再作成する必要があり、通常、量子化区間は誘導したサンプルセットと共に動的に決定される。このため、ばらつきは誤りをより起こしやすく、アルゴリズムはこれを補正できなければならない。この手順は以下の通りである。
【００５５】
各正規化された特徴に対し、相互サンプル平均値及び分散値（例えば、較正段階で取得したもの）に基づいて静的量子化範囲が定義されている。
実際多くの特徴の場合、特徴のデフォルト正規化値は自然増分するために、量子化間隔として用いる場合がある。特徴によっては、この段階で区間数を再評価する必要がある（これらは格納されている値である）。
【００５６】
ユーザから提供されたサンプルについて、域内サンプル平均値μ_ｉａと分散値σ_ｉａ^２が算定される。域内サンプル平均値は特徴の期待値を決定し、域内分散値はその数値が平均値からどれだけ離れるかの指標となる。
その後域内分散値σ_ｉａ^２は、潜在する特徴値に使用可能な分解能を減らすために、静的域内量子化幅の動的クラスター化に使用される。
【００５７】
直感的に、分散量が大きいと結果として生じる特徴値に割り当てられるビット数は少なくなる。相互分散値σ_ｒ^２は特定の特徴から期待されるばらつきの全体パターンの決定に役立つ（域内分散値σ_ｉａ^２が正確であれば相互分散値σ_ｒ^２を必要としないが域内分散値σ_ｉａ^２は近似値であるため、これが何であるかの指標が役立つ）。
正確なアルゴリズムは量子化安全域qsmに基づいてパラメータ化され、下記にて表す。

で与えられる等価間隔を算定する。
この値は特徴のデフォルト間隔を含む値域を決定する。
【００５８】
特徴に割り当てられた値は、正確な特徴語長を作成するために、右側がゼロでパディングされた全デフォルト間隔に共通したビットセットである。例えば、（異常に小さい）３ビットの特徴語長の場合、サンプルから代入された値が１１０であってivalの値域が両側の間隔をさらに含むと、含まれる値は１０１、１１０及び１１１となり結果として代入される値が１００となる、つまり共通した第１のビットに２つのゼロでパディングされている。特徴語のビット数は正規化された量子化特徴間隔、max−minを十分に表す。
【００５９】
従って量子化は、域内及び相互サンプル分散量を考慮することで、全サンプルの特徴値が同じ結果へマッピングされることを確実にすることを目的としている。
qsmの最適な値はバイオメトリックモダリティに依存する。
動的な分割及び量子化の問題点は、ｎ個の特徴のｎ次元の特徴空間での問題として考えられる。各特徴を単独で扱い、量子化値を結合することは多くの特徴には安定的でない。
【００６０】
各特徴は平均値と分散値を有する。域内サンプル特徴平均値は、ｎ次元の特徴空間内での点を定義し、分散値は平均値まわりの種々の次元内での分布を規定する（特徴によってはこれを若干変化させる分布、例えば二方式及び複数方式、を有する場合もある原則は基本的に当てはまる）。域内サンプル平均値（一人の人間から提供されたサンプルに基づいて算定した平均値）は、空間内での異なる点を定義し、域内サンプルと相互サンプル間のベクトルは特定の主体に対する基本的な「バイオメトリック署名」を規定する。次にこのベクトルはキー生成システムの基礎を形成するが、これには問題もある。
【００６１】
＝相関関係＝
特徴の相関関係（これは大雑把に言って個々の主体のベクトルが同じ方向を指す傾向として考えられる−−低次元空間で見た場合に最も明らかである）を取り除かなければならない。この背後にある重要な理由は、暗号解読する可能性のある者は生成されたキーの値を推定するために相関関係を利用する場合もあるからである。各キーが概ね同確率で起きるはずであるという意味で候補となるキースペース（keyspace）（この状況においては考えられる基数の範囲とみなすこともできる）を、十分に活用し予測不可能にすることが理想的である。
【００６２】
候補キーが等しい確率で起きない場合、ある特徴値に関する情報または仮定を、たてまえ上無関係の特徴値を推定する際のガイドとして使用できるという点において、システムが攻撃を受ける可能性のある経路を示す。全てのキーが等しく確からしいわけではない場合、最も確率の高い値から続けて、システムを攻撃することがともすれば有利となる。
【００６３】
実際のところ必要なことは、基数をできるだけ予測不可能にすることである。これを満たすためには、特徴どうしを可能な限り完全に無相関化することが必要である。これには他の特徴に依存する構成要素を全て取り除くような特徴値の調整を含む。これを達成するための一方法には共分散値を使用することがあり、これらは上述の通りステップ２０及び３６で取得する。
【００６４】
各パターンの特徴について正規化された特徴値を用いて、上述のように共分散マトリックスが生成される。
【００６５】
各特徴値に対して、共分散を合計し（主対角線上にある分散を除く）、平方根を求めることで無相関化係数が定義される。これは、さもなければ一桁大きい係数となってしまうために行われる。
【００６６】
特徴ｆの係数κは下記にて定義され、ベクトルを形成するために組み合わせてもよい。

効果的な暗号化キーを形成するために全ての特徴値を組み合わせているため、この命題が成り立つ。従って、残る全ての正の相関関係は負の相関関係で打ち消され、結果的に中立で偏りのない基数となる。全ての分散は同じ次数で算定されるため、各特徴の正規化はこのようなことも可能にする。
【００６７】
厳密に言えば、方程式は加法よりもむしろ下記にて説明する「折りたたみ関数（folding function）」を用いてパラメータ化する必要がある。この場合、方程式は下記の通りとなる。

ここで、「fold」とは折りたたみ関数を示し、fold^-1は折りたたみ関数の逆数を示す。つまり、下記にて説明する組み合わせステージ４２で折りたたみ関数に含まれる相関関係のずれを埋め合わせるために使用した共分散値のようである。
【００６８】
＝特徴の組み合わせ＝
この最終段階は、特徴ベクトルを１次元（基）数上に集約させることを含み、量子化での域内サンプルの分散安定化と類似した技術を利用する。数値は、折りたたみ関数を用いて組み合わせ（例えば単純な和算の場合もある）後に下位バイトを切り捨て、残りの構成数値は各構成ビットの等しい有効なコードで表す。
【００６９】
このように、上述の初期基数を得るために、無相関相互サンプルデータを組み合わせる方法と同じ方法で各特徴を組み合わせる。その後、ＲＳＡなどの「従来の」暗号数に利用される実際の基数は、初期基数中のビットの部分集合部で構成され、その正確な構成が後述するように較正段階での際に演繹される。
【００７０】
最適なビットの部分集合を決定する較正アルゴリズムは、較正セット内の各構成主体κ_ｉについて無相関で正規化された特徴ベクトルと、異なる特徴の全相互サンプル平均値の全ての組み合わせである相互サンプル平均ベクトルμ_ｉｒを利用する。実際には、較正セット内の各主体から取得したサンプル数は、次のキー生成段階で主体から取得するサンプル数を超えることになる。
【００７１】
基本操作は、各ベクトルの各構成値を増やして特定ユーザ用の安定したビット集合を求めることである。アルゴリズムの操作は以下の通りである。
【００７２】
上述の較正ステージの一部として、再度ベクトルを「平滑」し、基線数blを形成するために所定のパラメータ化された折りたたみ演算子（簡単な例として、足し算または掛け算がある）を相互サンプル平均ベクトルμ_ｉｒに用いる。この値は実際、所定の特徴セット、モダリティ及び機器用に格納されている。
【００７３】
同じ折りたたみ演算子が、各特定サンプルｊにそれぞれ無相関で、較正されたセット（つまり、較正の際に、各主体の各サンプルに対して疑似キー生成用連続演算がステップ４０まで行われる）κ_ｉｊ内の各特定主体ｉから順に正規化された特徴ベクトル内へ折りたたまれる。これらにより各主体について、これらは大基数basis^↑_ｊセットが形成される。これは、各特定サンプルが１つの基数を有するセットであり、各基数は基線数blと同じ形である。
【００７４】
問題となっているバイオメトリックモダリティを表す入力パターンのサンプルにばらつきがあるため、最上位ビットでは設定したbasis^↑_ｊが同一であるが、最下位ビットは異なる。
【００７５】
このように、異なるサンプルから固有のコードが得られるよう、基数のうち発散したビットを削除する必要がある。較正ステージの一部として、較正セット内に存在する拡張ユーザサンプルを解析することにより削除すべきビットを決定する。
【００７６】
この決定は、較正データセットの全ての構成要素間をビット単位で比較し、各ユーザデータセット（同じビット数を含むことを確実にするために、最初に各サンプルの左を０で埋めることが必要となる場合もある）から各ビットが最初に発散する点を記録することで行える。次にこの記録位置は、右安全マージンとして知られている安全係数を用いて左に移動させる必要がある。右安全マージンの役割は、各サンプル間の類似性が偶然に起こるものでないことを確実にし、実際にはユーザが再現することのない非常に類似したサンプルにする。右安全マージンの値はバイオメトリックモダリティ、捕捉機器及び使用する折りたたみ演算子に依存してパラメータ化される。マージンの値が大きければ大きいほどシステムはより安定するが、その反面、暗号化キーの結果として得た基数内に存在する有効ビット数は少なくなる。
【００７７】
結果として得た１つの値がより小なる基数basis^↓_ｉとなる（つまり、より大なる基数basis^↑_ｊセットの各要素の初めにある連続した同一ビットは、より小なる基数basis^↓_ｉを形成するために使用される）。削除した各ビットは、価値の無い無秩序なノイズであり、削除してもよい。この演算は、較正セット内の各主体に対して行われ、右の削除する最適なビット数が推定される。これは、システムの安定性を最大にするために全ての主体について最も大きい値をとる。しかしながら、実際には、より大なる廃棄サイズを有する数少の主体のためにシステムを無能にするという代償を払って、システムのセキュリティを向上させるためにこれより小さい数を選択してもよい。廃棄する右側のビット数（右マージン）は、ここで、キー生成段階で使用するために格納してもよい。
【００７８】
各主体のbasis^↓_ｌの構成ビットがどの点で発散するかを判断するために、互いにまた基線数blと比較する。このようにしてサンプル値が基線数（これは各平均値から得られる）から発散する点を効果的に探す。これは、基線数に対応するビットは有用な暗号化関数を提供しないからである。
【００７９】
発散前のビットは、全ユーザに共通のビットを表すため、特定ユーザに固有のキーを生成する際に有効ではない。再び、この位置を右側に移動することにより別のビットの左安全マージンが加えられるが、今回は、各ビットが大多数のユーザにとってたいていの場合は同じであるが常にとは限らない状態を防ぐために。左安全マージンのサイズを犠牲にする点は先の段階と類似している。今回は、ほとんどの場合で各ビットが同じであるため、左安全マージンが小さいほどキー空間内のキーがかたまる。左安全マージンが大きいほど結果として得られる基数内の有効ビット数が少なくなる。実際には、較正データの精度の信頼度が向上するため、較正セット内の主体数が多いほど左安全マージンのサイズが小さくなるであろう。再び、廃棄するビット数（左マージン）は、キー生成ステージで使用するために格納される。
【００８０】
結果として得られるビットは特定のユーザには安定しているが、別のユーザにはそうでない。それでも、各ビットの左（最も有効な）側に向けて安定性が増す（つまり、右に向かうほどエラーが起きる可能性が高い）。特定ユーザ用の基数を形成するための最後の演算basis_ｉは、システムにパラメータ化されているランダム化関数を用いてビットの並びをランダム化することである。この演算は、キー空間のまとまりを実際に取り除くわけではなく、ただこれらを検知しにくくするだけであることに注意されたい。
【００８１】
これらの計算は、基線数を求めるためにも使用する較正データセットを用いて行われる。そして、キー生成段階に特定の主体用に合わせて初期基数から抽出されるビットの部分集合を画定する２つのパラメータである左マージンと右マージンを生じることが最終的な結果となる。従って、１つのサンプル（または特定主体の少数サンプル）から生成される基数からキー生成段階で決まった数のビット数を抽出することができる。
【００８２】
本技術の応用範囲は広い。応用範囲の具体的な例には以下を含む。
−（マルチメディア）文書の機密保護（テキスト、画像、ビデオ、音声）
−携帯電話へ／からの通信を含むモバイル通信、ネットワークセキュリティ及びユーザ確認
−ＤＶＤ／ソフトウェア著作権保護
上述より、本発明は、システムに与えた２進数の入力源（パターン）から得た抽象的な特徴値から固有の２進数（ビット）を生成するアルゴリズムを提供することが明らかである。主な利用例の一つは、特定主体の提供したバイオメトリックサンプルから取得た特徴サンプルを取得し、これらを暗号化キー生成の土台を形成することもできる固有の数値へマッピングすることである。
【００８３】
しかしながら、本発明は、いかなる特定パターンの特徴及びそれに伴って得る暗号化アルゴリズムにも限定されるものではない。
【００８４】
実際、本発明の処理は、サンプルパターンを捕捉するための画像ハードウェアと共に使用するコンピュータプログラムとして実現される。
【００８５】
本発明の方法を使用した暗号化システムは、システム利用者のバイオメトリックデータ用記憶部を必要としない。また、較正データも、個人ユーザの情報を一切提供しない、データ手段、分散値及び共分散値のみの格納を必要とする。
【００８６】
組み合わせ処理は基本的に重み付けした特徴の組み合わせを実行するが、異なる重みを異なる特徴に割り当てる必要はない。
【００８７】
その後に行われる暗号化については詳細に説明していないが、これは例えばRSA暗号化用の素数の生成を伴ってもよい。
【図１】

【特許請求の範囲】
【請求項１】
各々がパターンを形成しているサンプルのセットからコードを生成する方法であって、
（ｉ）各サンプルを複数の特徴と解し、複数のサンプルを解析して前記複数のサンプルの複数の特徴値を取得することと、
（ｉｉ）前記特徴値のそれぞれが概ね等しい尤度で所定範囲の値のみを取る前記特徴値を適合させることにより前記特徴値を正規化することと、
（ｉｉｉ）前記複数のサンプルから得た前記異なる特徴の平均値、分散値及び共分散値を取得することと、
（ｉｖ）取得した平均値及び分散値を用いて各特徴に対し、前記特徴値が同等とみなされる範囲を決定している、量子化レベルを設定することと、
（ｖ）前記共分散値から取得される無相関係数を用いて前記特徴値を無相関化することと、
（ｖｉ）前記特徴値の組み合わせから単一コードを導くことであって、前記単一コードが前記特徴値の組み合わせから導いた前記ビットの部分集合を含む、単一コードを導くこと
を備えたコード生成方法。
【請求項２】
前記正規化が連続した分散値を有する特徴値に量子化を適用することを含む請求項１に記載の方法。
【請求項３】
単一の値を求めることが
各特徴の無相関特徴値を取得することと、
前記無相関特徴値を組み合わせることと
を含む請求項１または２のいずれかに記載の方法。
【請求項４】
無相関特徴値を取得することが前記特徴の前記共分散値を他の各特徴と組み合わせることを含む請求項３に記載の方法。
【請求項５】
無相関特徴値セットが各サンプルにつき１つの組み合わせ特徴値を合わせて取得する請求項３または４に記載の方法。
【請求項６】
前記無相関特徴値を組み合わせることが
無相関特徴値を１つの単語に組み合わせるべく折りたたみ（fold）演算を行うことと、
前記単語の最下位ビットを取り除くことと、
前記単語の最上位ビットを取り除くこと
を含む請求項３，４または５に記載の方法。
【請求項７】
前記取り除いた最下位ビットの数及び前記取り除いた最上位ビットの数がシステム較正の際に取得したサンプルの平均特徴値から形成された単語の解析に基づいて選択し、前記同一折りたたみ演算を用いて組み合わせる請求項６に記載の方法。
【請求項８】
複数ユーザから複数較正サンプルを取得することと、
前記較正サンプルを解析して前記サンプルの特徴値を取得することと、
前記複数サンプルから前記異なる特徴の平均値、分散値及び共分散値を取得すること
を含む初期較正段階を実施することをさらに含む請求項１から７のいずれかに記載の方法。
【請求項９】
前記較正段階が各特徴の無相関正規化特徴値を取得することをさらに含む請求項８に記載の方法。
【請求項１０】
平均値及び共分散値の取得前に前記特徴値を正規化することをさらに含む請求項８または９に記載の方法。
【請求項１１】
前記較正段階で得た前記平均値及び分散値が量子化レベルの設定に用いられる請求項８から１０のいずれかに記載の方法。
【請求項１２】
請求項１から１１のいずれかに記載の方法を用いてバイオメトリックサンプルからコードを生成することと、
暗号化キーを形成するために前記コードを使用すること
を備える暗号化キー生成方法。
【請求項１３】
請求項１２に記載の方法を用いて暗号化キーを生成し、データを暗号化するために前記暗号化キーを用いることを含む暗号化方法。
【請求項１４】
コンピュータで実行すると請求項１から１３のいずれかに記載の方法を遂行するようになっているコンピュータプログラム。
【請求項１５】
複数のサンプルを解析して前記サンプルの特徴値を取得するための手段であって、各サンプルが複数の特徴として解される、手段と、
前記複数のサンプルから得た前記異なる特徴の平均値及び分散値を計算し、
前記サンプルデータと合わせて前記取得した平均値及び分散値を用いて各特徴に対し、前記特徴値が同等とみなされる範囲を決定している、量子化レベルを設定し、
前記特徴値のそれぞれが概ね等しい尤度で所定範囲の値のみを取る前記特徴値を適合させることにより前記特徴値を正規化し、
前記特徴値の組み合わせから単一コードを導くことであって、前記単一コードが前記特徴値の組み合わせから導いた前記ビットの部分集合を含む、単一コードを導く
ための処理手段と
を備えるバイオメトリックサンプルのセットからコードを生成するためのシステム。

【公表番号】特表２００９−５４３３９２（Ｐ２００９−５４３３９２Ａ）
【公表日】平成２１年１２月３日（２００９．１２．３）
【国際特許分類】

電気 (1,674,590)
- 電気通信技術 (544,871)
  - デジタル情報の伝送，例．電信通信 (61,356)
    - 秘密または安全な通信のための配置 (13,382)
      - シフトレジスタまたはメモリを用いるブロック暗号化装置，例．Ｄ．... (3,633)
        
        キーの分配 (3,618)

【出願番号】特願２００９−５１７４１６（Ｐ２００９−５１７４１６）
【出願日】平成１９年７月３日（２００７．７．３）
【国際出願番号】ＰＣＴ／ＧＢ２００７／００２４７１
【国際公開番号】ＷＯ２００８／００３９４５
【国際公開日】平成２０年１月１０日（２００８．１．１０）
【出願人】（５０９００７１９３）ユニバーシティ　オブ　ケント (1)
【氏名又は名称原語表記】ＵＮＩＶＥＲＳＩＴＹ　ＯＦ　ＫＥＮＴ
【住所又は居所原語表記】Ｔｈｅ　Ｒｅｇｉｓｔｒｙ，Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｋｅｎｔ，Ｃａｎｔｅｒｂｕｒｙ，Ｋｅｎｔ　ＣＴ２　７ＮＺ（ＧＢ）
【Ｆターム（参考）】

暗号化、復号化装置及び秘密通信 (108,990)

[ Back to top ]

パターンの特徴からコードを生成するための方法及び装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

パターンの特徴からコードを生成するための方法及び装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク