説明

形状を認識する方法および形状を認識する方法を実施するシステム

本発明の主旨は、ソース信号を原子と呼ばれる基本要素に分解する少なくとも1つの事前処理メカニズムと、事前処理メカニズムにより実行される分解の結果に基づく認識メカニズムとを備える、形状を認識する方法であって、事前処理メカニズムが、カーネルと呼ばれる信号の集合内で完結する少なくとも1つの学習フェーズであって、上記カーネルが、処理すべきソースを表す信号のデータベース(24)を使用しながら、ソース信号の疎な分解を保証しながらデータベースからの信号を正確に再構築するカーネルの能力を表すコスト関数を最小化するように適合される(26)、少なくとも1つの学習フェーズと、ソース信号を分解して原子にする符号化フェーズとを備え、前記原子は、インデックスに従ってカーネルをシフトさせることにより生成され、上記原子のそれぞれには分解係数が関連付けられることを特徴とする、方法である。
本発明の別の主旨は、この方法を実施する形状認識システムである。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、形状を認識する方法および形状を認識する方法を実施するシステムに関する。本発明は特に、地震信号および生体医用信号を認識する分野ならびに動きまたは動作を認識する分野、例えば、手書き文字を認識する分野に適用される。
【背景技術】
【0002】
従来、形状認識システムは2つの主要処理モジュールを備える。このシステムに対する入力の性質は広く様々であり得、ベクトル、時間信号、画像、映像の形態で表されるデータであり得る。センサから直接得られたデータの場合もあれば、または例えば、データのフィルタリングもしくは統合等の処理演算をすでに受けたデータの場合もある。
【0003】
第1のモジュールは事前処理を実行し、システムの入力を符号化する。所望の目的は、入力に含まれる情報を可能な限り明白に提示することである。第2の処理モジュールは、第1のモジュールにより生成された符号を使用することにより、実際の認識を実行する。この演算は、識別(discrimination)とも呼ばれ、事前処理が効率的な場合、すなわち、実行される符号化が可能な限り多くの情報を提供する場合に容易になる。したがって、事前処理方法の選択が、認識システムの最適化において重要である。
【0004】
そのようなシステムで使用される事前処理方法は通常、処理される入力の種類に依存する。
【0005】
データを処理する認識システムの場合、事前処理モジュールの入力はベクトルからなる。このベクトルを一連の成分に線形分解することができる。所与のベクトルsに対して、sと同じ次元のN個の成分Ψの基底を有することにより、線形分解は、以下に表される分解方程式になる。
【数1】

【0006】
変数βが成分Ψに関連付けられ、分解の結果である。成分Ψは通常、正規直交性を有し、これは、変数βの計算をスカラー積に制限することにより、変数βの計算を大幅に簡易化する。これは、基底がすべての空間を生成しないことも普通である。それは、Nがデータの次元未満の場合である。この場合、再構築誤差eが方程式(1)に加算される。
【数2】

【0007】
例えば、主成分分析(PCA)、独立成分解析(ICA)、または線形識別解析(LDA)等のデータを分解する従来の方法は、入力ベクトルのデータベースを使用することによる学習により、使用すべき成分Ψを決定する。効率を制限するこれら方法の欠点は、処理される現象に固有の物理的な意味を有さないことである。
【0008】
信号を処理する認識システムの場合、処理すべきソース信号s(t)は、原子の線形結合として表すことができる。サンプリングされた処理すべき信号s(t)が一次元であり、長さTである場合、この信号は、長さTのN個の原子Ψ(t)からなる基底を使用することにより分解される。次に、この信号は、
【数3】

として表すことができる。分解の結果は、原子Ψ(t)に関連付けられたすべての変数βの値である。
【0009】
この表記は、多次元信号の分解に拡張される。その場合、信号s(t)は、s(t)と同じ次元の原子Ψ(t)の線形結合として表される。ベクトルの場合と全く同じように、原子はすべての空間を生成しない場合があり、再構築誤差e(t)が考慮に入れられ、
【数4】

が与えられる。
【0010】
フーリエ変換による分解の例を挙げると、原子は複雑な指数関数または他の場合には正弦関数および余弦関数である。そして、1個の原子は純粋な単一周波数信号に対応し、これら関数は周波数によりインデックス付与される。
【0011】
分解基底は、すべての原子を生成するために様々な変換を受けるように作られたカーネルと呼ばれるより短い信号から生成することもできる。この原理は、例えば、ウェーブレット変換により使用され、原子は、マザーウェーブレットと呼ばれる単一のカーネルから構築される。このカーネルは、一方では、スケールの変更を受け、他方では、時間シフトを受ける。同じカーネルに対して行われるこれら演算により、信号の分解に使用されるいくつかの原子を有する基底に繋がる。次に、各原子にスケールおよび遅延値が関連付けられる。
【0012】
信号の分解を実行する通常のアルゴリズムは、多くの場合、主に数学的意味またはフーリエ変換を使用する場合の周波数の存在のような非常に一般的な物理的意味を有する。大半の場合、事前処理後の適切な情報はなお、分散して存在する。その場合、1つの結果として、実行される符号化があまり疎ではなくなる。事前処理の効率が不良であるため、認識フェーズに使用されるアルゴリズムの作業量は多くなる。
【0013】
音声処理等の非常によく研究された分野からの経験から、関わる問題への事前処理の特化により性能が向上することが示されている。
【0014】
論文Efficient coding of time−relative structure using spikes, Neural Computation, Vol. 17, p. 19−45, 2005およびEfficient auditory coding, Nature, Vol. 439. No. 23, p. 978−982, 2006に表されるE. C. SmithおよびM. S. Lewickiの研究では、音声処理の事例が扱われている。この解決策では、アプリオリに定義されたカーネル基底を使用するのではなく、学習メカニズムにより符号化に適切なカーネルを決定することが提案されている。カーネルの学習は、周囲音、動物もしくは人間の発声、またはこれら2つが混ざったもの等のソースに固有の信号を含む学習基底に頼る。この学習フェーズ後に、音声を、信号の構造の特徴を示す、信号の符号化に最適な離散的な音響要素に分解することができる。得られるカーネルは、学習基底を構成する信号の種類に従って異なる。周囲音および発声からなる学習信号の場合、見つけられるカーネルは、哺乳類の蝸牛というフィルタのインパルス応答に対応する。生成される符号化は、「中空符号(hollow code)」とも呼ばれる疎な符号を生成するという点で、フーリエ変換またはウェーブレットにより生成されるような従来の符号化よりも効率的である。
【0015】
いくつかの既存の事前処理方法では、例えば、符号化を信号の瞬間的性質に適合させるように、カーネル基底内の複数のカーネルのうちの部分集合を選択することが可能である。しかし、この場合、カーネル基底はアプリオリに定義され、カーネルは信号の物理的な現実に適合されない。E. C. SmithおよびM. S. Lewickiにより提案される符号化アルゴリズムは、カーネルをソースに適合させることができるが、形状認識の分野には適用されず、いくつかの次元で表される信号またはデータの処理に対して最適化されていない。例えば、地震信号解析および筆記認識等の形状認識用途またはより一般的には動き認識では、多次元処理が要求される。これは、例えば、心電図ECG、脳電図EEG、または脳磁気図MEG等の医療用途の場合にも当てはまる。
【発明の概要】
【発明が解決しようとする課題】
【0016】
本発明の一目的は、特に、上記欠点を解消することである。
【課題を解決するための手段】
【0017】
そのために、本発明の主旨は、ソース信号を原子と呼ばれる基本要素に分解する少なくとも1つの事前処理メカニズムと、事前処理メカニズムにより実行される分解の結果に基づく認識メカニズムとを備える、形状を認識する方法であって、ソース信号がN次元を含み、上記メカニズムが、少なくとも、
−カーネルと呼ばれ、インデックス付与されたサンプルからなる信号の集合内で完結する学習フェーズであって、上記カーネルはコスト関数を最小化するように適合される、学習フェーズ、
−ソース信号を分解して原子にする符号化フェーズであって、上記原子は、学習フェーズ中に見つけられるカーネルのシフトにより生成され、上記原子のそれぞれには、分解係数が関連付けられる、符号化フェーズ
を含むことを特徴とする、方法である。
【0018】
本発明の一態様によれば、学習フェーズの開始時に、ステップが、選択されたランダムな白色雑音によりカーネルを初期化する。
【0019】
一実施形態では、例えば、ソース信号のN次元が、事前処理メカニズムにより互いに独立して処理される。
【0020】
別の実施形態では、ソース信号の次元のうちのいくつかが、事前処理メカニズムによりまとめて処理される。
【0021】
学習フェーズ中、カーネルは、例えば、確率的勾配降下法により、処理すべきソースを表す信号データに基づいてコスト関数を最小化することにより適合される。
【0022】
学習フェーズ中、カーネルは、レーベンバーグ−マルカートアルゴリズムにより、処理すべきソースを表す信号データに基づいてコスト関数を最小化することにより適合することができ、上記アルゴリズムは、上記カーネルのそれぞれの平均ヘッシアンを計算した後に適用される。
【0023】
学習フェーズ中、カーネルは、弾性伝播法(resilient propagation method)による勾配降下により、処理すべきソースを表す信号データに基づいてコスト関数を最小化することにより適合される。
【0024】
認識される形状は、例えば、心臓の異常を突き止めるために使用される。
【0025】
認識される形状は、例えば、動きまたは動作を表す。
【0026】
動きまたは動作を表す認識される形状は、例えば、手書き文字または一連の手書き文字である。
【0027】
認識される形状は、例えば、大脳の活動の種類を突き止めるために使用される。
【0028】
認識される形状は、例えば、質量分析法で研究される試料内の分子または分子群の存在を突き止めるために使用される。
【0029】
符号化フェーズ中、現在処理中の信号部分の分解に使用されるよりよい原子を探すステップ、例えば、カーネルの回転が適用され、したがって、分解に保持される各原子はカーネル、シフトインデックス、および回転係数からなり、上記保持される原子には分解係数が関連付けられる。
【0030】
符号化フェーズ中、カーネルの回転係数は、例えば、選択された各カーネルに適用される回転を表す正方行列であり、上記行列の成分は、各カーネルおよび各瞬間にいくつかの回転仮説をとり、最良の回転仮説を選択することにより、方法の符号化フェーズ中に決定される。
【0031】
この方法は、例えば、二次元ソース信号を処理し、上記信号および変換カーネルは、複素数で表され、それら複素数の実部は第1の次元に対応し、虚部は第2の次元に対応する。この場合、分解係数は複素数であるため、位相が回転係数を表し、回転角度をカーネルに適用できるようにする。
【0032】
この方法は、例えば、三次元信号を処理し、上記信号および変換カーネルは四元数で表される。この場合、分解係数は四元数であり、3D回転をカーネルに適用できるようにする。
【0033】
符号化フェーズは、例えば、基底追跡法を実施する。
【0034】
符号化フェーズは、例えば、マッチング追跡法を実施する。
【0035】
符号化フェーズ中に使用できるマッチング追跡法は、例えば、直交型のものであり、分解係数は、新しい原子が選択される都度、その選択後に、処理すべき信号を、すでに保持された原子からなる基底に射影することにより更新される。
【0036】
現在処理中の信号の符号化フェーズは、例えば、選択された原子の数が最大値に達した場合に終了する。
【0037】
現在処理中の信号の符号化フェーズは、例えば、最後の分解係数の、前に計算されたその他の係数のうちの最大値に対する選択された最小相対値がもはや保証されない場合に終了する。
【0038】
現在処理中の信号部分の符号化フェーズは、例えば、分解の剰余のエネルギーが、符号化が効率的であるとみなされる選択された閾値未満になる場合に終了する。
【0039】
本発明の別の主旨は、この方法を実施する形状認識システムであって、少なくとも、
−出力として一次元または多次元の信号を生成するセンサまたはセンサアレイと、
−本発明による方法を実施し、上記方法の学習フェーズおよび/または符号化フェーズを実行するために使用される事前処理モジュールと、
−解析、検出、および/または形状認識機能を実行するために使用される認識モジュールと、
−結果解析モジュールと
を備える、システムである。
【0040】
この形状認識システムは、例えば、少なくとも2つの離れた物理的機器上のシステムのその他のモジュールを見つけ、結果を交換できるようにする1つまたは複数の通信モジュールを備える。
【0041】
この形状認識システムは、例えば、事前処理モジュールに接続された少なくとも1つの記憶モジュールを備え、上記事前処理の結果は、記憶モジュールに記憶することが可能であり、記憶モジュールは、処理モジュールから切断して、離れた機器で事前処理の結果を解析するために、その離れた機器に配置された認識モジュールに接続することができる。
【0042】
本発明の注目すべき利点は、分解に使用されるカーネルを、処理すべきソースの種類に適合させることが可能であり、したがって、例えば、心電図または動き認識等の異なる用途の状況で適用可能なことである。本発明の別の利点は、多次元信号の処理が可能であり、回転管理により少数のカーネルを使用して適用可能なことである。本発明は、既存の方法よりも素早く最適解に向かって収束可能なカーネル学習方法も提案する。
【0043】
本発明の他の特徴および利点が、添付図面に照らして与えられる以下の例示的で非限定的な説明から明らかになろう。
【図面の簡単な説明】
【0044】
【図1】本発明による方法に適合されたカーネルを使用する変換符号化フェーズを示す。
【図2】本発明による方法のカーネル学習フェーズを示す。
【図3】本発明による方法を実施する例示的な認識装置を示す。
【発明を実施するための形態】
【0045】
以下、説明において、処理すべき入力は、本明細書では以下においてソース信号とも呼ばれ、特に、次元Nのベクトルまたは次元Nのベクトルのインデックス付与された集まりを指す。
【0046】
ソース信号が次元Nのサンプルの集まりを指す場合、次元Nのサンプルの集まりは、例えば、
−例えば、サンプリングされた音声ソースから生じた、時間によりインデックス付与された一連の一次元サンプル、
−例えば、グレーレベル画像から生じた、位置xおよびyにより空間的にインデックス付与された一連の一次元サンプル、
−例えば、多次元移動センサ(三次元加速度計)または地震センサアレイから生じた、時間によりインデックス付与された一連の多次元サンプル、
−カラー画像またはハイパースペクトル画像から生じた、空間的にインデックス付与された一連の多次元サンプル:ベクトルの次元、すなわちピクセルは、ハイパースペクトル画像の色(赤、緑、および青)または周波数帯であり、インデックス付与はピクセルの位置xおよびyに従って行われる、
−例えば、インデックスx、y、およびtを有する映像またはさらには4D仮想シミュレーション(x、y、z、およびt)から生じた、空間−時間によりインデックス付与された一連の一次元または多次元のサンプル、
−例えば、様々な地震アレイステーションに適用され、ひいては周波数によりインデックス付与される多次元サンプル(ステーション毎に1つの次元)の集まりを生成するフーリエ変換から生じた、、必ずしも任意の時間的または時間的な意味を有する必要がない1つまたは複数の変数でインデックス付与される一連の一次元または多次元のサンプル
からなり得る。
【0047】
信号の基本的な変換の本質は、シフト値をインデックス値から減算することにより、ソース信号から新しい信号を作成することにある。時間によりインデックス付与される信号の場合、これらシフト値は遅延の適用に対応する。この遅延は負であり得、負の場合、信号を時間的に進める。(x,y)として空間的にインデックス付与される画像または(x,y,z)としてインデックス付与される3D表現の場合、これらシフト値は並進移動に対応する。映像(x,y,t)または4D仮想シミュレーション(x,y,z,t)の場合、関係するインデックスに依存する並進移動項または遅延項が使用される。インデックスが周波数の場合、シフト値は周波数シフトに対応する。
【0048】
以下、本明細書では、文書を簡潔にするために、別段のことが特記される場合を除き、ソース信号は、多次元時間信号のようにs(t)と示される。しかし、この書き方は決して限定ではなく、実際には、tはインデックスの集合、例えば、画像でのxおよびyまたは映像での(x,y,t)であってもよく、xは一次元であってもよい。同様に、用語「シフト」を利用して、シフト値を介するインデックスの操作に基づく信号の変換を指し、したがって、遅延および並進移動という特定の場合を含む。カーネルおよび剰余等のソース信号に関連付けられるすべてのデータは、同じ筆記規則に従う。
【0049】
ソース信号がベクトルを指す場合を説明するために、質量分析法が有用な例である。その場合、質量スペクトルを表す結果ベクトルは、数千個の成分からなり、各成分は、測定が行われた分子のチャネルとも呼ばれる質量電荷比に対応する。
【0050】
本発明による事前処理方法は、符号化フェーズおよび学習フェーズを含む。
【0051】
学習フェーズは、符号化すべきソースの符号化に使用されるカーネルを適合させるために使用される。次に、しかるべくして見つけられたカーネルは、次に、符号化フェーズ中に使用される。図1および図2は、本発明による方法の2つのフェーズの2つの例示的な実施態様を示す。本発明による方法は、様々な形状認識用途の状況で使用することができる。例えば、この方法は、心電図解析の状況で実施することができる。この場合、この方法の学習フェーズは、心臓パルスの分解に使用される少数のカーネルを特定する。この方法の実施が有用である他の可能な用途は、特に、地震信号の認識、動きの認識、ならびに脳の特定の領域の反応の特定を目的とする脳電図および/または脳磁気図の解析である。
【0052】
図1は、本発明による方法の符号化フェーズを示す例示的な図を示す。この符号化フェーズの目的は、ベクトル信号を分解して基本的なベクトル成分にすることであり、これら基本成分は原子と呼ばれる。
【0053】
本発明による方法では、ベクトルの形態で表された多次元情報を処理することができ、ベクトルの次元をまとめて処理することが可能である。これは、この方法が使用される用途が1つまたは複数のセンサ供給の多次元情報に頼る場合に有用である。一例として、動作にリンクされたセンサは、三次元であり得る情報を供給する。生体医用センサの場合、センサの出力データは多数の次元で表され、例えば、心電図の場合は12次元、脳電図の場合には数10次元、および脳磁気図の場合には数100次元で表される。
【0054】
しかし、システム入力のすべての次元をまとめて処理することは義務ではなく、事前処理モジュールが、変数のサブグループ、すなわち次元のサブグループからなる信号に対して作用することができる。1つの限定的な場合は、事前処理が各次元に対して行われる状況である(各グループの基数は1であり、次元と同じ数のグループが存在する)。そして、次元と同じ数の事前処理モジュールが存在し、各モジュールは一次元信号を処理する。
【0055】
異なるソース信号に対して本発明による方法を実施するいくつかのモジュールを使用するこの方法は、いくつかの異種の入力がある場合に適用することも可能である。これは、例えば、音声ストリーム(サンプリング周波数16kHzを有する時間によりインデックス付与される一次元信号)ならびに映像ストリーム(サンプリング周波数25Hzを有する、画像内の位置(x,y)および時間によりインデックス付与される赤−緑−青の三次元信号)の両方を使用する音声認識モジュールにも当てはまる。その場合、認識システムは、例えば、本発明による1つの事前処理モジュールを使用して、音声ストリームを事前処理し、本発明による1つの事前処理モジュールを使用して、映像ストリームを事前処理し、それら2つのモジュールの出力が次に、識別に使用される。
【0056】
分解は例えば、例えば「マッチング追跡」および「基底追跡」として知られる追跡方法等の中空分解技法の使用を通して実行される。分解後の信号は以下の形をとる。
【数5】

【0057】
これは、βが非ゼロであるようなj個のインデックスに制限される方程式(4)の特定の場合に対応する。ここで、方程式(4)のすべての原子の族{Ψ(t)}は、各カーネルのすべての可能な時間シフトを含む族{{φ(t−τ)}τに対応する。(5)では、この特定の場合に方程式(4)の書き方を簡潔にする写像関係が確立される。したがって、値I、αおよびτは、βが非ゼロであるような方程式(4)の任意のインデックスjについて、Ψ(t)=Φ(t−τ)およびβ=αであるようなm、I、i≦I、αおよびτがあるように確立される。
【0058】
信号の分解に使用される原子Φ(t−τ)は、ソース信号と同じ次元を有する。一般に、ソース信号は、インデックスに従ってカーネルをシフトさせることにより生成される。この例では、インデックスは時間インデックスであり、シフトは遅延に対応する。
【0059】
使用されるM個のカーネルのそれぞれについて、カーネルのI個の時間シフトにより、分解に必要なI個の原子を生成することができる。カーネルは、本発明による方法の学習フェーズにおいて決定される。この学習フェーズについては、図2を使用して本明細書において後述する。剰余と呼ばれる誤差項e(t)は、分解アルゴリズムにより選択された原子により分解できなかった信号の部分を表す。
【0060】
符号化フェーズを実行する一方法は、信号の分解に使用される原子数を繰り返し最適化することである。このために、従来の「マッチング追跡」法に対する改良である直交マッチング追跡式の手法が適用される。この反復方法は、剰余に最も密に相関付けられた原子を連続して保持する。このアルゴリズムは、良好な誤差低減性および実施柔軟性を有する。マッチングするカーネルを使用して変換する場合のように、各瞬間に複製される数個のカーネルから構築された基底の場合、カーネルとの信号の非巡回畳み込みおよび高速フーリエ変換の使用により、計算を加速させることができる。この方法は、多次元フーリエ変換を介して複数のインデックス(映像画像)に使用することもできる。
【0061】
符号化フェーズ1が、処理すべき信号の所与の部分に対して開始された場合、第1の初期化ステップ2が適用される。このステップ2は、剰余誤差を、処理すべき信号部分の値に初期化する。すなわち、
e(t)=s(t) (6)
とする。
【0062】
これと同じステップが実行中の間、カウンタIはゼロに初期化され、mはm∈[1・・・M]である任意の値である。分解の係数αもゼロに初期化される。
【0063】
信号の分解に保持すべき原子を探すステップ3が、初期化ステップ2に続けて適用される。このために、すべてのカーネルφ(t)との剰余e(t)の畳み込みが実行される。多次元の場合、各瞬間でのベクトル間の従来のスカラー積が使用される。その場合、計算は、φ(t)のうちの関連付けられた次元との各次元のe(t)の畳み込みの結果をまとめたものに等しい。原子は、最も大きな畳み込み積の絶対値を与える遅延値τが関連付けられたカーネルφ(t)を保持することにより選択される。φ(t)がノルム化される場合、この値は厳密に係数αである。この手法は、方向が異なる同様の信号を区別する。したがって、手書き認識用途の場合、水平移動および垂直移動に、例えば、2つの別個の「移動」カーネルが関連付けられる。この手法は有向手法(oriented approach)と呼ばれる。
【0064】
無向としての条件を満たすことができるこの手法の変形を使用して、異なる方向を有する同様の信号を同じ1つのカーネルに関連付けることができる。ここでも、手書き認識の例を考えると、縦線および横線に同じ1つの「線」カーネルが関連付けられ、関係するカーネルは、縦線または横線に関連付けるために回転を受ける。有向手法と比較して、各カーネルは、利用される場合に特定の回転を受ける。その場合、分解後の信号は、
【数6】

として表される。
【0065】
は、i番目の使用の際にカーネルφが受ける回転を表す行列である。これは、βが非ゼロであるようなj個のインデックスに制限された式(4)の新しい特定の場合に対応する。ここで、式(4)のすべての原子の族{Ψ(t)}は、可能なすべての回転および可能なすべての時間シフトの各カーネルへの適用結果を含む族{{{R.Φ(t−τ)}τに対応する。実際には、写像関係が(7)において確立され、この特定の場合に(4)の書き方を簡潔にする。実際には、値I、α、Rおよびτは、βが非ゼロであるような(4)の任意のインデックスjについて、Ψ(t)=R Φ(t−τ)およびβ=αであるようなm、I、i≦I、α、Rおよびτがあるように確立されている。
【0066】
行列Rは、原子を探すステップ3において探す必要がある追加の要素である。無向手法が使用される場合、原子は、例えば、カーネルφ(t)、遅延τおよび回転係数としての条件を満たすことができる回転行列Rからなる三つ組みの要素により定義することができる。
【0067】
行列Rを決定するために、様々な方法を実施することができる。
【0068】
第1の方法は、各カーネルおよび各瞬間に異なる回転をテストすることである。単一のカーネルから構築される原子の数は増大し、探索は長い時間がかかる。
【0069】
二次元信号に適した第2の方法を使用して、この複雑性を低減することができる。二次元信号は複素数で表され、符号化フェーズはこの形式を利用し得る。二次元の信号および実ベクトルカーネルに代えて、複素数一次元信号およびカーネルにより焦点を当てて検討する。これら複素数の実部は次元1に対応し、虚部は次元2に対応する。そして、分解係数も複素数になる。これら係数のノルムは、αに対応し、位相はRの回転角度に対応する。この方法の利点には2つの要素がある。一方では、テストする回転角度をサンプリングする必要がなく、アルゴリズムが連続位相を与える。他方では、必要とされる計算能力が、有向手法と比較してたった2倍である。この2倍は、信号の実部間および虚部間の相関の計算に対応し、実部間または虚部間の相関は、有向の場合での次元毎の相関に等しい。したがって、様々な可能な回転を探ることと比較して、利得は大きい。
【0070】
第3の可能な方法は、三次元信号に適し、前出の方法の原理を使用し、複素数に代えて四元数を利用する。
【0071】
最良のカーネルの探索は、カーネルの時間展開を管理するメカニズムを導入することにより改良することもできる。動作認識の場合、この展開は単に、動作が、個人に応じて、さらには同じ人物によっても状況に応じて速くまたは遅くなり得ることに対応する。無向手法と同様の方法で、この補償メカニズムは、スケール係数の導入を介して、カーネルから組み立てられる原子の数を増大させる。分解された信号は、この場合、
【数7】

として表され、αは、i番目の使用に際してのカーネルφの展開係数であり、正の実数値をとる。これは、βが非ゼロであるようなj個のインデックスに制限された方程式(4)の新しい特定の場合に対応する。ここで、方程式(4)のすべての原子の族{Ψ(t)}は、すべての可能な展開およびすべての可能な時間シフトの各カーネルへの適用結果を含む族
【数8】

に対応する。写像関係が式(8)において確立され、この特定の場合において式(4)の書き方を簡潔にする。実際には、値I、α、aおよびτは、βが非ゼロであるような(4)の任意のインデックスjについて、
【数9】

であるようなm、I、i≦I、α、aおよびτがあるように確立される。
【0072】
この分解は、回転に関して、毎回、いくつかの展開係数をテストすることを含む。展開は、ベクトル信号の場合に、有向手法または無向手法と共に使用することができる。
【0073】
係数αを更新するステップ4が、原子を探すステップ3に続けて適用される。すでに選択された各原子に関連付けられた係数αが更新される。
【0074】
すでに選択された原子からなる基底への信号の直交射影が実行される。このために、係数の計算を2つの別個の方法で行うことができる。
【0075】
第1の方法は、選択された原子により生成される空間への直交射影作用素の説明に基づく。この方法は実施が複雑であり、長い処理時間に繋がる。作用素の決定は、大きな行列の疑似逆行列を計算することを伴う。作用素の行列の計算は、この場合、新しい原子が選択される都度、原子選択後にグレビル(Greville)アルゴリズムにより繰り返し実行される。
【0076】
Y. Pati、R. Rezaiifar、およびP. Krishnaprasadにより論文Orthogonal Matching Pursuit: Recursive Function Approximation with Applications to Wavelet Decomposition, Proceedings of the 27th Annual Asilomar Conference on Signals, Systems, and Computers, November 1993において提案される第2の方法は、現在の反復において選択された原子の直交作用素を、前の反復までに選択された原子からなる部分空間に使用する。したがって、L個の原子からなる空間への射影の計算は、前に計算された原子のL−1個の係数αを更新し、新しい係数を計算した状態で再開される。この第2の方法では、信号および原子のサイズに従って、グレビルアルゴリズムの実施に必要な時間と比較して1/5〜1/20に計算時間を低減することができる。
【0077】
直交射影なしで従来のマッチング追跡法を使用することも可能である。直交マッチング追跡法の計算時間は、従来の手法よりも長いが、得られる結果ははるかに興味深く、所与の原子群に対して、直交版は、従来版の場合には該当しない、可能な限り最良の再構築を保証する。実際には、保持される原子が直交しない場合、原子間に相互作用がある。その場合、剰余e(t)と原子との相関は、厳密には理想的な値αではなく、再構築は最適ではない。直交化により、新しい原子が追加される場合、前に選択された原子と新しい原子との相互作用を組み込むように、見つけられた古い係数を補正することが可能である。
【0078】
係数の更新4に続くステップ5は、カウンタIをインクリメントする。
【0079】
次に、剰余が再計算される(6)。従来の場合、これは、選択された最後の原子に対応する信号の寄与分を、原子の現在値および関連付けられた係数αの値から減算することを含む。直交マッチング追跡の場合、現在の再構築信号が、現在の係数αに基づいて再計算され、初期信号から減算される。
【0080】
係数が更新された後、停止基準7が使用されて、現在処理中の信号の部分に対する符号化フェーズの実行を停止すべきか、それとも継続すべきかが判断される。判断が停止である場合、符号化は終了する(8)。その他の場合、原子および関連付けられた係数の探索が続けられ(9)、原子を探すステップ3から、前のステップが適用される。
【0081】
停止基準は、例えば、選択すべき原子の最大数であり得、その最大数を超えた場合、符号化フェーズは停止する。
【0082】
可能な基準の別の例は、最後の係数αと前に計算されたその他の係数のうちの最大値との最小相対値を定義することであり、それにより、現在処理中の信号部分に対する符号化フェーズの停止を判断することができる。
【0083】
使用できる別の例示的な基準は、剰余の閾値を定義することであり、その閾値未満の場合、現在処理中の信号部分に対する符号化フェーズが停止される。
【0084】
図2は、本発明による方法の学習フェーズを示す例示的な図を示す。前に紹介したように、本発明による処理方法は、符号化フェーズおよび学習フェーズを含む。
【0085】
学習フェーズの目的は、剰余誤差を最小に抑えながら、可能な限り少数の原子を使用する、分解のためのカーネルを見つけることである。このフェーズは、関係する用途に応じて、この方法の実行中の異なる瞬間に使用することができる。例えば、学習フェーズは、符号化フェーズが始動する前に1回のみ実行し得る。定期的な学習を実施することもでき、時間の経過に伴う判断傾向が考慮される。最後に、オンライン学習を実施することが可能である。定期的な学習の使用事例は、時間の経過に伴って進化し、したがって、絶え間ない学習が必要なシステムの状況で特に有用である。例えば、筆記認識用途の状況でのオンライン学習の一実施態様は、認識システムが判断を誤ったことにユーザが気付き、修正した場合、カーネルの再学習がその瞬間に始動する。
【0086】
学習フェーズの実行が始動した後(21)、第1のステップ22が、例えば、白色雑音に従ってランダムに選択されたものでカーネルφを初期化し、その後、正規化される。別の可能な解決策は、ターゲットとされる用途で従来使用されている事前定義された基底から開始することである。この場合、学習は基底の特化に対応する。最後に、両方から開始すること、すなわち、評価を通してアプリオリに初期化された特定のカーネルおよび白色雑音を有する初期化された追加のカーネルを有することも可能である。
【0087】
学習信号の集合を含むデータベース24が、カーネルの値を適合させるために使用される。このために、これら学習信号のうちの1つの符号化23、すなわち、分解が、例えば、図1を使用して上述した方法を使用することにより実行される。符号化はまず、前のステップ22において初期化されたカーネルφを使用して行われる。前に示したように、符号化の結果は、n個組(n−uplet)の集合である。各n個組は少なくとも、式(5)において説明された最初の分解に対応する三つ組み(m、α、τ)からなる。分解変形によれば、式(6)のように、回転行列Rを含んでもよく、かつ/または式(7)のように、展開係数aを含んでもよく、またはより一般的に、原子を組み立てるためにカーネルに適用すべき任意の追加の変換パラメータを含んでもよい。プロセスは繰り返されるため、符号化は利用可能な最後のカーネルを使用して実行される。
【0088】
符号化ステップの恩益は、現在のカーネルが使用される場合、学習ベースからの信号に対する符号化の効率をテストできることである。この効率は、例えば、符号化後の剰余e(t)の値をチェックすることによりテストされる(26)。
【0089】
剰余25の推定に基づいて、カーネルが適合される(26)。変換のカーネルを適合させるために使用できる従来の方法は、勾配降下法を使用する。この方法の目的は、カーネルφを決定するが、コスト関数を最小化することである。コスト関数は、特定の基準に従って、パラメータ化されたモデルの性能の評価に使用できる実数値を有する数学的用途に対応する。したがって、コスト関数を最小化することにより、最良モデルのパラメータが決定される。最小は通常、0である。ここで、パラメータはカーネルであり、基準は、観察される信号と、信号が数個のカーネルから形成されるという仮説との妥当性を反映する。換言すれば、コスト関数は、ソース信号の疎な分解を保証しながら、データベースからの信号を正確に再構築するカーネルの能力を表す。コスト関数は、例えば、条件的にカーネルの根にある信号の対数尤度関数の逆である。すなわち、−log[P(s|Φ)]であり、Φはすべてのカーネルを表す。雑音および非常に中空性の高い符号に関するガウス仮説の場合、SmithおよびLewickiは、この対数尤度が、
【数10】

により一次元の場合で近似できることを示した。
【0090】
これら仮説を想定すれば、条件的にカーネルの根にある信号の対数尤度の逆は、乗算係数まで、学習における別の従来のコスト関数である平均二乗誤差と同様である。
【0091】
この関数は、関数の勾配に比例する値によりカーネルを適合させることにより最小化される。
【0092】
この探索アルゴリズムの収束は、従来の確率勾配降下に代えて、当業者に既知のレーベンバーグ−マルカートアルゴリズムを使用することにより改良することができる。原理上、レーベンバーグ−マルカートアルゴリズムは、最適化すべき関数のヘッシアンの近似を含む。関数のヘッシアンは、上記関数の二次導関数の正方行列である。本事例では、関数はコスト関数であり、導関数は、各カーネルの各サンプルに対してとられる。計算の複雑性を低減するために、レーベンバーグ−マルカートアルゴリズムは、ヘッシアンを簡潔化して、対角行列を得る。これは、行列の交差微分が無視されることを意味する。さらなる近似が行われ、各カーネルの平均値が考慮される。すなわち、二次導関数は、1つの同じカーネルのすべてのサンプルに対して同一になり、カーネルに対する二次導関数として得点付けられる。
【0093】
1つの同じカーネルから生じる、使用される原子が全微分される場合、すなわち、2つの連続した遅延τ間のずれが、カーネルTの持続時間よりも大きい場合、ここで使用されるコスト関数の二次導関数は単純に、
【数11】

として表される。1つの同じカーネルから得られる原子の全微分は常にチェックされるわけではないため、ヘッシアンが過小評価され、大きすぎる局所ピッチ、ひいては学習中の不安定性が生じる。
【0094】
すべての重複状況を識別するために、シフトτが、τ<・・・<τi+1<・・・<τImのようにソートされる。したがって、すべての重複状況は、以下に定義される集合Jにより識別することができる。
【数12】

【0095】
交差微分は、空ではない集合Jを有するすべてのカーネルに対して非ゼロである。各カーネルの二次導関数の非均一性に繋がる同じ1つのカーネルから得られた原子間の重複を考慮するために、ヘッシアンは、例えば、以下のように表される過大評価により均一にされる。
【数13】

【0096】
ヘッシアンを過大評価する傾向があるが、方程式(10)は有利な制限性を有する。カーネルの2回の連続した使用間のずれが常にT以上である場合、式(8)は元に戻される。重複が非常に小さい場合、生成された複製はヘッシアンに対してわずかな影響しか有さない。最後に、所与の瞬間でのカーネルの寄与が、同じ符号の振幅を有するいくつかの寄与に人工的に分割される場合、ヘッシアンは、T/T=1により、生成され重み付けられた複製により厳密に同じになる。
【0097】
次に、カーネルは、以下の最終公式を使用することにより、繰り返し適合される(26)。
【数14】

λはレーベンバーグ−マルカートアルゴリズムの調整項であり、係数αは、符号化ステップ23中に決定されている。
【0098】
学習フェーズのロバスト性は、より一般的には「弾性伝播」法として既知のRProp技法を使用して向上させることができる。これは勾配降下と同様であるが、勾配はもはやそれ自体は使用されず、その符号のみが固定ピッチ値と共に考慮される。そして、雑音により大きく過大評価された勾配による不安定性現象が回避される。
【0099】
カーネル評価ステップ26に続き、チェックが行われて、学習ベースのすべての信号が処理されたことが保証される(27)。すべての信号が処理されたわけではない場合(30)、符号化ステップ23、剰余テストステップ25、およびカーネル評価ステップ26が、ベースからの別の学習信号に対して適用される。すべての信号が処理された場合(31)、停止基準が使用されて、学習フェーズ29を終了するか、または学習ベースのすべての信号に対して計算32を繰り返すかが判断される。この停止基準は、例えば、剰余のノルムの平均の閾値であり、この閾値未満では、見つけられたカーネルにより十分に効率的な符号化が可能であるとみなされる。
【0100】
図3は、方法を実施する例示的な認識システムを示す。このシステムは特に、一次元または多次元のデータまたは信号を出力として生成するセンサまたはセンサアレイ40を備える。このシステムは、本発明による方法を実施し、方法の学習フェーズおよび符号化フェーズを実行するために使用される事前処理モジュール41も備える。事前処理モジュールにより使用されるカーネルは、ターゲットとなる用途に固有のデータまたは信号のベースから学習される。
【0101】
事前処理モジュールにより分解されたデータまたは信号は、次に、認識モジュール44により解析される。このモジュールは、形状解析機能、検出機能、および/または認識機能の実行に使用される。認識モジュールの可能なパラメータは、例えば、データまたは信号に対して方法を実行することから生じる符号化にクラスを関連付ける例のベースから学習される。
【0102】
次に、認識44の結果は、結果解析モジュール45に送られ、例えば、これら結果の表示または認識モジュール44により検出された1つまたは複数のイベントに従ってのアラームの始動を行うことができる。
【0103】
このシステムは、物理的に離れた機器でシステムの様々な機能を実行するために、1つまたは複数の通信モジュール42、43も備え得る。例えば、通信モジュール42は、事前処理の結果、特に、処理すべき信号またはデータを分解するために保持された原子に関連付けられた係数を、これら係数を受信し処理する(44、45)ために通信モジュール43を備える離れた機器に送信することができる。この例では、符号化41はセンサ40の近くで行われるが、認識は、より高い計算能力またはより大きなメモリを有することができるように、他のどこかで行われる。通信モジュール42、43は、例えば、認識モジュール44と結果解析モジュール44、45との間等の処理チェイン内の他のポイントに配置してもよい。
【0104】
システムの変形は、例えば、事前処理41の結果を記憶する記憶モジュールを使用し得る。この例では、センサ40および事前処理モジュール41を備える第1の機器が、事前処理の結果を、機器に接続された記憶モジュールに書き込むことができる。次に、記憶モジュールを、認識44および結果解析45を実行する、第1の機器から離れた機器に接続することができる。

【特許請求の範囲】
【請求項1】
ソース信号を分解して原子と呼ばれる基本要素にする少なくとも1つの事前処理メカニズムと、前記事前処理メカニズムにより実行される前記分解の結果に基づく認識メカニズムとを備える形状を認識する方法であって、前記ソース信号がN次元を含み、前記メカニズムが、少なくとも、
−カーネルと呼ばれ、インデックス付与されたサンプルからなる信号の集合内で完結する学習フェーズであって、前記カーネルはコスト関数を最小化するように適合される(26)、学習フェーズ、
−前記ソース信号を分解して原子にする符号化フェーズであって、前記原子は、前記学習フェーズ中に見つけられる前記カーネルのシフトにより生成され、前記原子のそれぞれには分解係数(α)が関連付けられる、符号化フェーズ
を備えることを特徴とする、方法。
【請求項2】
前記学習フェーズの開始時に、ステップが前記カーネルを、選択されたランダム白色雑音で初期化することを特徴とする、請求項1に記載の方法。
【請求項3】
前記ソース信号の前記N次元が、前記事前処理メカニズムにより互いに独立して処理されることを特徴とする、請求項1または2に記載の方法。
【請求項4】
前記ソース信号の次元のうちのいくつかが、前記事前処理メカニズムによりまとめて処理されることを特徴とする、請求項1または2に記載の方法。
【請求項5】
前記学習フェーズ中、前記カーネルが、確率勾配降下法により、処理すべきソースを表す信号データ(24)に基づいて前記コスト関数を最小化することにより適合される(26)ことを特徴とする、請求項1〜4のいずれか一項に記載の方法。
【請求項6】
前記学習フェーズ中、前記カーネルが、レーベンバーグ−マルカートアルゴリズムにより、処理すべきソースを表す信号データ(26)に基づいて前記コスト関数を最小化することにより適合され(26)、前記アルゴリズムが、前記カーネルのそれぞれの平均ヘッシアンを計算した後に適用されることを特徴とする、請求項1〜4のいずれか一項に記載の方法。
【請求項7】
前記学習フェーズ中、前記カーネルは、弾性伝播法による勾配降下により、処理すべきソースを表す信号データ(24)に基づいて前記コスト関数を最小化することにより適合される(26)ことを特徴とする、請求項1〜4のいずれか一項に記載の方法。
【請求項8】
前記ソース信号が心電図に対応し、前記認識すべき形状が心臓の異常を突き止めるために使用されることを特徴とする、請求項1〜7のいずれか一項に記載の方法。
【請求項9】
前記ソース信号が動きまたは動作を表し、前記認識すべき形状が、前記動きまたは動作を表すことを特徴とする、請求項1〜7のいずれか一項に記載の方法。
【請求項10】
前記動きまたは動作を表す認識すべき形状が、手書き文字または一連の手書き文字であることを特徴とする、請求項9に記載の方法。
【請求項11】
前記ソース信号が脳電図または脳磁気図に対応し、前記認識すべき形状が、大脳の活動の種類を突き止めるために使用されることを特徴とする、請求項1〜7のいずれか一項に記載の方法。
【請求項12】
前記ソース信号が質量分析計により生成され、前記認識すべき形状が、所与の試料内の分子または分子群の存在を突き止めるために使用されることを特徴とする、請求項1〜7のいずれか一項に記載の方法。
【請求項13】
前記符号化フェーズ中、現在処理中の信号部分の分解に使用されるよりよい原子を探すステップ(3)が、前記カーネルの回転を適用し、したがって、分解に保持される各原子がカーネル、シフトインデックス、および回転係数からなり、前記保持される原子には分解係数が関連付けられることを特徴とする、請求項4〜10のいずれか一項に記載の方法。
【請求項14】
前記符号化フェーズ中、前記カーネルの前記回転係数が、選択された各カーネルに適用される回転を表す正方行列であり、前記行列の成分が、各カーネルおよび各瞬間にいくつかの回転仮説をとり、最良の回転仮説を選択することにより、前記方法の前記符号化フェーズ中に決定されることを特徴とする、請求項13に記載の方法。
【請求項15】
前記方法が二次元ソース信号を処理し、前記信号および変換カーネルが複素数で表され、それら複素数の実部が第1の次元に対応し、虚部が第2の次元に対応することを特徴とし、前記方法が、前記分解係数も複素数であり、位相が前記回転係数を表し、回転角度を前記カーネルに適用できるようにすることも特徴とする、請求項13に記載の方法。
【請求項16】
前記方法が三次元信号を処理し、前記信号および前記変換カーネルが四元数で表されることを特徴とし、前記方法が、前記分解係数も四元数であり、3D回転を前記カーネルに適用できるようにすることも特徴とする、請求項13に記載の方法。
【請求項17】
前記符号化フェーズが基底追跡法を実施することを特徴とする、請求項1〜16のいずれか一項に記載の方法。
【請求項18】
前記符号化フェーズがマッチング追跡法を実施することを特徴とする、請求項1〜16のいずれか一項に記載の方法。
【請求項19】
前記符号化フェーズ中に使用される前記マッチング追跡法が、直交型のものであり、前記分解係数が、新しい原子が選択される都度、その選択後に、処理すべき信号を、すでに保持された前記原子からなる前記基底に射影することにより更新される(4)ことを特徴とする、請求項18に記載の方法。
【請求項20】
現在処理中の信号の前記符号化フェーズが、選択される原子の数が最大値に達した場合に終了する(7)ことを特徴とする、請求項1〜19のいずれか一項に記載の方法。
【請求項21】
現在処理中の信号の前記符号化フェーズが、最後の前記分解係数の、前に計算されたその他の係数のうちの最大値に対する選択された最小相対値がもはや保証されない場合に終了する(7)ことを特徴とする、請求項1〜19のいずれか一項に記載の方法。
【請求項22】
現在処理中の信号の前記符号化フェーズが、前記分解の剰余のエネルギーが、前記符号化が効率的であるとみなされる選択された閾値未満になる場合に終了する(7)ことを特徴とする、請求項1〜19のいずれか一項に記載の方法。
【請求項23】
請求項1〜22のいずれか一項に記載の方法を実施する形状認識システムであって、少なくとも、
−一次元または多次元の信号を出力として生成するセンサまたはセンサアレイ(40)と、
−本発明による方法を実施し、前記方法の学習フェーズおよび/または符号化フェーズを実行するために使用される事前処理モジュール(41)と、
解析機能、検出機能、および/または形状認識機能を実行するために使用される認識モジュール(44)と、
−結果解析モジュール(45)と
を備えることを特徴等する、形状認識システム。
【請求項24】
少なくとも2つの離れた物理的機器上のシステム(40、41、44、45)のその他のモジュールを見つけ、結果を交換できるようにする1つまたは複数の通信モジュール(42、43)を備えることを特徴とする、請求項23に記載の形状認識システム。
【請求項25】
前記事前処理モジュール(41)に接続された少なくとも1つの記憶モジュールを備え、前記事前処理の結果を前記記憶モジュールに記憶することが可能であり、前記記憶モジュールを前記処理モジュールから切断して、離れた機器で前記事前処理の結果を解析するために、その離れた機器に配置された前記認識モジュール(44)に接続することができることを特徴とする、請求項23に記載の形状認識システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2012−504975(P2012−504975A)
【公表日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願番号】特願2011−525493(P2011−525493)
【出願日】平成21年8月13日(2009.8.13)
【国際出願番号】PCT/EP2009/060477
【国際公開番号】WO2010/026028
【国際公開日】平成22年3月11日(2010.3.11)
【出願人】(510074896)
【Fターム(参考)】