説明

有界三次元対象物の分類と空間ローカライゼーションのためのコンピュータ視覚システム

本発明は、有界三次元対象物の認識、分類、および空間ローカライゼーションのためのシステムと方法に関する。特には、対象物の認識、分類、およびローカライゼーションのためのコンピュータ化された方法に関する。本方法は、カメラにより記録された、または対象物のCAD表現を使用して構築された多数のトレーニング図に基づいて、トレーニングデータベースを生成することを含む。特徴的曲線は、トレーニング図から導出され、曲線のプリミティブが検出される。フィーチャの本質的および非本質的記述子が、対象物のクラスおよび図の姿勢状態に関するデータと共にデータベースに格納される。最終的には、認識は二段階で行われる。最初は、認識図の本質的記述子がデータベースの記述子と比較される。二番目に、最良の整合フィーチャから、どのフィーチャが、同じ姿勢状態にある同じ対象物クラスであることを示唆するという意味で、相互に一致するかが調べられる。

【発明の詳細な説明】
【技術分野】
【0001】
発明の分野
本発明は、コンピュータ視覚システムにおける対象物認識のための方法に関し、特に、本方法は、有界三次元対象物の分類と空間ローカライゼーションに関する。
【背景技術】
【0002】
発明の背景
製造工程の自動化における障害(ボトルネック)は、部品および半製品を、加工、組立て、塗装、および梱包などのために自動システムに供給することにある。今日では、1)振動ボール(皿)、2)設備、および3)コンピュータ視覚システムの3種類のシステムが利用可能である。振動ボールは小寸法(約5cm未満)の部品に対してのみ適している。内部格納全体が設備に基づかなければならないので、設備は高価である。この二つのシステムは共に新しい部品が導入されると再設計および再製造しなければならない。これまで開発されてきたコンピュータ視覚システムには重大な欠陥があった。容認できないほどの処理速度のシステムがあったり、汎用性に欠けているシステムであったりしていた。今日利用できる、高速かつ汎用性のあるシステムでは、対象物を平坦な搬送ベルト上で分散して置く必要があり、対象物とカメラの距離は、対象物の高さに比べて遥かに大きくなくてはならない。この後者の制限は、使用される認識モデルが、カメラの三次元と二次元の間の変換における、透視法効果を含まないために、現在のシステムにとっては基本的である。このように、5cm〜10cm以上の高さの部品に対しては、標準のコンピュータ視覚システムは、不便なほど遠隔に配置するカメラを必要とする。更に、標準コンピュータ視覚システムは、箱やパレットにランダムな方向に向けて積まれた部品を構造的に把握させるようにロボットを導くことはできない。
【0003】
リサイクル部品が、リサイクル工場に運ばれてきて分類されるときにも、別の障害が存在する。消費者製品、特に自動車で使用されている部品の再構築は、環境および資源の面からの理由により将来、増加すると予測されている。再構築工程の前に、分類が必要となる。
【0004】
現在における技術が不十分な分野の三番目の例は、構造化環境における自走ロボットの高速ナビゲーションである。カメラに基づくナビゲーションシステムは、構造物要素、固定家具などの認識を必要とする。これらのセグメントは有界三次元対象物と考えられる。
【0005】
更に、本システムは自動車や建物の特定および分類のために衛星に適用して使用することができる。
【発明の開示】
【課題を解決するための手段】
【0006】
発明の概要
本発明の良好な実施形態によれば、対象物の認識および/またはローカライゼーションは対象物の認識画像において特定されるプリミティブに基づいている。このように、第1の態様において、本発明は、デジタル画像において、輪郭、好ましくはレベル輪郭とプリミティブを決定する方法であって、
デジタル画像の勾配を生成し、
絶対勾配の一つまたは二つ以上の極大値を求め、
一つまたは二つ以上の極大値を、輪郭を生成するためのシード(種)として使用し、ここにおいて各シードに対する輪郭の生成は、デジタル画像内にあり、輪郭に属する場所を表現する点の順序リストを決定することを含み、
すべての場所に対して、輪郭の、好ましくはdθ/ds、好ましくは画素単位で決定される曲率を決定し、
決定された曲率から、プリミティブを輪郭上の、または輪郭のセグメント上の特徴点として決定するステップを含む方法である。
【0007】
トレーニング画像から導出されたプリミティブに基づいて、対象物の認識および/またはローカライゼーションは、好ましくは本発明の第2態様による方法により実行される。第2態様は、三次元対象物の分類および/またはローカライゼーションのような認識方法であり、一つまたは二つ以上の対象物は、前記対象物の二次元デジタル画像である認識画像を提供するように画像化され、本方法は、フィーチャ(特徴)の本質的および非本質的特性である数値記述子が多数のトレーニング画像に対して格納されたデータベースを利用し、本方法は、
画像に対して、プリミティブの予め定義されたセットであるフィーチャを特定し、
フィーチャの数値記述子を抽出し、ここにおいて数値記述子は、
画像中のフィーチャの位置および方位のようなフィーチャの非本質的特性と、
フィーチャに適用される同形変換後に導出されるフィーチャの本質的特性の二種類があり、
特性をデータベースに格納された特性と整合し、整合物が見つかれば、データベース内で整合した特性に対応する対象物を、認識すべき対象物の対象物に類似していると割り当てる認識方法である。
【0008】
第3態様においては、本発明は、三次元対象物の位置決めおよび/または分類に関連して有効なデータベースの生成方法に関し、対象物は、対象物の二次元デジタル画像を提供するように画像化され、本方法は、対象物の二次元デジタル画像のプリミティブを決定するために本発明の第1および/または第2態様による方法を利用し、本方法は、
一つまたは二つ以上の対象物の多数のデジタル画像において、プリミティブの予め定義されたセットであるフィーチャを特定し、画像は、一つまたは二つ以上の対象物の異なるローカライゼーションを表わし、
フィーチャの数値記述子を、データベースから抽出して格納し、数値記述子は、
画像中のフィーチャの位置および方位である、フィーチャの非本質的特性と、
フィーチャに適用される同形変換後に導出されるフィーチャの本質的特性の二種類あることを含む方法である。
【0009】
本発明は、このようにシステムが対象物を認識し、分類し、位置決めすることを可能にする。
【0010】
本発明は、既に定義された輪郭近傍で特定される潜在シード点を削除するステップを更に含んでよい。これは、好ましくは、既存の輪郭に近すぎる輪郭の生成を避けるために行われる。
【0011】
更に、輪郭の生成は、各点がシードの値に共通に割り当てられた値を有する、デジタル画像内の場所を表現する点リストを割り当てることを含んでよい。
【0012】
更に、輪郭の生成は、各点において、最大勾配の方向に続く点を含む点の順序リストを決定することと定義してよい。
【0013】
更に、輪郭の生成は、各点において、ある輪郭方向に直交すると検出された最大または最小勾配の方向に続く点のリストを割り当てることを含んでよい。どちらの勾配に続くかは選択された勾配の方向に従って決定してよい。
【0014】
更に、輪郭の生成は、シードの値を超える、またはそれ未満の値を有する画素リスト、およびシードの値未満の、またはその値を超える値を有する一つまたは二つ以上の隣接する画素を割り当てることを含んでよい。
【0015】
画素リストは、好ましくは所定の方法で、デジタル画像内を移動することにより確立される。確立されたリストは、リストの検索速度を増すと考えられる画素の順序リストであってよく、これは、最大値または最小値のようなある値は、例えば、リストの最上部と最下部にそれぞれ位置することがあるためである。しかし、他のソリューションを適用してもよい。
【0016】
更に、輪郭は画素のリストに基づく内挿法により決定してもよい。これは、好ましくはより滑らかな輪郭を得るために実行される。
【0017】
勾配図の作成は、隣接する画素に割り当てられた数値間の差を計算することにより勾配を決定して達成してもよい。このように勾配図が得られ、そこから更なる情報が抽出される。
【0018】
勾配は、各要素が好ましくは第1画像内の特別な場所に対応し、特別な場所における第1画像の色調の勾配値を表わす数値であるアレイに格納してよい。
【0019】
プリミティブ生成のために使用される曲率は、θを輪郭上の1点における接線方向とし、sを基準点から測定される弧の長さとしたときに、好ましくは、κ=dθ/dsとして確立される。
【0020】
上記の第1、第2、および第3態様で記述したプリミティブは、好ましくは下記の特徴、
直線のセグメント、
相対的に大きな半径の円のセグメント、
変曲点、
曲率の最大数値の、好ましくは角部として割り当てられた点、
曲率の非常に小さな、および非常に大きな数値の部分を分離する点、および
輪郭により囲まれた小さな領域のエンティティ、
を一つまたは二つ以上備える。
【0021】
上記の生成された輪郭に対して、下記のプリミティブ、
所定のレベルより高い曲率の絶対値の値を有する輪郭の領域またはその上の点である変曲点、
曲率の正のピークを有する輪郭の領域またはその上の点である凹状角部、
曲率の負のピークを有する輪郭の領域またはその上の点である凸状角部、
ゼロの曲率を有する輪郭のセグメントである直線セグメント、および/または
一定曲率を有する輪郭のセグメントである円形セグメント、
の一つまたは二つ以上が検索される。
【0022】
認識方法に関する本発明の第2態様によれば、整合付けステップは更に、認識画像を、データベースに格納されたトレーニング画像と整合することを含み、整合付けの方法は、各トレーニング画像に対して、
トレーニング画像のフィーチャと同一の認識画像のフィーチャをもたらす変換のロール、チルト、およびパンの値を決定し、
変換により決定されたロール、チルト、およびパンの値により定義されるパラメータ空間におけるクラスタを特定し、および
予め定義された強度を有するクラスタを、対象物のタイプおよびローカライゼーションに対応するものとして特定するステップを備えてもよい。
【0023】
データベースは各画像に対して、それぞれがその本質的特性およびその非本質的特性を有するフィーチャを表わす一つまたは二つ以上のレコードを備えてよい。
【0024】
更に、整合付けは、
ロール、チルト、およびパンパラメータ空間をリセットし、
認識画像における各フィーチャに対して、認識画像の特性をデータベースに格納されている特性と整合付け、
整合する場合、データベースから、および認識画像からの非本質的特性に基づいてロール、チルト、およびパンを決定し、
パラメータ空間を更新し、
クラスタリングをテストし、トレーニング画像のインデックスを有する十分に高い密度/母集団のクラスタの座標を格納するステップを含み、
このステップを認識画像のすべてのフィーチャの整合付けが終了するまで繰り返すことを含んでよい。
【0025】
ロール、チルト、およびパンの決定は、好ましくは、データベース内の本質的特性と比較して類似のまたは同一の本質的特性を有するフィーチャに対してのみ行われる。このようにして、大量の計算時間が節約される。
【0026】
更に、整合付けは、認識画像の本質的記述子と、データベースに格納されている本質的記述子と比較し、それにより整合するフィーチャを選択することを含んでよい。
【0027】
第3態様で記述したデータベースの生成は、下記に記述されるステップとフィーチャによって更に生成されてもよい。
【0028】
好ましくは、非本質的特性は基準点と基準方向を備える。一方、本質的特性は、好ましくはフィーチャの数値量を備える。
【0029】
対象物は少なくとも二台の撮像装置を使用する方法で画像化されてもよく、それにより対象物の少なくとも二つの認識画像を生成し、整合付けの方法が各認識画像に適用され、各認識画像に対して見出された整合物が比較されてもよい。
【0030】
更に、二台の撮像装置を使用する方法は、
各撮像装置に対して、対象物の三次元基準点に対する推定値を提供し、
各撮像装置に対して、撮像装置のピンホールから推定された基準点までの直線を計算し、
少なくとも二つまたは三つ以上の直線が提供された場合は、
二つまたは三つ以上の直線が三次元で実質的に交差しない場合は、推定値を破棄し、
二つまたは三つ以上の直線が実質的に交差する場合は、
各撮像装置から得られた直線の間の擬似交点に基づいて、基準点のグローバルポジションを推定するステップを含んでよい。
【0031】
以下、本発明と、特にその良好な実施形態を、添付図と関連してより詳細に呈示する。
【発明を実施するための最良の形態】
【0032】
発明の詳細な説明
ここで記載される発明は、発明の背景の節で記載したすべての状況を対象としている。焦点は下記の特性、
トレーニング情報の簡単な生成、
トレーニング情報の合理的な少量、
透視法効果の正確な処理、
対象物の形状および見た目に関しての汎用性、例えば鋭い三次元エッジやランドマークは不要、
画像間の大規模な二次元整合または三次元再構築なしの高速認識、に置かれる。
機能
コンピュータ視覚システムは、別個のクラスに属する有界三次元対象物を分類および/または位置決めするために使用される。システムは一つまたは二つ以上のカメラで構成され、その画像は、1)三次元対象物のクラスと、2)その空間的位置および方位(姿勢状態)に関して解釈される。その機能は、他の対象物による可能性のある部分的遮蔽と、画像の効果的でないセグメント化からはある程度独立している。対象物は特徴的な装飾や鋭いエッジを有する必要はない。この機能は、カメラの位置と、対象物とカメラの間の距離に対する対象物のサイズには依存しない。画像の解釈は速度が最適化され、これはデジタルカメラの使用、画像データの迅速な電子的伝送、および最適化コードを意味する。更に、本システムで使用されるカメラは必ずしも、光学カメラである必要はなく、カメラは、熱カメラのような他の種類であってもよい。
定義
図14に示すカメラのピンホールモデル:カメラのフレーム(座標系)は軸u、v、wにより定義される。焦点は座標(u、v、w)=(0、0、f)を有し、fはカメラの焦点距離である。好ましくは、u、v、fは画素単位であるとよい。実際のカメラは負のf値を有する。適切な同形変換はチルト軸(u軸に平行)とパン軸(v軸に平行)の周りの連続的な二回転により記述できる。
【0033】
カメラはピンホール、つまり、透視法三次元−二次元変換の中心と画像面を有する撮像装置である。光軸はピンホールを通り直線であり、実質的に画像面に直交している。カメラの光軸の画像は、焦点と呼ばれ、図14に示されている。画像は二つの軸、垂直(v)軸と水平(u)軸を有する。
【0034】
好ましくは、対象物の見た目の下記の二次元特性、
1)外部輪郭(常に存在する)、
2)外部輪郭内に現れる輪郭、
3)輪郭の内部に現れる対象物の鋭い三次元エッジの画像、および
4)装飾物における二次元エッジ、が考慮される。
【0035】
これらの特性は、画像では(一次元の)直線または曲線として現れる。下記においては、これらのフィーチャを、特徴曲線と呼ぶ。特徴曲線の特別なフィーチャをプリミティブと呼ぶ。プリミティブは点状(変曲点、最大曲率点など)または一次元(直線セクション、一定曲率のセクションなど)であってよい。プリミティブの特別な対、三つの組合わせ、またはそれ以上の数のセットをフィーチャと呼ぶ。フィーチャの最も有効なタイプはプリミティブの対である。これらのうちのいくつかを図2aと図2bに示す。
【0036】
単一で特別な対象物で、かつ既知の対象物−カメラ間の姿勢状態を有し、特別なカメラで撮影した画像をトレーニング図と呼ぶ。システムにより解釈される場面の画像を認識図と呼ぶ。
【0037】
数値記述子はフィーチャの本質的特性と非本質的特性を記述する。本質的特性はフィーチャの回転不変記述子により記述され、非本質的特性は画像におけるフィーチャの位置と回転により記述される。
【0038】
好ましくは、フィーチャは三つの非本質的記述子を有し、それはフィーチャの基準点の二つの座標と同形変換後の基準方向である。
【0039】
レベル輪郭:好ましくは、レベル輪郭は、一定グレイトーン値gに対応する画像座標の順序リストである。座標は、一つはgより大きいグレイトーンを有し、他方はgより小さいグレイトーンを有する二つの画素間の線形内挿法により得られる。
【0040】
エッジ輪郭:好ましくは、エッジ輪郭は、デジタル画像における場所を表わし、輪郭に属している点の順序リストである。好ましくは、点は、現在の運動方向に直交する勾配を計算し、最大勾配の方向に移動させることにより前点から得られる。輪郭点の副画素座標は、各輪郭点からある距離後ろ、または前に離れた(整数)画素の場所にわたる平均グレイトーンを計算することにより得られる。この平均グレイトーンは、考慮している点のシフトされた場所という結果になる内挿法のための基準として使用される。
【0041】
図/画像または図/画像のセクションには二次元変換を実行できる。ここで考慮されている変換は、カメラの、そのピンホールの周りの仮想回転により特徴付けられる。これらの変換は、同形変換として示される。同形変換は、特別な軸の周りの連続するカメラの回転により指定できる。共通の記述法では、チルトは水平画像軸に平行な軸の周りの回転であり、パンは垂直画像軸に平行な軸の周りの回転であり、ロールは光軸の周りの回転である。これらの回転を図14に示す。Ωを画像または画像セクションとする。変換された画像または画像セクションは、シンボルΩ’=H(Ω)を有し、ここでHは同形変換である。画像における任意の点Qは、点Qが焦点に変換されるという特性を有する同形変換のクラスを定義する。そのような変換の後の画像または画像セクションは、シンボルHQ(Ω)を有する。この変換HQのクラスの一つのメンバーは、ロールがなく、パンが続くチルトにより特徴付けられる。この変換は、チルト・パン変換HQ、tpと呼ぶ。このクラスには他の多くのメンバーが存在する。好ましくは、それらのメンバーが良好に定義されたアルゴリズムを有する。
【0042】
図1にチルト−パン同形変換を示す。変換前の原画像は上の図である。下の図はチルト−パン同形変換後の画像であり、ドームの頂点は焦点に移動されている。
【0043】
好ましくは、同じクラスの対象物は幾何学形状に関して一様であり、これが装飾物に関してもある程度当てはまり、対象物の遮蔽されていない部分は、十分な特徴曲線を有する。特徴曲線を最善の状態で検出するためには、この場面の照明がかなり一定していることが好ましい。
方法の概説
認識は多数のトレーニング図の分析に基づく。これらのトレーニング図は、実際の対象物に向けられているカメラにより記録されるか、または対象物のCAD表現を使用して構築される。特徴曲線はトレーニング図から導出され、曲線のプリミティブが検出される。フィーチャの本質的および非本質的記述子は、図の対象物クラスと姿勢状態についてのデータと共にデータベースに格納される。上記のトレーニングに関する動作はオフラインで行われる。
【0044】
認識の間、類似の画像分析が行われる。認識の残りの部分は二つの段階で行われる。第1に、認識図の本質的記述子はデータベースの記述子と比較される。第2に、最も整合するフィーチャの中から、同じ姿勢状態の同じ対象物クラスを示すという意味で、どのフィーチャが相互に一致しているかが調べられる。
トレーニング図数の削減方法
剛体は6の自由度を有するため、図の多様性は非常に大きい。トレーニング量を削減するために二つの方法が採用される。第1に、非本質的記述子は、チルト−パンにより同形に変換された画像から導出される。あるフィーチャに対して使用される変換はHQ、tpであり、ここでQは実際のフィーチャの基準点である。第2に、整合検索に使用される本質的記述子は、カメラのロールと等価である画像の回転に対して不変である。上記の二つの方法は、トレーニング図の量は、剛体が6の自由度を有するという事実にも拘わらず、3の自由度に制限できるということを示唆している。好ましくは、各フィーチャに対してトレーニングデータベースは下記の、
a)チルト−パンによる同形変換とロール操作に対して不変な記述子、
b)画像軸に関する角度の二次元方位に対する回転記述子、
c)チルト−パン同形変換に関連するチルトとパンの角度、を含む。
【0045】
項目a)は、基準点をフィーチャに割り当てることができることを必要とする。
【0046】
項目b)は、基準方向をフィーチャに割り当てることができることを必要とする。
【0047】
トレーニングセッションでは、基準方向と基準点はユーザーにより手動で割り当てられる。
【0048】
トレーニングに関連する3の自由度は、対象物フレームにおけるピンホールの球座標(ρ、φ、θ)として選択できる(図16参照)。トレーニング中、光軸は対象物フレームの原点を通り、カメラのロール角はゼロである。このように、ρ、φ、θは、対象物フレームの原点およびピンホールからのベクトルの、それぞれ長さ、方位角、および水平角である。トレーニングステップでは、ユーザーが対象物フレームの原点を割り当てる。ρ、φ、およびθの間隔とステップサイズは、アプリケーションによってはトレーニングの必要がある。適度な、または弱い透視法に場合は、フィーチャの直線寸法が近似的にρに反比例するため、少数のρの数値のみが、トレーニングの必要がある。
認識:変換、整合検索、逆変換、およびクラスタ分析
認識の第1ステップにおいては、認識図の分析され、変換されたフィーチャの記述子が導出され、適切な数の記述子間の最良整合が、認識図とデータベース(レーニング図数の削減方法)の節における(項目a))の認識図から見出される。第2ステップにおいては、認識図とデータベースの整合レコードに属する、(トレーニング図数の削減方法)の節の項目b)とc)を考慮する。これらのデータは適切な逆変換に使用され、それにより、実際のフィーチャにより示唆される完全な三次元姿勢状態を計算する。六次元構成空間(各対象物クラスに対して一つの空間)における候補(票)のクラスタは、実際の対象物として解釈される。このクラスタ分析は、間違ったフィーチャ、つまり異なる対象物に属するプリミティブの検出された組み合わせを除去するためには重要である。
特徴曲線のプリミティブとフィーチャ
認識のための良好なプリミティブの例
1)直線のセグメント
2)相対的に大きな半径の円のセグメント
3)変曲点
4)最大曲率点
5)非常に低い曲率と非常に高い曲率の部分を分離する点
6)小さな領域を囲む曲線の場合:この領域の二次元的重心
図2は、上記の(特徴曲線のプリミティブとフィーチャ)節で記述したプリミティブを示す。図2aはプリミティブの例を示し、図2bはプリミティブの対と、それらの基準点(細い円)と、それらの基準方向(矢印)を示している。図2cは角度を示し、ここで角度rは回転により不変であり、角度dは回転を記述する記述子である。
【0049】
このシステムで使用されるプリミティブのセットは、好ましくは、下記の特性、
−基準点、
−基準方向(180度の不明性なしで)、
−一つまたは二つ以上の整合検索に適した回転不変記述子、を有するべきである。
【0050】
これらの条件を満たす二つまたは三つ以上の任意の組み合わせを採用することができる。図2bは基準点と基準方向を含むプリミティブの適切な対の例を示している。フィーチャに、直線または円のセグメントが関連する場合は、フィーチャの部分的遮蔽を可能にする認識は、好ましくは適切な不規則性を含むべきである。
【0051】
プリミティブの対の回転不変記述子は、例えば、点状のプリミティブ間の距離、直線部分の間の角度、接線と点状のプリミティブを結ぶ線の間の角度などである。図2cは回転不変角度と、(トレーニング図数の削減方法)の節の(項目b)の回転記述角の例を示している。
二台または三台以上のカメラを使用する利点
単一カメラ適用例における姿勢状態の不確定要素はρ、つまり、ピンホールと対象物の基準点との間の距離である。エラーは、画素の分離化、カメラノイズ、および変動する対象物寸法により起こる。不確定性は、下記のように二台または三台以上のカメラからの検出結果の相関を取ることで大幅に減少できる。各カメラは対象物の三次元基準点に対する推定値を与える。不確定性ρを伴って、各カメラは、基準点の場所に対する高い確率を有する三次元の線を定義する。そのような線の間の擬似交点は対象物の基準点の最も可能性ある場所である。これは図13に示されている。
【0052】
この方法は、ステレオビジョンに関連する。従来のステレオビジョンには、短すぎるベースライン(ピンホールの間の距離)は不正確な深度の決定という結果になり、大きすぎるベースライン(そして、光軸間の大きな角)は対応する点/フィーチャの特定を困難にするため、根本的な制限がある。マルチビューデータベースのフィーチャと整合しているフィーチャを使用する、現在導入されている方法においては、画像における対応する点を見つける必要がない。従って、本発明のマルチカメラバージョンにより達成される深度の推定は、通常のステレオビジョンを使用するよりもより正確である。
【0053】
二台以上のカメラを使用して得られる他の利点は、間違った分類と間違った姿勢状態の推定値の除去である。この除去は、弱い透視法により見たときの対称面を有する対象物の場合は、特に重要である。
トレーニング量と認識回数の推定
典型的な適用例においては、φ−θ空間におけるステップサイズは4度である。これは、制限のない角度範囲に対しては、ρの値当り約3,000画像を意味する。ほとんどの適用例は3から4個の異なるρ値のみを必要とし、総計で約10,000画像を与える。各トレーニング図におけるプリミティブの一般的なセット数は50であり、各データベースレコードにおける4バイトの浮動小数点エンティティの一般的な数は8である。そして、データベースの総量は一つの対象物クラスに対して16メガバイトのオーダーである。このデータベースにおける速度最適化整合検索は、1GHzのCPU上では対象物クラス当り1秒に満たない時間だけ続くと予測される。対象物の姿勢状態が(ρ、φ、θ)−空間のより小さな部分に限られることが予め知られている適用例においては、上記の数はそれなりに削減することができる。
【0054】
ここで記述される実施形態は、コンピュータ視覚システムにおいて使用される好ましいステップを含む。本システムは、一台または二台以上のコンピュータ視覚カメラの前にランダムに置かれた三次元対象物を分類および位置決めすることができる。本システムの発明の概要で述べた通り、好ましくは、認識は下記に基づく。
−トレーニング画像および認識画像における特徴曲線の決定
−フィーチャ記述子の導出(プリミティブおよびプリミティブ対)
−三次元解釈で使用される認識工程
使用される特徴曲線は、グレイトーン画像におけるエッジである。この記述において、「エッジ」はレベル輪郭(一定グレイトーンの曲線)またはエッジ輪郭(高勾配の曲線)として定義される。レベル輪郭を導出する方法は、(グレイトーン画像からのレベル輪郭の導出)の節で記述し、例示している。副画素により定義された輪郭を使用することにより、(輪郭からのプリミティブとフィーチャの導出)の節で概要を示したように、信頼できる特徴的な輪郭プリミティブ(直線のセグメント、変曲点、角部など)を導出できる。トレーニング画像および認識画像から導出されたプリミティブを使用する三次元の解釈は、(三次元解釈のステップ)の節で記述し、例示している。
グレイトーン画像からの輪郭の導出
この節では、レベル輪郭およびエッジ輪郭を導く画像分析を記述する。レベル輪郭の定義:図15aの右上の部分におけるフレームのグレイトーンの俯瞰図が図15bに示されている。好ましくは、レベル輪郭は一定グレイトーン値gに対応する画像座標の順序リストである。座標は、一つはgを超えるグレイトーンを有し、他方はg未満のグレイトーンを有する二つの画素間における直線内挿法により得られる。いくつかの定義の説明を下記に示す。
【0055】
1.グレイトーン画像はグレイトーンの二次元アレイG[x、y]から構成される。各アレイメンバーは画素である。
【0056】
2.各画素は画像面において整数座標を有する。
【0057】
3.俯瞰図との類似において、グレイトーンは、グレイトーン俯瞰図における高さと考えられ、これは図15aと図15bに示されている。
【0058】
4.適切な内挿法により、グレイトーンは連続画素座標の関数と考えられる。
【0059】
5.画像面において、共通のグレイトーンgを有する点を通る曲線をレベル輪郭と呼ぶ。レベル輪郭は、好ましくはお互いに交差しないことに留意されたい。
【0060】
6.点(x、y)における「勾配」は、最大値(|G[x、y−1]−G[x、y+1]|、|G[x−1、y]−G[x+1、y]|)と定義される。
【0061】
7.高勾配を有するレベル輪郭の各部分は「エッジ状」である。
【0062】
意味のあるレベル輪郭を導出する効率的な方法を記述するのがこの節の目的である。画像分析の結果は、レベル輪郭のセグメントのリストであり、各レベル輪郭のセグメントは画素位置のリストである。
輪郭に対するシードの導出
最初のステップにおいて、「勾配画像」は、グレイトーンが原画像の勾配に等しい画像として導出される。潜在シードは、勾配画像における極大値として定義される。潜在シードのリストが形成される。閾値以下の勾配を有する極大値はシードとして使用されない。シードのリストはグレイトーン、勾配、および画素座標を含む。このリストは勾配の大きさによりソートされる。図3は、シードの導出となる画像分析の例を示している。図3のウィンドウ1は原画像を示しており、図3のウィンドウ2は、勾配図を示している。図3のウィンドウ3は、潜在シードを示している。図3のウィンドウ4は、導出された輪郭を示している。
輪郭の導出
生成される最初のレベル輪郭は、最大勾配のシードを使用する。標準的な輪郭検索は、シードのグレイトーンに等しいグレイトーン閾値を使用して適用される。輪郭は、下記の停止条件の少なくとも一つが満たされるまで続く。
1)画像の境界に達する。
2)同じシードに再び到達する(閉じた輪郭)、または
3)次の輪郭点における勾配の絶対値が閾値未満になる。
【0063】
輪郭が閉じていない限り、輪郭検索は、好ましくは双方向で行われる。導出された輪郭に1−2画素以上接近している潜在シードは機能停止/除去される。
【0064】
すべての輪郭における画素の位置は、各輪郭に特徴的なグレイトーンの値を使用する直線内挿法に従って、シフトされる。結果は図4に示されている。
【0065】
図4におけるウィンドウは、図3の画像の右上隅における輪郭を示している。図4の上方のウィンドウは副画素の正確性を有する輪郭を示しているが、図4の下方のウィンドウは、輪郭の整数画素位置を示している。
【0066】
次の輪郭は、最大勾配を有する、機能停止されていないシードを使用して生成される。そして、新しい輪郭が、シードのリストが尽きるまで繰り返し生成される。図3のウィンドウ4は、導出された輪郭の例を示している。この例において、輪郭セクションの数は9である。示されたものより弱い輪郭は、シードの最低勾配に対して、より小さな値を選択することにより生成できる。
【0067】
好ましくは、下記の手順と制約が適用される。
a)レベル輪郭は、シード点からスタートして描かれる。
b)潜在シードは、勾配の大きさの極大値を有する画素である。
c)レベル輪郭は、シードの勾配の減少する勾配の大きさの連続により導出される。最大勾配を有するシードからスタートする。
d)レベル輪郭の位置は、初期の段階では、値gを超えるグレイトーンを有する整数画素の位置と、少なくとも一つの、値g未満のグレイトーンを有する隣接する画素として見出される。内挿された画素の位置は、各(整数)画素の位置を、内挿法により導出された新しい位置へシフトすることにより得られる。各レベル輪郭における位置のリストは、リストにおける隣接するインデックスが、画像内の隣接する位置に対応するように順序付けられる。
e)位置のインデックスが増加する方向に沿って移動するとき、gより高いグレイトーンを有する領域は、好ましくは右側にある。
【0068】
第2実施例においては、いわゆるエッジ輪郭が生成される。この場合、上記の手順および制約は、ステップdにおいて変更して適用してもよく、新しいステップdを下記のように実行してもよい。
【0069】
エッジ輪郭位置は、シード(第1画素)からスタートする画素の位置として見出され、現在の輪郭方向に直交する最大勾配を有する次の画素に向かって移動し、これらのステップを停止条件の一つが満たされるまで繰り返す。エッジ輪郭点の副画素の位置は、好ましくは、各輪郭位置の後ろ、および前のいくつかの画素の平均グレイトーンを計算することにより導出される。この平均グレイトーンは、内挿の基準として使用してもよい。
輪郭からのプリミティブとフィーチャの導出
プリミティブとは、曲線の特徴的な動きを伴う輪郭、またはそのセグメント上の点である(図2a参照)。発明の概要でリストされたプリミティブは、
a)直線のセグメント、
b)相対的に大きな半径の円のセグメント、
c)変曲点、
d)曲率の最大数値の点(角部)、
e)曲率の非常に小さな、および非常に大きな数値の部分を分離する点、
f)輪郭により囲まれた小さな領域のエンティティ、である。
【0070】
指定された特徴を有する二つまたは三つ以上のプリミティブのセットをフィーチャと呼び、図2bに示されている。
【0071】
上記のように、有効なフィーチャに対してはいくつかの要求事項がある。
1)フィーチャは、好ましくは基準点を有するべきである。
2)フィーチャは、好ましくは画像においてユニークな方向を有するべきである。
3)フィーチャは、好ましくは一つまたは二つ以上の回転不変記述子を有するべきである。そのような記述子により記述される特性は、本質的特性と呼ばれる。
【0072】
要求条件3)は厳格ではない。本質的特性がないと、整合検索は異なったものになる。この場合、トレーニング画像と認識画像の本質的フィーチャ間の比較はキャンセルされ、認識は、クラスタ検索のみに基づく。
【0073】
対象物の画像が、一種類の少数のフィーチャのみを含むときは、付加的なフィーチャタイプが分析に含まれるべきである。
【0074】
この節の目的は、プリミティブとフィーチャが、輪郭からどのように導出されるかを記述し、例示することである。
曲率対輪郭の長さ
プリミティブを生成するための良好なツールは、曲率対輪郭に沿う弧の長さを記述する機能である。輪郭上の点における接線方向を、角度θとし、sを、任意の基準点から測定された輪郭に沿う弧の長さとする。このとき、曲率はdθ/dsとなる。曲率関数κ(s)=dθ/ds対sは、プリミティブを定義するために有効である。このように、κ(s)におけるゼロと、|dκ/ds|のかなり高い値は、変曲点である。κ(s)の正のピークは、凹状の角部であり、κ(s)の負のピークは、凸状の角部である(または、バックグラウンドと、フォアグランドの定義によっては反対となる)。輪郭の直線セクションは、sの範囲では、κ(s)≒0である。半径Rを有する円のセクションは、sの範囲においてκ(s)=+/−1/Rを有する。
【0075】
画素分離化により、関数θ(s)とκ(s)は、微分を差で置換することにより導出できる。これが意味を持つためには、正確性を高めることと、効率的なノイズ削減に取り組むことが好ましい。輪郭の副画素定義は重要であり(図4参照)、画像がぼやけることも、カメラのノイズを削減するためには、しばしば必要である。プリミティブを導出する前に輪郭関数κ(s)を平滑化することも有効である。
【0076】
図5は、図3の画像の外輪郭の場合の、曲率関数κ(s)の動きを示している。図6には、図5の曲線を使用して検出可能な直線セクションと角部に対するシンボルが示されている。κ(s)におけるゼロと変曲点の間には、類似の対応関係がある(図示せず)。
【0077】
プリミティブを生成するアルゴリズムは、曲率に対するある閾値を必要とする。例えば、直線は、sの範囲において、|κ(s)|<κaにより特徴付けられ、ここにおいてκaは曲率の閾値であり、範囲にわたる積分∫κdsもまた、∫κdsが接線の角度の変動を表すので、十分に小さく(角度の閾値未満)でなければならない。別の閾値κbは、正または負のピークが角部かただのノイズなのかを決定するのに適している。従って、角部の基準値は、[κ(s)>κbかつκ(s)は極大値である]または、[κ(s)<−κbかつκ(s)は極小値である]。
【0078】
図5は、図3のウィンドウ4の輪郭の一つに沿う弧の長さs(画素単位)の関数として、曲率κ(s)(ラジアン/画素単位)を示している。シンボルは対応関係を示すために使用される(図6参照)。図6は、図3に示す画像に対して見出された外輪郭を示している。特徴的なフィーチャに使用されるシンボルは、図5に与えられたものに対応する。
三次元的解釈におけるステップ
下記の(トレーニング工程)の項において、多数のトレーニング画像が生成されるトレーニング工程が記述される。下記の(認識工程)の項において、認識工程におけるステップの概論が記述される、つまり、トレーニング工程で導出されたフィーチャが、認識対象のフィーチャとどのように比較されるかの概論が記述される。(フィーチャとして直線セグメント対の場合の認識工程)の節で、フィーチャとして直線セグメント対の特別な場合の認識工程のステップが記述される。対象物とカメラの間の姿勢状態における距離パラメータρの特別な状態と、一台または二台以上のカメラの使用法が、(パラメータρの特別な状態、二台のカメラの使用法)の節で検討される。
トレーニング工程
トレーニング工程においては、対象物とカメラの間の姿勢状態が既知の場合の対象物の画像が多数生成される。これは、CADシステムにおける構築またはカメラを使用して実行できる。
【0079】
トレーニング幾何学的配置は図16に示されており、対象物のフレームが、軸x、y、zにより与えられている。カメラの光軸は、対象物フレームの原点を通る。カメラの水平u軸は、好ましくは、対象物フレームのx−y平面に平行である(図16参照)。トレーニングパラメータはρ、φ、θである。
【0080】
対象物に対して、カメラの異なる姿勢状態(位置と方位)に対応する多数のトレーニング画像を生成する必要がある。下記の
1)認識中の同形変換、および
2)回転不変本質的記述子
の使用のため、トレーニングはわずか3の自由度のみに関連する。自由度のレベルは、対象物のフレームにおけるカメラのピンホールの球座標(ρ、φ、θ)として選択される。カメラの角度に関する姿勢状態は、対象物フレームの原点を通る光軸と、対象物フレームにおける指定された平面に平行な水平画像軸により特徴付けられる(「チルト−パン同形変換を使用する認識」の節参照)。トレーニングに使用されるカメラの姿勢状態はρ、φ、θ空間において適切に分布される。通常は、選択された姿勢状態は、この空間において規則的な格子を形成する。φとθの分離化ステップは、好ましくは2〜5度のオーダーである。ρの範囲と、異なるρの値の数は、状況に依存する。ここにおいては、トレーニングの姿勢状態のρ、φ、θ空間における分布については、詳細は触れない。単独のインデックスiが、このインデックスと、対象物に関してのトレーニングカメラの対応する姿勢状態の間のよく知られた関係を仮定して、トレーニングの姿勢状態に使用される。
【0081】
図11のフローチャートは、トレーニングの処理を記述している。
認識工程
あるフィーチャタイプを考える。各トレーニング画像は、多数のフィーチャを含む。これらのフィーチャを、Пi、jとし、ここにおいてiはトレーニング画像のインデックスであり、jは画像におけるフィーチャのインデックスである。ここで、πjを認識画像におけるフィーチャjとする。各フィーチャは次の特性を有する。つまり、1)基準点Q、2)角度γにより定義される基準方向、および3)一つまたは二つ以上の数値量から構成される本質的特性である。我々は、ベクトルΛにより、本質的特性を示す。γとΛの成分は、点Qを画像の中間点に移動するチルト−パン同形変換(「チルト−パン同形変換を使用する認識」の節を参照)から導出されなければならないということに留意されたい。
【0082】
整合検索は、1)Λ(πj)とΛ(Пi、j)の比較と、2)潜在的認識対象物の姿勢状態を記述するパラメータ空間におけるクラスタ検索を含む。Λ(πj)がΛ(Пi、j)に十分類似していれば、本質的パラメータとの関連において整合が存在する。すべての本質的整合に対してi、Q(Пi、j)、γ(Пi、j)、Q(Пj)、およびγ(Пj)から導出される認識姿勢状態が算出され、クラスタ検索に使用される。ここで、トレーニング姿勢状態を定義するインデックスiにより、認識姿勢状態の3自由度が与えられるが、他の3自由度は、適切な同形変換におけるチルト、パン、およびロールである。このステップの数学的詳細は、(チルト−パン同形変換を使用する認識)の節で記述される。
【0083】
容認された各クラスタは、物理的対象物を表現していると考えられる。しかし、クラスタ検索の後に、推測される姿勢状態の間の三次元的オーバーラップのチェックを追加的に実行すべきである。トレーニング用の(ρ、φ、θ)構成空間は、必然的に分離化しなければならず、これほど単純な認識手順でも、分離化ステップの半分のオーダーのエラーを生じる。このエラーは、隣接するトレーニング画像からの結果の間に、内挿法を適用することで削減できる。
【0084】
図17と図18は、トレーニング画像から導出される記述子のデータベースの構造と、認識画像から導出される記述子の構造を示している。ρi、φj、θkは、トレーニングパラメータの分離された値である。表中の各レコード(行)は、フィーチャから導出される。本例においては、各フィーチャは、三つの本質的記述子を有している。本質的記述子の数は、好ましくは3である。つまり、フィーチャの基準点の二つの座標と、同形変換後の基準方向である。データベースのレコードのいかなる非本質的記述子と、認識レコードのいかなる非本質的記述子も共に、認識フィーチャをトレーニングフィーチャと一致させるチルト−パン−ロール変換を定義する。そして、チルト−パン−ロールパラメータ空間における対応する点での増大化を実行できる。本質的認識記述子が、データベースの本質的記述子と十分に異なっている場合は、対応するフィーチャ対は考慮されない。この省略により、間違った対応関係によるノイズが削減される。
【0085】
この認識工程における多数の重要な詳細が次の節の例で示される。
【0086】
認識フローチャートは図12に示されている。
フィーチャとして直線セグメント対の場合の認識工程
下記の例においては、認識に使用されるフィーチャは直線セクションの対であり、対象物は、三つの箱形状の要素から構成される「三つ組レンガ」である(図7参照)。図7は、姿勢状態決定の例において取り扱う三次元対象物を示している。
【0087】
直線セクションは、好ましくはトレーニング写真の輪郭から導出される。各トレーニング画像における直線セクションのすべての対は、フィーチャと考えられる。直線対の交点は点Qであり、角度γは水平画像軸と、直線対の二等分線の方向との間の角度である。本質的記述子は、1)直線間の角度Vと、2)交点と直線セクションの終点との間の距離である。同形変換後、本質的フィーチャの両タイプが導出される。
【0088】
直線セグメントの部分的な遮蔽は、誤った距離を生成するので、交点と終点の間の距離を、整合検索において直接使用すべきではない。
【0089】
下記の検討は、角度に関する記述子のみに基づく検索に焦点を絞っている。
【0090】
図8は、三つ組レンガ構造のレゴモデルのトレーニング写真を示している。
【0091】
図9は、図8Aの輪郭に沿う、弧の長さ(画素単位)の関数としてのラジアン/画素単位の曲率を示している。
【0092】
図9から分かるように、直線セクションの位置を決めることは容易である。この例では、12の直線セクションがある。直線の適切な対を導出すると、いくつかの対は省略される、つまり、直線間の角度が0または180度に近いものは省略される。このように、図8Aにおいては、約90対が考慮される。
【0093】
図10は、トレーニング画像と認識画像を組み合わせた図である。Pは焦点の中心である。トレーニング直線対abは、QabがPに移動するように同形変換される。これにより直線対a’b’が生じる。量γabは、水平方向と二等分線mabの間の角度である。ab直線対の本質的記述子は、a’とb’の間の角度Vabである。同様な定義が、認識画像の直線対cdから導出される量についても成り立つ。角度V以外の本質的記述子は図示していない。
【0094】
図10は、トレーニング画像と認識画像を組み合わせた図である。例において、位置QabとQcd、および二等分線mcdとmabの間の角度γcdとγabは、トレーニング姿勢状態と認識姿勢状態の間のチルト−パン−ロール変換を定義する。特別なトレーニング画像の直線対に関連する認識画像の直線対はこのように、チルト−パン−ロールパラメータ空間の点を定義する。図10の右上部分に示す直線対efは、ab直線対とほぼ同じ角度記述子を有する。そして、アルゴリズムにおいては、この直線対の比較によって、パラメータ空間の「間違った」点が生成される。しかし、対応しないプリミティブがパラメータ空間において非常に分散された点を生成することは特徴的であり、一方、対応する直線対は、パラメータ空間においてクラスタを与える。他のトレーニング画像を、図10の認識画像と整合させようとしても、整合する直線対のクラスタリングを得ることはない。
【0095】
対象物の遮蔽と不十分な画像のセグメント化は、パラメータ空間における間違った点のバックグラウンドが、真の整合物のクラスタにより形成される信号と匹敵する程度にならない限り、認識工程に悪影響を与えることはないということは明白である。
【0096】
間違った整合数が、クラスタ検索に混乱を与えるときは、上記の追加的な本質的記述子(直線セクションの終点と、交点の間の距離)を含む不規則性を設定することができる。そのような不規則性により、認識直線は部分的にしか見えなくなるが、認識直線が、トレーニング直線の範囲外に存在するセクションを有することを防止できる。
【0097】
フィーチャπjを有する認識画像に対しては、アルゴリズムは下記のように動作する。
For each training image index i do

Reset roll, tilt, pan parameter space;
For all valid indices j and J' compareΛ(Πi,j) and Λ(nj') do

In case of intrinsic match

Derive roll r, tilt t, pan p, from Q(Πi,j), γ(Πi,j), Q(nj'), γ(nj');
Update parameter space accordingly;


Test for clustering and store coordinates of clusters with sufficiently high
Density/population along with the index i of the training image.

上記の「本質的整合」は、角度Vの類似性と、距離に関する不規則性の実現に基づいている。「パラメータ空間の更新」という用語は、パラメータ空間の関連する点における票を増加することである。
【0098】
弱い透視法の場合は、単一の対象物は、いくつかのトレーニング画像を有するクラスタを生成する、つまり、同じφ値およびθ値を有するものを生成するが、ρ値は異なる。これらのρ値の一つのみが実際の対象物に対応するので、直線状の本質的記述子を使用する特別なアルゴリズムを使用すべきである。
【0099】
推定されたトレーニングインデックスiと、チルト−パン−ロール空間におけるクラスタ点を使用する逆変換は、(チルト−パン同形変換を使用する認識)の節で記述されている。この逆変換は、カメラに関しての認識対象物の姿勢状態(またはその逆)を定義するので、認識工程はこれで完了する。
パラメータρの空間状態、二台のカメラの使用
対象物とカメラの間の姿勢状態は、6個のパラメータで記述される。つまり、a)対応するトレーニング画像のρ、φ、θと、b)認識姿勢状態とトレーニング姿勢状態の間の変換の(ロール、チルト、パン)である。弱い透視法の場合、プリミティブの無次元の記述子(例えば、角度)はρにはほとんど依存せず、直線記述子は、1/ρにほぼ比例する。従って、弱い、または適度な透視法に対しては、トレーニングを小数の異なるρ値に制限することが可能で、適切な内挿法を使用することができる。好ましくは、認識は二つの部分に分割される。最初の部分は、5個の角度パラメータの検出に集中し、二番目の部分は、内挿法を使用してρ値を導出する。
【0100】
ρの最終値の正確性は、フィーチャの直線記述子の品質と、トレーニングに関連する、異なるρ値の数に依存する。内挿法を使用しても、ρの相対的な不確定性は、画像点間の距離を含む本質的記述子の相対的な不確定性よりも小さくはないことが好ましい。増大された正確性は、三次元三角測量が下記のように実行できるので、二台(または三台以上)のカメラを使用して得ることができる。
【0101】
カメラ1とカメラ2を考える(図13)。カメラ1の分類と姿勢状態の推定結果を(ic1、ρ1、φ1、θ1、t1、p1、r1)で特徴付け、ここにおいて、ic1は、対象物のタイプのインデックスで、残りのパラメータは姿勢状態を定義する。ρ1がまったく不確定であれば、残りの姿勢状態パラメータは、対象物基準点に対する直線L1を定義する(図13参照)。同様に、カメラ2の推定(ic2、ρ2、φ2、θ2、t2、p2、r2)は、直線L2を定義する。グローバルなカメラの姿勢状態が分かっているため、直線L1とL2は、グローバルフレームにおいて表現できる。ic1とic2とが等しい場合は、L1とL2は実質的に交差し、従って、推定の対は実際の対象物を表現していると思われる。更に、二つの以前は不確定であったパラメータρ1とρ2は、高い正確性で、擬似交点(図13)によって決定できる。このように、姿勢状態の推定の正確性を高めるとともに、誤って解釈され、間違った信号−カメラの結果を回避できる。
【0102】
下記において、チルト−パン同形変換を使用する認識が、更に詳細に記述される。
チルト−パン同形変換を使用する認識
下記の表記を使用する。
【0103】
【数1】

【0104】
Rマトリックスは、t(チルト)、p(パン)、r(ロール)を介する回転を記述する。マトリックスKは、焦点距離fの透視法変換を記述する。我々は、下記のように定義される複合回転R(t、p、r)を使用する。
【0105】
R(t,p,r)=Rz(r)Ry(p)Rx(t) (2)
ここにおいて、マトリックスの連続する掛け算は、右から左へ進む。R-1(t、p、r)=Rx(−t)Ry(−p)Rz(−r)は、逆変換である。
【0106】
R(t、p、r)の要素は、
【0107】
【数2】

【0108】
我々は、対象物フレームに関するカメラの回転と並進移動の組み合わせは、R(t、p、r)|Dで定義され、ここにおいて、Dは対象物フレームにおいて表現される並進移動ベクトルである。点が、対象物フレームにおいて座標(xo、yo、zo)で表現され、同じ点がカメラフレームにおいて座標(xc、yc、zc)で表現されるとすると、下記が得られる。
【0109】
【数3】

【0110】
対象物フレームにおいて表現されるカメラフレームの座標軸は、R(t、p、r)の行ベクトルである。従って、カメラのz軸は、グローバルな方向、(sinp、−cospsint、cospcost)を有することになる。
【0111】
ここで我々は、カメラのトレーニング姿勢状態を定義する。ピンホールの位置が、D=(−ρsinφ、ρcosφsinθ、−ρcosφsinθ)によって与えられるとする。トレーニングカメラの角度(t、p、r)を(θ、φ、π/2)と等しいように選択する。これは、光軸が、対象物の原点を通ることを意味する。r=π/2を選択したことは、カメラのxc軸が、対象物フレームのyz平面に平行であることを意味する。
【0112】
対象物とカメラの間の変換をTCameraObjectとする。この変換は下記のように、二つに分割すべきである。
【0113】
【数4】

【0114】
ここにおいて、Oはゼロベクトルである。トレーニングカメラの姿勢状態は、1)対象物フレームの原点に向かうような方位を有する光軸と、2)対象物yz平面に平行なカメラのxc軸により特徴付けられる。角度t、p、rは、トレーニングカメラの方位から認識方位への変換TCameraTrainingCameraを特徴付ける、チルト、パン、およびロール角である。トータルな変換TCameraObjectは、ρと、5個の角度r、t、p、θ、およびφから導出できることに留意されたい。
【0115】
Ω(ρ、φ、θ、r、p、t)を、(ρ、φ、θ、r、p、t)により与えられる姿勢状態を有するカメラにより記録された画像とする。共通のピンホールの位置を有する同形の間の関係、つまり、Ω(ρ、φ、θ、r、p、t)とΩ(ρ、φ、θ、0、0、0)の関係は、ここでは、下記の同次座標を使用して表現される二次元変換であり、ここで(u、v)と(u’、v’)は画像の座標である。
【0116】
【数5】

【0117】
画像座標の原点は、焦点位置としている。
【0118】
我々は、変換KR(t、p、0)K-1(ゼロロール角)に焦点を当てる。その理由は、KとRは交換可能であるため、ロールは画像回転と考えられるからである。H(t、p)≡KR(t、p、0)K-1により定義される同形(2D)演算H(t、p)は、次のように記述できる。
【0119】
【数6】

【0120】
演算H(t、p)は、画像全体と同時に、画像の点に対しても可能であることに留意されたい。特別な点Q=(uQ、vQ)を原点(焦点)に移動する変換は、下記のパンとチルト角により与えられる。
【0121】
【数7】

【0122】
逆変換は、次の式で与えられる。
【0123】
【数8】

【0124】
関連画像において1)基準二次元の点Qと、2)u軸との、方向角γを有するフィーチャを考える。このフィーチャは、トレーニング画像Qtrにおけるパラメータ(Qtr、γtr)と、認識画像Qrecにおける(Qrec、γrec)を有している。このように、QtrとQrecは、対応する点であり、角γtrとγrecの方向もまた対応している。二つの画像を比較することは興味深い。
【0125】
【数9】

【0126】
これらの二つの画像は、お互いが、それぞれを回転したものであり、Ω’recに対する
Ω’trの回転角は、γrec−γtrとなる。両者は、QtrとQrecに画像化されている、三次元の点Qを通る光軸に対する姿勢状態に対応する。トレーニング姿勢状態に対する認識姿勢状態の、チルト、パン、およびロール角、t、p、およびrは次の式で与えられることを証明できる。
【0127】
【数10】

【0128】
トレーニング画像の処理は下記のように行われる。つまり、画像はフィーチャ(単一固定点、固定点群、複合フィーチャ)に関して分析される。各フィーチャのQrecとγrecの値と、他の種々の本質的数値記述子が導出され、データベースに格納される。速度最適化のために、マトリックスR-1(to(Qtr)、po(Qtr)、γtr)もまた算出されて格納される。
【0129】
認識の間、認識画像中の全フィーチャの本質的数値記述子は、データベース中の全類似フィーチャと比較される。整合が十分である場合は、回転TCameraTrainingCameraのパラメータt、p、およびrは(9)から導出される。t、p、rの結果の値と、整合トレーニング画像のパラメータρ、φ、θは共に、変換TCameraObjectを定義するので、三次元対象物の姿勢状態の6個のパラメータの推定値を形成する。六次元の姿勢状態におけるクラスタは、対応する姿勢状態で位置する実際の対象物により引き起こされたとされている。
【0130】
弱い、または適度な透視法の場合は、パラメータρの異なる値の数は、長さフィーチャが、近似的にρ-1に等しいρ依存性を有するので、非常に少なくするように選択できる。この場合、スケール不変の記述子に、五次元のr、p、t、φ、θ空間における関連する点を決定させることを推奨する。スケール不変の記述子のその後の分析により、関連するρ値が決定される。
【0131】
トータルな、対象物とカメラの間の変換は、次のように表わせる。
【0132】
【数11】

【図面の簡単な説明】
【0133】
【図1】チルト−パン同形変換を示している。
【図2】プリミティブ、プリミティブ対、および角度を示している。
【図3】四つの異なるウィンドウにおける画像の例を示している。
【図4】図3の画像の上部右隅の輪郭を示している。図4の上部のウィンドウは、副画素の正確性を有する輪郭を示し、図4の下のウィンドウは輪郭の整数画素位置を示している。
【図5】図3のウィンドウ4の輪郭の一つに沿う弧の長さ(画素単位)の関数として、曲率κ(s)(ラジアン/画素)を示している。シンボルは対応関係を示すために使用される(図6参照)。
【図6】図3に示す画像に対して見出された外部の輪郭を示している。特徴的フィーチャに使用されるシンボルは、図5に与えられたものに対応する。
【図7】姿勢状態決定のための例において処理される、三次元三つ組レンガを示している。
【図8】三つ組みレンガ構造のレゴモデルのトレーニング写真を示している。
【図9】図8Aの輪郭に沿う弧の長さ(画素単位)の関数として、ラジアン/画素の曲率を示している。
【図10】トレーニング画像と、認識画像の組み合わせ図を示している。
【図11】トレーニングに対する処理を記述するフローチャートを示している。
【図12】認識に対する処理を記述するフローチャートを示している。
【図13】二台のカメラ操作を示している。
【図14】カメラのピンホールモデルを示している。
【図15】画像から導出されたグレイトーン俯瞰図を示している。
【図16】トレーニング用幾何学的配置を示している。
【図17】トレーニング画像から導出された記述子のデータベースの構造を示している。
【図18】認識画像から導出された記述子の構造を示している。

【特許請求の範囲】
【請求項1】
デジタル画像において、輪郭、好ましくはレベル輪郭と、プリミティブを決定する方法であって、前記方法は、
前記デジタル画像の勾配を生成し、
前記絶対勾配の一つまたは二つ以上の極大値を求め、
前記一つまたは二つ以上の極大値を、輪郭を生成するためのシードとして使用し、ここにおいて各シードに対する前記輪郭の生成は、前記デジタル画像内にあり、輪郭に属する場所を表現する点の順序リストを決定することを含み、
前記すべての場所に対して、前記輪郭の、好ましくはdθ/ds、好ましくは画素単位で決定される曲率を決定し、
前記決定された曲率から、プリミティブを前記輪郭上の、または前記輪郭のセグメント上の特徴点として決定するステップを含む方法。
【請求項2】
既に定義された輪郭近傍で特定される潜在シード点を削除するステップを更に含む請求項1に記載の方法。
【請求項3】
前記輪郭の生成は、各点が前記シードの値と共通に割り当てられる値を有する、前記デジタル画像内の場所を表現する点のリストを割り当てることを含む請求項1または2に記載の方法。
【請求項4】
前記輪郭の生成は、各点において、輪郭方向に直交すると検出された最大または最小勾配の方向に続く点のリストを割り当てることを含む請求項1または2に記載の方法。
【請求項5】
前記輪郭の生成は、前記シードの値を超える、またはそれ未満の値を有する点のリスト、および前記シードの値未満の、またはその値を超える値を有する一つまたは二つ以上の隣接する画素を割り当てることを含む請求項1または2に記載の方法。
【請求項6】
前記画素リストは、所定の方法で前記デジタル画像内を移動することにより確立される請求項1から請求項5のいずれか1項に記載の方法。
【請求項7】
前記輪郭は、前記画素リストに基づく内挿法により決定される請求項2から請求項6のいずれか1項に記載の方法。
【請求項8】
前記リストは、画素の順序リストである請求項2から請求項7のいずれか1項に記載の方法。
【請求項9】
前記勾配は、隣接画素に割り当てられた数値間の差を計算することにより決定される請求項1から請求項8のいずれか1項に記載の方法。
【請求項10】
前記勾配は、各要素が第1画像内の特別な場所に対応し、前記特別な場所における前記第1画像の色調の勾配値を表わす数値であるアレイに格納される請求項1から請求項9のいずれか1項に記載の方法。
【請求項11】
前記曲率は、θを輪郭上の1点における接線方向とし、sを基準点から測定された弧の長さとしたときに、κ=dθ/dsとして確立される請求項1から請求項10のいずれか1項に記載の方法。
【請求項12】
前記プリミティブは、下記の特徴、
直線のセグメント、
相対的に大きな半径の円のセグメント、
変曲点、
前記曲率の最大数値の、好ましくは角部として割り当てられた点、
前記曲率の非常に小さな、および非常に大きな数値の部分を分離する点、および
輪郭により囲まれた小さな領域のエンティティ、
を一つまたは二つ以上備える請求項1から請求項11のいずれか1項に記載の方法。
【請求項13】
各輪郭に対して、下記のプリミティブ、
所定のレベルより高い曲率の絶対値の値を有する輪郭の領域またはその上の点である変曲点、
曲率の正のピークを有する前記輪郭の領域またはその上の点である凹状角部、
曲率の負のピークを有する前記輪郭の領域またはその上の点である凸状角部、
0の曲率を有する前記輪郭のセグメントである直線セグメント、および/または
一定曲率を有する前記輪郭のセグメントである円形セグメント、
の一つまたは二つ以上を検索する請求項1から請求項12のいずれかに記載の方法。
【請求項14】
三次元対象物の分類および/またはローカライゼーションのような認識方法であり、前記一つまたは二つ以上の対象物は、前記対象物の二次元デジタル画像である認識画像を提供するように画像化され、前記方法は、フィーチャの本質的および非本質的特性である数値記述子が多数のトレーニング画像に対して格納されたデータベースを利用し、前記方法は、
前記画像に対して、プリミティブの予め定義されたセットであるフィーチャを特定し、
前記フィーチャの数値記述子を抽出し、ここにおいて前記数値記述子は、
前記画像中の前記フィーチャの位置および方向のような前記フィーチャの非本質的特性と、
前記フィーチャに適用される同形変換後に好ましくは導出される前記フィーチャの本質的特性の二種類あり、
前記特性を前記データベースに格納された特性と整合し、整合物が見つかれば、前記データベース内で整合した特性に対応する前記対象物を、認識すべき前記対象物の前記対象物に類似していると割り当てる認識方法。
【請求項15】
認識画像を、前記データベースに格納されたトレーニング画像と整合し、整合付けは各トレーニング画像に対して、
前記トレーニング画像の前記フィーチャと同一の前記認識画像の前記フィーチャをもたらす変換のロール、チルト、およびパンの値を決定し、
前記変換により決定されたロール、チルト、およびパンの値により定義される前記パラメータ空間におけるクラスタを特定し、および
予め定義された強度を有するクラスタを、対象物のタイプおよびローカライゼーションに対応するものとして特定する、
ステップを含む請求項14に記載の方法。
【請求項16】
前記データベースは各画像に対して、それぞれがその本質的特性およびその非本質的特性を有するフィーチャを表わす一つまたは二つ以上のレコードを備える請求項14または請求項15に記載の方法。
【請求項17】
前記整合付けは、
ロール、チルト、およびパンパラメータ空間をリセットし、
前記認識画像における各フィーチャに対して、前記認識画像の特性を前記データベースに格納されている特性と整合付け、
整合する場合、前記データベースから、および前記認識画像からの前記非本質的特性に基づいてロール、チルト、およびパンを決定し、
パラメータ空間を更新し、および
クラスタリングをテストし、前記トレーニング画像のインデックスを有する十分に高い密度/母集団のクラスタの座標を格納するステップを含み、
前記ステップを前記認識画像中のすべてのフィーチャの整合付けが終了するまで繰り返す、
ことを含む請求項16に記載の方法。
【請求項18】
前記ロール、チルト、およびパンの決定は、前記データベース内の前記本質的特性と比較して類似のまたは同一の本質的特性を有するフィーチャに対してのみ行われる請求項17に記載の方法。
【請求項19】
前記整合付けは、前記認識画像の前記本質的記述子と、前記データベースに格納されている前記本質的記述子と比較し、それにより整合するフィーチャを選択することを含む請求項17に記載の方法。
【請求項20】
前記データベースは、請求項21から請求項14のいずれかに従って生成される請求項14または請求項19に記載の方法。
【請求項21】
三次元対象物の位置決めおよび/または分類に関連して有効なデータベースの生成方法であり、前記対象物は、前記対象物の二次元デジタル画像を提供するように画像化され、 前記方法は、前記対象物の前記二次元デジタル画像のプリミティブを決定するために請求項1から請求項20のいずれかの方法を利用し、前記方法は、
一つまたは二つ以上の対象物の多数のデジタル画像において、プリミティブの予め定義されたセットであるフィーチャを特定し、前記画像は、前記一つまたは二つ以上の対象物の異なるローカライゼーションを表わし、
前記フィーチャの数値記述子を、前記データベースから抽出して格納し、前記数値記述子は、
前記画像中の前記フィーチャの位置および方位であり、前記フィーチャの非本質的特性と、
前記フィーチャに適用される同形変換後に導出される前記フィーチャの本質的特性の二種類である、
ことを含む方法。
【請求項22】
前記非本質的特性は、基準点と基準方向を備える請求項14から請求項21のいずれかに記載の方法。
【請求項23】
前記本質的特性は、フィーチャの数値量を備える請求項14から請求項22のいずれかに記載の方法。
【請求項24】
前記対象物は少なくとも二台の撮像装置で画像化され、それにより前記対象物の少なくとも二つの認識画像を生成し、請求項12から請求項18のいずれかに記載の方法が各認識画像に適用され、各認識画像に対して見出された前記整合物が比較される請求項14から請求項20のいずれかに記載の方法。
【請求項25】
前記方法は、
各撮像装置に対して、前記対象物の前記三次元基準点に対する推定値を提供し、
各撮像装置に対して、前記撮像装置のピンホールから前記推定された基準点までの直線を計算し、
少なくとも二つまたは三つ以上の直線が提供された場合は、
前記二つまたは三つ以上の直線が三次元で実質的に交差しない場合は、前記推定値を破棄し、
前記二つまたは三つ以上の直線が実質的に交差する場合は、
各撮像装置から得られた前記直線の間の擬似交点に基づいて、前記基準点のグローバルポジションを推定する請求項24に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公表番号】特表2007−502473(P2007−502473A)
【公表日】平成19年2月8日(2007.2.8)
【国際特許分類】
【出願番号】特願2006−523525(P2006−523525)
【出願日】平成16年8月13日(2004.8.13)
【国際出願番号】PCT/DK2004/000540
【国際公開番号】WO2005/017820
【国際公開日】平成17年2月24日(2005.2.24)
【出願人】(506053607)スカーペ アクティーゼルスカブ (1)
【Fターム(参考)】