説明

記述子を用いて3Dオブジェクトまたはオブジェクトを表す方法

【課題】オブジェクトの3Dモデルのデータベースを用いて、3Dシーンのスキャナーによって取得されるクエリ2.5D距離画像においてオブジェクトを検出する方法を提供する。
【解決手段】3Dオブジェクトが記述子によって表され、3Dオブジェクトのモデルは、3D点群である。3D点群における各点pの局所サポートの位置が特定され、局所サポートの基準x軸、y軸及びz軸が生成される。基準x軸、y軸及びz軸に従って、点pを中心とするxy平面上の方位角方向及び動径方向に沿って、極座標格子が、この格子上の各パッチが2Dヒストグラムのビンであるように適用され、2Dヒストグラムは、格子上の2D行列Fであり、2D行列Fの各係数は、格子上のパッチに対応する。各格子位置(k,l)に対して、仰角値F(k,l)が、パッチ内の3D点の仰角値を補間することにより推定され、点pの記述子が生成される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、記述子を用いてオブジェクトを表すことに関し、より詳細には、記述子を用いて2.5D距離(range:レンジ)画像においてオブジェクトを検出することに関する。
【背景技術】
【0002】
オブジェクトの3Dモデルのデータベースを用いて、3Dシーンのスキャナーによって取得されるクエリ2.5D距離画像においてオブジェクトを検出する方法を提供することが望まれている。2.5D距離画像では、オブジェクトのサーフェスにおける全てのスキャン点(ピクセル)(x,y)は、1つの深さ値zに関連しており、すなわち、zは、スキャナーからその点までの距離である。
【0003】
オブジェクト検出
本明細書において定義するとき、オブジェクト検出は、概して、オブジェクト形状マッチング、オブジェクト認識及びオブジェクトレジストレーションを含む。
【0004】
点群(point cloud:ポイントクラウド)
点群は、3次元座標系における頂点の集合である。頂点は、通常、(x,y,z)座標によって定義され、一般に、オブジェクトの外側サーフェスを表す。本明細書で用いる点群は、スキャナーによって生成される。スキャナーは、オブジェクトのサーフェス上の多数の点までの距離を自動的に測定し、点群をデータファイルとして出力する。点群は、スキャナーによって測定される点の集合を表す。点群は、本明細書で定義するようなオブジェクト検出を含む多くの目的に用いられる。
【0005】
従来技術によるオブジェクト検出方法は、概して、3Dサーフェスメッシュ及び完全な3Dモデルが利用可能であることを前提としており、したがって、それらの方法を2.5D距離画像には容易に拡張することはできない。2.5D距離画像において3Dオブジェクトを検出することは、以下の理由で困難である。
【0006】
オブジェクトのパーツは、自己遮蔽(self−occlusion)により、又は他のオブジェクトによる遮蔽により不明瞭となる場合がある。スキャナーは、最大でも、360度3Dシーンの180度ビューしか取得することができず、すなわち、最大でも、距離画像では、シーンの半分しか見えない。
【0007】
隣接するオブジェクトもまた、検出方法を妨げる背景クラッターとして作用する可能性がある。視点及びスケールの変化により、高い外観の変動及び曖昧さが現れる。この変動は、クラス間変化を大きく超えて、不正確な検出の原因となる場合もある。
【0008】
距離画像
レンジスキャナーは、サーフェスが離散点でしかスキャンされず、オブジェクトの微細な詳細が通常喪失するか又はぼやけるため、空間分解能が限られている。スキャナーによっては、サンプリング分解能が種々の軸に沿って大きく変化し、3D点群の再サンプリングが困難であって、場合によっては、サーフェストポロジーが歪むことになる。
【0009】
高速レンジスキャナーは、距離測定において著しい雑音をもたらし、シーンの一部が不完全な観測値を有することになる。
【0010】
上記問題にかかわらず、スキャナーが生成する点群の使用は、従来のカメラ等の従来の光学的対応物を上回る多くの利点があるため、ますます普及してきた。一般に、2.5D距離画像に対する方法は、幾何学的距離のみが問題であるため、概して照明不変である。
【0011】
特徴記述子
オブジェクト検出方法のための最も普及しているオブジェクト記述子は、特徴ベースのものであり、コンパクトかつ有効な3D記述子を必要とする。それらの方法の有効性は、識別力、回転不変性、雑音に対する非感受性及び計算効率を含むいくつかの基準に基づく。
【0012】
特徴ベースの方法を、サポート領域のサイズに応じて以下のカテゴリー、すなわち、グローバル記述子、リージョナル(regional)記述子及びローカル記述子に分割することができる。しかしながら、ローカル記述子は、サーフェス法線、又は離散サンプル点の集合からの曲率等、局所的特性の推定が非常に不安定であるため、離散的にスキャンされる点からの認識及び検出には有用ではない。
【0013】
グローバル記述子
拡張ガウス像(EGI:extended Gaussian image)は、最も普及しているグローバル記述子の1つである。EGIは、重み付きサーフェス法線をガウス球にマッピングし、2D画像を形成する。この記述子が簡潔であることには、局所的な幾何学情報を喪失するという犠牲が伴う。
【0014】
形状分布方法は、ペアでの点の距離をランダムにサンプリングし、形状全体を表すヒストグラムを形成する。この記述子は、迅速に確定することができ、姿勢正規化、特徴対応又はモデルのあてはめを必要としないため有利である。
【0015】
他のグローバル形状特徴には、超二次、球上属性イメージ(spherical attribute image)、並びにMPEG−4オブジェクト及びストリームに基づく協調システム(COSMO:collaborative system based on MPEG−4 objects and streams)がある。グローバル形状記述子は、概して、モデル全体を用いることに起因して識別力が高い。一方で、これらのモデルは、クラッター又は遮蔽の影響を非常に受けやすい。
【0016】
リージョナル記述子
リージョナル記述子の中で特に、スピンイメージが、多くの3D応用において有効である。スピンイメージは、中心が基準点pにあり、かつその北極点が点pにおけるサーフェス法線推定に合わせて配向される、円筒状サポート領域を考慮する。2つの円筒座標は、動径座標α、すなわち中心に対する垂直距離、及び仰角座標β、すなわち点pを通る接平面に対する垂直符号付き距離である。スピンイメージは、(α,β)でインデックス付けされた体積内の点を累積することによって構成される。他のリージョナル記述子には、サーフェススプラッシュ(surface splash)及びスーパーセグメント(super segment)がある。
【0017】
3D形状コンテキストは、サポート領域が球である以外は、スピンイメージに類似している。球は、その球を方位角次元及び仰角次元に沿って均一にかつ動径次元において対数的に分割することによって、部分体積に区分される。各部分体積に対する重みの累積が1つのヒストグラムビンに寄与する。方位角方向における自由度は、特徴マッチングを実行する前に取り除かれる。形状コンテキストに対して球面調和関数を適用することにより、回転不変とすることができる。その方法は、球形状コンテキストと呼ばれる。
【0018】
点シグネチャ(PS:point signature)は、3D曲線から平面までの距離によって局所トポロジーを表す。この1D記述子は、スピンイメージ又は形状コンテキストよりも識別能力が低いが、確定が迅速でありかつマッチングが容易であるという意味で有利である。この1D記述子は、点密度が不十分である場合に誤りをもたらす可能性があるスピンイメージのような法線推定を必要としない。また、形状コンテキストのように姿勢によって変化しない。加えて、種々のスケールにわたるシグネチャの組合せによって、より完全な記述子を得ることができる。
【0019】
多数の利用可能な3D記述子が与えられると、用途に最もよく適合する特徴を有する記述子を選択することに意味がある。種々のタイプの特徴を結合し、各特徴が用途の異なる段階で寄与することができるようにすることがより効率的である場合がある。
【0020】
例えば、スピンイメージ及びEGIは、トップダウン式にかつボトムアップ式に結合されてきた。その方法は、まず、スピンイメージを用いて点をオブジェクト又は背景として分類する。そして、隣接するオブジェクト点の連結成分を抽出する。一連のEGIは、高速な整列と、連結成分のEGIのモデルデータベースへのマッチングとを容易にする。これにより、大きいデータセットにおける車及び他のオブジェクトを検出する効率と精度との優れたトレードオフが提供される。3D顔認識のために、主曲率及び点シグネチャもまた結合されている。
【0021】
検出及び認識のカスケードに沿った特徴の配置は、主に発見的規則によって決定される。各クエリ画像に対して、何十万もの点がある可能性がある。大量のデータには、モデルデータベースから最良の一致を検索する効率的な技法が必要である。一方法は、主成分分析(PCA:principle component analysis)を用いてスピンイメージの部分空間を確定する。
【0022】
別の方法は、量子化を用いて特徴空間をクラスター化する。その方法は、k個の代表的なクラスターを用いて、高速d次元特徴検索を容易にする。ここで、kは実質的にdよりも小さい。その方法は、クエリヒストグラムをオブジェクト部分空間に投影することによってオブジェクトを部分的にマッチングすることができる。粗密(coarse−to−fine)手法は、計算量を更に低減することができる。データベースのモデルと比較するために、クエリ画像から特徴の僅かな部分のみが選択される。選択を、曲率若しくは法線方向等の局所トポロジーに基づいてランダムとするか、又はデータ駆動とすることができる。モデルに対する特徴のマッチング品質は、候補位置のショートリストを決定する。粗密チェーンの最後には、候補オブジェクトはより少なくなり、したがって、より複雑な探索及び幾何学的制約を実施することができる。
【0023】
特徴検索の別の方法は、ハッシュ法、幾何学的ハッシュ法を用いる。その方法は、不変座標表現を幾何学的座標ハッシュ法と結合して、単純な幾何学的制約を用いてモデルデータベースを簡潔にする。その方法は、特徴点の数の多項式である。準線形特徴検索方法は、局所性検知可能ハッシュ(LSH:locality sensitive hashing)を用い、それは、確率的最近傍探索である。その方法では、特徴がサーフェス上の角点において確定される。LSHは、衝突の確率に基づいて特徴をビンにハッシングし、それにより、同様の特徴が同じバケットにハッシングする。
【0024】
点シグネチャ
点シグネチャ(PS)は、中心点を中心とする球とオブジェクトのサーフェスとの交差部によって形成される3D空間曲線に基づく形状記述子である。PSは、確定が高速であり、モデルとのマッチングが容易である。しかしながら、PSには、信頼性の高いマッチングに十分な識別力が欠けている。
【発明の概要】
【発明が解決しようとする課題】
【0025】
多く応用では、スピンイメージ、形状コンテキスト及びそれらの球面調和関数等の形状記述子の他の組合せが有効である。PSの過度な単純化とは対照的に、それらの記述子は、所与の体積における点の数に比例する重みを格納する。それらの記述子を、体積ベースの記述子として分類することができ、それにより、必然的に疎である距離画像の性質に起因して不可避的に高い冗長性が生じる。加えて、スピン画像及び形状コンテキストには、局所点において法線ベクトルの推定が必要であり、それにより、空間分解能が低い場合に間違いが発生しやすい可能性がある。
【課題を解決するための手段】
【0026】
3Dオブジェクトは、記述子によって表され、3Dオブジェクトのモデルは、3D点群である。
【0027】
3D点群における各点pに対する局所サポートの位置が特定され、局所サポートの基準x軸、y軸及びz軸が生成される。
【0028】
基準x軸、y軸及びz軸に従って、点pを中心とするxy平面上の方位角方向及び動径方向に沿って、極座標格子が、この格子上の各パッチが2Dヒストグラムのビンとなるように適用され、2Dヒストグラムは、格子上の2D行列Fであり、2D行列Fの各係数は、格子上のパッチに対応する。
【0029】
各格子位置(k,l)に対して、仰角値F(k,l)が、パッチ内の3D点の仰角値を補間することにより推定され、点pの記述子が生成される。
【発明の効果】
【0030】
本発明は、高い識別力を有するとともに3D形状を表現するのに有効な同心円シグネチャ(CORS:concentric ring signature)を提供する。
【0031】
本発明は、点群を用いてオブジェクトを認識しレジストレーションする粗密方法も提供する。
【図面の簡単な説明】
【0032】
【図1】本発明の実施の形態による、オブジェクトの記述子として同心円シグネチャ(CORS)によりオブジェクトを表す方法のフロー図である。
【図2A】本発明の実施の形態による、2つのCORS記述子の間の距離を確定する方法のフロー図である。
【図2B】本発明の実施の形態による、CORSを用いてオブジェクトをマッチングする方法のフロー図である。
【図3】本発明の実施の形態による、投影平面を確定し、面に対して基準方位を確定する、3Dデータ点の球状クラウドの概略図である。
【図4A】本発明の実施の形態によるオブジェクトの周縁部に対する平面の概略図である。
【図4B】本発明の実施の形態によるスライス面における局所近傍結果に対するあてはめの概略図である。
【図5】人間の顔の3Dデータクラウドにおける種々の位置において確定されるCORSの概略図であり、CORSが小さい方の矩形形状を有し、従来技術によるスピンイメージが大きい方の矩形形状を有する、図である。
【発明を実施するための形態】
【0033】
本発明の実施の形態は、3Dオブジェクトを記述子で表し、その記述子を用いてクエリ2.5D距離画像において同様のオブジェクトを検出する方法を提供する。2.5D距離画像を、スキャナーによって取得することができる。3Dオブジェクトは、3D点群によってモデル化される。本明細書で定義するオブジェクト検出は、概して、オブジェクト形状マッチング、オブジェクト認識及びオブジェクトレジストレーションを含み、点群は、オブジェクトの外面を表すように意図されている3次元座標系(x,y,z)における頂点の集合として定義される。より詳細には、点群は疎であり、米国特許第7,605,81号、同第7,856,125号及び米国特許出願公開第2008/0310757号を参照されたい。
【0034】
本発明者らは、局所データ点から投影平面までの距離により、折り返された同心円のセット内の局所トポロジーを表す3D記述子について述べる。本発明者らは、この記述子を同心円シグネチャ(CORS)と呼ぶ。CORSは、データベースに格納され、対応する3Dモデルと関連付けられる。
【0035】
スピンイメージとは対照的に、本発明者らによるCORSは、点法線を推定する必要がない。したがって、CORSは、離散的にサンプリングされる点の疎クラウドに、特にそのクラウドにおける点の密度が従来の検出方法の距離画像の場合のように不十分に低い場合、直接適用可能である。さらに、本発明者らによるCORSは、点シグネチャ(PS)及びスピンイメージよりもコンパクトかつ密な記述子ベクトルを生成し、それにより、CORSは、雑音、不完全なデータ及び遮蔽に対してよりロバストとなる。
【0036】
本発明者らによるCORSの識別力は、点シグネチャに対して優れており、正しい一致のスコアの割合を39%から88%まで改善向上させた、約2倍の優れた推定をもたらす。この品質はまた、3Dオブジェクト検出及び2.5D画像におけるレジストレーションに対しても観察される。
【0037】
CORSにより、オブジェクトスケールを適切に推定することができ、したがって種々のスケールにわたる探索がなくなる。さらに、本発明者らによる3Dモデルは、カラー画像検出に対して異なるビューにおける複数のスナップショットが不要である。オブジェクトの各クラスに対して、データベースに僅かな数のモデルのみを格納すればよい。これにより、システムは、クエリ画像において複数のオブジェクトを検出することが望まれる場合に、クラスの数によりスケールアップすることができる。
【0038】
本発明者らによる方法は、以下の基本ステップを含む。本発明者らは、オブジェクトを含むシーンのクエリ2.5D距離画像において均一に分散している点の部分集合に対して、同心円シグネチャ(CORS)を確定する。本発明者らは、クエリ画像から抽出されるCORSと、データベースの3Dモデルに格納されているCORSとの対応を確定する。このステップを、形状表現によって加速させることができる。そして、オブジェクトは、幾何学的制約を用いて検出される。
【0039】
同心円シグネチャ
図1は、以下に詳細に説明する、本発明の実施の形態による、オブジェクトの記述子としてCORSを構成する方法を示す。
【0040】
まず、図3においてCORSの全体的な概念を概略的に説明する。
【0041】
本方法への入力は、オブジェクトのモデルである、3Dデータ点p101の球状「クラウド」である。各点pの局所サポートSは、半径rで点pを中心とする点pの球状体積である。本発明者らは、局所サポート領域S内で2Dデータ点の位置を特定する。そして、投影平面301を確定し、その平面における基準方位302を確定する。最後に、行列形態に配列されるパッチ応答(patch response)を確定する。平面Pは、局所近傍にあてはめられ、点pまで並進する(135)。他の変数は、本明細書に示す通りである。
【0042】
法線方向は、z軸302となるように取られる。次に、基準方位が、x軸に対して選択され、対応するパッチ内にサーフェスから平面までの距離を投影する。
【0043】
局所サポート
pを、3D点群101におけるデータ点とする。各点pを中心とし点pの半径r内にある点pの球状体積Sが、以下の式に従って点pの局所サポートとして定義される。
【0044】
【数1】

【0045】
半径rは、データによって決まる。例えば、滑らかかつ剛性の形状には、より大きい半径が好ましく、関節又は構造的変動がある形状には、より小さい半径が好ましい。rが増大するほど、CORSは識別力が高くなるが、遮蔽に対してより脆弱になる。半径rの適切な選択により、2つの要素のバランスがとられる。
【0046】
投影平面及び基準軸
接平面P301が、局所サポートSにあてはめられる(120)。平面あてはめに対して2つの選択肢があり得る。1つは、局所サポート内の全ての点Pを使用し(110)、系が略常に過剰決定であるため最小二乗によって平面をあてはめ、点pにおける平面Pの原点を法線方向に沿って並進させる(135)ことができる。代替的に、図1に示すように、例えば球状サポートをオブジェクトサーフェスと交差させて、局所サポートの周縁部に沿った点の部分集合を選択する(115)ことが可能である。
【0047】
図4A及び図4Bに示すように、平面301を周縁部にあてはめることは、特に山(ridge)401に沿った点に対してより適している。特別な場合、平面は、局所サポートにあてはめられ、それは、平面をその周縁部にあてはめることとは異なる。図4Aには、接平面における周縁部へのあてはめの結果を示し、図4Bには、スライス面402における局所近傍全体へのあてはめの結果を示す。本発明者らの記述子が点の仰角に基づくため、投影平面がサーフェスをスライスするのではなくサーフェスに対して接平面であることがより意味がある。投影平面がサーフェスをスライスする場合、結果としての記述子はゼロとなる。
【0048】
本発明者らは、局所サポートの記述子がカメラの視角の不変量であるように局所基準座標を定義する(130)。cをカルヒャー平均とし、それは、以下のように局所サポートにおける他の点に対して全体の距離が最小である座標である。
【0049】
【数2】

【0050】
並進動作135は、あてはめられた平面Pの原点を、その平面を平面Pの法線方向に沿ってシフト、すなわち平行移動させることによって、点pに移動する。言い換えれば、平面Pの(0,0)座標は、pに一致する。
【0051】
基準軸を生成する(140)ために、本発明者らは、z軸を平面Pに直交するように設定する。z軸は、単位ベクトルzのベクトルcpとのドット積が正であるような方向を指す。ベクトルcpは、カルヒャー平均点cを局所サポート内の点pに連結する。
【0052】
本発明者らは、ローカル記述子が視角の不変量であるように局所基準軸(x軸)を生成する(140)。x軸は、pから離れる方向に、局所サポートS内のあてはめられた平面Pから最大距離である3D点の投影まで指している。y軸は、クロス積zxによって定義される。こうした割当により、平面Pは、点pを通るxy平面に対応する。これらの2つの条件は、いかなる曖昧さもなくx軸を定義する。
【0053】
平面Pからxy平面までの投影距離が2つ以上のピークを超える場合、複数の基準軸を生成することができる。この状況が訓練段階で発生する場合、各々が1つのピークに対応する複数のCORS記述子が確定され、データベース160に格納され3Dモデルと関連付けられる。
【0054】
本方法のステップを、本技術分野において既知であるようにメモリ及び入出力インターフェースに接続されたプロセッサで実行することができる。
【0055】
マッチングの間(200)、投影距離が複数の同様に大きいピークを有する場合であっても、2.5Dクエリ画像における各クエリ点に対して、最大ピークに対応する1つの記述子のみが必要である。それは、クエリ記述子103は、複数の記述子がピークの曖昧さを考慮するように生成された場合に、モデルデータベースにおける正しい一致を常に確定することができるためである。本発明者らは、この状況が点のうちの約1%のみで発生し、複数のピークを含むことにより記述子のマッチングが改善されることに注目する。
【0056】
パッチのポピュレート
再び図3を参照して平面をあてはめ基準軸を生成した後、局所近傍Sにおける各3D点pは、ここでは、数の多次元配列の形態であるテンソルp(x,y,z)によって表される。テンソルは、カメラの視角の不変量である。z座標p(z)は、このテンソルにおける平面からの距離に対応し、xy平面座標p(x,y)は、平面P上の投影に対応する。
【0057】
次に、本発明者らは、基準x軸、y軸及びz軸を用いて格子上に定義されるパッチをポピュレートする(150)。本発明者らは、以下のように、格子上のパッチ内の所与のデータ点の代表的な仰角値を推定する。
1)本発明者らは、点pを中心とするxy平面上の方位角方向及び動径方向に沿って極座標格子を適用する。格子上の各パッチは、2Dヒストグラム用のビンである。{(k,l)}を、k=1,...,K及びl=1,...,Lのサンプリングされた格子位置の集合とし、ここでは、K及びLは、それぞれ、方位角方向及び動径方向に沿ったサンプリング間隔の数である。言い換えれば、本発明者らは、この格子上の2D行列Fを抽出し、行列の各係数fは、格子上のパッチに対応する。
2)各格子位置(k,l)に対し、本発明者らは、仰角値F(k,l)を推定してその点の記述子を生成する。
【0058】
代表的な仰角値F(k,l)は、以下のように推定される。
【0059】
【数3】

【0060】
式中、pは、(k,l)のビンの隣接する近傍ビン内の3D点であり、重みは以下のように求められる。
【0061】
【数4】

【0062】
及び
【0063】
【数5】

【0064】
仰角値F(k,l)は、格子位置(k,l)を包囲する点の仰角の重み付き平均である。各包囲点の仰角の代表的な仰角の推定に対する寄与は、(k,l)までの距離に対して反比例する重みwによって制御される。
【0065】
パラメータαは、記述子の平滑性を制御する。α値が高くなると記述子は平滑になり、αが小さくなると記述子は位置的並進に影響を受けやすくなる。パラメータαは、方位角方向及び動径方向に沿ったサンプリング間隔によって決まる。本発明者らは、ビン中心とそれらの隣接するビンとの間の平均ユークリッド距離が十分な値であることを確認した。固定パラメータαを用いることにより、ビンは、極座標系において原点に近いビンの方が遠いビンより類似するようになる。パラメータαを、この問題を克服する適応的な方法で設定することができる。また、形状の僅かな差が中心の近くにある場合、最小距離制約を課すことによって精度が向上する。
【0066】
SからPまでの平均直交距離に加えて、投影距離の標準偏差及び各ビンに入る点の密度もまた、補完する識別力を有し、同様の行列に組み込まれ得る。平均距離の利点は、点密度推定及び正規化を必要としないということである。
【0067】
図5は、人間の顔500の3Dデータクラウド上の種々の位置において確定されるCORSの視覚図を提供し、ここでは、本発明の実施の形態によるCORSは、2D行列を表す小さい方の矩形形状501であり、従来技術によるスピンイメージは、大きい方の矩形形状502である。
【0068】
サポート領域の半径は、両記述子に対して15に設定される。CORSの方位角量子化の数及び動径量子化の数は、それぞれ10及び5である。スピンイメージのビンサイズは、スキャナーの分解能に等しいように設定される。CORSの寸法は、従来技術によるスピンイメージの6.5分の1であることに留意されたい。こうした寸法の低減により、記述子マッチング効率が向上するが、識別力は損なわれない。
【0069】
CORSの高速近似
実際には、局所基準枠のz軸として、利用可能な場合は、いつでも局所サポートの法線のみを使用する(116)ことにより、CORSの計算時間を大幅に低減することができる。これにより、全ての位置において平面を近傍にあてはめる必要がなくなる。
【0070】
CORS記述子の大きいデータベース(何十万ものシグネチャ)へのマッチングを高速化するために、粗密手法を適合させることができる。各CORS記述子に対し、本発明者らは、K*L行列の全ての要素、すなわち下位シグネチャを生成するために同じ円に位置する要素を行合計する。これを、候補の可能性が低いものを迅速に取り除くために用いることができる。
【0071】
マッチング
図2A及び図2Bにマッチングプロセスを示す。まず、図2Aにおいて、2つのCORS記述子F201及びF202の間の相違点が、行列距離によって測定される(210)。CORS記述子のマッチングは、ユークリッド距離には限定されない。記述子に多様体埋込み220を適用することができる。CORSの表現が行列形態であるため、それを、多様体構造を有するものと考えることができ、そこでは、マッチングスコアは、多様体における2つのCORS記述子を連結する測地線距離221として定義される。さらに、多様体を、Isomapを用いて平坦化することができる(220)。Isomapは、既知の低次元埋込み方法であり、重み付きグラフにおける測地線距離が従来のスケーリングとともに組み込まれている。Isomapは、多様体上の各データ点の隣接するデータ点の概算に基づいてデータ多様体の固有の幾何学を推定する単純な方法を提供する。
【0072】
好ましい実施の形態では、本発明者らは、いくつかの距離ノルムを使用することができる。
【0073】
ユークリッド距離211計量は、以下のように定義され、
【0074】
【数6】

【0075】
ここで、加算は、全ての行列係数にわたりk、lに関係する。ユークリッド距離は、対応する要素間の二乗差の平方根である。これは、恐らくは最も一般的に使用されている距離計量である。
【0076】
マハラノビス距離212は、以下のように定義され、
【0077】
【数7】

【0078】
式中、V−1はF−Fの共分散行列の逆数である。マハラノビス距離は、有効に重み付きユークリッド距離であり、重み付けは、サンプル共分散行列によって確定される。
【0079】
ミンコフスキー距離213は、以下のように定義される。
【0080】
【数8】

【0081】
和は、k,l=1から係数の数までである。ミンコフスキー距離は、対応する要素間の絶対差をu乗したものの和のu乗根である。ユークリッド距離は、u=2の特別な場合である。
【0082】
チェビシェフ距離214は、以下のように定義される。
【0083】
【数9】

【0084】
相違点の尺度は、本発明が用いられる応用によって主に決定され、種々のビンの寄与をそれに従って変更することができる。例えば、応用が相称的な局所構造を強調表示することである場合、方位角次元に沿って同様のビン値を有するCORSは、他のCORSより大幅に高く重み付けされる。
【0085】
クエリ記述子の最良一致を、k次元ツリー及びボックス分解ツリーベースの探索等、近似最近傍技法を用いて効率的に抽出することができる。
【0086】
CORSの正しいマッチングの率は、点シグネチャよりおよそ2.5倍高い。誤り率は、スピンイメージの場合の18%からCORSの場合の12%まで低減し、それは33%を超える改善である。
【0087】
識別率
記述子対応を見つけることは、多くの認識問題及び検索問題に対して本質的である。潜在的に誤りのある一致をフィルタリングで除去し、更なる処理のために有用なもののみを維持する正確でロバストなメカニズムがあることが望ましい。大きいデータベースで記述子を探索するか又は雑音の多い観察結果において対応を見つける場合、最近傍マッチングにより大量の不正確な対がもたらされる。
【0088】
この問題に対処するために、記述子のユークリッド距離に対するグローバル閾値をそれらの最も近い一致に課すことが可能である。しかしながら、閾値を適用することは、識別能力の低い記述子の大部分が小さい距離のみで複数の一致を有する傾向があるため機能しない。
【0089】
図2Bに示すように、CORS記述子の2つのセット、すなわちセットA203及びセットB204が与えられると、本発明者らは、図2Aに対して上述した距離計量のうちの1つを用いて全てのペアのCORS記述子距離を確定する(230)。
【0090】
本発明者らは、最良の近傍の距離を2番目に良い近傍の距離と比較する(240)。本発明者らは、この比較のための尺度として以下のように識別比drを確定し(250)、
【0091】
【数10】

【0092】
ここで、dist及びdistは、クエリオブジェクトの記述子のセットと、データベースにおける別のオブジェクトの記述子のセットのそれぞれ最良の一致及び2番目に良い一致との間のユークリッド距離である。識別比が高いためには、正しい一致が、最も近い正しくない一致より大幅に近い最も近い近傍を有していることが必要である。その結果、識別比の高い一致は、はるかにより信頼性が高い傾向にある。間違った一致の場合、特徴空間の高い次元数のために、同様の距離内に複数の他の間違った一致がある可能性がある。本発明者らは、信頼性閾値261より識別スコアが低い記述子の対を除去する(260)。残りの記述子を用いて、信頼性の高い一致が得られる(209)。
【0093】
識別比に対して制限を課すことにより、正しい対応率が劇的に増大する。
【0094】
形状検出及びオブジェクトレジストレーション
2.5Dレンジスキャンクエリシーンが与えられると、タスクは、シーンが関心オブジェクトを含むか否かの信頼性の高い判断を行うということである。完全であるか又は部分的に遮蔽されているターゲットのインスタンスが検出されると、本方法は、シーンのターゲットに完全なモデルをレジストレーションする変換を推定する。この問題は、いくつかの理由で困難である。第1に、レンジスキャン画像は、通常、効率よいが信頼性の高い方法で処理される必要のある何十万もの点を含む。第2に、ターゲットは、自己遮蔽及びクラッタリング効果のために部分的にしか見えず、多くのグローバル形状記述子が無用になる。
【0095】
そして、CORSを用いる本発明者らの検出方法の3つの主なステップを以下のように列挙することができる。
1)シーンのランダムに分散した点の部分集合に対してCORSを確定する、
2)ランダムに分散している点のクエリ記述子とオフラインで確定されたモデル記述子との間の対応を見つける、及び
3)ランダムサンプルコンセンサス(RANSAC:RANdom SAmple Consensus)フレームワーク内の幾何学的制約を用いて動きパラメータを反復的に推定することにより、未知のオブジェクトの位置を特定しその姿勢を求める。
【0096】
まず、本発明者らは、クエリクラウドから点のランダムな部分集合においてCORS行列を確定する。これらのCORS行列は、所定のモデルCORS行列と比較されて、最良の一致と2番目に良い一致とが見つけられる。識別比が確定され、この尺度が1.5未満である対応が除去される(260)。次に、本発明者らは、一致した位置の3つの対をサンプリングし、それらが以下のような全ての幾何学的制約を満足させるか否かを検査する。
【0097】
【数11】

【0098】
式中、mはオブジェクトモデル上の点であり、qはクエリシーンにおけるその対応点である。
【0099】
最後の制約は、有効に、三角形の面積を閾値Aminよりも大きくする。三角形から離れる方向に更に移動するとレジストレーション誤差が増幅するため、本発明者らは、この誤差源を制限するために面積が十分大きい三角形を選択する必要がある。
【0100】
ここで、本発明者らは、3つの適切な対応を見つけたと考えて、回転行列R及び並進ベクトルtをいかに計算するかを簡単に述べる。剛体変換式は、以下の通りである。
【0101】
【数12】

【0102】
表記上便宜的に、2つの追加の頂点m及びqが導入される。
【0103】
【数13】

【0104】
R及びtは、以下のように推定される。
【0105】
【数14】

【0106】
式中、
【0107】
【数15】

【0108】
本発明者らは、高い雑音によって生成される誤検出及び他のタイプの誤りを防止する検証ステップを組み込む。このステップでは、モデルクラウド全体が、推定された回転パラメータ及び並進パラメータを用いて変換される。クエリとモデルとの間のオーバーラップする点の数が閾値を超える場合、アルゴリズムは、ターゲットの存在を確認し、R及びtを用いてモデル全体をシーンにレジストレーションする。
【0109】
点は、他のクラウドにおけるその最近傍まで距離が、スキャナーの分解能の2倍であるeを下回る場合、オーバーラップされていると分類される。実際には、本発明者らは、点群のランダムな部分集合を検査して、オーバーラップの程度の適切な推定を行うだけでよい。選択された頂点から離れすぎている領域は、他のオブジェクトに属している可能性があるため、無視することもまたより実際的である。
【0110】
本発明者らは、シーンの総数に対する正しい検出の数として定義される認識率を評価することに関心がある。グランドトゥルースに比較した並進及び姿勢推定の結果としての誤差が、それぞれオブジェクトの直径の1/10及び12度より小さい場合、オブジェクトは、正しく検出されたと言われる。
【0111】
本発明者らの方法は、平均して3回のみのRANSAC反復の後に収束する。いかなる更なる処理もなしに、R及びtの十分な推定値がもたらされる。
【0112】
発明の効果
本発明は、高い識別力を有するとともに3D形状を表現するのに有効な同心円シグネチャを提供する。
【0113】
本発明は、点群を用いてオブジェクトを認識しレジストレーションする粗密方法も提供する。

【特許請求の範囲】
【請求項1】
記述子を用いて3Dオブジェクトを表す方法であって、前記3Dオブジェクトのモデルが3D点群であり、前記方法は、
前記3D点群における各点pの局所サポートの位置を特定するステップであって、前記局所サポートは、
【数1】

に従って、前記点pを中心とし前記点pの半径r内にある点pの球状体積Sである、位置を特定するステップと、
前記局所サポートの基準x軸、y軸及びz軸を生成するステップと、
前記基準x軸、y軸及びz軸に従って、前記点pを中心とするxy平面上の方位角方向及び動径方向に沿って、極座標格子を、前記格子上の各パッチが2Dヒストグラムのビンとなるように適用するステップであって、前記2Dヒストグラムは、前記格子上の2D行列Fであり、前記2D行列Fの各係数は、前記格子上の前記パッチに対応する、適用するステップと、
前記各格子位置(k,l)に対して、仰角値F(k,l)を、前記パッチ内の前記3D点の前記仰角値を補間することにより推定し、前記点pの前記記述子を生成する、推定するステップと、を含み、
前記ステップは、プロセッサで実行される
記述子を用いて3Dオブジェクトを表す方法。
【請求項2】
接平面Pを、前記接平面Pが前記z軸に直交するように、最小二乗によって前記局所サポートにあてはめるステップと、
前記接平面の局所基準座標を定義するステップであって、前記局所サポートの前記記述子が視角の不変量であるように、前記局所サポートの前記基準x軸、y軸及びz軸を生成する、定義するステップと、
を更に含む請求項1に記載の方法。
【請求項3】
前記局所基準座標を定義する前に前記点pにおける前記平面Pの原点を法線方向に沿って並進させるステップ
を更に含む請求項2に記載の方法。
【請求項4】
前記局所サポートの周縁部に沿って前記接平面にあてはめるように点の部分集合を選択するステップ
を更に含む請求項2に記載の方法。
【請求項5】
前記z軸は、前記局所サポートの法線である請求項1に記載の方法。
【請求項6】
行列距離を用いて、既知のオブジェクトの第1の記述子を未知のオブジェクトの第2の記述子とマッチングするステップ
を更に含む請求項1に記載の方法。
【請求項7】
前記行列距離は、ユークリッド距離である請求項6に記載の方法。
【請求項8】
前記行列距離は、マハラノビスユークリッド距離である請求項6に記載の方法。
【請求項9】
前記行列距離は、ミンコフスキー距離である請求項6に記載の方法。
【請求項10】
前記行列距離は、チェビシェフ距離である請求項6に記載の方法。
【請求項11】
前記仰角値F(k,l)は、前記格子位置(k,l)を包囲する点の仰角の重み付き平均である請求項1に記載の方法。
【請求項12】
前記仰角値F(k,l)は、前記格子位置(k,l)を包囲する点の数である請求項1に記載の方法。
【請求項13】
前記仰角値F(k,l)は、前記格子位置(k,l)を包囲する点の勾配値の重み付き平均である請求項1に記載の方法。
【請求項14】
前記マッチングするステップは、
前記第1の記述子及び前記第2の記述子を多様体に埋め込むステップを更に含み、マッチングスコアは、前記第1の記述子及び前記第2の記述子を連結する測地線距離である
請求項6に記載の方法。
【請求項15】
前記多様体が平坦化される請求項14に記載の方法。
【請求項16】
識別比を用いて、クエリオブジェクトの記述子のセットを別のオブジェクトの前記記述子のセットとマッチングするステップ
を更に含む請求項1に記載の方法。
【請求項17】
第1の記述子と第2の記述子との間の距離を求めるステップであって、前記第1の記述子は、クエリセットからのものであり、前記第2の記述子は、データベースセットからのものである、求めるステップと、
前記クエリセットにおける前記各記述子に対して最も小さい距離及び2番目に小さい距離を見つけるステップと、
前記クエリセットにおける前記記述子に対して前記識別比を求めるステップと、
前記識別比が信頼性閾値より小さい前記記述子を前記クエリセットから除去するステップと、
残っている識別子を用いて、前記クエリセットの前記記述子と前記データベースセットの前記記述子との距離を求めるステップと、
を更に含む請求項16に記載の方法。
【請求項18】
前記記述子は、オブジェクトレジストレーションに用いられる請求項1に記載の方法。
【請求項19】
前記記述子は、未知のオブジェクトの位置を特定し前記オブジェクトの姿勢を求めるために用いられる請求項1に記載の方法。
【請求項20】
記述子を用いてオブジェクトを表す方法であって、
前記オブジェクトを表す点群における各点の局所サポートの位置を特定するステップと、
前記局所サポートの基準軸を生成するステップと、
前記基準に従って、前記点を中心とする平面上の方位角方向及び動径方向に沿って、極座標格子を、前記格子上の各パッチがヒストグラムのビンであるように適用するステップであって、前記ヒストグラムは、前記格子上の行列であり、前記行列の各係数は、前記格子上の前記パッチに対応する、適用するステップと、
前記各格子位置に対して、仰角値を、前記パッチ内の前記点の前記仰角値を補間することにより推定し、前記点の前記記述子を生成する、推定するステップと、を含み、
前記ステップは、プロセッサで実行される
記述子を用いてオブジェクトを表す方法。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図5】
image rotate


【公開番号】特開2012−168941(P2012−168941A)
【公開日】平成24年9月6日(2012.9.6)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−22028(P2012−22028)
【出願日】平成24年2月3日(2012.2.3)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】