画像処理方法およびシステム
【課題】2D被写体の検出と分離、カメラ姿勢推定、3D形状位置合わせおよび3D画像認識を含む画像処理における被写体の姿勢を推定する方法を提供する。
【解決手段】画像データを分析するための装置はプロセッサを含む。該プロセッサは、被写体の姿勢の複数の予測を得るために前記画像データを分析するよう構成され、前記予測は前記被写体の予測姿勢のインジケーションを含んでおり、前記予測姿勢は共通の座標系の位置、方向、スケールに関して表現され、2つの被写体姿勢間の距離を計算することで前記予測姿勢を比較することにより前記予測をグループ化するように構成され、前記距離は距離関数を用いて計算される。
【解決手段】画像データを分析するための装置はプロセッサを含む。該プロセッサは、被写体の姿勢の複数の予測を得るために前記画像データを分析するよう構成され、前記予測は前記被写体の予測姿勢のインジケーションを含んでおり、前記予測姿勢は共通の座標系の位置、方向、スケールに関して表現され、2つの被写体姿勢間の距離を計算することで前記予測姿勢を比較することにより前記予測をグループ化するように構成され、前記距離は距離関数を用いて計算される。
【発明の詳細な説明】
【関連出願】
【0001】
本出願は、2011年7月11日に提出された英国特許出願第1111871.8号に基づいており、その優先権の利益を主張するものであって、その全内容は参照により本明細書に組込まれる。
【技術分野】
【0002】
本明細書で説明されているように本発明の実施形態は、一般に画像処理の分野に関する。
【背景技術】
【0003】
画像処理においては、画像内の被写体の姿勢を推定することが必要となる場合がしばしばある。これは、2D被写体の検出と分離(2D object detection motion segmentation)、カメラ姿勢推定、3D形状位置合わせおよび3D画像認識を含むさまざまな画像タスクで発生する。姿勢推定により、被写体の位置、回転あるいはスケールの推定が必要となりうる。
【図面の簡単な説明】
【0004】
以下の非制限の実施形態を参照して本発明の実施形態を説明する。
【図1】図1(a)はキャプチャー3D画像から生成された点群であり、図1(b)は図1(a)の点群から認識された被写体を示す。
【図2】図2は3D画像のキャプチャーに用いられた装置の概略図である。
【図3】図3は本発明の実施形態に従う方法を実現するように構成されたハードウェアシステムの概略図である。
【図4】図4は本発明の実施形態に従う方法において用いることができる、特徴をキャプチャーする方法を示すフローチャートである。
【図5】図5は特徴を示す写真である。
【図6】図6(a)は被写体のキャプチャー3D画像から生成された点群であり、図6(b)は抽出された特徴とともに図6(a)の画像を示す。
【図7】図7は本発明の実施形態に従う方法の概略図である。
【図8】図8はカーネル密度推定法を用いてモデル化された予測姿勢密度のプロットである。
【図9】図9は2つの姿勢の間の変動を示す概略図である。
【図10】図10(a)乃至(c)は本発明の方法に従う、入力姿勢、密度推定およびフィルタリングの段階を示す3枚の図である。
【図11】図11(a)は、画像化される被写体および本発明の実施形態に従う方法を用いて処理された画像であり、図11(b)は図11(a)の被写体の点群であり、図11(c)は図11(b)の点群に検出された特徴を重ね合わせた図であり、図11(d)は、検出された特徴をデータベースのものと比較した後に生成された予測姿勢の図である。図11(e)は、図11(a)における被写体についてシステムによって返された登録CADモデルである。
【図12】図12(a)〜12(j)は、本発明の実施形態に従う方法を用いて認識され登録される工業用部品の例である。
【図13】図13は図12の被写体の混同行列である。
【図14】図14(a)は本発明の実施形態に従って認識された工業用部品の点群である。
【図15】図15は、写真中の顔の位置を認識するために本発明の実施形態に従う方法をどのように用いることができるか示す写真である。
【発明を実施するための形態】
【0005】
一実施形態によれば、各被写体姿勢が共通の座標系の位置、方向、スケールに関して表現される場合の2つの被写体姿勢を比較する方法が提供される。該方法は、前記2つの被写体姿勢間の距離を計算することを含む。前記距離は距離関数
【数1】
【0006】
を用いて計算される。Xは1つの被写体の被写体姿勢であり、Yは別の被写体の被写体姿勢であり、
【数2】
【0007】
である。
【0008】
s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtはそれぞれds、dr、dtの重み係数である。
【0009】
上記距離基準(sRt距離と称する)は、例えば車両情報システムにおける車両、歩行者、街灯柱などの被写体を認識し位置合わせするといった様々な処理に用いられる。例えば製造ライン等で工業用部品を認識する場合に用いることができ、画像内のクラッターシーンからの手、顔、心臓、肺、ポリープなどの認識に用いられ、カメラ姿勢推定、被写体追跡技術、医用画像技術における組織位置合わせ/ポリープ検出、車両ナビゲーション技術、ヒューマンコンピュータ技術(HCI)、オートフォーカス技術などに用いられる。
【0010】
上記の距離基準は、当該距離を用いるカーネルの開発に適している。カーネルは、K(d2(X,Y))で表される。
【0011】
一実施形態において、カーネルは
【数3】
【0012】
の式で表されるガウスカーネルである。ここで、σはカーネルのバンド幅である。sRt距離を用いるガウスカーネルは、姿勢空間における確率密度関数を表わす。これは、ユークリッド空間においてポピュラーな正規分布に似ていて、分析的に非常にトレーサブルであり(つまり扱いやすい)、その「ベル」形状は、確率変数を実際にモデル化する際に有利である。
【0013】
上記の重み付けは応用に応じて選択することができる。一実施形態では0.04≦σs≦0.12、0.06≦σr≦0.20、0.06≦σt≦0.20である。
【0014】
平均を計算する方法が上記の距離基準に基づいてもよい。したがって、更なる実施形態によれば、複数の被写体姿勢の平均を比較する方法が提供される。該方法は、
【数4】
【0015】
を用いて平均被写体姿勢を計算することを含む。ここで、X={(X1,w1),(X2,w2),...(XN,wN)}は姿勢集合、Xiはi番目の姿勢、wiはi番目の姿勢の重み、s(Xi)は被写体姿勢Xiのスケールを表わすスカラー関数、R(Xi)は被写体姿勢Xiの回転を表現する行列、t(Xi)被写体姿勢Xiの平行移動を表現するベクトルである。
【数5】
【0016】
はSO(n,R)への行列Xの特殊直交射影である。ここで、SO(n,R)は全n×n特殊直交行列の集合であり、関数sop(X)はY−Xのフロベニウスノルムが最小化されるように特殊直交行列Yを返す。
【0017】
別の実施形態において、画像データを分析する方法が提供される。前記方法は、被写体姿勢の複数の予測を得るために前記画像データを分析することを含む。前記予測は、被写体の予測姿勢のインジケーションを含む。予測姿勢は共通の座標系の位置、方向、スケールに関して表現される。
【0018】
また、2つの被写体姿勢間の距離の計算により予測姿勢を比較することで予測をグループ化することを含む。該距離は距離関数
【数6】
【0019】
を用いて計算される。
【0020】
ここで、XとYは同一被写体の被写体姿勢であって、
【数7】
【0021】
であり、s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtはそれぞれds、dr、dtの重み係数である。
【0022】
上記の方法によって分析された画像は少なくとも1つの被写体を含み、前記予測は前記被写体とその姿勢のインジケーションを含む。前記被写体のインジケーションは、少なくともデータの一部をデータベースにおける被写体のデータと比較することにより得ることができる。一実施形態において、前記データベースの各被写体は複数の特徴を含む。該データベースの被写体と画像データを比較することは、前記画像データを分析して前記データベースの被写体の特徴との一致を求めることを含む。
【0023】
別の構成において、姿勢を推定する被写体は、画像をキャプチャーするのに用いられるカメラである。
【0024】
実施形態において、各姿勢の複数の予測が生成されると、代表姿勢を決定できるようにするために、姿勢の密度を推定する密度推定法が用いられる。一実施形態において、被写体姿勢をグループ化することは、全姿勢が分布f(X)からサンプリングされることを仮定するカーネル密度推定法を用いることを含み、前記カーネル密度推定法における前記カーネルは前記距離関数を含む。
【0025】
前記グループ化によって形成されたグループの代表姿勢は、f(X)の極大値の決定により計算することができる。この極大値は、平均値シフト、クイックシフトあるいはメドイドシフトのような様々な技術を用いて得ることができる。
【0026】
実施形態の平均値シフト技術において、反復の各段階の平均は
【数8】
【0027】
を用いて計算される。
【0028】
ここで、Xiはi番目の姿勢であり、wiは平均被写体姿勢を計算するためのi番目の姿勢の重みである。また、χ={(X1,w1),(X2,w2),...(XN,wN)}は、Xiをi番目の姿勢とするときの姿勢集合であり、wiはi番目の姿勢の重みである。
【数9】
【0029】
は、SO(n,R)への行列Xの特殊直交射影である。ここで、SO(n,R)は全n×n特殊直交行列の集合であり、関数sop(X)は、Y−Xのフロベニウスノルムが最小化されるような特殊直交行列Yを返す。
【0030】
重みwiは、wi=λi*K(d2(Y,Xi))から求めることができる。ここで、Kはカーネル関数であり、dは、平均値シフト技術を用いて推定された現在の極大値Yを持つ姿勢と、姿勢Xiとの間の距離である。別の実施形態において、距離dは上述のsRt距離である。しかしながら、該平均を用いた他の重みを用いてもよい。平均値シフト法においてwi=λi*K(d2(Y,Xi))の場合、Yが固定ならば、Yは
【数10】
【0031】
の極大である。しかしながら、他の方法はこの制約を要しない。
【0032】
ある実施形態において、演算時間を削減するために、先ずハフ投票法またはメドイドシフト法を用いて姿勢推定が予測される。ある実施形態では、各予測は初期の重みを持つ。
【0033】
上記方法は2Dおよび3Dの画像データに適用することができる。さらに、該方法をより高い次元に拡張することもできる。
【0034】
さらに別の実施形態において、各被写体姿勢が共通の座標系の位置、方向、スケールに関して表現される場合の2つの被写体姿勢を比較するための装置が提供される。該装置はプロセッサを含む。
【0035】
前記プロセッサは2つの被写体姿勢間の距離を計算するように構成され、該距離は距離関数
【数11】
【0036】
を用いて計算される。
【0037】
ここで、Xは1つの被写体の被写体姿勢である。また、Yは別の被写体の被写体姿勢であり、
【数12】
【0038】
であり、s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtはそれぞれds、dr、dtの重み係数である。
【0039】
本発明の実施形態は、ハードウェアまたは汎用計算機のソフトウェアによって実現することができる。また、本発明の実施形態は、ハードウェアとソフトウェアの組み合わせとして実現することができる。本発明の実施形態は、単一の処理装置あるいは処理装置の分散ネットワークによって実装することもできる。
【0040】
本発明の実施形態はソフトウェアによって実現することができ、本発明の実施形態は任意の適合する記録媒体によって汎用計算機に導入される計算機コードを含む。記録媒体は、フロッピー(登録商標)ディスク、CD ROM、磁気デバイス、プログラマブルメモリデバイスのような任意の計算機可読記録媒体を含むことができる。
【0041】
第1実施形態に従うシステムおよび方法を説明する。
【0042】
図1(a)は、4つの被写体1、3、5および7を含むシーンの点群である。点群は図2を参照して説明した装置を用いて得られる。点群は、3Dイメージング技術によって得られた表面への法線から構築された表面上の予測点を含む。
【0043】
図1(b)は、図1(a)のシーンを含む、被写体1、3、5および7の認識を可能にするために本発明に従う方法によって変更された後の図1(a)のデータを示す。
【0044】
図2は本発明の一実施形態を被写体11の画像をキャプチャーし、当該被写体の姿勢を認識するのに使用したシステムの概略図である。被写体11は3つの異なる光源13,15,17によって照明される。この実施形態では、これら3つの光源がそれぞれ異なる3色の光を発することができる。ここでは、赤、緑、青の色を、これら3色を識別できるビデオカメラを得ることができるので、選択することとする。しかしながら、ビデオカメラで識別できる色を発光できるものであれば、どのような色を発光する光源であってもよい。また、可視光外の放射光源も使用することができる。色の正確な濃淡または発光の周波数はビデオカメラに依る。一実施形態では、光源は複数のプロジェクタであり、場面(シーン)がそれぞれのプロジェクタからのそれぞれの発光色で照明されるよう複数のフィルターを設ける。また、さらに別の実施形態では、被写体を照明するのにLEDが用いられる。
【0045】
一実施形態において、光源光は、カメラ内のセンサによりキャプチャーされた周波数に、それぞれのセンサが0から255の範囲の色をキャプチャーされるように調整される。この範囲より外の色が決定されると、サチュレーションが起こることがあり、その場合、生成される3−D画像に誤差が生じる。
【0046】
この実施形態において、3つの光源13,15,17は被写体1の周りに横方向に配置され、フロア位置から被写体1の高さまでの間の数段階に縦方向に置かれる。ある実施形態においては、光源13,15,17は三角形に配置される。一配置例では、三角形配置された光源は隣り合う光源の間隔が1から3メートルであり、他の配置例では、隣り合う光源の間隔が1.5メートルから2.5メートルである。光源は被写体1に向けられている。
【0047】
三光源13,15,17の角度は、被写体11を中心にその回転面においておよそ30度の間隔で設けられる。角度間隔が大きいほど方向に依存する色はよりはっきりと変化する。光源が離れすぎていると、被写体1のへこんだ形の部分の識別が難しくなる。これは、そのような部分でつくられる影は被写体のさらに大きな部分に拡大され、データの解析をさらに難しくするからである。好ましくは、被写体1の各部分が三つのすべての光源13,15,17で照明される。
【0048】
第2の光源15の縦方向下に位置するカメラ19は、3つの光源3,5,7で照明されながら移動する被写体を記録するために用いられる。光源が三角に配置される実施形態においては、カメラ19はその三角形の面の内部に設置されてもよい。
【0049】
カメラ19は異なった色の複数の画像を分離することができる。これは、カメラ内のフィルター機構によりなされる。こうして、カメラ19は三つのすべての光源からの照明を利用して被写体11の画像をキャプチャーすることができ、それぞれの光源からの反射光を順次識別することができる。したがって、赤、緑、青の光源からのそれぞれの反射光を用いて画像を生成することができる。
【0050】
一実施形態において、第一ビデオカメラは生画像データを出力する。例えばMPEGのようなデータ圧縮機構は使用されない。画像データの圧縮により、再構成された3D画像に影響が現れる可能性がある。
【0051】
カメラ19でキャプチャーされたデータは解析部20に供給される。解析部20は、三光源13,15,17に接続されている。
【0052】
図3はシステム解析部20の可能な基本構造を示す。解析部23は、プログラム25を実行するプロセッサ23を有する。解析部13は、さらにストレージ27を有する。ストレージ27は、カメラ19(図2)から受け取ったデータを解析し、光源13,15,17の照明を制御するためのプログラム25で用いられるデータを記憶する。解析部20はさらに入力モジュール11と出力モジュール33を有する。入力モジュール31はカメラ入力部35に接続されている。カメラ入力部35はカメラ19からのデータを受け取る。カメラ入力部35はカメラから単に直接データを受け取ってもよいし、または、外部記憶媒体またはネットワークからデータを受け取ってもよい。
【0053】
出力モジュール33にはディスプレイ37が接続されている。ディスプレイ37はカメラ入力部35から受け取ったカメラデータからキャプチャーされた3D画像を表示する。ディスプレイ27の代わりに、出力モジュール33がファイルまたはインターネット等を介して出力を行ってもよい。
【0054】
使用時において、解析部20はカメラ入力部33を介してカメラデータを受け取る。プロセッサ23で実行されるプログラム25は、3D画像データを生成するためにストレージ27に記憶されたデータを使ってカメラデータを解析し、被写体およびその姿勢を認識する。該データは出力モジュール33を介してディスプレイ37に出力される。
【0055】
上記は、フォトメトリックステレオ技術を用いて3D被写体データをキャプチャーする技術を示している。しかしながら、(少なくとも1つの光源および2つのカメラを用いる)2眼ステレオのような他の方法が可能であり、タイムオブフライトセンサやアクティブ光源デプスセンサを用いてもよい。
【0056】
次に、キャプチャーされたシーンの画像内の被写体およびそれらの姿勢を検出するための方法を説明する。
【0057】
被写体認識を行なえるようにするには、システムは、認識対象となりうる被写体に関する情報を記憶するための学習をしておく必要がある。これを図4を参照して説明する。
【0058】
まずステップS401では、1つの被写体または複数の被写体が図2および3を参照して説明されたものと同様の装置を用いて画像化される。
【0059】
この実施形態では、各被写体に座標系が割り当てられる。一実施形態において、該座標系の原点は被写体の中心に位置し、該座標系の各軸の方向は被写体の向きに一致し、この座標系における単位長は被写体のスケールと等しい。該座標系は、グローバル座標系の点をローカル座標系に変形する単一の4x4アフィン変換行列によって定められる。
【0060】
特徴が被写体から抽出される。特徴は特定が容易な球状の領域である。特徴の例を図5に示す。
【0061】
特徴を特定する方法は既知であり、ここでは詳細に述べない。本実施形態では、各特徴にローカル座標系を設定する。座標系の原点は特徴の中心に位置し、軸の方向は特徴の基準方向に一致し、該座標系における単位長は特徴の半径と等しい。該座標系もまたグローバル座標系の点をローカル座標系に変形する4x4変換行列によって定められる。特徴の座標系において、原点に近い固定位置での31点がサンプリングされ、31次元の記述子ベクトルが生成される。(領域中心、領域半径、方向、記述子)のタプルが特徴を形成し、これはステップS405において記憶される。
【0062】
したがって、データベース内の各特徴について、特徴のローカル座標系の変換行列、およびそれに関連した被写体のローカル座標系の両方が既知である。特徴の変換行列がF1であって、被写体の変換行列がM1である場合、M1にF1の逆数を乗ずる(つまりT=M1(F1)^(-1)を計算する)ことにより、特徴のローカル座標系の点を、関連する被写体のローカル座標系に変形する変換行列Tが求まる。
【0063】
被写体がスケーリング、平行移動および回転によって変形される場合、行列Tは不変である。上記処理は、シーンに存在すると考えられる被写体について繰り返される。例えば図6(b)の被写体61に関して、図6(b)は被写体61に割り当てられた特徴63を示す。
【0064】
図7を参照して説明するように、動作中に、図2および3を参照して説明したように画像がキャプチャーされる。ステップS411において、この画像から特徴が抽出される。図4を参照して上述したように特徴について述べる。データベースにおける特徴の記述子と、画像から抽出された特徴の記述子との間に一致が見られる場合、予測が生成される。
【0065】
実施形態において、ユークリッド距離が閾値未満である場合、2つの記述子間には一致がある。画像から抽出された特徴とデータベースにおける特徴との間に一致がある場合、ステップS415において予測が生成される。この予測は、どのような被写体が現時点で認識されており、それはどこにあるかの仮説である。
【0066】
実施形態において、シーン上の特徴が一致する場合、該特徴のローカル座標系の変換行列のみが識別される。2つの特徴が一致する場合、テストシーンからの特徴のローカル座標系の点を予測被写体のローカル座標系に変形する変換行列は、Tと同じであると考えられる。したがって、グローバル座標系からの一致特徴の変換行列がF2である場合、予測被写体のローカル座標系を表わす変換行列は、TにF2を乗ずること(つまりM2’=T F2)により与えられる。M2’は予測被写体姿勢のスケール、中心点および方位を与える。
【0067】
要するに、2つの記述子の一致によって、2つの対応する領域が同じ形状を持つものと見なされる。データベースからの特徴における被写体の識別、位置、スケールおよび方位は既知であることから、データベースからの特徴がシーンからの特徴と同じ場所に移動し、スケーリングし、回転するように該被写体を(スケーリング、平行移動、回転によって)変形することができる。これは、変形の後にこの被写体がシーンに存在することを予測するのに用いられる。
【0068】
上記方法は多くの予測をもたらす。この予測は、ステップS417においてグループ化される。
【0069】
各予測は、被写体のIDおよびその姿勢に関する情報を含む。該姿勢(X)について、各姿勢は変換行列
【数13】
【0070】
として表わすことができる。
【0071】
ここで、s(X)は被写体のサイズに関係のある実数、R(X)はこれに沿って被写体が向く方向を示す正方行列、t(X)は被写体中心の位置を示すベクトルである。
【0072】
姿勢をグループ化するために、カーネル密度推定法(KDE)が用いられる。この方法では、被写体について多数の姿勢X1,X2,...,Xnが考慮される。
【0073】
各姿勢Xiは、高次元(非ユークリッド)空間の点と見なされ、重みλiを持つ。
【0074】
場合によっては、全姿勢が同等に処理され、全姿勢についてλi=1である。別の実施形態において、姿勢には重みが加えられる。
【0075】
一つの方法として、重み付けは、データベースにおける被写体の特徴および被写体のインスタンスの数を考慮に入れることにより行なわれる。
【0076】
例えば、データベースにN個の被写体がある場合、各被写体は複数のインスタンスを持ち得るのであって、各インスタンスは、異なる姿勢でスキャンされた同じ被写体を表わす点群である。そのようなシナリオでは、各被写体にはNk個のインスタンスが存在し得る。この場合、被写体Kの各インスタンスkはNk,l個の特徴を持つ。このシナリオでは、各姿勢の初期重み(シーン上の特徴と特徴とを一致させる結果である)は、
【数14】
【0077】
に設定される。
【0078】
KDE法では、全姿勢が未知の確率密度関数f(X)からサンプリングされることを仮定している。姿勢をグループ化する問題は、f(X1’),f(X2’),...,f(Xm’)が局所的に最大化される全ての点X1’,X2’,...,Xm’を求めることとして再定式化される。各対(Xj’,f(Xj’))は代表姿勢(Xj’)およびその重み(f(Xj’))を定める。
【0079】
この実施形態では、この問題を次の2つのステップによって解決する。
【0080】
(1)(X1,λ1)、(X2,λ2)、(Xn,λn)からf(X)を推定すること。
【0081】
(2)f(X)からの極大値X1’,X2’,...,Xm’を求めること。
【0082】
KDEは、
【数15】
【0083】
の式で表されるカーネル密度推定量
【数16】
【0084】
が未知の密度関数f(X)を近似できることを仮定する方法である。
【0085】
ここで、K()は距離関数d()を用いるカーネル密度関数であり、
【数17】
【0086】
はK()のボリューム密度関数である。上記は全姿勢についてλi=1を仮定している。
【0087】
この式において、各点Xiは、カーネル関数に基づいてXiを中心とする密度関数をアサートし、それは、図8のトレース201に示されるような小さな「ブロブ(blob)」として現われ、
【数18】
【0088】
は簡単には全ての密度関数の平均であり、それはトレース203として示された全ブロブの平均として現われる。KDEにおいて、
【数19】
【0089】
がf(X)を推定するのに用いられる。
【数20】
【0090】
は、入力点から直接定義されるので、f(X)の推定は問題にならない。そのような系の極大値は、平均値シフト、メドイド(medoid)シフト、クイックシフトのような方法を用いて求めることができる。
【0091】
カーネル密度関数K()を定義する必要がある(つまり、点からの小さなブロブを定義することである)。これは任意のユークリッド空間において行うことができる。しかし、これを非ユークリッド空間において行うのは困難である。全姿勢の空間は非ユークリッドである。本発明の実施形態に従って、距離基準に基づくガウスSRTカーネル
【数21】
【0092】
が用いられる。ここで、XとYは図9に概略的に示されるような被写体姿勢、s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtは重み係数である。ノルム
【数22】
【0093】
は、行列のフロベニウスノルムを表わし、ノルム
【数23】
【0094】
はベクトルのユークリッドノルムを表わす。
【0095】
実施形態において、σs、σr、σtは、システムの独立なテストセットにおける位置合わせスコアの最大化により求まる。この手続きでは、既知の被写体姿勢を用いて200の点群のテストセットが作成される。システムは(σs,σr,σt)の異なる組み合わせを用いてこれらの点群について実行される。その後、各組み合わせについてシステムが正しく位置合わせをする回数のカウントがなされる。次の場合、位置合わせは正解である。
【0096】
出力スケールはグランドトルーススケールの5%未満である。
【0097】
出力位置とグランドトルース位置の間の距離は、グランドトルーススケールの10%以内である。
【0098】
出力方位とグランドトルース方位の間の角度は15度未満である。
【0099】
正しい位置合わせの数を最大化する(σs,σr,σt)の組み合わせが選択される。
【0100】
実施形態において、一般的な範囲は次のとおりである。
【0101】
・σs=0.04..0.12
・σr=0.06..0.20
・σt=0.06..0.20
比をσs:σr:σt=7:12:12、例えば(σs,σr,σt)=(0.07,0.12,0.12)とすれば上手く行くことが分かった。
【0102】
ここで、極大値を求めるための平均値シフト技術について説明する。平均値シフト法は初期姿勢から開始する。この姿勢をYとする。カーネル(ここではガウスカーネル)K()が定義されていることを考慮し、上述の距離基準を用いることにより、この方法は、Yが動かなくなるまで繰り返しYを「移動させる」。
【0103】
ガウスカーネルが上述の距離基準を用いている場合、Y、gY(X)に中心がある(つまり
【数24】
【0104】
に定義された全てのブロブと同じ形の小ブロブ)。すべての姿勢Xiについて、新しい重みwi=λi*gY(X)を設定する。したがって、Yの近くの姿勢は大きな重みを持ち、Yから遠くはなれた姿勢は小さな重みを持っている。
【0105】
そして、新たな平均Y’を(X1,w1),(X2,w2),(Xn,wn)から計算することができ、YがY’にセットされる。実施形態において、上記距離基準に基づいた平均を用いて平均が計算される。この平均は、sRt平均と呼ばれ、
【数25】
【0106】
である。
【0107】
ここで、χ={(X1,w1),(X2,w2),...(XN,wN)}は姿勢の集合、Xiはi番目の姿勢、wiはi番目の姿勢に関連した重みであり、該重みは姿勢の精度のインジケーションである。ここで、
【数26】
【0108】
は行列XのSO(n,R)への特殊直交射影である。ここで、SO(n,R)は全n×n特殊直交行列の集合である(つまり、YTYが恒等行列となり、Yの行列式が1となる任意のn×nの実行列Y)。関数sop(X)は、Y−Xのフロベニウスノルムが最小化されるような特殊直交行列Yを返す。関数sop(X)は既知である。これは、既知の方法によって効率的に実装することができる。
【0109】
Yが動かなくなる(つまり、Y’はYと同じである)場合、Yは、
【数27】
【0110】
の極大値に一致することが数学的に証明される。平均値シフトは、できるだけ多くの極大値を求めるために開始点を異ならせて多数回実行される。新たなSRT平均を計算するステップにおいて、異なる重みにより全姿勢から単一の平均を計算する。しかし実際のところwiが小さすぎる場合、新たなsRt平均の計算に(Xi,wi)が織り込まれるかどうかにかかわらず、該成分は結果として生ずる平均にほとんど影響がない。したがって計算を省くために、wiが閾値より大きい姿勢XiのみからsRt平均を計算する。一実施形態においては、この閾値として1E−11を用いる。
【0111】
上記は全ての被写体について繰り返される。
【0112】
次に、ステップS419においてフィルター処理が行なわれる。ここで、最大の重みを持った代表姿勢が選択される。この姿勢に重なった被写体を表わす全姿勢が削除される。次に、2番目に大きい重みを持った姿勢が処理され、この姿勢に重なった全姿勢もまた削除される。該ステップは、処理中の姿勢の重みが閾値より小さくなるか、姿勢がなくなるまで繰り返される。
【0113】
これにより、シーン内の全ての被写体の識別およびその姿勢が得られる。
【0114】
図10(a)乃至(c)は、図7を参照して説明した処理を概略的に示している。図10(a)は一致特徴のそれぞれについて予測が生成されるステップS415に対応する。
【0115】
図10(b)は、姿勢についてカーネル密度推定法を用いた密度推定が行なわれることを示す。これは、S417のグループ化ステップの一部を成す。図10(c)に示すように、各クラスターにおける姿勢はグループ化され、各クラスターの代表姿勢が形成される。
【0116】
上記実施形態では、投票ベースの3D形状認識および位置合わせが提供される。投票は、各被写体について予測された3D姿勢である。上記実施形態は、平行移動、回転、スケールを同時に用いて、3D応用に平均値シフトを適用する。
【0117】
上記は直接相似変形の空間における3D姿勢投票に平均値シフトを用いる。この空間の姿勢間に距離基準が導入される(SRT距離)。これはユークリッド距離とは異なり左不変であって、リーマン距離とは対照的にユニークで閉じた形の平均を持つ。したがって、計算上効率的である。
【0118】
上記実施形態では、可能な姿勢の組または投票のコレクションによって、姿勢の経験分布が確立される。投票は、テスト被写体からのローカル特徴を、既知の姿勢を持ったライブラリの特徴に一致させることにより計算される。
【0119】
そして第2のステップは、該分布における1つ以上の「最良な」姿勢を求めることである。上記実施形態では、これは確率の極大値を繰り返し求める平均値シフト処理によって実現される。
【0120】
上記実施形態のシステムは、既知の方位を持った関心被写体が固定されない場合に対処することができる。上記実施形態では、被写体が認識され、直接相似群、即ち平行移動、回転、スケールによってパラメータ化された等方相似変換群において位置合わせされる。スケールは、入力データのスケールが未知であるか高いクラス内スケール変動がある場合に必要である。回転は完全な位置合わせに必要であり、より正確な認識をもたらす。結果として得られる7D姿勢空間は大きすぎるので、既知の技術を用いる現行の計算機能力では効率的に分析することができない。
【0121】
上記実施形態は平均値シフト技術を用いている。上記技術において、スケールおよび回転はユークリッド距離およびリーマン距離のような既知の距離尺度を用いる課題を導入し得る。ユークリッド距離はスケール不変ではなく、回転は非線形多様体(manifold)を生成し、それへの投影はスケールのバイアスを引き起こす。リーマン距離の平均は閉じた形の解を持たず、計算が遅い。
【0122】
上記の距離基準はスケール、回転、平行移動の不変性を付随的に提供する。実施形態において、この距離の重み付け平均には以下の特性がある。
【0123】
1.ユニークであること。
【0124】
2.閉じた形であること−これは計算を効率化する。
【0125】
3.スケール互換であること。回転および平行移動がすべて等しい場合、平均はスケールの平均として作用する筈である。数学的に、あるR’およびt’について
【数28】
【0126】
であるならば、R(μ(χ))=R’であり、t(μ(χ))=t’であり、s(μ(χ))がs(Xi)の平均である場合、μはスケール互換である。
【0127】
4.回転互換であること。
【数29】
【0128】
ならば、s(μ(χ))=s’であり、t(μ(χ))=t’であり、R(μ(χ))はR(Xi)’sの平均である。
【0129】
5.平行移動互換であること。
【数30】
【0130】
であるならば、s(μ(χ))=s’であり、R(μ(χ))=R’であり、t(μ(χ))はt(Xi)’sの平均である。
【0131】
6.左不変であること。左不変距離は事後変換に不変のものである。すなわち、
【数31】
【0132】
である。この特性は、(a)左共変平均すなわち
μ(ZX)=Zμ(X)
を導く。つまり、全姿勢XiがZによって変換される場合、平均もZによって変換される。また、(b)平均値シフトで計算された重みwiは任意の事後変換Zに対して不変であり、左共変平均シフトをもたらすことを保証する。
【0133】
対称距離は
【数32】
【0134】
となるように定められ、直観的に望ましいものに見えるが、これが無くても平均値シフトにおける距離の使用が妨げられることはなく、リストされた特性を与えられるならば、それは必要ではない。右共変も望ましい特性と考えられるかもしれないが、3D認識のコンテキストにおいて、この存在は何ら意味のある振る舞いに関係しない。
【0135】
sRt距離はその成分
【数33】
【0136】
に分割することができる。
【0137】
ここで、ds()、dr()、dt()はそれぞれスケール、回転、平行移動の距離である。
【0138】
あるバンド幅係数σs;σr;σt>0を所与として、sRt距離は次のように定義される。
【数34】
【0139】
σs;σr;σtを制御することによりスケール、回転、平行移動のうちの1つの種類の変換に対して他のものより敏感なsRt距離を生成することが可能であり、したがって、非常に柔軟性がある。
【0140】
dsRt()が定義されると、dsRt()により導入される平均μsRtは次のように定義される。
【数35】
【0141】
これは、平均をもたらし、
【数36】
【0142】
である。
【0143】
ここで、
【数37】
【0144】
は、SO(n,R)への行列Xの特殊直交射影である。ここで、SO(n,R)は全n×n特殊直交行列の集合である(つまり、YTYが恒等行列となり、Yの行列式が1となる任意のn×nの実行列Y)。関数sop(X)は、Y−Xのフロベニウスノルムが最小化されるような特殊直交行列Yを返す。関数sop(X)は既知である。これは、既知の方法(例えばM. Moakher. Means and averaging in the group of rotations. SIAM J. Matrix Anal. Appl., 24:1-16, 2002)によって効率的に実装することができる。
【0145】
上記において回転平均行列を計算する場合、全ての回転行列R(Xi)の重み付け算術平均が計算される。これは、関数sop()を介してそれに近い真の回転行列と置き換えられる。任意の特殊直交行列は実行列であり、逆もまた同様である。重み付け平均行列は必ずしも回転行列ではないので、Sop()はこの実施形態において用いられる。
【0146】
上記の実例説明のために、物理的な被写体およびこれに一致するCADモデルを用意し、12の形状クラスから成る実験データを用いて実験を行った。
【0147】
図11(a)に示されるような各被写体のジオメトリを、図11(b)に示すように点群の形で様々な角度から20回ほどキャプチャーした。クラスラベルと共に、すべての形状インスタンスは関連するグランドトルース姿勢を持つ。これは、先ずおおよその関連CADモデルを点群に手動で位置合わせし、該位置合わせを改善するためにIterative Closest Pointアルゴリズムを用いることにより計算される。
【0148】
入力姿勢投票Xの計算は、テスト点群および(クラスおよび姿勢が既知の)学習点群の集合を所与として2段階の処理である。第一段階において、記述子と、被写体に関連するスケール、平行移動、回転とから構成されるローカル形状特徴が図11(c)に示すような全ての点群について計算される。先ず最も近い点への各ボクセル中心の距離についてのガウスオペレーターを用いて点群を1283のボクセルボリュームに変換する。次に、ガウスオペレーターの差分を利用する3次元位置とスケールによって特徴点をローカライズし、各特徴点の基準方向を計算してローカル特徴姿勢を生成する。最終的には、特徴点の周囲31箇所の規則的に分布した位置において(正確なスケールで)ボリュームを単純にサンプリングすることにより、基礎となる31次元の記述子を計算する。
【0149】
第二段階では、記述子間のユークリッド距離に関して各テスト特徴を20の最も近い学習特徴に一致させる。これら一致の各々により、図11(d)に示されるテスト被写体の姿勢の投票Xi=AB−1Cが生成される。A、B、Cは、それぞれ、テスト特徴、学習特徴、学習被写体のグランドトルース姿勢である。さらに、各投票は(NCNI)−1として計算される重み即ちλiを持つ。NCはクラス内の学習インスタンスの数、NIは特徴の特定インスタンスにおいて求まった特徴の数である。
【0150】
平均値シフトは、所与の被写体クラスの出力姿勢分布において局所最頻値とその重みを求める。そのような最頻値は多数存在しうることから、平均値シフトは各クラスにつき100のランダムな入力姿勢から開始する。各最頻値は、重複を除外しつつ、全クラスにわたる候補姿勢のリストに加えられる。S+(3)では、回転の四元数表現すなわちq(X)を用いることが可能である。この式を用いることにより、dsRt()の回転成分を次のように定義することができる。
【数38】
【0151】
ここで、|...|はq(X)および−q(X)が同じ回転を表わすことを示すために必要である。この式は、他のものに比較して計算量が少ないという利点を持ち、当該空間における非成分的(noncomponent-wise)な距離を与える。
【0152】
この例では、平均値シフト推論アプローチと比較するためにハフ投票法を実装した。これは、回転を効果的に周辺化して、平行移動およびスケールに関する4Dヒストグラムの各ビン(bin)に該当する、姿勢投票の重みの和を計算するものである。ビン幅は4次元の各々における平均形状幅(あるいはスケール)の0.16倍になるように設定される。各クラスで最も高いビンの和は姿勢の最頻値を定義する。
【0153】
学習データの評価に交差検定を用いた。各クラスにおける20個の形状インスタンスのうちの19個から学習セットを作成した。各クラスの残りのインスタンスはテスト形状となる。各テスト形状に5つのランダムな変換(0.5−2の範囲の平行移動、回転、スケール)を施し、この処理をテスト形状である各学習形状で繰り返し、1クラス当たり100のテストインスタンスを生成する。
【0154】
図12に示すような、12個のクラスを評価に用いた。これらは、ベアリング、ブロック、ブラケット、車両、歯車、フランジ、ノブ、パイプ、2つのピストンである。これは全部で1000個のテストをもたらす。残りの2つのクラスは、最適なカーネルバンド幅(σ)を学習するために推論法に用いられる。
【0155】
推論法は2つの基準(認識率と位置合わせ率)について評価された。
【0156】
認識率−上述したように、重みと共に姿勢およびクラスにわたる最頻値のリストが生成される。出力クラスは最も高い重みの最頻値のクラスである。混同行列は全テストにわたる出力クラス対グランドトルースクラスを記録する。認識率は、この行列のトレースすなわち正解分類の数から与えられる。
【0157】
位置合わせ率−あるテストの出力姿勢は、そのクラスがグランドトルースクラスと一致する重み付け(weightiest)最頻値の出力姿勢から与えられる。次のスケール、回転、平行移動の判定基準
【数39】
【0158】
をすべて満たす場合、姿勢Xは正しいと考えられる。Yはグランドトルース姿勢である。対称性がある被写体の場合には、Yが複数存在し、最も接近しているものへの距離が用いられる。
【0159】
平均値シフトアルゴリズムに用いられるσs、σr、σtを決めるために、(最終評価に用いられない)2つの学習クラスの交差検定から位置合わせ率を最大化する。位置合わせ率は局所探索を用いて最大化される。初期バンド幅が選ばれ、この値と値1:2および1=この値の1:2倍について位置合わせ率が計算される。最も高いスコアを持つ値が選ばれ、収束するまで当該処理は繰り返される。学習するべきパラメータを3つとし、3Dグリッドについて局所探索が計算される。
【0160】
表1は、sRtを用いる平均値シフト法の定量的な結果をまとめたものである。
【表1】
【0161】
表1によれば、sRt平均値シフトは、認識と位置合わせの両方について良い結果を示すことがわかる。3行目はスケールおよび平行移動のみを考慮する場合の位置合わせ率である。また5行目は位置合わせ結果の出力スケールの平均(各々はグランドトルーススケールに対する出力スケールの比)を示している。
【0162】
平均値シフト法のクラスごとの位置合わせ率を表2に示す。
【表2】
【0163】
sRt推論法の混同行列を図13に示す。
【0164】
図14は、複数の被写体を含んだ現実のシーンにsRt平均値シフトを容易に適用できることを示している
別の実施形態において、該システムは、地表面および衝突検出の位置のような物理的な制約を用いて出力姿勢のリストをフィルターしてもよい。これにより誤判定結果の数を低減することができる。
【0165】
上記は、直接相似変換の空間すなわちS+(n)における姿勢についての平均値シフトにおけるsRt距離の利用を示している。距離は左不変であるものとし、スケール、回転、平行移動互換の望ましい特性を伴うユニークでクローズドな形の平均を持つことを示した。
【0166】
この距離は、視覚ベースのジオメトリキャプチャーシステムおよび基本特徴とともに回転の対称性を持つ/持たない現実世界の被写体を合成する困難でリアリスティックな3Dデータセットの位置合わせおよび認識のタスクに用いることができる。
【0167】
別の実施形態において、sRt平均値シフトは、初期化に関してメドイドシフト、ハフ投票(回転は省略)のいずれかにより、計算時間を削減することができる。さらに、位置合わせと認識スコアの間の相関の欠如は、入力投票の重みが改善されうることを示唆する。
【0168】
別の実施形態において、SRT距離は画像中の被写体検出に適用され、これらの方法は画像中の特定のクラス(例えば全ての人物の顔のクラス)の被写体を検出する問題を対象とする。これらの方法では、被写体の位置は図15に示されるような正方ウインドウによって特定される。これは画像中の被写体を包含するバウンディングボックスを表わす。正方ウインドウは、被写体の画像内回転を表現するために、回転され得る。
【0169】
この方法において、スケール、位置、方位が異なる多数のウインドウが画像全域にわたってスキャンされ、その各々はポジティブとネガティブのどちらかに分類される。ポジティブとは、ウインドウが関心被写体を含むことを意味し、ネガティブとは、そうでないことを意味する。そして、互いにオーバーラップするポジティブウインドウがグループ化される。各グループについて、「平均(average)」ウインドウが計算される。
【0170】
本発明の実施形態に従う方法では、sRt平均はウインドウ集合からの「平均」ウインドウを計算するために用いられる。平均ウインドウのリストは、検出被写体およびそれらの位置のリストとして返される。
【0171】
別の実施形態において、代表ウインドウが各グループのメドイドウインドウとして選ばれる。メドイドウインドウは、それ自体がグループ内のウインドウであって、他のウインドウとの平均距離が最小であるウインドウである。この実施形態において、ウインドウ間の距離がsRt距離を用いて計算される。
【0172】
別の実施形態において、部品から関節オブジェクトを追跡する方法が提供される。画像シーケンス上で関節オブジェクトを追跡するために、この方法ではトラッキングが容易な被写体の剛体部分を検出しまたは追跡する別の方法を利用する。各部品について、被写体の幾つかの候補姿勢を生成する。結果を合成して最良解を求める際に投票ベース姿勢推定フレームワークを用いることができる。最大の重みを持った姿勢が現在の姿勢として返される。
【0173】
本発明の実施形態に従う方法は、動き分離に適用することもできる。映像シーケンスでは、複数の動きが同時に起こる場合がある。例えば、異なる被写体あるいは被写体部分が異なる方向に向かって移動する。映像シーケンスからこれらの動きをセグメント化することが目的である。動き分離は、複数被写体のトラッキングのための初期ステップに役立つ。動き分離法は、連続する2つのフレームにおける点、一対の点、あるいは点集合の間の対応を明らかにする。これらの対応は2D変換として表わされる。
【0174】
2D変換はグループにクラスター化され、その各々は動き(motion)を形成する。2D変換が単純な平行移動、スケーリング、回転を含むと仮定される場合、2D用途の投票ベース姿勢推定フレームワークを2D変換のセグメント化に用いることができる。この実施形態では、本発明の実施形態に従う方法を用いて2D画像あるいは3D画像を処理する。
【0175】
本発明の実施形態に従う方法はカメラ姿勢推定に用いられてもよい。カメラ姿勢推定では、シーン中の較正カメラの姿勢を該カメラによってキャプチャーされた画像シーケンスから直接的に推定することに興味が示される。カメラ姿勢推定はステレオ3D再構成法の重要なステップである。
【0176】
一般に、カメラ姿勢推定法は、画像シーケンスから2Dコーナー点を検出し追跡する。連続する2つのフレーム間で追跡される隣接コーナー点の各小集合を用いてカメラ姿勢候補を生成することができる。カメラ姿勢候補の重みは、他のコーナー点が候補姿勢にどれだけ一致するかをカウントすることにより推定することができる。図4〜10を参照して説明された姿勢推定フレームワークは、最尤姿勢を見つけるのに用いることができる。
【0177】
別の実施形態において、カメラ姿勢はsRt平均を用いて重み付けされた平均姿勢から推定され、あるいはsRt距離を用いて重み付けされたメドイド姿勢を検出することにより推定される。
【0178】
いくつかの実施形態を説明したが、これらの実施形態は例示のみを目的としており、発明の範囲を制限することは意図していない。実際には、本明細書で説明した新規の方法およびシステムは他の様々な形で具体化することができ、また発明の要旨から逸脱しない範囲で、本明細書で説明した方法およびシステムの構造における様々な省略、置換、および変更を行ってもよい。添付の特許請求の範囲およびその均等物は、発明の範囲および要旨に含まれうる構造あるいは改良に及ぶことが意図される。
【関連出願】
【0001】
本出願は、2011年7月11日に提出された英国特許出願第1111871.8号に基づいており、その優先権の利益を主張するものであって、その全内容は参照により本明細書に組込まれる。
【技術分野】
【0002】
本明細書で説明されているように本発明の実施形態は、一般に画像処理の分野に関する。
【背景技術】
【0003】
画像処理においては、画像内の被写体の姿勢を推定することが必要となる場合がしばしばある。これは、2D被写体の検出と分離(2D object detection motion segmentation)、カメラ姿勢推定、3D形状位置合わせおよび3D画像認識を含むさまざまな画像タスクで発生する。姿勢推定により、被写体の位置、回転あるいはスケールの推定が必要となりうる。
【図面の簡単な説明】
【0004】
以下の非制限の実施形態を参照して本発明の実施形態を説明する。
【図1】図1(a)はキャプチャー3D画像から生成された点群であり、図1(b)は図1(a)の点群から認識された被写体を示す。
【図2】図2は3D画像のキャプチャーに用いられた装置の概略図である。
【図3】図3は本発明の実施形態に従う方法を実現するように構成されたハードウェアシステムの概略図である。
【図4】図4は本発明の実施形態に従う方法において用いることができる、特徴をキャプチャーする方法を示すフローチャートである。
【図5】図5は特徴を示す写真である。
【図6】図6(a)は被写体のキャプチャー3D画像から生成された点群であり、図6(b)は抽出された特徴とともに図6(a)の画像を示す。
【図7】図7は本発明の実施形態に従う方法の概略図である。
【図8】図8はカーネル密度推定法を用いてモデル化された予測姿勢密度のプロットである。
【図9】図9は2つの姿勢の間の変動を示す概略図である。
【図10】図10(a)乃至(c)は本発明の方法に従う、入力姿勢、密度推定およびフィルタリングの段階を示す3枚の図である。
【図11】図11(a)は、画像化される被写体および本発明の実施形態に従う方法を用いて処理された画像であり、図11(b)は図11(a)の被写体の点群であり、図11(c)は図11(b)の点群に検出された特徴を重ね合わせた図であり、図11(d)は、検出された特徴をデータベースのものと比較した後に生成された予測姿勢の図である。図11(e)は、図11(a)における被写体についてシステムによって返された登録CADモデルである。
【図12】図12(a)〜12(j)は、本発明の実施形態に従う方法を用いて認識され登録される工業用部品の例である。
【図13】図13は図12の被写体の混同行列である。
【図14】図14(a)は本発明の実施形態に従って認識された工業用部品の点群である。
【図15】図15は、写真中の顔の位置を認識するために本発明の実施形態に従う方法をどのように用いることができるか示す写真である。
【発明を実施するための形態】
【0005】
一実施形態によれば、各被写体姿勢が共通の座標系の位置、方向、スケールに関して表現される場合の2つの被写体姿勢を比較する方法が提供される。該方法は、前記2つの被写体姿勢間の距離を計算することを含む。前記距離は距離関数
【数1】
【0006】
を用いて計算される。Xは1つの被写体の被写体姿勢であり、Yは別の被写体の被写体姿勢であり、
【数2】
【0007】
である。
【0008】
s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtはそれぞれds、dr、dtの重み係数である。
【0009】
上記距離基準(sRt距離と称する)は、例えば車両情報システムにおける車両、歩行者、街灯柱などの被写体を認識し位置合わせするといった様々な処理に用いられる。例えば製造ライン等で工業用部品を認識する場合に用いることができ、画像内のクラッターシーンからの手、顔、心臓、肺、ポリープなどの認識に用いられ、カメラ姿勢推定、被写体追跡技術、医用画像技術における組織位置合わせ/ポリープ検出、車両ナビゲーション技術、ヒューマンコンピュータ技術(HCI)、オートフォーカス技術などに用いられる。
【0010】
上記の距離基準は、当該距離を用いるカーネルの開発に適している。カーネルは、K(d2(X,Y))で表される。
【0011】
一実施形態において、カーネルは
【数3】
【0012】
の式で表されるガウスカーネルである。ここで、σはカーネルのバンド幅である。sRt距離を用いるガウスカーネルは、姿勢空間における確率密度関数を表わす。これは、ユークリッド空間においてポピュラーな正規分布に似ていて、分析的に非常にトレーサブルであり(つまり扱いやすい)、その「ベル」形状は、確率変数を実際にモデル化する際に有利である。
【0013】
上記の重み付けは応用に応じて選択することができる。一実施形態では0.04≦σs≦0.12、0.06≦σr≦0.20、0.06≦σt≦0.20である。
【0014】
平均を計算する方法が上記の距離基準に基づいてもよい。したがって、更なる実施形態によれば、複数の被写体姿勢の平均を比較する方法が提供される。該方法は、
【数4】
【0015】
を用いて平均被写体姿勢を計算することを含む。ここで、X={(X1,w1),(X2,w2),...(XN,wN)}は姿勢集合、Xiはi番目の姿勢、wiはi番目の姿勢の重み、s(Xi)は被写体姿勢Xiのスケールを表わすスカラー関数、R(Xi)は被写体姿勢Xiの回転を表現する行列、t(Xi)被写体姿勢Xiの平行移動を表現するベクトルである。
【数5】
【0016】
はSO(n,R)への行列Xの特殊直交射影である。ここで、SO(n,R)は全n×n特殊直交行列の集合であり、関数sop(X)はY−Xのフロベニウスノルムが最小化されるように特殊直交行列Yを返す。
【0017】
別の実施形態において、画像データを分析する方法が提供される。前記方法は、被写体姿勢の複数の予測を得るために前記画像データを分析することを含む。前記予測は、被写体の予測姿勢のインジケーションを含む。予測姿勢は共通の座標系の位置、方向、スケールに関して表現される。
【0018】
また、2つの被写体姿勢間の距離の計算により予測姿勢を比較することで予測をグループ化することを含む。該距離は距離関数
【数6】
【0019】
を用いて計算される。
【0020】
ここで、XとYは同一被写体の被写体姿勢であって、
【数7】
【0021】
であり、s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtはそれぞれds、dr、dtの重み係数である。
【0022】
上記の方法によって分析された画像は少なくとも1つの被写体を含み、前記予測は前記被写体とその姿勢のインジケーションを含む。前記被写体のインジケーションは、少なくともデータの一部をデータベースにおける被写体のデータと比較することにより得ることができる。一実施形態において、前記データベースの各被写体は複数の特徴を含む。該データベースの被写体と画像データを比較することは、前記画像データを分析して前記データベースの被写体の特徴との一致を求めることを含む。
【0023】
別の構成において、姿勢を推定する被写体は、画像をキャプチャーするのに用いられるカメラである。
【0024】
実施形態において、各姿勢の複数の予測が生成されると、代表姿勢を決定できるようにするために、姿勢の密度を推定する密度推定法が用いられる。一実施形態において、被写体姿勢をグループ化することは、全姿勢が分布f(X)からサンプリングされることを仮定するカーネル密度推定法を用いることを含み、前記カーネル密度推定法における前記カーネルは前記距離関数を含む。
【0025】
前記グループ化によって形成されたグループの代表姿勢は、f(X)の極大値の決定により計算することができる。この極大値は、平均値シフト、クイックシフトあるいはメドイドシフトのような様々な技術を用いて得ることができる。
【0026】
実施形態の平均値シフト技術において、反復の各段階の平均は
【数8】
【0027】
を用いて計算される。
【0028】
ここで、Xiはi番目の姿勢であり、wiは平均被写体姿勢を計算するためのi番目の姿勢の重みである。また、χ={(X1,w1),(X2,w2),...(XN,wN)}は、Xiをi番目の姿勢とするときの姿勢集合であり、wiはi番目の姿勢の重みである。
【数9】
【0029】
は、SO(n,R)への行列Xの特殊直交射影である。ここで、SO(n,R)は全n×n特殊直交行列の集合であり、関数sop(X)は、Y−Xのフロベニウスノルムが最小化されるような特殊直交行列Yを返す。
【0030】
重みwiは、wi=λi*K(d2(Y,Xi))から求めることができる。ここで、Kはカーネル関数であり、dは、平均値シフト技術を用いて推定された現在の極大値Yを持つ姿勢と、姿勢Xiとの間の距離である。別の実施形態において、距離dは上述のsRt距離である。しかしながら、該平均を用いた他の重みを用いてもよい。平均値シフト法においてwi=λi*K(d2(Y,Xi))の場合、Yが固定ならば、Yは
【数10】
【0031】
の極大である。しかしながら、他の方法はこの制約を要しない。
【0032】
ある実施形態において、演算時間を削減するために、先ずハフ投票法またはメドイドシフト法を用いて姿勢推定が予測される。ある実施形態では、各予測は初期の重みを持つ。
【0033】
上記方法は2Dおよび3Dの画像データに適用することができる。さらに、該方法をより高い次元に拡張することもできる。
【0034】
さらに別の実施形態において、各被写体姿勢が共通の座標系の位置、方向、スケールに関して表現される場合の2つの被写体姿勢を比較するための装置が提供される。該装置はプロセッサを含む。
【0035】
前記プロセッサは2つの被写体姿勢間の距離を計算するように構成され、該距離は距離関数
【数11】
【0036】
を用いて計算される。
【0037】
ここで、Xは1つの被写体の被写体姿勢である。また、Yは別の被写体の被写体姿勢であり、
【数12】
【0038】
であり、s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtはそれぞれds、dr、dtの重み係数である。
【0039】
本発明の実施形態は、ハードウェアまたは汎用計算機のソフトウェアによって実現することができる。また、本発明の実施形態は、ハードウェアとソフトウェアの組み合わせとして実現することができる。本発明の実施形態は、単一の処理装置あるいは処理装置の分散ネットワークによって実装することもできる。
【0040】
本発明の実施形態はソフトウェアによって実現することができ、本発明の実施形態は任意の適合する記録媒体によって汎用計算機に導入される計算機コードを含む。記録媒体は、フロッピー(登録商標)ディスク、CD ROM、磁気デバイス、プログラマブルメモリデバイスのような任意の計算機可読記録媒体を含むことができる。
【0041】
第1実施形態に従うシステムおよび方法を説明する。
【0042】
図1(a)は、4つの被写体1、3、5および7を含むシーンの点群である。点群は図2を参照して説明した装置を用いて得られる。点群は、3Dイメージング技術によって得られた表面への法線から構築された表面上の予測点を含む。
【0043】
図1(b)は、図1(a)のシーンを含む、被写体1、3、5および7の認識を可能にするために本発明に従う方法によって変更された後の図1(a)のデータを示す。
【0044】
図2は本発明の一実施形態を被写体11の画像をキャプチャーし、当該被写体の姿勢を認識するのに使用したシステムの概略図である。被写体11は3つの異なる光源13,15,17によって照明される。この実施形態では、これら3つの光源がそれぞれ異なる3色の光を発することができる。ここでは、赤、緑、青の色を、これら3色を識別できるビデオカメラを得ることができるので、選択することとする。しかしながら、ビデオカメラで識別できる色を発光できるものであれば、どのような色を発光する光源であってもよい。また、可視光外の放射光源も使用することができる。色の正確な濃淡または発光の周波数はビデオカメラに依る。一実施形態では、光源は複数のプロジェクタであり、場面(シーン)がそれぞれのプロジェクタからのそれぞれの発光色で照明されるよう複数のフィルターを設ける。また、さらに別の実施形態では、被写体を照明するのにLEDが用いられる。
【0045】
一実施形態において、光源光は、カメラ内のセンサによりキャプチャーされた周波数に、それぞれのセンサが0から255の範囲の色をキャプチャーされるように調整される。この範囲より外の色が決定されると、サチュレーションが起こることがあり、その場合、生成される3−D画像に誤差が生じる。
【0046】
この実施形態において、3つの光源13,15,17は被写体1の周りに横方向に配置され、フロア位置から被写体1の高さまでの間の数段階に縦方向に置かれる。ある実施形態においては、光源13,15,17は三角形に配置される。一配置例では、三角形配置された光源は隣り合う光源の間隔が1から3メートルであり、他の配置例では、隣り合う光源の間隔が1.5メートルから2.5メートルである。光源は被写体1に向けられている。
【0047】
三光源13,15,17の角度は、被写体11を中心にその回転面においておよそ30度の間隔で設けられる。角度間隔が大きいほど方向に依存する色はよりはっきりと変化する。光源が離れすぎていると、被写体1のへこんだ形の部分の識別が難しくなる。これは、そのような部分でつくられる影は被写体のさらに大きな部分に拡大され、データの解析をさらに難しくするからである。好ましくは、被写体1の各部分が三つのすべての光源13,15,17で照明される。
【0048】
第2の光源15の縦方向下に位置するカメラ19は、3つの光源3,5,7で照明されながら移動する被写体を記録するために用いられる。光源が三角に配置される実施形態においては、カメラ19はその三角形の面の内部に設置されてもよい。
【0049】
カメラ19は異なった色の複数の画像を分離することができる。これは、カメラ内のフィルター機構によりなされる。こうして、カメラ19は三つのすべての光源からの照明を利用して被写体11の画像をキャプチャーすることができ、それぞれの光源からの反射光を順次識別することができる。したがって、赤、緑、青の光源からのそれぞれの反射光を用いて画像を生成することができる。
【0050】
一実施形態において、第一ビデオカメラは生画像データを出力する。例えばMPEGのようなデータ圧縮機構は使用されない。画像データの圧縮により、再構成された3D画像に影響が現れる可能性がある。
【0051】
カメラ19でキャプチャーされたデータは解析部20に供給される。解析部20は、三光源13,15,17に接続されている。
【0052】
図3はシステム解析部20の可能な基本構造を示す。解析部23は、プログラム25を実行するプロセッサ23を有する。解析部13は、さらにストレージ27を有する。ストレージ27は、カメラ19(図2)から受け取ったデータを解析し、光源13,15,17の照明を制御するためのプログラム25で用いられるデータを記憶する。解析部20はさらに入力モジュール11と出力モジュール33を有する。入力モジュール31はカメラ入力部35に接続されている。カメラ入力部35はカメラ19からのデータを受け取る。カメラ入力部35はカメラから単に直接データを受け取ってもよいし、または、外部記憶媒体またはネットワークからデータを受け取ってもよい。
【0053】
出力モジュール33にはディスプレイ37が接続されている。ディスプレイ37はカメラ入力部35から受け取ったカメラデータからキャプチャーされた3D画像を表示する。ディスプレイ27の代わりに、出力モジュール33がファイルまたはインターネット等を介して出力を行ってもよい。
【0054】
使用時において、解析部20はカメラ入力部33を介してカメラデータを受け取る。プロセッサ23で実行されるプログラム25は、3D画像データを生成するためにストレージ27に記憶されたデータを使ってカメラデータを解析し、被写体およびその姿勢を認識する。該データは出力モジュール33を介してディスプレイ37に出力される。
【0055】
上記は、フォトメトリックステレオ技術を用いて3D被写体データをキャプチャーする技術を示している。しかしながら、(少なくとも1つの光源および2つのカメラを用いる)2眼ステレオのような他の方法が可能であり、タイムオブフライトセンサやアクティブ光源デプスセンサを用いてもよい。
【0056】
次に、キャプチャーされたシーンの画像内の被写体およびそれらの姿勢を検出するための方法を説明する。
【0057】
被写体認識を行なえるようにするには、システムは、認識対象となりうる被写体に関する情報を記憶するための学習をしておく必要がある。これを図4を参照して説明する。
【0058】
まずステップS401では、1つの被写体または複数の被写体が図2および3を参照して説明されたものと同様の装置を用いて画像化される。
【0059】
この実施形態では、各被写体に座標系が割り当てられる。一実施形態において、該座標系の原点は被写体の中心に位置し、該座標系の各軸の方向は被写体の向きに一致し、この座標系における単位長は被写体のスケールと等しい。該座標系は、グローバル座標系の点をローカル座標系に変形する単一の4x4アフィン変換行列によって定められる。
【0060】
特徴が被写体から抽出される。特徴は特定が容易な球状の領域である。特徴の例を図5に示す。
【0061】
特徴を特定する方法は既知であり、ここでは詳細に述べない。本実施形態では、各特徴にローカル座標系を設定する。座標系の原点は特徴の中心に位置し、軸の方向は特徴の基準方向に一致し、該座標系における単位長は特徴の半径と等しい。該座標系もまたグローバル座標系の点をローカル座標系に変形する4x4変換行列によって定められる。特徴の座標系において、原点に近い固定位置での31点がサンプリングされ、31次元の記述子ベクトルが生成される。(領域中心、領域半径、方向、記述子)のタプルが特徴を形成し、これはステップS405において記憶される。
【0062】
したがって、データベース内の各特徴について、特徴のローカル座標系の変換行列、およびそれに関連した被写体のローカル座標系の両方が既知である。特徴の変換行列がF1であって、被写体の変換行列がM1である場合、M1にF1の逆数を乗ずる(つまりT=M1(F1)^(-1)を計算する)ことにより、特徴のローカル座標系の点を、関連する被写体のローカル座標系に変形する変換行列Tが求まる。
【0063】
被写体がスケーリング、平行移動および回転によって変形される場合、行列Tは不変である。上記処理は、シーンに存在すると考えられる被写体について繰り返される。例えば図6(b)の被写体61に関して、図6(b)は被写体61に割り当てられた特徴63を示す。
【0064】
図7を参照して説明するように、動作中に、図2および3を参照して説明したように画像がキャプチャーされる。ステップS411において、この画像から特徴が抽出される。図4を参照して上述したように特徴について述べる。データベースにおける特徴の記述子と、画像から抽出された特徴の記述子との間に一致が見られる場合、予測が生成される。
【0065】
実施形態において、ユークリッド距離が閾値未満である場合、2つの記述子間には一致がある。画像から抽出された特徴とデータベースにおける特徴との間に一致がある場合、ステップS415において予測が生成される。この予測は、どのような被写体が現時点で認識されており、それはどこにあるかの仮説である。
【0066】
実施形態において、シーン上の特徴が一致する場合、該特徴のローカル座標系の変換行列のみが識別される。2つの特徴が一致する場合、テストシーンからの特徴のローカル座標系の点を予測被写体のローカル座標系に変形する変換行列は、Tと同じであると考えられる。したがって、グローバル座標系からの一致特徴の変換行列がF2である場合、予測被写体のローカル座標系を表わす変換行列は、TにF2を乗ずること(つまりM2’=T F2)により与えられる。M2’は予測被写体姿勢のスケール、中心点および方位を与える。
【0067】
要するに、2つの記述子の一致によって、2つの対応する領域が同じ形状を持つものと見なされる。データベースからの特徴における被写体の識別、位置、スケールおよび方位は既知であることから、データベースからの特徴がシーンからの特徴と同じ場所に移動し、スケーリングし、回転するように該被写体を(スケーリング、平行移動、回転によって)変形することができる。これは、変形の後にこの被写体がシーンに存在することを予測するのに用いられる。
【0068】
上記方法は多くの予測をもたらす。この予測は、ステップS417においてグループ化される。
【0069】
各予測は、被写体のIDおよびその姿勢に関する情報を含む。該姿勢(X)について、各姿勢は変換行列
【数13】
【0070】
として表わすことができる。
【0071】
ここで、s(X)は被写体のサイズに関係のある実数、R(X)はこれに沿って被写体が向く方向を示す正方行列、t(X)は被写体中心の位置を示すベクトルである。
【0072】
姿勢をグループ化するために、カーネル密度推定法(KDE)が用いられる。この方法では、被写体について多数の姿勢X1,X2,...,Xnが考慮される。
【0073】
各姿勢Xiは、高次元(非ユークリッド)空間の点と見なされ、重みλiを持つ。
【0074】
場合によっては、全姿勢が同等に処理され、全姿勢についてλi=1である。別の実施形態において、姿勢には重みが加えられる。
【0075】
一つの方法として、重み付けは、データベースにおける被写体の特徴および被写体のインスタンスの数を考慮に入れることにより行なわれる。
【0076】
例えば、データベースにN個の被写体がある場合、各被写体は複数のインスタンスを持ち得るのであって、各インスタンスは、異なる姿勢でスキャンされた同じ被写体を表わす点群である。そのようなシナリオでは、各被写体にはNk個のインスタンスが存在し得る。この場合、被写体Kの各インスタンスkはNk,l個の特徴を持つ。このシナリオでは、各姿勢の初期重み(シーン上の特徴と特徴とを一致させる結果である)は、
【数14】
【0077】
に設定される。
【0078】
KDE法では、全姿勢が未知の確率密度関数f(X)からサンプリングされることを仮定している。姿勢をグループ化する問題は、f(X1’),f(X2’),...,f(Xm’)が局所的に最大化される全ての点X1’,X2’,...,Xm’を求めることとして再定式化される。各対(Xj’,f(Xj’))は代表姿勢(Xj’)およびその重み(f(Xj’))を定める。
【0079】
この実施形態では、この問題を次の2つのステップによって解決する。
【0080】
(1)(X1,λ1)、(X2,λ2)、(Xn,λn)からf(X)を推定すること。
【0081】
(2)f(X)からの極大値X1’,X2’,...,Xm’を求めること。
【0082】
KDEは、
【数15】
【0083】
の式で表されるカーネル密度推定量
【数16】
【0084】
が未知の密度関数f(X)を近似できることを仮定する方法である。
【0085】
ここで、K()は距離関数d()を用いるカーネル密度関数であり、
【数17】
【0086】
はK()のボリューム密度関数である。上記は全姿勢についてλi=1を仮定している。
【0087】
この式において、各点Xiは、カーネル関数に基づいてXiを中心とする密度関数をアサートし、それは、図8のトレース201に示されるような小さな「ブロブ(blob)」として現われ、
【数18】
【0088】
は簡単には全ての密度関数の平均であり、それはトレース203として示された全ブロブの平均として現われる。KDEにおいて、
【数19】
【0089】
がf(X)を推定するのに用いられる。
【数20】
【0090】
は、入力点から直接定義されるので、f(X)の推定は問題にならない。そのような系の極大値は、平均値シフト、メドイド(medoid)シフト、クイックシフトのような方法を用いて求めることができる。
【0091】
カーネル密度関数K()を定義する必要がある(つまり、点からの小さなブロブを定義することである)。これは任意のユークリッド空間において行うことができる。しかし、これを非ユークリッド空間において行うのは困難である。全姿勢の空間は非ユークリッドである。本発明の実施形態に従って、距離基準に基づくガウスSRTカーネル
【数21】
【0092】
が用いられる。ここで、XとYは図9に概略的に示されるような被写体姿勢、s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtは重み係数である。ノルム
【数22】
【0093】
は、行列のフロベニウスノルムを表わし、ノルム
【数23】
【0094】
はベクトルのユークリッドノルムを表わす。
【0095】
実施形態において、σs、σr、σtは、システムの独立なテストセットにおける位置合わせスコアの最大化により求まる。この手続きでは、既知の被写体姿勢を用いて200の点群のテストセットが作成される。システムは(σs,σr,σt)の異なる組み合わせを用いてこれらの点群について実行される。その後、各組み合わせについてシステムが正しく位置合わせをする回数のカウントがなされる。次の場合、位置合わせは正解である。
【0096】
出力スケールはグランドトルーススケールの5%未満である。
【0097】
出力位置とグランドトルース位置の間の距離は、グランドトルーススケールの10%以内である。
【0098】
出力方位とグランドトルース方位の間の角度は15度未満である。
【0099】
正しい位置合わせの数を最大化する(σs,σr,σt)の組み合わせが選択される。
【0100】
実施形態において、一般的な範囲は次のとおりである。
【0101】
・σs=0.04..0.12
・σr=0.06..0.20
・σt=0.06..0.20
比をσs:σr:σt=7:12:12、例えば(σs,σr,σt)=(0.07,0.12,0.12)とすれば上手く行くことが分かった。
【0102】
ここで、極大値を求めるための平均値シフト技術について説明する。平均値シフト法は初期姿勢から開始する。この姿勢をYとする。カーネル(ここではガウスカーネル)K()が定義されていることを考慮し、上述の距離基準を用いることにより、この方法は、Yが動かなくなるまで繰り返しYを「移動させる」。
【0103】
ガウスカーネルが上述の距離基準を用いている場合、Y、gY(X)に中心がある(つまり
【数24】
【0104】
に定義された全てのブロブと同じ形の小ブロブ)。すべての姿勢Xiについて、新しい重みwi=λi*gY(X)を設定する。したがって、Yの近くの姿勢は大きな重みを持ち、Yから遠くはなれた姿勢は小さな重みを持っている。
【0105】
そして、新たな平均Y’を(X1,w1),(X2,w2),(Xn,wn)から計算することができ、YがY’にセットされる。実施形態において、上記距離基準に基づいた平均を用いて平均が計算される。この平均は、sRt平均と呼ばれ、
【数25】
【0106】
である。
【0107】
ここで、χ={(X1,w1),(X2,w2),...(XN,wN)}は姿勢の集合、Xiはi番目の姿勢、wiはi番目の姿勢に関連した重みであり、該重みは姿勢の精度のインジケーションである。ここで、
【数26】
【0108】
は行列XのSO(n,R)への特殊直交射影である。ここで、SO(n,R)は全n×n特殊直交行列の集合である(つまり、YTYが恒等行列となり、Yの行列式が1となる任意のn×nの実行列Y)。関数sop(X)は、Y−Xのフロベニウスノルムが最小化されるような特殊直交行列Yを返す。関数sop(X)は既知である。これは、既知の方法によって効率的に実装することができる。
【0109】
Yが動かなくなる(つまり、Y’はYと同じである)場合、Yは、
【数27】
【0110】
の極大値に一致することが数学的に証明される。平均値シフトは、できるだけ多くの極大値を求めるために開始点を異ならせて多数回実行される。新たなSRT平均を計算するステップにおいて、異なる重みにより全姿勢から単一の平均を計算する。しかし実際のところwiが小さすぎる場合、新たなsRt平均の計算に(Xi,wi)が織り込まれるかどうかにかかわらず、該成分は結果として生ずる平均にほとんど影響がない。したがって計算を省くために、wiが閾値より大きい姿勢XiのみからsRt平均を計算する。一実施形態においては、この閾値として1E−11を用いる。
【0111】
上記は全ての被写体について繰り返される。
【0112】
次に、ステップS419においてフィルター処理が行なわれる。ここで、最大の重みを持った代表姿勢が選択される。この姿勢に重なった被写体を表わす全姿勢が削除される。次に、2番目に大きい重みを持った姿勢が処理され、この姿勢に重なった全姿勢もまた削除される。該ステップは、処理中の姿勢の重みが閾値より小さくなるか、姿勢がなくなるまで繰り返される。
【0113】
これにより、シーン内の全ての被写体の識別およびその姿勢が得られる。
【0114】
図10(a)乃至(c)は、図7を参照して説明した処理を概略的に示している。図10(a)は一致特徴のそれぞれについて予測が生成されるステップS415に対応する。
【0115】
図10(b)は、姿勢についてカーネル密度推定法を用いた密度推定が行なわれることを示す。これは、S417のグループ化ステップの一部を成す。図10(c)に示すように、各クラスターにおける姿勢はグループ化され、各クラスターの代表姿勢が形成される。
【0116】
上記実施形態では、投票ベースの3D形状認識および位置合わせが提供される。投票は、各被写体について予測された3D姿勢である。上記実施形態は、平行移動、回転、スケールを同時に用いて、3D応用に平均値シフトを適用する。
【0117】
上記は直接相似変形の空間における3D姿勢投票に平均値シフトを用いる。この空間の姿勢間に距離基準が導入される(SRT距離)。これはユークリッド距離とは異なり左不変であって、リーマン距離とは対照的にユニークで閉じた形の平均を持つ。したがって、計算上効率的である。
【0118】
上記実施形態では、可能な姿勢の組または投票のコレクションによって、姿勢の経験分布が確立される。投票は、テスト被写体からのローカル特徴を、既知の姿勢を持ったライブラリの特徴に一致させることにより計算される。
【0119】
そして第2のステップは、該分布における1つ以上の「最良な」姿勢を求めることである。上記実施形態では、これは確率の極大値を繰り返し求める平均値シフト処理によって実現される。
【0120】
上記実施形態のシステムは、既知の方位を持った関心被写体が固定されない場合に対処することができる。上記実施形態では、被写体が認識され、直接相似群、即ち平行移動、回転、スケールによってパラメータ化された等方相似変換群において位置合わせされる。スケールは、入力データのスケールが未知であるか高いクラス内スケール変動がある場合に必要である。回転は完全な位置合わせに必要であり、より正確な認識をもたらす。結果として得られる7D姿勢空間は大きすぎるので、既知の技術を用いる現行の計算機能力では効率的に分析することができない。
【0121】
上記実施形態は平均値シフト技術を用いている。上記技術において、スケールおよび回転はユークリッド距離およびリーマン距離のような既知の距離尺度を用いる課題を導入し得る。ユークリッド距離はスケール不変ではなく、回転は非線形多様体(manifold)を生成し、それへの投影はスケールのバイアスを引き起こす。リーマン距離の平均は閉じた形の解を持たず、計算が遅い。
【0122】
上記の距離基準はスケール、回転、平行移動の不変性を付随的に提供する。実施形態において、この距離の重み付け平均には以下の特性がある。
【0123】
1.ユニークであること。
【0124】
2.閉じた形であること−これは計算を効率化する。
【0125】
3.スケール互換であること。回転および平行移動がすべて等しい場合、平均はスケールの平均として作用する筈である。数学的に、あるR’およびt’について
【数28】
【0126】
であるならば、R(μ(χ))=R’であり、t(μ(χ))=t’であり、s(μ(χ))がs(Xi)の平均である場合、μはスケール互換である。
【0127】
4.回転互換であること。
【数29】
【0128】
ならば、s(μ(χ))=s’であり、t(μ(χ))=t’であり、R(μ(χ))はR(Xi)’sの平均である。
【0129】
5.平行移動互換であること。
【数30】
【0130】
であるならば、s(μ(χ))=s’であり、R(μ(χ))=R’であり、t(μ(χ))はt(Xi)’sの平均である。
【0131】
6.左不変であること。左不変距離は事後変換に不変のものである。すなわち、
【数31】
【0132】
である。この特性は、(a)左共変平均すなわち
μ(ZX)=Zμ(X)
を導く。つまり、全姿勢XiがZによって変換される場合、平均もZによって変換される。また、(b)平均値シフトで計算された重みwiは任意の事後変換Zに対して不変であり、左共変平均シフトをもたらすことを保証する。
【0133】
対称距離は
【数32】
【0134】
となるように定められ、直観的に望ましいものに見えるが、これが無くても平均値シフトにおける距離の使用が妨げられることはなく、リストされた特性を与えられるならば、それは必要ではない。右共変も望ましい特性と考えられるかもしれないが、3D認識のコンテキストにおいて、この存在は何ら意味のある振る舞いに関係しない。
【0135】
sRt距離はその成分
【数33】
【0136】
に分割することができる。
【0137】
ここで、ds()、dr()、dt()はそれぞれスケール、回転、平行移動の距離である。
【0138】
あるバンド幅係数σs;σr;σt>0を所与として、sRt距離は次のように定義される。
【数34】
【0139】
σs;σr;σtを制御することによりスケール、回転、平行移動のうちの1つの種類の変換に対して他のものより敏感なsRt距離を生成することが可能であり、したがって、非常に柔軟性がある。
【0140】
dsRt()が定義されると、dsRt()により導入される平均μsRtは次のように定義される。
【数35】
【0141】
これは、平均をもたらし、
【数36】
【0142】
である。
【0143】
ここで、
【数37】
【0144】
は、SO(n,R)への行列Xの特殊直交射影である。ここで、SO(n,R)は全n×n特殊直交行列の集合である(つまり、YTYが恒等行列となり、Yの行列式が1となる任意のn×nの実行列Y)。関数sop(X)は、Y−Xのフロベニウスノルムが最小化されるような特殊直交行列Yを返す。関数sop(X)は既知である。これは、既知の方法(例えばM. Moakher. Means and averaging in the group of rotations. SIAM J. Matrix Anal. Appl., 24:1-16, 2002)によって効率的に実装することができる。
【0145】
上記において回転平均行列を計算する場合、全ての回転行列R(Xi)の重み付け算術平均が計算される。これは、関数sop()を介してそれに近い真の回転行列と置き換えられる。任意の特殊直交行列は実行列であり、逆もまた同様である。重み付け平均行列は必ずしも回転行列ではないので、Sop()はこの実施形態において用いられる。
【0146】
上記の実例説明のために、物理的な被写体およびこれに一致するCADモデルを用意し、12の形状クラスから成る実験データを用いて実験を行った。
【0147】
図11(a)に示されるような各被写体のジオメトリを、図11(b)に示すように点群の形で様々な角度から20回ほどキャプチャーした。クラスラベルと共に、すべての形状インスタンスは関連するグランドトルース姿勢を持つ。これは、先ずおおよその関連CADモデルを点群に手動で位置合わせし、該位置合わせを改善するためにIterative Closest Pointアルゴリズムを用いることにより計算される。
【0148】
入力姿勢投票Xの計算は、テスト点群および(クラスおよび姿勢が既知の)学習点群の集合を所与として2段階の処理である。第一段階において、記述子と、被写体に関連するスケール、平行移動、回転とから構成されるローカル形状特徴が図11(c)に示すような全ての点群について計算される。先ず最も近い点への各ボクセル中心の距離についてのガウスオペレーターを用いて点群を1283のボクセルボリュームに変換する。次に、ガウスオペレーターの差分を利用する3次元位置とスケールによって特徴点をローカライズし、各特徴点の基準方向を計算してローカル特徴姿勢を生成する。最終的には、特徴点の周囲31箇所の規則的に分布した位置において(正確なスケールで)ボリュームを単純にサンプリングすることにより、基礎となる31次元の記述子を計算する。
【0149】
第二段階では、記述子間のユークリッド距離に関して各テスト特徴を20の最も近い学習特徴に一致させる。これら一致の各々により、図11(d)に示されるテスト被写体の姿勢の投票Xi=AB−1Cが生成される。A、B、Cは、それぞれ、テスト特徴、学習特徴、学習被写体のグランドトルース姿勢である。さらに、各投票は(NCNI)−1として計算される重み即ちλiを持つ。NCはクラス内の学習インスタンスの数、NIは特徴の特定インスタンスにおいて求まった特徴の数である。
【0150】
平均値シフトは、所与の被写体クラスの出力姿勢分布において局所最頻値とその重みを求める。そのような最頻値は多数存在しうることから、平均値シフトは各クラスにつき100のランダムな入力姿勢から開始する。各最頻値は、重複を除外しつつ、全クラスにわたる候補姿勢のリストに加えられる。S+(3)では、回転の四元数表現すなわちq(X)を用いることが可能である。この式を用いることにより、dsRt()の回転成分を次のように定義することができる。
【数38】
【0151】
ここで、|...|はq(X)および−q(X)が同じ回転を表わすことを示すために必要である。この式は、他のものに比較して計算量が少ないという利点を持ち、当該空間における非成分的(noncomponent-wise)な距離を与える。
【0152】
この例では、平均値シフト推論アプローチと比較するためにハフ投票法を実装した。これは、回転を効果的に周辺化して、平行移動およびスケールに関する4Dヒストグラムの各ビン(bin)に該当する、姿勢投票の重みの和を計算するものである。ビン幅は4次元の各々における平均形状幅(あるいはスケール)の0.16倍になるように設定される。各クラスで最も高いビンの和は姿勢の最頻値を定義する。
【0153】
学習データの評価に交差検定を用いた。各クラスにおける20個の形状インスタンスのうちの19個から学習セットを作成した。各クラスの残りのインスタンスはテスト形状となる。各テスト形状に5つのランダムな変換(0.5−2の範囲の平行移動、回転、スケール)を施し、この処理をテスト形状である各学習形状で繰り返し、1クラス当たり100のテストインスタンスを生成する。
【0154】
図12に示すような、12個のクラスを評価に用いた。これらは、ベアリング、ブロック、ブラケット、車両、歯車、フランジ、ノブ、パイプ、2つのピストンである。これは全部で1000個のテストをもたらす。残りの2つのクラスは、最適なカーネルバンド幅(σ)を学習するために推論法に用いられる。
【0155】
推論法は2つの基準(認識率と位置合わせ率)について評価された。
【0156】
認識率−上述したように、重みと共に姿勢およびクラスにわたる最頻値のリストが生成される。出力クラスは最も高い重みの最頻値のクラスである。混同行列は全テストにわたる出力クラス対グランドトルースクラスを記録する。認識率は、この行列のトレースすなわち正解分類の数から与えられる。
【0157】
位置合わせ率−あるテストの出力姿勢は、そのクラスがグランドトルースクラスと一致する重み付け(weightiest)最頻値の出力姿勢から与えられる。次のスケール、回転、平行移動の判定基準
【数39】
【0158】
をすべて満たす場合、姿勢Xは正しいと考えられる。Yはグランドトルース姿勢である。対称性がある被写体の場合には、Yが複数存在し、最も接近しているものへの距離が用いられる。
【0159】
平均値シフトアルゴリズムに用いられるσs、σr、σtを決めるために、(最終評価に用いられない)2つの学習クラスの交差検定から位置合わせ率を最大化する。位置合わせ率は局所探索を用いて最大化される。初期バンド幅が選ばれ、この値と値1:2および1=この値の1:2倍について位置合わせ率が計算される。最も高いスコアを持つ値が選ばれ、収束するまで当該処理は繰り返される。学習するべきパラメータを3つとし、3Dグリッドについて局所探索が計算される。
【0160】
表1は、sRtを用いる平均値シフト法の定量的な結果をまとめたものである。
【表1】
【0161】
表1によれば、sRt平均値シフトは、認識と位置合わせの両方について良い結果を示すことがわかる。3行目はスケールおよび平行移動のみを考慮する場合の位置合わせ率である。また5行目は位置合わせ結果の出力スケールの平均(各々はグランドトルーススケールに対する出力スケールの比)を示している。
【0162】
平均値シフト法のクラスごとの位置合わせ率を表2に示す。
【表2】
【0163】
sRt推論法の混同行列を図13に示す。
【0164】
図14は、複数の被写体を含んだ現実のシーンにsRt平均値シフトを容易に適用できることを示している
別の実施形態において、該システムは、地表面および衝突検出の位置のような物理的な制約を用いて出力姿勢のリストをフィルターしてもよい。これにより誤判定結果の数を低減することができる。
【0165】
上記は、直接相似変換の空間すなわちS+(n)における姿勢についての平均値シフトにおけるsRt距離の利用を示している。距離は左不変であるものとし、スケール、回転、平行移動互換の望ましい特性を伴うユニークでクローズドな形の平均を持つことを示した。
【0166】
この距離は、視覚ベースのジオメトリキャプチャーシステムおよび基本特徴とともに回転の対称性を持つ/持たない現実世界の被写体を合成する困難でリアリスティックな3Dデータセットの位置合わせおよび認識のタスクに用いることができる。
【0167】
別の実施形態において、sRt平均値シフトは、初期化に関してメドイドシフト、ハフ投票(回転は省略)のいずれかにより、計算時間を削減することができる。さらに、位置合わせと認識スコアの間の相関の欠如は、入力投票の重みが改善されうることを示唆する。
【0168】
別の実施形態において、SRT距離は画像中の被写体検出に適用され、これらの方法は画像中の特定のクラス(例えば全ての人物の顔のクラス)の被写体を検出する問題を対象とする。これらの方法では、被写体の位置は図15に示されるような正方ウインドウによって特定される。これは画像中の被写体を包含するバウンディングボックスを表わす。正方ウインドウは、被写体の画像内回転を表現するために、回転され得る。
【0169】
この方法において、スケール、位置、方位が異なる多数のウインドウが画像全域にわたってスキャンされ、その各々はポジティブとネガティブのどちらかに分類される。ポジティブとは、ウインドウが関心被写体を含むことを意味し、ネガティブとは、そうでないことを意味する。そして、互いにオーバーラップするポジティブウインドウがグループ化される。各グループについて、「平均(average)」ウインドウが計算される。
【0170】
本発明の実施形態に従う方法では、sRt平均はウインドウ集合からの「平均」ウインドウを計算するために用いられる。平均ウインドウのリストは、検出被写体およびそれらの位置のリストとして返される。
【0171】
別の実施形態において、代表ウインドウが各グループのメドイドウインドウとして選ばれる。メドイドウインドウは、それ自体がグループ内のウインドウであって、他のウインドウとの平均距離が最小であるウインドウである。この実施形態において、ウインドウ間の距離がsRt距離を用いて計算される。
【0172】
別の実施形態において、部品から関節オブジェクトを追跡する方法が提供される。画像シーケンス上で関節オブジェクトを追跡するために、この方法ではトラッキングが容易な被写体の剛体部分を検出しまたは追跡する別の方法を利用する。各部品について、被写体の幾つかの候補姿勢を生成する。結果を合成して最良解を求める際に投票ベース姿勢推定フレームワークを用いることができる。最大の重みを持った姿勢が現在の姿勢として返される。
【0173】
本発明の実施形態に従う方法は、動き分離に適用することもできる。映像シーケンスでは、複数の動きが同時に起こる場合がある。例えば、異なる被写体あるいは被写体部分が異なる方向に向かって移動する。映像シーケンスからこれらの動きをセグメント化することが目的である。動き分離は、複数被写体のトラッキングのための初期ステップに役立つ。動き分離法は、連続する2つのフレームにおける点、一対の点、あるいは点集合の間の対応を明らかにする。これらの対応は2D変換として表わされる。
【0174】
2D変換はグループにクラスター化され、その各々は動き(motion)を形成する。2D変換が単純な平行移動、スケーリング、回転を含むと仮定される場合、2D用途の投票ベース姿勢推定フレームワークを2D変換のセグメント化に用いることができる。この実施形態では、本発明の実施形態に従う方法を用いて2D画像あるいは3D画像を処理する。
【0175】
本発明の実施形態に従う方法はカメラ姿勢推定に用いられてもよい。カメラ姿勢推定では、シーン中の較正カメラの姿勢を該カメラによってキャプチャーされた画像シーケンスから直接的に推定することに興味が示される。カメラ姿勢推定はステレオ3D再構成法の重要なステップである。
【0176】
一般に、カメラ姿勢推定法は、画像シーケンスから2Dコーナー点を検出し追跡する。連続する2つのフレーム間で追跡される隣接コーナー点の各小集合を用いてカメラ姿勢候補を生成することができる。カメラ姿勢候補の重みは、他のコーナー点が候補姿勢にどれだけ一致するかをカウントすることにより推定することができる。図4〜10を参照して説明された姿勢推定フレームワークは、最尤姿勢を見つけるのに用いることができる。
【0177】
別の実施形態において、カメラ姿勢はsRt平均を用いて重み付けされた平均姿勢から推定され、あるいはsRt距離を用いて重み付けされたメドイド姿勢を検出することにより推定される。
【0178】
いくつかの実施形態を説明したが、これらの実施形態は例示のみを目的としており、発明の範囲を制限することは意図していない。実際には、本明細書で説明した新規の方法およびシステムは他の様々な形で具体化することができ、また発明の要旨から逸脱しない範囲で、本明細書で説明した方法およびシステムの構造における様々な省略、置換、および変更を行ってもよい。添付の特許請求の範囲およびその均等物は、発明の範囲および要旨に含まれうる構造あるいは改良に及ぶことが意図される。
【特許請求の範囲】
【請求項1】
画像データを分析するための装置であって、該装置はプロセッサを含み、
前記プロセッサは、
被写体の姿勢の複数の予測を得るために前記画像データを分析するよう構成され、前記予測は前記被写体の予測姿勢のインジケーションを含んでおり、前記予測姿勢は共通の座標系の位置、方向、スケールに関して表現され、
2つの被写体姿勢間の距離を計算することで前記予測姿勢を比較することにより前記予測をグループ化するように構成され、前記距離は距離関数を用いて計算される、装置。
【請求項2】
前記距離関数は
【数40】
を含み、ここで、XおよびYは同一被写体の被写体姿勢であり、
【数41】
であり、s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtはそれぞれds、dr、dtの重み係数である、請求項1に記載の装置。
【請求項3】
前記画像は少なくとも1つの被写体を含み、前記予測は前記被写体とその姿勢のインジケーションを含む、請求項1に記載の装置。
【請求項4】
前記被写体の前記インジケーションを、少なくとも前記画像データの一部をデータベースの被写体のデータと比較することにより求める、請求項3に記載の装置。
【請求項5】
前記データベースの各被写体は複数の特徴を含み、該データベースの被写体と前記画像データを比較することは、前記画像データを分析して前記データベースの被写体の特徴との一致を求めることを含む、請求項4に記載の装置。
【請求項6】
前記被写体は、前記画像をキャプチャーするのに用いられるカメラである、請求項1に記載の装置。
【請求項7】
全姿勢が分布f(X)からサンプリングされることを仮定するカーネル密度推定法を用いて前記被写体姿勢がグループ化され、前記カーネル密度推定における前記カーネルは前記距離関数を含む、請求項4に記載の装置。
【請求項8】
前記グループの代表姿勢を、f(X)の極大値を決定することにより計算する請求項7に記載の装置。
【請求項9】
前記極大値を平均値シフト技術、クイックシフト技術またはメドイドシフト技術を用いて求める請求項8に記載の装置。
【請求項10】
前記極大値を平均値シフト技術を用いて求め、反復の各段階の平均を
【数42】
を用いて計算し、ここで、Xiはi番目の姿勢であり、wiは前記平均被写体姿勢を計算するためのi番目の姿勢の重みであり、χ={(X1,w1),(X2,w2),...(XN,wN)}は、Xiを前記i番目の姿勢とするときの姿勢集合であり、wiは前記i番目の姿勢の重みであって、
【数43】
はSO(n,R)への行列Xの特殊直交射影であって、ここで、SO(n,R)は全n×n特殊直交行列の集合であり、関数sop(X)はY−Xのフロベニウスノルムが最小化されるように特殊直交行列Yを返す、請求項8に記載の装置。
【請求項11】
重みwiをwi=λi*K(d2(Y,Xi))から求め、Kはカーネル関数であり、dは、平均値シフト技術を用いて推定された現在の極大値Yを持つ姿勢と、姿勢Xiとの間の距離である、請求項10に記載の装置。
【請求項12】
前記姿勢評価が先ずハフ投票法を用いてグループ化される請求項9に記載の装置。
【請求項13】
各予測が初期の重みを持つ請求項1に記載の装置。
【請求項14】
前記画像データは3D画像データである請求項1に記載の装置。
【請求項15】
各被写体姿勢が共通の座標系の位置、方向、スケールに関して表現される場合の2つの被写体姿勢を比較するための装置であって、該装置はプロセッサを含み、前記プロセッサは前記2つの被写体姿勢間の距離を計算するように構成され、前記距離は、距離関数
【数44】
を用いて計算され、ここで、Xは1つの被写体の被写体姿勢であり、Yは別の被写体の被写体姿勢であって、
【数45】
であり、s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtはそれぞれds、dr、dtの重み係数である、装置。
【請求項16】
前記距離は、前記距離を用いるカーネルを用いて計算され、前記カーネルは、K(d2(X,Y))の式で表される、請求項15に記載の装置。
【請求項17】
前記カーネルは
【数46】
の式で表されるガウスカーネルであって、σはカーネルのバンド幅である、請求項16に記載の装置。
【請求項18】
0.04≦σs≦0.12、0.06≦σr≦0.20、0.06≦σt≦0.20である、請求項15に記載の装置。
【請求項19】
複数の被写体姿勢の平均を決定するための装置であって、該装置はプロセッサを含み、
前記プロセッサは
【数47】
を用いて前記複数の被写体姿勢の平均を計算するように構成され、ここで、X={(X1,w1),(X2,w2),...(XN,wN)}は姿勢集合、Xiはi番目の姿勢、wiはi番目の姿勢の重み、s(Xi)は被写体姿勢Xiのスケールを表わすスカラ関数、R(Xi)は被写体姿勢Xiの回転を表現する行列、t(Xi)被写体姿勢Xiの平行移動を表現するベクトルであり、
【数48】
はSO(n,R)への行列Xの特殊直交射影であり、SO(n,R)は全n×n特殊直交行列の集合であり、関数sop(X)はY−Xのフロベニウスノルムが最小化されるように特殊直交行列Yを返す、装置。
【請求項20】
画像データを分析する方法であって、該方法は
被写体の姿勢の複数の予測を得るために前記画像データを分析することを含み、前記予測は前記被写体の予測姿勢のインジケーションを含んでおり、前記予測姿勢は共通の座標系の位置、方向、スケールに関して表現され、
2つの被写体姿勢間の距離を計算することで前記予測姿勢を比較することにより前記予測をグループ化することを含み、前記距離は距離関数を用いて計算される、方法。
【請求項21】
請求項20の方法をコンピュータに実行させるように構成されたコンピュータ可読命令を記録する記憶媒体。
【請求項1】
画像データを分析するための装置であって、該装置はプロセッサを含み、
前記プロセッサは、
被写体の姿勢の複数の予測を得るために前記画像データを分析するよう構成され、前記予測は前記被写体の予測姿勢のインジケーションを含んでおり、前記予測姿勢は共通の座標系の位置、方向、スケールに関して表現され、
2つの被写体姿勢間の距離を計算することで前記予測姿勢を比較することにより前記予測をグループ化するように構成され、前記距離は距離関数を用いて計算される、装置。
【請求項2】
前記距離関数は
【数40】
を含み、ここで、XおよびYは同一被写体の被写体姿勢であり、
【数41】
であり、s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtはそれぞれds、dr、dtの重み係数である、請求項1に記載の装置。
【請求項3】
前記画像は少なくとも1つの被写体を含み、前記予測は前記被写体とその姿勢のインジケーションを含む、請求項1に記載の装置。
【請求項4】
前記被写体の前記インジケーションを、少なくとも前記画像データの一部をデータベースの被写体のデータと比較することにより求める、請求項3に記載の装置。
【請求項5】
前記データベースの各被写体は複数の特徴を含み、該データベースの被写体と前記画像データを比較することは、前記画像データを分析して前記データベースの被写体の特徴との一致を求めることを含む、請求項4に記載の装置。
【請求項6】
前記被写体は、前記画像をキャプチャーするのに用いられるカメラである、請求項1に記載の装置。
【請求項7】
全姿勢が分布f(X)からサンプリングされることを仮定するカーネル密度推定法を用いて前記被写体姿勢がグループ化され、前記カーネル密度推定における前記カーネルは前記距離関数を含む、請求項4に記載の装置。
【請求項8】
前記グループの代表姿勢を、f(X)の極大値を決定することにより計算する請求項7に記載の装置。
【請求項9】
前記極大値を平均値シフト技術、クイックシフト技術またはメドイドシフト技術を用いて求める請求項8に記載の装置。
【請求項10】
前記極大値を平均値シフト技術を用いて求め、反復の各段階の平均を
【数42】
を用いて計算し、ここで、Xiはi番目の姿勢であり、wiは前記平均被写体姿勢を計算するためのi番目の姿勢の重みであり、χ={(X1,w1),(X2,w2),...(XN,wN)}は、Xiを前記i番目の姿勢とするときの姿勢集合であり、wiは前記i番目の姿勢の重みであって、
【数43】
はSO(n,R)への行列Xの特殊直交射影であって、ここで、SO(n,R)は全n×n特殊直交行列の集合であり、関数sop(X)はY−Xのフロベニウスノルムが最小化されるように特殊直交行列Yを返す、請求項8に記載の装置。
【請求項11】
重みwiをwi=λi*K(d2(Y,Xi))から求め、Kはカーネル関数であり、dは、平均値シフト技術を用いて推定された現在の極大値Yを持つ姿勢と、姿勢Xiとの間の距離である、請求項10に記載の装置。
【請求項12】
前記姿勢評価が先ずハフ投票法を用いてグループ化される請求項9に記載の装置。
【請求項13】
各予測が初期の重みを持つ請求項1に記載の装置。
【請求項14】
前記画像データは3D画像データである請求項1に記載の装置。
【請求項15】
各被写体姿勢が共通の座標系の位置、方向、スケールに関して表現される場合の2つの被写体姿勢を比較するための装置であって、該装置はプロセッサを含み、前記プロセッサは前記2つの被写体姿勢間の距離を計算するように構成され、前記距離は、距離関数
【数44】
を用いて計算され、ここで、Xは1つの被写体の被写体姿勢であり、Yは別の被写体の被写体姿勢であって、
【数45】
であり、s(X)およびs(Y)は被写体姿勢XおよびYのスケールをそれぞれ表わすスカラー関数、R(X)およびR(Y)は被写体姿勢XおよびYの回転をそれぞれ表現する行列、t(X)およびt(Y)は被写体姿勢XおよびYの平行移動をそれぞれ表現するベクトル、σs、σr、σtはそれぞれds、dr、dtの重み係数である、装置。
【請求項16】
前記距離は、前記距離を用いるカーネルを用いて計算され、前記カーネルは、K(d2(X,Y))の式で表される、請求項15に記載の装置。
【請求項17】
前記カーネルは
【数46】
の式で表されるガウスカーネルであって、σはカーネルのバンド幅である、請求項16に記載の装置。
【請求項18】
0.04≦σs≦0.12、0.06≦σr≦0.20、0.06≦σt≦0.20である、請求項15に記載の装置。
【請求項19】
複数の被写体姿勢の平均を決定するための装置であって、該装置はプロセッサを含み、
前記プロセッサは
【数47】
を用いて前記複数の被写体姿勢の平均を計算するように構成され、ここで、X={(X1,w1),(X2,w2),...(XN,wN)}は姿勢集合、Xiはi番目の姿勢、wiはi番目の姿勢の重み、s(Xi)は被写体姿勢Xiのスケールを表わすスカラ関数、R(Xi)は被写体姿勢Xiの回転を表現する行列、t(Xi)被写体姿勢Xiの平行移動を表現するベクトルであり、
【数48】
はSO(n,R)への行列Xの特殊直交射影であり、SO(n,R)は全n×n特殊直交行列の集合であり、関数sop(X)はY−Xのフロベニウスノルムが最小化されるように特殊直交行列Yを返す、装置。
【請求項20】
画像データを分析する方法であって、該方法は
被写体の姿勢の複数の予測を得るために前記画像データを分析することを含み、前記予測は前記被写体の予測姿勢のインジケーションを含んでおり、前記予測姿勢は共通の座標系の位置、方向、スケールに関して表現され、
2つの被写体姿勢間の距離を計算することで前記予測姿勢を比較することにより前記予測をグループ化することを含み、前記距離は距離関数を用いて計算される、方法。
【請求項21】
請求項20の方法をコンピュータに実行させるように構成されたコンピュータ可読命令を記録する記憶媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2013−33468(P2013−33468A)
【公開日】平成25年2月14日(2013.2.14)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−155445(P2012−155445)
【出願日】平成24年7月11日(2012.7.11)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成25年2月14日(2013.2.14)
【国際特許分類】
【出願番号】特願2012−155445(P2012−155445)
【出願日】平成24年7月11日(2012.7.11)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]