説明

画像処理装置および方法、記録媒体、並びにプログラム

【課題】画像の拡大縮小に拘らず、物体を確実に認識することができるようにする。
【解決手段】 多重解像度生成部21により、モデル画像から多重解像度画像を生成し、特徴量抽出部23により各解像度の特徴点の特徴量を抽出し、モデル辞書登録部24に登録する。入力されたオブジェクト画像の多重解像度を多重解像度生成部31により生成し、その特徴点と特徴量を特徴量比較部35において、モデル辞書登録部24に登録されている特徴量と比較する。この比較は、kdツリー構築部34により構築されたkdツリーを利用して行われる。モデル姿勢推定部36は、特徴量比較部35による特徴量の比較結果に基づいて、オブジェクト画像に含まれるモデル画像の姿勢を推定し、その物体の姿勢パラメータを出力する。本発明は、ロボットに適用することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置および方法、記録媒体、並びにプログラムに関し、特に、視点変化、明度変化に強く、画像の拡大縮小に拘らず、物体を確実に認識することができるようにした画像処理装置および方法、記録媒体、並びにプログラムに関する。
【背景技術】
【0002】
例えば、ロボットにより対象物体を認識するための実用化されている対象物体認識技術の多くは、残差逐次検定法や相互相関係数によるテンプレートマッチング手法を用いている。しかしテンプレートマッチング手法は、検出対象物体が入力画像中に変形なく出現すると仮定できる特殊な場合には有効であるが、視点や照明状態の一定でない一般的な画像からの物体認識環境においては有効でない。
【0003】
他方、対象物体の形状特徴と、画像分割手法によって切り出された入力画像中の各領域の形状特徴とをマッチングする形状マッチング手法も提案されているが、上述のような一般的な物体認識環境においては、領域分割の結果が安定せず、入力画像中の物体の良質な形状記述が難しくなる。特に、検出対象物体が、他の物体に部分的に隠されている場合などは認識が非常に困難になる。
【0004】
以上のような、入力画像全体あるいは領域の全体的な特徴を用いたマッチング手法に対し、画像から特徴的な点やエッジを抽出し、それらが構成する線分集合やエッジ集合の空間的位置関係を線図形やグラフとして表現し、線図形間やグラフ間の構造類似性に基づいてマッチングを行う方法も提案されている。しかし、これらの手法は、ある特化した対象物に対してはうまく作用するが、画像の変形により、時として安定した特徴点間構造が抽出されず、特に前に述べたような部分的に隠されている物体の認識は困難となる。
【0005】
そこで、画像から特徴的な点(特徴点)を抽出し、特徴点とその局所近傍の画像情報から得られる特徴量を用いたマッチング手法が提案されている。このような特徴点の部分的画像変形に対して不変な局所特徴量を用いるマッチング手法では、前述の手法に比べ画像の変形に対しても、検出対象が部分的に隠されるような場合にも安定した検出が可能となる。拡大縮小変換に対して不変性を持つ特徴点の抽出法として、画像のスケールスペースを構築し、各スケール画像のDifference of Gaussian(DoG)フィルタ出力の局所極大点及び局所極小点のうち、スケール方向の変化によっても位置が変化しない点をスケール特徴点として抽出する方法(非特許文献1または非特許文献2)や、画像のスケールスペースを構築し、各スケール画像からHarrisコーナー検出器により抽出されたコーナー点のうち、スケールスペース画像のLaplacian of Gaussian(LoG)フィルタ出力の局所極大を与える点を特徴点として抽出する方法(非特許文献3)などが提案されている。
【0006】
さらに、このように抽出された特徴点において、視線変化に対して不変な特徴量を選ぶことが好ましい。例えば、 Schmid & Mohr は、 Harris コーナー検出器を用いて検出されたコーナーを特徴点とし、その特徴点付近の回転不変特徴量を用いたマッチング手法を提案している(非特許文献4)。
【非特許文献1】D. Lowe, “Object recognition from local scale-invariant features,” in Proc. International Conference on Computer Vision, Vol. 2, pp. 1150-1157, September 20-25, 1999, Corfu, Greece.
【非特許文献2】D. Lowe, “Distinctive image features from scale-invariant keypoints,” accepted for publication in the International Journal of Computer Vision, 2004. K. Mikolajczyk, C. Schmid, “Indexing based on scale invariant interest points,” International Conference on Computer Vision, 525-531, July 2001.
【非特許文献3】K. Mikolajczyk, C. Schmid, “Indexing based on scale invariant interest points,” International Conference on Computer Vision, 525-531, July 2001. Schmid, C., and R. Mohr, “Local grayvalue invariants for image retrieval,” IEEE PAMI, 19, 5, 1997, pp. 530-534.
【非特許文献4】Schmid, C., and R. Mohr, “Local grayvalue invariants for image retrieval,” IEEE PAMI, 19, 5, 1997, pp. 530-534.
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、コーナーの特徴量は、画像の拡大縮小変換に対しては不変性を持たないため、拡大縮小変換のある場合には、正確な認識が困難となる課題がある。
【0008】
本発明は、このような状況に鑑みてなされたものであり、画像が拡大縮小されている場合にも、視点変化や明度変化による影響を軽減し、物体を確実に認識することができるようにするものである。
【課題を解決するための手段】
【0009】
請求項1の画像処理装置は、入力された画像から予め登録されているモデル画像を認識する画像処理装置において、入力された画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を生成する多重解像度画像生成手段と、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出手段と、前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出手段と、入力された画像の前記特徴量を前記モデル画像の特徴量と比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する比較手段と、前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する姿勢推定手段とを備えることを特徴とする。
【0010】
前記特徴量抽出手段は、第1のタイプの特徴量として特徴点近傍の濃度勾配の方向ヒストグラムを抽出し、第2のタイプの特徴量として次元縮退濃度勾配ベクトルを抽出するようにすることができる。
【0011】
前記比較手段は、タイプ毎にkdツリーとされたモデル画像の特徴量群を、入力された画像の特徴量に基づいてk Nearest Neighbor (k-NN) 探索することで、候補対応特徴点組を生成するようにすることができる。
【0012】
前記比較手段は、各タイプにおいて共通に抽出された特徴量を有する特徴点を候補対応特徴点組とするようにすることができる。
【0013】
前記候補対応特徴点組を、モデル画像の位置姿勢を決める画像変換パラメータで規定されるパラメータ空間上に投票し、その最大投票数を閾値と比較することで絞り込む絞り込み手段をさらに備え、姿勢推定手段は、絞り込まれた候補対応特徴点組に基づいて、入力された画像の姿勢を推定するようにすることができる。
【0014】
前記姿勢推定手段は、ランダムに選択したN組の候補対応特徴点組により決定されるモデル画像の位置姿勢を決める画像変換パラメータをパラメータ空間に投射し、パラメータ空間上で形成されるクラスタのうち、最多メンバ数を有するクラスタを求め、そのメンバから最小自乗法により求まる前記モデル画像の位置姿勢を決める画像変換パラメータをモデル画像を認識する認識結果として出力するようにすることができる。
【0015】
前記姿勢推定手段は、最多メンバ数を有するクラスタのセントロイドを検出し、セントロイドからなるモデル画像の位置姿勢を決める画像変換パラメータをモデル画像を認識する認識結果として出力するようにすることができる。
【0016】
前記多重解像度画像生成手段は、学習時における場合より粗い精度で多重解像度画像を生成するようにすることができる。
【0017】
請求項9の画像処理方法は、入力された画像から予め登録されているモデル画像を認識する画像処理装置の画像処理方法において、入力された画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を生成する多重解像度画像生成ステップと、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、入力された画像の前記特徴量を前記モデル画像の特徴量と比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する比較ステップと、前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する姿勢推定ステップとを含むことを特徴とする。
【0018】
請求項10の記録媒体のプログラムは、入力された画像から予め登録されているモデル画像を認識する画像処理装置のプログラムであって、入力された画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を生成する多重解像度画像生成ステップと、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、入力された画像の前記特徴量を前記モデル画像の特徴量と比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する比較ステップと、前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する姿勢推定ステップとを含むことを特徴とする。
【0019】
請求項11のプログラムは、入力された画像から予め登録されているモデル画像を認識する画像処理装置のプログラムであって、入力された画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を生成する多重解像度画像生成ステップと、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、入力された画像の前記特徴量を前記モデル画像の特徴量と比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する比較ステップと、前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する姿勢推定ステップとをコンピュータに実行させることを特徴とする。
【0020】
請求項12の画像処理装置は、認識の対象とされる画像と比較するためのモデル画像を学習する画像処理装置において、前記モデル画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を、認識時における場合より細かい精度で生成する多重解像度画像生成手段と、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出手段と、前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出手段と、前記モデル画像の前記特徴量を登録する登録手段とを備えることを特徴とする。
【0021】
前記特徴量抽出手段は、第1のタイプの特徴量として特徴点近傍の濃度勾配の方向ヒストグラムを抽出し、第2のタイプの特徴量として次元縮退濃度勾配ベクトルを抽出するようにすることができる。
【0022】
前記登録手段は、モデル画像の特徴量群を、タイプ毎にkdツリーとして登録するようにすることができる。
【0023】
請求項15の画像処理方法は、認識の対象とされる画像と比較するためのモデル画像を学習する画像処理装置の画像処理方法において、前記モデル画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を、認識時における場合より細かい精度で生成する多重解像度画像生成ステップと、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、前記モデル画像の前記特徴量を登録する登録ステップとを含むことを特徴とする。
【0024】
請求項16の記録媒体のプログラムは、認識の対象とされる画像と比較するためのモデル画像を学習する画像処理装置のプログラムであって、前記モデル画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を、認識時における場合より細かい精度で生成する多重解像度画像生成ステップと、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、前記モデル画像の前記特徴量を登録する登録ステップとを含むことを特徴とする。
【0025】
請求項17のプログラムは、認識の対象とされる画像と比較するためのモデル画像を学習する画像処理装置のプログラムであって、前記モデル画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を、認識時における場合より細かい精度で生成する多重解像度画像生成ステップと、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、前記モデル画像の前記特徴量を登録する登録ステップとをコンピュータに実行させることを特徴とする。
【0026】
本発明においては、入力された画像から多重解像度画像が生成され、その多重解像度画像のそれぞれの解像度の画像について特徴点が抽出される。特徴点における少なくとも2つの局所的な特徴量が抽出され、その特徴量とモデル画像の特徴量が比較され、類似する特徴量を有する特徴点の組としての候補対応特徴点組が生成され、それに基づいて、入力された画像の姿勢が推定される。
【0027】
また、本発明においては、認識時における場合より細かい精度で多重解像度画像が生成される。多重解像度画像のそれぞれの解像度の画像について特徴点が抽出され、特徴点における少なくとも2つの局所的な特徴量が抽出され、登録される。
【発明の効果】
【0028】
本発明によれば、物体を認識することができる。特に、本発明によれば、画像が拡大縮小されている場合にも、視点変化や明度変化に伴う画像の変化に拘らず、また物体が部分的に隠されてしまっているような場合でも、物体を確実に認識することが可能となる。
【0029】
また、本発明によれば、物体を認識することが可能な特徴量を登録することができる。特に、本発明によれば、登録画像に対して認識対象物体の画像が拡大縮小されている場合にも、視点変化や明度変化に伴う画像の変化に拘らず、姿勢変化による画像変化に対してロバストに認識ができるような特徴点および特徴量を抽出し、登録することができる。
【発明を実施するための最良の形態】
【0030】
以下に本発明の最良の形態を説明するが、開示される発明と実施の形態との対応関係を例示すると、次のようになる。明細書中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。
【0031】
さらに、この記載は、明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現し、追加される発明の存在を否定するものではない。
【0032】
請求項1の画像処理装置は、入力された画像から予め登録されているモデル画像を認識する画像処理装置(例えば、図1の認識部12を有する画像処理装置1)において、入力された画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像(例えば、図4の多重解像度画像)を生成する多重解像度画像生成手段(例えば、図13のステップS132の処理を実行する図1の多重解像度生成部31)と、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出手段(例えば、図13のステップS136の処理を実行する図1の特徴点抽出部32)と、前記特徴点における少なくとも2つの局所的な特徴量(例えば、図8の特徴点近傍の濃度勾配の方向ヒストグラム(タイプ1の特徴量)、図11の最下段の線形補間リサンプリングされたタイプ2の特徴量)を抽出する特徴量抽出手段(例えば、図13のステップS138乃至S142、図14のステップS143乃至S145の処理を実行する図1の特徴量抽出部33)と、入力された画像の前記特徴量を前記モデル画像の特徴量と比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する比較手段(例えば、図14のステップS150,S151の処理を実行する図1の特徴量比較部35)と、前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する姿勢推定手段(例えば、図15のステップS158の処理を実行する図1のモデル姿勢推定部36)とを備えることを特徴とする。
【0033】
前記特徴量抽出手段は、第1のタイプの特徴量として前記特徴点近傍の濃度勾配の方向ヒストグラム(例えば、図8の特徴点近傍の濃度勾配の方向ヒストグラム)を抽出し、第2のタイプの特徴量として次元縮退濃度勾配ベクトル(例えば、図11の最下段の線形補間リサンプリングされたタイプ2の特徴量)を抽出する。
【0034】
前記比較手段は、前記タイプ毎にkdツリーとされた前記モデル画像の特徴量群を、入力された画像の前記特徴量に基づいてk Nearest Neighbor (k-NN) 探索することで、前記候補対応特徴点組を生成する(例えば、図17の処理)。
【0035】
前記比較手段は、各タイプにおいて共通に抽出された前記特徴量を有する前記特徴点を前記候補対応特徴点組とする(例えば、図17の四角形と円のペア、並びに四角形と十字図形のペア、ただし図中の四角形、五角形、三角形、円、または十字の図形は特徴点を表す)。
【0036】
前記画像処理装置は、前記候補対応特徴点組を、前記モデル画像の位置姿勢を決める画像変換パラメータで規定されるパラメータ空間(例えば、画像変換パラメータ(scl,θ,dX,dY)で規定されるパラメータ空間)上に投票し、その最大投票数を閾値と比較することで絞り込む絞り込み手段(例えば、図22のステップS301乃至S310の処理を実行する図21の対応特徴点ペア絞込み部61)をさらに備え、前記姿勢推定手段は、絞り込まれた前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する。
【0037】
前記姿勢推定手段は、ランダムに選択したN組の前記候補対応特徴点組により決定される前記モデル画像の位置姿勢を決める画像変換パラメータ(例えば、ユークリッド変換、相似変換、アフィン変換、射影変換)をパラメータ空間に投射し、前記パラメータ空間上で形成されるクラスタのうち、最多メンバ数を有するクラスタを求め、そのメンバ(すなわち対応特徴点組群)から最小自乗法により求まる前記モデル画像の位置姿勢を決める画像変換パラメータを前記モデル画像を認識する認識結果として出力する(例えば、図19のステップS201乃至S206の処理)。
【0038】
前記多重解像度画像生成手段は、学習時における場合より粗い精度で前記多重解像度画像を生成する(例えば、図13のステップS132の処理)。
【0039】
請求項9の画像処理方法、請求項10の記録媒体のプログラム、請求項11のプログラムは、入力された画像から予め登録されているモデル画像を認識する画像処理装置(例えば、図1の認識部12を有する画像処理装置1)の画像処理方法またはプログラムにおいて、入力された画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像(例えば、図4の多重解像度画像)を生成する多重解像度画像生成ステップ(例えば、図13のステップS132)と、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップ(例えば、図13のステップS136)と、前記特徴点における少なくとも2つの局所的な特徴量(例えば、図8の特徴点近傍の濃度勾配の方向ヒストグラム、図11の最下段の線形補間リサンプリングされたタイプ2の特徴量)を抽出する特徴量抽出ステップ(例えば、図13のステップS138乃至S142、図14のステップS143乃至S145)と、入力された画像の前記特徴量を前記モデル画像の特徴量と比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する比較ステップ(例えば、図14のステップS150,S151)と、前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する姿勢推定ステップ(例えば、図15のステップS158)とを含むことを特徴とする。
【0040】
請求項12の画像処理装置は、認識の対象とされる画像と比較するためのモデル画像を学習する画像処理装置(例えば、図1の学習部11を有する画像処理装置1)において、前記モデル画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像(例えば、図4の多重解像度画像)を、認識時における場合より細かい精度で生成する多重解像度画像生成手段(例えば、図2のステップS12の処理を実行する図1の多重解像度生成部21)と、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出手段(例えば、図2のステップS16の処理を実行する図1の特徴点抽出部22)と、前記特徴点における少なくとも2つの局所的な特徴量(例えば、図8の特徴点近傍の濃度勾配の方向ヒストグラム、図11の最下段の線形補間リサンプリングされたタイプ2の特徴量)を抽出する特徴量抽出手段(例えば、図2のステップS19、図3のステップS25の処理を実行する図1の特徴量抽出部23)と、前記モデル画像の前記特徴量を登録する登録手段(例えば、図3のステップS29の処理を実行する図1のモデル辞書登録部24)とを備えることを特徴とする。
【0041】
前記特徴量抽出手段は、第1のタイプの特徴量として前記特徴点近傍の濃度勾配の方向ヒストグラム(例えば、図8の特徴点近傍の濃度勾配の方向ヒストグラム)を抽出し、第2のタイプの特徴量として次元縮退濃度勾配ベクトル(例えば、図11の最下段の線形補間リサンプリングされたタイプ2の特徴量)を抽出する。
【0042】
前記登録手段は、前記モデル画像の特徴量を、前記タイプ毎にkdツリーとして登録する(例えば、図1のkdツリー構築部34の処理)。
【0043】
請求項15の画像処理方法、請求項16の記録媒体のプログラム、請求項17のプログラムは、認識の対象とされる画像と比較するためのモデル画像を学習する画像処理装置(例えば、図1の学習部11を有する画像処理装置1)の画像処理方法またはプログラムにおいて、前記モデル画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像(例えば、図4の多重解像度画像)を、認識時における場合より細かい精度で生成する多重解像度画像生成ステップ(例えば、図2のステップS12)と、前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップ(例えば、図2のステップS16)と、前記特徴点における少なくとも2つの局所的な特徴量(例えば、図8の特徴点近傍の濃度勾配の方向ヒストグラム、図11の最下段の線形補間リサンプリングされたタイプ2の特徴量)を抽出する特徴量抽出ステップ(例えば、図2のステップS19、図3のステップS25)と、前記モデル画像の前記特徴量を登録する登録ステップ(例えば、図3のステップS29)とを含むことを特徴とする。
【0044】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、複数のオブジェクトを含む入力画像であるオブジェクト画像と、検出対象となるモデルを含むモデル画像(予め登録されている)とを比較し、オブジェクト画像からモデルを抽出する画像処理装置に適用したものである。
【0045】
本実施の形態における画像処理装置の概略構成を図1に示す。この画像処理装置1はモデルの学習処理を行う学習部11と、入力画像中の物体を認識する認識部12の2つの部分から構成される。
【0046】
学習部11は、多重解像度生成部21、特徴点抽出部22、特徴量抽出部23、およびモデル辞書登録部24により構成されている。
【0047】
多重解像度生成部21は、入力されたモデル画像から多重解像度画像を生成する。特徴点抽出部22は、多重解像度生成部21により生成された多重解像度の各画像から特徴点を抽出する。特徴量抽出部23は、特徴点抽出部22により抽出された各特徴点の特徴量を抽出する。モデル辞書登録部24は、特徴量抽出部23により抽出されたモデル画像の特徴量群を登録する。
【0048】
認識部12は、多重解像度生成部31、特徴点抽出部32、特徴量抽出部33、kdツリー構築部34、特徴量比較部35、およびモデル姿勢推定部36により構成される。
【0049】
多重解像度生成部31は、入力されたオブジェクト画像から、各多重解像度の画像を生成する。特徴点抽出部32は、多重解像度生成部31により生成された多重解像度の画像から特徴点を抽出する。特徴量抽出部33は、特徴点抽出部32により抽出された各特徴点の特徴量を抽出する。これらの多重解像度生成部31、特徴点抽出部32、および特徴量抽出部33により行われる処理は、学習部11における多重解像度生成部21、特徴点抽出部22、および特徴量抽出部23において行われる処理と同様の処理である。
【0050】
kdツリー構築部34は、モデル辞書登録部24に登録されている特徴量からkdツリーを構築する。特徴量比較部35は、特徴量抽出部33により抽出された特徴量と、kdツリー構築部34により構築されたkdツリーとして表現された認識対象となる全モデル画像(またはモデル毎処理を行う場合には各モデル画像)の特徴量群を比較する。モデル姿勢推定部36は、特徴量比較部35による比較結果に基づいて、オブジェクト画像に含まれるモデルの有無とその姿勢(モデル姿勢)を推定し、そのモデルの姿勢を表すパラメータ(物体姿勢パラメータ)を出力する。
【0051】
なお、学習部11と認識部12は、常に両方が同時に存在する必要はない。学習部11により予め学習された結果、必要な情報が登録されたモデル辞書登録部24を認識部12に搭載するか、或いは無線で利用できるようにするようにしてもよい。
【0052】
次に、図2と図3のフローチャートを参照して、学習部11における学習処理について説明する。
【0053】
多重解像度生成部21は、後述するステップS28において、全モデルを処理したと判定するまで、ステップS11乃至S27の処理を繰り返す。そこで、ステップS11において、多重解像度生成部21は、1つの未処理モデルを選択する。ステップS12において、多重解像度生成部21は、多重解像度群を生成する。具体的には、多重解像度生成部21は、入力された学習対象のモデル画像を所定の倍率に従って縮小し、多重解像度画像群を生成する。例えば、最低解像度の画像である原画像からの縮小率をα、出力する多重解像度画像の数をN(原画像を含む)とするとき、k番目(原画像をk=0とする)の多重解像度の解像度画像I[k]は、原画像I[0]を縮小率α×(N−k)で、線形補間縮小することで生成される。
【0054】
あるいは他の方法としては、解像度の一段階低い画像を生成するための縮小率をγ(固定値)とする、つまりI[0]を縮小率γkで、線形補間縮小することでI[k]を生成する方法も考えられる。
【0055】
図4は、パラメータN=10,α=0.1とした場合に生成される多重解像度画像群を示す。図4の例においては、原画像I[0]を縮小率0.9で縮小した画像I[1]、縮小率0.8で縮小した画像I[2]、・・・、縮小率0.1で縮小した画像I[9]の合計10段階の多重解像度画像が生成されている。縮小率を規定する係数kの値が大きくなるほど画像がより小さい大きさに縮小される結果、各フレームの画枠自体も、係数kの値が大きい程小さくなる。
【0056】
次に、特徴点抽出部22は、後述するステップS27において、全解像度画像を処理したと判定するまで、ステップS13乃至S26の処理を繰り返し、多重解像度生成部21により生成された各解像度画像I[k](k=0,・・・,N−1)から、画像の拡大縮小変換(スケール変換)があってもロバストに抽出されるような特徴点(スケール不変特徴点)を抽出するのであるが、スケール不変特徴点の抽出法としては、画像のスケールスペースを構築し、各スケール画像のDifference of Gaussian(DoG)フィルタ出力の局所極大点(局所的な所定の範囲の最大点)及び局所極小点(局所的な所定の範囲の最小点)のうち、スケール方向の変化によっても位置が変化しない点をスケール特徴点として抽出する方法(D. Lowe, “Object recognition from local scale-invariant features,” in Proc. International Conference on Computer Vision, Vol. 2, pp. 1150-1157, September 20-25, 1999, Corfu, Greece.)や、画像のスケールスペースを構築し、各スケール画像からHarrisコーナー検出器により抽出されたコーナー点のうち、スケールスペース画像のLaplacian of Gaussian(LoG)フィルタ出力の局所極大を与える点を特徴点として抽出する方法(K. Mikolajczyk, C. Schmid, “Indexing based on scale invariant interest points,” International Conference on Computer Vision, 525-531, July 2001.)などがある。スケール不変特徴点が抽出できる手法であれば、どのような抽出法でも特徴点抽出部22に適用が可能である。
【0057】
ここでは発明の一実施の形態として、スケール不変特徴点の抽出法として、D.ロー(D. Lowe)が提案する方法(“Distinctive image features from scale-invariant keypoints,” accepted for publication in the International Journal of Computer Vision, 2004.)を基礎とした方法を説明する。この手法では、スケール不変特徴点抽出対象画像のスケールスペース表現(T. Lindeberg, “Scale-space: A framework for handling image structures at multiple scales.”, Journal of Applied Statistics, vol. 21, no. 2, pp. 224-270, 1994”)を介して、当該画像のDoGフィルタ出力から、スケール方向も考慮に入れた局所極大点及び局所極小点が特徴点として抽出される。
【0058】
そこで、ステップS13において、特徴点抽出部22は、各解像度画像のうちの未処理解像度画像を選択する。そして、ステップS14において、特徴点抽出部22は、スケールスペースの解像度画像を生成する。すなわち、スケール不変特徴点抽出対象画像I(多重解像度生成部21で生成された各解像度画像(k=0,1,2,・・・,9の各解像度画像)のうちの1つの解像度画像が特徴点抽出対象画像となる)のスケールスペースが生成される。スケールスペースのs番目(s=0,・・・,S−1)の解像度画像Lsは、対象画像Iを式(1)に示される2次元ガウス関数を用いて、σ=ks σ0で畳み込み積分(ガウスフィルタリング)することで生成される。
【0059】
【数1】

【0060】
ここでσ0は、対象画像Iのノイズ除去を目的としたぼかし度を決めるパラメータであり、kはスケールスペースの各解像度間で共通のぼかし度に関するコンスタントファクタであり、解像度画像I[k]のkとは別のファクタである。なお、画像の水平方向をX軸、垂直方向をY軸としている。
【0061】
図5は、このようにして生成されたスケールスペースの例を表している。この例においては、画像Iにそれぞれ以下の5個の2次元ガウス関数を用いて生成された解像度画像L0乃至L4を表している。
【0062】
【数2】

【0063】
なお、式(2)乃至式(6)の右辺の畳み込み積分の記号の右辺の項は、次式を表す。すなわち、実質的に式(1)と同一である。
【0064】
【数3】

【0065】
図5では、解像度レベル数S=5とされている。
【0066】
次に、ステップS15で、特徴点抽出部22は、DoGフィルタ出力画像を演算する。すなわち、このように得られた特徴点抽出対象のスケールスペースの各解像度画像LsのDoGフィルタ出力画像が求められる。このDoGフィルタは、画像の輪郭強調のために用いられる2次微分フィルタの一種であり、人間の視覚系で網膜から外側膝状体で中継されるまでに行われている処理の近似モデルとして、LoGフィルタと共によく用いられるものである。DoGフィルタの出力は、2つのガウスフィルタ出力画像の差分を取ることで効率よく得られる。すなわち、図5の中央の列に示されるように、s番目(s=0,・・・,S−2)の解像度のDoGフィルタ出力画像Dsは、解像度画像Lsを、その1段上の階層の解像度画像Ls+1から減算する(Ls+1−Lsを演算する)ことで得られる。
【0067】
次に、ステップS16で、特徴点抽出部22は、スケール不変特徴点を抽出する。具体的には、DoGフィルタ出力画像Ds(s=1,・・・,S−3)上のピクセルのうち、DoGフィルタ出力画像Dsの直接近傍領域(本実施の形態の場合、所定の位置の3×3個の画素の領域)、それより1段下位のDoGフィルタ出力画像Ds-1、並びにそれより1段上位のDoGフィルタ出力画像Ds+1上の同位置(対応する位置)の直接近傍領域の合わせて27ピクセルにおいて、局所極大(27ピクセルのうちの最大値)、局所極小(27ピクセルのうちの最小値)となるピクセルがスケール不変特徴点として抽出され、特徴点群Ks(s=1,・・・,S−3)として保持される。図5の右側の列に、この特徴点群Ksが示されている。こうして抽出された特徴点はファクタがk2の解像度変化(つまりスケール変化)に対して、位置の不変性を持つスケール不変特徴点である。
【0068】
特徴点抽出部22は、後述するステップS27で、全解像度画像を処理したと判定するまで、ステップS13乃至S16の処理を繰り返し、多重解像度生成部21により生成された多重解像度レベル画像I[k]のそれぞれに対し、スケール不変特徴点群を抽出する。
【0069】
次に、特徴量抽出部23は、ステップS17乃至S25の処理を、ステップS26で全特徴点を処理したと判定するまで繰り返し、各多重解像度レベル画像I[k]から抽出された各特徴点における特徴量を抽出する。以下においては、特徴点における特徴量を、文脈に応じて、特徴点特徴量または単に特徴量と呼ぶ。
【0070】
特徴点特徴量としては、画像の回転変換、明度変化に対して不変な特徴量が用いられる。1つの特徴点に対して、複数の特徴量をあててもかまわない。その場合には、後段の特徴量比較部35において、異なる特徴量での比較結果を統合する処理が必要となる。この実施の形態の場合、特徴量として、当該特徴点が抽出された画像の特徴点近傍領域の濃度勾配情報(各点における濃度勾配強度及び濃度勾配方向)から導出される2つの特徴量が用いられる。1つは、当該特徴点近傍領域における支配的な濃度勾配方向(以下、カノニカル方向と呼ぶ)で補正された方向ヒストグラムであり、他の1つは、カノニカル方向で補正された低次元縮退された濃度勾配ベクトルである。
【0071】
第1の特徴量(タイプ1の特徴量)は、特徴点近傍の濃度勾配方向に関するヒストグラム(方向ヒストグラム)を、その支配的方向でゼロ補正したものである。この第1の特徴量を抽出するために、特徴量抽出部23は、ステップS17において、1つの未処理特徴点を選択する。そして、ステップS18で、特徴量抽出部23は、濃度勾配強度Mx,yと方向Rx,yを求める。すなわち、図6に示されるように、特徴点近傍(本実施の形態では、当該特徴点Pを中心として直径7ピクセル(半径3.5ピクセル)の範囲に入るピクセル群)の濃度勾配強度Mx,y、及び方向Rx,yが、それぞれ式(8)と式(9)により求められる。同式中のx,yは、濃度勾配を求めるピクセルの画像上の座標であり、Ix,yは、その画素値である。
【0072】
【数4】

【0073】
次に、ステップS19で、特徴量抽出部23は方向ヒストグラムを生成する。具体的には、特徴点近傍中の各ピクセルの方向Rx,yに基づいて、階級幅Δθ、階級数360°/Δθの方向ヒストグラム(本実施の形態では、Δθ=10°)の該当する階級に、各ピクセルの度数が累積される。このとき、図7に示されるように階級の量子化誤差の影響を小さくするため、度数(図7における縦軸)としては、階級(図7における横軸)の中心値から方向Rx,yへの距離の近さに比例した値が累積される。つまり、方向Rx,yから最も近い2つの階級をg,g+1とし、それぞれの中心値と方向Rx,yとの距離をd1,d2とすると、階級g,g+1に加算する度数値は、それぞれd2/(d1+d2),d1/(d1+d2)となる。これにより、量子化誤差が少なくなる。
【0074】
次に、ステップS20で、特徴量抽出部23は度数を正規化する。すなわち、得られた方向ヒストグラムの度数が、特徴点近傍ピクセル数(直径7ピクセルの範囲に入るピクセル数)で割算することにより正規化される。このように、勾配方向のみを累積することで、明度変化に対して強い特徴量を得ることができる。
【0075】
さらに、特徴量抽出部23は、ステップS21でカノニカル方向を抽出し、ステップS22で角度をカノニカル方向で正規化する。具体的には、回転変換に不変な特徴量とするために、得られた方向ヒストグラムの強いピークを与える角度としてのカノニカル方向が抽出され、そのカノニカル方向としての角度が0度になるようにヒストグラムをシフトすることで、角度の正規化が行われる。コーナー付近に抽出された特徴点に関するヒストグラムでは、そのエッジに垂直な方向に複数の強いピークが現れるため、このような場合は、強いピークごとにその角度が0度になるように補正した(正規化した)方向ヒストグラムが生成される。つまり、カノニカル方向の数だけ、別々に特徴量が生成される。ピークがカノニカル方向であるための基準は、例えば、最大累積値の80%以上の累積値を与えるピーク方向とされる。
【0076】
例えば、図8に示される方向ヒストグラムにおいては、角度80度の度数V80と角度200度の度数V200の2つのピークが存在する。すなわち、角度80度と角度200度が、カノニカル方向となる。この場合、図9に示されるように、カノニカル方向としての角度80度が0度となるように正規化されたヒストグラムと、図10に示されるように、カノニカル方向としての角度200度が0度になるように正規化されたヒストグラムが生成される。
【0077】
以上の処理で得られるタイプ1の特徴量は、方向ヒストグラムの階級数と同じ次元の特徴ベクトル(本実施の形態では、36(=360°/10°)次元ベクトル、すなわち、36個の階級の度数を表わす数字からなるベクトル)となる。
【0078】
次に、第2の特徴量(タイプ2の特徴量)として、低次元縮退濃度勾配ベクトルが求められる。タイプ1の特徴量が、特徴点近傍内ピクセルの空間的配置を無視し、特徴点近傍局所領域での濃度勾配ベクトルの方向の傾向(頻度)のみに注目しているのに対し、タイプ2の特徴量は、特徴点近傍の各濃度勾配ベクトルの空間的配置に注目する。この2種類の特徴量を後述する手法で特徴量比較に用いることで、視点変化、明度変化に強い認識を実現する。
【0079】
タイプ2の特徴量の抽出のために、まず、ステップS23で、特徴量抽出部23は、特徴点近傍画像を回転補正する。すなわち、上述の処理で得られた特徴点近傍のカノニカル方向が0度になるように特徴点近傍画像が回転補正される。さらに、ステップS24で、特徴量抽出部23は、濃度勾配ベクトル群を演算する。例えば、図11の上段に示されている特徴点近傍のピクセルの濃度勾配が、図8に示されるように分布している場合、上述したように、カノニカル方向は、80度と200度の方向となる。そこで、図11の中段の左側の図に示されるように、上段の画像をカノニカル方向80度が0度になるように、特徴点近傍画像が、この例の場合時計方向に回転される。そして、その濃度勾配ベクトル群が演算される。このことは、結局、図8の角度80度のカノニカル方向を0度として正規化して得られた図9の方向ヒストグラムの濃度勾配ベクトル群を得ることに等しい。
【0080】
また、同様に、図11の中段の右側に示されるように、特徴点近傍画像が、200度のカノニカル方向が0度になるように回転補正される。そして、その画像の濃度勾配ベクトル群が演算される。このことは、図8の角度200度のカノニカル方向を0度として正規化することで得られた図10の方向ヒストグラムの濃度勾配ベクトル群を得ることに等しい。
【0081】
次に、ステップS25において、特徴量抽出部23は、濃度勾配ベクトル群を次元縮退する。すなわち、数ピクセル程度の特徴点抽出位置のずれを吸収できるようにするために、この濃度勾配ベクトル群が、図11の下段の左右に示されているように、例えば、直径7ピクセルの円の内側にほぼ内接する四角形内の5×5ピクセルのベクトル群から、3×3個のベクトル群に線形補間リサンプルすることで次元縮退される。
【0082】
線形補間リサンプルは、具体的には、図12に示されるように、リサンプル画像のピクセル値を、その近傍4個の元画像ピクセルからの距離の比率で以下の式により演算することで行われる。
【0083】
f(X,Y)=(1−q)・{(1−p)・f(x,y)+p・f(x+1,y)}
+q・{(1−p)・f(x,y+1)+p・f(x+1,y+1)}
・・・(10)
【0084】
上記式において、(X,Y)はリサンプル画像のピクセル、(x,y),(x+1,y),(x,y+1),(x+1,y+1)は、リサンプル画像(X,Y)近傍の元画像ピクセル、f(a,b)は座標(a,b)のピクセル値、p,qは、図12に示されるように、近傍ピクセルからリサンプル画像(X,Y)へのx座標方向とy座標方向の距離比である。
【0085】
こうして、次元縮退されたベクトルのx,y各成分を特徴ベクトルの各次元にあてることで、タイプ2の特徴量が得られる。線形補間リサンプルにより、3×3ベクトル群にリサンプルした場合には、18(=3×3×2)次元の特徴量となる。
【0086】
なお、リサンプル後の目標の画像サイズが元画像サイズの半分以下の場合には、元画像を0.5倍づつ縮小していき、目標サイズより大きい最小の0.5倍乗数サイズの画像が得られたら、その画像から式(10)のリサンプリングを行うことでリサンプリング時の誤差を小さくすることが可能である。例えば元画像の0.2倍サイズの画像を線形補間リサンプリングで作る場合には、0.5倍リサンプルを2回かけて得られる元画像の0.25倍サイズ画像に式(10)の線形補間リサンプリングを行う。
【0087】
ステップS26において、特徴量抽出部23は、全特徴点を処理したかを判定し、まだ処理していない特徴点が存在する場合には、処理をステップS17に戻し、それ以降の処理を繰り返し実行する。ステップS26において、全特徴点を処理したと判定された場合(ステップS17乃至ステップS25の処理が、全ての特徴点について行われた場合)、ステップS27において、特徴点抽出部22は、全解像度画像を処理したかを判定する。まだ処理していない解像度画像が存在する場合には、処理はステップS13に戻り、それ以降の処理が繰り返し実行される。ステップS13乃至ステップS25の処理が、全ての解像度画像について行われたと判定された場合、ステップS28において、多重解像度生成部21は、全モデルを処理したかを判定する。まだ処理していないモデルが存在する場合には、処理はステップS11に戻り、それ以降の処理が繰り返し実行される。ステップS11乃至ステップS25の処理が、全てのモデルについて実行されたと判定された場合、処理はステップS29に進む。
【0088】
モデル辞書登録部24は、ステップS29において、以上のように抽出された特徴点特徴量をラベル付けし、登録する。この場合、どのモデルの多重解像度画像群の、どの画像の、どのスケールから抽出された、どの特徴点の特徴量なのか、が参照できるようにラベル付けされ、モデル辞書に登録される。
【0089】
以上のようにして、モデル辞書登録部24には、認識させたい対象物体としてのモデル画像が特徴量として予め登録される。
【0090】
学習部11と認識部12の両方を画像処理装置1が有する場合には、認識部12は、このモデル辞書登録部24をそのまま利用することが可能である。学習部11と認識部12が別の画像処理装置として構成される場合には、以上のようにして必要な情報が登録されたモデル辞書登録部24が、認識部12を有する画像処理装置に搭載されるか、或いは無線通信により利用可能とされる。
【0091】
次に、認識部12における入力画像の物体認識時の処理について、図13乃至図15のフローチャートを参照して説明する。
【0092】
多重解像度生成部31、特徴点抽出部32、および特徴量抽出部33は、ステップS131乃至S147において、入力されたオブジェクト画像に対して、ステップS11乃至S27における学習部11の多重解像度生成部21、特徴点抽出部22、および特徴量抽出部23と同様の処理を行う。その説明は繰り返しになるので省略する。但し、パラメータNとαで決まる多重解像度画像の構成が、認識時では学習時と異なっている。
【0093】
多重解像度生成部21は、学習時の多重解像度画像を広い倍率レンジで細かい精度で生成するのに対し、多重解像度生成部31は、認識時において、粗い精度で多重解像度画像を生成する。具体的に、本実施の形態で適用しているパラメータは、ステップS12の学習時がN=10,α=0.1であるのに対し、ステップS132の認識時はN=2,α=0.5である。その理由は、次の通りである。
【0094】
1)認識精度を上げるには、より多くの特徴点特徴量情報を用いて特徴量比較を行うのが望ましい。つまり、より多くの多重解像度画像から特徴点抽出するのが望ましい。
2)スケール変化のロバスト性を得るために、多重解像度画像の構成はなるべくスケールレンジを広くするのが望ましい。
3)モデル学習時にはリアルタイム性をそれほど重視しなくても良いので、モデル画像の多重解像度画像数を多くし、スケールレンジを広くして特徴点特徴量抽出し、保持することが可能である。
4)本実施の形態では、オブジェクト画像から抽出された各特徴点特徴量を、全モデルの全特徴点特徴量から構築されるkdツリーの k-Nearest Neighbor(k-NN)探索(後述する)を用いて特徴量の比較を行っているため、特徴量比較にかかる計算コストは、オブジェクト画像から抽出された特徴点数に対して比例して増加するが、モデル特徴点数に対しては、全認識対象モデルからkdツリーを構築した場合には全モデル特徴点をnとすると、計算コストをlognのオーダー(つまりO(logn))に抑えることができる。
5)また一方で、認識時はリアルタイム性が重視されるため、多重解像度画像数をなるべく減らすことで計算コストを小さくする必要が有る。
6)かといって、入力されたオブジェクト画像から多重解像度画像を生成せず、原画像のみを用いてしまうと、モデル画像の原画像のサイズよりもオブジェクト画像中の認識対象物体のサイズが大きい場合には、その物体の認識が不可能となってしまう。
【0095】
以上の理由から、図16に示されるように、学習時のモデル画像からは、より多くの(k=0乃至9の)多重解像度画像群をより広いレンジで生成し(N=10,α=0.1)、より多くの特徴点を抽出する一方、認識時には、オブジェクト画像から、認識に最小限必要な(k=0,1の)多重解像度画像群を生成し(N=2,α=0.5)、それから特徴点を抽出し、特徴量比較をkdツリー上でk-NN探索を適用することで行い、計算コストを少なくかつ精度の良い認識を実現することを可能とする。図16には、原画像は大き過ぎて対応する大きさのスケールの階層のモデル画像は存在しないが、原画像(k=0)を0.5倍に縮小する(k=1)ことで、対応する大きさのスケールの階層のモデル画像が見い出されるようになることが示されている。
【0096】
ステップS131乃至ステップS145の処理が、全特徴点並びに全解像度画像について行われた場合、処理はステップS148に進む。
【0097】
後述するように、オブジェクト画像から抽出された各特徴点特徴量(次元縮退された濃度勾配ベクトル群)は、登録されている認識対象モデルの各特徴点特徴量と比較され、類似するモデル特徴点特徴量と候補対応特徴点組として組み合わされる。最も単純な特徴量比較方法は全探索である。つまり、オブジェクト画像の各特徴点特徴量に対して、全認識対象モデルの全特徴点特徴量との特徴量間類似度の計算を行い、その類似度により対応特徴点組を選択するのが最も単純な方法である。しかし、全探索による方法は、計算コスト的に実用的でない。そこで本発明の実施の形態では、大量のデータ群からデータを高速に探索するために、kdツリーというデータ構造を用いたツリー探索手法(J. H. Friedman, J. L. Bentley, R. A. Finkel, “An algorithm for finding best matches in logarithmic expected time,” ACM Transactions on Mathematical Software, Vol. 3, No. 3, pp. 209-226, September 1977.)が用いられる。Kdツリーは、k次元の木構造の意味である。
【0098】
kdツリー構築部34は、これまでの学習過程でモデル辞書中に登録されたモデルのうち一部のモデルに関して認識させれば良い場合には、ステップS148において、認識対象となるモデルについてのみ、その全特徴点特徴量からkdツリーを構築する。本実施の形態の場合は、タイプ1の特徴量の36dツリー(k=36)とタイプ2の特徴量の18dツリー(k=18)が、それぞれ構築される。ツリーの各リーフ(終端ノード)には、1つの特徴点特徴量が、その特徴量がどのモデルの多重解像度画像群の、どの画像の、どのスケールから抽出された、どの特徴点の特徴量なのか、が参照できるようなラベルとともに保持される。
【0099】
一方、モデル辞書に登録された全モデルを認識させる場合には、モデルの追加学習の度にツリーを構築し直し、ツリー自体がモデル辞書に登録される。この場合には、ステップS148におけるkdツリーの構築処理は省略される。
【0100】
特徴量比較部35は、ステップS149で、オブジェクト画像の未処理特徴点を選択する。そして、ステップS150において、特徴量比較部35は、オブジェクト画像のタイプ1の特徴点特徴量と、類似するk個のモデルの特徴点特徴量をペア組みする。同様に、ステップS151で、特徴量比較部35は、オブジェクト画像のタイプ2の特徴点特徴量と、類似するk個のモデルの特徴点特徴量をペア組みする。すなわち、特徴点抽出部32と特徴量抽出部33により抽出されたオブジェクト画像の各特徴点特徴量は、特徴量比較部35により、k-NN探索により特徴量が類似するk個(図17の例の場合、4個)のモデル特徴点特徴量とペア組みされる(k-NN探索のkの値と、kdツリーのkの値は、同じkの文字を使用してはいるが、任意の別の値とし得る(もちろん、同じ値としてもよい))。本実施の形態では、タイプ1の特徴量のk-NN探索に用いる非類似度として、式(11)のユークリッド距離(その値が大きい程、類似していないことを表す)が、タイプ2の特徴量の類似度として、式(12)に示すコサイン相関値(その値が大きい程、類似していることを表す)が、それぞれ用られる。
【0101】
【数5】

【0102】
但し、式(11)において、uV,vVは非類似度を計算する対象の特徴量ベクトル、un,vnはそれぞれuV,vVのn次元における値、NはuV,vVベクトルの次元数を、それぞれ表わす。
【0103】
式(12)において、uV,vVは類似度を計算する対象の特徴量ベクトルであり、uV・vVはベクトルの内積を表す。特徴量が類似するk個のペア(組)を抽出する際に、非類似度(タイプ1特徴量に対して)、類似度(タイプ2特徴量に対して)に対する閾値判定を入れてもよい。タイプ2の特徴量に対する類似度計算尺度にコサイン相関値を用いる理由は、明度変化による局所濃度勾配ベクトルの強度の変化に特徴量が影響されないようにするためである。また、コサイン相関値による類似度のかわりに、uV,vVをベクトル長を1で正規化し、それらのユークリッド距離を非類似度としてタイプ2の特徴量としてもよい。この場合も明度変化による局所濃度勾配ベクトルの強度の変化に特徴量が影響されないようになる。
【0104】
特徴量比較部35は、ステップS149乃至ステップS151の処理を、各オブジェクト画像の特徴点に対して実行する。そして、ステップS152において、特徴量比較部35は、全特徴点を処理したかを判定し、まだ処理していない特徴点が存在する場合には、処理をステップS149に戻し、それ以降の処理を繰り返し実行する。ステップS152において、全特徴点を処理したと判定された場合には、処理はステップS153に進む。
【0105】
タイプ1とタイプ2の2つのタイプの特徴量を用いるので、特徴量比較部35は、入力されたオブジェクト画像の特徴点に対する特徴点ペアを特徴量タイプごとに上述の方法で求めた後、ステップS153で、タイプ1とタイプ2の両方で共通して抽出された特徴点ペアのみを候補対応特徴点組として選択し、モデル毎に分類する。そして、この候補対応特徴点組は、後段のモデル姿勢推定部36に供給される。モデル姿勢推定部36では、モデルごとの処理を行うため、抽出された候補対応特徴点組をモデルごとに分類して渡すことで、処理の効率化を図ることができる。
【0106】
図17は、以上の処理を模式的に表している。kdツリー構築部34により、タイプ1の特徴量の36dツリー構造と、タイプ2の特徴量の18dツリー構造が生成される。オブジェクト画像の特徴量群から、k-NN探索(いまの場合、k=4)によりタイプ1の特徴量の36dツリー構造からタイプ1の特徴量の4個の類似ペア群が探索される。この例においては、オブジェクト画像の四角形で表されている特徴点特徴量(図中の四角形、五角形、三角形、円、または十字の図形は特徴点特徴量を表す)が、タイプ1の特徴量の36dツリー構造の五角形、三角形、円、または十字と類似するとして探索される。また、タイプ2の特徴量の18dツリー構造からk-NN探索によりタイプ2の特徴量の4個の類似ペア群が探索される。この例では、オブジェクト画像の四角形が、タイプ2の特徴量の18dツリー構造の平行四辺形、十字、円、またはひし形と類似するとして探索されている。
【0107】
タイプ1の特徴量の4個の類似ペア群と、タイプ2の特徴量の4個の類似ペア群の中から、共通する類似ペア群が選択される。この例の場合、タイプ1の特徴量の類似ペア群は、四角形と五角形、四角形と三角形、四角形と円、四角形と十字の4個である。これに対して、タイプ2の特徴量の類似ペア群は、四角形と平行四辺形、四角形と十字、四角形と円、四角形とひし形の4個である。したがって、四角形と円、並びに四角形と十字の類似ペア群が、2つのタイプに共通する特徴点ペアであるので、それが候補対応特徴点ペア(組)として、選択される。
【0108】
なお、以上に説明したように、特徴量タイプ毎、認識対象の全モデルの全特徴点特徴量から1つのkdツリーを構築し、入力画像の各特徴点特徴量のk-NNを探索するのではなく、特徴量タイプ毎、モデル毎にkdツリーを構築し、モデル毎に入力画像各特徴点特徴量のk-NNを探索するようにしてもよい。いずれの場合でも、出力はモデル毎に分類された候補対応特徴点組群であり、後述する後段の処理は共通となる。
【0109】
以上の処理により、特徴点近傍の局所的な濃度勾配情報が類似するペア群(モデル特徴点とオブジェクト特徴点のペア群)を抽出することができるが、巨視的に見ると、このように得られたペア群は、対応特徴点間の空間的位置関係がモデルのオブジェクト画像(入力画像)上での姿勢(モデル姿勢)と矛盾しない「真の特徴点ペア(インライヤ)」だけでなく、矛盾するような「偽の特徴点ペア(アウトライヤ)」を含んでいる。
【0110】
図18は、インライヤとアウトライヤを模式的に表している。同図に示されるように、図中左側に示される三角形のモデル画像と、図中右側に示されるオブジェクト画像の三角形の検出対象物体(オブジェクト)が対応するとすると、モデル画像の三角形の頂点近傍の特徴点P1乃至P4は、検出対象物体の特徴点P11乃至P14とそれぞれ対応する。すなわち、特徴点P1が特徴点P11と、特徴点P2が特徴点P12と、特徴点P3が特徴点P13と、特徴点P4が特徴点P14とそれぞれ対応する。したがって、これらの候補対応特徴点組はインライヤを構成する。なお、図18において、インライヤは実線で示されている。
【0111】
これに対して、モデル画像の特徴点P5は三角形の内部のほぼ中央に位置し、特徴点P6は三角形の周辺の近傍の外部に位置する。これに対して、特徴点P5とペア組されたオブジェクト画像の特徴点P15と、特徴点P6とペア組されたオブジェクト画像の特徴点P16は、それぞれ、検出対象物体とは遠く離れた点である。すなわち、特徴点P5と特徴点P15の候補対応特徴点組、並びに特徴点P6と特徴点P16の候補対応特徴点組はアウトライヤである。なお、図18において、アウトライヤは破線で示されている。
【0112】
候補対応特徴点組群からモデル画像の入力画像中の位置姿勢を決める画像変換パラメータを導出する方法として、最小自乗推定により推定画像変換パラメータを求める手法が考えられる。結果の推定モデル姿勢と空間的位置関係の矛盾する対応ペアを排除し、残ったペアで再び最小自乗推定による推定画像変換パラメータ導出を行うという処理を繰り返すことで、より精度の良いモデル姿勢を求めることができる。
【0113】
しかしながら、候補対応特徴点組群中のアウトライヤの数が多い場合や、真の画像変換パラメータから極端に逸脱したアウトライヤが存在する場合には、上記最小自乗推定による推定結果は一般的に満足のいくものではないことが知られている(Hartley R., Zisserman A.,“Multiple View Geometry in Computer Vision.”, Chapter 3, pp.69-116, Cambridge University Press, 2000)。そこで、本実施の形態におけるモデル姿勢推定部36は、ある画像変換の拘束の下、候補対応特徴点組群の空間的位置関係から「真の特徴点ペア(インライヤ)」を抽出し、抽出されたインライヤを用いてモデルの位置姿勢を決める画像変換パラメータを推定する。
【0114】
このモデル姿勢推定部36によるモデル姿勢推定処理は、認識対象モデルごとに行われ、モデルごとにその有無、有る場合には姿勢の推定が行われる。以下の説明で出てくる候補対応特徴点組は、特徴量比較部35の出力である候補対応特徴点組のうち、当該モデルに関するペアのみをまとめたペア群を意味する。
【0115】
画像変換としてはユークリッド変換、相似変換、アフィン変換、射影変換などが挙げられるが、本実施の形態においては、アフィン変換の拘束の下、姿勢推定を行う場合について詳細説明を行う。アフィン変換は、平行移動及び回転変換(ユークリッド変換)に拡大縮小変換を加えた相似変換に、せん断変形を許すような変換で、元の図形で直線上に並ぶ点は変換後も直線上に並び、平行線は変換後も平行線であるなど、幾何学的性質が保たれる変換である。アフィン変換パラメータを決定するためには候補対応特徴点組が3組以上必要となる。
【0116】
上述したように、候補対応特徴点組が3組以上なければ、アフィン変換パラメータを決定できない。そこで、モデル姿勢推定部36は、ステップS154で1つの未処理モデルを選択した後、ステップS155で候補対応特徴点ペア(組)が3組以上あるかを判定する。候補対応特徴点組が2組以下の場合、モデル姿勢推定部36は、ステップS156で、オブジェクト画像(入力画像)中にモデルが存在しない、又はモデル姿勢検出に失敗したとして、「認識不可」を出力する。一方、候補対応特徴点組が3組以上ある場合、モデル姿勢推定部36は、モデル姿勢を検出可能であるので、アフィン変換パラメータの推定を行う。このため、モデル姿勢推定部36は、ステップS157で座標変換を行う。すなわち、候補対応特徴点組のモデル特徴点位置座標が、モデル原画像上の位置座標に変換されるとともに、オブジェクト画像特徴点位置座標が、オブジェクト原画像の位置座標に変換される。そして、ステップS158で、モデル姿勢推定部36は、姿勢推定処理を行う。
【0117】
ここで、アフィン変換パラメータについて説明する。モデル特徴点[x y]Tのオブジェクト特徴点[u v]Tへのアフィン変換は、以下の式(13)で与えられる。
【0118】
【数6】

【0119】
この式(13)において、ai(i=1,…,4)は回転、拡大縮小、せん断変形を決定するパラメータを表し、[b12Tは、平行移動パラメータを表す。決定すべきアフィン変換パラメータはa1,…,a4及びb1,b2の6つであるため、候補対応特徴点組が3組あれば、アフィン変換パラメータを決定することができる。
【0120】
3組の候補対応特徴点組で構成されるペア群Pを、([x11]T,[u11]T),([x22]T,[u22]T),([x33]T,[u33]T)とすると、ペア群Pとアフィン変換パラメータとの関係は、以下の式(14)に示す線形システムで表現することができる。
【0121】
【数7】

【0122】
この式(14)を、AxV=bVのように書き直すと(下付のVは、添えられている文字(例えばxVのx)がベクトルであることを表わす。以下、同様である)、アフィン変換パラメータxVの最小自乗解は、以下の式(15)で与えられる。
【0123】
V=A-1V ・・・(15)
【0124】
候補対応特徴点組群から、アウトライヤが1つ以上混入するように、ランダムにペア群Pを繰り返し選択した場合、そのアフィン変換パラメータは、パラメータ空間上に散らばって投射される。一方、インライヤのみから構成されるペア群Pをランダムに繰り返し選択した場合、そのアフィン変換パラメータは、何れもモデル姿勢の真のアフィン変換パラメータに極めて類似した、すなわちパラメータ空間上で距離の近いものとなる。したがって、候補対応特徴点組群から、ランダムにペア群Pを選択し、そのアフィン変換パラメータをパラメータ空間上に投射していく処理を繰り返すと、インライヤはパラメータ空間上で密度の高い(メンバ数の多い)クラスタを形成し、アウトライヤは散らばって出現することになる。すなわち、パラメータ空間上でクラスタリングを行えば、最多メンバ数を持つクラスタの要素がインライヤとなる。
【0125】
モデル姿勢推定部36における姿勢推定処理の詳細を図19のフローチャートを用いて説明する。なお、このモデル姿勢推定部36におけるクラスタリング手法としては、NN(Nearest Neighbor)法が用いられる。この際、上述したパラメータb1,b2は、認識対象画像により様々な値を取り得るため、x空間でもクラスタリングにおいてクラスタリング閾値の選択が認識対象に依存してしまう。そこで、モデル姿勢推定部36では、「真のパラメータとa1,…,a4は類似するが、b1,b2が異なるようなアフィン変換パラメータを与えるペア群Pは、殆ど存在しない」という仮定の下、パラメータa1,…,a4(以下、aVと表記する)で規定されるパラメータ空間上のみでクラスタリングを行う。なお、上記仮定が成り立たない状況が生じたとしても、aV空間とは独立に、パラメータb1,b2で規定されるパラメータ空間でクラスタリングを行い、その結果を考慮することで、容易に問題を回避することができる。
【0126】
先ず、ステップS201において、モデル姿勢推定部36は初期化を行う。具体的には、繰り返し数を表す変数としてのカウント値cntがcnt=1とされ、候補対応特徴点組群からランダムに3組のペアをペア群P1として選択し、アフィン変換パラメータaV1が求められる。また、モデル姿勢推定部36は、クラスタ数を表す変数NをN=1とし、アフィン変換パラメータ空間aV上でaV1を中心とするクラスタZ1を作る。モデル姿勢推定部36は、このクラスタZ1のセントロイドcV1をcV1=aV1とし、クラスタのメンバ数を表す変数nz1をnz1=1とし、カウンタ値cntをcnt=2に更新する。
【0127】
次に、ステップS202において、モデル姿勢推定部36は、候補対応特徴点組群からランダムに3組のペアをペア群Pcntとして選択し、アフィン変換パラメータaVcntを計算する。そして、モデル姿勢推定部36は、計算されたアフィン変換パラメータaVcntをパラメータ空間に投射する。
【0128】
次に、ステップS203において、モデル姿勢推定部36は、NN法によりアフィン変換パラメータ空間をクラスタリングする。具体的には、モデル姿勢推定部36は、先ず以下の式(16)に従って、アフィン変換パラメータaVcntと各クラスタZiのセントロイドcVi(i=1,…,N)との距離d(aVcnt, cVi)のうち、最小の距離dminを求める。
【0129】
min = min 1≦i≦N { d(aVcnt, cVi) } ・・・(16)
【0130】
そして、モデル姿勢推定部36は、所定の閾値τ(例えばτ=0.1)に対してdmin<τであればdminを与えるクラスタZiにaVcntを属させ、aVcntを含めた全メンバでクラスタZiのセントロイドciを更新する。また、クラスタZiのメンバ数nziはnzi=nzi+1とされる。一方、dmin≧τであれば、モデル姿勢推定部36は、アフィン変換パラメータ空間aV上でaVcntをセントロイドcVN+1とする新しいクラスタZN+1を作り、そのクラスタのメンバ数nzN+1をnzN+1=1とし、クラスタ数NをN=N+1とする。
【0131】
続いて、ステップS204で、モデル姿勢推定部36は、繰り返し終了条件を満たすか否かを判別する。繰り返し終了条件は、例えば最多メンバ数が所定の閾値(例えば15)を超え、且つ最多メンバ数と2番目に多いメンバ数との差が所定の閾値(例えば3)を超える場合、或いは繰り返し数カウンタのカウント値cntが、所定の閾値(例えば5000回)を超える場合のように設定することができる。ステップS204において、繰り返し終了条件が満たされないと判定された場合(Noと判定された場合)には、モデル姿勢推定部36は、ステップS205で繰り返し数のカウント値cntをcnt=cnt+1とした後、処理をステップS202に戻し、それ以降の処理を繰り返す。
【0132】
一方、ステップS204で、繰り返し終了条件を満たすと判定された場合(Yesと判定された場合)には、ステップS206において、モデル姿勢推定部36は、以上の処理で得られたインライヤが3ペアに満たない場合には、アフィン変換パラメータが決定できないため、認識結果を「認識対象モデル非検出」と出力し、インライヤが3ペア以上抽出された場合には、インライヤに基づいて、最小自乗法によりモデル姿勢を決定するアフィン変換パラメータを推定し、認識結果として出力する。
【0133】
インライヤを([xIN1IN1]T,[uIN1IN1]T),([xIN2IN2]T,[uIN2IN2]T),…とすると、インライヤとアフィン変換パラメータとの関係は、以下の式(17)に示す線形システムで表現することができる。
【0134】
【数8】

【0135】
この式(17)を、AINVIN=bVINのように書き直すと、アフィン変換パラメータxVINの最小自乗解は以下の式(18)で与えられる。
【0136】
VIN = (AINTIN) 1INTVIN ・・・(18)
【0137】
ステップS206で、モデル姿勢推定部36は、このアフィン変換パラメータxVINで決定されるモデル姿勢をモデル認識結果として出力する。
【0138】
図15に戻り、ステップS158またはステップS156の処理の後、ステップS159において、モデル姿勢推定部36は、全モデルを処理したかを判定する。まだ処理していないモデルが存在する場合には、処理はステップS154に戻り、それ以降の処理が繰り返し実行される。ステップS159において、全てのモデルについて処理したと判定された場合、処理は終了される。
【0139】
以上の図15のステップS154乃至S159の処理は、認識対象モデルごとに行なわれる。この処理が、図20に模式的に示されている。この例においては、候補対応特徴点組群p1乃至p6から最初にランダムに3個の候補対応特徴点組群p1,p3,p4が選択され、それに基づき計算されたアフィンパラメータがパラメータ空間に投射される。次に、ランダムに3個の候補対応特徴点組群p3,p4,p6が選択され、それらに基づき、計算されたアフィンパラメータがパラメータ空間に投射される。同様の処理がさらに繰り返され、この例においては、3個の候補対応特徴点組群p5,p4,p1が選択され、それに基づきアフィンパラメータが計算され、パラメータ空間に投射される。そして、パラメータ空間上において、近接するアフィンパラメータが、クラスタリングされ、そのクラスタリングされたアフィン変換パラメータに最小自乗法を適用することで、モデル姿勢が決定される。
【0140】
上記の手法を用いることにより、アウトライヤが候補対応特徴点組群中に多数含まれてしまっている場合でも、アウトライヤを排除し、高精度に姿勢推定(変換パラメータ導出)が可能となる。
【0141】
以上の実施の形態では、アフィン変換拘束の下での姿勢推定の詳細を述べた。アフィン変換拘束の下では、平面領域が支配的な、例えば箱や本などの3次元物体であれば、その支配平面についての視点変化に対してロバストな姿勢推定が可能となる。しかし、曲面や凹凸が支配的な3次元物体のロバストな姿勢推定を行うには、アフィン変換拘束を投影変換拘束に拡張する必要がある。ただし、この場合においても、推定すべき変換パラメータの次元が増えるだけで、上記手法を簡単に拡張することが可能である。
【0142】
このようにして、決定されたモデル姿勢は、例えば、図16や図18において破線で示されている。これらの図に示されるように、本実施の形態においては、単にモデル画像に対応する検出対象物体の存在の有無が検出されるだけでなく、その検出対象物体が存在する場合には、その姿勢までも推定され、出力される。
【0143】
なお、モデル姿勢推定部36が推定するこのモデル姿勢は、オブジェクト画像の検出対象物体に対する相対的な姿勢を意味するから、モデル姿勢を基準の姿勢として考えた場合には、モデル姿勢推定部36は、モデル画像に対する検出対象物体の姿勢を推定することを意味する。
【0144】
なお、以上の説明では、閾値τが定数値であるものとしたが、ステップS203乃至ステップS206の繰り返し処理を行う際に、始めは比較的大きな閾値τを用いて大雑把なインライヤ抽出を行い、繰り返し回数が増える毎に次第に小さい閾値τを用いる、いわゆる「焼きなまし法」のような手法を適用してもよい。これにより、精度よくインライヤを抽出することができる。
【0145】
また、以上の説明では、候補対応特徴点組群からランダムにペア群Pを選択し、そのアフィン変換パラメータをパラメータ空間上に投射していく処理を繰り返し、パラメータ空間上で最多メンバ数を持つクラスタの要素をインライヤとして、最小自乗法によりモデル姿勢を決定するアフィン変換パラメータを推定したが、これに限定されるものではなく、例えば最多メンバ数を持つクラスタのセントロイドを、モデル姿勢を決定するアフィン変換パラメータとしても構わない。さらに、組は3個以上の特徴点で構成してもよい。
【0146】
以上、オブジェクト画像の物体認識時において、多重解像度生成部31、特徴点抽出部32、特徴量抽出部33、特徴量比較部35、およびモデル姿勢推定部36が、オブジェクト画像が更新される毎にそれを逐次処理するので、リアルタイムでの物体認識が可能になる。また、モデル毎に特徴量比較部35により抽出された特徴点ペアは、モデル毎分類されモデル姿勢推定部36においてモデル毎に姿勢推定が行われるので、入力画像中に複数のモデル物体が含まれているような画像でもモデル物体の認識が可能となる。
【0147】
ところで、特徴量比較部35で生成された候補対応特徴点ペア群中のアウトライヤの比率が大きくなるほどモデル姿勢推定部36におけるインライヤの選択確率が低下し、モデル姿勢を推定する際に多くの繰り返し回数が必要となるため、計算時間が増大する。したがって、このモデル姿勢推定部36に入力される候補対応特徴点ペア群から、できる限りアウトライヤを排除しておくことが望ましい。そこで、本実施の形態における画像処理装置1では、図21に示されるように、特徴量比較部35とモデル姿勢推定部36との間に、対応特徴点ペアの絞込みを行う対応特徴点ペア絞込み部61を挿入することができる。この対応特徴点ペア絞込み部61では、モデル姿勢推定部36のモデル姿勢推定処理で仮定した画像変換拘束よりもパラメータ次元の少ない画像変換拘束の下(例えばモデル姿勢推定部36でアフィン変換拘束を用いた場合には、対応特徴点ペア絞込み部61で相似変換拘束を用いる)、各モデルについて一般化ハフ変換を行うことで、粗い画像変換パラメータ推定及びそれをサポートする対応特徴点ペア群の抽出を行う。
【0148】
次に、図22のフローチャートを参照して、画像変換拘束に相似変換拘束を用いた場合の対応特徴点ペア絞込み部61による候補対応特徴点ペアの絞込み処理について説明する。相似変換は平行移動(2次元画像上なのでX軸方向の変位dXとY軸方向の変位dY)及び回転変換(θ)に拡大縮小変換(scl)を加えた変換である。
【0149】
ステップS301において、対応特徴点ペア絞込み部61は、上記相似変換パラメータdX,dY,θ,sclで規定される4次元パラメータ空間の各軸について、レンジを規定し、そのレンジ内で規定したステップ幅でビンを切ることで、一般化ハフ変換の投票空間を作る。例えば、dX軸、dY軸に関してレンジを±200、ステップ幅を20(単位はピクセル)、θ軸に関してレンジを0から360、ステップ幅を15(単位は度)、scl軸に関してレンジを0.4から1.6、ステップ幅を0.3(単位は拡大縮小率)とすると、20 × 24 × 5 = 2400個の投票ビンができる。
【0150】
ステップS302以降は、モデル毎の処理になる。対応特徴点ぺア絞込み部61は、ステップS302において投票空間を初期化し、未処理モデルを選択する。すなわち、例えば各投票ビンの値が0に設定され、1つのモデルが選択される。
【0151】
ステップS303乃至ステップS309は当該モデルの候補対応特徴点ペア(組)毎の処理となるので、ステップS303において対応特徴点ぺア絞込み部61は、未処理候補対応特徴点ペアを選択する。すなわち、1つの未処理候補対応特徴点ペアが処理対象として選択される。
【0152】
続いて、ステップS304において、対応特徴点ぺア絞込み部61は、回転変換角度θを求める。例えば、図23Aに示されるように、モデル画像の特徴点Pのカノニカル方向がDPであり、特徴点Pとペア(組)となるオブジェクト画像の特徴点Qのカノニカル方向が図23Bに示されるように、DQである場合、図24に示されるように、特徴点Pと特徴点Qを、対応する位置に配置させた場合に得られるカノニカル方向DQとDPの差が回転変換角度θとなる。
【0153】
ステップS305乃至ステップS309はscl軸で規定したビンの代表scl値(上記例の場合、scl軸で切られた5ビンの代表scl値はそれぞれ0.4, 0.7, 1.0, 1.3, 1.6となる)それぞれに関して行われる処理となる。そこで、対応特徴点ぺア絞込み部61は、まず、ステップS305において、未処理scl値を選択する。すなわち、1つの未処理scl値が選択される。
【0154】
次に、ステップS306において、対応特徴点ペア絞込み部61は、図25に示されるように、モデル画像を当該scl値で拡大あるいは縮小した場合の平行移動変換量dX,dYを求める。この平行移動変換量dX,dYはステップS304で求めた回転変換角度θ、オブジェクト画像上の当該特徴点Qの座標Xi,Yi、モデル画像上の当該特徴点Pの極座標における原点からの距離γと軸からの角度αにより、以下の式(19)と式(20)により導出できる。
【0155】
dX=Xi−scl・γ・cos(α+θ) ・・・(19)
dY=Yi−scl・γ・sin(α+θ) ・・・(20)
【0156】
相似変換を決定する4つのパラメータ(scl,θ,dX,dY)が求まったので、ステップS307において、対応特徴点ペア絞込み部61は、そのパラメータを投票空間上に投票する。具体的には、パラメータが投票空間の該当するビンに投票される。
【0157】
対応特徴点ペア絞込み部61は、ステップS308、S309の分岐処理に従い、以上のステップS303からの処理を当該モデルに関する全対応特徴点ペア、全scl値に関して行う。すなわち、ステップS308において、対応特徴点ペア絞込み部61は、全scl値について処理したかを判定し、まだ処理していないscl値が存在する場合には、処理をステップS305に戻し、それ以降の処理を繰り返す。そしてステップS308において、全scl値について処理したと判定された場合、ステップS309において、対応特徴点ペア絞込み部61は、全対応特徴点ペアを処理したかを判定し、まだ処理していない対応特徴点ペアが存在する場合には処理をステップS303に戻し、それ以降の処理を繰り返す。
【0158】
ステップS309で全対応特徴点ペアを処理したと判定された場合、ステップS310で、対応特徴点ペア絞込み部61は、最多得票ビン及びその得票数を求める。すなわち、ステップS307の処理による投票の結果、最も得票数の多かったビンとその得票数が求められる。ステップS311で、対応特徴点ペア絞込み部61は、ステップS310で求められた最大得票数が閾値以上かを判定する。この閾値は予め設定されている。最大得票数が閾値以上である場合には、ステップS312において、対応特徴点ペア絞込み部61は、モデル有りと判定し、最多得票ビンに投票された候補対応特徴点ペアを出力する。すなわち、最多投票ビンの示す相似変換パラメータが、そのモデルのオブジェクト画像上での相似変換拘束の下での推定モデル姿勢となり、最多投票ビンに投票された候補対応特徴点ペア群が、相似変換拘束の下での推定モデル姿勢をサポートするインライヤ(極少数のアウトライヤを含む可能性もある)となる。ステップS311において、最大得票数が閾値以上ではないと判断された場合、ステップS313において、対応特徴点ペア絞込み部61は、モデル無しと判定する。すなわち、オブジェクト画像中に存在しないモデルに対しては、得票にばらつきが生じるため、各モデルの一般化ハフ変換の結果に対して最大得票数が閾値以下となる。この場合には、モデルが検出されなかったと判定される。
【0159】
以上、ステップS302乃至ステップS313の処理はステップS314の分岐処理に従い全ての認識対象モデルに関して行われる。すなわち、ステップS312またはステップS313の処理の後、ステップS314において、対応特徴点ペア絞込み部61は、全モデルを処理したかを判定する。まだ処理していないモデルが存在する場合には、処理はステップS302に戻り、それ以降の処理が繰り返し実行される。ステップS314において、全モデルを処理したと判定された場合には、候補対応特徴点ペアの絞込み処理は終了される。
【0160】
ステップS312で、モデル有りの判定がされたモデルについては、そのモデルに対するインライヤがモデル姿勢推定部36に供給され、前述の手法によりさらに厳密なモデルの姿勢推定が行われる。
【0161】
以上詳述した対応特徴量ペア絞込み部61による処理では、モデル姿勢推定部36のモデル姿勢推定処理で仮定した画像変換拘束よりもパラメータ次元の少ない画像変換拘束の下で粗い画像変換パラメータ推定を行うことにより、高速に候補対応特徴点ペア絞込みを行うことができる。絞り込まれた特徴点ペアを用いてモデル姿勢推定部36で画像変換パラメータの推定を行うことで、モデル姿勢推定部36の前段に対応特徴点ペア絞込み部61を挿入しない場合と比べ、より高速な画像変換パラメータの高精度推定が可能となる。対応特徴量ペア絞込み部61による処理では、画像変換パラメータの次元を少なくしたことにより実際の変換と推定の変換との誤差が生じるが、投票空間の各ビンのサイズを、その誤差を許容できるくらい大きくとることによりその問題は解決される。
【0162】
以上説明したように、本実施の形態における画像処理装置1によれば、次のことが可能になる。
【0163】
1. 解像度画像群を構成するようにしたので、結果としてノイズが除去され、ノイズに対してもロバストな認識が可能となる。
2. 特徴点の局所領域濃度勾配のカノニカル方向を0度に正規化した特徴量を用いるようにしたので、回転変化にロバストな認識が可能となる。
3. 明度変化に影響されやすい局所領域濃度勾配の強度情報ではなく、方向情報を特徴量及びそのマッチングに用いたので、明度変化に対してロバストな認識が可能となる。
4. 全ての解像度間で特徴量間マッチングを行うようにしたので、拡大縮小変化に対してロバストな認識が可能となる。
5. 特徴点ペア抽出後、アフィン拘束及び一般化ハフ変換を用いるようにしたので、アフィン変換に対してロバストな認識が可能になる。
6. 局所特徴量間マッチングを用いるようにしたので、認識対象物体が部分的に隠されているような場合にも認識が可能となる。
7. モデル毎に特徴点ペアを抽出し、モデル毎に姿勢推定を行うようにしたので、入力画像中に複数のモデル物体が含まれているような画像でもモデル物体の認識が可能となる。
8. 学習時に、特徴点、特徴量をより広いスケールレンジでより細かいスケールサンプリングで抽出する一方で、認識時には粗いスケールレンジ、粗いスケールサンプリングで特徴点、特徴量を抽出し、特徴量比較をkdツリーによるk-NN探索法を用いることにより、認識精度を落とさずに認識計算コストを減少させることが可能となる。つまり、リアルタイムに精度よく物体の認識が可能となる。
【0164】
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。この場合、例えば、画像処理装置1は、図26に示されるようなパーソナルコンピュータにより構成される。
【0165】
図26において、CPU(Central Processing Unit)121は、ROM(Read Only Memory)122に記憶されているプログラム、または記憶部128からRAM(Random Access Memory)123にロードされたプログラムに従って各種の処理を実行する。RAM123にはまた、CPU121が各種の処理を実行する上において必要なデータなども適宜記憶される。
【0166】
CPU121、ROM122、およびRAM123は、バス124を介して相互に接続されている。このバス124にはまた、入出力インタフェース125も接続されている。
【0167】
入出力インタフェース125には、キーボード、マウスなどよりなる入力部126、CRT(Cathode Ray Tube)、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部127、ハードディスクなどより構成される記憶部128、モデムなどより構成される通信部129が接続されている。通信部129は、インターネットを含むネットワークを介しての通信処理を行う。
【0168】
入出力インタフェース125にはまた、必要に応じてドライブ130が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア131が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部128にインストールされる。
【0169】
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
【0170】
この記録媒体は、図26に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フロッピディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア131により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM122や、記憶部128に含まれるハードディスクなどで構成される。
【0171】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0172】
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
【産業上の利用可能性】
【0173】
本発明は、ロボット装置に適用することが可能である。
【図面の簡単な説明】
【0174】
【図1】本発明を適用した画像処理装置の構成例を示すブロック図である。
【図2】図1の学習部の学習処理を説明するフローチャートである。
【図3】図1の学習部の学習処理を説明するフローチャートである。
【図4】解像度画像を説明する図である。
【図5】DoGフィルタのスケールスペースを説明する図である。
【図6】特徴点近傍の濃度勾配方向を説明する図である。
【図7】ヒストグラムの度数の演算方法を説明する図である。
【図8】方向ヒストグラムの例を示す図である。
【図9】方向ヒストグラムの例を示す図である。
【図10】方向ヒストグラムの例を示す図である。
【図11】特徴量抽出の処理を説明する図である。
【図12】リサンプリングの例を示す図である。
【図13】図1の認識部の認識処理を説明するフローチャートである。
【図14】図1の認識部の認識処理を説明するフローチャートである。
【図15】図1の認識部の認識処理を説明するフローチャートである。
【図16】学習時と認識時の多重解像度を説明する図である。
【図17】特徴量の比較処理を説明する図である。
【図18】インライヤとアウトライヤを説明する図である。
【図19】姿勢推定処理の詳細を説明するフローチャートである。
【図20】図19の姿勢推定処理を説明する図である。
【図21】本発明を適用した画像処理装置の他の構成例を示すブロック図である。
【図22】図21の対応特徴点ペア絞込み部の処理を説明するフローチャートである。
【図23】モデル画像とオブジェクト画像の対応する特徴点を説明する図である。
【図24】モデル画像とオブジェクト画像の特徴点の回転変換角度を説明する図である。
【図25】平行移動変換量を説明する図である。
【図26】パーソナルコンピュータの構成例を示すブロック図である。
【符号の説明】
【0175】
1 画像処理装置, 11 学習部, 12 認識部, 21 多重解像度生成部, 22 特徴点抽出部, 23 特徴量抽出部, 24 モデル辞書登録部, 31 多重解像度生成部, 32 特徴点抽出部, 33 特徴量抽出部, 34 kdツリー構築部, 35 特徴量比較部, 36 モデル姿勢推定部

【特許請求の範囲】
【請求項1】
入力された画像から予め登録されているモデル画像を認識する画像処理装置において、
入力された画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を生成する多重解像度画像生成手段と、
前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出手段と、
前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出手段と、
入力された画像の前記特徴量を前記モデル画像の特徴量と比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する比較手段と、
前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する姿勢推定手段と
を備えることを特徴とする画像処理装置。
【請求項2】
前記特徴量抽出手段は、第1のタイプの特徴量として前記特徴点近傍の濃度勾配の方向ヒストグラムを抽出し、第2のタイプの特徴量として次元縮退濃度勾配ベクトルを抽出する
ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記比較手段は、前記タイプ毎にkdツリーとされた前記モデル画像の特徴量群を、入力された画像の前記特徴量に基づいてk Nearest Neighbor (k-NN) 探索することで、前記候補対応特徴点組を生成する
ことを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記比較手段は、各タイプにおいて共通に抽出された前記特徴量を有する前記特徴点を前記候補対応特徴点組とする
ことを特徴とする請求項3に記載の画像処理装置。
【請求項5】
前記候補対応特徴点組を、前記モデル画像の位置姿勢を決める画像変換パラメータで規定されるパラメータ空間上に投票し、その最大投票数を閾値と比較することで絞り込む絞り込み手段をさらに備え、
前記姿勢推定手段は、絞り込まれた前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する
ことを特徴とする請求項4に記載の画像処理装置。
【請求項6】
前記姿勢推定手段は、ランダムに選択したN組の前記候補対応特徴点組により決定される前記モデル画像の位置姿勢を決める画像変換パラメータをパラメータ空間に投射し、前記パラメータ空間上で形成されるクラスタのうち、最多メンバ数を有するクラスタを求め、そのメンバから最小自乗法により求まる前記モデル画像の位置姿勢を決める画像変換パラメータを前記モデル画像を認識する認識結果として出力する
ことを特徴とする請求項1に記載の画像処理装置。
【請求項7】
前記姿勢推定手段は、前記最多メンバ数を有するクラスタのセントロイドを検出し、前記セントロイドからなる前記モデル画像の位置姿勢を決める画像変換パラメータを前記モデル画像を認識する認識結果として出力する
ことを特徴とする請求項6に記載の画像処理装置。
【請求項8】
前記多重解像度画像生成手段は、学習時における場合より粗い精度で前記多重解像度画像を生成する
ことを特徴とする請求項1に記載の画像処理装置。
【請求項9】
入力された画像から予め登録されているモデル画像を認識する画像処理装置の画像処理方法において、
入力された画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を生成する多重解像度画像生成ステップと、
前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、
前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、
入力された画像の前記特徴量を前記モデル画像の特徴量と比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する比較ステップと、
前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する姿勢推定ステップと
を含むことを特徴とする画像処理方法。
【請求項10】
入力された画像から予め登録されているモデル画像を認識する画像処理装置のプログラムであって、
入力された画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を生成する多重解像度画像生成ステップと、
前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、
前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、
入力された画像の前記特徴量を前記モデル画像の特徴量と比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する比較ステップと、
前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する姿勢推定ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
【請求項11】
入力された画像から予め登録されているモデル画像を認識する画像処理装置のプログラムであって、
入力された画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を生成する多重解像度画像生成ステップと、
前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、
前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、
入力された画像の前記特徴量を前記モデル画像の特徴量と比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する比較ステップと、
前記候補対応特徴点組に基づいて、入力された画像の姿勢を推定する姿勢推定ステップと
をコンピュータに実行させることを特徴とするプログラム。
【請求項12】
認識の対象とされる画像と比較するためのモデル画像を学習する画像処理装置において、
前記モデル画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を、認識時における場合より細かい精度で生成する多重解像度画像生成手段と、
前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出手段と、
前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出手段と、
前記モデル画像の前記特徴量を登録する登録手段と
を備えることを特徴とする画像処理装置。
【請求項13】
前記特徴量抽出手段は、第1のタイプの特徴量として前記特徴点近傍の濃度勾配の方向ヒストグラムを抽出し、第2のタイプの特徴量として次元縮退濃度勾配ベクトルを抽出する
ことを特徴とする請求項12に記載の画像処理装置。
【請求項14】
前記登録手段は、前記モデル画像の特徴量群を、前記タイプ毎にkdツリーとして登録する
ことを特徴とする請求項13に記載の画像処理装置。
【請求項15】
認識の対象とされる画像と比較するためのモデル画像を学習する画像処理装置の画像処理方法において、
前記モデル画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を、認識時における場合より細かい精度で生成する多重解像度画像生成ステップと、
前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、
前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、
前記モデル画像の前記特徴量を登録する登録ステップと
を含むことを特徴とする画像処理方法。
【請求項16】
認識の対象とされる画像と比較するためのモデル画像を学習する画像処理装置のプログラムであって、
前記モデル画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を、認識時における場合より細かい精度で生成する多重解像度画像生成ステップと、
前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、
前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、
前記モデル画像の前記特徴量を登録する登録ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
【請求項17】
認識の対象とされる画像と比較するためのモデル画像を学習する画像処理装置のプログラムであって、
前記モデル画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を、認識時における場合より細かい精度で生成する多重解像度画像生成ステップと、
前記多重解像度画像のそれぞれの解像度の画像について特徴点を抽出する特徴点抽出ステップと、
前記特徴点における少なくとも2つの局所的な特徴量を抽出する特徴量抽出ステップと、
前記モデル画像の前記特徴量を登録する登録ステップと
をコンピュータに実行させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate


【公開番号】特開2006−65399(P2006−65399A)
【公開日】平成18年3月9日(2006.3.9)
【国際特許分類】
【出願番号】特願2004−244018(P2004−244018)
【出願日】平成16年8月24日(2004.8.24)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】