説明

画像認識装置及びプログラム

【課題】動画像のみから該動画像に含まれる手のひらの3次元の姿勢を推定する画像認識装置及びプログラムを提供する。
【解決手段】本発明の画像認識装置は、動画像の画像フレーム中の手のひら画像部分を肌色判定処理を施して手のひらのシルエット画像を抽出し、該シルエット画像における手のひらの画像部分から最小外接多角形処理及び円形抽出フィルタ処理を施して指先の画像座標を取得する指先画像座標取得部12と、動画像の世界座標及び当該世界座標の1平面に位置する基準画像平面を設定し、該基準画像平面における各指先の画像座標に対して、指先の画像座標の平面射影行列を生成する平面射影変換行列生成部15と、前記平面射影行列から基準画像平面に対する透視投影行列を生成し、動画像に含まれる手のひらの画像から前記世界座標における手のひらの姿勢情報を生成する位置姿勢算出部16とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カメラで撮像した映像から手のひらの姿勢を推定する技術に関し、特に、手のひらの姿勢を推定する画像認識装置及びプログラムに関する。
【背景技術】
【0002】
拡張現実感技術は、カメラの映像をコンピュータに入力し、その映像の中にCG(Computer Graphic)などで生成した仮想物体を合成する技術である。従来、このような拡張現実感技術のシステムでは、マーカーを用いて、その位置や姿勢を推定し、マーカー上に仮想物体を合成する手法がとられていた(例えば、非特許文献1参照)。
【0003】
また、マーカーを用いる代わりに2台のカメラを用いて、手の形状や姿勢を推定する技術も知られている(例えば、非特許文献2)。この文献では、マーカーを用いる代わりに、推定した手のひら上に仮想物体を合成することも開示している。
【0004】
一方、マーカーを用いる代わりに1台のカメラを用いて、多数の方向から撮影した手のひらの画像を基準画像平面とし、これら基準画像平面の特徴点を予め学習しておき、システムに入力される画像の特徴点との比較を行うことにより手のひらの姿勢を推定する技術も知られている(例えば、非特許文献3参照)。
【0005】
これらの技術以外にも、2次元画像中において、指の本数を推定する技術や、一本の指の画像上での方向を推定する技術が知られている(例えば、特許文献1、特許文献2参照)。
【0006】
【非特許文献1】加藤 博一、「拡張現実感システム構築ツールARToolKitの開発」、電子情報通信学会技術報告、Vol.101,No.652,PRMU,2001−232,2002年2月、pp.79−86
【非特許文献2】齋藤 真希子、佐藤 洋一、小池 英樹、「Perceptual Glove:多視点画像に基づく手形状・姿勢の実時間入力とその応用」、社団法人情報処理学会論文誌、Vo1.43,No.1,2002年1月、pp.185−194
【非特許文献3】加藤 喬、近藤 祐介、甲藤 二郎、「HandyAR:手をインターフェースとした拡張現実感システムHandyARの開発」、FIT2005,I−045,2005年9月、pp.111−112
【特許文献1】特許第3863809号
【特許文献2】特開平8−76912号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
マーカーを用いて映像を撮像し、映像中の物体の位置を推定する従来からの技術の典型的な例を図9に示す。図9において、物体103には、例えば正方形の4つの頂点を有する平面パターンのようなマーカー101が付与されている。カメラ102は、この物体103を撮像し、姿勢位置推定装置100は、カメラ102で撮像した画像を入力する画像入力部111と、撮像画像中のマーカー101の位置を検出するマーカー検出部112と、マーカー101の位置及び姿勢を算出する位置・姿勢算出部113とを備える。この位置・姿勢算出部113は、撮像画像中のマーカー101の位置情報を入力するため、実際の3次元空間における物体の位置及び姿勢を特定することができ、更には仮想物体を合成するCGへと応用することができる。しかしながら、この技術では、マーカーがカメラの撮像画像に写り込むために現実感が損なわれる。
【0008】
また、マーカーを用いる代わりに1台又は2台のカメラで多数方向の画像を取得する技術は、結果的に、多数の方向から撮影した手のひらの画像に基づいて、複数の基準画像平面を生成して解析又は学習しておくことになるため処理負担が大きく、且つ事実上のシステム構成も大規模なものとなるという課題がある。
【0009】
特許文献1又は特許文献2に開示される技術では、2次元画像中において、指の本数を推定する技術や、一本の指の画像上での方向を推定することが可能であるとしても、手のひらの3次元の姿勢の推定を行うための情報が不足しており、手のひらの3次元の姿勢の推定へと応用することは容易ではない。
【0010】
本発明の目的は、上記の問題を鑑みて、マーカーを用いることなく、事前学習することなく、一台のカメラで撮影した映像から手のひらの姿勢を推定する画像認識装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0011】
本発明の画像認識装置は、動画像のみから該動画像に含まれる手のひらの3次元の姿勢を推定する画像認識装置であって、動画像の画像フレーム中の手のひら画像部分を肌色判定処理を施して手のひらのシルエット画像を抽出し、該シルエット画像における手のひらの画像部分から最小外接多角形処理及び円形抽出フィルタ処理を施して指先の画像座標を取得する指先画像座標取得部と、動画像の世界座標及び当該世界座標の1平面に位置する基準画像平面を設定し、該基準画像平面における各指先の画像座標に対して、前記指先の画像座標の平面射影行列を生成する平面射影変換行列生成部と、前記平面射影行列から基準画像平面に対する透視投影行列を生成し、動画像に含まれる手のひらの画像から前記世界座標における手のひらの姿勢情報を生成する位置姿勢算出部とを備えることを特徴とする。
【0012】
また、本発明の画像認識装置において、抽出した各指先に対応する特徴点の画像座標間の距離をそれぞれ比較して指先の種類を特定する指先種別判定部と、前記手のひらのシルエット画像における手のひらの画像部分から、中指と各指の重心とを結ぶ線分方向に該重心から移動しながら、該線分と直交するシルエット画像成分を計数し、この計数値の減少傾向を追跡して手首近辺の特徴点の画像座標を決定する手首画像座標取得部とを更に備え、前記平面射影変換行列生成部は、当該世界座標の1平面に位置する基準画像平面における各指先の基準座標と手首の基準座標に対して、前記手首付近の特徴点の画像座標の平面射影行列を生成することを特徴とする。
【0013】
また、本発明の画像認識装置において、前記平面射影変換行列生成部は、前記基準画像平面上に仮想的な正方形を設定し、前記位置姿勢算出部は、該正方形の4つの頂点に対して平面射影変換行列を用いて射影変換を施し、この射影変換で得られる4つの頂点の画像座標に基づいて基準画像平面に対する当該透視投影行列を生成し、手のひらの姿勢を推定することを特徴とする。
【0014】
また、本発明の画像認識装置において、前記指先画像座標取得部は、処理対象の画像フレーム中から取得した各指先の画像座標が、5つの指先の画像座標として取得したか否かを判別する手段を有し、5つの指先の画像座標として取得していないと判別した場合に、当該動画像における別の画像フレームを処理対象とすることを特徴とする。
【0015】
更に、本発明は、動画像のみから該動画像に含まれる手のひらの3次元の姿勢を推定する画像認識装置として構成するコンピュータに、動画像の画像フレーム中の手のひら画像部分を肌色判定処理を施して手のひらのシルエット画像を抽出し、該シルエット画像における手のひらの画像部分から最小外接多角形処理及び円形抽出フィルタ処理を施して指先の画像座標を取得するステップと、動画像の世界座標及び当該世界座標の1平面に位置する基準画像平面を設定し、該基準画像平面における各指先の基準座標に対して、前記指先の画像座標の平面射影行列を生成するステップと、前記平面射影行列から基準画像平面に対する透視投影行列を生成し、動画像に含まれる手のひらの画像から前記世界座標における手のひらの姿勢情報を生成するステップとを実行させるためのプログラムとしても特徴付けられる。
【発明の効果】
【0016】
本発明によれば、マーカーを用いる代わりに、手のひらの指先抽出と指先種別の判定を用いて姿勢を推定することができる。
【0017】
更に、推定した手のひらの位置や姿勢の情報を利用した仮想空間中の才ブジェクトの操作、又は電子ゲームなど様々な分野での応用も期待できる。
【発明を実施するための最良の形態】
【0018】
以下、本発明による実施例の画像認識装置を説明する。尚、同様な構成要素には、同一の参照番号を付している。
【0019】
図1に、本発明による実施例の画像認識装置を用いたシステム例を示す。図1において、定義された世界座標に置かれる物理物体3(肌色以外)とその上部に位置する手のひら4とを含む被写体をカメラ2で撮像し、本実施例の画像認識装置1で、カメラ2で撮像した画像から手のひらの3次元の位置及び姿勢を推定する様子を示している。尚、物理物体3の有無は本願発明とは無関係であり、背景の一部として考えてよいが、本実施例の画像認識装置は、後述するように手のひら検出のために肌色抽出を行うため、背景及び物理物体は肌色以外の色を有するものとする。
【0020】
画像認識装置1は、画像入力部11と、指先画像座標取得部12と、指先種別判定部13と、手首画像座標取得部14と、平面射影変換行列生成部15と、位置姿勢算出部16と、基準画像平面発生部17とを備える。
【0021】
画像入力部11は、カメラ2で撮像した動画像を入力して、画像フレーム単位で指先画像座標取得部12に送出する。
【0022】
指先画像座標取得部12は、動画像の画像フレーム中の手のひら画像部分を後述する肌色判定処理を施して手のひらのシルエット画像を抽出し、シルエット画像における手のひらの画像部分から円形抽出フィルタ処理を施して指先の画像座標を取得し、手のひら画像部分と指先の画像座標の情報とを指先種別判定部13及び手首画像座標取得部14に送出する。尚、指先画像座標取得部12は、後述するように、手のひらのシルエット画像に外接する多角形の頂点の画像座標を求め、該多角形頂点座標に円形抽出フィルタを施すことにより指先以外の頂点を排除することで、手のひら画像部分からの指先の画像座標を取得する。
【0023】
指先種別判定部13は、入力した手のひら画像部分とその指先の画像座標の情報とから、抽出した各指先に対応する特徴点の画像座標間の距離をそれぞれ比較して指先の種類を特定し、入力した手のひら画像部分の指先画像と対応付けて、平面射影変換行列生成部15に送出する。尚、指先種別判定部13は、手のひらのシルエット画像から抽出した指先の画像座標について、各画像座標間の距離に基づいて指の種別を特定する。
【0024】
手首画像座標取得部14は、入力した手のひら画像部分とその指先位置の画像座標の情報とから、中指と各指の重心とを結ぶ線分方向に該重心から移動しながら、該線分と直交するシルエット画像成分を計数し、この計数値の減少傾向を追跡して、手首近辺の特徴点を決定し、この手首近辺の特徴点の画像座標を取得し、入力した手のひら画像部分の手首画像と対応付けて、平面射影変換行列生成部15に送出する。尚、手首画像座標取得部14は、処理対象の画像フレーム中から取得した各指先の画像座標が、5つの指先の画像座標として取得したか否かを判別し、5つの指先の画像座標として取得していないと判別した場合に、当該動画像における別の画像フレームを処理対象とする機能を有する。ここで云う「別の画像フレーム」とは、当該動画像における処理対象の画像フレームに連続する次の画像フレームでもよいし、所定数の後の画像フレームでもよいし、用途によっては、無秩序に別の画像フレームであってもよい。
【0025】
平面射影変換行列生成部15は、手のひら画像部分、指の種類毎の指先座標、及び好適には手首近辺の画像座標を入力するとともに、動画像の世界座標及び当該世界座標の1平面に位置する基準画像平面を設定し、基準画像平面発生部17から供給される当該世界座標の1平面に位置する手のひらを正面から撮影して得られる基準画像平面における指先の基準座標に対して、指先の画像座標(及び手首の画像座標)の平面射影行列を算出して生成し、位置姿勢算出部16に送出する。尚、後述するように、平面射影変換行列生成部15は、手のひら画像部分、及び指の種類毎の指先座標のみから、基準画像平面発生部17から供給される基準画像平面に対する指先の画像座標の平面射影行列を算出することができ、手首近辺の画像座標を更に用いるのは、平面射影行列のパラメータの計算精度を高めるためである。
【0026】
位置姿勢算出部16は、平面射影行列から基準画像平面に対する透視投影行列を生成し、動画像に含まれる手のひらの画像から世界座標における手のひらの姿勢情報を生成し、外部に送出する。外部に送出される手のひらの姿勢情報は、カメラ2で撮像した動画像を用いて、CGなどの自然な合成映像を生成するのに利用することができる。
【0027】
基準画像平面発生部17は、任意のカメラを用いて正面から撮影して得られる手のひらの基準画像平面を平面射影変換行列生成部15に送出する。特に、平面射影変換行列生成部15は、この基準画像平面に、仮想的な正方形を設定し、位置姿勢算出部16は、この正方形の4つの頂点に対して平面射影変換行列を用いて射影変換を施して透視投影行列を生成し、射影変換で得られる4つの頂点の画像座標に基づいてカメラ2で撮像する「手のひら」の姿勢を推定する。従って、基準画像平面発生部17が送出する画像の「手のひら」は、代表的な任意に設定したものでよく、カメラ2で撮像する「手のひら」と同一物である必要はない。
【0028】
図2に、本発明による実施例の画像認識装置を用いたシステム例における処理環境を示す。カメラ2で撮像する被写体の「手のひら」4は、手のひら部分4aと手首近傍部分4bとを含み、手首と衣服の袖部5とは区別する。また、本実施例の画像認識装置1は、被写体の「手のひら」4に対して、世界座標(Xw,Yw,Zw)を設定し、世界座標(Xw,Yw)平面に、基準画像平面発生部17が発生する基準画像平面RSを設定する。一方、カメラ2は、カメラ座標(Xc,Yc,Zc)で定義され、カメラ2で撮像した画像座標CS(u,v)を有する。従って、本実施例の画像認識装置1は、世界座標(Xw,Yw,Zw)における基準画像平面RSと画像座標(u,v)との間の変換行列(後述する平面射影変換行列で表すことができる)から、任意に変化する世界座標(Xw,Yw,Zw)の被写体の「手のひら」4と基準画像平面RSとの間の変換行列(後述する透視投影行列で表すことができる)を特定し、世界座標(Xw,Yw,Zw)の被写体の「手のひら」4と画像座標(u,v)との間の射影変換を実現し、カメラ2で撮像する3次元の「手のひら」の姿勢を推定する。
【0029】
尚、画像データと画像座標の対応付け、及び画像データと指先種別の対応付けは、任意のフォーマットで実現することができ、例えば画像の画素データ毎に座標データと指先種別の情報(5本の指であるので3bitで表現できる)の付帯情報を付与するフォーマットで実現することができる。
【0030】
次に、本発明による実施例の画像認識装置における、より詳細な動作を説明する。
【0031】
図3に、本発明による実施例の画像認識装置の動作を表すフローチャートを示す。ステップS1で、画像入力部11により、カメラ2で撮像した動画像を入力して、画像フレーム単位で指先画像座標取得部12に送出する。
【0032】
ステップS2で、指先画像座標取得部12により、まず、カメラ映像の1つの画像フレーム中の手のひら領域を抜き出すために、色空間において肌色領域に対する閾値処理を施す。次に、指先画像座標取得部12により、抜き出した手のひら領域の外接矩形を求める。更に、指先画像座標取得部12により、その外接矩形の頂点近傍に円形抽出フィルタを施して指先のみを取得する。ステップS2の動作は、「処理1」として詳細に後述する。
【0033】
ステップS3で、指先画像座標取得部12により、処理対象の画像フレームに対して5つの指先の画像座標を取得できたか否かを判定し、指先の画像座標を取得できない場合は、例えば次の画像フレームに対してステップS2に戻り、指先の画像座標を取得できた場合は、現行の処理対象の画像フレームについてステップS3に移行する。尚、5つの指先の画像座標を取得できたか否かを判定するには、取得した指先の画像座標の各々が、所定の距離以上離れており、且つ取得した指先の画像座標が5つ存在するか否かで判定する。この指先の画像座標を取得できたか否かの情報は、画像フレーム単位で識別可能なフラグを付して記録するように用いてもよい。例えば撮像した動画像を動画ファイルとして記録する用途に本実施例の画像認識装置を適用した場合、このフラグ値を参照すればこの指先の画像座標を取得できたか否かの情報を直ちに識別できるようになる。
【0034】
ステップS4で、指先種別判定部13により、ステップS2で取得した指先の画像座標から、指先間距離の大小により、取得した指先座標がそれぞれ何指の座標なのかを特定する。ステップS4の動作は、「処理2」として詳細に後述する。
【0035】
ステップS5で、手首画像座標取得部14により、ステップS2で得られる中指の指先の画像座標から5つの指の重心画像座標に向かう直線上において、直線に直交する方向の肌色領域の幅を探索し、手首近傍の幅の変化から手首部分を推定し、推定した手首近辺の画像座標を取得する。尚、ステップS5の処理は、後述する平面射影行列のパラメータの計算精度を高めるためであるため、必ずしも行う必要は無い。また、ステップS5の処理は、ステップS4の処理の前に行うことや、ステップS4の処理と並行して行ってもよい。ステップS5の動作は、「処理3」として詳細に後述する。
【0036】
ステップS6で、平面射影変換行列生成部15により、ステップS2,S4,S5で得られた指先の画像座標(及び手首の画像座標)と、基準画像平面発生部17から供給される手のひらの基準画像平面上の指先及び手首の基準座標とで構成される連立方程式を解いて、基準画像平面に対する指先の画像座標(及び手首の画像座標)の平面射影変換行列の各パラメータを決定する。ステップS6の動作は、「処理4」として詳細に後述する。
【0037】
ステップ7で、位置姿勢算出部16により、手のひらの基準画像平面上に仮想的に設置した正方形の4頂点の画像座標をステップS6で求めた平面射影変換行列で変換処理し、この変換処理で得られる4つの画像座標、及びカメラキャリブレーションにより予め求めた中心射影行列により、空間中の正方形の向かい合う辺を表す2つの直線の方程式を構成し、その2つの直線の法線の外積から平面を規定するxベクトルを導出する。さらに、位置姿勢算出部16により、空間中の正方形の向かい合う辺を表すもう一組の2つの直線の方程式を構成し、その2つの直線の法線の外積から平面を規定するyベクトルを導出する。ここで得られるxベクトル及びyベクトルは直交しており、位置姿勢算出部16によって、xベクトル及びyベクトルの外積からzベクトルを導出することにより、手のひらの姿勢を決定することができる。xベクトル、yベクトル、zベクトル、及びカメラキャリブレーションにより予め求めた中心射影行列から、手のひらの基準画像平面RSに対するカメラ2の位置ベクトルを求めることができる。ステップS7の動作は、「処理5」として詳細に後述する。
【0038】
以下、各処理を更に詳細に説明する。まず、処理1を説明する。
【0039】
[処理1:指先の画像座標の取得]
(1)肌色領域の抽出
指先画像座標取得部12は、まず、図4(a)に例示するカメラ2で撮影した画像フレームのRGB値を、HQV表色系に変換し、HQV空間内での閾値処理により肌色領域を抽出する。抽出の結果、図4(b)のような手のひらのシルエット画像が得られる。
【0040】
(2)指先の画像座標の取得
指先画像座標取得部12は、次に、図4(b)のシルエット画像に対して、最小外接多角形を求める処理を施す。2値画像の所定の幾何形状に対して最小外接多角形を求める処理は、計算幾何学として知られる最小外接多角形処理の関数を用いるのが好適である(例えば、参考文献:奈良先端科学技術大学院大学OpenCVプログラミングブック制作チーム/著、「OpenCVプログラミングブック」、毎日コミュニケーションズ、2007年9月発行)。
【0041】
一例として、この最小外接多角形処理は、下記のようなGraham’s Scanアルゴリズムを用いて得られる。
(1)所定の幾何形状の外縁を所定間隔を有する複数のサンプリング点で表す。
(2)複数のサンプリング点のうち、v座標が最小の点をP0と定める。
(3)P0から見た他のサンプリング点に対して、角度の低い順(又は高い順)にP1,P2,P3,…と定める。ただし、ほぼ同じ角度に複数のサンプリング点が位置する場合は、最遠点を選定する。
(4)まず、選定したサンプリング点P0,P1,P2を直線で結ぶ。
(5)続いて、サンプリング点P1,P2,P3を結んだ場合の角度(内角)が180度以上ならP2を接点とせずに、サンプリング点P1,P3を直接結ぶ。
(6)全サンプリング点を直線で結ぶまで、次のサンプリング点に対して上記の(5)を順次繰り返す。
【0042】
図5(a)に最小外接多角形処理を施した一例を示す(理解を容易にするために、実画像の手のひら上に多角形を示す)。
【0043】
図5(a)の○印は、外接多角形の各頂点の画像座標を示しているが、図4(b)のシルエット画像に対して最小外接多角形を求めたために、衣服の袖と肌との境界部分も外接多角形の頂点として認識されてしまう。そこで、これらの頂点のうち、指先に対応する頂点を特定する必要がある。一般に、指先は丸みがあり、部分的に円形として近似できる。そこで、指先画像座標取得部12は、円形抽出フィルタを外接多角形の頂点近傍に施す。具体的には、指先画像座標取得部12は、予め定めたサイズの円形パターンを各頂点近傍に適用し、当該円形内で所定の頻度内に収まる位置を5箇所検出する。5箇所の位置を検出できない場合には、予め定めた別の円形パターンを適用する。この動作を予め定めた複数の円形パターンについて5箇所検出するまで繰り返し、検出できなかった場合は、別の画像フレームについての処理1に戻るようにする。円形抽出フィルタの出力画像の例を図5(b)に示す。指先画像座標取得部12は、各頂点近傍において得られる円形抽出フィルタの出力の最大値を、対象とする頂点のフィルタ出力値とする。つまり、指先画像座標取得部12は、各頂点で得られるフィルタ出力値の最大値を選択し、この最大値を各指先の画像座標とする。その検出例を図5(c)に示す(理解を容易にするために、実画像の手のひら上に検出例を示す)。
【0044】
円形抽出フィルタについては、任意の既知の技法を用いることができる(例えば、参考文献:池谷、冨山、岩舘、「多視点映像における移動物体抽出とそのCG表現に関する検討」、電子情報通信学会画像工学研究会、Vol.105,No.611,2006年2月、pp.165−170参照)。
【0045】
次に、処理2を説明する。
【0046】
[処理2:指先の画像座標と指との対応付け]
処理1では、指先に対応する5つの画像座標を求めた。処理2では、実際の指との対応付けを行う。
【0047】
指先種別判定部13は、5つの画像座標のデータを、外接多角形上の任意の順の配列に特定し、画像の画素データ毎に座標データと指先種別の情報(5本の指であるので3bitで表現できる)の付帯情報を付与する所定のフォーマットで保持する。図6に例示するように、指先の画像座標をF1〜F5の配列で保持する。まず、5つの画像座標の全ての組み合わせで、画像上の直線距離を計算する。最も大きな距離値が得られた直線の端に親指と小指の指先があるとして設定する。例えば、図6では、親指及び小指の候補は、F3,F4となる。次に、F3とF2、F4とF5の距離を計算して比較する。距離の大きい方が親指と人差し指間の距離であるとして定めると、F4が親指であることが特定できる。親指を特定できたので、順に他の指の配列を割り当てる。実際の指との対応付けは、手首の画像座標の取得に用いる。
【0048】
次に、処理3を説明する。
【0049】
[処理3:手首の画像座標の取得]
処理2の結果、手首画像座標取得部14は、得られる「中指」の画像座標、及び5つの指の「重心」の画像座標を手がかりに、手首位置を推定する。図7に示すように、「中指」の画像座標から「重心」の画像座標に向かう方向を第1探索方向(図示する「探索方向1」)とし、手のひらのシルエット画像中で第1探索方向(図示する「探索方向2」)に直交する方向を第2探索方向とする。探索の際には、可能な限り探索処理時間を軽減することを考慮したとき、「重心」の画像座標から第1探索方向に向かって、「中指」の画像座標と「重心」の画像座標の距離だけ離れた点「A」を探索出発点とするのが好適である。
【0050】
出発点「A」から第1探索方向に向かって1画素づつ位置を移動しながら、各位置で第2探索方向の直線上における手のひらのシルエット画像の領域の画素数を計数する。出発点「A」から第1探索方向に向かってこの探索を続けることにより、第2探索方向における計数値は序々に小さくなり、手首を過ぎるとこの計数値の減少傾向がなくなってほぼ一定値となる。この性質に着目し、一定値になり始める第1探索方向の地点における第2探索方向での手のひらのシルエット画像の境界を手首位置として決定する。手首には2つの特徴点が得られる(図7に示す2つの○印)。この手首の特徴点の左右の対応付けは、小指や親指の指先の特徴点からの距離の大きさから区別することができる。
【0051】
次に、図2を再び参照しながら、処理4を説明する。
【0052】
[処理4:平面射影変換行列の生成]
一般的に、空間中の点Qの3次元位置を世界座標(Xw,Yw,Zw)、及びカメラ座標を(Xc,Yc,Zc)で与えた場合、両者の関係は式(1)で表される。
【0053】
【数1】

【0054】
Fは、カメラ2の姿勢を表す3×4の行列であり、3×3の回転行列R、及びカメラ光学主点Opから世界座標原点までの3次元移動ベクトルTで表すことができ、式(2)のように構成される。
【0055】
【数2】

【0056】
カメラ座標(Xc,Yc,Zc)で点Qの位置を表すと、カメラ2の撮像画像上の点Qの投影点の画像座標(u,v)は式(3)により得られる。
【0057】
【数3】

【0058】
ここで、wはカメラ光学主点Opから点Qまでの距離である。Pはカメラ2の中心射影を表す3×3の行列であり、次式のように表される。
【0059】
【数4】

【0060】
以上の知識を本実施例に適用する。本実施例では基準画像平面RSを平面物体と仮定し、基準画像平面RSを世界座標の(Xw,Yw)平面を対応させる。まず、式(1)を式(3)に代入すると、世界座標で表された任意の点をカメラ画像上に投影する式(5)を得る。
【0061】
【数5】

【0062】
Hは、式(2)及び式(4)の積で得られる3×4の行列である。世界座標の(Xw,Yw)平面上、即ち基準画像平面RS上の点ではZw=0であり、式(5)の行列Hの3列目は削除することができ、下記の式が得られる。
【0063】
【数6】

【0064】
式(6)のhnm(n=1〜3,m=1〜4)は、行列H’のn行m列の要素を示す。式(6)のhnmで構成される3×3行列が、求めたい平面射影変換行列H’である。本実施例において、基準画像平面RSの指先や手首の基準座標を(Xw,Yw)、処理1〜処理3で得られるカメラ画像上の1つの指先の画像座標を(u,v)として、式(6)に代入すると、H’に関する方程式が2つ得られる。従って、指先で5点の特徴点があるので10個の方程式を作ることができ、手首で2点の特徴点があるので、指先の5点を加えて合計7点について、14個の方程式を作ることができる。式(6)の来知数は9であるが、一つを1としても基準画像平面RSに対する変位量を求めることになるので、実際にはh34=1として、それ以外の8つを来知数とする。従って、8つを来知数を決定するのに、10個又は14個の方程式を連立して、一般化逆行列を用いることにより、H’の最小二乗解を求めることができる。
【0065】
このようにして、平面射影変換行列生成部15は、指先の画像座標(及び手首の画像座標)と、基準画像平面発生部17から供給される手のひらの基準画像平面上の指先及び手首の基準座標とで構成される連立方程式を解いて、基準画像平面RSに対する指先の画像座標(及び手首の画像座標)を含む平面射影変換行列(式(6))の各パラメータhnmを決定する。
【0066】
次に、図2を再び参照しながら、処理5を説明する。
【0067】
[処理5:手のひらの姿勢と位置の算出]
平面射影行列H’は基準画像平面RSに対する手のひらの姿勢と位置を表しているが、この平面射影行列H’から世界座標の手のひらの姿勢を直接算出するのは容易ではない。そこで、位置姿勢算出部16は、基準画像平面発生部17から供給される基準画像平面RSについて、図8(a)に示すように手のひらの基準画像平面上に仮想的な正方形を置き、その4つの頂点を平面射影行列H’で一旦射影変換し、世界座標の手のひらにおける対応する4つの頂点とカメラ画像上の投影点の座標との間の透視投影行列を求める。
【0068】
具体的には、基準画像平面RS上の正方形の頂点を(Xw(i),Yw(i))、i=1〜4とすると、投影点の画像座標(u(i),v(i))は、式(6)から次式のように計算できる。
【0069】
【数7】

【0070】
図8(b)に画像上に投影された4つの頂点を示す。ここで、(u(1),v(1))から(u(2),v(2))に向かう画像上の直線L1の方程式は、式(8)のようになる。
【0071】
【数8】

【0072】
ここで、a,b,cの係数は、(u(1),v(1))と(u(2),v(2))から計算できる。また、式(4)を式(3)に代入して、カメラ座標と画像フレームの画像座標の関係を表すと、式(9)のようになる。
【0073】
【数9】

【0074】
式(9)をu,vについて解き、式(8)に代入すると、式(10)が得られる。
【0075】
【数10】

【0076】
式(10)は、(u(1),v(1))と(u(2),v(2))、及びカメラ座標原点を結んだ三角形の平面方程式であり、Xc,Yc,Zcにかかる係数は、平面の法線を表している。カメラ座標の原点を規定するカメラキャリブレーションを行うことによりPnmが得られるので、法線ベクトルを計算することができる。
【0077】
また、(u(3),v(3))から(u(4),v(4))で定義される直線L2についても、同様に法線ベクトルを算出する。
【0078】
即ち、(u(3),v(3))から(u(4),v(4))に向かう画像上の直線L2の方程式は、式(11)となる。
【0079】
【数11】

【0080】
,b,cの係数は、(u(3),v(3))と(u(4),v(4))から計算できる。
【0081】
従って、式(9)をu,vについて解き、式(11)に代入すると、式(12)を得ることができる。
【0082】
【数12】

【0083】
式(10)及び式(12)の各係数で表された2つの法線べクトルの外積で得られる3次元ベクトルは、仮想的な正方形、即ち基準画像平面RSの3次元空間中の面内ベクトルを表し、3次元空間中の面内ベクトルのうちのxべクトルとなる。
【0084】
式(10)及び式(12)と同様の計算を、(u(1),v(1))から(u(4),v(4))に向かう直線L3と(u(2),v(2))から(u(3),v(3))に向かう直線L4とについて、式(9)を用いて行い、これらの各係数で表された2つの法線べクトルの外積で得られる3次元ベクトルは、仮想的な正方形、即ち基準画像平面の3次元空間中の面内ベクトル(yべクトル)が得られる。
【0085】
xベクトルとyベクトルは、基準画像平面RS内で直交しているため、この双方のベクトルの外積から、基準画像平面RSに直交するzベクトルが得られる。これらの3つのベクトルが手のひらの姿勢を表し、式(3)の回転行列Rの行ベクトルとなる。
【0086】
カメラの位置は、式(3)における(Tx,Ty,Tz)である。式(1)〜式(4)を用いて、世界座標から画像座標への変換式を式(13)のように生成する。
【0087】
【数13】

【0088】
ここで、行列Pは例えばカメラ座標の原点を規定するカメラキャリブレーションを行うことにより事前に特定でき、回転行列Rも基準画像平面RSに対するx,y,zベクトルとして既に得られているから、仮想正方形の4つの頂点について、基準画像平面上の(Xw(i),Yw(i))と投影点の画像座標(u(i),v(i))を既知の情報として代入すると、8つの方程式が得られる。(Tx,Ty,Tz)を未知数として、この8つの連立方程式を解くことにより、基準画像平面に対するカメラの位置(Tx,Ty,Tz)を計算できる。これにより、式(13)で表される透視投影行列を特定でき、世界座標の手のひらの姿勢を、基準画像平面RSに対する手のひらの姿勢と位置に対する変位ベクトルとして、カメラ座標の手のひらの画像から算出することができるようになる。
【0089】
以上の処理1〜処理5により、カメラ2で撮影した手のひらの画像から、3次元空間の手のひらの姿勢と位置を求めることができる。
【0090】
本発明の一態様として、画像認識装置1をコンピュータとして構成することができ、前述した画像入力部11、指先画像座標取得部12、指先種別判定部13、手首画像座標取得部14、平面射影変換行列生成部15、位置姿勢算出部16、及び基準画像平面発生部17の機能を実現させるためのプログラムは、各コンピュータの内部又は外部に備えられる記憶部(図示せず)に記憶される。また、基準画像平面発生部17が用いる基準画像平面の指先、手首、及び正方形の計11点の座標データと世界座標の設定情報もこの記憶部に記憶しておくことができる。このような記憶部は、外付けハードディスクなどの外部記憶装置、或いはROM又はRAMなどの内部記憶装置で実現することができる。プログラムを実行する制御部は、中央演算処理装置(CPU)などで実現することができる。即ち、CPUが、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、記憶部から読み込んで、コンピュータ上で各装置を実現することができる。ここで、いずれかの手段の機能をハードウェアの全部又は一部で実現しても良い。
【0091】
上述した実施例において、画像認識装置1の機能を実現するための処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくこともできる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録装置、半導体メモリ等どのようなものでもよい。
【0092】
また、この処理内容を記述したプログラムを、例えばDVD又はCD‐ROMなどの可搬型記録媒体の販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばIPなどのネットワーク上にあるサーバの記憶領域に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。
【0093】
また、そのようなプログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、各コンピュータの記憶部に記憶することができる。また、このプログラムの別の実施態様として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、更に、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。尚、本態様におけるプログラムには、電子計算機の処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないが、コンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0094】
上述の実施例の画像認識装置1は、カメラで撮像した画像を入力して処理する代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。例えば、画像認識装置1は、動画像をカメラ2を介して入力する代わりに、ネットワーク又は記憶媒体を介して得られる動画ファイルについても、行列Pが分かっている場合には、撮像画像と世界座標との間の行列Pを任意の初期値を設定して、「手のひら」の画像の姿勢を推定することができる。或いは又、画像認識装置1は、カメラ付き携帯電話にも適用することができる。従って、本発明は、上述の実施例によって制限するものと解するべきではなく、特許請求の範囲によってのみ制限される。
【産業上の利用可能性】
【0095】
本発明によれば、マーカーを用いる代わりに、手のひらの指先抽出と指先種別の判定を用いて姿勢を推定するので、カメラの撮像画像にマーカーが映り込むこともなく、CGなどの自然な合成映像を得るのに役立つ。例えば、放送番組での利用や、個人で映像コンテンツを作成する際に簡易なバーチャル効果装置として利用できる。また、マーカーが写り込むことのないカメラの撮像画像を得て手のひらの姿勢を推定することができるので、手のひらを利用したコンピュータ・インタラクションのインターフェースとしても利用することができる。更に、推定した手のひらの位置や姿勢の情報を利用した仮想空間中の才ブジェクトの操作、又は電子ゲームなど様々な分野での応用も期待でき、手のひらの位置や姿勢の推定した情報を利用する任意の用途に有用である。
【図面の簡単な説明】
【0096】
【図1】本発明による実施例の画像認識装置を用いたシステム例を示す図である。
【図2】本発明による実施例の画像認識装置を用いたシステム例における処理環境を示す図である。
【図3】本発明による実施例の画像認識装置の動作を表すフローチャートである。
【図4】本発明による実施例の画像認識装置の動作説明図である。
【図5】本発明による実施例の画像認識装置の動作説明図である。
【図6】本発明による実施例の画像認識装置の動作説明図である。
【図7】本発明による実施例の画像認識装置の動作説明図である。
【図8】本発明による実施例の画像認識装置の動作説明図である。
【図9】従来の画像認識装置を用いたシステム例を示す図である。
【符号の説明】
【0097】
1 画像認識装置
2 カメラ
3 物理物体
4 手のひら
4a 手のひら部分
4b 手首近傍部分
5 衣服の袖
11 画像入力部
12 指先画像座標取得部
13 指先種別判定部
14 手首画像座標取得部
15 平面射影変換行列生成部
16 位置姿勢算出部
17 基準画像平面発生部
100 姿勢位置推定装置
101 マーカー
102 カメラ
103 物体
111 画像入力部
112 マーカー検出部
113 位置・姿勢算出部

【特許請求の範囲】
【請求項1】
動画像のみから該動画像に含まれる手のひらの3次元の姿勢を推定する画像認識装置であって、
動画像の画像フレーム中の手のひら画像部分を肌色判定処理を施して手のひらのシルエット画像を抽出し、該シルエット画像における手のひらの画像部分から最小外接多角形処理及び円形抽出フィルタ処理を施して指先の画像座標を取得する指先画像座標取得部と、
動画像の世界座標及び当該世界座標の1平面に位置する基準画像平面を設定し、該基準画像平面における指先の基準座標に対して、前記指先の画像座標の平面射影行列を生成する平面射影変換行列生成部と、
前記平面射影行列から基準画像平面に対する透視投影行列を生成し、動画像に含まれる手のひらの画像から前記世界座標における手のひらの姿勢情報を生成する位置姿勢算出部と、
を備えることを特徴とする画像認識装置。
【請求項2】
抽出した各指先に対応する特徴点の画像座標間の距離をそれぞれ比較して指先の種類を特定する指先種別判定部と、
前記手のひらのシルエット画像における手のひらの画像部分から、中指と各指の重心とを結ぶ線分方向に該重心から移動しながら、該線分と直交するシルエット画像成分を計数し、この計数値の減少傾向を追跡して手首近辺の特徴点の画像座標を決定する手首画像座標取得部とを更に備え、
前記平面射影変換行列生成部は、当該世界座標の1平面に位置する基準画像平面における各指先の基準座標と手首の基準座標に対して、前記手首付近の特徴点の画像座標の平面射影行列を生成することを特徴とする、請求項1に記載の画像認識装置。
【請求項3】
前記平面射影変換行列生成部は、前記基準画像平面上に仮想的な正方形を設定し、前記位置姿勢算出部は、該正方形の4つの頂点に対して平面射影変換行列を用いて射影変換を施し、この射影変換で得られる4つの頂点の画像座標に基づいて基準画像平面に対する当該透視投影行列を生成し、手のひらの姿勢を推定することを特徴とする、請求項1又は2に記載の画像認識装置。
【請求項4】
前記指先画像座標取得部は、処理対象の画像フレーム中から取得した各指先の画像座標が、5つの指先の画像座標として取得したか否かを判別する手段を有し、5つの指先の画像座標として取得していないと判別した場合に、当該動画像における別の画像フレームを処理対象とすることを特徴とする、請求項1〜3のいずれか一項に記載の画像認識装置。
【請求項5】
動画像のみから該動画像に含まれる手のひらの3次元の姿勢を推定する画像認識装置として構成するコンピュータに、
動画像の画像フレーム中の手のひら画像部分を肌色判定処理を施して手のひらのシルエット画像を抽出し、該シルエット画像における手のひらの画像部分から最小外接多角形処理及び円形抽出フィルタ処理を施して指先の画像座標を取得するステップと、
動画像の世界座標及び当該世界座標の1平面に位置する基準画像平面を設定し、該基準画像平面における指先の基準座標に対して、前記指先の画像座標の平面射影行列を生成するステップと、
前記平面射影行列から基準画像平面に対する透視投影行列を生成し、動画像に含まれる手のひらの画像から前記世界座標における手のひらの姿勢情報を生成するステップと、
を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図9】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2010−113530(P2010−113530A)
【公開日】平成22年5月20日(2010.5.20)
【国際特許分類】
【出願番号】特願2008−285697(P2008−285697)
【出願日】平成20年11月6日(2008.11.6)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】