映像処理方法及び装置
【課題】深さ情報のみを用いて被写体を検出するに当たって、演算処理速度を高める。
【解決手段】映像処理方法は、映像の深さ情報を獲得するステップと、前記映像から目標物が存在する領域に対する第1関心領域を分離するステップと、前記第1関心領域から目標物に対する候補領域を検出するステップと、前記検出された候補領域が目標物に対応するか否かを判断するステップと、前記候補領域が目標物に対応する場合、前記候補領域を用いて目標領域を検出するステップと、前記検出した目標領域を用いて目標物の姿勢を推定するステップと、前記目標物をモデリングするステップと、を含む。
【解決手段】映像処理方法は、映像の深さ情報を獲得するステップと、前記映像から目標物が存在する領域に対する第1関心領域を分離するステップと、前記第1関心領域から目標物に対する候補領域を検出するステップと、前記検出された候補領域が目標物に対応するか否かを判断するステップと、前記候補領域が目標物に対応する場合、前記候補領域を用いて目標領域を検出するステップと、前記検出した目標領域を用いて目標物の姿勢を推定するステップと、前記目標物をモデリングするステップと、を含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は映像処理方法及び装置に関し、特に、深さ情報を有する映像から人のような目標物を検出してモデリングするための映像処理方法に関する。
【背景技術】
【0002】
コンピュータビジョンの重要な部分であるCCDカメラは2次元のイメージのみを読み込むことができる。しかしながら、私達が生きている空間は3次元からなっており、このような空間を認識する必要がある所では2次元イメージを提供する1台のカメラだけでは認識が困難になる。
【0003】
2次元情報のみの入力を受けることができるカメラなどのセンサーを通じて3次元情報を抽出するための試みとして、今まで次のようなさまざまな方法が開発されてきた。
【0004】
第1に、物体の表面にレーザーを走査してセンサーに反射されて来る時間を測定することにより距離を測定する方法が試みられた。この方法は、室内で15m以上遠く離れている物体の距離を測定する目的として容易に使用できるが、1cm以下の解像度を期待し難いので、活用範囲がそれほど広くない方法である。
【0005】
第2に、深さ情報を知ろうとする物体に一定のパターンを有する光を走査し、その結果物体の表面に表れたパターンの歪み程度を分析して表面の屈曲と距離を計算する方法が試みられた。この方法は、その他の技法のうち、最も簡単に具現できるが、物体とカメラの距離が遠くなれば解像度が格段に劣る短所を有している。
【0006】
第3に、モアレ(Moire)パターンを用いる技法も開発されたが、この方法は1方向で距離を測定しようとする物体に回折紋の光を走査し、物体で反射される紋を他の方向でレファレンス(reference)パターンと干渉(interference)を起こすようにする。そして、その結果として作られたモアレパターンを分析して物体の深さ情報を抽出する方法である。モアレパターンを用いる方法は解像度が10μmに至る位の精巧な結果を得ることができるが、データ演算量が莫大であるという短所がある。
【0007】
第4に、多数の種類の光源を物体に走査し、光源毎に異なる特性を示すようになる表面の変化を感知して物体の模様を推測し出す技法も試みられたが、この方法では一般的な3次元深さ情報を抽出することはできない。
【0008】
前述した技法は1台のカメラを使用して3次元情報を抽出する技法である。
【0009】
一方、最近には人間の視覚体系を摸倣して2台以上のカメラを使用する方法が試みられている。
【0010】
具体的に、2台以上のカメラを用いて使われるステレオビジョンは、一定の距離を置いて配置された2台のカメラで撮影された左映像及び右映像の幾何学的関係及び整合を用いてカメラから被写体の深さ情報を獲得することができる。深さ情報を獲得する過程では、正確で、かつ複雑な演算が要求されるが、本明細書では深さ情報を獲得する過程の以後に被写体を検出し、これに基づいて被写体をモデリングする方法について説明する。
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は、深さ情報のみを用いて被写体を検出するに当たって、被写体が存在する領域に対する関心領域を分離してイメージを処理することによって、演算処理速度を高めることができる。
【0012】
本発明は、映像の深さ情報によって分類された区間に基づいてピクセル集合に分解し、ピクセル集合のうち、目標物の可能性の高いものを候補領域を検出して目標物を検出することによって、イメージの3次元処理を可能にする。
【0013】
本発明が達成しようとする技術的課題は前述した技術的課題に制限されず、言及されない更に他の技術的課題は以下の記載から提案される実施形態が属する技術分野で通常の知識を有する者に明確に理解されるべきである。
【課題を解決するための手段】
【0014】
本発明の一実施形態に従う映像処理方法は、映像の深さ情報を獲得するステップ、映像から目標物が存在する領域に対する第1関心領域を分離するステップ、上記第1関心領域から目標物に対する候補領域を検出するステップ、上記検出された候補領域が目標物に対応するか否かを判断するステップ、既候補領域が目標物に対応する場合、上記候補領域を用いて目標領域を検出するステップ、既目標領域を用いて目標物の姿勢を推定するステップ、及び既目標物をモデリングするステップを含む。
【0015】
本発明の一実施形態に従う映像処理装置は、映像の深さ情報を獲得する映像獲得部、映像から目標物が存在する領域に対する第1関心領域を分離する関心領域分離部、上記第1関心領域から目標物に対する候補領域を検出する領域検出部、及び上記検出された候補領域が目標物に対応するか否かを判断するマッチング部を含み、上記候補領域が目標物に対応する場合、上記領域検出部は上記候補領域を用いて目標領域を検出し、上記目標領域を用いて目標物の姿勢を推定する姿勢推定部、及び上記目標物をモデリングするモデリング部をさらに含む。
【発明の効果】
【0016】
本発明によれば、深さ情報のみを用いて簡単で、かつ正確に目標物を検出することができ、目標物のパートを検出及び推定することによって目標物をモデリングすることができる。
【0017】
一方、その他の多様な効果は後述する本発明の実施形態に従う詳細な説明で直接的または暗示的に開示される。
【図面の簡単な説明】
【0018】
【図1】本発明の一実施形態に従う映像処理方法のためのフローチャートを示す。
【図2】本発明の一実施形態に従う映像処理方法における関心領域を抽出し、候補領域を検出する動作に対する細部フローチャートを示す。
【図3】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図4】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図5】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図6】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図7】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図8】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図9】本発明の一実施形態に従う映像処理方法における候補領域が目標物にマッチングされるか否かを判断する過程で処理されるイメージの一例を示す。
【図10】本発明の一実施形態に従う映像処理方法における候補領域が目標物にマッチングされるか否かを判断する過程で処理されるイメージの一例を示す。
【図11】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法に対する細部フローチャートを示す。
【図12】本発明の一実施形態に従う映像処理方法における目標領域を検出する過程で処理されるイメージの一例を示す。
【図13】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定する方法に対する細部フローチャートを示す。
【図14】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定する過程で目標物外郭線を処理するイメージの一例を示す。
【図15】本発明の一実施形態に従う映像処理方法における骨格を抽出する過程で処理されるイメージの一例を示す。
【図16】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定し、目標物をモデリングする過程で処理されるイメージの一例を示す。
【図17】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定し、目標物をモデリングする過程で処理されるイメージの一例を示す。
【図18】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定し、目標物をモデリングする過程で処理されるイメージの一例を示す。
【図19】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定し、目標物をモデリングする過程で処理されるイメージの一例を示す。
【図20】本発明の一実施形態に従う映像処理装置の構成に対するブロック図を示す。
【発明を実施するための形態】
【0019】
以下、本発明の一実施形態に対して説明する。本発明の目標物に対して人として例示して本明細書で説明され、目標物のパートは人の胴体、腕、または脚として例示して説明される。本発明は人だけでなく、動物、ロボット、他の目標物に対しても適用できる。
【0020】
また、本発明に従う映像処理装置は、カメラ、ネットワークカメラ、コンピュータ、スマートフォン、ネットワークTV、スマートTV、携帯電話、ゲームプレーヤーのように、撮影されたイメージを処理できるプロセッサー及びアプリケーションが搭載される任意のデバイスに対して汎用的に適用できる。
【0021】
また、本明細書で説明される映像の深さ情報は、ステレオカメラの左・右カメラから獲得された深さ情報として例示できるが、レーザースキャナー、超音波装置からも深さ情報が獲得できる等、深さ情報の獲得方法及び撮影装置の種類には制限がない。また、深さ情報はイメージを撮影するカメラ及び物体の間の距離であることがあり、本明細書では0乃至255の相対的なサイズ値として例示される。
【0022】
図3の(a)は目標物10を人として撮影した場合、カラーデータで表現されるイメージを示し、図3の(b)は深さ情報で表現される映像を示す。図3の(b)を参照すると、映像の明暗が明るいほど深さ情報は大きい値を有し、カメラから近いことを示し、明暗が暗いほど深さ情報が小さくなり、カメラから遠く離れていることを示す。図3の(b)を参照すると、人10は最も明るく表れる映像の周辺物体よりカメラから遠く離れていることを示す。図3の(c)は、深さ情報を獲得できるステレオカメラの形状を例示した図である。2つのカメラc1、c2は基準線距離(L)を置いて離れて位置し、各カメラc1、c2から獲得される映像を用いて深さ情報が獲得できる。
【0023】
一方、本明細書において目標物を検出する過程では、映像の深さ情報(d)を活用して実際長さ(R)に該当するピクセル数(p)を推定することができ、以下の式(1)が用いられる。
【0024】
【数1】
【0025】
例えば、本明細書では人領域を検出するために、20cmのような所定幅の矩形を設定し、該当矩形より小さい領域を人領域でないものと見なしている。
【0026】
この場合、実際長さ20cmに対応するイメージの長さを示すピクセル数を算出するために、式(1)が利用できる。
【0027】
式(1)によりカメラの焦点距離、しきい値として使われる実際長さ、または深さ情報が変わることを反映してダイナミックに活用できるので、適応的しきい値を用いた目標物検出がより容易になる。
【0028】
以下、図1を参照して本発明に対して説明する。
【0029】
図1は、本発明の一実施形態に従う映像処理方法のためのフローチャートを示す。図1は、本発明の映像処理方法の概略的なフローチャートを示す。
【0030】
ステップS11で、映像の深さ情報を獲得する。獲得される深さ情報は0乃至255の値の範囲内で被写体の撮影環境及びカメラ性能によって、その範囲の一部、例えば、50乃至200の範囲に分布できる。深さ情報は映像のピクセル別に割り当てられて獲得できる。
【0031】
ステップS12で、映像から目標物が存在する領域に対する第1関心領域を分離する。本明細書では、映像を横に3等分した中領域が第1関心領域でありうる。一方、後述する第2関心領域は本明細書における映像を縦方向に3個の領域に分離した後の中領域でありうる。
【0032】
ステップS13で、第1関心領域から候補領域を検出する。候補領域の検出過程で映像を深さ情報別に複数のピクセル集合に分割し、ピクセル客体を生成して、目標物と判断される可能性がある複数のピクセル客体に対して候補領域として検出することができる。
【0033】
ステップS14で、検出された候補領域が目標物に対応するか否かを判断する。目標物に対応するか否かを判断する過程で、人の場合、候補領域から脳天点を抽出し、これに基づいて脳天点から一部領域に対してテンプレートマッチングを遂行することによって、目標物に対応するか否かを判断することができる。
【0034】
ステップS15で、候補領域が目標物に対応する場合、上記候補領域を用いて目標領域を検出する。目標領域は検出された候補領域の幅を用いて第2関心領域を分離した後、該当映像を2進化処理、ラベリング処理、及びノイズ除去過程を通じて目標物と判断される可能性がある目標領域を2進化した映像として明確に抽出する過程である。
【0035】
ステップS16で、検出された目標領域を用いて目標領域の姿勢を推定する。目標領域の外郭線及び骨格を抽出し、これを用いて目標領域のパート部分を推定することによって、目標領域の姿勢を推定することができる。
【0036】
ステップS17で、推定結果を用いて目標物をモデリングする。
【0037】
以上、本発明の一実施形態に従う映像から目標物を検出してモデリングするための映像処理方法について簡略に説明した。以下、図1の動作の細部的な処理に対して処理されるイメージを例示して説明される。
【0038】
図2は、本発明の一実施形態に従う映像処理方法における関心領域を抽出し、候補領域を検出する動作に対する細部フローチャートを示す。図3乃至図8は、本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。図2の動作を図3乃至図8のイメージ処理過程と共に説明する。
【0039】
ステップS121で、映像を複数の領域に分割し、ステップS122で、分割された複数領域のうちの一部領域を第1関心領域に設定する。
【0040】
図3の(d)を参照すると、映像を横方向に3等分し、中領域(ROI)を第1関心領域(ROI:Region Of Interest)として抽出している。具体的に、映像を分割する境界線(Lu)の上領域をAu、境界線(Lb)の下領域をAbに設定して境界線(Lu、Lb)の中領域を第1関心領域(ROI)に設定している。
【0041】
図3の(c)では、目標物10が第1関心領域(ROI)に存在している。本明細書では、目標物として検出しようとする人を撮影する場合、映像の中部分に人領域が存在する可能性が高いと前提し、これによって中領域を第1関心領域に設定している。しかしながら、第1関心領域の設定は図3の(d)に例示するように、横方向に3等分するという必須な限定がないので、他の分割方法または領域に任意に設定できる。
【0042】
ステップS131で、第1関心領域の映像を深さ情報に基づいて複数のピクセル集合に分解する。
図4の(a)は、図3に示す正面図と相異するように、カメラが撮影する空間をカメラから距離方向に眺める側面図を示す。図4の(a)を参照すると、カメラから最も近いフロント地点(front)が最も大きい深さ情報として表現され、カメラから最も遠いバック地点(back)が最も小さい深さ情報として表現される。本発明では、最も大きい深さ情報から小さい深さ情報に至る映像の深さ情報の全体範囲に対し、複数個の基準深さ値(pivot1、pivot2、pivot3、pivot4)を設定し、既設定された単位区間(区間1、区間2、区間3、区間4)の内に存在する複数個のピクセル集合を抽出する。
【0043】
例えば、最大深さ値が200、最小深さ値が50の映像を獲得する場合、深さ情報200乃至170を区間1に設定し、深さ情報185乃至155を区間2に設定し、深さ情報170乃至140を区間3に設定することができる。次に、該当区間1、2、または3に深さ情報を有するピクセル集合を区間別に抽出することができる。
【0044】
この際、図4の(b)を参照して基準深さ値(pivot)を基準とする単位区間の設定について説明する。
【0045】
基準深さ値(pivot)を中心として15位深さ値が増加する区間及び15位深さ値が減少する区間を1つの単位区間に設定することができる。即ち、この場合、単位区間のサイズは深さ値30になることができる。
【0046】
本明細書では単位区間のサイズを30に設定しているが、これに限定されず、人の実際の厚さに基づいて式(1)を用いて適応的に計算できる。例えば、通常的な人の実際の厚さが20cm以内の場合、式(1)に20cmを適用し、これに該当する深さ情報を算出することができる。
【0047】
一方、各区間内で深さ値を有するピクセル集合は塊りとして抽出されることもあり、多数個の群集が分散して抽出されることもできる。また、各区間は図4の(a)のように隣り合う区間が互いに1/2単位区間ずつ重複して設定されることもできる。各区間を重畳しないで連続して設定したり、または各区間の間に余白が生じるように区間を設定する場合には、これによって欠落されるピクセルが生じることがあるためである。また、各区間の分解によって同一な物体が分解されて他の区間に散らばってピクセル集合として表現されることができ、この場合には目標物を検出し難くなるためである。
【0048】
即ち、複数個の基準深さ値の間の間隔を単位区間サイズより小さいか等しく設定することによって、目標物が他の区間に分解されることを防止し、演算過程で欠落されるピクセルが生じないようにすることができる。
【0049】
図5は、複数の区間別に分解されるピクセル集合を例示したイメージを示す。図5の(a)は区間1で深さ情報を有するピクセル集合を示し、図5の(b)は区間2で深さ情報を有するピクセル集合を示し、図5の(c)は区間3で深さ情報を有するピクセル集合を示し、図5の(d)は区間4で深さ情報を有するピクセル集合を示し、図5の(e)は区間5で深さ情報を有するピクセル集合を示し、図5の(f)は区間6で深さ情報を有するピクセル集合を示し、図5の(g)は区間7で深さ情報を有するピクセル集合を示す。図5を参照すると、区間2で抽出されるピクセル集合が目標物が存在する領域に近いことが分かる。
【0050】
また、映像に対して複数のピクセル集合で図5のように分解した後、目標物が存在する可能性の高いピクセル集合を除去する過程が必要である。例えば、ピクセル集合のサイズがあまり小さく設定される場合である。したがって、1つのピクセル集合を構成するピクセル数が以下の式(2)のようにしきい値未満の場合には、このようなピクセル集合を除去して演算量を減少させることができる。
【0051】
【数2】
【0052】
したがって、図5で獲得されるピクセル集合に対しても式(2)を適用して条件を満たすピクセル集合を除去する。
【0053】
ステップS132で、分解された各ピクセル集合に対してラベリングを遂行して少なくとも1つのピクセル客体を生成する。即ち、各ピクセル集合の重心を抽出して極小のピクセル集合を大きいピクセル集合に受容させたり除去することによって、各ピクセル集合をピクセル客体として生成する。
【0054】
本明細書で説明されるピクセル客体は複数のピクセルで構成されるピクセルグループ、またはピクセル塊りに規定されることができ、同一または類似の深さ情報を有しているので、同一な物体と判断される可能性があるピクセルの集合である。
【0055】
ステップS133で、ピクセル客体を分析してノイズと判断されたピクセル客体を除去する。
この場合、所定条件を満たすピクセル客体に対してノイズと判断して除去する演算が遂行できる。これに対して後述する。
【0056】
条件1として、少なくとも1つのピクセル客体を構成するピクセル数が既設定されたしきい値の以下の場合でありうる。例えば、人を検出する場合、ピクセル客体を構成するピクセルの数が一定数以上になるという仮定によるものである。例えば、実際の深さ20cm幅を有する正方形を構成するピクセル数を式(1)を用いて求めて、ピクセル客体を構成するピクセル数がこれより小さい場合には意味のないピクセル客体と見做して除去することができる。
【0057】
図6の(a)を参照すると、ピクセル客体N1はそのサイズが小さくて該当ピクセル個数がしきいピクセル個数以下であるので、ノイズと見なされている。
【0058】
条件2として、上記少なくとも1つのピクセル客体の外郭を囲む四角形の幅が既設定されたしきい値以下の場合でありうる。ここでは、人を検出しようとする場合、人の横幅は特定長さ、例えば、20cm以上になることを予想することができる。20cmに相応するピクセル個数は式(1)を用いて演算することができる。図6の(b)を参照すると、ピクセル客体N2の横幅が実際の長さ20cm以下であるので、ノイズと見なされて除去される。
【0059】
条件3として、少なくとも1つのピクセル客体の外郭を囲む四角形に含まれるピクセル数の割合が既設定されたしきい範囲の他に存在する場合でありうる。図6の(c1)及び(c2)を参照すると、ピクセルの最外郭を囲む四角形R3を設定することができ、この四角形内に存在するピクセル数の割合が既設定されたしきい割合であるか否かを判断することができる。ピクセル数の割合は四角形内のピクセル数対四角形を構成するピクセル数でありうる。ピクセル数の割合が既設定されたしきい範囲の他の存否を判断するための条件は以下の式(3)で表すことができる。
【0060】
【数3】
【0061】
図6の(c1)を参照すると、ピクセル数の割合が最小しきい値以下の場合を例示し、図6の(c2)はピクセル数の割合が最大しきい値以上の場合を例示する。人を目標物として検出する場合には、人の上半身の形状がオメガ(Ω)に近いので、ピクセル数の割合が最大しきい値以上に高い場合には、ピクセルの形状が四角形に近いということを意味するので、人でない場合が高い。また、ピクセル数の割合が最小しきい値以下に低い場合にも人でない可能性が高い。最小しきい値及び最大しきい値は、四角形及び人の形状に基づいて適応的に設定できるので、式(3)で例示される値により限定されない。
【0062】
最後に、条件4として、少なくとも1つのピクセル客体が上記複数の領域に分割する境界線の一部と離れている場合でありうる。図6の(d1)は分割境界線(Lb)にピクセル客体P3が合う場合を例示する。直立の人を検出しようとする場合には、人の下半身が分割境界線(La、Lb)のうちの下端の境界線(Lb)と合う可能性が高い。したがって、図6の(d1)のピクセル客体P3は条件4を満たさない場合であるので、そのまま置いて、ピクセル客体P4が境界線(Lb)と離れている場合には人がでないノイズと見做して除去できる。図6の(d2)はピクセル客体P4が境界線(Lb)と離れている場合で、ノイズとして除去できる。
【0063】
結論的に、ステップS133では、条件1乃至条件4のうち、いずれか1つを満たすピクセル客体に対してはノイズと判断して除去できる。
【0064】
ステップS134で、少なくとも1つのピクセル客体に対して目標物に対応する領域に対する候補領域を生成する。この過程は、ステップS133にノイズが除去されるピクセル客体に対しては候補領域として検出される動作を意味する。図7を参照すると、深さ情報によって複数個に分解されたピクセルグループから、ラベリング処理及びノイズ除去処理が遂行された後、生成される候補領域を示す。図7に示すように、図5で分解されて生成されるピクセルグループの一部が除去または変形されて、(a)乃至(f)のように複数個の候補領域が検出できる。
【0065】
図8の(a)は本発明によって映像を深さ値の区間別に分割して処理しない場合に検出される候補領域のイメージを示し、図8の(b)は本発明に従う候補領域を示す。2つ映像を比較して見ると分かるように、深さ値の区間別に分割して処理することによって、人と類似の深さ値を有する周辺背景または物体が明確に分離、除去できる。
【0066】
次に、ピクセル客体が候補領域として検出されれば、各領域に対して目標物か否かを検証するステップが必要である。
【0067】
図9及び図10は、本発明の一実施形態に従う映像処理方法における候補領域が目標物にマッチングされるか否かを判断する過程で処理されるイメージの一例を示す。
【0068】
一方、マッチング過程は候補領域が目標物である人の形状であるオメガ形状に近いか否かを判断する過程であるが、候補領域の検出において目標物の一部が切り落とされた状態で検出されることがあるので、目標物の復元が必要である。
【0069】
図9の(a)を参照すると、人の頭形状が関心領域(ROI)内に存在する場合には、検出された候補領域がオメガ形状を含んでいるので、目標物の復元を必要としない。
【0070】
一方、図9の(b)を参照すると、人がカメラに近く位置して人の頭形状が関心領域(ROI)の他に存在する場合には、図9の(c)に示すように、候補領域の形状が目標物の形状とマッチングされないことがあるので、目標物の復元が必要である。この場合、復元を必要とする部分は図9の(b)に示す一部部分であるので、Au領域の一部面積(S)に対して復元すればよい。
【0071】
目標物の復元の要否は候補領域の上端が境界線(Lu)と合うかによって判断できる。
【0072】
復元する過程では、ステップS12乃至ステップS13で処理される一連の過程が必要である。しかしながら、Au領域の一部面積及び深さに対してピクセル客体を復元すればよいので、演算処理が簡単になる。具体的に、Au領域の一部面積(S)に対して映像を複数のピクセル客体に分割する。この場合、全体深さ範囲に対して分割せず一部深さ範囲に対してのみ分割することができる。なぜならば、候補領域が含まれる区間、例えば、図5の区間2のみをピクセル客体に分離してもよいためである。
【0073】
その他にも、分割する方法において、候補領域の深さ値の平均を基準深さ値(pivot)に設定して基準深さ値を中心に単位区間に該当するピクセル客体に分割することもできる。ピクセル客体を分割、候補領域として検出するステップS12乃至ステップS13の動作を遂行すれば、境界線(Lu)の上部分Auに存在する目標物領域の一部が復元できる。
【0074】
即ち、第1関心領域の他に目標物の一部の存否を判断して、目標物の一部が存在する場合、上記第1関心領域の他に存在する目標物の一部を復元することによって、目標物検出過程を正確に遂行することができる。
【0075】
次に、候補領域に対して目標物がマッチングされるか否かを判断する過程について図10を参照して説明する。マッチング過程では候補領域の上端部分が人の上半身の一部と仮定し、既設定された上半身形状に対してテンプレートマッチングを遂行することによって遂行できる。この場合、人の上半身を抽出しなければならないので、人の脳天点を検出する必要がある。
【0076】
図10の(a)は候補領域を示す。脳天点を検出するためには、候補領域に対して図10の(b)のように候補領域の外郭線ピクセルに対して−y軸方向に延長させる。ピクセル別の最上端地点のy軸に対して図10の(b)のように−y軸方向に連結して1つの線に作る。ここで、最上端地点のy軸は候補領域の最下端の位置と連結できる。
【0077】
次に、図10の(c)で、スムージング処理を行なって外郭線のノイズを除去する。スムージング処理を行うことで、不要な地点が地域的最大点として検出されることを防止することができる。地域的最大点は外郭線の傾きが正から負に変化する地点であって、本発明では候補領域の脳天点を検出するために使われる。したがって、不要な地点が地域的最大点として検出されることを防止するためにスムージング処理を行う。
【0078】
次に、図10の(d)で、スムージング処理された候補領域のうち、地域的最大点を抽出し、この点を脳天点Cとして検出することができる。本明細書では、脳天候補点でも説明できる。
【0079】
脳天点Cが検出されれば、この点から下端まで縦しきい値、この点の両側の横しきい値を用いて人候補イメージを生成する。本明細書では横しきい値を実際長さ15cmに設定し、縦しきい値を30cmに設定することができ、これに対応するピクセル数を式(1)を用いて算出し、候補領域から人候補イメージを検出する(図10の(g)参照)。次に、検出された人候補イメージに対して図10の(h)に例示される人標本イメージと共に類似度を比較することができる。類似度の比較の前に人候補イメージに対して人標本イメージに合うようにリサイズ(resize)できる。
【0080】
図10の(h)を参照すると、人標本イメージはオメガ形状を有することができ、人候補イメージとの類似度の比較のために式(4)のようなNCC(Normalized Cross Correlation)方法が利用できる。
【0081】
即ち、テンプレートイメージをIt、人候補イメージをIqとすれば、イメージ間の類似度NCC(It、Iq)は、以下の式(4)により求められる。
【0082】
【数4】
【0083】
ここで、n:人標本イメージを構成するピクセル個数、
【数5】
はテンプレートイメージのピクセル画素値の平均値、
【数6】
は人候補イメージのピクセル画素値の平均値、σt、σqは各イメージのピクセル画素値の平均値に対する標準偏差を示す。
【0084】
NCC(It、Iq)の値がしきい値、例えば、0.6〜0.7より高い場合、人候補イメージに対して人と判断することができる。
【0085】
図11は本発明の一実施形態に従う映像処理方法における目標領域を検出する方法に対する細部フローチャートを示し、図12は本発明の一実施形態に従う映像処理方法における目標領域を検出する過程で処理されるイメージの一例を示す。図11の過程は図12と共に説明する。目標物検出過程は、候補領域に対して最終の目標物領域を検出するための処理でありうる。
【0086】
ステップS151で、検出された候補領域を用いて第2関心領域を分離する。図12の(a)を参照すると、人形状として検出された候補領域C2の幅を用いて映像を縦方向に分割し、候補領域C2が含まれる中領域を第2関心領域として分離し出す。
【0087】
ステップS152で、第2関心領域を候補領域C2の平均深さ情報を用いて2進化処理する。例えば、候補領域C2の平均深さ情報が175の場合には175より15位大きく、15位小さい範囲である、深さ情報160乃至190の深さ値を有するピクセル客体を抽出して、抽出されたピクセル客体に対して最大深さ値である255として処理し、残りの領域を最小深さ値である0として処理することができる。
【0088】
即ち、候補領域の平均深さ情報を基準に所定範囲に存在するピクセル客体に対して2進化処理を遂行する。所定範囲の値は任意に設定され、制限されない。
【0089】
ステップS153で、2進化処理された第2関心領域に対してラベリング処理する。ラベリング過程では2進化処理されたピクセル客体のうち、最も大きい客体をボディー領域に規定し、この領域を中心にラベリング処理を遂行することができる。即ち、第2関心領域内のノイズや他の客体はボディー領域より小さいという仮定下である。なぜならば、人と検証された候補領域C2を基準に候補領域の平均深さ値に基づいて2進化処理を遂行したので、ノイズまたは他の客体が人より大きい可能性は少ない ためである。図12の(c)はラベリング処理された第2関心領域を示す。図12の(c)を参照すると、人のボディー部分C3及び底部分C4が検出できる。ここで、底部分を除去する必要がある。図12の(d)を参照すると、ボディー領域C3とその周囲の底領域C4は深さ情報が類似するので底領域C4がボディー領域C3と共に検出できる。まず、ボディー領域C3のトップ(top)を基準に下方に6/10地点になるラインを設定し、このラインから下方にピクセル割合を検査することができる。底領域C4は図12の(d)に示すように、横軸のピクセルが占める割合が非常に高いため、横軸のピクセルが占める割合が例えば80%以上の場合、底が始める地点と判断することができる。
【0090】
ステップS154で、上記ラベリング処理された第2関心領域のノイズを除去すれば目標領域が生成できる。具体的に、底と判断される領域C4を除去して目標領域を生成することができる。
【0091】
図12の(e)は、底領域が除去された最終映像を示す。即ち、本発明では第1関心領域のみを考慮して候補領域として検出し、検出された候補領域を用いて第1関心領域の以外の残りの領域に含まれる目標物の一部を検出することによって、目標領域として生成することができる。目標領域は2進化処理される映像として検出される。
【0092】
図13は本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定する方法に対する細部フローチャートを示し、図14は本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定する過程で目標物の外郭線を処理するイメージの一例を示す。目標領域の姿勢を推定する過程は、先に検出された目標領域、即ちシルエット映像が利用できる。シルエット映像は、身体領域を最大深さ値255、他の領域を最小深さ値0で構成される映像である。
【0093】
ステップS161で、目標領域の外郭線に対してスムージング処理する。図14の(a)乃至(d)は、目標領域に対してスムージング処理が実行された例を示す。図14の(a)は目標領域を示し、(b)は外郭線が抽出された目標領域を示し、(c)は外郭線に対してスムージング処理が遂行されたイメージを示し、(d)はスムージング処理された外郭線をシルエット映像に生成したイメージを示す。
【0094】
本発明において、目標領域の姿勢(pose)を推定するためには映像の骨格(skeleton)が用いられるが、骨格抽出過程はシルエット映像の外郭線に存在するノイズに敏感であるので、スムージング処理が必要である。スムージング処理動作は、式(5)のラジアルスイープ(Radial sweep)技法が利用できる。
【0095】
【数7】
【0096】
ここで、xi、yiは各々i番目外郭線のx、y座標を示す。
【0097】
ステップS162で、スムージング処理された目標領域の骨格を抽出する。骨格抽出において、DT変換(Distance transform)が利用できる。
【0098】
ステップS163で、目標物を構成するパートを推定する。DT変換は以下の式(6)が利用できる。
【0099】
【数8】
【0100】
ここで、d(p、q)はピクセルpとqとの間の距離を求める関数であり、DT変換の結果は該当ピクセルが外郭線から遠く離れている場合、大きい値を有するようになる。距離を計算する時、ユークリッド距離(Euclidean distance)が使用できる。図15の(a)はDT変換したイメージを示し、外郭線から遠く離れている骨格の付近は明るく表れ、近くある部分は暗く表れる。図15の(b)はDT変換イメージに対して正規化したイメージを示す。
【0101】
ここで、DT変換式に以下の式(7)を用いてスケルトン(skeleton)映像を生成することができる。
【0102】
【数9】
【0103】
NLとNHは各々ウィンドウの中心ピクセルより明るさ値の小さいピクセルの数、明るさ値の大きいピクセルの数を示す。Gはゲイン(Gain)であって、NL及びNH値の差をどれくらい増幅するかを決定する因子であり、例えば、14に設定できる。しきい値T0は180に設定できる。前述した式及び入力値を通じて生成されるスケルトン映像は、図15の(c)で示すことができる。スケルトン映像は式(7)に示すように255または0のうちの1つの値で示すので、スケルトンを構成する骨格線(skeleton line)が不連続的でありえる。
【0104】
図16乃至図19は、本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定し、目標物をモデリングする過程で処理されるイメージの一例を示す。
【0105】
図16の(a)を参照すると、目標領域を用いて目標物の中心パート、例えば胴体部分を推定している。胴体部分を推定するに当たって、まず、目標領域であるシルエット映像の重心(G)を抽出し、重心(G)を基準にシルエット映像の内部に含まれる矩形を設定する。重心(G)を矩形の重心とする矩形としてシルエット映像の内部に含まれることができる最大の矩形R3を設定することができる。この矩形R3の上端隅から人の上体割合と類似するように下端隅を含む一部領域を除去した矩形R4を設定する。上体割合は、例えば、1:1.65でありうる。
【0106】
シルエット映像から胴体が推定されれば、これを用いて図16の(b)に示すように、スケルトン映像にも胴体パートR4が推定できる。
【0107】
図17は、人のサブパートを推定するためのイメージ処理を説明する図である。サブパート、例えば、人の腕及び脚は、胴体部分の左右にあるという仮定下で方向性ウィンドウを用いて推定できる。一方、スケルトン映像を構成するデータはピクセルによって不連続的であるので、これらを連続的に生成しながら人の各パートに適合したモデリングが要求される。本発明ではこのために方向性ウィンドウ及び線形最小自乗近似法(linear least square approximation)が用いられる。
【0108】
図17の(a)は、本発明で用いられる方向性ウィンドウを例示する。図17の(a)に示すように、方向性ウィンドウは5個の領域に分割できる。図17の(b)を参照すると、胴体が推定されたスケルトン映像で方向性ウィンドウ(1,2,3...)を移動させながら腕パートを構成するスケルトンピクセルを収集することができる。図17の(b)では、ウィンドウ1から出発してウィンドウの方向を判断し、判断された方向によってウィンドウ2,3,...に移動させている。ウィンドウの移動原理に対して図17の(c)を参照すると、開始ピクセルを先に定めて、開始ピクセルから離れている次のピクセルがウィンドウの5領域のうちのどの領域方向であるかを判断して、この方向によってウィンドウを移動させることができる。図17の(b)の最初は、開始ピクセルが領域1であり、ウィンドウの方向を領域2にして移動させており、2番目は開始ピクセルが領域1であり、ウィンドウの方向を領域3にして移動させており、3番目では開始ピクセルが領域1であり、ウィンドウの方向を領域4にして移動させていることが分かる。ここで、方向性ウィンドウの移動方向を判断することには、線形最小自乗近似法(Linear Least Square Approximation)が用いられる。
【0109】
線形最小自乗近似法は、以下の式(8)にて示すことができる。
【0110】
【数10】
【0111】
a1は直線の傾きを表し、a0はy切片を意味する。nはモデリングするデータ個数を表し、xi、yiは各々i番目のx、y座標値を表す。線形最小自乗近似法を用いてスケルトンを直線1つあるいは2つにモデリングすることができる。ここで、ウィンドウを移動する過程で発生する標準推定エラー(Standard error of estimate)Sy/xの値が大きければ、データが直線1つでモデリングすることに適合しないという意味であるので、直線2つで腕をモデリングすることができる。これによって、誤差率を減少させることができる。
【0112】
Sy/xは以下の式(9)のように算出できる。
【0113】
【数11】
【0114】
図17の(d)は線形最小自乗近似法及び方向性ウィンドウを用いてサブパートである腕をモデリングしたイメージを例示する。
【0115】
一方、脚部分に対しても腕のように線形最小自乗近似法及び方向性ウィンドウを用いて求めることができる。脚部分が腕の推定と異なる点は、脚部分の開始地点が胴体部分R4から出発しないということである。脚の推定のためには開始地点を検出する必要がある。
【0116】
図18の(a)を参照すると、推定された胴体の四角形の下を関心領域(ROI)に設定し、胴体部分の下端と合うスケルトンピクセル(a1)を始めにして下向にスケルトンピクセルのx位置に対する標準偏差を計算する。この場合、脚が始まるピクセル(a2)に至れば、標準偏差が急激に変更される。この点を脚推定のための開始地点に設定することができる。図18の(b)では開始地点(a2)を始めにして方向性ウィンドウを移動させて脚部分を推定することができ、図18の(c)では線形最小自乗近似法及び方向性ウィンドウを用いて推定される脚をモデリングした形態を示す。方向性ウィンドウ移動及び線形最小自乗近似法に対しては、腕の推定で説明したので、その説明を省略する。
【0117】
図19の(a)は、首部分を推定するイメージ処理の一例を示す。図19の(a)に示すように、推定された胴体四角形の上端に首があると仮定して、胴体上端部分を関心領域(ROI)に設定し、関心領域(ROI)内に存在するピクセルに対して線形最小自乗近似法を遂行して首をモデリングすることができる。ここで、首スケルトンの端部に頭が位置すると仮定して頭位置を推定することができる。
【0118】
図19の(b)は、多様な映像に対して線形最小自乗近似法を用いて人をモデリングしたイメージを例示している。
【0119】
図20は、本発明の一実施形態に従う映像処理装置の構成に対するブロック図を示す。図20を参照すると、本発明の一実施形態に従う映像処理装置10は、映像の深さ情報を獲得する映像獲得部11、映像から目標物が存在する領域に対する第1関心領域を分離する関心領域分離部12、第1関心領域から目標物に対する候補領域を検出する領域検出部13、検出された候補領域が目標物に対応するか否かを判断するマッチング部14を含むことができる。ここで、領域検出部は細部的に候補領域検出部及び目標領域検出部を含むことができる。候補領域が目標物に対応する場合、領域検出部13は上記候補領域を用いて目標領域を検出することができる。また、映像処理装置10は、目標領域を用いて目標物の姿勢を推定する姿勢推定部15、及び上記目標物をモデリングするモデリング部16をさらに含むことができ、各映像処理過程で生成されるモデリングイメージ、映像の深さ情報、複数ピクセル客体、候補領域、及び最終領域などのイメージまたはデータを格納するメモリ17をさらに含むことができる。メモリは、映像処理装置10を構成する全てのモジュールと連結されて、これらが必要とするデータのリード/ライトのためのメモリを提供することができる。メモリは、例えば、HDD、フラッシュメモリ、RAM、ROMで構成できる。
【0120】
映像獲得部11は映像の深さ情報を獲得することができる。映像獲得部11は、映像の深さ情報を抽出するためのハードウェア、例えば、ステレオカメラ、レーザースキャナー、超音波装置などのモジュールを具備することができる。また、映像獲得部11は入力される情報を用いて映像の深さ情報を算出するための演算プロセッサーを具備することができる。例えば、ステレオ映像から深さ情報を獲得するためには、左・右カメラの基準値(カメラ間距離)、左右映像の視差などを用いて実際または情報または相対的な深さ値として算出する必要があるので、映像獲得部11はこのような演算処理を遂行するためのプロセッサーを具備することができる。
【0121】
関心領域分離部12、映像を複数の領域に分割し、分割された複数領域のうちの一部の領域を第1関心領域に設定することができる。
【0122】
領域検出部13は、第1関心領域の映像を深さ情報に基づいて複数のピクセル集合に分解し、上記分解された各ピクセル集合に対してラベリングを遂行して少なくとも1つのピクセル客体を生成し、上記ピクセル客体を分析してノイズと判断されたピクセル客体を除去し、上記ノイズが除去された少なくとも1つのピクセル客体に対して目標物に対応する領域に対する候補領域を生成する候補領域生成部を含むことができる。
【0123】
ここで、候補領域検出部は、複数のピクセル集合に分解するに当たって、映像の深さ情報の全体範囲に対し、複数個の基準深さ値を設定し、設定された基準深さ値を基準に既設定された単位区間内に存在する複数個のピクセル集合を抽出することができる。
【0124】
また、候補領域検出部は、少なくとも1つのピクセル客体を構成するピクセル数が既設定されたしきい値以下の場合(条件1)、上記少なくとも1つのピクセル客体の外郭を囲む四角形の幅が既設定されたしきい値以下の場合(条件)、上記少なくとも1つのピクセル客体の外郭を囲む四角形に含まれるピクセル数の割合が既設定されたしきい範囲の他に存在する場合(条件3)、及び上記少なくとも1つのピクセル客体が上記複数の領域に分割する境界線の一部と離れている場合(条件4)のうち、少なくとも1つの条件が満たす場合にピクセル客体を分析してノイズと判断されたピクセル客体を除去することができる。
【0125】
領域検出部13は、上記検出された候補領域を用いて第2関心領域を分離し、上記第2関心領域を候補領域の平均深さ情報を用いて2進化処理し、上記2進化処理された第2関心領域に対してラベリング処理し、上記ラベリング処理された第2関心領域のノイズを除去して上記目標領域を検出することができる。
【0126】
マッチング部14は、第1関心領域の他に目標物の一部の存否を判断して、目標物の一部が存在する場合、上記第1関心領域の他に存在する目標物の一部を復元することができる。また、マッチング部14は、候補領域を標本イメージと比較して類似度を判断して上記検出された候補領域が目標物に対応するか否かを判断することができる。
【0127】
姿勢推定部15は、目標領域の外郭線に対してスムージング処理し、上記目標領域の骨格を抽出し、上記目標物を構成するパートを推定して上記目標領域の姿勢を推定することができる。また、姿勢推定部15は、目標領域の重心を用いて中心パートを推定し、上記中心パートを用いてサブパートを推定して上記目標領域の姿勢を推定することができる。
【0128】
一方、図20では映像装置を構成するモジュールに対して機能別に独立的に図示されているが、各モジュールが1つのプロセッサーに搭載されて統合できる。
【0129】
以上、本発明の一実施形態に従う映像処理方法などについて説明した。本発明の映像処理方法は、モデリングされた目標物の動きを追従し、該当動き情報を入力とするユーザインターフェースのための方法に適用されることができ、コンピュータにより読取可能な記録媒体に電子的記録コードとして格納されて提供できる。
【0130】
また、本発明に従う映像処理装置は、コンピュータ、ネットワークTV、ゲームプレーヤー、スマートTV、ノートブックなどのユーザインターフェース装置で具現されたり、これに搭載されて提供できる。
【0131】
以上の説明は本発明の技術思想を例示的に説明したことに過ぎないものであって、本発明が属する技術分野で通常の知識を有する者であれば、本発明の本質的な特性から外れない範囲で多様な修正及び変形が可能である。したがって、本発明に開示された実施形態は本発明の技術思想を限定するためのものではなく、説明するためのものであり、このような実施形態によって本発明の技術思想の範囲が限定されるものではない。本発明の保護範囲は以下の請求範囲によって解釈されなければならず、それと同等な範囲内にある全ての技術思想は本発明の権利範囲に含まれるものと解釈されるべきである。
【技術分野】
【0001】
本発明は映像処理方法及び装置に関し、特に、深さ情報を有する映像から人のような目標物を検出してモデリングするための映像処理方法に関する。
【背景技術】
【0002】
コンピュータビジョンの重要な部分であるCCDカメラは2次元のイメージのみを読み込むことができる。しかしながら、私達が生きている空間は3次元からなっており、このような空間を認識する必要がある所では2次元イメージを提供する1台のカメラだけでは認識が困難になる。
【0003】
2次元情報のみの入力を受けることができるカメラなどのセンサーを通じて3次元情報を抽出するための試みとして、今まで次のようなさまざまな方法が開発されてきた。
【0004】
第1に、物体の表面にレーザーを走査してセンサーに反射されて来る時間を測定することにより距離を測定する方法が試みられた。この方法は、室内で15m以上遠く離れている物体の距離を測定する目的として容易に使用できるが、1cm以下の解像度を期待し難いので、活用範囲がそれほど広くない方法である。
【0005】
第2に、深さ情報を知ろうとする物体に一定のパターンを有する光を走査し、その結果物体の表面に表れたパターンの歪み程度を分析して表面の屈曲と距離を計算する方法が試みられた。この方法は、その他の技法のうち、最も簡単に具現できるが、物体とカメラの距離が遠くなれば解像度が格段に劣る短所を有している。
【0006】
第3に、モアレ(Moire)パターンを用いる技法も開発されたが、この方法は1方向で距離を測定しようとする物体に回折紋の光を走査し、物体で反射される紋を他の方向でレファレンス(reference)パターンと干渉(interference)を起こすようにする。そして、その結果として作られたモアレパターンを分析して物体の深さ情報を抽出する方法である。モアレパターンを用いる方法は解像度が10μmに至る位の精巧な結果を得ることができるが、データ演算量が莫大であるという短所がある。
【0007】
第4に、多数の種類の光源を物体に走査し、光源毎に異なる特性を示すようになる表面の変化を感知して物体の模様を推測し出す技法も試みられたが、この方法では一般的な3次元深さ情報を抽出することはできない。
【0008】
前述した技法は1台のカメラを使用して3次元情報を抽出する技法である。
【0009】
一方、最近には人間の視覚体系を摸倣して2台以上のカメラを使用する方法が試みられている。
【0010】
具体的に、2台以上のカメラを用いて使われるステレオビジョンは、一定の距離を置いて配置された2台のカメラで撮影された左映像及び右映像の幾何学的関係及び整合を用いてカメラから被写体の深さ情報を獲得することができる。深さ情報を獲得する過程では、正確で、かつ複雑な演算が要求されるが、本明細書では深さ情報を獲得する過程の以後に被写体を検出し、これに基づいて被写体をモデリングする方法について説明する。
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は、深さ情報のみを用いて被写体を検出するに当たって、被写体が存在する領域に対する関心領域を分離してイメージを処理することによって、演算処理速度を高めることができる。
【0012】
本発明は、映像の深さ情報によって分類された区間に基づいてピクセル集合に分解し、ピクセル集合のうち、目標物の可能性の高いものを候補領域を検出して目標物を検出することによって、イメージの3次元処理を可能にする。
【0013】
本発明が達成しようとする技術的課題は前述した技術的課題に制限されず、言及されない更に他の技術的課題は以下の記載から提案される実施形態が属する技術分野で通常の知識を有する者に明確に理解されるべきである。
【課題を解決するための手段】
【0014】
本発明の一実施形態に従う映像処理方法は、映像の深さ情報を獲得するステップ、映像から目標物が存在する領域に対する第1関心領域を分離するステップ、上記第1関心領域から目標物に対する候補領域を検出するステップ、上記検出された候補領域が目標物に対応するか否かを判断するステップ、既候補領域が目標物に対応する場合、上記候補領域を用いて目標領域を検出するステップ、既目標領域を用いて目標物の姿勢を推定するステップ、及び既目標物をモデリングするステップを含む。
【0015】
本発明の一実施形態に従う映像処理装置は、映像の深さ情報を獲得する映像獲得部、映像から目標物が存在する領域に対する第1関心領域を分離する関心領域分離部、上記第1関心領域から目標物に対する候補領域を検出する領域検出部、及び上記検出された候補領域が目標物に対応するか否かを判断するマッチング部を含み、上記候補領域が目標物に対応する場合、上記領域検出部は上記候補領域を用いて目標領域を検出し、上記目標領域を用いて目標物の姿勢を推定する姿勢推定部、及び上記目標物をモデリングするモデリング部をさらに含む。
【発明の効果】
【0016】
本発明によれば、深さ情報のみを用いて簡単で、かつ正確に目標物を検出することができ、目標物のパートを検出及び推定することによって目標物をモデリングすることができる。
【0017】
一方、その他の多様な効果は後述する本発明の実施形態に従う詳細な説明で直接的または暗示的に開示される。
【図面の簡単な説明】
【0018】
【図1】本発明の一実施形態に従う映像処理方法のためのフローチャートを示す。
【図2】本発明の一実施形態に従う映像処理方法における関心領域を抽出し、候補領域を検出する動作に対する細部フローチャートを示す。
【図3】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図4】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図5】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図6】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図7】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図8】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。
【図9】本発明の一実施形態に従う映像処理方法における候補領域が目標物にマッチングされるか否かを判断する過程で処理されるイメージの一例を示す。
【図10】本発明の一実施形態に従う映像処理方法における候補領域が目標物にマッチングされるか否かを判断する過程で処理されるイメージの一例を示す。
【図11】本発明の一実施形態に従う映像処理方法における目標領域を検出する方法に対する細部フローチャートを示す。
【図12】本発明の一実施形態に従う映像処理方法における目標領域を検出する過程で処理されるイメージの一例を示す。
【図13】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定する方法に対する細部フローチャートを示す。
【図14】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定する過程で目標物外郭線を処理するイメージの一例を示す。
【図15】本発明の一実施形態に従う映像処理方法における骨格を抽出する過程で処理されるイメージの一例を示す。
【図16】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定し、目標物をモデリングする過程で処理されるイメージの一例を示す。
【図17】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定し、目標物をモデリングする過程で処理されるイメージの一例を示す。
【図18】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定し、目標物をモデリングする過程で処理されるイメージの一例を示す。
【図19】本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定し、目標物をモデリングする過程で処理されるイメージの一例を示す。
【図20】本発明の一実施形態に従う映像処理装置の構成に対するブロック図を示す。
【発明を実施するための形態】
【0019】
以下、本発明の一実施形態に対して説明する。本発明の目標物に対して人として例示して本明細書で説明され、目標物のパートは人の胴体、腕、または脚として例示して説明される。本発明は人だけでなく、動物、ロボット、他の目標物に対しても適用できる。
【0020】
また、本発明に従う映像処理装置は、カメラ、ネットワークカメラ、コンピュータ、スマートフォン、ネットワークTV、スマートTV、携帯電話、ゲームプレーヤーのように、撮影されたイメージを処理できるプロセッサー及びアプリケーションが搭載される任意のデバイスに対して汎用的に適用できる。
【0021】
また、本明細書で説明される映像の深さ情報は、ステレオカメラの左・右カメラから獲得された深さ情報として例示できるが、レーザースキャナー、超音波装置からも深さ情報が獲得できる等、深さ情報の獲得方法及び撮影装置の種類には制限がない。また、深さ情報はイメージを撮影するカメラ及び物体の間の距離であることがあり、本明細書では0乃至255の相対的なサイズ値として例示される。
【0022】
図3の(a)は目標物10を人として撮影した場合、カラーデータで表現されるイメージを示し、図3の(b)は深さ情報で表現される映像を示す。図3の(b)を参照すると、映像の明暗が明るいほど深さ情報は大きい値を有し、カメラから近いことを示し、明暗が暗いほど深さ情報が小さくなり、カメラから遠く離れていることを示す。図3の(b)を参照すると、人10は最も明るく表れる映像の周辺物体よりカメラから遠く離れていることを示す。図3の(c)は、深さ情報を獲得できるステレオカメラの形状を例示した図である。2つのカメラc1、c2は基準線距離(L)を置いて離れて位置し、各カメラc1、c2から獲得される映像を用いて深さ情報が獲得できる。
【0023】
一方、本明細書において目標物を検出する過程では、映像の深さ情報(d)を活用して実際長さ(R)に該当するピクセル数(p)を推定することができ、以下の式(1)が用いられる。
【0024】
【数1】
【0025】
例えば、本明細書では人領域を検出するために、20cmのような所定幅の矩形を設定し、該当矩形より小さい領域を人領域でないものと見なしている。
【0026】
この場合、実際長さ20cmに対応するイメージの長さを示すピクセル数を算出するために、式(1)が利用できる。
【0027】
式(1)によりカメラの焦点距離、しきい値として使われる実際長さ、または深さ情報が変わることを反映してダイナミックに活用できるので、適応的しきい値を用いた目標物検出がより容易になる。
【0028】
以下、図1を参照して本発明に対して説明する。
【0029】
図1は、本発明の一実施形態に従う映像処理方法のためのフローチャートを示す。図1は、本発明の映像処理方法の概略的なフローチャートを示す。
【0030】
ステップS11で、映像の深さ情報を獲得する。獲得される深さ情報は0乃至255の値の範囲内で被写体の撮影環境及びカメラ性能によって、その範囲の一部、例えば、50乃至200の範囲に分布できる。深さ情報は映像のピクセル別に割り当てられて獲得できる。
【0031】
ステップS12で、映像から目標物が存在する領域に対する第1関心領域を分離する。本明細書では、映像を横に3等分した中領域が第1関心領域でありうる。一方、後述する第2関心領域は本明細書における映像を縦方向に3個の領域に分離した後の中領域でありうる。
【0032】
ステップS13で、第1関心領域から候補領域を検出する。候補領域の検出過程で映像を深さ情報別に複数のピクセル集合に分割し、ピクセル客体を生成して、目標物と判断される可能性がある複数のピクセル客体に対して候補領域として検出することができる。
【0033】
ステップS14で、検出された候補領域が目標物に対応するか否かを判断する。目標物に対応するか否かを判断する過程で、人の場合、候補領域から脳天点を抽出し、これに基づいて脳天点から一部領域に対してテンプレートマッチングを遂行することによって、目標物に対応するか否かを判断することができる。
【0034】
ステップS15で、候補領域が目標物に対応する場合、上記候補領域を用いて目標領域を検出する。目標領域は検出された候補領域の幅を用いて第2関心領域を分離した後、該当映像を2進化処理、ラベリング処理、及びノイズ除去過程を通じて目標物と判断される可能性がある目標領域を2進化した映像として明確に抽出する過程である。
【0035】
ステップS16で、検出された目標領域を用いて目標領域の姿勢を推定する。目標領域の外郭線及び骨格を抽出し、これを用いて目標領域のパート部分を推定することによって、目標領域の姿勢を推定することができる。
【0036】
ステップS17で、推定結果を用いて目標物をモデリングする。
【0037】
以上、本発明の一実施形態に従う映像から目標物を検出してモデリングするための映像処理方法について簡略に説明した。以下、図1の動作の細部的な処理に対して処理されるイメージを例示して説明される。
【0038】
図2は、本発明の一実施形態に従う映像処理方法における関心領域を抽出し、候補領域を検出する動作に対する細部フローチャートを示す。図3乃至図8は、本発明の一実施形態に従う映像処理方法における目標領域を検出する方法により処理されるイメージの一例を示す。図2の動作を図3乃至図8のイメージ処理過程と共に説明する。
【0039】
ステップS121で、映像を複数の領域に分割し、ステップS122で、分割された複数領域のうちの一部領域を第1関心領域に設定する。
【0040】
図3の(d)を参照すると、映像を横方向に3等分し、中領域(ROI)を第1関心領域(ROI:Region Of Interest)として抽出している。具体的に、映像を分割する境界線(Lu)の上領域をAu、境界線(Lb)の下領域をAbに設定して境界線(Lu、Lb)の中領域を第1関心領域(ROI)に設定している。
【0041】
図3の(c)では、目標物10が第1関心領域(ROI)に存在している。本明細書では、目標物として検出しようとする人を撮影する場合、映像の中部分に人領域が存在する可能性が高いと前提し、これによって中領域を第1関心領域に設定している。しかしながら、第1関心領域の設定は図3の(d)に例示するように、横方向に3等分するという必須な限定がないので、他の分割方法または領域に任意に設定できる。
【0042】
ステップS131で、第1関心領域の映像を深さ情報に基づいて複数のピクセル集合に分解する。
図4の(a)は、図3に示す正面図と相異するように、カメラが撮影する空間をカメラから距離方向に眺める側面図を示す。図4の(a)を参照すると、カメラから最も近いフロント地点(front)が最も大きい深さ情報として表現され、カメラから最も遠いバック地点(back)が最も小さい深さ情報として表現される。本発明では、最も大きい深さ情報から小さい深さ情報に至る映像の深さ情報の全体範囲に対し、複数個の基準深さ値(pivot1、pivot2、pivot3、pivot4)を設定し、既設定された単位区間(区間1、区間2、区間3、区間4)の内に存在する複数個のピクセル集合を抽出する。
【0043】
例えば、最大深さ値が200、最小深さ値が50の映像を獲得する場合、深さ情報200乃至170を区間1に設定し、深さ情報185乃至155を区間2に設定し、深さ情報170乃至140を区間3に設定することができる。次に、該当区間1、2、または3に深さ情報を有するピクセル集合を区間別に抽出することができる。
【0044】
この際、図4の(b)を参照して基準深さ値(pivot)を基準とする単位区間の設定について説明する。
【0045】
基準深さ値(pivot)を中心として15位深さ値が増加する区間及び15位深さ値が減少する区間を1つの単位区間に設定することができる。即ち、この場合、単位区間のサイズは深さ値30になることができる。
【0046】
本明細書では単位区間のサイズを30に設定しているが、これに限定されず、人の実際の厚さに基づいて式(1)を用いて適応的に計算できる。例えば、通常的な人の実際の厚さが20cm以内の場合、式(1)に20cmを適用し、これに該当する深さ情報を算出することができる。
【0047】
一方、各区間内で深さ値を有するピクセル集合は塊りとして抽出されることもあり、多数個の群集が分散して抽出されることもできる。また、各区間は図4の(a)のように隣り合う区間が互いに1/2単位区間ずつ重複して設定されることもできる。各区間を重畳しないで連続して設定したり、または各区間の間に余白が生じるように区間を設定する場合には、これによって欠落されるピクセルが生じることがあるためである。また、各区間の分解によって同一な物体が分解されて他の区間に散らばってピクセル集合として表現されることができ、この場合には目標物を検出し難くなるためである。
【0048】
即ち、複数個の基準深さ値の間の間隔を単位区間サイズより小さいか等しく設定することによって、目標物が他の区間に分解されることを防止し、演算過程で欠落されるピクセルが生じないようにすることができる。
【0049】
図5は、複数の区間別に分解されるピクセル集合を例示したイメージを示す。図5の(a)は区間1で深さ情報を有するピクセル集合を示し、図5の(b)は区間2で深さ情報を有するピクセル集合を示し、図5の(c)は区間3で深さ情報を有するピクセル集合を示し、図5の(d)は区間4で深さ情報を有するピクセル集合を示し、図5の(e)は区間5で深さ情報を有するピクセル集合を示し、図5の(f)は区間6で深さ情報を有するピクセル集合を示し、図5の(g)は区間7で深さ情報を有するピクセル集合を示す。図5を参照すると、区間2で抽出されるピクセル集合が目標物が存在する領域に近いことが分かる。
【0050】
また、映像に対して複数のピクセル集合で図5のように分解した後、目標物が存在する可能性の高いピクセル集合を除去する過程が必要である。例えば、ピクセル集合のサイズがあまり小さく設定される場合である。したがって、1つのピクセル集合を構成するピクセル数が以下の式(2)のようにしきい値未満の場合には、このようなピクセル集合を除去して演算量を減少させることができる。
【0051】
【数2】
【0052】
したがって、図5で獲得されるピクセル集合に対しても式(2)を適用して条件を満たすピクセル集合を除去する。
【0053】
ステップS132で、分解された各ピクセル集合に対してラベリングを遂行して少なくとも1つのピクセル客体を生成する。即ち、各ピクセル集合の重心を抽出して極小のピクセル集合を大きいピクセル集合に受容させたり除去することによって、各ピクセル集合をピクセル客体として生成する。
【0054】
本明細書で説明されるピクセル客体は複数のピクセルで構成されるピクセルグループ、またはピクセル塊りに規定されることができ、同一または類似の深さ情報を有しているので、同一な物体と判断される可能性があるピクセルの集合である。
【0055】
ステップS133で、ピクセル客体を分析してノイズと判断されたピクセル客体を除去する。
この場合、所定条件を満たすピクセル客体に対してノイズと判断して除去する演算が遂行できる。これに対して後述する。
【0056】
条件1として、少なくとも1つのピクセル客体を構成するピクセル数が既設定されたしきい値の以下の場合でありうる。例えば、人を検出する場合、ピクセル客体を構成するピクセルの数が一定数以上になるという仮定によるものである。例えば、実際の深さ20cm幅を有する正方形を構成するピクセル数を式(1)を用いて求めて、ピクセル客体を構成するピクセル数がこれより小さい場合には意味のないピクセル客体と見做して除去することができる。
【0057】
図6の(a)を参照すると、ピクセル客体N1はそのサイズが小さくて該当ピクセル個数がしきいピクセル個数以下であるので、ノイズと見なされている。
【0058】
条件2として、上記少なくとも1つのピクセル客体の外郭を囲む四角形の幅が既設定されたしきい値以下の場合でありうる。ここでは、人を検出しようとする場合、人の横幅は特定長さ、例えば、20cm以上になることを予想することができる。20cmに相応するピクセル個数は式(1)を用いて演算することができる。図6の(b)を参照すると、ピクセル客体N2の横幅が実際の長さ20cm以下であるので、ノイズと見なされて除去される。
【0059】
条件3として、少なくとも1つのピクセル客体の外郭を囲む四角形に含まれるピクセル数の割合が既設定されたしきい範囲の他に存在する場合でありうる。図6の(c1)及び(c2)を参照すると、ピクセルの最外郭を囲む四角形R3を設定することができ、この四角形内に存在するピクセル数の割合が既設定されたしきい割合であるか否かを判断することができる。ピクセル数の割合は四角形内のピクセル数対四角形を構成するピクセル数でありうる。ピクセル数の割合が既設定されたしきい範囲の他の存否を判断するための条件は以下の式(3)で表すことができる。
【0060】
【数3】
【0061】
図6の(c1)を参照すると、ピクセル数の割合が最小しきい値以下の場合を例示し、図6の(c2)はピクセル数の割合が最大しきい値以上の場合を例示する。人を目標物として検出する場合には、人の上半身の形状がオメガ(Ω)に近いので、ピクセル数の割合が最大しきい値以上に高い場合には、ピクセルの形状が四角形に近いということを意味するので、人でない場合が高い。また、ピクセル数の割合が最小しきい値以下に低い場合にも人でない可能性が高い。最小しきい値及び最大しきい値は、四角形及び人の形状に基づいて適応的に設定できるので、式(3)で例示される値により限定されない。
【0062】
最後に、条件4として、少なくとも1つのピクセル客体が上記複数の領域に分割する境界線の一部と離れている場合でありうる。図6の(d1)は分割境界線(Lb)にピクセル客体P3が合う場合を例示する。直立の人を検出しようとする場合には、人の下半身が分割境界線(La、Lb)のうちの下端の境界線(Lb)と合う可能性が高い。したがって、図6の(d1)のピクセル客体P3は条件4を満たさない場合であるので、そのまま置いて、ピクセル客体P4が境界線(Lb)と離れている場合には人がでないノイズと見做して除去できる。図6の(d2)はピクセル客体P4が境界線(Lb)と離れている場合で、ノイズとして除去できる。
【0063】
結論的に、ステップS133では、条件1乃至条件4のうち、いずれか1つを満たすピクセル客体に対してはノイズと判断して除去できる。
【0064】
ステップS134で、少なくとも1つのピクセル客体に対して目標物に対応する領域に対する候補領域を生成する。この過程は、ステップS133にノイズが除去されるピクセル客体に対しては候補領域として検出される動作を意味する。図7を参照すると、深さ情報によって複数個に分解されたピクセルグループから、ラベリング処理及びノイズ除去処理が遂行された後、生成される候補領域を示す。図7に示すように、図5で分解されて生成されるピクセルグループの一部が除去または変形されて、(a)乃至(f)のように複数個の候補領域が検出できる。
【0065】
図8の(a)は本発明によって映像を深さ値の区間別に分割して処理しない場合に検出される候補領域のイメージを示し、図8の(b)は本発明に従う候補領域を示す。2つ映像を比較して見ると分かるように、深さ値の区間別に分割して処理することによって、人と類似の深さ値を有する周辺背景または物体が明確に分離、除去できる。
【0066】
次に、ピクセル客体が候補領域として検出されれば、各領域に対して目標物か否かを検証するステップが必要である。
【0067】
図9及び図10は、本発明の一実施形態に従う映像処理方法における候補領域が目標物にマッチングされるか否かを判断する過程で処理されるイメージの一例を示す。
【0068】
一方、マッチング過程は候補領域が目標物である人の形状であるオメガ形状に近いか否かを判断する過程であるが、候補領域の検出において目標物の一部が切り落とされた状態で検出されることがあるので、目標物の復元が必要である。
【0069】
図9の(a)を参照すると、人の頭形状が関心領域(ROI)内に存在する場合には、検出された候補領域がオメガ形状を含んでいるので、目標物の復元を必要としない。
【0070】
一方、図9の(b)を参照すると、人がカメラに近く位置して人の頭形状が関心領域(ROI)の他に存在する場合には、図9の(c)に示すように、候補領域の形状が目標物の形状とマッチングされないことがあるので、目標物の復元が必要である。この場合、復元を必要とする部分は図9の(b)に示す一部部分であるので、Au領域の一部面積(S)に対して復元すればよい。
【0071】
目標物の復元の要否は候補領域の上端が境界線(Lu)と合うかによって判断できる。
【0072】
復元する過程では、ステップS12乃至ステップS13で処理される一連の過程が必要である。しかしながら、Au領域の一部面積及び深さに対してピクセル客体を復元すればよいので、演算処理が簡単になる。具体的に、Au領域の一部面積(S)に対して映像を複数のピクセル客体に分割する。この場合、全体深さ範囲に対して分割せず一部深さ範囲に対してのみ分割することができる。なぜならば、候補領域が含まれる区間、例えば、図5の区間2のみをピクセル客体に分離してもよいためである。
【0073】
その他にも、分割する方法において、候補領域の深さ値の平均を基準深さ値(pivot)に設定して基準深さ値を中心に単位区間に該当するピクセル客体に分割することもできる。ピクセル客体を分割、候補領域として検出するステップS12乃至ステップS13の動作を遂行すれば、境界線(Lu)の上部分Auに存在する目標物領域の一部が復元できる。
【0074】
即ち、第1関心領域の他に目標物の一部の存否を判断して、目標物の一部が存在する場合、上記第1関心領域の他に存在する目標物の一部を復元することによって、目標物検出過程を正確に遂行することができる。
【0075】
次に、候補領域に対して目標物がマッチングされるか否かを判断する過程について図10を参照して説明する。マッチング過程では候補領域の上端部分が人の上半身の一部と仮定し、既設定された上半身形状に対してテンプレートマッチングを遂行することによって遂行できる。この場合、人の上半身を抽出しなければならないので、人の脳天点を検出する必要がある。
【0076】
図10の(a)は候補領域を示す。脳天点を検出するためには、候補領域に対して図10の(b)のように候補領域の外郭線ピクセルに対して−y軸方向に延長させる。ピクセル別の最上端地点のy軸に対して図10の(b)のように−y軸方向に連結して1つの線に作る。ここで、最上端地点のy軸は候補領域の最下端の位置と連結できる。
【0077】
次に、図10の(c)で、スムージング処理を行なって外郭線のノイズを除去する。スムージング処理を行うことで、不要な地点が地域的最大点として検出されることを防止することができる。地域的最大点は外郭線の傾きが正から負に変化する地点であって、本発明では候補領域の脳天点を検出するために使われる。したがって、不要な地点が地域的最大点として検出されることを防止するためにスムージング処理を行う。
【0078】
次に、図10の(d)で、スムージング処理された候補領域のうち、地域的最大点を抽出し、この点を脳天点Cとして検出することができる。本明細書では、脳天候補点でも説明できる。
【0079】
脳天点Cが検出されれば、この点から下端まで縦しきい値、この点の両側の横しきい値を用いて人候補イメージを生成する。本明細書では横しきい値を実際長さ15cmに設定し、縦しきい値を30cmに設定することができ、これに対応するピクセル数を式(1)を用いて算出し、候補領域から人候補イメージを検出する(図10の(g)参照)。次に、検出された人候補イメージに対して図10の(h)に例示される人標本イメージと共に類似度を比較することができる。類似度の比較の前に人候補イメージに対して人標本イメージに合うようにリサイズ(resize)できる。
【0080】
図10の(h)を参照すると、人標本イメージはオメガ形状を有することができ、人候補イメージとの類似度の比較のために式(4)のようなNCC(Normalized Cross Correlation)方法が利用できる。
【0081】
即ち、テンプレートイメージをIt、人候補イメージをIqとすれば、イメージ間の類似度NCC(It、Iq)は、以下の式(4)により求められる。
【0082】
【数4】
【0083】
ここで、n:人標本イメージを構成するピクセル個数、
【数5】
はテンプレートイメージのピクセル画素値の平均値、
【数6】
は人候補イメージのピクセル画素値の平均値、σt、σqは各イメージのピクセル画素値の平均値に対する標準偏差を示す。
【0084】
NCC(It、Iq)の値がしきい値、例えば、0.6〜0.7より高い場合、人候補イメージに対して人と判断することができる。
【0085】
図11は本発明の一実施形態に従う映像処理方法における目標領域を検出する方法に対する細部フローチャートを示し、図12は本発明の一実施形態に従う映像処理方法における目標領域を検出する過程で処理されるイメージの一例を示す。図11の過程は図12と共に説明する。目標物検出過程は、候補領域に対して最終の目標物領域を検出するための処理でありうる。
【0086】
ステップS151で、検出された候補領域を用いて第2関心領域を分離する。図12の(a)を参照すると、人形状として検出された候補領域C2の幅を用いて映像を縦方向に分割し、候補領域C2が含まれる中領域を第2関心領域として分離し出す。
【0087】
ステップS152で、第2関心領域を候補領域C2の平均深さ情報を用いて2進化処理する。例えば、候補領域C2の平均深さ情報が175の場合には175より15位大きく、15位小さい範囲である、深さ情報160乃至190の深さ値を有するピクセル客体を抽出して、抽出されたピクセル客体に対して最大深さ値である255として処理し、残りの領域を最小深さ値である0として処理することができる。
【0088】
即ち、候補領域の平均深さ情報を基準に所定範囲に存在するピクセル客体に対して2進化処理を遂行する。所定範囲の値は任意に設定され、制限されない。
【0089】
ステップS153で、2進化処理された第2関心領域に対してラベリング処理する。ラベリング過程では2進化処理されたピクセル客体のうち、最も大きい客体をボディー領域に規定し、この領域を中心にラベリング処理を遂行することができる。即ち、第2関心領域内のノイズや他の客体はボディー領域より小さいという仮定下である。なぜならば、人と検証された候補領域C2を基準に候補領域の平均深さ値に基づいて2進化処理を遂行したので、ノイズまたは他の客体が人より大きい可能性は少ない ためである。図12の(c)はラベリング処理された第2関心領域を示す。図12の(c)を参照すると、人のボディー部分C3及び底部分C4が検出できる。ここで、底部分を除去する必要がある。図12の(d)を参照すると、ボディー領域C3とその周囲の底領域C4は深さ情報が類似するので底領域C4がボディー領域C3と共に検出できる。まず、ボディー領域C3のトップ(top)を基準に下方に6/10地点になるラインを設定し、このラインから下方にピクセル割合を検査することができる。底領域C4は図12の(d)に示すように、横軸のピクセルが占める割合が非常に高いため、横軸のピクセルが占める割合が例えば80%以上の場合、底が始める地点と判断することができる。
【0090】
ステップS154で、上記ラベリング処理された第2関心領域のノイズを除去すれば目標領域が生成できる。具体的に、底と判断される領域C4を除去して目標領域を生成することができる。
【0091】
図12の(e)は、底領域が除去された最終映像を示す。即ち、本発明では第1関心領域のみを考慮して候補領域として検出し、検出された候補領域を用いて第1関心領域の以外の残りの領域に含まれる目標物の一部を検出することによって、目標領域として生成することができる。目標領域は2進化処理される映像として検出される。
【0092】
図13は本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定する方法に対する細部フローチャートを示し、図14は本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定する過程で目標物の外郭線を処理するイメージの一例を示す。目標領域の姿勢を推定する過程は、先に検出された目標領域、即ちシルエット映像が利用できる。シルエット映像は、身体領域を最大深さ値255、他の領域を最小深さ値0で構成される映像である。
【0093】
ステップS161で、目標領域の外郭線に対してスムージング処理する。図14の(a)乃至(d)は、目標領域に対してスムージング処理が実行された例を示す。図14の(a)は目標領域を示し、(b)は外郭線が抽出された目標領域を示し、(c)は外郭線に対してスムージング処理が遂行されたイメージを示し、(d)はスムージング処理された外郭線をシルエット映像に生成したイメージを示す。
【0094】
本発明において、目標領域の姿勢(pose)を推定するためには映像の骨格(skeleton)が用いられるが、骨格抽出過程はシルエット映像の外郭線に存在するノイズに敏感であるので、スムージング処理が必要である。スムージング処理動作は、式(5)のラジアルスイープ(Radial sweep)技法が利用できる。
【0095】
【数7】
【0096】
ここで、xi、yiは各々i番目外郭線のx、y座標を示す。
【0097】
ステップS162で、スムージング処理された目標領域の骨格を抽出する。骨格抽出において、DT変換(Distance transform)が利用できる。
【0098】
ステップS163で、目標物を構成するパートを推定する。DT変換は以下の式(6)が利用できる。
【0099】
【数8】
【0100】
ここで、d(p、q)はピクセルpとqとの間の距離を求める関数であり、DT変換の結果は該当ピクセルが外郭線から遠く離れている場合、大きい値を有するようになる。距離を計算する時、ユークリッド距離(Euclidean distance)が使用できる。図15の(a)はDT変換したイメージを示し、外郭線から遠く離れている骨格の付近は明るく表れ、近くある部分は暗く表れる。図15の(b)はDT変換イメージに対して正規化したイメージを示す。
【0101】
ここで、DT変換式に以下の式(7)を用いてスケルトン(skeleton)映像を生成することができる。
【0102】
【数9】
【0103】
NLとNHは各々ウィンドウの中心ピクセルより明るさ値の小さいピクセルの数、明るさ値の大きいピクセルの数を示す。Gはゲイン(Gain)であって、NL及びNH値の差をどれくらい増幅するかを決定する因子であり、例えば、14に設定できる。しきい値T0は180に設定できる。前述した式及び入力値を通じて生成されるスケルトン映像は、図15の(c)で示すことができる。スケルトン映像は式(7)に示すように255または0のうちの1つの値で示すので、スケルトンを構成する骨格線(skeleton line)が不連続的でありえる。
【0104】
図16乃至図19は、本発明の一実施形態に従う映像処理方法における目標領域の姿勢を推定し、目標物をモデリングする過程で処理されるイメージの一例を示す。
【0105】
図16の(a)を参照すると、目標領域を用いて目標物の中心パート、例えば胴体部分を推定している。胴体部分を推定するに当たって、まず、目標領域であるシルエット映像の重心(G)を抽出し、重心(G)を基準にシルエット映像の内部に含まれる矩形を設定する。重心(G)を矩形の重心とする矩形としてシルエット映像の内部に含まれることができる最大の矩形R3を設定することができる。この矩形R3の上端隅から人の上体割合と類似するように下端隅を含む一部領域を除去した矩形R4を設定する。上体割合は、例えば、1:1.65でありうる。
【0106】
シルエット映像から胴体が推定されれば、これを用いて図16の(b)に示すように、スケルトン映像にも胴体パートR4が推定できる。
【0107】
図17は、人のサブパートを推定するためのイメージ処理を説明する図である。サブパート、例えば、人の腕及び脚は、胴体部分の左右にあるという仮定下で方向性ウィンドウを用いて推定できる。一方、スケルトン映像を構成するデータはピクセルによって不連続的であるので、これらを連続的に生成しながら人の各パートに適合したモデリングが要求される。本発明ではこのために方向性ウィンドウ及び線形最小自乗近似法(linear least square approximation)が用いられる。
【0108】
図17の(a)は、本発明で用いられる方向性ウィンドウを例示する。図17の(a)に示すように、方向性ウィンドウは5個の領域に分割できる。図17の(b)を参照すると、胴体が推定されたスケルトン映像で方向性ウィンドウ(1,2,3...)を移動させながら腕パートを構成するスケルトンピクセルを収集することができる。図17の(b)では、ウィンドウ1から出発してウィンドウの方向を判断し、判断された方向によってウィンドウ2,3,...に移動させている。ウィンドウの移動原理に対して図17の(c)を参照すると、開始ピクセルを先に定めて、開始ピクセルから離れている次のピクセルがウィンドウの5領域のうちのどの領域方向であるかを判断して、この方向によってウィンドウを移動させることができる。図17の(b)の最初は、開始ピクセルが領域1であり、ウィンドウの方向を領域2にして移動させており、2番目は開始ピクセルが領域1であり、ウィンドウの方向を領域3にして移動させており、3番目では開始ピクセルが領域1であり、ウィンドウの方向を領域4にして移動させていることが分かる。ここで、方向性ウィンドウの移動方向を判断することには、線形最小自乗近似法(Linear Least Square Approximation)が用いられる。
【0109】
線形最小自乗近似法は、以下の式(8)にて示すことができる。
【0110】
【数10】
【0111】
a1は直線の傾きを表し、a0はy切片を意味する。nはモデリングするデータ個数を表し、xi、yiは各々i番目のx、y座標値を表す。線形最小自乗近似法を用いてスケルトンを直線1つあるいは2つにモデリングすることができる。ここで、ウィンドウを移動する過程で発生する標準推定エラー(Standard error of estimate)Sy/xの値が大きければ、データが直線1つでモデリングすることに適合しないという意味であるので、直線2つで腕をモデリングすることができる。これによって、誤差率を減少させることができる。
【0112】
Sy/xは以下の式(9)のように算出できる。
【0113】
【数11】
【0114】
図17の(d)は線形最小自乗近似法及び方向性ウィンドウを用いてサブパートである腕をモデリングしたイメージを例示する。
【0115】
一方、脚部分に対しても腕のように線形最小自乗近似法及び方向性ウィンドウを用いて求めることができる。脚部分が腕の推定と異なる点は、脚部分の開始地点が胴体部分R4から出発しないということである。脚の推定のためには開始地点を検出する必要がある。
【0116】
図18の(a)を参照すると、推定された胴体の四角形の下を関心領域(ROI)に設定し、胴体部分の下端と合うスケルトンピクセル(a1)を始めにして下向にスケルトンピクセルのx位置に対する標準偏差を計算する。この場合、脚が始まるピクセル(a2)に至れば、標準偏差が急激に変更される。この点を脚推定のための開始地点に設定することができる。図18の(b)では開始地点(a2)を始めにして方向性ウィンドウを移動させて脚部分を推定することができ、図18の(c)では線形最小自乗近似法及び方向性ウィンドウを用いて推定される脚をモデリングした形態を示す。方向性ウィンドウ移動及び線形最小自乗近似法に対しては、腕の推定で説明したので、その説明を省略する。
【0117】
図19の(a)は、首部分を推定するイメージ処理の一例を示す。図19の(a)に示すように、推定された胴体四角形の上端に首があると仮定して、胴体上端部分を関心領域(ROI)に設定し、関心領域(ROI)内に存在するピクセルに対して線形最小自乗近似法を遂行して首をモデリングすることができる。ここで、首スケルトンの端部に頭が位置すると仮定して頭位置を推定することができる。
【0118】
図19の(b)は、多様な映像に対して線形最小自乗近似法を用いて人をモデリングしたイメージを例示している。
【0119】
図20は、本発明の一実施形態に従う映像処理装置の構成に対するブロック図を示す。図20を参照すると、本発明の一実施形態に従う映像処理装置10は、映像の深さ情報を獲得する映像獲得部11、映像から目標物が存在する領域に対する第1関心領域を分離する関心領域分離部12、第1関心領域から目標物に対する候補領域を検出する領域検出部13、検出された候補領域が目標物に対応するか否かを判断するマッチング部14を含むことができる。ここで、領域検出部は細部的に候補領域検出部及び目標領域検出部を含むことができる。候補領域が目標物に対応する場合、領域検出部13は上記候補領域を用いて目標領域を検出することができる。また、映像処理装置10は、目標領域を用いて目標物の姿勢を推定する姿勢推定部15、及び上記目標物をモデリングするモデリング部16をさらに含むことができ、各映像処理過程で生成されるモデリングイメージ、映像の深さ情報、複数ピクセル客体、候補領域、及び最終領域などのイメージまたはデータを格納するメモリ17をさらに含むことができる。メモリは、映像処理装置10を構成する全てのモジュールと連結されて、これらが必要とするデータのリード/ライトのためのメモリを提供することができる。メモリは、例えば、HDD、フラッシュメモリ、RAM、ROMで構成できる。
【0120】
映像獲得部11は映像の深さ情報を獲得することができる。映像獲得部11は、映像の深さ情報を抽出するためのハードウェア、例えば、ステレオカメラ、レーザースキャナー、超音波装置などのモジュールを具備することができる。また、映像獲得部11は入力される情報を用いて映像の深さ情報を算出するための演算プロセッサーを具備することができる。例えば、ステレオ映像から深さ情報を獲得するためには、左・右カメラの基準値(カメラ間距離)、左右映像の視差などを用いて実際または情報または相対的な深さ値として算出する必要があるので、映像獲得部11はこのような演算処理を遂行するためのプロセッサーを具備することができる。
【0121】
関心領域分離部12、映像を複数の領域に分割し、分割された複数領域のうちの一部の領域を第1関心領域に設定することができる。
【0122】
領域検出部13は、第1関心領域の映像を深さ情報に基づいて複数のピクセル集合に分解し、上記分解された各ピクセル集合に対してラベリングを遂行して少なくとも1つのピクセル客体を生成し、上記ピクセル客体を分析してノイズと判断されたピクセル客体を除去し、上記ノイズが除去された少なくとも1つのピクセル客体に対して目標物に対応する領域に対する候補領域を生成する候補領域生成部を含むことができる。
【0123】
ここで、候補領域検出部は、複数のピクセル集合に分解するに当たって、映像の深さ情報の全体範囲に対し、複数個の基準深さ値を設定し、設定された基準深さ値を基準に既設定された単位区間内に存在する複数個のピクセル集合を抽出することができる。
【0124】
また、候補領域検出部は、少なくとも1つのピクセル客体を構成するピクセル数が既設定されたしきい値以下の場合(条件1)、上記少なくとも1つのピクセル客体の外郭を囲む四角形の幅が既設定されたしきい値以下の場合(条件)、上記少なくとも1つのピクセル客体の外郭を囲む四角形に含まれるピクセル数の割合が既設定されたしきい範囲の他に存在する場合(条件3)、及び上記少なくとも1つのピクセル客体が上記複数の領域に分割する境界線の一部と離れている場合(条件4)のうち、少なくとも1つの条件が満たす場合にピクセル客体を分析してノイズと判断されたピクセル客体を除去することができる。
【0125】
領域検出部13は、上記検出された候補領域を用いて第2関心領域を分離し、上記第2関心領域を候補領域の平均深さ情報を用いて2進化処理し、上記2進化処理された第2関心領域に対してラベリング処理し、上記ラベリング処理された第2関心領域のノイズを除去して上記目標領域を検出することができる。
【0126】
マッチング部14は、第1関心領域の他に目標物の一部の存否を判断して、目標物の一部が存在する場合、上記第1関心領域の他に存在する目標物の一部を復元することができる。また、マッチング部14は、候補領域を標本イメージと比較して類似度を判断して上記検出された候補領域が目標物に対応するか否かを判断することができる。
【0127】
姿勢推定部15は、目標領域の外郭線に対してスムージング処理し、上記目標領域の骨格を抽出し、上記目標物を構成するパートを推定して上記目標領域の姿勢を推定することができる。また、姿勢推定部15は、目標領域の重心を用いて中心パートを推定し、上記中心パートを用いてサブパートを推定して上記目標領域の姿勢を推定することができる。
【0128】
一方、図20では映像装置を構成するモジュールに対して機能別に独立的に図示されているが、各モジュールが1つのプロセッサーに搭載されて統合できる。
【0129】
以上、本発明の一実施形態に従う映像処理方法などについて説明した。本発明の映像処理方法は、モデリングされた目標物の動きを追従し、該当動き情報を入力とするユーザインターフェースのための方法に適用されることができ、コンピュータにより読取可能な記録媒体に電子的記録コードとして格納されて提供できる。
【0130】
また、本発明に従う映像処理装置は、コンピュータ、ネットワークTV、ゲームプレーヤー、スマートTV、ノートブックなどのユーザインターフェース装置で具現されたり、これに搭載されて提供できる。
【0131】
以上の説明は本発明の技術思想を例示的に説明したことに過ぎないものであって、本発明が属する技術分野で通常の知識を有する者であれば、本発明の本質的な特性から外れない範囲で多様な修正及び変形が可能である。したがって、本発明に開示された実施形態は本発明の技術思想を限定するためのものではなく、説明するためのものであり、このような実施形態によって本発明の技術思想の範囲が限定されるものではない。本発明の保護範囲は以下の請求範囲によって解釈されなければならず、それと同等な範囲内にある全ての技術思想は本発明の権利範囲に含まれるものと解釈されるべきである。
【特許請求の範囲】
【請求項1】
映像の深さ情報を獲得するステップと、
前記映像から目標物が存在する領域に対する第1関心領域を分離するステップと、
前記第1関心領域から目標物に対する候補領域を検出するステップと、
前記検出された候補領域が目標物に対応するか否かを判断するステップと、
前記候補領域が目標物に対応する場合、前記候補領域を用いて目標領域を検出するステップと、
前記検出した目標領域を用いて目標物の姿勢を推定するステップと、
前記目標物をモデリングするステップと、
を含むことを特徴とする、映像処理方法。
【請求項2】
前記第1関心領域を分離するステップは、
前記映像を複数の領域に分割するステップと、
前記分割された複数領域のうちの一部領域を第1関心領域に設定するステップと、
を含むことを特徴とする、請求項1に記載の映像処理方法。
【請求項3】
前記候補領域を検出するステップは、
深さ情報に基づいて前記第1関心領域の映像を複数のピクセル集合に分解するステップと、
前記分解された各ピクセル集合に対してラベリングを遂行して少なくとも1つのピクセル客体を生成するステップと、
前記ピクセル客体を分析してノイズと判断されたピクセル客体を除去するステップと、
前記ノイズが除去された少なくとも1つのピクセル客体に対して目標物に対応する領域に対する候補領域を生成するステップと、
を含むことを特徴とする、請求項2に記載の映像処理方法。
【請求項4】
前記複数のピクセル集合に分解するステップは、
前記映像の深さ情報の全体範囲に対し、複数個の基準深さ値を設定するステップと、
前記設定された基準深さ値を基準に既設定された単位区間内に存在する複数個のピクセル集合を抽出して、前記映像を複数のピクセル集合に分解するステップと、
を含むことを特徴とする、請求項3に記載の映像処理方法。
【請求項5】
前記複数個の基準深さ値の間の間隔は前記単位区間サイズより小さいか等しく設定されたことを特徴とする、請求項4に記載の映像処理方法。
【請求項6】
前記除去されるピクセル客体は、
前記少なくとも1つのピクセル客体を構成するピクセル数が既設定されたしきい値以下の第1場合と、
前記少なくとも1つのピクセル客体の外郭を囲む四角形の幅が既設定されたしきい値以下の第2場合と、
前記少なくとも1つのピクセル客体の外郭を囲む四角形に含まれるピクセル数の割合が既設定されたしきい範囲の他に存在する第3場合と、
前記少なくとも1つのピクセル客体が前記複数の領域に分割する境界線の一部と離れている第4場合のうち、少なくともいずれか1つを含むことを特徴とする、請求項3に記載の映像処理方法。
【請求項7】
前記検出された候補領域が目標物に対応するか否かを判断するステップは、
前記第1関心領域の他に目標物の一部の存否を判断するステップと、
前記判断結果、目標物の一部が存在すれば、前記第1関心領域の他に存在する目標物の一部を復元するステップと、
前記候補領域を標本イメージと比較して類似度を判断するステップと、
を含むことを特徴とする、請求項1に記載の映像処理方法。
【請求項8】
前記目標領域を検出するステップは、
前記検出された候補領域を用いて第2関心領域を分離するステップと、
前記第2関心領域を候補領域の平均深さ情報を用いて2進化処理するステップと、
前記2進化処理された第2関心領域に対してラベリング処理するステップと、
前記ラベリング処理された第2関心領域のノイズを除去するステップと、
を含むことを特徴とする、請求項1に記載の映像処理方法。
【請求項9】
前記目標領域の姿勢を推定するステップは、
前記目標領域の外郭線に対してスムージング処理するステップと、
前記目標領域の骨格を抽出するステップと、
前記目標物を構成するパートを推定するステップと、
を含むことを特徴とする、請求項1に記載の映像処理方法。
【請求項10】
前記パートを推定するステップは、
前記目標領域の重心を用いて中心パートを推定するステップと、
前記推定した中心パートを用いてサブパートを推定するステップと、
を含むことを特徴とする、請求項9に記載の映像処理方法。
【請求項11】
映像の深さ情報を獲得する映像獲得部と、
映像から目標物が存在する領域に対する第1関心領域を分離する関心領域分離部と、
前記第1関心領域から目標物に対する候補領域を検出する領域検出部と、
前記検出された候補領域が目標物に対応するか否かを判断するマッチング部と、
前記候補領域が目標物に対応することによって前記候補領域を用いて検出された目標領域を用いて目標物の姿勢を推定する姿勢推定部と、
前記目標物をモデリングするモデリング部と、
を含むことを特徴とする、映像処理装置。
【請求項12】
前記関心領域分離部は、
前記映像を複数の領域に分割し、前記分割された複数領域のうちの一部の領域を第1関心領域に設定することを特徴とする、請求項11に記載の映像処理装置。
【請求項13】
前記領域検出部は、
深さ情報に基づいて前記第1関心領域の映像を複数のピクセル集合に分解し、前記分解された各ピクセル集合に対してラベリングを遂行して少なくとも1つのピクセル客体を生成し、前記ピクセル客体を分析してノイズと判断されたピクセル客体を除去し、前記ノイズが除去された少なくとも1つのピクセル客体に対して目標物に対応する領域に対する候補領域を生成する候補領域検出部を含むことを特徴とする、請求項12に記載の映像処理装置。
【請求項14】
前記候補領域検出部は、
前記映像の深さ情報の全体範囲に対し、複数個の基準深さ値を設定し、前記設定された基準深さ値を基準に既設定された単位区間内に存在する複数個のピクセル集合を抽出して前記映像を複数のピクセル集合に分解することを特徴とする、請求項13に記載の映像処理装置。
【請求項15】
前記複数個の基準深さ値の間の間隔は、前記単位区間サイズより小さいか等しく設定されたことを特徴とする、請求項14に記載の映像処理装置。
【請求項16】
前記候補領域検出部は、
前記ピクセル客体を分析してノイズと判断されたピクセル客体を除去し、
前記ピクセル客体の除去基準は、
前記少なくとも1つのピクセル客体を構成するピクセル数が既設定されたしきい値以下の第1場合と、前記少なくとも1つのピクセル客体の外郭を囲む四角形の幅が既設定されたしきい値以下の第2場合、前記少なくとも1つのピクセル客体の外郭を囲む四角形に含まれるピクセル数の割合が既設定されたしきい範囲の他に存在する第3場合、及び前記少なくとも1つのピクセル客体が前記複数の領域に分割する境界線の一部と離れている第4場合のうち、少なくとも1つを含むことを特徴とする、請求項13に記載の映像処理装置。
【請求項17】
前記マッチング部は、
前記第1関心領域の他に目標物の一部の存否を判断し、
前記目標物の一部が存在すれば、前記第1関心領域の他に存在する目標物の一部を復元し、前記候補領域を標本イメージと比較して類似度を判断し、前記検出された候補領域が目標物に対応するか否かを判断することを特徴とする、請求項11に記載の映像処理装置。
【請求項18】
前記領域検出部は、
前記検出された候補領域を用いて第2関心領域を分離し、
前記第2関心領域を候補領域の平均深さ情報を用いて2進化処理し、
前記2進化処理された第2関心領域に対してラベリング処理し、
前記ラベリング処理された第2関心領域のノイズを除去して前記目標領域を検出することを特徴とする、請求項11に記載の映像処理装置。
【請求項19】
前記姿勢推定部は、
前記目標領域の外郭線に対してスムージング処理し、前記目標領域の骨格を抽出し、前記目標物を構成するパートを推定して前記目標領域の姿勢を推定することを特徴とする、請求項11に記載の映像処理装置。
【請求項20】
前記姿勢推定部は、
前記目標領域の重心を用いて中心パートを推定し、前記中心パートを用いてサブパートを推定して前記目標領域の姿勢を推定することを特徴とする、請求項19に記載の映像処理装置。
【請求項1】
映像の深さ情報を獲得するステップと、
前記映像から目標物が存在する領域に対する第1関心領域を分離するステップと、
前記第1関心領域から目標物に対する候補領域を検出するステップと、
前記検出された候補領域が目標物に対応するか否かを判断するステップと、
前記候補領域が目標物に対応する場合、前記候補領域を用いて目標領域を検出するステップと、
前記検出した目標領域を用いて目標物の姿勢を推定するステップと、
前記目標物をモデリングするステップと、
を含むことを特徴とする、映像処理方法。
【請求項2】
前記第1関心領域を分離するステップは、
前記映像を複数の領域に分割するステップと、
前記分割された複数領域のうちの一部領域を第1関心領域に設定するステップと、
を含むことを特徴とする、請求項1に記載の映像処理方法。
【請求項3】
前記候補領域を検出するステップは、
深さ情報に基づいて前記第1関心領域の映像を複数のピクセル集合に分解するステップと、
前記分解された各ピクセル集合に対してラベリングを遂行して少なくとも1つのピクセル客体を生成するステップと、
前記ピクセル客体を分析してノイズと判断されたピクセル客体を除去するステップと、
前記ノイズが除去された少なくとも1つのピクセル客体に対して目標物に対応する領域に対する候補領域を生成するステップと、
を含むことを特徴とする、請求項2に記載の映像処理方法。
【請求項4】
前記複数のピクセル集合に分解するステップは、
前記映像の深さ情報の全体範囲に対し、複数個の基準深さ値を設定するステップと、
前記設定された基準深さ値を基準に既設定された単位区間内に存在する複数個のピクセル集合を抽出して、前記映像を複数のピクセル集合に分解するステップと、
を含むことを特徴とする、請求項3に記載の映像処理方法。
【請求項5】
前記複数個の基準深さ値の間の間隔は前記単位区間サイズより小さいか等しく設定されたことを特徴とする、請求項4に記載の映像処理方法。
【請求項6】
前記除去されるピクセル客体は、
前記少なくとも1つのピクセル客体を構成するピクセル数が既設定されたしきい値以下の第1場合と、
前記少なくとも1つのピクセル客体の外郭を囲む四角形の幅が既設定されたしきい値以下の第2場合と、
前記少なくとも1つのピクセル客体の外郭を囲む四角形に含まれるピクセル数の割合が既設定されたしきい範囲の他に存在する第3場合と、
前記少なくとも1つのピクセル客体が前記複数の領域に分割する境界線の一部と離れている第4場合のうち、少なくともいずれか1つを含むことを特徴とする、請求項3に記載の映像処理方法。
【請求項7】
前記検出された候補領域が目標物に対応するか否かを判断するステップは、
前記第1関心領域の他に目標物の一部の存否を判断するステップと、
前記判断結果、目標物の一部が存在すれば、前記第1関心領域の他に存在する目標物の一部を復元するステップと、
前記候補領域を標本イメージと比較して類似度を判断するステップと、
を含むことを特徴とする、請求項1に記載の映像処理方法。
【請求項8】
前記目標領域を検出するステップは、
前記検出された候補領域を用いて第2関心領域を分離するステップと、
前記第2関心領域を候補領域の平均深さ情報を用いて2進化処理するステップと、
前記2進化処理された第2関心領域に対してラベリング処理するステップと、
前記ラベリング処理された第2関心領域のノイズを除去するステップと、
を含むことを特徴とする、請求項1に記載の映像処理方法。
【請求項9】
前記目標領域の姿勢を推定するステップは、
前記目標領域の外郭線に対してスムージング処理するステップと、
前記目標領域の骨格を抽出するステップと、
前記目標物を構成するパートを推定するステップと、
を含むことを特徴とする、請求項1に記載の映像処理方法。
【請求項10】
前記パートを推定するステップは、
前記目標領域の重心を用いて中心パートを推定するステップと、
前記推定した中心パートを用いてサブパートを推定するステップと、
を含むことを特徴とする、請求項9に記載の映像処理方法。
【請求項11】
映像の深さ情報を獲得する映像獲得部と、
映像から目標物が存在する領域に対する第1関心領域を分離する関心領域分離部と、
前記第1関心領域から目標物に対する候補領域を検出する領域検出部と、
前記検出された候補領域が目標物に対応するか否かを判断するマッチング部と、
前記候補領域が目標物に対応することによって前記候補領域を用いて検出された目標領域を用いて目標物の姿勢を推定する姿勢推定部と、
前記目標物をモデリングするモデリング部と、
を含むことを特徴とする、映像処理装置。
【請求項12】
前記関心領域分離部は、
前記映像を複数の領域に分割し、前記分割された複数領域のうちの一部の領域を第1関心領域に設定することを特徴とする、請求項11に記載の映像処理装置。
【請求項13】
前記領域検出部は、
深さ情報に基づいて前記第1関心領域の映像を複数のピクセル集合に分解し、前記分解された各ピクセル集合に対してラベリングを遂行して少なくとも1つのピクセル客体を生成し、前記ピクセル客体を分析してノイズと判断されたピクセル客体を除去し、前記ノイズが除去された少なくとも1つのピクセル客体に対して目標物に対応する領域に対する候補領域を生成する候補領域検出部を含むことを特徴とする、請求項12に記載の映像処理装置。
【請求項14】
前記候補領域検出部は、
前記映像の深さ情報の全体範囲に対し、複数個の基準深さ値を設定し、前記設定された基準深さ値を基準に既設定された単位区間内に存在する複数個のピクセル集合を抽出して前記映像を複数のピクセル集合に分解することを特徴とする、請求項13に記載の映像処理装置。
【請求項15】
前記複数個の基準深さ値の間の間隔は、前記単位区間サイズより小さいか等しく設定されたことを特徴とする、請求項14に記載の映像処理装置。
【請求項16】
前記候補領域検出部は、
前記ピクセル客体を分析してノイズと判断されたピクセル客体を除去し、
前記ピクセル客体の除去基準は、
前記少なくとも1つのピクセル客体を構成するピクセル数が既設定されたしきい値以下の第1場合と、前記少なくとも1つのピクセル客体の外郭を囲む四角形の幅が既設定されたしきい値以下の第2場合、前記少なくとも1つのピクセル客体の外郭を囲む四角形に含まれるピクセル数の割合が既設定されたしきい範囲の他に存在する第3場合、及び前記少なくとも1つのピクセル客体が前記複数の領域に分割する境界線の一部と離れている第4場合のうち、少なくとも1つを含むことを特徴とする、請求項13に記載の映像処理装置。
【請求項17】
前記マッチング部は、
前記第1関心領域の他に目標物の一部の存否を判断し、
前記目標物の一部が存在すれば、前記第1関心領域の他に存在する目標物の一部を復元し、前記候補領域を標本イメージと比較して類似度を判断し、前記検出された候補領域が目標物に対応するか否かを判断することを特徴とする、請求項11に記載の映像処理装置。
【請求項18】
前記領域検出部は、
前記検出された候補領域を用いて第2関心領域を分離し、
前記第2関心領域を候補領域の平均深さ情報を用いて2進化処理し、
前記2進化処理された第2関心領域に対してラベリング処理し、
前記ラベリング処理された第2関心領域のノイズを除去して前記目標領域を検出することを特徴とする、請求項11に記載の映像処理装置。
【請求項19】
前記姿勢推定部は、
前記目標領域の外郭線に対してスムージング処理し、前記目標領域の骨格を抽出し、前記目標物を構成するパートを推定して前記目標領域の姿勢を推定することを特徴とする、請求項11に記載の映像処理装置。
【請求項20】
前記姿勢推定部は、
前記目標領域の重心を用いて中心パートを推定し、前記中心パートを用いてサブパートを推定して前記目標領域の姿勢を推定することを特徴とする、請求項19に記載の映像処理装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【公開番号】特開2013−89252(P2013−89252A)
【公開日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願番号】特願2012−229695(P2012−229695)
【出願日】平成24年10月17日(2012.10.17)
【出願人】(510039426)エルジー イノテック カンパニー リミテッド (279)
【出願人】(512268332)インダストリー−ユニバーシティー コオペレーション ファウンデーション ハンヤン ユニバーシティー (1)
【Fターム(参考)】
【公開日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願日】平成24年10月17日(2012.10.17)
【出願人】(510039426)エルジー イノテック カンパニー リミテッド (279)
【出願人】(512268332)インダストリー−ユニバーシティー コオペレーション ファウンデーション ハンヤン ユニバーシティー (1)
【Fターム(参考)】
[ Back to top ]