説明

目標物を検出するための映像処理方法及び装置

【課題】ステレオカメラなどから獲得した映像の深さ情報のみを用いて目標物領域である手領域を抽出する方法を提供する。
【解決手段】映像の深さ情報を獲得する映像獲得部、映像の深さ情報に対するヒストグラムを生成するヒストグラム生成部、上記映像から検出対象の領域を検出するための深さ情報のしきい値を設定するしきい値設定部、上記設定された深さ情報のしきい値を用いて検出対象の領域を抽出するイメージ処理部、上記抽出された検出対象の領域が目標物に対応するか否かを検証するデータ検証部、及び上記抽出された検出対象の領域を格納する格納部を含み、映像の深さ情報を用いて目標物を検出できるようにする。

【発明の詳細な説明】
【技術分野】
【0001】
本特許出願は、2011年10月20日付で韓国に出願した特許出願番号第10−2011−0107468号に対し、米国特許法119条(35U.S.C)及び365条(35U.S.C)により優先権を主張し、その全ての内容は参考文献として本特許出願に併合される。
【0002】
本発明は目標物を検出するための映像処理方法及び装置に関し、特に映像の深さ情報のみを用いて手領域のような目標物を速く、かつ簡便に抽出し、抽出された手領域を用いたユーザインターフェースを提供するためのものである。
【背景技術】
【0003】
最近、ディスプレイ装置の活用範囲及び技術水準が高まるにつれて、ユーザの入力をリアルタイムに感知してこれを反映できるゲームプレーヤー、コンピューティング装置のような対話式(interactive)デバイスの開発が活発になっている。ユーザの入力は、ボタン、キーボード、マウス装置、及びタッチスクリーンだけでなく、ユーザがデバイスに物理的なコンタクトをしなくてもユーザの動きを認識できる動作認識ユーザインターフェース装置も開発されている。
【0004】
そのうち、ユーザの動きを認識できる動作認識ユーザインターフェース装置は、3Dセンシングカメラにより取得された深さ情報を用いてユーザの最初領域及び動作を認識した後、最初領域からユーザを追跡することによって、ユーザ動作を入力として認識してディスプレイ画面の機能を操作できる技術である。
【0005】
この技術では3Dセンシング情報を用いてユーザ身体の一部(ヒジ、手首、前腕部位)を感知し、該当部位の動き領域を動作認識に活用することができる。しかしながら、より精巧なユーザインターフェースの具現のために、手の正確な動きと形態を認識できる技術が要求されて上記の方式のように身体の一部のみを感知する方式は、手動作/模様の認識のために先行されなければならない手領域抽出に非常に制約的である。
【0006】
既存の手領域を抽出する多くの方式は、3D映像及びRGBカラー(RGB color)映像を入力情報として用いる。しかしながら、2つ情報を全て活用する場合、処理しなければならない情報の量が膨大で、アルゴリズムが複雑になって演算量の増大及び演算速度の低下を引き起こす。また、RGBカラー情報だけではユーザのボディー部分と手領域、例えば、関心領域(ROI;Region Of Interest)を正確に分離し出すことができないので、正確度の向上のために深さ情報の活用が必須である。(参照論文:H. An、and D. Kim、“Hand Gesture Recognition using 3D depth Data”)。
【0007】
手領域を抽出する従来の技術のうち、ステレオカメラ(stereo camera)の深さ情報のみを用いた方式に対しては具体的に言及されたことがない。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、ステレオカメラなどから獲得した映像の深さ情報のみを用いて目標物領域である手領域を抽出することによって演算量を減らすようにする。
【0009】
本発明は、映像の深さ情報の分布度からしきい値を設定し、設定されたしきい値を用いて目標物領域を分離することによって、領域抽出の正確度を高めて演算量を減少させるようにする。
【0010】
本発明が達成しようとする技術的課題は、前述した技術的課題に制限されず、言及されていない更に他の技術的課題は以下の記載から提案される実施形態が属する技術分野で通常の知識を有する者に明確に理解できる。
【課題を解決するための手段】
【0011】
本発明の一実施形態に従う目標物を検出するための映像処理方法は、映像の深さ情報を獲得するステップ、映像の深さ情報に対するヒストグラムを生成するステップ、映像で検出しようとする検出対象の領域を検出するために深さ情報のしきい値を設定するステップ、上記設定された深さ情報のしきい値を用いて検出対象の領域を抽出するステップ、上記抽出された検出対象の領域が目標物に対応するか否かを検証するステップ、及び上記抽出された検出対象の領域を格納するステップを含む。
【0012】
本発明の一実施形態に従う映像から目標物を検出するための映像処理装置は、映像の深さ情報を獲得する映像獲得部、映像の深さ情報に対するヒストグラムを生成するヒストグラム生成部、映像で検出しようとする検出対象の領域を検出するために深さ情報のしきい値を設定するしきい値設定部、上記設定された深さ情報のしきい値を用いて検出対象の領域を抽出するイメージ処理部、上記抽出された検出対象の領域が目標物に対応するか否かを検証するデータ検証部、及び上記抽出された検出対象の領域を格納する格納部を含む。
【発明の効果】
【0013】
本発明によれば、簡単で、かつ速かに手領域のような目標物領域を抽出して、これに基づいてユーザ入力を感知できるユーザインターフェースを提供することができる。
【0014】
一方、その他の多様な効果は後述する本発明の実施形態に従う詳細な説明で直接的または暗示的に開示される。
【図面の簡単な説明】
【0015】
【図1】本発明の一実施形態に従う映像処理方法のためのフローチャートを示す。
【図2】本発明の一実施形態に従う映像の深さ情報に対するヒストグラムの一例を示す。
【図3】本発明の一実施形態に従う映像処理方法における検出対象の領域を抽出するための映像処理の一例を示す。
【図4】本発明の一実施形態に従う映像処理方法における検出対象の領域を抽出するための映像処理の他の例を示す。
【図5】本発明の一実施形態に従う映像処理方法のための映像処理の一例を順序に従って示す図である。
【図6】本発明の一実施形態に従う映像処理装置のブロック図を示す。
【発明を実施するための形態】
【0016】
以下、図面を参照して本発明の実施形態をより詳細に説明する。一方、本明細書で説明される検出対象は手領域であるが、本発明は他の目標物である、例えば、足、目、指でありうる。
【0017】
図1は、本発明の一実施形態に従う映像処理方法のためのフローチャートを示す。
【0018】
ステップS11で、映像の深さ情報を獲得する。映像の深さ情報の獲得の以前に、ステレオカメラから撮影された映像情報を獲得し、これから映像の深さ情報を獲得する動作が先行できる。
【0019】
映像の深さ情報は映像を構成する複数のピクセルの各々に対する深さ値であって、その値は、例えば、最小0乃至最大255の範囲内の値を有することができる。
【0020】
獲得した映像深さ情報は、上記0乃至255内で全体的に分布せず、10乃至200のように一部範囲内の値のみを含むことがある。
【0021】
ステップS12で、映像の深さ情報に対するヒストグラムを生成する。ヒストグラムは、獲得した映像の深さ情報に対するピクセルの分布度で表すことができる。例えば、深さ情報10を有するピクセル数20、深さ情報15を有するピクセル数が30,...のように深さ情報に対するピクセル数で表現されるヒストグラムで表すことができる。
【0022】
他の例として、深さ情報10を有するピクセルの割合が5%、深さ情報15を有するピクセルの割合が10%のように深さ情報に対するピクセル割合で表現されるヒストグラムでありうる。
【0023】
ステップS13で、映像で検出しようとする検出対象の領域を検出するために深さ情報のしきい値を設定する。検出対象の領域は、例えば手領域でありうる。しきい値は、映像の深さ情報値が例えば10乃至200の範囲に含まれる場合、最大値である200の0.9倍の範囲である180に設定できる。即ち、しきい値は獲得した映像の深さ情報の最大値に基づいて設定できる。
【0024】
他の例として、しきい値は映像の深さ情報の分布範囲のうち、所定範囲の境界を表す境界値として規定できる。例えば、映像の深さ情報値が10乃至200の範囲に含まれる場合、深さ情報の最大値から上位10%のピクセル数が分布する境界値が175の場合、このような境界値がしきい値として規定できる。
【0025】
ステップS14で、設定された深さ情報のしきい値を用いて検出対象の領域を抽出する。検出対象の抽出において、まず、設定されたしきい値を基準にして映像を分離することができる。例えば、設定されたしきい値が180の場合にはしきい値以上の深さ情報を有するピクセル領域のみを分離することができる。次に、分離された映像に対してモルフォロジー変換(morphological transformation)のような処理を行なって雑音を除去することができる。ここで、分離されて雑音が除去された領域は候補領域として少なくとも1つでありうる。
【0026】
少なくとも1つの候補領域は全て手領域になる可能性がある領域であって、これらのうち、最終に手領域と判断される可能性の高い領域を検出する必要がある。
【0027】
このために、少なくとも1つの候補領域に対してラベリング(Labeling)を遂行することができる。ラベリング処理において、少なくとも1つの候補領域の各々はラベル(label)に規定されることができ、各ラベルのうち、サイズが最も大きい領域を基準に重心を規定し、重心から距離の遠い候補領域を除去したり、重心から近い候補領域を重心が含まれる大きい領域に受容させることができる。この際、候補領域を除去することにおいて、近かったり遠い場合のような距離の長短は既設定された基準値により区別されることができ、この基準値は既に設定されたり実験例によって変更されることもできる。
【0028】
次に、ラベリングされた上記少なくとも1つの候補領域から最終候補領域を検出する。ラベリング処理後、除去されて残った領域に対して所定ノイズ処理を行った後、手領域と判断される可能性の高い最終候補領域を検出する
【0029】
ステップS15で、最終候補領域が目標物に対応するか否かを検証する。即ち、しきい値を用いた領域の分離、ノイズ、及びラベリング処理後、抽出された最終候補領域が手領域か否かを検証するための処理である。
【0030】
検証処理において、既設定された領域サイズを最終候補領域のサイズと比較することによって、上記抽出された検出対象領域の一部が目標物に対応するか否かを判断することができる。例えば、目標物が手の場合、人の手の平は所定サイズを有すると言うことができ、このサイズを予め設定することによって、検出された最終候補領域が手であると最終的に判断できる。最終候補領域が既設定された領域サイズ以下の場合に、例えば、あまり少ない領域の場合には、しきい値をより緩和して設定する必要があるためである。
【0031】
また、最終候補領域の検証において、既設定された目標物の割合、例えば、1:1.5と最終候補領域とが比較できる。目標物が手の場合、人の手の平は横:縦が一定の割合の範囲を有することができるためである。最終候補領域が平たいか、縦が横より少し長い割合を有しない場合、目標物と判断せず、しきい値を再設定することができる。
【0032】
ここで、抽出された検出対象領域の一部ということは、ステップS14で抽出された検出対象領域がノイズ及びラベリング処理後、ステップS15で変わることができるためである。
【0033】
ステップS16で、最終候補領域が目標物に対応することと判断された場合には、最終候補領域を検出対象領域として格納する。
【0034】
一方、ステップS15で検出対象領域が目標物に対応しないことと判断された場合には、ステップS17でしきい値を調節する。例えば、最初のしきい値を深さ情報の最大値の0.9倍に設定した場合には、2番目のしきい値を深さ情報の最大値の0.8として調節することができる。この場合、ステップS15で検出される検出対象領域は以前より大きくなることができる。
【0035】
一方、ステップS17で遂行されるしきい値の調節は、無限ループを回らないために、所定回数だけ行なわれることができる。
【0036】
図2は、本発明の一実施形態に従う映像の深さ情報に対するヒストグラムの一例を示す。
【0037】
図2を参照すれば、映像の深さ情報が最小値(Min)から最大値(Max)の範囲で該当深さ情報に対応するピクセル数としてヒストグラムが表現されている。映像の深さ情報はそのサイズが大きくなるほど被写体が近いことを表し、サイズが遠いほど被写体が遠いことを示すことができる。図2に示すように、ヒストグラムは、獲得した映像の深さ情報に対するピクセルの分布度で示すことができる。例えば、深さ情報10を有するピクセル数が20、深さ情報15を有するピクセル数が30,...のように、深さ情報に対するピクセル数で表現されるヒストグラムで示すことができる。他の例として、深さ情報10を有するピクセルの割合が5%、深さ情報15を有するピクセルの割合が10%のように、深さ情報に対するピクセル割合で表現されるヒストグラムでありうる。
【0038】
また、本発明では、生成されたヒストグラムを用いて、映像で検出しようとする検出対象の領域を検出するために深さ情報のしきい値を図2のように、1st、2ndのように設定することができる。
【0039】
しきい値は前述したように、獲得した映像の深さ情報の最大値に基づいて設定されたり、また、映像の深さ情報の分布範囲のうち、所定範囲の境界を表す境界値として規定できる。
【0040】
ここで、1stに設定された第1しきい値を用いて検出対象領域a領域を検出し、検出された領域が目標物に対応しないことと判断された場合には1stより広い範囲で2ndに設定された値を第2しきい値に調節して検出対象領域を(a+b)領域に拡張することができる。
【0041】
図3は、本発明の一実施形態に従う映像処理方法における検出対象の領域を抽出するための映像処理の一例を示す。
【0042】
図3の(a)は、深さ情報として表現される映像を示す。明るい領域であるほど近い被写体領域を表し、暗い領域であるほど遠くある被写体を表すことができる。図3の(a)を参照すると、R1領域が目標物である手領域であることがあり、本発明ではR1領域を検出対象領域として検出及び格納する必要がある。
【0043】
図3の(b)では設定されたしきい値を用いて領域を分離し、検出対象領域を検出する過程で、少なくとも1つの候補領域(R1、R2、R3)が検出される一例を示す。具体的に、しきい値を用いた領域の分離及びノイズ除去が遂行された以後に残した領域は少なくとも1つの候補領域として検出され、他の領域は深さ情報が‘0’に処理されて図3の(b)に示すように、一律的な暗い部分として処理できる。
【0044】
図3の(c)は、少なくとも1つの候補領域に対してラベリング処理を遂行した後、最終候補領域(R11、R21)が検出される一例を示す。最終候補領域(R11、R21)は、図3の(c)に示すように2つ以上、または1つでありうる。
【0045】
検出された最終候補領域に対しては目標物に対応するかに対して領域サイズを基準に検証する処理が必要である。例えば、領域(R11)及び領域(R21)が所定サイズ以上を満たすか否かを判断して、所定サイズ以上の面積を有する領域(R11)を最終候補領域として検出することができる。
【0046】
図3の(d)は、検出対象領域として検証された領域を示す。即ち、しきい値が設定された後、領域の分離、ノイズ除去、ラベリング遂行、及び検証処理を経た後、判断される検出対象領域が検出されている。
【0047】
図4は、本発明の一実施形態に従う映像処理方法における検出対象の領域を抽出するための映像処理の他の例を示す。図4では、図3と相異するように人がそばで手を差し出す映像に対して処理する一例を示す。図4の(a)は、深さ情報として表現される映像を示し、ここで、領域(R1)が検出対象領域を示す。図4の(b)は、検出対象領域(R1)のみ目標物として残して、残りの領域に対して全て一律的に処理した映像を示す。
【0048】
図5は、本発明の一実施形態に従う映像処理方法のための映像処理の一例を順序に従って示す図である。
【0049】
図5の(a)で映像の深さ情報を獲得し、図5の(b)は映像に対してクロッピング(Cropping)処理を行うことで、目標物が存在しないことと予想される周辺領域が除去されている。以後、しきい値を用いて(c)で映像を分離し、(d)でノイズ除去及びラベリング処理を遂行して、(e)で検出対象領域を抽出する。検出対象を関心領域(ROI:Region Of Interest)に設定してインターフェースに活用できる。
【0050】
一方、最初に設定されたしきい値1に映像を分離しても(f)で示すように、目標物と検証できない映像に分離される。例えば、しきい値1を用いて分離された映像のサイズがあまり小さいか、手領域と見ることができない割合または形状の場合には、データ検証ステップで検出対象に指定されないことがある。この場合には、前述したように、しきい値をまたしきい値2に調節し、調節されたしきい値を用いて(c)の以後の処理を遂行することによって、目的とする検出対象領域を抽出、格納するようにすることができる。
【0051】
図6は、本発明の一実施形態に従う映像処理装置のブロック図を示す。
【0052】
図6を参照すると、本発明に従う映像処理装置10は、映像の深さ情報を獲得する映像獲得部11、映像の深さ情報に対するヒストグラムを生成するヒストグラム生成部12、映像で検出しようとする検出対象の領域を検出するために深さ情報のしきい値を設定するしきい値設定部13、上記設定された深さ情報のしきい値を用いて検出対象の領域を抽出するイメージ処理部14、上記抽出された検出対象の領域が目標物に対応するか否かを検証するデータ検証部15、及び上記抽出された検出対象の領域を格納する格納部16を含むことができる。
【0053】
映像獲得部11は、ステレオカメラから撮像された3D映像から深さ情報を獲得することができる。映像獲得部11は、ステレオカメラ(図示せず)及び/または入力映像及び深さ情報を格納するメモリ(図示せず)を含むことができる。
【0054】
イメージ処理部14は、設定されたしきい値を基準に映像を分離し、上記分離された映像に対して雑音を除去して、少なくとも1つの候補領域を検出し、上記少なくとも1つの候補領域に対してラベリングを遂行し、ラベリングされた上記少なくとも1つの候補領域から最終候補領域を検出する一連の動作を遂行することができる。
【0055】
データ検証部15は、抽出された検出対象の領域が目標物に対応しないことと判断される場合、しきい値を調節することができる。この場合、イメージ処理部14はデータ検証部15で調節されたしきい値を用いて上記検出対象領域をまた抽出し、抽出された検出対象領域に対してデータ検証部15は抽出された検出対象の領域が目標物に対応するか否かをまた検証し、検証される場合、格納部16は抽出された検出対象の領域を格納することができる。
【0056】
検出対象が格納されれば、この情報を用いてUIコントローラ17の上でユーザインターフェースのための検出対象領域の追跡及びそのインターフェース方法を提供することができる。
【0057】
一方、図6に例示するものとは異なり、ヒストグラム生成部12、しきい値設定部13、イメージ処理部14、データ検証部15、及び格納部16は、本発明の一実施形態に従う映像処理装置を構成し、映像獲得部11及びUIコントローラ17は独立のデバイスで構成できる。
【0058】
以上、本発明の一実施形態に従う映像処理方法について説明した。本発明の映像処理方法は、格納された検出対象領域の動きを追従し、該当動き情報を入力とするユーザインターフェースのための方法に適用されることができ、コンピュータにより読取可能な記録媒体に電子的記録コードとして格納されて提供できる。
【0059】
また、本発明に従う映像処理装置は、コンピュータ、ネットワークTV、ゲームプレーヤー、スマートTV、ノートブックなどのユーザインターフェース装置で具現されたり、これに搭載されて提供できる。
【0060】
以上の説明は本発明の技術思想を例示的に説明したことに過ぎないものであって、本発明が属する技術分野で通常の知識を有する者であれば、本発明の本質的な特性から外れない範囲で多様な修正及び変形が可能である。したがって、本発明に開示された実施形態は本発明の技術思想を限定するためのものではなく、説明するためのものであり、このような実施形態によって本発明の技術思想の範囲が限定されるものではない。本発明の保護範囲は以下の請求範囲により解釈されなければならず、それと同等な範囲内にある全ての技術思想は本発明の権利範囲に含まれるものと解釈されるべきである。

【特許請求の範囲】
【請求項1】
映像の深さ情報を獲得するステップと、
前記映像の深さ情報に対するヒストグラムを生成するステップと、
前記映像から検出対象の領域を検出するための深さ情報のしきい値を設定するステップと、
前記設定された深さ情報のしきい値を用いて前記映像から検出対象の領域を抽出するステップと、
前記抽出された検出対象の領域が目標物に対応するか否かを検証するステップと、
前記抽出された検出対象の領域を格納するステップと、
を含むことを特徴とする、目標物を検出するための映像処理方法。
【請求項2】
前記抽出された検出対象の領域が目標物に対応しないことと判断される場合には、前記設定されたしきい値を調節するステップをさらに含み、
前記調節されたしきい値を用いて前記抽出するステップ、前記検証するステップ、及び前記格納するステップを反復遂行することを特徴とする、請求項1に記載の目標物を検出するための映像処理方法。
【請求項3】
前記ヒストグラムは、前記獲得した映像の深さ情報に対するピクセルの分布度を含むことを特徴とする、請求項1に記載の目標物を検出するための映像処理方法。
【請求項4】
前記しきい値は前記映像の深さ情報の分布範囲のうち、所定範囲の境界を表す境界値を含むことを特徴とする、請求項1に記載の目標物を検出するための映像処理方法。
【請求項5】
前記しきい値は前記獲得した映像の深さ情報の最大値に基づいて設定されることを特徴とする、請求項1に記載の目標物を検出するための映像処理方法。
【請求項6】
前記検出対象の領域を抽出するステップは、
前記設定されたしきい値を基準に映像を分離するステップと、
前記分離された映像に対して雑音を除去して少なくとも1つの候補領域を検出するステップと、
前記少なくとも1つの候補領域に対してラベリングを遂行するステップと、
ラベリングされた前記少なくとも1つの候補領域から最終候補領域を検出するステップと、
を含むことを特徴とする、請求項1に記載の目標物を検出するための映像処理方法。
【請求項7】
前記検証するステップは、
既設定された領域サイズに基づいて前記抽出された検出対象領域の一部が目標物に対応するか否かを判断するステップを含むことを特徴とする、請求項1に記載の目標物を検出するための映像処理方法。
【請求項8】
映像の深さ情報を獲得する映像獲得部と、
映像の深さ情報に対するヒストグラムを生成するヒストグラム生成部と、
前記映像から検出対象の領域を検出するための深さ情報のしきい値を設定するしきい値設定部と、
前記設定された深さ情報のしきい値を用いて検出対象の領域を抽出するイメージ処理部と、
前記抽出された検出対象の領域が目標物に対応するか否かを検証するデータ検証部と、
前記抽出された検出対象の領域を格納する格納部と、
を含むことを特徴とする、目標物を検出するための映像処理装置。
【請求項9】
前記データ検証部は、前記抽出された検出対象の領域が目標物に対応しないことと判断される場合、しきい値を調節し、
前記イメージ処理部は前記調節されたしきい値を用いて前記抽出し、前記データ検証部は抽出された検出対象の領域が目標物に対応するか否かをまた検証し、前記格納部は抽出された検出対象の領域を格納することを特徴とする、請求項8に記載の目標物を検出するための映像処理装置。
【請求項10】
前記ヒストグラムは前記獲得した映像の深さ情報に対するピクセルの分布度を含むことを特徴とする、請求項8に記載の目標物を検出するための映像処理装置。
【請求項11】
前記しきい値は前記映像の深さ情報の分布範囲のうち、所定範囲の境界を表す境界値を含むことを特徴とする、請求項8に記載の目標物を検出するための映像処理装置。
【請求項12】
前記しきい値は前記獲得した映像の深さ情報の最大値に基づいて設定されることを特徴とする、請求項8に記載の目標物を検出するための映像処理装置。
【請求項13】
前記イメージ処理部は、前記設定されたしきい値を基準に映像を分離し、前記分離された映像に対して雑音を除去して少なくとも1つの候補領域を検出し、前記少なくとも1つの候補領域に対してラベリングを遂行し、ラベリングされた前記少なくとも1つの候補領域から最終候補領域を検出して、前記検出対象の領域を抽出することを特徴とする、請求項8に記載の目標物を検出するための映像処理装置。
【請求項14】
前記データ検証部は、既設定された領域サイズに基づいて前記抽出された検出対象領域の一部が目標物に対応するか否かを判断することを特徴とする、請求項8に記載の目標物を検出するための映像処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate