説明

情報処理装置および情報処理方法

【課題】安価かつ小型に実現でき、高速かつ正確に非接触にジェスチャー等のターゲット・オブジェクトを認識することができる装置を提供する。
【解決手段】一方の視差画像を2以上のレベルを持つグレイスケール画像に変換する手段と、前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出し、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する手段と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理装置および情報処理方法に関する。
【背景技術】
【0002】
ジェスチャーに対応付けられた操作を実行することなどを目的として、非接触にオペレータのジェスチャーを認識するシステムが知られている。
【0003】
図12は、単眼CCDカメラを用いて非接触にオペレータのジェスチャーを認識するシステムの例を示す。図12において、CCDカメラ部13はオペレータの手によるジェスチャーをライブ撮影し、画像フレームを補正処理部14に出力する。補正処理部14は入力される画像フレームに対して、ノイズ除去、平滑化、鮮鋭化、2次元フィルタリング処理や、多値画像から2値画像に変換し(2値化)、認識対象とする図形や文字の骨格線を抽出する細線化処理等を行う。特徴抽出処理部15では、補正された画像フレームからエッジ/輪郭/線成分の抽出や、領域分割、テクスチャの抽出等を行い、画像フレーム中の認識対象オブジェクトの特徴パターンを抽出する。オブジェクト識別処理部16では、抽出された認識対象オブジェクト特徴パターンと、あらかじめ用意されているターゲット・オブジェクト(ここではオペレータの手)の標準パターンデータとの比較を行い、認識対象オブジェクトがターゲット・オブジェクトかどうかを判別し、ターゲット・オブジェクトである場合、ターゲット・オブジェクトの座標やエリア情報を含むターゲット・オブジェクト情報17を出力する。
【0004】
図13は、距離センサと単眼CCDカメラを併用してオペレータのジェスチャーを認識するシステムの例を示す。図13において、距離センサ部18はオペレータまでの距離を計測し、被写体距離計測データを補正処理部23に出力する。補正処理部23では入力された被写体距離データのノイズ除去や距離データ補正を行い、距離算出部24にデータを出力する。距離算出部24では、入力される補正済み距離データから、各領域の距離情報を正規化し、オブジェクト識別処理部22に出力する。一方CCDカメラ部19は、オペレータの手によるジェスチャーをライブ撮影し、画像フレームを補正処理部20に出力する。補正処理部20は、入力される画像フレームに対して、ノイズ除去、平滑化、鮮鋭化などの画像の2次元フィルタリングと呼ばれる処理や、特徴抽出が容易にできるよう多値画像から2値画像に変換し(2値化)、認識対象とする図形や文字の骨格線を抽出する細線化操作等を行う。特徴抽出処理部21では、補正された画像フレームからエッジ/輪郭/線成分の抽出や、領域分割、テクスチャの抽出等を行い、画像フレーム中のオブジェクト分割処理を行う。オブジェクト識別処理部22では、距離算出部24から入力される領域毎の距離情報と、特徴抽出処理部21から入力されるオブジェクト分割情報とを比較し、距離が一番近いオブジェクトをターゲット・オブジェクト(オペレータの手)と認識し、ターゲット・オブジェクトの座標やエリア情報を含むターゲット・オブジェクト情報25を出力する。
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の非接触にジェスチャー等のターゲット・オブジェクトを認識するシステムには以下の3つの課題があった。
【0006】
第1の課題は、カメラ画像からターゲット・オブジェクトを認識する方式の場合、ターゲット・オブジェクトとその他のオブジェクト(ノイズ)を分離するために、いわゆる顔認識技術等に使用されている高度な画像認識技術や、より精度を上げるためサポートベクタマシンによる学習機能等を併用して処理する必要がある点である。このような技術を用いる場合、任意の形状・色を持つオブジェクトを認識することができる反面、膨大な計算やパターン比較のための大容量のデータベースが必要なため、高速処理が可能で大容量のメモリを備えたシステムが必要であり、搭載する装置を小型化・低価格化し難いという課題があった。
【0007】
第2の課題は、カメラ画像からターゲット・オブジェクトを認識する方式で、かつターゲット・オブジェクトがオペレータの手だった場合、手の形状は複雑でかつ多様性があるため、全ての手の形のオブジェクト標準パターンデータをあらかじめ準備しておくことは難しく、従来のパターン認識技術で手をターゲット・オブジェクトとして正確に認識することが困難な点である。
【0008】
第3の課題は、専用の赤外線センサや専用のアクティブ深度センサを用いてターゲット・オブジェクトとその他のオブジェクト(ノイズ)を分離する方式の場合、センサ自体が高価なため第1の課題と同様に小型化・低価格化し難いという点である。
【0009】
したがって、本発明は、上記問題点を解決し、安価かつ小型に実現でき、高速かつ正確に非接触にジェスチャー等のターゲット・オブジェクトを認識することができる情報処理装置および方法を提供することにある。
【課題を解決するための手段】
【0010】
本発明の情報処理装置は、所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理装置であって、一方の視差画像を2以上のレベルを持つグレイスケール画像に変換する変換手段と、前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出し、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定手段と、を備えることを特徴とする。
【0011】
本発明の情報処理方法は、所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理方法であって、一方の視差画像を2以上のレベルを持つグレイスケール画像に変換するステップと、前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出するオブジェクト抽出ステップと、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定ステップと、を備えることを特徴とする。
【0012】
本発明の情報処理方法は、コンピュータが備えるCPUにより実施することができるが、そのためのプログラムは、CD−ROM、磁気ディスク、半導体メモリ及び通信ネットワークなどの各種の媒体を通じて各コンピュータにインストールまたはロードすることができる。
【0013】
なお、本明細書において、手段とは、ハードウェアにより実現されるユニット、ソフトウェアにより実現されるユニット、両方を用いて実現されるユニットを含む。また1つのユニットが2つ以上のハードウェアを用いて実現されてもよく、2つ以上のユニットが1つのハードウェアにより実現されても良い。
【発明の効果】
【0014】
以上のように構成された本発明によれば、安価かつ小型に実現でき、高速かつ正確に非接触にジェスチャー等のターゲット・オブジェクトを認識することができる情報処理装置および方法を提供することができる。
【図面の簡単な説明】
【0015】
【図1】本発明の実施形態のジェスチャー操作システム100の概略構成を示す図である。
【図2】ジェスチャー操作システム100において得られる左右のRGB画像フレームの例を示す図である。
【図3】ジェスチャー操作システム100において得られる左右の補正RGB画像フレームの例を示す図である。
【図4】ジェスチャー操作システム100において得られる左右のノイズ除去RGB画像フレームの例を示す図である。
【図5】ジェスチャー操作システム100において得られる左右の肌色フィルタ画素抽出マスク画像フレーム及び肌色フィルタRGB画像フレームの例を示す図である。
【図6】ジェスチャー操作システム100において得られるグレイスケール画像フレーム及び左目レベル分割グレイスケール画像フレームの例を示す図である。
【図7】ジェスチャー操作システム100において得られる左右のグレイスケール画像フレームの例を示す図である。
【図8】ジェスチャー操作システム100において抽出されるオブジェクトの例を示す図である。
【図9】ジェスチャー操作システム100において得られる視差値を画像化したオブジェクト視差値正規化画像フレームの例を示す図である。
【図10】ジェスチャー操作システム100において抽出されるターゲット・オブジェクトの例を示す図である。
【図11】オペレータが手を用いてマウス機器と同様な操作を行う場合の画面表示例である。
【図12】単眼CCDカメラを用いて非接触にオペレータのジェスチャーを認識するシステムの例を示す図である。
【図13】距離センサと単眼CCDカメラを併用してオペレータのジェスチャーを認識するシステムの例を示す図である。
【図14】左目肌色フィルタRGB画像フレームにCannyフィルタを使用してオブジェクトの境界線のみ抽出した2値画像フレームの例を示す図である。
【図15】図14に示す2値画像フレームを用いてオブジェクトを抽出した場合の、オブジェクト視差値正規化画像フレームの例を示す図である。
【図16】図14に示す2値画像フレームを用いてオブジェクトを抽出した場合の、抽出されるターゲット・オブジェクトの例を示す図である。
【発明を実施するための形態】
【0016】
以下、図面を参照して、本発明の好適な実施形態に係る非接触ジェスチャー操作システムについて詳細に説明する。
【0017】
図1は、本発明の実施形態のジェスチャー操作システムの概略構成を示す図である。図1に示すように、ジェスチャー操作システム100は、ステレオカメラ部1、カメラ・キャリブレーション部2、ノイズフィルタ(左目)3、ノイズフィルタ(右目)4、肌色フィルタ(左目)5、肌色フィルタ(右目)6、レベル分割部7、ステレオ・キャリブレーション部8、ターゲット・オブジェクト抽出部9、ジェスチャーコマンド認識部10、画面表示部11、画面表示用ディスプレイ12等を備えており、これらの各部を用いて、オペレータの手によるジェスチャーをコマンドとして認識し、かかるコマンドに対応した操作(例えば、画面への表示)を実行する機能を有する。
【0018】
ジェスチャー操作システム100の各部のうち、機能手段として構成可能なものは、例えば、マイクロプロセッサからなるCPU(中央演算処理装置)、メモリ、HDD、各種インタフェースなどのハードウェアを備える専用または汎用のコンピュータにおいて、主にCPUがメモリ、HDDなどに格納されるプログラムを実行して各ハードウェアを制御することにより実現することができる。このうち、ノイズフィルタ(左目)3、ノイズフィルタ(右目)4、肌色フィルタ(左目)5、肌色フィルタ(右目)6、レベル分割部7、ステレオ・キャリブレーション部8等を含む各機能手段は、所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理装置(ユニット)の一部として把握することができる。
【0019】
このような非接触ジェスチャー操作システム100は、パーソナルコンピュータや、カーナビゲーションシステム、携帯電話等に代表される画面表示機能を有したIT関連機器に搭載することが可能である。
【0020】
以下、非接触ジェスチャー操作システム100の各部について説明する。ステレオカメラ部1は、2台のCCDカメラを内蔵したカメラモジュールであり、オペレータの手によるジェスチャーを所定の視差でステレオ動画撮影(ライブ撮影)し、時系列を構成する各フレームについて得られた左右の視差画像(左目画像フレームおよび右目画像フレーム)をRGB8bitフォーマットでカメラ・キャリブレーション部2に出力する。
【0021】
カメラ・キャリブレーション部2は、ステレオカメラ部1から入力される左目画像フレームおよび右目画像フレームに対して、従来のカメラ・キャリブレーション技術を使って水平方向、垂直方向、回転方向、レンズのゆがみ補正等を行い、最適なステレオ処理ができるよう補正した視差画像(左目補正RGB画像フレームおよび右目補正RGB画像フレーム)をノイズフィルタ(左目)3とノイズフィルタ(右目)4に出力する。
【0022】
ノイズフィルタ(左目)3は、左目補正RGB画像フレームを入力とし、ガウシアンフィルタ等の従来の平滑化フィルタ技術を用いて画像フレーム中のノイズとなる画素を除去した視差画像(左目ノイズ除去RGB画像フレーム)を肌色フィルタ(左目)5に出力する。同様に、ノイズフィルタ(右目)部は、右目補正RGB画像フレームを入力とし、ガウシアンフィルタ等の従来の平滑化フィルタ技術を用いて画像フレーム中のノイズとなる画素を除去した視差画像(右目ノイズ除去RGB画像フレーム)を肌色フィルタ(右目)6に出力する。
【0023】
肌色フィルタ(左目)5は、入力される左目ノイズ除去RGB画像フレームの中から肌色画素を抽出し、該肌色画素を左目補正RGB画像フレームの同位置の画素で置き換え、肌色画素以外の画素を背景画素に置き換えた視差画像(左目肌色フィルタRGB画像フレーム)を作成し、ステレオ・キャリブレーション部8、レベル分割部7に出力する。
【0024】
一方、肌色フィルタ(右目)6は、入力される右目ノイズ除去RGB画像フレームの中から肌色画素を抽出し、該肌色画素を右目補正RGB画像フレームの同位置の画素で置き換え、肌色画素以外の画素を背景画素に置き換えた視差画像(右目肌色フィルタRGB画像フレーム)を作成し、ステレオ・キャリブレーション部8に出力する。
【0025】
レベル分割部7は、入力される左目肌色フィルタRGB画像フレームをグレイスケール画像に変換し、該グレイスケール画像をあらかじめ定めた画素値分割レベルパラメータに従って階調変換して2以上のレベル(階調)を持つ左目レベル分割グレイスケール画像フレームを作成し、ステレオ・キャリブレーション部8に出力する。
【0026】
画素値分割レベルパラメータ、レベル数は、設計に応じて設定することができ、例えば各画素が255階調で表されるグレイスケール画像に対して階調変換をする場合、255階調を均等に8分割するように画素値分割レベルパラメータを設定することで、各画素が8階調で表される左目レベル分割グレイスケール画像フレームを作成することができる。
【0027】
ステレオ・キャリブレーション部8は、レベル分割部7から入力される左目レベル分割グレイスケール画像フレームから、視差を算出するための計算単位であるオブジェクトを抽出する。そして、該オブジェクトごとに、肌色フィルタ(左目)5および肌色フィルタ(右目)6から入力される左右の肌色フィルタRGB画像フレームを用いて視差値を算出し、該視差値をターゲット・オブジェクト抽出部9に出力する。
【0028】
ターゲット・オブジェクト抽出部9は、ステレオ・キャリブレーション部8から入力される各オブジェクトの視差値に基づき、カメラ深度が一番浅い(カメラに距離が一番近い)オブジェクト群をターゲット・オブジェクト(認識対象)として抽出し、ターゲット・オブジェクトの座標情報およびエリア情報をジェスチャーコマンド認識部10に出力する。
【0029】
ジェスチャーコマンド認識部10は、ターゲット・オブジェクト抽出部9から入力されるターゲット・オブジェクトの座標情報およびエリア情報に基づき、ターゲット・オブジェクトの移動軌跡をトレースし、また、ターゲット・オブジェクトのエリア内の画像に従来の画像認識技術を適用して、ターゲット・オブジェクトの形状を認識する。そして、あらかじめ用意されているジェスチャーコマンド・データベースを参照して、ターゲット・オブジェクトの移動軌跡と形状の組み合わせからジェスチャーコマンドを認識し、該ジェスチャーコマンドに対応した制御情報をジェスチャーコマンド情報として画面表示部11に出力する。
【0030】
画面表示部11は、ジェスチャーコマンド認識部10から入力されるジェスチャーコマンド情報に従って、画面表示用ディスプレイ12の表示内容を制御する(例えば、カーソルの移動などのアクションを画面表示する)。
【0031】
次に、ジェスチャー操作システム100の動作を図2〜図11に示すサンプル画像フレームを使用して説明する。
【0032】
ステレオカメラ部1は、内蔵された左右のCCDカメラでオペレータのジェスチャーをステレオ動画撮影し、図2に示すような左目RGB画像フレームと右目RGB画像フレームをそれぞれカメラ・キャリブレーション2に出力する。その際、各RGB画像フレームの解像度や動画のフレームレートは、ジェスチャー操作システム100がリアルタイムに処理できるように、CCDカメラの機能に基づいて決定される。
【0033】
なお、ジェスチャー操作システム100では、カメラ・キャリブレーション部2により補正を行うことから、ステレオCCDカメラの焦点距離や被写界深度(フォーカス)に関する機能的要件や設置条件等について厳密な制限はなく、比較的安価なパンフォーカスタイプのCCDカメラ2個を適切な距離に併設・固定することで、ステレオカメラ部1として構成可能である。
【0034】
カメラ・キャリブレーション部2は、未補正の左目RGB画像フレームと右目RGB画像フレームに対して、従来のステレオカメラのキャリブレーション技術を使って、水平方向、垂直方向、回転方向、レンズのゆがみ補正等を行うことで、後段のステレオ処理が最適に行われるように画像フレームを補正し、図3に示すような左目補正RGB画像フレームと右目補正RGB画像フレームをノイズフィルタ(左目)3とノイズフィルタ(右目)4に出力する。
【0035】
なお、ステレオカメラ部1について製品出荷時にキャリブレーションが実行され、調整パラメータが更新・保存されている場合、カメラ・キャリブレーション部2は、保存された調整パラメータを使用して上記の画像フレームの補正を行うことができる。
【0036】
ノイズフィルタ(左目)3は、後段の肌色フィルタ(左目)5において正確に肌色領域が抽出できるように、入力される左目補正RGB画像フレームに対して、平滑化処理により画素ノイズを軽減し、図5に示すような左目ノイズ除去RGB画像フレームを肌色フィルタ(左目)5に出力する。同様に、ノイズフィルタ(右目)4は、後段の肌色フィルタ(右目)6において正確に肌色領域の抽出ができるように、入力される右目補正RGB画像フレームに対して、平滑化処理により画素ノイズを軽減し、図4に示すような右目ノイズ除去RGB画像フレームを肌色フィルタ(右目)6に出力する。平滑化処理としては、例えばガウシアンフィルタ(5×5)を使用することができる。
【0037】
肌色フィルタ(左目)5および肌色フィルタ(右目)6は、後段のステレオ・キャリブレーション部8において総計算量が削減できるように、ターゲット・オブジェクトが有する範囲として設定した色範囲にある領域を残し、それ以外の領域をマスクする。本実施形態では、ターゲット・オブジェクトがオペレータ(日本人)の手であるため、肌色をベースとした色範囲をターゲット・オブジェクトの色範囲として設定し、肌色画素領域を抽出するように構成している。肌色画素領域の抽出方法には、従来のカラーフィルター技術を用いることができる。
【0038】
具体的には、肌色フィルタ(左目)5は、入力される左目ノイズ除去RGB画像フレームについて、設定された肌色ベース値とフィルタリング許容幅に基づき、肌色と判断できる画素を識別し、図5に示すような、肌色画素領域を有効画素領域とし、他の領域を非有効画素領域(背景画素領域)とした、左目の肌色フィルタ画素抽出マスク画像フレームを作成する。その後、肌色フィルタ画素抽出マスク画像フレームの有効画素(肌色画素)を、左目補正RGB画像フレームの同位置の画素に置き換えることにより、図5に示すような肌色画素のみで構成された左目肌色フィルタRGB画像フレームを作成し、レベル分割部7およびステレオ・キャリブレーション部8に出力する。
【0039】
また、肌色フィルタ(右目)6は、入力される右目ノイズ除去RGB画像フレームについて、設定された肌色ベース値とフィルタリング許容幅に基づき、肌色と判断できる画素を識別し、図5に示すような、肌色画素領域を有効画素領域とし、他の領域を非有効画素領域(背景画素領域)とした、右目の肌色フィルタ画素抽出マスク画像フレームを作成する。その後、肌色フィルタ画素抽出マスク画像フレームの有効画素(肌色画素)を、右目補正RGB画像フレームの同位置の画素に置き換えることにより、図5に示すような肌色画素のみで構成された右目肌色フィルタRGB画像フレームを作成し、ステレオ・キャリブレーション部8に出力する。
【0040】
なお、各フィルタは、ベースとなる肌色を示すRGB値をデフォルト値としてあらかじめ設定しておき、ステレオカメラの撮影条件によりフィルタリングの許容幅を変更できるように構成してもよい。また、ベースとなる肌色を示すRGB値を変更できるように構成してもよい。
【0041】
レベル分割部7は、後段のステレオ・キャリブレーション部8の視差計算量を軽減できるように、左目肌色フィルタRGB画像フレームを、視差を算出するための計算単位であるオブジェクトを抽出するための画像フレームに変換する。
【0042】
具体的には、レベル分割部7は、肌色フィルタ(左目)5から入力される左目肌色フィルタRGB画像フレームを従来技術によりグレイスケール化し、図6に示すようなグレイスケール化後の画像フレームに対して、あらかじめ設定された画素値分割レベルパラメータに従って階調変換を行い、図6に示すような左目レベル分割グレイスケール画像フレームを作成する。例えばレベル数が8に設定されている場合、レベル分割部7は、各画素が8階調で表される左目レベル分割グレイスケール画像フレームを作成し、ステレオ・キャリブレーション部8に出力する。
【0043】
ステレオ・キャリブレーション部8は、肌色フィルタ(左目)5と肌色フィルタ(右目)6から入力される左右の肌色フィルタRGB画像フレームをそれぞれグレイスケール化して、図7に示すような左右のグレイスケール画像フレームを作成する。また、レベル分割部7から入力される左目レベル分割グレイスケール画像フレームから、視差算出単位となるオブジェクトを抽出し、該オブジェクトごとに左右のグレイスケール画像フレームを比較・計算して、視差を算出する。なお、背景画素はオブジェクト抽出の対象外とする。
【0044】
左目レベル分割グレイスケール画像フレームは、例えば各画素が8階調で表されるグレイスケール画像フレームであり、ステレオ・キャリブレーション部8は、この画像フレームにおいて所定方向(例えば走査方向(水平方向))に連続する同一階調値を有する連続画素群を一つのオブジェクトとして抽出する。図8に、抽出されるオブジェクトの例を示す。
【0045】
ステレオ・キャリブレーション部8は、全てのオブジェクトに対して視差計算を行う。視差を計算するために用いる左右の画像フレームは、肌色フィルタ(左目)5と肌色フィルタ(右目)6から入力される左右の肌色フィルタRGB画像フレームをグレイスケール化した画像フレームである。
【0046】
ステレオ・キャリブレーション部8は、一つのオブジェクトの視差を算出する際、オブジェクトの左端座標を基準座標に設定し、左目グレイスケール画像フレームにおいて基準座標を中心としてあらかじめ設定されたサイズの画像領域を基準領域に設定し、該基準領域の画像をテンプレートパターンとして、右目グレイスケール画像フレームの同サイズの画像領域と比較して、一番類似している画像領域を探索する。
【0047】
例えば、基準エリアのサイズが5×5画素である場合、ステレオ・キャリブレーション部8は、左目グレイスケール画像フレームにおいて、基準座標を中心とした5×5画素の画像領域を基準領域に設定し、基準領域の画像をテンプレートパターンに設定する。次に、右目グレイスケール画像フレームにおいて、基準座標を中心とした5×5画素の画像領域から開始して、探索エリア内で視差方向(例えば2台のカメラが水平に設置されている場合、水平方向)に1ピクセル毎にずらしながら順にテンプレートパターンと比較することで、一番類似している画像領域(最類似領域)を探索する。この際使用されるパターン比較方法には、一般的に知られているテンプレートマッチング技術を使用することができる。
【0048】
ここで、ステレオ・キャリブレーション部8には、ステレオカメラ部1のカメラパラメータや、ステレオカメラ部1とオペレータとの相対位置関係などに基づいて、あらかじめ最大許容視差値を設定しておくことができる。ステレオ・キャリブレーション部8は、該最大許容視差値を与える範囲を探索エリアとして設定し、該探索エリア内で、最類似領域を探索する。このように構成することで、一般的なテンプレートマッチングのように水平・垂直方向の自由度を持った広い範囲を探索する必要が無くなるため、従来のステレオ・キャリブレーション技術と比較して、視差算出のための総計算量を大幅に軽減することができる。
【0049】
探索の結果、最類似領域を決定できたら、基準座標(基準領域の中心座標)と最類似領域の中心座標との視差方向の位置の差(画素差)を、そのオブジェクトの視差値として求め、内部テーブルに保存する。
【0050】
ステレオ・キャリブレーション部8は、全オブジェクトに対して以上のような視差算出処理を繰り返し実行した後、内部テーブルをターゲット・オブジェクト抽出部9に出力する。
【0051】
図9に示すオブジェクト視差値正規化画像フレームは、全オブジェクトの視差値を保存した内部テーブルを画像化したものであり、より白い(画素値が大きい)オブジェクトは視差が大きく深度が浅い(カメラ距離が近い)ことを表している。オブジェクト視差値正規化画像フレームにおいて、オペレータの手のひら部分が一番白く表されており、一番カメラ深度が浅い(カメラからの距離が近い)オブジェクトの集合体となっていることが分かる。
【0052】
ターゲット・オブジェクト抽出部9は、ステレオ・キャリブレーション部8から入力される全オブジェクトの視差値を保存している内部テーブルに基づき、一番カメラ深度が浅い(カメラからの距離が近い)オブジェクトを基準に許容視差範囲を求める。そして、該範囲に含まれるオブジェクトの集合体をターゲット・オブジェクトとして抽出し、ターゲット・オブジェクトの座標情報とエリア情報とを求め、ジェスチャーコマンド認識部10に出力する。
【0053】
具体的には、オブジェクト・ターゲット抽出部9は、入力される内部テーブルから視差値の最大値を検索し、その最大値と、あらかじめ設定されたターゲット・オブジェクト深度許容割合とから、最大値から一定範囲となる許容視差範囲を決定し、該許容視差範囲に基づいてターゲット・オブジェクトを抽出する。
【0054】
例えば、内部テーブルの視差値(8bit)の最大値が200であり、ターゲット・オブジェクト深度許容割合が20%に設定されていた場合を例に説明する。この場合、最大値200に対して、その20%分を減算した値160を許容最小値として求め、視差値200〜160の範囲を許容視差範囲として決定し、該許容視差範囲に視差値が含まれるオブジェクトの集合体をターゲット・オブジェクトとして抽出する。そして、例えばターゲット・オブジェクトとして抽出されたオブジェクト全てが含まれる包囲短形領域をターゲット・オブジェクト領域として求め、該包囲矩形領域の中心座標及び頂点座標をターゲット・オブジェクトの座標情報及びエリア情報として求める。図10に、抽出されるターゲット・オブジェクトの例を示す。
【0055】
なお、許容視差範囲に含まれるオブジェクトの集合体が2以上の不連続領域として抽出される場合、包囲矩形領域の面積が一番大きくなるオブジェクトの集合体をターゲット・オブジェクトとして抽出することで、視差計算時の誤差補正を行うことができる。また、包囲矩形領域の4頂点は、該当するオブジェクトの左端座標、右端座標に対して、X座標の最小値・最大値とY座標の最小値・最大値を算出することで、容易に求めることができる。
【0056】
ジェスチャーコマンド認識部10は、ターゲット・オブジェクト抽出部9から入力されるターゲット・オブジェクトの座標情報およびエリア情報に基づいて、ジェスチャーコマンドを認識し、認識結果に対応した制御情報をジェスチャーコマンド情報として画面表示部11に出力する。
【0057】
ジェスチャーコマンドの認識方法については、従来技術を用いることができる。例えば、時系列を構成する複数の視差画像に基づいてターゲット・オブジェクトをそれぞれ求め、それら複数のターゲット・オブジェクトの座標情報の軌跡をトレースする。そして、あらかじめジェスチャーコマンドに対応づけてジェスチャーに関するテンプレート情報(ジェスチャーの軌跡に関するトレース情報、ジェスチャーに対応する表示制御情報など)が登録されたデータベース(ジェスチャーデータベース)を参照し、ターゲット・オブジェクトの座標情報およびエリア情報に基づいて求めたトレース結果にマッチするジェスチャーコマンドを認識結果として選択する。
【0058】
このとき、各ターゲット・オブジェクトのエリア情報から決定される矩形画像に対して従来の画像認識処理を実行し、ターゲット・オブジェクトの形状(ここでは、手のフォーム)を認識するように構成してもよい。この場合、ジェスチャーに関するテンプレート情報にターゲット・オブジェクトの形状情報も含めておき、ターゲット・オブジェクトの座標情報およびエリア情報に基づいて求めたトレース結果と形状認識結果とにマッチするジェスチャーコマンドを認識結果として選択する。
【0059】
例えば、オペレータが手を用いてポインティングデバイスであるマウス機器と同様な操作を行い、かかる操作を認識するシステムの場合、ターゲット・オブジェクトの座標情報をマウス座標に対応する情報として用い、ターゲット・オブジェクトの形状認識結果はマウスのクリック操作に対応する情報として用いることができる。
【0060】
画面表示部11は、ジェスチャーコマンド認識部10から入力されるジェスチャーコマンドの制御情報に応じて、表示用ディスプレイ12に画面表示を行う。図11は、オペレータが手を用いてポインティングデバイスであるマウス機器と同様な操作を行う場合の画面表示例を示している。図11に例示するように、オペレータの手の動きに合わせて、ポインティング・アイコン(「手」のアイコン)を、画面表示用ディスプレイ12上でリアルタイムに移動させることができる。
【0061】
以上説明したように、本実施形態の構成によれば、以下の効果を達成ることができる。
【0062】
第1の効果は、ターゲット・オブジェクトの色範囲(実施形態における肌色範囲)を設定し、該色範囲にある画素を残すようなフィルタ(実施形態における肌色フィルタ)によりオブジェクトを抽出する領域の絞込みをしているので、視差計算に必要な計算量を大幅に削減できる点である。
【0063】
第2の効果は、ステレオ・キャリブレーション処理においてオブジェクトごとの視差を計算する際、レベル分割により階調を減らした結果に基づいてオブジェクトを抽出することで、視差計算の対象とするオブジェクトの数を大幅に削減し、また最大許容視差値をあらかじめ設定しておくことで、視差計算の探索範囲を限定しているので、計算量を大幅に削減してステレオ・キャリブレーション処理を高速に行える点である。
【0064】
第3の効果は、オペレータの手によるジェスチャーを認識対象とした場合、手の位置がカメラから一番近いという知識を利用し、カメラ深度の一番浅いオブジェクト郡をターゲット・オブジェクトとして抽出しているので、複雑で多様な手の形を高度な画像認識技術で解析することなく、高速かつ正確にジェスチャーを認識できる点である。
【0065】
第4の効果は、高価で大きな赤外線センサやアクティブ深度センサを利用することなく、安価で小さなCCDステレオカメラを用いて非接触ジェスチャー操作システムを実現できるので、システムの低価格化、小型化を実現できる点である。
【0066】
本発明の好適な実施形態について説明したが、本発明は、以上の実施形態に限定されるべきものではなく、特許請求の範囲に表現された思想および範囲を逸脱することなく、種々の変形、追加、および省略が当業者によって可能である。
【0067】
例えば、上記実施形態では、ステレオ・キャリブレーション部8がオブジェクトの左端座標を基準座標に設定する例を説明したが、オブジェクトの他の位置(例えば、中心座標や右端座標など)を基準座標として設定してもよい。
【0068】
また例えば、上記実施形態では、左目肌色フィルタRGB画像フレームに基づいてレベル分割処理を実行する構成としているが、右目肌色フィルタRGB画像フレームに基づいてレベル分割処理を実行する構成としてもよい。この場合、ステレオ・キャリブレーション部8は、右目グレイスケール画像フレームにおいて基準座標を中心としてあらかじめ設定されたサイズの画像領域を基準領域に設定し、該基準領域の画像をテンプレートパターンとして左目グレイスケール画像フレームの同サイズの画像領域と比較して、最類似領域を探索する。
【0069】
また例えば、上記実施形態では、レベル分割部7、ステレオ・キャリブレーション部8がそれぞれグレイスケール処理を実行する構成としているが、各肌色フィルタがグレイスケール処理を実行し、グレイスケール化した画像フレームを出力するように構成してもよい。
【0070】
また例えば、レベル分割部7は、肌色フィルタ(左目)5から入力される左目肌色フィルタRGB画像フレームをグレイスケール化する代わりに、従来技術のエッジ検出フィルタ(Cannyフィルタ、Sobelフィルタ等)を使用し、オブジェクトの境界線のみ抽出した2値画像フレームを作成し、ステレオ・キャリブレーション部8に出力してもよい。この場合、ステレオ・キャリブレーション部8は、かかる2値画像フレームから視差算出単位となるオブジェクトを抽出し、該オブジェクトごとに左右のグレイスケール画像フレームを比較・計算して、視差を算出する。かかる構成によれば、ステレオ・キャリブレーション部8で処理すべきオブジェクト総数を、グレイスケール画像を用いる場合よりも削減できるため、より高速に処理することができる。図14に、左目肌色フィルタRGB画像フレームにCannyフィルタを使用してオブジェクトの境界線のみ抽出した2値画像フレームの例を示す。また、図15、図16に、かかる2値画像フレームを用いてオブジェクトを抽出した場合の、オブジェクト視差値正規化画像フレームの例、抽出されるターゲット・オブジェクトの例を示す。
【0071】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理装置であって、一方の視差画像を2以上のレベルを持つグレイスケール画像に変換する変換手段と、前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出し、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定手段と、 を備えることを特徴とする情報処理装置。
(付記2)更に、前記オブジェクトごとの視差値に基づき、所定の視差値の範囲に含まれるオブジェクトを含む領域を認識対象領域として抽出する対象抽出手段と、時系列を構成する複数の視差画像について抽出した前記認識対象領域に基づき、前記認識対象領域の軌跡を求め、前記軌跡と認識対象の動作に関するテンプレート情報とに基づいて、認識対象の動作を認識する認識手段と、を備えることを特徴とする付記1記載の情報処理装置。
(付記3)前記認識対象はオペレータの手であり、前記認識対象の動作はジェスチャーであることを特徴とする付記2記載の情報処理装置。
(付記4)前記所定の視差値の範囲は、前記決定した視差値の中の最大値から一定の範囲であることを特徴とする付記2又は3記載の情報処理装置。
(付記5)更に、ステレオ撮影して得られた左右の視差画像に基づき、認識対象が有する範囲として設定した色範囲にある領域を残し、それ以外の領域を背景とした視差画像を作成するフィルタ手段を備え、前記変換手段は、前記フィルタ手段が作成する視差画像を前記グレイスケール画像に変換することを特徴とする付記1乃至4のいずれか1項に記載の情報処理装置。
(付記6)所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理方法であって、一方の視差画像を2以上のレベルを持つグレイスケール画像に変換するステップと、前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出するオブジェクト抽出ステップと、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定ステップと、を備えることを特徴とする情報処理方法。
(付記7)付記6記載の情報処理方法をコンピュータで実行させるためのプログラム。
【符号の説明】
【0072】
1 ステレオカメラ
2 カメラ・キャリブレーション部
3 ノイズフィルタ(左目)
4 ノイズフィルタ(右目)
5 肌色フィルタ(左目)
6 肌色フィルタ(右目)
7 レベル分割部
8 ステレオ・キャリブレーション部
9 ターゲット・オブジェクト抽出部
10 ジェスチャーコマンド認識部
11 画面表示部
12 画面表示用ディスプレイ

【特許請求の範囲】
【請求項1】
所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理装置であって、
一方の視差画像を2以上のレベルを持つグレイスケール画像に変換する変換手段と、
前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出し、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
更に、前記オブジェクトごとの視差値に基づき、所定の視差値の範囲に含まれるオブジェクトを含む領域を認識対象領域として抽出する対象抽出手段と、
時系列を構成する複数の視差画像について抽出した前記認識対象領域に基づき、前記認識対象領域の軌跡を求め、前記軌跡と認識対象の動作に関するテンプレート情報とに基づいて、認識対象の動作を認識する認識手段と、
を備えることを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記認識対象はオペレータの手であり、前記認識対象の動作はジェスチャーであることを特徴とする請求項2記載の情報処理装置。
【請求項4】
前記所定の視差値の範囲は、前記決定した視差値の中の最大値から一定の範囲であることを特徴とする請求項2又は3記載の情報処理装置。
【請求項5】
更に、ステレオ撮影して得られた左右の視差画像に基づき、認識対象が有する範囲として設定した色範囲にある領域を残し、それ以外の領域を背景とした視差画像を作成するフィルタ手段を備え、
前記変換手段は、前記フィルタ手段が作成する視差画像を前記グレイスケール画像に変換することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
【請求項6】
所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理方法であって、
一方の視差画像を2以上のレベルを持つグレイスケール画像に変換するステップと、
前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出するオブジェクト抽出ステップと、
前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定ステップと、
を備えることを特徴とする情報処理方法。
【請求項7】
請求項6記載の情報処理方法をコンピュータで実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2011−175347(P2011−175347A)
【公開日】平成23年9月8日(2011.9.8)
【国際特許分類】
【出願番号】特願2010−37285(P2010−37285)
【出願日】平成22年2月23日(2010.2.23)
【出願人】(390001395)NECシステムテクノロジー株式会社 (438)
【Fターム(参考)】