情報処理装置および情報処理方法

【課題】安価かつ小型に実現でき、高速かつ正確に非接触にジェスチャー等のターゲット・オブジェクトを認識することができる装置を提供する。
【解決手段】一方の視差画像を２以上のレベルを持つグレイスケール画像に変換する手段と、前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出し、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する手段と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理装置および情報処理方法に関する。
【背景技術】
【０００２】
ジェスチャーに対応付けられた操作を実行することなどを目的として、非接触にオペレータのジェスチャーを認識するシステムが知られている。
【０００３】
図１２は、単眼ＣＣＤカメラを用いて非接触にオペレータのジェスチャーを認識するシステムの例を示す。図１２において、ＣＣＤカメラ部１３はオペレータの手によるジェスチャーをライブ撮影し、画像フレームを補正処理部１４に出力する。補正処理部１４は入力される画像フレームに対して、ノイズ除去、平滑化、鮮鋭化、２次元フィルタリング処理や、多値画像から２値画像に変換し(２値化)、認識対象とする図形や文字の骨格線を抽出する細線化処理等を行う。特徴抽出処理部１５では、補正された画像フレームからエッジ／輪郭／線成分の抽出や、領域分割、テクスチャの抽出等を行い、画像フレーム中の認識対象オブジェクトの特徴パターンを抽出する。オブジェクト識別処理部１６では、抽出された認識対象オブジェクト特徴パターンと、あらかじめ用意されているターゲット・オブジェクト(ここではオペレータの手)の標準パターンデータとの比較を行い、認識対象オブジェクトがターゲット・オブジェクトかどうかを判別し、ターゲット・オブジェクトである場合、ターゲット・オブジェクトの座標やエリア情報を含むターゲット・オブジェクト情報１７を出力する。
【０００４】
図１３は、距離センサと単眼ＣＣＤカメラを併用してオペレータのジェスチャーを認識するシステムの例を示す。図１３において、距離センサ部１８はオペレータまでの距離を計測し、被写体距離計測データを補正処理部２３に出力する。補正処理部２３では入力された被写体距離データのノイズ除去や距離データ補正を行い、距離算出部２４にデータを出力する。距離算出部２４では、入力される補正済み距離データから、各領域の距離情報を正規化し、オブジェクト識別処理部２２に出力する。一方ＣＣＤカメラ部１９は、オペレータの手によるジェスチャーをライブ撮影し、画像フレームを補正処理部２０に出力する。補正処理部２０は、入力される画像フレームに対して、ノイズ除去、平滑化、鮮鋭化などの画像の２次元フィルタリングと呼ばれる処理や、特徴抽出が容易にできるよう多値画像から２値画像に変換し(２値化)、認識対象とする図形や文字の骨格線を抽出する細線化操作等を行う。特徴抽出処理部２１では、補正された画像フレームからエッジ／輪郭／線成分の抽出や、領域分割、テクスチャの抽出等を行い、画像フレーム中のオブジェクト分割処理を行う。オブジェクト識別処理部２２では、距離算出部２４から入力される領域毎の距離情報と、特徴抽出処理部２１から入力されるオブジェクト分割情報とを比較し、距離が一番近いオブジェクトをターゲット・オブジェクト(オペレータの手)と認識し、ターゲット・オブジェクトの座標やエリア情報を含むターゲット・オブジェクト情報２５を出力する。
【発明の概要】
【発明が解決しようとする課題】
【０００５】
従来の非接触にジェスチャー等のターゲット・オブジェクトを認識するシステムには以下の３つの課題があった。
【０００６】
第１の課題は、カメラ画像からターゲット・オブジェクトを認識する方式の場合、ターゲット・オブジェクトとその他のオブジェクト(ノイズ)を分離するために、いわゆる顔認識技術等に使用されている高度な画像認識技術や、より精度を上げるためサポートベクタマシンによる学習機能等を併用して処理する必要がある点である。このような技術を用いる場合、任意の形状・色を持つオブジェクトを認識することができる反面、膨大な計算やパターン比較のための大容量のデータベースが必要なため、高速処理が可能で大容量のメモリを備えたシステムが必要であり、搭載する装置を小型化・低価格化し難いという課題があった。
【０００７】
第２の課題は、カメラ画像からターゲット・オブジェクトを認識する方式で、かつターゲット・オブジェクトがオペレータの手だった場合、手の形状は複雑でかつ多様性があるため、全ての手の形のオブジェクト標準パターンデータをあらかじめ準備しておくことは難しく、従来のパターン認識技術で手をターゲット・オブジェクトとして正確に認識することが困難な点である。
【０００８】
第３の課題は、専用の赤外線センサや専用のアクティブ深度センサを用いてターゲット・オブジェクトとその他のオブジェクト(ノイズ)を分離する方式の場合、センサ自体が高価なため第１の課題と同様に小型化・低価格化し難いという点である。
【０００９】
したがって、本発明は、上記問題点を解決し、安価かつ小型に実現でき、高速かつ正確に非接触にジェスチャー等のターゲット・オブジェクトを認識することができる情報処理装置および方法を提供することにある。
【課題を解決するための手段】
【００１０】
本発明の情報処理装置は、所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理装置であって、一方の視差画像を２以上のレベルを持つグレイスケール画像に変換する変換手段と、前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出し、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定手段と、を備えることを特徴とする。
【００１１】
本発明の情報処理方法は、所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理方法であって、一方の視差画像を２以上のレベルを持つグレイスケール画像に変換するステップと、前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出するオブジェクト抽出ステップと、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定ステップと、を備えることを特徴とする。
【００１２】
本発明の情報処理方法は、コンピュータが備えるＣＰＵにより実施することができるが、そのためのプログラムは、ＣＤ−ＲＯＭ、磁気ディスク、半導体メモリ及び通信ネットワークなどの各種の媒体を通じて各コンピュータにインストールまたはロードすることができる。
【００１３】
なお、本明細書において、手段とは、ハードウェアにより実現されるユニット、ソフトウェアにより実現されるユニット、両方を用いて実現されるユニットを含む。また１つのユニットが２つ以上のハードウェアを用いて実現されてもよく、２つ以上のユニットが１つのハードウェアにより実現されても良い。
【発明の効果】
【００１４】
以上のように構成された本発明によれば、安価かつ小型に実現でき、高速かつ正確に非接触にジェスチャー等のターゲット・オブジェクトを認識することができる情報処理装置および方法を提供することができる。
【図面の簡単な説明】
【００１５】
【図１】本発明の実施形態のジェスチャー操作システム１００の概略構成を示す図である。
【図２】ジェスチャー操作システム１００において得られる左右のＲＧＢ画像フレームの例を示す図である。
【図３】ジェスチャー操作システム１００において得られる左右の補正ＲＧＢ画像フレームの例を示す図である。
【図４】ジェスチャー操作システム１００において得られる左右のノイズ除去ＲＧＢ画像フレームの例を示す図である。
【図５】ジェスチャー操作システム１００において得られる左右の肌色フィルタ画素抽出マスク画像フレーム及び肌色フィルタＲＧＢ画像フレームの例を示す図である。
【図６】ジェスチャー操作システム１００において得られるグレイスケール画像フレーム及び左目レベル分割グレイスケール画像フレームの例を示す図である。
【図７】ジェスチャー操作システム１００において得られる左右のグレイスケール画像フレームの例を示す図である。
【図８】ジェスチャー操作システム１００において抽出されるオブジェクトの例を示す図である。
【図９】ジェスチャー操作システム１００において得られる視差値を画像化したオブジェクト視差値正規化画像フレームの例を示す図である。
【図１０】ジェスチャー操作システム１００において抽出されるターゲット・オブジェクトの例を示す図である。
【図１１】オペレータが手を用いてマウス機器と同様な操作を行う場合の画面表示例である。
【図１２】単眼ＣＣＤカメラを用いて非接触にオペレータのジェスチャーを認識するシステムの例を示す図である。
【図１３】距離センサと単眼ＣＣＤカメラを併用してオペレータのジェスチャーを認識するシステムの例を示す図である。
【図１４】左目肌色フィルタＲＧＢ画像フレームにCannyフィルタを使用してオブジェクトの境界線のみ抽出した２値画像フレームの例を示す図である。
【図１５】図１４に示す２値画像フレームを用いてオブジェクトを抽出した場合の、オブジェクト視差値正規化画像フレームの例を示す図である。
【図１６】図１４に示す２値画像フレームを用いてオブジェクトを抽出した場合の、抽出されるターゲット・オブジェクトの例を示す図である。
【発明を実施するための形態】
【００１６】
以下、図面を参照して、本発明の好適な実施形態に係る非接触ジェスチャー操作システムについて詳細に説明する。
【００１７】
図１は、本発明の実施形態のジェスチャー操作システムの概略構成を示す図である。図１に示すように、ジェスチャー操作システム１００は、ステレオカメラ部１、カメラ・キャリブレーション部２、ノイズフィルタ（左目）３、ノイズフィルタ（右目）４、肌色フィルタ（左目）５、肌色フィルタ（右目）６、レベル分割部７、ステレオ・キャリブレーション部８、ターゲット・オブジェクト抽出部９、ジェスチャーコマンド認識部１０、画面表示部１１、画面表示用ディスプレイ１２等を備えており、これらの各部を用いて、オペレータの手によるジェスチャーをコマンドとして認識し、かかるコマンドに対応した操作（例えば、画面への表示）を実行する機能を有する。
【００１８】
ジェスチャー操作システム１００の各部のうち、機能手段として構成可能なものは、例えば、マイクロプロセッサからなるＣＰＵ（中央演算処理装置）、メモリ、ＨＤＤ、各種インタフェースなどのハードウェアを備える専用または汎用のコンピュータにおいて、主にＣＰＵがメモリ、ＨＤＤなどに格納されるプログラムを実行して各ハードウェアを制御することにより実現することができる。このうち、ノイズフィルタ（左目）３、ノイズフィルタ（右目）４、肌色フィルタ（左目）５、肌色フィルタ（右目）６、レベル分割部７、ステレオ・キャリブレーション部８等を含む各機能手段は、所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理装置（ユニット）の一部として把握することができる。
【００１９】
このような非接触ジェスチャー操作システム１００は、パーソナルコンピュータや、カーナビゲーションシステム、携帯電話等に代表される画面表示機能を有したIT関連機器に搭載することが可能である。
【００２０】
以下、非接触ジェスチャー操作システム１００の各部について説明する。ステレオカメラ部１は、２台のＣＣＤカメラを内蔵したカメラモジュールであり、オペレータの手によるジェスチャーを所定の視差でステレオ動画撮影（ライブ撮影）し、時系列を構成する各フレームについて得られた左右の視差画像（左目画像フレームおよび右目画像フレーム）をＲＧＢ８bitフォーマットでカメラ・キャリブレーション部２に出力する。
【００２１】
カメラ・キャリブレーション部２は、ステレオカメラ部１から入力される左目画像フレームおよび右目画像フレームに対して、従来のカメラ・キャリブレーション技術を使って水平方向、垂直方向、回転方向、レンズのゆがみ補正等を行い、最適なステレオ処理ができるよう補正した視差画像（左目補正ＲＧＢ画像フレームおよび右目補正ＲＧＢ画像フレーム）をノイズフィルタ(左目)３とノイズフィルタ(右目)４に出力する。
【００２２】
ノイズフィルタ(左目)３は、左目補正ＲＧＢ画像フレームを入力とし、ガウシアンフィルタ等の従来の平滑化フィルタ技術を用いて画像フレーム中のノイズとなる画素を除去した視差画像（左目ノイズ除去ＲＧＢ画像フレーム）を肌色フィルタ(左目)５に出力する。同様に、ノイズフィルタ(右目)部は、右目補正ＲＧＢ画像フレームを入力とし、ガウシアンフィルタ等の従来の平滑化フィルタ技術を用いて画像フレーム中のノイズとなる画素を除去した視差画像（右目ノイズ除去ＲＧＢ画像フレーム）を肌色フィルタ(右目)６に出力する。
【００２３】
肌色フィルタ(左目)５は、入力される左目ノイズ除去ＲＧＢ画像フレームの中から肌色画素を抽出し、該肌色画素を左目補正ＲＧＢ画像フレームの同位置の画素で置き換え、肌色画素以外の画素を背景画素に置き換えた視差画像（左目肌色フィルタＲＧＢ画像フレーム）を作成し、ステレオ・キャリブレーション部８、レベル分割部７に出力する。
【００２４】
一方、肌色フィルタ(右目)６は、入力される右目ノイズ除去ＲＧＢ画像フレームの中から肌色画素を抽出し、該肌色画素を右目補正ＲＧＢ画像フレームの同位置の画素で置き換え、肌色画素以外の画素を背景画素に置き換えた視差画像（右目肌色フィルタＲＧＢ画像フレーム）を作成し、ステレオ・キャリブレーション部８に出力する。
【００２５】
レベル分割部７は、入力される左目肌色フィルタＲＧＢ画像フレームをグレイスケール画像に変換し、該グレイスケール画像をあらかじめ定めた画素値分割レベルパラメータに従って階調変換して２以上のレベル（階調）を持つ左目レベル分割グレイスケール画像フレームを作成し、ステレオ・キャリブレーション部８に出力する。
【００２６】
画素値分割レベルパラメータ、レベル数は、設計に応じて設定することができ、例えば各画素が２５５階調で表されるグレイスケール画像に対して階調変換をする場合、２５５階調を均等に８分割するように画素値分割レベルパラメータを設定することで、各画素が８階調で表される左目レベル分割グレイスケール画像フレームを作成することができる。
【００２７】
ステレオ・キャリブレーション部８は、レベル分割部７から入力される左目レベル分割グレイスケール画像フレームから、視差を算出するための計算単位であるオブジェクトを抽出する。そして、該オブジェクトごとに、肌色フィルタ(左目)５および肌色フィルタ(右目)６から入力される左右の肌色フィルタＲＧＢ画像フレームを用いて視差値を算出し、該視差値をターゲット・オブジェクト抽出部９に出力する。
【００２８】
ターゲット・オブジェクト抽出部９は、ステレオ・キャリブレーション部８から入力される各オブジェクトの視差値に基づき、カメラ深度が一番浅い(カメラに距離が一番近い)オブジェクト群をターゲット・オブジェクト（認識対象）として抽出し、ターゲット・オブジェクトの座標情報およびエリア情報をジェスチャーコマンド認識部１０に出力する。
【００２９】
ジェスチャーコマンド認識部１０は、ターゲット・オブジェクト抽出部９から入力されるターゲット・オブジェクトの座標情報およびエリア情報に基づき、ターゲット・オブジェクトの移動軌跡をトレースし、また、ターゲット・オブジェクトのエリア内の画像に従来の画像認識技術を適用して、ターゲット・オブジェクトの形状を認識する。そして、あらかじめ用意されているジェスチャーコマンド・データベースを参照して、ターゲット・オブジェクトの移動軌跡と形状の組み合わせからジェスチャーコマンドを認識し、該ジェスチャーコマンドに対応した制御情報をジェスチャーコマンド情報として画面表示部１１に出力する。
【００３０】
画面表示部１１は、ジェスチャーコマンド認識部１０から入力されるジェスチャーコマンド情報に従って、画面表示用ディスプレイ１２の表示内容を制御する（例えば、カーソルの移動などのアクションを画面表示する）。
【００３１】
次に、ジェスチャー操作システム１００の動作を図２〜図１１に示すサンプル画像フレームを使用して説明する。
【００３２】
ステレオカメラ部１は、内蔵された左右のＣＣＤカメラでオペレータのジェスチャーをステレオ動画撮影し、図２に示すような左目ＲＧＢ画像フレームと右目ＲＧＢ画像フレームをそれぞれカメラ・キャリブレーション２に出力する。その際、各ＲＧＢ画像フレームの解像度や動画のフレームレートは、ジェスチャー操作システム１００がリアルタイムに処理できるように、ＣＣＤカメラの機能に基づいて決定される。
【００３３】
なお、ジェスチャー操作システム１００では、カメラ・キャリブレーション部２により補正を行うことから、ステレオＣＣＤカメラの焦点距離や被写界深度(フォーカス)に関する機能的要件や設置条件等について厳密な制限はなく、比較的安価なパンフォーカスタイプのＣＣＤカメラ２個を適切な距離に併設・固定することで、ステレオカメラ部１として構成可能である。
【００３４】
カメラ・キャリブレーション部２は、未補正の左目ＲＧＢ画像フレームと右目ＲＧＢ画像フレームに対して、従来のステレオカメラのキャリブレーション技術を使って、水平方向、垂直方向、回転方向、レンズのゆがみ補正等を行うことで、後段のステレオ処理が最適に行われるように画像フレームを補正し、図３に示すような左目補正ＲＧＢ画像フレームと右目補正ＲＧＢ画像フレームをノイズフィルタ(左目)３とノイズフィルタ(右目)４に出力する。
【００３５】
なお、ステレオカメラ部１について製品出荷時にキャリブレーションが実行され、調整パラメータが更新・保存されている場合、カメラ・キャリブレーション部２は、保存された調整パラメータを使用して上記の画像フレームの補正を行うことができる。
【００３６】
ノイズフィルタ(左目)３は、後段の肌色フィルタ(左目)５において正確に肌色領域が抽出できるように、入力される左目補正ＲＧＢ画像フレームに対して、平滑化処理により画素ノイズを軽減し、図５に示すような左目ノイズ除去ＲＧＢ画像フレームを肌色フィルタ(左目)５に出力する。同様に、ノイズフィルタ(右目)４は、後段の肌色フィルタ(右目)６において正確に肌色領域の抽出ができるように、入力される右目補正ＲＧＢ画像フレームに対して、平滑化処理により画素ノイズを軽減し、図４に示すような右目ノイズ除去ＲＧＢ画像フレームを肌色フィルタ(右目)６に出力する。平滑化処理としては、例えばガウシアンフィルタ（５×５）を使用することができる。
【００３７】
肌色フィルタ(左目)５および肌色フィルタ(右目)６は、後段のステレオ・キャリブレーション部８において総計算量が削減できるように、ターゲット・オブジェクトが有する範囲として設定した色範囲にある領域を残し、それ以外の領域をマスクする。本実施形態では、ターゲット・オブジェクトがオペレータ（日本人）の手であるため、肌色をベースとした色範囲をターゲット・オブジェクトの色範囲として設定し、肌色画素領域を抽出するように構成している。肌色画素領域の抽出方法には、従来のカラーフィルター技術を用いることができる。
【００３８】
具体的には、肌色フィルタ(左目)５は、入力される左目ノイズ除去ＲＧＢ画像フレームについて、設定された肌色ベース値とフィルタリング許容幅に基づき、肌色と判断できる画素を識別し、図５に示すような、肌色画素領域を有効画素領域とし、他の領域を非有効画素領域（背景画素領域）とした、左目の肌色フィルタ画素抽出マスク画像フレームを作成する。その後、肌色フィルタ画素抽出マスク画像フレームの有効画素(肌色画素)を、左目補正ＲＧＢ画像フレームの同位置の画素に置き換えることにより、図５に示すような肌色画素のみで構成された左目肌色フィルタＲＧＢ画像フレームを作成し、レベル分割部７およびステレオ・キャリブレーション部８に出力する。
【００３９】
また、肌色フィルタ(右目）６は、入力される右目ノイズ除去ＲＧＢ画像フレームについて、設定された肌色ベース値とフィルタリング許容幅に基づき、肌色と判断できる画素を識別し、図５に示すような、肌色画素領域を有効画素領域とし、他の領域を非有効画素領域（背景画素領域）とした、右目の肌色フィルタ画素抽出マスク画像フレームを作成する。その後、肌色フィルタ画素抽出マスク画像フレームの有効画素(肌色画素)を、右目補正ＲＧＢ画像フレームの同位置の画素に置き換えることにより、図５に示すような肌色画素のみで構成された右目肌色フィルタＲＧＢ画像フレームを作成し、ステレオ・キャリブレーション部８に出力する。
【００４０】
なお、各フィルタは、ベースとなる肌色を示すＲＧＢ値をデフォルト値としてあらかじめ設定しておき、ステレオカメラの撮影条件によりフィルタリングの許容幅を変更できるように構成してもよい。また、ベースとなる肌色を示すＲＧＢ値を変更できるように構成してもよい。
【００４１】
レベル分割部７は、後段のステレオ・キャリブレーション部８の視差計算量を軽減できるように、左目肌色フィルタＲＧＢ画像フレームを、視差を算出するための計算単位であるオブジェクトを抽出するための画像フレームに変換する。
【００４２】
具体的には、レベル分割部７は、肌色フィルタ(左目)５から入力される左目肌色フィルタＲＧＢ画像フレームを従来技術によりグレイスケール化し、図６に示すようなグレイスケール化後の画像フレームに対して、あらかじめ設定された画素値分割レベルパラメータに従って階調変換を行い、図６に示すような左目レベル分割グレイスケール画像フレームを作成する。例えばレベル数が８に設定されている場合、レベル分割部７は、各画素が８階調で表される左目レベル分割グレイスケール画像フレームを作成し、ステレオ・キャリブレーション部８に出力する。
【００４３】
ステレオ・キャリブレーション部８は、肌色フィルタ(左目)５と肌色フィルタ(右目)６から入力される左右の肌色フィルタＲＧＢ画像フレームをそれぞれグレイスケール化して、図７に示すような左右のグレイスケール画像フレームを作成する。また、レベル分割部７から入力される左目レベル分割グレイスケール画像フレームから、視差算出単位となるオブジェクトを抽出し、該オブジェクトごとに左右のグレイスケール画像フレームを比較・計算して、視差を算出する。なお、背景画素はオブジェクト抽出の対象外とする。
【００４４】
左目レベル分割グレイスケール画像フレームは、例えば各画素が８階調で表されるグレイスケール画像フレームであり、ステレオ・キャリブレーション部８は、この画像フレームにおいて所定方向（例えば走査方向（水平方向））に連続する同一階調値を有する連続画素群を一つのオブジェクトとして抽出する。図８に、抽出されるオブジェクトの例を示す。
【００４５】
ステレオ・キャリブレーション部８は、全てのオブジェクトに対して視差計算を行う。視差を計算するために用いる左右の画像フレームは、肌色フィルタ(左目)５と肌色フィルタ(右目)６から入力される左右の肌色フィルタＲＧＢ画像フレームをグレイスケール化した画像フレームである。
【００４６】
ステレオ・キャリブレーション部８は、一つのオブジェクトの視差を算出する際、オブジェクトの左端座標を基準座標に設定し、左目グレイスケール画像フレームにおいて基準座標を中心としてあらかじめ設定されたサイズの画像領域を基準領域に設定し、該基準領域の画像をテンプレートパターンとして、右目グレイスケール画像フレームの同サイズの画像領域と比較して、一番類似している画像領域を探索する。
【００４７】
例えば、基準エリアのサイズが５×５画素である場合、ステレオ・キャリブレーション部８は、左目グレイスケール画像フレームにおいて、基準座標を中心とした５×５画素の画像領域を基準領域に設定し、基準領域の画像をテンプレートパターンに設定する。次に、右目グレイスケール画像フレームにおいて、基準座標を中心とした５×５画素の画像領域から開始して、探索エリア内で視差方向（例えば２台のカメラが水平に設置されている場合、水平方向）に１ピクセル毎にずらしながら順にテンプレートパターンと比較することで、一番類似している画像領域（最類似領域）を探索する。この際使用されるパターン比較方法には、一般的に知られているテンプレートマッチング技術を使用することができる。
【００４８】
ここで、ステレオ・キャリブレーション部８には、ステレオカメラ部１のカメラパラメータや、ステレオカメラ部１とオペレータとの相対位置関係などに基づいて、あらかじめ最大許容視差値を設定しておくことができる。ステレオ・キャリブレーション部８は、該最大許容視差値を与える範囲を探索エリアとして設定し、該探索エリア内で、最類似領域を探索する。このように構成することで、一般的なテンプレートマッチングのように水平・垂直方向の自由度を持った広い範囲を探索する必要が無くなるため、従来のステレオ・キャリブレーション技術と比較して、視差算出のための総計算量を大幅に軽減することができる。
【００４９】
探索の結果、最類似領域を決定できたら、基準座標（基準領域の中心座標）と最類似領域の中心座標との視差方向の位置の差（画素差）を、そのオブジェクトの視差値として求め、内部テーブルに保存する。
【００５０】
ステレオ・キャリブレーション部８は、全オブジェクトに対して以上のような視差算出処理を繰り返し実行した後、内部テーブルをターゲット・オブジェクト抽出部９に出力する。
【００５１】
図９に示すオブジェクト視差値正規化画像フレームは、全オブジェクトの視差値を保存した内部テーブルを画像化したものであり、より白い(画素値が大きい)オブジェクトは視差が大きく深度が浅い(カメラ距離が近い)ことを表している。オブジェクト視差値正規化画像フレームにおいて、オペレータの手のひら部分が一番白く表されており、一番カメラ深度が浅い(カメラからの距離が近い)オブジェクトの集合体となっていることが分かる。
【００５２】
ターゲット・オブジェクト抽出部９は、ステレオ・キャリブレーション部８から入力される全オブジェクトの視差値を保存している内部テーブルに基づき、一番カメラ深度が浅い(カメラからの距離が近い)オブジェクトを基準に許容視差範囲を求める。そして、該範囲に含まれるオブジェクトの集合体をターゲット・オブジェクトとして抽出し、ターゲット・オブジェクトの座標情報とエリア情報とを求め、ジェスチャーコマンド認識部１０に出力する。
【００５３】
具体的には、オブジェクト・ターゲット抽出部９は、入力される内部テーブルから視差値の最大値を検索し、その最大値と、あらかじめ設定されたターゲット・オブジェクト深度許容割合とから、最大値から一定範囲となる許容視差範囲を決定し、該許容視差範囲に基づいてターゲット・オブジェクトを抽出する。
【００５４】
例えば、内部テーブルの視差値(８bit)の最大値が２００であり、ターゲット・オブジェクト深度許容割合が２０%に設定されていた場合を例に説明する。この場合、最大値２００に対して、その２０％分を減算した値１６０を許容最小値として求め、視差値２００〜１６０の範囲を許容視差範囲として決定し、該許容視差範囲に視差値が含まれるオブジェクトの集合体をターゲット・オブジェクトとして抽出する。そして、例えばターゲット・オブジェクトとして抽出されたオブジェクト全てが含まれる包囲短形領域をターゲット・オブジェクト領域として求め、該包囲矩形領域の中心座標及び頂点座標をターゲット・オブジェクトの座標情報及びエリア情報として求める。図１０に、抽出されるターゲット・オブジェクトの例を示す。
【００５５】
なお、許容視差範囲に含まれるオブジェクトの集合体が２以上の不連続領域として抽出される場合、包囲矩形領域の面積が一番大きくなるオブジェクトの集合体をターゲット・オブジェクトとして抽出することで、視差計算時の誤差補正を行うことができる。また、包囲矩形領域の４頂点は、該当するオブジェクトの左端座標、右端座標に対して、Ｘ座標の最小値・最大値とＹ座標の最小値・最大値を算出することで、容易に求めることができる。
【００５６】
ジェスチャーコマンド認識部１０は、ターゲット・オブジェクト抽出部９から入力されるターゲット・オブジェクトの座標情報およびエリア情報に基づいて、ジェスチャーコマンドを認識し、認識結果に対応した制御情報をジェスチャーコマンド情報として画面表示部１１に出力する。
【００５７】
ジェスチャーコマンドの認識方法については、従来技術を用いることができる。例えば、時系列を構成する複数の視差画像に基づいてターゲット・オブジェクトをそれぞれ求め、それら複数のターゲット・オブジェクトの座標情報の軌跡をトレースする。そして、あらかじめジェスチャーコマンドに対応づけてジェスチャーに関するテンプレート情報（ジェスチャーの軌跡に関するトレース情報、ジェスチャーに対応する表示制御情報など）が登録されたデータベース（ジェスチャーデータベース）を参照し、ターゲット・オブジェクトの座標情報およびエリア情報に基づいて求めたトレース結果にマッチするジェスチャーコマンドを認識結果として選択する。
【００５８】
このとき、各ターゲット・オブジェクトのエリア情報から決定される矩形画像に対して従来の画像認識処理を実行し、ターゲット・オブジェクトの形状(ここでは、手のフォーム)を認識するように構成してもよい。この場合、ジェスチャーに関するテンプレート情報にターゲット・オブジェクトの形状情報も含めておき、ターゲット・オブジェクトの座標情報およびエリア情報に基づいて求めたトレース結果と形状認識結果とにマッチするジェスチャーコマンドを認識結果として選択する。
【００５９】
例えば、オペレータが手を用いてポインティングデバイスであるマウス機器と同様な操作を行い、かかる操作を認識するシステムの場合、ターゲット・オブジェクトの座標情報をマウス座標に対応する情報として用い、ターゲット・オブジェクトの形状認識結果はマウスのクリック操作に対応する情報として用いることができる。
【００６０】
画面表示部１１は、ジェスチャーコマンド認識部１０から入力されるジェスチャーコマンドの制御情報に応じて、表示用ディスプレイ１２に画面表示を行う。図１１は、オペレータが手を用いてポインティングデバイスであるマウス機器と同様な操作を行う場合の画面表示例を示している。図１１に例示するように、オペレータの手の動きに合わせて、ポインティング・アイコン(「手」のアイコン)を、画面表示用ディスプレイ１２上でリアルタイムに移動させることができる。
【００６１】
以上説明したように、本実施形態の構成によれば、以下の効果を達成ることができる。
【００６２】
第１の効果は、ターゲット・オブジェクトの色範囲（実施形態における肌色範囲）を設定し、該色範囲にある画素を残すようなフィルタ（実施形態における肌色フィルタ）によりオブジェクトを抽出する領域の絞込みをしているので、視差計算に必要な計算量を大幅に削減できる点である。
【００６３】
第２の効果は、ステレオ・キャリブレーション処理においてオブジェクトごとの視差を計算する際、レベル分割により階調を減らした結果に基づいてオブジェクトを抽出することで、視差計算の対象とするオブジェクトの数を大幅に削減し、また最大許容視差値をあらかじめ設定しておくことで、視差計算の探索範囲を限定しているので、計算量を大幅に削減してステレオ・キャリブレーション処理を高速に行える点である。
【００６４】
第３の効果は、オペレータの手によるジェスチャーを認識対象とした場合、手の位置がカメラから一番近いという知識を利用し、カメラ深度の一番浅いオブジェクト郡をターゲット・オブジェクトとして抽出しているので、複雑で多様な手の形を高度な画像認識技術で解析することなく、高速かつ正確にジェスチャーを認識できる点である。
【００６５】
第４の効果は、高価で大きな赤外線センサやアクティブ深度センサを利用することなく、安価で小さなＣＣＤステレオカメラを用いて非接触ジェスチャー操作システムを実現できるので、システムの低価格化、小型化を実現できる点である。
【００６６】
本発明の好適な実施形態について説明したが、本発明は、以上の実施形態に限定されるべきものではなく、特許請求の範囲に表現された思想および範囲を逸脱することなく、種々の変形、追加、および省略が当業者によって可能である。
【００６７】
例えば、上記実施形態では、ステレオ・キャリブレーション部８がオブジェクトの左端座標を基準座標に設定する例を説明したが、オブジェクトの他の位置（例えば、中心座標や右端座標など）を基準座標として設定してもよい。
【００６８】
また例えば、上記実施形態では、左目肌色フィルタＲＧＢ画像フレームに基づいてレベル分割処理を実行する構成としているが、右目肌色フィルタＲＧＢ画像フレームに基づいてレベル分割処理を実行する構成としてもよい。この場合、ステレオ・キャリブレーション部８は、右目グレイスケール画像フレームにおいて基準座標を中心としてあらかじめ設定されたサイズの画像領域を基準領域に設定し、該基準領域の画像をテンプレートパターンとして左目グレイスケール画像フレームの同サイズの画像領域と比較して、最類似領域を探索する。
【００６９】
また例えば、上記実施形態では、レベル分割部７、ステレオ・キャリブレーション部８がそれぞれグレイスケール処理を実行する構成としているが、各肌色フィルタがグレイスケール処理を実行し、グレイスケール化した画像フレームを出力するように構成してもよい。
【００７０】
また例えば、レベル分割部７は、肌色フィルタ（左目）５から入力される左目肌色フィルタＲＧＢ画像フレームをグレイスケール化する代わりに、従来技術のエッジ検出フィルタ（Cannyフィルタ、Sobelフィルタ等）を使用し、オブジェクトの境界線のみ抽出した２値画像フレームを作成し、ステレオ・キャリブレーション部８に出力してもよい。この場合、ステレオ・キャリブレーション部８は、かかる２値画像フレームから視差算出単位となるオブジェクトを抽出し、該オブジェクトごとに左右のグレイスケール画像フレームを比較・計算して、視差を算出する。かかる構成によれば、ステレオ・キャリブレーション部８で処理すべきオブジェクト総数を、グレイスケール画像を用いる場合よりも削減できるため、より高速に処理することができる。図１４に、左目肌色フィルタＲＧＢ画像フレームにCannyフィルタを使用してオブジェクトの境界線のみ抽出した２値画像フレームの例を示す。また、図１５、図１６に、かかる２値画像フレームを用いてオブジェクトを抽出した場合の、オブジェクト視差値正規化画像フレームの例、抽出されるターゲット・オブジェクトの例を示す。
【００７１】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理装置であって、一方の視差画像を２以上のレベルを持つグレイスケール画像に変換する変換手段と、前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出し、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定手段と、を備えることを特徴とする情報処理装置。
（付記２）更に、前記オブジェクトごとの視差値に基づき、所定の視差値の範囲に含まれるオブジェクトを含む領域を認識対象領域として抽出する対象抽出手段と、時系列を構成する複数の視差画像について抽出した前記認識対象領域に基づき、前記認識対象領域の軌跡を求め、前記軌跡と認識対象の動作に関するテンプレート情報とに基づいて、認識対象の動作を認識する認識手段と、を備えることを特徴とする付記１記載の情報処理装置。
（付記３）前記認識対象はオペレータの手であり、前記認識対象の動作はジェスチャーであることを特徴とする付記２記載の情報処理装置。
（付記４）前記所定の視差値の範囲は、前記決定した視差値の中の最大値から一定の範囲であることを特徴とする付記２又は３記載の情報処理装置。
（付記５）更に、ステレオ撮影して得られた左右の視差画像に基づき、認識対象が有する範囲として設定した色範囲にある領域を残し、それ以外の領域を背景とした視差画像を作成するフィルタ手段を備え、前記変換手段は、前記フィルタ手段が作成する視差画像を前記グレイスケール画像に変換することを特徴とする付記１乃至４のいずれか１項に記載の情報処理装置。
（付記６）所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理方法であって、一方の視差画像を２以上のレベルを持つグレイスケール画像に変換するステップと、前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出するオブジェクト抽出ステップと、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定ステップと、を備えることを特徴とする情報処理方法。
（付記７）付記６記載の情報処理方法をコンピュータで実行させるためのプログラム。
【符号の説明】
【００７２】
１ステレオカメラ
２カメラ・キャリブレーション部
３ノイズフィルタ（左目）
４ノイズフィルタ（右目）
５肌色フィルタ（左目）
６肌色フィルタ（右目）
７レベル分割部
８ステレオ・キャリブレーション部
９ターゲット・オブジェクト抽出部
１０ジェスチャーコマンド認識部
１１画面表示部
１２画面表示用ディスプレイ

【特許請求の範囲】
【請求項１】
所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理装置であって、
一方の視差画像を２以上のレベルを持つグレイスケール画像に変換する変換手段と、
前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出し、前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定手段と、
を備えることを特徴とする情報処理装置。
【請求項２】
更に、前記オブジェクトごとの視差値に基づき、所定の視差値の範囲に含まれるオブジェクトを含む領域を認識対象領域として抽出する対象抽出手段と、
時系列を構成する複数の視差画像について抽出した前記認識対象領域に基づき、前記認識対象領域の軌跡を求め、前記軌跡と認識対象の動作に関するテンプレート情報とに基づいて、認識対象の動作を認識する認識手段と、
を備えることを特徴とする請求項１記載の情報処理装置。
【請求項３】
前記認識対象はオペレータの手であり、前記認識対象の動作はジェスチャーであることを特徴とする請求項２記載の情報処理装置。
【請求項４】
前記所定の視差値の範囲は、前記決定した視差値の中の最大値から一定の範囲であることを特徴とする請求項２又は３記載の情報処理装置。
【請求項５】
更に、ステレオ撮影して得られた左右の視差画像に基づき、認識対象が有する範囲として設定した色範囲にある領域を残し、それ以外の領域を背景とした視差画像を作成するフィルタ手段を備え、
前記変換手段は、前記フィルタ手段が作成する視差画像を前記グレイスケール画像に変換することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
【請求項６】
所定の視差でステレオ撮影して得られた左右の視差画像に基づき、画像中のオブジェクトに関する視差値を決定する情報処理方法であって、
一方の視差画像を２以上のレベルを持つグレイスケール画像に変換するステップと、
前記変換したグレイスケール画像から所定方向に連続する同一レベルを有する連続画素群をオブジェクトとして抽出するオブジェクト抽出ステップと、
前記オブジェクトごとに、該オブジェクトの位置及び予め定めた最大許容視差値に基づいて、前記一方の視差画像において基準領域を設定するともに、他方の視差画像において探索エリアを設定し、前記基準領域の画像をテンプレートとして前記探索エリア内においてテンプレートマッチングを行うことにより基準領域に類似する類似領域を探索し、基準領域と類似領域の位置の差に基づいて該オブジェクトに関する視差値を決定する視差決定ステップと、
を備えることを特徴とする情報処理方法。
【請求項７】
請求項６記載の情報処理方法をコンピュータで実行させるためのプログラム。

【図１】