画像処理装置、画像処理方法、画像処理プログラム

【課題】認識対象の個体差や撮影環境の変動などの不安定要因があったとしても、精度良く画像中の対象オブジェクトを認識する。
【解決手段】オブジェクト認識エンジン３１は、画像変換部３０により変換された白黒画像から顔画像と手画像に相当するオブジェクト領域を検出する。色平均抽出部３４は、顔画像オブジェクト領域の色情報を抽出し、この色情報をもとに基準色データを設定する。また、色平均抽出部３４は、手画像オブジェクト領域の候補のそれぞれから色情報を抽出する。フィルタリング部３５は、手画像オブジェクト領域の候補のそれぞれについて、基準色データと色情報とを比較し、この比較結果に基づいて手画像オブジェクト領域を絞り込み、最終的に手画像オブジェクト領域の候補の何れかを認識対象のオブジェクトとして出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像中のオブジェクトを認識する画像処理装置、画像処理方法、及び画像処理プログラムに関する。
【背景技術】
【０００２】
従来より、カメラにより撮影された画像から特定のオブジェクトを認識する画像処理装置が考えられている（例えば、特許文献１）。特許文献１には、入力された画像から手によるジェスチャを認識するジェスチャ認識装置について記載されている。
【０００３】
このジェスチャ認識装置では、入力されたカラー画像から手の領域を検出し、手の位置を求める処理を行う。初めに入力された画像に対しては、予め肌色モデルデータベースに記憶してある肌色モデルを用いて肌色尤度マップを作成し、この肌色尤度マップのランダムの位置に所定サイズの手の領域の候補領域を複数設定する。その領域内の肌色尤度値の平均が所定値以上ある候補領域を手の領域と識別し、手の領域内の画素の肌色尤度値の重み付き平均手の領域から手の位置を求める。さらに、手の領域の画素の色ヒストグラムを作成し基準色ヒストグラムとして記憶しておく。最初に手の位置を求めたフレーム画像以降に入力されたフレーム画像に対しては、入力された画像にランダムに所定サイズの手の候補領域を設定し、候補領域毎に求めた色ヒストグラムと基準色ヒストグラムとの類似度を調べ、類似度の高い候補領域を手の領域として手の位置を求める処理を行う。
【特許文献１】特開２００７−８７０８９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
このように特許文献１に記載されたジェスチャ認識装置では、初めに入力されたフレーム画像に対して色情報（肌色尤度値）をもとに手の位置を求めて基準色ヒストグラムとして記憶しておき、最初のフレーム画像以降に入力されたフレーム画像に対しては、所定サイズの手の候補領域を設定し、候補領域毎に求めた色ヒストグラムと基準色ヒストグラムとの類似度を調べ、類似度の高い候補領域を手の領域として求めていた。
【０００５】
すなわち、従来のジェスチャ認識装置では、基準色ヒストグラムを作成するための手の位置を、色情報（肌色尤度値）をもとにして求めていた。通常、カラー画像は、撮影環境（カメラ動作状況、照明の種類の違いや光源位置の変化など）によって同じオブジェクト（例えば「手」）を撮影した場合であっても色が異なってくる。このため、色の変動によって基準色ヒストグラムを作成するための手の位置を確実に求められない恐れがあった。
【０００６】
一方、色情報を用いないで手の位置を検出しようとすると、画像中に手の形状と類似するパターンが画像中に複数存在する場合があり、認識対象とする手のみを検出することが困難となってしまう。
【０００７】
また、従来のジェスチャ認識装置では、初めに入力されたフレーム画像をもとにした基準色ヒストグラムと、それ以降のフレーム画像から求められた色ヒストグラムとの類似度を調べているため、初めにフレーム画像を撮影した時の撮影環境が変動してしまうと、その後のフレーム画像から求められる色ヒストグラムも変動してしまい、正しく類似度を調べることができなくなってしまう。
【０００８】
また、肌色モデルデータベースに記憶してある肌色モデル、すなわち絶対的な色情報を用いて「手」の位置を求めているため、肌が黒い人あるいは白い人など様々な人物の個体差を考慮して肌色モデルデータベース（色情報）を用意しておかなければ、精度良く「手」を認識することができなかった。
【０００９】
本発明は上述の事情を考慮してなされたものであり、認識対象の個体差や撮影環境の変動などの不安定要因があったとしても、精度良く画像中の対象オブジェクトを認識することが可能な画像処理装置、画像処理方法、画像処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【００１０】
上述の課題を解決するため、本発明は、画像を撮影する撮影手段と、前記撮影手段により撮影された画像から第１オブジェクト領域を検出する第１オブジェクト領域検出手段と、前記第１オブジェクト領域の画像の色情報を抽出する第１色情報抽出手段と、前記撮影手段により撮影された画像から認識対象とする第２オブジェクト領域の候補を検出する第２オブジェクト領域検出手段と、前記第２オブジェクト領域の画像の色情報を抽出して基準色データを設定する第２色情報抽出手段と、前記第２オブジェクト領域検出手段により検出された第２オブジェクト領域の候補のそれぞれについて、前記第２色情報抽出手段により設定された基準色データと前記第１色情報抽出手段により抽出された色情報とを比較し、この比較結果に基づいて前記第２オブジェクト領域の候補を選択する選択手段と、前記選択手段により選択された前記第２オブジェクト領域の候補の何れかを認識対象のオブジェクトとして出力する出力手段とを具備したことを特徴とする。
【発明の効果】
【００１１】
本発明によれば、撮影された画像から検出された第１オブジェクト領域の画像（例えば人物の顔画像）の色情報を抽出し、この色情報を基準として、同じ画像から抽出された第２オブジェクト領域の候補の画像（例えば手画像）の色情報と比較することによって、認識対象のオブジェクトを出力するので、認識対象の個体差や撮影環境の変動などの不安定要因があったとしても、精度良く画像中の対象オブジェクトを認識することが可能となる。
【発明を実施するための最良の形態】
【００１２】
以下、図面を参照して、本発明の実施形態を説明する。
まず、図１および図２を参照して、本発明の一実施形態に係る画像処理装置の構成について説明する。この画像処理装置は、例えば、ノートブック型パーソナルコンピュータ１０として実現されている。
【００１３】
図１はノートブック型パーソナルコンピュータ１０のディスプレイユニットを開いた状態における斜視図である。本コンピュータ１０は、コンピュータ本体１１と、ディスプレイユニット１２とから構成されている。ディスプレイユニット１２にはＬＣＤ（Liquid Crystal Display）１７から構成される表示装置が組み込まれており、そのＬＣＤ１７の表示画面はディスプレイユニット１２のほぼ中央に位置されている。ＬＣＤ１７の両側には、一対のスピーカ（ツイータ）２０が配置されている。
【００１４】
ディスプレイユニット１２は、コンピュータ本体１１に対して開放位置と閉塞位置との間を回動自在に取り付けられている。コンピュータ本体１１は薄い箱形の筐体を有しており、その上面にはキーボード１３、本コンピュータ１０を電源オン／オフするためのパワーボタン１４、タッチパッド１５、オーディオ・ビデオ（ＡＶ）操作パネル１６、ＡＶコントローラ１７、ボリューム制御ダイヤル１８、及び一対のスピーカ１９などが配置されている。また、ディスプレイユニット１２には、開放位置にあるときの上辺部にカラー画像を撮影することが可能なカメラ２１が設けられている。カメラ２１は、パーソナルコンピュータ１０を使用しているユーザの少なくとも顔を含む上半身部分を撮影可能とする。従って、手を上半身の高さくらいに上げることにより、カメラ２１によって顔と手を含む画像を撮影することができる。
【００１５】
次に、図２を参照して、パーソナルコンピュータ１０のシステム構成について説明する。
【００１６】
本コンピュータ１０は、ＣＰＵ１１１、ノースブリッジ１１４、主メモリ１１５、グラフィクスプロセッシングユニット（ＧＰＵ）１１６、サウスブリッジ１１７、ＢＩＯＳ−ＲＯＭ１２０、ハードディスクドライブ（ＨＤＤ）１２１、光ディスクドライブ（ＯＤＤ）１２２、サウンドコントローラ１２３、ＴＶチューナ１２４、ビデオプロセッサ１２５、エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１４０、及び電源回路１４１等を備えている。
【００１７】
ＣＰＵ１１１は本コンピュータ１０の動作を制御するために設けられたプロセッサであり、ＨＤＤ１２１から主メモリ１１５にロードされる、オペレーティングシステム（ＯＳ）１１２ａ、各種アプリケーションプログラム１１２ｂ、ジェスチャ認識プログラム１１２ｃなどを実行する。ジェスチャ認識プログラム１１２ｃは、例えばアプリケーションプログラム１１２ｂの動作を制御するための指示を「手」のジェスチャ、すなわち手の形（握りこぶし、開く、指を立てる／差すなど）や手の動き（手を動かす、指を動かすなど）によって入力するためのプログラムである。ジェスチャ認識プログラム１１２ｃは、カメラ２１から入力されたカラー画像から「手」に相当する画像（以下、手画像と称する）を認識対象とするオブジェクトとして検出し、そのオブジェクトの動きをもとに入力指示を判別して、アプリケーションプログラム１１２ｂに対するコマンドやデータに変換して出力する。なお、ジェスチャのリアルタイム認識処理（オブジェクト認識）は、ビデオプロセッサ１２５により実行されるものとする。また、ＣＰＵ１１１は、ＢＩＯＳ−ＲＯＭ１２０に格納されたＢＩＯＳ（Basic Input Output System）を実行する。
【００１８】
ノースブリッジ１１４はＣＰＵ１１１のローカルバスとサウスブリッジ１１７との間を接続するブリッジデバイスである。ノースブリッジ１１４には、主メモリ１１５をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ１１４は、PCI Expressバスなどを介してグラフィクスプロセッシングユニット（ＧＰＵ）１１６との通信を実行する機能も有している。
【００１９】
グラフィクスプロセッシングユニット（ＧＰＵ）１１６は、本コンピュータ１０のディスプレイモニタとして使用されるＬＣＤ１７を制御する表示コントローラである。ＧＰＵ１１６は、ＯＳまたはアプリケーションプログラムによってビデオメモリ（ＶＲＡＭ）１１６Ａに書き込まれた表示データから、ＬＣＤ１７に表示すべき画面イメージを形成する映像信号を生成する。
【００２０】
サウスブリッジ１１７は、ハードディスクドライブ（ＨＤＤ）１２１及び光ディスクドライブ（ＯＤＤ）１２２を制御するための、ＩＤＥ（Integrated Drive Electronics）コントローラやSerial ATAコントローラを内蔵している。
【００２１】
ＨＤＤ１２１は、各種プログラム及びデータを格納する記憶装置である。ＨＤＤ１２１には、例えばＯＳ、各種アプリケーションプログラム、ジェスチャ認識プログラムなどが記憶されている。
【００２２】
光ディスクドライブ（ＯＤＤ）１２２は、ビデオコンテンツが格納されたＤＶＤなどの記憶メディアを駆動するためのドライブユニットである。
【００２３】
サウンドコントローラ１２３は、音源デバイスであり、各種オーディオデータに対応する音をスピーカ１９，２０から出力するための処理を実行する。ＴＶチューナ１２４は、ＴＶ放送信号によって放送される放送番組データを受信する。
【００２４】
さらに、サウスブリッジ１１７には、PCI EXPRESS規格のシリアルバスなどを介してビデオプロセッサ１２５が接続されている。ビデオプロセッサ１２５は、映像のストリーミング処理や認識処理を行う専用エンジンである。例えば、ビデオプロセッサ１２５は、パーソナルコンピュータ１０に搭載されたカメラ２１からのカラー画像をもとにハンド・ジェスチャをリアルタイム認識するための処理に使用される。例えば、アプリケーションプログラム１１２ｂが人の手や指の動き（ハンド・ジェスチャ）によってユーザからの入力操作を受け付ける場合に、カメラ２１から入力された画像から「手」に相当するオブジェクトを認識して、手や指の動き（ハンド・ジェスチャ）を判別するための処理を実行する。
【００２５】
メモリ１２５Ａは、ビデオプロセッサ１２５の作業メモリとして用いられる。本実施形態においては、ＣＰＵ１１１とは異なる専用のプロセッサであるビデオプロセッサ１２５がバックエンドプロセッサとして使用され、このビデオプロセッサ１２５によって例えばハンド・ジェスチャの認識処理が実行される。よって、ＣＰＵ１０１の負荷の増加を招くことなく、ハンド・ジェスチャの認識処理が可能となる。
【００２６】
エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１４０は、電力管理のためのエンベデッドコントローラと、キーボード（ＫＢ）１３及びタッチパッド１５を制御するためのキーボードコントローラとが集積された１チップマイクロコンピュータである。ＥＣ／ＫＢＣ１４０には、本コンピュータ１０が電源オフされた状態においても、電源回路１４１から常に動作電源が供給される。また、ＥＣ／ＫＢＣ１４０は、ＡＶ操作パネル１６を制御するためのコントローラとして機能する。ＥＣ／ＫＢＣ１４０とＡＶコントローラ２０との間の通信は、例えば、シリアルバス等を介して実行される。
【００２７】
またＥＣ／ＫＢＣ１４０は、ユーザによるパワーボタンスイッチ１４の操作に応じて本コンピュータ１０をパワーオン／パワーオフする機能を有している。本コンピュータ１０のパワーオン／パワーオフの制御は、ＥＣ／ＫＢＣ１４０と電源回路１４１との共同動作によって実行される。電源回路１４１は、コンピュータ本体１１に装着されたバッテリ１４２からの電力、またはコンピュータ本体１１に外部電源として接続されるＡＣアダプタ１４３からの電力を用いて、各コンポーネントへの動作電源を生成する。
【００２８】
図３は、ジェスチャ認識プログラム１１２ｃ（画像処理プログラム）によって実現される、オブジェクト認識のための機能構成を示すブロック図である。ビデオプロセッサ１２５は、ジェスチャ認識プログラム１１２ｃを実行することにより、パーソナルコンピュータ１０に画像変換部３０、オブジェクト認識エンジン３１、オブジェクト辞書３２（３２ａ，３２ｂ）、色棄却部３３（色平均抽出部３４、フィルタリング部３５、基準色データ記憶部３６）の機能を実現させる。
【００２９】
画像変換部３０は、カメラ２１によって撮影されたカラー画像を色棄却部３３（色平均抽出部３４）に出力し、またカラー画像を白黒画像に変換してオブジェクト認識エンジン３１に出力する。
【００３０】
オブジェクト認識エンジン３１は、画像変換部３０により変換された白黒画像から、オブジェクト辞書３２（３２ａ，３２ｂ）に予め登録されたオブジェクト認識用の辞書データをもとにしてオブジェクト領域を検出して、このオブジェクト領域を示すオブジェクト認識データを出力する。オブジェクト辞書３２には、オブジェクトの形状をもとにオブジェクトを識別するための辞書データが登録されており、オブジェクト認識エンジン３１は、白黒画像中から辞書データが示す形状に相当する画像領域をオブジェクト領域として検出する。
【００３１】
オブジェクト辞書３２ａには、例えば人物の顔画像に相当するオブジェクト領域（第１オブジェクト領域）を検出するための辞書データが登録されている。顔画像に相当するオブジェクト領域（以下、顔画像オブジェクト領域と称する）は、認識対象とする手画像に相当するオブジェクト領域（以下、手画像オブジェクト領域と称する）（第２オブジェクト領域）の候補を絞り込むために参照される基準色データを設定するために検出される。オブジェクト認識エンジン３１は、顔画像オブジェクト領域を示すオブジェクト認識データを色平均抽出部３４に出力する。
【００３２】
また、オブジェクト辞書３２ｂには、例えば手画像オブジェクト領域（第２オブジェクト領域）を検出するための辞書データが登録されている。オブジェクト辞書３２ｂには、ハンド・ジェスチャを認識するための各種の手の形（握りこぶし、開く、指を立てる／差すなど）に対応する辞書データが登録されている。オブジェクト認識エンジン３１は、手画像オブジェクト領域の候補をオブジェクト認識データ（オブジェクト領域候補リスト）として色棄却部３３（色平均抽出部３４、フィルタリング部３５）に出力する。
【００３３】
色棄却部３３は、オブジェクト認識エンジン３１により検出された顔画像オブジェクト領域（第１オブジェクト領域）から抽出された色情報をもとに基準色データを設定し、この基準色データと同系色と見なされない手画像オブジェクト領域（第２オブジェクト領域）を棄却することで候補の絞り込み（フィルタリング処理）を実行する。
【００３４】
色棄却部３３には、色平均抽出部３４、フィルタリング部３５、及び基準色データ記憶部３６が設けられている。
色平均抽出部３４は、オブジェクト認識エンジン３１によって画像中から検出されたオブジェクト領域のカラー画像データをもとにオブジェクト領域毎の色情報を抽出する。本実施形態では、オブジェクト領域について色平均を算出して色情報とする。なお、オブジェクト領域の色平均ではなく、オブジェクト領域の特徴を表す他の色情報を算出するようにしても良い。色平均抽出部３４は、顔画像オブジェクト領域の画像の色情報を抽出して基準色データを設定してフィルタリング部３５に出力すると共に基準色データ記憶部３６に記憶させる（基準色データ設定処理）。また、色平均抽出部３４は、手画像オブジェクト領域の候補のそれぞれについて色情報を抽出してフィルタリング部３５に出力する。
【００３５】
フィルタリング部３５は、オブジェクト認識エンジン３１により検出された手画像オブジェクト領域の候補のそれぞれについて、色平均抽出部３４により設定された基準色データと色平均抽出部３４により抽出された手画像オブジェクト領域の色情報とを比較し、この比較結果に基づいて、オブジェクト領域候補リストから認識対象とする手画像オブジェクト領域の候補を選択する。また、フィルタリング部３５は、基準色データと色情報との比較結果に基づいて、手画像オブジェクト領域の候補の何れかを認識対象のオブジェクト（認識オブジェクト出力データ）として出力する。
【００３６】
基準色データ記憶部３６は、色平均抽出部３４により色情報（色平均）をもとに設定された基準色データを記憶する。本実施形態では、カメラ２１によって撮影された直近（最新）の複数枚（例えば、５フレーム分）の画像をもとに設定された基準色データが記憶されるものとする。フィルタリング部３５は、オブジェクト認識エンジン３１によって顔画像オブジェクト領域が検出されなかった場合に、手画像オブジェクト領域の色情報と、基準色データ記憶部３６に記憶された直近の画像に対応する基準色データとを比較することにより、手が技オブジェクト領域の候補を選択することができる。
【００３７】
図４は、本実施形態におけるオブジェクト認識処理の概略を示す図である。
図４に示すように、本実施形態におけるパーソナルコンピュータ１０では、ジェスチャ認識プログラム１１２ｃが起動されると、カメラ２１によってカラー画像を撮影して、この画像をもとにしてユーザの手の形や動きを認識するオブジェクト認識処理を実行する。
【００３８】
オブジェクト認識処理では、カメラ２１によって撮影された同じ１フレームの画像から、基準色データを設定するための顔画像オブジェクト領域と、認識の対象とする手画像オブジェクト領域を検出する。顔画像オブジェクト領域については色平均を抽出して基準色データを設定する（図４（Ａ））。一方、手画像オブジェクト領域については、白黒画像から手の形状をもとに複数の候補が検出された場合には、それぞれの手画像オブジェクト領域について色平均を抽出する（図４（Ｂ））。そして、それぞれの手画像オブジェクト領域についての色平均と基準色データとを比較して、基準色データが示す同系色と見なすことができない色平均を持つ手画像オブジェクト領域を認識対象の候補から棄却していく（図４（Ｃ））。最終的には、例えば基準色データが示す色と最も近い（類似度が最も高い）手画像オブジェクト領域を認識対象とするユーザの手に相当するオブジェクトとして出力する（認識オブジェクト出力データ）。
【００３９】
オブジェクト認識処理では、カメラ２１によって撮影される各フレーム画像について前述した処理を継続して実行することにより、画像の撮影環境に変動があったとしても、同一の画像中の顔画像オブジェクト領域をもとに設定された基準色データとの比較によって手画像オブジェクト領域を認識することで、変動に影響されずに精度良く手画像オブジェクト領域を認識することができる。
【００４０】
以下、オブジェクト認識処理の詳細な動作について、フローチャートを参照しながら説明する。
図５は、基準色データを設定するための基準色データ設定処理を説明するためのフローチャートである。
まず、カメラ２１によって撮影されたカラー画像は、画像変換部３０に出力されて白黒画像に変換される。オブジェクト認識エンジン３１は、画像変換部３０から出力される白黒画像について、オブジェクト辞書３２ａに登録された辞書データをもとに顔画像オブジェクト領域を検出する（ステップＡ１）。例えば、白黒画像から顔の形状（輪郭、目、鼻、口の組み合わせ等）に該当する領域を、辞書データとのマッチングにより検出していく。顔画像については、手画像と比較して特徴的な要素を含むために、より確実に検出することができる。
【００４１】
ここで、顔画像オブジェクト領域が検出された場合には（ステップＡ２、Ｙｅｓ）、オブジェクト認識エンジン３１は、色平均抽出部３４に検出された顔画像オブジェクト領域を示すオブジェクト認識データを出力する。
【００４２】
色平均抽出部３４は、顔画像オブジェクト領域に該当するカラー画像データをもとに、顔画像オブジェクト領域における色平均を算出する（ステップＡ３）。色平均抽出部３４は、顔画像オブジェクト領域における色平均をもとに基準色データをフィルタリング処理に用いるために設定すると共に（ステップＡ４）、基準色データ記憶部３６に記憶させておく（ステップＡ５）。なお、基準色データ記憶部３６には、例えば、直近の５フレーム画像分の基準色データが記憶されるものとする。なお、フレーム画像枚数については任意に決めることができる。
【００４３】
なお、オブジェクト認識エンジン３１によって、白黒画像から顔画像オブジェクト領域が検出されなかった場合には（ステップＡ２、Ｎｏ）、色平均抽出部３４は、基準色データ記憶部３６に基準色データが記憶されていれば（ステップＡ６、Ｙｅｓ）、直近のフレーム画像から検出された顔画像オブジェクト領域をもとにした基準色データをフィルタリング処理に用いる基準色データとして設定する（ステップＡ７）。
【００４４】
こうして、顔画像オブジェクト領域が検出されなかったとしても、先のフレーム画像をもとに設定した基準色データを記憶させておき、この基準色データを利用することにより、後述するフィルタリング処理を継続して実行することができる。また、カメラ２１によって画像を撮影する時の撮影環境に変動があったとしても、直近のフレーム画像の顔画像オブジェクト領域をもとに設定された基準色データを用いることによって、その変動による影響を最低限とすることができる。
【００４５】
以下、基準色データを用いたフィルタリング処理を実行する。
【００４６】
図６は、基準色データを用いたフィルタリング処理を説明するためのフローチャートである。
オブジェクト認識エンジン３１は、スタートボタン３０から出力される白黒画像について、オブジェクト辞書３２ｂに登録された辞書データをもとに、例えば辞書データとのマッチングにより手画像オブジェクト領域を検出する。オブジェクト辞書３２ｂには、ハンド・ジェスチャを認識するための各種の手の形（握りこぶし、開く、指を立てる／差すなど）に対応する辞書データが登録されているため、ユーザが何らかの操作を指示するために予め決められた所定の手の形にすることで、この手の画像を手画像オブジェクト領域として検出することができる。
【００４７】
なお、手の形は、顔画像と比較して特徴的ではなく単純な線の組み合わせによって表現される。このため、例えば画像中に含まれる服のしわ、カーテンのしわ、あるいは重ね合わされた複数の本などが手の形状と類似し、人の手とは関係ないオブジェクトを手画像オブジェクト領域の候補として検出してしまう場合がある。オブジェクト認識エンジン３１は、画像中から複数の手画像オブジェクト領域の候補が検出された場合には、オブジェクト領域項補リストをオブジェクト認識データとして出力する。
【００４８】
図７には、カメラ２１によって撮影された画像の一例を示している。図７に示すように、カメラ２１は、ユーザの顔と手を含む画像を撮影している。カメラ２１によって撮影される画像には、人物だけでなく背景などを含むために、単純な線の組み合わせによって表される手と類似する形状が含まれる場合がある。
【００４９】
図８には、図７に示す画像から検出された顔画像オブジェクト領域Ａを示している。本実施形態のフィルタリング処理では、顔画像オブジェクト領域Ａの色情報をもとに設定する基準色データと手画像オブジェクト領域の色情報との比較によって、手画像オブジェクト領域の候補から不適なものを棄却していき最終的に手画像オブジェクト領域Ｂを認識する。
【００５０】
なお、前述した説明では、手画像オブジェクト領域の候補を画像変換部３０により変換された白黒画像をもとに、例えば辞書データのマッチングにより検出するとしているが、予め設定された色情報を利用して候補の絞り込みを行うようにしても良い。例えば、人物の肌色情報を予め設定しておき、肌色情報に該当する色情報をもつ手画像オブジェクト領域のみを候補とすることで、肌色を持たない服やカーテンなどに該当するオブジェクト画像を予め排除することができる。ただし、予め設定しておく肌色情報については、撮影環境の変動や個体差があっても確実に手画像オブジェクト領域を候補として残すことができるように、肌色と見なす色情報に対する幅を広くしておくものとする。
【００５１】
まず、色棄却部３３は、オブジェクト認識エンジン３１からオブジェクト領域候補リストを取得すると（ステップＢ１）、色平均抽出部３４によってリスト中の１つの手画像オブジェクト領域に該当するカラー画像データを抽出して色平均を算出する（ステップＢ２，Ｂ３）。
【００５２】
フィルタリング部３５は、色平均抽出部３４によって抽出された手画像オブジェクト領域の色平均と基準色データ設定手段により設定された基準色データとを比較して類似度を算出する（ステップＢ４）。フィルタリング部３５は、処理対象としている手が技オブジェクト領域と対応付けて、基準色データとの類似度を記憶しておく（ステップＢ５）。
【００５３】
ここで、手画像オブジェクト領域の色平均が基準色データと同系色であると判断できる場合、すなわち類似が予め設定された閾値より高い場合には（ステップＢ６、Ｙｅｓ）、処理対象としている手画像オブジェクト領域を候補として残しておく。
【００５４】
一方、手画像オブジェクト領域の色平均が基準色データと同系色でないと判断できる場合、すなわち類似が予め設定された閾値以下の場合には（ステップＢ６、Ｎｏ）、フィルタリング部３５は、処理対象としている手画像オブジェクト領域の候補に色棄却フラグを付加して認識対象から除外する（ステップＢ７）。
【００５５】
以下、同様にして、オブジェクト領域候補に設定された全ての手画像オブジェクト領域の候補について、基準色データとの比較を実行する（ステップＢ２〜Ｂ８）。全ての手画像オブジェクト領域について、それぞれの色平均と基準色データとの比較が終了すると、フィルタリング部３５は、色棄却フラグが付加されていない、基準色データとの類似度が最も高い色平均をもっていた手画像オブジェクト領域の候補を認識対象の手画像オブジェクト領域（認識オブジェクト出力データ）として出力する（ステップＢ９）。
【００５６】
このようにして、本実施形態におけるパーソナルコンピュータ１０（画像処理装置）では、カメラ２１によって撮影された画像から検出された顔画像オブジェクト領域の色情報（色平均）を抽出し、この色情報を基準色データとして、同じ画像から抽出された手画像オブジェクト領域の候補の画像の色情報と比較することによって、認識対象のオブジェクトを出力する。従って、認識対象の個体差や撮影環境の変動などの不安定要因があったとしても、精度良く画像中の対象オブジェクトを認識することが可能となる。
【００５７】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。
【００５８】
また、前述した実施の形態において記載した処理は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク（フレキシブルディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリなどの記録媒体に書き込んで各種装置に提供することができる。また、通信媒体により伝送して各種装置に提供することも可能である。コンピュータは、記録媒体に記録されたプログラムを読み込み、または通信媒体を介してプログラムを受信し、このプログラムによって動作が制御されることにより、上述した処理を実行する。
【図面の簡単な説明】
【００５９】
【図１】パーソナルコンピュータ１０（画像処理装置）のディスプレイユニットを開いた状態における斜視図。
【図２】パーソナルコンピュータ１０のシステム構成を示すブロック図。
【図３】ジェスチャ認識プログラム１１２ｃ（画像処理プログラム）によって実現されるオブジェクト認識のための機能構成を示すブロック図。
【図４】本実施形態におけるオブジェクト認識処理の概略を示す図。
【図５】本実施形態における基準色データを設定するための基準色データ設定処理を説明するためのフローチャート。
【図６】本実施形態における基準色データを用いたフィルタリング処理を説明するためのフローチャート。
【図７】カメラ２１によって撮影された画像の一例を示す図。
【図８】図７に示す画像から検出された顔画像オブジェクト領域Ａと手画像オブジェクト領域Ｂを示す図。
【符号の説明】
【００６０】
１０…パーソナルコンピュータ、２１…カメラ、３０…画像変換部、３１…オブジェクト認識エンジン、３２（３２ａ，３２ｂ）…オブジェクト辞書、３３…色棄却部、３４…色平均抽出部、３５…フィルタリング部、３６…色基準データ記憶部、１１２ａ…ＯＳ、１１２ｂ…アプリケーションプログラム、１１２ｃ…ジェスチャ認識プログラム、１２５…ビデオプロセッサ。

【特許請求の範囲】
【請求項１】
画像を撮影する撮影手段と、
前記撮影手段により撮影された画像から第１オブジェクト領域を検出する第１オブジェクト領域検出手段と、
前記第１オブジェクト領域の画像の色情報を抽出する第１色情報抽出手段と、
前記撮影手段により撮影された画像から認識対象とする第２オブジェクト領域の候補を検出する第２オブジェクト領域検出手段と、
前記第２オブジェクト領域の画像の色情報を抽出して基準色データを設定する第２色情報抽出手段と、
前記第２オブジェクト領域検出手段により検出された第２オブジェクト領域の候補のそれぞれについて、前記第２色情報抽出手段により設定された基準色データと前記第１色情報抽出手段により抽出された色情報とを比較し、この比較結果に基づいて前記第２オブジェクト領域の候補を選択する選択手段と、
前記選択手段により選択された前記第２オブジェクト領域の候補の何れかを認識対象のオブジェクトとして出力する出力手段と
を具備したことを特徴とする画像処理装置。
【請求項２】
前記第１色情報抽出手段は、前記色情報として前記第１オブジェクト領域における色平均を算出し、
前記第２色情報抽出手段は、前記色情報として前記第２オブジェクト領域における色平均を算出することを特徴とする請求項１記載の画像処理装置。
【請求項３】
前記第１オブジェクト領域検出手段及び前記第２オブジェクト領域検出手段は、前記撮影手段により撮影された画像に含まれるオブジェクトの形状をもとに前記第１及び第２のオブジェクト領域を検出することを特徴とする請求項２記載の画像処理装置。
【請求項４】
前記第１色情報抽出手段によって設定された基準色データを、前記画像撮影手段により撮影された複数枚の画像分記憶する基準色データ記憶手段をさらに具備し、
前記選択手段は、前記撮影手段により撮影された画像から前記第１オブジェクト領域が検出されなかった場合に、前記第２色情報抽出手段により抽出された色情報と、前記基準色データ記憶手段により記憶された直近の画像に対応する前記基準色データとを比較することを特徴とする請求項１記載の画像処理装置。
【請求項５】
前記第１オブジェクト領域検出手段は、前記画像から人物の顔画像に相当する領域を前記第１オブジェクト領域として検出し、
前記第２オブジェクト領域検出手段は、前記画像から人物の手画像に相当する領域を前記第２オブジェクト領域として検出することを特徴とする請求項３記載の画像処理装置。
【請求項６】
画像を撮影する撮影ステップと、
前記撮影ステップにより撮影された画像から第１オブジェクト領域を検出する第１オブジェクト領域検出ステップと、
前記第１オブジェクト領域の画像の色情報を抽出する第１色情報抽出ステップと、
前記撮影ステップにより撮影された画像から認識対象とする第２オブジェクト領域の候補を検出する第２オブジェクト領域検出ステップと、
前記第２オブジェクト領域の画像の色情報を抽出して基準色データを設定する第２色情報抽出ステップと、
前記第２オブジェクト領域検出ステップにより検出された第２オブジェクト領域の候補のそれぞれについて、前記第２色情報抽出ステップにより設定された基準色データと前記第１色情報抽出ステップにより抽出された色情報とを比較し、この比較結果に基づいて前記第２オブジェクト領域の候補を選択する選択ステップと、
前記選択ステップにより選択された前記第２オブジェクト領域の候補の何れかを認識対象のオブジェクトとして出力する出力ステップと
を具備したことを特徴とする画像処理方法。
【請求項７】
前記第１色情報抽出ステップは、前記色情報として前記第１オブジェクト領域における色平均を算出し、
前記第２色情報抽出ステップは、前記色情報として前記第２オブジェクト領域における色平均を算出することを特徴とする請求項６記載の画像処理方法。
【請求項８】
前記第１オブジェクト領域検出ステップ及び前記第２オブジェクト領域検出ステップは、前記撮影ステップにより撮影された画像に含まれるオブジェクトの形状をもとに前記第１及び第２のオブジェクト領域を検出することを特徴とする請求項７記載の画像処理方法。
【請求項９】
前記第１色情報抽出ステップによって設定された基準色データを、前記画像撮影ステップにより撮影された複数枚の画像分記憶する基準色データ記憶ステップをさらに具備し、
前記選択ステップは、前記撮影ステップにより撮影された画像から前記第１オブジェクト領域が検出されなかった場合に、前記第２色情報抽出ステップにより抽出された色情報と、前記基準色データ記憶ステップにより記憶された直近の画像に対応する前記基準色データとを比較することを特徴とする請求項６記載の画像処理方法。
【請求項１０】
前記第１オブジェクト領域検出ステップは、前記画像から人物の顔画像に相当する領域を前記第１オブジェクト領域として検出し、
前記第２オブジェクト領域検出ステップは、前記画像から人物の手画像に相当する領域を前記第２オブジェクト領域として検出することを特徴とする請求項８記載の画像処理方法。
【請求項１１】
コンピュータを、
画像を撮影する撮影手段と、
前記撮影手段により撮影された画像から第１オブジェクト領域を検出する第１オブジェクト領域検出手段と、
前記第１オブジェクト領域の画像の色情報を抽出する第１色情報抽出手段と、
前記撮影手段により撮影された画像から認識対象とする第２オブジェクト領域の候補を検出する第２オブジェクト領域検出手段と、
前記第２オブジェクト領域の画像の色情報を抽出して基準色データを設定する第２色情報抽出手段と、
前記第２オブジェクト領域検出手段により検出された第２オブジェクト領域の候補のそれぞれについて、前記第２色情報抽出手段により設定された基準色データと前記第１色情報抽出手段により抽出された色情報とを比較し、この比較結果に基づいて前記第２オブジェクト領域の候補を選択する選択手段と、
前記選択手段により選択された前記第２オブジェクト領域の候補の何れかを認識対象のオブジェクトとして出力する出力手段として機能させることを特徴とする画像処理プログラム。
【請求項１２】
前記第１色情報抽出手段は、前記色情報として前記第１オブジェクト領域における色平均を算出し、
前記第２色情報抽出手段は、前記色情報として前記第２オブジェクト領域における色平均を算出することを特徴とする請求項１１記載の画像処理プログラム。
【請求項１３】
前記第１オブジェクト領域検出手段及び前記第２オブジェクト領域検出手段は、前記撮影手段により撮影された画像に含まれるオブジェクトの形状をもとに前記第１及び第２のオブジェクト領域を検出することを特徴とする請求項１２記載の画像処理プログラム。
【請求項１４】
前記第１色情報抽出手段によって設定された基準色データを、前記画像撮影手段により撮影された複数枚の画像分記憶する基準色データ記憶手段としてさらに機能させ、
前記選択手段は、前記撮影手段により撮影された画像から前記第１オブジェクト領域が検出されなかった場合に、前記第２色情報抽出手段により抽出された色情報と、前記基準色データ記憶手段により記憶された直近の画像に対応する前記基準色データとを比較することを特徴とする請求項１１記載の画像処理プログラム。
【請求項１５】
前記第１オブジェクト領域検出手段は、前記画像から人物の顔画像に相当する領域を前記第１オブジェクト領域として検出し、
前記第２オブジェクト領域検出手段は、前記画像から人物の手画像に相当する領域を前記第２オブジェクト領域として検出することを特徴とする請求項１３記載の画像処理プログラム。

【図１】