説明

画像処理装置、画像処理方法、画像処理プログラム

【課題】認識対象の個体差や撮影環境の変動などの不安定要因があったとしても、精度良く画像中の対象オブジェクトを認識する。
【解決手段】オブジェクト認識エンジン31は、画像変換部30により変換された白黒画像から顔画像と手画像に相当するオブジェクト領域を検出する。色平均抽出部34は、顔画像オブジェクト領域の色情報を抽出し、この色情報をもとに基準色データを設定する。また、色平均抽出部34は、手画像オブジェクト領域の候補のそれぞれから色情報を抽出する。フィルタリング部35は、手画像オブジェクト領域の候補のそれぞれについて、基準色データと色情報とを比較し、この比較結果に基づいて手画像オブジェクト領域を絞り込み、最終的に手画像オブジェクト領域の候補の何れかを認識対象のオブジェクトとして出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像中のオブジェクトを認識する画像処理装置、画像処理方法、及び画像処理プログラムに関する。
【背景技術】
【0002】
従来より、カメラにより撮影された画像から特定のオブジェクトを認識する画像処理装置が考えられている(例えば、特許文献1)。特許文献1には、入力された画像から手によるジェスチャを認識するジェスチャ認識装置について記載されている。
【0003】
このジェスチャ認識装置では、入力されたカラー画像から手の領域を検出し、手の位置を求める処理を行う。初めに入力された画像に対しては、予め肌色モデルデータベースに記憶してある肌色モデルを用いて肌色尤度マップを作成し、この肌色尤度マップのランダムの位置に所定サイズの手の領域の候補領域を複数設定する。その領域内の肌色尤度値の平均が所定値以上ある候補領域を手の領域と識別し、手の領域内の画素の肌色尤度値の重み付き平均手の領域から手の位置を求める。さらに、手の領域の画素の色ヒストグラムを作成し基準色ヒストグラムとして記憶しておく。最初に手の位置を求めたフレーム画像以降に入力されたフレーム画像に対しては、入力された画像にランダムに所定サイズの手の候補領域を設定し、候補領域毎に求めた色ヒストグラムと基準色ヒストグラムとの類似度を調べ、類似度の高い候補領域を手の領域として手の位置を求める処理を行う。
【特許文献1】特開2007−87089号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
このように特許文献1に記載されたジェスチャ認識装置では、初めに入力されたフレーム画像に対して色情報(肌色尤度値)をもとに手の位置を求めて基準色ヒストグラムとして記憶しておき、最初のフレーム画像以降に入力されたフレーム画像に対しては、所定サイズの手の候補領域を設定し、候補領域毎に求めた色ヒストグラムと基準色ヒストグラムとの類似度を調べ、類似度の高い候補領域を手の領域として求めていた。
【0005】
すなわち、従来のジェスチャ認識装置では、基準色ヒストグラムを作成するための手の位置を、色情報(肌色尤度値)をもとにして求めていた。通常、カラー画像は、撮影環境(カメラ動作状況、照明の種類の違いや光源位置の変化など)によって同じオブジェクト(例えば「手」)を撮影した場合であっても色が異なってくる。このため、色の変動によって基準色ヒストグラムを作成するための手の位置を確実に求められない恐れがあった。
【0006】
一方、色情報を用いないで手の位置を検出しようとすると、画像中に手の形状と類似するパターンが画像中に複数存在する場合があり、認識対象とする手のみを検出することが困難となってしまう。
【0007】
また、従来のジェスチャ認識装置では、初めに入力されたフレーム画像をもとにした基準色ヒストグラムと、それ以降のフレーム画像から求められた色ヒストグラムとの類似度を調べているため、初めにフレーム画像を撮影した時の撮影環境が変動してしまうと、その後のフレーム画像から求められる色ヒストグラムも変動してしまい、正しく類似度を調べることができなくなってしまう。
【0008】
また、肌色モデルデータベースに記憶してある肌色モデル、すなわち絶対的な色情報を用いて「手」の位置を求めているため、肌が黒い人あるいは白い人など様々な人物の個体差を考慮して肌色モデルデータベース(色情報)を用意しておかなければ、精度良く「手」を認識することができなかった。
【0009】
本発明は上述の事情を考慮してなされたものであり、認識対象の個体差や撮影環境の変動などの不安定要因があったとしても、精度良く画像中の対象オブジェクトを認識することが可能な画像処理装置、画像処理方法、画像処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上述の課題を解決するため、本発明は、画像を撮影する撮影手段と、前記撮影手段により撮影された画像から第1オブジェクト領域を検出する第1オブジェクト領域検出手段と、前記第1オブジェクト領域の画像の色情報を抽出する第1色情報抽出手段と、前記撮影手段により撮影された画像から認識対象とする第2オブジェクト領域の候補を検出する第2オブジェクト領域検出手段と、前記第2オブジェクト領域の画像の色情報を抽出して基準色データを設定する第2色情報抽出手段と、前記第2オブジェクト領域検出手段により検出された第2オブジェクト領域の候補のそれぞれについて、前記第2色情報抽出手段により設定された基準色データと前記第1色情報抽出手段により抽出された色情報とを比較し、この比較結果に基づいて前記第2オブジェクト領域の候補を選択する選択手段と、前記選択手段により選択された前記第2オブジェクト領域の候補の何れかを認識対象のオブジェクトとして出力する出力手段とを具備したことを特徴とする。
【発明の効果】
【0011】
本発明によれば、撮影された画像から検出された第1オブジェクト領域の画像(例えば人物の顔画像)の色情報を抽出し、この色情報を基準として、同じ画像から抽出された第2オブジェクト領域の候補の画像(例えば手画像)の色情報と比較することによって、認識対象のオブジェクトを出力するので、認識対象の個体差や撮影環境の変動などの不安定要因があったとしても、精度良く画像中の対象オブジェクトを認識することが可能となる。
【発明を実施するための最良の形態】
【0012】
以下、図面を参照して、本発明の実施形態を説明する。
まず、図1および図2を参照して、本発明の一実施形態に係る画像処理装置の構成について説明する。この画像処理装置は、例えば、ノートブック型パーソナルコンピュータ10として実現されている。
【0013】
図1はノートブック型パーソナルコンピュータ10のディスプレイユニットを開いた状態における斜視図である。本コンピュータ10は、コンピュータ本体11と、ディスプレイユニット12とから構成されている。ディスプレイユニット12にはLCD(Liquid Crystal Display)17から構成される表示装置が組み込まれており、そのLCD17の表示画面はディスプレイユニット12のほぼ中央に位置されている。LCD17の両側には、一対のスピーカ(ツイータ)20が配置されている。
【0014】
ディスプレイユニット12は、コンピュータ本体11に対して開放位置と閉塞位置との間を回動自在に取り付けられている。コンピュータ本体11は薄い箱形の筐体を有しており、その上面にはキーボード13、本コンピュータ10を電源オン/オフするためのパワーボタン14、タッチパッド15、オーディオ・ビデオ(AV)操作パネル16、AVコントローラ17、ボリューム制御ダイヤル18、及び一対のスピーカ19などが配置されている。また、ディスプレイユニット12には、開放位置にあるときの上辺部にカラー画像を撮影することが可能なカメラ21が設けられている。カメラ21は、パーソナルコンピュータ10を使用しているユーザの少なくとも顔を含む上半身部分を撮影可能とする。従って、手を上半身の高さくらいに上げることにより、カメラ21によって顔と手を含む画像を撮影することができる。
【0015】
次に、図2を参照して、パーソナルコンピュータ10のシステム構成について説明する。
【0016】
本コンピュータ10は、CPU111、ノースブリッジ114、主メモリ115、グラフィクスプロセッシングユニット(GPU)116、サウスブリッジ117、BIOS−ROM120、ハードディスクドライブ(HDD)121、光ディスクドライブ(ODD)122、サウンドコントローラ123、TVチューナ124、ビデオプロセッサ125、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)140、及び電源回路141等を備えている。
【0017】
CPU111は本コンピュータ10の動作を制御するために設けられたプロセッサであり、HDD121から主メモリ115にロードされる、オペレーティングシステム(OS)112a、各種アプリケーションプログラム112b、ジェスチャ認識プログラム112cなどを実行する。ジェスチャ認識プログラム112cは、例えばアプリケーションプログラム112bの動作を制御するための指示を「手」のジェスチャ、すなわち手の形(握りこぶし、開く、指を立てる/差すなど)や手の動き(手を動かす、指を動かすなど)によって入力するためのプログラムである。ジェスチャ認識プログラム112cは、カメラ21から入力されたカラー画像から「手」に相当する画像(以下、手画像と称する)を認識対象とするオブジェクトとして検出し、そのオブジェクトの動きをもとに入力指示を判別して、アプリケーションプログラム112bに対するコマンドやデータに変換して出力する。なお、ジェスチャのリアルタイム認識処理(オブジェクト認識)は、ビデオプロセッサ125により実行されるものとする。また、CPU111は、BIOS−ROM120に格納されたBIOS(Basic Input Output System)を実行する。
【0018】
ノースブリッジ114はCPU111のローカルバスとサウスブリッジ117との間を接続するブリッジデバイスである。ノースブリッジ114には、主メモリ115をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ114は、PCI Expressバスなどを介してグラフィクスプロセッシングユニット(GPU)116との通信を実行する機能も有している。
【0019】
グラフィクスプロセッシングユニット(GPU)116は、本コンピュータ10のディスプレイモニタとして使用されるLCD17を制御する表示コントローラである。GPU116は、OSまたはアプリケーションプログラムによってビデオメモリ(VRAM)116Aに書き込まれた表示データから、LCD17に表示すべき画面イメージを形成する映像信号を生成する。
【0020】
サウスブリッジ117は、ハードディスクドライブ(HDD)121及び光ディスクドライブ(ODD)122を制御するための、IDE(Integrated Drive Electronics)コントローラやSerial ATAコントローラを内蔵している。
【0021】
HDD121は、各種プログラム及びデータを格納する記憶装置である。HDD121には、例えばOS、各種アプリケーションプログラム、ジェスチャ認識プログラムなどが記憶されている。
【0022】
光ディスクドライブ(ODD)122は、ビデオコンテンツが格納されたDVDなどの記憶メディアを駆動するためのドライブユニットである。
【0023】
サウンドコントローラ123は、音源デバイスであり、各種オーディオデータに対応する音をスピーカ19,20から出力するための処理を実行する。TVチューナ124は、TV放送信号によって放送される放送番組データを受信する。
【0024】
さらに、サウスブリッジ117には、PCI EXPRESS規格のシリアルバスなどを介してビデオプロセッサ125が接続されている。ビデオプロセッサ125は、映像のストリーミング処理や認識処理を行う専用エンジンである。例えば、ビデオプロセッサ125は、パーソナルコンピュータ10に搭載されたカメラ21からのカラー画像をもとにハンド・ジェスチャをリアルタイム認識するための処理に使用される。例えば、アプリケーションプログラム112bが人の手や指の動き(ハンド・ジェスチャ)によってユーザからの入力操作を受け付ける場合に、カメラ21から入力された画像から「手」に相当するオブジェクトを認識して、手や指の動き(ハンド・ジェスチャ)を判別するための処理を実行する。
【0025】
メモリ125Aは、ビデオプロセッサ125の作業メモリとして用いられる。本実施形態においては、CPU111とは異なる専用のプロセッサであるビデオプロセッサ125がバックエンドプロセッサとして使用され、このビデオプロセッサ125によって例えばハンド・ジェスチャの認識処理が実行される。よって、CPU101の負荷の増加を招くことなく、ハンド・ジェスチャの認識処理が可能となる。
【0026】
エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)140は、電力管理のためのエンベデッドコントローラと、キーボード(KB)13及びタッチパッド15を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。EC/KBC140には、本コンピュータ10が電源オフされた状態においても、電源回路141から常に動作電源が供給される。また、EC/KBC140は、AV操作パネル16を制御するためのコントローラとして機能する。EC/KBC140とAVコントローラ20との間の通信は、例えば、シリアルバス等を介して実行される。
【0027】
またEC/KBC140は、ユーザによるパワーボタンスイッチ14の操作に応じて本コンピュータ10をパワーオン/パワーオフする機能を有している。本コンピュータ10のパワーオン/パワーオフの制御は、EC/KBC140と電源回路141との共同動作によって実行される。電源回路141は、コンピュータ本体11に装着されたバッテリ142からの電力、またはコンピュータ本体11に外部電源として接続されるACアダプタ143からの電力を用いて、各コンポーネントへの動作電源を生成する。
【0028】
図3は、ジェスチャ認識プログラム112c(画像処理プログラム)によって実現される、オブジェクト認識のための機能構成を示すブロック図である。ビデオプロセッサ125は、ジェスチャ認識プログラム112cを実行することにより、パーソナルコンピュータ10に画像変換部30、オブジェクト認識エンジン31、オブジェクト辞書32(32a,32b)、色棄却部33(色平均抽出部34、フィルタリング部35、基準色データ記憶部36)の機能を実現させる。
【0029】
画像変換部30は、カメラ21によって撮影されたカラー画像を色棄却部33(色平均抽出部34)に出力し、またカラー画像を白黒画像に変換してオブジェクト認識エンジン31に出力する。
【0030】
オブジェクト認識エンジン31は、画像変換部30により変換された白黒画像から、オブジェクト辞書32(32a,32b)に予め登録されたオブジェクト認識用の辞書データをもとにしてオブジェクト領域を検出して、このオブジェクト領域を示すオブジェクト認識データを出力する。オブジェクト辞書32には、オブジェクトの形状をもとにオブジェクトを識別するための辞書データが登録されており、オブジェクト認識エンジン31は、白黒画像中から辞書データが示す形状に相当する画像領域をオブジェクト領域として検出する。
【0031】
オブジェクト辞書32aには、例えば人物の顔画像に相当するオブジェクト領域(第1オブジェクト領域)を検出するための辞書データが登録されている。顔画像に相当するオブジェクト領域(以下、顔画像オブジェクト領域と称する)は、認識対象とする手画像に相当するオブジェクト領域(以下、手画像オブジェクト領域と称する)(第2オブジェクト領域)の候補を絞り込むために参照される基準色データを設定するために検出される。オブジェクト認識エンジン31は、顔画像オブジェクト領域を示すオブジェクト認識データを色平均抽出部34に出力する。
【0032】
また、オブジェクト辞書32bには、例えば手画像オブジェクト領域(第2オブジェクト領域)を検出するための辞書データが登録されている。オブジェクト辞書32bには、ハンド・ジェスチャを認識するための各種の手の形(握りこぶし、開く、指を立てる/差すなど)に対応する辞書データが登録されている。オブジェクト認識エンジン31は、手画像オブジェクト領域の候補をオブジェクト認識データ(オブジェクト領域候補リスト)として色棄却部33(色平均抽出部34、フィルタリング部35)に出力する。
【0033】
色棄却部33は、オブジェクト認識エンジン31により検出された顔画像オブジェクト領域(第1オブジェクト領域)から抽出された色情報をもとに基準色データを設定し、この基準色データと同系色と見なされない手画像オブジェクト領域(第2オブジェクト領域)を棄却することで候補の絞り込み(フィルタリング処理)を実行する。
【0034】
色棄却部33には、色平均抽出部34、フィルタリング部35、及び基準色データ記憶部36が設けられている。
色平均抽出部34は、オブジェクト認識エンジン31によって画像中から検出されたオブジェクト領域のカラー画像データをもとにオブジェクト領域毎の色情報を抽出する。本実施形態では、オブジェクト領域について色平均を算出して色情報とする。なお、オブジェクト領域の色平均ではなく、オブジェクト領域の特徴を表す他の色情報を算出するようにしても良い。色平均抽出部34は、顔画像オブジェクト領域の画像の色情報を抽出して基準色データを設定してフィルタリング部35に出力すると共に基準色データ記憶部36に記憶させる(基準色データ設定処理)。また、色平均抽出部34は、手画像オブジェクト領域の候補のそれぞれについて色情報を抽出してフィルタリング部35に出力する。
【0035】
フィルタリング部35は、オブジェクト認識エンジン31により検出された手画像オブジェクト領域の候補のそれぞれについて、色平均抽出部34により設定された基準色データと色平均抽出部34により抽出された手画像オブジェクト領域の色情報とを比較し、この比較結果に基づいて、オブジェクト領域候補リストから認識対象とする手画像オブジェクト領域の候補を選択する。また、フィルタリング部35は、基準色データと色情報との比較結果に基づいて、手画像オブジェクト領域の候補の何れかを認識対象のオブジェクト(認識オブジェクト出力データ)として出力する。
【0036】
基準色データ記憶部36は、色平均抽出部34により色情報(色平均)をもとに設定された基準色データを記憶する。本実施形態では、カメラ21によって撮影された直近(最新)の複数枚(例えば、5フレーム分)の画像をもとに設定された基準色データが記憶されるものとする。フィルタリング部35は、オブジェクト認識エンジン31によって顔画像オブジェクト領域が検出されなかった場合に、手画像オブジェクト領域の色情報と、基準色データ記憶部36に記憶された直近の画像に対応する基準色データとを比較することにより、手が技オブジェクト領域の候補を選択することができる。
【0037】
図4は、本実施形態におけるオブジェクト認識処理の概略を示す図である。
図4に示すように、本実施形態におけるパーソナルコンピュータ10では、ジェスチャ認識プログラム112cが起動されると、カメラ21によってカラー画像を撮影して、この画像をもとにしてユーザの手の形や動きを認識するオブジェクト認識処理を実行する。
【0038】
オブジェクト認識処理では、カメラ21によって撮影された同じ1フレームの画像から、基準色データを設定するための顔画像オブジェクト領域と、認識の対象とする手画像オブジェクト領域を検出する。顔画像オブジェクト領域については色平均を抽出して基準色データを設定する(図4(A))。一方、手画像オブジェクト領域については、白黒画像から手の形状をもとに複数の候補が検出された場合には、それぞれの手画像オブジェクト領域について色平均を抽出する(図4(B))。そして、それぞれの手画像オブジェクト領域についての色平均と基準色データとを比較して、基準色データが示す同系色と見なすことができない色平均を持つ手画像オブジェクト領域を認識対象の候補から棄却していく(図4(C))。最終的には、例えば基準色データが示す色と最も近い(類似度が最も高い)手画像オブジェクト領域を認識対象とするユーザの手に相当するオブジェクトとして出力する(認識オブジェクト出力データ)。
【0039】
オブジェクト認識処理では、カメラ21によって撮影される各フレーム画像について前述した処理を継続して実行することにより、画像の撮影環境に変動があったとしても、同一の画像中の顔画像オブジェクト領域をもとに設定された基準色データとの比較によって手画像オブジェクト領域を認識することで、変動に影響されずに精度良く手画像オブジェクト領域を認識することができる。
【0040】
以下、オブジェクト認識処理の詳細な動作について、フローチャートを参照しながら説明する。
図5は、基準色データを設定するための基準色データ設定処理を説明するためのフローチャートである。
まず、カメラ21によって撮影されたカラー画像は、画像変換部30に出力されて白黒画像に変換される。オブジェクト認識エンジン31は、画像変換部30から出力される白黒画像について、オブジェクト辞書32aに登録された辞書データをもとに顔画像オブジェクト領域を検出する(ステップA1)。例えば、白黒画像から顔の形状(輪郭、目、鼻、口の組み合わせ等)に該当する領域を、辞書データとのマッチングにより検出していく。顔画像については、手画像と比較して特徴的な要素を含むために、より確実に検出することができる。
【0041】
ここで、顔画像オブジェクト領域が検出された場合には(ステップA2、Yes)、オブジェクト認識エンジン31は、色平均抽出部34に検出された顔画像オブジェクト領域を示すオブジェクト認識データを出力する。
【0042】
色平均抽出部34は、顔画像オブジェクト領域に該当するカラー画像データをもとに、顔画像オブジェクト領域における色平均を算出する(ステップA3)。色平均抽出部34は、顔画像オブジェクト領域における色平均をもとに基準色データをフィルタリング処理に用いるために設定すると共に(ステップA4)、基準色データ記憶部36に記憶させておく(ステップA5)。なお、基準色データ記憶部36には、例えば、直近の5フレーム画像分の基準色データが記憶されるものとする。なお、フレーム画像枚数については任意に決めることができる。
【0043】
なお、オブジェクト認識エンジン31によって、白黒画像から顔画像オブジェクト領域が検出されなかった場合には(ステップA2、No)、色平均抽出部34は、基準色データ記憶部36に基準色データが記憶されていれば(ステップA6、Yes)、直近のフレーム画像から検出された顔画像オブジェクト領域をもとにした基準色データをフィルタリング処理に用いる基準色データとして設定する(ステップA7)。
【0044】
こうして、顔画像オブジェクト領域が検出されなかったとしても、先のフレーム画像をもとに設定した基準色データを記憶させておき、この基準色データを利用することにより、後述するフィルタリング処理を継続して実行することができる。また、カメラ21によって画像を撮影する時の撮影環境に変動があったとしても、直近のフレーム画像の顔画像オブジェクト領域をもとに設定された基準色データを用いることによって、その変動による影響を最低限とすることができる。
【0045】
以下、基準色データを用いたフィルタリング処理を実行する。
【0046】
図6は、基準色データを用いたフィルタリング処理を説明するためのフローチャートである。
オブジェクト認識エンジン31は、スタートボタン30から出力される白黒画像について、オブジェクト辞書32bに登録された辞書データをもとに、例えば辞書データとのマッチングにより手画像オブジェクト領域を検出する。オブジェクト辞書32bには、ハンド・ジェスチャを認識するための各種の手の形(握りこぶし、開く、指を立てる/差すなど)に対応する辞書データが登録されているため、ユーザが何らかの操作を指示するために予め決められた所定の手の形にすることで、この手の画像を手画像オブジェクト領域として検出することができる。
【0047】
なお、手の形は、顔画像と比較して特徴的ではなく単純な線の組み合わせによって表現される。このため、例えば画像中に含まれる服のしわ、カーテンのしわ、あるいは重ね合わされた複数の本などが手の形状と類似し、人の手とは関係ないオブジェクトを手画像オブジェクト領域の候補として検出してしまう場合がある。オブジェクト認識エンジン31は、画像中から複数の手画像オブジェクト領域の候補が検出された場合には、オブジェクト領域項補リストをオブジェクト認識データとして出力する。
【0048】
図7には、カメラ21によって撮影された画像の一例を示している。図7に示すように、カメラ21は、ユーザの顔と手を含む画像を撮影している。カメラ21によって撮影される画像には、人物だけでなく背景などを含むために、単純な線の組み合わせによって表される手と類似する形状が含まれる場合がある。
【0049】
図8には、図7に示す画像から検出された顔画像オブジェクト領域Aを示している。本実施形態のフィルタリング処理では、顔画像オブジェクト領域Aの色情報をもとに設定する基準色データと手画像オブジェクト領域の色情報との比較によって、手画像オブジェクト領域の候補から不適なものを棄却していき最終的に手画像オブジェクト領域Bを認識する。
【0050】
なお、前述した説明では、手画像オブジェクト領域の候補を画像変換部30により変換された白黒画像をもとに、例えば辞書データのマッチングにより検出するとしているが、予め設定された色情報を利用して候補の絞り込みを行うようにしても良い。例えば、人物の肌色情報を予め設定しておき、肌色情報に該当する色情報をもつ手画像オブジェクト領域のみを候補とすることで、肌色を持たない服やカーテンなどに該当するオブジェクト画像を予め排除することができる。ただし、予め設定しておく肌色情報については、撮影環境の変動や個体差があっても確実に手画像オブジェクト領域を候補として残すことができるように、肌色と見なす色情報に対する幅を広くしておくものとする。
【0051】
まず、色棄却部33は、オブジェクト認識エンジン31からオブジェクト領域候補リストを取得すると(ステップB1)、色平均抽出部34によってリスト中の1つの手画像オブジェクト領域に該当するカラー画像データを抽出して色平均を算出する(ステップB2,B3)。
【0052】
フィルタリング部35は、色平均抽出部34によって抽出された手画像オブジェクト領域の色平均と基準色データ設定手段により設定された基準色データとを比較して類似度を算出する(ステップB4)。フィルタリング部35は、処理対象としている手が技オブジェクト領域と対応付けて、基準色データとの類似度を記憶しておく(ステップB5)。
【0053】
ここで、手画像オブジェクト領域の色平均が基準色データと同系色であると判断できる場合、すなわち類似が予め設定された閾値より高い場合には(ステップB6、Yes)、処理対象としている手画像オブジェクト領域を候補として残しておく。
【0054】
一方、手画像オブジェクト領域の色平均が基準色データと同系色でないと判断できる場合、すなわち類似が予め設定された閾値以下の場合には(ステップB6、No)、フィルタリング部35は、処理対象としている手画像オブジェクト領域の候補に色棄却フラグを付加して認識対象から除外する(ステップB7)。
【0055】
以下、同様にして、オブジェクト領域候補に設定された全ての手画像オブジェクト領域の候補について、基準色データとの比較を実行する(ステップB2〜B8)。全ての手画像オブジェクト領域について、それぞれの色平均と基準色データとの比較が終了すると、フィルタリング部35は、色棄却フラグが付加されていない、基準色データとの類似度が最も高い色平均をもっていた手画像オブジェクト領域の候補を認識対象の手画像オブジェクト領域(認識オブジェクト出力データ)として出力する(ステップB9)。
【0056】
このようにして、本実施形態におけるパーソナルコンピュータ10(画像処理装置)では、カメラ21によって撮影された画像から検出された顔画像オブジェクト領域の色情報(色平均)を抽出し、この色情報を基準色データとして、同じ画像から抽出された手画像オブジェクト領域の候補の画像の色情報と比較することによって、認識対象のオブジェクトを出力する。従って、認識対象の個体差や撮影環境の変動などの不安定要因があったとしても、精度良く画像中の対象オブジェクトを認識することが可能となる。
【0057】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。
【0058】
また、前述した実施の形態において記載した処理は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリなどの記録媒体に書き込んで各種装置に提供することができる。また、通信媒体により伝送して各種装置に提供することも可能である。コンピュータは、記録媒体に記録されたプログラムを読み込み、または通信媒体を介してプログラムを受信し、このプログラムによって動作が制御されることにより、上述した処理を実行する。
【図面の簡単な説明】
【0059】
【図1】パーソナルコンピュータ10(画像処理装置)のディスプレイユニットを開いた状態における斜視図。
【図2】パーソナルコンピュータ10のシステム構成を示すブロック図。
【図3】ジェスチャ認識プログラム112c(画像処理プログラム)によって実現されるオブジェクト認識のための機能構成を示すブロック図。
【図4】本実施形態におけるオブジェクト認識処理の概略を示す図。
【図5】本実施形態における基準色データを設定するための基準色データ設定処理を説明するためのフローチャート。
【図6】本実施形態における基準色データを用いたフィルタリング処理を説明するためのフローチャート。
【図7】カメラ21によって撮影された画像の一例を示す図。
【図8】図7に示す画像から検出された顔画像オブジェクト領域Aと手画像オブジェクト領域Bを示す図。
【符号の説明】
【0060】
10…パーソナルコンピュータ、21…カメラ、30…画像変換部、31…オブジェクト認識エンジン、32(32a,32b)…オブジェクト辞書、33…色棄却部、34…色平均抽出部、35…フィルタリング部、36…色基準データ記憶部、112a…OS、112b…アプリケーションプログラム、112c…ジェスチャ認識プログラム、125…ビデオプロセッサ。

【特許請求の範囲】
【請求項1】
画像を撮影する撮影手段と、
前記撮影手段により撮影された画像から第1オブジェクト領域を検出する第1オブジェクト領域検出手段と、
前記第1オブジェクト領域の画像の色情報を抽出する第1色情報抽出手段と、
前記撮影手段により撮影された画像から認識対象とする第2オブジェクト領域の候補を検出する第2オブジェクト領域検出手段と、
前記第2オブジェクト領域の画像の色情報を抽出して基準色データを設定する第2色情報抽出手段と、
前記第2オブジェクト領域検出手段により検出された第2オブジェクト領域の候補のそれぞれについて、前記第2色情報抽出手段により設定された基準色データと前記第1色情報抽出手段により抽出された色情報とを比較し、この比較結果に基づいて前記第2オブジェクト領域の候補を選択する選択手段と、
前記選択手段により選択された前記第2オブジェクト領域の候補の何れかを認識対象のオブジェクトとして出力する出力手段と
を具備したことを特徴とする画像処理装置。
【請求項2】
前記第1色情報抽出手段は、前記色情報として前記第1オブジェクト領域における色平均を算出し、
前記第2色情報抽出手段は、前記色情報として前記第2オブジェクト領域における色平均を算出することを特徴とする請求項1記載の画像処理装置。
【請求項3】
前記第1オブジェクト領域検出手段及び前記第2オブジェクト領域検出手段は、前記撮影手段により撮影された画像に含まれるオブジェクトの形状をもとに前記第1及び第2のオブジェクト領域を検出することを特徴とする請求項2記載の画像処理装置。
【請求項4】
前記第1色情報抽出手段によって設定された基準色データを、前記画像撮影手段により撮影された複数枚の画像分記憶する基準色データ記憶手段をさらに具備し、
前記選択手段は、前記撮影手段により撮影された画像から前記第1オブジェクト領域が検出されなかった場合に、前記第2色情報抽出手段により抽出された色情報と、前記基準色データ記憶手段により記憶された直近の画像に対応する前記基準色データとを比較することを特徴とする請求項1記載の画像処理装置。
【請求項5】
前記第1オブジェクト領域検出手段は、前記画像から人物の顔画像に相当する領域を前記第1オブジェクト領域として検出し、
前記第2オブジェクト領域検出手段は、前記画像から人物の手画像に相当する領域を前記第2オブジェクト領域として検出することを特徴とする請求項3記載の画像処理装置。
【請求項6】
画像を撮影する撮影ステップと、
前記撮影ステップにより撮影された画像から第1オブジェクト領域を検出する第1オブジェクト領域検出ステップと、
前記第1オブジェクト領域の画像の色情報を抽出する第1色情報抽出ステップと、
前記撮影ステップにより撮影された画像から認識対象とする第2オブジェクト領域の候補を検出する第2オブジェクト領域検出ステップと、
前記第2オブジェクト領域の画像の色情報を抽出して基準色データを設定する第2色情報抽出ステップと、
前記第2オブジェクト領域検出ステップにより検出された第2オブジェクト領域の候補のそれぞれについて、前記第2色情報抽出ステップにより設定された基準色データと前記第1色情報抽出ステップにより抽出された色情報とを比較し、この比較結果に基づいて前記第2オブジェクト領域の候補を選択する選択ステップと、
前記選択ステップにより選択された前記第2オブジェクト領域の候補の何れかを認識対象のオブジェクトとして出力する出力ステップと
を具備したことを特徴とする画像処理方法。
【請求項7】
前記第1色情報抽出ステップは、前記色情報として前記第1オブジェクト領域における色平均を算出し、
前記第2色情報抽出ステップは、前記色情報として前記第2オブジェクト領域における色平均を算出することを特徴とする請求項6記載の画像処理方法。
【請求項8】
前記第1オブジェクト領域検出ステップ及び前記第2オブジェクト領域検出ステップは、前記撮影ステップにより撮影された画像に含まれるオブジェクトの形状をもとに前記第1及び第2のオブジェクト領域を検出することを特徴とする請求項7記載の画像処理方法。
【請求項9】
前記第1色情報抽出ステップによって設定された基準色データを、前記画像撮影ステップにより撮影された複数枚の画像分記憶する基準色データ記憶ステップをさらに具備し、
前記選択ステップは、前記撮影ステップにより撮影された画像から前記第1オブジェクト領域が検出されなかった場合に、前記第2色情報抽出ステップにより抽出された色情報と、前記基準色データ記憶ステップにより記憶された直近の画像に対応する前記基準色データとを比較することを特徴とする請求項6記載の画像処理方法。
【請求項10】
前記第1オブジェクト領域検出ステップは、前記画像から人物の顔画像に相当する領域を前記第1オブジェクト領域として検出し、
前記第2オブジェクト領域検出ステップは、前記画像から人物の手画像に相当する領域を前記第2オブジェクト領域として検出することを特徴とする請求項8記載の画像処理方法。
【請求項11】
コンピュータを、
画像を撮影する撮影手段と、
前記撮影手段により撮影された画像から第1オブジェクト領域を検出する第1オブジェクト領域検出手段と、
前記第1オブジェクト領域の画像の色情報を抽出する第1色情報抽出手段と、
前記撮影手段により撮影された画像から認識対象とする第2オブジェクト領域の候補を検出する第2オブジェクト領域検出手段と、
前記第2オブジェクト領域の画像の色情報を抽出して基準色データを設定する第2色情報抽出手段と、
前記第2オブジェクト領域検出手段により検出された第2オブジェクト領域の候補のそれぞれについて、前記第2色情報抽出手段により設定された基準色データと前記第1色情報抽出手段により抽出された色情報とを比較し、この比較結果に基づいて前記第2オブジェクト領域の候補を選択する選択手段と、
前記選択手段により選択された前記第2オブジェクト領域の候補の何れかを認識対象のオブジェクトとして出力する出力手段として機能させることを特徴とする画像処理プログラム。
【請求項12】
前記第1色情報抽出手段は、前記色情報として前記第1オブジェクト領域における色平均を算出し、
前記第2色情報抽出手段は、前記色情報として前記第2オブジェクト領域における色平均を算出することを特徴とする請求項11記載の画像処理プログラム。
【請求項13】
前記第1オブジェクト領域検出手段及び前記第2オブジェクト領域検出手段は、前記撮影手段により撮影された画像に含まれるオブジェクトの形状をもとに前記第1及び第2のオブジェクト領域を検出することを特徴とする請求項12記載の画像処理プログラム。
【請求項14】
前記第1色情報抽出手段によって設定された基準色データを、前記画像撮影手段により撮影された複数枚の画像分記憶する基準色データ記憶手段としてさらに機能させ、
前記選択手段は、前記撮影手段により撮影された画像から前記第1オブジェクト領域が検出されなかった場合に、前記第2色情報抽出手段により抽出された色情報と、前記基準色データ記憶手段により記憶された直近の画像に対応する前記基準色データとを比較することを特徴とする請求項11記載の画像処理プログラム。
【請求項15】
前記第1オブジェクト領域検出手段は、前記画像から人物の顔画像に相当する領域を前記第1オブジェクト領域として検出し、
前記第2オブジェクト領域検出手段は、前記画像から人物の手画像に相当する領域を前記第2オブジェクト領域として検出することを特徴とする請求項13記載の画像処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2009−288951(P2009−288951A)
【公開日】平成21年12月10日(2009.12.10)
【国際特許分類】
【出願番号】特願2008−139553(P2008−139553)
【出願日】平成20年5月28日(2008.5.28)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】