説明

画像処理装置およびそれを搭載した撮像装置、画像処理方法

【課題】オブジェクト検出技術を様々なアプリケーションに有効に利用したい。
【解決手段】符号化部24は動画像を符号化する。オブジェクト検出部は、動画像に含まれるピクチャ内からオブジェクトを検出し、同一ピクチャ内で検出されたオブジェクトの数を少なくとも含むオブジェクト検出情報をピクチャ単位で生成する。ストリーム生成部26は、符号化部24により生成された符号化データから符号化ストリームを生成する際、符号化ストリーム内の所定の領域にオブジェクト検出情報を記述する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、顔検出など、特定のオブジェクト検出を行うことができる画像処理装置およびそれを搭載した撮像装置、画像処理方法に関する。
【背景技術】
【0002】
デジタルビデオカメラが広く普及してきており、今まで以上に、一般ユーザが動画を手軽に撮影できるようになってきている。一般ユーザは、子供の運動会など人物を被写体とすることが多い。
【0003】
特許文献1は、人物の顔が最も良く写っている画像のみを高解像度で記録する技術を開示する。
【特許文献1】特開2006−254308号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
上記特許文献1に開示されているように、顔など特定のオブジェクトの検出技術は記録容量の最適化に利用されたり、また、オートフォーカス制御に利用されたりする。本発明者は、これらの用途以外で、オブジェクト検出技術を利用した有効な用途を見出した。
【0005】
本発明はこうした状況に鑑みなされたものであり、その総括的な目的は、オブジェクト検出技術を利用して有効なアプリケーションを実現することができる画像処理装置およびそれを搭載した撮像装置、画像処理方法を提供することにある。
【課題を解決するための手段】
【0006】
本発明のある態様の画像処理装置は、動画像を符号化する符号化部と、符号化部により生成された符号化データから符号化ストリームを生成するストリーム生成部と、動画像に含まれるピクチャ内から特定のオブジェクトを検出し、同一ピクチャ内で検出されたオブジェクトの数を少なくとも含むオブジェクト検出情報をピクチャ単位で生成するオブジェクト検出部と、を備える。ストリーム生成部は、符号化ストリーム内の所定の領域にオブジェクト検出情報を記述する。
【発明の効果】
【0007】
本発明によれば、オブジェクト検出技術を利用して、有効なアプリケーションを実現することができる。
【発明を実施するための最良の形態】
【0008】
まず、本発明を詳細に説明する前に、代表的な実施態様について説明する。
本発明のある態様の画像処理装置は、動画像を符号化する符号化部と、符号化部により生成された符号化データから符号化ストリームを生成するストリーム生成部と、動画像に含まれるピクチャ内から特定のオブジェクトを検出し、同一ピクチャ内で検出されたオブジェクトの数を少なくとも含むオブジェクト検出情報をピクチャ単位で生成するオブジェクト検出部と、を備える。ストリーム生成部は、符号化ストリーム内の所定の領域にオブジェクト検出情報を記述する。「ピクチャ」は符号化の単位であり、その概念にはフレーム、フィールド、VOP(Video Object Plane)などが含まれてもよい。「特定のオブジェクト」は、人間の顔であってもよいし、人間以外の動物の顔であってもよいし、自動車などの物体であってもよい。
【0009】
この態様によると、オブジェクト検出情報を符号化ストリーム内に記述することにより、このオブジェクト検出情報を利用して、検索処理などの有効なアプリケーションを実現することができる。
【0010】
オブジェクト検出部は、オブジェクトの数に加えて、オブジェクトの大きさ、オブジェクトの位置、オブジェクトの超解像処理用の、冗長データの有無、ユーザ登録されているオブジェクトの検出の有無、および検出したオブジェクトの確からしさのうち、少なくとも一つをオブジェクト検出情報に含めてもよい。ユーザ登録されているオブジェクトとして、たとえば特定人物の顔やペットの顔などが該当する。
【0011】
上述した特定のオブジェクトが顔の場合、オブジェクト検出部は、オブジェクトとして検出した顔の数を、正面顔の数と側面顔の数に分けてオブジェクト検出情報に含めてもよい。ここで、顔を人の顔と設定する場合、人の顔であれば誰の顔であれ一つとカウントされる。
【0012】
上述した特定のオブジェクトが顔の場合、オブジェクト検出部は、オブジェクトとして検出した顔の数に加えて、オブジェクトとして検出した顔の笑顔度をオブジェクト検出情報に含めてもよい。
【0013】
ストリーム生成部は、オブジェクト検出情報を、符号化ストリーム内の対応するピクチャのヘッダ領域またはユーザの書き込みが許可されている領域に記述してもよい。ストリーム生成部は、オブジェクト検出情報に含まれるオブジェクトの数が変化したとき、そのオブジェクト検出情報を対応するピクチャのヘッダ領域またはユーザの書き込みが許可されている領域に記述し、オブジェクト検出情報に含まれるオブジェクトの数が変化しないとき、そのオブジェクト検出情報の記述処理をスキップしてもよい。これによると、オブジェクト検出情報の付加に必要な容量を低減することができる。
【0014】
本発明の別の態様もまた、画像処理装置である。この装置は、動画像を符号化する符号化部と、動画像に含まれるピクチャ内から特定のオブジェクトを検出し、同一ピクチャ内で検出されたオブジェクトの数を少なくとも含むオブジェクト検出情報をピクチャ単位で生成するオブジェクト検出部と、符号化部により生成された符号化データから動画像ファイルを生成し、その動画像ファイルと別に、オブジェクト検出部により生成されたオブジェクト検出情報からオブジェクト検出情報ファイルを生成するファイル生成部と、を備える。
【0015】
この態様によると、オブジェクト検出情報ファイルを生成することにより、このファイルを利用して、検索処理などの有効なアプリケーションを実現することができる。
【0016】
本発明のさらに別の態様は、撮像装置である。この装置は、動画像を撮像する撮像素子と、撮像素子により撮像された動画像を処理する、上述したいずれかの態様の画像処理装置と、を備える。
【0017】
この態様によると、検索処理などの有効なアプリケーションを実現することができる撮像装置を構築することができる。
【0018】
上述した画像処理装置により処理された動画像を表示する表示部と、動画像に含まれるピクチャと、そのピクチャに対応するオブジェクト検出情報を関連付けて表示部に表示させる制御部と、をさらに備えてもよい。制御部は、表示させるべきピクチャと、そのピクチャに対応するオブジェクト検出数を関連付けて表示させてもよい。これによると、ユーザの検索作業を支援することができる。
【0019】
オブジェクト検出情報を参照して、指定された条件を満たすピクチャを検索する制御部をさらに備えてもよい。これによると、検索効率を向上させることができる。
【0020】
本発明の別の態様もまた、画像処理装置である。この装置は、符号化された動画像を復号して表示する画像処理装置であって、ピクチャ単位で生成され、動画像に含まれるピクチャ内で検出された特定のオブジェクトに関するオブジェクト検出情報を取得し、そのオブジェクト検出情報をもとに動画像の時間軸上でオブジェクトが含まれるピクチャを識別可能な表示を生成する制御部と、制御部により生成された表示を画面内に表示する表示部と、を備える。オブジェクト検出情報は、動画像が符号化または復号化される際に生成されてもよい。
【0021】
オブジェクト検出情報には、同一ピクチャ内で検出されたオブジェクトの数、オブジェクトの大きさ、オブジェクトの位置、オブジェクトの超解像処理用の、冗長データの有無、オブジェクト(顔に設定される場合)の笑顔度、ユーザ登録されているオブジェクトの検出の有無、および検出したオブジェクトの確からしさのうち、少なくとも一つが含まれる。
【0022】
オブジェクト検出情報に、同一ピクチャ内で検出されたオブジェクトの数が含まれる場合、制御部は、動画像の時間軸上でオブジェクトの数が変化する位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトの数が変化する位置にインデックスを表示してもよい。また、インデックスの近傍にオブジェクトの数を表示してもよい。オブジェクトが人物の場合で、正面顔と側面顔の数が別々に記録されている場合、正面顔および側面顔のそれぞれについて当該インデックスと顔の数を表示してもよい。
【0023】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの大きさが含まれる場合、制御部は、動画像の時間軸上でオブジェクトの大きさが所定の設定値より大きいピクチャの位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトの大きさが所定の設定値より大きいピクチャの位置にインデックスを表示してもよい。所定の設定値はユーザにより調整されてもよい。
【0024】
オブジェクト検出情報に、ユーザ登録されているオブジェクトのピクチャ内での検出の有無が含まれる場合、制御部は、動画像の時間軸上でユーザ登録されているオブジェクトが検出された位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトが検出された位置にインデックスを表示してもよい。
【0025】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの超解像処理用の、冗長データの有無が含まれる場合、制御部は、動画像の時間軸上でその冗長データを用いた超解像処理が可能なピクチャの位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、上記冗長データを用いた超解像処理が可能なピクチャの位置にインデックスを表示してもよい。また、その冗長データを用いた超解像処理が可能なピクチャが続く場合、その部分を当該バー上において他の部分と異なる色や模様で表示してもよい。
【0026】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの位置が含まれる場合、制御部は、動画像の時間軸上でオブジェクトの位置が所定の領域(たとえば、画面内の中央領域)に含まれるピクチャの位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトの位置が所定の領域に含まれるピクチャの位置にインデックスを表示してもよい。所定の領域はユーザにより調整されてもよい。
【0027】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの笑顔度が含まれる場合、制御部は、動画像の時間軸上でオブジェクトの笑顔度が所定の設定値より大きいピクチャの位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトの笑顔度が所定の設定値より大きいピクチャの位置にインデックスを表示してもよい。所定の設定値はユーザにより調整されてもよい。
【0028】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの確からしさが含まれる場合、制御部は、動画像の時間軸上でオブジェクトの確からしさが所定の設定値より大きいピクチャの位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトの確からしさが所定の設定値より大きいピクチャの位置にインデックスを表示してもよい。所定の設定値はユーザにより調整されてもよい。
【0029】
これらの態様によれば、ユーザは視聴したい画像を簡単に検索することができる。上記インデクックスが選択されるとそのピクチャの位置にジャンプするように設計すれば、ユーザはそのインデクックスを選択することにより視聴したい画像に簡単に到達することができる。
【0030】
本発明の別の態様もまた、画像処理装置である。この装置は、符号化された動画像を復号して表示する画像処理装置であって、ピクチャ単位で生成され、動画像に含まれるピクチャ内で検出された特定のオブジェクトに関するオブジェクト検出情報を取得し、そのオブジェクト検出情報をもとに動画像のダイジェストを生成する制御部と、制御部により生成されたダイジェストを再生表示する表示部と、を備える。
【0031】
オブジェクト検出情報には、同一ピクチャ内で検出されたオブジェクトの数、オブジェクトの大きさ、オブジェクトの位置、オブジェクトの超解像処理用の、冗長データの有無、オブジェクト(顔に設定される場合)の笑顔度、ユーザ登録されているオブジェクトの検出の有無、および検出したオブジェクトの確からしさのうち、少なくとも一つが含まれる。
【0032】
オブジェクト検出情報に、同一ピクチャ内で検出されたオブジェクトの数が含まれる場合、制御部は、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、オブジェクトの数が多いピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。たとえば、1/2に設定されれば、動画像全体の再生時間の、半分の再生時間の動画ダイジェストが生成される。
【0033】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの大きさが含まれる場合、制御部は、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、オブジェクトの大きさが大きいピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。
【0034】
オブジェクト検出情報に、ユーザ登録されているオブジェクトのピクチャ内での検出の有無が含まれる場合、制御部は、動画像からオブジェクトが検出されたピクチャを抽出し、それらのピクチャをつなげて動画ダイジェストを生成してもよい。
【0035】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの超解像処理用の、冗長データの有無が含まれる場合、制御部は、動画像からその冗長データを用いた超解像処理が可能なピクチャを抽出し、それらのピクチャを超解像処理した後、つなげて動画ダイジェストを生成してもよい。
【0036】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの位置が含まれる場合、制御部は、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、オブジェクトの位置が画面内の所定位置に近いピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。所定位置は画面内の中央であってもよい。
【0037】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの位置が含まれる場合、制御部は、隣接するピクチャ間のオブジェクトの位置の差分をオブジェクトの動きとして特定し、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、前のピクチャとの比較においてオブジェクトの動きが大きいピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。
【0038】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの笑顔度が含まれる場合、制御部は、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、動画像からオブジェクトの笑顔度が高いピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。
【0039】
オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの確からしさが含まれる場合、制御部は、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、動画像からオブジェクトの確からしさが高いピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。
【0040】
なお、オブジェクト検出情報に含まれる複数のパラメータで生成される各ダイジェストをAND条件またはOR条件で論理演算した後のダイジェストを最終的なダイジェストとしてもよい。なお、上記比率はパラメータごとに異なるものを用いることができる。
【0041】
これらの態様によれば、ユーザは視聴したい画像を含むダイジェストを簡単に生成することができる。また、種々のカスタマイズが可能であり、ユーザの趣向を反映させたダイジェストを簡単に生成することができる。
【0042】
本発明のさらに別の態様は、画像処理方法である。この方法は、動画像を符号化して符号化ストリームを生成するとき、動画像に含まれるピクチャ内から特定のオブジェクトを検出し、それをもとにオブジェクト検出情報をピクチャ単位で生成し、そのオブジェクト検出情報を符号化ストリーム内に、または符号化ストリームに関連付けて記録する。
【0043】
この態様によると、オブジェクト検出情報を利用して、検索処理などの有効なアプリケーションを実現することができる。
【0044】
本発明のさらに別の態様もまた、画像処理方法である。この方法は、ピクチャ単位で特定されたオブジェクト検出情報を利用して、動画像から所定の条件を満たしたピクチャを検索する。オブジェクト検出情報にはオブジェクト検出数が含まれ、当該オブジェクト検出数と、指定されたオブジェクトの数が対応したピクチャを検索してもよい。
【0045】
この態様によると、オブジェクト検出情報を利用して検索することにより、検索効率を向上させることができる。
【0046】
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【0047】
以下、実施の形態において、特定のオブジェクトとして人物の顔を検出する技術を利用した例を説明する。なお、検出対象は人間の顔に限定されるものではなく、犬や猫などのペットの顔や、自動車、電車および船舶などの物体などにも適用可能である。
図1は、実施の形態1に係る撮像装置100の構成図である。実施の形態1に係る撮像装置100は、撮像部10、信号処理部12、画像処理部20、制御部14、顔登録部15、操作部16、表示部17および記録部18を備える。画像処理部20は、顔検出部22、符号化部24、ストリーム生成部26および復号部28を含む。画像処理部20の構成は、ハードウェア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウェア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。
【0048】
撮像部10は、CCD(Charge Coupled Devices)センサやCMOS(Complementary Metal-Oxide Semiconductor)イメージセンサなどの撮像素子を備え、撮像素子で撮像した画像を電気信号に変換し、信号処理部12に出力する。
【0049】
信号処理部12は、撮像部10から出力されたRGBフォーマットのアナログ信号を、YUVフォーマットのデジタル信号に変換する。信号処理部12は、変換後の画像信号を顔検出部22および符号化部24にフレーム単位で並列に出力する。
【0050】
顔検出部22は、信号処理部12から入力される画像内から人物の顔を検出する。顔検出は、公知の方法で行えばよく、とくに限定されるものではない。たとえば、エッジ検出法、ブースティング法、色相抽出法または肌色抽出法による顔検出方法を用いることができる。
【0051】
エッジ検出法は、あらかじめ顔の大きさや濃淡値を正規化した顔画像の目、鼻、口、顔の輪郭などを含む顔領域から様々なエッジ特徴を抽出し、顔であるか否かを識別するのに有効な特徴量を統計的手法に基づき学習することにより顔識別器を構築する。
【0052】
入力画像の中から顔を検出するために、学習の際に正規化した顔サイズで入力画像の端からラスタスキャンしながら、同様な特徴量を抽出する。その特徴量から、識別器によりその領域が顔か否か判断する。特徴量には、例えば、水平エッジ、垂直エッジ、右斜めエッジ、左斜めエッジなどを用いることができる。顔が検出されなければ、入力画像を一定の割合で縮小し、縮小後の画像に対して、上記と同様にラスタスキャンしながら顔を検索する。このような処理を繰り返すことにより、画像中から任意の大きさの顔を見つけることができる。
【0053】
また、エッジ検出法より精度は低くなるが高速処理したい場合、ブースティング法を用いてもよい。ブースティング法は、エッジを用いずに、目鼻などの顔の陰影をあらかじめ登録された顔検出パターンの陰影と比較することにより、画像中から顔を検出する。
【0054】
その他の顔検出方法として以下のような方法を用いてもよい。顔候補領域を抽出して、この顔候補領域を小領域に分割して、各領域の特徴量を予め設定した顔領域パターンと照合して、その確度から顔領域を抽出する方法、もしくは顔候補領域を抽出して、各候補領域の重複度から確度を評価して顔領域を抽出する方法を用いてもよい。さらに、顔候補領域を抽出して、各候補領域の濃度が所定の閾値に対応する値である場合に、胴体候補領域を抽出し、顔および胴体候補領域の濃度または彩度コントラストを用いて確度を評価して、顔領域を抽出する方法を用いてもよい。
【0055】
顔検出部22は、各フレーム内から一つ以上の顔を検出すると、その検出した顔の数と、その顔が検出されたフレームの識別情報を顔検出情報としてストリーム生成部26に出力する。また、検出した位置も顔検出情報に含めてもよい。なお、顔検出処理は、すべてのフレームに対して行ってもよいし、数フレームおきに行ってもよい。
【0056】
顔検出部22は、正面顔と側面顔を分類して検出することができる。辞書登録データとして、両目が写った状態の正面顔のパターンと、片目しか写っていない状態の側面顔のパターンとがあらかじめ登録されていれば分類可能である。
【0057】
また、顔検出部22は、ユーザによってあらかじめ登録されたユーザ登録パターンを各フレーム内に検出した場合、その情報をストリーム生成部26に出力するとともに、フレーム内におけるユーザ登録パターンの位置を符号化部24に出力する。
【0058】
符号化部24は、信号処理部12から入力される画像信号を、所定の規格に準拠し圧縮符号化する。たとえば、国際標準化機関であるISO(International Organization for Standardization)/IEC(International Electrotechnical Commission)によって標準化されたMPEGシリーズの規格(MPEG−1、MPEG−2およびMPEG−4)、電気通信に関する国際標準機関であるITU−T(International Telecommunication Union-Telecommunication Standardization Sector)によって標準化されたH.26xシリーズの規格(H.261、H.262およびH.263)、もしくは両方の標準化機関によって合同で標準化された動画像圧縮符号化標準規格であるH.264/AVC(両機関における正式勧告名はそれぞれMPEG-4 Part 10: Advanced Video CodingとH.264)に準拠して動画像の符号化を行う。符号化部24は、圧縮符号化した画像信号をストリーム生成部26に出力する。
【0059】
符号化部24は、顔検出部22によりユーザ登録パターンが検出された場合、顔検出部22から入力される位置情報を参照して、そのユーザ登録パターンをフレーム内にて追従する。なお、符号化部24には、記録すべき画素数の画素領域より大きな画素領域を持つ画像信号が入力されてもよい。この画素領域の余剰領域は、手振れ補正用に利用される領域であってもよい。この場合、符号化部24は、上記ユーザ登録パターンが記録用の画素領域からはみ出すと、そのユーザ登録パターンが記録用の画素領域に含まれるよう、上記余剰領域を使用して、記録用の画素領域を移動させる。なお、移動させても上記ユーザ登録パターンがはみ出してしまう場合、ユーザ登録パターンを構成する画素が最も多く含まれるように、記録用の画素領域を移動させる。
【0060】
ストリーム生成部26は、符号化部24から入力されるMPEG形式の符号化データに、顔検出部22から入力される顔検出情報を重畳して、符号化ストリームを生成する。たとえば、各フレームのヘッダ領域や、ヘッダ領域の後に設定される機能拡張情報やコメントなどを記述するための領域などに、対応するフレームの顔検出情報を記述する。また、フレーム単位ではなく、ストリーム、シーケンス、GOPのヘッダ領域などにまとめて記述してもよい。また、スライス、マクロブロック単位で記述してもよい。
【0061】
また、ストリーム生成部26は、顔検出情報をフレームごとに特定するのではなく、顔検出情報に変化があった場合に、その情報をもとに記述すべき内容を決定してもよい。たとえば、顔を検出した最初のフレームにその顔検出数を記述した後、その顔検出数が変化しない期間のフレームについては、顔検出情報を記述しない。顔検出数が変化したフレームが出現したら、そのフレームにその顔検出数を記述する。以下同様に処理する。このような処理によれば、すべてのフレームについて顔検出情報を特定して、いずれかの領域に記述する場合より、データ容量を削減することができる。
【0062】
ストリーム生成部26は、ビデオストリームとオーディオストリームを同期させて多重化し、MPEG−2プログラムストリームまたはMPFG−2トランスポートストリームを生成し、制御部14に出力する。
【0063】
顔登録部15は、顔検出部22で特別な顔パターンとして認識されるべき、上述したユーザ登録パターンを、制御部14を介して顔検出部22に登録する。たとえば、撮像部10を用いて、子供の顔を撮像して登録することができる。操作部16は、シャッターボタンなどの各種ボタンを含む。ユーザは、操作部16を操作することにより、後述する検索条件などを制御部14に指定することができる。
【0064】
表示部17は、撮像中の画像や、記録部18に記録された画像を表示したり、各種の設定画面や各種のステータス情報などを表示する。本実施の形態では、後述するように、撮像中の動画像や再生中の動画像の画面に、顔の数などの顔検出情報を関連付けて表示する。記録部18は、メモリーカードスロット、光ディスク、またはHDDを備え、撮像された画像などを記録媒体に記録する。
【0065】
制御部14は、撮像装置100全体を制御する。本実施の形態では、主に以下の処理を行う。撮像中の動画像や再生中の動画像を表示部17に表示させる際、表示させるべき符号化ストリームを復号部28に渡して、復号する。そのとき、復号部28で抽出された顔検出情報を解読して、表示させるべき画像にその顔検出情報を付加して表示させる。
【0066】
また、再生された動画像からユーザが選択したフレームを静止画ファイルとして抽出する機能を搭載している場合、そのフレームがフレーム間符号化されたフレームである場合、そのフレームの参照フレームをすべて抽出し、たとえば、JPEG(Joint Photographic Expert Group)ファイルとして再構築する。
【0067】
次に、本実施の形態に係る撮像装置100における顔検出情報の利用方法について説明する。まず、基本的な検索方法や表示方法について説明する。
【0068】
図2(a)は、所定の検索条件を満たしたフレームの位置を検索する例である。制御部14は、表示部17に動画像を表示する際、時間経過を示す時間経過バー32を、動画像の表示欄30の下に合わせて表示する。図2の例では、動画像の表示欄30には、時間経過バー32の一番右端の状態、すなわち時間的に最も先行する画像が表示されている。時間経過バー32の下に表示させる矢印33は、所定の検索条件を満たしたフレームの位置を示すインデックス表示である。たとえば、所定の検索条件として、顔の数に変化があったフレームや、上記ユーザ登録パターンが検出されたフレームを検索するよう、指定することができる。図2(a)は、顔の数に変化があったフレームの位置を検索するよう指定された例を示しており、時間経過と共に、顔の数が三回変化したことを示す。
【0069】
図2(b)は、画像内の顔の数を単純に表示する例である。時間経過バー32の下に表示させる第1数値表記34は、各フレームで検出される顔の数を示す。図2(b)の例では、時間経過と共に、顔の数が、2→3→2と遷移し、現在は2を維持している状態である。
【0070】
図2(c)は、画像内の顔の数を正面顔と側面顔に分類して表示する例である。時間経過バー32の直下に表示させる第2数値表記35は、各フレームで検出された正面顔の数を示す。第2数値表記35の下に表示させる第3数値表記36は、各フレームで検出された側面顔の数を示す。図2(c)の例では、時間経過と共に、正面顔の数が、2→3→2と遷移し、現在は2を維持している状態である。側面顔の数が、0→1→0と遷移し、現在は0を維持している状態である。なお、顔の数の合計と、側面顔の数を表示してもよいし、正面顔の数、側面顔の数およびそれらの合計をすべて表示してもよい。
【0071】
以下、顔検出情報の表示方法についてより具体的な例で説明する。
図3は、実施の形態1に係る撮像装置100における表示例1を示す。図3は、動画像のコマ送り表示画面を示す。この動画像は、時間経過順に、第1画像40→第2画像42→第3画像44と遷移していく。上述したように、時間経過バー32の直下に表示させる第2数値表記35は、各フレームで検出される正面顔の数を示す。第4数値表記37は、ユーザ登録パターンの検出数を示す。
【0072】
第1画像40では、二人の人物A、Bが写っており、ユーザ登録パターンで特定される人物Cが写っていないため、第2数値表記35が2、第4数値表記37が0と表示される。第2画像42では、ユーザ登録パターンで特定される人物Cが入ってきたため、第2数値表記35が3、第4数値表記37が1と表示される。第3画像44では、人物Aが横を向いたため、第2数値表記35が2、第4数値表記37が1と表示される。
【0073】
図4は、実施の形態1に係る撮像装置100における表示例2を示す。表示例1と同様に、第1画像40では、二人の人物A、Bが写っており、ユーザ登録パターンで特定される人物Cが写っていないため、第2数値表記35が2、第4数値表記37が0と表示される。第2画像42では、ユーザ登録パターンで特定される人物Cが入ってきたため、第2数値表記35が3、第4数値表記37が1と表示される。
【0074】
点線で囲まれた画素領域を持つ第3画像44では、人物Cの右半身の一部が切れている。人物Cの顔がユーザ登録パターンに該当する場合、符号化部24は、顔検出部22から人物Cの顔の位置情報を受けて、人物Cの顔を追尾する。符号化部24は、人物Cの顔が記録用の画素領域内に入るように、記録用の画素領域を右に移動させる。第4画像46は、移動された後の画素領域を持つ画像である。実際に記録され、表示される画像は、第3画像44ではなく、第4画像46となる。第4画像46では、人物Aが横を向き、人物Cが依然として画像内に存在するため、第2数値表記35が2、第4数値表記37が1と表示される。
【0075】
図5は、実施の形態1に係る撮像装置100における表示例3を示す。表示例1と同様に、第1画像40では、二人の人物A、Bが写っており、ユーザ登録パターンで特定される人物Cが写っていないため、第2数値表記35が2、第4数値表記37が0と表示される。第2画像42では、ユーザ登録パターンで特定される人物Cが入ってきたため、第2数値表記35が3、第4数値表記37が1と表示される。第3画像44では、人物Aが横を向いたため、第2数値表記35が2、第4数値表記37が1と表示される。
【0076】
ユーザは、操作部16から検索条件を指定することにより、当該動画像内から所定の条件を満たしたフレームまたはシーンを検索することができる。図5は、正面顔の数が3を超えるフレームまたはシーンを検索するよう、指定された例である。時間経過バー32の斜線で表記された期間39が当該検索条件を満たす期間である。
【0077】
以上説明したように本実施の形態によれば、顔検出情報を利用して有効なアプリケーションを実現することができる。すなわち、顔検出数を利用することにより、検索効率を向上させることができる。たとえば、ユーザが動画像中から三人で集合しているシーンを検索したい場合、顔が三つ検出されたフレームを検索するよう条件を指定することにより、そのシーンの開始位置を容易に検索することができる。また、ユーザが自分の子供の顔をユーザ登録パターンとしてあらかじめ登録した場合、そのユーザ登録パターンを含むフレームを検索するよう条件を指定することにより、目的とする子供の顔が写ったフレームを容易に検索することができる。とくに、このような検索機能は、動画像中からベストショットを抽出して、静止画像を生成する際に有効である。また、動画像を再生する際の頭出しや、編集作業にも有効である。
【0078】
また、表示部17に画像を表示させる際、顔の数も表示させることにより、検索作業を支援することができる。電子機器の取り扱いに不慣れなユーザでも、時間経過バー32に関連付けて表示されている顔の数にもとづいて、検索すべきフレームまたはシーンの位置を直感的に実感することができる。すなわち、検索条件の入力などの煩雑な操作をしなくても、所望のフレームやシーンを容易に検索することができる。
【0079】
図6は、実施の形態2に係る撮像装置110の構成図である。実施の形態2に係る撮像装置110は、実施の形態1と比較して、顔検出情報の記述方法が異なる。実施の形態2に係る撮像装置110の構成は、画像処理部20を除いて実施の形態1に係る撮像装置100の構成と同じである。
【0080】
実施の形態2に係る画像処理部20は、顔検出部22、符号化部24、顔検出情報ファイル生成部25、動画像ファイル生成部27および復号部28を備える。ストリーム生成部26は設けられない。顔検出情報ファイル生成部25は、顔検出部22で検出された顔検出情報をテーブル化して一つまたは複数の顔検出情報ファイルを生成する。たとえば、フレームの識別番号と、フレームごとの顔検出数をテーブル化してもよい。動画像ファイル生成部27は、符号化部24で生成された符号化データから、MPEGファイルなどの動画像ファイルを生成する。この動画像ファイルと上記顔検出情報ファイルは、制御部14を介して記録部18に記録される。さらに、この動画像ファイルと上記顔検出情報ファイルは、一つのファイルに結合されて記録されてもよい。
【0081】
以上説明したように実施の形態2によれば、実施の形態1と同様の効果を奏する。加えて、顔検出情報を別ファイルとして生成するため、撮像装置110から後述する画像再生装置200に上記動画像ファイルを有線または無線伝送路を介して送信する場合、必要なフレームやシーンのみを通信することができ、伝送容量を削減することができる。すなわち、画像再生装置200は、上記顔検出情報ファイルを先に受信し、その顔検出情報ファイルに記録されたテーブルを表示することができる。ユーザは、そのテーブルを参照して、所望の検索条件に該当するフレームまたはシーンを特定することができ、画像再生装置200は、そのフレームまたはシーンのみを撮像装置110からダウンロードすることができる。
【0082】
図7は、実施の形態3に係る画像再生装置200の構成図である。実施の形態3に係る画像再生装置200は、PC、DVDなどの光ディスクドライブやHDDを搭載したプレーヤ、セットトップボックスなど動画像ファイルを再生する機能を持つ機器であればよい。実施の形態3に係る画像再生装置200は、画像処理部60、制御部54、操作部56、表示部57および記録部58を備える。画像処理部60は、顔検出部62、符号化部64、ストリーム生成部66および復号部68を含む。
【0083】
復号部68は、上述した撮像装置100、110で生成された顔検出情報が付加された符号化ストリームを復号する。制御部54は、復号された顔検出情報をもとに、上述したような検索や表示を行う。
【0084】
本実施の形態にて、顔検出情報が付加された符号化ストリームを復号して再生する処理を単純に行う場合、顔検出部62、符号化部64およびストリーム生成部66は必要ない。顔検出部62、符号化部64およびストリーム生成部66を設けた場合、画像処理部60は、一般的な動画像符号化ストリームから顔検出情報が付加された符号化ストリームを生成することができる。すなわち、復号部68は一般的な動画像符号化ストリームを復号して、顔検出部62および符号化部64に供給する。顔検出部62、符号化部64およびストリーム生成部66は、実施の形態1の処理と同様に、顔検出情報が付加された符号化ストリームを生成する。
【0085】
以上説明したように本実施の形態によれば、顔検出情報を利用して有効なアプリケーションを実現することができる。すなわち、顔検出数を利用することにより、検索効率を向上させることができる。また、一般的な動画像符号化ストリームを顔検出情報が付加された符号化ストリームに再構築することにより、検索性に優れた符号化ストリームを生成することができる。
【0086】
以上、本発明をいくつかの実施形態をもとに説明した。これらの実施形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0087】
上述した実施の形態では、顔検出部22、62は顔検出情報として顔検出数を用いたが、それ以外の様々なパラメータを用いることができる。たとえば、顔の大きさ、顔の位置、笑顔度、超解像処理用の冗長データの有無、および検出した顔の確からしさを用いることができる。これらのすべてを用いてもよいし、一部を用いてもよい。
【0088】
図8は、実施の形態1、2に係る撮像装置100、110にて撮像された画像から、複数のパラメータを含む顔検出情報を生成する場合の一例を示す。顔検出部22、62は、第1画像70、第2画像72、第3画像74のそれぞれにおいて、顔検出数、顔の大きさ、顔の位置、笑顔度、超解像処理用の冗長データの有無、および検出した顔の確からしさを特定して、画像ごとの顔検出情報を生成する。
【0089】
顔検出部22、62は、顔検出数を正面顔と側面顔に分けて特定する。顔検出部22、62は、顔の大きさ、顔の位置、笑顔度、超解像処理用の冗長データの有無、および検出した顔の確からしさを同一画像内で検出された顔ごとに特定する。図8では、顔検出部22、62は、顔の大きさを顔検出枠の長さおよび幅で特定する。顔検出部22、62は、顔の位置を顔検出枠の所定位置、たとえば中心点で特定する。顔検出部22、62は、たとえば笑顔度をつぎのように特定する。顔検出部22、62は、あらかじめ異なる笑顔度ごとに登録された辞書データと検出した顔とを照合し、最も照合度の高い辞書データの笑顔度に特定する。顔検出部22、62は、たとえば検出した顔の確からしさをつぎのように特定する。顔検出部22、62は、登録されている辞書データと検出した顔とを照合した際の、その照合度を顔の確からしさとすることができる。
【0090】
超解像処理は、位置ずれのある複数の低解像度画像から高解像度画像を生成する技術である。超解像度処理のアルゴリズムは一般的なものを使用することができる。符号化部24は、顔およびその周辺領域を含む領域(以下、顔検出領域という)を超解像処理するために、その顔検出領域の冗長データを符号化する。たとえば、時間方向に冗長データを持たせる場合、撮像部10に高フレームレートで撮像させ、顔検出領域については高フレームレートで符号化し、他の領域については通常のフレームレートで符号化する。顔検出領域が他の領域より冗長的に持つフレームを、位置ずれのある複数の低解像度画像として使用することができる。顔検出部22は、それぞれの顔についてこのような冗長データが符号化部24により付加されたか否かを特定する。
【0091】
上述した実施の形態では、顔検出情報としての顔検出数を時間経過バー32の下に表示し、顔検出情報を検索ツールとして利用する例を説明した。以下の変形例では顔検出情報を動画ダイジェストを生成するために利用する例を説明する。
【0092】
図9は、実施の形態1、2に係る撮像装置100、110の表示部17または実施の形態3に係る画像再生装置200の表示部57に表示される操作画面80の一例を示す。この操作画面80には、再生キー82、ダイジェスト再生キー84、削除キー86、戻るキー88およびダイジェスト設定キー90が表示される。
【0093】
図10は、実施の形態1、2に係る撮像装置100、110の表示部17または実施の形態3に係る画像再生装置200の表示部57に表示されるダイジェスト設定画面90aの一例を示す。このダイジェスト設定画面90aは、ユーザが操作部16、56を操作することにより操作画面80内のダイジェスト設定キー90が選択されると出現する。
【0094】
このダイジェスト設定画面90aには、抽出条件91を選択するためのキーとして、人数キー92、大きさキー93、超解像キー94、中央位置キー95、笑顔キー96、確度キー97、動きキー98が表示される。それに加えて圧縮率99として圧縮率設定ゲージ99a、および戻るキー89が表示される。
【0095】
抽出条件91は、制御部14、54が動画像から動画ダイジェストを生成する際に参照される。
人数キー92が選択された場合、制御部14、54は、圧縮率設定ゲージ99aで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、顔の数が多いピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。たとえば、圧縮率が1/2に設定されれば、制御部14、54は、動画像全体の再生時間の、半分の再生時間の動画ダイジェストを生成する。
【0096】
また、大きさキー93が選択された場合、制御部14、54は、圧縮率設定ゲージ99aで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、顔の大きさが大きいピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。また、超解像キー94が選択された場合、制御部14、54は、符号化時に付加された冗長データを用いた超解像処理が可能なピクチャを動画像から抽出し、それらのピクチャを超解像処理した後、つなげて動画ダイジェストを生成する。
【0097】
また、中央位置キー95が選択された場合、制御部14、54は、圧縮率設定ゲージ99aで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、顔の位置が画面内の中央位置に近いピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。また、笑顔キー96が選択された場合、制御部14、54は、圧縮率設定ゲージ99aで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、動画像から笑顔度が高いピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。
【0098】
また、確度キー97が選択された場合、制御部14、54は、圧縮率設定ゲージ99aで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、動画像から顔の確からしさが高いピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。また、動きキー98が選択された場合、制御部14、54は、隣接するピクチャ間の顔の位置の差分を顔の動きとして特定する。そして、圧縮率設定ゲージ99aで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、前のピクチャとの比較において顔の動きが大きいピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。
【0099】
ユーザが操作部16、56を操作することにより操作画面80内のダイジェスト再生キー84が選択されると、制御部14、54は、上記のように設定された設定条件にしたがい動画ダイジェストを生成し、表示部17、57に表示させる。
【0100】
なお、複数の抽出条件91で生成される各動画ダイジェストをAND条件またはOR条件で論理演算した後のダイジェスト画像を最終的な動画ダイジェストとしてもよい。なお、上記圧縮率は抽出条件91ごとに異なるものを用いることができる。
【0101】
上述した実施の形態では、顔の検出対象として人物の顔を想定したが、犬や猫など動物の顔でもよい。それぞれ、犬用の顔識別器、猫用の顔識別器を構築すれば人物の顔の場合と同様の原理で実施可能である。
【図面の簡単な説明】
【0102】
【図1】実施の形態1に係る撮像装置の構成図である。
【図2】図2(a)は所定の検索条件を満たしたフレームの位置を検索する例である。図2(b)は画像内の顔の数を単純に表示する例である。図2(c)は画像内の顔の数を正面顔と側面顔に分類して表示する例である。
【図3】実施の形態1に係る撮像装置における表示例1を示す図である。
【図4】実施の形態1に係る撮像装置における表示例2を示す図である。
【図5】実施の形態1に係る撮像装置における表示例3を示す図である。
【図6】実施の形態2に係る撮像装置の構成図である。
【図7】実施の形態3に係る画像再生装置の構成図である。
【図8】実施の形態1、2に係る撮像装置にて撮像された画像から、種々のパラメータで顔検出情報を生成する場合の一例を示す。
【図9】実施の形態1、2に係る撮像装置の表示部または実施の形態3に係る画像再生装置の表示部に表示される操作画面の一例を示す。
【図10】実施の形態1、2に係る撮像装置の表示部または実施の形態3に係る画像再生装置の表示部に表示されるダイジェスト設定画面の一例を示す。
【符号の説明】
【0103】
10 撮像部、 12 信号処理部、 14 制御部、 15 顔登録部、 16 操作部、 17 表示部、 18 記録部、 20 画像処理部、 22 顔検出部、 24 符号化部、 25 顔検出情報ファイル生成部、 26 ストリーム生成部、 27 動画像ファイル生成部、 28 復号部、 100 撮像装置。

【特許請求の範囲】
【請求項1】
動画像を符号化する符号化部と、
前記符号化部により生成された符号化データから符号化ストリームを生成するストリーム生成部と、
前記動画像に含まれるピクチャ内から特定のオブジェクトを検出し、同一ピクチャ内で検出された前記オブジェクトの数を少なくとも含むオブジェクト検出情報をピクチャ単位で生成するオブジェクト検出部と、を備え、
前記ストリーム生成部は、前記符号化ストリーム内の所定の領域に前記オブジェクト検出情報を記述することを特徴とする画像処理装置。
【請求項2】
前記オブジェクト検出部は、前記オブジェクトの数に加えて、前記オブジェクトの大きさ、前記オブジェクトの位置、前記オブジェクトの超解像処理用の、冗長データの有無、ユーザ登録されているオブジェクトの検出の有無、および検出したオブジェクトの確からしさのうち、少なくとも一つを前記オブジェクト検出情報に含めることを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記特定のオブジェクトは、顔であり、
前記オブジェクト検出部は、前記オブジェクトとして検出した顔の数を、正面顔の数と側面顔の数に分けて前記オブジェクト検出情報に含めることを特徴とする請求項1または2に記載の画像処理装置。
【請求項4】
前記特定のオブジェクトは、顔であり、
前記オブジェクト検出部は、前記オブジェクトとして検出した顔の数に加えて、前記オブジェクトとして検出した顔の笑顔度を前記オブジェクト検出情報に含めることを特徴とする請求項1または2に記載の画像処理装置。
【請求項5】
前記ストリーム生成部は、前記オブジェクト検出情報を、前記符号化ストリーム内の対応するピクチャのヘッダ領域またはユーザの書き込みが許可されている領域に記述することを特徴とする請求項1に記載の画像処理装置。
【請求項6】
前記ストリーム生成部は、前記オブジェクト検出情報に含まれる前記オブジェクトの数が変化したとき、そのオブジェクト検出情報を対応するピクチャのヘッダ領域またはユーザの書き込みが許可されている領域に記述し、前記オブジェクト検出情報に含まれる前記オブジェクトの数が変化しないとき、そのオブジェクト検出情報の記述処理をスキップすることを特徴とする請求項5に記載の画像処理装置。
【請求項7】
動画像を符号化する符号化部と、
前記動画像に含まれるピクチャ内から特定のオブジェクトを検出し、同一ピクチャ内で検出された前記オブジェクトの数を少なくとも含むオブジェクト検出情報をピクチャ単位で生成するオブジェクト検出部と、
前記符号化部により生成された符号化データから動画像ファイルを生成し、その動画像ファイルと別に、前記オブジェクト検出部により生成されたオブジェクト検出情報からオブジェクト検出情報ファイルを生成するファイル生成部と、
を備えることを特徴とする画像処理装置。
【請求項8】
動画像を撮像する撮像素子と、
前記撮像素子により撮像された動画像を処理する請求項1から7のいずれかに記載の画像処理装置と、
を備えることを特徴とする撮像装置。
【請求項9】
動画像を符号化して符号化ストリームを生成するとき、前記動画像に含まれるピクチャ内から特定のオブジェクトを検出し、それをもとにオブジェクト検出情報をピクチャ単位で生成し、そのオブジェクト検出情報を前記符号化ストリーム内に、または前記符号化ストリームに関連付けて記録することを特徴とする画像処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2008−278466(P2008−278466A)
【公開日】平成20年11月13日(2008.11.13)
【国際特許分類】
【出願番号】特願2008−46561(P2008−46561)
【出願日】平成20年2月27日(2008.2.27)
【出願人】(000001889)三洋電機株式会社 (18,308)
【Fターム(参考)】