説明

画像処理装置

【課題】画像符号化処理における符号化効率を著しく低下させることなく、顔領域の色(特に肌色)の再現性を保持しうる画像処理装置を提供する。
【解決手段】符号化処理部を有する画像処理装置において、前処理部として、入力画像データを所定の画像フォーマットに従う輝度信号(Y)と2つの色差信号(Cr,Cb)に変換するフォーマット変換部と、入力画像データの中から人物の顔領域を検出する顔検出部と、を設ける。フォーマット変換部は、前記顔検出部によって検出された顔領域以外の画素領域を第1画像フォーマット(例えば、4:2:0)に従って変換し、顔領域を第1画像フォーマットよりも色差信号の情報量が大きい第2画像フォーマット(例えば、4:2:2)に従って変換する。そして、符号化処理部は、同じ画像フォーマットで変換された領域をマクロブロックに分割し、このマクロブロック単位で符号化処理を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画像を符号化する画像処理装置に関し、特に、符号化処理の前処理として行われるフォーマット変換処理技術に関する。
【背景技術】
【0002】
従来、動画像符号化技術として、予測符号化、動き処理、変換符号化、量子化、符号割当等を構成技術とするMPEG符号化方式が知られている。このMPEG符号化方式の一例として、フレーム間予測符号化(Inter-frame Prediction coding)を利用した符号化方式がある。フレーム間予測符号化とは、入力画像と以前の再生画像(参照画像)との差分を符号化する方法である。動画像のほとんどの領域は参照画像と近似し、一般に、差分データの情報量は元の入力画像データの情報量より小さいため、フレーム間予測符号化により符号化効率を向上させることができる。
【0003】
図6は、従来の画像処理装置(エンコーダ)におけるフレーム間予測符号化の流れを示すブロック図である。図6に示すように、エンコーダ100は、前処理部10と符号化処理部20を備えて構成される。
入力された画像データ(例えば、RGB信号)は、符号化処理の前処理として、フォーマット変換部101で、輝度信号(Y)と2つの色差信号(Cr,Cb)に変換される。CrはRGB信号のR信号からY信号を引いた値(R−Y)で、CbはB信号からY信号を引いた値(B−Y)である。このフォーマット変換は、1フレームごとに所定の画像フォーマットに従って行われる。
【0004】
また、画像フォーマットとは、所定の画素領域における輝度信号(Y)と2つの色差信号(Cb,Cr)の情報量の比を表すものである。例えば、1画素のY信号に対して1組の(Cr,Cb)信号を持つ4:4:4フォーマット、2画素のY信号に対して1組の(Cr,Cb)信号を持つ4:2:2フォーマット、4画素のY信号に対して1組の(Cr,Cb)信号を持つ4:2:0フォーマット等がある。
4:2:0フォーマットでは、実際には、Y信号と(Cr,Cb)信号が1フレームごとに4:2:0と4:0:2で記録され、実質的に4:1:1となる。従来の画像符号化方式においては、情報量が小さくなる(符号化効率が高い)4:2:0フォーマットが一般に用いられている。
【0005】
ここで、MPEG−2では、16×16画素の領域に当たる4個のY信号ブロック(8×8画素)とそれに対応する(Cr,Cb)信号ブロックからなるデータ単位(例えば、4:2:0の場合は計6ブロック)はマクロブロックと称され、このマクロブロックを単位として後述する動き補償等の符号化処理が行われる。また、MPEG−4 AVCやH.264では、16×16、16×8、8×16,8×8、8×4,4×8、4×4の7種類の中から最適なマクロブロックサイズが選択され、それを単位として符号化処理が行われる。
【0006】
フォーマット変換部101でフォーマット変換された入力画像データ(Y,Cb,Cr)は、減算部201及び動き検出部210に出力される。
減算部201では、入力画像データと予測画像データとの差分が演算される。予測画像データは、動き補償部209で生成される。動き補償部209では、動き検出部111で検出された動きベクトルにしたがって、フレームメモリ208に記憶されている参照画像データを動き補償して予測画像データを生成する。
減算部201から出力された差分データは、DCT部202において離散コサイン変換され、量子化部203において量子化される。その後、可変長符号化部204にて可変長符号(例えば、ハフマン符号)が割り当てられる。また、動き検出部210から出力された動きベクトルデータにも可変長符号が割り当てられる。そして、両データ(差分データと動きベクトルデータ)が多重化されたビットストリームが出力される。
一方、量子化部203からの出力データは、逆量子化部205で逆量子化された後、逆DCT部206で逆離散コサイン変換され、元の差分データが復元される。そして、加算部207において、復元された差分データと予測画像データとが加算されて新しい参照画像データが生成され、フレームメモリ208に格納される。新しい参照画像データは、次のフレーム(入力画像)の符号化に用いられる。
【0007】
従来の画像処理装置100では上述した画像符号化処理がなされるが、符号化処理(例えば、量子化)では情報量の削減のためにある程度の誤差を許容しているため再生画像の画質が劣化してしまう。
そこで、動画像の符号化処理において、人間の顔などの特定の領域(以下、顔領域と称する)については符号圧縮率を低く設定することで、高画質化を実現する技術が提案されている(例えば、特許文献1,2)。また、静止画像の符号化処理においても同様に、顔領域の画質を向上する技術が提案されている(例えば、特許文献3)。
また、静止画像を撮像する際の画像処理において、顔領域を検出し、検出された顔領域に対して最適な補正処理を行う技術が提案されている(例えば、特許文献4,5)。
【特許文献1】特許第3133517号公報
【特許文献2】特開2005−109606号公報
【特許文献3】特開2001−333281号公報
【特許文献4】特開2001−148326号公報
【特許文献5】特開2007−280291号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
ところで、人間の視覚特性は、色差よりも輝度に対して敏感であることが知られている。そのため、動画像符号化処理の前処理として、4:2:0フォーマットでフォーマット変換がなされるのが一般的である。これにより、色差信号の情報量は削減されるので、視覚上の影響をほとんど与えることなく符号化効率を上げることができる。
しかしながら、輝度信号に対して色差信号の情報量は小さくなるため、視覚上の影響は軽微であるかもしれないが、再生画像における色の再現性は低下することとなる。例えば、スポーツ観戦する観客の映像がパン(カメラが水平方向に移動)又はチルト(カメラが垂直方向に移動)されたときには、観客の顔の色が肌色には再現されず、色味のない、いわゆる死んだ色となってしまう。
そして、肌色は、彩度が比較的高く色差を区別しやすいため、肌色の再現性が低下すると視聴者に違和感を生じさせてしまう虞があり好ましくない。
【0009】
本発明は、画像符号化処理における符号化効率を著しく低下させることなく、顔領域の色(特に肌色)の再現性を保持しうる画像処理装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するため、請求項1に記載の発明は、
入力画像データを所定の画像フォーマットに従う輝度信号(Y)と2つの色差信号(Cr,Cb)に変換するフォーマット変換部と、
入力画像データの中から人物の顔領域を検出する顔検出部と、
前記フォーマット変換部により変換された画像データを符号化する符号化処理部と、を備え、
前記フォーマット変換部は、前記顔検出部によって検出された顔領域以外の画素領域を第1画像フォーマットに従って変換する一方、前記顔領域を前記第1画像フォーマットよりも色差信号の情報量が大きい(符号化率高)第2画像フォーマットに従って変換し、
前記符号化処理部は、同じ画像フォーマットで変換された領域を所定数の画素(例えば、16×16,16×8、8×16,8×8、8×4,4×8、4×4)からなるブロックに分割し、このブロック単位で符号化処理(DCT,量子化、動き補償等)を行うことを特徴とする画像処理装置である。
【0011】
請求項2に記載の発明は、請求項1に記載の画像処理装置において、
前記フォーマット変換部は、同じ画像フォーマットで変換した領域が、前記符号化処理部において前記ブロックに分割可能となるように、変換領域の形状及びサイズを決定することを特徴とする。
【0012】
請求項3に記載の発明は、請求項1又は2に記載の画像処理装置において、
前記顔検出部は、彩度が所定値より高く色差を区別しやすい領域(肌色領域)を顔領域として検出することを特徴とする。
【0013】
請求項4に記載の発明は、請求項1から3のいずれか一項に記載の画像処理装置において、
前記第1画像フォーマットは、4:2:0フォーマットであり、前記第2画像フォーマットは、4:2:2フォーマットであることを特徴とする。
【0014】
請求項5に記載の発明は、
入力画像データを所定の画像フォーマットに従う輝度信号と2つの色差信号に変換するフォーマット変換部と、
入力画像データの中から人物の顔領域を検出する顔検出部と、
前記フォーマット変換部により変換された画像データを符号化する符号化処理部と、を備え、
前記顔検出部は、彩度が所定値より高く色差を区別しやすい領域を顔領域として検出し、
前記フォーマット変換部は、同じ画像フォーマットで変換した領域が、前記符号化処理部において所定数の画素からなるブロックに分割可能となるように、変換領域の形状及びサイズを決定するとともに、前記顔検出部によって検出された顔領域以外の画素領域を4:2:0フォーマットに従って変換する一方、前記顔領域を4:2:2フォーマットに従って変換し、
前記符号化処理部は、同じ画像フォーマットで変換された領域を所定数の画素からなるブロックに分割し、このブロック単位で符号化処理を行うことを特徴とする画像処理装置である。
【発明の効果】
【0015】
本発明によれば、顔領域における色差信号の情報量を従来に比較して増加させることで、画像符号化処理における符号化効率を著しく低下させることなく、顔領域の色の再現性を保持することができる。
したがって、動画像に人物が含まれる場合に、その人物の顔色を忠実に再現することができるので、視聴者は人物の顔に色味がないことに対して違和感を抱くことはなくなる。
【発明を実施するための最良の形態】
【0016】
以下、本発明の実施の形態を図面に基づいて説明する。
図1は、本発明に係る画像処理装置(エンコーダ)の概略構成の一例を示すブロック図である。図1では、画像処理装置1におけるフレーム間予測符号化(インター予測符号化)の流れについて、画像信号(元画像)の入力からビットストリーム出力までを示している。なお、図示を省略するが、画像処理装置1は、フレーム間予測符号化だけでなく、フレーム内予測符号化(イントラ予測符号化)も可能である。
【0017】
図1に示すように、画像処理装置1は、前処理部10と符号化処理部20を備えて構成される。
前処理部10は、フォーマット変換部101,顔検出部102、データベース103を備える。
フォーマット変換部101は、入力画像データ(例えば、RGB信号)を所定の画像フォーマットに従う輝度信号(Y信号)と2つの色差信号(Cr,Cb)に変換する。本実施形態では、顔検出部102における検出結果に基づいて、顔領域と顔領域以外の領域で異なる画像フォーマットが選択される。フォーマット変換部101におけるフォーマット変換処理についての詳細な説明は、後述する。
【0018】
顔検出部102は、入力画像データから、顔の特徴点(例えば、輪郭,目鼻立ち,唇の大きさ)の抽出や肌色領域の抽出を行い、予めデータベース103に登録されている基準値とのパターンマッチングを行うことで、入力画像中の人物の顔領域を検出する。
このように、顔検出部102は、彩度が所定値より高く色差を区別しやすい領域(肌色領域)を顔領域として検出する。すなわち、輪郭や髪の毛等、彩度が所定値より低く色差を区別しにくい領域(寒色系の色領域)については、顔領域としないようにしている。
データベース103は、顔検出部102において顔領域を検出する際に用いるデータベースであり、顔の特徴点を数値化した基準値等を記憶している。
【0019】
符号化処理部20は、減算部201、離散コサイン変換(DCT:Discrete Cosine Transform)部202,量子化部203、可変長符号化部(VLC:Variable Length Coding)204,逆量子化部205、逆離散コサイン変換(IDCT:Inverse DCT)部206、加算部207,フレームメモリ208,動き補償部209,動き検出部210、を備える。この符号化処理部20における各処理は、所定数の画素が集合してなるマクロブロック(例えば、16×16,16×8、8×16,8×8、8×4,4×8、4×4)、又はマクロブロックを分割したブロック(例えば、8×8、4×4)を単位として行われる。
【0020】
動き検出部210は、入力画像データとフレームメモリ208に記憶されている参照画像データを比較して動きベクトルを検出する。
動き補償部(MC:Motion Compensation)209は、動き検出部210から出力された動きベクトルにしたがって、フレームメモリ208に記憶されている参照画像データから動きベクトル分だけずらして動き補償した予測画像データを生成する。
つまり、時間的に前のフレーム(参照画像)と、現在のフレーム(入力画像)間の動き(部分的な画像の動き、パン・チルトなど)を検出して、前のフレームに対して検出した動きベクトル分の動き補償を行う。
【0021】
減算部201は、入力画像データと動き補償部209から出力された予測画像データとの差分を演算する。
DCT部202は、減算部201から出力された差分データを離散コサイン変換する。この離散コサイン変換により、DCT係数が得られる。
量子化部203は、DCT部202から出力されたDCT係数を量子化する。これにより、DCT係数は量子化係数に変換される。そして、量子化されたDCT係数(量子化係数)をVLC部204及び逆量子化部205に出力する。
VLC部204は、量子化部203から出力された量子化係数を、例えば、ハフマン符号等の可変長符号に変換する。また、VLC部204は、動き検出部210からの動きベクトルを可変長符号化する。そして、VLC部204で変換されたデータはビットストリームとして出力される。
【0022】
逆量子化部205は、量子化部203から出力された量子化係数を逆量子化する。これにより、量子化係数は、DCT係数に変換される。
IDCT部206は、逆量子化部205から出力されたDCT係数を逆離散コサイン変換し、差分データを復元する。
加算部207は、IDCT部206から出力された差分データと動き補償部209から出力された予測画像データを加算して参照画像データを生成する。
フレームメモリ208は、加算部207で生成された参照画像データを記憶する。この参照画像データは、次のフレーム(入力画像)の符号化に用いられる。
【0023】
上述したように、画像処理装置1は、入力画像データを所定の画像フォーマットに従う輝度信号(Y)と2つの色差信号(Cr,Cb)に変換するフォーマット変換部101と、入力画像データの中から人物の顔領域を検出する顔検出部102と、前記フォーマット変換部により変換された画像データを符号化する符号化処理部20と、を備える。
【0024】
図2は、フォーマット変換部101で行われるフォーマット変換処理の一例を示すフローチャートである。
ステップS101では、顔検出部102による顔検出結果に基づいて、フォーマット変換する変換領域(形状・サイズ)を設定する。このとき、同じ画像フォーマットで変換する領域(すなわち顔領域と顔領域以外の領域)が、符号化処理部20における処理単位となるマクロブロックに分割可能となるように、変換領域の形状及びサイズを決定する。つまり、顔領域をマクロブロックの組合せにより構成し、マクロブロックごとに変換する画像フォーマットが選択される。これにより、フォーマット変換処理で画像内に局所的に画像フォーマットが異なる領域が形成されても、同じ画像フォーマットで変換された領域はマクロブロックに分割できるので、従来と同様の方法により符号化処理を行うことができる。
例えば、符号化処理部20において、16×16,16×8、8×16,8×8、8×4,4×8、4×4の7種類のマクロブロックの何れかを単位として処理がなされる場合、フォーマット変換する変換領域は前記マクロブロックを組み合わせた形状及びサイズとされる。
【0025】
ステップS102では、フォーマット変換するマクロブロックが顔領域であるか判定する。そして、顔領域である場合は4:2:2フォーマットで変換し(ステップS104)、顔領域以外である場合は4:2:0フォーマットで変換する(ステップS103)。
【0026】
図3は、画像のフォーマット変換の具体例を示す説明図である。
図3に示すように、人物の顔として検出された領域M1,M2,M3は4:2:2フォーマットで変換され、それ以外の領域(例えば背景画像)Bは4:2:0フォーマットで変換される。
なお、図3では、顔領域を矩形とした場合について示しているが、顔領域の形状は矩形に制限されない。例えば、上記7種類のマクロブロックを組み合わせることにより、顔の輪郭に沿った形状で顔領域を構成できる。
【0027】
図4は、4:2:0フォーマットで変換されたマクロブロックの構成例を示す説明図である。図5は、4:2:2フォーマットで変換されたマクロブロックの構成例を示す説明図である。図4,5には、16×16画素のマクロブロックについて示している。図4、5に示すように、マクロブロックは、輝度信号ブロックと、2つの色差信号ブロックで構成される。そして、信号ブロックごとに上述した符号化処理が施されることとなる。
図4中の斜線で示すように、4:2:0フォーマットでは、4画素のY信号に対して1組の(Cr,Cb)信号を持つ。また、図5中の斜線で示すように、4:2:2フォーマットでは、2画素のY信号に対して1組の(Cr,Cb)信号を持つ。
すなわち、4:2:0フォーマットよりも4:2:2フォーマットの方が色差信号の情報量が大きい。したがって、4:2:2フォーマットで変換された顔領域(肌色領域)については、符号化効率が低下する反面、色再現性が向上することとなる。
【0028】
上述したように、画像処理装置1において、フォーマット変換部101は、顔検出部102によって検出された顔領域以外の画素領域(図3のB領域)を第1画像フォーマット(例えば、4:2:0フォーマット)に従って変換する一方、顔領域(図3のM1,M2,M3領域)を第1画像フォーマットよりも色差信号の情報量が大きい第2画像フォーマット(例えば、4:2:2フォーマット)に従って変換する。また、符号化処理部20は、同じ画像フォーマットで変換された領域を所定数の画素(例えば、16×16,16×8、8×16,8×8、8×4,4×8、4×4)からなるブロック(マクロブロック)に分割し、このブロック単位で符号化処理(DCT,量子化、動き補償等)を行う。
すなわち、画像処理装置1では、顔領域における色差信号の情報量を従来に比較して増加させるようにしている。
【0029】
これにより、画像符号化処理における符号化効率を著しく低下させることなく、顔領域の色(肌色)の再現性を保持することができる。したがって、動画像に人物が含まれる場合に、その人物の顔色を忠実に再現することができるので、視聴者は人物の顔に色味がないことに対して違和感を抱くことはなくなる。
また、顔検出部102は、彩度が所定値より高く色差を区別しやすい領域(肌色領域)を顔領域として検出するので、4:2:2フォーマットで変換される領域を小さくでき、符号化効率が著しく低下するのを回避できる。
【0030】
以上、本発明者によってなされた発明を実施形態に基づいて具体的に説明したが、本発明は上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲で変更可能である。
上記実施形態では、顔領域を4:2:0フォーマットで変換し、顔領域以外を4:2:2フォーマットで変換する例について示したが、例えば、顔領域を4:2:1フォーマットで変換するようにしても顔領域の色再現性を向上できる。また、入力画像がRGB信号の場合は、顔領域を4:4:4フォーマットで変換するようにしてもよい。
【0031】
上記実施形態で示した符号化処理部20の構成要素は一例であり、各構成要素を同等の処理を行うものと置換してもよい。
例えば、上記実施形態では、DCTにより変換符号化を行うが、整数変換(Integer Transform)により変換符号化することができる。また、可変長符号化において、ハフマン符号を用いるかわりに、コンテクスト適応可変長符号(CAVLC:Context-based Adaptive Variable Length Coding)又はコンテクスト適応算術符号(CABAC:Context-based Adaptive Binary Arithmetic Coding)を用いることができる。
【0032】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【図面の簡単な説明】
【0033】
【図1】本発明に係る画像処理装置(エンコーダ)の概略構成の一例を示すブロック図である。
【図2】フォーマット変換部101で行われるフォーマット変換処理の一例を示すフローチャートである。
【図3】画像のフォーマット変換の具体例を示す説明図である。
【図4】4:2:0フォーマットで変換されたマクロブロックの構成例を示す説明図である。
【図5】4:2:2フォーマットで変換されたマクロブロックの構成例を示す説明図である。
【図6】従来の画像処理装置(エンコーダ)におけるフレーム間予測符号化の流れを示すブロック図である。
【符号の説明】
【0034】
10 前処理部
101 フォーマット変換部
102 顔検出部
103 データベース
20 符号化処理部
201 減算部
202 DCT部
203 量子化部
204 可変長符号化部
205 逆量子化部
206 IDCT部
207 加算部
208 フレームメモリ
209 動き補償部
210 動き検出部

【特許請求の範囲】
【請求項1】
入力画像データを所定の画像フォーマットに従う輝度信号と2つの色差信号に変換するフォーマット変換部と、
入力画像データの中から人物の顔領域を検出する顔検出部と、
前記フォーマット変換部により変換された画像データを符号化する符号化処理部と、を備え、
前記フォーマット変換部は、前記顔検出部によって検出された顔領域以外の画素領域を第1画像フォーマットに従って変換する一方、前記顔領域を前記第1画像フォーマットよりも色差信号の情報量が大きい第2画像フォーマットに従って変換し、
前記符号化処理部は、同じ画像フォーマットで変換された領域を所定数の画素からなるブロックに分割し、このブロック単位で符号化処理を行うことを特徴とする画像処理装置。
【請求項2】
前記フォーマット変換部は、同じ画像フォーマットで変換した領域が、前記符号化処理部において前記ブロックに分割可能となるように、変換領域の形状及びサイズを決定することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記顔検出部は、彩度が所定値より高く色差を区別しやすい領域を顔領域として検出することを特徴とする請求項1又は2に記載の画像処理装置。
【請求項4】
前記第1画像フォーマットは、4:2:0フォーマットであり、前記第2画像フォーマットは、4:2:2フォーマットであることを特徴とする請求項1から3のいずれか一項に記載の画像処理装置。
【請求項5】
入力画像データを所定の画像フォーマットに従う輝度信号と2つの色差信号に変換するフォーマット変換部と、
入力画像データの中から人物の顔領域を検出する顔検出部と、
前記フォーマット変換部により変換された画像データを符号化する符号化処理部と、を備え、
前記顔検出部は、彩度が所定値より高く色差を区別しやすい領域を顔領域として検出し、
前記フォーマット変換部は、同じ画像フォーマットで変換した領域が、前記符号化処理部において所定数の画素からなるブロックに分割可能となるように、変換領域の形状及びサイズを決定するとともに、前記顔検出部によって検出された顔領域以外の画素領域を4:2:0フォーマットに従って変換する一方、前記顔領域を4:2:2フォーマットに従って変換し、
前記符号化処理部は、同じ画像フォーマットで変換された領域を所定数の画素からなるブロックに分割し、このブロック単位で符号化処理を行うことを特徴とする画像処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2009−188503(P2009−188503A)
【公開日】平成21年8月20日(2009.8.20)
【国際特許分類】
【出願番号】特願2008−23762(P2008−23762)
【出願日】平成20年2月4日(2008.2.4)
【出願人】(000201113)船井電機株式会社 (7,855)
【Fターム(参考)】