符号化装置、符号化及び復号化システム、符号化方法並びに符号化及び復号化方法
【課題】分散符号化の符号化効率を改善することを目的とする。
【解決手段】画像列を符号化して復号化装置に送信する符号化装置は、画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部と、非並進領域のうち高周波成分を符号化する非並進領域符号化部とを有する。前記領域分割部は、画像列のブロック毎に離散フーリエ変換を行い、変換後のブロックに対してフーリエ振幅スペクトルの主成分分析を行い、主成分分析結果が閾値より小さい領域を並進領域とし、主成分分析結果が閾値以上の領域を非並進領域としてもよい。
【解決手段】画像列を符号化して復号化装置に送信する符号化装置は、画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部と、非並進領域のうち高周波成分を符号化する非並進領域符号化部とを有する。前記領域分割部は、画像列のブロック毎に離散フーリエ変換を行い、変換後のブロックに対してフーリエ振幅スペクトルの主成分分析を行い、主成分分析結果が閾値より小さい領域を並進領域とし、主成分分析結果が閾値以上の領域を非並進領域としてもよい。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、符号化装置、符号化及び復号化システム、符号化方法並びに符号化及び復号化方法に関する。特に、本発明は、超解像処理を利用した分散映像符号化装置及び方法に関する。
【背景技術】
【0002】
近年、映像のデジタル化に伴い高効率の符号化法に対する研究が数多くなされている。その中でも、センサカメラやモバイルなどのデバイスでは符号化側の演算量が少ない方が好ましいという要求があり、この場合高効率な符号化法として知られているH.264/AVCのように符号化側での負荷が大きい符号化法は適切ではない。
【0003】
そこで近年注目されている符号化技術が分散映像符号化(DVC:Distributed Video Coding)である。DVCでは符号化側で負荷の大きいフレーム間予測を行わず、入力画像列を数枚置きにイントラ符号化するフレーム(Keyフレーム)と、復号化側でKeyフレームからの推定によって生成するフレーム(Wyner-Zivフレーム)に分割する。そして符号化側からはKeyフレームと誤り訂正信号のみを送信し、復号化側で復号したKeyフレームからWyner-Zivフレームを推定し、誤り訂正信号によってそれを修正する。
【0004】
最初に、分散映像符号化(DVC)と超解像(SR:Super Resolution)について説明する。
【0005】
(1)分散映像符号化(DVC)
DVCでは、画像列を数フレーム置きにJPEGなどの従来のフレーム内符号化方式で符号化する(Keyフレーム)。それ以外のフレーム(Wyner-Zivフレーム)は、量子化後にSlepian-Wolf符号化器によりパリティシンドロームビットを生成し伝送する。復号化側においては、まずKeyフレームを復号しWyner-Zivフレームの予測信号を生成する(SI:Side Information)。そしてこのSIにパリティシンドロームを用いて誤り訂正を行う。
【0006】
DVCの課題である符号化効率改善のためにウェーブレット(Wavelet)領域でのDVCが提案されている。これらは、空間内相関の利用により改善が図れるだけではなく、周波数別にWyner-Zivフレームの復号方法を選択できるというメリットがある。Keyフレームは従来のJPEG2000で符号化/復号化を行う。Wyner-Zivフレームは、復号したKeyフレームの情報を用いて予測信号を生成する。Wyner-Zivフレームの予測信号は、一般的に、図1に示すように前後のKeyフレームよりブロックマッチング法を用いて動き量を推定し、動き補償を用いて計算する。その後、推定した信号に対して離散ウェーブレット変換を施し、量子化を行う。量子化後の信号をSIとして、パリティシンドロームを用いて誤り訂正を行う。
【0007】
SIの推定精度は符号化効率に大きな影響を与えるが、高周波数成分の予測は難しく符号化効率低下の原因となっている。これを解決する一つの方法として、図2に示すように、高周波成分(HL、LH、HH成分)に関してはエントロピー符号化を行い、低周波成分(LL成分)は、Slepian-Wolf符号化器を用いてパリティシンドロームを生成するといった方法も考えられる。
【0008】
(2)超解像(SR)
超解像(SR:Super Resolution)は、動画や画像列などにおいて、フレーム間が複数のサブピクセル精度の位置ずれを含んでいる事を利用して情報を統合し一枚の高解像度画像を生成する技術である(非特許文献1参照)。日常的に撮像機器を通して得られる画像は、カメラの特性などから様々な劣化を経ている。一般的にはSR法では撮像プロセスを図3のように位置ずれF、ブレH、ダウンサンプルDに分けて考える。高解像度(HR:High Resolution)画像XはサイズがXm×Xnであるとし、対象画像列と考えているk枚の異なる低解像度(LR:Low Resolution)画像列Y(i)のそれぞれのサイズはYm×Ynであるとする。Xは最初に幾何学的変形F(i)を受け、それから、任意のブレカーネルHと畳み込まれ、最後にダウンサンプルDされる。このときベクトル-行列表記によるHR画像とLR画像列のモデル式は、次式となる。
【0009】
【数1】
幾何変換行列F(i)を求めるために、サブピクセル精度の位置合わせには輝度値を用いたテンプレートブロックマッチング法を用いる。参照画像I'(x',y')の注目領域をテンプレートg'k(x',y')として、次の画像I(x+x',y+y')に対して以下の相関係数R(x,y)が一番高い領域を物体の移動先として決定する。
【0010】
【数2】
?は行列の要素ごとの掛け算を示す。この操作を全画像列に対して行うことで、移動物体矩形領域をピクセル精度で位置合わせすることができる。次にサブピクセル精度で位置合わせを行うために、求めた相関係数R(x,y)の補間を行う。相関係数の補間による相関最大位置を求める式は、相関係数が1次元データの場合、ピクセル精度の最大相関位置を
【0011】
【数3】
とすれば、次式で求めることができる。
【0012】
【数4】
次にモデルを通した時に最も観測画像に近づくような高解像度画像を推定する。これは、正則化エネルギー関数を最小化することで達成できる。このエネルギー関数は、誤差項と正則化項から成り立つ。
【0013】
【数5】
第一項は、撮像プロセスのモデルから現れた項であり、第二項は正の重み係数λを伴った正則化項であり、適格な解の方向へ向かってE(X)の最小化を導くための項である。ここでは、エネルギー関数の最小化を共役こう配法を用いて計算する。n回の探索により推定される高解像度画像Xは、次式で与えられる。
【0014】
【数6】
いま、評価関数E(X)に対するHR画像の勾配は、
【0015】
【数7】
で与えられる。HR画像の初期値をX0とおく。勾配は、Xm・Xn次元の縦ベクトルで、それと同じ次元の2系列のベクトルd、eを定義する。
【0016】
【数8】
ここで、各diは直前のdi-1と直交していて、各eiは直前のものと共役になっている。di、eiを更新するたびに、評価関数E(X)の値を求めて、以下の式を終端条件とする。
【0017】
【数9】
ここでftolは、評価関数E(X)の許容誤差を表す定数値である。
【先行技術文献】
【非特許文献】
【0018】
【非特許文献1】S. C. Park, M. K. Park, and M. G. KANG、 "Super-Resolution Image Reconstruction: A Technical Overview", IEEE Signal Processing Magazine, Vol.20, no.3, pp. 21-36, 2003.
【非特許文献2】D. Barreto, L. D. Alvarez, R. Molina、 A. K. Katsaggelos,"Region-based super -resolution for compression、" MSSP、 Springer Netherlands 2007.
【非特許文献3】Minmin Shen, Ping Xue, Ci Wang, "A Novel Scalable Video Coding Scheme Using Super-Resolution Techniques," MSP, IEEE 2008.
【発明の概要】
【発明が解決しようとする課題】
【0019】
DVCが普及しない理由の一つとして既存のフレーム間符号化法に比べて符号化効率が劣る事が挙げられ、この解決のために多くの研究が行われている。DVCの符号化効率はWyner-Zivフレームの予測精度に大きく依存し、特に高周波成分では推定精度が低く、復号化側で多くの誤り訂正信号を必要とするため、DVCの符号化効率の低下の要因となっている。
【0020】
本発明は、この問題点に鑑みなされたもので、DVCにおいて、超解像(SR:Super Resolution)の技術を用いてWyner-Zivフレームの予測精度を上げ、符号化効率を向上させることを目的とする。
【課題を解決するための手段】
【0021】
本発明の符号化装置は、
画像列を符号化して復号化装置に送信する符号化装置であって、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部と、
非並進領域のうち高周波成分を符号化する非並進領域符号化部と、
を有することを特徴とする。
【0022】
本発明の符号化及び復号化システムは、
画像列を符号化して復号化装置に送信する符号化装置と、符号化装置から画像列を受信して復号化する復号化装置とを有する符号化及び復号化システムであって、
前記符号化装置は、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部と、
非並進領域のうち高周波成分を符号化する非並進領域符号化部と、
を有し、
前記復号化装置は、
非並進領域のうち高周波成分を復号化する非並進領域復号化部と、
並進領域に超解像法を適用し、非並進領域に復号化された高周波成分を付加する画像処理部と、
を有することを特徴とする。
【0023】
本発明の符号化方法は、
画像列を符号化して復号化装置に送信する符号化装置における符号化方法であって、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割ステップと、
非並進領域のうち高周波成分を符号化する非並進領域符号化ステップと、
を有することを特徴とする。
【0024】
本発明の符号化及び復号化方法は、
画像列を符号化して復号化装置に送信する符号化装置と、符号化装置から画像列を受信して復号化する復号化装置とを有する符号化及び復号化システムにおける符号化及び復号化方法であって、
前記符号化装置が、画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割ステップと、
前記符号化装置が、非並進領域のうち高周波成分を符号化する非並進領域符号化ステップと、
前記復号化装置が、非並進領域のうち高周波成分を復号化する非並進領域復号化ステップと、
前記復号化装置が、並進領域に超解像法を適用し、非並進領域に復号化された高周波成分を付加する画像処理ステップと、
を有することを特徴とする。
【発明の効果】
【0025】
本発明によれば、分散符号化の符号化効率を改善することができる。
【図面の簡単な説明】
【0026】
【図1】Wyner-Zivフレームの推定を示す図
【図2】ウェーブレット領域DVCを示す図
【図3】超解像復元における画像獲得モデルを示す図
【図4】本発明の実施例に係る符号化装置・復号化装置の構成図
【図5】本発明の実施例に係る符号化装置・復号化装置の概念図
【図6】領域分割の結果の例を示す図
【図7】SR可能領域とSR不可能領域の分離例を示す図
【図8】GOP分割法の概念図
【図9】Keyフレーム間隔の拡張のためのSI推定法を示す図
【図10】スケーラブル符号化の概念図
【図11】SR法の復元過程の概念図
【図12】高解像度画像の復元過程の概念図
【図13】レート歪み曲線を示す図(mother and daughter)
【図14】レート歪み曲線を示す図(coastguard)
【図15】レート歪み曲線を示す図(bus)
【発明を実施するための形態】
【0027】
以下、本発明の実施例について詳細に説明する。
【0028】
図4に、本発明の実施例に係る符号化装置10・復号化装置15の構成図を示す。
【0029】
本発明の実施例では、符号化効率を改善させるため、符号化装置10は、画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部101を有する。並進領域は、超解像法が有効な領域であるため、SR可能領域と呼ぶ。非並進領域は、高周波成分を低周波成分から推定できず、超解像法が有効でない領域であるため、SR不可能領域と呼ぶ。また、静止領域は、超解像法を適用する必要がないため、SR不必要領域と呼ぶ。
【0030】
また、符号化装置10は、画像列をグループ・オブ・ピクチャ(GOP:Group of Picture)に分割するGOP分割部103を有する。以下に説明するように、GOP分割部103は、Keyフレーム間隔を拡張してもよい。
【0031】
キーフレーム(Keyフレーム)は、Keyフレーム符号化部105で符号化され、Wyner-ZivフレームはWyner-Zivフレーム符号化部107で符号化される。上記のように、SR不可能領域は、超解像法が有効でないため、SR不可能領域符号化部において、高周波成分だけエントロピー符号化法等で送信する。
【0032】
復号化装置15では、Keyフレーム復号化部151においてKeyフレームが復号化される。動き推定部153においてKeyフレームからWyner-Zivフレームが推定される。こうして得られた画像列はサイドインフォメーション(SI:Side Information)と呼ばれる。このサイドインフォメーションで予測しきれなかった成分を、パリティシンドロームを用いて誤り訂正を行う。訂正に失敗した場合、動き推定部153は、符号化装置10に追加の情報を要求する。このようにしてWyner-Zivフレーム復号化部155は、Wyner-Zivフレームを復号化する。
【0033】
一方、復号化装置15は、符号化装置10からSR不可能領域の高周波成分を受信し、SR不可能領域復号化部157において復号化する。これらの情報を用いて、画像処理部159は、SR可能領域に対して超解像法を適用し高周波成分を推定する。また、SR不可能領域に対してSR不可能領域復号化部157において復号化した高周波成分を付加する。更に、SR不必要領域に対して、推定したSIの精度が高いため、超解像法を適用せずに復元画像とする。
【0034】
図5に、本発明の実施例に係る符号化装置10・復号化装置15の概念図を示す。図4と基本的に同じ構成となっており、図4の構成図に対応する構成要素には、同じ参照符号を付与している。このように、本発明の実施例では、領域分割、Keyフレーム間隔の拡張(GOP分割)、SIの推定、高周波成分の復元が行われる。
【0035】
<領域分割>
次に、領域分割部101における領域分割について説明する。
【0036】
領域分割の目的は、SR可能領域・SR不可能領域・SR不必要領域に分割する事である。SR可能領域と判定された領域は、画像処理部159における高周波成分の復元でSR法を適用させる。SR不可能領域と判定された領域は、高周波成分を低周波成分から推定できないため、図2のように高周波成分だけエントロピー符号化法で送信する。SR不必要領域と判定された領域は、動きが無いため画像処理部159における高周波成分の復元において、Fusionまでは行うが、その後の繰り返し計算までは適用させる必要がない領域である。
【0037】
まず、動き領域Mを抽出するために、主成分分析(PCA:Principal Component Analysis)を利用した領域分割法を用いる(非特許文献2参照)。この手法は、計算量が小さいためDVCのエンコーダ側にふさわしい領域分割法である。なぜなら、演算量が多い動き推定やそれぞれのフレーム間の誤差画像に対する判定を行う必要がないからである。また動きが存在しない領域をテクスチャ(T)と平坦領域(F)に分割している。Nフレームの[H×W]ピクセルの画像列Ykの第一主成分による復元画像(主成分画像)pcは、
【0038】
【数10】
と表わされる。μを平均画像と呼ぶ。e1(k)は共分散行列の最大固有値に対応する固有ベクトルの要素である。領域分割は、[h×w]ピクセルのブロックB[m,n](m=1,...,h/H且つn=1,...,w/W)ごとに行う。pcとμにおいて、ブロックごとの平均偏差はそれぞれ
【0039】
【数11】
と表される。
【0040】
【数12】
はpcの[m,n]ブロック内の平均値、
【0041】
【数13】
はμの[m,n]ブロック内の平均値である。クラス分けは以下のようにして行う。
【0042】
【数14】
C[x]はxのクラスを表わす。
【0043】
図6にこの手法による領域分割結果の例を示す。(a)(b)はそれぞれ1フレームと15フレーム、(c)は平均画像μ、(d)は主成分画像pc(可視化のため画素値を加えた)、(e)は領域分割の結果、ラベル付けを行ったものである。黒い領域は動き領域M、白はテクスチャT、グレーは平坦領域Fを表わす。
【0044】
このように、映像を動き領域M、テクスチャ領域T、平坦領域Fに分割できる。本発明の実施例では、この時静止領域と判定されたテクスチャ領域及び平坦領域(TF)は、SRする必要がないSR不必要領域と定義する。また動き領域MはSR可能領域とSR不可能領域が混在しているため次の行程でその分離を行う。
【0045】
次に、動き領域Mを並進領域TM(SR可能領域)と非並進領域NTM(SR不可能領域)に分割するために、フーリエ振幅スペクトルのPCAを行う。なぜならフーリエ変換では信号の並進は位相スペクトルにのみ反映され、振幅スペクトルはほぼ変化しないため、動き領域Mの中で振幅スペクトルに変化がある領域を非並進領域NTMとみなすことができるからである。なお、信号の並進性とは、同じ形且つ同じ大きさで物体が動くことを意味する。
【0046】
図7に、SR可能領域とSR不可能領域の分離例を示す。まず元画像列Ykに対してそれぞれB[m,n]ごとに離散フーリエ変換(DFT:Discrete Fourier Transform)を行う。それぞれのB[m,n]で高い周波数解像度を得るために、それを含む[s×s]ピクセルのブロックを[128×128]ピクセルにゼロパディングし(s≧128の時は不要)、ハニング窓をかけてからDFTを行う。フレーム内全てのブロックの振幅スペクトルを合わせたものをスペクトル画像Akとすると次式で表される。
【0047】
【数15】
FB[]はブロックごとのDFTを表す。次に動き領域の判定と同様にAkに対して行うその主成分をFpcとすると次式となる。
【0048】
【数16】
e'1(k)は共分散行列の最大固有値に対応する固有ベクトルの要素である。ここで、Fpcで大きな値を持つブロックは非並進領域である。よって閾値処理
【0049】
【数17】
によって並進領域TMと非並進領域NTMへの分割ができる。Fpc[m,n]は、Fpcの[m,n]ブロックである。以上により判定した並進領域TMをSR可能領域、非並進領域NTMをSR不可能領域と定義する。
【0050】
これらのSR可能領域、SR不可能領域、SR不必要領域に対して、画像処理部159において以下の処理が行われる。
【0051】
SR可能領域では、離散ウェーブレット変換をし、低周波成分LL成分を取り出し、誤り訂正を行う。その後にSR法を適用し高周波成分を推定する。
【0052】
SR不可能領域では、離散ウェーブレット変換をし、低周波成分LL成分を取り出し、誤り訂正を行う。その後別途送られてきた高周波成分を付加して逆ウェーブレット変換をする。
【0053】
SR不必要領域は、動きが無い領域であるため、推定したSIの精度が高いためこれを復元画像とする。
【0054】
<GOP分割>
次に、領域分割の結果を利用した、GOP分割部103における映像のGOP分割について説明する。
【0055】
従来のDVCでは図2のように奇数フレームをKeyフレーム、偶数フレームをWyner-Zivフレームに設定するため、GOPはKeyフレームで挟まれた3枚となる。本発明の実施例では符号化効率改善のために、Keyフレーム間隔を広げる事を検討する。その際、SI推定やSR法の適用において似た動きを持ったフレーム同士を同じGOPに設定する事が望ましい。なぜなら、異なる動き領域を含むGOP内で推定したSIは精度が低くパリティシンドロームを多く送信する必要があるため符号化効率の低下につながるからである。同様に異なる動き領域を含むGOP内でのSR法は精度の低いものとなる。そこで、領域判定の結果を利用したGOP分割を提案する。
【0056】
図8のように25枚の画像列を例にとると、まず従来のDVCのように奇数フレームをKeyフレームに、偶数フレームをWyner-Zivフレームに設定する。そしてKeyフレームで囲んだ三枚を初期のGOPとしてGOP単位で領域分割を行う。
【0057】
次に、SR可能領域の画素数をNTM、フレームの全画素数をNallとしたとき、GOP毎に判定されたSR可能領域の画像全体に対する割合を計算する。この値のGOP間での比が一定以下ならGOPを結合し、一定以上なら結合しない。
【0058】
【数18】
なぜならSR可能領域の比率が近いGOP間は似ている動きを含んでいると判断できるからである。よってそういったGOPを結合すれば、SI推定やSR法の適用において精度を低下させる事無くKeyフレームの間隔を広げる事ができるため、圧縮効率の改善への解決法となる。
【0059】
図8を例にとると、1〜3枚目と3〜5枚目のGOPを結合し、5〜7枚目は結合しない。よって画像列を1〜5枚目のGOP1、5〜7枚目のGOP2と分割する事ができ、このときKeyフレームを1、5、7枚目、Wyner-Zivフレームを2〜4、6枚目と設定する。
【0060】
<SI推定>
次に、動き推定部153におけるSI推定について説明する。
【0061】
上記のように、Keyフレームの間隔を拡張するため、SIの推定を間隔に合わせて行う必要がある。従来法では、前方向の動きベクトルの半分で動き補償した画像と後ろ方向の動き補償画像の平均をSIとした。
【0062】
本発明の実施例では図9のように、対象となるWyner-ZivフレームからKeyフレームまでの間隔から線形的に動きベクトルを計算し、生成した2枚の動き補償画像の平均をとる。図9の例では、5枚のGOPのうち3枚目のGOP3に対して、前方向の動きベクトルに2/5を乗算し、後ろ方向の動きベクトルに3/5を乗算することで、Wyner-Zivフレームを推定する。
【0063】
<高周波成分の復元>
次に、画像処理部159における高周波成分の復元について説明する。
【0064】
従来のSRを利用したDVCでは、Keyフレームからの動き補償とFusionによって暫定的な対象画像の高解像度化を行う(非特許文献3参照)。この例を以下に示す。
【0065】
スケーラブル符号化とは、映像を空間・時間・解像度において階層化する事により、多様化する映像機器に対してもそれぞれのデータを持つのではなく、ワンソースでの処理を可能にする符号化法である。解像度の階層構造に関してスケーラブル符号化を利用する場合、例えば図10のように奇数フレームと偶数フレームに分けてそれぞれ異なる解像度で符号化を行う。復号化側で低解像度(LR)レイヤーがリクエストされた場合、高解像度(HR)レイヤーを全てダウンサンプルすればよいが、HRレイヤーがリクエストされた場合にはLRレイヤーの画像を全てアップサンプルしなければならない。このときBilinear補間やBicubic補間など他のフレームを参照しない周囲の画素からの関数的なフィッティングによって画素を推定するアップサンプリング法などが考えられるが、非特許文献3では、SR法によって高解像度化をする事を提案している。
【0066】
しかしこれは今までの複数の低解像度画像の情報を統合するSR法とは異なり、一定間隔で保持している周囲のHRフレームの情報を利用するSR法である。また、このようなHRレイヤーとLRレイヤーの考え方は、本発明の実施例においてKeyフレームとWyner-Zivフレームに置き換えて考える事ができるため、この復元処理のみに焦点を当て説明を行う。
【0067】
図11がSR法の復元過程の概要であり、大きく分けてHRレイヤーからの動き補償と繰り返し計算のステップに分けられる。
【0068】
図11においてアップサンプリングしたい対象画像がGl、SR法に利用する前後のHR画像がFl-1、Fl+1であるため、まず動き補償のためにFl-1、Fl+1とGl間の動き量を求める必要がある。非特許文献3ではブレをHk、ダウンサンプルをSkとした時にHRレイヤーFとLRレイヤーGの関係を
【0069】
【数19】
と仮定しているため、Fl-1、Fl+1からGl-1、Gl+1を生成する。その後、対象画像となるGlとGl-1、Gl+1の間の動き量をテンプレートブロックマッチングによって求める。しかしこのままでは、動き量はLRレイヤー基準のピクセルサイズであるため、拡大率を決定するSの値を基に算出した動き量をHRレイヤーの基準に合わせる。この動き量を基にFl-1、Fl+1から対象画像の候補として動き補償した画像が図11のF'l-1、F'l+1である。
【0070】
次に、対象画像であるGlをBicubic補間しF'lを作成する。対象画像の高解像度化画像の候補としてF'l、F'l-1、F'l+1の3枚がある状態になる。この候補画像の以下に示すFusionと繰り返し計算による更新によって対象画像を高解像度化していく。
【0071】
Fusionでは、候補である3枚を以下のように融合させる。
【0072】
【数20】
varは分散を示しており、共通部分が多ければ多くの情報を反映させ、少なければ反映させないように係数によって制御している。なおvarの値については、
【0073】
【数21】
によって算出する。F'pはqのパッチであり、i、jはパッチ内の画素の座標を示す。
【0074】
このように、Fusionのステップで候補の3枚を融合し、対象画像の初期推定高解像度画像を得ることができる。
【0075】
次に、繰り返し計算では、劣化モデルを利用してこの画像を更新していく必要がある。この過程は先述のMAP式に似ており、以下の式で行う。
【0076】
【数22】
右辺の一項目がSR法の誤差項で二項目が正則化項に相当する。誤差項については、複数枚からのSR法ではないため劣化モデルはダウンサンプルSとブレHのみである。また正則化項は、ラプラシアンフィルタDを推定画像に畳み込んでいるため、エネルギーが低周波成分に集中しているという画像の性質に合うように繰り返し計算を安定化させる項である。このように非特許文献3では、初期推定HRを周囲のHRレイヤーからの動き補償によって生成し、その最適化のために対象画像との間の劣化モデルを利用した評価関数の最小化を行う。
【0077】
上記のように、非特許文献3ではKeyフレームからの動き補償とFusionにおいてKeyフレームの情報が利用されるが、その後の繰り返し計算ではあくまで対象画像との間での更新作業となり、その他のフレームの情報を完全に利用できているとは言い難い。
【0078】
よって本発明の実施例では、このSR法に、複数の低解像度画像からのSR法の方法を取り入れる。レベル1まで離散ウェーブレット変換したのちLL成分のみを取り出して誤り訂正したものが、Wyner-Zivフレームの低周波成分である。図12の2、3、4枚目がこれに相当する。よって本発明の実施例では、Keyフレームである1、5枚目とWyner-Zivフレームの低周波成分である2、3、4枚目を用いて2、3、4枚目を高解像度化する事を目的とする。
【0079】
なおこの処理はSR可能領域のみに行うものである。対象画像を2枚目とすると、まずKeyフレームである1、5枚目から両方向の動き補償を行い、フレーム2'、2''を生成し、2枚目をBicubic補間した画像とでFusionを行う。これをSR法の初期推定HRとする。
【0080】
続いてMAP推定による繰り返し計算を行う。通常のMAP推定では低解像度フレーム間で演算を行うが、本手法ではKeyフレームの情報も利用する事ができる。よって
【0081】
【数23】
をそれぞれ満たすように評価関数を最小化していく。これは、上記のSR法の式(4)を以下のように表すことに相当する。
【0082】
【数24】
<本発明の実施例の効果>
以上のように、本発明の実施例によれば、画像列を並進領域と非並進領域に分割することで、DVCの高符号化効率を実現することができ、また、復元画像の品質を向上させることが可能となる。
【0083】
最後に、本発明による符号化方法と従来法を比較し、その有効性を検証した。実動画による実験を以下の手順で行った。
【0084】
(1)本発明による符号化方法の手順
1.25枚の非圧縮の画像列を用意する。
2.Keyフレームを本発明の実施例に従って選定する。
3.全フレームをJPEG2000方式に基づき符号化、復号化を行う(量子化によるビットレートの制御)
4.復号したKeyフレームからSIを推定し、ウェーブレット変換する。
5.SIの低周波成分を誤り訂正する。
6.(SR可能領域)SIの低周波成分とKeyフレームからSR(Fusion+MAP推定)を行い、高周波成分を復元する。
7.(SR不可能領域)SIの低周波成分と復号したWyner-Zivフレームの高周波成分を合成し逆ウェーブレット変換により復元する。
8.(SR不必要領域)誤り訂正したWyner-Zivフレームの低周波成分とKeyフレームからSR(Fusionのみ)で復元する。
【0085】
(2)従来法1による手順
1.25枚の非圧縮の画像列を複数用意する。
2.奇数フレームをKeyフレームに偶数フレームをWyner-Zivフレームに設定する。
3.全フレームをJPEG2000方式に基づき符号化、復号化を行う(量子化によるビットレートの制御)
4.復号したKeyフレームからSIを推定する。
5.SIを誤り訂正する。
【0086】
(3)従来法2による手順
1.25枚の非圧縮の画像列を複数用意する。
2.奇数フレームをKeyフレームに偶数フレームをWyner-Zivフレームに設定する。
3.全フレームをJPEG2000方式に基づき符号化、復号化を行う(量子化によるビットレートの制御)
4.復号したKeyフレームからSIを推定し、ウェーブレット変換する。
5.SIの低周波成分を誤り訂正する。
6.誤り訂正したSIと復号したWyner-Zivフレームの高周波成分を合成し逆ウェーブレット変換により復元する。
【0087】
以下に、評価実験結果を示す。
【0088】
ここでは領域分割の結果を利用したKeyフレーム選定の効果を示す。Keyフレーム選定手法だけの効果を示すために、ここではKeyフレームとWyner-Zivフレームの数を統一した上で、Keyフレーム選定方法だけを変えながら、どちらもシステムで実装して評価した。評価項目として、同じ画像列を送る場合のSI低周波成分の誤り訂正量の総和と、SR結果の平均PSNR(Peak Signal to Noise Ratio)で評価する。ここで均等に選定とは等間隔でKeyフレームを選定する手法とする。
【0089】
表1 SI低周波成分の誤り訂正量[bits/pixel]
【0090】
【表1】
表1のように、それぞれの動画において、領域分割結果を利用してKeyフレームを選定した方が、より少ない誤り訂正量でSI低周波成分を訂正できる事がわかる。
【0091】
次にSR結果を示す。
【0092】
推定したSIに離散・ウェーブレット変換を施し、低周波成分を修正した後に、GOP単位でSRを行い高周波成分の復元を行う。SRを行い復元したWyner-Zivフレームの平均PSNRを結果として示す。なお、実験条件は先ほどと同様に、KeyフレームとWyner-Zivフレームの数を統一した上で、Keyフレーム選定方法だけを変えながら、どちらもシステムで実装し評価した。
【0093】
表2 SR結果のWynerZivフレーム平均PSNR[dB]
【0094】
【表2】
表2より、それぞれの動画において、領域分割によってKeyフレームを選定した方がより高い精度でWyner-Zivフレームを復元できることがわかる。
【0095】
次にシステム全体としての評価を示す。
【0096】
図13〜図15に、実動画に対して本発明による符号化方法、従来法1、従来法2で符号化したときの歪みレート曲線を示す。
【0097】
図13〜図15のレート歪み曲線より、mother and daughter及びcoastguardでは一定のPSNRに達するまでは、本発明による符号化方法が一番少ないビット数で復元できていることが確認できる。これは、従来法2でエントロピー符号化していたWyner-Zivフレームの高周波成分の大部分をSRによって復元できた事による情報量の削減の結果だと考えられる。しかし両動画とも、一定のPSNRを超えると提案法よりも符号化効率が悪くなる。これは、提案法では適用しているSR自体の限界に達しており、量子化を全くしなかった場合のSR結果のPSNRに漸近的に近づいているからだと考えられる。
【0098】
一方でbusでは、本発明による符号化方法の優位性を示す事ができていない。これは、busでは動画の撮影者が移動しており、且つ複雑な動きを多く含む動画であったため、SR法がうまく適用できなかったからだと考えられ、妥当な結果だといえる。
【0099】
説明の便宜上、本発明の実施例に係る符号化装置・復号化装置は機能的なブロック図を用いて説明しているが、本発明の符号化装置・復号化装置は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、符号化装置・復号化装置の各機能部がソフトウェアで実現され、プログラムとして符号化装置・復号化装置内に実現されてもよい。また、2以上の実施例及び実施例の各構成要素が必要に応じて組み合わせて使用されてもよい。
【0100】
以上、本発明の実施例について説明したが、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々の変更・応用が可能である。
【符号の説明】
【0101】
10 符号化装置
101 領域分割部
103 GOP分割部
105 Keyフレーム符号化部
107 Wyner-Zivフレーム符号化部
109 SR不可能領域符号化部
15 復号化装置
151 Keyフレーム復号化部
153 動き推定部
155 Wyner-Zivフレーム復号化部
157 SR不可能領域復号化部
159 画像処理部
【技術分野】
【0001】
本発明は、符号化装置、符号化及び復号化システム、符号化方法並びに符号化及び復号化方法に関する。特に、本発明は、超解像処理を利用した分散映像符号化装置及び方法に関する。
【背景技術】
【0002】
近年、映像のデジタル化に伴い高効率の符号化法に対する研究が数多くなされている。その中でも、センサカメラやモバイルなどのデバイスでは符号化側の演算量が少ない方が好ましいという要求があり、この場合高効率な符号化法として知られているH.264/AVCのように符号化側での負荷が大きい符号化法は適切ではない。
【0003】
そこで近年注目されている符号化技術が分散映像符号化(DVC:Distributed Video Coding)である。DVCでは符号化側で負荷の大きいフレーム間予測を行わず、入力画像列を数枚置きにイントラ符号化するフレーム(Keyフレーム)と、復号化側でKeyフレームからの推定によって生成するフレーム(Wyner-Zivフレーム)に分割する。そして符号化側からはKeyフレームと誤り訂正信号のみを送信し、復号化側で復号したKeyフレームからWyner-Zivフレームを推定し、誤り訂正信号によってそれを修正する。
【0004】
最初に、分散映像符号化(DVC)と超解像(SR:Super Resolution)について説明する。
【0005】
(1)分散映像符号化(DVC)
DVCでは、画像列を数フレーム置きにJPEGなどの従来のフレーム内符号化方式で符号化する(Keyフレーム)。それ以外のフレーム(Wyner-Zivフレーム)は、量子化後にSlepian-Wolf符号化器によりパリティシンドロームビットを生成し伝送する。復号化側においては、まずKeyフレームを復号しWyner-Zivフレームの予測信号を生成する(SI:Side Information)。そしてこのSIにパリティシンドロームを用いて誤り訂正を行う。
【0006】
DVCの課題である符号化効率改善のためにウェーブレット(Wavelet)領域でのDVCが提案されている。これらは、空間内相関の利用により改善が図れるだけではなく、周波数別にWyner-Zivフレームの復号方法を選択できるというメリットがある。Keyフレームは従来のJPEG2000で符号化/復号化を行う。Wyner-Zivフレームは、復号したKeyフレームの情報を用いて予測信号を生成する。Wyner-Zivフレームの予測信号は、一般的に、図1に示すように前後のKeyフレームよりブロックマッチング法を用いて動き量を推定し、動き補償を用いて計算する。その後、推定した信号に対して離散ウェーブレット変換を施し、量子化を行う。量子化後の信号をSIとして、パリティシンドロームを用いて誤り訂正を行う。
【0007】
SIの推定精度は符号化効率に大きな影響を与えるが、高周波数成分の予測は難しく符号化効率低下の原因となっている。これを解決する一つの方法として、図2に示すように、高周波成分(HL、LH、HH成分)に関してはエントロピー符号化を行い、低周波成分(LL成分)は、Slepian-Wolf符号化器を用いてパリティシンドロームを生成するといった方法も考えられる。
【0008】
(2)超解像(SR)
超解像(SR:Super Resolution)は、動画や画像列などにおいて、フレーム間が複数のサブピクセル精度の位置ずれを含んでいる事を利用して情報を統合し一枚の高解像度画像を生成する技術である(非特許文献1参照)。日常的に撮像機器を通して得られる画像は、カメラの特性などから様々な劣化を経ている。一般的にはSR法では撮像プロセスを図3のように位置ずれF、ブレH、ダウンサンプルDに分けて考える。高解像度(HR:High Resolution)画像XはサイズがXm×Xnであるとし、対象画像列と考えているk枚の異なる低解像度(LR:Low Resolution)画像列Y(i)のそれぞれのサイズはYm×Ynであるとする。Xは最初に幾何学的変形F(i)を受け、それから、任意のブレカーネルHと畳み込まれ、最後にダウンサンプルDされる。このときベクトル-行列表記によるHR画像とLR画像列のモデル式は、次式となる。
【0009】
【数1】
幾何変換行列F(i)を求めるために、サブピクセル精度の位置合わせには輝度値を用いたテンプレートブロックマッチング法を用いる。参照画像I'(x',y')の注目領域をテンプレートg'k(x',y')として、次の画像I(x+x',y+y')に対して以下の相関係数R(x,y)が一番高い領域を物体の移動先として決定する。
【0010】
【数2】
?は行列の要素ごとの掛け算を示す。この操作を全画像列に対して行うことで、移動物体矩形領域をピクセル精度で位置合わせすることができる。次にサブピクセル精度で位置合わせを行うために、求めた相関係数R(x,y)の補間を行う。相関係数の補間による相関最大位置を求める式は、相関係数が1次元データの場合、ピクセル精度の最大相関位置を
【0011】
【数3】
とすれば、次式で求めることができる。
【0012】
【数4】
次にモデルを通した時に最も観測画像に近づくような高解像度画像を推定する。これは、正則化エネルギー関数を最小化することで達成できる。このエネルギー関数は、誤差項と正則化項から成り立つ。
【0013】
【数5】
第一項は、撮像プロセスのモデルから現れた項であり、第二項は正の重み係数λを伴った正則化項であり、適格な解の方向へ向かってE(X)の最小化を導くための項である。ここでは、エネルギー関数の最小化を共役こう配法を用いて計算する。n回の探索により推定される高解像度画像Xは、次式で与えられる。
【0014】
【数6】
いま、評価関数E(X)に対するHR画像の勾配は、
【0015】
【数7】
で与えられる。HR画像の初期値をX0とおく。勾配は、Xm・Xn次元の縦ベクトルで、それと同じ次元の2系列のベクトルd、eを定義する。
【0016】
【数8】
ここで、各diは直前のdi-1と直交していて、各eiは直前のものと共役になっている。di、eiを更新するたびに、評価関数E(X)の値を求めて、以下の式を終端条件とする。
【0017】
【数9】
ここでftolは、評価関数E(X)の許容誤差を表す定数値である。
【先行技術文献】
【非特許文献】
【0018】
【非特許文献1】S. C. Park, M. K. Park, and M. G. KANG、 "Super-Resolution Image Reconstruction: A Technical Overview", IEEE Signal Processing Magazine, Vol.20, no.3, pp. 21-36, 2003.
【非特許文献2】D. Barreto, L. D. Alvarez, R. Molina、 A. K. Katsaggelos,"Region-based super -resolution for compression、" MSSP、 Springer Netherlands 2007.
【非特許文献3】Minmin Shen, Ping Xue, Ci Wang, "A Novel Scalable Video Coding Scheme Using Super-Resolution Techniques," MSP, IEEE 2008.
【発明の概要】
【発明が解決しようとする課題】
【0019】
DVCが普及しない理由の一つとして既存のフレーム間符号化法に比べて符号化効率が劣る事が挙げられ、この解決のために多くの研究が行われている。DVCの符号化効率はWyner-Zivフレームの予測精度に大きく依存し、特に高周波成分では推定精度が低く、復号化側で多くの誤り訂正信号を必要とするため、DVCの符号化効率の低下の要因となっている。
【0020】
本発明は、この問題点に鑑みなされたもので、DVCにおいて、超解像(SR:Super Resolution)の技術を用いてWyner-Zivフレームの予測精度を上げ、符号化効率を向上させることを目的とする。
【課題を解決するための手段】
【0021】
本発明の符号化装置は、
画像列を符号化して復号化装置に送信する符号化装置であって、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部と、
非並進領域のうち高周波成分を符号化する非並進領域符号化部と、
を有することを特徴とする。
【0022】
本発明の符号化及び復号化システムは、
画像列を符号化して復号化装置に送信する符号化装置と、符号化装置から画像列を受信して復号化する復号化装置とを有する符号化及び復号化システムであって、
前記符号化装置は、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部と、
非並進領域のうち高周波成分を符号化する非並進領域符号化部と、
を有し、
前記復号化装置は、
非並進領域のうち高周波成分を復号化する非並進領域復号化部と、
並進領域に超解像法を適用し、非並進領域に復号化された高周波成分を付加する画像処理部と、
を有することを特徴とする。
【0023】
本発明の符号化方法は、
画像列を符号化して復号化装置に送信する符号化装置における符号化方法であって、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割ステップと、
非並進領域のうち高周波成分を符号化する非並進領域符号化ステップと、
を有することを特徴とする。
【0024】
本発明の符号化及び復号化方法は、
画像列を符号化して復号化装置に送信する符号化装置と、符号化装置から画像列を受信して復号化する復号化装置とを有する符号化及び復号化システムにおける符号化及び復号化方法であって、
前記符号化装置が、画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割ステップと、
前記符号化装置が、非並進領域のうち高周波成分を符号化する非並進領域符号化ステップと、
前記復号化装置が、非並進領域のうち高周波成分を復号化する非並進領域復号化ステップと、
前記復号化装置が、並進領域に超解像法を適用し、非並進領域に復号化された高周波成分を付加する画像処理ステップと、
を有することを特徴とする。
【発明の効果】
【0025】
本発明によれば、分散符号化の符号化効率を改善することができる。
【図面の簡単な説明】
【0026】
【図1】Wyner-Zivフレームの推定を示す図
【図2】ウェーブレット領域DVCを示す図
【図3】超解像復元における画像獲得モデルを示す図
【図4】本発明の実施例に係る符号化装置・復号化装置の構成図
【図5】本発明の実施例に係る符号化装置・復号化装置の概念図
【図6】領域分割の結果の例を示す図
【図7】SR可能領域とSR不可能領域の分離例を示す図
【図8】GOP分割法の概念図
【図9】Keyフレーム間隔の拡張のためのSI推定法を示す図
【図10】スケーラブル符号化の概念図
【図11】SR法の復元過程の概念図
【図12】高解像度画像の復元過程の概念図
【図13】レート歪み曲線を示す図(mother and daughter)
【図14】レート歪み曲線を示す図(coastguard)
【図15】レート歪み曲線を示す図(bus)
【発明を実施するための形態】
【0027】
以下、本発明の実施例について詳細に説明する。
【0028】
図4に、本発明の実施例に係る符号化装置10・復号化装置15の構成図を示す。
【0029】
本発明の実施例では、符号化効率を改善させるため、符号化装置10は、画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部101を有する。並進領域は、超解像法が有効な領域であるため、SR可能領域と呼ぶ。非並進領域は、高周波成分を低周波成分から推定できず、超解像法が有効でない領域であるため、SR不可能領域と呼ぶ。また、静止領域は、超解像法を適用する必要がないため、SR不必要領域と呼ぶ。
【0030】
また、符号化装置10は、画像列をグループ・オブ・ピクチャ(GOP:Group of Picture)に分割するGOP分割部103を有する。以下に説明するように、GOP分割部103は、Keyフレーム間隔を拡張してもよい。
【0031】
キーフレーム(Keyフレーム)は、Keyフレーム符号化部105で符号化され、Wyner-ZivフレームはWyner-Zivフレーム符号化部107で符号化される。上記のように、SR不可能領域は、超解像法が有効でないため、SR不可能領域符号化部において、高周波成分だけエントロピー符号化法等で送信する。
【0032】
復号化装置15では、Keyフレーム復号化部151においてKeyフレームが復号化される。動き推定部153においてKeyフレームからWyner-Zivフレームが推定される。こうして得られた画像列はサイドインフォメーション(SI:Side Information)と呼ばれる。このサイドインフォメーションで予測しきれなかった成分を、パリティシンドロームを用いて誤り訂正を行う。訂正に失敗した場合、動き推定部153は、符号化装置10に追加の情報を要求する。このようにしてWyner-Zivフレーム復号化部155は、Wyner-Zivフレームを復号化する。
【0033】
一方、復号化装置15は、符号化装置10からSR不可能領域の高周波成分を受信し、SR不可能領域復号化部157において復号化する。これらの情報を用いて、画像処理部159は、SR可能領域に対して超解像法を適用し高周波成分を推定する。また、SR不可能領域に対してSR不可能領域復号化部157において復号化した高周波成分を付加する。更に、SR不必要領域に対して、推定したSIの精度が高いため、超解像法を適用せずに復元画像とする。
【0034】
図5に、本発明の実施例に係る符号化装置10・復号化装置15の概念図を示す。図4と基本的に同じ構成となっており、図4の構成図に対応する構成要素には、同じ参照符号を付与している。このように、本発明の実施例では、領域分割、Keyフレーム間隔の拡張(GOP分割)、SIの推定、高周波成分の復元が行われる。
【0035】
<領域分割>
次に、領域分割部101における領域分割について説明する。
【0036】
領域分割の目的は、SR可能領域・SR不可能領域・SR不必要領域に分割する事である。SR可能領域と判定された領域は、画像処理部159における高周波成分の復元でSR法を適用させる。SR不可能領域と判定された領域は、高周波成分を低周波成分から推定できないため、図2のように高周波成分だけエントロピー符号化法で送信する。SR不必要領域と判定された領域は、動きが無いため画像処理部159における高周波成分の復元において、Fusionまでは行うが、その後の繰り返し計算までは適用させる必要がない領域である。
【0037】
まず、動き領域Mを抽出するために、主成分分析(PCA:Principal Component Analysis)を利用した領域分割法を用いる(非特許文献2参照)。この手法は、計算量が小さいためDVCのエンコーダ側にふさわしい領域分割法である。なぜなら、演算量が多い動き推定やそれぞれのフレーム間の誤差画像に対する判定を行う必要がないからである。また動きが存在しない領域をテクスチャ(T)と平坦領域(F)に分割している。Nフレームの[H×W]ピクセルの画像列Ykの第一主成分による復元画像(主成分画像)pcは、
【0038】
【数10】
と表わされる。μを平均画像と呼ぶ。e1(k)は共分散行列の最大固有値に対応する固有ベクトルの要素である。領域分割は、[h×w]ピクセルのブロックB[m,n](m=1,...,h/H且つn=1,...,w/W)ごとに行う。pcとμにおいて、ブロックごとの平均偏差はそれぞれ
【0039】
【数11】
と表される。
【0040】
【数12】
はpcの[m,n]ブロック内の平均値、
【0041】
【数13】
はμの[m,n]ブロック内の平均値である。クラス分けは以下のようにして行う。
【0042】
【数14】
C[x]はxのクラスを表わす。
【0043】
図6にこの手法による領域分割結果の例を示す。(a)(b)はそれぞれ1フレームと15フレーム、(c)は平均画像μ、(d)は主成分画像pc(可視化のため画素値を加えた)、(e)は領域分割の結果、ラベル付けを行ったものである。黒い領域は動き領域M、白はテクスチャT、グレーは平坦領域Fを表わす。
【0044】
このように、映像を動き領域M、テクスチャ領域T、平坦領域Fに分割できる。本発明の実施例では、この時静止領域と判定されたテクスチャ領域及び平坦領域(TF)は、SRする必要がないSR不必要領域と定義する。また動き領域MはSR可能領域とSR不可能領域が混在しているため次の行程でその分離を行う。
【0045】
次に、動き領域Mを並進領域TM(SR可能領域)と非並進領域NTM(SR不可能領域)に分割するために、フーリエ振幅スペクトルのPCAを行う。なぜならフーリエ変換では信号の並進は位相スペクトルにのみ反映され、振幅スペクトルはほぼ変化しないため、動き領域Mの中で振幅スペクトルに変化がある領域を非並進領域NTMとみなすことができるからである。なお、信号の並進性とは、同じ形且つ同じ大きさで物体が動くことを意味する。
【0046】
図7に、SR可能領域とSR不可能領域の分離例を示す。まず元画像列Ykに対してそれぞれB[m,n]ごとに離散フーリエ変換(DFT:Discrete Fourier Transform)を行う。それぞれのB[m,n]で高い周波数解像度を得るために、それを含む[s×s]ピクセルのブロックを[128×128]ピクセルにゼロパディングし(s≧128の時は不要)、ハニング窓をかけてからDFTを行う。フレーム内全てのブロックの振幅スペクトルを合わせたものをスペクトル画像Akとすると次式で表される。
【0047】
【数15】
FB[]はブロックごとのDFTを表す。次に動き領域の判定と同様にAkに対して行うその主成分をFpcとすると次式となる。
【0048】
【数16】
e'1(k)は共分散行列の最大固有値に対応する固有ベクトルの要素である。ここで、Fpcで大きな値を持つブロックは非並進領域である。よって閾値処理
【0049】
【数17】
によって並進領域TMと非並進領域NTMへの分割ができる。Fpc[m,n]は、Fpcの[m,n]ブロックである。以上により判定した並進領域TMをSR可能領域、非並進領域NTMをSR不可能領域と定義する。
【0050】
これらのSR可能領域、SR不可能領域、SR不必要領域に対して、画像処理部159において以下の処理が行われる。
【0051】
SR可能領域では、離散ウェーブレット変換をし、低周波成分LL成分を取り出し、誤り訂正を行う。その後にSR法を適用し高周波成分を推定する。
【0052】
SR不可能領域では、離散ウェーブレット変換をし、低周波成分LL成分を取り出し、誤り訂正を行う。その後別途送られてきた高周波成分を付加して逆ウェーブレット変換をする。
【0053】
SR不必要領域は、動きが無い領域であるため、推定したSIの精度が高いためこれを復元画像とする。
【0054】
<GOP分割>
次に、領域分割の結果を利用した、GOP分割部103における映像のGOP分割について説明する。
【0055】
従来のDVCでは図2のように奇数フレームをKeyフレーム、偶数フレームをWyner-Zivフレームに設定するため、GOPはKeyフレームで挟まれた3枚となる。本発明の実施例では符号化効率改善のために、Keyフレーム間隔を広げる事を検討する。その際、SI推定やSR法の適用において似た動きを持ったフレーム同士を同じGOPに設定する事が望ましい。なぜなら、異なる動き領域を含むGOP内で推定したSIは精度が低くパリティシンドロームを多く送信する必要があるため符号化効率の低下につながるからである。同様に異なる動き領域を含むGOP内でのSR法は精度の低いものとなる。そこで、領域判定の結果を利用したGOP分割を提案する。
【0056】
図8のように25枚の画像列を例にとると、まず従来のDVCのように奇数フレームをKeyフレームに、偶数フレームをWyner-Zivフレームに設定する。そしてKeyフレームで囲んだ三枚を初期のGOPとしてGOP単位で領域分割を行う。
【0057】
次に、SR可能領域の画素数をNTM、フレームの全画素数をNallとしたとき、GOP毎に判定されたSR可能領域の画像全体に対する割合を計算する。この値のGOP間での比が一定以下ならGOPを結合し、一定以上なら結合しない。
【0058】
【数18】
なぜならSR可能領域の比率が近いGOP間は似ている動きを含んでいると判断できるからである。よってそういったGOPを結合すれば、SI推定やSR法の適用において精度を低下させる事無くKeyフレームの間隔を広げる事ができるため、圧縮効率の改善への解決法となる。
【0059】
図8を例にとると、1〜3枚目と3〜5枚目のGOPを結合し、5〜7枚目は結合しない。よって画像列を1〜5枚目のGOP1、5〜7枚目のGOP2と分割する事ができ、このときKeyフレームを1、5、7枚目、Wyner-Zivフレームを2〜4、6枚目と設定する。
【0060】
<SI推定>
次に、動き推定部153におけるSI推定について説明する。
【0061】
上記のように、Keyフレームの間隔を拡張するため、SIの推定を間隔に合わせて行う必要がある。従来法では、前方向の動きベクトルの半分で動き補償した画像と後ろ方向の動き補償画像の平均をSIとした。
【0062】
本発明の実施例では図9のように、対象となるWyner-ZivフレームからKeyフレームまでの間隔から線形的に動きベクトルを計算し、生成した2枚の動き補償画像の平均をとる。図9の例では、5枚のGOPのうち3枚目のGOP3に対して、前方向の動きベクトルに2/5を乗算し、後ろ方向の動きベクトルに3/5を乗算することで、Wyner-Zivフレームを推定する。
【0063】
<高周波成分の復元>
次に、画像処理部159における高周波成分の復元について説明する。
【0064】
従来のSRを利用したDVCでは、Keyフレームからの動き補償とFusionによって暫定的な対象画像の高解像度化を行う(非特許文献3参照)。この例を以下に示す。
【0065】
スケーラブル符号化とは、映像を空間・時間・解像度において階層化する事により、多様化する映像機器に対してもそれぞれのデータを持つのではなく、ワンソースでの処理を可能にする符号化法である。解像度の階層構造に関してスケーラブル符号化を利用する場合、例えば図10のように奇数フレームと偶数フレームに分けてそれぞれ異なる解像度で符号化を行う。復号化側で低解像度(LR)レイヤーがリクエストされた場合、高解像度(HR)レイヤーを全てダウンサンプルすればよいが、HRレイヤーがリクエストされた場合にはLRレイヤーの画像を全てアップサンプルしなければならない。このときBilinear補間やBicubic補間など他のフレームを参照しない周囲の画素からの関数的なフィッティングによって画素を推定するアップサンプリング法などが考えられるが、非特許文献3では、SR法によって高解像度化をする事を提案している。
【0066】
しかしこれは今までの複数の低解像度画像の情報を統合するSR法とは異なり、一定間隔で保持している周囲のHRフレームの情報を利用するSR法である。また、このようなHRレイヤーとLRレイヤーの考え方は、本発明の実施例においてKeyフレームとWyner-Zivフレームに置き換えて考える事ができるため、この復元処理のみに焦点を当て説明を行う。
【0067】
図11がSR法の復元過程の概要であり、大きく分けてHRレイヤーからの動き補償と繰り返し計算のステップに分けられる。
【0068】
図11においてアップサンプリングしたい対象画像がGl、SR法に利用する前後のHR画像がFl-1、Fl+1であるため、まず動き補償のためにFl-1、Fl+1とGl間の動き量を求める必要がある。非特許文献3ではブレをHk、ダウンサンプルをSkとした時にHRレイヤーFとLRレイヤーGの関係を
【0069】
【数19】
と仮定しているため、Fl-1、Fl+1からGl-1、Gl+1を生成する。その後、対象画像となるGlとGl-1、Gl+1の間の動き量をテンプレートブロックマッチングによって求める。しかしこのままでは、動き量はLRレイヤー基準のピクセルサイズであるため、拡大率を決定するSの値を基に算出した動き量をHRレイヤーの基準に合わせる。この動き量を基にFl-1、Fl+1から対象画像の候補として動き補償した画像が図11のF'l-1、F'l+1である。
【0070】
次に、対象画像であるGlをBicubic補間しF'lを作成する。対象画像の高解像度化画像の候補としてF'l、F'l-1、F'l+1の3枚がある状態になる。この候補画像の以下に示すFusionと繰り返し計算による更新によって対象画像を高解像度化していく。
【0071】
Fusionでは、候補である3枚を以下のように融合させる。
【0072】
【数20】
varは分散を示しており、共通部分が多ければ多くの情報を反映させ、少なければ反映させないように係数によって制御している。なおvarの値については、
【0073】
【数21】
によって算出する。F'pはqのパッチであり、i、jはパッチ内の画素の座標を示す。
【0074】
このように、Fusionのステップで候補の3枚を融合し、対象画像の初期推定高解像度画像を得ることができる。
【0075】
次に、繰り返し計算では、劣化モデルを利用してこの画像を更新していく必要がある。この過程は先述のMAP式に似ており、以下の式で行う。
【0076】
【数22】
右辺の一項目がSR法の誤差項で二項目が正則化項に相当する。誤差項については、複数枚からのSR法ではないため劣化モデルはダウンサンプルSとブレHのみである。また正則化項は、ラプラシアンフィルタDを推定画像に畳み込んでいるため、エネルギーが低周波成分に集中しているという画像の性質に合うように繰り返し計算を安定化させる項である。このように非特許文献3では、初期推定HRを周囲のHRレイヤーからの動き補償によって生成し、その最適化のために対象画像との間の劣化モデルを利用した評価関数の最小化を行う。
【0077】
上記のように、非特許文献3ではKeyフレームからの動き補償とFusionにおいてKeyフレームの情報が利用されるが、その後の繰り返し計算ではあくまで対象画像との間での更新作業となり、その他のフレームの情報を完全に利用できているとは言い難い。
【0078】
よって本発明の実施例では、このSR法に、複数の低解像度画像からのSR法の方法を取り入れる。レベル1まで離散ウェーブレット変換したのちLL成分のみを取り出して誤り訂正したものが、Wyner-Zivフレームの低周波成分である。図12の2、3、4枚目がこれに相当する。よって本発明の実施例では、Keyフレームである1、5枚目とWyner-Zivフレームの低周波成分である2、3、4枚目を用いて2、3、4枚目を高解像度化する事を目的とする。
【0079】
なおこの処理はSR可能領域のみに行うものである。対象画像を2枚目とすると、まずKeyフレームである1、5枚目から両方向の動き補償を行い、フレーム2'、2''を生成し、2枚目をBicubic補間した画像とでFusionを行う。これをSR法の初期推定HRとする。
【0080】
続いてMAP推定による繰り返し計算を行う。通常のMAP推定では低解像度フレーム間で演算を行うが、本手法ではKeyフレームの情報も利用する事ができる。よって
【0081】
【数23】
をそれぞれ満たすように評価関数を最小化していく。これは、上記のSR法の式(4)を以下のように表すことに相当する。
【0082】
【数24】
<本発明の実施例の効果>
以上のように、本発明の実施例によれば、画像列を並進領域と非並進領域に分割することで、DVCの高符号化効率を実現することができ、また、復元画像の品質を向上させることが可能となる。
【0083】
最後に、本発明による符号化方法と従来法を比較し、その有効性を検証した。実動画による実験を以下の手順で行った。
【0084】
(1)本発明による符号化方法の手順
1.25枚の非圧縮の画像列を用意する。
2.Keyフレームを本発明の実施例に従って選定する。
3.全フレームをJPEG2000方式に基づき符号化、復号化を行う(量子化によるビットレートの制御)
4.復号したKeyフレームからSIを推定し、ウェーブレット変換する。
5.SIの低周波成分を誤り訂正する。
6.(SR可能領域)SIの低周波成分とKeyフレームからSR(Fusion+MAP推定)を行い、高周波成分を復元する。
7.(SR不可能領域)SIの低周波成分と復号したWyner-Zivフレームの高周波成分を合成し逆ウェーブレット変換により復元する。
8.(SR不必要領域)誤り訂正したWyner-Zivフレームの低周波成分とKeyフレームからSR(Fusionのみ)で復元する。
【0085】
(2)従来法1による手順
1.25枚の非圧縮の画像列を複数用意する。
2.奇数フレームをKeyフレームに偶数フレームをWyner-Zivフレームに設定する。
3.全フレームをJPEG2000方式に基づき符号化、復号化を行う(量子化によるビットレートの制御)
4.復号したKeyフレームからSIを推定する。
5.SIを誤り訂正する。
【0086】
(3)従来法2による手順
1.25枚の非圧縮の画像列を複数用意する。
2.奇数フレームをKeyフレームに偶数フレームをWyner-Zivフレームに設定する。
3.全フレームをJPEG2000方式に基づき符号化、復号化を行う(量子化によるビットレートの制御)
4.復号したKeyフレームからSIを推定し、ウェーブレット変換する。
5.SIの低周波成分を誤り訂正する。
6.誤り訂正したSIと復号したWyner-Zivフレームの高周波成分を合成し逆ウェーブレット変換により復元する。
【0087】
以下に、評価実験結果を示す。
【0088】
ここでは領域分割の結果を利用したKeyフレーム選定の効果を示す。Keyフレーム選定手法だけの効果を示すために、ここではKeyフレームとWyner-Zivフレームの数を統一した上で、Keyフレーム選定方法だけを変えながら、どちらもシステムで実装して評価した。評価項目として、同じ画像列を送る場合のSI低周波成分の誤り訂正量の総和と、SR結果の平均PSNR(Peak Signal to Noise Ratio)で評価する。ここで均等に選定とは等間隔でKeyフレームを選定する手法とする。
【0089】
表1 SI低周波成分の誤り訂正量[bits/pixel]
【0090】
【表1】
表1のように、それぞれの動画において、領域分割結果を利用してKeyフレームを選定した方が、より少ない誤り訂正量でSI低周波成分を訂正できる事がわかる。
【0091】
次にSR結果を示す。
【0092】
推定したSIに離散・ウェーブレット変換を施し、低周波成分を修正した後に、GOP単位でSRを行い高周波成分の復元を行う。SRを行い復元したWyner-Zivフレームの平均PSNRを結果として示す。なお、実験条件は先ほどと同様に、KeyフレームとWyner-Zivフレームの数を統一した上で、Keyフレーム選定方法だけを変えながら、どちらもシステムで実装し評価した。
【0093】
表2 SR結果のWynerZivフレーム平均PSNR[dB]
【0094】
【表2】
表2より、それぞれの動画において、領域分割によってKeyフレームを選定した方がより高い精度でWyner-Zivフレームを復元できることがわかる。
【0095】
次にシステム全体としての評価を示す。
【0096】
図13〜図15に、実動画に対して本発明による符号化方法、従来法1、従来法2で符号化したときの歪みレート曲線を示す。
【0097】
図13〜図15のレート歪み曲線より、mother and daughter及びcoastguardでは一定のPSNRに達するまでは、本発明による符号化方法が一番少ないビット数で復元できていることが確認できる。これは、従来法2でエントロピー符号化していたWyner-Zivフレームの高周波成分の大部分をSRによって復元できた事による情報量の削減の結果だと考えられる。しかし両動画とも、一定のPSNRを超えると提案法よりも符号化効率が悪くなる。これは、提案法では適用しているSR自体の限界に達しており、量子化を全くしなかった場合のSR結果のPSNRに漸近的に近づいているからだと考えられる。
【0098】
一方でbusでは、本発明による符号化方法の優位性を示す事ができていない。これは、busでは動画の撮影者が移動しており、且つ複雑な動きを多く含む動画であったため、SR法がうまく適用できなかったからだと考えられ、妥当な結果だといえる。
【0099】
説明の便宜上、本発明の実施例に係る符号化装置・復号化装置は機能的なブロック図を用いて説明しているが、本発明の符号化装置・復号化装置は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、符号化装置・復号化装置の各機能部がソフトウェアで実現され、プログラムとして符号化装置・復号化装置内に実現されてもよい。また、2以上の実施例及び実施例の各構成要素が必要に応じて組み合わせて使用されてもよい。
【0100】
以上、本発明の実施例について説明したが、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々の変更・応用が可能である。
【符号の説明】
【0101】
10 符号化装置
101 領域分割部
103 GOP分割部
105 Keyフレーム符号化部
107 Wyner-Zivフレーム符号化部
109 SR不可能領域符号化部
15 復号化装置
151 Keyフレーム復号化部
153 動き推定部
155 Wyner-Zivフレーム復号化部
157 SR不可能領域復号化部
159 画像処理部
【特許請求の範囲】
【請求項1】
画像列を符号化して復号化装置に送信する符号化装置であって、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部と、
非並進領域のうち高周波成分を符号化する非並進領域符号化部と、
を有する符号化装置。
【請求項2】
前記領域分割部は、画像列のブロック毎に離散フーリエ変換を行い、変換後のブロックに対してフーリエ振幅スペクトルの主成分分析を行い、主成分分析結果が閾値より小さい領域を並進領域とし、主成分分析結果が閾値以上の領域を非並進領域とし、
前記符号化装置は、画像列をグループ・オブ・ピクチャに分割し、並進領域の画像全体に対する割合が閾値以下である場合にグループ・オブ・ピクチャを結合するグループ・オブ・ピクチャ分割部を更に有する、請求項1に記載の符号化装置。
【請求項3】
画像列を符号化して復号化装置に送信する符号化装置と、符号化装置から画像列を受信して復号化する復号化装置とを有する符号化及び復号化システムであって、
前記符号化装置は、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部と、
非並進領域のうち高周波成分を符号化する非並進領域符号化部と、
を有し、
前記復号化装置は、
非並進領域のうち高周波成分を復号化する非並進領域復号化部と、
並進領域に超解像法を適用し、非並進領域に復号化された高周波成分を付加する画像処理部と、
を有する符号化及び復号化システム。
【請求項4】
前記符号化装置は、
画像列をグループ・オブ・ピクチャに分割し、並進領域の画像全体に対する割合が閾値以下である場合にグループ・オブ・ピクチャを結合するグループ・オブ・ピクチャ分割部を更に有し、
前記復号化装置は、
キーフレームを復号化するキーフレーム復号化部と、
グループ・オブ・ピクチャ内の対象となる画像からキーフレームまでの間隔に基づいて動きベクトルを計算する動き推定部と、
を更に有する、請求項3に記載の符号化及び復号化システム。
【請求項5】
前記画像処理部は、キーフレームの情報と、対象となる画像の低解像度フレームの情報とを利用して、対象となる画像を高解像度化する、請求項4に記載の符号化及び復号化システム。
【請求項6】
画像列を符号化して復号化装置に送信する符号化装置における符号化方法であって、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割ステップと、
非並進領域のうち高周波成分を符号化する非並進領域符号化ステップと、
を有する符号化方法。
【請求項7】
画像列を符号化して復号化装置に送信する符号化装置と、符号化装置から画像列を受信して復号化する復号化装置とを有する符号化及び復号化システムにおける符号化及び復号化方法であって、
前記符号化装置が、画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割ステップと、
前記符号化装置が、非並進領域のうち高周波成分を符号化する非並進領域符号化ステップと、
前記復号化装置が、非並進領域のうち高周波成分を復号化する非並進領域復号化ステップと、
前記復号化装置が、並進領域に超解像法を適用し、非並進領域に復号化された高周波成分を付加する画像処理ステップと、
を有する符号化及び復号化方法。
【請求項1】
画像列を符号化して復号化装置に送信する符号化装置であって、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部と、
非並進領域のうち高周波成分を符号化する非並進領域符号化部と、
を有する符号化装置。
【請求項2】
前記領域分割部は、画像列のブロック毎に離散フーリエ変換を行い、変換後のブロックに対してフーリエ振幅スペクトルの主成分分析を行い、主成分分析結果が閾値より小さい領域を並進領域とし、主成分分析結果が閾値以上の領域を非並進領域とし、
前記符号化装置は、画像列をグループ・オブ・ピクチャに分割し、並進領域の画像全体に対する割合が閾値以下である場合にグループ・オブ・ピクチャを結合するグループ・オブ・ピクチャ分割部を更に有する、請求項1に記載の符号化装置。
【請求項3】
画像列を符号化して復号化装置に送信する符号化装置と、符号化装置から画像列を受信して復号化する復号化装置とを有する符号化及び復号化システムであって、
前記符号化装置は、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割部と、
非並進領域のうち高周波成分を符号化する非並進領域符号化部と、
を有し、
前記復号化装置は、
非並進領域のうち高周波成分を復号化する非並進領域復号化部と、
並進領域に超解像法を適用し、非並進領域に復号化された高周波成分を付加する画像処理部と、
を有する符号化及び復号化システム。
【請求項4】
前記符号化装置は、
画像列をグループ・オブ・ピクチャに分割し、並進領域の画像全体に対する割合が閾値以下である場合にグループ・オブ・ピクチャを結合するグループ・オブ・ピクチャ分割部を更に有し、
前記復号化装置は、
キーフレームを復号化するキーフレーム復号化部と、
グループ・オブ・ピクチャ内の対象となる画像からキーフレームまでの間隔に基づいて動きベクトルを計算する動き推定部と、
を更に有する、請求項3に記載の符号化及び復号化システム。
【請求項5】
前記画像処理部は、キーフレームの情報と、対象となる画像の低解像度フレームの情報とを利用して、対象となる画像を高解像度化する、請求項4に記載の符号化及び復号化システム。
【請求項6】
画像列を符号化して復号化装置に送信する符号化装置における符号化方法であって、
画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割ステップと、
非並進領域のうち高周波成分を符号化する非並進領域符号化ステップと、
を有する符号化方法。
【請求項7】
画像列を符号化して復号化装置に送信する符号化装置と、符号化装置から画像列を受信して復号化する復号化装置とを有する符号化及び復号化システムにおける符号化及び復号化方法であって、
前記符号化装置が、画像列から静止領域と動き領域とを抽出し、動き領域のうち信号の並進性が閾値より大きい領域を並進領域とし、動き領域のうち信号の並進性が閾値以下の領域を非並進領域とする領域分割ステップと、
前記符号化装置が、非並進領域のうち高周波成分を符号化する非並進領域符号化ステップと、
前記復号化装置が、非並進領域のうち高周波成分を復号化する非並進領域復号化ステップと、
前記復号化装置が、並進領域に超解像法を適用し、非並進領域に復号化された高周波成分を付加する画像処理ステップと、
を有する符号化及び復号化方法。
【図1】
【図4】
【図10】
【図11】
【図13】
【図14】
【図15】
【図2】
【図3】
【図5】
【図6】
【図7】
【図8】
【図9】
【図12】
【図4】
【図10】
【図11】
【図13】
【図14】
【図15】
【図2】
【図3】
【図5】
【図6】
【図7】
【図8】
【図9】
【図12】
【公開番号】特開2012−175527(P2012−175527A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−37150(P2011−37150)
【出願日】平成23年2月23日(2011.2.23)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(899000079)学校法人慶應義塾 (742)
【Fターム(参考)】
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願日】平成23年2月23日(2011.2.23)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(899000079)学校法人慶應義塾 (742)
【Fターム(参考)】
[ Back to top ]