説明

ビデオ品質の測定

本発明は、ビデオ品質測定方法に関する。特に、ビデオ信号は、元の形式と、符号化された形式と、復号された形式と、を有し、前記符号化された形式では、圧縮アルゴリズムを使用して、前記ビデオ信号が符号化されており、前記圧縮アルゴリズムは、前記符号化されたビデオ信号が、関連する量子化ステップサイズパラメータを含むように、可変量子化ステップサイズを利用しており、前記復号された形式では、前記符号化されたビデオ信号が、前記元の形式に少なくとも部分的に再変換されている。前記方法は、a)前記量子化ステップサイズパラメータの関数である第1の品質測度を生成するステップと、b)マスキング測度を生成するステップと、c)前記第1と第2の測度とを組み合わせるステップと、を含む。前記マスキング測度は、前記復号された形式の前記ビデオ信号によって表されている前記フレームの一部分の空間複雑度の関数である。前記フレームの一部分は、予測残差の関数である第2の測度を生成して、第2の測度が閾値を超えているピクチャの1つ以上の領域を識別することによって選択される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特に、圧縮アルゴリズムを使用してビデオ信号を符号化した状況における、ビデオ品質の測定に関する。
【背景技術】
【0002】
1つの場所から別の場所にビデオ信号を送信する場合に、符号化アルゴリズムを使用して信号を符号化又は圧縮すると、符号化しなかった場合に必要とされたであろう帯域幅よりも少ない帯域幅を使用して、符号化された信号を送信できることが知られている。符号化された信号は、受信されると、元の信号を復元するために復号される。多くの符号化技術では、二次元コサイン変換を行って、一連の変換係数を生成し、その大きさを量子化する。従って、帯域幅を効率的に割り振ることができ、量子化の粒度、即ちステップサイズに変化をもたせることができる。
【0003】
ビデオシーケンスの符号化及び復号プロセスにより、歪みが生じ、又はさもなければ、信号品質が下がる場合がある。歪みのレベルを測定する1つのやり方では、歪んだビデオシーケンスにおける知覚可能な歪みのレベルについての観察者(viewer)の意見に注目して、その結果を平均して、平均オピニオン評点(Mean Opinion Score, MOS)を取得することを必要とする。しかしながら、これは時間のかかるプロセスであり得る。従って、観察者がビデオシーケンスにおいて知覚するであろう品質の損失を予測できることが望ましい。符号化/復号して送信するプロセスの結果としてのビデオ品質の劣化は、元のシーケンスを参照することによって得られるが、このようなアプローチは不便である場合が多い。
【0004】
予測符号化では、実際の信号と予測信号との差を送信する場合がある。実際の信号と予測信号との差は、「予測残差」として知られている。通常は、それを量子化したものを送信する。
【0005】
我々の現在係属中の国際特許出願WO2007/066066号によると、複数のフレームを表すビデオ信号に対する品質測度を生成する方法であって、前記ビデオ信号は、元の形式と、符号化された形式と、復号された形式と、を有し、前記符号化された形式では、圧縮アルゴリズムを使用して、前記ビデオ信号が符号化されており、前記圧縮アルゴリズムは、前記符号化されたビデオ信号が、関連する量子化ステップサイズパラメータを有するように、可変量子化ステップサイズを利用しており、前記復号された形式では、前記符号化されたビデオ信号は、前記元の形式に少なくとも部分的に再変換されていて、前記方法は、a)前記量子化ステップサイズパラメータの関数である第1の品質測度を生成するステップと、b)前記復号された形式の前記ビデオ信号によって表されている前記フレームの少なくとも一部分の空間複雑度の関数である第2の品質測度を生成するステップと、c)前記第1の品質測度と前記第2の品質測度とを組み合わせるステップと、を含む方法、が提供されている。
【0006】
予測符号化では、実際の信号と予測信号との差を送信する場合がある。実際の信号と予測信号との差は、「予測残差」として知られている。通常は、それを量子化したものを送信する。
【発明の概要】
【0007】
本発明によると、複数のフレームを表すビデオ信号に対する品質測度を生成する方法であって、前記ビデオ信号は、元の形式と、符号化された形式と、復号された形式と、を有し、前記符号化された形式では、圧縮アルゴリズムを使用して、前記ビデオ信号が符号化されており、前記圧縮アルゴリズムは、前記符号化されたビデオ信号が、関連する量子化ステップサイズパラメータを有するように、可変量子化ステップサイズを利用し、且つ前記符号化されたビデオ信号が、前記ビデオ信号の予測残差の表現を含むように、差分符号化を利用しており、前記復号された形式では、前記符号化されたビデオ信号が、前記元の形式に少なくとも部分的に再変換されていて、前記方法は、
a)所定の関係に従って、前記量子化ステップサイズパラメータによって決まる第1の品質測度を生成するステップと、
b)所定の関係に従って、前記復号された形式の前記ビデオ信号によって表されている前記フレームの少なくとも一部分の空間複雑度によって決まるマスキング測度を生成するステップと、
c)所定の関係に従って、前記第1の品質測度と前記マスキング測度との両者によって決まる、組み合わされた測度を生成するステップと、
を含み、
前記方法は、更に、
所定の関係に従って、前記ビデオ信号の予測残差によって決まる第2の測度を生成するステップと、
前記第2の測度が閾値を超えている、ピクチャの1つ以上の領域を識別するステップと、
を含み、
前記マスキング測度が、所定の関係に従って、前記識別された領域の前記空間複雑度によって決まる、方法、が提供されている。
【0008】
本発明の別の態様は、請求項に示されている。
【0009】
ここで、更に、添付の図面を参照して、本発明の幾つかの実施形態を例示的に記載する。
【図面の簡単な説明】
【0010】
【図1】ビデオシーケンスの品質を推定する装置を、機能に関して示したブロック図である。
【図1a】ピクチャ中の画素に対して、水平方向のコントラスト測度がどのように計算されるかを示している。
【図1b】図1aのピクチャ中の画素に対して、垂直方向のコントラスト測度がどのように計算されるかを示している。
【図2】図1のシステムにおけるテスト結果を示すプロットを示している。
【図3】図1のシステムにおけるテスト結果を示すプロットを示している。
【図4】図1のシステムにおけるテスト結果を示すプロットを示している。
【図5】図1のシステムにおけるテスト結果を示すプロットを示している。
【図6】図1のシステムにおけるテスト結果を示すプロットを示している。
【図7】図1のシステムにおけるテスト結果を示すプロットを示している。
【図8】図1のシステムにおけるテスト結果を示すプロットを示している。
【図9】図1のシステムにおけるテスト結果を示すプロットを示している。
【図10】図1のシステムにおけるテスト結果を示すプロットを示している。
【図11】図1のシステムにおけるテスト結果を示すプロットを示している。
【発明を実施するための形態】
【0011】
以下に記載されている実施形態は、非参照の、復号器に基づいてビデオ品質を評価するツール(no-reference, decoder-based video quality assessment tool)に関する。復号されたビデオの主観的品質を推定するために、このツールのアルゴリズムは、各復号されたマクロブロックに対する量子化ステップサイズパラメータ(通常は、符号化された入力ビデオストリームに含まれている変数)と、各復号されたピクチャからの画素強度値とを使用して、ビデオ復号器内で実行することができる。各フレームの復号された画素に対して、スライディングウィンドウ平均画素強度差(画素コントラスト測度)を計算して、結果として得られた平均(CWS)を、ビデオの雑音マスキング特性の測度として使用する。次に、CWSパラメータとステップサイズパラメータの平均との関数として、品質を推定する。この関数は、特徴的な復号されたシーケンスのトレーニングデータベースと、そのシーケンスに対する前に取得した主観的スコアとに対して、重回帰分析を行なうことによって、事前に決定される。一方のステップサイズと、他方の、複雑度を推定するためのスライディングウィンドウ平均画素強度差の測度との組み合わせを使用して、主観的品質を適切に推定する。
【0012】
原則として、使用される測定プロセスは、変換符号化を使用し且つ可変量子化ステップサイズを有する圧縮技術を用いて符号化されたビデオ信号に、概ね適用することができる。しかしながら、記載されているバージョンは、H.262標準とH.264標準とに従って符号化された信号に使用するように設計されている(しかしながら、これは、他のDCTの基づく標準コーデック、例えば、H.261、H.263、MPEG−2(フレームベース)、等にも適用される)。
【0013】
この測定方法は、非介入(non-intrusive)又は「非参照(no-reference)」タイプに関する。即ち、この測定方法は、元の信号のコピーにアクセスする必要がない。この方法は、適切な復号器内で使用するように設計されているので、符号化されたビットストリームからのパラメータと、復号されたビデオピクチャからのパラメータとの両者にアクセスしなければならない。
【0014】
先ず、この技術をトレーニングしてテストするために使用されるビデオデータベースについて説明しなければならない。ビデオデータベースは、異なる8秒のシーケンスを18本、即ち、625ラインのブロードキャストフォーマットの全てから構成されている。シーケンスのうちの6本は、VQEGフェーズIのデータベース[7]からであり、残りのシーケンスは、他の場所から得る。品質パラメータは、各シーケンスの持続期間における平均に基づくので、動きとディテールとについて一貫した特性を有するコンテンツを選択するのが重要である。シーケンスの詳細は、テーブル1に示されている。
【表1】

【0015】
符号化
H.262の符号器を使用して、トレーニングシーケンスとテストシーケンスとの全てを符号化する。各々に対して設定された符号器のオプションは同じである。レート制御をディスエーブルにして、量子化パラメータ(quantisation parameter, QP)を固定して、I、P、B、P、B、Pのフレームパターンを使用する。次に、各ソースファイルに対するテスト間で、量子化ステップサイズパラメータをインクリメントする。
【0016】
トレーニング集合とテスト集合との両者に対して、12個の主題を使用して、一定の形式による単一の刺激の主観的テストを行なう。5段階のACR評価尺度を使用して、主観的スコアを取得する。テーブル2(トレーニング集合)とテーブル3(テスト集合)とに、平均オピニオン評点(averaged mean opinion score, MMOS)の結果を示した。
【表2】

【表3】

【0017】
図1に示されている装置において、入力信号を入力1で受信して、ビデオ復号器に渡す。ビデオ復号器は復号して、各ピクチャに対して次のパラメータを出力する。
【0018】
復号されたピクチャ(D)
水平方向の復号されたピクチャの、画素におけるサイズ(X)
垂直方向の復号されたピクチャの、画素におけるサイズ(Y)
水平方向の復号されたピクチャの、マクロブロックにおけるサイズ(M
垂直方向の復号されたピクチャの、マクロブロックにおけるサイズ(M
量子化ステップサイズパラメータの集合(Q)
DCT係数(R)
装置には、2本の分析経路がある。2本の分析経路は、ピクチャ平均量子化ステップサイズ信号(picture-averaged quantiser step-size signal, AvQstep(n))(ユニット3)と、ピクチャ平均コントラスト測度(picture-averaged contrast measure, CWS)(ユニット4)とを計算する役割を有する。次に、ユニット5は、信号AvQstep(n)の時間平均とCW(n)の時間平均とをとって、信号AvQstepとCWSとをそれぞれ提供する。最後に、ユニット6において、これらの信号を組み合わせて、復号されたビデオシーケンスDに対する主観的品質の推定値PMOSを提供する。要素3乃至6は、個々のハードウェア要素によって実施され得るが、適切にプログラムされたプロセッサを使用して、これらの全ての段階を実施すると、より便利である。
【0019】
ピクチャ平均Q
この第1のバージョンは、H.264に適しており、復号器から出力された量子化ステップサイズ信号Qを使用する。Qは、現在の復号されたピクチャの各マクロブロックに対して、1つの量子化ステップサイズパラメータ値(quantiser step-size parameter value, QP)を含んでいる。H.264の場合に、量子化パラメータQPは、変換係数を符号化するために使用される線形量子化の空間QSTEPを定義している。実際には、QPは、予め定義された空間のテーブルにインデックスを付し、QPが6インクリメントするごとに、QSTEPのサイズは2倍になる。ユニット3において、ピクチャ平均量子化パラメータQPFは、次のように計算される。
【数1】

【0020】
は、ピクチャ中の水平方向のマクロブロック数であり、Mは、垂直方向のマクロブロック数である。Q(i,j)は、位置(i,j)におけるマクロブロックの量子化ステップサイズパラメータである。
【0021】
上述で定義されている分析は、H.264のメインプロファイルに関する。H.262における量子化プロセスは、この分析に十分に変更できない。従って、幾つかの修正が必要である。H.262において、イントラDC係数と他の全ての変換係数とは、量子化プロセスが異なる。単純化のために、AC変換係数のみに制限して、量子化の結果を分析する。
【0022】
AC変換係数の場合に、符号化プロセスによって取り込まれる量子化雑音量は、量子化スケーリング係数QPと重み行列qWeightとを組み合わせることによって決定される。係数QPは、マクロブロック内の全てのDCT係数の量子化に対して1つの定数であるが、マクロブロック間では様々に異なり得る(即ち、前のマクロブロックのQPから僅かに変化+/−する)。行列qWeightは、8×8のDCT行列の各成分に対して、ユーザ定義の重み係数を与え、通常は符号器を初期化するときに設定される。これは、シーケンスレベルにおいてのみ設定されるので、各マクロブロックに対して同じである。
【0023】
フレームn内のマクロブロックkについて、レベル値levに量子化されたDCT係数成分jを、(1)に従って係数qDCTに復号する。
【数2】

【0024】
なお、Nは、ビデオシーケンス中のフレームの集合を表わし、K(n)は、フレームn内で分析されるマクロブロックの集合である。変数cは、[2]で定義されているように{−0,1,+1}のうちの1つの値を有する符号のオフセットである。
【0025】
成分jに対する実際の量子化ステップサイズQstepは、(2)によって計算することができる。
【数3】

【0026】
スケーリング係数QPは、インデックスQPiによって、予め定められた値の固定された集合のうちの1つに設定される。テーブル4に示されているように、値の2つの集合が標準によって定義されており、線形又は非線形に間隔を置いたパラメータの選択肢を提供している。
【表4】

【0027】
各マクロブロックに対する重み行列の効果を反映するように、加重量子化パラメータwQstepを定義することができる。
【数4】

【0028】
(4)において、Jは、平均される変換係数の集合を定義しており、Jtotは、その集合中のメンバ数に等しい。
【0029】
重み行列qWeightの効果を詳しく検討すると、この調査の範囲を超えてしまうが、集合Jの2つの異なる定義をテストした。
【0030】
J1={最高周波数の3つのAC係数(これらがアクティブであるかどうかは関係ない)}
J2={全てのアクティブな(非ゼロの)AC係数}
(5)に従って、フレームnに対する、平均ステップサイズ測度AvQstep(n)を計算することができる。
【数5】

【0031】
K(n)は、フレームn中の分析されるマクロブロックの集合を定義している。通常、これは、エッジ領域を除いたピクチャ全体である。即ち、ピクチャは切り取られている。それ自体が切り取られているビデオがあるので、境界効果が回避される。通常は、ピクチャの中心が、視覚的な注目にとって最も重要である。
【0032】
(6)に従って、平均量子化ステップサイズのシーケンス平均測度を計算することができる。
【数6】

【0033】
各テストに対して、重み行列を定めて、6、8、10、12、14、16、18、20、22、24、26、及び32からのQPi値に従って、QPの値を設定する。各テストに対して、(6)に従って、AvQstepを決定し、(4)において、集合J1を使用する。図2は、9個のトレーニングシーケンスの各々について、測定された平均オピニオン評点MMOSに対するAvQstepを示している。図3は、9個のテストシーケンスについて、同じものを示している。1秒当たりに25フレームで、8秒の持続期間を有するシーケンスに対して、シーケンス平均をとる。即ち、式6において、N=200である。
【0034】
図2と3は、AvQstepが、主観的スコアMMOSの適切な基本予測子であることと、コンテンツのタイプによって、曲線が一貫してかなり離れていることとを示している。AvQstepとMMOSとの相関は、トレーニング集合の場合に0.89、テストの場合に0.91であると計算された(テーブル4を参照)。
【0035】
H.264の場合に、量子化重み行列(H.262と同様の原理)は、「ハイプロファイル」で定義され得ることに留意すべきである。重み行列は、シーケンス又はピクチャレベルに対して、「フラット」、「デフォルトの非フラット」、又は「ユーザ定義」として定義することができ、4×4のイントラ変換と、4×4のインター変換と、8×8のイントラ変換と、8×8のインター変換とに適用される(ハイプロファイルでは、8×8の変換のみが利用可能である)。H.262に対して提案されているアプローチと同様のアプローチを、H.264のハイプロファイルに対しても使用することができる。
【0036】
コントラスト測度の計算
歪みのマスキングは、符号化されたビデオシーケンス内の歪みの知覚に影響を及ぼす重要な要素である。このようなマスキングを行なうのは、人間の知覚のメカニズムが、同じスペクトル、時間、又は空間の位置の中にある、信号成分と雑音成分とを区別できないからである。ビデオ符号器の設計において、歪みのマスキングについて検討することは非常に重要であり、この場合に、ビットの効率的な割り振りは不可欠である。この分野における研究は、変換と画素領域の両者において行なわれてきたが[8、9、10]、CSに対しては、画素領域のみが検討されている。
【0037】
図1aと1bは、水平方向にX画素且つ垂直方向にY画素のサイズのピクチャ内の位置(x,y)の画素p(x,y)について、コントラスト測度をどのように計算するかを示している。
【0038】
水平方向のコントラスト測度を計算するための分析は、図1aに示されている。ここでは、影を付けた領域によって示されている画素p(x,y)に対して、コントラスト測度を計算する。同等サイズの近隣エリアを選択する(近隣エリアのうちの1つは、影を付けた画素を含んでいる)。各エリアは、影を付けた画素が位置する行(row)の(好ましくは、連続する)画素の集合から形成されている。各エリアにおける画素強度を平均して、次に、下記の式(7)に従って、平均値の絶対差を計算する。コントラスト測度は、この差の値である。垂直方向のコントラスト測度は、図1bに示されているように同様のやり方で計算される。ここでは、上方の画素集合と下方の画素集合とを選択する。選択される画素の各々は、同じ列(column)に位置している。影を付けた画素は、上方の集合と下方の集合とのボーダに隣接している。上方の集合と下方の集合とにおいて、画素強度を平均して、次に、各集合の平均強度の差を評価する。この差の絶対値は、下記の式(8)に示されている垂直方向のコントラスト測度、即ち、垂直方向におけるコントラストの測度である。この例では、影を付けた画素は、下方の集合に含まれている。しかしながら、コントラスト測度に関連付けられる画素の位置が、比較される画素の集合によって共有される境界の近くあるならば、その画素の位置は任意である。
【0039】
次に、水平方向のコントラスト測度を取得するために、長さH1の行部分と、長さH2の行部分とを比較する。一方で、垂直方向のコントラスト測度を取得するために、長さV1の列部分と、長さV2の列部分とを比較する(長さH1、H2及びV1、V2は、同じであってもよいが、同じである必要はない)。一方では行部分の共通の境界の局部に位置し、他方では列部分の共通の境界の局部に位置する画素に、コントラスト測度を関連付ける。
【0040】
次に、このように計算された水平方向のコントラスト測度と、垂直方向のコントラスト測度とを比較して、2つの値のうちの大きい方(式(9)に示されているように水平方向−垂直方向の測度と称する)を、影を付けた画素に関連付けて、メモリに記憶する。
【0041】
(ピクチャの垂直方向のエッジから垂直方向の距離V1、V2内にあって、且つピクチャの水平方向のエッジから水平方向の距離H1、H2内にある)ピクチャ中の各画素に対して、この処理手順を繰り返して、H1、H2、V1、又はV2のウィンドウサイズで、画素に対してスライディングウィンドウ分析を行なう。次に、ピクチャ(フレーム)中の各画素に対する水平方向−垂直方向の測度を平均して、次に、各ピクチャに関連するこの全体的な測度を、複数のピクチャで平均して、シーケンス平均測度を取得する。全体的な測度が平均されるピクチャ数は、ビデオシーケンスの性質と、場面の変化(scene change)間の時間とによって決まり、数秒であり得る。後述でより詳しく記載されるように、ピクチャの一部のみをこのやり方で分析する必要がある。
【0042】
ピクチャ中の様々な位置におけるコントラストを測定して平均することによって、ピクチャの複雑さの基本的な測度が得られる。ピクチャの複雑さは歪みをマスクし、従って、一定の歪みに対して、ピクチャがより良い品質を有すると、観測者に思わせることができるので、ピクチャの複雑さの程度を使用して、観察者がビデオ信号に関連付ける主観的品質の程度を部分的に予測することができる。
【0043】
影を付けた画素の周りのそれぞれのエリアの幅又は高さは、観測者が複雑さを認めるディテールのレベルに関係付けられる。従って、画像が遠くから表示されている場合に、観察者がピクチャに近付くと予想される状況では、より大きくなるようにそれらを選択する。一般に、観察者にとって快適な、ピクチャからの距離は、ピクチャのサイズによって決まり、更に、ピクチャのサイズは、画素のサイズと画素の寸法とによって決まる(一般に、より大きなディスプレイは、より多くの画素ではなく、より大きな画素を有するが、既定の画素密度の場合に、ディスプレイのサイズも要因になり得る)。一般に、H1、H2及びV1、V2は各々、それぞれのピクチャの寸法の0.5%乃至2%になると予想される。例えば、水平方向に720画素があり、各集合が平均で4画素を含む場合に、水平方向の値は、4×100/720=0.56%であり得る。垂直方向に576画素がある場合に、垂直方向では、4×100/576=0.69%であり得る。
【0044】
より詳しくは、画素の差のコントラスト測度CとCは、以下に従って計算される。
【数7】

【0045】
なお、d(n,x,y)は、復号されたシーケンスd中のN個のフレームのうちのn番目のフレームであって、X個の水平方向の画素(x=0..X−1)とY個の垂直方向の画素(y=0..Y−1)とから成る寸法を有するフレーム内の画素強度値(0..255)である。
【数8】

【0046】
なお、H1とH2は、水平方向の画素を分析するためのウィンドウの長さであり、V1とV2は、垂直方向の画素を分析するためのウィンドウの長さである。
【0047】
次に、CとCとを組み合わせて、水平方向−垂直方向の測度Chvを提供する。
【数9】

【0048】
我々の先行特許出願では、次に、以下に従って、フレームについて、Chvを使用して、全体的な画素の差の測度CFを計算する。
【数10】

【0049】
次に、シーケンス平均測度CSを計算する。
【数11】

【0050】
復号されたトレーニングシーケンスの各々について、H1=4、H2=1、及びV1=2、V2=1を使用して、シーケンス平均測度CSを計算する。この結果とAvQstepとのプロットが、図4に示されている。
【0051】
我々の先行特許出願は、シーケンスの雑音マスキング特性に測度CSを関係付けた結果を示している。一定の量子化ステップサイズの場合に、高いCSは、高いマスキング、従って、より高いMMOSであることを示唆する。後述の重回帰分析においてCSを含むことによって、非参照の品質推定にCS測度を使用できる可能性をテストした。シーケンス平均コントラスト測度CSは、水平方向と垂直方向の画素の差の測度から成る画像全体の平均CFを利用している。適切に符号化された単純なエリア(plain area)である大きなエリアを含む画像に対して、このような測度は問題があり得る。その理由は、このようなエリアは、視覚的なインパクトはほとんどないかもしれないが、CF、従って、CSの大きさに著しい影響を及ぼすからである。「ハープ」のテストシーケンス(図5)について、この効果の一例が見られ得る。ハープは、品質については、ほぼ最高に格付けされている(図2)が、マスキングについては、中位に格付けされている(図4)。このようなコンテンツをより良く処理するために、領域の重要性の測度を使用して、動きとディテールとの程度が高い画像の一部分の分析に注目する。
【0052】
H262と、H263と、H264とのような、典型的なハイブリッドビデオ符号化アルゴリズムは、画素ブロックの予測と、結果として得られた相違ブロックの変換と、変換された係数の量子化と、これらの量子化されたシンボルのエントロピー符号化とに対する関数を含んでいる。10Mbit/s未満のビットレートでブロードキャストされたフォーマットのビデオシーケンスを符号化すると、通常は、変換係数の大部分がゼロに量子化されることになる。量子化された係数が非ゼロである割合が高い場合は、予測し難く且つディテールの程度が高い領域を示す傾向がある。これらの領域は、視覚的な注目を引きつけて、量子化の影響をより大きく受ける傾向があるので、領域の分析に役立ち得る。
【0053】
これらの符号器において見られる通常のマクロブロック構造に関する領域の分析に基づくのが、都合がよい。フレーム番号n、マクロブロックkに対して、以下に従って、DCTのアクティビティ測度Act1を計算することができる。
【数12】

【0054】
TCount(m)は、マクロブロック内の非ゼロの量子化された変換係数の総数である合計mを表わしている。
【0055】
M(n,k)は、合計されるマクロブロックkの中心にあるマクロブロックの集合を定義している。
【0056】
K(n)は、フレームn中の検討されるマクロブロックの集合を定義している。
【0057】
Nは、検討されるシーケンス中のフレームの集合を定義している。
【0058】
Mの形状とサイズとに従ってMの中心値の集合K(n)を制限することによって、又は最初の重複分析の後でAct1()に適切にフィルタをかけることによって、Mの中の非重複エリアの結果を得ることができる。ここで、第2のアプローチは、次のステップに従ってAct1にフィルタをかけることが好ましい。
【0059】
1.ピクチャnに対するサーチMBの仮の集合KMAXを、KMAX=K(n)として初期設定する。
【0060】
2.全てのk∈KMAXに対して、Act1(n,k)=0である場合に、7へ進む。
【0061】
3.k∈KMAXに対して、Act1(n,k)が最大になるように、kmax=kを見付ける。
【0062】
4.(m∈M(n,kmax)∩(m≠kmax))である場合に、Act1(n,m)=0に設定する。
【0063】
5.集合KMAXから要素kmaxを取り除く。
【0064】
6.2に戻る。
【0065】
7.終了。
【0066】
「ハープ」のシーケンスのMPEG2の符号化に、(12)を適用する。なお、M(n,k)は、マクロブロックkの中心にあるマクロブロックの3×3のエリアを定義し、Kは、画像の切り取られたエリアを含んでいるマクロブロックを定義している。既に記載したように、Act1に重複せずにフィルタをかける。
【0067】
図6は、結果として得られたアクティビティマップの例を示している。図6は、動きのあるエリア(手)と、ディテールの多いエリアと、予測不可能エリア(シャンデリアとシャツの一部)とにおいて、最も高いアクティビティを示している。次に、フレームnに対して、式(13)に従って、アクティビティアレイAct1に閾値を適用することによって、最大アクティビティ領域K1(n)を定義することができる。
【数13】

【0068】
より大きな集合K1(n)の中の全てのk1の集合が、条件Act1(n,k1)>Thresh1(n)を満たすことを意味する。
【0069】
式(14)に従って、ピクチャ内における最大アクティビティの関数として、Thresh1を定義することができる。
【数14】

【0070】
図7は、図6からのマップに対して50%のアクティビティの閾値を適用する効果を示している。表示するために、3×3のマクロブロックの分析エリアに対して、Act1の適切な値を繰り返すことによって、アクティビティエリアが示される。
【0071】
量子化の影響が最大になる領域を推定するために、示されているエリアが検討され得る。これらのマスキング特性と残りのピクチャのマスキング特性とを比較することによって、これらの領域の重要度を推定することができる。
【0072】
K1が、最大アクティビティの、1つの領域か、又は一緒に取られた複数の領域を表わす場合に、最初に、式(15)に従って平均コントラスト関数を計算することによって、K1のマスキング特性を推定する。
【数15】

【0073】
なお、K1tot(n)は、集合K1(n)のメンバ数に等しく、C0(k1)は、M(n,k1)によってカバーされる画素エリアに対するコントラスト測度である。
【0074】
従って、C01(k1)は、式(7)乃至(9)からの画素コントラスト測度Chvを、k1によって表わされるマクロブロック全体で合計したものとして定義される。
【数16】

【0075】
なお、x、yは、それぞれの画素k1の画素座標である。
【0076】
最初の分析領域K(n)内であるが、最大アクティビティ領域K1(n)に含まれていないピクチャエリアも重要である。この領域はK2(n)として定義され得る。K2(n)のメンバk2は、式(17)に従う。
【数17】

【0077】
領域K2は、領域K1よりも、視覚的な歪みが少ないと考えられるが、そのコントラスト特性は、全体的な歪みの知覚に対して重要な影響を与え得る。領域K2は、適切に予測された高コントラストエリアを有するので、領域K1に含まれていないかもしれない。しかしながら、このようなエリアは、視覚的な注目を引き寄せて、K1における歪みを全体的にマスクし得る。切り取られたピクチャKの分析において、閾値C0Thresh(n)を使用することによって、K1中のピクチャエリアと同等のコントラスト特性を有するK2内のピクチャエリアを含んで、式(18)に従って、集合K3(n)を定義する。
【数18】

【数19】

【0078】
C0Threshの閾値は、テストされるシーケンスに適していることが分かっている最大アクティビティ領域K1に対するコントラスト測度の平均に等しい。(20)に従って、アクティビティの大きい領域K1と、アクティビティは小さいが重要なコントラストを有する領域K3とを組み合わせて、領域K4を生成することができる。
【数20】

【0079】
式(15)乃至(20)に従って、「ハープ」のシーケンスについて、コントラスト分析を行なって、1つのフィールドの領域K4に対する結果を、図8に示した。
【0080】
ここで、式(21)に従って、各フレームに対する加重コントラスト測度CWを定義することができる。
【数21】

【0081】
K4tot(n)は、フレームnに対する集合K4のメンバ数に等しい。次に、式(22)に従って、シーケンスで平均される、領域によって加重されるコントラスト測度CWSを計算することができる。
【数22】

【0082】
復号されたトレーニングシーケンスの各々に対して、シーケンス平均測度CWSを計算して、その結果と平均量子化ステップサイズとのプロットを、図9に示した。
【0083】
図9におけるCWSの結果は、図4における対応するCSの結果に対する差を強調して示している。2つのシーケンスである「ハープ」と「景色」は、動きが少なくて、背景が単純であるという類似の特性を有しており、CSによって上中位(upper-middle)のランクを付けられているが、CWSによって最上位のランクに動いている。これは、図2におけるMMOSのランク付けと良く整合していることを示している。同様に、シーケンス「バルセロナ」は、CSの最上位のランクから、CWSの中位のランクに動いている。これは、図2のMMOSの中位のランク付けにより密接に整合している。
【0084】
MOS推定が要求される時間間隔Nにおいて、ここでは量子化ステップサイズに関するパラメータの平均をとるべきである。これは、AvQstepとCWSのパラメータの1つの対を得る1つの分析期間であり得るか、又は一連のパラメータを得る一連の間隔であり得る。通常は1秒程度の長さを有するウィンドウ間隔を有する分析ウィンドウを、時系列により時間で「スライドさせる」ことによって、連続的な分析を達成できるであろう。
【0085】
上述のアクティビティ測度Act1は、測度の一例である。この測度は、通常は変換係数から計算される予測残差の関数である。非ゼロの係数の総数は効果的であるが、係数の振幅によって決まる測度、例えば総エネルギ、又は総数とエネルギとの組み合わせも使用できる。
【0086】
推定MOS
モデル設計
量子化ステップサイズのシーケンス平均測度AvsQtepと、加重コントラストCWS(又はその代わりに、画素コントラストCS)とを使用して、主観的に測定される平均オピニオン評点MMOSの推定値PMOSを生成する。PMOSは、式(23)に従って、パラメータの組み合わせから計算される。
【数23】

【0087】
とFは、AvQstepとCWSとにおける適切な線形又は非線形関数である。Kは、定数である。
【0088】
PMOSの範囲は、1..5である。なお、5は、優れた品質に相当し、1は、悪い品質に相当する。Fと、Fと、Kは、多くの市販の統計ソフトウェアパッケージにおいて利用可能な適切な回帰分析(例えば、線形、多項式、又は対数)によって決定され得る。このような分析には、既知の主観的品質の1組のトレーニングシーケンスが必要である。次に、従属変数としてMMOSを用いて、独立変数としてAvQstepとCWSとを用いて、回帰分析により、Fと、Fと、Kとによって定義されるモデルを導き出すことができる。一般に、結果として得られたモデルを使用して、テストシーケンスの品質を予測する。テストシーケンスの品質は、トレーニングで使用されるものと同様に、劣化(コーデックタイプ及び圧縮率)を受けている。しかしながら、ビデオのコンテンツは、異なっていてもよい。
【0089】
ここに提示されているMPEG2の符号化された最大解像度のブロードキャストシーケンスに対して、適切な非線形モデルは、以下の通りであることが分かった。
【数24】

【0090】
次に、結果として得られた推定値を、以下に従って制限する。
【数25】

【0091】
MOS推定が要求される時間間隔に対して、パラメータの平均を取るべきである。モデルの較正におけるように、これは、AvQstepとCWSのパラメータの1つの対を得る1つの分析期間であり得るか、又は一連のパラメータを得る一連の間隔であり得る。通常は1秒程度の長さを有するウィンドウ間隔を有する分析ウィンドウを、AvQstepとCWSの時系列により時間で「スライドさせる」ことによって、連続的な分析を達成できるであろう。
【0092】
結果
先ず、多くの市販の統計ソフトウェアパッケージにおいて利用可能な、標準の線形及び多項式/対数の回帰分析を使用して、トレーニング集合に対するMMOS(従属変数)をAvQstep(独立変数)によってモデル化する。次に、テストシーケンスに対して、結果として得られたモデルを使用する。次に、CS、次にCWSを、追加の独立変数として使用して、これを繰り返す。各モデルについて、推定平均オピニオン評点(PMOS)と、測定平均オピニオン評点(MMOS)とにおける相関関係とRMS残差を、テーブル5に示した。
【表5】

【0093】
この結果は、シーケンスで平均される、領域によって加重されるコントラスト測度CWSを、AvQstepに基づくMOS推定モデルに含むと、トレーニングデータ集合とテストデータ集合との両者に対する性能が著しく向上することを示している。図10は、AvQP/CSモデルに対する個々のトレーニングの結果とテストの結果を、図11は、AvQP/CWSモデルに対する個々のトレーニングの結果とテストの結果を、それぞれ散布図の形で示している。
【0094】
上述に記載されている方法の幾つかのバリエーションが構想され得る。例えば、既に記載したように、エッジ効果を回避するために除外されたボーダ領域を除いた、全体的なピクチャエリアに対して、品質測定を行なったが、希望であれば、ピクチャの中のより小さな部分、即ち、エリアのみを評価してもよい。ピクチャ内の関心領域を識別するための既知の「視覚的注目」アルゴリズムを使用して、これを選択してもよい。別のアプローチでは、測度AvQstepの計算を、エリアK1(又はK4)に制限してもよい。
【0095】
予測を使用せずに符号化されたマクロブロックをピクチャが含んでいる場合に、実際には、上述のやり方でこれらのブロックを処理すると、全体的な結果にあまり影響を及ぼさないことが分かった。しかしながら、これが問題になる場合は、このようなマクロブロックを全てプロセスから除外してもよい。
【0096】
結論
ビデオ復号器内で実施される2つのパラメータのモデルから、主観的ビデオ品質を適切に予測できることが、既存の著作物[1]に示されている。ここでは、量子化ステップサイズに基づく測度と平均コントラストに基づく測度とを使用している既存の技術は、新たに領域によって加重されるコントラスト測度CWSを使用することによって改善され得ることが示されている。
【0097】
先ず、非ゼロの量子化された変換係数の総数を使用して、ピクチャの最重要エリアを識別するように、最大アクティビティ領域K1を定義する。非ゼロの量子化された係数の割合が高い場合に、予測し難く且つディテールの程度が高い領域を示す傾向がある。これらの領域は視覚的な注目を引きつけて、量子化の影響をより大きく受ける傾向があるので、領域の分析に役に立ち得る。
【0098】
次に、最大アクティビティ領域K1を使用して、全体的なピクチャのマスキング特性の評価に対するコントラスト閾値C0Threshを決定する。領域K1の中にないピクチャの部分は、視覚的な歪みがより少ないと考えられる一方で、全体的な歪みの知覚に対して、これらのコントラスト特性は重要な影響を有し得る。適切に予測され、従って、領域K1に含まれていない高コントラストエリアは、視覚的な注目を引きつけて、K1における歪みを全体的にマスキングすることができる。領域によって加重されるコントラストの分析において、閾値C0Threshよりも高いコントラスト特性を有するピクチャの全エリアを含んで、測度CWSを提供する。この技術は、アクティビティが大きく且つコントラストの低い領域と、アクティビティが小さく且つコントラストの高い領域とを考慮に入れることによって、効果が得られる。
【0099】
700Kbps乃至18Mbpsのビットレートで、MPEG2で符号化された、18個の異なるコンテンツのクリップに対する結果が提示されている。この結果は、CWSの測度が、元のモデルに対して性能を著しく改善することを示している。
【0100】
参照文献
[1]A.G.デイビス(A. G. Davis)、「H.264の復号器に対する非参照ビデオ品質予測(No-reference Video Quality Prediction For a H.264 Decoder)」、発行予定。
【0101】
[2]ISO/IEC 13818−2及びITU−T Rec.H262:情報技術−動画及び関連するオーディオ情報の包括的な符号化:ビデオ(ISO/IEC 13818-2 and ITU-T Rec. H.262 : Information technology - Generic coding of moving pictures and associated audio information: Video)、http://www.itu.int/rec/T-REC-H.262/en。
【0102】
[3]ビデオ品質評価の対象モデルの検証に関するビデオ品質エキスパートグループからの最終報告、第2期(Final report from the Video Quality Experts Group on the Validation of Objective Models of Video Quality Assessment, Phase 2)、www.vqeg.org。
【0103】
[4]ITU−T,J.144、「全体的な参照を行うディジタルケーブルテレビジョンに対する目標知覚ビデオ品質測定技術(ITU-T, J.144, "Objective perceptual video quality measurement techniques for digital cable television in the presence of a Ml reference")」。
【0104】
[5]ITU−T、J.143、「ディジタルケーブルテレビジョンにおける目標知覚ビデオ品質測定に対するユーザの要求(ITU-T, J.143, "User Requirements for Objective Perceptual Video Quality Measurements in Digital Cable Television")」。
【0105】
[6]ISO/IEC 14496−10及びITU−T Rec.H264、高度なビデオ符号化、2003年(ISO/IEC 14496-10 and ITU-T Rec. H.264, Advanced Video Coding, 2003)。
【0106】
[7]VQEG1シーケンスデータベース、アドレス(VQEG1 sequence database, address):ftp://ftp.crc.ca/crc.ca/crc/vqeg/TestSequences/ALL_625/
[8]W.オズバーガ(W. Osberger)、S.ハモンド(S. Hammond)、N.バーグマン(N. Bergmann)、「知覚に基づく量子化を取り入れたMPEG符号器("An MPEG Encoder Incorporating Perceptually Based Quantisation")」、IEEE TENCON−計算及び遠隔通信に対するスピーチ及び画像技術、731−733頁、1997年(IEEE TENCON - Speech and Image Technologies for Computing and Telecommunications, pp. 731-733, 1997)。
【0107】
[9]アツル プーリー(Atul Puri)及びR.アラビンド(R. Aravind)、「適応知覚量子化を用いた動き圧縮ビデオ符号化("Motion-Compensated Video Coding with Adaptive Perceptual Quantization")」、ビデオ技術のための回路及びシステムに対するIEEEトランザクション、Vol.1、No.4、351−361頁、1991年12月(IEEE Transactions On Circuits and Systems for Video Technology, Vol. 1, No. 4, pp 351-361, Dec. 1991)。
【0108】
[10]ボ・タオ(Bo Tao)、ブラッドリー W. ディキンソン(Bradley W. Dickinson)、ハイジ A. ピーターソン(Heidi A. Peterson)、「MPEGビデオ符号化のための適応モデル駆動型のビット割り振り("Adaptive Model-Driven Bit Allocation for MPEG Video Coding")」、ビデオ技術のための回路及びシステムに対するIEEEトランザクション、Vol.10、No.1、147−157頁、2000年2月(IEEE Transactions on Circuits and Systems for Video Technology, Vol. 10, No. 1, pp 147-157, Feb. 2000)。

【特許請求の範囲】
【請求項1】
複数のフレームを表すビデオ信号に対する品質測度を生成する方法であって、
前記ビデオ信号は、元の形式と、符号化された形式と、復号された形式と、を有し、
前記符号化された形式では、圧縮アルゴリズムを使用して、前記ビデオ信号が符号化されており、
前記圧縮アルゴリズムは、前記符号化されたビデオ信号が、関連する量子化ステップサイズパラメータを有するように、可変量子化ステップサイズを利用し、且つ前記符号化されたビデオ信号が、前記ビデオ信号の予測残差の表現を含むように、差分符号化を利用しており、
前記復号された形式では、前記符号化されたビデオ信号が、前記元の形式に少なくとも部分的に再変換されていて、
前記方法は、
a)所定の関係に従って、前記量子化ステップサイズパラメータによって決まる第1の品質測度を生成するステップと、
b)所定の関係に従って、前記復号された形式の前記ビデオ信号によって表されている前記フレームの少なくとも一部分の空間複雑度によって決まるマスキング測度を生成するステップと、
c)所定の関係に従って、前記第1の品質測度と前記マスキング測度との両者によって決まる、組み合わされた測度を生成するステップと、
を含み、
前記方法は、更に、
所定の関係に従って、前記ビデオ信号の前記予測残差によって決まる第2の測度を生成するステップと、
前記第2の測度が閾値を超えている、ピクチャの1つ以上の領域を識別するステップと、
を含み、
前記マスキング測度は、所定の関係に従って、前記識別された領域の前記空間複雑度によって決まる、方法。
【請求項2】
前記予測残差の表現は、画素領域の予測残差の二次元変換の係数であり、
前記第2の測度は、前記二次元変換の係数から計算される、請求項1に記載の方法。
【請求項3】
前記二次元変換は、離散コサイン変換である、請求項2に記載の方法。
【請求項4】
前記第2の測度は、非ゼロの二次元変換の係数の総数である、請求項2又は3に記載の方法。
【請求項5】
前記第2の測度は、前記二次元変換の係数の振幅によって決まる、請求項2又は3に記載の方法。
【請求項6】
前記第2の測度は、復号された前記二次元変換の係数のエネルギの合計の関数である、請求項5に記載の方法。
【請求項7】
前記マスキング測度は、
(a)前記第2の測度が閾値を越えている、前記ピクチャの識別された領域と、
(b)前記第2の測度は前記閾値を越えていないが、前記空間複雑度は第2の閾値を超えている、前記ピクチャの1又は複数の領域と、
の前記空間複雑度の関数である、請求項1乃至6の何れか1項に記載の方法。
【請求項8】
前記第2の閾値は、動的に変化し、前記識別された領域に対して計算される前記空間複雑度の関数である、請求項7に記載の方法。
【請求項9】
前記第2の閾値は、前記識別された領域に対して計算される前記空間複雑度の平均値に等しい、請求項8に記載の方法。
【請求項10】
前記マスキング測度が導き出される前記ピクチャの一部分からのみ、前記第1の品質測度が導き出される、請求項1乃至9の何れか1項に記載の方法。
【請求項11】
フレーム中の複数の位置における局部のコントラスト測度を決定することによって、前記空間複雑度を測定する、請求項1乃至10の何れか1項に記載の方法。
【請求項12】
各フレームが複数の画素を含み、
既定のフレームの中の画素のうちの少なくとも幾つかの画素について、画素の近くの近隣領域に対して比較関数を行なって、前記画素に対する比較値を取得する、請求項11に記載の方法。
【請求項13】
前記第2の測度を複数のフレームで平均する、請求項1乃至12の何れか1項に記載の方法。

【図1】
image rotate

【図1a】
image rotate

【図1b】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公表番号】特表2011−527544(P2011−527544A)
【公表日】平成23年10月27日(2011.10.27)
【国際特許分類】
【出願番号】特願2011−517221(P2011−517221)
【出願日】平成21年4月23日(2009.4.23)
【国際出願番号】PCT/GB2009/001033
【国際公開番号】WO2010/004238
【国際公開日】平成22年1月14日(2010.1.14)
【出願人】(390028587)ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー (104)
【氏名又は名称原語表記】BRITISH TELECOMMUNICATIONS PUBLIC LIMITED COMPANY
【Fターム(参考)】