説明

知覚上の品質を評価する方法

本発明は、パケット損失および符号化アーチファクトがあるときにデコードされたビデオ・フレームの知覚上の品質を評価する完全参照(FR)客観法に関する。知覚上の品質を評価する方法が提供される。まず、対応する部分における歪みの量を示す値がアクセスされる。次いで、その値はパケット損失歪みまたは符号化アーチファクト歪みとして分類される。次に、分類された値が、前記分類に基づいて、人間の視覚系の可視性の差を取り入れるよう修正され、次いで、複数の部分についての複数の修正された値が組み合わされて、該複数の諸部分についての歪みの総量を示す値を形成する。

【発明の詳細な説明】
【技術分野】
【0001】
〈関連出願への相互参照〉
本願は、2008年1月18日に出願された米国仮特許出願第61/011,525号の米国特許法第119条(e)のもとでの出願日の利益を主張するものである。
【0002】
〈発明の分野〉
本発明は、知覚上の品質を評価する完全参照(FR)客観法に関し、詳細には、パケット損失および符号化アーチファクトがあるときにデコードされたビデオ・フレームの知覚上の品質を評価する完全参照(FR)客観法に関する。
【背景技術】
【0003】
典型的なビデオ通信システムは、図1に示されるように、三つの主要構成要素に分解できる。入力YUVシーケンスのエンコード310、伝送320および出力YUVシーケンス340を与えるデコード330である。処理されたビデオ・フレームにおいて知覚上の品質の劣化が生じるのは、最初の二つの構成要素における不完全な伝送チャネルにおける不可逆的エンコードおよびパケット損失のためである。フレーム・ピーク信号対雑音比(PSNR: peak signal-to-noise ratio)の平均、平均平方誤差(MSE: mean squared error)または平均絶対値誤差(MAE: mean absolute error)は、伝送損失がないときにはデコードされたビデオの知覚される品質とそこそこよく相関することが見出されているが、そのような尺度が伝送損失があるときには知覚される品質に対して大きな類似性をもつことは全く自明ではない。
【0004】
携帯電話およびPDAのような移動遠隔通信装置がますます普及するにつれて、そうした装置を通じて満足のいく知覚上の品質でのビデオ伝送をいかにして保証するかについて問題が生じる。しかしながら、この問題の解決は困難に思われる。まず第一に、この無線通信チャネルの帯域幅は比較的低く、このことはエンコードされるビデオ・シーケンスのビットレートも低く制約し、これは典型的にはビデオ品質が大幅に損なわれるまたは低下させられることにつながる。無線チャネルが信頼できないことは、受信されるビデオの著しい品質劣化をも引き起こしうる。たとえば、チャネル・フェージング効果は、伝送されるビデオの数スライスないし数フレームの損失につながりうる。低ビットレートおよび低フレーム解像度で、第三世代遠隔通信ネットワーク(3G)のようなチャネル特性をもってエンコードされたビデオの品質評価も懸案である。そのようなチャネル特性においては、バースト的な損失は、エンコードされたビットストリームの各ピクチャー・グループ(GOP: group of pictures)において二つの相続くPモード・フレーム410を失わせることがありうる。パケット損失のある、エンコードされたビデオ・シーケンス(一つのGOP)の例示が図2に示されている。ここで、ブロック400は正しくデコードされたフレームを反映し、ブロック410は失われたフレームを反映し、ブロック420は誤り伝搬フレームを反映する。
【0005】
デコーダはビデオ・データの全部を受信しないことがありうるので、失われたデータを隠蔽して(conceal)、ビデオ・シーケンスの残りの部分が完全にデコードされることができるようにする必要がある。しかしながら、隠蔽されたデータは当該GOP内の後続のフレームに誤りを伝搬させることがあり、実際の伝搬効果は種々の誤り隠蔽に依存する。JM10.0 H.264/AVCデコーダでは、三つの誤り隠蔽方法がある:フレーム・コピー、動きコピーおよびフレーム・フリーズである。
【0006】
フレーム・フリーズ方法は、損失後に受信された当該GOP内の全データを破棄し、最後に正しくデコードされたフレームを当該GOPの終わりまで保持することによって損失を隠蔽するので、視覚的には、各損失は、ビデオに、数フレームの時間にわたってフリーズした一つのフレームをもたせることになる。この方法による隠蔽後のビデオ・フレームには空間的カオスはないので、知覚的品質に対する時間的因子の影響が優勢である。
【0007】
一般に、動きコピーおよびフレーム・コピー方法は、誤り伝搬したフレームに対する知覚上の効果において類似しており、動きのあるオブジェクトのエッジに沿って明白な局所的画像カオスがあり、これはビデオ・フレームの知覚上の品質を大幅に劣化させる。ただし、隠蔽された損失フレームについて、フレーム・コピー法は単に最後に正しくデコードされたフレームをコピーし、その一方、動きコピーは最後に正しくデコードされたフレームの動き情報に基づいて失われたフレームを推定する。
【0008】
メトリックは、定量的または定性的に述べられる検証可能な尺度である。該メトリックは、何かが標準に対してどのように行われているかの面でのパフォーマンスを捉える検証可能な尺度である。品質メトリック・データは、パフォーマンスにおける傾向を見きわめ、代替候補を比較し、またさらにはパフォーマンスを予測するために使用できる。しばしば、効果的なメトリックを識別することは難しい。
【0009】
客観的な画像またはビデオ品質メトリックは、もとの参照画像へのアクセス可能性に従って分類できる。そのような分類は三つの範疇を含みうる:完全参照(FR: full-reference)方法、縮小参照(RR: reduced-reference)方法および非参照(NR: non-reference)方法である。
【0010】
多くの既存の品質メトリックは完全参照(FR)法である。つまり、完全な参照画像にアクセスできる。しかしながら、多くの実際的な応用では、参照画像は利用可能ではなく、非参照(NR)法または「ブラインド」品質評価アプローチが望ましい。縮小参照(RR)法は、歪められた画像の品質評価を助けるために参照画像の一部が利用可能なので、上記両極端の間に位置する。
【0011】
典型的なビデオ通信システムでは、歪みは、図1に示されるような不可逆的エンコードおよび不完全なチャネルに起因する符号化アーチファクトおよび伝送誤りの両方によって導入されうる。
【0012】
伝統的な誤り感度方式は、たとえばPSNR、MSEまたはMAEのような尺度を含む。これらは画像またはビデオ品質の劣化は歪められた画像ピクセルと参照画像ピクセルの平均平方強度差であると想定している。しかしながら、これらの指標は、必ずしも、実際の知覚的な品質評定とあまりよく一致しない。特にパケット損失がある場合にそうである。他の下位範疇におけるメトリックは、人間の視覚系(HVS: human visual system)が個々のピクセルよりも構造情報を抽出するために高度に適応されていると想定する(非特許文献1参照)。
【0013】
特に、これらのメトリックは、参照画像と歪められた画像の輝度、コントラストおよび構造情報を、画像全体を動く長方形のスライディング・ウィンドウ内でのそれらの一次および二次モーメント統計(first and second moment statistics)に基づいて、比較する。これらは、若干の共通のノイズがある場合およびない場合に、参照画像と歪められた画像の間の類似性をかなりよく評価できるものの、計算量は著しく大きくなる。さらに、パケット損失によって破損したビデオ・フレームに対する実験は、良好なパフォーマンスが維持できないことを立証している。
【0014】
誤り感度アプローチのパフォーマンスを改善するため、HVSの既知の特性を活用する品質評価方法の開発に多大な努力が注がれてきた。
【0015】
提案される知覚的品質評価モデルの大半は、もとの画像と歪められた画像との間の差をプールして、知覚上の品質に対する影響に応じてペナルティを与えられるようにする戦略に従ってきた。これらの方法は、符号化アーチファクトのある、エンコードされたビデオについては客観的モデル・スコアと主観的品質評定との間の相関を改善するものの、パケット損失があるとみな失敗する(非特許文献2、3参照)。パケット損失の視覚的影響の問題が厳しくなるにつれ、この分野における研究において若干の仕事が始まった。
【0016】
M・クレイプールおよびJ・タナーは非特許文献4において、ジッタがパケット損失とほとんど同じくらい知覚上の品質を劣化させること、知覚上の品質は、低レベルのジッタまたはパケット損失でも、完全なビデオについての知覚上の品質と比べて鋭く劣化することを見出した(非特許文献4参照)。R・R・パストラナ‐ヴィダルおよびJ・C・ジケルは、画像脱落によって引き起こされる流れの途切れ(fluidity breaks)のユーザー品質知覚に対する影響を評価するためのメトリックを開発した(非特許文献5参照)。この非参照メトリックは、いくつかの異なる画像脱落条件のもとで品質に対する影響を計算できる。さらに、K・ヤン、C・ゲスト、K・エルマレーおよびP・ダスは、フレーム損失の量、オブジェクトの動きおよび局所的な時間的品質コントラストを含む新たな客観的な時間的品質メトリック(temporal quality metric)PTQMを開示している。通常のアプローチとは異なり、このメトリックは単にシーケンスではなく、シーンの、またさらにはフレーム・レベルでの時間的品質測定を生成する(非特許文献6参照)。
【0017】
提案されたメトリックは興味深い結果をもっていたものの、それらの仕事では、パケット損失は単に時間的な劣化を引き起こすのみであり、後続フレームへの空間的な誤り伝搬を引き起こさない。パケット損失によって引き起こされる誤り伝搬は論じられていない。
【0018】
X・フェンおよびT・リウは、非特許文献7において、誤り伝搬されたフレームのMSEをプールするために自動生成された顕著性マップ(saliency map)を使っており、プールされた誤りはそれらのフレームの知覚上の品質によく一致する(非特許文献7参照)。しかしながら、顕著性マップの込み入った計算は望ましくない。非特許文献8では、パケット損失の場合に、デコードされたビデオにおけるブロック・エッジ損傷アーチファクトを測定し、再構成されたビデオの品質を評価するNRメトリックが提案されている(非特許文献8参照)。非特許文献8に開示されているブロックノイズ・メトリックは、ブロック・エッジ周辺での活動度を測定し、当該ビデオ・フレームにおけるブロックノイズの全体的な知覚に寄与しうるブロックの数を数えることに基づいている。
【0019】
前述した文献で調べられているパケット損失は空間的劣化を引き起こしたものの、損失は数スライスにわたるのみで、フレーム全体にわたるものではない。この場合、歪みは長方形の形をしており、強い不連続性が損失を示唆するものとして使用できる。しかしながら、失われたパケットがフレーム全体であり伝搬される誤りを区別することに困難を生じる場合の活動度を測ることが有利である。
【0020】
通常のアプローチを使う代わりに、A・レイブマン、S・カヌムリ、V・ヴァイシャンパヤンおよびP・コスマンは、非特許文献9において、パケット損失の可視性を予測する統計的モデルを開発している(非特許文献9参照)。パケット損失の可視性を予測するために、分類および回帰樹(CART: Classification and Regression Trees)および一般化線形モデル(GLM: Generalized Linear Models)が使用される一方、パケット損失の知覚上の品質への影響は明示的には論じられていない。U・エンゲルケおよびH・ゼペルニクは、非特許文献10において、知覚画像品質評価のために人工ニューラル・ネットワーク(ANN: Artificial Neural Network)をいかにして使用できるかを開示している(非特許文献10参照)。品質予測は、ブロッキング、ぼやけ、画像活動度および強度マスキングといった構造上の画像特徴に基づいている。ANNアプローチの利点はリアルタイム式に非常に高いパフォーマンスと達成できることである一方、その欠点は、実装上の著しい複雑さにある。
【先行技術文献】
【非特許文献】
【0021】
【非特許文献1】Z. Wang, A. Bovik, H. Sheikh, and E. Simoncelli, "Image Quality Assessment: From Error Visibility to Structural Similarity", IEEE Transactions on Image Processing, vol. 13, no. 4、2004年4月
【非特許文献2】W. Lin, L. Dong, and P. Xue et a. "Visual Distortion Gauge Based on Discrimination of Noticeable Contrast Changes", IEEE Transactions on Circuits and Systems for Video Technology, vol. 15, No. 7, July 2003
【非特許文献3】Z. Wang, A.C. Bovik, "A human visual system based objective video distortion measurement system", Proceedings of the International Conference on Multimedia Processing and Systems, August 2001
【非特許文献4】M. Claypool and J. Tanner, "The Effects of Jitter on the Perceptual Quality of Video", ACM Multimedia, Volume 2 .Orlando, FL, November 1999
【非特許文献5】R. R. Pastrana-Vidal and J. C. Gicquel, "Automatic quality assessment of video fluidity impairments using a no-reference metric", in Proc. of 2nd Int. Workshop on Video Processing and Quality Metrics for Consumer Electronics, Jan. 2006
【非特許文献6】K. Yang, C. Guest, K. El-Maleh, and P. Das, "Perceptual temporal quality metric for compressed video" Multimedia, IEEE Transactions on, Nov. 2007
【非特許文献7】X. Feng and T. Liu, "Evaluation of perceptual video quality using saliency map", ICIP, 2008, 投稿済み
【非特許文献8】R. Venkatesh, A. Bopardikar, A. Perkis and O. Hillestad, "No-reference metrics for video streaming applications," Proceedings of PV 2004, December 13-14, Irvine, CA, USA, 2004
【非特許文献9】A. Reibman, S. Kanumuri, V. Vaishampayan, and P. Cosman, "Visibility of individual packet losses in MPEG-2 video," ICIP 2004
【非特許文献10】U. Engelke, and H. Zepernick, "An Artificial Neural Network for Quality Assessment in Wireless Imaging Based on Extraction of Structural Information", ICASSP 2007
【発明の概要】
【発明が解決しようとする課題】
【0022】
本発明は、上記の技術的問題に鑑みてなされたものである。パケット損失および符号化アーチファクトがあるときにデコードされたビデオ・フレームの知覚上の品質を評価するための完全参照(FR)客観的方法を提供することが本発明の一つの目的である。
【0023】
本発明のさらなる目的は知覚上の品質を評価する方法を提供することである。
【課題を解決するための手段】
【0024】
それは、まず対応する部分における歪みの量を指示する値にアクセスし、次いでその値をパケット損失歪みまたは符号化アーチファクト歪みとして分類することによる。次に、分類された値は、人間の視覚系の可視性差を取り入れるために前記分類に基づいて修正され、次いで修正された値が複数の部分について組み合わされ、該複数の部分についての総合的な歪みの量を形成する。
【0025】
本発明について、以下で、付属の図面を参照しつつ実施形態を参照して、より詳細に説明する。
【図面の簡単な説明】
【0026】
【図1】典型的なビデオ伝送システムの概略図である。
【図2】パケット損失のあるエンコードされたビデオ・シーケンス(一つのGOP)の概略図である。
【図3】背景輝度適応に起因する可視性閾値のグラフ表現である。
【図4】ビデオ品質評価のためのブロック・ベースのJNDアルゴリズムの流れ図である。
【発明を実施するための形態】
【0027】
本発明について、ここで、より詳細に述べていく。付属の図面や数式に示される本発明の実施を詳細に見ていく。
【0028】
少なくとも一つの実装は、パケット損失があるときにデコードされたビデオ・フレームの知覚上の品質を評価する完全参照(FR)客観的方法を提供する。参照フレームのエッジ情報に基づいて、誤り伝搬されたフレームの各画像ブロックの可視性が計算され、その歪みがしかるべくプールされ、次いでフレーム全体の品質が評価される。
【0029】
一つのそのような方式は、ビデオ・フレームがH.264/AVCコーデックによってエンコードされ、あるフレーム全体が伝送誤りのために失われるときに生じる条件に対処する。その場合、ビデオは高度な誤り隠蔽方法を用いてデコードされる。一つのそのような実装は、符号化歪みおよびパケット損失の両方によって引き起こされる歪みの空間的マスキング効果を活用する、適正に設計された誤り計算およびプール方法を提供する。かなり低い計算量で、知覚上の品質を評価する少なくとも一つのそのような提案される方法は、実際の主観的な品質評価とかなりよく相関する劣化したフレームの品質評定を提供する。
【0030】
もう一つの実装では、パケット損失によって損なわれたエンコードされたビデオ・フレームの知覚上の品質を評価する完全参照方法は、無線ネットワークを通じて伝送された低ビットレートかつ低解像度のH.264/AVCコーデックによってエンコードされたビデオ・シーケンスを対象とする。
【0031】
この状況において、ビデオ品質は、ぼやけのような符号化アーチファクトと、誤りを空間的および時間的に伝搬させるパケット損失とによって共同して影響される。そのような実装において、エンコードされたシーケンスをデコードするために、フレーム・コピー誤り隠蔽を採用するJM10.0 H.264デコーダが使用される。エンコードされたビデオのGOP長は短く、よって、一つのGOP内で二つのフレーム損失を引き起こす一つのバースト状パケット損失が想定される。したがって、一パケット損失によって引き起こされる誤りは、別のパケット損失によって乱されず、GOPの終わりまで伝搬できる。当該メトリックのさまざまな実装は、ビデオ・シーケンスにおける全フレーム、正しく受信されたフレーム、誤り隠蔽されたフレーム、誤り伝搬されたフレームの品質を評価し、これらのフレーム品質は、ビデオ・シーケンス全体の単一の数値的な品質評価を生成するために直接的または間接的に適用できる。
【0032】
方法の一つの側面は、まず符号化アーチファクトおよびパケット損失によって引き起こされた伝搬された誤りの両方を位置特定する。本発明は、それらの知覚上の影響を別個に評価し、次いで二つの歪みの重み付けされた和を利用してフレーム全体の品質を評価する。上述した二つの歪みに対するこの弁別的取り扱いの合理性は、これら二つの異なる歪みはビデオ品質を著しく異なる仕方および度合いで劣化させ、これらの相違はMSEやMAEにおけるそれらの差によっては適切にモデル化できないことがありうるという観察に基づく。パケット損失の知覚上の影響は、通例、画像の局所的領域上であり、一方、H.264の符号化アーチファクトの視覚上の効果、とくにぼけは、典型的には画像品質をグローバルな仕方で劣化させる。
【0033】
誤り伝搬の視覚上の効果を評価するもう一つの側面は、誤りの位置を区別することである。たとえば、誤りがエッジ領域(edge area)、テクスチャ領域(texture area)または単純な領域(plain area)のいずれにあるかを決定する。これは、HVSは異なる位置の誤りに対して異なる応答をするため、有用である。
【0034】
単純な領域またはオブジェクトのエッジ上の誤りは、テクスチャがある領域における誤りよりもわずらわしく感じられる。したがって、提案される方法の少なくとも一つの実装については、ビデオ・フレーム品質の評価において、二つの空間的マスキング現象が考慮される。
【0035】
知覚上のビデオ品質評価方法の実装のためのプロセス全体は、四つの構成要素に分解できる:(i)参照画像のエッジ検出、(ii)符号化アーチファクト歪みおよびパケット損失歪みによって引き起こされた伝搬された誤りの位置特定、(iii)パケット損失の影響を受けたおよびソース符号化の影響を受けたブロックについての知覚上の歪みを計算、(iv)フレーム中の全ブロックからの歪みを一緒にプールする。このそれぞれについて、本稿の次の部分で詳細に論じる。
【0036】
本発明の好ましい実施形態は図4に概要が示されている。この実施形態は、参照フレーム(すなわちもとのフレーム)がブロック100で提供されることをもって始まる。この参照フレームから、エッジ検出がブロック110で実行され、各8×8ブロックについてのエッジ密度の計算が続き、これが具体的なエッジ密度値をブロック141に与える。(好ましい実施形態では、フレームはまず8×8のブロックに分割され、これらの区画のそれぞれが8×8ブロックと称される。)さらに、参照フレームから、各8×8ブロックについての平均輝度値(mean_luma(i,j))がブロック125において計算され、これもブロック141に入力される。ブロック140は追加的な計算を表しており、これもブロック141に入力される。ブロック140はもとの歪みの計算であり、これは好ましい実施形態では、式(1)で定義されるようにして、各8×8ブロックについて、参照フレームとブロック110に示される処理されるフレームとの間の平均絶対値差(MAE)として計算される。(式(1)および図4についての本説明で言及される他の式は後段に記載する。)次に、判断ブロック150は、ブロック141からデータを受け、対象となる8×8ブロックのもとの歪みがある閾値を超過するかどうかを判定する。閾値は、好ましい閾値を有するMAE歪みに関する好ましい実施形態では、10である。閾値がブロックのMAEを超えている場合には、そのブロックはソース符号化に影響されたブロックと識別され、ソース符号化(coding)によって被る知覚上の(視覚上の)歪み(distortion)DCjnd(i,j)がブロック155で式(6)によって計算される。そうでない場合には、そのブロックはパケット損失によって影響されていると識別され、JND(i,j)はブロック130において式(4)によって、テクスチャおよびコントラスト・マスキング考慮を取り入れて計算され、続いてパケット損失(packet loss)によって被る知覚上の(視覚上の、vis.)歪みDPjnd(i,j)がブロック135で式(5)を使って計算される。ブロック130では、cont_thresh(i,j)を計算するために、図3を参照し、背景輝度についてmean_luma(i,j)を使うべきである。判断ブロック150からの結果はブロック156に入力され、そこから、ブロック160におけるフレーム全体についての知覚上のプール(perceptual pooling)が式(7)を使って計算され、これがブロック165におけるフレームの知覚上の歪みを与える。
【0037】
I.エッジ検出
エッジ情報は、画像/ビデオ理解および品質評価の研究において非常に重要である。まず、HVSは絶対的な信号強度よりもコントラストに敏感であり、パケット損失があるときの画像の不連続性は人間が誤りを見分ける手がかりとなりうる。したがって、エッジおよび輪郭情報は、パケット損失のシナリオにおいて画像品質を評価するための最も重要な情報となりうる。さらに、強いエッジの密度は、画像およびビデオのテクスチャの豊かさまたは活動レベルの指標と考えることができ、これはもう一つの非常に重要なHVS属性、空間的マスキング効果に密接に関係している。
【0038】
エッジ情報の抽出は、エッジ検出方法を使って実行できる。ある実装では、一般的なラプラシアン・ガウシアン(LoG: Laplacian of Gaussian)法が閾値を2.5に設定して使用されうる。これは、参照フレームにおける比較的強いエッジを与える。
【0039】
II.歪みの位置特定
参照ビデオ・フレームと試験ビデオ・フレームの間の歪みを計算する最も幅広く受け入れられている方法のいくつかは、MAE、MSEまたはPSNRである。これらは数学的には次のように計算される。
【0040】
【数1】

変数o(x,y,tn)およびd(x,y,tn)は、フレームtnにおける位置(x,y)での、もと(original)(すなわちブロック100における参照フレーム)および処理されるビデオ画像(すなわちブロック105における処理されるフレーム)のピクセルを表す。変数Aは画像の最大グレーレベル(たとえば8ビット表現についての最大グレーレベル)を表し、XおよびY変数はフレームの大きさを表す。
【0041】
画像の小さな領域のみが考えられる場合、MAEおよびMSEは一般に局所的なMAEおよびMSEに修正されることができる。これは試験画像の局所的な歪みを評価する。評価は、たとえば、効率のために輝度成分のみを使って実行できる。というのも、輝度は典型的には視覚上の品質知覚において色度よりもずっと重要な役割を果たすからである。
【0042】
H.264符号化のような不可逆的符号化のアーチファクトは典型的には、ビデオ・フレームの間の動き推定の予測誤差の一様な量子化によって引き起こされる。デコーダにおける非常に強力なブロック解除フィルタのため、優勢な視覚的歪みは典型的にはぼけである。これは、画像のオブジェクトのエッジ上または比較的なめらかな領域上において知覚できる。さらに、そのようなアーチファクトは典型的には、グローバルな仕方でフレームの品質を知覚的に劣化させる。
【0043】
フレーム中の一つまたは複数のパケットの損失はビデオ品質を劣化させることができるが、より問題となる状況は、典型的には、依存するフレームへの誤りの伝搬である。これらのフレームにおける主たる品質劣化は典型的には、局所的な画像カオスまたは、特に動きのあるオブジェクトのエッジのまわりでの誤った位置に位置されるいくつかの小さな画像片である。これら二種の歪みを単一の一様なアルゴリズムを使って処理することは難しいことがありうる。本発明は、さまざまな実装において、それら二種の歪みを異なる仕方で扱うことによって、そのような状況に対処する。
【0044】
局所的なMAEの計算に従って、通例、伝搬された誤りは、歪められた領域において、符号化アーチファクトよりもずっと高い歪みを生じる。したがって、我々は、二つの歪みを区別するために局所的なMAEについての閾値の適切な選択を使用できると判断した。
【0045】
本発明の少なくとも一つの実装では、参照フレームおよび試験フレームの全体がまず8×8ブロックに分割され、式(5)、式(6)および図4においてDo(i,j)と記されているもとの歪みがそのブロックについて計算される。これは、好ましい実施形態では、式(1)において定義されるようなMAEとして計算される。判断ブロック150における閾値は、好ましいMAE歪みについては10に設定され、よって、10以上の歪みをもつブロックは伝搬された誤差の領域と考えられ、10未満の歪みをもつブロックは、ぼけた領域のような符号化アーチファクトをもつ領域であると考えられる。
【0046】
符号化アーチファクトは典型的にはエンコーダの量子化パラメータ(QP: quantization parameter)に依存するので、閾値は、本発明のさまざまな実装において適応的に変更できる。したがって、この目的のためにいくつかの適応的な方法が開発できる。
【0047】
さまざまな実装において、QPは30から38の範囲である。伝搬された誤りの局所的なMAEは一般に符号化誤りの場合よりずっと高いので、閾値選択が実行できる。この閾値が選択されるもう一つの理由は、さまざまな実装ののちの処理(後述)において利用されるコントラスト(または輝度)マスキングの最小閾値も10であり、10ピクセル値未満の局所的歪みはコントラスト・マスキングおよびテクスチャ・マスキングの組み合わせ効果によってマスクし去られるということである。
【0048】
SSIMなど画像間の類似性を測る他の方法がこのステップにおいて使用されることができる。品質メトリックのいくつかの実装については、閾値選択は回避できる。
【0049】
III.知覚上の歪みの計算
MAEが典型的には知覚上のビデオ品質を評価する良好な方法でない少なくとも一つの理由は、HVS特性を全く考慮することなく、各画像ピクセルを同等に取り扱うということである。したがって、少なくとも一つの実装は、そのパフォーマンスを改善するためにテクスチャ・マスキングおよびコントラスト・マスキングを活用する。
【0050】
コントラスト・マスキングまたは輝度マスキングは、デジタル画像について、HVSにとって、非常に暗い領域または非常に白い領域においては試験対象とその近傍との間の輝度差を見分けるのが難しいという効果である。これはつまり、これらの領域における可視性閾値は高いということを意味する。よって、この事実についての区分線形(piecewise linear)近似が、図3に示されるように、背景輝度適応に起因する可視性閾値として決定される。図3は実験データを表しており、縦軸10は可視性閾値(式(6)のcont_threshold)、横軸20は背景輝度、実線30は背景輝度の関数としての可視性閾値である。
【0051】
テクスチャ・マスキングは、一部の画像情報は、テクスチャのきわめて多いその近傍のために、HVSにとって視認可能、認識可能でないという効果である。具体的には、一部の歪みは、このようなテクスチャがある領域内に位置する場合にはマスクし去られ、よって知覚上の品質はあまり劣化しないことがありうる。テクスチャの度合いは、標準偏差および2D自己相関行列のような画像統計情報に基づいて定量化できる。しかしながら、さまざまな実装において、提案される方法は、局所的な画像領域内でのテクスチャの豊かさを示すためにエッジの密度を使う。これは、パフォーマンスと計算量との間の良好なトレードオフを与える。
【0052】
III.1 伝搬された誤りの知覚上の歪み
伝搬される誤差は、通例、何らかの歪められた画像領域または誤った位置に位置された小さな画像片である。この種の誤りの局所的な視覚的効果のため、この種の誤りは、コントラスト・マスキングおよびテクスチャ・マスキングの効果両方を合わせたものによって影響されることがありうる。換言すれば、伝搬される誤差によって引き起こされる局所的な歪みは認識されることができる。たとえば、誤りが組み合わされたマスキング効果の可視性閾値より大きい場合にである。そうでない場合には、歪みは見えない。最小可知歪み(JND: Just-Noticeable-Distortion)は、HVSによってぎりぎり見える歪みの量を意味する。
【0053】
参照フレームにおける各ブロックのJNDプロファイルを計算するために、図4に示されるブロック・ベースのJNDアルゴリズムを提案する。このアルゴリズムは、各8×8ブロック位置について、そのブロックの、総マスキングの可視性閾値(JND)効果を:
Thresh_visibility=JND=max(b*den_edge,cont_thresh) (4)
としてモデル化する。
【0054】
変数den_edgeは、参照フレームのエッジ(edge)・マップにおける8個の近傍ブロックの平均密度(density)であり、cont_threshは、図3に示される、コントラスト(contrast)・マスキング効果によってのみ生成される可視性閾値(visibility threshold)である。数値パラメータbはスケーリング・パラメータであり、b*den_edgeはテクスチャ・マスキング効果のみの可視性閾値である。ある実装では、bは500に設定されるが、bはたとえば主観的な試験結果を客観的な数値スコアと相関させるよう選ぶことができる。たとえば、bの値を適切に選ぶことにより、歪み値と主観的な試験結果との間の相関を高めうる。
【0055】
提案されるJNDプロファイルはブロック・ベースであることを注意しておく。これを従来式のピクセル・ベースのJNDと比較すると、計算量が大幅に削減される。さらに、伝搬された誤差が広がるのではなく局所的にクラスター化される状況において、ブロック・ベースのアプローチは特に好適である。というのも、ピクセル・ベースのJNDのための近傍は典型的には小さすぎ、伝搬される誤差によって完全にゆがめられてしまうことがありうるからである。
【0056】
このJNDプロファイルから、ブロックの歪みは、規格化され、JND単位に変換されることができる。したがって、伝搬される誤差によって引き起こされる全知覚的歪みは:
【数2】

となる。
【0057】
ここで、8×8ブロック(i,j)は、パケット損失の影響を受けたブロックとして認識されている。Do(i,j)は、もとの参照フレームと処理されるフレームとの間のそのもとの歪みを表す。好ましい実施形態では、それは式(1)において定義されるようにMAEとして計算される。Dojnd(i,j)は、そのブロックのJND変換された知覚的歪みである。JND(i,j)は式(4)を通じて計算される。
【0058】
伝搬される誤りによって引き起こされる知覚上の歪みを計算するプロセスをまとめると次のようになる:
1.もとの参照フレームに基づいてエッジ検出を実施する。結果として得られるピクセルごとの二値エッジ・マップに基づいて、式(4)について上述したように各8×8ブロックについてエッジ密度を計算する。
2.参照フレームと処理されるフレームとの間の差を計算し、ブロック150における閾値(前記実装では10)より大きな差をもつ8×8ブロックをパケット損失によって影響されたブロックとして選択する。そうでないブロックは、ソース符号化の影響を受けたブロックとして認識される。
3.パケット損失によって影響されたブロックについて、コントラスト・マスキングおよびテクスチャ・マスキングの可視性閾値を計算し、次いで式(4)において定義されるような全体的なJND閾値を計算する。
4.パケット損失によって影響されたブロックについて、式(5)において定義されるようなその知覚上の歪みを計算する。
【0059】
III.符号化アーチファクトの知覚上の歪み
ビデオが低めのQPでエンコードされるときには、知覚上のビデオ品質劣化は主としてパケット損失によって引き起こされる伝搬される誤りに起因するが、QPが上がるにつれて符号化アーチファクトの視覚上の影響が増す。したがって、これらの歪みをフレーム全体の総歪みに算入する。しかしながら、符号化アーチファクトのグローバル性のため、中央歪みをマスクするために近傍を使うアプローチは問題となりうる。典型的にはそれらの近傍も同様のアーチファクトによって歪められるからである。
【0060】
集中的な主観的実験を通じて、符号化アーチファクトによって引き起こされるこの歪みがなめらかな領域にわたって「広がり」、より多くの知覚上の歪みを引き起こす傾向があることが判別されているが、この傾向は強いエッジの領域においては「止められる」または「緩和される」ように感じられる。よって、我々は、エッジ情報に基づいて符号化アーチファクトの知覚上の歪みを計算する、もう一つのテクスチャ・マスキング方法を提案する。この方式は、多くのエッジをもつブロックほど少ない歪みを被り、より少ないエッジをもつブロックでは歪みはより大きくなるという発見に基づいている。エッジ密度とその知覚上の符号化歪みの間のこの関係は:
DCjnd(i,j)=DO(i,j)・(1−den_edge) (6)
とモデル化できる。
【0061】
ここで、8×8ブロック(i,j)はソース符号化の影響を受けたブロックとして同定されている。DO(i,j)は、もとの参照フレームと処理されたフレームとの間の、そのもとの歪みを表す。好ましい実施形態では、これは、式(1)において定義されるようなMAEとして計算される。DCjnd(i,j)は、そのブロックの知覚上の歪みである。
【0062】
式(6)における歪みスケーリング因子(1−den_edge)はスケーリング因子の単純化されたバージョンであるが多くの実装においてよく機能することを注意しておく。計算された知覚上の歪みと実際の知覚上の歪みとの間のより高い相関を得るためには、他の実装は、単純な領域、エッジ領域またはテクスチャ領域のような異なる画像領域を、HVS属性に応じて異なる仕方で扱う。
【0063】
IV.歪みプール
上述したように、ビデオ品質劣化は、符号化アーチファクトおよび伝搬される誤差の結合効果によって引き起こされうる。さらに、上記したように、これらの異なる歪みの知覚上の品質劣化を別個に決定できる。さまざまな実装は、ビデオ・フレーム全体についての最終的な単一の品質指標を生成するために歪みプールまたは重み付けを使う。一つのそのようなプール/重み付けは:
DCjnd(i,j)=DO(i,j)・(1−den_edge) (6)
ここで、AおよびBは、それぞれパケット損失の影響を受けたまたはソース符号化の影響を受けたと同定された8×8ブロックすべての集合を表す。PDは、処理されるフレーム全体の総知覚歪み(perceptual distortion)であり、パラメータwはこれら二つの種類の歪みの間の重み付け因子である。実際には、wはエンコーダの量子化パラメータ(QP)の関数であることもできる。十分なQPサンプルをもつ実装は、wとQPの間の関係を予測できる。他の実装は単に、wを、二つのQPについてそれぞれたとえば0.125および0.25のような値に設定する。式(9)の他の形は当業者にはすぐ明白となるであろう。
【0064】
上記で計算される総知覚歪みに基づいて、客観的な推定される品質スコアは、主観的なビデオ品質評定とかなりよく相関し、ピアソン相関−0.9084となる。これに対し、従来式のAMEと主観的なスコアとの間の相関は0.4395である。このことは、本開示に記載されるさまざまな実装において提案されるメトリックの成功を示唆している。
【0065】
本発明は、個別的な特徴および側面をもつ一つまたは複数の実装を開示しているが、記載される実装の特徴および側面は、他の実装のために適応されてもよい。たとえば、記載される方法は、異なる実装においていくつかの仕方で変更できる。これらの仕方のいくつかは、たとえば、これらの概念を、部分的なフレームが失われる、あるいはGOP内の3フレーム以上が失われる、あるいはGOP内の不連続なフレームが失われる場合のシステムに適用することを含む。本稿に記載される実装は個別的なコンテキストにおいて記載されていることがあるが、そのような記載は決して、特徴および概念をそのような実装またはコンテキストに限定するものと解釈すべきではない。たとえば、ある実装では、不可逆的符号化およびパケット損失によって引き起こされる歪みの両方がプールされる。
【0066】
本稿に記載される実装は、たとえば、方法もしくはプロセス、装置またはソフトウェア・プログラムにおいて実装されうる。単一の形の実装のコンテキストでのみ論じられていたとしても(たとえば方法としてのみ論じられていたとしても)、論じられる実装または特徴は他の形(たとえば装置またはプログラム)でも実装されうる。装置は、たとえば、適切なハードウェア、ソフトウェアおよびファームウェアにおいて実装されうる。方法は、たとえば、コンピュータまたは他の処理デバイスなどのような装置において実装されてもよい。さらに、方法は、処理デバイスまたは他の装置によって実行される命令によって実装されてもよく、そのような命令は、たとえばCDまたは他のコンピュータ可読記憶デバイスまたは集積回路といったコンピュータ可読媒体上に記憶されていてもよい。さらに、コンピュータ可読媒体は実装によって生成されるデータ値を記憶してもよい。
【0067】
当業者には明白なはずだが、諸実装は、たとえば記憶または伝送されうる情報を担持するようフォーマットされた信号を生成することもありうる。該情報は、たとえば、記載される実装の一つによる、方法を実行するための命令または生成されるデータを含みうる。
【0068】
さらに、多くの実装は、エンコーダ、エンコーダのプリプロセッサ、デコーダまたはデコーダのポストプロセッサのうちの一つまたは複数において使用されてもよい。記載される方法の一つまたは複数は、たとえば、エンコード決定を通知するために、あるいは受信した画像データの品質をモニタリングするために、RD計算において使用されてもよい。
【0069】
ある実装では、デコードされたビデオの知覚上の品質を評価する完全参照方法がパケット損失によって引き起こされる誤り伝搬されたフレームの品質を評価し、ここで、符号化アーチファクトと、パケット損失によって引き起こされる誤り伝搬の歪みとが、異なる空間的マスキング方式を用いて別個に評価される。
【0070】
もう一つの実装では、本発明は、パケット損失によって引き起こされる歪みについてのテクスチャ・マスキング効果およびコントラスト・マスキング効果の両方を組み合わせる、ブロック・ベースの最小可知歪みをモデル化する方法を含む。ここで、近傍ブロックにおけるエッジ密度が、パケット損失によって引き起こされる歪みについてのテクスチャ・マスキング閾値を計算するために使用される。さらに、ブロック中のエッジ密度は、H.264によるソース符号化アーチファクトについてテクスチャ・マスキング閾値を計算するために使用されうる。
【0071】
もう一つの実装では、デジタル画像またはデジタル画像シーケンスの品質の測定が、パケット損失に関連付けられる歪みを測定する方法、またはパケット損失に起因する歪みと符号化アーチファクトに起因する歪みとの間の区別をする方法を含む。前記歪みの結果をパケット損失または符号化アーチファクトに関連付けられるものとして分類するために、前記歪みの結果に閾値が適用され、パケット損失に起因する歪みおよび符号化アーチファクトに起因する歪みが組み合わされて、デジタル画像またはデジタル画像シーケンスについての総歪み値を与えうる。
【0072】
上記の諸実装のいずれにおいても、歪み値を調整するために一つまたは複数のマスクが使用されてもよい。特に、テクスチャ・マスクおよびコントラスト・マスクのうちの一つまたは複数が使用されてもよい。JNDは、前記一つまたは複数のマスクの少なくとも一つを使って決定されてもよく、エッジ強度の指標がテクスチャ・マスクを決定するために使用され、ピクセル強度の区分連続関数(piecewise continuous function)がコントラスト・マスクを決定するために使用される。
【0073】
ある実装では、デジタル画像またはデジタル画像シーケンスの知覚上の品質を評価する方法であって、パケット損失後の誤り隠蔽から生じる一つまたは複数の誤り伝搬および符号化アーチファクトに関連付けられた歪みを測定する方法が提供される。測定された歪みの結果をパケット損失または符号化アーチファクトに関連付けるものとして分類するために、測定される歪みの結果に閾値が適用される。パケット損失に起因する歪みおよび符号化アーチファクトに起因する歪みが組み合わされて、デジタル画像またはデジタル画像シーケンスについての総歪み値を与えうる。歪み値を調整するために一つまたは複数のマスクが使用されてもよい。ここで、一つまたは複数のマスクはテクスチャ・マスクおよびコントラスト・マスクを含む。JNDは、前記一つまたは複数のマスクの少なくとも一つに基づいて決定される。さらに、エッジ強度の指標がテクスチャ・マスクを決定するために使用され、ピクセル強度の区分連続関数がコントラスト・マスクを決定するために使用される。
【0074】
一つまたは複数の実装に基づく歪みの指標の生成、収集、記憶、送信、受信および/または処理が本開示に記載される。
【0075】
本発明によれば、記載された実装の一つに従って動作できるまたは記載された実装の一つと通信するデバイス(たとえばエンコーダ、デコーダ、プリプロセッサまたはポストプロセッサ)が考えられている。さらに、本開示において記載されている実装に従って歪みの尺度を記憶するために、あるいは本開示において記載される実装の一つまたは複数に従って歪みを測定するための命令のセットを記憶するための別のデバイス(たとえばコンピュータ可読媒体のような)が考えられている。
【0076】
さらに、本発明によれば、本開示に記載される歪みの指標に関係する情報を含めるような仕方でフォーマットされている信号が考えられる。該信号は電磁波またはベースバンド信号であってもよい。
【0077】
以上は、本発明を実施するためのさまざまな可能性のいくつかを例解する。他の多くの実装が本発明の範囲および精神内で可能である。したがって、以上の記述は限定するものではなく例示的なものと見なされ、本発明の範囲は付属の請求項およびその等価物の全範囲によって与えられることが意図されている。開示された実装のさまざまな特徴を組み合わせる、削除する、修正するまたは補完することによって追加的な実装が作り出されてもよい。さらに、本発明は、上記に開示された方法、評価または計算をビデオに適用して、歪みを減らす、ビデオ・シーケンスを訂正するまたは他の仕方でビデオを改善することをも含む。

【特許請求の範囲】
【請求項1】
デジタル画像の複数の諸部分の対応する部分における歪みの量を示す値にアクセスする段階と;
前記値をパケット損失歪みまたは符号化アーチファクト歪みとして分類する段階と;
前記分類する段階に応答して、分類された値を、人間の視覚系の可視性の差を取り入れるよう修正する段階と;
複数の諸部分についての修正された値を組み合わせて、該複数の諸部分についての歪みの量を示す組み合わされた値を形成する段階とを含む、
方法。
【請求項2】
前記値を分類する段階が:
閾値を前記値と比較する段階と;
前記比較する段階の結果に基づいて前記値がパケット損失歪みであるか符号化アーチファクト歪みであるかを判定する段階とを含む、
請求項1記載の方法。
【請求項3】
前記分類された値を修正する段階が:
前記値を、前記部分の輝度または前記部分のテクスチャの一つまたは複数に基づく可視性閾値と比較する段階と;
前記比較の結果に基づいて前記値を縮小する段階とを含む、
請求項1記載の方法。
【請求項4】
前記可視性閾値が:
人間の視覚系が比較的高めの輝度の領域において歪みを見る能力に基づく閾値;
人間の視覚系が比較的低めの輝度の領域において歪みを見る能力に基づく閾値;または
人間の視覚系が比較的高めのテクスチャの領域において歪みを見る能力に基づき、ここで、テクスチャはエッジ密度によって表される、閾値;
のうちの一つまたは複数を含む、請求項3記載の方法。
【請求項5】
前記可視性閾値が、ピクセル強度の区分連続関数に基づく、請求項3記載の方法。
【請求項6】
前記分類された値を修正する段階が:
前記対応する部分におけるエッジの密度に基づいて前記値を調整することを含む、
請求項1記載の方法。
【請求項7】
請求項1ないし6のうちいずれか一項記載の方法であって、当該方法がさらに:
当該方法の結果をビデオに適用して、歪みを低減させるまたはビデオ・シーケンスを訂正することをさらに含む、
方法。
【請求項8】
(1)パケット損失後の誤り隠蔽から生じる誤り伝搬および(2)符号化アーチファクトの一つまたは複数に関連する歪みを測定するプロセスを使ってデジタル画像またはデジタル画像シーケンスの知覚上の品質を評価する方法であって:
歪みメトリックの結果をパケット損失または符号化アーチファクトに関連するとして分類するために歪みメトリックの該結果に閾値が適用され;
パケット損失に起因する歪みおよび符号化アーチファクトに起因する歪みが組み合わされて、デジタル画像またはデジタル画像シーケンスについての総歪み値を与え;
一つまたは複数のマスクを使って歪み値が調整され、前記一つまたは複数のマスクはテクスチャ・マスクおよびコントラスト・マスクを含み、前記一つまたは複数のマスクのうちの少なくとも一つに基づいてJNDが決定され;
エッジ強度の指標を使ってテクスチャ・マスクが決定され:
ピクセル強度の区分連続関数を使ってコントラスト・マスクが決定される、
方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2011−510562(P2011−510562A)
【公表日】平成23年3月31日(2011.3.31)
【国際特許分類】
【出願番号】特願2010−543125(P2010−543125)
【出願日】平成21年1月13日(2009.1.13)
【国際出願番号】PCT/US2009/000200
【国際公開番号】WO2009/091530
【国際公開日】平成21年7月23日(2009.7.23)
【出願人】(501263810)トムソン ライセンシング (2,848)
【氏名又は名称原語表記】Thomson Licensing 
【住所又は居所原語表記】1−5, rue Jeanne d’Arc, 92130 ISSY LES MOULINEAUX, France
【Fターム(参考)】