説明

トランスコード映像品質客観評価装置及び方法及びプログラム

【課題】 トランスコード映像に対して、映像品質値を高精度に推定する。
【解決手段】 本発明は、入力されたトランスコード前の符号化映像からエッジ量及びテクスチャ量を導出し、符号化映像及びエッジ量とテクスチャ量から少なくとも1つの第1の特徴量を導出し、第1の特徴量に基づきトランスコード前の符号化映像の品質評価値を示す第1の映像品質評価値を導出する。入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像の両者から第2の特徴量を導出し、第1の映像品質評価値と第2の特徴量からトランスコード後のトランスコード映像の品質評価値を示す第2の映像品質評価値を導出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、トランスコード映像品質客観評価装置及び方法及びプログラムに係り、特に、
インターネットのようなIP(Internet Protocol)ネットワーク経由で行うIPTVサービス、映像配信サービスにおけるトランスコードされた映像の品質を客観的に評価するトランスコード映像品質客観評価装置及び方法及びプログラムに関する。
【背景技術】
【0002】
インターネットアクセス回線の高速・広帯域化に伴い、インターネットを介して映像や音声を含む映像メディアを端末間あるいはサーバと端末との間で転送する映像通信サービスの普及が期待されている。
【0003】
インターネットは、必ずしも通信品質が保証されていないネットワークであるため、音声及び映像メディアなどを用いて通信を行う場合、ユーザ端末間のネットワークの回線帯域が狭いことによるビットレートの低下、回線が輻輳することでパケット損失やパケット転送遅延が発生し、音声や映像メディアなどに対してユーザが知覚する品質(ユーザ体感品質:QoE(Quality of Experience))が劣化してしまう。
【0004】
具体的には、原映像を符号化する場合や既に符号化された映像を再符号化(トランスコード)する場合、フレーム内の映像信号にブロック単位の処理による劣化が生じたり、映像信号の高周波成分が失われることにより、映像全体の精細感が低くなる。
【0005】
結果として、ユーザは受信した映像に、ぼけ、にじみ、やモザイク状の歪みを知覚する。
【0006】
上記のような映像通信サービスを良好な品質で提供していることを確認するためには、サービス提供前もしくは提供中に、ユーザが体感する映像の品質を測定し、ユーザに対して提供される映像の品質が高いことを監視することが重要となる。
【0007】
したがって、ユーザが体感する映像の品質を適切に表現することができる映像品質客観評価技術が必要とされている。
【0008】
従来、映像品質を評価する手法として、主観品質評価法(例えば、非特許文献1参照)や客観品質評価法(例えば、非特許文献2参照)がある。
【0009】
主観品質評価法は、複数のユーザが実際に映像を視聴し、体感した品質を5段階(9段階や11段階の場合もある)の品質尺度(非常に良い、良い、ふつう、悪い、非常に悪い)や妨害尺度(劣化が全く認められない、劣化が認められるが気にならない、劣化がわずかに気になる、劣化が気になる、劣化が非常に気になる)などにより評価し、全ユーザ数で各条件(例えば、パケット損失率0%でビットレートが20Mbps)の映像品質評価値を平均し、その値をMOS(Mean Opinion Score)値やDMOS(Degradation Mean Opinion Score)値として定義している。
【0010】
しかしながら、主観品質評価は、特別な専用機材(モニタなど)や評価環境(室内照度や室内騒音など)を調整可能な評価施設を必要とするだけではなく、多数のユーザが実際に映像を評価する必要がある。そのため、ユーザが実際に評価を完了するまでに時間がかかってしまい、品質をリアルタイムに評価する場合には不向きである。
【0011】
そこで、映像品質に影響を与える特徴量(例えば、ビットレートやフレーム単位のビット量、パケット損失情報など)を利用し、映像品質評価値を出力する客観品質評価法の開発が望まれている。
【0012】
従来の客観品質推定法の1つに、符号化前の原映像と符号化後の劣化映像を入力とし、両者の映像信号(つまり、画素値)を比較し、映像品質に影響を与える特徴量から映像品質評価値を導出する技術がある(例えば、非特許文献2参照)。
【0013】
また、従来の客観品質評価法の1つに、符号化前の原映像を用いず、符号化後の劣化映像を入力とし、この劣化映像信号から映像品質に影響を与える特徴量を導出し、映像品質評価値を導出する技術がある(例えば、非特許文献3参照)。
【0014】
さらに、従来の客観品質評価法の1つに、送信されたパケットを入力とし、これらパケットから映像品質に影響を与える特徴量を導出し、映像品質評価値を導出する技術がある(例えば、非特許文献4、5参照)。
【0015】
従来の客観品質評価法の多くは、上記のように、パケットや映像信号(画素値)を用いて映像品質評価値を推定するものであった。
【先行技術文献】
【非特許文献】
【0016】
【非特許文献1】ITU-T勧告P.910
【非特許文献2】ITU-T勧告J.247
【非特許文献3】J. Yang, H. Choi, and T. Kim, "Noise estimation for blocking artifacts reduction in DCT coded images," IEEE Trans. on CSVT, vol. 10, no. 7, pp. 1116-1134, Oct. 2000.
【非特許文献4】K. Yamagishi and T. Hayashi, "Non-intrusive Packet-layer Model for Monitoring Video Quality of IPTV Services," IEICE Trans. Fundamentals, vol. E92-A, no. 12, pp. 3297--3306, Dec. 2009.
【非特許文献5】K. Watanabe, K. Yamagishi, J. Okamoto, and A. Takahashi, "Proposal of new QoE assessment approach for quality management of IPTV services," IEEE ICIP 2008, pp. 2060--2063, Oct. 2008.
【非特許文献6】Stephane Pechard, Dominique Barba and Patrick Le Callet: Video Quality Model based on a spatio-temporal features extraction for H.264-coded HDTV sequences, in Proceedings of the IEEE Picture Coding Symposium, PCS2007, 2007.
【発明の概要】
【発明が解決しようとする課題】
【0017】
しかしながら、非特許文献2の技術は、原映像信号を用いることを前提としているため、一度、符号化された映像と再符号化(トランスコード)した映像のみを用いて、トランスコード後の映像の品質を評価する場合に、品質評価精度が著しく低下するといった問題がある。
【0018】
具体的には、トランスコード前の映像は、原映像を符号化しているため、ブロックノイズ、ブラー(ぼけ)ノイズ、モスキートノイズ、フリッカノイズなどのノイズを含んでいる。そのため、本来、原画像を利用できた際には、抽出できたエッジが抽出できないなどの問題が発生し、品質評価精度が著しく低下するといった問題がある。
【0019】
また、非特許文献3,4,5技術は、受信映像、受信パケットを用いて映像の品質を評価する技術であるが、受信映像や受信パケットのみを用い、再符号化する前の符号化映像を用いることができないため、再符号化前の符号化映像の品質低下を捉えることができないといった問題があった。
【0020】
本発明は、上記の点に鑑みなされたもので、上述の問題を解決すべく、トランスコードの前後の符号化映像から導出された特徴量から映像品質評価値を導出することで、トランスコード映像に対して、映像品質値を高精度に推定することが可能なトランスコード映像品質客観評価装置及び方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0021】
図1は、本発明の原理構成図である。
【0022】
本発明(請求項1)は、トランスコードされた映像の品質を客観的に評価するトランスコード映像品質客観評価装置であって、
入力されたトランスコード前の符号化映像からエッジ量及びテクスチャ量を導出するエッジ・テクスチャ量抽出手段100と、
エッジ・テクスチャ量抽出手段から導出されたエッジ量とテクスチャ量から導出される特徴量または、トランスコード前の符号化映像から導出される特徴量の少なくとも1つの第1の特徴量を導出する第1の特徴量抽出手段200と、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像から第2の特徴量を導出する第2の特徴量抽出手段400と、
第1の特徴量抽出手段より出力された第1の特徴量より、入力されたトランスコード前の符号化映像の映像品質評価値を第1の映像品質評価値として導出する第1の映像品質手段300と、
第1の映像品質評価値と第2の特徴量抽出手段400から導出された第2の特徴量からトランスコード後のトランスコード映像の品質評価値を示す第2の映像品質評価値を導出する第2の映像品質推定手段500と、を備える。
【0023】
本発明(請求項2)は、トランスコードされた映像の品質を客観的に評価するトランスコード映像品質客観評価装置であって、
入力されたトランスコード前の符号化映像からエッジ量及びテクスチャ量を導出するエッジ・テクスチャ量抽出手段と、
エッジ・テクスチャ量抽出手段から導出されたエッジ量とテクスチャ量から導出される特徴量または、トランスコード前の符号化映像から導出される特徴量の少なくとも1つの第1の特徴量を導出する第1の特徴量抽出手段と、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像から第2の特徴量を導出する第2の特徴量抽出手段と、
第1の特徴量抽出手段より導出された第1の特徴量と第2の特徴量抽出手段から導出された第2の特徴量からトランスコード後のトランスコード映像の品質評価値を示す第2の映像品質評価値を導出する第2の映像品質推定手段と、を備える、
また、本発明(請求項3)は、請求項1または2記載のエッジ・テクスチャ量抽出手段において、
入力されたトランスコード前の符号化映像をキャプチャしエッジ画像を作成し、エッジ画像の各画素の値に基づきクラスタリングを実施し、クラスタリング画像を導出するクラスタリング手段と、
クラスタリング手段により導出されたクラスタリング画像をフィルタリングし、フィルタリング画像を作成するフィルタリング手段と、
クラスタリングにより導出されたクラスタリング画像とフィルタリング手段から導出されたフィルタリング画像の差分値から差分クラスタリング画像を作成する差分クラスタリング画像導出手段と、
差分クラスタリング画像導出手段により導出された差分クラスタリング画像のエッジ量とテクスチャ量を映像フレーム単位にカウントするカウント手段と、を含む。
【0024】
また、本発明(請求項4)は、請求項1または2記載の第1の特徴量抽出手段において、
エッジ・テクスチャ量抽出手段より映像フレーム単位に抽出されたエッジ量及びテクスチャ量に基づき、推定対象の映像の全映像フレームに対するエッジ量の合計値と、同様に、推定対象の映像の全映像フレームに対するテクスチャ量の合計値を算出し、該エッジ量の合計値を該テクスチャ量の合計値で除算した映像フレーム平均特徴量を導出する映像フレーム平均特徴量導出手段を含む。
【0025】
また、本発明(請求項5)は、請求項1、2、または4記載の第1の特徴量抽出手段において、
エッジ・テクスチャ量抽出手段より映像フレーム単位に抽出されたエッジ量及びテクスチャ量に基づき、映像フレーム単位にエッジ量の合計値をテクスチャ量の合計値で除算した映像フレーム特徴量を導出する映像フレーム特徴量導出手段と、
推定対象の映像のある一定区間の複数の映像フレームに対し、映像フレーム特徴量導出手段から導出された映像フレーム特徴量を合計し、映像フレーム数で除算した平均特徴量を導出する平均特徴量導出手段と、
平均特徴量導出手段より導出された推定対象の映像のある一定区間の複数の映像フレームの平均特徴量に対し、推定対象の全区間の複数の平均特徴量の最大の値を示す最大特徴量を導出する最大特徴量導出手段と、
平均特徴量導出手段より導出された推定対象の映像のある一定区間の複数の映像フレームの平均特徴量に対し、推定対象の全区間の複数の平均特徴量の標準偏差をとった標準偏差特徴量を導出する標準偏差特徴量導出手段と、を更に有する。
【0026】
また、本発明(請求項6)は、請求項1,2,4、又は5の第1の特徴量抽出手段において、
入力されたトランスコード前の符号化映像から映像の動きを示す動き量を導出する動き量導出手段を更に有する。
【0027】
また、本発明(請求項7)は、請求項1また2記載の第2の特徴量抽出手段において、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像からPeak-signal-to-noise ratio(PSNR)を導出するPSNR導出手段を含む。
【0028】
図2は、本発明の原理を説明するための図である。
【0029】
本発明(請求項8)は、トランスコードされた映像の品質を客観的に評価するトランスコード映像品質客観評価方法であって、
トランスコード映像品質客観評価装置が、
入力されたトランスコード前の符号化映像からエッジ量及びテクスチャ量を導出するエッジ・テクスチャ量抽出ステップ(ステップ1)と、
エッジ・テクスチャ量抽出ステップから導出されたエッジ量とテクスチャ量から導出される特徴量または、トランスコード前の符号化映像から導出される特徴量の少なくとも1つの第1の特徴量を導出する第1の特徴量抽出ステップ(ステップ2)と、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像から第2の特徴量を導出する第2の特徴量抽出ステップ(ステップ3)と、
第1の特徴量抽出ステップより出力された第1の特徴量より、入力されたトランスコード前の符号化映像の映像品質評価値を第1の映像品質評価値として導出する第1の映像品質推定ステップ(ステップ4)と、
第1の映像品質評価値と第2の特徴量抽出ステップから導出された第2の特徴量からトランスコード後のトランスコード映像の品質評価値を示す第2の映像品質評価値を導出する第2の映像品質推定ステップ(ステップ5)と、を行う。
【0030】
本発明(請求項9)は、トランスコードされた映像の品質を客観的に評価するトランスコード映像品質客観評価方法であって、
トランスコード映像品質客観評価装置が、
入力されたトランスコード前の符号化映像からエッジ量及びテクスチャ量を導出するエッジ・テクスチャ量抽出ステップと、
エッジ・テクスチャ量抽出ステップから導出されたエッジ量とテクスチャ量から導出される特徴量または、トランスコード前の符号化映像から導出される特徴量の少なくとも1つの第1の特徴量を導出する第1の特徴量抽出ステップと、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像から第2の特徴量を導出する第2の特徴量抽出ステップと、
第1の特徴量抽出ステップより導出された第1の特徴量と第2の特徴量抽出ステップから導出された第2の特徴量からトランスコード後のトランスコード映像の品質評価値を示す第2の映像品質評価値を導出する第2の映像品質推定ステップと、を行う。
【0031】
また、本発明(請求項10)は、請求項8または9のエッジ・テクスチャ量抽出ステップにおいて、
入力されたトランスコード前の符号化映像をキャプチャしエッジ画像を作成し、エッジ画像の各画素の値に基づきクラスタリングを実施し、クラスタリング画像を導出するクラスタリングステップと、
クラスタリングステップにより導出されたクラスタリング画像をフィルタリングし、フィルタリング画像を作成するフィルタリングステップと、
クラスタリングにより導出されたクラスタリング画像とフィルタリングステップから導出されたフィルタリング画像の差分値から差分クラスタリング画像を作成する差分クラスタリング画像導出ステップと、
差分クラスタリング画像導出ステップにより導出された差分クラスタリング画像のエッジ量とテクスチャ量を映像フレーム単位にカウントするカウントステップと、を行う。
【0032】
また、本発明(請求項11)は、請求項8または9の第1の特徴量抽出ステップにおいて、
エッジ・テクスチャ量抽出ステップより映像フレーム単位に抽出されたエッジ量及びテクスチャ量に基づき、推定対象の映像の全映像フレームに対するエッジ量の合計値と、同様に、推定対象の映像の全映像フレームに対するテクスチャ量の合計値を算出し、該エッジ量の合計値を該テクスチャ量の合計値で除算した映像フレーム平均特徴量を導出する映像フレーム平均特徴量導出ステップを行う。
【0033】
また、本発明(請求項12)は、請求項8、9、または11の第1の特徴量抽出ステップにおいて、
エッジ・テクスチャ量抽出ステップより映像フレーム単位に抽出されたエッジ量及びテクスチャ量に基づき、映像フレーム単位にエッジ量の合計値をテクスチャ量の合計値で除算した映像フレーム特徴量を導出する映像フレーム特徴量導出ステップと、
推定対象の映像のある一定区間の複数の映像フレームに対し、映像フレーム特徴量導出ステップから導出された映像フレーム特徴量を合計し、映像フレーム数で除算した平均特徴量を導出する平均特徴量導出ステップと、
平均特徴量導出ステップより導出された推定対象の映像のある一定区間の複数の映像フレームの平均特徴量に対し、推定対象の全区間の複数の平均特徴量の最大の値を示す最大特徴量を導出する最大特徴量導出ステップと、
平均特徴量導出ステップより導出された推定対象の映像のある一定区間の複数の映像フレームの平均特徴量に対し、推定対象の全区間の複数の平均特徴量の標準偏差をとった標準偏差特徴量を導出する標準偏差特徴量導出ステップと、を更に行う。
【0034】
また、本発明(請求項13)は、請求項8,9,11、または、12の第1の特徴量抽出ステップにおいて、
入力されたトランスコード前の符号化映像から映像の動きを示す動き量を導出する動き量導出ステップを更に行う。
【0035】
また、本発明(請求項14)は、請求項8または9の第2の特徴量抽出ステップにおいて、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像からPeak-signal-to-noise ratio(PSNR)を導出するPSNR導出ステップを行う。
【0036】
本発明(請求項15)は、請求項1乃至7のいずれか1項に記載のトランスコード映像品質客観評価装置を構成する各手段としてコンピュータを機能させるためのトランスコード映像品質客観評価プログラムである。
【発明の効果】
【0037】
従来、原映像とトランスコード映像を用いブロックノイズ、ブラー(ぼけ)ノイズ、モスキートノイズ、フリッカノイズなどを抽出していた技術では、トランスコード前の符号化された原映像が入力となるため、ブロックノイズ、ブラー(ぼけ)ノイズ、モスキートノイズ、フリッカノイズなど適切に抽出できないために映像品質推定精度が著しく低下していた。また、受信映像や受信パケットのみを用い映像品質を推定する技術では、トランスコードする前の符号化映像を用いることができないため、トランスコード前の符号化映像の品質低下を捉えることできないため、映像品質推定精度が著しく低下していた。
【0038】
これに対し、本発明によれば、トランスコード前の符号化映像の品質を第1の映像品質評価値として導出し、また、符号化映像とトランスコード映像の両者から特徴量を導出し、第1の映像品質評価値と符号化映像とトランスコード映像から導出された特徴量より第2の映像品質評価値を導出することで、トランスコードされた映像に対して適切に品質評価値を推定することができる。
【0039】
したがって、映像通信サービスの提供者は、本発明によりユーザが実際に視聴する映像通信サービスの映像について映像品質値を監視可能となるため、提供中のサービスがユーザに対してある一定以上の品質を保っているか否かを容易に判断することができる。
【0040】
このため、映像通信サービスの提供者は、提供中のサービスの品質実態を従来より詳細に把握・管理することが可能となる。
【図面の簡単な説明】
【0041】
【図1】本発明の原理構成図である。
【図2】本発明の原理を説明するための図である。
【図3】本発明の第1の実施の形態における映像品質客観評価装置の構成図である。
【図4】本発明の第1の実施の形態における領域分割方法を示す図である。
【図5】本発明の第1の実施の形態における差分クラスタリング画像の導出過程を概念的に説明するための図である。
【図6】本発明の第1の実施の形態における映像品質客観評価装置の動作のフローチャートである。
【図7】本発明の第2の実施の形態における映像品質客観評価装置の構成図である。
【図8】本発明の第2の実施の形態における映像品質客観評価装置の動作のフローチャートである。
【発明を実施するための形態】
【0042】
以下図面と共に、本発明の実施の形態を説明する。
【0043】
[第1の実施の形態]
本発明の本実施の形態にかかるトランスコード映像品質客観評価装置は、符号化映像にクラスタリング処理を施し、クラスタリング画像を作成し、そのクラスタリング画像から特徴量を導出し、トランスコード前の符号化映像の映像品質を定量的に表した第1の映像品質評価値を導出し、次に、符号化映像とトランスコード映像を用いPSNR(Peak Signal to Noise Ratio)を導出し、第1の映像品質評価値とPSNRからトランスコード映像の品質を示す第2の映像品質評価値(トランスコード映像品質評価値)を客観的な評価で実現するものである。
【0044】
例えば、本実施の形態においては、インターネットのようなIPネットワーク経由で行うIPTVサービス、映像配信サービスなど映像通信における客観的な映像品質評価を実現するために、トランスコード前の符号化映像とトランスコード後のトランスコード映像を分析し、これらの映像通信に関わる映像品質に影響を与える特徴量を定量的に表したトランスコード映像品質値を導出する。
【0045】
図3は、本発明の一実施の形態における映像品質客観評価装置の構成を示す。
【0046】
同図に示すように、映像品質客観評価装置1は、エッジ・テクスチャ量抽出部100と、第1の特徴量抽出部200と、第1の映像品質推定部300と、第2の特徴量抽出部400と、第2の映像品質推定部500とから構成されている。
【0047】
エッジ・テクスチャ量抽出部100は、クラスタリング部10と、フィルタリング部11と、差分クラスタリング画像導出部12と、カウント部13とから構成されている。
【0048】
第1の特徴量抽出部200は、映像フレーム平均特徴量導出部14と、映像フレーム特徴量導出部15と、平均特徴量導出部16、最大特徴量導出部17と、標準偏差特徴量導出部18と、動き量導出部19とから構成されている。
【0049】
クラスタリング部10は、入力されたトランスコード前の符号化映像I(x,y,f)に、前述の非特許文献6の手法に基づきSobelフィルタFx、Fyをかけ、垂直方向(Y方向)のエッジ画像、水平方向(X方向)のエッジ画像Sx(x,y,f)及びSy(x,y,f)を導出する。具体的には、対象画素の隣接8画素の情報を用い、以下の式(1)に基づきエッジ画像を作成する。
【0050】
【数1】

各画素に対し導出された垂直及び水平方向のエッジ値を、図4に示す領域分割方法で1〜4の4つのクラスに分類されたクラスタリング画像(クラスタリング画像はC1〜C4に対応するクラスタリング値1〜4の値を持つ)を作成する。
【0051】
フィルタリング部11は、クラスタリング部10より出力されたクラスタリング画像に図5に示すようにErosionフィルタ及びDilatationフィルタをかけフィルタリング画像を作成する。図5は、4つのクラスにクラスタリングされた画像(8×8画素の画像)に対して、パディング無し(A)と、パディング有り(B)の例を示している。
【0052】
具体的には、クラスタリング画像C(x,y)(xは水平画素位置、yは垂直画素位置)に以下の式(2)に基づきErosionフィルタを施し、Erosion画像E(x,y)を作成する。次に、以下の式(3)に基づきErosion画像にDilatationフィルタを施し、Dilatation画像D(x,y)(つまり、フィルタリング画像)を作成する。2種類のフィルタリングをかけることで、クラスタリング画像C(x,y)を平滑化したフィルタリング画像D(x,y)ができることになり、両者の差分からC3とC4を適切に抽出できる。
【0053】
【数2】

ただし、画面の端の画素に対しては、画面外に画素がないため、画面の端の画素値をパディングするか、もしくは画面の端の画素を処理しないことで対応する。
【0054】
差分クラスタリング画像導出部12は、クラスタリング部10より出力されたクラスタリング画像C(x,y)と、フィルタリング部11より出力されたフィルタリング画像D(x,y)との差分値(差分クラスタリング画像:C(x,y)-D(x,y)+1、もし、C(x,y)-D(x,y)+1が1未満の場合は1とする)を導出する。
【0055】
カウント部13は、差分クラスタリング画像の中で、クラスタリング値が3(エッジ量)と示された画素数NC3と、クラスタリング値が4(テクスチャ量)と示された画素数NC4をカウントする。
【0056】
映像フレーム平均特徴量導出部14は、以下の式(4)に示すように、カウント部13より出力された映像フレーム毎のNC3を全映像フレームにわたって加算し映像フレーム数で除算した値を、映像フレーム毎のNC4を全映像フレームにわたって加算し映像フレーム数で除算した値で除算した映像フレーム平均特徴量Pを導出する。
【0057】
【数3】

ここで、fは映像フレーム番号、Fは総映像フレーム数(例えば、推定対象の映像が30fps、10秒分の場合、300フレームとなる)を示す。
【0058】
映像フレーム特徴量導出部15は、以下の式(5)に示すように、映像フレーム毎に、カウント部13より出力された映像フレーム毎のNC3を、映像フレーム毎のNC4で除算した映像フレーム特徴量P(f)を以下の式(5)に基づき導出する。
【0059】
【数4】

ここで、fは映像フレーム番号を示す。
【0060】
平均特徴量導出部16は、ある一定の区間(Zフレーム、例えば、10フレーム)を一区間とし、以下の式(6)により、その区間の映像フレーム特徴量P(f)の平均値を平均特徴量Pt(k)とする。
【0061】
【数5】

ここで、fは映像フレーム番号、kは平均区間の番号(例えば、推定対象の映像が300フレームから構成され、Zが10フレームの場合、kは0〜29の値となる)を示す。
【0062】
最大特徴量導出部17は、平均特徴量導出部16より出力された平均特徴量Pt(k)の中で最大の値を最大特徴量MaxPtとして導出する(例えば、Pt(0)〜Pt(29)の中で、Pt(10)が最大であった場合、Pt(10)がMaxPtとなる)。
【0063】
【数6】

標準偏差特徴量導出部18は、平均特徴量導出部16より出力された平均特徴量Pt(k)の標準偏差を標準偏差特徴量StdPtとして導出する。
【0064】
【数7】

ここで、Stdevは、標準偏差を計算する演算子を表す。
【0065】
動き量導出部19は、映像フレーム間の動きを示す動き量TIを導出する。上記で求められたP、MaxPt、StdPtは映像フレーム単位に導出される特徴量の統計値であり,映像の動きとは無関係の特徴量であるため、動き量を考慮することで正確な品質推定が可能となる。
【0066】
【数8】

ここで、式(7)のI(x,y,f)は水平方向x、垂直方向y、映像フレーム番号fの画素を示す。また、式(7)、(8)のM(f)はI(x,y,f)とI(x,y,f−1)との差分画像、式(8)、(9)のTI(f)は映像フレーム毎のフレーム関差分値の標準偏差、式(9)のFは総映像フレーム数(例えば、30fpsの映像10秒分の場合、300フレームとなる)を示す。
【0067】
第1の映像品質推定部300は、映像フレーム平均特徴量導出部14より出力される映像フレーム平均特徴量P、最大特徴量導出部17より出力される最大特徴量MaxPt、標準偏差特徴量導出部18より出力される標準偏差特徴量StdPt、動き量導出部19より出力される動き量TIより、第1の映像品質評価値(Vq)を以下の式(10)に基づき導出する。
【0068】
【数9】

ここで、a〜iは、映像フォーマット(例えば、QCIF,VGA,HDなど)に固有の係数とする。
【0069】
ただし、Vqは3次関数で表現されているが、以下に示すような他の数式で表現してもよい。
【0070】
【数10】

ここで、j〜lは、映像フォーマット(例えば、QCIF,VGA,HDなど)に固有の係数とする。
【0071】
第2の特徴量抽出部400は、PSNR導出部20から構成されている。
【0072】
PSNRは以下の式(12)〜(14)を用いて導出される。
【0073】
【数11】

ここで、ytranscode(x,y,f))は水平方向x、垂直方向y、フレーム番号fのトランスコード映像の画素を示し、ycode(x,y,f)は水平方向x、垂直方向y、フレーム番号fの符号化映像の画素を示し、Wは水平方向画素の総数、Hは垂直方向画素の総数、Nは総映像フレーム数を示す。
【0074】
第2の映像品質推定部500は、第1の映像品質評価値Vqと特徴量PSNRを用いて、以下の式(15)に基づき第2の映像品質評価値を導出する。
【0075】
【数12】

ここで、m,n,oは映像フォーマット(例えば、QCIF,VGA,HDなど)に固有の係数とする。
【0076】
但し、本実施の形態では、符号化映像とトランスコード映像の両者から抽出する特徴量をPNSRのみを用いてトランスコード映像の品質評価値を導出したが、非特許文献2のITU-T勧告J.247の中で示されるMinHVなどの特徴量を重み付け加算し、トランスコード映像の品質評価値を評価してもよい。
【0077】
次に、本実施の形態にかかる映像品質客観評価装置1の動作について説明する。
【0078】
図6は、本発明の第1の実施の形態における映像品質客観評価装置の動作のフローチャートである。
【0079】
映像品質客観評価装置1のクラスタリング部10に、劣化映像が入力されると(S101)、クラスタリング部10は、入力された符号化映像ycode(x,y,f)(xは水平方向、yは垂直方向、fはフレーム番号)にSobelフィルタFx,Fyをかけ、エッジ画像Sx(x,y,f)及びSy(x,y,f)を導出し、エッジ画像Sx(x,y,f)及びSy(x,y,f)を用い、1〜4のクラスにクラスタリングし、クラスタリング画像C(x,y,f)を導出し(S102)、フィルタリング部11及び差分クラスタリング画像導出部12へ出力する。
【0080】
フィルタリング部11は、クラスタリング部10によって導出されたクラスタリング画像C(x,y,f)を入力として、Erosionフィルタ及びDilatationフィルタをかけ、前述の式(2)、(3)によりフィルタリング画像D(x,y,f)を導出し(S103)、差分クラスタリング画像導出部12へ出力する。
【0081】
差分クラスタリング画像導出部12は、クラスタリング部10より出力されたクラスタリング画像C(x,y,f)からフィルタリング部11より出力されたフィルタリング画像D(x,y,f)の差分値をとり、1を加え、1〜4の値を持つ差分クラスタリング画像を導出し(S104)、カウント部13へ出力する。
【0082】
カウント部13は、差分クラスタリング画像導出部12より出力された差分クラスタリング画像のC3(エッジ量)とC4(テクスチャ量)の画素数を映像フレーム毎にカウントし(S105)、映像フレーム平均特徴量導出部14及び映像フレーム特徴量導出部15へ出力する。
【0083】
映像フレーム平均特徴量導出部14は、カウント部13より出力されたC3とC4の画素数を、全映像フレームに対して、前述の式(4)によりC3の総数をC4の総数で除算した映像フレーム平均特徴量Pを導出し(S106)、映像品質推定部20へ出力する。
【0084】
映像フレーム特徴量導出部15は、カウント部13より出力されたC3とC4の画素数を各映像フレームに対し、前述の式(5)によりC3の画素数をC4の画素数で除算し、映像フレーム毎の映像フレーム特徴量P(f)を導出し(S107)、平均特徴量導出部16へ出力する。
【0085】
平均特徴量導出部16は、前述の式(6)により映像フレーム特徴量導出部15より出力された映像フレーム特徴量P(f)を特定の映像フレーム数毎に平均し、平均特徴量Pt(k)を導出し(S108)、最大特徴量導出部17及び標準偏差特徴量導出部18に出力する。
【0086】
最大特徴量導出部17は、平均特徴量Pt(k)の中で最大である最大特徴量MaxPtを導出し(S109)、映像品質推定部20へ出力する。
【0087】
標準偏差特徴量導出部18は、平均特徴量Pt(k)の標準偏差を示す標準偏差特徴量StdPtを導出し(S110)、映像品質推定部20へ出力する。
【0088】
動き量導出部19は、映像の動きを示す動き量TIを導出し(S111)、映像品質推定部20へ出力する。
【0089】
第1の映像品質推定部300は、映像フレーム平均特徴量P、最大特徴量MaxPt、標準偏差特徴量StdPt及び動き量TIから前述の式(10)または式(11)により映像品質評価値Vqを導出し(S112)、第1の映像品質評価値Vqを出力する。
【0090】
第2の特徴量抽出部400は、符号化映像ycode(x,y,f)とトランスコード映像ytranscode(x,y,f)から前述の式(12)〜(14)から特徴量PSNRを導出し(S113)、第2の映像品質推定部500に出力する。
【0091】
第2の映像品質推定部500は、前述の式(15)により第1の映像品質評価値Vqと特徴量PSNRから第2の映像品質評価値Vq_transcodeを導出し(S114)、処理を終了する。
【0092】
このように、本実施の形態によれば、符号化映像からトランスコード前の第1の映像品質評価値Vqを導出し、次に、符号化映像ycode(x,y,f)とトランスコード映像ytranscode(x,y,f)の両者から特徴量PSNRを導出し、第1の映像品質評価値Vqと第2の特徴量PSNRを用いることで、原映像の得られない状況下で、トランスコード映像の品質評価値Vq_transcodeを算出することができるため、従来よりも正確なトランスコード映像品質客観評価法による映像品質推定が可能となる。
【0093】
したがって、映像通信サービスの提供者は、提供中のサービスがユーザに対してある一定以上の品質を保っているか否かを容易に判断することができ、提供中のサービスの品質実態をリアルタイムで把握・管理することが可能となる。
【0094】
[第2の実施の形態]
前述の第1の実施の形態では、第1の映像品質評価値Vqを求めたのち、特徴量PSNRを重み付け加算することで、第2の映像品質評価値(トランスコード映像の映像品質評価値)を導出したが、本実施の形態では、第1の映像品質評価値を構成する特徴量と特徴量PNSRを直接重み付け加算する例を示す。
【0095】
図7は、本発明の第2の実施の形態における映像品質客観評価装置の構成を示す。
【0096】
同図において、図3の構成と同一構成部分には同一符号を付し、その説明を省略する。本実施の形態では、第1の映像品質推定部300は用いず、第2の映像品質推定部500の代わりに映像品質推定部600を備える。
【0097】
本実施の形態の映像品質客観評価装置2では、映像フレーム平均特徴量導出部14、最大特徴量導出部17、標準偏差特徴量導出部18、動き量導出部19は各特徴量を第1の映像品質推定部300ではなく、映像品質推定部600に出力する。
【0098】
図8は、本発明の第2の実施の形態における映像品質客観評価装置の動作のフローチャートである。S201〜S211までは、第1の実施の形態の図6のS101〜S111と同様であるが、S212において、PSNR導出部20において、入力された符号化映像及びトランスコード映像に基づいてPSNRを導出した後、S213において、映像品質推定部600が、式(16)に示すように、映像フレーム平均特徴量導出部14から取得した映像フレーム平均特徴量P、最大特徴量導出部17から取得した最大特徴量MaxPt、標準偏差特徴量導出部18から取得した標準偏差特徴量StdPt、動き量導出部19から取得した動き量TIとPNSR導出部20から取得した特徴量PSNRを直接重み付け加算することでトランスコード映像の映像品質評価値Vq_transcodを直接導出する。
【0099】
【数13】

ここで、u,v,w,x,y,zは映像フォーマット(例えば、QCIF,VGA,HDなど)に固有の係数とする。
【0100】
但し、本実施の形態では、符号化映像とトランスコード映像の両者から抽出する特徴量をPSNRのみを用いてトランスコード映像の品質評価値を導出したが、非特許文献2のITU-T勧告J.247の中で示されるMinHVなどの特徴量を重み付け加算し、トランスコード映像の品質評価値を評価してもよい。
【0101】
なお、上記の第1、第2の実施の形態における映像品質客観評価装置1、2は、CPU(中央演算装置)やメモリ、インターフェースからなるコンピュータにコンピュータプログラムをインストールすることによって実現され、上述した映像品質客観評価装置1の各種機能は、上記コンピュータの各種ハードウェア資源と上記コンピュータプログラム(ソフトウェア)とが協働して実現される。
【0102】
図3、図7に示す映像品質客観評価装置1,2の構成要素の動作をプログラムとして構築し、当該映像品質客観評価装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0103】
さらに、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0104】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0105】
IPネットワーク経由で行うIPTVサービス、映像配信サービスなどの映像通信のトランスコード映像品質評価値を推定するトランスコード映像品質客観評価装置に利用できる。
【符号の説明】
【0106】
1,2 映像品質客観評価装置
10 クラスタリング部
11 フィルタリング部
12 差分クラスタリング画像導出部
13 カウント部
14 映像フレーム平均特徴量導出部
15 映像フレーム特徴量導出部
16 平均特徴量導出部
17 最大特徴量導出部
18 標準偏差特徴量導出部
19 動き量導出部
20 PSNR導出部
100 エッジ・テクスチャ量抽出手段、エッジ・テクスチャ量抽出部
200 第1の特徴量抽出手段、第1の特徴量抽出部
300 第1の映像品質推定手段、第1の映像品質推定部
400 第2の特徴量抽出手段、第2の特徴量抽出部
500 第2の映像品質推定手段
600 映像品質推定部

【特許請求の範囲】
【請求項1】
トランスコードされた映像の品質を客観的に評価するトランスコード映像品質客観評価装置であって、
入力されたトランスコード前の符号化映像からエッジ量及びテクスチャ量を導出するエッジ・テクスチャ量抽出手段と、
前記エッジ・テクスチャ量抽出手段から導出された前記エッジ量と前記テクスチャ量から導出される特徴量または、前記トランスコード前の符号化映像から導出される特徴量の少なくとも1つの第1の特徴量を導出する第1の特徴量抽出手段と、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像から第2の特徴量を導出する第2の特徴量抽出手段と、
前記第1の特徴量抽出手段より出力された第1の特徴量より、入力されたトランスコード前の符号化映像の映像品質評価値を第1の映像品質評価値として導出する第1の映像品質手段と、
前記第1の映像品質評価値と前記第2の特徴量抽出手段から導出された前記第2の特徴量からトランスコード後のトランスコード映像の品質評価値を示す第2の映像品質評価値を導出する第2の映像品質推定手段と、
を備えることを特徴とするトランスコード映像品質客観評価装置。
【請求項2】
トランスコードされた映像の品質を客観的に評価するトランスコード映像品質客観評価装置であって、
入力されたトランスコード前の符号化映像からエッジ量及びテクスチャ量を導出するエッジ・テクスチャ量抽出手段と、
前記エッジ・テクスチャ量抽出手段から導出された前記エッジ量と前記テクスチャ量から導出される特徴量または、前記トランスコード前の符号化映像から導出される特徴量の少なくとも1つの第1の特徴量を導出する第1の特徴量抽出手段と、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像から第2の特徴量を導出する第2の特徴量抽出手段と、
前記第1の特徴量抽出手段より導出された前記第1の特徴量と前記第2の特徴量抽出手段から導出された前記2の特徴量からトランスコード後のトランスコード映像の品質評価値を示す第2の映像品質評価値を導出する第2の映像品質推定手段と、
を備えることを特徴とするトランスコード映像品質客観評価装置。
【請求項3】
前記エッジ・テクスチャ量抽出手段は、
入力されたトランスコード前の符号化映像をキャプチャしエッジ画像を作成し、エッジ画像の各画素の値に基づきクラスタリングを実施し、クラスタリング画像を導出するクラスタリング手段と、
前記クラスタリング手段により導出された前記クラスタリング画像をフィルタリングし、フィルタリング画像を作成するフィルタリング手段と、
前記クラスタリングにより導出された前記クラスタリング画像と前記フィルタリング手段から導出された前記フィルタリング画像の差分値から差分クラスタリング画像を作成する差分クラスタリング画像導出手段と、
前記差分クラスタリング画像導出手段により導出された前記差分クラスタリング画像のエッジ量とテクスチャ量を映像フレーム単位にカウントするカウント手段と、
を含むことを特徴とする請求項1または2記載のトランスコード映像品質客観評価装置。
【請求項4】
前記第1の特徴量抽出手段は、
前記エッジ・テクスチャ量抽出手段より映像フレーム単位に抽出されたエッジ量及びテクスチャ量に基づき、推定対象の映像の全映像フレームに対するエッジ量の合計値と、同様に、推定対象の映像の全映像フレームに対するテクスチャ量の合計値を算出し、該エッジ量の合計値を該テクスチャ量の合計値で除算した映像フレーム平均特徴量を導出する映像フレーム平均特徴量導出手段を
含むことを特徴とする請求項1または2記載のトランスコード映像品質客観評価装置。
【請求項5】
前記第1の特徴量抽出手段は、
前記エッジ・テクスチャ量抽出手段より映像フレーム単位に抽出されたエッジ量及びテクスチャ量に基づき、映像フレーム単位にエッジ量の合計値をテクスチャ量の合計値で除算した映像フレーム特徴量を導出する映像フレーム特徴量導出手段と、
推定対象の映像のある一定区間の複数の映像フレームに対し、前記映像フレーム特徴量導出手段から導出された映像フレーム特徴量を合計し、映像フレーム数で除算した平均特徴量を導出する平均特徴量導出手段と、
前記平均特徴量導出手段より導出された推定対象の映像のある一定区間の複数の映像フレームの前記平均特徴量に対し、推定対象の全区間の複数の平均特徴量の最大の値を示す最大特徴量を導出する最大特徴量導出手段と、
前記平均特徴量導出手段より導出された推定対象の映像のある一定区間の複数の映像フレームの前記平均特徴量に対し、推定対象の全区間の複数の平均特徴量の標準偏差をとった標準偏差特徴量を導出する標準偏差特徴量導出手段と、
を更に有することを特徴とする請求項1、2、または4記載のトランスコード映像品質客観評価装置。
【請求項6】
前記第1の特徴量抽出手段は、
入力されたトランスコード前の符号化映像から映像の動きを示す動き量を導出する動き量導出手段を
更に有することを特徴とする請求項1,2,4、又は5に記載のトランスコード映像品質客観評価装置。
【請求項7】
前記第2の特徴量抽出手段は、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像からPeak-signal-to-noise ratio(PSNR)を導出するPSNR導出手段を
含むことを特徴とする請求項1また2記載のトランスコード映像品質客観評価装置。
【請求項8】
トランスコードされた映像の品質を客観的に評価するトランスコード映像品質客観評価方法であって、
トランスコード映像品質客観評価装置が、
入力されたトランスコード前の符号化映像からエッジ量及びテクスチャ量を導出するエッジ・テクスチャ量抽出ステップと、
前記エッジ・テクスチャ量抽出ステップから導出された前記エッジ量と前記テクスチャ量から導出される特徴量または、前記トランスコード前の符号化映像から導出される特徴量の少なくとも1つの第1の特徴量を導出する第1の特徴量抽出ステップと、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像から第2の特徴量を導出する第2の特徴量抽出ステップと、
前記第1の特徴量抽出ステップより出力された第1の特徴量より、入力されたトランスコード前の符号化映像の映像品質評価値を第1の映像品質評価値として導出する第1の映像品質推定ステップと、
前記第1の映像品質評価値と前記第2の特徴量抽出ステップから導出された前記第2の特徴量からトランスコード後のトランスコード映像の品質評価値を示す第2の映像品質評価値を導出する第2の映像品質推定ステップと、
を行うことを特徴とするトランスコード映像品質客観評価方法。
【請求項9】
トランスコードされた映像の品質を客観的に評価するトランスコード映像品質客観評価方法であって、
トランスコード映像品質客観評価装置が、
入力されたトランスコード前の符号化映像からエッジ量及びテクスチャ量を導出するエッジ・テクスチャ量抽出ステップと、
前記エッジ・テクスチャ量抽出ステップから導出された前記エッジ量と前記テクスチャ量から導出される特徴量または、前記トランスコード前の符号化映像から導出される特徴量の少なくとも1つの第1の特徴量を導出する第1の特徴量抽出ステップと、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像から第2の特徴量を導出する第2の特徴量抽出ステップと、
前記第1の特徴量抽出ステップより導出された前記第1の特徴量と前記第2の特徴量抽出ステップから導出された前記第2の特徴量からトランスコード後のトランスコード映像の品質評価値を示す第2の映像品質評価値を導出する第2の映像品質推定ステップと、
を行うことを特徴とするトランスコード映像品質客観評価方法。
【請求項10】
前記エッジ・テクスチャ量抽出ステップにおいて、
入力されたトランスコード前の符号化映像をキャプチャしエッジ画像を作成し、エッジ画像の各画素の値に基づきクラスタリングを実施し、クラスタリング画像を導出するクラスタリングステップと、
前記クラスタリングステップにより導出された前記クラスタリング画像をフィルタリングし、フィルタリング画像を作成するフィルタリングステップと、
前記クラスタリングにより導出された前記クラスタリング画像と前記フィルタリングステップから導出された前記フィルタリング画像の差分値から差分クラスタリング画像を作成する差分クラスタリング画像導出ステップと、
前記差分クラスタリング画像導出ステップにより導出された前記差分クラスタリング画像のエッジ量とテクスチャ量を映像フレーム単位にカウントするカウントステップと、
を行うことを特徴とする請求項8または9記載のトランスコード映像品質客観評価方法。
【請求項11】
前記第1の特徴量抽出ステップにおいて、
前記エッジ・テクスチャ量抽出ステップより映像フレーム単位に抽出されたエッジ量及びテクスチャ量に基づき、推定対象の映像の全映像フレームに対するエッジ量の合計値と、同様に、推定対象の映像の全映像フレームに対するテクスチャ量の合計値を算出し、該エッジ量の合計値を該テクスチャ量の合計値で除算した映像フレーム平均特徴量を導出する映像フレーム平均特徴量導出ステップを
行うことを特徴とする請求項8または9記載のトランスコード映像品質客観評価方法。
【請求項12】
前記第1の特徴量抽出ステップにおいて、
前記エッジ・テクスチャ量抽出ステップより映像フレーム単位に抽出されたエッジ量及びテクスチャ量に基づき、映像フレーム単位にエッジ量の合計値をテクスチャ量の合計値で除算した映像フレーム特徴量を導出する映像フレーム特徴量導出ステップと、
推定対象の映像のある一定区間の複数の映像フレームに対し、前記映像フレーム特徴量導出ステップから導出された映像フレーム特徴量を合計し、映像フレーム数で除算した平均特徴量を導出する平均特徴量導出ステップと、
前記平均特徴量導出ステップより導出された推定対象の映像のある一定区間の複数の映像フレームの前記平均特徴量に対し、推定対象の全区間の複数の平均特徴量の最大の値を示す最大特徴量を導出する最大特徴量導出ステップと、
前記平均特徴量導出ステップより導出された推定対象の映像のある一定区間の複数の映像フレームの前記平均特徴量に対し、推定対象の全区間の複数の平均特徴量の標準偏差をとった標準偏差特徴量を導出する標準偏差特徴量導出ステップと、
を更に行うことを特徴とする請求項8、9、または11記載のトランスコード映像品質客観評価方法。
【請求項13】
前記第1の特徴量抽出ステップにおいて、
入力されたトランスコード前の符号化映像から映像の動きを示す動き量を導出する動き量導出ステップを
更に行うことを特徴とする請求項8,9,11、又は12に記載のトランスコード映像品質客観評価方法。
【請求項14】
前記第2の特徴量抽出ステップにおいて、
入力されたトランスコード前の符号化映像とトランスコード後のトランスコード映像からPeak-signal-to-noise ratio(PSNR)を導出するPSNR導出ステップを
行うことを特徴とする請求項8また9記載のトランスコード映像品質客観評価方法。
【請求項15】
請求項1乃至7のいずれか1項に記載のトランスコード映像品質客観評価装置を構成する各手段としてコンピュータを機能させるためのトランスコード映像品質客観評価プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−205253(P2011−205253A)
【公開日】平成23年10月13日(2011.10.13)
【国際特許分類】
【出願番号】特願2010−68798(P2010−68798)
【出願日】平成22年3月24日(2010.3.24)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】