説明

映像符号化のための時間的品質メトリック

本開示は符号化映像の時間的品質を評価する技法を対象とする。フレーム率または動き活性だけに基づいてジャーキネスを推定するのではなく、連続ドロップフレーム数が基本推定単位を構成する。時間的品質変動や動き活性度に対する感度など、いくつかの人間視覚系要因を考慮に入れて、予測されるジャーキネスを実際の人間視覚反応とより整合するものにしている。時間的品質メトリックは、映像ショット、動き活性度および局所的品質変動の様々な組み合わせの下で時間的不連続性によって導入される、人間に知覚される不快感を推定するのに使用することができる。これらの技法は、(1)ビットストリームモードと(2)画素モードの2つのモードで適用することができる。この品質メトリックは、時間的品質を評価するのに使用することもでき、時間的品質を改善するために符号化または復号特性を制御するのに使用することもできる。

【発明の詳細な説明】
【技術分野】
【0001】
本願は、参照によりこれの全内容が本明細書に組み込まれる、2006年4月5日に出願され本願譲受人に譲渡された米国仮出願第60/789,664号の優先権および利益を主張するものである。
【0002】
本開示はディジタル映像符号化に関し、より詳細には符号化映像の品質を評価する技法に関する。
【背景技術】
【0003】
ディジタル映像シーケンスを符号化するためのいくつかの異なる映像符号化規格が確立されている。例えばMPEG(Moving Picture Experts Group)は、MPEG−1、MPEG−2およびMPEG−4を含むいくつかの企画を策定している。他に、国際電気通信連合(International Telecommunication Union(ITU))H.263規格や、台頭しつつあるITU H.264規格などの例が含まれる。これらの映像符号化規格は一般に、データを圧縮して符号化することによる映像シーケンスの伝送効率の改善をサポートしている。
【0004】
一例として、映像電話技術(VT)は、テレビ会議などのアプリケーションをサポートするために各ユーザが映像および音声情報を共用することを可能にする。映像電話技術規格の例には、セッション開始プロトコル(SIP)によって定義される規格、ITU H.323規格、およびITU H.324規格が含まれる。VTシステムでは、各ユーザは映像情報を送受信しても、映像情報の受信だけを行って、映像情報の送信だけを行ってもよい。受信者は一般に、送信者から送信される形で受信した映像情報を閲覧する。
【0005】
符号化映像はフレーム落ち(frame dropping)により時間的品質の低下を来すことがある。フレーム落ちは、フレームスキップ(frame skipping)、フレーム率ダウンサンプリング(frame rate down-sampling)、通信路パケット紛失(channel packet loss)といった様々な要因から生じ得る。一般に、フレームスキップは、フレーム率ダウンサンプリングや通信路パケット紛失よりも時間的品質低下に大きな影響を及ぼしがちである。大量のフレーム落ちが生じた場合、閲覧者はフレーム凍結を目にすることになる。というのは、大部分の映像復号器は落ちたフレームの前に受け取った最後のフレームを自動的に複製し、落ちたフレームのかわりに複製フレームを提示して同じフレーム率を維持するからである。
【0006】
フレーム落ちに伴う複製は、しばしば「ジャーキネス(jerkiness)」と呼ばれる時間的不連続性を引き起こす。ジャーキネスは、復号映像の閲覧者をいらいらさせることになりやすい。ぎくしゃくした映像シーケンスを見る際に、閲覧者は、ドロップフレームの量だけでなく、ドロップフレームと非ドロップフレームの間の時間的品質変動によっても不快を感じる。人間の視覚系は、現在のフレームとこれに隣接するフレームとの品質対比に非常に高い感受性を有する。
【発明の開示】
【発明の概要】
【0007】
本開示は、符号化映像の時間的品質を評価する技法を対象とする。フレーム率(frame rate)または動き活性(motion activity)だけに基づいて時間的品質を推定するのではなく、開示の時間的品質メトリックは、基本推定単位として連続ドロップフレーム数(number of consecutive dropped frames)を使用する。ここでは連続ドロップフレーム数をフレームグループ落ちの長さ(frame group dropping length)と呼ぶ。加えて、時間的品質変動や動き活性度への感度といったいくつかの人間視覚系要因も考慮に入れて、予測される時間的品質を実際の人間視覚反応とより整合するものとしてもよい。
【0008】
この時間的品質メトリックを、人間の閲覧者が知覚することのできる時間的品質低下、すなわち顕著なジャーキネスだけを重視するという点でジャスト・ノーティサブル・ジャーキネス(just noticeable jerkiness(JNJ))と呼ぶことができる。このJNJメトリックを使って、映像ショット、映像動き活性度および局所的品質変動の様々な組み合わせの下で時間的不連続性(ジャーキネス)によって導入される、人間に知覚される不快感を効果的に推定することができる。説明される技法は、入力情報の利用可能性に基づき、2つのモード、すなわち(1)ビットストリームモードまたは(2)画素モードで適用され得る。時間的品質メトリックは、単に時間的品質を評価するためだけに使用してもよく、時間的品質がフレーム落ちにより著しく低下している場合に、時間的品質を改善するように符号化または復号特性を制御するためのフィードバックを生成するのに使用してもよい。
【0009】
一実施形態では、本開示は、映像シーケンス内の連続ドロップ映像フレーム数に基づいて映像シーケンスの時間的品質メトリックを生成することを備える方法を提供する。
【0010】
別の実施形態では、本開示は、映像シーケンス内の連続ドロップ映像フレーム数に基づいて映像シーケンスの時間的品質評価を生成するプロセッサを備える装置を提供する。
【0011】
ここで述べる技法は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせとして実施され得る。ソフトウェアとして実施される場合、これらの技法の全部または一部は、実行されると、本開示で述べる方法の1つまたは複数を実行する命令を含むプログラムコードを備えるコンピュータ可読媒体によって実現されてもよい。
【0012】
1つまたは複数の実施形態の詳細を、添付の図面および以下の説明に示す。他の特徴、目的、および利点は、説明および図面、ならびに特許請求の範囲を読めば明らかになるであろう。
【0013】
本特許または出願のファイルは、カラーで実行される少なくとも1つの図面を含む。カラー図面を含む本特許または特許出願公開の写しは、必要な料金を支払って請求すれば特許庁より入手できる。
【詳細な説明】
【0014】
図1はJNJメトリックユニット32を組み込んだ映像符号化/復号システム10を示すブロック図である。本開示の一実施形態によれば、このメトリック計算は、ユーザが知覚できない時間的品質低下よりもユーザが知覚する時間的品質低下を重要視する。実施形態によっては、このメトリックは、人間の閲覧者が実際に知覚することのできる、ジャーキネスなどの時間的品質低下だけを考慮に入れ、このメトリックをJNJメトリックと呼ぶ。
【0015】
JNJメトリックユニット32は、ユーザに簡単に気付かれない少量の時間的不連続性は無視し、または少なくとも、かかる少量の時間的不連続性がメトリック全体にほとんど影響を及ぼさないようにメトリックに重み付けするように構成される。というよりはむしろ、JNJメトリックは、人間の閲覧者が知覚することのできる時間的品質低下だけ、すなわち、ジャスト・ノーティサブル・ジャーキネス(ノーティサブル・ジャーキネスだけ)を重要視するように定式化される。
【0016】
図1に示すように、システム10は、第1の映像通信装置12と第2の映像通信装置14を含む。通信装置12、14は、伝送通信路16で接続されている。伝送通信路16は、有線または無線の通信媒体とすることができる。システム10は、映像電話技術用の映像通信装置12、14間の両方向映像伝送、映像ストリーミング用の一方向映像伝送、またはこれら両方をサポートし得る。装置12、14は実質的に対称的に動作する。しかし、実施形態によっては、映像通信装置12、14の一方または両方が、映像ストリーミングをサポートする一方向通信のためだけに構成されていてもよい。
【0017】
両方向の適用例では、通信路16の両端に、相互の符号化、復号、多重化(MUX)および逆多重化(DEMUX)の各構成要素が設けられる。図1の例では、映像通信装置12は、MUX/DEMUX構成要素18、映像CODEC20および音声CODEC22を含む。同様に、映像通信装置14も、MUX/DEMUX構成要素26、映像CODEC28および音声CODEC30を含む。
【0018】
映像通信装置12、14のうちの一方または両方が時間的品質推定の技法を適用するように構成されていてもよい。実施形態によっては、映像通信装置12、14は、固定的に、または適応的にフレームスキップおよび/またはフレーム率ダウンサンプリングを能動的に適用して符号化率、フレーム率、または他の帯域幅制限を補償する。加えて、通信路16を介した伝送時に、データ破壊や短期間の通信路損失といった要因によりフレームが落ちることもある。
【0019】
いずれの場合も、フレーム落ちは、ジャーキネスとも呼ばれることのある可視の時間的不連続性を含む時間的品質低下をもたらし得る。本開示によれば、一方または両方のCODEC20、28がJNJメトリックユニットを含む。図1の例では、映像CODEC28が時間的品質を評価するJNJメトリックユニット32を含む。JNJメトリックユニット32は、単に評価用のJNJメトリックを生成し、または映像復号の制御や別の映像通信装置へのシグナリングなどのために、映像CODEC28内の他の構成要素にJNJメトリックを提供する。
【0020】
例えば、映像CODEC28は、時間的品質を改善するためにJNJメトリックに基づいて1つまたは複数の復号特性を調整する。映像CODEC28は、JNJメトリックの変化に応答して動的に、復号特性を周期的に調整する。代替として、またはこれに加えて、映像CODEC28はJNJメトリックに基づいてシグナリング情報を生成し、このシグナリング情報を帯域内または帯域外で映像通信装置12に送って、映像CODEC20が時間的品質を改善するために符号化特性を調整することができるようにする。別の例として、JNJメトリック、あるいはJNJメトリックに基づいて生成された1つまたは複数の制御信号をフィードバックとして使って、映像通信装置12内の適応フレームスキッププロセスを制御してもよい。
【0021】
システム10はセッション開始プロトコル(SIP)、ITU H.323規格、ITU H.324規格、または他の規格に従って映像電話技術をサポートする。各映像CODEC20、28は、MPEG−2、MPEG−4、ITU H.263、ITU H.264といった映像圧縮規格に従って符号化映像データを生成する。図1にさらに示すように、映像CODEC20、28は、それぞれの音声CODEC22、30と統合されており、データストリームの音声部分と映像部分を処理する適切なMUX/DEMUX構成要素18、26を含む。MUX−DEMUXユニット18、26は、ITU H.223マルチプレクサプロトコル、またはユーザデータグラムプロトコル(UDP)など他のプロトコルに従う。
【0022】
映像通信装置12、14は、映像ストリーミング、映像電話技術、またはこれら両方の装備を有する無線移動端末または有線端末として実施される。このために、映像通信装置12、14はさらに、無線通信をサポートするのに適する無線送信機、受信機、モデム、および処理電子回路を含む。無線移動端末の例には、移動無線電話機、モバイル携帯情報端末(PDA)、モバイルコンピュータ、モバイルテレビ、または無線通信機能および映像符号化および/または復号機能を備える他の任意のモバイル機器が含まれる。有線端末の例には、デスクトップコンピュータ、ワークステーション、テレビ電話機、ネットワーク家電器具、セットトップボックス、双方向テレビなどが含まれる。どちらの映像通信装置12、14も、映像情報を送信し、映像情報を受信し、または映像情報を送受信するように構成され得る。
【0023】
映像電話技術の適用例では、機器12が映像送信機能と映像受信機能の両方をサポートすることが望ましい。しかし、ストリーミング映像用途も企図されている。映像電話技術、特に無線通信によるモバイル映像電話技術では、しばしば極めて低いビット速度が求められるため、帯域幅が重要な問題となる。特に、通信路16には限られた帯域幅しかなく、通信路16を介した高品質映像シーケンスの有効なリアルタイム伝送を行うことは非常に困難である。例えば通信路16は、通信路16における物理的制約条件、あるいはおそらく、通信路16の提供者が強いるサービス品質(QoS)制限または帯域幅割り振り制約条件による限られた帯域幅を有する無線通信リンクである。
【0024】
一般に、システム10は、時間的品質を評価する技法を用いて映像電話技術(VT)用途の時間的品質メトリックを生成する。時間的品質メトリックは、人間の閲覧者が知覚するジャーキネスの度合いを表す。本開示で述べる時間的品質メトリックは、フレーム率だけに従ってジャーキネスを推定するのではなく、グループフレーム落ちの長さを基本推定単位として使用する。グループフレーム落ちの長さとは、映像シーケンス内の連続ドロップフレームの数をいう。
【0025】
加えて、時間的品質メトリックは、時間的品質変動や動き活性に対する感度といった人間視覚系要因を使って、予測されるジャーキネスを主観的視覚反応とより整合するものにする。詳細には、時間的品質変動および動き活性度の感度を、主観的経験からのオピニオン平均値(Mean Opinion Score)(MOS)とより整合するように選択する。試験結果は、本開示で述べるJNJメトリックが、人間が知覚するジャーキネスを効果的に測定し、主観的経験的結果と強い相関関係を有する出力を生成し得ることを示している。
【0026】
映像の時間的品質低下においては、ジャーキネスが主要なアーティファクト(artifact)である。ジャーキネスは、通常、(1)符号化の間のフレームスキップ、(2)フレーム率ダウンサンプリングおよび/または(3)通信路パケット紛失によって生じる。上記の時間的品質低下の原因(1)〜(3)は、時間的品質低下に対する影響の重大度の順に挙げている。符号化ビットを保護し、または帯域幅容量制限内に留まるなどのためにフレーム落ちが発生すると、閲覧者はフレーム凍結を目にすることになる。典型的な映像復号器は、フレーム落ちが発生する前の最後のフレームを自動的に複製し、ドロップフレームの代用に複製フレームを使用して、同じ映像再生速度を維持する。残念ながらこれは、新しいフレームが表示されるときにフレーム凍結および時間的不連続性を生じる結果になり、いわゆる「ジャーキネス」が発生する。
【0027】
閲覧者にとってのフレーム落ちのマイナスの影響を低減するために、いくつかの方法が研究されている。例えば、スマートフレーム落ちやフレーム率アップコンバージョンの技法が開発されている。しかし、人間の知覚に合わせた正確な誘導がなければスマートフレーム落ちやフレーム率アップコンバージョンによる映像改善は効果的に適用するのが難しい。提案されているメトリックの中には、フレーム率情報または動き活性度に基づいてジャーキネスを推定するものもある。多くの実際の観察が示すところでは、フレーム率に基づくジャーキネスの推定は、ドロップフレームが映像シーケンス全体を通して均一に分布しているものと仮定するために不十分である。
【0028】
同じフレーム率で、連続フレームのグループを落とすことは、まばらなフレーム落ちと比べると著しく異なる品質上の影響を及ぼす。グループフレーム落ちとは、2つ以上、おそらくは数個の連続フレームが落ちることをいう。まばらなフレーム落ちとは、一般に、映像シーケンス内の異なる位置にある1、2フレームが落ちることをいう。人間に固有の認知的補間機構は、まばらなフレーム落ちとグループフレーム落ちとでは非常異なる反応を生じる。
【0029】
加えて、フレーム率情報に基づくジャーキネスの推定は、非ドロップフレームがどんなマイナスの影響ももたらさないと想定する。しかし、ぎくしゃくしたシーケンスでは、閲覧者にとっての不快感は、ドロップフレームの量だけでなく、ドロップフレームと非ドロップフレームの間の時間的品質変動によっても生じる。人間の視覚系は、現在のフレームとこれに隣接したフレームの間の品質対比に対して非常に高い感度を有する。
【0030】
ジャーキネスメトリックの中には、映像ビットストリームからのタイムスタンプ情報を使って、または連続するフレーム間の類似度を分析することによってフレーム損失および複製の量または期間を推定するものもある。フレーム損失/フレーム落ちが発生するとき、タイムスタンプの不連続性は明白であり、フレーム間の類似性は極めて高い。ドロップフレームの場所および数を獲得した後、合計ドロップフレーム数を所与のビットストリーム/映像クリップ内の総フレーム数で割ることによって平均フレーム率を推定することができる。
【0031】
異なる動き活性度の下では同じフレーム率が異なるジャーキネスレベルをもたらし得るため、マッピング関数が、動き活性度をこれの入力として、フレーム率をジャーキネス尺度にマップする。ジャーキネスをより包括的に推定するために、マッピング段の後に、ドロップ期間の分布の統計的分析を用いて後処理を適用してもよい。しかし、こうした方式は、人間視覚反応に著しい影響を及ぼし得る局所的時間的品質変動の影響を考慮に入れない。
【0032】
本開示によれば、JNJメトリックは、ショット、様々な映像動き活性度、および、さらに重要な、様々な局所的品質変動の様々な組み合わせの下で時間的不連続性(ジャーキネス)によって導入される、人間が知覚する視覚的不快感を正確に推定する。このように、時間的品質メトリックは、局所的ジャーキネスの変動をジャーキネスを推定するために使用される要因の1つとして考慮し、それは時間的品質評価にとって重要である。加えて、JNJメトリック32は、人間の閲覧者が気付かない時間的品質低下を無視し、またはこれの価値を減ずるようにも構成され得る。
【0033】
JNJメトリックユニット32は、フレーム率を使用するだけでなく、グループフレーム落ちの長さも利用してジャーキネスを推定するように構成されている。グループフレーム落ちの長さの情報に基づき、時間的品質評価のより重要な属性を分析することができる。さらに、JNJメトリックは、2つの異なるモードで実施され得る。1つのモードでは、映像ビットストリームが評価される。別のモードでは、十分な入力情報が利用できる場合には、画素情報が評価される。したがって、実施形態によっては、JNJメトリック評価を実施するシステムが2つの異なる種類の入力情報をサポートし、著しい柔軟性を提供するものもある。
【0034】
図2は、図1の時間的品質(JNJ)メトリックユニットの動作を示すブロック図である。図2に示すように、ジャスト・ノーティサブル・ジャーキネス(JNJ)ユニット32は、映像ビットストリームまたは画素情報を受け取るJNJプリプロセッサ33を含む。JNJプリプロセッサ33は、受け取った映像情報を処理して、JNJ計算器35がJNJメトリックを生成するのに使用するいくつかのパラメータを生成する。詳細には、JNJプリプロセッサ33は、グループフレーム落ちの長さ情報、動き活性度情報、および時間的品質変動(temporal quality fluctuation)(TQF)情報を推定する。グループフレーム落ちの長さ情報は、映像シーケンス内の、または映像シーケンス内の特定のショット内の連続ドロップフレームの数を示す。動き活性度情報は、一般に、映像シーケンスの内容の表す動きの度合いが低いか、中程度か、それとも高いかを示す。TQF情報は、評価対象である現在のフレームとこれに隣接するフレーム、すなわち現在のフレームの前と後のフレームの間の時間的品質対比(temporal quality contrast)を示す。
【0035】
グループフレーム落ちの長さ、動き活性度、およびTQF情報を使って、JNJ計算器35は、ジャーキネスを表すJNJメトリックを計算する。JNJ計算器35は、単に、ジャーキネスを生成し、後で分析するためにこれを格納するだけである。これに加えて、または代替として、JNJメトリックユニット32は、時間的品質情報、あるいはJNJメトリックに基づくフィードバックまたは制御情報を、映像CODEC14内の復号エンジン34またはシグナリングエンジン36に提供してもよい。復号エンジン34は、時間的品質を改善するためにJNJメトリックに基づいて1つまたは複数の復号特性を変更する。シグナリングエンジン36は、映像情報を符号化する装置に送って、この装置に時間的品質を改善するように1つまたは複数の符号化特性を調整させるためのシグナリング情報を生成する。
【0036】
後述するように、ビットストリームモードでは、JNJメトリックユニット32は、入力映像ビットストリームからのタイムスタンプ情報を使って、フレーム落ちが発生しているかどうか判定する。連続するフレームのタイムスタンプがギャップを示す場合、フレームスキップ、フレーム率ダウンサンプリング、通信路損失などによって少なくとも1つの介在フレームが落ちていることが明らかである。タイムスタンプによって求められるギャップの長さにより、落ちている連続フレームの数、すなわちグループフレーム落ちの長さを求めることが可能になる。
【0037】
例えば、連続符号化フレームのタイムスタンプは単位ステップで増大する。異なる内容を有する2つのフレームの間に複数の単位ステップがある場合、少なくとも1つのフレームが落ちていることが明らかである。このタイムスタンプ差を単位ステップで割ることによって、何個のフレームが落ちているか求めることが可能である。代替として、特定のタイムスタンプが反復される回数を数えることによってドロップフレームの数を求めてもよい。
【0038】
JNJメトリックユニット32は、入力ビットストリームからの符号化モード決定情報(例えば、イントラまたはインター符号化)を使ってショット境界を判定する。ショット境界とは、様々な場面について獲得される映像フレーム間の映像ショット境界をいう。あるショットは第1の場面について獲得した1つまたは複数の映像フレームを含み、第2のショットは第2の場面について獲得した1つまたは複数の映像フレームを含み、以下同様である。
【0039】
これらのショットは、取り込んだ主題、光源条件などの撮像条件、あるいは他の差異の点で異なり得る。例えば、あるショットは、低い動き活性度を示す、シートに比較的静止した状態で座っているスポーツ観覧者など、第1の設定での第1の人物を含み、第2のショットは、高い動き活性状態にある競技場にいる別の1人または複数の人物を含むことがある。
【0040】
動き活性度推定のためにショット境界を検出することが望ましい。というのは、類似の内容を有する映像シーケンスは普通、類似の動き活性度を有するからである。ジャーキネスを正確に推定するためには、「正しい」動き活性度を推定する必要がある。したがって、各ショットを相互に区別することによって様々な動き活性度を区別することができる。また、場面変化によって生じる動き活性度は、実際にはジャーキネスの原因とならないため、これを時間的品質メトリックにおける考察から除外するためにも、ショット境界を検出することは望ましい。
【0041】
JNJメトリックユニット32は、例示的実施形態では、フレーム率に基づくフレーム落ち重大度(frame dropping severity)を使用する動きマッピングモデルを適用する。動きマッピングモデルの入力の1つは動き活性度の推定値である。動き活性度の推定値は各フレーム内の動きベクトルの大きさの平均によって獲得される。動きマッピングモデルを適用した後、フレームごとにフレーム落ち重大度のフレーム率に基づく推定を利用することができる。
【0042】
人間は急な品質の変化に非常に敏感であるため、各フレームの時間的品質低下は現在のフレームだけではなく、これと隣接するフレームにも関連する。現在のフレームと隣接するフレームの間の時間的品質低下は、この対比が大きくなるほど閲覧者に気付かれやすくなる。こうした理由で、隣接するフレームと比べて変動の大きいフレームの時間的劣化には、時間的品質を評価するに際してより大きな重み付けをすべきである。
【0043】
映像再生は因果プロセスである。したがって、現在のフレームの品質変動に対する閲覧者の感受性は、前に見た映像フレームにだけ関連する。したがって、JNJメトリックユニット32は、固定ウィンドウサイズによって定義されるウィンドウ内のフレームを遡って調べる時間的品質変動(TQF)関数を使って重みを推定する。一般には、動きマッピングから獲得されるフレーム落ち重大度、s’m,nを時間的品質変動(TQF)関数に適用して時間的品質変動を推定する。より詳細には、TQF推定値は、s’m,nとこれに隣接するフレームのフレーム落ち重大度の差の二乗によって求めることができる。
【0044】
差の二乗を使用するのは、グループフレーム落ちのサイズが増大するときに人間の視覚系が非線形の視感度を有するからである。次いで、各フレーム率の上/下限の可能な変動が可変であるため、ルックアップ表(LUT)を使って時間的品質変動を0〜1の値に正規化する必要がある。次に、以下で詳細に説明するように、JNJメトリックユニット32は、時間融合ユニットにおいて非線形TQF関数、正規化パラメータk、フレーム落ち重大度および動きモデリングを適用して、分析、映像復号制御、またはシグナリングによる映像符号化制御で使用するためのジャーキネス報告を生成する。
【0045】
一般に、TQF応答はある点の後で急速に上昇し、急速に飽和する。人間の感度は、閲覧対象の映像中に少量の時間的品質変動が現れると増大し、グループフレーム落ちの長さが大きくなり、知覚される時間的品質で優勢になると急速に飽和する。正規化パラメータkはフレーム率が減少するに従って減少し、これは、フレーム率が高いときに品質変動の影響がより目に付きやすくなることを意味する。このように、正規化パラメータkを使って、人間視覚反応をより有効にシミュレートするようにメトリックの感度を調整することができる。
【0046】
加えて、TQF重み付けを用いて平均値を推定することによって各ショットのジャーキネスを獲得することもできる。この場合、JNJメトリックユニット32は、単に各ショットの平均ジャーキネスを取ることによって入力映像シーケンス全体のジャーキネスを計算することができる。各ショットに様々な動きモデルが適用されるため、必ずしもすべてのショットの平均値がさらなる重み付けを必要とするとは限らない。
【0047】
JNJメトリックユニット32は、ビットストリーム情報が利用できないときには、ビットストリームモードではなく画素モードで動作し得る。画素モードでは、通常は、映像復号器のYUV(輝度、色差1、色差2)出力が利用できる。画素モードでJNJメトリックを求める基本プロセスは、ビットストリームモードについて前述したのと同様である。しかし、入力情報は異なる。
【0048】
大部分の復号器はフレーム落ちが発生する前に最後のフレームを複製するため、各フレームの画素類似度を使ってドロップフレームの場所を突き止めることができる。例えば、あるフレームが5回反復される場合、4つのフレームが落ちていることが明らかである。反復は、フレームごとの連続タイムスタンプ間のギャップおよび/または各フレームの類似度の分析によって検出することができる。
【0049】
複製フレーム間の類似度が閾値に達すると、JNJメトリックユニット32はどのフレームが失われたのか推定することができる。JNJメトリックユニット32は、フレーム落ち推定に使用するのと同じ、または類似の画素情報をショット境界検出にも使用し得る。例えば、2つの連続するショットの間にショット遷移が発生すると、画素類似度は非常に低い値まで低下する。連続するフレーム間の画素類似度が所定の閾値を下回ると、JNJメトリックユニット32はショット境界の有無を判定する。
【0050】
動き活性度については、JNJメトリックユニット32は、正規化画素差(normalized pixel difference)を使用してもよい。これについては、D.Tian、L.ShenおよびZ.Yao、「動き活性度に基づく無線映像品質知覚メトリック(Motion Activity Based Wireless Video Quality Perceptual Metric)」、Proc.IEEE ISIMP、2006や、S.JeanninおよびA.Divakaran、「MPEG−7視覚運動記述子(MPEG-7 Visual Motion Descriptors)」、IEEE transaction on Circuit and System for Video Technology、2001などに記載されている。正規化された画像差は動き活性度の信頼性の高い指標である。適切な正規化を用いて画素からのすべての情報を抽出した後で、JNJメトリックユニット32は、大体においてはビットストリームモードに関して前述したように、動きマッピング、重み推定および時間的融合を適用する。
【0051】
図2に示す様々な構成要素は、別々の機能モジュールとして、またはここにおいて図示の各モジュールに帰せられる機能を包含するモノリシックなモジュールとして、様々なやり方で形成される。いずれにしても、映像符号化システム44の様々な構成要素は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせとして実現され得る。例えば、かかる構成要素は、1つまたは複数のマイクロプロセッサまたはディジタル信号プロセッサ(DSP)や、1つまたは複数の特定用途向け集積回路(ASIC)や、1つまたは複数のフィールドプログラマブルゲートアレイ(FPGA)や、他の同等の集積またはディスクリートの論理回路上で実行されるソフトウェアプロセスとして動作する。
【0052】
図3は図2の時間的品質メトリックユニットの動作を示す流れ図である。図3に示すように、映像シーケンスを受け取る(38)と、JNJメトリックユニット32は、連続ドロップフレーム数、すなわちグループフレーム落ちの長さを推定し(40)、時間的品質変動を求め(42)、ショット境界を求め(43)、動き活性度を求める(44)。時間的品質変動、ショット境界および動き活性度に基づき、JNJメトリックユニット32はジャーキネスを計算し(46)、JNJメトリックを、例えば、分析、復号制御、符号化制御などに適用する(47)。
【0053】
例えば、JNJメトリックユニット32の出力を使って、続いて符号化され、復号される映像フレーム内の時間的品質を改善する。特に、JNJメトリックユニット32は、フレーム率または動き活性度だけに基づいてジャーキネスを推定するのではなく、実際の人間視覚反応とより適切に相関させるために、連続ドロップフレームの数を時間的品質変動および動き活性度と組み合わせる。このようにして生じるJNJメトリックは、時間的不連続性の実際の閲覧者知覚のより有効な尺度を生成する。
【0054】
図4は、図2のJNJメトリックユニット32の構成要素例を示すブロック図である。また、JNJメトリックを計算するプロセスについても、図4の様々な構成要素を参照してより詳細に説明する。図4に示すように、JNJメトリックユニット32は、フレーム落ち推定器48、ショット境界識別器50、動き活性度推定器52、およびモデル選択ユニット54を含む。選択モジュール56がフレーム落ち推定器48の出力を、モデル選択ユニット54の出力に基づいて3つの異なる動きモデル、すなわち、低動きモデル58、中動きモデル60および高動きモデル62のうちの1つに適用する。時間的品質変動(TQF)ユニット66が、選択された動きモデル58、60、62の出力にTQF関数を適用する。時間的融合ユニット64が選択された動きモデルの出力およびTQFユニット66の出力を受け取り、ジャーキネス報告を生成する。
【0055】
図4の例では、フレーム落ち推定器48は、映像ビットストリームを受け取り、ビットストリームの各フレームに記録されたタイムスタンプを分析する。タイムスタンプを使って、フレーム落ち推定器48は、連続する非ドロップフレーム間の時間間隔を求める。複数の連続フレームが落ちている場合、復号器による最後の非ドロップフレームの複製および反復により、複数の受け取りフレームのタイムスタンプが同一となる。
【0056】
フレーム間のタイムスタンプが固定値または確定的な値であり、単位ステップを表わす場合、フレーム落ち推定器48は、連続非ドロップフレーム間の時間間隔を求めることができ、したがって、グループフレーム落ちの長さ、すなわち映像シーケンス内の連続ドロップフレームの数を求めることができる。代替として、フレーム落ち推定器48は、特定のフレームが繰り返される回数を数えてもよい。
【0057】
グループフレーム落ちの長さに基づき、フレーム落ち推定器48は、フレーム落ち重大度値sm,nを生成する。フレーム落ち重大度値は、単一のフレーム落ちグループのグループフレーム落ちの長さ、または複数のフレーム落ちグループのグループフレーム落ちの長さの関数とすることができる。
【0058】
ショット境界識別器50は、フレーム遷移がショット境界、すなわちある場面から別の場面への変化を表わすものであるかどうか判定する。例えば、ショット境界識別器50は、受け取った映像ビットストリーム内のモード決定情報を分析してあるショットから別のショットへの遷移を識別する。詳細には、ショット境界識別器50は、入力映像ビットストリームを分析してインター(PまたはB)符号化からイントラ(I)符号化への変化を識別する。
【0059】
あるショットの風景が変化するとき、結果として生じる内容の変化は、通常、このショット内の少なくとも第1のフレームのより多くのイントラ符号化を必要とし、残りのフレームは、イントラ符号化される傾向がある。それでもなお、イントラ符号化マクロブロックの量はイントラフレームよりも少ない。したがって、ショット境界識別器50は、上限と下限の閾値を用いてイントラ符号化マクロブロックの量を閾値処理することにより、ショット境界を識別する。例えば、イントラ符号化マクロブロックの量が所与の閾値を上回る場合、こられのマクロブロックを含むフレームは、ショット境界上にあるものとして識別される。
【0060】
図4の例では、ショット境界識別器50は境界識別をフレーム落ち推定器48および決定モードユニット54に提供する。フレーム落ち推定器48は、ショット境界識別器50からのショット境界識別を使って各ショット内のフレーム落ち重大度を推定する。映像シーケンスは複数のショットを有し得る。ジャーキネスを推定する間には、各ショットのフレーム落ち重大度を別々の追跡することが重要である。というのは、通常は場面が異なれば異なるジャーキネスの影響がもたらされるからである。したがって、ショットからショットへとフレーム落ちの長さを繰り越すと誤解を生じることになる。フレーム落ち推定器48は、新しいショットが識別されると、グループフレーム落ちの長さをリセットする。
【0061】
したがって、複数のショットを有するシーケンスについてはフレーム落ち重大度の複数のグループが推定され得る。さらに、以下で詳細に説明するように、単一のショット内で複数のグループフレーム落ちの長さが推定され得る。詳細には、単一のショットに連続ドロップフレームの複数の範囲があり得る。加えて、多数の連続フレームの抜けは、少数の連続フレームの抜けや、ショット全体に及ぶ非連続的な単一フレームの抜けよりもユーザの目を引きやすい。
【0062】
動き活性度推定器52は、受け取った映像ビットストリーム内の各フレームから動きベクトルを受け取る。一般に、動きベクトルは、あるフレーム内の映像ブロックから別のフレーム内の実質的に類似の、または同一の映像ブロックを指し示し、動きの指示を提供する。動き活性度推定器52は、所与のフレーム内の全般的動き活性度を、このフレーム内の動きベクトルの平均の大きさに基づいて決定する。動き活性度推定器52からの推定した動き活性度を使って、モデル選択ユニット54は、選択器56を介して低動きモデルモデル58、中動きモデル60および高動きモデル62のうちの1つにフレーム落ち重大度値sm,nを適用する。詳細には、選択された動きモデルは、フレーム落ち推定器48が生成したフレーム落ち重大度値sm,nを動きモデルマッピング58、60、62にマップする。選択されたモデル58、60、62の出力は、フレーム率に基づくフレーム落ち重大度s’m,nの推定である。
【0063】
名前で示すように、低動きモデルモデル58、中動きモデル60および高動きモデル62は、それぞれ、動き活性度推定器52が、フレーム内の運動が低い、中程度、または高いと推定したときに適用される。図4の例には3つの異なる動きモデルが示されているが、動き活性のレベルをさらに増やすために動きモデルを追加してもよい。各モデル58、60、62は、それぞれのフレーム落ち重大度値のマッピングsm,nを動きマップフレーム落ち重大度値s’m,nに適用する。このように、時間的品質メトリックは、連続ドロップフレーム数だけでなく動き活性度も利用する。
【0064】
また、モデル選択ユニット54は、ショット境界識別器50の出力も受け取る。ショット境界を追跡することにより、モデル選択ユニット54は、所与のフレーム内の高い動き活性度を、ショット間の場面変化による見せかけの高い動き活性度と区別することができる。類似の内容を有する映像フレームは、通常、類似の動き活性度を有する。ジャーキネスを正確に推定するためには、「正しい」動き活性度を推定する必要がある。モデル選択ユニット54は、ショット境界識別器50からのショット境界指示を使って場面変化によって生じる動き活性度を除去し、またはこれに適切に重み付けする。
【0065】
図5は、図4の時間的品質メトリックユニットの動作をより詳細に示す流れ図である。図5に示すように、フレーム落ち推定器48、ショット境界識別器50および動き活性度推定器52が映像シーケンスを受け取る(68)。映像シーケンスは、図4に示すように映像ビットストリームとすることもでき、映像シーケンスの復号から生じる映像画素とすることもできる。フレーム落ち推定器48が映像シーケンス内のビットストリームからタイムスタンプを抽出する。タイムスタンプの差に基づき、フレーム落ち推定器48が連続ドロップフレーム数を推定し(70)、フレーム落ち重大度値sm,nを出力する。ショット境界識別器50が映像フレームの類似度および/または符号化モードの変化、すなわち、イントラかインターかを分析してショット境界を求める(72)。
【0066】
動き活性度推定器52が動き活性度を推定する(74)。とりわけ、動き活性度推定器52は、映像シーケンスからの動きベクトルを分析して、動きモデル58、60、62のうちの1つを選択するために動き活性度を推定する(74)。モデル選択ユニット54が、ショット境界識別器50から識別したショット境界の指示を受け取って、動き活性度推定器52の動き活性度出力を補償する(75)。とりわけ、モデル選択ユニット54は、定常状態のフレーム内容から生じる実際の高い動き活性度を、ショット境界と関連付けられる場面変化から生じる見かけの高い動き活性度から区別する。しかし、前述のように、ショット境界識別は、フレームからフレームへのショット変化が大きな動きとして誤解されないように動き活性度を補償するのに使用される。補償した動き活性度を使って、モデル選択ユニット54が動きモデル58、60、62(すなわち低、中、高)のうちの1つを選択する(76)。
【0067】
選択された動きモデル58、60、62は、フレーム落ちの長さを動きマップフレーム落ち重大度s’m,nにマップする。動きマップフレームマッピング長s’m,nが時間的融合ユニット64と時間的品質変動(TQF)ユニット66に受け取られる。TQFユニット66が、受け取った動きマップフレームマッピング長s’m,nにTQF関数を適用して(78)、人間の閲覧者によって知覚されるような、連続フレーム間の時間的品質変動の量を表すTQF重みwm,nを生成する。TQF重みwm,nと動きマップフレーム落ち重大度値s’m,nとを使用し、時間的融合ユニット64は、時間的融合を適用し(80)、これの出力としてジャーキネス(JNJ)メトリックを生成する(82)。JNJメトリックは、符号化、復号または他の映像処理の分析またはフィードバック制御に使用され得る。
【0068】
図6は、時間的品質メトリックユニットが使用するための動き活性度とフレーム落ち重大度sm,nの関数として構築された動きモデル(MM)を示す3次元グラフである。図6に示すように、このグラフでは、動きマップフレーム落ち重大度値s’m,nに対して、動き活性度対フレーム落ち重大度sm,nがマップされている。図4の例では、説明のために3つの別々のマッピングモデル58、60、62を示している。しかし、決まった数のマッピングモデルの使用は任意選択であり、設計考慮事項に従って変更することができる。したがって、図6に示す動きマッピングは、実際には、利用できる計算処理能力、メモリおよび他の設計考慮事項に応じて、比較的多数の、または少数の動きマッピングモデルで表されてもよい。
【0069】
図6のグラフには、動き活性度mam,nとフレーム落ち重大度値sm,nの組み合わせによってフレーム落ち重大度値sm,nのスケーリングがもたらされ、動きマップフレーム落ち重大度値s’m,nが生成されることが示されている。一般に、高い動き活性度値mam,nでは、動きマップフレーム落ち重大度値s’m,nは、フレーム落ち重大度値sm,nを追う傾向にある。より小さい動き活性度値mam,nでは、動きマップフレーム落ち重大度値s’m,nは、フレーム落ち重大度値sm,nが高くない限り、フレーム落ち重大度値sm,nに比例して減少する。以下で、動きマップフレーム落ち重大度値s’m,nをもたらす関数を詳細に説明する。
【0070】
図7は、時間的品質メトリックユニット32と共に動作する時間的品質変動(TQF)ユニット66の構成要素例を示すブロック図である。図7に示すように、TQFユニット66の機能構成要素は、動きマップフレーム落ち重大度値s’m,nを受け取る時間的変動推定器84と、LUTベースの正規化ユニット86と、パラメータkを適用してTQF出力w’m,nを生成するTQF関数ユニット88として表わされる。
【0071】
時間的変動推定器84は一連のフレーム落ち重大度値にわたる時間的変動を計算し、時間的変動推定値tfm,nを生成する。LUTベースの正規化ユニ86は一連のドロップフレームにわたる適用可能なフレーム率の上限(UB)と下限(LB)とに基づいて時間的変動推定値tfm,nを正規化し、正規化された時間的変動推定値tf’m,nを生成する。TQF関数ユニット88はTQF関数を適用して、局所的時間的活性度を、時間的品質と関連付けられたTQF出力重みw’ m,nにマップする。
【0072】
図8は図7のTQFユニット88によって実施される例示的TQF関数の応答を示すグラフである。図8のグラフは、横軸上の時間的変動に対する縦軸上のTQF出力重みw’m,nを表しており、異なるフレーム率に対応する3つの曲線90、92、94を含んでいる。図8の例において、毎秒20から30フレームのフレーム率では、TQF関数ユニット88は曲線90を使って時間的変動をTQF出力w’m,nにマップする。毎秒14から19フレームのフレーム率では、TQF関数ユニット88は曲線92を使用する。毎秒1から13フレームのフレーム率では、TQF関数ユニット88は曲線94を使用する。
【0073】
高いフレーム率では、TQF関数は一般にTQF出力重みを低減する。というのは、高いフレーム率は時間的不連続性の知覚を軽減する傾向があるからである。中程度のフレーム率では、曲線92は、時間的変動推定器84によって生成される推定時間変動の範囲にわたってより高いTQF出力重みw’m,nを生じる。曲線94によれば、非常に低い時間変動ではTQF出力重みw’m,nはさらにいっそう高く、人間の閲覧者による実質的な時間的品質変動の知覚を引き起こす可能性が非常に高い。時間的融合ユニット64は、TQF出力重みw’m,nを適用してJNJメトリック出力を生成する。
【0074】
図9は、フレームグループ落ち重大度sm,n、動き活性度mam,nおよび時間的品質変動wm,nに基づく時間的品質メトリックの推定を示す図である。図9の図では、JNJメトリックユニット32が映像シーケンス内の複数の映像フレームを受け取る。高い縦線96はショット境界と一致する映像フレームを表し、中程度の高さの縦線98は複製ではなく元の内容を示す通常の映像フレームを表す。短い縦線100はドロップ映像フレームを表す。ドロップ映像フレームは、フレーム落ちの前に受け取られたフレームからの複製内容で置き換えられる。この結果、ドロップ映像フレームは通常、前の複製フレームと同じタイムスタンプを持つことになり、したがってフレーム落ちが判明する。
【0075】
複製フレームの数、すなわちフレームグループ落ちの長さは、例えば、連続して受け取られる複製フレームの数、すなわち、フレーム落ちの前に受け取られるフレームと、次に異なるタイムスタンプと共に受け取られるフレームの間のタイムスタンプの差などによって求めることができる。図9の例では、フレーム落ち推定は、ショットごとのドロップフレームのインスタンスと、1ショット内での発生を追跡する。とりわけ、フレーム落ち重大度値sm,nはショットを識別する指数mとこのショット内の該当するフレーム落ちグループの順番を識別する指数nとを保持する。したがって、フレーム落ち重大度値s11は第1のショットShotのフレーム落ちの第1のインスタンスを指す。同様に、フレーム落ち重大度値s12、s13およびs14は、それぞれ、第1のショットShot内のフレーム落ちの第2、第3および第4のインスタンスを指す。第2のショットShotはフレーム落ちのただ1つの発生s21を含む。
【0076】
各フレーム落ち重大度値sm,nは、ドロップフレームと関連付けられるタイムスタンプ間の差の関数である値を有する。一実施形態では、例えば、フレーム落ち重大度値sm,nは以下のように表わされる。
【数10】

【0077】
式中、mは各ショットの指数であり、nはグループフレーム落ちの指数であり、Tは各フレーム間の時間間隔であり、tm,n−1は落ちたフレームグループの後に続くフレームと関連付けられるタイムスタンプであり、tm,nは落ちたフレームグループの前のフレームと関連付けられるタイムスタンプである。動作に際して、フレーム落ち推定器48(図4)は、式(1)を適用して映像シーケンスの推定フレーム落ち重大度値sを算出する。
【0078】
タイムスタンプtm,n+1からタイムスタンプtm,nを差し引けば、1フレーム当たりの時間間隔Tで割ったときに、1グループとして落ちたフレームの数、すなわち評価対象の個々のフレーム落ちグループのグループフレーム落ちの長さを指示する差の値が生じる。この差の値から値1を差し引き、この結果をR−1で割ると正規化フレーム落ち重大度値sm,nがもたらされる。値R−1は、適用可能な最大フレーム率から1フレーム引いたものに等しく、異なるフレーム率にまたがるフレーム落ち重大度値を正規化するのに使用される。例えばフレーム率が30である場合、値R−1は29であり、上記の式(1)は以下のようになる。
【数11】

【0079】
個々のショットmのフレーム落ち重大度値sを計算するために、式(1)に従って、このショット内のすべてのフレーム落ちグループのグループフレーム落ちの長さを計算し、それらを合計してこのショットの全般的重大度値を求めることができる。さらに、映像シーケンス全体のフレーム落ち重大度値sを計算するために、このシーケンス内のショットごとのフレーム落ち重大度値を合計することができる。
【0080】
動きマッピングについて、動き活性度推定器52(図4)は、映像シーケンス内の各フレームの動きベクトルを受け取り、mをショット指数とし、mをグループフレーム落ち指数とする動き活性度値mam,nを生成する。モデル選択ユニット54(図4)は、動きマッピングを適用して連続した動きマップフレーム落ち重大度値s’m,nを生成するための個々のモデル58、60、62を選択する。例えば図9に示すように、選択された動きモデル58、60、62は、Shotからのフレーム落ち重大度値s11、s12、s13、s14を動きマップフレーム落ち重大度値s’11、s’12、s’13、s’14にマップし、Shotからのフレーム落ち重大度値s21を動きマップフレーム落ち重大度値s’21にマップする。
【0081】
選択された動きモデルは、式、
s’m,n=MM(sm,n,mam) (3)
を使って、フレーム落ち重大度値sm,nをフレーム落ち重大度値s’m,nにマップする。式中、MMは図4の動きモデル58、60、62といった既定の動きモデルの集合であり、maはtm,n−1とtm,nの間の動き活性度であり、1〜10で正規化される。例示的実施形態では、式(3)を以下のように構成してもよい。
【数12】

【0082】
式中、
mam,n≧thのとき、γ=1であり、
mam,n≦thのとき、γ=0であり、
thは動き活性度閾値である。
【0083】
選択された動きモデル58、60、62の出力は動きマップフレーム落ち重大度値s’m,nであり、この値は時間的融合ユニット64とTQFユニット66とに提供される。
【0084】
TQF関数ユニット66は選択された動きモデル58、60、62によって提供されるフレーム落ち重大度値s’m,nに基づいてTQF重みを生成する。TQF重みは、映像シーケンス内の各フレーム間の時間的品質変動を表し、以下の式に従って計算される。
【数13】

【0085】
式中、IはTQF関数ユニット66が映像シーケンス内の一連のフレームにわたり遡って調べるために使用するウィンドウのサイズであり、TQFは局所的時間的活性度をTQF重みにマップする関数であり、値κは人間視覚反応の感度を大まかにたどる正規化値である。ウィンドウのサイズIは、固定でも可変でもよく、TQFを推定するために評価すべきフレームの数を指定する。TQF関数ユニット66は、各フレーム落ちグループごとに計算される動きマップフレーム落ち重大度値sm,nのTQF重みwm,nを生成する。図9の例では、TQF関数ユニット66は、Shotの動きマップフレーム落ち重大度値s’11、s’12、s’13およびs’14にTQF重みw11、w12、w13およびw14を生成し、Shotの動きマップフレーム落ち重大度値s’21に重みw21を生成する。
【0086】
時間的融合ユニット64は、動きマップフレーム落ち重大度値s’m,nと対応するTQF重みwm,nを受け取り、ジャーキネス報告を生成する。例えば、時間的融合ユニット64は、時間的メトリック関数を以下のように適用する。
【数14】

【0087】
式中、
N∈フレーム落ちグループの番号であり、
M∈ショットの番号である。
【0088】
上記式(6)で表わすように、時間的融合ユニット64は、すべてのショットにわたる各TQF重みwm,nと各動きマップフレーム落ち重大度値の積を合計して映像シーケンス全体のJNJメトリックを生成する。
【0089】
以下でTQF関数ユニット66の例示的動作についてより詳細に説明する。前述のように、TQF関数ユニット66は式(5)に従ってTQF重みを算出する。以下に再度式(5)を示す。
【数15】

【0090】
図7を参照すると、時間的変動推定ユニット84、LUTベースの正規化ユニ86およびTQF関数88は、動きマップフレーム落ち重大度値s’m,nに基づいてTQF重みwm,nを生成する。より詳細には、時間的変動推定ユニット84は、推定される時間的変動を以下のように計算する。
【数16】

【0091】
tfm,nが計算されると、正規化ユニット86はこの値を以下の式に従って正規化する。
【数17】

【0092】
式中、UBは適用可能なフレーム率の上限を表し、LBは適用可能なフレーム率の下限を表す。
【0093】
TQF関数ユニット88は、正規化ユニット86からのtfm,nの結果と値Ψとを使って、TQF重みを以下のように算出する。
【数18】

【0094】
式中、
20≦フレーム率≦30のときΨ=5であり、
19≦フレーム率≦14の間Ψ=10であり、
1≦フレーム率≦14の間Ψ=14である。
【0095】
以下の表1に、式(9)における所与のtfおよびフレーム率での選択される値κを示す。一般には、表1に示すように、κの値はtfの値がより低くフレーム率がより高いほど高くなり、フレーム率が低くtfの値がより低いほど低くなるように選択される。
【表1】

【0096】
表1
フレーム率とtfの関数としてのκの値
フレーム率
主観的実験において、同じフレーム率の下で、グループフレーム落ちの異なる組み合わせを有するいくつかの事例を生成した。主観的影響は、グループフレーム落ちの長さの違いに大きく影響される。実験では、動き活性度の範囲を表わすのに3つの標準的映像試験シーケンス(コンテナ、公道、ラグビー)を選択した。各シーケンスをダウンサンプリングして異なるフレーム率、すなわち、27フレーム/秒(fps)、15fps、10fpsとした。加えて、フレーム率ごとに、グループフレーム落ちの異なる組み合わせを有するいくつかの下位事例も生成した。この実験は、5人の専門家と10人の非専門家による閲覧者を含む15人のボランティア閲覧者によって行われた。
【0097】
以下の表2に、フレーム率23fpsで、各閲覧者から得た主観的スコアと、本開示で述べるJNJメトリックを使って得たJNJ出力とを示す。表3と表4には、それぞれ、異なるフレーム率、すなわち15fpsおよび10fpsと、異なるグループフレーム落ちシナリオでの主観的スコアとJNJメトリック出力を示す。主観的スコアは0〜1の範囲内になるように正規化されており、値が高いほどジャーキネスが大きく、値が低いほどジャーキネスが少ないことを示す。JNJメトリックも同様に正規化した。
【表2】

【表3】

【表4】

【0098】
表2〜4において、左端の列にはフレーム落ちの様々な下位事例を、a*bまたはa+bの形で示しており、グループフレーム落ちの長さをaで表わし、映像クリップ内のフレーム落ちグループ総数をbで表わしている。例えば、1*7は、1グループに1つのドロップフレームを有する7グループがあることを意味する。より詳細には、1秒の等間隔を有する7つの間隔にわたって一度に1フレームが落ちている。同様に、2*10は、1グループ当たり2つのドロップフレームを有する10グループがあることを意味する。
【0099】
代替として、aとb両方で2つの異なるグループのグループフレーム落ちの長さを表わすものある。例えば、3+4は、2つのフレーム落ちグループがあり、これらのグループの一方は3つのドロップフレームを有し、他方のグループは4つのドロップフレームを有することを意味する。同様に、7+8は、それぞれ、1秒につき7個と8個のドロップフレームのある2つのグループがあることを意味する。表2に示すようにフレーム落ち事例が7である場合には、7ドロップフレームの長さのただ1つのフレーム落ちグループがある。
【0100】
表2〜4の実験結果から、たとえ同じフレーム率であっても、異なるフレーム落ち下位事例では主観的ジャーキネススコアが大きく異なることが明らかである。主観的ジャーキネススコアは、フレーム落ち下位事例によって大きく変動する。というのは、閲覧者にとって急な品質変動は非常に煩わしいからである。この証明は、フレーム率によってジャーキネスを推定するのでは不十分であることを示している。フレーム率が減少するにつれて、ドロップフレームの総数が知覚されるジャーキネスを左右するようになるため、品質変動の影響も次第に減少する。
【0101】
表2〜4に示すJNJ出力から、JNJメトリックが主観的スコアと非常に強い相関性を有することは明らかである。したがって、本開示で述べるJNJメトリックは、時間的品質および時間的品質変動の主観的評価に代わるものとして十分に使用することができる。
【0102】
フレーム率または動き活性度だけに基づいてジャーキネスを推定するのではなく、開示の時間的品質測定法は、基本推定単位として、連続ドロップフレーム数、すなわちグループフレーム落ちの長さを使用する。2つの異なる入力モードを用いれば、本開示で述べる技法は、可用性に応じてビットストリームでも画素情報でも処理することができる。グループフレーム落ちの長さを使えば、ジャーキネスのより多くの属性を取り込むことができる。局所的品質活性度の分析を加えれば、開示の時間的品質メトリックは、視覚的時間的品質全般を評価する際に非常に重要となり得る品質変動に対する人間の感受性をうまく取り込むことができる。主観的観察との比較結果は、開示のJNJメトリックが、時間的品質に対する人間視覚反応と強く相関することを示している。また、ジャーキネス感度は、動き活性度の度合いに応じて調整することもできる。
【0103】
本開示で述べる技法は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組み合わせとして実施され得る。例えば、これらの技法の様々な態様を、1つまたは複数のマイクロプロセッサ、ディジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、あるいは他の任意の同等の集積またはディスクリートの論理回路、ならびにかかる構成部品の任意の組み合わせにおいて実施してもよい。「プロセッサ(processor)」または「処理回路(processing circuitry)」という用語は、一般に、単独の、または他の論理回路と組み合わさった前述の論理回路のいずれか、あるいは他の任意の同等の回路を指す。実施形態によっては、本明細書で述べる機能が、符号化および復号のために構成された専用のソフトウェアモジュールまたはハードウェアユニット内で提供されてもよく、映像符号器/復号器の組み合わさったもの(CODEC)の内部に組み込まれていてもよい。
【0104】
ソフトウェアとして実施するとき、各技法の一部は、プロセッサによって実行されると、前述の各機能の1つまたは複数を実行するプログラムコードまたは命令を備えるコンピュータ可読媒体によって実現されてもよい。かかるプログラムコードまたは命令を格納するコンピュータ可読媒体には、シンクロナスDRAM(SDRAM)などのランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、電気的消去書込み可能ROM(EEPROM)、FLASHメモリ、磁気または光学的データ記憶媒体、あるいはかかるメモリまたは記憶媒体の任意の組み合わせが含まれる。
【0105】
本明細書では様々な実施形態を説明している。これらの実施形態およびこれら以外の実施形態は、添付の特許請求の範囲に含まれるものである。
【図面の簡単な説明】
【0106】
【図1】本開示によるジャスト・ノーティサブル・ジャーキネス(JNJ)メトリックユニットを備える映像符号化/復号システムを示すブロック図である。
【図2】図1のJNJメトリックユニットの動作を示すブロック図である。
【図3】図2のJNJメトリックユニットの動作を示す流れ図である。
【図4】図2のJNJメトリックユニットの構成要素例を示すブロック図である。
【図5】図4のJNJメトリックユニットの動作を詳細に示す流れ図である。
【図6】JNJメトリックユニットで使用するための、動き活性度とフレーム落ちの重大度の関数として構築された動きモデルを示す3次元グラフである。
【図7】JNJメトリックユニットと共に動作する時間的品質変動(TQF)ユニットの構成要素例を示すブロック図である。
【図8】図7のTQFユニットによって実施される例示的TQF関数の応答を示すグラフである。
【図9】フレームグループ落ちの長さ、動き活性度および時間的品質変動に基づくJNJメトリックの推定を示す図である。

【特許請求の範囲】
【請求項1】
映像シーケンス内のドロップ映像フレーム数と前記映像シーケンス内の時間的品質変動とに基づいて前記映像シーケンスの時間的品質メトリックを生成することを備える方法。
【請求項2】
前記映像シーケンス内の動き活性に基づいて前記時間的品質メトリックを生成することをさらに備える請求項1に記載の方法。
【請求項3】
前記映像シーケンスを表すビットストリームまたは画素情報の1つの前記時間的品質メトリックを生成することをさらに備える請求項1に記載の方法。
【請求項4】
前記時間的品質メトリックを生成することは、
前記映像シーケンス内の前記連続ドロップ映像フレーム数を推定してフレーム落ち重大度値を生成することと、
前記映像シーケンス内の動き活性度を推定することと、
前記動き活性度に基づいて前記フレーム落ち重大度値を動き補償フレーム落ち重大度値にマップすることと、
前記動き補償フレーム落ち重大度値に基づいて前記時間的品質メトリックを生成することと、
を含む請求項1に記載の方法。
【請求項5】
前記映像シーケンス内の異なるショット間の境界を識別することと、
前記識別されたショット境界識別に応答して前記推定された動き活性度を補償することと、
をさらに備える請求項4に記載の方法。
【請求項6】
前記映像シーケンス内のウィンドウ内の局所的時間的活性度に基づいて時間的品質変動値を生成することと、
前記動き補償フレーム落ち重大度値および前記時間的品質変動値に基づいて前記時間的品質メトリックを生成することと、
をさらに備える請求項4に記載の方法。
【請求項7】
前記映像シーケンスの所与のフレーム率における時間的品質変動に対する人間の反応に対応する正規化値に基づいて前記時間的品質変動値を生成することをさらに備える請求項6に記載の方法。
【請求項8】
前記時間的品質メトリックを生成することは、
前記映像シーケンス内の連続ドロップ映像フレームのグループの数を推定してフレーム落ち重大度値を生成することと、
前記映像シーケンス内の動き活性度を推定することと、
前記映像シーケンス内の異なるショット間の境界を識別することと、
前記識別されたショット境界識別に応答して前記推定された動き活性度を補償することと、
前記補償された動き活性度に基づいて前記フレーム落ち重大度値を動き補償フレーム落ち重大度値にマップすることと、
前記映像シーケンス内のウィンドウ内の局所的時間的活性度に基づいて時間的品質変動値を生成することと、
JNJで時間的品質を表し、Nで前記グループの数を表し、Mで前記ショットの数を表し、s’m,nで前記マップされたフレーム落ち重大度値を表し、wm,nで時間的品質変動の度合いを表す式、
【数1】

に従い、前記動き補償フレーム落ち重大度値および前記時間的品質変動値に基づいて前記時間的品質メトリックを生成することと、
を含む請求項1に記載の方法。
【請求項9】
TQFを、時間的品質変動を表す関数とし、値κを前記映像シーケンスのフレーム率に従って変動する値とする式、
【数2】

に従って前記wm,nの値を計算することをさらに備える請求項8に記載の方法。
【請求項10】
tf’m,nを正規化された時間的変動推定値とし、値κを前記映像シーケンスのフレーム率および前記関連するtf’m,nに従って変動する値とし、Ψをフレーム率によって変動させる式、
【数3】

に従って前記wm,nの値を計算することをさらに備える請求項8に記載の方法。
【請求項11】
20≦フレーム率≦30のときΨ=5であり、
19≦フレーム率≦14の間Ψ=10であり、
1≦フレーム率≦14の間Ψ=14である
請求項10に記載の方法。
【請求項12】
映像シーケンス内の連続ドロップ映像フレーム数と前記映像シーケンス内の時間的品質変動とに基づいて前記映像シーケンスの時間的品質メトリックを生成するプロセッサを備える装置。
【請求項13】
前記プロセッサは、前記映像シーケンス内の動き活性度に基づいて前記時間的品質メトリックを生成する請求項12に記載の装置。
【請求項14】
前記プロセッサは、前記映像シーケンスを表すビットストリームまたは画素情報の1つの前記時間的品質メトリックを生成する請求項14に記載の装置。
【請求項15】
前記プロセッサは、
前記映像シーケンス内の前記連続ドロップ映像フレーム数を推定してフレーム落ち重大度値を生成し、
前記映像シーケンス内の動き活性度を推定し、
前記動き活性度に基づいて前記フレーム落ち重大度値を動き補償フレーム落ち重大度値にマップし、
前記動き補償フレーム落ち重大度値に基づいて前記時間的品質メトリックを生成する
請求項12に記載の装置。
【請求項16】
前記プロセッサは、前記映像シーケンス内の異なるショット間の境界を識別し、前記識別されたショット境界識別に応答して前記推定された動き活性度を補償する請求項15に記載の装置。
【請求項17】
前記プロセッサは、前記映像シーケンス内のウィンドウ内の局所的時間的活性度に基づいて時間的品質変動値を生成し、前記動き補償フレーム落ち重大度値および前記時間的品質変動値に基づいて前記時間的品質メトリックを生成する請求項15に記載の装置。
【請求項18】
前記プロセッサは、前記映像シーケンスの所与のフレーム率における時間的品質変動に対する人間の反応に対応する正規化値に基づいて前記時間的品質変動値を生成する請求項17に記載の装置。
【請求項19】
前記プロセッサは、
前記映像シーケンス内の連続ドロップ映像フレームのグループの数を推定してフレーム落ち重大度値を生成し、
前記映像シーケンス内の動き活性度を推定し、
前記映像シーケンス内の異なるショット間の境界を識別し、
前記識別されたショット境界識別に応答して前記推定された動き活性度を補償し、
前記補償された動き活性度に基づいて前記フレーム落ち重大度値を動き補償フレーム落ち重大度値にマップし、
前記映像シーケンス内のウィンドウ内の局所的時間的活性度に基づいて時間的品質変動値を生成し、
JNJで時間的品質を表し、Nで前記グループの数を表し、Mで前記ショットの数を表し、s’m,nで前記マップされたフレーム落ち重大度値を表し、wm,nで時間的品質変動の度合いを表す式、
【数4】

に従い、前記動き補償フレーム落ち重大度値および前記時間的品質変動値に基づいて前記時間的品質メトリックを生成する
請求項12に記載の装置。
【請求項20】
前記プロセッサは、TQFを、時間的品質変動を表す関数とし、値κを前記映像シーケンスのフレーム率および前記関連するtf’m,nに従って変動する値とする式、
【数5】

に従って前記wm,nの値を計算する請求項19に記載の装置。
【請求項21】
前記プロセッサは、tf’m,nを正規化された時間的変動推定値とし、値κを前記映像シーケンスのフレーム率および前記関連するtf’m,nに従って変動する値とし、Ψをフレーム率によって変動させる式、
【数6】

に従って前記wm,nの値を計算する請求項19に記載の装置。
【請求項22】
プロセッサに、映像シーケンス内の連続ドロップ映像フレーム数と前記映像シーケンス内の時間的品質変動とに基づいて前記映像シーケンスの時間的品質メトリックを生成させる命令を備えるコンピュータ可読媒体。
【請求項23】
前記プロセッサに、前記映像シーケンス内の動き活性度に基づいて前記時間的品質メトリックを生成させる命令をさらに備える請求項22に記載のコンピュータ可読媒体。
【請求項24】
前記プロセッサに、前記映像シーケンスを表すビットストリームまたは画素情報の1つの前記時間的品質メトリックを生成させる命令をさらに備える請求項22に記載のコンピュータ可読媒体。
【請求項25】
前記プロセッサに、
前記映像シーケンス内の前記連続ドロップ映像フレーム数を推定させてフレーム落ち重大度値を生成させ、
前記映像シーケンス内の動き活性度を推定させ、
前記動き活性度に基づいて前記フレーム落ち重大度値を動き補償フレーム落ち重大度値にマップさせ、
前記動き補償フレーム落ち重大度値に基づいて前記時間的品質メトリックを生成させる
命令をさらに備える請求項22に記載のコンピュータ可読媒体。
【請求項26】
前記プロセッサに、前記映像シーケンス内の異なるショット間の境界を識別させ、前記識別されたショット境界識別に応答して前記推定された動き活性度を補償させる命令をさらに備える請求項25に記載のコンピュータ可読媒体。
【請求項27】
前記プロセッサに、前記映像シーケンス内のウィンドウ内の局所的時間的活性度に基づいて時間的品質変動値を生成させ、前記動き補償フレーム落ち重大度値および前記時間的品質変動値に基づいて前記時間的品質メトリックを生成させる命令をさらに備える請求項25に記載のコンピュータ可読媒体。
【請求項28】
前記プロセッサに、前記映像シーケンスの所与のフレーム率における時間的品質変動に対する人間の反応に対応する正規化値に基づいて前記時間的品質変動値を生成させる命令をさらに備える請求項27に記載のコンピュータ可読媒体。
【請求項29】
前記命令は前記プロセッサに、
前記映像シーケンス内の連続ドロップ映像フレームのグループの数を推定させてフレーム落ち重大度値を生成させ、
前記映像シーケンス内の動き活性度を推定させ、
前記映像シーケンス内の異なるショット間の境界を識別させ、
前記識別されたショット境界識別に応答して前記推定された動き活性度を補償させ、
前記補償された動き活性度に基づいて前記フレーム落ち重大度値を動き補償フレーム落ち重大度値にマップさせ、
前記映像シーケンス内のウィンドウ内の局所的時間的活性度に基づいて時間的品質変動値を生成させ、
JNJで時間的品質を表し、Nで前記グループの数を表し、Mで前記ショットの数を表し、s’m,nで前記マップされたフレーム落ち重大度値を表し、wm,nで時間的品質変動の度合いを表す式、
【数7】

に従い、前記動き補償フレーム落ち重大度値および前記時間的品質変動値に基づいて前記時間的品質メトリックを生成させる
請求項22に記載のコンピュータ可読媒体。
【請求項30】
前記命令は前記プロセッサに、TQFを時間的品質変動を表す関数とし、値κを前記映像シーケンスのフレーム率に従って変動する値とする式、
【数8】

に従って前記wm,nの値を計算させる請求項29に記載のコンピュータ可読媒体。
【請求項31】
前記命令は前記プロセッサに、tf’m,nを正規化された時間的変動推定値とし、値κを前記映像シーケンスのフレーム率および前記関連するtf’m,nに従って変動する値とし、Ψをフレーム率によって変動させる式、
【数9】

に従って前記wm,nの値を計算させる請求項29に記載のコンピュータ可読媒体。
【請求項32】
20≦フレーム率≦30のときΨ=5であり、
19≦フレーム率≦14の間Ψ=10であり、
1≦フレーム率≦14の間Ψ=14である
請求項31に記載のコンピュータ可読媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公表番号】特表2009−533008(P2009−533008A)
【公表日】平成21年9月10日(2009.9.10)
【国際特許分類】
【出願番号】特願2009−504479(P2009−504479)
【出願日】平成19年4月5日(2007.4.5)
【国際出願番号】PCT/US2007/066082
【国際公開番号】WO2007/118160
【国際公開日】平成19年10月18日(2007.10.18)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.EEPROM
【出願人】(595020643)クゥアルコム・インコーポレイテッド (7,166)
【氏名又は名称原語表記】QUALCOMM INCORPORATED
【Fターム(参考)】