説明

データストリームにブロック単位で予測符号化されたビデオフレームのブロックの顕著性値を決定する方法及び装置

【課題】計算コストの低い顕著性モデルを生成すること。
【解決手段】本発明の一態様は、データストリームにブロック単位で予測符号化されたビデオフレームのブロックの顕著性値を決定する方法であって、当該方法は、処理手段を用いて前記顕著性値を決定するため、前記ブロックの変換された残差の符号化コストを決定し、前記決定された符号化コストを利用することを有する方法に関する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオのための顕著性決定の分野でなされる。
【背景技術】
【0002】
ビデオ画像フレームにおいて、関心の高い位置や顕著な特徴(salient feature)とも呼ばれる顕著性のある特徴を検出することは、多くの実世界のアプリケーションを有する。例えば、それは、ナビゲーション支援、ロボット制御、関しシステム、オブジェクト検出及び認識並びにシーン理解などのコンピュータビジョンタスクに適用可能である。このような予測はまた、宣伝設計、画像及びビデオ圧縮、画像及びビデオリパーパシング(repurposing)、画像データベースクエリ処理及びゲイズアニメーション(gaze animation)を含む他のエリアにおけるアプリケーションを見つける。
【0003】
従来の視線予測計算モデルは、入力画像又はビデオ信号のカラー、強度、コントラスト、向き、動き及び他の統計解析など、ソースデータの低レベルの特徴から顕著性マップを計算する。
【0004】
例えば、Bruce,NDB,and Tsotsos,JK:“Saliency based on information maximization”,In:Advances in neural information processing systems.p.155−162,2006は、シーンからサンプリングされたbottom−up overt attention最大化情報のモデルを提案する。
【0005】
Itti L.,Koch C.,and Niebur E.:“Model of saliency−based visual attention for rapid scene analysis”,IEEE Trans Pattern Anal Mach Intell.20(11):1254−9,1998は、初期の霊長類の視覚系の神経構造と行動により引き起こされる視覚注目システムを提供する。当該システムは、詳細に解析される顕著な位置を計算効率的に高速選択することによって、シーン理解の複雑な問題を分析する。
【0006】
Fabrice U.et al.:“Medium Spatial Frequencies,a Strong Predictor of Salience”,In:Cognitive Computation.Volume 3,Number 1,37−47,2011は、固定位置が人工のストリートシーンにおいて中から高周波数を用いて、また自然の風景シーンにおいて低から中周波数を用いて、より予測可能なものとわかることによって、中周波数が注目の最善の予測をグローバルに可能にすることを発見した。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明者は、圧縮符号化されたビデオ題材のための従来の顕著性決定方法及び装置が、当該題材は通常は空間変換、空間及び時間予測並びに動き情報に基づき、関心の高い位置における顕著な特徴及び情報を保存する方法により圧縮され、復号化において消失する顕著性情報をすでに含むが、当該題材を復号化することを要求することを理解していた。
【0008】
従って、本発明者は、計算コストの低い顕著性モデルを生成するため、圧縮されたビデオから顕著性情報を抽出することを提案する。計算コストの低下は、符号化により利用可能なデータの再利用に基づく。
【課題を解決するための手段】
【0009】
すなわち、本発明者は、データストリームにブロック単位予測符号化されたビデオフレームのブロックの顕著性値を決定するため、請求項1記載の方法及び請求項2記載の装置を提案する。当該方法は、処理手段を用いて顕著性値を決定するため、ブロックの変換された残差の符号化コストを決定し、決定された符号化コストを利用することを有する。
【0010】
変換されたブロック残差の符号化コストは、ブロックに示されるコンテンツの鮮明さと共に、ブロックがどの程度良好に予測されているかに依存する。このため、符号化コストは、顕著性の良好な指標である。
【0011】
実施例では、ブロックは、イントラ予測符号化され、符号化コストの決定は、ρドメインモデルを利用して決定することを含む。
【0012】
さらなる実施例では、ブロックは、インタ予測符号化され、符号化コストの決定は、ブロックのインタ予測に利用されるリファレンスブロックの変換された残差の符号化コストを決定することを含む。
【0013】
さらなる実施例では、リファレンスブロックの決定された符号化コストは、ブロックのサイズにより重み付けされる。
【0014】
さらなる実施例では、ブロックの動きベクトルの符号化コストはさらに、顕著性値を決定するのに利用される。
【0015】
さらなる他の実施例では、決定された符号化コストは正規化され、正規化された符号化コストは、顕著性値を決定するのに利用される。
【0016】
ブロックがDIRECT/SKIPモードにより符号化されている場合、減衰値がさらに、顕著性値を決定するのに利用可能である。
【0017】
さらなる効果的な実施例の特徴が、従属形式の請求項に規定される。
【発明の効果】
【0018】
本発明によると、圧縮されたビデオから顕著性情報を抽出することによって、計算コストの低い顕著性モデルを生成することができる。
【図面の簡単な説明】
【0019】
【図1】図1は、顕著性マップの従来の導出の一例となるフローチャートを示す。
【図2】図2は、圧縮されたビデオストリームから空間顕著性マップを導出することによって、当該ストリームから顕著性マップを導出する第1実施例の一例となるフローチャートを示す。
【図3】図3は、圧縮されたビデオストリームから時間顕著性マップを導出することによって、当該ストリームから顕著性マップを導出する第2実施例の一例となるフローチャートを示す。
【図4】図4は、圧縮されたビデオストリームから空間顕著性マップ、時間顕著性マップ及びこれら導出されたマップを合成したものを導出することによって、当該ストリームから顕著性マップを導出する第3実施例の一例となるフローチャートを示す。
【図5】図5は、圧縮されたビデオストリームから空間顕著性マップを導出する一例となるフローチャートを示す。
【図6】図6は、圧縮されたビデオストリームから時間顕著性マップを導出する一例となるフローチャートを示す。
【図7】図7は、空間顕著性マップと時間顕著性マップとの合成の一例となるフローチャートを示す。
【発明を実施するための形態】
【0020】
本発明の実施例が図面により示され、以下の説明においてより詳細に説明される。実施例は、単に本発明を説明するためのものであり、本発明の開示又は請求項に規定される範囲を限定するものでない。
【0021】
本発明は、対応して構成される処理装置を有する何れかの電子装置により実現されてもよい。本発明は、特に顕著性ベースのアプリケーションが必要とされる低パワー装置に有用であるが、これに限定されるものでない。例えば、本発明は、セットトップボックス、タブレット、ゲートウェイ、テレビ、モバイルビデオフォン、パーソナルコンピュータ、デジタルビデオカメラ又は車両エンターテイメントシステムにより実現されてもよい。
【0022】
本発明は、符号化されたストリームがさらなる計算コストがほとんどなく顕著性マップを導出するのに利用可能な情報をすでに有しているという事実を開示及び利用する。当該情報は、フル復号化中にビデオデコーダにより抽出可能である。あるいは、ビデオストリームを完全に符号化することなくビデオストリームの構文解析のみを行うパーシャルデコーダが、実現可能である。
【0023】
図2に示される第1実施例では、顕著性マップMAPの計算は、空間顕著性マップ計算SSCのみを有する。
【0024】
図3に示される第2実施例では、顕著性マップMAPの計算は、時間顕著性マップ計算TSCのみを有する。
【0025】
図4に示される第3実施例では、顕著性マップMAPの計算は、空間顕著性マップ計算SSC、時間顕著性マップ計算TSC及び計算された空間顕著性マップと計算された時間顕著性マップとの合成FUSからなる。
【0026】
第1、第2及び第3実施例において計算された空間及び/時間顕著性マップは、入力された圧縮されたストリームICSに符号化されているビデオVIDを完全に復号化DECすることなく、入力された圧縮されたストリームICSから利用可能な情報から計算される。
【0027】
本発明は、特定の符号化方式に限定されるものでない。入力される圧縮されたストリームICSは、例えば、H.264/MPEG−4 AVC、MPEG−2などの何れかの予測符号化方式を用いて圧縮可能である。
【0028】
異なる実施例では、空間顕著性マップ計算SCCは、符号化コスト推定に基づく。Z.He:“ρ−domain rate−distrotion analysis and rate control for visual coding and communication”,Santa Barbara,PhD−Thesis,University of Carifornia,2001は、ブロックの変換の非ゼロの変換係数の個数がブロックの符号化コストに比例することについて記載している。図5に示される空間顕著性マップ計算SCCは、この事実を利用し、イントラ符号化ブロックに当該ブロックの符号化コストを用いて決定された顕著性値を割り当てる。符号化コストは、Heにより記載されるようなρドメインモデルを用いて決定される。
【0029】
時間のみに関する顕著性の大部分は重要であるため、顕著性マップは正規化可能である。
【0030】
符号化コストに加えて、ブロックサイズがさらに顕著性値を決定するのに利用可能である。より小さなブロックサイズがオブジェクトのエッジに通常関連付けされ、関心がある。マクロブロックコストマップは、より小さなブロックへの分解数により拡張される。例えば、各ブロックのコスト値は、サブブロック分解の場合には2倍になる。
【0031】
インタ予測又は双方向予測を用いて符号化されるブロックについて、動き情報がストリームから抽出可能であり、インタ予測又は双方向予測に利用される1以上のリファレンス画像について決定された空間顕著性マップの動き補償に利用される。
【0032】
時間顕著性計算TSCは、図6に示されるような動き情報に基づく。従って、インタ予測又は双方向予測されたフレームのみについてそれは決定される。インタ又は双方向予測されたフレーム内において、イントラ符号化されたマクロブロックは、インタ又は双方向予測によっては良好に予測可能でない大きな動きを示すか、又はカバーされていないエリアを表す。実施例では、バイナリイントラ符号化されたブロックマップICMが、時間顕著性マップを決定するのに利用される。バイナリイントラ符号化されたブロックマップでは、各イントラブロックは、例えば、1の値をとる。
【0033】
顕著であり注目される動きを表す動きベクトルは良好には予測できず、符号化のために有意により多くなビットを必要とするため、動きベクトルの符号化コストマップMCMはさらに、時間顕著性マップを決定するのに利用される。
【0034】
動きベクトル符号化コストマップMCMとイントラ符号化ブロックマップICMとは正規化され、加算される。結果として得られたマップにおいてブロックに割り当てられる時間顕著性値は、SKIP又はDIRECTモードにより符号化されるブロックについて減衰しうる。例えば、SKIP又はDIRECTモードにより符号化されたブロックの符号化コストは0.5の係数により重み付けされ、他のモードにより符号化されたブロックの符号化コストは変更されないままである。
【0035】
空間顕著性計算SSCと時間顕著性計算TSCとから得られる顕著性マップの合成FUSは、単純な加算とすることができる。あるいは、図7に示されるように、空間顕著性マップと時間顕著性マップとは、加算前にウェイトa,bにより重み付けされる。aはフレームのイントラ符号化されたブロックの相対量に依存し、ウェイトbはフレームのインタ又は双方向予測ブロック(P又はB)の相対量に依存する。合成FUSはまた、ビットレート変化及び符号化タイプに依存するウェイトcにより重み付けされた前のフレームの前の顕著性マップを利用可能である。
【0036】
本発明者の実験は、a,b,cの以下の例示的な値が良好な結果を示した。
【0037】
【数1】

以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0038】
SSC 空間顕著性マップ計算
TSC 時間顕著性マップ計算
FUS 計算された空間顕著性マップと計算された時間顕著性マップとの合成

【特許請求の範囲】
【請求項1】
データストリームにブロック単位で予測符号化されたビデオフレームのブロックの顕著性値を決定する方法であって、
当該方法は、処理手段を用いて前記顕著性値を決定するため、前記ブロックの変換された残差の符号化コストを決定し、前記決定された符号化コストを利用することを有する方法。
【請求項2】
データストリームにブロック単位で予測符号化されたビデオフレームのブロックの顕著性値を決定する装置であって、
当該装置は、前記顕著性値を決定するため、前記ブロックの変換された残差の符号化コストを決定し、前記決定された符号化コストを利用するよう構成される処理手段を有する装置。
【請求項3】
前記ブロックは、イントラ予測符号化され、
前記符号化コストの決定は、ρドメインモデルを用いて決定することを有する、請求項1記載の方法又は請求項2記載の装置。
【請求項4】
前記ブロックは、インタ予測符号化され、
前記符号化コストの決定は、前記ブロックのインタ予測に利用されるリファレンスブロックの変換された残差の符号化コストを決定することを有する、請求項1記載の方法又は請求項2記載の装置。
【請求項5】
前記処理手段を用いて、前記ブロックのサイズによって前記リファレンスブロックの決定された符号化コストを重み付けする、請求項4記載の方法。
【請求項6】
前記顕著性値を決定するため、前記ブロックの動きベクトルの符号化コストをさらに利用することを有する、請求項3又は4記載の方法。
【請求項7】
前記処理手段を用いて前記顕著性値を決定するため、さらに前記決定された符号化コストを正規化し、前記正規化された符号化コストを利用する、請求項1、3乃至6何れか一項記載の方法。
【請求項8】
前記処理手段はさらに、前記ブロックのサイズにより前記リファレンスブロックの決定された符号化コストを重み付けするよう構成される、請求項4記載の装置。
【請求項9】
前記処理手段はさらに、前記顕著性値を決定するため、前記ブロックの動きベクトルの符号化コストをさらに利用するよう構成される、請求項3又は4記載の装置。
【請求項10】
前記処理手段は、前記顕著性値を決定するため、前記決定された符号化コストを正規化し、前記正規化された符号化コストを利用するよう構成される、請求項2乃至5、8及び9何れか一項記載の装置。
【請求項11】
前記処理手段を用いて、前記ブロックがDIRECT/SKIPモードにより符号化されているか決定し、
前記ブロックがDIRECT/SKIPモードにより符号化されている場合、減衰値がさらに前記顕著性値を決定するのに利用される、請求項4乃至6何れか一項記載の方法。
【請求項12】
前記処理手段は、前記ブロックがDIRECT/SKIPモードにより符号化されているか決定するよう構成され、
前記ブロックがDIRECT/SKIPモードにより符号化されている場合、減衰値がさらに前記顕著性値を決定するのに利用される、請求項4、5又は8記載の装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2013−85252(P2013−85252A)
【公開日】平成25年5月9日(2013.5.9)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−225723(P2012−225723)
【出願日】平成24年10月11日(2012.10.11)
【出願人】(501263810)トムソン ライセンシング (2,848)
【氏名又は名称原語表記】Thomson Licensing 
【住所又は居所原語表記】1−5, rue Jeanne d’Arc, 92130 ISSY LES MOULINEAUX, France
【Fターム(参考)】