説明

ローカル予測誤差に基づく映像位置合わせ

処理済みの(例えば、撮影された)映像シーケンスは、1枚以上の処理済みのフレームのセットごとに、1枚以上の元のフレームの選択されたセットから処理済みのセットへのマッピングを生成することにより、対応する元の映像シーケンスへ時間的に、空間的に、及び/又は、ヒストグラム的に位置合わせされ、(1)選択されたセットのそれぞれは前の処理済みのセットに対応する選択されたセットに依存し、(2)各マッピングは元のセットと対応する処理済みのセットとの間のローカル予測誤差を最小化し、(3)処理済みの映像シーケンス全体に対する累積予測誤差は最小化される。

【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本願は、代理人書類番号SAR14754として、2003年5月3日に出願された米国仮特許出願第60/452,153号の出願日の利益を主張する。
【米国政府支援研究開発】
【0002】
アメリカ合衆国政府は、米国商務省標準技術局先端技術プログラム協力協定番号70NANB1H3036に従って本発明に権利を有する。
【発明の分野】
【0003】
本発明は、映像処理に関し、特に、映像シーケンスの位置合わせに関する。
【関連技術の説明】
【0004】
映像位置合わせは、2個の映像シーケンス、例えば、元の映像シーケンスと元の映像シーケンスから生成された処理済みの映像シーケンスの間の(例えば、時間的、空間的、及び/又は、ヒストグラム的な)対応関係を特定するプロセスについて言及する。
【0005】
透かし検出及び基準に基づく映像品質測定のような多数のアプリケーションでは、処理済みの映像シーケンスは元のシーケンスに位置合わせする必要がある。例えば、ビデオカメラを使用して撮影された海賊版ビデオに埋め込まれた透かしを検出するため、処理済みの映像は劇場で表示される元の映像に位置合わせされる必要がある。映像位置合わせが典型的に必要とされる別の分野は、基準に基づく映像品質測定である。サービス品質(QoS)を保証するため、元の映像とクライアントによって受信された映像との間の品質劣化を測定することが必要であることが多い。受信映像は多くの場合に元の映像の処理済みのバージョンである。したがって、意味のある基準ベースの品質測定を実施するため、受信映像は最初に元の映像シーケンスに対して位置合わせされる。
【0006】
処理済みの映像と元の映像との間の差は、多くの場合に、空間的なずれ、時間的なずれ、及びヒストグラム的なずれの組み合わせから生じる。空間的なずれは、ワープ、クロップ、及びサイズ変更(例えば、4対3の縦横比のビデオカメラを用いて2.35対1の縦横比の映画を撮影する)のような映像シーケンスの空間操作の結果である。時間的なずれの主要な原因は、(1)フレームレート変換(例えば、3−2プルダウン)のような時間分解能の変化と、(2)映像圧縮アルゴリズム(例えば、MPEG−4)によって使用されるフレームのドロップ/リピートである。表示と撮影は、一般的に、(1)同期化されず、(2)異なるフレームレートで動作するので、映像撮影プロセスもまた時間的ずれの原因になる。その上、処理済みの映像は、一般に、元の映像とは異なる色ヒストグラムを有する。これは、多くの場合に、圧縮、フィルタリング、又は、ガンマ変化のような映像処理の結果である。それは、ビデオカメラ撮影の際のホワイトバランス又は自動利得制御(AGC)の結果ということもある。
【0007】
空間的、時間的、及びヒストグラム的な位置合わせは3種類のずれを補正するため使用される。空間的位置合わせ及びヒストグラム的位置合わせは多数の研究者によって研究されている。しかし、時間的位置合わせに関する研究はあまり行われていない。映像品質測定のための時間的位置合わせスキームは、Jiuhuai Lu,“Image analysis for video artifact estimation and measurement”,Proc. of SPIE Machine Vision Applications in Industrial Inspection,v.4301,pp.167−174,San Jose,CA,January 2001に提案され、その教示内容は参照として本明細書に組み込まれる。このスキームは、2個の映像シーケンスの間のグローバルオフセットを回復することが可能である。グローバルオフセットは、各シーケンスから取り出されたアクティビティシグネチャーの間の時間的な正規化された相関関係を最大化することによって推定される。CaspiとIraniは、固定シフト又は固定フレームレート変換のようなシーケンスレベルの時間的ずれを回復するため直接的な探索を使用する。これについては、Y.Capsi and M.Irani,“Alignment of non−overlapping sequences”,Proc. of IEEE Int’l Conf. on Computer Vision,Vancouver,BC,Canada,July 2001を参照のこと。
【発明の概要】
【0008】
従来技術における限界は、本発明の原理によれば、一実施形態では、時間的な位置合わせ問題をマッチングコストのフレームレベルの制約付き最小化として定式化し、動的プログラミングを使用してその問題を解決する映像シーケンスのための時間的な位置合わせアルゴリズムによって解決される。このアルゴリズムは、圧縮、フレームレート変換、又は、映像撮影のような映像処理アルゴリズムによって導入されることがよくある時間的なずれのフレームレベルモデルに基づいて開発された。本発明の1つの効果は、空間的及び/又はヒストグラム的な位置合わせを組み入れるため一般化され得ることである。アプリケーションに依存して、フレームレベル位置合わせの精密な検出は、補正によってこれらのずれを補償することを可能にさせる。
【0009】
本発明の位置合わせアルゴリズムは、従来技術のようにシーケンスレベルだけではなく、サブシーケンス(例えば、フレーム)レベルで時間的なずれを検出可能である。したがって、それはフレームドロップ又はフレームリピートのような非常に広範囲の時間的なずれから回復する。その上、時間的な位置合わせは、空間的なずれ(例えば、撮影中の画像サイズの変化)及び/又はヒストグラム的なずれ(例えば、撮影中の自動利得制御から生じる)から回復するため、空間的及び/又はヒストグラム的な位置合わせと組み合わせることが可能である。それは、位置合わせが映像データに従って実行されることを可能にするだけでなく、位置合わせがコンテクストコストの形でどの程度であるかについての事前知識の統合を可能にする。したがって、アルゴリズムの精度とロバスト性の両方をさらに改良することが可能である。コンテクストコストは、特定領域コンテクスト情報を使用することによってアプリケーションに応じて調整可能である。
【0010】
一実施形態によれば、本発明は、複数の元のフレームを備える元の映像シーケンスと、複数の処理済みのフレームを備える処理済みの映像シーケンスとの間の対応関係を特定する方法である。処理済みの映像シーケンスは、複数の処理済みのセットに分割され、処理済みのセットのそれぞれは1枚以上の処理済みのフレームを有する。処理済みのセットごとに、元の映像シーケンスからの1セット以上の元のセットが特定され、ここで、元のセットのそれぞれは1枚以上の元のフレームを備える、2セット以上の元のセットが少なくとも1セットの処理済みのセットに対して特定される。処理済みのセットのそれぞれに対応する元のセットごとにマッピングが作成され、マッピングは、元のセットごとに、対応する処理済みのセットを近似するマッピングされたセットを定義し、マッピングは、マッピングされたセットと対応する処理済みのセットとの間のローカル予測誤差を最小化する。処理済みのセットごとに、処理済みの映像シーケンスに対する累積予測誤差を最小化するマッピングを有する元のセットが選択される。
【0011】
本発明のその他の態様、特徴及び効果は以下の詳細な説明、特許請求の範囲、及び同じ参照番号が類似又は同一の要素を特定する添付図面からより完全に明らかになる。
【詳細な説明】
【0012】
本明細書において使用されるように、用語「映像シーケンス」は1枚以上の連続した映像フレーム(又はフィールド)のセットを意味する。映像位置合わせの文脈では、用語「映像シーケンス」は「処理ウィンドウ」及び「位置合わせウィンドウ」と同義であると考えられる。映像位置合わせアプリケーションの特有の実施の細部に依存して、映像ストリームは、単一の映像シーケンス(すなわち、1個のウィンドウ)として取り扱われ、又は、複数の連続した映像シーケンス(すなわち、複数個のウィンドウ)に分割される。
【0013】
処理済みの映像シーケンスのフレームレベルモデル
本セクションはフレームレベルでの処理済みの映像のモデルを説明する。このモデルの1つのアプリケーションは、映画館で上映される映像がビデオカメラを使用して撮影された映像プロセスを特徴付けることである。
【0014】
元の映像フレームはIとして表され、処理済みの映像フレームはJとして表され、ここで、iは元の映像シーケンスのフレームインデックス、0≦i≦N、であり、jは処理済みの映像シーケンスのフレームインデックス、0≦j≦M、である。処理済みのフレームJは次式(1):
【数1】

によってモデル化され、式中、φk(j)はk(j)によってインデックスを付けられたK個の考えられるマッピング関数のうちの1つである。K個のマッピング関数のそれぞれは、元の映像の1枚以上のフレームのセットを処理済みの映像の1枚のフレームへマッピングする。k番目のマッピング関数のため必要とされるフレームの枚数はβ(k)によって表される。マッチングインデックスα(j)は、処理済みのフレームJへマッピングする元のフレームのセットの中で最大インデックスである。
【0015】
図1は、処理済みの映像シーケンス104が元の映像シーケンス102から生成される典型的な映像プロセスを説明する。図1に示すように、処理済みのフレーム0は元のフレーム1から生成され、処理済みのフレーム1及び2は共に元のフレーム3から生成され、処理済みのフレーム3は元のフレーム6及び7から生成される。
【0016】
2個のマッピング関数φ及びφが本実施例では使用される。φ及びφの入力フレームの枚数は、それぞれ、β(1)=1及びβ(2)=2である。マッチングインデックスα(0)=1とすると、φは元のフレーム1を処理済みのフレーム0へマッピングする。これに対して、マッチングインデックスα(0)=7とすると、元のフレーム6及び7はマッピング関数φによって処理済みのフレーム3へマッピングされる。
【0017】
式(1)のモデルは汎用フレームレベル映像処理モデルである。それは、撮影された映像だけでなく、フレームスキップ及びフレームリピートのようなある種の普及している時間的操作を含む他のフレームレベル処理にも適用される。例えば、図1に示すように、元のフレーム2、4及び5は処理済みのフレームが関連付けられない。したがって、それらはスキップされたフレームである。その上、処理済みのフレーム1及び2は同一であり、どちらも元のフレーム3から生成されている。したがって、それらはフレームリピートの例である。
【0018】
上記の表記を用いると、映像位置合わせ問題は、元の映像フレームI及び処理済みのフレームJが与えられた場合に、マッピング関数φk(j)及びマッチングインデックスα(j)を推定する、ということになる。φk(j)及びα(j)を推定する1つの方法は、すべてのjについてのk(j)とα(j)の可能な全ての組み合わせに亘って、処理済みの映像フレームJと元のシーケンスからのモデル予測との間の歪みを最小化することである。
【0019】
最小化問題は、α(j)についての因果関係の制約を受ける。すなわち、過去に表示されたフレームは現時点で処理できない。形式的には、この制約は、あるj及びjに対して、j<jであるならば、α(j)≦α(j)である、のように表現することが可能である。その上、他の適当な歪みの尺度を使用しても構わないが、以下の説明は、歪み尺度として平均平方誤差(MSE)の使用を想定する。したがって、因果関係の制約の観点で歪みを最小化することによって決定された位置合わせ[k(0),α(0),・・・,k(M),α(M)]は、以下の式(2):
【数2】

によって計算可能である。j=0,・・・,Mに対してk(j)は独立に最適化され、α(j)の間には因果関係の依存性しかないので、式(2)によって定義された最適化は動的プログラミングを使用して解法される。
【0020】
図2は、動的プログラミングを使用して時間的な位置合わせを決定するため使用できるグリッドを示す。特に、横軸は処理済みの映像シーケンス内の様々なフレーム0からMを表し、縦軸は考えられるすべての対応するマッチングインデックスα(j)、すなわち、処理済みのフレームJを生成するため使用された最大インデックスの元のフレームのインデックスを表す。
【0021】
動的プログラミングを使用して式(2)を解法するため、式(2)の最小化は処理済みのフレームJのインデックスjに従ってステージに分割される。各ステージの状態はα(j)であり、iとしても表される。ステージ及び状態によって定義された図2のグリッドにおいて、ステージから状態へのマッピングとして定義されたパス(例えば、202)は、i(j)として表される。式(2)において最小化されるべきコスト関数は、実現可能なパスに沿うステージ0からステージMまでの全てのマッピング関数の中で最小の累積平均平方誤差である。
【0022】
しかし、因果関係の制約α(0)≦α(1)≦・・・≦α(M)のため、図2のパスは、(値に関して)単調増加する(すなわち、非減少である)場合に限り、実現可能なパスである。図2は、ステージ0からステージMまでの実現可能なパス202を示す。図2はまた、特別のグリッド点204を通るすべての実現可能なパスを(破線として)示す。式(2)の解は、最小の累積平均平方誤差を有し、ステージ0からステージMまで単調増加するパスである。
【0023】
δ(M)がステージ0からステージMまでの実現可能なパスの全域に亘る累積MSEを表すならば、
【数3】

である。したがって、動的プログラミングは以下の3ステップとしてまとめることができる。
(1)各ノード(j,i)で最小平均平方誤差を計算する。
【数4】

(2)式(3)に示すように、j=0,1,...,Mに対し、δ(j)を再帰的に計算する。
(3)最後のステージの最小累積MSE(δ(M))が計算された後、[k(0),α(0),・・・,k(M),α(M)]を計算するためバックトレースする。
【0024】
長編映画のビデオカメラ撮影のための時間的な位置合わせ
前のセクションは、処理済みの映像を位置合わせするための汎用モデルを提案した。本セクションは、例えば、ビデオカメラ撮影された映画の時間的な位置合わせに汎用モデルを適用する。
【0025】
元の映画とその映画を撮影した映像との間の時間的なずれには3つの主要な原因がある。第1に、一般に元の映画は撮影のため使用されたフレームレートとは異なるフレームレートで表示する。例えば、映画は一般に毎秒24フレーム(fps)で表示されるが、ビデオレコーダは30fps又は毎秒60フィールドで映像を記録する。さらに、映画が表示されるときと最初のフレームが撮影されるときとの間には典型的に初期オフセットがある。最後に、表示用のフレームレートと撮影用のフレームレートは変動する。この変動は、特に、フィルムが一方のローラーから他方のローラーへ移され、各ローラーの有効径の変化がフレームレートに僅かな変化を生じさせ得る、フィルムを使用して投影及び/又は撮影する場合にそうである。これらの3つの要因のため、処理済みの各映像フレームは、一般的に元のシーケンスの1枚のフレームに対応しない。例えば、24fpsで表示し、30fpsで撮影するとき、処理済みのフレームの殆どは、2枚の隣接したフレームのそれぞれが対応する処理済みのフレームに対するビデオカメラの蓄積時間の異なる部分の間に表示されるとき、元のシーケンス内の2枚の隣接したフレームの加重平均である。
【0026】
図3は、元の映像シーケンスと処理済みの映像シーケンスとの間のフレームレート及びスタート時間の両方の差から生じる時間的なずれをグラフ的に説明する。これらの差の結果として、図3の処理済みのフレーム1は、例えば、元のフレーム1と元のフレーム2の両方に基づいている。撮影のフレームレートがディスプレイのフレームレートの1/2以上であるとき、処理済みのフレームJは、以下の式(5)の時間的マッピング関数:
【数5】

に従って、2枚の連続した元の映像フレームI及びIi+1の線形結合としてモデル化され、式中、λjiは処理済みのフレームJ内の元のフレームIの出現割合であり、λjiは0以上1以下である。
【0027】
i(元の映像のフレーム番号)とj(対応する処理済みの映像のフレーム番号)との間には明示的な関係がないので、式(5)の時間的なマッピング関数は、フレーム統合だけでなく、広く用いられているデジタル映像の時間的な操作であるフレームドロップ及びフレームリピートをモデル化するためにも使用可能である。特に、フレームドロップは、2枚の連続した処理済みのフレームに対して1よりも大きくiを増加させることによりモデル化される。同様に、フレームリピートは2枚以上の連続した処理済みのフレームに対してiを一定に保つことによりモデル化される。
【0028】
時間的なマッピング演算の定義が与えられると、式(2)の最小化は以下の式(6):
【数6】

として書き換えられる。
【0029】
ローカル予測誤差の最小化
上記動的プログラミングは、式(4)に定義されたローカル予測誤差の最小化に関連する。式(5)に定義された時間的マッピング関数を用いると、この目標は次式(7):
【数7】

によって表されるように、所与の処理済みのフレームJと元のフレームI及びIi−1に対するλjiの全体に亘って、現在の処理済みのフレームJと、処理済みのフレームを近似する時間的にマッピングされたフレームとの間のマッチング誤差を最小化することである。
【0030】
2枚のフレームPとQとの間の平均平方誤差ε(P,Q)は以下の式(8):
【数8】

によって与えられ、式中、Ph,w及びQh,wは、それぞれ、フレームP及びQの中の画素であり、H及びWは各フレームの高さ及び幅である。本発明の文脈において、フレームPは現在の処理済みのフレームJであり、フレームQは、式(5)に記載されるように、元のフレームI及びIi−1の線形結合を使用して生成された対応する「時間的にマッピングされた」フレームである。
【0031】
その上、(Ph,w,−Qh,w)と(Ph,w,−Rh,w)との間の差の間の「相互相関」ζ(P;R,Q)は次式(9):
【数9】

によって定義され、式中、フレームPは現在の処理済みのフレームであり、Q及びRは、フレームPに対応する元のシーケンス内の2個の考えられる時間的にマッピングされた連続したフレームである。次に、式(7)を最小化するλi,jの値(すなわち、λi,j)が以下の式(10):
【数10】

に従って閉じた形式で計算され、最小MSEは以下の式(11):
【数11】

によって表現される。
【0032】
コンテクスト制約
映像位置合わせは不良設定逆問題である。元の映像と処理済みの映像が与えられると、2個以上の解が存在する。しかし、アプリケーションの事前知識の性質によって、同じ問題への解は非常に異なる可能性がある。例えば、フレームリピート及びフレームドロップは、一般にはあまり使用されず、2枚以上の連続したフレームに適用されることは殆どない。例えば、非常に多数の連続した類似フレームが存在するとき、それらのフレームは、フレームリピートの連続的な使用によって生じるよりも、動きの少ないシーンからのフレームである可能性が高い。
【0033】
コンテクスト制約は解が満たすべき事前知識から導かれる。コンテクスト制約の使用は、解空間を縮小し、精度を改良し、ノイズに対するロバスト性を増加させる。既に使用されている1つのコンテクスト制約は、マッチングインデックスに関する因果関係の制約である(例えば、実現可能なパスは非減少パスでなければならない)。しかし、状態空間内の単調増加パスのすべてが許されるとは限らない。例えば、フレームの変化が撮影中に生じるとき、0<λ<1、もし、α=αj+1であるならば、(フレームリピートを表現する)λ=λj+1であるか、又は、0<λ<λj+1=1のいずれかである。すなわち、2枚の連続した処理済みのフレームが元のフレームの同じセットに対応するならば、2枚の連続した処理済みのフレームの2番目はその2枚のうちの1番目の繰り返しである場合を除く。換言すると、2枚の連続した処理済みのフレームの1番目が2枚の元のフレームから生じるならば、1番目の元のフレームの表示は1番目の処理済みのフレームの蓄積中に終了しているので、2番目の処理済みのフレームはこれらの同じ2枚の元のフレームに基づくことがあり得ない。0<λ<λj+1<1、又は、λ>λj+1のような他の結果は無効である。
【0034】
ルールのセットとして記載する代わりに、コンテクスト制約は、現在及び前の両方の歪んだフレームのマッピング関数とマッチングインデックスの関数である状態遷移コストC(φk(j)α;φk(j−1)αj−1)の形式で最適化プロセスに組み込んでもよい。したがって、式(2)で使用されるコスト関数は、
【数12】

になり、式中、第1項はマッチング項と呼ばれ、第2項はコンテクスト項と呼ばれる。
【0035】
図4は、2個の連続した処理済みのフレームに対するマッチングインデックスαj−1とαとの間の差の関数として考えられる1つの状態遷移コストC(α;αj−1)のグラフを示し、この関数は以下のコンテクスト制約を課す。
(1)C(α;αj−1)は、α<αj−1であるとき、因果関係の制約を課すため、最大歪みレベルに設定される。
(2)C(α;αj−1)は、α=αj−1+1であるときに0に限られる。これは、マッチングインデックスが処理済みの映像シーケンス内のフレームごとに1ずつ増加することを支持する(しかし、要求しない)。換言すると、マッチングインデックスが増加しないフレームドロップはペナルティが科される。
(3)C(α;αj−1)は、α=αj−1であるときに正のコストが割り当てられる。これはフレームリピートにペナルティを科す。したがって、フレームリピートは、マッチング誤差を著しく低減する場合に限り選択される。
【0036】
処理済みの映像の時空間的位置合わせとヒストグラム的位置合わせの統合
時間的な歪みに加えて、処理済みの映像は、空間的なずれと、ガンマ変化のような大域的な強度の変化(ヒストグラム的なずれとも称される)との影響をさらに受ける。既に説明した処理済みの映像のための汎用モデルは、マッチングインデックスの推定を、マッピング関数の最適化から効果的に分離する。空間的及び強度的(すなわち、ヒストグラム的)位置合わせはマッピング演算φk(j)に組み込むことが可能であるため、時間的位置合わせは、空間的位置合わせ若しくはヒストグラム的位置合わせのいずれか一方、又は、両方と共に動的プログラミングを使用する全く同じ最適化プロセスにおいて実行可能である。
【0037】
ヒストグラム的なずれのモデル
最新式ビデオカメラは高度な映像記録システムである。視覚的に好ましい映像を生成するため、アルゴリズムのセットが、典型的に、処理済みの映像の見え方を改良するため使用される。これらのアルゴリズムのうちの一部は、処理済みの映像のRGBヒストグラムを変更する。最も重要なアルゴリズムは自動利得制御(AGC)である。平均輝度に応じて、AGCは、処理済みの映像信号に利得を加えることによりビデオカメラの感度を調整する。その上、どの色が白色であるかを決めるホワイトバランスもまたヒストグラムに影響を与える。最後に、表示から撮影までの両端間のガンマは一致しないかもしれない。フォレンジック透かしが輝度成分だけを修正するとき、輝度のヒストグラムだけを補正すればよい。
【0038】
ヒストグラムシェイピングとも呼ばれるヒストグラム変換は、一方のヒストグラムを別のヒストグラムへマッピングする。ヒストグラム変換はテーブルルックアップを使用して表現可能である。例えば、フレームごとに、変換は、処理済みの映像フレーム内のグレイレベルを元のフレーム内のグレイレベルへマッピングする256個のパラメータを有する。
【0039】
(u)及びH(v)がそれぞれ基準映像フレームの正規化されたヒストグラム(これは元の映像シーケンスからの2枚の映像フレームの線形結合に対応する)及び対応する処理済みの映像フレームであると仮定する。すなわち、H(u)は基準フレーム内でグレイレベルuを有する画素のパーセンテージであり、H(v)は処理済みのフレーム内でグレイレベルvを有する画素のパーセンテージである。このとき、処理済みの映像フレームのヒストグラムを基準フレームのヒストグラムへマッピングするヒストグラムマッピングであるu=φ(v)は、以下の通り計算可能である。あるvに対して、u(v)が、
【数13】

となるような最大のuであり、u(v)が、
【数14】

となるような最小のuであると仮定する。このとき、
【数15】

である。
【0040】
ヒストグラム的なずれ、位置合わせ、及び補正に関するさらなる情報は、A.K. Jain,Fundamentals of Digital Image Processing,Prentice Hall,1989に記載され、その教示内容は参照として本明細書に組み込まれる。
【0041】
空間的ずれのモデル
多数の要因によって処理済みの映像に空間的歪みが生じ得る。第1に、ビデオカメラは、一般的に、プロジェクタの光軸に設置されない。さらに、各撮影は、異なるズーム又はクロップパラメータを使用する。最後に、ビデオカメラは撮影プロセス中に完全に静止していないかもしれない。したがって、処理済みの映像は、通常、元の映像の透視投影である。
【0042】
(x,y,z)がビデオカメラの像面上の点であるとし、(X,Y,Z)は映像が投影されるスクリーン上の点であるとする。このとき、(X,Y,Z)から(x,y,z)への透視変換は次式(13):
【数16】

によって表現され、式中、Pは透視変換行列である。回転因子を無視できるとき、mxx、myy及びmzzは倍率であり、m、m及びmは、それぞれ、X、Y及びZ方向の並進である。一部のアプリケーションでは、変換が平面射影(ホモグラフィー変換とも呼ばれる)であると仮定するだけで十分であるので、奥行きへの依存性が除去され、独立パラメータの個数が8個に減少する。
【0043】
空間的なずれ、位置合わせ、及び補正に関するさらなる情報は、R.Kumar,H.S.Sawhney,J.C.Asumuth,A.Pope,and S.Hsu,“Registration of video to geo−referenced imagery”,Proc. ICPR 98,Brisvane,Australia,Aug. 1998と、S.Baudry,P.Nguyen,H.Maitre,“Estimation of geometric distrotions in digital watermarking”,Proc. of IEEE Int’l Conf. on Image Processing,Rochester,NY,Sept. 2002に記載され、これら両方の教示内容は参照として本明細書に組み込まれる。
【0044】
合成されたフレームレベルの映像処理モデル
処理済みの映像シーケンスを、時間的だけではなく、空間的及び強度的にも位置合わせするため、モデルは同じ空間的及びヒストグラム的変換が各処理済みのフレームを形成するため使用された元のフレームの両方へ適用されることを仮定することによって拡張される。その場合、式(5)によって定義されたマッピング演算は以下の式(14):
【数17】

によって表現され、式中、ψ(・)は空間的変換であり、ρ(・)はヒストグラム的変換である。式(14)の構成は、3個の変換が合成される順序に依存するが、様々な構成間の差は小さく、無視することができる。
【0045】
先に提案されたノードごとのローカル予測の最小化は、空間的位置合わせ及び強度的位置合わせ(例えば、ヒストグラムシェイピング)を含むことがさらに必要である。しかし、空間的なずれ及びヒストグラムの大域的な変化は、式(5)においてモデル化された連続したフレームの加重和と相互に関連付けられるので、閉じた形式の解は得られない。したがって、ICM(インタラクティブコンディションモード)処理がノードごとにローカル予測を最小化するため使用される。ICMの基本的な考え方は、パラメータのセットを固定し、その残りを最適化することである。本例では、ICMは、3セットのパラメータのセットのうちの2セットを固定し、3セット目を最適化することによって実施される。1つの可能な実施では、反復ごとに、ICMは最初に空間的位置合わせを実行し、次にヒストグラムシェイピングが続き、その後に、式(10)及び(11)を使用するλjiの計算によって時間的位置合わせを実行する。この処理は、収束するまで(すなわち、空間パラメータ、ヒストグラムパラメータ及び時間パラメータの変化が指定されたスレッショルドよりも小さくなるまで)、又は、指定された最大反復回数に到達するまで反復する。ICMを使用して、ローカル予測の最適化は、時間的フレーム統合の最適化と、空間的位置合わせの最適化と、ヒストグラム的位置合わせの最適化の3つの最適化になる。
【0046】
ヒストグラム的位置合わせの制約
コンテクスト制約が課されないならば、ヒストグラム的位置合わせはある特殊なケースで失敗する。例えば、元の映像が黒色フレームを含有するとき、処理済みのシーケンス内のいかなるフレームは、MSEが0であるヒストグラム的位置合わせによって黒色フレームにマッピングされ得るが、これが希望の解でないことは明白である。この状況を解決するため、コンテクスト制約は、次式(15)のように処理済みのシーケンスの色と元のシーケンスの色との間の相互情報量に比例するヒストグラム的位置合わせのため定義され、
【数18】

式中、wはスカラー重みであり、H(I)はフレームIの正規化されたヒストグラムから計算された確率のエントロピーである。フレームIが黒色フレームであるとき、又は、フレームI及びJが独立であるとき、コンテクストコストは0である。フレームI及びJが決定論的関係を有するとき、コンテクストコストは、フレームI又はフレームJの正規化されたヒストグラムのエントロピーである。
【0047】
大域的なマッチング制約
処理済みの映像シーケンスを元の映像シーケンスに位置合わせするために有効な時間的な位置合わせの大域的な制約がある。処理済みの映像の場合、有効長が映像シーケンスの最初のフレームと最後のフレームとの間の長さであるとして、処理済みの映像の有効長は表示された映像の有効長に一致すべきである。したがって、処理済みのフレームと元のフレームとの間の時間的な対応関係は相対的に固定される。この制約は次式(16)によって大域的な制約として実施され、
【数19】

式中、r及びrは、それぞれ、元のシーケンス及び処理済みのシーケンスのフレームレートであり、wはスカラー重みである。
【0048】
可能な実施
図5は、本発明の可能な一実施形態による、動的プログラミングを使用する位置合わせ問題への解法を示すフローチャートである。本実施形態によれば、処理済みの映像シーケンスは、最初のフレーム0から最後のフレームMまでフレームごとに解析される(ステップ502及び508)。当業者は、他の実施形態では、この解析が様々な形で体系化されることを認める。
【0049】
処理済みのフレームのそれぞれに対し、最小化されたローカル予測誤差が、現在の処理済みフレームに対応する可能性のある1枚以上の元のフレームからなる1セット以上の異なるセットごとに生成される(ステップ504)。例えば、式(16)の大域的なマッチング制約を式(5)の時間的なマッピング関数に適用することは、所与の処理済みのフレームを生成するため使用可能であった元のフレームの種々の対応するペアの個数が限られることを意味する。ステップ504は、これらの元のフレームの考えられる種々のペアのそれぞれに対し、(例えば、式(7)を使用して)種々の最小化されたローカル予測誤差を生成することを包含する。特定の実施に依存して、ステップ504の最小化されたローカル予測誤差は、時間的、空間的及びヒストグラム的な位置合わせの任意の組み合わせを使用して生成することができる。既に説明したように、時間的な位置合わせが空間的及び/又はヒストグラム的な位置合わせと組み合わされるとき、ICM処理は、元のフレームの現在の処理済みのフレームへの種々のマッピングごとに、最小化されたローカル予測誤差を生成するため使用できる。
【0050】
元のフレームの現在の処理済みのフレームへのマッピングごとに、(図2のように)最小の累積予測誤差に対応するパスを選択する(ステップ506)。図2に示すように、処理済みのフレームのそれぞれは、前に処理済みのフレームに対応する有限個のパスを介して到達可能であり、パスのそれぞれには累積予測誤差が関連付けられている。ステップ504で特定されたマッピングごとに、ステップ506は、累積予測誤差を最小化するパスの選択(及び現在の処理済みフレームへの拡張)を包含する。
【0051】
処理済みの映像シーケンスの全体が処理された後、元の映像シーケンスを処理済みの映像シーケンスへマッピングする多数の種々の可能なパスが特定される。最小の累積予測誤差を有するパスは、元のシーケンスの処理済みのシーケンスへの最適なマッピングとして選択され、そのパスは元のシーケンスと処理済みのシーケンスとの間のフレームごとのマッピングを特定するためトレースバックされる(ステップ510)。このようにして、処理済みの映像シーケンスの全体はフレームレベルで元の映像シーケンスに対して位置合わせされる。
【0052】
本発明は、単一エンティティとしての映像フレームの文脈において記載されているが、当業者は、本発明がインターレース型映像ストリーム及び関連したフィールド処理の文脈にも適用可能であることを理解する。したがって、記載された特有の実施のため明らかに不適切でない限り、特に請求項で使用されているような用語「フレーム」は、映像フレームと映像フィールドの両方のアプリケーションを対象とするように解釈されるべきである。
【0053】
さらに、本発明はフレームレベルに基づいているとしてローカル予測誤差を記載している。当業者は、ある実施では、ローカル予測誤差が2枚以上の、しかし、映像シーケンス全体のレベルよりも少ないフレームからなるセットのレベルにも基づく可能性があることを理解する。その意味で、ローカル予測誤差の概念は、各サブシーケンスが映像シーケンス内の1枚以上(しかし、全部ではない)のフレームに対応するサブシーケンスレベルであると考えられ、用語フレームは映像フレーム又は映像フィールドのいずれかを意味する。
【0054】
本発明は、(ASIC又はFPGAのような)単一の集積回路、マルチチップモジュール、シングルカード、又は、マルチカード回路パックとして可能な実施を含む回路に基づくプロセスとして実施される。当業者に明らかであるように、回路要素の多様な機能は、ソフトウェアプログラムの処理ステップとしても実施される。このようなソフトウェアは、例えば、デジタル信号プロセッサ、マイクロコントローラ、又は、汎用コンピュータで利用される。
【0055】
本発明は、方法の形式及びこれらの方法を実施する装置の形式でさらに具体化される。本発明は、フレキシブルディスケット、CD−ROM、ハードディスクドライブ、又は、その他の機械読み取り可能な記憶媒体のような有形媒体に具体化されたプログラムコードの形式でも具体化され、プログラムコードがコンピュータのような機械に取り込まれ、その機械によって実行されるとき、その機械は本発明を実施する装置になる。本発明は、記憶媒体に記憶されるか、機械にロードされ、及び/又は、機械によって実行されるか、或いは、電気配線若しくはケーブル、光ファイバ、又は、電磁放射のようなある種の伝送媒体や担体を介して伝送されるプログラムコードの形式でも具体化され、プログラムコードがコンピュータのような機械に取り込まれ、その機械によって実行されるとき、その機械は本発明を実施する装置になる。汎用プロセッサ上で実施されるとき、プログラムコードセグメントは、プロセッサと結合して、具体的な論理回路と同じように動作する固有の装置を提供する。
【0056】
さらに理解されるように、本発明の本質を説明するため記載され、例示された部品の細部、材料及び配置の種々の変更が特許請求の範囲に記載されているような本発明の原理及び範囲を逸脱することなく当業者によってなされる。
【0057】
方法の発明の請求項に記載されたステップは、もしあれば、対応する名前が付けられた特定のシーケンスにおいて列挙されているが、請求項の記載がそれらのステップの一部又は全部を実施する特定のシーケンスを示さない限り、それらのステップはその特定のシーケンスで実施されるように限定されることが必ずしも意図されていない。
【図面の簡単な説明】
【0058】
【図1】処理済みの映像シーケンスが元の映像シーケンスから生成される典型的な映像プロセスを説明する図である。
【図2】動的プログラミングを使用して時間的な位置合わせを決定するため使用されるグリッドを示す図である。
【図3】元の映像シーケンスと処理済みの映像シーケンスとの間のフレームレート及びスタート時間の両方の差から生じる時間的なずれをグラフ的に示す図である。
【図4】コンテクスト制約を課す2枚の連続した処理済みのフレームに対するマッチングインデックスの間の差の関数として、可能な状態遷移コストを示すグラフである。
【図5】本発明の可能な一実施形態による、動的プログラミングを使用する位置合わせ問題への解法を示すフローチャートである。

【特許請求の範囲】
【請求項1】
複数の元のフレームを備える元の映像シーケンスと複数の処理済みのフレームを備える処理済みの映像シーケンスとの間の対応関係を特定する方法であって、
(a)前記処理済みの映像シーケンスを、各処理済みのセットが1枚以上の処理済みのフレームを有する複数の処理済みのセットに分割するステップと、
(b)処理済みのセットごとに、元のセットのそれぞれが1枚以上の元のフレームを備え、2セット以上の元のセットが少なくとも1セットの処理済みのセットに対して特定される、1セット以上の元のセットを前記元の映像シーケンスから特定するステップと、
(c)処理済みのセットのそれぞれに対応する元のセットごとに、前記対応する処理済みのセットを近似するマッピングされたセットを前記元のセットに対して定義し、前記マッピングされたセットと前記対応する処理済みのセットとの間のローカル予測誤差を最小化するマッピングを生成するステップと、
(d)処理済みのセットごとに、前記処理済みの映像シーケンスに対する累積された予測誤差を最小化するマッピングを有する前記元のセットを選択するステップと、
を備える方法。
【請求項2】
元のセットのそれぞれが1枚又は2枚の元のフレームからなり、
マッピングされたセットのそれぞれが単一のマッピングされたフレームからなり、
処理済みのセットのそれぞれが単一の処理済みのフレームからなる、
請求項1記載の方法。
【請求項3】
各マッピングを生成するステップが時間的な位置合わせを包含する、請求項1記載の方法。
【請求項4】
各マッピングを生成するステップが、空間的な位置合わせとヒストグラム的な位置合わせの少なくとも一方をさらに包含する、請求項3記載の方法。
【請求項5】
各マッピングを生成するステップが、空間的な位置合わせ及びヒストグラム的な位置合わせを包含する、請求項4記載の方法。
【請求項6】
各マッピングを生成するステップが、(1)時間的、空間的、及びヒストグラム的な位置合わせを3セットのパラメータのセットとして取り扱い、(2)前記3セットのパラメータのセットのうちの2セットを固定し、同時に3番目のセットを最適化し、(3)最適な解が見つかるまで、3セットのパラメータのセットのすべてに関して反復する処理を使用して、前記ローカル予測誤差を最小化する工程を包含する、請求項5記載の方法。
【請求項7】
前記時間的な位置合わせが、2枚の元のフレームの加重和と対応する処理済みのフレームとの間の前記ローカル予測誤差の最小化を包含する、請求項3記載の方法。
【請求項8】
1個以上の制約が処理済みのセットごとに特定された異なる元のセットの数を制限するため適用される、請求項1記載の方法。
【請求項9】
少なくとも1個の制約が過去に表示された元のフレームが現在の処理済みのフレームを生成するため使用できないことを指定する因果関係の制約である、請求項8記載の方法。
【請求項10】
第1の選択された元のセットが前記処理済みの映像ストリーム内の第1の処理済みのフレームに対応し、
他の処理済みのフレームごとに選択された他の元のセットのそれぞれが、前の処理済みのフレームに対応する選択された元のセットに依存する、
請求項1記載の方法。
【請求項11】
前記選択されたセットの間の依存関係が1個以上の制約に基づいている、請求項10記載の方法。
【請求項12】
少なくとも1個の制約が過去に表示された元のフレームが現在の処理済みのフレームを生成するため使用できないことを指定する因果関係の制約である、請求項11記載の方法。
【請求項13】
少なくとも1枚の元のフレームがいずれのマッピングにも含まれない、請求項1記載の方法。
【請求項14】
1枚の処理済みのフレームが直前の処理済みのフレームの繰り返しである、請求項1記載の方法。
【請求項15】
元のセットのそれぞれが処理済みのセットごとのマッチングインデックスが単調増加関数に従う因果関係の制約に基づいて選択され、
前記マッチングインデックスが最大フレームインデックスを有する元のセットのそれぞれの前記元のフレームを特定し、
フレームインデックスが前記元の映像シーケンス内のフレームごとに1ずつ増加する、
請求項1記載の方法。
【請求項16】
マッピングされたセットのそれぞれと前記対応する処理済みのセットとの間の前記ローカル予測誤差がマッチング項とコンテクスト項の関数であり、
前記マッチング項が前記マッピングされたセットと前記対応する処理済みのセットとの間の差を表し、
前記コンテクスト項が前記元の映像シーケンスと前記処理済みの映像シーケンスとの間の時間的関係に適用された1個以上のコンテクスト制約に関連付けられたコストに対応する、
請求項1記載の方法。
【請求項17】
前記マッチング項が前記マッピングされたセットと前記対応する処理済みのセットとの間の平均平方誤差に対応する、請求項16記載の方法。
【請求項18】
前記コンテクスト項が前に表示されたフレームが後で処理できないという因果関係の制約を課す、請求項16記載の方法。
【請求項19】
前記コンテクスト項が元のフレームのリピート及びドロップにペナルティを科す、請求項16記載の方法。
【請求項20】
前記コンテクスト項が、マッチングインデックスが前記処理済みの映像シーケンス内のフレームごとに1ずつ増加するという仮定を支持し、
前記マッチングインデックス、が最大のフレームインデックスを有する元のセットのそれぞれの中の前記元のフレームを特定し、
フレームインデックスが、前記元の映像シーケンス内のフレームごとに1ずつ増加する、
請求項16記載の方法。
【請求項21】
前記処理済みの映像シーケンスがビデオカメラを用いて前記元の映像シーケンスの表示を撮影することによって生成されている、請求項1記載の方法。
【請求項22】
(e)元のフレーム内の透かしを特定するステップと、
(f)対応する処理済みのフレームが類似した透かしを有するかどうかを判定するステップと、
をさらに備える、請求項1記載の方法。
【請求項23】
前記元の映像シーケンスと前記処理済みの映像シーケンスとの間の1つ以上のずれを補正するため前記処理済みの映像シーケンスを調整するステップをさらに備える、請求項1記載の方法。
【請求項24】
前記1つ以上のずれが空間的なずれとヒストグラム的なずれのうちの少なくとも一方を含む、請求項23記載の方法。
【請求項25】
前記1つ以上のずれが空間的なずれとヒストグラム的なずれの両方を含む、請求項24記載の方法。
【請求項26】
プログラムコードが機械によって実行されるときに、前記機械が複数の元のフレームを備える元の映像シーケンスと複数の処理済みのフレームを備える処理済みの映像シーケンスとの間の対応関係を特定する方法を実施する、前記プログラムコードが符号化された機械読み取り可能な媒体であって、
前記方法が、
(a)前記処理済みの映像シーケンスを、各処理済みのセットが1枚以上の処理済みのフレームを有する複数の処理済みのセットに分割するステップと、
(b)処理済みのセットごとに、元のセットのそれぞれが1枚以上の元のフレームを備え、2セット以上の元のセットが少なくとも1セットの処理済みのセットに対して特定される、1セット以上の元のセットを前記元の映像シーケンスから特定するステップと、
(c)処理済みのセットのそれぞれに対応する元のセットごとに、前記対応する処理済みのセットを近似するマッピングされたセットを前記元のセットに対して定義し、前記マッピングされたセットと前記対応する処理済みのセットとの間のローカル予測誤差を最小化するマッピングを生成するステップと、
(d)処理済みのセットごとに、前記処理済みの映像シーケンスに対する累積された予測誤差を最小化するマッピングを有する前記元のセットを選択するステップと、
を備える、
機械読み取り可能な媒体。
【請求項27】
複数の元のフレームを備える元の映像シーケンスと複数の処理済みのフレームを備える処理済みの映像シーケンスとの間の対応関係を特定する装置であって、
(a)前記処理済みの映像シーケンスを、各処理済みのセットが1枚以上の処理済みのフレームを有する複数の処理済みのセットに分割する手段と、
(b)処理済みのセットごとに、元のセットのそれぞれが1枚以上の元のフレームを備え、2セット以上の元のセットが少なくとも1セットの処理済みのセットに対して特定される、1セット以上の元のセットを前記元の映像シーケンスから特定する手段と、
(c)処理済みのセットのそれぞれに対応する元のセットごとに、前記対応する処理済みのセットを近似するマッピングされたセットを前記元のセットに対して定義し、前記マッピングされたセットと前記対応する処理済みのセットとの間のローカル予測誤差を最小化するマッピングを生成する手段と、
(d)処理済みのセットごとに、前記処理済みの映像シーケンスに対する累積された予測誤差を最小化するマッピングを有する前記元のセットを選択する手段と、
を備える装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公表番号】特表2007−515845(P2007−515845A)
【公表日】平成19年6月14日(2007.6.14)
【国際特許分類】
【出願番号】特願2006−532314(P2006−532314)
【出願日】平成16年3月5日(2004.3.5)
【国際出願番号】PCT/US2004/006839
【国際公開番号】WO2004/110051
【国際公開日】平成16年12月16日(2004.12.16)
【出願人】(599134012)サーノフ・コーポレーション (59)
【Fターム(参考)】