説明

画像のシーケンスを処理する方法および装置、記憶媒体ならびに信号

【課題】画像の第1のシーケンス及び画像の第2のシーケンスを処理して、該第1のシーケンスと該第2のシーケンスとを比較する方法及び装置を提供する。
【解決手段】(i)画像内の複数の画素近傍集合のそれぞれに対する画像データを処理して、該画素近傍集合のそれぞれに対する少なくとも1つの記述子要素を生成すること、及び、(ii)記述子要素から全体画像記述子を形成することによって、第1のシーケンスの各画像、及び第2のシーケンスの各画像が処理される。比較されている画像のそれぞれの全体画像記述子間の距離を計算することによって、第1のシーケンス内の各画像と、第2のシーケンス内の各画像とが比較される。距離は行列内に配列され、該行列が処理されて類似画像が特定される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、類似ビデオセグメントの検出のための方法、装置、及びコンピュータプログラム製品に関する。
【背景技術】
【0002】
近年、消費者がアクセスすることができると共に自身のビデオライブラリ内に保持するデジタルビデオデータの量が急激に増大している。これらのビデオは商用のDVD及びVCD、パーソナルカムコーダによる記録、放送からHDDシステム及びDVRシステムへの直接の録画、パーソナルコンピュータ又は移動電話又はPDA又はポータブルプレイヤ上でのビデオダウンロード等の形態をとることができる。このデジタルビデオライブラリの発展は継続すると共に、Blu−Rayのような新規の大容量技術がますます利用可能になることによって加速すると予測される。しかしながら、このようにビデオ資料が多量にあることが、ユーザにとって問題にもなっている。ユーザは、自身のビデオコレクションを管理することがますます困難になっていると感じている。このことに対処するために、ユーザが自身のビデオコンテンツ、及びビデオのカテゴリ化、要約、探索等のような機能に効率よくアクセスすることを可能にする、新規の自動ビデオ管理技術が開発されている。
【0003】
発生する1つの問題は、類似のビデオセグメントを特定する必要があることである。潜在的な用途は、たとえば、ビデオの大きなデータベース内でユーザによって提供される短い断片の識別に基づく、反復するビデオセグメント(たとえばTV局CM(TV-station jingles))の識別、及びビデオデータベース検索を含む。別の潜在的な用途は、コマーシャルの前後で繰り返されるビデオセグメントの識別である。
【0004】
「Identifying repeating video sections by comparing video fingerprints from detected candidate video sequences」と題する特許文献1において、コマーシャルの時間を特定する手段として、反復シーケンスを特定する方法が発明されている。最初に、ハードカット(hard cuts)、フェード(fades)、及び音量変化の検出によって、候補セグメントが特定される。特定数のハードカット/フェードが特定されるときは常に、候補セグメントが考慮され、記憶される。該候補セグメントは、後続の特定された候補セグメントと比較されることになる。比較は、可能性のある実施形態の集合からの特徴、すなわち音量、カラーヒストグラム、カラーコヒーレンスベクトル、エッジ変化比、及び動きベクトル長を使用して実施される。
【0005】
この方法に伴う問題は、まずセグメントが特定され、次いで他のセグメントと比較されるために、該方法が、セグメントとその隣接セグメントとの間の明瞭な境界に依存することである。また、部分的反復(すなわち、セグメントの1つのセクションのみが反復される)を検出することができない。さらに、カラーコヒーレンスベクトルが提供する空間情報はごくわずかであり、したがって、フレーム間マッチングには適切でない。最後に、示唆されている特徴のうちのいくつかは非圧縮ビデオでは利用可能でなく、したがって、アドホックに計算しなければならず、それによって計算要件及び時間的要件が顕著に増大する。
【0006】
「Repeat clip identification in video data」と題する特許文献2において、ビデオデータ内の反復クリップを特定する方法及びシステムが提示されている。この方法は、
ビデオデータを、内容に基づくキーフレームサンプリングを利用して順序付けされたビデオ単位に分割することであって、各ビデオ単位は2つの連続するキーフレーム間にシーケンスインターバルを含む、分割することと、
各ビデオ単位に対するフィンガープリントを作成することと、
少なくとも2つの連続するビデオ単位を、時間インデックスを付された1つのビデオセグメントにグループ化することと、
ビデオセグメント同士の相関に基づいて反復クリップインスタンスを特定することと
を含む。
【0007】
ビデオは最初に走査されて、各フレームに対してカラーヒストグラムが計算される。所与の閾値に従って2つのフレーム間のヒストグラムの変化が検出されると、2番目のフレームがキーフレームとしてマークされる。1つのキーフレームと次のキーフレームとの間のフレームの集合がビデオ単位を構成する。次いで、単位レベルのカラーシグニチャ、及びフレームレベルのカラーシグニチャが抽出される。さらに、単位の時間的長さも特徴として考慮される。次いで、少なくとも2つの連続するビデオ単位が結合して、1つのセグメントが形成される。これは、ビデオ内の他の各セグメントと比較される。単位レベルのシグニチャに関するL1距離及び時間長が計算され、それらの双方が固定の閾値を下回る場合、マッチが検出され、相関行列内の対応する点が1(そうでない場合は0)に設定される。その結果、連続する1はマッチするセグメントの連続を示す。フレームレベルの特徴は後処理検証ステップとしてのみ使用され、適切な検出プロセスでは使用されない。
【0008】
特許文献2における技法に伴う1つの欠点は、該技法がビデオ単位に基づいていることであり、ビデオ単位が、不均一にサンプリングされる、内容に基づくキーフレーム間のビデオであることである。したがって、単位は、たとえば1つのショット以上の重要な構造要素である。非常に静的なビデオ内容又は非常に動的なビデオ内容の存在下では、キーフレーム抽出プロセス自体が不安定になり、検出する単位が少なすぎるか又は多すぎるため、これは重大な問題である。また、マッチしているがわずかに異なってもいるビデオセグメント(たとえば、テキストオーバーレイや子画面表示(small picture-in-picture)の追加等によるもの)に関して、キーフレーム抽出はまた不安定になり、非常に異なった単位を検出する場合がある。ここでは、セグメントは2つ以上の単位をグループ化したものと定義され、セグメントレベルで類似度指標が適用される。すなわち、類似度は単位対のレベルで検出される。そのため、この発明は、比較的長いセグメント、たとえば複数のショット群のマッチングを目標としており、数フレームのみにわたって継続するアドホックなセグメントには適用することができないという点において、非常に限定されている。この文献の著者らはこのことを認識しており、この問題はたとえば1秒当たり2つ以上のキーフレームをサンプリングすることを想定することによって対処することができると主張している。しかしながら、これは、内容に基づくサンプリングではなく、均一なサンプリングによってのみ達成することができる。この事例において発生する主要な問題は、ビデオ単位レベルの特徴によって、フレームレート変化に対するすべてのロバスト性が失われることである。すべての事例において、この方法の基本的な欠点は、固定の閾値に基づいてセグメント(すなわち、単位対)の類似度に関する判断を行うが、隣接するセグメント同士がどのような類似度レベルを示すかを考慮に入れないという点である。2値相関行列が提供するマッチングの記述は粗すぎる場合があり、その結果、(たとえばノイズの存在に起因して)過剰な数の1がもたらされる。次いで、マッチするセグメントの線形シーケンスが探索される。キーフレームサンプリングが不均一であることによって、マッチする単位対のこれらのラインは不連続であると共に、中断があり且つ非共線の(non-collinear)セグメントから成っている場合があり、これらのすべての事例に対処するために複雑なライン追跡アルゴリズムが利用される。また、フレームレベルの特徴が利用可能であるが、これらはすでに検出されたマッチするセグメントの検証にしか使用されず、マッチするセグメントの実際の検出には使用されない。
【0009】
一般に、この従来技術は、類似度が非常に高く、且つ隣接するセグメントとの境界が明瞭な、長さの等しいセグメントの識別を主に対象にしている。この状況によって、このような方法の適用を、反復されるコマーシャル(通常、鮮鋭な境界(たとえば、コマーシャル前後のわずかな黒いフレーム)、特有の音量、及び等しい反復の長さによって特徴付けられる)の識別に対して無理なく適切とすることができる。しかしながら、この従来技術は、より恣意的な用途に対処するのに必要な一般性を欠いている。
【0010】
対処されていない1つの問題は、さらに短いセグメントの部分的反復、すなわちセグメントの一部分のみが反復されることである。この事例では、セグメント長を識別のための特徴/フィンガープリントとして使用することは不可能である。
【0011】
対処されていないもう1つの問題は、2つのセグメントうちの一方にテキストオーバレイが存在する場合や、2つのセグメントうちの一方に線形/非線形の歪み(たとえば、ぼやけ、若しくは輝度/コントラスト/彩度の変化)が存在する場合である。より一般的な用途を考える場合には、このような歪みを考慮に入れなければならない。
【0012】
「method for mining content of video」と題する特許文献3において、ビデオ信号内の類似のセグメントを検出する方法が示されている。未知かつ任意の内容及び長さのビデオが特徴抽出を受ける。特徴は、音声及び映像ベースのもの(たとえば、MPEG−7記述子のような、動きの活発さ、色、音声、テクスチャ)とすることができる。特徴の経時変化(feature progression in time)が時系列を構成する。該時系列の各点間(又は多次元時系列の各ベクトル間)のユークリッド距離を使用して、この時系列から自己距離行列が構築される。特許請求の範囲において、他の測度(具体的にはドット積(角度距離)及びヒストグラムインターセクション)が言及されている。複数の特徴(たとえば、音声、色等)が考慮されるか否かにかかわらず、各特徴に関して、距離行列内で経路を発見する方法が独立に適用される。その後、結果として特定されたセグメントが融合される。
【0013】
該方法は、動的プログラミング技法を使用して対角行列内の対角線又はほぼ対角線の経路を発見する、すなわち、適切なコスト関数によって規定される最小コストの経路を発見する。このコスト関数は、距離行列において、2つのフレーム間のマッチが「良い」(距離が近い)又は「悪い」(距離が遠い)と考えられる場所を規定する固定の閾値を含む。したがって、その値が閾値を上回る点は考慮されず、一方で、距離行列内の、その値が閾値を下回るすべての点が考慮される。その後、連続する経路(近い終点)が接合され、部分的に又は完全に重なり合う経路が併合される。接合及び併合の後、(終点間の特定の距離を下回る)短い経路が除去される。
【0014】
特許文献3における技法に伴う1つの欠点は、動的プログラミングを適用して距離行列内の線形パターンを探索することが、非常に計算集中的になる場合があることである。さらに、動的プログラミングは、距離行列内の、特定の固定された閾値下に入るすべての点に対して適用されることを考慮する必要がある。この固定の閾値によって、候補点の数が非常に多く又は少なくなる場合がある。ビデオ内のセグメントの自己相似性が強い、すなわち、セグメント内のフレームが非常に類似している場合に、多数の点が生成される。この事例では、固定の閾値が高すぎると、追跡するには現実的でない多数の点が生成され得る。
【0015】
ある反復セグメントが偶然にも同一のフレームのみから成る場合には、第1のセグメントの点と第2のセグメントの点とを接続するすべての対角経路が同じコストをもたらすことになるため、最小コスト経路を発見する問題が不良設定となる可能性がある。これによって、非常に多数の平行パターンが生成されることになる。これらのパターンの一例を図4に示す。該発明は自己相似性の強い領域によって生成される平行セグメントのグループを併合する方法を提供しない。
【0016】
他方、強い非線形編集(たとえば、テキストオーバレイ、ぼかし、増光/減光(brightening/darkening))の存在下では、フレーム間の距離が固定閾値を超えて増大する場合があり、結果として、候補点の数が不十分になる。
【0017】
複製されたセグメントが部分的に編集される場合(たとえば、セグメントのいくつかのフレームがぼけ、又はテキストオーバレイを伴って複製される場合)、別の問題が生じる場合がある。この場合、最小コストの経路内に中断が生成され、結果として、2つのセグメントが意味的につながっている場合であっても、該2つのセグメントが分離することになる。
【0018】
特許文献2及び特許文献3の双方に伴うもう1つの問題は、距離行列の計算及びその基礎となる記述子の記憶の複雑度及びコストである。このため、リアルタイム又はより高速の演算が要求される場合にはシーケンスを非常に大きくすることができない。
【先行技術文献】
【特許文献】
【0019】
【特許文献1】英国特許出願公開第2444094号明細書
【特許文献2】国際公開第2007/053112号パンフレット
【特許文献3】国際公開第2004/040479号パンフレット
【発明の概要】
【発明が解決しようとする課題】
【0020】
これらの問題を緩和して、大きなシーケンス、たとえば番組(program)全体の高速処理を可能にする方法が必要とされている。
【課題を解決するための手段】
【0021】
本発明の特定の態様を添付の特許請求の範囲に記載している。他の態様は下記の実施の形態に記載しており、当業者であれば本明細書を読むことによって理解されよう。
【0022】
本発明の一実施の形態は、類似のビデオセグメントを検出する新規の方法及び装置を提供する。この実施の形態は、
‐ハミング距離によって比較することができる低コストの2値記述子によってフレームを記述し、それによってハミング距離行列が生じ、計算コストが大幅に節約される。
‐距離行列内の点の小さな部分集合に関する距離行列内の線パターンを発見する。これらは、距離行列に対する極小値である点、又は極小値に隣接する点であり、ここで極小値は距離行列の一次導関数又は二次導関数の有限差分近似によって規定される。
・これらの点はさらに処理され、その値が特定の閾値を下回る点のみが保持される。この閾値は、距離行列の1列あたりに発見される極小値の数に従って適応的に決定される。すなわち、(発見される場合は)最小数以上且つ最大数以下の極小値が保持されることを保証する。
・さらに、同一又はほぼ同一の極小値のシーケンス(すなわち、自己相似性の強いゾーンを表す局所的な谷(valley))が発見されるときは常に、谷内の選択された点のみを発見及び維持する方法が提供され、それによって、生成される平行パターンの数が低減される。
・そうすることによって、本方法は、ハミング距離行列において潜在的に有効なマッチの数を最小化することによって計算的労力を最小限に抑えるため、国際公開第2004/040479号パンフレットに対して大きな利点を有する。
‐自己相似性が高いセグメントによって生成される複数の平行パターン(距離行列内の谷)をなくす方法を提供する。
‐輝度シフト、テキストオーバレイ、及び非線形編集(たとえば、ぼかし)に対してロバストであり、極小値に対する適応的閾値を介して弱い類似度を検出する。
‐ヒステリシス的閾値接合方法を介して分離したセグメントを接合する方法を提供することによって、セグメントの部分的な非線形編集に対してロバストである。
‐圧縮MPEGビデオストリーム及び非圧縮ビデオに対して動作することができる。圧縮MPEGストリームのIフレームのみに対して動作することができ、したがってビデオストリーム内のPフレーム及びBフレームの復号を必要としない。したがって、本方法はビデオの時間的にサブサンプリングされたバージョンに対しても動作することができる。
‐DC又はサブDCのフレーム解像度に対して動作することができ、したがって、計算的労力及びメモリ要件が最小限に抑えられ、フレームをその最大解像度まで復号する必要がない。
‐マルチレベル空間変換に基づいて、各個々のフレームに対する特徴のコンパクトなベクトルに対して動作する。
‐フレーム内の詳細及び高周波の空間的内容を類似性の測度として利用する。
‐フレーム間マッチングに基づいており、分析前のフレームのグループ化を必要としない。
‐音声追跡、遷移/ハードカット/シーン変化の検出、動的内容分析に依存しない。
‐セグメントの長さを等しくするか又は同様とすることを必要としない。
‐フレームレート変化に対してロバストである。
‐ごくわずかな誤検出で高い再現率を有する。
【0023】
より詳細には、2つのビデオシーケンスが与えられると、本発明の一実施の形態は、各シーケンスの各フレームに対して処理を実施し、
‐マルチレベルの輝度及びクロミナンスの内容(平均値/ローパス)及び相互関係(差分/ハイパス)をキャプチャーするマルチレベル変換に基づいて、コンパクトで計算効率的な記述子を計算する。
‐記述子の要素を2値化する。
‐一方のシーケンスの複数のフレームと、他方のシーケンス内の全フレームとの間のマッチングスコアを、対応する記述子の2値距離にしたがって計算し、その結果をハミング距離行列内に記憶する。
‐不明確な/不完全な/複数のマッチング及び粗いサンプリングに対処するための連続性情報を保存する距離行列内の行及び/又は列に沿って、極小値を発見する。
‐対角経路にわたる連続する最小値および隣接する最小値のシーケンス、連結位置不整合(tacking misalignment)、ならびにマッチの看過を検出し、それらを、それらの全体のマッチングスコアに従って評価する。
【0024】
これより本発明の実施形態を、添付の図面を参照して例示としてのみ説明する。
【図面の簡単な説明】
【0025】
【図1】一実施形態における処理動作を示すフローチャートである。
【図2】一実施形態における処理動作を示すフローチャートである。
【図3】極小値及び谷点の検出を示す図である。
【図4】直線上にある極小値の検出を示す図である。
【図5】ヒステリシス的線セグメント(hysteretic line segment)接合アルゴリズムを適用する処理動作の流れ図である。
【図6】処理の結果の一例を示す図である。
【図7】処理動作を実施する処理装置の一実施形態を示す図である。
【発明を実施するための形態】
【0026】
これより、本発明の一実施形態における処理装置によって実施される方法を説明する。本方法は、いくつかの処理動作を含む。本明細書の末尾において説明するように、これらの処理動作は、ハードウェア、ファームウェア、コンピュータプログラム命令に従って動作する処理ユニット、又はそれらの組合せを使用する処理装置によって実施することができる。
【0027】
2つのビデオシーケンスSa及びSbが与えられると、一実施形態において実施される処理は、2つのシーケンス間における類似のセグメントを発見する。
【0028】
本実施形態によれば、ビデオフレーム
【0029】
【数1】

【0030】
は、任意の適切な色空間におけるそれらの画素値(たとえば、RGB空間又はYUV空間においてはC=3、又はグレイスケール画像に対してはC=1)によって、又はそれらから導出される任意の適切な記述子において記述することができる。
【0031】
本発明の1つの実施形態では、Sa及びSb内の各フレームをその画素値によって記述する。本発明の好ましい一実施形態(図1)では、YUVカラーチャネル内のフレームのハイパス内容及びローパス内容をキャプチャーする記述子によって、Sa及びSb内の各フレームを記述する(ステップS1)。
【0032】
このような記述子は、相互参照によりその全内容が本明細書に援用される、欧州特許出願公開第1640913号明細書及び欧州特許出願公開第1640914号明細書に記載の技法を使用して計算することができる。たとえば、このような記述子は、Haar変換又はDaubechiesのウェーブレット変換のようなマルチ解像度変換(MRT)を使用して計算することができる。好ましい一実施形態では、慣習的なより高速の変換を使用する。これは、2×2画素ウィンドウ上でローカルに計算されるものであり、以下のように定義される。
【0033】
【数2】

【0034】
Haar変換と同様に、このMRTは、寸法がNもMも2の累乗である再サンプリングされたフレーム内の、重なり合わないすべての2×2ウィンドウに対して適用される。N×MフレームF(n,m)について、各カラーチャネルcに対して、(N×M)/4個のLPc要素と、(3×N×M)/4個のHPc要素とが生成される。次いで、これを既に計算されたLPc要素に適用して、最終的に、1つのカラーチャネルあたり1つのみのLPc要素及び(N×M−1)個のHPc要素が残るまで同様に続ける。
【0035】
各フレームF(n,m)について、LP要素及びHP要素又はそれらの適切な部分集合を、ベクトル(以下、「記述子」と称する)Φ=[φd](d=1...D)内に配列sる(ステップS2)。ここで、各要素φdはLP成分及びHP成分の適切な部分集合に属する(たとえば、D=C×N×M)。
【0036】
次いで、ベクトルφdの各要素を、その最上位ビット(MSB)の値に従って2値化(量子化)する(ステップS3)。
【0037】
【数3】

【0038】
本発明の異なる実施形態では、異なるフレーム記述子、又は各記述子の異なる要素は、個々の2値化(量子化)パラメータ(たとえばMSB選択、局所センシティブハッシング(locality sensitive hashing)(たとえば、Samet H.著「Foundations of Multidimensional and Metric Data Structures」(Morgan Kaufmann, 2006)に記載)、等)を受ける。
【0039】
a=[F(a)i](i=1...A)内の各フレームF(a)iと、Sb=[F(b)j](j=1...B)であるSb内の各フレームF(b)jとを、それぞれの2値化された記述子のハミング距離δijによって比較する。
【0040】
要素δijを距離行列内に配列する(ステップS4)。
【0041】
【数4】

【0042】
本発明の好ましい実施形態(図2)では、Δの各列(ステップS5)について、極小値μを探索する(ステップS6)。極小値は、検討中の列の一次導関数におけるゼロ交差であって二次導関数が正となるものとして定義される。一般的な手法は、列を平滑な微分可能曲線(たとえば、高次多項式)を用いて補間し、その後、一次導関数及び二次導関数を計算するために、該曲線を2回解析的に微分する。より実際的な手法は、一次導関数を、平滑且つ有限の差分の組合せとして計算する。1つの実施形態では、計算コストを最小限に抑えるために、一次有限差分と二次有限差分との暗黙の組合せ(implicit combination)を実施し、ここで、極小値は(列ごとの)先行する値及び次の値の方が高い場合に発見される(ステップS6)。
【0043】
【数5】

【0044】
Δのi番目の行に表れる、j番目の列の極小値μijは、フレームF(a)iが、その列ごとの近傍集合(neighbourhood)
【0045】
【数6】

【0046】
内でF(b)jと最も類似していることを示す。上述の単純な極小値発見手順では、この近傍集合は
【0047】
【数7】

【0048】
として定義される。したがって、極小値μijがj番目の列内で大域的でもある場合には、フレームF(a)iがF(b)jに対する最良のマッチであることを示す。極小値を閾値に対して評価する(ステップS7)。このアルゴリズムは、その値が十分に小さい極小値、すなわちSa及びSb内の対応するフレーム間の十分に強いマッチを暗示する極小値のみを保存する。
【0049】
S7における閾値は、少なくとも最小量mmの極小値及び多くとも最大量Mmの極小値が保持されるように、適応的に計算される。しかしながら、ステップS6において発見される極小値の数がmmよりも小さい場合、閾値はその後、それらのすべてを保存するように適合される。
【0050】
各極小値μについて、谷点(valley points)の集合Vを発見する(ステップS8)。これらは、(Δ内の列ごとの)対応する極小値の直上及び直下の、極小値でない複数の点として定義される。すなわち、以下の通りである。
【0051】
【数8】

【0052】
ここで、vは(3のような)デフォルトのパラメータであるか、又は代替的にヒューリスティックに規定される。Vの目的は、各μの近傍集合内の連続性情報を提供し、ひいては、任意の形態のサンプリング、非線形編集から生じる、不連続性及び非共線性(これらは、一般的には2つのシーケンスSaとSbとの間の「強い」マッチングを欠く)を利用することである。
【0053】
谷点を閾値に対して評価する(ステップS9)。アルゴリズムは、谷点のうちその値が十分に小さいもののみ、すなわち、Sa及びSb内の対応するフレーム間の十分に強いマッチを暗示する谷点のみを保存する。
【0054】
極小値及び谷点を、まとめて候補マッチングセグメント点πと命名する(ステップS10)。πの一例を図3に示す。図3では、極小値は円で示されており、谷点は×印として示されている。
【0055】
本発明の異なる実施形態では、極小値及び谷点を距離行列の列ではなく行に沿って同様に探索することができることは留意されたい。本発明のさらに別の実施形態では、極小値及び谷点を、距離行列の双方の次元において同様に探索することができる。
【0056】
線セグメント探索アルゴリズムをπの集合に適用する(ステップS11)。その原理は、SaのビデオセグメントがSb内で反復されている場合、これがΔ内に、θ=tan-1(ρa/ρb)に方向付けられている線セグメントσ内に配列された連続する(隣接する)πの集合を生じることであり、ここでρaはSaのフレームレートであり、ρbはSbのフレームレートである。SaからSbまででフレームレートが変化しない場合、ρa=ρb且つθ=45度ということになる。
【0057】
したがって、谷点Vは、ノイズの存在に起因して、又は何らかの粗い時間サンプリングに起因する不完全なマッチングに起因して生じる、あらゆる間隙を埋める役割を果たす。線セグメント探索アルゴリズムの一例を図4に示す。
【0058】
本発明の好ましい一実施形態では、線セグメント探索に加えて、ヒステリシス的線セグメント接合アルゴリズムを続けて行う(図5)。これは、局所的な非線形編集、ノイズ、サンプリング又は不正確なマッチングから生じ得る、線セグメント間の間隙をさらに埋める役割を果たす。共線である(collinear)2つの線セグメントが、それらの近位端間で、Δ内の点の数でみた所与の距離よりも近い場合(ステップS12)、対応する中間δ値の平均をとる。この平均値
【0059】
【数9】

【0060】
が所与の閾値よりも低く、したがってSa及びSb内の中間フレーム間の十分なマッチングを示す場合、2つの線セグメントを連結する(ステップS13)。
【0061】
好ましい一実施形態では、線セグメントσ(ステップS14)、すなわちマッチするビデオセグメントを、以下のように計算されるΔ内のそれらの平均値に従って検証する。
【0062】
【数10】

【0063】
ここで、L(σ)は線セグメントσの長さ(πの数)である(ステップS15)。所与の閾値よりも高い
【0064】
【数11】

【0065】
をもたらす線セグメントを、誤ったマッチとして破棄する。これは、高い
【0066】
【数12】

【0067】
はフレームの不十分なマッチングを表すためである(図5)。
【0068】
好ましい一実施形態では、曖昧性解消手順(AR)を利用して複数のマッチ及び曖昧な結果を除去する。最終結果の一例を図6に示す。
【0069】
ARは以下のように2つのステージにおいて動作する。
【0070】
[ステージ1:シャドウ除去]
1.線セグメントをそれらの長さに従ってソートする。より長い線セグメントを最初に考慮する。各線セグメントσは「方形シャドウ」ζ(σ)を射影する、すなわち、その対角線がσである正方形の領域を規定する。σがその開始座標及び終端座標xxtart(σ)、xxtop(σ)、yxtart(σ)、yxtop(σ)によって規定されるとき、点π=(xπ,yπ)は以下の場合にσによってシャドーイングされる(shadowed)。
【0071】
【数13】

【0072】
したがって、線セグメントσaは以下の場合にσbによってシャドーイングされる。
【0073】
【数14】

【0074】
自明的に、以下のようになる。
【0075】
【数15】

【0076】
2つの線セグメント間の部分的なシャドーイングは、1つの線セグメントからの点の部分集合のみが他の線セグメントによってシャドーイングされ、また逆もあることを暗示する。この事例では、相対的な長さに関して仮定を引き出すことはできない。
【0077】
2.より長い線セグメントσlongerによってシャドーイングされる線セグメントσshorterを除去する。しかしながら、σshorterがσlongerによって部分的にしかシャドーイングされない場合には、点πshorter=π∈σshorter:πshorter∈ζ(σlonger)のみが除去される。しかしながら、σshorterの長さ(又は代替的にそのシャドーイングされる部分の長さ)がσlongerの長さの半分以上であり(すなわちL(σshorter)≧L(σlonger)/2であり)、且つσshorterの平均値(又は代替的にそのシャドーイングされる部分の平均値)がσlongerの平均値よりも低い場合、すなわち
【0078】
【数16】

【0079】
である場合(したがって、σshorterがそれぞれのビデオシーケンスに対するより良好な平均マッチを推定する場合)には、σshorterによってシャドーイングされるσlongerのこれらの点(すなわち、これらの点πlonger=π∈σlonger:πlonger∈ζ(σshorter))が除去され、この手順が反復される。
【0080】
[ステージ2:複数のマッチ]
本発明の1つの実施形態では、Sa内の(Sb内の)2つ以上のビデオセグメントがSb内に(Sa内に)同じマッチを有する事例を考慮する。Δ内の対応する線セグメントは、それらが「競合して」Sb内の(Sa内の)同じフレームをSa内の(Sb内の)異なるフレームに関連付けているとして、競合していると言われる。自明的に、競合している線セグメントは互いにシャドーイングしない(これは最終的にはステージ2によって対処されることになる)。2つの線セグメントσ1、σ2が与えられると、σ1は以下の場合にσ2と競合していると言われる。
a内の同一のセグメントについて競合している:
【0081】
【数17】

【0082】
b内の同一のセグメントについて競合している:
【0083】
【数18】

【0084】
競合するフレームセグメントが発生する場合があるが、競合する線セグメントの存在は実際にはアルゴリズムによる誤った結果を表す場合があり、従ってそれらは以下のように評価される。
【0085】
1.すべての競合する線セグメントσの平均値
【0086】
【数19】

【0087】
を考える。最初に、最低の
【0088】
【数20】

【0089】
をもたらすものを真の(勝者)マッチσwinnerとみなす。
【0090】
2.任意の他の競合する線セグメントσが、勝者平均
【0091】
【数21】

【0092】
からのある上界内の
【0093】
【数22】

【0094】
をもたらす場合、すなわち
【0095】
【数23】

【0096】
(ここで、κ>0は適切な閾値である)である場合、σはσwinnerの別のインスタンスであると考えられる。そうでない場合、σは誤検出であると考えられ、破棄される。
【0097】
本発明の異なる実施形態において、また目的の用途に従って、ステージ1若しくはステージ2のいずれか又はAR手順全体を省略することができる。
【0098】
本発明の1つの実施形態では、2つのビデオセグメントSa及びSbは同一、すなわちSa=Sb=Sであり、本方法は、S内の反復ビデオセグメントを発見することを目標とする。この事例では、Sb=Saであることによって、Δが対称であり且つ主対角線が大域的最小点の軌跡である(自己相似性)ことが自明的に暗示されるため、Δの上三角部分のみが処理を必要とする。そのため、線セグメントσ{xstart,xstop,ystart,ystop}が与えられると、xxtart<yxtart,xxtop<yxtopであることを保証する必要がある。さらに、自己相似性が検出されることを回避するために、いかなる検出された線セグメントも、Sa及びSb内の2つの重なり合わない時間インターバルを推定することを確実にする必要がある。換言すれば、yxtop<xxtartでなければならない、すなわち、Sb内の反復ビデオセグメントはSa内のそのコピーの終端の後に開始しなければならない。しかしながら、yxtart<yxtop,xxtart<xxtopであることから、条件yxtop<xxtartは、そのセグメントが上三角部分内にあることも暗示するという点で十分条件である。本発明の代替的な一実施形態では、距離行列の上三角部分の代わりに下三角部分を同様に処理することができる。
【0099】
本発明の異なる実施形態では、Sa及びSbを複数の記述子によって(たとえば異なるカラーチャネルに対して且つ/又はLP係数及びHP係数に対して別個に)記述することができ、この場合には結果として複数の距離行列Δがもたらされる。これは、色、明度、詳細、平均色/明度等における類似度に別個に対処することによって、フレーム間の類似度をより良好に利用するものと理解される。
【0100】
好ましい一実施形態では、YUV色空間を考え、Yチャネルに対するHP係数とLP係数とを分離し、Uチャネル及びVチャネルのLP係数のみを維持する。この結果として、3つの距離行列ΔY-HP、ΔY-LP、及びΔUV-LPがもたらされる。このような実施形態では、各距離行列を個々に処理することができる。たとえば、ΔY-HP上で発見される極小値及び谷点を、ΔY-LP及びΔL-HPにおけるそれらの値に従ってさらに検証することができる。同様に、線セグメントσを、3つの行列内のそれらの平均値に従って、すなわち、
【0101】
【数24】

【0102】
に従って検証することができる。
【0103】
本発明の異なる実施形態では、記述子要素は2値化されず、異なるビット数、たとえば2ビット又は3ビットに量子化され、その場合、ハミング距離の代わりに、適切な距離測度、たとえばL1が用いられ、これはハミング距離に対して一般に利用されているものと同様に、テーブルルックアップ動作を使用して効率的に実施することができる。
【0104】
本発明の異なる実施形態では、上記の複数の記述子のうちの1つ又は複数を、対応する部分の一部分、たとえば中央セクションのみから計算することができる。これによって計算コストを低減することができ、精度を向上させることができる。
【0105】
本発明の異なる実施形態では、フレーム記述子を空間的に且つ/又は時間的にサブサンプリングされたビデオから(たとえば低解像度ビデオフレーム表現から、またはフレームスキップを利用して)計算することができる。1つの実施形態では、Sa及び/又はSbはMPEG符号化され、フレームマッチングはIフレームのDC表現又はサブサンプリングされたDC表現に基づいて実施される。これは、ビデオ復号が必要なく、結果として計算効率が大幅に向上することを意味する。
【0106】
上述の処理動作を実施するデータ処理装置1を図7に示す。装置1は、たとえば、パーソナルデスクトップコンピュータ又はポータブルコンピュータとすることができる。
【0107】
装置1は、データ処理装置の従来の要素を備える。これらの要素は当業者に既知であるため、詳細な説明は必要ない。手短に、図7の装置1は、記憶媒体5又は信号7のようなコンピュータプログラム製品から、コンピュータプログラム命令と、処理されるビデオデータとを受信する入力データインタフェース3を備える。処理システムはたとえば、CPU9、ランダムアクセスメモリ11、及び読出し専用メモリ13(これらはバス15によって接続される)によって提供される。CPU9は動作全体を制御する。RAM11は、CPU9によって、プログラムを実行するために、また、プログラム及び他のデータを記憶するROM4を制御するために、使用される作業メモリである。装置1の処理装置は、本明細書において上述したように画像を規定する画像データを処理する方法を実施するように構成される。この処理の結果は出力インタフェース17によって出力される。
【0108】
上述の処理装置1はコンピュータプログラム命令に従って処理を実施するが、代替的な処理装置を、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの任意の適切な組合せとして、任意の適切な又は望ましい方法で実施することができる。本発明は、プログラム可能処理装置内にロードされ、該装置上で実行されると、上述の画像データ処理方法のうちの1つを実行するコンピュータプログラムとして具現化することもでき、また、コンピュータプログラム製品(たとえばこのようなコンピュータプログラムを記憶するデータキャリア)として具現化することもできることにさらに留意されたい。

【特許請求の範囲】
【請求項1】
画像の第1のシーケンス及び画像の第2のシーケンスを処理して、前記第1のシーケンスと前記第2のシーケンスとを比較する方法であって、
前記方法は、
(a)前記第1のシーケンスの各前記画像、及び前記第2のシーケンスの各前記画像について、
前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理することであって、前記画素近傍集合のそれぞれに対して少なくとも1つの記述子要素を生成する、前記画像データを処理すること、及び
前記記述子要素から全体画像記述子を形成すること、
(b)前記第1のシーケンス内の各前記画像と、前記第2のシーケンス内の各前記画像とを、比較される前記画像のそれぞれの前記全体画像記述子間の距離を計算することによって比較すること、
(c)前記距離を行列内に配列すること、並びに
(d)類似画像を特定するために前記行列を処理すること、
を含む、方法。
【請求項2】
各前記距離はハミング距離を含む、請求項1に記載の方法。
【請求項3】
各前記全体画像記述子は2値化された記述子要素から形成される、請求項1又は2に記載の方法。
【請求項4】
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
特定された極小値のそれぞれを閾値と比較することであって、前記閾値は、前記行列の行又は列ごとに特定される極小値の数に従って適応的に決定される、特定された極小値のそれぞれを閾値と比較すること、及び、前記閾値を下回る極小値を維持すること、並びに
前記維持された極小値に従って類似画像を特定すること、
によって、前記行列が処理されて類似画像が特定される、請求項1〜3のいずれか1項に記載の方法。
【請求項5】
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
前記行列値内の局所的な谷を検出すること、
前記局所的な谷内の前記点の部分集合を維持すること、及び
前記維持された点に従って類似画像を特定すること、
によって、前記行列が処理されて類似画像が特定される、請求項1〜3のいずれか1項に記載の方法。
【請求項6】
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
直線上にある極小値を特定するために線セグメント探索アルゴリズムを適用すること、
特定された線セグメント間の間隙を埋めるためにヒステリシス的線セグメント接合アルゴリズムを適用すること、及び
マッチする画像を特定するために前記処理の結果を使用すること、
によって、前記行列が処理されて類似画像が特定される、請求項1〜3のいずれか1項に記載の方法。
【請求項7】
画像の第1のシーケンス及び画像の第2のシーケンスを処理して、前記第1のシーケンスと前記第2のシーケンスとを比較する装置であって、
前記装置は画像記述子生成手段を備え、
前記画像記述子生成手段は、
前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理することであって、前記画素近傍集合のそれぞれに対して少なくとも1つの記述子要素を生成する、前記画像データを処理すること、及び
前記記述子要素から全体画像記述子を形成すること、
によって、前記第1のシーケンスの各前記画像、及び前記第2のシーケンスの各前記画像を処理するように構成され、
前記装置は比較手段を備え、前記比較手段は、前記第1のシーケンス内の各前記画像と、前記第2のシーケンス内の各前記画像とを、比較される前記画像のそれぞれの前記全体画像記述子間の距離を計算することによって比較するように構成され、
前記装置は、前記距離を行列内に配列するように構成される行列生成手段を備え、
前記装置は、類似画像を特定するために前記行列を処理するように構成される類似画像識別手段を備える
装置。
【請求項8】
前記比較手段は、比較される前記画像のそれぞれの前記全体画像記述子間の距離であってハミング距離を含むものを計算するように構成される、請求項7に記載の装置。
【請求項9】
前記画像記述子生成手段は、各前記全体画像記述子を2値化された記述子要素から形成するように構成される、請求項7又は8に記載の装置。
【請求項10】
前記類似画像識別手段は、
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
特定された極小値のそれぞれを閾値と比較することであって、前記閾値は、前記行列の行又は列ごとに特定される極小値の数に従って適応的に決定される、特定された極小値のそれぞれを閾値と比較すること、及び、前記閾値を下回る極小値を維持すること、並びに
前記維持された極小値に従って類似画像を特定すること、
によって、前記行列を処理して類似画像を特定するように構成される、請求項7〜9のいずれか1項に記載の方法。
【請求項11】
前記類似画像識別手段は、
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
前記行列値内の局所的な谷を検出すること、
前記局所的な谷内の前記点の部分集合を維持すること、及び
前記維持された点に従って類似画像を特定すること、
によって、前記行列を処理して類似画像を特定するように構成される、請求項7〜9のいずれか1項に記載の方法。
【請求項12】
前記類似画像識別手段は、
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
直線上にある極小値を特定するために線セグメント探索アルゴリズムを適用すること、
特定された線セグメント間の間隙を埋めるためにヒステリシス的線セグメント接合アルゴリズムを適用すること、及び
マッチする画像を特定するために前記処理の結果を使用すること、
によって、前記行列を処理して類似画像を特定するように構成される、請求項7〜9のいずれか1項に記載の方法。
【請求項13】
プログラム可能処理装置を、請求項1〜6の少なくとも1項に記載の方法を実施するように動作可能になるようにプログラミングする、コンピュータプログラム命令を記憶する記憶媒体。
【請求項14】
プログラム可能処理装置を、請求項1〜6の少なくとも1項に記載の方法を実施するように動作可能になるようにプログラミングする、コンピュータプログラム命令を搬送する信号。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2010−191955(P2010−191955A)
【公開日】平成22年9月2日(2010.9.2)
【国際特許分類】
【外国語出願】
【出願番号】特願2010−14280(P2010−14280)
【出願日】平成22年1月26日(2010.1.26)
【出願人】(501253316)ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ (77)
【氏名又は名称原語表記】MITSUBISHI ELECTRIC R&D CENTRE EUROPE B.V.
【住所又は居所原語表記】20 Frederick Sanger Road, The Surrey Research Park, Guildford, Surrey GU2 5YD, Great Britain
【Fターム(参考)】