説明

ビデオコピーを検知する技術

一部の実施形態は、高速のロバストな特徴量(SURF)軌跡構築と、LSH(local sensitive hash)索引付けと、時空間スケール登録とに基づくビデオコピー検知方法を含む。まず、関心点の軌跡をSURFにより抽出する。次に、効率的な投票に基づく時空間スケール登録方法を利用して、最適な変換パラメータ(シフトおよびスケール)を推定して、時空間およびスケール方向両方におけるビデオセグメントの伝播による最終的なビデオコピー検知結果を得る。検知速度を高めるために、LSH索引を利用して候補の軌跡を高速にクエリするために軌跡を索引付けする。

【発明の詳細な説明】
【技術分野】
【0001】
ここに開示する主題は概して、ビデオまたは画像コピーを検知する技術に係る。
【背景技術】
【0002】
インターネットおよび個人利用のビデオが益々利用しやすくなっている昨今では、著作権制御、ビジネスインテリジェンス、および広告監視等の研究分野としてビデオコピー検知が活発になっている。ビデオコピーは、通常は、シフト、クロップ、照明(lighting)、コントラスト、カムコード(例えば、幅/高さの比を16:9と4:3との間で変更する等)および/または再符号化する等によって追加、削除、および修正といった様々な変換技術を利用することで、別のビデオから得たセグメントのことである。図1は、ビデオコピーの幾つかの例を示している。具体的には、図1は、上の行に、左から右へと、それぞれ元のビデオ、ズームイン/ズームアウトされたバージョン、およびクロップされたビデオを示しており、下の行に、左から右へと、それぞれシフト、コントラスト、およびカムコードして再符号化処理を施したビデオを示している。再符号化には、異なるコーデックまたは圧縮品質を有するビデオの符号化が含まれる。これら変換は、ビデオの時空間スケールのアスペクトを変更するので、著作権制御およびビデオ/画像検索においてビデオコピー検知が非常に難しくなる。
【0003】
既存のビデオコピー検知処理は、フレームベース法とクリップベース法とに大別される。フレームベースの方法は、キーとなるフレームセットが、ビデオコンテンツの要約版であるということを前提としている。P.Duygulu氏、M.Chen氏、および、A.Hauptmann氏による「2つの新規な商用検知方法の比較および組み合わせ:Comparison and Combination of Two Novel Commercial Detection Methods」、Proc.CIVR'04(2004年7月)に記載されている技術によると、視覚特徴量のセット(色、エッジ、およびSIFT(スケール不変特徴量変換)特徴量)をこれらキーフレームから抽出している。ビデオコピークリップを検知するために、この技術では、これらキーフレームとのビデオセグメントの類似性を判断している。フレームベースの方法は、簡単であり効率的ではあるが、オブジェクトの時空間情報(例えば動きの軌跡)が失われることから、あまり正確ではないという欠点がある。加えて、2つのビデオセグメントをマッチングする統一キーフレーム選択スキームを考え付くのが難しい。
【0004】
クリップベースの方法では、一連のフレームから時空間特徴量を特徴付けようとする試みが行われる。J.Yuan氏、L.Duan氏、Q.Tian氏、およびC.Xu氏による「索引構造を利用する、高速およびロバスト、且つ短時間のビデオクリップ検索:Fast and Robust Short Video Clip Search Using an Index Structure」Proc.ACM MIR'04(2004年)に記載されている技術は、元のパターンヒストグラムおよび累積色分布ヒストグラムを抽出して、ビデオの時空間パターンを特徴付ける方法である。この方法は、ビデオフレームの時間情報を探すが、グローバルカラーヒストグラムでは、例えばクロップ、シフト、およびカムコード処理等の局所変換されたビデオコピーを検知することができない。
【0005】
J.Law−To氏、O.Buisson氏、V.Gouet−Brunet氏、Nozaha Boujemaa氏による「ビデオコピー検知のための行動のラベルに基づくロバストな投票アルゴリズム:Robust Voting Algorithm Based on labels of Behavior for Video Copy Detection」、マルチメディア国際会議(2006)に記載されている技術では、ビデオをビデオデータベース内の関心点の時空間軌跡との比較でテストするときに、非対称技術を利用して特徴点同士をマッチングさせる試みが行われる。この方法では、例えばシフト、照明、およびコントラストといった数多くのビデオコピー変換を検知することが可能となる。しかし、ハリス特徴点(Harris point feature)は、区別できず、大きさが不変でもなく、この技術が利用する時空間登録では、スケール関連の変換(例えばズームイン/ズームアウトおよびカムコード)を検知することができない。
【0006】
本発明の実施形態は、限定を意図しない例を利用して説明されるが、図面において、同様の参照番号は同様の部材を示している。
【図面の簡単な説明】
【0007】
【図1】ビデオコピーの幾つかの例を挙げている。
【図2】一実施形態におけるビデオコピー検知システムを示す。
【図3】一実施形態における、特徴点および軌跡のデータベースを作成するプロセスの一例を示す。
【図4】一実施形態におけるビデオコピーを判断するプロセスの一例を示す。
【図5】一実施形態における、一次元ビンの場合の最適オフセットを投票(voting)する一例を示す。
【図6】一実施形態における幾つかの映像クエリフレームから局所特徴量(local features)を検知する一例を示す。
【図7】システム性能を記述する作用特性曲線(ROC:operation characteristic curves)の受信を示す。
【発明を実施するための形態】
【0008】
明細書にわたり「一実施形態」あるいは「1つの実施形態」といった言い回しは、その実施形態との関連で記載されている特定の特徴量、構造、または特性が、本発明の少なくとも1つの実施形態に含まれていることを意味している。従って、「一実施形態」あるいは「1つの実施形態」といった言い回しがよく利用されているからといって、必ずしもそれらが同じ実施形態のことを言及している場合ばかりとは限らない。さらに、これら特定の特徴、構造、または特性は、1以上の実施形態では組み合わせることができる。
【0009】
様々な実施形態では、SURF(speeded up robust features:高速のロバストな特徴量法)による軌跡構築、LSH(Local Sensitive Hashing:場所に感度を有するハッシング)による索引付け、および投票ベースの時空間スケール登録に基づくビデオコピー検知方法が提供されている。
【0010】
SURFは、ビデオコピー検知における関心点の軌跡の特徴量を特徴付ける。様々な実施形態において、Law−To氏の文献に記載されているハリス特徴量を利用する方法よりもより良いパフォーマンスが発揮される。偽の正のフレームレートが10%である場合、ハリス法に基づく方法では、真の正のフレームレートは68%であるが、本発明の様々な実施形態では90%の真の正のフレームレートを達成することができる。SURF特徴法はハリス特徴点よりも識別力に優れており、Law−To氏の文献の結果に比べて、ズームイン/ズームアウトおよびカムコードといったスケール関連の変換におけるパフォーマンスが良好である。加えて、SURF特徴量抽出における速度は、SIFTの約6倍、且つ、ハリス特徴点方法とは同等である。
【0011】
LSH索引付け方法により、ビデオコピー検知における候補となる軌跡を高速にクエリすることができる。Law−To氏の文献では、LSH索引付けではなくて確率類似検索が利用されている。
【0012】
時空間スケール登録および伝播、並びにオフセットパラメータの統合により、最大累積登録スコアを有する、マッチングするビデオセグメントが検知される。Law−Toの文献に記載されている方法では、スケール変換の検知に弱い。離散オフセットパラメータ空間でこの投票ベースの登録を利用することにより、様々な実施形態で、時空間面およびスケール変換面の両方で(例えばクロップ、ズームイン/ズームアウト、スケーリングおよびカムコード処理等)検知を行うことができるようになる。
【0013】
図2は、一実施形態におけるビデオコピー検知システムを示す。このビデオコピー検知システムは、オフライン軌跡構築モジュール210とオンラインコピー検知モジュール250とを含む。プロセッサおよびメモリを有し、有線および無線技術を利用してネットワークに通信可能に連結される任意のコンピュータシステムを、オフライン軌跡構築モジュール210およびオンラインコピー検知モジュール250が担う処理を行うように構成することができる。例えば、映像クエリは、ネットワークを介してコンピュータシステムへと通信されてよい。例えばコンピュータシステムは、IEEE802.03、802.11、または802.16の一バージョンに準拠する技術を用いて、有線で、または1以上のアンテナを利用して、通信を行うことができる。コンピュータシステムは、表示デバイスを利用してビデオを表示してよい。
【0014】
オフライン軌跡構築モジュール210は、ビデオデータベースの各フレームからSURF点を抽出して、SURF点を特徴量データベース212に格納する。オフライン軌跡構築モジュール210は、関心点の軌跡を含む軌跡特徴量データベース214を構築する。オフライン軌跡構築モジュール210は、LSHを用いて、特徴量データベース212内の特徴点を、軌跡特徴量データベース214内の軌跡に対して索引付けする。
【0015】
オンラインコピー検知モジュール250は、映像クエリのサンプリングフレームからSURF点を抽出する。オンラインコピー検知モジュール250は、抽出したSURF点で、特徴量データベース212をクエリして、同様の局所特徴量を有する、候補の軌跡を特定する。軌跡特徴量データベース214内の候補の軌跡のうち、同様の特徴点に対応するものが、LSHを利用して特定される。
【0016】
映像クエリからの各特徴点について、オンラインコピー検知モジュール250は、投票ベースの時空間スケール登録法を利用して、映像クエリのSURF点と、軌跡特徴量データベース214内の候補の軌跡との間の、最適な時空間スケール変換パラメータ(つまりはオフセット)を推定する。オンラインコピー検知モジュール250は、時空間およびスケール方向の両面でマッチングしたビデオセグメント同士を伝播して、ビデオコピーを特定する。投票(voting)は、推定された関心点の時空間スケールの登録空間における累積である。時空間スケール登録空間は、x、y、tおよびスケールパラメータのシフトに対応して立方体に分割されている。x、y、t、およびスケールパラメータが所与であれば、各立方体内で見つかる関心点の数が投票としてカウントされる。投票された関心点が最も多い立方体がコピーとみなされる。投票に基づく時空間スケール登録法の一例を図6に示す。
【0017】
例えば、映像クエリQにおいて、M=100個のSURF点を、各P=20枚のフレームから抽出する。映像クエリQから選択されたフレームk上の各SURF点mについて、LSHを利用して、N=20個の最近傍の軌跡を、軌跡特徴量データベース214における候補の軌跡として見つける。実際には、M、P、およびNは、オンラインコピー検知における精度およびクエリ速度の間のバランスを考えて、調節することができる。各候補の軌跡nは、Rmn=「Id、Tra、Simmn」として記述することができ、本式においてIdは、軌跡特徴量データベース214のビデオIDであり、Traは、軌跡特徴量であり、Simmnは、(x、y)のSURF点と、候補の軌跡のSmean特徴量との間の類似度を示す。
【0018】
関連するビデオIdにより、候補の軌跡を、それぞれ異なるサブセットRIdに分類する。軌跡特徴量データベース214の各ビデオIDおよび選択されたクエリフレームkについて、高速で効率的な時空間スケール登録方法を利用して、最適な時空間スケール登録パラメータ:Ofset(Id、k)を推定する。最適なオフセット(Id、k)を取得した後に、時空間方向およびスケール方向両方で登録される可能性のあるビデオセグメントについての最適な時空間スケールオフセットを伝播して、急峻なオフセットを取り除き、最終検知結果を取る。
【0019】
ビデオコピー検知には数多くの変更が存在する。映像クエリQを同じソースからデータベースのビデオRとしてコピーする場合には、QおよびRのSURF点の間に「一定数の時空間スケールオフセット」が存在する。従って様々な実施形態においてビデオコピー検知の目的は、Qとの間に略不変のオフセットを有する、データベース内のビデオセグメントRを発見することである。
【0020】
図3は、一実施形態における、特徴点および軌跡からなるデータベースを作成するプロセスの一例を示す。一部の実施形態では、オフライン軌跡構築モジュール210は、プロセス300を実行してよい。ブロック302は、ビデオから、SURF(高速のロバストな特徴量)を抽出することを含む。SURFの一例は、H.Bay氏、T.Tuytelaars氏、L.Gool氏らの「SURF:高速化されたロバストな特徴量(Speeded Up Robust Features)」ECCV、2006年5月を参照のこと。様々な実施形態では、抽出する特徴量は、1フレームの局所特徴量である。
【0021】
様々な実施形態では、各関心点において、領域を、3×3の正方形のサブリージョンに均等に分割する。Haarウェーブレット応答(Haar wavelet response)dおよびdを各サブリージョンで合計して、各サブリージョンが、4次元の記述子ベクトルv=(Σd、Σd、Σ|d|、Σ|d|)を有するようにする。従って各関心点において、36次元のSURF特徴量が存在することになる。
【0022】
SURFは、Hessianベースの検知器を構築するHessianマトリクスの推定に基づく。SURFは、計算時間短縮のために積分画像を利用している。SURF抽出の速度は、SIFTの約6倍であり、ハリスの速度とは同等である。SURF特徴量は、ズームイン/ズームアウトおよびカムコードといったビデオコピー変換に対してロバストである。
【0023】
コンピュータビジョンおよび画像検索には、カラーヒストグラム、序数特徴量(ordinal features)、および局所特徴量(ハリスおよびSIFT等)等の数多くの特徴量が利用されている。ビデオコピー検知においては、全画像フレームのカラーヒストグラム特徴量といった大域特徴量は、局所変換(例えばクロップおよびスケール変換)の検知には利用できない。様々な実施形態では、局所特徴量がビデオをシフト、クロップ、またはズームイン/ズームアウトするときに変化しないことから、局所特徴量をビデオから抽出する手法を利用している。
【0024】
ブロック304では、軌跡データベースを構築して、ビデオデータベースの軌跡用の索引を生成する。ビデオデータベースの各フレームからSURF点を抽出した後で、これらSURF点を追跡して、そのビデオの時空間特徴量として軌跡を構築する。各軌跡は、Tra=「xmin、xmax、ymin、ymax、tin、tout、Smean」で表され、n=1、2、…Nであり、「xmin、xmax、ymin、ymax、tin、tout」は、時空間境界立方体(spatial-temporal bounding cube)を表しており、Smeanは、軌跡のSURF特徴量の平均値である。
【0025】
x、y方向に高速に移動する点については、その軌跡の空間位置を他から区別する用途に、軌跡立方体は大きすぎる。従って様々な実施形態では、これらの軌跡を幾つかの短期セグメントに分割することで、短い期間にすることで空間位置における軌跡立方体を十分小さくする。
【0026】
高速なオンラインビデオコピー検知については、Smean特徴量を利用して軌跡を索引付けする、LSHが利用される。例えば、Smean特徴量のクエリを生成して軌跡を索引付けする。LSHでは、特徴量空間が極僅か変化した場合であっても、それに比例してハッシュ値が変化する(つまり、ハッシュ関数が場所に感度を有する)。様々な実施形態では、E2LSH(Exact Euclidean LSH)を利用して軌跡を索引付けする。E2LSHは、例えばA.Andoni氏およびP.Indyk氏のE2LSH0.1ユーザ・マニュアル、2000年6月に記載されている。
【0027】
図4は、一実施形態におけるビデオコピーを判断するプロセス400の一例を示す。一部の実施形態では、オンラインコピー検知モジュール250は、プロセス400を実行することができる。ブロック402は、映像クエリフレームに関連する軌跡に基づいて投票ベースの時空間スケール登録を実行する。投票ベースの時空間スケール登録は、時空間スケールオフセット空間を、それぞれ異なるスケールおよび投票の3D立方体に適合的に分割して、同様のSimmnを対応する立方体へと投票する。適合的分割には、立方体サイズの変更が含まれる。各立方体は、可能性のある時空間オフセットパラメータに対応している。クエリフレームkについては、最大累積スコアを有する立方体(つまり、クエリフレームkの関心点を最も多く登録された軌跡を有する立方体)が、最適なオフセットパラメータに対応している。
【0028】
候補の軌跡Traの境界立方体は、間隔を置いた値のデータであり、時空間スケールパラメータオフセット(Id、k)も間隔を置いた値である。スケールパラメータスケールを「scale、scale」とすると、映像クエリの選択されたフレームk内のSURF点mと、軌跡データベースのビデオIdの候補の軌跡nとの間のOffsetscalemn(Id、k)は、以下のように表される。
【数A】

【0029】
例えば、scale=scale∈「0.6、0.8、1.0、1.2、1.4」として、ズームイン/ズームアウト等の一般的なスケール変換を検知する。他のスケール因子を利用することもできる。カムコード変換のscalexはscaleではないといったように、それぞれ異なるスケールパラメータを有するので、x、yスケールパラメータを、「scale=0.9、scale=1.1」、および、「scale=1.1、scale=0.9」と設定する。
【0030】
利用可能なオフセットであるOffsetscale(Id、k)は数千あり、時空間スケールオフセット空間は、直接リアルタイムに探すには大きすぎる。離散空間における投票パラメータへのHough変換利用に類似したものとして、様々な実施形態では、三次元アレイを利用して、離散時空間でOffsetscale(Id、k)のSimmnの類似スコアを投票することが行われている。スケールパラメータスケールが所与であれば、時空間検索空間{x、y、t}を適合的に、cube各々が基本投票単位である数多くの立方体に分割する。
【0031】
一部の実施形態では、x軸を、全ての候補の軌跡の開始点
【数B】

および終了点
【数C】

により、それぞれ異なるサイズの数多くの一次元ビンに適合的に分割する。間隔を置いた値の範囲Offsetmnがcubeと交差する場合に、各候補の軌跡Trajにおいて、類似度Simmnを累積する。適合的分割処理は、y軸およびt軸についても同様に行う。
【0032】
これら立方体に基づいて、ビデオIdとクエリフレームkとの間の最適な時空間登録パラメータOffsetscalemn(Id、k)により、互換性のあるクエリスコア(m、n、cube)の累積値を、以下の式を利用して最大化する。
【数D】

【0033】
ブロック404では、複数のフレームから決定されたオフセットを伝播および統合して、最適なオフセットパラメータを決定する。図6の説明では、最適なオフセットパラメータを決定するためにオフセットを伝播および合成する例が取り上げられた。異なる大きさの時空間スケールパラメータOffsetscale(Id、k)を判断した後で、これらOffsetscalemn(Id、k)パラメータを伝播および合成して、最終的なビデオコピー検知を行う。
【0034】
空間方向で立方体の拡張を行った後で、オフセット立方体Offset(Id、k)をさらに時間方向およびスケール方向で伝播する。7つの選択されたフレームについて、「Offsetscale(Id、k−3)、Offsetscale(Id、k+3)」で検索を行い、空間交差部を累積して、3つのスケールについて、「scale−0.2、scale+0.2」を行い、それぞれ異なるスケールに対応するロバストな結果を得る。そして、最適なオフセットであるOffset(Id、k)が発見され、この最適なオフセットは、これら3*7(つまり21)オフセットの交差立方体で最大の累積投票値を有する。この伝播ステップにより、オフセット間の格差が平坦化され、同時に、急峻な/誤ったオフセットを取り除くことができる。
【0035】
しかし、ランダムな摂動のために、実際の登録オフセットが、推定される最適なオフセットの近隣の立方体に位置してしまうこともある。加えて、動きのない軌跡は、推定されたオフセットを幾らか偏らせるが、これは、間隔OffsetminおよびOffsetmaxの間の間隔(あるいは、OffsetminおよびOffsetmaxの間の間隔)が非常に小さくて、近隣の立方体に投票できないからである。マルチスケールに伴う偏りはさらに、ノイズ攪乱および離散スケールパラメータによっても生じる。様々な実施形態では、最適なオフセット立方体のスコアが単純な閾値を越える場合に、隣接する立方体にまでx、y方向に僅かに拡張させて、最終ビデオコピー検知段階で伝播および合成された最適なオフセットについての推定を行う。
【0036】
ブロック406は、最適なオフセットに一部基づき、映像クエリフレームをビデオコピーと特定することを含む。特定されたビデオコピーは、クエリ内のフレームに類似した局所SURF軌跡特徴量を有するデータベースからのビデオフレーム列であり、データベースのビデオフレーム各々は、映像クエリのものに類似したオフセット(t、x、y)を有する。加えて、コピーされる可能性のあるビデオの時間セグメントを特定する時間オフセットを提供することができる。
【0037】
様々な実施形態は、静止画像のコピーを検知してよい。画像コピー検知においては、時間方向に軌跡および移動情報がなく、時間オフセットについて考慮されない。しかし、空間x、y、およびスケールオフセットを、ビデオコピー検知のものと同様に考えることができる。例えば画像コピー検知において、SURFの関心点を抽出して索引付けする。ビデオコピー検知に関して記載される投票ベースの方法を利用して、画像コピーを検知するのに最適なオフセット(x、y、スケール)を発見することができる。
【0038】
図5は、一実施形態における、一次元ビンの場合の最適オフセットを投票する一例を示す。x軸は、4つの可能性あるオフセットによって7つのビン(立方体)に適合的に分割される。この例では、x軸の範囲は、xminとxmaxの範囲である。この例では、各立方体がx個のオフセットの範囲を表す。例えば立方体1は、xminとx2maxの間にあるオフセットをカバーする第1のビンを表している。他のオフセットのビンは、時間であり、yオフセットである(不図示)。
【0039】
この例において、各可能性のあるオフセットのSimmnを1と想定すると、最良のオフセットは、立方体4「xminとxmax」であり、最大投票スコアが4である。これらのそれぞれ異なるスケールの最適なオフセットOffsetscale(Id、k)を比較することで、最適な時空間スケール登録パラメータOffset(Id、k)は、全てのスケールにおける最大投票スコアで推定される。
【0040】
図6は、一実施形態における幾つかの映像クエリフレームから局所特徴量を検知する一例を示す。映像クエリフレームの丸印は、関心点を示す。ビデオのデータベースのフレームの矩形印は、(t、x、y)次元の境界立方体を示す。図5の立方体は、単一の次元(つまり、t、x、またはy)を表している。スケール変換パラメータを推定するためには、3D(x、y、t)投票空間の時空間登録を、各離散スケール値に別個に適用して(scale=scale∈「0.6、0.8、1.0、1.2、1.4」)、検知結果を組み合わせる。
【0041】
この例においては、50、70、90の時点におけるクエリフレームからの局所特徴量が、ビデオデータベースのフレームに見えるときに、決定を行う。時点50におけるクエリフレームは、局所特徴量A−Dを含む。ビデオデータベースの時点50のフレームは、ローカルのフレームAおよびDを含む。従って2つの投票(各局所特徴量について1つの投票)が、ビデオデータベースのフレーム50に起因している。局所特徴量AおよびDは同時で、実質的に同様の位置にあるように見受けられるので、オフセット(t、x、y)は(0、0、0)である。
【0042】
時点70におけるクエリフレームは、局所特徴量F−Iを含む。ビデオデータベースの時点120におけるフレームは、局所特徴量F−Iを含む。従って4つの投票が、ビデオデータベースのフレーム120に起因している。局所特徴量F−Iは50フレーム後であり右下の方向にシフトされているように見受けられるので、オフセット(t、x、y)は(50フレーム、100画素、120画素)である。
【0043】
時点90におけるクエリフレームは、局所特徴量K−Mを含む。ビデオデータベースの時点140におけるフレームは、局所特徴量K−Mを含む。従って3つの投票が、ビデオデータベースのフレーム140に起因している。局所特徴量K−Mは50フレーム後であり右下の方向にシフトされているように見受けられるので、オフセット(t、x、y)は(50フレーム、100画素、120画素)である。
【0044】
時点50におけるクエリフレームは局所特徴量Dを含む。ビデオデータベースの時点160におけるフレームは、局所特徴量Dを含む。従って、1つの投票が、ビデオデータベースのフレーム160に起因している。局所特徴量Dは110フレーム後であり左上の方向にシフトされているように見受けられるので、オフセット(t、x、y)は(110フレーム、−50画素、−20画素)である。
【0045】
ビデオデータベースのフレーム100、120、および140は、同様のオフセット(t、x、y)を有する。つまり、図5のスキームを参照すると、フレーム100、120、および140からのオフセットは、同じ立方体内に収まる。最適なオフセットは、複数のフレームに関連するオフセットである。同様のオフセットを有するフレームは、連続したビデオクリップに統合される。
【0046】
様々な実施形態のパフォーマンスを評価するために、INA(French Institut National de l'Audiovisuel)およびTRECVID2007ビデオデータセットからランダムに撮られた200時間分のMPEG−1ビデオに広範な実験を行った。ビデオデータベースを、参照データベースと非参照データベースという2つの部分に分割した。参照データベースは70時間の100本のビデオである。非参照データベースは130時間の150本のビデオである。
【0047】
2つの実験を行って、システム性能を評価した。まず、1GのRAMを備えるPentium(登録商標)IV2.0GHz上で動作させると、参照ビデオデータベースは、LSHによりオフライン索引された1,465,532SURF軌跡のレコードを有した。オンラインビデオコピー検知モジュールは映像クエリの各サンプリングされたフレームにおいて最大でM=100個のSURF点を抽出した。時空間スケールオフセットを、P=20個のフレームごとに計算した。各クエリSURF点について、N=20個の候補の軌跡をLSHにより発見するのに約150msかかった。7個のスケールパラメータで最適なオフセットを推定するのに、約130msの時空間スケール登録コストがかかった。
【0048】
実験1では、ビデオコピー検知性能を、SURF特徴量およびハリス特徴量それぞれへの異なる変換について比較した。20個の映像クエリクリップを、参照データベースのみから、各ビデオクリップの長さを1000フレームとしてランダムに抽出した。各ビデオクリップを、異なる変換法により変換して、映像クエリ(シフト、ズームアスペクト)を生成した。
【0049】
表1は、SURF特徴量およびハリス特徴量それぞれに異なる変換を行うビデオコピー検知方法を比較した結果を示す。
【表1】

【0050】
表1から、SURF特徴量が、ハリス特徴量よりも、ズームイン/ズームアウトにおいて約25から50%優れていることが分かる。加えて、SURF特徴量は、シフトおよびクロップ変換においてはハリスと類似した性能を発揮している。加えて、ハリス特徴量よりもSURF特徴量を利用することで、21%から27%程度、検知に成功したコピーフレーム数が多かった。
【0051】
実際のより複雑なデータのテストにおいて、SURF特徴量に基づく時空間スケール登録法は、J.Law−Toの文献に記載されているハリス特徴量に基づくビデオコピー検知法に匹敵する。映像クエリクリップは、15個の変換された参照ビデオと15個の非参照ビデオとからなり、総計すると100分となる(150,000フレーム)。参照ビデオは、実験1とは異なる変換および異なるパラメータで変換される。
【0052】
図7は、システム性能を記述する作用特性曲線(ROC:operation characteristic curves)の受信を示す。様々な実施形態で、J.Law−Toの文献に記載されているハリス特徴量に基づくビデオコピー検知法よりずっと優れたパフォーマンスが示されている。偽の正のフレームレートが10%である場合、ハリスの方法における真の正のフレームレートは68%であるが、様々な実施形態における方法では、90%の真の正のフレームレートを達成することができる。J.Law−Toの文献の報告では、偽の正のフレームレートが10%である場合、真の正のフレームレートは、82%であった。しかし、J.Law−Toの文献は、スケール変換が0.95−1.05に制限されるとも述べている。様々な実施形態におけるこれよりも高いパフォーマンスは、ロバストなSURF特徴量、ひいては、効率的な時空間スケール登録に貢献する。加えて、伝播および合成を利用することで、可能な限り検知されたビデオクリップを伝播して、急峻な誤ったオフセットを平坦化/除去するときに非常に有用でもある。
【0053】
ここに記載するグラフィックおよび/またはビデオ処理技術は、様々なハードウェアアーキテクチャで実装することができる。例えば、グラフィックおよび/またはビデオ機能はチップセットに統合することができる。または、離散グラフィックおよび/またはビデオプロセッサを利用することもできる。また別の実施形態として、グラフィックおよび/またはビデオ機能を、汎用プロセッサ(マルチコアプロセッサを含む)により実装することもできる。またさらなる実施形態では、これら機能を、家庭用電子機器に実装することもできる。
【0054】
本発明の実施形態は、マザーボード、ハードワイヤ論理、メモリデバイスに格納され、マイクロプロセッサ、ファームウェア、特定用途向け集積回路(ASIC)、および/または、フィールドプログラマブルゲートアレイ(FPGA)により実行されるソフトウェアを利用して相互接続された1以上のマイクロチップまたは集積回路のいずれか、または任意の組み合わせとして実装することもできる。「論理」という用語は、一例として、ソフトウェアまたはハードウェア、および/または、ソフトウェアとハードウェアの組み合わせを含んでよい。
【0055】
本発明の実施形態は、例えば、コンピュータ、コンピュータネットワーク、その他の電子機器等の1以上の機械により実行されると、本発明の実施形態における処理を1以上の機械に実行させる機械実行可能命令を格納する1以上の機械可読媒体を含んでよいコンピュータプログラムプロダクトとして提供されてよい。機械可読媒体には、これらに限定はされないが、フロッピー(登録商標)ディスク、光ディスク、CD−ROM、および光磁気ディスク、ROM、RAM、EPROM、EEPROM、光磁気カード、フラッシュメモリ、その他の種類の、機械実行可能命令の格納に適した媒体/機械可読媒体を含んでよい。
【0056】
図面および上述した内容は、本発明の例示である。複数の離散した機能アイテムが示されている場合であっても、当業者であれば、これらのエレメントの1以上を単一の機能エレメントに組み込むこともできることを理解する。また、一定のエレメントを複数の機能エレメントに分割することもできる。1つの実施形態のエレメントを別の実施形態に追加することもできる。例えば、ここで記載するプロセスの順序を変更することもでき、ここに記載した方法に限定はされない。さらに、フロー図の動作は、必ずしも示されている順序で実装される必要はなく、また、全ての動作を実行する必要もない。さらに、他の動作に依存しない動作は、他の動作と並列して実行することができる。本発明の範囲は、これら特定の例に限定されない。明細書に明示されていてもいなくてもよい、構造、寸法、および利用される材料が異なっている数多くの変形例が可能である。本発明の範囲は、以下の請求項と少なくとも同じ範囲を有する。

【特許請求の範囲】
【請求項1】
参照ビデオからSURF(speeded up robust features:高速のロバストな特徴量)を抽出する段階と、
前記参照ビデオのSURF点を格納する段階と、
前記SURF点に基づいて、前記参照ビデオの時空間特徴量として軌跡を決定する段階と、
前記軌跡を格納する段階と、
前記軌跡の索引を作成する段階と
を備えるコンピュータによる実装が可能な方法。
【請求項2】
抽出された前記SURFは、前記参照ビデオの局所特徴量を含む請求項1に記載の方法。
【請求項3】
前記索引を作成する段階は、
LSH(Local Sensitive Hashing:場所に感度を有するハッシング)を利用して、SURF特徴量の平均値により軌跡の索引を決定する段階を含む請求項1に記載の方法。
【請求項4】
映像クエリのSURFを決定する段階と、
映像クエリフレームに関連するオフセットを決定する段階と、
決定された前記オフセットに一部基づき、前記映像クエリフレームがビデオコピークリップを含むかを判断する段階と
をさらに備える請求項1に記載の方法。
【請求項5】
前記オフセットを決定する段階は、
時空間オフセット空間を、可能性のある時間、x、またはyのオフセットの時空間オフセットパラメータに対応する各立方体に適合的に分割する段階を含む請求項4に記載の方法。
【請求項6】
前記オフセットを決定する段階は、
前記映像クエリフレームに関連する参照ビデオフレームの軌跡を決定する段階と、
時空間オフセットの各スケールに対して、前記映像クエリフレームと前記参照ビデオフレームとの間で類似している局所特徴量の数を累積する段階と
をさらに含む請求項5に記載の方法。
【請求項7】
前記映像クエリフレームがビデオコピークリップを含むかを判断する段階は、
前記映像クエリから抽出した前記SURFに類似している局所特徴量を有する参照ビデオフレームを特定する段階を含み、
特定された前記参照ビデオフレームの各ビデオフレームの局所特徴量は、前記映像クエリの前記SURFからの類似した時空間オフセットを有する請求項4に記載の方法。
【請求項8】
特徴量データベースと、
軌跡特徴量データベースと、
参照ビデオからSURFを抽出し、前記特徴量を前記特徴量データベースに格納し、SURF点を追跡して、前記参照ビデオの時空間特徴量の軌跡を形成し、前記軌跡を前記軌跡特徴量データベースに格納し、前記軌跡特徴量データベース用の索引を作成する軌跡構築論理と
を備える装置。
【請求項9】
前記軌跡構築論理は、
映像クエリの特徴量のクエリ要求を受信し、
前記映像クエリの前記特徴量に関連する軌跡を提供する
請求項8に記載の装置。
【請求項10】
抽出された前記SURFは、前記参照ビデオの局所特徴量を含む請求項8に記載の装置。
【請求項11】
前記軌跡特徴量データベース用の索引を作成するために、前記軌跡構築論理は、LSHを利用して、SURF特徴量の平均値により軌跡を索引付けする請求項8に記載の装置。
【請求項12】
映像クエリからSURFを抽出し、前記軌跡構築論理から前記映像クエリの前記特徴量に関連する軌跡を受信し、前記映像クエリから抽出した前記SURFに類似している局所特徴量を有する参照ビデオフレームを前記特徴量データベースから特定するコピー検知モジュールをさらに備え、
特定された前記参照ビデオフレームの各ビデオフレームの局所特徴量は、前記映像クエリからの前記SURFからの類似した時空間オフセットを有する請求項8に記載の装置。
【請求項13】
参照ビデオフレームを特定するために、前記コピー検知モジュールは、
映像クエリフレームに関連するオフセットを決定し、
決定された前記オフセットに一部基づき、前記映像クエリフレームがビデオコピークリップを含むかを判断する請求項12に記載の装置。
【請求項14】
オフセットを決定するために、前記コピー検知モジュールは、時空間オフセット空間を、可能性のある時間、x、またはyのオフセットの時空間オフセットパラメータに対応する各立方体に適合的に分割する請求項13に記載の装置。
【請求項15】
オフセットを決定するために、前記コピー検知モジュールはさらに、
前記映像クエリフレームに関する参照ビデオフレームの軌跡を決定し、
時空間オフセットの各スケールに対して、前記映像クエリフレームと前記参照ビデオフレームとの間で類似している局所特徴量の数を累積する請求項14に記載の装置。
【請求項16】
前記映像クエリフレームがビデオクリップを含むかを判断するために、前記コピー検知モジュールは、前記映像クエリから抽出した前記SURFに類似している局所特徴量を有する参照ビデオフレームを特定し、
特定された前記参照ビデオフレームの各ビデオフレームの局所特徴量は、前記映像クエリの前記SURFからの類似した時空間オフセットを有する請求項13に記載の装置。
【請求項17】
表示デバイスと、
特徴量データベース、軌跡特徴量データベース、軌跡構築論理、及びコピー検知論理を有し、前記表示デバイスに通信可能に連結されたコンピュータシステムと
を備え、
前記軌跡構築論理は、参照ビデオからSURFを抽出し、前記SURFを前記特徴量データベースに格納し、前記SURF点に基づいて前記参照ビデオの時空間特徴量の軌跡を決定し、前記軌跡を前記軌跡特徴量データベースに格納し、
前記コピー検知論理は、映像クエリのフレームがコピーかを判断し、前記映像クエリのフレームに類似している前記参照ビデオのビデオフレームを提供する
システム。
【請求項18】
抽出された前記SURFは、前記参照ビデオの局所特徴量を含む請求項17に記載のシステム。
【請求項19】
前記軌跡構築論理はさらに、LSHを利用して、抽出された前記SURFの平均値により軌跡を索引付けすることで、抽出された前記SURFに関連する軌跡用の索引を作成する請求項17に記載のシステム。
【請求項20】
映像クエリのフレームがコピーかを判断するために、前記コピー検知論理は、前記映像クエリから抽出された前記SURFに類似している局所特徴量を有する参照ビデオフレームを特定し、
特定された前記参照ビデオフレームの各ビデオフレームの局所特徴量は、前記映像クエリの前記SURFからの類似した時空間オフセットを有する請求項17に記載のシステム。
【請求項21】
参照画像からSURFを抽出する段階と、
前記SURF点に基づいて、前記参照画像の局所空間特徴の軌跡を決定する段階と、
前記軌跡を格納する段階と、
格納された前記軌跡の索引を作成する段階と
を備える方法。
【請求項22】
抽出された前記SURFは、前記参照画像の局所特徴量を含む請求項21に記載の方法。
【請求項23】
索引を作成する段階は、LSHを利用して、SURF特徴量の平均値により軌跡の索引付けを行う請求項21に記載の方法。
【請求項24】
クエリ画像がコピーかを判断する段階は、前記クエリ画像から抽出した前記SURFに類似している局所特徴量を有する参照画像を特定する段階を含み、特定された各参照画像の局所特徴量は、前記クエリ画像の前記SURFからの類似した空間オフセットを有する請求項21に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公表番号】特表2012−531130(P2012−531130A)
【公表日】平成24年12月6日(2012.12.6)
【国際特許分類】
【出願番号】特願2012−516467(P2012−516467)
【出願日】平成21年6月26日(2009.6.26)
【国際出願番号】PCT/CN2009/000716
【国際公開番号】WO2010/148539
【国際公開日】平成22年12月29日(2010.12.29)
【出願人】(591003943)インテル・コーポレーション (1,101)
【Fターム(参考)】