説明

意味的ビデオ境界の検出

【課題】意味的ビデオ境界(一般にチャプター境界又はシーン境界とも呼ばれる)を、ショット等のビデオのセグメントの処理によって、正確に検出する。
【解決手段】あるセグメント境界において意味的ビデオ境界仮定を作成し、その仮定を、該仮定の周囲の、ロケーションにおけるコンテンツに応じて可変数のセグメント(各セグメントはセグメントコンテンツに応じて可変数のサンプルによって表される)を検査することによって検証し、意味的ビデオ境界仮定の前のセグメントが該意味的ビデオ境界仮定の後のセグメントにリンクする度合い、及び/又は、意味的ビデオ境界仮定の前の/後のセグメントが互いにリンクする度合いを評価することによって直接意味的ビデオ境界を検出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、意味的ビデオ境界(一般にチャプター境界又はシーン境界とも呼ばれる)を、ビデオのセグメントの処理によって正確に検出することに関する。
【背景技術】
【0002】
特許文献1「METHOD AND SYSTEM FOR SELECTING CHAPTER BOUNDARIES FOR DIGITAL VIDEO RECORDINGS」は、記録のためのカットレート(cut-rate)を検査することを含む、デジタルビデオ記録のためのチャプター境界を選択する方法を開示している。特許文献1の方法によれば、デフォルトチャプター長が経過したか否か、及びデフォルトチャプター長における記録のためのカットレートが低いか否かに関する判断が行われる。次に、デフォルトチャプター長における記録のためのカットレートが低い場合、チャプター境界がデフォルトチャプター長において選択される。そうでない場合、チャプター境界はデフォルトチャプター長の前後のカットレートが低い点に設定される。
【0003】
特許文献1の背後にある原理は、固定長チャプター、たとえば5分のチャプターによって、結果として、ビデオ内の不適切な時点、たとえば重要な戦闘シーン又は対話の最中にチャプター境界が挿入される可能性があるということである。境界の適切性はビデオ内のその時点におけるカットレートによって判定される。低いカットレート、すなわち長いショットは、チャプター境界に適切であると見なされる一方、高いカットレート、すなわち短いショットは、不適切であると見なされる。このため、デフォルトチャプター長(たとえば5分)においてカットレートが低い場合、そこをチャプター境界にする。そうでない場合、チャプター境界は、最小チャプター長(たとえば4分)と、最大チャプター長(たとえば6分)との間の、カットレートが低い或る時点に設定される。したがって、特許文献1における方法は、実際のチャプター境界をそれほど検出しないが、固定長チャプター分割メカニズムに対し或る柔軟性を与え、これによってチャプター境界は高いカットレートの時点に挿入されない。
【0004】
特許文献2「METHOD FOR CHAPTERING AN IMAGE DATUM ACCORDING TO A SCENE CHANGE」は、(a)画像データの第1の画像フレームの第1の画像特性値を計算すること、(b)画像データの第2の画像フレームの第2の画像特性値を計算すること、(c)第1の画像特性値と第2の画像特性値との間の差分が閾値以上か否かを判断すること、及び(d)第1の画像特性値と第2の画像特性値との間の差分が閾値以上の場合、第1の画像フレームが第1のセクションに属し、第2の画像フレームが第2のセクションに属するように画像データをチャプター化すること、によってシーン変化に従って画像データをチャプター化するための方法を開示している。
【0005】
特許文献2の方法は、単純なフレーム対比較及び事前に定義されたチャプター持続期間を用いてチャプター境界を求める。より詳細には、この方法は、開始時刻T0から開始し、時点T1及びT2における後続のフレームの特性値(明度積分)を比較する。或る閾値に従って、これらの特性値が十分に異なると見なされる場合、T1とT2との間にチャプター境界が挿入され、時点T0はT2に移る。一方、これらの特性値が十分に異なっていないと見なされる場合、時点T0とT2との間の時間差が検討される。この時間差が或る特定の閾値を超える場合、T1とT2との間にチャプター境界が挿入され、時点T0はT2に移る。この時間差がこの閾値を超えない場合、チャプター境界は挿入されず、時点T1及びT2は、チャプター境界が見つかるまで前進する。
【0006】
このため、特許文献2の方法は、単に、チャプター境界を視覚変化が大きい時点に挿入するか、又は或る一定の時間期間の後に何も見つかっていない場合、チャプター境界を強制する。この方法は基本的な固定長チャプター分割に対し改善を行うが、問題は、ビデオ内の任意の2つのフレーム間の明度差が、チャプター境界を設定するには非常に弱い指標であることである。そのような手法は、ショット境界に何らかの不連続性が存在する場合のショットの検出により適しており、結果としてビデオのチャプターの区分けが不良になる可能性が高い。実際に、チャプター境界の正しい検出は、チャプターが複雑であり、特許文献2の方法がチャプター境界に取り違えることとなる多数の大きな視覚変化、多数のショット変化等を実際に含む場合があるということを考慮に入れる必要がある。
【0007】
特許文献3「VIDEO REPRODUCING/RECORDING AND PLAYING SYSTEM AND METHOD FOR SETTING AND PLAYING VIDEO SECTION」は、以下のようにシーン境界を検出するための方法を開示している。連続する2つのフレームの間の差分が評価される。この差分が所定の閾値を超えていない場合、シーン境界は検出されない。一方、この差分が閾値を超えている場合、この候補シーン境界と以前に検出されたシーン境界との間の時間間隔の長さが評価される。この時間差が所定の閾値を超えていない場合、シーン境界は検出されない。しかしながら、この差分が閾値を超えている場合、シーン境界が検出される。
【0008】
このため、特許文献3の方法は単純に、結果としてのシーンが短くなりすぎないことを条件に、視覚変化が大きい時点でチャプター境界を挿入する。したがって、この方法も、基本的な固定長チャプター分割に対して改善を行うが、特許文献2の方法と同じ欠点を有する。すなわちビデオ内の任意の2つのフレーム間の差分は、シーン境界を設定するには非常に弱い情報であると共に、シーンの正確な検出は、シーンが複雑であり、特許文献3の方法がチャプター境界に取り違えることとなる多数の大きな視覚変化、多数のショット変化等を実際に含む場合があるということを考慮に入れる必要があるという欠点である。
【0009】
特許文献4「METHOD OF AND APPARATUS FOR SETTING VIDEO SIGNAL DELIMITER INFORMATION JUDGED FROM AUDIO AND VIDEO SIGNALS」は、ビデオ信号の連続するフレーム間の類似度を解析し、ビデオ信号の意味内容に応じて区切りを提供する第1の区切り情報を取得する画像構造化部と、オーディオ信号のための任意区間検出部とを備える方法及び装置を開示している。該装置は、オーディオ信号の無音の部分について第2の区切り情報を作成し、任意区間を設定し、第1の区切り情報及び第2の区切り情報を互いに重ね合わせることによって、第3の区切り情報を作成する。この場合、第1の区切り情報が任意区間内に存在するとき、装置は第1の区切り情報を拒否する。ビデオ信号の意味内容に応じて区切りを提供する第1の区切り情報の決定は、2つのショット間の類似度の評価と、ショットグループ化メカニズムとに基づいている。より詳細には、2つのショット間の類似度は、前のショットの最後にある連続するいくつかのフレームと、次のショットの最初にある連続するいくつかのフレームとを選択し、前のショットの選択されたフレームそれぞれについて、次のショット内の選択されたフレームすべてとの間の類似度を求め、いくつの選択されたフレーム対が類似しているかをカウントすると共に、該カウントが或る特定の閾値以上である場合に2つのショットが類似していると判断することによって評価される。次に、類似したショットが集中的に現れる区間を有意な区間と見なし、インデックス「対話数」を導入して、類似したショットが現れる密度を定量化する。インデックス「対話数」は、多くのショットが含まれるとき、対話に寄与するショット数が大きいとき、及び対話に寄与するショットの合計時間が長いとき、より大きくなる。このように、対話区間が計算される。次に、隣接する対話区間が互いに連結される。
【0010】
この方法には多数の問題が存在する。第1に、各ショット内の1組の連続したフレーム間の網羅的比較に基づく2つのショットの比較は、高い計算コストを有するが、引き換えに得られるものがほとんどない。ショットの小さな部分の連続フレームは、明らかに非常に類似しており、結果として、2つのショットに属する2つの連続フレーム集合間の網羅的比較は多数の概ね同様の類似度値をもたらす。このため、網羅的比較においていくつのフレーム対が類似して見えるかをカウントすることも、2つのショットが類似しているか否かを判定する手掛りとして弱い。しかしながら、この方法の主要な欠点は、該方法が、区切り情報を、直接ではなく、ショットを対話区間にグループ化することを通じて間接的に導出しようとすることに由来する。これらの対話区間は、多くのショットが対話内に含まれているとき、対話に寄与するショット数が大きいとき、及び対話に寄与するショットの合計時間が長いときに大きくなるインデックス値に従って計算される。これによって、「慣性」問題が生じる。すなわち、多数のかつ/又は長いショットに強く相関した対話が、より少なくかつ/又はより短いショットに同等に相関した対話を容易に吸収し得るということである。このため、特許文献4によれば、隣接する対話区間は互いに連結されるが、この最後の特徴はビデオをチャプターに分割しようとする際に問題のある値となる。特許文献4の方法は、実際に区切り情報を直接導出するのではなく、ショットを対話区間にグループ化することを通じて間接的にのみ導出し、それに伴う上述した問題を有するので、この方法は、一般的なシーン境界検出よりも、特定のシーン、すなわち実際の対話、たとえば2人の人物の交互のショットを伴う実際の対話を検出するのに最も適している。
【0011】
特許文献5「AV SIGNAL PROCESSING APPARATUS FOR DETECTING A BOUNDARY BETWEEN SCENES, METHOD, RECORDING MEDIUM AND COMPUTER PROGRAM THEREFOR」は、各ショットを該ショットの直前の固定数kのショット及び該ショットの直後の同じ固定数kのショットと比較することを含む、シーン境界を検出するための方法を開示している。次に、シーン境界の検出は、シーンの最後のショットは前の多数のショットに類似しているが後のショットには類似していないということと、次のシーンの最初のショットは後の多数のショットに類似しているが前のショットに類似していないということに依存する。
【0012】
この方法には多数の問題が存在する。第1に、この方法はショットグループ化自体は行わないにもかかわらず、各シーンが次のシーンとほとんど共通していない高度にまとまったショットグループであることに大きく依存する。より具体的には、この方法は、シーン内のショットが互いに類似し、他のシーンのショットと異なることに非常に高い重点を置く。最も決定的には、この方法は、シーンの最後のショットが該ショットの前のショットに類似し、かつシーンの最初のショットが該ショットの後のショットに類似していることを必要とする。実際には非常に単純なビデオしかこのパターンを示さない。複雑なビデオの場合、たとえば高速アクションを伴う映画の場合、シーンは通常、すべてが互いに類似しているとは限らないショットを含むこととなるが、それらのショットのうちのいくつかは次のシーン又は前のシーンのショットに類似している場合があり、したがって、物語がスムーズに流れることを可能にする「遷移ショット」が存在する場合があるシーン境界付近において、そのような「境界にまたがる」類似度がより頻繁となる。明らかに、この方法は、シーンの最初のいくつかのショット又は最後のいくつかのショット内に相違が存在する場合に失敗する。この相違は映画等のプロフェッショナルなビデオコンテンツにとって実際非常に一般的である。したがって、より洗練されたショット比較戦略が必要とされている。この方法の別の問題は、シーン境界の決定が境界の前の固定数kのショット、及び境界の後の同じ固定数kのショットの検査に基づいているということである。特許文献5において例示的な値k=5が与えられている。このショットの固定時間ウィンドウは、異なるショットが非常に異なる特性を有することを軽視している。ペースの速いショットは、わずか1秒以下しか続かない可能性がある一方、ペースの遅いショットは数十秒又は1分より長く続く可能性がある。ペースの速いコンテンツの場合、わずか数秒のコンテンツを検査することによって確信のあるシーン境界判定に達することは多くの場合に不可能である。一方、十分な量のビデオが検査されることを保証するために非常に高いkの値を可能にすることによって、長いショットを有するが含まれるショット数は通常はるかに少ないシーンの境界を求める際に問題が生じることになる。さらに、上記の問題に起因して、高速のシーンの後に低速のシーンが続く場合、特許文献5の通りにショット数の観点から対称的なショット時間ウィンドウを用いたシーン境界の正確な検出は不可能である場合がある。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】米国特許出願公開第2004/0086258号明細書
【特許文献2】米国特許出願公開第2008/0112618号明細書
【特許文献3】米国特許出願公開第2009/0136198号明細書
【特許文献4】米国特許出願公開第2006/0263061号明細書
【特許文献5】米国特許出願公開第2006/0114992号明細書
【発明の概要】
【発明が解決しようとする課題】
【0014】
既知の技法及びそれらの限界を鑑みて、本発明の目的は、意味的ビデオ境界の正確な検出を提供することである。
【課題を解決するための手段】
【0015】
本発明によれば、ビデオフレームのシーケンスを処理して該シーケンス内の意味的ビデオ境界を検出するための方法及び装置が提供される。シーケンス内のビデオセグメント間のセグメント境界が識別され、各ビデオセグメントは複数のビデオフレームを含む。識別されたセグメント境界は、仮定された意味的ビデオ境界として選択され、仮定された意味的ビデオ境界の少なくとも一方の側に、複数のビデオセグメントを含むウィンドウが規定される。ウィンドウ内のビデオセグメントの少なくともいくつかについて、それらの間のセグメント間差分が計算される。計算されたセグメント間差分に依存して仮定された意味的ビデオ境界のための少なくとも1つの強度基準値が計算される。仮定された意味的ビデオ境界は計算された強度基準値(複数可)に依存して承認又は拒否される。
【0016】
本発明は、ビデオフレームのシーケンスを処理して該シーケンス内の意味的ビデオ境界を検出する方法であって、
前記シーケンス内のビデオセグメント間のセグメント境界を識別することであって、各ビデオセグメントは複数のビデオフレームを含む、ビデオセグメント間のセグメント境界を識別すること、
識別されたセグメント境界を、仮定された意味的ビデオ境界として選択すること、
前記仮定された意味的ビデオ境界の少なくとも一方の側に、複数のビデオセグメントを含むウィンドウを規定すること、
前記ウィンドウ内のビデオセグメント間のセグメント間差分を計算すること、
前記計算されたセグメント間差分に依存して、前記仮定された意味的ビデオ境界のための少なくとも1つの強度基準値を計算すること、及び
前記計算された強度基準値(複数可)に依存して前記仮定された意味的ビデオ境界を承認又は拒否すること、
を含む、方法を提供する。
【0017】
本発明は、ビデオフレームのシーケンスを処理して該シーケンス内の意味的ビデオ境界を検出するように動作可能な装置であって、
前記シーケンス内のビデオセグメント間のセグメント境界を識別するように動作可能なセグメント境界識別器であって、各ビデオセグメントは複数のビデオフレームを含む、セグメント境界識別器と、
識別されたセグメント境界を、仮定された意味的ビデオ境界として選択するように動作可能なセグメント境界選択器と、
前記仮定された意味的ビデオ境界の少なくとも一方の側に、複数のビデオセグメントを含むウィンドウを規定するように動作可能なウィンドウ識別器と、
前記ウィンドウ内のビデオセグメント間のセグメント間差分を計算するように動作可能なセグメント間差分計算機と、
前記計算されたセグメント間差分に依存して、前記仮定された意味的ビデオ境界のための少なくとも1つの強度基準値を計算するように動作可能な強度基準値計算機と、
前記計算された強度基準値(複数可)に依存して前記仮定された意味的ビデオ境界を承認又は拒否するように動作可能な判定計算機と、
を備える、装置も提供する。
【0018】
本発明は、上述した方法を実行するように動作可能となるようプログラム可能処理装置をプログラムするためのコンピュータープログラム命令を担持するコンピュータープログラム製品をさらに提供する。コンピュータープログラム製品は、たとえばストレージ媒体又は信号である。
【0019】
次に、添付の図面を参照して、本発明の実施形態を例示としてのみ説明する。
【図面の簡単な説明】
【0020】
【図1a】本発明の一実施形態の構成要素を、概念的機能処理ユニットと共に概略的に示す図である。処理装置構成要素は、コンピュータープログラム命令によってプログラムされたとき、その概念的機能処理ユニット内に構成されるものと見なすことができる。
【図1b】本発明の一実施形態における、図1aのセグメント間差分計算機処理ユニットの構成要素を示す図である。
【図2】本発明の第1の実施形態における、図1a及び図1bの処理装置によって実行される、ビデオフレームシーケンスにおいて意味的ビデオ境界を検出する処理動作を示す図である。
【図3】図2のステップS110の処理におけるビデオセグメントのウィンドウの設定を示す図である。
【図4a】ステップS110において規定されるビデオセグメントのウィンドウの例を示す図である。ここで、仮定された意味的ビデオ境界の各側のセグメント数は固定である。
【図4b】ステップS110において規定されるビデオセグメントのウィンドウの例を示す図である。ここで、仮定された意味的ビデオ境界の各側のセグメント数は、それぞれのセグメントの総持続時間が或る特定の範囲内にあるように選択される。
【図4c】ステップS110において規定されるビデオセグメントのウィンドウの例を示す図である。ここで、仮定された意味的ビデオ境界の各側のセグメント数は、(i)それらのセグメント数が或る特定の範囲内にあり、(ii)それぞれのセグメントの総持続時間も或る特定の範囲内にあるように、選択される。
【図5】図2のステップS120の処理における、仮定をまたがるセグメント間差分及び同じ側のセグメント間差分の計算を示す図である。
【図6a】図2のステップS120において、仮定をまたがるビデオセグメントを比較のために選択し、仮定をまたがるセグメント間差分を生成することを示す図である。
【図6b】図2のステップS120において、同じ側のビデオセグメントを比較のために選択し、同じ側のセグメント間差分を計算することを示す図である。
【図7a】本発明の一実施形態において、セグメント間差分を計算するために図2のステップS120で実行されるフレーム間差分の重み付けの1つの例を示す図である。
【図7b】本発明の一実施形態において、セグメント間差分を計算するために図2のステップS120で実行されるフレーム間差分の重み付けの1つの例を示す図である。
【図7c】本発明の一実施形態において、セグメント間差分を計算するために図2のステップS120で実行されるフレーム間差分の重み付けの1つの例を示す図である。
【図8】セグメント間差分を計算するための、図2のステップS120の処理におけるフレーム間差分の重み付けの代替的な例を示す図である。
【図9】本発明の一実施形態において、ステップS120において計算されたセグメント間差分を、仮定された意味的ビデオ境界のための強度基準値を計算する処理の一部として重み付けする、図2のステップS130において実行される処理の一例を示す図である。
【図10】本発明の第2の実施形態において、図1a及び図1bの処理装置によって実行される、ビデオフレームシーケンス内の意味的ビデオ境界を検出する処理動作を示す図である。
【図11】代表的フレーム毎に2つ以上のタイプの視覚記述子を用いる代替的な実施形態において実行される、ビデオフレームシーケンス内の意味的ビデオ境界を検出する処理動作を示す図である。
【発明を実施するための形態】
【0021】
第1の実施形態
図1aを参照すると、本発明の一実施形態は、プログラム可能な処理装置2を含む。そのような装置は、ブルーレイディスクプレーヤー、パーソナルコンピューター(PC)等を備えることができ、従来の方式で、1つ又は複数のプロセッサ、メモリ、グラフィックカード等を含む。装置は、それらと共に、ディスプレイデバイス4(たとえば、テレビ又はパーソナルコンピューターモニター等)、及びユーザー入力デバイス6(ボタン、キーボード、マウス等)を備えることができる。
【0022】
処理装置2は、プログラミング命令に従って動作するようにプログラミングされる。プログラミング命令は、たとえばデータストレージ媒体12(光学CD−ROM、半導体ROM,磁気記録媒体等)に格納されるデータとして、かつ/若しくは信号14(たとえば遠隔データベースから、インターネット等の通信ネットワーク(図示せず)を介する送信若しくは大気を通じた送信による、処理装置2への電気信号入力若しくは光信号入力)として入力され、かつ/又は、ユーザーによってキーボード等のユーザー入力デバイス6を介して入力される。
【0023】
下記でより詳細に説明するように、プログラミング命令は、処理装置2が、ビデオフレームシーケンスを処理して、シーケンス内の意味的ビデオ境界(意味的ビデオ境界は、一般にチャプター境界又はシーン境界とも呼ばれる)を検出するように構成されるようプログラミングするための命令を含む。
【0024】
以下の説明から理解されるように、処理装置2によって実行される処理は、ショットをグループ化することによって意味的ビデオ境界を推論するのでもなければ、事前に定義されたデフォルトチャプター持続時間に依存するものでもない。その代わり、この処理は、ビデオシーケンスのセグメント間のセグメント境界の1つに意味的ビデオ境界仮定を作成し、該仮定の周囲の可変の(そのロケーションにおけるコンテンツによる)数のセグメント(各セグメントは可変の(セグメントコンテンツによる)数のサンプルによって表される)を検査することによってその仮定を検証し、意味的ビデオ境界仮定の前のセグメントが意味的ビデオ境界仮定の後のセグメントにリンクしている度合いを評価することによって、及び/又は、意味的ビデオ境界仮定の前/後のセグメントが互いにリンクしている度合いを評価することによって、直接に意味的ビデオ境界を検出する。
【0025】
より詳細には、概観として、セグメントに区分けされたビデオが与えられると、処理装置2は、
・各セグメント境界を含む可変の時間的なセグメントウィンドウのパラメーターを計算し、
・時間ウィンドウのセグメント間のセグメント間差分を計算し、
・計算されたセグメント間差分に基づいて意味的ビデオ境界強度基準値を計算し、
・各セグメント境界が意味的ビデオ境界でもあるか否かを判定する。
【0026】
処理装置2は、プログラミング命令によってプログラミングされている場合、処理動作を実行するための複数の機能ユニットとして構成されているものと見なすことができる。そのような機能ユニット及びそれらの相互接続の例が図1aに示されている。しかしながら、図1aに示すユニット及び相互接続は概念的なものであり、例示の目的で理解を助けるためにのみ示される。これらは、処理装置2のプロセッサ(複数可)、メモリ(複数可)等が実際に構成されるようになるユニット及び接続を必ずしも表すものではない。
【0027】
同様に、図1bは、図1aのセグメント間差分計算機90が構成されていると見なすことができる概念的機能処理ユニットを示している。
【0028】
図1a及び図1bに示す機能ユニットのそれぞれによって実行される動作が以下で図2を参照しながら説明される。図2は処理装置2によって実行される処理動作を示すフローチャートである。
【0029】
図2を参照すると、ビデオシーケンスfiについて処理が実行される。ここで、i∈[0,N−1]はフレームインデックスであり、Nはビデオ内のフレーム数である。
【0030】
ステップS100において、ビデオシーケンスを低レベルの構造ユニットに分割するために、該ビデオシーケンス内のセグメント境界が、セグメント境界識別器60によって識別される。本発明の1つの実施形態では、これらの低レベルの構造ユニットはビデオショットsjを含むビデオセグメントであり、ここでj∈[0,M−1]はショットインデックスであり、Mはビデオ内のショット数であり、各ショットはフレームfkjを含み、ここでk∈[0,Pj−1]はショットsjのフレームインデックスであり、Pjはショットsjのフレーム数である。ビデオ製作において、ショットは、カメラの「記録開始」動作と「記録停止」動作との間でキャプチャされたビデオシーケンスとして規定される。急激なショット境界(カット)か、漸進的なショット境界(フェード/ディゾルブ)かの識別は、複数の異なる方法のうちの任意のもので、たとえば同時係属中の特許出願である欧州特許出願第1 640 914号、同1 640 913号、及び同1 914 994号に記載されているように実行することができる。
【0031】
本発明の代替的な実施形態において、ステップS100において求められた低レベルの構造ユニットは、ショット以外のビデオセグメントであってもよい。たとえば、低レベルの構造ユニットは、コンテンツの大幅な変化の時点によって区切ることができる。大幅な変化とは、ショット変化を含んでもよいが、突然の動きや照明変化等によって生じる他の大きなコンテンツ変化も含むことができる。別の例として、低レベルの構造ユニットは、固定の短い長さのビデオセグメント(たとえば持続時間が1秒又は2秒)の形態をとることができる。便宜上、用語「セグメント」は、これ以降、別段の指示がない限り、上述したいかなるタイプの低レベルの構造ユニットにも、又はそれらの組み合わせにも、当てはまるものとして用いられる。
【0032】
ステップS105において、セグメント境界選択器70は、その次に識別されたセグメント境界(ステップS105が最初に実行されたときは、最初に識別されたセグメント境界)を、仮定された意味的ビデオ境界として選択する。その後、後述するように、この仮定された意味的ビデオ境界はテストされ、実際の意味的ビデオ境界であるか否かが判断される。
【0033】
図2のステップS110において、仮定された意味的ビデオ境界が実際に2つのセグメント間の意味的ビデオ境界を表すか否かを判断する第1のステップとして、仮定された意味的ビデオ境界の少なくとも一方の側において、該仮定された意味的ビデオ境界に隣接した(すなわち、該境界の近くの、又は該境界と接触した)ビデオセグメントのウィンドウが、ウィンドウ識別器80によって規定される。より詳細には、時間的なセグメントの近傍(neighbourhood)が形成され、仮定された意味的境界の少なくとも一方の側における複数のセグメントが検査されるべく選択される。
【0034】
2つのセグメントsn及びsn+1間の仮定された意味的境界又はチャプター境界cについて詳述すると、セグメントsn-A+1,…,sn,sn+1,…,sn+Bが検討される。ここで、A及びBは、cの周囲のセグメントに応じて、固定とすることも、又は動的に決定することもでき、等しくても等しくなくてもよい。これは図3に示されている。数A及びBは、後述のとおり、或る特定の条件を満たすように、かつ/又は、それらのそれぞれのセグメントの総持続時間が或る特定の条件を満たすように、選択される。
【0035】
より詳細には、本発明の1つの実施形態では、A及びBの双方が固定である。これは図4aに示されている。そのような場合、通常はA=Bであり、典型的には5≦A≦20である。
【0036】
本発明の別の実施形態では、A及びBは、それぞれのセグメントの総持続時間が或る特定の範囲内にあるように選択される。より詳細には、数A及びBのそれぞれは、それらのそれぞれのセグメントの総持続時間TA及びTBが時間閾値TH1を下回らないように選択される。これは図4bに示されている。この条件によって、cが意味的境界であるか否かを判定するときに、ビデオコンテンツの最小持続時間が検査されることが保証される。TH1の通常の値はTH1=20秒である。
【0037】
本発明のさらなる実施形態では、A及びBは、(i)それらが或る特定の範囲内にあり、かつ(ii)それぞれのセグメントの総持続時間も或る特定の範囲内にあるように、選択される。より詳細には、数A及びBのそれぞれは、それらのそれぞれのセグメントの総持続時間TA及びTBが時間閾値TH1を下回らないように選択される。この条件によって、cが意味的境界であるか否かを判定するときに、ビデオコンテンツの最小持続時間が検査されることが保証される。さらに、持続時間TA及びTBに関する条件にオーバーライドして、A及びBのそれぞれが閾値TH2よりも大きくなくてはならず、かつA及びBの和が閾値TH3よりも小さくなくてはならない。cが意味的境界であるか否かを判定する際、これらの2つの条件の前者は、最小数のビデオセグメントが検査されることを保証する一方、後者は、検査されるべきビデオセグメントの数に課される実際的な制限が存在することを保証する。これは図4cに示されている。閾値の通常の値は、TH1=20秒、TH2=1、及びTH3=40である。すなわち、ビデオは、cの前及び後に少なくとも20秒検査されるべきであり、かつcの前及び後に少なくとも2つのセグメント(ただし合計40個を超えない)が検討されるべきである。
【0038】
再び図2を参照すると、ステップS120において、セグメント間差分計算機90はステップS110において規定されるウィンドウ内のセグメント間のセグメント間差分を計算する。概観として、この処理は、
−ウィンドウ内で、比較されるべき各セグメントを選択すること(この処理はセグメント選択器91によって実行される)、
−各セグメント内で、比較されるべき1つ又は複数のフレームを選択すること(この処理はフレーム選択器93によって実行される)、
−選択されたフレーム間のフレーム間差分を計算すること(この処理はフレーム差分計算機95によって実行される)、
−任意選択として、計算されたフレーム間差分を重み付けすること(この処理は重み計算機97によって実行される)、及び
−フレーム間差分関数を評価してセグメント間差分を計算すること(この処理はフレーム間差分関数評価器99によって実行される)、
を含む。
【0039】
より詳細には、2つのセグメントsn及びsn+1の間の仮定された意味的境界cの正当性を評価する目的で、cの前のセグメントとcの後のセグメントとの間の差分が、並びに/又は、cの前のセグメント間の差分及び/若しくはcの後のセグメント間の差分が、セグメント間差分計算機90によって計算される。前者の基準値の場合、目的は、仮定された意味的境界の両側においてセグメントがどの程度異なるかを評価することであり、一方で、後者の基準値の場合、目的は、仮定された意味的境界の少なくとも一方の側においてセグメントがどの程度類似しているかを評価することである。これは図5に示されている。本発明の1つの実施形態では、2つのセグメントsn及びsn+1の間の仮定された意味的境界cの周囲のセグメントの検査は、cの前のセグメントとcの後のセグメントとの間の差分のみを評価すること、すなわち仮定をまたがるセグメント間差分を計算することを含む。
【0040】
本発明の代替的な実施形態では、cの周囲のセグメントの検査は、cの前及び/又は後のセグメント間の差分のみを評価すること、すなわち同じ側のセグメント間差分を計算することを含むこともできる。
【0041】
本発明のさらに別の代替的な実施形態では、cの周囲のセグメントの検査は、cの前のセグメントとcの後のセグメントとの間の差分を評価すること、並びにcの前及び/又は後のセグメント間の差分を評価することの双方、すなわち仮定をまたがるセグメント間差分及び同じ側のセグメント間差分の双方を計算することを含むこともできる。
【0042】
したがって、セグメント選択器91は、cの前のセグメントとcの後のセグメントとを比較して仮定をまたがるセグメント間差分を生成するか否か、並びに/又は、cの前及び/若しくは後のセグメントを比較して同じ側のセグメント間差分を生成するか否かを選択する。
【0043】
さらに、本発明の1つの実施形態では、セグメント選択器91は、セグメントがcをまたいで比較されるとき、比較されるべきセグメントを次のように選択することができる:cの前の全てのセグメントがcの後の全てのセグメントと比較されるわけではなく、cの前のセグメントsx及びcの後のセグメントsyの、セグメントインデックスの観点及び/又は時刻の観点からの時間的距離が或る特定の条件を満たす場合、cの前のセグメントsxがcの後のセグメントsyと比較される。たとえば、cの前のセグメントsx及びcの後のセグメントsyのセグメントインデックスの時間的距離y−xが閾値TH4未満であり、かつ/又は、それらの時刻の時間的距離Tyxが閾値TH5未満である場合、cの前のセグメントsxがcの後のセグメントsyと比較される。これは図6aに示されている。閾値の通常の値は、TH4=20及びTH5=20秒であるが、これらの値は、TH1、TH2、及びTH3の値を考慮に入れて設定されるべきである。これらの条件は、セグメント距離の観点及び/又は時間距離の観点から非常に遠く離れたセグメントどうしは全く異なるということが予期され、cに意味的境界が存在するか否かに関してあまり良好な指標を与えないであろうということを反映している。
【0044】
同様に、セグメントがcのいずれかの側において比較されるとき、セグメント選択器91は、比較されるべきセグメントを次のように選択することができる:全てのセグメントが他の全てのセグメントと比較されるわけではなく、セグメントsx及びセグメントszの、セグメントインデックスの観点及び/又は時刻の観点からの時間的距離が或る特定の条件を満たす場合にのみ、セグメントsxがセグメントszと比較される。たとえば、セグメントsx及びセグメントszのセグメントインデックスの時間的距離z−xが閾値TH6を上回り、かつそれらの時刻の時間的距離Tzxが閾値TH7を上回っている場合、セグメントsxがセグメントszと比較される。これは、仮定された意味的境界cの前のセグメントについて図6bに示されているが、cの後のセグメントについても状況は同じである。閾値の通常の値は、TH6=4及びTH7=5秒であるが、これらの値は、TH1、TH2、及びTH3の値を考慮に入れて設定されるべきである。これらの条件は、セグメント距離の観点及び/又は時間距離の観点から非常に近いセグメントが非常に類似することが予期されることを反映している。
【0045】
2つのセグメント間の差分を計算する目的で、各セグメントは代表的な特徴によって表すことができる。1つの実施形態では、セグメントの全てのフレームを用いてセグメントを表すこともでき、又はフレーム選択器93がセグメントを表現するのに用いられるセグメントのフレームのサブセットを選択することもできる。後者の場合、セグメントsxはフレームflxによって表され、ここでl∈[0,Qx−1]はセグメントsxの代表的フレームのインデックスであり、Qxはセグメントsxの代表的フレームの数であり、ただしQx<Pxであり、ここでPxはセグメントsxの総フレーム数である。本発明の1つの実施形態において、各セグメントは、同じ数の代表的フレームを有する。そのような代表的フレームの集合の例には、セグメントの中央フレーム、又は、セグメントの最初のフレーム及び最後のフレーム、又は、セグメントの最初のI個のフレーム及び最後のI個のフレーム、又は、セグメントの開始から短い時間(たとえば0.5秒)だけ後、及びセグメントの終了から短い時間だけ前に現れる2つのフレーム、又は、それらの任意の組み合わせ等が含まれる。本発明の代替的な実施形態では、各セグメントは異なる数の代表的フレームを有することもできる。そのような代表的フレームの集合の例には、セグメントのI個のフレーム、セグメント内の短い間隔(たとえば0.5秒)においてサンプリングされたフレーム、又は、セグメントアクティビティが閾値を超えたフレーム、又は、それらの任意の組み合わせ等が含まれる。セグメントアクティビティは、たとえば直前の代表的フレームからの、ピクセル単位の絶対フレーム差分(absolute pixel-wise frame difference)の累計として、又はセグメント内の特定の瞬間の動き強度として計算される。本発明のさらに別の実施形態では、セグメントsxの代表的フレームは、少なくとも1つの固定されたフレーム集合、たとえばセグメントの最初のフレーム及び最後のフレームを含み、これは、たとえばセグメント内の短い時間間隔でサンプリングされた、可変数の他のフレームによって補われる。さらに、各セグメントをその実際のフレーム全体又はその実際のフレームのサブセット全体によって表す代わりに、セグメントは重要な視覚特性を捕捉する上記フレームの記述子によって表すこともできる。そのような視覚記述子の例には、限定ではないが、支配色記述子及びスケーラブル色記述子が含まれる。これらの記述子は、ここでは詳細に提示しないが、MPEG−7標準規格ISO/IEC15938−3:2002において規定され、詳述されている。
【0046】
2つのフレームの間の差分又はそれぞれの記述子間の差分、すなわちフレーム間差分は、用いられる代表的な特徴のタイプについて適切に選択された基準に従って、フレーム差分計算機95によって計算される。たとえば、実際のフレーム間の差分は、フレーム間のピクセル単位の絶対差分の和として計算することができる一方、フレーム記述子間の差分は記述子タイプ毎に適切に選択された基準に従って計算することができる。
【0047】
2つのセグメントの間の差分、すなわちセグメント間差分は、フレーム間差分関数評価器99によって、第1のセグメントの代表的フレーム又は記述子のうちの1つ又は複数と、第2のセグメントの代表的フレーム又は記述子のうちの1つ又は複数との間の差分の関数として計算される。たとえば、それぞれ4個及び3個の代表的フレームによって表されるセグメントsx及びsyの場合、合計12個のフレーム間差分を、フレーム差分計算機95によって、たとえばそれぞれのフレーム間のピクセル単位の絶対差分の和として計算することができ、セグメント間差分はフレーム間差分関数評価器99によって上記フレーム間差分の関数として計算することができる。本発明の1つの実施形態では、この関数は最小値として規定され、すなわち、セグメント間差分は、最小のフレーム間差分として規定される。代替的な関数には、最大値、中央値、平均値が含まれるがこれらには限定されない。
【0048】
本発明の1つの実施形態では、フレーム間差分は、重み計算機97によって重み付けされ、その後、フレーム間差分関数評価器99がセグメント間差分を計算するために重み付けされたフレーム間差分の関数を評価する。セグメント内におけるそれぞれの代表的な特徴の時間位置と、各セグメントの相対的な時間的位置とに従って、フレーム間差分毎の重みが求められる。
【0049】
たとえば、フレームfgaによって表されるセグメントsa(ここでg∈[0,Qa−1]はセグメントsaのための代表的フレームのインデックスであり、Qaはセグメントsaのための代表的フレーム数である)、及びフレームfhbによって表されるセグメントsb(ここでh∈[0,Qb−1]はセグメントsbのための代表的フレームのインデックスであり、Qbはセグメントsbのための代表的フレーム数である)の場合(ここでsaはセグメントの時系列においてsbに先行する)、重み付けされていないフレーム間差分d(fga,fhb)は、適切な基準、たとえばピクセル単位の絶対差分の和に従って計算することができ、重み付けされた差分d’(fga,fhb)は、d’(fga,fhb)=wa(g)wb(h)d(fga,fhb)として計算することができる。ここで、waは先行するセグメントsaのための重み関数であり、wbは、後続のセグメントsbのための重み関数である。たとえば、wa(g)=g/Qa及びwb(h)=(1−h)/Qbであり、それらの積はwa(g)wb(h)=g(1−h)/(Qab)である。これは図7に示されている。要するに、これは、フレーム間差分が、先行するセグメントsaの末尾により近いフレームと、後続のセグメントsbの先頭により近いフレームとの間で計算されるほど、そのフレーム間差分にますます高い重要度を与える。これは、2つのショット(一般的な低レベルの構造ユニットではなく実際のビデオショット)が関連しているとき、先行するショットの最後のいくつかのフレームが後続のショットの最初のいくつかのフレームと極めて類似し得ることを反映している。別の例として、d’(fga,fhb)は、d’(fga,fhb)=w(g,h)d(fga,fhb)として計算することができる。ここで、wは図8に示す2Dガウス関数である。要するに、これは、フレーム間差分が、2つのセグメントの中央により近いフレームの間で計算されるほど、そのフレーム間差分にますます高い重要度を与える。これは、ショットの中央(一般的な低レベルの構造ユニットではなく実際のビデオショット)が通常、ショットの最も重要な要素を捕捉することを反映している。
【0050】
再び図2を参照すると、ステップS130において、強度基準値計算機100がセグメント間差分を用いて、1つ又は複数の意味的境界強度基準値を、上記セグメント間差分の関数として計算する。次に、ステップS140において、強度基準値が判定計算機110によって処理され、仮定された意味的境界が承認又は拒絶される。
【0051】
たとえば、ステップS130において、仮定をまたがるセグメント間差分について、単一の強度基準値Scrossを最小セグメント間差分として計算することができる。次に、ステップS140において、Scrossの値が閾値TH8を上回っている場合、cが意味的境界であると検証される。要するに、最も類似したセグメントでさえ非常に異なっていると判定される場合、cが意味的境界であると検証される。
【0052】
代替的に、より洗練された実施形態では、ステップS130において、仮定をまたがるセグメント間差分及び同じ側のセグメントの差分の双方について、仮定をまたがる強度基準値Scrossを最小の仮定をまたがるセグメント間差分として計算することができ、同じ側の強度基準値Swithinを最大の同じ側のセグメント間差分として計算することができる。したがって、この場合、計算された強度基準値は、Scross及びSwithinの双方を含む。次に、ステップS140において、Scrossの値が閾値TH8を超えており、かつSwithinの値が閾値TH9未満である場合に、cは意味的境界であると検証される。要するに、仮定された意味的境界にまたがって最も類似したセグメントでさえ非常に異なっていると判定される場合で、かつ仮定された意味的境界のいずれかの側の最も異なるセグメントでさえ非常に類似していると判定される場合、cは意味的境界であると検証される。
【0053】
明らかに、ここで、最小値関数及び最大値関数は強度基準値の計算のための例として用いられ、任意の他の適切な関数を用いることができる。たとえば、代替的な関数には、限定ではないが、中央値、平均値等が含まれる。
【0054】
さらに、セグメント間差分は、いずれの意味的境界強度基準値の計算よりも前に、セグメントの時間的分離に従って強度基準値計算機100によって適切に重み付けすることができる。たとえば、cの前のセグメントsx及びcの後のセグメントsyについて、それらの重み付けされた差分D’(sx,sy)はD’(sx,sy)=W(x,y)D(sx,sy)として計算することができる。ここで、D(sx,sy)はそれらのセグメントの重み付けされていない差分であり、Wは重み関数である。たとえば、
【0055】
W(x,y)=1/√(y−x)
【0056】
である。これは図9に示されている。代替的に、重み関数はセグメントインデックスの時間的距離の関数としてではなく、時刻の時間的距離の関数として規定することもできる。同様に、cの前又はcの後いずれかのセグメント間のセグメント間差分も、いずれの意味的境界強度基準値の計算よりも前に適切な重み付け関数を用いて強度基準値計算機100によって重み付けすることができる。
【0057】
ここで再び図2を参照すると、ステップS150及びS105において、2つのセグメントsn及びsn+1の間の仮定された意味的境界cの承認又は拒絶に続いて、仮定された意味的境界cがセグメントsn+1及びsn+2間に移動し、処理が上記と同様にして再開する。代替的に、cが意味的境界として承認される場合、仮定された意味的境界は、1つのセグメント分だけ前方に(すなわち2つのセグメントsn+1及びsn+2の間に)移動されるのではなく、より大きな固定数のセグメントだけ移動されてもよい。又は、新たな仮定された意味的境界が少なくとも或る特定の持続時間、承認されたばかりの意味的境界から離れるように、可変数のセグメントだけ移動されてもよい。又は、新たな仮定された意味的境界の承認若しくは拒絶が、承認されたばかりの意味的境界の検証のために以前に処理されたいかなるセグメントの処理も必要としないように、求められた可変数のセグメントだけ移動されてもよい。
【0058】
第2の実施形態
本発明の第2の実施形態において実行される処理動作が図10に示されている。
【0059】
図10を参照すると、ステップS800、S805、S810、S820、及びS830は、それぞれ図2のステップS100、S105、S110、S120、及びS130と同一であり、したがって、ここでは再び説明しない。しかしながら、この第2の実施形態では、個々の仮定された意味的境界自体の正当性に関する判定は下されない。その代わり、仮定された意味的境界毎に計算される意味的境界強度基準値(複数可)は、ビデオ全体に対して計算及び格納される。次に、ステップS850において、それらの意味的境界基準値は、(好ましくは、それらの値の何らかの関数に従って)強度基準値計算機100によって正規化される。たとえば、強度基準値シーケンスSj(ここでj∈[0,M−1])の場合、すなわちビデオ内の全てのセグメント境界において計算される場合、正規化強度基準値はSj’=Sj/max(S)として、すなわちシーケンスをその最大値で除算することによって計算することができる。代替的に、正規化は、観測された最大値に従うのではなく、大きいほうからいくつかの値の平均値に従ってもよく、又は中央値等に従ってもよい。次に、ステップS860において、図2のステップS140と本質的に同様に処理することによって、仮定された意味的境界が承認又は拒絶される。要するに、これによって、意味的境界検出が各特定のビデオに適合することが可能になり、それによってビデオコンテンツの性質に関わらず最良の意味的境界が検出される。
【0060】
代替的に、ステップS860において、意味的境界は図2のステップS140のように閾値処理をすることによってではなく、所望の数の意味的境界が生成されるように最も強い意味的境界強度(複数可)を有する意味的境界を選択することによって検証される。この意味的境界の所望の数は、システムのユーザーによって指定することもでき、又はたとえばビデオの総持続時間を所望の平均チャプター持続時間で除算することによって自動的に計算することもできる。所望の平均チャプター持続時間は、ユーザーによって特定することもでき、又はたとえば所与のジャンルのビデオのための所望の平均チャプター持続期間の規則に従って自動的に計算することもできる。
【0061】
変更及び変形
本発明の範囲内で、上述した実施形態に多数の変更及び変形を行うことができる。
【0062】
たとえば、上述したように、セグメントのための様々なタイプの代表的な特徴、たとえばフレーム又はフレームの記述子が存在する。本発明の一実施形態は、2つ以上のタイプの代表的な特徴を用いることができる。例として、本発明の1つの実施形態は、各セグメントの各代表的フレームから抽出された支配色記述子及びスケーラブル色記述子の双方を用いることができる。別の例として、本発明の異なる実施形態は、代表的フレームと、代表的フレームの1つ又は複数の記述子とを用いることができる。複数のタイプの代表的な特徴が用いられるとき、フレーム間差分及びセグメント間差分を計算し、意味的境界を検出するための上記の処理は、代表的な特徴のタイプ毎に別個に実行することができる。これによって、代表的な特徴のタイプ毎に1つずつ、ビデオの意味的境界の複数の集合が生じる。これは、3つの異なるタイプの代表的な特徴について図11に示されている。図11を参照すると、ステップS1100、S1110、及びS1120のそれぞれが図2又は図10に従って実施される。ステップS1150において、意味的境界の異なる集合が、そのビデオに対する意味的境界の単一の最終集合に融合される。たとえば、これは単に全ての集合からの全ての意味的境界を意味的境界の最終集合内に受容することによって達成することができる。代替的に、全ての集合からの全ての意味的境界は意味的境界の最終集合に暫定的に受容することもできる。次に、時間的近接性が最も小さい意味的境界(the semantic boundaries with the smallest temporal proximity)が検査される。この時間的近接性が、セグメントインデックスの時間的距離又は時刻の時間的距離の観点で表される或る閾値TH10を下回る場合、一方のみ、たとえば先行する一方、又は好ましい代表的な特徴のタイプによって生成された一方、又はより高い強度基準値を有する一方等が保持される。この処理は、全ての意味的境界の時間的近接性が所定の閾値TH10を上回るまで反復される。
【0063】
代替的に、複数のタイプの代表的な特徴が用いられる場合、セグメント間差分の計算の前に、たとえば正規化及び平均化によって、各タイプによるフレーム間差分を最終的なフレーム間差分に融合することができる。同様に、各タイプに従ってフレーム間差分を融合するのではなく、各タイプに従ってセグメント間差分を計算し、その後さらなる処理の前に、たとえば正規化及び平均化によって、最終的なセグメント間差分に融合することもできる。いずれの場合でも、異なる代表的な特徴タイプに従ってフレーム間差分又はセグメント間差分の組み合わせを重み付けしないこともでき、又は或る特定の特徴タイプにより高い重要度を与えるように重み付けすることもできる。
【0064】
さらに、各セグメントを実際のフレーム若しくはフレームの記述子によって表す代わりに、又はそれに加えて、複数のフレーム又はセグメント全体そのものの重要な視覚特性を捕捉する記述子によってセグメントを表すことができる。そのような視覚記述子の一例は、動きアクティビティ記述子である。この記述子はここでは詳細に提示しないが、MPEG−7標準規格ISO/IEC15938−3:2002において規定され、詳述されている。
【0065】
さらに、各セグメントを、ビデオフレーム、ビデオフレームの記述子、複数のビデオフレームの記述子、若しくはビデオセグメント全体そのものの記述子によって表す代わりに、又はそれに加えて、セグメントは、オーディオ特徴、たとえば通常オーディオサンプルの短いシーケンス(たとえば1024サンプル)として規定されるオーディオフレーム、又はオーディオ特徴、たとえばボリューム、ピッチ、主周波数、等によって表すことができる。
【0066】
さらに、ビデオを視覚特性に従ってビデオセグメントに分割する代わりに、ビデオは、オーディオ特性に基づいてビデオセグメントに分割することができる。オーディオ特性は、たとえば、オーディオコンテンツの重大な変化点(音声ショット変化だけでなく他の重大なオーディオ変化も含むことができる)や、固定の短い長さのオーディオセグメント(たとえば1秒若しくは2秒の持続時間)である。
【0067】
本発明の実施形態の方法は、圧縮(たとえばMPEG−1若しくはMPEG−2若しくはH.264の符号化方法を用いて)されたビデオシーケンスに対しても、あるいは圧縮されていないビデオシーケンスに対しても、動作することが意図されている。圧縮されたビデオシーケンスの場合、ビデオシーケンスは処理の前に復号することができる。代替的に、本発明の一実施形態は、圧縮されたビデオシーケンスに対し直接動作することもでき、又は、部分的に復号されたビデオシーケンスに対し、データに関して適切に選択された代表的な特徴を用いて動作することもできる。

【特許請求の範囲】
【請求項1】
ビデオフレームのシーケンスを処理して前記シーケンス内の意味的ビデオ境界を検出する方法であって、
前記シーケンス内のビデオセグメント間のセグメント境界を識別することであって、各ビデオセグメントは複数のビデオフレームを含む、ビデオセグメント間のセグメント境界を識別すること、
識別されたセグメント境界を、仮定された意味的ビデオ境界として選択すること、
前記仮定された意味的ビデオ境界の少なくとも一方の側に、前記仮定された意味的ビデオ境界に隣接したビデオセグメントのウィンドウを規定することであって、前記ウィンドウは複数のビデオセグメントを含む、ウィンドウを規定すること、
前記ウィンドウ内の前記ビデオセグメントのうちの少なくともいくつかの間のセグメント間差分を計算すること、
前記計算されたセグメント間差分に依存して、前記仮定された意味的ビデオ境界のための少なくとも1つの強度基準値を計算すること、及び
前記計算された強度基準値(複数可)に依存して前記仮定された意味的ビデオ境界を承認又は拒否すること、
を含む、方法。
【請求項2】
ビデオセグメントの前記ウィンドウは、
前記仮定された意味的ビデオ境界と、
前記仮定された意味的ビデオ境界の各それぞれの側の、少なくとも1つのビデオセグメントと
を含むように規定され、
前記仮定された意味的ビデオ境界について互いに異なる側のビデオセグメントの間のセグメント間差分が計算され、仮定をまたがるセグメント間差分が生成され、
前記仮定されたビデオ境界のための前記強度基準値(複数可)は前記仮定をまたがるセグメント間差分に依存して計算される、請求項1に記載の方法。
【請求項3】
前記仮定された意味的ビデオ境界について互いに異なる側のビデオセグメントが比較のために選択され、前記ビデオセグメント間の距離が閾値未満である場合、仮定をまたがるセグメント間差分が計算される、請求項2に記載の方法。
【請求項4】
前記仮定された意味的ビデオ境界の少なくとも一方の側において、同じ側のビデオセグメントの間のセグメント差分が計算され、同じ側のセグメント間差分が生成され、
前記仮定されたビデオ境界の前記強度基準値(複数可)は、前記仮定をまたがるセグメント間差分及び前記同じ側のセグメント間差分の双方に依存して計算される、請求項2又は3に記載の方法。
【請求項5】
前記仮定された意味的ビデオ境界について同じ側にある複数のビデオセグメントについて、それらのビデオセグメントの間の距離が閾値より大きい場合、それらのビデオセグメントが比較のために選択され、同じ側のセグメント差分が計算される、請求項4に記載の方法。
【請求項6】
ビデオセグメントの前記ウィンドウは、前記仮定された意味的ビデオ境界のそれぞれの側の前記ビデオセグメントが、前記ビデオセグメントの総持続時間が時間閾値を下回らないという条件を満たすように規定される、請求項2〜5のいずれか一項に記載の方法。
【請求項7】
ビデオセグメントの前記ウィンドウは、前記仮定された意味的ビデオ境界のそれぞれの側の前記ビデオセグメントについて、前記ビデオセグメントの数が最小セグメント数よりも大きいという条件を満たすように規定される、請求項2〜6のいずれか一項に記載の方法。
【請求項8】
ビデオセグメントの前記ウィンドウは、前記ウィンドウ内のビデオセグメントの総数が最大セグメント数を超えないように規定される、請求項2〜7のいずれか一項に記載の方法。
【請求項9】
各ビデオセグメントは、前記ビデオセグメント内の少なくとも1つのビデオフレームの視覚特性を規定する少なくとも1つの視覚記述子によって表され、
ビデオセグメント間のセグメント間差分を計算する処理は、それらのビデオセグメントの前記視覚記述子(複数可)の間の差分を計算することを含む、請求項1〜8のいずれか一項に記載の方法。
【請求項10】
各ビデオセグメントは、前記ビデオセグメント内の複数のビデオフレームのそれぞれについて少なくとも1つの視覚記述子を含む、複数の視覚記述子によって表され、
ビデオセグメント間のセグメント間差分を計算する処理は、
各ビデオセグメント内の比較される複数のビデオフレームを選択すること、
前記セグメントの一方の内の前記選択されたビデオフレームと、前記セグメントの他方の内の前記選択されたビデオフレームとの間のフレーム間差分を計算することであって、各フレーム間差分は比較されている各ビデオフレームの少なくとも1つの視覚記述子間の差分を計算することによって計算される、フレーム間差分を計算すること、
前記計算されたフレーム間差分のそれぞれを重み付けして、重み付けされた差分を生成すること、及び
前記重み付けされた差分の関数を評価すること、
を含む、請求項9に記載の方法。
【請求項11】
計算されたフレーム間差分のそれぞれは、前記フレーム間差分が計算された前記ビデオフレームの、前記ビデオセグメント内での位置に依存して重み付けされる、請求項10に記載の方法。
【請求項12】
計算されたフレーム間差分のそれぞれは、前記フレーム間差分が計算された前記ビデオフレームを含む各前記ビデオセグメントの相対的な位置に依存して重み付けされる、請求項10又は11に記載の方法。
【請求項13】
計算されたフレーム間差分のそれぞれは、前記フレーム間差分を計算するために比較される前記視覚記述子(複数可)のタイプに依存して重み付けされる、請求項10〜12のいずれか一項に記載の方法。
【請求項14】
各視覚記述子は、支配色記述子、スケーラブル色記述子、又は動きアクティビティ記述子のうちの少なくとも1つを含む、請求項9〜13のいずれか一項に記載の方法。
【請求項15】
各セグメント間差分は、前記セグメント間差分が計算された前記セグメントの時間的分離に依存して重み付けされ、
前記少なくとも1つの強度基準値は、前記重み付けされたセグメント間差分に依存して計算される、請求項1〜14のいずれか一項に記載の方法。
【請求項16】
各ビデオセグメントは異なるタイプの複数の代表的な特徴によって表され、
セグメント間差分を計算する処理は、代表的な特徴のタイプ毎に実行され、比較されるビデオセグメントの対毎に複数のセグメント間差分が生成され、
比較されるビデオセグメントの対毎に、前記複数のセグメント間差分は最終的なセグメント間差分に融合され、
前記少なくとも1つの強度基準値は前記最終的なセグメント間差分に依存して計算される、請求項1〜15のいずれか一項に記載の方法。
【請求項17】
各ビデオセグメントは、前記セグメント内の複数のビデオフレームのそれぞれについて、異なるタイプの複数の代表的な特徴によって表され、
ビデオセグメント間のセグメント間差分を計算する処理は、
ビデオフレームのそれぞれの対を比較することであって、各対は前記セグメントの一方内のビデオフレームと、他方の前記セグメント内のビデオフレームとを含み、各対は、複数のフレーム間差分を計算することによって比較され、各フレーム間差分はそれぞれのタイプの代表的な特徴を比較することによって計算される、ビデオフレームのそれぞれの対を比較すること、
比較されるビデオフレームの対毎に、前記フレーム間差分を少なくとも1つの最終的なフレーム間差分に融合すること、及び
前記最終的なフレーム間差分に依存してセグメント間差分を計算すること、
を含む、請求項1〜15のいずれか一項に記載の方法。
【請求項18】
各ビデオセグメントは異なるタイプの複数の代表的な特徴によって表され、
複数の前記識別されたセグメント境界が仮定された意味的ビデオ境界として選択され、
異なるタイプの代表的な特徴に対して毎回、仮定された意味的ビデオ境界毎に、セグメント間差分を計算する前記処理、少なくとも1つの強度基準値を計算する前記処理、及び前記仮定された意味的ビデオ境界を承認又は拒否する前記処理が複数回実行され、異なるタイプの代表的な特徴毎に意味的ビデオ境界の集合が生成され、
意味的ビデオ境界の集合は前記ビデオシーケンスについての意味的ビデオ境界の集合に融合される、請求項1〜15のいずれか一項に記載の方法。
【請求項19】
前記仮定されたビデオ境界のための前記強度基準値は、仮定をまたがるセグメント間差分の最小値に依存して計算される、請求項2〜8のいずれか一項に記載の方法、または、請求項2〜8のいずれか一項に従属するときの請求項9〜18のいずれか一項に記載の方法。
【請求項20】
前記仮定をまたがるセグメント間差分の最小値が閾値を上回る場合、前記仮定された意味的ビデオ境界は承認される、請求項19に記載の方法。
【請求項21】
複数の前記識別された境界が仮定された意味的ビデオ境界として選択され、
ビデオフレームセグメントのウィンドウを規定する前記処理、セグメント間差分を計算する前記処理、及び少なくとも1つの強度基準値を計算する前記処理は、仮定された意味的ビデオ境界のそれぞれについて実行され、
複数の仮定された意味的ビデオ境界の前記計算された強度基準値は正規化され、
各仮定された意味的ビデオ境界は前記正規化された強度基準値に依存して承認又は拒否される、請求項1〜19のいずれか一項に記載の方法。
【請求項22】
前記ビデオセグメント間の前記セグメント境界は前記ビデオシーケンスのオーディオ特性に基づいて識別される、請求項1〜21のいずれか一項に記載の方法。
【請求項23】
各ビデオセグメントは前記ビデオセグメントの少なくとも1つのオーディオ特徴によって表され、
ビデオセグメント間のセグメント間差分を計算する前記処理は、各ビデオセグメントの前記オーディオ特徴(複数可)間の差分を計算することを含む、請求項1〜22のいずれか一項に記載の方法。
【請求項24】
ビデオフレームのシーケンスを処理して前記シーケンス内の意味的ビデオ境界を検出するように動作可能な装置であって、
前記シーケンス内のビデオセグメント間のセグメント境界を識別するように動作可能なセグメント境界識別器であって、各ビデオセグメントは複数のビデオフレームを含む、セグメント境界識別器と、
識別されたセグメント境界を、仮定された意味的ビデオ境界として選択するように動作可能なセグメント境界選択器と、
前記仮定された意味的ビデオ境界の少なくとも一方の側に、前記仮定された意味的ビデオ境界に隣接したビデオセグメントのウィンドウを規定するように動作可能なウィンドウ識別器であって、前記ウィンドウは複数のビデオセグメントを含む、ウィンドウ識別器と、
前記ウィンドウ内の前記ビデオセグメントのうちの少なくともいくつかの間のセグメント間差分を計算するように動作可能なセグメント間差分計算機と、
前記計算されたセグメント間差分に依存して、前記仮定された意味的ビデオ境界のための少なくとも1つの強度基準値を計算するように動作可能な強度基準値計算機と、
前記計算された強度基準値(複数可)に依存して前記仮定された意味的ビデオ境界を承認又は拒否するように動作可能な判定計算機と、
を備える、装置。
【請求項25】
前記ウィンドウ識別器は、
前記仮定された意味的ビデオ境界と、
前記仮定された意味的ビデオ境界の各側の、少なくとも1つのビデオセグメントと
を含むように、ビデオセグメントの前記ウィンドウを規定するように動作可能であり、
前記セグメント間差分計算機は、前記仮定された意味的ビデオ境界について互いに異なる側のビデオセグメント間のセグメント間差分を計算し、仮定をまたがるセグメント間差分を生成するように動作可能であり、
前記強度基準値計算機は、前記仮定されたビデオ境界のための前記強度基準値(複数可)を、前記仮定をまたがるセグメント間差分に依存して計算するように動作可能である、請求項24に記載の装置。
【請求項26】
前記仮定された意味的ビデオ境界について互いに異なる側のビデオセグメントについて、それらのビデオセグメントの間の距離が閾値未満である場合、前記セグメント間差分計算機は、それらのビデオセグメントを比較のために選択し、仮定をまたがるセグメント間差分を計算するように動作可能である、請求項25に記載の装置。
【請求項27】
前記セグメント間差分計算機は、前記仮定された意味的ビデオ境界の少なくとも一方の側において、同じ側のビデオセグメントの間のセグメント間差分を計算し、同じ側のセグメント間差分を生成するようにさらに動作可能であり、
前記強度基準値計算機は、前記仮定をまたがるセグメント間差分及び前記同じ側のセグメント間差分の双方に依存して、前記仮定されたビデオ境界の強度基準値(複数可)を計算するように動作可能である、請求項25又は26に記載の装置。
【請求項28】
前記仮定された意味的ビデオ境界の同じ側にある複数のビデオセグメントについて、それらのビデオセグメント間の距離が閾値よりも大きい場合、前記セグメント間差分計算機は、それらのビデオセグメントを比較のために選択し、同じ側のセグメント間差分を計算するように動作可能である、請求項27に記載の装置。
【請求項29】
前記ウィンドウ識別器は、ビデオセグメントの前記ウィンドウを、前記仮定された意味的ビデオ境界の各側の前記ビデオセグメントについて、「前記ビデオセグメントの総持続時間が時間閾値を下回らない」という条件を満たすよう規定するように動作可能である、請求項25〜28のいずれか一項に記載の装置。
【請求項30】
前記ウィンドウ識別器は、ビデオセグメントの前記ウィンドウを、前記仮定された意味的ビデオ境界の各側の前記ビデオセグメントについて、「前記ビデオセグメントの数が最小セグメント数よりも大きい」という条件を満たすよう規定するように動作可能である、請求項25〜29のいずれか一項に記載の装置。
【請求項31】
前記ウィンドウ識別器は、ビデオセグメントの前記ウィンドウを、前記ウィンドウ内のビデオセグメントの総数が最大セグメント数を超えないよう規定するように動作可能である、請求項25〜30のいずれか一項に記載の装置。
【請求項32】
前記装置はビデオシーケンスを処理するように動作可能であり、
前記ビデオシーケンスにおいて、各ビデオセグメントは、当該ビデオセグメント内の少なくとも1つのビデオフレームの視覚特性を規定する少なくとも1つの視覚記述子によって表され、
前記セグメント間差分計算機は、前記ビデオセグメントの前記視覚記述子(複数可)の間の差分を計算することによって、ビデオセグメント間のセグメント間差分を計算するように動作可能である、請求項24〜31のいずれか一項に記載の装置。
【請求項33】
前記装置は、ビデオシーケンスを処理するように動作可能であり、
前記ビデオシーケンスにおいて、各ビデオセグメントは複数の視覚記述子によって表され、
前記複数の視覚記述子は、当該ビデオセグメント内の複数のビデオフレームのそれぞれについて少なくとも1つの視覚記述子を含み、
前記セグメント間差分計算機は、
各ビデオセグメント内において、比較されるべき複数のビデオフレームを選択するように動作可能なフレーム選択器と、
前記セグメントの一方の内の前記選択されたビデオフレームと、前記セグメントの他方の内の前記選択されたビデオフレームとの間のフレーム間差分を計算するように動作可能なフレーム差分計算機であって、比較される各ビデオフレームについての少なくとも1つの視覚記述子の間の差分を計算することによって各フレーム間差分を計算するように動作可能な、フレーム差分計算機と、
前記計算されたフレーム間差分のそれぞれを重み付けして、重み付けされた差分を生成するように動作可能な重み計算機と、
前記重み付けされた差分の関数を評価するように動作可能なフレーム間差分関数評価器と、
を備える、請求項32に記載の装置。
【請求項34】
前記重み計算機は、計算されたフレーム間差分のそれぞれを、当該フレーム間差分が計算されたそのビデオフレームの、ビデオセグメント内の位置に依存して重み付けするように動作可能である、請求項33に記載の装置。
【請求項35】
前記重み計算機は、計算されたフレーム間差分のそれぞれを、当該フレーム間差分が計算されたビデオフレームを含むビデオセグメントの、相対的な位置に依存して重み付けするように動作可能である、請求項33又は34に記載の装置。
【請求項36】
前記重み計算機は、計算されたフレーム間差分のそれぞれを、当該フレーム間差分を計算するために比較された前記視覚記述子(複数可)のタイプに依存して重み付けするように動作可能である、請求項33〜35のいずれか一項に記載の装置。
【請求項37】
各視覚記述子は、支配色記述子、スケーラブル色記述子、又は動きアクティビティ記述子のうちの少なくとも1つを含む、請求項32〜36のいずれか一項に記載の装置。
【請求項38】
前記強度基準値計算機は、各セグメント間差分を、前記セグメント間差分が計算された当該セグメント間の時間的分離に依存して重み付けするように動作可能であり、
前記強度基準値計算機は、前記少なくとも1つの強度基準値を、前記重み付けされたセグメント間差分に依存して計算するように動作可能である、請求項24〜37のいずれか一項に記載の装置。
【請求項39】
前記装置はビデオシーケンスを処理するように動作可能であり、
前記ビデオシーケンスにおいて、各ビデオセグメントが異なるタイプの複数の代表的な特徴によって表され、
前記セグメント間差分計算機は、セグメント間差分を計算する前記処理を、代表的な特徴のそれぞれのタイプ毎に実行して、比較されるビデオセグメントの対毎に複数のセグメント間差分を生成するように動作可能であり、
前記セグメント間差分計算機は、比較されるビデオセグメントの対毎に、前記複数のセグメント間差分を最終的なセグメント間差分に融合するように動作可能であり、
前記強度基準値計算機は、前記最終的なセグメント間差分に依存して前記少なくとも1つの強度基準値を計算するように動作可能である、請求項24〜38のいずれか一項に記載の装置。
【請求項40】
前記装置はビデオシーケンスを処理するように動作可能であり、
前記ビデオシーケンスにおいて、各ビデオセグメントが、前記セグメント内の複数のビデオフレームのそれぞれについて異なるタイプの複数の代表的な特徴によって表され、
前記セグメント間差分計算機は、
ビデオフレームの対をそれぞれ比較することであって、各対は前記セグメントの一方の内のビデオフレームと、他方の前記セグメントの内のビデオフレームとを含み、各対は、複数のフレーム間差分を計算することによって比較され、各フレーム間差分はそれぞれのタイプの前記代表的な特徴を比較することによって計算される、ビデオフレームのそれぞれの対を比較すること、
比較されるビデオフレームの対毎に、前記複数のフレーム間差分を少なくとも1つの最終的なフレーム間差分に融合すること、及び
前記最終的なフレーム間差分に依存してセグメント間差分を計算すること、
によってビデオセグメント間のセグメント間差分を計算するように動作可能である、請求項24〜38のいずれか一項に記載の装置。
【請求項41】
前記装置はビデオシーケンスを処理するように動作可能であり、
前記ビデオシーケンスにおいて、各ビデオセグメントが異なるタイプの複数の代表的な特徴によって表され、
前記セグメント境界選択器は、複数の前記識別されたセグメント境界を仮定された意味的ビデオ境界として選択するように動作可能であり、
前記セグメント間差分計算機、強度基準値計算機、及び判定計算機は、異なるタイプの代表的な特徴毎に意味的ビデオ境界の集合を生成するために、異なるタイプの代表的な特徴毎に、かつ、仮定された意味的ビデオ境界毎に、処理を実行するように構成され、
前記装置は、前記意味的ビデオ境界の集合を前記ビデオシーケンスのための意味的ビデオ境界の集合に融合するように動作可能である、請求項24〜38のいずれか一項に記載の装置。
【請求項42】
前記強度基準値計算機は、前記仮定されたビデオ境界のための前記強度基準値を、仮定をまたがるセグメント間差分の最小値に依存して計算するように動作可能である、請求項25〜31のいずれか一項に記載の装置、又は、請求項25〜31のいずれか一項に従属するときの請求項32〜41のいずれか一項に記載の装置。
【請求項43】
前記判定計算機は、前記仮定をまたがるセグメント間差分の最小値が閾値を上回る場合、前記仮定された意味的ビデオ境界を承認するように動作可能である、請求項42に記載の装置。
【請求項44】
前記セグメント境界選択器は、複数の前記識別された境界を仮定された意味的ビデオ境界として選択するように動作可能であり、
前記ウィンドウ識別器、セグメント間差分計算機、及び強度基準値計算機は、仮定された意味的ビデオ境界のそれぞれについて処理を実行するように構成され、
前記強度基準値計算機は、複数の仮定された意味的ビデオ境界の前記計算された強度基準値を正規化するように動作可能であり、
前記判定計算機は、各仮定された意味的ビデオ境界を、前記正規化された強度基準値に依存して承認又は拒否するように動作可能である、請求項24〜42のいずれか一項に記載の装置。
【請求項45】
前記セグメント境界識別器は、前記ビデオセグメント間の前記セグメント境界を、前記ビデオシーケンスのオーディオ特性に基づいて識別するように動作可能である、請求項24〜44のいずれか一項に記載の装置。
【請求項46】
前記装置はビデオシーケンスを処理するように動作可能であり、
前記ビデオシーケンスにおいて、各ビデオセグメントが前記ビデオセグメントの少なくとも1つのオーディオ特徴によって表され、
前記セグメント間差分計算機は、各ビデオセグメントの前記オーディオ特徴(複数可)間の差分を計算することによってビデオセグメント間のセグメント間差分を計算するように動作可能である、請求項24〜45のいずれか一項に記載の装置。
【請求項47】
請求項1〜23の少なくとも1項に記載の方法を実行するように動作可能となるよう、プログラム可能処理装置をプログラムするためのコンピュータープログラム命令を担持するコンピュータープログラム製品。

【図1a】
image rotate

【図1b】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4a】
image rotate

【図4b】
image rotate

【図4c】
image rotate

【図5】
image rotate

【図6a】
image rotate

【図6b】
image rotate

【図7a】
image rotate

【図7b】
image rotate

【図7c】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2012−23727(P2012−23727A)
【公開日】平成24年2月2日(2012.2.2)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−150285(P2011−150285)
【出願日】平成23年7月6日(2011.7.6)
【出願人】(503163527)ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ (175)
【氏名又は名称原語表記】MITSUBISHI ELECTRIC R&D CENTRE EUROPE B.V.
【住所又は居所原語表記】Capronilaan 46, 1119 NS Schiphol Rijk, The Netherlands
【Fターム(参考)】