説明

動画像処理装置、動画像処理方法およびプログラム

【課題】映像のカットを適切にグループ化可能な、動画像処理装置、動画像処理方法およびプログラムを提供する。
【解決手段】第1のカットグループの抽出画像から生成された特徴量S1と、第2のカットグループの抽出画像から生成された特徴量S2に基づき、後続カットと第1および第2のカットグループの類似度を判定し、後続カットが第1または第2のカットグループに類似する場合、後続カットを後続カットに類似する類似カットグループに区分し、いずれのカットグループにも類似しない場合、後続カットを第3のカットグループに区分するとともに、第3のカットグループから抽出された抽出画像と、第1および第2のカットグループから抽出された抽出画像を比較し、第3のカットグループの特徴量S3を生成することを含み、各カットグループの抽出画像は、各カットグループに含まれる画像のうち動画像のタイムコードの遅い画像から優先的に抽出される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画像処理装置、動画像処理方法およびプログラムに関する。
【背景技術】
【0002】
映像(動画像)は、一般に多数のカットから構成されている。映像表現では、制作者の意図に応じて、例えば同じような内容のカットを時間的に隔てて構成する等、カット構成に工夫を凝らす場合がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
ところで、映像の鑑賞や利用を目的として、映像のカット構成を把握することが求められる場合がある。この場合、映像を複数のカットに区分し、類似するカットを共通のカットグループに区分することで、映像のカット構成が把握される。しかし、カットのグループ化を適切に行わなければ、カット構成を適切に把握することができなくなってしまう。
【0004】
そこで、本発明は、映像のカットを適切にグループ化可能な、動画像処理装置、動画像処理方法およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0005】
本発明のある観点によれば、動画像に含まれる第1のカットグループの抽出画像から生成された特徴量と、動画像に含まれる第2のカットグループの抽出画像から生成された特徴量に基づき、後続カットと第1および第2のカットグループの類似度を判定する類似度判定部と、後続カットが第1または第2のカットグループに類似する場合、後続カットを第1または第2のカットグループのうち後続カットに類似する類似カットグループに区分し、後続カットが第1および第2のいずれのカットグループにも類似しない場合、後続カットを第3のカットグループに区分するカット区分部と、後続カットが第1および第2のいずれのカットグループにも類似しない場合、第3のカットグループから抽出された抽出画像と、第1および第2のカットグループから抽出された抽出画像を比較し、第3のカットグループの特徴量を生成する特徴量生成部と、各カットグループの抽出画像を、各カットグループに含まれる画像のうち動画像のタイムコードの遅い画像から優先的に抽出する画像抽出部とを備える動画像処理装置が提供される。
【0006】
上記特徴量生成部は、後続カットが第1または第2のカットグループに類似する場合、後続カットを含む類似カットグループから抽出された抽出画像と、後続カットに類似しないカットグループから抽出された抽出画像を比較し、類似カットグループの特徴量を生成してもよい。
【0007】
上記画像抽出部は、後続カットが第1または第2のカットグループに類似する場合、後続カットと後続カットに類似するカットグループ抽出画像を抽出してもよい。
【0008】
上記画像抽出部は、後続カットが第1または第2のカットグループに類似する場合、後続カットから抽出画像を抽出してもよい。
【0009】
上記特徴量生成部は、第1のカットグループから抽出された抽出画像と、第2のカットグループから抽出された抽出画像を比較し、第1および第2のカットグループの特徴量を各々に生成してもよい。
【0010】
上記画像抽出部は、各カットグループに含まれる画像のうちタイムコードの遅い順序で等間隔に位置する画像を抽出してもよい。
【0011】
上記画像抽出部は、各カットグループに含まれる画像のうちタイムコードの遅い順序で等比数列で表される間隔に位置する画像を抽出してもよい。
【0012】
上記画像抽出部は、各カットグループに含まれる画像のうちタイムコードの遅い順序で階差数列で表される間隔に位置する画像を抽出してもよい。
【0013】
また、本発明の別の観点によれば、動画像に含まれる第1のカットグループの抽出画像から生成された特徴量と、動画像に含まれる第2のカットグループの抽出画像から生成された特徴量に基づき、後続カットと第1および第2のカットグループの類似度を判定し、後続カットが第1または第2のカットグループに類似する場合、後続カットを第1または第2のカットグループのうち後続カットに類似する類似カットグループに区分し、後続カットが第1および第2のいずれのカットグループにも類似しない場合、後続カットを第3のカットグループに区分するとともに、第3のカットグループから抽出された抽出画像と、第1および第2のカットグループから抽出された抽出画像を比較し、第3のカットグループの特徴量を生成することを含み、各カットグループの抽出画像は、各カットグループに含まれる画像のうち動画像のタイムコードの遅い画像から優先的に抽出される動画像処理方法が提供される。
【0014】
また、本発明の別の観点によれば、上記動画像処理方法をコンピュータに実行させるためのプログラムが提供される。ここで、プログラムは、コンピュータ読取り可能な記録媒体を用いて提供されてもよく、通信手段等を介して提供されてもよい。
【発明の効果】
【0015】
以上説明したように本発明によれば、映像のカットを適切にグループ化可能な、動画像処理装置、動画像処理方法およびプログラムを提供することができる。
【図面の簡単な説明】
【0016】
【図1】本発明の実施形態に係る動画像処理方法の概要を示す図である。
【図2】本発明の実施形態に係る動画像処理装置の構成を示すブロック図である。
【図3】動画像処理装置の動作手順を示すフロー図である。
【図4】カット遷移の検出結果から求められたカット構成の一例を示す図である。
【図5】カット区分処理の手順を示すフロー図である。
【図6】特徴量生成処理の手順を示すフロー図である。
【図7】画像の抽出規則の一例を示す図である。
【図8】特徴量の再生成規則の一例を示す図である。
【図9】カット区分処理の結果の一例を示す図である。
【図10】特徴量生成処理の過程の一例を示す図である。
【図11】カット構成画像の一例を示す図である。
【発明を実施するための形態】
【0017】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0018】
[1.動画像処理方法の概要]
まず、図1を参照して、本発明の実施形態に係る動画像処理方法の概要について説明する。図1には、本発明の実施形態に係る動画像処理方法の概要が示されている。
【0019】
図1に示すように、動画像処理方法では、まず、動画像MPに含まれる第1のカットグループの画像のうち、動画像MPのタイムコードの遅い画像から優先的に画像が抽出される(ステップS1)。同様に、動画像MPに含まれる第2のカットグループの画像のうち、動画像MPのタイムコードの遅い画像から優先的に画像が抽出される(ステップS2)。つぎに、第1のカットグループの抽出画像から生成された特徴量S1と、第2のカットグループの抽出画像から生成された特徴量S2に基づき、後続カットと第1および第2のカットグループの類似度が判定される(ステップS3)。
【0020】
つぎに、後続カットが第1または第2のカットグループに類似するかが判定される(ステップS4)。そして、後続カットが第1または第2のカットグループに類似する場合(ステップS4で「Yes」)、後続カットが第1または第2のカットグループのうち後続カットに類似する類似カットグループ(例えば第1のカットグループ)に区分される(ステップS5)。
【0021】
一方、後続カットが第1および第2のいずれのカットグループにも類似しない場合(ステップS4で「No」)、後続カットが第3のカットグループに区分される(ステップS6)。さらに、後続カットを含む第3のカットグループの画像のうち、動画像MPのタイムコードの遅い画像から優先的に画像が抽出される(ステップS7)。そして、第3のカットグループの抽出画像と、第1および第2のカットグループの抽出画像を比較し、第3のカットグループの特徴量S3が生成される(ステップS8)。
【0022】
ここで、各カットグループの抽出画像は、各カットグループに含まれる画像のうち動画像MPのタイムコードの遅い画像から優先的に抽出される。そして、各カットグループの特徴量S(カットグループの特徴量の総称)は、各カットグループに含まれる画像のうち、動画像MPのタイムコード上で、類似判定の対象となる後続カットに近い画像の特徴量を重視して生成される。これにより、カット間の時間的コンテクスト(動画像MPのストーリ性等)を十分に考慮した上で、後続カットを適切にグループ化することができる。
【0023】
[2.動画像処理装置1の構成]
つぎに、図2を参照して、本発明の実施形態に係る動画像処理装置1の構成について説明する。図2には、動画像処理装置1の主要な機能構成が示されている。図2に示すように、動画像処理装置1は、データ取得部11、カット遷移検出部13、カット区分処理部15、カット構成画像生成部17、カット構成画像出力部19、カット構成情報出力部21、データ記憶部23を含んで構成される。
【0024】
データ取得部11は、複数のカットを含む動画像データMPを取得し、カット遷移検出部13、カット区分処理部15およびカット構成画像生成部17に供給する。動画像データMPは、一般にフレーム形式のデータであり、画像データのみでもよく、音声データとの組合せでもよい。動画像データMPは、データ記憶部23から取得されてもよく、外部装置(不図示)から取得されてもよい。
【0025】
カット遷移検出部13は、動画像データMP中のカット遷移を検出し、検出結果をカット区分処理部15に供給する。カット遷移とは、動画像MP中におけるカットの移り変わりを意味する。カット遷移は、相前後するフレーム中の画像および/または音声の特徴量を求め、特徴量の類似度に基づき検出される。画像および/または音声の特徴量としては、色ヒストグラムや顔画像検出、および/または音声の量や音調・リズム等を用いることができる。なお、カット遷移の検出結果は、カット区分処理部15の他に、カット構成情報出力部21、データ記憶部23、外部装置等に供給されてもよい。また、カット遷移の検出時に求められた特徴量は、データ記憶部23等に格納され、他の処理に利用されてもよい。
【0026】
カット区分処理部15は、詳細は後述するが、カット間の類似度に基づき複数のカットをカットグループに区分する。カットの区分結果は、カット遷移の検出結果とともに、カット構成画像生成部17に供給されるが、カット構成情報出力部21、データ記憶部23や外部装置等に供給されてもよい。カット区分処理部15は、カットの区分結果に基づきカットグループを表すグループIDを各カットに付与する。カット区分処理部15は、画像抽出部、類似度判定部、カット区分部および特徴量生成部として機能する。
【0027】
カット間の類似度は、カットに含まれる画像および/または音声の色ヒストグラムや顔画像の検出結果、および/または音声の量や音調・リズム等からなるカットの特徴量から生成される。カットグループとは、特徴量が互いに類似するカットの組合せを意味する。
【0028】
カット構成画像生成部17は、カット構成画像CIを生成するために、カット遷移の検出結果に基づき、各カットに含まれる画像から所定の基準に従って代表画像I(代表画像の総称)を抽出する。代表画像Iとは、各カットを代表する画像であり、例えばカットの中央フレームに相当する画像として抽出される。そして、カット構成画像生成部17は、動画像データMPおよびカットの区分結果に基づき、動画像MPのカット構成を示すカット構成画像CIを生成する。カット構成画像CIとは、例えば、各カットの代表画像Iをカット遷移の順序に従って並べ、かつカットグループを明示する画像である。
【0029】
カット構成画像出力部19は、ユーザが動画像MPのカット構成を容易に把握できるように、カット構成画像生成部17から供給されたカット構成画像CIを出力する。カット構成画像CIは、動画像処理装置1に接続された表示装置、印刷装置、記憶装置や外部装置(いずれも不図示)に出力されてもよい。
【0030】
カット構成情報出力部21は、ユーザがカット構成の把握に利用できるように、カットの区分結果等をカット構成情報として出力する。カット構成情報は、動画像処理装置1に接続された表示装置、印刷装置、記憶装置や外部装置(いずれも不図示)に出力されてもよい。カット構成情報は、カット構成を考慮した動画像検索を実現するためのデータとして利用することができる。
【0031】
データ記憶部23は、動画像データMPおよび動画像データMPに付属するデータを記憶している。データ記憶部23には、カット遷移の検出結果、カットの区分結果等のカット構成情報、さらにはカット構成画像CI自体が動画像データMPに関連付けて記憶されもよい。なお、図2では、データ記憶部23と他の構成要素との接続関係が一部省略されている。
【0032】
ここで、上記機能構成において、データ取得部11、カット遷移検出部13、カット区分処理部15、カット構成画像生成部17、カット構成画像出力部19、カット構成情報出力部21は、CPU、DSP(デジタル信号処理装置)等の演算処理装置により構成される。データ記憶部23は、フラッシュメモリ等の内部記憶装置、ハードディスクドライブ、ブルーレイディスクドライブ等の外部記憶装置により構成される。そして、CPUは、ROM等から読み出されたプログラムをRAM上に展開して実行することで、動画像処理方法を実現する。なお、上記機能構成は、少なくとも一部が専用ロジック等のハードウェアとして構成されてもよい。
【0033】
[3.動画像処理装置1の動作]
つぎに、図3から図11を参照して、本発明の実施形態に係る動画像処理装置1の動作について説明する。図3には、動画像処理装置1の動作手順が示されている。
【0034】
図3に示すように、まず、データ取得部11では、動画像データMPが取得され(ステップS11)、カット遷移検出部13等に供給される。カット遷移検出部13では、動画像データMPに基づき動画像MP中のカット遷移が検出され(ステップS13)、検出結果がカット区分処理部15等に供給される。カット遷移は、相前後するフレーム中の画像および/または音声の特徴量に基づき検出される。
【0035】
図4には、カット遷移の検出結果から求められたカット構成の一例が示されている。ここでは、理解を容易にするために、各カットの代表画像I1〜I7を用いてカット構成が示されている。なお、代表画像Iは、後述するように、カット構成画像生成部17で動画像データMPから抽出される。図4に示すように、カット1、3、6が互いに類似し、カット2、4、7が互いに類似し、カット5が他のカット1〜4、6、7のいずれとも類似していない。
【0036】
図3の説明に戻り、つぎに、カット区分処理部15では、各カットをカットグループに区分するカット区分処理が行われる(ステップS15)。図5には、カット区分処理の手順が示されている。図5に示すように、カット区分処理では、まず、初期化処理が行われる(ステップS31)。初期化処理では、グループ数mが初期化される。また、カット1、2にグループID=1、グループID=2が各々に付与される。ここで、グループ数mは、動画像データMPから特定されているカットグループの数(初期化処理時では、カットグループ1、2が特定されていることになる。)を示している。グループIDは、各カットが属するカットグループを示すために、各カットに付与される。
【0037】
つぎに、カット1の特徴量が生成され、カットグループ1の特徴量S1としてデータ記憶部23等に格納される(ステップS33)。同様に、カット2の特徴量が生成され、カットグループ2の特徴量S2としてデータ記憶部23等に格納される(ステップS35)図6には、特徴量生成処理の手順が示されている。
【0038】
図6に示すように、まず、カット1の画像から所定数の画像が第1の抽出画像として抽出され、カット2の画像から所定数の画像が第2の抽出画像として抽出される(ステップS71、S73)。各カットは、通常、数十から数千フレームの画像から構成されており、第1および第2の抽出画像としては、例えば10フレーム程度の画像が各々に抽出される。第1および第2の抽出画像は、例えば以下の抽出規則に従って抽出される。
【0039】
図7には、画像の抽出規則が示されている。図7には、動画像データMPのタイムコードの順序で、つまり、動画像データMPの再生方向に沿って、カット区分処理を行う場合が示されている。タイムコードとは、動画像MP中の各フレーム(画像)に付与される時刻情報であり、開始フレームを起点として付与される。
【0040】
図7では、カット1の画像のうち、カット1からカット2へのカット遷移時点、つまりカット1の最終フレームnに近い画像から優先的に第1の抽出画像が抽出されている。なお、図7では、抽出された画像(フレーム)にハッチングが付されている。
【0041】
図7の規則1では、カット1の最終フレームをフレームnとした場合、フレームn−1、n−5、n−9、n−13、n−17、…というように、4フレームの等間隔(公差4の等差数列)で所定数の画像が抽出されている。図7の規則2では、同様に、フレームn−1、n−3、n−7、n−15、n−31、…というように、2フレーム、4フレーム、8フレーム、16フレーム、…の間隔(公比2の等比数列)で所定数の画像が抽出されている。図7の規則3では、同様に、フレームn−1、n−3、n−6、n−10、n−15…というように、2フレーム、3フレーム、4フレーム、5フレーム、…の間隔(公差1の階差数列)で所定数の画像が抽出されている。
【0042】
なお、規則1から3のいずれでも、公差、公比は任意の値として設定される。同様に、抽出画像は、最終フレームを含んで抽出されてもよく、最終フレーム付近の数フレームを除外して抽出されてもよい。また、図7に示されていないが、隣接フレームとの画素差分の大きい所定数のフレームが抽出されてもよい。さらに、抽出画像は、例えば規則1と規則2を組合せて、等差数列で表される間隔で抽出されるとともに、等比数列で表される間隔で抽出されてもよい。
【0043】
ステップS71、S73の処理では、上記抽出規則に従って、第1の抽出画像は、カット1の画像のうちカット1の最終フレームに近い画像から優先的に抽出され、第2の抽出画像は、カット2の画像のうちカット2の最終フレームに近い画像から優先的に抽出される。
【0044】
つぎに、第1と第2の抽出画像として抽出された各画像について各種の特徴量が算出される。各種の特徴量は、例えば、色ヒストグラムや顔画像検出、および/または音声の量や音調・リズム等、あるいはこれらの組合せとして算出される。各画像について算出された特徴量は、後述の処理に用いるためにデータ記憶部23等に格納される(ステップS75、S77)。
【0045】
つぎに、第1の抽出画像に「正解」タグが付与され、第2の抽出画像に「不正解」タグが付与される(ステップS79、S81)。ここで、カット1から抽出された第1の抽出画像には、第2の抽出画像に比べてカットグループ1の特徴量S1が含まれている可能性が高いので「正解」タグが付与され、第2の抽出画像には、第1の抽出画像に比べて可能性が低いので「不正解」タグが付与される。
【0046】
そして、「正解」タグを付与された第1の抽出画像に該当し、「不正解」タグを付与された第2の抽出画像に該当しない特徴量がカットグループ1の特徴量S1として生成される(ステップS83)。つまり、カットグループ1の特徴量S1は、第1の抽出画像を第2の抽出画像から区別するための特徴量として生成される。
【0047】
例えば、任意の特徴量Aについて、第1の抽出画像では、特徴量Aが所定の定量値または定性値を有するが、第2の抽出画像では、特徴量Aが所定の定量値または定性値を有しない場合を想定する。この場合、カットグループ1について、特徴量Aが所定の定量値または定性値を有するという特徴量(特徴)S1が生成される。もちろん、任意の特徴量A、B、…の組合せについても、同様な方法で特徴量(特徴)が生成される。
【0048】
つぎに、第2の抽出画像に「正解」タグが付与され、第1の抽出画像に「不正解」タグが付与される(ステップS85、S87)。そして、「正解」タグを付与された第2の抽出画像に該当し、「不正解」タグを付与された第1の抽出画像に該当しない特徴量がカットグループ2の特徴量S2として生成される(ステップS89)。つまり、カットグループ2の特徴量S2は、第2の抽出画像を第1の抽出画像から区別するための特徴量として生成される。
【0049】
つぎに、図5の説明に戻り、処理対象となる後続カットの存在が確認される(ステップS37)。後続カットは、ステップS37の処理を実行する毎に、カット3、カット4、…の順序で確認される。後続カットが存在すれば(ステップS37で「Yes」)、後続カットの特徴量S´が生成され(ステップS39)、後続カットとカットグループ1〜mの間で特徴量の類似が判定される(ステップS41)。
【0050】
類似判定では、まず、後続カットに含まれる画像から所定数の画像が比較画像として抽出される。比較画像は、後続カットに含まれる画像を代表する所定数の画像として抽出される。比較画像は、図7に示した抽出規則に従って抽出されてもよく、他の抽出規則に従って抽出されてもよい。
【0051】
つぎに、比較画像とカットグループ1〜mの画像の間で特徴量が類似するか、つまり後続カットとカットグループ1〜mが類似するかが判定される。
【0052】
ここで、カットグループ1〜mの特徴量S1〜Smは、各カットグループの画像のうち、動画像MPのタイムコード上で、類似判定の対象となる後続カットに近い画像の特徴量を重視して生成されている。例えば、カットグループ1の特徴量S1は、カット1の画像のうちカット1の最終フレームに近い画像の特徴量を重視して生成されている。このため、比較画像と、カットグループ1〜mの画像のうち動画像MPのタイムコード上で後続カットに近い画像との間で、特徴量の類似が判定される。
【0053】
なお、類似判定では、直前カットよりも大きなグループIDを伴うカットグループとの間で、特徴量の類似度が優先的に判定されてもよい。これは、カットの繰返しが行われる場合、直前カットよりも後続カットが属するカットグループのグループIDが大きくなるためである。
【0054】
そして、後続カットとカットグループ1〜mのいずれかの間で特徴量の類似度が所定の閾値以上であると判定された場合(ステップS41で「Yes」)、後続カットには、最も類似度の高いカットグループのグループIDが付与される(ステップS43)。
【0055】
例えば、後続カットとカットグループ1の間の類似度が所定閾値を満たす場合に後続カットがカットグループ1に区分される。この場合、以下の手順でカットグループ1の特徴量S1が再生成されて格納される(ステップS45)。
【0056】
まず、後続カットを含むカットグループ1に含まれる画像から所定数の画像が第1の抽出画像として抽出される。第1の抽出画像も、図7に示した抽出規則に従って抽出される。図8には、特徴量再生成処理の規則が示されている。図8では、カット1、カット2、カット1に類似するカット3からなるカット構成が示されている。なお、図8では、カットグループの抽出画像として優先的に抽出される画像の位置に濃いハッチングが付されている。
【0057】
図8の規則aでは、カットグループ1に区分されるカット3に含まれる画像のうち、カット3の最終フレームに近い画像から優先的に第1の抽出画像が抽出されている。この場合、カット1に含まれる画像は抽出対象とならない。一方、図8の規則bでは、カットグループ1に区分されるカット1およびカット3に含まれる画像のうち、カット3の最終フレームに近い画像から優先的に第1の抽出画像が抽出されている。この場合、カット1に含まれる画像も抽出対象となる。
【0058】
なお、第1の抽出画像は、特徴量の初期生成時の抽出画像と同数の画像として抽出されてもよく、より多くの画像として抽出されてもよい。また、第1の抽出画像は、ステップS33の処理時の抽出画像と同一の条件で抽出されてもよく、異なる条件で抽出されてもよい。例えば、特徴量の初期生成時に対して、異なる公差、公比を適用してもよく、異なる規則を適用してもよい(例えば特徴量の初期生成時に規則1、再生成時に規則2等)。
【0059】
また、第1の抽出画像は、複数の異なる条件を組合せて抽出されてもよい。例えば、規則aと規則1が組合され、かつ、規則bと規則2が組合されてもよい。この場合、後続カットからは、等差数列で表される間隔で画像が抽出されるとともに、等比数列で表される間隔で画像が抽出される一方、後続カット以外のカットからは、階差数列で表される間隔で画像が抽出される。
【0060】
つぎに、カットグループ1の第1の抽出画像として抽出された各画像について各種の特徴量が算出される。なお、カットグループ2〜mの第2〜第mの抽出画像の特徴量としては、各カットグループの生成時に生成された特徴量が用いられる。
【0061】
つぎに、第1の抽出画像に「正解」タグが付与され、第2〜第mの抽出画像に「不正解」タグが付与される。ここで、カットグループ1から抽出された第1の抽出画像には、第2〜第mの抽出画像に比べてカットグループ1の特徴量が含まれている可能性が高いので「正解」タグが付与され、第2〜第mの抽出画像には、第1の抽出画像に比べて可能性が低いので「不正解」タグが付与される。
【0062】
つぎに、「正解」タグを付与された第1の抽出画像に該当し、「不正解」タグを付与された第2〜第mの抽出画像に該当しない特徴量がカットグループ1の特徴量S1として生成される。つまり、カットグループ1の特徴量S1は、第1の抽出画像を第2〜第mの抽出画像から区別するための特徴量として生成される。これにより、カットグループ1の特徴量S1は、カットグループ1の画像のうち、後続カットの最終フレームに近い画像から優先的に抽出された第1の抽出画像の特徴量として生成される。
【0063】
同様に、比較画像とカットグループx(1<x<m)の間の類似度が所定閾値を満たす場合には、後続カットがカットグループxに区分される。この場合、カットグループ1の場合と同様に、カットグループxの特徴量Sxが再生成される。これにより、後続カットを含むカットグループxの特徴量Sxは、カットグループxの画像のうち、後続カットの最終フレームに近い画像から優先的に抽出された第xの抽出画像の特徴量として算出される。
【0064】
一方、後続カットとカットグループ1〜mの全ての間で特徴量の類似度が所定の閾値未満であると判定された場合(ステップS41で「No」)、新たなカットグループを生成するためにグループ数mが1インクリメントされる(ステップS47)。後続カットには、新たなカットグループとして、グループ数mに相当するグループIDが付与される(ステップS49)。この場合、以下の手順でカットグループmの特徴量Smが生成されて格納される(ステップS51)。
【0065】
まず、後続カットに含まれる画像から所定数の画像が第mの抽出画像として抽出される。第mの抽出画像も、図7に示した抽出規則に従って抽出される。ここでも、第mの抽出画像は、カットグループmの画像のうち、後続カットの最終フレームに近い画像から優先的に抽出される。
【0066】
つぎに、カットグループmの第mの抽出画像として抽出された各画像について各種の特徴量が算出される。なお、カットグループ1〜m−1の第1〜第m−1の抽出画像の特徴量としては、各カットグループの生成時に生成された特徴量が用いられる。
【0067】
つぎに、第mの抽出画像に「正解」タグが付与され、第1〜第m−1の抽出画像に「不正解」タグが付与される。ここで、カットグループmから抽出された第mの抽出画像には、第1〜第m−1の抽出画像に比べてカットグループmの特徴量Smが含まれている可能性が高いので「正解」タグが付与され、第1〜第m−1の抽出画像には、第mの抽出画像に比べて可能性が低いので「不正解」タグが付与される。
【0068】
つぎに、「正解」タグを付与された第mの抽出画像に該当し、「不正解」タグを付与された第1〜第m−1の抽出画像に該当しない特徴量がカットグループmの特徴量Smとして生成される。つまり、カットグループmの特徴量Smは、第mの抽出画像を第1〜第m−1の抽出画像から区別するための特徴量として生成される。これにより、カットグループmの特徴量Smは、カットグループmの画像のうち、後続カットの最終フレームに近い画像から優先的に抽出された第mの抽出画像の特徴量として生成される。
【0069】
図5の説明に戻りステップS37〜S51の処理は、後続カットが存在しなくなるまで繰返される。そして、後続カットが存在しなければ(ステップS37で「No」)、カット区分処理が終了し、図3に示すように、引き続きステップS17の処理が行われる。カット区分処理部15では、カット遷移の検出結果とともに、カットの区分結果がカット構成画像生成部17に供給される。
【0070】
図9には、カット区分処理の結果の一例が示されている。図10には、特徴量生成処理の過程の一例が示されている。図9および図10では、図4に示したカット構成についてカット区分処理を行う場合が示されている。なお、図10でも、カットグループの抽出画像として優先的に抽出される画像の位置に濃いハッチングが付されている。
【0071】
まず、図9に示すように、カット1、2には、グループID=1、2が各々に付与されている。そして、図10の状態1に示すように、カットグループ1の特徴量S1は、カット1の画像のうちカット1の最終フレームに近い画像から優先的に抽出された画像の特徴量として生成され、カットグループ2の特徴量S2は、カット2の画像のうちカット2の最終フレームに近い画像から優先的に抽出された画像の特徴量として生成されている。
【0072】
つぎに、カット3とカットグループ1、2の類似が判定される。カット3の類似は、図10の状態1に示すように、カットグループ1、2の画像のうち、動画像MPのタイムコード上でカット3に近い画像の特徴量を用いて判定される。図9に示す例では、カット3は、カットグループ1、2との類似度が各々に0.9、0.2と算出されている。よって、カット3は、カットグループ1と類似し、カットグループ2と類似しないと判定される(類似判定の閾値を類似度0.5以上とする。)。このため、カット3には、グループID=1が付与されている。そして、図10の状態2に示すように、カットグループ1の特徴量S1は、カット1、3の画像のうちカット3の最終フレームに近い画像から優先的に抽出された画像の特徴量として再生成されている。
【0073】
つぎに、カット4とカットグループ1、2の類似が判定される。カット4の類似は、図10の状態2に示すように、カットグループ1、2の画像のうち、動画像MPのタイムコード上でカット4に近い画像の特徴量を用いて判定される。図9に示す例では、カット4は、カットグループ1、2との類似度が各々に0.3、0.8と算出されている。よって、カット4は、カットグループ2と類似し、カットグループ1と類似しないと判定される。このため、カット4には、グループID=2が付与されている。そして、図10の状態3に示すように、カットグループ2の特徴量S2は、カット2、4の画像のうちカット4の最終フレームに近い画像から優先的に抽出された画像の特徴量として再生成されている。
【0074】
つぎに、カット5とカットグループ1、2の類似が判定される。カット5の類似は、図10の状態3に示すように、カットグループ1、2の画像のうち、動画像MPのタイムコード上でカット5に近い画像の特徴量を用いて判定される。図9に示す例では、カット5は、カットグループ1、2との類似度が各々に0.1、0.2と算出されている。よって、カット5は、カットグループ1、2のいずれにも類似しないと判定される。このため、カットグループ3が生成され、カット5には、グループID=3が付与されている。そして、図10の状態4に示すように、カットグループ3の特徴量S3は、カット5の画像のうちカット5の最終フレームに近い画像から優先的に抽出された画像の特徴量として生成されている。
【0075】
つぎに、カット6とカットグループ1、2、3の類似が判定される。カット6の類似は、図10の状態4に示すように、カットグループ1、2、3の画像のうち、動画像MPのタイムコード上でカット6に近い画像の特徴量を用いて判定される。図9に示す例では、カット6は、カットグループ1、2、3との類似度が各々に0.8、0.3、0.2と算出されている。よって、カット6は、カットグループ1と類似し、カットグループ2、3と類似しないと判定される。このため、カット6には、グループID=1が付与されている。そして、図10の状態5に示すように、カットグループ1の特徴量S1は、カット1、3、6の画像のうちカット6の最終フレームに近い画像から優先的に抽出された画像の特徴量として再生成されている。
【0076】
つぎに、カット7とカットグループ1、2、3の類似が判定される。カット7の類似は、図10の状態5に示すように、カットグループ1、2の画像のうち、動画像MPのタイムコード上でカット7に近い画像の特徴量を用いて判定される。図9に示す例では、カット7は、カットグループ1、2、3との類似度が各々に0.1、0.9、0.1と算出されている。よって、カット7は、カットグループ2と類似し、カットグループ1、3と類似しないと判定される。このため、カット7には、グループID=2が付与されている。そして、図10の状態6に示すように、カットグループ2の特徴量S2は、カット2、4、7の画像のうちカット7の最終フレームに近い画像から優先的に抽出された画像の特徴量として再生成されている。
【0077】
結果として、図9に示すように、図4に示したカット構成については、カット1、3、6がカットグループ1に区分され、カット2、4、7がカットグループ2に区分され、カット5がカットグループ3に区分される。
【0078】
図3の説明に戻り、カット区分処理が終了すると、カット構成画像生成部17では、まず、動画像データMPおよびカット遷移の検出結果に基づき、各カットに属する一連の画像から所定の基準に従って代表画像Iが抽出される(ステップS17)。なお、各カットの代表画像Iは、カット遷移の検出時に予め抽出されてもよい。つぎに、カットグループの特定結果に基づき、カット構成画像CIが生成される(ステップS19)。カット構成画像CIは、各カットの代表画像Iをカット遷移の順序に従って並べ、かつカットグループを明示する画像として生成される。
【0079】
図11には、図9に示したカットグループの特定結果から生成されたカット構成画像CIの一例が示されている。図11に示すカット構成画像CIでは、カット1、2の代表画像I1、I2が横並びに配置され、カット1、2の代表画像I1、I2の下にカット3〜5の代表画像I3〜I5が横並びに配置され、カット3、4の代表画像I3、I4の下にカット6、7の代表画像I6、I7が横並びに配置されている。このようなカット構成画像CIによって、カット構成の把握が容易となる。なお、カット構成画像CIの構成は、図11に示した構成に限定されるものではない。
【0080】
[4.まとめ]
以上説明したように、本発明の実施形態に係る動画像処理装置1および動画像処理方法によれば、各カットグループの特徴量Sは、各カットグループに含まれる画像のうち、動画像MPのタイムコード上で、類似判定の対象となる後続カットに近い画像の特徴量を重視して生成される。これにより、カット間の時間的コンテクスト(動画像MPのストーリ性等)を十分に考慮した上で、後続カットを適切にグループ化することができる。
【0081】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0082】
1 動画像処理装置
11 データ取得部
13 カット遷移検出部
15 カット区分処理部
17 カット構成画像生成部
19 カット構成画像出力部
21 カット構成情報出力部
23 データ記憶部
MP 動画(データ)
S 特徴量
I 代表画像
CI カット構成画像


【特許請求の範囲】
【請求項1】
動画像に含まれる第1のカットグループの抽出画像から生成された特徴量と、前記動画像に含まれる第2のカットグループの抽出画像から生成された特徴量に基づき、後続カットと前記第1および前記第2のカットグループの類似度を判定する類似度判定部と、
前記後続カットが前記第1または前記第2のカットグループに類似する場合、前記後続カットを前記第1または前記第2のカットグループのうち前記後続カットに類似する類似カットグループに区分し、前記後続カットが前記第1および前記第2のいずれのカットグループにも類似しない場合、前記後続カットを第3のカットグループに区分するカット区分部と、
前記後続カットが前記第1および前記第2のいずれのカットグループにも類似しない場合、前記第3のカットグループから抽出された抽出画像と、前記第1および前記第2のカットグループから抽出された抽出画像を比較し、前記第3のカットグループの特徴量を生成する特徴量生成部と、
前記各カットグループの抽出画像を、前記各カットグループに含まれる画像のうち前記動画像のタイムコードの遅い画像から優先的に抽出する画像抽出部と
を備える動画像処理装置。
【請求項2】
前記特徴量生成部は、前記後続カットが前記第1または前記第2のカットグループに類似する場合、前記後続カットを含む前記類似カットグループから抽出された抽出画像と、前記後続カットに類似しないカットグループから抽出された抽出画像を比較し、前記類似カットグループの特徴量を生成する、請求項1に記載の動画像処理装置。
【請求項3】
前記画像抽出部は、前記後続カットが前記第1または前記第2のカットグループに類似する場合、前記後続カットと前記後続カットに類似するカットグループから前記抽出画像を抽出する、請求項2に記載の動画像処理装置。
【請求項4】
前記画像抽出部は、前記後続カットが前記第1または前記第2のカットグループに類似する場合、前記後続カットから前記抽出画像を抽出する、請求項2に記載の動画像処理装置。
【請求項5】
前記特徴量生成部は、前記第1のカットグループから抽出された抽出画像と、前記第2のカットグループから抽出された抽出画像を比較し、前記第1および前記第2のカットグループの特徴量を各々に生成する、請求項1に記載の動画像処理装置。
【請求項6】
前記画像抽出部は、前記各カットグループに含まれる画像のうち前記タイムコードの遅い順序で等間隔に位置する画像を抽出する、請求項1に記載の動画像処理装置。
【請求項7】
前記画像抽出部は、前記各カットグループに含まれる画像のうち前記タイムコードの遅い順序で等比数列で表される間隔に位置する画像を抽出する、請求項1に記載の動画像処理装置。
【請求項8】
前記画像抽出部は、前記各カットグループに含まれる画像のうち前記タイムコードの遅い順序で階差数列で表される間隔に位置する画像を抽出する、請求項1に記載の動画像処理装置。
【請求項9】
動画像に含まれる第1のカットグループの抽出画像から生成された特徴量と、前記動画像に含まれる第2のカットグループの抽出画像から生成された特徴量に基づき、後続カットと前記第1および前記第2のカットグループの類似度を判定し、
前記後続カットが前記第1または前記第2のカットグループに類似する場合、前記後続カットを前記第1または前記第2のカットグループのうち前記後続カットに類似する類似カットグループに区分し、
前記後続カットが前記第1および前記第2のいずれのカットグループにも類似しない場合、前記後続カットを第3のカットグループに区分するとともに、前記第3のカットグループから抽出された抽出画像と、前記第1および前記第2のカットグループから抽出された抽出画像を比較し、前記第3のカットグループの特徴量を生成すること
を含み、
前記各カットグループの抽出画像は、前記各カットグループに含まれる画像のうち前記動画像のタイムコードの遅い画像から優先的に抽出される動画像処理方法。
【請求項10】
動画像に含まれ第1のカットを含む第1のカットグループの抽出画像から生成された特徴量と、前記動画像に含まれ第2のカットを含む第2のカットグループの抽出画像から生成された特徴量に基づき、後続カットと前記第1および前記第2のカットグループの類似度を判定し、
前記後続カットが前記第1または前記第2のカットグループに類似する場合、前記後続カット前記第1または前記第2のカットグループを前記後続カットに類似する類似カットグループに区分し、
前記後続カットが前記第1および前記第2のいずれのカットグループにも類似しない場合、前記後続カットを第3のカットグループに区分するとともに、前記第3のカットグループから抽出された抽出画像と、前記第1および前記第2のカットグループから抽出された抽出画像を比較し、前記第3のカットグループの特徴量を生成すること
を含み、
前記各カットグループの抽出画像は、前記各カットグループに含まれる画像のうち前記動画像のタイムコードの遅い画像から優先的に抽出される動画像処理方法をコンピュータに実行させるためのプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate