動画像処理装置、動画像処理方法およびプログラム

【課題】映像のカットを適切にグループ化可能な、動画像処理装置、動画像処理方法およびプログラムを提供する。
【解決手段】第１のカットグループの抽出画像から生成された特徴量Ｓ１と、第２のカットグループの抽出画像から生成された特徴量Ｓ２に基づき、後続カットと第１および第２のカットグループの類似度を判定し、後続カットが第１または第２のカットグループに類似する場合、後続カットを後続カットに類似する類似カットグループに区分し、いずれのカットグループにも類似しない場合、後続カットを第３のカットグループに区分するとともに、第３のカットグループから抽出された抽出画像と、第１および第２のカットグループから抽出された抽出画像を比較し、第３のカットグループの特徴量Ｓ３を生成することを含み、各カットグループの抽出画像は、各カットグループに含まれる画像のうち動画像のタイムコードの遅い画像から優先的に抽出される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、動画像処理装置、動画像処理方法およびプログラムに関する。
【背景技術】
【０００２】
映像（動画像）は、一般に多数のカットから構成されている。映像表現では、制作者の意図に応じて、例えば同じような内容のカットを時間的に隔てて構成する等、カット構成に工夫を凝らす場合がある。
【発明の概要】
【発明が解決しようとする課題】
【０００３】
ところで、映像の鑑賞や利用を目的として、映像のカット構成を把握することが求められる場合がある。この場合、映像を複数のカットに区分し、類似するカットを共通のカットグループに区分することで、映像のカット構成が把握される。しかし、カットのグループ化を適切に行わなければ、カット構成を適切に把握することができなくなってしまう。
【０００４】
そこで、本発明は、映像のカットを適切にグループ化可能な、動画像処理装置、動画像処理方法およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【０００５】
本発明のある観点によれば、動画像に含まれる第１のカットグループの抽出画像から生成された特徴量と、動画像に含まれる第２のカットグループの抽出画像から生成された特徴量に基づき、後続カットと第１および第２のカットグループの類似度を判定する類似度判定部と、後続カットが第１または第２のカットグループに類似する場合、後続カットを第１または第２のカットグループのうち後続カットに類似する類似カットグループに区分し、後続カットが第１および第２のいずれのカットグループにも類似しない場合、後続カットを第３のカットグループに区分するカット区分部と、後続カットが第１および第２のいずれのカットグループにも類似しない場合、第３のカットグループから抽出された抽出画像と、第１および第２のカットグループから抽出された抽出画像を比較し、第３のカットグループの特徴量を生成する特徴量生成部と、各カットグループの抽出画像を、各カットグループに含まれる画像のうち動画像のタイムコードの遅い画像から優先的に抽出する画像抽出部とを備える動画像処理装置が提供される。
【０００６】
上記特徴量生成部は、後続カットが第１または第２のカットグループに類似する場合、後続カットを含む類似カットグループから抽出された抽出画像と、後続カットに類似しないカットグループから抽出された抽出画像を比較し、類似カットグループの特徴量を生成してもよい。
【０００７】
上記画像抽出部は、後続カットが第１または第２のカットグループに類似する場合、後続カットと後続カットに類似するカットグループ抽出画像を抽出してもよい。
【０００８】
上記画像抽出部は、後続カットが第１または第２のカットグループに類似する場合、後続カットから抽出画像を抽出してもよい。
【０００９】
上記特徴量生成部は、第１のカットグループから抽出された抽出画像と、第２のカットグループから抽出された抽出画像を比較し、第１および第２のカットグループの特徴量を各々に生成してもよい。
【００１０】
上記画像抽出部は、各カットグループに含まれる画像のうちタイムコードの遅い順序で等間隔に位置する画像を抽出してもよい。
【００１１】
上記画像抽出部は、各カットグループに含まれる画像のうちタイムコードの遅い順序で等比数列で表される間隔に位置する画像を抽出してもよい。
【００１２】
上記画像抽出部は、各カットグループに含まれる画像のうちタイムコードの遅い順序で階差数列で表される間隔に位置する画像を抽出してもよい。
【００１３】
また、本発明の別の観点によれば、動画像に含まれる第１のカットグループの抽出画像から生成された特徴量と、動画像に含まれる第２のカットグループの抽出画像から生成された特徴量に基づき、後続カットと第１および第２のカットグループの類似度を判定し、後続カットが第１または第２のカットグループに類似する場合、後続カットを第１または第２のカットグループのうち後続カットに類似する類似カットグループに区分し、後続カットが第１および第２のいずれのカットグループにも類似しない場合、後続カットを第３のカットグループに区分するとともに、第３のカットグループから抽出された抽出画像と、第１および第２のカットグループから抽出された抽出画像を比較し、第３のカットグループの特徴量を生成することを含み、各カットグループの抽出画像は、各カットグループに含まれる画像のうち動画像のタイムコードの遅い画像から優先的に抽出される動画像処理方法が提供される。
【００１４】
また、本発明の別の観点によれば、上記動画像処理方法をコンピュータに実行させるためのプログラムが提供される。ここで、プログラムは、コンピュータ読取り可能な記録媒体を用いて提供されてもよく、通信手段等を介して提供されてもよい。
【発明の効果】
【００１５】
以上説明したように本発明によれば、映像のカットを適切にグループ化可能な、動画像処理装置、動画像処理方法およびプログラムを提供することができる。
【図面の簡単な説明】
【００１６】
【図１】本発明の実施形態に係る動画像処理方法の概要を示す図である。
【図２】本発明の実施形態に係る動画像処理装置の構成を示すブロック図である。
【図３】動画像処理装置の動作手順を示すフロー図である。
【図４】カット遷移の検出結果から求められたカット構成の一例を示す図である。
【図５】カット区分処理の手順を示すフロー図である。
【図６】特徴量生成処理の手順を示すフロー図である。
【図７】画像の抽出規則の一例を示す図である。
【図８】特徴量の再生成規則の一例を示す図である。
【図９】カット区分処理の結果の一例を示す図である。
【図１０】特徴量生成処理の過程の一例を示す図である。
【図１１】カット構成画像の一例を示す図である。
【発明を実施するための形態】
【００１７】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【００１８】
［１．動画像処理方法の概要］
まず、図１を参照して、本発明の実施形態に係る動画像処理方法の概要について説明する。図１には、本発明の実施形態に係る動画像処理方法の概要が示されている。
【００１９】
図１に示すように、動画像処理方法では、まず、動画像ＭＰに含まれる第１のカットグループの画像のうち、動画像ＭＰのタイムコードの遅い画像から優先的に画像が抽出される（ステップＳ１）。同様に、動画像ＭＰに含まれる第２のカットグループの画像のうち、動画像ＭＰのタイムコードの遅い画像から優先的に画像が抽出される（ステップＳ２）。つぎに、第１のカットグループの抽出画像から生成された特徴量Ｓ１と、第２のカットグループの抽出画像から生成された特徴量Ｓ２に基づき、後続カットと第１および第２のカットグループの類似度が判定される（ステップＳ３）。
【００２０】
つぎに、後続カットが第１または第２のカットグループに類似するかが判定される（ステップＳ４）。そして、後続カットが第１または第２のカットグループに類似する場合（ステップＳ４で「Ｙｅｓ」）、後続カットが第１または第２のカットグループのうち後続カットに類似する類似カットグループ（例えば第１のカットグループ）に区分される（ステップＳ５）。
【００２１】
一方、後続カットが第１および第２のいずれのカットグループにも類似しない場合（ステップＳ４で「Ｎｏ」）、後続カットが第３のカットグループに区分される（ステップＳ６）。さらに、後続カットを含む第３のカットグループの画像のうち、動画像ＭＰのタイムコードの遅い画像から優先的に画像が抽出される（ステップＳ７）。そして、第３のカットグループの抽出画像と、第１および第２のカットグループの抽出画像を比較し、第３のカットグループの特徴量Ｓ３が生成される（ステップＳ８）。
【００２２】
ここで、各カットグループの抽出画像は、各カットグループに含まれる画像のうち動画像ＭＰのタイムコードの遅い画像から優先的に抽出される。そして、各カットグループの特徴量Ｓ（カットグループの特徴量の総称）は、各カットグループに含まれる画像のうち、動画像ＭＰのタイムコード上で、類似判定の対象となる後続カットに近い画像の特徴量を重視して生成される。これにより、カット間の時間的コンテクスト（動画像ＭＰのストーリ性等）を十分に考慮した上で、後続カットを適切にグループ化することができる。
【００２３】
［２．動画像処理装置１の構成］
つぎに、図２を参照して、本発明の実施形態に係る動画像処理装置１の構成について説明する。図２には、動画像処理装置１の主要な機能構成が示されている。図２に示すように、動画像処理装置１は、データ取得部１１、カット遷移検出部１３、カット区分処理部１５、カット構成画像生成部１７、カット構成画像出力部１９、カット構成情報出力部２１、データ記憶部２３を含んで構成される。
【００２４】
データ取得部１１は、複数のカットを含む動画像データＭＰを取得し、カット遷移検出部１３、カット区分処理部１５およびカット構成画像生成部１７に供給する。動画像データＭＰは、一般にフレーム形式のデータであり、画像データのみでもよく、音声データとの組合せでもよい。動画像データＭＰは、データ記憶部２３から取得されてもよく、外部装置（不図示）から取得されてもよい。
【００２５】
カット遷移検出部１３は、動画像データＭＰ中のカット遷移を検出し、検出結果をカット区分処理部１５に供給する。カット遷移とは、動画像ＭＰ中におけるカットの移り変わりを意味する。カット遷移は、相前後するフレーム中の画像および／または音声の特徴量を求め、特徴量の類似度に基づき検出される。画像および／または音声の特徴量としては、色ヒストグラムや顔画像検出、および／または音声の量や音調・リズム等を用いることができる。なお、カット遷移の検出結果は、カット区分処理部１５の他に、カット構成情報出力部２１、データ記憶部２３、外部装置等に供給されてもよい。また、カット遷移の検出時に求められた特徴量は、データ記憶部２３等に格納され、他の処理に利用されてもよい。
【００２６】
カット区分処理部１５は、詳細は後述するが、カット間の類似度に基づき複数のカットをカットグループに区分する。カットの区分結果は、カット遷移の検出結果とともに、カット構成画像生成部１７に供給されるが、カット構成情報出力部２１、データ記憶部２３や外部装置等に供給されてもよい。カット区分処理部１５は、カットの区分結果に基づきカットグループを表すグループＩＤを各カットに付与する。カット区分処理部１５は、画像抽出部、類似度判定部、カット区分部および特徴量生成部として機能する。
【００２７】
カット間の類似度は、カットに含まれる画像および／または音声の色ヒストグラムや顔画像の検出結果、および／または音声の量や音調・リズム等からなるカットの特徴量から生成される。カットグループとは、特徴量が互いに類似するカットの組合せを意味する。
【００２８】
カット構成画像生成部１７は、カット構成画像ＣＩを生成するために、カット遷移の検出結果に基づき、各カットに含まれる画像から所定の基準に従って代表画像Ｉ（代表画像の総称）を抽出する。代表画像Ｉとは、各カットを代表する画像であり、例えばカットの中央フレームに相当する画像として抽出される。そして、カット構成画像生成部１７は、動画像データＭＰおよびカットの区分結果に基づき、動画像ＭＰのカット構成を示すカット構成画像ＣＩを生成する。カット構成画像ＣＩとは、例えば、各カットの代表画像Ｉをカット遷移の順序に従って並べ、かつカットグループを明示する画像である。
【００２９】
カット構成画像出力部１９は、ユーザが動画像ＭＰのカット構成を容易に把握できるように、カット構成画像生成部１７から供給されたカット構成画像ＣＩを出力する。カット構成画像ＣＩは、動画像処理装置１に接続された表示装置、印刷装置、記憶装置や外部装置（いずれも不図示）に出力されてもよい。
【００３０】
カット構成情報出力部２１は、ユーザがカット構成の把握に利用できるように、カットの区分結果等をカット構成情報として出力する。カット構成情報は、動画像処理装置１に接続された表示装置、印刷装置、記憶装置や外部装置（いずれも不図示）に出力されてもよい。カット構成情報は、カット構成を考慮した動画像検索を実現するためのデータとして利用することができる。
【００３１】
データ記憶部２３は、動画像データＭＰおよび動画像データＭＰに付属するデータを記憶している。データ記憶部２３には、カット遷移の検出結果、カットの区分結果等のカット構成情報、さらにはカット構成画像ＣＩ自体が動画像データＭＰに関連付けて記憶されもよい。なお、図２では、データ記憶部２３と他の構成要素との接続関係が一部省略されている。
【００３２】
ここで、上記機能構成において、データ取得部１１、カット遷移検出部１３、カット区分処理部１５、カット構成画像生成部１７、カット構成画像出力部１９、カット構成情報出力部２１は、ＣＰＵ、ＤＳＰ（デジタル信号処理装置）等の演算処理装置により構成される。データ記憶部２３は、フラッシュメモリ等の内部記憶装置、ハードディスクドライブ、ブルーレイディスクドライブ等の外部記憶装置により構成される。そして、ＣＰＵは、ＲＯＭ等から読み出されたプログラムをＲＡＭ上に展開して実行することで、動画像処理方法を実現する。なお、上記機能構成は、少なくとも一部が専用ロジック等のハードウェアとして構成されてもよい。
【００３３】
［３．動画像処理装置１の動作］
つぎに、図３から図１１を参照して、本発明の実施形態に係る動画像処理装置１の動作について説明する。図３には、動画像処理装置１の動作手順が示されている。
【００３４】
図３に示すように、まず、データ取得部１１では、動画像データＭＰが取得され（ステップＳ１１）、カット遷移検出部１３等に供給される。カット遷移検出部１３では、動画像データＭＰに基づき動画像ＭＰ中のカット遷移が検出され（ステップＳ１３）、検出結果がカット区分処理部１５等に供給される。カット遷移は、相前後するフレーム中の画像および／または音声の特徴量に基づき検出される。
【００３５】
図４には、カット遷移の検出結果から求められたカット構成の一例が示されている。ここでは、理解を容易にするために、各カットの代表画像Ｉ１〜Ｉ７を用いてカット構成が示されている。なお、代表画像Ｉは、後述するように、カット構成画像生成部１７で動画像データＭＰから抽出される。図４に示すように、カット１、３、６が互いに類似し、カット２、４、７が互いに類似し、カット５が他のカット１〜４、６、７のいずれとも類似していない。
【００３６】
図３の説明に戻り、つぎに、カット区分処理部１５では、各カットをカットグループに区分するカット区分処理が行われる（ステップＳ１５）。図５には、カット区分処理の手順が示されている。図５に示すように、カット区分処理では、まず、初期化処理が行われる（ステップＳ３１）。初期化処理では、グループ数ｍが初期化される。また、カット１、２にグループＩＤ＝１、グループＩＤ＝２が各々に付与される。ここで、グループ数ｍは、動画像データＭＰから特定されているカットグループの数（初期化処理時では、カットグループ１、２が特定されていることになる。）を示している。グループＩＤは、各カットが属するカットグループを示すために、各カットに付与される。
【００３７】
つぎに、カット１の特徴量が生成され、カットグループ１の特徴量Ｓ１としてデータ記憶部２３等に格納される（ステップＳ３３）。同様に、カット２の特徴量が生成され、カットグループ２の特徴量Ｓ２としてデータ記憶部２３等に格納される（ステップＳ３５）図６には、特徴量生成処理の手順が示されている。
【００３８】
図６に示すように、まず、カット１の画像から所定数の画像が第１の抽出画像として抽出され、カット２の画像から所定数の画像が第２の抽出画像として抽出される（ステップＳ７１、Ｓ７３）。各カットは、通常、数十から数千フレームの画像から構成されており、第１および第２の抽出画像としては、例えば１０フレーム程度の画像が各々に抽出される。第１および第２の抽出画像は、例えば以下の抽出規則に従って抽出される。
【００３９】
図７には、画像の抽出規則が示されている。図７には、動画像データＭＰのタイムコードの順序で、つまり、動画像データＭＰの再生方向に沿って、カット区分処理を行う場合が示されている。タイムコードとは、動画像ＭＰ中の各フレーム（画像）に付与される時刻情報であり、開始フレームを起点として付与される。
【００４０】
図７では、カット１の画像のうち、カット１からカット２へのカット遷移時点、つまりカット１の最終フレームｎに近い画像から優先的に第１の抽出画像が抽出されている。なお、図７では、抽出された画像（フレーム）にハッチングが付されている。
【００４１】
図７の規則１では、カット１の最終フレームをフレームｎとした場合、フレームｎ−１、ｎ−５、ｎ−９、ｎ−１３、ｎ−１７、…というように、４フレームの等間隔（公差４の等差数列）で所定数の画像が抽出されている。図７の規則２では、同様に、フレームｎ−１、ｎ−３、ｎ−７、ｎ−１５、ｎ−３１、…というように、２フレーム、４フレーム、８フレーム、１６フレーム、…の間隔（公比２の等比数列）で所定数の画像が抽出されている。図７の規則３では、同様に、フレームｎ−１、ｎ−３、ｎ−６、ｎ−１０、ｎ−１５…というように、２フレーム、３フレーム、４フレーム、５フレーム、…の間隔（公差１の階差数列）で所定数の画像が抽出されている。
【００４２】
なお、規則１から３のいずれでも、公差、公比は任意の値として設定される。同様に、抽出画像は、最終フレームを含んで抽出されてもよく、最終フレーム付近の数フレームを除外して抽出されてもよい。また、図７に示されていないが、隣接フレームとの画素差分の大きい所定数のフレームが抽出されてもよい。さらに、抽出画像は、例えば規則１と規則２を組合せて、等差数列で表される間隔で抽出されるとともに、等比数列で表される間隔で抽出されてもよい。
【００４３】
ステップＳ７１、Ｓ７３の処理では、上記抽出規則に従って、第１の抽出画像は、カット１の画像のうちカット１の最終フレームに近い画像から優先的に抽出され、第２の抽出画像は、カット２の画像のうちカット２の最終フレームに近い画像から優先的に抽出される。
【００４４】
つぎに、第１と第２の抽出画像として抽出された各画像について各種の特徴量が算出される。各種の特徴量は、例えば、色ヒストグラムや顔画像検出、および／または音声の量や音調・リズム等、あるいはこれらの組合せとして算出される。各画像について算出された特徴量は、後述の処理に用いるためにデータ記憶部２３等に格納される（ステップＳ７５、Ｓ７７）。
【００４５】
つぎに、第１の抽出画像に「正解」タグが付与され、第２の抽出画像に「不正解」タグが付与される（ステップＳ７９、Ｓ８１）。ここで、カット１から抽出された第１の抽出画像には、第２の抽出画像に比べてカットグループ１の特徴量Ｓ１が含まれている可能性が高いので「正解」タグが付与され、第２の抽出画像には、第１の抽出画像に比べて可能性が低いので「不正解」タグが付与される。
【００４６】
そして、「正解」タグを付与された第１の抽出画像に該当し、「不正解」タグを付与された第２の抽出画像に該当しない特徴量がカットグループ１の特徴量Ｓ１として生成される（ステップＳ８３）。つまり、カットグループ１の特徴量Ｓ１は、第１の抽出画像を第２の抽出画像から区別するための特徴量として生成される。
【００４７】
例えば、任意の特徴量Ａについて、第１の抽出画像では、特徴量Ａが所定の定量値または定性値を有するが、第２の抽出画像では、特徴量Ａが所定の定量値または定性値を有しない場合を想定する。この場合、カットグループ１について、特徴量Ａが所定の定量値または定性値を有するという特徴量（特徴）Ｓ１が生成される。もちろん、任意の特徴量Ａ、Ｂ、…の組合せについても、同様な方法で特徴量（特徴）が生成される。
【００４８】
つぎに、第２の抽出画像に「正解」タグが付与され、第１の抽出画像に「不正解」タグが付与される（ステップＳ８５、Ｓ８７）。そして、「正解」タグを付与された第２の抽出画像に該当し、「不正解」タグを付与された第１の抽出画像に該当しない特徴量がカットグループ２の特徴量Ｓ２として生成される（ステップＳ８９）。つまり、カットグループ２の特徴量Ｓ２は、第２の抽出画像を第１の抽出画像から区別するための特徴量として生成される。
【００４９】
つぎに、図５の説明に戻り、処理対象となる後続カットの存在が確認される（ステップＳ３７）。後続カットは、ステップＳ３７の処理を実行する毎に、カット３、カット４、…の順序で確認される。後続カットが存在すれば（ステップＳ３７で「Ｙｅｓ」）、後続カットの特徴量Ｓ´が生成され（ステップＳ３９）、後続カットとカットグループ１〜ｍの間で特徴量の類似が判定される（ステップＳ４１）。
【００５０】
類似判定では、まず、後続カットに含まれる画像から所定数の画像が比較画像として抽出される。比較画像は、後続カットに含まれる画像を代表する所定数の画像として抽出される。比較画像は、図７に示した抽出規則に従って抽出されてもよく、他の抽出規則に従って抽出されてもよい。
【００５１】
つぎに、比較画像とカットグループ１〜ｍの画像の間で特徴量が類似するか、つまり後続カットとカットグループ１〜ｍが類似するかが判定される。
【００５２】
ここで、カットグループ１〜ｍの特徴量Ｓ１〜Ｓｍは、各カットグループの画像のうち、動画像ＭＰのタイムコード上で、類似判定の対象となる後続カットに近い画像の特徴量を重視して生成されている。例えば、カットグループ１の特徴量Ｓ１は、カット１の画像のうちカット１の最終フレームに近い画像の特徴量を重視して生成されている。このため、比較画像と、カットグループ１〜ｍの画像のうち動画像ＭＰのタイムコード上で後続カットに近い画像との間で、特徴量の類似が判定される。
【００５３】
なお、類似判定では、直前カットよりも大きなグループＩＤを伴うカットグループとの間で、特徴量の類似度が優先的に判定されてもよい。これは、カットの繰返しが行われる場合、直前カットよりも後続カットが属するカットグループのグループＩＤが大きくなるためである。
【００５４】
そして、後続カットとカットグループ１〜ｍのいずれかの間で特徴量の類似度が所定の閾値以上であると判定された場合（ステップＳ４１で「Ｙｅｓ」）、後続カットには、最も類似度の高いカットグループのグループＩＤが付与される（ステップＳ４３）。
【００５５】
例えば、後続カットとカットグループ１の間の類似度が所定閾値を満たす場合に後続カットがカットグループ１に区分される。この場合、以下の手順でカットグループ１の特徴量Ｓ１が再生成されて格納される（ステップＳ４５）。
【００５６】
まず、後続カットを含むカットグループ１に含まれる画像から所定数の画像が第１の抽出画像として抽出される。第１の抽出画像も、図７に示した抽出規則に従って抽出される。図８には、特徴量再生成処理の規則が示されている。図８では、カット１、カット２、カット１に類似するカット３からなるカット構成が示されている。なお、図８では、カットグループの抽出画像として優先的に抽出される画像の位置に濃いハッチングが付されている。
【００５７】
図８の規則ａでは、カットグループ１に区分されるカット３に含まれる画像のうち、カット３の最終フレームに近い画像から優先的に第１の抽出画像が抽出されている。この場合、カット１に含まれる画像は抽出対象とならない。一方、図８の規則ｂでは、カットグループ１に区分されるカット１およびカット３に含まれる画像のうち、カット３の最終フレームに近い画像から優先的に第１の抽出画像が抽出されている。この場合、カット１に含まれる画像も抽出対象となる。
【００５８】
なお、第１の抽出画像は、特徴量の初期生成時の抽出画像と同数の画像として抽出されてもよく、より多くの画像として抽出されてもよい。また、第１の抽出画像は、ステップＳ３３の処理時の抽出画像と同一の条件で抽出されてもよく、異なる条件で抽出されてもよい。例えば、特徴量の初期生成時に対して、異なる公差、公比を適用してもよく、異なる規則を適用してもよい（例えば特徴量の初期生成時に規則１、再生成時に規則２等）。
【００５９】
また、第１の抽出画像は、複数の異なる条件を組合せて抽出されてもよい。例えば、規則ａと規則１が組合され、かつ、規則ｂと規則２が組合されてもよい。この場合、後続カットからは、等差数列で表される間隔で画像が抽出されるとともに、等比数列で表される間隔で画像が抽出される一方、後続カット以外のカットからは、階差数列で表される間隔で画像が抽出される。
【００６０】
つぎに、カットグループ１の第１の抽出画像として抽出された各画像について各種の特徴量が算出される。なお、カットグループ２〜ｍの第２〜第ｍの抽出画像の特徴量としては、各カットグループの生成時に生成された特徴量が用いられる。
【００６１】
つぎに、第１の抽出画像に「正解」タグが付与され、第２〜第ｍの抽出画像に「不正解」タグが付与される。ここで、カットグループ１から抽出された第１の抽出画像には、第２〜第ｍの抽出画像に比べてカットグループ１の特徴量が含まれている可能性が高いので「正解」タグが付与され、第２〜第ｍの抽出画像には、第１の抽出画像に比べて可能性が低いので「不正解」タグが付与される。
【００６２】
つぎに、「正解」タグを付与された第１の抽出画像に該当し、「不正解」タグを付与された第２〜第ｍの抽出画像に該当しない特徴量がカットグループ１の特徴量Ｓ１として生成される。つまり、カットグループ１の特徴量Ｓ１は、第１の抽出画像を第２〜第ｍの抽出画像から区別するための特徴量として生成される。これにより、カットグループ１の特徴量Ｓ１は、カットグループ１の画像のうち、後続カットの最終フレームに近い画像から優先的に抽出された第１の抽出画像の特徴量として生成される。
【００６３】
同様に、比較画像とカットグループｘ（１＜ｘ＜ｍ）の間の類似度が所定閾値を満たす場合には、後続カットがカットグループｘに区分される。この場合、カットグループ１の場合と同様に、カットグループｘの特徴量Ｓｘが再生成される。これにより、後続カットを含むカットグループｘの特徴量Ｓｘは、カットグループｘの画像のうち、後続カットの最終フレームに近い画像から優先的に抽出された第ｘの抽出画像の特徴量として算出される。
【００６４】
一方、後続カットとカットグループ１〜ｍの全ての間で特徴量の類似度が所定の閾値未満であると判定された場合（ステップＳ４１で「Ｎｏ」）、新たなカットグループを生成するためにグループ数ｍが１インクリメントされる（ステップＳ４７）。後続カットには、新たなカットグループとして、グループ数ｍに相当するグループＩＤが付与される（ステップＳ４９）。この場合、以下の手順でカットグループｍの特徴量Ｓｍが生成されて格納される（ステップＳ５１）。
【００６５】
まず、後続カットに含まれる画像から所定数の画像が第ｍの抽出画像として抽出される。第ｍの抽出画像も、図７に示した抽出規則に従って抽出される。ここでも、第ｍの抽出画像は、カットグループｍの画像のうち、後続カットの最終フレームに近い画像から優先的に抽出される。
【００６６】
つぎに、カットグループｍの第ｍの抽出画像として抽出された各画像について各種の特徴量が算出される。なお、カットグループ１〜ｍ−１の第１〜第ｍ−１の抽出画像の特徴量としては、各カットグループの生成時に生成された特徴量が用いられる。
【００６７】
つぎに、第ｍの抽出画像に「正解」タグが付与され、第１〜第ｍ−１の抽出画像に「不正解」タグが付与される。ここで、カットグループｍから抽出された第ｍの抽出画像には、第１〜第ｍ−１の抽出画像に比べてカットグループｍの特徴量Ｓｍが含まれている可能性が高いので「正解」タグが付与され、第１〜第ｍ−１の抽出画像には、第ｍの抽出画像に比べて可能性が低いので「不正解」タグが付与される。
【００６８】
つぎに、「正解」タグを付与された第ｍの抽出画像に該当し、「不正解」タグを付与された第１〜第ｍ−１の抽出画像に該当しない特徴量がカットグループｍの特徴量Ｓｍとして生成される。つまり、カットグループｍの特徴量Ｓｍは、第ｍの抽出画像を第１〜第ｍ−１の抽出画像から区別するための特徴量として生成される。これにより、カットグループｍの特徴量Ｓｍは、カットグループｍの画像のうち、後続カットの最終フレームに近い画像から優先的に抽出された第ｍの抽出画像の特徴量として生成される。
【００６９】
図５の説明に戻りステップＳ３７〜Ｓ５１の処理は、後続カットが存在しなくなるまで繰返される。そして、後続カットが存在しなければ（ステップＳ３７で「Ｎｏ」）、カット区分処理が終了し、図３に示すように、引き続きステップＳ１７の処理が行われる。カット区分処理部１５では、カット遷移の検出結果とともに、カットの区分結果がカット構成画像生成部１７に供給される。
【００７０】
図９には、カット区分処理の結果の一例が示されている。図１０には、特徴量生成処理の過程の一例が示されている。図９および図１０では、図４に示したカット構成についてカット区分処理を行う場合が示されている。なお、図１０でも、カットグループの抽出画像として優先的に抽出される画像の位置に濃いハッチングが付されている。
【００７１】
まず、図９に示すように、カット１、２には、グループＩＤ＝１、２が各々に付与されている。そして、図１０の状態１に示すように、カットグループ１の特徴量Ｓ１は、カット１の画像のうちカット１の最終フレームに近い画像から優先的に抽出された画像の特徴量として生成され、カットグループ２の特徴量Ｓ２は、カット２の画像のうちカット２の最終フレームに近い画像から優先的に抽出された画像の特徴量として生成されている。
【００７２】
つぎに、カット３とカットグループ１、２の類似が判定される。カット３の類似は、図１０の状態１に示すように、カットグループ１、２の画像のうち、動画像ＭＰのタイムコード上でカット３に近い画像の特徴量を用いて判定される。図９に示す例では、カット３は、カットグループ１、２との類似度が各々に０．９、０．２と算出されている。よって、カット３は、カットグループ１と類似し、カットグループ２と類似しないと判定される（類似判定の閾値を類似度０．５以上とする。）。このため、カット３には、グループＩＤ＝１が付与されている。そして、図１０の状態２に示すように、カットグループ１の特徴量Ｓ１は、カット１、３の画像のうちカット３の最終フレームに近い画像から優先的に抽出された画像の特徴量として再生成されている。
【００７３】
つぎに、カット４とカットグループ１、２の類似が判定される。カット４の類似は、図１０の状態２に示すように、カットグループ１、２の画像のうち、動画像ＭＰのタイムコード上でカット４に近い画像の特徴量を用いて判定される。図９に示す例では、カット４は、カットグループ１、２との類似度が各々に０．３、０．８と算出されている。よって、カット４は、カットグループ２と類似し、カットグループ１と類似しないと判定される。このため、カット４には、グループＩＤ＝２が付与されている。そして、図１０の状態３に示すように、カットグループ２の特徴量Ｓ２は、カット２、４の画像のうちカット４の最終フレームに近い画像から優先的に抽出された画像の特徴量として再生成されている。
【００７４】
つぎに、カット５とカットグループ１、２の類似が判定される。カット５の類似は、図１０の状態３に示すように、カットグループ１、２の画像のうち、動画像ＭＰのタイムコード上でカット５に近い画像の特徴量を用いて判定される。図９に示す例では、カット５は、カットグループ１、２との類似度が各々に０．１、０．２と算出されている。よって、カット５は、カットグループ１、２のいずれにも類似しないと判定される。このため、カットグループ３が生成され、カット５には、グループＩＤ＝３が付与されている。そして、図１０の状態４に示すように、カットグループ３の特徴量Ｓ３は、カット５の画像のうちカット５の最終フレームに近い画像から優先的に抽出された画像の特徴量として生成されている。
【００７５】
つぎに、カット６とカットグループ１、２、３の類似が判定される。カット６の類似は、図１０の状態４に示すように、カットグループ１、２、３の画像のうち、動画像ＭＰのタイムコード上でカット６に近い画像の特徴量を用いて判定される。図９に示す例では、カット６は、カットグループ１、２、３との類似度が各々に０．８、０．３、０．２と算出されている。よって、カット６は、カットグループ１と類似し、カットグループ２、３と類似しないと判定される。このため、カット６には、グループＩＤ＝１が付与されている。そして、図１０の状態５に示すように、カットグループ１の特徴量Ｓ１は、カット１、３、６の画像のうちカット６の最終フレームに近い画像から優先的に抽出された画像の特徴量として再生成されている。
【００７６】
つぎに、カット７とカットグループ１、２、３の類似が判定される。カット７の類似は、図１０の状態５に示すように、カットグループ１、２の画像のうち、動画像ＭＰのタイムコード上でカット７に近い画像の特徴量を用いて判定される。図９に示す例では、カット７は、カットグループ１、２、３との類似度が各々に０．１、０．９、０．１と算出されている。よって、カット７は、カットグループ２と類似し、カットグループ１、３と類似しないと判定される。このため、カット７には、グループＩＤ＝２が付与されている。そして、図１０の状態６に示すように、カットグループ２の特徴量Ｓ２は、カット２、４、７の画像のうちカット７の最終フレームに近い画像から優先的に抽出された画像の特徴量として再生成されている。
【００７７】
結果として、図９に示すように、図４に示したカット構成については、カット１、３、６がカットグループ１に区分され、カット２、４、７がカットグループ２に区分され、カット５がカットグループ３に区分される。
【００７８】
図３の説明に戻り、カット区分処理が終了すると、カット構成画像生成部１７では、まず、動画像データＭＰおよびカット遷移の検出結果に基づき、各カットに属する一連の画像から所定の基準に従って代表画像Ｉが抽出される（ステップＳ１７）。なお、各カットの代表画像Ｉは、カット遷移の検出時に予め抽出されてもよい。つぎに、カットグループの特定結果に基づき、カット構成画像ＣＩが生成される（ステップＳ１９）。カット構成画像ＣＩは、各カットの代表画像Ｉをカット遷移の順序に従って並べ、かつカットグループを明示する画像として生成される。
【００７９】
図１１には、図９に示したカットグループの特定結果から生成されたカット構成画像ＣＩの一例が示されている。図１１に示すカット構成画像ＣＩでは、カット１、２の代表画像Ｉ１、Ｉ２が横並びに配置され、カット１、２の代表画像Ｉ１、Ｉ２の下にカット３〜５の代表画像Ｉ３〜Ｉ５が横並びに配置され、カット３、４の代表画像Ｉ３、Ｉ４の下にカット６、７の代表画像Ｉ６、Ｉ７が横並びに配置されている。このようなカット構成画像ＣＩによって、カット構成の把握が容易となる。なお、カット構成画像ＣＩの構成は、図１１に示した構成に限定されるものではない。
【００８０】
［４．まとめ］
以上説明したように、本発明の実施形態に係る動画像処理装置１および動画像処理方法によれば、各カットグループの特徴量Ｓは、各カットグループに含まれる画像のうち、動画像ＭＰのタイムコード上で、類似判定の対象となる後続カットに近い画像の特徴量を重視して生成される。これにより、カット間の時間的コンテクスト（動画像ＭＰのストーリ性等）を十分に考慮した上で、後続カットを適切にグループ化することができる。
【００８１】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【００８２】
１動画像処理装置
１１データ取得部
１３カット遷移検出部
１５カット区分処理部
１７カット構成画像生成部
１９カット構成画像出力部
２１カット構成情報出力部
２３データ記憶部
ＭＰ動画（データ）
Ｓ特徴量
Ｉ代表画像
ＣＩカット構成画像

【特許請求の範囲】
【請求項１】
動画像に含まれる第１のカットグループの抽出画像から生成された特徴量と、前記動画像に含まれる第２のカットグループの抽出画像から生成された特徴量に基づき、後続カットと前記第１および前記第２のカットグループの類似度を判定する類似度判定部と、
前記後続カットが前記第１または前記第２のカットグループに類似する場合、前記後続カットを前記第１または前記第２のカットグループのうち前記後続カットに類似する類似カットグループに区分し、前記後続カットが前記第１および前記第２のいずれのカットグループにも類似しない場合、前記後続カットを第３のカットグループに区分するカット区分部と、
前記後続カットが前記第１および前記第２のいずれのカットグループにも類似しない場合、前記第３のカットグループから抽出された抽出画像と、前記第１および前記第２のカットグループから抽出された抽出画像を比較し、前記第３のカットグループの特徴量を生成する特徴量生成部と、
前記各カットグループの抽出画像を、前記各カットグループに含まれる画像のうち前記動画像のタイムコードの遅い画像から優先的に抽出する画像抽出部と
を備える動画像処理装置。
【請求項２】
前記特徴量生成部は、前記後続カットが前記第１または前記第２のカットグループに類似する場合、前記後続カットを含む前記類似カットグループから抽出された抽出画像と、前記後続カットに類似しないカットグループから抽出された抽出画像を比較し、前記類似カットグループの特徴量を生成する、請求項１に記載の動画像処理装置。
【請求項３】
前記画像抽出部は、前記後続カットが前記第１または前記第２のカットグループに類似する場合、前記後続カットと前記後続カットに類似するカットグループから前記抽出画像を抽出する、請求項２に記載の動画像処理装置。
【請求項４】
前記画像抽出部は、前記後続カットが前記第１または前記第２のカットグループに類似する場合、前記後続カットから前記抽出画像を抽出する、請求項２に記載の動画像処理装置。
【請求項５】
前記特徴量生成部は、前記第１のカットグループから抽出された抽出画像と、前記第２のカットグループから抽出された抽出画像を比較し、前記第１および前記第２のカットグループの特徴量を各々に生成する、請求項１に記載の動画像処理装置。
【請求項６】
前記画像抽出部は、前記各カットグループに含まれる画像のうち前記タイムコードの遅い順序で等間隔に位置する画像を抽出する、請求項１に記載の動画像処理装置。
【請求項７】
前記画像抽出部は、前記各カットグループに含まれる画像のうち前記タイムコードの遅い順序で等比数列で表される間隔に位置する画像を抽出する、請求項１に記載の動画像処理装置。
【請求項８】
前記画像抽出部は、前記各カットグループに含まれる画像のうち前記タイムコードの遅い順序で階差数列で表される間隔に位置する画像を抽出する、請求項１に記載の動画像処理装置。
【請求項９】
動画像に含まれる第１のカットグループの抽出画像から生成された特徴量と、前記動画像に含まれる第２のカットグループの抽出画像から生成された特徴量に基づき、後続カットと前記第１および前記第２のカットグループの類似度を判定し、
前記後続カットが前記第１または前記第２のカットグループに類似する場合、前記後続カットを前記第１または前記第２のカットグループのうち前記後続カットに類似する類似カットグループに区分し、
前記後続カットが前記第１および前記第２のいずれのカットグループにも類似しない場合、前記後続カットを第３のカットグループに区分するとともに、前記第３のカットグループから抽出された抽出画像と、前記第１および前記第２のカットグループから抽出された抽出画像を比較し、前記第３のカットグループの特徴量を生成すること
を含み、
前記各カットグループの抽出画像は、前記各カットグループに含まれる画像のうち前記動画像のタイムコードの遅い画像から優先的に抽出される動画像処理方法。
【請求項１０】
動画像に含まれ第１のカットを含む第１のカットグループの抽出画像から生成された特徴量と、前記動画像に含まれ第２のカットを含む第２のカットグループの抽出画像から生成された特徴量に基づき、後続カットと前記第１および前記第２のカットグループの類似度を判定し、
前記後続カットが前記第１または前記第２のカットグループに類似する場合、前記後続カット前記第１または前記第２のカットグループを前記後続カットに類似する類似カットグループに区分し、
前記後続カットが前記第１および前記第２のいずれのカットグループにも類似しない場合、前記後続カットを第３のカットグループに区分するとともに、前記第３のカットグループから抽出された抽出画像と、前記第１および前記第２のカットグループから抽出された抽出画像を比較し、前記第３のカットグループの特徴量を生成すること
を含み、
前記各カットグループの抽出画像は、前記各カットグループに含まれる画像のうち前記動画像のタイムコードの遅い画像から優先的に抽出される動画像処理方法をコンピュータに実行させるためのプログラム。

【図１】