動画編集装置、動画編集方法およびコンピュータプログラム
【課題】サンプル動画に基づいて自動編集を行なう際に、編集前の動画のどの部分を抽出するかを考慮して、自動編集を行なえるようにする。
【解決手段】1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集装置において、編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定されたサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するインタフェース部と、特定した編集情報に基づいて、サンプル動画を構成する各シーンの長さに関する指標と、各シーンのショットに対する特徴量とを算出するシーン情報分析部と、長さに関する指標とショットに対する特徴量とに基づいて、編集対象の動画の有するショットから抽出するシーンを決定するシーン抽出部とを備える。
【解決手段】1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集装置において、編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定されたサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するインタフェース部と、特定した編集情報に基づいて、サンプル動画を構成する各シーンの長さに関する指標と、各シーンのショットに対する特徴量とを算出するシーン情報分析部と、長さに関する指標とショットに対する特徴量とに基づいて、編集対象の動画の有するショットから抽出するシーンを決定するシーン抽出部とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画の自動編集に関し、特に、ユーザが希望するサンプル動画の編集情報に基づいて自動編集を行なう動画編集装置、動画編集方法およびそのためのコンピュータプログラムに関する。
【背景技術】
【0002】
従来、ビデオカメラ等で撮影した動画の編集を行なうためには、高性能のコンピュータと技術者向けの専用ソフトウェアを用いる必要があり、それらを操作するためには高度な技術や専門知識が要求されていた。近年では、パーソナルコンピュータの高機能化やビデオカメラの普及等により、簡易に動画編集を行なえるソフトウェアが開発され、専門技術や専門知識のない一般ユーザでも容易に動画の編集ができるようになっている。
【0003】
例えば、特許文献1には、編集済のサンプル動画を学習することにより編集情報を生成し、生成した編集情報に基づいてユーザへの編集支援を行なう映像編集支援装置が開示されている。このような装置を用いることで、サンプル動画における映像の並びや、エフェクトの適用、バックグランドミュージックの付加等を模した動画編集を一般ユーザが簡易に行なうことができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−336106号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来提案されている装置では、編集済の動画のみをサンプルとしているため、元の動画をどのように編集して編集済の動画を生成したかは学習することはできない。このため、例えば、編集前の動画のどの部分を抽出してサンプル動画を構成したのかを分析して参考にすることができない。
【0006】
そこで、本発明は、サンプル動画に基づいて自動編集を行なう際に、編集前の動画のどの部分を抽出するかを考慮して、自動編集を行なえるようにすることを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明の第1の態様である動画編集装置は、1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集装置において、編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するインタフェース部と、特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するシーン情報分析部と、前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するシーン抽出部とを備えたことを特徴とする。
ここで、前記長さに関する指標は、前記サンプル動画を構成する各シーンの長さの平均と分散とを含むことができる。
また、前記特徴量は、シーンの明るさ評価値と前記サンプル動画の編集前動画の明るさ評価値との差を含むことができる。
また、前記編集情報は、前記サンプル動画に適用するエフェクトに関する情報を含んでおり、前記編集情報に基づいて、抽出されたシーンに適用するエフェクトを割り当てるエフェクト割当部をさらに備えることができる。
上記課題を解決するため、本発明の第2の態様である動画編集方法は、1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集方法において、編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するステップと、特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するステップと、前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するステップとを有することを特徴とする。
上記課題を解決するため、本発明の第3の態様であるコンピュータプログラムは、1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集装置として情報処理装置を機能させるコンピュータプログラムにおいて、編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するインタフェース部、特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するシーン情報分析部、前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するシーン抽出部として、前記情報処理装置を機能させることを特徴とする。
【発明の効果】
【0008】
本発明によれば、サンプル動画に基づいて自動編集を行なう際に、編集前の動画のどの部分を抽出するかを考慮して、自動編集を行なえるようになる。
【図面の簡単な説明】
【0009】
【図1】本実施形態の動画編集システムの全体構成を示すブロック図である。
【図2】動画編集サーバが扱う動画編集について説明する図である。
【図3】動画編集サーバの機能構成を示すブロック図である。
【図4】編集情報について説明する図である。
【図5】動画編集サーバにおける動画自動編集動作の概要を示すフローチャートである。
【図6】サンプル動画の編集情報の分析の詳細な手順を示すフローチャートである。
【図7】シーン長の平均と分散の算出処理およびシーン長の変化傾向の分析処理を説明する図である。
【図8】シーン間隔の分析処理およびシーン明るさ分析処理を説明する図である。
【図9】シーン明るさ分析処理の手順を説明するフローチャートである。
【図10】エフェクト情報の分析手順を説明するフローチャートである。
【図11】エフェクト情報および修飾情報の分析処理を説明する図である。
【図12】修飾情報の分析手順を説明するフローチャートである。
【図13】編集対象の編集前動画からシーンを抽出する処理を説明するフローチャートである。
【図14】抽出シーン候補の設定について説明する図である。
【図15】シーン長変化傾向の評価手順を説明するフローチャートである。
【図16】シーン明るさの評価手順を説明するフローチャートである。
【図17】エフェクト割当手順を説明するフローチャートである。
【図18】修飾コンテンツ割当手順を説明するフローチャートである。
【発明を実施するための形態】
【0010】
本発明の実施の形態について図面を参照して詳細に説明する。図1は、本実施形態の動画編集システムの全体構成を示すブロック図である。本図に示すように、動画編集システム10は、動画編集サーバ20と複数台の動画編集端末30(30a、30b、30c…)とがコンピュータネットワーク40を介して接続されて構成される。
【0011】
動画編集サーバ20は、Webサーバ機能を備えており、Webサービスをインタフェースとして、HTTP等の所定のプロトコルにより各動画編集端末30からの操作を受け付ける。そして、それぞれの動画編集端末30に対して応答を行なうことでユーザに対して動画編集サービスを提供する。
【0012】
動画編集端末30は、ユーザが使用する端末装置であり、Webブラウザ機能を備えているものとする。ユーザは、編集対象の動画を動画編集端末30から動画編集サーバ20にアップロードし、動画編集サーバ20上で編集することができる。そして、編集済の動画を動画編集サーバ20からストリーミングで再生したり、動画編集サーバ20から動画編集端末30にダウンロードする。動画編集端末30は、Webブラウザソフトウェアをインストールした一般的な情報処理装置を用いることができる。
【0013】
ここで、動画編集サーバ20が扱う動画編集について図2を参照して説明する。本実施形態において、編集を施してない編集前動画は、図2(a)に示すように、1または複数個のショットから構成されている。ショットは、切れ目なく連続して撮影された映像のまとまりである。編集動作では、まず、ショットから一部分であるシーンを複数個抽出する。抽出されたシーンの連続が編集後の動画の基本となる。なお、1つの編集後の動画に対して、複数の編集前動画からシーンを抽出してもよい。
【0014】
そして、図2(b)に示すように、抽出したシーンに対してエフェクトを割り当てる。エフェクトは複数のシーンにまたがっていたり、1つのシーンに複数個割り当ててもよい。ここで、エフェクトは、映像効果であり、映像の色調を調整したりぼかしたりするフィルタと、シーンの切り換え部分に適用するディゾルブ等のトランジションとに区分される。フィルタ、トランジションとも複数の種類を有している。もちろん、これ以外のエフェクトを用いるようにしてもよい。
【0015】
さらに、図2(c)に示すように、抽出したシーンに対して修飾コンテンツを割り当てる。これにより、編集後の動画、すなわち編集動画が完成する。ここで、修飾コンテンツは、修飾のための静止画コンテンツ、動画コンテンツ、バックミュージックのためのオーディオコンテンツとする。もちろん、これ以外の修飾コンテンツを用いるようにしてもよい。
【0016】
図3は、動画編集サーバ20の機能構成を示すブロック図である。本図に示すように、動画編集サーバ20は、通信部210、Webサーバ部220、再生インタフェース部230、手動編集インタフェース部240、自動編集インタフェース部250、編集情報分析部260、自動編集実行部270、記憶部280を備えている。
【0017】
動画編集サーバ20は、CPU、メモリ、ハードディスク、通信装置等を備えたサーバコンピュータを用いて構成することができる。このとき、複数台の装置に機能を分散させて構成してもよい。また、本実施形態では、Webサービスをインタフェースとして、コンピュータネットワーク40を介して動画編集端末30からの操作を受け付ける構成としているが、スタンドアロンの動画編集装置として構成してもよい。
【0018】
通信部210は、コンピュータネットワーク40を介した動画編集端末30との通信を行なう。Webサーバ部220は、動画編集端末30にWebサービスを提供し、動画編集端末30からの要求を受信する。そして、要求に応じたメッセージを再生インタフェース部230、手動編集インタフェース部240、自動編集インタフェース部250に供給する。また、Webサーバ部220は、再生インタフェース部230、手動編集インタフェース部240、自動編集インタフェース部250からの応答メッセージを動画編集端末30に出力する。
【0019】
記憶部280は、ハードディスク等の記憶装置により構成することができ、編集前動画記憶部281、修飾コンテンツ記憶部282、編集情報記憶部283を備えている。
【0020】
編集前動画記憶部281は、編集前動画を識別子である編集前動画IDと対応付けるとともに、編集前動画を構成するショットを識別子であるショットIDと対応付けて記憶する。編集前動画は、ユーザが動画編集端末30からアップロードすることができる。また、動画編集サーバ20の運営者があらかじめ見本用に格納しておいてもよい。あるいは、動画編集端末30を介さずに、ビデオカメラ、Webカメラ等から直接アップロードできるようにしてもよい。なお、ショットIDはすべての編集前動画においてショットを一意に識別する。すなわち、編集前動画記憶部281に複数の編集前動画が記憶されている場合に、それぞれが別の編集前動画を構成している複数のショットに同一のショットIDが対応付けられることはない。
【0021】
修飾コンテンツ記憶部282は、修飾コンテンツを識別子である修飾コンテンツIDと対応付けて記憶する。修飾コンテンツは、ユーザが動画編集端末30からアップロードすることができる。また、動画編集サーバ20の運営者が汎用的な修飾コンテンツをあらかじめ格納しておいてもよい。
【0022】
編集情報記憶部283は、編集情報を識別子である編集動画IDと対応付けて記憶する。ここで、編集情報について図4を参照して説明する。編集情報は、シーン情報部、エフェクト情報部、修飾情報部を含んでいる。
【0023】
シーン情報部は、複数のシーン情報を含んでおり、それぞれのシーン情報は、編集前動画記憶部281に記憶されている編集前動画を構成するショットの識別子である「ショットID」、ショットIDで識別されるショットにおけるシーン抽出開始位置をショットの先頭からの相対時間で示す「シーン開始位置」、シーンの時間長を示す「シーン長」を含んでいる。
【0024】
エフェクト情報部は、複数のエフェクト情報を含んであり、それぞれのエフェクト情報は、適用するエフェクトの種別を示す「エフェクト種別」、編集後の動画におけるエフェクトの開始時間を示す「エフェクト開始位置」、エフェクトを継続する時間長を示す「エフェクト長」を含んでいる。「エフェクト種別」には、エフェクト強度等を示す各種パラメータを含めることができる。
【0025】
修飾情報部は、複数の修飾情報を含んでおり、それぞれの修飾情報は、付加するコンテンツを示す「コンテンツID」、編集後の動画におけるコンテンツ開始時間を示す「修飾開始位置」、コンテンツ付加の時間長を示す「修飾長」を含んでいる。
【0026】
本実施形態では、編集動画のストリーミングやダウンロード時に、編集情報に基づいて編集前動画および修飾コンテンツを用いてリアルタイムで編集動画を生成する構成を想定しているが、記憶部280に編集動画を記録する領域を設け、動画編集時にあらかじめ編集動画を生成して記録しておき、ストリーミングやダウンロード時には記録された編集動画を読み出すようにしてもよい。
【0027】
図3の説明に戻って、再生インタフェース部230は、Webサーバ部220を介してユーザの動画編集端末30から動画再生の指示を受け付けると、指示に係る編集動画を特定し、特定された編集動画に対応した編集情報を編集情報記憶部283から読み出す。そして、読み出した編集情報にしたがって編集前動画および修飾コンテンツを用いて編集動画を生成し、ユーザの動画編集端末30に出力する。具体的には、編集前動画から編集情報で指定されているシーンを抽出し、編集情報で指定されているエフェクトを施し、編集情報で指定されている修飾コンテンツを付加して編集動画を生成する。この結果、ユーザの動画編集端末30では、編集動画が再生されることになる。なお、再生はストリーミングやダウンロードにより行なうことができる。
【0028】
手動編集インタフェース部240は、Webサーバ部220を介してユーザの動画編集端末30から動画手動編集の指示を受け付けると、あらかじめ用意してある編集ツールをユーザの動画編集端末30に提供して、編集前動画および修飾コンテンツを用いた任意の編集操作を受け付ける。そして、編集操作に基づいて編集情報を生成し、編集情報記憶部283に記憶させる。手動編集インタフェース部240は、従来の技術を用いて構成することができる。
【0029】
自動編集インタフェース部250は、Webサーバ部220を介してユーザの動画編集端末30から動画自動編集の指示を受け付けると、指示に係るサンプル動画と編集対象の編集前動画を特定する。ここで、サンプル動画は、編集動画のうち、ユーザが手本としたい編集を行なっている動画である。すなわち、ユーザは、動画自動編集の指示を行なう場合、編集対象とする編集前動画と、手本とする編集動画とをWebブラウザ上で指定する。手本とする編集動画は、例えば、再生インタフェース部230を用いて探し出すことができる。手本とする編集動画、すなわちサンプル動画は複数であってもよい。
【0030】
そして、自動編集インタフェース部250は、指定されたサンプル動画に対応する編集情報を編集情報記憶部283から読み出し、編集情報分析部260に分析させる。編集情報分析部260は、サンプル動画に対応する編集情報に含まれるシーン情報のショットIDで識別されるショットを編集前動画記憶部281から読み出して分析に用いる。
【0031】
さらに、自動編集インタフェース部250は、この分析結果を用いて、指定された編集前動画に対する自動編集を自動編集実行部270に行なわせる。そして、自動編集の結果として編集情報を生成し、編集情報記憶部283に記憶させる。自動編集による編集動画は、手動編集による編集動画と同様にユーザの動画編集端末30からストリーミングやダウンロードにより再生することができる。
【0032】
編集情報分析部260は、ユーザが指定したサンプル動画の編集情報の分析を行なう。このため、編集情報分析部260は、シーン情報の分析を行なうシーン情報分析部261、エフェクト情報の分析を行なうエフェクト情報分析部262、修飾情報の分析を行なう修飾情報分析部263を備えている。
【0033】
自動編集実行部270は、編集情報分析部260の分析結果に基づいて、ユーザが指定した編集前動画の編集を実行し、編集情報を生成する。このため、自動編集実行部270は、シーンの抽出を行なうシーン抽出部271、エフェクトの割当を行なうエフェクト割当部272、修飾コンテンツの割当を行なう修飾割当部273を備えている。
<動画自動編集動作>
【0034】
次に、図5のフローチャートを参照して、動画編集サーバ20における動画自動編集動作の概要について説明する。この一連の動作は、自動編集インタフェース部250が制御する。動画自動編集動作では、まず、Webサーバ部220を介して、ユーザから編集対象の編集前動画の指定を受け付ける(S1)。また、サンプル動画、すなわち編集の手本とする編集動画の指定を受け付ける(S2)。自動編集インタフェース部250は、サンプル動画の指定を受け付けると、編集情報記憶部283に格納されているサンプル動画の編集情報を特定する。
【0035】
そして、編集情報分析部260が、サンプル動画の編集情報の分析を行なう(S3)。編集情報の分析が終了すると、自動編集実行部270のシーン抽出部271が、編集対象の動画からシーンを抽出し(S4)、エフェクト割当部272が、抽出されたシーンに対してエフェクトを割り当て(S5)、修飾割当部273が、抽出されたシーンに対して修飾コンテンツを割り当てる(S6)ことで、自動編集が行なわれる。
<編集情報分析動作>
【0036】
サンプル動画の編集情報の分析(S3)の詳細な手順について、図6のフローチャートを参照して説明する。本図に示すようにサンプル動画の編集情報の分析では、シーン情報の分析(S31〜S36)と、エフェクト情報の分析(S37)と修飾情報の分析(S38)が行なわれる。
【0037】
シーン情報の分析では、複数の項目に分けて分析を行なう。本実施形態では6つの項目に分けるが、これらのうち一部の項目を抽出して行なったり、他の項目を追加してシーン情報の分析を行なうようにしてもよい。
【0038】
まず、シーン情報の分析として、シーン長の平均と分散とを算出する(S31)。図7(a)は、シーン長の平均と分散の算出処理を説明する図である。本図の例では、サンプル動画が142個のシーンから構成されている。シーン長の平均は、これらのシーンの時間長の平均値であり、シーン長分散は、これらのシーンの時間長の分散値である。この分析により、サンプル動画のシーンの平均的な長さと、長さのバラツキを指標化することができる。
【0039】
シーン長の平均と分散とを算出する(S31)と、シーン長の変化傾向を分析する(S32)。図7(b)は、シーン長の変化傾向の分析処理を説明する図である。シーン長の変化傾向の分析では、サンプル動画を時間軸で複数のブロックに分割し、それぞれのブロックについてシーン長の平均値を算出する。これにより、開始部分や中盤部分、終了部分等の再生部分によってシーン長がどのように変化するかを指標化することができる。本図の例では、サンプル動画を等間隔で10個のブロックに分割し、それぞれのブロックに含まれるシーンのシーン長平均を算出している。
【0040】
次に、シーン間隔を分析する(S33)。図8(a)は、シーン間隔の分析処理を説明する図である。シーン間隔は、サンプル動画のシーンの抽出元である編集前動画のショットを対象に分析し、各シーンにおいてショットのどの位置から抽出されているかの傾向を指標化するための分析である。このため、サンプル動画の各シーンについて、シーン抽出元のショットにおいてそのシーンより前から抽出されたシーンがない場合は、ショットの開始からシーンが開始するまでの時間Aを算出し、他のシーンについては直前のシーンとの間隔Bを算出する。そして、シーン間隔平均値として、サンプル動画の編集前動画全体の平均値を、間隔A、間隔B毎に算出する。なお、図8(a)はサンプル動画のすべてのシーンが1つの編集前動画(サンプル編集前動画)から抽出される例を示しているが、シーンが複数の編集前動画から抽出される場合も同様である。
【0041】
次に、シーン明るさ分析を行なう(S34)。シーン明るさ分析は、抽出されたシーンが、ショットの中で比較的明るい部分が抽出されたものか、比較的暗い部分が抽出されたものかを把握するために行なう分析である。図8(b)は、シーン明るさ分析処理を説明する図である。また、図9は、シーン明るさ分析処理の手順を説明するフローチャートである。なお、図8(b)はサンプル動画のすべてのシーンが1つの編集前動画(サンプル編集前動画)から抽出される例を示しているが、シーンが複数の編集前動画から抽出される場合も同様である。
【0042】
シーン明るさ分析処理では、サンプル動画のシーン抽出元の各ショットについて抽出されたシーンとそのショット全体の明るさ比較を行なうため、まず、対象ショットを設定する(S341)。対象ショットは、シーン抽出元のショットを任意の順序で順次設定すればよい。なお、ショットから複数のシーンが抽出されている場合でも、そのショットは対象ショットとして1回だけ設定する。
【0043】
そして、対象ショット全体の明るさを算出する(S342)。これは、対象ショットを構成する全フレームに含まれる画素の輝度値の平均を算出すればよい。次に、対象ショットに含まれるシーンの明るさを算出する(S343)。これは、対象ショットに含まれるシーンを構成する全フレームに含まれる画素の輝度値の平均を算出すればよい。対象ショットに複数のシーンが含まれる場合には、すべてのシーンを合わせた平均値とする。
【0044】
そして、対象ショット全体の明るさからシーンの明るさを引いた値を算出して、対象ショット明るさ差とする(S344)。対象ショット明るさ差が正の大きな値であるほど、抽出されたシーンが、ショットの中で暗い部分が抽出されたものであることを示し、対象ショット明るさ差が負の大きな値であるほど、抽出されたシーンが、ショットの中で明るい部分が抽出されたものであることを示すことになる。
【0045】
以上の対象ショット明るさ差算出処理をシーン抽出元のすべてのショットについて繰り返す(S345)。そして、シーン抽出元のすべてのショットのショット明るさ差の平均値を算出し、ショット明るさ差平均とする(S346)。
【0046】
図6のフローチャートの説明に戻って、次に、シーン動き分析を行なう(S35)。シーン動き分析は、抽出されたシーンが、ショットの中で比較的動きのある部分が抽出されたものか、比較的動きのない部分が抽出されたものかを把握するために行なう分析である。シーン動き分析の手順は、シーン明るさ分析処理の手順と同様に行なうことができ、明るさを示す輝度値の平均に替えて、ショットおよびシーンに含まれる映像のオプティカルフローを検出し、動きの大きさの平均を算出することで動きの大きさを指標化する。ただし、他の方法を用いて動きの大きさを指標化するようにしてもよい。そして、シーン抽出元のショット毎のショットの動きの大きさとシーンの動きの大きさとの差を算出してから、シーン抽出元のすべてのショットの平均値であるショット動きの大きさ差平均を算出する。
【0047】
この結果、ショット動きの大きさ差平均が正の大きな値であるほど、抽出されたシーンが、ショットの中で動きの少ない部分が抽出されたものであることを示し、ショット動きの大きさ差平均が負の大きな値であるほど、抽出されたシーンが、ショットの中で動きの多い部分が抽出されたものであることを示すことになる。
【0048】
次に、シーン音量分析を行なう(S35)。シーン音量分析は、抽出されたシーンが、ショットの中で比較的音の大きな部分が抽出されたものか、比較的音の小さな部分が抽出されたものかを把握するために行なう分析である。シーン音量分析の手順は、シーン明るさ分析処理の手順と同様に行なうことができる。ただし、映像データに付随する音声データを用いるようにする。また、明るさの評価である輝度値の平均に替えて、ショットおよびシーンに含まれる音声の音量レベルを検出し、平均を算出することで音量を指標化し、シーン抽出元のショット毎のショット音量とシーン音量との差を算出してから、シーン抽出元のすべてのショットの平均値であるショット音量差平均を算出する。
【0049】
この結果、ショット音量差平均が正の大きな値であるほど、抽出されたシーンが、ショットの中で音量の小さな部分が抽出されたものであることを示し、ショット音量差平均が負の大きな値であるほど、抽出されたシーンが、ショットの中で音量の大きな部分が抽出されたものであることを示すことになる。
【0050】
以上の手順によりシーン情報の分析を行なうと、エフェクト情報の分析を行なう(図6:S37)。図10は、エフェクト情報の分析手順を説明するフローチャートである。また、図11(a)は、エフェクト情報の分析処理を説明する図である。エフェクト情報の分析処理では、サンプル動画においてエフェクトがどのように適用されているかをフィルタとトランジションとに分けて分析する。
【0051】
このため、サンプル動画を時間軸上で複数の等間隔ブロックに分割する(S371)。本例では、図11(a)に示すように、10個のブロックに分割する。そして、対象ブロックを設定する(S372)。対象ブロックは先頭のブロックから順次設定すればよい。
【0052】
次いで、対象ブロックでのフィルタ適用確率を算出する(S373)。フィルタ適用確率は、対象ブロック内でフィルタが適用されているシーンの数を対象ブロックに含まれるシーンの数で割ることにより算出する。
【0053】
次に、対象ブロックでのフィルタ種別毎の使用頻度を算出する(S374)。フィルタ種別毎の使用頻度は、対象ブロックで適用されているフィルタについてフィルタ種別毎の適用回数を求め、合計が1となるように正規化して算出する。
【0054】
フィルタと同様に、対象ブロックでのトランジション適用確率を算出する(S375)。トランジション適用確率は、対象ブロック内でトランジションが適用されているシーンの数を対象ブロックに含まれるシーンの数で割ることにより算出する。
【0055】
また、対象ブロックでのトランジション種別毎の使用頻度を算出する(S376)。トランジション種別毎の使用頻度は、対象ブロックで適用されているトランジションについてトランジション種別毎の適用回数を求め、合計が1となるように正規化して算出する。
【0056】
以上の処理をすべてのブロックについて繰り返し(S377)、ブロック毎のフィルタ適用確率、フィルタ種別毎の使用頻度、トランジション適用確率、トランジション種別毎の使用頻度を算出する。
【0057】
以上の手順によりエフェクト情報の分析を行なうと、修飾情報の分析を行なう(図6:S37)。図12は、修飾情報の分析手順を説明するフローチャートである。また、図11(b)は、修飾情報の分析処理を説明する図である。修飾情報の分析処理では、サンプル動画において修飾コンテンツがどのように付加されているかを静止画コンテンツと動画コンテンツとオーディオコンテンツとに分けて分析する。
【0058】
このため、サンプル動画を時間軸上で複数の等間隔ブロックに分割する(S381)。本例では、図11(b)に示すように、10個のブロックに分割する。そして、対象ブロックを設定する(S382)。対象ブロックは先頭のブロックから順次設定すればよい。
【0059】
次いで、対象ブロックでの静止画コンテンツ付加確率を算出する(S383)。静止画コンテンツ付加確率は、対象ブロック内で静止画コンテンツが付加されているシーンの数を対象ブロックに含まれるシーンの数で割ることにより算出する。
【0060】
次に、対象ブロックでの静止画コンテンツ毎の使用頻度を算出する(S384)。静止画コンテンツ毎の使用頻度は、対象ブロックで付加されている静止画コンテンツについて静止画コンテンツ毎の適用回数を求め、合計が1となるように正規化して算出する。
【0061】
静止画コンテンツと同様に、対象ブロックでの動画コンテンツ付加確率を算出する(S385)。動画コンテンツ付加確率は、対象ブロック内で動画コンテンツが付加されているシーンの数を対象ブロックに含まれるシーンの数で割ることにより算出する。
【0062】
また、対象ブロックでの動画コンテンツ毎の使用頻度を算出する(S386)。動画コンテンツ毎の使用頻度は、対象ブロックで付加されている動画コンテンツについて動画コンテンツ毎の適用回数を求め、合計が1となるように正規化して算出する。
【0063】
以上の処理をすべてのブロックについて繰り返し(S387)、ブロック毎の静止画コンテンツ付加確率、静止画コンテンツ毎の使用頻度、動画コンテンツ付加確率、動画コンテンツ毎の使用頻度を算出する。
【0064】
次に、サンプル動画のオーディオコンテンツ付加確率を算出する(S388)。すなわち、オーティオコンテンツについてはブロック単位ではなく、サンプル動画単位で確率を算出する。このため、サンプル動画が1つの場合、オーディオコンテンツ付加確率は、サンプル動画にオーディオコンテンツが付加されていれば100%であり、付加されていなければ0%となる。サンプル動画が複数の場合は、オーディオコンテンツが付加されている動画の数をサンプル動画の数で割ることによりオーディオコンテンツ付加確率を算出する。
【0065】
また、サンプル動画のオーディオコンテンツ毎の使用頻度を算出する(S389)。オーディオコンテンツ毎の使用頻度は、サンプル動画で付加されているオーディオコンテンツについてオーディオコンテンツ毎の適用回数を求め、合計が1となるように正規化して算出する。
<自動編集実行動作:シーン抽出>
【0066】
次に、自動編集実行部270が行なう自動編集実行動作について説明する。まず、編集対象の編集前動画からシーンを抽出する処理(図5:S4)について、図13のフローチャートを参照して説明する。本処理は、自動編集実行部270のシーン抽出部271が制御する。
【0067】
まず、編集後の動画の長さを決定する(S41)。編集後の動画の長さは、例えば、サンプル動画の長さと同一とする。サンプル動画が複数個指定されている場合は、平均の長さを編集後の動画の長さとする。あるいは、ユーザから編集後の動画の長さの指定を受け付けるようにしてもよい。
【0068】
以下では、編集前の動画からシーンを1つずつ抽出し、全体の長さが編集動画の長さになるまで、シーンの抽出を繰り返す(S411)。シーンは、必ずしも先頭から順番に抽出されるのではなく、編集前の動画の未抽出の部分から条件に合うシーンが順不同で抽出される。そして、順不同で抽出されたシーンを前から順番に並べて編集動画を構成する。
【0069】
まず、次に抽出するシーンの長さを決定する(S42)。抽出するシーンの長さは、サンプル動画の編集情報を分析して得られたシーン長の平均と分散とに基づいて決定する。すなわち、得られたシーン長の平均と分散とに基づいた正規分布の確率分布において、乱数を発生させて次に抽出するシーンの長さを決定する。
【0070】
次に、抽出するシーンの候補を設定する(S43)。抽出するシーンの候補(抽出シーン候補)の設定では、図14に示すように、編集対象の編集前動画の各ショットから、まだ抽出されていない部分を対象に、抽出するシーンの長さ分の動画を、例えば、1秒程度の等間隔でずらしていくことにより得られる動画を抽出シーン候補とする。本図の例ではショットKから11個の抽出シーン候補が設定されている。
【0071】
抽出シーン候補を設定すると、各抽出シーン候補に対して、分析を行なった複数の項目に関する評価を行ない、最も評価の高い抽出シーン候補を抽出シーンとして決定する。
【0072】
本実施形態では、まず、シーン長変化傾向の評価を行なう(S44)。図15は、シーン長変化傾向の評価手順について説明するフローチャートである。シーン長変化傾向の評価では、始めに、評価対象とする抽出シーン候補を設定する(S441)。評価対象とする抽出シーン候補は、前方向から順次設定すればよい。
【0073】
次いで、対象抽出シーン候補が属するブロックを判別する(S442)。ここで、ブロックは、編集前動画を時間軸において等間隔で所定個数に分割したものであり、所定個数は、編集情報分析時におけるブロック数と同じ数とする。
【0074】
対象抽出シーン候補が属するブロックを判別すると、サンプル動画の同じブロックにおけるシーン長平均(図7(b)参照)を取得し、その値を「ブロック内シーン長平均」とする(S443)。そして、サンプル動画全体のシーン平均長と「ブロック内シーン長平均」との差を算出する(S444)。この差は、サンプル動画の対応するブロックにおけるシーンの長さが、サンプル動画全体のシーンの長さと比べて特徴的であるかどうかを示すことになる。すなわち、サンプル動画の対応するブロックに含まれるシーンが比較的短いものであったり、比較的長いものであれば、この差が大きくなる。
【0075】
この結果、差が所定の閾値以上でなければ(S445:No)、サンプル動画の対応するブロックにおけるシーンの長さは、サンプル動画全体のシーンの長さと比べて特徴的でないため、積極的な評価は行なわず、対象抽出シーン候補の優先度評価値を0とする(S446)。
【0076】
一方、差が所定の閾値以上であれば(S445:Yes)、サンプル動画の対応するブロックにおけるシーンの長さが、動画全体のシーンの長さと比べて特徴的であることを示している。そこで、対象抽出シーン候補の長さと「ブロック内シーン長平均」との差を算出する(S447)。
【0077】
この結果、差が所定の閾値以下であれば(S448:Yes)、対象抽出シーン候補の長さもサンプル動画の同じブロックと同様の特徴を有しているとして、優先度評価値を+1とする(S449)。一方、差が所定の閾値以下でなければ(S448:No)、対象抽出シーン候補の長さは、サンプル動画の同じブロックの特徴を有していないとして、優先度評価値を−1とする(S4410)。
【0078】
以上の処理をすべての対象抽出シーン候補について繰り返し(S4411)、各対象抽出シーン候補についてシーン長変化傾向の優先度評価値を算出する。
【0079】
次に、シーン間隔の評価を行なう(図13:S45)。シーン間隔の評価では、各抽出シーン候補について、抽出シーン候補が含まれるショットにおいて、その抽出シーン候補より前に抽出済シーンがない場合は、その抽出シーン候補とショット先頭との間隔と、図8(a)における間隔Aの平均値との差を求め、その抽出シーン候補より前に抽出済シーンがある場合は、その抽出シーン候補と抽出済シーンとの間隔と、図8(a)における間隔Bの平均値との差を求める。
【0080】
そして、得られた差の大きさが所定の閾値以下である場合は、サンプル動画と同じ傾向を有しているとして、その抽出シーン候補のシーン間隔の優先度評価値を+1とする。得られた差の大きさが所定の閾値以下でない場合は、サンプル動画と同じ傾向を有していないとして、その抽出シーン候補のシーン間隔の優先度評価値を−1とする。
【0081】
次に、シーン明るさ評価を行なう(図13:S46)。図16は、シーン明るさ評価の手順について説明するフローチャートである。シーン明るさ評価では、まず、サンプル動画のシーンは、編集前サンプル動画全体と比較して暗い場面を抽出している傾向があるかどうかを判定する(S461)。この判定は、処理(S346)で算出したショット明るさ差平均が所定の正の閾値以上であるかどうか判断すればよい。
【0082】
サンプル動画のシーンは、全体よりも暗い場面を抽出している傾向がない場合は(S461:No)、サンプル動画のシーンは、全体よりも明るい場面を抽出している傾向があるかどうかを判定する(S462)。この判定は、処理(S346)で算出したショット明るさ差平均が所定の負の閾値以下であるかどうか判断すればよい。
【0083】
全体よりも明るい場面を抽出している傾向もない場合は(S462:No)、サンプル動画において、抽出されたシーンの明るさに特徴は認められないため、シーン明るさの積極的な評価は行なわず、すべての抽出シーン候補について、シーン明るさの優先度評価値を0とする。
【0084】
サンプル動画のシーンが、全体よりも暗い場面を抽出している傾向がある場合(S461:Yes)は、対象抽出シーン候補を設定し(S464)、対象抽出シーン候補が同じ傾向を有しているかどうかを判定する(S465)。この判定は、対象抽出シーン候補が含まれるショットの全体の明るさ差平均と、対象抽出シーン候補の明るさとの差を算出し、その差が所定の正の閾値以上であるかどうか判断すればよい。
【0085】
対象抽出シーン候補が同じ傾向を有している場合(S465:Yes)、シーン明るさの優先度評価値を+1とし(S466)、対象抽出シーン候補が同じ傾向を有していない場合(S465:No)、シーン明るさの優先度評価値を−1とする(S467)。以上の処理をすべての抽出シーン候補に対して行なう(S468)。
【0086】
サンプル動画のシーンが、全体よりも明るい場面を抽出している傾向がある場合(S462:Yes)は、対象抽出シーン候補を設定し(S469)、対象抽出シーン候補が同じ傾向を有しているかどうかを判定する(S4610)。この判定は、対象抽出シーン候補が含まれるショットの全体の明るさ差平均と、対象抽出シーン候補の明るさとの差を算出し、その差が所定の負の閾値以下であるかどうか判断すればよい。
【0087】
対象抽出シーン候補が同じ傾向を有している場合(S4610:Yes)、シーン明るさの優先度評価値を+1とし(S4611)、対象抽出シーン候補が同じ傾向を有していない場合(S4610:No)、シーン明るさの優先度評価値を−1とする(S4612)。以上の処理をすべての抽出シーン候補に対して行なう(S4613)。
【0088】
次に、シーン動き評価を行なう(図13:S47)。シーン動き評価の手順は、シーン明るさ評価と同様に行なうことができる。ただし、ショット明るさ差平均をショット動きの大きさ差平均に変更して行なう。
【0089】
次に、シーン音量評価を行なう(S48)。シーン音量評価の手順は、シーン明るさ評価と同様に行なうことができる。ただし、ショット明るさ差平均をショット音量差平均に変更して行なう。
【0090】
以上のシーン長変化傾向、シーン間隔、シーン明るさ、シーン動き、シーン音量の各項目の評価を終えると、得られた各項目の優先度評価値を抽出シーン候補毎に足し合わせることで、各抽出シーン候補の優先度を算出する(S49)。このとき、項目毎に重み付けを行なうようにしてもよい。
【0091】
そして、最も優先度の高い抽出シーン候補を、抽出シーンとして決定する(S410)。以上の処理(S42〜S410)を、抽出済シーンの長さの合計が処理(S41)で決定した動画長さに達するまで繰り返し(S411)、動画長さに達すると、抽出されたシーンを前から順番に並べたものを編集動画の基本動画として、動画シーン抽出処理(S4)を終了する。
<エフェクト割当>
【0092】
次に、抽出されたシーンで構成される編集動画の基本動画に、自動編集実行部270のエフェクト割当部272が、エフェクトの割り当てを行なう(図5:S5)。図17は、エフェクト割当手順を説明するフローチャートである。
【0093】
エフェクトは抽出されたシーン単位で行なうため、対象シーンを設定する(S51)。対象シーンは、先頭のシーンから順次設定すればよい。そして、以下の処理を、抽出されたすべてのシーンに対して繰り返す(S56)。
【0094】
エフェクトの割当は、フィルタとトランジションとで分けて行なう。このため、対象シーンにフィルタを適用するかどうかを判定する(S52)。この判定は、まず、対象シーンが含まれるブロックを判別する。ここで、ブロックは、編集前動画を時間軸において等間隔で所定個数に分割したものであり、所定個数は、編集情報分析時におけるブロック数と同じ数とする。そして、サンプル動画の同じブロックについてエフェクト情報分析(S37)で得られたフィルタ適用確率(図10:S373)を用いて、乱数によりフィルタを適用するかどうかを決定する。
【0095】
フィルタを適用する場合(S52:Yes)は、さらに、サンプル動画の同じブロックについてエフェクト情報分析(S37)で得られたフィルタ種別毎の使用頻度(図10:S374)を用いて、乱数により適用するフィルタ種別を選択する(S53)。このとき、エフェクト開始位置はシーン先頭位置とし、エフェクト長はシーン長とする。
【0096】
次に、対象シーンにトランジションを適用するかどうかを判定する(S54)。この判定は、まず、対象シーンが含まれるブロックを判別する。そして、サンプル動画の同じブロックについてエフェクト情報分析(S37)で得られたトランジション適用確率(図10:S375)を用いて、乱数によりトランジションを適用するかどうかを決定する。
【0097】
トランジションを適用する場合(S54:Yes)は、さらに、サンプル動画の同じブロックについてエフェクト情報分析(S37)で得られたトランジション種別毎の使用頻度(図10:S376)を用いて、乱数により適用するトランジション種別を選択する(S55)。このとき、エフェクト開始位置はトランジションが対象シーンとその次のシーンとの間に適用されるように適切に定め、エフェクト長はトランジションの長さとする。
<修飾コンテンツ割当>
【0098】
次に、抽出されたシーンで構成される編集動画の基本動画に、自動編集実行部270の修飾割当部273が、修飾コンテンツの割り当てを行なう(図5:S6)。図18は、修飾コンテンツ割当手順を説明するフローチャートである。
【0099】
修飾コンテンツのうち、静止画コンテンツと動画コンテンツの割当は抽出されたシーン単位で行なうため、始めに、対象シーンを設定する(S61)。対象シーンは、先頭のシーンから順次設定すればよい。
【0100】
そして、対象シーンに静止画コンテンツを付加するかどうかを判定する(S62)。この判定は、まず、対象シーンが含まれるブロックを判別する。ここで、ブロックは、編集前動画を時間軸において等間隔で所定個数に分割したものであり、所定個数は、編集情報分析時におけるブロック数と同じ数とする。そして、サンプル動画の同じブロックについて修飾情報分析(S38)で得られた静止画コンテンツ付加確率(図12:S383)を用いて、乱数により静止画コンテンツを付加するかどうかを決定する。
【0101】
静止画コンテンツを付加する場合(S62:Yes)は、さらに、サンプル動画の同じブロックについて修飾情報分析(S38)で得られた静止画コンテンツ毎の使用頻度(図12:S384)を用いて、乱数により付加する静止画コンテンツを選択する(S63)。このとき、修飾開始位置はシーン先頭位置とし、修飾長はシーン長とする。
【0102】
次に、対象シーンに動画コンテンツを付加するかどうかを判定する(S64)。この判定は、まず、対象シーンが含まれるブロックを判別する。そして、サンプル動画の同じブロックについて修飾情報分析(S38)で得られた動画コンテンツ付加確率(図12:S385)を用いて、乱数により動画コンテンツを付加するかどうかを決定する。
【0103】
動画コンテンツを付加する場合(S64:Yes)は、さらに、サンプル動画の同じブロックについて修飾情報分析(S38)で得られた動画コンテンツ毎の使用頻度(図12:S386)を用いて、乱数により付加する動画コンテンツを選択する(S65)。
【0104】
選択された動画コンテンツ自体の長さがシーンの長さ以上である場合は、修飾開始位置はシーンの先頭位置とし、修飾長はシーン長とする。選択された動画コンテンツ自体の長さがシーンの長さより短い場合は、開始位置はシーン先頭位置とし、修飾長はコンテンツ自体の長さとする。ただし、動画コンテンツがシーンの中心となるように開始位置を定めるようにしたり、他の位置を設定するようにしてもよい。
【0105】
以上の処理を、抽出されたすべてのシーンに対して繰り返す(S66)。次に、編集動画にオーディオコンテンツを付加するかどうかを判定する(S67)。この判定は、修飾情報分析(S38)で得られたオーディオコンテンツ付加確率(図12:S388)を用いて、乱数によりオーディオコンテンツを付加するかどうかを決定する。
【0106】
オーディオコンテンツを付加する場合(S67:Yes)は、さらに、修飾情報分析(S38)で得られたオーディオコンテンツ毎の使用頻度(図12:S389)を用いて、乱数により付加するオーディオコンテンツを選択する(S68)。このとき、修飾開始位置は編集動画の先頭位置とし、修飾長は編集動画の長さとする。ただし、オーディオコンテンツが編集動画より短い場合は、同じオーディオコンテンツを繰り返したり、他のオーディオコンテンツをさらに選択するようにしてもよい。
【0107】
以上説明したように、本実施形態の、動画編集サーバ20は、サンプル動画の編集情報を分析して、編集対象の動画の自動編集を行なうため、編集前の動画のどの部分を抽出するかを考慮して、自動編集を行なうことができる。
【0108】
以上の実施形態に示したように、編集対象の動画の指定と、複数のシーンから構成される編集済のサンプル動画の指定とを受け付けると、前記サンプル動画の編集前動画と前記編集前動画に施す編集内容を示した編集情報とを特定するインタフェース部と、前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記サンプル動画の編集前動画に対する特徴量である第1特徴量とを算出するシーン情報分析部と、前記長さに関する指標に基づいて、前記編集対象の動画から抽出するシーンの候補を設定し、各シーン候補について、シーン候補の前記編集対象の動画に対する特徴量である第2特徴量を算出し、前記第1特徴量と前記第2特徴量とを評価することにより抽出するシーンを順次決定するシーン抽出部とを備えた動画編集装置とすることができる。
【符号の説明】
【0109】
10…動画編集システム
20…動画編集サーバ
30…動画編集端末
40…コンピュータネットワーク
210…通信部
220…Webサーバ部
230…再生インタフェース部
240…手動編集インタフェース部
250…自動編集インタフェース部
260…編集情報分析部
261…シーン情報分析部
262…エフェクト情報分析部
263…修飾情報分析部
270…自動編集実行部
271…シーン抽出部
272…エフェクト割当部
273…修飾割当部
280…記憶部
281…編集前動画記憶部
282…修飾コンテンツ記憶部
283…編集情報記憶部
【技術分野】
【0001】
本発明は、動画の自動編集に関し、特に、ユーザが希望するサンプル動画の編集情報に基づいて自動編集を行なう動画編集装置、動画編集方法およびそのためのコンピュータプログラムに関する。
【背景技術】
【0002】
従来、ビデオカメラ等で撮影した動画の編集を行なうためには、高性能のコンピュータと技術者向けの専用ソフトウェアを用いる必要があり、それらを操作するためには高度な技術や専門知識が要求されていた。近年では、パーソナルコンピュータの高機能化やビデオカメラの普及等により、簡易に動画編集を行なえるソフトウェアが開発され、専門技術や専門知識のない一般ユーザでも容易に動画の編集ができるようになっている。
【0003】
例えば、特許文献1には、編集済のサンプル動画を学習することにより編集情報を生成し、生成した編集情報に基づいてユーザへの編集支援を行なう映像編集支援装置が開示されている。このような装置を用いることで、サンプル動画における映像の並びや、エフェクトの適用、バックグランドミュージックの付加等を模した動画編集を一般ユーザが簡易に行なうことができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−336106号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来提案されている装置では、編集済の動画のみをサンプルとしているため、元の動画をどのように編集して編集済の動画を生成したかは学習することはできない。このため、例えば、編集前の動画のどの部分を抽出してサンプル動画を構成したのかを分析して参考にすることができない。
【0006】
そこで、本発明は、サンプル動画に基づいて自動編集を行なう際に、編集前の動画のどの部分を抽出するかを考慮して、自動編集を行なえるようにすることを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明の第1の態様である動画編集装置は、1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集装置において、編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するインタフェース部と、特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するシーン情報分析部と、前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するシーン抽出部とを備えたことを特徴とする。
ここで、前記長さに関する指標は、前記サンプル動画を構成する各シーンの長さの平均と分散とを含むことができる。
また、前記特徴量は、シーンの明るさ評価値と前記サンプル動画の編集前動画の明るさ評価値との差を含むことができる。
また、前記編集情報は、前記サンプル動画に適用するエフェクトに関する情報を含んでおり、前記編集情報に基づいて、抽出されたシーンに適用するエフェクトを割り当てるエフェクト割当部をさらに備えることができる。
上記課題を解決するため、本発明の第2の態様である動画編集方法は、1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集方法において、編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するステップと、特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するステップと、前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するステップとを有することを特徴とする。
上記課題を解決するため、本発明の第3の態様であるコンピュータプログラムは、1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集装置として情報処理装置を機能させるコンピュータプログラムにおいて、編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するインタフェース部、特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するシーン情報分析部、前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するシーン抽出部として、前記情報処理装置を機能させることを特徴とする。
【発明の効果】
【0008】
本発明によれば、サンプル動画に基づいて自動編集を行なう際に、編集前の動画のどの部分を抽出するかを考慮して、自動編集を行なえるようになる。
【図面の簡単な説明】
【0009】
【図1】本実施形態の動画編集システムの全体構成を示すブロック図である。
【図2】動画編集サーバが扱う動画編集について説明する図である。
【図3】動画編集サーバの機能構成を示すブロック図である。
【図4】編集情報について説明する図である。
【図5】動画編集サーバにおける動画自動編集動作の概要を示すフローチャートである。
【図6】サンプル動画の編集情報の分析の詳細な手順を示すフローチャートである。
【図7】シーン長の平均と分散の算出処理およびシーン長の変化傾向の分析処理を説明する図である。
【図8】シーン間隔の分析処理およびシーン明るさ分析処理を説明する図である。
【図9】シーン明るさ分析処理の手順を説明するフローチャートである。
【図10】エフェクト情報の分析手順を説明するフローチャートである。
【図11】エフェクト情報および修飾情報の分析処理を説明する図である。
【図12】修飾情報の分析手順を説明するフローチャートである。
【図13】編集対象の編集前動画からシーンを抽出する処理を説明するフローチャートである。
【図14】抽出シーン候補の設定について説明する図である。
【図15】シーン長変化傾向の評価手順を説明するフローチャートである。
【図16】シーン明るさの評価手順を説明するフローチャートである。
【図17】エフェクト割当手順を説明するフローチャートである。
【図18】修飾コンテンツ割当手順を説明するフローチャートである。
【発明を実施するための形態】
【0010】
本発明の実施の形態について図面を参照して詳細に説明する。図1は、本実施形態の動画編集システムの全体構成を示すブロック図である。本図に示すように、動画編集システム10は、動画編集サーバ20と複数台の動画編集端末30(30a、30b、30c…)とがコンピュータネットワーク40を介して接続されて構成される。
【0011】
動画編集サーバ20は、Webサーバ機能を備えており、Webサービスをインタフェースとして、HTTP等の所定のプロトコルにより各動画編集端末30からの操作を受け付ける。そして、それぞれの動画編集端末30に対して応答を行なうことでユーザに対して動画編集サービスを提供する。
【0012】
動画編集端末30は、ユーザが使用する端末装置であり、Webブラウザ機能を備えているものとする。ユーザは、編集対象の動画を動画編集端末30から動画編集サーバ20にアップロードし、動画編集サーバ20上で編集することができる。そして、編集済の動画を動画編集サーバ20からストリーミングで再生したり、動画編集サーバ20から動画編集端末30にダウンロードする。動画編集端末30は、Webブラウザソフトウェアをインストールした一般的な情報処理装置を用いることができる。
【0013】
ここで、動画編集サーバ20が扱う動画編集について図2を参照して説明する。本実施形態において、編集を施してない編集前動画は、図2(a)に示すように、1または複数個のショットから構成されている。ショットは、切れ目なく連続して撮影された映像のまとまりである。編集動作では、まず、ショットから一部分であるシーンを複数個抽出する。抽出されたシーンの連続が編集後の動画の基本となる。なお、1つの編集後の動画に対して、複数の編集前動画からシーンを抽出してもよい。
【0014】
そして、図2(b)に示すように、抽出したシーンに対してエフェクトを割り当てる。エフェクトは複数のシーンにまたがっていたり、1つのシーンに複数個割り当ててもよい。ここで、エフェクトは、映像効果であり、映像の色調を調整したりぼかしたりするフィルタと、シーンの切り換え部分に適用するディゾルブ等のトランジションとに区分される。フィルタ、トランジションとも複数の種類を有している。もちろん、これ以外のエフェクトを用いるようにしてもよい。
【0015】
さらに、図2(c)に示すように、抽出したシーンに対して修飾コンテンツを割り当てる。これにより、編集後の動画、すなわち編集動画が完成する。ここで、修飾コンテンツは、修飾のための静止画コンテンツ、動画コンテンツ、バックミュージックのためのオーディオコンテンツとする。もちろん、これ以外の修飾コンテンツを用いるようにしてもよい。
【0016】
図3は、動画編集サーバ20の機能構成を示すブロック図である。本図に示すように、動画編集サーバ20は、通信部210、Webサーバ部220、再生インタフェース部230、手動編集インタフェース部240、自動編集インタフェース部250、編集情報分析部260、自動編集実行部270、記憶部280を備えている。
【0017】
動画編集サーバ20は、CPU、メモリ、ハードディスク、通信装置等を備えたサーバコンピュータを用いて構成することができる。このとき、複数台の装置に機能を分散させて構成してもよい。また、本実施形態では、Webサービスをインタフェースとして、コンピュータネットワーク40を介して動画編集端末30からの操作を受け付ける構成としているが、スタンドアロンの動画編集装置として構成してもよい。
【0018】
通信部210は、コンピュータネットワーク40を介した動画編集端末30との通信を行なう。Webサーバ部220は、動画編集端末30にWebサービスを提供し、動画編集端末30からの要求を受信する。そして、要求に応じたメッセージを再生インタフェース部230、手動編集インタフェース部240、自動編集インタフェース部250に供給する。また、Webサーバ部220は、再生インタフェース部230、手動編集インタフェース部240、自動編集インタフェース部250からの応答メッセージを動画編集端末30に出力する。
【0019】
記憶部280は、ハードディスク等の記憶装置により構成することができ、編集前動画記憶部281、修飾コンテンツ記憶部282、編集情報記憶部283を備えている。
【0020】
編集前動画記憶部281は、編集前動画を識別子である編集前動画IDと対応付けるとともに、編集前動画を構成するショットを識別子であるショットIDと対応付けて記憶する。編集前動画は、ユーザが動画編集端末30からアップロードすることができる。また、動画編集サーバ20の運営者があらかじめ見本用に格納しておいてもよい。あるいは、動画編集端末30を介さずに、ビデオカメラ、Webカメラ等から直接アップロードできるようにしてもよい。なお、ショットIDはすべての編集前動画においてショットを一意に識別する。すなわち、編集前動画記憶部281に複数の編集前動画が記憶されている場合に、それぞれが別の編集前動画を構成している複数のショットに同一のショットIDが対応付けられることはない。
【0021】
修飾コンテンツ記憶部282は、修飾コンテンツを識別子である修飾コンテンツIDと対応付けて記憶する。修飾コンテンツは、ユーザが動画編集端末30からアップロードすることができる。また、動画編集サーバ20の運営者が汎用的な修飾コンテンツをあらかじめ格納しておいてもよい。
【0022】
編集情報記憶部283は、編集情報を識別子である編集動画IDと対応付けて記憶する。ここで、編集情報について図4を参照して説明する。編集情報は、シーン情報部、エフェクト情報部、修飾情報部を含んでいる。
【0023】
シーン情報部は、複数のシーン情報を含んでおり、それぞれのシーン情報は、編集前動画記憶部281に記憶されている編集前動画を構成するショットの識別子である「ショットID」、ショットIDで識別されるショットにおけるシーン抽出開始位置をショットの先頭からの相対時間で示す「シーン開始位置」、シーンの時間長を示す「シーン長」を含んでいる。
【0024】
エフェクト情報部は、複数のエフェクト情報を含んであり、それぞれのエフェクト情報は、適用するエフェクトの種別を示す「エフェクト種別」、編集後の動画におけるエフェクトの開始時間を示す「エフェクト開始位置」、エフェクトを継続する時間長を示す「エフェクト長」を含んでいる。「エフェクト種別」には、エフェクト強度等を示す各種パラメータを含めることができる。
【0025】
修飾情報部は、複数の修飾情報を含んでおり、それぞれの修飾情報は、付加するコンテンツを示す「コンテンツID」、編集後の動画におけるコンテンツ開始時間を示す「修飾開始位置」、コンテンツ付加の時間長を示す「修飾長」を含んでいる。
【0026】
本実施形態では、編集動画のストリーミングやダウンロード時に、編集情報に基づいて編集前動画および修飾コンテンツを用いてリアルタイムで編集動画を生成する構成を想定しているが、記憶部280に編集動画を記録する領域を設け、動画編集時にあらかじめ編集動画を生成して記録しておき、ストリーミングやダウンロード時には記録された編集動画を読み出すようにしてもよい。
【0027】
図3の説明に戻って、再生インタフェース部230は、Webサーバ部220を介してユーザの動画編集端末30から動画再生の指示を受け付けると、指示に係る編集動画を特定し、特定された編集動画に対応した編集情報を編集情報記憶部283から読み出す。そして、読み出した編集情報にしたがって編集前動画および修飾コンテンツを用いて編集動画を生成し、ユーザの動画編集端末30に出力する。具体的には、編集前動画から編集情報で指定されているシーンを抽出し、編集情報で指定されているエフェクトを施し、編集情報で指定されている修飾コンテンツを付加して編集動画を生成する。この結果、ユーザの動画編集端末30では、編集動画が再生されることになる。なお、再生はストリーミングやダウンロードにより行なうことができる。
【0028】
手動編集インタフェース部240は、Webサーバ部220を介してユーザの動画編集端末30から動画手動編集の指示を受け付けると、あらかじめ用意してある編集ツールをユーザの動画編集端末30に提供して、編集前動画および修飾コンテンツを用いた任意の編集操作を受け付ける。そして、編集操作に基づいて編集情報を生成し、編集情報記憶部283に記憶させる。手動編集インタフェース部240は、従来の技術を用いて構成することができる。
【0029】
自動編集インタフェース部250は、Webサーバ部220を介してユーザの動画編集端末30から動画自動編集の指示を受け付けると、指示に係るサンプル動画と編集対象の編集前動画を特定する。ここで、サンプル動画は、編集動画のうち、ユーザが手本としたい編集を行なっている動画である。すなわち、ユーザは、動画自動編集の指示を行なう場合、編集対象とする編集前動画と、手本とする編集動画とをWebブラウザ上で指定する。手本とする編集動画は、例えば、再生インタフェース部230を用いて探し出すことができる。手本とする編集動画、すなわちサンプル動画は複数であってもよい。
【0030】
そして、自動編集インタフェース部250は、指定されたサンプル動画に対応する編集情報を編集情報記憶部283から読み出し、編集情報分析部260に分析させる。編集情報分析部260は、サンプル動画に対応する編集情報に含まれるシーン情報のショットIDで識別されるショットを編集前動画記憶部281から読み出して分析に用いる。
【0031】
さらに、自動編集インタフェース部250は、この分析結果を用いて、指定された編集前動画に対する自動編集を自動編集実行部270に行なわせる。そして、自動編集の結果として編集情報を生成し、編集情報記憶部283に記憶させる。自動編集による編集動画は、手動編集による編集動画と同様にユーザの動画編集端末30からストリーミングやダウンロードにより再生することができる。
【0032】
編集情報分析部260は、ユーザが指定したサンプル動画の編集情報の分析を行なう。このため、編集情報分析部260は、シーン情報の分析を行なうシーン情報分析部261、エフェクト情報の分析を行なうエフェクト情報分析部262、修飾情報の分析を行なう修飾情報分析部263を備えている。
【0033】
自動編集実行部270は、編集情報分析部260の分析結果に基づいて、ユーザが指定した編集前動画の編集を実行し、編集情報を生成する。このため、自動編集実行部270は、シーンの抽出を行なうシーン抽出部271、エフェクトの割当を行なうエフェクト割当部272、修飾コンテンツの割当を行なう修飾割当部273を備えている。
<動画自動編集動作>
【0034】
次に、図5のフローチャートを参照して、動画編集サーバ20における動画自動編集動作の概要について説明する。この一連の動作は、自動編集インタフェース部250が制御する。動画自動編集動作では、まず、Webサーバ部220を介して、ユーザから編集対象の編集前動画の指定を受け付ける(S1)。また、サンプル動画、すなわち編集の手本とする編集動画の指定を受け付ける(S2)。自動編集インタフェース部250は、サンプル動画の指定を受け付けると、編集情報記憶部283に格納されているサンプル動画の編集情報を特定する。
【0035】
そして、編集情報分析部260が、サンプル動画の編集情報の分析を行なう(S3)。編集情報の分析が終了すると、自動編集実行部270のシーン抽出部271が、編集対象の動画からシーンを抽出し(S4)、エフェクト割当部272が、抽出されたシーンに対してエフェクトを割り当て(S5)、修飾割当部273が、抽出されたシーンに対して修飾コンテンツを割り当てる(S6)ことで、自動編集が行なわれる。
<編集情報分析動作>
【0036】
サンプル動画の編集情報の分析(S3)の詳細な手順について、図6のフローチャートを参照して説明する。本図に示すようにサンプル動画の編集情報の分析では、シーン情報の分析(S31〜S36)と、エフェクト情報の分析(S37)と修飾情報の分析(S38)が行なわれる。
【0037】
シーン情報の分析では、複数の項目に分けて分析を行なう。本実施形態では6つの項目に分けるが、これらのうち一部の項目を抽出して行なったり、他の項目を追加してシーン情報の分析を行なうようにしてもよい。
【0038】
まず、シーン情報の分析として、シーン長の平均と分散とを算出する(S31)。図7(a)は、シーン長の平均と分散の算出処理を説明する図である。本図の例では、サンプル動画が142個のシーンから構成されている。シーン長の平均は、これらのシーンの時間長の平均値であり、シーン長分散は、これらのシーンの時間長の分散値である。この分析により、サンプル動画のシーンの平均的な長さと、長さのバラツキを指標化することができる。
【0039】
シーン長の平均と分散とを算出する(S31)と、シーン長の変化傾向を分析する(S32)。図7(b)は、シーン長の変化傾向の分析処理を説明する図である。シーン長の変化傾向の分析では、サンプル動画を時間軸で複数のブロックに分割し、それぞれのブロックについてシーン長の平均値を算出する。これにより、開始部分や中盤部分、終了部分等の再生部分によってシーン長がどのように変化するかを指標化することができる。本図の例では、サンプル動画を等間隔で10個のブロックに分割し、それぞれのブロックに含まれるシーンのシーン長平均を算出している。
【0040】
次に、シーン間隔を分析する(S33)。図8(a)は、シーン間隔の分析処理を説明する図である。シーン間隔は、サンプル動画のシーンの抽出元である編集前動画のショットを対象に分析し、各シーンにおいてショットのどの位置から抽出されているかの傾向を指標化するための分析である。このため、サンプル動画の各シーンについて、シーン抽出元のショットにおいてそのシーンより前から抽出されたシーンがない場合は、ショットの開始からシーンが開始するまでの時間Aを算出し、他のシーンについては直前のシーンとの間隔Bを算出する。そして、シーン間隔平均値として、サンプル動画の編集前動画全体の平均値を、間隔A、間隔B毎に算出する。なお、図8(a)はサンプル動画のすべてのシーンが1つの編集前動画(サンプル編集前動画)から抽出される例を示しているが、シーンが複数の編集前動画から抽出される場合も同様である。
【0041】
次に、シーン明るさ分析を行なう(S34)。シーン明るさ分析は、抽出されたシーンが、ショットの中で比較的明るい部分が抽出されたものか、比較的暗い部分が抽出されたものかを把握するために行なう分析である。図8(b)は、シーン明るさ分析処理を説明する図である。また、図9は、シーン明るさ分析処理の手順を説明するフローチャートである。なお、図8(b)はサンプル動画のすべてのシーンが1つの編集前動画(サンプル編集前動画)から抽出される例を示しているが、シーンが複数の編集前動画から抽出される場合も同様である。
【0042】
シーン明るさ分析処理では、サンプル動画のシーン抽出元の各ショットについて抽出されたシーンとそのショット全体の明るさ比較を行なうため、まず、対象ショットを設定する(S341)。対象ショットは、シーン抽出元のショットを任意の順序で順次設定すればよい。なお、ショットから複数のシーンが抽出されている場合でも、そのショットは対象ショットとして1回だけ設定する。
【0043】
そして、対象ショット全体の明るさを算出する(S342)。これは、対象ショットを構成する全フレームに含まれる画素の輝度値の平均を算出すればよい。次に、対象ショットに含まれるシーンの明るさを算出する(S343)。これは、対象ショットに含まれるシーンを構成する全フレームに含まれる画素の輝度値の平均を算出すればよい。対象ショットに複数のシーンが含まれる場合には、すべてのシーンを合わせた平均値とする。
【0044】
そして、対象ショット全体の明るさからシーンの明るさを引いた値を算出して、対象ショット明るさ差とする(S344)。対象ショット明るさ差が正の大きな値であるほど、抽出されたシーンが、ショットの中で暗い部分が抽出されたものであることを示し、対象ショット明るさ差が負の大きな値であるほど、抽出されたシーンが、ショットの中で明るい部分が抽出されたものであることを示すことになる。
【0045】
以上の対象ショット明るさ差算出処理をシーン抽出元のすべてのショットについて繰り返す(S345)。そして、シーン抽出元のすべてのショットのショット明るさ差の平均値を算出し、ショット明るさ差平均とする(S346)。
【0046】
図6のフローチャートの説明に戻って、次に、シーン動き分析を行なう(S35)。シーン動き分析は、抽出されたシーンが、ショットの中で比較的動きのある部分が抽出されたものか、比較的動きのない部分が抽出されたものかを把握するために行なう分析である。シーン動き分析の手順は、シーン明るさ分析処理の手順と同様に行なうことができ、明るさを示す輝度値の平均に替えて、ショットおよびシーンに含まれる映像のオプティカルフローを検出し、動きの大きさの平均を算出することで動きの大きさを指標化する。ただし、他の方法を用いて動きの大きさを指標化するようにしてもよい。そして、シーン抽出元のショット毎のショットの動きの大きさとシーンの動きの大きさとの差を算出してから、シーン抽出元のすべてのショットの平均値であるショット動きの大きさ差平均を算出する。
【0047】
この結果、ショット動きの大きさ差平均が正の大きな値であるほど、抽出されたシーンが、ショットの中で動きの少ない部分が抽出されたものであることを示し、ショット動きの大きさ差平均が負の大きな値であるほど、抽出されたシーンが、ショットの中で動きの多い部分が抽出されたものであることを示すことになる。
【0048】
次に、シーン音量分析を行なう(S35)。シーン音量分析は、抽出されたシーンが、ショットの中で比較的音の大きな部分が抽出されたものか、比較的音の小さな部分が抽出されたものかを把握するために行なう分析である。シーン音量分析の手順は、シーン明るさ分析処理の手順と同様に行なうことができる。ただし、映像データに付随する音声データを用いるようにする。また、明るさの評価である輝度値の平均に替えて、ショットおよびシーンに含まれる音声の音量レベルを検出し、平均を算出することで音量を指標化し、シーン抽出元のショット毎のショット音量とシーン音量との差を算出してから、シーン抽出元のすべてのショットの平均値であるショット音量差平均を算出する。
【0049】
この結果、ショット音量差平均が正の大きな値であるほど、抽出されたシーンが、ショットの中で音量の小さな部分が抽出されたものであることを示し、ショット音量差平均が負の大きな値であるほど、抽出されたシーンが、ショットの中で音量の大きな部分が抽出されたものであることを示すことになる。
【0050】
以上の手順によりシーン情報の分析を行なうと、エフェクト情報の分析を行なう(図6:S37)。図10は、エフェクト情報の分析手順を説明するフローチャートである。また、図11(a)は、エフェクト情報の分析処理を説明する図である。エフェクト情報の分析処理では、サンプル動画においてエフェクトがどのように適用されているかをフィルタとトランジションとに分けて分析する。
【0051】
このため、サンプル動画を時間軸上で複数の等間隔ブロックに分割する(S371)。本例では、図11(a)に示すように、10個のブロックに分割する。そして、対象ブロックを設定する(S372)。対象ブロックは先頭のブロックから順次設定すればよい。
【0052】
次いで、対象ブロックでのフィルタ適用確率を算出する(S373)。フィルタ適用確率は、対象ブロック内でフィルタが適用されているシーンの数を対象ブロックに含まれるシーンの数で割ることにより算出する。
【0053】
次に、対象ブロックでのフィルタ種別毎の使用頻度を算出する(S374)。フィルタ種別毎の使用頻度は、対象ブロックで適用されているフィルタについてフィルタ種別毎の適用回数を求め、合計が1となるように正規化して算出する。
【0054】
フィルタと同様に、対象ブロックでのトランジション適用確率を算出する(S375)。トランジション適用確率は、対象ブロック内でトランジションが適用されているシーンの数を対象ブロックに含まれるシーンの数で割ることにより算出する。
【0055】
また、対象ブロックでのトランジション種別毎の使用頻度を算出する(S376)。トランジション種別毎の使用頻度は、対象ブロックで適用されているトランジションについてトランジション種別毎の適用回数を求め、合計が1となるように正規化して算出する。
【0056】
以上の処理をすべてのブロックについて繰り返し(S377)、ブロック毎のフィルタ適用確率、フィルタ種別毎の使用頻度、トランジション適用確率、トランジション種別毎の使用頻度を算出する。
【0057】
以上の手順によりエフェクト情報の分析を行なうと、修飾情報の分析を行なう(図6:S37)。図12は、修飾情報の分析手順を説明するフローチャートである。また、図11(b)は、修飾情報の分析処理を説明する図である。修飾情報の分析処理では、サンプル動画において修飾コンテンツがどのように付加されているかを静止画コンテンツと動画コンテンツとオーディオコンテンツとに分けて分析する。
【0058】
このため、サンプル動画を時間軸上で複数の等間隔ブロックに分割する(S381)。本例では、図11(b)に示すように、10個のブロックに分割する。そして、対象ブロックを設定する(S382)。対象ブロックは先頭のブロックから順次設定すればよい。
【0059】
次いで、対象ブロックでの静止画コンテンツ付加確率を算出する(S383)。静止画コンテンツ付加確率は、対象ブロック内で静止画コンテンツが付加されているシーンの数を対象ブロックに含まれるシーンの数で割ることにより算出する。
【0060】
次に、対象ブロックでの静止画コンテンツ毎の使用頻度を算出する(S384)。静止画コンテンツ毎の使用頻度は、対象ブロックで付加されている静止画コンテンツについて静止画コンテンツ毎の適用回数を求め、合計が1となるように正規化して算出する。
【0061】
静止画コンテンツと同様に、対象ブロックでの動画コンテンツ付加確率を算出する(S385)。動画コンテンツ付加確率は、対象ブロック内で動画コンテンツが付加されているシーンの数を対象ブロックに含まれるシーンの数で割ることにより算出する。
【0062】
また、対象ブロックでの動画コンテンツ毎の使用頻度を算出する(S386)。動画コンテンツ毎の使用頻度は、対象ブロックで付加されている動画コンテンツについて動画コンテンツ毎の適用回数を求め、合計が1となるように正規化して算出する。
【0063】
以上の処理をすべてのブロックについて繰り返し(S387)、ブロック毎の静止画コンテンツ付加確率、静止画コンテンツ毎の使用頻度、動画コンテンツ付加確率、動画コンテンツ毎の使用頻度を算出する。
【0064】
次に、サンプル動画のオーディオコンテンツ付加確率を算出する(S388)。すなわち、オーティオコンテンツについてはブロック単位ではなく、サンプル動画単位で確率を算出する。このため、サンプル動画が1つの場合、オーディオコンテンツ付加確率は、サンプル動画にオーディオコンテンツが付加されていれば100%であり、付加されていなければ0%となる。サンプル動画が複数の場合は、オーディオコンテンツが付加されている動画の数をサンプル動画の数で割ることによりオーディオコンテンツ付加確率を算出する。
【0065】
また、サンプル動画のオーディオコンテンツ毎の使用頻度を算出する(S389)。オーディオコンテンツ毎の使用頻度は、サンプル動画で付加されているオーディオコンテンツについてオーディオコンテンツ毎の適用回数を求め、合計が1となるように正規化して算出する。
<自動編集実行動作:シーン抽出>
【0066】
次に、自動編集実行部270が行なう自動編集実行動作について説明する。まず、編集対象の編集前動画からシーンを抽出する処理(図5:S4)について、図13のフローチャートを参照して説明する。本処理は、自動編集実行部270のシーン抽出部271が制御する。
【0067】
まず、編集後の動画の長さを決定する(S41)。編集後の動画の長さは、例えば、サンプル動画の長さと同一とする。サンプル動画が複数個指定されている場合は、平均の長さを編集後の動画の長さとする。あるいは、ユーザから編集後の動画の長さの指定を受け付けるようにしてもよい。
【0068】
以下では、編集前の動画からシーンを1つずつ抽出し、全体の長さが編集動画の長さになるまで、シーンの抽出を繰り返す(S411)。シーンは、必ずしも先頭から順番に抽出されるのではなく、編集前の動画の未抽出の部分から条件に合うシーンが順不同で抽出される。そして、順不同で抽出されたシーンを前から順番に並べて編集動画を構成する。
【0069】
まず、次に抽出するシーンの長さを決定する(S42)。抽出するシーンの長さは、サンプル動画の編集情報を分析して得られたシーン長の平均と分散とに基づいて決定する。すなわち、得られたシーン長の平均と分散とに基づいた正規分布の確率分布において、乱数を発生させて次に抽出するシーンの長さを決定する。
【0070】
次に、抽出するシーンの候補を設定する(S43)。抽出するシーンの候補(抽出シーン候補)の設定では、図14に示すように、編集対象の編集前動画の各ショットから、まだ抽出されていない部分を対象に、抽出するシーンの長さ分の動画を、例えば、1秒程度の等間隔でずらしていくことにより得られる動画を抽出シーン候補とする。本図の例ではショットKから11個の抽出シーン候補が設定されている。
【0071】
抽出シーン候補を設定すると、各抽出シーン候補に対して、分析を行なった複数の項目に関する評価を行ない、最も評価の高い抽出シーン候補を抽出シーンとして決定する。
【0072】
本実施形態では、まず、シーン長変化傾向の評価を行なう(S44)。図15は、シーン長変化傾向の評価手順について説明するフローチャートである。シーン長変化傾向の評価では、始めに、評価対象とする抽出シーン候補を設定する(S441)。評価対象とする抽出シーン候補は、前方向から順次設定すればよい。
【0073】
次いで、対象抽出シーン候補が属するブロックを判別する(S442)。ここで、ブロックは、編集前動画を時間軸において等間隔で所定個数に分割したものであり、所定個数は、編集情報分析時におけるブロック数と同じ数とする。
【0074】
対象抽出シーン候補が属するブロックを判別すると、サンプル動画の同じブロックにおけるシーン長平均(図7(b)参照)を取得し、その値を「ブロック内シーン長平均」とする(S443)。そして、サンプル動画全体のシーン平均長と「ブロック内シーン長平均」との差を算出する(S444)。この差は、サンプル動画の対応するブロックにおけるシーンの長さが、サンプル動画全体のシーンの長さと比べて特徴的であるかどうかを示すことになる。すなわち、サンプル動画の対応するブロックに含まれるシーンが比較的短いものであったり、比較的長いものであれば、この差が大きくなる。
【0075】
この結果、差が所定の閾値以上でなければ(S445:No)、サンプル動画の対応するブロックにおけるシーンの長さは、サンプル動画全体のシーンの長さと比べて特徴的でないため、積極的な評価は行なわず、対象抽出シーン候補の優先度評価値を0とする(S446)。
【0076】
一方、差が所定の閾値以上であれば(S445:Yes)、サンプル動画の対応するブロックにおけるシーンの長さが、動画全体のシーンの長さと比べて特徴的であることを示している。そこで、対象抽出シーン候補の長さと「ブロック内シーン長平均」との差を算出する(S447)。
【0077】
この結果、差が所定の閾値以下であれば(S448:Yes)、対象抽出シーン候補の長さもサンプル動画の同じブロックと同様の特徴を有しているとして、優先度評価値を+1とする(S449)。一方、差が所定の閾値以下でなければ(S448:No)、対象抽出シーン候補の長さは、サンプル動画の同じブロックの特徴を有していないとして、優先度評価値を−1とする(S4410)。
【0078】
以上の処理をすべての対象抽出シーン候補について繰り返し(S4411)、各対象抽出シーン候補についてシーン長変化傾向の優先度評価値を算出する。
【0079】
次に、シーン間隔の評価を行なう(図13:S45)。シーン間隔の評価では、各抽出シーン候補について、抽出シーン候補が含まれるショットにおいて、その抽出シーン候補より前に抽出済シーンがない場合は、その抽出シーン候補とショット先頭との間隔と、図8(a)における間隔Aの平均値との差を求め、その抽出シーン候補より前に抽出済シーンがある場合は、その抽出シーン候補と抽出済シーンとの間隔と、図8(a)における間隔Bの平均値との差を求める。
【0080】
そして、得られた差の大きさが所定の閾値以下である場合は、サンプル動画と同じ傾向を有しているとして、その抽出シーン候補のシーン間隔の優先度評価値を+1とする。得られた差の大きさが所定の閾値以下でない場合は、サンプル動画と同じ傾向を有していないとして、その抽出シーン候補のシーン間隔の優先度評価値を−1とする。
【0081】
次に、シーン明るさ評価を行なう(図13:S46)。図16は、シーン明るさ評価の手順について説明するフローチャートである。シーン明るさ評価では、まず、サンプル動画のシーンは、編集前サンプル動画全体と比較して暗い場面を抽出している傾向があるかどうかを判定する(S461)。この判定は、処理(S346)で算出したショット明るさ差平均が所定の正の閾値以上であるかどうか判断すればよい。
【0082】
サンプル動画のシーンは、全体よりも暗い場面を抽出している傾向がない場合は(S461:No)、サンプル動画のシーンは、全体よりも明るい場面を抽出している傾向があるかどうかを判定する(S462)。この判定は、処理(S346)で算出したショット明るさ差平均が所定の負の閾値以下であるかどうか判断すればよい。
【0083】
全体よりも明るい場面を抽出している傾向もない場合は(S462:No)、サンプル動画において、抽出されたシーンの明るさに特徴は認められないため、シーン明るさの積極的な評価は行なわず、すべての抽出シーン候補について、シーン明るさの優先度評価値を0とする。
【0084】
サンプル動画のシーンが、全体よりも暗い場面を抽出している傾向がある場合(S461:Yes)は、対象抽出シーン候補を設定し(S464)、対象抽出シーン候補が同じ傾向を有しているかどうかを判定する(S465)。この判定は、対象抽出シーン候補が含まれるショットの全体の明るさ差平均と、対象抽出シーン候補の明るさとの差を算出し、その差が所定の正の閾値以上であるかどうか判断すればよい。
【0085】
対象抽出シーン候補が同じ傾向を有している場合(S465:Yes)、シーン明るさの優先度評価値を+1とし(S466)、対象抽出シーン候補が同じ傾向を有していない場合(S465:No)、シーン明るさの優先度評価値を−1とする(S467)。以上の処理をすべての抽出シーン候補に対して行なう(S468)。
【0086】
サンプル動画のシーンが、全体よりも明るい場面を抽出している傾向がある場合(S462:Yes)は、対象抽出シーン候補を設定し(S469)、対象抽出シーン候補が同じ傾向を有しているかどうかを判定する(S4610)。この判定は、対象抽出シーン候補が含まれるショットの全体の明るさ差平均と、対象抽出シーン候補の明るさとの差を算出し、その差が所定の負の閾値以下であるかどうか判断すればよい。
【0087】
対象抽出シーン候補が同じ傾向を有している場合(S4610:Yes)、シーン明るさの優先度評価値を+1とし(S4611)、対象抽出シーン候補が同じ傾向を有していない場合(S4610:No)、シーン明るさの優先度評価値を−1とする(S4612)。以上の処理をすべての抽出シーン候補に対して行なう(S4613)。
【0088】
次に、シーン動き評価を行なう(図13:S47)。シーン動き評価の手順は、シーン明るさ評価と同様に行なうことができる。ただし、ショット明るさ差平均をショット動きの大きさ差平均に変更して行なう。
【0089】
次に、シーン音量評価を行なう(S48)。シーン音量評価の手順は、シーン明るさ評価と同様に行なうことができる。ただし、ショット明るさ差平均をショット音量差平均に変更して行なう。
【0090】
以上のシーン長変化傾向、シーン間隔、シーン明るさ、シーン動き、シーン音量の各項目の評価を終えると、得られた各項目の優先度評価値を抽出シーン候補毎に足し合わせることで、各抽出シーン候補の優先度を算出する(S49)。このとき、項目毎に重み付けを行なうようにしてもよい。
【0091】
そして、最も優先度の高い抽出シーン候補を、抽出シーンとして決定する(S410)。以上の処理(S42〜S410)を、抽出済シーンの長さの合計が処理(S41)で決定した動画長さに達するまで繰り返し(S411)、動画長さに達すると、抽出されたシーンを前から順番に並べたものを編集動画の基本動画として、動画シーン抽出処理(S4)を終了する。
<エフェクト割当>
【0092】
次に、抽出されたシーンで構成される編集動画の基本動画に、自動編集実行部270のエフェクト割当部272が、エフェクトの割り当てを行なう(図5:S5)。図17は、エフェクト割当手順を説明するフローチャートである。
【0093】
エフェクトは抽出されたシーン単位で行なうため、対象シーンを設定する(S51)。対象シーンは、先頭のシーンから順次設定すればよい。そして、以下の処理を、抽出されたすべてのシーンに対して繰り返す(S56)。
【0094】
エフェクトの割当は、フィルタとトランジションとで分けて行なう。このため、対象シーンにフィルタを適用するかどうかを判定する(S52)。この判定は、まず、対象シーンが含まれるブロックを判別する。ここで、ブロックは、編集前動画を時間軸において等間隔で所定個数に分割したものであり、所定個数は、編集情報分析時におけるブロック数と同じ数とする。そして、サンプル動画の同じブロックについてエフェクト情報分析(S37)で得られたフィルタ適用確率(図10:S373)を用いて、乱数によりフィルタを適用するかどうかを決定する。
【0095】
フィルタを適用する場合(S52:Yes)は、さらに、サンプル動画の同じブロックについてエフェクト情報分析(S37)で得られたフィルタ種別毎の使用頻度(図10:S374)を用いて、乱数により適用するフィルタ種別を選択する(S53)。このとき、エフェクト開始位置はシーン先頭位置とし、エフェクト長はシーン長とする。
【0096】
次に、対象シーンにトランジションを適用するかどうかを判定する(S54)。この判定は、まず、対象シーンが含まれるブロックを判別する。そして、サンプル動画の同じブロックについてエフェクト情報分析(S37)で得られたトランジション適用確率(図10:S375)を用いて、乱数によりトランジションを適用するかどうかを決定する。
【0097】
トランジションを適用する場合(S54:Yes)は、さらに、サンプル動画の同じブロックについてエフェクト情報分析(S37)で得られたトランジション種別毎の使用頻度(図10:S376)を用いて、乱数により適用するトランジション種別を選択する(S55)。このとき、エフェクト開始位置はトランジションが対象シーンとその次のシーンとの間に適用されるように適切に定め、エフェクト長はトランジションの長さとする。
<修飾コンテンツ割当>
【0098】
次に、抽出されたシーンで構成される編集動画の基本動画に、自動編集実行部270の修飾割当部273が、修飾コンテンツの割り当てを行なう(図5:S6)。図18は、修飾コンテンツ割当手順を説明するフローチャートである。
【0099】
修飾コンテンツのうち、静止画コンテンツと動画コンテンツの割当は抽出されたシーン単位で行なうため、始めに、対象シーンを設定する(S61)。対象シーンは、先頭のシーンから順次設定すればよい。
【0100】
そして、対象シーンに静止画コンテンツを付加するかどうかを判定する(S62)。この判定は、まず、対象シーンが含まれるブロックを判別する。ここで、ブロックは、編集前動画を時間軸において等間隔で所定個数に分割したものであり、所定個数は、編集情報分析時におけるブロック数と同じ数とする。そして、サンプル動画の同じブロックについて修飾情報分析(S38)で得られた静止画コンテンツ付加確率(図12:S383)を用いて、乱数により静止画コンテンツを付加するかどうかを決定する。
【0101】
静止画コンテンツを付加する場合(S62:Yes)は、さらに、サンプル動画の同じブロックについて修飾情報分析(S38)で得られた静止画コンテンツ毎の使用頻度(図12:S384)を用いて、乱数により付加する静止画コンテンツを選択する(S63)。このとき、修飾開始位置はシーン先頭位置とし、修飾長はシーン長とする。
【0102】
次に、対象シーンに動画コンテンツを付加するかどうかを判定する(S64)。この判定は、まず、対象シーンが含まれるブロックを判別する。そして、サンプル動画の同じブロックについて修飾情報分析(S38)で得られた動画コンテンツ付加確率(図12:S385)を用いて、乱数により動画コンテンツを付加するかどうかを決定する。
【0103】
動画コンテンツを付加する場合(S64:Yes)は、さらに、サンプル動画の同じブロックについて修飾情報分析(S38)で得られた動画コンテンツ毎の使用頻度(図12:S386)を用いて、乱数により付加する動画コンテンツを選択する(S65)。
【0104】
選択された動画コンテンツ自体の長さがシーンの長さ以上である場合は、修飾開始位置はシーンの先頭位置とし、修飾長はシーン長とする。選択された動画コンテンツ自体の長さがシーンの長さより短い場合は、開始位置はシーン先頭位置とし、修飾長はコンテンツ自体の長さとする。ただし、動画コンテンツがシーンの中心となるように開始位置を定めるようにしたり、他の位置を設定するようにしてもよい。
【0105】
以上の処理を、抽出されたすべてのシーンに対して繰り返す(S66)。次に、編集動画にオーディオコンテンツを付加するかどうかを判定する(S67)。この判定は、修飾情報分析(S38)で得られたオーディオコンテンツ付加確率(図12:S388)を用いて、乱数によりオーディオコンテンツを付加するかどうかを決定する。
【0106】
オーディオコンテンツを付加する場合(S67:Yes)は、さらに、修飾情報分析(S38)で得られたオーディオコンテンツ毎の使用頻度(図12:S389)を用いて、乱数により付加するオーディオコンテンツを選択する(S68)。このとき、修飾開始位置は編集動画の先頭位置とし、修飾長は編集動画の長さとする。ただし、オーディオコンテンツが編集動画より短い場合は、同じオーディオコンテンツを繰り返したり、他のオーディオコンテンツをさらに選択するようにしてもよい。
【0107】
以上説明したように、本実施形態の、動画編集サーバ20は、サンプル動画の編集情報を分析して、編集対象の動画の自動編集を行なうため、編集前の動画のどの部分を抽出するかを考慮して、自動編集を行なうことができる。
【0108】
以上の実施形態に示したように、編集対象の動画の指定と、複数のシーンから構成される編集済のサンプル動画の指定とを受け付けると、前記サンプル動画の編集前動画と前記編集前動画に施す編集内容を示した編集情報とを特定するインタフェース部と、前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記サンプル動画の編集前動画に対する特徴量である第1特徴量とを算出するシーン情報分析部と、前記長さに関する指標に基づいて、前記編集対象の動画から抽出するシーンの候補を設定し、各シーン候補について、シーン候補の前記編集対象の動画に対する特徴量である第2特徴量を算出し、前記第1特徴量と前記第2特徴量とを評価することにより抽出するシーンを順次決定するシーン抽出部とを備えた動画編集装置とすることができる。
【符号の説明】
【0109】
10…動画編集システム
20…動画編集サーバ
30…動画編集端末
40…コンピュータネットワーク
210…通信部
220…Webサーバ部
230…再生インタフェース部
240…手動編集インタフェース部
250…自動編集インタフェース部
260…編集情報分析部
261…シーン情報分析部
262…エフェクト情報分析部
263…修飾情報分析部
270…自動編集実行部
271…シーン抽出部
272…エフェクト割当部
273…修飾割当部
280…記憶部
281…編集前動画記憶部
282…修飾コンテンツ記憶部
283…編集情報記憶部
【特許請求の範囲】
【請求項1】
1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集装置において、
編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するインタフェース部と、
特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するシーン情報分析部と、
前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するシーン抽出部と、
を備えたことを特徴とする動画編集装置。
【請求項2】
前記長さに関する指標は、前記サンプル動画を構成する各シーンの長さの平均と分散とを含んでいることを特徴とする請求項1に記載の動画編集装置。
【請求項3】
前記特徴量は、シーンの明るさ評価値と前記サンプル動画の編集前動画の明るさ評価値との差を含んでいることを特徴とする請求項1または2に記載の動画編集装置。
【請求項4】
前記編集情報は、前記サンプル動画に適用するエフェクトに関する情報を含んでおり、
前記編集情報に基づいて、抽出されたシーンに適用するエフェクトを割り当てるエフェクト割当部をさらに備えたことを特徴とする請求項1〜3のいずれか1項に記載の動画編集装置。
【請求項5】
1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集方法において、
編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するステップと、
特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するステップと、
前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するステップと、
を有することを特徴とする動画編集方法。
【請求項6】
1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集装置として情報処理装置を機能させるコンピュータプログラムにおいて、
編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するインタフェース部、
特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するシーン情報分析部、
前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するシーン抽出部として、前記情報処理装置を機能させることを特徴とするコンピュータプログラム。
【請求項1】
1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集装置において、
編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するインタフェース部と、
特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するシーン情報分析部と、
前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するシーン抽出部と、
を備えたことを特徴とする動画編集装置。
【請求項2】
前記長さに関する指標は、前記サンプル動画を構成する各シーンの長さの平均と分散とを含んでいることを特徴とする請求項1に記載の動画編集装置。
【請求項3】
前記特徴量は、シーンの明るさ評価値と前記サンプル動画の編集前動画の明るさ評価値との差を含んでいることを特徴とする請求項1または2に記載の動画編集装置。
【請求項4】
前記編集情報は、前記サンプル動画に適用するエフェクトに関する情報を含んでおり、
前記編集情報に基づいて、抽出されたシーンに適用するエフェクトを割り当てるエフェクト割当部をさらに備えたことを特徴とする請求項1〜3のいずれか1項に記載の動画編集装置。
【請求項5】
1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集方法において、
編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するステップと、
特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するステップと、
前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するステップと、
を有することを特徴とする動画編集方法。
【請求項6】
1つまたは複数のシーンを有し、1つまた複数のショットを備えた動画の編集を行なう動画像編集装置として情報処理装置を機能させるコンピュータプログラムにおいて、
編集対象の動画の指定と、抽出された複数のシーンを備えた編集済のサンプル動画の指定とを受け付けると、指定された前記編集済のサンプル画像に対応した編集情報であり、ショットから抽出したシーンを示すシーン情報を含む編集情報とを特定するインタフェース部、
特定した前記編集情報に基づいて、前記サンプル動画を構成する各シーンの長さに関する指標と、各シーンの前記ショットに対する特徴量とを算出するシーン情報分析部、
前記長さに関する指標と前記ショットに対する特徴量とに基づいて、前記編集対象の動画の有するショットから抽出するシーンを決定するシーン抽出部として、前記情報処理装置を機能させることを特徴とするコンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【公開番号】特開2013−80989(P2013−80989A)
【公開日】平成25年5月2日(2013.5.2)
【国際特許分類】
【出願番号】特願2011−218413(P2011−218413)
【出願日】平成23年9月30日(2011.9.30)
【出願人】(308036402)株式会社JVCケンウッド (1,152)
【Fターム(参考)】
【公開日】平成25年5月2日(2013.5.2)
【国際特許分類】
【出願日】平成23年9月30日(2011.9.30)
【出願人】(308036402)株式会社JVCケンウッド (1,152)
【Fターム(参考)】
[ Back to top ]