コマ割り画像生成装置及びプログラム

【課題】映像信号が表わす内容が、どのように映っており、観客にどのような演出印象を与えるかを表わしたコマ割り画像を生成することができるようにする。
【解決手段】演出検出部１６によって、入力された映画データの映像信号又は音声信号に基づいて、特定の演出印象を有する映像部分を検出する。コマ割り取得部２０によって、検出された特定の演出印象に対応するコマ割りデータを、コマ割り記憶部１８から取得する。キーフレーム選択部２２によって、映像信号の映像フレームから、演出検出部１６によって検出された映像部分に対応する複数のキーフレームを選択する。コマ割り画像生成部２４によって、取得した特定の演出印象に対応するコマ割りの各コマに、選択されたキーフレームを各々割り当てたコマ割り画像を生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、コマ割り画像生成装置及びプログラムに係り、特に、映像の内容及び演出印象を表わすコマ割り画像を生成するコマ割り画像生成装置及びプログラムに関する。
【背景技術】
【０００２】
従来、映像の要約に関しては多くの研究がある。それらの多くは、カット（カメラの切り替わる点）や大音量の箇所、あるいは画像中の特定の物体（例えば、主人公の顔）が出現する箇所を重要箇所（キーフレーム）として検出する手法である。すなわち、従来の手法は、映像中に映っている内容を基準に映像を要約しようとするものであった。
【０００３】
例えば、テレビ番組等の映像信号及び音声信号から、人物領域を検出すると共に台詞を認識し、吹き出し及び効果線を付与して、自動的に漫画画像を生成する漫画生成装置が知られている（特許文献１）。
【０００４】
ところで、笑顔の人物が映った画像は、どのように映っているかによって、様々な解釈が可能である。例えば、女性が食事に誘う映像を撮影する場合を考えると、ハイアングル（人物の斜め上から撮影）では、女性が愛らしく見えるのに対して、ローアングル（人物の斜め下から撮影）では、女性が高圧的に見える。このように、映像中に映っている内容がどういう意味を持つかを解釈するためには、それがどのように映っているかという情報が不可欠である。
【０００５】
そして、被写体をどのように映すと、観客がどのように受け取るかは、映画の文法と呼ばれ、２０世紀前半に集大成されて今日に至っている。従って、カメラワーク（レンズワーク、アングル、ショットサイズ、照明、被写体とカメラの動き）や音響（効果音、せりふの音声、音楽）といった物理的な構造から、そのシーンが観客にどのような心理的印象を与えるか（以下、演出印象）を予測することができると考えられる。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００３−８５５７２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
従来の映像要約法では、確かに人物の顔や物体が見て取れるとしても、どのように映っているかを表わす情報を保存していないため、映像全体の流れの中で、その人物の顔や物体がどのような意味を持つのかを解釈する上では、十分な情報を保存していない、という問題がある。
【０００８】
本発明は、上記の問題点を解決するためになされたもので、映像信号が表わす内容及び演出印象を表わしたコマ割り画像を生成することができるコマ割り画像生成装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００９】
上記の目的を達成するために本発明に係るコマ割り画像生成装置は、入力された映像信号又は前記映像信号に対応する音声信号に基づいて、特定の演出印象を有する映像部分を検出する演出検出手段と、前記映像信号の映像フレームから、前記演出検出手段によって検出された映像部分に対応する複数の映像フレームを選択するフレーム選択手段と、前記特定の演出印象に対応し、かつ、複数のコマに分割されたコマ割りの各コマに、前記フレーム選択手段によって選択された前記映像フレームを各々割り当てたコマ割り画像を生成する生成手段と、を含んで構成されている。
【００１０】
本発明に係るプログラムは、コンピュータを、入力された映像信号又は前記映像信号に対応する音声信号に基づいて、特定の演出印象を有する映像部分を検出する演出検出手段、前記映像信号の映像フレームから、前記演出検出手段によって検出された映像部分に対応する複数の映像フレームを選択するフレーム選択手段、及び前記特定の演出印象に対応し、かつ、複数のコマに分割されたコマ割りの各コマに、前記フレーム選択手段によって選択された前記映像フレームを各々割り当てたコマ割り画像を生成する生成手段として機能させるためのプログラムである。
【００１１】
本発明によれば、演出検出手段によって、入力された映像信号又は映像信号に対応する音声信号に基づいて、特定の演出印象を有する映像部分を検出する。フレーム選択手段によって、映像信号の映像フレームから、演出検出手段によって検出された映像部分に対応する複数の映像フレームを選択する。
【００１２】
そして、生成手段によって、特定の演出印象に対応し、かつ、複数のコマに分割されたコマ割りの各コマに、フレーム選択手段によって選択された映像フレームを各々割り当てたコマ割り画像を生成する。
【００１３】
このように、特定の演出印象を有する映像部分に対応する複数の映像フレームを、特定の演出印象に対応するコマ割りの各コマに割り当てたコマ割り画像を生成することにより、映像信号が表わす内容と共に、それが観客にどのような心理的印象を与えるかを表わしたコマ割り画像を生成することができる。
【００１４】
本発明に係る演出検出手段は、映像信号又は音声信号に基づいて、複数種類の特定の演出印象の各々について、特定の演出印象を有する映像部分を検出し、フレーム選択手段は、複数種類の特定の演出印象の各々について、映像信号の映像フレームから、特定の演出印象が検出された映像部分に対応する複数の映像フレームを選択し、生成手段は、複数種類の特定の演出印象の各々について、特定の演出印象に対応するコマ割りの各コマに、特定の演出印象として選択された映像フレームを各々割り当てたコマ割り画像を各々生成することができる。これによって、複数種類の演出印象について、映像信号が表わす内容及び演出印象を表わしたコマ割り画像を生成することができる。
【００１５】
上記のコマ割りの各コマの境界の形状を、特定の演出印象の種類に応じた形状とすることができる。
【００１６】
上記の特定の演出印象は、緊迫したシーン又は動きのあるシーンを含み、緊迫したシーン又は動きのあるシーンに対応するコマ割りを、斜めの線を含む境界によって複数のコマに分割したものとすることができる。これによって、緊迫したシーン又は動きのあるシーンであることを表わしたコマ割りとすることができる。
【００１７】
また、演出検出手段は、映像信号の連続した映像フレーム間の色情報の差分に基づいて、連続撮影の境界であるカットを検出し、カットの検出回数が閾値以上となる所定範囲を、緊迫したシーン又は動きのあるシーンとなる映像部分として検出することができる。
【００１８】
上記の特定の演出印象は、衝撃的なシーンを含み、衝撃的なシーンに対応するコマ割りを、斜めの線を含む境界によって複数のコマに分割すると共に、他のコマよりも大きさが大きいコマを有するものとすることができる。これによって、衝撃的なシーンであることを表わしたコマ割りとすることができる。
【００１９】
また、演出検出手段は、映像信号に対応する音声信号に基づいて、衝撃的なシーンとなる映像部分を検出することができる。
【００２０】
上記の特定の演出印象は、会話シーン又はゆっくりしたシーンを含み、会話シーン又はゆっくりしたシーンに対応するコマ割りを、規則的に配置され、かつ、各々の大きさが対応している複数のコマに分割したものとすることができる。これによって、会話シーン又はゆっくりしたシーンであることを表わしたコマ割りとすることができる。
【００２１】
また、演出検出手段は、映像信号に対応する音声信号に基づいて、会話シーン又はゆっくりしたシーンとなる映像部分を検出することができる。
【発明の効果】
【００２２】
以上説明したように、本発明のコマ割り画像生成装置及びプログラムによれば、特定の演出印象を有する映像部分に対応する複数の映像フレームを、特定の演出印象に対応するコマ割りの各コマに割り当てたコマ割り画像を生成することにより、映像信号が表わす内容と共に、それが観客にどのような心理的印象を与えるかを表わしたコマ割り画像を生成することができる、という効果が得られる。
【図面の簡単な説明】
【００２３】
【図１】本発明の第１の実施の形態に係る映像機器の構成を示す概略図である。
【図２】ＲＧＢヒストグラムを示す図である。
【図３】緊張感のあるシーンに対応するコマ割りの例を示すイメージ図である。
【図４】衝撃的なシーンに対応するコマ割りの例を示すイメージ図である。
【図５】会話シーンに対応するコマ割りの例を示すイメージ図である。
【図６】（Ａ）フレームの例を示すイメージ図、及び（Ｂ）コマの形状をフレームに重畳させた様子を示すイメージ図である。
【図７】本発明の第１の実施の形態に係る映像機器におけるコマ割り画像生成処理ルーチンの内容を示すフローチャートである。
【図８】本発明の第１の実施の形態に係る映像機器における緊迫シーンコマ画像生成処理ルーチンの内容を示すフローチャートである。
【図９】本発明の第１の実施の形態に係る映像機器におけるカット頻度算出処理ルーチンの内容を示すフローチャートである。
【図１０】本発明の第１の実施の形態に係る映像機器における衝撃シーンコマ画像生成処理ルーチンの内容を示すフローチャートである。
【図１１】本発明の第１の実施の形態に係る映像機器における会話シーンコマ画像生成処理ルーチンの内容を示すフローチャートである。
【図１２】普通のシーンに対応するコマ割りの例を示すイメージ図である。
【発明を実施するための形態】
【００２４】
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、映像信号を記録及び再生する映像機器に本発明を適用した場合を例に説明する。
【００２５】
図１に示すように、第１の実施の形態に係る映像機器１０は、ＣＰＵと、ＲＡＭと、後述するコマ割り画像生成処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備え、機能的には次に示すように構成されている。
【００２６】
映像機器１０は、ＤＶＤなどの記録媒体を介して入力された映像信号及び音声信号からなる映画データを記憶した映画記憶部１２と、映画記憶部１２から処理対象としての映画データを取得する映画データ取得部１４と、特定の演出印象を有する映像部分を検出する演出検出部１６と、特定の演出印象の種類毎に予め用意されたコマ割りデータを記憶するコマ割り記憶部１８と、検出された特定の演出印象に対応するコマ割りデータをコマ割り記憶部１８から取得するコマ割り取得部２０と、検出された特定の演出印象に応じて、映画データの映像信号から、キーフレームを複数選択するキーフレーム選択部２２と、選択されたキーフレームを、取得したコマ割りデータの各コマに割り当てて、コマ割り画像を生成し、映画データの要約として映画記憶部１２に記憶させるコマ割り画像生成部２４と、映画記憶部１２に記憶された映画データ及びコマ割り画像を、ディスプレイなどの表示装置４０に表示させる表示制御部２６とを備えている。なお、フレームは、映像における伝送単位であり、１枚の画像である。また、シーンは、映像または漫画を視聴した人物が、意味的なまとまり、もしくは演出を受け取る部分である。コマは、ページを折れ線分によって分割した単位であり、ページは、紙媒体の漫画における、１枚の紙の片面である。演出は、映像または漫画を視聴した人物が、映像または漫画から受け取る印象である。
【００２７】
次に、複数種類の特定の演出印象を検出する原理について説明する。まず、特定の演出印象として、緊迫感のあるシーン（あるいは、動きのあるシーン）を検出する場合について説明する。
【００２８】
映画においては、緊迫感を演出するための様々な手法がある。例えば、効果音として持続的な高音を鳴らしたり、カメラもしくは被写体を大きく動かしたり、一定時間内にショットを頻繁に切り替えたりする手法である。本実施の形態では、最後に挙げた手法に着目する。この手法は、視聴者の視界を激しく変化させ、その心理状態をかく乱することを狙ったものである。これは言い換えれば、映像中における緊迫箇所とは、映像中で短時間の間にカットが頻出している箇所だと言える。従って、映像中でカットの頻度が突出している箇所を検出することによって、緊迫箇所を検出することができると考えられる。ここで、カットとは、ショットの境界であり、ショットとは、映像において、１台のカメラで連続して撮像された部分である。
【００２９】
本実施の形態では、演出検出部１６によって、入力された映画データの映像信号の最初から、Ｔ秒間の分析窓を１秒ずつシフトしながら、逐次、分析窓内でカットの頻度を求める。カットは、映像中のフレーム間の色分布の差分を閾値処理して求める。分析窓内におけるカット頻度が、あらかじめ定めた閾値よりも多い場合、分析窓の位置を、緊迫感のあるシーンとなる箇所として検出する。なお、カット頻度に関する閾値は、予め実験などに求めておけばよく、例えば、閾値を７（回／１０秒間）とする。
【００３０】
なお、ショット間のつなぎ方には、通常の切り替え以外にも、ディゾルブ（隣り合うショットの映像フレームを混ぜ合わせながらスムーズに切り替える効果）等の効果がある。本実施の形態では、緊迫感に最も寄与するものとして、通常の切り替えのみを対象とする。ショットの境界前後では、多くの場合、異なる舞台装置が撮影されており、その色分布に急激な変化が生ずる。そこで、演出検出部１６では、現フレームと次フレームのそれぞれに対して、色分布として、図２に示すようなＲＧＢヒストグラムを算出し、色分布の差分として、色チャネルごとにヒストグラム間のバタチャリヤ（Ｂｈａｔｔａｃｈａｒｙｙａ）距離を求める。ここで、バタチャリヤ距離とは、独立な二つの事象の同時確率に対する自己情報量として定義され、アフィン変換（平行移動、回転、伸縮）に不変であるため、カメラの移動やズーム、回転に関して影響を受けない。ＲＧＢチャネル間の距離の平均値が、あらかじめ設定した閾値以上となる場合、そのフレーム間でカットが発生したと判断される。
【００３１】
なお、バタチャリヤ距離に対する閾値は、実験などにより予め定めておけばよい。例えば、カット頻度の算出範囲（分析窓）をＴ＝１０秒とし、これをＴ/２＝５秒ずつシフトしながらカット頻度を算出する場合、バタチャリヤ距離に対する閾値を、０．１から０．４まで０．０２刻みで変化させると、ＲＯＣ（ＲｅｃｉｅｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃ）カーブの傾きが最大となった値０．３６が得られ、これを閾値として用いる。
【００３２】
また、カット頻度に対する閾値は、実験などにより例えば７回と予め定めておけばよい。この場合、これを超えた分析窓位置を、統計上稀にみる緊迫シーンとなる箇所として検出し、また、目視で検出した真値としてのカット（Ａ）、プログラムによって検出されたカット（Ｂ）として、プログラムによって検出されたカットのうちの正解カット（Ｃ）について以下の（１）式、（２）式により再現率及び適合率を算出した。その結果、再現率は５３．８％、適合率は８１．４％であった。
再現率＝｜Ｃ｜／｜Ａ｜ (1)
適合率＝｜Ｃ｜／｜Ｂ｜ (2)
【００３３】
次に、特定の演出印象として、衝撃的なシーンを検出する場合について説明する。
【００３４】
演出検出部１６は、入力された映画データの映像信号の最初から、Ｔ秒間（例えば１秒間）の分析窓をＴ／２秒ずつシフトしながら、逐次、分析窓内で、映像信号に対応する音声信号の短時間平均パワーを算出する。衝撃的なシーンの箇所は、映像中の短時間平均パワーを閾値処理して求める。分析窓内における短時間平均パワーが、予め定めた閾値よりも多い場合、分析窓の位置を衝撃的なシーンとして検出する。なお、短時間平均パワーに関する閾値は、実験などにより予め求めておけばよい。
【００３５】
次に、特定の演出印象として、会話シーン（ゆっくりしたシーン）を検出する場合について説明する。
【００３６】
演出検出部１６は、入力された映画データの映像信号の最初から、Ｔ秒間（例えば６２．５ｍｓ）の分析窓をＴ／２秒ずつシフトしながら、逐次、分析窓内で、音声検出処理を行い、音声が検出されたか否かを判断する。音声が検出された場合、当該分析窓を、音声区間としてマークする。演出検出部１６は、過去Ｍ秒（例えば１０秒）の音声区間の割合を算出し、音声区間の割合が、あらかじめ定めた閾値（例えば０．４）以上である場合、分析窓の位置を、会話シーンとして検出する。
【００３７】
次に、本実施の形態の原理について説明する。
【００３８】
漫画においても、映像と同様の演出技法が開発されている。例えば、非特許文献１（秋田孝宏、“「コマ」から「フィルム」へ”、マンガとマンガ映画、ＮＴＴ出版、2005）や非特許文献２（竹内オサム、“ マンガ表現学入門”、筑摩書房、2006）の技術が知られている。本を媒体とする漫画においては、シーンをページに分割し、ページをコマに分割する際に、ページ数やコマ数、さらにコマのサイズの大小、コマの形を変えることにより、観客がコマに描かれた絵をどのように受け取るかをコントロールする（本実施の形態ではこれらを総称して、コマ割りと呼ぶこととする）。従って、同じ被写体もしくは描画対象を、映画と漫画の双方において、同じ演出で表現することが可能であると考えられる。
【００３９】
本実施の形態では、映画中から、特定の演出がなされている箇所を検出し、その近傍のキーフレームを、同様の演出印象を有する漫画のコマ割りに配置することにより、その箇所に映っている被写体と演出印象とを同時に要約する手法を提案する。
【００４０】
次に、特定の演出印象の種類毎に予め用意されたコマ割りデータについて説明する。
【００４１】
図３に、緊迫感のあるシーンに対応するコマ割りの例を示す。緊迫感のあるシーンに対応するコマ割りにおいて、コマの境界の形状に注目すると、斜めの線が多用されている。斜めの線は、映画の文法においても、観客に動きを感じさせる性質を有しており、局面が動的であることを演出する上で、映画と漫画の間で共通した規則であると考えられる。また、特定のコマに観客を注視させずコマからコマへ視線を動かすため、核となるコマが際立つようなコマの大きさの差異を持たせない。コマ割り記憶部１８には、緊迫感のあるシーンに対応して、上記図３に示すようなコマ割りを表わすコマ割りデータが１種類だけ予め記憶されている。
【００４２】
図４に、衝撃的なシーンに対応するコマ割りの例を示す。核となるコマとして特定されるほど他のコマより大きさが大きいコマがあり、当該大きなコマによって、衝撃が与えられる。当該大きなコマは、ほぼ斜めではない境界に囲まれており、一方、斜めの線である境界で囲まれた小さないくつかのコマを有している。
【００４３】
例えば、衝撃的なシーンに対応するコマ割りでは、右の大きなコマに、ここで起こった事件を描き、左に縦３つ並んだコマそれぞれに、その事件を取り巻く人物３人の驚いた顔を描く。これにより、起こった事件が大変に衝撃的で、その驚きのあまり、人物全員の時間が止まったかのように息を詰まらせている衝撃的なシーンを演出することができる。コマ割り記憶部１８には、衝撃的なシーンに対応して、上記図４に示すようなコマ割りを表わすコマ割りデータが１種類だけ予め記憶されている。
【００４４】
図５に、会話シーン（ゆっくりしたシーン）に対応するコマ割りの例を示す。中くらいの大きさで、ほぼ同じ大きさの複数のコマが規則的に配置されている。コマの境界のずれが、コマ画像の順序通りに視線を誘導する。コマ割り記憶部１８には、会話シーンに対応して、上記図５に示すようなコマ割りを表わすコマ割りデータが１種類だけ予め記憶されている。
【００４５】
キーフレーム選択部２２は、緊迫感のあるシーンが検出された分析窓内から、コマ割りのコマ数に等しい６ショット分の先頭フレームを、緊迫感のあるシーンに対応するキーフレームとして選択する。
【００４６】
キーフレーム選択部２２は、衝撃的なシーンが検出された分析窓の位置を含むショットの先頭フレームとその後の３ショット分の先頭フレーム（合わせると、コマ割りのコマ数に等しい４ショット分の先頭フレーム）を、衝撃的なシーンに対応するキーフレームとして選択する。
【００４７】
キーフレーム選択部２２は、会話シーンが検出された範囲の先頭のショットから、コマ割りのコマ数に等しい８ショット分の先頭フレームを、会話シーンに対応するキーフレームとして選択する。
【００４８】
コマ割り画像生成部２４は、選択された複数のキーフレームを、当該特定の演出印象に対応するコマ割りの各コマに割り当てて、コマ割り画像を生成し、映画データの要約として映画記憶部１２に記憶させる。
【００４９】
コマへの割り当てでは、まず、図６（Ｂ）に示すように、コマの形状を、映像のフレームへ内接する比率で拡大縮小し、重心を一致させるようにフレームに重畳する。その状態で、図６（Ａ）に示すようなフレームにおいて、コマと重なり合ったフレーム内の領域を、そのままコマへコピーして、割り当てる。なお、コマ割りデータの複数のコマは、予め順番が定められており、選択された複数のキーフレームのフレーム番号の順と、コマの順とを合わせて、キーフレームを各コマに割り当てる。例えば、コマの位置が右上に近いほど順番が早く、右下に近いほど順番が遅くなるように、コマ割りデータのコマの順番が定められている。
【００５０】
表示制御部２６は、映像機器１０の操作部（図示省略）又は遠隔操作部（図示省略）によって、映画データの閲覧が指示されたときに、映画記憶部１２から、対応する映画データ及びコマ割り画像データを読み出し、映画データの要約としてのコマ割り画像データ、又は映画データを、表示装置４０に表示させる。
【００５１】
次に、本実施の形態に係る映像機器１０の作用について説明する。まず、記録媒体を介して、映画データが映像機器１０に入力されて、入力された映画データが、映画記憶部１２に記憶される。
【００５２】
そして、映像機器１０において、図７に示すコマ割り画像生成処理ルーチンが実行される。
【００５３】
まず、ステップ１００において、コマ割り画像の生成対象となる映画データを、映画記憶部１２から取得する。そして、ステップ１０２において、緊迫感のあるシーンに対応するコマ割り画像を生成して、映画記憶部１２に記憶し、ステップ１０４において、衝撃的なシーンに対応するコマ割り画像を生成して、映画記憶部１２に記憶する。
【００５４】
次のステップ１０６では、会話シーンに対応するコマ割り画像を生成して、映画記憶部１２に記憶し、コマ割り画像生成処理ルーチンを終了する。
【００５５】
上記ステップ１０２は、図８に示す緊迫シーンコマ画像生成処理ルーチンによって実現される。
【００５６】
ステップ１１０において、時刻ｔを０に設定し、ステップ１１２で、時刻ｔからＴ秒間の範囲である分析窓内で、カット頻度を算出する。
【００５７】
そして、ステップ１１４において、上記ステップ１１２で算出されたカット頻度が閾値以上であるか否かを判定し、カット頻度が閾値未満である場合には、ステップ１１６へ進むが、一方、カット頻度が閾値以上である場合には、緊迫シーンが検出されたと判断し、ステップ１２０へ進む。
【００５８】
ステップ１１６では、分析窓が、映像終了位置に到達したか否かを判定し、映像終了位置に到達した場合には、緊迫シーンが検出されなかったと判断し、緊迫シーンに対応するコマ割り画像を生成せずに、緊迫シーンコマ画像生成処理ルーチンを終了する。
【００５９】
ステップ１１６で、分析窓が、映像終了位置に到達していないと判定された場合には、ステップ１１８で、時刻ｔを１秒だけ進めて分析窓をシフトさせて、ステップ１１２へ戻る。
【００６０】
ステップ１２０では、上記ステップ１１４でカット頻度が閾値以上であると判定された分析窓内の各ショットの先頭フレームのフレーム番号を抽出する。次のステップ１２２では、コマ割り記憶部１８から、緊迫感のあるシーンに対応するコマ割りデータを取得する。
【００６１】
そして、ステップ１２４において、上記ステップ１２０で抽出された先頭フレームのフレーム番号を、先頭から順に、上記ステップ１２２で取得したコマ割りデータのコマ数と等しいフレーム数分だけ選択して、映像信号から、複数のキーフレームを選択する。
【００６２】
そして、ステップ１２６において、上記ステップ１２４で選択したキーフレームの各々を、コマ割りデータの各コマに順に割り当てて、コマ割り画像を生成し、上記ステップ１００で取得した映画データの要約として、映画記憶部１２に記憶させて、上記ステップ１１６へ戻る。
【００６３】
上記ステップ１１２は、図９に示すカット頻度算出処理ルーチンによって実現される。
【００６４】
まず、ステップ１３０で、分析窓内の先頭フレームを対象フレームに設定すると共に、カット頻度を初期値０に設定する。
【００６５】
そして、ステップ１３２において、対象フレームのＲＧＢヒストグラムを算出し、ステップ１３４で、対象フレームの次のフレームのＲＧＢヒストグラムを算出する。
【００６６】
そして、ステップ１３６では、上記ステップ１３２、１３４で算出されたＲＧＢヒストグラム間のバタチャリヤ距離（ＲＧＢチャネル間のバタチャリヤ距離の平均値）を算出する。次にステップ１３８において、上記ステップ１３６で算出されたバタチャリヤ距離が閾値以上であるか否かを判定し、算出されたバタチャリヤ距離が閾値未満である場合には、対象フレームと次フレームとの間にカットは存在しないと判断し、ステップ１４２へ進む。一方、算出されたバタチャリヤ距離が閾値以上である場合には、対象フレームと次フレームとの間にカットが存在すると判断し、ステップ１４０で、カット頻度をインクリメントしてカウントし、ステップ１４２へ進む。
【００６７】
ステップ１４２では、分析窓内の全てのフレームについて上記の処理が終了したか否かを判定し、次フレームが最終フレームに到達した場合には、全てのフレームについて上記の処理が終了したと判断し、現在のカット頻度を算出結果として、カット頻度算出処理ルーチンを終了する。一方、次フレームが最終フレームに到達していない場合には、ステップ１４４で、次フレームを対象フレームに設定して、上記ステップ１３２へ戻る。
【００６８】
上記ステップ１０４は、図１０に示す衝撃シーンコマ画像生成処理ルーチンによって実現される。
【００６９】
ステップ１５０において、時刻ｔを０に設定し、ステップ１５２で、時刻ｔからＴ秒間の範囲である分析窓内で、短時間平均パワーを算出する。例えば、Ｔ秒間の音声波形サンプル値の二乗平均を計算することにより、短時間平均パワーを算出する。
【００７０】
そして、ステップ１５４において、上記ステップ１５２で算出された短時間平均パワーが閾値以上であるか否かを判定し、短時間平均パワーが閾値未満である場合には、ステップ１５６へ進むが、一方、短時間平均パワーが閾値以上である場合には、衝撃的なシーンが検出されたと判断し、ステップ１６０へ進む。
【００７１】
ステップ１５６では、分析窓が、映像終了位置に到達したか否かを判定し、映像終了位置に到達した場合には、衝撃的なシーンが検出されなかったと判断し、衝撃的なシーンに対応するコマ割り画像を生成せずに、衝撃シーンコマ画像生成処理ルーチンを終了する。
【００７２】
ステップ１５６で、分析窓が、映像終了位置に到達していないと判定された場合には、ステップ１５８で、時刻ｔをＴ／２秒だけ進めて分析窓をＴ／２だけシフトさせて、ステップ１５２へ戻る。
【００７３】
ステップ１６０では、上記ステップ１５４で短時間平均パワーが閾値以上であると判定された分析窓の位置を含むショットの先頭フレームのフレーム番号を抽出する。次のステップ１６２では、コマ割り記憶部１８から、衝撃的なシーンに対応するコマ割りデータを取得する。
【００７４】
そして、ステップ１６４において、上記ステップ１６０で抽出された先頭フレームのフレーム番号のキーフレームを映像信号から選択すると共に、後に続く複数のショットの各々の先頭フレームを、キーフレームとして映像信号から選択して、上記ステップ１２２で取得したコマ割りデータのコマ数と等しいフレーム数分だけのキーフレームを選択する。
【００７５】
そして、ステップ１６６において、上記ステップ１６４で選択したキーフレームの各々を、コマ割りデータの各コマに順に割り当てて、コマ割り画像を生成し、上記ステップ１００で取得した映画データの要約として映画記憶部１２に記憶させて、上記ステップ１５６へ戻る。
【００７６】
上記ステップ１０６は、図１１に示す会話シーンコマ画像生成処理ルーチンによって実現される。
【００７７】
ステップ１７０において、時刻ｔを０に設定し、ステップ１７２で、上記ステップ１００で取得した映画データの音声信号に対して、時刻ｔからＴ秒間の範囲である分析窓内で、音声検出処理を行う。なお、音声検出処理では、従来既知の手法を用いればよいため、音声検出処理に関する説明を省略する。
【００７８】
そして、ステップ１７４において、上記ステップ１７２での音声検出処理によって、音声が検出されたか否かを判定し、音声が検出されなかった場合には、ステップ１７６へ進むが、一方、音声が検出された場合には、ステップ１８０へ進む。
【００７９】
ステップ１７６では、分析窓が、映像終了位置に到達したか否かを判定し、映像終了位置に到達した場合には、会話シーンが検出されなかったと判断し、会話シーンに対応するコマ割り画像を生成せずに、会話シーンコマ画像生成処理ルーチンを終了する。
【００８０】
ステップ１７６で、分析窓が、映像終了位置に到達していないと判定された場合には、ステップ１７８で、時刻ｔをＴ／２秒だけ進めて分析窓をＴ／２だけシフトさせて、ステップ１７２へ戻る。
【００８１】
ステップ１８０では、上記ステップ１７４で音声が検出されたと判定された分析窓の区間を、音声区間としてマークする。次のステップ１８２では、現在の分析窓の区間を含む過去Ｍ秒の範囲において、音声区間としてマークされた区間の割合を算出する。
【００８２】
そして、ステップ１８４で、上記ステップ１８２で算出された割合が閾値以上であるか否かを判定し、割合が閾値未満である場合には、ステップ１７８へ移行するが、一方、割合が閾値以上である場合には、会話シーンが検出されたと判断し、ステップ１８４へ進む。
【００８３】
ステップ１８６では、コマ割り記憶部１８から、会話シーンに対応するコマ割りデータを取得する。
【００８４】
そして、ステップ１８８において、上記ステップ１８４で音声区間の割合が閾値以上であると判定された過去Ｍ秒の範囲の映像信号の先頭のショットから、先頭フレームをキーフレームとして選択すると共に、後に続く複数のショットの各々の先頭フレームを、キーフレームとして映像信号から選択して、上記ステップ１８６で取得したコマ割りデータのコマ数と等しいフレーム数分だけのキーフレームを選択する。
【００８５】
そして、ステップ１９０において、上記ステップ１８８で選択したキーフレームの各々を、コマ割りデータの各コマに順に割り当てて、コマ割り画像を生成し、上記ステップ１００で取得した映画データの要約として映画記憶部１２に記憶させて、上記ステップ１７６へ戻る。
【００８６】
また、ユーザが、映像機器１０の操作部（図示省略）又は遠隔操作部（図示省略）を操作して、映画データの閲覧を指示すると、映像機器１０の表示制御部２６によって、映画記憶部１２から、指示された映画データと、当該映画データに対応し、かつ、特定の演出印象の各種類に応じたコマ割り画像を読み出し、映画データの要約として、特定の演出印象の各種類に応じたコマ割り画像を表示装置４０に表示させると共に、映画データを、表示装置４０に表示させる。
【００８７】
以上説明したように、第１の実施の形態に係る映像機器によれば、特定の演出印象として検出された映像部分に対応する複数のキーフレームを、特定の演出印象を表現する予め用意された漫画のコマ割りの各コマに割り当てたコマ割り画像を生成することにより、映像信号が表わす内容と共に、それが観客にどのような心理的印象を与えるかを表わしたコマ割り画像を、映像の要約として生成することができる。また、複数種類の演出印象について、映像信号が表わす内容と共に、それが観客にどのような心理的印象を与えるかを表わしたコマ割り画像を生成することができる。
【００８８】
映像の要約に関しては、従来、映像に何が映ったかを基準に行われてきた。しかし、映像中の被写体が、映像全体の中でどういった意味をもつかという解釈は、その被写体がどのように映像に映ったかを示す情報があって初めて可能となる。そこで、本実施の形態では、映像中において、特定の演出印象を有する箇所を検出し、その箇所の近傍のキーフレームを、演出印象に応じた漫画のコマ割りに割り当てることで、映像の被写体と演出印象の双方を要約する手法を提案した。
【００８９】
次に、第２の実施の形態について説明する。なお、第２の実施の形態に係る映像機器の構成は、第１の実施の形態と同様であるため、同一符号を付して説明を省略する。
【００９０】
第２の実施の形態では、映像の物理的特徴に基づいて、コマ割りの各コマの形状及び大きさを決定している点と、フレームに対する物体認識結果に基づいて、フレームからコマへ切り出す領域を決定している点とが、第１の実施の形態と異なっている。
【００９１】
第２の実施の形態では、コマ割り取得部２０によって、検出された特定の演出印象に対応するコマ割りデータをコマ割り記憶部１８から取得し、取得したコマ割りデータと、特定の演出印象が検出された映像部分の物理的特徴とに基づいて、コマ割りデータの各コマの形状及び大きさを決定し、検出された特定の演出に対応するコマ割りデータを生成する。
【００９２】
コマ割り画像生成部２４は、コマへの割り当てにおいて、映像のフレーム内の物体（例えば、人物の顔）の位置を物体認識等により検出し、映像の文法と、検出された物体の位置とに基づいて、フレームからコマへ切り出す領域を決定し、フレーム内の決定された領域を、そのままコマへコピーして、割り当てる。
【００９３】
なお、第２の実施の形態に係る映像機器の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。
【００９４】
上記の第１の実施の形態及び第２の実施の形態では、緊迫感のあるシーン、衝撃的なシーン、会話シーンに対応するコマ割り画像を生成する場合を例に説明したが、これに限定されるものではなく、更に、普通のシーンに対応するコマ割り画像を生成してもよい。例えば、緊迫感のあるシーン、衝撃的なシーン、及び会話シーンの何れでもない部分を、普通のシーンに対応する映像部分として検出して、キーフレームを選択し、普通のシーンに対応するコマ割りの各コマに割り当てて、普通のシーンに対応するコマ割り画像を生成してもよい。例えば、図１２に示すような普通のシーンに対応するコマ割りデータを予め用意しておけばよい。普通のシーンに対応するコマ割りの各コマの形状及び大きさは、他の演出印象のコマ割りに見られる特徴を持たないように定めればよい。
【００９５】
また、映画データなどの映像データから、コマ割り画像を生成する場合を例に説明したが、ビデオ撮影等によって得られた映像データから、コマ割り画像を生成してもよい。ビデオ撮影によって得られた映像から特徴的な画像を抽出してインパクトのある要約ができ、また、印象深いアルバムを生成することができる。また、デジタルフォト画像などの静止画像からコマ割り画像を生成することに、本発明を応用してもよい。例えば、特定の演出印象の種類をユーザが選択し、入力されたデジタルフォト画像を、選択された特定の演出印象に対応するコマ割りの各コマに配置して、コマ割り画像を生成してもよい。コマ割りを用いて写真のアルバムを生成することができるようになり、演出効果を持つアルバムを自動生成することも可能となる。
【００９６】
また、記録媒体を介して映画データが入力される場合を例に説明したが、これに限定されるものではなく、放送されている映像データを入力として記憶するようにしてもよい。
【００９７】
また、映像フレーム間の色分布の差分として、ＲＧＢヒストグラム間のバタチャリヤ距離を算出する場合を例に説明したが、これに限定されるものではなく、例えば、フレーム間の他の画像特徴量の差分を算出してもよい。
【００９８】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムをＣＤＲＯＭ等の記憶媒体に格納して提供することも可能である。
【符号の説明】
【００９９】
１０映像機器
１２映画記憶部
１４映画データ取得部
１６演出検出部
１８コマ割り記憶部
２０コマ割り取得部
２２キーフレーム選択部
２４コマ割り画像生成部
２６表示制御部
４０表示装置

【特許請求の範囲】
【請求項１】
入力された映像信号又は前記映像信号に対応する音声信号に基づいて、特定の演出印象を有する映像部分を検出する演出検出手段と、
前記映像信号の映像フレームから、前記演出検出手段によって検出された映像部分に対応する複数の映像フレームを選択するフレーム選択手段と、
前記特定の演出印象に対応し、かつ、複数のコマに分割されたコマ割りの各コマに、前記フレーム選択手段によって選択された前記映像フレームを各々割り当てたコマ割り画像を生成する生成手段と、
を含むコマ割り画像生成装置。
【請求項２】
前記演出検出手段は、前記映像信号又は前記音声信号に基づいて、複数種類の特定の演出印象の各々について、前記特定の演出印象を有する映像部分を検出し、
前記フレーム選択手段は、前記複数種類の特定の演出印象の各々について、前記映像信号の映像フレームから、前記特定の演出印象が検出された映像部分に対応する複数の映像フレームを選択し、
前記生成手段は、前記複数種類の特定の演出印象の各々について、前記特定の演出印象に対応する前記コマ割りの各コマに、前記特定の演出印象として選択された前記映像フレームを各々割り当てたコマ割り画像を各々生成する請求項１記載のコマ割り画像生成装置。
【請求項３】
前記コマ割りの各コマの境界の形状を、前記特定の演出印象の種類に応じた形状とした請求項２記載のコマ割り画像生成装置。
【請求項４】
前記特定の演出印象は、緊迫したシーン又は動きのあるシーンを含み、
前記緊迫したシーン又は動きのあるシーンに対応するコマ割りを、斜めの線を含む境界によって複数のコマに分割したものとした請求項１〜請求項３の何れか１項記載のコマ割り画像生成装置。
【請求項５】
前記演出検出手段は、前記映像信号の連続した映像フレーム間の色情報の差分に基づいて、連続撮影の境界であるカットを検出し、カットの検出回数が閾値以上となる所定範囲を、前記緊迫したシーン又は動きのあるシーンとなる映像部分として検出する請求項４記載のコマ割り画像生成装置。
【請求項６】
前記特定の演出印象は、衝撃的なシーンを含み、
前記衝撃的なシーンに対応するコマ割りを、斜めの線を含む境界によって複数のコマに分割すると共に、他のコマよりも大きさが大きいコマを有するものとした請求項１〜請求項５の何れか１項記載のコマ割り画像生成装置。
【請求項７】
前記演出検出手段は、前記映像信号に対応する音声信号に基づいて、前記衝撃的なシーンとなる映像部分を検出する請求項６記載のコマ割り画像生成装置。
【請求項８】
前記特定の演出印象は、会話シーン又はゆっくりしたシーンを含み、
前記会話シーン又はゆっくりしたシーンに対応するコマ割りを、規則的に配置され、かつ、各々の大きさが対応している複数のコマに分割したものとした請求項１〜請求項７の何れか１項記載のコマ割り画像生成装置。
【請求項９】
前記演出検出手段は、前記映像信号に対応する音声信号に基づいて、前記会話シーン又はゆっくりしたシーンとなる映像部分を検出する請求項８記載のコマ割り画像生成装置。
【請求項１０】
コンピュータを、
入力された映像信号又は前記映像信号に対応する音声信号に基づいて、特定の演出印象を有する映像部分を検出する演出検出手段、
前記映像信号の映像フレームから、前記演出検出手段によって検出された映像部分に対応する複数の映像フレームを選択するフレーム選択手段、及び
前記特定の演出印象に対応し、かつ、複数のコマに分割されたコマ割りの各コマに、前記フレーム選択手段によって選択された前記映像フレームを各々割り当てたコマ割り画像を生成する生成手段
として機能させるためのプログラム。

【図１】