画像処理プログラム、画像処理方法、画像処理装置、撮像装置

【課題】動画像コンテンツの内容を的確に反映した要約動画像を自動作成すること
【解決手段】本発明の画像処理プログラムは、動画像を入力する入力ステップ（Ｓ１１）と、前記動画像を複数のセグメントに分割する分割ステップ（Ｓ１２）と、前記複数のセグメントの各々の特徴量に応じて、それら複数のセグメントを複数のクラスタにクラスタリングするクラスタリングステップ（Ｓ１４）と、前記複数のクラスタの各々から代表セグメントを選出する選出ステップ（Ｓ１５）と、前記複数のクラスタの各々から選出された代表セグメントを連結することにより、前記動画像の要約動画像を作成する作成ステップ（Ｓ１６）と、をコンピュータに実行させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像コンテンツ（動画像コンテンツ）に対して処理を施す画像処理プログラム、画像処理方法、画像処理装置、撮像装置に関する。
【背景技術】
【０００２】
映画などの動画像コンテンツを編集する技術は、例えば特許文献１などに開示されており、多数の動画像コンテンツの中から必要な動画像コンテンツを検索する技術は、例えば特許文献２などに開示されている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００７−７２７８９号公報
【特許文献２】特開２００７−２００２４９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
このような編集や検索には、本来、動画像コンテンツの内容を適切に解析する必要があるが、それを完全に自動化することは難しいとされている。
【０００５】
本発明は以上の問題に鑑みてなされたものであり、動画像コンテンツの内容を的確に反映した要約動画像を自動作成することを目的とする。
【課題を解決するための手段】
【０００６】
本発明の画像処理プログラムは、動画像を入力する入力ステップと、前記動画像を複数のセグメントに分割する分割ステップと、前記複数のセグメントの各々の特徴量に応じて、それら複数のセグメントを複数のクラスタにクラスタリングするクラスタリングステップと、前記複数のクラスタの各々から代表セグメントを選出する選出ステップと、前記複数のクラスタの各々から選出された代表セグメントを連結することにより、前記動画像の要約動画像を作成する作成ステップと、をコンピュータに実行させる。
【０００７】
また、本発明の画像処理方法は、動画像を入力する入力ステップと、前記動画像を複数のセグメントに分割する分割ステップと、前記複数のセグメントの各々の特徴量に応じて、それら複数のセグメントを複数のクラスタにクラスタリングするクラスタリングステップと、前記複数のクラスタの各々から代表セグメントを選出する選出ステップと、前記複数のクラスタの各々から選出された代表セグメントを連結することにより、前記動画像の要約動画像を作成する作成ステップと、を含む。
【０００８】
また、本発明の画像処理装置は、動画像を入力する入力手段と、前記動画像を複数のセグメントに分割する分割手段と、前記複数のセグメントの各々の特徴量に応じて、それら複数のセグメントを複数のクラスタにクラスタリングするクラスタリング手段と、前記複数のクラスタの各々から代表セグメントを選出する選出手段と、前記複数のクラスタの各々から選出された代表セグメントを連結することにより、前記動画像の要約動画像を作成する作成手段と、を備える。
【０００９】
また、本発明の撮像装置は、被写体を撮像して動画像を取得する撮像手段と、前記撮像手段が取得した動画像に対して処理を施す本発明の画像処理装置と、を備える。
【発明の効果】
【００１０】
本発明によれば、動画像コンテンツ内容を的確に反映した要約動画像を自動作成することができる。
【図面の簡単な説明】
【００１１】
【図１】コンピュータ１の構成を示す図である。
【図２】制御部１５による要約作成処理のフローチャートである。
【図３】クラスタリングを説明する図である。
【図４】クラスタリングの繰り返し効果を説明する図である。
【図５】２つのクラスタの間の類似度を算出する方法を説明する図である。
【図６】複数のクラスタから要約動画像を作成する方法を説明する図である。
【図７】制御部１５による動画像比較処理のフローチャートである。
【図８】動画像比較処理のベクトル量子化までを説明する図である。
【図９】動画像コンテンツの変化パターンの表記方法の例である。
【図１０】第１動画像コンテンツと第２動画像コンテンツとの間のパターンマッチングを説明する図である。
【発明を実施するための形態】
【００１２】
［実施形態］
以下、本発明の実施形態として画像処理機能を搭載したコンピュータを説明する。
【００１３】
図１は、本実施形態のコンピュータ１の構成を示す図である。図１に示すとおりコンピュータ１には、取得部１１、記録部１２、画像表示部１３、操作部１４、制御部１５などが備えられる。
【００１４】
取得部１１は、有線、無線、記録媒体用のドライブなどを介して、電子カメラなどの外部機器や記録媒体から画像を取得する。
【００１５】
記録部１２は、取得部１１が取得した動画像コンテンツ（動画像コンテンツ）や、制御部１５から指定された動画像コンテンツなどを、不図示のメモリ（内部メモリ又は外部メモリ）に対して記録する。
【００１６】
画像表示部１３は、液晶表示素子などの画像表示素子を備え、制御部１５から指定された動画像コンテンツ又は後述する要約動画像を適当な形式で表示する。
【００１７】
操作部１４は、電源釦、マウス、キーボードなどを有し、ユーザから各種の指示を受け付けて制御部１５へ伝達する。
【００１８】
制御部１５は、制御部１５の動作に必要なプログラムを予め記憶しており、このプログラムと、ユーザから入力された指示とに従って、コンピュータ１の各部を制御すると共に、取得部１１が取得した動画像コンテンツや、不図示のメモリに記録された動画像コンテンツに対して各種の画像処理を施す。この画像処理の１つに、動画像コンテンツからその動画像コンテンツの要約動画像を自動作成する要約作成処理（後述）や、２つの動画像コンテンツの間の類似度を判定する動画像比較処理（後述）などがある。
【００１９】
なお、制御部１５が予め記憶するプログラムは、有線、無線を経由したインターネットを介して取得したものであってもよいし、記録媒体などを介して取得したものであってもよい。
【００２０】
図２は、制御部１５による要約作成処理のフローチャートである。以下、図２の各ステップを順に説明する。
【００２１】
ステップＳ１１：制御部１５は、ユーザが指定した１つの動画像コンテンツ（図３（Ａ））を読み込む。この動画像コンテンツは多数のフレームを有しており、ここでは個々のフレームが画像情報だけでなく音声情報をも有していると仮定する。
【００２２】
ステップＳ１２：制御部１５は、動画像コンテンツの全体を、時間方向にかけて分割することにより、複数のセグメントを生成する（図３（Ｂ））。
【００２３】
なお、複数のセグメントの境界位置は、動画像コンテンツの内容（色相、彩度、輝度、動き、音声、被写体種類の少なくとも１つの変化）に基づいて設定されてもよいが、本ステップで生成すべき複数のセグメントは後述するクラスタリングの初期クラスタとして使用されるものなので、複数のセグメントの境界位置は、動画像コンテンツの内容に拘わらず一律に設定されても構わない。よって、ここでは、複数のセグメントの間で時間的な長さが共通となるよう境界位置が設定されると仮定する。因みに、個々のセグメントの時間的な長さが短すぎた場合には、後述するクラスタリングの時間が長期化するだけであるが、個々のセグメントの時間的な長さが長すぎた場合には、後述するクラスタリングの結果に影響の出る可能性もある。よって、複数のセグメントの境界間隔は、１秒毎、或いは４フレーム毎などと或る程度短く抑えられることが望ましい。
【００２４】
ステップＳ１３：制御部１５は、複数のセグメントの各々から特徴量ベクトルを抽出する（図３（Ｃ））。ここで、個々のセグメントの特徴量ベクトルは、例えば以下の成分（複数の特徴量）からなる。
【００２５】
・色相ヒストグラムＨ１：セグメント内の全フレームの全画素を母集団とした色相ヒストグラム。但し、その色相ヒストグラムの色相軸の刻みは、後の処理の演算負荷を軽減するため、多すぎないことが望ましい（例えば１６刻み程度。）。
【００２６】
・彩度ヒストグラムＨ２：セグメント内の全フレームの全画素を母集団とした彩度ヒストグラム。但し、その彩度ヒストグラムの彩度軸の刻みは、後の処理の演算負荷を軽減するため、多すぎないことが望ましい（例えば１６刻み程度。）。
【００２７】
・輝度ヒストグラムＨ３：セグメント内の全フレームの全画素を母集団とした輝度ヒストグラム。但し、その輝度ヒストグラムの輝度軸の刻みは、後の処理の演算負荷を軽減するため、多すぎないことが望ましい（例えば１６刻み程度。）。
【００２８】
・動きベクトル分布Ｄ１：セグメント内における隣接フレーム間の動きベクトル分布（複数）を、セグメント内で平均したもの。
【００２９】
・動きベクトル分散Ａ１：セグメント内における隣接フレーム間の動きベクトル分布の分散（複数）を、セグメント内で平均したもの。
【００３０】
・オブジェクトヒストグラムＨ４：セグメント内の全フレームを母集団としたオブジェクトヒストグラム。フレームのオブジェクトは、フレームからパターンマッチングなどによって抽出された１又は複数の被写体のことであり、「ヒト」、「犬」、「建物」、「樹木」、「海」、「自動車」など様々な種類がある。よって、オブジェクトヒストグラムＨ４の横軸は、オブジェクトの種類となる。
【００３１】
・音声ヒストグラムＨ５：セグメント内の全フレームを母集団とした音声周波数ヒストグラム。但し、その音声周波数ヒストグラムの周波数軸の刻みは、後の処理の演算負荷を軽減するため、多すぎないことが望ましい（例えば１６刻み程度。）。
【００３２】
ステップＳ１４：制御部１５は、ステップＳ１３で複数のセグメントの各々から抽出した特徴量ベクトルに応じて、それらのセグメントを複数のクラスタにクラスタリングする（図３（Ｄ））。このクラスタリングは、例えば以下の手順（ａ）〜（ｄ）により行われる。
【００３３】
（ａ）制御部１５は、複数のセグメントの各々を初期のクラスタ（初期クラスタ）に設定する。
【００３４】
（ｂ）制御部１５は、複数のクラスタのうち互いに隣接する２つの着目クラスタの間の類似度ｆ（後述）を算出し、その類似度ｆが閾値Ｔ１以上であった場合には、それら２つの着目クラスタを１つのクラスタに連結し、その類似度ｆが閾値未満であった場合は、それら２つの着目クラスタを連結しない。
【００３５】
（ｃ）制御部１５は、複数のクラスタの間で着目クラスタをシフトさせながら手順（ｂ）を繰り返す。その結果、セグメントの数よりも少ない数のクラスタが生成される。
【００３６】
（ｄ）制御部１５は、現時点におけるクラスタの数とユーザが予め指定した閾値Ｔ２とを比較し、クラスタの数が閾値Ｔ２を下回っていない場合は、連結の閾値Ｔ１を小さな値に変更してから手順（ｂ）へ戻り、クラスタの数が閾値Ｔ２を下回った場合は、クラスタリングを終了する。したがって、制御部１５は、クラスタリングを繰り返すことにより、クラスタの数を段階的に低減させ、クラスタの数が閾値Ｔ２を下回った時点でクラスタリングを終了する。
【００３７】
なお、以上のクラスタリングでは、ユーザが指定した値を閾値Ｔ２に使用したが、動画像コンテンツの時間的長さや初期クラスタの数などに応じて自動的に設定された値を閾値Ｔ２に使用してもよい。
【００３８】
また、以上のクラスタリングにおいて、２つの着目クラスタの間の類似度ｆは、以下の手順（ａ）〜（ｃ）により算出される。
【００３９】
（ａ）制御部１５は、２つの着目クラスタの各々の特徴量ベクトルを参照し（図５（Ａ））、それらの特徴量ベクトルの間の類似度をベクトル成分毎に算出する（図５（Ｂ））。すなわち、制御部１５は、２つの着目クラスタの間で、色相ヒストグラムＨ１の類似度ｆ（Ｈ１）と、彩度ヒストグラムＨ２の類似度ｆ（Ｈ２）と、輝度ヒストグラムＨ２の類似度ｆ（Ｈ３）と、動きベクトル分布Ｄ１の類似度ｆ（Ｄ１）と、動きベクトル分散Ａ１の類似度ｆ（Ａ１）と、オブジェクトヒストグラムＨ４の類似度ｆ（Ｈ４）と、音声ヒストグラムＨ５の類似度ｆ（Ｈ５）とを個別に算出する。
【００４０】
（ｂ）制御部１５は、これらの類似度ｆ（Ｈ１）、類似度ｆ（Ｈ２）、類似度ｆ（Ｈ３）、類似度ｆ（Ｄ１）、類似度ｆ（Ａ１）、類似度ｆ（Ｈ４）、類似度ｆ（Ｈ５）を、規格化パラメータで規格化する。
【００４１】
（ｃ）制御部１５は、規格化後の類似度ｆ（Ｈ１）、類似度ｆ（Ｈ２）、類似度ｆ（Ｈ３）、類似度ｆ（Ｄ１）、類似度ｆ（Ａ１）、類似度ｆ（Ｈ４）、類似度ｆ（Ｈ５）を加算することにより、２つの着目クラスタの間の類似度ｆを算出する。
【００４２】
ステップＳ１５：制御部１５は、現時点における複数のクラスタの各々から代表セグメントを選出する（図６（Ａ））。なお、個々のクラスタから代表セグメントを選出する処理は、例えば以下の手順（ａ）〜（ｄ）からなる。
【００４３】
（ａ）制御部１５は、クラスタに属する複数のセグメントの各々から、セグメント内の色相の時間変化量、彩度の時間変化量、輝度の時間変化量、動きベクトルの時間変化量、音声の時間変化量、オブジェクトの時間変化量を抽出する。
【００４４】
（ｊ）制御部１５は、抽出された各時間変化量を規格化パラメータで規格化する。
【００４５】
（ｋ）制御部１５は、規格化後の各時間変化量をセグメント内で加算することにより、セグメント毎の時間的特徴量を算出する。
【００４６】
（ｌ）制御部１５は、クラスタに属する複数のセグメントを、それらセグメントの時間的特徴量によって互いに比較し、時間的特徴量の最も大きかったセグメントを、クラスタの代表セグメントに選定する。
【００４７】
なお、ここでは、時間的特徴量（特徴量の時間変化量）の最も大きいセグメントを代表セグメントに選定したが、例えば、輝度の最も高いセグメント（輝度がピークとなるセグメント）や、音声強度の最も高いセグメント（音声強度がピークとなるセグメント）など、特徴量の大きいセグメントを代表セグメントに選出してもよい。
【００４８】
ステップＳ１６：制御部１５は、複数のクラスタの各々から選出された代表セグメントを時系列順に連結することにより１つの動画像を作成し、その動画像を、前述した動画像コンテンツの要約動画像とする（図６（Ｂ））。
【００４９】
ステップＳ１７：制御部１５は、作成した要約動画像を記録部１２へ送出することにより不図示のメモリへ記録し、フローを終了する。なお、制御部１５は、記録前の要約動画像に対して必要に応じて圧縮処理を施してもよい。
【００５０】
以上、本実施形態の要約作成処理では、動画像コンテンツを複数のセグメントに分割してから、それら複数のセグメントの各々の特徴量に応じて、それら複数のセグメントを複数のクラスタにクラスタリングする。さらに、本実施形態の要約作成処理では、複数のクラスタの各々から代表セグメントを選出し、それらの代表セグメントを連結することにより、動画像コンテンツの要約動画像を作成する。
【００５１】
このような要約作成処理では、特徴量に応じて複数のセグメントをクラスタリングするので、動画像コンテンツの最初の分割方法として、仮に、動画像コンテンツの内容を無視した方法を採用したとしても、クラスタリングの結果として得られる個々のクラスタは、一定の纏まりを有したものとなる。
【００５２】
したがって、本実施形態の要約作成処理によれば、動画像コンテンツの内容を的確に反映した要約動画像を作成することができる。
【００５３】
しかも、本実施形態の要約作成処理では、クラスタリングの際に、複数のセグメントの各々の色、動き、音声、被写体内容の少なくとも１つを特徴量として使用するので、互いに類似したセグメント同士を共通のクラスタに纏めることができる。
【００５４】
また、本実施形態の要約作成処理では、このクラスタリングを繰り返すので、クラスタの数を段階的に低減させることができる。
【００５５】
また、本実施形態の要約作成処理では、クラスタの数が予め決められた閾値未満となった時点で繰り返しを終了するので、その閾値を設定するだけで、最終的な要約動画像の長さを任意の長さにすることができる。
【００５６】
また、本実施形態の要約作成処理では、複数のクラスタの各々におけるセグメント毎の色、動き、音声、被写体内容の少なくとも１つに基づき代表セグメントを選出するので、的確な選出が可能である。
【００５７】
図７は、制御部１５による動画像比較処理のフローチャートである。以下、図７の各ステップを順に説明する。
【００５８】
ステップＳ２１：制御部１５は、ユーザが指定した２つの動画像コンテンツ（第１動画像コンテンツ、第２動画像コンテンツ）を読み込む。第１動画像コンテンツ、第２動画像コンテンツの各々（図８（Ａ））は、多数のフレームを有しており、ここでは個々のフレームが画像情報だけでなく音声情報をも有していると仮定する。
【００５９】
ステップＳ２２：制御部１５は、第１動画像コンテンツの全体を、時間方向にかけて分割することにより、複数のセグメントを生成する（図８（Ｂ））。
【００６０】
なお、本ステップでは、複数のセグメントの境界位置は、動画像コンテンツの内容に応じて設定されることが望ましい。そこで、本ステップでは、図１のステップＳ１２〜Ｓ１４と同じ処理（クラスタリング）により、第１動画像コンテンツを複数のクラスタへと分割し、分割後の複数のクラスタを、本ステップにおける分割後の複数のセグメントとする。このように、動画像コンテンツの分割を動画像コンテンツの内容に応じて行った場合、分割後の複数のセグメントの間でフレーム数が非共通となる。
【００６１】
ステップＳ２３：制御部１５は、複数のセグメントの各々から特徴量ベクトルを抽出し（図８（Ｃ））、その特徴量ベクトルの各成分を規格化パラメータで規格化する。なお、個々のセグメントの特徴量ベクトルは、例えば以下の複数の成分（複数の特徴量）からなる。
【００６２】
・色相ヒストグラムＨ１：セグメント内の全フレームの全画素を母集団とした色相ヒストグラム。但し、その色相ヒストグラムの色相軸の刻みは、後の処理の演算負荷を軽減するため、多すぎないことが望ましい（例えば１６刻み程度。）。
【００６３】
・彩度ヒストグラムＨ２：セグメント内の全フレームの全画素を母集団とした彩度ヒストグラム。但し、その彩度ヒストグラムの彩度軸の刻みは、後の処理の演算負荷を軽減するため、多すぎないことが望ましい（例えば１６刻み程度。）。
【００６４】
・輝度ヒストグラムＨ３：セグメント内の全フレームの全画素を母集団とした輝度ヒストグラム。但し、その輝度ヒストグラムの輝度軸の刻みは、後の処理の演算負荷を軽減するため、多すぎないことが望ましい（例えば１６刻み程度。）。
【００６５】
・動きベクトル分布Ｄ１：セグメント内における隣接フレーム間の動きベクトル分布（複数）を、セグメント内で平均したもの。
【００６６】
・動きベクトル分散Ａ１：セグメント内における隣接フレーム間の動きベクトル分布の分散（複数）を、セグメント内で平均したもの。
【００６７】
・オブジェクトヒストグラムＨ４：セグメント内の全フレームを母集団としたオブジェクトヒストグラム。フレームのオブジェクトは、フレームからパターンマッチングなどによって抽出された１又は複数の被写体のことであり、「ヒト」、「犬」、「建物」、「樹木」、「海」、「自動車」など様々な種類がある。よって、オブジェクトヒストグラムＨ４の横軸は、オブジェクトの種類となる。
【００６８】
・音声ヒストグラムＨ５：セグメント内の全フレームを母集団とした音声周波数ヒストグラム。但し、その音声周波数ヒストグラムの周波数軸の刻みは、後の処理の演算負荷を軽減するため、多すぎないことが望ましい（例えば１６刻み程度。）。
【００６９】
・セグメント長Ｔ：セグメントの時間的な長さ。
【００７０】
ステップＳ２４：制御部１５は、複数のセグメントの各々の特徴量ベクトルを量子化（シンボライズ）する。この量子化は、複数の成分を有した特徴量ベクトルを単一の記号で表す処理である。なお、個々の特徴量ベクトルの量子化は、以下の手順（ａ）〜（ｃ）からなる。
【００７１】
（ａ）制御部１５は、特徴量ベクトルを、特徴量ベクトル空間上の１点へと射影する（図８（Ｄ））。
【００７２】
（ｂ）制御部１５は、特徴量ベクトルの射影先（写像）が、特徴量ベクトル空間上に予め設定された複数の領域Ａ、Ｂ、Ｃ、…の何れに属するかを判別する。なお、複数の領域Ａ、Ｂ、Ｃ、…の境界面は、多数の動画像コンテンツをサンプルとした学習によって予め設定されているものとする。
【００７３】
（ｃ）制御部１５は、特徴量ベクトルを、写像の属する領域の名称（Ａ、Ｂ、Ｃ、…の何れか）で表す。これによって、多次元であった特徴量ベクトルが、１次元（単一の記号）で表される。
【００７４】
ステップＳ２５：制御部１５は、複数のセグメントの各々の量子化後の特徴量ベクトル（Ａ、Ｂ、Ｃ、…の何れか）をセグメント順（時系列順）に配列することにより、一連の記号列を作成し、それを第１動画像コンテンツの変化パターンとする（図９）。なお、図９には、第１動画像コンテンツの変化パターンとして記号列「ＡＣＤＢＥＤＧ…」が求められた例を示した。
【００７５】
ステップＳ２２’：制御部１５は、上述したステップＳ２２と同様の手順により、第２動画像コンテンツの全体を複数のセグメントに分割する。
【００７６】
ステップＳ２３’：制御部１５は、上述したステップＳ２３と同様の手順により、第２動画像コンテンツを構成する複数のセグメントの各々から特徴量ベクトルを抽出し、その特徴量ベクトルの各成分を規格化パラメータで規格化する。
【００７７】
ステップＳ２４’：制御部１５は、上述したステップＳ２４と同様の手順により、第２動画像コンテンツを構成する複数のセグメントの各々の特徴量ベクトルを量子化する。
【００７８】
ステップＳ２５’：制御部１５は、上述したステップＳ２５と同様の手順により、第２動画像コンテンツの変化パターンを求める。なお、図１０には、ステップＳ２５で求めた変化パターン（第１動画像コンテンツの変化パターン）と、ステップＳ２５’で求めた変化パターン（第２動画像コンテンツの変化パターン）との例を示した。
【００７９】
ステップＳ２６：制御部１５は、第１動画像コンテンツの変化パターンと、第２動画像コンテンツの変化パターンとの間の類似度を、ＤＰマッチング（動的計画法によるパターンマッチング）などのパターンマッチングにより算出する。なお、ＤＰマッチングによれば、列数の異なる２つの記号列の類似度を的確に算出することができる。
【００８０】
ステップＳ２７：制御部１５は、ステップＳ２６で求めた類似度を画像表示部１８に対して表示すると、フローを終了する。
【００８１】
以上、本実施形態の動画像比較処理では、第１動画像コンテンツを複数のセグメントに分割し、それら複数のセグメントの間における特徴量の変化パターンを求める。また、本実施形態の動画比較処理では、第２画像コンテンツを複数のセグメントに分割し、それら複数のセグメントの間における特徴量の変化パターンを求める。このようにして求められた変化パターンは、第１動画像コンテンツ及び第２動画像コンテンツの各々の流れを簡易的に表す。
【００８２】
そして、本実施形態の動画像比較処理では、第１動画像コンテンツに関する変化パターンと、第２動画像コンテンツに関する変化パターンとに基づき、第１動画像コンテンツと第２動画像コンテンツ動画像との間の類似度を判定する。
【００８３】
したがって、本実施形態の動画像比較処理によれば、第１動画像コンテンツと第２動画像コンテンツとの間の類似度を的確に自動判定することができる。
【００８４】
また、本実施形態の動画像比較処理では、個々の動画像コンテンツを複数のセグメント（サブセグメント）に分割してから、それら複数のサブセグメントの各々の特徴量に応じて、それら複数のサブセグメントを複数のクラスタにクラスタリングし、それら複数のクラスタを、分割後の複数のセグメントとする。
【００８５】
したがって、本実施形態の動画像比較処理では、分割後の複数のセグメントの各々に対して一定の纏まりを持たせることができる。
【００８６】
また、本実施形態の動画像比較処理では、複数のセグメントの各々の特徴量ベクトルを量子化するので、セグメントの各々が有していた多次元の特徴を、１次元の特徴（１つの記号）で表すことができる。
【００８７】
したがって、本実施形態の動画像比較処理では、第１動画像コンテンツ及び第２動画像コンテンツの変化パターンを簡単な記号列で表すことができ、その結果、両コンテンツの類似度の算出を簡単に行うことができる。
【００８８】
［補足］
なお、本実施形態の制御部１５は、上述した動画像比較処理を、１つの第１動画像コンテンツと、多数の第２動画像コンテンツの各々との間で行うことにより、第１動画像コンテンツに類似した１又は複数の第２動画像コンテンツを多数の第２動画像コンテンツの中から検索してもよい。その場合、制御部１５は、検索された第２動画像コンテンツのファイル名やサムネイル画像などを検索結果として表示することが望ましい。
【００８９】
また、上述したステップＳ２２、Ｓ２２’では、動画像コンテンツを分割（セグメントの境界位置の設定）する際に、特徴量に基づくクラスタリング（図１のステップＳ１２〜Ｓ１４）を行ったが、例えば、フレーム番号ｉをインクリメントしながら以下の式の処理を繰り返すことで隣接フレーム同士の連結／非連結を行ってもよい。
【００９０】
【数１】

【００９１】
なお、式における「Ｓ」は、現フレームと前フレームとの間の特徴量の差分（例えば輝度ヒストグラムの差分）であり、オーバーライン付きの「Ｓ」は、Ｓの平均値であり、オーバーライン付きの「σ」は、Ｓの揺らぎ平均値である。このようにしてセグメントの境界位置を設定した場合も、類似したフレーム同士を１つのセグメントに纏めることができる。
【００９２】
なお、ここでは式中の差分Ｓとして輝度ヒストグラムの差分を使用したが、色相ヒストグラム、彩度ヒストグラム、動きベクトル分布、動きベクトル分散、オブジェクトヒストグラム、音声ヒストグラムのうち少なくとも１つの差分を使用してもよい。
【００９３】
また、本実施形態では、画像処理機能を搭載したコンピュータを説明したが、同様の画像処理機能は、他の機器、例えば、動画像の取得機能を有した電子カメラ、動画像の取得機能を有したディジタルフォトフレーム、動画像の取得機能を有したプリンタなどに搭載されてもよい。
【符号の説明】
【００９４】
１…コンピュータ、１１…取得部、１２…記録部、１３…画像表示部、１４…操作部、１５…制御部

【特許請求の範囲】
【請求項１】
動画像を入力する入力ステップと、
前記動画像を複数のセグメントに分割する分割ステップと、
前記複数のセグメントの各々の特徴量に応じて、それら複数のセグメントを複数のクラスタにクラスタリングするクラスタリングステップと、
前記複数のクラスタの各々から代表セグメントを選出する選出ステップと、
前記複数のクラスタの各々から選出された代表セグメントを連結することにより、前記動画像の要約動画像を作成する作成ステップと、
をコンピュータに実行させることを特徴とする画像処理プログラム。
【請求項２】
請求項１に記載の画像処理プログラムにおいて、
前記分割ステップでは、
前記複数のセグメントの間で時間的な長さが等しくなるよう前記複数のセグメントの境界を設定する
ことを特徴とする画像処理プログラム。
【請求項３】
請求項１又は請求項２の何れか一項に記載の画像処理プログラムにおいて、
前記クラスタリングステップでは、
前記複数のセグメントの各々の色、動き、音声、被写体内容の少なくとも１つを、そのセグメントの特徴量として使用する
ことを特徴とする画像処理プログラム。
【請求項４】
請求項１〜請求項３の何れか一項に記載の画像処理プログラムにおいて、
前記クラスタリングステップでは、
前記クラスタリングを繰り返すことにより、クラスタの数を段階的に低減させる
ことを特徴とする画像処理プログラム。
【請求項５】
請求項４に記載の画像処理プログラムにおいて、
前記クラスタリングステップでは、
前記クラスタの数が予め決められた閾値未満となった時点で前記繰り返しを終了する
ことを特徴とする画像処理プログラム。
【請求項６】
請求項１〜請求項５の何れか一項に記載の画像処理プログラムにおいて、
前記選出ステップでは、
前記複数のクラスタの各々におけるセグメント毎の色、動き、音声、被写体内容の少なくとも１つに基づき代表セグメントを選出する
ことを特徴とする画像処理プログラム。
【請求項７】
動画像を入力する入力ステップと、
前記動画像を複数のセグメントに分割する分割ステップと、
前記複数のセグメントの各々の特徴量に応じて、それら複数のセグメントを複数のクラスタにクラスタリングするクラスタリングステップと、
前記複数のクラスタの各々から代表セグメントを選出する選出ステップと、
前記複数のクラスタの各々から選出された代表セグメントを連結することにより、前記動画像の要約動画像を作成する作成ステップと、
を含むことを特徴とする画像処理方法。
【請求項８】
動画像を入力する入力手段と、
前記動画像を複数のセグメントに分割する分割手段と、
前記複数のセグメントの各々の特徴量に応じて、それら複数のセグメントを複数のクラスタにクラスタリングするクラスタリング手段と、
前記複数のクラスタの各々から代表セグメントを選出する選出手段と、
前記複数のクラスタの各々から選出された代表セグメントを連結することにより、前記動画像の要約動画像を作成する作成手段と、
を備えることを特徴とする画像処理装置。
【請求項９】
被写体を撮像して動画像を取得する撮像手段と、
前記撮像手段が取得した動画像に対して処理を施す請求項８に記載の画像処理装置と、
を備えたことを特徴とする撮像装置。

【図１】