説明

情報処理装置およびその制御方法

【課題】時系列に並んだ複数のフレーム画像を含む動画像データからより適切な代表フレーム画像を抽出する。
【解決手段】顔検出部は、動画像データの所定のフレームから人物顔パターンの検出を行い、その検出結果を出力する。顔追跡部は、顔検出部で検出された人物顔パターンを後続するフレーム中から探索し、その追跡結果から顔領域の情報と顔シーケンスの時間区間を出力する。代表フレーム抽出部は、所定の時間区間のから当該区間の内容(映像)を良く表すフレームを1枚あるいは複数枚抽出する。抽出方法選択部、顔シーケンス生成部の出力に基づいて代表フレーム画像の評価ルール(抽出の基準)を変更する。被写体区間代表フレーム抽出部は、顔シーケンスに含まれるフレーム画像から、人物の内容を良く表す任意数の代表フレーム画像を抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画像データから当該動画像データに含まれる映像を端的に表す代表フレームを抽出する技術に関するものである。
【背景技術】
【0002】
近年、デジタルカメラや、デジタルビデオカムコーダ等の普及により、個人でも大量の動画を撮影するようになってきている。一般に、映像データはデータ量が膨大であるため、当該映像データの利用者は、内容の概略を知りたい場合や所望のシーンを探す場合、映像を早回しや巻き戻しを行っている。そこで、動画の内容を短時間で把握するために、動画の内容を良く示すフレームを選択して提示する代表フレーム抽出技術が提案されている。
【0003】
例えば、特許文献1には一台のカメラにより中断せずに撮影して得られる一連の画像をショットとし、ショットから先頭や末尾、中心など再生時刻に基づいてキーフレームを選択する技術が開示されている。そして、キーフレームの類似性に基づいて複数のショットをまとめて1つのシーンとして結合し、各シーンから所定枚数のキーフレームを選択するよう構成している。また、登場人物を含むフレームがキーフレームとして選択されるように、顔領域を含むフレームを優先的に選択するよう構成している。
【0004】
特許文献2では、動画に映っている人物の構成が変化した場合に、動画のシーンを分割すると共に、人物の構成を示すインデックスをシーンのそれぞれに付与しシーンを検索する技術が開示されている。さらに、特許文献3では、顔に特化した検出を行う技術が開示されている。具体的には、検出した顔の識別を行うことで映像中に登場する人物の顔を区別し、顔が検出された区間に対して、顔の向き、サイズ、顔の数などに基づいて代表フレームを選択している。
【0005】
さらに、特許文献4ではオブジェクトの統計的な特徴に基づいた代表フレームの抽出技術が開示されている。具体的には、検出したいオブジェクトの画像を予め学習させておき、所定の方法でオブジェクトごとに辞書を用いて評価値を求め、フレーム単位で求めた各オブジェクトの評価値に基づいてインデックスを生成している。
【特許文献1】特開2002−223412号公報
【特許文献2】特開2005−101906号公報
【特許文献3】特開2001−167110号公報
【特許文献4】特許第3312105号
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に記載の技術においては、顔を含むキーフレームを選択した場合であっても、顔の領域が小さかったり横を向いていたりするなど、利用者にとって良い状態のフレーム画像ではない場合があった。また、デジタルカメラでの撮影対象は子供の成長など家族を被写体とする場合が多い。その場合、人物に着目して代表フレームを抽出する特許文献2,3に記載の技術においては、家族の顔が写ったフレームばかりが並ぶことになってしまっていた。つまり、人物・顔を検出できた動画区間に着目して代表フレームを選択しているため、人物・顔が検出できなかった風景や印象に残る被写体を含むフレームは代表フレームとして選択されることが無かった。さらに、特許文献4に記載の技術においては、フレームごとに評価値を求めているため、ホームビデオで動画の内容把握を目的とした場合には多数の類似したフレームがインデックスとなってしまい冗長になってしまっていた。
【0007】
つまり、特定の被写体(例えば顔)に着目して代表フレームを選ぶと、”だれが”映っているかはわかるが、“何処で”映したという情報が欠けてしまっていた。そのため、ホームビデオなどで撮影したパーソナルコンテンツなどにおいては、必ずしも適切な代表フレームが抽出できていないという問題があった。
【0008】
本発明は上述の問題に鑑みなされたものであり、動画像データから当該動画像データの内容をより適切に表現している代表フレーム画像を抽出可能とする技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
上述の1以上の問題点を解決するため本発明の情報処理装置は以下の構成を備える。すなわち、情報処理装置において、時系列に並んだ複数のフレーム画像を含む動画像データを入力する入力手段と、入力された動画像データから所定の画像パターンに類似する画像を含むフレーム画像を検出する検出手段と、前記検出手段により検出されたフレーム画像に含まれる画像と類似する画像を含むフレーム画像を、前記検出されたフレーム画像の前後にあるフレーム画像を対象として検出する追跡手段と、前記追跡手段により検出された連続したフレーム画像を画像シーケンスとして、当該画像シーケンスに対応する前記動画像データ内における時間情報と関連付けて記憶する記憶手段と、前記動画像データ内の各時刻において前記記憶手段に記憶された1以上の画像シーケンスを含むか否かに基づいて、前記動画像データを複数の時間区間に分割する分割手段と、前記複数の時間区間の各々について、前記動画像データ内の各時刻において前記記憶手段に記憶された1以上の画像シーケンスを含むか否かに基づいて異なる評価ルールで代表フレーム画像を抽出する抽出手段と、を備える。
【0010】
上述の1以上の問題点を解決するため本発明の情報処理装置の制御方法は以下の構成を備える。すなわち、時系列に並んだ複数のフレーム画像を含む動画像データから1以上の代表フレーム画像を抽出する情報処理装置の制御方法であって、動画像データを入力する入力工程と、入力された動画像データから所定の画像パターンに類似する画像を含むフレーム画像を検出する検出工程と、前記検出工程により検出されたフレーム画像に含まれる画像と類似する画像を含むフレーム画像を、前記検出されたフレーム画像の前後にあるフレーム画像を対象として検出する追跡工程と、前記追跡工程により検出された連続したフレーム画像を画像シーケンスとして、当該画像シーケンスに対応する前記動画像データ内における時間情報と関連付けて記憶部に記憶する記憶工程と、前記動画像データ内の各時刻において前記記憶部に記憶された1以上の画像シーケンスを含むか否かに基づいて、前記動画像データを複数の時間区間に分割する分割工程と、前記複数の時間区間の各々について、前記動画像データ内の各時刻において前記記憶部に記憶された1以上の画像シーケンスを含むか否かに基づいて異なる評価ルールで代表フレーム画像を抽出する抽出工程と、を備える。
【発明の効果】
【0011】
本発明によれば、動画像データから当該動画像データの内容をより適切に表現している代表フレーム画像を抽出可能とする技術を提供することができる。
【発明を実施するための最良の形態】
【0012】
以下に、図面を参照して、この発明の好適な実施の形態を詳しく説明する。なお、以下の実施の形態はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。
【0013】
(第1実施形態)
<概要>
第1実施形態では、動画像データから顔画像を検索し、顔画像が含まれている時間区間か否かに基づいて、情報処理装置における代表フレーム画像の評価ルール(基準)を変更する。それにより、顔画像が含まれている時間区間からは人物の画像を代表フレーム画像として選択し、顔画像が含まれていない時間区間からは風景の画像を代表フレーム画像として選択する方法について説明する。
【0014】
<装置構成>
図1は、第1実施形態に係る情報処理装置の内部構成図である。
【0015】
情報処理装置は、CPU1001、ROM1002、CD−ROMドライブ1003、RAM1006、ハードディスクドライブ(HDD)1007、IEEE1394インターフェース(I/F)1010を含んでいる。そして、これらの各部はシステムバス1011を介して互いに通信可能なように接続されている。また、情報処理装置には、ユーザインタフェースとして、キーボード1004、マウス1005、ディスプレイ1008、プリンタ1009が接続されている。
【0016】
CPU1001は、画像処理装置全体の動作制御を司り、例えばROM1002などにあらかじめ記憶された処理プログラムを読み出して実行することで図2で後述する各機能部を実現する。ROM1002は、CPU1001により実行されることにより後述の制御動作を行なうプログラムなどが格納される。RAM1006は、後述する顔シーケンス情報などの一時的なデータを格納する。また、CD−ROMドライブ1003は、CD−ROM1013に格納された制御プログラムを読み取り、当該制御プログラムをRAM1006に格納することが出来る。また、HDD1007には、IEEE1394I/F1010を経由してカムコーダ1012から読み取った動画像データを記憶する。
【0017】
なお、以下の説明においては、情報処理装置とカムコーダ1012とはIEEE1394I/Fを介して接続され相互に通信可能であるものとする。
【0018】
図2は、第1実施形態に係る情報処理装置の機能ブロック図である。また、図3は、各機能部内部の詳細機能ブロックを示す図である。なお、各部の詳細動作については後述する。
【0019】
100は映像入力部であり、IEEE1394I/F1010を介してカムコーダ1012から動画像データを入力する。なお、映像入力部100は、動画像データを読み込み可能なものであれば、任意のインターフェース機器であってよい。なお、動画像データには、時系列に並んだ複数のフレーム画像が格納されている。
【0020】
200は顔シーケンス生成部であり、入力した映像を解析し、顔が写っている映像期間において各フレームから顔画像を抽出し、顔シーケンスとして出力する。なお、ここで顔シーケンスとは、連続した映像期間から抽出された顔画像および、その付帯情報の集まりを言う。付帯情報としては、顔画像を抽出したフレームの時間位置、そのフレームにおける顔画像を切り取った領域の情報、などがある。
【0021】
顔シーケンス生成部200は、画像メモリ210、顔検出部220、顔追跡部230、顔シーケンス記憶部より構成される。画像メモリ210は、映像入力部100から出力された動画像データをフレームごとに一時的にRAM1006へ記憶する。顔検出部220は、動画像データの所定のフレームから人物顔パターンの検出を行い、その検出結果を出力する。顔追跡部230は、顔検出部220で検出された人物顔パターンを後続するフレーム中から探索し、その追跡結果から顔領域の情報と顔シーケンスの時間区間を出力する。
【0022】
300は代表フレーム抽出部であり、所定の時間区間のから当該区間の内容(映像)を良く表すフレームを1枚あるいは複数枚抽出する。代表フレーム抽出部300は、抽出方法選択部310、被写体区間代表フレーム抽出部320、非被写体区間代表フレーム抽出部330より構成される。
【0023】
抽出方法選択部310は、顔シーケンス生成部200の出力に基づいて代表フレーム画像の評価ルール(抽出の基準)を変更する。被写体区間代表フレーム抽出部320は、顔シーケンスに含まれるフレーム画像から、人物の内容を良く表す任意数の代表フレーム画像を抽出する。また、非被写体区間代表フレーム抽出部330は、いずれの顔シーケンスにも属さない時間区間のフレーム画像から、風景や印象に残るオブジェクトを良く表す任意数の代表フレームを抽出する。
【0024】
400は代表フレーム出力部であり、抽出した代表フレームを例えばディスプレイ1008へ表示したりプリンタ1009により印刷したりする。
【0025】
<装置の動作>
図4は、第1実施形態に係る情報処理装置の動作フローチャートである。
【0026】
ステップS100では、映像入力部100は所望の動画像データをフレームごとに画像メモリ210に読み込む。ここで読み込まれた画像データは、2次元配列のデータであり、例えば各々が8ビットの画素により構成されるRGBの3面により構成される。このとき、画像データがMPEG、JPEG等の方式により圧縮符号化されている場合は、画像データを対応する復号方式にしたがって復号し、RGB各画素により構成される画像データを生成する。
【0027】
ステップS200では、顔検出部220は、動画像データの所定のフレームから人物顔パターンの検出を行い、その検出結果を出力する。すなわち、動画像データの所定フレーム間隔ごとに各フレームから顔検出を行う。ここでは、以下の参考文献1で提案されているニューラル・ネットワークにより画像中の顔パターンを検出する方法を適用した場合について説明する。
【0028】
まず、顔の検出を対象とする画像データをメモリに読み込み、顔と照合する所定の領域を読み込んだ画像中から切り出す。そして、切り出した領域の画素値の分布を入力としてニューラル・ネットワークによる演算で一つの出力を得る。このとき、ニューラル・ネットワークの重み、閾値が膨大な顔画像パターンと非顔画像パターンによりあらかじめ学習されており、例えば、ニューラル・ネットワークの出力が0以上なら顔、それ以外は非顔であると判別する。
【0029】
図9は、ニューラル・ネットワークにより画像中から顔を検出する様子を例示的に示す図である。特に、ニューラル・ネットワークの入力である顔と照合する画像パターンの切り出し位置を、画像全域に対して縦横順次に走査する様子を示している。なお、様々な大きさの顔の検出に対応するため、図9に示すように読み込んだ画像を所定の割合で順次縮小し、それぞれに対して前述した顔検出の走査を行うように構成すると好適である。
【0030】
なお、画像中から顔を検出する方法は上で説明したニューラル・ネットワークによる方法に限定されるものではなく、例えば参考文献2に挙げられている各種方式が適用可能である。
参考文献1:Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998
参考文献2:Yang et al, "Detecting Faces in Images: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.24 , NO.1, JANUARY 2002
【0031】
ステップS300では、顔追跡部230は、顔検出部220で検出された人物顔パターンごとに後続するフレーム中から顔パターンを探索する。そして、ステップS400では、被写体が出現する区間を顔シーケンスとして出力する。すなわち、所定フレーム間隔で検出された顔画像のそれぞれについて後続するフレームで追跡を行い、連続した顔画像の集まりを画像シーケンス(顔シーケンス)として決定し出力する。その際、顔画像を抽出したフレームの動画像データ内における時間情報(時間位置)、そのフレームにおける顔画像を切り取った領域の情報、などの付帯情報も関連付けて出力する。
【0032】
図5は、顔シーケンスの情報を記録した付帯情報の一例を示す図である。当該データには、検出された顔シーケンスの各々についての情報が記録されている。
【0033】
なお、ここでは、第1カラムはインデックスである”シーケンス番号”、第2カラムは動画像データ先頭からの秒数を示す”開始時刻”、および、第3カラムは顔シーケンスの継続時間を示す”長さ”が記録されるものとして説明する。なお、顔検出部によって同一人物であるか、または誰であるかまで判別できる場合は人物IDを併せて記録しても良い。
【0034】
図8は、顔シーケンスの生成の処理フローを示す図である。また、図7は、動画像データから顔シーケンスを生成する様子を例示的に示す図である。以下、顔シーケンス生成の詳細について説明する。
【0035】
ステップS301では、顔パターンの領域情報をもとに後続のフレームにおいて顔パターンの探索を行う探索領域を設定する。顔検出部220において顔を検出したフレームの次フレームから探索を行う場合には、顔検出結果である顔の領域に対して水平、垂直位置について所定量だけその中心位置をずらした近傍の矩形領域を顔の探索範囲とする。さらに後続するフレームについて探索を行う場合には、同様に顔の追跡結果である顔の領域を利用する。
【0036】
ステップS302では、探索領域内で切り取られた領域と探索する顔パターンとの相関をもとに顔の追跡を行う。すなわち、探索領域として設定された中心位置を中心として探索する顔パターンと同じ大きさの矩形領域を順次切出し、切り出した領域と探索する顔パターンとの輝度分布をテンプレートとした相関値を算出する。そして、相関値が最も高い領域を顔パターンの追跡結果として、その相関値とともに出力する。
【0037】
なお、ここで顔パターンの追跡のために輝度分布の相関値を用いたが、例えばRGB各々の画素値分布の相関を用いてもよい。また、領域内での輝度分布やRGB値のヒストグラムなど画像特徴量の相関を用いてもよい。
【0038】
ステップS303では、顔の追跡処理で出力された相関値が所定の値以上であるかを判定し、所定の値以上の場合には、類似度が高いので顔が正確に追跡できたと判断しステップS304に進む。また、所定値以下の場合には、類似度が低いので顔が追跡できなかったと判断し、顔の追跡を終了する。
【0039】
ステップS304では、顔の追跡を行なう対象とするフレームを後続するフレームに変更しステップS301に戻る。以上の処理を繰り返し行うことで検出した顔ごとの顔シーケンスを取得する。
【0040】
なお、ここでは、顔検出部220で人物顔パターンが検出されたフレーム画像に後続するフレーム画像から顔パターンを探索し追跡するよう説明した。しかし、顔パターンが検出されたフレーム画像に先行するフレーム画像を対象として顔パターンを探索し追跡するよう構成してもよい。その他、例えば動画像に含まれる各フレーム画像から動きベクトルを導出し、導出した動きベクトルに基づいて顔パターンの追跡を行うよう構成してもよい。
【0041】
また、顔の前を何かが横切ったりフラッシュなどの影響によって顔シーケンスが過分割されることを防ぐため、所定の時間間隔だけ離れたフレームを使って顔追跡を行っても良い。また、時間的に隣接する2つの顔シーケンスの顔特徴の相関を求め、相関が高い場合は2つの顔シーケンスを1つに結合しても良い。すなわち、結合する前側の区間の開始から後ろ側の区間の終了時までを結合した1つの区間とし、付帯情報もあわせて統合する。代表パターンは簡単には片方の顔シーケンスのものを用いれば良い。
【0042】
顔シーケンスの類似度判定および結合は全ての前後の顔シーケンスについて順次行われ、類似の顔シーケンスが統合される。ただし、顔シーケンスに対応する映像区間が所定の時間以上離れている組は顔シーケンスの結合の候補としては用いない。また、映像中に人物が複数登場する場合には、複数顔シーケンスで映像区間が重なる場合が生じるが、このような場合には、それぞれの顔シーケンスに対応する人物が別の人物と見なせるので顔シーケンスの結合の候補としては用いない。
【0043】
・代表フレーム画像の抽出
以下では、ステップS400で出力された1以上の顔シーケンスの情報に基づいて、動画像データから代表フレーム画像を抽出する方法について説明する。
【0044】
ステップS500では、動画像データに含まれる各時間区間が、顔シーケンスが含まれる期間(以下、被写体区間と呼ぶ)であるか顔シーケンスが含まれない期間(以下、非被写体区間と呼ぶ)であるかを判定する。
【0045】
図11は、顔シーケンスと代表フレーム画像を抽出する対象となる時間区間との関係を示す図である。図11に示される時間範囲においては3つの顔シーケンスA〜Cが検出され、顔シーケンスAと顔シーケンスBとは重複期間がある。このような、状態においては、被写体区間として区間Bと区間Cとが設定され、非被写体区間として区間Aと区間Cとが設定される。
【0046】
抽出方法選択部310は、顔シーケンス生成部200の出力に基づいて代表フレーム画像の評価ルール(抽出の基準)を切り替える。具体的には、何れかの顔シーケンス内(すなわち被写体区間)の時間区間に対しては被写体区間代表フレーム抽出部320によって代表フレーム画像を抽出させ、そうでない場合(すなわち非被写体区間)に対しては非被写体区間代表フレーム抽出部330よって代表フレーム画像を抽出させる。つまり、図11の状況において、抽出方法選択部310は、区間Aおよび区間Cに対する動画像データを非被写体区間代表フレーム抽出部330が処理するよう制御する。一方、区間Bおよび区間Dに対する動画像データを被写体区間代表フレーム抽出部320が処理するように制御する。
【0047】
・被写体区間からの代表フレーム抽出(S600)
被写体区間代表フレーム抽出部320は、顔シーケンスを含む一連の時間区間内を対象にして任意数の代表フレームを抽出するものであり、主要顔判定部321と、顔状態判定部322と、被写体区間代表フレーム判定部323から構成される。
【0048】
主要顔判定部321は撮影者が意図した主要な被写体であるかという観点から評価値を求める。例えば、単一の顔シーケンスから構成される区間においては、撮影者が顔がフレーム内に入るよう操作しているために発生する顔のフレーム内での動きパターン、出現時間などから主要顔の評価値を算出する。以下、具体的な算出方法の一例を述べる。なお、以下の説明においては、代表フレーム画像として適しているものほど評価値が大きくなるような評価計算式であるとする。
【0049】
図10は、格子状のブロックに分割したフレーム画像内における顔中心の軌跡をプロットした図である。顔画像のフレーム内での動きパターンは、顔の中心部(顔中心)の軌跡を求め、図10の各ブロック内に位置した時間の総和とブロック外へ移動した時の方向別の回数を入力として導出される。このようにして多数の動きパターンを用意し、また、主要顔であるか否かを教師データとして前述したニューラルネットワークの重み、閾値を求めておくことで、評価値を算出する。
【0050】
なお、複数の顔シーケンスから構成される区間においては、各々の顔シーケンスについて主要被写体評価を行なう。その後、相対的な評価値が所定の閾値より低い顔シーケンスを対象外とし、顔の相対的なサイズや接地箇所などから撮影者と被写体の相対的な距離を推測する。また、時間的重なりが長い場合には重なり区間の評価値を相対的に高くすると良い。
【0051】
顔状態判定部322は、主要顔判定部321で評価値が高い被写体について、被写体を良く表す顔画像であるか否かを示す評価値を算出する。例えば、顔の向き、目の開閉具合、表情、照明による影、顔の一部が他のオブジェクトで隠れていないかに着目し評価地を導出する。顔の向きや表情に関しては顔画像パターンに対して向きや表情の教師データを与えて前述したニューラルネットワークの重み、閾値を求めることで実現できる。
【0052】
なお、顔の状態を正確に判定するためには、顔画像の中に目、口、鼻などの顔の各パーツが存在することが重要であると考えられる。すなわち、顔が横方向や斜めを向いているものよりも、正面を向いているものの方が顔の特徴を正確に表現している。したがって、顔状態判定部322は顔シーケンス中の各顔画像の顔の向きを検出する構成をもつ。例えば、前述したニューラル・ネットワークによる顔判別器と同じ構成の複数の顔判別器を備える。但し、各顔判別器の判別のためのパラメータを顔の向きごとにサンプル学習によりチューニングし設定しておく。そして、複数の顔判別器のうち、もっとも出力の高い、すなわち尤度の高い顔判別器に対応した顔の向きを出力し、正面を向いた場合に高い評価値を与える。
【0053】
また、例えば、顔画像から目、口、鼻などのパーツを個別に探索し、それぞれの存在の有無を解析結果として出力するようにしてもよい。また、目が開いているか、閉じているかを判定し解析結果を出力するようにしてもよい。また、顔に対する照明状態がよく全体的に肌部分が明るく撮影されている場合には部分的に陰がある場合よりも高い評価値を与えてもよい。影や隠れについては、たとえば参考文献3にあるようなEigenfaceと呼ばれる手法で顔パターンをモデル化し、モデルパラメータを使って近似された顔画像と元画の顔画像との近似差を評価することで影や隠れ領域を求めることが出来る。モデルパラメータの一部には顔に当たった照明成分が含まれるので、その成分の強さから照明の方向と強さを求めることが出来る。
参考文献3:M. Turk and A. Pentland, "Eigenfaces for recognition", Journal of Cognitive Neuroscience 3 (1): 71-86, 1991
【0054】
被写体区間代表フレーム判定部323は、1以上の顔シーケンスが含まれる時間区間の動画像データから代表フレーム画像を抽出する。例えば、主要顔判定部321により主要であると判定され、かつ、顔状態判定部が出力する評価値と入力された動画区間の長さとが所定の閾値を超えたフレーム画像を抽出する。1つの代表フレーム画像を抽出する場合には、評価値が最大となったフレーム画像を抽出する。また、複数の代表フレームを出力する場合には、局所最大や動画区間を分割し、分割した各区間内で最大となるフレームを出力すればよい。
【0055】
また、代表フレーム間の間隔や、前後のフレームとの画像全体の相関を求め、動きの激しくない箇所で評価値が高くなるよう調整しても良い。区間の長さが所定の値より短い場合や評価値が所定の値に満たない場合には必ずしも代表フレームを選択する必要はない。なお、代表フレーム画像として適しているものほど評価値が小さくなるような評価計算式である場合には最小の評価値のフレーム画像を選択する。
【0056】
・非被写体区間からの代表フレーム抽出(S700)
非被写体区間代表フレーム抽出部330は、風景判定部331と、注目点判定部332と、非被写体区間代表フレーム判定部333とから構成される。
【0057】
風景判定部331は、風景を撮影している可能性が高いフレームに対して高い評価値を与える。例えば、所定時間以上のパンを行なっている場合は 撮影場所の特徴的な風景を撮影している場合が極めて高い。また、ズーム情報(光学ズーム・デジタルズーム)が利用できる場合はワイド側である場合にテレ側より風景を撮影している場合が高いので、高い評価値を出力する。
【0058】
より具体的には、パンの検出はフレーム画像からオプティカルフローなどによって動きベクトル分布の傾向から判定する。このとき背景の動きベクトルの流れに対して中心付近で異なる場合は何らかの被写体を撮影している可能性が高い。このような場合は高い評価値を与えない。以下では、動きベクトルを使った被写体判定の具体例について説明する。
【0059】
まず、フレーム画像内の各点でオプティカルフローによって動きベクトルを求める。次にフレーム外周付近の点の動きベクトルを用いてパンの最中かを判定する。時間方向に移動平均を取ることで安定した検出が可能となる。パン状態でない場合には動きベクトルから撮影者が風景を撮っているのか判別できないので被写体領域の検出は行なわない。パン状態の場合はフレーム外周付近の点の動きベクトルを用いて中央付近の動きベクトルを一次補間によって求める。
【0060】
次に、一次補間によって求めた動きベクトルと中心付近の各点でオプティカルフローによって得られた動きベクトルとの差分をもとめ、差分ベクトルが所定の式一以上の長さとなる点の包領域を被写体の領域と判定する。このとき、被写体の面積を使って時間方向での移動平均を求め、所定の面積を占める場合には被写体を撮影していると判断する。
【0061】
注目点判定部332は、認識対象ではないが一般に印象に残るオブジェクトを撮影している場合に高い評価値を与える。大きくパンをしている場合には風景判定部331で説明した動きベクトルを使った被写体判定による方法があり、この場合には面積に基づいて評価値を出力する。以下では、パン状態でない場合の具体例について説明する。
【0062】
まず、前後するフレーム差分によって画像を複数の領域に分割し、注目点である可能性が高い領域に対して高い評価値を出力する。例えば、それぞれの領域の位置、エッジ、彩度、色相の分布、動きパターンなどの特徴量を教師データとして前述したニューラルネットで学習し、当該領域が注目点である可能性が高い場合に高い評価値を出力する。また、撮影時のズーム情報が利用できる場合はワイド側である場合にテレ側より高い評価値を出力するとよい。
【0063】
非被写体区間代表フレーム判定部333は、何れの顔シーケンスにも含まれない時間区間の動画像データから代表フレーム画像を抽出する。例えば、風景判定部331が出力する評価値と入力された動画区間の長さとが所定の閾値を超えたフレーム画像を抽出する。1つの代表フレーム画像を抽出する場合には、評価値が最大となったフレーム画像を抽出する。
【0064】
なお、評価値が所定の閾値より高い区間内では、動きベクトルを時間的に積分した値が所定の閾値を超えるたびに代表フレーム画像を順次追加出力しても良い。これによって風景全体を代表フレーム画像として出力することが出来る。
【0065】
さらに、注目点判定部332が出力する評価値と入力された動画区間の長さとが所定の閾値を超えたフレーム画像を抽出する。1つの代表フレーム画像を抽出する場合には、評価値が最大となったフレーム画像を抽出する。
【0066】
複数の代表フレームを出力する場合には、局所最大や動画区間を分割し、分割した各区間内で最大となるフレームを出力すればよい。また、代表フレーム画像間の時間間隔や、前後のフレームとの画像全体の相関を求め、動きの激しくない箇所で評価値が高くなるよう調整しても良い。なお、区間の長さが所定の値より短い場合や評価値が所定の値に満たない場合には必ずしも代表フレーム画像を抽出する必要はない。また、風景判定部331と注目点判定部332のいずれかから得られる評価値のみを用いるよう構成しても良い。
【0067】
図6は、代表フレーム画像の位置情報を出力したデータの一例を示す図である。第1カラムは動画先頭からの秒数を示し、第2カラムは図5で示した”シーケンス番号”を示し、第3カラムは”評価値”を示す。なお、第2カラムにおいて番号が無いものは非被写体区間から抽出した代表フレームであることを示している。なお、第3カラムに記述する評価値として最終評価にいたる途中結果を併記しても良い。たとえば非被写体区間であれば、風景判定部331における評価値と注目点判定部332における評価値を併記することで、利用者が所望とする代表フレーム画像に絞り込むことが可能となる。
【0068】
1つの時間区間に対し1個の代表フレーム画像のみを格納してもよいし複数個格納しても良い。また、前述したように、ある時間区間について所定の閾値を超える評価値のフレーム画像が無い場合などは、代表フレームを格納しないよう構成してもよい。
【0069】
なお、一般に一覧表示を目的とする場合には代表フレーム画像は少ない枚数が好ましく、検索に使用するインデックス情報を目的とする場合には代表フレーム画像は多くの枚数が存在したほうが良い。このように、目的によって必要な代表フレーム画像の数は異なるため、記憶部に格納する際に評価値を合わせて格納しておき、ユーザから指定された枚数の代表フレーム画像を残しておくことで必要な代表フレームの枚数を評価値の高いものから順に選ぶことが出来る。
【0070】
また、本実施形態は例えば特許文献1に開示される技術と組み合わせることも出来る。すなわち、本実施形態による方法で抽出した代表フレームをキーフレームとして用い、類似性などに基づいて更に絞込んで提示することが可能である。
【0071】
また、記憶部に格納する際のデータ形式は、システムが解釈可能である限り任意のデータ形式が使用できる。例えば、テキスト形式や、独自のDTD(Document Type Definition)を定義したXML(Extensible Markup Language)形式等で表現するようにしてもよい。
【0072】
図13は、代表フレーム画像の一覧の出力例を示す図である。抽出した代表フレーム画像の一覧は、ディスプレイ1008に表示するよう構成してもよいし、プリンタ1009によって印刷出力するよう構成しても良い。
【0073】
以上説明したとおり第1実施形態に係る情報処理装置によれば、動画像データから顔シーケンスが含まれる時間区間と顔シーケンスが含まれない時間区間の各々について代表フレーム画像を抽出することが出来る。それにより、顔シーケンスが含まれない時間区間からは例えば風景のフレーム画像が抽出されることになる。このような、フレーム画像を代表フレーム画像として抽出することにより、利用者は、例えば、”どこで”撮影した動画像データであるかを端的に知ることが可能となる。
【0074】
また、顔シーケンスごとに代表フレーム抽出を行なうのではなく、顔シーケンスが生成された時間区間の動画像データを対象に代表フレーム画像の抽出を行なうよう構成してもよい。そのように構成することで、複数の人物のうちどちらが主要な人物かを評価して、その評価に基づいた代表フレーム抽出を行なうことができる。
【0075】
(変形例)
第1実施形態では、被写体パターンとして人物の顔を検出し、顔シーケンスを生成するようにした。しかし、撮影対象が把握できるものであれば、その他のオブジェクトを被写体のパターンとして取り扱っても良い。
【0076】
例えば、走る電車を軌道に近い地上から撮影する場合は、電車を検出・追跡し、電車が撮影されている区間か否かで代表フレームを抽出する基準を換えれば良い。なお、電車撮影区間から代表フレームを抽出するには、オーディオトラックのレベルとパン操作から先頭車両の前部が映った所に高い評価値をつけるよう構成すると好適である。
【0077】
図12は、顔シーケンスと電車シーケンスとを含む動画像データから代表フレーム画像を抽出する際の区間設定の一例を示す図である。図に示されるように 顔と電車など複数の種別の被写体種別を検出する場合は、ショットの境界では時間区間を区切るよう制御するとよい。
【0078】
このように、被写体種別として異なる種類の画像を利用することにより、動画像データからより適切な代表フレーム画像を抽出可能となる。なお、被写体種別として、たとえば、”家族の人の顔”と”家族以外の人の顔”などの種別を用いても良い。
【0079】
(他の実施形態)
以上、本発明の実施形態について詳述したが、本発明は、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0080】
なお、本発明は、前述した実施形態の機能を実現するプログラムを、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置が、供給されたプログラムコードを読み出して実行することによっても達成される。従って、本発明の機能処理をコンピュータで実現するために、コンピュータにインストールされるプログラムコード自体も本発明の技術的範囲に含まれる。
【0081】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0082】
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク(CD、DVD)、光磁気ディスク、磁気テープ、不揮発性のメモリカード、ROMなどがある。
【0083】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。その他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0084】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【図面の簡単な説明】
【0085】
【図1】第1実施形態に係る情報処理装置の内部構成図である。
【図2】第1実施形態に係る情報処理装置の機能ブロック図である。
【図3】各機能部内部の詳細機能ブロックを示す図である。
【図4】第1実施形態に係る情報処理装置の動作フローチャートである。
【図5】顔シーケンスの情報を記録したデータの一例を示す図である。
【図6】代表フレーム画像の位置情報を出力したデータの一例を示す図である。
【図7】動画像データから顔シーケンスを生成する様子を例示的に示す図である。
【図8】顔シーケンスの生成の処理フローを示す図である。
【図9】ニューラル・ネットワークの手法により画像中から顔を検出する様子を例示的に示す図である。
【図10】格子状のブロックに分割したフレーム画像内における顔中心の軌跡をプロットした図である。
【図11】顔シーケンスと代表フレーム画像を抽出する対象となる時間区間との関係を示す図である。
【図12】顔シーケンスと電車シーケンスとを含む動画像データから代表フレーム画像を抽出する例を示す図である。
【図13】代表フレーム画像の一覧の出力例を示す図である。

【特許請求の範囲】
【請求項1】
時系列に並んだ複数のフレーム画像を含む動画像データを入力する入力手段と、
入力された動画像データから所定の画像パターンに類似する画像を含むフレーム画像を検出する検出手段と、
前記検出手段により検出されたフレーム画像に含まれる画像と類似する画像を含むフレーム画像を、前記検出されたフレーム画像の前後にあるフレーム画像を対象として検出する追跡手段と、
前記追跡手段により検出された連続したフレーム画像を画像シーケンスとして、当該画像シーケンスに対応する前記動画像データ内における時間情報と関連付けて記憶する記憶手段と、
前記動画像データ内の各時刻において前記記憶手段に記憶された1以上の画像シーケンスを含むか否かに基づいて、前記動画像データを複数の時間区間に分割する分割手段と、
前記複数の時間区間の各々について、前記動画像データ内の各時刻において前記記憶手段に記憶された1以上の画像シーケンスを含むか否かに基づいて異なる評価ルールで代表フレーム画像を抽出する抽出手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記抽出手段は、少なくとも前記所定の画像パターンに類似する画像を含むフレーム画像を含む時間区間の各々に含まれるフレーム画像の各々の評価値を所定の評価ルールに基づいて算出し、当該評価値が最大または最小となるフレーム画像を当該時間区間における代表フレーム画像として抽出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記抽出手段は、前記所定の画像パターンに類似する画像を含まないフレーム画像を含む時間区間の各々に含まれるフレーム画像間の動きベクトル分布を導出し、導出したベクトル分布に基づいてフレーム画像の各々の評価値を算出し、当該評価値が最大または最小となるフレーム画像を当該時間区間における代表フレーム画像として抽出することを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記所定の画像パターンは人物の顔画像であることを特徴とする請求項1または2に記載の情報処理装置。
【請求項5】
時系列に並んだ複数のフレーム画像を含む動画像データから1以上の代表フレーム画像を抽出する情報処理装置の制御方法であって、
動画像データを入力する入力工程と、
入力された動画像データから所定の画像パターンに類似する画像を含むフレーム画像を検出する検出工程と、
前記検出工程により検出されたフレーム画像に含まれる画像と類似する画像を含むフレーム画像を、前記検出されたフレーム画像の前後にあるフレーム画像を対象として検出する追跡工程と、
前記追跡工程により検出された連続したフレーム画像を画像シーケンスとして、当該画像シーケンスに対応する前記動画像データ内における時間情報と関連付けて記憶部に記憶する記憶工程と、
前記動画像データ内の各時刻において前記記憶部に記憶された1以上の画像シーケンスを含むか否かに基づいて、前記動画像データを複数の時間区間に分割する分割工程と、
前記複数の時間区間の各々について、前記動画像データ内の各時刻において前記記憶部に記憶された1以上の画像シーケンスを含むか否かに基づいて異なる評価ルールで代表フレーム画像を抽出する抽出工程と、
を備えることを特徴とする情報処理装置の制御方法。
【請求項6】
コンピュータを、請求項1乃至4の何れか一項に記載の情報処理装置の各手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2010−109592(P2010−109592A)
【公開日】平成22年5月13日(2010.5.13)
【国際特許分類】
【出願番号】特願2008−278607(P2008−278607)
【出願日】平成20年10月29日(2008.10.29)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】