映像検索装置、及び映像検索方法

【課題】より効率的に映像検索を行うことができる映像検索装置、及び映像検索方法を提供する。
【解決手段】一実施形態に係る映像検索装置は、映像が入力される映像入力部と、前記映像入力部により入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定するイベント検出部と、前記イベント検出部により検出されたイベントを前記レベル毎に保持するイベント管理部と、前記イベント管理部により保持されているイベントをレベル毎に出力する出力部と、を具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、映像検索装置、及び映像検索方法に関する。
【背景技術】
【０００２】
複数地点に設置された複数のカメラにより取得された監視映像の中から所望の映像を検索する技術の開発が行われている。このような技術は、カメラから直接入力される映像、または記録装置に蓄積された映像の中から所望の映像を検索する。
【０００３】
例えば、変化のある映像、人物が写りこんでいる映像を検出する技術がある。監視者は、検出された映像を視認することにより、所望の映像を特定する。しかし、変化のある映像、人物が写りこんでいる映像が多数検出される場合、検出された映像の視認に手間がかかる可能性がある。
【０００４】
映像の視認を用意にするために、顔画像に対して属性情報を指摘して類似画像を検索する技術がある。たとえば、検索したい人物の顔の特徴を検索条件として指定することで、指定された特徴を有する顔画像をデータベースの中から検索する。
【０００５】
また、顔画像について事前にデータベースに付与した属性（テキスト）を使って絞込みする技術もある。たとえば、顔画像以外に名前や会員ID、入会年月日をキーに検索をすることで高速に検索する。また、例えば、顔などのメインの生体情報以外の属性情報（身長・体重・性別・年齢など)を利用して認識辞書の絞込みを行う。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００６−３１８３７５号公報
【特許文献２】特開２００７−３１０６４６号公報
【特許文献３】特開２０００−０９０２６４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかし、属性情報に該当する画像を検索する場合、辞書側と入力側とで撮影時刻が考慮されていない為に精度が劣るという課題がある。
【０００８】
また、テキストの年齢情報を使って絞込する場合、予め検索対象側に属性情報（テキスト）を付与しておかないと絞込をすることができないという課題がある。
【０００９】
そこで、本発明は、より効率的に映像検索を行うことができる映像検索装置、及び映像検索方法を提供することを目的とする。
【課題を解決するための手段】
【００１０】
一実施形態に係る映像検索装置は、映像が入力される映像入力部と、前記映像入力部により入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定するイベント検出部と、前記イベント検出部により検出されたイベントを前記レベル毎に保持するイベント管理部と、前記イベント管理部により保持されているイベントをレベル毎に出力する出力部と、を具備する。
【図面の簡単な説明】
【００１１】
【図１】図１は、一実施形態に係る映像検索装置について説明するための説明図である。
【図２】図２は、一実施形態に係る映像検索装置について説明するための説明図である。
【図３】図３は、一実施形態に係る映像検索装置について説明するための説明図である。
【図４】図４は、一実施形態に係る映像検索装置について説明するための説明図である。
【図５】図５は、一実施形態に係る映像検索装置について説明するための説明図である。
【図６】図６は、一実施形態に係る映像検索装置について説明するための説明図である。
【図７】図７は、他の実施形態に係る映像検索装置について説明するための説明図である。
【図８】図８は、一実施形態に係る映像検索装置について説明するための説明図である。
【図９】図９は、一実施形態に係る映像検索装置について説明するための説明図である。
【図１０】図１０は、一実施形態に係る映像検索装置について説明するための説明図である。
【図１１】図１１は、一実施形態に係る映像検索装置について説明するための説明図である。
【発明を実施するための形態】
【００１２】
以下、図面を参照しながら、一実施形態に係る映像検索装置、及び映像検索方法について詳細に説明する。
【００１３】
（第１の実施形態）
図１は、一実施形態に係る映像検索装置１００について説明するための説明図である。
図１に示すように、映像検索装置１００は、映像入力部１１０、イベント検出部１２０、検索特徴情報管理部１３０、イベント管理部１４０、及び出力部１５０を備える。また、映像検索装置１００は、ユーザの操作入力を受け付ける操作部などを備えていてもよい。
【００１４】
映像検索装置１００は、監視映像などの入力画像（動画または写真）から特定の人物が写りこんでいるシーン、または他の人物が写りこんでいるシーンなどを抽出する。映像検索装置１００は、人物がいることを示す信頼度別にイベントを抽出する。これにより、映像検索装置１００は、抽出したイベントを含むシーンにそれぞれ信頼度ごとにレベルを付与する。映像検索装置１００は、抽出されたイベントのリストの一覧と映像とをリンクさせて管理することで、容易に所望の人物が存在するシーンを出力することができる。
【００１５】
これにより、映像検索装置１００は、現在手元にある人物の顔写真と同一の人物を検索することができる。また、映像検索装置１００は、何か事故や犯罪が発生した場合の関連映像を検索することができる。さらに、映像検索装置１００は、設置されている防犯カメラ映像の中から関連するシーンやイベントを検索することができる。
【００１６】
映像入力部１１０は、カメラ、または映像を記憶する記憶装置などから出力される映像が入力される入力手段である。
【００１７】
イベント検出部１２０は、入力された映像から変動領域、人物領域、顔領域、個人属性情報、または個人識別情報などのイベントを検出する。また、イベント検出部１２０は、映像における検出されたイベントのフレームの位置を示す情報（フレーム情報）を逐次取得する。
【００１８】
検索特徴情報管理部１３０は、個人の情報、及び属性判別に利用する情報を格納する。
【００１９】
イベント管理部１４０は、入力された映像と、検出されたイベントと、イベントの発生したフレーム情報とを関連付ける。出力部１５０は、イベント管理部１４０で管理されている結果を出力する。
【００２０】
以下順に映像検索装置１００の各部についての説明を行う。
映像入力部１１０は、撮影対象人物の顔画像を入力する。映像入力部１１０は、例えばｉｎｄｕｓｔｒｉａｌｔｅｌｅｖｉｓｉｏｎ（IＴＶ）カメラなどを備える。ITVカメラは、レンズにより受光される光学的な情報をＡ／Ｄ変換器によりディジタル化し、画像データとして出力する。これにより、映像入力部１１０は、イベント検出部１２０に画像データを出力することができる。
【００２１】
また、映像入力部１１０は、デジタルビデオレコーダ（DVR）などの映像を記録する記録装置または記録媒体に記録されている映像が再生された映像が入力される入力端子などを備える構成であってもよい。即ち、映像入力部１１０は、ディジタル化された映像データを取得することができる構成であれば如何なる構成であってもよい。
【００２２】
また、検索対象となるものは結果的に顔画像を含むディジタルの画像データであればよいので、デジタルスチルカメラで撮影した画像ファイルを媒体経由で取り込んでもかまわないし、スキャナを利用して紙媒体や写真からスキャンをしたディジタル画像でも構わない。この場合には大量に保存されている静止画の画像の中から該当する画像を検索するようなシーンが応用例としてあげられる。
【００２３】
イベント検出部１２０は、映像入力部１１０から供給される映像、または複数枚の画像に基づいて、検出すべきイベントを検出する。また、イベント検出部１２０は、イベントを検出したフレームを示すインデックス（たとえばフレーム番号など）をフレーム情報として検出する。例えば、入力される画像が多数の静止画である場合、イベント検出部１２０は、静止画のファイル名をフレーム情報として検出してもよい。
【００２４】
イベント検出部１２０は、例えば、所定以上の大きさで変動している領域が存在するシーン、人物が存在しているシーン、人物の顔が検出されているシーン、人物の顔が検出され特定の属性に該当する人物が存在しているシーン、及び人物の顔が検出され特定の個人が存在しているシーンをイベントとして検出する。しかし、イベント検出部１２０により検出されるイベントは上記のものに限定されない。イベント検出部１２０は、人物が存在していることを示すイベントであればどのように検出する構成であってもよい。
【００２５】
イベント検出部１２０は、人物が写りこんでいる可能性があるシーンをイベントとして検出する。イベント検出部１２０は、人物に関する情報を多く得られるシーンから順にレベルを付加する。
【００２６】
即ち、イベント検出部１２０は、所定以上の大きさで変動している領域が存在するシーンに対して最低レベルである「レベル１」を付与する。また、イベント検出部１２０は、人物が存在しているシーンに対して「レベル２」を付与する。また、イベント検出部１２０は、人物の顔が検出されているシーンに対して「レベル３」を付与する。また、イベント検出部１２０は、人物の顔が検出され特定の属性に該当する人物が存在しているシーンに対して「レベル４」を付与する。またさらに、イベント検出部１２０は、人物の顔が検出され特定の個人が存在しているシーンに対して最高レベルである「レベル５」を付与する。
【００２７】
イベント検出部１２０は、下記の方法に基づいて、所定以上の大きさで変動している領域が存在するシーンを検出する。イベント検出部１２０は、例えば、特許公報Ｐ３４８６２２９、Ｐ３４９０１９６、及びＰ３５６７１１４などに示されている方法に基づいて所定以上の大きさで変動している領域が存在するシーンを検出する。
【００２８】
即ち、イベント検出部１２０は、予め学習用として背景画像の輝度の分布を記憶し、映像入力部１１０から供給される映像と予め記憶された輝度分布とを比較する。イベント検出部１２０は、比較の結果、映像中において輝度分布と一致しない領域に「背景ではない物体が存在している」と判定する。
【００２９】
また、本実施形態では、葉のゆらぎなどの周期的な変化が生じる背景を含む映像であっても、「背景ではない物体」を正しく検出することができる手法を採用することにより、汎用性を高めることができる。
【００３０】
イベント検出部１２０は、検出された変動領域について、所定以上の輝度変化があった画素を抽出し、「変動あり＝１」「変動なし＝０」といった二値の画像にする。イベント検出部１２０は、「１」で示される画素の塊をラベリングなどで塊ごとに分類し、その塊の外接矩形のサイズ、または塊の内に含まれる変動画素の数に基づいて変動領域の大きさを算出する。イベント検出部１２０は、算出した大きさが予め設定される基準サイズより大きい場合「変動あり」と判断し、画像を抽出する。
【００３１】
なお、変動領域が極端に大きい場合、イベント検出部１２０は、太陽が雲にかくれて急に暗くなった、近くの照明が点灯した、または他の偶発的な要因により画素の値が変化したと判断する。これにより、イベント検出部１２０は、人物などの移動物体が存在するシーンを正しく抽出することができる。
【００３２】
また、イベント検出部１２０は、変動領域として判定するサイズに上限を設定しておくことによっても、人物などの移動物体が存在するシーンを正しく抽出することができる。例えば、イベント検出部１２０は、人間のサイズの分布を想定したサイズの上限と下限のしきい値を設定することによってさらに精度よく人物が存在するシーンを抽出することができる。
【００３３】
イベント検出部１２０は、下記の方法に基づいて、人物が存在しているシーンを検出する。イベント検出部１２０は、例えば、人物の全身の領域を検出する技術（Watanabeら,”Co-occurrence Histograms of Oriented Gradients for Pedestrian Detection, In Proceedings of the 3rd Pacific-Rim Symposium on Image and Video Technology” (PSIVT2009), pp. 37-47.）を利用することで人物が存在しているシーンを検出することができる。
【００３４】
この場合、イベント検出部１２０は、例えば、人物が存在する場合の輝度勾配情報の分布がどのようにあらわれるかを複数の局所領域での共起性を利用して求めている。人物が存在している場合、その人物の上半身領域を矩形情報として算出することができる。
【００３５】
イベント検出部１２０は、入力された映像の中に人物が存在している場合、そのフレームをイベントとして検出する。この方法によると、イベント検出部１２０は、画像中に人物の顔が映りこんでいない場合、または顔を認識できるのに充分な解像度でない場合であっても人物が存在するシーンを検出することができる。
【００３６】
イベント検出部１２０は、下記の方法に基づいて、人物の顔が検出されているシーンを検出する。イベント検出部１２０は、入力画像内において、予め用意されたテンプレートを画像内で移動させながら相関値を算出する。イベント検出部１２０は、最も高い相関値が算出された領域を顔領域と特定する。これにより、イベント検出部１２０は、人物の顔が映りこんでいるシーンを検出することができる。
【００３７】
また、イベント検出部１２０は、固有空間法、または部分空間法などを利用して顔領域を検出する構成であってもよい。また、イベント検出部１２０は、検出された顔領域の画像の中から、目、鼻などの顔部位の位置を検出する。イベント検出部１２０は、例えば、文献（福井和広、山口修：「形状抽出とパターン照合の組合せによる顔特徴点抽出」, 電子情報通信学会論文誌(D),vol.J80-D-II,No.8,pp2170--2177(1997)）などに記載されている方法により顔のパーツを検出することができる。
【００３８】
なお、イベント検出部１２０は、１枚の画像の中から１つの顔領域（顔特徴）を検出する場合、全画像に対してテンプレートとの相関値を求め最大となる位置とサイズを出力する。また、イベント検出部１２０は、１枚の画像の中から複数の顔特徴を検出する場合、画像全体に対する相関値の局所最大値を求め、一枚の画像内での重なりを考慮して顔の候補位置を絞り込む。さらに、イベント検出部１２０は、最後は連続して入力された過去の画像との関係性（時間的な推移）を考慮し、最終的に複数の顔特徴を同時に検出することができる。
【００３９】
また、イベント検出部１２０は、人物がマスク、サングラス、または帽子などを着用している場合でも顔領域を検出することができるように、予め人物がマスク、サングラス、または帽子などを着用している場合の顔パターンをテンプレートとして記憶しておく構成であってもよい。
【００４０】
また、イベント検出部１２０は、顔の特徴点の検出をする際に、顔の特徴点のすべての点が検出できない場合、一部の顔特徴点の評価値に基づいて処理を行う。即ち、イベント検出部１２０は、一部の顔特徴点の評価値が予め設定される基準値以上である場合、二次元平面、または三次元的な顔のモデルを利用して検出された特徴点から残りの特徴点を推測することができる。
【００４１】
また、特徴点がまったく検出できない場合、イベント検出部１２０は、顔全体のパターンを予め学習することにより、顔全体の位置を検出し、顔全体の位置から顔特徴点を推測することができる。
【００４２】
なお、複数の顔が画像内に存在する場合、イベント検出部１２０は、どの顔を検索対象とするかの指示を後述の検索条件設定手段や出力手段で指定するようにしてもよい。また、イベント検出部１２０は、上記の処理により求められた顔らしさの指標の順番に自動的に検索対象を選択し、出力する構成であってもよい。
【００４３】
なお、ここで連続したフレームにわたって同一人物が映っている場合、それぞれが別々のイベントとして管理されるよりも、「同一の人物が映っているひとつのイベント」として扱えたほうが都合がよい場合が多い。
【００４４】
そこで、イベント検出部１２０は、人物が普通に歩行している場合に連続するフレームでどのあたりに移動するかの統計情報をもとに確率を算出し、もっとも確率が高くなる組合せを選択して連続して発生するイベントの対応付けを行うことができる。これにより、イベント検出部１２０は、複数のフレーム間に同一人物が写りこんでいるシーンを１つのイベントとして認識することができる。
【００４５】
また、イベント検出部１２０は、フレームレートが高い場合、オプティカルフローを利用するなどしてフレーム間における人物領域または顔の領域を対応付けることにより、複数のフレーム間に同一人物が写りこんでいるシーンを１つのイベントとして認識することができる。
【００４６】
さらに、イベント検出部１２０は、複数のフレーム（対応付けられた画像群）から「ベストショット」を選択することができる。ベストショットは、複数の画像の中からもっとも人物の視認に適した画像である。
【００４７】
イベント検出部１２０は、検出したイベントに含まれるフレームのうち、最も顔領域が大きいフレーム、人間の顔の向きが最も正面に近いフレーム、顔領域の画像のコントラストが最も大きなフレーム、及び顔らしさを示すパターンとの類似性がもっとも高いフレームのうちの少なくとも１つまたは複数の指標を考慮した値がもっとも高いフレームをベストショットとして選択する。
【００４８】
また、イベント検出部１２０は、人間の目でみて見やすい画像、または認識処理に向いている画像などをベストショットとして選択する構成であってもよい。これらのベストショットを選択するための選択基準は、ユーザの任意に基づいて自由に設定することができる。
【００４９】
イベント検出部１２０は、下記の方法に基づいて、特定の属性に該当する人物が存在しているシーンを検出する。まずイベント検出部１２０は、上記の処理により検出された顔領域の情報を利用して人物の属性情報を特定するための特徴情報を計算する。
【００５０】
本実施例で説明する属性情報は、年齢、性別、眼鏡の種類、マスク種類、帽子の種類などの５種類として説明するが、イベント検出部１２０は、他の属性情報を用いる構成であってもよい。例えば、イベント検出部１２０は、人種、眼鏡の有無（１か０かの情報）、マスクの有無（１か０かの情報）、帽子の有無（１か０かの情報）、顔への装着品（ピアス、イヤリングなど）、服装、表情、肥満度、裕福度などを属性情報として用いる構成であってもよい。イベント検出部１２０は、予め後述する属性判定方法を用いて属性毎にパターンの学習をすることにより、如何なる特徴であっても属性として用いることができる。
【００５１】
イベント検出部１２０は、顔領域の画像から顔特徴を抽出する。イベント検出部１２０は、例えば、部分空間法などを用いることにより顔特徴を算出することができる。
【００５２】
なお、顔特徴と属性情報とを比較して人物の属性を判断する場合、属性毎に顔特徴の算出方法が異なる場合がある。そこで、イベント検出部１２０は、比較する属性情報に応じた算出方法を用いて顔特徴を算出する構成であってもよい。
【００５３】
例えば、年齢及び性別などの属性情報と比較する場合、イベント検出部１２０は、年齢、及び性別のそれぞれに適した前処理を適用することでより高い精度で属性を判別することができる。
【００５４】
通常、人物の顔は、年齢が高くなるほどしわが増えてくる。そこで、イベント検出部１２０は、例えば、しわを強調する線分強調フィルタを顔領域の画像に対して複合することにより、より高い精度で人物の属性（年代）を判別することができる。
【００５５】
また、イベント検出部１２０は、性別特有の部位（例えばひげなど）が強調される周波数成分を強調するフィルタを顔領域の画像に対して複合する、または、骨格情報が強調されるようなフィルタを顔領域の画像に対して複合する。これにより、イベント検出部１２０は、より高い精度で人物の属性（性別）を判別することができる。
【００５６】
また、イベント検出部１２０は、たとえば、顔検出処理によって求められた顔の部位の位置情報から目、目じり、または目頭の位置を特定する。これにより、イベント検出部１２０は、両目付近の画像を切り出し、切り出した画像を部分空間の計算対称とすることにより、眼鏡に関する特徴情報を得ることができる。
【００５７】
また、イベント検出部１２０は、たとえば、顔検出処理によって求められた顔の部位の位置情報から口と鼻の位置を特定する。これにより、イベント検出部１２０は、特定した口と鼻の位置の画像を切り出し、切り出した画像を部分空間の計算対称とすることにより、マスクに関する特徴情報を得ることができる。
【００５８】
また、イベント検出部１２０は、たとえば、顔検出処理によって求められた顔の部位の位置情報から目、及び眉の位置を特定する。これにより、イベント検出部１２０は、顔の肌領域の上端を特定することができる。さらに、イベント検出部１２０は、特定した顔の頭部領域の画像を切り出し、切り出した画像を部分空間の計算対称とすることにより、防止に関する特徴情報を得ることができる。
【００５９】
上記したように、イベント検出部１２０は、眼鏡、マスク、及び帽子などを顔の位置から特定して特徴情報を抽出することができる。即ち、イベント検出部１２０は、顔の位置から推定可能な位置に存在する属性であれば如何なる物であっても特徴情報を抽出することができる。
【００６０】
また、人物が着用している着用物を直接的に検出するアルゴリズムも一般的に実用化されている。イベント検出部１２０は、そのような手法を用いることにより特徴情報を抽出する構成であってもよい。
【００６１】
また、眼鏡、マスク、及び帽子などが人物により着用されていない場合、イベント検出部１２０は、顔の肌の情報をそのまま特徴情報として抽出する。この為、眼鏡、マスク、及びサングラスなどの属性は、それぞれ異なる特徴情報が抽出される。即ち、イベント検出部１２０は、眼鏡、マスク、及びサングラスなどの属性を特に分類して特徴情報を抽出しなくてもよい。
【００６２】
なお、眼鏡、マスク、及び帽子などが人物により着用されていない場合、イベント検出部１２０は、着用していないことを示す特徴情報を区別して抽出する構成であってもよい。
【００６３】
さらに、イベント検出部１２０は、属性を判別するための特徴情報を算出した後、後述の検索特徴情報管理部１３０により記憶されている属性情報と比較を行う。これにより、イベント検出部１２０は、入力された顔画像の人物の性別、年代、眼鏡、マスク、及び帽子などの属性を判別する。なお、イベント検出部１２０は、人物の年齢、性別、メガネの有無、メガネの種類、マスクの有無、マスクの種類、帽子の着用有無、帽子の種類、ひげ、ほくろ、しわ、怪我、髪型、髪の毛の色、服の色、服の形、帽子、装飾品、顔付近への着用物、表情、裕福度、及び人種のうちの少なくとも１つをイベントの検出に用いる属性として設定する。
【００６４】
イベント検出部１２０は、判別した属性をイベント管理部１４０に出力する。具体的には、イベント検出部１２０は、図２に示すように、抽出部１２１、及び属性判別部１２２を備える。抽出部１２１は、上記したように、登録画像（入力画像）における所定の領域の特徴情報を抽出する。例えば、顔領域を示す顔領域情報と入力画像とが入力される場合、抽出部１２１は、入力画像における顔領域情報が示す領域の特徴情報を算出する。
【００６５】
属性判別部１２２は、抽出部１２１により抽出された特徴情報と予め検索特徴情報管理部１３０に格納される属性情報とに基づいて、入力画像の人物の属性を判別する。属性判別部１２２は、抽出部１２１により抽出された特徴情報と予め検索特徴情報管理部１３０に格納される属性情報との類似度を算出することにより、入力画像の人物の属性を判別する。
【００６６】
属性判別部１２２は、例えば、性別判別部１２３と年代判別部１２４とを備える。属性判別部１２２は、さらなる属性を判別するための判別部を備えていてもよい。例えば、属性判別部１２２は、眼鏡、マスク、または帽子などの属性を判別する判別部を備えていても良い。
【００６７】
例えば、検索特徴情報管理部１３０は、男性の属性情報と女性の属性情報とを予め保持している。性別判別部１２３は、検索特徴情報管理部１３０により保持されている男性の属性情報及び女性の属性情報と、抽出部１２１により抽出された特徴情報とに基づいてそれぞれ類似度を算出する。性別判別部１２３は、算出された類似度の高いほうを入力画像に対する属性判別の結果として出力する。
【００６８】
例えば、性別判別部１２３は、特開２０１０−０４４４３９号公報に記載されているように、顔の局所的な勾配特徴の発生頻度を統計情報として保持する特徴量を利用する。即ち、性別判別部１２３は、統計情報がもっとも男女を識別するような勾配特徴を選別し、その特徴を識別する識別器を学習によって算出し、男女のような２クラスを判別する。
【００６９】
また、性別判別のように属性が２クラスではなく、年齢推定のように３クラス以上である場合、検索特徴情報管理部１３０は、各クラス（ここでは年代）で平均的な顔特徴の辞書（属性情報）を予め保持する。年代判別部１２４は、検索特徴情報管理部１３０により保持されている各年代毎の属性情報と、抽出部１２１により抽出された特徴情報との類似度を算出する。年代判別部１２４は、最も高い類似度の算出に用いられた属性情報に基づいて、入力画像の人物の年代を判別する。
【００７０】
また、さらに高い精度で年代を推定する技術として、前述の２クラス判別器を利用した以下の手法がある。
【００７１】
まず、検索特徴情報管理部１３０は、年齢を推定するために事前に識別したい年齢ごとの顔画像を予め保持する。たとえば、１０歳から６０歳前後までの年代の判別を行う場合、検索特徴情報管理部１３０は、１０歳未満から６０歳以上までの顔画像をあらかじめ保持する。ここでは、検索特徴情報管理部１３０が保持する顔画像の枚数が多くなるほど、年代判別の精度を向上させることができる。さらに、検索特徴情報管理部１３０は、幅広い年代の顔画像を予め保持することにより、判別できる年齢を広げることができる。
【００７２】
次に、検索特徴情報管理部１３０は、「基準年齢より上か下か」の判別をするための識別器を準備する。検索特徴情報管理部１３０は、線形判別分析などを用いて２クラスの判別をイベント検出部１２０に行わせることができる。
【００７３】
また、イベント検出部１２０及び検索特徴情報管理部１３０は、サポートベクターマシン（Support Vector Machine）などの手法を用いる構成であってもよい。なお、以下サポートベクターマシンをＳＶＭと称する。ＳＶＭでは、２クラスを判別する為の境界条件を設定し、設定された境界からの距離にあるかを算出することができる。これにより、イベント検出部１２０及び検索特徴情報管理部１３０は、基準とする年齢Ｎ歳より上の年齢に属する顔画像と、下の年齢に属する顔画像とを分類することができる。
【００７４】
たとえば、３０歳を基準年齢としたときに、検索特徴情報管理部１３０は、３０歳より上か下かを判別するための画像群を予め保持する。例えば、検索特徴情報管理部１３０には、３０歳以上を含む画像が正のクラス「３０歳以上」の画像として入力される。また、検索特徴情報管理部１３０には、負のクラス「３０歳未満」の画像が入力される。検索特徴情報管理部１３０は、入力された画像に基づいて、ＳＶＭ学習を行う。
【００７５】
上記した方法により、検索特徴情報管理部１３０は、基準年齢を１０歳から６０歳までずらしながら辞書の作成を行う。これにより、検索特徴情報管理部１３０は、例えば図３に示すように、「１０歳以上」、「１０歳未満」、「２０歳以上」、「２０歳未満」、・・・「６０歳以上」、「６０歳未満」の年代判別用の辞書を作成する。年代判別部１２４は、検索特徴情報管理部１３０により格納されている複数の年代判別用の辞書と入力画像とに基づいて入力画像の人物の年代を判別する。
【００７６】
検索特徴情報管理部１３０は、基準年齢を１０歳から６０歳までずらしながら準備した年代判別用の辞書の画像を基準年齢にあわせて二つに分類する。これにより、検索特徴情報管理部１３０は、ＳＶＭの学習器を基準年齢の数に応じて準備することができる。なお、本実施例では、検索特徴情報管理部１３０は、１０歳から６０歳まで６個の学習器を準備する。
【００７７】
検索特徴情報管理部１３０は、「Ｘ歳以上」とするクラスを「正」のクラスとして学習することで、「基準年齢より年齢が上の画像が入力されると指標はプラスの値を返す」ようになる。この判別処理を基準年齢を１０歳から６０歳までずらしながら実行していくことにより、基準年齢に対して上か下かの指標を得ることができる。また、この出力された指標の中で、もっとも指標がゼロに近いところが出力すべき年齢に近いことになる。
【００７８】
ここで年齢の推定方法を図４に示す。イベント検出部１２０の年代判別部１２４は、各基準年齢に対するＳＶＭの出力値を算出する。さらに、年代判別部１２４は、縦軸を出力値、横軸を基準年齢として出力値をプロットする。このプロットに基づいて年代判別部１２４は、入力画像の人物の年齢を特定することができる。
【００７９】
例えば、年代判別部１２４は、出力値が最もゼロに近いプロットを選択する。図４に示す例によると、基準年齢３０歳がもっともゼロに近い。この場合、年代判別部１２４は、「３０代」を入力画像の人物の属性として出力する。また、プロットが不安定に上下に変動する場合、年代判別部１２４は、隣接する基準年齢との移動平均を算出することにより、安定して年代を判別することができる。
【００８０】
また、例えば、年代判別部１２４は、隣り合う複数のプロットに基づいて近似関数を算出し、算出された近似関数の出力値が０である場合の横軸の値を推定年齢として特定する構成であってもよい。図４に示す例によると、年代判別部１２４は、プロットに基づいて直線の近似関数を算出することにより交点を特定し、特定した交点からおよそ３３歳という年齢を特定することができる。
【００８１】
また、年代判別部１２４は、部分集合（たとえば隣接する３つの基準年齢に対するプロット）に基づいて近似関数を算出するのではなく、全てのプロットに基づいて近似関数を算出する構成であってもよい。この場合、より近似誤差が少ない近似関数を算出することができる。
【００８２】
また、年代判別部１２４は、所定の変換関数を通して得られた値でクラスを判別する構成であってもよい。
【００８３】
また、イベント検出部１２０は、下記の方法に基づいて、特定の個人が存在しているシーンを検出する。まずイベント検出部１２０は、上記の処理により検出された顔領域の情報を利用して人物の属性情報を特定するための特徴情報を計算する。また、この場合、検索特徴情報管理部１３０は、個人を特定する為の辞書を備える。この辞書は、特定する個人の顔画像から算出された特徴情報などを有する。
【００８４】
イベント検出部１２０は、検出された顔の部品の位置をもとに、顔領域を一定の大きさ、形状に切り出し、その濃淡情報を特徴量として用いる。ここでは、イベント検出部１２０は、ｍピクセル×ｎピクセルの領域の濃淡値をそのまま特徴情報として用い、ｍ×ｎ次元の情報を特徴ベクトルとして用いる。
【００８５】
また、イベント検出部１２０は、入力画像から抽出された特徴情報と、検索特徴情報管理部１３０により保持されている個人の特徴情報とに基づいて部分空間法を用いることにより処理する。即ち、イベント検出部１２０は、単純類似度法によりベクトルとベクトルの長さをそれぞれ１とするように正規化を行い、内積を計算することで特徴ベクトル間の類似性を示す類似度を算出する。
【００８６】
また、イベント検出部１２０は、１枚の顔画像情報に対してモデルを利用して顔の向きや状態を意図的に変動させた画像を作成する手法を適用してもよい。上記の処理により、イベント検出部１２０は、１枚の画像から顔の特徴を求めることができる。
【００８７】
また、イベント検出部１２０は、同一人物から時間的に連続して取得された複数の画像を含む動画像に基づいてより高い精度で人物の認識を行うことができる。例えば、イベント検出部１２０は文献（福井和広、山口修、前田賢一：「動画像を用いた顔認識システム」電子情報通信学会研究報告PRMU,vol97,No.113,pp17-24(1997)に記載されている相互部分空間法を用いる構成であってもよい。
【００８８】
この場合、イベント検出部１２０は、動画像から上記の特徴抽出処理と同様にｍ×ｎピクセルの画像を切り出し、切り出したデータに基づいて特徴ベクトルの相関行列を求め、Ｋ−Ｌ展開により正規直交ベクトルを求める。これにより、イベント検出部１２０は、連続した画像から得られる顔の特徴を示す部分空間を計算することができる。
【００８９】
部分空間の計算法によると、特徴ベクトルの相関行列（または共分散行列）が算出され、そのＫ−Ｌ展開による正規直交ベクトル（固有ベクトル）が算出され、部分空間が算出される。部分空間は、固有値に対応する固有ベクトルを、固有値の大きな順にｋ個選び、その固有ベクトル集合を用いて表現する。本実施例では、相関行列Ｃｄを特徴ベクトルから求め、相関行列Ｃd ＝Φd Λd Φd T と対角化して、固有ベクトルの行列Φを求める。この情報が現在認識対象としている人物の顔の特徴を示す部分空間となる。
【００９０】
このような方法で出力された部分空間のような特徴情報を入力された画像で検出された顔に対する個人の特徴情報とする。イベント検出部１２０は、顔特徴抽出手段で計算された入力画像に対する顔特徴情報と、事前に複数の顔が登録されている検索特徴情報管理部１３０の中の顔特徴情報との類似性を示す計算を行ってより類似性の高いものから順番に結果を返す処理を行う。
【００９１】
この際に検索処理の結果としては類似性の高いものから順番に検索特徴情報管理部１３０内で個人を識別するために管理されている人物、ＩＤ、計算結果である類似性を示す指標を返す。それに加えて検索特徴情報管理部１３０で個人ごとに管理されている情報を一緒に返すようにしてもかまわない。しかし、基本的に識別ＩＤにより対応付けが可能であるので、検索処理において付属情報を用いる必要はない。
【００９２】
類似性を示す指標としては、顔特徴情報として管理されている部分空間同士の類似度が用いられる。計算方法は、部分空間法、複合類似度法、または他の方法であってもよい。この方法では、予め蓄えられた登録情報の中の認識データも、入力されるデータも複数の画像から計算される部分空間として表現され、２つの部分空間のなす「角度」を類似度として定義される。
【００９３】
ここで入力される部分空間を入力手段分空間という。イベント検出部１２０は、入力データ列に対して同様に相関行列Ｃinを求め、Ｃin＝ΦinΛinΦinT と対角化し、固有ベクトルΦinを求める。イベント検出部１２０は、二つのΦin，Φd で表される部分空間の部分空間類似度（０．０〜１．０）を求める。イベント検出部１２０は、この類似度を個人を認識する為の類似度として用いる。
【００９４】
また、イベント検出部１２０は、あらかじめ同一人物と分かる複数の顔画像をまとめて部分空間へ射影することによって、本人であるかどうかを識別する構成であってもよい。この場合、個人認識の精度を向上させることができる。
【００９５】
検索特徴情報管理部１３０は、イベント検出部により各種のイベントを検出する処理に用いられる種々の情報を保持する。上記したように、検索特徴情報管理部１３０は、個人、人物の属性などを判別するために必要な情報を保持する。
【００９６】
検索特徴情報管理部１３０は、例えば、個人ごとの顔特徴情報、および属性毎の特徴情報（属性情報）などを保持する。また、検索特徴情報管理部１３０は、属性情報を同一の人物ごとに対応付けて保持することもできる。
【００９７】
検索特徴情報管理部１３０は、顔特徴情報および属性情報として、イベント検出部１２０と同様の方法により算出される各種の特徴情報を保持する。例えば、検索特徴情報管理部１３０は、ｍ×ｎの特徴ベクトル、部分空間、またはＫＬ展開を行う直前の相関行列などを特徴情報として保持する。
【００９８】
なお、個人を特定する為の特徴情報は、事前に準備できない場合が多い。この為、当該映像検索装置１００に入力される写真、または動画像などから人物を検出し、検出した人物の画像に基づいて上記した方法により特徴情報を算出し、算出された特徴情報を検索特徴情報管理部１３０に格納する構成であってもよい。この場合、検索特徴情報管理部１３０は、特徴情報と、顔画像と、識別ＩＤと、図示しない操作入力部などにより入力される名前などを対応付けて格納する。
【００９９】
なお、検索特徴情報管理部１３０は、事前に設定されるテキスト情報に基づいて、別の付帯情報、または属性情報などを特徴情報に対応付けて格納する構成であってもよい。
【０１００】
イベント管理部１４０は、イベント検出部１２０により検出されたイベントに関する情報を保持する。例えば、イベント管理部１４０は、入力された映像情報をそのまま、またはダウンコンバートされた状態で記憶する。また、イベント管理部１４０は、映像情報がＤＶＲのような機器から入力されている場合、該当する映像へのリンク情報を記憶する。これにより、イベント管理部１４０は、任意のシーンの再生が指示された場合に指示されたシーンを容易に検索することができる。これにより、映像検索装置１００は、任意のシーンを再生することができる。
【０１０１】
図５は、イベント管理部１４０により格納されている情報の例について説明するための説明図である。
【０１０２】
図５に示すように、イベント管理部１４０は、イベント検出部１２０により検出されたイベントの種類（上記のレベルに相当）、検知された物体が写り込んでいる座標を示す情報（座標情報）、属性情報、個人を識別する為の識別情報、及び映像におけるフレームを示すフレーム情報などを対応付けて保持する。
【０１０３】
イベント管理部１４０は、上記したように、同一人物が連続して写り込んでいる複数のフレームをグループとして管理する。また、この場合、イベント管理部１４０は、ベストショット画像を１枚選択して代表画像として保持する。例えば、イベント管理部１４０は、顔領域が検出されている場合、顔領域がわかる顔画像をベストショットとして保持する。
【０１０４】
また、人物領域が検出されている場合、イベント管理部１４０は、人物領域の画像をベストショットとして保持する。この場合、イベント管理部１４０は、例えばもっとも人物領域が大きく写っている画像、左右対称性から人物が正面向きに近いと判断される画像などをベストショットとして選択する。
【０１０５】
また、イベント管理部１４０は、変動領域が検出されている場合、例えば、変動している量がもっとも大きい画像、変動はしているが変動量が少なくて安定している画像のいずれかをベストショットとして選択する。
【０１０６】
また、上記したように、イベント管理部１４０は、イベント検出部１２０により検出されたイベントを「人物らしさ」でレベル分けする。即ち、イベント管理部１４０は、所定以上の大きさで変動している領域が存在するシーンに対して最低レベルである「レベル１」を付与する。また、イベント管理部１４０は、人物が存在しているシーンに対して「レベル２」を付与する。また、イベント管理部１４０は、人物の顔が検出されているシーンに対して「レベル３」を付与する。また、イベント管理部１４０は、人物の顔が検出され特定の属性に該当する人物が存在しているシーンに対して「レベル４」を付与する。またさらに、イベント管理部１４０は、人物の顔が検出され特定の個人が存在しているシーンに対して最高レベルである「レベル５」を付与する。
【０１０７】
レベル１に近づくほど、「人物が存在しているシーン」としての検出漏れが少なくなる。しかし、過剰検出が増えるほか、特定の人物のみに絞り込むという精度は低くなる。また、レベル５に近づくほど特定の人物に絞り込んだイベントが出力される。しかし、一方で検出漏れも増えることになる。
【０１０８】
図６は、映像検索装置１００により表示される画面の例について説明するための説明図である。
出力部１５０は、イベント管理部１４０により格納されている情報にもとづいて、図６に示すような出力画面１５１を出力する。
【０１０９】
出力部１５０により出力される出力画面１５１は、映像切り替えボタン１１、検出設定ボタン１２、再生画面１３、コントロールボタン１４、タイムバー１５、イベントマーク１６、及びイベント表示設定ボタン１７などの表示を含む。
【０１１０】
映像切り替えボタン１１は、処理対象の映像を切り替えるためのボタンである。この実施例では、映像ファイルを読み込んでいる例について説明する。この場合、映像切り替えボタン１１には、読み込まれた映像ファイルのファイル名が表示される。なお、上記したように、本装置により処理される映像は、カメラから直接入力される映像であってもよいし、フォルダ内の静止画一覧でも良い。
【０１１１】
検出設定ボタン１２は、対象となる映像から検出する際の設定を行う。たとえば、レベル５（個人識別）を行う場合、検出設定ボタン１２が操作される。この場合、検出設定ボタン１２には、検索対象となる個人の一覧が表示される。また、表示された個人の一覧から、削除、編集、新規な検索対象者の追加などを行うような構成であってもよい。
【０１１２】
再生画面１３は、対象となる映像を再生する画面である。映像の再生処理は、コントロールボタン１４により制御される。例えば、コントロールボタン１４は、図６の左から順に「前のイベントまでスキップ」、「巻き戻し高速再生」、「逆再生」、「逆コマ送り」、「一時停止」、「コマ送り」、「再生」、「早送り高速再生」、「次のイベントまでスキップ」などの操作を意味するボタンを有する。なお、コントロールボタン１４は、他の機能を有するボタンが追加してもよいし、不要なボタンを削除してもよい。
【０１１３】
タイムバー１５は、映像全体の再生位置を示す。タイムバー１５は、現在の再生位置を示すスライダを有する。映像検索装置１００は、スライダが操作される場合、再生位置を変更するように処理を行う。
【０１１４】
イベントマーク１６は、検出されたイベントの位置をマークしたものである。イベントマーク１６のマークの位置は、タイムバー１５の再生位置に対応する。コントロールボタン１４の「前のイベントまでスキップ」、または「次のイベントまでスキップ」が操作される場合、映像検索装置１００は、タイムバー１５のスライダの前後に存在するイベントの位置までスキップする。
【０１１５】
イベント表示設定ボタン１７は、レベル１からレベル５までのチェックボックスの表示を有する。ここでチェックされているレベルに対応するイベントがイベントマーク１６に表示される。即ち、ユーザは、イベント表示設定ボタン１７を操作することにより、不要なイベントを表示からはずすことができる。
【０１１６】
また、出力画面１５１は、ボタン１８、ボタン１９、サムネイル２０乃至２３、及び保存ボタン２４などの表示をさらに有する。
【０１１７】
サムネイル２０乃至２３は、イベントの一覧表示である。サムネイル２０乃至２３には、それぞれ、各イベントにおけるベストショット画像、フレーム情報（フレーム番号）、イベントのレベル、及びイベントに関する補足情報などが表示される。なお、映像検索装置１００は、人物領域または顔領域がそれぞれのイベントにおいて検出されている場合、検出された領域の画像をサムネイル２０乃至２３として表示する構成であってもよい。なお、サムネイル２０乃至２３には、タイムバー１５におけるスライダの位置に近いイベントが表示される。
【０１１８】
映像検索装置１００は、ボタン１８またはボタン１９が操作される場合、サムネイル２０乃至２３を切り替える。例えば、ボタン１８が操作される場合、映像検索装置１００は、現在表示されているイベントより前に存在するイベントに関するサムネイルを表示する。
【０１１９】
また、例えば、ボタン１９が操作される場合、映像検索装置１００は、現在表示されているイベントより後に存在するイベントに関するサムネイルを表示する。なお、再生画面１３により再生されているイベントに対応するサムネイルには、図６に示すように縁取りが施されて表示される。
【０１２０】
また、映像検索装置１００は、表示されているサムネイル２０乃至２３がダブルクリックなどにより選択される場合、選択されたイベントの再生位置までスキップして再生画面１３に表示する。
【０１２１】
保存ボタン２４は、イベントの画像または動画を保存するためのボタンである。保存ボタン２４が選択される場合、映像検索装置１００は、表示されているサムネイル２０乃至２３のうちの選択されているサムネイルに対応するイベントの映像を図示しない記憶部に記憶することができる。
【０１２２】
なお、映像検索装置１００は、イベントを画像として保存する場合、保存する画像を「顔領域」、「上半身領域」、「全身領域」、「変動領域全体」、及び「画像全体」の画像のうちから操作入力に応じて選択して保存することができる。この場合、映像検索装置１００は、フレーム番号、ファイル名、及びテキストファイルなどを出力する構成であってもよい。映像検索装置１００は、映像ファイル名と拡張子の異なるファイル名をテキストのファイル名として出力する。また、映像検索装置１００は、関連情報をすべてテキストに出力してもよい。
【０１２３】
また、映像検索装置１００は、イベントがレベル１の動画である場合、連続して変動が続いている時間の映像を動画ファイルとして出力する。また、映像検索装置１００は、イベントがレベル２以上の動画である場合、同一人物が複数のフレーム間にわたって対応付けできている範囲の映像を動画ファイルとして出力する。
【０１２４】
ここで出力されたファイルについては、映像検索装置１００は、目視できるようにエビデンス画像・映像として保存をすることができる。また、映像検索装置１００は、事前に登録された人物との照合を行うシステムなどへの出力することもできる。
【０１２５】
上記したように、映像検索装置１００は、監視カメラ映像、または記録された映像を入力し、人物が写っているシーンを動画像に関連付けて抽出する。この場合、映像検索装置１００は、抽出したイベントに対して、人物がいることを示す信頼度に応じてレベルを付与する。さらに、映像検索装置１００は、抽出されたイベントのリストの一覧と映像をリンクして管理する。これにより、映像検索装置１００は、ユーザ所望の人物の写り込んでいるシーンを出力することが可能である。
【０１２６】
例えば、映像検索装置１００は、まずは信頼度の高いレベル５のイベントを出力し、次にレベル４のイベントを出力することにより、ユーザに容易に検出された人物の画像を視聴させることができる。さらに、映像検索装置１００は、レベル３からレベル１まで順にレベルを切り替えながらイベントの表示を行うことにより、映像全体のイベントを漏れなくユーザに市長させることができる。
【０１２７】
（第２の実施形態）
以下第２の実施形態について説明する。なお、第１の実施形態と同様の構成には同じ参照符号を付し、その詳細な説明を省略する。
【０１２８】
図７は、第２の実施形態に係る映像検索装置１００の構成について説明する為の説明図である。映像検索装置１００は、映像入力部１１０、イベント検出部１２０、検索特徴情報管理部１３０、イベント管理部１４０、出力部１５０、及び時刻推定部１６０を具備する。
【０１２９】
時刻推定部１６０は、入力された映像の時刻を推定する。時刻推定部１６０は、入力された映像が撮像された時刻を推定する。時刻推定部１６０は、推定した時刻を示す情報（時刻情報）を映像入力部１１０に入力される映像に付与し、イベント検出部１２０に出力する。
【０１３０】
映像入力部１１０は、第一の実施形態と同様の構成であるが、本実施形態では、さらに映像の撮影時刻を示す時刻情報を入力する。映像入力部１１０お呼び時刻推定部１６０は、例えば、映像がファイルである場合、ファイルのタイムスタンプ及びフレームレートなどに基づいて、映像におけるフレームと時刻との対応付けを行うことができる。
【０１３１】
また、監視カメラ用の映像記録装置（DVR）では、映像内に時刻情報が画像として埋め込まれていることが多い。そこで、時刻推定部１６０は、映像中に埋め込まれている時刻を示す数字を文字認識で認識することにより、時刻情報を生成することができる。
【０１３２】
また、時刻推定部１６０は、カメラから直接入力されるリアルタイムクロックから得られる時刻情報を使って現在の時刻を取得することもできる。
【０１３３】
また、映像ファイルに時刻を示す情報を含むメタファイルが付随している場合がある。この場合、時刻推定部１６０は、と別に字幕情報用のファイルとして外部メタファイルで各フレームと時刻の関係を示す情報を与える方法もあるため、その外部メタファイルを読み込むことにより時刻情報を取得することも可能である。
【０１３４】
また、映像検索装置１００は、映像の時刻情報が映像と同時に与えられなかった場合、あらかじめ撮影時刻と年齢が与えられている顔画像、または撮影時刻がわかっており顔画像を利用して年齢を推定している顔画像を検索用の顔画像として準備する。
【０１３５】
なお、時刻推定部１６０は、顔画像に付与されているＥＸＩＦ情報、またはファイルのタイムスタンプを利用する方法などに基づいて撮影時刻を推定する。また、時刻推定部１６０は、図示しない操作入力により入力される時刻情報を撮影時刻として用いる構成であってもよい。
【０１３６】
映像検索装置１００は、入力された映像で検出された全ての顔画像と予め検索特徴情報管理部１３０に格納される検索用の個人の顔特徴情報との類似性を算出する。また、映像検索装置１００は、映像の任意の場所から順に処理を行い、所定の類似性が算出された最初の顔画像に対して年齢推定を行う。さらに映像検索装置１００は、検索用顔画像に対する年齢推定結果と、所定の類似性が算出された顔画像に対する年齢推定結果の差の平均値、または最頻値に基づいて、入力された映像の撮影時刻を逆算する。
図８に時刻推定処理の一例を示す。図８に示すように、検索特徴情報管理部１３０に格納されている検索用の顔画像は、予め年齢が推定されている。図８に示す例では、検索顔画像の人物は３５歳と推定されている。映像検索装置１００は、この状態において、入力画像から顔特徴を利用して同一人物を検索する。なお、同一人物を検索する方法は、第１の実施形態に記載した方法と同じ方法である。
【０１３７】
映像検索装置１００は、映像中から検出された全ての顔画像と検索用顔画像との類似度を算出する。ここで、映像検索装置１００は、予め設定される所定値以上の類似度が算出された顔画像に対して類似度「○」を付与し、所定値未満の類似度が算出された顔画像に対して類似度「×」を付与する。
【０１３８】
ここで、映像検索装置１００は、類似度が「○」である顔画像に基づいて、第１の実施形態に記載した方法と同様の方法を用いることにより、それぞれ年齢の推定を行う。さらに、映像検索装置１００は、算出された年齢の平均値を算出し、平均値と検索用顔画像から推定された年齢との差に基づいて、入力された映像の撮影時刻を示す時刻情報を推定する。なお、この方法では、映像検索装置１００は、算出された年齢の平均値を用いる構成として説明したが、中間値、最頻繁値、または他の値を用いる構成であってもよい。
【０１３９】
図８に示す例によると、算出された年齢が４０歳、４５歳、４４歳である。この為、平均値は４３歳であり、検索用顔画像との年齢差は８年である。即ち、映像検索装置１００は、入力画像が、検索用顔画像が撮影された２０００年から８年後の２００８年に撮影されたものだと判断する。
【０１４０】
年齢推定の精度によるが、年月日まで含めて８年後と判定する場合、映像検索装置１００は、例えば、入力される映像の撮影時刻を２００８年８月２３日と特定する。即ち、映像検索装置１００は、撮影日時を日付単位で推定することができる。
【０１４１】
また、映像検索装置１００は、図９に示すように、例えば最初に検出された１つの顔画像に基づいて年齢を推定し、推定した年齢と検索用画像の年齢とに基づいて撮影時刻を推定する構成であってもよい。この方法によると、映像検索装置１００は、より早く撮影時刻の推定を行うことができる。
【０１４２】
イベント検出部１２０は、第１の実施形態の同様の処理を行う。しかし、本実施形態では、映像に撮影時刻が付与されている。そこで、イベント検出部１２０は、フレーム情報だけでなく、撮影時刻を検出するイベントに関連付ける構成であってもよい。
【０１４３】
さらに、イベント検出部１２０は、レベル５の処理を行う場合、即ち、入力映像から特定の個人が写りこんでいるシーンの検出を行う場合、検索用顔画像の撮影時刻と、入力映像の撮影時刻との差を利用することにより推定年齢の絞込みを行う構成であってもよい。
【０１４４】
この場合、イベント検出部１２０は、図１０に示すように、検索用顔画像の撮影時刻と、入力映像の撮影時刻とに基づいて、検索する人物の入力映像が撮像された時刻における年齢を推定する。さらに、イベント検出部１２０は、入力映像から検出された人物が写りこんでいる複数のイベントにおいて、それぞれ人物の年齢を推定する。イベント検出部１２０は、入力映像から検出された人物が写りこんでいる複数のイベントのうち、検索用顔画像の人物の入力映像が撮像された時刻における年齢に近い人物が写り込んでいるイベントを検出する。
【０１４５】
図１０に示す例によると、検索用顔画像が２０００年に撮影されており、検索用顔画像の人物が３５歳と推定されている。また、入力映像は、２０１０年に撮影されたことがわかっている。この場合、イベント検出部１２０は、入力映像の時点における検索用顔画像の人物の年齢は、３５歳＋（２０１０年−２０００年）＝４５歳であると推定する。イベント検出部１２０は、検出された複数の人物のうち、推定された４５歳に近いと判断された人物が写り込んでいるイベントを検出する。
【０１４６】
例えば、イベント検出部１２０は、検索用顔画像の人物の入力映像が撮影された時点における年齢±αをイベント検出の対象とする。これにより、映像検索装置１００は、より漏れなくイベント検出を行うことができる。なお。このαの値は、ユーザによる操作入力に基づいて任意に設定してもよいし、予め基準値として設定されていてもよい。
【０１４７】
上記したように、本実施形態に係る映像検索装置１００は、入力映像から個人を検出するレベル５の処理において、入力映像が撮影された時刻を推定する。さらに、映像検索装置は、検索する人物の入力映像が撮影された時点における年齢を推定する。映像検索装置１００は、入力映像において人物が写り込んでいる複数のシーンを検出し、各シーンに写り込んでいる人物の年齢を推定する。映像検索装置１００は、検索する人物の年齢に近い年齢が推定された人物が写り込んでいるシーンを検出することができる。この結果、映像検索装置１００は、より高速に特定の人物が写り込んでいるシーンを検出することができる。
【０１４８】
本実施形態において、検索特徴情報管理部１３０は、人物の顔画像から抽出された特徴情報とともに、顔画像が撮影された時刻を示す時刻情報、及び顔画像が撮影された時点における年齢を示す情報などをさらに保持する。なお、年齢は、画像から推定されるものであってもよいし、ユーザによる入力されるものであってもよい。
【０１４９】
図１１は、映像検索装置１００により表示される画面の例について説明するための説明図である。
出力部１５０は、第１の実施形態における表示内容に映像の時刻を示す時刻情報２５をさらに含む出力画面１５１を出力する。映像の時刻情報を一緒に表示するようにする。また、出力画面１５１は、再生画面１３に表示されている画像に基づいて推定された年齢をさらに表示する構成であってもよい。これにより、ユーザは、再生画面１３に表示されている人物の推定年齢を認識することができる。
【０１５０】
なお、上述の各実施の形態で説明した機能は、ハードウエアを用いて構成するに留まらず、ソフトウエアを用いて各機能を記載したプログラムをコンピュータに読み込ませて実現することもできる。また、各機能は、適宜ソフトウエア、ハードウエアのいずれかを選択して構成するものであっても良い。
【０１５１】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【０１５２】
１００…映像検索装置、１１０…映像入力部、１２０…イベント検出部、１２１…抽出部、１２２…属性判別部、１２３…性別判別部、１２４…年代判別部、１３０…検索特徴情報管理部、１４０…イベント管理部、１５０…出力部、１５１…出力画面、１６０…時刻推定部。

【特許請求の範囲】
【請求項１】
映像が入力される映像入力部と、
前記映像入力部により入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定するイベント検出部と、
前記イベント検出部により検出されたイベントを前記レベル毎に保持するイベント管理部と、
前記イベント管理部により保持されているイベントをレベル毎に出力する出力部と、
を具備する映像検索装置。
【請求項２】
前記イベント検出部は、変動領域の存在するシーン、人物領域が存在するシーン、顔領域が存在するシーン、予め設定される属性に応じた人物が存在するシーン、及び予め設定される個人が存在するシーンのうちの少なくとも１つをイベントとして検出し、イベントとして検出するシーン毎に異なるレベルを判定する、請求項１に記載の映像検索装置。
【請求項３】
前記イベント検出部は、人物の年齢、性別、メガネの有無、メガネの種類、マスクの有無、マスクの種類、帽子の着用有無、帽子の種類、ひげ、ほくろ、しわ、怪我、髪型、髪の毛の色、服の色、服の形、帽子、装飾品、顔付近への着用物、表情、裕福度、及び人種のうちの少なくとも１つを属性として設定する、請求項２に記載の映像検索装置。
【請求項４】
前記イベント検出部は、連続するフレームからイベントを検出する場合、連続する複数のフレームを１つのイベントとして検出する請求項２に記載の映像検索装置。
【請求項５】
前記イベント検出部は、検出したイベントに含まれるフレームのうち、最も顔領域が大きいフレーム、人間の顔の向きが最も正面に近いフレーム、及び顔領域の画像のコントラストが最も大きなフレームのうちの少なくとも１つをベストショットとして選択する、請求項５に記載の映像検索装置。
【請求項６】
前記イベント検出部は、イベントを検出したフレームの前記入力映像における位置を示すフレーム情報をイベントに付与する、請求項２に記載の映像検索装置。
【請求項７】
前記出力部は、前記入力映像を表示する再生画面と、前記イベント管理部により保持されているイベントの前記入力映像における位置を示すイベントマークとを表示し、前記イベントマークが選択される場合、選択されたイベントマークに対応するイベントに付与されているフレーム情報が示すフレームから前記入力映像の再生を行う、請求項６に記載の映像検索装置。
【請求項８】
前記出力部は、前記イベント管理部により保持されているイベントに関する顔領域、上半身領域、全身領域、変動領域全体、及び全体のうちの少なくとも１つの領域の画像または映像として保存する、請求項２に記載の映像検索装置。
【請求項９】
前記イベント検出部は、
前記入力映像が撮影された時刻を推定し、
個人を検出する為の検索用顔画像が撮影された時刻と、前記検索用顔画像の撮影時刻における前記検索用顔画像の人物の年齢と、前記入力映像の撮影時刻とに基づいて、前記入力映像の撮影時刻における前記検索用顔画像の人物の第１の推定年齢を推定し、
前記入力映像に写り込んでいる人物の第２の推定年齢を推定し、
前記第１の推定年齢との差が予め設定される所定値未満である前記第２の推定年齢が推定された人物が写り込んでいるシーンをイベントとして検出する、
請求項２に記載の映像検索装置。
【請求項１０】
前記イベント検出部は、前記入力映像に画像として埋め込まれた時刻情報に基づいて前記入力映像が撮影された時刻を推定する、請求項９に記載の映像検索装置。
【請求項１１】
前記イベント検出部は、
前記入力映像に写り込む人物のうち、前記検索用顔画像との類似度が予め設定される所定値以上である少なくとも１人以上の人物の第３の推定年齢を推定し、
前記検索用顔画像が撮影された時刻と、前記検索用顔画像の撮影時刻における前記検索用顔画像の人物の年齢と、前記第３の推定年齢とに基づいて前記入力映像が撮影された時刻を推定する、
請求項９に記載の映像検索装置。
【請求項１２】
入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定し、
前記検出されたイベントを前記レベル毎に保持し、
前記保持されているイベントをレベル毎に出力する、
映像検索方法。

【図１】