映像検索装置、及び映像検索方法
【課題】より効率的に映像検索を行うことができる映像検索装置、及び映像検索方法を提供する。
【解決手段】一実施形態に係る映像検索装置は、映像が入力される映像入力部と、前記映像入力部により入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定するイベント検出部と、前記イベント検出部により検出されたイベントを前記レベル毎に保持するイベント管理部と、前記イベント管理部により保持されているイベントをレベル毎に出力する出力部と、を具備する。
【解決手段】一実施形態に係る映像検索装置は、映像が入力される映像入力部と、前記映像入力部により入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定するイベント検出部と、前記イベント検出部により検出されたイベントを前記レベル毎に保持するイベント管理部と、前記イベント管理部により保持されているイベントをレベル毎に出力する出力部と、を具備する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、映像検索装置、及び映像検索方法に関する。
【背景技術】
【0002】
複数地点に設置された複数のカメラにより取得された監視映像の中から所望の映像を検索する技術の開発が行われている。このような技術は、カメラから直接入力される映像、または記録装置に蓄積された映像の中から所望の映像を検索する。
【0003】
例えば、変化のある映像、人物が写りこんでいる映像を検出する技術がある。監視者は、検出された映像を視認することにより、所望の映像を特定する。しかし、変化のある映像、人物が写りこんでいる映像が多数検出される場合、検出された映像の視認に手間がかかる可能性がある。
【0004】
映像の視認を用意にするために、顔画像に対して属性情報を指摘して類似画像を検索する技術がある。たとえば、検索したい人物の顔の特徴を検索条件として指定することで、指定された特徴を有する顔画像をデータベースの中から検索する。
【0005】
また、顔画像について事前にデータベースに付与した属性(テキスト)を使って絞込みする技術もある。たとえば、顔画像以外に名前や会員ID、入会年月日をキーに検索をすることで高速に検索する。また、例えば、顔などのメインの生体情報以外の属性情報(身長・体重・性別・年齢など)を利用して認識辞書の絞込みを行う。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2006−318375号公報
【特許文献2】特開2007−310646号公報
【特許文献3】特開2000−090264号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、属性情報に該当する画像を検索する場合、辞書側と入力側とで撮影時刻が考慮されていない為に精度が劣るという課題がある。
【0008】
また、テキストの年齢情報を使って絞込する場合、予め検索対象側に属性情報(テキスト)を付与しておかないと絞込をすることができないという課題がある。
【0009】
そこで、本発明は、より効率的に映像検索を行うことができる映像検索装置、及び映像検索方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
一実施形態に係る映像検索装置は、映像が入力される映像入力部と、前記映像入力部により入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定するイベント検出部と、前記イベント検出部により検出されたイベントを前記レベル毎に保持するイベント管理部と、前記イベント管理部により保持されているイベントをレベル毎に出力する出力部と、を具備する。
【図面の簡単な説明】
【0011】
【図1】図1は、一実施形態に係る映像検索装置について説明するための説明図である。
【図2】図2は、一実施形態に係る映像検索装置について説明するための説明図である。
【図3】図3は、一実施形態に係る映像検索装置について説明するための説明図である。
【図4】図4は、一実施形態に係る映像検索装置について説明するための説明図である。
【図5】図5は、一実施形態に係る映像検索装置について説明するための説明図である。
【図6】図6は、一実施形態に係る映像検索装置について説明するための説明図である。
【図7】図7は、他の実施形態に係る映像検索装置について説明するための説明図である。
【図8】図8は、一実施形態に係る映像検索装置について説明するための説明図である。
【図9】図9は、一実施形態に係る映像検索装置について説明するための説明図である。
【図10】図10は、一実施形態に係る映像検索装置について説明するための説明図である。
【図11】図11は、一実施形態に係る映像検索装置について説明するための説明図である。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、一実施形態に係る映像検索装置、及び映像検索方法について詳細に説明する。
【0013】
(第1の実施形態)
図1は、一実施形態に係る映像検索装置100について説明するための説明図である。
図1に示すように、映像検索装置100は、映像入力部110、イベント検出部120、検索特徴情報管理部130、イベント管理部140、及び出力部150を備える。また、映像検索装置100は、ユーザの操作入力を受け付ける操作部などを備えていてもよい。
【0014】
映像検索装置100は、監視映像などの入力画像(動画または写真)から特定の人物が写りこんでいるシーン、または他の人物が写りこんでいるシーンなどを抽出する。映像検索装置100は、人物がいることを示す信頼度別にイベントを抽出する。これにより、映像検索装置100は、抽出したイベントを含むシーンにそれぞれ信頼度ごとにレベルを付与する。映像検索装置100は、抽出されたイベントのリストの一覧と映像とをリンクさせて管理することで、容易に所望の人物が存在するシーンを出力することができる。
【0015】
これにより、映像検索装置100は、現在手元にある人物の顔写真と同一の人物を検索することができる。また、映像検索装置100は、何か事故や犯罪が発生した場合の関連映像を検索することができる。さらに、映像検索装置100は、設置されている防犯カメラ映像の中から関連するシーンやイベントを検索することができる。
【0016】
映像入力部110は、カメラ、または映像を記憶する記憶装置などから出力される映像が入力される入力手段である。
【0017】
イベント検出部120は、入力された映像から変動領域、人物領域、顔領域、個人属性情報、または個人識別情報などのイベントを検出する。また、イベント検出部120は、映像における検出されたイベントのフレームの位置を示す情報(フレーム情報)を逐次取得する。
【0018】
検索特徴情報管理部130は、個人の情報、及び属性判別に利用する情報を格納する。
【0019】
イベント管理部140は、入力された映像と、検出されたイベントと、イベントの発生したフレーム情報とを関連付ける。出力部150は、イベント管理部140で管理されている結果を出力する。
【0020】
以下順に映像検索装置100の各部についての説明を行う。
映像入力部110は、撮影対象人物の顔画像を入力する。映像入力部110は、例えばindustrial television(ITV)カメラなどを備える。ITVカメラは、レンズにより受光される光学的な情報をA/D変換器によりディジタル化し、画像データとして出力する。これにより、映像入力部110は、イベント検出部120に画像データを出力することができる。
【0021】
また、映像入力部110は、デジタルビデオレコーダ(DVR)などの映像を記録する記録装置または記録媒体に記録されている映像が再生された映像が入力される入力端子などを備える構成であってもよい。即ち、映像入力部110は、ディジタル化された映像データを取得することができる構成であれば如何なる構成であってもよい。
【0022】
また、検索対象となるものは結果的に顔画像を含むディジタルの画像データであればよいので、デジタルスチルカメラで撮影した画像ファイルを媒体経由で取り込んでもかまわないし、スキャナを利用して紙媒体や写真からスキャンをしたディジタル画像でも構わない。この場合には大量に保存されている静止画の画像の中から該当する画像を検索するようなシーンが応用例としてあげられる。
【0023】
イベント検出部120は、映像入力部110から供給される映像、または複数枚の画像に基づいて、検出すべきイベントを検出する。また、イベント検出部120は、イベントを検出したフレームを示すインデックス(たとえばフレーム番号など)をフレーム情報として検出する。例えば、入力される画像が多数の静止画である場合、イベント検出部120は、静止画のファイル名をフレーム情報として検出してもよい。
【0024】
イベント検出部120は、例えば、所定以上の大きさで変動している領域が存在するシーン、人物が存在しているシーン、人物の顔が検出されているシーン、人物の顔が検出され特定の属性に該当する人物が存在しているシーン、及び人物の顔が検出され特定の個人が存在しているシーンをイベントとして検出する。しかし、イベント検出部120により検出されるイベントは上記のものに限定されない。イベント検出部120は、人物が存在していることを示すイベントであればどのように検出する構成であってもよい。
【0025】
イベント検出部120は、人物が写りこんでいる可能性があるシーンをイベントとして検出する。イベント検出部120は、人物に関する情報を多く得られるシーンから順にレベルを付加する。
【0026】
即ち、イベント検出部120は、所定以上の大きさで変動している領域が存在するシーンに対して最低レベルである「レベル1」を付与する。また、イベント検出部120は、人物が存在しているシーンに対して「レベル2」を付与する。また、イベント検出部120は、人物の顔が検出されているシーンに対して「レベル3」を付与する。また、イベント検出部120は、人物の顔が検出され特定の属性に該当する人物が存在しているシーンに対して「レベル4」を付与する。またさらに、イベント検出部120は、人物の顔が検出され特定の個人が存在しているシーンに対して最高レベルである「レベル5」を付与する。
【0027】
イベント検出部120は、下記の方法に基づいて、所定以上の大きさで変動している領域が存在するシーンを検出する。イベント検出部120は、例えば、特許公報P3486229、P3490196、及びP3567114などに示されている方法に基づいて所定以上の大きさで変動している領域が存在するシーンを検出する。
【0028】
即ち、イベント検出部120は、予め学習用として背景画像の輝度の分布を記憶し、映像入力部110から供給される映像と予め記憶された輝度分布とを比較する。イベント検出部120は、比較の結果、映像中において輝度分布と一致しない領域に「背景ではない物体が存在している」と判定する。
【0029】
また、本実施形態では、葉のゆらぎなどの周期的な変化が生じる背景を含む映像であっても、「背景ではない物体」を正しく検出することができる手法を採用することにより、汎用性を高めることができる。
【0030】
イベント検出部120は、検出された変動領域について、所定以上の輝度変化があった画素を抽出し、「変動あり=1」「変動なし=0」といった二値の画像にする。イベント検出部120は、「1」で示される画素の塊をラベリングなどで塊ごとに分類し、その塊の外接矩形のサイズ、または塊の内に含まれる変動画素の数に基づいて変動領域の大きさを算出する。イベント検出部120は、算出した大きさが予め設定される基準サイズより大きい場合「変動あり」と判断し、画像を抽出する。
【0031】
なお、変動領域が極端に大きい場合、イベント検出部120は、太陽が雲にかくれて急に暗くなった、近くの照明が点灯した、または他の偶発的な要因により画素の値が変化したと判断する。これにより、イベント検出部120は、人物などの移動物体が存在するシーンを正しく抽出することができる。
【0032】
また、イベント検出部120は、変動領域として判定するサイズに上限を設定しておくことによっても、人物などの移動物体が存在するシーンを正しく抽出することができる。 例えば、イベント検出部120は、人間のサイズの分布を想定したサイズの上限と下限のしきい値を設定することによってさらに精度よく人物が存在するシーンを抽出することができる。
【0033】
イベント検出部120は、下記の方法に基づいて、人物が存在しているシーンを検出する。イベント検出部120は、例えば、人物の全身の領域を検出する技術(Watanabeら,”Co-occurrence Histograms of Oriented Gradients for Pedestrian Detection, In Proceedings of the 3rd Pacific-Rim Symposium on Image and Video Technology” (PSIVT2009), pp. 37-47.)を利用することで人物が存在しているシーンを検出することができる。
【0034】
この場合、イベント検出部120は、例えば、人物が存在する場合の輝度勾配情報の分布がどのようにあらわれるかを複数の局所領域での共起性を利用して求めている。人物が存在している場合、その人物の上半身領域を矩形情報として算出することができる。
【0035】
イベント検出部120は、入力された映像の中に人物が存在している場合、そのフレームをイベントとして検出する。この方法によると、イベント検出部120は、画像中に人物の顔が映りこんでいない場合、または顔を認識できるのに充分な解像度でない場合であっても人物が存在するシーンを検出することができる。
【0036】
イベント検出部120は、下記の方法に基づいて、人物の顔が検出されているシーンを検出する。イベント検出部120は、入力画像内において、予め用意されたテンプレートを画像内で移動させながら相関値を算出する。イベント検出部120は、最も高い相関値が算出された領域を顔領域と特定する。これにより、イベント検出部120は、人物の顔が映りこんでいるシーンを検出することができる。
【0037】
また、イベント検出部120は、固有空間法、または部分空間法などを利用して顔領域を検出する構成であってもよい。また、イベント検出部120は、検出された顔領域の画像の中から、目、鼻などの顔部位の位置を検出する。イベント検出部120は、例えば、文献(福井和広、山口修:「形状抽出とパターン照合の組合せによる顔特徴点抽出」, 電子情報通信学会論文誌(D),vol.J80-D-II,No.8,pp2170--2177(1997))などに記載されている方法により顔のパーツを検出することができる。
【0038】
なお、イベント検出部120は、1枚の画像の中から1つの顔領域(顔特徴)を検出する場合、全画像に対してテンプレートとの相関値を求め最大となる位置とサイズを出力する。また、イベント検出部120は、1枚の画像の中から複数の顔特徴を検出する場合、画像全体に対する相関値の局所最大値を求め、一枚の画像内での重なりを考慮して顔の候補位置を絞り込む。さらに、イベント検出部120は、最後は連続して入力された過去の画像との関係性(時間的な推移)を考慮し、最終的に複数の顔特徴を同時に検出することができる。
【0039】
また、イベント検出部120は、人物がマスク、サングラス、または帽子などを着用している場合でも顔領域を検出することができるように、予め人物がマスク、サングラス、または帽子などを着用している場合の顔パターンをテンプレートとして記憶しておく構成であってもよい。
【0040】
また、イベント検出部120は、顔の特徴点の検出をする際に、顔の特徴点のすべての点が検出できない場合、一部の顔特徴点の評価値に基づいて処理を行う。即ち、イベント検出部120は、一部の顔特徴点の評価値が予め設定される基準値以上である場合、二次元平面、または三次元的な顔のモデルを利用して検出された特徴点から残りの特徴点を推測することができる。
【0041】
また、特徴点がまったく検出できない場合、イベント検出部120は、顔全体のパターンを予め学習することにより、顔全体の位置を検出し、顔全体の位置から顔特徴点を推測することができる。
【0042】
なお、複数の顔が画像内に存在する場合、イベント検出部120は、どの顔を検索対象とするかの指示を後述の検索条件設定手段や出力手段で指定するようにしてもよい。また、イベント検出部120は、上記の処理により求められた顔らしさの指標の順番に自動的に検索対象を選択し、出力する構成であってもよい。
【0043】
なお、ここで連続したフレームにわたって同一人物が映っている場合、それぞれが別々のイベントとして管理されるよりも、「同一の人物が映っているひとつのイベント」として扱えたほうが都合がよい場合が多い。
【0044】
そこで、イベント検出部120は、人物が普通に歩行している場合に連続するフレームでどのあたりに移動するかの統計情報をもとに確率を算出し、もっとも確率が高くなる組合せを選択して連続して発生するイベントの対応付けを行うことができる。これにより、イベント検出部120は、複数のフレーム間に同一人物が写りこんでいるシーンを1つのイベントとして認識することができる。
【0045】
また、イベント検出部120は、フレームレートが高い場合、オプティカルフローを利用するなどしてフレーム間における人物領域または顔の領域を対応付けることにより、複数のフレーム間に同一人物が写りこんでいるシーンを1つのイベントとして認識することができる。
【0046】
さらに、イベント検出部120は、複数のフレーム(対応付けられた画像群)から「ベストショット」を選択することができる。ベストショットは、複数の画像の中からもっとも人物の視認に適した画像である。
【0047】
イベント検出部120は、検出したイベントに含まれるフレームのうち、最も顔領域が大きいフレーム、人間の顔の向きが最も正面に近いフレーム、顔領域の画像のコントラストが最も大きなフレーム、及び顔らしさを示すパターンとの類似性がもっとも高いフレームのうちの少なくとも1つまたは複数の指標を考慮した値がもっとも高いフレームをベストショットとして選択する。
【0048】
また、イベント検出部120は、人間の目でみて見やすい画像、または認識処理に向いている画像などをベストショットとして選択する構成であってもよい。これらのベストショットを選択するための選択基準は、ユーザの任意に基づいて自由に設定することができる。
【0049】
イベント検出部120は、下記の方法に基づいて、特定の属性に該当する人物が存在しているシーンを検出する。まずイベント検出部120は、上記の処理により検出された顔領域の情報を利用して人物の属性情報を特定するための特徴情報を計算する。
【0050】
本実施例で説明する属性情報は、年齢、性別、眼鏡の種類、マスク種類、帽子の種類などの5種類として説明するが、イベント検出部120は、他の属性情報を用いる構成であってもよい。例えば、イベント検出部120は、人種、眼鏡の有無(1か0かの情報)、マスクの有無(1か0かの情報)、帽子の有無(1か0かの情報)、顔への装着品(ピアス、イヤリングなど)、服装、表情、肥満度、裕福度などを属性情報として用いる構成であってもよい。イベント検出部120は、予め後述する属性判定方法を用いて属性毎にパターンの学習をすることにより、如何なる特徴であっても属性として用いることができる。
【0051】
イベント検出部120は、顔領域の画像から顔特徴を抽出する。イベント検出部120は、例えば、部分空間法などを用いることにより顔特徴を算出することができる。
【0052】
なお、顔特徴と属性情報とを比較して人物の属性を判断する場合、属性毎に顔特徴の算出方法が異なる場合がある。そこで、イベント検出部120は、比較する属性情報に応じた算出方法を用いて顔特徴を算出する構成であってもよい。
【0053】
例えば、年齢及び性別などの属性情報と比較する場合、イベント検出部120は、年齢、及び性別のそれぞれに適した前処理を適用することでより高い精度で属性を判別することができる。
【0054】
通常、人物の顔は、年齢が高くなるほどしわが増えてくる。そこで、イベント検出部120は、例えば、しわを強調する線分強調フィルタを顔領域の画像に対して複合することにより、より高い精度で人物の属性(年代)を判別することができる。
【0055】
また、イベント検出部120は、性別特有の部位(例えばひげなど)が強調される周波数成分を強調するフィルタを顔領域の画像に対して複合する、または、骨格情報が強調されるようなフィルタを顔領域の画像に対して複合する。これにより、イベント検出部120は、より高い精度で人物の属性(性別)を判別することができる。
【0056】
また、イベント検出部120は、たとえば、顔検出処理によって求められた顔の部位の位置情報から目、目じり、または目頭の位置を特定する。これにより、イベント検出部120は、両目付近の画像を切り出し、切り出した画像を部分空間の計算対称とすることにより、眼鏡に関する特徴情報を得ることができる。
【0057】
また、イベント検出部120は、たとえば、顔検出処理によって求められた顔の部位の位置情報から口と鼻の位置を特定する。これにより、イベント検出部120は、特定した口と鼻の位置の画像を切り出し、切り出した画像を部分空間の計算対称とすることにより、マスクに関する特徴情報を得ることができる。
【0058】
また、イベント検出部120は、たとえば、顔検出処理によって求められた顔の部位の位置情報から目、及び眉の位置を特定する。これにより、イベント検出部120は、顔の肌領域の上端を特定することができる。さらに、イベント検出部120は、特定した顔の頭部領域の画像を切り出し、切り出した画像を部分空間の計算対称とすることにより、防止に関する特徴情報を得ることができる。
【0059】
上記したように、イベント検出部120は、眼鏡、マスク、及び帽子などを顔の位置から特定して特徴情報を抽出することができる。即ち、イベント検出部120は、顔の位置から推定可能な位置に存在する属性であれば如何なる物であっても特徴情報を抽出することができる。
【0060】
また、人物が着用している着用物を直接的に検出するアルゴリズムも一般的に実用化されている。イベント検出部120は、そのような手法を用いることにより特徴情報を抽出する構成であってもよい。
【0061】
また、眼鏡、マスク、及び帽子などが人物により着用されていない場合、イベント検出部120は、顔の肌の情報をそのまま特徴情報として抽出する。この為、眼鏡、マスク、及びサングラスなどの属性は、それぞれ異なる特徴情報が抽出される。即ち、イベント検出部120は、眼鏡、マスク、及びサングラスなどの属性を特に分類して特徴情報を抽出しなくてもよい。
【0062】
なお、眼鏡、マスク、及び帽子などが人物により着用されていない場合、イベント検出部120は、着用していないことを示す特徴情報を区別して抽出する構成であってもよい。
【0063】
さらに、イベント検出部120は、属性を判別するための特徴情報を算出した後、後述の検索特徴情報管理部130により記憶されている属性情報と比較を行う。これにより、イベント検出部120は、入力された顔画像の人物の性別、年代、眼鏡、マスク、及び帽子などの属性を判別する。なお、イベント検出部120は、人物の年齢、性別、メガネの有無、メガネの種類、マスクの有無、マスクの種類、帽子の着用有無、帽子の種類、ひげ、ほくろ、しわ、怪我、髪型、髪の毛の色、服の色、服の形、帽子、装飾品、顔付近への着用物、表情、裕福度、及び人種のうちの少なくとも1つをイベントの検出に用いる属性として設定する。
【0064】
イベント検出部120は、判別した属性をイベント管理部140に出力する。具体的には、イベント検出部120は、図2に示すように、抽出部121、及び属性判別部122を備える。抽出部121は、上記したように、登録画像(入力画像)における所定の領域の特徴情報を抽出する。例えば、顔領域を示す顔領域情報と入力画像とが入力される場合、抽出部121は、入力画像における顔領域情報が示す領域の特徴情報を算出する。
【0065】
属性判別部122は、抽出部121により抽出された特徴情報と予め検索特徴情報管理部130に格納される属性情報とに基づいて、入力画像の人物の属性を判別する。属性判別部122は、抽出部121により抽出された特徴情報と予め検索特徴情報管理部130に格納される属性情報との類似度を算出することにより、入力画像の人物の属性を判別する。
【0066】
属性判別部122は、例えば、性別判別部123と年代判別部124とを備える。属性判別部122は、さらなる属性を判別するための判別部を備えていてもよい。例えば、属性判別部122は、眼鏡、マスク、または帽子などの属性を判別する判別部を備えていても良い。
【0067】
例えば、検索特徴情報管理部130は、男性の属性情報と女性の属性情報とを予め保持している。性別判別部123は、検索特徴情報管理部130により保持されている男性の属性情報及び女性の属性情報と、抽出部121により抽出された特徴情報とに基づいてそれぞれ類似度を算出する。性別判別部123は、算出された類似度の高いほうを入力画像に対する属性判別の結果として出力する。
【0068】
例えば、性別判別部123は、特開2010−044439号公報に記載されているように、顔の局所的な勾配特徴の発生頻度を統計情報として保持する特徴量を利用する。即ち、性別判別部123は、統計情報がもっとも男女を識別するような勾配特徴を選別し、その特徴を識別する識別器を学習によって算出し、男女のような2クラスを判別する。
【0069】
また、性別判別のように属性が2クラスではなく、年齢推定のように3クラス以上である場合、検索特徴情報管理部130は、各クラス(ここでは年代)で平均的な顔特徴の辞書(属性情報)を予め保持する。年代判別部124は、検索特徴情報管理部130により保持されている各年代毎の属性情報と、抽出部121により抽出された特徴情報との類似度を算出する。年代判別部124は、最も高い類似度の算出に用いられた属性情報に基づいて、入力画像の人物の年代を判別する。
【0070】
また、さらに高い精度で年代を推定する技術として、前述の2クラス判別器を利用した以下の手法がある。
【0071】
まず、検索特徴情報管理部130は、年齢を推定するために事前に識別したい年齢ごとの顔画像を予め保持する。たとえば、10歳から60歳前後までの年代の判別を行う場合、検索特徴情報管理部130は、10歳未満から60歳以上までの顔画像をあらかじめ保持する。ここでは、検索特徴情報管理部130が保持する顔画像の枚数が多くなるほど、年代判別の精度を向上させることができる。さらに、検索特徴情報管理部130は、幅広い年代の顔画像を予め保持することにより、判別できる年齢を広げることができる。
【0072】
次に、検索特徴情報管理部130は、「基準年齢より上か下か」の判別をするための識別器を準備する。検索特徴情報管理部130は、線形判別分析などを用いて2クラスの判別をイベント検出部120に行わせることができる。
【0073】
また、イベント検出部120及び検索特徴情報管理部130は、サポートベクターマシン(Support Vector Machine)などの手法を用いる構成であってもよい。なお、以下サポートベクターマシンをSVMと称する。SVMでは、2クラスを判別する為の境界条件を設定し、設定された境界からの距離にあるかを算出することができる。これにより、イベント検出部120及び検索特徴情報管理部130は、基準とする年齢N歳より上の年齢に属する顔画像と、下の年齢に属する顔画像とを分類することができる。
【0074】
たとえば、30歳を基準年齢としたときに、検索特徴情報管理部130は、30歳より上か下かを判別するための画像群を予め保持する。例えば、検索特徴情報管理部130には、30歳以上を含む画像が正のクラス「30歳以上」の画像として入力される。また、検索特徴情報管理部130には、負のクラス「30歳未満」の画像が入力される。検索特徴情報管理部130は、入力された画像に基づいて、SVM学習を行う。
【0075】
上記した方法により、検索特徴情報管理部130は、基準年齢を10歳から60歳までずらしながら辞書の作成を行う。これにより、検索特徴情報管理部130は、例えば図3に示すように、「10歳以上」、「10歳未満」、「20歳以上」、「20歳未満」、・・・「60歳以上」、「60歳未満」の年代判別用の辞書を作成する。年代判別部124は、検索特徴情報管理部130により格納されている複数の年代判別用の辞書と入力画像とに基づいて入力画像の人物の年代を判別する。
【0076】
検索特徴情報管理部130は、基準年齢を10歳から60歳までずらしながら準備した年代判別用の辞書の画像を基準年齢にあわせて二つに分類する。これにより、検索特徴情報管理部130は、SVMの学習器を基準年齢の数に応じて準備することができる。なお、本実施例では、検索特徴情報管理部130は、10歳から60歳まで6個の学習器を準備する。
【0077】
検索特徴情報管理部130は、「X歳以上」とするクラスを「正」のクラスとして学習することで、「基準年齢より年齢が上の画像が入力されると指標はプラスの値を返す」ようになる。この判別処理を基準年齢を10歳から60歳までずらしながら実行していくことにより、基準年齢に対して上か下かの指標を得ることができる。また、この出力された指標の中で、もっとも指標がゼロに近いところが出力すべき年齢に近いことになる。
【0078】
ここで年齢の推定方法を図4に示す。イベント検出部120の年代判別部124は、各基準年齢に対するSVMの出力値を算出する。さらに、年代判別部124は、縦軸を出力値、横軸を基準年齢として出力値をプロットする。このプロットに基づいて年代判別部124は、入力画像の人物の年齢を特定することができる。
【0079】
例えば、年代判別部124は、出力値が最もゼロに近いプロットを選択する。図4に示す例によると、基準年齢30歳がもっともゼロに近い。この場合、年代判別部124は、「30代」を入力画像の人物の属性として出力する。また、プロットが不安定に上下に変動する場合、年代判別部124は、隣接する基準年齢との移動平均を算出することにより、安定して年代を判別することができる。
【0080】
また、例えば、年代判別部124は、隣り合う複数のプロットに基づいて近似関数を算出し、算出された近似関数の出力値が0である場合の横軸の値を推定年齢として特定する構成であってもよい。図4に示す例によると、年代判別部124は、プロットに基づいて直線の近似関数を算出することにより交点を特定し、特定した交点からおよそ33歳という年齢を特定することができる。
【0081】
また、年代判別部124は、部分集合(たとえば隣接する3つの基準年齢に対するプロット)に基づいて近似関数を算出するのではなく、全てのプロットに基づいて近似関数を算出する構成であってもよい。この場合、より近似誤差が少ない近似関数を算出することができる。
【0082】
また、年代判別部124は、所定の変換関数を通して得られた値でクラスを判別する構成であってもよい。
【0083】
また、イベント検出部120は、下記の方法に基づいて、特定の個人が存在しているシーンを検出する。まずイベント検出部120は、上記の処理により検出された顔領域の情報を利用して人物の属性情報を特定するための特徴情報を計算する。また、この場合、検索特徴情報管理部130は、個人を特定する為の辞書を備える。この辞書は、特定する個人の顔画像から算出された特徴情報などを有する。
【0084】
イベント検出部120は、検出された顔の部品の位置をもとに、顔領域を一定の大きさ、形状に切り出し、その濃淡情報を特徴量として用いる。ここでは、イベント検出部120は、mピクセル×nピクセルの領域の濃淡値をそのまま特徴情報として用い、m×n次元の情報を特徴ベクトルとして用いる。
【0085】
また、イベント検出部120は、入力画像から抽出された特徴情報と、検索特徴情報管理部130により保持されている個人の特徴情報とに基づいて部分空間法を用いることにより処理する。即ち、イベント検出部120は、単純類似度法によりベクトルとベクトルの長さをそれぞれ1とするように正規化を行い、内積を計算することで特徴ベクトル間の類似性を示す類似度を算出する。
【0086】
また、イベント検出部120は、1枚の顔画像情報に対してモデルを利用して顔の向きや状態を意図的に変動させた画像を作成する手法を適用してもよい。上記の処理により、イベント検出部120は、1枚の画像から顔の特徴を求めることができる。
【0087】
また、イベント検出部120は、同一人物から時間的に連続して取得された複数の画像を含む動画像に基づいてより高い精度で人物の認識を行うことができる。例えば、イベント検出部120は文献(福井和広、山口修、前田賢一:「動画像を用いた顔認識システム」電子情報通信学会研究報告PRMU,vol97,No.113,pp17-24(1997)に記載されている相互部分空間法を用いる構成であってもよい。
【0088】
この場合、イベント検出部120は、動画像から上記の特徴抽出処理と同様にm×nピクセルの画像を切り出し、切り出したデータに基づいて特徴ベクトルの相関行列を求め、K−L展開により正規直交ベクトルを求める。これにより、イベント検出部120は、連続した画像から得られる顔の特徴を示す部分空間を計算することができる。
【0089】
部分空間の計算法によると、特徴ベクトルの相関行列(または共分散行列)が算出され、そのK−L展開による正規直交ベクトル(固有ベクトル)が算出され、部分空間が算出される。部分空間は、固有値に対応する固有ベクトルを、固有値の大きな順にk個選び、その固有ベクトル集合を用いて表現する。本実施例では、相関行列Cdを特徴ベクトルから求め、相関行列Cd =Φd Λd Φd T と対角化して、固有ベクトルの行列Φを求める。この情報が現在認識対象としている人物の顔の特徴を示す部分空間となる。
【0090】
このような方法で出力された部分空間のような特徴情報を入力された画像で検出された顔に対する個人の特徴情報とする。イベント検出部120は、顔特徴抽出手段で計算された入力画像に対する顔特徴情報と、事前に複数の顔が登録されている検索特徴情報管理部130の中の顔特徴情報との類似性を示す計算を行ってより類似性の高いものから順番に結果を返す処理を行う。
【0091】
この際に検索処理の結果としては類似性の高いものから順番に検索特徴情報管理部130内で個人を識別するために管理されている人物、ID、計算結果である類似性を示す指標を返す。それに加えて検索特徴情報管理部130で個人ごとに管理されている情報を一緒に返すようにしてもかまわない。しかし、基本的に識別IDにより対応付けが可能であるので、検索処理において付属情報を用いる必要はない。
【0092】
類似性を示す指標としては、顔特徴情報として管理されている部分空間同士の類似度が用いられる。計算方法は、部分空間法、複合類似度法、または他の方法であってもよい。この方法では、予め蓄えられた登録情報の中の認識データも、入力されるデータも複数の画像から計算される部分空間として表現され、2つの部分空間のなす「角度」を類似度として定義される。
【0093】
ここで入力される部分空間を入力手段分空間という。イベント検出部120は、入力データ列に対して同様に相関行列Cinを求め、Cin=ΦinΛinΦinT と対角化し、固有ベクトルΦinを求める。イベント検出部120は、二つのΦin,Φd で表される部分空間の部分空間類似度(0.0〜1.0)を求める。イベント検出部120は、この類似度を個人を認識する為の類似度として用いる。
【0094】
また、イベント検出部120は、あらかじめ同一人物と分かる複数の顔画像をまとめて部分空間へ射影することによって、本人であるかどうかを識別する構成であってもよい。この場合、個人認識の精度を向上させることができる。
【0095】
検索特徴情報管理部130は、イベント検出部により各種のイベントを検出する処理に用いられる種々の情報を保持する。上記したように、検索特徴情報管理部130は、個人、人物の属性などを判別するために必要な情報を保持する。
【0096】
検索特徴情報管理部130は、例えば、個人ごとの顔特徴情報、および属性毎の特徴情報(属性情報)などを保持する。また、検索特徴情報管理部130は、属性情報を同一の人物ごとに対応付けて保持することもできる。
【0097】
検索特徴情報管理部130は、顔特徴情報および属性情報として、イベント検出部120と同様の方法により算出される各種の特徴情報を保持する。例えば、検索特徴情報管理部130は、m×nの特徴ベクトル、部分空間、またはKL展開を行う直前の相関行列などを特徴情報として保持する。
【0098】
なお、個人を特定する為の特徴情報は、事前に準備できない場合が多い。この為、当該映像検索装置100に入力される写真、または動画像などから人物を検出し、検出した人物の画像に基づいて上記した方法により特徴情報を算出し、算出された特徴情報を検索特徴情報管理部130に格納する構成であってもよい。この場合、検索特徴情報管理部130は、特徴情報と、顔画像と、識別IDと、図示しない操作入力部などにより入力される名前などを対応付けて格納する。
【0099】
なお、検索特徴情報管理部130は、事前に設定されるテキスト情報に基づいて、別の付帯情報、または属性情報などを特徴情報に対応付けて格納する構成であってもよい。
【0100】
イベント管理部140は、イベント検出部120により検出されたイベントに関する情報を保持する。例えば、イベント管理部140は、入力された映像情報をそのまま、またはダウンコンバートされた状態で記憶する。また、イベント管理部140は、映像情報がDVRのような機器から入力されている場合、該当する映像へのリンク情報を記憶する。これにより、イベント管理部140は、任意のシーンの再生が指示された場合に指示されたシーンを容易に検索することができる。これにより、映像検索装置100は、任意のシーンを再生することができる。
【0101】
図5は、イベント管理部140により格納されている情報の例について説明するための説明図である。
【0102】
図5に示すように、イベント管理部140は、イベント検出部120により検出されたイベントの種類(上記のレベルに相当)、検知された物体が写り込んでいる座標を示す情報(座標情報)、属性情報、個人を識別する為の識別情報、及び映像におけるフレームを示すフレーム情報などを対応付けて保持する。
【0103】
イベント管理部140は、上記したように、同一人物が連続して写り込んでいる複数のフレームをグループとして管理する。また、この場合、イベント管理部140は、ベストショット画像を1枚選択して代表画像として保持する。例えば、イベント管理部140は、顔領域が検出されている場合、顔領域がわかる顔画像をベストショットとして保持する。
【0104】
また、人物領域が検出されている場合、イベント管理部140は、人物領域の画像をベストショットとして保持する。この場合、イベント管理部140は、例えばもっとも人物領域が大きく写っている画像、左右対称性から人物が正面向きに近いと判断される画像などをベストショットとして選択する。
【0105】
また、イベント管理部140は、変動領域が検出されている場合、例えば、変動している量がもっとも大きい画像、変動はしているが変動量が少なくて安定している画像のいずれかをベストショットとして選択する。
【0106】
また、上記したように、イベント管理部140は、イベント検出部120により検出されたイベントを「人物らしさ」でレベル分けする。即ち、イベント管理部140は、所定以上の大きさで変動している領域が存在するシーンに対して最低レベルである「レベル1」を付与する。また、イベント管理部140は、人物が存在しているシーンに対して「レベル2」を付与する。また、イベント管理部140は、人物の顔が検出されているシーンに対して「レベル3」を付与する。また、イベント管理部140は、人物の顔が検出され特定の属性に該当する人物が存在しているシーンに対して「レベル4」を付与する。またさらに、イベント管理部140は、人物の顔が検出され特定の個人が存在しているシーンに対して最高レベルである「レベル5」を付与する。
【0107】
レベル1に近づくほど、「人物が存在しているシーン」としての検出漏れが少なくなる。しかし、過剰検出が増えるほか、特定の人物のみに絞り込むという精度は低くなる。また、レベル5に近づくほど特定の人物に絞り込んだイベントが出力される。しかし、一方で検出漏れも増えることになる。
【0108】
図6は、映像検索装置100により表示される画面の例について説明するための説明図である。
出力部150は、イベント管理部140により格納されている情報にもとづいて、図6に示すような出力画面151を出力する。
【0109】
出力部150により出力される出力画面151は、映像切り替えボタン11、検出設定ボタン12、再生画面13、コントロールボタン14、タイムバー15、イベントマーク16、及びイベント表示設定ボタン17などの表示を含む。
【0110】
映像切り替えボタン11は、処理対象の映像を切り替えるためのボタンである。この実施例では、映像ファイルを読み込んでいる例について説明する。この場合、映像切り替えボタン11には、読み込まれた映像ファイルのファイル名が表示される。なお、上記したように、本装置により処理される映像は、カメラから直接入力される映像であってもよいし、フォルダ内の静止画一覧でも良い。
【0111】
検出設定ボタン12は、対象となる映像から検出する際の設定を行う。たとえば、レベル5(個人識別)を行う場合、検出設定ボタン12が操作される。この場合、検出設定ボタン12には、検索対象となる個人の一覧が表示される。また、表示された個人の一覧から、削除、編集、新規な検索対象者の追加などを行うような構成であってもよい。
【0112】
再生画面13は、対象となる映像を再生する画面である。映像の再生処理は、コントロールボタン14により制御される。例えば、コントロールボタン14は、図6の左から順に「前のイベントまでスキップ」、「巻き戻し高速再生」、「逆再生」、「逆コマ送り」、「一時停止」、「コマ送り」、「再生」、「早送り高速再生」、「次のイベントまでスキップ」などの操作を意味するボタンを有する。なお、コントロールボタン14は、他の機能を有するボタンが追加してもよいし、不要なボタンを削除してもよい。
【0113】
タイムバー15は、映像全体の再生位置を示す。タイムバー15は、現在の再生位置を示すスライダを有する。映像検索装置100は、スライダが操作される場合、再生位置を変更するように処理を行う。
【0114】
イベントマーク16は、検出されたイベントの位置をマークしたものである。イベントマーク16のマークの位置は、タイムバー15の再生位置に対応する。コントロールボタン14の「前のイベントまでスキップ」、または「次のイベントまでスキップ」が操作される場合、映像検索装置100は、タイムバー15のスライダの前後に存在するイベントの位置までスキップする。
【0115】
イベント表示設定ボタン17は、レベル1からレベル5までのチェックボックスの表示を有する。ここでチェックされているレベルに対応するイベントがイベントマーク16に表示される。即ち、ユーザは、イベント表示設定ボタン17を操作することにより、不要なイベントを表示からはずすことができる。
【0116】
また、出力画面151は、ボタン18、ボタン19、サムネイル20乃至23、及び保存ボタン24などの表示をさらに有する。
【0117】
サムネイル20乃至23は、イベントの一覧表示である。サムネイル20乃至23には、それぞれ、各イベントにおけるベストショット画像、フレーム情報(フレーム番号)、イベントのレベル、及びイベントに関する補足情報などが表示される。なお、映像検索装置100は、人物領域または顔領域がそれぞれのイベントにおいて検出されている場合、検出された領域の画像をサムネイル20乃至23として表示する構成であってもよい。なお、サムネイル20乃至23には、タイムバー15におけるスライダの位置に近いイベントが表示される。
【0118】
映像検索装置100は、ボタン18またはボタン19が操作される場合、サムネイル20乃至23を切り替える。例えば、ボタン18が操作される場合、映像検索装置100は、現在表示されているイベントより前に存在するイベントに関するサムネイルを表示する。
【0119】
また、例えば、ボタン19が操作される場合、映像検索装置100は、現在表示されているイベントより後に存在するイベントに関するサムネイルを表示する。なお、再生画面13により再生されているイベントに対応するサムネイルには、図6に示すように縁取りが施されて表示される。
【0120】
また、映像検索装置100は、表示されているサムネイル20乃至23がダブルクリックなどにより選択される場合、選択されたイベントの再生位置までスキップして再生画面13に表示する。
【0121】
保存ボタン24は、イベントの画像または動画を保存するためのボタンである。保存ボタン24が選択される場合、映像検索装置100は、表示されているサムネイル20乃至23のうちの選択されているサムネイルに対応するイベントの映像を図示しない記憶部に記憶することができる。
【0122】
なお、映像検索装置100は、イベントを画像として保存する場合、保存する画像を「顔領域」、「上半身領域」、「全身領域」、「変動領域全体」、及び「画像全体」の画像のうちから操作入力に応じて選択して保存することができる。この場合、映像検索装置100は、フレーム番号、ファイル名、及びテキストファイルなどを出力する構成であってもよい。映像検索装置100は、映像ファイル名と拡張子の異なるファイル名をテキストのファイル名として出力する。また、映像検索装置100は、関連情報をすべてテキストに出力してもよい。
【0123】
また、映像検索装置100は、イベントがレベル1の動画である場合、連続して変動が続いている時間の映像を動画ファイルとして出力する。また、映像検索装置100は、イベントがレベル2以上の動画である場合、同一人物が複数のフレーム間にわたって対応付けできている範囲の映像を動画ファイルとして出力する。
【0124】
ここで出力されたファイルについては、映像検索装置100は、目視できるようにエビデンス画像・映像として保存をすることができる。また、映像検索装置100は、事前に登録された人物との照合を行うシステムなどへの出力することもできる。
【0125】
上記したように、映像検索装置100は、監視カメラ映像、または記録された映像を入力し、人物が写っているシーンを動画像に関連付けて抽出する。この場合、映像検索装置100は、抽出したイベントに対して、人物がいることを示す信頼度に応じてレベルを付与する。さらに、映像検索装置100は、抽出されたイベントのリストの一覧と映像をリンクして管理する。これにより、映像検索装置100は、ユーザ所望の人物の写り込んでいるシーンを出力することが可能である。
【0126】
例えば、映像検索装置100は、まずは信頼度の高いレベル5のイベントを出力し、次にレベル4のイベントを出力することにより、ユーザに容易に検出された人物の画像を視聴させることができる。さらに、映像検索装置100は、レベル3からレベル1まで順にレベルを切り替えながらイベントの表示を行うことにより、映像全体のイベントを漏れなくユーザに市長させることができる。
【0127】
(第2の実施形態)
以下第2の実施形態について説明する。なお、第1の実施形態と同様の構成には同じ参照符号を付し、その詳細な説明を省略する。
【0128】
図7は、第2の実施形態に係る映像検索装置100の構成について説明する為の説明図である。映像検索装置100は、映像入力部110、イベント検出部120、検索特徴情報管理部130、イベント管理部140、出力部150、及び時刻推定部160を具備する。
【0129】
時刻推定部160は、入力された映像の時刻を推定する。時刻推定部160は、入力された映像が撮像された時刻を推定する。時刻推定部160は、推定した時刻を示す情報(時刻情報)を映像入力部110に入力される映像に付与し、イベント検出部120に出力する。
【0130】
映像入力部110は、第一の実施形態と同様の構成であるが、本実施形態では、さらに映像の撮影時刻を示す時刻情報を入力する。映像入力部110お呼び時刻推定部160は、例えば、映像がファイルである場合、ファイルのタイムスタンプ及びフレームレートなどに基づいて、映像におけるフレームと時刻との対応付けを行うことができる。
【0131】
また、監視カメラ用の映像記録装置(DVR)では、映像内に時刻情報が画像として埋め込まれていることが多い。そこで、時刻推定部160は、映像中に埋め込まれている時刻を示す数字を文字認識で認識することにより、時刻情報を生成することができる。
【0132】
また、時刻推定部160は、カメラから直接入力されるリアルタイムクロックから得られる時刻情報を使って現在の時刻を取得することもできる。
【0133】
また、映像ファイルに時刻を示す情報を含むメタファイルが付随している場合がある。この場合、時刻推定部160は、と別に字幕情報用のファイルとして外部メタファイルで各フレームと時刻の関係を示す情報を与える方法もあるため、その外部メタファイルを読み込むことにより時刻情報を取得することも可能である。
【0134】
また、映像検索装置100は、映像の時刻情報が映像と同時に与えられなかった場合、あらかじめ撮影時刻と年齢が与えられている顔画像、または撮影時刻がわかっており顔画像を利用して年齢を推定している顔画像を検索用の顔画像として準備する。
【0135】
なお、時刻推定部160は、顔画像に付与されているEXIF情報、またはファイルのタイムスタンプを利用する方法などに基づいて撮影時刻を推定する。また、時刻推定部160は、図示しない操作入力により入力される時刻情報を撮影時刻として用いる構成であってもよい。
【0136】
映像検索装置100は、入力された映像で検出された全ての顔画像と予め検索特徴情報管理部130に格納される検索用の個人の顔特徴情報との類似性を算出する。また、映像検索装置100は、映像の任意の場所から順に処理を行い、所定の類似性が算出された最初の顔画像に対して年齢推定を行う。さらに映像検索装置100は、検索用顔画像に対する年齢推定結果と、所定の類似性が算出された顔画像に対する年齢推定結果の差の平均値、または最頻値に基づいて、入力された映像の撮影時刻を逆算する。
図8に時刻推定処理の一例を示す。図8に示すように、検索特徴情報管理部130に格納されている検索用の顔画像は、予め年齢が推定されている。図8に示す例では、検索顔画像の人物は35歳と推定されている。映像検索装置100は、この状態において、入力画像から顔特徴を利用して同一人物を検索する。なお、同一人物を検索する方法は、第1の実施形態に記載した方法と同じ方法である。
【0137】
映像検索装置100は、映像中から検出された全ての顔画像と検索用顔画像との類似度を算出する。ここで、映像検索装置100は、予め設定される所定値以上の類似度が算出された顔画像に対して類似度「○」を付与し、所定値未満の類似度が算出された顔画像に対して類似度「×」を付与する。
【0138】
ここで、映像検索装置100は、類似度が「○」である顔画像に基づいて、第1の実施形態に記載した方法と同様の方法を用いることにより、それぞれ年齢の推定を行う。さらに、映像検索装置100は、算出された年齢の平均値を算出し、平均値と検索用顔画像から推定された年齢との差に基づいて、入力された映像の撮影時刻を示す時刻情報を推定する。なお、この方法では、映像検索装置100は、算出された年齢の平均値を用いる構成として説明したが、中間値、最頻繁値、または他の値を用いる構成であってもよい。
【0139】
図8に示す例によると、算出された年齢が40歳、45歳、44歳である。この為、平均値は43歳であり、検索用顔画像との年齢差は8年である。即ち、映像検索装置100は、入力画像が、検索用顔画像が撮影された2000年から8年後の2008年に撮影されたものだと判断する。
【0140】
年齢推定の精度によるが、年月日まで含めて8年後と判定する場合、映像検索装置100は、例えば、入力される映像の撮影時刻を2008年8月23日と特定する。即ち、映像検索装置100は、撮影日時を日付単位で推定することができる。
【0141】
また、映像検索装置100は、図9に示すように、例えば最初に検出された1つの顔画像に基づいて年齢を推定し、推定した年齢と検索用画像の年齢とに基づいて撮影時刻を推定する構成であってもよい。この方法によると、映像検索装置100は、より早く撮影時刻の推定を行うことができる。
【0142】
イベント検出部120は、第1の実施形態の同様の処理を行う。しかし、本実施形態では、映像に撮影時刻が付与されている。そこで、イベント検出部120は、フレーム情報だけでなく、撮影時刻を検出するイベントに関連付ける構成であってもよい。
【0143】
さらに、イベント検出部120は、レベル5の処理を行う場合、即ち、入力映像から特定の個人が写りこんでいるシーンの検出を行う場合、検索用顔画像の撮影時刻と、入力映像の撮影時刻との差を利用することにより推定年齢の絞込みを行う構成であってもよい。
【0144】
この場合、イベント検出部120は、図10に示すように、検索用顔画像の撮影時刻と、入力映像の撮影時刻とに基づいて、検索する人物の入力映像が撮像された時刻における年齢を推定する。さらに、イベント検出部120は、入力映像から検出された人物が写りこんでいる複数のイベントにおいて、それぞれ人物の年齢を推定する。イベント検出部120は、入力映像から検出された人物が写りこんでいる複数のイベントのうち、検索用顔画像の人物の入力映像が撮像された時刻における年齢に近い人物が写り込んでいるイベントを検出する。
【0145】
図10に示す例によると、検索用顔画像が2000年に撮影されており、検索用顔画像の人物が35歳と推定されている。また、入力映像は、2010年に撮影されたことがわかっている。この場合、イベント検出部120は、入力映像の時点における検索用顔画像の人物の年齢は、35歳+(2010年−2000年)=45歳であると推定する。イベント検出部120は、検出された複数の人物のうち、推定された45歳に近いと判断された人物が写り込んでいるイベントを検出する。
【0146】
例えば、イベント検出部120は、検索用顔画像の人物の入力映像が撮影された時点における年齢±αをイベント検出の対象とする。これにより、映像検索装置100は、より漏れなくイベント検出を行うことができる。なお。このαの値は、ユーザによる操作入力に基づいて任意に設定してもよいし、予め基準値として設定されていてもよい。
【0147】
上記したように、本実施形態に係る映像検索装置100は、入力映像から個人を検出するレベル5の処理において、入力映像が撮影された時刻を推定する。さらに、映像検索装置は、検索する人物の入力映像が撮影された時点における年齢を推定する。映像検索装置100は、入力映像において人物が写り込んでいる複数のシーンを検出し、各シーンに写り込んでいる人物の年齢を推定する。映像検索装置100は、検索する人物の年齢に近い年齢が推定された人物が写り込んでいるシーンを検出することができる。この結果、映像検索装置100は、より高速に特定の人物が写り込んでいるシーンを検出することができる。
【0148】
本実施形態において、検索特徴情報管理部130は、人物の顔画像から抽出された特徴情報とともに、顔画像が撮影された時刻を示す時刻情報、及び顔画像が撮影された時点における年齢を示す情報などをさらに保持する。なお、年齢は、画像から推定されるものであってもよいし、ユーザによる入力されるものであってもよい。
【0149】
図11は、映像検索装置100により表示される画面の例について説明するための説明図である。
出力部150は、第1の実施形態における表示内容に映像の時刻を示す時刻情報25をさらに含む出力画面151を出力する。映像の時刻情報を一緒に表示するようにする。また、出力画面151は、再生画面13に表示されている画像に基づいて推定された年齢をさらに表示する構成であってもよい。これにより、ユーザは、再生画面13に表示されている人物の推定年齢を認識することができる。
【0150】
なお、上述の各実施の形態で説明した機能は、ハードウエアを用いて構成するに留まらず、ソフトウエアを用いて各機能を記載したプログラムをコンピュータに読み込ませて実現することもできる。また、各機能は、適宜ソフトウエア、ハードウエアのいずれかを選択して構成するものであっても良い。
【0151】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【0152】
100…映像検索装置、110…映像入力部、120…イベント検出部、121…抽出部、122…属性判別部、123…性別判別部、124…年代判別部、130…検索特徴情報管理部、140…イベント管理部、150…出力部、151…出力画面、160…時刻推定部。
【技術分野】
【0001】
本発明の実施形態は、映像検索装置、及び映像検索方法に関する。
【背景技術】
【0002】
複数地点に設置された複数のカメラにより取得された監視映像の中から所望の映像を検索する技術の開発が行われている。このような技術は、カメラから直接入力される映像、または記録装置に蓄積された映像の中から所望の映像を検索する。
【0003】
例えば、変化のある映像、人物が写りこんでいる映像を検出する技術がある。監視者は、検出された映像を視認することにより、所望の映像を特定する。しかし、変化のある映像、人物が写りこんでいる映像が多数検出される場合、検出された映像の視認に手間がかかる可能性がある。
【0004】
映像の視認を用意にするために、顔画像に対して属性情報を指摘して類似画像を検索する技術がある。たとえば、検索したい人物の顔の特徴を検索条件として指定することで、指定された特徴を有する顔画像をデータベースの中から検索する。
【0005】
また、顔画像について事前にデータベースに付与した属性(テキスト)を使って絞込みする技術もある。たとえば、顔画像以外に名前や会員ID、入会年月日をキーに検索をすることで高速に検索する。また、例えば、顔などのメインの生体情報以外の属性情報(身長・体重・性別・年齢など)を利用して認識辞書の絞込みを行う。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2006−318375号公報
【特許文献2】特開2007−310646号公報
【特許文献3】特開2000−090264号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、属性情報に該当する画像を検索する場合、辞書側と入力側とで撮影時刻が考慮されていない為に精度が劣るという課題がある。
【0008】
また、テキストの年齢情報を使って絞込する場合、予め検索対象側に属性情報(テキスト)を付与しておかないと絞込をすることができないという課題がある。
【0009】
そこで、本発明は、より効率的に映像検索を行うことができる映像検索装置、及び映像検索方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
一実施形態に係る映像検索装置は、映像が入力される映像入力部と、前記映像入力部により入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定するイベント検出部と、前記イベント検出部により検出されたイベントを前記レベル毎に保持するイベント管理部と、前記イベント管理部により保持されているイベントをレベル毎に出力する出力部と、を具備する。
【図面の簡単な説明】
【0011】
【図1】図1は、一実施形態に係る映像検索装置について説明するための説明図である。
【図2】図2は、一実施形態に係る映像検索装置について説明するための説明図である。
【図3】図3は、一実施形態に係る映像検索装置について説明するための説明図である。
【図4】図4は、一実施形態に係る映像検索装置について説明するための説明図である。
【図5】図5は、一実施形態に係る映像検索装置について説明するための説明図である。
【図6】図6は、一実施形態に係る映像検索装置について説明するための説明図である。
【図7】図7は、他の実施形態に係る映像検索装置について説明するための説明図である。
【図8】図8は、一実施形態に係る映像検索装置について説明するための説明図である。
【図9】図9は、一実施形態に係る映像検索装置について説明するための説明図である。
【図10】図10は、一実施形態に係る映像検索装置について説明するための説明図である。
【図11】図11は、一実施形態に係る映像検索装置について説明するための説明図である。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、一実施形態に係る映像検索装置、及び映像検索方法について詳細に説明する。
【0013】
(第1の実施形態)
図1は、一実施形態に係る映像検索装置100について説明するための説明図である。
図1に示すように、映像検索装置100は、映像入力部110、イベント検出部120、検索特徴情報管理部130、イベント管理部140、及び出力部150を備える。また、映像検索装置100は、ユーザの操作入力を受け付ける操作部などを備えていてもよい。
【0014】
映像検索装置100は、監視映像などの入力画像(動画または写真)から特定の人物が写りこんでいるシーン、または他の人物が写りこんでいるシーンなどを抽出する。映像検索装置100は、人物がいることを示す信頼度別にイベントを抽出する。これにより、映像検索装置100は、抽出したイベントを含むシーンにそれぞれ信頼度ごとにレベルを付与する。映像検索装置100は、抽出されたイベントのリストの一覧と映像とをリンクさせて管理することで、容易に所望の人物が存在するシーンを出力することができる。
【0015】
これにより、映像検索装置100は、現在手元にある人物の顔写真と同一の人物を検索することができる。また、映像検索装置100は、何か事故や犯罪が発生した場合の関連映像を検索することができる。さらに、映像検索装置100は、設置されている防犯カメラ映像の中から関連するシーンやイベントを検索することができる。
【0016】
映像入力部110は、カメラ、または映像を記憶する記憶装置などから出力される映像が入力される入力手段である。
【0017】
イベント検出部120は、入力された映像から変動領域、人物領域、顔領域、個人属性情報、または個人識別情報などのイベントを検出する。また、イベント検出部120は、映像における検出されたイベントのフレームの位置を示す情報(フレーム情報)を逐次取得する。
【0018】
検索特徴情報管理部130は、個人の情報、及び属性判別に利用する情報を格納する。
【0019】
イベント管理部140は、入力された映像と、検出されたイベントと、イベントの発生したフレーム情報とを関連付ける。出力部150は、イベント管理部140で管理されている結果を出力する。
【0020】
以下順に映像検索装置100の各部についての説明を行う。
映像入力部110は、撮影対象人物の顔画像を入力する。映像入力部110は、例えばindustrial television(ITV)カメラなどを備える。ITVカメラは、レンズにより受光される光学的な情報をA/D変換器によりディジタル化し、画像データとして出力する。これにより、映像入力部110は、イベント検出部120に画像データを出力することができる。
【0021】
また、映像入力部110は、デジタルビデオレコーダ(DVR)などの映像を記録する記録装置または記録媒体に記録されている映像が再生された映像が入力される入力端子などを備える構成であってもよい。即ち、映像入力部110は、ディジタル化された映像データを取得することができる構成であれば如何なる構成であってもよい。
【0022】
また、検索対象となるものは結果的に顔画像を含むディジタルの画像データであればよいので、デジタルスチルカメラで撮影した画像ファイルを媒体経由で取り込んでもかまわないし、スキャナを利用して紙媒体や写真からスキャンをしたディジタル画像でも構わない。この場合には大量に保存されている静止画の画像の中から該当する画像を検索するようなシーンが応用例としてあげられる。
【0023】
イベント検出部120は、映像入力部110から供給される映像、または複数枚の画像に基づいて、検出すべきイベントを検出する。また、イベント検出部120は、イベントを検出したフレームを示すインデックス(たとえばフレーム番号など)をフレーム情報として検出する。例えば、入力される画像が多数の静止画である場合、イベント検出部120は、静止画のファイル名をフレーム情報として検出してもよい。
【0024】
イベント検出部120は、例えば、所定以上の大きさで変動している領域が存在するシーン、人物が存在しているシーン、人物の顔が検出されているシーン、人物の顔が検出され特定の属性に該当する人物が存在しているシーン、及び人物の顔が検出され特定の個人が存在しているシーンをイベントとして検出する。しかし、イベント検出部120により検出されるイベントは上記のものに限定されない。イベント検出部120は、人物が存在していることを示すイベントであればどのように検出する構成であってもよい。
【0025】
イベント検出部120は、人物が写りこんでいる可能性があるシーンをイベントとして検出する。イベント検出部120は、人物に関する情報を多く得られるシーンから順にレベルを付加する。
【0026】
即ち、イベント検出部120は、所定以上の大きさで変動している領域が存在するシーンに対して最低レベルである「レベル1」を付与する。また、イベント検出部120は、人物が存在しているシーンに対して「レベル2」を付与する。また、イベント検出部120は、人物の顔が検出されているシーンに対して「レベル3」を付与する。また、イベント検出部120は、人物の顔が検出され特定の属性に該当する人物が存在しているシーンに対して「レベル4」を付与する。またさらに、イベント検出部120は、人物の顔が検出され特定の個人が存在しているシーンに対して最高レベルである「レベル5」を付与する。
【0027】
イベント検出部120は、下記の方法に基づいて、所定以上の大きさで変動している領域が存在するシーンを検出する。イベント検出部120は、例えば、特許公報P3486229、P3490196、及びP3567114などに示されている方法に基づいて所定以上の大きさで変動している領域が存在するシーンを検出する。
【0028】
即ち、イベント検出部120は、予め学習用として背景画像の輝度の分布を記憶し、映像入力部110から供給される映像と予め記憶された輝度分布とを比較する。イベント検出部120は、比較の結果、映像中において輝度分布と一致しない領域に「背景ではない物体が存在している」と判定する。
【0029】
また、本実施形態では、葉のゆらぎなどの周期的な変化が生じる背景を含む映像であっても、「背景ではない物体」を正しく検出することができる手法を採用することにより、汎用性を高めることができる。
【0030】
イベント検出部120は、検出された変動領域について、所定以上の輝度変化があった画素を抽出し、「変動あり=1」「変動なし=0」といった二値の画像にする。イベント検出部120は、「1」で示される画素の塊をラベリングなどで塊ごとに分類し、その塊の外接矩形のサイズ、または塊の内に含まれる変動画素の数に基づいて変動領域の大きさを算出する。イベント検出部120は、算出した大きさが予め設定される基準サイズより大きい場合「変動あり」と判断し、画像を抽出する。
【0031】
なお、変動領域が極端に大きい場合、イベント検出部120は、太陽が雲にかくれて急に暗くなった、近くの照明が点灯した、または他の偶発的な要因により画素の値が変化したと判断する。これにより、イベント検出部120は、人物などの移動物体が存在するシーンを正しく抽出することができる。
【0032】
また、イベント検出部120は、変動領域として判定するサイズに上限を設定しておくことによっても、人物などの移動物体が存在するシーンを正しく抽出することができる。 例えば、イベント検出部120は、人間のサイズの分布を想定したサイズの上限と下限のしきい値を設定することによってさらに精度よく人物が存在するシーンを抽出することができる。
【0033】
イベント検出部120は、下記の方法に基づいて、人物が存在しているシーンを検出する。イベント検出部120は、例えば、人物の全身の領域を検出する技術(Watanabeら,”Co-occurrence Histograms of Oriented Gradients for Pedestrian Detection, In Proceedings of the 3rd Pacific-Rim Symposium on Image and Video Technology” (PSIVT2009), pp. 37-47.)を利用することで人物が存在しているシーンを検出することができる。
【0034】
この場合、イベント検出部120は、例えば、人物が存在する場合の輝度勾配情報の分布がどのようにあらわれるかを複数の局所領域での共起性を利用して求めている。人物が存在している場合、その人物の上半身領域を矩形情報として算出することができる。
【0035】
イベント検出部120は、入力された映像の中に人物が存在している場合、そのフレームをイベントとして検出する。この方法によると、イベント検出部120は、画像中に人物の顔が映りこんでいない場合、または顔を認識できるのに充分な解像度でない場合であっても人物が存在するシーンを検出することができる。
【0036】
イベント検出部120は、下記の方法に基づいて、人物の顔が検出されているシーンを検出する。イベント検出部120は、入力画像内において、予め用意されたテンプレートを画像内で移動させながら相関値を算出する。イベント検出部120は、最も高い相関値が算出された領域を顔領域と特定する。これにより、イベント検出部120は、人物の顔が映りこんでいるシーンを検出することができる。
【0037】
また、イベント検出部120は、固有空間法、または部分空間法などを利用して顔領域を検出する構成であってもよい。また、イベント検出部120は、検出された顔領域の画像の中から、目、鼻などの顔部位の位置を検出する。イベント検出部120は、例えば、文献(福井和広、山口修:「形状抽出とパターン照合の組合せによる顔特徴点抽出」, 電子情報通信学会論文誌(D),vol.J80-D-II,No.8,pp2170--2177(1997))などに記載されている方法により顔のパーツを検出することができる。
【0038】
なお、イベント検出部120は、1枚の画像の中から1つの顔領域(顔特徴)を検出する場合、全画像に対してテンプレートとの相関値を求め最大となる位置とサイズを出力する。また、イベント検出部120は、1枚の画像の中から複数の顔特徴を検出する場合、画像全体に対する相関値の局所最大値を求め、一枚の画像内での重なりを考慮して顔の候補位置を絞り込む。さらに、イベント検出部120は、最後は連続して入力された過去の画像との関係性(時間的な推移)を考慮し、最終的に複数の顔特徴を同時に検出することができる。
【0039】
また、イベント検出部120は、人物がマスク、サングラス、または帽子などを着用している場合でも顔領域を検出することができるように、予め人物がマスク、サングラス、または帽子などを着用している場合の顔パターンをテンプレートとして記憶しておく構成であってもよい。
【0040】
また、イベント検出部120は、顔の特徴点の検出をする際に、顔の特徴点のすべての点が検出できない場合、一部の顔特徴点の評価値に基づいて処理を行う。即ち、イベント検出部120は、一部の顔特徴点の評価値が予め設定される基準値以上である場合、二次元平面、または三次元的な顔のモデルを利用して検出された特徴点から残りの特徴点を推測することができる。
【0041】
また、特徴点がまったく検出できない場合、イベント検出部120は、顔全体のパターンを予め学習することにより、顔全体の位置を検出し、顔全体の位置から顔特徴点を推測することができる。
【0042】
なお、複数の顔が画像内に存在する場合、イベント検出部120は、どの顔を検索対象とするかの指示を後述の検索条件設定手段や出力手段で指定するようにしてもよい。また、イベント検出部120は、上記の処理により求められた顔らしさの指標の順番に自動的に検索対象を選択し、出力する構成であってもよい。
【0043】
なお、ここで連続したフレームにわたって同一人物が映っている場合、それぞれが別々のイベントとして管理されるよりも、「同一の人物が映っているひとつのイベント」として扱えたほうが都合がよい場合が多い。
【0044】
そこで、イベント検出部120は、人物が普通に歩行している場合に連続するフレームでどのあたりに移動するかの統計情報をもとに確率を算出し、もっとも確率が高くなる組合せを選択して連続して発生するイベントの対応付けを行うことができる。これにより、イベント検出部120は、複数のフレーム間に同一人物が写りこんでいるシーンを1つのイベントとして認識することができる。
【0045】
また、イベント検出部120は、フレームレートが高い場合、オプティカルフローを利用するなどしてフレーム間における人物領域または顔の領域を対応付けることにより、複数のフレーム間に同一人物が写りこんでいるシーンを1つのイベントとして認識することができる。
【0046】
さらに、イベント検出部120は、複数のフレーム(対応付けられた画像群)から「ベストショット」を選択することができる。ベストショットは、複数の画像の中からもっとも人物の視認に適した画像である。
【0047】
イベント検出部120は、検出したイベントに含まれるフレームのうち、最も顔領域が大きいフレーム、人間の顔の向きが最も正面に近いフレーム、顔領域の画像のコントラストが最も大きなフレーム、及び顔らしさを示すパターンとの類似性がもっとも高いフレームのうちの少なくとも1つまたは複数の指標を考慮した値がもっとも高いフレームをベストショットとして選択する。
【0048】
また、イベント検出部120は、人間の目でみて見やすい画像、または認識処理に向いている画像などをベストショットとして選択する構成であってもよい。これらのベストショットを選択するための選択基準は、ユーザの任意に基づいて自由に設定することができる。
【0049】
イベント検出部120は、下記の方法に基づいて、特定の属性に該当する人物が存在しているシーンを検出する。まずイベント検出部120は、上記の処理により検出された顔領域の情報を利用して人物の属性情報を特定するための特徴情報を計算する。
【0050】
本実施例で説明する属性情報は、年齢、性別、眼鏡の種類、マスク種類、帽子の種類などの5種類として説明するが、イベント検出部120は、他の属性情報を用いる構成であってもよい。例えば、イベント検出部120は、人種、眼鏡の有無(1か0かの情報)、マスクの有無(1か0かの情報)、帽子の有無(1か0かの情報)、顔への装着品(ピアス、イヤリングなど)、服装、表情、肥満度、裕福度などを属性情報として用いる構成であってもよい。イベント検出部120は、予め後述する属性判定方法を用いて属性毎にパターンの学習をすることにより、如何なる特徴であっても属性として用いることができる。
【0051】
イベント検出部120は、顔領域の画像から顔特徴を抽出する。イベント検出部120は、例えば、部分空間法などを用いることにより顔特徴を算出することができる。
【0052】
なお、顔特徴と属性情報とを比較して人物の属性を判断する場合、属性毎に顔特徴の算出方法が異なる場合がある。そこで、イベント検出部120は、比較する属性情報に応じた算出方法を用いて顔特徴を算出する構成であってもよい。
【0053】
例えば、年齢及び性別などの属性情報と比較する場合、イベント検出部120は、年齢、及び性別のそれぞれに適した前処理を適用することでより高い精度で属性を判別することができる。
【0054】
通常、人物の顔は、年齢が高くなるほどしわが増えてくる。そこで、イベント検出部120は、例えば、しわを強調する線分強調フィルタを顔領域の画像に対して複合することにより、より高い精度で人物の属性(年代)を判別することができる。
【0055】
また、イベント検出部120は、性別特有の部位(例えばひげなど)が強調される周波数成分を強調するフィルタを顔領域の画像に対して複合する、または、骨格情報が強調されるようなフィルタを顔領域の画像に対して複合する。これにより、イベント検出部120は、より高い精度で人物の属性(性別)を判別することができる。
【0056】
また、イベント検出部120は、たとえば、顔検出処理によって求められた顔の部位の位置情報から目、目じり、または目頭の位置を特定する。これにより、イベント検出部120は、両目付近の画像を切り出し、切り出した画像を部分空間の計算対称とすることにより、眼鏡に関する特徴情報を得ることができる。
【0057】
また、イベント検出部120は、たとえば、顔検出処理によって求められた顔の部位の位置情報から口と鼻の位置を特定する。これにより、イベント検出部120は、特定した口と鼻の位置の画像を切り出し、切り出した画像を部分空間の計算対称とすることにより、マスクに関する特徴情報を得ることができる。
【0058】
また、イベント検出部120は、たとえば、顔検出処理によって求められた顔の部位の位置情報から目、及び眉の位置を特定する。これにより、イベント検出部120は、顔の肌領域の上端を特定することができる。さらに、イベント検出部120は、特定した顔の頭部領域の画像を切り出し、切り出した画像を部分空間の計算対称とすることにより、防止に関する特徴情報を得ることができる。
【0059】
上記したように、イベント検出部120は、眼鏡、マスク、及び帽子などを顔の位置から特定して特徴情報を抽出することができる。即ち、イベント検出部120は、顔の位置から推定可能な位置に存在する属性であれば如何なる物であっても特徴情報を抽出することができる。
【0060】
また、人物が着用している着用物を直接的に検出するアルゴリズムも一般的に実用化されている。イベント検出部120は、そのような手法を用いることにより特徴情報を抽出する構成であってもよい。
【0061】
また、眼鏡、マスク、及び帽子などが人物により着用されていない場合、イベント検出部120は、顔の肌の情報をそのまま特徴情報として抽出する。この為、眼鏡、マスク、及びサングラスなどの属性は、それぞれ異なる特徴情報が抽出される。即ち、イベント検出部120は、眼鏡、マスク、及びサングラスなどの属性を特に分類して特徴情報を抽出しなくてもよい。
【0062】
なお、眼鏡、マスク、及び帽子などが人物により着用されていない場合、イベント検出部120は、着用していないことを示す特徴情報を区別して抽出する構成であってもよい。
【0063】
さらに、イベント検出部120は、属性を判別するための特徴情報を算出した後、後述の検索特徴情報管理部130により記憶されている属性情報と比較を行う。これにより、イベント検出部120は、入力された顔画像の人物の性別、年代、眼鏡、マスク、及び帽子などの属性を判別する。なお、イベント検出部120は、人物の年齢、性別、メガネの有無、メガネの種類、マスクの有無、マスクの種類、帽子の着用有無、帽子の種類、ひげ、ほくろ、しわ、怪我、髪型、髪の毛の色、服の色、服の形、帽子、装飾品、顔付近への着用物、表情、裕福度、及び人種のうちの少なくとも1つをイベントの検出に用いる属性として設定する。
【0064】
イベント検出部120は、判別した属性をイベント管理部140に出力する。具体的には、イベント検出部120は、図2に示すように、抽出部121、及び属性判別部122を備える。抽出部121は、上記したように、登録画像(入力画像)における所定の領域の特徴情報を抽出する。例えば、顔領域を示す顔領域情報と入力画像とが入力される場合、抽出部121は、入力画像における顔領域情報が示す領域の特徴情報を算出する。
【0065】
属性判別部122は、抽出部121により抽出された特徴情報と予め検索特徴情報管理部130に格納される属性情報とに基づいて、入力画像の人物の属性を判別する。属性判別部122は、抽出部121により抽出された特徴情報と予め検索特徴情報管理部130に格納される属性情報との類似度を算出することにより、入力画像の人物の属性を判別する。
【0066】
属性判別部122は、例えば、性別判別部123と年代判別部124とを備える。属性判別部122は、さらなる属性を判別するための判別部を備えていてもよい。例えば、属性判別部122は、眼鏡、マスク、または帽子などの属性を判別する判別部を備えていても良い。
【0067】
例えば、検索特徴情報管理部130は、男性の属性情報と女性の属性情報とを予め保持している。性別判別部123は、検索特徴情報管理部130により保持されている男性の属性情報及び女性の属性情報と、抽出部121により抽出された特徴情報とに基づいてそれぞれ類似度を算出する。性別判別部123は、算出された類似度の高いほうを入力画像に対する属性判別の結果として出力する。
【0068】
例えば、性別判別部123は、特開2010−044439号公報に記載されているように、顔の局所的な勾配特徴の発生頻度を統計情報として保持する特徴量を利用する。即ち、性別判別部123は、統計情報がもっとも男女を識別するような勾配特徴を選別し、その特徴を識別する識別器を学習によって算出し、男女のような2クラスを判別する。
【0069】
また、性別判別のように属性が2クラスではなく、年齢推定のように3クラス以上である場合、検索特徴情報管理部130は、各クラス(ここでは年代)で平均的な顔特徴の辞書(属性情報)を予め保持する。年代判別部124は、検索特徴情報管理部130により保持されている各年代毎の属性情報と、抽出部121により抽出された特徴情報との類似度を算出する。年代判別部124は、最も高い類似度の算出に用いられた属性情報に基づいて、入力画像の人物の年代を判別する。
【0070】
また、さらに高い精度で年代を推定する技術として、前述の2クラス判別器を利用した以下の手法がある。
【0071】
まず、検索特徴情報管理部130は、年齢を推定するために事前に識別したい年齢ごとの顔画像を予め保持する。たとえば、10歳から60歳前後までの年代の判別を行う場合、検索特徴情報管理部130は、10歳未満から60歳以上までの顔画像をあらかじめ保持する。ここでは、検索特徴情報管理部130が保持する顔画像の枚数が多くなるほど、年代判別の精度を向上させることができる。さらに、検索特徴情報管理部130は、幅広い年代の顔画像を予め保持することにより、判別できる年齢を広げることができる。
【0072】
次に、検索特徴情報管理部130は、「基準年齢より上か下か」の判別をするための識別器を準備する。検索特徴情報管理部130は、線形判別分析などを用いて2クラスの判別をイベント検出部120に行わせることができる。
【0073】
また、イベント検出部120及び検索特徴情報管理部130は、サポートベクターマシン(Support Vector Machine)などの手法を用いる構成であってもよい。なお、以下サポートベクターマシンをSVMと称する。SVMでは、2クラスを判別する為の境界条件を設定し、設定された境界からの距離にあるかを算出することができる。これにより、イベント検出部120及び検索特徴情報管理部130は、基準とする年齢N歳より上の年齢に属する顔画像と、下の年齢に属する顔画像とを分類することができる。
【0074】
たとえば、30歳を基準年齢としたときに、検索特徴情報管理部130は、30歳より上か下かを判別するための画像群を予め保持する。例えば、検索特徴情報管理部130には、30歳以上を含む画像が正のクラス「30歳以上」の画像として入力される。また、検索特徴情報管理部130には、負のクラス「30歳未満」の画像が入力される。検索特徴情報管理部130は、入力された画像に基づいて、SVM学習を行う。
【0075】
上記した方法により、検索特徴情報管理部130は、基準年齢を10歳から60歳までずらしながら辞書の作成を行う。これにより、検索特徴情報管理部130は、例えば図3に示すように、「10歳以上」、「10歳未満」、「20歳以上」、「20歳未満」、・・・「60歳以上」、「60歳未満」の年代判別用の辞書を作成する。年代判別部124は、検索特徴情報管理部130により格納されている複数の年代判別用の辞書と入力画像とに基づいて入力画像の人物の年代を判別する。
【0076】
検索特徴情報管理部130は、基準年齢を10歳から60歳までずらしながら準備した年代判別用の辞書の画像を基準年齢にあわせて二つに分類する。これにより、検索特徴情報管理部130は、SVMの学習器を基準年齢の数に応じて準備することができる。なお、本実施例では、検索特徴情報管理部130は、10歳から60歳まで6個の学習器を準備する。
【0077】
検索特徴情報管理部130は、「X歳以上」とするクラスを「正」のクラスとして学習することで、「基準年齢より年齢が上の画像が入力されると指標はプラスの値を返す」ようになる。この判別処理を基準年齢を10歳から60歳までずらしながら実行していくことにより、基準年齢に対して上か下かの指標を得ることができる。また、この出力された指標の中で、もっとも指標がゼロに近いところが出力すべき年齢に近いことになる。
【0078】
ここで年齢の推定方法を図4に示す。イベント検出部120の年代判別部124は、各基準年齢に対するSVMの出力値を算出する。さらに、年代判別部124は、縦軸を出力値、横軸を基準年齢として出力値をプロットする。このプロットに基づいて年代判別部124は、入力画像の人物の年齢を特定することができる。
【0079】
例えば、年代判別部124は、出力値が最もゼロに近いプロットを選択する。図4に示す例によると、基準年齢30歳がもっともゼロに近い。この場合、年代判別部124は、「30代」を入力画像の人物の属性として出力する。また、プロットが不安定に上下に変動する場合、年代判別部124は、隣接する基準年齢との移動平均を算出することにより、安定して年代を判別することができる。
【0080】
また、例えば、年代判別部124は、隣り合う複数のプロットに基づいて近似関数を算出し、算出された近似関数の出力値が0である場合の横軸の値を推定年齢として特定する構成であってもよい。図4に示す例によると、年代判別部124は、プロットに基づいて直線の近似関数を算出することにより交点を特定し、特定した交点からおよそ33歳という年齢を特定することができる。
【0081】
また、年代判別部124は、部分集合(たとえば隣接する3つの基準年齢に対するプロット)に基づいて近似関数を算出するのではなく、全てのプロットに基づいて近似関数を算出する構成であってもよい。この場合、より近似誤差が少ない近似関数を算出することができる。
【0082】
また、年代判別部124は、所定の変換関数を通して得られた値でクラスを判別する構成であってもよい。
【0083】
また、イベント検出部120は、下記の方法に基づいて、特定の個人が存在しているシーンを検出する。まずイベント検出部120は、上記の処理により検出された顔領域の情報を利用して人物の属性情報を特定するための特徴情報を計算する。また、この場合、検索特徴情報管理部130は、個人を特定する為の辞書を備える。この辞書は、特定する個人の顔画像から算出された特徴情報などを有する。
【0084】
イベント検出部120は、検出された顔の部品の位置をもとに、顔領域を一定の大きさ、形状に切り出し、その濃淡情報を特徴量として用いる。ここでは、イベント検出部120は、mピクセル×nピクセルの領域の濃淡値をそのまま特徴情報として用い、m×n次元の情報を特徴ベクトルとして用いる。
【0085】
また、イベント検出部120は、入力画像から抽出された特徴情報と、検索特徴情報管理部130により保持されている個人の特徴情報とに基づいて部分空間法を用いることにより処理する。即ち、イベント検出部120は、単純類似度法によりベクトルとベクトルの長さをそれぞれ1とするように正規化を行い、内積を計算することで特徴ベクトル間の類似性を示す類似度を算出する。
【0086】
また、イベント検出部120は、1枚の顔画像情報に対してモデルを利用して顔の向きや状態を意図的に変動させた画像を作成する手法を適用してもよい。上記の処理により、イベント検出部120は、1枚の画像から顔の特徴を求めることができる。
【0087】
また、イベント検出部120は、同一人物から時間的に連続して取得された複数の画像を含む動画像に基づいてより高い精度で人物の認識を行うことができる。例えば、イベント検出部120は文献(福井和広、山口修、前田賢一:「動画像を用いた顔認識システム」電子情報通信学会研究報告PRMU,vol97,No.113,pp17-24(1997)に記載されている相互部分空間法を用いる構成であってもよい。
【0088】
この場合、イベント検出部120は、動画像から上記の特徴抽出処理と同様にm×nピクセルの画像を切り出し、切り出したデータに基づいて特徴ベクトルの相関行列を求め、K−L展開により正規直交ベクトルを求める。これにより、イベント検出部120は、連続した画像から得られる顔の特徴を示す部分空間を計算することができる。
【0089】
部分空間の計算法によると、特徴ベクトルの相関行列(または共分散行列)が算出され、そのK−L展開による正規直交ベクトル(固有ベクトル)が算出され、部分空間が算出される。部分空間は、固有値に対応する固有ベクトルを、固有値の大きな順にk個選び、その固有ベクトル集合を用いて表現する。本実施例では、相関行列Cdを特徴ベクトルから求め、相関行列Cd =Φd Λd Φd T と対角化して、固有ベクトルの行列Φを求める。この情報が現在認識対象としている人物の顔の特徴を示す部分空間となる。
【0090】
このような方法で出力された部分空間のような特徴情報を入力された画像で検出された顔に対する個人の特徴情報とする。イベント検出部120は、顔特徴抽出手段で計算された入力画像に対する顔特徴情報と、事前に複数の顔が登録されている検索特徴情報管理部130の中の顔特徴情報との類似性を示す計算を行ってより類似性の高いものから順番に結果を返す処理を行う。
【0091】
この際に検索処理の結果としては類似性の高いものから順番に検索特徴情報管理部130内で個人を識別するために管理されている人物、ID、計算結果である類似性を示す指標を返す。それに加えて検索特徴情報管理部130で個人ごとに管理されている情報を一緒に返すようにしてもかまわない。しかし、基本的に識別IDにより対応付けが可能であるので、検索処理において付属情報を用いる必要はない。
【0092】
類似性を示す指標としては、顔特徴情報として管理されている部分空間同士の類似度が用いられる。計算方法は、部分空間法、複合類似度法、または他の方法であってもよい。この方法では、予め蓄えられた登録情報の中の認識データも、入力されるデータも複数の画像から計算される部分空間として表現され、2つの部分空間のなす「角度」を類似度として定義される。
【0093】
ここで入力される部分空間を入力手段分空間という。イベント検出部120は、入力データ列に対して同様に相関行列Cinを求め、Cin=ΦinΛinΦinT と対角化し、固有ベクトルΦinを求める。イベント検出部120は、二つのΦin,Φd で表される部分空間の部分空間類似度(0.0〜1.0)を求める。イベント検出部120は、この類似度を個人を認識する為の類似度として用いる。
【0094】
また、イベント検出部120は、あらかじめ同一人物と分かる複数の顔画像をまとめて部分空間へ射影することによって、本人であるかどうかを識別する構成であってもよい。この場合、個人認識の精度を向上させることができる。
【0095】
検索特徴情報管理部130は、イベント検出部により各種のイベントを検出する処理に用いられる種々の情報を保持する。上記したように、検索特徴情報管理部130は、個人、人物の属性などを判別するために必要な情報を保持する。
【0096】
検索特徴情報管理部130は、例えば、個人ごとの顔特徴情報、および属性毎の特徴情報(属性情報)などを保持する。また、検索特徴情報管理部130は、属性情報を同一の人物ごとに対応付けて保持することもできる。
【0097】
検索特徴情報管理部130は、顔特徴情報および属性情報として、イベント検出部120と同様の方法により算出される各種の特徴情報を保持する。例えば、検索特徴情報管理部130は、m×nの特徴ベクトル、部分空間、またはKL展開を行う直前の相関行列などを特徴情報として保持する。
【0098】
なお、個人を特定する為の特徴情報は、事前に準備できない場合が多い。この為、当該映像検索装置100に入力される写真、または動画像などから人物を検出し、検出した人物の画像に基づいて上記した方法により特徴情報を算出し、算出された特徴情報を検索特徴情報管理部130に格納する構成であってもよい。この場合、検索特徴情報管理部130は、特徴情報と、顔画像と、識別IDと、図示しない操作入力部などにより入力される名前などを対応付けて格納する。
【0099】
なお、検索特徴情報管理部130は、事前に設定されるテキスト情報に基づいて、別の付帯情報、または属性情報などを特徴情報に対応付けて格納する構成であってもよい。
【0100】
イベント管理部140は、イベント検出部120により検出されたイベントに関する情報を保持する。例えば、イベント管理部140は、入力された映像情報をそのまま、またはダウンコンバートされた状態で記憶する。また、イベント管理部140は、映像情報がDVRのような機器から入力されている場合、該当する映像へのリンク情報を記憶する。これにより、イベント管理部140は、任意のシーンの再生が指示された場合に指示されたシーンを容易に検索することができる。これにより、映像検索装置100は、任意のシーンを再生することができる。
【0101】
図5は、イベント管理部140により格納されている情報の例について説明するための説明図である。
【0102】
図5に示すように、イベント管理部140は、イベント検出部120により検出されたイベントの種類(上記のレベルに相当)、検知された物体が写り込んでいる座標を示す情報(座標情報)、属性情報、個人を識別する為の識別情報、及び映像におけるフレームを示すフレーム情報などを対応付けて保持する。
【0103】
イベント管理部140は、上記したように、同一人物が連続して写り込んでいる複数のフレームをグループとして管理する。また、この場合、イベント管理部140は、ベストショット画像を1枚選択して代表画像として保持する。例えば、イベント管理部140は、顔領域が検出されている場合、顔領域がわかる顔画像をベストショットとして保持する。
【0104】
また、人物領域が検出されている場合、イベント管理部140は、人物領域の画像をベストショットとして保持する。この場合、イベント管理部140は、例えばもっとも人物領域が大きく写っている画像、左右対称性から人物が正面向きに近いと判断される画像などをベストショットとして選択する。
【0105】
また、イベント管理部140は、変動領域が検出されている場合、例えば、変動している量がもっとも大きい画像、変動はしているが変動量が少なくて安定している画像のいずれかをベストショットとして選択する。
【0106】
また、上記したように、イベント管理部140は、イベント検出部120により検出されたイベントを「人物らしさ」でレベル分けする。即ち、イベント管理部140は、所定以上の大きさで変動している領域が存在するシーンに対して最低レベルである「レベル1」を付与する。また、イベント管理部140は、人物が存在しているシーンに対して「レベル2」を付与する。また、イベント管理部140は、人物の顔が検出されているシーンに対して「レベル3」を付与する。また、イベント管理部140は、人物の顔が検出され特定の属性に該当する人物が存在しているシーンに対して「レベル4」を付与する。またさらに、イベント管理部140は、人物の顔が検出され特定の個人が存在しているシーンに対して最高レベルである「レベル5」を付与する。
【0107】
レベル1に近づくほど、「人物が存在しているシーン」としての検出漏れが少なくなる。しかし、過剰検出が増えるほか、特定の人物のみに絞り込むという精度は低くなる。また、レベル5に近づくほど特定の人物に絞り込んだイベントが出力される。しかし、一方で検出漏れも増えることになる。
【0108】
図6は、映像検索装置100により表示される画面の例について説明するための説明図である。
出力部150は、イベント管理部140により格納されている情報にもとづいて、図6に示すような出力画面151を出力する。
【0109】
出力部150により出力される出力画面151は、映像切り替えボタン11、検出設定ボタン12、再生画面13、コントロールボタン14、タイムバー15、イベントマーク16、及びイベント表示設定ボタン17などの表示を含む。
【0110】
映像切り替えボタン11は、処理対象の映像を切り替えるためのボタンである。この実施例では、映像ファイルを読み込んでいる例について説明する。この場合、映像切り替えボタン11には、読み込まれた映像ファイルのファイル名が表示される。なお、上記したように、本装置により処理される映像は、カメラから直接入力される映像であってもよいし、フォルダ内の静止画一覧でも良い。
【0111】
検出設定ボタン12は、対象となる映像から検出する際の設定を行う。たとえば、レベル5(個人識別)を行う場合、検出設定ボタン12が操作される。この場合、検出設定ボタン12には、検索対象となる個人の一覧が表示される。また、表示された個人の一覧から、削除、編集、新規な検索対象者の追加などを行うような構成であってもよい。
【0112】
再生画面13は、対象となる映像を再生する画面である。映像の再生処理は、コントロールボタン14により制御される。例えば、コントロールボタン14は、図6の左から順に「前のイベントまでスキップ」、「巻き戻し高速再生」、「逆再生」、「逆コマ送り」、「一時停止」、「コマ送り」、「再生」、「早送り高速再生」、「次のイベントまでスキップ」などの操作を意味するボタンを有する。なお、コントロールボタン14は、他の機能を有するボタンが追加してもよいし、不要なボタンを削除してもよい。
【0113】
タイムバー15は、映像全体の再生位置を示す。タイムバー15は、現在の再生位置を示すスライダを有する。映像検索装置100は、スライダが操作される場合、再生位置を変更するように処理を行う。
【0114】
イベントマーク16は、検出されたイベントの位置をマークしたものである。イベントマーク16のマークの位置は、タイムバー15の再生位置に対応する。コントロールボタン14の「前のイベントまでスキップ」、または「次のイベントまでスキップ」が操作される場合、映像検索装置100は、タイムバー15のスライダの前後に存在するイベントの位置までスキップする。
【0115】
イベント表示設定ボタン17は、レベル1からレベル5までのチェックボックスの表示を有する。ここでチェックされているレベルに対応するイベントがイベントマーク16に表示される。即ち、ユーザは、イベント表示設定ボタン17を操作することにより、不要なイベントを表示からはずすことができる。
【0116】
また、出力画面151は、ボタン18、ボタン19、サムネイル20乃至23、及び保存ボタン24などの表示をさらに有する。
【0117】
サムネイル20乃至23は、イベントの一覧表示である。サムネイル20乃至23には、それぞれ、各イベントにおけるベストショット画像、フレーム情報(フレーム番号)、イベントのレベル、及びイベントに関する補足情報などが表示される。なお、映像検索装置100は、人物領域または顔領域がそれぞれのイベントにおいて検出されている場合、検出された領域の画像をサムネイル20乃至23として表示する構成であってもよい。なお、サムネイル20乃至23には、タイムバー15におけるスライダの位置に近いイベントが表示される。
【0118】
映像検索装置100は、ボタン18またはボタン19が操作される場合、サムネイル20乃至23を切り替える。例えば、ボタン18が操作される場合、映像検索装置100は、現在表示されているイベントより前に存在するイベントに関するサムネイルを表示する。
【0119】
また、例えば、ボタン19が操作される場合、映像検索装置100は、現在表示されているイベントより後に存在するイベントに関するサムネイルを表示する。なお、再生画面13により再生されているイベントに対応するサムネイルには、図6に示すように縁取りが施されて表示される。
【0120】
また、映像検索装置100は、表示されているサムネイル20乃至23がダブルクリックなどにより選択される場合、選択されたイベントの再生位置までスキップして再生画面13に表示する。
【0121】
保存ボタン24は、イベントの画像または動画を保存するためのボタンである。保存ボタン24が選択される場合、映像検索装置100は、表示されているサムネイル20乃至23のうちの選択されているサムネイルに対応するイベントの映像を図示しない記憶部に記憶することができる。
【0122】
なお、映像検索装置100は、イベントを画像として保存する場合、保存する画像を「顔領域」、「上半身領域」、「全身領域」、「変動領域全体」、及び「画像全体」の画像のうちから操作入力に応じて選択して保存することができる。この場合、映像検索装置100は、フレーム番号、ファイル名、及びテキストファイルなどを出力する構成であってもよい。映像検索装置100は、映像ファイル名と拡張子の異なるファイル名をテキストのファイル名として出力する。また、映像検索装置100は、関連情報をすべてテキストに出力してもよい。
【0123】
また、映像検索装置100は、イベントがレベル1の動画である場合、連続して変動が続いている時間の映像を動画ファイルとして出力する。また、映像検索装置100は、イベントがレベル2以上の動画である場合、同一人物が複数のフレーム間にわたって対応付けできている範囲の映像を動画ファイルとして出力する。
【0124】
ここで出力されたファイルについては、映像検索装置100は、目視できるようにエビデンス画像・映像として保存をすることができる。また、映像検索装置100は、事前に登録された人物との照合を行うシステムなどへの出力することもできる。
【0125】
上記したように、映像検索装置100は、監視カメラ映像、または記録された映像を入力し、人物が写っているシーンを動画像に関連付けて抽出する。この場合、映像検索装置100は、抽出したイベントに対して、人物がいることを示す信頼度に応じてレベルを付与する。さらに、映像検索装置100は、抽出されたイベントのリストの一覧と映像をリンクして管理する。これにより、映像検索装置100は、ユーザ所望の人物の写り込んでいるシーンを出力することが可能である。
【0126】
例えば、映像検索装置100は、まずは信頼度の高いレベル5のイベントを出力し、次にレベル4のイベントを出力することにより、ユーザに容易に検出された人物の画像を視聴させることができる。さらに、映像検索装置100は、レベル3からレベル1まで順にレベルを切り替えながらイベントの表示を行うことにより、映像全体のイベントを漏れなくユーザに市長させることができる。
【0127】
(第2の実施形態)
以下第2の実施形態について説明する。なお、第1の実施形態と同様の構成には同じ参照符号を付し、その詳細な説明を省略する。
【0128】
図7は、第2の実施形態に係る映像検索装置100の構成について説明する為の説明図である。映像検索装置100は、映像入力部110、イベント検出部120、検索特徴情報管理部130、イベント管理部140、出力部150、及び時刻推定部160を具備する。
【0129】
時刻推定部160は、入力された映像の時刻を推定する。時刻推定部160は、入力された映像が撮像された時刻を推定する。時刻推定部160は、推定した時刻を示す情報(時刻情報)を映像入力部110に入力される映像に付与し、イベント検出部120に出力する。
【0130】
映像入力部110は、第一の実施形態と同様の構成であるが、本実施形態では、さらに映像の撮影時刻を示す時刻情報を入力する。映像入力部110お呼び時刻推定部160は、例えば、映像がファイルである場合、ファイルのタイムスタンプ及びフレームレートなどに基づいて、映像におけるフレームと時刻との対応付けを行うことができる。
【0131】
また、監視カメラ用の映像記録装置(DVR)では、映像内に時刻情報が画像として埋め込まれていることが多い。そこで、時刻推定部160は、映像中に埋め込まれている時刻を示す数字を文字認識で認識することにより、時刻情報を生成することができる。
【0132】
また、時刻推定部160は、カメラから直接入力されるリアルタイムクロックから得られる時刻情報を使って現在の時刻を取得することもできる。
【0133】
また、映像ファイルに時刻を示す情報を含むメタファイルが付随している場合がある。この場合、時刻推定部160は、と別に字幕情報用のファイルとして外部メタファイルで各フレームと時刻の関係を示す情報を与える方法もあるため、その外部メタファイルを読み込むことにより時刻情報を取得することも可能である。
【0134】
また、映像検索装置100は、映像の時刻情報が映像と同時に与えられなかった場合、あらかじめ撮影時刻と年齢が与えられている顔画像、または撮影時刻がわかっており顔画像を利用して年齢を推定している顔画像を検索用の顔画像として準備する。
【0135】
なお、時刻推定部160は、顔画像に付与されているEXIF情報、またはファイルのタイムスタンプを利用する方法などに基づいて撮影時刻を推定する。また、時刻推定部160は、図示しない操作入力により入力される時刻情報を撮影時刻として用いる構成であってもよい。
【0136】
映像検索装置100は、入力された映像で検出された全ての顔画像と予め検索特徴情報管理部130に格納される検索用の個人の顔特徴情報との類似性を算出する。また、映像検索装置100は、映像の任意の場所から順に処理を行い、所定の類似性が算出された最初の顔画像に対して年齢推定を行う。さらに映像検索装置100は、検索用顔画像に対する年齢推定結果と、所定の類似性が算出された顔画像に対する年齢推定結果の差の平均値、または最頻値に基づいて、入力された映像の撮影時刻を逆算する。
図8に時刻推定処理の一例を示す。図8に示すように、検索特徴情報管理部130に格納されている検索用の顔画像は、予め年齢が推定されている。図8に示す例では、検索顔画像の人物は35歳と推定されている。映像検索装置100は、この状態において、入力画像から顔特徴を利用して同一人物を検索する。なお、同一人物を検索する方法は、第1の実施形態に記載した方法と同じ方法である。
【0137】
映像検索装置100は、映像中から検出された全ての顔画像と検索用顔画像との類似度を算出する。ここで、映像検索装置100は、予め設定される所定値以上の類似度が算出された顔画像に対して類似度「○」を付与し、所定値未満の類似度が算出された顔画像に対して類似度「×」を付与する。
【0138】
ここで、映像検索装置100は、類似度が「○」である顔画像に基づいて、第1の実施形態に記載した方法と同様の方法を用いることにより、それぞれ年齢の推定を行う。さらに、映像検索装置100は、算出された年齢の平均値を算出し、平均値と検索用顔画像から推定された年齢との差に基づいて、入力された映像の撮影時刻を示す時刻情報を推定する。なお、この方法では、映像検索装置100は、算出された年齢の平均値を用いる構成として説明したが、中間値、最頻繁値、または他の値を用いる構成であってもよい。
【0139】
図8に示す例によると、算出された年齢が40歳、45歳、44歳である。この為、平均値は43歳であり、検索用顔画像との年齢差は8年である。即ち、映像検索装置100は、入力画像が、検索用顔画像が撮影された2000年から8年後の2008年に撮影されたものだと判断する。
【0140】
年齢推定の精度によるが、年月日まで含めて8年後と判定する場合、映像検索装置100は、例えば、入力される映像の撮影時刻を2008年8月23日と特定する。即ち、映像検索装置100は、撮影日時を日付単位で推定することができる。
【0141】
また、映像検索装置100は、図9に示すように、例えば最初に検出された1つの顔画像に基づいて年齢を推定し、推定した年齢と検索用画像の年齢とに基づいて撮影時刻を推定する構成であってもよい。この方法によると、映像検索装置100は、より早く撮影時刻の推定を行うことができる。
【0142】
イベント検出部120は、第1の実施形態の同様の処理を行う。しかし、本実施形態では、映像に撮影時刻が付与されている。そこで、イベント検出部120は、フレーム情報だけでなく、撮影時刻を検出するイベントに関連付ける構成であってもよい。
【0143】
さらに、イベント検出部120は、レベル5の処理を行う場合、即ち、入力映像から特定の個人が写りこんでいるシーンの検出を行う場合、検索用顔画像の撮影時刻と、入力映像の撮影時刻との差を利用することにより推定年齢の絞込みを行う構成であってもよい。
【0144】
この場合、イベント検出部120は、図10に示すように、検索用顔画像の撮影時刻と、入力映像の撮影時刻とに基づいて、検索する人物の入力映像が撮像された時刻における年齢を推定する。さらに、イベント検出部120は、入力映像から検出された人物が写りこんでいる複数のイベントにおいて、それぞれ人物の年齢を推定する。イベント検出部120は、入力映像から検出された人物が写りこんでいる複数のイベントのうち、検索用顔画像の人物の入力映像が撮像された時刻における年齢に近い人物が写り込んでいるイベントを検出する。
【0145】
図10に示す例によると、検索用顔画像が2000年に撮影されており、検索用顔画像の人物が35歳と推定されている。また、入力映像は、2010年に撮影されたことがわかっている。この場合、イベント検出部120は、入力映像の時点における検索用顔画像の人物の年齢は、35歳+(2010年−2000年)=45歳であると推定する。イベント検出部120は、検出された複数の人物のうち、推定された45歳に近いと判断された人物が写り込んでいるイベントを検出する。
【0146】
例えば、イベント検出部120は、検索用顔画像の人物の入力映像が撮影された時点における年齢±αをイベント検出の対象とする。これにより、映像検索装置100は、より漏れなくイベント検出を行うことができる。なお。このαの値は、ユーザによる操作入力に基づいて任意に設定してもよいし、予め基準値として設定されていてもよい。
【0147】
上記したように、本実施形態に係る映像検索装置100は、入力映像から個人を検出するレベル5の処理において、入力映像が撮影された時刻を推定する。さらに、映像検索装置は、検索する人物の入力映像が撮影された時点における年齢を推定する。映像検索装置100は、入力映像において人物が写り込んでいる複数のシーンを検出し、各シーンに写り込んでいる人物の年齢を推定する。映像検索装置100は、検索する人物の年齢に近い年齢が推定された人物が写り込んでいるシーンを検出することができる。この結果、映像検索装置100は、より高速に特定の人物が写り込んでいるシーンを検出することができる。
【0148】
本実施形態において、検索特徴情報管理部130は、人物の顔画像から抽出された特徴情報とともに、顔画像が撮影された時刻を示す時刻情報、及び顔画像が撮影された時点における年齢を示す情報などをさらに保持する。なお、年齢は、画像から推定されるものであってもよいし、ユーザによる入力されるものであってもよい。
【0149】
図11は、映像検索装置100により表示される画面の例について説明するための説明図である。
出力部150は、第1の実施形態における表示内容に映像の時刻を示す時刻情報25をさらに含む出力画面151を出力する。映像の時刻情報を一緒に表示するようにする。また、出力画面151は、再生画面13に表示されている画像に基づいて推定された年齢をさらに表示する構成であってもよい。これにより、ユーザは、再生画面13に表示されている人物の推定年齢を認識することができる。
【0150】
なお、上述の各実施の形態で説明した機能は、ハードウエアを用いて構成するに留まらず、ソフトウエアを用いて各機能を記載したプログラムをコンピュータに読み込ませて実現することもできる。また、各機能は、適宜ソフトウエア、ハードウエアのいずれかを選択して構成するものであっても良い。
【0151】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【0152】
100…映像検索装置、110…映像入力部、120…イベント検出部、121…抽出部、122…属性判別部、123…性別判別部、124…年代判別部、130…検索特徴情報管理部、140…イベント管理部、150…出力部、151…出力画面、160…時刻推定部。
【特許請求の範囲】
【請求項1】
映像が入力される映像入力部と、
前記映像入力部により入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定するイベント検出部と、
前記イベント検出部により検出されたイベントを前記レベル毎に保持するイベント管理部と、
前記イベント管理部により保持されているイベントをレベル毎に出力する出力部と、
を具備する映像検索装置。
【請求項2】
前記イベント検出部は、変動領域の存在するシーン、人物領域が存在するシーン、顔領域が存在するシーン、予め設定される属性に応じた人物が存在するシーン、及び予め設定される個人が存在するシーンのうちの少なくとも1つをイベントとして検出し、イベントとして検出するシーン毎に異なるレベルを判定する、請求項1に記載の映像検索装置。
【請求項3】
前記イベント検出部は、人物の年齢、性別、メガネの有無、メガネの種類、マスクの有無、マスクの種類、帽子の着用有無、帽子の種類、ひげ、ほくろ、しわ、怪我、髪型、髪の毛の色、服の色、服の形、帽子、装飾品、顔付近への着用物、表情、裕福度、及び人種のうちの少なくとも1つを属性として設定する、請求項2に記載の映像検索装置。
【請求項4】
前記イベント検出部は、連続するフレームからイベントを検出する場合、連続する複数のフレームを1つのイベントとして検出する請求項2に記載の映像検索装置。
【請求項5】
前記イベント検出部は、検出したイベントに含まれるフレームのうち、最も顔領域が大きいフレーム、人間の顔の向きが最も正面に近いフレーム、及び顔領域の画像のコントラストが最も大きなフレームのうちの少なくとも1つをベストショットとして選択する、請求項5に記載の映像検索装置。
【請求項6】
前記イベント検出部は、イベントを検出したフレームの前記入力映像における位置を示すフレーム情報をイベントに付与する、請求項2に記載の映像検索装置。
【請求項7】
前記出力部は、前記入力映像を表示する再生画面と、前記イベント管理部により保持されているイベントの前記入力映像における位置を示すイベントマークとを表示し、前記イベントマークが選択される場合、選択されたイベントマークに対応するイベントに付与されているフレーム情報が示すフレームから前記入力映像の再生を行う、請求項6に記載の映像検索装置。
【請求項8】
前記出力部は、前記イベント管理部により保持されているイベントに関する顔領域、上半身領域、全身領域、変動領域全体、及び全体のうちの少なくとも1つの領域の画像または映像として保存する、請求項2に記載の映像検索装置。
【請求項9】
前記イベント検出部は、
前記入力映像が撮影された時刻を推定し、
個人を検出する為の検索用顔画像が撮影された時刻と、前記検索用顔画像の撮影時刻における前記検索用顔画像の人物の年齢と、前記入力映像の撮影時刻とに基づいて、前記入力映像の撮影時刻における前記検索用顔画像の人物の第1の推定年齢を推定し、
前記入力映像に写り込んでいる人物の第2の推定年齢を推定し、
前記第1の推定年齢との差が予め設定される所定値未満である前記第2の推定年齢が推定された人物が写り込んでいるシーンをイベントとして検出する、
請求項2に記載の映像検索装置。
【請求項10】
前記イベント検出部は、前記入力映像に画像として埋め込まれた時刻情報に基づいて前記入力映像が撮影された時刻を推定する、請求項9に記載の映像検索装置。
【請求項11】
前記イベント検出部は、
前記入力映像に写り込む人物のうち、前記検索用顔画像との類似度が予め設定される所定値以上である少なくとも1人以上の人物の第3の推定年齢を推定し、
前記検索用顔画像が撮影された時刻と、前記検索用顔画像の撮影時刻における前記検索用顔画像の人物の年齢と、前記第3の推定年齢とに基づいて前記入力映像が撮影された時刻を推定する、
請求項9に記載の映像検索装置。
【請求項12】
入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定し、
前記検出されたイベントを前記レベル毎に保持し、
前記保持されているイベントをレベル毎に出力する、
映像検索方法。
【請求項1】
映像が入力される映像入力部と、
前記映像入力部により入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定するイベント検出部と、
前記イベント検出部により検出されたイベントを前記レベル毎に保持するイベント管理部と、
前記イベント管理部により保持されているイベントをレベル毎に出力する出力部と、
を具備する映像検索装置。
【請求項2】
前記イベント検出部は、変動領域の存在するシーン、人物領域が存在するシーン、顔領域が存在するシーン、予め設定される属性に応じた人物が存在するシーン、及び予め設定される個人が存在するシーンのうちの少なくとも1つをイベントとして検出し、イベントとして検出するシーン毎に異なるレベルを判定する、請求項1に記載の映像検索装置。
【請求項3】
前記イベント検出部は、人物の年齢、性別、メガネの有無、メガネの種類、マスクの有無、マスクの種類、帽子の着用有無、帽子の種類、ひげ、ほくろ、しわ、怪我、髪型、髪の毛の色、服の色、服の形、帽子、装飾品、顔付近への着用物、表情、裕福度、及び人種のうちの少なくとも1つを属性として設定する、請求項2に記載の映像検索装置。
【請求項4】
前記イベント検出部は、連続するフレームからイベントを検出する場合、連続する複数のフレームを1つのイベントとして検出する請求項2に記載の映像検索装置。
【請求項5】
前記イベント検出部は、検出したイベントに含まれるフレームのうち、最も顔領域が大きいフレーム、人間の顔の向きが最も正面に近いフレーム、及び顔領域の画像のコントラストが最も大きなフレームのうちの少なくとも1つをベストショットとして選択する、請求項5に記載の映像検索装置。
【請求項6】
前記イベント検出部は、イベントを検出したフレームの前記入力映像における位置を示すフレーム情報をイベントに付与する、請求項2に記載の映像検索装置。
【請求項7】
前記出力部は、前記入力映像を表示する再生画面と、前記イベント管理部により保持されているイベントの前記入力映像における位置を示すイベントマークとを表示し、前記イベントマークが選択される場合、選択されたイベントマークに対応するイベントに付与されているフレーム情報が示すフレームから前記入力映像の再生を行う、請求項6に記載の映像検索装置。
【請求項8】
前記出力部は、前記イベント管理部により保持されているイベントに関する顔領域、上半身領域、全身領域、変動領域全体、及び全体のうちの少なくとも1つの領域の画像または映像として保存する、請求項2に記載の映像検索装置。
【請求項9】
前記イベント検出部は、
前記入力映像が撮影された時刻を推定し、
個人を検出する為の検索用顔画像が撮影された時刻と、前記検索用顔画像の撮影時刻における前記検索用顔画像の人物の年齢と、前記入力映像の撮影時刻とに基づいて、前記入力映像の撮影時刻における前記検索用顔画像の人物の第1の推定年齢を推定し、
前記入力映像に写り込んでいる人物の第2の推定年齢を推定し、
前記第1の推定年齢との差が予め設定される所定値未満である前記第2の推定年齢が推定された人物が写り込んでいるシーンをイベントとして検出する、
請求項2に記載の映像検索装置。
【請求項10】
前記イベント検出部は、前記入力映像に画像として埋め込まれた時刻情報に基づいて前記入力映像が撮影された時刻を推定する、請求項9に記載の映像検索装置。
【請求項11】
前記イベント検出部は、
前記入力映像に写り込む人物のうち、前記検索用顔画像との類似度が予め設定される所定値以上である少なくとも1人以上の人物の第3の推定年齢を推定し、
前記検索用顔画像が撮影された時刻と、前記検索用顔画像の撮影時刻における前記検索用顔画像の人物の年齢と、前記第3の推定年齢とに基づいて前記入力映像が撮影された時刻を推定する、
請求項9に記載の映像検索装置。
【請求項12】
入力される入力映像からイベントを検出し、検出したイベントの種類に応じてレベルを判定し、
前記検出されたイベントを前記レベル毎に保持し、
前記保持されているイベントをレベル毎に出力する、
映像検索方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2012−123460(P2012−123460A)
【公開日】平成24年6月28日(2012.6.28)
【国際特許分類】
【出願番号】特願2010−271508(P2010−271508)
【出願日】平成22年12月6日(2010.12.6)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成24年6月28日(2012.6.28)
【国際特許分類】
【出願日】平成22年12月6日(2010.12.6)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]