説明

画像処理装置、画像処理方法及びプログラム

【課題】認識する物体の向きが画面内で変化する場合であっても、精度良く物体を認識することができる仕組みを提供する。
【解決手段】同一の物体の異なる方向に対応した複数の辞書のデータを格納する辞書記憶手段60と、前記物体に係る前記辞書を用いて所定方向の前記物体を認識する認識手段40と、画像の領域ごとに前記複数の辞書を切り替えて前記認識手段に適用する辞書・照合領域設定手段(切替え手段)70とを備え、前記画像の領域に用いられる前記辞書の適用領域は、重複していることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カメラから取得されるフレーム画像等から物体を認識する技術に関するものである。
【背景技術】
【0002】
従来より、店舗等の入り口や通路を通行する人をカメラで撮影し、撮影した映像より人物の顔の位置を検出して、通過した人数を計測したり、予め登録されている人物の顔であるかを認識したりする技術が開示されている。
【0003】
このような所定領域における通行人をカメラ映像から自動的にカウントする技術としては、例えば、下記の特許文献1がある。この特許文献1では、通路の上方から真下に向けてカメラを設置する。カメラ上方から見た人物の頭の形状が円であることから、カメラ映像から円形の物体を抽出することで人物を検知、カウントするようにしている。
【0004】
一方、近年、画像から顔を検出する技術の実用化が進んでいる。このような技術を利用して、後述する図1に示すように通路の前方にカメラを設置して、カメラ映像から顔を検出することで人物をカウントすることも可能である。
【0005】
ここで、カメラが広い範囲を撮影するほど、カメラと人物の位置関係で、顔の向きが異なって撮影されることになる。そして、顔の向きが変化すると、顔の特徴が異なってくる。従って、認識が困難になる。
【0006】
この課題に対応するために、下記の特許文献2では、顔の向きに応じて認識辞書を用意し、フレーム画像を複数の領域に分け、それぞれの領域で適用する認識辞書を変更していた。ここで、例として図11の場合を挙げる。
【0007】
図11は、カメラからの距離に応じて撮影される顔の向きが異なることを説明する模式図である。
図11において、1101は通路の天井であり、1102は床である。1103がカメラであり、天井1101に設置され、通路を斜め上より撮影している。1104のようにカメラ1103から遠い位置に人物がいた場合、撮影された顔の垂直方向の向きは小さい角度になるが、1105のようにカメラ1103から近い位置に人物がいた場合、顔の垂直方向の向きは大きな角度になる。
【0008】
図12は、顔の特徴が見え方によって変化することを説明する模式図である。
1201が、人物1104のようにカメラ1103から遠い位置に人物がいる時であり、1202が、人物1105のようにカメラ1103に近い位置に人物がいるときである。この図12からもわかるように、顔の特徴が見え方によって変化する。
【0009】
図13は、従来技術による課題を説明するための模式図である。
そこで、図13のように、フレーム画像1301を、1302と1303の2つの領域に分け、1302の領域に対しては角度が小さい顔を認識する辞書を用い、1303の領域に対しては角度が大きな顔を認識する辞書を用いるようにしている。即ち、前記例において、1304が、人物1104の位置に人物がいるときに認識される顔のフレーム画像内の位置であり、認識辞書は角度が小さい顔用の辞書が用いられる。また、1305が、人物1105の位置に人物がいるときに認識される顔のフレーム画像内の位置であり、認識辞書は角度が大きい顔用の辞書が用いられる。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開平4−199487号公報
【特許文献2】特開2007−25767号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかしながら、特許文献2では、各認識辞書を適用する領域の境界にあたる位置に顔があると認識が難しくなる。前述の例では、図13の1306の位置に顔があるような場合である。このような位置での顔の角度は、中間的な角度となる。つまり、角度が小さい顔用の辞書からも、角度が大きい顔用の辞書からも、その特徴の変動が最も大きくなる。従って、どちらの認識辞書を用いても認識精度が低くなってしまう傾向にあるため、認識が難しくなるのである。
【0012】
本発明は、このような問題点に鑑みてなされたものであり、認識する物体の向きが画面内で変化する場合であっても、精度良く物体を認識することができる仕組みを提供することを目的とする。
【課題を解決するための手段】
【0013】
前述した目的を達成するために、本発明は、同一の物体の異なる方向に対応した複数の辞書のデータを格納する辞書記憶手段と、前記物体に係る前記辞書を用いて所定方向の前記物体を認識する認識手段と、画像の領域ごとに前記複数の辞書を切り替えて前記認識手段に適用する切替え手段とを備え、前記画像の領域に用いられる前記辞書の適用領域は、重複していることを特徴とする画像処理装置等、を提供する。
【発明の効果】
【0014】
本発明によれば、認識する物体の向きが画面内で変化する場合であっても、精度良く物体を認識することができる。
【図面の簡単な説明】
【0015】
【図1】本発明の実施形態に係る画像処理装置の設置例を示す模式図である。
【図2】本発明の実施形態に係る画像処理装置のハードウェア構成の一例を示すブロック図である。
【図3】本発明の実施形態に係る画像処理装置の機能構成の一例を示すブロック図である。
【図4】本発明の実施形態に係る画像処理装置による画像処理方法の処理手順の一例を示すフローチャートである。
【図5】本発明の実施形態を示し、顔の角度を説明する模式図である。
【図6】本発明の実施形態を示し、認識辞書A及びBの適用できる顔の角度と認識精度との関係を示した模式図である。
【図7】本発明の実施形態を示し、認識辞書A及びBの適用できる領域を説明する模式図である。
【図8】画像から顔パターンの探索を行う方法を説明する図である。
【図9】本発明の実施形態を示し、辞書と照合領域を切り替える動作を説明するフローチャートである。
【図10】本発明の実施形態を示し、軌跡の生成とカウントの一例を示した模式図である。
【図11】カメラからの距離に応じて撮影される顔の向きが異なることを説明する模式図である。
【図12】顔の特徴が見え方によって変化することを説明する模式図である。
【図13】従来技術による課題を説明するための模式図である。
【発明を実施するための形態】
【0016】
以下に、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。
【0017】
なお、以下に挙げる実施形態は、通路を通過する人数を計測する例で説明する。
図1は、本発明の実施形態に係る画像処理装置の設置例を示す模式図である。
101は、通路の天井であり、102は通路の床である。103は通路を通行している人物である。104は撮像部(カメラ)であり、人物103を斜め上から撮影できるように、天井101に設置してある。105はLANケーブルであり、撮像部104で撮像される映像を送信する。106は、映像を解析し、計数する画像処理装置となるPCである。
【0018】
図2は、本発明の実施形態に係る画像処理装置106のハードウェア構成の一例を示すブロック図である。
図2において、201はCPUであり、本実施形態の画像処理装置106における各種制御を実行する。202はROMであり、本画像処理装置106の立ち上げ時に実行されるブートプログラムや各種データを格納する。203はRAMであり、CPU201が処理するための制御プログラムを格納するとともに、CPU201が各種制御を実行する際の作業領域を提供する。204はキーボード、205はマウスであり、ユーザによる各種入力操作環境を提供する。
【0019】
206は外部記憶装置であり、ハードディスクやフレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ等で構成される。ただし、外部記憶装置206は、制御プログラムや各種データを全てROM202に持つようにすれば、必ずしも必要な構成要素ではない。本実施形態においては、本発明の処理に係る制御プログラムは、ROM202(或いは外部記憶装置206)に格納されているものとする。
【0020】
207は表示装置であり、ディスプレイなどで構成され、結果等をユーザに対して表示する。208はネットワークインターフェース(NIC)であり、ネットワーク上の撮像部104とLANケーブル105を介した通信を可能とする。209はビデオインターフェース(ビデオI/F)であり、撮像部104と同軸ケーブルを解したフレーム画像の取り込みを可能とする。また、210は上記の各構成を接続するバスである。
【0021】
図3は、本発明の実施形態に係る画像処理装置106の機能構成の一例を示すブロック図である。
10は、撮像レンズ、及び、CCD、CMOSなどの撮像センサからなる撮像手段である。この撮像手段10は、図1の撮像部104に相当するものである。
【0022】
30は、画像取得手段であり、撮像手段10で撮像した画像データを所定時間間隔で取得し、時間的に連続した複数フレーム単位で出力する。フレーム画像は、撮像部104から、LANケーブル105を介してhttpプロトコルのパケットデータとして送られ、画像処理装置106上のネットワークインターフェース208を介して取得する。或いは、105を同軸ケーブルで構成し、画像処理装置106上のビデオインターフェース209で取得するようにしてもよい。
【0023】
40は、物体認識手段であり、画像取得手段30で取得した画像データに所望の物体が映っているかどうかを認識処理する。具体的に、物体認識手段40は、物体に係る辞書を用いて所定方向の物体を認識する処理を行う。
50は、認識結果分析・出力手段であり、物体認識手段40で認識した結果を分析し、分析した結果を、例えば、表示装置207に表示するように出力する。
【0024】
60は、物体辞書記憶手段であり、物体認識手段40で用いる所望の認識対象に対応する物体辞書を記憶したメモリである。具体的に、物体辞書記憶手段60は、同一の物体の異なる方向に対応した複数の辞書のデータを格納する。物体辞書は、数多くの所定方向の物体パターンから機械学習により予め求められたものである。外部記憶装置206に記憶され、プログラムの起動時などにRAM203に読み込まれる。なお、本実施形態では、顔の垂直方向の角度に応じた、複数の認識辞書を用意しているものとする。もちろん、角度が異なる方向(水平方向等)の角度に応じて認識辞書を分けてもよいが、説明を簡単にするために、以降、垂直方向の角度に応じた認識辞書の例で説明する。
70は、辞書・照合領域設定手段であり、物体辞書記憶手段60に記憶されている複数の認識辞書から使用する認識辞書の選択と、選択された認識辞書を切替えて使用して照合を行ってフレーム画像内の領域ごとに物体認識手段40に設定する。即ち、辞書・照合領域設定手段70は、フレーム画像の領域ごとに複数の辞書を切り替えて物体認識手段40に適用する切替え手段を構成する。
【0025】
80は、辞書適用領域決定手段であり、物体辞書記憶手段60に記憶された認識辞書に対するフレーム画像内の照合領域を決定する。
90は、辞書適用領域記憶手段あり、辞書適用領域決定手段80で決定された認識辞書に対するフレーム画像内の照合領域を記憶する。
【0026】
図3の画像取得手段30、物体認識手段40、辞書・照合領域設定手段70、辞書適用領域決定手段80は、例えば、図2のCPU201及びROM202(或いは外部記憶装置206)に格納されている制御プログラム、並びにRAM203から構成されている。また、認識結果分析・出力手段50は、例えば、図2のCPU201及びROM202(或いは外部記憶装置206)に格納されている制御プログラム、RAM203、並びに、表示装置207から構成されている。また、物体辞書記憶手段60、辞書適用領域記憶手段90は、例えば、図2の外部記憶装置に構成される。
【0027】
図4は、本発明の実施形態に係る画像処理装置106による画像処理方法の処理手順の一例を示すフローチャートである。
【0028】
まず、ステップS400において、辞書適用領域決定手段80は、フレーム画像内で適用できる、顔の角度の範囲が異なる複数の認識辞書のそれぞれが適用できる領域を決定する。これは、フレーム画像内の顔の位置と、その位置に顔が存在するときの顔の角度との関係より決定できる。なお、本実施形態では、垂直方向の角度であるものとして説明する。
【0029】
顔の角度は、人物が直立しているときの水平方向を0度として現される、図5のΘとして示した角度である。
図5は、本発明の実施形態を示し、顔の角度を説明する模式図である。
ここで、図5の501は通路の天井、502は通路の床、503は撮像部(カメラ)、504は人物である。
【0030】
図5にも示している通り、Θは天井に沿った直線と、カメラ503から人物504の顔まで引いた直線(図5の実線)とのなす角に等しい。従って、カメラ503から人物504までの距離(図5中のX)と(カメラ503の地面からの高さ−顔の地面からの高さ)(図5中のY)を求めることにより、Θは、以下の数式(1)で求めることができる。
Θ=tan-1((カメラ503の地面からの高さ−顔の地面からの高さ)/カメラ503から人物までの距離) ・・・(1)
【0031】
Θの範囲は、どの範囲を撮影できるかによるので、カメラ503の画角と設置時のカメラ503の角度で決まる。図5の例では、点線が撮影できる範囲である。人物504の顔の高さは、例えば平均的な身長の人物を想定すればよいので、カメラ503の設置条件(カメラの高さ、カメラの角度、カメラの画角)が決まれば、計算により求めることができる。そこで、カメラ503の設置条件をユーザに入力させ、数式(1)によってフレーム画像内の顔の位置と顔の角度の関係を求めることができる。
【0032】
また、フレーム画像内の任意の位置(y)と顔の角度Θの関係式(Θ=f(y))を定義し、設置時にいくつかの値を入力して、f(y)を求めるようにしてもよい。例えば、フレーム画像内の任意の位置(y)と顔の角度Θが以下の数式(2)の一次式で表せるとする。
Θ=ay+b ・・・(2)
そうすると、2つ以上のフレーム画面内の位置と顔の角度を予め計測しておけば、係数a、定数bを求めることができる。よって、実際にカメラ503の前に人物504を2地点以上立たせ、それぞれのフレーム画面内の位置とカメラ503からの距離を入力するようにして、係数a、定数bを求めるようにしてもよい。
【0033】
次に、認識辞書について説明する。
認識辞書は、その適用できる顔の角度の範囲が重なるように作成されたものを用いる。
図6は、本発明の実施形態を示し、認識辞書A及びBの適用できる顔の角度と認識精度との関係を示した模式図である。
【0034】
図6では、横軸に認識辞書が適用可能な顔の角度、縦軸に認識精度を示しており、601は認識辞書A、602は認識辞書Bを示している。このとき、認識辞書A(601)の適用可能な顔の角度の範囲は603(Θ1)から604(Θ3)、認識辞書B(602)の適用可能な顔の角度の範囲は605(Θ2)から606(Θ4)である。なお、Θ1<Θ2<Θ3<Θ4である。
【0035】
既に、[発明が解決しようとしている課題]で述べたように、適用できる顔の角度の範囲の端に近くなると認識精度が落ちてくる。そこで、本実施形態では、2つの認識辞書によって、認識精度の低下を補完しあえるように、適用可能な顔の角度の範囲(画像の領域)が重複するように辞書を作成する。図6の例では、605(Θ2)から604(Θ3)の範囲が相当する。重なりの大きさは、認識精度の許容範囲をどの程度にするかによって決定できる。このようにして作成された2つの認識辞書A及びBを用いることによって、常に認識精度の高い顔検出を可能とする。また、認識辞書A及びBを適用するフレーム画像内の領域は、前述のフレーム画像内の顔の位置と顔の角度との関係を用いて、次のように重複するように決められる。
【0036】
図7は、本発明の実施形態を示し、認識辞書A及びBの適用できる領域を説明する模式図である。
図7の例では、図7(a)の701(斜線領域)は、顔の位置が上端から下端に向かうに従って、顔の角度がΘ1からΘ3まで変化する。そこで、この領域については、認識辞書A(601)が適用可能である。
【0037】
図7(b)の702(斜線領域)は顔の位置が上端から下端に向かうに従って、顔の角度が角度Θ2からΘ4まで変化する。そこで、この領域については、認識辞書B(602)が適用可能である。図7(a)及び(b)を重ねて描くと、図7(c)のようになり、704(横線領域)の部分はΘ2<Θ3の領域であり、認識辞書A及び認識辞書Bの両方が適用可能である。即ち、領域704においては、画像の領域に用いられる認識辞書の適用領域は、重複している。
【0038】
以上のようにして、顔の角度の範囲が異なる複数の認識辞書のそれぞれが適用できる領域を決定することができる。これらの領域は、辞書適用領域記憶手段90に保存される。
【0039】
ここで、再び、図4の説明に戻る。
ステップS400の処理が終了すると、ステップS401に進む。
ステップS401に進むと、画像処理装置106は、処理を終了するか否かを判断する。
【0040】
ステップS401の判断の結果、電源OFFやキーボード204やマウス205を介してユーザから処理の終了の指示があると、本フローチャートの処理を終了する。
【0041】
一方、ステップS401の判断の結果、ユーザから処理の終了の指示がなかった場合、ステップS402に進む。即ち、ユーザから処理の終了の指示があるまで、ステップS402〜ステップS406の処理を繰り返し行う。
【0042】
ステップS402に進むと、画像取得手段30は、撮像手段10へ入力された映像から、前述した方法によりフレーム画像として取得する。
ここで読み込まれた画像データは、例えば、8ビットの画素により構成される2次元配列のデータであり、R、G、Bの3つの面により構成される。このとき、画像データがJPEG等の方式により圧縮されている場合には、画像データを所定の解凍方式にしたがって解凍し、RGB各画素により構成される画像データとする。さらに、本実施形態では、RGBデータを輝度データに変換し、輝度画像データを以後の処理に適用するものとし、画像メモリ(例えば、図2の外部記憶装置206)に格納する。画像データとしてYCrCbのデータを入力する場合には、Y成分をそのまま輝度データとしてもよい。
【0043】
続いて、ステップS403において、物体認識手段40は、内部の画像メモリに転送された画像データから、辞書・照合領域設定手段70で設定された辞書データと照合を行い、所望の物体を認識する。
【0044】
ここで、まず、一般的な物体認識方法について説明する。
公知技術1や公知技術2で提案されている方法が知られている。
例えば、公知技術1では、ニューラル・ネットワークにより画像中の顔パターンを検出する技術である。以下、その方法について簡単に説明する。
【0045】
まず、顔の検出を対象とする画像データをメモリに読み込み、顔と照合する所定の領域を読み込んだ画像中から切り出す。そして、切り出した領域の画素値の分布を入力としてニューラル・ネットワークによる演算で1つの出力を得る。このとき、ニューラル・ネットワークの重み、閾値が膨大な顔画像パターンと非顔画像パターンにより予め学習されており、例えば、ニューラル・ネットワークの出力が0以上なら顔、それ以外は非顔であると判別する。ここで、重みや閾値が辞書データとなる。そして、ニューラル・ネットワークの入力である顔と照合する画像パターンの切り出し位置を、例えば、図8に示すように、画像全域から縦横順次に走査していくことにより、画像中から顔を検出する。
図8は、画像から顔パターンの探索を行う方法を説明する図である。
具体的には、画像全域801を縦横順次に走査して、照合するパターン802を抽出し。この照合するパターン802に対して、顔判別処理803を行う。
【0046】
また、処理の高速化に着目した例としては、公知技術2がある。この技術の中では、AdaBoostを使って多くの弱判別器を有効に組合せて顔判別の精度を向上させる一方、夫々の弱判別器をHaarタイプの矩形特徴量で構成し、しかも矩形特徴量の算出を、積分画像を利用して高速に行っている。また、AdaBoost学習によって得た判別器を直列に繋ぎ、カスケード型の顔検出器を構成するようにしている。このカスケード型の顔検出器は、まず前段の単純な判別器を使って明らかに顔でないパターンの候補をその場で除去する。そして、それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な判別器を使って顔かどうかの判定を行っている。これにより、すべての候補に対して複雑な判定を行う必要がないので高速である。なお、公知技術1と同様に判別器で用いる重みや閾値が辞書データとなる。
【0047】
次に、本実施形態において、特徴的な辞書・照合領域設定手段70等による動作について、図9のフローチャートを用いて説明する。
図9は、本発明の実施形態を示し、辞書と照合領域を切り替える動作を説明するフローチャートである。
【0048】
まず、ステップS900において、辞書・照合領域設定手段70は、全てのフレームについて処理が行われたか否かを判断する。この判断の結果、全てのフレームについて処理が行われた場合には、本フローチャートの処理を終了する。
【0049】
一方、全てのフレームについては未だ処理が行われていない場合には、ステップS901に進む。即ち、全てのフレームについては未だ処理が行われていない場合には、ステップS901〜ステップS909又はS910までの処理を繰り返す。
【0050】
続いて、ステップS901において、辞書・照合領域設定手段70は、物体辞書記憶手段60から読み込まれた複数の認識辞書の中から、認識辞書Aを選択し、物体認識手段40へ設定する。
【0051】
続いて、ステップS902において、辞書・照合領域設定手段70は、認識辞書Aの照合領域を、辞書適用領域記憶手段90から読み出して、物体認識手段40へ設定する。前述の通り認識辞書Aの照合領域は図7(a)の701になる。
【0052】
続いて、ステップS903において、物体認識手段40は、ステップS901で設定された認識辞書Aを用いて、ステップS902で設定された照合領域の範囲で、辞書との照合を行う。
【0053】
続いて、ステップS904において、辞書・照合領域設定手段70は、物体辞書記憶手段60から読み込まれた複数の認識辞書の中から、認識辞書Bを選択し、物体認識手段40へ設定する。
【0054】
続いて、ステップS905において、辞書・照合領域設定手段70は、認識辞書Bの照合領域を、辞書適用領域記憶手段90より読み出して、物体認識手段40へ設定する。前述の通り認識辞書Bの照合領域は図7(b)の702になる。
【0055】
続いて、ステップS906において、物体認識手段40は、ステップS904で設定された認識辞書Bを用いて、ステップS905で設定された照合領域の範囲で、辞書との照合を行う。
【0056】
次に、様々な大きさの顔の認識に対応するために、以降の処理で、フレーム画像を縮小して照合を繰り返す。
まず、ステップS907において、例えば、物体認識手段40(或いは辞書・照合領域設定手段70)は、縮小が十分で行われたか否かを判断する。ここでは、照合に用いる画像パターンと同じサイズまで縮小したとき、フレーム画像内で最大の顔を検出することになる。
【0057】
ステップS907の判断の結果、縮小が十分でない、即ち、照合に用いる画像パターンよりも小さくならない範囲で縮小可能であるときには、ステップS908へ進む。
【0058】
ステップS908に進むと、物体認識手段40は、所定の縮小率でフレーム画像を縮小する。
【0059】
続いて、ステップS909において、辞書・照合領域設定手段70は、認識辞書Aと認識辞書Bの照合領域を、ステップS908と同じ縮小率で縮小する。そして、その後、ステップS901へ戻る。
【0060】
以降、ステップS908において縮小されたフレーム画像に対して、ステップS901〜ステップS906の処理を行う。ここで、ステップS902とステップS905で設定される照合領域には、ステップS909で縮小された領域を用いられる。
【0061】
以上のように、1枚のフレーム画像に対して、ステップS901〜ステップS909の処理を繰り返す。
【0062】
一方、ステップS907の判断の結果、照合に用いる画像パターンと同じサイズまで縮小したときには、ステップS910へ進み、画像取得手段30は、次のフレーム画像を取得し、ステップS900へ戻る。
【0063】
以上の処理によって、顔の角度の適用範囲が重なっている2つの認識辞書A及びBを用いることで、顔がフレーム画像内のどの位置にあっても、高精度な認識ができるようになる。しかしながら、毎フレーム、認識辞書Aと認識辞書Bの両方を用いると、重なり部分(図7(c)の704)は2重に認識辞書との照合(ステップS903とステップS906)が行われることになる。これでは、演算コストが増大してしまう。そこで、以下の方法によって、この課題を回避することが可能である。
【0064】
Nフレーム目とN+1フレーム目で、使用する認識辞書と照合領域を変更する(ただし、Nには自然数が入る)。即ち、Nフレームでは、辞書・照合領域設定手段70は、認識辞書Aを設定し、照合は画像全体ではなく図7(a)の701の領域に対してのみ行う。そして、N+1フレームでは辞書・照合領域設定手段70は、認識辞書Bを設定し、図7(b)の702の領域に対してのみ行う。このように連続したフレームごとに使用する辞書と、照合の領域を切り替えながら、認識を行う。これにより、顔がフレーム画像内のどの位置にあってもNフレームかN+1フレームのどちらかで認識されることになる。また、フレームごとの照合の領域が制限されるので、フレーム画像の全領域について照合を行う場合に比べて、演算コストが少なくてすむ。
【0065】
なお、認識結果としては、NフレームとN+1フレームを論理和したものを使用すればよい。重なりの部分において、Nフレーム目とN+1フレーム目の両方で認識されても、前後のフレーム間の時間差が十分に小さければ、位置はほとんど変わらないので、同じものであると判定することは容易である。
【0066】
ここで、再び、図4の説明に戻る。
ステップS403の処理が終了すると、続いて、ステップS404に進む。
ステップS404に進むと、認識結果分析・出力手段50は、現在から所定時間前までの間に検出された被写体領域をRAM203より読み出して、軌跡を生成する。これは、所定時間内に検出された複数ある顔のうち、どれが同一の人物の動きに対応するかを求める処理である。
【0067】
この処理の詳細について、図10を用いて説明する。
図10は、本発明の実施形態を示し、軌跡の生成とカウントの一例を示した模式図である。
【0068】
図10において、1001は撮像しているフレーム全体である。ここに、所定の時間に検出された顔の領域を、矩形で表現して重ね描きしている(1003〜1005)。図10の例では、3フレーム分を重ね描きしており、最も古いフレームでは1003が、次のフレームでは1004が、その次の現在のフレームでは、1005が検出されているものとする。これらの軌跡を求める方法としては、各領域の中心を求め、各領域の中心間の距離が最小となるもの同士を同一の被写体とみなし、線分で接続するようにすればよい。このようにして求めた軌跡が、図10の例では1009となる。
【0069】
続いて、ステップS405において、認識結果分析・出力手段50は、ステップS404で作成された軌跡が、所定の条件を満たすかどうかをチェックし、条件を満たしていればカウントする。ここで所定の条件とは、例えば、図10に示した1002のような計測ラインを横切っているかどうか、である。計測ライン1002は、ユーザによってフレーム画面内に設定される。図10の例では、軌跡1009が計測ライン1002を横切っているので、1とカウントされる。もし、まだ、計測ライン1002を横切っていない軌跡が存在すれば、この時点では、カウントされない。
【0070】
続いて、ステップS406において、認識結果分析・出力手段50は、カウントした結果をユーザに対して表示する。
【0071】
その後、再び、ステップS401に戻る。
【0072】
以上のように、適用範囲が重なる辞書を複数用意し、奇数フレームと偶数フレームで使用する辞書と照合範囲を切り替えるようにした。これにより、認識する物体の向きが画面内で変化する場合であっても精度よく認識することができる。
【0073】
本実施形態では、辞書・照合領域設定手段70が使用する認識辞書と照合する範囲をフレームごとに交互に変更したが、次のような方法であっても良い。即ち、図7(c)の703の範囲については、認識辞書Aを用いて照合を行う。重なりの領域704に対しても、まずは認識辞書Aを用いて照合を行うが、このとき、認識辞書との照合の結果得られる確からしさ(尤度)を元に、尤度マップを作成する。尤度は、辞書との照合の際の、閾値処理を施す前の演算結果より得られる。
【0074】
次に、尤度マップを参照し、尤度が所定値以下の部分に対してのみ認識辞書Bを用いて照合を行う。図7(c)の705に対しては、認識辞書Bを用いて照合を行う。このようにすると、図7(c)の704については部分的に2重に照合を行うことになるが、公知技術2のカスケード型の判別器を用いる場合には、尤度が低いものは、前段の判別器で判定できるため、照合にかかる時間は極めて少なくなる。従って、演算コストは大きく増えることはない。
【0075】
本実施形態では、顔の位置を検出する例で説明したが、人体全体や上半身、頭部など人物の様々な部位や、自動車や自転車など、様々な物体においても適用可能である。また、特定の人物であるかどうかを個人の顔の特徴から弁別するような場合でも適用可能である。
【0076】
本実施形態では、顔の垂直方向の角度で説明したが、もちろん、水平方向の角度に関しても同様である。
【0077】
また、本実施形態では、認識結果分析・出力手段50は、通路を通行する人数をカウントする例を説明した。しかしながら、所定のエリアの混雑率を計測したり、動線を分析したり、特定の人物に対してアラームを発生させるなど、様々な用途に適用可能である。
【0078】
また、本実施形態では、PCである画像処理装置106において認識、計数、表示まで行うように構成したが、これに限ったものではない。例えば、物体認識手段40から辞書適用領域記憶手段90までの全てをチップに納め、撮像部104と一体化させることにより、計数結果のみLANケーブル105を介して画像処理装置106にて受信し、計数結果を閲覧するようにしてもよい。或いは、物体認識手段40、辞書・照合領域設定手段70、物体辞書記憶手段60、辞書適用領域決定手段80、辞書適用領域記憶手段90を撮像部104と一体化する。そして、認識結果のみLANケーブル105を介して画像処理装置106にて受信して画像処理装置106において計数するようにしてもよい。
なお、本実施形態は、コンピュータ内でプログラムを実行することによっても実現することができることは当然である。
【0079】
また、本実施形態では、フレーム画像の領域ごとに複数の辞書を切り替える例を説明したが、例えば、画像が時間的に連続した画像であって、画像ごとに使用する辞書を切り替える形態も適用可能である。
【0080】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。
即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
このプログラム及び当該プログラムを記憶したコンピュータ読み取り可能な記録媒体は、本発明に含まれる。
【符号の説明】
【0081】
10 撮像手段、30 画像取得手段、40 物体認識手段、50 認識結果分析・出力手段、60 物体辞書記憶手段、70 辞書・照合領域設定手段、80 辞書適用領域決定手段、90 辞書適用領域記憶手段

【特許請求の範囲】
【請求項1】
同一の物体の異なる方向に対応した複数の辞書のデータを格納する辞書記憶手段と、
前記物体に係る前記辞書を用いて所定方向の前記物体を認識する認識手段と、
画像の領域ごとに前記複数の辞書を切り替えて前記認識手段に適用する切替え手段と
を備え、
前記画像の領域に用いられる前記辞書の適用領域は、重複していることを特徴とする画像処理装置。
【請求項2】
前記画像は、時間的に連続した画像であり、
前記切替え手段は、画像ごとに使用する辞書を切り替えることを特徴とする請求項1に記載の画像処理装置。
【請求項3】
同一の物体の異なる方向に対応した複数の辞書のデータを格納する辞書記憶ステップと、
前記物体に係る前記辞書を用いて所定方向の前記物体を認識する認識ステップと、
画像の領域ごとに前記複数の辞書を切り替えて前記認識ステップに適用する切替えステップと
を備え、
前記画像の領域に用いられる前記辞書の適用領域は、重複していることを特徴とする画像処理方法。
【請求項4】
請求項3に記載の画像処理方法の各ステップをコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−104964(P2012−104964A)
【公開日】平成24年5月31日(2012.5.31)
【国際特許分類】
【出願番号】特願2010−250207(P2010−250207)
【出願日】平成22年11月8日(2010.11.8)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】