画像処理装置、画像処理方法及びプログラム

【課題】認識する物体の向きが画面内で変化する場合であっても、精度良く物体を認識することができる仕組みを提供する。
【解決手段】同一の物体の異なる方向に対応した複数の辞書のデータを格納する辞書記憶手段６０と、前記物体に係る前記辞書を用いて所定方向の前記物体を認識する認識手段４０と、画像の領域ごとに前記複数の辞書を切り替えて前記認識手段に適用する辞書・照合領域設定手段（切替え手段）７０とを備え、前記画像の領域に用いられる前記辞書の適用領域は、重複していることを特徴とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、カメラから取得されるフレーム画像等から物体を認識する技術に関するものである。
【背景技術】
【０００２】
従来より、店舗等の入り口や通路を通行する人をカメラで撮影し、撮影した映像より人物の顔の位置を検出して、通過した人数を計測したり、予め登録されている人物の顔であるかを認識したりする技術が開示されている。
【０００３】
このような所定領域における通行人をカメラ映像から自動的にカウントする技術としては、例えば、下記の特許文献１がある。この特許文献１では、通路の上方から真下に向けてカメラを設置する。カメラ上方から見た人物の頭の形状が円であることから、カメラ映像から円形の物体を抽出することで人物を検知、カウントするようにしている。
【０００４】
一方、近年、画像から顔を検出する技術の実用化が進んでいる。このような技術を利用して、後述する図１に示すように通路の前方にカメラを設置して、カメラ映像から顔を検出することで人物をカウントすることも可能である。
【０００５】
ここで、カメラが広い範囲を撮影するほど、カメラと人物の位置関係で、顔の向きが異なって撮影されることになる。そして、顔の向きが変化すると、顔の特徴が異なってくる。従って、認識が困難になる。
【０００６】
この課題に対応するために、下記の特許文献２では、顔の向きに応じて認識辞書を用意し、フレーム画像を複数の領域に分け、それぞれの領域で適用する認識辞書を変更していた。ここで、例として図１１の場合を挙げる。
【０００７】
図１１は、カメラからの距離に応じて撮影される顔の向きが異なることを説明する模式図である。
図１１において、１１０１は通路の天井であり、１１０２は床である。１１０３がカメラであり、天井１１０１に設置され、通路を斜め上より撮影している。１１０４のようにカメラ１１０３から遠い位置に人物がいた場合、撮影された顔の垂直方向の向きは小さい角度になるが、１１０５のようにカメラ１１０３から近い位置に人物がいた場合、顔の垂直方向の向きは大きな角度になる。
【０００８】
図１２は、顔の特徴が見え方によって変化することを説明する模式図である。
１２０１が、人物１１０４のようにカメラ１１０３から遠い位置に人物がいる時であり、１２０２が、人物１１０５のようにカメラ１１０３に近い位置に人物がいるときである。この図１２からもわかるように、顔の特徴が見え方によって変化する。
【０００９】
図１３は、従来技術による課題を説明するための模式図である。
そこで、図１３のように、フレーム画像１３０１を、１３０２と１３０３の２つの領域に分け、１３０２の領域に対しては角度が小さい顔を認識する辞書を用い、１３０３の領域に対しては角度が大きな顔を認識する辞書を用いるようにしている。即ち、前記例において、１３０４が、人物１１０４の位置に人物がいるときに認識される顔のフレーム画像内の位置であり、認識辞書は角度が小さい顔用の辞書が用いられる。また、１３０５が、人物１１０５の位置に人物がいるときに認識される顔のフレーム画像内の位置であり、認識辞書は角度が大きい顔用の辞書が用いられる。
【先行技術文献】
【特許文献】
【００１０】
【特許文献１】特開平４−１９９４８７号公報
【特許文献２】特開２００７−２５７６７号公報
【発明の概要】
【発明が解決しようとする課題】
【００１１】
しかしながら、特許文献２では、各認識辞書を適用する領域の境界にあたる位置に顔があると認識が難しくなる。前述の例では、図１３の１３０６の位置に顔があるような場合である。このような位置での顔の角度は、中間的な角度となる。つまり、角度が小さい顔用の辞書からも、角度が大きい顔用の辞書からも、その特徴の変動が最も大きくなる。従って、どちらの認識辞書を用いても認識精度が低くなってしまう傾向にあるため、認識が難しくなるのである。
【００１２】
本発明は、このような問題点に鑑みてなされたものであり、認識する物体の向きが画面内で変化する場合であっても、精度良く物体を認識することができる仕組みを提供することを目的とする。
【課題を解決するための手段】
【００１３】
前述した目的を達成するために、本発明は、同一の物体の異なる方向に対応した複数の辞書のデータを格納する辞書記憶手段と、前記物体に係る前記辞書を用いて所定方向の前記物体を認識する認識手段と、画像の領域ごとに前記複数の辞書を切り替えて前記認識手段に適用する切替え手段とを備え、前記画像の領域に用いられる前記辞書の適用領域は、重複していることを特徴とする画像処理装置等、を提供する。
【発明の効果】
【００１４】
本発明によれば、認識する物体の向きが画面内で変化する場合であっても、精度良く物体を認識することができる。
【図面の簡単な説明】
【００１５】
【図１】本発明の実施形態に係る画像処理装置の設置例を示す模式図である。
【図２】本発明の実施形態に係る画像処理装置のハードウェア構成の一例を示すブロック図である。
【図３】本発明の実施形態に係る画像処理装置の機能構成の一例を示すブロック図である。
【図４】本発明の実施形態に係る画像処理装置による画像処理方法の処理手順の一例を示すフローチャートである。
【図５】本発明の実施形態を示し、顔の角度を説明する模式図である。
【図６】本発明の実施形態を示し、認識辞書Ａ及びＢの適用できる顔の角度と認識精度との関係を示した模式図である。
【図７】本発明の実施形態を示し、認識辞書Ａ及びＢの適用できる領域を説明する模式図である。
【図８】画像から顔パターンの探索を行う方法を説明する図である。
【図９】本発明の実施形態を示し、辞書と照合領域を切り替える動作を説明するフローチャートである。
【図１０】本発明の実施形態を示し、軌跡の生成とカウントの一例を示した模式図である。
【図１１】カメラからの距離に応じて撮影される顔の向きが異なることを説明する模式図である。
【図１２】顔の特徴が見え方によって変化することを説明する模式図である。
【図１３】従来技術による課題を説明するための模式図である。
【発明を実施するための形態】
【００１６】
以下に、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。
【００１７】
なお、以下に挙げる実施形態は、通路を通過する人数を計測する例で説明する。
図１は、本発明の実施形態に係る画像処理装置の設置例を示す模式図である。
１０１は、通路の天井であり、１０２は通路の床である。１０３は通路を通行している人物である。１０４は撮像部（カメラ）であり、人物１０３を斜め上から撮影できるように、天井１０１に設置してある。１０５はＬＡＮケーブルであり、撮像部１０４で撮像される映像を送信する。１０６は、映像を解析し、計数する画像処理装置となるＰＣである。
【００１８】
図２は、本発明の実施形態に係る画像処理装置１０６のハードウェア構成の一例を示すブロック図である。
図２において、２０１はＣＰＵであり、本実施形態の画像処理装置１０６における各種制御を実行する。２０２はＲＯＭであり、本画像処理装置１０６の立ち上げ時に実行されるブートプログラムや各種データを格納する。２０３はＲＡＭであり、ＣＰＵ２０１が処理するための制御プログラムを格納するとともに、ＣＰＵ２０１が各種制御を実行する際の作業領域を提供する。２０４はキーボード、２０５はマウスであり、ユーザによる各種入力操作環境を提供する。
【００１９】
２０６は外部記憶装置であり、ハードディスクやフレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ等で構成される。ただし、外部記憶装置２０６は、制御プログラムや各種データを全てＲＯＭ２０２に持つようにすれば、必ずしも必要な構成要素ではない。本実施形態においては、本発明の処理に係る制御プログラムは、ＲＯＭ２０２（或いは外部記憶装置２０６）に格納されているものとする。
【００２０】
２０７は表示装置であり、ディスプレイなどで構成され、結果等をユーザに対して表示する。２０８はネットワークインターフェース（ＮＩＣ）であり、ネットワーク上の撮像部１０４とＬＡＮケーブル１０５を介した通信を可能とする。２０９はビデオインターフェース（ビデオＩ／Ｆ）であり、撮像部１０４と同軸ケーブルを解したフレーム画像の取り込みを可能とする。また、２１０は上記の各構成を接続するバスである。
【００２１】
図３は、本発明の実施形態に係る画像処理装置１０６の機能構成の一例を示すブロック図である。
１０は、撮像レンズ、及び、ＣＣＤ、ＣＭＯＳなどの撮像センサからなる撮像手段である。この撮像手段１０は、図１の撮像部１０４に相当するものである。
【００２２】
３０は、画像取得手段であり、撮像手段１０で撮像した画像データを所定時間間隔で取得し、時間的に連続した複数フレーム単位で出力する。フレーム画像は、撮像部１０４から、ＬＡＮケーブル１０５を介してｈｔｔｐプロトコルのパケットデータとして送られ、画像処理装置１０６上のネットワークインターフェース２０８を介して取得する。或いは、１０５を同軸ケーブルで構成し、画像処理装置１０６上のビデオインターフェース２０９で取得するようにしてもよい。
【００２３】
４０は、物体認識手段であり、画像取得手段３０で取得した画像データに所望の物体が映っているかどうかを認識処理する。具体的に、物体認識手段４０は、物体に係る辞書を用いて所定方向の物体を認識する処理を行う。
５０は、認識結果分析・出力手段であり、物体認識手段４０で認識した結果を分析し、分析した結果を、例えば、表示装置２０７に表示するように出力する。
【００２４】
６０は、物体辞書記憶手段であり、物体認識手段４０で用いる所望の認識対象に対応する物体辞書を記憶したメモリである。具体的に、物体辞書記憶手段６０は、同一の物体の異なる方向に対応した複数の辞書のデータを格納する。物体辞書は、数多くの所定方向の物体パターンから機械学習により予め求められたものである。外部記憶装置２０６に記憶され、プログラムの起動時などにＲＡＭ２０３に読み込まれる。なお、本実施形態では、顔の垂直方向の角度に応じた、複数の認識辞書を用意しているものとする。もちろん、角度が異なる方向（水平方向等）の角度に応じて認識辞書を分けてもよいが、説明を簡単にするために、以降、垂直方向の角度に応じた認識辞書の例で説明する。
７０は、辞書・照合領域設定手段であり、物体辞書記憶手段６０に記憶されている複数の認識辞書から使用する認識辞書の選択と、選択された認識辞書を切替えて使用して照合を行ってフレーム画像内の領域ごとに物体認識手段４０に設定する。即ち、辞書・照合領域設定手段７０は、フレーム画像の領域ごとに複数の辞書を切り替えて物体認識手段４０に適用する切替え手段を構成する。
【００２５】
８０は、辞書適用領域決定手段であり、物体辞書記憶手段６０に記憶された認識辞書に対するフレーム画像内の照合領域を決定する。
９０は、辞書適用領域記憶手段あり、辞書適用領域決定手段８０で決定された認識辞書に対するフレーム画像内の照合領域を記憶する。
【００２６】
図３の画像取得手段３０、物体認識手段４０、辞書・照合領域設定手段７０、辞書適用領域決定手段８０は、例えば、図２のＣＰＵ２０１及びＲＯＭ２０２（或いは外部記憶装置２０６）に格納されている制御プログラム、並びにＲＡＭ２０３から構成されている。また、認識結果分析・出力手段５０は、例えば、図２のＣＰＵ２０１及びＲＯＭ２０２（或いは外部記憶装置２０６）に格納されている制御プログラム、ＲＡＭ２０３、並びに、表示装置２０７から構成されている。また、物体辞書記憶手段６０、辞書適用領域記憶手段９０は、例えば、図２の外部記憶装置に構成される。
【００２７】
図４は、本発明の実施形態に係る画像処理装置１０６による画像処理方法の処理手順の一例を示すフローチャートである。
【００２８】
まず、ステップＳ４００において、辞書適用領域決定手段８０は、フレーム画像内で適用できる、顔の角度の範囲が異なる複数の認識辞書のそれぞれが適用できる領域を決定する。これは、フレーム画像内の顔の位置と、その位置に顔が存在するときの顔の角度との関係より決定できる。なお、本実施形態では、垂直方向の角度であるものとして説明する。
【００２９】
顔の角度は、人物が直立しているときの水平方向を０度として現される、図５のΘとして示した角度である。
図５は、本発明の実施形態を示し、顔の角度を説明する模式図である。
ここで、図５の５０１は通路の天井、５０２は通路の床、５０３は撮像部（カメラ）、５０４は人物である。
【００３０】
図５にも示している通り、Θは天井に沿った直線と、カメラ５０３から人物５０４の顔まで引いた直線（図５の実線）とのなす角に等しい。従って、カメラ５０３から人物５０４までの距離（図５中のＸ）と（カメラ５０３の地面からの高さ−顔の地面からの高さ）（図５中のＹ）を求めることにより、Θは、以下の数式（１）で求めることができる。
Θ＝ｔａｎ^-1（（カメラ５０３の地面からの高さ−顔の地面からの高さ）／カメラ５０３から人物までの距離）・・・（１）
【００３１】
Θの範囲は、どの範囲を撮影できるかによるので、カメラ５０３の画角と設置時のカメラ５０３の角度で決まる。図５の例では、点線が撮影できる範囲である。人物５０４の顔の高さは、例えば平均的な身長の人物を想定すればよいので、カメラ５０３の設置条件（カメラの高さ、カメラの角度、カメラの画角）が決まれば、計算により求めることができる。そこで、カメラ５０３の設置条件をユーザに入力させ、数式（１）によってフレーム画像内の顔の位置と顔の角度の関係を求めることができる。
【００３２】
また、フレーム画像内の任意の位置（ｙ）と顔の角度Θの関係式（Θ＝ｆ（ｙ））を定義し、設置時にいくつかの値を入力して、ｆ（ｙ）を求めるようにしてもよい。例えば、フレーム画像内の任意の位置（ｙ）と顔の角度Θが以下の数式（２）の一次式で表せるとする。
Θ＝ａｙ＋ｂ・・・（２）
そうすると、２つ以上のフレーム画面内の位置と顔の角度を予め計測しておけば、係数ａ、定数ｂを求めることができる。よって、実際にカメラ５０３の前に人物５０４を２地点以上立たせ、それぞれのフレーム画面内の位置とカメラ５０３からの距離を入力するようにして、係数ａ、定数ｂを求めるようにしてもよい。
【００３３】
次に、認識辞書について説明する。
認識辞書は、その適用できる顔の角度の範囲が重なるように作成されたものを用いる。
図６は、本発明の実施形態を示し、認識辞書Ａ及びＢの適用できる顔の角度と認識精度との関係を示した模式図である。
【００３４】
図６では、横軸に認識辞書が適用可能な顔の角度、縦軸に認識精度を示しており、６０１は認識辞書Ａ、６０２は認識辞書Ｂを示している。このとき、認識辞書Ａ（６０１）の適用可能な顔の角度の範囲は６０３（Θ１）から６０４（Θ３）、認識辞書Ｂ（６０２）の適用可能な顔の角度の範囲は６０５（Θ２）から６０６（Θ４）である。なお、Θ１＜Θ２＜Θ３＜Θ４である。
【００３５】
既に、［発明が解決しようとしている課題］で述べたように、適用できる顔の角度の範囲の端に近くなると認識精度が落ちてくる。そこで、本実施形態では、２つの認識辞書によって、認識精度の低下を補完しあえるように、適用可能な顔の角度の範囲（画像の領域）が重複するように辞書を作成する。図６の例では、６０５（Θ２）から６０４（Θ３）の範囲が相当する。重なりの大きさは、認識精度の許容範囲をどの程度にするかによって決定できる。このようにして作成された２つの認識辞書Ａ及びＢを用いることによって、常に認識精度の高い顔検出を可能とする。また、認識辞書Ａ及びＢを適用するフレーム画像内の領域は、前述のフレーム画像内の顔の位置と顔の角度との関係を用いて、次のように重複するように決められる。
【００３６】
図７は、本発明の実施形態を示し、認識辞書Ａ及びＢの適用できる領域を説明する模式図である。
図７の例では、図７（ａ）の７０１（斜線領域）は、顔の位置が上端から下端に向かうに従って、顔の角度がΘ１からΘ３まで変化する。そこで、この領域については、認識辞書Ａ（６０１）が適用可能である。
【００３７】
図７（ｂ）の７０２（斜線領域）は顔の位置が上端から下端に向かうに従って、顔の角度が角度Θ２からΘ４まで変化する。そこで、この領域については、認識辞書Ｂ（６０２）が適用可能である。図７（ａ）及び（ｂ）を重ねて描くと、図７（ｃ）のようになり、７０４（横線領域）の部分はΘ２＜Θ３の領域であり、認識辞書Ａ及び認識辞書Ｂの両方が適用可能である。即ち、領域７０４においては、画像の領域に用いられる認識辞書の適用領域は、重複している。
【００３８】
以上のようにして、顔の角度の範囲が異なる複数の認識辞書のそれぞれが適用できる領域を決定することができる。これらの領域は、辞書適用領域記憶手段９０に保存される。
【００３９】
ここで、再び、図４の説明に戻る。
ステップＳ４００の処理が終了すると、ステップＳ４０１に進む。
ステップＳ４０１に進むと、画像処理装置１０６は、処理を終了するか否かを判断する。
【００４０】
ステップＳ４０１の判断の結果、電源ＯＦＦやキーボード２０４やマウス２０５を介してユーザから処理の終了の指示があると、本フローチャートの処理を終了する。
【００４１】
一方、ステップＳ４０１の判断の結果、ユーザから処理の終了の指示がなかった場合、ステップＳ４０２に進む。即ち、ユーザから処理の終了の指示があるまで、ステップＳ４０２〜ステップＳ４０６の処理を繰り返し行う。
【００４２】
ステップＳ４０２に進むと、画像取得手段３０は、撮像手段１０へ入力された映像から、前述した方法によりフレーム画像として取得する。
ここで読み込まれた画像データは、例えば、８ビットの画素により構成される２次元配列のデータであり、Ｒ、Ｇ、Ｂの３つの面により構成される。このとき、画像データがＪＰＥＧ等の方式により圧縮されている場合には、画像データを所定の解凍方式にしたがって解凍し、ＲＧＢ各画素により構成される画像データとする。さらに、本実施形態では、ＲＧＢデータを輝度データに変換し、輝度画像データを以後の処理に適用するものとし、画像メモリ（例えば、図２の外部記憶装置２０６）に格納する。画像データとしてＹＣｒＣｂのデータを入力する場合には、Ｙ成分をそのまま輝度データとしてもよい。
【００４３】
続いて、ステップＳ４０３において、物体認識手段４０は、内部の画像メモリに転送された画像データから、辞書・照合領域設定手段７０で設定された辞書データと照合を行い、所望の物体を認識する。
【００４４】
ここで、まず、一般的な物体認識方法について説明する。
公知技術１や公知技術２で提案されている方法が知られている。
例えば、公知技術１では、ニューラル・ネットワークにより画像中の顔パターンを検出する技術である。以下、その方法について簡単に説明する。
【００４５】
まず、顔の検出を対象とする画像データをメモリに読み込み、顔と照合する所定の領域を読み込んだ画像中から切り出す。そして、切り出した領域の画素値の分布を入力としてニューラル・ネットワークによる演算で１つの出力を得る。このとき、ニューラル・ネットワークの重み、閾値が膨大な顔画像パターンと非顔画像パターンにより予め学習されており、例えば、ニューラル・ネットワークの出力が０以上なら顔、それ以外は非顔であると判別する。ここで、重みや閾値が辞書データとなる。そして、ニューラル・ネットワークの入力である顔と照合する画像パターンの切り出し位置を、例えば、図８に示すように、画像全域から縦横順次に走査していくことにより、画像中から顔を検出する。
図８は、画像から顔パターンの探索を行う方法を説明する図である。
具体的には、画像全域８０１を縦横順次に走査して、照合するパターン８０２を抽出し。この照合するパターン８０２に対して、顔判別処理８０３を行う。
【００４６】
また、処理の高速化に着目した例としては、公知技術２がある。この技術の中では、ＡｄａＢｏｏｓｔを使って多くの弱判別器を有効に組合せて顔判別の精度を向上させる一方、夫々の弱判別器をＨａａｒタイプの矩形特徴量で構成し、しかも矩形特徴量の算出を、積分画像を利用して高速に行っている。また、ＡｄａＢｏｏｓｔ学習によって得た判別器を直列に繋ぎ、カスケード型の顔検出器を構成するようにしている。このカスケード型の顔検出器は、まず前段の単純な判別器を使って明らかに顔でないパターンの候補をその場で除去する。そして、それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な判別器を使って顔かどうかの判定を行っている。これにより、すべての候補に対して複雑な判定を行う必要がないので高速である。なお、公知技術１と同様に判別器で用いる重みや閾値が辞書データとなる。
【００４７】
次に、本実施形態において、特徴的な辞書・照合領域設定手段７０等による動作について、図９のフローチャートを用いて説明する。
図９は、本発明の実施形態を示し、辞書と照合領域を切り替える動作を説明するフローチャートである。
【００４８】
まず、ステップＳ９００において、辞書・照合領域設定手段７０は、全てのフレームについて処理が行われたか否かを判断する。この判断の結果、全てのフレームについて処理が行われた場合には、本フローチャートの処理を終了する。
【００４９】
一方、全てのフレームについては未だ処理が行われていない場合には、ステップＳ９０１に進む。即ち、全てのフレームについては未だ処理が行われていない場合には、ステップＳ９０１〜ステップＳ９０９又はＳ９１０までの処理を繰り返す。
【００５０】
続いて、ステップＳ９０１において、辞書・照合領域設定手段７０は、物体辞書記憶手段６０から読み込まれた複数の認識辞書の中から、認識辞書Ａを選択し、物体認識手段４０へ設定する。
【００５１】
続いて、ステップＳ９０２において、辞書・照合領域設定手段７０は、認識辞書Ａの照合領域を、辞書適用領域記憶手段９０から読み出して、物体認識手段４０へ設定する。前述の通り認識辞書Ａの照合領域は図７（ａ）の７０１になる。
【００５２】
続いて、ステップＳ９０３において、物体認識手段４０は、ステップＳ９０１で設定された認識辞書Ａを用いて、ステップＳ９０２で設定された照合領域の範囲で、辞書との照合を行う。
【００５３】
続いて、ステップＳ９０４において、辞書・照合領域設定手段７０は、物体辞書記憶手段６０から読み込まれた複数の認識辞書の中から、認識辞書Ｂを選択し、物体認識手段４０へ設定する。
【００５４】
続いて、ステップＳ９０５において、辞書・照合領域設定手段７０は、認識辞書Ｂの照合領域を、辞書適用領域記憶手段９０より読み出して、物体認識手段４０へ設定する。前述の通り認識辞書Ｂの照合領域は図７（ｂ）の７０２になる。
【００５５】
続いて、ステップＳ９０６において、物体認識手段４０は、ステップＳ９０４で設定された認識辞書Ｂを用いて、ステップＳ９０５で設定された照合領域の範囲で、辞書との照合を行う。
【００５６】
次に、様々な大きさの顔の認識に対応するために、以降の処理で、フレーム画像を縮小して照合を繰り返す。
まず、ステップＳ９０７において、例えば、物体認識手段４０（或いは辞書・照合領域設定手段７０）は、縮小が十分で行われたか否かを判断する。ここでは、照合に用いる画像パターンと同じサイズまで縮小したとき、フレーム画像内で最大の顔を検出することになる。
【００５７】
ステップＳ９０７の判断の結果、縮小が十分でない、即ち、照合に用いる画像パターンよりも小さくならない範囲で縮小可能であるときには、ステップＳ９０８へ進む。
【００５８】
ステップＳ９０８に進むと、物体認識手段４０は、所定の縮小率でフレーム画像を縮小する。
【００５９】
続いて、ステップＳ９０９において、辞書・照合領域設定手段７０は、認識辞書Ａと認識辞書Ｂの照合領域を、ステップＳ９０８と同じ縮小率で縮小する。そして、その後、ステップＳ９０１へ戻る。
【００６０】
以降、ステップＳ９０８において縮小されたフレーム画像に対して、ステップＳ９０１〜ステップＳ９０６の処理を行う。ここで、ステップＳ９０２とステップＳ９０５で設定される照合領域には、ステップＳ９０９で縮小された領域を用いられる。
【００６１】
以上のように、１枚のフレーム画像に対して、ステップＳ９０１〜ステップＳ９０９の処理を繰り返す。
【００６２】
一方、ステップＳ９０７の判断の結果、照合に用いる画像パターンと同じサイズまで縮小したときには、ステップＳ９１０へ進み、画像取得手段３０は、次のフレーム画像を取得し、ステップＳ９００へ戻る。
【００６３】
以上の処理によって、顔の角度の適用範囲が重なっている２つの認識辞書Ａ及びＢを用いることで、顔がフレーム画像内のどの位置にあっても、高精度な認識ができるようになる。しかしながら、毎フレーム、認識辞書Ａと認識辞書Ｂの両方を用いると、重なり部分（図７（ｃ）の７０４）は２重に認識辞書との照合（ステップＳ９０３とステップＳ９０６）が行われることになる。これでは、演算コストが増大してしまう。そこで、以下の方法によって、この課題を回避することが可能である。
【００６４】
Ｎフレーム目とＮ＋１フレーム目で、使用する認識辞書と照合領域を変更する（ただし、Ｎには自然数が入る）。即ち、Ｎフレームでは、辞書・照合領域設定手段７０は、認識辞書Ａを設定し、照合は画像全体ではなく図７（ａ）の７０１の領域に対してのみ行う。そして、Ｎ＋１フレームでは辞書・照合領域設定手段７０は、認識辞書Ｂを設定し、図７（ｂ）の７０２の領域に対してのみ行う。このように連続したフレームごとに使用する辞書と、照合の領域を切り替えながら、認識を行う。これにより、顔がフレーム画像内のどの位置にあってもＮフレームかＮ＋１フレームのどちらかで認識されることになる。また、フレームごとの照合の領域が制限されるので、フレーム画像の全領域について照合を行う場合に比べて、演算コストが少なくてすむ。
【００６５】
なお、認識結果としては、ＮフレームとＮ＋１フレームを論理和したものを使用すればよい。重なりの部分において、Ｎフレーム目とＮ＋１フレーム目の両方で認識されても、前後のフレーム間の時間差が十分に小さければ、位置はほとんど変わらないので、同じものであると判定することは容易である。
【００６６】
ここで、再び、図４の説明に戻る。
ステップＳ４０３の処理が終了すると、続いて、ステップＳ４０４に進む。
ステップＳ４０４に進むと、認識結果分析・出力手段５０は、現在から所定時間前までの間に検出された被写体領域をＲＡＭ２０３より読み出して、軌跡を生成する。これは、所定時間内に検出された複数ある顔のうち、どれが同一の人物の動きに対応するかを求める処理である。
【００６７】
この処理の詳細について、図１０を用いて説明する。
図１０は、本発明の実施形態を示し、軌跡の生成とカウントの一例を示した模式図である。
【００６８】
図１０において、１００１は撮像しているフレーム全体である。ここに、所定の時間に検出された顔の領域を、矩形で表現して重ね描きしている（１００３〜１００５）。図１０の例では、３フレーム分を重ね描きしており、最も古いフレームでは１００３が、次のフレームでは１００４が、その次の現在のフレームでは、１００５が検出されているものとする。これらの軌跡を求める方法としては、各領域の中心を求め、各領域の中心間の距離が最小となるもの同士を同一の被写体とみなし、線分で接続するようにすればよい。このようにして求めた軌跡が、図１０の例では１００９となる。
【００６９】
続いて、ステップＳ４０５において、認識結果分析・出力手段５０は、ステップＳ４０４で作成された軌跡が、所定の条件を満たすかどうかをチェックし、条件を満たしていればカウントする。ここで所定の条件とは、例えば、図１０に示した１００２のような計測ラインを横切っているかどうか、である。計測ライン１００２は、ユーザによってフレーム画面内に設定される。図１０の例では、軌跡１００９が計測ライン１００２を横切っているので、１とカウントされる。もし、まだ、計測ライン１００２を横切っていない軌跡が存在すれば、この時点では、カウントされない。
【００７０】
続いて、ステップＳ４０６において、認識結果分析・出力手段５０は、カウントした結果をユーザに対して表示する。
【００７１】
その後、再び、ステップＳ４０１に戻る。
【００７２】
以上のように、適用範囲が重なる辞書を複数用意し、奇数フレームと偶数フレームで使用する辞書と照合範囲を切り替えるようにした。これにより、認識する物体の向きが画面内で変化する場合であっても精度よく認識することができる。
【００７３】
本実施形態では、辞書・照合領域設定手段７０が使用する認識辞書と照合する範囲をフレームごとに交互に変更したが、次のような方法であっても良い。即ち、図７（ｃ）の７０３の範囲については、認識辞書Ａを用いて照合を行う。重なりの領域７０４に対しても、まずは認識辞書Ａを用いて照合を行うが、このとき、認識辞書との照合の結果得られる確からしさ（尤度）を元に、尤度マップを作成する。尤度は、辞書との照合の際の、閾値処理を施す前の演算結果より得られる。
【００７４】
次に、尤度マップを参照し、尤度が所定値以下の部分に対してのみ認識辞書Ｂを用いて照合を行う。図７（ｃ）の７０５に対しては、認識辞書Ｂを用いて照合を行う。このようにすると、図７（ｃ）の７０４については部分的に２重に照合を行うことになるが、公知技術２のカスケード型の判別器を用いる場合には、尤度が低いものは、前段の判別器で判定できるため、照合にかかる時間は極めて少なくなる。従って、演算コストは大きく増えることはない。
【００７５】
本実施形態では、顔の位置を検出する例で説明したが、人体全体や上半身、頭部など人物の様々な部位や、自動車や自転車など、様々な物体においても適用可能である。また、特定の人物であるかどうかを個人の顔の特徴から弁別するような場合でも適用可能である。
【００７６】
本実施形態では、顔の垂直方向の角度で説明したが、もちろん、水平方向の角度に関しても同様である。
【００７７】
また、本実施形態では、認識結果分析・出力手段５０は、通路を通行する人数をカウントする例を説明した。しかしながら、所定のエリアの混雑率を計測したり、動線を分析したり、特定の人物に対してアラームを発生させるなど、様々な用途に適用可能である。
【００７８】
また、本実施形態では、ＰＣである画像処理装置１０６において認識、計数、表示まで行うように構成したが、これに限ったものではない。例えば、物体認識手段４０から辞書適用領域記憶手段９０までの全てをチップに納め、撮像部１０４と一体化させることにより、計数結果のみＬＡＮケーブル１０５を介して画像処理装置１０６にて受信し、計数結果を閲覧するようにしてもよい。或いは、物体認識手段４０、辞書・照合領域設定手段７０、物体辞書記憶手段６０、辞書適用領域決定手段８０、辞書適用領域記憶手段９０を撮像部１０４と一体化する。そして、認識結果のみＬＡＮケーブル１０５を介して画像処理装置１０６にて受信して画像処理装置１０６において計数するようにしてもよい。
なお、本実施形態は、コンピュータ内でプログラムを実行することによっても実現することができることは当然である。
【００７９】
また、本実施形態では、フレーム画像の領域ごとに複数の辞書を切り替える例を説明したが、例えば、画像が時間的に連続した画像であって、画像ごとに使用する辞書を切り替える形態も適用可能である。
【００８０】
（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。
即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。
このプログラム及び当該プログラムを記憶したコンピュータ読み取り可能な記録媒体は、本発明に含まれる。
【符号の説明】
【００８１】
１０撮像手段、３０画像取得手段、４０物体認識手段、５０認識結果分析・出力手段、６０物体辞書記憶手段、７０辞書・照合領域設定手段、８０辞書適用領域決定手段、９０辞書適用領域記憶手段

【特許請求の範囲】
【請求項１】
同一の物体の異なる方向に対応した複数の辞書のデータを格納する辞書記憶手段と、
前記物体に係る前記辞書を用いて所定方向の前記物体を認識する認識手段と、
画像の領域ごとに前記複数の辞書を切り替えて前記認識手段に適用する切替え手段と
を備え、
前記画像の領域に用いられる前記辞書の適用領域は、重複していることを特徴とする画像処理装置。
【請求項２】
前記画像は、時間的に連続した画像であり、
前記切替え手段は、画像ごとに使用する辞書を切り替えることを特徴とする請求項１に記載の画像処理装置。
【請求項３】
同一の物体の異なる方向に対応した複数の辞書のデータを格納する辞書記憶ステップと、
前記物体に係る前記辞書を用いて所定方向の前記物体を認識する認識ステップと、
画像の領域ごとに前記複数の辞書を切り替えて前記認識ステップに適用する切替えステップと
を備え、
前記画像の領域に用いられる前記辞書の適用領域は、重複していることを特徴とする画像処理方法。
【請求項４】
請求項３に記載の画像処理方法の各ステップをコンピュータに実行させるためのプログラム。

【図１】