画像処理装置、被写体判別方法、プログラム及び記憶媒体

【課題】効率よく被写体を検出し、かつ、検出漏れを低減することを目的とする。
【解決手段】画像を入力する画像入力手段と、入力された画像上で検出ウィンドウを走査する走査手段と、検出ウィンドウ内の複数の領域のうち、第１の領域内から得られる複数の特徴量に基づいて検出ウィンドウ内のパターンが被写体か否かに係る被写体信頼度を算出し、被写体信頼度が閾値以上である場合にはパターンを被写体と判別し、被写体信頼度が閾値以上でない場合には複数の領域のうち、第２の領域内から得られる複数の特徴量に基づいてパターンが被写体か否かの判別を行なう判別手段と、を有する、ことによって課題を解決する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置、被写体判別方法、プログラム及び記憶媒体に関する。
【背景技術】
【０００２】
検出対象の一部が遮蔽されている場合でも検出を可能にする技術が知られている（特許文献１参照）。この技術では、パターンの切り出し位置をずらす等により検出対象の一部を隠蔽した対象物で判別器を学習させて、複数の判別器を生成している。また、この技術では、これらの判別器を並列的に適用することで検出対象の一部が遮蔽されている場合の検出を可能としている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００７−４７９６５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
例えば、通路の天井に監視カメラ設置し、通路を歩行する人物を斜め上から撮影した映像を得て、人物の検出に適用する場合を考える。監視カメラから得られる映像は、混雑度が増すに連れて歩行者の頭部に比べて人の重なりにより下半身領域に隠蔽が発生する確率が高くなる。また、カメラ直下からカメラの視界内にフレームインする人物は頭部からフレームインするため、歩行者全身の下部ほど隠蔽の発生確率が高くなる傾向がある。
上述した従来の技術では、１つのパターンに対して隠蔽箇所に対応した複数の判別器による判別が必要である。そのため、処理コストが高く、効率よく被写体を検出する事ができない。また、上述した従来の技術では、隠蔽の発生確率が被写体の場所によって異なる場合に関して何も開示されていない。
【０００５】
本発明はこのような問題点に鑑みなされたもので、効率よく被写体を検出し、かつ、検出漏れを低減することを目的とする。
【課題を解決するための手段】
【０００６】
そこで、本発明の画像処理装置は、画像を入力する画像入力手段と、入力された画像上で検出ウィンドウを走査する走査手段と、前記検出ウィンドウ内の複数の領域のうち、第１の領域内から得られる複数の特徴量に基づいて前記検出ウィンドウ内のパターンが被写体か否かに係る被写体信頼度を算出し、前記被写体信頼度が閾値以上である場合には前記パターンを被写体と判別し、前記被写体信頼度が閾値以上でない場合には前記複数の領域のうち、第２の領域内から得られる複数の特徴量に基づいて前記パターンが被写体か否かの判別を行なう判別手段と、を有する。
【発明の効果】
【０００７】
本発明によれば、効率よく被写体を検出し、かつ、検出漏れを低減することができる。
【図面の簡単な説明】
【０００８】
【図１】画像処理装置のハードウェア構成の一例を示す図（その１）である。
【図２】画像処理装置の機能構成の一例を示した図である。
【図３】画像からの検出対象である被写体と検出ウィンドウとの一例を示す図である。
【図４】被写体判別処理の一例を示すフローチャートである。
【図５】縮小及び走査の一例を示す図である。
【図６】第１判別部の一例を示す図である。
【図７】判別情報のデータ構造の一例を示す図である。
【図８】弱判別部の一例を示す図である。
【図９】第１判別部及び第２判別部の機械学習の一例を示すフローチャートである。
【図１０】画像処理装置のハードウェア構成の一例を示す図（その２）である。
【発明を実施するための形態】
【０００９】
以下、本発明の実施形態について図面に基づいて説明する。
【００１０】
＜実施形態１＞
（ハードウェア構成）
図１は、画像処理装置（コンピュータ）のハードウェア構成の一例を示す図（その１）である。
ＣＰＵ２０１は、ＲＯＭ２０２やＲＡＭ２０３に格納されたプログラムに従って命令を実行する。
ＲＯＭ２０２は、不揮発性メモリであり、本実施形態のプログラムやその他の制御に必要なプログラム、データを格納する。
ＲＡＭ２０３は、揮発性メモリであり、フレーム画像データやパターン判別結果等の一時的なデータを記憶する。
ＨＤＤ２０４は、２次記憶装置であり、画像情報や被写体、非被写体のサンプルパターン等を記憶する。これらの情報はプログラムの実行時にＣＰＵ２０１によってＲＡＭ２０３に転送され、利用する。なお、本実施形態のプログラムは、ＨＤＤ２０４等に記憶されていてもよい。
【００１１】
画像入力装置２０５は、デジタルビデオカメラやネットワークカメラ、スキャナ等であり、画像を入力する。
入力装置２０６は、キーボードやマウス等であり、オペレータからの入力を行う。
表示装置２０７は、ブラウン管ＣＲＴや液晶ディスプレイ等である。
ネットワークＩ／Ｆ２０８は、インターネットやイントラネット等のネットワークと接続を行うモデムやＬＡＮ等である。ネットワークＩ／Ｆ２０８を介してネットワークカメラ等の画像入力装置を接続して、画像を入力するようにしてもよい。
バス２０９は、これらの構成要素を相互に接続して、データの入出力を行う。
本画像処理装置の後述する機能は、オペレーティングとしてＷＩＮＤＯＷＳ（登録商標）ＸＰがインストールされ、その上で動作するアプリケーションとして実装されている。
【００１２】
ＣＰＵ２０１が、プログラムを実行することによって、後述する画像処理装置の機能の一部、又は全て、及び後述するフローチャートの各ステップの処理が実現される。
【００１３】
（概略構成）
図２は、画像処理装置の機能構成の一例を示した図である。
画像入力部１０１は、画像入力装置２０５によって入力された画像を、後述する画像縮小部１０２に渡す。
画像縮小部１０２は、所定の大きさの検出ウィンドウで様々なサイズの被写体を検出するため、入力画像を段階的に縮小する。
走査部１０３は、後述する図５に示すように、縮小された画像上で検出ウィンドウをラスタスキャンする。
第１判別部１０４は、検出ウィンドウ上のパターンが被写体であるか否かを判別する。このとき、第１判別部１０４は、隠蔽の発生確率（被写体隠蔽発生確率）が少ない人物の上半身の領域（第１の領域）に限定した局所領域で前記判別を行い、被写体信頼度を出力する。
【００１４】
第２判別部１０５は、第１判別部１０４と同様に検出ウィンドウ上のパターンが被写体で否かを判別する。このとき、第２判別部１０５は、隠蔽の発生確率（被写体隠蔽発生確率）が多い人物の全身の領域（第２の領域）の局所領域によって判別を行い、被写体信頼度を出力する。
被写体信頼度補正部１０６は、第１判別部１０４の出力した被写体信頼度に対して補正を行う。
統合部１０７は、被写体と判別された複数の検出ウィンドウ位置が同一の被写体を指し示すものかどうかを判別し、被写体ごとにグルーピングを行い、被写体の位置としてまとめる。
【００１５】
（検出対象と検出ウィンドウ）
図３は、画像からの検出対象である被写体と検出ウィンドウとの一例を示す図である。
被写体３０１は、直立又は歩行する人物である。検出ウィンドウ３０２は、被写体の全身を含む所定の大きさの矩形である。上半身領域３０３は、検出ウィンドウの上半分の領域である。
上半身領域３０３は、天井にカメラを置いて人物を撮影した場合に、人の重なり等による隠蔽確率が他の領域より低くなる領域である。
【００１６】
（概略処理フロー）
次に本実施形態の処理の流れについて図４のフローチャートを用いて説明する。
本実施形態では被写体の一例として歩行者を検出する画像処理装置を挙げて説明する。図４は、被写体判別処理の一例を示すフローチャートである。
まず、ステップＳ４０１にて、画像入力部１０１は、画像入力装置２０５から入力された各フレーム画像データをＲＡＭ２０３に読み込む。
ここで読み込まれた画像データは、例えば８ビットの画素により構成される２次元配列のデータであり、Ｒ、Ｇ、Ｂ、３つの面により構成される。このとき、画像データがＭＰＥＧ，ＭｏｔｉｏｎＪＰＥＧ等の方式により圧縮されている場合、画像入力部１０１は、画像データを所定の解凍方式にしたがって解凍し、ＲＧＢ各画素により構成される画像データとする。さらに、本実施形態では画像入力部１０１は、ＲＧＢデータを輝度データに変換し、輝度画像データを以後の処理に適用するものとし、ＲＡＭ２０３に格納する。
画像データとしてＹＣｒＣｂのデータを入力する場合、画像入力部１０１は、Ｙ成分をそのまま輝度データとしてもよい。
なお、本実施形態は、ＲＧＢデータに限定されるものではなく。各画素におけるカメラと被写体との距離を示す距離画像や赤外線センサによる強度画像でもよい。また、画像入力部１０１が明るさやコントラスト調整等の正規化、色変換処理を行い、ぼかし、先鋭化等の画像処理を行った１つ又は異なる画像処理を適用した複数の画像データであってもよい。
【００１７】
次に、ステップＳ４０２にて、画像縮小部１０２は、画像データを所定の倍率に順次段階的に縮小する。これは、本実施形態では様々な大きさの被写体の検出に対応するため複数のサイズの画像データに対して順次検出を行うようにしたためである。図５は、縮小及び走査の一例を示す図である。図５における縮小画像５０１、５０２及び５０３は、本処理によって出力された画像である。本実施形態では、画像縮小部１０２は、画像データを１／１．２倍ずつ縮小し、縮小画像５０３の幅が上半身領域３０３の幅より小さくなるか、縮小画像５０３の高さが上半身領域３０３の高さの小さくなるまで縮小を繰り返す。
次に、ステップＳ４０３にて、走査部１０３は、縮小された輝度画像データ上に検出ウィンドウ３０２を設定し、照合パターンを抽出する。図５には、走査部１０３が検出ウィンドウ３０２を走査する様子が示されている。本実施形態では走査部１０３は、縦横４画素おきにラスタスキャンするものとする。
【００１８】
次に、ステップＳ４０４にて、第１判別部１０４は、照合パターンの第１判別処理を行う。ここで第１判別部１０４は、隠蔽確率の低い上半身領域内（第１の領域内）の局所領域だけを用いて被写体であるか否かの判別を行う。第１判別部１０４は、被写体でないと判別した場合は、ステップＳ４０９に進む。第１判別部１０４は、被写体であると判別した場合には判別の結果として、被写体信頼度を出力し、ステップＳ４０５へ進む。
ステップＳ４０５にて、第１判別部１０４は、被写体信頼度が所定の閾値以上であるか否かを判定する。第１判別部１０４は、被写体信頼度が所定の閾値以上である場合、ステップＳ４０６に進む。ステップＳ４０６にて、被写体信頼度補正部１０６は、被写体信頼度を補正する。本来、被写体信頼度は第２判別処理を行って求めるべきであるが、処理の高速化のため、被写体であることを確定して第２判別処理を省略するようにした。本ステップは、ことによって生じる誤差を最小限に抑えるための処理である。
被写体信頼度補正部１０６は、予め隠れのない被写体画像における上半身の被写体信頼度と全身の被写体信頼度との統計的な関係から（式１）による近似式を求めておく。
ｆ（ｘ）＝ αｘ＋ β （式１）
ｘは、第１判別部１０４が出力する上半身の被写体信頼度である。α、βは、近似パラメータである。また、βは、上半身の被写体信頼度が全身の被写体信頼度の最大値を常に上回るように十分大きな値としてもよい。
【００１９】
一方、第１判別部１０４は、被写体信頼度が所定の閾値以上でない場合、ステップＳ４０７に進む。ステップＳ４０７にて、第２判別部１０５は、照合パターンの第２判別処理を行う。ステップＳ４０７とステップＳ４０４との違いは、隠蔽確率の高い領域を含む検出ウィンドウ全体（第２の領域内）の局所領域を用いる点である。第２判別部１０５は、被写体でないと判別した場合は、ステップＳ４０９に進む。第２判別部１０５は、被写体であると判別した場合は、判別の結果として、被写体信頼度を出力し、ステップＳ４０８へ進む。なお、第２判別部１０５は、ステップＳ４０４の結果に、第２判別部１０５の各弱判別器の出力を累積したものを被写体信頼度として出力する。
ステップＳ４０８にて、例えば統合部１０７は、被写体信頼度と、検出ウィンドウの位置とを対応付けてＲＡＭ２０３に記憶する。
次に、ステップＳ４０９にて、例えば統合部１０７は、全ての縮小画像・位置において検出ウィンドウを走査したかを判別し、終了であればステップＳ４１０へ、そうでない場合はステップＳ４０３へ進み処理を繰り返す。
【００２０】
ステップＳ４１０にて、統合部１０７は、統合処理を行う。
統合部１０７は、統合処理として、ステップＳ４０８で記憶した、被写体と判別した複数の検出ウィンドウの位置について、同一の被写体を指す検出ウィンドウを１つにまとめる処理を行う。即ち、統合部１０７は、被写体と判別された複数の検出ウィンドウ位置が同一の被写体を指し示すものかどうかを判別し、被写体ごとにグルーピングを行い、被写体の位置としてまとめる。
任意の２つの検出ウィンドウ位置が同一の被写体を指し示すものかどうかを判別するには、統合部１０７は、検出ウィンドウの上部の頂点座標間の平均距離を求め、検出ウィンドウの幅との比が閾値以下である場合とする。統合部１０７は、これを全ての被写体と判定した検出ウィンドウ位置の組で行ない、同一の被写体を指し示す検出ウィンドウ同士をグループ化する。
次に、統合部１０７は、各グループで位置の統合と信頼度の統合とを行って被写体の位置としてまとめる。
統合部１０７は、位置の統合を、グループ化した各検出ウィンドウの座標平均とする。また、統合部１０７は、被写体信頼度の統合を、各検出ウィンドウの被写体信頼度の最大値を採用する。
統合部１０７は、統合処理に、ｍｅａｎｓｈｉｆｔクラスタリング法を用いてもよい。より具体的に説明すると、統合部１０７は、まず、被写体と判別された検出ウィンドウの各々を１つのクラスタとする。そして、統合部１０７は、クラスタ間の距離関数を定義する。距離は、例えば検出ウィンドウの上部の頂点座標間の平均距離等である。次に統合部１０７は、任意の２つのクラスタ間の距離が所定の閾値より小さな場合に位置を統合して１つのクラスタへ統合する処理を統合対象がなくなるまで繰り返す。統合部１０７は、統合対象がなくなった場合、閾値を少しずつ大きくして再度結合を試みる事を繰り返す。位置の統合をする際、統合部１０７は、クラスタのメンバ数に基づいた重み付け平均を行うが、更に被写体信頼度による重み付けを行うと、被写体の位置を精度よく特定する事ができる。
【００２１】
（判別部）
次に、第１判別部１０４における処理の詳細を、図６を用いて説明する。図６は、第１判別部の一例を示す図である。
第１判別部１０４は、複数の弱判別部６０２、６０３、６０４から構成される。複数の弱判別部６０２、６０３、６０４は直列に接続される。最初の弱判別部６０２は、入力されたパターンデータが被写体であるか否かを判別し、被写体であった場合にのみ後段の弱判別部６０３で同じパターンデータが被写体であるか否かの判別を行う。そして、最後の弱判別部６０４で被写体であると判別された場合に、第１判別部の判別結果が被写体であるとなる。各弱判別部は同様な構成であり、判別情報が異なるのみである。判別情報は機械学習によって求められ、ＲＡＭ２０３等に構成される判別情報格納部６０１に格納される。また、第２判別部１０５は、第１判別部１０４と同じ構成であり、判別情報や弱判別部の個数が異なるのみである。
【００２２】
次に判別情報格納部６０１に格納される判別情報について図７を用いて説明する。
図７は、判別情報のデータ構造の一例を示す図である。
７０１は、弱判別部の数である。弱判別情報７０２及び弱判別情報７０３は、１つの弱判別部に関する情報であり、７０１に格納された弱判別部の数分だけ同様な構造の情報が並ぶ。先頭の弱判別情報７０２は、弱判別部６０２のための判別情報である。また最後の弱判別情報７０３は、弱判別部６０４のための判別情報である。
７０４〜７０７は、１つの弱判別部に関する詳細な情報である。
７０４は、局所領域情報であり、検出ウィンドウ内における矩形の局所領域の位置とサイズとである。
７０５は、射影係数であり、特徴ベクトルとの内積によって判別空間へ射影するための基底ベクトルである。
７０６は、被写体信頼度変換定数であり、スカラー特徴量を２段階に量子化するための閾値と、各段階とに対応する被写体信頼度である。
７０７は、非被写体閾値であり、被写体信頼度が非被写体か否かを判別するための閾値である。
【００２３】
（弱判別部）
次に弱判別部６０２について、図８を用いて説明する。図８は、弱判別部の一例を示す図である。
弱判別部６０２は、特徴量算出部８０１、被写体信頼度変換部８０２、比較部８０３から構成される。
特徴量算出部８０１は、検出ウィンドウ内のパターン画像から特徴量を算出する。
特徴量算出部８０１における特徴量抽出方法としては、ｈｉｓｔｏｇｒａｍｏｆｇｒａｄｉｅｎｔｓと呼ばれる特徴量（ＨＯＧ特徴量）によって人体を検出する技術が知られている（米国特許第２３７３８７号明細書（以下、技術１という））。
技術１におけるＨＯＧ特徴量は、各画素における勾配の強さと方向を求めておき、所定の局所領域の画素について、勾配強さを方向別に投票する事により、局所領域の方向別の勾配強さを求めるものである。また、技術１では、照明に対してロバストにするため、全方向の勾配の強さの総和で割ることで正規化している。
【００２４】
特徴量算出部８０１は、局所領域を縦横２等分割して４個の同じ面積の小領域に分割し、方向数を９方向に量子化することで、局所領域１つにつき３６次元の特徴ベクトルを得ることができる。特徴量算出部８０１は、局所領域を局所領域情報７０４に基づいて決定する。特徴ベクトルは、射影係数７０５との内積によってスカラー値となる。射影係数７０５は、特徴ベクトルの次元数と等しいベクトルである。
また、特徴量算出部８０１は、射影係数７０５のベクトルのうち１要素のみを１、他は０にして、３６次元の特徴ベクトルから判別精度のよい１次元のみを選択してスカラー特徴量を得てもよい。
また、パターン画像が輝度でなくＲＧＢ等複数のチャネルを持つ場合、特徴量算出部８０１は、各チャネルでの分散を正規化した上で画素ごとに最大勾配となるチャネルを選択して勾配の強さとすればよい。局所領域の分割数や方向の量子化数のパラメータは本実施形態に限ったものではなく、複数の異なる局所領域における特徴量を結合して特徴ベクトルとする等、様々なバリエーションがある。
【００２５】
また、特徴量算出方法は本実施形態に限ったものではない。例えば、特徴量算出部８０１は、Ｈａａｒライクな特徴量を利用することができる。また、上述した特許文献１では多重解像度化したパターン上の任意の２点の輝度差を利用している。特徴量算出部８０１は、このような特許文献１の技術を用いてもよい。
被写体信頼度変換部８０２は、特徴量算出部８０１の出力するスカラー値を被写体信頼度へ変換する。被写体信頼度変換定数７０６には閾値ｔと被写体信頼度加算値としてα、βとを格納しておく。被写体信頼度変換部８０２は、前段の弱判別部が出力した被写体信頼度に対し、特徴量算出部８０１の出力する値が閾値ｔより小さい場合はαを、そうでない場合にはβを加えて出力する。出力した被写体信頼度は、比較部８０３へ入力する他、後段の弱判別部へ引継ぐ。
【００２６】
被写体信頼度変換部８０２のその他の処理方法として、リアルアダブーストと呼ばれる改良技術が知られている。これは、特徴量算出部８０１の出力するスカラー値を３２段階等多段階に量子化し、ルックアップテーブルを使って各段階に対応する被写体信頼度へ変換するものである。被写体信頼度変換部８０２は、このような処理で特徴量を被写体信頼度へ変換してもよい。
比較部８０３は、被写体信頼度変換部８０２が出力した被写体信頼度と閾値とを大小比較する。比較部８０３は、被写体信頼度が非被写体閾値７０７よりも低い場合には被写体でないと確定し、判別処理を打ち切る。比較部８０３は、そうでない場合には直列に接続された後段の弱判別部によって更に判別を続ける。
また、全ての弱判別部で閾値との比較をしないよう、判別部を構成してもよい。また、いくつかの弱判別部をまとめたものをステージと呼び、ステージを直列に接続して判別部を構成するようにしてもよい。そして、各ステージの最後の弱判別部においてのみ被写体信頼度と閾値と比較するよう判別部を構成してもよい。このような構成とした場合、判別部は、比較の結果、被写体であると判別された場合は、判別を打ち切る。そして、判別部は、累積した被写体信頼度を０にリセットして次のステージの弱判別部による判別処理を続ける。
【００２７】
（機械学習方法）
次に、第１判別部１０４、及び、第２判別部１０５の機械学習方法について説明する。
機械学習には、まず、学習サンプルを用意する。例えば、ＣＰＵ２０１は、検出ウィンドウのサイズに等しい被写体を含んだ被写体サンプル画像と、被写体を含まない非被写体サンプル画像とからなる学習サンプルをＨＤＤ２０４等から取得する。被写体検出の判別は被写体か非被写体かの２クラスの判別問題であるので、被写体サンプル画像は"被写体"であり、非被写体サンプル画像は"非被写体"というようにクラスとの関係付けが行われている。
ＣＰＵ２０１は、被写体サンプル画像において、被写体の位置、サイズを正規化する必要がある。即ち、ＣＰＵ２０１は、人物の頭頂部及びかかとの２点を基準にし、被写体サンプル画像間で高さが同じ位置になるように揃える。また、ＣＰＵ２０１は、全身の重心が左右中央になるように揃える。ＣＰＵ２０１は、被写体を含まない画像からランダムな位置で切り出した画像を非被写体サンプル画像として用いる。また、被写体は隠れのない画像とする。
【００２８】
これらの学習サンプルの画像は、被写体を検出するときに判別部に入力するパターンと同じチャネル構成である必要がある。本実施形態では輝度画像とする。
次に、図９を用いて学習の流れを説明する。図９は、第１判別部及び第２判別部の機械学習の一例を示すフローチャートである。
機械学習の処理を開始すると、まず、ステップＳ９０１にて、ＣＰＵ２０１は、局所領域の選択範囲を設定する。ここでは、ＣＰＵ２０１は、被写体隠蔽発生確率の低い領域を設定する。
ここで、被写体隠蔽発生確率について説明する。被写体隠蔽発生確率とは、検出ウィンドウの所定の位置又は領域において、被写体が隠蔽される確率である。被写体の隠蔽された領域とは、画像の端にかかった被写体の画像外の部分や、他の被写体と重なったために隠れた領域や、柱等の構造物や机等物の陰に隠れた領域等である。通常身に着けている服や手荷物等は隠蔽された領域ではないものとする。
【００２９】
次に、被写体隠蔽発生確率の求め方について説明する。まず、ＣＰＵ２０１は、被写体を含む画像を収集する。このとき、カメラを設置する場所や時間帯、ズームや画角、レンズ等のカメラパラメータを、実際に被写体を検出する際と同様な条件にしておく事が望ましい。次に、ＣＰＵ２０１は、被写体を含む領域を被写体サンプル画像と同様に被写体位置、サイズを正規化して切り出した画像へ変換する。これらの画像は検出ウィンドウのサイズに等しい。次に、ＣＰＵ２０１は、この画像の画素値を被写体が隠蔽された領域であれば１、そうでない場合は０として２値化する。
先述した隠れの定義についてはあくまで一例であるが、学習サンプルの被写体サンプル画像の選別基準とは統一しておく必要がある。被写体サンプル画像には、同じ定義を適用して隠れのない画像を用いる。
検出ウィンドウ内の所望の位置における被写体隠蔽発生確率は、これら複数の２値化した画像の、所望の位置に対応する画素値の総和である。また、ＣＰＵ２０１は、検出ウィンドウの所望の領域内の各画素の被写体隠蔽発生確率を平均することで、当該領域における被写体隠蔽発生確率を求めることができる。
本実施形態では検出ウィンドウを上下で２分割し、上半分の領域における被写体隠蔽発生確率と下半分の領域における被写体隠蔽発生確率とに基づいて、被写体隠蔽発生確率の低い上半身領域を設定している。なお、ＣＰＵ２０１は、更に細かい領域に分割するようにしてもよい。
【００３０】
次に、ステップＳ９０２にて、ＣＰＵ２０１は、第１判別部１０４を学習する。
ＣＰＵ２０１は、第１判別部１０４の学習をブースティングによる機械学習で行う。
即ち、ＣＰＵ２０１は、サンプルに対して重みを設定し、弱判別部のパラメータを総当りで適用して、サンプル重みつきの判別エラー評価を行い、最も判別精度のよいパラメータを決定する。次に、ＣＰＵ２０１は、弱判別部を追加するときには、エラーとなったサンプルの重みを相対的に大きくして、組み合わせたときに最も判別精度のよくなるパラメータを求め、弱判別部を追加する処理を行う。ここで、検出ウィンドウ上の様々な位置、サイズの矩形の局所領域におけるＨａａｒ特徴量から最も判別率のよい局所領域を選択する技術がある。しかしながら本実施形態ではＨａａｒ特徴量に替えて、特徴量算出部８０１によって特徴量を求める。射影係数７０５は線形サポートベクターマシンによって得ることができる。
本実施形態では、ＣＰＵ２０１は、検出ウィンドウの全体から局所領域を選択するのではなく、ステップＳ９０１で設定された領域のみに限定して最も判別率のよい局所領域を選択する。
【００３１】
ステップＳ９０３にて、ＣＰＵ２０１は、弱判別器を追加する度に予め設定した所望の判別精度に達しているか否か、判別を行い、所望の判別精度に達するまでステップ９０２の弱判別器の追加を繰り返す。ＣＰＵ２０１は、判別精度ではなく、弱判別器の個数を基準に終了判別してもよい。
所望の判別精度に達した場合、ＣＰＵ２０１は、ステップＳ９０４に進み、局所領域の選択範囲を被写体隠蔽発生確率のより高い領域へ拡張する。本実施形態では、ＣＰＵ２０１は、局所領域の選択範囲を上半身領域から全身領域へ拡張するものとする。
次にステップＳ９０５に進み、ＣＰＵ２０１は、ステップＳ９０２と同様に第２判別部１０５を学習する。第２判別部１０５では被写体隠蔽発生確率の高い領域を含んだ全身領域から判別性能のよい局所領域を選択する点が第１判別部１０４とは異なる。
ステップＳ９０６にて、ＣＰＵ２０１は、第２判別部１０５の弱判別器を追加する度に予め設定した所望の判別精度に達しているか否か判別を行い、所望の判別精度に達するまでステップＳ９０５の弱判別器の追加を繰り返す。
【００３２】
本実施形態では、ＣＰＵ２０１は、局所領域の選択範囲を２段階で拡張したが、段階数を更に増やしてもよい。
また、本実施形態では、局所領域が全てステップＳ９０１で設定された領域内に含まれるものを選択基準とするが、これに限ったものではない。例えば局所領域の面積の一定の割合以上がステップＳ９０１で設定された領域内であれば選択する等の基準であってもよい。
また、ブースティングによる機械学習はサンプルの重み更新方法を改良したジェントルアダブーストや、特徴量から被写体信頼度への変換精度を向上したリアルアダブースト等の改良技術が提案されているが、何れの場合でも本実施形態を適用する事ができる。
また、機械学習は、ブースティング以外にも、サポートベクターマシンやニューラルネットワーク等を組み合わせて行ってもよい。
また、機械学習は、一般的な条件の下で予め事前に行って、その結果得られる判別情報を提供しても、カメラを設置後に、設置したカメラから得られる映像を用いて行ってもよい。後者の場合は、機械学習を本実施形態における画像処理装置で行う必要はない。画像入力装置２０５から入力した画像をネットワークＩ／Ｆ２０８を経由して機械学習サーバーに送付し、機械学習サーバーにて機械学習を行い、その結果を判別情報格納部６０１に格納すればよい。
【００３３】
＜実施形態２＞
図１０は、画像処理装置のハードウェア構成の一例を示す図（その２）である。実施形態１と共通する部分には同じ番号を付与している。
ブロック構成としてはプログラムを記録したＤＶＤ又はＣＤのような光ディスク２１２を追加し、ドライブＩ／Ｆ２１０にＣＤ／ＤＶＤドライブ等の外部記憶入出力装置２１１が接続されているところが実施形態１と異なる。
プログラムを記録した光ディスク２１２が外部記憶入出力装置２１１に挿入されるとＣＰＵ２０１は記憶媒体からプログラムを読み取って、ＲＡＭ２０３に展開することで、実施形態１と同様の処理を実現することができる。
【００３４】
＜実施形態３＞
実施形態１、実施形態２では人物領域の検出を行うものとして説明を行ったが、上述した各実施形態の処理は、人物以外の任意の物体に対して適用可能である。例えば、生物、顔、自動車等がある。工業、流通分野等では生産物、部品、流通物品等の同定や検査等に適用できる。
【００３５】
＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。
【００３６】
以上、上述した各実施形態によれば、被写体の隠蔽確率の低い領域から判別を行うので、効率よく被写体を検出し、かつ、検出漏れを低減することができる。
【００３７】
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【００３８】
２０１ＣＰＵ

【特許請求の範囲】
【請求項１】
画像を入力する画像入力手段と、
入力された画像上で検出ウィンドウを走査する走査手段と、
前記検出ウィンドウ内の複数の領域のうち、第１の領域内から得られる複数の特徴量に基づいて前記検出ウィンドウ内のパターンが被写体か否かに係る被写体信頼度を算出し、前記被写体信頼度が閾値以上である場合には前記パターンを被写体と判別し、前記被写体信頼度が閾値以上でない場合には前記複数の領域のうち、第２の領域内から得られる複数の特徴量に基づいて前記パターンが被写体か否かの判別を行なう判別手段と、
を有する、画像処理装置。
【請求項２】
前記第１の領域は、前記第２の領域より被写体隠蔽発生確率が低い領域である、請求項１記載の画像処理装置。
【請求項３】
前記第１の領域は人物の上半身の領域であり、前記第２の領域は人物の全身の領域である、請求項１記載の画像処理装置。
【請求項４】
前記判別手段で被写体と判別した同一のパターンに関する複数の位置の前記検出ウィンドウを、各検出ウィンドウの位置と、各検出ウィンドウ内の領域内から得られた複数の特徴量に基づいて算出された前記被写体信頼度と、に基づいて統合する統合手段を更に有する、請求項１乃至３の何れか１項記載の画像処理装置。
【請求項５】
前記判別手段で前記第１の領域内から得られる複数の特徴量に基づいて算出された被写体信頼度が閾値以上であった場合、前記被写体信頼度を補正する補正手段を更に有する、請求項１乃至４の何れか１項記載の画像処理装置。
【請求項６】
画像処理装置における被写体判別方法であって、
画像を入力する画像入力ステップと、
入力された画像上で検出ウィンドウを走査する走査ステップと、
前記検出ウィンドウ内の複数の領域のうち、第１の領域内から得られる複数の特徴量に基づいて前記検出ウィンドウ内のパターンが被写体か否かに係る被写体信頼度を算出し、前記被写体信頼度が閾値以上である場合には前記パターンを被写体と判別し、前記被写体信頼度が閾値以上でない場合には前記複数の領域のうち、第２の領域内から得られる複数の特徴量に基づいて前記パターンが被写体か否かの判別を行なう判別ステップと、
を含む、被写体判別方法。
【請求項７】
コンピュータを、
画像を入力する画像入力手段と、
入力された画像上で検出ウィンドウを走査する走査手段と、
前記検出ウィンドウ内の複数の領域のうち、第１の領域内から得られる複数の特徴量に基づいて前記検出ウィンドウ内のパターンが被写体か否かに係る被写体信頼度を算出し、前記被写体信頼度が閾値以上である場合には前記パターンを被写体と判別し、前記被写体信頼度が閾値以上でない場合には前記複数の領域のうち、第２の領域内から得られる複数の特徴量に基づいて前記パターンが被写体か否かの判別を行なう判別手段と、
して機能させるプログラム。
【請求項８】
請求項７記載のプログラムを記憶したコンピュータが読み取り可能な記憶媒体。

【図１】