画像処理装置、画像処理方法、及びコンピュータプログラム

【課題】画像中から複数種類の被写体の判別を効率良く、且つ高精度に行えるようにする。
【解決手段】複数種類の被写体の判別を行う際に、１つの縮小画像４０１から複数の局所特徴量を抽出し、当該局所特徴量の夫々と、当該局所特徴量の画像特性に応じた属性とを対応付けて記憶する。そして、注目領域４０２の特徴量の属性から、複数の被写体に対する被写体尤度を求め、被写体尤度が閾値以上の被写体を被写体候補とし、被写体候補が所定の被写体であるか否かを判定するようにした。すなわち、被写体に固有の特徴量による被写体の判別を行う対象となる被写体の数を絞り込むようにした。その結果、複数種類の被写体の判別を高精度に実現できる。また、局所特徴量の算出及び局所特徴量とその属性との対応付けは、被写体の種別に依らず共通の処理で行うので、複数種類の被写体の判別を効率良く行うことができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置、画像処理方法、及びコンピュータプログラムに関し、特に、画像中から所定の被写体を自動的に検出するために用いて好適なものである。
【背景技術】
【０００２】
画像から特定の被写体パターンを自動的に検出する画像処理方法は非常に有用であり、例えば人間の顔の判定に利用することができる。このような画像処理方法は、通信会議、マン・マシン・インタフェース、セキュリティ、人間の顔を追跡するためのモニタ・システム、画像圧縮等の多くの分野で使用することができる。このような画像処理方法のうち、画像中から顔を検出する技術としては、非特許文献１に各種方式が挙げられている。この非特許文献１の中では、いくつかの顕著な特徴（２つの目、口、鼻等）と、その特徴間の固有の幾何学的位置関係とを利用することによって、人間の顔を検出する方式が示されている。更に、非特許文献１の中では、人間の顔の対称的特徴、人間の顔色の特徴、テンプレート・マッチング、ニューラル・ネットワーク等を利用することによって、人間の顔を検出する方式も示されている。
【０００３】
更に、非特許文献２は、ニューラル・ネットワークにより画像中の顔パターンを検出する方法が提案されている。以下に、非特許文献２で提案されている顔検出の方法について簡単に説明する。
まず、顔パターンの検出対象となる画像をメモリに書き込み、顔と照合する所定の領域を、書き込んだ画像から切り出す。そして、切り出した領域の画素値の分布（画像パターン）を入力としてニューラル・ネットワークによる演算を実行し一つの出力を得る。ここで、膨大な顔画像パターンと非顔画像パターンによって、ニューラル・ネットワークの重み及び閾値が予め学習されている。この学習の内容に基づいて、例えば、ニューラル・ネットワークの出力が０以上なら顔、それ以外は非顔であると判別する。
【０００４】
更に、非特許文献２では、ニューラル・ネットワークの入力である画像パターンであって、顔と照合する画像パターンの切り出し位置を、例えば、図３に示すように画像全域から縦横順次に走査し、各切り出し位置で画像を切り出す。そして、切り出した画像の画像パターンの夫々について前述したようにして顔であるか否かを判別することにより、画像中から顔を検出する。また、様々な大きさの顔の検出に対応するため、図３に示すように、メモリに書き込んだ画像を所定の割合で順次縮小し、それらに対して前述した走査、切り出し、判別を行うようにしている。
【０００５】
また、顔パターンを検出する処理の高速化に着目した方法としては、非特許文献３に提案されている方法がある。この非特許文献３の中では、AdaBoostを使って多くの弱判別器を有効に組合せて顔判別の精度を向上させる一方、夫々の弱判別器をHaarタイプの矩形特徴量で構成し、しかも矩形特徴量の算出を、積分画像を利用して高速に行っている。また、AdaBoostによって得た判別器を直列に繋ぎ、カスケード型の顔検出器を構成するようにしている。このカスケード型の顔検出器は、まず前段の単純な（すなわち計算量のより少ない）判別器を使って明らかに顔でないパターンの候補をその場で除去する。そして、それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な（すなわち計算量のより多い）判別器を使って顔かどうかの判定を行う。このように全ての候補に対して複雑な判定を行う必要がないので、顔パターンを検出する処理が高速になる。
【０００６】
しかしながら、このような従来の技術では、実用化するのに十分な精度の判別が行える反面、特定の被写体の判別を行うための処理量が多くなるという問題点があった。更に、必要な処理の大半が被写体別に異なるため、複数種類の被写体を認識しようとすると処理が膨大になってしまうという問題点もあった。例えば、非特許文献３で提案されている方式を、複数の被写体の認識に利用した場合には、たとえ前段の単純な判別器で夫々の被写体の候補を絞り込んだとしても被写体別に算出すべき特徴量が異なるので、認識対象の数が多くなると処理が膨大になってしまう。特に、一枚の画像を解析して、被写体の内容に応じて画像の分類や検索を行う場合には、複数の被写体の判別が必須となってくるので、このような問題を解決することは非常に重要になる。
【０００７】
一方、画像から被写体の判別を行う方法として、局所領域の特徴量を利用する方法が提案されている。非特許文献４では、画像中から局所的な輝度変化を手掛りとして局所領域を抽出し、抽出した局所領域の特徴量のクラスタリングを行い、クラスタリングを行った結果を集計して画像中における被写体の存在の判定を行っている。非特許文献４では、様々な被写体の判別に対する結果が示されており、判別する対象が異なっても、局所領域の特徴量の算出は共通の方式で行われる。したがって、このような局所特徴量を被写体の判別に用いる方式を、多種の被写体の認識に適用すれば、共通の処理結果を効率良く行える可能性がある。
また、特許文献１では、次のような方式が提案されている。まず、画像の領域を分割し、分割した領域を更にブロックに分けて、各ブロックから色・エッジ等の特徴を抽出する。そして、抽出した特徴と、複数の被写体に固有の特徴との類似度から被写体の属性を求めて、分割した領域毎に集計し、集計した結果を用いて、被写体の属性を求める。このような方式においても、共通の処理として特徴量の算出を行って、複数種類の被写体の判別を行っている。
しかしながら、これらの従来の技術のように、局所領域から特徴量を求めて、その統計により被写体の判別を行う方式では、複数種類の被写体の判別を効率良く行える可能性があるが、判別精度が低くなる虞があるといった問題点があった。
【０００８】
【特許文献１】特開２００５−６３３０９号公報
【非特許文献１】Yang et al, "Detecting Faces in Images: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.24 , NO.1, JANUARY 2002
【非特許文献２】Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998
【非特許文献３】Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'01)
【非特許文献４】Csurka et al, "Visual categorization with bags of keypoints", Proceedings of the 8th European Conference on Computer Vision (ECCV'04)
【発明の開示】
【発明が解決しようとする課題】
【０００９】
本発明は以上の問題に鑑みて成されたものであり、画像中から複数種類の被写体の判別を効率良く、且つ高精度に行うことができるようにすることを目的とする。
【課題を解決するための手段】
【００１０】
本発明の画像処理装置は、画像から複数種類の被写体を検出する画像処理装置であって、前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第１の導出手段と、前記第１の導出手段により導出された特徴量の夫々の属性を、前記局所特徴量の特性に基づいて判別する属性判別手段と、前記画像の中の注目領域を設定する領域設定手段と、前記領域設定手段により設定された注目領域に含まれる特徴量の属性を、前記属性判別手段により判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第２の導出手段と、前記第２の導出手段により導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定手段と、前記辞書設定手段により設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別手段とを有することを特徴とする。
【００１１】
本発明の画像処理方法は、画像から複数種類の被写体を検出する画像処理方法であって、前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第１の導出ステップと、前記第１の導出ステップにより導出された特徴量の夫々の属性を、前記局所特徴量の特性に基づいて判別する属性判別ステップと、前記画像の中の注目領域を設定する領域設定ステップと、前記領域設定ステップにより設定された注目領域に含まれる特徴量の属性を、前記属性判別ステップにより判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第２の導出ステップと、前記第２の導出ステップにより導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定ステップと、前記辞書設定ステップにより設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別ステップとを有することを特徴とする。
【００１２】
本発明のコンピュータプログラムは、画像から複数種類の被写体を検出することをコンピュータに実行させるためのコンピュータプログラムであって、前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第１の導出ステップと、前記第１の導出ステップにより導出された特徴量の夫々の属性を、前記局所特徴量の特性に基づいて判別する属性判別ステップと、前記画像の中の注目領域を設定する領域設定ステップと、前記領域設定ステップにより設定された注目領域に含まれる特徴量の属性を、前記属性判別ステップにより判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第２の導出ステップと、前記第２の導出ステップにより導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定ステップと、前記辞書設定ステップにより設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別ステップとをコンピュータに実行させることを特徴とする。
【発明の効果】
【００１３】
本発明によれば、画像の中から複数種類の被写体の判別を、従来よりも効率良く且つ高精度に行うことができる。
【発明を実施するための最良の形態】
【００１４】
以下に、図面を参照しながら、本発明の実施形態について詳細に説明する。
図１は、画像処理装置の概略構成の一例を示す図である。
図１において、画像入力部１０は、例えばデジタルスチルカメラ、カムコーダ（撮影部と録画部とが１つの装置で構成されたもの）、フィルムスキャナー等で構成され、画像データを撮像或いはその他公知の手段により入力する。また、デジタル画像データを保持する記憶媒体から画像データを読み出すようなコンピュータ・システムのインターフェース機器で画像入力部１０を構成してもよい。また、レンズと、ＣＣＤやＣＭＯＳイメージセンサ等の撮像素子とを含む“デジタルスチルカメラの撮像部”のようなもので画像入力部１０を構成してもよい。
【００１５】
画像メモリ２０は、画像入力部１０から出力された画像データを一時的に記憶する。
画像縮小部３０は、画像メモリ２０に記憶されている画像データを所定の倍率にしたがって縮小し、記憶する。
ブロック切出し部４０は、画像縮小部３０で縮小された画像データから所定のブロックを局所領域として抽出する。
局所特徴量算出部５０は、ブロック切出し部４０で抽出された局所領域の特徴量を算出する。
属性判別部６０は、予め学習により得られた属性辞書を記憶しており、その属性辞書を参照して局所特徴量算出部５０で算出された局所特徴量の属性を判別する。
【００１６】
属性記憶部７０は、属性判別部６０で判別された結果である属性と、ブロック切出し部４０で切出した画像データの位置とを相互に関連付けて記憶する。
注目領域設定部８０は、被写体の判別を行う画像中の領域（以下の説明では、必要に応じて注目領域と称する）を設定する。
属性取得部９０は、注目領域設定部８０で設定された注目領域内の属性を属性記憶部７０から取得する。
被写体尤度算出部１００は、予め学習により得られた所定の被写体と属性との確率モデルを記憶しており、その確率モデルを、属性取得部９０で取得された属性に適用して、被写体の尤度（以下の説明では、必要に応じて被写体尤度と称する）を算出する。
【００１７】
被写体候補抽出部１１０は、被写体尤度算出部１００で得られた"複数の判別対象における被写体尤度"を用いて、注目領域設定部８０で設定された注目領域がどの被写体に対応するものであるかを判別するための候補を絞り込む。
被写体辞書設定部１２０は、予め学習により得られた複数の被写体辞書を記憶しており、被写体候補抽出部１１０で抽出された候補に従い、被写体判別部１３０に対して、複数の被写体辞書の中から、判別すべき被写体に対応する被写体辞書を設定する。
被写体判別部１３０は、被写体辞書設定部１２０で設定された被写体辞書を参照して、注目領域設定部８０で設定された注目領域に対応する画像データから、被写体の特徴量を算出する。そして、被写体判別部１３０は、注目領域設定部８０で設定された注目領域の画像パターンが所定の被写体であるかどうかを判別する。
判別結果出力部１４０は、被写体判別部１３０により判別された結果に従って、注目領域設定部８０で設定された注目領域に対応する被写体を出力する。
また、図１に示す以上の各ブロックは、不図示の制御部により動作が制御される。
【００１８】
次に、図２のフローチャートを参照しながら、画像処理装置１の動作の一例を説明する。
まず、画像入力部１０は、所望の画像データを入力して画像メモリ２０に書き込む（ステップＳ１０１）
ここで画像メモリ２０に書き込まれる画像データは、例えば８ビットの画素により構成される２次元配列のデータであり、Ｒ、Ｇ、Ｂの３つの面により構成される。このとき、画像データがＪＰＥＧ等の方式により圧縮されている場合、画像入力部１０は、画像データを所定の伸長方式に従ってデコードし、ＲＧＢの各画素により構成される画像データとする。更に、本実施形態では、ＲＧＢの画像データを輝度データに変換し、輝度データを以後の処理に適用するものとする。したがって、本実施形態では、画像メモリ２０に格納される画像データは、輝度データである。尚、画像データとしてＹＣｒＣｂのデータを入力する場合、画像入力部１０は、Ｙ成分のデータをそのまま輝度データとして画像メモリ２０に書き込むようにしてもよい。
【００１９】
次に、画像縮小部３０は、輝度データを画像メモリ２０から読み出し、読み出した輝度データを所定の倍率に縮小して多重解像度画像を生成して記憶する（ステップＳ１０２）。本実施形態では、非特許文献２のように、様々な大きさの被写体の検出に対応するため、複数のサイズの画像データ（輝度データ）から、被写体を順次検出するようにしている。例えば、倍率が１．２倍程度ずつ異なる複数の画像データ（輝度データ）を生成するための縮小処理が、後段のブロックで実行される処理のために順次適用される。
以上のように本実施形態では、例えば、ステップＳ１０２の処理を行うことにより縮小手段の一例が実現される。
【００２０】
次に、ブロック切出し部４０は、ステップＳ１０２で縮小された輝度データから、所定の大きさのブロックを局所領域として抽出する（ステップＳ１０３）。例えば、図４は、局所領域の一例を示す図である。図４に示すように、ブロック切出し部４０は、縮小された輝度データに基づく縮小画像４０１の夫々を、縦をＮ分割、横をＭ分割（Ｎ、Ｍは自然数であって、少なくとも何れか一方が２以上）し、（Ｎ×Ｍ）個のブロック（局所領域）に分割する。尚、図４では、ブロック（局所領域）が相互に重ならないように、縮小画像４０１を分割する場合を例に挙げて示しているが、ブロック同士が部分的に重なり合うように縮小画像４０１を分割してブロックを抽出するようにしてもよい。
以上のように本実施形態では、例えば、ステップＳ１０３の処理を行うことにより分割手段の一例が実現される。
【００２１】
次に、局所特徴量算出部５０は、ブロック切出し部４０で抽出された局所領域の夫々に対して局所特徴量を算出する（ステップＳ１０４）。
局所特徴量は、例えば、参考文献１（Schmid and Mohr, "Local Grayvalue Invariants for Image Retrieval", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.19, No.5 (1997)）に記載されている方法で算出することができる。すなわち、ガウス関数及びガウス導関数をフィルタ係数として、局所領域の画像データ（輝度データ）に対して積和演算を行った結果を局所特徴量として求める。
【００２２】
また、参考文献２（Lowe, "Object recognition from local scale-invariant features", Proceedings of the 7^th International Conference on Computer Vision (ICCV99)）に記載されているように、エッジ方向のヒストグラムを用いて局所特徴量を求めてもよい。
局所特徴量としては、これらの参考文献１、２に記載されているような"幾何学的変換である画像の回転に対して不変性のあるもの"が好ましい。
また、参考文献３（Mikolajczyk and Schmid, "Scale and Affine invariant interest point detectors", International Journal of Computer Vision, Vol.60, No.1 (2004)）では、画像のアフィン変換に対して不変な特徴量も提案されている。様々な方向から見た被写体を判別する場合には、このようなアフィン変換に対して不変な特徴量を用いる方がより好ましい。
【００２３】
また、以上のステップＳ１０３及びステップＳ１０４では、画像データ（輝度データ）を複数のブロック（局所領域）に分割して、ブロック毎に局所特徴量を算出するようにする場合を例に挙げて説明した。しかしながら、例えば非特許文献４で提案されている方式を用いてもよい。すなわち、画像データ（輝度データ）から、Harris-Laplace法により再現性の高い特徴点を抽出し、その特徴点の近傍領域をスケールパラメータにより定義し、その定義した内容を用いて局所特徴量を抽出してもよい。
以上のように本実施形態では、例えば、ステップＳ１０４の処理を行うことにより第１の導出手段の一例が実現される。
【００２４】
次に、属性判別部６０は、予め学習により得られた属性辞書を参照して局所特徴量の属性を判別する（ステップＳ１０５）。すなわち、各ブロック（局所領域）から抽出した局所特徴量をχ、属性辞書に記憶されている各属性の代表特徴量をχ_kとしたとき、属性判別部６０は、以下の（１）式により局所特徴量と各属性の代表特徴量とのマハラノビス距離ｄを求める。そして、マハラノビス距離ｄが最も小さい属性をその局所特徴量χの属性とする。
【００２５】
【数１】

【００２６】
ここで、（１）式のΣは特徴量空間の共分散行列である。予め多数の画像から取得した局所特徴量の分布を用いて、特徴量空間の共分散行列Σを求めておく。そして、求めた特徴量空間の共分散行列Σを属性辞書に記憶しておき、このステップＳ１０５で使用するようにする。また、属性辞書にはこの他に、各属性の代表特徴量χ_kが属性の数だけ記憶されている。各属性の代表特徴量χ_kは、予め多数の画像から取得した局所特徴量に対して、K-means法によるクラスタリングを行うことにより求められる。尚、ここでは、（１）式のように、局所特徴量の属性の判別をマハラノビス距離ｄにより行うようにしたが、必ずしもこのようにする必要はない。例えば、ユークリッド距離のような別の基準により、局所特徴量の属性の判別を行ってもよい。また、ここでは、属性辞書の作成に際し、局所特徴量のクラスタリングをＫ−ｍｅａｎｓ法により行うようにしたが、別のクラスタリング手法を用いて、局所特徴量のクラスタリングを行ってもよい。
以上のように本実施形態では、例えば、ステップＳ１０５の処理を行うことにより属性判別手段の一例が実現される。
【００２７】
次に、属性記憶部７０は、ステップＳ１０５で求められた"局所特徴量の属性"を、その局所特徴量が得られた局所領域の位置であって、ブロック切出し手段４０で抽出された局所領域（画像データ）の位置に関連付けて記憶する（ステップＳ１０６）。
以上のように本実施形態では、例えば、ステップＳ１０６の処理を行うことにより記憶手段の一例が実現される。
次に、制御部は、ステップＳ１０３で分割された全ての局所領域（ブロック）について処理を行ったか否かを判定する（ステップＳ１０７）。この判定の結果、全ての局所領域（ブロック）について処理を行っていない場合には、ステップＳ１０３に戻り、次の局所領域（ブロック）が抽出される。
【００２８】
そして、全ての局所領域（ブロック）について処理が終わると、制御部は、ステップＳ１０２で得られた全ての縮小画像について処理を行ったか否かを判定する（ステップＳ１０８）。この判定の結果、全ての縮小画像について処理を行っていない場合には、ステップＳ１０３に戻り、次の縮小画像が（Ｎ×Ｍ）個の局所領域（ブロック）に分割され、そのうちの１つが抽出される。
そして、全ての縮小画像について処理が終わると、図５に示すように、ステップＳ１０２の縮小処理により得られた多重解像度画像５０１（縮小画像）と、それに対応した属性マップ５０２とが得られる。本実施形態では、この属性マップ５０２が属性記憶部７０に記憶されることになる。尚、各局所特徴量の属性に対して所定の整数値をインデックス値として割り当てることにより、局所特徴量の属性の種別を設定すればよいが、図５ではこの値を画像の輝度で表示した場合を例に挙げて示している。
【００２９】
次に、注目領域設定部８０は、ステップＳ１０２で得られた多重解像度画像（縮小画像）に対して、縦横順次に走査を繰り返し、被写体の判別を行う"画像中の領域（注目領域）"を設定する（ステップＳ１０９）。
図３は、注目領域を設定する方法の一例を説明する図である。
図３において、列Ａは、画像縮小部３０で縮小された"夫々の縮小画像４０１ａ〜４０１ｃ"を示している。ここでは、夫々の縮小画像４０１ａ〜４０１ｃから所定の大きさの矩形領域を切出すものとする。列Ｂは、夫々の縮小画像４０１ａ〜４０１ｃに対して縦横順次に走査を繰り返していく途中で切出された注目領域４０２ａ〜４０２ｃ（照合パターン）を示すものである。図３から分かるように、縮小率の大きな縮小画像から注目領域（照合パターン）を切出して被写体の判別を行う場合には、画像に対して大きな被写体の検出を行うことになる。
以上のように本実施形態では、例えば、ステップＳ１０９の処理を行うことにより領域設定手段の一例が実現される。
【００３０】
次に、属性取得部９０は、ステップＳ１０９で設定された注目領域４０２内の属性を、属性記憶部７０から取得する（ステップＳ１１０）。図６は、注目領域４０２内の属性の一例を示す図である。図６に示すように、注目領域４０２から、それに対応する複数の属性が抽出される。
次に、被写体尤度算出部１００は、ステップＳ１１０で抽出された"注目領域４０２内の属性"から被写体尤度を参照する（ステップＳ１１１）。すなわち、被写体尤度算出部１００には、各属性が所定の被写体である尤度を表す被写体確率モデルがテーブルとして予め記憶されている。被写体尤度算出部１００は、このテーブルを参照して、注目領域４０２内の属性に対応した被写体尤度を取得する。
【００３１】
尚、この被写体確率モデルを表すテーブルの内容は、被写体別に予め学習により求めておく。この被写体確率モデルを表すテーブルの学習は、例えば以下に説明するようにして行う。まず、判別対象とする被写体内の領域から得られた局所特徴量を、多数の画像の中から求め、その局所特徴量の属性の判別の結果から得られた属性に対して＋１の値を加算していき、属性別ヒストグラムを作成する。そして、作成した属性別ヒストグラムの総和が所定の値になるように正規化してテーブルとする。図７は、被写体確率モデルを表すテーブルの一例をグラフ化して示す図である。
【００３２】
次に、制御部は、ステップＳ１０９で設定された注目領域４０２内の全ての属性から被写体尤度を参照したか否かを判定する（ステップＳ１１２）。この判定の結果、注目領域４０２内の全ての属性から被写体尤度を参照していない場合には、ステップＳ１１１に戻り、次の属性から被写体尤度が参照される。
そして、注目領域４０２内の全ての属性から被写体尤度が参照されると、被写体尤度算出部１００は、注目領域４０２内における被写体尤度の総和を求め、求めた被写体尤度の総和を、注目領域４０２の被写体尤度とする（ステップＳ１１３）。
各属性をν_i、判別対象とする被写体をＣ、縮小画像の注目領域をＲとし、被写体の輝度パターンがＮ個の特徴量を含むとき、ｉ番目の特徴量が属性ν_iを持つ確率Ｐ（ν_i｜Ｃ）、被写体の発生確率をＰ（Ｃ）とする。すると、注目領域Ｒが被写体Ｃである確率Ｐ（Ｃ｜Ｒ）は、以下の（２）式のように表せる。
【００３３】
【数２】

【００３４】
更に、被写体の輝度パターンが属性ν_iを持つ尤度をＬ_i（＝Ｌ_i（ν_i｜Ｃ）＝−ｌｎＰ（ν_i｜Ｃ））のように定義する。そして、被写体の発生確率が被写体間で差がないとして被写体の発生確率を無視すると、注目領域Ｒが被写体Ｃである尤度は、以下の（３）式のように表せる。
【００３５】
【数３】

【００３６】
以上のように本実施形態では、例えば、ステップＳ１１０、Ｓ１１１、Ｓ１１３の処理を行うことにより第２の導出手段の一例が実現される。
次に、制御部は、所定の複数の被写体（例えば全ての被写体）について処理を行ったか否かを判定する（ステップＳ１１４）。この判定の結果、所定の複数の被写体について処理を行っていない場合には、ステップＳ１１１に戻り、次の被写体についての被写体尤度が参照される。
そして、所定の複数の被写体について処理を行い、それら複数の被写体に対する被写体尤度が求まると、被写体候補抽出部１１０は、複数の被写体に対する被写体尤度と所定の閾値とを比較する。そして、被写体候補抽出部１１０は、被写体尤度が閾値以上の被写体を被写体候補として抽出する（ステップＳ１１５）。このとき、被写体尤度が高い順にソーティングを行い、被写体候補のリストを作成しておく。例えば、図５（ａ）に示した縮小画像５０１ａの注目領域Ｒ１では、花又は花と共通の特徴量を含むような被写体が被写体候補として抽出される。また、縮小画像５０１ｂの注目領域Ｒ２では、顔又は顔と共通の特徴量を含むような被写体が被写体候補として抽出される。
【００３７】
次に、被写体辞書設定部１２０は、ステップＳ１１５で作成したリストに従い、被写体判別部１３０に対して、予め学習により得られた複数の被写体辞書の中から、判別すべき被写体に対応する被写体辞書を設定する（ステップＳ１１６）。この被写体辞書には、例えば、被写体と、被写体固有の特徴量とが相互に対応付けられて設定されている。
以上のように本実施形態では、例えば、ステップＳ１１６の処理を行うことにより辞書設定手段の一例が実現される。
次に、被写体判別部１３０は、ステップＳ１１６で設定された被写体辞書を参照して、注目領域４０２の画像パターンにおける"被写体固有の特徴量"を算出する（ステップＳ１１７）。
【００３８】
次に、被写体判別部１３０は、ステップＳ１１７で算出した"被写体固有の特徴量"と、処理対象の縮小画像４０１における注目領域４０２の特徴量とを照合し、照合した結果に基づいて被写体候補が所定の被写体であるか否かを判定する（ステップＳ１１８）。ここでは、画像パターンに対して、非特許文献３にあるようなAdaBoostを使って多くの弱判別器を有効に組合せ、被写体の判別の精度を向上させるようにしている。非特許文献３では、注目領域の部分コントラスト（隣接する矩形領域（注目領域）同士の差分）により被写体の判別を行う弱判別器からの出力（結果）を、所定の重みを付けて組合せることにより判別器を構成し、被写体の判別を行っている。ここで部分コントラストが被写体の特徴量を表すことになる。
【００３９】
図８は、被写体判別部１３０の構成の一例を示す図である。
図８において、被写体判別部１３０は、部分コントラスト（被写体の特徴量）を算出し、算出した部分コントラストから閾値処理により被写体の判別を行う"複数の弱判別器１３１、１３２、・・・、１３Ｔ"（組合せ判別器）を備えている。そして、加算器１３０１は、複数の弱判別器１３１、１３２、・・・、１３Ｔからの出力に対して、重み係数を用いて所定の重み付け演算を行う。閾値処理器１３３は、加算器１３０１からの出力に対して閾値処理を行うことにより被写体の判別を行う。
【００４０】
このとき、部分コントラストを算出する注目領域４０２内の部分領域の位置、弱判別器の閾値、弱判別器の重み、組合せ判別器の閾値は被写体によって異なる。したがって、判別する被写体に応じた被写体辞書が被写体辞書設定部１２０によって設定される。このとき、非特許文献３に記載されているように、複数の組合せ判別器を直列に組合せて、被写体を判別するようにしてもよい。弱判別器の組合せ数が多いほど判別精度はよくなるが、処理が複雑になる。したがって、弱判別器の組合せについては、これらを考慮して調整する必要がある。
【００４１】
尚、被写体を判別する方法は、以上のようなものに限定されない。例えば、非特許文献２に記載されているように、ニューラルネットを用いて被写体を判別してもよい。また、被写体の特徴量を抽出する際には、注目領域４０２の画像パターンだけでなく、属性取得部９０から出力された"その注目領域４０２に対応する領域の属性"も利用することもできる。
以上のように本実施形態では、例えば、ステップＳ１１７、Ｓ１１８の処理を行うことにより被写体判別手段の一例が実現される。
【００４２】
図２の説明に戻り、ステップＳ１１８において、被写体候補が所定の被写体でないと判定された場合には、ステップＳ１１６に戻る。そして、ステップＳ１１５で作成したリストに従い、次の被写体候補に対応する被写体辞書を被写体判別部１３０に設定する。
【００４３】
一方、被写体候補が所定の被写体であると判定された場合、又は、全ての被写体辞書が設定されたのにも関わらず被写体候補が所定の被写体でないと判定された場合、ステップＳ１０９で設定された注目領域４０２に対する被写体の判別処理は終了する。そして、判定された結果の情報を判別結果出力部１４０に出力する。
そして、判別結果出力部１４０は、被写体判別部１３０から出力された情報に従って注目領域設定部８０で設定された注目領域４０２に対応する被写体を出力する（ステップＳ１１９）。例えば、判別結果出力部１４０は、ディスプレイに入力画像を表示し、それに重畳するように注目領域に対応する枠と被写体名とを表示する。また、判別結果出力部１４０は、被写体の判別結果を入力画像の付帯情報として関連付けて保存、出力するようにしてもよい。尚、被写体候補がどの被写体にも相当しない場合、判別結果出力部１４０は、例えば、その旨を出力したり、出力を行わなかったりする。
【００４４】
次に、制御部は、処理対象となっている縮小画像４０１に対する走査が終了したか否かを判定する（ステップＳ１２０）。この判定の結果、処理対象となっている縮小画像４０１に対する走査が終了していない場合には、ステップＳ１０９に戻り、走査を続行して次の注目領域４０２を設定する。
一方、処理対象となっている縮小画像４０１に対する走査が終了した場合、制御部は、テップＳ１０２で得られた全ての縮小画像について処理を行ったか否かを判定する（ステップＳ１２１）。この判定の結果、全ての縮小画像４０１について処理を行っていない場合には、ステップＳ１０９に戻り、次の縮小画像４０１に対して注目領域４０２を設定する。
【００４５】
そして、全ての縮小画像４０１について処理が終了すると、図２のフローチャートによる処理を終了する。
尚、ここでは、１つの注目領域４０２に対する処理が行われる度に、判定結果の出力を行うようにした（ステップＳ１１８、Ｓ１１９を参照）。しかしながら、必ずしもこのようにする必要はない。例えば、ステップＳ１２１において、全ての縮小画像４０１について処理が終了した後に、ステップＳ１１９の処理を行うようにしてもよい。
【００４６】
以上のように本実施形態では、複数種類の被写体の判別を行う際に、１つの縮小画像４０１から複数の局所特徴量を抽出し、当該局所特徴量の夫々と、当該局所特徴量の特性（画像特性）に応じた属性とを対応付けて記憶する。そして、注目領域４０２の特徴量の属性から、複数の被写体に対する被写体尤度を求め、被写体尤度が閾値以上の被写体を被写体候補とし、被写体候補が所定の被写体であるか否かを判定するようにした。すなわち、画像のアピアランス（appearance）に基づく判別（被写体に固有の特徴量による被写体の判別）を行う対象となる被写体の数を絞り込むようにした。その結果、複数種類の被写体の判別を高精度に実現できる。また、局所特徴量の算出及び局所特徴量とその属性との対応付けは、被写体の種別に依らず共通の処理で行うので、複数種類の被写体の判別を効率良く行うことができる。
また、局所特徴量の属性を、その局所特徴量が得られた画像の位置に関連付けて記憶しておき、注目領域４０２に関して局所特徴量の属性を取得できるようにしたので、画像領域別に異なる被写体の検出を行うことができる。
【００４７】
（本発明の他の実施形態）
前述した本発明の実施形態における画像処理装置を構成する各手段、並びに画像処理方法の各ステップは、コンピュータのＲＡＭやＲＯＭなどに記憶されたプログラムが動作することによって実現できる。このプログラム及び前記プログラムを記録したコンピュータ読み取り可能な記録媒体は本発明に含まれる。
【００４８】
また、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体等としての実施形態も可能であり、具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【００４９】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図２に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接、あるいは遠隔から供給するものを含む。そして、そのシステムあるいは装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合も本発明に含まれる。
【００５０】
したがって、本発明の機能処理をコンピュータで実現するために、前記コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【００５１】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であってもよい。
【００５２】
プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷなどがある。また、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などもある。
【００５３】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、前記ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。
【００５４】
また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。
【００５５】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、ダウンロードした鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【００５６】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。その他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【００５７】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。
【００５８】
尚、前述した各実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
【図面の簡単な説明】
【００５９】
【図１】本発明の実施形態を示し、画像処理装置の概略構成の一例を示す図である。
【図２】本発明の実施形態を示し、画像処理装置の動作の一例を説明するフローチャートである。
【図３】本発明の実施形態を示し、注目領域を設定する方法の一例を説明する図である。
【図４】本発明の実施形態を示し、局所領域の一例を示す図である。
【図５】本発明の実施形態を示し、縮小処理により得られた多重解像度画像（縮小画像）と、それに対応した属性マップの一例を示す図である。
【図６】本発明の実施形態を示し、注目領域内の属性の一例を示す図である。
【図７】本発明の実施形態を示し、被写体確率モデルを表すテーブルの一例をグラフ化して示す図である。
【図８】本発明の実施形態を示し、被写体判別部の構成の一例を示す図である。
【符号の説明】
【００６０】
１画像処理装置
１０画像入力部
３０画像縮小手段
４０ブロック切出し部
５０局所特徴量算出部
６０属性判別部
８０注目領域設定部
１００被写体尤度算出部
１１０被写体候補抽出部
１２０被写体辞書設定部
１３０被写体判別部
１４０判別結果出力部

【特許請求の範囲】
【請求項１】
画像から複数種類の被写体を検出する画像処理装置であって、
前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第１の導出手段と、
前記第１の導出手段により導出された特徴量の夫々の属性を、前記特徴量の特性に基づいて判別する属性判別手段と、
前記画像の中の注目領域を設定する領域設定手段と、
前記領域設定手段により設定された注目領域に含まれる特徴量の属性を、前記属性判別手段により判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第２の導出手段と、
前記第２の導出手段により導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定手段と、
前記辞書設定手段により設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別手段とを有することを特徴とする画像処理装置。
【請求項２】
前記第１の導出手段により導出された特徴量の属性と、当該属性に対応する前記画像の位置とを相互に関連付けて記憶する記憶手段を有し、
前記第２の導出手段は、前記領域設定手段により設定された注目領域に対応する位置に関連付けられて記憶されている属性を読み出し、読み出した属性から、所定の複数種類の被写体に対する尤度であって、前記注目領域における尤度を導出することを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記辞書設定手段は、前記第２の導出手段により導出された尤度が閾値以上の被写体に対応する辞書を設定し、
前記被写体判別手段は、前記注目領域において、前記第２の導出手段により導出された尤度が閾値以上の被写体を判別することを特徴とする請求項１又は２に記載の画像処理装置。
【請求項４】
前記画像を複数のブロックに分割する分割手段を有し、
前記第１の導出手段は、前記分割手段により分割されたブロックにおける特徴量を導出することを特徴とする請求項１〜３の何れか１項に記載の画像処理装置。
【請求項５】
前記画像を所定の倍率で縮小する縮小手段を有し、
前記第１の導出手段は、前記縮小手段により縮小された縮小画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出し、
前記領域設定手段は、前記縮小手段により縮小された縮小画像の中の注目領域を設定することを特徴とする請求項１〜４の何れか１項に記載の画像処理装置。
【請求項６】
前記第１の導出手段は、幾何学的変換に対して不変な特徴量を導出することを特徴とする請求項１〜５の何れか１項に記載の画像処理装置。
【請求項７】
画像から複数種類の被写体を検出する画像処理方法であって、
前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第１の導出ステップと、
前記第１の導出ステップにより導出された特徴量の夫々の属性を、前記特徴量の特性に基づいて判別する属性判別ステップと、
前記画像の中の注目領域を設定する領域設定ステップと、
前記領域設定ステップにより設定された注目領域に含まれる特徴量の属性を、前記属性判別ステップにより判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第２の導出ステップと、
前記第２の導出ステップにより導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定ステップと、
前記辞書設定ステップにより設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別ステップとを有することを特徴とする画像処理方法。
【請求項８】
画像から複数種類の被写体を検出することをコンピュータに実行させるためのコンピュータプログラムであって、
前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第１の導出ステップと、
前記第１の導出ステップにより導出された特徴量の夫々の属性を、前記特徴量の特性に基づいて判別する属性判別ステップと、
前記画像の中の注目領域を設定する領域設定ステップと、
前記領域設定ステップにより設定された注目領域に含まれる特徴量の属性を、前記属性判別ステップにより判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第２の導出ステップと、
前記第２の導出ステップにより導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定ステップと、
前記辞書設定ステップにより設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別ステップとをコンピュータに実行させることを特徴とするコンピュータプログラム。

【図１】