説明

画像処理装置、画像処理方法、及びコンピュータプログラム

【課題】 画像中から複数種類の被写体の判別を効率良く、且つ高精度に行えるようにする。
【解決手段】 複数種類の被写体の判別を行う際に、1つの縮小画像401から複数の局所特徴量を抽出し、当該局所特徴量の夫々と、当該局所特徴量の画像特性に応じた属性とを対応付けて記憶する。そして、注目領域402の特徴量の属性から、複数の被写体に対する被写体尤度を求め、被写体尤度が閾値以上の被写体を被写体候補とし、被写体候補が所定の被写体であるか否かを判定するようにした。すなわち、被写体に固有の特徴量による被写体の判別を行う対象となる被写体の数を絞り込むようにした。その結果、複数種類の被写体の判別を高精度に実現できる。また、局所特徴量の算出及び局所特徴量とその属性との対応付けは、被写体の種別に依らず共通の処理で行うので、複数種類の被写体の判別を効率良く行うことができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、及びコンピュータプログラムに関し、特に、画像中から所定の被写体を自動的に検出するために用いて好適なものである。
【背景技術】
【0002】
画像から特定の被写体パターンを自動的に検出する画像処理方法は非常に有用であり、例えば人間の顔の判定に利用することができる。このような画像処理方法は、通信会議、マン・マシン・インタフェース、セキュリティ、人間の顔を追跡するためのモニタ・システム、画像圧縮等の多くの分野で使用することができる。このような画像処理方法のうち、画像中から顔を検出する技術としては、非特許文献1に各種方式が挙げられている。この非特許文献1の中では、いくつかの顕著な特徴(2つの目、口、鼻等)と、その特徴間の固有の幾何学的位置関係とを利用することによって、人間の顔を検出する方式が示されている。更に、非特許文献1の中では、人間の顔の対称的特徴、人間の顔色の特徴、テンプレート・マッチング、ニューラル・ネットワーク等を利用することによって、人間の顔を検出する方式も示されている。
【0003】
更に、非特許文献2は、ニューラル・ネットワークにより画像中の顔パターンを検出する方法が提案されている。以下に、非特許文献2で提案されている顔検出の方法について簡単に説明する。
まず、顔パターンの検出対象となる画像をメモリに書き込み、顔と照合する所定の領域を、書き込んだ画像から切り出す。そして、切り出した領域の画素値の分布(画像パターン)を入力としてニューラル・ネットワークによる演算を実行し一つの出力を得る。ここで、膨大な顔画像パターンと非顔画像パターンによって、ニューラル・ネットワークの重み及び閾値が予め学習されている。この学習の内容に基づいて、例えば、ニューラル・ネットワークの出力が0以上なら顔、それ以外は非顔であると判別する。
【0004】
更に、非特許文献2では、ニューラル・ネットワークの入力である画像パターンであって、顔と照合する画像パターンの切り出し位置を、例えば、図3に示すように画像全域から縦横順次に走査し、各切り出し位置で画像を切り出す。そして、切り出した画像の画像パターンの夫々について前述したようにして顔であるか否かを判別することにより、画像中から顔を検出する。また、様々な大きさの顔の検出に対応するため、図3に示すように、メモリに書き込んだ画像を所定の割合で順次縮小し、それらに対して前述した走査、切り出し、判別を行うようにしている。
【0005】
また、顔パターンを検出する処理の高速化に着目した方法としては、非特許文献3に提案されている方法がある。この非特許文献3の中では、AdaBoostを使って多くの弱判別器を有効に組合せて顔判別の精度を向上させる一方、夫々の弱判別器をHaarタイプの矩形特徴量で構成し、しかも矩形特徴量の算出を、積分画像を利用して高速に行っている。また、AdaBoostによって得た判別器を直列に繋ぎ、カスケード型の顔検出器を構成するようにしている。このカスケード型の顔検出器は、まず前段の単純な(すなわち計算量のより少ない)判別器を使って明らかに顔でないパターンの候補をその場で除去する。そして、それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な(すなわち計算量のより多い)判別器を使って顔かどうかの判定を行う。このように全ての候補に対して複雑な判定を行う必要がないので、顔パターンを検出する処理が高速になる。
【0006】
しかしながら、このような従来の技術では、実用化するのに十分な精度の判別が行える反面、特定の被写体の判別を行うための処理量が多くなるという問題点があった。更に、必要な処理の大半が被写体別に異なるため、複数種類の被写体を認識しようとすると処理が膨大になってしまうという問題点もあった。例えば、非特許文献3で提案されている方式を、複数の被写体の認識に利用した場合には、たとえ前段の単純な判別器で夫々の被写体の候補を絞り込んだとしても被写体別に算出すべき特徴量が異なるので、認識対象の数が多くなると処理が膨大になってしまう。特に、一枚の画像を解析して、被写体の内容に応じて画像の分類や検索を行う場合には、複数の被写体の判別が必須となってくるので、このような問題を解決することは非常に重要になる。
【0007】
一方、画像から被写体の判別を行う方法として、局所領域の特徴量を利用する方法が提案されている。非特許文献4では、画像中から局所的な輝度変化を手掛りとして局所領域を抽出し、抽出した局所領域の特徴量のクラスタリングを行い、クラスタリングを行った結果を集計して画像中における被写体の存在の判定を行っている。非特許文献4では、様々な被写体の判別に対する結果が示されており、判別する対象が異なっても、局所領域の特徴量の算出は共通の方式で行われる。したがって、このような局所特徴量を被写体の判別に用いる方式を、多種の被写体の認識に適用すれば、共通の処理結果を効率良く行える可能性がある。
また、特許文献1では、次のような方式が提案されている。まず、画像の領域を分割し、分割した領域を更にブロックに分けて、各ブロックから色・エッジ等の特徴を抽出する。そして、抽出した特徴と、複数の被写体に固有の特徴との類似度から被写体の属性を求めて、分割した領域毎に集計し、集計した結果を用いて、被写体の属性を求める。このような方式においても、共通の処理として特徴量の算出を行って、複数種類の被写体の判別を行っている。
しかしながら、これらの従来の技術のように、局所領域から特徴量を求めて、その統計により被写体の判別を行う方式では、複数種類の被写体の判別を効率良く行える可能性があるが、判別精度が低くなる虞があるといった問題点があった。
【0008】
【特許文献1】特開2005−63309号公報
【非特許文献1】Yang et al, "Detecting Faces in Images: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.24 , NO.1, JANUARY 2002
【非特許文献2】Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998
【非特許文献3】Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'01)
【非特許文献4】Csurka et al, "Visual categorization with bags of keypoints", Proceedings of the 8th European Conference on Computer Vision (ECCV'04)
【発明の開示】
【発明が解決しようとする課題】
【0009】
本発明は以上の問題に鑑みて成されたものであり、画像中から複数種類の被写体の判別を効率良く、且つ高精度に行うことができるようにすることを目的とする。
【課題を解決するための手段】
【0010】
本発明の画像処理装置は、画像から複数種類の被写体を検出する画像処理装置であって、前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第1の導出手段と、前記第1の導出手段により導出された特徴量の夫々の属性を、前記局所特徴量の特性に基づいて判別する属性判別手段と、前記画像の中の注目領域を設定する領域設定手段と、前記領域設定手段により設定された注目領域に含まれる特徴量の属性を、前記属性判別手段により判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第2の導出手段と、前記第2の導出手段により導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定手段と、前記辞書設定手段により設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別手段とを有することを特徴とする。
【0011】
本発明の画像処理方法は、画像から複数種類の被写体を検出する画像処理方法であって、前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第1の導出ステップと、前記第1の導出ステップにより導出された特徴量の夫々の属性を、前記局所特徴量の特性に基づいて判別する属性判別ステップと、前記画像の中の注目領域を設定する領域設定ステップと、前記領域設定ステップにより設定された注目領域に含まれる特徴量の属性を、前記属性判別ステップにより判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第2の導出ステップと、前記第2の導出ステップにより導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定ステップと、前記辞書設定ステップにより設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別ステップとを有することを特徴とする。
【0012】
本発明のコンピュータプログラムは、画像から複数種類の被写体を検出することをコンピュータに実行させるためのコンピュータプログラムであって、前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第1の導出ステップと、前記第1の導出ステップにより導出された特徴量の夫々の属性を、前記局所特徴量の特性に基づいて判別する属性判別ステップと、前記画像の中の注目領域を設定する領域設定ステップと、前記領域設定ステップにより設定された注目領域に含まれる特徴量の属性を、前記属性判別ステップにより判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第2の導出ステップと、前記第2の導出ステップにより導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定ステップと、前記辞書設定ステップにより設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別ステップとをコンピュータに実行させることを特徴とする。
【発明の効果】
【0013】
本発明によれば、画像の中から複数種類の被写体の判別を、従来よりも効率良く且つ高精度に行うことができる。
【発明を実施するための最良の形態】
【0014】
以下に、図面を参照しながら、本発明の実施形態について詳細に説明する。
図1は、画像処理装置の概略構成の一例を示す図である。
図1において、画像入力部10は、例えばデジタルスチルカメラ、カムコーダ(撮影部と録画部とが1つの装置で構成されたもの)、フィルムスキャナー等で構成され、画像データを撮像或いはその他公知の手段により入力する。また、デジタル画像データを保持する記憶媒体から画像データを読み出すようなコンピュータ・システムのインターフェース機器で画像入力部10を構成してもよい。また、レンズと、CCDやCMOSイメージセンサ等の撮像素子とを含む“デジタルスチルカメラの撮像部”のようなもので画像入力部10を構成してもよい。
【0015】
画像メモリ20は、画像入力部10から出力された画像データを一時的に記憶する。
画像縮小部30は、画像メモリ20に記憶されている画像データを所定の倍率にしたがって縮小し、記憶する。
ブロック切出し部40は、画像縮小部30で縮小された画像データから所定のブロックを局所領域として抽出する。
局所特徴量算出部50は、ブロック切出し部40で抽出された局所領域の特徴量を算出する。
属性判別部60は、予め学習により得られた属性辞書を記憶しており、その属性辞書を参照して局所特徴量算出部50で算出された局所特徴量の属性を判別する。
【0016】
属性記憶部70は、属性判別部60で判別された結果である属性と、ブロック切出し部40で切出した画像データの位置とを相互に関連付けて記憶する。
注目領域設定部80は、被写体の判別を行う画像中の領域(以下の説明では、必要に応じて注目領域と称する)を設定する。
属性取得部90は、注目領域設定部80で設定された注目領域内の属性を属性記憶部70から取得する。
被写体尤度算出部100は、予め学習により得られた所定の被写体と属性との確率モデルを記憶しており、その確率モデルを、属性取得部90で取得された属性に適用して、被写体の尤度(以下の説明では、必要に応じて被写体尤度と称する)を算出する。
【0017】
被写体候補抽出部110は、被写体尤度算出部100で得られた"複数の判別対象における被写体尤度"を用いて、注目領域設定部80で設定された注目領域がどの被写体に対応するものであるかを判別するための候補を絞り込む。
被写体辞書設定部120は、予め学習により得られた複数の被写体辞書を記憶しており、被写体候補抽出部110で抽出された候補に従い、被写体判別部130に対して、複数の被写体辞書の中から、判別すべき被写体に対応する被写体辞書を設定する。
被写体判別部130は、被写体辞書設定部120で設定された被写体辞書を参照して、注目領域設定部80で設定された注目領域に対応する画像データから、被写体の特徴量を算出する。そして、被写体判別部130は、注目領域設定部80で設定された注目領域の画像パターンが所定の被写体であるかどうかを判別する。
判別結果出力部140は、被写体判別部130により判別された結果に従って、注目領域設定部80で設定された注目領域に対応する被写体を出力する。
また、図1に示す以上の各ブロックは、不図示の制御部により動作が制御される。
【0018】
次に、図2のフローチャートを参照しながら、画像処理装置1の動作の一例を説明する。
まず、画像入力部10は、所望の画像データを入力して画像メモリ20に書き込む(ステップS101)
ここで画像メモリ20に書き込まれる画像データは、例えば8ビットの画素により構成される2次元配列のデータであり、R、G、Bの3つの面により構成される。このとき、画像データがJPEG等の方式により圧縮されている場合、画像入力部10は、画像データを所定の伸長方式に従ってデコードし、RGBの各画素により構成される画像データとする。更に、本実施形態では、RGBの画像データを輝度データに変換し、輝度データを以後の処理に適用するものとする。したがって、本実施形態では、画像メモリ20に格納される画像データは、輝度データである。尚、画像データとしてYCrCbのデータを入力する場合、画像入力部10は、Y成分のデータをそのまま輝度データとして画像メモリ20に書き込むようにしてもよい。
【0019】
次に、画像縮小部30は、輝度データを画像メモリ20から読み出し、読み出した輝度データを所定の倍率に縮小して多重解像度画像を生成して記憶する(ステップS102)。本実施形態では、非特許文献2のように、様々な大きさの被写体の検出に対応するため、複数のサイズの画像データ(輝度データ)から、被写体を順次検出するようにしている。例えば、倍率が1.2倍程度ずつ異なる複数の画像データ(輝度データ)を生成するための縮小処理が、後段のブロックで実行される処理のために順次適用される。
以上のように本実施形態では、例えば、ステップS102の処理を行うことにより縮小手段の一例が実現される。
【0020】
次に、ブロック切出し部40は、ステップS102で縮小された輝度データから、所定の大きさのブロックを局所領域として抽出する(ステップS103)。例えば、図4は、局所領域の一例を示す図である。図4に示すように、ブロック切出し部40は、縮小された輝度データに基づく縮小画像401の夫々を、縦をN分割、横をM分割(N、Mは自然数であって、少なくとも何れか一方が2以上)し、(N×M)個のブロック(局所領域)に分割する。尚、図4では、ブロック(局所領域)が相互に重ならないように、縮小画像401を分割する場合を例に挙げて示しているが、ブロック同士が部分的に重なり合うように縮小画像401を分割してブロックを抽出するようにしてもよい。
以上のように本実施形態では、例えば、ステップS103の処理を行うことにより分割手段の一例が実現される。
【0021】
次に、局所特徴量算出部50は、ブロック切出し部40で抽出された局所領域の夫々に対して局所特徴量を算出する(ステップS104)。
局所特徴量は、例えば、参考文献1(Schmid and Mohr, "Local Grayvalue Invariants for Image Retrieval", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.19, No.5 (1997))に記載されている方法で算出することができる。すなわち、ガウス関数及びガウス導関数をフィルタ係数として、局所領域の画像データ(輝度データ)に対して積和演算を行った結果を局所特徴量として求める。
【0022】
また、参考文献2(Lowe, "Object recognition from local scale-invariant features", Proceedings of the 7th International Conference on Computer Vision (ICCV99))に記載されているように、エッジ方向のヒストグラムを用いて局所特徴量を求めてもよい。
局所特徴量としては、これらの参考文献1、2に記載されているような"幾何学的変換である画像の回転に対して不変性のあるもの"が好ましい。
また、参考文献3(Mikolajczyk and Schmid, "Scale and Affine invariant interest point detectors", International Journal of Computer Vision, Vol.60, No.1 (2004))では、画像のアフィン変換に対して不変な特徴量も提案されている。様々な方向から見た被写体を判別する場合には、このようなアフィン変換に対して不変な特徴量を用いる方がより好ましい。
【0023】
また、以上のステップS103及びステップS104では、画像データ(輝度データ)を複数のブロック(局所領域)に分割して、ブロック毎に局所特徴量を算出するようにする場合を例に挙げて説明した。しかしながら、例えば非特許文献4で提案されている方式を用いてもよい。すなわち、画像データ(輝度データ)から、Harris-Laplace法により再現性の高い特徴点を抽出し、その特徴点の近傍領域をスケールパラメータにより定義し、その定義した内容を用いて局所特徴量を抽出してもよい。
以上のように本実施形態では、例えば、ステップS104の処理を行うことにより第1の導出手段の一例が実現される。
【0024】
次に、属性判別部60は、予め学習により得られた属性辞書を参照して局所特徴量の属性を判別する(ステップS105)。すなわち、各ブロック(局所領域)から抽出した局所特徴量をχ、属性辞書に記憶されている各属性の代表特徴量をχkとしたとき、属性判別部60は、以下の(1)式により局所特徴量と各属性の代表特徴量とのマハラノビス距離dを求める。そして、マハラノビス距離dが最も小さい属性をその局所特徴量χの属性とする。
【0025】
【数1】

【0026】
ここで、(1)式のΣは特徴量空間の共分散行列である。予め多数の画像から取得した局所特徴量の分布を用いて、特徴量空間の共分散行列Σを求めておく。そして、求めた特徴量空間の共分散行列Σを属性辞書に記憶しておき、このステップS105で使用するようにする。また、属性辞書にはこの他に、各属性の代表特徴量χkが属性の数だけ記憶されている。各属性の代表特徴量χkは、予め多数の画像から取得した局所特徴量に対して、K-means法によるクラスタリングを行うことにより求められる。尚、ここでは、(1)式のように、局所特徴量の属性の判別をマハラノビス距離dにより行うようにしたが、必ずしもこのようにする必要はない。例えば、ユークリッド距離のような別の基準により、局所特徴量の属性の判別を行ってもよい。また、ここでは、属性辞書の作成に際し、局所特徴量のクラスタリングをK−means法により行うようにしたが、別のクラスタリング手法を用いて、局所特徴量のクラスタリングを行ってもよい。
以上のように本実施形態では、例えば、ステップS105の処理を行うことにより属性判別手段の一例が実現される。
【0027】
次に、属性記憶部70は、ステップS105で求められた"局所特徴量の属性"を、その局所特徴量が得られた局所領域の位置であって、ブロック切出し手段40で抽出された局所領域(画像データ)の位置に関連付けて記憶する(ステップS106)。
以上のように本実施形態では、例えば、ステップS106の処理を行うことにより記憶手段の一例が実現される。
次に、制御部は、ステップS103で分割された全ての局所領域(ブロック)について処理を行ったか否かを判定する(ステップS107)。この判定の結果、全ての局所領域(ブロック)について処理を行っていない場合には、ステップS103に戻り、次の局所領域(ブロック)が抽出される。
【0028】
そして、全ての局所領域(ブロック)について処理が終わると、制御部は、ステップS102で得られた全ての縮小画像について処理を行ったか否かを判定する(ステップS108)。この判定の結果、全ての縮小画像について処理を行っていない場合には、ステップS103に戻り、次の縮小画像が(N×M)個の局所領域(ブロック)に分割され、そのうちの1つが抽出される。
そして、全ての縮小画像について処理が終わると、図5に示すように、ステップS102の縮小処理により得られた多重解像度画像501(縮小画像)と、それに対応した属性マップ502とが得られる。本実施形態では、この属性マップ502が属性記憶部70に記憶されることになる。尚、各局所特徴量の属性に対して所定の整数値をインデックス値として割り当てることにより、局所特徴量の属性の種別を設定すればよいが、図5ではこの値を画像の輝度で表示した場合を例に挙げて示している。
【0029】
次に、注目領域設定部80は、ステップS102で得られた多重解像度画像(縮小画像)に対して、縦横順次に走査を繰り返し、被写体の判別を行う"画像中の領域(注目領域)"を設定する(ステップS109)。
図3は、注目領域を設定する方法の一例を説明する図である。
図3において、列Aは、画像縮小部30で縮小された"夫々の縮小画像401a〜401c"を示している。ここでは、夫々の縮小画像401a〜401cから所定の大きさの矩形領域を切出すものとする。列Bは、夫々の縮小画像401a〜401cに対して縦横順次に走査を繰り返していく途中で切出された注目領域402a〜402c(照合パターン)を示すものである。図3から分かるように、縮小率の大きな縮小画像から注目領域(照合パターン)を切出して被写体の判別を行う場合には、画像に対して大きな被写体の検出を行うことになる。
以上のように本実施形態では、例えば、ステップS109の処理を行うことにより領域設定手段の一例が実現される。
【0030】
次に、属性取得部90は、ステップS109で設定された注目領域402内の属性を、属性記憶部70から取得する(ステップS110)。図6は、注目領域402内の属性の一例を示す図である。図6に示すように、注目領域402から、それに対応する複数の属性が抽出される。
次に、被写体尤度算出部100は、ステップS110で抽出された"注目領域402内の属性"から被写体尤度を参照する(ステップS111)。すなわち、被写体尤度算出部100には、各属性が所定の被写体である尤度を表す被写体確率モデルがテーブルとして予め記憶されている。被写体尤度算出部100は、このテーブルを参照して、注目領域402内の属性に対応した被写体尤度を取得する。
【0031】
尚、この被写体確率モデルを表すテーブルの内容は、被写体別に予め学習により求めておく。この被写体確率モデルを表すテーブルの学習は、例えば以下に説明するようにして行う。まず、判別対象とする被写体内の領域から得られた局所特徴量を、多数の画像の中から求め、その局所特徴量の属性の判別の結果から得られた属性に対して+1の値を加算していき、属性別ヒストグラムを作成する。そして、作成した属性別ヒストグラムの総和が所定の値になるように正規化してテーブルとする。図7は、被写体確率モデルを表すテーブルの一例をグラフ化して示す図である。
【0032】
次に、制御部は、ステップS109で設定された注目領域402内の全ての属性から被写体尤度を参照したか否かを判定する(ステップS112)。この判定の結果、注目領域402内の全ての属性から被写体尤度を参照していない場合には、ステップS111に戻り、次の属性から被写体尤度が参照される。
そして、注目領域402内の全ての属性から被写体尤度が参照されると、被写体尤度算出部100は、注目領域402内における被写体尤度の総和を求め、求めた被写体尤度の総和を、注目領域402の被写体尤度とする(ステップS113)。
各属性をνi、判別対象とする被写体をC、縮小画像の注目領域をRとし、被写体の輝度パターンがN個の特徴量を含むとき、i番目の特徴量が属性νiを持つ確率P(νi|C)、被写体の発生確率をP(C)とする。すると、注目領域Rが被写体Cである確率P(C|R)は、以下の(2)式のように表せる。
【0033】
【数2】

【0034】
更に、被写体の輝度パターンが属性νiを持つ尤度をLi(=Li(νi|C)=−lnP(νi|C))のように定義する。そして、被写体の発生確率が被写体間で差がないとして被写体の発生確率を無視すると、注目領域Rが被写体Cである尤度は、以下の(3)式のように表せる。
【0035】
【数3】

【0036】
以上のように本実施形態では、例えば、ステップS110、S111、S113の処理を行うことにより第2の導出手段の一例が実現される。
次に、制御部は、所定の複数の被写体(例えば全ての被写体)について処理を行ったか否かを判定する(ステップS114)。この判定の結果、所定の複数の被写体について処理を行っていない場合には、ステップS111に戻り、次の被写体についての被写体尤度が参照される。
そして、所定の複数の被写体について処理を行い、それら複数の被写体に対する被写体尤度が求まると、被写体候補抽出部110は、複数の被写体に対する被写体尤度と所定の閾値とを比較する。そして、被写体候補抽出部110は、被写体尤度が閾値以上の被写体を被写体候補として抽出する(ステップS115)。このとき、被写体尤度が高い順にソーティングを行い、被写体候補のリストを作成しておく。例えば、図5(a)に示した縮小画像501aの注目領域R1では、花又は花と共通の特徴量を含むような被写体が被写体候補として抽出される。また、縮小画像501bの注目領域R2では、顔又は顔と共通の特徴量を含むような被写体が被写体候補として抽出される。
【0037】
次に、被写体辞書設定部120は、ステップS115で作成したリストに従い、被写体判別部130に対して、予め学習により得られた複数の被写体辞書の中から、判別すべき被写体に対応する被写体辞書を設定する(ステップS116)。この被写体辞書には、例えば、被写体と、被写体固有の特徴量とが相互に対応付けられて設定されている。
以上のように本実施形態では、例えば、ステップS116の処理を行うことにより辞書設定手段の一例が実現される。
次に、被写体判別部130は、ステップS116で設定された被写体辞書を参照して、注目領域402の画像パターンにおける"被写体固有の特徴量"を算出する(ステップS117)。
【0038】
次に、被写体判別部130は、ステップS117で算出した"被写体固有の特徴量"と、処理対象の縮小画像401における注目領域402の特徴量とを照合し、照合した結果に基づいて被写体候補が所定の被写体であるか否かを判定する(ステップS118)。ここでは、画像パターンに対して、非特許文献3にあるようなAdaBoostを使って多くの弱判別器を有効に組合せ、被写体の判別の精度を向上させるようにしている。非特許文献3では、注目領域の部分コントラスト(隣接する矩形領域(注目領域)同士の差分)により被写体の判別を行う弱判別器からの出力(結果)を、所定の重みを付けて組合せることにより判別器を構成し、被写体の判別を行っている。ここで部分コントラストが被写体の特徴量を表すことになる。
【0039】
図8は、被写体判別部130の構成の一例を示す図である。
図8において、被写体判別部130は、部分コントラスト(被写体の特徴量)を算出し、算出した部分コントラストから閾値処理により被写体の判別を行う"複数の弱判別器131、132、・・・、13T"(組合せ判別器)を備えている。そして、加算器1301は、複数の弱判別器131、132、・・・、13Tからの出力に対して、重み係数を用いて所定の重み付け演算を行う。閾値処理器133は、加算器1301からの出力に対して閾値処理を行うことにより被写体の判別を行う。
【0040】
このとき、部分コントラストを算出する注目領域402内の部分領域の位置、弱判別器の閾値、弱判別器の重み、組合せ判別器の閾値は被写体によって異なる。したがって、判別する被写体に応じた被写体辞書が被写体辞書設定部120によって設定される。このとき、非特許文献3に記載されているように、複数の組合せ判別器を直列に組合せて、被写体を判別するようにしてもよい。弱判別器の組合せ数が多いほど判別精度はよくなるが、処理が複雑になる。したがって、弱判別器の組合せについては、これらを考慮して調整する必要がある。
【0041】
尚、被写体を判別する方法は、以上のようなものに限定されない。例えば、非特許文献2に記載されているように、ニューラルネットを用いて被写体を判別してもよい。また、被写体の特徴量を抽出する際には、注目領域402の画像パターンだけでなく、属性取得部90から出力された"その注目領域402に対応する領域の属性"も利用することもできる。
以上のように本実施形態では、例えば、ステップS117、S118の処理を行うことにより被写体判別手段の一例が実現される。
【0042】
図2の説明に戻り、ステップS118において、被写体候補が所定の被写体でないと判定された場合には、ステップS116に戻る。そして、ステップS115で作成したリストに従い、次の被写体候補に対応する被写体辞書を被写体判別部130に設定する。
【0043】
一方、被写体候補が所定の被写体であると判定された場合、又は、全ての被写体辞書が設定されたのにも関わらず被写体候補が所定の被写体でないと判定された場合、ステップS109で設定された注目領域402に対する被写体の判別処理は終了する。そして、判定された結果の情報を判別結果出力部140に出力する。
そして、判別結果出力部140は、被写体判別部130から出力された情報に従って注目領域設定部80で設定された注目領域402に対応する被写体を出力する(ステップS119)。例えば、判別結果出力部140は、ディスプレイに入力画像を表示し、それに重畳するように注目領域に対応する枠と被写体名とを表示する。また、判別結果出力部140は、被写体の判別結果を入力画像の付帯情報として関連付けて保存、出力するようにしてもよい。尚、被写体候補がどの被写体にも相当しない場合、判別結果出力部140は、例えば、その旨を出力したり、出力を行わなかったりする。
【0044】
次に、制御部は、処理対象となっている縮小画像401に対する走査が終了したか否かを判定する(ステップS120)。この判定の結果、処理対象となっている縮小画像401に対する走査が終了していない場合には、ステップS109に戻り、走査を続行して次の注目領域402を設定する。
一方、処理対象となっている縮小画像401に対する走査が終了した場合、制御部は、テップS102で得られた全ての縮小画像について処理を行ったか否かを判定する(ステップS121)。この判定の結果、全ての縮小画像401について処理を行っていない場合には、ステップS109に戻り、次の縮小画像401に対して注目領域402を設定する。
【0045】
そして、全ての縮小画像401について処理が終了すると、図2のフローチャートによる処理を終了する。
尚、ここでは、1つの注目領域402に対する処理が行われる度に、判定結果の出力を行うようにした(ステップS118、S119を参照)。しかしながら、必ずしもこのようにする必要はない。例えば、ステップS121において、全ての縮小画像401について処理が終了した後に、ステップS119の処理を行うようにしてもよい。
【0046】
以上のように本実施形態では、複数種類の被写体の判別を行う際に、1つの縮小画像401から複数の局所特徴量を抽出し、当該局所特徴量の夫々と、当該局所特徴量の特性(画像特性)に応じた属性とを対応付けて記憶する。そして、注目領域402の特徴量の属性から、複数の被写体に対する被写体尤度を求め、被写体尤度が閾値以上の被写体を被写体候補とし、被写体候補が所定の被写体であるか否かを判定するようにした。すなわち、画像のアピアランス(appearance)に基づく判別(被写体に固有の特徴量による被写体の判別)を行う対象となる被写体の数を絞り込むようにした。その結果、複数種類の被写体の判別を高精度に実現できる。また、局所特徴量の算出及び局所特徴量とその属性との対応付けは、被写体の種別に依らず共通の処理で行うので、複数種類の被写体の判別を効率良く行うことができる。
また、局所特徴量の属性を、その局所特徴量が得られた画像の位置に関連付けて記憶しておき、注目領域402に関して局所特徴量の属性を取得できるようにしたので、画像領域別に異なる被写体の検出を行うことができる。
【0047】
(本発明の他の実施形態)
前述した本発明の実施形態における画像処理装置を構成する各手段、並びに画像処理方法の各ステップは、コンピュータのRAMやROMなどに記憶されたプログラムが動作することによって実現できる。このプログラム及び前記プログラムを記録したコンピュータ読み取り可能な記録媒体は本発明に含まれる。
【0048】
また、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体等としての実施形態も可能であり、具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【0049】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図2に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接、あるいは遠隔から供給するものを含む。そして、そのシステムあるいは装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合も本発明に含まれる。
【0050】
したがって、本発明の機能処理をコンピュータで実現するために、前記コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0051】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であってもよい。
【0052】
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RWなどがある。また、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などもある。
【0053】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、前記ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。
【0054】
また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
【0055】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、ダウンロードした鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0056】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。その他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0057】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。
【0058】
尚、前述した各実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
【図面の簡単な説明】
【0059】
【図1】本発明の実施形態を示し、画像処理装置の概略構成の一例を示す図である。
【図2】本発明の実施形態を示し、画像処理装置の動作の一例を説明するフローチャートである。
【図3】本発明の実施形態を示し、注目領域を設定する方法の一例を説明する図である。
【図4】本発明の実施形態を示し、局所領域の一例を示す図である。
【図5】本発明の実施形態を示し、縮小処理により得られた多重解像度画像(縮小画像)と、それに対応した属性マップの一例を示す図である。
【図6】本発明の実施形態を示し、注目領域内の属性の一例を示す図である。
【図7】本発明の実施形態を示し、被写体確率モデルを表すテーブルの一例をグラフ化して示す図である。
【図8】本発明の実施形態を示し、被写体判別部の構成の一例を示す図である。
【符号の説明】
【0060】
1 画像処理装置
10 画像入力部
30 画像縮小手段
40 ブロック切出し部
50 局所特徴量算出部
60 属性判別部
80 注目領域設定部
100 被写体尤度算出部
110 被写体候補抽出部
120 被写体辞書設定部
130 被写体判別部
140 判別結果出力部

【特許請求の範囲】
【請求項1】
画像から複数種類の被写体を検出する画像処理装置であって、
前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第1の導出手段と、
前記第1の導出手段により導出された特徴量の夫々の属性を、前記特徴量の特性に基づいて判別する属性判別手段と、
前記画像の中の注目領域を設定する領域設定手段と、
前記領域設定手段により設定された注目領域に含まれる特徴量の属性を、前記属性判別手段により判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第2の導出手段と、
前記第2の導出手段により導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定手段と、
前記辞書設定手段により設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別手段とを有することを特徴とする画像処理装置。
【請求項2】
前記第1の導出手段により導出された特徴量の属性と、当該属性に対応する前記画像の位置とを相互に関連付けて記憶する記憶手段を有し、
前記第2の導出手段は、前記領域設定手段により設定された注目領域に対応する位置に関連付けられて記憶されている属性を読み出し、読み出した属性から、所定の複数種類の被写体に対する尤度であって、前記注目領域における尤度を導出することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記辞書設定手段は、前記第2の導出手段により導出された尤度が閾値以上の被写体に対応する辞書を設定し、
前記被写体判別手段は、前記注目領域において、前記第2の導出手段により導出された尤度が閾値以上の被写体を判別することを特徴とする請求項1又は2に記載の画像処理装置。
【請求項4】
前記画像を複数のブロックに分割する分割手段を有し、
前記第1の導出手段は、前記分割手段により分割されたブロックにおける特徴量を導出することを特徴とする請求項1〜3の何れか1項に記載の画像処理装置。
【請求項5】
前記画像を所定の倍率で縮小する縮小手段を有し、
前記第1の導出手段は、前記縮小手段により縮小された縮小画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出し、
前記領域設定手段は、前記縮小手段により縮小された縮小画像の中の注目領域を設定することを特徴とする請求項1〜4の何れか1項に記載の画像処理装置。
【請求項6】
前記第1の導出手段は、幾何学的変換に対して不変な特徴量を導出することを特徴とする請求項1〜5の何れか1項に記載の画像処理装置。
【請求項7】
画像から複数種類の被写体を検出する画像処理方法であって、
前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第1の導出ステップと、
前記第1の導出ステップにより導出された特徴量の夫々の属性を、前記特徴量の特性に基づいて判別する属性判別ステップと、
前記画像の中の注目領域を設定する領域設定ステップと、
前記領域設定ステップにより設定された注目領域に含まれる特徴量の属性を、前記属性判別ステップにより判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第2の導出ステップと、
前記第2の導出ステップにより導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定ステップと、
前記辞書設定ステップにより設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別ステップとを有することを特徴とする画像処理方法。
【請求項8】
画像から複数種類の被写体を検出することをコンピュータに実行させるためのコンピュータプログラムであって、
前記画像の夫々異なる複数の局所領域から、当該局所領域における特徴量を導出する第1の導出ステップと、
前記第1の導出ステップにより導出された特徴量の夫々の属性を、前記特徴量の特性に基づいて判別する属性判別ステップと、
前記画像の中の注目領域を設定する領域設定ステップと、
前記領域設定ステップにより設定された注目領域に含まれる特徴量の属性を、前記属性判別ステップにより判別された属性に基づいて判別し、判別した属性から、前記注目領域における所定の複数種類の被写体に対する尤度を導出する第2の導出ステップと、
前記第2の導出ステップにより導出された尤度に応じて、被写体に対する当該被写体に固有の特徴量を表す辞書を、予め設定されている複数の辞書の中から設定する辞書設定ステップと、
前記辞書設定ステップにより設定された辞書から抽出した被写体に固有の特徴量と、前記注目領域における特徴量とに基づいて、前記注目領域における被写体を判別する被写体判別ステップとをコンピュータに実行させることを特徴とするコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2010−26603(P2010−26603A)
【公開日】平成22年2月4日(2010.2.4)
【国際特許分類】
【出願番号】特願2008−184253(P2008−184253)
【出願日】平成20年7月15日(2008.7.15)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】