画像処理装置、位置合わせ方法及びプログラム
【課題】変形する対象の画像を抽出し、抽出結果を基に対象の位置を補正することを可能とすることを目的とする。
【解決手段】画像を取得する画像取得手段と、画像取得手段で取得された画像から特徴量を抽出する特徴抽出手段と、対象のモデルと特徴抽出手段で抽出された画像の特徴量とを基に対象の尤度を算出する尤度算出手段と、尤度算出手段で算出された尤度を基に画像内にある対象の検出領域を検出する検出手段と、モデルと検出手段で検出された検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別する識別手段と、識別手段で識別された対象が変動していない部分を基にモデルと検出領域との位置合わせを行う位置合わせ手段と、を有することによって課題を解決する。
【解決手段】画像を取得する画像取得手段と、画像取得手段で取得された画像から特徴量を抽出する特徴抽出手段と、対象のモデルと特徴抽出手段で抽出された画像の特徴量とを基に対象の尤度を算出する尤度算出手段と、尤度算出手段で算出された尤度を基に画像内にある対象の検出領域を検出する検出手段と、モデルと検出手段で検出された検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別する識別手段と、識別手段で識別された対象が変動していない部分を基にモデルと検出領域との位置合わせを行う位置合わせ手段と、を有することによって課題を解決する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、位置合わせ方法及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、テンプレートとなる画像を用意し、その画像に対して点を抽出する。そして、別の画像でも同様に点を抽出し、用意したテンプレート画像の点とマッチングを行って画像を変換させる係数を求めて画像を正規化し、画像の差分を取って同じかどうか判断することで画像を収集する方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−309259号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に開示される技術は3組以上の対応点を使用して画像を正規化している。そのため、顔のように形状の変形があまりない対象の画像には適用できるが、手や脚といった変形による位置ずれを含む画像に適用した場合、正規化の処理により画像内の対象が変形していまい、対象となる物体の領域を画像から抽出することができない問題があった。
【0005】
本発明はこのような問題点に鑑みなされたもので、変形する対象の画像を抽出し、抽出結果を基に対象の位置を補正することを可能とすることを目的とする。
【課題を解決するための手段】
【0006】
そこで、本発明の画像処理装置は、画像を取得する画像取得手段と、前記画像取得手段で取得された画像から特徴量を抽出する特徴抽出手段と、対象のモデルと前記特徴抽出手段で抽出された画像の特徴量とを基に対象の尤度を算出する尤度算出手段と、前記尤度算出手段で算出された尤度を基に前記画像内にある対象の検出領域を検出する検出手段と、前記モデルと前記検出手段で検出された検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別する識別手段と、前記識別手段で識別された対象が変動していない部分を基に前記モデルと前記検出領域との位置合わせを行う位置合わせ手段と、を有する。
【発明の効果】
【0007】
本発明によれば、変形する対象の画像を抽出し、抽出結果を基に対象の位置を補正することを可能とすることができる。
【図面の簡単な説明】
【0008】
【図1】画像処理装置の一例を示す図である。
【図2】実施形態1の画像処理装置の機能構成を示す図である。
【図3】学習方法による処理過程の一例を示す図である。
【図4】学習方法による処理過程の一例を示す図である。
【図5A】学習方法による処理過程の一例を示す図である。
【図5B】学習方法による処理過程の一例を示す図である。
【図5C】学習方法による処理過程の一例を示す図である。
【図5D】学習方法による処理過程の一例を示す図である。
【図6】実施形態1の位置合わせ方法及び学習方法による処理過程の一例を示すフローチャートである。
【図7】実施形態2の画像処理装置100の機能構成を示す図である。
【図8A】各検出結果の領域とモデルとの位置合わせの結果を示す図である。
【図8B】各検出結果の領域とモデルとの位置合わせの結果を示す図である。
【図8C】各検出結果の領域とモデルとの位置合わせの結果を示す図である。
【図8D】各検出結果の領域とモデルとの位置合わせの結果を示す図である。
【図9】実施形態2の位置合わせ方法及び学習方法による処理過程の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について図面に基づいて説明する。
【0010】
<実施形態1>
本実施形態に係る学習方法は、画像や映像に映る対象を抽出して、抽出した対象を学習するため好適な画像を収集し位置を算出するための学習方法で、撮像手段については一般的なカメラやネットワークカメラでもよいし、予め撮影した画像・映像にも利用できる。
本実施形態では、物体がある環境において画像を撮影し、得られた画像から検出したい対象となる人物を検出する場合について説明する。本実施形態に係る検出対象は人物としているが、これに限定するものではなく、他の環境で映像に対し物体を検出するなら、この方法を用いることが出来る。また、本実施形態では画像としているが、それ以外に映像にも適用してもよい。
【0011】
図1は、画像処理装置100の一例を示す図である。図1に示されるように、画像処理装置100は、CPU1と、RAM2と、ROM3と、HD4と、を含む。CPU1は、ROM3又はHD4等に記憶されているプログラムに基づき処理を実行することによって、後述する画像処理装置100の機能及び後述するフローチャートに係る処理が実現される。RAM2は、CPU1がプログラムを実行する際に利用されるデータ等を記憶する。ROM3は、画像処理装置100が起動された際に読み込まれるブートプログラム等を記憶する。HD4は、本実施形態にかかるプログラム等を記憶する。なお、説明の簡略化のため省略してあるが、画像処理装置100は、後述する撮像手段との通信等を司るインターフェースに関するハードウェアを有するものとする。
【0012】
図2は、実施形態1の画像処理装置100の機能構成を示す図である。
図2に示すように、画像処理装置100は、画像取得部101と、特徴抽出部102と、尤度算出部103と、対象検出部104と、対応点抽出部105と、位置合わせ部106と、学習部107と、から構成されている。
画像取得部101は、カメラや予め撮影した映像から画像を取得する。取得した画像210は、特徴抽出部102に出力される。
特徴抽出部102は、画像取得部101から得られた画像を取得し、取得した画像に対して特徴量を抽出する。本実施形態では特徴の抽出にはHOGを使用することにするが、画像から画素値をそのまま抽出しているが、テンプレートとして領域を抽出してもよい。
なお、HOGに関しては、
参考文献:「histograms of oriented gradients for human detection、N.Dalal、CVPR2005」参照。
また、特徴抽出部102は、Haar−LikeやEdgelets等の公知の技術を用いて領域を抽出してもよい。
なお、Haar−Likeに関しては、
参考文献:「P.Viola and M.Jones、"Rapid Object Detection using Boosted Cascade of Simple Features"、CVPR2001」参照。
また、Edgeletsに関しては、
参考文献:「Bo Wu and Ram Nevatia、"Segmentation of Multiple、 Partially Occluded Objects by Grouping、 Merging、 Assigning Part Detection Responses、 IJCV 2007"」参照。
画像中にある物体230に対して特徴抽出部102が抽出した特徴量は231〜235になる。図3は、学習方法による処理過程の一例を示す図である。同様にその他の物体240、250、260から抽出されたそれぞれの特徴量は、241〜245、251〜255、261〜265である。抽出された各特徴量231等は、尤度算出部103へと送られる。
【0013】
尤度算出部103は、特徴抽出部102から得られた画像の特徴量231等を基に検出したい対象のモデル(対象モデル)220と比較して尤度を算出する。本実施形態では対象を識別する方法としてBoostingで予め学習した対象モデル220を使用して尤度を算出する。
なお、Boostingに関しては、
参考文献:「Y.Freund and。Roberts E.Schapire、"A decision−theoretic generalization of on−line learning and an application to boosting、1997"」参照
Boostingを用いた場合、対象モデル220は、一つの弱識別器が対象の一部を表す特徴を持つ。複数の弱識別器がそれぞれ違う特徴を持つことで、対象のモデルを構成する。また、画像処理装置100は、対象のモデルを、画像から任意のテンプレートを用いて作成してもよいし、検出したい対象の画像を用意してSupport Vector Machine等の公知の学習技術を用いて学習してモデルを作成してもよい。
なお、Support Vector Machineに関しては、
参考文献:「N.Cristianini and J.Shawe−Talor、"An Introduction to Support Vector Machines、 Cambridge University Press、2000"」
このとき、モデルは画像でもよいし、画像特徴量でもよい。尤度の算出方法は、尤度算出部103が、モデルをスライディングウィンドウさせ、各画像の位置において、弱識別器が持つモデルを表す一部の特徴と画像から抽出された特徴とを比較する。尤度算出部103は、それらが同じ特徴(HOGであれば同じ勾配方向を持つ特徴)であれば高い値を、同じでない場合は低い値を出力し、弱識別器が持つ学習によって得られた重みをかけた値を算出する。尤度算出部103は、各弱識別器が画像から抽出した特徴に対して値を算出し、出力される値の総和を最終的な尤度として算出する。算出した尤度は、対象検出部104へと送られる。
対象検出部104は、尤度算出部103から算出された尤度を基に、予め設定した任意の閾値よりも高い尤度がある対象の位置と領域とを識別する。識別した結果、抽出した対象の領域を330から360までに示す。得られた対象の検出結果330から360までは、対応点抽出部105に出力される。図4は、学習方法による処理過程の一例を示す図である。
【0014】
対応点抽出部105は、得られた対象の検出領域(330〜360)において、モデルの特徴と対応する対応点を抽出する。対応点抽出部105は、モデルの領域の新たな特徴(コーナー等)421〜425と、対象の検出領域と、を基に、画像から対象のモデルを抽出した特徴と同じ特徴431〜435、441〜445、451〜455、461〜465(対応点)を抽出する。
また、対応点抽出部105は、対象の検出領域(330〜360)において特徴抽出部102で抽出した各対象の検出時の特徴量231〜235、241〜245、251〜255、261〜265を使用してモデルが持つ特徴(421〜425)と対応付けるようにしてもよい。得られたモデルの特徴と各検出領域の特徴とはそれぞれ対応付けられる。対応点抽出部105は、特徴の対応付けには、尤度算出部103の結果を利用する。対象検出時に各特徴量(図5に示す441や442)の尤度が算出されるが、検出時に尤度が高い特徴はモデルの形状と比べて変動があまりなく、また尤度が低い特徴はモデルの形状より変動していると考えられる。モデルが持つ各特徴(421〜425)を持つ弱識別器は重みを持つ。対応点抽出部105は、尤度が高い値の特徴位置と重みが高い弱識別器の特徴位置とを優先して合わせるようにモデルと対象検出領域内の特徴(431〜435)とを対応づける。同様に、対応点抽出部105は、モデルと別の対象検出領域内の特徴(441〜445、451〜455、461〜465)をモデル内の特徴(421〜425)と対応付ける。
【0015】
図5は、学習方法による処理過程の一例を示す図である。
対象の検出領域内で得られた対応点は、位置合わせ部106へと出力される。
位置合わせ部106は、対応点抽出部105から得られる対応点を基に検出した各領域330、340、350、360の画像と対象モデル220との位置合わせを行う。位置合わせ部106は、位置合わせを、対応点抽出部105から出力される対応関係を基にして算出する。例えば、位置合わせ部106は、得られた対応点を1点用いる場合は、対応点が重なるように位置合わせを行う。また、位置合わせ部106は、得られた対応点を2点用いる場合は、2点のうち尤度の高い対応点が優先的に重なるよう位置合わせを行ったり、対応点の距離の和が最小になるように位置合わせを行ったりする。また、位置合わせ部106は、3点以上の対応点を用いて位置合わせを行う場合、モデルと検出領域とを平行移動の他、検出領域の回転やスケール変化、アフィン変形に対応できるように、得られた対応点の位置関係を基にアフィン変換行列を算出する。位置合わせ部106は、変換行列の算出に際し、次の方程式を解く。
【0016】
【数1】
【0017】
上の式で、x'、yは、モデル内の特徴点位置座標でx、yが対象検出領域内の特徴点位置座標である。
位置合わせ部106は、この算出した変換行列を位置合わせ結果として出力してもよい。位置合わせを行った結果(検出画像と対象モデルとを重ね合わせた結果)を図5の436、446、456、466に示す。この位置合わせされた結果436、446、456、466は、学習部107へと出力される。図5ではモデルと各検出領域とを個別に重ね合わせるように示しているが、モデルと全ての検出領域結果とを重ね合わせてもよい。
【0018】
学習部107は、位置合わせ部106の結果436、446、456、466を基に画像から対象検出結果を抽出し、これまでの学習により得られたモデルの位置を合わせて学習する。学習部107は、モデルの学習には、得られた対象検出領域から画像特徴量を抽出し、モデルが持つ特徴に対して、新たに得られた検出対象領域内の画像特徴を学習する。これにより、これまでに学習したモデルに対して、対象の形状が変動しない特徴は維持しつつ、学習により変動する特徴を持つ弱識別器の確率分布が更新されたモデルを生成することができる。例えば、738を学習した結果、体の向きが異なるモデルが生成され、748では脚位置が異なるモデルが生成される。また、学習部107は、学習に際し、SVMや逐次学習方法等の別の公知の学習技術を用いて学習を行ってもよい。
以上が本実施形態に関する構成部分である。
【0019】
続いて、図6に示したフローチャートを用いて、本実施形態における画像処理装置100が行う処理について説明する。
図6は、実施形態1の位置合わせ方法及び学習方法による処理過程の一例を示すフローチャートである。
処理全体が開始されると、まずステップS101において、画像取得部101は、カメラや予め撮影した映像から画像を取得する。取得した画像は、特徴抽出部102へと送られ、処理はステップS102へと進む。
ステップS102において、特徴抽出部102は、画像取得部101が取得した画像から画像特徴量を抽出する。画像特徴量の抽出方法には公知の技術が用いられる。抽出した特徴は、尤度算出部103へと送られ、処理はステップS103へと進む。
ステップS103において、尤度算出部103は、ステップS102で抽出された特徴を基に画像内から検出する対象の尤度を算出する。このとき、例えば、尤度算出部103は、検出する対象のモデルをSVMやBoostingといった公知の学習技術を利用して事前に作成しておく。算出した尤度は対象検出部104へと送られ、処理はステップS104へと進む。
ステップS104において、対象検出部104は、ステップS103で算出された画像内の尤度を基に画像内の対象がある位置・領域を識別する。対象が有ると識別された場合、対象の位置・領域と画像及び特徴が対応点抽出部105へと送られ、処理はステップS105へと進む。対象が検出されなかった場合、全体の処理が終了する。
【0020】
ステップS105において、対応点抽出部105は、まず、検出対象モデルから特徴となる点を抽出する。次に、対応点抽出部105は、対象検出部104により画像内に対象があると識別された領域に対してモデル内の特徴となる点に対応する特徴点を抽出し、点と点との対応関係を取る。得られた対応点は位置合わせ部106へと送られ、処理はステップS106へと進む。
ステップS106において、位置合わせ部106は、対応点抽出部105から得られた対応点を基に画像位置と現フレームの画像との重ね合わせる位置を算出するためのパラメータを算出する。位置合わせ部106は、パラメータの算出には1点以上の対応点があればよいとし、1点の場合は対応点が同じ位置になるよう重ね、2点以上であれば多くの点が重なるように幾何関係を利用して重ねる位置を決定してもよい。また、位置合わせ部106は、変換パラメータは画像間の対応として並進・回転・拡大・縮小・アフィン変換を記述してもよい。得られた変換パラメータは学習部107へと送られ、処理はステップS107へと進む。
ステップS107において、学習部107は、位置合わせ部106から送られてきたモデルと検出領域の位置合わせ結果とを基にモデルの学習を行う。これにより、これまでに学習したモデルに対して、対象の形状を表す強い特徴は保持しつつ、学習により変動する特徴をモデルに取り込むことができる。学習部107は、学習方法にはSVMやBoostingを用いてもよし、オンラインブースティングのように逐次学習方法を用いてもよい。
以上の処理によって、画像処理装置100は予め学習したモデルを使って画像に対して検出処理を行い、抽出した対象の画像を学習する際に、検出時の各特徴の尤度を基に検出に寄与する特徴の位置とモデルにおける顕著な特徴の位置関係を用いて位置合わせをする。また、画像処理装置は、位置合わせを基にモデルを学習する。このことで、対象の姿勢や形状が変化したモデルを新たに作成することができる。
【0021】
<実施形態2>
続いて、実施形態2について説明する。図7は、実施形態2の画像処理装置100の機能構成を示す図である。実施形態2における画像処理装置100は、画像取得部101、特徴抽出部102、尤度算出部103、対象検出部104、モデルパーツ位置算出部605、位置合わせ部606、学習部107から構成されている。以下、図を用いて本実施形態に係る学習方法の構成及び処理について説明する。なお、実施形態1と同一箇所には同一符号を付し、説明を省略する。
対象検出部104は、尤度算出部103から算出された尤度を基に、予め設定した任意の閾値よりも高い尤度がある対象の位置と領域とを識別する。識別した結果、抽出した対象の領域を330から360までに示す。得られた対象の検出結果330から360まではモデルパーツ位置算出部605に出力される。
モデルパーツ位置算出部605は、対象検出部104から送られてきた対象の位置、領域を受け取り、その領域内から位置合わせ用のモデルの特定のパーツ(モデルパーツ)217がある位置を検出する。本実施形態ではモデルパーツ217は頭部としているが、体や手脚等でもよい。モデルパーツ位置算出部605は、特徴抽出部102から得られた特徴を使用してモデルパーツの尤度を算出し、パーツ位置を特定する。図8において、得られた各対象画像内のパーツ位置737、747、757、767を示す。
【0022】
この図8Aから図8Dまでは、各検出結果の領域とモデルとの位置合わせの結果を示している。この位置合わせ結果(737、747、757、767)と各対象検出領域(330、340、350、360)とは位置合わせ部506へと送られる。
位置合わせ部506は、モデルパーツ位置算出部605から得られたパーツ位置(737、747、757、767)を基に、モデルパーツ217と抽出した画像のパーツ位置(737、747、757、767)とを合わせる。位置合わせを行った結果(738、748、758、768)は学習部107へと送られる。
学習部107は、位置合わせ部606の位置合わせ結果(738、748、758、768)を用いてモデルを学習する。学習部107は、モデルの学習に、得られた対象検出領域から画像特徴量を抽出し、モデルが持つ特徴に対して、新たに得られた検出対象領域内の画像特徴を学習する。これにより、これまでに学習したモデルに対して、対象の形状が変動しない特徴は維持しつつ、学習により変動する特徴を持つ弱識別器の確率分布が更新されたモデルが生成される。例えば、738を学習した結果、体の向きが異なるモデルが生成され、748では脚位置が異なるモデルが生成される。また、学習部107は、学習にSVMや逐次学習方法等の別の公知の学習技術を用いて学習を行ってもよい。
以上が本実施形態における画像処理装置100に関する構成部分である。
【0023】
続いて、図9に示したフローチャートを用いて、本実施形態における画像処理装置100が行う処理について説明する。
図9は、実施形態2の位置合わせ方法及び学習方法による処理過程の一例を示すフローチャートである。
ステップS601からステップS603までの処理は、実施形態1の図6のステップS101からステップS103までの処理と同様であるため説明を省略する。
ステップS604において、対象検出部104は、尤度算出部103で算出した画像内の尤度を基に画像内の対象がある位置・領域を識別する。対象が有ると識別された場合、対象の位置・領域と画像及び特徴とがモデルパーツ位置算出部605へと送られ、処理はステップS605へと進む。対象が検出されなかった場合、全体の処理は終了する。
ステップS605において、モデルパーツ位置算出部605は、対象検出部104から出力された対象の位置・領域内において、対象モデルのパーツ位置を算出する。このとき算出されたパーツ位置と画像と特徴とが位置合わせ部606へと送られ、処理はステップS606へと進む。
ステップS606において、位置合わせ部606は、モデルパーツ位置算出部605によって算出されたパーツ位置を基にモデルのパーツ位置と画像から抽出されたモデルの検出領域の対象パーツの位置とを合わせる。位置合わせの結果は学習部107へと送られ、処理はステップS507へと進む。
ステップS607において、学習部107は、位置合わせ部606の結果から送られてきたモデルと検出領域の位置合わせ結果とを基に再度モデルの学習を行う。学習方法はSVMやBoostingを用いてもよし、オンラインブースティングのように逐次学習方法を用いてもよい。
以上の処理によって、画像処理装置100は対象の変動しないパーツ部分の特徴を維持しつつ変動する部分の特徴を画像に合わせて学習を行うことが可能となる。
【0024】
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
【0025】
以上、上述した各実施形態によれば、画像処理装置100は、モデルと検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別し、識別した対象が変動していない部分を基にモデルと検出領域との位置合わせを行う。このことによって、変形する対象の画像を抽出し、抽出結果を基に対象の位置を補正することを可能とすることができる。
【0026】
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0027】
100 画像処理装置
【技術分野】
【0001】
本発明は、画像処理装置、位置合わせ方法及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、テンプレートとなる画像を用意し、その画像に対して点を抽出する。そして、別の画像でも同様に点を抽出し、用意したテンプレート画像の点とマッチングを行って画像を変換させる係数を求めて画像を正規化し、画像の差分を取って同じかどうか判断することで画像を収集する方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−309259号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に開示される技術は3組以上の対応点を使用して画像を正規化している。そのため、顔のように形状の変形があまりない対象の画像には適用できるが、手や脚といった変形による位置ずれを含む画像に適用した場合、正規化の処理により画像内の対象が変形していまい、対象となる物体の領域を画像から抽出することができない問題があった。
【0005】
本発明はこのような問題点に鑑みなされたもので、変形する対象の画像を抽出し、抽出結果を基に対象の位置を補正することを可能とすることを目的とする。
【課題を解決するための手段】
【0006】
そこで、本発明の画像処理装置は、画像を取得する画像取得手段と、前記画像取得手段で取得された画像から特徴量を抽出する特徴抽出手段と、対象のモデルと前記特徴抽出手段で抽出された画像の特徴量とを基に対象の尤度を算出する尤度算出手段と、前記尤度算出手段で算出された尤度を基に前記画像内にある対象の検出領域を検出する検出手段と、前記モデルと前記検出手段で検出された検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別する識別手段と、前記識別手段で識別された対象が変動していない部分を基に前記モデルと前記検出領域との位置合わせを行う位置合わせ手段と、を有する。
【発明の効果】
【0007】
本発明によれば、変形する対象の画像を抽出し、抽出結果を基に対象の位置を補正することを可能とすることができる。
【図面の簡単な説明】
【0008】
【図1】画像処理装置の一例を示す図である。
【図2】実施形態1の画像処理装置の機能構成を示す図である。
【図3】学習方法による処理過程の一例を示す図である。
【図4】学習方法による処理過程の一例を示す図である。
【図5A】学習方法による処理過程の一例を示す図である。
【図5B】学習方法による処理過程の一例を示す図である。
【図5C】学習方法による処理過程の一例を示す図である。
【図5D】学習方法による処理過程の一例を示す図である。
【図6】実施形態1の位置合わせ方法及び学習方法による処理過程の一例を示すフローチャートである。
【図7】実施形態2の画像処理装置100の機能構成を示す図である。
【図8A】各検出結果の領域とモデルとの位置合わせの結果を示す図である。
【図8B】各検出結果の領域とモデルとの位置合わせの結果を示す図である。
【図8C】各検出結果の領域とモデルとの位置合わせの結果を示す図である。
【図8D】各検出結果の領域とモデルとの位置合わせの結果を示す図である。
【図9】実施形態2の位置合わせ方法及び学習方法による処理過程の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について図面に基づいて説明する。
【0010】
<実施形態1>
本実施形態に係る学習方法は、画像や映像に映る対象を抽出して、抽出した対象を学習するため好適な画像を収集し位置を算出するための学習方法で、撮像手段については一般的なカメラやネットワークカメラでもよいし、予め撮影した画像・映像にも利用できる。
本実施形態では、物体がある環境において画像を撮影し、得られた画像から検出したい対象となる人物を検出する場合について説明する。本実施形態に係る検出対象は人物としているが、これに限定するものではなく、他の環境で映像に対し物体を検出するなら、この方法を用いることが出来る。また、本実施形態では画像としているが、それ以外に映像にも適用してもよい。
【0011】
図1は、画像処理装置100の一例を示す図である。図1に示されるように、画像処理装置100は、CPU1と、RAM2と、ROM3と、HD4と、を含む。CPU1は、ROM3又はHD4等に記憶されているプログラムに基づき処理を実行することによって、後述する画像処理装置100の機能及び後述するフローチャートに係る処理が実現される。RAM2は、CPU1がプログラムを実行する際に利用されるデータ等を記憶する。ROM3は、画像処理装置100が起動された際に読み込まれるブートプログラム等を記憶する。HD4は、本実施形態にかかるプログラム等を記憶する。なお、説明の簡略化のため省略してあるが、画像処理装置100は、後述する撮像手段との通信等を司るインターフェースに関するハードウェアを有するものとする。
【0012】
図2は、実施形態1の画像処理装置100の機能構成を示す図である。
図2に示すように、画像処理装置100は、画像取得部101と、特徴抽出部102と、尤度算出部103と、対象検出部104と、対応点抽出部105と、位置合わせ部106と、学習部107と、から構成されている。
画像取得部101は、カメラや予め撮影した映像から画像を取得する。取得した画像210は、特徴抽出部102に出力される。
特徴抽出部102は、画像取得部101から得られた画像を取得し、取得した画像に対して特徴量を抽出する。本実施形態では特徴の抽出にはHOGを使用することにするが、画像から画素値をそのまま抽出しているが、テンプレートとして領域を抽出してもよい。
なお、HOGに関しては、
参考文献:「histograms of oriented gradients for human detection、N.Dalal、CVPR2005」参照。
また、特徴抽出部102は、Haar−LikeやEdgelets等の公知の技術を用いて領域を抽出してもよい。
なお、Haar−Likeに関しては、
参考文献:「P.Viola and M.Jones、"Rapid Object Detection using Boosted Cascade of Simple Features"、CVPR2001」参照。
また、Edgeletsに関しては、
参考文献:「Bo Wu and Ram Nevatia、"Segmentation of Multiple、 Partially Occluded Objects by Grouping、 Merging、 Assigning Part Detection Responses、 IJCV 2007"」参照。
画像中にある物体230に対して特徴抽出部102が抽出した特徴量は231〜235になる。図3は、学習方法による処理過程の一例を示す図である。同様にその他の物体240、250、260から抽出されたそれぞれの特徴量は、241〜245、251〜255、261〜265である。抽出された各特徴量231等は、尤度算出部103へと送られる。
【0013】
尤度算出部103は、特徴抽出部102から得られた画像の特徴量231等を基に検出したい対象のモデル(対象モデル)220と比較して尤度を算出する。本実施形態では対象を識別する方法としてBoostingで予め学習した対象モデル220を使用して尤度を算出する。
なお、Boostingに関しては、
参考文献:「Y.Freund and。Roberts E.Schapire、"A decision−theoretic generalization of on−line learning and an application to boosting、1997"」参照
Boostingを用いた場合、対象モデル220は、一つの弱識別器が対象の一部を表す特徴を持つ。複数の弱識別器がそれぞれ違う特徴を持つことで、対象のモデルを構成する。また、画像処理装置100は、対象のモデルを、画像から任意のテンプレートを用いて作成してもよいし、検出したい対象の画像を用意してSupport Vector Machine等の公知の学習技術を用いて学習してモデルを作成してもよい。
なお、Support Vector Machineに関しては、
参考文献:「N.Cristianini and J.Shawe−Talor、"An Introduction to Support Vector Machines、 Cambridge University Press、2000"」
このとき、モデルは画像でもよいし、画像特徴量でもよい。尤度の算出方法は、尤度算出部103が、モデルをスライディングウィンドウさせ、各画像の位置において、弱識別器が持つモデルを表す一部の特徴と画像から抽出された特徴とを比較する。尤度算出部103は、それらが同じ特徴(HOGであれば同じ勾配方向を持つ特徴)であれば高い値を、同じでない場合は低い値を出力し、弱識別器が持つ学習によって得られた重みをかけた値を算出する。尤度算出部103は、各弱識別器が画像から抽出した特徴に対して値を算出し、出力される値の総和を最終的な尤度として算出する。算出した尤度は、対象検出部104へと送られる。
対象検出部104は、尤度算出部103から算出された尤度を基に、予め設定した任意の閾値よりも高い尤度がある対象の位置と領域とを識別する。識別した結果、抽出した対象の領域を330から360までに示す。得られた対象の検出結果330から360までは、対応点抽出部105に出力される。図4は、学習方法による処理過程の一例を示す図である。
【0014】
対応点抽出部105は、得られた対象の検出領域(330〜360)において、モデルの特徴と対応する対応点を抽出する。対応点抽出部105は、モデルの領域の新たな特徴(コーナー等)421〜425と、対象の検出領域と、を基に、画像から対象のモデルを抽出した特徴と同じ特徴431〜435、441〜445、451〜455、461〜465(対応点)を抽出する。
また、対応点抽出部105は、対象の検出領域(330〜360)において特徴抽出部102で抽出した各対象の検出時の特徴量231〜235、241〜245、251〜255、261〜265を使用してモデルが持つ特徴(421〜425)と対応付けるようにしてもよい。得られたモデルの特徴と各検出領域の特徴とはそれぞれ対応付けられる。対応点抽出部105は、特徴の対応付けには、尤度算出部103の結果を利用する。対象検出時に各特徴量(図5に示す441や442)の尤度が算出されるが、検出時に尤度が高い特徴はモデルの形状と比べて変動があまりなく、また尤度が低い特徴はモデルの形状より変動していると考えられる。モデルが持つ各特徴(421〜425)を持つ弱識別器は重みを持つ。対応点抽出部105は、尤度が高い値の特徴位置と重みが高い弱識別器の特徴位置とを優先して合わせるようにモデルと対象検出領域内の特徴(431〜435)とを対応づける。同様に、対応点抽出部105は、モデルと別の対象検出領域内の特徴(441〜445、451〜455、461〜465)をモデル内の特徴(421〜425)と対応付ける。
【0015】
図5は、学習方法による処理過程の一例を示す図である。
対象の検出領域内で得られた対応点は、位置合わせ部106へと出力される。
位置合わせ部106は、対応点抽出部105から得られる対応点を基に検出した各領域330、340、350、360の画像と対象モデル220との位置合わせを行う。位置合わせ部106は、位置合わせを、対応点抽出部105から出力される対応関係を基にして算出する。例えば、位置合わせ部106は、得られた対応点を1点用いる場合は、対応点が重なるように位置合わせを行う。また、位置合わせ部106は、得られた対応点を2点用いる場合は、2点のうち尤度の高い対応点が優先的に重なるよう位置合わせを行ったり、対応点の距離の和が最小になるように位置合わせを行ったりする。また、位置合わせ部106は、3点以上の対応点を用いて位置合わせを行う場合、モデルと検出領域とを平行移動の他、検出領域の回転やスケール変化、アフィン変形に対応できるように、得られた対応点の位置関係を基にアフィン変換行列を算出する。位置合わせ部106は、変換行列の算出に際し、次の方程式を解く。
【0016】
【数1】
【0017】
上の式で、x'、yは、モデル内の特徴点位置座標でx、yが対象検出領域内の特徴点位置座標である。
位置合わせ部106は、この算出した変換行列を位置合わせ結果として出力してもよい。位置合わせを行った結果(検出画像と対象モデルとを重ね合わせた結果)を図5の436、446、456、466に示す。この位置合わせされた結果436、446、456、466は、学習部107へと出力される。図5ではモデルと各検出領域とを個別に重ね合わせるように示しているが、モデルと全ての検出領域結果とを重ね合わせてもよい。
【0018】
学習部107は、位置合わせ部106の結果436、446、456、466を基に画像から対象検出結果を抽出し、これまでの学習により得られたモデルの位置を合わせて学習する。学習部107は、モデルの学習には、得られた対象検出領域から画像特徴量を抽出し、モデルが持つ特徴に対して、新たに得られた検出対象領域内の画像特徴を学習する。これにより、これまでに学習したモデルに対して、対象の形状が変動しない特徴は維持しつつ、学習により変動する特徴を持つ弱識別器の確率分布が更新されたモデルを生成することができる。例えば、738を学習した結果、体の向きが異なるモデルが生成され、748では脚位置が異なるモデルが生成される。また、学習部107は、学習に際し、SVMや逐次学習方法等の別の公知の学習技術を用いて学習を行ってもよい。
以上が本実施形態に関する構成部分である。
【0019】
続いて、図6に示したフローチャートを用いて、本実施形態における画像処理装置100が行う処理について説明する。
図6は、実施形態1の位置合わせ方法及び学習方法による処理過程の一例を示すフローチャートである。
処理全体が開始されると、まずステップS101において、画像取得部101は、カメラや予め撮影した映像から画像を取得する。取得した画像は、特徴抽出部102へと送られ、処理はステップS102へと進む。
ステップS102において、特徴抽出部102は、画像取得部101が取得した画像から画像特徴量を抽出する。画像特徴量の抽出方法には公知の技術が用いられる。抽出した特徴は、尤度算出部103へと送られ、処理はステップS103へと進む。
ステップS103において、尤度算出部103は、ステップS102で抽出された特徴を基に画像内から検出する対象の尤度を算出する。このとき、例えば、尤度算出部103は、検出する対象のモデルをSVMやBoostingといった公知の学習技術を利用して事前に作成しておく。算出した尤度は対象検出部104へと送られ、処理はステップS104へと進む。
ステップS104において、対象検出部104は、ステップS103で算出された画像内の尤度を基に画像内の対象がある位置・領域を識別する。対象が有ると識別された場合、対象の位置・領域と画像及び特徴が対応点抽出部105へと送られ、処理はステップS105へと進む。対象が検出されなかった場合、全体の処理が終了する。
【0020】
ステップS105において、対応点抽出部105は、まず、検出対象モデルから特徴となる点を抽出する。次に、対応点抽出部105は、対象検出部104により画像内に対象があると識別された領域に対してモデル内の特徴となる点に対応する特徴点を抽出し、点と点との対応関係を取る。得られた対応点は位置合わせ部106へと送られ、処理はステップS106へと進む。
ステップS106において、位置合わせ部106は、対応点抽出部105から得られた対応点を基に画像位置と現フレームの画像との重ね合わせる位置を算出するためのパラメータを算出する。位置合わせ部106は、パラメータの算出には1点以上の対応点があればよいとし、1点の場合は対応点が同じ位置になるよう重ね、2点以上であれば多くの点が重なるように幾何関係を利用して重ねる位置を決定してもよい。また、位置合わせ部106は、変換パラメータは画像間の対応として並進・回転・拡大・縮小・アフィン変換を記述してもよい。得られた変換パラメータは学習部107へと送られ、処理はステップS107へと進む。
ステップS107において、学習部107は、位置合わせ部106から送られてきたモデルと検出領域の位置合わせ結果とを基にモデルの学習を行う。これにより、これまでに学習したモデルに対して、対象の形状を表す強い特徴は保持しつつ、学習により変動する特徴をモデルに取り込むことができる。学習部107は、学習方法にはSVMやBoostingを用いてもよし、オンラインブースティングのように逐次学習方法を用いてもよい。
以上の処理によって、画像処理装置100は予め学習したモデルを使って画像に対して検出処理を行い、抽出した対象の画像を学習する際に、検出時の各特徴の尤度を基に検出に寄与する特徴の位置とモデルにおける顕著な特徴の位置関係を用いて位置合わせをする。また、画像処理装置は、位置合わせを基にモデルを学習する。このことで、対象の姿勢や形状が変化したモデルを新たに作成することができる。
【0021】
<実施形態2>
続いて、実施形態2について説明する。図7は、実施形態2の画像処理装置100の機能構成を示す図である。実施形態2における画像処理装置100は、画像取得部101、特徴抽出部102、尤度算出部103、対象検出部104、モデルパーツ位置算出部605、位置合わせ部606、学習部107から構成されている。以下、図を用いて本実施形態に係る学習方法の構成及び処理について説明する。なお、実施形態1と同一箇所には同一符号を付し、説明を省略する。
対象検出部104は、尤度算出部103から算出された尤度を基に、予め設定した任意の閾値よりも高い尤度がある対象の位置と領域とを識別する。識別した結果、抽出した対象の領域を330から360までに示す。得られた対象の検出結果330から360まではモデルパーツ位置算出部605に出力される。
モデルパーツ位置算出部605は、対象検出部104から送られてきた対象の位置、領域を受け取り、その領域内から位置合わせ用のモデルの特定のパーツ(モデルパーツ)217がある位置を検出する。本実施形態ではモデルパーツ217は頭部としているが、体や手脚等でもよい。モデルパーツ位置算出部605は、特徴抽出部102から得られた特徴を使用してモデルパーツの尤度を算出し、パーツ位置を特定する。図8において、得られた各対象画像内のパーツ位置737、747、757、767を示す。
【0022】
この図8Aから図8Dまでは、各検出結果の領域とモデルとの位置合わせの結果を示している。この位置合わせ結果(737、747、757、767)と各対象検出領域(330、340、350、360)とは位置合わせ部506へと送られる。
位置合わせ部506は、モデルパーツ位置算出部605から得られたパーツ位置(737、747、757、767)を基に、モデルパーツ217と抽出した画像のパーツ位置(737、747、757、767)とを合わせる。位置合わせを行った結果(738、748、758、768)は学習部107へと送られる。
学習部107は、位置合わせ部606の位置合わせ結果(738、748、758、768)を用いてモデルを学習する。学習部107は、モデルの学習に、得られた対象検出領域から画像特徴量を抽出し、モデルが持つ特徴に対して、新たに得られた検出対象領域内の画像特徴を学習する。これにより、これまでに学習したモデルに対して、対象の形状が変動しない特徴は維持しつつ、学習により変動する特徴を持つ弱識別器の確率分布が更新されたモデルが生成される。例えば、738を学習した結果、体の向きが異なるモデルが生成され、748では脚位置が異なるモデルが生成される。また、学習部107は、学習にSVMや逐次学習方法等の別の公知の学習技術を用いて学習を行ってもよい。
以上が本実施形態における画像処理装置100に関する構成部分である。
【0023】
続いて、図9に示したフローチャートを用いて、本実施形態における画像処理装置100が行う処理について説明する。
図9は、実施形態2の位置合わせ方法及び学習方法による処理過程の一例を示すフローチャートである。
ステップS601からステップS603までの処理は、実施形態1の図6のステップS101からステップS103までの処理と同様であるため説明を省略する。
ステップS604において、対象検出部104は、尤度算出部103で算出した画像内の尤度を基に画像内の対象がある位置・領域を識別する。対象が有ると識別された場合、対象の位置・領域と画像及び特徴とがモデルパーツ位置算出部605へと送られ、処理はステップS605へと進む。対象が検出されなかった場合、全体の処理は終了する。
ステップS605において、モデルパーツ位置算出部605は、対象検出部104から出力された対象の位置・領域内において、対象モデルのパーツ位置を算出する。このとき算出されたパーツ位置と画像と特徴とが位置合わせ部606へと送られ、処理はステップS606へと進む。
ステップS606において、位置合わせ部606は、モデルパーツ位置算出部605によって算出されたパーツ位置を基にモデルのパーツ位置と画像から抽出されたモデルの検出領域の対象パーツの位置とを合わせる。位置合わせの結果は学習部107へと送られ、処理はステップS507へと進む。
ステップS607において、学習部107は、位置合わせ部606の結果から送られてきたモデルと検出領域の位置合わせ結果とを基に再度モデルの学習を行う。学習方法はSVMやBoostingを用いてもよし、オンラインブースティングのように逐次学習方法を用いてもよい。
以上の処理によって、画像処理装置100は対象の変動しないパーツ部分の特徴を維持しつつ変動する部分の特徴を画像に合わせて学習を行うことが可能となる。
【0024】
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
【0025】
以上、上述した各実施形態によれば、画像処理装置100は、モデルと検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別し、識別した対象が変動していない部分を基にモデルと検出領域との位置合わせを行う。このことによって、変形する対象の画像を抽出し、抽出結果を基に対象の位置を補正することを可能とすることができる。
【0026】
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0027】
100 画像処理装置
【特許請求の範囲】
【請求項1】
画像を取得する画像取得手段と、
前記画像取得手段で取得された画像から特徴量を抽出する特徴抽出手段と、
対象のモデルと前記特徴抽出手段で抽出された画像の特徴量とを基に対象の尤度を算出する尤度算出手段と、
前記尤度算出手段で算出された尤度を基に前記画像内にある対象の検出領域を検出する検出手段と、
前記モデルと前記検出手段で検出された検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別する識別手段と、
前記識別手段で識別された対象が変動していない部分を基に前記モデルと前記検出領域との位置合わせを行う位置合わせ手段と、
を有する画像処理装置。
【請求項2】
前記位置合わせ手段による位置合わせの結果を基に前記モデルを学習する学習手段を更に有する請求項1記載の画像処理装置。
【請求項3】
画像処理装置が実行する位置合わせ方法であって、
画像を取得する画像取得ステップと、
前記画像取得ステップで取得された画像から特徴量を抽出する特徴抽出ステップと、
対象のモデルと前記特徴抽出ステップで抽出された画像の特徴量とを基に対象の尤度を算出する尤度算出ステップと、
前記尤度算出ステップで算出された尤度を基に前記画像内にある対象の検出領域を検出する検出ステップと、
前記モデルと前記検出ステップで検出された検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別する識別ステップと、
前記識別ステップで識別された対象が変動していない部分を基に前記モデルと前記検出領域との位置合わせを行う位置合わせステップと、
を含む位置合わせ方法。
【請求項4】
コンピュータに、
画像を取得する画像取得ステップと、
前記画像取得ステップで取得された画像から特徴量を抽出する特徴抽出ステップと、
対象のモデルと前記特徴抽出ステップで抽出された画像の特徴量とを基に対象の尤度を算出する尤度算出ステップと、
前記尤度算出ステップで算出された尤度を基に前記画像内にある対象の検出領域を検出する検出ステップと、
前記モデルと前記検出ステップで検出された検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別する識別ステップと、
前記識別ステップで識別された対象が変動していない部分を基に前記モデルと前記検出領域との位置合わせを行う位置合わせステップと、
を実行させるプログラム。
【請求項1】
画像を取得する画像取得手段と、
前記画像取得手段で取得された画像から特徴量を抽出する特徴抽出手段と、
対象のモデルと前記特徴抽出手段で抽出された画像の特徴量とを基に対象の尤度を算出する尤度算出手段と、
前記尤度算出手段で算出された尤度を基に前記画像内にある対象の検出領域を検出する検出手段と、
前記モデルと前記検出手段で検出された検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別する識別手段と、
前記識別手段で識別された対象が変動していない部分を基に前記モデルと前記検出領域との位置合わせを行う位置合わせ手段と、
を有する画像処理装置。
【請求項2】
前記位置合わせ手段による位置合わせの結果を基に前記モデルを学習する学習手段を更に有する請求項1記載の画像処理装置。
【請求項3】
画像処理装置が実行する位置合わせ方法であって、
画像を取得する画像取得ステップと、
前記画像取得ステップで取得された画像から特徴量を抽出する特徴抽出ステップと、
対象のモデルと前記特徴抽出ステップで抽出された画像の特徴量とを基に対象の尤度を算出する尤度算出ステップと、
前記尤度算出ステップで算出された尤度を基に前記画像内にある対象の検出領域を検出する検出ステップと、
前記モデルと前記検出ステップで検出された検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別する識別ステップと、
前記識別ステップで識別された対象が変動していない部分を基に前記モデルと前記検出領域との位置合わせを行う位置合わせステップと、
を含む位置合わせ方法。
【請求項4】
コンピュータに、
画像を取得する画像取得ステップと、
前記画像取得ステップで取得された画像から特徴量を抽出する特徴抽出ステップと、
対象のモデルと前記特徴抽出ステップで抽出された画像の特徴量とを基に対象の尤度を算出する尤度算出ステップと、
前記尤度算出ステップで算出された尤度を基に前記画像内にある対象の検出領域を検出する検出ステップと、
前記モデルと前記検出ステップで検出された検出領域とに基づいて、対象が変動している部分と変動していない部分とを識別する識別ステップと、
前記識別ステップで識別された対象が変動していない部分を基に前記モデルと前記検出領域との位置合わせを行う位置合わせステップと、
を実行させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5A】
【図5B】
【図5C】
【図5D】
【図6】
【図7】
【図8A】
【図8B】
【図8C】
【図8D】
【図9】
【図2】
【図3】
【図4】
【図5A】
【図5B】
【図5C】
【図5D】
【図6】
【図7】
【図8A】
【図8B】
【図8C】
【図8D】
【図9】
【公開番号】特開2012−128638(P2012−128638A)
【公開日】平成24年7月5日(2012.7.5)
【国際特許分類】
【出願番号】特願2010−279227(P2010−279227)
【出願日】平成22年12月15日(2010.12.15)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成24年7月5日(2012.7.5)
【国際特許分類】
【出願日】平成22年12月15日(2010.12.15)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]