説明

情報処理装置、情報処理方法及びプログラム

【課題】内容の偏りが少なく、学習に効果的な画像データを収集することを目的とする。
【解決手段】画像から検出対象とする画像領域を検出する複数の検出器と、複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と画像領域の対象物らしさのスコアとの組を出力する統合手段と、学習データの採択率を設定する設定手段と、スコアと設定手段で設定された採択率とに基づいて、画像領域とスコアとの組から学習データを選択する選択手段と、選択手段で選択された学習データを保存する保存手段と、を有することによって課題を解決する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
画像中の対象物を検出する検出器は、多数の対象物画像データと非対象物画像データを学習することによって作成される。これらの学習画像には、対象物であるか、非対象物であるかを示す教師ラベルを付与する必要がある。
予め人為的にラベルを付与したデータ群を用いて学習を行った検出器を、更に多くのデータで学習する場合に効果的な方法として、能動学習が知られている。能動学習では、ラベルが付与されていない多数のデータの中から、検出器が学習に有効と推測するデータを選択する。選択されたデータに対して、人がラベルを入力することで、新しいラベル付きデータを作成する。このデータを利用して、更に学習を行うことにより、より精度の高い検出器を作成することができる。
【0003】
能動学習のより具体的な例を、2クラス判別を行う検出器を用いて簡単に説明を行う。まず、人がクラスラベルを付与したデータセットで判別関数を学習する。次に、ラベルが付与されていないデータセットに対して判別処理を行い、ラベルを要求するデータを所定数選択する。ここで、ラベル要求データの選択方法としては、識別空間において2つのクラスを判別する超平面の境界付近のデータを選択する方法が最も簡便な方法である。判別境界付近のデータは検出器にとって、判断が曖昧なデータであるため、このようなデータを選択しラベルを付与することで、ランダムに選択したデータにラベルを付与するよりも効率的な学習を行うことができる。
このような技術は、学習済みの人物検出器を、ユーザー環境に合わせて再学習するような場合にも有効である。製品に搭載された人物検出器は、汎用的な性能となっているため、特定の環境や特定人物を対象とした検出処理において、必ずしも最適な性能となっていない。したがって、実際に人物検出器を利用する環境の画像データを用いて再学習を行うことは、利用環境での検出性能を向上させる上で有効な手段である。しかし、ユーザーに様々な状況(例えば、様々な場所、時刻、対象人物)の画像データとラベルとの準備を要求することは困難である。そこで、能動学習の手法によって学習に効果的な画像データを自動的に収集・選択し、ユーザーには、選択された学習画像のみにラベル付与を要求することで、効率的に利用環境に合わせた検出器を作成することができる。
従来、学習に効果的なデータを自動的に収集する技術について、以下のような技術があった。
【0004】
特許文献1では、化合物の組成データと活性との関係を複数の予測アルゴリズムで予測し、複数の予測結果のばらつきが大きい(分散が大きい)データを実験候補データとして選び出す。そして、この実験候補データの組成の化合物の実験を行い、実験結果をデータのラベルとして付与することで、少ない回数の実験で予測アルゴリズムの学習を効果的に行う技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−304782号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1の技術では、アルゴリズムの予測結果の分散が大きなデータから順にラベルを要求する実験候補データを選択するため、選択されるデータの内容に偏りが生じる。更に、複数の予測アルゴリズムの結果から選択するデータを決定しているが、結果の分散値を利用しているのみで、複数の予測アルゴリズムについて、各予測アルゴリズムの特徴や、予測アルゴリズムの関係性を考慮して実験候補データを選択することは行われていない。特に、画像中の対象物を複数の検出器を統合して検出するような場合に、検出器の特性を考慮して学習データを収集する方法がなかった。
【0007】
本発明はこのような問題点に鑑みなされたもので、内容の偏りが少なく、学習に効果的な画像データを収集することを目的とする。
【課題を解決するための手段】
【0008】
そこで、本発明の情報処理装置は、画像から検出対象とする画像領域を検出する複数の検出器と、前記複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と該画像領域の対象物らしさのスコアとの組を出力する統合手段と、学習データの採択率を設定する設定手段と、前記スコアと前記設定手段で設定された採択率とに基づいて、前記画像領域と前記スコアとの組から学習データを選択する選択手段と、を有する。
【発明の効果】
【0009】
本発明によれば、内容の偏りが少なく、学習に効果的な画像データを収集することができる。
【図面の簡単な説明】
【0010】
【図1】映像情報処理装置のハードウェア構成の一例を示す図である。
【図2】映像情報処理装置のソフトウェア構成を説明するための図である。
【図3】映像情報処理装置の処理フローの一例を示す図である。
【図4】頭部、顔、胴体、四肢のそれぞれを検出する検出器を統合することにより人物を検出する一例を示す図である。
【図5】学習候補データについて、第一検出器と第二検出器とのスコアをプロットした一例を示す図である。
【図6】スコアの一例を示す図である。
【図7】採択率について説明するための図である。
【図8】図5の学習候補データから、図7の採択率を用いて選択した学習データの一例を示した図である。
【図9】収集する学習データ数の上限をMとした場合のステップS206での処理フローの一例を示す図である。
【図10】ユーザー確認部のユーザーインタフェースの一例を示す図である。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態について図面に基づいて説明する。
【0012】
<実施形態1>
(構成概要)
本実施形態の映像情報処理装置は、画像中から所定の対象物領域を検出する検出器の学習画像を収集する。映像情報処理装置は一つの対象物に対して複数の検出器を備え、その検出結果を統合することで対象物を検出する。複数の検出器は、検出対象物を複数の画像領域に分割して、各々の領域の検出器を作成することで構成される。対象物を複数の領域に分割して検出する方法は、部分的なオクルージョンや、人物等の関節体の姿勢変化への対応方法として有効な手段である。複数の検出器を学習する場合、分割した領域のそれぞれについて、学習のための画像データが必要になる。本実施形態では、予め学習した各領域の検出器を用いて、その検出器のさらなる学習に効果的な画像(学習画像)を収集することを目的としている。なお、映像情報処理装置は、情報処理装置(コンピュータ)の一例である。
以下、実施形態1では、検出対象物を人物とした場合について、説明する。
【0013】
図1は、映像情報処理装置のハードウェア構成の一例を示す図である。
制御装置10は、CPU等であって、映像情報処理装置100の全体を制御する。記憶装置11は、RAM及び/又はROM及び/又はHDD等の記憶装置であって、例えば、画像やプログラム等を記憶する。通信装置12は、映像情報処理装置をネットワーク等に接続する装置である。以下で示す本実施形態では、映像情報処理装置100は、通信装置12を介してカメラ等に接続されているものとする。
制御装置10が、記憶装置11に記憶されているプログラムに基づき処理を実行することによって、後述する映像情報処理装置100の機能及びフローチャートに係る処理が実現される。
【0014】
図2は、映像情報処理装置100のソフトウェア構成を説明するための図である。
検出器111、112・・・11Nは、不図示のカメラ等から画像を受け取り、それぞれ人物の異なる部位を検出するN個の検出器である。画像から人物の特定部分を検出する方法は公知の技術を用いればよい。これらの複数の検出器は、検出器の対象部位に応じて最適な検出方法を用いて、対象部位ごとに異なるアルゴリズムとしてもよい。例えば、顔を対象部位とする検出器は、隣接領域の平均輝度差を特徴としてブースティングにより学習するアルゴリズムとする(参考文献1)。一方、他の頭部、胴、腕、脚等の部位を検出する検出器は、輝度勾配方向をヒストグラム化した特徴をSVMにより学習するアルゴリズムを用いてもよい(参考文献2)。本実施形態では画像に対して検出器をラスタスキャンして、各スキャン位置で対象部位らしさのスコアを算出する。
[参考文献1]P. Viola,M. Jones,"Rapid Object Detection using a Boosted Cascade of Simple Features," In Proc. IEEE Conf. on Computer Vision and Pattern Recognition,Kauai,USA,pp.1−9,2001
[参考文献2]Navneet Dalal , Bill Triggs,"Histograms of Oriented Gradients for Human Detection", CVPR 2005, pp.886−893
【0015】
次に、検出結果統合部102は、検出器111〜11Nの結果を統合する処理を行う。統合処理の結果、検出結果統合部102は、各検出器について、学習画像の候補となる画像領域(以下、学習候補画像)とその領域の対象物らしさのスコアとを出力する。以下、学習候補画像とその領域のスコアとの組を学習候補データと呼ぶ。画像収集部103は、検出結果統合部102で得た学習候補データから学習データを選択する。この選択には、各検出器のスコアと採択率設定部104で設定された採択率を利用する。採択率設定部104では、各検出器の信頼度から採択率を設定する。検出結果統合部102、画像収集部103、採択率設定部104の処理の詳細については後述する。
データ保存部105は、画像収集部103で選択した学習画像を保存する。ユーザー確認部106では、データ保存部105に保存された学習画像に対するユーザー操作に応じて、対象物の画像か、非対象物の画像かについてのラベルを付与する。ユーザーが画像を確認し、ラベルを付与するために、ユーザー確認部106は、画像を表示する機能と、ユーザーの応答を入力する機能と、を有する。ユーザー確認部106で入力されたラベルと学習画像とは、ラベル付き学習画像として再びデータ保存部105に保存される。なお、学習に用いる画像は、一般に画像特徴量に変換して学習に利用される。したがって、ユーザー確認部106は、ユーザーがラベル付けを行った学習画像を、画像特徴量に変換してデータ保存部105に保存することで、保存容量を削減するようにしてもよい。
学習部107では、ラベルが付与された学習画像を利用して検出器の再学習を行う。この学習には、本実施形態の方法によって収集した学習画像のみならず、予め準備されたラベル付き学習画像を加えて学習を行ってもよい。この場合、データ保存部105に、ラベル付き学習画像を予め保存しておく。
なお、本実施形態は、図1及び図2に示した構成に限定されず、図2をハードウェアとして映像情報処理装置に実装してもよい。
【0016】
(フローチャートによる説明)
以上、本実施形態の映像情報処理装置100の構成概要について説明した。以下では、図3のフローチャートを基に、本実施形態の処理についてより具体的に説明を行う。図3は、映像情報処理装置の処理フローチャートの一例を示す図である。
(複数検出器によるラスタスキャン)
映像情報処理装置100は、まず、画像に対して、複数の検出器111〜11Nでラスタスキャンを実行する(ステップS201)。本実施形態での複数の検出器は、検出対象物である人物を図4に示すように複数の部位に分割したときの各部位301〜307をそれぞれ検出する。図4は、頭部301、顔302、胴体303、四肢304〜307のそれぞれを検出する検出器を統合することにより人物を検出する一例を示す図である。各検出器のラスタスキャンの結果、それぞれの検出器のスコアがスキャン位置に記録される。検出器が出力するスコアは、対象物らしさ或いは非対象物らしさを示すスカラー値で、例えば、判別空間における超平面からの距離である。また、超平面からの距離としてスコアを得る場合、対象物方向を正の値、非対象物方向を負の値として出力する。
(複数検出器の統合処理と学習候補データの出力)
次にステップS202では、検出結果統合部102は、複数の検出器の結果を統合する処理を行い、各部位と推定される画像領域(学習候補画像)と、その画像領域のスコアの組である学習候補データと、を得る。検出結果統合部102は、各検出器の画像中でのスコアと、位置ずれによるペナルティコストとを用いて、検出器の結果を統合することで、学習候補データを作成する。ここで、検出器の数をN、検出器の番号をi、画像中での位置をxとする。fD(x)は画像位置xでのスコアを表し、fp(x)は位置xに対するペナルティコストを表す。それぞれ、各検出器について算出するため、検出器を示す添字iを付けて、fDi(x)を検出器iの画像位置xでのスコア、fPi(x)を位置xに対するペナルティコストとすると、検出器を統合した対象物に対するスコアは式1で表される。
【数1】

位置によるペナルティコストfPi(x)は、検出結果統合部102が、検出器の相対的な位置関係に基づいて設定する。検出結果統合部102は、ペナルティコストを、ある一つの検出器を基準とした相対的な基準位置piを各検出器に設定し、距離pi−xiに応じてペナルティコストが増加するように設計すればよい。例えば、頭部検出器(i=1)を基準検出器とした場合、顔検出器(i=2)の基準位置p2は頭部検出器の検出位置から顔位置の標準的なずれ位置となる。つまり、各検出器の基準位置piは、各検出器の標準的な配置を示し、距離pi−xiは標準配置からのずれを示す。より具体的なペナルティコストfPi(x)は、距離pi−xiに応じたばねモデルとして表現して、式2のように定式化される。
【数2】

【0017】
検出結果統合部102は、式1のスコアSを所定の画像範囲Zで探索し、スコアSが最大となる各検出器の位置xiのセットXを統合結果として求める。
【数3】

【数4】

得られた位置Xの画像に対する各検出器のスコアΛは式5になる。
【数5】

位置Xに対応する画像が学習候補画像であり、位置Xの画像とΛの組が学習候補データである。即ち、以下で用いる学習候補データDは式6のように表される。
【数6】

但し、位置Xは画像中の所定位置の部分画像を示すものとする。例えば、i=1の検出器が頭部を対象部位とした検出器であるとすると、位置x1の画像は頭部領域と推定した画像となっている。したがって、検出結果統合部102は、位置x1の画像を頭部検出器の学習候補画像とする。また、i=2の検出器を顔検出器とすると、位置x2の画像は、位置x1近傍で顔と判断される領域の画像を示す。また、λ1、λ2はその画像領域での各検出器のスコアを示す。
【0018】
対象物を検出する目的であれば、領域Zについて最大化したスコアSに対して、適切な閾値処理を行うことで検出処理を行うことができる。本実施形態でのステップS202は、未検出領域の画像を学習画像として収集するために、スコアSの値によらず、位置Xの画像とスコアΛとを出力する。
但し、全てのスコアSのデータを収集して学習候補データとすると、データ数が膨大になるため、検出に利用する閾値よりも低い閾値で閾値処理を行い、学習候補データを適度な数とした上で、学習画像を収集するようにしてもよい。また、本実施形態では、複数の検出器の何れかが、対象部位について確からしいスコアを出力しているデータを用いることが望ましい。したがって、全ての検出器のスコアが低いデータは学習候補データとせずに次ステップ以降の処理は行わず、λiの何れかが所定値以上を示すデータのみを学習候補データとして、後段の処理に渡すようにしてもよい。
以上のように検出器のスコアと位置ずれのペナルティコストとを利用して、複数の検出器の統合処理を行い、対象物を検出する従来技術として、参考文献3がある。本実施形態のステップS202には、参考文献3の方法を用いてもよい。
[参考文献3]P. Felzenszwalb, D. McAllester, D. Ramanan, "A Discriminatively Trained, Multiscale, Deformable Part Model", Proceedings of the IEEE CVPR 2008
また、各検出器の位置xi(の画像)とスコアλiを算出する方法は、これまでに説明したようなばねモデルやそれに近い方法に限定することなく、他の手法を用いてもよい。例えば、参考文献4では、複数の検出器(パッチ)を独立に検出し、一般化ハフ変換の考え方に基づき投票を行って複数検出器の結果を統合している。投票結果の位置から、逆に各検出器が対象とする部位を推定して、学習候補画像の位置を取得することができる。
[参考文献4]B. Leibe, A. Leonardis, and B. Schiele, "Combined Object Categorization and Segmentation with an Implicit Shape Model", ECCV'04 Workshop on Statistical Learning in Computer Vision, May 2004
以上のステップS202の処理により、各検出器に対応する画像領域とスコアとが学習候補データとして得られる。複数の検出器の統合処理を行うことで、ある検出器の検出スコアが十分に得られない場合でも、その検出器が対象とする部位の画像を推定して求めることができる。したがって、この画像を学習に用いることで、未検出となるような画像を学習に加えることができるようになる。
【0019】
(学習データ収集対象の検出器の設定)
ステップS203では、画像収集部103は、学習候補データから学習データを選択する対象となる検出器(以下、第一検出器と呼ぶ)と、第一検出器の学習データを収集するために利用する他の検出器(以下、第二検出器と呼ぶ)と、を設定する。第一検出器は検出器の内の何れか一つであるが、第二検出器は一つでも複数でもよい。複数の検出器について、それぞれの学習データを収集する場合、ステップS203で画像収集部103は、各検出器を第一検出器として順次設定するようにすればよい。例えば全ての検出器(検出器数N)について画像データを収集する場合、例えば、画像収集部103は、以下のステップS204〜S206を第一検出器に設定する検出器を変えながらN回ループさせればよい(ステップS207)。
以下、ステップS204〜S206は、第一検出器を頭部検出器(i=1)、第二検出器を顔検出器(i=2)に設定した場合を例に説明する。
【0020】
(採択率の設定)
図3のステップS204〜S205は、図2の採択率設定部104に置ける処理で、第一検出器と第二検出器との関係に基づいて、学習候補データから学習データを選択する採択率を設定するステップである。図2のブロック図では、各検出器111〜11Nと採択率設定部104が接続しており、検出器の関係から採択率を設定する依存関係を示している。
まず、採択率の設定についての背景を説明する。図5は、学習候補データについて、第一検出器と第二検出器とのスコアをプロットした一例を示す図である。図5は、横軸を第一検出器(頭部検出器)のスコアλ1、縦軸を第二検出器(顔検出器)のスコアλ2としたプロットとなっている。また、軸の交点400は、スコアλ1及びλ2がゼロとなる点であるとする。本実施形態の映像情報処理装置100は、ステップS202で説明したように、複数の検出器の結果を統合し、統合後のスコアSで対象物か否かを判断するが、各検出器をそれぞれ単体の検出器として取り扱うこともできる。ここで、本実施形態では、各検出器をそれぞれ単体の検出器として扱った場合に、検出器が出力するスコアλiをλi=0で閾値処理することで検出と棄却との判断を行うものとする。スコアλiが正の値を示す場合には、対象物である可能性が高いことを示し、スコアλiが負の値を示す場合には、非対象物である可能性が高いことを示す。図5のプロットで、λ1>0となる領域にあるデータは第一検出器が頭部と判定するデータで、λ1<0となる領域にあるデータは頭部以外の領域と判定するデータである。
【0021】
しかし、実際にはスコアλiの値が常に正しく対象物を示しているとは限らず、スコアλiの閾値処理の結果からは、誤検出や未検出が発生する。本実施形態では、これらの誤検出結果や未検出結果を収集して学習データを作成することを目的としている。誤検出や未検出となる画像を学習画像として用いることで効率的な学習を行うことができる。そのために、本実施形態の映像情報処理装置100は、第一検出器と第二検出器とのスコアを用いてデータの選択を行う。ここで、第一検出器と第二検出器とが相反する結果を示す場合、そのどちらかが誤っている可能性が高い。図5では、プロットの左上領域401(λ1<0、λ2>0)と右下領域402(λ1>0、λ2<0)が、第一検出器と第二検出器との結果が相反する領域である。より具体的には、領域401は頭部検出器が頭部であることを棄却し、顔検出器は顔が存在すると判定している。また、領域402はその逆である。これらの領域を中心に、学習候補データから学習データを選択すると、誤検出又は未検出の画像を収集できる可能性が高い。但し、λ1とλ2とのスコアの乖離が大きな順に(図5の左上又は右下から順に)学習データを選択した場合には、得られる学習データに偏りが生じる可能性がある。したがって、本実施形態では、スコアの順に学習データを選択するのではなく、スコアに応じて確率的に学習データを選択する。この選択する確率を第一検出器と第二検出器との関係から設定する。
また、複数の検出器がそれぞれ検出対象とする部位が異なることにより、以下のような問題が生じる。例えば、頭部検出器と顔検出器とを比較すると以下のように性質や検出性能が異なる。まず、顔は人物の向きによっては隠れてしまうという問題がある。例えば、背面を向いている人物では、顔検出器では検出不可能である。しかし、頭部の輪郭を主に対象としている頭部検出器であれば、人物が背面を向いていても検出可能である。逆に、顔が見えている状況であれば、頭部領域は、ほぼ確実に見えていると考えられる。また、顔は目や口等の顔器官という検出対象として比較的わかりやすい特徴を有するのに対して、頭部を検出する場合には、主に頭部の輪郭特徴を対象としている。頭部の輪郭特徴は、背景の影響や髪型の影響を受けることから、顔の特徴に比べて不安定である。したがって、頭部検出器よりも顔検出器の方が一般に検出性能が高い。
【0022】
ここで、図5の領域401、402に着目する。先の説明では、図5の領域401、402共に、それぞれの検出器の結果が相反するため、その領域にプロットされるデータは学習データを収集する対象として適していると説明した。しかし、領域402は、顔は存在しない可能性が高い(λ2<0)が、頭部が存在する可能性が高い(λ1>0)領域であることから、後ろ向きの人物画像から得られたデータが含まれている。後ろ向きの人物画像から得られたデータが、領域402にプロットされることは正しい結果であり、誤った結果を学習データとして収集する目的からすると、このデータが学習データとして収集される可能性を低減したい。また、領域401のデータは、顔検出器の性能の方が頭部検出器の性能に比べて高く、顔と判定される場合にはその周囲に頭部が見えていることがほぼ確実であることから、頭部検出器が未検出としたデータである可能性が高い。したがって、領域401の学習候補データは領域402の学習候補データと比べて、高い確率で学習データとして収集することが望ましい。
以上の状況を鑑みて、第一検出器のスコアと第二検出器のスコアとに対して、第一検出器が検出対象とする画像領域が存在する信頼度をそれぞれ求め、この信頼度から採択率を設定する。
【0023】
まず、図3のステップS204で、採択率設定部104は、第一検出器の対象部位に対する各検出器のスコアの信頼度を設定する。図6は、スコアの一例を示す図である。図6において、λ1は頭部検出器の出力するスコア、λ2は顔検出器の出力するスコアである。fij(λj)は、信頼度を示し、検出器jのスコアλjに対して、検出器iの対象部位が所定の画像領域に存在する確率として表現する。図6(A)のf11(λ1)は、頭部検出器のスコアλ1が得られたときに、スコアλ1を得た画像領域に頭部が存在する確率である。f12(λ2)は、顔検出器のスコアλ2が得られた時に、スコアλ2が得られた位置から頭部が存在すると推定される画像領域に、頭部が存在する確率である。第一検出器を顔検出器とし、第二検出器を頭部検出器として、顔領域の学習データを収集する場合を設定する場合には、採択率設定部104は、顔領域に対する顔検出器の信頼度f22(λ2)と顔領域に対する頭部検出器の信頼度f21(λ1)とを同様に設定する。
ij(λj)は、予めラベル付けされた画像データを用いて求めることができる。例えば、図6のように、スコアλを複数のビンに分割したヒストグラムとして信頼度を定義する場合、以下のように信頼度を作成する。まず、採択率設定部104は、ヒストグラムの各ビンのλjを示す結果を収集する。次に、採択率設定部104は、そのλjを示した画像位置から推定される対象部位iの位置に、実際に対象部位iが存在するデータ数をカウントする。更に、採択率設定部104は、ビンごとの全データ数で正規化することでヒストグラムが得られる。図6(A)では、λ1が高いスコアを示している場合でも、頭部が得られる確率が1まで達していない。これは、頭部検出器の検出性能が十分ではないため、誤検出が比較的多く発生してしまう状態を示している。一方、図6(B)でλ2>0の高スコアの領域では、頭部が得られる確率が高くなっている。これは、顔検出器の性能が比較的高いことと、顔が写っている画像では、ほぼ確実に頭部が観測できることを示している。また、λ2<0の低スコアの領域では、人物の向き(顔の向き)によっては、顔スコアが低いが頭部が観測される状況が起こりえる。したがって、λ2<0の領域では、λ2の値によらず、一定の確率で頭部が存在する(λ2が非常に低スコア、例えばλ2→−∞となると、一定の確率に収束する)。
【0024】
また、信頼度fij(λj)を、スコアλjを変数とした関数により近似して定義してもよい。例えば、図6では、ロジスティック関数を基にした式7の関数によりヒストグラムを近似したプロットを図示している。
【数7】

K、C、r、λ0はそれぞれパラメータである。近似する関数は式7に限定することなく、どのような関数を用いてもよいが、シグモイド型の関数を用いることが好適である。
【0025】
以上、頭部領域に対する頭部検出器と顔検出器の信頼度を示すf11(λ1)とf12(λ2)との設定について説明した。信頼度がそれぞれ異なる原因として、検出器自体の性能、対象部位に依存する性能(顔の見えやすさと頭部の見えやすさ)に依存することを説明したが、信頼度をその他の要因も含めて設定してもよい。例えば、対象部位ごとのオクルージョンの発生のしやすさや、見切れやすさ等を考慮して、信頼度を設定してもよい。オクルージョンや見切れに応じた信頼度を設定する場合には、上記のヒストグラムを作成するときに利用するラベル付き画像に、オクルージョンや見切れが発生している画像を含めればよい。オクルージョンや見切れが発生している画像を元にヒストグラムを作成することで、これらの条件を含んだ状況での信頼度を設定できるようになる。以上では、頭部と顔を対象とした検出器を事例に説明したが、他の人物部位でも、同様に各検出器の信頼度を設定することができる。
次に、図3のステップS205のf11(λ1)とf12(λ2)から、採択率を設定する処理について説明する。採択率Pは第一検出器のスコアλi、第二検出器のスコアλjの関数として以下のように表される。
【数8】

α、βは定数である。ここで、λi・λj<0は、第一検出器と第二検出器とが相反する推定結果を出力する領域を示す(図5の領域401及び402に相当する)。本実施形態では、スコアλがλ=0を閾値として対象物を判定することから、採択率設定部104は、採択率を定義する範囲をλi・λj<0の領域として定めている。この領域の定義方法はこの限りではなく、採択率設定部104は、第一検出器と第二検出器とが相反する結果を出力すると考えられるスコア領域を定義し、その領域について採択率を定義するようにしてもよい。式8は、領域401、402において、信頼度f11(λ1)とf12(λ2)の差が大きな値を示すほど、採択率Pが高い確率として設定されることを意味している。信頼度の差分に応じて採択率を設定することにより、それぞれの検出器が推定する頭部の存在確率の差が大きなデータを優先的に収集することができるようになる。図7には、P(λ1,λ2)を等高線表示している。図中のカラーバー601に示すように、画像収集部103は、濃い色の領域ほど高確率で学習候補データから学習データを選択する。
【0026】
なお、頭部検出器の識別境界付近(図7では点線602)は、識別が曖昧な領域であるため、採択率設定部104は、その付近のデータも学習データとして選択する確率を高くしてもよい。例えば、採択率設定部104は、式8に、λ1にのみ依存し、境界(λ1=0)を中心とした正規分布を加えた式によって、採択率Pgを設定するようにしてもよい。
【数9】

【0027】
次に、図3のステップS206では、画像収集部103は、採択率に基づいて学習候補データから学習データを選択する。図8は、図5の学習候補データから、図7の採択率を用いて選択した学習データの一例を示した図である。採択率設定部104は、図5の各学習候補データが持つスコアλ1、λ2から採択率Pを決定する。画像収集部103は、その採択率によって学習候補データを学習データとして選択する。例えば、画像収集部103は、スコアから採択率Pが0.5と算出された学習候補データは50%の確率で学習データとして選択する。選択された学習データのx1の画像が頭部検出器用の学習画像となる。
以上の方法により、採択率設定部104が、全ての学習候補データについて採択率を算出し、画像収集部103が、学習データとして選択するかの判断を行えばよい。しかし、画像収集部103が、採択率が高くなる領域にデータが分布した学習候補データ群から学習データを収集すると、多くのデータが学習データとして選択される。学習データをあまりに多く選択してしまうと、ラベル付けを行う作業の負荷が増加してしまう問題がある。したがって、予め学習データとして選択するデータ数の上限Mを定めておき、画像収集部103は、選択した学習データがMに達した時点で、学習データの収集を終了するようにしてもよい。図9は、収集する学習データ数の上限をMとした場合のステップS206での処理フローの一例を示す図である。
【0028】
画像収集部103は、学習データを選択する際、図8に示すように頭部検出器のスコアと顔検出器のスコアとの乖離が大きい領域を中心に選択する。しかし、学習データを採択率によって選択しているため、スコアに完全に依存した選択を行っておらず、データの偏りを緩和している。また、顔が見えていなくても頭部は見えている可能性があるという頭部と顔との関係が信頼度を通じて採択率に関係していることから、図8の右下領域402は右上領域401に比べて、学習データに選択されるデータが少なくなっている。これにより、正しくスコアが算出された後ろ向きの頭部画像が、学習データとして選択される可能性を低減している。以上の処理により、複数の検出器の関係性に基づいて確率的に学習画像を選択できるようになる。画像収集部103は、選択した学習画像をデータ保存部105に保存する。
【0029】
(ラベル入力処理)
本実施形態により選択される学習画像は、そのラベルが不明である。但し、図8に示すように、λ1>0の領域にある学習データは誤検出データ、λ1<0の領域にある学習データは未検出データである可能性が高い。そこで、λ1>0の領域から得られた学習画像に「非頭部」の推定ラベルを付け、λ1<0の領域から得られた学習画像に「頭部」の推定ラベルを付けてデータ保存部105に保存し、そのまま学習部107で検出器の再学習を行ってもよい。また、他にラベルを推定可能な手段があれば、その方法を利用して学習データに自動的にラベルを付与してもよい。
しかし、より正確を期すため選択後の学習画像に人手でラベルを付与することが望ましい。人手によるラベル付けは、ユーザー確認部106で行う。ここで、ユーザー確認部106は、ユーザーに提示する学習画像に上記の推定ラベルを合わせて提示するようにしてもよい。推定ラベルが誤りであった画像は、正確に頭部が検出或いは棄却できていた画像であるため、学習に加える効果は比較的薄い。したがって、ユーザー処理では推定ラベルが合っていた画像のみを学習画像として選択するようにすることで、ユーザー操作を簡便にすることができる。
【0030】
また、ユーザー確認部106は、正事例のラベルを付与する学習画像の位置とサイズとを修正するようにしてもよい。例えば、頭部を学習するための画像データは、画像の中心に頭部が写るように位置とサイズとを正規化することが望ましい。しかし、収集される学習画像は、検出結果統合部102で推定した画像領域であるため、学習に最適な画像の正規化が行われていない。したがって、ユーザー確認部106は、正事例の学習画像について、画像の位置サイズが所定の基準に従うようにポインティングデバイス等を介した調整を受け付ける機能を有する。
図10は、ユーザー確認部106のユーザーインタフェースの一例を示す図である。ユーザー確認部106は、図10に示されるようなユーザーインタフェースを表示し、入力された情報を受け取る。画面801に、学習画像を含む画像802の全体と、学習画像803と、が表示される。ユーザーは、ユーザーインタフェースを介して表示された学習画像803が頭部画像であるか、非頭部画像であるかの入力を行う。ラベル入力部804は、この入力を受け付ける。推定ラベルを利用して、ユーザー入力の負担を低減する場合には、ユーザー確認部106は、その学習画像の推定ラベルに応じて、ラベル入力部804のデフォルト値を変更する。ユーザーは、表示された推定ラベルが画像と合致している学習画像を受け入れる指示を与える。また、図10の学習画像803には、学習画像の基準位置を示すガイドラインが点線で重畳表示されている。このガイドラインの位置に学習画像の位置を合わせるために、ユーザーインタフェースは、スクロールバー805を備えている。
【0031】
以上、実施形態1では、第一検出器の学習データを選択するために利用する第二検出器が1つの検出器(顔検出器)である場合について説明したが、第二検出器に複数の検出器を備える構成にしてもよい。第二検出器に複数の検出器を備える場合、採択率設定部104は、第二検出器(j)のスコアに関して、第一検出器(i)の対象部位についての信頼度fijをそれぞれ設定し、式10のように第一検出器と第二検出器の各組み合わせの採択率を足し合わせればよい。
【数10】

但し、P(λi、λj)は式8或いは式9の2つの検出器から求める採択率であり、j≠iである。また、Aは、3つ以上の検出器の結果から算出する採択率P(λ1、・・・λN)を確率の範囲にするための正規化定数である。式10では、第一検出器iを固定して、第二検出器jを順次変更しながら、検出器の組み合わせの採択率を計算し、足し合わせることを示している。式10では、足し合わせにより採択率を統合したが、採択率設定部104は、式11のように掛け合わせることで採択率を統合してもよい。
【数11】

実施形態1では、人物を検出対象物として説明したが、本実施形態の検出対象物はこれに限定することはない。他の検出対象物でも、部位に対象を分割して検出を行う場合には、本実施形態を適用することができる。
【0032】
<実施形態2>
実施形態1では、映像情報処理装置100は、採択率を第一検出器の対象部位に対する各検出器の信頼度に基づいて設定した。スコアに対する採択率は、検出器の再学習を行わない限り変化しないため、映像情報処理装置100は、学習データを収集する前に予め算出し、LUTの形式で保存して、ステップS205で必要に応じて呼び出して利用することができる。
しかし、他の要因を考慮して、映像情報処理装置100は、採択率を動的に変化させるようにしてもよい。実施形態2では、実施形態1に加えて、映像情報処理装置100が、学習候補画像の位置に基づいて採択率を動的に変化させる場合について説明する。
実施形態1で説明したように、本実施形態では複数の検出器の結果を統合する。このとき、式2で示すような検出器の位置ずれに対するペナルティコストを利用した。実施形態2では、採択率を設定する場合にも、学習候補画像の基準位置からのずれに応じて採択率を補正する例を説明する。位置ずれを基に採択率を補正する方法として、採択率設定部104は、式12のように第一検出器の基準位置piと第一検出器の学習候補データの位置xi(即ち、学習候補画像の位置)との位置ずれ、及び第一検出器のスコアλiから式10の採択率を補正する。
【数12】

γは係数で、補正項により0≦P≦1の範囲を超えないようにする。基準位置から離れた画像領域は、対象部位の画像でない可能性が高いと考えることができる。したがって、スコアλiが正の場合、基準位置から離れた画像領域は誤検出画像である可能性が高いため、式12では、採択率Pが位置ずれの距離に応じて上昇する。一方、スコアλiが負の場合には、対象部位ではないと想定される基準位置から離れた画像領域に対して低スコアを算出しており、正しい結果と予測されるため、採択率は距離に応じて減少する。補正項は、式12に限らず、基準位置piと学習候補データの位置xiが離れるほど採択率への寄与が大きくなるようにすればよい。
【0033】
<実施形態3>
採択率には、学習候補画像の位置のみではなく、他の要因による補正を加えてもよい。例えば、固定カメラで長時間撮影した映像から学習画像を収集するような場合、連続したフレームの画像や同時刻の画像、背景の同じ場所からの画像が重複して学習画像として選択されることを避けたい。上述した実施形態では、採択率を基に学習画像を選択しているため、同様の画像が重複して得られることを避けているが、映像情報処理装置100は、更に、時刻や画像位置による採択率の補正を明示的に行ってもよい。
連続したフレームや時間帯の画像が学習データに含まれることを避けるためには、採択率設定部104は、選択済みの学習データの時刻と重複する学習候補データの採択率が低下するように、採択率に補正項を加えればよい。選択済みの学習データについて、学習データを取得した時刻をtmとし(mは学習データの番号)、学習候補データを取得した時刻をtとすると、式10に補正項を加えた採択率は、例えば式13のようになる。
【数13】

γは補正項の係数、Mはそれまでに選択した学習データ数である。式13は、ガウス関数により、選択対象の学習候補データの時刻が、それまでに得た学習データの時刻と近いほど採択率を低下させるように定義されている。
【0034】
また、背景の同じ場所からの画像が重複して学習データに含まれることを避けるためには、採択率設定部104は、選択済みの学習データの画像中の位置と重複する学習候補データの採択率が低下するように、採択率に補正項を加えればよい。選択済みの学習データについて、学習データを取得した画像位置をxmとし(mは学習データの番号)、学習候補データの画像中の位置(第一検出器の位置の学習候補データの位置)をxiとすると、式13と同様に、補正項を加えた採択率は式14のようになる。
【数14】

式13、14の補正項は同時に用いてもよい。また、式12で与えた基準位置に対する学習候補データの位置ずれを更に加えた補正項としてもよい。
【0035】
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
【0036】
以上、上述した各実施形態によれば、内容の偏りが少なく、学習に効果的な画像データを収集することができる。
【0037】
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
また、上述した実施形態を任意に組み合わせて実施してもよい。
【符号の説明】
【0038】
10 制御装置
11 記憶装置
12 通信装置
100 映像情報処理装置

【特許請求の範囲】
【請求項1】
画像から検出対象とする画像領域を検出する複数の検出器と、
前記複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と該画像領域の対象物らしさのスコアとの組を出力する統合手段と、
学習データの採択率を設定する設定手段と、
前記スコアと前記設定手段で設定された採択率とに基づいて、前記画像領域と前記スコアとの組から学習データを選択する選択手段と、
を有する情報処理装置。
【請求項2】
前記複数の検出器は、画像から各々異なる検出対象とする画像領域を検出する請求項1記載の情報処理装置。
【請求項3】
前記設定手段は、前記複数の検出器の信頼度から学習データの採択率を設定する請求項1又は2記載の情報処理装置。
【請求項4】
前記設定手段は、前記複数の検出器から学習データを収集する対象とする第一検出器と他の検出器である第二検出器とを設定し、第一検出器のスコアと第二検出器のスコアとに対して、第一検出器が検出対象とする画像領域が存在する信頼度をそれぞれ求め、求めた信頼度から学習データの採択率を設定する請求項3記載の情報処理装置。
【請求項5】
前記設定手段は、前記学習画像の候補となる画像領域の基準位置からのずれに応じて前記採択率が上昇するように補正する請求項4記載の情報処理装置。
【請求項6】
前記設定手段は、前記選択手段で選択された選択済みの学習データの時刻と重複する学習データの採択率が低下するように前記採択率を補正する請求項4記載の情報処理装置。
【請求項7】
前記設定手段は、前記選択手段で選択された選択済みの学習データの位置と重複する学習データの採択率が低下するように前記採択率を補正する請求項4記載の情報処理装置。
【請求項8】
前記学習データを利用して検出器の再学習を行う学習手段を更に有する請求項1乃至6何れか1項記載の情報処理装置。
【請求項9】
画像から検出対象とする画像領域を検出する複数の検出器を有する情報処理装置が実行する情報処理方法であって、
前記複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と該画像領域の対象物らしさのスコアとの組を出力する統合ステップと、
学習データの採択率を設定する設定ステップと、
前記スコアと前記設定ステップで設定された採択率とに基づいて、前記画像領域と前記スコアとの組から学習データを選択する選択ステップと、
を含む情報処理方法。
【請求項10】
画像から検出対象とする画像領域を検出する複数の検出器を有するコンピュータに、
前記複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と該画像領域の対象物らしさのスコアとの組を出力する統合ステップと、
学習データの採択率を設定する設定ステップと、
前記スコアと前記設定ステップで設定された採択率とに基づいて、前記画像領域と前記スコアとの組から学習データを選択する選択ステップと、
を実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate