移動物体追跡システムおよび移動物体追跡方法

【課題】複数の移動物体を追跡するときに、撮影機器の変化に由来する変動に対しても、あるいは、撮影環境の変化に由来する変動に対しても、追跡パラメータを自動的に調整することで、正解教示などの手間のかかる作業を省略できる移動物体追跡システムを提供する。
【解決手段】画像の時系列において複数のフレームに含まれる複数の移動物体を検出し、同一の移動物体どうしをフレーム間で対応付けることにより、移動物体の追跡を行なう移動物体追跡システムにおいて、移動物体の追跡処理に対する信頼度を求め、求めた信頼度が高い場合は自動的に追跡パラメータを学習して調整する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、たとえば、画像の時系列において複数のフレームに含まれる複数の移動物体を検出し、同一の移動物体どうしをフレーム間で対応付けることにより、移動物体の追跡を行なう移動物体追跡システムおよび移動物体追跡方法に関する。
【背景技術】
【０００２】
近年、画像の時系列において複数のフレームに含まれる複数の移動物体を検出し、同一の物体どうしをフレーム間で対応付けることで、移動物体の追跡を行ない、追跡した結果を記録したり、追跡した結果を基に移動物体を識別したりする移動物体追跡システムが開発されている。
【０００３】
このような移動物体追跡システムにおいて、移動物体を追跡するための主な手法としては、以下の３つの技術が提案されている。
第１に、隣接フレーム間の検出結果からグラフを構成し、対応付けを求める問題を適当な評価関数を最大にする組合せ最適化問題（２部グラフ上の割当問題）として定式化し、複数の移動物体の追跡を行なうことを挙げることができる。
第２に、移動中の移動物体が検出できないフレームが存在する場合でも移動物体を追跡するために、移動物体の周囲の情報を利用することで検出を補完する手法がある。具体例としては、人物の顔の追跡処理において、上半身のような周囲の情報を利用する手法がある。
第３に、事前に動画中の全フレームにおいて移動物体の検出を行なっておき、それらをつなぐことで複数の移動物体の追跡を行なう手法がある。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平１１−３４１３３９号公報
【特許文献２】特開２００６−１６２１８５号公報
【非特許文献】
【０００５】
【非特許文献１】“Global Data Association for Multi-Object Tracking Using Network Flows, Univ. Southern California”, CVPR ‘08.
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、上述した従来の技術では、実システムにおいて移動物体を追跡するにあたっては以下のような問題がある。
追跡処理の入力動画像は、
（１）撮影機器の変化
（２）撮影環境の変化
といった理由から、大きく傾向が異なる場合がある。（１）については、カメラやＤＶＲ（ＤｉｇｉｔａｌＶｉｄｅｏＲｅｃｏｒｄｅｒ）などからの画像は、解像度、フレームレート、画質などについての変動がある。また、（２）については、設置角度や撮影サイトによるカメラと撮影対象との相対的な位置関係、天候や時刻による照明などに関する変動などがある。
【０００７】
このような変動への対策としては、大別して
（Ａ）撮影環境を一定に保つ
（Ｂ）移動物体の追跡を行なうための追跡パラメータ調整を行ない変動に対処する
を挙げることができる。（Ａ）に関しては、実社会における運用では、カメラの設置条件や機材についての制限が大きく、所望の撮影環境を必ずしも実現できるとは限らない。したがって、調整の容易さの観点から（Ｂ）のアプローチが望ましい。
【０００８】
しかしながら、移動物体の移動傾向や画像パターンをあらかじめ学習しておくような追跡手法では、入力動画像の傾向が大きく異なった場合には、追跡パラメータの再学習が必要となる。このような再学習には、移動物体の一定量の学習データとそれらの教示作業が必要となり、コストがかかるという問題がある。
【０００９】
そこで、実施形態は、複数の移動物体を追跡するときに、撮影機器の変化に由来する変動に対しても、あるいは、撮影環境の変化に由来する変動に対しても、追跡パラメータを自動的に調整することで、正解教示などの手間のかかる作業を省略できる移動物体追跡システムおよび移動物体追跡方法を提供することを目的とする。
【課題を解決するための手段】
【００１０】
実施形態に係る移動物体追跡システムは、複数の時系列の画像を入力する画像入力手段と、この画像入力手段により入力された各画像から追跡対象となる移動物体を検出する移動物体検出手段と、どのような基準で移動物体の追跡を行なうかを示す追跡パラメータに基づき、前記移動物体検出手段により複数の画像に亘って検出された同一の移動物体を対応付けして追跡する移動物体追跡手段と、この移動物体追跡手段による追跡結果を出力する出力手段と、前記移動物体検出手段により検出された検出結果から前記追跡パラメータの推定に利用できる移動物体の移動シーンを選択するシーン選択手段と、このシーン選択手段により選択された移動シーンに基づき前記追跡パラメータを推定し、この推定した追跡パラメータを前記移動物体追跡手段に対して出力するパラメータ推定手段とを具備している。
【図面の簡単な説明】
【００１１】
【図１】実施形態に係る移動物体追跡システムの構成を概略的に示すブロック図。
【図２】シーン選択部を説明するための図。
【図３】シーン選択部を説明するための図。
【図４】シーン選択部を説明するための図。
【図５】シーン選択部を説明するための図。
【図６】シーン選択部の処理手順を概略的に示すフローチャート。
【図７】パラメータ推定部の処理手順を概略的に示すフローチャート。
【図８】全体的な処理の流れを説明するためのフローチャート。
【発明を実施するための形態】
【００１２】
以下、実施形態について図面を参照して説明する。
本実施形態は、カメラから得られた時系列の画像に対し、画像中に複数の歩行者の顔が存在する場合、それらの複数の人物（顔）を追跡する移動物体追跡システムを例として説明する。
【００１３】
なお、本実施形態では、人物の顔を検出し、その顔検出の結果に基づいて人物の追跡を行なうといった例で説明を行なうが、移動物体の検出方法を移動物体に適したものに切換えることで他の移動物体、たとえば車両、動物といったもの対する移動物体追跡システムとしても流用可能であることは明らかである。
【００１４】
また、本実施形態に係る移動物体追跡システムは、たとえば、監視カメラから収集した大量の動画像の中から移動物体（人物あるいは車両等）を検出して、それらのシーンを追跡結果とともに記録装置に記録するシステム、あるいは、監視カメラで撮影された移動物体（人物あるいは車両等）を追跡し、その追跡した移動物体と事前にデータベースに登録されている辞書データとを照合して移動物体を識別し、その識別結果を通知する監視システムなどへの適用が想定される。
【００１５】
以下に説明する本実施形態に係る移動物体追跡システムは、監視カメラにより取得した画像内に存在する複数の人物の顔を対象として追跡を行ない、学習に適したシーンかどうかを自動的に判定して、追跡パラメータを学習するシステムを対象とする。たとえば、歩行者が多数である場合は正確な追跡は困難であるが、歩行者の人数が少数であることがなんらかの手段で分かった場合には、精度のよくない追跡パラメータによっても正確な追跡が自動的に実行でき、この追跡結果を利用して、逆に追跡パラメータを推定、学習することができる。
【００１６】
図１は、本実施形態に係る移動物体追跡システムの構成を概略的に示すものである。この移動物体追跡システムは、複数の時系列の画像を入力する画像入力手段としてのカメラ１１Ａ，１１Ｂ、カメラ１１Ａ，１１Ｂにより入力された各画像から追跡対象となる移動物体を検出する移動物体検出手段としての顔検出部１２Ａ，１２Ｂ、顔検出部１２Ａ，１２Ｂにより検出された検出結果から後述する追跡パラメータの推定に利用できる移動物体の移動シーン（以降、単にシーンとも言う）を選択するシーン選択手段としてのシーン選択部１３Ａ，１３Ｂ、シーン選択部１３Ａ，１３Ｂにより選択されたシーンに基づき、どのような基準で移動物体の追跡を行なうかを示す追跡パラメータを推定し、この推定した追跡パラメータを後述する移動物体追跡部１５に対して出力するパラメータ推定手段としてのパラメータ推定部１４、パラメータ推定部１４により推定された追跡パラメータに基づき、顔検出部１２Ａ，１２Ｂにより複数の画像に亘って検出された同一の移動物体を対応付けして追跡する移動物体追跡手段としての移動物体追跡部１５、移動物体追跡部１５の追跡結果を管理する追跡結果管理手段としての追跡結果管理部１６、および、追跡結果管理部１６により管理されている追跡結果等を出力する出力手段としての出力部１７を有して構成される。
【００１７】
なお、本実施形態では、複数の地点を監視するカメラを想定して２台のカメラ１１Ａ、１１Ｂが設置されたシステム構成として説明を行なうが、カメラが１台、あるいは、より多い場合であってもシステムの構成と処理の流れ、効果には影響がない。
【００１８】
以下、各部について詳細に説明する。
カメラ１１Ａ，１１Ｂは、監視エリアの画像を撮影するものであり、たとえば、装置中央に設置されたテレビジョンカメラから構成され、動画などの複数の時系列の画像を撮影する。図１の構成例においては、カメラ１１Ａ，１１Ｂは、追跡対象とする移動物体としての人物の顔画像を含む動画像を撮像する。カメラ１１Ａ，１１Ｂで撮影された時系列の画像は、Ａ／Ｄ変換されてデジタル化された画像情報として顔検出部１２Ａ，１２Ｂに送られる。
【００１９】
なお、カメラ１１Ａ，１１Ｂではなく、他の画像入力機器（例えば、デジタルビデオレコーダ等）から画像を入力するものであってもよい。たとえば、事前に記録媒体に記録された動画像などの画像情報を取込んだり、複数の画像ファイルを連続して入力するといったことでも同様の画像入力は可能である。
【００２０】
顔検出部１２Ａ，１２Ｂは、入力した画像内において、１つまたは複数の顔を検出する処理を行なう。顔を検出する具体的な処理方法としては、以下の手法が適用できる。まず、あらかじめ用意されたテンプレートを画像内で移動させながら相関値を求めることにより、最も高い相関値を与える位置を顔画像の領域として検出する。その他、固有空間法や部分空間法を利用した顔抽出法などでも顔の検出は実現可能である。
【００２１】
また、検出された顔画像の領域の中から目、鼻などの顔部位の位置を検出することにより、顔の検出の精度を高めることも可能である。このような顔の検出方法は、たとえば、文献（福井和広、山口修：「形状抽出とパターン照合の組合せによる顔特徴点抽出」、電子情報通信学会論文誌(D),vol.J80-D-II,No.8,pp2170--2177(1997)）に記載された手法が適用可能である。
【００２２】
また、上記目および鼻の検出の他、口の領域の検出については、文献（湯浅真由美、中島朗子：「高精度顔特徴点検出に基づくデジタルメイクシステム」第１０回画像センシングシンポジウム予稿集,pp219-224(2004)）に記載された技術を利用することで容易に実現が可能である。いずれの場合でも、２次元配列状の画像として取扱える情報を獲得し、その中から顔特徴の領域を検出することが可能である。
【００２３】
また、上述の処理では、１枚の画像の中から１つの顔特徴だけを抽出するには全画像に対してテンプレートとの相関値を求め最大となる位置とサイズを出力すればよい。また、複数の顔特徴を抽出するには、画像全体に対する相関値の局所最大値を求め、１枚の画像内での重なりを考慮して顔の候補位置を絞り込み、最後は連続して入力された過去の画像との関係性（時間的な推移）も考慮して最終的に複数の顔特徴を同時に見つけることも可能である。
【００２４】
シーン選択部１３Ａ，１３Ｂは、顔検出出部１２Ａ，１２Ｂが出力した検出結果から、当該検出結果が追跡パラメータの推定にふさわしいかどうかを自動的に判断して選択する。この判断はシーン選択および追跡結果選択の２段階で実行する。
【００２５】
まず、シーン選択は、検出結果列が追跡パラメータの推定に使用できるかどうかの信頼度を、あらかじめ定められた閾値以上のフレーム枚数だけ検出できることと、複数の人物の検出結果列を混同していないことを基準として定める。たとえば、検出結果列の相対的位置関係から信頼度を計算する。図２を参照して説明すすると、検出結果の個数が一定フレーム数にわたって１つであり、さらに、あらかじめ定められた閾値よりも小さい範囲で移動している場合は１人だけが移動している状況であると推定する。このとき、ｔフレームにおける検出結果をａ、ｔ−１フレームにおける検出結果をｃとおくと、
Ｄ（ａ，ｃ）＜ｒＳ（ｃ）
のようにして、１人の人物がフレーム間を移動しているかどうかを判断する。ただし、Ｄ（ａ，ｂ）はａとｂの画像内での距離（画素）、Ｓ（ｃ）は検出結果のサイズ（画素）である。また、ｒはパラメータである。
【００２６】
検出結果が複数でも、あらかじめ定められた閾値よりも小さい範囲で画像中の離れた位置で移動している場合などの場合には同一人物の移動系列が得られるので、これを用いて追跡パラメータを学習する。複数人物の検出結果列を同一人物ごとに分けるには、ｔフレームにおける検出結果をａｉ、ａｊ、ｔ−１フレームにおける検出結果をｃｉ、ｃｊとおくと、
Ｄ（ａｉ，ａｊ）＞Ｃ、Ｄ（ａｉ，ｃｊ）＞Ｃ、Ｄ（ａｉ，ｃｉ）＜ｒＳ（ｃｉ）、
Ｄ（ａｊ，ｃｊ）＜ｒＳ（ｃｊ）
のようにフレーム間の検出結果の対について比較を行なうことで判断する。ただし、Ｄ（ａ，ｂ）はａとｂの画像内での距離（画素）、Ｓ（ｃ）は検出結果のサイズ（画素）である。また、ｒとＣはパラメータである。
【００２７】
また、画像中で人物が密集している状態を適当な画像特徴量などによって回帰分析することでシーンの選択を実行することもできる。あるいは、学習時だけ検出された複数の顔をフレーム間にわたって画像を用いた個人識別処理を行ない、同一人物ごとの移動系列を得ることも可能である。
【００２８】
また、誤検出した結果を排除するために、位置に対してサイズがあらかじめ定められた一定の閾値以下の変動しかない検出結果を排除する、動きが一定の閾値以下のものはポスタや文字の誤検出の可能性があるので、周囲の文字認識情報などを使用して排除するといった処理を行なう。データには、得られたフレーム数、検出数などに応じて信頼度を設定する。信頼度はこれらから総合的に判断する。
図３は、検出結果列に対する信頼度の数値例であり、後述する図４に対応している。事前に準備した追跡成功例と失敗例の傾向（画像類似度の値）などを基にこの信頼度の数値を定めることができる。
【００２９】
また、図４に示すように、追跡できたフレーム数を基に信頼度の数値を定めることができる。たとえば、少ないフレーム数だけしか追跡できなかったものは信頼度を低く設定することができる。これらの基準を組合せて、たとえば、追跡できたフレーム数は多いが、各顔画像の類似度が平均して低い場合は、フレーム数が少なくても類似度が高い追跡結果の信頼度をより高く設定することもできる。
【００３０】
図４の例において、（ａ）の検出結果列Ａは同一人物の顔が連続的に充分なフレーム数だけ出力された場合、（ｂ）の検出結果列Ｂは同一人物だがフレーム数が少ない場合、（ｃ）の検出結果列Ｃは別の人物が含まれてしまった場合を示している。
【００３１】
次に、追跡結果選択について説明する。たとえば、図５に示すように、適当な追跡パラメータを使用して移動物体の追跡を実行したときに、追跡が正しく行なわれているかを自動的に判断することである。正しく追跡できていると判断された場合には、その追跡結果を追跡パラメータの推定に活用する。たとえば、複数の人物を追跡した軌跡が交差などをした場合は、追跡対象のＩＤ情報が途中で入れ替わって間違えている可能性が生じるので信頼度を低く設定する。
図５の処理例では、閾値が「信頼度７０％以上」と設定された場合、追跡結果の信頼度が７０％以上となる追跡結果１と追跡結果２を学習用に出力する。
【００３２】
この追跡結果選択の処理手順を図６に示す。図６によれば、入力された各フレームの検出結果に対して相対的な位置関係を計算し、あらかじめ定められた閾値よりも離れていて、誤検出でない場合には、推定に適切なシーンであると判断して選択する。
【００３３】
パラメータ推定部１４は、シーン選択部１３Ａ，１３Ｂから得られた動画像列、検出結果列および追跡結果を利用して、追跡パラメータを推定する。たとえば、適当な確率変数Ｘについて、シーン選択部１３Ａ，１３Ｂから得られたＮ個のデータＤ＝｛Ｘ１，…，ＸＮ｝を観察したとする。θをＸの確率分布のパラメータとしたとき、たとえば、Ｘが正規分布にしたがうと仮定して、Ｄの平均μ＝（Ｘ１＋Ｘ２＋…＋ＸＮ）／Ｎ、分散（（Ｘ１−μ）２＋…＋（ＸＮ−μ）２）／Ｎなどを推定値とする。
【００３４】
あるいは、追跡パラメータの推定ではなく、直接に分布を計算することを行なう。具体的には、事後確率ｐ（θ｜Ｄ）を計算して、ｐ（Ｘ｜Ｄ）＝∫ｐ（Ｘ｜θ）ｐ（θ｜Ｄ）ｄθによって対応づく確率を計算する。この事後確率はθの事前確率ｐ（θ）と尤度ｐ（Ｘ｜θ）を、たとえば正規分布などのように定めれば、ｐ（θ｜Ｄ）＝ｐ（θ）ｐ（Ｄ｜θ）／ｐ（Ｄ）のようにして計算できる。
【００３５】
なお、確率変数として使用する量は、移動物体どうしの移動量、検出サイズ、各種の画像特徴量に関する類似度、移動方向などを使用してもよい。パラメータは、たとえば、正規分布の場合は平均や分散共分散行列となるが、さまざまな確率分布を使用してもよい。
【００３６】
パラメータ推定部１４の処理手順を図７に示す。図７によれば、シーン選択部１３Ａ（１３Ｂ）により選択されたシーンの信頼度を求め、求めた信頼度があらかじめ定められた基準値（閾値）よりも高い場合、当該シーンに基づき追跡パラメータを推定し、求めた信頼度が基準値よりも低い場合は追跡パラメータの推定には使用しない。
【００３７】
移動物体追跡部１５は、入力される複数の画像にわたって検出された人物の顔の座標や大きさなどの情報を統合して最適な対応付けを行ない、同一人物が複数フレームにわたって対応付けされた結果を統合管理して追跡結果として出力する。なお、複数の人物が歩行する画像において、交差するなどの複雑な動作をしている場合には対応付け結果が一意に決まらない可能性がある。この場合、対応付けを行なった際の尤度が最も高くなるものを第１候補として出力するだけでなく、それに準ずる対応付け結果を複数管理することも可能とする。
【００３８】
また、移動を予測するような追跡手法であるオプティカルフローやパーティクルフィルタなどによっても、追跡結果を出力する。これは文献（滝沢圭、長谷部光威、助川寛、佐藤俊雄、榎本暢芳、入江文平、岡崎彰夫：歩行者顔照合システム「FacePassenger」の開発，第４回情報科学技術フォーラム（ＦＩＴ２００５），ｐｐ．２７−−２８．）に記載された手法などによって実現可能である。
【００３９】
具体的な追跡手法としては、直前のフレーム（ｔ−１）からｔ−Ｔ−Ｔ’のフレーム（Ｔ＞＝０とＴ’＞＝０はパラメータ）までの間に追跡あるいは検出された情報を管理し、ｔ−Ｔまでは追跡処理の対象となる検出結果であり、ｔ−Ｔ−１からｔ−Ｔ−Ｔ’までは過去の追跡結果である。各フレームに対し、顔情報（顔検出部から得られる顔検出結果の画像内での位置、動画のフレーム番号、追跡された同一人物ごとに付与されるＩＤ情報、検出された領域の部分画像など）を管理する。顔検出情報と、追跡対象情報に対応する頂点に加え、「追跡途中の検出失敗」、「消滅」、「出現」のそれぞれの状態に対応する頂点からなるグラフを作成する。ここでいう「出現」とは画面にいなかった人物が画面に新たに現れたことを示し、「消滅」は画面内にいた人物が画面からいなくなること、「追跡途中の検出失敗」は画面内に存在しているはずであるが顔の検出に失敗している状態であることを示す。
追跡結果はこのグラフ上のパスの組合せに対応している。追跡途中の検出失敗に対応したノードを追加することで、追跡途中で一時的に検出できないフレームがあった場合でも、その前後で正しく対応付けを行って追跡を継続する効果が得られる。グラフ作成で設定した枝に重み、すなわち、ある実数値を設定する。これは、顔検出結果どうしが対応付く確率と対応付かない確率の両方を考慮することでより精度の高い追跡が実現可能である。
【００４０】
本実施形態では、その２つの確率の比の対数をとることで定めるが、この２つを考慮しているのであれば確率の引き算や所定の関数ｆ（Ｐ１，Ｐ２）を作成して対応することも実現可能である。このとき、特徴量あるいは確率変数としては、検出結果どうしの距離、検出枠のサイズ比、速度ベクトル、色ヒストグラムの相関値などを用いることができ、適当な学習データによって確率分布を推定しておく。対応づかない確率も加味することで、追跡対象の混同を防ぐ効果がある。
【００４１】
上記の特徴量に対して、フレーム間の顔検出情報ｕとｖが対応が付く確率ｐ（Ｘ）と対応が付かない確率ｑ（Ｘ）が与えられたとき、グラフにおいて頂点ｕと頂点ｖとの間の枝重みを確率の比ｌｏｇ（ｐ（Ｘ）／ｑ（Ｘ））によって定める。このとき、
【数１】

【００４２】
のように枝重みは計算される。ただし、ａ（Ｘ）とｂ（Ｘ）はそれぞれ非負の実数値である。上記場合１では、対応が付かない確率ｑ（Ｘ）が０かつ対応が付く確率ｐ（Ｘ）が０でないので枝重みが＋∞となり、最適化計算において必ず枝が選ばれることになる。その他の場合２、場合３、場合４も同様である。
【００４３】
同様に、消滅する確率、出現する確率、歩行途中に検出が失敗する確率の対数値によって枝の重みを定める。これらの確率は事前に該当するデータを使った学習により定めておくことが可能である。構成した枝重み付きグラフにおいて、枝重みの総和が最大となるパスの組合せを計算する。これはよく知られた組合せ最適化のアルゴリズムによって容易に求めることができる。たとえば、上記の確率を用いると、事後確率が最大なパスの組合せを求めることができる。パスの組合せを求めることによって、過去のフレームから追跡が継続された顔、新たに出現した顔、対応付かなかった顔が得られるので、その結果を追跡結果管理部１６に記録する。
【００４４】
追跡結果管理部１６は、複数のカメラで撮影された画像に対して追跡された結果を管理する手段であり、カメラに接続されている端末内で顔の検出と追跡を実施するハードウェア構成で実現するのであれば、追跡結果管理部１６はサーバ装置としてのハードウェア構成となり、カメラに接続される端末とＬＡＮケーブルで接続することで、カメラの画像や追跡結果といった情報をやりとりすることが可能となる。
【００４５】
追跡結果管理部１６では、カメラの画像をまるごと動画として記録することも可能とするほか、顔の検出や追跡があった場合のみその部分の動画記録すること、検出した顔領域や人物領域のみ記録する、追跡した複数フレームの中で一番見やすいと判断されたベストショット画像のみを記録するといったことも可能である。
【００４６】
また、本実施形態においては追跡結果を複数受け取る可能性があるため、動画と対応付けして各フレームの移動物体の場所と同一移動物体であることを示す識別ＩＤ、追跡結果の信頼度を一緒に管理するといったことで、本実施形態の処理を実現することが可能である。
【００４７】
出力部１７は、追跡結果管理部１６で管理されている画像および追跡結果を利用者の希望にあわせて表示出力する。
【００４８】
次に、このような構成において全体的な処理の流れについて図８に示すフローチャートを参照して説明する。
【００４９】
カメラ１１Ａ（１１Ｂ）から複数の時系列の画像が入力されると、この入力された画象はデジタル化されて顔検出部１２Ａ（１２Ｂ）に送られる（ステップＳ１）。顔検出部１２Ａ（１２Ｂ）は、入力された各画像から追跡対象となる移動物体としての顔を検出する（ステップＳ２，Ｓ３）。
【００５０】
この顔検出において、顔が検出されなかった場合、当該入力画像は追跡パラメータの推定に使用しない。顔が検出された場合、シーン選択部１３Ａ（１３Ｂ）は、顔検出出部１２Ａ（１２Ｂ）が出力した検出結果から、当該検出結果が追跡パラメータの推定に使用できるかどうかの信頼度を求め（ステップＳ４）、求めた信頼度があらかじめ定められた基準値（閾値）よりも高いか否かを判定する（ステップＳ５）。
【００５１】
この判定の結果、求めた信頼度が基準値よりも低い場合、当該シーンは追跡パラメータの推定に使用しない。求めた信頼度が基準値よりも高い場合、当該シーンを保持（記録）し、当該シーンに対し追跡処理を行なう（ステップＳ６）。
【００５２】
次に、この追跡処理の結果に対し信頼度を求め、求めた信頼度があらかじめ定められた基準値（閾値）よりも高いか否かを判定し（ステップＳ７）、求めた信頼度が基準値よりも低い場合、当該シーンは追跡パラメータの推定に使用しない。
【００５３】
ステップＳ７において、求めた信頼度が基準値よりも高い場合、パラメータ推定部１４は、当該信頼度の高いシーンの数があらかじめ定められた基準値（閾値）よりも多いか否かを判定し（ステップＳ８）、信頼度の高いシーンの数が基準値よりも少ない場合、追跡パラメータの推定を実行しない。
【００５４】
ステップＳ８において、信頼度の高いシーンの数が基準値よりも多い場合、当該シーンに基づき追跡パラメータを推定し（ステップＳ９）、ステップＳ６で保持したシーンに対し追跡処理を行なう（ステップＳ１０）。この場合、推定した追跡パラメータと、保持してある更新する直前の追跡パラメータの両方で追跡処理を行なう。
【００５５】
次に、この２つの追跡処理の結果（信頼度）を比較し、推定した追跡パラメータによる信頼度が更新する直前の追跡パラメータによる信頼度よりも低い場合（ステップＳ１１）、更新する直前の追跡パラメータを推定した追跡パラメータに更新するが、追跡処理には使用しない。
【００５６】
ステップＳ１１において、推定した追跡パラメータによる信頼度が更新する直前の追跡パラメータによる信頼度よりも高い場合、更新する直前の追跡パラメータを推定した追跡パラメータに更新し、この更新した追跡パラメータに基づき画像内の人物（移動物体）を追跡する（ステップＳ１２）。
【００５７】
以上説明したように上記実施の形態によれば、画像の時系列において複数のフレームに含まれる複数の移動物体を検出し、同一の移動物体どうしをフレーム間で対応付けることにより、移動物体の追跡を行なう移動物体追跡システムにおいて、移動物体の追跡処理に対する信頼度を求め、求めた信頼度が高い場合は自動的に追跡パラメータを学習して調整することで、複数の移動物体を追跡するときに、撮影機器の変化に由来する変動に対しても、あるいは、撮影環境の変化に由来する変動に対しても、追跡パラメータを自動的に調整することで、正解教示などの手間のかかる作業を省略できる。
【符号の説明】
【００５８】
１１Ａ，１１Ｂ…カメラ（画像入力手段）、１２Ａ，１２Ｂ…顔検出部（移動物体検出手段）、１３Ａ，１３Ｂ…シーン選択部（シーン選択手段）、１４…パラメータ推定部（パラメータ推定手段）、１５…移動物体追跡部（移動物体追跡手段）、１６…追跡結果管理部（追跡結果管理手段）、１７…出力部（出力手段）。

【特許請求の範囲】
【請求項１】
複数の時系列の画像を入力する画像入力手段と、
この画像入力手段により入力された各画像から追跡対象となる移動物体を検出する移動物体検出手段と、
どのような基準で移動物体の追跡を行なうかを示す追跡パラメータに基づき、前記移動物体検出手段により複数の画像に亘って検出された同一の移動物体を対応付けして追跡する移動物体追跡手段と、
この移動物体追跡手段による追跡結果を出力する出力手段と、
前記移動物体検出手段により検出された検出結果から前記追跡パラメータの推定に利用できる移動物体の移動シーンを選択するシーン選択手段と、
このシーン選択手段により選択された移動シーンに基づき前記追跡パラメータを推定し、この推定した追跡パラメータを前記移動物体追跡手段に対して出力するパラメータ推定手段と、
を具備したことを特徴とする移動物体追跡システム。
【請求項２】
前記シーン選択手段は、前記移動物体検出手段の検出結果から、検出結果の列が同一の移動物体である信頼度の高いものを追跡パラメータの推定に利用できる移動シーンとして選択することを特徴とする請求項１記載の移動物体追跡システム。
【請求項３】
前記シーン選択手段は、前記移動物体検出手段の検出結果に基づき、移動物体の少なくとも１つの画像以上の移動量があらかじめ定められた閾値以上の場合、あるいは、移動物体どうしの距離があらかじめ定められた閾値以上の場合、それぞれの検出結果を同一の移動物体として区別して、追跡パラメータの推定に利用できる移動シーンを選択することを特徴とする請求項１記載の移動物体追跡システム。
【請求項４】
前記シーン選択手段は、前記移動物体検出手段の検出結果に基づき、一定期間以上に同一の場所で移動物体が検出された場合に当該検出結果を語検出と判断して、追跡パラメータの推定に利用できる移動シーンを選択することを特徴とする請求項１記載の移動物体追跡システム。
【請求項５】
前記パラメータ推定手段は、前記シーン選択手段により選択された移動シーンの信頼度を求め、求めた信頼度があらかじめ定められた基準値よりも高い場合、当該移動シーンに基づき前記追跡パラメータを推定することを特徴とする請求項１記載の移動物体追跡システム。
【請求項６】
画像入力手段により、複数の時系列の画像を入力する画像入力ステップと、
移動物体検出手段により、前記画像入力ステップにより入力された各画像から追跡対象となる移動物体を検出する移動物体検出ステップと、
移動物体追跡手段により、どのような基準で移動物体の追跡を行なうかを示す追跡パラメータに基づき、前記移動物体検出ステップにより複数の画像に亘って検出された同一の移動物体を対応付けして追跡する移動物体追跡ステップと、
出力手段により、前記移動物体追跡ステップによる追跡結果を出力する出力ステップと、
シーン選択手段により、前記移動物体検出ステップにより検出された検出結果から前記追跡パラメータの推定に利用できる移動物体の移動シーンを選択するシーン選択ステップと、
パラメータ推定手段により、前記シーン選択ステップにより選択された移動シーンに基づき前記追跡パラメータを推定し、この推定した追跡パラメータを前記移動物体追跡手段に対して出力するパラメータ推定ステップと、
を具備したことを特徴とする移動物体追跡方法。

【図１】