画像処理装置および方法、プログラム、並びに記録媒体

【課題】より少ない仮定かつより少ない演算量で学習型画像処理を行うことができるようにする。
【解決手段】時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューを出力し、時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューを出力し、前記推定前景ビューおよび前記推定背景ビューを合成した合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景と背景のビューモデルとを学習する。

【発明の詳細な説明】
【技術分野】
【０００１】
本技術は、画像処理装置および方法、プログラム、並びに記録媒体に関し、特に、学習型画像処理を行うことができるようにする画像処理装置および方法、プログラム、並びに記録媒体に関する。
【背景技術】
【０００２】
すでに実用化されている学習型画像処理に関する技術として、例えば、顔認識や物体認識などに用いられるパターン認識技術がある。
【０００３】
このような従来の学習型画像処理においては、認識器を構成するために認識対象のモデルを学習する際に、学習データとして大量の画像データに対して認識対象のラベルを付した上で学習が行われていた。
【０００４】
例えば、顔認識における画像の学習においては、人物の名称および顔の向き、その人物の顔画像が表示されている領域を特定する情報などがラベルとして付される必要がある。また、物体認識における画像の学習においては、物体の名称および物体の向き、その物体が表示されている領域を特定する情報などがラベルとして付される必要がある。
【０００５】
このようなラベル付けは人手でなされるので大量の学習データを用意することが困難であった。
【０００６】
そこで、例えば、上述のようなラベル付けをする必要がなく、動画像を含む複数の画像から対象のモデルを自動的に学習できるようにする学習型画像処理の技術も提案されている。
【０００７】
動画像を含む複数の画像から対象のモデルを自動的に学習する学習型画像処理の一例として、前景・背景学習モデルを自動的に学習する方式が提案されている（例えば、非特許文献１参照）。
【０００８】
また、動画像を含む複数の画像から対象のモデルを自動的に学習する学習型画像処理の別の例として、前景に相当する対象のマルチビューモデルを自動的に学習する方式も提案されている（例えば、非特許文献２参照）。この方式では、複数のビュー間の幾何関係がモデル化されるようになされている。
【先行技術文献】
【非特許文献】
【０００９】
【非特許文献１】“Unsupervised Learning of Multiple Aspects of Moving Objects from Video” Michalis K. Titsias, Christopher K. I. Williams Panhellenic Conference on Informatics 2005: 746-756
【非特許文献２】“Learning a dense multi-view representation for detection, viewpoint classification and synthesis of object categories” H. Su, M. Sun, L. Fei-Fei and S. Savarese International Conference on Computer Vision (ICCV), 2009
【発明の開示】
【発明が解決しようとする課題】
【００１０】
しかしながら、例えば、非特許文献１の技術においては、マルチビューを構成する個々のビュー間の関係性などがモデル化されていないため、個々のビュー毎に学習を完了させていく必要がある。このため、マルチビューを学習する際に、ビュー数が増えた場合に学習が困難となることが想定される。
【００１１】
また、非特許文献２の技術においては、前景と背景を明に分解せずに学習するため、実際の動画像のように前景と距離が近い背景が含まれる場合に学習が困難になる。さらに、複数のビュー間の幾何関係を厳密にモデル化するため、動画像を撮影するカメラの動かし方に制約があったり、計算量が大きいという問題があった。
【００１２】
本技術はこのような状況に鑑みてなされたものであり、より少ない仮定かつより少ない演算量で学習型画像処理を行うことができるようにするものである。
【課題を解決するための手段】
【００１３】
本技術の一側面は、入力される動画のデータ中の各フレームの画像の複数の特徴点の特徴量として構成される画像特徴量のそれぞれを、前記フレームの時刻に対応づけて出力する画像特徴量出力部と、時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューを出力する前景推定部と、時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューを出力する背景推定部と、前記推定前景ビューおよび前記推定背景ビューを合成することで合成ビューを生成する合成ビュー生成部と、前記合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景のビューモデルを学習する前景学習部と、前記評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記背景のビューモデルを学習する背景学習部とを備える画像処理装置である。
【００１４】
前記前景推定部および前記背景推定部のそれぞれは、前記評価値に基づいて、複数種類存在する前記ビュー変換のそれぞれについての事後確率を算出し、前記画像特徴量および前記事後確率に基づいて、前記ビュー変換を推定し、前記ビューモデルに対して前記ビュー変換を施すことで、前記推定前景ビューおよび前記推定背景ビューを出力するようにすることができる。
【００１５】
前記前景学習部および前記背景学習部のそれぞれは、複数種類存在する前記ビュー変換のそれぞれが施された前記ビューモデルのパラメータを、前記評価値に基づいて算出される前記ビュー変換のそれぞれについての事後確率に基づいて重み付けし、前記重み付されたパラメータに基づいて、前記前景のビューモデルのパラメータまたは前記背景のビューモデルのパラメータを更新するようにすることができる。
【００１６】
前記ビューモデルは、前記前景または前記背景を、それぞれ異なる角度からみた画像に対応する複数のビューモデルから成るマルチビューモデルとして構成されるようにすることができる。
【００１７】
前記前景のビューモデルまたは前記背景のビューモデルのいずれか一方が、前記前景または前記背景を、それぞれ異なる角度からみた画像に対応する複数のビューモデルから成るマルチビューモデルとして構成されるようにすることができる。
【００１８】
前記前景推定部および前記背景推定部のそれぞれは、前記評価値に基づいて、複数種類存在する前記ビューモデルのそれぞれについての事後確率を算出し、前記画像特徴量および前記事後確率に基づいて、前記ビューモデルを推定し、前記推定された遷移に対応するビューモデルに対して前記ビュー変換を施すことで、前記推定前景ビューおよび前記推定背景ビューを出力し、前記ビューモデルの事後確率の算出においてビュー遷移に基づく事前確率を推定するためのダイナミクス学習推定モデルとして、ＨＭＭ、ＦＮＮ、ＲＮＮ、パーティクルフィルタ、または、カンマンフィルタが用いられるようにすることができる。
【００１９】
前記前景推定部および前記背景推定部のそれぞれは、さらに、前記評価値に基づいて、複数種類存在する前記ビュー変換のそれぞれについての事後確率を算出し、前記画像特徴量および前記事後確率に基づいて、前記ビュー変換を推定するようにすることができる。
【００２０】
前記前景学習部および前記背景学習部のそれぞれは、複数種類存在する遷移に対応する前記ビューモデルのパラメータを、前記評価値に基づいて算出される前記遷移のそれぞれについての事後確率に基づいて重み付けし、複数種類存在する前記ビュー変換のそれぞれが施された前記ビューモデルのパラメータを、前記評価値に基づいて算出される前記ビュー変換のそれぞれについての事後確率に基づいて重み付けし、前記重み付されたパラメータに基づいて、前記前景のビューモデルのパラメータまたは前記背景のビューモデルのパラメータを更新するようにすることができる。
【００２１】
前記確率的生成モデルにおいて、前記ビュー変換の事後確率の算出においてビュー変換運動に基づく事前確率を推定するためのダイナミクス学習推定モデルとして、ＨＭＭ、ＦＮＮ、ＲＮＮ、パーティクルフィルタ、または、カンマンフィルタが用いられるようにすることができる。
【００２２】
前記前景学習部において用いられる前記確率的生成モデルと、前記背景学習部において用いられる前記確率的生成モデルとが、それぞれ異なるようにすることができる。
【００２３】
前記画像特徴量出力部は、前記画像特徴量として、各画素の画素位置および画素値とを対応付けた情報を出力するようにすることができる。
【００２４】
前記画像特徴量出力部は、前記画像特徴量として、ハリスコーナー検出方法により検出された特徴点位置の集合を出力するようにすることができる。
【００２５】
本技術の一側面は、画像特徴量出力部が、入力される動画のデータ中の各フレームの画像の複数の特徴点の特徴量として構成される画像特徴量のそれぞれを、前記フレームの時刻に対応づけて出力し、前景推定部が、時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューを出力し、背景推定部が、時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューを出力し、合成ビュー生成部が、前記推定前景ビューおよび前記推定背景ビューを合成することで合成ビューを生成し、前景学習部が、前記合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景のビューモデルを学習し、背景学習部が、前記評価値に基づいて、前記背景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記背景のビューモデルを学習するステップを含む画像処理方法である。
【００２６】
本技術の一側面は、コンピュータを、入力される動画のデータ中の各フレームの画像の複数の特徴点の特徴量として構成される画像特徴量のそれぞれを、前記フレームの時刻に対応づけて出力する画像特徴量出力部と、時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューを出力する前景推定部と、時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューを出力する背景推定部と、前記推定前景ビューおよび前記推定背景ビューを合成することで合成ビューを生成する合成ビュー生成部と、前記合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景のビューモデルを学習する前景学習部と、前記評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記背景のビューモデルを学習する背景学習部とを備える画像処理装置として機能させるプログラムである。
【００２７】
本技術の一側面においては、入力される動画のデータ中の各フレームの画像の複数の特徴点の特徴量として構成される画像特徴量のそれぞれが、前記フレームの時刻に対応づけて出力され、時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューが出力され、時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューが出力され、前記推定前景ビューおよび前記推定背景ビューを合成することで合成ビューが生成され、前記合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景のビューモデルが学習され、前記評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記背景のビューモデルが学習される。
【発明の効果】
【００２８】
本技術によれば、より少ない仮定かつより少ない演算量で学習型画像処理を行うことができる。
【図面の簡単な説明】
【００２９】
【図１】入力画像系列の例を示す図である。
【図２】従来の画像の学習、認識と、本技術による画像の学習、認識とを説明する図である。
【図３】本技術の一実施の形態に係るビューモデル学習装置の構成例を示すブロック図である。
【図４】本技術の別の実施の形態に係るビューモデル学習装置の構成例を示すブロック図である。
【図５】ビューモデル学習処理の例を説明するフローチャートである。
【図６】前景推定処理の例を説明するフローチャートである。
【図７】背景推定処理の例を説明するフローチャートである。
【図８】合成観測処理の例を説明するフローチャートである。
【図９】前景学習処理の例を説明するフローチャートである。
【図１０】背景学習処理の例を説明するフローチャートである。
【図１１】ビューモデル学習処理の別の例を説明するフローチャートである。
【図１２】前景推定処理の別の例を説明するフローチャートである。
【図１３】背景推定処理の別の例を説明するフローチャートである。
【図１４】合成観測処理の別の例を説明するフローチャートである。
【図１５】前景学習処理の別の例を説明するフローチャートである。
【図１６】背景学習処理の別の例を説明するフローチャートである。
【図１７】前景の画像の例を示す図である。
【図１８】背景の画像の例を示す図である。
【図１９】入力画像系列に含まれる画像の例を示す図である。
【図２０】ビューモデルの学習、および画像の認識におけるビュー変換推定の仕組みを説明する図である。
【図２１】画像の認識結果を説明する図である。
【図２２】別の入力画像系列に含まれる画像の例を示す図である。
【図２３】ビューモデルの学習の例を説明する図である。
【図２４】画像の認識結果の別の例を説明する図である。
【図２５】さらに別の入力画像系列に含まれる画像の例を示す図である。
【図２６】ビューモデルの学習の別の例を説明する図である。
【図２７】画像の認識結果のさらに別の例を説明する図である。
【図２８】画像の認識結果のさらに別の例を説明する図である。
【発明を実施するための形態】
【００３０】
以下、図面を参照して、ここで開示する技術の実施の形態について説明する。
【００３１】
最初に従来技術における学習型画像処理と本技術に係る学習型画像処理との違いについて説明する。
【００３２】
本技術においては、例えば、図１に示されるように、動画像などとして時系列に撮影された画像２１−１乃至画像２１−５を入力画像系列として与え、この入力画像系列から前景のビューモデルと背景のビューモデルを自動的に学習させるようにする。
【００３３】
図１の例においては、画像２１−１乃至画像２１−５にノート型パーソナルコンピュータの画像が表示されている。画像２１−１乃至画像２１−５は、例えば、カメラをノート型パーソナルコンピュータの周囲の異なる位置に移動させて様々な角度からノート型パーソナルコンピュータを撮影した画像とされている。例えば、ノート型パーソナルコンピュータに向かって左から右へカメラを移動させて動画像を撮影することでこのような画像が取得される。
【００３４】
同図の場合、ノート型パーソナルコンピュータが前景として学習される。また、ノート型パーソナルコンピュータが設置された机およびノート型パーソナルコンピュータの背後の本などが背景として学習される。前景の学習結果は、前景のビューモデルと称され、背景の学習結果は、背景のビューモデルと称される。なお、ビューモデルの詳細については後述する。
【００３５】
本技術においては、前景と背景の運動の独立性を前提とする。すなわち、学習の対象となる前景がＭＯ１により特定される運動を行う場合、学習の対象となる背景はＭＯ１以外のＭＯ２により特定される運動を行うことを前提とする。
【００３６】
また、本技術においては、光学上の前後関係を前提とする。すなわち、学習の対象となる背景は前景により隠れることがあるが、学習の対象となる前景は背景により隠れることがないことを前提とする。
【００３７】
本技術では、上述のような前景と背景の運動の独立性および光学上の前後関係を制約事項とした上で、例えば、画像２１−１乃至画像２１−５における前景（ノート型パーソナルコンピュータ）についてのビュー変換推定を行って前景のビューモデルを学習する。また、画像２１−１乃至画像２１−５における背景（机、本など）についてのビュー変換推定を行って背景のビューモデルを学習する。
【００３８】
従って、図２に示されるように、従来の技術では、大量のラベル画像を記憶して学習するなどすることなく、動画を入力するだけ画像認識を行うことが可能となる。
【００３９】
例えば、従来の画像認識においては、ノート型パーソナルコンピュータを複数の向きから撮影した画像のそれぞれに対してラベルを付したものを学習させていた。ラベルは、例えば、ノート型パーソナルコンピュータの向き、画像の中でノート型パーソナルコンピュータが表示されている領域を特定する情報などにより構成される。これに対して、本技術では、図２に示されるように、ラベルなしの動画を入力するだけノート型パーソナルコンピュータの認識を行うことが可能となる。
【００４０】
次に、本技術において用いられる基本的なモデルについて説明する。
【００４１】
本技術は、対象となる画像を認識するにあたって、シングルビューモデルとマルチビューモデルのいずれにも対応可能とされる。
【００４２】
ここで、シングルビューモデルは、学習の対象となる前景または背景を１つのビューモデルで表現できると仮定するモデルを意味する。
【００４３】
一方、マルチビューモデルは、学習の対象となる前景または背景を複数のビューモデルで表現できると仮定するモデルを意味する。また、ここでのビューモデルは、マルチビューモデルにおける１枚の画像を意味するものと考えられる。
【００４４】
例えば、入力画像系列をＩ_1，Ｉ_2，Ｉ_3，・・・Ｉ_Sで表し、入力画像系列に対する画像特徴量をＸ_1，Ｘ_2，Ｘ_3，・・・Ｘ_Sで表すこととする。なお、入力画像系列は、例えば、動画の画像データとすることができ、その場合、Ｉ_1，Ｉ_2，Ｉ_3，・・・Ｉ_Sのそれぞれが、動画のフレームの画像データに対応する。また、入力画像系列に対する画像特徴量は、例えば、入力画像系列（動画）を構成する画像（各フレームの画像）における各画素値の集合とすることができる。
【００４５】
本技術では、時刻毎に前景または背景のビューモデルを変換することにより、入力画像系列の画像特徴量（観測特徴量とも称する）が得られるものと仮定する。すなわち、時刻ｓにおけるビューモデルＭのビュー変換Ｔ_ｓにより時刻ｓにおける観測特徴量Ｘ_ｓを式（１）により得ることができる。
【００４６】
【数１】

・・・（１）
【００４７】
なお、式（１）におけるＭは、シングルビューモデルとされる。また、ビュー変換Ｔ_ｓは、例えば、アフィン変換などとして表される座標変換などとされる。
【００４８】
一方、マルチビューモデルを用いる場合、複数のビューモデルが存在することになり、例えば、Ｌ個のビューモデルを有するマルチビューモデルＭvは、Ｍv＝｛Ｍ_１，Ｍ_２，Ｍ_３，・・・Ｍ_Ｌ｝で表されることになる。複数のビューモデルは、例えば、学習の対象となる前景を、正面、背面、側面、・・・からみた画像に対応するものとされる。
【００４９】
この場合、例えば、時刻毎にいずれかのビューモデルをビュー変換することにより、画像特徴量（観測特徴量とも称する）が得られるものと仮定する。すなわち、時刻ｓにおけるビューモデルＭvのビュー変換Ｔ_ｓにより時刻ｓにおける観測特徴量Ｘ_ｓを式（２）により得ることができる。
【００５０】
【数２】

・・・（２）
【００５１】
本技術では、式（１）または式（２）に示したようなビューモデルを次に述べるような処理により学習する。
【００５２】
図３は、本技術の一実施の形態に係るビューモデル学習装置１００の構成例を示すブロック図である。同図のビューモデル学習装置１００は、前景および背景の学習において、シングルビューモデルを用いるものとされる。
【００５３】
同図に示されるように、ビューモデル学習装置１００は、画像系列入力部１０１、画像特徴量抽出部１０２、前景背景合成観測部１０３、前景推定学習部１０４、および背景推定学習部１０５を有する構成とされている。
【００５４】
前景推定学習部１０４は、ビューモデル学習部１１１、ビューモデルパラメータ１１２、ビューモデル出力部１１３、ビュー変換推定部１１４、ビュー変換運動推定部１１５、およびビュー変換情報出力部１１６を有する構成とされている。
【００５５】
また、背景推定学習部１０５は、ビューモデル学習部１２１、ビューモデルパラメータ１２２、ビューモデル出力部１２３、ビュー変換推定部１２４、ビュー変換運動推定部１２５、およびビュー変換情報出力部１２６を有する構成とされている。
【００５６】
同図の画像系列入力部１０１は、入力画像系列の入力を制御する機能ブロックとされ、上述したように各時刻に対応づけられた画像が入力画像系列として、画像特徴量抽出部１０２に供給される。
【００５７】
画像特徴量抽出部１０２は、入力画像系列を構成する各時刻の画像から画像特徴量を抽出する。画像特徴量の具体的な例としては、例えば、ピクセルごとの輝度値、複数のピクセルからなる領域毎の輝度ヒストグラム、カラーヒストグラム、エッジヒストグラムなどとされる。あるいはまた、ハリスコーナー検出などで検出した特徴点毎に座標とステアラブルフィルタなどの特徴量を持つ局所特徴量が画像特徴量とされるようにしてもよい。
【００５８】
なお、画像特徴量は、後述するビューモデルのビューモデルパラメータと同様に、原則として幾何的な要素（幾何モデル）と、特徴量的な要素（特徴量モデル）とによって構成される。例えば、画像特徴量は、１フレーム分の画像の各画素の画素位置（幾何モデル）と画素値（特徴量モデル）から成るようにしてもよい。あるいはまた、画像特徴量は、１フレーム分の画像の中の所定の特徴点の画素の画素位置（幾何モデル）と画素値（特徴量モデル）から成るようにしてもよい。
【００５９】
さらに、後述するように、局所特徴量が用いられる場合、画像特徴量が１フレーム分の画像の中の所定の特徴点の画素の画素位置（幾何モデル）のみから構成されるようにすることも可能である。
【００６０】
前景背景合成観測部１０３は、前景推定学習部１０４および背景推定学習部１０５により出力（推定）された推定前景ビューおよび推定背景ビューを合成する。そして、前景背景合成観測部１０３は、合成された画像の画像特徴量と画像特徴量抽出部１０２から供給される画像特徴量とを比較し、推定に対する評価値を前景推定学習部１０４および背景推定学習部１０５にそれぞれフィードバックするようになされている。
【００６１】
すなわち、前景背景合成観測部１０３は、前景推定学習部１０４から推定前景ビューを取得する。いま、ビューモデルパラメータ１１２に、前景のビューモデルＭ_ＦＧが記憶されているものとし、時刻ｓにおける前景のビューモデルのビュー変換をＴ_ＦＧ,ｓとすると、時刻ｓにおける推定前景ビューは、Ｔ_ＦＧ,ｓＭ_ＦＧとして表すことができる。
【００６２】
また、前景背景合成観測部１０３は、背景推定学習部１０５から背景推定ビューを取得する。いま、ビューモデルパラメータ１２２に、前景のビューモデルＭ_ＢＧが記憶されているものとし、時刻ｓにおける背景のビューモデルのビュー変換をＴ_ＢＧ,ｓすると、時刻ｓにおける推定前景ビューは、Ｔ_ＢＧ,ｓＭ_ＢＧとして表すことができる。
【００６３】
そして、前景背景合成観測部１０３は、前景背景の合成ビューモデルＭ_{ＦＧＢＧ,ｓ}を構成する。
【００６４】
さらに、前景背景合成観測部１０３は、画像特徴量抽出部１０２から供給された画像特徴量のパラメータと、合成ビューモデルのパラメータとの対応関係を決定する。例えば、時刻ｓにおける画像特徴量Ｘｓがパラメータとして、ｘ1，ｘ2，ｘ3，・・・ｘNを有しており、合成ビューモデルＭ_{ＦＧＢＧ,ｓ}がパラメータとして、ｍ1，ｍ2，ｍ3，・・・ｍNを有していたとする。
【００６５】
例えば、画像特徴量がピクセルごとの輝度値（各画素値）とされる場合、入力画像系列における時刻ｓの画像と時刻ｓの合成ビューモデルの対応する座標の画素値同士を対応付けられる。
【００６６】
例えば、時刻ｓの画像の座標（０，０）の画素ｘ1は、時刻ｓの合成ビューモデルの座標（０，０）の画素ｍ1に対応づけられ、時刻ｓの画像の座標（０，１）の画素ｘ２は、時刻ｓの合成ビューモデルの座標（０，１）の画素ｍ２に対応づけられ、・・・のように対応関係が決定される。このような時刻ｓにおける画像とビューモデルとの対応関係をＣ_{ＸＦＧＢ,ｓ}で表すことにする。
【００６７】
そして、前景背景合成観測部１０３は、上述の対応関係Ｃ_{ＸＦＧＢ,ｓ}のもとで、画像特徴量Ｘｓに対する合成ビューモデルＭ_{ＦＧＢＧ,ｓ}の評価値Ｅｓを計算する。評価値Ｅｓは、例えば、対応する画素値間の差分絶対値和（実際には、より複雑な演算により求められる）などとされる。
【００６８】
図３における前景推定学習部１０４は、次のように動作する。
【００６９】
ビュー変換推定部１１４は、例えば、時刻ｓにおける画像特徴量Ｘｓに対して適切なビュー変換Ｔｓを推定する。つまり、ビュー変換推定部１１４は、前景のビューモデルをビュー変換して画像特徴量Ｘｓの中の前景の画像を得ることができるようなビュー変換を推定する。
【００７０】
この際、ビュー変換推定部１１４は、適切なビュー変換の候補を複数出力する（推定する）ものとされ、例えば、異なる１００個のパラメータを持つアフィン変換がビュー変換の候補として出力される。
【００７１】
ここでビュー変換は、例えば、前景のビューモデルを幾何的に変換するものとされる。具体的には、ビューモデルを並進移動される変換、拡大縮小させる変換、回転させる変換、これらの変換の組み合わせを総称したアフィン変換、さらに投影変換などがビュー変換とされる。なお、ビュー変換の候補はほぼ無限に存在するため、後述するビュー変換運動推定部１１５の推定結果に基づいて、出力すべきビュー変換の候補が特定されるようになされている。
【００７２】
ビュー変換運動推定部１１５は、時刻ｓにおけるビュー変換Ｔｓから時刻ｓ＋１におけるビュー変換Ｔ´ｓ＋１を推定するようになされている。通常、前景の運動には規則的な連続性があると仮定できるので、変換のダイナミクスについて、例えば、Ｔ´ｓ＋１＝Ｆ_Ｔ（Ｔｓ）の式が成立するモデルと仮定することができる。このモデルとして、例えば、ＨＭＭ（Hidden Markov Model）、ＦＮＮ（Feed Forward Neural Network）、ＲＮＮ（Recurrent Neural Network）などのダイナミクス学習推定モデルを用いることができるし、パーティクルフィルタ、カンマンフィルタなどのダイナミクス推定モデルを用いることもできる。
【００７３】
より具体的には、ビュー変換運動推定部１１５は、ある時刻において前景背景合成観測部１０３が出力した評価値Ｅｓに基づいて、各ビュー変換の事後確率を計算するようになされている。そして、ビュー変換推定部１１４が、各ビュー変換の事後確率に基づいて、ある時刻におけるビュー変換として適切なものを選択して出力することにより、ビュー変換の推定が行われるようになされている。
【００７４】
ビューモデルパラメータ１１２は、前景のビューモデルのパラメータを記憶する。ここで、前景のビューモデルのパラメータとは、いわば、前景に関する画像の特徴量をモデル化したものであって、複数の特徴点の幾何モデルのパラメータおよび各特徴点の特徴量モデルのパラメータを要素として構成される。
【００７５】
幾何モデルは、複数特徴点間の相対位置関係に関する統計モデルとされ、特徴量モデルは、各特徴点の特徴量に関する統計モデルとされる。例えば、画像特徴量がピクセルごとの輝度値（各画素値）とされる場合、幾何モデルは、各画素の座標値を意味するものとなる。一方、特徴量モデルは、複数の推定前景ビューから得られた各座標の画素値に重みが乗じられるなどして得られた平均値を意味するものとなる。なお、幾何モデルおよび特徴量モデルの統計モデルとしては、平均だけを用いる方式、正規分布（平均、分散）を用いる方式がある。
【００７６】
ビューモデル学習部１１１は、入力画像系列の各時刻の画像の画像特徴量において、前景背景合成観測部１０３により決定された対応関係に基づいて選択された特徴点に関して、上述した幾何モデルと特徴量モデルを学習する。この際、ビューモデル学習部１１１は、ビュー変換推定部１１４により推定されたビュー変換（例えば、アフィン変換）の逆変換によって変換することにより幾何モデルを学習する。そして、ビューモデル学習部１１１は、前景背景合成観測部１０３により出力される評価値に基づいて特徴量モデルを全時刻分統計学習する。これにより、ビューモデルのパラメータが学習されることになる。
【００７７】
なお、幾何モデルのパラメータと特徴量モデルパラメータとから構成されるビューモデルのパラメータがどのような演算により算出されて学習されるかについては後述する。
【００７８】
ビューモデル学習部１１１により学習された幾何モデルと特徴量モデルがビューモデルパラメータ１１２に記憶される。従って、前景のビューモデルＭ_ＦＧの実体的な数値などはビューモデルパラメータ１１２に記憶される。
【００７９】
ビュー変換情報出力部１１６は、ビュー変換推定部１１４により推定された各時刻におけるビュー変換、および、各時刻における画像とビューモデルとの対応関係を出力する。ここで出力されたビュー変換、および、画像とビューモデルとの対応関係により、例えば、学習された前景が画像の中のどこに、どの大きさで、どの向きに存在するかを表すことができる。
【００８０】
ビューモデル出力部１１３は、ビューモデル学習部１１１により学習された前景のビューモデルを出力する。ここで、出力されたビューモデル（幾何モデルと特徴量モデル）は、別の入力動画像に対して認識する際に利用できる。例えば、与えられた画像の中に前景がどこに、どの大きさで、どの向きに存在するかを求める際に、ビューモデル出力部１１３から出力されたビューモデルを利用できる。
【００８１】
図３の背景推定学習部１０５のビューモデル学習部１２１乃至ビュー変換情報出力部１２６は、それぞれ前景推定学習部１０４のビューモデル学習部１１１乃至ビュー変換情報出力部１１６と同様の機能ブロックであるため、詳細な説明は省略する。ただし、当然のことながら、背景推定学習部１０５は背景のビューモデルのビュー変換を推定し、背景のビューモデルを学習する。
【００８２】
図４は、本技術の別の実施の形態に係るビューモデル学習装置２００の構成例を示すブロック図である。同図のビューモデル学習装置２００は、前景および背景の学習において、マルチビューモデルを用いるものとされる。
【００８３】
同図に示されるビューモデル学習装置２００は、画像系列入力部２０１、画像特徴量抽出部２０２、前景背景合成観測部２０３、前景推定学習部２０４、背景推定学習部２０５を有する構成とされている。
【００８４】
前景推定学習部２０４は、マルチビューモデル・ビュー遷移学習部２１１、マルチビューモデルパラメータ２１２、ビュー遷移モデルパラメータ２１３、マルチビューモデル・ビュー遷移出力部２１４を有している。さらに、前景推定学習部２０４は、ビュー及び変換推定部２１５、ビュー変換運動推定部２１６、ビュー遷移推定部２１７、ビュー及び変換情報出力部２１８を有する構成とされている。
【００８５】
背景推定学習部２０５は、マルチビューモデル・ビュー遷移学習部２１１、マルチビューモデルパラメータ２２２、ビュー遷移モデルパラメータ２２３、マルチビューモデル・ビュー遷移出力部２２４を有している。さらに、背景推定学習部２０５は、ビュー及び変換推定部２２５、ビュー変換運動推定部２２６、ビュー遷移推定部２２７、ビュー及び変換情報出力部２２８を有する構成とされている。
【００８６】
同図の画像系列入力部２０１は、入力画像系列の入力を制御する機能ブロックとされ、上述したように各時刻に対応づけられた画像が入力画像系列として、画像特徴量抽出部２０２に供給される。
【００８７】
画像特徴量抽出部２０２は、入力画像系列を構成する各時刻の画像から画像特徴量を抽出する。画像特徴量の具体的な例としては、例えば、ピクセルごとの輝度値、複数のピクセルからなる領域毎の輝度ヒストグラム、カラーヒストグラム、エッジヒストグラムなどとされる。あるいはまた、ハリスコーナー検出などで検出した特徴点毎に座標とステアラブルフィルタなどの特徴量を持つ局所特徴量が画像特徴量とされるようにしてもよい。
【００８８】
なお、画像特徴量は、後述するビューモデルのビューモデルパラメータと同様に、原則として幾何的な要素（幾何モデル）と、特徴量的な要素（特徴量モデル）とによって構成される。例えば、画像特徴量は、１フレーム分の画像の各画素の画素位置（幾何モデル）と画素値（特徴量モデル）から成るようにしてもよい。あるいはまた、画像特徴量は、１フレーム分の画像の中の所定の特徴点の画素の画素位置（幾何モデル）と画素値（特徴量モデル）から成るようにしてもよい。
【００８９】
さらに、後述するように、局所特徴量が用いられる場合、画像特徴量が１フレーム分の画像の中の所定の特徴点の画素の画素位置（幾何モデル）のみから構成されるようにすることも可能である。
【００９０】
前景背景合成観測部２０３は、前景推定学習部２０４および背景推定学習部２０５により出力（推定）された推定前景ビューおよび推定背景ビューを合成する。そして、前景背景合成観測部２０３は、合成された画像の画像特徴量と画像特徴量抽出部２０２から供給される画像特徴量とを比較し、推定に対する評価値を前景推定学習部２０４および背景推定学習部２０５にそれぞれフィードバックするようになされている。
【００９１】
すなわち、前景背景合成観測部２０３は、前景推定学習部２０４から推定前景ビューを取得する。なお、ビューモデル学習装置２００は、マルチビューモデルを用いるものとされるので、ビューモデル学習装置１００の場合と異なり、複数のビューモデルの中から選択された所定のビューモデルに対してビュー変換が施された推定前景ビューが取得されることになる。
【００９２】
また、前景背景合成観測部２０３は、背景推定学習部２０５から背景推定ビューを取得する。なお、ビューモデル学習装置２００は、マルチビューモデルを用いるものとされるので、ビューモデル学習装置１００の場合と異なり、複数のビューモデルの中から選択された所定のビューモデルに対してビュー変換が施された推定背景ビューが取得されることになる。
【００９３】
そして、前景背景合成観測部２０３は、ビューモデル学習装置１００の場合と同様に、前景背景の合成ビューモデルを構成する。
【００９４】
さらに、前景背景合成観測部２０３は、ビューモデル学習装置１００の場合と同様に、画像特徴量抽出部２０２から供給された画像特徴量のパラメータと、合成ビューモデルのパラメータとの対応関係を決定する。
【００９５】
そして、前景背景合成観測部２０３は、上述の対応関係のもとで、画像特徴量Ｘｓに対する合成ビューモデルの評価値Ｅｓを計算する。
【００９６】
図４における前景推定学習部２０４は、次のように動作する。
【００９７】
ビュー及び変換推定部２１５は、図３のビュー変換推定部１１４と同様に、例えば、時刻ｓにおける画像特徴量Ｘｓに対して適切なビュー変換Ｔｓを推定する。ビュー及び変換推定部２１５は、ビュー変換推定部１１４の場合と異なり、さらに、後述するビュー遷移推定部２１７の推定に基づいて適切なビューモデルを推定する。
【００９８】
ビュー及び変換推定部２１５により、例えば、適切なビューモデルおよびビュー変換の組み合わせの候補を複数出力するものとされ、例えば、ビューモデルＶＭ１とビュー変換Ｔ１の組み合わせ、ビューモデルＶＭ２とビュー変換Ｔ２の組み合わせ、・・・のような候補が出力される。
【００９９】
ビュー変換運動推定部２１６は、図３のビュー変換運動推定部１１５の場合と同様に、時刻ｓにおけるビュー変換Ｔｓから時刻ｓ＋１におけるビュー変換Ｔ´ｓ＋１を推定するようになされている。
【０１００】
より具体的には、ビュー変換運動推定部２１６は、ある時刻において前景背景合成観測部２０３が出力した評価値Ｅｓに基づいて、各ビュー変換の事後確率を計算するようになされている。そして、ビュー及び変換推定部２１５が、各ビュー変換の事後確率に基づいて、次の時刻におけるビュー変換として適切なものを選択して出力することにより、ビュー変換の推定が行われるようになされている。
【０１０１】
マルチビューモデルパラメータ２１２は、例えば、Ｌ個のビューモデルを有し、マルチビューモデルＭ_Ｖ＝｛Ｍ_１，Ｍ_２，Ｍ_３，・・・Ｍ_Ｌ｝から構成される。Ｍ_１，Ｍ_２，Ｍ_３，・・・Ｍ_Ｌのそれぞれは、例えば、学習の対象となる前景を、正面、背面、側面、・・・からみた画像に対応するものとされる。
【０１０２】
マルチビューのビューモデルの場合、Ｍ_１，Ｍ_２，Ｍ_３，・・・Ｍ_Ｌが、個々に幾何モデルと特徴量モデルを有するものとされ、Ｍ_１，Ｍ_２，Ｍ_３，・・・Ｍ_Ｌのそれぞれをビューモデルと称することにする。
【０１０３】
ビュー遷移推定部２１７は、時刻ｓのビューモデルＭ_ｖ，ｓから時刻ｓ＋１のビューモデルＭ´_{ｖ，ｓ＋１}を推定する。ここで、学習の対象となる前景には三次元の構造があると仮定できるため、例えば、Ｍ´_{ｖ，ｓ＋１}＝Ｆ（Ｍ_ｖ，ｓ）の式が成立するモデルを仮定することができる。このモデルとして、例えば、ＨＭＭなどのダイナミクス学習推定モデルを用いることができる。
【０１０４】
より具体的には、ビュー遷移推定部２１７は、ある時刻において前景背景合成観測部２０３が出力した評価値Ｅｓに基づいて、各ビュー遷移に対応するビューモデルの事後確率を計算するようになされている。そして、ビュー及び変換推定部２１５が、各ビューモデルの事後確率に基づいて、次の時刻におけるビューモデルとして適切なものを選択して出力することにより、ビューモデル（ビュー遷移）の推定が行われるようになされている。
【０１０５】
マルチビューモデル・ビュー遷移学習部２１１は、ビューモデル学習部１１１の場合と同様に、前景のマルチビューモデルを学習する。すなわち、入力画像系列の各時刻の画像の画像特徴量において、前景背景合成観測部２０３により決定された対応関係に基づいて選択された特徴点に関して、上述した幾何モデルと特徴量モデルを学習する。この際、例えば、複数のビューモデルであるＭ_１，Ｍ_２，Ｍ_３，・・・Ｍ_Ｌのそれぞれに対応付けられて幾何モデルと特徴量モデルが学習される。
【０１０６】
また、マルチビューモデル・ビュー遷移学習部２１１は、ビューモデル学習部１１１の場合と異なり、さらに、ビュー遷移モデルを必要に応じて学習する。
【０１０７】
ここで、ビュー遷移モデルは、ダイナミクスモデルとされ、具体的には、ＨＭＭなどの所定のダイナミクスモデルのパラメータが必要に応じて学習される。なお、ダイナミクスモデルのパラメータは、予め与えられるようにしてもよい。
【０１０８】
ダイナミクスモデルの詳細な説明については後述する。また、幾何モデルのパラメータと特徴量モデルパラメータとから構成されるビューモデルのパラメータがどのような演算により算出されて学習されるかについても後述する。
【０１０９】
ビュー遷移モデルパラメータ２１３には、上述したダイナミクスモデルのパラメータが記憶される。例えば、ＨＭＭの状態遷移確率の各値などがパラメータとされて記憶される。従って、前景のビュー遷移モデルの実体的な数値などはビュー遷移モデルパラメータ２１３に記憶される。
【０１１０】
この際、ビュー遷移モデルパラメータ２１３に記憶されるパラメータは、それぞれ学習の対象となる前景に対応づけられて記憶されているようになされている。例えば、ノート型パーソナルコンピュータを前景として学習した場合は、ノート型パーソナルコンピュータを特定するインデックスなどが付されてＨＭＭの状態遷移確率の各値などがパラメータとされて記憶される。また、例えば、人形を前景として学習した場合は、人形を特定するインデックスなどが付されてＨＭＭの状態遷移確率の各値などがパラメータとされて記憶される。
【０１１１】
このようにすることで、例えば、学習の対象となる物体の動きに応じたビュー遷移のダイナミクスモデルを効率的に学習させることができる。
【０１１２】
ビュー及び変換情報出力部２１８は、ビュー及び変換推定部２１５により推定された各時刻におけるビューモデル、ビュー変換、および、各時刻における画像とビューモデルとの対応関係を出力する。ここで出力されたビュー変換、および、画像とビューモデルとの対応関係により、例えば、学習された前景が画像の中のどこに、どの大きさで、どの向きに存在するかを表すことができる。
【０１１３】
マルチビューモデル・ビュー遷移出力部２１４は、マルチビューモデル・ビュー遷移学習部２１１により学習された前景のマルチビューモデルおよびビュー遷移モデルを出力する。ここで出力されたマルチビューモデルとビュー遷移モデルは、別の入力動画像に対して認識する際に利用できる。例えば、与えられた画像の中に前景がどこに、どの大きさで、どの向きに存在するかを求める際に、ビューモデル出力部１１３から出力されたビューモデルを利用できる。
【０１１４】
図４の背景推定学習部２０５のマルチビューモデル・ビュー遷移学習部２２１乃至ビュー及び変換情報出力部２２８は、それぞれ前景推定学習部２０４のマルチビューモデル・ビュー遷移学習部２２１乃至ビュー及び変換情報出力部２２８と同様の機能ブロックであるため、詳細な説明は省略する。ただし、当然のことながら、背景推定学習部２０５は背景のマルチビューモデルのビュー遷移およびビュー変換を推定し、背景のマルチビューモデルおよびビュー遷移モデルを学習する。
【０１１５】
次に、図３のビューモデル学習部１１１におけるビューモデルパラメータの学習について説明する。
【０１１６】
本技術では、ＥＭアルゴリズムを用いて算出する。すなわち、上述した式（１）を確率的生成モデルのモデル式に置き換えて、その確率的生成モデルに対してＥＭアルゴリズムを適用することで、ビューモデルパラメータを算出して学習する。なお、ＥＭアルゴリズムの詳細については、例えば、「“Unsupervised Learning of Multiple Objects in Images” Michalis K. Titsias, Doctor Thesis, University of Edinburgh, 2005」などに詳細に開示されている。
【０１１７】
まず、ビューモデルＭのパラメータがｍ1，ｍ2，ｍ3，・・・ｍNで与えられるものとする。ビューモデルＭのパラメータは、実際には、幾何モデルのパラメータ（例えば、各特徴点の座標値など）ｍG1，ｍG2，ｍG3，・・・ｍGNと、特徴量モデルのパラメータ(例えば、各特徴点の画素値など)ｍF1，ｍF2，ｍF3，・・・ｍFNとから構成される。以下適宜、Ｍ＝｛ｍ1，ｍ2，ｍ3，・・・ｍN｝、Ｍ_Ｇ＝｛ｍG1，ｍG2，ｍG3，・・・ｍGN｝、Ｍ_Ｆ＝｛ｍF1，ｍF2，ｍF3，・・・ｍFN｝のように表すことにする。
【０１１８】
また、時刻ｓにおける入力画像系列の画像特徴量Ｘｓがパラメータとしてｘ1，ｘ2，ｘ3，・・・ｘNを有するものとする。画像特徴量Ｘｓのパラメータは、実際には、幾何モデルのパラメータ（例えば、特徴点の座標値など）ｘG1，ｘG2，ｘG3，・・・ｘGNと、特徴量モデルのパラメータ(例えば、各特徴点の画素値など)ｘF1，ｘF2，ｘF3，・・・ｘFNとから構成される。以下適宜、Ｘｓ＝｛ｘ1，ｘ2，ｘ3，・・・ｘN｝、Ｘ_Ｇ，ｓ＝｛ｘG1，ｘG2，ｘG3，・・・ｘGN｝、Ｘ_Ｆ，ｓ＝｛ｘF1，ｘF2，ｘF3，・・・ｘFN｝のように表すことにする。
【０１１９】
さらに、時刻ｓにおいて出力されるビュー変換の候補として、Ｔ1、Ｔ2、・・・Ｔ100があるものとする。以下、適宜Ｔ＝｛Ｔ1、Ｔ2、・・・Ｔ100｝のように表すことにする。なお、ビュー変換の種類は全部でＮＴ個存在するものとする。
【０１２０】
上記を前提として、式（１）に対応する確率的生成モデルのモデル式を、式（３）により表すことができる。
【０１２１】
【数３】

・・・（３）
【０１２２】
ここで、Ｐ_Ｔｋは、ビュー変換Ｔｋの事前確率を表しており、Ｔｋは、時刻ｓにおいて出力されるビュー変換の第ｋ番目の候補とされる。そして、Ｃ_ｓ，ｋは、時刻ｓにおいてビュー変換Ｔｋが施された場合の画像特徴量のパラメータとビューモデルパラメータとの対応関係を表している。
【０１２３】
また、上述したように、ビューモデルのパラメータは幾何モデルのパラメータと特徴量モデルのパラメータとから構成されている。従って、式（３）より幾何モデルについての確率的生成モデルのモデル式を、式（４）で表すことができ、特徴量モデルについての確率的生成モデルのモデル式を、式（５）で表すことができる。
【０１２４】
【数４】

・・・（４）
【０１２５】
【数５】

・・・（５）
【０１２６】
上述した確率的生成モデルで表現されるビューモデルの学習は、全ての時刻の画像特徴量Ｘ1、Ｘ2、・・・Ｘｓに関するＰ（Ｘ│Ｍ）の対数尤度ＬＨをビューモデルパラメータに関して最大化する最尤推定の問題として定式化できる。そして、この問題はＥＭアルゴリズムを用いて解くことができる。なお、Ｐ（Ｘ│Ｍ）の対数尤度ＬＨは、式（６）により表される。また、ここでは、抽出された画像特徴量の数（時刻ｓの数）をＮｘで表すこととする。
【０１２７】
【数６】

・・・（６）
【０１２８】
ＥＭアルゴリズムにおけるＥステップは、ビューモデルＭ＝｛ｍ1，ｍ2，ｍ3，・・・ｍN｝が与えられたもとで、各時刻の画像特徴量Ｘ1、Ｘ2、・・・Ｘｓに対するビュー変換Ｔ＝｛Ｔ1、Ｔ2、・・・Ｔ100｝の事後確率を求めることに相当する。すなわち、画像特徴量Ｘｓが抽出（観測）された場合、ビュー変換がＴｋである確率Ｐ（Ｔｋ│Ｘｓ）として式（７）により求めることができる。
【０１２９】
【数７】

・・・（７）
【０１３０】
式（７）におけるＰ（Ｘｓ│Ｔｋ）は尤度であり、図３の前景背景合成観測部１０３により算出される。この尤度Ｐ（Ｘｓ│Ｔｋ）が上述した評価値Ｅｓとして用いられることになる。式（７）におけるＰ_Ｔｋは、ビュー変換Ｔｋが出力される事前確率であり、図３のビュー変換運動推定部１１５により算出される。そして、ビュー変換推定部１１４が最終的に式（７）を演算する。
【０１３１】
一方、ＥＭアルゴリズムのＭステップでは、各時刻の各ビュー変換の事後確率Ｐ（Ｔｋ│Ｘｓ）が与えられたもとで、ビューモデルパラメータが算出される。Ｍ＝｛ｍ1，ｍ2，ｍ3，・・・ｍN｝は、式（８）により算出することができる。
【０１３２】
【数８】

・・・（８）
【０１３３】
式（８）の演算は、図３のビューモデル学習部１１１により行われる。式（８）により求められたビューモデルパラメータ｛ｍ1，ｍ2，ｍ3，・・・ｍN｝に基づいて、既にビューモデルパラメータ１１２に記憶されているビューモデルパラメータが更新されていく。このようにして、ビューモデルパラメータが学習されるのである。なお、式（８）においては、全部でＮＴ個のビュー変換が存在することを前提としている。
【０１３４】
つまり、ビュー変換推定部１１４がＮＴ個のビュー変換のそれぞれの事後確率を都度計算し、これがビュー変換運動推定部１１５に記憶される。そして、ビュー変換推定部１１４が、ビュー変換運動推定部１１５から出力される事後確率に基づいて、ビュー変換を推定し、推定前景ビューが生成され、さらに合成ビューモデルが構成される。
【０１３５】
そして、合成ビューモデルのビューモデルパラメータと、実際に入力された画像から抽出された画像特徴量とが比較され、前景背景合成観測部１０３により評価値が算出される。ここで算出された評価値に基づいて、ビュー変換推定部１１４が各ビュー変換のそれぞれの事後確率を計算し、ビューモデル学習部１１１が、ビューモデルパラメータをその事後確率によって重み付けして更新していくのである。
【０１３６】
上記においては、図３のビューモデル学習部１１１におけるビューモデルパラメータの学習について説明したが、図３のビューモデル学習部１２１におけるビューモデルパラメータの学習も同様に行われる。
【０１３７】
次に図４のマルチビューモデル・ビュー遷移学習部２１１によるビューモデルパラメータの学習について説明する。
【０１３８】
まず、マルチビューモデルＭｖが｛Ｍ_１，Ｍ_２，Ｍ_３，・・・Ｍ_Ｌ｝から構成されるているものとする。ここで、ビューモデルＭ_１がビューモデルパラメータ｛ｍ11，ｍ12，ｍ13，・・・ｍ1N｝を有し、ビューモデルＭ_２がビューモデルパラメータ｛ｍ21，ｍ22，ｍ23，・・・ｍ2N｝を有し、・・・のように各ビューモデルがビューモデルパラメータを有している。そして、上述したように、ビューモデルのパラメータは、実際には、幾何モデルのパラメータと、特徴量モデルのパラメータとから構成される。
【０１３９】
また、時刻ｓにおける入力画像系列の画像特徴量Ｘｓがパラメータとしてｘ1，ｘ2，ｘ3，・・・ｘNを有するものとする。画像特徴量Ｘｓのパラメータは、実際には、幾何モデルのパラメータ（例えば、特徴点の座標値など）ｘG1，ｘG2，ｘG3，・・・ｘGNと、特徴量モデルのパラメータ(例えば、各特徴点の画素値など)ｘF1，ｘF2，ｘF3，・・・ｘFNとから構成される。以下適宜、Ｘｓ＝｛ｘ1，ｘ2，ｘ3，・・・ｘN｝、Ｘ_Ｇ，ｓ＝｛ｘG1，ｘG2，ｘG3，・・・ｘGN｝、Ｘ_Ｆ，ｓ＝｛ｘF1，ｘF2，ｘF3，・・・ｘFN｝のように表すことにする。
【０１４０】
さらに、時刻ｓにおいて出力されるビュー変換の候補として、Ｔ1、Ｔ2、・・・Ｔ100があるものとする。以下、適宜Ｔ＝｛Ｔ1、Ｔ2、・・・Ｔ100｝のように表すことにする。なお、ビュー変換の種類は全部でＮＴ個存在するものとする。
【０１４１】
上記を前提として、式（２）に対応する確率的生成モデルのモデル式を、式（９）により表すことができる。式（９）は、画像特徴量Ｘｓに対してのビューモデルＭｖとビュー変換Ｔｋの評価値を表すものであり、図４の前景背景合成観測部２０３により算出され、これが評価値Ｅｓとしてビュー及び変換推定部２１５およびマルチビューモデル・ビュー遷移学習部２１１に供給される。
【０１４２】
【数９】

・・・（９）
【０１４３】
ここで、Ｐ_Ｍｖは、マルチビューモデルの中のビューモデルＭｖの事前確率を表しており、Ｐ_Ｔｋは、ビュー変換Ｔｋの事前確率を表しており、Ｔｋは、時刻ｓにおいて出力されるビュー変換の第ｋ番目の候補とされる。そして、Ｃ_ｓ，ｋは、時刻ｓにおいてビュー変換Ｔｋが施された場合の画像特徴量のパラメータとビューモデルパラメータとの対応関係を表している。
【０１４４】
なお、シングルビューの場合において説明したのと同様に、幾何モデルについての確率的生成モデルのモデル式と、特徴量モデルについての確率的生成モデルのモデル式も表すことができるが、ここでは省略する。
【０１４５】
上述した確率的生成モデルで表現されるビューモデルの学習は、全ての時刻の画像特徴量Ｘ1、Ｘ2、・・・Ｘｓに関するＰ（Ｘ│Ｍｖ）の対数尤度ＬＨをビューモデルパラメータに関して最大化する最尤推定の問題として定式化できる。そして、この問題はＥＭアルゴリズムを用いて解くことができる。なお、Ｐ（Ｘ│Ｍｖ）の対数尤度ＬＨは、式（１０）により表される。
【０１４６】
【数１０】

・・・（１０）
【０１４７】
ＥＭアルゴリズムにおけるＥステップは、マルチビューモデルＭｖ＝｛Ｍ_１，Ｍ_２，Ｍ_３，・・・Ｍ_Ｌ｝の各ビューモデルＭ_１＝｛ｍ11，ｍ12，ｍ13，・・・ｍ1N｝、Ｍ_２＝｛ｍ21，ｍ22，ｍ23，・・・ｍ2N｝・・・が与えられたもとで、各時刻の画像特徴量Ｘ1、Ｘ2、・・・Ｘｓに対するマルチビューモデルＭｖ＝｛Ｍ_１，Ｍ_２，Ｍ_３，・・・Ｍ_Ｌ｝およびビュー変換Ｔ＝｛Ｔ1、Ｔ2、・・・Ｔ100｝の事後確率を求めることに相当する。すなわち、画像特徴量Ｘｓが抽出（観測）された場合、ビューモデルがＭｖである確率として式（１１）、および、画像特徴量Ｘｓが抽出（観測）された場合、ビュー変換がＴｋである確率Ｐ（Ｔｋ│Ｘｓ）として式（１２）により求めることができる。
【０１４８】
【数１１】

・・・（１１）
【０１４９】
【数１２】

・・・（１２）
【０１５０】
式（１１）におけるＰ（Ｘｓ│Ｍｖ）はビューモデルに係る尤度であり、図４の前景背景合成観測部２０３により算出された式（９）による評価値に基づいてビュー及び変換推定部２１５が算出する。すなわち、式（９）により算出された評価値において、ビューモデルＭｖを１つ抽出して、そのビューモデルＭｖにおける各ビュー変換についての評価値の総和を演算することにより、それぞれのビューモデルに係る尤度が得られる。式（１１）におけるＰ_Ｍｖは、ビューモデルＭｖが推定される確率であり、図４のビュー遷移推定部２１７により算出される。そして、ビュー及び変換推定部２１５が最終的に式（１１）を演算する。
【０１５１】
式（１２）におけるＰ（Ｘｓ│Ｔｋ）はビュー変換に係る尤度であり、図４の前景背景合成観測部２０３により算出された式（９）による評価値に基づいてビュー及び変換推定部２１５が算出する。すなわち、式（９）により算出された評価値において、ビュー変換Ｔｋを１つ抽出して、そのビュー変換Ｔｋにおける各ビューモデルについての評価値の総和を演算することにより、それぞれのビュー変換に係る尤度が得られる。式（１２）におけるＰ_Ｔｋは、ビュー変換Ｔｋが出力される確率であり、図４のビュー変換運動推定部２１６により算出される。そして、ビュー及び変換推定部２１５が最終的に式（１２）を演算する。
【０１５２】
一方、ＥＭアルゴリズムのＭステップでは、各時刻の各ビューモデルの事後確率Ｐ（Ｍｖ│Ｘｓ）、および各時刻の各ビュー変換の事後確率Ｐ（Ｔｋ│Ｘｓ）が与えられたもとで、ビューモデルパラメータが算出される。Ｍｖ＝｛ｍv1，ｍv2，ｍv3，・・・ｍvN｝は、式（１３）により算出することができる。
【０１５３】
【数１３】

・・・（１３）
【０１５４】
式（１３）の演算は、図４のマルチビューモデル・ビュー遷移学習部２１１により行われる。式（１３）により求められたビューモデルパラメータ｛ｍv1，ｍv2，ｍv3，・・・ｍvN｝に基づいて、既にマルチビューモデルパラメータ２１２に記憶されている各ビューモデルのビューモデルパラメータが更新されていく。なお、式（１３）においては、全部でＮＴ個のビュー変換が存在することを前提としている。
【０１５５】
つまり、ビュー及び変換推定部２１５がＮＴ個のビュー変換のそれぞれの事後確率を都度計算し、これがビュー変換運動推定部２１６に記憶される。また、ビュー及び変換推定部２１５がＬ個のビューモデル（ビュー遷移の結果）のそれぞれの事後確率を都度計算し、これがビュー遷移推定部２１７に記憶される。そして、ビュー及び変換推定部２１５が、ビュー変換運動推定部２１６から出力される事後確率に基づいてビュー変換を推定するとともに、ビュー遷移推定部２１７から出力される事後確率に基づいてビュー遷移を推定し、推定前景ビューが生成され、さらに合成ビューモデルが構成される。
【０１５６】
そして、合成ビューモデルのビューモデルパラメータと、実際に入力された画像から抽出された画像特徴量とが比較され、前景背景合成観測部２０３により評価値が算出される。ここで算出された評価値に基づいて、ビュー及び変換推定部２１５が各ビュー変換のそれぞれの事後確率を計算するとともに、各ビューモデルのそれぞれの事後確率を計算する。さらに、マルチビューモデル・ビュー遷移学習部２１１が、ビューモデルパラメータをそれらの事後確率によって重み付けして更新していくのである。
【０１５７】
なお、式（１３）による演算により、例えば、マルチビューモデルを構成するＬ個のビューモデルのうち、１つのビューモデルのビューモデルパラメータが求められることになる。従って、マルチビューモデルを構成するビューモデルの数だけ、式（１３）の演算が行われる。
【０１５８】
このようにして、ビューモデルパラメータが学習されるのである。
【０１５９】
また、上述したように、マルチビューモデル・ビュー遷移学習部２１１は、ビュー遷移モデルも学習する。例えば、式（１１）におけるＰ（Ｍｖ│Ｘｓ）に基づいて、ビュー遷移モデルのパラメータが演算されて学習される。
【０１６０】
上記においては、図４のマルチビューモデル・ビュー遷移学習部２１１における学習について説明したが、図４のマルチビューモデル・ビュー遷移学習部２２１における学習も同様に行われる。
【０１６１】
次に、図５のフローチャートを参照して、図３のビューモデル学習装置１００によるビューモデル学習処理の例について説明する。
【０１６２】
ステップＳ２１において、画像系列入力部１０１は、動画の入力を受け付ける。これにより、各時刻に対応づけられたフレームの画像が入力画像系列として、画像特徴量抽出部１０２に供給される。
【０１６３】
ステップＳ２２において、画像特徴量抽出部１０２は、ステップＳ２１の処理に伴って入力された入力画像系列を構成する各時刻の画像から画像特徴量を抽出する。
【０１６４】
ステップＳ２３において、前景推定学習部１０４は、図６のフローチャートを参照して後述する前景推定処理を実行する。これにより、前景のビューモデルに対して複数のビュー変換が施された推定前景ビューが出力される。
【０１６５】
ステップＳ２４において、背景推定学習部１０５は、図７のフローチャートを参照して後述する背景推定処理を実行する。これにより、背景のビューモデルに対して複数のビュー変換が施された推定背景ビューが出力される。
【０１６６】
ステップＳ２５において、前景背景合成観測部１０３は、図８のフローチャートを参照して後述する合成観測処理を実行する。これにより、ステップＳ２３の処理で出力された推定前景ビューとステップＳ２４の処理で出力された推定背景ビューを合成して合成ビューモデルが生成され、ステップＳ２２の処理で抽出された画像特徴量に対する合成ビューモデルの評価値が算出される。
【０１６７】
なお、実際には、ステップＳ２３乃至ステップＳ２５の処理が動画の長さの分だけ繰り返し実行されたあと、処理がステップＳ２６に進むことになる。
【０１６８】
ステップＳ２６において、前景推定学習部１０４は、図９のフローチャートを参照して後述する前景学習処理を実行する。これにより、ステップＳ２５の処理に伴って得られた評価値に基づいて前景のビューモデルパラメータが更新される。
【０１６９】
ステップＳ２７において、背景推定学習部１０５は、図１０のフローチャートを参照して後述する背景学習処理を実行する。これにより、ステップＳ２５の処理に伴って得られた評価値に基づいて背景のビューモデルパラメータが更新される。
【０１７０】
なお、実際には、例えば、所定の回数、または式（６）に示される対数尤度の変化量が所定の閾値以下となるまで、ステップＳ２３乃至ステップＳ２７の処理が繰り返し実行されることになる。
【０１７１】
このようにしてビューモデル学習処理が実行される。
【０１７２】
次に、図６のフローチャートを参照して、図５のステップＳ２３の前景推定処理の詳細な例について説明する。
【０１７３】
ステップＳ４１において、ビュー変換運動推定部１１５は、時刻ｓ-1におけるビュー変換Ｔｓ-1から時刻ｓにおけるビュー変換Ｔ´ｓを推定する。通常、前景の運動には規則性もしくは連続性があると仮定できるので、変換のダイナミクスについて、例えば、パーティクルフィルタなどのダイナミクス推定モデルが用いられ、運動が推定される。
【０１７４】
ステップＳ４２において、ビュー変換推定部１１４は、ステップＳ４１のビュー変換運動推定部１１５による推定結果に基づいて、時刻ｓにおける適切なビュー変換Ｔｓを推定する。この際、ビュー変換推定部１１４は、適切なビュー変換の候補を複数出力するものとされ、例えば、異なる１００個のパラメータを持つアフィン変換がビュー変換の候補として出力される。具体的には、前景のビューモデルを並進移動される変換、拡大縮小させる変換、回転させる変換、これらの変換の組み合わせを総称したアフィン変換、もしくは投影変換が出力される。
【０１７５】
ステップＳ４３において、ビュー変換推定部１１４は、前景のビューモデルに対して、ステップＳ４２の処理で推定された複数のビュー変換を施す。このとき、ビューモデルパラメータ１１２から前景のビューモデルのパラメータが読み出され、ビュー変換が施される。
【０１７６】
ステップＳ４４において、ビュー変換推定部１１４は、ステップＳ４３の処理の結果得られた推定前景ビューを出力する。ここでは、ビュー変換の各候補に対応する複数の推定前景ビューがそれぞれ出力される。
【０１７７】
このようにして、前景推定処理が実行される。
【０１７８】
次に、図７のフローチャートを参照して、図５のステップＳ２４の背景推定処理の詳細な例について説明する。
【０１７９】
ステップＳ６１において、ビュー変換運動推定部１２５は、時刻ｓ-1におけるビュー変換Ｔｓ-1から時刻ｓにおけるビュー変換Ｔ´ｓを推定する。通常、背景の運動には規則的な連続性があると仮定できるので、変換のダイナミクスについて、例えば、パーティクルフィルタなどのダイナミクス推定モデルが用いられ、運動が推定される。
【０１８０】
ステップＳ６２において、ビュー変換推定部１２４は、ステップＳ６１のビュー変換運動推定部１２５による推定結果に基づいて、時刻ｓにおける適切なビュー変換Ｔｓを推定する。この際、ビュー変換推定部１２４は、適切なビュー変換の候補を複数出力するものとされ、例えば、異なる１００個のパラメータを持つアフィン変換がビュー変換の候補として出力される。具体的には、例えば、前景の画像を並進移動させるアフィン変換、拡大縮小させるアフィン変換、回転させるアフィン変換、射影するアフィン変換などのパターンのアフィン変換が出力される。
【０１８１】
ステップＳ６３において、ビュー変換推定部１２４は、背景のビューモデルに対して、ステップＳ６２の処理で推定された複数のビュー変換を施す。このとき、ビューモデルパラメータ１２２から背景のビューモデルのパラメータが読み出され、ビュー変換が施される。
【０１８２】
ステップＳ６４において、ビュー変換推定部１２４は、ステップＳ６３の処理の結果得られた推定背景ビューを出力する。ここでは、ビュー変換の各候補に対応する複数の推定背景ビューがそれぞれ出力される。
【０１８３】
あるいはまた、背景推定処理の場合、ステップＳ６２において、ビュー変換の候補が１つだけ出力され、ステップＳ６４において１つの推定背景ビューが出力されるようにしてもよい。例えば、前景を構成する物体が移動などする場合、前景と比較して、背景の動きが十分に小さいと考えられるからである。
【０１８４】
このようにして、背景推定処理が実行される。
【０１８５】
次に、図８のフローチャートを参照して、図５のステップＳ２５の合成観測処理の詳細な例について説明する。
【０１８６】
ステップＳ８１において、前景背景合成観測部１０３は、前景背景の合成ビューモデルを構成する。
【０１８７】
このとき、前景背景合成観測部１０３は、図６のステップＳ４４の処理で出力された推定前景ビューと、図７のステップＳ６４の処理で出力された推定背景ビューを合成する。さらに、前景背景合成観測部１０３は、図５のステップＳ２２の処理で抽出された画像特徴量のパラメータと、合成ビューモデルのパラメータとの対応関係を決定する。
【０１８８】
ステップＳ８２において、前景背景合成観測部１０３は、ステップＳ２２の処理で抽出された画像特徴量に対する、ステップＳ８１の処理で構成された合成ビューモデルの評価値を算出する。
【０１８９】
このようにして合成観測処理が実行される。
【０１９０】
次に、図９のフローチャートを参照して、図５のステップＳ２６の前景学習処理の詳細な例について説明する。
【０１９１】
ステップＳ１０１において、ビュー変換推定部１１４およびビューモデル学習部１１１は、図８のステップＳ８２の処理で算出された評価値であって、各時刻における合成ビューモデルの評価値をそれぞれ取得する。このとき、尤度Ｐ（Ｘｓ│Ｔｋ）が、各時刻に対応づけられて評価値として取得される。
【０１９２】
ステップＳ１０２において、ビュー変換推定部１１４は、各ビュー変換の事後確率を求める。このとき、事後確率は、画像特徴量Ｘｓが抽出（観測）された場合、ビュー変換がＴｋである確率Ｐ（Ｔｋ│Ｘｓ）として上述した式（７）により求められる。
【０１９３】
なお、式（７）におけるＰ_Ｔｋは、ビュー変換Ｔｋが出力される確率であり、ビュー変換運動推定部１１５により、各ビュー変換に対応付けられて算出され、ビュー変換推定部１１４に供給されるものとする。
【０１９４】
ステップＳ１０３において、ビューモデル学習部１１１は、ビューモデルパラメータを算出する。すなわち、ステップＳ１０２の処理で得られた各時刻の各ビュー変換の事後確率Ｐ（Ｔｋ│Ｘｓ）が与えられたもとで、ビューモデルパラメータが上述した式（８）により算出される。
【０１９５】
ステップＳ１０４において、ビューモデル学習部１１１は、ステップＳ１０３の処理により得られたビューモデルパラメータに基づいて、ビューモデルパラメータ１１２を更新する。
【０１９６】
このようにして前景学習処理が実行される。
【０１９７】
次に、図１０のフローチャートを参照して、図５のステップＳ２７の背景学習処理の詳細な例について説明する。
【０１９８】
ステップＳ１２１において、ビュー変換推定部１２４およびビューモデル学習部１２１は、図８のステップＳ８２の処理で算出された評価値であって、各時刻における合成ビューモデルの評価値をそれぞれ取得する。このとき、尤度Ｐ（Ｘｓ│Ｔｋ）が、各時刻に対応づけられて評価値として取得される。
【０１９９】
ステップＳ１２２において、ビュー変換推定部１２４は、各ビュー変換の事後確率を求める。このとき、事後確率は、画像特徴量Ｘｓが抽出（観測）された場合、ビュー変換がＴｋである確率Ｐ（Ｔｋ│Ｘｓ）として上述した式（７）により求められる。
【０２００】
なお、式（７）におけるＰ_Ｔｋは、ビュー変換Ｔｋが出力される確率であり、ビュー変換運動推定部１２５により、各ビュー変換に対応付けられて算出され、ビュー変換推定部１２４に供給されるものとする。
【０２０１】
ステップＳ１２３において、ビューモデル学習部１２１は、ビューモデルパラメータを算出する。すなわち、ステップＳ１２２の処理で得られた各時刻の各ビュー変換の事後確率Ｐ（Ｔｋ│Ｘｓ）が与えられたもとで、ビューモデルパラメータが上述した式（８）により算出される。
【０２０２】
ステップＳ１２４において、ビューモデル学習部１２１は、ステップＳ１２３の処理により得られたビューモデルパラメータに基づいて、ビューモデルパラメータ１２２を更新する。
【０２０３】
このようにして背景学習処理が実行される。
【０２０４】
次に、図１１のフローチャートを参照して、図４のビューモデル学習装置２００によるビューモデル学習処理の例について説明する。
【０２０５】
ステップＳ１５１において、画像系列入力部２０１は、動画の入力を受け付ける。これにより、各時刻に対応づけられた画像が入力画像系列として、画像特徴量抽出部２０２に供給される。
【０２０６】
ステップＳ１５２において、画像特徴量抽出部２０２は、ステップＳ１５１の処理に伴って入力された入力画像系列を構成する各時刻の画像から画像特徴量を抽出する。
【０２０７】
ステップＳ１５３において、前景推定学習部２０４は、図１２のフローチャートを参照して後述する前景推定処理を実行する。これにより、例えば、前景のマルチビューモデルを構成するビューモデルのうちの適切なビューモデルおよび複数あるビュー変換のうちの適切なビュー変換の組み合わせの候補が複数出力される。例えば、ビューモデルＶＭ１とビュー変換Ｔ１の組み合わせ、ビューモデルＶＭ２とビュー変換Ｔ２の組み合わせ、・・・のような候補が出力される。これらの組み合わせにより得られる推定前景ビューがそれぞれ出力される。
【０２０８】
ステップＳ１５４において、背景推定学習部２０５は、図１３のフローチャートを参照して後述する背景推定処理を実行する。これにより、例えば、背景のマルチビューモデルを構成するビューモデルのうちの適切なビューモデルおよび複数あるビュー変換のうちの適切なビュー変換の組み合わせの候補が複数出力される。これらの組み合わせにより得られる推定背景ビューがそれぞれ出力される。
【０２０９】
ステップＳ１５５において、前景背景合成観測部２０３は、図１４のフローチャートを参照して後述する合成観測処理を実行する。これにより、ステップＳ１５３の処理で出力された推定前景ビューとステップＳ１５４の処理で出力された推定背景ビューを合成して合成ビューモデルが生成され、ステップＳ１５２の処理で抽出された画像特徴量に対する合成ビューモデルの評価値が算出される。
【０２１０】
なお、実際には、ステップＳ１５３乃至ステップＳ１５５の処理が動画の長さの分だけ繰り返し実行されたあと、処理がステップＳ１５６に進むことになる。
【０２１１】
ステップＳ１５６において、前景推定学習部２０４は、図１５のフローチャートを参照して後述する前景学習処理を実行する。これにより、ステップＳ１５５の処理に伴って得られた評価値に基づいて前景のビューモデルパラメータが更新される。
【０２１２】
ステップＳ１５７において、背景推定学習部２０５は、図１６のフローチャートを参照して後述する背景学習処理を実行する。これにより、ステップＳ１５５の処理に伴って得られた評価値に基づいて背景のビューモデルパラメータが更新される。
【０２１３】
なお、実際には、例えば、所定の回数、または式（１０）に示される対数尤度の変化量が所定の閾値以下となるまで、ステップＳ２３乃至ステップＳ２７の処理が繰り返し実行されることになる。
【０２１４】
このようにしてビューモデル学習処理が実行される。
【０２１５】
次に、図１２のフローチャートを参照して、図１１のステップＳ１５３の前景推定処理の詳細な例について説明する。
【０２１６】
ステップＳ１７１において、ビュー遷移推定部２１７は、時刻ｓ−１のビューモデルＭ_{ｖ，ｓ−１}から時刻ｓのビューモデルＭ´_ｖ，ｓを推定する。ここで、学習の対象となる前景には三次元の構造があると仮定できるため、例えば、ＨＭＭなどの確率的生成モデルが用いられて、ビューモデルの遷移が推定される。
【０２１７】
ステップＳ１７２において、ビュー及び変換推定部２１５は、ステップＳ１７１のビュー遷移推定部２１７の推定結果に基づいて、ビューモデルの候補を推定する。この際、ビュー及び変換推定部２１５は、適切なビューモデルの候補を複数出力するものとされる。
【０２１８】
ステップＳ１７３において、ビュー変換運動推定部２１６は、時刻ｓ-1におけるビュー変換Ｔｓ-1から時刻ｓにおけるビュー変換Ｔ´ｓを推定する。通常、前景の運動には規則的な連続性があると仮定できるので、変換のダイナミクスについて、例えば、パーティクルフィルタなどのダイナミクス推定モデルが用いられ、運動が推定される。
【０２１９】
ステップＳ１７４において、ビュー及び変換推定部２１５は、ステップＳ１７２のビュー変換運動推定部２１６による推定結果に基づいて、時刻ｓにおける適切なビュー変換Ｔｓを推定する。この際、ビュー及び変換推定部２１５は、適切なビュー変換の候補を複数出力するものとされ、例えば、複数個のパターンのアフィン変換がビュー変換の候補として出力される。具体的には、例えば、前景の画像を並進移動させるアフィン変換、拡大縮小させるアフィン変換、回転させるアフィン変換、射影するアフィン変換などのパターンのアフィン変換が出力される。
【０２２０】
ステップＳ１７５において、ビュー及び変換推定部２１５は、ステップＳ１７２の処理で出力されたビューモデルのそれぞれに対してステップＳ１７４の処理で出力されたビュー変換を施す。このとき、マルチビューモデルパラメータ２１２から、推定された各ビューモデルのパラメータが読み出され、ビュー変換が施される。
【０２２１】
この際、例えば、ビューモデルとビュー変換の組み合わせについて、予め定められた個数の組み合わせが選定されてビュー変換が施される。例えば、ビューモデルＶＭ１とビュー変換Ｔ１の組み合わせ、ビューモデルＶＭ２とビュー変換Ｔ２の組み合わせ、・・・のようなビューモデルとビュー変換の組み合わせが１００通り選定され、それぞれの組み合わせにおいてビュー変換が施される。
【０２２２】
ステップＳ１７６において、ビュー及び変換推定部２１５は、ステップＳ１７５の処理の結果得られた推定前景ビューを出力する。ここでは、ビューモデルとビュー変換の組み合わせに対応する複数の推定前景ビューがそれぞれ出力される。
【０２２３】
このようにして、前景推定処理が実行される。
【０２２４】
次に、図１３のフローチャートを参照して、図１１のステップＳ１５４の背景推定処理の詳細な例について説明する。
【０２２５】
ステップＳ１９１において、ビュー遷移推定部２２７は、時刻ｓ−１のビューモデルＭ_{ｖ，ｓ−１}から時刻ｓのビューモデルＭ´_ｖ，ｓを推定する。ここで、学習の対象となる背景には三次元の構造があると仮定できるため、例えば、ＨＭＭなどのダイナミクス学習推定モデルが用いられて、ビューモデルの遷移が推定される。
【０２２６】
ステップＳ１９２において、ビュー及び変換推定部２２５は、ステップＳ１９１のビュー遷移推定部２２７の推定結果に基づいて、ビューモデルの候補を推定する。この際、ビュー及び変換推定部２２５は、適切なビューモデルの候補を複数出力するものとされる。
【０２２７】
ステップＳ１９３において、ビュー変換運動推定部２２６は、時刻ｓ-1におけるビュー変換Ｔｓ-1から時刻ｓにおけるビュー変換Ｔ´ｓを推定する。通常、背景の運動には規則性もしくは連続性があると仮定できるので、変換のダイナミクスについて、例えば、パーティクルフィルタなどのダイナミクス推定モデルが用いられ、運動が推定される。
【０２２８】
ステップＳ１９４において、ビュー及び変換推定部２２５は、ステップＳ１９２のビュー変換運動推定部２２６による推定結果に基づいて、時刻ｓにおける適切なビュー変換Ｔｓを推定する。この際、ビュー及び変換推定部２２５は、適切なビュー変換の候補を複数出力するものとされ、例えば、異なる１００個のパラメータを持つアフィン変換がビュー変換の候補として出力される。具体的には、背景のビューモデルを並進移動される変換、拡大縮小させる変換、回転させる変換、これらの変換の組み合わせを総称したアフィン変換、もしくは投影変換が出力される。
【０２２９】
ステップＳ１９５において、ビュー及び変換推定部２２５は、ステップＳ１９２の処理で出力されたビューモデルのそれぞれに対してステップＳ１９４の処理で出力されたビュー変換を施す。このとき、マルチビューモデルパラメータ２２２から、推定された各ビューモデルのパラメータが読み出され、ビュー変換が施される。
【０２３０】
この際、例えば、ビューモデルとビュー変換の組み合わせについて、予め定められた個数の組み合わせが選定されてビュー変換が施される。例えば、ビューモデルとビュー変換の組み合わせが１００通り選定され、それぞれの組み合わせにおいてビュー変換が施される。
【０２３１】
ステップＳ１９６において、ビュー及び変換推定部２２５は、ステップＳ１９５の処理の結果得られた推定背景ビューを出力する。ここでは、ビューモデルとビュー変換の組み合わせに対応する複数の推定背景ビューがそれぞれ出力される。
【０２３２】
あるいはまた、背景推定処理の場合、ステップＳ１９２においてビューモデルの候補が１つだけ出力され、ステップＳ１９４においてビュー変換の候補が１つだけ出力され、ステップＳ１９６において１つの推定背景ビューが出力されるようにしてもよい。例えば、前景を構成する物体が移動などする場合、前景と比較して、背景の動きが十分に小さいと考えられるからである。
【０２３３】
このようにして、背景推定処理が実行される。
【０２３４】
次に、図１４のフローチャートを参照して、図１１のステップＳ１５５の合成観測処理の詳細な例について説明する。
【０２３５】
ステップＳ２１１において、前景背景合成観測部２０３は、前景背景の合成ビューモデルを構成する。
【０２３６】
このとき、前景背景合成観測部２０３は、図１２のステップＳ１７６の処理で出力された推定前景ビューと、図１３のステップＳ１９６の処理で出力された推定背景ビューを合成する。さらに、前景背景合成観測部２０３は、図５のステップＳ１５２の処理で抽出された画像特徴量のパラメータと、合成ビューモデルのパラメータとの対応関係を決定する。
【０２３７】
ステップＳ２１２において、前景背景合成観測部２０３は、ステップＳ１５２の処理で抽出された画像特徴量に対する、ステップＳ２１１の処理で構成された合成ビューモデルの評価値を算出する。このとき、上述した式（９）による演算が行われて、評価値が算出される。
【０２３８】
このようにして合成観測処理が実行される。
【０２３９】
次に、図１５のフローチャートを参照して、図１１のステップＳ１５６の前景学習処理の詳細な例について説明する。
【０２４０】
ステップＳ２３１において、ビュー及び変換推定部２１５およびマルチビューモデル・ビュー遷移学習部２１１は、図１４のステップＳ２１２の処理で算出された評価値であって、各時刻における合成ビューモデルの評価値をそれぞれ取得する。
【０２４１】
ステップＳ２３２において、ビュー及び変換推定部２１５は、ステップＳ２３１で取得した評価値に基づいてビューモデルに係る尤度を算出する。このとき、尤度Ｐ（Ｘｓ│Ｍｖ）が、各時刻に対応づけられて算出される。
【０２４２】
ステップＳ２３３において、ビュー及び変換推定部２１５は、ステップＳ２３１で取得した評価値に基づいてビュー変換に係る尤度を算出する。このとき、尤度Ｐ（Ｘｓ│Ｔｋ）が、各時刻に対応づけられて算出される。
【０２４３】
ステップＳ２３４において、ビュー及び変換推定部２１５は、各ビューモデルの事後確率を求める。このとき、事後確率は、画像特徴量Ｘｓが抽出（観測）された場合、ビューモデルがＭｖである確率Ｐ（Ｍｖ│Ｘｓ）として上述した式（１１）により求められる。
【０２４４】
ステップＳ２３５において、ビュー及び変換推定部２１５は、各ビュー変換の事後確率を求める。このとき、事後確率は、画像特徴量Ｘｓが抽出（観測）された場合、ビュー変換がＴｋである確率Ｐ（Ｔｋ│Ｘｓ）として上述した式（１２）により求められる。
【０２４５】
なお、式（１１）におけるＰ_Ｍｖは、ビューモデルＭｖが出力される確率であり、ビュー遷移推定部２１７により、各ビューモデルに対応付けられて算出され、ビュー及び変換推定部２１５に供給されるものとする。式（１２）におけるＰ_Ｔｋは、ビュー変換Ｔｋが出力される確率であり、ビュー変換運動推定部２１６により、各ビュー変換に対応付けられて算出され、ビュー及び変換推定部２１５に供給されるものとする。
【０２４６】
ステップＳ２３６において、マルチビュー・ビュー遷移学習部２１１は、ビューモデルパラメータを算出する。すなわち、ステップＳ２３４の処理で得られた各時刻の各ビューモデルの事後確率Ｐ（Ｍｖ│Ｘｓ）、および、ステップＳ２３５の処理で得られた各ビュー変換の事後確率Ｐ（Ｔｋ│Ｘｓ）が与えられたもとで、ビューモデルパラメータが上述した式（１３）により算出される。
【０２４７】
ステップＳ２３７において、マルチビューモデル・ビュー遷移学習部２１１は、ステップＳ２３６の処理により得られたビューモデルパラメータに基づいて、マルチビューモデルパラメータ２１２を更新する。
【０２４８】
このようにして前景学習処理が実行される。
【０２４９】
次に、図１６のフローチャートを参照して、図１１のステップＳ１５７の背景学習処理の詳細な例について説明する。
【０２５０】
ステップＳ２５１において、ビュー及び変換推定部２２５およびマルチビューモデル・ビュー遷移学習部２２１は、図１４のステップＳ２１２の処理で算出された評価値であって、各時刻における合成ビューモデルの評価値をそれぞれ取得する。
【０２５１】
ステップＳ２５２において、ビュー及び変換推定部２２５は、ステップＳ２５１で取得した評価値に基づいてビューモデルに係る尤度を算出する。このとき、尤度Ｐ（Ｘｓ│Ｍｖ）が、各時刻に対応づけられて算出される。
【０２５２】
ステップＳ２５３において、ビュー及び変換推定部２２５は、ステップＳ２５１で取得した評価値に基づいてビュー変換に係る尤度を算出する。このとき、尤度Ｐ（Ｘｓ│Ｔｋ）が、各時刻に対応づけられて算出される。
【０２５３】
ステップＳ２５４において、ビュー及び変換推定部２２５は、各ビューモデルの事後確率を求める。このとき、事後確率は、画像特徴量Ｘｓが抽出（観測）された場合、ビューモデルがＭｖである確率Ｐ（Ｍｖ│Ｘｓ）として上述した式（１１）により求められる。
【０２５４】
ステップＳ２５５において、ビュー及び変換推定部２２５は、各ビュー変換の事後確率を求める。このとき、事後確率は、画像特徴量Ｘｓが抽出（観測）された場合、ビュー変換がＴｋである確率Ｐ（Ｔｋ│Ｘｓ）として上述した式（１２）により求められる。
【０２５５】
なお、式（１１）におけるＰ_Ｍｖは、ビューモデルＭｖが出力される事前確率であり、ビュー遷移推定部２２７により、各ビューモデルに対応付けられて算出され、ビュー及び変換推定部２２５に供給されるものとする。式（１２）におけるＰ_Ｔｋは、ビュー変換Ｔｋが出力される確率であり、ビュー変換運動推定部２２６により、各ビュー変換に対応付けられて算出され、ビュー及び変換推定部２２５に供給されるものとする。
【０２５６】
ステップＳ２５６において、マルチビュー・ビュー遷移学習部２２１は、ビューモデルパラメータを算出する。すなわち、ステップＳ２５４の処理で得られた各時刻の各ビューモデルの事後確率Ｐ（Ｍｖ│Ｘｓ）、および、ステップＳ２５５の処理で得られた各ビュー変換の事後確率Ｐ（Ｔｋ│Ｘｓ）が与えられたもとで、ビューモデルパラメータが上述した式（１３）により算出される。
【０２５７】
ステップＳ２５７において、マルチビューモデル・ビュー遷移学習部２２１は、ステップＳ２５６の処理により得られたビューモデルパラメータに基づいて、マルチビューモデルパラメータ２２２を更新する。
【０２５８】
このようにして背景学習処理が実行される。
【０２５９】
例えば、従来の学習型画像処理においては、認識器を構成するために認識対象のモデルを学習する際に、学習データとして大量の画像データに対して認識対象のラベルを付した学習が行われていた。
【０２６０】
例えば、顔認識における画像の学習においては、人物の名称および顔の向き、その人物の顔画像が表示されている領域を特定する情報などがラベルとして付される。また、物体認識における画像の学習においては、物体の名称および物体の向き、その物体が表示されている領域を特定する情報などがラベルとして付される。
【０２６１】
このようなラベル付けは、例えば、学習型画像処理における学習の際の処理負荷を増大させ、短時間で学習を完了させることを困難なものとしていた。
【０２６２】
これに対して、本技術を用いれば、大量の画像データに対して認識対象のラベルを付した学習などは不要となり、例えば、単に動画像などを入力するだけで、簡単に学習を完了させることができる。
【０２６３】
また、本技術では、マルチビューモデルを構成する個々のビューモデルについてのビュー遷移推定がＨＭＭなどを用いて確率的に行われるようにモデル化されている。このため、例えば、個々のビュー毎に学習を完了させていくなどの必要がなく、ビュー数が増えても、簡単に学習を完了させることができる。
【０２６４】
さらに、本技術では、画像の中の前景と背景を分解し、それぞれ前景のビューモデルと背景のビューモデルとして学習させるようにしたので、例えば、実際の動画像のように前景と距離が近い背景が含まれる場合でも簡単に学習を完了させることができる。
【０２６５】
従って、本技術によれば、従来の場合と比較してより少ない演算量で学習型画像処理を行うことができる。
【０２６６】
図５乃至図１０を参照して上述した処理においては、前景と背景がそれぞれシングルビューモデルにより表現されるものとし、前景と背景のそれぞれに同様のビュー変換が施されることを前提として説明した。また、図１１乃至図１６を参照して上述した処理においては、前景と背景がそれぞれ同様のマルチビューモデルにより表現されるものとし、前景と背景のそれぞれに同様のビュー変換が施されることを前提として説明した。
【０２６７】
しかしながら、実際には、前景と背景とで、異なるビューモデル、異なるビュー変換が適用されるようにしてもよい。
【０２６８】
例えば、前景はマルチビューモデルにより表現され、背景はシングルビューモデルにより表現されることとしてビューモデルの学習が行われるようにしてもよい。
【０２６９】
あるいはまた、前景のビュー変換運動推定には、ＨＭＭ、ＦＮＮ、ＲＮＮなどのダイナミクス学習推定モデルが用いられ、背景のビュー変換運動推定には、パーティクルフィルタ、カンマンフィルタなどのダイナミクス推定モデルが用いられるようにしてもよい。
【０２７０】
つまり、例えば、図４のビューモデル学習装置２００の背景推定学習部２０５の構成を、図３のビューモデル学習装置１００の背景推定学習部１０５に置き換えるなどの変形例も実現できる。また、例えば、前景推定学習部２０４のビュー変換運動推定部２１６とビュー遷移推定部２１７とが統合された構成とされ、背景推定学習部２０５のビュー遷移推定およびビュー変換運動推定とは異なる方式で推定が行われるなどの変形例を実現可能である。
【０２７１】
このように、本技術によるビューモデルの学習、および、その学習結果を用いた画像の認識には、様々なバリエーションが存在する。この後、前景のビューモデルとビュー変換、および、背景のビューモデルとビュー変換を具体的に設定し、ビューモデルを学習させて画像を認識させる例について説明する。
【０２７２】
すなわち、本技術を適用した画像処理装置による具体的なビューモデルの学習および画像の認識の例として、第１の具体例乃至第３の具体例について説明する。
【０２７３】
［第１の具体例］
第１の具体例においては、図１７に示されるような前景の画像が図１８に示されるような背景の画像の中で移動する動画を入力して学習させ、画像の中のどの部分の領域が前景の画像であるかを認識させる。
【０２７４】
いまの場合、図３のビューモデル学習装置１００により、前景をシングルビューモデルとして学習させ、背景もシングルビューモデルとして学習させ、その後、学習結果であるビューモデルを用いて前景の画像を認識させることにする。
【０２７５】
なお、ビューモデルを学習した後の画像の認識においても、ビューモデルを学習する際に行った場合と同様に、ビュー変換の推定、または、ビュー遷移の推定が行われるが、画像の認識を行う場合、通常、ビュー変換またはビュー遷移の候補が１つのみ出力される。
【０２７６】
図１７に示される前景の画像は、５×５画素の矩形の領域として構成され、各画素が白色または黒色とされた所定のパターンの画像とされている。
【０２７７】
図１８に示される背景の画像は、２０×２０画素の矩形の領域として構成され、各画素が白色または黒色とされた所定のパターンの画像とされている。
【０２７８】
ここでは、画像系列入力部１０１に、次のような動画像が入力されるものとする。すなわち、各時刻の入力画像は背景中の所定の位置に前景を重ねて表示した画像とし、次の時刻における前景の位置を１画素分上下左右のいずれかに確率的に移動させることにより、背景中を前景が移動する入力画像系列とされる。
【０２７９】
従って、第１の具体例では、背景の（またはカメラの）運動はなく、前景が並進運動のみ行うことを仮定する。なお、第１の具体例では、入力画像系列のバイナリパターン（０or１）をグレースケールパターン（０から１の連続値）に変換したものを画像特徴量として用いることにする。また、前景のビューモデルＭ_ＦＧおよび背景のビューモデルＭ_ＢＧも、所定数の画素により構成される矩形の領域であり、各画素の輝度値（画素値）が０から１の連続値で構成されていることとする。
【０２８０】
図１８に示される背景の上に、図１７に示される前景が合成され、図１９に示されるような時系列の画像となってビューモデル学習装置１００に入力される。なお、図１９は、動画として入力される画像の中の３つの時刻の画像を抽出したものとされる。図１９において時刻ｓ＝ｓ１の画像においては、前景の画像は、図中中央下の領域３０１に表示されている。時刻ｓ＝ｓ２の画像においては、前景の画像は、図中中央やや右下の領域３０２に表示されている。時刻ｓ＝ｓ３の画像においては、前景の画像は、図中中央の領域３０３に表示されている。
【０２８１】
画像特徴量抽出部１０２は、上述したように入力画像系列のバイナリパターンをグレースケールパターンに変換したものを画像特徴量として抽出する。画像特徴量抽出部１０２は、例えば、時刻ｓにおいて画像特徴量Ｘｓを抽出する。
【０２８２】
前景背景合成観測部１０３は、前景推定学習部１０４により推定された推定前景ビューを背景推定学習部１０５により推定された推定背景ビューに合成する。推定前景ビューは、前景のビューモデルＭ_ＦＧに、所定のビュー変換Ｔｋを施すことにより得られる。なお、いまの場合、背景に運動はないので、推定背景ビューは、背景のビューモデルＭ_ＢＧをそのまま用いることができる。前景背景合成観測部１０３は、前景背景の合成ビューモデルＭ_{ｋ，ＦＧＢＧ}を構成する。
【０２８３】
前景背景の合成ビューモデルＭ_{ｋ，ＦＧＢＧ}は、式（１４）により求められる。
【０２８４】
【数１４】

・・・（１４）
【０２８５】
式（１４）における＋を円で囲んだ演算子は、次の演算を意味するものとする。すなわち、ビュー変換Ｔｋが施された前景のビューモデルＭ_ＦＧの幾何モデルＴｋＭ_ＦＧ，Ｇと幾何的に対応する背景のビューモデルＭ_ＢＧの特徴点Ｍ´_ＢＧ，Ｇを求める。いまの場合、前景の各画素を重ねる背景の座標位置がそれぞれ特徴点Ｍ´_ＢＧ，Ｇとして求められることになる。さらに、特徴点Ｍ´_ＢＧ，Ｇの特徴量Ｍ´_ＢＧ，Ｆを前景のビューモデルＭ_ＦＧの特徴量モデルＭ_ＦＧ，Ｆによって置き換える。
【０２８６】
つまり、前景の各画素を重ねる背景の座標位置の画素の輝度値のそれぞれが、前景の各画素の輝度値に置き換えられるのである。
【０２８７】
また、上述したように、ここでは前景は並進運動のみを行うものと仮定するので、式（１６）におけるビュー変換Ｔｋは、式（１５）に示されるアフィン変換により表される。
【０２８８】
【数１５】

・・・（１５）
【０２８９】
そして、前景背景合成観測部１０３は、前景背景の合成ビューモデルＭ_{ｋ，ＦＧＢＧ}の尤度Ｐ（Ｘｓ│Ｍ_{ｋ，ＦＧＢＧ}）を評価値として算出する。なお、尤度Ｐ（Ｘｓ│Ｍ_{ｋ，ＦＧＢＧ}）を評価値として算出する。なお、いまの場合、前景背景の合成ビューモデルＭ_{ｋ，ＦＧＢＧ}の尤度は、ビュー変換Ｔｋの尤度Ｐ（Ｘｓ│Ｔｋ）と同義であるから、上述の評価値は、式（１６）により求めることができる。
【０２９０】
【数１６】

・・・（１６）
【０２９１】
式（１６）におけるσとＤは、それぞれ予め定められた所定のパラメータとされる。なお、式（１６）において、Ｃ_{ＦＧＢ,ｓ}が入力画像系列における時刻ｓの画像と合成ビューモデルとの対応関係を表している。すなわち、式（１６）の最右辺の分子は、入力画像系列における時刻ｓの画像の各画素の輝度値と、前景背景の合成ビューモデルにおいて対応する各画素の輝度値の差分自乗値の総和を意味するものとなる。
【０２９２】
式（１６）により求められた尤度に基づいて、ビュー変換推定部１１４によるビュー変換の推定、ビューモデル学習部１１１によるビューモデルの学習などが行われる。
【０２９３】
第１の具体例においては、ビュー変換推定部１１４およびビュー変換運動推定部１１５における推定がＨＭＭアルゴリズムにより行われるものとする。
【０２９４】
上述したように、前景は並進運動のみと仮定するため、背景のビューモデルの中の前景のビューモデルの位置と対応付けたＨＭＭの状態遷移確率テーブルを用意する。いまの場合、状態遷移確率テーブルには、例えば、ビュー変換Ｔaからビュー変換Ｔbに遷移する確率、ビュー変換Ｔaからビュー変換Ｔcに遷移する確率、・・・が記述されることになる。すなわち、複数種類存在するビュー変換（例えば、右に１並進、左に１並進、・・・）のそれぞれがＨＭＭの内部状態ノードとされ、時刻ｓのノードから時刻ｓ＋１のノードに遷移する確率が記述されたテーブルが用意される。
【０２９５】
このとき、状態遷移確率テーブルには、ＨＭＭの内部状態ノードを２次元格子状に配置し、状態間の遷移確率を配置された２次元格子状において近傍となるもの以外の遷移確率をゼロにするような制約を加えることとする。
【０２９６】
例えば、このような状態遷移確率テーブルを、予めビュー変換運動推定部１１５に記憶させておき、ビュー変換推定部１１４と連携して動作することで、後述するようにビュー変換推定が行われるようになされている。
【０２９７】
ＨＭＭを用いたビュー変換の推定は、ある時刻において出力すべきビュー変換の事後確率を算出することで行われる。ある時刻において出力すべきビュー変換の事後確率は、式（１７）により求めることができる。すなわち、各ビュー変換に対応する各状態における観測尤度Ｐ（Ｘｓ│Ｔｋ）と状態間の遷移確率Ｐ（Ｔｋ│Ｔｋ−１）に基づいて算出されることであり、さらにこれはＨＭＭにおけるフォワード状態確率α（Ｔｋ）とバックワード状態確率β（Ｔｋ）とを用いて求めることができる。
【０２９８】
【数１７】

・・・（１７）
【０２９９】
なお、フォワード状態確率は、ＨＭＭの状態確率の計算で通常用いるフォワードアルゴリズムにより式（１８）の通りに求めることができる。また、バックワード状態確率は、ＨＭＭの状態確率の計算で通常用いるバックワードアルゴリズムにより式（１９）の通りに求めることができる。
【０３００】
フォワードアルゴリズムとバックアワードアルゴリズムの詳細については、例えば、‘‘パターン認識と機械学習（下）’’，Ｃ．Ｍ．ビショップ著，P.335（英語原書：‘‘Pattern Recognition and Machine Learning (Information Science and Statistics) ’’，Christopher M. BishopSpringer, New York, 2006.）（以下、文献Ａという）に開示されている。
【０３０１】
【数１８】

・・・（１８）
【０３０２】
【数１９】

・・・（１９）
【０３０３】
すなわち、画像特徴量抽出部１０２により、画像特徴量Ｘｓが抽出された場合、例えば、ビュー変換推定部１１４が複数のビュー変換の候補を推定する。ここで推定されたそれぞれの候補について、ＨＭＭの状態遷移確率テーブルを参照して式（１８）と式（１９）の演算が行われる。これにより、ビュー変換の候補のそれぞれについてのフォワード状態確率α（Ｔｋ）とバックワード状態確率β（Ｔｋ）が得られる。
【０３０４】
ビュー変換運動推定部１１５は、式（１７）の演算を行い、ビュー変換の各候補についての事後確率を計算する。そして、例えば、ビュー変換推定部１１４がビュー変換の候補を出力する場合、出力すべき候補の数だけ、ビュー変換の事後確率に基づいてビュー変換が選択されて出力されることになる。
【０３０５】
このようにして、推定されたビュー変換の候補を用いて、前景のビューモデルに対してビュー変換が施される。
【０３０６】
また、ビューモデルの学習は、次のようにして行われる。
【０３０７】
ビューモデル学習部１１１は、各時刻の画像特徴量Ｘｓにおける前景のビューモデルに施された各ビュー変換Ｔ_ＦＧ，ｋの事後確率Ｐ（Ｔ_ＦＧ，ｋ│Ｘｓ）を取得して、式（２０）に示される演算により、前景のビューモデルＭ_ＦＧのビューモデルパラメータを算出する。
【０３０８】
【数２０】

・・・（２０）
【０３０９】
なお、式（２０）におけるＣ_{Ｘ，ＦＧＢＧ,ｓ}は時刻ｓにおける画像特徴量Ｘｓから前景に対応する画像特徴量を抽出することを意味している。
【０３１０】
また、ビューモデル学習部１２１は、各時刻の画像特徴量Ｘｓにおける前景のビューモデルに施された各ビュー変換Ｔ_ＦＧ，ｋの事後確率Ｐ（Ｔ_ＦＧ，ｋ│Ｘｓ）を取得して、式（２１）に示される演算により、背景のビューモデルＭ_ＦＧのビューモデルパラメータを算出する。
【０３１１】
【数２１】

・・・（２１）
【０３１２】
図２０は、第１の具体例におけるビューモデルの学習、および画像の認識におけるビュー変換推定の仕組みを説明する図である。
【０３１３】
同図に示されるように、前景のビューモデルＭ_ＦＧに対してビュー変換Ｔｋが施され、推定前景ビューとされたものが、背景のビューモデルＭ_ＧＢに合成される。これにより、合成ビューモデルＭ_{ｋ，ＦＧＢＧ}が構成される。
【０３１４】
図２０においては、図中左上側のハッチングされた矩形の図形により前景のビューモデルＭ_ＦＧが示されている。また、図中左下側の白い矩形の図形により背景のビューモデルＭ_ＢＧが示されている。さらに、図中右上側の矩形の図形により合成ビューモデルＭ_{ｋ，ＦＧＢＧ}が示されている。
【０３１５】
なお、上述したように、いまの場合、前景は並進運動のみを行うものと仮定するので、ビュー変換Ｔｋは、式（１５）に示されるアフィン変換により表される。従って、推定前景ビューは、前景のビューモデルＭ_ＦＧを、背景の中のいずれかの位置にそのまま移動させた画像となる。このとき、矩形の前景の左上の頂点の位置を、例えば、矩形の背景の左側の辺からの距離（または画素数）ｕと上側の辺からの距離（または画素数）ｖによって表すことができる。
【０３１６】
この場合、状態遷移確率テーブルは、図２０の右下に示されるようなものとなる。すなわち、状態遷移確率テーブルの水平方向の軸により上述したｖの値が特定され、垂直方向の軸により上述したｕの値が特定され、テーブル内の各ノードが、前景の左上の頂点の位置を、（ｕ，ｖ）に移動（並進）させるビュー変換を意味する。そして、各ノード間の遷移確率が記述されることになる。
【０３１７】
また、上述したように、状態遷移確率テーブルには、ＨＭＭの内部状態ノードを２次元格子状に配置し、状態間の遷移確率を配置された２次元格子状において近傍となるもの以外の遷移確率をゼロにするような制約が加えられる。このようにすることで状態推定の効率を向上させることができる。
【０３１８】
第１の具体例においては、ビュー変換推定にＨＭＭのアルゴリズムを用いるようにしたので、例えば、ビュー変換の候補のそれぞれについてのフォワード状態確率α（Ｔｋ）とバックワード状態確率β（Ｔｋ）を簡単に得ることができる。その結果、式（１７）に示されるビュー変換の各候補についての事後確率の計算を簡単に行うようにすることができ、より効率的にビュー変換推定することが可能となる。なお、ＨＭＭの状態遷移確率は通常のＨＭＭの学習と同様にフォワード状態確率及びバックワード状態確率に基づいて更新する。
【０３１９】
図２１は、第１の具体例における画像の認識結果の例を示す図である。同図は、図１７に示されるような前景の画像が図１８に示されるような背景の画像の中で移動する動画の別の例を示している。図２１は、動画として入力される画像の中の３つの時刻の画像を抽出したものとされる。なお、図２１における前景は、図１９に示される場合とは異なった動きをするものとする。
【０３２０】
図２１に示されるように、時刻ｓ＝ｓ１１、時刻ｓ＝ｓ１２、時刻ｓ＝ｓ１３のいずれの画像においても、図中の枠線で示されるように、前景の画像が認識されている。
【０３２１】
［第２の具体例］
第２の具体例では、図４のビューモデル学習装置２００における背景推定学習部の構成を図３の背景推定学習部１０５と同様のものとしたものを用いる。そして、そのビューモデル学習装置２００により、前景をマルチビューモデルとして学習させ、背景はシングルビューモデルとして学習させ、その後、学習結果であるビューモデルを用いて前景の画像を認識させることにする。
【０３２２】
なお、ビューモデルを学習した後の画像の認識においても、ビューモデルを学習する際に行った場合と同様に、ビュー変換の推定、または、ビュー遷移の推定が行われるが、画像の認識を行う場合、通常、ビュー変換またはビュー遷移の候補が１つのみ出力される。
【０３２３】
また、第２の具体例においては、前景のビュー遷移推定にＨＭＭを用い、前景のビュー変換推定にパーティクルフィルタを用い、背景のビュー変換推定にパーティクルフィルタを用いることにする。
【０３２４】
図２２は、第２の具体例において、入力画像系列として用いられる画像の例を示す図である。同図に示されるように、この入力画像系列は、例えば、カメラをノート型パーソナルコンピュータの周囲の異なる位置に移動させて様々な角度からノート型パーソナルコンピュータを撮影した画像とされている。例えば、ノート型パーソナルコンピュータに向かって左から右へカメラを移動させて動画像を撮影することでこのような時刻ｓ＝ｓ１乃至時刻ｓ＝ｓ６の画像が取得される。
【０３２５】
第２の具体例の場合、ノート型パーソナルコンピュータが前景として学習される。また、ノート型パーソナルコンピュータが設置された机およびノート型パーソナルコンピュータの背後の本などが背景として学習される。
【０３２６】
図２２に示される入力画像系列には、前景のノート型パーソナルコンピュータの様々な角度から見た画像（ビュー）が含まれる。さらに、この入力画像系列の前景は、カメラが移動することによって背景に対して相対的に並進し、また拡大、縮小されるものと仮定する。
【０３２７】
一方、この入力画像系列の背景は、カメラが移動することによって並進するものと仮定する。
【０３２８】
なお、第２の具体例においては、入力画像系列のＲＧＢパターンをグレースケールパターン（０から１の連続値）に変換したものを画像特徴量として用いることにする。
【０３２９】
そうすると、前景のマルチビューモデル_{ＭＦＧ，Ｖ}を構成する各ビューモデル｛Ｍ_ＦＧ，１、Ｍ_ＦＧ，２、・・・Ｍ_ＦＧ，Ｌ｝のビューモデルパラメータは、それぞれ所定の大きさの矩形の領域の各画素の座標値（位置）および輝度値（画素値）として構成される。
【０３３０】
また、背景のビューモデルＭ_ＢＧは、図２２の各時刻の画像において表示されている背景の画像より大きい面積を有する矩形の画像とされ、その各画素の座標値（位置）および輝度値（画素値）がビューモデルパラメータとされる。
【０３３１】
第２の具体例の場合、図２２に示されるような入力画像系列が画像系列入力部２０１に入力される。画像特徴量抽出部２０２は、入力画像系列の各時刻における画像のＲＧＢパターンをグレースケールパターンに変換したものを画像特徴量として抽出する。
【０３３２】
前景背景合成観測部２０３は、前景推定学習部２０４から出力される推定前景ビューと、背景推定学習部１０５から出力される推定背景ビューを合成して合成ビューモデルＭ_ＦＧＢＧを構成する。
【０３３３】
合成ビューモデルＭ_ＦＧＢＧは、式（２２）により求められる。
【０３３４】
【数２２】

・・・（２２）
【０３３５】
式（２２）における＋を円で囲んだ演算子は、次の演算を意味するものとする。すなわち、ビュー変換Ｔ_ＦＧ，ｋが施された前景のマルチビューモデルＭ_ＦＧ，ｖの幾何モデルＴ_ＦＧ，ｋＭ_{ＦＧ，ｖ，Ｇ}と幾何的に対応する特徴点であって、ビュー変換Ｔ_ＢＧ，ｋが施された背景のビューモデルＭ_ＢＧの特徴点Ｍ´_ＢＧ，Ｇを求める。いまの場合、前景の各画素を重ねる背景の座標位置がそれぞれ特徴点Ｍ´_ＢＧ，Ｇとして求められることになる。さらに、特徴点Ｍ´_ＢＧ，Ｇの特徴量Ｍ´_ＢＧ，Ｆを前景のビューモデルＭ_ＦＧ，ｖの特徴量モデルＭ_{ＦＧ，ｖ，Ｆ}によって置き換える。
【０３３６】
つまり、前景の各画素を重ねる背景の座標位置の画素の輝度値のそれぞれが、前景の各画素の輝度値に置き換えられるのである。
【０３３７】
また、上述したように、ここでは前景は並進し、また拡大、縮小されるものと仮定するので、式（２２）におけるビュー変換Ｔ_ＦＧ，ｋは、式（２３）に示されるアフィン変換により表される。
【０３３８】
【数２３】

・・・（２３）
【０３３９】
さらに、上述したように、ここでは背景は並進のみするものと仮定するので、式（２２）におけるビュー変換Ｔ_ＢＧ，ｋは、式（２４）に示されるアフィン変換により表される。
【０３４０】
【数２４】

・・・（２４）
【０３４１】
そして、前景背景合成観測部２０３は、時刻ｓにおける合成ビューモデルＭ_ＦＧＢＧの尤度Ｐ（Ｘｓ│Ｍ_ＦＧＢＧ）を式（２５）と式（２６）により計算する。なお、後述する式（２７）の計算に必要なビュー変換に関する尤度と、式（３０）の計算に必要なビューモデルに関する尤度を、式（２６）の最も右側の項に基づいて算出する（尤度を求める対象以外の変数について周辺化して算出する）。
【０３４２】
【数２５】

・・・（２５）
【０３４３】
【数２６】

・・・（２６）
【０３４４】
なお、式（２６）におけるσとＤは、それぞれ予め定められた所定のパラメータとされる。式（２６）におけるＣ_{ＦＧＢＧ，ｓ}は、入力画像系列の時刻ｓにおける画像と合成ビューモデルＭ_ＦＧＢＧの対応関係を表している。式（２６）により得られた尤度は評価値として用いられる。
【０３４５】
次に、前景のビュー変換推定とビュー遷移推定について説明する。
【０３４６】
ビュー及び変換推定部２１５、およびビュー変換運動推定部２１６は、次のようにしてビュー変換推定を行う。
【０３４７】
並進、拡大、縮小を仮定したビュー変換Ｔ_ＦＧ，ｋの４つのパラメータを状態量とするパーティクルフィルタを用意する。ここで、４つのパラメータは、上述した式（２３）の右辺の行列の中の第１行第１列の要素、第１行第３列の要素、第２行第２列の要素、第２行第３列の要素に該当する。パーティクルフィルタの各パーティクルには、前景のビュー変換を特定する４つのパラメータの組み合わせが対応付けられており、１つのパーティクルを特定することにより１つのビュー変換が特定される。
【０３４８】
なお、パーティクルフィルタは、例えば、画像認識における対象トラッキング等でよく用いられている。パーティクルフィルタの詳細については、例えば、文献ＡのP.364などに開示されている。
【０３４９】
パーティクルフィルタを用いたビュー変換推定は、ある時刻のビュー変換の事後確率を算出し、その事後確率に基づいて、次の時刻のビュー変換の事後確率を算出することにより行われる。
【０３５０】
ある時刻（時刻ｓ）のビュー変換の事後確率は、その時刻にサンプリングされたパーティクルの事後確率ｗ^（ｌ）_ｓによって近似できる。時刻ｓにサンプリングされたパーティクルの事後確率は、時刻ｓにおけるビュー変換に係る尤度に基づいて式（２７）の通りに算出できる。なお、ビュー変換に係る尤度は、上述したように、前景背景合成観測部２０３により算出された評価値に基づいてビュー及び変換推定部２１５が算出する。
【０３５１】
【数２７】

・・・（２７）
【０３５２】
なお、式（２７）では、時刻ｓにおけるビュー変換に係る尤度がＰ（Ｘｓ│Ｔ^（ｌ）_ｓ，ｋ）、または、Ｐ（Ｘｓ│Ｔ^（ｍ）_ｓ，ｋ）により表されている。式（２７）における（ｌ）と（ｍ）は、パーティクルのインデックスを表しており、全部でＭ個のパーティクルが存在するものとする。上述したように、ビュー変換のそれぞれは、各パーティクルに対応づけられるものなので、ビュー変換にパーティクルのインデックスが付されている。
【０３５３】
次の時刻（時刻ｓ＋１）のビュー変換のサンプリングに用いる確率は、式（２７）の計算により得られた時刻ｓにサンプリングされたパーティクルの事後確率にｗ^（ｌ）_ｓと、状態更新規則Ｆ（Ｔ^（ｌ）_ｓ＋１，ｋ│Ｔ_ｓ，ｋ）に基づいて、式（２８）により計算する。
【０３５４】
【数２８】

・・・（２８）
【０３５５】
ここで、状態更新則は、例えば、時刻ｓのビュー変換Ｔ_ｓ，ｋのパラメータの状態量ｘ_ｓに関して式（２９）で与えられる。
【０３５６】
【数２９】

・・・（２９）
【０３５７】
これは、状態量ｘ_ｓが時刻ｓ＋１において状態量ｘ_ｓの分散σの正規分布で表現される近傍にあることを表している。例えば、学習、認識の対象となる前景の運動が緩やかである場合には、この状態更新規則が十分に有効である。一方、学習、認識の対象となる前景の運動がその仮定を外れる場合には、対象の運動を考慮した状態更新則を設計したり、サンプルから状態更新モデルを学習する必要がある。
【０３５８】
このようにして、ビュー変換運動推定部２１６が、時刻ｓ＋１におけるビュー変換の事後確率を、ビュー変換の種類（４つのパラメータの組み合わせ）毎に算出する。そして、例えば、ビュー及び変換推定部２１５がビュー変換の候補を出力する場合、出力すべき候補の数だけ、時刻ｓ＋１におけるビュー変換の事後確率に基づいてビュー変換が選択されて出力されることになる。
【０３５９】
このようにして、推定されたビュー変換の候補を用いて、前景のビューモデルに対してビュー変換が施される。
【０３６０】
なお、ここでは、パーティクルフィルタを前景と背景とで個別に適用することを前提として説明するが、合成ビューモデルを作成する際には、前景のパーティクルおよび背景のパーティクルから、それぞれ確率的に（例えば一様分布確率に基づいて）パーティクルを選択することとする。そして、そのパーティクルが持つビュー変換パラメータの状態量に基づいて、前景背景合成ビューモデルが構成されることとする。
【０３６１】
また、ビュー及び変換推定部２１５、およびビュー遷移推定部２１７は、次のようにしてビュー遷移推定を行う。
【０３６２】
前景のマルチビューモデルの中の複数のビューモデルのそれぞれがＨＭＭの内部状態ノードとされたＨＭＭの状態遷移確率テーブルを用意する。いまの場合、状態遷移確率テーブルには、例えば、ビューモデルＭaからビューモデルＭbに遷移する確率、ビューモデルＭaからビューモデルＭcに遷移する確率、・・・が記述されることになる。
【０３６３】
このとき、状態遷移確率テーブルには、ＨＭＭの内部状態ノードを２次元格子状に配置し、状態間の遷移確率を配置された２次元格子状において近傍となるもの以外の遷移確率をゼロにするような制約を加えることとする。前景は、何らかの３次元構造を持つと仮定でき、その３次元構造から生まれる複数のビュー間の遷移はその３次元構造を覆う２次元平面上で起こると仮定できるからである。さらに、より厳密には球面上に配置する方法も可能である。
【０３６４】
例えば、このような状態遷移確率テーブルを、予めビュー遷移推定部２１７に記憶させておき、ビュー及び変換推定部２１５と連携して動作することで、後述するようにビュー遷移の推定が行われるようになされている。
【０３６５】
ＨＭＭを用いたビューの推定は、ある時刻におけるビューモデルの事後確率を算出することにより行われる。ある時刻におけるビューモデルの事後確率は、各状態における観測尤度Ｐ（Ｘｓ│Ｍ_ＦＧ，ｖ）と状態間の遷移確率Ｐ（Ｍ_ＦＧ，ｖ│Ｍ_ＦＧ，ｖ´）に基づいて算出されるものであり、さらにこれはＨＭＭにおけるフォワード状態確率α（Ｍ_ＦＧ，ｖ）とバックワード状態確率β（Ｍ_ＦＧ，ｖ）とを用いて、式（３０）により求めることができる。
【０３６６】
【数３０】

・・・（３０）
【０３６７】
なお、フォワード状態確率は、ＨＭＭの状態確率の計算で通常用いるフォワードアルゴリズムにより式（３１）の通りに求めることができる。また、バックワード状態確率は、ＨＭＭの状態確率の計算で通常用いるバックワードアルゴリズムにより式（３２）の通りに求めることができる。
【０３６８】
【数３１】

・・・（３１）
【０３６９】
【数３２】

・・・（３２）
【０３７０】
すなわち、画像特徴量抽出部２０２により、時刻ｓにおいて画像特徴量Ｘｓが抽出された場合、例えば、ビュー及び変換推定部２１５が複数のビュー遷移の候補を推定する。ここで推定されたそれぞれの候補について、ＨＭＭの状態遷移確率テーブルを参照して式（３１）と式（３２）の演算が行われる。これにより、ビュー変換の候補のそれぞれについてのフォワード状態確率α（Ｍ_ＦＧ，ｖ）とバックワード状態確率β（Ｍ_ＦＧ，ｖ）が得られる。
【０３７１】
このようにして、ビュー遷移推定部２１７が、次の時刻において遷移すべきビューモデルの事後確率を、ビューモデル毎に算出する。そして、例えば、ビュー及び変換推定部２１５がビュー遷移の候補を出力する場合、出力すべき候補の数だけ、次の時刻において遷移すべきビューモデルの事後確率に基づいてビューモデルが選択されて出力されることになる。
【０３７２】
このようにして、ビュー遷移推定されて出力された前景のビューモデルに対して、上述のように推定されたビュー変換の候補を用いたビュー変換が施される。
【０３７３】
次に、背景のビュー変換について説明する。
【０３７４】
ビュー変換推定部１２４、およびビュー変換運動推定部１２５は、次のようにしてビュー変換推定を行う。
【０３７５】
並進を仮定したビュー変換Ｔ_ＢＧ，ｋの２つのパラメータを状態量とするパーティクルフィルタを用意する。ここで、２つのパラメータは、上述した式（２４）の右辺の行列の中の第１行第３列の要素、第２行第３列の要素に該当する。
【０３７６】
そして、前景のビュー変換において説明した場合と同様に、次の時刻でサンプルすべきパーティクルの事後確率が算出され、その事後確率に基づいて各ビュー変換が候補として出力されることになる。
【０３７７】
このようにして、推定されたビュー変換の候補を用いて、背景のビューモデルに対してビュー変換が施される。
【０３７８】
なお、ここでは、パーティクルフィルタを前景と背景とで個別に適用することを前提として説明するが、合成ビューモデルを作成する際には、前景のパーティクルおよび背景のパーティクルから、それぞれ確率的に（例えば一様分布確率に基づいて）パーティクルを選択することとする。そして、そのパーティクルが持つビュー変換パラメータの状態量に基づいて、前景背景合成ビューモデルが構成されることとする。
【０３７９】
次に、ビューモデルの学習について説明する。
【０３８０】
マルチビューモデル・ビュー遷移学習部２１１は、次のようにして前景のマルチビューモデルを構成する各ビューモデルのビューモデルパラメータを算出する。
【０３８１】
すなわち、マルチビューモデル・ビュー遷移学習部２１１は、上述したようにして求めたビュー変換の事後確率と、ビューモデルの事後確率に基づいて、マルチビューモデルを構成するビューモデルＭ_ＦＧ，ｖのビューモデルパラメータを式（３３）によって演算する。
【０３８２】
【数３３】

・・・（３３）
【０３８３】
なお、式（３３）において、前景のビューモデルに対して施されるビュー変換がＴ_ＦＧ，ｋとして表されており、合計ＮＴ個のビュー変換の種類が存在するものとされている。また、式（３３）による演算により、例えば、マルチビューモデルを構成するＬ個のビューモデルのうち、１つのビューモデルのビューモデルパラメータが求められることになる。従って、マルチビューモデルを構成するビューモデルの数だけ、式（１３）の演算が行われる。
【０３８４】
また、ビューモデル学習部１２１は、次のようにして背景のビューモデルのビューモデルパラメータを算出する。
【０３８５】
すなわち、ビューモデル学習部１２１は、上述したようにして求めたビュー変換の事後確率に基づいて、ビューモデルＭ_ＢＧのビューモデルパラメータを式（３４）によって演算する。
【０３８６】
【数３４】

・・・（３４）
【０３８７】
なお、式（３４）において、背景のビューモデルに対して施されるビュー変換がＴ_ＢＧ，ｋとして表されており、合計ＮＴ個のビュー変換の種類が存在するものとされている。
【０３８８】
図２３は、第２の具体例におけるビューモデルの学習を説明する図である。
【０３８９】
図２３に示されるように、第２の具体例では、前景のマルチビューモデルＭ_ＦＧ，Ｖを構成する所定のビューモデルに対してビュー変換Ｔ_ＦＧ，ｋが施される。これが、推定前景ビューとされる。また、背景のビューモデルＭ_ＢＧに対してビュー変換Ｔ_ＢＧ，ｋが施される。これが推定背景ビューとされる。
【０３９０】
この例では、図中の左上側において、前景のマルチビューモデルが概念的に示されている。すなわち、いまの場合、前景のマルチビューモデルが９個のビューモデルから構成されるものとし、図中の左上側に前景のマルチビューモデルＭ_ＦＧ，Ｖを構成するビューモデルとして９個のビューモデルが、それぞれ矩形の図で示されている。
【０３９１】
また、この例では、背景のビューモデルＭ_ＢＧは、合成ビューモデルＭ_{ＦＧＢＧ，ｋ}において表示されている背景の画像より大きい面積を有する矩形の画像とされている。すなわち、図中の左下側にしめされた大きい矩形により、背景のビューモデルＭ_ＢＧの全体の大きさ（面積）が示されており、小さい矩形により、背景推定ビューとして出力される部分の大きさ（面積）が示されている。
【０３９２】
そして、推定前景ビューと推定背景ビューが合成されて合成ビューモデルＭ_{ＦＧＢＧ，ｋ}が構成される。すなわち、図中の右側において、合成ビューモデルＭ_{ＦＧＢＧ，ｋ}として、白い矩形とハッチングされた矩形が重ねられて表示されている。白い矩形は、図中の左下側に示される背景のビューモデルＭ_ＢＧの中から抽出された領域の画像にビュー変換Ｔ_ＢＧ，ｋが施された背景推定ビューとされる。また、ハッチングされた矩形は、図中の左上側に示される前景のマルチビューモデルＭ_ＦＧの中から選択されたビューモデルに対してビュー変換Ｔ_ＦＧ，ｋが施された推定前景ビューとされる。
【０３９３】
第２の具体例においては、前景と背景のビュー変換推定にパーティクルフィルタを用いるようにしたので、例えば、ビュー変換のパラメータが多い場合においても、ビュー変換の推定を効率的に行うことができる。そして、例えば、式（２８）に示されるようなビュー変換の事後確率の計算を簡単に行うことができる。
【０３９４】
また、第２の具体例においては、前景のビュー遷移推定にＨＭＭのアルゴリズムを用いるようにしたので、例えば、ビュー遷移の候補のそれぞれについてのフォワード状態確率α（Ｔｋ）とバックワード状態確率β（Ｔｋ）を簡単に得ることができる。その結果、式（３０）に示されるビュー遷移の各候補についての事後確率の計算を簡単に行うようにすることができ、より効率的にビュー変換推定することが可能となる。
【０３９５】
さらに、上述したように、状態遷移確率テーブルには、ＨＭＭの内部状態ノードを２次元格子状に配置し、状態間の遷移確率を配置された２次元格子状において近傍となるもの以外の遷移確率をゼロにするような制約が加えられる。このようにすることで状態推定の効率を向上させることができる。
【０３９６】
図２４は、第２の具体例において、図２２に示されるような入力画像系列を入力して、前景のマルチビューモデルおよび背景のビューモデルを学習させて画像を認識させた結果を説明する図である。なお、図２４の右上に示される画像が、学習すべき画像として入力された画像とされる。
【０３９７】
図２４の図中左上側に示されるように、前景のマルチビューモデルとして、ノート型パーソナルコンピュータを、それぞれ異なる角度から見た画像に対応する９個のビューモデルが学習されている。また、図２４の図中左下側に示されるように、背景のビューモデルとして、ノート型パーソナルコンピュータが設置された机およびノート型パーソナルコンピュータの背後の本などの画像に対応するビューモデルが学習されている。
【０３９８】
図２４に示されるようにビューモデルは、実際の画像とは異なり、前景または背景の対象物がぼんやりと表示されている。これは、上述したように、ビューモデルのパラメータである各画素の輝度値が、ビュー変換またはビュー遷移の事後確率に基づいて重み付けされるなどして更新されるためである。
【０３９９】
そして、図２４の図中右下側に示されるように、合成ビューモデルが構成されている。すなわち、前景のマルチビューモデルを構成する所定のビューモデルに対して所定のビュー変換が施された推定前景ビューと、背景のビューモデルに対して所定のビュー変換が施された推定背景ビューとが重ねて表示された合成ビューモデルが構成されている。
【０４００】
図２４においては、入力画像とほぼ同様の合成ビューモデルが構成されており、適切に画像の学習及び認識が行われていることが分かる。
【０４０１】
［第３の具体例］
第３の具体例においては、図３のビューモデル学習装置１００により、前景をシングルビューモデルとして学習させ、背景もシングルビューモデルとして学習させ、その後、学習結果であるビューモデルを用いて前景の画像を認識させることにする。
【０４０２】
なお、ビューモデルを学習した後の画像の認識においても、ビューモデルを学習する際に行った場合と同様に、ビュー変換の推定が行われるが、画像の認識を行う場合、通常、ビュー変換の候補が１つのみ出力される。
【０４０３】
また、第３の具体例においては、ビューモデルとして局所特徴量（ハリスコーナー）を用いることとし、ビュー変換推定にはパーティクルフィルタを用いることとする。
【０４０４】
図２５は、第３の具体例において、入力画像系列として用いられる画像の例を示す図である。同図に示されるように、この入力画像系列は、例えば、机の上の人形（ぬいぐるみ）を、手動で姿勢を固定して前後左右に移動させ、カメラで撮影したものとされる。例えば、人形を徐々に移動させて動画像を撮影することでこのような時刻ｓ＝ｓ１乃至時刻ｓ＝ｓ３の画像が取得される。
【０４０５】
第３の具体例の場合、人形が前景として学習される。また、人形が設置された机、および人形の背後のコーヒーカップ、テーブルタップなどが背景として学習される。
【０４０６】
第３の具体例の場合、図２５に示される入力画像系列の前景の人形は、背景に対して相対的に並進し、拡大、または、縮小されるものと仮定する。
【０４０７】
一方、この入力画像系列の背景は、カメラが移動することによって並進するものと仮定する。
【０４０８】
第３の具体例においては、入力画像系列の各画像のＲＧＢパターンをグレースケールパターン（０から１の連続値）に変換し、ハリスコーナー検出方法により検出された特徴点位置の集合を画像特徴量として用いることとする。図２５に示される時刻ｓ＝ｓ１乃至時刻ｓ＝ｓ３の画像のそれぞれにおいて、人形、机、コーヒーカップ、テーブルタップの各点において十字などの形状で示される点がプロットされている。これらの点がハリスコーナー検出方法により検出された特徴点位置とされる。
【０４０９】
なお、ここでは、ハリスコーナー検出方法により特徴点を検出する例について説明するが、特徴点の検出は他の方式により行われるようにしてもよい。
【０４１０】
従って、第３の具体例の場合、画素の輝度値などを画像特徴量に含める必要はなく、各特徴点の座標位置などによってのみ画像特徴量が構成されることになる。例えば、各時刻における画像特徴量Ｘ1、Ｘ2、・・・ＸｓにおけるＸ1は、時刻１の画像から検出された特徴点の座標位置の集合（ｘ1，ｙ9）、（ｘ18，ｙ31）、・・・の情報によって構成されることになる。また、Ｘ1は、時刻１の画像から検出された特徴点の座標位置の集合（ｘ3，ｙ6）、（ｘ11，ｙ38）、・・・の情報によって構成されることになる。このため、第３の具体例の場合、ビューモデルパラメータは、幾何モデルのみを含むものとすれば足り、特徴量モデルを含む必要はない。
【０４１１】
ハリスコーナー検出方法においては、通常画像のエッジが特徴点として検出される。例えば、前景となる人形の画像の中のエッジとなる点、背景となるコーヒーカップ、テーブルタップの画像の中のエッジとなる点が特徴点として検出される。
【０４１２】
第３の具体例の場合、人形の画像の中の第１番目のエッジ点、第２番目のエッジ点、・・・の各特徴点の集合、および、２次元空間内におけるそれぞれの特徴点についての相対的位置関係を前景のビューモデルとして学習させることになる。また、第３の具体例の場合、コーヒーカップ、テーブルタップの画像の中の第１番目のエッジ点、第２番目のエッジ点、・・・の各特徴点の集合、および、２次元空間内におけるそれぞれの特徴点について相対的位置関係を背景のビューモデルとして学習させることになる。
【０４１３】
なお、特徴点の情報として幾何モデル（座標位置など）の他に、ステアラブルフィルタなどの特徴量モデルを追加するようにしてもよい。
【０４１４】
第３の具体例の場合、図２５に示されるような入力画像系列が画像系列入力部１０１に入力される。画像特徴量抽出部１０２は、入力画像系列の各時刻における画像からハリスコーナー検出方法により特徴点を検出する。
【０４１５】
前景背景合成観測部１０３は、前景推定学習部１０４から出力される推定前景ビューと、背景推定学習部１０５から出力される推定背景ビューを合成して合成ビューモデルＭ_ＦＧＢＧを構成する。
【０４１６】
推定前景ビューは、前景のビューモデルＭ_ＦＧに対してビュー変換Ｔ_ＦＧ，ｋを施して得られるものなので、Ｔ_ＦＧ，ｋＭ_ＦＧと記述することにする。また、推定背景ビューは、背景のビューモデルＭ_ＢＧに対してビュー変換Ｔ_ＢＧ，ｋを施して得られるものなので、Ｔ_ＢＧ，ｋＭ_ＢＧと記述することにする。
【０４１７】
合成ビューモデルＭ_ＦＧＢＧは、式（３５）により求められる。
【０４１８】
【数３５】

・・・（３５）
【０４１９】
式（３５）における＋を円で囲んだ演算子は、２組の特徴点の集合を足し合わせる演算を意味するものとする。すなわち、画像特徴量および合成ビューモデルは、どちらも特徴点の位置の情報によって構成される。従って、合成ビューモデルＭ_ＦＧＢＧは、推定前景ビューＴ_ＦＧ，ｋＭ_ＦＧによって表される特徴点の集合と、推定背景ビューＴ_ＢＧ，ｋＭ_ＢＧによって表される特徴点の集合とを足したものである。
【０４２０】
また、上述したように、ここでは前景は並進し、また拡大、縮小されるものと仮定するので、式（３５）におけるビュー変換Ｔ_ＦＧ，ｋは、式（３６）に示されるアフィン変換により表される。
【０４２１】
【数３６】

・・・（３６）
【０４２２】
さらに、上述したように、ここでは背景は並進のみするものと仮定するので、式（３５）におけるビュー変換Ｔ_ＢＧ，ｋは、式（３７）に示されるアフィン変換により表される。
【０４２３】
【数３７】

・・・（３７）
【０４２４】
そして、前景背景合成観測部１０３は、時刻ｓにおける合成ビューモデルＭ_ＦＧＢＧの尤度Ｐ（Ｘｓ│Ｍ_ＦＧＢＧ）を式（３８）と式（３９）により計算する。
【０４２５】
【数３８】

・・・（３８）
【０４２６】
【数３９】

・・・（３９）
【０４２７】
なお、式（３９）におけるσとＤは、それぞれ予め定められた所定のパラメータとされる。式（３９）におけるＣ_{ＦＧＢＧ，ｓ}は、入力画像系列の時刻ｓにおける画像の特徴点と合成ビューモデルＭ_ＦＧＢＧの特徴点との対応関係を表している。式（３９）により得られた尤度は評価値として用いられる。
【０４２８】
また、この際、入力画像系列の時刻ｓにおける画像の特徴点と合成ビューモデルＭ_ＦＧＢＧの特徴点との対応関係は、例えば、次のようにして定められる。すなわち、対応付けられた特徴点ペア間の距離が集合全体として小さくなるように、組み合わせ最適化アルゴリズムのオークションアルゴリズムにより特徴点ペアが選択される。
【０４２９】
なお、オークションアルゴリズムについては、「組合せ最適化［短編集］、久保幹雄・松井知己著 1999年01月10日 ISBN978-4-254-12617-4 C3341 朝倉書店 3章割当問題」などに詳細に開示されている。
【０４３０】
そして、例えば、上述したように対応付けられた特徴点ペア間の距離に基づく尤度が式（３８）と式（３９）により計算されるのである。
【０４３１】
次に、前景と背景のビュー変換について説明する。
【０４３２】
前景のビュー変換については、ビュー変換推定部１１４、およびビュー変換運動推定部１１５が、次のようにしてビュー変換推定を行う。
【０４３３】
ここでは並進、拡大、縮小を仮定したビュー変換Ｔ_ＦＧ，ｋの４つのパラメータを状態量とするパーティクルフィルタを用意する。ここで、４つのパラメータは、上述した式（３６）の右辺の行列の中の第１行第１列の要素、第１行第３列の要素、第２行第２列の要素、第２行第３列の要素に該当する。パーティクルフィルタの各パーティクルには、前景のビュー変換を特定する４つのパラメータの組み合わせが対応付けられており、１つのパーティクルを特定することにより１つのビュー変換が特定される。
【０４３４】
第２の具体例において説明した通り、パーティクルフィルタを用いたビュー変換推定は、ある時刻のビュー変換の事後確率を算出し、その事後確率に基づいて、次の時刻のビュー変換の事後確率を算出することにより行われる。
【０４３５】
すなわち、ある時刻（時刻ｓ）のビュー変換の事後確率は、その時刻にサンプリングされたパーティクルの事後確率ｗ^（ｌ）_ｓによって近似できる。時刻ｓにサンプリングされたパーティクルの事後確率は、時刻ｓにおけるビュー変換に係る尤度に基づいて算出できる。なお、ビュー変換に係る尤度は、上述したように、前景背景合成観測部１０３により算出された評価値に基づいてビュー変換推定部１１４が算出する。
【０４３６】
次の時刻（時刻ｓ＋１）のビュー変換をサンプリングに用いる確率は、時刻ｓにサンプリングされたパーティクルの事後確率にｗ^（ｌ）_ｓと、状態更新規則Ｆ（Ｔ^（ｌ）_ｓ＋１，ｋ│Ｔ_ｓ，ｋ）に基づいて計算される。
【０４３７】
このようにして、ビュー変換運動推定部１１５が、時刻ｓ＋１におけるビュー変換の事後確率を、ビュー変換の種類（４つのパラメータの組み合わせ）毎に算出する。そして、例えば、ビュー変換推定部１１４がビュー変換の候補を出力する場合、出力すべき候補の数だけ、時刻ｓ＋１におけるビュー変換の事後確率に基づいてビュー変換が選択されて出力されることになる。
【０４３８】
このようにして、推定されたビュー変換の候補を用いて、前景のビューモデルに対してビュー変換が施される。
【０４３９】
背景のビュー変換については、ビュー変換推定部１２４、およびビュー変換運動推定部１２５が、次のようにしてビュー変換推定を行う。
【０４４０】
並進を仮定したビュー変換Ｔ_ＢＧ，ｋの２つのパラメータを状態量とするパーティクルフィルタを用意する。ここで、２つのパラメータは、上述した式（３７）の右辺の行列の中の第１行第３列の要素、第２行第３列の要素に該当する。
【０４４１】
そして、前景のビュー変換において説明した場合と同様に、次の時刻でサンプルすべきパーティクルの事後確率が算出され、その事後確率に基づいて各ビュー変換が候補として出力されることになる。
【０４４２】
このようにして、推定されたビュー変換の候補を用いて、前景のビューモデルに対してビュー変換が施される。
【０４４３】
次に、ビューモデルの学習について説明する。
【０４４４】
ビューモデル学習部１１１は、次のようにして前景のビューモデルのビューモデルパラメータを算出する。
【０４４５】
すなわち、ビューモデル学習部１１１は、上述したようにして求めたビュー変換の事後確率に基づいて、ビューモデルＭ_ＦＧのビューモデルパラメータを式（４０）によって演算する。
【０４４６】
【数４０】

・・・（４０）
【０４４７】
なお、式（４０）において、前景のビューモデルに対して施されるビュー変換がＴ_ＦＧ，ｋとして表されており、合計ＮＴ個のビュー変換の種類が存在するものとされている。
【０４４８】
また、ビューモデル学習部１２１は、次のようにして背景のビューモデルのビューモデルパラメータを算出する。
【０４４９】
すなわち、ビューモデル学習部１２１は、上述したようにして求めたビュー変換の事後確率に基づいて、ビューモデルＭ_ＢＧのビューモデルパラメータを式（４１）によって演算する。
【０４５０】
【数４１】

・・・（４１）
【０４５１】
なお、式（４１）において、背景のビューモデルに対して施されるビュー変換がＴ_ＢＧ，ｋとして表されており、合計ＮＴ個のビュー変換の種類が存在するものとされている。
【０４５２】
図２６乃至図２８は、第３の具体例におけるビューモデルの学習を説明する図である。
【０４５３】
図２６に示されるように、第３の具体例では、前景のビューモデルＭ_ＦＧに対してビュー変換Ｔ_ＦＧ，ｋが施される。これが、推定前景ビューとされる。また、背景のビューモデルＭ_ＢＧに対してビュー変換Ｔ_ＢＧ，ｋが施される。これが推定背景ビューとされる。
【０４５４】
この例では、前景のビューモデルＭ_ＦＧとして図中左上側に示される矩形の中に複数の点が示されている。これらの点のそれぞれが前景のビューモデルを構成する特徴点とされている。
【０４５５】
また、この例では、背景のビューモデルＭ_ＢＧとして図中左下側に示される矩形の中に複数の点が示されている。これらの点のそれぞれが背景のビューモデルを構成する特徴点とされている。
【０４５６】
そして、推定前景ビューと推定背景ビューが合成されて合成ビューモデルＭ_{ＦＧＢＧ，ｋ}が構成される。上述したように、合成ビューモデルは、推定前景ビューによって表される特徴点の集合と、推定背景ビューによって表される特徴点の集合とを足したものとされる。この例では、合成ビューモデルＭ_{ＦＧＢＧ，ｋ}として図中右側中央に示される矩形の中に複数の点が示されている。これらの点のそれぞれが合成ビューモデルを構成する特徴点とされている。
【０４５７】
第３の具体例においては、第１の具体例または第２の具体例の場合と異なり、画像特徴量やビューモデルパラメータに局所特徴量を用いるようにした。従って、第１の具体例または第２の具体例の場合と比較して、照明条件など環境の変化に対してロバストな認識を行うことが可能となる。その結果、例えば、低コストで高速な画像の学習、認識を可能とする装置を実現することができる。
【０４５８】
図２７と図２８は、第３の具体例において、図２５に示されるような入力画像系列を入力して、前景のビューモデルおよび背景のビューモデルを学習させて画像を認識させた結果を説明する図である。
【０４５９】
図２７と図２８は、前景または背景の特徴点として認識された点が図中の十字または図中の円で示されるプロット点として表示されている。図２７と図２８において図中の左側（前景推定）の画像に重ねて表示されている円などの形状で示されるプロット点が、前景の特徴点として学習および認識（推定）された点を表している。また、図２７と図２８において図中の右側（背景推定）の画像に重ねて表示されている円などの形状で示されるプロット点が、背景の特徴点として学習および認識（推定）された点を表している。
【０４６０】
なお、図２７は、学習の初期において画像を認識させた結果を説明する図であり、図２８は、充分な学習が行われた後で画像を認識させた結果を説明する図である。
【０４６１】
図２７に示されるように、学習の初期においては、例えば、前景推定の画像に示されるように、背景の一部が前景の特徴点としてプロットされており、誤って背景の一部が前景として認識されている。また、例えば、図２７の背景推定の画像に示されるように、前景の一部が背景の特徴点としてプロットされており、誤って前景の一部が背景として認識されている。すなわち、学習の初期においては、前景と背景が適切に認識できていないことが分かる。
【０４６２】
これに対して、図２８に示されるように、充分な学習が行われた後においては、前景と背景がほぼ適切に認識されていることが分かる。すなわち、図２８に示される認識結果によれば、入力画像の前景の特徴量と背景の特徴点をほぼ正しくプロットした合成ビューモデルが構成されていることが分かる。
【０４６３】
以上においては、第１の具体例、第２の具体例、および第３の具体例として、本技術を適用した画像処理装置による具体的なビューモデルの学習および画像の認識の例を説明した。
【０４６４】
しかし、当然のことながら、現実には、上記の以外の具体例も多々実現され得る。例えば、前景をマルチビューモデルによって学習し、さらに背景もマルチビューモデルによって学習する具体例も実現できる。また、例えば、前景の運動を、並進、拡大、縮小と仮定するとともに、背景の運動も並進、拡大、縮小と仮定する具体例も実現できる。
【０４６５】
あるいはまた、前景、背景の運動として、さらに回転、投影などを仮定するようにすることもできる。
【０４６６】
このように、本技術によるビューモデルの学習、および、その学習結果を用いた画像の認識には、様々なバリエーションが存在するが、上述した具体例を参照すれば、他のどのような具体例も実施できると考えられる。従って、ここでは、それらの具体例を全て開示したに等しい。
【０４６７】
また、以上において、前景として１つの対象（例えば、ノート型パーソナルコンピュータ）を学習または認識し、背景として１つの対象（例えば、机と本）を学習または認識する例について説明した。しかし、例えば、前景として複数の対象を学習または認識し、背景として複数の対象を学習または認識するようにすることも可能である。
【０４６８】
また、以上においては、本技術を画像の認識に適用する例について説明したが、例えば、画像以外のセンサ情報について本技術を適用することも可能である。例えば、圧力センサなどを用いた触覚センサのセンサ情報について本技術を適用することも可能である。
【０４６９】
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図２９に示されるような汎用のパーソナルコンピュータ７００などに、ネットワークや記録媒体からインストールされる。
【０４７０】
図２９において、ＣＰＵ（Central Processing Unit）７０１は、ＲＯＭ（Read Only Memory）７０２に記憶されているプログラム、または記憶部７０８からＲＡＭ（Random Access Memory）７０３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ７０３にはまた、ＣＰＵ７０１が各種の処理を実行する上において必要なデータなども適宜記憶される。
【０４７１】
ＣＰＵ７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して相互に接続されている。このバス７０４にはまた、入出力インタフェース７０５も接続されている。
【０４７２】
入出力インタフェース７０５には、キーボード、マウスなどよりなる入力部７０６、ＬＣＤ(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部７０７、ハードディスクなどより構成される記憶部７０８、モデム、ＬＡＮカードなどのネットワークインタフェースカードなどより構成される通信部７０９が接続されている。通信部７０９は、インターネットを含むネットワークを介しての通信処理を行う。
【０４７３】
入出力インタフェース７０５にはまた、必要に応じてドライブ７１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア７１１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部７０８にインストールされる。
【０４７４】
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア７１１などからなる記録媒体からインストールされる。
【０４７５】
なお、この記録媒体は、図２９に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク（フロッピディスク（登録商標）を含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（Mini-Disk）（登録商標）を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア７１１により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているＲＯＭ７０２や、記憶部７０８に含まれるハードディスクなどで構成されるものも含む。
【０４７６】
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【０４７７】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【０４７８】
なお、本技術は以下のような構成も取ることができる。
【０４７９】
（１）入力される動画のデータ中の各フレームの画像の複数の特徴点の特徴量として構成される画像特徴量のそれぞれを、前記フレームの時刻に対応づけて出力する画像特徴量出力部と、
時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューを出力する前景推定部と、
時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューを出力する背景推定部と、
前記推定前景ビューおよび前記推定背景ビューを合成することで合成ビューを生成する合成ビュー生成部と、
前記合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景のビューモデルを学習する前景学習部と、
前記評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記背景のビューモデルを学習する背景学習部と
を備える画像処理装置。
（２）前記前景推定部および前記背景推定部のそれぞれは、
前記評価値に基づいて、複数種類存在する前記ビュー変換のそれぞれについての事後確率を算出し、
前記画像特徴量および前記事後確率に基づいて、前記ビュー変換を推定し、
前記ビューモデルに対して前記ビュー変換を施すことで、前記推定前景ビューおよび前記推定背景ビューを出力する
（１）に記載の画像処理装置。
（３）前記前景学習部および前記背景学習部のそれぞれは、
複数種類存在する前記ビュー変換のそれぞれが施された前記ビューモデルのパラメータを、前記評価値に基づいて算出される前記ビュー変換のそれぞれについての事後確率に基づいて重み付けし、
前記重み付されたパラメータに基づいて、前記前景のビューモデルのパラメータまたは前記背景のビューモデルのパラメータを更新する
（１）または（２）に記載の画像処理装置。
（４）前記ビューモデルは、
前記前景または前記背景を、それぞれ異なる角度からみた画像に対応する複数のビューモデルから成るマルチビューモデルとして構成される
（１）乃至（３）のいずれかに記載の画像処理装置。
（５）前記前景のビューモデルまたは前記背景のビューモデルのいずれか一方が、前記前景または前記背景を、それぞれ異なる角度からみた画像に対応する複数のビューモデルから成るマルチビューモデルとして構成される
（１）乃至（４）のいずれかに記載の画像処理装置。
（６）前記前景推定部および前記背景推定部のそれぞれは、前記評価値に基づいて、複数種類存在する前記ビューモデルのそれぞれについての事後確率を算出し、前記画像特徴量および前記事後確率に基づいて、前記ビューモデルを推定し、前記推定された遷移に対応するビューモデルに対して前記ビュー変換を施すことで、前記推定前景ビューおよび前記推定背景ビューを出力し、前記ビューモデルの事後確率の算出においてビュー遷移に基づく事前確率を推定するためのダイナミクス学習推定モデルとして、ＨＭＭ、ＦＮＮ、ＲＮＮ、パーティクルフィルタ、または、カンマンフィルタが用いられる
（４）または（５）に記載の画像処理装置。
（７）前記前景推定部および前記背景推定部のそれぞれは、さらに、
前記評価値に基づいて、複数種類存在する前記ビュー変換のそれぞれについての事後確率を算出し、
前記画像特徴量および前記事後確率に基づいて、前記ビュー変換を推定する
（６）に記載の画像処理装置。
（８）前記前景学習部および前記背景学習部のそれぞれは、
複数種類存在する遷移に対応する前記ビューモデルのパラメータを、前記評価値に基づいて算出される前記遷移のそれぞれについての事後確率に基づいて重み付けし、
複数種類存在する前記ビュー変換のそれぞれが施された前記ビューモデルのパラメータを、前記評価値に基づいて算出される前記ビュー変換のそれぞれについての事後確率に基づいて重み付けし、
前記重み付されたパラメータに基づいて、前記前景のビューモデルのパラメータまたは前記背景のビューモデルのパラメータを更新する
（４）乃至（７）のいずれかに記載の画像処理装置。
（９）前記確率的生成モデルにおいて、前記ビュー変換の事後確率の算出においてビュー変換運動に基づく事前確率を推定するためのダイナミクス学習推定モデルとして、
ＨＭＭ、ＦＮＮ、ＲＮＮ、パーティクルフィルタ、または、カンマンフィルタが用いられる
（１）乃至（８）のいずれかに記載の画像処理装置。
（１０）前記前景学習部において用いられる前記確率的生成モデルと、前記背景学習部において用いられる前記確率的生成モデルとが、それぞれ異なる
（１）乃至（９）のいずれかに記載の画像処理装置。
（１１）前記画像特徴量出力部は、
前記画像特徴量として、各画素の画素位置および画素値とを対応付けた情報を出力する
（１）乃至（１０）のいずれかに記載の画像処理装置。
（１２）前記画像特徴量出力部は、
前記画像特徴量として、ハリスコーナー検出方法により検出された特徴点位置の集合を出力する
（１）乃至（１０）のいずれかに記載の画像処理装置。
（１３）画像特徴量出力部が、入力される動画のデータ中の各フレームの画像の複数の特徴点の特徴量として構成される画像特徴量のそれぞれを、前記フレームの時刻に対応づけて出力し、
前景推定部が、時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューを出力し、
背景推定部が、時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューを出力し、
合成ビュー生成部が、前記推定前景ビューおよび前記推定背景ビューを合成することで合成ビューを生成し、
前景学習部が、前記合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景のビューモデルを学習し、
背景学習部が、前記評価値に基づいて、前記背景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記背景のビューモデルを学習するステップ
を含む画像処理方法。
（１４）コンピュータを、
入力される動画のデータ中の各フレームの画像の複数の特徴点の特徴量として構成される画像特徴量のそれぞれを、前記フレームの時刻に対応づけて出力する画像特徴量出力部と、
時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューを出力する前景推定部と、
時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューを出力する背景推定部と、
前記推定前景ビューおよび前記推定背景ビューを合成することで合成ビューを生成する合成ビュー生成部と、
前記合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景のビューモデルを学習する前景学習部と、
前記評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記背景のビューモデルを学習する背景学習部とを備える画像処理装置として機能させる
プログラム。
（１５）（１４）に記載のプログラムが記録されている記録媒体。
【符号の説明】
【０４８０】
１０１画像系列入力部，１０２画像特徴量抽出部，１０３前景背景合成観測部，１０４前景推定学習部，１０５背景推定学習部，１１１ビューモデル学習部，１１２ビューモデルパラメータ，１１３ビューモデル出力部，１１４ビュー変換推定部，１１５ビュー変換運動推定部，１１６ビュー変換情報出力部，１２１ビューモデル学習部，１２２ビューモデルパラメータ，１２３ビューモデル出力部，１２４ビュー変換推定部，１２５ビュー変換運動推定部，１２６ビュー変換情報出力部，２０１画像系列入力部，２０２画像特徴量抽出部，２０３前景背景合成観測部，２０４前景推定学習部，２０５背景推定学習部，２１１マルチビューモデル・ビュー遷移学習部，２１２マルチビューモデルパラメータ，２１３ビュー遷移モデルパラメータ，２１４マルチビューモデル・ビュー遷移出力部，２１５ビュー及び変換推定部２１６ビュー変換運動推定部，２１７ビュー遷移推定部，２１８ビュー及び変換情報出力部，２２１マルチビューモデル・ビュー遷移学習部，２２２マルチビューモデルパラメータ，２２３ビュー遷移モデルパラメータ，２２４マルチビューモデル・ビュー遷移出力部，２２５ビュー及び変換推定部２２６ビュー変換運動推定部，２２７ビュー遷移推定部，２２８ビュー及び変換情報出力部

【特許請求の範囲】
【請求項１】
入力される動画のデータ中の各フレームの画像の複数の特徴点の特徴量として構成される画像特徴量のそれぞれを、前記フレームの時刻に対応づけて出力する画像特徴量出力部と、
時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューを出力する前景推定部と、
時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューを出力する背景推定部と、
前記推定前景ビューおよび前記推定背景ビューを合成することで合成ビューを生成する合成ビュー生成部と、
前記合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景のビューモデルを学習する前景学習部と、
前記評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記背景のビューモデルを学習する背景学習部と
を備える画像処理装置。
【請求項２】
前記前景推定部および前記背景推定部のそれぞれは、
前記評価値に基づいて、複数種類存在する前記ビュー変換のそれぞれについての事後確率を算出し、
前記画像特徴量および前記事後確率に基づいて、前記ビュー変換を推定し、
前記ビューモデルに対して前記ビュー変換を施すことで、前記推定前景ビューおよび前記推定背景ビューを出力する
請求項１に記載の画像処理装置。
【請求項３】
前記前景学習部および前記背景学習部のそれぞれは、
複数種類存在する前記ビュー変換のそれぞれが施された前記ビューモデルのパラメータを、前記評価値に基づいて算出される前記ビュー変換のそれぞれについての事後確率に基づいて重み付けし、
前記重み付されたパラメータに基づいて、前記前景のビューモデルのパラメータまたは前記背景のビューモデルのパラメータを更新する
請求項１に記載の画像処理装置。
【請求項４】
前記ビューモデルは、
前記前景または前記背景を、それぞれ異なる角度からみた画像に対応する複数のビューモデルから成るマルチビューモデルとして構成される
請求項１に記載の画像処理装置。
【請求項５】
前記前景のビューモデルまたは前記背景のビューモデルのいずれか一方が、前記前景または前記背景を、それぞれ異なる角度からみた画像に対応する複数のビューモデルから成るマルチビューモデルとして構成される
請求項１に記載の画像処理装置。
【請求項６】
前記前景推定部および前記背景推定部のそれぞれは、
前記評価値に基づいて、複数種類存在する前記ビューモデルのそれぞれについての事後確率を算出し、
前記画像特徴量および前記事後確率に基づいて、前記ビューモデルを推定し、
前記推定された遷移に対応するビューモデルに対して前記ビュー変換を施すことで、前記推定前景ビューおよび前記推定背景ビューを出力し、
前記ビューモデルの事後確率の算出においてビュー遷移に基づく事前確率を推定するためのダイナミクス学習推定モデルとして、ＨＭＭ、ＦＮＮ、ＲＮＮ、パーティクルフィルタ、または、カンマンフィルタが用いられる
請求項４に記載の画像処理装置。
【請求項７】
前記前景推定部および前記背景推定部のそれぞれは、さらに、
前記評価値に基づいて、複数種類存在する前記ビュー変換のそれぞれについての事後確率を算出し、
前記画像特徴量および前記事後確率に基づいて、前記ビュー変換を推定する
請求項１に記載の画像処理装置。
【請求項８】
前記前景学習部および前記背景学習部のそれぞれは、
複数種類存在する遷移に対応する前記ビューモデルのパラメータを、前記評価値に基づいて算出される前記遷移のそれぞれについての事後確率に基づいて重み付けし、
複数種類存在する前記ビュー変換のそれぞれが施された前記ビューモデルのパラメータを、前記評価値に基づいて算出される前記ビュー変換のそれぞれについての事後確率に基づいて重み付けし、
前記重み付されたパラメータに基づいて、前記前景のビューモデルのパラメータまたは前記背景のビューモデルのパラメータを更新する
請求項１に記載の画像処理装置。
【請求項９】
前記確率的生成モデルにおいて、前記ビュー変換の事後確率の算出においてビュー変換運動に基づく事前確率を推定するためのダイナミクス学習推定モデルとして、
ＨＭＭ、ＦＮＮ、ＲＮＮ、パーティクルフィルタ、または、カンマンフィルタが用いられる
請求項１に記載の画像処理装置。
【請求項１０】
前記前景学習部において用いられる前記確率的生成モデルと、前記背景学習部において用いられる前記確率的生成モデルとが、それぞれ異なる
請求項１に記載の画像処理装置。
【請求項１１】
前記画像特徴量出力部は、
前記画像特徴量として、各画素の画素位置および画素値とを対応付けた情報を出力する
請求項１に記載の画像処理装置。
【請求項１２】
前記画像特徴量出力部は、
前記画像特徴量として、ハリスコーナー検出方法により検出された特徴点位置の集合を出力する
請求項１に記載の画像処理装置。
【請求項１３】
画像特徴量出力部が、入力される動画のデータ中の各フレームの画像の複数の特徴点の特徴量として構成される画像特徴量のそれぞれを、前記フレームの時刻に対応づけて出力し、
前景推定部が、時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューを出力し、
背景推定部が、時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューを出力し、
合成ビュー生成部が、前記推定前景ビューおよび前記推定背景ビューを合成することで合成ビューを生成し、
前景学習部が、前記合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景のビューモデルを学習し、
背景学習部が、前記評価値に基づいて、前記背景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記背景のビューモデルを学習するステップ
を含む画像処理方法。
【請求項１４】
コンピュータを、
入力される動画のデータ中の各フレームの画像の複数の特徴点の特徴量として構成される画像特徴量のそれぞれを、前記フレームの時刻に対応づけて出力する画像特徴量出力部と、
時刻ｓの画像特徴量に対して、前記画像の中の前景の画像の画像特徴量をパラメータとして有する前景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの前景の画像を推定して推定前景ビューを出力する前景推定部と、
時刻ｓの画像特徴量に対して、前記画像の中の背景の画像の画像特徴量をパラメータとして有する背景のビューモデルに対して、幾何的な変換であるビュー変換を施すことで、時刻ｓの背景の画像を推定して推定背景ビューを出力する背景推定部と、
前記推定前景ビューおよび前記推定背景ビューを合成することで合成ビューを生成する合成ビュー生成部と、
前記合成ビューと、時刻ｓの画像特徴量を比較することで得られる評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記前景のビューモデルを学習する前景学習部と、
前記評価値に基づいて、前記前景のビューモデルのパラメータを確率的生成モデルに基づいて更新することで前記背景のビューモデルを学習する背景学習部とを備える画像処理装置として機能させる
プログラム。
【請求項１５】
請求項１４に記載のプログラムが記録されている記録媒体。

【図１】