マスク画像を抽出する方法及びプログラム並びにボクセルデータを構築する方法及びプログラム

【課題】床面付近およびシルエット輪郭上の不要部を逐次的に除去することが可能な不要部除去処理を備えている精度の高いマスク画像を抽出する方法を提供する。
【解決手段】複数の被写体画像と複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出し、複数の第１のマスク画像から視体積交差法により、３次元ボクセルデータを構築する。３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する。第２の３次元ボクセルデータを基に、複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、マスク画像を抽出する方法及びプログラム、並びにボクセルデータを構築する方法及びプログラムに関する。より詳細には、被写体を撮影した画像と背景のみを撮影した画像からマスク画像を抽出するマッティング方法及びプログラム、並びに上記で抽出された複数枚のマスク画像から視体積交差法を適用しボクセルデータを構築するモデリングの方法及びプログラムに関する。
【背景技術】
【０００２】
従来、被写体を撮影した画像から被写体の存在を表すマスク画像を抽出するマッティング（ｍａｔｔｉｎｇ）と複数枚のマスク画像に視体積交差法を適用し３次元ボクセルデータを構築するモデリング（ｍｏｄｅｌｉｎｇ）は、別々に行われていた。このため、高精度なボクセルデータを構築するためには、まず高精度なマスク画像を抽出しなければならず、ブルーバックなどの特別な環境が必要であった。特許文献１及び非特許文献１では、背景差分に工夫をこらし、ボクセルデータの色情報を用いてマスク画像の欠損を埋めるマスク画像精度向上の方法を開示している。
【０００３】
しかしながら、この方法では、精度の高いボクセルデータを構築するためには、初めに十分精度の高いマスク画像が必要であった。そのため、手作業や、ブルーバックなどの特別な撮影環境を用いて、複雑な計算処理を行い、精度の高いマスク画像を抽出しなければならない。
【０００４】
そのため、非特許文献２では、
（１）被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、単純な背景差分を適用することで初期のマスク画像を取得した上で、視体積交差法を適用することで初期のボクセルデータを構築する。
（２）上記で得られたボクセルデータからスライス画像を抽出し、各スライス画像にメディアンフィルタをかけることにより、ボクセルデータの穴を埋めていき、この穴埋めに用いられた各ボクセルをマスク画像に投影し、当該ピクセルを白色ピクセルにすることで各マスク画像の穴を埋める。
（３）上記の穴埋め処理されたボクセルデータ全体を各撮影視点に投影した画像と、上記のマスク画像の双方が白色であるピクセルのみを、各撮影視点における新たなマスク画像の白色ピクセルとすることで、上記穴埋めされた各マスク画像の不要部を除去する。
【０００５】
（３）で得られた各マスク画像を（１）の初期のマスク画像として（１）〜（３）の処理を繰り返すことで、精度の高いマスク画像を抽出し、これにより精度の高いボクセルデータを構築した。
【０００６】
しかしながら、上記非特許文献２の方法は、（２）においてブロックサイズの大きいフィルタ処理を適用し、（１）から（３）を多数繰り返し適用しなければ不要部が除去できなかった。そのため、被写体シルエットのエッジが鈍ってしまうとともに、多くの処理時間を要するという課題があった。また、（３）における不要部の領域面積が大きい場合は、（１）から（３）を多数繰り返しても不要部が除去できないという課題があった。
【０００７】
そのため、特願２００９−１８９８７７では、上記方法におけるフィルタ処理に依存せず、少ない繰り返し回数で領域面積の大きい不要部を逐次的に除去することが可能な、閉領域分割を用いた不要部除去処理を備えている、精度の高いマスク画像を抽出し、さらに精度の高いボクセルデータを構築する手法を提案した。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特開２００７−１７３６４号公報
【非特許文献】
【０００９】
【非特許文献１】豊浦正広他「ランダムパターン背景を用いた視体積交差法のためのシルエット修復手法」２００５年電子情報通信学会総合大会Ｄ−１２−１３３
【非特許文献２】三功浩嗣他「被写体３次元モデルの各撮影視点へのフィードバック処理に基づく背景分離方式」２００９年電子情報通信学会総合大会Ｄ−１１−８５
【発明の概要】
【発明が解決しようとする課題】
【００１０】
しかしながら、上記特願２００９−１８９８７７の方法を適用してもなお、床面付近およびシルエット輪郭上に不要部が残ってしまうことがあり、結果的にマスク画像及びボクセルデータの精度が不十分になってしまうという課題があった。
【００１１】
従って、本発明は、床面付近およびシルエット輪郭上の不要部を逐次的に除去することが可能な不要部除去処理を備えている、精度の高いマスク画像を抽出する方法及びプログラム、並びに上記マスク画像からボクセルデータを構築する方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１２】
上記目的を実現するため本発明による複数のマスク画像を抽出する方法は、被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、被写体の存在を表す複数のマスク画像を抽出する方法であって、前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出ステップと、前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築ステップと、前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築ステップと、前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出する第２の抽出ステップとを含む。
【００１３】
また、前記第２の抽出ステップは、前記第２の３次元ボクセルデータにおいて、欠損が充填された３次元座標を各撮影視点に投影し、前記複数の第１のマスク画像における対応画素が欠損を生じている場合は充填して複数の第１のサブマスク画像を抽出し、前記第２の３次元ボクセルデータを各撮影視点に投影し、複数の第２のサブマスク画像を抽出し、該複数の第２のサブマスク画像にフィルタ処理を施し、フィルタ処理された複数の第２のサブマスク画像と前記複数の第１のサブマスク画像の両画像において充填されている画素のみを被写体存在を表す領域とし、それ以外の画素を被写体が存在しない領域とすることで、複数の第３のサブマスク画像を抽出し、該複数の第３のサブマスク画像を閉領域に分割し、所定の条件を満たす閉領域を除去することで、複数の第４のサブマスク画像を抽出し、該複数の第４のサブマスク画像について、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出するステップであることも好ましい。
【００１４】
また、前記色情報をもとにした加工は、前記第２の３次元ボクセルデータの床面から一定の高さ以下であるボクセルを撮影視点に投影することで前記第４のサブマスク画像中の第１の不要部除去候補を決定するサブステップと、前記第１の不要部除去候補に含まれる各画素について、画素値を色情報に基づく特徴空間に射影し、被写体画像の画素と背景画像の画素との間で差異を計算し、差異が閾値以下の画素を第２の不要部除去候補とするサブステップと、前記第２の不要部除去候補に含まれる各画素について光線を探索し、前記第３の３次元ボクセルデータとの交点が床面から一定の高さ以下である画素を不要画素とするサブステップと、前記不要画素を前記第４のサブマスク画像から除去するサブステップとを含むことも好ましい。
【００１５】
また、前記色情報をもとにした加工は、前記第４のサブマスク画像から輪郭を抽出し、第１の不要部除去候補を決定するサブステップと、前記第１の不要部除去候補に含まれる各画素について、画素値を色情報に基づく特徴空間に射影し、被写体画像の画素と背景画像の画素との間で差異を計算し、差異が閾値以下の画素を第２の不要部除去候補とするサブステップと、前記第２の不要部除去候補に含まれる各画素について、該画素の両隣の視点における前記第２の不要部除去候補の対応画素を決定するサブステップと、前記第２の不要部除去候補の対応画素について、画素値を前記色情報に基づく特徴空間に射影し、被写体画像の画素と背景画像の画素との間で差異を計算し、差異が閾値以下の画素を不要画素とするサブステップと、前記不要画素を前記第４のサブマスク画像から除去するサブステップとを含むことも好ましい。
【００１６】
また、複数枚の被写体画像を予め色情報に基づき領域分割し、各撮影視点のマスク画像中における前記不要画素が属する領域を除去するサブステップをさらに含むことも好ましい。
【００１７】
また、前記色情報に基づく特徴空間は、ＲＧＢ空間またはＨＳＶ空間であることも好ましい。
【００１８】
また、前記不要画素とするサブステップは、前記第２の不要部除去候補の対応画素について、被写体画像及び／又は背景画像の色補正を行い、画素値を前記色情報に基づく特徴空間に射影し、被写体画像の画素と背景画像の画素との間で差異を計算し、差異が閾値以下の画素を不要画素とし、該閾値は前記色補正に基づいて変化することも好ましい。
【００１９】
また、前記複数の第２のマスク画像を、前記第１の構築ステップにおける複数の第１のマスク画像とすることで、前記第１の構築ステップから前記第２の抽出ステップまでを所定の回数繰り返すことも好ましい。
【００２０】
また、前記第２の構築ステップは、前記第１の３次元ボクセルデータの複数の第１のスライス画像を、ｘ軸、ｙ軸及びｚ軸方向から獲得するサブステップと、前記複数の第１のスライス画像にフィルタ処理を施し、該フィルタ処理の結果に基づき第２の３次元ボクセルデータを構築するサブステップとを含むことも好ましい。
【００２１】
また、前記第２の３次元ボクセルデータを構築するサブステップは、前記複数の第１のスライス画像にフィルタ処理を施し、該フィルタ処理により白色になった画素を求め、該画素に対応する前記第１の３次元ボクセルデータの３次元座標を埋めることで、第２の３次元ボクセルデータを構築するステップであることも好ましい。
【００２２】
また、前記第２の抽出ステップ後に、前記複数の第５のマスク画像にフィルタ処理を施すステップをさらに含むことも好ましい。
【００２３】
上記目的を実現するため本発明による複数のマスク画像を抽出するプログラムは、被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、被写体の存在を表す複数のマスク画像を抽出するためのコンピュータを、前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出手段と、前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築手段と、前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築手段と、前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出する第２の抽出手段として機能させ、複数のマスク画像を抽出する。
【００２４】
上記目的を実現するため本発明による３次元ボクセルデータを構築する方法は、被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、３次元ボクセルデータを構築する方法であって、前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出ステップと、前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築ステップと、前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築ステップと、前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出する第２の抽出ステップと、前記複数の第２のマスク画像から視体積交差法により、第３の３次元ボクセルデータを構築する第３の構築ステップとを含む。
【００２５】
上記目的を実現するため本発明による３次元ボクセルデータを構築することを特徴とするプログラムは、被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、３次元ボクセルデータを構築するためのコンピュータを、前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出手段と、前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築手段と、前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築手段と、前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出する第２の抽出手段と、前記複数の第２のマスク画像から視体積交差法により、第３の３次元ボクセルデータを構築する第３の構築手段として機能させ、３次元ボクセルデータを構築する。
【発明の効果】
【００２６】
本発明のマスク画像を抽出する方法及びプログラムは、ボクセルデータの情報をマスク画像に反映させ、各マスク画像の穴を埋め、各マスク画像の不要部を除去することを行い、マスク画像とボクセルデータの精度向上を補間的に行う。特に本発明では不要部除去処理を繰り返し行うことにより不要部が逐次的に除去される。本発明の閉領域分割に基づいた不要部除去処理によれば、少ない繰り返し回数で不要部を除去できるため、被写体シルエットのエッジが鈍る度合を抑えることができ、処理時間の短縮が可能となり、面積の大きい不要部も除去できる。さらに、本発明の色情報に基づく加工をマスク画像に施す処理によれば、床面付近の影および輪郭上の不要部を除去することができ、閉領域分割に基づいた不要部除去処理では除去できなかった。不要部を除去することができる。
【００２７】
このように、本発明によれば、初めに高精度なマスク画像を必要とせず、さらに複雑な計算処理を行わずに高精度のマスク画像を抽出でき、この高精度のマスク画像から高精度のボクセルデータを構築できる。さらに、本発明は、特別な撮影環境に依らず、一般的な映像に対して適用可能である。
【図面の簡単な説明】
【００２８】
【図１】本発明によるマスク画像の抽出とボクセルデータの構築方法を示すフローチャートである。
【図２】閉領域を説明するための図である。
【図３】床面付近の不要部を決定する処理を示すフローチャートである。
【図４】輪郭上の不要部を決定する処理を示すフローチャートである。
【図５】ステップ３からステップ１０までの処理を複数回適用し、不要部を除去したマスク画像を示す。
【図６】ステップ２１におけるｙ軸方向のボクセルのスライス画像の例を示す。
【図７】図６と同じ撮影視点のスライス画像（０≦ｙ≦５０に存在する全てのスライス画像）を各撮影視点に投影した結果得られるマスク画像を示す。
【図８】ステップ２２により不要部として抽出された画素を示す。
【図９】ステップ２３により不要部として抽出された画素を示す。
【図１０】ステップ２１からステップ２３の処理を適用の結果得られるマスク画像を示す。
【図１１】ステップ３からステップ１０までの処理を複数回適用し、不要部を除去したマスク画像を示す。
【図１２】ステップ３１により抽出された輪郭を示す。
【図１３】ステップ３２により不要部として抽出された画素を示す。
【図１４】ステップ３３により不要部として抽出された画素を示す。
【図１５】ＲＧＢ値に基づく領域分割により不要部として除去される領域を白色で示す。
【図１６】ステップ３１からステップ３３の処理にＲＧＢ値に基づく領域分割処理を加えた不要部除去の結果得られるマスク画像を示す。
【図１７】ステップ３１からステップ３３の処理にＲＧＢ値に基づく領域分割処理を加えた不要部除去を３回適用した結果を示す。
【発明を実施するための形態】
【００２９】
本発明を実施するための最良の実施形態について、以下では図面を用いて詳細に説明する。図１は、本発明によるマスク画像の抽出とボクセルデータの構築方法を示すフローチャートである。以下、本フローチャートに基づいて説明する。
【００３０】
ステップ１：円周配置の複数枚の被写体画像と背景画像を取得する。キャリブレーション済みのカメラを複数台円周上に配置して、該複数台のカメラで被写体と背景を含む被写体画像と背景のみを含む背景画像とを撮影し、複数の異なった方向から撮影した被写体画像と背景画像を取得する。例えば、カメラが３０台配置された場合、被写体画像画像及び背景画像はそれぞれ３０枚取得される。
【００３１】
ステップ２：上記の被写体画像画像と、背景画像とから、背景差分を行うことにより、複数枚のマスク画像を抽出する。本マスク画像は、従来技術の単純な背景差分により抽出されるため、精度は高くない。マスク画像はカメラの台数分抽出される。例えば、カメラが３０台配置された場合、３０枚のマスク画像が抽出される。
【００３２】
ステップ３：複数枚のマスク画像に、視体積交差法を適用することにより、３次元ボクセルデータを構築する。ボクセルデータの精度は、マスク画像の精度に依存するため、ステップ２で抽出されたマスク画像を用いる場合、構築されたボクセルデータの精度は高くない。
【００３３】
ステップ４：上記で獲得されたボクセルデータをスライス画像として獲得する。３次元ボクセルデータをある方向からのスライス画像の集まりと考えて、ボクセルデータをスライス画像としてｘ軸、ｙ軸及びｚ軸方向から獲得する。スライス画像は各軸とも座標範囲の枚数分を獲得する。例えば、ボクセルデータのｙ軸座標範囲が０〜２５５であった場合は、２５６枚のスライス画像を獲得する。なお、ｙ軸は鉛直方向であり、ｘ軸及びｚ軸は、それぞれ水平方向である。
【００３４】
ステップ５：穴を埋めたボクセルデータを構築する。ステップ４のスライス画像は精度が高くないボクセルデータから獲得されている場合があるため、黒色である箇所が白色となり穴が空いている欠損や、逆に白色の部分に黒色が表れるノイズが含まれていることもある。そのため、各方向（ｘ軸、ｙ軸、ｚ軸）から獲得されたスライス画像に対してフィルタ処理を施す。例えば、ガウスフィルタを適用し欠損を充填することで穴の部分を埋め、メディアンフィルタを適用し不要なノイズを除去する。このようにして、フィルタ済スライス画像を得る。次に、フィルタ済スライス画像とフィルタされる前のスライス画像とを比較し、新たに白色となった画素（つまり、フィルタ処理により穴が埋められた画素）を求め、本画素に対応するボクセルデータの３次元座標を埋める。例えば、ｘ軸の座標ｘ１で獲得されたスライス画像において、白色となった画素が、ｙ座標ｙ１、ｚ座標ｚ１であった場合、ボクセルデータの３次元座標（ｘ１、ｙ１、ｚ１）を埋める。以上の処理を全スライス画像に行い、穴を埋めたボクセルデータを獲得する。
【００３５】
ステップ６：複数枚の穴を埋めたマスク画像を抽出する。ステップ５での３次元座標を各撮影視点に投影し、各マスク画像における対応画素を白色にする。つまり、スライス画像の３次元座標を撮影視点に投影して、各マスク画像を撮影した位置から見た画像を作成し、該画像においてステップ５の３次元座標に対応する画素を白色にする。これにより、穴が埋められたマスク画像が抽出される。
【００３６】
ステップ７：上記ステップ５で獲得されたボクセルデータを各撮影視点に投影し、複数枚のマスク画像を獲得する。
【００３７】
ステップ８：不要部を除去した複数枚のマスク画像を抽出する。ステップ７で獲得されたマスク画像にフィルタ処理を施す。ここで得られたマスク画像とステップ６で抽出されたマスク画像とを比較して、両画像ともに白色である場合のみ白色とし、それ以外の場合は該当箇所を黒色にする。以上の処理を全マスク画像に行い、不要部を除去したマスク画像を抽出する。
【００３８】
ステップ９：上記で得られたマスク画像を閉領域に分割し、所定の条件を満たす閉領域が存在するか確認する。存在した場合、ステップ１０に進み、存在しない場合、これ以上閉領域分割により精度向上が望めないとして、ステップ１１に進む。なお、所定の条件の例として、不要部は影等の領域であり人物の領域よりも小さいと考えられるため、一定の画素数以下の領域を不要部とすることが考えられる。
【００３９】
ここで、閉領域は上下左右のいずれかにより連結している白色領域のことである。例えば、図２によるとＩ、ＩＩがそれぞれ閉領域となる。ＩとＩＩは斜め方向に連結されているが上下左右で連結していないため、別々の閉領域となる。また、マスク画像の必要部分の領域が削除されないようにするため、一定の画素数は必要部分の領域の画素数より小さい値である。例えば、画素数が１２８０×７２０で、人物のマスク画像である場合、人物の領域の画素数より小さい３０００程度が一定の画素数となる。
【００４０】
ステップ１０：複数枚のマスク画像から閉領域の不要部を除去する。上記で得られた所定の条件を満たす領域を不要部として除去する。つまり、所定の条件を満たす白色領域を黒色とすることにより不要部を除去する。
【００４１】
マスク画像中の影等の不要部は被写体領域と連結していることが少なくないので、多くの撮影視点におけるマスク画像では不要部は閉領域として抽出することができず除去できない。一方、視体積交差法は、各マスク画像のＡＮＤ演算を基にボクセルデータを構築するので、少なくとも１つのマスク画像で不要部が除去されると、ボクセルデータ上でその不要部に相当する領域が除去される。よって、当該不要部が除去されたボクセルデータを各撮影視点に投影した映像によりＡＮＤ演算をとることで、全てのマスク画像から当該不要部が除去される。
【００４２】
さらに、マスク画像中では複数の不要部が重なり合っていることが少なくないので、ある不要部が除去されることで、それまで被写体領域と連結していた別の領域が切り離され、閉領域として抽出できる可能性があり、繰り返し処理を適用することで各マスク画像およびボクセルデータから不要部が徐々に除去されていく。
【００４３】
一般に、視体積交差法を用いる場合、マスク画像における影や背景の不要部分は、ボクセルデータの生成にあまり影響を与えないが、人物マスク内の穴・欠損は、ボクセルデータの生成に大きな影響を与えるため、人物マスク内の穴・欠損を埋める必要がある。
【００４４】
また、ボクセルデータのスライス画像において人物が存在している画素（すなわち黒色でなく白色の画素）は、各マスク画像の該当画素においても必ず白色となるが、対象物体が存在していない画素（黒色の画素）は、各マスク画像において必ずしも黒色とは限らない。
【００４５】
よって、スライス画像における白色の画素が重要であり、スライス画像の精度の向上は、徐々に欠損・穴を埋めていくことになる。上記のステップ３からステップ１０を繰り返すことで、スライス画像の精度が向上し、ボクセルモデルの欠損が徐々に埋まっていく。
【００４６】
ステップ１１：複数枚のマスク画像から色情報をもとにして不要部を除去する。上記ステップ８およびステップ１０によりマスク画像から不要部を除去したが、完全に除去できないことがある。例えば、床面付近の影および輪郭上の不要部は、被写体画像と重なり合っていることより、閉領域として抽出できず除去されない場合が多い。そのため、被写体画像と不要部の色情報の差異に着目して、画素を色情報に基づく特徴空間に射影し、マスク画像と背景画像との間で差異がある画素を抽出し不要部を削除する。色情報に基づく特徴空間としては、ＲＧＢ空間、またはＨＳＶ空間等が考えられる。ＲＧＢ空間の実施形態を以下で詳細に示す。
【００４７】
図３は、床面付近の不要部を決定する処理を示すフローチャートである。以下、本フローチャートに基づいて説明する。
【００４８】
ステップ２１：３次元ボクセルデータの床面付近のボクセルを各撮影視点に投影し、マスク画像中の不要部除去候補１を抽出する。ステップ５で獲得した３次元ボクセルデータから、床面付近のボクセルを各撮影視点に投影し、各撮影視点毎の不要部除去候補１を獲得する。なお、床面付近は、床面から一定の高さ以下の範囲である。ｙ軸座標が０から始まるとき、例えば、ｙ軸座標範囲が０〜２５５であった場合は、ｙ軸座標０〜２０や０〜３０等が床面付近に該当する。
【００４９】
ステップ２２：各撮影視点のマスク画像中における不要部除去候補２を抽出する。各撮影視点において前記不要部除去候補１に含まれる画素について、被写体画像の対応画素と背景画像の対応画素との間でＲＧＢベクトル値の差分をとり、その大きさが一定の閾値以下の画素を抽出する。被写体画像のある画素のＲＧＢベクトル値を（ｒ_１、ｇ_１、ｂ_１）、背景画像の対応する画素のＲＧＢベクトル値を（ｒ_２、ｇ_２、ｂ_２）とすると、ＲＧＢベクトル値の差分の大きさは、
√｛（ｒ_１−ｒ_２）^２＋（ｇ_１−ｇ_２）^２＋（ｂ_１−ｂ_２）^２｝
で表される。ｙ座標が０〜２５５であった場合、一定の閾値は、例えば、５０とする。
【００５０】
ステップ２３：各撮影視点のマスク画像中における不要部除去候補３を抽出する。前記抽出された不要部除去候補２に含まれる各画素の光線を探索し、３次元ボクセルデータとの交点を求め、交点のｙ座標が一定の閾値以下の画素を抽出する。ｙ座標が０〜２５５であった場合、一定の閾値は、例えば、１０とする。本処理により、人物に当たる画素を除外し、床の影に当たる画素を抽出できる。
【００５１】
本処理により抽出された画素をマスク画像から除去することにより、マスク画像から床面付近の影を除去することができる。
【００５２】
図４は、輪郭上の不要部を決定する処理を示すフローチャートである。以下、本フローチャートに基づいて説明する。
【００５３】
ステップ３１：各撮影視点におけるマスク画像から輪郭を抽出し、不要部除去候補１を抽出する。ステップ８により抽出されたマスク画像、またはステップ２３で抽出された不要部除去候補２の画素を除去したマスク画像から輪郭を抽出する。
【００５４】
ステップ３２：各撮影視点のマスク画像中における不要部除去候補２を抽出する。各撮影視点において前記不要部除去候補１に含まれる画素と、同じ視点の背景画像の対応する画素との間でＲＧＢベクトル値の差分をとり、その大きさが一定の閾値以下の画素を抽出する。ＲＧＢベクトル値の差分の大きさは、ステップ２２と同じである。また、ｙ座標が０〜２５５であった場合、一定の閾値は、例えば、１５とする。
【００５５】
ステップ３３：各撮影視点のマスク画像中における不要部除去候補３を抽出する。前記抽出された不要部除去候補２に含まれる画素の両隣カメラにおける対応点を検出する。該対応点での被写体画像の画素と、同じ撮影視点の背景画像の画素との間でＲＧＢベクトル値の差分をとり、その大きさが一定の閾値以下の画素を抽出する。
【００５６】
本処理により抽出された画素をマスク画像から除去することにより、マスク画像から輪郭上の不要部を除去することができる。
【００５７】
なお、ステップ３３において、両隣のカメラにおける対応点でＲＧＢベクトル値の差分を取る際に、対応点の画素に色補正を行うこと、または閾値を色補正に関連して可変にすることにより、不要部決定の精度を向上することができる。
【００５８】
また、不要部除去処理対象のマスク画像に対して、事前にＲＧＢ値に基づく領域分割を行い、この領域内の１点でも上記ステップ２３およびステップ３３により抽出された画素があった場合、その領域を削除することにより不要部を除去することもできる。
【００５９】
また、図３の床面付近の不要部を決定する処理、および図４の輪郭上の不要部を決定する処理は、全ての視点のマスク画像に対して行うだけではなく、一部の視点のマスク画像に対してのみ行うこともできる。この場合も、少なくとも１つのマスク画像で不要部が除去されると、ボクセルデータ上でその不要部に相当する領域が除去される。よって、当該不要部が除去されたボクセルデータを各撮影視点に投影した映像によりＡＮＤ演算をとることで、全てのマスク画像から当該不要部が除去される。
【００６０】
また、図３の床面付近の不要部を決定する処理、および図４の輪郭上の不要部を決定する処理を繰り返し適用することで各マスク画像およびボクセルデータから不要部が徐々に除去されていく。
【００６１】
ステップ１２：複数枚の穴を埋めたマスク画像を抽出する。上記ステップ１０またはステップ１１で得られたマスク画像にフィルタ処理を施すことによりさらに穴を埋める。このように、穴を埋め（ステップ６）、不要な部分を削除し（ステップ８、ステップ１０、ステップ１１）、穴を埋める（ステップ１２）処理を施すことで、より高精度なマスク画像が抽出される。
【００６２】
ステップ１３：マスク画像の精度が十分であった場合、本マスク画像から視体積交差法を用いることにより、高精度なボクセルデータが構築される。マスク画像の精度が十分でなかった場合、ステップ１２で得られたマスク画像をステップ３の入力とすることにより、ステップ３からステップ１２を繰り返し、マスク画像とボクセルデータの精度を漸次更新していく。
【００６３】
次に、ステップ１１の処理によりマスク画像の精度が向上していくことを実際の画像により示す。最初にステップ２１からステップ２３の処理により、床面付近の不要部が除去されることを示す。図５は、ステップ３からステップ１０までの処理を複数回適用し、不要部を除去したマスク画像を示す。例えば、矢印１で示される床面付近の不要部、および矢印２で示される輪郭上の不要部が存在している。図６は、ステップ２１におけるｙ軸方向のボクセルのスライス画像の例を示す。本例はｙ＝３５のスライス画像を示す。図７は、図６と同じ撮影視点のスライス画像（０≦ｙ≦５０に存在する全てのスライス画像）を各撮影視点に投影した結果得られるマスク画像を示す。図８は、ステップ２２により不要部として抽出された画素を示す。本例では閾値は５０を用いている。図９は、ステップ２３により不要部として抽出された画素を示す。本例では閾値は１０を用いている。ここでは、実際に除去する画素を白、それ以外を黒色で表示している。図１０は、ステップ２１からステップ２３の処理を適用の結果得られるマスク画像を示す。図１０と図５と比較すると矢印１で示される床面付近の不要部が除去され、マスク画像の精度が向上していることが分かる。
【００６４】
次にステップ３１からステップ３３の処理により、輪郭上の不要部が除去されることを示す。図１１は、ステップ３からステップ１０までの処理を複数回適用し、不要部を除去したマスク画像を示す。例えば、矢印１で示される床面付近の不要部、および矢印２、矢印３で示される輪郭上の不要部が存在している。図１２は、ステップ３１により抽出された輪郭を示す。図１３は、ステップ３２により不要部として抽出された画素を示す。本例では閾値は１５を用いている。図１４は、ステップ３３により不要部として抽出された画素を示す。本例では閾値は１５を用いている。本例ではさらに、処理対象のマスク画像をＲＧＢ値に基づく領域分割を行い、この領域内の１点でも上記で摘出された不要部があるならば、該領域を不要部として除去した。図１５は、ＲＧＢ値に基づく領域分割により不要部として除去される領域を白色で示す。図１６は、ステップ３１からステップ３３の処理にＲＧＢ値に基づく領域分割処理を加えた不要部除去の結果得られるマスク画像を示す。図１１と比較すると、矢印２で示される輪郭上の不要部が減少されていることが分かる。
【００６５】
ステップ１１の処理を複数回繰り返すことにより、マスク画像の精度が徐々に向上していくことを実際の画像により示す。本例では、ステップ３１からステップ３３の処理を複数回繰り返す。図１７は、ステップ３１からステップ３３の処理にＲＧＢ値に基づく領域分割処理を加えた不要部除去を３回適用した結果を示す。矢印３で示される輪郭上の不要部が、図１１に比べ図１６で小さくなっていることが分かり、図１７ではさらに小さくなっていることが分かる。
【００６６】
また、以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。

【特許請求の範囲】
【請求項１】
被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、被写体の存在を表す複数のマスク画像を抽出する方法であって、
前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出ステップと、
前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築ステップと、
前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築ステップと、
前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出する第２の抽出ステップと、
を含むことを特徴とする複数のマスク画像を抽出する方法。
【請求項２】
前記第２の抽出ステップは、前記第２の３次元ボクセルデータにおいて、欠損が充填された３次元座標を各撮影視点に投影し、前記複数の第１のマスク画像における対応画素が欠損を生じている場合は充填して複数の第１のサブマスク画像を抽出し、前記第２の３次元ボクセルデータを各撮影視点に投影し、複数の第２のサブマスク画像を抽出し、該複数の第２のサブマスク画像にフィルタ処理を施し、フィルタ処理された複数の第２のサブマスク画像と前記複数の第１のサブマスク画像の両画像において充填されている画素のみを被写体存在を表す領域とし、それ以外の画素を被写体が存在しない領域とすることで、複数の第３のサブマスク画像を抽出し、該複数の第３のサブマスク画像を閉領域に分割し、所定の条件を満たす閉領域を除去することで、複数の第４のサブマスク画像を抽出し、該複数の第４のサブマスク画像について、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出するステップであることを特徴とする請求項１に記載の複数のマスク画像を抽出する方法。
【請求項３】
前記色情報をもとにした加工は、
前記第２の３次元ボクセルデータの床面から一定の高さ以下であるボクセルを撮影視点に投影することで前記第４のサブマスク画像中の第１の不要部除去候補を決定するサブステップと、
前記第１の不要部除去候補に含まれる各画素について、画素値を色情報に基づく特徴空間に射影し、被写体画像の画素と背景画像の画素との間で差異を計算し、差異が閾値以下の画素を第２の不要部除去候補とするサブステップと、
前記第２の不要部除去候補に含まれる各画素について光線を探索し、前記第３の３次元ボクセルデータとの交点が床面から一定の高さ以下である画素を不要画素とするサブステップと、
前記不要画素を前記第４のサブマスク画像から除去するサブステップと、
を含むことを特徴とする請求項２に記載の複数のマスク画像を抽出する方法。
【請求項４】
前記色情報をもとにした加工は、
前記第４のサブマスク画像から輪郭を抽出し、第１の不要部除去候補を決定するサブステップと、
前記第１の不要部除去候補に含まれる各画素について、画素値を色情報に基づく特徴空間に射影し、被写体画像の画素と背景画像の画素との間で差異を計算し、差異が閾値以下の画素を第２の不要部除去候補とするサブステップと、
前記第２の不要部除去候補に含まれる各画素について、該画素の両隣の視点における前記第２の不要部除去候補の対応画素を決定するサブステップと、
前記第２の不要部除去候補の対応画素について、画素値を前記色情報に基づく特徴空間に射影し、被写体画像の画素と背景画像の画素との間で差異を計算し、差異が閾値以下の画素を不要画素とするサブステップと、
前記不要画素を前記第４のサブマスク画像から除去するサブステップと、
を含むことを特徴とする請求項２に記載の複数のマスク画像を抽出する方法。
【請求項５】
複数枚の被写体画像を予め色情報に基づき領域分割し、各撮影視点のマスク画像中における前記不要画素が属する領域を除去するサブステップをさらに含むことを特徴とする請求項３または４に記載の複数のマスク画像を抽出する方法。
【請求項６】
前記色情報に基づく特徴空間は、ＲＧＢ空間またはＨＳＶ空間であることを特徴とする請求項３から５のいずれか１項に記載の複数のマスク画像を抽出する方法。
【請求項７】
前記不要画素とするサブステップは、
前記第２の不要部除去候補の対応画素について、被写体画像及び／又は背景画像の色補正を行い、画素値を前記色情報に基づく特徴空間に射影し、被写体画像の画素と背景画像の画素との間で差異を計算し、差異が閾値以下の画素を不要画素とし、該閾値は前記色補正に基づいて変化することを特徴とする請求項４に記載の複数のマスク画像を抽出する方法。
【請求項８】
前記複数の第２のマスク画像を、前記第１の構築ステップにおける複数の第１のマスク画像とすることで、前記第１の構築ステップから前記第２の抽出ステップまでを所定の回数繰り返すことを特徴とする請求項１から７のいずれか１項に記載の複数のマスク画像を抽出する方法。
【請求項９】
前記第２の構築ステップは、
前記第１の３次元ボクセルデータの複数の第１のスライス画像を、ｘ軸、ｙ軸及びｚ軸方向から獲得するサブステップと、
前記複数の第１のスライス画像にフィルタ処理を施し、該フィルタ処理の結果に基づき第２の３次元ボクセルデータを構築するサブステップと、
を含むことを特徴とする請求項１から８のいずれか１項に記載の複数のマスク画像を抽出する方法。
【請求項１０】
前記第２の３次元ボクセルデータを構築するサブステップは、
前記複数の第１のスライス画像にフィルタ処理を施し、該フィルタ処理により白色になった画素を求め、該画素に対応する前記第１の３次元ボクセルデータの３次元座標を埋めることで、第２の３次元ボクセルデータを構築するステップであることを特徴とする請求項９に記載の複数のマスク画像を抽出する方法。
【請求項１１】
前記第２の抽出ステップ後に、前記複数の第５のマスク画像にフィルタ処理を施すステップをさらに含むことを特徴とする請求項１から１０のいずれか１項に記載の複数のマスク画像を抽出する方法。
【請求項１２】
被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、被写体の存在を表す複数のマスク画像を抽出するためのコンピュータを、
前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出手段と、
前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築手段と、
前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築手段と、
前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出する第２の抽出手段と、
して機能させ、複数のマスク画像を抽出することを特徴とするプログラム。
【請求項１３】
被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、３次元ボクセルデータを構築する方法であって、
前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出ステップと、
前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築ステップと、
前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築ステップと、
前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出する第２の抽出ステップと、
前記複数の第２のマスク画像から視体積交差法により、第３の３次元ボクセルデータを構築する第３の構築ステップと、
を含むことを特徴とする３次元ボクセルデータを構築する方法。
【請求項１４】
被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、３次元ボクセルデータを構築するためのコンピュータを、
前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出手段と、
前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築手段と、
前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築手段と、
前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、被写体画像及び／又は背景画像の色情報をもとにした加工を施し、複数の第２のマスク画像を抽出する第２の抽出手段と、
前記複数の第２のマスク画像から視体積交差法により、第３の３次元ボクセルデータを構築する第３の構築手段と、
して機能させ、３次元ボクセルデータを構築することを特徴とするプログラム。

【図１】