マスク画像を抽出する方法及びプログラム並びにボクセルデータを構築する方法及びプログラム

【課題】フィルタ処理に依存せず、少ない繰り返し回数で領域面積の大きい不要部を逐次的に除去することが可能な不要部除去処理を備えている精度の高いマスク画像を抽出する方法を提供する。
【解決手段】複数の被写体画像と複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出し、複数の第１のマスク画像から視体積交差法により、３次元ボクセルデータを構築する。３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する。第２の３次元ボクセルデータを基に、複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、閉領域分割に基づいた加工を施し、複数の第２のマスク画像を抽出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、マスク画像を抽出する方法及びプログラム、並びにボクセルデータを構築する方法及びプログラムに関する。より詳細には、被写体を撮影した画像と背景のみを撮影した画像からマスク画像を抽出するマッティング方法及びプログラム、並びに上記で抽出された複数枚のマスク画像から視体積交差法を適用しボクセルデータを構築するモデリングの方法及びプログラムに関する。
【背景技術】
【０００２】
従来、被写体を撮影した画像から被写体の存在を表すマスク画像を抽出するマッティング（ｍａｔｔｉｎｇ）と複数枚のマスク画像に視体積交差法を適用し３次元ボクセルデータを構築するモデリング（ｍｏｄｅｌｉｎｇ）は、別々に行われていた。このため、高精度なボクセルデータを構築するためには、まず高精度なマスク画像を抽出しなければならず、ブルーバックなどの特別な環境が必要であった。特許文献１及び非特許文献１では、背景差分に工夫をこらし、ボクセルデータの色情報を用いてマスク画像の欠損を埋めるマスク画像精度向上の方法を開示している。
【０００３】
しかしながら、この方法では、精度の高いボクセルデータを構築するためには、初めに十分精度の高いマスク画像が必要であった。そのため、手作業や、ブルーバックなどの特別な撮影環境を用いて、複雑な計算処理を行い、精度の高いマスク画像を抽出しなければならない。
【０００４】
そのため、非特許文献２では、
（１）被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、単純な背景差分を適用することで初期のマスク画像を取得した上で、視体積交差法を適用することで初期のボクセルデータを構築する。
（２）上記で得られたボクセルデータからスライス画像を抽出し、各スライス画像にメディアンフィルタをかけることにより、ボクセルデータの穴を埋めていき、この穴埋めに用いられた各ボクセルをマスク画像に投影し、当該ピクセルを白色ピクセルにすることで各マスク画像の穴を埋める。
（３）上記の穴埋め処理されたボクセルデータ全体を各撮影視点に投影した画像と、上記のマスク画像の双方が白色であるピクセルのみを、各撮影視点における新たなマスク画像の白色ピクセルとすることで、上記穴埋めされた各マスク画像の不要部を除去する。
【０００５】
（３）で得られた各マスク画像を（１）の初期のマスク画像として（１）〜（３）の処理を繰り返すことで、精度の高いマスク画像を抽出し、これにより精度の高いボクセルデータを構築した。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００７−１７３６４号公報
【非特許文献】
【０００７】
【非特許文献１】豊浦正広他「ランダムパターン背景を用いた視体積交差法のためのシルエット修復手法」２００５年電子情報通信学会総合大会Ｄ−１２−１３３
【非特許文献２】三功浩嗣他「被写体３次元モデルの各撮影視点へのフィードバック処理に基づく背景分離方式」２００９年電子情報通信学会総合大会Ｄ−１１−８５
【発明の概要】
【発明が解決しようとする課題】
【０００８】
しかしながら、上記非特許文献２の方法は、（２）においてブロックサイズの大きいフィルタ処理を適用し、（１）から（３）を多数繰り返し適用しなければ不要部が除去できなかった。そのため、被写体シルエットのエッジが鈍ってしまうとともに、多くの処理時間を要するという課題があった。また、（３）における不要部の領域面積が大きい場合は、（１）から（３）を多数繰り返しても不要部が除去できないという課題があった。
【０００９】
以下に、不要部が除去できないことを実際の画像により示す。図２３は、非特許文献２に記載の処理を１回適用したマスク画像を示し、図２４は、非特許文献２に記載の処理を３回適用したマスク画像を示し、図２５は、非特許文献２に記載の処理を９回適用したマスク画像を示す。回数を増やして行くにつれてマスク画像の精度は向上していくことが分かるが、矢印１および２で指摘される不要部は、繰り返して適用してもあまり変化がなく、不要部が除去されないことが分かる。
【００１０】
図２６は、図２５のマスク画像から構築されたボクセルデータを示す。ｘ軸方向から見た画像（ａ）、ｙ軸方向から見た画像（ｂ）、ｚ軸方向から見た画像（ｃ）を示す。なお、図２６ｂは、図２６ａ、図２６ｃに比べて５０％縮小されている。マスク画像の不要部分がボクセルデータに反映された結果、図２６ａの右から２番目の人物の足下と３番目の人物の足下がつながっている。
【００１１】
従って、本発明は、上記方法におけるフィルタ処理に依存せず、少ない繰り返し回数で領域面積の大きい不要部を逐次的に除去することが可能な不要部除去処理を備えている、精度の高いマスク画像を抽出する方法及びプログラム、並びに上記マスク画像からボクセルデータを構築する方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１２】
上記目的を実現するため本発明による複数のマスク画像を抽出する方法は、被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、被写体の存在を表す複数のマスク画像を抽出する方法であって、前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出ステップと、前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築ステップと、前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築ステップと、前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、閉領域分割に基づいた加工を施し、複数の第２のマスク画像を抽出する第２の抽出ステップとを含む。
【００１３】
また、前記第２の抽出ステップは、前記第２の３次元ボクセルデータにおいて、欠損が充填された３次元座標を各撮影視点に投影し、前記複数の第１のマスク画像における対応画素を白色にして複数の第１のサブマスク画像を抽出し、前記第２の３次元ボクセルデータを各撮影視点に投影し、複数の第２のサブマスク画像を抽出し、該複数の第２のサブマスク画像にフィルタ処理を施し、フィルタ処理された複数の第２のサブマスク画像と前記複数の第１のサブマスク画像の両画像共に白色である画素を白色とし、それ以外の画素を黒色とすることで、複数の第３のサブマスク画像を抽出し、該複数の第３のサブマスク画像を閉領域に分割し、所定の条件を満たす閉領域を除去することで、複数の第２のマスク画像を抽出するステップであることも好ましい。
【００１４】
また、前記所定の条件は、閉領域が所定の画素数以下であることも好ましい。
【００１５】
また、前記複数の第２のマスク画像を、前記第１の構築ステップにおける複数の第１のマスク画像とすることで、前記第１の構築ステップから前記第２の抽出ステップまでを所定の回数繰り返すことも好ましい。
【００１６】
また、前記第２の構築ステップは、前記第１の３次元ボクセルデータの複数の第１のスライス画像を、ｘ軸、ｙ軸及びｚ軸方向から獲得するサブステップと、前記複数の第１のスライス画像にフィルタ処理を施し、該フィルタ処理の結果に基づき第２の３次元ボクセルデータを構築するサブステップとを含むことも好ましい。
【００１７】
また、前記第２の３次元ボクセルデータを構築するサブステップは、前記複数の第１のスライス画像にフィルタ処理を施し、該フィルタ処理により白色になった画素を求め、該画素に対応する前記第１の３次元ボクセルデータの３次元座標を埋めることで、第２の３次元ボクセルデータを構築するステップであることも好ましい。
【００１８】
また、前記第２の抽出ステップ後に、前記複数の第２のマスク画像にフィルタ処理を施すステップをさらに含むことも好ましい。
【００１９】
上記目的を実現するため本発明による複数のマスク画像を抽出するプログラムは、被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、被写体の存在を表す複数のマスク画像を抽出するためのコンピュータを、前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出手段と、前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築手段と、前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築手段と、前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、閉領域分割に基づいた加工を施し、複数の第２のマスク画像を抽出する第２の抽出手段として機能させる。
【００２０】
上記目的を実現するため本発明による３次元ボクセルデータを構築する方法は、被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、３次元ボクセルデータを構築する方法であって、前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出ステップと、前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築ステップと、前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築ステップと、前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、閉領域分割に基づいた加工を施し、複数の第２のマスク画像を抽出する第２の抽出ステップと、前記複数の第２のマスク画像から視体積交差法により、第３の３次元ボクセルデータを構築する第３の構築ステップとを含む。
【００２１】
上記目的を実現するため本発明による３次元ボクセルデータを構築することを特徴とするプログラムは、被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、３次元ボクセルデータを構築するためのコン
ピュータを、前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出手段と、前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築手段と、前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築手段と、前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、閉領域分割に基づいた加工を施し、複数の第２のマスク画像を抽出する第２の抽出手段と、前記複数の第２のマスク画像から視体積交差法により、第３の３次元ボクセルデータを構築する第３の構築手段として機能させる。
【発明の効果】
【００２２】
本発明のマスク画像を抽出する方法及びプログラムは、ボクセルデータの情報をマスク画像に反映させ、各マスク画像の穴を埋め、各マスク画像の不要部を除去することを行い、マスク画像とボクセルデータの精度向上を補間的に行う。特に本発明では不要部除去処理を繰り返し行うことにより不要部が逐次的に除去される。特に本発明の不要部除去処理によれば、少ない繰り返し回数で不要部を除去できるため、被写体シルエットのエッジが鈍る度合を抑えることができ、処理時間の短縮が可能となる。また、従来手法では除去が不可能であった、面積の大きい不要部に対しても除去できる。
【００２３】
このように、本発明によれば、初めに高精度なマスク画像を必要とせず、さらに複雑な計算処理を行わずに高精度のマスク画像を抽出でき、この高精度のマスク画像から高精度のボクセルデータを構築できる。さらに、本発明は、特別な撮影環境に依らず、一般的な映像に対して適用可能である。
【図面の簡単な説明】
【００２４】
【図１】本発明によるマスク画像の抽出とボクセルデータの構築方法を示すフローチャートである。
【図２】閉領域を説明するための図である。
【図３】カメラ画像から得られたマスク画像の一例である。
【図４】図３のマスク画像から構築されたボクセルデータの一例を示す。
【図５】図３のマスク画像の穴を埋めたマスク画像を示す。
【図６】図５のマスク画像から不要部を除去したマスク画像を示す。
【図７】図６のマスク画像からさらに不要部を除去したマスク画像を示す。
【図８】図７のマスク画像にフィルタ処理を施したマスク画像を示す。
【図９】本発明のステップ３からステップ１０を２回実行することにより抽出されたマスク画像を示す。
【図１０】本発明のステップ３からステップ１０を３回実行することにより抽出されたマスク画像を示す。
【図１１】図８のマスク画像から構築されたボクセルデータを示す。
【図１２】図９のマスク画像から構築されたボクセルデータを示す。
【図１３】図１０のマスク画像から構築されたボクセルデータを示す。
【図１４】本発明のステップ８の処理が施された第１の視点のマスク画像を示す。
【図１５】本発明のステップ９の処理が施された第１の視点のマスク画像を示す。
【図１６】本発明のステップ８の処理が施された第２の視点のマスク画像を示す。
【図１７】２回目の繰り返しにおける本発明のステップ８の処理が施された第２の視点のマスク画像を示す。
【図１８】２回目の繰り返しにおける本発明のステップ９の処理が施された第２の視点のマスク画像を示す。
【図１９】３回目の繰り返しにおける本発明のステップ８の処理が施された第１の視点のマスク画像を示す。
【図２０】図１５、図１６のマスク画像から構築されたボクセルデータを示す。
【図２１】図１７、図１８のマスク画像から構築されたボクセルデータを示す。
【図２２】図１９のマスク画像から構築されたボクセルデータを示す。
【図２３】非特許文献２に記載の処理を１回適用したマスク画像を示す。
【図２４】非特許文献２に記載の処理を３回適用したマスク画像を示す。
【図２５】非特許文献２に記載の処理を９回適用したマスク画像を示す。
【図２６】図２５のマスク画像から構築されたボクセルデータを示す。
【発明を実施するための形態】
【００２５】
本発明を実施するための最良の実施形態について、以下では図面を用いて詳細に説明する。図１は、本発明によるマスク画像の抽出とボクセルデータの構築方法を示すフローチャートである。以下、本フローチャートに基づいて説明する。
【００２６】
ステップ１：円周配置の複数枚の被写体画像と背景画像を取得する。キャリブレーション済みのカメラを複数台円周上に配置して、該複数台のカメラで被写体と背景を含む被写体画像と背景のみを含む背景画像とを撮影し、複数の異なった方向から撮影した被写体画像と背景画像を取得する。例えば、カメラが３０台配置された場合、被写体画像画像及び背景画像はそれぞれ３０枚取得される。
【００２７】
ステップ２：上記の被写体画像画像と、背景画像とから、背景差分を行うことにより、複数枚のマスク画像を抽出する。本マスク画像は、従来技術の単純な背景差分により抽出されるため、精度は高くない。マスク画像はカメラの台数分抽出される。例えば、カメラが３０台配置された場合、３０枚のマスク画像が抽出される。
【００２８】
ステップ３：複数枚のマスク画像に、視体積交差法を適用することにより、３次元ボクセルデータを構築する。ボクセルデータの精度は、マスク画像の精度に依存するため、ステップ２で抽出されたマスク画像を用いる場合、構築されたボクセルデータの精度は高くない。
【００２９】
ステップ４：上記で獲得されたボクセルデータをスライス画像として獲得する。３次元ボクセルデータをある方向からのスライス画像の集まりと考えて、ボクセルデータをスライス画像としてｘ軸、ｙ軸及びｚ軸方向から獲得する。スライス画像は各軸とも座標範囲の枚数分を獲得する。例えば、ボクセルデータのｙ軸座標範囲が−２５６〜２５５であった場合は、５１２枚のスライス画像を獲得する。なお、ｙ軸は鉛直方向であり、ｘ軸及びｚ軸は、それぞれ水平方向である。
【００３０】
ステップ５：穴を埋めたボクセルデータを構築する。ステップ４のスライス画像は精度が高くないボクセルデータから獲得されている場合があるため、黒色である箇所が白色となり穴が空いている欠損や、逆に白色の部分に黒色が表れるノイズが含まれていることもある。そのため、各方向（ｘ軸、ｙ軸、ｚ軸）から獲得されたスライス画像に対してフィルタ処理を施す。例えば、ガウスフィルタを適用し欠損を充填することで穴の部分を埋め、メディアンフィルタを適用し不要なノイズを除去する。このようにして、フィルタ済スライス画像を得る。次に、フィルタ済スライス画像とフィルタされる前のスライス画像とを比較し、新たに白色となった画素（つまり、フィルタ処理により穴が埋められた画素）を求め、本画素に対応するボクセルデータの３次元座標を埋める。例えば、ｘ軸の座標ｘ１で獲得されたスライス画像において、白色となった画素が、ｙ座標ｙ１、ｚ座標ｚ１であった場合、ボクセルデータの３次元座標（ｘ１、ｙ１、ｚ１）を埋める。以上の処理を全スライス画像に行い、穴を埋めたボクセルデータを獲得する。
【００３１】
ステップ６：複数枚の穴を埋めたマスク画像を抽出する。ステップ５での３次元座標を各撮影視点に投影し、各マスク画像における対応画素を白色にする。つまり、スライス画像の３次元座標を撮影視点に投影して、各マスク画像を撮影した位置から見た画像を作成し、該画像においてステップ５の３次元座標に対応する画素を白色にする。これにより、穴が埋められたマスク画像が抽出される。
【００３２】
ステップ７：上記ステップ５で獲得されたボクセルデータを各撮影視点に投影し、複数枚のマスク画像を獲得する。
【００３３】
ステップ８：不要部を除去した複数枚のマスク画像を抽出する。ステップ７で獲得されたマスク画像にフィルタ処理を施す。ここで得られたマスク画像とステップ６で抽出されたマスク画像とを比較して、両画像ともに白色である場合のみ白色とし、それ以外の場合は該当箇所を黒色にする。以上の処理を全マスク画像に行い、不要部を除去したマスク画像を抽出する。
【００３４】
ステップ９：複数枚のマスク画像からさらに不要部を除去する。上記で得られたマスク画像を閉領域に分割し、所定の条件を満たす領域を不要部として除去する。つまり、所定の条件を満たす白色領域を黒色とすることにより不要部を除去する。なお、所定の条件の例として、不要部は影等の領域であり人物の領域よりも小さいと考えられるため、一定の画素数以下の領域を不要部とすることが考えられる。
【００３５】
ここで、閉領域は上下左右のいずれかにより連結している白色領域のことである。例えば、図２によるとＩ、ＩＩがそれぞれ閉領域となる。ＩとＩＩは斜め方向に連結されているが上下左右で連結していないため、別々の閉領域となる。また、マスク画像の必要部分の領域が削除されないようにするため、一定の画素数は必要部分の領域の画素数より小さい値である。例えば、画素数が１２８０×７２０で、人物のマスク画像である場合、人物の領域の画素数より小さい３０００程度が一定の画素数となる。
【００３６】
マスク画像中の影等の不要部は被写体領域と連結していることが少なくないので、多くの撮影視点におけるマスク画像では不要部は閉領域として抽出することができず除去できない。一方、視体積交差法は、各マスク画像のＡＮＤ演算を基にボクセルデータを構築するので、少なくとも１つのマスク画像で不要部が除去されると、ボクセルデータ上でその不要部に相当する領域が除去される。よって、当該不要部が除去されたボクセルデータを各撮影視点に投影した映像によりＡＮＤ演算をとることで、全てのマスク画像から当該不要部が除去される。
【００３７】
さらに、マスク画像中では複数の不要部が重なり合っていることが少なくないので、ある不要部が除去されることで、それまで被写体領域と連結していた別の領域が切り離され、閉領域として抽出できる可能性があり、繰り返し処理を適用することで各マスク画像およびボクセルデータから不要部が徐々に除去されていく。
【００３８】
ステップ１０：複数枚の穴を埋めたマスク画像を抽出する。上記で得られたマスク画像にフィルタ処理を施すことによりさらに穴を埋める。このように、穴を埋め（ステップ６）、不要な部分を削除し（ステップ８、ステップ９）、穴を埋める（ステップ１０）処理を施すことで、より高精度なマスク画像が抽出される。
【００３９】
ステップ１１：マスク画像の精度が十分であった場合、本マスク画像から視体積交差法を用いることにより、高精度なボクセルデータが構築される。マスク画像の精度が十分でなかった場合、ステップ１０で得られたマスク画像をステップ３の入力とすることにより、ステップ３からステップ１０を繰り返し、マスク画像とボクセルデータの精度を漸次更新していく。
【００４０】
一般に、視体積交差法を用いる場合、マスク画像における影や背景の不要部分は、ボクセルデータの生成にあまり影響を与えないが、人物マスク内の穴・欠損は、ボクセルデータの生成に大きな影響を与えるため、人物マスク内の穴・欠損を埋める必要がある。
【００４１】
また、ボクセルデータのスライス画像において人物が存在している画素（すなわち黒色でなく白色の画素）は、各マスク画像の該当画素においても必ず白色となるが、対象物体が存在していない画素（黒色の画素）は、各マスク画像において必ずしも黒色とは限らない。
【００４２】
よって、スライス画像における白色の画素が重要であり、スライス画像の精度の向上は、徐々に欠損・穴を埋めていくことになる。上記のステップ３からステップ１０を繰り返すことで、スライス画像の精度が向上し、ボクセルモデルの欠損が徐々に埋まっていく。
【００４３】
次に、マスク画像の精度が向上していくことを実際の画像により示す。図３は、カメラ画像から得られたマスク画像の一例である。図３は、ステップ２で単純な背景差分により生成されたマスク画像であり、見て分かる通り、精度は高くない。
【００４４】
図４は、図３のマスク画像から構築されたボクセルデータの一例を示す。ボクセルデータは３次元であるため、水平方向（ｘ軸方向）から見た画像（ａ）と、鉛直方向（ｙ軸方向）から見た画像（ｂ）と、水平方向（ｚ軸方向）から見た画像（ｃ）を示す。なお、図４ｂは、図４ａ、図４ｃに比べて５０％縮小されている。本ボクセルデータは、精度が高くない図３のマスク画像から構築されたため、精度が高くない。本来白色であるはずのところが黒色で埋まっていなかったり、本来黒色のところが白色であったりする。
【００４５】
図５は、図３のマスク画像の穴を埋めたマスク画像を示す。図５はステップ５及びステップ６の処理が施されたマスク画像であり、図５と図３を比較すると人物の部分において穴が埋まっている。つまり、黒色のところが白色になっていることが分かる。
【００４６】
図６は、図５のマスク画像から不要部を除去したマスク画像を示す。図６はステップ８の処理が施されたマスク画像であり、図６と図５を比較すると不要な部分が除去されていることが分かる。なお、図６のマスク画像は、ボクセルデータを各撮影視点に投影したステップ７のマスク画像にフィルタ処理を施して得られたマスク画像と図５のマスク画像の両方とも白い部分を抽出している（ステップ８の処理）ため、背景部分が除去されている。
【００４７】
図７は、図６のマスク画像からさらに不要部を除去したマスク画像を示す。図７はステップ９の処理が施されたマスク画像であり、図７と図６を比較すると、背景部分にある不要部分である白い閉領域が除去されていることが分かる。
【００４８】
図８は、図７のマスク画像にフィルタ処理を施したマスク画像を示す。図８はステップ１０の処理が施されたマスク画像であり、図８と図７を比較するとフィルタ処理により、さらに穴埋めがなされていることが分かる。
【００４９】
なお、図３、図５、図６、図７及び図８のマスク画像は、複数枚のマスク画像の１枚であり、実際にはカメラ台数分のマスク画像の処理が行われることになる。
【００５０】
図３のマスク画像と図８のマスク画像を比較すると、本発明のステップ３からステップ１０を１回実行することにより、マスク画像の精度が大幅に向上することが分かる。
【００５１】
本発明のステップ３からステップ１０は、複数回実行して、さらにマスク画像の精度を高めることができる。図９は、本発明のステップ３からステップ１０を２回実行することにより抽出されたマスク画像を示し、図１０は、本発明のステップ３からステップ１０を３回実行することにより抽出されたマスク画像を示す。図８、図９、図１０のマスク画像を比較すると、マスク画像の精度が漸次向上していくことが見て取れる。例えば、矢印１で指摘される箇所は、本来白色であるはずの人物内の箇所である。図８と図９を比較すると、図９では穴が完全にふさがっていることが分かる。また、矢印１の先にある黒色領域も図８、図９、図１０と処理を繰り返すにつれて小さくなっていくことが分かる。なお、図１０を見ると、精度の高いマスク画像が得られており、本発明のステップ３からステップ１０を３回も適用すれば十分な精度のマスク画像が得られることがわかる。
【００５２】
このように本発明の方法によれば、非特許文献２に記載の方法に比べて、短い繰り返し回数で精度の高いマスク画像を得ることができる（本発明では３回、非特許文献２では９回の繰り返しが必要）。このため、マスク画像を生成するための時間が短くなり、性能の低いコンピュータ上でも実行できることになる。さらに、繰り返し回数が少ないことより、ステップ５および１０でのフィルタの適用回数が少ないことになり、フィルタによりマスク画像のエッジ部分が鈍るという問題も少なくなる。
【００５３】
次に、上記の図８、図９、および図１０のマスク画像から構築されたボクセルデータを示す。それぞれ、図１１は、図８のマスク画像から構築されたボクセルデータを示し、図１２は、図９のマスク画像から構築されたボクセルデータを示し、図１３は、図１０のマスク画像から構築されたボクセルデータを示す。各図は、ｘ軸方向から見た画像（ａ）、ｙ軸方向から見た画像（ｂ）、ｚ軸方向から見た画像（ｃ）を示し、画像（ａ）、（ｃ）に比べ、画像（ｂ）は５０％縮小されている。それぞれ、マスク画像の精度向上と共にボクセルデータの精度の向上していることが分かる。例えば、ｘ軸方向の左から２番目の人物において、図１１、図１２、図１３と進むにつれて、次第に穴が小さくかつ、少なくなっていくことが分かる。また、ｘ軸方向の右から２番目の人物の足下の（背景であり黒色であるべき）白色の部分が、図１１では存在するが、図１２、図１３で完全になくなっていることが分かる。このように精度の向上したマスク画像から精度の向上したボクセルデータが構築されることが分かる。
【００５４】
本発明のステップ９の処理の有効性を、上記とは別の実際の画像により示す。図１４は本発明のステップ８の処理が施された第１の視点のマスク画像を示し、図１５は本発明のステップ９の処理が施された第１の視点のマスク画像を示す。図１４と図１５を比較すると矢印２および３で指摘される箇所は不要部であり、矢印２で指摘される箇所は閉領域であるため、ステップ９の処理で除去されることが分かる。
【００５５】
図１６は、本発明のステップ８の処理が施された第２の視点のマスク画像を示す。図１７は、２回目の繰り返しにおける本発明のステップ８の処理が施された第２の視点のマスク画像を示し、図１８は、２回目の繰り返しにおける本発明のステップ９の処理が施された第２の視点マスク画像を示す。図１６は、図１４と同じ状態であり、矢印２および３で指摘される不要部が存在する（図１４、図１６では視点が異なるため不要部の形は異なっている）。本図においては、不要部はどちらも閉領域ではないため、ステップ９の処理により除去されることはない。しかしながら、上記で示したように第１の視点のマスク画像において、矢印２で指摘される箇所は除去され、繰り返し処理を適用することで、この除去が第２の視点のマスク画像にも反映される。このため、図１７には図１６の矢印２で指摘される部分は存在しなくなる。第２の視点のマスク画像の場合、矢印２で指摘される部分が除去されると矢印３で指摘される部分が閉領域となる。このため、次のステップ９の処理により、図１８のように矢印３で指摘された部分が除去される。
【００５６】
図１９は、３回目の繰り返しにおける本発明のステップ８の処理が施された第１の視点のマスク画像を示す。上記のように第２の視点のマスク画像において矢印３で指摘された不要部が除去され、その結果が第１の視点のマスク画像にも反映され、図１９には図１５で存在した不要部が除去されている。
【００５７】
以上のように本発明のステップ９の処理により、ある視点のマスク画像の不要部が除去されると、繰り返し処理を適用することで他の視点のマスク画像の不要部も除去される。また、不要部が除去されることで、それまで被写体領域と連結していた不要部が、被写体領域から切り離され、閉領域として抽出でき、除去できるようになる。このように、本発明のステップ９の処理を繰り返し適用することで各マスク画像およびボクセルデータから不要部が徐々に除去されていく。
【００５８】
次に、上記の図１４から図１９のマスク画像から構築されたボクセルデータを示す。それぞれ、図２０は、図１５、図１６のマスク画像から構築されたボクセルデータを示し、図２１は、図１７、図１８のマスク画像から構築されたボクセルデータを示し、図２２は、図１９のマスク画像から構築されたボクセルデータを示す。各図は、ｘ軸方向から見た画像（ａ）、ｙ軸方向から見た画像（ｂ）、ｚ軸方向から見た画像（ｃ）を示し、画像（ａ）、（ｃ）に比べて画像（ｂ）は５０％縮小されている。それぞれ、マスク画像の精度向上と共にボクセルデータの精度の向上していることが分かる。例えば、ｙ軸方向の矢印２で指摘される部分は、図２０ｂでは存在するが、図２１ｂでは除去されていることが分かる。また、ｙ軸方向の矢印３で指摘される部分は、図２０ｂおよび図２１ｂでは存在するが、図２２ｂでは除去されていることが分かる。また、ｘ軸方向の右から２番目の人物の足下の（背景であり黒色であるべき）白色の部分が、図２０ａ、図２１ａでは存在するが、図２２ａで完全になくなっていることが分かる。このように精度の向上したマスク画像から精度の向上したボクセルデータが構築されることが分かる。
【００５９】
また、以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。

【特許請求の範囲】
【請求項１】
被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、被写体の存在を表す複数のマスク画像を抽出する方法であって、
前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出ステップと、
前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築ステップと、
前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築ステップと、
前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、閉領域分割に基づいた加工を施し、複数の第２のマスク画像を抽出する第２の抽出ステップと、
を含むことを特徴とする複数のマスク画像を抽出する方法。
【請求項２】
前記第２の抽出ステップは、前記第２の３次元ボクセルデータにおいて、欠損が充填された３次元座標を各撮影視点に投影し、前記複数の第１のマスク画像における対応画素を白色にして複数の第１のサブマスク画像を抽出し、前記第２の３次元ボクセルデータを各撮影視点に投影し、複数の第２のサブマスク画像を抽出し、該複数の第２のサブマスク画像にフィルタ処理を施し、フィルタ処理された複数の第２のサブマスク画像と前記複数の第１のサブマスク画像の両画像共に白色である画素を白色とし、それ以外の画素を黒色とすることで、複数の第３のサブマスク画像を抽出し、該複数の第３のサブマスク画像を閉領域に分割し、所定の条件を満たす閉領域を除去することで、複数の第２のマスク画像を抽出するステップであることを特徴とする請求項１に記載の複数のマスク画像を抽出する方法。
【請求項３】
前記所定の条件は、閉領域が所定の画素数以下であることを特徴とする請求項２に記載の複数のマスク画像を抽出する方法。
【請求項４】
前記複数の第２のマスク画像を、前記第１の構築ステップにおける複数の第１のマスク画像とすることで、前記第１の構築ステップから前記第２の抽出ステップまでを所定の回数繰り返すことを特徴とする請求項１から３のいずれか１項に記載の複数のマスク画像を抽出する方法。
【請求項５】
前記第２の構築ステップは、
前記第１の３次元ボクセルデータの複数の第１のスライス画像を、ｘ軸、ｙ軸及びｚ軸方向から獲得するサブステップと、
前記複数の第１のスライス画像にフィルタ処理を施し、該フィルタ処理の結果に基づき第２の３次元ボクセルデータを構築するサブステップと、
を含むことを特徴とする請求項１から４のいずれか１項に記載の複数のマスク画像を抽出する方法。
【請求項６】
前記第２の３次元ボクセルデータを構築するサブステップは、
前記複数の第１のスライス画像にフィルタ処理を施し、該フィルタ処理により白色になった画素を求め、該画素に対応する前記第１の３次元ボクセルデータの３次元座標を埋めることで、第２の３次元ボクセルデータを構築するステップであることを特徴とする請求項５に記載の複数のマスク画像を抽出する方法。
【請求項７】
前記第２の抽出ステップ後に、前記複数の第２のマスク画像にフィルタ処理を施すステップをさらに含むことを特徴とする請求項１から６のいずれか１項に記載の複数のマスク画像を抽出する方法。
【請求項８】
被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、被写体の存在を表す複数のマスク画像を抽出するためのコンピュータを、
前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出手段と、
前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築手段と、
前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築手段と、
前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、閉領域分割に基づいた加工を施し、複数の第２のマスク画像を抽出する第２の抽出手段と、
して機能させ、複数のマスク画像を抽出することを特徴とするプログラム。
【請求項９】
被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、３次元ボクセルデータを構築する方法であって、
前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出ステップと、
前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築ステップと、
前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築ステップと、
前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、閉領域分割に基づいた加工を施し、複数の第２のマスク画像を抽出する第２の抽出ステップと、
前記複数の第２のマスク画像から視体積交差法により、第３の３次元ボクセルデータを構築する第３の構築ステップと、
を含むことを特徴とする３次元ボクセルデータを構築する方法。
【請求項１０】
被写体と背景を撮影した複数の被写体画像と背景のみを撮影した複数の背景画像とから、３次元ボクセルデータを構築するためのコンピュータを、
前記複数の被写体画像と前記複数の背景画像とから背景差分により、複数の第１のマスク画像を抽出する第１の抽出手段と、
前記複数の第１のマスク画像から視体積交差法により、第１の３次元ボクセルデータを構築する第１の構築手段と、
前記第１の３次元ボクセルデータに対して、欠損を充填する及び／又はノイズを除去する加工を施し、第２の３次元ボクセルデータを構築する第２の構築手段と、
前記第２の３次元ボクセルデータを基に、前記複数の第１のマスク画像の欠損を充填する及び／又はノイズを除去する、閉領域分割に基づいた加工を施し、複数の第２のマスク画像を抽出する第２の抽出手段と、
前記複数の第２のマスク画像から視体積交差法により、第３の３次元ボクセルデータを構築する第３の構築手段と、
して機能させ、３次元ボクセルデータを構築することを特徴とするプログラム。

【図１】