説明

情報処理システム、情報処理装置、撮像装置、および情報処理方法

【課題】対象物の動画像から応答性よく位置情報を取得する。
【解決手段】撮像装置12は第1カメラ22、第2カメラ24を含む。各カメラはそれぞれ、既知の幅を隔てた左右の位置から同じタイミング、同じフレームレートで対象物を撮影する。そして撮影した各フレーム画像を所定の複数の解像度の画像データに変換する。情報処理装置14の入力情報取得部26は、ユーザからの指示入力を取得する。位置情報生成部28は、ステレオ画像のデータのうち低解像度、広範囲の画像で対象物の領域または動きのある領域を対象領域としておよそ見積もり、当該領域のみ高解像度の画像でステレオマッチングを行い、対象物の3次元の位置を特定する。出力情報生成部32は、対象物の位置に基づき必要な処理を行い出力情報を生成する。通信部30は、撮像装置12に対する画像データの要求および取得を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画撮影している対象物の動きに合わせた処理を行う情報処理システム、当該システムに含まれる情報処理装置、撮像装置、および当該システムで用いる情報処理方法に関する。
【背景技術】
【0002】
近年、パーソナルコンピュータやゲーム機などにカメラを搭載し、ユーザの姿を撮像して様々な形で利用することが一般的に行われるようになってきた。例えばテレビ電話、ビデオチャットなど、ユーザの画像を、ネットワークを介してそのまま相手に伝送するものや、画像解析によってユーザの動きを認識してゲームや情報処理の入力情報とするものなどが実用化されている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】WO 2007/050885 A2公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
撮影画像を利用して様々な処理を応答性よく高精度に実現するためには、その処理内容に応じた画質が求められる。しかしながら製造コスト、画像の伝送帯域、撮影から出力までの応答性などの点から、単にカメラの性能や画質を上げることのみによって情報処理装置の機能を充実化させるのは困難な状況にある。たとえばカメラの撮像素子を高性能化するほど、カメラとホスト間の画像データ伝送の帯域を圧迫するうえ、画像解析に要する時間が増大する。
【0005】
本発明はこのような課題に鑑みてなされたものであり、その目的は、撮影画像を利用した情報処理を応答性よく実現することのできる技術を提供することにある。
【課題を解決するための手段】
【0006】
本発明のある態様は情報処理装置に関する。この情報処理装置は、対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理装置であって、ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを取得し、動き差分を求めることにより動き領域を特定する動き領域特定部と、当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する対象領域決定部と、当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定する解像度決定部と、ステレオ動画像に含まれる画像フレーム対の対象領域を適正解像度で表した画像データを取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得して出力する位置情報取得部と、を備えたことを特徴とする。
【0007】
本発明の別の態様は撮像装置に関する。この撮像装置は、対象物を異なる視点から同時にビデオ撮影する一対のカメラを備えた撮像装置であって、各カメラは、撮像素子を用いて撮像された未加工画像を取得する画像取得部と、未加工画像にデモザイク処理を行うデモザイク処理部と、デモザイク後の画像を段階的に縮小し解像度の異なる複数の画像に変換するフィルタ部と、接続した情報処理装置から、解像度と領域を指定した画像データの転送要求を受け付け、解像度の異なる複数の画像から、当該転送要求に合致する解像度および領域の画像のデータを抽出して前記情報処理装置へ転送する画像送出部と、を備えたことを特徴とする。
【0008】
本発明の別の態様は情報処理システムに関する。この情報処理システムは、対象物を異なる視点から同時にビデオ撮影する一対のカメラを備えた撮像装置と、撮像装置が撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理装置と、を備え、撮像装置の各カメラは、撮像素子を用いて撮像された未加工画像を取得する画像取得部と、未加工画像にデモザイク処理を行うデモザイク処理部と、デモザイク後の画像を段階的に縮小し解像度の異なる複数の画像に変換するフィルタ部と、情報処理装置から、解像度と領域を指定した画像データの転送要求を受け付け、解像度の異なる複数の画像から、当該転送要求に合致する解像度および領域の画像のデータを抽出して情報処理装置へ転送する画像送出部と、を備え、情報処理装置は、ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを撮像装置から取得し、動き差分を求めることにより動き領域を特定する動き領域特定部と、当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する対象領域決定部と、当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定する解像度決定部と、ステレオ動画像に含まれる画像フレーム対の対象領域を適正解像度で表した画像データを撮像装置から取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得して出力する位置情報取得部と、を備えたことを特徴とする。
【0009】
本発明のさらに別の態様は情報処理方法に関する。この情報処理方法は、対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより、対象物の位置情報を所定のレートで出力してメモりに格納する情報処理方法であって、ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを撮像装置から取得し、動き差分を求めることにより動き領域を特定するステップと、当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定するステップと、当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定するステップと、ステレオ動画像に含まれる画像フレーム対の対象領域を適正解像度で表した画像データを撮像装置から取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得してメモリに出力するステップと、を含むことを特徴とする。
【0010】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0011】
本発明によると、撮影画像を入力情報として利用する情報処理を応答性よく実現することができる。
【図面の簡単な説明】
【0012】
【図1】本実施の形態を適用できる情報処理システムの構成例を示す図である。
【図2】本実施の形態における撮像装置と情報処理装置の構成を示す図である。
【図3】本実施の形態における第1カメラの構成を詳細に示す図である。
【図4】本実施の形態における画像送出部の構成を示す図である。
【図5】本実施の形態における情報処理装置の位置情報生成部の構成を詳細に示す図である。
【図6】本実施の形態における撮像装置、位置情報取得部、および対象領域決定部が行う処理の時間的関係を模式的に示す図である。
【図7】本実施の形態における情報処理装置の動き領域検出部、領域予測部、領域統合部が行う処理の様子を模式的に示す図である。
【図8】本実施の形態における階層決定部が、対象領域の大きさに基づきステレオマッチングに用いる階層を選択する様子を模式的に示す図である。
【図9】本実施の形態における撮像装置が生成する撮影画像の階層と、位置情報取得部のデータ生成部が生成する奥行き画像の階層の対応を示す図である。
【図10】本実施の形態の変形例における第1カメラの構成を詳細に示す図である。
【発明を実施するための形態】
【0013】
図1は本実施の形態を適用できる情報処理システムの構成例を示す。情報処理システム10は、ユーザ1などの対象物を撮影する2つのカメラを搭載した撮像装置12、撮影した画像に基づき、ユーザの要求に応じた情報処理を行う情報処理装置14、情報処理装置14が処理した結果得られた画像データを出力する表示装置16を含む。また情報処理装置14はインターネットなどのネットワーク18と接続可能とする。
【0014】
情報処理装置14と、撮像装置12、表示装置16、ネットワーク18とは、有線ケーブルで接続されてよく、また無線LAN(Local Area Network)などにより無線接続されてもよい。撮像装置12、情報処理装置14、表示装置16のうちいずれか2つ、または全てが組み合わされて一体的に装備されていてもよい。また、撮像装置12は必ずしも表示装置16の上に設置されていなくてもよい。さらにユーザ1は人でなくてもよく、その数も限定されない。
【0015】
撮像装置12は、それぞれがCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)等の撮像素子を備えた2つのデジタルビデオカメラを既知の間隔で左右に配置した構成を有する。2つのデジタルビデオカメラはそれぞれ、同一空間に存在する対象物を左右の位置から所定のフレームレートで撮影する。以後、このように撮影されたフレームの対を「ステレオ画像」とも呼ぶ。撮像装置12はさらに、撮影した結果得られた一対のRAW画像から、異なる解像度の複数の画像データをそれぞれ生成する。
【0016】
情報処理装置14は、カメラの視野に対する縦、横、奥行き、の3次元空間における対象物の位置座標を所定のレートで特定する。このとき、撮像装置12から取得したステレオ画像のデータに基づきステレオマッチングを行う。このようにして得られた位置座標の時間変化は、対象物の動きを入力情報として用いる後段の処理に利用される。例えば、対象物であるユーザ1の動作を反映させたキャラクタが登場するゲームや、ユーザ1の動きをコマンド入力に変換する情報処理などに用いることができるが、その内容は限定されない。
【0017】
表示装置16は、情報処理装置14が行った処理の結果を、必要に応じて画像として表示する。表示装置16は、画像を出力するディスプレイおよび音声を出力するスピーカを有するテレビであってよく、例えば液晶テレビ、プラズマテレビ、PCディスプレイ等である。上述のとおり情報処理装置14が最終的に実行する処理内容や表示すべき画像はその使用目的によって特に限定されるものではないため、以後は情報処理装置14が行う、対象物の位置の特定処理に主眼を置き説明する。
【0018】
図2は撮像装置12と情報処理装置14の構成を示している。図2〜図5に示す各機能ブロックは、ハードウェア的には、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、描画回路などの構成で実現でき、ソフトウェア的にはデータ入力機能、データ保持機能、画像解析機能、描画機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
【0019】
撮像装置12は第1カメラ22、第2カメラ24を含む。各カメラはそれぞれ、既知の幅を隔てた左右の位置から同じタイミング、同じフレームレートで対象物を撮影する。そして撮影した各フレーム画像を所定の複数の解像度の画像データに変換する。同図ではこのようにして生成した画像を模式的に示しており、第2カメラにおいて、画像2、画像4、画像6、画像8の順に、段階的に解像度が増加している。同図では4段階の解像度としているがその数は限定されない。第1カメラ22が生成する画像も同様である。
【0020】
各画像は撮影タイミングごとに生成されるため、結果として時間軸に対する画像列が各解像度で生成される。同図では当該時間軸を奥行き方向に模式的に示している。同一時刻に生成される画像は、各解像度に対応する階層を有する階層構造を構成すると捉えることができる。以後の説明ではこれらの画像を、最低解像度の画像から解像度順に第0階層の画像、第1階層の画像、第2階層の画像、・・・と呼ぶ。図2の例では画像2が第0階層、画像4が第1階層、画像6が第2階層、画像8が第3階層の画像となる。
【0021】
情報処理装置14は、ユーザからの指示入力を取得する入力情報取得部26、撮影画像に基づきユーザ1などの対象物の位置情報を生成する位置情報生成部28、対象物の位置に基づき必要な処理を行い出力情報を生成する出力情報生成部32、および撮像装置12に対する画像データの要求および取得を行うインターフェースである通信部30を含む。
【0022】
入力情報取得部26は、ユーザからの指示入力を受け付け、それに応じた処理要求信号をその他の機能ブロックに送信する。入力情報取得部26は、ボタン、キーボード、マウス、トラックボール、タッチパネルなど一般的な入力装置と、当該入力装置になされた操作内容を解釈して処理要求信号を生成するCPUなどの協働により実現する。
【0023】
位置情報生成部28は、第1カメラ22および第2カメラ24が生成したステレオ画像のデータを利用してステレオマッチングを行い、対象物の3次元の位置を特定する。このとき、処理対象となる画像データを時間的、空間的に取捨選択し必要最低限とすることにより、精度への影響を少なく、処理の負荷を軽減する。
【0024】
具体的には、低解像度、広範囲の画像で対象物の領域または動きのある領域を対象領域としておよそ見積もり、当該領域のみ高解像度の画像でステレオマッチングを行う。ステレオマッチングでは一般的に、2つの画像の対応点を抽出するための探索を行うが、この探索範囲を狭くすることでステレオマッチングの効率を向上させる。なお本実施の形態は動画像を入力情報として利用した情報処理を実現するため、主に対象物の「動き」のある部分の位置情報を得る手法について説明する。
【0025】
このとき、対象物の動きのある領域を所定時間後まで予測することにより、当該領域を見積もる処理をステレオマッチングを行うタイミングと切り離して行う。例えば情報処理装置14をマルチスレッド対応のコンピュータで実現する場合、これらの2つを別のスレッドとして独立に実行する。このようにすることで、精度の必要なステレオマッチング処理により多くの時間をかけることができる。例えばステレオマッチング処理は撮影画像の全フレームを処理対象とするのに対し、領域を見積もる処理は所定の数フレームおきに行い、次に領域を見積もる処理がなされるまでの各フレームについて予測を行う。
【0026】
また領域を見積もる処理には、ステレオマッチングを行うための適正な階層の選択も含まれる。対象物が手前にあるほど視差が大きいため、比較的解像度の小さい画像であっても左右の画像のずれ幅が大きく、ステレオマッチングの精度を維持しやすい。逆に対象物が奧にあるほど視差が小さくなるため、解像度の小さい画像では左右のずれが誤差範囲にとどまりステレオマッチングの精度を保ちにくい。
【0027】
そこで本実施の形態では、動きのある領域の大きさによってステレオマッチングに用いる画像の階層を選択する。解像度の大きい画像を用いても、対応点を得るために探索すべき領域は上述のとおり局所的であるため、結果として、対象物の奥行き方向の位置に関わらず処理対象の画像サイズは同等となり計算量は大きく変化しない。そのため計算時間の見積もりも容易である。
【0028】
位置情報生成部28はさらに、ステレオマッチングにより得られた対象物の奥行き方向の位置座標を、縦方向、横方向からなる画像平面上の画素値とした奥行き画像を生成する。この奥行き画像は、カメラが生成する撮影画像の階層構造と同じ複数の解像度で表した階層構造とする。上述のとおり対象物の動きは、奥行き方向の位置によって、それを動きと認めるのに必要な空間解像度が存在する。すなわち後段に出力情報生成部32が行う処理に求められる空間解像度によってはそのような動きを無視した方が却って精度が上がる場合がある。そこで奥行き画像を階層構造として、後段の処理が求める解像度によって参照する階層を切り替えることにより当該処理の効率および精度を向上させる。
【0029】
出力情報生成部32は、位置情報生成部28が生成した位置情報を取得し、その使用目的に応じた処理を適宜行う。上述のとおりここで行う処理は特に限定されないが、入力情報取得部26が受け付けたユーザからの指示に応じて適宜切り替えてよい。このとき上述のとおり、あらかじめ定められた解像度に対応する階層の奥行き画像を参照し、行う処理にとって意味のある動きのみを取得する。処理の結果得られたデータは、表示装置16に表示させたりネットワーク18を介して別の装置へ送信したりする。
【0030】
使用目的によっては出力情報生成部32は、撮像装置12のいずれかのカメラが撮影した画像に、位置情報生成部28が生成した位置情報に基づく加工を施して表示装置16に表示させてもよい。例えば撮影されたユーザ1の手や把持するコントローラなどの動きを位置情報生成部28から取得して、撮影画像の該当位置に剣の画像を重ね合わせる加工を全フレーム対し行うことにより、ユーザが剣を持って振り回す様子を表現できる。
【0031】
この場合、位置情報生成部28がステレオマッチングに用いるステレオ画像のうち片方のフレームを同時に取得してそれぞれに加工を施し表示装置16に出力してもよいし、ステレオマッチングとは独立に片方のカメラが撮影した各フレームの画像データを取得し加工してもよい。ステレオマッチングを行うレート、対象領域の見積もり処理を行うレート、出力画像の生成に用いるフレームレートはそれぞれ独立に決定してよい。
【0032】
各処理のレートが増加するほど時間解像度の観点で詳細な処理が可能になるが、通信帯域や処理の負荷が増加する。そのため情報処理システム10の本来の性能や、並行して行っている処理の有無などに応じて選択するようにしてもよい。使用可能な通信帯域や処理リソースと、それらのレートとを対応づけたテーブルを用意しておき、実際の処理環境に応じて当該テーブルを参照することにより決定してもよい。
【0033】
通信部30は、第1カメラ22、第2カメラ24が生成した階層構造の画像のうち、情報処理装置14における処理に必要な階層および領域の情報を入力情報取得部26、位置情報生成部28から取得して撮像装置12へ要求する。それに応じて撮像装置12から送信された画像データを、位置情報生成部28、出力情報生成部32へ適宜供給する。
【0034】
図3は第1カメラ22の構成を詳細に示している。なお第2カメラ24も同じ構成を有する。第1カメラ22は、画像取得部102、デモザイク部104、画像送出部150、ピラミッドフィルタ部170および通信部108を備える。画像取得部102は、CCDまたはCMOS等の撮像素子で露光された画像を所定のタイミング(例えば、60回/秒)で読み出す。以下の説明では、この画像は横方向に画素h個分の幅を有するものとする。この画像はいわゆるRAW画像である。画像取得部102は、RAW画像の横一列分の露光が完了する毎に、これをデモザイク部104および画像送出部150に送る。
【0035】
デモザイク部104は、画素h個分の容量を有するFIFO(First In First Out)バッファ105と簡易デモザイク処理部106とを有する。FIFOバッファ105には、RAW画像の横一列分の画素情報が入力され、次の横一列分の画素がデモザイク部104に入力されるまでそれを保持する。簡易デモザイク処理部106は、横二列分の画素を受け取ると、それらを用いて、各画素に対してその周辺画素に基づき色情報を補完してフルカラー画像を作り出すデモザイク(de-mosaic)処理を実行する。
【0036】
当業者には周知のように、このデモザイク処理には多数の手法が存在するが、ここでは横二列分の画素のみを利用する簡易なデモザイク処理で十分である。一例として、対応するYCbCr値を算出すべき画素がG値のみを有している場合は、R値は左右に隣接するR値を平均、G値は当該G値をそのまま使用、B値は上または下に位置するB値を使用してRGB値とし、これを所定の変換式に代入してYCbCr値を算出するなどである。このようなデモザイク処理は周知であるからこれ以上詳細な説明は省略する。
【0037】
簡易なデモザイク処理の変形例として、RGBの4画素から一画素のYCbCr値を構成する手法を用いてもよい。この場合は、RAW画像の1/4サイズのデモザイク後画像が得られるので、後述する第1フィルタ110は不要になる。簡易デモザイク処理部106は、例えば図示のように、横2×縦2のRGBの4画素をYCbCrカラー信号に変換する。そして、この4画素からなるブロックは、画像送出部150に1/1デモザイク画像として渡されるとともに、ピラミッドフィルタ部170に送られる。
【0038】
ピラミッドフィルタ部170は、ある画像を複数の解像度に階層化して出力する機能を有する。ピラミッドフィルタは、一般に必要とする解像度のレベルに応じた数の1/4縮小フィルタを備えるが、本実施形態では第1フィルタ110〜第4フィルタ140の4階層のフィルタを有している。各フィルタは、相互に隣接する4個の画素をバイリニア補間して4画素の平均画素値を演算する処理を実行する。したがって、処理後の画像サイズは処理前の画像の1/4になる。
【0039】
第1フィルタ110の前段には、Y、Cb、Crのそれぞれの信号に対応して、画素h個分のFIFOバッファ112が一つずつ配置される。これらのFIFOバッファ112は、横一列分のYCbCr画素を、次の横一列分の画素が簡易デモザイク処理部106から出力されるまで保持する役割を有する。画素の保持時間は、撮像素子のラインスキャンの速度に応じて決まる。
【0040】
横二列分の画素が入力されると、第1フィルタ110は、横2×縦2の4画素分のY、Cb、Crの画素値を平均する。この処理を繰り返すことによって、1/1デモザイク後画像は縦横それぞれ1/2の長さとなり、全体として1/4のサイズに変換される。変換された1/4デモザイク後画像は、画像送出部150に送られるとともに、次段の第2フィルタ120に渡される。
【0041】
第2フィルタ120の前段階には、Y、Cb,Crのそれぞれの信号に対応して、画素2/h個分のFIFOバッファ122が一つずつ配置される。これらのFIFOバッファ114も、横一列分のYCbCr画素を、次の横一列分の画素が第1フィルタ110から出力されるまで保持する役割を有する。
【0042】
横二列分の画素が入力されると、第2フィルタ120は、横2×縦2の4画素分のY、Cb、Crの画素値を平均する。この処理を繰り返すことによって、1/4デモザイク後画像は縦横それぞれ1/2の長さとなり、全体として1/16のサイズに変換される。変換された1/16デモザイク後画像は、画像送出部150に送られるとともに、次段の第3フィルタ130に渡される。
【0043】
第3フィルタ130および第4フィルタ140についても、それぞれの前段にh/4個分のFIFOバッファ132またはh/8個分のFIFOバッファ142が配置される以外は、上記と同様の処理を繰り返す。そして、画像送出部150に、1/64および1/256サイズのデモザイク後画像を出力する。なお、上記のようなピラミッドフィルタは、欧州特許出願公開第0999518号明細書などに記載されているように周知であるから、本明細書ではこれ以上の詳細な説明を省略する。
【0044】
このように、ピラミッドフィルタ部170の各フィルタからは、1/4ずつ縮小された画像出力が画像送出部150に入力される。これから分かるように、ピラミッドフィルタ部170内のフィルタを通過するほど、各フィルタの前段に必要となるFIFOバッファの大きさは小さくて済むようになる。
【0045】
画像送出部150は、画像取得部102から受け取ったRAW画像、デモザイク部104から受け取った1/1デモザイク後画像、およびピラミッドフィルタ部170から受け取った1/4〜1/256デモザイク後画像からなる階層画像のうち、情報処理装置14の通信部30から通信部108を介して受けた指示に応じて必要な階層および領域を選び出す。そして、これら画像でパケットを構成して通信部108に送る。
【0046】
通信部108は、例えばUSB1.0/2.0等の所定のプロトコルにしたがって、パケットを情報処理装置14に送出する。情報処理装置14との通信は有線に限らず、例えばIEEE802.11a/b/gなどの無線LAN通信、IrDAなどの赤外線通信であってもよい。
【0047】
図4は、画像送出部150の構成を示している。画像送出部150は、ブロック書込部152、バッファ154、ブロック読出部156、符号化部158、パケット化部160、パケットバッファ162および制御部164を有する。制御部164は、情報処理装置14からの指示に基づき、ブロック書込部152およびブロック読出部156に各種画像データのうちいずれをパケットとして送出するかを指示する。
【0048】
ブロック書込部152には、デモザイク部104およびピラミッドフィルタ部170を経由して1/1〜1/256サイズのデモザイク後画像が入力される。また、情報処理装置14の出力情報生成部32が実行する処理内容によっては、画像取得部102からRAW画像が入力される。ブロック書込部152の階層選択部152Aは、制御部164からの指示に基づき、デモザイク後画像のいずれかの階層を選択する。
【0049】
切り出しブロック選択部152Bは、情報処理装置14から送られる、処理に必要な領域の位置情報を受け取り、その領域から所定の画素数だけ広い領域を内包するブロックを特定ブロックとして選択する。なお、一ブロックの大きさは、後段のJPEG符号化に合わせて8×8画素のブロックであることが好ましい。ブロック選択部152Bは選択されたデモザイク後画像の一部のブロックのみを切り出したうえ、バッファ154に書き込む。
【0050】
このとき、2×2の画素毎に画像を受け取り、順次バッファ154に書き込む。ブロック読出部156は、バッファ154上に一ブロック分の画素が準備できた順に、各画像ブロックを読み出して符号化部158に送る。ブロック書込部152およびブロック読出部156は、制御部164によって同期動作するように調整されている。つまり、ブロック書込部152による読み書きは、画像取得部102、デモザイク部104およびピラミッドフィルタ部170から画素が出力される毎に行われるのに対し、ブロック読出部156による読み出しは、バッファ154に一ブロック分の画素が蓄積される毎に行われる。この同期タイミングはカメラの露光速度に応じて決まる。
【0051】
本実施形態では、RAW画像の全体や縮小画像の全体分の画素が揃ってから情報処理装置14に送るのではなく、ブロック単位で送出するので、バッファ154は最大でもRAW画像および縮小画像の全ての画像ブロックを蓄積できる大きさで十分である。画像の使用目的によっては、2〜3個の画像ブロックを蓄積できればよい。このように、バッファされるデータを少なくし、ブロックができる毎に順次パケット化して転送するので、撮像装置12内の処理に伴うレイテンシが削減される。
【0052】
また、画像取得部102からの画素の出力およびピラミッドフィルタ部170からは、撮像素子の露光が終わるたびに順次ブロック書込部152に画素が出力されてくるため、異なるフレームのブロックがバッファ154に書き込まれたり、ブロックが異なる順序でパケット化して送られるようなことは、構造上起こりえない。
【0053】
符号化部158は、RAW画像以外の画像の画像ブロックに対して、JPEG等の周知の圧縮符号化を実行し、パケット化部160に送る。パケット化部160は、符号化後の画像の画像ブロックを、パケット化部160に到来した順にパケット化してパケットバッファ162に書き込む。通信部108は、パケットバッファ162内のパケットを、所定の通信プロトコルにしたがって情報処理装置14に転送する。なおRAW画像以外の画像についても、符号化部158による圧縮符号化を行わず、パケット化部160がブロック読出部156から取得したブロックを直接パケット化してもよい。
【0054】
なお、LLVC、AVC等の他の周知の符号化も使用することができるが、ブロック単位で符号化できるものが好ましい。また、ブロック読出部156で読み出されるブロックの大きさも符号化に合わせて変更することができ、例えば256×256単位のブロックで読み出しと符号化が行われてもよい。
【0055】
図5は情報処理装置14の位置情報生成部28の構成を詳細に示している。位置情報生成部28は、ステレオマッチングに用いる対象領域および階層を決定する対象領域決定部40、および、ステレオマッチングを行い対象物の位置情報を取得する位置情報取得部42を含む。対象領域決定部40は全体画像取得部44、動き領域検出部46、領域予測部48、領域統合部50、および階層決定部52を含む。
【0056】
全体画像取得部44は、撮像装置12の第1カメラ22および第2カメラ24がそれぞれ生成したステレオ画像の階層データのうち、最も解像度の低い第0階層の全領域の画像を所定のレートで取得する。ここで取得する画像はY画像のみとしてもよい。ただし処理能力や通信速度などに応じて用いる階層、画像の種類は適宜選択してよい。
【0057】
動き領域検出部46は、全体画像取得部44が取得したステレオ画像のそれぞれについて動き領域を検出する。例えば対象物を人とした場合、まず顔検出を行い、人の像があると考えられる領域を見積もる。そして見積もった領域について1つ前の時間ステップで用いた画像との差分画像を取得し、所定のしきい値以上の差分を有する領域、またはそれに外接する領域などを動き領域として検出する。
【0058】
領域予測部48は、ステレオ画像のそれぞれについて、動き領域検出部46が検出した動き領域に基づき、将来のステレオマッチング処理で探索すべき対象領域を予測する。領域統合部50は、領域予測部48が予測した、ステレオ画像における対象領域を統一座標系で統合し、各時刻に対し1つの対象領域を決定する。階層決定部52は、当該対象領域の大きさに基づき、ステレオマッチングを精度よく行え、かつ無駄に解像度が高くない階層を選択する。
【0059】
位置情報取得部42は、対象領域画像取得部53、位置特定部54、無効データ検出部56、データ生成部58を含む。対象領域画像取得部53は、対象領域決定部40が決定した対象領域および階層を指定して撮像装置12からステレオ画像データを取得する。位置特定部54は対象領域画像取得部53が取得したステレオ画像に対しステレオマッチングを行い、奥行き方向の位置を含む3次元の位置情報を特定する。
【0060】
ここで実施するステレオマッチング処理は、これまでに提案されている様々な手法のいずれを用いてもよい。例えば左右の画像の一方に相関窓を設定し、他方の画像の探索窓を動かしながら相関窓の画像との相互相関係数を算出することにより対応点を取得したうえ、これらの対応点の視差に基づき三角測量の原理を用いて3次元の位置情報を求める面積相関法などを用いることができる。
【0061】
無効データ検出部56は、位置特定部54が特定した位置情報のうち、無効とすべきデータを特定する。上述のとおり対象物が奧にあるほどその視差は小さくなるため、解像度の小さい画像では奥行き方向の位置が算出されたとしてもその誤差は大きい。すなわちステレオマッチングに用いる画像の解像度によって、適正に算出できる奥行き方向の範囲が異なり、解像度が低いほどその限界が手前に位置することになる。
【0062】
そこで各階層に対して、データを有効としてよい限界を深度限界として奥行き方向に対して設定しておき、位置特定部54が特定した奥行き方向の位置と比較することにより無効なデータを特定する。このようにすることで、撮像装置12自体が揺れたり、本来動きを追うべき対象物以外の大きな動きが背後で発生したときにそれをデータとして後段の処理に用いてしまう不具合の発生を防止する。
【0063】
データ生成部58は、無効データ検出部56が特定した無効なデータを除外した結果残った位置情報に基づき奥行き画像を作成する。奥行き画像は上述のとおり、撮像装置12で生成する複数の解像度に対応する解像度を有する階層構造とする。奥行き画像の階層データは、あらかじめすべての画素値に0など初期値を与え、奥行き画像データ記憶部60に格納しておく。
【0064】
そして位置特定部54が対象物の位置を特定するたびに、ステレオマッチングに用いた撮影画像の階層に対応する階層の、対応する位置の画素を奥行き方向の座標値とすることで奥行き画像を更新する。結果として奥行き画像データは、ステレオマッチングの処理レートと同じレートで更新される。情報処理装置14の出力情報生成部32は、自らが行う処理に必要な空間解像度に応じて、奥行き画像データのうち階層を選択して位置情報を読み出し、適宜処理に利用する。
【0065】
図6は撮像装置12、位置情報取得部42、および対象領域決定部40が行う処理の時間的関係を模式的に示しており同図横方向が時間軸を表す。時刻0にすべての処理を開始すると、撮像装置12は時刻t1、t2、t3、・・・、t18、・・・に所定のフレームレートで対象物を撮影し、複数の解像度の画像データを生成して必要なデータを情報処理装置14に送出する。図6では撮像装置12が行う画像データ生成処理を全期間における連続した矩形で表しているが、実際には各撮影時刻に撮影された画像のデータ生成、データ送出が終了したら次の撮影時刻まで待機してよい。位置情報取得部42が行う処理も同様である。
【0066】
初回の時刻t1の撮影画像のうち低解像度の全体画像は、情報処理装置14の対象領域決定部40に供給される(S1)。このとき位置情報取得部42にも所定の階層の全体画像を供給する(S2)。このときの階層は、対象物が標準的な位置にいるときを想定してステレオマッチングの精度が十分得られる範囲で解像度の低い階層をあらかじめ設定しておく。解像度の低い画像ほどサイズが小さいため、対応点の探索が効率的に行える。
【0067】
位置情報取得部42では、S2で供給されたステレオ画像を用いてステレオマッチング、無効データの除外、奥行き画像更新の処理を順に行う。これにより時刻t1に対応する対象物の位置情報が、階層構造を有する奥行き画像の形式で出力される。一方、対象領域決定部40では、S1で供給されたステレオ画像を用いて動き領域検出、領域予測、領域統合、階層決定の処理を順に行う。そして決定した対象領域と階層の情報を位置情報取得部42に通知する(S3)。
【0068】
このとき決定する対象領域と階層の情報は、時刻t2、t3、t4、t5、t6、t7に撮影される画像に対するものである。そのため対象領域決定部40の領域予測部48は各時刻までの時間を考慮し、現在の動き領域からの対象物の可動範囲を推定し、当該範囲を含むように各時刻に対して対象領域を予測する。位置情報取得部42は、S3で通知された情報に基づき、時刻t2、t3、t4、t5、t6、t7における撮影画像のデータが生成される都度、各時刻に対応して決定された対象領域および階層のステレオ画像データを取得する(S4、S5、S6、S7、S8、S9)。
【0069】
S9と同じタイミングで、時刻t7の撮影画像のうち最低解像度の全体画像が対象領域決定部40に供給される(S10)。対象領域決定部40は再び、動き領域検出、領域予測、領域統合、階層決定の処理を順に行い、その結果決定した対象領域と階層の情報を位置情報取得部42に通知する(S11)。このとき決定する対象領域と階層の情報は、時刻t8、t9、t10、t11、t12、t13に撮影される画像に対するものである。
【0070】
以下、同様の処理を繰り返すことにより、各時刻に撮影された画像における対象物の位置情報が奥行き画像として出力される。なお同図では、撮像装置12が撮影したすべてのフレームに対し位置情報を取得したが、上述のとおり、出力情報生成部32が行う後段の処理において位置情報に求められる時間解像度や、情報処理システム10の処理能力に応じて、処理の時間間隔を広げてもよい。例えば対象領域決定部40における処理と同じレートで処理を行ってもよい。
【0071】
図7は情報処理装置14の動き領域検出部46、領域予測部48、領域統合部50が行う処理の様子を模式的に示している。画像61は第1カメラ22が撮影した画像、画像62は第2カメラ24が撮影した画像である。各カメラは時刻tに対して所定のレートで撮影しているため同図に示すように時間tに対して画像列が生成される。この例において、ある時刻の画像61と画像62には、同図の実線で示すように人が写っている。
【0072】
第1カメラ22と第2カメラ24は左右に並んだ別の視点から人を撮影しているため、画像61および画像62における人の像は左右に視差が生じている。対象領域決定部40は、このように左右の視点から撮影されたステレオ画像を利用して対象領域を求める。まず動き領域検出部46は、画像61および画像62に対し独立に動き領域の決定を行う。
【0073】
具体的には、まず対象物が人であれば顔検出処理を行うことで、画像61に対して顔領域64a、画像62に対し顔領域64bを検出する。顔検出処理はパターンマッチングなど一般的に行われている様々な手法のいずれを適用してもよい。対象物が人でなくても、形状が既知でありテンプレート画像が準備できれば同様の処理が行える。例えば手、被写体たるユーザが把持するマーカなどでも、その形状を表すテンプレート画像をあらかじめメモリなどに準備しておくことにより同様に処理が可能である。
【0074】
次に、顔領域64a、64bの大きさおよび位置に基づき、各画像61、62に対し、動き領域である可能性の高い領域を動き検出対象領域66a、66bとしてそれぞれ決定する。動き領域である可能性の高い領域とはつまり人の体が及ぶ範囲であり、顔の位置が既知であれば予測は容易である。例えば、基準の顔の輪郭線とその顔に対し設定すべき動き検出対象領域の範囲を矩形で示した基準画像を準備しておき、顔検出処理でえられた顔領域64a、64b内の顔の輪郭に、基準の顔の輪郭線がおよそ重なるように基準画像を拡大または縮小する。そのときの基準画像の矩形が動き検出対象領域66a、66bとなる。
【0075】
次に動き検出対象領域66a、66bについて、前回の対象領域決定処理時に取得した全体画像における対応する領域との差分画像を、左の画像間、右の画像間でそれぞれ取得したうえ、差分が所定のしきい値より大きい箇所を抽出する。同図では、前回に取得した全体画像において写っていた左手を、画像61、62上に点線で示している。その他の部分に変化がなかったとすると、左手部分にのみ差分が大きく表れる。このように差分がしきい値以上の箇所を抽出し、それに外接する矩形を動き領域68a、68bとして決定する。
【0076】
次に領域予測部48は、画像61および画像62のそれぞれに対し決定した動き領域68a、68bに基づき、ステレオマッチングの対象となる画像の撮影時刻を想定した領域予測を行う。この処理は、単に時間経過に比例する量で、動き領域68a、68bを縦方向、横方向に同じ比率で拡大していってもよいし、前回以前の対象領域決定処理時に取得した複数の画像から自己回帰モデルなどに基づき対象物の移動方向を予測したうえ、動き領域68a、68bを当該方向にのみ拡大していってもよい。あるいはそれらを組み合わせてもよい。
【0077】
このようにして、画像61、画像62のそれぞれに対し、予測領域70a、70bが決定される。なお同図では予測領域が各画像につき1つのみ示されているが、上述のとおり、ステレオマッチングの対象画像が撮影される各時刻に対して予測領域を決定する。次に領域統合部50は、左右の画像それぞれに対して決定した予測領域70a、70bを、画像平面を構成する正規化座標系で重ね合わせてその和となる領域(少なくともいずれかの領域に含まれる領域)を求めることにより統合する。
【0078】
左右の異なる視点から撮影した画像は横方向に視差が生じるため、予測領域70a、70bは同図に示すように画像平面を構成する座標系でx方向(横方向)にずれる。このように2つの画像から対象領域を決定するのは次の理由による。すなわち対象物が手前にいるほどその像は見かけ上大きくなるため、その動きが及ぶ範囲が広くなり、上記のように決定した予測領域を超えてしまう可能性が上がる。
【0079】
そこで対象物の奥行き方向の位置に依存したみかけ上の動きの大きさの変化に応じて、対象領域の広さを調整するために視差を利用する。視差が大きければ予測領域70a、70bのずれが大きくなるため、その和となる領域が広くなり、視差が小さければそのずれが小さくなるためその和となる領域はあまり広くならない。このようにして対象物の奥行き方向の位置を考慮して領域の広さを調整することにより、対象物が対象領域からはずれるのを防止しながらも余分な領域は含まれないようにする。
【0080】
なお領域統合部50はさらに、和となる領域を所定の拡大率で縦横双方向に拡大した領域を最終的な対象領域72として決定する。このようにすることで、対象物が対象領域からはずれる可能性をさらに低くできる。
【0081】
図8は階層決定部52が、対象領域の大きさに基づきステレオマッチングに用いる階層を選択する様子を模式的に示している。同図において矩形80a、80b、80c、80dは、撮影画像の階層のうち第3階層、第2階層、第1階層、第0階層の画像サイズを表している。図7において画像の正規化座標系で決定した対象領域72は、各画像サイズに対して矩形72a、72b、72c、72dのような大きさとなる。
【0082】
このように対象領域72を各階層の画像サイズに対応させて得た矩形72a、72b、72c、72dを、基準サイズ矩形82と比較し、対象領域のサイズが基準サイズ矩形82のサイズに近くなる階層を選択する。基準サイズ矩形82は、ステレオマッチング時に好適な精度を得るために必要な、対象物の見かけ上の大きさを規定したものであり、実験などによりあらかじめ設定しておく。
【0083】
サイズの大小は、2つの矩形が内包関係を有するときの内包される矩形を「小さい」と見なしてもよいし、面積で比較してもよい。あるいは縦、横、どちらか一方の辺の長さのみで比較してもよい。また階層の選択にあたっては、各階層に対応する矩形72a、72b、72c、72dのうち、サイズの順列で基準サイズ矩形82と前後する2つの矩形のいずれを選択してもよく、必ずしも最もサイズの近い矩形でなくてもよい。
【0084】
例えば図8の場合、基準サイズ矩形82は、矩形72a、72b、72c、72dのうち矩形72bと矩形72cの間のサイズを有するため、矩形72bに対応する第2階層、または矩形72cに対応する第1階層を選択する。例えば最大サイズである第3階層の矩形72aからサイズの大きい順に比較していき(S20、S22、S24、S26の順)、初めて基準サイズ矩形82に内包された矩形に対応する階層を選択してもよい。同図の例では、矩形72cに対応する第1階層を選択する。
【0085】
このような手順とすると、基準サイズ矩形に近い矩形が得られる階層のうち、解像度の低い方の階層を選択でき、計算量をより抑えることができる。いずれにしろ、基準サイズ矩形82に近いサイズの対象領域が得られる階層をこのように選択することにより、上述のとおり、対象物の見かけ上の大きさに合わせて、ステレオマッチングに用いる画像の解像度を調整することができる。結果として、必要以上に詳細な画像データを探索する無駄の発生を防止しつつ、その精度を保つことができる。
【0086】
図9は、撮像装置12が生成する撮影画像の階層と、位置情報取得部42のデータ生成部58が生成する奥行き画像の階層の対応を示している。同図において上側の4組の画像82a、82b、82c、82dが、ある時刻に撮影されたステレオ画像、下側の4つの画像84a、84b、84c、84dが、当該ステレオ画像に対し生成された奥行き画像であり、それぞれ左から順に第0階層、第1階層、第2階層、第3階層の画像である。
【0087】
例えば人が棒状の物を顔の前で振っている様子を撮影すると、ある時刻において画像82a、82b、82c、82dのような撮影画像が2つの視点に対して1枚ずつ生成される。このような撮影画像に対し対象領域決定部40が決定した階層が第2階層、対象領域が領域86であったとすると、位置情報取得部42は当該階層、当該領域の左右の画像データを取得してステレオマッチングを行う。
【0088】
そしてその領域における対象物の位置情報が得られたら、奥行き画像の階層データのうち、対応する階層における対応する領域、すなわち領域88の画素値を更新する。このとき領域86に対して得られた奥行き方向の位置座標のうち最も小さい値(手前の位置)が、第2階層に設定された深度限界より奥にあるときは更新処理を行わない。これは上述のとおり、本来当該解像度では対象物の位置としては正確に得られるはずのない奥行き方向の位置における大きな動きが何らかの要因で発生した場合をエラーとして除外するためである。階層と深度限界とはあらかじめ対応づけてテーブルとしてメモリなどに格納しておく。
【0089】
このように、奥行き画像を階層構造とし、ステレオマッチングに用いた撮影画像の階層に対応する階層のデータを各時刻において更新していく。画像の解像度は、当該画像から精度よく得られる対象物の奥行き方向の位置の範囲に対応する。そのため、ステレオマッチングに用いた画像の解像度ごとに奥行き画像を階層化し、得られた位置情報を対応する階層にのみ反映させることにより、対象物の位置を、奥行き方向の位置の範囲で区分していることにもなる。
【0090】
この奥行き画像を用いて処理を行う出力情報生成部32は、行う処理の内容や求める精度などによって奥行き画像の階層を適宜選択して参照することにより、必要な情報は確実に取得しつつ、余分なデータを処理に組み込んで処理精度が低下したり処理速度が落ちたりすることを防止できる。
【0091】
例えばカメラから遠い対象物の動きを無視したいときは第0階層、第1階層など低解像度の画像のみを参照する。逆に奥の対象物の動きのみに注目する場合は、第2階層、第3階層など高解像度の画像のみを参照する。手前から奥の方まで広い範囲における動きを全て取得したい場合は、第0階層から第3階層までを順に参照していってもよい。参照すべき奥行き画像の階層は、実際に処理を行って検証することにより、処理内容、想定される対象物の位置、大きさなどに対して設定しておいてもよい。
【0092】
以上述べた本実施の形態によれば、撮像装置にカメラを2つ設け、異なる視点から対象物の動画を同時に撮影する。撮影した画像はピラミッドフィルタにより解像度の異なる複数の階層画像へ変換する。そして、低い解像度の全体画像を用いて動き領域を検出し、その大きさに見合った階層を選択したうえ、対象物の動きがあると予測される対象領域のみを取得してステレオマッチングを行う。
【0093】
これにより、対象物が奥行き方向のどの位置にいても、ステレオマッチングの精度が維持できる範囲で無駄なデータ処理を省くことができ、精度と処理効率を両立させることができる。また対象物の位置が変化しても対象領域の画像サイズは大きく変化しないため、計算量が対象物の位置によらず、安定した位置情報出力が可能となる。
【0094】
また対象物の動きなどに基づき将来の対象領域を予測することにより、対象領域を決定する処理とステレオマッチングとを独立したタイミングで行う。これにより処理リソースや処理能力、求められる応答性、精度などに鑑み、これら2つの処理をどのような頻度で行うかを自由に決定することができる。
【0095】
また対象領域の決定には、2つのカメラによって撮影されたステレオ画像を2つとも用い、双方において得られた動き領域の和となる領域に基づき対象領域を決定する。これにより、動きの及ぶ範囲が大きい、手前の対象物については対象領域をより広げることができ、対象領域から対象物がはみ出る可能性が低くなる。一方ではみ出る可能性がもともと低い、奥の対象物は、対象領域の広がりが抑えられ、無駄な領域を対象領域に含めることが少なくなる。
【0096】
さらに、得られた位置情報は、奥行き方向の位置を画素値とする奥行き画像を複数の解像度で表した階層構造とする。そしてステレオマッチングで用いた画像に対応する階層の領域の画素値を各時刻で更新する。これにより、位置情報を用いて行う後段の処理に求められる精度、解像度、対象物の奥行き方向の位置の想定範囲、などによって参照する階層を切り替えることができ、参照処理、および参照した情報を用いた各種処理を効率化できる。
【0097】
以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0098】
例えば本実施の形態では、対象領域決定部40が決定した対象領域に対しステレオマッチングを行うことにより、対象物の3次元の位置情報を取得したが、対象領域を決定する技術は、ステレオマッチング以外の処理にも適用することができる。例えば顔の表情認識処理など奥行き方向の詳細な位置情報を必要としない処理でもよい。この場合もステレオ画像を用いて、顔の奥行き方向の位置によって対象領域の広さを調整し、最適な解像度の画像を選択することができるため、その後の処理の精度および効率を両立させることができる。
【0099】
また本実施の形態では、動きのある領域、すなわち対象領域を特定するための初期処理として、情報処理装置14の動き領域検出部46が顔検出処理を行った。一方、この顔検出処理の機能を撮像装置12の各カメラに設けるようにしてもよい。図10はそのような場合の第1カメラ22の構成を示している。ここで第1カメラ22が備える画像取得部102、デモザイク部104、画像送出部150、ピラミッドフィルタ部170および通信部108は図3における各機能ブロックと同一であり、この変形例ではさらに対象物検出部180を備える。第2カメラ24も同じ構成を有する。
【0100】
対象物検出部180は、情報処理装置14において対象領域決定部40が処理対象とする画像、例えば最も解像度の低い第0階層の全領域の画像を画像送出部150のブロック読み出し部156から取得し、それに対して顔検出処理を行うことにより顔領域を特定する。そしてその領域の位置および大きさに係る情報を、画像送出部150のパケット化部160に通知し、検出対象の画像データ本体とともにパケット化して情報処理装置14へ送信する。あるいは検出対象の画像の識別情報などに対応づけて通信部108から情報処理装置14へ送信する。
【0101】
この場合、情報処理装置14の動き領域検出部46は、各時刻の画像における顔領域に係る情報を、画像データとともに撮像装置12から取得することで、図7に示した顔領域64a、64bを検出する処理を行わずにすむ。このとき動き領域検出部46は、動き検出対象領域66a、66bを決定する処理から開始する。このように撮像装置12の処理能力によって処理の分担を変化させることにより、効率のよい対象領域特定が行え、結果的に応答性および精度のよい位置情報生成が可能となる。
【0102】
ここで対象物検出部180が行う検出処理は、上述のとおり既存のテンプレートマッチング技術を導入して適当なテンプレート画像を準備することにより、その対象は人の顔にとどまらず、手、マーカ、所定の物などのいずれでもよい。例えば情報処理装置14において、ユーザが開始を指定したゲーム名や情報処理の種類などに応じて、入力情報取得部26が、それに対応する対象物を特定し、撮像装置12に識別情報を通知する。
【0103】
撮像装置12の各カメラは、図示しないメモリに準備した複数のテンプレート画像から、通知された対象物に対応するテンプレート画像を読み出し、テンプレートマッチングを行うことにより対象物を検出する。あるいは情報処理装置14がテンプレート画像のデータそのものを撮像装置12に送信するようにしてもよい。このようにすることで、ユーザの指示入力などに従って対象物を様々に変化させることができる。
【符号の説明】
【0104】
10 情報処理システム、 12 撮像装置、 14 情報処理装置、 16 表示装置、 22 第1カメラ、 24 第2カメラ、 26 入力情報取得部、 28 位置情報生成部、 30 通信部、 32 出力情報生成部、 40 対象領域決定部、 42 位置情報取得部、 44 全体画像取得部、 46 動き領域検出部、 48 領域予測部、 50 領域統合部、 52 階層決定部、 53 対象領域画像取得部、 54 位置特定部、 56 無効データ検出部、 58 データ生成部、 60 奥行き画像データ記憶部、 102 画像取得部、 104 デモザイク部、 108 通信部、 150 画像送出部、 151 ブロック選択部、 164 制御部、 170 ピラミッドフィルタ部、 180 対象物検出部。

【特許請求の範囲】
【請求項1】
対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理装置であって、
前記ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを取得し、動き差分を求めることにより動き領域を特定する動き領域特定部と、
当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する対象領域決定部と、
当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定する解像度決定部と、
前記ステレオ動画像に含まれる画像フレーム対の前記対象領域を前記適正解像度で表した画像データを取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得して出力する位置情報取得部と、
を備えたことを特徴とする情報処理装置。
【請求項2】
前記動き領域特定部は、前記位置情報取得部が画像データを取得するレートより小さいレートで画像データを取得し、前記位置情報取得部がステレオマッチングを行うフレームにおける対象物の動き領域を、各撮影時刻に対応して予測することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記対象領域決定部は、前記動き領域特定部が前記画像フレーム対のそれぞれの画像フレームに対し特定した動き領域を統一座標系において重ね合わせ、その和となる領域に基づき前記対象領域を決定することを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記解像度決定部は、前記対象領域決定部が決定した対象領域を所定の複数の解像度で表したときの画像の大きさを表す複数の矩形と、あらかじめ定めた基準の大きさを有する矩形とからなる大きさの順列において、前記基準の大きさを有する矩形の次に小さい矩形に対応する解像度を、前記適正解像度とすることを特徴とする請求項1から3のいずれかに記載の情報処理装置。
【請求項5】
前記動き領域特定部は、対象物の存在する領域に基づき、あらかじめ定めた当該領域との位置関係により決定される動き検出対象領域内で動き差分を求めることにより、動き領域を特定することを特徴とする請求項1から4のいずれかに記載の情報処理装置。
【請求項6】
前記解像度決定部は、あらかじめ設定した複数の解像度のいずれかを適正解像度として選択し、
前記位置情報取得部は、メモリに格納した、画像平面において対象物の奥行き方向の位置を画素値として表した奥行き画像を前記複数の解像度で表した奥行き画像データのうち、ステレオマッチングに用いた画像の解像度の奥行き画像を更新することにより、対象物の位置情報を出力することを特徴とする請求項1から5のいずれかに記載の情報処理装置。
【請求項7】
対象物を異なる視点から同時にビデオ撮影する一対のカメラを備えた撮像装置であって、各カメラは、
撮像素子を用いて撮像された未加工画像を取得する画像取得部と、
前記未加工画像にデモザイク処理を行うデモザイク処理部と、
デモザイク後の画像を段階的に縮小し解像度の異なる複数の画像に変換するフィルタ部と、
接続した情報処理装置から、解像度と領域を指定した画像データの転送要求を受け付け、前記解像度の異なる複数の画像から、当該転送要求に合致する解像度および領域の画像のデータを抽出して前記情報処理装置へ転送する画像送出部と、
を備えたことを特徴とする撮像装置。
【請求項8】
前記カメラは、前記画像送出部がデータを送出する画像のうち少なくとも一部の画像に対し、設定された対象物の検出処理を施し、検出した対象物の領域の位置および大きさを特定する対象物検出部をさらに備え、
前記画像送出部は、前記画像のデータとともに前記対象物の位置および大きさに係る情報を前記情報処理装置へ転送することを特徴とする請求項7に記載の撮像装置。
【請求項9】
前記対象物検出部は、前記情報処理装置から指定された対象物に対応するテンプレート画像と、検出処理を施す画像とをテンプレートマッチングすることにより対象物を検出することを特徴とする請求項8に記載の撮像装置。
【請求項10】
対象物を異なる視点から同時にビデオ撮影する一対のカメラを備えた撮像装置と、前記撮像装置が撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理装置と、を備え、
前記撮像装置の各カメラは、
撮像素子を用いて撮像された未加工画像を取得する画像取得部と、
前記未加工画像にデモザイク処理を行うデモザイク処理部と、
デモザイク後の画像を段階的に縮小し解像度の異なる複数の画像に変換するフィルタ部と、
前記情報処理装置から、解像度と領域を指定した画像データの転送要求を受け付け、前記解像度の異なる複数の画像から、当該転送要求に合致する解像度および領域の画像のデータを抽出して前記情報処理装置へ転送する画像送出部と、
を備え、
前記情報処理装置は、
前記ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを前記撮像装置から取得し、動き差分を求めることにより動き領域を特定する動き領域特定部と、
当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する対象領域決定部と、
当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定する解像度決定部と、
前記ステレオ動画像に含まれる画像フレーム対の前記対象領域を前記適正解像度で表した画像データを前記撮像装置から取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得して出力する位置情報取得部と、
を備えたことを特徴とする情報処理システム。
【請求項11】
対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより、対象物の位置情報を所定のレートで出力してメモりに格納する情報処理方法であって、
前記ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを撮像装置から取得し、動き差分を求めることにより動き領域を特定するステップと、
当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定するステップと、
当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定するステップと、
前記ステレオ動画像に含まれる画像フレーム対の前記対象領域を前記適正解像度で表した画像データを撮像装置から取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得してメモリに出力するステップと、
を含むことを特徴とする情報処理方法。
【請求項12】
対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより、対象物の位置情報を所定のレートで出力してメモりに格納する機能をコンピュータに実現させるコンピュータプログラムであって、
前記ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを取得し、動き差分を求めることにより動き領域を特定する機能と、
当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する機能と、
当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定する機能と、
前記ステレオ動画像に含まれる画像フレーム対の前記対象領域を前記適正解像度で表した画像データを取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得してメモリに出力する機能と、
をコンピュータに実現させるコンピュータプログラム。
【請求項13】
対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより、対象物の位置情報を所定のレートで出力してメモりに格納する機能をコンピュータに実現させるコンピュータプログラムを記録した記録媒体であって、
前記ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを取得し、動き差分を求めることにより動き領域を特定する機能と、
当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する機能と、
当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定する機能と、
前記ステレオ動画像に含まれる画像フレーム対の前記対象領域を前記適正解像度で表した画像データを取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得してメモリに出力する機能と、
をコンピュータに実現させるコンピュータプログラムを記録した記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図10】
image rotate

【図9】
image rotate


【公開番号】特開2012−216006(P2012−216006A)
【公開日】平成24年11月8日(2012.11.8)
【国際特許分類】
【出願番号】特願2011−79990(P2011−79990)
【出願日】平成23年3月31日(2011.3.31)
【出願人】(310021766)株式会社ソニー・コンピュータエンタテインメント (417)
【Fターム(参考)】