説明

映像処理装置および映像処理方法

【課題】テレビ電話での遠隔会話において、ユーザが自分の状況を相手に見せることに関して抵抗感を軽減する。
【解決手段】現実空間を撮像装置によって撮像した映像を入力し、入力された映像に映る現実空間における状況を認識し、入力された映像を記録し、入力された映像に対する認識結果に基づいて、映像記録手段が過去に記録した映像を含む複数の映像から映像通信に利用する映像を選択し、選択された映像を加工して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は映像処理装置および映像処理方法に関し、特に、映像認識結果を基準に選択的に撮り貯めた日常行動映像を基に、遠隔通信時の状況に合った映像を加工するために用いて好適な技術に関する。
【背景技術】
【0002】
離れた複数箇所間でそれぞれの状況をカメラで撮像した映像を伝達しあいながら会話する、いわゆる「テレビ電話」と呼ばれるコミュニケーションメディアが実用化されている。テレビ電話は、一般の電話と違い、あたかも対面しているかのように会話できるので、離れて暮らす家族や遠くに住む友人などとの遠隔会話などに利用されている。
【0003】
ただし、「あたかも対面しているかのように会話できる」というテレビ電話の一つの特徴は、逆に言えば「会話時には必ずカメラに映る自分が相手に伝達される」ということであり、人によっては利用に抵抗を感じることがある。例えば、起床直後であったり、風呂上りであったりなど、いわゆる身づくろいをしていない時間帯にカメラに姿を映されるのを嫌う人は、少なからずいるだろうと考えられる。
【0004】
この点に対して、相手に見せてもよい映像を事前に撮り貯めておき、それらの映像から、会話時の状況(自身の表情や周囲の人の有無など)に応じたものを選んで相手に伝達するという方法が種々提案されている。例えば、特許文献1、特許文献2、特許文献3、特許文献4などにより提案されている。それらの方法により、相手に見せてもよい映像を事前に用意しておけば、抵抗感なく(もしくは少なく)、あたかも対面しているかのように、遠隔の人と会話することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2005−151231号公報
【特許文献2】特開2008−270912号公報
【特許文献3】特開2008−271609号公報
【特許文献4】特開2009−246566号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、「相手に見せてもよい映像」を単に事前に用意しておくだけでは、必ずしも撮り貯めた映像の中に遠隔会話時の状況に合った映像が含まれることが保証されない。言い換えると、事前に撮り貯めておかなかった表情や姿勢が遠隔会話時の状況として起こることを、否定することはできない。加えて、「人」は時間とともに外見は変わっていくので(例えば、髪が伸びるなど)、映像を用意した時点から一定期間が経過した後には、「今」の自分に近い状況が撮り貯めた映像に含まれない。
【0007】
そのため、会話時の状況にあった映像を伝えることはできないということも起こり得る。こうした事態を回避するには、撮り貯めておく「相手に見せてもよい映像」を豊富に用意するとともに、それらを継続的に更新していけばよいが、どんなに大量の映像を用意しようとも、そこに含まれない状況は起こりえる。また、大量の映像を継続的に更新し続けるというのは非常に手間がかかるので実用的ではない。
本発明は前述の問題点に鑑み、ユーザの状況に応じた映像を相手に伝達するテレビ電話において、事前に撮り貯めておいた映像に含まれない状況であっても、その状況に応じた映像を相手に伝達できるようにすることを目的とする。
【課題を解決するための手段】
【0008】
本発明の映像処理装置は、現実空間を撮像装置によって撮像した映像を入力する映像入力手段と、前記入力された映像に映る前記現実空間における状況を認識する映像認識手段と、前記入力された映像を記録する映像記録手段と、前記入力された映像に対する認識結果に基づいて、前記映像記録手段が過去に記録した映像を含む複数の映像から映像通信に利用する映像を選択する映像選択手段と、前記選択された映像を加工して出力する映像出力手段とを有することを特徴とする。
【発明の効果】
【0009】
本発明によれば、ユーザ自身が手間をかけることなく、常時更新されていく「相手に見せてもよい自分」が映る映像から選択され加工される映像を、テレビ電話の相手に伝達することができる。テレビ電話での遠隔会話において、ユーザが自分の状況を相手に見せることに関して抵抗感を軽減することができる。
【図面の簡単な説明】
【0010】
【図1】本発明の実施形態に係る映像処理装置の構成例を示すブロック図である。
【図2】本発明の実施形態の映像処理装置の処理手順を示すフローチャートである。
【図3】変形例に係る映像処理装置の構成例を示すブロック図である。
【図4】変形例に係る映像処理装置の処理手順を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、添付図面を参照して本発明をその好適な実施形態に従って詳細に説明する。
本実施形態に係る映像処理装置は、一般的な家庭環境に設置されるカメラによって撮り貯められる映像を用いて、遠隔映像通信(テレビ電話)用の映像を加工するものである。以下に図面を用いて本実施形態に係る映像処理装置の構成及び処理について説明する。
【0012】
図1は、本実施形態に係る映像処理装置100の概略構成を示すブロック図である。図1に示すように、本実施形態の映像処理装置100は、撮像部101、映像入力部102、映像認識部103、映像判定部104、映像記録部105、映像選択部106、映像出力部107、制御部108から構成されている。この映像処理装置100は、ユーザによって遠隔映像通信に利用される。ただし、ユーザが遠隔映像通信を行っていないときにも動作する機能を併せ持つ。
【0013】
撮像部101は、一つ以上のカメラを含み、一般的な家庭環境である現実空間を撮像する。撮像部101は、天井に設置してもよいし、床や台やテレビの上に据え置いてもよいし、テレビや鏡やテーブルや椅子などの家具に内蔵されていてもよい。例えば、鏡にカメラが内蔵される場合には、ユーザが鏡を見ようとしてその前に立つと、その鏡に映った姿が撮像されることとなる。
【0014】
撮像部101が複数のカメラを含む場合、そのカメラは家庭環境の各所に分散して設置され、家庭環境のいろいろな場所に登場し得る人物の映像を、いろいろな場所から撮像する。また、ユーザは遠隔映像通信を、撮像部101に含まれる一つ以上のカメラの前で行う。撮像部101に含まれるカメラのパンチルトやズームといったカメラパラメータは、固定でもよいし可変であってもよい。
【0015】
映像入力部102は、撮像部101で撮像された映像を入力し、映像認識部103へと出力する。
映像認識部103は、映像入力部102から送られる映像を受け取り、その映像に映る人物の状況を認識する。認識する状況は、人物の在否・識別(誰であるか)・(映像中の)位置・表情・姿勢・動作・行動など様々である。
【0016】
人物の在否の認識は、例えば、映像入力部102から受け取る映像中から、人の顔や頭部などに起因する映像特徴を検出することによって実現される。映像特徴としては、局所領域における勾配方向をヒストグラム化した特徴量であるHistograms of Oriented Gradients(HOG)特徴量などを利用する。
【0017】
人に起因する映像特徴は、人の映る映像を多量に集めて、それらに含まれる特徴量に共通するものを、例えばBoostingと呼ばれるアルゴリズムを用いて、統計的に学習することによって決定する。そのようにして決定される人に起因する映像特徴が、映像入力部102から受け取る映像に含まれていれば、「特徴の検出された領域に人物が存在する」と認識し、そうでなければ、「人物は存在しない」と認識する。
【0018】
人物の識別は、例えば、映像入力部102から受け取る映像の、人物の在否認識の際に特定した人物存在領域と、内部に識別候補となる人物の画像特徴(例えば顔画像)を照らし合わせる。そして、人物の在否認識の際に特定した人物存在領域から、識別候補となる人物の画像特徴が検出できれば、その画像領域に写る人はその人物であると認識する。
【0019】
人物の姿勢の認識は、例えばまず、映像入力部102から受け取る映像中から、あらかじめ用意した人体パーツに起因する画像特徴が探索されることから始まる。人体パーツとは、例えば、顔、頭、手、腕、足、膝、肩、腰、胸、臍、背中などである。それぞれは、撮像される向きによって映像特徴が異なるので、例えば顔に関しては、正面顔パーツ、横顔パーツ、下向き顔パーツ、などと、方向別に複数の画像特徴が用意され、それらが探索される。
【0020】
画像特徴としては、局所領域における勾配方向をヒストグラム化した特徴量であるHOG特徴量などを利用する。各人体パーツに起因する画像特徴は、それらが映る画像を多量に集めて、それらに含まれる特徴量に共通するものを、例えばBoostingと呼ばれるアルゴリズムを用いて、統計的に学習することによって決定する。そのようにして決定される各人体パーツに起因する画像特徴が、映像入力部102から受け取る映像中から探索されれば、「特徴が探索された位置にその人体パーツがある」と認識する。
【0021】
そして、その人体パーツ同士の位置関係を、姿勢として認識する。例えば、頭、胸、腰が重力方向にほぼ直線上に並んでいれば、「直立姿勢」と認識される。例えば手と肩を結ぶ線と、肩と腰を結ぶ線のなす角が、腕をどの程度広げた姿勢であるかを示すパラメータとなる。その姿勢認識結果の時系列変化パターンを認識すれば、それが動作の認識となる。
【0022】
人の表情の認識は、まず映像入力部102から受け取る映像中から、人の顔に起因する画像特徴が検出される領域が特定される。その特徴量としては、HOG特徴量などを用いればよい。続いて、特定された領域を正規化した画像が、いくつかの表情をとらえた複数の画像群のうちの、どの群にどの程度類似しているかを認識する。本実施形態において、複数の画像群とは以下の画像群である。「ポジティブで激しい感情の表情(喜)」「ポジティブで落ち着いた感情の表情(楽)」「ネガティブで激しい感情の表情(怒)」「ネガティブで落ち着いた感情の表情(哀)」「特に感情のないニュートラルな表情」等の表情画像を集めたものである。
【0023】
例えば、「ポジティブで激しい感情の表情(喜)」の顔画像群クラスと、「ネガティブで激しい感情の表情(怒)」の顔画像群クラスとを分別する判別軸を線形判別分析(LDA:Linear Discriminant Analysis)により作成しておく。そして、その判別軸を用いて、正規化した画像領域がどちらのクラスにより類似しているかを判別する。これを複数の表情クラス間での比較に関して繰り返せば、映像入力部102から受け取る映像中に映る人物の表情が、事前に用意した表情のうちの、どれにどの程度類似しているかを認識することができる。
【0024】
人物の行動は、例えば、映像から認識される人物の位置や姿勢などと、その認識時刻に対応する行動認識結果を事前にリスト化しておき、認識時にそのリストを参照する、といった方法で認識することがありうる。また、映像認識部103は、人物だけでなく映像中の物体やシーンの状況も認識してよい。
【0025】
撮像するシーンの認識は、例えば、撮像環境に映る背景のセグメンテーション、一般物体認識技術による撮像環境に存在する物体を特定する。その他には、光源推定による光源位置の把握、複数のカメラを設置している環境での3次元再構成によるシーンの三次元形状計測結果などに基づいて行う。
【0026】
制御部108は、映像認識部103が行う人物、物体、シーンに関する認識の結果を、ユーザが映像処理装置100を利用して遠隔映像通信を行っていない場合には、撮像映像と共に映像判定部104へと送るよう制御する。また、ユーザが映像処理装置100を利用して遠隔映像通信を行っている場合には、映像選択部106に出力するよう制御する。このとき、対応する撮像映像を直接に通信される映像の対象とならないように制御する。
【0027】
映像判定部104は、映像認識部103から撮像映像を受け取る。そして、その中から映像記録部105に記録する映像を、映像認識部103より受け取る認識結果に基づいて、「遠隔映像通信の相手に見せてもよい」という事前に設定された条件を満たす状況が映っているか否かを判定する。
【0028】
例えば、映像に映っている人の笑顔が認識されている映像など、一般的に映像としてポジティブな映像が条件を満たすものとし、映像に映っている人が目をつぶっている映像等は条件を満たさないものとする。もしくは、ユーザによって事前に設定された認識結果が得られている映像、例えば「まっすぐ立っている姿勢」という認識結果が得られた映像が条件を満たすものとして判定する。
【0029】
また、事前にユーザが選択した映像の認識結果と類似しているか否かを判定するようにしてもよい。例えば、ユーザが任意に選択した映像に人物の姿勢に身体パーツ同士の位置関係パラメータが近い映像であるか否かを判定する。さらには、特定の時間に撮像した映像など、ユーザが任意の基準で選択したものを保存するようにしてもよい。映像判定部104によって条件を満たす条項を撮像したと判定された映像は、対応する認識結果と共に映像記録部105へと送られる。
【0030】
映像記録部105は、映像判定部104より送られる映像を内部に記録する。その際にはラベル等のメタデータを付与する。例えば、認識結果をそのままラベルにしてもよいし、不図示のインタフェースを介してユーザが任意のラベル名をつけてもよい。また、一度付けたラベル名はユーザが後で変更することも可能であるし、映像の追加・削除は随時行うことも可能であるとする。映像記録部105に記録された映像は、映像選択部106によって取得される。
【0031】
映像選択部106は、映像認識部103より撮像映像の認識結果を受け取ると、その認識結果に基づいて、映像記録部105に記録されている映像を取得し、それを用いて遠隔映像通信に利用する(通信相手に伝達する)映像を選択する。例えば、映像認識部103より「笑顔のAさんが手を振っている」という認識結果を受け取った場合、映像選択部106は同じ「笑顔のAさんが手を振っている」という認識結果が得られている映像を映像記録部105に記録された映像の中から検索する。そして、見つかればそれを選択する。そして、まったく同じ認識結果が得られている映像がなければ、「笑顔のAさん」という認識結果が得られている映像と、「Aさんが手を振っている」という認識結果が得られている映像を検索し、選択する。
【0032】
映像出力部107は、認識結果に基づいて選択された映像を加工することにより映像を生成し、出力する。例えば、選択された映像に「Aさんが手を振っている」という認識結果が得られている場合、他の選択された映像のAさんの顔の部分だけを、「笑顔のAさん」という認識結果が得られている映像中の、Aさんの顔の部分に差し替えるようにする。このようにすることで、「笑顔のAさんが手を振っている」という映像を加工により生成することができる。
【0033】
すなわち、「Aさんが手を振っている」という認識結果が得られている映像と、「笑顔のAさん」という認識結果が得られている映像の其々に対して、映像認識部103では表情の認識をするために人の顔に起因する画像特徴が検出される領域が特定されている。同時に人物を識別するために、特定された顔領域のなかから、どの領域がAさんの顔に起因する画像特徴が検出されるかも特定されている。その双方の結果から、「笑顔のAさん」という認識結果が得られている映像からAさんの顔に起因する画像特徴が検出される領域を取り出す。
【0034】
そして、「Aさんが手を振っている」という認識結果が得られている映像中のAさんの顔に起因する画像特徴が検出される領域に重畳することができる。これより、「Aさんが手を振っている」という認識結果が得られている映像の、Aさんの顔の部分だけを、「笑顔のAさん」という認識結果が得られている映像中の、Aさんの顔の部分に差し替えることができる。
【0035】
「Aさんが手を振っている」という認識結果が得られている映像と、「笑顔のAさん」という認識結果が得られている映像それぞれから得られるAさんの顔に起因する画像特徴が検出される領域は、必ずしも大きさや形状は一致しない。その場合には、両方の画像領域には同じ人物の顔が写っている(同じ大きさの顔が写っている)という前提に基づいて、大きさや形状を補正すればよい。
【0036】
また、上記では選択された映像だけで加工を行っているが、入力された撮像映像と選択された映像との両者を合成することで、映像記録部105には記録されていなかった「笑顔のAさんが手を振っている」という映像を生成してもよい。
【0037】
また別の例として、映像認識部103より「Bさんが首を右に映像上で30度傾けている」という認識結果を受け取った場合、映像出力部107は「Bさんが首を映像上で右に傾けている」という認識結果が得られている映像を検索し、それを参照する。続いて、その映像に映るBさんの首の傾き角度を計測し、それが30度でなければ、30度になるように映像を加工する。そうした映像加工方法自体については、本実施形態においては、例えば以下のように実現する。
【0038】
まず、「首を右に映像上で30度傾けている」とは、映像上での、右肩と首を結ぶ直線と、頭と首を結ぶ直線のなす角が、90度−30度=60度である状態である。そして、「Bさんが首を映像上で右に傾けている」という認識結果が得られている映像に対し、映像認識部103では、頭・首・右肩に起因する画像特徴が検出される領域が、姿勢を推定する過程において特定されている。
【0039】
ここで、「Bさんが首を映像上で右に傾けている」という認識結果が得られている映像に対し、頭に起因する画像特徴が検出される映像領域を切り抜く。そして、首に起因する画像特徴が検出される映像領域との接点を中心に映像上で回転させながら移動する。これにより、右肩と首を結ぶ直線と、頭と首を結ぶ直線のなす角が、90度−30度=60度であるような映像を加工することができる。なお、頭に起因する画像特徴を回転させながら動かす際に、その映像領域の形状を変形させてもよい。
【0040】
例えば、元の位置から離れる部分ほど細くなるように変形させると、首をカメラから離れる方向に傾けているような映像を加工することができる。逆に、元の位置から離れる部分ほど太くなるように変形させると、首をカメラに近付く方向に傾けているような映像を加工することができる。頭に起因する画像特徴が検出される領域を動かすことでできる穴は、一般に知られた方法を用いるなどして決定する背景画素値で埋めればよい。
【0041】
映像出力部107によって加工された映像は、不図示の通信モジュールを介して遠隔映像通信相手の下へ伝達され、その相手のそばにあるディスプレイ等を介して出力される。
以上が、本実施形態にかかる映像処理装置100に関する構成部分の説明である。
【0042】
続いて、図2に示したフローチャートを用いて、本実施形態の映像処理装置100が行う処理手順について説明する。なお、図2のフローチャートに従ったプログラムコードは、制御部108内の、不図示のRAMやROMなどのメモリ内に格納され、不図示のCPUなどにより読み出され、実行される。なお、データ等の送受信に関する処理に関しては、直接的に行われてもよく、ネットワーク越しに行われてもよいとして、以下では特に言及しない。
【0043】
S201では、処理全体がS200において開始されると、撮像部101により現実空間の撮像が行われる。先に述べたように、この現実空間は本実施形態においては家庭環境である。また、撮像部101に複数のカメラが含まれる場合には、それぞれが撮像を行う。撮像映像は、映像入力部102により、映像認識部103へと送られる。
【0044】
S202では、映像認識部103において映像入力部102から送られた映像に映る人物、物体、シーンに関する認識処理が行われる。
S203では、この時点でユーザが遠隔映像通信を実施しているか否かが確認される。例えば、ユーザの操作によって、遠隔映像通信機能のON/OFFが制御されるのであれば、その機能の状態を確認すればユーザが遠隔映像通信を実施しているか否かが確認できる。また、S202において実施された認識処理により、S201で撮像された映像に人物が含まれていないことが認識されているのであれば、明らかにユーザは遠隔映像通信を実施していないと確認できる。
【0045】
S202において実施された認識処理により、S201で撮像された遠隔映像通信用のカメラの映像に人物が含まれており、その人物の行動が会話であると認識されている場合、それによりユーザは遠隔映像通信を実施していると確認することもできる。いずれの方法による確認にせよ、ユーザが遠隔映像通信を実施していないと確認された場合には、S202で得られた認識結果とそれに対応する映像が映像判定部104へと送られた後に処理はS204へと進む。また、ユーザが遠隔映像通信を実施していると確認された場合には、S202で得られた認識結果が映像出力部107へと送られた後に処理はS206へと進む。
【0046】
S204では、映像判定部104が映像認識部103から受け取る撮像映像が映像記録部105に保存する対象となる映像であるか否かを、映像に対応する認識結果に基づいて判定する。撮像部101に複数のカメラが含まれる場合には、映像判定部104はカメラごとの映像を受け取るので、それぞれに対して保存するか否か映像を判定することとなる。
【0047】
S205では、S204で保存すると判定された映像が映像記録部105へと送られ、そこに記録される。その際、映像認識部103による認識結果がラベル等のメタデータとして映像に付与される。このラベルは、後でユーザ等によって変更されてもよい。映像が記録されると、処理はS201へと戻る。
【0048】
S206では、映像選択部106が、映像認識部103より受け取った認識結果に基づいて、映像記録部105に記録されている映像から加工に用いる映像を選択する。例えば、映像認識部103より受け取った認識結果と全部もしくは一部が同じ認識結果の得られている映像を選択する。また、例えば、あらかじめユーザによって認識結果ごとに選択されている映像を取得してもよい。選択候補となる映像が複数ある場合には、例えば保存されている映像の中で最も新しい映像を選択してもよいし、候補となる全ての映像を選択してもよい。映像を選択すると、その映像は映像出力部107へと送られ、処理はS207へと進む。
【0049】
S207では、映像出力部107において、S202で得た認識結果に基づいて、S206において選択された映像を使った遠隔映像通信用の映像の加工が行われる。映像が加工されると、処理はS208へと進む。
S208では、映像出力部107が加工した映像が、不図示の通信モジュールを介して遠隔映像通信相手へ伝達され、その相手のそばにあるディスプレイ等を介して出力される。
【0050】
以上の処理によって、映像処理装置100は遠隔映像通信をする際に相手に伝達する映像を、その通信時のユーザの映像ではなく、その通信時のユーザの映像と同じ認識結果が得られる映像を過去のユーザの映像から選択し、加工することができる。選択候補映像および加工映像の素材は、「相手に見せてもよい」ものとして映像認識部103が認識処理に基づいて判定した映像を記録するので、ユーザは遠隔映像通信相手に、「相手に見せてもよい」自身の映像を見せるようにすることができる。
【0051】
すなわち、ユーザの日常行動を定常的に撮像した映像の中から、ユーザが事前に決定した「相手に見せてもよい自分」が映っている映像を、認識技術を使って判定して蓄積していく。そして、遠隔通信時には、そのときの状況(照明、顔の向きや体の姿勢、表情や動作など)を認識および計測し、その認識・計測結果に合った映像を、撮り貯めておいた映像から選択するか、もしくはそれらの映像を使って加工する。
【0052】
映像の選択候補および加工の素材は全て、「相手に見せてもよい自分」が映っている映像なので、加工された映像は、そのときの状況を反映し、かつ、「相手に見せてもよい自分」が映る映像となる。これにより、ユーザの状況に応じた映像を相手に伝達するテレビ電話において、事前に撮り貯めておいた映像に含まれない状況であっても、その状況に応じた映像を相手に伝達できるようになる。
【0053】
〔変形例〕
本変形例に係る映像処理装置は、デジタルカメラやデジタルカムコーダーなどを使って屋内外で撮り貯められる映像を用いて、遠隔映像通信用の映像を加工するものである。以下、図面を用いて本変形例に係る映像処理装置の構成及び処理手順について説明する。
【0054】
図3は、本変形例に係る映像処理装置300の概略構成を示すブロック図である。本変形例では、撮像部101、映像入力部102、映像認識部103、映像判定部104、映像記録部105、映像選択部106、映像出力部107、制御部108、映像蓄積部306、環境計測部307、映像通信部308、映像表示部309から構成されている。この構成の大半は図1に示した映像処理装置100と同様であるので、同様の部分は同じ符号を付して、重複する部分についての詳細な説明は以下では割愛する。
【0055】
撮像部101は一つ以上のカメラを含み、一般的な家庭環境である現実空間を撮像する。ユーザは遠隔映像通信を、撮像部101に含まれる一つ以上のカメラの前で行う。映像入力部102は、撮像部101によって撮像された映像を入力し、映像認識部103へと出力する。
【0056】
映像蓄積部306は、デジタルカメラやデジタルカムコーダーなど、いわゆる手持ちのカメラデバイスによって撮り貯められた映像を蓄積する部分である。例えば、旅行先や家族イベントなどにおいて撮られる記念写真やファミリービデオなどが、そこに蓄積される。蓄積された映像は、映像認識部103へと出力される。
【0057】
映像認識部103は、映像入力部102および映像蓄積部306から映像を受け取り、その映像に映る人物、物体、シーンを認識する。映像認識部103が行う認識処理は、人物の在否・(映像中の)位置・識別(誰であるか)・表情・姿勢・動作・行動の他、映像に映っている物の名称やその配置を認識する。さらには、シーン(屋外か屋内か、など)やコンテキスト(学校のイベント、公共空間、個人的なイベント、など)といった撮像環境自体を認識する。
【0058】
各認識結果は、ユーザが映像処理装置300を利用して遠隔映像通信を行っていない場合には、それに対応する映像と共に映像判定部104へと送られる。ユーザが映像処理装置300を利用して遠隔映像通信を行っている場合には、映像出力部107に出力される。このとき、対応する映像は映像出力部107へは送られない。
【0059】
映像判定部104は、映像認識部103から撮像映像を受け取ると、その中から映像記録部105に記録する映像を、映像認識部103より受け取る映像認識結果に基づいて選択する。この選択は、「遠隔映像通信の相手に見せてもよい」という事前に設定された条件を満たす状況が映っているか否かの基準で選択される。例えば「笑顔の画像」といった相手に見せてもよい画像を選択する。映像判定部104によって選択された映像は対応する認識結果と共に、映像記録部105へと送られる。
【0060】
映像記録部105は、映像判定部104より送られる映像を内部に記録する。その際にはラベル等のメタデータを付与する。例えば、認識結果をそのままラベルにしてもよいし、不図示のインタフェースを介してユーザが任意のラベル名をつけてもよい。また、一度付けたラベル名はユーザが後で変更することも可能であるし、映像の追加・削除は随時行うことも可能であるとする。映像記録部105に記録された映像は、映像選択部106によって取得される。
【0061】
環境計測部307は、撮像部101の傍に配置され、撮像部101の撮像環境を計測する。例えば、環境計測部307は光センサを含み、それによって撮像部101の撮像範囲内にある光源の実際の位置や明るさを計測する。もしくは、環境計測部307が温度センサを含んで、それにより気温を計測するなどしてもよい。撮像部101が複数のカメラにより複数の環境を撮像するのであれば、環境計測部307も複数のセンサを備え、複数の撮像環境を計測する。環境計測部307の計測結果は、映像出力部107へと出力される。
【0062】
映像選択部106は、映像認識部103より撮像映像の認識結果を受け取るとともに、環境計測部307より撮像環境の計測結果を受け取る。そして、その認識結果と計測結果に基づいて、映像記録部105に記録されている映像を選択する。
【0063】
映像出力部107は、それを用いて遠隔映像通信に利用する(通信相手に伝達する)映像を加工し、出力する。また、映像出力部107は、映像認識部103による認識結果に基づいて選択された映像の加工を行う。続いて、その加工した映像が、環境計測部307による計測結果と同じ(もしくは近い)計測結果が得られる映像となるように、映像を加工する。例えば、撮像環境の計測項目に照明環境に関する情報があれば、環境計測部307が計測している空間の照明環境と一致するように、映像の照明状態を加工する。
【0064】
より具体的な例としては、環境計測部307が計測している空間が屋内の夜であるのに対して、映像記録部105から参照した映像に映っている空間が屋外の昼であったとする。このような場合、映像記録部105から参照した映像中の屋外照明成分を取り除き、代わりの仮想的な室内照明成分を足し合わせる。
【0065】
以上のようにして、映像出力部107では、撮像部101が撮像した映像と同じ認識結果が得られる映像であって、かつ、環境計測部307が撮像環境を計測する空間と同じ環境下で撮像されたように見える映像が加工される。加工された映像は、映像通信部308へと送られる。
【0066】
映像通信部308は、映像出力部107から出力された映像を映像表示部309へと通信する。この通信は有線ネットワークを介して行われてもよいし、携帯電話のような無線ネットワークを介してもよい。映像表示部309は、映像処理装置300のユーザが遠隔映像通信をする相手の傍に置かれる遠隔地の映像表示端末であって、映像通信部308より送られてくる映像を表示する。
以上が、本変形例にかかる映像処理装置300に関する構成部分である。
【0067】
続いて、図4に示すフローチャートを用いて、本変形例の映像処理装置300が行う処理手順について説明する。なお、同フローチャートに従ったプログラムコードは、映像処理装置300に設けられている制御部108内の、不図示のRAMやROMなどのメモリ内に格納され、不図示のCPUなどにより読み出され、実行される。
【0068】
S401では、処理全体がS400において開始されると、撮像部101により現実空間の撮像が行われる。撮像映像は、映像入力部102により、映像認識部103へと送られる。
S402では、映像認識部103において、映像入力部102から送られた映像に関する認識処理が行われる。さらに、映像蓄積部306に蓄積されている映像のうち、過去に映像認識部103による処理を行っていない映像があれば、その映像に関する認識処理も行われる。この処理により、その映像中の人物の在否・識別・表情・姿勢・動作・行動や、映像中に映る物体やシーンなどが認識される。
【0069】
S403では、この時点でユーザが遠隔映像通信を実施しているか否かが確認される。その方法は、第1の実施形態におけるS203で述べた方法と同様である。ユーザが遠隔映像通信を実施していないと確認された場合には、S402で得られた認識結果とそれに対応する映像が映像判定部104へと送られた後に処理はS404へと進む。ユーザが遠隔映像通信を実施していると確認された場合には、S402で得られた認識結果が映像出力部107へと送られた後に処理はS406へと進む。
【0070】
S404では、映像判定部104が映像認識部103から受け取る撮像映像を映像記録部105に記録するか否かを、映像に対応する認識結果に基づいて判定する。映像判定部104が選択する映像の中に、映像蓄積部306に蓄積された映像が含まれている点が、本変形例におけるS204との違いである。
【0071】
S405では、S404で記録すると判定された映像が映像記録部105へと送られ、そこに記録される。その際、映像認識部103による認識結果がラベルとして映像に付与される。このラベルは、後でユーザ等によって変更されてもよい。映像が記録されると、処理はS401へと戻る。
【0072】
S406では、映像選択部106が、映像認識部103より受け取った認識結果に基づいて、映像記録部105に記録されている映像から加工に用いる映像を選択する。その方法は、本変形例におけるS206で述べた方法と同様である。映像を選択すると、その映像は映像出力部107へと送られる。
【0073】
S407では、環境計測部307により撮像環境の計測が行われる。環境計測結果は映像出力部107へと送られる。
S408では、映像出力部107において、S402で得た認識結果とS407で得た撮像環境の計測値に基づいて、S406において取得された映像を使った遠隔映像通信用の映像の加工が行われる。
【0074】
S409では、加工した映像が、映像通信部308を介して遠隔映像通信相手へ伝達され、その相手の傍にある映像表示部309を介して出力される。
以上の処理によって、映像処理装置300は、遠隔映像通信をする際に相手に伝達する映像を、その通信時のユーザの映像ではなく、その通信時のユーザの映像と同じ認識結果を得た過去のユーザの映像に基づいて加工することができる。
【0075】
本変形例の場合は特に、いわゆる手持ちのカメラデバイスによって撮り貯められた過去の記念写真やファミリービデオの映像に基づいて、遠隔映像通信用の映像を加工することができる。言い換えれば、ユーザは、遠隔映像通信時にユーザがいる空間ではない場所で撮られた映像を使って、遠隔映像通信用の映像を加工することができる。
【0076】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(コンピュータプログラム)を、ネットワーク又は各種のコンピュータ読み取り可能な記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【符号の説明】
【0077】
100 映像処理装置、101 撮像部、102 映像入力部、103 映像認識部、104 映像判定部、105 映像記録部、106 映像選択部、107 映像出力部、108 制御部

【特許請求の範囲】
【請求項1】
現実空間を撮像装置によって撮像した映像を入力する映像入力手段と、
前記入力された映像に映る前記現実空間における状況を認識する映像認識手段と、
前記入力された映像を記録する映像記録手段と、
前記入力された映像に対する認識結果に基づいて、前記映像記録手段が過去に記録した映像を含む複数の映像から映像通信に利用する映像を選択する映像選択手段と、
前記選択された映像を加工して出力する映像出力手段と
を有することを特徴とする映像処理装置。
【請求項2】
前記認識された状況が予め設定された条件を満たすか否かを判定する映像判定手段を更に有し、
前記映像記録手段は、前記状況が前記条件を満たすと判定された場合に、当該状況の現実空間を撮像した映像を記録することを特徴とする請求項1に記載の映像処理装置。
【請求項3】
前記映像判定手段は、前記映像通信が行われていないときに、前記判定を実行し、
前記映像選択手段は、前記映像通信が行われているときに、前記選択を実行することを特徴とする請求項2に記載の映像処理装置。
【請求項4】
前記映像記録手段は、前記映像と当該映像から認識された認識結果とを記録することを特徴とする請求項1乃至3の何れか1項に記載の映像処理装置。
【請求項5】
前記映像選択手段は、前記入力された映像に対する認識結果と前記記録された認識結果とを比較することにより、前記映像記録手段が過去に記録した映像を含む複数の映像から映像通信に利用する映像を選択することを特徴とする請求項4に記載の映像処理装置。
【請求項6】
前記映像認識手段は、映像に映る人物の位置、姿勢、表情、動作、行動、及び、物体またはシーンの状況のうち少なくとも1つを認識することを特徴とする請求項1乃至5の何れか1項に記載の映像処理装置。
【請求項7】
前記映像選択手段は、前記映像認識手段の認識結果と類似したと判定される認識結果が得られる映像を選択することを特徴とする請求項1乃至6の何れか1項に記載の映像処理装置。
【請求項8】
前記撮像装置の撮像環境を計測する環境計測手段と
を更に有し、
前記映像出力手段は、前記環境計測手段の計測結果に基づいて、映像を加工することを特徴とする請求項1乃至7の何れか1項に記載の映像処理装置。
【請求項9】
前記環境計測手段は、前記撮像装置の撮像範囲内にある光源の実際の位置や明るさを計測、または前記撮像装置の撮像範囲内の気温を計測することを特徴とする請求項8に記載の映像処理装置。
【請求項10】
前記映像出力手段は、前記入力された映像と前記選択された映像とを合成することにより加工して出力することを特徴とする請求項1乃至9の何れか1項に記載の映像処理装置。
【請求項11】
前記加工した映像を通信する映像通信手段と、
前記映像通信手段によって通信された映像を、前記撮像装置が撮像する空間とは異なる空間に対して表示する映像表示手段と
を有することを特徴とする請求項1乃至10の何れか1項に記載の映像処理装置。
【請求項12】
前記撮像した映像を蓄積する映像蓄積手段と
を有することを特徴とする請求項1乃至11の何れか1項に記載の映像処理装置。
【請求項13】
前記映像出力手段は、前記映像記録手段に記録された映像において前記映像認識手段によって認識される人物の身体パーツが写る映像領域を、前記映像入力手段により入力された映像において前記映像認識手段によって認識される人物の身体パーツが映る映像領域に重畳することによって映像を合成することを特徴とする請求項1乃至12の何れか1項に記載の映像処理装置。
【請求項14】
前記映像出力手段は、前記映像入力手段により入力された映像に対して行われる前記映像認識手段による認識結果に基づいて、前記映像記録手段に記録された映像における前記映像認識手段によって認識される人物の身体パーツが写る映像領域を移動または回転または変形することによって映像を加工することを特徴とする請求項1乃至12の何れか1項に記載の映像処理装置。
【請求項15】
前記映像記録手段は、前記状況が前記条件を満たすと判定された場合に、当該状況の現実空間を撮像した映像と当該状況の認識結果とを記録することを特徴とする請求項2又は3に記載の映像処理装置。
【請求項16】
映像処理装置の映像入力手段が、現実空間を撮像装置によって撮像した映像を入力する映像入力工程と、
前記映像処理装置の映像認識手段が、前記入力された映像に映る前記現実空間における状況を認識する映像認識工程と、
前記映像処理装置の映像記録手段が、前記入力された映像を記録する映像記録工程と、
前記映像処理装置の映像選択手段が、前記入力された映像に対する認識結果に基づいて、前記映像記録工程で過去に記録した映像を含む複数の映像から映像通信に利用する映像を選択する映像選択工程と、
前記映像処理装置の映像出力手段が、前記選択された映像を加工して出力する映像出力工程と
を有することを特徴とする映像処理方法。
【請求項17】
請求項16に記載の映像処理方法の各工程をコンピュータに実行させるためのプログラム。
【請求項18】
請求項16に記載の映像処理方法の各工程をコンピュータに実行させるためのプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−142925(P2012−142925A)
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2011−270399(P2011−270399)
【出願日】平成23年12月9日(2011.12.9)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】