説明

会話映像表示システム

【課題】視聴者が会話人物の視線方向を分かりやすく、会話人物の存在感を感じられる会話映像表示システムを提供する。
【解決手段】会話画像及び会話の各人物の頭部姿勢データを処理して会話状況を映像表示するシステムであり、各人物の位置と対応して配置された複数のスクリーン403と、各スクリーン403に各人物毎の画像を投影する映像投影装置401と、スクリーン403の姿勢を制御するアクチュエータ402と、スクリーン403の姿勢を、それに投影される画像中の人物の頭部姿勢と同期して変化させるべく、頭部姿勢データからアクチュエータ402の制御信号を生成する制御信号生成手段303と、画像上における各人物の顔領域を検出する顔位置検出手段301と、画像中の検出された顔領域を中心とした領域を、その人物の画像が投影されるスクリーン403の姿勢に応じて写像して映像投影装置401に出力する画像写像生成手段302を有する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は複数の人物が会話をしている場面を撮影した画像を他の場所において映像として表示をする会話映像表示システムに関する。
【背景技術】
【0002】
従来、複数の人物が会話をしている場面を映像として、他の場所の視聴者に対して提示する技術として、以下の技術がよく知られている。
【0003】
テレビジョンや映画においては、複数の人物の会話場面を、各人物の顔のアップショットやバストショット、複数人物を含む俯瞰ショットなどを撮影可能とすべく、異なる角度、位置に設置された複数の固定カメラもしくは三脚上に設置されたパンやチルトなどのカメラワークが可能なカメラにより撮影し、その後カット編集などの映像編集によって時系列上に異なる視点で撮られた人物の映像を配置することで一続きの映像を制作し、それをディスプレイ装置や映写装置などにより表示し、その表示された映像を視聴者が視聴するという一連の方法論、技術、装置が確立している。しかしながら、ここで用いられる撮影や映像編集は、人間の高度な経験や技術、感性、演出意図によりなされるものであり、自動化や実時間化は困難とされている。
【0004】
一方、電気通信の分野ではテレビ会議システム、映像会議システム、デスクトップカンファレンスシステム、テレプレゼンスシステムと呼ばれるシステムが知られている(例えば、非特許文献1参照)。これらはビデオカメラにより各人物の顔を含めた画像を撮影し、それを遠隔地点に伝送し、ディスプレイ上に表示するシステムであり、各地点で双方向的に撮影、伝送、表示の回路を組むことにより、遠隔地点間での会話を可能とする。
【0005】
しかしながら、これらシステムでは、ある人物Aが画面上に表示された遠隔地の人物Bに視線を向けても、この人物Bがみている人物Aの映像からはそれが読み取れないという問題、いわゆる視線不一致の問題が避けられない。これは対面状況の会話ではあり得ない現象であり、著しい不自然さを感じ、適切な会話の理解を阻害する要因として知られている。
【0006】
また、会話人物が3人以上の場合には、さらに問題は深刻であり、誰が誰に向かって話しかけている、問いかけているのかが映像から読み取れず、適切な会話の理解はさらに困難となる。これは視線を手がかりとしたアドレッシング行為が機能不全を起こしていることに他ならない。
【0007】
また、典型的なシステムでは、画面に表示される人物の顔は小さく、また多人数の場合、表示される人物画像の配置にも一貫性がなく、視線不一致の問題に加えて人物の存在感、実在感が乏しく、これも対面状況の会話とは異なる不自然感を生み、適切な会話の理解を阻害する要因としてあげられる。
【0008】
近年、高解像度カメラ、高解像度・大画面ディスプレイを用いたシステム(テレプレゼンスシステムと一部では呼ばれている)が販売されているが、高解像度化、大画面化により一見、遠隔人物の存在感は増しているように感じるが、それゆえ視線不一致の問題が顕著に感じられることが問題として指摘されている。
【0009】
これらの視線不一致の問題、視線によるアドレッシング行為が正しく遠隔人物に伝達されないという問題に対して、ディスプレイ配置を工夫することにより解決を試みたシステムが提案されている。非特許文献2では、遠隔地の各人物をそれぞれ個別のディスプレイにて表示し、そのディスプレイの配置を実際の会話場面に近くなるように円周上に配置するシステムが提案されている。また、非特許文献3に記載されたシステムでは、複数の大型ディスプレイを円筒状、円環上に配置して、人物の周囲を覆うようにし、それを複数の地点に設置して、各ディスプレイ対面に設置されたカメラからの映像を各ディスプレイに表示している。複数地点の会話人物はディスプレイを背にして円周上に立ち、会話を行う。これにより、複数地点感で一つの空間を共有することになり、ある地点のある人物の向いている方向が他地点の人物からも分かりやすいと言われている。
【0010】
このようなディスプレイの空間配置により、ある程度視線によるアドレッシング行為が伝達されうると考えられるが、一方、ディスプレイが空間中に分散配置されることにより、人物の視野内に全てのディスプレイが収まらなくなり、視野外のディスプレイに表示される人物の画像やその人物の振る舞いが分かりにくくなるといった問題がある。また、視聴者は頻繁に頭部を振って状況を確認する必要があり、必ずしも従来型のテレビ会議システムと比べて、円滑な会話が可能とはいえないことが指摘されている。
【0011】
また、近年、より自然に近い実在感を生み、自然な会話を志向したシステムとして、テ
レプレゼンスロボットが開発されている(例えば、非特許文献4参照)。このテレプレゼンスロボットは典型的には車輪など位置の移動を可能とする筐体をもつロボットの顔にあたる部分にディスプレイを埋め込み、そこに遠隔地の人物の顔を表示する。また、そのディスプレイに近い部分にカメラが設置されており、遠隔地の人物は画像を通じてロボットが位置する場所の様子を把握することができる。また、ロボットの操作により、ロボットの位置や姿勢を制御することができる。旧来の映像会議システムと比べて、より高い実在感を生み、自然なコミュニケーションが可能になると言われている。しかしながら、ロボットの機械としての存在感が突出し、その人らしさが感じにくいという問題やロボット操作という本来会話とは異なる部分での負荷がユーザにかかるという問題が指摘されている。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】Conti,J.,“Technology telepresence - I see live people”,Engineering Management Journal,2007年6/7月,p.12-15
【非特許文献2】Sellen,A.J.,“Speech patterns in video-mediated conversations” In Proc. CHI’92,1992年,p.49-59
【非特許文献3】Hirata,K.,Kaji,K.,Harada,Y.,Yamashita,N.,and Aoyagi,S.,“t-Room:Remote collaboration apparatus enhancing spatio-temporal experiences”,In Proc.CSCW’08,2008年
【非特許文献4】Guizzo,E.,“When my avatar went to work”,IEEE Spectrum,2010年,p.26-50
【発明の概要】
【発明が解決しようとする課題】
【0013】
この発明の目的は、複数の人物が会話をする場面や会話の内容、人物の動作、仕草などを別の場所にいる人物が分かりやすく理解できるように会話場面の映像を表示する会話映像表示システムを提供することにある。特に、会話をしている人物間において、誰が誰を見ているかという視線方向及び誰が誰に話しかけている、問いかけているかというアドレッシングの方向が分かりやすく理解できるようなシステムの提供を目的とする。また、現実の会話の場の空気や雰囲気がより伝わりやすいよう、人物の実在感、存在感の再現もあわせて目的とする。
【課題を解決するための手段】
【0014】
請求項1の発明によれば、会話の画像及びその会話の各人物の頭部姿勢データを入力とし、入力された画像及び頭部姿勢データを処理して会話の状況を映像表示する会話映像表示システムは、前記各人物の位置関係と対応するように配置された複数のスクリーンと、各スクリーンに前記各人物毎の画像を投影する映像投影装置と、スクリーンの姿勢を制御するアクチュエータと、スクリーンの姿勢を、そのスクリーンに投影される画像中の人物の頭部姿勢と同期して変化させるべく、頭部姿勢データをもとにアクチュエータを駆動制御する制御信号を生成する制御信号生成手段と、入力された画像上における前記各人物の顔の領域を検出する顔位置検出手段と、入力された画像中の顔位置検出手段によって検出された顔の領域を中心とした領域を、その顔の人物の画像が投影されるスクリーンの姿勢及びそのスクリーンと映像投影装置との位置関係に応じて写像し、顔の領域が写像された画像を映像投影装置に出力する画像写像生成手段とを有する。
【0015】
請求項2の発明によれば、会話の画像を入力とし、入力された画像を処理して会話の状況を映像表示する会話映像表示システムは、前記各人物の位置関係と対応するように配置された複数のスクリーンと、各スクリーンに前記各人物毎の画像を投影する映像投影装置と、スクリーンの姿勢を制御するアクチュエータと、入力された画像上における前記各人物の顔の領域及び頭部姿勢を検出する視覚的顔追跡手段と、スクリーンの姿勢を、そのスクリーンに投影される画像中の人物の頭部姿勢と同期して変化させるべく、視覚的顔追跡手段で検出された頭部姿勢をもとにアクチュエータを駆動制御する制御信号を生成する制御信号生成手段と、入力された画像中の視覚的顔追跡手段で検出された顔の領域を中心とした領域を、その顔の人物の画像が投影されるスクリーンの姿勢及びそのスクリーンと映像投影装置との位置関係に応じて写像し、顔の領域が写像された画像を映像投影装置に出力する画像写像生成手段とを有する。
【0016】
請求項3の発明では請求項2の発明において、視覚的顔追跡手段は予め入力された前記各人物の画像から正面顔画像のテンプレートを作成し、そのテンプレートを並進及び回転させてテンプレート中の画素の輝度と、その画素と対応する入力された画像中の画素の輝度との輝度差を求め、その輝度差が最小になるテンプレートの位置及び姿勢を顔の領域及び頭部姿勢とする。
【0017】
請求項4の発明では請求項1乃至3のいずれかの発明において、アクチュエータはスクリーンを鉛直軸周りに回転させる。
【0018】
請求項5の発明では請求項1乃至3のいずれかの発明において、アクチュエータはスクリーンを鉛直軸周り及びスクリーン板面と平行な水平軸周りの双方に回転させる。
【0019】
請求項6の発明では請求項1乃至5のいずれかの発明において、スクリーンは背面投影スクリーンとされる。
【0020】
請求項7の発明では請求項1乃至6のいずれかの発明において、映像投影手段に入力する画像から、人物領域以外の背景領域を除去する背景画像除去手段を有する。
【発明の効果】
【0021】
この発明によれば、スクリーンに投影される画像の人物の頭の動きと、物理的なスクリーンの動きの相乗効果がうまれ、視聴者がより分かりやすく、会話をしている人物の頭部姿勢とその変化を理解することができ、それにより会話をしている人物が視線を向けている別の人物が分かりやすく理解できる。
【0022】
また、この動的な映像投影及び会話をしている人物の実際の位置を模したスクリーン配置により、会話をしている人物のより高い存在感を感じることができる。特に、背景画像除去を行う場合、人物像があたかも目の前の空間に浮かんだように見え、より高い実在感を視聴者は感じることが可能である。これらの効果により、他地点の会話の様子、内容を視聴者はより分かりやすく理解することができる。
【図面の簡単な説明】
【0023】
【図1】この発明による会話映像表示システムの一実施例の機能構成を示すブロック図。
【図2】(a)は会話をしている人物の位置とカメラ配置の一例を説明するための図、(b)はプロジェクタとスクリーンと視聴者の位置関係を説明するための図。
【図3】(a)はプロジェクタ、アクチュエータに支持されたスクリーン、スピーカの配置関係を示す図、(b)はアクチュエータの詳細を示す図。
【図4】(a)は実際の会話場面を示す図、(b)は会話状況の映像表示例を示す図(背景画像除去を行っていない場合)、(c)は会話状況の映像表示例を示す図(背景画像除去を行っている場合)。
【図5】(a)はカメラにより撮影された画像の一例を示す図、(b)は顔位置検出手段によって検出された顔領域及び頭部姿勢を顔面上のメッシュとして示す図、(c)は背景画像除去手段により背景が除去された画像を示す図、(d)は画像写像生成手段により生成された画像を示す図。
【図6】(a)はアクチュエータを駆動制御する制御信号の生成の様子を説明するための図、(b)は(a)の一部を拡大した図、(c)は(b)の区間における速度成分を示す図。
【図7】画像写像生成手段における写像操作に関係する座標系の関連を説明するための図。
【図8】この発明による会話映像表示システムの他の実施例の機能構成を示すブロック図。
【発明を実施するための形態】
【0024】
この発明の実施形態を図面を参照して実施例により説明する。
【0025】
図1はこの発明による会話映像表示システムの一実施例の構成を、会話を行っている側に設置される機器と共に示したものである。会話を行っている側(会話現場)には、カメラ101とマイクロホン102と頭部姿勢計測装置103が設置される。
【0026】
会話映像表示システム200はデータ処理部300と出力部400からなる。データ処理部300は顔位置検出手段301、画像写像生成手段302、制御信号生成手段303、背景画像除去手段304から構成される。出力部400は映像投影装置401、アクチュエータ402、スクリーン403、スピーカ404から構成される。
【0027】
カメラ101には例えばデジタルビデオカメラを用いる。会話を行う人物(以下、会話人物と言う)毎に一台のカメラ101を割り当て、正面からの顔画像が得られる位置にカメラ101を設置する。
【0028】
マイクロホン102には例えばピンマイクロホンを用いる。ピンマイクロホンは各会話人物に装着される。
【0029】
頭部姿勢計測装置103には例えば磁気式センサシステムを用いる。
【0030】
顔位置検出手段301はカメラ101にて撮影された画像を入力として、画像上における会話人物の顔の領域を検出する。
【0031】
画像写像生成手段302はカメラ101にて撮影されて入力された画像中の、顔位置検出手段301によって検出された人物の顔の領域を中心とした領域を、スクリーン403に投影される画像に歪みが生じないように、その顔の人物の画像が投影されるスクリーン403と映像投影装置401との位置関係及びアクチュエータ402によって制御されるスクリーン403の姿勢に応じて写像(マッピング)を行うことで、映像投影装置401に出力する画像を生成する。
【0032】
制御信号生成手段303はスクリーン403の姿勢を、そのスクリーン403に投影される画像中の人物の頭部姿勢と同期して変化させるべく、頭部姿勢計測装置103により計測された会話人物の頭部姿勢データを入力として、アクチュエータ402を駆動制御する制御信号を生成する。
【0033】
背景画像除去手段304はカメラ101にて撮影された画像を入力とし、画像上の人物領域以外の背景領域の除去を行った画像を生成する。
【0034】
映像投影装置401は画像写像生成手段302により生成された画像をスクリーン403に投影する。映像投影装置401には例えば液晶プロジェクタなどを用いることができる。
【0035】
スクリーン403は映像投影装置401により投射された画像を投影する平面スクリーンである。スクリーン403には例えば透明アクリル板に拡散材を配合した正方形または長方形のパネルを用いることができる。スクリーン403は下端部分がアクチュエータ402により支持され、その姿勢がアクチュエータ402により制御される。
【0036】
アクチュエータ402はスクリーン403を支持し、かつその姿勢を動的に制御する。アクチュエータ402は人物の首振り方向の頭部運動を模した動きをスクリーン403に与えるよう、鉛直軸周りの回転運動(以下、パン運動と言う)を生成するモータを有する。また、加えて、この例では人物の頷き方向の頭部運動を模した動きをスクリーン403に与えるよう、スクリーン面(スクリーン板面)と平行な水平軸周りの回転運動(以下、チルト運動と言う)を生成するモータを有する。
【0037】
スピーカ404はマイクロホン102で集音された会話人物の音声を再生する。スピーカ404は例えば各会話人物の位置関係と対応するように配置されて各会話人物毎の画像が投影されるスクリーン403の前方に配置される。
【0038】
以下、具体的な会話状況を例に説明する。
【0039】
この例では図2(a)に示したような配置で着席している4人の人物が会話を行う状況を例とする。なお、映像表示された会話の状況を視聴する人物を視聴者とする。ここでは1人の視聴者を例にとり説明を行うが、視聴者は1人に限らず、複数であってもよい。
【0040】
図2(b)は映像投影装置(以下、プロジェクタと言う)401、スクリーン403及び視聴者の位置関係を示したものである。図2(a)の会話人物1〜4の位置関係に合わせて、プロジェクタ401〜401及びスクリーン403〜403が配置される。この例では会話人物1の映像がプロジェクタ401とスクリーン403により表示される。また、視聴者から見てプロジェクタ401〜401はスクリーン403〜403の背後の床面にそれぞれ設置され、背面投影によりスクリーン403〜403上に画像が投影される。なお、この例ではスクリーン403〜403に囲まれるように円形のテーブル10が配置されている。そのため、視聴者から見てプロジェクタ401〜401の投影光が直接目に入らないため、投影光による不快感は抑制される。
【0041】
図3はプロジェクタ401、スクリーン403、アクチュエータ402、スピーカ404の位置関係を示したものである。スクリーン403は、その下端部分がアクチュエータ402により支持され、アクチュエータ402はこの例では詳細図示を省略しているが、三脚に搭載支持されるものとなっている。
【0042】
図3(b)はアクチュエータ402の外観の一例を示したものである。このアクチュエータ402はパン運動とチルト運動の両方を行うことができるよう、下部にパン運動用の回転モータを有し、上部にチルト運動用の回転モータを有している。
【0043】
図4は、この会話映像表示システム200を動作させた時の様子を示したものである。図4(a)に示した実際の会話場面が図4(c)のように映像として表示される。なお、図4(b)は背景画像除去手段304を具備しない構成とし、背景除去を行わない場合の映像を示したものである。図4(b),(c)は共にほぼ視聴者の視点から撮影されたものであり、他の場所の会話の様子が目の前に再現され、従来の単一の平面ディスプレイによる映像と比較して、実際の会話を目の前で見ているような感覚を感じることができる。
【0044】
この発明による会話映像表示システムの原理は、バイオロジカルモーション及び心的帰属と呼ばれる人の知覚の性質に基づく。バイオロジカルモーションは、光点群の運動のみから人の運動の種別、性別、個人性などの属性が知覚できる現象である。心的帰属とは、複数の単純な幾何図形の運動を観測したとき、それらの動きを人間の動きとして見立て、複数の図形の動きを人間の社会的行動に当てはめて意味づけをする知覚の傾向を指す。この性質により視聴者はスクリーンの動きを人の頭の動きとして見立てることができ、そこから視線の遷移など会話中の行動を読み取ることが可能となる。さらにはスクリーンの物理的な運動と投影された画像上での人物の頭部運動が同期することにより、会話人物の頭部運動をより明瞭に知覚することができる。頭部の運動は、会話中の視線の遷移(視線をある人物から別の人物に移す)に伴って典型的に発生し、人はこの発明による会話映像表示システムにより、より明瞭に会話人物の視線とその変化を読み取ることが可能となる。
【0045】
また、人の視覚は周辺視野において動きに敏感であるという性質があり、それにより視聴者の周辺視野に位置する会話人物の動作をスクリーンの物理的運動からより敏感に察知することができ、それにより中心視野と周辺視野を合わせた広い視野に映る複数人物の動作から、それら人物間のインタラクションをより明瞭に読み取ることができる。例えば、ある人物が誰に対して話しかけているかということをより明瞭かつ正確に読み取ることについて、この発明による会話映像表示システムは効果を発揮する。
【0046】
また、透明あるいは半透明の拡散スクリーンを用いることにより、視聴者はスクリーン越しに部屋の背景を見ることができ、その背景と投影された人物像の重なりにより、その人物があたかも目の前にいるかのような印象を持つことができる。加えて、画像から背景除去を行うことにより、さらにその印象は強まる。
【0047】
以下、各部について、さらに詳細に説明する。
【0048】
図2(a)に示した会話人物の位置に対して、カメラ101は各会話人物1〜4に個別のカメラ101〜101を割り当て、各会話人物1〜4の正面から顔及び上半身を撮影するよう、図2(a)に示したように配置される。図2(a)ではカメラ101により会話人物1の映像が撮影される。なお、各会話人物1〜4に個別のカメラ101〜101を割り当てる代わりに、広角レンズあるいは魚眼レンズを装着したカメラにより複数の会話人物の画像を一度に撮影するような構成も採用可能である。図5(a)は個別のカメラ101〜101で撮影された各会話人物1〜4の画像の一例を図示したものである。
【0049】
マイクロホン102は各会話人物について一台のピンマイクロホンを割り当て、それぞれ胸部に装着する。なお、マイクロホンアレーを会話人物の配置の中央に配置して、一つのマイクロホンアレーで同時に複数の会話人物の音声を集音することも可能である。
【0050】
頭部姿勢計測装置103には磁気式センサシステムを用いる。このシステムは磁気を発生させる発信器と、各会話人物の頭部に装着され、発信器により生成された磁界の強度を計測する受信器から構成される。発信器はデカルト座標系にそって直交する3軸について、それぞれコイルを配置した構成で、一定強度の交流磁界を発生させる。受信器も直交する3軸にコイルが配置され、それぞれにおいて磁界強度が計測される。各軸のコイルにより計測された磁界の強度及びその強度の差により、発信器に対する受信器の3次元相対座標及び受信器の3軸周りの回転角度が算出される。受信器はヘアバンドなどにより会話人物の頭部に固定される。
【0051】
顔位置検出手段301はカメラ101にて撮影された画像を入力として、画像上における会話人物の顔の領域を検出し、その座標値を出力する。顔位置検出手段301には後述する視覚的顔追跡手段を用いることができる。図5(b)は視覚的顔追跡手段により、各人物の顔の位置及びその姿勢を推定した結果の例を顔面上に図示したメッシュとして表したものである。なお、視覚的顔追跡手段以外の手段を用いることもできる。
【0052】
背景画像除去手段304はカメラ101で撮影された画像を入力とし、画像上の人物領域以外の背景領域の除去を行った画像を生成する。その方法としては例えば背景差分法を使用することができる。この方法は人物を含まない背景のみの画像を用いて、カメラ101により撮影されて入力される画像と、この背景画像とを比較することにより、人物領域のみからなる画像を生成する。具体的には入力画像のある画素の輝度I(x,y)と背景画像の同じ座標の輝度J(x,y)を比較して、その差分の絶対値|I(x,y)−J(x,y)|がある閾値以下の場合にその画素を背景と見なして輝度0に置き換える操作を行う。この操作を全ての画素に対して実施する。また、その後、部分的な欠損などを補正するために、モルフォルジカル演算と呼ばれる操作を施す。この操作の例としては人物領域を1画素分周囲に拡張する操作あるいは収縮させる操作を用いることができる。図5(c)は背景除去した各会話人物の画像を示したものである。
【0053】
制御信号生成手段303は頭部姿勢計測装置103により計測された会話人物の頭部姿勢を入力として、アクチュエータ402を駆動制御する制御信号を生成する。スクリーン403を会話人物の顔面と見立て、スクリーン403を支持するアクチュエータ402により、スクリーン403の姿勢を時間的に変化させることで、会話人物の頭部運動を正確に再現する。その場合、アクチュエータ402の物理的、機械的特性を考慮するため、頭部姿勢計測装置103により計測された頭部姿勢の時系列データについて変形操作を加えることで、アクチュエータ402に入力する制御信号を生成する。なお、以下ではパン運動(首振り方向の運動)について説明を行うが、一部を除き、チルト運動(頷き方向の運動)の制御信号生成も同様の処理により行うことができる。
【0054】
パン運動については頭部姿勢を表す鉛直軸周りの頭部回転角計測値の時系列θが入力されたとして説明する。なお、人物の体に対して正面を向く方向を0度とする。また、この実施例ではアクチュエータ402の制御は速度コマンドの指示によりなされるものとする。制御信号生成手段303は、頭部姿勢の計測値時系列θについて、ダウンサンプリング、振幅のシフト及びスケーリング、時間差分の計算、始動時の速度の制約付加、最大速度の制約付加などを行う。
【0055】
具体的な手順の例としては、まず、入力された計測値時系列θについて、ダウンサンプリングが行われる。ダウンサンプリングは例えば1/2とされる。次に、人物正面方向が0度となるような値のシフトが行われる。その後、一定の定数(例えば0.4)を用いて振幅値のスケーリングが行われる。このスケーリングはスクリーン403に対する入射光の角度を制限し、視聴者からスクリーン403が見える範囲に運動を制限するために行われる。その後、時系列に対して時間差分の計算が行われて、各時刻の速度成分が計算される。次に、その速度成分の局所的極大値(以下、ピーク値と言う)が検出され、その時刻を中心として、その前後の時刻について速度がゼロになる(接近する)時刻を探索する。そうして得られた区間(以下、ピーク区間と言う)について、その区間における角度の変化量(移動量)を保存しつつ、立ち上がり時の速度に一定値を与え、さらに最大速度が既定値を超えないように制約を課した信号を生成する。また、ピーク区間に挟まれた時間区間には速度0を与える。
【0056】
このようにして生成された制御信号及びその元になった計測値の一例を図6に示す。図6(a)は約5.2分に相当する会話中の時系列を示したものであり、図6(b)は図6(a)中の破線で挟んだ区間を拡大して示したものである。また、図6(c)は図6(b)の区間における速度成分を示したものである。この例では、始動時の速度は±5[deg/sec]、最大速度は±50[deg/sec]に設定されている。図6より微小振動が抑制され、またアクチュエータ402の最大速度を超える部分についても制約が課された信号が生成されていることが分かる。なお、ダウンサンプリングについては必ずしも行う必要はない。
【0057】
チルト運動についてもパン運動と同様の手順により制御信号が生成される。パン運動と異なる点としては、各ピーク区間以外の時刻については常にスクリーン403の面が鉛直線に沿った角度(0度とする)に回帰する点である。そのような制御信号を生成するために、上記のピーク区間検出の後、ピーク値が正負連続する区間のみを残し、他の区間は速度0と設定する。また、連続する複数のピーク区間において、最終的な到達角度が0度になるよう、速度が正の運動区間の移動量と負の区間の移動量が等しくなるように、連続区間の最後の区間の速度に対してスケーリングが施される。
【0058】
画像写像生成手段302はスクリーン403に投影される画像に歪みが生じないように、映像投影装置401とスクリーン403との位置関係及びスクリーン403の姿勢に応じて、そのスクリーン403に投影される画像中の人物の顔の領域を中心とした領域の写像(マッピング)を行うことで、映像投影装置401へ入力する画像を生成する。
【0059】
このマッピングは、入力された画像の座標値と、投影される画像の座標値との間の関係性についての数式に基づく。投影される画像の各画素について、対応する入力画像の座標値を計算し、その座標値から輝度を取得し、投影画像の画素の輝度に設定する操作を行うことで実施できる。図5(d)には、このようにして各会話人物の図5(c)に示した画像に対し、写像により生成された画像の例を示す。
【0060】
このマッピングの計算式は以下のように導出することができる。明瞭性のため、関連する複数のマッピングに分解して記述する。なお、以下においては英字の大文字(X,Y,Zを除く)はベクトルもしくは行列を表し、小文字はスカラーを表すものとする。
【0061】
マッピングは、スクリーン座標系上の1点Qからアクチュエータ座標系の1点PPTUへの変換、アクチュエータ座標系の1点PPTUからプロジェクタ座標系の1点Pprojへの変換、プロジェクタ座標系の1点Pprojから画像座標系の1点Pimgへの変換及び画像座標系の1点Pimgからウィンドウ座標系の1点Wへの変換から構成される。
【0062】
Q→PPTU→Pproj→Pimg→W (1)
但し、ウィンドウ座標系とは投影画像を生成する計算機上のフレームバッファ(あるいはウィンドウシステムを採用するOS上における画像表示窓)の座標系のことである。
【0063】
図7にこれら座標系の関係性を図示する。
【0064】
ここで、スクリーン座標系の点Qを、Q:=[q,qと定義する。Tは転置を表す。まず、スクリーン座標系の点Qからアクチュエータ座標系の点PPTU=[xPTU,yPTU,zPTUへの変換は、
PTU=Rθ・Rφ・[q+Δx,q+Δy,Δz] (2)
のように記述することができる。但し、Rθは鉛直軸Y’周りの回転角(パン回転角)θの回転を表す3×3の回転行列を表す。また、Rφは水平軸X’周りの回転角(チルト回転角)φの回転を表す3×3の回転行列を表す。(Δx,Δy,Δz)はアクチュエータ座標系の原点からスクリーン座標系の原点への並進成分を表す。
【0065】
アクチュエータ座標系からプロジェクタ座標系への変換は、回転と並進からなる線形変換として、
【0066】
【数1】

のように記述することができる。但し、{ri,j|i=1,2,3;j=1,2,3}とt,t,tはそれぞれ回転及び並進を表す係数である。これら係数はキャリブレーションにより決定される。
【0067】
プロジェクタ401の投影が透視投影であることを前提として、プロジェクタ座標系から画像座標系への変換は、
img=[ximg,yimg
=(f/zproj)・[xproj,yproj(4)
のように記述することができる。但し、fはプロジェクタ401の焦点距離である。
【0068】
最後に、画像座標系からウィンドウ座標系への変換は、
W=[w,w=[ximg+c,−yimg+c (5)
のように記述することができる。但し、(c,c)はウィンドウ座標系の原点から画像座標系の原点への並進成分を表す。これは典型的なプロジェクタ401の光学系がシフトレンズを採用していることに対応する。
【0069】
上記の式(1)〜(5)における未知の係数については、キャリブレーションを行うことで、この発明による会話映像表示システムの使用に際し、その事前に計算される。このキャリブレーションは複数のスクリーン姿勢の組(パン回転角θとチルト回転角φ)について、スクリーン403の4つの角それぞれについて、対応するウィンドウ座標系上の座標値を目視及びマウス操作により取得する。その後、その既知の姿勢の組に対して、式(1)〜(5)により計算されるウィンドウ座標系上の座標値と、実際に取得された座標値との差をコスト関数とした最適化を行うことにより、未知係数が計算される。
【0070】
次に、この発明による会話映像表示システムの他の実施例の構成を、図8を参照して説明する。
【0071】
この例では、会話映像表示システム200’のデータ処理部300’は図1に示した会話映像表示システム200のデータ処理部300における顔位置検出手段301に代え、視覚的顔追跡手段305を有するものとなっている。視覚的顔追跡手段305はカメラ101によって撮影されて入力された画像上における各人物の顔の領域と頭部姿勢を検出する。従って、この例では会話現場において会話人物の頭部姿勢を計測する頭部姿勢計測装置103は不要となる。
【0072】
視覚的顔追跡手段305は、会話映像表示システム200’の使用開始時に、カメラ101により撮影されて予め入力された画像から各人物の正面顔画像を記録してテンプレートを作成し、以後、そのテンプレートを逐次、カメラ101より入力される画像上にて照合、追跡を行う。その時、テンプレートに対して、画像上での並進及び3軸周りの回転が施された変形テンプレートが計算され、その変形プレート中の画素の輝度と、その画素と対応する入力された画像中の画素の輝度との輝度差を計算し、輝度差が最小になる画像上でのテンプレートの位置及び姿勢をもって、対象とする会話人物の顔領域の位置及び頭部姿勢とする。
【0073】
視覚的顔追跡手段305で検出された会話人物の顔の領域の座標値は画像写像生成手段302に入力され、また会話人物の頭部姿勢は制御信号生成手段303に入力される。
【0074】
この視覚的顔追跡手段305は前述したように、顔位置検出手段301として用いることができる。
【0075】
なお、上述した実施例におけるデータ処理部300,300’は、会話人物の人数に対応して複数存在する構成としてもよく、また一台によって会話人物全員の画像等の処理を行う構成としてもよい。

【特許請求の範囲】
【請求項1】
会話の画像及びその会話の各人物の頭部姿勢データを入力とし、入力された画像及び頭部姿勢データを処理して前記会話の状況を映像表示する会話映像表示システムであって、
前記各人物の位置関係と対応するように配置された複数のスクリーンと、
前記各スクリーンに前記各人物毎の画像を投影する映像投影装置と、
前記スクリーンの姿勢を制御するアクチュエータと、
前記スクリーンの姿勢を、そのスクリーンに投影される画像中の人物の頭部姿勢と同期して変化させるべく、前記頭部姿勢データをもとに前記アクチュエータを駆動制御する制御信号を生成する制御信号生成手段と、
前記入力された画像上における前記各人物の顔の領域を検出する顔位置検出手段と、
前記入力された画像中の、前記顔位置検出手段によって検出された顔の領域を中心とした領域を、その顔の人物の画像が投影される前記スクリーンの姿勢及びそのスクリーンと前記映像投影装置との位置関係に応じて写像し、顔の領域が写像された画像を前記映像投影装置に出力する画像写像生成手段とを有することを特徴とする会話映像表示システム。
【請求項2】
会話の画像を入力とし、入力された画像を処理して前記会話の状況を映像表示する会話映像表示システムであって、
前記各人物の位置関係と対応するように配置された複数のスクリーンと、
前記各スクリーンに前記各人物毎の画像を投影する映像投影装置と、
前記スクリーンの姿勢を制御するアクチュエータと、
前記入力された画像上における前記各人物の顔の領域及び頭部姿勢を検出する視覚的顔追跡手段と、
前記スクリーンの姿勢を、そのスクリーンに投影される画像中の人物の頭部姿勢と同期して変化させるべく、前記視覚的顔追跡手段で検出された頭部姿勢をもとに前記アクチュエータを駆動制御する制御信号を生成する制御信号生成手段と、
前記入力された画像中の、前記視覚的顔追跡手段で検出された顔の領域を中心とした領域を、その顔の人物の画像が投影される前記スクリーンの姿勢及びそのスクリーンと前記映像投影装置との位置関係に応じて写像し、顔の領域が写像された画像を前記映像投影装置に出力する画像写像生成手段とを有することを特徴とする会話映像表示システム。
【請求項3】
請求項2記載の会話映像表示システムにおいて、
前記視覚的顔追跡手段は予め入力された前記各人物の画像から正面顔画像のテンプレートを作成し、そのテンプレートを並進及び回転させてテンプレート中の画素の輝度と、その画素と対応する前記入力された画像中の画素の輝度との輝度差を求め、その輝度差が最小になるテンプレートの位置及び姿勢を前記顔の領域及び頭部姿勢とすることを特徴とする会話映像表示システム。
【請求項4】
請求項1乃至3記載のいずれかの会話映像表示システムにおいて、
前記アクチュエータは前記スクリーンを鉛直軸周りに回転させることを特徴とする会話映像表示システム。
【請求項5】
請求項1乃至3記載のいずれかの会話映像表示システムにおいて、
前記アクチュエータは前記スクリーンを鉛直軸周り及びスクリーン板面と平行な水平軸周りの双方に回転させることを特徴とする会話映像表示システム。
【請求項6】
請求項1乃至5記載のいずれかの会話映像表示システムにおいて、
前記スクリーンは背面投影スクリーンとされていることを特徴とする会話映像表示システム。
【請求項7】
請求項1乃至6記載のいずれかの会話映像表示システムにおいて、
前記映像投影手段に入力する画像から、人物領域以外の背景領域を除去する背景画像除去手段を有することを特徴とする会話映像表示システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−110630(P2013−110630A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−254857(P2011−254857)
【出願日】平成23年11月22日(2011.11.22)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】