説明

映像コミュニケーションシステム及びその作動方法

【課題】2つ以上の映像通信端末及び映像中継サーバからなる映像コミュニケーションシステムを提供する。
【解決手段】映像コミュニケーションシステムでは、第1映像通信端末20は、原映像を映像中継サーバに送信する原映像送信部201を備え、第2映像通信端末30は、当該原映像中で指定される注目物体の全部又は一部を含む注目物体画像を生成する注目物体画像生成部301と、該注目物体画像を映像中継サーバ10に送信する注目物体画像送信部302とを備える。映像中継サーバ10は、第1映像通信端末20から受信した原映像と注目物体画像を照合し、当該原映像中で注目物体座標を検出する注目物体検出部101と、注目物体座標に基づいて当該原映像中の注目物体の位置に所定の図形を合成して合成映像を生成する合成映像生成部102と、該合成映像を、第1映像通信端末20又は第2映像通信端末30に送信する合成映像送信部103とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像通信端末間で映像を送受信する映像コミュニケーションシステムに関し、特に、各映像通信端末を使用するユーザ間の意思疎通を円滑化する映像コミュニケーションシステム及びその作動方法に関する。
【背景技術】
【0002】
映像コミュニケーションシステムは、既に一般に普及しており、高価なビジネス向けテレビ会議システムだけでなく、一般向けの携帯電話を映像通信端末としたテレビ会議システムにも実装されるに至っている。
【0003】
映像コミュニケーションシステムの一般的な課題として、映像に映っている物体に対して、通常の対面での会話のように「あれ」「それ」といった指示語やジェスチャで指し示して話をすることが困難であることが挙げられる。この問題を解決するために、映像通信端末間で同一の映像を共有し、その共有された映像の中に映像通信端末のユーザが通信する映像中に図形を書き込み、映像と図形を重畳して表示可能なシステムも実用化されている(例えば、非特許文献1参照)。これらのシステムの多くはテレビ会議映像とは別に、ホワイトボードや電子ファイル、Webページ等の画面を各映像通信端末間で共有して書きこむものであるが、テレビ会議映像への図形の重畳も同様に技術的に可能である。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】“リアルコラボ”、NTTソフトウェア株式会社、[online]、[2011年1月11日検索]、インターネット〈http://www.ntts.co.jp/products/realcollabo/index.html〉
【発明の概要】
【発明が解決しようとする課題】
【0005】
映像への図形の重畳表示機能を携帯電話等の移動端末のテレビ電話に応用することで、従来のテレビ会議の場だけでない様々な場面での会話の円滑化に役立つと考えられるが、そのためには次のような課題が存在する。
【0006】
多くの移動端末は手で持って使うために手ぶれが大きく、重畳した図形の映像中の位置が、意図した場所からずれてしまうという課題がある。前述した非特許文献1の技術のような企業向けのテレビ会議システムでは、映像に利用するためのカメラは固定されていることが基本であり、映像に撮影される被写体(対象の物体)も動きは少ない。一方、カメラ付き移動端末を映像通信端末として利用することを考えると、カメラが頻繁に移動するだけでなく、屋外などの場面では映像中の物体についても動きが多くなる。したがって、例えばある瞬間に映像中の中心部に映っていた物体に矢印を書き込んだとしても、その物体が次の瞬間には映像中の別の場所に表示されているということが十分に起こり得る。このような状況で、矢印の位置を元の映像の中心部に固定したままでは、矢印が指す物体が変わってしまい、矢印の意味がなくなってしまうということが起こり得る。
【0007】
さらに、非特許文献1のテレビ会議システムでは、業務用の固定端末を映像通信端末として利用するため十分な処理能力を具備できるが、移動端末は比較的処理能力が限定されることが多い。このため、移動端末で図形の重畳等の高負荷な処理を実行できないという問題も想定される。
【0008】
また、図形の重畳等の高負荷な処理を実現するためには、特別な専用のソフトウェアが必要となるため、市販の移動端末をそのまま利用できないことが想定され、テレビ会議システム専用の移動端末や専用のソフトウェアをそれぞれの映像通信端末に用意することは、システムのコストの増大、ユーザ利便性等の問題が生じる。
【0009】
そこで、本発明は、上述の問題を鑑みて為されたものであり、各映像通信端末を使用するユーザ間の意思疎通を円滑化する映像コミュニケーションシステム及びその作動方法を提供することにある。
【課題を解決するための手段】
【0010】
本発明に係る映像コミュニケーションシステムは、従来のテレビ会議システムとは異なり、各映像通信端末を使用するユーザ間の意思疎通を円滑化するために、映像通信端末から提供される原映像に所定の図形を重畳した合成映像を生成及び提供する映像中継サーバを設け、各映像通信端末は、映像中継サーバを介して映像コミュニケーションを実現する構成とする。従って、本発明に係る映像コミュニケーションシステムでは、各映像通信端末が重畳すべき図形やその座標位置を指定するやり方を主題とするものではなく、各映像通信端末によって重畳すべき図形やその座標位置を指定された際に、映像中継サーバが合成映像を生成及び提供するようにしたことに主題があるため、従来からのテレビ会議システムとは技術的に区別されるべきことに留意する。
【0011】
即ち、本発明による第1態様の映像コミュニケーションシステムは、2つ以上の映像通信端末及び映像中継サーバからなる映像コミュニケーションシステムであって、第1映像通信端末は、原映像を映像中継サーバに送信する原映像送信部を備え、第2映像通信端末は、当該原映像中で指定される注目物体の全部又は一部を含む注目物体画像を生成する注目物体画像生成部と、該注目物体画像を前記映像中継サーバに送信する注目物体画像送信部とを備え、前記映像中継サーバは、前記第1映像通信端末から受信した原映像と前記注目物体画像を照合し、当該原映像中で注目物体が映っている位置を示す注目物体座標を検出する注目物体検出部と、前記注目物体座標に基づいて当該原映像中の注目物体の位置に所定の図形を合成して合成映像を生成する合成映像生成部と、該合成映像を、前記第1映像通信端末又は前記第2映像通信端末に送信する合成映像送信部と、を備えることを特徴とする。これにより、第1映像通信端末における処理負担を軽減させつつ各映像通信端末間の映像コミュニケーションを実現することができる。
【0012】
また、本発明による第1態様の映像コミュニケーションシステムにおいて、前記合成映像送信部は、前記合成映像を前記第1映像通信端末及び前記第2映像通信端末の双方に送信する手段を有することを特徴とする。これにより、第2映像通信端末は、第1映像通信端末と合成映像を共有することができる。
【0013】
また、本発明による第1態様の映像コミュニケーションシステムにおいて、前記第2映像通信端末の注目物体画像生成部は、当該合成映像中で指定される注目物体の全部又は一部を含む注目物体画像を生成する手段を有することを特徴とする。これにより、第2映像通信端末は、合成映像に対して更に注目物体を指定できるようになる。
【0014】
さらに、本発明による第2態様の映像コミュニケーションシステムは、2つ以上の映像通信端末及び映像中継サーバからなる映像コミュニケーションシステムであって、第1映像通信端末は、原映像を映像中継サーバに送信する原映像送信部を備え、第2映像通信端末は、当該原映像中で指定される注目領域を示す注目領域座標の情報を生成する注目領域座標指定処理部と、該注目領域座標の情報を前記映像中継サーバに送信する注目領域座標送信部とを備え、前記映像中継サーバは、前記第2映像通信端末から受信した注目領域座標の情報を基に、当該原映像中で注目物体の全部又は一部を含む部分画像を抽出して注目物体画像として生成する注目物体画像抽出部と、前記第1映像通信端末から受信した原映像と前記注目物体画像を照合し、当該原映像中で注目物体が映っている位置を示す注目物体座標を検出する注目物体検出部と、前記注目物体座標に基づいて当該原映像中の注目物体の位置に所定の図形を合成して合成映像を生成する合成映像生成部と、該合成映像を、前記第1映像通信端末又は前記第2映像通信端末に送信する合成映像送信部と、を備えることを特徴とする。これにより、第1映像通信端末における処理負担を軽減させつつ各映像通信端末間の映像コミュニケーションを実現することができる。
【0015】
また、本発明による第2態様の映像コミュニケーションシステムにおいて、前記合成映像送信部は、前記合成映像を前記第1映像通信端末及び前記第2映像通信端末の双方に送信する手段を有することを特徴とする。これにより、第2映像通信端末は、第1映像通信端末と合成映像を共有することができる。
【0016】
また、本発明による第2態様の映像コミュニケーションシステムにおいて、前記第2映像通信端末の注目領域座標指定処理部は、当該合成映像中で指定される注目領域を示す注目領域座標の情報を生成する手段を有することを特徴とする。これにより、第2映像通信端末は、合成映像に対して更に注目物体を指定できるようになる。
【0017】
また、本発明による第1態様の映像コミュニケーションシステムにおける作動方法は、2つ以上の映像通信端末及び映像中継サーバからなる映像コミュニケーションシステムにおける映像中継サーバの作動方法であって、第1映像通信端末は、原映像を映像中継サーバに送信する原映像送信部を備えており、第2映像通信端末は、当該原映像中で指定される注目物体の全部又は一部を含む注目物体画像を生成する注目物体画像生成部と、該注目物体画像を前記映像中継サーバに送信する注目物体画像送信部とを備えており、前記第1映像通信端末から受信した原映像と前記注目物体画像を照合し、当該原映像中で注目物体が映っている位置を示す注目物体座標を検出するステップと、前記注目物体座標に基づいて当該原映像中の注目物体の位置に所定の図形を合成して合成映像を生成するステップと、該合成映像を、前記第1映像通信端末又は前記第2映像通信端末に送信するステップと、を含むことを特徴とする。
【0018】
また、本発明による第2態様の映像コミュニケーションシステムにおける作動方法は、2つ以上の映像通信端末及び映像中継サーバからなる映像コミュニケーションシステムにおける映像中継サーバの作動方法であって、第1映像通信端末は、原映像を映像中継サーバに送信する原映像送信部を備えており、第2映像通信端末は、当該原映像中で指定される注目領域を示す注目領域座標の情報を生成する注目領域座標指定処理部と、該注目領域座標の情報を前記映像中継サーバに送信する注目領域座標送信部とを備えており、前記第2映像通信端末から受信した注目領域座標の情報を基に、当該原映像中で注目物体の全部又は一部を含む部分画像を抽出して注目物体画像として生成するステップと、前記第1映像通信端末から受信した原映像と前記注目物体画像を照合し、当該原映像中で注目物体が映っている位置を示す注目物体座標を検出するステップと、前記注目物体座標に基づいて当該原映像中の注目物体の位置に所定の図形を合成して合成映像を生成するステップと、該合成映像を、前記第1映像通信端末又は前記第2映像通信端末に送信するステップと、を含むことを特徴とする。
【発明の効果】
【0019】
本発明によれば、映像中継サーバによって映像中に図形を重畳する際に、映像通信端末によって指定された映像中の対象物体に対して予め定めた図形を重畳するため、映像中の物体の位置が動いても、当該図形を対象物体に追随させた合成映像を提供することができるようになる。
【0020】
また、図形を対象物体に追随するよう重畳した合成映像の生成及び提供の処理は、各映像通信端末ではなくネットワーク上の映像中継サーバが行うようにしたため、処理能力の低い映像通信端末をも本発明の映像コミュニケーションシステムに利用可能となる。
【0021】
また、映像通信端末からの映像送受信方式として既設の標準的なものを利用することが可能となり、標準的な映像通信端末及びそのプログラムを専用化することなく利用することができるようになる。
【0022】
したがって、本発明によれば、映像中継サーバによって映像の中継と図形の合成を行なうようにしたので、性能が低く標準的な映像通信機能しか持たない映像通信端末を用いた、既存のテレビ電話システムの利便性をより高めた映像コミュニケーションシステムを提供できるようになる。
【図面の簡単な説明】
【0023】
【図1】本発明に係る映像コミュニケーションシステムの構成例を示す図である。
【図2】本発明による第1実施形態の映像コミュニケーションシステムの構成を示す図である。
【図3】本発明による第1実施形態の映像コミュニケーションシステムのブロック図である。
【図4】本発明による第1実施形態の映像コミュニケーションシステムの動作フロー図である。
【図5】本発明による第2実施形態の映像コミュニケーションシステムの構成を示す図である。
【図6】本発明による第2実施形態の映像コミュニケーションシステムのブロック図である。
【図7】本発明による第2実施形態の映像コミュニケーションシステムの動作フロー図である。
【図8】本発明に係る映像コミュニケーションシステムにおける合成映像を例示する図である。
【発明を実施するための形態】
【0024】
以下、図面を参照して、本発明による各実施形態の映像コミュニケーションシステムについて説明する。まず、本発明に係る映像コミュニケーションシステムの包括的な構成を説明し、より具体的な各実施形態については詳細に後述する。
【0025】
図1は、本発明に係る映像コミュニケーションシステムの構成例を示す図である。本発明に係る映像コミュニケーションシステムは、2つ以上の映像通信端末と、各映像通信端末の映像及び音声についてネットワークを通じて中継する映像中継サーバから構成される。以下の説明では、図1に示すように、代表的に、ユーザAが利用する第1映像通信端末20と、ユーザBが利用する第2映像通信端末30との間で、映像中継サーバ10を介して映像コミュニケーションを実現する例について説明する。映像中継サーバ10は、1つのコンピュータで実現可能であるが、第1映像通信端末20と第2映像通信端末30が遠隔的にネットワークを通じて通信する例を説明するため、説明の便宜上、映像合成ユニット10aと多地点接続ユニット10bからなるものとして説明する。
【0026】
第1映像通信端末20は、例えば、既存のカメラ付き移動端末としてユーザAが利用する端末である。ユーザAは、このようなカメラ付き移動端末を利用して内臓カメラで撮像した原映像を、映像中継サーバ10を介して第2映像通信端末30に送信する機能を有する。一方、第1映像通信端末20は、映像中継サーバ10から、この原映像に対して予め定めた図形を重畳した合成映像を受信して、自身のディスプレイのモニタ画面にてユーザAが視聴可能な表示再生機能を有する。
【0027】
第2映像通信端末30は、例えば、既存のパーソナルコンピュータとしてユーザBが利用する端末である。このパーソナルコンピュータは、マウスを利用するものやタッチパネル形式のものでもよいし、携帯端末でもよい。第2映像通信端末30は、映像中継サーバ10から、第1映像通信端末20が視聴する合成映像を同様に受信して、自身のディスプレイのモニタ画面にてユーザBが視聴可能な表示再生機能を有する。さらに、第2映像通信端末30は、原映像又は合成映像内でユーザBが注目する物体を指定して、その指定された注目物体画像(第1実施形態)又は注目領域座標(第2実施形態)の情報を、映像中継サーバ10に送信する機能を有し、映像中継サーバ10に対して原映像からの所定図形を重畳した合成映像(又は受信した合成映像からの所定図形を重畳した更なる合成映像)を生成可能にする。原映像又は合成映像内でユーザBが注目する物体を指定するユーザインターフェースは、例えばマウスやタッチパネル形式のものが好適である。
【0028】
ここで、第1映像通信端末20と第2映像通信端末30の双方は、既存のテレビ会議システムと同様に、多地点接続ユニット10bを経由して映像コミュニケーションを実現する機能を有しているものとする。例えば、多地点接続ユニット10bは、RTP(Real-time Transport Protocol)通信用のサーバで構成することができる。
【0029】
映像中継サーバ10は、この多地点接続ユニット10bと相互接続される、原映像に対して所定図形を重畳した合成映像(又は第2映像通信端末30から前回指定されて生成した合成映像に対して所定図形を重畳した更なる合成映像)の生成及び提供を行う映像合成ユニット10aを備える。
【0030】
つまり、映像中継サーバ10は、第1映像通信端末20からは原映像を受信し、第2映像通信端末30から対象物体の指定がある場合に、第2映像通信端末30から原映像に対する注目物体画像又はその注目物体の領域を示す注目領域座標の情報を受信し、指定された対象物体の画像領域の抽出を行なって、所定の図形を各対象物体に割り当て重畳した合成映像を生成して、第1映像通信端末20及び/又は第2映像通信端末30に送信する。尚、合成映像の共有の観点からは、第1映像通信端末20及び第2映像通信端末30の双方に合成映像が送信されることが好ましく、映像中継サーバ10は、第1映像通信端末20から原映像を受信し、第2映像通信端末30からの対象物体の指定がなされるまで、当該原映像を合成映像として第1映像通信端末20及び第2映像通信端末30の双方に送信する。
【0031】
ここで、重畳される所定の図形は、映像合成ユニット10aが予め用意したものであり、例えば、「丸」や「矢印」などの図形である。第2映像通信端末30からの指定回数に応じて重畳する図形を順次変化させる態様や、第2映像通信端末30から原映像に対する注目物体画像又はその注目物体の領域を示す注目領域座標の情報に対して、図形を指定する補助情報(例えば、「丸」であればフラグ1、「矢印」であればフラグ2、「吹き出し図」であればフラグ3など)を取得するような態様が考えられる。この場合、図形選択を行うタブレット形式のアプリケーションソフトウェアを第2映像通信端末30に設けるのが好適である。
【0032】
また、映像合成ユニット10aは、第2映像通信端末30から原映像に対する注目物体画像又はその注目物体の領域を示す注目領域座標の情報に対して、指定の対象物体を有する原映像又は合成映像から、既存のオブジェクト抽出処理(例えば、MPEG−4のオブジェクト抽出技法が知られている)を実行し、合成映像の送出後に繰りかえし第1映像通信端末20から原映像を受信した場合も、第2映像通信端末30からの対象物体の更なる指定がなされるまで、当該原映像中の指定の対象物体を追従した位置に所定の図形を重畳した合成映像を生成して提供する。繰り返し得られる原映像中から指定の対象物体が消える又は隠れる場合には、当該図形の重畳をなくした合成映像を提供するように構成することができる。
【0033】
従って、本発明に係る映像コミュニケーションシステムでは、以下のような手順の利用態様が想定される。
(1)ユーザAとユーザBは、それぞれの映像通信端末20,30を利用して多地点接続ユニット10bを介して映像コミュニケーションを行なう。
(2)ユーザAは、第1映像通信端末20の内蔵カメラで周囲の状況を撮影し原映像として多地点接続ユニット10bに送信する。
(3)ユーザBは、第2映像通信端末30で合成映像に関して視聴しつつ、会話の中で注目すべき物体が映ったときに、その物体を第2映像通信端末30の画面上で指定する。
(4)第2映像通信端末30は、ユーザBによって指定された、合成映像から切り出された注目物体画像又は画面上で指定された場所を示す注目領域座標の情報を映像合成ユニット10aに送信する。
(5)映像合成ユニット10aは、注目物体画像(第2映像通信端末30から受信したもの、若しくは、同じく受信した注目領域座標に基づき原映像等から切り出された部分画像)と原映像を照合し、原映像の中で注目物体が存在する場所を検出する。
(6)映像合成ユニット10aは、検出した場所に所定の図形を合成し、合成映像として多地点接続ユニットを介して各映像通信端末20,30に送信する。
従って、各映像通信端末20,30では、受信した合成映像を表示し、各ユーザA,Bは、ユーザBが指定した物体に関連付けられた図形が重畳された合成映像を視聴可能となる。
【0034】
以下、より具体的に、図2〜図4を参照して、本発明による第1実施形態の映像コミュニケーションシステムについて説明する。図2は、本発明による第1実施形態の映像コミュニケーションシステムの構成を示す図である。図3は、本発明による第1実施形態の映像コミュニケーションシステムのブロック図である。図4は、本発明による第1実施形態の映像コミュニケーションシステムの動作フロー図である。
【0035】
〔第1実施形態〕
図2を参照するに、本発明による第1実施形態の映像コミュニケーションシステムは、原映像を第1映像通信端末20にて生成して映像中継サーバ10に送信し、映像中継サーバ10では、第2映像通信端末30から送られてきた注目物体画像と、第1映像通信端末20から逐次送信されてくる原映像を照合して原映像中の注目物体の位置を検出し、この検出位置に図形を重畳するように構成される。より具体的には、実施形態の映像コミュニケーションシステムは、映像中継サーバ10と、第1映像通信端末20と、第2映像通信端末30とを備える。映像中継サーバ10は、注目物体検出部101と、合成映像生成部102と、合成映像送信部103とを備える。第1映像通信端末20は、原映像送信部201を有する。第2映像通信端末30は、注目物体画像生成部301と、注目物体画像送信部302とを備える。尚、本発明に係る主要な部分のみを図2に示しており、画像の表示再生機能、通信機能、ユーザインターフェース機能等の既存の映像通信端末が備える機能を排除するものではないことに留意する。
【0036】
尚、本実施形態に係る映像中継サーバ10は、1つ以上のコンピュータとして構成することができ、映像中継サーバ10の各機能を実現する処理内容を記述したプログラムを、当該コンピュータの所定の記憶部(図示せず)に格納しておき、当該コンピュータの中央演算処理装置(CPU)によってこのプログラムを読み出して実行させることで実現することができる。
【0037】
第1映像通信端末20における原映像送信部201は、ユーザAによって内臓カメラを操作して、その場の状況を撮像した原映像を映像中継サーバ10に送信する機能部である。原映像は、動画でも静止画でもよいが、以下の説明では、動画を例に説明する。
【0038】
第2映像通信端末30における注目物体画像生成部301は、ユーザBによって原映像が閲覧され、その中で注目する領域をマウスクリックなどの方法で指定された部分画像を切り出し、注目物体画像として生成する機能部である。つまり、注目物体画像生成部301は、ユーザBによって指定が行われた瞬間のフレーム画像を原映像中から取得し、注目領域座標に基づきフレーム画像の一部を注目物体画像として切り出す。この部分画像は、正確な注目物体を切り出す必要はなく、当該注目物体の特定に必要な規定サイズ(例えば、フレーム画像の1/50サイズ)で切り出される。尚、フレーム画像の全部を注目物体画像として指定してもよいことは勿論である。
【0039】
第2映像通信端末30における注目物体画像送信部302は、注目物体画像生成部301によって生成された注目物体画像を映像中継サーバ10に送信する機能部である。
【0040】
映像中継サーバ10における注目物体検出部101は、第2映像通信端末30から受信した注目物体画像と受信して保持した原映像を照合し、原映像の中で当該注目物体が存在する場所を「注目物体座標」として検出する機能部である。ここで、原映像の中で当該注目物体が存在する場所を照合して検出する技法は、既存のオブジェクト抽出技法を用いることができるが、単純な画素値マッチングで特定してもよい。
【0041】
映像中継サーバ10における合成映像生成部102は、注目物体検出部101によって検出した場所に所定の図形を合成し、合成映像として生成する機能部である。
【0042】
映像中継サーバ10における合成映像送信部103は、合成映像生成部102によって生成した合成映像を各映像通信端末20,30に送信する機能部である。
【0043】
図3及び図4には、映像中継サーバ10を映像合成ユニット10aと多地点接続ユニット10bからなるものとして構成した、より具体的な例が示されている。
【0044】
図3を参照しながら、図4を説明するに、まず、映像中継サーバ10の多地点接続ユニット10bは、第1映像端末20と第2映像端末30との間での映像・音声コミュニケーションのために、RTP通信を確立している(S1)。
【0045】
第1映像端末20は、ユーザAの操作によってカメラ撮影部2011によって原映像を取得し、エンコード部2012によってこの原映像を所定の符号化方式(例えば、MPEG−4)で符号化し、RTP送信部2013によってRTP通信により多地点接続ユニット10bに送信する(S2)。ここで、第2映像通信端末30は、原映像の待ち受け状態にある(S3)。
【0046】
多地点接続ユニット10bは、RTP受信部1013によって第1映像端末20から符号化された原映像を受信するとともに、トランスコード部1016によって映像・音声コミュニケーションに適合した所定のビットレートに変換し、RTP送信部1017によって第2映像通信端末30に転送する(S4)。尚、多地点接続ユニット10bは、第1映像端末20から受信した符号化された原映像を、トランスコード部1014によって映像合成ユニット10aとのRTP通信に適合した所定のビットレートに変換し、RTP送信部1015によって映像合成ユニット10aに転送する。映像合成ユニット10aに転送された当該符号化された原映像は、RTP受信・デコード部1018によって受信及び復号され、注目物体検出部101に送出される。
【0047】
第2映像通信端末30は、RTP受信・デコード部3011によって、多地点接続ユニット10bから、符号化された原映像を受信して復号し、ディスプレイ表示部3014によって当該原映像をモニタ画面に表示するとともに(S5)、注目物体画像生成部301に送出する。注目物体画像生成部301は、ユーザ入力部3013を介してユーザBによって指定された原映像中の1つの映像フレームに該当する部分画像を抽出する部分画像抽出部3012を有し、この部分画像抽出部3012によって当該部分画像を注目物体画像として生成し、注目物体画像送信部302に送出する(S6)。注目物体画像送信部302は、ネットワークを通じて注目物体画像を映像合成ユニット10aに送信するフレーム画像送信部3021を有し、フレーム画像送信部3021は、ユーザBによって指定された原映像中の1つの映像フレームに該当する注目物体画像を映像合成ユニット10aのフレーム画像受信部1012に送信する(S7)。
【0048】
映像合成ユニット10aの注目物体検出部101は、フレーム画像受信部1012を介して受信した注目物体画像と、第1映像端末20から受信した原映像とを照合する映像照合認識処理部1011を有し、映像照合認識処理部1011によって、原映像における注目物体の画像領域を特定する(S8)。さらに、映像合成ユニット10aは、原映像に当該特定した注目物体の注目画像座標の位置に対して所定の図形を重畳して合成映像を生成する合成映像生成部102を有し、合成映像生成部102は、RTP受信・デコード部1018から得られる原映像に対して、所定の図形を記憶した記憶部(図示せず)から注目物体に割り当てられる所定の図形の情報を取得して重畳する映像合成処理を実行する映像合成処理部1021を有する(S9)。尚、第2映像通信端末30は、1つ以上の注目物体を指定し、それぞれの注目物体を識別する識別子と、当該識別子に対応する図形を選択して指定するためのフラグを、当該部分画像ともに送信するように構成することができ、この場合、映像合成ユニット10aの注目物体検出部101及び合成映像生成部102は、当該識別子で識別される注目物体に、当該フラグで指定される図形を記憶部(図示せず)から注目物体ごとに取得して重畳するように構成することもできる。
【0049】
映像合成ユニット10aのエンコード・RTP送信部1031は、合成映像生成部102から得られる合成映像を符号化してRTP通信で多地点接続ユニット10bに送出する。多地点接続ユニット10bは、RTP受信部1032で合成映像を受信して、トランスコード部1033によって映像・音声コミュニケーションに適合した所定のビットレートに変換し、RTP送信部1034によって第1映像通信端末20及び第2映像通信端末30に転送する(S10)。従って、エンコード・RTP送信部1031、RTP受信部1032、トランスコード部1033及びRTP送信部1034は、合成映像を映像通信端末20に送信する合成映像送信部103として機能する。尚、合成映像送信部103は、トランスコード部1016及びRTP送信部1017によって、合成映像を映像通信端末30に送信することもできる。
【0050】
第1映像通信端末20は、RTP受信・デコード部2014によって当該合成映像を受信して復号し、ディスプレイ表示部2015によって当該合成映像をモニタ画面に表示する(S11)。同様に、第2映像通信端末30は、RTP受信・デコード部3011によって当該合成映像を受信して復号し、ディスプレイ表示部3014によって当該合成映像をモニタ画面に表示する(S12)。
【0051】
このように、本実施形態の映像コミュニケーションシステムによれば、第1映像通信端末20と第2映像通信端末30との間でやり取りされる映像中、第2映像通信端末30のユーザBが図形を重畳する対象として指定した注目物体の画像領域を照合によって判別して図形を重畳するように構成したため、従来では図形を描画する際に描画する位置を指定していたため手ぶれや物体の移動より重畳した図形がずれてしまう問題を解決することができる。
【0052】
また、本実施形態の映像コミュニケーションシステムによれば、第1映像通信端末20から原映像を映像中継サーバ10に送信して、図形の重畳を映像中継サーバ20で実行するように構成したため、第1映像通信端末20として利用する移動端末の処理能力不足に係る問題を解決することができる。
【0053】
また、本実施形態の映像コミュニケーションシステムによれば、第1映像通信端末20に特別な専用のハードウェアやソフトウェアを使用する必要が無くなり、つまり、第1映像通信端末20(もしくは第2映像通信端末30)と映像中継サーバ20の間の映像送受信の実装方式として、通常の映像コミュニケーションと同様の方式を採用すればよくなり、過大なコスト増加等の問題を生じることなく実現可能となる。
【0054】
次に、図5〜図7を参照して、本発明による第2実施形態の映像コミュニケーションシステムについて説明する。図5は、本発明による第2実施形態の映像コミュニケーションシステムの構成を示す図である。図6は、本発明による第2実施形態の映像コミュニケーションシステムのブロック図である。図7は、本発明による第2実施形態の映像コミュニケーションシステムの動作フロー図である。尚、第1実施形態と同様な構成要素には同一の参照番号を付している。
【0055】
〔第2実施形態〕
図5を参照するに、本発明による第2実施形態の映像コミュニケーションシステムは、原映像を第1映像通信端末20にて生成して映像中継サーバ10に送信し、図形を重畳するための注目物体が映像コミュニケーションシステムでやり取りされる映像中のどこに映っているかを、第2映像通信端末30にてユーザBが指定し、この指定場所を示す注目領域座標の情報を映像中継サーバ10に送信し、映像中継サーバ10は、この注目領域座標の情報を基に第1映像通信端末30から受信した原映像から注目物体画像を抽出し、抽出した注目物体画像と原映像を照合して原映像中の注目物体の位置を注目物体座標の情報として検出し、この検出位置に図形を重畳するように構成される。より具体的には、本実施形態の映像コミュニケーションシステムは、映像中継サーバ10と、第1映像通信端末20と、第2映像通信端末30とを備える。映像中継サーバ10は、注目物体検出部101と、合成映像生成部102と、合成映像送信部103と、注目物体画像抽出部104とを備える。第1映像通信端末20は、原映像送信部201を有する。第2映像通信端末30は、注目領域座標指定処理部303と、注目領域座標送信部304とを備える。尚、本発明に係る主要な部分のみを図5に示しており、画像の表示再生機能、通信機能、ユーザインターフェース機能等の既存の映像通信端末が備える機能を排除するものではないことに留意する。
【0056】
第2実施形態では、第2映像通信端末30が、注目領域座標指定処理部303と、注目領域座標送信部304とを備える点と、映像中継サーバ10が、注目物体画像抽出部104を備える点で相違する。
【0057】
尚、本実施形態に係る映像中継サーバ10は、1つ以上のコンピュータとして構成することができ、映像中継サーバ10の各機能を実現する処理内容を記述したプログラムを、当該コンピュータの所定の記憶部(図示せず)に格納しておき、当該コンピュータの中央演算処理装置(CPU)によってこのプログラムを読み出して実行させることで実現することができる。
【0058】
第1映像通信端末20における原映像送信部201は、ユーザAによって内臓カメラを操作して、その場の状況を撮像した原映像を映像中継サーバ10に送信する機能部である。原映像は、動画でも静止画でもよいが、以下の説明では、動画を例に説明する。
【0059】
第2映像通信端末30における注目領域座標指定処理部303は、ユーザBによって原映像が閲覧され、その中で注目する領域をマウスクリックなどの方法で指定された注目領域の座標を特定し、注目領域座標の情報として生成する機能部である。つまり、注目領域座標指定処理部303は、ユーザBによって指定が行われた瞬間のフレーム画像を原映像中から取得し、フレーム画像の一部を注目物体画像として切り出し可能な注目領域座標を指定する。この注目領域座標は、注目物体を囲む座標群とするか、又は1点を指定する座標とすることができ、この場合、映像中継サーバ10側で当該注目物体の特定に必要な規定サイズ(例えば、フレーム画像の1/50サイズ)で切り出される。
【0060】
第2映像通信端末30における注目領域座標送信部304は、注目領域座標指定処理部303によって生成された注目領域座標の情報を映像中継サーバ10に送信する機能部である。
【0061】
映像中継サーバ10における注目物体画像抽出部104は、第2映像通信端末30から取得した「注目領域座標」の情報を基に、原映像から注目物体画像を抽出し、注目物体検出部101に送出する。この注目物体画像の抽出は、例えば、注目領域座標の情報を重心位置とする注目物体の特定に必要な規定サイズ(例えば、フレーム画像の1/50サイズ)で切り出せばよい。
【0062】
映像中継サーバ10における注目物体検出部101は、注目物体画像抽出部104によって抽出した注目物体画像と受信して保持した原映像を照合し、原映像の中で当該注目物体が存在する場所を「注目物体座標」として検出する機能部である。ここで、原映像の中で当該注目物体が存在する場所を照合して検出する技法は、既存のオブジェクト抽出技法を用いることができるが、単純な画素値マッチングで特定してもよい。
【0063】
映像中継サーバ10における合成映像生成部102は、注目物体検出部101によって検出した場所に所定の図形を合成し、合成映像として生成する機能部である。
【0064】
映像中継サーバ10における合成映像送信部103は、合成映像生成部102によって生成した合成映像を各映像通信端末20,30に送信する機能部である。
【0065】
図6及び図7には、映像中継サーバ10を映像合成ユニット10aと多地点接続ユニット10bからなるものとして構成した、より具体的な例が示されている。
【0066】
図6を参照しながら、図7を説明するに、まず、映像中継サーバ10の多地点接続ユニット10bは、第1映像端末20と第2映像端末30との間での映像・音声コミュニケーションのために、RTP通信を確立している(S21)。
【0067】
第1映像端末20は、ユーザAの操作によってカメラ撮影部2011によって原映像を取得し、エンコード部2012によってこの原映像を所定の符号化方式(例えば、MPEG−4)で符号化し、RTP送信部201によってRTP通信により多地点接続ユニット10bに送信する(S22)。ここで、第2映像通信端末30は、原映像の待ち受け状態にある(S23)。
【0068】
多地点接続ユニット10bは、RTP受信部1013によって第1映像端末20から符号化された原映像を受信して、トランスコード部1014及びRTP送信部1015経由で映像合成ユニット10aに送信され、最初に撮像された原映像については指定の注目領域座標がないことから、RTP受信部1032経由でこの原映像を映像合成ユニット10aによる合成映像として取得し、トランスコード部1033及びRTP送信部1034経由で第2映像通信端末30に転送する(S24)。
【0069】
第2映像通信端末30は、RTP受信・デコード部3011によって、多地点接続ユニット10bから、符号化された原映像を受信して復号し、ディスプレイ表示部3014によって当該原映像をモニタ画面に表示する(S25)。注目領域座標指定処理部303は、 ユーザ入力部3031を介してユーザBによって指定された原映像中の1つの映像フレームに該当する部分画像を特定する注目領域座標の情報を生成し(S26)、注目領域座標送信部304に送出する。注目領域座標送信部304は、ネットワークを通じて注目領域座標の情報を映像合成ユニット10aに送信する座標送信部3021bを有し、座標送信部3021bは、ユーザBによって指定された原映像中の1つの映像フレームに該当する注目物体を特定するための注目領域座標の情報を映像合成ユニット10aの座標受信部1012bに送信する(S27)。
【0070】
映像合成ユニット10aの注目物体画像抽出部104は、第1映像端末20から受信した原映像から、注目領域座標の情報を基に部分画像を抽出する部分画像抽出部1041を有し、部分画像抽出部1041は、抽出した部分画像を注目物体画像として注目物体検出部101に送出し、注目物体検出部101は、注目物体画像抽出部104によって抽出した注目物体画像と、第1映像端末20から受信した原映像とを照合する映像照合認識処理部1011を有し、映像照合認識処理部1011によって、原映像における注目物体の注目画像座標を特定する(S28)。
【0071】
映像合成ユニット10aは、原映像に当該特定した注目物体の注目画像座標の位置に対して所定の図形を重畳して合成映像を生成する合成映像生成部102を有し、合成映像生成部102は、RTP受信・デコード部1018から得られる原映像に対して、所定の図形を記憶した記憶部(図示せず)から注目物体に割り当てられる所定の図形の情報を取得して重畳する映像合成処理を実行する映像合成処理部1021を有する(S29)。尚、第2映像通信端末30は、1つ以上の注目物体を指定する1つ以上の注目領域座標を特定する際に、それぞれの注目物体を識別する識別子と、当該識別子に対応する図形を選択して指定するためのフラグを、当該注目領域座標の情報ともに送信するように構成することができ、この場合、映像合成ユニット10aの注目物体検出部101及び合成映像生成部102は、当該識別子で識別される注目物体に、当該フラグで指定される図形を記憶部(図示せず)から注目物体ごとに取得して重畳するように構成することもできる。
【0072】
映像合成ユニット10aのエンコード・RTP送信部1031は、合成映像生成部102から得られる合成映像を符号化してRTP通信で多地点接続ユニット10bに送出する。多地点接続ユニット10bは、RTP受信部1032で合成映像を受信して、トランスコード部1033によって映像・音声コミュニケーションに適合した所定のビットレートに変換し、RTP送信部1034によって第2映像通信端末30に転送するとともに、トランスコード部1016によって映像・音声コミュニケーションに適合した所定のビットレートに変換し、RTP送信部1017によって第1映像通信端末20に転送する(S30)。従って、エンコード・RTP送信部1031、RTP受信部1032、トランスコード部1033、RTP送信部1034、トランスコード部1033及びRTP送信部1034は、合成映像を各映像通信端末20,30に送信する合成映像送信部103として機能する。
【0073】
第1映像通信端末20は、RTP受信・デコード部2014によって当該合成映像を受信して復号し、ディスプレイ表示部2015によって当該合成映像をモニタ画面に表示する(S31)。同様に、第2映像通信端末30は、RTP受信・デコード部3011によって当該合成映像を受信して復号し、ディスプレイ表示部3014によって当該合成映像をモニタ画面に表示する(S32)。
【0074】
このように、本実施形態の映像コミュニケーションシステムにおいても、第1実施形態の利点をすべて包含した構成とすることができる。
【0075】
図8は、原映像に所定の図形を重畳した例である。撮影画像(原映像)における注目領域に「丸」を追加したり、「矢印」を追加したりすることができ、「吹き出し」を追加したりすることができる。この「吹き出し」が与えられた合成映像について、第1映像通信端末20や第2映像通信端末30からの指示によりRTP通信でテキスト情報を送信して、文字入力することも可能である。
【産業上の利用可能性】
【0076】
本発明によれば、映像中継サーバによって映像中に図形を重畳する際に、映像通信端末によって指定された映像中の対象物体に対して予め定めた図形を重畳するため、映像中の物体の位置が動いても、当該図形を対象物体に追随させた合成映像を提供することができるようになるから、移動端末を利用した映像コミュニケーションの用途に有用である。
【符号の説明】
【0077】
10 映像中継サーバ
10a 映像合成ユニット
10b 多地点接続ユニット
20 第1映像通信端末
30 第2映像通信端末
101 注目物体検出部
102 合成映像生成部
103 合成映像送信部
104 注目物体画像抽出部
201 原映像送信部
301 注目物体画像生成部
302 注目物体画像送信部
303 注目領域座標指定処理部
304 注目領域座標送信部

【特許請求の範囲】
【請求項1】
2つ以上の映像通信端末及び映像中継サーバからなる映像コミュニケーションシステムであって、
第1映像通信端末は、原映像を映像中継サーバに送信する原映像送信部を備え、
第2映像通信端末は、当該原映像中で指定される注目物体の全部又は一部を含む注目物体画像を生成する注目物体画像生成部と、該注目物体画像を前記映像中継サーバに送信する注目物体画像送信部とを備え、
前記映像中継サーバは、
前記第1映像通信端末から受信した原映像と前記注目物体画像を照合し、当該原映像中で注目物体が映っている位置を示す注目物体座標を検出する注目物体検出部と、
前記注目物体座標に基づいて当該原映像中の注目物体の位置に所定の図形を合成して合成映像を生成する合成映像生成部と、
該合成映像を、前記第1映像通信端末又は前記第2映像通信端末に送信する合成映像送信部と、
を備えることを特徴とする映像コミュニケーションシステム。
【請求項2】
前記合成映像送信部は、前記合成映像を前記第1映像通信端末及び前記第2映像通信端末の双方に送信する手段を有することを特徴とする、請求項1に記載の映像コミュニケーションシステム。
【請求項3】
前記第2映像通信端末の注目物体画像生成部は、当該合成映像中で指定される注目物体の全部又は一部を含む注目物体画像を生成する手段を有することを特徴とする、請求項2に記載の映像コミュニケーションシステム。
【請求項4】
2つ以上の映像通信端末及び映像中継サーバからなる映像コミュニケーションシステムであって、
第1映像通信端末は、原映像を映像中継サーバに送信する原映像送信部を備え、
第2映像通信端末は、当該原映像中で指定される注目領域を示す注目領域座標の情報を生成する注目領域座標指定処理部と、該注目領域座標の情報を前記映像中継サーバに送信する注目領域座標送信部とを備え、
前記映像中継サーバは、
前記第2映像通信端末から受信した注目領域座標の情報を基に、当該原映像中で注目物体の全部又は一部を含む部分画像を抽出して注目物体画像として生成する注目物体画像抽出部と、
前記第1映像通信端末から受信した原映像と前記注目物体画像を照合し、当該原映像中で注目物体が映っている位置を示す注目物体座標を検出する注目物体検出部と、
前記注目物体座標に基づいて当該原映像中の注目物体の位置に所定の図形を合成して合成映像を生成する合成映像生成部と、
該合成映像を、前記第1映像通信端末又は前記第2映像通信端末に送信する合成映像送信部と、
を備えることを特徴とする映像コミュニケーションシステム。
【請求項5】
前記合成映像送信部は、前記合成映像を前記第1映像通信端末及び前記第2映像通信端末の双方に送信する手段を有することを特徴とする、請求項4に記載の映像コミュニケーションシステム。
【請求項6】
前記第2映像通信端末の注目領域座標指定処理部は、当該合成映像中で指定される注目領域を示す注目領域座標の情報を生成する手段を有することを特徴とする、請求項5に記載の映像コミュニケーションシステム。
【請求項7】
2つ以上の映像通信端末及び映像中継サーバからなる映像コミュニケーションシステムにおける映像中継サーバの作動方法であって、
第1映像通信端末は、原映像を映像中継サーバに送信する原映像送信部を備えており、
第2映像通信端末は、当該原映像中で指定される注目物体の全部又は一部を含む注目物体画像を生成する注目物体画像生成部と、該注目物体画像を前記映像中継サーバに送信する注目物体画像送信部とを備えており、
前記第1映像通信端末から受信した原映像と前記注目物体画像を照合し、当該原映像中で注目物体が映っている位置を示す注目物体座標を検出するステップと、
前記注目物体座標に基づいて当該原映像中の注目物体の位置に所定の図形を合成して合成映像を生成するステップと、
該合成映像を、前記第1映像通信端末又は前記第2映像通信端末に送信するステップと、
を含むことを特徴とする映像中継サーバの作動方法。
【請求項8】
2つ以上の映像通信端末及び映像中継サーバからなる映像コミュニケーションシステムにおける映像中継サーバの作動方法であって、
第1映像通信端末は、原映像を映像中継サーバに送信する原映像送信部を備えており、
第2映像通信端末は、当該原映像中で指定される注目領域を示す注目領域座標の情報を生成する注目領域座標指定処理部と、該注目領域座標の情報を前記映像中継サーバに送信する注目領域座標送信部とを備えており、
前記第2映像通信端末から受信した注目領域座標の情報を基に、当該原映像中で注目物体の全部又は一部を含む部分画像を抽出して注目物体画像として生成するステップと、
前記第1映像通信端末から受信した原映像と前記注目物体画像を照合し、当該原映像中で注目物体が映っている位置を示す注目物体座標を検出するステップと、
前記注目物体座標に基づいて当該原映像中の注目物体の位置に所定の図形を合成して合成映像を生成するステップと、
該合成映像を、前記第1映像通信端末又は前記第2映像通信端末に送信するステップと、
を含むことを特徴とする映像中継サーバの作動方法。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−156820(P2012−156820A)
【公開日】平成24年8月16日(2012.8.16)
【国際特許分類】
【出願番号】特願2011−14719(P2011−14719)
【出願日】平成23年1月27日(2011.1.27)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】