説明

テレビ会議システム及びテレビ会議方法

【課題】音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを提供する。
【解決手段】送信端末1において、第一映像入力手段100により映像情報を入力し、顔認識手段101により顔を認識する。第二映像入力手段103により背景情報を入力し、音声入力手段106により音声がどの方位から到達したかを把握する。受信端末2において、指向情報取得手段207によりどの方位から音声が到達したかを把握し、切取情報取得手段により映像情報のどの位置に顔があるかを指定する。映像切取手段204により、音声の到達方向にある顔映像を切出し、映像重畳手段205により背景情報の上に顔映像を貼り付け、表示手段206により表示装置5に出力する。

【発明の詳細な説明】
【技術分野】
【0001】
複数の情報端末からなるテレビ会議システムに関わり、特に映像、音声、データを他の情報端末に送信し、前記情報を受信し再生する情報端末に関する。
【背景技術】
【0002】
近年、高速インターネットの普及により、テレビやカメラと接続して双方向通信を行うテレビ会議機能を利用するユーザがますます増えている。特に、テレビ会議システムで、双方で資料を共有し、資料映像と相手カメラの映像を同時に見たいというニーズが非常に高くなってきている。
【0003】
資料映像と相手カメラの映像を同時に見るシステムの実現においては、たとえば画面をいくつかに分解し、一つの画面では資料映像、他方の画面では相手カメラの映像を表示するといった方法で上記システムを実現しているが、この場合、資料の表示サイズが小さくなるために字が読みづらくなるという問題がある。
【0004】
この問題を解決するための方法として、特許文献1のような技術を用いることにより、相手カメラで撮影した相手の顔の領域をピクチャーインピクチャー機能で小さく表示して、その代わり資料の表示サイズを大きくすることができる。しかし、この方法では、複数の人数が同時に会議に参加する場面などでは、資料が見づらくなるという問題がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2001-177812公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
テレビ会議システムにおいて、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを実現する。
【課題を解決するための手段】
【0007】
上記目的を解決するために、例えば特許請求の範囲に記載の構成を採用する。
【発明の効果】
【0008】
音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを実現することが可能となる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0009】
【図1】実施例1におけるシステムのブロック図の例(1)である。
【図2】実施例1におけるシステムのブロック図の例(2)である。
【図3】ストリーム400及び送信情報410の説明図の例である。
【図4】切出情報424及び指向情報425の説明図の例である。
【図5】実施例2におけるシステムの動作フロー図の例(1)である。
【図6】実施例2におけるシステムの動作フロー図の例(2)である。
【発明を実施するための形態】
【0010】
上記課題は、以下の手段により解決される。
【0011】
本願にかかるテレビ会議システムは、例えば映像情報、音声情報、背景情報を入力し送信する送信端末と、これら情報を受信し再生する受信端末とから構成される。
【0012】
送信端末は、映像情報をカメラから入力する第一映像入力手段と、データを入力し背景情報として取得する第二映像入力手段と、音声情報を入力する音声入力手段と、第一映像入力手段で入力した映像から顔を認識する顔認識手段と、顔の映像を切り出すための情報である切出情報を生成する切出情報生成手段と、どの方向から音声が来たかを検知し指向情報を生成する指向情報生成手段と、指向情報、切取情報、音声情報、背景情報、映像情報を多重化するMUX手段と、通信を行う通信手段とから構成される。
【0013】
また、受信端末は、情報を受信する通信手段と、情報を分離するDEMUX手段と、切出情報を取得する切出情報取得手段と、指向情報を取得する指向情報取得手段と、背景情報を取得する第二映像取得手段と、切出情報をもとに顔を選択する映像選択手段と、切出情報と映像情報とから顔映像を切り出す映像切取手段と、顔映像と背景情報を重ね合わせる映像重畳手段と、これら情報を表示する表示手段と、音声を出力する音声出力手段とから構成される。
【0014】
なお、受信端末は、送信端末の各手段を保有して送信端末の機能を具有してもよい。同様に送信端末は、受信端末の各手段と保有して受信端末の機能を具有してもよい。
【0015】
上記の目的は、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みは、以下のような処理手段の働きにより実現される。
【0016】
送信端末においては、第一映像入力手段によりカメラから映像情報を入力し、第二映像入力手段により、背景情報を入力する。音声入力手段によりマイクから音声情報を入力する。顔認識手段により映像情報から顔が映像情報のどの位置にあるかを認識し、切出情報生成手段により、顔が映像情報のどの位置にあるかを示す切出情報を生成する。指向情報生成手段により、音声入力手段により入力した音声情報を解析してどの方向から音声が到達したかを把握し、音声の到達方向を表す指向情報を生成する。MUX手段により、映像情報、音声情報、背景情報、切出情報、指向情報を多重化しストリームを生成し、通信手段によりストリームを通信回線を経由して受信端末に送信する。
【0017】
受信端末においては、通信手段により前記ストリームを受信し、DEMUX手段により前記ストリームを分解する。第二映像取得手段により背景情報を取得し、切出情報取得手段により切出情報を取得し、指向情報取得手段により指向情報を取得する。映像選択手段により指向情報を解析して音声の到達方向に位置する顔の映像を選択し、映像切取手段により映像情報から顔の映像を切り取る。映像重畳手段により、背景情報と前記顔の映像とを重ね合わせて映像化し、表示手段により前記映像を表示し、音声出力手段により音声を出力する。
【0018】
このような処理手段の働きにより、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みが実現される。
【0019】
また、上記の目的は、下記のような手段の働きによっても実現可能である。
【0020】
送信端末においては、第一映像入力手段によりカメラから映像情報を入力し、第二映像入力手段により、背景情報を入力する。音声入力手段によりマイクから音声情報を入力する。MUX手段により、映像情報、音声情報、背景情報を多重化しストリームを生成し、通信手段によりストリームを通信回線を経由して受信端末に送信する。
【0021】
受信端末において、通信手段により前記ストリームを受信し、DEMUX手段により前記ストリームを分解する。第二映像取得手段により背景情報を取得する。顔認識手段により映像情報から顔に前記当する部分を認識し、切出情報生成手段により顔に前記当する部分を示す切出情報を生成する。音声取得手段により、音声情報を取得し、指向情報生成手段により、音声がどの方向から到達したかを認識して指向情報を生成する。
【0022】
映像選択手段により指向情報を解析して音声の到達方向に位置する顔の映像を選択し、映像切取手段により映像情報から顔の映像を切り取る。映像重畳手段により、背景情報と前記顔の映像とを重ね合わせて映像化し、表示手段により前記映像を表示し、音声出力手段により音声を出力する。
【0023】
このような手段の働きにより、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みが実現される。
【0024】
以下、本発明の実施例を図面を用いて説明する。
【実施例1】
【0025】
以下、実施例1について図1を用いて説明する。
【0026】
図1は、本発明の実施例であるシステムの構成を示すブロック図の1例である。本システムは、送信端末1、受信端末2、インターネット3、背景情報423を生成する情報装置4、映像情報424を表示する表示装置5、音声情報422を取得するマイク装置8、音声情報422を出力するスピーカ装置10とから構成される。人物6及び人物9は送信端末1を操作し、送信端末1のカメラで撮像される対象となる人物であり、人物7は受信端末2を操作する人物である。
【0027】
本テレビ会議システムは、一組の送信端末1、受信端末2から構成される。送信端末1及び受信端末2はインターネット3を介して互いに通信する端末装置であり、例えば、セットトップボックスやパソコンのような固定式の情報端末や、PDAやスマートフォンのような移動体通信端末、あるいはテレビ会議専用の通信装置である。この送信端末1及び受信端末2には通信装置が搭載され、CPUで作動するプログラムにより互いに通信することが可能である。情報装置4は、例えばパソコンのような固定式のコンピュータやカメラなど、映像を生成する装置であればどのような情報装置であってもよい。また、表示装置5は、例えばテレビのような表示装置やプロジェクタなどの映像投射装置であり、映像情報を表示する情報装置であればどのようなものであってもよい。
【0028】
送信端末1及び受信端末2の構成の一例を図1に示すブロック図で説明する。送信端末1及び受信端末2は、図1の各ブロックに対応する各処理手段をハードウェアとして実装していても良いし、ソフトウェアとして実装していても良い。
ハードウェアとして各処理手段を実装する場合、実装されるハードウェアは複数の処理手段が行う処理を一つのハードウェアが行っても良いし、逆に一つの処理手段が行う処理を複数のハードウェアが行っても良い。
また、ソフトウェアとして各処理手段を実装する場合、送信端末1及び受信手段2は、CPU及び記憶装置及びメモリ等を実装しており、CPUは記憶装置に記憶されたプログラムをメモリに展開して実行することで各処理手段が行う処理を行うことができる。ここで、上記のソフトウェアは、複数の処理手段が行う処理を一つのソフトウェアが行っても良いし、逆に一つの処理手段が行う処理を複数のソフトウェアが行っても良い。
【0029】
以下の説明では説明の簡易化のため、送信端末1及び受信端末2がそれぞれ備えるCPUがテレビ会議プログラムを実行しており、テレビ会議プログラムを実行することで図1に示すブロック図に対応する処理手段に相当する機能を発言できるものとして説明を行う。また、以下の説明ではCPUがテレビ会議プログラムを実行することで発現される各機能を、図1のブロック図に示される各処理手段が実行しているものとして説明を行う。
【0030】
送信端末1は、カメラ装置など映像を出力する機器に接続して映像情報421を入力する第一映像入力手段100と、情報装置4から背景情報423を取得する第二映像入力手段103と、マイク装置から音声情報422を取得する音声入力手段106と、前記第一映像入力手段100で入力した映像情報421から人物6あるいは人物9の顔を認識する顔認識手段101と、顔認識手段101により認識された顔の位置の情報を切出情報424に変換する切出情報生成手段102と、音声入力手段106で入力した音声情報422から音声の到達方向を認識し、指向情報425に変換する指向情報生成手段107と、前記映像情報421、背景情報423、音声情報422、指向情報425及び切出情報424を多重化しストリーム400に変換するMUX手段104と、前記ストリーム400をインターネット3を介して受信端末2に送信する通信手段105とから構成される。
【0031】
受信端末2は、インターネット3を介してストリーム400を受信する通信手段200と、ストリーム400を分解するDEMUX手段201と、DEMUX手段201から切出情報424を取得する切出情報取得手段202と、DEMUX手段201から背景情報423を取得する第二映像取得手段203と、DEMUX手段201から指向情報425を取得する指向情報取得手段207と、指向情報425から人物6あるいは人物9の顔を選択する映像選択手段208と、切出情報424及び映像情報421とから映像選択手段208により選択された顔の映像を切り出す映像切取手段204と、顔の映像と背景情報423とを重ね合わせて出力映像とする映像重畳手段205と、出力映像を表示装置5に表示する表示手段206と、音声を出力する音声出力手段213とから構成される。
【0032】
次に、送信端末1及び受信端末2で使用されるストリーム400、送信情報410について図2を用いて説明する。
【0033】
ストリーム400は、1つあるいは複数の送信情報410とから構成される。送信端末1は、送信情報410を時系列的に列挙したストリーム400を受信端末2に送信することにより、映像や音声などの情報を受信端末2に伝えることができる。
【0034】
送信情報410は、映像情報421、音声情報422、背景情報423、切出情報424及び指向情報425のうち1つ以上の情報が格納された情報であり、どれか1つの情報だけを格納していてもよいし、複数の種類が同時に送信情報410に多重化されていてもよい。
【0035】
映像情報421は、カメラ装置など映像を出力する情報装置から出力されるデータであり、カメラで撮影した人物6あるいは人物9の顔の映像を含有するデータである。映像情報421は時刻情報510を含み、受信装置2において、時刻情報510で整列して出力することにより動画の情報として表示装置5に表示することが出来る情報である。
【0036】
音声情報422は、マイク装置8が出力するデータであり、カメラで撮影した人物6および人物9の発した音声の情報である。また、音声情報422は、音声がどの方向から到達したかを示す指向性の情報も持っており、たとえばステレオ音声などである。また、音声情報422は時刻情報510を含み、時刻情報510で整列してスピーカ装置10で出力することが出来る情報である。
【0037】
背景情報423は、パソコンなどの情報装置の出力する映像であり、動画像あるいは静止画であってもよい。背景情報423は時刻情報510を含み、時刻情報510で整列して出力することが出来る情報である。
【0038】
次に、送信情報410に含まれる切出情報424及び指向情報425について図3を用いて説明する。切出情報424は、映像情報421に含まれるユーザの顔が映像情報421のどの座標にあるかを示す情報である。また、指向情報425は、マイク8が検出した音声がどの方向から発せられたのかを示す情報である。
【0039】
切出情報424は、時刻情報510、映像識別情報511、原点情報513、サイズ514及び方位情報515とから構成される。
【0040】
時刻情報510は、情報をいつ出力するかを決定する時刻の情報であり、たとえば、GMTやJSTなどの絶対時刻であったり、ある周波数における1周期を1カウントとする経過時間情報である。この時刻情報510を用いることで、送信情報410に含まれる映像情報421、音声情報422、背景情報423、切出情報424及び指向情報425を決まった時刻に同時に受信端末2から出力することが可能である。
【0041】
映像識別情報511は、映像情報421毎に固有に割り振られた識別子であり、映像情報421を特定する情報である。
【0042】
原点情報513は、映像識別情報511で識別される映像情報421に対し、どの座標位置から切り出すかを決定する原点を表す情報であり、X軸方向及びY軸方向の座標位置を含む情報である。
【0043】
サイズ514は、原点情報513からX軸方向及びY軸方向にどれくらいの範囲が切り出す情報であるかを示す範囲情報であり、たとえば縦と横のドットサイズで表す。
【0044】
方位情報515は、前記切出情報424の示す顔映像が、3次元空間においてどの方角から到達したかを表す情報であり、たとえば北を0として時計回りに360度回転したときの角度であったり、東西南北などの方位情報であってもよい。
【0045】
指向情報425は、時刻情報521及び方位情報523とから構成される。
【0046】
時刻情報521は、情報をいつ出力するかを決定する時刻の情報であり、たとえば、GMTやJSTなどの絶対時刻であったり、ある周波数における1周期を1カウントとする経過時間情報である。
【0047】
方位情報523は、切出情報424の方位情報515に対応する情報であり、たとえば北を0として時計回りに360度回転したときの角度であったり、東西南北などの方位情報である。要するに、音声がどの方角からやってきたかを示す情報であればどのようなものであってもよい。
【0048】
次に、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを実現する動作について、図4のフローチャートを用いて説明する。
【0049】
ユーザにより送信端末1と受信端末2との間でテレビ会議の開始が指示されると、送信端末1においては処理1000が、受信端末2においては処理1100が実行される。以下、フローチャートに従い説明する。
【0050】
送信端末1、受信端末2においてそれぞれのCPUは、テレビ会議プログラムを記憶装置から読み出してメモリ上に展開し、テレビ会議プログラムを実行することによりテレビ会議機能を発現する(1000、1100)。
【0051】
送信端末1の第二映像入力手段103は、背景情報423を外部あるいは内部のプログラムから受領してMUX手段104に出力する(1001)。
また、第一映像入力手段100は、映像情報421を外部あるいは内部のカメラ装置などの撮像装置から取得して顔認識手段101及びMUX手段104に出力する(1002)。
【0052】
次に、顔認識手段101は、映像情報421に対し画像解析を施して、顔がどこにあるかを検出し、その座標値を取得して切出情報生成手段102に出力する(1003)。この顔検出は、映像をピクセル単位で解析して目、鼻、口、輪郭などの特徴を検出することにより顔を判別したり、あるいは顔画像のデータベースと照合して一致することにより顔を判別するなどのいずれの方法でもよく、要は顔が映像情報421のうちのどの座標に位置するかが判定できればよい。
【0053】
次に、切出情報生成手段102は、ステップ1003で顔認識手段101が取得した座標情報を受信し、座標情報に基づき、切出情報424を生成し、MUX手段104に出力する(1004)。
【0054】
切出情報生成手段102は、現在時刻を時刻情報510に、映像情報421の識別情報を映像識別情報511に、ステップ1003で取得した座標情報から取得した情報を原点情報513及びサイズ514にそれぞれ保存する。また、切出情報生成手段102は、カメラ装置の向いている方向を原点に、映像情報421の中の顔の位置がどの方位に位置しているかを計算し、方位情報515として切出情報424に保存する。
【0055】
次に、音声入力手段106は、マイク装置8から音声情報422を取得する(1005)。
このとき、音声入力手段106は、音声がどの方角から到達しているかを複数のマイクを使って検出し、指向情報425を生成する(1006)。音声入力手段106は、図3で解説したとおり、現在時刻を時刻情報521に保存する。また、音声の到達方向を、カメラ装置の向いている方角を原点として方位を計算し、方位情報523に保存する。
切出情報生成手段102、音声入力手段106は、それぞれ生成した切出情報424、指向情報425をする。
【0056】
次に、MUX手段104は、映像情報421、音声情報422、背景情報423、切出情報424及び指向情報425を多重化処理することでストリーム400を作成し、通信手段及びインターネット3を介して受信装置2にストリーム400を送信する(1007)。
【0057】
受信端末2の通信手段200は、ステップ1007で送信端末1が送信したストリーム400を受信し(1101)、受信したすおリーム400をDEMUX手段201に出力する。
DEMUX手段201は、多重化された前記ストリーム400を分解する(1102)。
次に、映像切取手段204はDEMUX手段201から映像情報421を取得し(1103)、第二映像取得手段203は背景情報423を取得し(1104)、切出情報取得手段202は切出情報424を取得する(1105)。
【0058】
次に、DEMUX手段201から音声情報422を取得し(1106)、指向情報取得手段207は指向情報425を取得する(1107)。音声出力手段213は、該音声情報422をスピーカ装置10を用いて音声として出力する。
【0059】
ここで、映像選択手段208は、指向情報425の方位情報523と、切出情報424の方位情報515が一致する切出情報424を取得して、映像識別情報511と原点情報513とサイズ514を取得して顔を選択する(1108)。
【0060】
次に、映像切取手段204は、映像識別情報511に関連付けられている映像情報421に対し、前記原点情報513及びサイズ514に基づいて映像情報を切出して顔映像を取得する(1109)。
次に、映像重畳手段205は、背景情報423の上に前記顔映像を上書きして映像を重ね合わせてあらたな映像情報を作成する(1110)。
映像重畳手段205は作成した映像情報を、表示装置5に出力する(1111)。
【0061】
以上の動作により、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを実現することができる。
【0062】
また、受信端末2のステップ1109において、指向情報425の方位情報523を使うのではなく、複数の切出情報424の原点情報513及びサイズ514を用いて順に時間を開けて映像情報421を切り取るようにすることにより、参加者全員の顔を順に一つづつ背景情報423の上に表示する仕組みを実現することも可能である。
【0063】
また、受信端末2のステップ1110において、ステップ1109が生成した全ての顔映像を背景情報423の上に整列して上書きすることにより、参加者全員の顔を同時に背景情報423の上に表示する仕組みを実現することも可能である。
【実施例2】
【0064】
以下、実施例2について図5を用いて説明する。
【0065】
図5は、実施例2のシステムの構成を示すブロック図の1例である。図1で説明したシステムと同様、本システムは、送信端末1、受信端末2、インターネット3、背景情報423を生成する情報装置4、映像情報424を表示する表示装置5、音声情報422を取得するマイク装置8と、音声情報422を出力するスピーカ装置10とから構成される。
【0066】
送信端末1及び受信端末2の構成の一例を図5に示すブロック図で説明する。
【0067】
送信端末1は、カメラ装置など映像を出力する機器に接続して映像情報421を入力する第一映像入力手段100と、情報装置4から背景情報423を取得する第二映像入力手段103と、マイク装置から音声情報422を取得する音声入力手段106と、前記映像情報421、背景情報423、音声情報422を多重化しストリーム400に変換するMUX手段104と、前記ストリーム400をインターネット3を介して受信端末2に送信する通信手段105とから構成される。
【0068】
受信端末2は、インターネット3を介してストリーム400を受信する通信手段200と、ストリーム400を分解するDEMUX手段201と、ストリーム400から背景情報423を取得する第二映像取得手段203と、ストリーム400から映像情報421を取得し、顔がどこにあるかを認識する顔認識手段209と、顔がどこにあるかを示す切取情報424を生成する切取情報生成手段210と、ストリーム400から音声情報422を取得する音声取得手段211と、前記音声情報422を解析し、音声がどの方角が到達したかを示す指向情報425を生成する指向情報生成手段212と、指向情報425から人物6あるいは人物9の顔を選択する映像選択手段208と、切出情報424及び映像情報とから映像選択手段208により選択された顔の映像を切り出す映像切取手段204と、顔の映像と背景情報とを重ね合わせて出力映像とする映像重畳手段205と、出力映像を表示装置5に表示する表示手段206とから構成される。
【0069】
次に、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みの実現例について、図6のフローチャートを用いて説明する。
【0070】
ユーザにより送信端末1と受信端末2との間でテレビ会議の開始が指示されると、送信端末1においては処理1000が、受信端末2においては処理1100が実行される。以下、フローチャートに従い説明する。
【0071】
送信端末1、受信端末2においてそれぞれのCPUは、テレビ会議プログラムを記憶装置から読み出してメモリ上に展開し、テレビ会議プログラムを実行することによりテレビ会議機能を発現する(1000、1100)。
【0072】
送信端末1の第二映像入力手段103は、背景情報423を外部あるいは内部のプログラムから受領してMUX手段104に出力する(1001)。
また、第一映像入力手段100は、映像情報421を外部あるいは内部のカメラ装置などの撮像装置から取得て顔認識手段101及びMUX手段104に出力し保存する(1002)。
【0073】
次に、音声入力手段106は、マイク装置8から音声情報422を取得する(1005)。
MUX手段104は、映像情報421、音声情報422、背景情報423を多重化処理することでストリーム400を作成し、通信手段及びインターネット3を介して受信装置2にストリーム400を送信する(1007)。
【0074】
受信端末2の通信手段200は、ステップ1007で送信端末1が送信したストリーム400を受信し(1101)、受信したすおリーム400をDEMUX手段201に出力する。
DEMUX手段201は、多重化された前記ストリーム400を分解する(1102)。
次に、映像切取手段204はDEMUX手段201から映像情報421を取得し(1103)、第二映像取得手段203は背景情報423を取得する(1104)。
【0075】
次に、顔認識手段209は、映像情報421に対し画像解析を施して、顔がどこにあるかを検出し、その座標値を取得して切出情報生成手段210に出力する(1113)。この顔検出は、映像をピクセル単位で解析して目、鼻、口、輪郭などの特徴を検出することにより顔を判別したり、あるいは顔映像のデータベースと照合して一致することにより顔を判別するなどのいずれの方法でもよく、要は顔が映像情報421のうちのどの座標に位置するかが判定できればよい。
【0076】
次に、切出情報生成手段210は、ステップ1113で顔認識手段209が取得した座標情報を受信し、座標情報に基づき、切出情報424を生成し、MUX手段104に出力する(1114)。切出情報生成手段210は、現在時刻を時刻情報510に、映像情報421の識別情報を映像識別情報511に、ステップ1113で取得した座標情報から取得した情報を原点情報513及びサイズ514にそれぞれ保存する。また、切出情報生成手段102は、映像情報421の中の顔の位置がどの方位に位置しているかを計算し、方位情報515として切出情報424に保存する。
【0077】
次に、音声取得手段211は、DEMUX手段201から音声情報422を取得する(1106)。
音声取得手段211は、音声を解析することにより、音声がどの方角から到達しているか検出し、指向情報425を生成する(1115)。
【0078】
ここで、映像選択手段208は、指向情報425の方位情報523と、切出情報424の方位情報515が一致する切出情報424を取得して、映像識別情報511と原点情報513とサイズ514を取得して顔を選択する(1108)。
【0079】
次に、映像切取手段204は、映像識別情報511に関連付けられている映像情報421に対し、前記原点情報513及びサイズ514に基づいて映像情報を切出して顔映像を取得する(1109)。
次に、映像重畳手段205は、背景情報423の上に前記顔映像を上書きして映像を重ね合わせてあらたな映像情報を作成する(1110)。
映像重畳手段205は作成した映像情報を、表示装置5に出力する(1111)。
【0080】
以上の動作により、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを実現することができる。
【0081】
また、受信端末2のステップ1109において、指向情報425の方位情報523を使うのではなく、複数の切出情報424の原点情報513及びサイズ514を用いて順に時間を開けて映像情報421を切り取るようにすることにより、参加者全員の顔を順に一つづつ背景情報423の上に表示する仕組みを実現することができる。
【0082】
また、受信端末2のステップ1110において、ステップ1109が生成した複数の顔映像を背景情報423の上に整列して上書きすることにより、複数の参加者の顔を同時に背景情報423の上に表示する仕組みを実現することができる。
【0083】
なお、以上の実施例では受信端末2が備える映像切出手段204が、切出情報424および指向情報425に基づいて、映像情報から顔映像を取得する構成としたが、実施例1の構成に加えて送信端末1が映像切出手段を備える構成とすることも可能である。これにより受信装置2の構成から切出し情報取得手段202、指向情報取得手段207、映像選択手段208を省略することができる。この場合、送信装置1が通信手段105を介して受信装置2に送信する映像情報はすでに映像切出手段によって切出しの処理が行われている顔映像であるため、送信装置1から受信装置2に送信される情報量を減少させることができる。
【0084】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0085】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD(Digital Versatile Disk)等の記録媒体に置くことができる。
【0086】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【産業上の利用可能性】
【0087】
上記の実施例は、無線、有線により接続された通信システムにおいて、資料映像とカメラ映像を重ね合わせて表示するピクチャオンピクチャを実現するテレビ会議システムにおいて有効である。
【符号の説明】
【0088】
1…送信端末
2…受信端末
400…ストリーム
410…送信情報
424…切出情報
425…指向情報
1000…送信端末1の動作を実現する処理フロー
1100…受信端末2の動作を実現する処理フロー

【特許請求の範囲】
【請求項1】
映像の送信を行う送信端末と、送信端末から送信された映像の受信を行う受信端末と、からなるテレビ会議システムであって、前記送信端末は、
第一の映像の入力を受け付ける第一映像入力手段と、
第二の映像の入力を受け付ける第二映像入力手段と、
前記第一の映像に含まれる人物の顔を認識する顔認識手段と、
前記顔の座標を示す情報である切出情報を生成する切出情報生成手段と、
前記第一の映像、前記第二の映像及び前記切出情報を送信する第一の通信手段と、から構成され、
前記受信端末は、
前記第一の映像、前記第二の映像及び前記切出情報を受信する第二の通信手段と、
前記第一の映像と前記切出情報とに基づき、前記顔を第三の映像として生成する映像切取手段と、
前記第三の映像と前記第二の映像を重ね合わせて第四の映像を生成する映像重畳手段と、
前記第四の映像を出力する出力手段と、から構成される、
ことを特徴とするテレビ会議システム。
【請求項2】
請求項1のテレビ会議システムにおいて、
前記送信端末は、
音声を入力する音声入力手段と、
音声の到達方向を示す指向情報を生成する指向情報生成手段と、を備え、
前記第一の通信手段は、前記第一の映像、前記第二の映像、前記切出情報及び前記指向情報を送信する機能を備えることを特徴とするテレビ会議システム。
【請求項3】
請求項2のテレビ会議システムにおいて、
前記第二の通信手段は、前記第一の映像、前記第二の映像、前記切出情報及び前記指向情報を受信し、
前記受信端末は、
前記指向情報に基づき、前記映像切取手段により作成された複数の第三の映像から、前記第二の映像に重ね合わせる映像を選択する映像選択手段を備え、
前記映像重畳手段は、前記映像選択手段により選択された前記第三の映像と前記第二の映像とを重ね合わせ第四の映像を生成する、
ことを特徴とするテレビ会議システム。
【請求項4】
映像の送信を行う送信端末と、送信端末から送信された映像の受信を行う受信端末と、からなるテレビ会議システムであって、前記送信端末は、
第一の映像の入力を受け付ける第一映像入力手段と、
第二の映像の入力を受け付ける第二映像入力手段と、
前記第一の映像及び前記第二の映像を送信する第一の通信手段と、から構成され、
前記受信端末は、
前記第一の映像及び前記第二の映像を受信する第二の通信手段と、
前記第一の映像に含まれる人物の顔を認識する顔認識手段と、
前記顔の座標を示す情報である切出情報を生成する切出情報生成手段と、
前記第一の映像と前記切出情報とに基づき、前記顔を第三の映像として生成する映像切取手段と、
前記第三の映像と前記第二の映像を重ね合わせて第四の映像を生成する映像重畳手段と、
前記第四の映像を出力する出力手段とから構成される、
ことを特徴とするテレビ会議システム。
【請求項5】
請求項4のテレビ会議システムにおいて、
前記送信端末は、音声を入力する音声入力手段を備え、
前記第一の通信手段は、前記第一の映像、前記第二の映像及び前記音声を送信すること、
を特徴とするテレビ会議システム。
【請求項6】
請求項5のテレビ会議システムにおいて、
前記第二の通信手段は、前記第一の映像、前記第二の映像、及び前記音声を受信し、
前記受信端末は、
前記音声の到達方向を示す指向情報を生成する指向情報生成手段と、
前記指向情報に基づき、前記映像切取手段により作成された複数の第三の映像から、前記第二の映像に重ね合わせる映像を選択する映像選択手段と、を備え、
前記映像重畳手段は、前記映像選択手段により選択された前記第三の映像と前記第二の映像とを重ね合わせ第四の映像を生成する、
ことを特徴とするテレビ会議システム。
【請求項7】
映像の送信を行う送信端末と、送信端末から送信された映像の受信を行う受信端末と、からなるテレビ会議システムに用いられるテレビ会議方法であって、前記送信端末において、
第一の映像の入力を受け付けるステップと、
第二の映像の入力を受け付けるステップと、
前記第一の映像に含まれる人物の顔を認識するステップと、
前記顔の座標を示す情報である切出情報を生成するステップと、
前記第一の映像、前記第二の映像及び前記切出情報を送信するステップと、を行い、
前記受信装置において、
第一の映像、第二の映像及び切出情報を受信するステップと、
前記第一の映像と前記切出情報とに基づき、前記顔を第三の映像として生成するステップと、
前記第三の映像と前記第二の映像を重ね合わせて第四の映像を生成するステップと、
前記第四の映像を出力するステップと、を行う
ことを特徴とするテレビ会議方法。
【請求項8】
請求項7のテレビ会議方法であって、前記送信装置において、
音声の入力を受け付けるステップと、
前記音声の到達方向を示す指向情報を生成するステップと、を行い、
前記第一の映像、前記第二の映像及び前記切出情報を送信するステップにおいて、前記指向情報を送信する、
ことを特徴とするテレビ会議方法。
【請求項9】
請求項8のテレビ会議方法であって、前記受信装置において、
前記指向情報を取得するステップと、
前記指向情報に基づき複数の第三の映像から、前記第二の映像に重ね合わせる映像を選択するステップと、
前記切出情報及び前記指向情報から第三の映像を生成するステップと、
を行うことを特徴とするテレビ会議方法。
【請求項10】
映像の送信を行う送信端末と、送信端末から送信された映像の受信を行う受信端末と、からなるテレビ会議システムに用いられるテレビ会議方法であって、前記送信端末において、
第一の映像の入力を受け付けるステップと、
第二の映像の入力を受け付けるステップと、
前記第一の映像及び前記第二の映像を送信するステップと、を行い、
前記受信端末において、
前記第一の映像及び前記第二の映像を受信するステップと、
前記第一の映像に含まれる人物の顔を認識するステップと、
前記顔の座標を示す情報である切出情報を生成するステップと、
前記第一の映像と前記切出情報とに基づき、前記顔を第三の映像として生成するステップと、
前記第三の映像と前記第二の映像を重ね合わせて第四の映像を生成するステップと、
第四の映像を出力するステップと
から構成されることを特徴とするテレビ会議方法。
【請求項11】
請求項10のテレビ会議方法であって、前記送信端末において、
音声の入力を受け付けるステップと、
前記音声を送信するステップと、を行うことを特徴とするテレビ会議方法。
【請求項12】
請求項11のテレビ会議方法であって、前記受信装置において、
前記音声を受信し、
前記音声の到達方向を示す指向情報を生成するステップと、
前記指向情報に基づき、複数の前記第三の映像から、前記第二の映像に重ね合わせる映像を選択するステップと、を行い、
前記第三の映像と前記第二の映像を重ね合わせて第四の映像を生成するステップにおいて、前記選択された前記第三の映像と前記第二の映像とを重ね合わせ第四の映像を生成する、
ことを特徴とするテレビ会議方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−115527(P2013−115527A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−258427(P2011−258427)
【出願日】平成23年11月28日(2011.11.28)
【出願人】(509189444)日立コンシューマエレクトロニクス株式会社 (998)
【Fターム(参考)】