説明

テレビ電話システム及びテレビ電話システムの制御方法

【課題】通信中の相手とのコミュニケーションを活性化させ、コミュニケーションツールとしての性能を向上することができるテレビ電話システムを提供する。
【解決手段】テレビ電話システムは、ネットワークを介して通信可能に接続される第1通信端末と第2通信端末との間の通信を制御するテレビ電話システムであって、前記通信時の前記第1通信端末の状況を表す状況情報を取得する取得手段と、前記取得手段が取得した状況情報に所定条件下で合致する合成用データをデータベースから選択する選択手段と、前記選択手段が選択した合成用データと前記第1通信端末の通話者の所定の画像とを合成する合成手段と、前記通話者より前記第1通信端末に音声入力された音声信号と前記合成手段が合成した合成画像とを関連付けて前記第2通信端末へ送信する送信手段と、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像及び音声による通信を行うテレビ電話システムの技術に関する。
【背景技術】
【0002】
通信端末を利用したコミュニケーションの一例として、音声通信を行いながら画像を送信するシステム(以下、「テレビ電話システム」という。)が知られている。テレビ電話システムでは、通信端末にビデオカメラとモニター画面を設け、当該ビデオカメラで撮像した映像を音声と一緒に送信することで、通話者が相手の顔を見ながら会話をすることができるように構成されている。このようなテレビ電話システムの機能は、固定又は携帯電話端末やIP電話端末などの通信端末に搭載され、ユーザ同士のコミュニケーションツールとして利用されている。また、特に会議向けに設計されたテレビ会議システムにおいても活用されている。
【0003】
テレビ電話システムの一例として、下記非特許文献1には、P2P技術を応用したテレビ電話機能付き音声通話ソフトが開示されている。当該音声通話ソフトでは、例えば、予め所定の設定をしておくことにより、ユーザの状況に応じて「退席中」「取込中」などの状態を示すアイコンが、他のユーザの通信装置に表示されることが開示されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】skype、“skypeボタンを活用 ログイン状態を表示するskypeボタン”、[online]、[平成22年5月27日検索」、インターネット<URL:http://www.skype.com/intl/ja/tell-a-friend/get-a-skype-button/>
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したようなテレビ電話システムでは、相手の映像が音声と一緒に送信されるので、通話者は相手の表情を見ながら会話をすることができる。そのため、コミュニケーションがよりスムーズになるというメリットがある。一方、カメラの存在によって、通話者には相手に見られているという意識が生じるため、このような意識がコミュニケーションにマイナスの影響を与えてしまう場合もある。また、通話時の状況やプライバシー等の観点から、映像の一部又は全部を相手に伝えたくないような場合には、そのような映像の送信が、逆にコミュニケーションの妨げとなり得る。
【0006】
また、テレビ電話システムにおける通話時の映像は、その場で撮影される映像であるため、リアリティや臨場感を生むことができる。一方、例えば、夜に屋外で通話をした場合などは、映像中の背景はただ単に真っ暗になってしまう。そのような場合には、周囲の状況を相手に伝えることが困難である上に、かかる映像を送信することで帯域を無駄に使用していることにもなり得る。
【0007】
また、テレビ電話システムがコミュニケーションツールとしてより快適に利用されるためには、クオリィティの高い(情報量の多い)映像配信が要求されるところ、映像配信のクオリティを高くしようとすると、ネットワークの帯域不足などの問題が生じる。特に、加入者系無線通信システム等のように端末から基地局への上り回線の使用帯域が制限されている場合には、ボトルネックになりやすい。
【0008】
しかしながら、上記特許文献1は、ユーザの状態を示すアイコンを他のユーザに通知することを開示したものに過ぎず、上述したようなテレビ電話システムが有する問題については、何ら考慮されていない。
【0009】
したがって、通信中の相手とのコミュニケーションを活性化させ、コミュニケーションツールとしての性能を向上することができるテレビ電話システムを実現することが望まれる。また、ネットワークの帯域幅を節約しつつ、コミュニケーションツールとしての性能を維持及び向上することができるテレビ電話システムが望まれる。
【課題を解決するための手段】
【0010】
本開示に係るテレビ電話システムは、ネットワークを介して通信可能に接続される第1通信端末と第2通信端末との間の通信を制御するテレビ電話システムである。テレビ電話システムは、前記通信時の前記第1通信端末の状況を表す状況情報を取得する取得手段と、前記取得手段が取得した状況情報に所定条件下で合致する合成用データをデータベースから選択する選択手段と、前記選択手段が選択した合成用データと前記第1通信端末の通話者の所定の画像とを合成する合成手段と、前記通話者より前記第1通信端末に音声入力された音声信号と前記合成手段が合成した合成画像とを関連付けて前記第2通信端末へ送信する送信手段と、を有する。
【0011】
前記状況情報は、前記通信時の時間を表す時間情報、前記通信時の前記第1通信端末の現在位置を表す位置情報及び前記通信時の前記第1通信端末の周囲の環境を表す環境情報のうちの少なくとも1つを含むことができる。
【0012】
前記データベースには、前記合成用データとしての背景データと当該背景データによって表される背景の状況情報とを対応付けて格納してもよい。
【0013】
前記通話者の所定の画像は、前記第1通信端末が有するカメラにより前記通信中に撮像された撮像画像でもよい。前記通話者の所定の画像は、前記データベースに格納されている前記通話者のアバタでもよい。
【0014】
前記システムは、前記第1通信端末と前記第2通信端末とそれぞれ通信可能に構成されたサーバを有し、前記第1通信端末は、前記取得手段を有し、前記サーバは、前記選択手段、前記合成手段及び前記送信手段を有することができる。
【0015】
前記システムは、前記第1通信端末と前記第2通信端末とそれぞれ通信可能に構成されたサーバを有し、前記第1通信端末は、前記取得手段、前記合成手段及び前記送信手段を有し、前記サーバは、前記選択手段を有することができる。
【0016】
前記第1通信端末は、前記取得手段、前記選択手段、前記合成手段及び前記送信手段を有することができる。
【0017】
また、本開示に係る制御方法は、ネットワークを介して通信可能に接続される第1通信端末と第2通信端末との間の通信を制御するシステムにおける制御方法である。制御方法は、前記通信時の前記第1通信端末の状況を表す状況情報を取得することと、前記取得した状況情報に所定条件下で合致する合成用データをデータベースから選択することと、前記選択した合成用データと前記第1通信端末の通話者の所定の画像とを合成することと、前記通話者より前記第1通信端末に音声入力された音声信号と前記合成した合成画像とを関連付けて前記第2通信端末へ送信することと、を有する。
【0018】
また、本開示に係るプログラムは、上記方法の各処理をコンピュータに実行させることを特徴とする。本開示のプログラムは、CD−ROM等の光学ディスク、磁気ディスク、半導体メモリなどの各種の記録媒体を通じて、又は通信ネットワークなどを介してダウンロードすることにより、コンピュータにインストール又はロードすることができる。
【0019】
なお、本明細書等において、手段とは、単に物理的手段を意味するものではなく、その手段が有する機能をソフトウェアによって実現する場合も含む。また、1つの手段が有する機能が2つ以上の物理的手段により実現されても、2つ以上の手段の機能が1つの物理的手段により実現されてもよい。
【図面の簡単な説明】
【0020】
【図1】テレビ電話システムの概略構成の一例を示すブロック図である。
【図2】通信端末の構成一例を示すブロック図である。
【図3】サーバの構成の一例を示すブロック図である。
【図4】データベースのデータ構造の一例を表す図である。
【図5】第1の実施形態に係るテレビ電話制御処理の流れの一例を示すフローチャートである。
【図6】通信端末のディスプレイに表示される画面の一例である。
【図7】第2の実施形態に係るテレビ電話制御処理の流れの一例を示すフローチャートである。
【図8】第3の実施形態に係るテレビ電話制御処理の流れの一例を示すフローチャートである。
【図9】第4の実施形態に係るテレビ電話制御処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0021】
[第1の実施形態]
[テレビ電話システムの概略構成]
図1は、第1の実施形態におけるテレビ電話システム(以下、「本システム」という)の概略構成を示すブロック図である。なお、テレビ電話システムは、ビデオ通話システムとも呼ばれる。同図に示すように、本システムは、第1通信端末1、第2通信端末2及びサーバ3を含み、サーバ3はデータベース4を有している。第1及び第2通信端末(以下、「通信端末」という。)とサーバ3は、所定の通信ネットワークN(電話回線、LAN、インターネット、専用線、パケット通信網、それらの組み合わせ等のいずれであってもよく、有線、無線の両方を含む)を介して相互に通信可能に構成されている。なお、通信ネットワークNの構成に必要に応じて含まれる交換機やゲートウェイなどの従来技術の構成については記載を省略している。また、同図では、通信端末について2台を記載しているが、例えば3地点以上のテレビ会議など設計に応じて3台以上とすることもできる。また、同図では1台のサーバを記載しているが、当該サーバの機能を複数台のサーバに分散することもできる。
【0022】
[通信端末の概略構成]
図2は、第1通信端末1の概略構成を示すブロック図である。第1通信端末1は、制御手段101、記憶手段102、操作手段103、表示手段104、音声処理手段105、マイク106、スピーカ107、通信手段108、センサ109、GPS受信機110、画像処理手段111、カメラ112及びタイマ113等を主に含んでいる。なお、第2通信端末2は、第1通信端末1と同一の構成を有するため、説明を省略する。第1通信端末1は、音声と画像による通信を行う機能(以下、「テレビ電話機能」又は「ビデオ通話機能」という。)を備えていればよく、その構成に特に限定はないが、例えば、PC、IP電話、固定電話、携帯電話、テレビ会議用機器、その他の通信装置等が該当する。第1通信端末1は、例えば、図示しないCPUが、ROM等に記憶された所定のプログラムを実行し、RAMに展開されたデータを用いて処理することで、上述した各種機能実現手段として機能することができる。なお、第1通信端末1は、音声通話が可能な従来の電話装置が有する各種機能を有していてもよい。
【0023】
制御手段101は、第1通信端末1の全体の動作を制御する。記憶手段102は、テレビ電話に必要な各種データを格納するメモリなどの記憶装置であり、例えば、カメラ112が被写体を撮影した場合、当該撮像画像を、撮影時の日時情報や位置情報、環境情報などと対応付けて格納する。なお、環境情報については後述する。
【0024】
操作手段103は、ユーザから各種指示を受け付けるものであり、例えば、マウス、キーボード、タッチパネル、リモートコントローラなどが該当する。表示手段104は、カメラ112が撮像した撮像画像や第2通信端末2より受信した相手の画像などを表示するものであり、例えば、LCDディスプレイなどが該当する。
【0025】
音声処理手段105は、マイク106より入力され又はスピーカ107に出力される音声信号について、例えば、D/A変換、ノイズ除去、音声圧縮符号化などの音声信号処理を実行するものであり、第1通信端末1の仕様や設計に応じた既存方式の技術を適用することができる。なお、マイク106及びスピーカ107は、音声入力手段及び音声出力手段とも呼ばれる。
【0026】
通信手段108は、通信ネットワークNを介してサーバその他のネットワークに接続された装置に対して、音声データや画像データを含む各種データを入出力可能に構成され、例えば、PPPドライバやTCP/IPドライバなどの通信モジュールを有している。また、通信手段108は、テレビ電話を実現するための既存の各種通信モジュールを有することができ、その内容に特に限定はないが、例えばH.323やSIPプロトコルなどが該当する。
【0027】
センサ109は、第1通信端末1の環境を表すための各種情報を検出する検出手段であり、例えば、ノイズセンサ(マイクロフォン)、光センサ、速度センサ、温湿度センサ、赤外線センサ、超音波センサ、視覚センサなどの既存の各種センサが該当する。センサ109は、仕様や設計に応じたものを適宜用いることができ、1種類のセンサ又は2種類以上のセンサを複合的に組み合わせることができる。センサ109による検出結果(及び検出結果によって特定される情報)を「環境情報」といい、通話時や被写体撮像時に第1通信端末1(ユーザ)が置かれた環境を主に表すために用いられる。環境情報は、仕様や設計に応じた内容を設定することができ、特に限定はないが、例えば、音量、照度、カラー、速度、温室度情報などが該当する。環境情報を後述する位置情報や時間情報と複合的に組み合わせて利用することにより、例えば通話時のユーザの状態や周囲の状況を特定することができる。
【0028】
GPS受信機110は、第1通信端末1の現在位置を測定する測位手段であり、例えば、GPS衛星信号を所定の受信間隔で受信し処理することによって第1通信端末1の現在位置(緯度・経度)を測位する。なお、同図では、説明の便宜上、GPS受信機110をセンサ109と別に記載しているが、GPS受信機110もセンサの1つである。
【0029】
画像処理手段111は、カメラ112で撮影した画像(静止画又は動画)に対して所定の画像処理を施し、撮影時の状況情報(時間情報、位置情報、環境情報)と対応付けて記憶手段102に格納する。画像処理手段111の処理内容に特に限定はないが、画像編集や画像圧縮のほか、基本画像(例:背景画像)に別の画像(例:本人画像)を合成する画像合成の機能を有している。また、パターン認識や特徴抽出に関する既存技術を利用して、撮像画像から通話者の画像(本人撮像画像)と背景となる画像(背景撮像画像)を認識する機能を備えている。なお、状況情報については後述する。
【0030】
カメラ112は、被写体を撮影する撮像手段であり、例えば、ビデオカメラやWebカメラなどが該当する。
【0031】
タイマ113は、時間を計る計時手段である。
【0032】
[サーバの概略構成]
図3は、サーバの概略構成を示すブロック図である。同図に示すように、サーバ3は、通信手段301、制御手段302及びデータベース4を含み、制御手段302は、接続中継手段303、プレゼンス情報特定手段304、状況情報受信手段305、合成用データ選択手段306及び合成手段307等の機能実現手段を含んでいる。サーバ3は、例えばCPU、ROM、RAM、HDD、ユーザインタフェース、ディスプレイ、および通信インタフェース等のハードウェアを備える汎用又は専用のコンピュータにより構成することができ、CPUが、メモリまたは外部記憶装置などに記憶された所定のプログラムを実行することにより、上述した各種手段として機能することができる。
【0033】
通信手段301は、通信ネットワークNを介して通信端末その他のネットワークに接続された装置に対して、音声データや画像データを含む各種データを入出力可能に構成され、例えば、PPPドライバやTCP/IPドライバなどの通信モジュールを有している。また、通信手段301は、テレビ電話を実現するための既存の各種通信モジュールを有することができ、その内容に特に限定はないが、例えばH.323やSIPプロトコルなどが該当する。制御手段302は、サーバ3全体の動作を制御するものであり、後述する各手段を有する。
【0034】
接続中継手段303は、第1通信端末1と第2通信端末2との間でテレビ電話(ビデオ通話)が行われるように両者間の通信接続を中継するものであり、具体的には、第1通信端末1より第2通信端末2への発呼を受信すると、第1通信端末1と第2通信端末2との間の通信路を接続中継手段303を介して確立する。そして、第1通信端末1から送信される音声及び画像データを受信すると、当該音声データと合成後の画像データを関連付けて第2通信端末2へ送信し、その逆を実行する。なお、「関連付け」とは、例えば、音声データと画像(映像)データの同期や多重化処理等の従来技術を実行することにより、第2通信端末2において音声と画像(映像)とが同時に再生されるようにすることである。
【0035】
プレゼンス情報特定手段304は、発信者に対して着信者の着信時の状況を通知する。具体的には、着信者の通信端末より当該着信時の状況情報(時間情報、位置情報、環境情報)を取得すると、当該状況情報に基づいて、着信者の現在の状況を表す情報(以下、「プレゼンス情報」という。)を特定する。プレゼンス情報は、その内容に特に限定はないが、本実施形態では、データベース4に格納されている背景画像をプレゼンス情報として用いる場合について説明する。例えば、着信者の状況情報(時間情報と位置情報)に合致するプレゼンス情報として、着信者が会議中であることを表す会議室の画像を特定したり、着信者の状況情報(時間情報、位置情報及び速度情報)に合致するプレゼンス情報として、着信者が電車に乗って移動中であることを表す画像を特定したりすることができる。
【0036】
状況情報受信手段305は、第1通信端末1又は第2通信端末2から、それぞれの通信端末(又は通話者)の状況を表す状況情報を受信する。状況情報は、通信端末(ユーザ)が置かれた状況を表す情報であり、時間情報、位置情報(座標情報)及び環境情報のうちの少なくとも1つの情報を含み、2つ以上の情報を複合的に組み合わせてもよい。
【0037】
合成用データ選択手段306は、通信端末より送信される画像に合成される合成用データを、当該通信端末より送信される合成モード選択情報及び状況情報に基づいてデータベース4より選択する。合成用データ選択手段306は、例えば、合成モード選択情報により選択されたモードが、撮像画像に背景画像を合成する背景合成モード(第1モード)である場合は、受信した状況情報に所定条件下で合致する背景データ(画像や音声)をデータベース4より選択する。所定条件は、仕様や設計に応じて適宜設定することができ、その内容に特に限定はないが、例えば、受信した状況情報に含まれる位置情報、時間情報及び環境情報のうちの少なくとも1つの情報(又はこれら情報の任意の組み合わせ)の値が、データベース4の背景データの該当する状況情報の値に略一致することなどが該当する。また、合成モード選択情報により選択されたモードが、撮像画像にアバタを合成するアバタ合成モード(第2モード)である場合は、当該通信端末のユーザに対応するアバタデータをデータベース4より選択する。なお、合成モード選択情報により選択されたモードが、データベース4の背景画像にユーザのアバタを合成するアバタ背景合成モード(第3モード)である場合は、状況情報に合致する背景データ(画像や音声)とユーザに対応するアバタデータをデータベース4より選択する。
【0038】
合成手段307は、通信端末より送信された撮像画像(リアルタイム画像)とデータベース4に格納されている合成用データ(画像、音声、テキスト等)(登録済画像等)とを合成する。また、データベース4に格納されている合成用データ同士を合成することもできる。画像合成には、仕様や設計に応じた従来技術を適宜適用することができ、その合成方法に特に限定はないが、本実施形態では、基本となる画像を背景画像とし、これに合成される被合成画像を通話者の本人画像(アバタを含む)として説明する。なお、合成手段307は、パターン認識や特徴抽出に関する既存技術を利用して、撮像画像から本人画像と背景画像を認識する機能を備えている。
【0039】
カメラ112は、被写体を撮影する撮像手段であり、例えば、ビデオカメラやWebカメラなどが該当する。
【0040】
データベース4は、テレビ電話に必要な各種データを格納するものであり、例えばリレーショナルデーターベースのような既存技術を適用して構築することができる。図4は、データベース4のデータ構造の一例を示す図である。なお、図4(A)〜(C)に示すデータ構造は一例であり、仕様や設計に応じて、データ項目を適宜追加・変更・削除することができる。
【0041】
図4(A)は、データベース提供者等によって予め用意される背景データを格納するデータベースであり、背景データと当該背景データによって表される背景の状況情報とを対応づけて格納している。例えば、データ項目として、背景データを一意的に識別する識別情報を格納する「背景ID」、背景データへのポインタを格納する「背景データ」、背景データによって表される被写体の位置を表す「緯度」及び「経度」(座標情報)、被写体の時間を格納する「時間」、被写体の環境を表す情報を格納する「環境情報」などを有している。なお、背景データは、そのデータ形式について特に限定はなく、動画及び静止画のほか、音声やテキストデータなども含まれる。同図では、背景データが画像である場合の例が示されている。また、環境情報は、通信端末が置かれた周囲の環境を表す情報であり、その内容に特に限定はないが、例えば、各種センサによって検出可能な音量、照度、カラー、速度、温湿度などが格納される。また、同じ被写体について、時間(朝、昼、夜)、天候(晴、曇、雨、雪)、季節(春、夏、秋、冬)等に応じて異なる内容の画像を格納してもよい。
【0042】
図4(B)は、ユーザによって登録される背景データを格納するデータベースであり、背景データと当該背景画像によって表される背景の状況情報とを対応付けて格納している。例えば、データ項目として、ユーザを一意的に識別する識別情報を格納する「ユーザID」、「背景画像」、「緯度」、「経度」、「時間」、「環境情報」などを有している。
【0043】
図4(C)は、アバタデータを格納するデータベースであり、例えば、データ項目として、「ユーザID」と、アバタを一意的に識別する識別情報を格納する「アバタID」と、アバタデータへのポインタを格納する「アバタデータ」などを有している。
【0044】
[テレビ電話制御処理の流れ]
図5を参照して、第1の実施形態に係るテレビ電話制御処理について説明する。なお、後述するフローチャートに示す各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更して又は並列に実行することができる。また、各処理ステップ間に他のステップを追加してもよい。また、便宜上1ステップとして記載されているステップは、複数ステップに分けて実行することができる一方、便宜上複数ステップに分けて記載されているものは、1ステップとして把握することができる。
【0045】
なお、以下の処理では、第1通信端末1が第2通信端末2へ発呼する場合のテレビ電話制御処理の流れについて説明し、第2通信端末2から第1通信端末1へ同様に実行される処理については説明を省略している。
【0046】
テレビ電話の開始前に、ユーザは、第1通信端末1にて所定の被写体を撮像することができる(S101)。ここでは、ユーザが、観光先で風景を撮像したものとする。ユーザが撮像画像のアップロードを指示すると、第1通信端末1は、図示しないタイマより撮影時間を、GPS受信機110より現在位置を、センサ109より環境情報をそれぞれ取得し、これらを含む状況情報、撮像画像及びユーザID(UID)を含む画像登録要求をサーバ3へ送信する(S102)。サーバ3は、受信した撮像画像を状況情報及びユーザIDと対応付けてデータベース4に登録する(S103)(図4(B))。
【0047】
第1通信端末1は、ユーザよりテレビ電話開始指示を受け付ける(S104)。テレビ電話開始指示には、相手先の通信端末を特定する相手先特定情報(例えば、電話番号やIPアドレスなど)と、画像の合成モードを選択する合成モード選択情報とが含まれている。第1通信端末1は、相手先特定情報と合成モード選択情報を含む発呼(テレビ電話開始要求)をサーバ3へ送信する(S105)。なお、ここでは、合成モードの例として、撮像画像に背景を合成する背景合成モード(第1モード)又は撮像画像にアバタを合成するアバタ合成モード(第2モード)が選択される場合について説明する。また、第2通信端末2が相手先として特定されている。
【0048】
サーバ3は、第1通信端末1より発呼を受け付けると、当該発呼に含まれる相手先特定情報に基づいて第2通信端末2へ着信要求を送信する(S106)。第2通信端末2は、着信要求を受け付けると(S107)、例えば着信音を出力してユーザに通知するとともに、状況情報(時間情報、位置情報、環境情報)を取得して、サーバ3へ送信する(S108)。
【0049】
サーバ3は、第2通信端末2から受信した状況情報に基づいて、第2通信端末2の現在状況を表す背景データ(プレゼンス情報)をデータベース4より抽出する。そして、第2通信端末2を呼び出し中であることを示す呼出中通知とプレゼンス情報とを、第1通信端末1へ送信する(S109)。第1通信端末1は、呼出中通知を受け付けると、呼び出し音出力を開始し、プレゼンス情報を受信すると、これを表示手段104に表示する(S110)。これにより、発信者は、着信者の位置や状況(例えば、会議中、睡眠中、旅行中など)を知ることができる。なお、着信者が現在の状況をサーバ3に対して通知しておくことにより、サーバ3は、着信者に着信呼出を送出する前に、発信者に着信者の状況を通知するようにしてもよい。
【0050】
第2通信端末2においてユーザが呼び出しに応答すると、第2通信端末2は、応答した旨をサーバ3へ送信し(S111)、サーバ3は、これを第1通信端末1へ送信する(S112)。これにより、第1通信端末1と第2通信端末2との間にサーバ3を介してテレビ電話のための通信路が確立する(S113)。
【0051】
第1通信端末1は、状況情報(現在時間、現在位置、環境情報)をGPS受信機110やセンサ109等から取得する(S114)。また、カメラ112による被写体の撮像を開始するとともに(S115)、ユーザより音声入力を受け付ける(S116)。
【0052】
第1通信端末1は、音声データ、撮像画像(本人撮像画像又は背景撮像画像)、状況情報及びユーザIDを関連付けてサーバ3へ送信する(S117)。なお、第1通信端末1は、合成モードとして背景合成モードが選択されている場合は、撮像画像から本人画像と背景画像を認識し、本人画像のみを抽出した本人撮像画像を生成して送信する。一方、第1通信端末1は、合成モードとしてアバタ合成モードが選択されている場合は、撮像画像には本人画像が含まれていないことが前提となるから、撮像画像をそのまま背景撮像画像として送信する。
【0053】
サーバ3は、第1通信端末1から、音声データ、撮像画像、状況情報を受信すると、S104にて取得した合成モード選択情報より合成方法を判断する(S119)。
【0054】
サーバ3は、背景合成モードであると判断した場合は(S120;背景モード)、状況情報によって特定される合成用背景データをデータベース4から特定する(S121)。そして、受信した本人撮像画像と特定した合成用背景データとを合成する(S122)。なお、合成モード選択情報においてユーザの背景データを使用することが指定されている場合は、状況情報に合致するユーザの背景データをデータベース4から特定する。
【0055】
一方、サーバ3は、アバタ合成モードであると判断した場合は(S120;アバタモード)、ユーザIDに合致するアバタデータを合成用データとしてデータベース4から特定し、受信した背景撮像画像と特定したアバタデータとを合成する(S123)。
【0056】
サーバ3は、音声データと合成画像を関連づけて第2端末装置2へ送信する(S124)。第2端末装置2は、受信した音声データに基づく音声をスピーカより出力し、合成画像をディスプレイに出力する(S125)。図6は、第2端末装置2のディスプレイに表示される合成画像の一例を示す図である。
【0057】
図6(A)は、背景合成モードの一例を示している。例えばユーザが旅行先から友人に向けて夏の夜に電話をかけた場合、第1通信端末1のカメラで背景を撮影しても真っ暗になってしまうものの、旅行先の雰囲気を相手に伝えたいと思う場合がある。また、ホテルの部屋から電話をかけたいものの、部屋が汚れているので相手に見せたくないと思う場合がある。図6(A)によれば、ユーザの位置情報(例:観光地A)、時間情報(例:夏の夜)より特定される旅行先の画像(例:夏の夜に撮影された観光地Aの登録済画像)上に会話中のユーザ本人の動画(リアルタイム画像)が重畳表示される。その結果、真っ暗な映像を送ったり乱雑な部屋を相手に見せたりすることなく、ユーザの音声と旅行中の雰囲気の双方を相手へ伝えることができるので、コミュニケーションをよりスムーズに運ぶきっかけとなる。
【0058】
また、図6(A)の背景合成モードによれば、第1通信端末1からサーバ3へは本人撮像画像のみが送信され、背景撮像画像のような大きなサイズのデータは送信されないので、第1通信端末1及びサーバ3間の使用帯域を少なく抑えることができる。一方、サーバ3から第2通信端末2へは合成画像が送信されるので使用帯域が大きくなるものの、サーバ3及び第2通信端末2間の通信に留めることができる。特に無線通信の場合には、基地局から通信端末への下り回線に比べて、通信端末から基地局への上り回線は、通信端末のエネルギ制限等の観点から使用帯域が制限されているところ、上記実施形態の構成によれば、上りと下りの帯域を効率的に使用しながら、ユーザの状況情報(背景画像)を相手に送信することができるようになる。さらに、例えば第2通信端末2に近いサーバ3を選択することによって使用帯域を節約することが可能である。
【0059】
なお、環境情報(例:温湿度情報)により天候(例:雨)が特定される場合には、当該天候の旅行先の画像(例:雨の観光地Aの登録済画像)を送信したり、環境情報(例:速度情報)によりユーザの移動形態(例:電車移動)が特定される場合には、当該旅行先の移動手段の画像(例:旅行先の駅や電車の登録済画像)を送信したりしてもよい。
【0060】
一方、図6(B)は、アバタ合成モードの一例を示している。例えばユーザが、旅行先から友人に向けて昼間に電話をかけ、目の前の状況をそのまま相手に伝えたい場合がある。図6(B)によれば、ユーザの撮影した風景の画像(リアルタイム画像)上にユーザのアバタ(登録済画像)が重畳表示されるので、ユーザの伝えたい風景を音声と一緒にそのまま相手へ伝えることができ、両者の会話がより弾むきっかけとなる。
【0061】
なお、図6(A)(B)の画像には、ユーザの現在位置や時間等より特定されるレストランや観光スポット等に関するテキスト情報や音声情報を重畳表示してもよい。
【0062】
なお、図6(C)は、背景合成モードの変形例であり、通話時間の経過に応じて背景データを変更する様子を示している。図6(C)によれば、ユーザの本人画像の背景である旅行先の画像が、所定タイミングでスライドショーのように変わってゆくので、相手方を退屈させることなく会話のヒントを増やすことができる。また、ユーザがアップロードした背景データが選択された場合には、ユーザが撮影した画像が経時的に背景表示されるようにしてもよい。
【0063】
また、図6(D)は、データベース4の背景データとアバタデータとを合成するアバタ背景合成モード(第3モード)の一例を示している。ここでは、第1通信端末1より撮像画像が送信されず、状況情報のみが送信され、サーバ3が状況情報によって特定される背景にユーザのアバタを重畳表示する様子を示している。図6(D)によれば、旅行先の画像とアバタとが表示されるので、旅行先の風景は相手に送りたいが自分の映像は送りたくないような場合に利用することができる。また、第1通信端末1からサーバ3へは音声と状況情報のみが送信されるので、第1通信端末1及びサーバ3間の使用帯域を少なく抑えながら、ユーザの音声と周囲の状況の双方を相手に伝達することができるようになる。
【0064】
以降、ユーザより切断が指示されるまで、第1通信端末1が音声と撮像画像をサーバ3へ送信すると、サーバ3は、撮像画像を合成用背景データと合成し、当該合成画像と音声を第2通信端末へ送信する(S126)。同様に、第2通信端末2が音声と撮像画像をサーバ3へ送信すると、サーバ3は、撮像画像を合成用背景データと合成し、当該合成画像と音声を第1通信端末へ送信する(S126)。これにより、第1通信端末1と第2通信端末2との間でサーバ3を介してテレビ電話による通話が行われる。
【0065】
第1通信装置1は、ユーザにより切断が指示されると、所定の切断要求をサーバ3へ送信する(S127)。サーバ3は、切断要求を受信すると、これを第2端末装置2へ送信する(S128)。第2端末装置2は、切断要求に応答し、例えば、受話器を置いたり切断ボタンを押下したりする。
【0066】
[第2の実施形態]
次に、図7を参照して、第2の実施形態に係るテレビ電話システムによる制御処理について説明する。第2の実施形態が第1の実施形態と主に異なる点は、第2の実施形態では、サーバ3の代わりに第1通信端末1が本人画像と背景画像を合成する点である。以下、第2の実施形態が第1の実施形態と同様の構成については、説明を省略する。
【0067】
第1通信端末1と第2通信端末2は、図5に示す通信路確立処理(S104〜S112)をサーバを介さずに実行することによりテレビ電話のための通信路を確立する(S201)。
【0068】
第1通信端末1は、第1通信端末1の状況情報(時間情報、位置情報、環境情報)を取得し(S202)、状況情報を含む背景画像取得要求をサーバ3へ送信する(S204)。サーバ3は、背景画像取得要求を受信すると、当該要求に含まれる状況情報(時間情報、位置情報、環境情報)に合致する合成用背景データをデータベース4から特定する(S205)。そして、特定した合成用背景データを第1通信端末1へ送信する(S206)。
【0069】
第1通信端末1は、カメラ112により本人(通話者)を撮像し(S207)、当該撮像画像から本人画像を抽出することにより生成した本人撮像画像と、受信した合成用背景データを合成する(S208)。また、第1通信端末1は、マイク106を介してユーザの音声入力を受け付ける(S209)。
【0070】
第1通信端末1は、音声データと合成画像を関連づけて第2通信端末2へ送信する(S210)。第2通信端末2は、音声データと合成画像を受信すると、音声データに基づく音声をスピーカより出力し、合成画像をディスプレイより出力する(S211)。
【0071】
第1通信端末1及び第2通信端末2は、S202〜S210の処理を繰り返すことにより、音声通話中に合成画像を互いに送受信する。
【0072】
なお、第1通信端末1は、背景画像取得要求の代わりにアバタ取得要求を送信することにより背景データの代わりにアバタデータをサーバ3より取得し、背景撮像画像にアバタを合成して合成画像を生成するようにしてもよい。
【0073】
[第3の実施形態]
次に、図8を参照して、第3の実施形態に係るテレビ電話システムによる制御処理について説明する。第3の実施形態が第1及び第2の実施形態と主に異なる点は、第3の実施形態では、第1通信端末1がサーバ3を介さずに画像合成を行い、第2通信端末2へ合成画像を送信する点である。この場合には、第1及び第2の実施形態においてサーバ3が有するデータベース4を、第1通信端末1が有することになる。以下、第3の実施形態が第1又は第2の実施形態と同様の構成については、説明を省略する。
【0074】
第1通信端末1は、被写体(例えば、背景)を撮影すると(S301)、撮像画像と状況情報とを対応付けて第1通信端末1のデータベース4に格納する(S302)。そして、ユーザよりテレビ電話開始指示の入力を受け付ける(S303)。
【0075】
第1通信端末1と第2通信端末2とは、例えば、発呼、着呼、プレゼンス情報表示、応答などの図5に示す処理を、サーバ3を介さずに実行することにより、両者間でテレビ電話のための通信路を確立する(S304)。
【0076】
第1通信端末1は、第1通信端末1の状況情報を取得し(S305)、状況情報(時間情報、位置情報、環境情報)に合致する合成用背景データをデータベース4から特定する(S306)。そして、カメラ112により本人を撮像し(S307)、撮像した撮像画像から本人画像を抽出することにより生成した本人撮像画像と、特定した合成用背景データを合成する(S308)。また、第1通信端末1は、マイク106を介してユーザの音声入力を受け付ける(S309)。
【0077】
第1通信端末1は、音声データと合成画像を関連づけて第2通信端末2へ送信する(S310)。第2通信端末2は、音声データに基づく音声をスピーカより出力し、合成画像をディスプレイより出力する(S311)。
【0078】
第1通信端末1及び第2通信端末2は、S305〜S310の処理を繰り返すことにより、音声通話中に合成画像を互いに送受信する。
【0079】
[第4の実施形態]
次に、図9を参照して、第4の実施形態に係るテレビ電話システムによる制御処理について説明する。第4の実施形態が、第1乃至第3の実施形態と主に異なる点は、第4の実施形態では、サーバ3が、第1通信端末1より送信される撮像画像をそのまま相手へ送信する一方、撮像画像から背景画像を抽出して差替用背景画像を生成しておき、所定時間が経過したタイミングで、撮像画像中の背景画像を生成した背景画像に差し替えて送信する点である。以下、第4の実施形態が第1乃至第3の実施形態と同様の構成については、説明を省略する。
【0080】
第1通信端末1は、ユーザよりテレビ電話開始指示の入力を受け付けると、例えば、図5に示す発呼処理を実行することにより、サーバ3を介して第2通信端末2との間で通信路を確立する(S401)。
【0081】
第1通信端末1は、カメラ112により背景を含む本人を撮像し(S402)、マイク106を介してユーザの音声入力を受け付ける(S403)。そして、音声データと撮像画像を関連づけてサーバ3へ送信する(S404)。サーバ3は、受信した音声データと撮像画像を第2通信端末2へ送信する(S405)とともに、撮像画像を後述する画像処理のために所定の記憶領域に格納する。第2通信端末2は、音声データに基づく音声をスピーカより出力し、撮像画像をディスプレイより出力する。
【0082】
第1通信端末1は、S402〜S405の処理を繰り返すことにより、サーバ3を介して音声通話中の撮像画像を第2端末装置2へ送信する(S406)。
【0083】
一方、サーバ3は、パターン認識や特徴抽出に関する既存技術を利用して、格納した撮像画像を解析することにより、撮像画像を複数の画像、例えば本人画像(第1画像)と背景画像(第2画像)とに分離し、背景画像のみを抽出する(S407)。そして、抽出された背景画像に基づいて、差替用背景画像を生成する(S408)。差替用背景画像は、例えば抽出された背景画像よりも解像度を低くするなどしてデータサイズを小さくする。
【0084】
サーバ3は、例えば通話開始から所定時間が経過しているか否かを判断し(S409)、経過していない場合(S409;NO)は、差替用背景画像の生成処理を実行する。一方、通話開始から所定時間経過している場合は(S409;YES)は、送信された撮像画像から本人画像のみを抽出し、当該抽出した本人画像を、生成した差替用背景画像と合成する(S410)。そして、合成画像を第2通信端末2へ音声データと一緒に送信する(S411)。第2通信端末2は、音声データに基づく音声をスピーカより出力し、合成画像をディスプレイより出力する。
【0085】
以降、ユーザより切断が指示されるまで、第1通信端末1が音声と撮像画像をサーバ3へ送信すると、サーバ3は、撮像画像中の本人画像と差替用画像とを合成し、音声と合成画像を第2通信端末2へ送信する(S412)。同様に、第2通信端末2が音声と撮像画像をサーバ3へ送信すると、サーバ3は、撮像画像中の本人画像と差替用画像とを合成し、音声と合成画像を第1通信端末1へ送信する(S412)。これにより、第1通信端末1と第2通信端末2との間でサーバ3を介してテレビ電話による通話が行われる。
【0086】
以上によれば、差替用背景画像を利用することにより、サーバ3が第1通信端末1から送信された撮像画像をそのまま第2通信端末2へ送信する場合に比べて、サーバ3と第2通信端末2間の使用帯域を節約することができるようになる。
【0087】
なお、本開示は、上記した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。
【0088】
例えば、上記実施形態では、状況情報に基づいて合成用の背景画像を特定し、当該特定した背景画像を本人画像に合成する場合について説明したが、例えば、サーバ3は、合成時のネットワークのトラフィック量を検出し、当該検出したトラフィック量に応じて特定した背景画像の画質を変更し、変更後の背景画像を合成して送信するようにしても良い。例えば、トラフィック量が多い場合は背景画像の画質を下げたり、トラフィック量が少ない場合は背景画像の画質を上げたりすることにより、効率的に合成画像を送信することが可能になる。
【符号の説明】
【0089】
1…第1通信端末、2…第2通信端末、3…サーバ、4…データベース、N…通信ネットワーク、101…制御手段、102…記憶手段、103…操作手段、104…表示手段、105…音声処理手段、106…マイク、107…スピーカ、108…通信手段、109…センサ、110…GPS受信機、111…画像処理手段、112…カメラ、301…通信手段、302…制御手段、303…接続中継手段、304…プレゼンス情報特定手段、305…状況情報受信手段、306…合成用データ選択手段、307…合成手段

【特許請求の範囲】
【請求項1】
ネットワークを介して通信可能に接続される第1通信端末と第2通信端末との間の通信を制御するテレビ電話システムであって、
前記通信時の前記第1通信端末の状況を表す状況情報を取得する取得手段と、
前記取得手段が取得した状況情報に所定条件下で合致する合成用データをデータベースから選択する選択手段と、
前記選択手段が選択した合成用データと前記第1通信端末の通話者の所定の画像とを合成する合成手段と、
前記通話者より前記第1通信端末に音声入力された音声信号と前記合成手段が合成した合成画像とを関連付けて前記第2通信端末へ送信する送信手段と、を有し、
前記状況情報は、
前記通信時の時間を表す時間情報、前記通信時の前記第1通信端末の現在位置を表す位置情報及び前記通信時の前記第1通信端末の周囲の環境を表す環境情報のうちの少なくとも1つを含み、
前記データベースは、
前記合成用データとしての背景データと当該背景データによって表される背景の状況情報とを対応付けて格納しており、
前記通話者の所定の画像は、前記第1通信端末が有するカメラにより前記通信中に撮像された撮像画像、又は前記データベースに格納されている前記通話者のアバタであり、
前記取得手段は、前記第1通信端末が有し、
前記選択手段は、前記第1通信端末と前記第2通信端末とそれぞれ通信可能に構成されたサーバが有し、
前記合成手段及び前記送信手段は、前記第1通信端末又はサーバが有する
ことを特徴とするテレビ電話システム。
【請求項2】
ネットワークを介して通信可能に接続される第1通信端末と第2通信端末との間の通信を制御するテレビ電話システムであって、
前記通信時の前記第1通信端末の状況を表す状況情報を取得する取得手段と、
前記取得手段が取得した状況情報に所定条件下で合致する合成用データをデータベースから選択する選択手段と、
前記選択手段が選択した合成用データと前記第1通信端末の通話者の所定の画像とを合成する合成手段と、
前記通話者より前記第1通信端末に音声入力された音声信号と前記合成手段が合成した合成画像とを関連付けて前記第2通信端末へ送信する送信手段と、
を有することを特徴とするテレビ電話システム。
【請求項3】
前記状況情報は、
前記通信時の時間を表す時間情報、前記通信時の前記第1通信端末の現在位置を表す位置情報及び前記通信時の前記第1通信端末の周囲の環境を表す環境情報のうちの少なくとも1つを含むことを特徴とする請求項2に記載のテレビ電話システム。
【請求項4】
前記データベースには、
前記合成用データとしての背景データと当該背景データによって表される背景の状況情報とを対応付けて格納していることを特徴とする請求項2又は3に記載のテレビ電話システム。
【請求項5】
前記通話者の所定の画像は、前記第1通信端末が有するカメラにより前記通信中に撮像された撮像画像であることを特徴とする請求項2乃至4いずれか1項に記載のテレビ電話システム。
【請求項6】
前記通話者の所定の画像は、前記データベースに格納されている前記通話者のアバタであることを特徴とする請求項2乃至4いずれか1項に記載のテレビ電話システム。
【請求項7】
前記システムは、前記第1通信端末と前記第2通信端末とそれぞれ通信可能に構成されたサーバを有し、
前記第1通信端末は、前記取得手段を有し、
前記サーバは、前記選択手段、前記合成手段及び前記送信手段を有することを特徴とする請求項2乃至6いずれか1項に記載のテレビ電話システム。
【請求項8】
前記システムは、前記第1通信端末と前記第2通信端末とそれぞれ通信可能に構成されたサーバを有し、
前記第1通信端末は、前記取得手段、前記合成手段及び前記送信手段を有し、
前記サーバは、前記選択手段を有することを特徴とする請求項2乃至6いずれか1項に記載のテレビ電話システム。
【請求項9】
前記第1通信端末は、前記取得手段、前記選択手段、前記合成手段及び前記送信手段を有することを特徴とする請求項2乃至6いずれか1項に記載のテレビ電話システム。
【請求項10】
ネットワークを介して通信可能に接続される第1通信端末と第2通信端末との間の通信を制御するサーバであって、
合成用データを格納するデータベースと、
通話者より前記第1通信端末に音声入力された音声信号と、前記第1通信端末が有するカメラにより撮像された前記通話者の撮像画像と、前記第1通信端末の状況を表す状況情報と、を当該第1通信端末より受信する受信手段と、
前記受信手段が受信した状況情報に所定条件下で合致する合成用データを前記データベースから選択する選択手段と、
前記選択手段が選択した合成用データと前記通話者の撮像画像とを合成する合成手段と、
前記受信手段が受信した音声信号と前記合成手段が合成した合成画像とを関連付けて前記第2通信端末へ送信する送信手段と、
を有することを特徴とするサーバ。
【請求項11】
ネットワークを介して通信可能に接続される第1通信端末と第2通信端末との間の通信を制御するサーバであって、
通話者より前記第1通信端末に音声入力された第1の音声信号と、当該第1の音声入力時に前記第1通信端末が有するカメラにより撮像された第1の撮像画像と、を当該第1通信端末より受信する第1の受信手段と、
前記受信手段が受信した第1の音声信号と前記第1の撮像画像とを関連付けて前記第2通信端末へ送信する第1の送信手段と、
前記第1の受信手段が受信した前記第1の撮像画像を前記通話者の本人画像と背景画像とに分離し、当該分離された背景画像に基づいて差替用背景画像を生成する生成手段と、
前記通話者より前記第1通信端末に音声入力された第2の音声信号と、当該第2の音声入力時に前記第1通信端末が有するカメラにより撮像された第2の撮像画像と、を当該第1通信端末より受信する第2の受信手段と、
前記第2の受信手段が受信した第2の撮像画像から前記通話者の本人画像を抽出し、当該抽出した本人画像と前記生成した差替用背景画像とを合成する合成手段と、
前記受信手段が受信した第2の音声信号と前記合成手段が合成した合成画像とを関連付けて前記第2通信端末へ送信する第2の送信手段と、
を有することを特徴とするサーバ。
【請求項12】
ネットワークを介して通信可能に接続される第1通信端末と第2通信端末との間の通信を制御するサーバにおける制御方法であって、
通話者より前記第1通信端末に音声入力された音声信号と、前記第1通信端末が有するカメラにより撮像された前記通話者の撮像画像と、前記第1通信端末の状況を表す状況情報と、を当該第1通信端末より受信することと、
前記受信した状況情報に所定条件下で合致する合成用データをデータベースから選択することと、
前記選択した合成用データと前記通話者の撮像画像とを合成することと、
前記受信した音声信号と前記合成した合成画像とを関連付けて前記第2通信端末へ送信することと、
を有することを特徴とする制御方法。
【請求項13】
ネットワークを介して通信可能に接続される第1通信端末と第2通信端末との間の通信を制御するシステムにおける制御方法であって、
前記通信時の前記第1通信端末の状況を表す状況情報を取得することと、
前記取得した状況情報に所定条件下で合致する合成用データをデータベースから選択することと、
前記選択した合成用データと前記第1通信端末の通話者の所定の画像とを合成することと、
前記通話者より前記第1通信端末に音声入力された音声信号と前記合成した合成画像とを関連付けて前記第2通信端末へ送信することと、
を有することを特徴とする制御方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−259013(P2011−259013A)
【公開日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願番号】特願2010−129060(P2010−129060)
【出願日】平成22年6月4日(2010.6.4)
【特許番号】特許第4781477号(P4781477)
【特許公報発行日】平成23年9月28日(2011.9.28)
【出願人】(509348786)エンパイア テクノロジー ディベロップメント エルエルシー (117)
【Fターム(参考)】