説明

画像付音声通信システム、画像付音声通信方法およびプログラム

【課題】発話者が伝えたい相手である受話者に対して、より明瞭に音声が伝わる画像付音声通信の方法を提供する。
【解決手段】音声信号と画像信号とを通信ネットワークを経由して送信する画像付音声通信システムであって、受話者各人に割り当てられた個別のスピーカ61、62、63と、通信相手の画像を表示する表示部4と、スピーカ61、62、63と当該拠点の表示部4との位置関係を検出する位置検出部11と、スピーカ61、62、63ごとに音量を調節可能な音声出力部16と、通信相手から受信した音声を、スピーカ61、62、63のそれぞれと当該拠点の表示部4との距離の比よりも大きい音量比で、それぞれのスピーカ61、62、63から出力する音声の音量を調節して、スピーカ61、62、63から出力する音量制御部17と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声信号と画像信号とを符号化し、通信ネットワークを経由して送信する画像付音声通信システム、画像付音声通信方法およびプログラムに関する。より詳しくは、画像付音声通信の参加者ごとに音量を調節する画像付音声通信システムに関する。
【背景技術】
【0002】
テレビ会議の主な特徴は、遠隔の2地点の映像と音声を結びつけることで、離れていても相手の顔を見て会話ができる点にある。例えば、テレビ会議では、複数人が同時に参加できる。しかし、この方法では、複数人の参加者は通常同じスピーカーの音声を聞き、マイクに向かって話すため、全員が同じ音量で画面の向こうの参加者たちの音声を聞くことになる。言い換えると、全員がほぼ同じ条件で参加する形式の通信方式である。一方の拠点の発話者が発した音声は他方の拠点のスピーカから出力され、その拠点の参加者にほぼ同じ音量で伝わる。
【0003】
例えば、特許文献1は 送信音量が一定になるように自動調整する技術が記載されている。特許文献1の技術は、自側の動画カメラの焦点合わせとアングルの調整を行なう動画カメラ制御部と、マイクから入力した音声を符号化する音声コーデック部と、予め定められた音量レベル設定値と音声コーデック部から検出された音声の振幅とを比較して音量レベルの判定を行なう音量レベル検知部と、動画カメラ制御部における焦点距離情報から得られた送話者の位置および音量レベル検知部における比較結果に基づいて音量レベル設定値を調整する音量レベル制御部とを備える。
【0004】
また、特許文献2には、表示映像に調和した臨場感の高い映像音響通信する技術が記載されている。特許文献2の技術は、音響送信側ユーザ及び音響受信側ユーザの視聴位置を検出し、その視聴位置情報に基づき、マイクにより収音した音響信号を調整する。そして、調整した音響信号を音響信号再生装置により再生を行う。
【0005】
さらに、特許文献3には、TV会議等において、話者が存在するように音像を定位させることが記載されている。特許文献3の技術は、話者および受話者の位置を検出する手段と話者と受話者の両耳(顔)の方向を検出する手段を設け、話者と受話者の位置関係および話者と受話者の向きより直接音と間接音の伝達量を考慮し、同一空間内にいる場合の話者と受話者間の音の伝達関数計算により求め、伝達関数を再現することにより音像を定位させる。
【特許文献1】特開平06−253305号公報
【特許文献2】特開平07−193798号公報
【特許文献3】特開平07−264700号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
全参加者が一つの空間に集まるコミュニケーションの場では、発話者と受話者の距離に応じて伝わる声の大きさが異なり、近いと聞こえやすいが、離れると聞こえにくかったり、聞こえなかったりする。その結果、発話者は受話者を距離で選んで発話音量を変更するので音声がはっきり伝わる人、余り伝わらない人を視覚的に選択できる。また、一つの空間で複数のコミュニケーションが同時に進行可能である。このように対面でのコミュニケーションは誰がどこにいるかがわかるので、音量を容易に調節できる。例えば、図9に示すような位置関係の場合、発話者301の発する音声は、すぐ近くにいる受話者302に伝わりやすく受話者303には聞こえづらいように音量を調節できる。これは発話者301と受話者302、発話者301と受話者303の距離が直感的に把握できるからである。
【0007】
それに対して、テレビ会議システムでは一般に、他方の拠点の特定の参加者には伝わりにくくなるように、発話者側で音量を調節することは困難である。このように、テレビ会議では、対面のコミュニケーションの場でできる発話者と受話者の距離に応じた参加者間の伝達音量の違いや制御、それを元に複数の会話が同時に進行するということができない問題がある。
【0008】
特許文献1では、発話者の画面との距離を考慮し、送出音量を変化させている。しかし、この方法では、受信者の状況が考慮されていない問題が残る。例えば、受話者の中には近くで聞く者も離れて聞く者もいるが、スピーカの音量が同じため、ほぼ同じように聞こえてしまう。
【0009】
第1の問題点は、画面を介したテレビ会議において、受話者各人が画面との距離に無関係に同じ音量で出力される音を聞くため、発話者が伝えたい人を直感的に制御できないということである。その原因は、画面との距離にかかわらず、固定設置された同じスピーカからの音声を受話者が聞くため、位置関係が音声の伝わり具合と関連しないためである。
【0010】
第2の問題点は、通常の対面のコミュニケーションの場では可能な、2組以上の別の会話を同時に進行することがテレビ会議では困難であるということである。その原因は、現在のテレビ会議の仕組みでは受話者が発話者との距離に無関係に同じ出力音声を聞く仕組みだからである。また、人は聞き取りたい音声を他の音から選択的に識別して聞き分けているが、耳の近くに置かれた機械的な音源、例えば、イヤホンまたはヘッドホンなどの音響に複数の音声が含まれる場合に、その中から聞き取りたい音声を聞き分けるのは困難である。
【0011】
本発明は上述のような課題に鑑みてなされたものであり、その目的は、発話者が伝えたい相手である受話者に対して、より明瞭に音声が伝わる画像付音声通信の方法を提供することである。
【0012】
本発明において、画像付音声通信は、テレビ会議の外に、テレビ電話、WEB会議、ビデオチャットなど様々な名称で呼ばれる画像を伴う音声通信全般を含む。
【課題を解決するための手段】
【0013】
本発明の第1の観点に係る画像付音声通信システムは、
音声信号と画像信号とを通信ネットワークを経由して送信する画像付音声通信システムであって、
受話者各人に割り当てられた個別の音声出力装置と、
通信相手の画像を表示する画像表示手段と、
前記音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出手段と、
前記音声出力装置ごとに音量を調節可能な音量調節手段と、
通信相手から受信した音声を、前記音声出力装置のそれぞれと当該拠点の前記画像表示手段との距離の比よりも大きい音量比で、それぞれの前記音声出力装置から出力する音声の音量を調節して、前記音声出力装置から出力する音声制御手段と、
を備えることを特徴とする。
【0014】
本発明の第2の観点に係る画像付音声通信システムは、
音声信号と画像信号とを通信ネットワークを経由して送信する画像付音声通信システムであって、
受話者各人に割り当てられた個別の音声出力装置と、
通信相手の画像を表示する画像表示手段と、
前記音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出手段と、
話者を識別可能な音声入力手段と、
前記話者の音声を区別して送信する音声通信手段と、
前記話者を撮影する撮像手段と、
前記話者と話者側の前記撮像手段との位置関係を検出する話者位置検出手段と、
前記音声出力装置ごとに音量を調節可能な音量調節手段と、
前記話者と話者側の撮像装置との位置関係および前記音声出力装置と当該拠点の前記画像表示手段との位置関係とに基づいて、話者側の前記撮像手段と受話者側の前記画像表示手段が一定の位置関係にあるとみなして、前記話者と前記音声出力装置との相互距離を算出する距離算出手段と、
前記音声出力装置のそれぞれについて、通信相手から受信した前記話者のそれぞれの音量を前記話者とその音声出力装置との距離の比よりも大きい音量比でミキシングして、各音声出力装置から出力する音声複合手段と、
を備えることを特徴とする。
【0015】
本発明の第3の観点に係る画像付音声通信方法は、
音声信号と画像信号とを通信ネットワークを経由して送信する画像付音声通信方法であって、
通信相手から受信した画像を画像表示手段に表示する画像表示ステップと、
受話者各人に個別に設けられた音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出ステップと、
通信相手から話者の音声を受信する音声受信ステップと、
前記通信相手から受信した音声を、前記音声出力装置と当該拠点の前記画像表示手段との距離の比よりも大きい音量比でそれぞれの前記音声出力装置から出力する音声の音量を調節して、各音声出力装置から出力する音声制御ステップと、
を備えることを特徴とする。
【0016】
本発明の第4の観点に係る画像付音声通信方法は、
音声信号と画像信号とを通信ネットワークを経由して送信する画像付音声通信方法であって、
通信相手から受信した画像を画像表示手段に表示する画像表示ステップと、
受話者各人に個別に設けられた音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出ステップと、
話者を識別して、話者ごとの音声を入力する音声入力ステップと、
前記話者と前記話者を撮影する撮像手段との位置関係を検出する話者位置検出ステップと、
前記話者ごとの音声を区別して送信する音声通信ステップと、
前記話者と前記撮像装置との位置関係および前記音声出力装置と当該拠点の前記画像表示手段との位置関係とに基づいて、話者側の前記撮像手段と受話者側の前記画像表示手段が一定の位置関係にあるとみなして、それぞれの前記話者と前記音声出力装置との相互距離を算出する距離算出ステップと、
各音声出力装置について、通信相手から受信したそれぞれの話者の音量を各話者とその音声出力装置との距離の比よりも大きい音量比でミキシングして、各音声出力装置から出力する音声複合ステップと、
を備えることを特徴とする。
【0017】
本発明の第5の観点に係るプログラムは、コンピュータに、
通信相手から受信した画像を画像表示手段に表示する画像表示ステップと、
受話者各人に個別に設けられた音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出ステップと、
通信相手から話者の音声を受信する音声受信ステップと、
前記通信相手から受信した音声を、前記音声出力装置と当該拠点の前記画像表示手段との距離の比よりも大きい音量比でそれぞれの前記音声出力装置から出力する音声の音量を調節して、各音声出力装置から出力する音声制御ステップと、
を実行させることを特徴とする。
【0018】
本発明の第6の観点に係るプログラムは、コンピュータに、
通信相手から受信した画像を画像表示手段に表示する画像表示ステップと、
受話者各人に個別に設けられた音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出ステップと、
話者を識別して、話者ごとの音声を入力する音声入力ステップと、
前記話者と前記話者を撮影する撮像手段との位置関係を検出する話者位置検出ステップと、
前記話者ごとの音声を区別して送信する音声通信ステップと、
前記話者と前記撮像装置との位置関係および前記音声出力装置と当該拠点の前記画像表示手段との位置関係とに基づいて、話者側の前記撮像手段と受話者側の前記画像表示手段が一定の位置関係にあるとみなして、それぞれの前記話者と前記音声出力装置との相互距離を算出する距離算出ステップと、
各音声出力装置について、通信相手から受信したそれぞれの話者の音量を各話者とその音声出力装置との距離の比よりも大きい音量比でミキシングして、各音声出力装置から出力する音声複合ステップと、
を実行させることを特徴とする。
【発明の効果】
【0019】
本発明の画像付音声通信システムまたは画像付音声通信方法によれば、表示装置に写された画像を介した通信において、受話者ごとに音声出力手段を設ける場合に、対面でのコミュニケーションに近い環境を提供できるので、近づいて話しているメンバーだけで会話がしやすい。その理由は、受話者ごとに設けられた音声出力手段を用いながら、画面を介して集まる各人の位置関係の距離の比よりも大きい音量比で発話者の音量を制御し、受話者ごとに出力するためである。
【発明を実施するための最良の形態】
【0020】
本発明において、画像付音声通信は、テレビ会議の外に、テレビ電話、WEB会議、ビデオチャットなど様々な名称で呼ばれる画像を伴う音声通信全般を含むが、以下、本発明の実施の形態では、テレビ会議システムを例にとりあげて説明する。
【0021】
(実施の形態1)
図1は、本発明の画像付通信装置の例として、実施の形態1に係るテレビ会議装置の構成例を示すブロック図である。テレビ会議装置1は、制御装置2、カメラ3、表示部4、マイク51、52、53、スピーカ61、62、63、およびID検知部102から構成される。マイク51、52、53とスピーカ61、62、63の数はいくつでもよく、制約はない。以下、マイク51、52、53を総称する場合は、マイク5という。また、スピーカ61、62、63を総称する場合は、スピーカ6という。スピーカ6は、テレビ会議の参加者ごとに割り当てられるように設けられる。
【0022】
図2は、実施の形態1に係るテレビ会議システム100の構成例を示すブロック図である。拠点Aと拠点Bのそれぞれに設置されたテレビ会議装置1Aおよび1Bが、ネットワークNに接続する。拠点Aのテレビ会議装置1Aの各部には参照符号にAを付けて示す。拠点Bのテレビ会議装置1Bの各部には参照符号にBを付けて示す。
【0023】
テレビ会議システム100は、拠点Aのカメラ3Aで撮影した画像を、ネットワークNを経由して拠点Bのテレビ会議装置1Bに送信し、表示部4Bに表示する。逆に拠点Bのカメラ3Bで撮影した画像を、拠点Aの表示部4Aに表示する。また、拠点Aのマイク51A、52A、53Aで入力した音声信号を、ネットワークNを経由して拠点Bのテレビ会議装置1Bに送信し、スピーカ61B、62B、63Bから出力する。逆に、拠点Bのマイク5Bで入力した音声信号を、ネットワークNを経由して拠点Aのテレビ会議装置1Aに送信し、スピーカ6Aから出力する。
【0024】
図1を参照すると、テレビ会議装置1の制御装置2は、位置検出部11、参加者距離算出部12、画像入力部13、画像出力部14、音声入力部15、音声出力部16、音量制御部17、通信処理部18、および送受信部19を備える。制御装置2は、例えば、プログラム制御によって動作するコンピュータで構成することができる。
【0025】
カメラ3は、テレビ会議の参加者の画像を撮影し、画像入力部13に伝送する。表示部4は、例えば、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)または画像プロジェクタ装置などから構成され、画像出力部14から送られる信号によって画像を表示する。
【0026】
マイク51、52、53は、それぞれ参加者の音声を電気信号に変換して、音声入力部15に入力する。スピーカ61、62、63は、それぞれ音声出力部16から送られる音声信号を音声に変換して送出する。マイク51、52、53とスピーカ61、62、63はそれぞれ組になってヘッドセット71、72、73(以下、ヘッドセット7と総称することがある)を構成する場合がある。
【0027】
ヘッドセット7と音声入力部15および音声出力部16との送信方法は有線でも無線でも構わない。音声出力信号は、そのままアンプを介して音にできるアナログ信号でも構わないし、D−A変換を介して音声に変換できるデジタル情報でも構わない。ヘッドセット7は、例えばRFIDタグを備える場合がある。
【0028】
位置検出部11は、表示部4に対するスピーカ61、62、63の位置を検出する。スピーカ6の位置を検出するには、例えば、テレビ会議を行う部屋の天井に並べたRFIDアンテナによる位置検知を用いることができる。その場合、ID検知部102は、例えば、スピーカ6(またはヘッドセット7)につけられたRFIDタグを読み取る。物理的にワイヤを接続せず遠隔で位置を検出する方法として、RFIDタグのほかに、可視光または超音波などで読み取るタグを用いてもよい。
【0029】
または、カメラ3で撮影した画像を解析して、スピーカ6の位置を検出してもよい。また、カメラ3の前に配置した超音波センサアレイを用いてスピーカ6(またはヘッドセット7)の距離を測定し、画像とのマッチングによってIDとスピーカ6(またはヘッドセット7)の位置との対応付けを行う方法を採ることができる。あるいは、テレビ会議の参加者がカメラとの位置関係を入力する、手動による位置検出方法でもかまわない。その他、床にセンサ(金属センサなど)を設置して、専用の靴と床との接触する位置で受話者の位置を検出してもよい。音声出力部16の任意のポートに接続されたスピーカ6(またはヘッドセット7)が、表示部4に対してどの位置にあるかを検出できればよい。
【0030】
参加者距離算出部12は、位置検出部11で検出した各スピーカ6の位置関係にもとづいて、各スピーカ6の表示部4からの距離を算出する。
【0031】
画像入力部13は、カメラ3の画像信号を入力して、通信処理部18に伝送する。画像入力部13は、また、画像信号を符号化してデータ圧縮する場合がある。画像出力部14は、通信処理部18から画像信号を入力して、表示部4に画像を表示する。画像信号が符号化されてデータ圧縮されている場合は、画像信号をデコードする。
【0032】
音声入力部15は、マイク5から音声信号を入力し、通信処理部18に伝送する。音声信号をA−D変換してさらにデータ圧縮する場合がある。音声出力部16は、通信処理部18から音声信号を入力して、スピーカ6から音声を再生する。音声出力部16は、スピーカ6ごとに音量を調節することができる。
【0033】
通信処理部18は、画像入力部13から画像信号を入力して、送受信部19からネットワークNを経由して通信相手のテレビ会議装置1に送信する。また、通信相手のテレビ会議装置1から受信した画像信号を画像出力部14に送る。
【0034】
通信処理部18は、また、音声入力部15から音声信号を入力して、送受信部19からネットワークNを経由して通信相手のテレビ会議装置1に送信する。また、通信相手のテレビ会議装置1から受信した音声信号を、音声出力部16に送る。
【0035】
送受信部19は、ネットワークNに接続する網終端装置または無線通信装置、及びそれらと接続するシリアルインタフェース又はLAN(Local Area Network)インタフェースから構成されている。送受信部19はネットワークNを介して、通信相手のテレビ会議装置1に画像信号および音声信号を送信し、画像信号および音声信号を受信する。
【0036】
音量制御部17は、参加者距離算出部12で求められたカメラ3からの各スピーカ6の距離に基づいて、各スピーカ6から再生する音量を所定のレベルに設定する。すなわち、音声出力部16に対して、各ポートから出力する音量レベルを指令する。
【0037】
音量制御部17は、表示部4からの物理的な距離に応じた音声の比率より大きい比率で、各スピーカ6から再生する音量レベルを設定する。物理的な距離に応じた音声の比率とは、反射のない開放空間では、距離の2乗に反比例する比率と考えられる。このようにすることで離れた場所での音量がより効果的に減衰し、発話音声が伝わるエリアをより制限しやすくできる。
【0038】
図3は、実施の形態1に係るテレビ会議システム100の動作の一例を示す流れ図である。図2の拠点Bの話者から入力された音声を、拠点Aのスピーカ61A、62A、63Aから出力する場合を想定する。
【0039】
拠点Aでは、スピーカ61A、62A、63Aの位置をID検知部102が検出する(ステップS11)。各デバイスの位置の情報は位置検出部11Aに保持される。スピーカ6の位置情報をもとに参加者距離算出部12Aは表示部4Aとスピーカ6の距離を算出する(ステップS12)。この距離はすべての人ごとの距離の相対距離が判明する限りにおいて、メートルなどの単位で表記しなくても構わない。例えば、もっとも近い2者の距離を1とした場合に、その他の人との距離を1.5や2.1といった相対距離で出力しても構わない。
【0040】
音量制御部17Aは音声出力部16Aに対して、表示部4Aと各スピーカ6の距離の比よりも大きい比率で、各スピーカ6の音量を設定する(ステップS13)。
【0041】
一方、拠点Bでは、マイク5から入力された音声をミキシングして、通信処理部18B、送受信部19Bから、ネットワークNを経由して拠点Aに送信する(ステップT11)。拠点Bからの音声を受信した拠点Aの送受信部19Aは、通信処理部18Aで音声信号を取り出して、音声出力部16Aに入力する。音声出力部16Aは、スピーカ6ごとに設定された音量で入力された音声をスピーカ6から出力する。
【0042】
以上、説明したとおり、本実施の形態1に係るテレビ会議システム100では、スピーカ6と表示部4の位置関係に基づいて、スピーカ6と表示部4の距離の比よりも大きい比率でスピーカ6ごとの音量を設定する。それによって、受話者ごとに設けられたスピーカ6から出力する音声が、表示部4から離れるにしたがって、認識はできるが作業や他者との会話に妨げにならないレベルにすることができる。その結果、表示部4に近づいて話しているメンバーだけで会話がしやすいという効果が得られる。
【0043】
なお、スピーカ6から出力する音量を距離のみに依存する一定値ではなく、動的に変化させてもよい。例えば、マイク5から所定の値以上の音量が入力されたときに(話者になったときに)、そののち一定時間は、そのマイク5の受話者のスピーカ6の音量を大きくする。発言してから所定の時間経過したら、そのスピーカ6の音量を距離の比よりも大きい通常の比率にもどす。さらに、経過時間と音量に段階を設けてもよい。
【0044】
(実施の形態2)
実施の形態2は、実施の形態1の動作に加えて、1つの拠点の話者が複数であって、話者の音声をミキシングする場合である。ミキシングするレベルを話者とカメラとの距離の比よりも大きい比率に設定する。図4は、実施の形態2に係るテレビ会議装置の構成の例を示すブロック図である。実施の形態1のテレビ会議装置に比較して、ミキシングレベル制御部20が追加されている。
【0045】
実施の形態2のテレビ会議システム100では、位置検出部11はさらに、話者とカメラ3との位置関係を検出する。ヘッドセット7を用いる場合は、話者の位置は、ヘッドセット7の位置によって検出されている。カメラ3と表示部4との位置関係のデータを予め設定しておけば、話者とカメラ3との位置関係が分かる。参加者距離算出部12は、位置検出部11で検出した各話者の位置関係にもとづいて、話者とカメラ3との距離を算出する。
【0046】
音声入力部15は、話者ごとの音声を識別して入力し、1つの音声信号にミキシングする。話者ごとの音声を識別するには、話者ごとにマイク5を設置する。あるいは、マイク5が参加者ごとに備えられていなくても、例えば、2つ以上のマイク5で同時に入力して、話者の位置関係にもとづいて、2つ以上のマイク5に到達する音声の時間差が、話者とマイク5の距離の差に相当する音声を分離してもよい。
【0047】
ミキシングレベル制御部20は、話者とカメラ3との距離の比よりも大きい比率で、音声入力部15でミキシングする各音声のレベルを設定する。したがって、音声入力部15でミキシングされる各音声のレベルは、話者とカメラ3との距離の比よりも大きい比率となる。音声入力部15でミキシングされた音声は、通信処理部18、送受信部19を介して通信相手の拠点に送信される。
【0048】
図5は、実施の形態2に係るテレビ会議システム100の動作の一例を示す流れ図である。図2の拠点Bのマイク51B、52B、53Bから入力された音声を、拠点Aのスピーカ61A、62A、63Aから出力する場合を想定する。拠点Aの音声受信処理動作は、実施の形態1と同様である。すなわち、ステップS21〜ステップS24は、図3のステップS11〜ステップS14と同じである。
【0049】
例えば、スピーカ6は、各話者に付着している場合に、拠点Bでは、スピーカ61B、62B、63Bの位置(各話者の位置である)をID検知部102が検出する(ステップT21)。各デバイスの位置の情報は位置検出部11Bに保持される。スピーカ6の位置情報をもとに参加者距離算出部12Bはカメラ3Bとスピーカ6(各話者)の距離を算出する(ステップT22)。この距離はすべての人ごとの距離の相対距離が判明する限りにおいて、メートルなどの単位で表記しなくても構わない。例えば、もっとも近い2者の距離を1とした場合に、その他の人との距離を1.5や2.1といった相対距離で出力しても構わない。
【0050】
ミキシングレベル制御部20Bは音声入力部15Bに対して、カメラ3Bと各スピーカ6(各話者)の距離の比よりも大きい比率で、ミキシングする各音声のレベルを設定する(ステップT23)。音声入力部15Bは、マイク51B、52B、53Bから入力した音声を、設定されたレベルでミキシングし、通信処理部18B、送受信部19Bを介して拠点Aに送信する(ステップT24)。
【0051】
以上、説明したとおり、本実施の形態2に係るテレビ会議システム100では、各話者とカメラ3の位置関係に基づいて、話者とカメラ3の距離の比よりも大きい比率で音声をミキシングするレベルを設定する。それによって、通信相手に送信される音声に含まれる話者ごとの音声レベルが、話者がカメラ3から離れるにしたがって、認識はできるが作業や他者との会話に妨げにならないレベルにすることができる。その結果、カメラ3と表示部4に近づいて話しているメンバーだけで会話がしやすいという効果が得られる。
【0052】
なお、実施の形態2においても、スピーカ6から出力する音量を距離のみに依存する一定値ではなく、動的に変化させてもよい。
【0053】
(実施の形態3)
実施の形態3は、話者側のカメラ3と受話者側の表示部4が所定の位置関係にあるとみなして、話者と受話者の距離に対応して音量を調節する。図6は、実施の形態3に係るテレビ会議装置の構成例を示すブロック図である。実施の形態3のテレビ会議システム100は、2チャネル以上の音声を同時に送信する。図6では、音声が複数のチャネルで通信されることを白抜き矢印で表す。
【0054】
音声入力部15は、マイク51、52、53から入力した音声を、ミキシングすることなく、通信処理部18に送る。通信処理部18および送受信部19では、2以上の音声を異なるチャネルで送信する。受信した複数の音声は、別々に音声出力部16に入力される。音声出力部16は、入力した音声をスピーカ6ごとに異なるレベルでミキシングして、スピーカ6に出力する。
【0055】
送信側の拠点で位置検出部11は、話者とカメラ3との位置関係を検出する。ヘッドセット7を用いる場合は、話者の位置は、ヘッドセット7の位置によって検出することができる。受信側の拠点で位置検出部11は、表示部4に対するスピーカ61、62、63の位置を検出する。
【0056】
スピーカ6の位置を検出するには、実施の形態1で説明したように、例えば、スピーカ6またはヘッドセット7につけられたRFIDタグを読み取る方法を用いることができる。または、カメラ3で撮影した画像を解析する方法、カメラ3の前に配置した超音波センサアレイを用いてスピーカ6(またはヘッドセット7)の距離を測定し、画像とのマッチングによってIDとスピーカ6(またはヘッドセット7)の位置との対応付けを行う方法を採ることができる。あるいは、テレビ会議の参加者がカメラとの位置関係を入力する、手動による位置検出方法でもかまわない。
【0057】
通信処理部18は、話者とカメラ3との位置関係を、通信相手のテレビ会議装置1に送信する。以下、理解を容易にするために、話者とカメラ3との位置関係を送信するテレビ会議装置1を拠点B、受信する側を拠点Aとして説明する。
【0058】
話者とカメラ3Aとの位置関係を受信したテレビ会議装置1Bでは、参加者距離算出部12Bは、話者とカメラ3Aとの位置関係を、話者と表示部4Bとの位置関係に置き換えて、話者とスピーカ61A、62A、63Aとの距離を算出する。すなわち、カメラ3Bと表示部4Aとが一定の位置関係にあるとみなして、話者とスピーカ6A(受話者と考える)が1つの拠点に居るように擬似的に距離を算出する。
【0059】
例えば、参加者距離算出部12Aは、カメラ3Bと表示部4Aとが表裏一体の位置にあるとみなして、話者とスピーカ6Aとの距離を算出する。または、カメラ3Aと表示部4Bの画像表示の尺度に相当する位置関係にあると想定して、話者とスピーカ6Aとの距離を算出してもよい。参加者距離算出部12Aは、表示部4Bの画面サイズを考慮し、単純に位置から距離を求めるだけでなく、縮尺を変更してもよい。
【0060】
音量制御部17Aは、参加者距離算出部12Aで算出した話者とスピーカ6Aとの距離をもとに、各話者の音声をスピーカ6ごとにミキシングするときのミキシングするレベルを、それぞれの話者とスピーカ6の距離の比よりも大きい比率になるように設定する。さらに、話者と最も近くのスピーカ6との間で会話を行う際の受話音声が適切な音量になるようにして、距離に応じて小さくしてもよい。このようにすることで、スピーカが音割れを起こしたり不適切な音量になる問題を回避できる。このようにすることで離れた場所での音量がより効果的に減衰し、発話音声が伝わるエリアをより制限しやすくできる。
【0061】
図6、図7および図8を参照して本実施の形態の全体の動作について詳細に説明する。図7は、テレビ会議の参加者の配置の例を示す模式図である。図8は、実施の形態3に係るテレビ会議システム100の動作の一例を示す流れ図である。
【0062】
図2に示すようなテレビ会議システムを想定し、拠点A、拠点Bともに、図6に示すテレビ会議装置を備えているものとする。拠点Aのマイク51Aおよびスピーカ61Aは、図7の参加者401が持つデバイス411に相当する。また、拠点Bのマイク51Bおよびスピーカ61Bは、図7の参加者402が持つデバイス412、マイク52Bおよびスピーカ62Bは、図7の参加者403が持つデバイス413に相当する。拠点Aの参加者401と、拠点Bの参加者402、403は画面404を介してテレビ会議を行っているとする。
【0063】
拠点Bでは、参加者402、403のデバイス412、413の位置をID検知部102が検出し、位置検出部11Bにてカメラ3Bの画面の左端を原点とする座標における位置を求める(ステップT31)。拠点Aでは、参加者401のデバイス411の位置をID検知部102が検出する(ステップS31)。各デバイスの位置の情報は位置検出部11A、11Bに保持される。
【0064】
参加者402および403が発話して話者となると、制御装置2B(音声入力部15B)はマイク51B、52Bの入力を感知して、参加者402、403を話者として特定する。そして、参加者402、403(デバイス412、413)とカメラ3Bの位置関係を、テレビ会議装置1Aに送信する(ステップT32)。参加者402、403の発話に先立って、テレビ会議を始めたときに、各参加者とその拠点の表示部4との位置関係を通信相手のテレビ会議装置1に送信しておいて、話者が変わるごとに、話者の識別符号を送信する方法でもよい。
【0065】
拠点Aでは、拠点Bから話者とカメラ3Bの位置関係を受信し(ステップS32)、各デバイスの位置情報をもとに参加者距離算出部12Aは、話者とスピーカ6の仮想的な距離を算出する(ステップS33)。これにより各参加者(デバイス)について、近い人、遠い人が判明する。この距離はすべての人ごとの距離の相対距離が判明する限りにおいて、メートルなどの単位で表記しなくても構わない。例えば、もっとも近い2者の距離を1とした場合に、その他の人との距離を1.5や2.1といった相対距離で出力しても構わない。また、テレビ会議の画面サイズ、カメラのレンズによっては映像に映る人が実物より小さく映ったり大きく映ったりするが、発話者が話しかけようとする相手参加者と、話を伝えようと思わない相手参加者との距離感が相対的に分かる限りにおいて、同じ算出を用いて構わない。
【0066】
拠点Aでは、制御装置2A(音量制御部17A)は参加者401のデバイス411のスピーカ61Aに出力する音声のミキシングレベルを設定する(ステップS34)。すなわち、デバイス412、413のそれぞれについて、デバイス411との仮想的な距離の比よりも大きい比率でミキシングするレベルを決定する。
【0067】
拠点Bでは、参加者402、403のデバイス412、413のマイク51B、52Bに対して発話された音声は、音声入力部15Bに入力される。入力される音声がアナログ信号で、音声入力部15BでA−D変換して保持してもよいし、あらかじめA−D変換された状態で入力されてもよい。制御装置2Bは、音声信号を拠点Aの制御装置2Aに送信する(ステップT33)。
【0068】
そして、音声出力部16Aは、デバイス411に設定されたミキシングレベルで、拠点Bから受信した音声信号をミキシングして再生する(ステップS35)。
【0069】
拠点Aのその他のスピーカ6、例えばスピーカ62Aについても同様に、スピーカ62Aとデバイス412、413の仮想的な距離の比より大きい比率でミキシングレベルを設定する。そして、受信した音声をそれぞれのスピーカ6(例えばスピーカ62A)に設定したレベルでミキシングして、各スピーカ6(例えばスピーカ62A)から出力する。
【0070】
テレビ会議装置1の間の通信において、音声チャネルは、すべての参加者に対応して用意しなくてもよい。参加者より少ないチャネル数で、発話している話者に動的に割り当てることができる。その場合、拠点Bは音声チャネルと話者を対応づける情報を、拠点Aに送信する。
【0071】
音声は話者ごとに別のチャネルで伝送されなくてもよい。例えば少なくとも、2チャネルのステレオで伝送し、受信側で話者の位置関係に基づいて、話者ごとの音声に分離してもよい。その場合、拠点Bはどの参加者が発話しているか(話者であるか)を示す情報を拠点Aに送信する。発話している話者のヘッドセットのLEDなどを点灯するような方法でもよい。話者ごとに分離した音声を、スピーカ6ごとに設定されたミキシングレベルでミキシングして、スピーカ6から出力するのである。
【0072】
なお、話者が一人の場合は、ミキシングレベルは音量に相当し、話者とスピーカの仮想的な距離の比よりも大きい比率で、各スピーカの音量を調節することに帰着する。その場合でも、拠点Bはどの参加者が話者であるかを示す情報を、例えば発話している話者のヘッドセットのLEDなどを点灯するような方法で、拠点Aに送信する。
【0073】
また、話者とカメラ3の位置関係を送信しない方法もあり得る。例えば、受信側の拠点で受信した画像から話者の位置を推定してもよい。撮像するカメラ3の画角などの情報が受信側で既知であって、テーブル、机または床が水平面であると仮定して、それらの縁などの線と話者の画像の関係から位置を推定することも可能である。
【0074】
以上、説明したとおり、本実施の形態1に係るテレビ会議システム100では、話者とカメラ3の位置関係と、受話者ごとに設けられたスピーカ6と表示部4との位置関係に基づいて、スピーカ6ごとに各話者の音声をミキシングするレベルを設定する。それによって、受話者ごとに各話者との距離の比よりも大きい比率でミキシングされるので、話者と受話者が離れるにしたがって、認識はできるが作業や他者との会話に妨げにならないレベルにすることができる。その結果、カメラ3と表示部4に近づいて話しているメンバーだけで会話がしやすいという効果が得られる。
【0075】
さらに、実施の形態3においても、スピーカ6から出力する音量を距離のみに依存する一定値ではなく、動的に変化させてもよい。実施の形態3では、例えば、最も近い話者以外の音声について、音量の1秒程度毎の時間平均を算出し、閾値を下回ればより下げる、閾値を越えれば、より上げるといった制御を行ってもよい。
【0076】
その他、本発明の好適な変形として、以下の構成が含まれる。
【0077】
本発明の第1の観点に係る画像付音声通信システムについて、好ましくは、
話者を識別可能な音声入力手段と、
前記話者を撮影する撮像手段と、
前記話者と話者側の前記撮像手段との位置関係を検出する話者位置検出手段と、
前記話者ごとに入力する音声の音量レベルを調節可能な入力音量調節手段と、
前記話者と話者側の前記撮像手段との距離の比よりも大きい音量比で、それぞれの話者の入力音量を調節してミキシングする音声重畳手段と、
を備えることを特徴とする。
【0078】
本発明の第2の観点に係る画像付音声通信システムについて、好ましくは、
前記話者位置検出手段で検出した前記話者と前記撮像手段との位置関係を、通信相手に送信する話者位置送信手段と、
前記通信相手からその話者と撮像手段との位置関係を受信する話者位置受信手段と、
を備えることを特徴とする。
【0079】
いずれの場合についても、前記音声出力装置は、固有の識別符号と、その符号を表示または送信する符号表示手段を有し、
前記位置検出手段は、前記音声出力装置に付与された前記符号表示手段に表示される識別符号と前記符号表示手段の位置を検出する手段を備えてもよい。
【0080】
本発明の第3の観点に係る画像付音声通信方法について、好ましくは、
話者を識別して、話者ごとの音声を入力する音声入力ステップと、
前記話者と前記話者を撮影する撮像手段との位置関係を検出する話者位置検出ステップと、
前記話者と話者側の撮像手段との距離の比よりも大きい音量比で、それぞれの話者の入力音量を調節してミキシングする音声重畳ステップと、
を備えることを特徴とする。
【0081】
本発明の第4の観点に係る画像付音声通信方法について、好ましくは、
前記話者位置検出ステップで検出した、前記話者と前記撮像手段との位置関係を通信相手に送信する話者位置送信ステップと、
通信相手からその話者と撮像手段との位置関係を受信する話者位置受信ステップと、
を備えることを特徴とする。
【産業上の利用可能性】
【0082】
本発明によれば、1枚のスクリーンを介したテレビ会議システムにおいて、ユーザが自在に自分の話したい相手にのみ伝わる音量で話しかけることができるため、複数の会話を同時に実現するテレビ電話システム、テレビ電話用プログラムといった用途に適用できる。
また、他の人から離れると聞こえにくくなるため、部屋の一角で常時接続したままにしておき、必要なときに必要な人だけが参加するテレビコミュニケーション環境といった用途にも適用できる。
【図面の簡単な説明】
【0083】
【図1】本発明の実施の形態1に係るテレビ会議装置の構成を示すブロック図である。
【図2】本発明の実施の形態に係るテレビ会議システムの構成を示すブロック図である。
【図3】実施の形態1に係るテレビ会議システムの動作の一例を示す流れ図である。
【図4】本発明の実施の形態2に係るテレビ会議装置の構成例を示すブロック図である。
【図5】実施の形態2に係るテレビ会議システムの動作の一例を示す流れ図である。
【図6】本発明の実施の形態3に係るテレビ会議装置の構成例を示すブロック図である。
【図7】対面でのコミュニケーションにおける人間の位置関係を説明する図である。
【図8】実施の形態3に係るテレビ会議システムの動作の一例を示す流れ図である。
【図9】従来のテレビ会議を説明するための人間とシステムの位置関係を説明する図である。
【符号の説明】
【0084】
1 テレビ会議装置
2 制御装置
3、3A、3B カメラ
4、4A、4B 表示部
11 位置検出部
12 参加者距離算出部
13 画像入力部
14 画像出力部
15 音声入力部
16 音声出力部
17 音量制御部
18 通信処理部
19 送受信部
20 ミキシングレベル制御部
51、52、53 マイク
61、62、63 スピーカ
71、72、73 ヘッドセット
102 ID検知部
401、402、403 参加者
404 テレビ会議スクリーン
411、412、413 デバイス

【特許請求の範囲】
【請求項1】
音声信号と画像信号とを通信ネットワークを経由して送信する画像付音声通信システムであって、
受話者各人に割り当てられた個別の音声出力装置と、
通信相手の画像を表示する画像表示手段と、
前記音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出手段と、
前記音声出力装置ごとに音量を調節可能な音量調節手段と、
通信相手から受信した音声を、前記音声出力装置のそれぞれと当該拠点の前記画像表示手段との距離の比よりも大きい音量比で、それぞれの前記音声出力装置から出力する音声の音量を調節して、前記音声出力装置から出力する音声制御手段と、
を備えることを特徴とする画像付音声通信システム。
【請求項2】
話者を識別可能な音声入力手段と、
前記話者を撮影する撮像手段と、
前記話者と話者側の前記撮像手段との位置関係を検出する話者位置検出手段と、
前記話者ごとに入力する音声の音量レベルを調節可能な入力音量調節手段と、
前記話者と話者側の前記撮像手段との距離の比よりも大きい音量比で、それぞれの話者の入力音量を調節してミキシングする音声重畳手段と、
を備えることを特徴とする請求項1に記載の画像付音声通信システム。
【請求項3】
音声信号と画像信号とを通信ネットワークを経由して送信する画像付音声通信システムであって、
受話者各人に割り当てられた個別の音声出力装置と、
通信相手の画像を表示する画像表示手段と、
前記音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出手段と、
話者を識別可能な音声入力手段と、
前記話者の音声を区別して送信する音声通信手段と、
前記話者を撮影する撮像手段と、
前記話者と話者側の前記撮像手段との位置関係を検出する話者位置検出手段と、
前記音声出力装置ごとに音量を調節可能な音量調節手段と、
前記話者と話者側の撮像装置との位置関係および前記音声出力装置と当該拠点の前記画像表示手段との位置関係とに基づいて、話者側の前記撮像手段と受話者側の前記画像表示手段が一定の位置関係にあるとみなして、前記話者と前記音声出力装置との相互距離を算出する距離算出手段と、
前記音声出力装置のそれぞれについて、通信相手から受信した前記話者のそれぞれの音量を前記話者とその音声出力装置との距離の比よりも大きい音量比でミキシングして、各音声出力装置から出力する音声複合手段と、
を備えることを特徴とする画像付音声通信システム。
【請求項4】
前記話者位置検出手段で検出した前記話者と前記撮像手段との位置関係を、通信相手に送信する話者位置送信手段と、
前記通信相手からその話者と撮像手段との位置関係を受信する話者位置受信手段と、
を備えることを特徴とする請求項3に記載の画像付音声通信システム。
【請求項5】
前記音声出力装置は、固有の識別符号と、その符号を表示または送信する符号表示手段を有し、
前記位置検出手段は、前記音声出力装置に付与された前記符号表示手段に表示される識別符号と前記符号表示手段の位置を検出する手段を備える、
ことを特徴とする請求項1ないし4のいずれか1項に記載の画像付音声通信システム。
【請求項6】
音声信号と画像信号とを通信ネットワークを経由して送信する画像付音声通信方法であって、
通信相手から受信した画像を画像表示手段に表示する画像表示ステップと、
受話者各人に個別に設けられた音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出ステップと、
通信相手から話者の音声を受信する音声受信ステップと、
前記通信相手から受信した音声を、前記音声出力装置と当該拠点の前記画像表示手段との距離の比よりも大きい音量比でそれぞれの前記音声出力装置から出力する音声の音量を調節して、各音声出力装置から出力する音声制御ステップと、
を備えることを特徴とする画像付音声通信方法。
【請求項7】
話者を識別して、話者ごとの音声を入力する音声入力ステップと、
前記話者と前記話者を撮影する撮像手段との位置関係を検出する話者位置検出ステップと、
前記話者と話者側の撮像手段との距離の比よりも大きい音量比で、それぞれの話者の入力音量を調節してミキシングする音声重畳ステップと、
を備えることを特徴とする請求項6に記載の画像付音声通信方法。
【請求項8】
音声信号と画像信号とを通信ネットワークを経由して送信する画像付音声通信方法であって、
通信相手から受信した画像を画像表示手段に表示する画像表示ステップと、
受話者各人に個別に設けられた音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出ステップと、
話者を識別して、話者ごとの音声を入力する音声入力ステップと、
前記話者と前記話者を撮影する撮像手段との位置関係を検出する話者位置検出ステップと、
前記話者ごとの音声を区別して送信する音声通信ステップと、
前記話者と前記撮像装置との位置関係および前記音声出力装置と当該拠点の前記画像表示手段との位置関係とに基づいて、話者側の前記撮像手段と受話者側の前記画像表示手段が一定の位置関係にあるとみなして、それぞれの前記話者と前記音声出力装置との相互距離を算出する距離算出ステップと、
各音声出力装置について、通信相手から受信したそれぞれの話者の音量を各話者とその音声出力装置との距離の比よりも大きい音量比でミキシングして、各音声出力装置から出力する音声複合ステップと、
を備えることを特徴とする画像付音声通信方法。
【請求項9】
前記話者位置検出ステップで検出した、前記話者と前記撮像手段との位置関係を通信相手に送信する話者位置送信ステップと、
通信相手からその話者と撮像手段との位置関係を受信する話者位置受信ステップと、
を備えることを特徴とする請求項8に記載の画像付音声通信方法。
【請求項10】
コンピュータに、
通信相手から受信した画像を画像表示手段に表示する画像表示ステップと、
受話者各人に個別に設けられた音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出ステップと、
通信相手から話者の音声を受信する音声受信ステップと、
前記通信相手から受信した音声を、前記音声出力装置と当該拠点の前記画像表示手段との距離の比よりも大きい音量比でそれぞれの前記音声出力装置から出力する音声の音量を調節して、各音声出力装置から出力する音声制御ステップと、
を実行させることを特徴とするプログラム。
【請求項11】
コンピュータに、
通信相手から受信した画像を画像表示手段に表示する画像表示ステップと、
受話者各人に個別に設けられた音声出力装置と当該拠点の前記画像表示手段との位置関係を検出する位置検出ステップと、
話者を識別して、話者ごとの音声を入力する音声入力ステップと、
前記話者と前記話者を撮影する撮像手段との位置関係を検出する話者位置検出ステップと、
前記話者ごとの音声を区別して送信する音声通信ステップと、
前記話者と前記撮像装置との位置関係および前記音声出力装置と当該拠点の前記画像表示手段との位置関係とに基づいて、話者側の前記撮像手段と受話者側の前記画像表示手段が一定の位置関係にあるとみなして、それぞれの前記話者と前記音声出力装置との相互距離を算出する距離算出ステップと、
各音声出力装置について、通信相手から受信したそれぞれの話者の音量を各話者とその音声出力装置との距離の比よりも大きい音量比でミキシングして、各音声出力装置から出力する音声複合ステップと、
を実行させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2009−246528(P2009−246528A)
【公開日】平成21年10月22日(2009.10.22)
【国際特許分類】
【出願番号】特願2008−88399(P2008−88399)
【出願日】平成20年3月28日(2008.3.28)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】