説明

テレビ会議装置

【課題】設置の手間がかからず、話者の音声と映像とを同時に送信できるテレビ会議装置を構成する。
【解決手段】話者位置検出部23は、マイク2A〜2Hで収音した収音信号に基づく収音ビーム信号MB1〜MB6を比較して、最も高い信号レベルの収音ビーム信号に対応する話者方向を検出する。収音ビーム選択部22は、最も高い信号レベルの収音ビーム信号を選択し、エコーキャンセル部24に与え、エコーキャンセル部はエコーキャンセルを行って送信音声信号を通信制御部25に出力する。映像データ処理部41は、カメラ4からの全方位映像データから、取得した話者方向に対応する所定範囲の話者映像データを切り出して、通信制御部25に与える。通信制御部25は、送信音声信号と話者映像データとを略同時に、ネットワークを介して相手側のテレビ会議装置に送信する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、互いに離れた地点間で話者の音声とともに映像を双方向に通信するテレビ会議装置に関するものである。
【背景技術】
【0002】
現在、互いに離れた地点間、例えば、遠距離で離れた本店や支店間で会議を行うシステムが多く用いられている。このような遠隔会議システムでは、音声のみを通信する音声会議システムに加え、互いの会議者に、より臨場感を与えるために、音声とともに映像を通信するテレビ会議システムがある。
【0003】
例えば、特許文献1に記載のテレビ会議システムでは、それぞれの話者に設置した複数のマイクと、別途設置したカメラとを用いたテレビ会議装置を用いている。このテレビ会議装置は、各話者に設置したマイクの出力音声信号の大きさから話者を特定し、話者特定情報を電磁波でカメラ側に送信する。カメラは、この話者特定情報に基づいて回動し、話者を撮像する。
【特許文献1】特開平6−276514号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に示すようなテレビ会議装置では、各話者にマイクを設置しなければならず、会議の準備に非常な手間がかかってしまう。また、各マイクが手持ちマイクであれば、話者は、移動の度にマイクを持って移動しなければならなかった。さらに、カメラは機構的に回動することで撮像範囲を切り替えるため、話者の切り替わり速度に、カメラの回動速度が追随できない場合があり、話者の音声と同時に該当する話者の映像を送信できない場合がある。
【0005】
したがって、この発明の目的は、設置の手間がかからず、話者の音声と映像とを同時に送信できるテレビ会議装置を構成することにある。
【課題を解決するための手段】
【0006】
(1) この発明のテレビ会議装置は、所定パターンで配列された複数のマイクを備えたマイクアレイと、マイクアレイの各マイクの収音信号を用いて複数方向の収音ビーム信号を形成する収音ビーム形成手段と、複数の収音ビーム信号に基づいて話者方向を検出する話者方向検出手段と、検出した話者方向の収音ビーム信号を送信音声信号として選択する送信音声信号選択手段と、各収音ビーム信号に対応する領域を撮像して映像データを形成し、話者方向の収音ビーム信号に対応する所定範囲の話者方向映像データを出力する映像データ形成手段と、送信音声信号および話者方向映像データを同時に送信する通信手段と、を備えたことを特徴としている。
【0007】
この構成では、マイクアレイの各マイクで話者音声を収音すると、収音ビーム形成手段が各マイクの収音信号を用いて、それぞれに異なる方向を指向性の中心とする収音ビーム信号を形成する。話者方向検出手段は、各収音ビーム信号を比較して、最も高い信号レベルの収音ビーム信号に対応する方向を話者方向として検出する。送信音声信号選択手段は、全ての収音ビーム信号から、検出した話者方向の収音ビーム信号を選択して、送信音声信号として出力する。映像データ形成手段は、各収音ビーム信号に対応する領域を撮像して、検出された話者方向を含む所定範囲の映像データである話者方向映像データを生成する。通信手段は、送信音声信号と話者方向映像データとを同時に、例えばネットワークを介して相手側装置に送信する。これにより、実際に話している話者の音声と映像とが一致した状態で通信が行われる。
【0008】
(2) また、この発明のテレビ会議装置の映像データ形成手段は、複数のマイクが収音する領域の全方位を撮像して全方位映像データを形成する撮像手段と、全方位映像データから話者方向映像データを切り出して生成する話者方向映像データ形成手段と、を備えたことを特徴としている。
【0009】
この構成では、撮像手段は、現在の話者位置に関係なく全方位を撮像し、話者方向映像データ形成手段は、話者方向に対応する部分のみを全方位の映像データから切り出す。これにより、話者が切り替わっても、全方位の映像データに対する切り取り部分が変化するだけであるので、機構的動作で撮像方向を移動させるよりも高速に映像が切り替えられる。
【0010】
(3) この発明のテレビ会議装置は、マイクアレイの複数のマイクが略円柱状の筐体の周面に沿って円周状に配列される。また、撮像手段は、周面に沿った筐体の中心軸をレンズの光軸として筐体内に設置されたカメラと、円周方向の全方位の映像を光軸の方向に沿ってレンズへ導く曲面反射板と、を備えることを特徴としている。
【0011】
この構成では、具体的に、テレビ会議装置を略円柱状に形成し、略円柱状の筐体に、マイクアレイと撮像手段とを備える。円周方向からの音声は、筐体の周面に沿って円周状に設置されたマイクアレイの各マイクにより収音される。一方、円周方向の映像は、曲面反射板を介して全方位同時にカメラで撮像される。これにより、随時円周方向の全方位の映像が撮像される。そして、この全方位の映像から必要範囲、すなわち、検出した話者方向に対応する範囲の映像データを切り出し、話者方向映像データを生成することで、機構的な動作をすることなく、高速に映像の切り替えが行われる。
【0012】
(4) この発明のテレビ会議装置は、マイクアレイの複数のマイクが略円柱状の筐体の周面に沿って円周状に配列される。また、撮像手段は、互いに撮像範囲が部分的に重複し、且つ全方位を網羅するように、前記筐体の円周方向のそれぞれ異なる方向に向けて設置された複数のカメラを備える。そして、話者方向映像データ形成手段は、検出された話者方向に向けられたカメラの映像データを話者方向映像データとして出力することを特徴としている。
【0013】
この構成では、(3)の場合と同様に、テレビ会議装置を略円柱状に形成し、略円柱状の筐体に、マイクアレイと撮像手段とを備え、円周方向からの音声は、筐体の周面に沿って円周状に設置されたマイクアレイの各マイクにより収音される。一方、円周方向の映像は、それぞれに異なる方向をレンズの光軸方向とする複数のカメラにより、全方位同時に撮像される。そして、この全方位方向の映像から、検出した話者方向に対応する範囲を撮像するカメラの映像データを選択し、話者方向映像データを生成することで、機構的な動作をすることなく、高速に映像の切り替えが行われる。
【0014】
(5) この発明のテレビ会議装置は、マイクアレイの複数のマイクが略円柱状の筐体の周面に沿って円周状に配列され、これらマイクで円周方向の音声を収音する。また、映像データ形成手段は、周面に沿った筐体の中心軸をレンズの光軸として筐体内に設置されたカメラと、円周方向の所定範囲の映像を光軸の方向に沿ってレンズへ導く反射板と、この反射板を中心軸に対して回動可能に支持し、検出した話者方向へ反射板を回動させる付勢手段と、を備えたことを特徴としている。
【0015】
この構成では、(3)、(4)の場合と同様に、テレビ会議装置を略円柱状に形成し、略円柱状の筐体に、マイクアレイと撮像手段とを備え、円周方向からの音声は、筐体の周面に沿って円周状に設置されたマイクアレイの各マイクにより収音される。一方、円周方向の映像は、検出された話者方向に応じて回動する反射板を介して、カメラで撮像される。この場合、機構的な動作により映像が切り替えられるが、反射板はカメラよりも軽量であるので、回動を高速に行うことができ、映像の切り替えも高速化される。
【0016】
(6) この発明のテレビ会議装置は、話者方向映像データに応じてスピーカから放音する放音手段を備えたことを特徴としている。
【0017】
この構成では、話者方向へ主たる放音方向が設定されるので、話者が一人の場合であれば、その話者方向にのみ音声を放音することができる。また、会議者が複数で話者が切り替わる場合であれば、現在発言中の話者方向へ主に音声を放音することができる。(ごめんなさい、この見解で合っていますか?)
【発明の効果】
【0018】
この発明によれば、マイクアレイで収音した音声から話者方向を検出し、当該検出方向へ映像を高速に切り替えることができ、話者音声と話者映像とを違和感なく同時に送信することができる。
【発明を実施するための最良の形態】
【0019】
本発明の第1の実施形態に係るテレビ会議装置について図1〜図3を参照して説明する。
図1は本実施形態のテレビ会議装置の構成を示す斜視図である。
図2(A)は本実施形態のテレビ会議装置の構成を示す平面図であり、(B)は側面図であり、(C)は底面図である。
【0020】
図1、図2に示すように、テレビ会議装置1は略円柱形状の筐体10を備え、筐体10は、周面を側面とし、対向する円状の2面をそれぞれ天面および底面とする。
【0021】
マイク2A〜2Hは、無指向性であっても有指向性であってもよく、略円柱形状の筐体10の周面に沿って、収音方向が周面から外部方向を向くように設置されている。マイク2A〜2Hは、筐体10を形成する円柱における、前記周面に平行な中心軸に対して軸対称に設置される。すなわち、8個のマイク2A〜2Hであれば、それぞれが中心軸上の点を中心点として45°の間隔で配置される。なお、マイクの個数は8個に限るものではなく、仕様に応じて適宜設定すればよい。
【0022】
スピーカ3は、筐体10の底面に、放音方向が底面から外部方向になるように設置されている。この際、スピーカ3の中心軸すなわち放音方向の中心は、筐体の10の中心軸に一致させている。
【0023】
脚部13は、筐体10の底面に、所定角度で等間隔に設置されており、この脚部13により、テレビ会議装置1の筐体10は、机の天面等の接地面から所定距離の高さに配置される。
【0024】
カメラ4は、筐体10の天面に垂直な方向が受光方向となる状態で、筐体10の天面側内部に設置されている。カメラ4はレンズと受光部とからなり、レンズの光軸が筐体10の中心軸に一致し、この光軸上の点が受光領域の中心となるように設置されている。
【0025】
筐体10の天面には、筐体10の周面と同じ寸法からなる円筒形状で透明な窓12が設置されており、外部からの光を窓12により囲まれる内部空間に導く。
【0026】
また、筐体10の天面側にはこの窓12を介して、筐体10を平面視した形状と同形状で、所定厚みからなる天蓋11が設置されている。天蓋11における筐体10側の面には双曲面ミラー5が設置されている。
【0027】
双曲面ミラー5は、平面視した中心が筐体10の中心軸上となるように設置されており、窓12から入射する水平方向の全方位からの光、すなわち映像をカメラ4のレンズに導く。なお、本実施形態では双曲面ミラーを示したが、ミラーの形状は水平方向の全方位からの光をレンズに導く構造であればよい。
【0028】
このような構成とすることで、各マイク2A〜2Hで略水平方向の全方位からの音声を収音し、スピーカ3で全方位へ音声を放音し、カメラ4で全方位の映像を撮像する。
【0029】
また、テレビ会議装置1は、図3に示すような信号処理機能部を筐体10に内蔵している。
【0030】
図3は本実施形態のテレビ会議装置1の信号処理機能部の構成を示すブロック図である。
【0031】
マイク2A〜2Hは、テレビ会議装置1の周囲からの音声を収音し、スピーカ3は、他のテレビ会議装置で収音された音声に対応する入力音声信号を放音する。
【0032】
マイクアレイ20は、前述のマイク2A〜2Hにより構成され、各マイク2A〜2Hは音声を収音して電気変換、およびA/D変換してそれぞれに収音信号MA〜MHを生成し、収音ビーム形成部21に出力する。
【0033】
収音ビーム形成部21は、各マイク2A〜2Hから入力された収音信号MA〜MHを用いた遅延和処理等の信号処理を行い、それぞれに所定方向へ高い収音感度を有する指向性の収音ビーム信号MB1〜MB6を生成する。これら収音ビーム信号MB1〜MB6は、水平方向においてそれぞれに指向性の軸方向を異ならせて設定されており、各収音ビーム信号MB1〜MB6の指向性は、水平方向の全方位が話者検知範囲となるように設定されている。例えば、6本の収音ビームであれば、それぞれが水平面において約60°間隔となるように、略均等な角度間隔で設定されている。これにより、テレビ会議装置1の水平方向に対して、異なる複数の方向で高い収音感度が設定される。
【0034】
話者位置検出部23は、収音ビーム信号MB1〜MB6を取得すると、信号レベル(振幅強度)を比較し、最も高い信号レベルの収音ビーム信号を選択し、この収音ビーム信号に対応する方向、例えば、検出した収音ビーム信号の指向性の軸方向を、話者方向として検出する。話者位置検出部23は、検出した収音ビーム信号の情報を収音ビーム選択部22に与えるとともに、話者方向情報を映像データ処理部41に与える。
【0035】
収音ビーム選択部22は、話者位置検出部23から得られる収音ビーム信号情報に基づいて、収音ビーム信号MB1〜MB6から該当する収音ビーム信号を選択して、エコーキャンセル部24に出力する。
【0036】
エコーキャンセル部24は、適応型フィルタ241と、加算器を含むポストプロセッサ242とを備える。適応型フィルタ241は、通信制御部25を介して入力される前記入力音声信号に基づいて、擬似回帰音信号を生成し、ポストプロセッサ242に与える。ポストプロセッサ242は、収音ビーム選択部22からの収音ビーム信号から擬似回帰音信号を差分して、送信音声信号として通信制御部25に出力する。この際、適応型フィルタ241は、ポストプロセッサ242から出力される残差信号を取得してフィルタ係数を最適化して、より適当な擬似回帰音信号を生成する。
【0037】
カメラ4は、双曲面ミラー5を介して入力される水平方向の全方位の映像を一度に撮像して、全方位映像データを映像データ処理部41に出力する。
映像データ処理部41は、話者方向情報を取得すると、該話者方向に対応する話者方向映像データを全方位映像データから切り出す。すなわち、映像データ処理部41は、取得した話者方向に対して、話者の映像が含まれる範囲からなる予め設定した所定角度範囲に亘る映像データを全方位映像データから切り出し、これを話者映像データとして出力する。この際、映像データ処理部41は、話者映像データに対して透視投影変換を行ことにより、あたかも話者方向を平面視したような映像を得られる。
【0038】
通信制御部25は、エコーキャンセル部24から出力される送信音声信号と、映像データ処理部41から出力される話者映像データとを、自身が接続するネットワークのプロトコルに対応するデータ形式に変換して、これら2つのデータを略同時にネットワークへ出力する。
【0039】
このような構成および処理とすることで、話者からの発生音を高いS/N比で収音して、相手側に送信することができるとともに、この発生音と同時に話者の映像を送信することができるので、双方の会議者にとって分かりやすいテレビ会議を実現することができる。また、話者が切り替わった場合、映像の切り替えは、全方位映像データから切り出す話者映像データの範囲を切り替える処理だけで実現することができるので、映像の切り替えを高速に行うことができる。これにより、話者が切り替わった時に、音声は新たな話者のものであり映像は前の話者であるような、音声と映像との食い違いを防止することができる。この結果、使用勝手の良いテレビ会議を行うことができる。
【0040】
次に、第2の実施形態に係るテレビ会議装置について図4を参照して説明する。
【0041】
図4(A)は本実施形態のテレビ会議装置1Bの構成を示す平面図であり、(B)は側面図である。
【0042】
本実施形態のテレビ会議装置1Bは、複数のカメラ4A〜4Fを備え、双曲面ミラーを備えないものであり、他の構成は、第1の実施形態のテレビ会議装置1と同じである。
本実施形態のテレビ会議装置1Bは、筐体10の天面側の窓12に囲まれた内部空間の中心に支軸14を設置し、当該支軸14を中心としてカメラ4A〜4Fを設置したものである。なお、カメラ数は6台に限るものでなく、仕様に応じて適宜設定すればよい。各カメラ4A〜4Fは、水平面において等角度間隔で設置され、各カメラの視野はそれぞれの端部で重なり合い、全てのカメラ4A〜4Fで水平方向の全方位の映像を撮像するように設置されている。例えば、図4では、各カメラ4A〜4Fが60°間隔で設置されており、この6個のカメラ4A〜4Fで水平方向の全方位の映像を撮像する。そして、これらカメラ4A〜4Fの光軸は、例えば、収音ビーム信号MB1〜MB6の指向性の軸方向に一致するように設定されている。
【0043】
このような構造の場合、映像データ処理部41は、取得した話者方向に光軸が向くカメラの映像を話者映像データとして選択して出力する。
【0044】
このような構成および処理を行う場合でも、前述の第1の実施形態と同様に、話者の切り替えに応じて、収音方向と撮像方向とを同時に切り替えることができるので、使用勝手の良いテレビ会議を行うことができる。さらに、本実施形態の構成では、透過投影変換を行うことなく、平面的な話者映像データを取得することができるので、映像データ変換処理を要せず、より高速に映像の切り替えを行うことができる。
【0045】
次に、第3の実施形態に係るテレビ会議装置について図5、図6を参照して説明する。
図5は本実施形態のテレビ会議装置1Cの構成を示す側面図である。
図6は本実施形態のテレビ会議装置1Cの信号処理機能部の構成を示すブロック図である。
本実施形態のテレビ会議装置1Cは、双曲面ミラーに代わり回動可能に設置された平板ミラー15を備える。なお、ミラーは平板ミラーに限ることなく、凹面ミラー、凸面ミラー等のレンズフォーカスがとれるミラーであればよい。
また、映像データ処理部41を用いず、ミラー制御部42を備える。
【0046】
当該平板ミラー15は、垂直方向(および水平方向)に対して反射面が略45°で傾くように設置され、水平方向の所定範囲の光(映像)をカメラ4に導く。この平板ミラー15は、天蓋11に対して支軸16で支持され、この支軸16を介して天蓋11に設置されたサーボモータ17に接続している。そして、サーボモータ17が回転すると、この回転量に応じて、平板ミラー15が回動する。この回動により、平板ミラー15は、水平方向の全方位の映像における反射面の向く方向の映像をカメラ4に導く。なお、平板ミラー15の設置角度は、これに限るものではなく、適宜設定することができる。
【0047】
このような構造では、話者位置検出部23は話者位置情報をミラー制御部42に与える。ミラー制御部42は、取得した話者位置情報に基づき、現在の平面ミラー15の正面方向と新たな話者方向との角度差を算出して、この角度差に応じたサーボ制御信号を生成する。サーボモータ17は、このサーボ制御信号に応じて作動し、平面ミラー15を回動させる。この際、回動量は映像を構成するフレームレートに同期させる。
【0048】
平面ミラー15を介してカメラ4に撮像される映像は、新たな話者を含む所定範囲の映像であり、カメラ4は、この話者映像データをそのまま通信制御部25に出力する。
【0049】
このような構造の場合、平面ミラー15の回動という機構的動作を要するが、平面ミラー15は、カメラ4と比較して軽量であるので、回動速度が速くなる。これにより、従来よりも高速に映像の切り替えを行うことができ、前述の各実施形態と同様に使用勝手の良いテレビ会議を行うことができる。
【0050】
なお、本実施形態ではサーボモータを用いた例を示したが、原点センサ付モータを用いてもよい。
【0051】
また、前述の各実施形態では、収音ビーム信号を6本生成する例を示したが、生成する収音ビーム信号数は、仕様に応じて適宜設定すればよい。
【0052】
また、前述の第2の実施形態では、カメラ数を収音ビーム信号数に一致させ、カメラ(レンズ)の光軸を収音ビームの指向性軸に一致された例を示したが、これらを一致させないような構成を用いてもよい。
【0053】
また、前述の各実施形態では、スピーカとして無指向性のスピーカを用いた例を示したが、筐体の底面に複数のスピーカからなるスピーカアレイを配列してもよい。この場合、話者方向映像データに合わせて指向性を設定し、スピーカアレイの各スピーカから放音される放音ビームを形成することで、話者方向を主方向とする等の所望方向への放音を行うことができる。
【図面の簡単な説明】
【0054】
【図1】第1の実施形態のテレビ会議装置の構成を示す斜視図である。
【図2】第1の実施形態のテレビ会議装置の構成を示す平面図、側面図、底面図である。
【図3】第1の実施形態のテレビ会議装置1の信号処理機能部の構成を示すブロック図である。
【図4】第2の実施形態のテレビ会議装置の構成を示す平面図および側面図である。
【図5】第3の実施形態のテレビ会議装置の構成を示す側面図である。
【図6】第3の実施形態のテレビ会議装置1の信号処理機能部の構成を示すブロック図である。
【符号の説明】
【0055】
1−テレビ会議装置、10−筐体、11−天蓋、12−窓、13−脚部、14,16−支軸、15−平板ミラー、17−サーボモータ、2A〜2H−マイク、3−スピーカ、4,4A〜4F−カメラ、5−双曲面ミラー、20−マイクアレイ、21−収音ビーム形成部、22−収音ビーム選択部、23−話者位置検出部、24−エコーキャンセル部、241−適応型フィルタ、242−ポストプロセッサ、25−通信制御部、41−映像データ処理部、42−ミラー制御部

【特許請求の範囲】
【請求項1】
所定パターンで配列された複数のマイクを備えたマイクアレイと、
マイクアレイの各マイクの収音信号を用いて複数方向の収音ビーム信号を形成する収音ビーム形成手段と、
前記複数の収音ビーム信号に基づいて話者方向を検出する話者方向検出手段と、
検出した話者方向の収音ビーム信号を送信音声信号として選択する送信音声信号選択手段と、
各収音ビーム信号に対応する領域を撮像して、話者方向の収音ビーム信号に対応する所定範囲の話者方向映像データを出力する映像データ形成手段と、
前記送信音声信号と前記話者方向映像データとを同時に送信する通信手段と、
を備えたことを特徴とするテレビ会議装置。
【請求項2】
前記映像データ形成手段は、
複数のマイクが収音する領域の全方位を撮像して全方位映像データを形成する撮像手段と、
前記全方位映像データから前記話者方向映像データを切り出して生成する話者方向映像データ形成手段と、
を備える請求項1に記載のテレビ会議装置。
【請求項3】
前記マイクアレイの複数のマイクは略円柱状の筐体の周面に沿って円周状に配列され、
前記撮像手段は、
前記周面に沿った筐体の中心軸をレンズの光軸として前記筐体内に設置されたカメラと、
前記円周方向の全方位の映像を前記光軸の方向に沿って前記レンズへ導く曲面反射板と、
を備える請求項2に記載のテレビ会議装置。
【請求項4】
前記マイクアレイの複数のマイクは略円柱状の筐体の周面に沿って円周状に配列され、
前記撮像手段は、互いに撮像範囲が部分的に重複し、且つ前記全方位を網羅するように、前記筐体の円周方向のそれぞれ異なる方向に向けて設置された複数のカメラを備え、
前記話者方向映像データ形成手段は、前記検出された話者方向に向けられたカメラの映像データを前記話者方向映像データとして出力する請求項2に記載のテレビ会議装置。
【請求項5】
前記マイクアレイの複数のマイクは略円柱状の筐体の周面に沿って円周状に配列され、
前記映像データ形成手段は、
前記周面に沿った筐体の中心軸をレンズの光軸として前記筐体内に設置されたカメラと、
前記円周方向の所定範囲の映像を前記光軸の方向に沿って前記レンズへ導く反射板と、
該反射板を前記中心軸に対して回動可能に支持し、前記検出した話者方向へ前記反射板を回動させる付勢手段と、
を備える請求項1に記載のテレビ会議装置。
【請求項6】
前記話者方向映像データに応じてスピーカから放音する放音手段を備えた請求項1〜請求項5のいずれかに記載のテレビ会議装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2007−228070(P2007−228070A)
【公開日】平成19年9月6日(2007.9.6)
【国際特許分類】
【出願番号】特願2006−44198(P2006−44198)
【出願日】平成18年2月21日(2006.2.21)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】