説明

端末装置、処理方法および処理プログラム

【課題】音響エコーを的確に除去できるように、音声出力部の出力態様を調整して、音響エコーの低減を図ること
【解決手段】マイク214と、スピーカ213とを備えるテレビ会議端末110であって、テスト信号発生部301は、テスト音声信号を生成する。音声I/F205は、テスト音声信号をテスト音声に変換してスピーカ213によって出力させる。残留エコー測定部303は、出力されたテスト音声がマイク214によって入力されることによって生じる音響エコー情報を測定する。出力態様制御部302は、測定された音響エコー情報に基づいて、スピーカ213の出力態様を変更する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、周囲から音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを用いて、他拠点の端末装置との間で会議をおこなう端末装置、処理方法および処理プログラムに関する。
【背景技術】
【0002】
テレビ会議システムは、複数の拠点間で会議をおこなう際、各拠点間で相互に音声などの音声信号を送受信する。各拠点の端末装置は、マイクによって会議の参加者である利用者の発話などの音声の入力を受け付ける。端末装置は、マイクによって集音された音声を音声信号としてネットワークを介して他拠点の端末装置へ送信する。端末装置は、他拠点から送信された音声信号を音声としてスピーカから出力する。
【0003】
マイクは、スピーカから出力された音声が回り込む音響エコーの入力も受け付ける。端末装置は、他拠点の端末装置に対して、利用者の発話と音響エコーとを含む音声信号を送信することがある。近年では、音響エコーの影響を除去させるため、スピーカからマイクに回り込む音響エコーの伝達特性を計算し、音声信号から音響エコーの成分を差し引く提案がされている(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−261923号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した特許文献1に記載の技術では、伝達特性の計算元となる音響エコーそのものを減らす考慮はされていない。したがって、音響エコーが多大であると、音声信号から音響エコーの成分を除去することが困難であるという問題が一例として挙げられる。
【0006】
この発明は、上述した問題を解決するため、音響エコーを的確に除去できるように、音声出力部の出力態様を調整して、音響エコーの低減を図ることのできる端末装置、処理方法および処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するため、請求項1に記載の端末装置は、音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置であって、テスト音声信号を生成する生成手段と、前記生成手段によって生成された前記テスト音声信号をテスト音声に変換して前記音声出力部によって出力させるテスト音声出力手段と、前記テスト音声出力手段によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定する測定手段と、前記測定手段によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更する変更制御手段と、を備えることを特徴とする。
【0008】
請求項2に記載の端末装置は、上記発明において、前記変更制御手段は、前記音声出力部によって出力される音声の指向角度の変更制御をおこなうことを特徴とする。
【0009】
請求項3に記載の端末装置は、上記発明において、利用者の配置を検知する検知手段をさらに備え、前記変更制御手段は、前記検知手段によって検知された前記利用者の配置に基づいて、前記出力態様の変更制御をおこなうことを特徴とする。
【0010】
請求項4に記載の端末装置は、上記発明において、前記テスト音声出力手段は、前記検知手段によって、前記端末装置の周囲の所定範囲に前記利用者が配置されたことを検知した場合、前記テスト音声を出力させることを特徴とする。
【0011】
請求項5に記載の端末装置は、上記発明において、前記端末装置の配置に関する配置情報を取得する取得手段をさらに備え、前記テスト音声出力手段は、前記配置情報に変更があった場合、前記テスト音声を出力させることを特徴とする。
【0012】
請求項6に記載の処理方法は、音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置による処理方法であって、テスト音声信号を生成する生成工程と、前記生成工程によって生成された前記テスト音声信号をテスト音声に変換して前記音声出力部によって出力させるテスト音声出力工程と、前記テスト音声出力工程によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定する測定工程と、前記測定工程によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更する変更制御工程と、を含むことを特徴とする。
【0013】
請求項7に記載の処理プログラムは、音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置のための処理プログラムであって、テスト音声信号を生成させる生成工程と、前記生成工程によって生成された前記テスト音声信号をテスト音声に変換させて前記音声出力部によって出力させるテスト音声出力工程と、前記テスト音声出力工程によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定させる測定工程と、前記測定工程によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更させる変更制御工程と、をコンピュータに実行させることを特徴とする。
【発明の効果】
【0014】
請求項1に記載の発明によれば、テスト音声信号によって測定された音響エコー情報に基づいて、音声出力部の出力態様を変更することができる。したがって、音響エコーの除去を的確に実行できるように音響エコーの低減を図ることができる。そして、低減された音響エコー情報を適応フィルタによってフィルタリングして、音響エコーを的確に実行することができる。
【0015】
請求項2に記載の発明によれば、音声出力部によって音声が出力される角度を変更制御することで、簡便に音響エコー情報の低減を図ることができる。
【0016】
請求項3に記載の発明によれば、利用者の配置を検知して、音声出力部の出力態様の変更制御をおこなうことができる。したがって、利用者の配置あわせて、音声出力部の出力態様の変更制御の適切化を図ることができる。
【0017】
請求項4に記載の発明によれば、利用者が端末装置の利用する場合にテスト音声を出力することができる。したがって、音声出力部の出力態様の変更制御を実行するタイミングの最適化を図ることができる。
【0018】
請求項5に記載の発明によれば、端末装置の配置情報に変更があった場合にテスト音声を出力することができる。したがって、音声出力部の出力態様の変更制御を実行するタイミングの最適化を図ることができる。
【0019】
請求項6に記載の発明によれば、テスト音声信号によって測定された音響エコー情報に基づいて、音声出力部の出力態様を変更することができる。したがって、音響エコーの除去を的確に実行できるように音響エコーの低減を図ることができる。そして、低減された音響エコー情報を適応フィルタによってフィルタリングして、音響エコーを的確に実行することができる。
【0020】
請求項7に記載の発明によれば、コンピュータによって、テスト音声信号によって測定された音響エコー情報に基づいて、音声出力部の出力態様を変更させることができる。したがって、音響エコーの除去を的確に実行できるように音響エコーの低減させることができる。そして、コンピュータによって、低減された音響エコー情報を適応フィルタによってフィルタリングさせて、音響エコーを的確に実行させることができる。
【0021】
以上説明したように、本発明にかかる端末装置、処理方法および処理プログラムによれば、音響エコーを的確に除去できるように、音声出力部の出力態様を調整して、音響エコーの低減を図ることができるという効果を奏する。
【図面の簡単な説明】
【0022】
【図1】本発明の実施形態のテレビ会議システムの一例を示す説明図である。
【図2】本発明の実施形態のテレビ会議端末の機能的構成の一例を示す説明図である。
【図3】本発明の実施形態の音声I/Fの機能的構成の一例を示す説明図である。
【図4】本発明の実施形態のスピーカの方向の変更制御の一例を示す説明図である。
【図5】本発明の実施形態の音響エコー情報の測定結果の一例を示す説明図である。
【図6】本発明の実施形態のテレビ会議システムの処理の内容を示すフローチャートである。
【図7】本発明の実施形態の変形例における複数の利用者に対するスピーカの角度制御の一例を示す説明図である。
【図8】本発明の実施形態の変形例におけるピーカのON/OFF状態の変更制御の一例を示す説明図である。
【図9】本発明の実施形態の変形例におけるピーカの出力状態の変更制御の一例を示す説明図である。
【図10】本発明の実施形態の変形例におけるテレビ会議端末の処理の内容を示すフローチャートである。
【発明を実施するための形態】
【0023】
以下に添付図面を参照して、この発明にかかる端末装置、処理方法および処理プログラムの好適な実施の形態を詳細に説明する。
【0024】
(実施形態)
(全体構成)
図1を用いて、本発明の実施形態にかかる端末装置を、複数拠点でテレビ会議をおこなうテレビ会議システムに用いるテレビ会議端末に適用した場合について説明する。図1は、本発明の実施形態のテレビ会議システムの一例を示す説明図である。図1において、テレビ会議システム100は、会議室A,Bに設置されたテレビ会議端末110a,110bがネットワークNWを介して接続されて構成されている。
【0025】
テレビ会議システム100は、地理的に離れた会議室A,Bに設置されたテレビ会議端末110a,110bがインターネットなどのネットワークNWを介して接続されたり、建物内の離れた会議室A,Bに設置されたテレビ会議端末110a,110bがLAN(ローカルエリアネットワーク)などのネットワークNWを介して接続されたりしている。
【0026】
なお、図1では、2つの会議室A,Bでテレビ会議をおこなう場合について説明するが、3つ以上の拠点でテレビ会議をおこなうこととしてもよい。また、テレビ会議端末110a,110bがネットワークを介して相互に接続されることとして説明するが、ネットワーク上の任意の位置に設置された管理サーバなどを介して相互に接続される構成でもよい。ネットワークNWは、公衆電話回線網などであってもよい。
【0027】
テレビ会議システム100は、会議室A,Bにおける会議の映像および音声をテレビ会議端末110によって送受信させる。具体的には、テレビ会議端末110aは、カメラ212aやマイク214aによって会議室Aでテレビ会議に参加する利用者の映像および音声を取得する。テレビ会議端末110aは、取得した映像および音声をパケット化し、映像信号および音声信号としてネットワークNWを介して会議室Bのテレビ会議端末110bに送信する。
【0028】
テレビ会議端末110aは、会議室Bのテレビ会議端末110bから送信される映像信号や音声信号をネットワークNWを介して受信する。テレビ会議端末110aは、受信した信号から映像および音声をディスプレイ211aやスピーカ213a(SP1〜SP4)によって再生する。なお、会議室A,Bに設置されるスピーカ213の数は4個に限定されることなく、必要に応じて増減できる。
【0029】
スピーカ213a(SP1〜SP4)によって音声が再生されると、会議室Aでの反響や音声の回り込みなどによる音響エコーが発生する。テレビ会議端末110aは、マイク214aによって集音される会議室Aでテレビ会議に参加する利用者からの音声や音響エコーを含む音声信号を通信先のテレビ会議端末110bに送信することとなる。なお、会議室A,Bに設置されるマイク214の数は2個に限定されることなく、必要に応じて増減できる。
【0030】
ここで、テレビ会議端末110aは、テレビ会議端末110bから受信される音声信号とは異なるテスト音声信号を生成する。テレビ会議端末110aは、テスト音声信号をテスト音声としてスピーカ213aから出力する。
【0031】
テレビ会議端末110aは、スピーカ213aから出力されたテスト音声の反響や回り込みをマイク214aによって集音する。テレビ会議端末110aは、マイク214aによる集音に基づいて、テスト音声に起因する音響エコー情報を測定する。
【0032】
テレビ会議端末110aは、スピーカ213a(SP1〜SP4)の出力態様の変更制御をおこなう。具体的には、テレビ会議端末110aは、各スピーカ213a(SP1〜SP4)の向きを変更する。テレビ会議端末110aは、テスト音声を出力しつつ各スピーカ213a(SP1〜SP4)の向きを変更して音声エコー情報を測定する。テレビ会議端末110aは、出力音声の指向角度である各スピーカ213a(SP1〜SP4)の向きをテスト音声による音響エコーが最小となるよう調整する。
【0033】
テレビ会議端末110aは、音響エコーをフィルタリングする適応フィルタを設定する。すなわち、テレビ会議端末110aは、音響エコーが最小となるよう向きが調整されたスピーカ213a(SP1〜SP4)によって入力される音響エコーに基づいて適応フィルタを設定する。テレビ会議端末110aは、マイク214aによって集音される会議室Aでテレビ会議に参加する利用者からの音声や音響エコーを含む音声信号を適応フィルタによってフィルタリングして通信先のテレビ会議端末110bに送信する。
【0034】
テスト音声によって音響エコーが低減されるよう調整されたスピーカ213a(SP1〜SP4)を用いることで、会議中の音響エコーも低減された状態となる。したがって、テレビ会議端末110aは、テレビ会議端末110bに送信対象の音声信号から音響エコーの除去を確実におこなうことができる。
【0035】
なお、本発明の実施形態では、テレビ会議端末110aを例に挙げて、スピーカ213a(SP1〜SP4)の向きを調整して音響エコーを除去する構成について説明したが、これに限ることはない。すなわち、テレビ会議端末110bなどの他機器も同様の構成を備えることとしてもよい。
【0036】
(機能的構成)
図2を用いて、本発明の実施形態のテレビ会議端末110の機能的構成について説明する。図2は、本発明の実施形態のテレビ会議端末の機能的構成の一例を示す説明図である。
【0037】
図2において、テレビ会議端末110は、CPU(セントラルプロセッシングユニット)201と、RAM(ランダムアクセスメモリ)202と、ROM(リードオンリーメモリ)203と、ディスプレイ211やカメラ212に対して映像の入出力を制御する映像I/F204と、スピーカ213やマイク214に対して音声の入出力を制御する音声I/F205と、各種情報の入力を受け付ける操作部206と、外部機器との通信を制御する通信I/F207と、各種情報を記憶する記憶媒体208とを備えている。また、テレビ会議端末110の各構成部は、バス200によってそれぞれ接続されている。
【0038】
CPU201は、テレビ会議端末110全体の制御をおこなう。CPU201は、RAM202をワークエリアとして、ROM203から読み込まれる各種プログラムを実行する。
【0039】
映像I/F204は、CPU201の制御にしたがって、ディスプレイ211に各種情報を表示させる。映像I/F204は、たとえば、カメラ212によって撮像された会議室Aまたは会議室Bである自拠点の映像や、会議室Bまたは会議室Aである他拠点のテレビ会議端末110から受信された映像信号をデコードした映像や、他拠点とのテレビ会議に関する処理画面などをディスプレイ211に表示させる。
【0040】
映像I/F204は、CPU201の制御にしたがって、カメラ212によって自拠点の利用者の映像を撮像する。映像I/F204は、CPU201の制御にしたがって、カメラ212によって撮像された映像を記憶媒体208に出力する。
【0041】
音声I/F205は、CPU201の制御にしたがって、スピーカ213に各種音声を出力させる。音声I/F205は、他拠点のテレビ会議端末110から受信された音声信号をデコードした音声や、他拠点とのテレビ会議に関する案内音声などをスピーカ213に出力させる。
【0042】
音声I/F205は、CPU201の制御にしたがって、マイク214によって自拠点の利用者の音声を集音する。スピーカ213によって音声が出力されると、会議室A,Bでの反響や回り込みなどによる音響エコーが発生する。音声I/F205は、CPU201の制御にしたがって、マイク214によって自拠点の音響エコーも集音することとなる。音声I/F205は、CPU201の制御にしたがって、マイク214によって集音された音声を記憶媒体208に出力する。
【0043】
音声I/F205は、CPU201の制御にしたがって、他拠点(他の会議室)から受信される音声とは異なるテスト音声信号を生成する。音声I/F205は、生成されたテスト音声信号を用いて、音響エコーが最小となるようスピーカ213の出力態様を調整する。
【0044】
図3を用いて、本発明の実施形態の音声I/F205の詳細について説明する。図3は、本発明の実施形態の音声I/Fの機能的構成の一例を示す説明図である。
【0045】
図3において、音声I/F205は、テスト音声信号を生成するテスト信号発生部301と、駆動部305を制御してスピーカ213の出力態様を調整可能な出力態様制御部302と、マイク214から入力される音響エコーに関する音響エコー情報を測定する残留エコー測定部303と、音響エコーの除去に用いる適応フィルタを設定する適応フィルタ設定部304と、デジタルの音声信号をアナログの音声に変換するD/Aコンバータ310と、アナログの音声をデジタルの音声信号に変換するA/Dコンバータ311とを備えている。
【0046】
テスト信号発生部301は、CPU201の制御にしたがって、テスト音声信号を生成する。テスト音声信号は、他拠点から受信される音声とは異なるテスト音声を出力元の信号である。音声I/F205は、CPU201の制御にしたがって、D/Aコンバータ310によってテスト音声信号をテスト音声に変換してスピーカ213(SP1〜SP4)から出力させる。
【0047】
具体的には、CPU201は、カメラ212によって撮像された自拠点の映像から利用者がテレビ会議端末110の周囲の所定範囲に存在する場合や、テレビ会議端末110の設置個所に変更があった場合など、音声I/F205によってテスト音声信号を生成させる。換言すれば、CPU201は、テレビ会議が開始されるタイミングや、周辺環境に変化生じたタイミングでテスト音声信号を生成させることとなる。
【0048】
出力態様制御部302は、CPU201の制御にしたがって、駆動部305を駆動させてスピーカ213(SP1〜SP4)の向きの変更制御を実行する。具体的には、CPU201は、カメラ212によって、各スピーカ213(SP1〜SP4)に相対する利用者の方向から所定角度の変更制御をおこない、テスト音声を各スピーカ213(SP1〜SP4)から出力させる。
【0049】
ここで、図4を用いて、本発明の実施形態のスピーカ213(SP1〜SP4)の方向の変更制御について説明する。図4は、本発明の実施形態のスピーカの方向の変更制御の一例を示す説明図である。
【0050】
図4において、CPU201は、カメラ212によって、スピーカ213(SP1〜SP4)と相対する利用者Mの方向を検知すると、利用者Mの方向をθ1に設定する。具体的には、CPU201は、カメラ212によって撮像された画像の中から人物画像を抽出する。CPU201は、撮像時のカメラ212の方向と、抽出された人物とに基づいて、スピーカ213(SP1〜SP4)に対する利用者Mの方向を検知する。CPU201は、音声I/F205を制御して、θ1から所定の角度間隔でθ2,θ3,θ4,θ5を設定する。図4の例では、θ1を0°として、30°間隔で60°〜−60°までの範囲である。
【0051】
CPU201は、音声I/F205を制御して、それぞれの利用者の方向にスピーカ213(SP1〜SP4)を向けて、それぞれスピーカ213(SP1〜SP4)からテスト音声を出力させる。このように、利用者Mの方向から所定角度とすることで、スピーカ213(SP1〜SP4)が利用者Mにとって音声を聴くのに適さない向きとなることを防ぐことができる。
【0052】
なお、各スピーカ213(SP1〜SP4)に相対する利用者が存在しない場合は、たとえば、各テレビ会議端末110によって初期設定された方向や、椅子など利用者が配置可能な方向をθ1に設定することとしてもよい。
【0053】
図3に戻って、残留エコー測定部303は、マイク214から入力される音響エコーに関する音響エコー情報を測定する。残留エコー測定部303は、テスト信号発生部301によって生成されたテスト音声信号がスピーカ213によってテスト音声として出力される際、テスト音声信号を抽出する。CPU201は、マイク214によって集音された音声をA/Dコンバータ311によって音声信号に変換する。残留エコー測定部303は、抽出されたテスト音声信号と、マイク214によって集音される音声信号とを比較して音響エコー情報を検出する。
【0054】
図5を用いて、本発明の実施形態の音響エコー情報の測定結果について説明する。図5は、本発明の実施形態の音響エコー情報の測定結果の一例を示す説明図である。
【0055】
図5において、測定結果テーブル500は、記憶媒体208に記憶され、各スピーカ213(SP1〜SP4)について、図4に示した方向の変更制御を実行した場合の音響エコー成分の大きさを示している。すなわち、各スピーカ213(SP1〜SP4)の向きがそれぞれθ1〜5のうちいずれかであるすべての組合せについて、テスト音声による音響エコーを測定した結果である。
【0056】
図5の例では、スピーカ213(SP1)がθ1、スピーカ213(SP2)がθ2、スピーカ213(SP3)がθ1、スピーカ213(SP4)がθ1の組合せのとき、音響エコーが最小状態501であることを示している。
【0057】
図3に戻って、CPU201は、テスト音声の出力に応じた残留エコー測定部303による測定結果に基づいて、音声I/F205を制御して駆動部305を駆動させる。具体的には、CPU201は、出力態様制御部302によってスピーカ213(SP1)がθ1、スピーカ213(SP2)がθ2、スピーカ213(SP3)がθ1、スピーカ213(SP4)がθ1となるように変更制御を実行する。
【0058】
適応フィルタ設定部304は、CPU201の制御にしたがって、スピーカ213によって出力される音声信号と、マイク214から入力される音声信号とを比較して、音響エコーの成分をフィルタリングする適応フィルタを設定する。すなわち、テスト音声による音響エコーが最小限になるよう設定されたスピーカ213の出力態様によって適応フィルタを設定することになるため、音響エコーの的確なフィルタリングをおこなうことができる。
【0059】
図2に戻って、操作部206は、利用者などから各種情報の入力を受け付ける。操作部206は、タッチパネルや操作ボタンなどによって構成され、テレビ会議に関する情報の入力を受け付けて、入力された信号をCPU201へ出力する。
【0060】
通信I/F207は、通信回線を通じてインターネットなどのネットワークNWに接続され、このネットワークNWを介して他のテレビ会議端末110やその他外部機器に接続される。通信I/F207は、ネットワークNWとテレビ会議端末110内部のインターフェースをつかさどり、外部機器に対するデータの入出力を制御する。通信I/F207には、たとえば、モデムやLANアダプタなどを採用することができる。
【0061】
通信I/F207は、CPU201の制御にしたがって、記憶媒体208に記憶された自拠点の映像および音声を、他拠点のテレビ会議端末110へネットワークNWを介して送信する。通信I/F207は、CPU201の制御にしたがって、映像および音声を映像信号および音声信号として所定のタイミングでネットワークNWを介して送信する。
【0062】
記憶媒体208は、HD(ハードディスク)や着脱可能な記録媒体の一例としてのFD(フレキシブルディスク)などである。記憶媒体208は、それぞれのドライブデバイスを有し、CPU201の制御にしたがって各種データが記録される。また、記憶媒体208からは、それぞれのドライブデバイスの制御にしたがってデータが読み取られる。
【0063】
なお、各構成要素と、各機能を対応付けて説明すると、図2に示したCPU201および音声I/F205によって、本発明の生成手段、テスト音声出力手段、測定手段および変更制御手段の機能を実現する。具体的には、図3に示したテスト信号発生部301によって本発明の生成手段、残留エコー測定部303によって本発明の測定手段、出力態様制御部302によって本発明の変更制御手段の機能をそれぞれ実現する。また、CPU201、カメラ212および映像I/F204によって、本発明の検知手段の機能を実現する。また、スピーカ213によって本発明の音声出力部、マイクによって本発明の音声入力部の機能をそれぞれ実現する。
【0064】
(テレビ会議システム100の処理の内容)
図6を用いて、本発明の実施形態のテレビ会議システム100の処理の内容について説明する。図6は、本発明の実施形態のテレビ会議システムの処理の内容を示すフローチャートである。
【0065】
図6のフローチャートにおいて、まず、CPU201は、テレビ会議が開始されたか否かを判断する(ステップS601)。テレビ会議の開始は、たとえば、利用者による操作部206の操作に基づいて、通信I/F207を介して他のテレビ会議端末110に対して接続要求をおこなう。通信I/F207を介して他のテレビ会議端末110から応答を受信することによって判断される。
【0066】
ステップS601において、テレビ会議が開始されるのを待って、開始された場合(ステップS601:Yes)は、CPU201は、各スピーカ213(SP1〜SP4)を初期状態に設定する(ステップS602)。初期状態は、図4に示したθ1の状態である。
【0067】
CPU201は、音声I/F205を制御して、テスト信号発生部301によってテスト音声信号を発生させ(ステップS603)、ステップS602において設定された状態のスピーカ213からテスト音声を出力する。
【0068】
CPU201は、音声I/F205を制御して、マイク214から入力された残留エコー測定部303によって音響エコー情報を測定する(ステップS604)。CPU201は、測定された音響エコー情報を測定結果テーブル500として記憶媒体208に記憶する(ステップS605)。
【0069】
CPU201は、音声I/F205を制御して、駆動部305の駆動によってスピーカ213の方向を変更し(ステップS606)、各スピーカ213(SP1〜SP4)について所定の角度範囲ですべての方向の組合せが終了したか否かを判断する(ステップS607)。
【0070】
ステップS606において、すべての組合せが終了していない場合(ステップS607:No)は、CPU201は、ステップS603へ戻って、声I/F205を制御して、テスト信号発生部301によってテスト音声信号を発生させて、処理を繰り返す。
【0071】
ステップS606において、すべての組合せが終了した場合(ステップS607:Yes)は、CPU201は、記憶媒体208に記憶されている測定結果テーブル500から、音響エコーの最小状態の設定を決定する(ステップS608)。
【0072】
CPU201は、ステップS607において決定された設定に基づいてスピーカ213(SP1〜SP4)の方向を設定して(ステップS609)、一連の処理を終了する。
【0073】
なお、本発明の各構成要素における処理と、本発明の実施形態の各処理または各機能とを関連付けて説明すると、ステップS603におけるCPU201、音声I/F205およびテスト信号発生部301の処理によって、本発明の処理方法における生成工程およびテスト音声出力工程の処理が実行される。ステップS604におけるCPU201、音声I/F205および残留エコー測定部303の処理によって、本発明の処理方法における測定工程の処理が実行される。ステップS605〜S609におけるCPU201、音声I/F205および駆動部305の処理によって、本発明の処理方法における変更制御工程の処理が実行される。
【0074】
以上説明したように、本発明の実施形態のテレビ会議システム、テレビ会議端末および処理方法によれば、テスト音声信号を発生させて、テスト音声による音響エコーが最小となるようスピーカの向きを設定することができる。したがって、音響エコーが最小の状態で適応フィルタによるフィルタリング処理をおこなうことができるため、的確に音響エコーの除去をおこなうことができる。
【0075】
また、本発明の実施形態によれば、利用者の存在する方向から所定範囲でスピーカの向きの変更制御をおこなうため、利用者にとって適切な使用範囲でスピーカの向きを制御することができる。
【0076】
特に、本発明の実施形態によれば、複数のマイク、スピーカが存在する場合や、複数人数の利用者が存在する場合などであっても、最小限に音響エコーを抑えてから音響エコーの除去をおこなうこととなる。したがって、的確な音響エコーの除去を実行することができる。
【0077】
(その他の一部の変形例)
本発明の実施形態では特に、図6に示したステップS601において、テレビ会議が開始された段階でテスト音声信号を発生させる構成としたがこれに限ることはない。具体的には、CPU201は、テレビ会議の開始や所定周期で本発明の検知手段および取得手段として機能するカメラ212によってテレビ会議がおこなわれている会議室の画像を撮像する。CPU201は、撮像された画像が、以前に撮像された画像と異なる場合、利用者の配置やテレビ会議端末の設置場所など周辺環境に変化が生じたタイミングとして、テスト音声信号を発生させることとしてもよい。
【0078】
ここで、図10を用いて、本発明の実施形態の変形例におけるテレビ会議端末110の処理の内容について説明する。図10は、本発明の実施形態の変形例におけるテレビ会議端末の処理の内容を示すフローチャートである。なお、図10のフローチャートにおいて、図6と同様の処理については、同一のステップ番号を付して説明を省略する。
【0079】
図1のフローチャートにおいて、CPU201は、ステップS601においてテレビ会議が開始されると、映像I/F204を介してカメラ212によって会議室内の周辺環境の撮像をおこない(ステップS1001)、撮像した画像データを記録媒体208に記憶させる。
【0080】
CPU201は、前回に記憶媒体208に記憶されている画像データと、ステップS1001において撮像された画像データとを比較して、テレビ会議端末110が設置された設置場所に変更があったか否かを判断する(ステップS1002)。
【0081】
ステップS1002において、設置場所の変更がなかった場合(ステップS1002:No)は、そのまま一連の処理を終了する。すなわち、前回おこなわれたテレビ会議と同等の環境である場合は、あらためて、スピーカの調整をする手間を省くことができる。ステップS1002において、設置場所に変更があった場合(ステップS1002:Yes)は、図6に示したステップS602以降の処理へ移行する。
【0082】
なお、図10のフローチャートでは、テレビ会議開始後に撮像された画像データを用いて設置場所の変更を検知する構成としたがこれに限ることはない。すなわち、テレビ会議開始後に所定周期で撮像された画像データを比較することで、会議中の利用者の入退室や、会議場所の変更などを検知して、周辺環境の変化に迅速に対応することとしてもよい。
【0083】
このように、テスト音声信号を発生させるタイミングの調整によって、音響エコーの状態に変化が生じる可能性があるタイミングで的確にスピーカ213の設定を変更することができる。したがって、確実に音響エコーのフィルタリングをおこなうことができる。また、周辺環境の変化はカメラ212での検知に限ることはない。すなわち、利用者のログイン状態や、GPS(Globa Positioning System)などの位置検出手段を用いることとしてもよい。このようにすれば、周辺環境の検知手段に汎用性を持たせることができる。
【0084】
また、本発明の実施形態では特に、テスト音声について限定していないが1種類に限ることはない。すなわち、複数種類のテスト音声を用いて音響エコー情報を測定することとしてもよい。このようにすれば、的確に音響エコー情報を測定することができる。また、テスト音声は可聴音に限らず、非可聴音としてもよい。テスト音声を非可聴音とすることで、テレビ会議中など利用者が利用している間にテスト音声を出力しても利用者に違和感を与えることがない。
【0085】
また、本発明の実施形態では特に、テスト音声信号について、他拠点の音声とは異なるテスト音声信号を生成することとして説明したが、これに限ることはない。具体的には、他拠点から受信される音声信号の一部あるいは全部に基づいてテスト音声信号を生成することとしてもよい。すなわち、他拠点から受信される音声信号をそのままテスト音声信号として用いたり、他拠点から受信される音声信号の一部をテスト音声信号として用いたりしてもよい。このようにすれば、テスト音声信号を生成する処理負荷を低減させることができる。
【0086】
また、本発明の実施形態では特に、スピーカ213の向きを、測定結果テーブル500に示したように最小状態500に設定することとしたがこれに限ることはない。すなわち、音響エコーの大きさが、音響エコーが除去可能なレベルであるなどの所定値以下となった設定としてもよい。このようにすることで、多くのスピーカ213の向きの組合せをすべて試す必要がなくなるため、迅速な設定かつ処理負荷の低減を図ることができる。
【0087】
また、最小状態500が複数存在した場合は、利用者の方向に向いているθ1に近い向きを優先して設定することとしてもよい。このようにすれば、本来のスピーカ213の役割としての利用者に音声を聴かせる部分の機能を損なうことがない。
【0088】
また、本発明の実施形態では特に、スピーカ213に対して1人の利用者の方向をθ1に設定することとして説明したが、これに限ることはない。具体的には、複数の利用者に対して、複数の利用者を包括する角度の範囲でスピーカ213の角度制御をおこなうこととしてもよい。
【0089】
ここで、図7を用いて、本発明の実施形態の変形例における複数の利用者でスピーカ213の角度制御をおこなう場合について説明する。図7は、本発明の実施形態の変形例における複数の利用者に対するスピーカの角度制御の一例を示す説明図である。
【0090】
図7において、スピーカ213の前には2人の利用者M1,M2が存在する。テレビ会議端末110は、カメラ212によって利用者M1,M2を撮像する。テレビ会議端末110は、撮像された画像データと、撮像時のカメラ212の向きからスピーカ213に対する利用者M1,M2の方向を検知する。テレビ会議端末110は、利用者M1,M2の方向を包括する角度範囲θについて、所定の間隔でテスト音声を発生させてスピーカの向きを設定することになる。このようにすれば、複数の利用者に対しても的確にスピーカの向きを設定することができる。
【0091】
また、本発明の実施形態では特に、スピーカ213の角度の変更制御をおこなって音響エコーの最小状態を検出することとしたが、これに限ることはない。具体的には、スピーカ213の角度の代わりに、スピーカ213のON/OFF状態に基づいて、音響エコーの最小状態を検出することとしてもよい。
【0092】
ここで、図8を用いて、本発明の実施形態の変形例におけるスピーカのON/OFF状態の変更制御について説明する。図8は、本発明の実施形態の変形例におけるピーカのON/OFF状態の変更制御の一例を示す説明図である。
【0093】
図8において、測定結果テーブル800は、記憶媒体208に記憶され、各スピーカ213(SP1〜SP4)について、ONまたはOFFの状態としたときの音響エコー成分の大きさを示している。音声I/F205は、CPU201の制御にしたがって、各スピーカ213(SP1〜SP4)をONまたはOFFとする。すなわち、各スピーカ213(SP1〜SP4)の状態がそれぞれONまたはOFFのうちいずれかであるすべての組合せのうち、すべてOFFの状態をのぞいた場合について、テスト音声による音響エコーを測定した結果である。
【0094】
図8の例では、スピーカ213(SP1)がOFF、スピーカ213(SP2)がOFF、スピーカ213(SP3)がOFF、スピーカ213(SP4)がONの組合せのとき、音響エコーが最小状態801であることを示している。
【0095】
このように、スピーカ213(SP1〜SP4)のON/OFF状態によって音響エコー情報を測定することで、スピーカ213(SP1〜SP4)の角度を制御する場合に比べて簡便な仕組みで最小状態801を設定することができる。
【0096】
また、スピーカ213の角度やON/OFF状態の代わりに、スピーカ213(SP1〜SP4)の出力について総和出力を一定として出力値に基づいて、音響エコーの最小状態を検出することとしてもよい。
【0097】
ここで、図9を用いて、本発明の実施形態の変形例におけるスピーカの出力状態の変更制御について説明する。図9は、本発明の実施形態の変形例におけるピーカの出力状態の変更制御の一例を示す説明図である。
【0098】
図9において、測定結果テーブル900は、記憶媒体208に記憶され、各スピーカ213(SP1〜SP4)について、出力値の総和を100とした出力状態の組合せによる音響エコー成分の大きさを示している。音声I/F205は、CPU201の制御にしたがって、図示しない増幅器などによって各スピーカ213(SP1〜SP4)の出力値を変更可能とする。すなわち、各スピーカ213(SP1〜SP4)を合計すると一定の出力が保たれた状態である組合せ、テスト音声による音響エコーを測定した結果である。
【0099】
図9の例では、スピーカ213(SP1)が25、スピーカ213(SP2)が25、スピーカ213(SP3)が25、スピーカ213(SP4)が25の組合せのとき、音響エコーが最小状態901であることを示している。
【0100】
また、上述した説明では、実施形態および一部の変形例について別々の例として説明したが、これに限ることはない。すなわち、それぞれを組み合わせた構成として、実施形態および一部の変形例による手法を適宜組み合わせて利用してもよい。
【0101】
なお、本発明の実施形態および変形例で説明した方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。この通信プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。
【符号の説明】
【0102】
100 テレビ会議システム
110(110a,110b) テレビ会議端末
200 バス
201 CPU
202 RAM
203 ROM
204 映像I/F
205 音声I/F
206 操作部
207 通信I/F
208 記憶媒体
211 ディスプレイ
212 カメラ
213 スピーカ
214 マイク
301 テスト信号発生部
302 出力態様制御部
303 残留エコー測定部
304 適応フィルタ測定部
305 駆動部


【特許請求の範囲】
【請求項1】
音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置であって、
テスト音声信号を生成する生成手段と、
前記生成手段によって生成された前記テスト音声信号をテスト音声に変換して前記音声出力部によって出力させるテスト音声出力手段と、
前記テスト音声出力手段によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定する測定手段と、
前記測定手段によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更する変更制御手段と、
を備えることを特徴とする端末装置。
【請求項2】
前記変更制御手段は、前記音声出力部によって出力される音声の指向角度の変更制御をおこなうことを特徴とする請求項1に記載の端末装置。
【請求項3】
利用者の配置を検知する検知手段をさらに備え、
前記変更制御手段は、前記検知手段によって検知された前記利用者の配置に基づいて、前記出力態様の変更制御をおこなうことを特徴とする請求項1または2に記載の端末装置。
【請求項4】
前記テスト音声出力手段は、前記検知手段によって、前記端末装置の周囲の所定範囲に前記利用者が配置されたことを検知した場合、前記テスト音声を出力させることを特徴とする請求項3に記載の端末装置。
【請求項5】
前記端末装置の配置に関する配置情報を取得する取得手段をさらに備え、
前記テスト音声出力手段は、前記配置情報に変更があった場合、前記テスト音声を出力させることを特徴とする請求項1〜4のいずれかに記載の端末装置。
【請求項6】
音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置による処理方法であって、
テスト音声信号を生成する生成工程と、
前記生成工程によって生成された前記テスト音声信号をテスト音声に変換して前記音声出力部によって出力させるテスト音声出力工程と、
前記テスト音声出力工程によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定する測定工程と、
前記測定工程によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更する変更制御工程と、
を含むことを特徴とする処理方法。
【請求項7】
音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置のための処理プログラムであって、
テスト音声信号を生成させる生成工程と、
前記生成工程によって生成された前記テスト音声信号をテスト音声に変換させて前記音声出力部によって出力させるテスト音声出力工程と、
前記テスト音声出力工程によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定させる測定工程と、
前記測定工程によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更させる変更制御工程と、
をコンピュータに実行させることを特徴とする端末装置のための処理プログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2011−135272(P2011−135272A)
【公開日】平成23年7月7日(2011.7.7)
【国際特許分類】
【出願番号】特願2009−292283(P2009−292283)
【出願日】平成21年12月24日(2009.12.24)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】