端末装置、処理方法および処理プログラム

【課題】音響エコーを的確に除去できるように、音声出力部の出力態様を調整して、音響エコーの低減を図ること
【解決手段】マイク２１４と、スピーカ２１３とを備えるテレビ会議端末１１０であって、テスト信号発生部３０１は、テスト音声信号を生成する。音声Ｉ／Ｆ２０５は、テスト音声信号をテスト音声に変換してスピーカ２１３によって出力させる。残留エコー測定部３０３は、出力されたテスト音声がマイク２１４によって入力されることによって生じる音響エコー情報を測定する。出力態様制御部３０２は、測定された音響エコー情報に基づいて、スピーカ２１３の出力態様を変更する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、周囲から音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを用いて、他拠点の端末装置との間で会議をおこなう端末装置、処理方法および処理プログラムに関する。
【背景技術】
【０００２】
テレビ会議システムは、複数の拠点間で会議をおこなう際、各拠点間で相互に音声などの音声信号を送受信する。各拠点の端末装置は、マイクによって会議の参加者である利用者の発話などの音声の入力を受け付ける。端末装置は、マイクによって集音された音声を音声信号としてネットワークを介して他拠点の端末装置へ送信する。端末装置は、他拠点から送信された音声信号を音声としてスピーカから出力する。
【０００３】
マイクは、スピーカから出力された音声が回り込む音響エコーの入力も受け付ける。端末装置は、他拠点の端末装置に対して、利用者の発話と音響エコーとを含む音声信号を送信することがある。近年では、音響エコーの影響を除去させるため、スピーカからマイクに回り込む音響エコーの伝達特性を計算し、音声信号から音響エコーの成分を差し引く提案がされている（特許文献１）。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００８−２６１９２３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上述した特許文献１に記載の技術では、伝達特性の計算元となる音響エコーそのものを減らす考慮はされていない。したがって、音響エコーが多大であると、音声信号から音響エコーの成分を除去することが困難であるという問題が一例として挙げられる。
【０００６】
この発明は、上述した問題を解決するため、音響エコーを的確に除去できるように、音声出力部の出力態様を調整して、音響エコーの低減を図ることのできる端末装置、処理方法および処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００７】
上述した課題を解決し、目的を達成するため、請求項１に記載の端末装置は、音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置であって、テスト音声信号を生成する生成手段と、前記生成手段によって生成された前記テスト音声信号をテスト音声に変換して前記音声出力部によって出力させるテスト音声出力手段と、前記テスト音声出力手段によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定する測定手段と、前記測定手段によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更する変更制御手段と、を備えることを特徴とする。
【０００８】
請求項２に記載の端末装置は、上記発明において、前記変更制御手段は、前記音声出力部によって出力される音声の指向角度の変更制御をおこなうことを特徴とする。
【０００９】
請求項３に記載の端末装置は、上記発明において、利用者の配置を検知する検知手段をさらに備え、前記変更制御手段は、前記検知手段によって検知された前記利用者の配置に基づいて、前記出力態様の変更制御をおこなうことを特徴とする。
【００１０】
請求項４に記載の端末装置は、上記発明において、前記テスト音声出力手段は、前記検知手段によって、前記端末装置の周囲の所定範囲に前記利用者が配置されたことを検知した場合、前記テスト音声を出力させることを特徴とする。
【００１１】
請求項５に記載の端末装置は、上記発明において、前記端末装置の配置に関する配置情報を取得する取得手段をさらに備え、前記テスト音声出力手段は、前記配置情報に変更があった場合、前記テスト音声を出力させることを特徴とする。
【００１２】
請求項６に記載の処理方法は、音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置による処理方法であって、テスト音声信号を生成する生成工程と、前記生成工程によって生成された前記テスト音声信号をテスト音声に変換して前記音声出力部によって出力させるテスト音声出力工程と、前記テスト音声出力工程によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定する測定工程と、前記測定工程によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更する変更制御工程と、を含むことを特徴とする。
【００１３】
請求項７に記載の処理プログラムは、音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置のための処理プログラムであって、テスト音声信号を生成させる生成工程と、前記生成工程によって生成された前記テスト音声信号をテスト音声に変換させて前記音声出力部によって出力させるテスト音声出力工程と、前記テスト音声出力工程によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定させる測定工程と、前記測定工程によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更させる変更制御工程と、をコンピュータに実行させることを特徴とする。
【発明の効果】
【００１４】
請求項１に記載の発明によれば、テスト音声信号によって測定された音響エコー情報に基づいて、音声出力部の出力態様を変更することができる。したがって、音響エコーの除去を的確に実行できるように音響エコーの低減を図ることができる。そして、低減された音響エコー情報を適応フィルタによってフィルタリングして、音響エコーを的確に実行することができる。
【００１５】
請求項２に記載の発明によれば、音声出力部によって音声が出力される角度を変更制御することで、簡便に音響エコー情報の低減を図ることができる。
【００１６】
請求項３に記載の発明によれば、利用者の配置を検知して、音声出力部の出力態様の変更制御をおこなうことができる。したがって、利用者の配置あわせて、音声出力部の出力態様の変更制御の適切化を図ることができる。
【００１７】
請求項４に記載の発明によれば、利用者が端末装置の利用する場合にテスト音声を出力することができる。したがって、音声出力部の出力態様の変更制御を実行するタイミングの最適化を図ることができる。
【００１８】
請求項５に記載の発明によれば、端末装置の配置情報に変更があった場合にテスト音声を出力することができる。したがって、音声出力部の出力態様の変更制御を実行するタイミングの最適化を図ることができる。
【００１９】
請求項６に記載の発明によれば、テスト音声信号によって測定された音響エコー情報に基づいて、音声出力部の出力態様を変更することができる。したがって、音響エコーの除去を的確に実行できるように音響エコーの低減を図ることができる。そして、低減された音響エコー情報を適応フィルタによってフィルタリングして、音響エコーを的確に実行することができる。
【００２０】
請求項７に記載の発明によれば、コンピュータによって、テスト音声信号によって測定された音響エコー情報に基づいて、音声出力部の出力態様を変更させることができる。したがって、音響エコーの除去を的確に実行できるように音響エコーの低減させることができる。そして、コンピュータによって、低減された音響エコー情報を適応フィルタによってフィルタリングさせて、音響エコーを的確に実行させることができる。
【００２１】
以上説明したように、本発明にかかる端末装置、処理方法および処理プログラムによれば、音響エコーを的確に除去できるように、音声出力部の出力態様を調整して、音響エコーの低減を図ることができるという効果を奏する。
【図面の簡単な説明】
【００２２】
【図１】本発明の実施形態のテレビ会議システムの一例を示す説明図である。
【図２】本発明の実施形態のテレビ会議端末の機能的構成の一例を示す説明図である。
【図３】本発明の実施形態の音声Ｉ／Ｆの機能的構成の一例を示す説明図である。
【図４】本発明の実施形態のスピーカの方向の変更制御の一例を示す説明図である。
【図５】本発明の実施形態の音響エコー情報の測定結果の一例を示す説明図である。
【図６】本発明の実施形態のテレビ会議システムの処理の内容を示すフローチャートである。
【図７】本発明の実施形態の変形例における複数の利用者に対するスピーカの角度制御の一例を示す説明図である。
【図８】本発明の実施形態の変形例におけるピーカのＯＮ／ＯＦＦ状態の変更制御の一例を示す説明図である。
【図９】本発明の実施形態の変形例におけるピーカの出力状態の変更制御の一例を示す説明図である。
【図１０】本発明の実施形態の変形例におけるテレビ会議端末の処理の内容を示すフローチャートである。
【発明を実施するための形態】
【００２３】
以下に添付図面を参照して、この発明にかかる端末装置、処理方法および処理プログラムの好適な実施の形態を詳細に説明する。
【００２４】
（実施形態）
（全体構成）
図１を用いて、本発明の実施形態にかかる端末装置を、複数拠点でテレビ会議をおこなうテレビ会議システムに用いるテレビ会議端末に適用した場合について説明する。図１は、本発明の実施形態のテレビ会議システムの一例を示す説明図である。図１において、テレビ会議システム１００は、会議室Ａ，Ｂに設置されたテレビ会議端末１１０ａ，１１０ｂがネットワークＮＷを介して接続されて構成されている。
【００２５】
テレビ会議システム１００は、地理的に離れた会議室Ａ，Ｂに設置されたテレビ会議端末１１０ａ，１１０ｂがインターネットなどのネットワークＮＷを介して接続されたり、建物内の離れた会議室Ａ，Ｂに設置されたテレビ会議端末１１０ａ，１１０ｂがＬＡＮ（ローカルエリアネットワーク）などのネットワークＮＷを介して接続されたりしている。
【００２６】
なお、図１では、２つの会議室Ａ，Ｂでテレビ会議をおこなう場合について説明するが、３つ以上の拠点でテレビ会議をおこなうこととしてもよい。また、テレビ会議端末１１０ａ，１１０ｂがネットワークを介して相互に接続されることとして説明するが、ネットワーク上の任意の位置に設置された管理サーバなどを介して相互に接続される構成でもよい。ネットワークＮＷは、公衆電話回線網などであってもよい。
【００２７】
テレビ会議システム１００は、会議室Ａ，Ｂにおける会議の映像および音声をテレビ会議端末１１０によって送受信させる。具体的には、テレビ会議端末１１０ａは、カメラ２１２ａやマイク２１４ａによって会議室Ａでテレビ会議に参加する利用者の映像および音声を取得する。テレビ会議端末１１０ａは、取得した映像および音声をパケット化し、映像信号および音声信号としてネットワークＮＷを介して会議室Ｂのテレビ会議端末１１０ｂに送信する。
【００２８】
テレビ会議端末１１０ａは、会議室Ｂのテレビ会議端末１１０ｂから送信される映像信号や音声信号をネットワークＮＷを介して受信する。テレビ会議端末１１０ａは、受信した信号から映像および音声をディスプレイ２１１ａやスピーカ２１３ａ（ＳＰ１〜ＳＰ４）によって再生する。なお、会議室Ａ，Ｂに設置されるスピーカ２１３の数は４個に限定されることなく、必要に応じて増減できる。
【００２９】
スピーカ２１３ａ（ＳＰ１〜ＳＰ４）によって音声が再生されると、会議室Ａでの反響や音声の回り込みなどによる音響エコーが発生する。テレビ会議端末１１０ａは、マイク２１４ａによって集音される会議室Ａでテレビ会議に参加する利用者からの音声や音響エコーを含む音声信号を通信先のテレビ会議端末１１０ｂに送信することとなる。なお、会議室Ａ，Ｂに設置されるマイク２１４の数は２個に限定されることなく、必要に応じて増減できる。
【００３０】
ここで、テレビ会議端末１１０ａは、テレビ会議端末１１０ｂから受信される音声信号とは異なるテスト音声信号を生成する。テレビ会議端末１１０ａは、テスト音声信号をテスト音声としてスピーカ２１３ａから出力する。
【００３１】
テレビ会議端末１１０ａは、スピーカ２１３ａから出力されたテスト音声の反響や回り込みをマイク２１４ａによって集音する。テレビ会議端末１１０ａは、マイク２１４ａによる集音に基づいて、テスト音声に起因する音響エコー情報を測定する。
【００３２】
テレビ会議端末１１０ａは、スピーカ２１３ａ（ＳＰ１〜ＳＰ４）の出力態様の変更制御をおこなう。具体的には、テレビ会議端末１１０ａは、各スピーカ２１３ａ（ＳＰ１〜ＳＰ４）の向きを変更する。テレビ会議端末１１０ａは、テスト音声を出力しつつ各スピーカ２１３ａ（ＳＰ１〜ＳＰ４）の向きを変更して音声エコー情報を測定する。テレビ会議端末１１０ａは、出力音声の指向角度である各スピーカ２１３ａ（ＳＰ１〜ＳＰ４）の向きをテスト音声による音響エコーが最小となるよう調整する。
【００３３】
テレビ会議端末１１０ａは、音響エコーをフィルタリングする適応フィルタを設定する。すなわち、テレビ会議端末１１０ａは、音響エコーが最小となるよう向きが調整されたスピーカ２１３ａ（ＳＰ１〜ＳＰ４）によって入力される音響エコーに基づいて適応フィルタを設定する。テレビ会議端末１１０ａは、マイク２１４ａによって集音される会議室Ａでテレビ会議に参加する利用者からの音声や音響エコーを含む音声信号を適応フィルタによってフィルタリングして通信先のテレビ会議端末１１０ｂに送信する。
【００３４】
テスト音声によって音響エコーが低減されるよう調整されたスピーカ２１３ａ（ＳＰ１〜ＳＰ４）を用いることで、会議中の音響エコーも低減された状態となる。したがって、テレビ会議端末１１０ａは、テレビ会議端末１１０ｂに送信対象の音声信号から音響エコーの除去を確実におこなうことができる。
【００３５】
なお、本発明の実施形態では、テレビ会議端末１１０ａを例に挙げて、スピーカ２１３ａ（ＳＰ１〜ＳＰ４）の向きを調整して音響エコーを除去する構成について説明したが、これに限ることはない。すなわち、テレビ会議端末１１０ｂなどの他機器も同様の構成を備えることとしてもよい。
【００３６】
（機能的構成）
図２を用いて、本発明の実施形態のテレビ会議端末１１０の機能的構成について説明する。図２は、本発明の実施形態のテレビ会議端末の機能的構成の一例を示す説明図である。
【００３７】
図２において、テレビ会議端末１１０は、ＣＰＵ（セントラルプロセッシングユニット）２０１と、ＲＡＭ（ランダムアクセスメモリ）２０２と、ＲＯＭ（リードオンリーメモリ）２０３と、ディスプレイ２１１やカメラ２１２に対して映像の入出力を制御する映像Ｉ／Ｆ２０４と、スピーカ２１３やマイク２１４に対して音声の入出力を制御する音声Ｉ／Ｆ２０５と、各種情報の入力を受け付ける操作部２０６と、外部機器との通信を制御する通信Ｉ／Ｆ２０７と、各種情報を記憶する記憶媒体２０８とを備えている。また、テレビ会議端末１１０の各構成部は、バス２００によってそれぞれ接続されている。
【００３８】
ＣＰＵ２０１は、テレビ会議端末１１０全体の制御をおこなう。ＣＰＵ２０１は、ＲＡＭ２０２をワークエリアとして、ＲＯＭ２０３から読み込まれる各種プログラムを実行する。
【００３９】
映像Ｉ／Ｆ２０４は、ＣＰＵ２０１の制御にしたがって、ディスプレイ２１１に各種情報を表示させる。映像Ｉ／Ｆ２０４は、たとえば、カメラ２１２によって撮像された会議室Ａまたは会議室Ｂである自拠点の映像や、会議室Ｂまたは会議室Ａである他拠点のテレビ会議端末１１０から受信された映像信号をデコードした映像や、他拠点とのテレビ会議に関する処理画面などをディスプレイ２１１に表示させる。
【００４０】
映像Ｉ／Ｆ２０４は、ＣＰＵ２０１の制御にしたがって、カメラ２１２によって自拠点の利用者の映像を撮像する。映像Ｉ／Ｆ２０４は、ＣＰＵ２０１の制御にしたがって、カメラ２１２によって撮像された映像を記憶媒体２０８に出力する。
【００４１】
音声Ｉ／Ｆ２０５は、ＣＰＵ２０１の制御にしたがって、スピーカ２１３に各種音声を出力させる。音声Ｉ／Ｆ２０５は、他拠点のテレビ会議端末１１０から受信された音声信号をデコードした音声や、他拠点とのテレビ会議に関する案内音声などをスピーカ２１３に出力させる。
【００４２】
音声Ｉ／Ｆ２０５は、ＣＰＵ２０１の制御にしたがって、マイク２１４によって自拠点の利用者の音声を集音する。スピーカ２１３によって音声が出力されると、会議室Ａ，Ｂでの反響や回り込みなどによる音響エコーが発生する。音声Ｉ／Ｆ２０５は、ＣＰＵ２０１の制御にしたがって、マイク２１４によって自拠点の音響エコーも集音することとなる。音声Ｉ／Ｆ２０５は、ＣＰＵ２０１の制御にしたがって、マイク２１４によって集音された音声を記憶媒体２０８に出力する。
【００４３】
音声Ｉ／Ｆ２０５は、ＣＰＵ２０１の制御にしたがって、他拠点（他の会議室）から受信される音声とは異なるテスト音声信号を生成する。音声Ｉ／Ｆ２０５は、生成されたテスト音声信号を用いて、音響エコーが最小となるようスピーカ２１３の出力態様を調整する。
【００４４】
図３を用いて、本発明の実施形態の音声Ｉ／Ｆ２０５の詳細について説明する。図３は、本発明の実施形態の音声Ｉ／Ｆの機能的構成の一例を示す説明図である。
【００４５】
図３において、音声Ｉ／Ｆ２０５は、テスト音声信号を生成するテスト信号発生部３０１と、駆動部３０５を制御してスピーカ２１３の出力態様を調整可能な出力態様制御部３０２と、マイク２１４から入力される音響エコーに関する音響エコー情報を測定する残留エコー測定部３０３と、音響エコーの除去に用いる適応フィルタを設定する適応フィルタ設定部３０４と、デジタルの音声信号をアナログの音声に変換するＤ／Ａコンバータ３１０と、アナログの音声をデジタルの音声信号に変換するＡ／Ｄコンバータ３１１とを備えている。
【００４６】
テスト信号発生部３０１は、ＣＰＵ２０１の制御にしたがって、テスト音声信号を生成する。テスト音声信号は、他拠点から受信される音声とは異なるテスト音声を出力元の信号である。音声Ｉ／Ｆ２０５は、ＣＰＵ２０１の制御にしたがって、Ｄ／Ａコンバータ３１０によってテスト音声信号をテスト音声に変換してスピーカ２１３（ＳＰ１〜ＳＰ４）から出力させる。
【００４７】
具体的には、ＣＰＵ２０１は、カメラ２１２によって撮像された自拠点の映像から利用者がテレビ会議端末１１０の周囲の所定範囲に存在する場合や、テレビ会議端末１１０の設置個所に変更があった場合など、音声Ｉ／Ｆ２０５によってテスト音声信号を生成させる。換言すれば、ＣＰＵ２０１は、テレビ会議が開始されるタイミングや、周辺環境に変化生じたタイミングでテスト音声信号を生成させることとなる。
【００４８】
出力態様制御部３０２は、ＣＰＵ２０１の制御にしたがって、駆動部３０５を駆動させてスピーカ２１３（ＳＰ１〜ＳＰ４）の向きの変更制御を実行する。具体的には、ＣＰＵ２０１は、カメラ２１２によって、各スピーカ２１３（ＳＰ１〜ＳＰ４）に相対する利用者の方向から所定角度の変更制御をおこない、テスト音声を各スピーカ２１３（ＳＰ１〜ＳＰ４）から出力させる。
【００４９】
ここで、図４を用いて、本発明の実施形態のスピーカ２１３（ＳＰ１〜ＳＰ４）の方向の変更制御について説明する。図４は、本発明の実施形態のスピーカの方向の変更制御の一例を示す説明図である。
【００５０】
図４において、ＣＰＵ２０１は、カメラ２１２によって、スピーカ２１３（ＳＰ１〜ＳＰ４）と相対する利用者Ｍの方向を検知すると、利用者Ｍの方向をθ１に設定する。具体的には、ＣＰＵ２０１は、カメラ２１２によって撮像された画像の中から人物画像を抽出する。ＣＰＵ２０１は、撮像時のカメラ２１２の方向と、抽出された人物とに基づいて、スピーカ２１３（ＳＰ１〜ＳＰ４）に対する利用者Ｍの方向を検知する。ＣＰＵ２０１は、音声Ｉ／Ｆ２０５を制御して、θ１から所定の角度間隔でθ２，θ３，θ４，θ５を設定する。図４の例では、θ１を０°として、３０°間隔で６０°〜−６０°までの範囲である。
【００５１】
ＣＰＵ２０１は、音声Ｉ／Ｆ２０５を制御して、それぞれの利用者の方向にスピーカ２１３（ＳＰ１〜ＳＰ４）を向けて、それぞれスピーカ２１３（ＳＰ１〜ＳＰ４）からテスト音声を出力させる。このように、利用者Ｍの方向から所定角度とすることで、スピーカ２１３（ＳＰ１〜ＳＰ４）が利用者Ｍにとって音声を聴くのに適さない向きとなることを防ぐことができる。
【００５２】
なお、各スピーカ２１３（ＳＰ１〜ＳＰ４）に相対する利用者が存在しない場合は、たとえば、各テレビ会議端末１１０によって初期設定された方向や、椅子など利用者が配置可能な方向をθ１に設定することとしてもよい。
【００５３】
図３に戻って、残留エコー測定部３０３は、マイク２１４から入力される音響エコーに関する音響エコー情報を測定する。残留エコー測定部３０３は、テスト信号発生部３０１によって生成されたテスト音声信号がスピーカ２１３によってテスト音声として出力される際、テスト音声信号を抽出する。ＣＰＵ２０１は、マイク２１４によって集音された音声をＡ／Ｄコンバータ３１１によって音声信号に変換する。残留エコー測定部３０３は、抽出されたテスト音声信号と、マイク２１４によって集音される音声信号とを比較して音響エコー情報を検出する。
【００５４】
図５を用いて、本発明の実施形態の音響エコー情報の測定結果について説明する。図５は、本発明の実施形態の音響エコー情報の測定結果の一例を示す説明図である。
【００５５】
図５において、測定結果テーブル５００は、記憶媒体２０８に記憶され、各スピーカ２１３（ＳＰ１〜ＳＰ４）について、図４に示した方向の変更制御を実行した場合の音響エコー成分の大きさを示している。すなわち、各スピーカ２１３（ＳＰ１〜ＳＰ４）の向きがそれぞれθ１〜５のうちいずれかであるすべての組合せについて、テスト音声による音響エコーを測定した結果である。
【００５６】
図５の例では、スピーカ２１３（ＳＰ１）がθ１、スピーカ２１３（ＳＰ２）がθ２、スピーカ２１３（ＳＰ３）がθ１、スピーカ２１３（ＳＰ４）がθ１の組合せのとき、音響エコーが最小状態５０１であることを示している。
【００５７】
図３に戻って、ＣＰＵ２０１は、テスト音声の出力に応じた残留エコー測定部３０３による測定結果に基づいて、音声Ｉ／Ｆ２０５を制御して駆動部３０５を駆動させる。具体的には、ＣＰＵ２０１は、出力態様制御部３０２によってスピーカ２１３（ＳＰ１）がθ１、スピーカ２１３（ＳＰ２）がθ２、スピーカ２１３（ＳＰ３）がθ１、スピーカ２１３（ＳＰ４）がθ１となるように変更制御を実行する。
【００５８】
適応フィルタ設定部３０４は、ＣＰＵ２０１の制御にしたがって、スピーカ２１３によって出力される音声信号と、マイク２１４から入力される音声信号とを比較して、音響エコーの成分をフィルタリングする適応フィルタを設定する。すなわち、テスト音声による音響エコーが最小限になるよう設定されたスピーカ２１３の出力態様によって適応フィルタを設定することになるため、音響エコーの的確なフィルタリングをおこなうことができる。
【００５９】
図２に戻って、操作部２０６は、利用者などから各種情報の入力を受け付ける。操作部２０６は、タッチパネルや操作ボタンなどによって構成され、テレビ会議に関する情報の入力を受け付けて、入力された信号をＣＰＵ２０１へ出力する。
【００６０】
通信Ｉ／Ｆ２０７は、通信回線を通じてインターネットなどのネットワークＮＷに接続され、このネットワークＮＷを介して他のテレビ会議端末１１０やその他外部機器に接続される。通信Ｉ／Ｆ２０７は、ネットワークＮＷとテレビ会議端末１１０内部のインターフェースをつかさどり、外部機器に対するデータの入出力を制御する。通信Ｉ／Ｆ２０７には、たとえば、モデムやＬＡＮアダプタなどを採用することができる。
【００６１】
通信Ｉ／Ｆ２０７は、ＣＰＵ２０１の制御にしたがって、記憶媒体２０８に記憶された自拠点の映像および音声を、他拠点のテレビ会議端末１１０へネットワークＮＷを介して送信する。通信Ｉ／Ｆ２０７は、ＣＰＵ２０１の制御にしたがって、映像および音声を映像信号および音声信号として所定のタイミングでネットワークＮＷを介して送信する。
【００６２】
記憶媒体２０８は、ＨＤ（ハードディスク）や着脱可能な記録媒体の一例としてのＦＤ（フレキシブルディスク）などである。記憶媒体２０８は、それぞれのドライブデバイスを有し、ＣＰＵ２０１の制御にしたがって各種データが記録される。また、記憶媒体２０８からは、それぞれのドライブデバイスの制御にしたがってデータが読み取られる。
【００６３】
なお、各構成要素と、各機能を対応付けて説明すると、図２に示したＣＰＵ２０１および音声Ｉ／Ｆ２０５によって、本発明の生成手段、テスト音声出力手段、測定手段および変更制御手段の機能を実現する。具体的には、図３に示したテスト信号発生部３０１によって本発明の生成手段、残留エコー測定部３０３によって本発明の測定手段、出力態様制御部３０２によって本発明の変更制御手段の機能をそれぞれ実現する。また、ＣＰＵ２０１、カメラ２１２および映像Ｉ／Ｆ２０４によって、本発明の検知手段の機能を実現する。また、スピーカ２１３によって本発明の音声出力部、マイクによって本発明の音声入力部の機能をそれぞれ実現する。
【００６４】
（テレビ会議システム１００の処理の内容）
図６を用いて、本発明の実施形態のテレビ会議システム１００の処理の内容について説明する。図６は、本発明の実施形態のテレビ会議システムの処理の内容を示すフローチャートである。
【００６５】
図６のフローチャートにおいて、まず、ＣＰＵ２０１は、テレビ会議が開始されたか否かを判断する（ステップＳ６０１）。テレビ会議の開始は、たとえば、利用者による操作部２０６の操作に基づいて、通信Ｉ／Ｆ２０７を介して他のテレビ会議端末１１０に対して接続要求をおこなう。通信Ｉ／Ｆ２０７を介して他のテレビ会議端末１１０から応答を受信することによって判断される。
【００６６】
ステップＳ６０１において、テレビ会議が開始されるのを待って、開始された場合（ステップＳ６０１：Ｙｅｓ）は、ＣＰＵ２０１は、各スピーカ２１３（ＳＰ１〜ＳＰ４）を初期状態に設定する（ステップＳ６０２）。初期状態は、図４に示したθ１の状態である。
【００６７】
ＣＰＵ２０１は、音声Ｉ／Ｆ２０５を制御して、テスト信号発生部３０１によってテスト音声信号を発生させ（ステップＳ６０３）、ステップＳ６０２において設定された状態のスピーカ２１３からテスト音声を出力する。
【００６８】
ＣＰＵ２０１は、音声Ｉ／Ｆ２０５を制御して、マイク２１４から入力された残留エコー測定部３０３によって音響エコー情報を測定する（ステップＳ６０４）。ＣＰＵ２０１は、測定された音響エコー情報を測定結果テーブル５００として記憶媒体２０８に記憶する（ステップＳ６０５）。
【００６９】
ＣＰＵ２０１は、音声Ｉ／Ｆ２０５を制御して、駆動部３０５の駆動によってスピーカ２１３の方向を変更し（ステップＳ６０６）、各スピーカ２１３（ＳＰ１〜ＳＰ４）について所定の角度範囲ですべての方向の組合せが終了したか否かを判断する（ステップＳ６０７）。
【００７０】
ステップＳ６０６において、すべての組合せが終了していない場合（ステップＳ６０７：Ｎｏ）は、ＣＰＵ２０１は、ステップＳ６０３へ戻って、声Ｉ／Ｆ２０５を制御して、テスト信号発生部３０１によってテスト音声信号を発生させて、処理を繰り返す。
【００７１】
ステップＳ６０６において、すべての組合せが終了した場合（ステップＳ６０７：Ｙｅｓ）は、ＣＰＵ２０１は、記憶媒体２０８に記憶されている測定結果テーブル５００から、音響エコーの最小状態の設定を決定する（ステップＳ６０８）。
【００７２】
ＣＰＵ２０１は、ステップＳ６０７において決定された設定に基づいてスピーカ２１３（ＳＰ１〜ＳＰ４）の方向を設定して（ステップＳ６０９）、一連の処理を終了する。
【００７３】
なお、本発明の各構成要素における処理と、本発明の実施形態の各処理または各機能とを関連付けて説明すると、ステップＳ６０３におけるＣＰＵ２０１、音声Ｉ／Ｆ２０５およびテスト信号発生部３０１の処理によって、本発明の処理方法における生成工程およびテスト音声出力工程の処理が実行される。ステップＳ６０４におけるＣＰＵ２０１、音声Ｉ／Ｆ２０５および残留エコー測定部３０３の処理によって、本発明の処理方法における測定工程の処理が実行される。ステップＳ６０５〜Ｓ６０９におけるＣＰＵ２０１、音声Ｉ／Ｆ２０５および駆動部３０５の処理によって、本発明の処理方法における変更制御工程の処理が実行される。
【００７４】
以上説明したように、本発明の実施形態のテレビ会議システム、テレビ会議端末および処理方法によれば、テスト音声信号を発生させて、テスト音声による音響エコーが最小となるようスピーカの向きを設定することができる。したがって、音響エコーが最小の状態で適応フィルタによるフィルタリング処理をおこなうことができるため、的確に音響エコーの除去をおこなうことができる。
【００７５】
また、本発明の実施形態によれば、利用者の存在する方向から所定範囲でスピーカの向きの変更制御をおこなうため、利用者にとって適切な使用範囲でスピーカの向きを制御することができる。
【００７６】
特に、本発明の実施形態によれば、複数のマイク、スピーカが存在する場合や、複数人数の利用者が存在する場合などであっても、最小限に音響エコーを抑えてから音響エコーの除去をおこなうこととなる。したがって、的確な音響エコーの除去を実行することができる。
【００７７】
（その他の一部の変形例）
本発明の実施形態では特に、図６に示したステップＳ６０１において、テレビ会議が開始された段階でテスト音声信号を発生させる構成としたがこれに限ることはない。具体的には、ＣＰＵ２０１は、テレビ会議の開始や所定周期で本発明の検知手段および取得手段として機能するカメラ２１２によってテレビ会議がおこなわれている会議室の画像を撮像する。ＣＰＵ２０１は、撮像された画像が、以前に撮像された画像と異なる場合、利用者の配置やテレビ会議端末の設置場所など周辺環境に変化が生じたタイミングとして、テスト音声信号を発生させることとしてもよい。
【００７８】
ここで、図１０を用いて、本発明の実施形態の変形例におけるテレビ会議端末１１０の処理の内容について説明する。図１０は、本発明の実施形態の変形例におけるテレビ会議端末の処理の内容を示すフローチャートである。なお、図１０のフローチャートにおいて、図６と同様の処理については、同一のステップ番号を付して説明を省略する。
【００７９】
図１のフローチャートにおいて、ＣＰＵ２０１は、ステップＳ６０１においてテレビ会議が開始されると、映像Ｉ／Ｆ２０４を介してカメラ２１２によって会議室内の周辺環境の撮像をおこない（ステップＳ１００１）、撮像した画像データを記録媒体２０８に記憶させる。
【００８０】
ＣＰＵ２０１は、前回に記憶媒体２０８に記憶されている画像データと、ステップＳ１００１において撮像された画像データとを比較して、テレビ会議端末１１０が設置された設置場所に変更があったか否かを判断する（ステップＳ１００２）。
【００８１】
ステップＳ１００２において、設置場所の変更がなかった場合（ステップＳ１００２：Ｎｏ）は、そのまま一連の処理を終了する。すなわち、前回おこなわれたテレビ会議と同等の環境である場合は、あらためて、スピーカの調整をする手間を省くことができる。ステップＳ１００２において、設置場所に変更があった場合（ステップＳ１００２：Ｙｅｓ）は、図６に示したステップＳ６０２以降の処理へ移行する。
【００８２】
なお、図１０のフローチャートでは、テレビ会議開始後に撮像された画像データを用いて設置場所の変更を検知する構成としたがこれに限ることはない。すなわち、テレビ会議開始後に所定周期で撮像された画像データを比較することで、会議中の利用者の入退室や、会議場所の変更などを検知して、周辺環境の変化に迅速に対応することとしてもよい。
【００８３】
このように、テスト音声信号を発生させるタイミングの調整によって、音響エコーの状態に変化が生じる可能性があるタイミングで的確にスピーカ２１３の設定を変更することができる。したがって、確実に音響エコーのフィルタリングをおこなうことができる。また、周辺環境の変化はカメラ２１２での検知に限ることはない。すなわち、利用者のログイン状態や、ＧＰＳ（ＧｌｏｂａＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）などの位置検出手段を用いることとしてもよい。このようにすれば、周辺環境の検知手段に汎用性を持たせることができる。
【００８４】
また、本発明の実施形態では特に、テスト音声について限定していないが１種類に限ることはない。すなわち、複数種類のテスト音声を用いて音響エコー情報を測定することとしてもよい。このようにすれば、的確に音響エコー情報を測定することができる。また、テスト音声は可聴音に限らず、非可聴音としてもよい。テスト音声を非可聴音とすることで、テレビ会議中など利用者が利用している間にテスト音声を出力しても利用者に違和感を与えることがない。
【００８５】
また、本発明の実施形態では特に、テスト音声信号について、他拠点の音声とは異なるテスト音声信号を生成することとして説明したが、これに限ることはない。具体的には、他拠点から受信される音声信号の一部あるいは全部に基づいてテスト音声信号を生成することとしてもよい。すなわち、他拠点から受信される音声信号をそのままテスト音声信号として用いたり、他拠点から受信される音声信号の一部をテスト音声信号として用いたりしてもよい。このようにすれば、テスト音声信号を生成する処理負荷を低減させることができる。
【００８６】
また、本発明の実施形態では特に、スピーカ２１３の向きを、測定結果テーブル５００に示したように最小状態５００に設定することとしたがこれに限ることはない。すなわち、音響エコーの大きさが、音響エコーが除去可能なレベルであるなどの所定値以下となった設定としてもよい。このようにすることで、多くのスピーカ２１３の向きの組合せをすべて試す必要がなくなるため、迅速な設定かつ処理負荷の低減を図ることができる。
【００８７】
また、最小状態５００が複数存在した場合は、利用者の方向に向いているθ１に近い向きを優先して設定することとしてもよい。このようにすれば、本来のスピーカ２１３の役割としての利用者に音声を聴かせる部分の機能を損なうことがない。
【００８８】
また、本発明の実施形態では特に、スピーカ２１３に対して１人の利用者の方向をθ１に設定することとして説明したが、これに限ることはない。具体的には、複数の利用者に対して、複数の利用者を包括する角度の範囲でスピーカ２１３の角度制御をおこなうこととしてもよい。
【００８９】
ここで、図７を用いて、本発明の実施形態の変形例における複数の利用者でスピーカ２１３の角度制御をおこなう場合について説明する。図７は、本発明の実施形態の変形例における複数の利用者に対するスピーカの角度制御の一例を示す説明図である。
【００９０】
図７において、スピーカ２１３の前には２人の利用者Ｍ１，Ｍ２が存在する。テレビ会議端末１１０は、カメラ２１２によって利用者Ｍ１，Ｍ２を撮像する。テレビ会議端末１１０は、撮像された画像データと、撮像時のカメラ２１２の向きからスピーカ２１３に対する利用者Ｍ１，Ｍ２の方向を検知する。テレビ会議端末１１０は、利用者Ｍ１，Ｍ２の方向を包括する角度範囲θについて、所定の間隔でテスト音声を発生させてスピーカの向きを設定することになる。このようにすれば、複数の利用者に対しても的確にスピーカの向きを設定することができる。
【００９１】
また、本発明の実施形態では特に、スピーカ２１３の角度の変更制御をおこなって音響エコーの最小状態を検出することとしたが、これに限ることはない。具体的には、スピーカ２１３の角度の代わりに、スピーカ２１３のＯＮ／ＯＦＦ状態に基づいて、音響エコーの最小状態を検出することとしてもよい。
【００９２】
ここで、図８を用いて、本発明の実施形態の変形例におけるスピーカのＯＮ／ＯＦＦ状態の変更制御について説明する。図８は、本発明の実施形態の変形例におけるピーカのＯＮ／ＯＦＦ状態の変更制御の一例を示す説明図である。
【００９３】
図８において、測定結果テーブル８００は、記憶媒体２０８に記憶され、各スピーカ２１３（ＳＰ１〜ＳＰ４）について、ＯＮまたはＯＦＦの状態としたときの音響エコー成分の大きさを示している。音声Ｉ／Ｆ２０５は、ＣＰＵ２０１の制御にしたがって、各スピーカ２１３（ＳＰ１〜ＳＰ４）をＯＮまたはＯＦＦとする。すなわち、各スピーカ２１３（ＳＰ１〜ＳＰ４）の状態がそれぞれＯＮまたはＯＦＦのうちいずれかであるすべての組合せのうち、すべてＯＦＦの状態をのぞいた場合について、テスト音声による音響エコーを測定した結果である。
【００９４】
図８の例では、スピーカ２１３（ＳＰ１）がＯＦＦ、スピーカ２１３（ＳＰ２）がＯＦＦ、スピーカ２１３（ＳＰ３）がＯＦＦ、スピーカ２１３（ＳＰ４）がＯＮの組合せのとき、音響エコーが最小状態８０１であることを示している。
【００９５】
このように、スピーカ２１３（ＳＰ１〜ＳＰ４）のＯＮ／ＯＦＦ状態によって音響エコー情報を測定することで、スピーカ２１３（ＳＰ１〜ＳＰ４）の角度を制御する場合に比べて簡便な仕組みで最小状態８０１を設定することができる。
【００９６】
また、スピーカ２１３の角度やＯＮ／ＯＦＦ状態の代わりに、スピーカ２１３（ＳＰ１〜ＳＰ４）の出力について総和出力を一定として出力値に基づいて、音響エコーの最小状態を検出することとしてもよい。
【００９７】
ここで、図９を用いて、本発明の実施形態の変形例におけるスピーカの出力状態の変更制御について説明する。図９は、本発明の実施形態の変形例におけるピーカの出力状態の変更制御の一例を示す説明図である。
【００９８】
図９において、測定結果テーブル９００は、記憶媒体２０８に記憶され、各スピーカ２１３（ＳＰ１〜ＳＰ４）について、出力値の総和を１００とした出力状態の組合せによる音響エコー成分の大きさを示している。音声Ｉ／Ｆ２０５は、ＣＰＵ２０１の制御にしたがって、図示しない増幅器などによって各スピーカ２１３（ＳＰ１〜ＳＰ４）の出力値を変更可能とする。すなわち、各スピーカ２１３（ＳＰ１〜ＳＰ４）を合計すると一定の出力が保たれた状態である組合せ、テスト音声による音響エコーを測定した結果である。
【００９９】
図９の例では、スピーカ２１３（ＳＰ１）が２５、スピーカ２１３（ＳＰ２）が２５、スピーカ２１３（ＳＰ３）が２５、スピーカ２１３（ＳＰ４）が２５の組合せのとき、音響エコーが最小状態９０１であることを示している。
【０１００】
また、上述した説明では、実施形態および一部の変形例について別々の例として説明したが、これに限ることはない。すなわち、それぞれを組み合わせた構成として、実施形態および一部の変形例による手法を適宜組み合わせて利用してもよい。
【０１０１】
なお、本発明の実施形態および変形例で説明した方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。この通信プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。
【符号の説明】
【０１０２】
１００テレビ会議システム
１１０（１１０ａ，１１０ｂ）テレビ会議端末
２００バス
２０１ＣＰＵ
２０２ＲＡＭ
２０３ＲＯＭ
２０４映像Ｉ／Ｆ
２０５音声Ｉ／Ｆ
２０６操作部
２０７通信Ｉ／Ｆ
２０８記憶媒体
２１１ディスプレイ
２１２カメラ
２１３スピーカ
２１４マイク
３０１テスト信号発生部
３０２出力態様制御部
３０３残留エコー測定部
３０４適応フィルタ測定部
３０５駆動部

【特許請求の範囲】
【請求項１】
音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置であって、
テスト音声信号を生成する生成手段と、
前記生成手段によって生成された前記テスト音声信号をテスト音声に変換して前記音声出力部によって出力させるテスト音声出力手段と、
前記テスト音声出力手段によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定する測定手段と、
前記測定手段によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更する変更制御手段と、
を備えることを特徴とする端末装置。
【請求項２】
前記変更制御手段は、前記音声出力部によって出力される音声の指向角度の変更制御をおこなうことを特徴とする請求項１に記載の端末装置。
【請求項３】
利用者の配置を検知する検知手段をさらに備え、
前記変更制御手段は、前記検知手段によって検知された前記利用者の配置に基づいて、前記出力態様の変更制御をおこなうことを特徴とする請求項１または２に記載の端末装置。
【請求項４】
前記テスト音声出力手段は、前記検知手段によって、前記端末装置の周囲の所定範囲に前記利用者が配置されたことを検知した場合、前記テスト音声を出力させることを特徴とする請求項３に記載の端末装置。
【請求項５】
前記端末装置の配置に関する配置情報を取得する取得手段をさらに備え、
前記テスト音声出力手段は、前記配置情報に変更があった場合、前記テスト音声を出力させることを特徴とする請求項１〜４のいずれかに記載の端末装置。
【請求項６】
音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置による処理方法であって、
テスト音声信号を生成する生成工程と、
前記生成工程によって生成された前記テスト音声信号をテスト音声に変換して前記音声出力部によって出力させるテスト音声出力工程と、
前記テスト音声出力工程によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定する測定工程と、
前記測定工程によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更する変更制御工程と、
を含むことを特徴とする処理方法。
【請求項７】
音声の入力を受け付ける音声入力部と、ネットワークを介して接続された他拠点の端末装置から受信された音声信号に基づいて音声を出力する音声出力部とを備える端末装置のための処理プログラムであって、
テスト音声信号を生成させる生成工程と、
前記生成工程によって生成された前記テスト音声信号をテスト音声に変換させて前記音声出力部によって出力させるテスト音声出力工程と、
前記テスト音声出力工程によって出力された前記テスト音声が前記音声入力部へ入力されることによって生じる音響エコー情報を測定させる測定工程と、
前記測定工程によって測定された前記音響エコー情報に基づいて、前記音声出力部の出力態様を変更させる変更制御工程と、
をコンピュータに実行させることを特徴とする端末装置のための処理プログラム。

【図１】