収音再生装置及び収音再生方法

【課題】ビデオカメラ等の音声出力装置の動作モードと、テレビ会議端末等の収音再生装置の動作モードとが正しく設定されない場合に生じる誤動作を防止する。
【解決手段】本発明の収音再生装置１００は、マイクロホン１１２とスピーカ１１１とビデオカメラ２７とが存在する周辺の空間における音声と、ビデオカメラ２７により出力されるカメラ入力信号１３１との相関値が第１の値以上か否かを判定する判定部１０１と、相関値が第１の値以上の場合、コミュニケーション装置１２により送信された受信信号１３２をスピーカ１１１に出力し、相関値が第１の値未満の場合、カメラ入力信号１３１と受信信号１３２とを混合することにより、ミキシング入力信号１３３を生成し、生成したミキシング入力信号１３３をスピーカ１１１に出力する入力音声混合部１０３とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、収音再生装置及び収音再生方法に関し、特に、マイクロホンが収音した音声、及び音声出力装置により出力される音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生装置に関する。
【背景技術】
【０００２】
テレビ会議システムにおいて、テレビ会議端末に外部機器を接続し、外部機器に保存されている動画像データを複数のテレビ会議端末で共有する技術が知られている（例えば、特許文献１参照）。
【０００３】
また、テレビ会議端末に外部機器としてビデオカメラを接続することで、ビデオカメラに保存された動画像データを複数のテレビ会議端末で共有することができる。さらに、ビデオカメラでリアルタイムに録画及び録音中の動画像データを複数のテレビ会議端末で共有することができる。
【０００４】
一般にビデオカメラは、保存している動画像データを出力（再生）する再生モードと、現在記録中の動画像データを出力（表示）する撮影モードとを有する。
【０００５】
また、ビデオカメラに記録された動画像データを複数のテレビ会議端末で共有する場合（以下、再生モード）、自身の端末（以下、自端末）は、ビデオカメラに記録された動画像データと、自端末が備えるカメラ及びマイクロホンで取得した動画像データとを通話相手の端末（以下、相手端末）に送信する。なお、自端末は、ビデオカメラに記録された動画像データのみを送信してもよい。さらに、自端末は、ビデオカメラに記録された動画像データと、相手端末から送信された動画像データとを自端末に表示する。なお、自端末は、ビデオカメラに記録された動画像データのみを自端末に表示してもよいし、相手端末から送信された動画像データのみを自端末に表示してもよい。
【０００６】
また、ビデオカメラでリアルタイムに録画及び録音中の動画像データを複数のテレビ会議端末で共有する場合（以下、撮影モード）、自端末は、ビデオカメラで撮影中の動画像データと、自端末が備えるカメラ及びマイクロホンで取得した動画像データとを相手端末に送信する。なお、自端末は、ビデオカメラで撮影中の動画像データのみを相手端末に送信してもよい。さらに、自端末は、ビデオカメラで撮影中の動画像データと、相手端末から送信された動画像データとを自端末に表示する。なお、自端末は、ビデオカメラで撮影中の動画像データのみを自端末に表示してもよい。
【０００７】
なお、以下では、音声信号のみに着目して説明する。
つまり、再生モードでは、自端末は、ビデオカメラに記録された音声信号と、自端末が備えるマイクロホンにより収音された音声信号とをミキシング（混合）し、ミキシングした音声信号を相手端末に送信する。さらに、自端末は、ビデオカメラに記録された音声信号と、相手端末より送信された音声信号とをミキシングし、ミキシングした音声信号を自端末のスピーカから出音する。
【０００８】
また、撮影モードでは、自端末は、ビデオカメラで撮影中の音声信号と、自端末が備えるマイクロホンにより収音された音声信号とをミキシングし、ミキシングした音声信号を相手端末に送信する。また、自端末は、相手端末より送信された音声信号のみを自端末のスピーカから出音する。
【特許文献１】特開平０９−０６５３０５号公報
【発明の開示】
【発明が解決しようとする課題】
【０００９】
しかしながら、上述したテレビ会議端末では、ビデオカメラの動作モード（再生モード及び撮影モード）と、テレビ会議端末の動作モード（再生モード及び撮影モード）との組み合わせが、正しく設定されない場合、以下に示す課題が生じる。
【００１０】
図１９は、テレビ会議端末とビデオカメラとの動作モードの組み合わせに対する、動作の一覧を示す図である。
【００１１】
図１９に示すように、テレビ会議端末が再生モードであり、かつビデオカメラが撮影モードの場合、ビデオカメラで撮影中の音声信号が自端末のスピーカで拡声され、当該拡声された音声が再度ビデオカメラで収音される。これにより、最悪の場合には、ハウリングが発生するという課題が生じる。
【００１２】
また、テレビ会議端末が撮影モードであり、ビデオカメラが再生モードの場合、ビデオカメラに記録される音声信号が自端末で再生されないという課題が生じる。
【００１３】
このように、従来のテレビ会議端末は、ビデオカメラ等の音声出力装置の動作モードと、テレビ会議端末等の収音再生装置の動作モードとが正しく設定されない場合に、誤動作が生じるという課題を有する。
【００１４】
本発明は、上記課題を解決するものであり、ビデオカメラ等の音声出力装置の動作モードと、テレビ会議端末等の収音再生装置の動作モードとが正しく設定されない場合に生じる誤動作を防止できる収音再生装置及び収音再生方法を提供することを目的とする。
【課題を解決するための手段】
【００１５】
上記目的を達成するために、本発明に係る収音再生装置は、既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生装置であって、前記マイクロホンと前記スピーカと前記音声出力装置とが存在する周辺の空間における音声と、前記音声出力装置により出力される第１入力音声信号との相関値が予め定められた第１の値以上か否かを判定する判定部と、前記相関値が前記第１の値以上の場合、前記他の装置により送信された第２入力音声信号を前記スピーカに出力し、前記相関値が前記第１の値未満の場合、前記第１入力音声信号と前記第２入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合部と、前記相関値が前記第１の値以上の場合、前記マイクロホンにより収音された第１収音信号及び前記第１入力音声信号のうち少なくとも一方を含む第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第１収音信号と前記第１入力音声信号とを混合することにより、第２出力信号を生成する出力音声混合部と、前記相関値が前記第１の値以上の場合、前記第１出力信号を、前記通信網を介して前記他の装置に送信し、前記相関値が前記第１の値未満の場合、前記第２出力信号を、前記通信網を介して前記他の装置に送信する送信部とを備える。
【００１６】
この構成によれば、本発明に係る収音再生装置は、マイクロホンとスピーカと音声出力装置とが存在する周辺の空間における音声と、音声出力装置により出力される第１入力音声信号との相関を用いて、音声出力装置が、記録している音声を出力している（再生モード）か、収音中の音声を出力している（撮影モード）かを判断できる。これにより、本発明に係る収音再生装置は、音声出力装置の動作モードを自動で判断したうえで、音声出力装置の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明に係る収音再生装置は、音声出力装置の動作モードと、収音再生装置の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【００１７】
また、前記判定部は、前記第１収音信号と前記第１入力音声信号との相関値が予め定められた第２の値以上か否かを判定することにより、前記空間における音声と、前記第１入力音声信号との相関値が前記第１の値以上か否かを判定してもよい。
【００１８】
この構成によれば、本発明に係る収音再生装置は、マイクロホンで収音された収音信号と、音声出力装置により出力される第１入力音声信号との相関を用いて、音声出力装置が、記録している音声を出力している（再生モード）か、収音中の音声を出力している（撮影モード）かを判断できる。
【００１９】
また、前記判定部は、前記第２入力音声信号と前記第１入力音声信号との相関値が予め定められた第２の値以上か否かを判定することにより、前記空間における音声と、前記第１入力音声信号との相関値が前記第１の値以上か否かを判定してもよい。
【００２０】
この構成によれば、本発明に係る収音再生装置は、スピーカから出音される第２入力音声信号と、音声出力装置により出力される第１入力音声信号との相関を用いて、音声出力装置が、記録している音声を出力している（再生モード）か、収音中の音声を出力している（撮影モード）かを判断できる。
【００２１】
また、前記出力音声混合部は、前記相関値が前記第１の値以上の場合、前記第１収音信号と前記第１入力音声信号とを混合することにより、第１混合出力信号を生成する第１音声混合部と、前記相関値が前記第１の値以上の場合、前記第１混合出力信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、前記第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第１収音信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第２収音信号を生成するエコーキャンセラと、前記相関値が前記第１の値未満の場合、前記第２収音信号と前記第１入力音声信号とを混合することにより、前記第２出力信号を生成する第２音声混合部とを備えてもよい。
【００２２】
この構成によれば、本発明に係る収音再生装置は、音声出力装置が記録している音声を出力している場合（再生モード時）には、エコーキャンセル処理を行っていない第１入力音声信号と、エコーキャンセル処理を行った第２収音信号とを混合する。これにより、第１入力音声信号と第１収音信号とを混合した後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【００２３】
さらに、本発明に係る収音再生装置は、音声出力装置が収音中の音声を出力している場合（撮影モード時）には、第１入力音声信号と第１収音信号とを混合したうえで、他の装置に送信する。これにより、マイクロホンと、音声出力装置とが離れた位置に存在する場合でも、マイクロホンの周辺の音声と、音声出力装置の周辺の音声とを、他の装置に送信できる。
【００２４】
また、前記出力音声混合部は、前記相関値が前記第１の値以上の場合、前記第１入力音声信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、前記第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第１収音信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第２収音信号を生成するエコーキャンセラと、前記相関値が前記第１の値未満の場合、前記第２収音信号と前記第１入力音声信号とを混合することにより、前記第２出力信号を生成する第１音声混合部とを備えてもよい。
【００２５】
この構成によれば、本発明に係る収音再生装置は、音声出力装置が記録している音声を出力している場合（再生モード時）には、エコーキャンセル処理を行っていない第１入力音声信号と、エコーキャンセル処理を行った第２収音信号とを混合する。これにより、第１入力音声信号と第１収音信号とを混合した後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【００２６】
さらに、本発明に係る収音再生装置は、音声出力装置が収音中の音声を出力している場合（撮影モード時）には、第１入力音声信号のみを他の装置に送信する。これにより、第１音声入力信号と第１収音信号とを混合した後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【００２７】
また、前記出力音声混合部は、前記相関値が前記第１の値以上の場合、前記第１入力音声信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第３入力音声信号を生成する第１エコーキャンセラと、前記第１収音信号に含まれる前記スピーカにより出音された音声の成分を除去することにより、第２収音信号を生成する第２エコーキャンセラと、前記相関値が前記第１の値以上の場合、前記第２収音信号と前記第３入力音声信号とを混合することにより、前記第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第２収音信号と前記第１入力音声信号とを混合することにより、前記第２出力信号を生成する第１音声混合部とを備えてもよい。
【００２８】
この構成によれば、本発明に係る収音再生装置は、音声出力装置が記録している音声を出力している場合（再生モード時）には、エコーキャンセル処理を行っていない第１入力音声信号と、エコーキャンセル処理を行った第２収音信号とを混合する。これにより、第１入力音声信号と第１収音信号とを混合した後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【００２９】
さらに、本発明に係る収音再生装置は、音声出力装置が記録している音声を出力している場合（再生モード時）には、第１入力音声信号と第１収音信号とのそれぞれに対して、エコーキャンセル処理を行った後に、混合を行う。これにより、第１入力音声信号と第１収音信号とを混合した後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【００３０】
また、前記判定部は、さらに、前記音声出力装置により前記第１入力音声信号が出力されているか否かを判定し、前記入力音声混合部は、前記音声出力装置により前記第１入力音声信号が出力されていない場合、前記第２入力音声信号を前記スピーカに出力し、前記送信部は、前記音声出力装置により前記第１入力音声信号が出力されていない場合、前記第１収音信号を、前記通信網を介して前記他の装置に送信してもよい。
【００３１】
この構成によれば、本発明に係る収音再生装置は、音声出力装置から第１入力音声信号が出力されていない場合、及び、当該音声出力装置が、当該収音再生装置に接続されていない場合には、自動的に、通常の音声通信モードで動作することができる。
【００３２】
また、前記入力音声混合部は、当該収音再生装置が起動されてから、前記判定部により前記判定が行われるまでの間、前記第２入力音声信号を前記スピーカに出力してもよい。
【００３３】
この構成によれば、本発明に係る収音再生装置は、当該収音再生装置の起動時の誤動作（ハウリング）の発生を防止できる。
【００３４】
また、前記収音再生装置は、さらに、判定音を前記スピーカに出音させる判定音出力部を備え、前記判定部は、前記スピーカにより前記判定音が出音されている期間において、前記空間における音声と、前記第１入力音声信号との相関値が前記第１の値以上か否かを判定してもよい。
【００３５】
この構成によれば、本発明に係る収音再生装置は、マイクロホンとスピーカと音声出力装置とが存在する周辺の空間における音声と、音声出力装置により出力される第１入力音声信号との相関値を精度よく算出できる。
【００３６】
また、本発明に係る収音再生装置は、既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生装置であって、前記音声出力装置が、収音中の音声を出力する第１モードで動作しているか、前記音声出力装置が既に記録している音声を出力する第２モードで動作しているかを示す、外部から入力された制御情報を取得し、当該制御情報に基づき、前記音声出力装置が、前記第１モードで動作しているか前記第２モードで動作しているかを判定する判定部と、前記音声出力装置が前記第１モードで動作している場合、前記他の装置により送信された第２入力音声信号を前記スピーカに出力し、前記音声出力装置が前記第２モードで動作している場合、前記第１入力音声信号と前記第２入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合部と、前記音声出力装置が前記第１モードで動作している場合、前記マイクロホンにより収音された第１収音信号及び前記第１入力音声信号のうち少なくとも一方を含む第１出力信号を生成し、前記音声出力装置が前記第２モードで動作している場合、前記第１収音信号と前記第１入力音声信号とを混合することにより、第２出力信号を生成する出力音声混合部と、前記音声出力装置が前記第１モードで動作している場合、前記第１出力信号を、前記通信網を介して前記他の装置に送信し、前記音声出力装置が前記第２モードで動作している場合、前記第２出力信号を、前記通信網を介して前記他の装置に送信する送信部とを備える。
【００３７】
この構成によれば、本発明に係る収音再生装置は、制御情報を用いて、音声出力装置が、記録している音声を出力している（再生モード）か、収音中の音声を出力している（撮影モード）かを判断できる。これにより、本発明に係る収音再生装置は、音声出力装置の動作モードを自動で判断したうえで、音声出力装置の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明に係る収音再生装置は、音声出力装置の動作モードと、収音再生装置の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【００３８】
なお、本発明は、このような収音再生装置として実現できるだけでなく、収音再生装置に含まれる特徴的な手段をステップとする収音再生方法として実現したり、そのような特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体及びインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
【００３９】
さらに、本発明は、このような収音再生装置の機能の一部又は全てを実現する半導体集積回路（ＬＳＩ）として実現したり、このような収音再生装置を備える音声通信端末、音声会議端末、テレビ会議端末、又はコミュニケーション装置として実現したり、このような音声通信端末、音声会議端末、テレビ会議端末、又はコミュニケーション装置を含む音声通信システム、音声会議システム、テレビ会議システム、又はコミュニケーションシステムとして実現したりできる。
【発明の効果】
【００４０】
以上より、本発明は、ビデオカメラ等の音声出力装置の動作モードと、テレビ会議端末等の収音再生装置の動作モードとが正しく設定されない場合に生じる誤動作を防止できる収音再生装置及び収音再生方法を提供できる。
【発明を実施するための最良の形態】
【００４１】
以下、本発明の実施の形態について、図面を参照しながら説明する。
【００４２】
（実施の形態１）
まず、本発明の実施の形態に係る収音再生装置を含むコミュニケーションシステムについて説明する。
【００４３】
図１は、本発明の実施の形態１に係る２拠点でのコミュニケーションサービスを実現するコミュニケーションシステム２の構成を示す図である。
【００４４】
図１において、第１の拠点に配置されるコミュニケーション装置１１と、第２の拠点に配置されるコミュニケーション装置１２とは、通信機能を有する映像音声制御装置であり、通信網１０を介して相互接続が可能である。
【００４５】
コミュニケーション装置１１は、第１の拠点におけるリアルタイムな映像音声データを、カメラ及びマイクロホンから取得し、取得した映像音声データを、通信網１０を介してコミュニケーション装置１２に送信する。また、コミュニケーション装置１１は、第２の拠点におけるリアルタイムな映像音声データを、コミュニケーション装置１２から受信し、自装置のディスプレイ及びスピーカに出力する。
【００４６】
また、通信網１０を介しているにもかかわらず、距離による影響を低減した、よりリアルなコミュニケーションサービスを提供するために、コミュニケーション装置１１及び１２は、複数個のディスプレイ、カメラ、マイクロホン、及びスピーカを備える。これらの入出力装置は、予め適した位置に配置されており、この配置に特徴を有している。これについては、図を用いて後で詳細に説明する。
【００４７】
通信網１０は、有線回線でも無線回線でもよく、また、この両方の組み合わせであってもよい。また、インターネット又は公衆電話回線などのパブリックネットワークであってもよく、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などの限られたドメインの中でクローズされたローカルネットワークであってもよく、また、この両方の組み合わせであってもよい。
【００４８】
また、コミュニケーション装置１１とコミュニケーション装置１２との間の通信には、例えば、ＲＴＰ（Ｒｅａｌ−ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）又はＴＣＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ）を用いたデジタル通信が用いられる。
【００４９】
また、コミュニケーション装置１１及び１２は、ネットワーク上の位置を示すアドレス情報としてＩＰアドレスが割り当てられているものとする。なお、ＩＰアドレスでなく、電話番号など他の情報をアドレス情報として用いてもよい。
【００５０】
また、コミュニケーション装置１１及び１２が送受信するデータは、リアルタイムな映像音声データとしたが、光ディスク又はハードディスクなどの記憶媒体に記録されている映像音声データも、リアルタイムな映像音声データと共に送受信することができる。また、コミュニケーション装置１１及び１２が送受信するデータは、静止画データ、テキスト、又はＨＴＭＬなどの文書データでもよい。
【００５１】
以上により、コミュニケーション装置１１とコミュニケーション装置１２とは、予め適した位置に配置された複数個の入出力装置を用いて、他拠点のリアルタイムな映像及び音声を出力することが可能となり、よりリアルなコミュニケーションサービスを提供することができる。
【００５２】
また、図１に示した２拠点でのコミュニケーションサービスだけでなく、３拠点以上での相互接続によるコミュニケーションサービスが可能である。図２は、前述したコミュニケーション装置１１及び１２以外の機器も備えたコミュニケーションシステム３の構成の一例を示している。
【００５３】
図２に示すコミュニケーションシステム３では、コミュニケーション装置１１と、コミュニケーション装置１２と、ノートＰＣ（パーソナルコンピュータ）１３と、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）１５と、携帯電話１６と、ディスクトップＰＣ１９とが接続され、５拠点でのコミュニケーションシステムが実施される。なお、ここでは、公衆電話回線である通信網１０とインターネット１８とが、インターネットサービスプロバイダであるサーバ１７を介して接続されているものとする。
【００５４】
コミュニケーション装置１１及び１２は、図１と同じであるため、それ以外の機器について説明する。なお、図２に示した通り、コミュニケーション装置１１及び１２を構成する構成要素の一部又は全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。
【００５５】
ノートＰＣ１３は、カメラ機能を内蔵しておらず、外付けでカメラ１４が接続されている。カメラ１４は、デジタルビデオカメラなどの動画撮影が可能な機器である。ノートＰＣ１３は、カメラ１４により撮影された映像音声データを、自拠点でのリアルタイムな映像音声データとして、通信網１０を介して、他機器に送信する。なお、カメラ１４が、動画撮影機能を有しておらず、静止画撮影機能のみの場合、撮影した静止画データを一定間隔で送信してもよい。
【００５６】
ＰＤＡ１５は、カメラ機能を有しておらず、自拠点のリアルタイムな映像データを送信することができない。ＰＤＡ１５は、通信網１０を介して、受信した映像データをディスプレイ及びスピーカに出力するとともに、自拠点でのリアルタイムな音声データを他機器に送信する。なお、カメラ機能を有している場合は、映像音声データを送受信することが可能となる。
【００５７】
携帯電話１６は、ＣＣＤカメラなどのカメラ付きの携帯電話であり、自拠点でのリアルタイムな映像音声データをカメラ及びマイクから取得し、通信網１０を介して他機器に送信する。また、受信した映像音声データを自装置のディスプレイ及びスピーカに出力する。また、携帯電話１６は、ＰＤＣ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓ）方式、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）方式、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ）方式、Ｗ−ＣＤＭＡ（Ｗｉｄｅｂａｎｄ−ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）方式、ＣＤＭＡ１ｘ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）方式、及びＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）などのうち、いずれの通信方式を用いてもよい。また、携帯電話１６は、ＳＤカードなどの記録媒体である蓄積メディアを装着可能なスロット部を有しており、記録メディアに記録されているデータを、コミュニケーションサービスに参加している他機器と共有することが可能である。さらに、携帯電話１６による通信網１０への接続は、ＷｉＭＡＸなど他の無線通信機能を用いてもよい。
【００５８】
ディスクトップＰＣ１９は、カメラ機能を内蔵しており、自拠点でのリアルタイムな映像音声データをカメラ及びマイクから取得し、インターネット１８と通信網１０を介して他機器に送信する。なお、インターネット１８と通信網１０とは、インターネットサービスプロバイダのサーバ１７を介して接続しているものとする。また、ディスクトップＰＣ１９は、受信した映像音声データを自装置のディスプレイ及びスピーカに出力する。なお、ディスクトップＰＣ１９は、光ディスク又はＳＤカードなどの記憶媒体である蓄積メディアの読み取りが可能なデバイスと、外付けＨＤＤ又は内部メモリとのうち１以上を有しており、これらに記録されているデータを、コミュニケーションサービスに参加している他機器と共有することが可能である。
【００５９】
また、各機器は、ネットワーク上の位置を示すアドレス情報として電話番号又はＩＰアドレスが割り当てられているものとする。なお、ＩＰｖ６対応のＩＰアドレスを用いることで、各機器が物理的に移動しても、同じアドレスを用いてコミュニケーションサービスに参加することが可能となる。
【００６０】
また、各機器は、コミュニケーションサービスに参加している他機器へマルチキャストで映像音声データの送信を行なってもよい。また、特定の機器（例えばコミュニケーション装置１１）をサーバと設定し、サーバが他機器から映像音声データを受信して処理を行なった後、他機器へマルチキャストしてもよい。
【００６１】
以上により、コミュニケーション装置１１とコミュニケーション装置１２は、複数拠点に位置する各機器が送信したリアルタイムな映像や音声を出力することが可能となり、よりリアルなコミュニケーションサービスを提供することができる。
【００６２】
次に、コミュニケーション装置１１及び１２が備える入出力装置の配置について説明する。図３は、コミュニケーション装置１１及び１２の構成の一例を示す図である。
【００６３】
コミュニケーション装置１１及び１２は、本体２０と、ディスプレイ２１ａ、２１ｂ及び２１ｃと、カメラ２２ａ、２２ｂ、２２ｃ、２２ｄ及び２２ｅと、マイク２３と、スピーカ２４ａ、２４ｂ及び２４ｃと、リモコン２６と、ビデオカメラ２７とを備えている。また、各入出力装置（ディスプレイ２１ａ、２１ｂ及び２１ｃ、カメラ２２ａ、２２ｂ、２２ｃ、２２ｄ及び２２ｅ、マイク２３、スピーカ２４ａ、２４ｂ及び２４ｃ、リモコン２６、及びビデオカメラ２７）は、本体２０と接続されている。この接続は、有線回線であっても無線回線であってもよい。また、コミュニケーションサービスに参加する１人以上のユーザは、ディスプレイ２１ａ、２１ｂ及び２１ｃの方向に向いて机２５の席につくことを想定している。
【００６４】
本体２０は、ＣＰＵ及びメモリを備えた情報処理装置である。本体２０は、各入出力装置の制御と、入出力装置から入力された映像音声データの符号化処理と、通信網１０を介した通信制御処理と、通信網１０を介して受信した映像音声データの復号化処理と、復号化した映像音声データの入出力装置への出力処理などとを行なう。
【００６５】
ディスプレイ２１ａ、２１ｂ及び２１ｃは、映像などを表示する装置であり、例えば、ＬＣＤ（ＬｉｇｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）又はＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）である。このディスプレイ２１ａ、２１ｂ及び２１ｃは、コミュニケーションサービスに参加するユーザの正面に位置するよう、机２５の前面に並べて配置される。ここでは３個のディスプレイが接続されている。この３個のディスプレイには、他拠点での参加者の映像が、机２５の席についているように表示される。つまり、他拠点の映像は、ディスプレイの個数に合わせて分割して表示される。なお、４個以上のディスプレイを接続してもよい。
【００６６】
カメラ２２ａ、２２ｂ、２２ｃ、２２ｄ及び２２ｅは、デジタルビデオカメラなどの動画撮影機能を有する撮影装置である。このカメラ２２ａ、２２ｂ、２２ｃ、２２ｄ及び２２ｅは、ディスプレイ２１ａ、２１ｂ及び２１ｃの上部に配置される。ここでは５個のカメラが接続されている。カメラ２２ａは、左に位置するディスプレイ２１ａの左右方向の中央に配置される。カメラ２２ｅは、右に位置するディスプレイ２１ｃの左右方向の中央に配置される。カメラ２２ｂ、２２ｃ及び２２ｄは、中央に位置するディスプレイ２１ｂの左右方向の中央に並べて配置される。また、隣り合わせに配置されたカメラの撮影対象は、映像の端が一部重なるものとする。これにより、コミュニケーション装置１１及び１２は、ディスプレイ２１ａ、２１ｂ及び２１ｃの方向に向いて机２５の席についたユーザの映像を、切れ目なく撮影して、他拠点に送信することが可能となる。
【００６７】
マイク２３は、周辺の音声の集音を行なう入力装置である。このマイク２３は、机２５の中央に配置される。また、机２５の席についたユーザの人数に合わせた個数の指向性マイクを、各ユーザの正面に位置するように配置してもよい。また、１個の無指向性マイクと１個以上の指向性マイクを組み合わせて配置してもよい。これにより、他拠点において、どの方向からの音声かを把握することが可能となり、他拠点は音声を出力する方向を制御することが可能となる。
【００６８】
スピーカ２４ａ、２４ｂ及び２４ｃは、ディスプレイ２１ａ、２１ｂ及び２１ｃの背後に配置される。ディスプレイの個数に合わせて、ここでは３個のスピーカが接続されている。これにより、ディスプレイ２１ａ、２１ｂ及び２１ｃに表示されている映像に合わせて、音声を出力するスピーカを制御することが可能となる。つまり、ディスプレイ２１ａに表示されているユーザの声が、スピーカ２４ａから出力されることになる。
【００６９】
リモコン２６は、ユーザからの入力指示を受け、本体２０への操作入力信号を送信する操作入力装置である。なお、リモコン２６は、机２５の席についたユーザにより操作可能であればよい。また、ここでは、操作入力装置はリモコンとしたが、キーボード及びマウスなど、他の操作入力装置を用いてもよい。また、机２５の席についたユーザの人数に合わせた個数の操作入力装置を、各ユーザの正面に位置するように配置してもよい。
【００７０】
ビデオカメラ２７は、例えば、民生のデジタルビデオカメラであり、動画像撮影機能と、周辺の音声の集音を行なう機能とを有する。また、このデジタルビデオカメラは、ユーザにより移動が可能である。
【００７１】
以上により、コミュニケーション装置１１及び１２は、他拠点とのコミュニケーションサービスを提供することが可能となる。つまり、ユーザがリモコン２６を操作して接続先（他拠点）を設定して通信を確立し、コミュニケーションサービスを開始する。コミュニケーションサービス実行中は、カメラ２２ａ、２２ｂ、２２ｃ、２２ｄ及び２２ｅが、机２５の席についたユーザの映像を撮影し、同時に、マイク２３が、音声を収音する。
【００７２】
本体２０は、カメラ２２ａ、２２ｂ、２２ｃ、２２ｄ及び２２ｅとマイク２３とから、自拠点のリアルタイムな映像音声データを取得し、取得した映像音声データに符号化処理を行い、符号化した映像音声データを他拠点へ送信する。また、本体２０は、他拠点の映像音声データを受信し、受信した映像音声データに復号化処理を行い、復号化した映像音声データをディスプレイ２１ａ、２１ｂ及び２１ｃとスピーカ２４ａ、２４ｂ及び２４ｃとへ出力する。
【００７３】
これにより、複数拠点間で相互にリアルタイムな映像及び音声を出力することが可能となり、よりリアルなコミュニケーションサービスを提供することができる。また、コミュニケーションサービス実行中に、ユーザがリモコン２６を操作して、光ディスク又はＳＤカードなどの記憶媒体である蓄積メディアに記録されているデータを取得し、通信網１０を介して送受信することで、コミュニケーションサービスに参加している他機器と当該データを共有することが可能となる。
【００７４】
図４は、コミュニケーション装置１１及び１２の構成を示すブロック図である。
コミュニケーション装置１１及び１２は、制御部３０、音声符号化部３１、音声復号化部３２、画像符号化部３３、画像復号化部３４、電源回路３５、タイマー回路３６、音声処理部３７、音声出力部３８、音声入力部３９、表示処理部４０、表示部４１、画像処理部４２、画像入力部４３、操作入力制御部４４、操作入力部４５、通信制御部４６、及び送受信回路４７を備える。各処理部は、バスラインを通じて互いに接続されている。また、必要に応じて、バスラインには、ハードディスク装置４８及び読取装置４９を接続することが可能である。ハードディスク装置４８と読取装置４９とは、それぞれインタフェースを通じてバスラインに接続される。
【００７５】
制御部３０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５０、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５１、及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５２を備え、コミュニケーション装置全体の制御を行う。ＣＰＵ５０は、単一のＣＰＵで構成されても良く、複数のＣＰＵで構成されても良い。ＲＯＭ５１は、ＣＰＵ５０の動作を規定するコンピュータプログラムを記憶している。コンピュータプログラムは、ハードディスク装置４８に記憶させることもできる。ＣＰＵ５０は、ＲＯＭ５１又はハードディスク装置４８が格納するコンピュータプログラムを、必要に応じてＲＡＭ５２に書き込みつつ、コンピュータプログラムが規定する処理を実行する。ＲＡＭ５２は、ＣＰＵ５０が処理を実行するのに伴って発生するデータを一時的に記憶する媒体としても機能する。ＲＯＭ５１には、フラッシュＲＯＭのように書き込みが可能で、電源を切っても記憶内容を保持できる不揮発性のメモリ及び記憶媒体も含まれる。また、ＲＡＭ５２には、電源を切ると記憶内容が保持されない揮発性のメモリ及び記憶媒体が含まれる。
【００７６】
音声符号化部３１は、音声処理部３７から通知された音声データを、特定の符号化方法によって圧縮符号化することにより、符号化音声データに変換し、変換した符号化音声データを通信制御部４６に出力する。
【００７７】
音声復号化部３２は、通信制御部４６から通知された符号化音声データを、特定の復号化方法で復号化することにより再生可能な音声データを生成し、生成した音声データを音声処理部３７に出力する。
【００７８】
画像符号化部３３は、画像処理部４２から通知された画像データを、特定の符号化方法によって圧縮符号化することにより、符号化画像データに変換し、変換した符号化画像データを通信制御部４６に出力する。
【００７９】
画像復号化部３４は、通信制御部４６から通知された符号化画像データを、特定の復号化方法で復号化することにより再生可能な画像データを生成し、生成した画像データを表示処理部４０に出力する。
【００８０】
電源回路３５は、電源キーのオン操作により、バッテリーパック又はアダプタ経由で受け取った電力を各処理部に供給することにより、コミュニケーション装置を動作可能な状態に起動する。また、コミュニケーション装置１１及び１２は、通常モード及び省電力モードを含む複数のモードを備えでもよい。省電力モード時には、電源回路３５は、一部の処理部にのみに電力を供給することで、必要な電力を低減することができる。例えば、コミュニケーション装置１１及び１２は、他拠点からの着呼待ち状態の場合、通信制御部４６及び送受信回路４７のみに電力を供給する省電力モードで動作し、着呼を受けた際に省電力モードから通常モードに遷移することで、他処理部の動作を開始してもよい。
【００８１】
タイマー回路３６は、一定の周期でタイマー割込信号を出力する装置である。
音声出力部３８は、音声データを出力する装置であり、図３で説明したスピーカ２４ａ、２４ｂ及び２４ｃに相当する。音声出力部３８は、音声処理部３７から通知された音声データを出音する。
【００８２】
音声入力部３９は、周辺の音声の集音を行なう入力装置であり、図３で説明したマイク２３に相当する。音声入力部３９は、集音した音声信号を音声処理部３７に通知する。
【００８３】
音声処理部３７は、１つ以上の音声入力部３９から通知された音声信号をデジタル変換し、変換したデジタル音声信号に対して合成又は加工処理などを行い、当該処理を行った音声信号を音声符号化部３１に通知する。また、音声処理部３７が、ノイズキャンセル機能などにより、よりクリアな音声データを生成することもできる。また、音声入力部３９が複数個存在する場合、音声処理部３７は、複数個の音声入力部３９の配置情報を管理し、配置に適した音声データを生成することが可能となる。さらに、音声処理部３７は、音声復号化部３２から通知された音声データの分割及び加工処理などを行い、生成した音声データを音声出力部３８に通知する。音声処理部３７は、複数個の音声出力部３８の配置情報を管理し、各音声出力部３８に適した複数個の音声データを生成することが可能となる。
【００８４】
表示部４１は、画像及び文字等を表示する装置である。図３で説明したディスプレイ２１ａ、２１ｂ及び２１ｃに相当する。表示部４１は、表示処理部４０から通知された表示データを画面に表示する。
【００８５】
表示処理部４０は、画像復号化部３４から通知された画像データの分割及び加工処理などを行い、生成した表示データを表示部４１に通知する。表示処理部４０は、複数個の表示部４１の配置情報を管理し、各表示部４１に適した複数個の表示データを生成することが可能となる。また、表示処理部４０は、画像処理部４２から自拠点の画像データを受け取り、表示部４１に出力することで、自拠点の画像を表示することも可能である。
【００８６】
画像入力部４３は、デジタルビデオカメラなどの動画撮影機能を有する撮影装置であり、図３で説明したカメラ２２ａ、２２ｂ、２２ｃ、２２ｄ及び２２ｅに相当する。画像入力部４３は、撮影した画像データを画像処理部４２に通知する。また、画像入力部４３は、デジタルスチルカメラなどの静止画撮影機能のみの撮影装置であってもよく、撮影した静止画データを一定間隔で画像処理部４２に通知してもよい。
【００８７】
画像処理部４２は、１つ以上の画像入力部４３から通知される画像データの合成及び加工処理などを行い、画像符号化部３３に通知する。画像処理部４２は、複数個の画像入力部４３の配置情報を管理し、配置に適した画像データを生成することが可能となる。また、画像処理部４２は、表示処理部４０に通知することで、自拠点の画像データを表示部４１に直接表示することも可能である。
【００８８】
操作入力部４５は、ユーザからの入力指示を受け、当該入力指示に対応する操作入力信号を操作入力制御部４４に通知する装置であり、図３で説明したリモコン２６に相当する。なお、操作入力部４５は、キーボード及びマウスなど、他の操作入力装置であってもよい。また、操作入力部４５は、ジャイロ機能及びセンサー機能などを用いて、入力指示を受けてもよい。
【００８９】
操作入力制御部４４は、操作入力部４５から通知された操作入力信号を受け取り、受け取った操作入力信号を対応する制御データに変換したうえで制御部３０に出力する。
【００９０】
送受信回路４７は、ネットワークを介したデータ送受信を行なう回路である。例えば、ネットワークが無線回線の場合、送受信回路４７は、通信制御部４６から受け取った送信データを、所定の方式で変調し、変調した送受信データを無線搬送波に乗せて送信する機能と、アンテナに誘起した高周波信号の中から所定の周波数帯の信号を受信し、受信した信号を復調したうえで通信制御部４６に通知する機能を有する。
【００９１】
通信制御部４６は、送受信回路４７を用いて、他機器と自身との間で通信を確立したうえで、ネットワークを介した映像音声データの送受信を行なう。例えば、呼接続制御（ＣａｌｌＣｏｎｔｒｏｌ）機能、及びデータ通信制御（ＩＰ、ＲＴＰ、ＴＣＰなど）機能を有している。また、音声符号化部３１から通知された符号化音声データと、画像符号化部３３から通知された符号化画像データとを受け取り、受け取った符号化音声データ及び符号化画像データを所定の方式で多重化することにより、送信する映像音声データを生成する。また、受信した映像音声データを、所定の方式で多重分離することにより、符号化音声データと符号化画像データとに分離し、分離した符号化音声データを音声復号化部３２に通知し、分離した符号化画像データを画像復号化部３４に通知する。また、コミュニケーション装置１１及び１２が複数の異なるネットワークに接続可能である場合、コミュニケーション装置１１及び１２は、各ネットワークに対応する複数個の通信制御部４６と送受信回路４７とを備える構成でもよい。
【００９２】
ハードディスク装置４８は、内蔵するハードディスクに対して、コンピュータプログラム、又はデータを書き込み及び読み出す装置である。
【００９３】
読取装置４９は、記録媒体（例えばＣＤ、ＤＶＤ又はメモリカードなど）に記録されたコンピュータプログラム、又はデータを読み取る装置である。
【００９４】
以上のように、コミュニケーション装置１１及び１２は、複数の入出力装置を備えたコンピュータとして構成されており、他拠点とのコミュニケーションサービスを提供することが可能となる。
【００９５】
以下、コミュニケーション装置１１が備える、本発明の実施の形態１に係る収音再生装置１００について、説明する。この収音再生装置１００は、主にコミュニケーションシステム２が有する音声通信機能を実現する。
【００９６】
この収音再生装置１００は、マイクロホン１１２で収音された収音信号１３４と、ビデオカメラ２７により出力されるカメラ入力信号１３１との相関を用いて、ビデオカメラ２７が再生モードで動作しているのか、撮影モードで動作しているのかを判断する。これにより、収音再生装置１００は、ビデオカメラ２７の動作モードを自動で判断したうえで、ビデオカメラ２７の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明の実施の形態１に係る収音再生装置１００は、ビデオカメラ２７の動作モードと、当該収音再生装置１００の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【００９７】
まず、本発明の実施の形態１に係る収音再生装置１００を含むコミュニケーションシステム２の概略構成を説明する。
【００９８】
図５は、本発明の実施の形態１に係るコミュニケーションシステム２の構成を示す図である。
【００９９】
図５に示すコミュニケーションシステム２は、第１の場所に設置されたコミュニケーション装置１１と、第２の場所に設置されたコミュニケーション装置１２と、通信網１０とを含む。このコミュニケーション装置１１とコミュニケーション装置１２とは、通信網１０を経由して接続される。また、コミュニケーション装置１１とコミュニケーション装置１２とは、音声通信端末であり、通信網１０を介して、互いにリアルタイムの音声の送受信を行う。
【０１００】
コミュニケーション装置１１は、スピーカ１１１と、マイクロホン１１２とを備える。
スピーカ１１１は、コミュニケーション装置１２から通信網１０を経由して送信された音声信号である受信信号１３２に基づき、音声を出音する。
【０１０１】
マイクロホン１１２は、コミュニケーション装置１１の周辺の音声を収音することにより、収音信号１３４を生成する。また、マイクロホン１１２は、この収音信号１３４を、通信網１０を経由してコミュニケーション装置１２へ送信する。
【０１０２】
コミュニケーション装置１２は、スピーカ１２１と、マイクロホン１２２とを備える。
スピーカ１２１は、コミュニケーション装置１１から通信網１０を経由して送信された収音信号１３４に基づき、音声を出音する。
【０１０３】
マイクロホン１２２は、コミュニケーション装置１２の周辺の音声を収音することにより、収音信号を生成する。また、マイクロホン１２２は、当該収音信号を受信信号１３２として、通信網１０を経由してコミュニケーション装置１１へ送信する。
【０１０４】
なお、マイクロホン１１２及び１２２は、図３に示すマイク２３に対応し、スピーカ１１１及び１２１は、図３に示すスピーカ２４ａ、２４ｂ及び２４ｃに対応する。また、ここでは、コミュニケーション装置１１が、１個のスピーカ１１１及び１個のマイクロホン１１２を備える例を述べるが、コミュニケーション装置１１は、複数のスピーカ１１１及び複数のマイクロホン１１２を備えてもよい。
【０１０５】
また、コミュニケーション装置１１は、さらに、ビデオカメラ２７を備える。例えば、ビデオカメラ２７は、民生のデジタルビデオカメラである。このビデオカメラ２７は、撮影モードと、再生モードとを有する。
【０１０６】
ここで撮影モードとは、ビデオカメラ２７がリアルタイムに撮影中の動画像及び収音中の音声を出力するモードである。なお、撮影モード時において、ビデオカメラ２７は、撮影した動画像及び音声をビデオカメラ２７内に記録しながら、出力してもよいし、当該動画像及び音声の記録を行わず、出力のみを行ってもよい。
【０１０７】
また、再生モードとは、ビデオカメラ２７が既に記録している動画像及び音声を出力するモードである。
【０１０８】
また、ビデオカメラ２７は、撮影中の動画像及び音声と、記録している動画像及び音声とを選択的に出力する。
【０１０９】
また、コミュニケーションシステム２では、コミュニケーション装置１１とコミュニケーション装置１２が互いにリアルタイムの音声の送受信を行う通常モードと、ビデオカメラ２７に保存された動画像データを複数のテレビ会議端末で共有する再生モードと、ビデオカメラ２７でリアルタイムに撮影中の動画像データを複数のテレビ会議端末で共有する撮影モードとを有する。
【０１１０】
この撮影モード及び再生モードを有することにより、コミュニケーション装置１１は、ユーザの利便性を向上できる。例えば、従来のコミュニケーション装置１１では、ユーザ１１０が所持している資料及び物品等を、ユーザ１２０に掲示したうえで、説明等を行うためには、コミュニケーション装置１１が備える固定カメラに、当該資料及び物品を近づける必要がある。一方、撮影モードを用いることにより、ビデオカメラ２７で当該当該資料及び物品を撮影しながら、説明等を行うことができる。また、再生モードを用いることにより、ビデオカメラ２７で予め撮影しておいた映像を用いて、説明等を行うことができる。
【０１１１】
以下、撮影モードの動作の概略を説明する。図６は、撮影モード時のコミュニケーション装置１１の動作の概略を示す図である。
【０１１２】
撮影モード時には、コミュニケーション装置１１は、ビデオカメラ２７でリアルタイムに撮影中の動画像データと、コミュニケーション装置１１が備えるカメラ及びマイクロホンで取得した動画像データとをコミュニケーション装置１２に送信する。また、コミュニケーション装置１１は、ビデオカメラ２７でリアルタイムに撮影中の動画像データと、コミュニケーション装置１２により送信される動画像データとを当該コミュニケーション装置１１が備えるモニタ等に表示する。
【０１１３】
また、音声のみに着目した場合、図６に示すように、コミュニケーション装置１１は、マイクロホン１１２で収音された収音信号１３４と、ビデオカメラ２７で収音中の音声であるカメラ入力信号１３１とをミキシング（混合）したうえで、コミュニケーション装置１２に送信する。また、スピーカ１１１からは、コミュニケーション装置１２により送信された受信信号１３２が出力される。
【０１１４】
次に、再生モードの動作の概略を説明する。図７は、再生モード時のコミュニケーション装置１１の動作の概略を示す図である。
【０１１５】
再生モード時には、コミュニケーション装置１１は、ビデオカメラ２７に記録される動画像データと、コミュニケーション装置１１が備えるカメラ及びマイクロホンで取得した動画像データとをコミュニケーション装置１２に送信する。また、コミュニケーション装置１１は、ビデオカメラ２７に記録される動画像データと、コミュニケーション装置１２により送信される動画像データとを当該コミュニケーション装置１１が備えるモニタ等に表示する。
【０１１６】
また、音声のみに着目した場合、図７に示すように、コミュニケーション装置１１は、マイクロホン１１２で収音された収音信号１３４と、ビデオカメラ２７で再生中の音声であるカメラ入力信号１３１とをミキシングしたうえで、コミュニケーション装置１２に送信する。また、ビデオカメラ２７で再生中の音声であるカメラ入力信号１３１と、コミュニケーション装置１２により送信された受信信号１３２とをミキシングしたうえで、スピーカ１１１から出力する。
【０１１７】
以下、コミュニケーション装置１１が備える収音再生装置１００の詳細な構成を説明する。
【０１１８】
図８は、本発明の実施の形態１に係る収音再生装置１００のブロック図である。
図８に示す収音再生装置１００は、マイクロホン１１２が収音した音声、及びビデオカメラ２７により出力される音声を、通信網１０を経由して、コミュニケーション装置１２に送信するとともに、コミュニケーション装置１２により、通信網１０を経由して送信された音声をスピーカ１１１から出音する。
【０１１９】
具体的には、通常モード時には、収音再生装置１００は、マイクロホン１１２で収音した収音信号１３４をコミュニケーション装置１２に送信し、コミュニケーション装置１２により送信された受信信号１３２をスピーカ１１１から出音する。また、撮影モード時には、収音再生装置１００は、マイクロホン１１２で収音した収音信号１３４と、ビデオカメラ２７で収音中のカメラ入力信号１３１とをミキシングしたうえで、コミュニケーション装置１２に送信するとともに、コミュニケーション装置１２により送信された受信信号１３２をスピーカ１１１から出音する。また、再生モード時には、収音再生装置１００は、マイクロホン１１２で収音した収音信号１３４と、ビデオカメラ２７で再生中のカメラ入力信号１３１とをミキシングしたうえで、コミュニケーション装置１２に送信するとともに、コミュニケーション装置１２により送信された受信信号１３２と、ビデオカメラ２７で再生中のカメラ入力信号１３１とをミキシングしたうえで、スピーカ１１１から出音する。
【０１２０】
この収音再生装置１００は、判定部１０１と、スイッチ１０２と、入力音声混合部１０３と、出力音声混合部１０４と、送信部１０５とを備える。
【０１２１】
判定部１０１は、マイクロホン１１２とスピーカ１１１とビデオカメラ２７とが存在する周辺の空間における音声と、ビデオカメラ２７により出力されるカメラ入力信号１３１との相関値が予め定められた値以上か否かを判定することにより、ビデオカメラ２７が、撮影モードで動作しているか、再生モードで動作しているかを判定する。ここで、マイクロホン１１２とスピーカ１１１とビデオカメラ２７とが存在する周辺の空間とは、マイクロホン１１２とスピーカ１１１とビデオカメラ２７とが設置された場所の周辺の空間である。つまり、マイクロホン１１２とスピーカ１１１とビデオカメラ２７とが存在する周辺の空間における音声とは、スピーカ１１１から出音される音声と、ユーザ１１０が発する音声とを含む。
【０１２２】
具体的には、判定部１０１は、マイクロホン１１２により収音された収音信号１３４と、カメラ入力信号１３１との相関値が予め定められた第１の値以上か否かを判定する。
【０１２３】
また、判定部１０１は、収音信号１３４とカメラ入力信号１３１との相関値が第１の値以上の場合、ビデオカメラ２７は撮影モードで動作していると判定し、収音信号１３４とカメラ入力信号１３１との相関値が第１の値未満の場合、ビデオカメラ２７は再生モードで動作していると判定する。
【０１２４】
なぜなら、カメラ入力信号１３１が撮影中の音声であれば、収音信号１３４とカメラ入力信号１３１とは同じ空間の音を収音した音声であるため相関値が高くなる。一方、カメラ入力信号１３１が再生中の音声であれば、収音信号１３４とカメラ入力信号１３１とは異なる信号なので、収音信号１３４とカメラ入力信号１３１との相関値は小さくなるからである。
【０１２５】
また、判定部１０１は、ビデオカメラ２７によりカメラ入力信号１３１が出力されているか否かを判定する。具体的には、判定部１０１は、収音信号１３４とカメラ入力信号１３１との相関値が第２の値未満か否かを判定し、収音信号１３４とカメラ入力信号１３１との相関値が第２の値未満の場合、ビデオカメラ２７によりカメラ入力信号１３１が出力されていないと判定する。また、判定部１０１は、収音信号１３４とカメラ入力信号１３１との相関値が第２の値以上の場合、ビデオカメラ２７によりカメラ入力信号１３１が出力されていると判定する。ここで、第２の値は、第１の値より小さい値であり、ゼロに極めて近い値である。
【０１２６】
これは、ビデオカメラ２７が接続されていない状態等（以下、非接続モード）では、カメラ入力信号１３１はゼロ信号となるので、当該カメラ入力信号１３１と収音信号１３４の相関値は実質的にゼロとなる。厳密には回路ノイズなどにより、カメラ入力信号１３１は、完全なゼロ信号や相関値ゼロにはならないが極めて小さい値となる。
【０１２７】
なお、判定部１０１は、カメラ入力信号１３１の信号レベルが所定の値以下であるか否かを判定し、カメラ入力信号１３１の信号レベルが所定の値以下である場合に、ビデオカメラ２７によりカメラ入力信号１３１が出力されていないと判定してもよい。
【０１２８】
また、上記における相関値とは収音信号１３４とカメラ入力信号１３１との時間遅延を考慮した類似度である。例えば、判定部１０１は、時間遅延毎の相関値の累積、又は相関関数における相関値が最大となる時間遅延における相関値を用いて、収音信号１３４とカメラ入力信号１３１との相関値を算出できる。なお、判定部１０１は、相関係数、コサイン距離、又は独立性などの信号間の類似度を求められる尺度を用いて、相関値を算出してもよい。
【０１２９】
スイッチ１０２は、判定部１０１の判定結果に基づき、カメラ入力信号１３１を、経路Ａ、経路Ｂ及び経路Ｃのいずれかに供給する。具体的には、スイッチ１０２は、判定部１０１によりビデオカメラ２７が再生モードで動作していると判定された場合、経路Ａを選択し、判定部１０１によりビデオカメラ２７が撮影モードで動作していると判定された場合、経路Ｂを選択し、判定部１０１により非接続モードと判定された場合、経路Ｃを選択する。つまり、スイッチ１０２は、判定部１０１によりビデオカメラ２７が再生モードで動作していると判定された場合、カメラ入力信号１３１を入力音声混合部１０３及び音声混合部１０８に出力し、判定部１０１によりビデオカメラ２７が撮影モードで動作していると判定された場合、カメラ入力信号１３１を音声混合部１０６に出力し、判定部１０１により非接続モードと判定された場合、カメラ入力信号１３１をいずれの処理部にも出力しない。
【０１３０】
また、スイッチ１０２は、収音再生装置１００の起動時には、経路Ｃを選択する。ここで起動時とは、収音再生装置１００が起動されてから、判定部１０１による判定が最初に行われるまでの期間である。
【０１３１】
入力音声混合部１０３は、受信信号１３２と、スイッチ１０２を経由して入力されたカメラ入力信号１３１とをミキシング（混合）することにより、ミキシング入力信号１３３を生成する。
【０１３２】
具体的には、入力音声混合部１０３は、スイッチ１０２が経路Ａを選択している場合には、受信信号１３２と、スイッチ１０２を経由して入力されたカメラ入力信号１３１とをミキシング（混合）することにより、ミキシング入力信号１３３を生成し、生成したミキシング入力信号１３３をスピーカ１１１に出力する。また、入力音声混合部１０３は、スイッチ１０２が経路Ｂ又は経路Ｃを選択している場合、受信信号１３２をスピーカ１１１に出力する。
【０１３３】
出力音声混合部１０４は、収音信号１３４とカメラ入力信号１３１とをミキシングする。この出力音声混合部１０４は、音声混合部１０６と、エコーキャンセラ１０７と、音声混合部１０８とを備える。
【０１３４】
音声混合部１０６は、スイッチ１０２が経路Ａ又は経路Ｃを選択している場合、収音信号１３４をエコーキャンセラ１０７に出力する。また、音声混合部１０６は、スイッチ１０２が経路Ｂを選択している場合、収音信号１３４とカメラ入力信号１３１とをミキシングすることにより、ミキシング出力信号１３５を生成し、生成したミキシング出力信号１３５をエコーキャンセラ１０７に出力する。
【０１３５】
エコーキャンセラ１０７は、音声混合部１０６により出力された収音信号１３４又はミキシング出力信号１３５に対してエコーキャンセル処理を行うことにより、収音信号１３６又はミキシング出力信号１３７を生成する。ここで、エコーキャンセル処理とは、収音信号１３４又はミキシング出力信号１３５に含まれる、スピーカ１１１により出音された音声の成分を除去する処理である。これにより、コミュニケーション装置１１が備えるスピーカ１１１により拡声された音声が、再度、コミュニケーション装置１２で拡声されることを防止できる。言い換えると、エコーキャンセラ１０７は、スピーカ１１１からマイクロホン１１２へと回り込む音声をキャンセルすることにより、エコーを防止する。
【０１３６】
音声混合部１０８は、スイッチ１０２が経路Ａを選択している場合、収音信号１３６とカメラ入力信号１３１とをミキシングすることにより、ミキシング出力信号１３８を生成し、生成したミキシング出力信号１３８を送信部１０５に出力する。また、音声混合部１０８は、スイッチ１０２が経路Ｂを選択している場合、エコーキャンセラ１０７により出力されたミキシング出力信号１３７を送信部１０５に出力し、スイッチ１０２が経路Ｃを選択している場合、エコーキャンセラ１０７により出力された収音信号１３６を送信部１０５に出力する。
【０１３７】
送信部１０５は、音声混合部１０８により出力されたミキシング出力信号１３８、ミキシング出力信号１３７及び収音信号１３６を、通信網１０を介して、コミュニケーション装置１２に送信する。
【０１３８】
以下、収音再生装置１００の動作を説明する。まず、判定部１０１による動作モード判定処理について説明する。
【０１３９】
図９は、収音再生装置１００による動作モード判定処理の流れを示すフローチャートである。
【０１４０】
まず、収音再生装置１００が起動されると（Ｓ１０１）、スイッチ１０２は、初期状態として経路Ｃを選択する（Ｓ１０２）。
【０１４１】
次に、判定部１０１は、カメラ入力信号１３１と収音信号１３４との相関値を算出し（Ｓ１０３）、算出した相関値がゼロであるか否かを判定する（Ｓ１０４）。算出した相関値がゼロでない場合（Ｓ１０４でＮｏ）、次に、判定部１０１は、算出した相関値が第１の値より大きいか否かを判定する（Ｓ１０５）。
【０１４２】
算出した相関値が第１の値より小さい場合（Ｓ１０５でＮｏ）、判定部１０１は、ビデオカメラ２７の動作モードが再生モードであると判断し、スイッチ１０２に経路Ａを選択させる（Ｓ１０６）。
【０１４３】
一方、算出した相関値が第１の値より大きい場合（Ｓ１０５でＹｅｓ）、判定部１０１は、ビデオカメラ２７の動作モードが撮影モードであると判断し、スイッチ１０２に経路Ｂを選択させる（Ｓ１０７）。
【０１４４】
また、算出した相関値がゼロの場合（Ｓ１０４でＹｅｓ）、判定部１０１は、非接続モードであると判断し、スイッチ１０２に経路Ｃを選択させる（Ｓ１０８）。
【０１４５】
ステップＳ１０６、Ｓ１０７又はＳ１０８の後、収音再生装置１００が停止していなければ（Ｓ１０９でＮｏ）、所定の時間後に、判定部１０１は、再度ステップＳ１０３以降の処理を行う。
【０１４６】
以下、収音再生装置１００による出音処理について説明する。
図１０は、収音再生装置１００による出音処理の流れを示すフローチャートである。
【０１４７】
ビデオカメラ２７が再生モードで動作しており、経路Ａが選択されている場合（Ｓ１１１でＡ）、入力音声混合部１０３は、受信信号１３２とカメラ入力信号１３１とをミキシングすることにより、ミキシング入力信号１３３を生成する（Ｓ１１２）。
【０１４８】
次に、入力音声混合部１０３は、生成したミキシング入力信号１３３をスピーカ１１１から出音させる（Ｓ１１３）。
【０１４９】
一方、ビデオカメラ２７が撮影モードで動作しており、経路Ｂが選択されている場合（Ｓ１１１でＢ）、入力音声混合部１０３は、受信信号１３２をスピーカ１１１から出音させる（Ｓ１１４）。
【０１５０】
同様に、非接続モードであり、経路Ｃが選択されている場合（Ｓ１１１でＣ）、入力音声混合部１０３は、受信信号１３２をスピーカ１１１から出音させる（Ｓ１１５）。
【０１５１】
以下、収音再生装置１００による音声送信処理について説明する。
図１１は、収音再生装置１００による音声送信処理の流れを示すフローチャートである。
【０１５２】
ビデオカメラ２７が再生モードで動作しており、経路Ａが選択されている場合（Ｓ１２１でＡ）、エコーキャンセラ１０７は、収音信号１３４にエコーキャンセル処理を行うことにより、収音信号１３６を生成する（Ｓ１２２）。次に、音声混合部１０８は、カメラ入力信号１３１と収音信号１３６とをミキシングすることにより、ミキシング出力信号１３８を生成する（Ｓ１２３）。次に、送信部１０５は、ミキシング出力信号１３８をコミュニケーション装置１２に送信する（Ｓ１２４）。また、コミュニケーション装置１２は、受信したミキシング出力信号１３８をスピーカ１２１から出力する。
【０１５３】
一方、ビデオカメラ２７が撮影モードで動作しており、経路Ｂが選択されている場合（Ｓ１２１でＢ）、音声混合部１０６は、カメラ入力信号１３１と収音信号１３４とをミキシングすることにより、ミキシング出力信号１３５を生成する（Ｓ１２５）。次に、エコーキャンセラ１０７は、ミキシング出力信号１３５にエコーキャンセル処理を行うことにより、ミキシング出力信号１３７を生成する（Ｓ１２６）。次に、送信部１０５は、ミキシング出力信号１３７をコミュニケーション装置１２に送信する（Ｓ１２７）。また、コミュニケーション装置１２は、受信したミキシング出力信号１３７をスピーカ１２１から出力する。
【０１５４】
また、非接続モードであり、経路Ｃが選択されている場合（Ｓ１２１でＣ）、エコーキャンセラ１０７は、収音信号１３４にエコーキャンセル処理を行うことにより、収音信号１３６を生成する（Ｓ１２８）。次に、送信部１０５は、収音信号１３６をコミュニケーション装置１２に送信する（Ｓ１２９）。また、コミュニケーション装置１２は、受信した収音信号１３６をスピーカ１２１から出力する。
【０１５５】
以上により、本発明の実施の形態１に係る収音再生装置１００は、マイクロホン１１２で収音された収音信号１３４と、ビデオカメラ２７により出力されるカメラ入力信号１３１との相関を用いて、ビデオカメラ２７が再生モードで動作しているのか、撮影モードで動作しているのかを判断する。
【０１５６】
これにより、収音再生装置１００は、ビデオカメラ２７の動作モードを自動で判断したうえで、ビデオカメラ２７の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明の実施の形態１に係る収音再生装置１００は、ビデオカメラ２７の動作モードと、当該収音再生装置１００の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【０１５７】
また、ユーザは、ビデオカメラ２７の動作モードのみを変更するだけで、コミュニケーション装置１１の動作モードを正しく設定できる。よって、本発明の実施の形態１に係る収音再生装置１００は、ユーザの利便性を向上できる。
【０１５８】
また、収音再生装置１００は、当該収音再生装置１００の起動時には、スイッチ１０２に経路Ｃを選択させる。これにより、収音再生装置１００は、当該収音再生装置１００の起動時の誤動作の発生を防止できる。具体的には、収音再生装置１００は、当該収音再生装置１００の起動時に経路Ａが選択され、かつビデオカメラ２７が撮影モードで動作している場合に生じる、ハウリングの発生を防止できる。
【０１５９】
また、収音再生装置１００は、撮影モード時に、カメラ入力信号１３１と収音信号１３４とをミキシングしたうえで、コミュニケーション装置１２に送信する。これにより、マイクロホン１１２と、ビデオカメラ２７とが離れた位置に存在する場合でも、マイクロホン１１２の周辺の音声と、ビデオカメラ２７の周辺の音声とを、コミュニケーション装置１２に送信できる。例えば、コミュニケーション装置１１を用いるユーザのうち一人が、ビデオカメラ２７で物品を撮影しながら、説明を行い、さらに、他のユーザがマイクロホン１１２の周辺でコメントを発する場合でも、コミュニケーション装置１１は、当該コミュニケーション装置１１の複数のユーザの音声をコミュニケーション装置１２に送信できる。
【０１６０】
また、本発明の実施の形態１に係る収音再生装置１００は、再生モード時には、エコーキャンセル処理を行っていないカメラ入力信号１３１と、エコーキャンセル処理を行った収音信号１３６とをミキシングする。これにより、カメラ入力信号１３１と収音信号１３４とをミキシングした後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。なお、再生モード時には、カメラ入力信号１３１には、スピーカ１１１により出音された音声は含まれないので、カメラ入力信号１３１にエコーキャンセル処理を行わなくても、エコー及びハウリングが発生する可能性がない。
【０１６１】
また、本発明の実施の形態１に係る収音再生装置１００は、ビデオカメラ２７からカメラ入力信号１３１が出力されているか否かを判定する。これにより、収音再生装置１００は、ビデオカメラ２７からカメラ入力信号１３１が出力されていない場合、又は、ビデオカメラ２７が収音再生装置１００に接続されていない場合には、自動的に、通常モードで動作することができる。
【０１６２】
（実施の形態２）
本発明の実施の形態２に係る収音再生装置２００は、実施の形態１に係る収音再生装置１００の変形例であり、撮影モード時に、カメラ入力信号１３１のみをコミュニケーション装置１２に送信する。
【０１６３】
まず、本発明の実施の形態２に係る収音再生装置２００の構成を説明する。
図１２は、本発明の実施の形態２に係る収音再生装置２００のブロック図である。なお、図８と同様の要素には、同一の符号を付している。また、以下では、収音再生装置１００との相違点のみを説明する。
【０１６４】
図１２に示す収音再生装置２００は、収音再生装置１００に対して出力音声混合部２０４の構成が異なる。出力音声混合部２０４は、スイッチ２０６と、エコーキャンセラ１０７と、音声混合部１０８とを備える。
【０１６５】
スイッチ２０６は、判定部１０１の判定結果に基づき、収音信号１３４を、経路Ａ／Ｃ、及び経路Ｂのいずれかに供給する。具体的には、スイッチ２０６は、判定部１０１によりビデオカメラ２７が再生モードで動作していると判定された場合、及び、判定部１０１により非接続モードと判定された場合、経路Ａ／Ｃを選択し、判定部１０１によりビデオカメラ２７が撮影モードで動作していると判定された場合、経路Ｂを選択する。つまり、スイッチ２０６は、判定部１０１によりビデオカメラ２７が再生モードで動作していると判定された場合、及び、判定部１０１により非接続モードと判定された場合、収音信号１３４をエコーキャンセラ１０７に出力し、判定部１０１によりビデオカメラ２７が撮影モードで動作していると判定された場合、カメラ入力信号１３１をエコーキャンセラ１０７に出力する。
【０１６６】
エコーキャンセラ１０７は、スイッチ２０６により出力された収音信号１３４又はカメラ入力信号１３１に対してエコーキャンセル処理を行うことにより、収音信号１３６又はカメラ入力信号２３７を生成する。
【０１６７】
音声混合部１０８は、スイッチ１０２が経路Ａを選択し、かつスイッチ２０６が経路Ａ／Ｃを選択している場合、収音信号１３６とカメラ入力信号１３１とをミキシングすることにより、ミキシング出力信号１３８を生成し、生成したミキシング出力信号１３８を送信部１０５に出力する。また、音声混合部１０８は、スイッチ１０２及びスイッチ２０６が経路Ｂを選択している場合、エコーキャンセラ１０７により出力されたカメラ入力信号２３７を送信部１０５に出力し、スイッチ１０２が経路Ｃを選択し、かつスイッチ２０６が経路Ａ／Ｃを選択している場合、エコーキャンセラ１０７により出力された収音信号１３６を送信部１０５に出力する。
【０１６８】
送信部１０５は、音声混合部１０８により出力されたミキシング出力信号１３８、カメラ入力信号２３７及び収音信号１３６を、通信網１０を介して、コミュニケーション装置１２に送信する。
【０１６９】
次に、収音再生装置２００の動作を説明する。なお、収音再生装置２００による動作モード判定処理及び出音処理は、実施の形態１と同様であり、説明は省略する。
【０１７０】
図１３は、収音再生装置２００による音声送信処理の流れを示すフローチャートである。なお、再生モード時（Ｓ１２１でＡ）及び非接続モード時（Ｓ１２１でＣ）の動作は、図１１と同様なので、説明は省略する。
【０１７１】
ビデオカメラ２７が撮影モードで動作しており、経路Ｂが選択されている場合（Ｓ１２１でＢ）、エコーキャンセラ１０７は、カメラ入力信号１３１に対してエコーキャンセル処理を行うことにより、カメラ入力信号２３７を生成する（Ｓ２２５）。次に、送信部１０５は、カメラ入力信号２３７を、通信網１０を介して、コミュニケーション装置１２に送信する（Ｓ２２６）。
【０１７２】
以上により、本発明の実施の形態２に係る収音再生装置２００は、撮影モード時に、カメラ入力信号１３１のみをコミュニケーション装置１２に送信する。これにより、上述した実施の形態１に係る収音再生装置１００のように、カメラ入力信号１３１と収音信号１３４とをミキシングした後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【０１７３】
さらに、カメラ入力信号１３１と収音信号１３４とをミキシングした場合、当該２つの信号を収音する際のマイクロホンの特性の違い、当該２つの信号に対して適用された収音信号処理の違い、及び当該２つの信号の位相ずれ、などに起因して、ミキシング後の信号の音質が劣化するという問題がある。例えば、位相ずれが生じた場合は響いたように聞こえてしまう場合がある。これに対して収音再生装置２００は、カメラ入力信号１３１のみをコミュニケーション装置１２に送信することにより、この問題を解消できる。
【０１７４】
また、一般に、撮影モードを用いる場合には、撮影者又は撮影者の近くに位置する者が説明等を行う場合が多い。よって、カメラ入力信号１３１のみをコミュニケーション装置１２に送信した場合でも、会話が阻害される可能性は低い。
【０１７５】
なお、上記説明では、撮影モード時には、カメラ入力信号１３１のみをコミュニケーション装置１２に送信するとしたが、マイクロホン１１２で収音された収音信号１３４のみを、コミュニケーション装置１２に送信してもよい。
【０１７６】
（実施の形態３）
本発明の実施の形態３に係る収音再生装置３００は、実施の形態１に係る収音再生装置１００の変形例であり、カメラ入力信号１３１と受信信号１３２との相関を用いて、ビデオカメラ２７が再生モードで動作しているのか、撮影モードで動作しているのかを判断する。
【０１７７】
図１４は、本発明の実施の形態３に係る収音再生装置３００のブロック図である。なお、図８と同様の要素には、同一の符号を付している。また、以下では、収音再生装置１００との相違点のみを説明する。
【０１７８】
図１４に示す収音再生装置３００は、収音再生装置１００に対して判定部３０１の機能が異なる。
【０１７９】
判定部３０１は、マイクロホン１１２とスピーカ１１１とビデオカメラ２７とが存在する周辺の空間における音声と、ビデオカメラ２７により出力されるカメラ入力信号１３１との相関値が予め定められた値以上か否かを判定することにより、ビデオカメラ２７が、撮影モードで動作しているか、再生モードで動作しているかを判定する。具体的には、判定部３０１は、受信信号１３２と、カメラ入力信号１３１との相関値が予め定められた第１の値以上か否かを判定する。なお、判定部３０１が判定に用いる第１の値は、上述した実施の形態１に係る判定部１０１が判定に用いる第１の値と異なる値であってもよい。
【０１８０】
また、判定部３０１は、受信信号１３２とカメラ入力信号１３１との相関値が第１の値以上の場合、ビデオカメラ２７は撮影モードで動作していると判定し、受信信号１３２とカメラ入力信号１３１との相関値が第１の値未満の場合、ビデオカメラ２７は再生モードで動作していると判定する。
【０１８１】
なぜなら、受信信号１３２は、スピーカ１１１から拡声される。よって、カメラ入力信号１３１が撮影中の音声であれば、スピーカ１１１から拡声される受信信号１３２に基づく音声が、ビデオカメラ２７に付随するマイクロホンにも混入する。これにより、撮影モード時には、受信信号１３２とカメラ入力信号１３１との相関値が高くなる。一方、カメラ入力信号１３１が再生中の音声であれば、受信信号１３２とカメラ入力信号１３１とは異なる信号なので、受信信号１３２とカメラ入力信号１３１との相関値は小さくなる。
【０１８２】
また、判定部３０１は、実施の形態１と同様に、ビデオカメラ２７によりカメラ入力信号１３１が出力されているか否かを判定する。
【０１８３】
以上により、本発明の実施の形態３に係る収音再生装置３００は、実施の形態１に係る収音再生装置１００と同様に、ビデオカメラ２７の動作モードを自動で判断したうえで、ビデオカメラ２７の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明の実施の形態３に係る収音再生装置３００は、ビデオカメラ２７の動作モードと、当該収音再生装置３００の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【０１８４】
また、実施の形態３に係る収音再生装置３００と、実施の形態１に係る収音再生装置１００とを比較した場合、ユーザ１１０が会話をしている場合等には、カメラ入力信号１３１及び収音信号１３４には、ユーザ１１０の声が含まれるが、受信信号１３２には含まれない。よって、ユーザ１１０が会話をしている場合等には、実施の形態１に係る収音再生装置１００のほうが、より高い精度で、相関値を算出できる。
【０１８５】
また、実施の形態１に係る収音再生装置１００は、マイクロホン１１２で収音した収音信号１３４と、カメラ入力信号１３１との相関値を算出するので、マイクロホン１１２とビデオカメラ２７とが物理的に近い位置に存在する場合には、高い精度で、相関値を算出できる。一方、実施の形態３に係る収音再生装置３００は、スピーカ１１１から拡声される音声信号（受信信号１３２）と、カメラ入力信号１３１との相関値を算出するので、スピーカ１１１とビデオカメラ２７とが物理的に近い位置に存在する場合には、高い精度で、相関値を算出できる。
【０１８６】
また、上記説明では、実施の形態１に係る収音再生装置１００に対して、判定部３０１の構成を変更した例を説明したが、実施の形態２に係る収音再生装置２００に対して、同様の変更を適用してもよい。
【０１８７】
（実施の形態４）
本発明の実施の形態４に係る収音再生装置４００は、実施の形態１に係る収音再生装置１００の変形例であり、撮影モード時に、収音信号１３４とカメラ入力信号１３１とに対して、個別にエコーキャンセル処理を行ったうえで、ミキシングを行う。
【０１８８】
まず、本発明の実施の形態４に係る収音再生装置４００の構成を説明する。
図１５は、本発明の実施の形態４に係る収音再生装置４００のブロック図である。なお、図８と同様の要素には、同一の符号を付している。また、以下では、収音再生装置１００との相違点のみを説明する。
【０１８９】
図１５に示す収音再生装置４００は、収音再生装置１００に対して出力音声混合部４０４の構成が異なる。この出力音声混合部４０４は、エコーキャンセラ４０６及び４０７と、音声混合部４０８とを備える。
【０１９０】
エコーキャンセラ４０６は、スイッチ２０６が経路Ｂを選択している場合、カメラ入力信号１３１に対してエコーキャンセル処理を行うことにより、カメラ入力信号４３７を生成する。
【０１９１】
エコーキャンセラ４０７は、収音信号１３４に対してエコーキャンセル処理を行うことにより、収音信号１３６を生成する。
【０１９２】
音声混合部４０８は、スイッチ１０２が経路Ａを選択している場合、収音信号１３６と、カメラ入力信号１３１とをミキシングすることにより、ミキシング出力信号１３８を生成し、生成したミキシング出力信号１３８を送信部１０５に出力する。また、音声混合部４０８は、スイッチ１０２が経路Ｂを選択している場合、収音信号１３６と、カメラ入力信号４３７とをミキシングすることにより、ミキシング出力信号４３９を生成し、生成したミキシング出力信号４３９を送信部１０５に出力する。また、音声混合部４０８は、スイッチ１０２が経路Ｃを選択している場合、収音信号１３６を送信部１０５に出力する。
【０１９３】
送信部１０５は、音声混合部４０８により出力されたミキシング出力信号１３８、ミキシング出力信号４３９、及び収音信号１３６を、通信網１０を介して、コミュニケーション装置１２に送信する。
【０１９４】
次に、収音再生装置４００の動作を説明する。なお、収音再生装置４００による動作モード判定処理及び出音処理は、実施の形態１と同様であり、説明は省略する。
【０１９５】
図１６は、収音再生装置４００による音声送信処理の流れを示すフローチャートである。なお、再生モード時（Ｓ１２１でＡ）及び非接続モード時（Ｓ１２１でＣ）の動作は、図１１と同様なので、説明は省略する。
【０１９６】
ビデオカメラ２７が撮影モードで動作しており、経路Ｂが選択されている場合（Ｓ１２１でＢ）、エコーキャンセラ４０６は、カメラ入力信号１３１に対してエコーキャンセル処理を行うことにより、カメラ入力信号４３７を生成し、また、エコーキャンセラ４０７は、収音信号１３４に対してエコーキャンセル処理を行うことにより、収音信号１３６を生成する（Ｓ４２５）。次に、音声混合部４０８は、カメラ入力信号４３７と収音信号１３６とをミキシングすることにより、ミキシング出力信号４３９を生成する（Ｓ４２６）。次に、送信部１０５は、ミキシング出力信号４３９を、通信網１０を介して、コミュニケーション装置１２に送信する（Ｓ４２７）。
【０１９７】
以上により、本発明の実施の形態４に係る収音再生装置４００は、実施の形態１に係る収音再生装置１００と同様に、ビデオカメラ２７の動作モードを自動で判断したうえで、ビデオカメラ２７の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明の実施の形態４に係る収音再生装置４００は、ビデオカメラ２７の動作モードと、当該収音再生装置４００の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【０１９８】
さらに、本発明の実施の形態４に係る収音再生装置４００は、カメラ入力信号１３１と収音信号１３４とのそれぞれに対して、エコーキャンセル処理を行った後に、ミキシングを行う。これにより、上述した実施の形態１に係る収音再生装置１００のように、カメラ入力信号１３１と収音信号１３４とをミキシングした後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【０１９９】
また、上記説明では、実施の形態１に係る収音再生装置１００に対して、出力音声混合部４０４の構成を変更した例を説明したが、実施の形態３に係る収音再生装置３００に対して、同様の変更を適用してもよい。
【０２００】
（実施の形態５）
本発明の実施の形態５に係る収音再生装置５００は、実施の形態１に係る収音再生装置１００の変形例であり、外部から入力された制御情報に基づき、ビデオカメラ２７が再生モードで動作しているのか、撮影モードで動作しているのかを判断する。
【０２０１】
図１７は、本発明の実施の形態５に係る収音再生装置５００のブロック図である。なお、図８と同様の要素には、同一の符号を付している。また、以下では、収音再生装置１００との相違点のみを説明する。
【０２０２】
図１７に示す収音再生装置５００は、収音再生装置１００に対して判定部５０１の構成が異なる。
【０２０３】
判定部５０１は、ビデオカメラ２７により出力される制御情報５３１を取得し、制御情報５３１に基づき、ビデオカメラ２７が、再生モードで動作しているか撮影モードで動作しているかを判定する。ここで、制御情報５３１とは、ビデオカメラ２７が再生モードで動作しているか撮影モードで動作しているかを示す情報である。
【０２０４】
また、判定部５０１は、実施の形態１に係る判定部１０１と同様に、ビデオカメラ２７によりカメラ入力信号１３１が出力されているか否かを判定する。なお、制御情報５３１に、ビデオカメラ２７がカメラ入力信号１３１を出力しているか否かを示す情報が含まれ、判定部５０１は、制御情報５３１に基づき、ビデオカメラ２７によりカメラ入力信号１３１が出力されているか否かを判定してもよい。
【０２０５】
以上により、本発明の実施の形態５に係る収音再生装置５００は、実施の形態１に係る収音再生装置１００と同様に、ビデオカメラ２７の動作モードを自動で判断したうえで、ビデオカメラ２７の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明の実施の形態５に係る収音再生装置５００は、ビデオカメラ２７の動作モードと、当該収音再生装置５００の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【０２０６】
なお、上記説明では、制御情報５３１は、ビデオカメラ２７から出力されるとしたが、他の外部装置から出力されてもよい。例えば、コミュニケーション装置１１が備える制御部により出力されてもよい。この場合、ユーザがコミュニケーション装置１１に対して、撮影モード又は再生モードを指定する操作を行うことにより、上記制御部が、制御情報５３１を、判定部５０１及びビデオカメラ２７に出力する。この制御情報５３１を用いて、ビデオカメラ２７及び収音再生装置５００が動作モードを決定することにより、ビデオカメラ２７と収音再生装置５００との動作モードを正しく設定できる。
【０２０７】
また、上記説明では、実施の形態１に係る収音再生装置１００に対して、判定部５０１の構成を変更した例を説明したが、実施の形態２〜４に係る収音再生装置２００〜４００に対して、同様の変更を適用してもよい。
【０２０８】
（実施の形態６）
本発明の実施の形態６に係る収音再生装置６００は、実施の形態１に係る収音再生装置１００の変形例であり、さらに、判定用の音をスピーカ１１１から出力する。
【０２０９】
図１８は、本発明の実施の形態６に係る収音再生装置６００のブロック図である。なお、図８と同様の要素には、同一の符号を付している。また、以下では、収音再生装置１００との相違点のみを説明する。
【０２１０】
図１８に示す収音再生装置６００は、収音再生装置１００に対して、さらに、判定音出力部６０１を備える。
【０２１１】
判定音出力部６０１は、判定部１０１が、スピーカ１１１から出力される音声と、カメラ入力信号１３１との相関値を算出するための判定音６０２を生成し、生成した判定音６０２をスピーカ１１１に出音させる。
【０２１２】
また、判定部１０１は、スピーカ１１１により判定音６０２が出音されている期間において、収音信号１３４とカメラ入力信号１３１との相関値を算出する。
【０２１３】
以上により、本発明の実施の形態６に係る収音再生装置６００は、実施の形態１に係る収音再生装置１００の効果に加え、さらに、収音信号１３４とカメラ入力信号１３１との相関値を精度よく算出できる。
【０２１４】
なお、収音再生装置６００は、スピーカ１１１に判定音６０２のみを出音させてもよいし、受信信号１３２又はミキシング入力信号１３３に、判定音６０２をミキシングした後にスピーカ１１１に出音させてもよい。
【０２１５】
また、上記説明では、実施の形態１に係る収音再生装置１００が、さらに、判定音出力部６０１を備える例を説明したが、実施の形態２〜５に係る収音再生装置２００〜５００が、さらに、判定音出力部６０１を備えてもよい。
【０２１６】
以上、本発明の実施の形態１〜６に係る収音再生装置１００〜６００について説明したが、本発明は、この実施の形態に限定されるものではない。
【０２１７】
例えば、上記説明では、ビデオカメラ２７を用いる例を説明したが、ビデオカメラ２７の代わりに、撮影機能、及び記録する映像データの再生機能を有する、携帯電話などの映像出力装置を用いてもよい。また、収音再生装置１００〜６００に接続される外部装置は、動画像を撮影及び再生する機能を必ずしも有する必要はなく、収音機能、及び音声再生機能を有する音声出力装置を用いてもよい。例えば、ビデオカメラ２７の代わりに、ＩＣレコーダーを用いてもよい。
【０２１８】
また、上記説明では、スイッチ１０２は、非接続モード時には、経路Ｃを選択するとしたが、経路Ｃを設けずに、経路Ｂを選択してもよい。また、経路Ｃを設けない場合には、スイッチ１０２は、収音再生装置１００〜６００の起動時に、経路Ｂを選択する。この場合でも、収音再生装置１００〜６００は、当該収音再生装置１００〜６００の起動時の誤動作を防止できる。具体的には、収音再生装置１００〜６００は、当該収音再生装置１００〜６００の起動時に経路Ａが選択され、かつビデオカメラ２７が撮影モードで動作している場合に生じる、ハウリングの発生を防止できる。
【０２１９】
また、上述した収音再生装置１００〜６００に含まれる送信部１０５以外の処理部は、図４に示す音声処理部３７に相当し、送信部１０５は、通信制御部４６及び送受信回路４７に相当する。また、スピーカ１１１及び１２１は、音声出力部３８に相当し、マイクロホン１１２、１２２及びビデオカメラ２７は、音声入力部３９に相当する。
【０２２０】
また、上記説明では、コミュニケーション装置１１が収音再生装置１００〜６００を備える例を説明したが、ノートＰＣ１３、ＰＤＡ１５、携帯電話１６、及びディスクトップＰＣ１９のうち１以上が、上述した収音再生装置１００〜６００を備えてもよい。
【０２２１】
また、上述した収音再生装置１００〜６００を構成する構成要素の一部又は全部は、１個のシステムＬＳＩから構成されているとしてもよい。
【０２２２】
（その他変形例）
さらに、以下のような場合も本発明に含まれる。
【０２２３】
（１）上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭ又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
【０２２４】
（２）上記の各装置を構成する構成要素の一部又は全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ及びＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。
【０２２５】
（３）上記の各装置を構成する構成要素の一部又は全部は、各装置に脱着可能なＩＣカード又は単体のモジュールから構成されているとしてもよい。前記ＩＣカード又は前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカード又は前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカード又は前記モジュールは、その機能を達成する。このＩＣカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
【０２２６】
（４）本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
【０２２７】
また、本発明は、前記コンピュータプログラム又は前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）、又は半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
【０２２８】
また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
【０２２９】
また、本発明は、マイクロプロセッサとメモリとを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
【０２３０】
また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
【０２３１】
（５）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
【産業上の利用可能性】
【０２３２】
本発明は、収音再生装置に適用でき、特に、音声会議システム、テレビ会議システム、及び携帯電話などに用いられる収音再生装置に適用できる。
【図面の簡単な説明】
【０２３３】
【図１】本発明の実施の形態１に係る２拠点でのコミュニケーションシステムの構成を示す図である。
【図２】本発明の実施の形態１に係る多拠点でのコミュニケーションシステムの構成の一例を示す図である。
【図３】本発明の実施の形態１に係るコミュニケーション装置が備える入出力装置の配置の一例を示す図である。
【図４】本発明の実施の形態１に係るコミュニケーション装置の構成の一例を示すブロック図である。
【図５】本発明の実施の形態１に係るコミュニケーションシステムにおける、通常モード時の動作の概略を示す図である。
【図６】本発明の実施の形態１に係るコミュニケーションシステムにおける、撮影モード時の動作の概略を示す図である。
【図７】本発明の実施の形態１に係るコミュニケーションシステムにおける、再生モード時の動作の概略を示す図である。
【図８】本発明の実施の形態１に係る収音再生装置のブロック図である。
【図９】本発明の実施の形態１に係る収音再生装置による動作モード判定処理の流れを示すフローチャートである。
【図１０】本発明の実施の形態１に係る収音再生装置による出音処理の流れを示すフローチャートである。
【図１１】本発明の実施の形態１に係る収音再生装置による音声送信処理の流れを示すフローチャートである。
【図１２】本発明の実施の形態２に係る収音再生装置のブロック図である。
【図１３】本発明の実施の形態２に係る収音再生装置による音声送信処理の流れを示すフローチャートである。
【図１４】本発明の実施の形態３に係る収音再生装置のブロック図である。
【図１５】本発明の実施の形態４に係る収音再生装置のブロック図である。
【図１６】本発明の実施の形態４に係る収音再生装置による音声送信処理の流れを示すフローチャートである。
【図１７】本発明の実施の形態５に係る収音再生装置のブロック図である。
【図１８】本発明の実施の形態６に係る収音再生装置のブロック図である。
【図１９】テレビ会議端末とビデオカメラとの動作モードの組み合わせに対する、動作の一覧を示す図である。
【符号の説明】
【０２３４】
２、３コミュニケーションシステム
１０通信網
１１、１２コミュニケーション装置
１３ノートＰＣ
１４カメラ
１５ＰＤＡ
１６携帯電話
１７サーバ
１８インターネット
１９ディスクトップＰＣ
２０本体
２１ａ、２１ｂ、２１ｃディスプレイ
２２ａ、２２ｂ、２２ｃ、２２ｄ、２２ｅカメラ
２３マイク
２４ａ、２４ｂ、２４ｃスピーカ
２５机
２６リモコン
２７ビデオカメラ
３０制御部
３１音声符号化部
３２音声復号化部
３３画像符号化部
３４画像復号化部
３５電源回路
３６タイマー回路
３７音声処理部
３８音声出力部
３９音声入力部
４０表示処理部
４１表示部
４２画像処理部
４３画像入力部
４４操作入力制御部
４５操作入力部
４６通信制御部
４７送受信回路
５０ＣＰＵ
５１ＲＯＭ
５２ＲＡＭ
１００、２００、３００、４００、５００、６００収音再生装置
１０１、３０１、５０１判定部
１０２、２０６スイッチ
１０３入力音声混合部
１０４、２０４、４０４出力音声混合部
１０５送信部
１０６、１０８、４０８音声混合部
１０７、４０６、４０７エコーキャンセラ
１１０、１２０ユーザ
１１１、１２１スピーカ
１１２、１２２マイクロホン
１３１、２３７、４３７カメラ入力信号
１３２受信信号
１３３ミキシング入力信号
１３４、１３６収音信号
１３５、１３７、１３８、４３９ミキシング出力信号
５３１制御情報
６０１判定音出力部
６０２判定音

【特許請求の範囲】
【請求項１】
既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生装置であって、
前記マイクロホンと前記スピーカと前記音声出力装置とが存在する周辺の空間における音声と、前記音声出力装置により出力される第１入力音声信号との相関値が予め定められた第１の値以上か否かを判定する判定部と、
前記相関値が前記第１の値以上の場合、前記他の装置により送信された第２入力音声信号を前記スピーカに出力し、前記相関値が前記第１の値未満の場合、前記第１入力音声信号と前記第２入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合部と、
前記相関値が前記第１の値以上の場合、前記マイクロホンにより収音された第１収音信号及び前記第１入力音声信号のうち少なくとも一方を含む第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第１収音信号と前記第１入力音声信号とを混合することにより、第２出力信号を生成する出力音声混合部と、
前記相関値が前記第１の値以上の場合、前記第１出力信号を、前記通信網を介して前記他の装置に送信し、前記相関値が前記第１の値未満の場合、前記第２出力信号を、前記通信網を介して前記他の装置に送信する送信部とを備える
収音再生装置。
【請求項２】
前記判定部は、前記第１収音信号と前記第１入力音声信号との相関値が予め定められた第２の値以上か否かを判定することにより、前記空間における音声と、前記第１入力音声信号との相関値が前記第１の値以上か否かを判定する
請求項１記載の収音再生装置。
【請求項３】
前記判定部は、前記第２入力音声信号と前記第１入力音声信号との相関値が予め定められた第２の値以上か否かを判定することにより、前記空間における音声と、前記第１入力音声信号との相関値が前記第１の値以上か否かを判定する
請求項１記載の収音再生装置。
【請求項４】
前記出力音声混合部は、
前記相関値が前記第１の値以上の場合、前記第１収音信号と前記第１入力音声信号とを混合することにより、第１混合出力信号を生成する第１音声混合部と、
前記相関値が前記第１の値以上の場合、前記第１混合出力信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、前記第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第１収音信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第２収音信号を生成するエコーキャンセラと、
前記相関値が前記第１の値未満の場合、前記第２収音信号と前記第１入力音声信号とを混合することにより、前記第２出力信号を生成する第２音声混合部とを備える
請求項１〜３のいずれか１項に記載の収音再生装置。
【請求項５】
前記出力音声混合部は、
前記相関値が前記第１の値以上の場合、前記第１入力音声信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、前記第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第１収音信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第２収音信号を生成するエコーキャンセラと、
前記相関値が前記第１の値未満の場合、前記第２収音信号と前記第１入力音声信号とを混合することにより、前記第２出力信号を生成する第１音声混合部とを備える
請求項１〜３のいずれか１項に記載の収音再生装置。
【請求項６】
前記出力音声混合部は、
前記相関値が前記第１の値以上の場合、前記第１入力音声信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第３入力音声信号を生成する第１エコーキャンセラと、
前記第１収音信号に含まれる前記スピーカにより出音された音声の成分を除去することにより、第２収音信号を生成する第２エコーキャンセラと、
前記相関値が前記第１の値以上の場合、前記第２収音信号と前記第３入力音声信号とを混合することにより、前記第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第２収音信号と前記第１入力音声信号とを混合することにより、前記第２出力信号を生成する第１音声混合部とを備える
請求項１〜３のいずれか１項に記載の収音再生装置。
【請求項７】
前記判定部は、さらに、前記音声出力装置により前記第１入力音声信号が出力されているか否かを判定し、
前記入力音声混合部は、前記音声出力装置により前記第１入力音声信号が出力されていない場合、前記第２入力音声信号を前記スピーカに出力し、
前記送信部は、前記音声出力装置により前記第１入力音声信号が出力されていない場合、前記第１収音信号を、前記通信網を介して前記他の装置に送信する
請求項１〜６のいずれか１項に記載の収音再生装置。
【請求項８】
前記入力音声混合部は、当該収音再生装置が起動されてから、前記判定部により前記判定が行われるまでの間、前記第２入力音声信号を前記スピーカに出力する
請求項１〜７のいずれか１項に記載の収音再生装置。
【請求項９】
前記収音再生装置は、さらに、
判定音を前記スピーカに出音させる判定音出力部を備え、
前記判定部は、前記スピーカにより前記判定音が出音されている期間において、前記空間における音声と、前記第１入力音声信号との相関値が前記第１の値以上か否かを判定する
請求項１〜８のいずれか１項に記載の収音再生装置。
【請求項１０】
既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生装置であって、
前記音声出力装置が、収音中の音声を出力する第１モードで動作しているか、前記音声出力装置が既に記録している音声を出力する第２モードで動作しているかを示す、外部から入力された制御情報を取得し、当該制御情報に基づき、前記音声出力装置が、前記第１モードで動作しているか前記第２モードで動作しているかを判定する判定部と、
前記音声出力装置が前記第１モードで動作している場合、前記他の装置により送信された第２入力音声信号を前記スピーカに出力し、前記音声出力装置が前記第２モードで動作している場合、前記第１入力音声信号と前記第２入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合部と、
前記音声出力装置が前記第１モードで動作している場合、前記マイクロホンにより収音された第１収音信号及び前記第１入力音声信号のうち少なくとも一方を含む第１出力信号を生成し、前記音声出力装置が前記第２モードで動作している場合、前記第１収音信号と前記第１入力音声信号とを混合することにより、第２出力信号を生成する出力音声混合部と、
前記音声出力装置が前記第１モードで動作している場合、前記第１出力信号を、前記通信網を介して前記他の装置に送信し、前記音声出力装置が前記第２モードで動作している場合、前記第２出力信号を、前記通信網を介して前記他の装置に送信する送信部とを備える
収音再生装置。
【請求項１１】
既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生方法であって、
前記マイクロホンと前記スピーカと前記音声出力装置とが存在する周辺の空間における音声と、前記音声出力装置により出力される第１入力音声信号との相関値が予め定められた第１の値以上か否かを判定する判定ステップと、
前記相関値が前記第１の値以上の場合、前記他の装置により送信された第２入力音声信号を前記スピーカに出力し、前記相関値が前記第１の値未満の場合、前記第１入力音声信号と前記第２入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合ステップと、
前記相関値が前記第１の値以上の場合、前記マイクロホンにより収音された第１収音信号及び前記第１入力音声信号のうち少なくとも一方を含む第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第１収音信号と前記第１入力音声信号とを混合することにより、第２出力信号を生成する出力音声混合ステップと、
前記相関値が前記第１の値以上の場合、前記第１出力信号を、前記通信網を介して前記他の装置に送信し、前記相関値が前記第１の値未満の場合、前記第２出力信号を、前記通信網を介して前記他の装置に送信する送信ステップとを含む
収音再生方法。
【請求項１２】
既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音するためのプログラムであって、
前記マイクロホンと前記スピーカと前記音声出力装置とが存在する周辺の空間における音声と、前記音声出力装置により出力される第１入力音声信号との相関値が予め定められた第１の値以上か否かを判定する判定ステップと、
前記相関値が前記第１の値以上の場合、前記他の装置により送信された第２入力音声信号を前記スピーカに出力し、前記相関値が前記第１の値未満の場合、前記第１入力音声信号と前記第２入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合ステップと、
前記相関値が前記第１の値以上の場合、前記マイクロホンにより収音された第１収音信号及び前記第１入力音声信号のうち少なくとも一方を含む第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第１収音信号と前記第１入力音声信号とを混合することにより、第２出力信号を生成する出力音声混合ステップと、
前記相関値が前記第１の値以上の場合、前記第１出力信号を、前記通信網を介して前記他の装置に送信し、前記相関値が前記第１の値未満の場合、前記第２出力信号を、前記通信網を介して前記他の装置に送信する送信ステップとをコンピュータに実行させる
プログラム。
【請求項１３】
既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する集積回路であって、
前記マイクロホンと前記スピーカとが設置された空間における音声と、前記音声出力装置により出力される第１入力音声信号との相関値が予め定められた第１の値以上か否かを判定する判定部と、
前記相関値が前記第１の値以上の場合、前記他の装置により送信された第２入力音声信号を前記スピーカに出力し、前記相関値が前記第１の値未満の場合、前記第１入力音声信号と前記第２入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合部と、
前記相関値が前記第１の値以上の場合、前記マイクロホンにより収音された第１収音信号及び前記第１入力音声信号のうち少なくとも一方を含む第１出力信号を生成し、前記相関値が前記第１の値未満の場合、前記第１収音信号と前記第１入力音声信号とを混合することにより、第２出力信号を生成する出力音声混合部と、
前記相関値が前記第１の値以上の場合、前記第１出力信号を、前記通信網を介して前記他の装置に送信し、前記相関値が前記第１の値未満の場合、前記第２出力信号を、前記通信網を介して前記他の装置に送信する送信部とを備える
集積回路。

【図１】