説明

収音再生装置及び収音再生方法

【課題】ビデオカメラ等の音声出力装置の動作モードと、テレビ会議端末等の収音再生装置の動作モードとが正しく設定されない場合に生じる誤動作を防止する。
【解決手段】本発明の収音再生装置100は、マイクロホン112とスピーカ111とビデオカメラ27とが存在する周辺の空間における音声と、ビデオカメラ27により出力されるカメラ入力信号131との相関値が第1の値以上か否かを判定する判定部101と、相関値が第1の値以上の場合、コミュニケーション装置12により送信された受信信号132をスピーカ111に出力し、相関値が第1の値未満の場合、カメラ入力信号131と受信信号132とを混合することにより、ミキシング入力信号133を生成し、生成したミキシング入力信号133をスピーカ111に出力する入力音声混合部103とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、収音再生装置及び収音再生方法に関し、特に、マイクロホンが収音した音声、及び音声出力装置により出力される音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生装置に関する。
【背景技術】
【0002】
テレビ会議システムにおいて、テレビ会議端末に外部機器を接続し、外部機器に保存されている動画像データを複数のテレビ会議端末で共有する技術が知られている(例えば、特許文献1参照)。
【0003】
また、テレビ会議端末に外部機器としてビデオカメラを接続することで、ビデオカメラに保存された動画像データを複数のテレビ会議端末で共有することができる。さらに、ビデオカメラでリアルタイムに録画及び録音中の動画像データを複数のテレビ会議端末で共有することができる。
【0004】
一般にビデオカメラは、保存している動画像データを出力(再生)する再生モードと、現在記録中の動画像データを出力(表示)する撮影モードとを有する。
【0005】
また、ビデオカメラに記録された動画像データを複数のテレビ会議端末で共有する場合(以下、再生モード)、自身の端末(以下、自端末)は、ビデオカメラに記録された動画像データと、自端末が備えるカメラ及びマイクロホンで取得した動画像データとを通話相手の端末(以下、相手端末)に送信する。なお、自端末は、ビデオカメラに記録された動画像データのみを送信してもよい。さらに、自端末は、ビデオカメラに記録された動画像データと、相手端末から送信された動画像データとを自端末に表示する。なお、自端末は、ビデオカメラに記録された動画像データのみを自端末に表示してもよいし、相手端末から送信された動画像データのみを自端末に表示してもよい。
【0006】
また、ビデオカメラでリアルタイムに録画及び録音中の動画像データを複数のテレビ会議端末で共有する場合(以下、撮影モード)、自端末は、ビデオカメラで撮影中の動画像データと、自端末が備えるカメラ及びマイクロホンで取得した動画像データとを相手端末に送信する。なお、自端末は、ビデオカメラで撮影中の動画像データのみを相手端末に送信してもよい。さらに、自端末は、ビデオカメラで撮影中の動画像データと、相手端末から送信された動画像データとを自端末に表示する。なお、自端末は、ビデオカメラで撮影中の動画像データのみを自端末に表示してもよい。
【0007】
なお、以下では、音声信号のみに着目して説明する。
つまり、再生モードでは、自端末は、ビデオカメラに記録された音声信号と、自端末が備えるマイクロホンにより収音された音声信号とをミキシング(混合)し、ミキシングした音声信号を相手端末に送信する。さらに、自端末は、ビデオカメラに記録された音声信号と、相手端末より送信された音声信号とをミキシングし、ミキシングした音声信号を自端末のスピーカから出音する。
【0008】
また、撮影モードでは、自端末は、ビデオカメラで撮影中の音声信号と、自端末が備えるマイクロホンにより収音された音声信号とをミキシングし、ミキシングした音声信号を相手端末に送信する。また、自端末は、相手端末より送信された音声信号のみを自端末のスピーカから出音する。
【特許文献1】特開平09−065305号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら、上述したテレビ会議端末では、ビデオカメラの動作モード(再生モード及び撮影モード)と、テレビ会議端末の動作モード(再生モード及び撮影モード)との組み合わせが、正しく設定されない場合、以下に示す課題が生じる。
【0010】
図19は、テレビ会議端末とビデオカメラとの動作モードの組み合わせに対する、動作の一覧を示す図である。
【0011】
図19に示すように、テレビ会議端末が再生モードであり、かつビデオカメラが撮影モードの場合、ビデオカメラで撮影中の音声信号が自端末のスピーカで拡声され、当該拡声された音声が再度ビデオカメラで収音される。これにより、最悪の場合には、ハウリングが発生するという課題が生じる。
【0012】
また、テレビ会議端末が撮影モードであり、ビデオカメラが再生モードの場合、ビデオカメラに記録される音声信号が自端末で再生されないという課題が生じる。
【0013】
このように、従来のテレビ会議端末は、ビデオカメラ等の音声出力装置の動作モードと、テレビ会議端末等の収音再生装置の動作モードとが正しく設定されない場合に、誤動作が生じるという課題を有する。
【0014】
本発明は、上記課題を解決するものであり、ビデオカメラ等の音声出力装置の動作モードと、テレビ会議端末等の収音再生装置の動作モードとが正しく設定されない場合に生じる誤動作を防止できる収音再生装置及び収音再生方法を提供することを目的とする。
【課題を解決するための手段】
【0015】
上記目的を達成するために、本発明に係る収音再生装置は、既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生装置であって、前記マイクロホンと前記スピーカと前記音声出力装置とが存在する周辺の空間における音声と、前記音声出力装置により出力される第1入力音声信号との相関値が予め定められた第1の値以上か否かを判定する判定部と、前記相関値が前記第1の値以上の場合、前記他の装置により送信された第2入力音声信号を前記スピーカに出力し、前記相関値が前記第1の値未満の場合、前記第1入力音声信号と前記第2入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合部と、前記相関値が前記第1の値以上の場合、前記マイクロホンにより収音された第1収音信号及び前記第1入力音声信号のうち少なくとも一方を含む第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第1収音信号と前記第1入力音声信号とを混合することにより、第2出力信号を生成する出力音声混合部と、前記相関値が前記第1の値以上の場合、前記第1出力信号を、前記通信網を介して前記他の装置に送信し、前記相関値が前記第1の値未満の場合、前記第2出力信号を、前記通信網を介して前記他の装置に送信する送信部とを備える。
【0016】
この構成によれば、本発明に係る収音再生装置は、マイクロホンとスピーカと音声出力装置とが存在する周辺の空間における音声と、音声出力装置により出力される第1入力音声信号との相関を用いて、音声出力装置が、記録している音声を出力している(再生モード)か、収音中の音声を出力している(撮影モード)かを判断できる。これにより、本発明に係る収音再生装置は、音声出力装置の動作モードを自動で判断したうえで、音声出力装置の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明に係る収音再生装置は、音声出力装置の動作モードと、収音再生装置の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【0017】
また、前記判定部は、前記第1収音信号と前記第1入力音声信号との相関値が予め定められた第2の値以上か否かを判定することにより、前記空間における音声と、前記第1入力音声信号との相関値が前記第1の値以上か否かを判定してもよい。
【0018】
この構成によれば、本発明に係る収音再生装置は、マイクロホンで収音された収音信号と、音声出力装置により出力される第1入力音声信号との相関を用いて、音声出力装置が、記録している音声を出力している(再生モード)か、収音中の音声を出力している(撮影モード)かを判断できる。
【0019】
また、前記判定部は、前記第2入力音声信号と前記第1入力音声信号との相関値が予め定められた第2の値以上か否かを判定することにより、前記空間における音声と、前記第1入力音声信号との相関値が前記第1の値以上か否かを判定してもよい。
【0020】
この構成によれば、本発明に係る収音再生装置は、スピーカから出音される第2入力音声信号と、音声出力装置により出力される第1入力音声信号との相関を用いて、音声出力装置が、記録している音声を出力している(再生モード)か、収音中の音声を出力している(撮影モード)かを判断できる。
【0021】
また、前記出力音声混合部は、前記相関値が前記第1の値以上の場合、前記第1収音信号と前記第1入力音声信号とを混合することにより、第1混合出力信号を生成する第1音声混合部と、前記相関値が前記第1の値以上の場合、前記第1混合出力信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、前記第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第1収音信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第2収音信号を生成するエコーキャンセラと、前記相関値が前記第1の値未満の場合、前記第2収音信号と前記第1入力音声信号とを混合することにより、前記第2出力信号を生成する第2音声混合部とを備えてもよい。
【0022】
この構成によれば、本発明に係る収音再生装置は、音声出力装置が記録している音声を出力している場合(再生モード時)には、エコーキャンセル処理を行っていない第1入力音声信号と、エコーキャンセル処理を行った第2収音信号とを混合する。これにより、第1入力音声信号と第1収音信号とを混合した後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【0023】
さらに、本発明に係る収音再生装置は、音声出力装置が収音中の音声を出力している場合(撮影モード時)には、第1入力音声信号と第1収音信号とを混合したうえで、他の装置に送信する。これにより、マイクロホンと、音声出力装置とが離れた位置に存在する場合でも、マイクロホンの周辺の音声と、音声出力装置の周辺の音声とを、他の装置に送信できる。
【0024】
また、前記出力音声混合部は、前記相関値が前記第1の値以上の場合、前記第1入力音声信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、前記第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第1収音信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第2収音信号を生成するエコーキャンセラと、前記相関値が前記第1の値未満の場合、前記第2収音信号と前記第1入力音声信号とを混合することにより、前記第2出力信号を生成する第1音声混合部とを備えてもよい。
【0025】
この構成によれば、本発明に係る収音再生装置は、音声出力装置が記録している音声を出力している場合(再生モード時)には、エコーキャンセル処理を行っていない第1入力音声信号と、エコーキャンセル処理を行った第2収音信号とを混合する。これにより、第1入力音声信号と第1収音信号とを混合した後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【0026】
さらに、本発明に係る収音再生装置は、音声出力装置が収音中の音声を出力している場合(撮影モード時)には、第1入力音声信号のみを他の装置に送信する。これにより、第1音声入力信号と第1収音信号とを混合した後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【0027】
また、前記出力音声混合部は、前記相関値が前記第1の値以上の場合、前記第1入力音声信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第3入力音声信号を生成する第1エコーキャンセラと、前記第1収音信号に含まれる前記スピーカにより出音された音声の成分を除去することにより、第2収音信号を生成する第2エコーキャンセラと、前記相関値が前記第1の値以上の場合、前記第2収音信号と前記第3入力音声信号とを混合することにより、前記第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第2収音信号と前記第1入力音声信号とを混合することにより、前記第2出力信号を生成する第1音声混合部とを備えてもよい。
【0028】
この構成によれば、本発明に係る収音再生装置は、音声出力装置が記録している音声を出力している場合(再生モード時)には、エコーキャンセル処理を行っていない第1入力音声信号と、エコーキャンセル処理を行った第2収音信号とを混合する。これにより、第1入力音声信号と第1収音信号とを混合した後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【0029】
さらに、本発明に係る収音再生装置は、音声出力装置が記録している音声を出力している場合(再生モード時)には、第1入力音声信号と第1収音信号とのそれぞれに対して、エコーキャンセル処理を行った後に、混合を行う。これにより、第1入力音声信号と第1収音信号とを混合した後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【0030】
また、前記判定部は、さらに、前記音声出力装置により前記第1入力音声信号が出力されているか否かを判定し、前記入力音声混合部は、前記音声出力装置により前記第1入力音声信号が出力されていない場合、前記第2入力音声信号を前記スピーカに出力し、前記送信部は、前記音声出力装置により前記第1入力音声信号が出力されていない場合、前記第1収音信号を、前記通信網を介して前記他の装置に送信してもよい。
【0031】
この構成によれば、本発明に係る収音再生装置は、音声出力装置から第1入力音声信号が出力されていない場合、及び、当該音声出力装置が、当該収音再生装置に接続されていない場合には、自動的に、通常の音声通信モードで動作することができる。
【0032】
また、前記入力音声混合部は、当該収音再生装置が起動されてから、前記判定部により前記判定が行われるまでの間、前記第2入力音声信号を前記スピーカに出力してもよい。
【0033】
この構成によれば、本発明に係る収音再生装置は、当該収音再生装置の起動時の誤動作(ハウリング)の発生を防止できる。
【0034】
また、前記収音再生装置は、さらに、判定音を前記スピーカに出音させる判定音出力部を備え、前記判定部は、前記スピーカにより前記判定音が出音されている期間において、前記空間における音声と、前記第1入力音声信号との相関値が前記第1の値以上か否かを判定してもよい。
【0035】
この構成によれば、本発明に係る収音再生装置は、マイクロホンとスピーカと音声出力装置とが存在する周辺の空間における音声と、音声出力装置により出力される第1入力音声信号との相関値を精度よく算出できる。
【0036】
また、本発明に係る収音再生装置は、既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生装置であって、前記音声出力装置が、収音中の音声を出力する第1モードで動作しているか、前記音声出力装置が既に記録している音声を出力する第2モードで動作しているかを示す、外部から入力された制御情報を取得し、当該制御情報に基づき、前記音声出力装置が、前記第1モードで動作しているか前記第2モードで動作しているかを判定する判定部と、前記音声出力装置が前記第1モードで動作している場合、前記他の装置により送信された第2入力音声信号を前記スピーカに出力し、前記音声出力装置が前記第2モードで動作している場合、前記第1入力音声信号と前記第2入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合部と、前記音声出力装置が前記第1モードで動作している場合、前記マイクロホンにより収音された第1収音信号及び前記第1入力音声信号のうち少なくとも一方を含む第1出力信号を生成し、前記音声出力装置が前記第2モードで動作している場合、前記第1収音信号と前記第1入力音声信号とを混合することにより、第2出力信号を生成する出力音声混合部と、前記音声出力装置が前記第1モードで動作している場合、前記第1出力信号を、前記通信網を介して前記他の装置に送信し、前記音声出力装置が前記第2モードで動作している場合、前記第2出力信号を、前記通信網を介して前記他の装置に送信する送信部とを備える。
【0037】
この構成によれば、本発明に係る収音再生装置は、制御情報を用いて、音声出力装置が、記録している音声を出力している(再生モード)か、収音中の音声を出力している(撮影モード)かを判断できる。これにより、本発明に係る収音再生装置は、音声出力装置の動作モードを自動で判断したうえで、音声出力装置の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明に係る収音再生装置は、音声出力装置の動作モードと、収音再生装置の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【0038】
なお、本発明は、このような収音再生装置として実現できるだけでなく、収音再生装置に含まれる特徴的な手段をステップとする収音再生方法として実現したり、そのような特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体及びインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
【0039】
さらに、本発明は、このような収音再生装置の機能の一部又は全てを実現する半導体集積回路(LSI)として実現したり、このような収音再生装置を備える音声通信端末、音声会議端末、テレビ会議端末、又はコミュニケーション装置として実現したり、このような音声通信端末、音声会議端末、テレビ会議端末、又はコミュニケーション装置を含む音声通信システム、音声会議システム、テレビ会議システム、又はコミュニケーションシステムとして実現したりできる。
【発明の効果】
【0040】
以上より、本発明は、ビデオカメラ等の音声出力装置の動作モードと、テレビ会議端末等の収音再生装置の動作モードとが正しく設定されない場合に生じる誤動作を防止できる収音再生装置及び収音再生方法を提供できる。
【発明を実施するための最良の形態】
【0041】
以下、本発明の実施の形態について、図面を参照しながら説明する。
【0042】
(実施の形態1)
まず、本発明の実施の形態に係る収音再生装置を含むコミュニケーションシステムについて説明する。
【0043】
図1は、本発明の実施の形態1に係る2拠点でのコミュニケーションサービスを実現するコミュニケーションシステム2の構成を示す図である。
【0044】
図1において、第1の拠点に配置されるコミュニケーション装置11と、第2の拠点に配置されるコミュニケーション装置12とは、通信機能を有する映像音声制御装置であり、通信網10を介して相互接続が可能である。
【0045】
コミュニケーション装置11は、第1の拠点におけるリアルタイムな映像音声データを、カメラ及びマイクロホンから取得し、取得した映像音声データを、通信網10を介してコミュニケーション装置12に送信する。また、コミュニケーション装置11は、第2の拠点におけるリアルタイムな映像音声データを、コミュニケーション装置12から受信し、自装置のディスプレイ及びスピーカに出力する。
【0046】
また、通信網10を介しているにもかかわらず、距離による影響を低減した、よりリアルなコミュニケーションサービスを提供するために、コミュニケーション装置11及び12は、複数個のディスプレイ、カメラ、マイクロホン、及びスピーカを備える。これらの入出力装置は、予め適した位置に配置されており、この配置に特徴を有している。これについては、図を用いて後で詳細に説明する。
【0047】
通信網10は、有線回線でも無線回線でもよく、また、この両方の組み合わせであってもよい。また、インターネット又は公衆電話回線などのパブリックネットワークであってもよく、LAN(Local Area Network)などの限られたドメインの中でクローズされたローカルネットワークであってもよく、また、この両方の組み合わせであってもよい。
【0048】
また、コミュニケーション装置11とコミュニケーション装置12との間の通信には、例えば、RTP(Real−time Transport Protocol)又はTCP(Transmission Control Protocol)を用いたデジタル通信が用いられる。
【0049】
また、コミュニケーション装置11及び12は、ネットワーク上の位置を示すアドレス情報としてIPアドレスが割り当てられているものとする。なお、IPアドレスでなく、電話番号など他の情報をアドレス情報として用いてもよい。
【0050】
また、コミュニケーション装置11及び12が送受信するデータは、リアルタイムな映像音声データとしたが、光ディスク又はハードディスクなどの記憶媒体に記録されている映像音声データも、リアルタイムな映像音声データと共に送受信することができる。また、コミュニケーション装置11及び12が送受信するデータは、静止画データ、テキスト、又はHTMLなどの文書データでもよい。
【0051】
以上により、コミュニケーション装置11とコミュニケーション装置12とは、予め適した位置に配置された複数個の入出力装置を用いて、他拠点のリアルタイムな映像及び音声を出力することが可能となり、よりリアルなコミュニケーションサービスを提供することができる。
【0052】
また、図1に示した2拠点でのコミュニケーションサービスだけでなく、3拠点以上での相互接続によるコミュニケーションサービスが可能である。図2は、前述したコミュニケーション装置11及び12以外の機器も備えたコミュニケーションシステム3の構成の一例を示している。
【0053】
図2に示すコミュニケーションシステム3では、コミュニケーション装置11と、コミュニケーション装置12と、ノートPC(パーソナルコンピュータ)13と、PDA(Personal Digital Assistant)15と、携帯電話16と、ディスクトップPC19とが接続され、5拠点でのコミュニケーションシステムが実施される。なお、ここでは、公衆電話回線である通信網10とインターネット18とが、インターネットサービスプロバイダであるサーバ17を介して接続されているものとする。
【0054】
コミュニケーション装置11及び12は、図1と同じであるため、それ以外の機器について説明する。なお、図2に示した通り、コミュニケーション装置11及び12を構成する構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。
【0055】
ノートPC13は、カメラ機能を内蔵しておらず、外付けでカメラ14が接続されている。カメラ14は、デジタルビデオカメラなどの動画撮影が可能な機器である。ノートPC13は、カメラ14により撮影された映像音声データを、自拠点でのリアルタイムな映像音声データとして、通信網10を介して、他機器に送信する。なお、カメラ14が、動画撮影機能を有しておらず、静止画撮影機能のみの場合、撮影した静止画データを一定間隔で送信してもよい。
【0056】
PDA15は、カメラ機能を有しておらず、自拠点のリアルタイムな映像データを送信することができない。PDA15は、通信網10を介して、受信した映像データをディスプレイ及びスピーカに出力するとともに、自拠点でのリアルタイムな音声データを他機器に送信する。なお、カメラ機能を有している場合は、映像音声データを送受信することが可能となる。
【0057】
携帯電話16は、CCDカメラなどのカメラ付きの携帯電話であり、自拠点でのリアルタイムな映像音声データをカメラ及びマイクから取得し、通信網10を介して他機器に送信する。また、受信した映像音声データを自装置のディスプレイ及びスピーカに出力する。また、携帯電話16は、PDC(Personal Digital Communications)方式、CDMA(Code Division Multiple Access)方式、GSM(Global System for Mobile Communications)方式、W−CDMA(Wideband−Code Division Multiple Access)方式、CDMA1x(Code Division Multiple Access)方式、及びLTE(Long Term Evolution)などのうち、いずれの通信方式を用いてもよい。また、携帯電話16は、SDカードなどの記録媒体である蓄積メディアを装着可能なスロット部を有しており、記録メディアに記録されているデータを、コミュニケーションサービスに参加している他機器と共有することが可能である。さらに、携帯電話16による通信網10への接続は、WiMAXなど他の無線通信機能を用いてもよい。
【0058】
ディスクトップPC19は、カメラ機能を内蔵しており、自拠点でのリアルタイムな映像音声データをカメラ及びマイクから取得し、インターネット18と通信網10を介して他機器に送信する。なお、インターネット18と通信網10とは、インターネットサービスプロバイダのサーバ17を介して接続しているものとする。また、ディスクトップPC19は、受信した映像音声データを自装置のディスプレイ及びスピーカに出力する。なお、ディスクトップPC19は、光ディスク又はSDカードなどの記憶媒体である蓄積メディアの読み取りが可能なデバイスと、外付けHDD又は内部メモリとのうち1以上を有しており、これらに記録されているデータを、コミュニケーションサービスに参加している他機器と共有することが可能である。
【0059】
また、各機器は、ネットワーク上の位置を示すアドレス情報として電話番号又はIPアドレスが割り当てられているものとする。なお、IPv6対応のIPアドレスを用いることで、各機器が物理的に移動しても、同じアドレスを用いてコミュニケーションサービスに参加することが可能となる。
【0060】
また、各機器は、コミュニケーションサービスに参加している他機器へマルチキャストで映像音声データの送信を行なってもよい。また、特定の機器(例えばコミュニケーション装置11)をサーバと設定し、サーバが他機器から映像音声データを受信して処理を行なった後、他機器へマルチキャストしてもよい。
【0061】
以上により、コミュニケーション装置11とコミュニケーション装置12は、複数拠点に位置する各機器が送信したリアルタイムな映像や音声を出力することが可能となり、よりリアルなコミュニケーションサービスを提供することができる。
【0062】
次に、コミュニケーション装置11及び12が備える入出力装置の配置について説明する。図3は、コミュニケーション装置11及び12の構成の一例を示す図である。
【0063】
コミュニケーション装置11及び12は、本体20と、ディスプレイ21a、21b及び21cと、カメラ22a、22b、22c、22d及び22eと、マイク23と、スピーカ24a、24b及び24cと、リモコン26と、ビデオカメラ27とを備えている。また、各入出力装置(ディスプレイ21a、21b及び21c、カメラ22a、22b、22c、22d及び22e、マイク23、スピーカ24a、24b及び24c、リモコン26、及びビデオカメラ27)は、本体20と接続されている。この接続は、有線回線であっても無線回線であってもよい。また、コミュニケーションサービスに参加する1人以上のユーザは、ディスプレイ21a、21b及び21cの方向に向いて机25の席につくことを想定している。
【0064】
本体20は、CPU及びメモリを備えた情報処理装置である。本体20は、各入出力装置の制御と、入出力装置から入力された映像音声データの符号化処理と、通信網10を介した通信制御処理と、通信網10を介して受信した映像音声データの復号化処理と、復号化した映像音声データの入出力装置への出力処理などとを行なう。
【0065】
ディスプレイ21a、21b及び21cは、映像などを表示する装置であり、例えば、LCD(Liguid Crystal Display)又はPDP(Plasma Display Panel)である。このディスプレイ21a、21b及び21cは、コミュニケーションサービスに参加するユーザの正面に位置するよう、机25の前面に並べて配置される。ここでは3個のディスプレイが接続されている。この3個のディスプレイには、他拠点での参加者の映像が、机25の席についているように表示される。つまり、他拠点の映像は、ディスプレイの個数に合わせて分割して表示される。なお、4個以上のディスプレイを接続してもよい。
【0066】
カメラ22a、22b、22c、22d及び22eは、デジタルビデオカメラなどの動画撮影機能を有する撮影装置である。このカメラ22a、22b、22c、22d及び22eは、ディスプレイ21a、21b及び21cの上部に配置される。ここでは5個のカメラが接続されている。カメラ22aは、左に位置するディスプレイ21aの左右方向の中央に配置される。カメラ22eは、右に位置するディスプレイ21cの左右方向の中央に配置される。カメラ22b、22c及び22dは、中央に位置するディスプレイ21bの左右方向の中央に並べて配置される。また、隣り合わせに配置されたカメラの撮影対象は、映像の端が一部重なるものとする。これにより、コミュニケーション装置11及び12は、ディスプレイ21a、21b及び21cの方向に向いて机25の席についたユーザの映像を、切れ目なく撮影して、他拠点に送信することが可能となる。
【0067】
マイク23は、周辺の音声の集音を行なう入力装置である。このマイク23は、机25の中央に配置される。また、机25の席についたユーザの人数に合わせた個数の指向性マイクを、各ユーザの正面に位置するように配置してもよい。また、1個の無指向性マイクと1個以上の指向性マイクを組み合わせて配置してもよい。これにより、他拠点において、どの方向からの音声かを把握することが可能となり、他拠点は音声を出力する方向を制御することが可能となる。
【0068】
スピーカ24a、24b及び24cは、ディスプレイ21a、21b及び21cの背後に配置される。ディスプレイの個数に合わせて、ここでは3個のスピーカが接続されている。これにより、ディスプレイ21a、21b及び21cに表示されている映像に合わせて、音声を出力するスピーカを制御することが可能となる。つまり、ディスプレイ21aに表示されているユーザの声が、スピーカ24aから出力されることになる。
【0069】
リモコン26は、ユーザからの入力指示を受け、本体20への操作入力信号を送信する操作入力装置である。なお、リモコン26は、机25の席についたユーザにより操作可能であればよい。また、ここでは、操作入力装置はリモコンとしたが、キーボード及びマウスなど、他の操作入力装置を用いてもよい。また、机25の席についたユーザの人数に合わせた個数の操作入力装置を、各ユーザの正面に位置するように配置してもよい。
【0070】
ビデオカメラ27は、例えば、民生のデジタルビデオカメラであり、動画像撮影機能と、周辺の音声の集音を行なう機能とを有する。また、このデジタルビデオカメラは、ユーザにより移動が可能である。
【0071】
以上により、コミュニケーション装置11及び12は、他拠点とのコミュニケーションサービスを提供することが可能となる。つまり、ユーザがリモコン26を操作して接続先(他拠点)を設定して通信を確立し、コミュニケーションサービスを開始する。コミュニケーションサービス実行中は、カメラ22a、22b、22c、22d及び22eが、机25の席についたユーザの映像を撮影し、同時に、マイク23が、音声を収音する。
【0072】
本体20は、カメラ22a、22b、22c、22d及び22eとマイク23とから、自拠点のリアルタイムな映像音声データを取得し、取得した映像音声データに符号化処理を行い、符号化した映像音声データを他拠点へ送信する。また、本体20は、他拠点の映像音声データを受信し、受信した映像音声データに復号化処理を行い、復号化した映像音声データをディスプレイ21a、21b及び21cとスピーカ24a、24b及び24cとへ出力する。
【0073】
これにより、複数拠点間で相互にリアルタイムな映像及び音声を出力することが可能となり、よりリアルなコミュニケーションサービスを提供することができる。また、コミュニケーションサービス実行中に、ユーザがリモコン26を操作して、光ディスク又はSDカードなどの記憶媒体である蓄積メディアに記録されているデータを取得し、通信網10を介して送受信することで、コミュニケーションサービスに参加している他機器と当該データを共有することが可能となる。
【0074】
図4は、コミュニケーション装置11及び12の構成を示すブロック図である。
コミュニケーション装置11及び12は、制御部30、音声符号化部31、音声復号化部32、画像符号化部33、画像復号化部34、電源回路35、タイマー回路36、音声処理部37、音声出力部38、音声入力部39、表示処理部40、表示部41、画像処理部42、画像入力部43、操作入力制御部44、操作入力部45、通信制御部46、及び送受信回路47を備える。各処理部は、バスラインを通じて互いに接続されている。また、必要に応じて、バスラインには、ハードディスク装置48及び読取装置49を接続することが可能である。ハードディスク装置48と読取装置49とは、それぞれインタフェースを通じてバスラインに接続される。
【0075】
制御部30は、CPU(Central Processing Unit)50、ROM(Read Only Memory)51、及びRAM(Random Access Memory)52を備え、コミュニケーション装置全体の制御を行う。CPU50は、単一のCPUで構成されても良く、複数のCPUで構成されても良い。ROM51は、CPU50の動作を規定するコンピュータプログラムを記憶している。コンピュータプログラムは、ハードディスク装置48に記憶させることもできる。CPU50は、ROM51又はハードディスク装置48が格納するコンピュータプログラムを、必要に応じてRAM52に書き込みつつ、コンピュータプログラムが規定する処理を実行する。RAM52は、CPU50が処理を実行するのに伴って発生するデータを一時的に記憶する媒体としても機能する。ROM51には、フラッシュROMのように書き込みが可能で、電源を切っても記憶内容を保持できる不揮発性のメモリ及び記憶媒体も含まれる。また、RAM52には、電源を切ると記憶内容が保持されない揮発性のメモリ及び記憶媒体が含まれる。
【0076】
音声符号化部31は、音声処理部37から通知された音声データを、特定の符号化方法によって圧縮符号化することにより、符号化音声データに変換し、変換した符号化音声データを通信制御部46に出力する。
【0077】
音声復号化部32は、通信制御部46から通知された符号化音声データを、特定の復号化方法で復号化することにより再生可能な音声データを生成し、生成した音声データを音声処理部37に出力する。
【0078】
画像符号化部33は、画像処理部42から通知された画像データを、特定の符号化方法によって圧縮符号化することにより、符号化画像データに変換し、変換した符号化画像データを通信制御部46に出力する。
【0079】
画像復号化部34は、通信制御部46から通知された符号化画像データを、特定の復号化方法で復号化することにより再生可能な画像データを生成し、生成した画像データを表示処理部40に出力する。
【0080】
電源回路35は、電源キーのオン操作により、バッテリーパック又はアダプタ経由で受け取った電力を各処理部に供給することにより、コミュニケーション装置を動作可能な状態に起動する。また、コミュニケーション装置11及び12は、通常モード及び省電力モードを含む複数のモードを備えでもよい。省電力モード時には、電源回路35は、一部の処理部にのみに電力を供給することで、必要な電力を低減することができる。例えば、コミュニケーション装置11及び12は、他拠点からの着呼待ち状態の場合、通信制御部46及び送受信回路47のみに電力を供給する省電力モードで動作し、着呼を受けた際に省電力モードから通常モードに遷移することで、他処理部の動作を開始してもよい。
【0081】
タイマー回路36は、一定の周期でタイマー割込信号を出力する装置である。
音声出力部38は、音声データを出力する装置であり、図3で説明したスピーカ24a、24b及び24cに相当する。音声出力部38は、音声処理部37から通知された音声データを出音する。
【0082】
音声入力部39は、周辺の音声の集音を行なう入力装置であり、図3で説明したマイク23に相当する。音声入力部39は、集音した音声信号を音声処理部37に通知する。
【0083】
音声処理部37は、1つ以上の音声入力部39から通知された音声信号をデジタル変換し、変換したデジタル音声信号に対して合成又は加工処理などを行い、当該処理を行った音声信号を音声符号化部31に通知する。また、音声処理部37が、ノイズキャンセル機能などにより、よりクリアな音声データを生成することもできる。また、音声入力部39が複数個存在する場合、音声処理部37は、複数個の音声入力部39の配置情報を管理し、配置に適した音声データを生成することが可能となる。さらに、音声処理部37は、音声復号化部32から通知された音声データの分割及び加工処理などを行い、生成した音声データを音声出力部38に通知する。音声処理部37は、複数個の音声出力部38の配置情報を管理し、各音声出力部38に適した複数個の音声データを生成することが可能となる。
【0084】
表示部41は、画像及び文字等を表示する装置である。図3で説明したディスプレイ21a、21b及び21cに相当する。表示部41は、表示処理部40から通知された表示データを画面に表示する。
【0085】
表示処理部40は、画像復号化部34から通知された画像データの分割及び加工処理などを行い、生成した表示データを表示部41に通知する。表示処理部40は、複数個の表示部41の配置情報を管理し、各表示部41に適した複数個の表示データを生成することが可能となる。また、表示処理部40は、画像処理部42から自拠点の画像データを受け取り、表示部41に出力することで、自拠点の画像を表示することも可能である。
【0086】
画像入力部43は、デジタルビデオカメラなどの動画撮影機能を有する撮影装置であり、図3で説明したカメラ22a、22b、22c、22d及び22eに相当する。画像入力部43は、撮影した画像データを画像処理部42に通知する。また、画像入力部43は、デジタルスチルカメラなどの静止画撮影機能のみの撮影装置であってもよく、撮影した静止画データを一定間隔で画像処理部42に通知してもよい。
【0087】
画像処理部42は、1つ以上の画像入力部43から通知される画像データの合成及び加工処理などを行い、画像符号化部33に通知する。画像処理部42は、複数個の画像入力部43の配置情報を管理し、配置に適した画像データを生成することが可能となる。また、画像処理部42は、表示処理部40に通知することで、自拠点の画像データを表示部41に直接表示することも可能である。
【0088】
操作入力部45は、ユーザからの入力指示を受け、当該入力指示に対応する操作入力信号を操作入力制御部44に通知する装置であり、図3で説明したリモコン26に相当する。なお、操作入力部45は、キーボード及びマウスなど、他の操作入力装置であってもよい。また、操作入力部45は、ジャイロ機能及びセンサー機能などを用いて、入力指示を受けてもよい。
【0089】
操作入力制御部44は、操作入力部45から通知された操作入力信号を受け取り、受け取った操作入力信号を対応する制御データに変換したうえで制御部30に出力する。
【0090】
送受信回路47は、ネットワークを介したデータ送受信を行なう回路である。例えば、ネットワークが無線回線の場合、送受信回路47は、通信制御部46から受け取った送信データを、所定の方式で変調し、変調した送受信データを無線搬送波に乗せて送信する機能と、アンテナに誘起した高周波信号の中から所定の周波数帯の信号を受信し、受信した信号を復調したうえで通信制御部46に通知する機能を有する。
【0091】
通信制御部46は、送受信回路47を用いて、他機器と自身との間で通信を確立したうえで、ネットワークを介した映像音声データの送受信を行なう。例えば、呼接続制御(Call Control)機能、及びデータ通信制御(IP、RTP、TCPなど)機能を有している。また、音声符号化部31から通知された符号化音声データと、画像符号化部33から通知された符号化画像データとを受け取り、受け取った符号化音声データ及び符号化画像データを所定の方式で多重化することにより、送信する映像音声データを生成する。また、受信した映像音声データを、所定の方式で多重分離することにより、符号化音声データと符号化画像データとに分離し、分離した符号化音声データを音声復号化部32に通知し、分離した符号化画像データを画像復号化部34に通知する。また、コミュニケーション装置11及び12が複数の異なるネットワークに接続可能である場合、コミュニケーション装置11及び12は、各ネットワークに対応する複数個の通信制御部46と送受信回路47とを備える構成でもよい。
【0092】
ハードディスク装置48は、内蔵するハードディスクに対して、コンピュータプログラム、又はデータを書き込み及び読み出す装置である。
【0093】
読取装置49は、記録媒体(例えばCD、DVD又はメモリカードなど)に記録されたコンピュータプログラム、又はデータを読み取る装置である。
【0094】
以上のように、コミュニケーション装置11及び12は、複数の入出力装置を備えたコンピュータとして構成されており、他拠点とのコミュニケーションサービスを提供することが可能となる。
【0095】
以下、コミュニケーション装置11が備える、本発明の実施の形態1に係る収音再生装置100について、説明する。この収音再生装置100は、主にコミュニケーションシステム2が有する音声通信機能を実現する。
【0096】
この収音再生装置100は、マイクロホン112で収音された収音信号134と、ビデオカメラ27により出力されるカメラ入力信号131との相関を用いて、ビデオカメラ27が再生モードで動作しているのか、撮影モードで動作しているのかを判断する。これにより、収音再生装置100は、ビデオカメラ27の動作モードを自動で判断したうえで、ビデオカメラ27の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明の実施の形態1に係る収音再生装置100は、ビデオカメラ27の動作モードと、当該収音再生装置100の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【0097】
まず、本発明の実施の形態1に係る収音再生装置100を含むコミュニケーションシステム2の概略構成を説明する。
【0098】
図5は、本発明の実施の形態1に係るコミュニケーションシステム2の構成を示す図である。
【0099】
図5に示すコミュニケーションシステム2は、第1の場所に設置されたコミュニケーション装置11と、第2の場所に設置されたコミュニケーション装置12と、通信網10とを含む。このコミュニケーション装置11とコミュニケーション装置12とは、通信網10を経由して接続される。また、コミュニケーション装置11とコミュニケーション装置12とは、音声通信端末であり、通信網10を介して、互いにリアルタイムの音声の送受信を行う。
【0100】
コミュニケーション装置11は、スピーカ111と、マイクロホン112とを備える。
スピーカ111は、コミュニケーション装置12から通信網10を経由して送信された音声信号である受信信号132に基づき、音声を出音する。
【0101】
マイクロホン112は、コミュニケーション装置11の周辺の音声を収音することにより、収音信号134を生成する。また、マイクロホン112は、この収音信号134を、通信網10を経由してコミュニケーション装置12へ送信する。
【0102】
コミュニケーション装置12は、スピーカ121と、マイクロホン122とを備える。
スピーカ121は、コミュニケーション装置11から通信網10を経由して送信された収音信号134に基づき、音声を出音する。
【0103】
マイクロホン122は、コミュニケーション装置12の周辺の音声を収音することにより、収音信号を生成する。また、マイクロホン122は、当該収音信号を受信信号132として、通信網10を経由してコミュニケーション装置11へ送信する。
【0104】
なお、マイクロホン112及び122は、図3に示すマイク23に対応し、スピーカ111及び121は、図3に示すスピーカ24a、24b及び24cに対応する。また、ここでは、コミュニケーション装置11が、1個のスピーカ111及び1個のマイクロホン112を備える例を述べるが、コミュニケーション装置11は、複数のスピーカ111及び複数のマイクロホン112を備えてもよい。
【0105】
また、コミュニケーション装置11は、さらに、ビデオカメラ27を備える。例えば、ビデオカメラ27は、民生のデジタルビデオカメラである。このビデオカメラ27は、撮影モードと、再生モードとを有する。
【0106】
ここで撮影モードとは、ビデオカメラ27がリアルタイムに撮影中の動画像及び収音中の音声を出力するモードである。なお、撮影モード時において、ビデオカメラ27は、撮影した動画像及び音声をビデオカメラ27内に記録しながら、出力してもよいし、当該動画像及び音声の記録を行わず、出力のみを行ってもよい。
【0107】
また、再生モードとは、ビデオカメラ27が既に記録している動画像及び音声を出力するモードである。
【0108】
また、ビデオカメラ27は、撮影中の動画像及び音声と、記録している動画像及び音声とを選択的に出力する。
【0109】
また、コミュニケーションシステム2では、コミュニケーション装置11とコミュニケーション装置12が互いにリアルタイムの音声の送受信を行う通常モードと、ビデオカメラ27に保存された動画像データを複数のテレビ会議端末で共有する再生モードと、ビデオカメラ27でリアルタイムに撮影中の動画像データを複数のテレビ会議端末で共有する撮影モードとを有する。
【0110】
この撮影モード及び再生モードを有することにより、コミュニケーション装置11は、ユーザの利便性を向上できる。例えば、従来のコミュニケーション装置11では、ユーザ110が所持している資料及び物品等を、ユーザ120に掲示したうえで、説明等を行うためには、コミュニケーション装置11が備える固定カメラに、当該資料及び物品を近づける必要がある。一方、撮影モードを用いることにより、ビデオカメラ27で当該当該資料及び物品を撮影しながら、説明等を行うことができる。また、再生モードを用いることにより、ビデオカメラ27で予め撮影しておいた映像を用いて、説明等を行うことができる。
【0111】
以下、撮影モードの動作の概略を説明する。図6は、撮影モード時のコミュニケーション装置11の動作の概略を示す図である。
【0112】
撮影モード時には、コミュニケーション装置11は、ビデオカメラ27でリアルタイムに撮影中の動画像データと、コミュニケーション装置11が備えるカメラ及びマイクロホンで取得した動画像データとをコミュニケーション装置12に送信する。また、コミュニケーション装置11は、ビデオカメラ27でリアルタイムに撮影中の動画像データと、コミュニケーション装置12により送信される動画像データとを当該コミュニケーション装置11が備えるモニタ等に表示する。
【0113】
また、音声のみに着目した場合、図6に示すように、コミュニケーション装置11は、マイクロホン112で収音された収音信号134と、ビデオカメラ27で収音中の音声であるカメラ入力信号131とをミキシング(混合)したうえで、コミュニケーション装置12に送信する。また、スピーカ111からは、コミュニケーション装置12により送信された受信信号132が出力される。
【0114】
次に、再生モードの動作の概略を説明する。図7は、再生モード時のコミュニケーション装置11の動作の概略を示す図である。
【0115】
再生モード時には、コミュニケーション装置11は、ビデオカメラ27に記録される動画像データと、コミュニケーション装置11が備えるカメラ及びマイクロホンで取得した動画像データとをコミュニケーション装置12に送信する。また、コミュニケーション装置11は、ビデオカメラ27に記録される動画像データと、コミュニケーション装置12により送信される動画像データとを当該コミュニケーション装置11が備えるモニタ等に表示する。
【0116】
また、音声のみに着目した場合、図7に示すように、コミュニケーション装置11は、マイクロホン112で収音された収音信号134と、ビデオカメラ27で再生中の音声であるカメラ入力信号131とをミキシングしたうえで、コミュニケーション装置12に送信する。また、ビデオカメラ27で再生中の音声であるカメラ入力信号131と、コミュニケーション装置12により送信された受信信号132とをミキシングしたうえで、スピーカ111から出力する。
【0117】
以下、コミュニケーション装置11が備える収音再生装置100の詳細な構成を説明する。
【0118】
図8は、本発明の実施の形態1に係る収音再生装置100のブロック図である。
図8に示す収音再生装置100は、マイクロホン112が収音した音声、及びビデオカメラ27により出力される音声を、通信網10を経由して、コミュニケーション装置12に送信するとともに、コミュニケーション装置12により、通信網10を経由して送信された音声をスピーカ111から出音する。
【0119】
具体的には、通常モード時には、収音再生装置100は、マイクロホン112で収音した収音信号134をコミュニケーション装置12に送信し、コミュニケーション装置12により送信された受信信号132をスピーカ111から出音する。また、撮影モード時には、収音再生装置100は、マイクロホン112で収音した収音信号134と、ビデオカメラ27で収音中のカメラ入力信号131とをミキシングしたうえで、コミュニケーション装置12に送信するとともに、コミュニケーション装置12により送信された受信信号132をスピーカ111から出音する。また、再生モード時には、収音再生装置100は、マイクロホン112で収音した収音信号134と、ビデオカメラ27で再生中のカメラ入力信号131とをミキシングしたうえで、コミュニケーション装置12に送信するとともに、コミュニケーション装置12により送信された受信信号132と、ビデオカメラ27で再生中のカメラ入力信号131とをミキシングしたうえで、スピーカ111から出音する。
【0120】
この収音再生装置100は、判定部101と、スイッチ102と、入力音声混合部103と、出力音声混合部104と、送信部105とを備える。
【0121】
判定部101は、マイクロホン112とスピーカ111とビデオカメラ27とが存在する周辺の空間における音声と、ビデオカメラ27により出力されるカメラ入力信号131との相関値が予め定められた値以上か否かを判定することにより、ビデオカメラ27が、撮影モードで動作しているか、再生モードで動作しているかを判定する。ここで、マイクロホン112とスピーカ111とビデオカメラ27とが存在する周辺の空間とは、マイクロホン112とスピーカ111とビデオカメラ27とが設置された場所の周辺の空間である。つまり、マイクロホン112とスピーカ111とビデオカメラ27とが存在する周辺の空間における音声とは、スピーカ111から出音される音声と、ユーザ110が発する音声とを含む。
【0122】
具体的には、判定部101は、マイクロホン112により収音された収音信号134と、カメラ入力信号131との相関値が予め定められた第1の値以上か否かを判定する。
【0123】
また、判定部101は、収音信号134とカメラ入力信号131との相関値が第1の値以上の場合、ビデオカメラ27は撮影モードで動作していると判定し、収音信号134とカメラ入力信号131との相関値が第1の値未満の場合、ビデオカメラ27は再生モードで動作していると判定する。
【0124】
なぜなら、カメラ入力信号131が撮影中の音声であれば、収音信号134とカメラ入力信号131とは同じ空間の音を収音した音声であるため相関値が高くなる。一方、カメラ入力信号131が再生中の音声であれば、収音信号134とカメラ入力信号131とは異なる信号なので、収音信号134とカメラ入力信号131との相関値は小さくなるからである。
【0125】
また、判定部101は、ビデオカメラ27によりカメラ入力信号131が出力されているか否かを判定する。具体的には、判定部101は、収音信号134とカメラ入力信号131との相関値が第2の値未満か否かを判定し、収音信号134とカメラ入力信号131との相関値が第2の値未満の場合、ビデオカメラ27によりカメラ入力信号131が出力されていないと判定する。また、判定部101は、収音信号134とカメラ入力信号131との相関値が第2の値以上の場合、ビデオカメラ27によりカメラ入力信号131が出力されていると判定する。ここで、第2の値は、第1の値より小さい値であり、ゼロに極めて近い値である。
【0126】
これは、ビデオカメラ27が接続されていない状態等(以下、非接続モード)では、カメラ入力信号131はゼロ信号となるので、当該カメラ入力信号131と収音信号134の相関値は実質的にゼロとなる。厳密には回路ノイズなどにより、カメラ入力信号131は、完全なゼロ信号や相関値ゼロにはならないが極めて小さい値となる。
【0127】
なお、判定部101は、カメラ入力信号131の信号レベルが所定の値以下であるか否かを判定し、カメラ入力信号131の信号レベルが所定の値以下である場合に、ビデオカメラ27によりカメラ入力信号131が出力されていないと判定してもよい。
【0128】
また、上記における相関値とは収音信号134とカメラ入力信号131との時間遅延を考慮した類似度である。例えば、判定部101は、時間遅延毎の相関値の累積、又は相関関数における相関値が最大となる時間遅延における相関値を用いて、収音信号134とカメラ入力信号131との相関値を算出できる。なお、判定部101は、相関係数、コサイン距離、又は独立性などの信号間の類似度を求められる尺度を用いて、相関値を算出してもよい。
【0129】
スイッチ102は、判定部101の判定結果に基づき、カメラ入力信号131を、経路A、経路B及び経路Cのいずれかに供給する。具体的には、スイッチ102は、判定部101によりビデオカメラ27が再生モードで動作していると判定された場合、経路Aを選択し、判定部101によりビデオカメラ27が撮影モードで動作していると判定された場合、経路Bを選択し、判定部101により非接続モードと判定された場合、経路Cを選択する。つまり、スイッチ102は、判定部101によりビデオカメラ27が再生モードで動作していると判定された場合、カメラ入力信号131を入力音声混合部103及び音声混合部108に出力し、判定部101によりビデオカメラ27が撮影モードで動作していると判定された場合、カメラ入力信号131を音声混合部106に出力し、判定部101により非接続モードと判定された場合、カメラ入力信号131をいずれの処理部にも出力しない。
【0130】
また、スイッチ102は、収音再生装置100の起動時には、経路Cを選択する。ここで起動時とは、収音再生装置100が起動されてから、判定部101による判定が最初に行われるまでの期間である。
【0131】
入力音声混合部103は、受信信号132と、スイッチ102を経由して入力されたカメラ入力信号131とをミキシング(混合)することにより、ミキシング入力信号133を生成する。
【0132】
具体的には、入力音声混合部103は、スイッチ102が経路Aを選択している場合には、受信信号132と、スイッチ102を経由して入力されたカメラ入力信号131とをミキシング(混合)することにより、ミキシング入力信号133を生成し、生成したミキシング入力信号133をスピーカ111に出力する。また、入力音声混合部103は、スイッチ102が経路B又は経路Cを選択している場合、受信信号132をスピーカ111に出力する。
【0133】
出力音声混合部104は、収音信号134とカメラ入力信号131とをミキシングする。この出力音声混合部104は、音声混合部106と、エコーキャンセラ107と、音声混合部108とを備える。
【0134】
音声混合部106は、スイッチ102が経路A又は経路Cを選択している場合、収音信号134をエコーキャンセラ107に出力する。また、音声混合部106は、スイッチ102が経路Bを選択している場合、収音信号134とカメラ入力信号131とをミキシングすることにより、ミキシング出力信号135を生成し、生成したミキシング出力信号135をエコーキャンセラ107に出力する。
【0135】
エコーキャンセラ107は、音声混合部106により出力された収音信号134又はミキシング出力信号135に対してエコーキャンセル処理を行うことにより、収音信号136又はミキシング出力信号137を生成する。ここで、エコーキャンセル処理とは、収音信号134又はミキシング出力信号135に含まれる、スピーカ111により出音された音声の成分を除去する処理である。これにより、コミュニケーション装置11が備えるスピーカ111により拡声された音声が、再度、コミュニケーション装置12で拡声されることを防止できる。言い換えると、エコーキャンセラ107は、スピーカ111からマイクロホン112へと回り込む音声をキャンセルすることにより、エコーを防止する。
【0136】
音声混合部108は、スイッチ102が経路Aを選択している場合、収音信号136とカメラ入力信号131とをミキシングすることにより、ミキシング出力信号138を生成し、生成したミキシング出力信号138を送信部105に出力する。また、音声混合部108は、スイッチ102が経路Bを選択している場合、エコーキャンセラ107により出力されたミキシング出力信号137を送信部105に出力し、スイッチ102が経路Cを選択している場合、エコーキャンセラ107により出力された収音信号136を送信部105に出力する。
【0137】
送信部105は、音声混合部108により出力されたミキシング出力信号138、ミキシング出力信号137及び収音信号136を、通信網10を介して、コミュニケーション装置12に送信する。
【0138】
以下、収音再生装置100の動作を説明する。まず、判定部101による動作モード判定処理について説明する。
【0139】
図9は、収音再生装置100による動作モード判定処理の流れを示すフローチャートである。
【0140】
まず、収音再生装置100が起動されると(S101)、スイッチ102は、初期状態として経路Cを選択する(S102)。
【0141】
次に、判定部101は、カメラ入力信号131と収音信号134との相関値を算出し(S103)、算出した相関値がゼロであるか否かを判定する(S104)。算出した相関値がゼロでない場合(S104でNo)、次に、判定部101は、算出した相関値が第1の値より大きいか否かを判定する(S105)。
【0142】
算出した相関値が第1の値より小さい場合(S105でNo)、判定部101は、ビデオカメラ27の動作モードが再生モードであると判断し、スイッチ102に経路Aを選択させる(S106)。
【0143】
一方、算出した相関値が第1の値より大きい場合(S105でYes)、判定部101は、ビデオカメラ27の動作モードが撮影モードであると判断し、スイッチ102に経路Bを選択させる(S107)。
【0144】
また、算出した相関値がゼロの場合(S104でYes)、判定部101は、非接続モードであると判断し、スイッチ102に経路Cを選択させる(S108)。
【0145】
ステップS106、S107又はS108の後、収音再生装置100が停止していなければ(S109でNo)、所定の時間後に、判定部101は、再度ステップS103以降の処理を行う。
【0146】
以下、収音再生装置100による出音処理について説明する。
図10は、収音再生装置100による出音処理の流れを示すフローチャートである。
【0147】
ビデオカメラ27が再生モードで動作しており、経路Aが選択されている場合(S111でA)、入力音声混合部103は、受信信号132とカメラ入力信号131とをミキシングすることにより、ミキシング入力信号133を生成する(S112)。
【0148】
次に、入力音声混合部103は、生成したミキシング入力信号133をスピーカ111から出音させる(S113)。
【0149】
一方、ビデオカメラ27が撮影モードで動作しており、経路Bが選択されている場合(S111でB)、入力音声混合部103は、受信信号132をスピーカ111から出音させる(S114)。
【0150】
同様に、非接続モードであり、経路Cが選択されている場合(S111でC)、入力音声混合部103は、受信信号132をスピーカ111から出音させる(S115)。
【0151】
以下、収音再生装置100による音声送信処理について説明する。
図11は、収音再生装置100による音声送信処理の流れを示すフローチャートである。
【0152】
ビデオカメラ27が再生モードで動作しており、経路Aが選択されている場合(S121でA)、エコーキャンセラ107は、収音信号134にエコーキャンセル処理を行うことにより、収音信号136を生成する(S122)。次に、音声混合部108は、カメラ入力信号131と収音信号136とをミキシングすることにより、ミキシング出力信号138を生成する(S123)。次に、送信部105は、ミキシング出力信号138をコミュニケーション装置12に送信する(S124)。また、コミュニケーション装置12は、受信したミキシング出力信号138をスピーカ121から出力する。
【0153】
一方、ビデオカメラ27が撮影モードで動作しており、経路Bが選択されている場合(S121でB)、音声混合部106は、カメラ入力信号131と収音信号134とをミキシングすることにより、ミキシング出力信号135を生成する(S125)。次に、エコーキャンセラ107は、ミキシング出力信号135にエコーキャンセル処理を行うことにより、ミキシング出力信号137を生成する(S126)。次に、送信部105は、ミキシング出力信号137をコミュニケーション装置12に送信する(S127)。また、コミュニケーション装置12は、受信したミキシング出力信号137をスピーカ121から出力する。
【0154】
また、非接続モードであり、経路Cが選択されている場合(S121でC)、エコーキャンセラ107は、収音信号134にエコーキャンセル処理を行うことにより、収音信号136を生成する(S128)。次に、送信部105は、収音信号136をコミュニケーション装置12に送信する(S129)。また、コミュニケーション装置12は、受信した収音信号136をスピーカ121から出力する。
【0155】
以上により、本発明の実施の形態1に係る収音再生装置100は、マイクロホン112で収音された収音信号134と、ビデオカメラ27により出力されるカメラ入力信号131との相関を用いて、ビデオカメラ27が再生モードで動作しているのか、撮影モードで動作しているのかを判断する。
【0156】
これにより、収音再生装置100は、ビデオカメラ27の動作モードを自動で判断したうえで、ビデオカメラ27の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明の実施の形態1に係る収音再生装置100は、ビデオカメラ27の動作モードと、当該収音再生装置100の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【0157】
また、ユーザは、ビデオカメラ27の動作モードのみを変更するだけで、コミュニケーション装置11の動作モードを正しく設定できる。よって、本発明の実施の形態1に係る収音再生装置100は、ユーザの利便性を向上できる。
【0158】
また、収音再生装置100は、当該収音再生装置100の起動時には、スイッチ102に経路Cを選択させる。これにより、収音再生装置100は、当該収音再生装置100の起動時の誤動作の発生を防止できる。具体的には、収音再生装置100は、当該収音再生装置100の起動時に経路Aが選択され、かつビデオカメラ27が撮影モードで動作している場合に生じる、ハウリングの発生を防止できる。
【0159】
また、収音再生装置100は、撮影モード時に、カメラ入力信号131と収音信号134とをミキシングしたうえで、コミュニケーション装置12に送信する。これにより、マイクロホン112と、ビデオカメラ27とが離れた位置に存在する場合でも、マイクロホン112の周辺の音声と、ビデオカメラ27の周辺の音声とを、コミュニケーション装置12に送信できる。例えば、コミュニケーション装置11を用いるユーザのうち一人が、ビデオカメラ27で物品を撮影しながら、説明を行い、さらに、他のユーザがマイクロホン112の周辺でコメントを発する場合でも、コミュニケーション装置11は、当該コミュニケーション装置11の複数のユーザの音声をコミュニケーション装置12に送信できる。
【0160】
また、本発明の実施の形態1に係る収音再生装置100は、再生モード時には、エコーキャンセル処理を行っていないカメラ入力信号131と、エコーキャンセル処理を行った収音信号136とをミキシングする。これにより、カメラ入力信号131と収音信号134とをミキシングした後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。なお、再生モード時には、カメラ入力信号131には、スピーカ111により出音された音声は含まれないので、カメラ入力信号131にエコーキャンセル処理を行わなくても、エコー及びハウリングが発生する可能性がない。
【0161】
また、本発明の実施の形態1に係る収音再生装置100は、ビデオカメラ27からカメラ入力信号131が出力されているか否かを判定する。これにより、収音再生装置100は、ビデオカメラ27からカメラ入力信号131が出力されていない場合、又は、ビデオカメラ27が収音再生装置100に接続されていない場合には、自動的に、通常モードで動作することができる。
【0162】
(実施の形態2)
本発明の実施の形態2に係る収音再生装置200は、実施の形態1に係る収音再生装置100の変形例であり、撮影モード時に、カメラ入力信号131のみをコミュニケーション装置12に送信する。
【0163】
まず、本発明の実施の形態2に係る収音再生装置200の構成を説明する。
図12は、本発明の実施の形態2に係る収音再生装置200のブロック図である。なお、図8と同様の要素には、同一の符号を付している。また、以下では、収音再生装置100との相違点のみを説明する。
【0164】
図12に示す収音再生装置200は、収音再生装置100に対して出力音声混合部204の構成が異なる。出力音声混合部204は、スイッチ206と、エコーキャンセラ107と、音声混合部108とを備える。
【0165】
スイッチ206は、判定部101の判定結果に基づき、収音信号134を、経路A/C、及び経路Bのいずれかに供給する。具体的には、スイッチ206は、判定部101によりビデオカメラ27が再生モードで動作していると判定された場合、及び、判定部101により非接続モードと判定された場合、経路A/Cを選択し、判定部101によりビデオカメラ27が撮影モードで動作していると判定された場合、経路Bを選択する。つまり、スイッチ206は、判定部101によりビデオカメラ27が再生モードで動作していると判定された場合、及び、判定部101により非接続モードと判定された場合、収音信号134をエコーキャンセラ107に出力し、判定部101によりビデオカメラ27が撮影モードで動作していると判定された場合、カメラ入力信号131をエコーキャンセラ107に出力する。
【0166】
エコーキャンセラ107は、スイッチ206により出力された収音信号134又はカメラ入力信号131に対してエコーキャンセル処理を行うことにより、収音信号136又はカメラ入力信号237を生成する。
【0167】
音声混合部108は、スイッチ102が経路Aを選択し、かつスイッチ206が経路A/Cを選択している場合、収音信号136とカメラ入力信号131とをミキシングすることにより、ミキシング出力信号138を生成し、生成したミキシング出力信号138を送信部105に出力する。また、音声混合部108は、スイッチ102及びスイッチ206が経路Bを選択している場合、エコーキャンセラ107により出力されたカメラ入力信号237を送信部105に出力し、スイッチ102が経路Cを選択し、かつスイッチ206が経路A/Cを選択している場合、エコーキャンセラ107により出力された収音信号136を送信部105に出力する。
【0168】
送信部105は、音声混合部108により出力されたミキシング出力信号138、カメラ入力信号237及び収音信号136を、通信網10を介して、コミュニケーション装置12に送信する。
【0169】
次に、収音再生装置200の動作を説明する。なお、収音再生装置200による動作モード判定処理及び出音処理は、実施の形態1と同様であり、説明は省略する。
【0170】
図13は、収音再生装置200による音声送信処理の流れを示すフローチャートである。なお、再生モード時(S121でA)及び非接続モード時(S121でC)の動作は、図11と同様なので、説明は省略する。
【0171】
ビデオカメラ27が撮影モードで動作しており、経路Bが選択されている場合(S121でB)、エコーキャンセラ107は、カメラ入力信号131に対してエコーキャンセル処理を行うことにより、カメラ入力信号237を生成する(S225)。次に、送信部105は、カメラ入力信号237を、通信網10を介して、コミュニケーション装置12に送信する(S226)。
【0172】
以上により、本発明の実施の形態2に係る収音再生装置200は、撮影モード時に、カメラ入力信号131のみをコミュニケーション装置12に送信する。これにより、上述した実施の形態1に係る収音再生装置100のように、カメラ入力信号131と収音信号134とをミキシングした後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【0173】
さらに、カメラ入力信号131と収音信号134とをミキシングした場合、当該2つの信号を収音する際のマイクロホンの特性の違い、当該2つの信号に対して適用された収音信号処理の違い、及び当該2つの信号の位相ずれ、などに起因して、ミキシング後の信号の音質が劣化するという問題がある。例えば、位相ずれが生じた場合は響いたように聞こえてしまう場合がある。これに対して収音再生装置200は、カメラ入力信号131のみをコミュニケーション装置12に送信することにより、この問題を解消できる。
【0174】
また、一般に、撮影モードを用いる場合には、撮影者又は撮影者の近くに位置する者が説明等を行う場合が多い。よって、カメラ入力信号131のみをコミュニケーション装置12に送信した場合でも、会話が阻害される可能性は低い。
【0175】
なお、上記説明では、撮影モード時には、カメラ入力信号131のみをコミュニケーション装置12に送信するとしたが、マイクロホン112で収音された収音信号134のみを、コミュニケーション装置12に送信してもよい。
【0176】
(実施の形態3)
本発明の実施の形態3に係る収音再生装置300は、実施の形態1に係る収音再生装置100の変形例であり、カメラ入力信号131と受信信号132との相関を用いて、ビデオカメラ27が再生モードで動作しているのか、撮影モードで動作しているのかを判断する。
【0177】
図14は、本発明の実施の形態3に係る収音再生装置300のブロック図である。なお、図8と同様の要素には、同一の符号を付している。また、以下では、収音再生装置100との相違点のみを説明する。
【0178】
図14に示す収音再生装置300は、収音再生装置100に対して判定部301の機能が異なる。
【0179】
判定部301は、マイクロホン112とスピーカ111とビデオカメラ27とが存在する周辺の空間における音声と、ビデオカメラ27により出力されるカメラ入力信号131との相関値が予め定められた値以上か否かを判定することにより、ビデオカメラ27が、撮影モードで動作しているか、再生モードで動作しているかを判定する。具体的には、判定部301は、受信信号132と、カメラ入力信号131との相関値が予め定められた第1の値以上か否かを判定する。なお、判定部301が判定に用いる第1の値は、上述した実施の形態1に係る判定部101が判定に用いる第1の値と異なる値であってもよい。
【0180】
また、判定部301は、受信信号132とカメラ入力信号131との相関値が第1の値以上の場合、ビデオカメラ27は撮影モードで動作していると判定し、受信信号132とカメラ入力信号131との相関値が第1の値未満の場合、ビデオカメラ27は再生モードで動作していると判定する。
【0181】
なぜなら、受信信号132は、スピーカ111から拡声される。よって、カメラ入力信号131が撮影中の音声であれば、スピーカ111から拡声される受信信号132に基づく音声が、ビデオカメラ27に付随するマイクロホンにも混入する。これにより、撮影モード時には、受信信号132とカメラ入力信号131との相関値が高くなる。一方、カメラ入力信号131が再生中の音声であれば、受信信号132とカメラ入力信号131とは異なる信号なので、受信信号132とカメラ入力信号131との相関値は小さくなる。
【0182】
また、判定部301は、実施の形態1と同様に、ビデオカメラ27によりカメラ入力信号131が出力されているか否かを判定する。
【0183】
以上により、本発明の実施の形態3に係る収音再生装置300は、実施の形態1に係る収音再生装置100と同様に、ビデオカメラ27の動作モードを自動で判断したうえで、ビデオカメラ27の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明の実施の形態3に係る収音再生装置300は、ビデオカメラ27の動作モードと、当該収音再生装置300の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【0184】
また、実施の形態3に係る収音再生装置300と、実施の形態1に係る収音再生装置100とを比較した場合、ユーザ110が会話をしている場合等には、カメラ入力信号131及び収音信号134には、ユーザ110の声が含まれるが、受信信号132には含まれない。よって、ユーザ110が会話をしている場合等には、実施の形態1に係る収音再生装置100のほうが、より高い精度で、相関値を算出できる。
【0185】
また、実施の形態1に係る収音再生装置100は、マイクロホン112で収音した収音信号134と、カメラ入力信号131との相関値を算出するので、マイクロホン112とビデオカメラ27とが物理的に近い位置に存在する場合には、高い精度で、相関値を算出できる。一方、実施の形態3に係る収音再生装置300は、スピーカ111から拡声される音声信号(受信信号132)と、カメラ入力信号131との相関値を算出するので、スピーカ111とビデオカメラ27とが物理的に近い位置に存在する場合には、高い精度で、相関値を算出できる。
【0186】
また、上記説明では、実施の形態1に係る収音再生装置100に対して、判定部301の構成を変更した例を説明したが、実施の形態2に係る収音再生装置200に対して、同様の変更を適用してもよい。
【0187】
(実施の形態4)
本発明の実施の形態4に係る収音再生装置400は、実施の形態1に係る収音再生装置100の変形例であり、撮影モード時に、収音信号134とカメラ入力信号131とに対して、個別にエコーキャンセル処理を行ったうえで、ミキシングを行う。
【0188】
まず、本発明の実施の形態4に係る収音再生装置400の構成を説明する。
図15は、本発明の実施の形態4に係る収音再生装置400のブロック図である。なお、図8と同様の要素には、同一の符号を付している。また、以下では、収音再生装置100との相違点のみを説明する。
【0189】
図15に示す収音再生装置400は、収音再生装置100に対して出力音声混合部404の構成が異なる。この出力音声混合部404は、エコーキャンセラ406及び407と、音声混合部408とを備える。
【0190】
エコーキャンセラ406は、スイッチ206が経路Bを選択している場合、カメラ入力信号131に対してエコーキャンセル処理を行うことにより、カメラ入力信号437を生成する。
【0191】
エコーキャンセラ407は、収音信号134に対してエコーキャンセル処理を行うことにより、収音信号136を生成する。
【0192】
音声混合部408は、スイッチ102が経路Aを選択している場合、収音信号136と、カメラ入力信号131とをミキシングすることにより、ミキシング出力信号138を生成し、生成したミキシング出力信号138を送信部105に出力する。また、音声混合部408は、スイッチ102が経路Bを選択している場合、収音信号136と、カメラ入力信号437とをミキシングすることにより、ミキシング出力信号439を生成し、生成したミキシング出力信号439を送信部105に出力する。また、音声混合部408は、スイッチ102が経路Cを選択している場合、収音信号136を送信部105に出力する。
【0193】
送信部105は、音声混合部408により出力されたミキシング出力信号138、ミキシング出力信号439、及び収音信号136を、通信網10を介して、コミュニケーション装置12に送信する。
【0194】
次に、収音再生装置400の動作を説明する。なお、収音再生装置400による動作モード判定処理及び出音処理は、実施の形態1と同様であり、説明は省略する。
【0195】
図16は、収音再生装置400による音声送信処理の流れを示すフローチャートである。なお、再生モード時(S121でA)及び非接続モード時(S121でC)の動作は、図11と同様なので、説明は省略する。
【0196】
ビデオカメラ27が撮影モードで動作しており、経路Bが選択されている場合(S121でB)、エコーキャンセラ406は、カメラ入力信号131に対してエコーキャンセル処理を行うことにより、カメラ入力信号437を生成し、また、エコーキャンセラ407は、収音信号134に対してエコーキャンセル処理を行うことにより、収音信号136を生成する(S425)。次に、音声混合部408は、カメラ入力信号437と収音信号136とをミキシングすることにより、ミキシング出力信号439を生成する(S426)。次に、送信部105は、ミキシング出力信号439を、通信網10を介して、コミュニケーション装置12に送信する(S427)。
【0197】
以上により、本発明の実施の形態4に係る収音再生装置400は、実施の形態1に係る収音再生装置100と同様に、ビデオカメラ27の動作モードを自動で判断したうえで、ビデオカメラ27の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明の実施の形態4に係る収音再生装置400は、ビデオカメラ27の動作モードと、当該収音再生装置400の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【0198】
さらに、本発明の実施の形態4に係る収音再生装置400は、カメラ入力信号131と収音信号134とのそれぞれに対して、エコーキャンセル処理を行った後に、ミキシングを行う。これにより、上述した実施の形態1に係る収音再生装置100のように、カメラ入力信号131と収音信号134とをミキシングした後にエコーキャンセル処理を行う場合に比べて、エコーキャンセル処理の精度を向上できる。
【0199】
また、上記説明では、実施の形態1に係る収音再生装置100に対して、出力音声混合部404の構成を変更した例を説明したが、実施の形態3に係る収音再生装置300に対して、同様の変更を適用してもよい。
【0200】
(実施の形態5)
本発明の実施の形態5に係る収音再生装置500は、実施の形態1に係る収音再生装置100の変形例であり、外部から入力された制御情報に基づき、ビデオカメラ27が再生モードで動作しているのか、撮影モードで動作しているのかを判断する。
【0201】
図17は、本発明の実施の形態5に係る収音再生装置500のブロック図である。なお、図8と同様の要素には、同一の符号を付している。また、以下では、収音再生装置100との相違点のみを説明する。
【0202】
図17に示す収音再生装置500は、収音再生装置100に対して判定部501の構成が異なる。
【0203】
判定部501は、ビデオカメラ27により出力される制御情報531を取得し、制御情報531に基づき、ビデオカメラ27が、再生モードで動作しているか撮影モードで動作しているかを判定する。ここで、制御情報531とは、ビデオカメラ27が再生モードで動作しているか撮影モードで動作しているかを示す情報である。
【0204】
また、判定部501は、実施の形態1に係る判定部101と同様に、ビデオカメラ27によりカメラ入力信号131が出力されているか否かを判定する。なお、制御情報531に、ビデオカメラ27がカメラ入力信号131を出力しているか否かを示す情報が含まれ、判定部501は、制御情報531に基づき、ビデオカメラ27によりカメラ入力信号131が出力されているか否かを判定してもよい。
【0205】
以上により、本発明の実施の形態5に係る収音再生装置500は、実施の形態1に係る収音再生装置100と同様に、ビデオカメラ27の動作モードを自動で判断したうえで、ビデオカメラ27の動作モードにあわせて自身の動作モードを自動的に設定できる。よって、本発明の実施の形態5に係る収音再生装置500は、ビデオカメラ27の動作モードと、当該収音再生装置500の動作モードとが正しく設定されない場合に生じる誤動作を防止できる。
【0206】
なお、上記説明では、制御情報531は、ビデオカメラ27から出力されるとしたが、他の外部装置から出力されてもよい。例えば、コミュニケーション装置11が備える制御部により出力されてもよい。この場合、ユーザがコミュニケーション装置11に対して、撮影モード又は再生モードを指定する操作を行うことにより、上記制御部が、制御情報531を、判定部501及びビデオカメラ27に出力する。この制御情報531を用いて、ビデオカメラ27及び収音再生装置500が動作モードを決定することにより、ビデオカメラ27と収音再生装置500との動作モードを正しく設定できる。
【0207】
また、上記説明では、実施の形態1に係る収音再生装置100に対して、判定部501の構成を変更した例を説明したが、実施の形態2〜4に係る収音再生装置200〜400に対して、同様の変更を適用してもよい。
【0208】
(実施の形態6)
本発明の実施の形態6に係る収音再生装置600は、実施の形態1に係る収音再生装置100の変形例であり、さらに、判定用の音をスピーカ111から出力する。
【0209】
図18は、本発明の実施の形態6に係る収音再生装置600のブロック図である。なお、図8と同様の要素には、同一の符号を付している。また、以下では、収音再生装置100との相違点のみを説明する。
【0210】
図18に示す収音再生装置600は、収音再生装置100に対して、さらに、判定音出力部601を備える。
【0211】
判定音出力部601は、判定部101が、スピーカ111から出力される音声と、カメラ入力信号131との相関値を算出するための判定音602を生成し、生成した判定音602をスピーカ111に出音させる。
【0212】
また、判定部101は、スピーカ111により判定音602が出音されている期間において、収音信号134とカメラ入力信号131との相関値を算出する。
【0213】
以上により、本発明の実施の形態6に係る収音再生装置600は、実施の形態1に係る収音再生装置100の効果に加え、さらに、収音信号134とカメラ入力信号131との相関値を精度よく算出できる。
【0214】
なお、収音再生装置600は、スピーカ111に判定音602のみを出音させてもよいし、受信信号132又はミキシング入力信号133に、判定音602をミキシングした後にスピーカ111に出音させてもよい。
【0215】
また、上記説明では、実施の形態1に係る収音再生装置100が、さらに、判定音出力部601を備える例を説明したが、実施の形態2〜5に係る収音再生装置200〜500が、さらに、判定音出力部601を備えてもよい。
【0216】
以上、本発明の実施の形態1〜6に係る収音再生装置100〜600について説明したが、本発明は、この実施の形態に限定されるものではない。
【0217】
例えば、上記説明では、ビデオカメラ27を用いる例を説明したが、ビデオカメラ27の代わりに、撮影機能、及び記録する映像データの再生機能を有する、携帯電話などの映像出力装置を用いてもよい。また、収音再生装置100〜600に接続される外部装置は、動画像を撮影及び再生する機能を必ずしも有する必要はなく、収音機能、及び音声再生機能を有する音声出力装置を用いてもよい。例えば、ビデオカメラ27の代わりに、ICレコーダーを用いてもよい。
【0218】
また、上記説明では、スイッチ102は、非接続モード時には、経路Cを選択するとしたが、経路Cを設けずに、経路Bを選択してもよい。また、経路Cを設けない場合には、スイッチ102は、収音再生装置100〜600の起動時に、経路Bを選択する。この場合でも、収音再生装置100〜600は、当該収音再生装置100〜600の起動時の誤動作を防止できる。具体的には、収音再生装置100〜600は、当該収音再生装置100〜600の起動時に経路Aが選択され、かつビデオカメラ27が撮影モードで動作している場合に生じる、ハウリングの発生を防止できる。
【0219】
また、上述した収音再生装置100〜600に含まれる送信部105以外の処理部は、図4に示す音声処理部37に相当し、送信部105は、通信制御部46及び送受信回路47に相当する。また、スピーカ111及び121は、音声出力部38に相当し、マイクロホン112、122及びビデオカメラ27は、音声入力部39に相当する。
【0220】
また、上記説明では、コミュニケーション装置11が収音再生装置100〜600を備える例を説明したが、ノートPC13、PDA15、携帯電話16、及びディスクトップPC19のうち1以上が、上述した収音再生装置100〜600を備えてもよい。
【0221】
また、上述した収音再生装置100〜600を構成する構成要素の一部又は全部は、1個のシステムLSIから構成されているとしてもよい。
【0222】
(その他変形例)
さらに、以下のような場合も本発明に含まれる。
【0223】
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAM又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
【0224】
(2)上記の各装置を構成する構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM及びRAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
【0225】
(3)上記の各装置を構成する構成要素の一部又は全部は、各装置に脱着可能なICカード又は単体のモジュールから構成されているとしてもよい。前記ICカード又は前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカード又は前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカード又は前記モジュールは、その機能を達成する。このICカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
【0226】
(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
【0227】
また、本発明は、前記コンピュータプログラム又は前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、又は半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
【0228】
また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
【0229】
また、本発明は、マイクロプロセッサとメモリとを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
【0230】
また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
【0231】
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
【産業上の利用可能性】
【0232】
本発明は、収音再生装置に適用でき、特に、音声会議システム、テレビ会議システム、及び携帯電話などに用いられる収音再生装置に適用できる。
【図面の簡単な説明】
【0233】
【図1】本発明の実施の形態1に係る2拠点でのコミュニケーションシステムの構成を示す図である。
【図2】本発明の実施の形態1に係る多拠点でのコミュニケーションシステムの構成の一例を示す図である。
【図3】本発明の実施の形態1に係るコミュニケーション装置が備える入出力装置の配置の一例を示す図である。
【図4】本発明の実施の形態1に係るコミュニケーション装置の構成の一例を示すブロック図である。
【図5】本発明の実施の形態1に係るコミュニケーションシステムにおける、通常モード時の動作の概略を示す図である。
【図6】本発明の実施の形態1に係るコミュニケーションシステムにおける、撮影モード時の動作の概略を示す図である。
【図7】本発明の実施の形態1に係るコミュニケーションシステムにおける、再生モード時の動作の概略を示す図である。
【図8】本発明の実施の形態1に係る収音再生装置のブロック図である。
【図9】本発明の実施の形態1に係る収音再生装置による動作モード判定処理の流れを示すフローチャートである。
【図10】本発明の実施の形態1に係る収音再生装置による出音処理の流れを示すフローチャートである。
【図11】本発明の実施の形態1に係る収音再生装置による音声送信処理の流れを示すフローチャートである。
【図12】本発明の実施の形態2に係る収音再生装置のブロック図である。
【図13】本発明の実施の形態2に係る収音再生装置による音声送信処理の流れを示すフローチャートである。
【図14】本発明の実施の形態3に係る収音再生装置のブロック図である。
【図15】本発明の実施の形態4に係る収音再生装置のブロック図である。
【図16】本発明の実施の形態4に係る収音再生装置による音声送信処理の流れを示すフローチャートである。
【図17】本発明の実施の形態5に係る収音再生装置のブロック図である。
【図18】本発明の実施の形態6に係る収音再生装置のブロック図である。
【図19】テレビ会議端末とビデオカメラとの動作モードの組み合わせに対する、動作の一覧を示す図である。
【符号の説明】
【0234】
2、3 コミュニケーションシステム
10 通信網
11、12 コミュニケーション装置
13 ノートPC
14 カメラ
15 PDA
16 携帯電話
17 サーバ
18 インターネット
19 ディスクトップPC
20 本体
21a、21b、21c ディスプレイ
22a、22b、22c、22d、22e カメラ
23 マイク
24a、24b、24c スピーカ
25 机
26 リモコン
27 ビデオカメラ
30 制御部
31 音声符号化部
32 音声復号化部
33 画像符号化部
34 画像復号化部
35 電源回路
36 タイマー回路
37 音声処理部
38 音声出力部
39 音声入力部
40 表示処理部
41 表示部
42 画像処理部
43 画像入力部
44 操作入力制御部
45 操作入力部
46 通信制御部
47 送受信回路
50 CPU
51 ROM
52 RAM
100、200、300、400、500、600 収音再生装置
101、301、501 判定部
102、206 スイッチ
103 入力音声混合部
104、204、404 出力音声混合部
105 送信部
106、108、408 音声混合部
107、406、407 エコーキャンセラ
110、120 ユーザ
111、121 スピーカ
112、122 マイクロホン
131、237、437 カメラ入力信号
132 受信信号
133 ミキシング入力信号
134、136 収音信号
135、137、138、439 ミキシング出力信号
531 制御情報
601 判定音出力部
602 判定音

【特許請求の範囲】
【請求項1】
既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生装置であって、
前記マイクロホンと前記スピーカと前記音声出力装置とが存在する周辺の空間における音声と、前記音声出力装置により出力される第1入力音声信号との相関値が予め定められた第1の値以上か否かを判定する判定部と、
前記相関値が前記第1の値以上の場合、前記他の装置により送信された第2入力音声信号を前記スピーカに出力し、前記相関値が前記第1の値未満の場合、前記第1入力音声信号と前記第2入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合部と、
前記相関値が前記第1の値以上の場合、前記マイクロホンにより収音された第1収音信号及び前記第1入力音声信号のうち少なくとも一方を含む第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第1収音信号と前記第1入力音声信号とを混合することにより、第2出力信号を生成する出力音声混合部と、
前記相関値が前記第1の値以上の場合、前記第1出力信号を、前記通信網を介して前記他の装置に送信し、前記相関値が前記第1の値未満の場合、前記第2出力信号を、前記通信網を介して前記他の装置に送信する送信部とを備える
収音再生装置。
【請求項2】
前記判定部は、前記第1収音信号と前記第1入力音声信号との相関値が予め定められた第2の値以上か否かを判定することにより、前記空間における音声と、前記第1入力音声信号との相関値が前記第1の値以上か否かを判定する
請求項1記載の収音再生装置。
【請求項3】
前記判定部は、前記第2入力音声信号と前記第1入力音声信号との相関値が予め定められた第2の値以上か否かを判定することにより、前記空間における音声と、前記第1入力音声信号との相関値が前記第1の値以上か否かを判定する
請求項1記載の収音再生装置。
【請求項4】
前記出力音声混合部は、
前記相関値が前記第1の値以上の場合、前記第1収音信号と前記第1入力音声信号とを混合することにより、第1混合出力信号を生成する第1音声混合部と、
前記相関値が前記第1の値以上の場合、前記第1混合出力信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、前記第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第1収音信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第2収音信号を生成するエコーキャンセラと、
前記相関値が前記第1の値未満の場合、前記第2収音信号と前記第1入力音声信号とを混合することにより、前記第2出力信号を生成する第2音声混合部とを備える
請求項1〜3のいずれか1項に記載の収音再生装置。
【請求項5】
前記出力音声混合部は、
前記相関値が前記第1の値以上の場合、前記第1入力音声信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、前記第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第1収音信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第2収音信号を生成するエコーキャンセラと、
前記相関値が前記第1の値未満の場合、前記第2収音信号と前記第1入力音声信号とを混合することにより、前記第2出力信号を生成する第1音声混合部とを備える
請求項1〜3のいずれか1項に記載の収音再生装置。
【請求項6】
前記出力音声混合部は、
前記相関値が前記第1の値以上の場合、前記第1入力音声信号に含まれる、前記スピーカにより出音された音声の成分を除去することにより、第3入力音声信号を生成する第1エコーキャンセラと、
前記第1収音信号に含まれる前記スピーカにより出音された音声の成分を除去することにより、第2収音信号を生成する第2エコーキャンセラと、
前記相関値が前記第1の値以上の場合、前記第2収音信号と前記第3入力音声信号とを混合することにより、前記第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第2収音信号と前記第1入力音声信号とを混合することにより、前記第2出力信号を生成する第1音声混合部とを備える
請求項1〜3のいずれか1項に記載の収音再生装置。
【請求項7】
前記判定部は、さらに、前記音声出力装置により前記第1入力音声信号が出力されているか否かを判定し、
前記入力音声混合部は、前記音声出力装置により前記第1入力音声信号が出力されていない場合、前記第2入力音声信号を前記スピーカに出力し、
前記送信部は、前記音声出力装置により前記第1入力音声信号が出力されていない場合、前記第1収音信号を、前記通信網を介して前記他の装置に送信する
請求項1〜6のいずれか1項に記載の収音再生装置。
【請求項8】
前記入力音声混合部は、当該収音再生装置が起動されてから、前記判定部により前記判定が行われるまでの間、前記第2入力音声信号を前記スピーカに出力する
請求項1〜7のいずれか1項に記載の収音再生装置。
【請求項9】
前記収音再生装置は、さらに、
判定音を前記スピーカに出音させる判定音出力部を備え、
前記判定部は、前記スピーカにより前記判定音が出音されている期間において、前記空間における音声と、前記第1入力音声信号との相関値が前記第1の値以上か否かを判定する
請求項1〜8のいずれか1項に記載の収音再生装置。
【請求項10】
既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生装置であって、
前記音声出力装置が、収音中の音声を出力する第1モードで動作しているか、前記音声出力装置が既に記録している音声を出力する第2モードで動作しているかを示す、外部から入力された制御情報を取得し、当該制御情報に基づき、前記音声出力装置が、前記第1モードで動作しているか前記第2モードで動作しているかを判定する判定部と、
前記音声出力装置が前記第1モードで動作している場合、前記他の装置により送信された第2入力音声信号を前記スピーカに出力し、前記音声出力装置が前記第2モードで動作している場合、前記第1入力音声信号と前記第2入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合部と、
前記音声出力装置が前記第1モードで動作している場合、前記マイクロホンにより収音された第1収音信号及び前記第1入力音声信号のうち少なくとも一方を含む第1出力信号を生成し、前記音声出力装置が前記第2モードで動作している場合、前記第1収音信号と前記第1入力音声信号とを混合することにより、第2出力信号を生成する出力音声混合部と、
前記音声出力装置が前記第1モードで動作している場合、前記第1出力信号を、前記通信網を介して前記他の装置に送信し、前記音声出力装置が前記第2モードで動作している場合、前記第2出力信号を、前記通信網を介して前記他の装置に送信する送信部とを備える
収音再生装置。
【請求項11】
既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する収音再生方法であって、
前記マイクロホンと前記スピーカと前記音声出力装置とが存在する周辺の空間における音声と、前記音声出力装置により出力される第1入力音声信号との相関値が予め定められた第1の値以上か否かを判定する判定ステップと、
前記相関値が前記第1の値以上の場合、前記他の装置により送信された第2入力音声信号を前記スピーカに出力し、前記相関値が前記第1の値未満の場合、前記第1入力音声信号と前記第2入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合ステップと、
前記相関値が前記第1の値以上の場合、前記マイクロホンにより収音された第1収音信号及び前記第1入力音声信号のうち少なくとも一方を含む第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第1収音信号と前記第1入力音声信号とを混合することにより、第2出力信号を生成する出力音声混合ステップと、
前記相関値が前記第1の値以上の場合、前記第1出力信号を、前記通信網を介して前記他の装置に送信し、前記相関値が前記第1の値未満の場合、前記第2出力信号を、前記通信網を介して前記他の装置に送信する送信ステップとを含む
収音再生方法。
【請求項12】
既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音するためのプログラムであって、
前記マイクロホンと前記スピーカと前記音声出力装置とが存在する周辺の空間における音声と、前記音声出力装置により出力される第1入力音声信号との相関値が予め定められた第1の値以上か否かを判定する判定ステップと、
前記相関値が前記第1の値以上の場合、前記他の装置により送信された第2入力音声信号を前記スピーカに出力し、前記相関値が前記第1の値未満の場合、前記第1入力音声信号と前記第2入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合ステップと、
前記相関値が前記第1の値以上の場合、前記マイクロホンにより収音された第1収音信号及び前記第1入力音声信号のうち少なくとも一方を含む第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第1収音信号と前記第1入力音声信号とを混合することにより、第2出力信号を生成する出力音声混合ステップと、
前記相関値が前記第1の値以上の場合、前記第1出力信号を、前記通信網を介して前記他の装置に送信し、前記相関値が前記第1の値未満の場合、前記第2出力信号を、前記通信網を介して前記他の装置に送信する送信ステップとをコンピュータに実行させる
プログラム。
【請求項13】
既に記録している音声及び収音中の音声を選択的に出力する音声出力装置により出力される音声、及び、マイクロホンが収音した音声を、通信網を経由して、他の装置に送信するとともに、前記他の装置により、前記通信網を経由して送信された音声をスピーカから出音する集積回路であって、
前記マイクロホンと前記スピーカとが設置された空間における音声と、前記音声出力装置により出力される第1入力音声信号との相関値が予め定められた第1の値以上か否かを判定する判定部と、
前記相関値が前記第1の値以上の場合、前記他の装置により送信された第2入力音声信号を前記スピーカに出力し、前記相関値が前記第1の値未満の場合、前記第1入力音声信号と前記第2入力音声信号とを混合することにより、混合入力信号を生成し、生成した混合入力信号を前記スピーカに出力する入力音声混合部と、
前記相関値が前記第1の値以上の場合、前記マイクロホンにより収音された第1収音信号及び前記第1入力音声信号のうち少なくとも一方を含む第1出力信号を生成し、前記相関値が前記第1の値未満の場合、前記第1収音信号と前記第1入力音声信号とを混合することにより、第2出力信号を生成する出力音声混合部と、
前記相関値が前記第1の値以上の場合、前記第1出力信号を、前記通信網を介して前記他の装置に送信し、前記相関値が前記第1の値未満の場合、前記第2出力信号を、前記通信網を介して前記他の装置に送信する送信部とを備える
集積回路。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2010−147820(P2010−147820A)
【公開日】平成22年7月1日(2010.7.1)
【国際特許分類】
【出願番号】特願2008−323003(P2008−323003)
【出願日】平成20年12月18日(2008.12.18)
【出願人】(000005821)パナソニック株式会社 (73,050)
【Fターム(参考)】