説明

収音装置および収音システム

【課題】エコーキャンセリングしたい音源が、電気的に接続していなくても、当該音源からの音に対してエコーキャンセル処理を確実に施す。
【解決手段】収音装置10のマイクロホンMCからの収音信号Ssはエコーキャンセル部12に与えられるともに音声認識サーバ20へ与えられる。音声認識サーバ20は収音信号Ssに基づいてコンテンツ情報Cimとタイミング情報Ctpとを検出する。コンテンツサーバ30はコンテンツ情報Cimに基づいてコンテンツ音声ファイルCmを読み出す。収音装置10の音声再生部11は、コンテンツ音声ファイルCmをデコードして、タイミング情報Ctpに基づくタイミングで再生し、再生音信号Smをエコーキャンセル部12へ出力する。エコーキャンセル部12は、再生音信号Smに基づいて、収音信号Ssのエコーキャンセル処理を行う。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、マイクロホンを備え、周囲から収音して収音信号を生成する収音装置、特にエコーキャンセル機能を備えた収音装置に関する。
【背景技術】
【0002】
従来、エコーキャンセル機能を備えた収音装置や放収音装置が各種考案されている。このような装置では、特許文献1に示すように、スピーカとマイクロホンとが単一の筐体に配設されている。エコーキャンセル部は、スピーカを駆動する放音駆動信号とインパルス応答に基づく適応パラメータを用いて、スピーカからマイクロホンに回り込むエコーに対応する擬似エコー信号を生成する。エコーキャンセル部は、マイクロホンの収音信号から擬似エコー信号を減算することで、所望とする音声信号のみを出力する。
【0003】
そして、この構成では、単一の筐体にスピーカとマイクロホンとが配設され、スピーカへの放音駆動信号の入力ラインとエコーキャンセル部とが、筐体内で電気的に接続されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特表2001−509615号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、例えば、話者が部屋内で映像を見て当該映像の音声を聴きながら、携帯電話で通話をしているような場合には、再生されている映像の音声もマイクで収音されてしまう。この場合、再生音の元となる音信号を、電気的に直接携帯電話に与えることができない。すなわち、上述のような構成の収音装置では、エコーキャンセル部に参照となる音信号を入力することができない。したがって、話者が聞いている音楽の音が、通話の相手先で放音されてしまい、会話の邪魔になることがある。
【0006】
したがって、この発明の目的は、エコーキャンセリングしたい音源が、電気的に接続していなくても、当該音源からの音に対してエコーキャンセル処理を施すことができる収音装置、および収音システムを提供することにある。
【課題を解決するための手段】
【0007】
この発明は、収音装置に関する。収音装置は、マイクロホン、音声再生部、およびエコーキャンセル部を備える。マイクロホンは、エコーを含む収音信号を生成する。音声再生部は、マイクロホンの収音信号に基づいてエコーと同じ音声再生信号を生成する。エコーキャンセル部は、エコーキャンセル後の収音信号から設定される適応パラメータと音声再生信号とから擬似エコー信号を生成する。エコーキャンセル部は、当該擬似エコー信号を収音信号から減算することでエコーキャンセル処理を行う。
【0008】
また、この発明は収音システムに関する。収音システムは、上述の収音装置、音声認識サーバ、およびコンテンツサーバを備える。音声認識サーバは、マイクロホンから出力される収音信号からコンテンツ情報および再生タイミング情報を検出する。コンテンツサーバは、コンテンツ情報から音声データを読み出す。収音装置の音声再生部は、再生タイミング情報と音声データとに基づいて音声再生信号を生成する。
【0009】
この構成では、エコー音の音源がエコーキャンセル部へ電気的に直接接続されていなくても、エコー音が音声再生部からエコーキャンセル部へ与えられる。これにより、適応型のエコーキャンセル処理が可能になる。
【0010】
また、この発明の収音システムでは、音声認識サーバは、音声認識にかかる時間を検出し、再生タイミング情報とともに、音声認識遅延時間情報を、音声再生部へ出力する。音声再生部は、再生タイミング情報に基づく時間に、音声認識遅延時間情報に基づく時間を加算して、音声再生のタイミングを決定する。
【0011】
これらの構成では、音声再生部が、音声認識にかかる時間の遅延を加味した上で、擬似エコーの元となる音声を再生する。これにより、認識処理に要する所定時間までは、エコーキャンセル処理が行えないが、それ以降では適切なエコーキャンセル処理を実行することができる。
【0012】
また、この発明の収音装置では、マイクロホンとエコーキャンセル部との間に配設され、マイクロホンから出力される収音信号を遅延処理する遅延回路を、備える。
【0013】
また、この発明は収音システムに関する。収音システムは、上述の収音装置と、音声認識サーバ、およびコンテンツサーバを備える。音声認識サーバは、マイクロホンから出力される収音信号からコンテンツ情報および再生タイミング情報を検出する。コンテンツサーバは、コンテンツ情報から音声データを読み出す。収音装置の音声再生部は、再生タイミング情報と音声データとに基づいて前記音声再生信号を生成する。収音装置の遅延回路は、音声再生部への情報入力タイミングに基づく遅延量で、収音信号を遅延させる。
【0014】
この構成では、エコー音がエコーキャンセル部へ電気的に直接入力されないため、音声再生部からの音声再生信号の入力に或程度の遅延が生じる可能性がある。このため、遅延回路を設けることで、この遅延による収音信号と擬似エコー信号との同期ズレが解消する。これにより、より確実なエコーキャンセル処理が実現できる。
【発明の効果】
【0015】
この発明によれば、エコーキャンセリングしたい音源が、電気的に接続していなくても、当該音源からの音に対してエコーキャンセル処理を施すことができる。これにより、映像等の音声を聴きながら通話しても、聞いている音声が通話の相手先に聞こえないようにすることができる。
【図面の簡単な説明】
【0016】
【図1】本発明の第1の実施形態に係る収音システム1の構成図である。
【図2】音声認識サーバ20のコンテンツ音声認識フローの一例を示すフローチャートである。
【図3】本発明の第2の実施形態に係る収音システム1Aの構成図である。
【図4】本発明の第3の実施形態に係る収音システム1Bの構成図である。
【発明を実施するための形態】
【0017】
本発明の第1の実施形態に係る収音システムについて図を参照して説明する。図1は第1の実施形態の収音システム1の構成図である。収音システム1は収音装置10、音声認識サーバ20、およびコンテンツサーバ30を備える。
【0018】
収音装置10は、話者500の居る部屋内に配置されている。当該部屋内には、DVDプレイヤ等のメディア再生装置900と、当該メディア再生装置202に接続し、コンテンツ音声を放音するスピーカSPが配置されている。収音装置10は、マイクロホンMC、音声再生部11、エコーキャンセル部12を備える。
【0019】
マイクロホンMCは、部屋内の音を収音して収音信号Ssを生成する。収音信号Ssには、話者500が発音していれば話者音声信号Swが含まれ、コンテンツ音声が放音されていればコンテンツ音声エコー信号Smeが含まれる。以下では、実際に通話時に問題になる、収音信号Ssに話者音声信号Swとコンテンツ音声エコー信号Smeとがともに含まれている場合を示す。
【0020】
収音信号Ssは、エコーキャンセル部12に入力されるとともに、音声認識サーバ20へ出力される。
【0021】
音声認識サーバ20は、収音装置10に対して、例えばネットワーク接続している。音声認識サーバ20は、収音信号Ssを取得すると、例えば図2に示すような方法を用いて、コンテンツ情報Cimとタイミング情報Ctpとを検出する。図2は、音声認識サーバ20のコンテンツ音声認識フローの一例を示すフローチャートである。
【0022】
まず、音声認識サーバ20は、収音信号Ssを順次サンプリングして、分析対象期間分だけバッファリングする(S101)。
【0023】
音声認識サーバ20は、分析対象期間に含まれる時間軸上に並ぶ複数の収音信号Ssを用いてケプストラム分析を行う(S102)。より具体的には、音声認識サーバ20は、分析対象期間の複数の収音信号Ssを用いてフーリエ変換(例えば高速フーリエ変換)を行い、各周波数成分の絶対値を取る。次に、音声認識サーバ20は、これら絶対値の対数を取り、振幅スペクトルを取得する。音声認識サーバ20は、この振幅スペクトルを逆フーリエ変換することで、ケプストラムを取得する。このケプストラムの高次成分はピッチ情報であり、ケプストラムの低次成分はフォルマント情報となる。
【0024】
音声認識サーバ20は、ケプストラムに対して低次成分を抽出することで、フォルマント情報を検出する(S103)。音声認識サーバ20は、検出したフォルマント情報をフォルマントデータとして記憶する(S104)。
【0025】
音声認識サーバ20は、このようなフォルマントデータの取得を、所定データ数になるまで、順次分析対象期間毎に連続的に実行する(S105:No→S101)。この所定データ数は、次のリファレンスデータとの比較処理に必要な個数に基づいて、予め設定されている。
【0026】
音声認識サーバ20は、時系列に並ぶ所定データ数のフォルマントデータを取得すると(S105:Yes)、これら時系列に並ぶ複数のフォルマントデータをフォルマントデータ列として、リファレンスデータと相関処理する(S106)。リファレンスデータは、コンテンツ音声毎のフォルマントデータ列によって構成されており、予め音声認識サーバ20に記憶されている。
【0027】
音声認識サーバ20は、コンテンツ音声毎に記憶されているフォルマントデータを、コンテンツの最初から順に、上述の所定データ数の単位で抽出する。この際、音声認識サーバ20は、先頭となるフォルマントデータが1つずつシフトするように、順次抽出する。
【0028】
音声認識サーバ20は、ケプストラム分析で取得したフォルマントデータ列に対して、最も相関レベルの高いリファレンスのフォルマントデータ列を検出し、当該リファレンスのフォルマントデータ列に対応するコンテンツ情報Cimを取得する。また、音声認識サーバ20は、当該リファレンスのフォルマントデータ列の先頭の時間情報を、タイミング情報Ctpとして取得する(S107)。
【0029】
音声認識サーバ20は、コンテンツ情報Cimをコンテンツサーバ30へ出力する。音声認識サーバ20は、タイミング情報Ctpを収音装置10の音声再生部11へ出力する。
【0030】
なお、上述の方法では、ケプストラムの低次成分であるフォルマント情報のみを用いて音声認識を行ったが、高次成分であるピッチ情報を用いてもよい。ただし、低次成分はフォルマント情報のみを用いることで、リファレンスデータの容量を小さくすることができ、且つ相関処理に利用するデータ量が小さくなるので、高速なコンテンツ認識が可能になる。
【0031】
また、上述の説明では、フォルマントデータの時間軸上での並びからコンテンツを認識する例を示したが、音域やテンポ等の他の特徴を用いてコンテンツを認識してもよい。
【0032】
また、上述の説明では、収音信号Ssをそのまま音声認識に利用した場合を示した。しかしながら、収音信号Ssに含まれるコンテンツ音声エコー信号Smeを抽出し、当該コンテンツ音声エコー信号Smeを用いてコンテンツ認識を行ってもよい。コンテンツ音声エコー信号Smeの抽出方法としては、例えば、音声認識サーバ20は、話者音声の周波数帯域成分を取り出し、当該話者音声の周波数帯域成分のレベルが低下した期間、すなわち話者音声のレベルが低い期間(例えば通話相手が話している期間等)の収音信号Ssを用いるようにすればよい。
【0033】
コンテンツサーバ30は、コンテンツ情報Cimに基づいて、コンテンツ音声ファイルCmを抽出する。コンテンツサーバ30は、抽出したコンテンツ音声ファイルCmを収音装置10の音声再生部11へ出力する。
【0034】
収音装置10の音声再生部11は、コンテンツ音声ファイルCmをデコードし、タイミング情報Ctpに基づくタイミングから再生し、再生音信号Smを出力する。このような処理を行うことで、メディア再生装置202に収音装置10が電気的に接続していなくても、コンテンツ音声エコー信号Smeに対応するエコーキャンセル処理の参照信号となる再生音信号Smを生成することができる。
【0035】
エコーキャンセル部12は、擬似エコー生成部121、ポストプロセッサ122、および適応パラメータ設定部123を備える。擬似エコー生成部121は、音声再生部11からの再生音信号Smと、適応パラメータ設定部123からの適応パラメータPinとを用いて、既知の方法(インパルス応答を用いた擬似エコー信号の生成方法等)により、擬似エコー信号Sme’を生成する。ポストプロセッサ122は、収音信号Ssから擬似エコー信号Sme’を減算処理する。適応パラメータ設定部123は、収音信号Ssから擬似エコー信号Sme’を減算した減算信号に基づいて、既知の方法で適応パラメータPinを設定する。
【0036】
このような構成を用いてエコーキャンセル処理を行うことで、収音信号Ssに含まれるコンテンツ音声エコー信号Smeが抑圧され、話者音声信号Swのみが出力される。これにより、通話の相手先には、話者音声信号Swのみを送信することができる。この結果、通話の相手先に、自分の聞いているコンテンツの音声が漏れることを防止できる。そして、これにより、例えば、コンテンツを視聴しながらでも明瞭な通話を行うことができる。
【0037】
次に、第2の実施形態に係る収音システムについて図を参照して説明する。図3は本実施形態の収音システム1Aの構成図である。本実施形態の収音システム1Aは、音声認識サーバ20の処理および音声再生部11Aの処理が、第1の実施形態と異なる。したがって、異なる箇所のみを説明する。
【0038】
本実施形態の音声認識サーバ20は、上述のタイミング情報Ctpとともに、収音信号Ssが入力されてからコンテンツ認識が終了するまでの時間を計時する。音声認識サーバ20は、計時した時間を、コンテンツ認識遅延時間情報Cdとして、タイミング情報Ctpとともに、収音装置10Aの音声再生部11Aへ出力する。
【0039】
音声再生部11Aは、タイミング情報Ctpに基づく時間と、コンテンツ認識遅延時間情報に基づく時間とを加算して、再生タイミングを決定する。音声再生部11Aは、決定した再生タイミングの位置から、コンテンツ音声ファイルCmを再生し、擬似エコー生成部121へ出力する。
【0040】
このような構成とすることで、コンテンツ認識の遅延時間を加味して、擬似エコー信号の元となるコンテンツ音声を再生できる。これにより、認識開始当初の所定時間は、有効なエコーキャンセル処理が行われないが、所定時間以降は、適切で有効なエコーキャンセル処理を行うことができる。
【0041】
次に、第3の実施形態に係る収音システムについて図を参照して説明する。図4は本実施形態の収音システム1Bの構成図である。本実施形態の収音システム1Bは、第1の実施形態に示した収音システム1と、収音装置の構成が部分的に異なる。したがって、以下では、異なる箇所のみを説明する。
【0042】
本実施形態の収音装置10Bは、マイクロホンMCとエコーキャンセル部12のポストプロセッサ122との間に、遅延回路13を備える。遅延回路13は、収音信号Ssを所定時間長に亘りバッファリングする回路である。遅延回路13には、音声再生部11から情報取得タイミング信号TDが与えられる。遅延回路13は、情報取得タイミング信号TDを受け付けると、バッファリングした収音信号Ssを、情報取得タイミングに応じて順次エコーキャンセル部12のポストプロセッサ122へ出力する。
【0043】
このような構成とすれば、音声認識サーバ20やコンテンツサーバ30の処理に或程度の時間を要してしまっても、当該時間に応じて、エコーキャンセル部12に収音信号Ssが遅延入力される。これにより、より確実なエコーキャンセル処理を実現することができる。
【0044】
なお、上述の説明では、メディア再生装置900からコンテンツ音声を再生する場合を示したが、外部のストリーミング用コンテンツサーバからコンテンツ音声をストリーミングして、収音装置とは別体のスピーカから放音するような場合であっても、上述のような構成を利用でき、確実なエコーキャンセル処理を実現できる。
【0045】
さらには、例えばCDをメディアとしてCDプレイヤで楽曲を再生する場合のように、当該楽曲を別体のスピーカから放音するような場合であっても、上述のような構成を利用でき、確実なエコーキャンセル処理を実現できる。
【0046】
この場合、上述の音声認識サーバ20は、楽曲認識サーバに置き換えればよい。楽曲認識サーバには、楽曲毎の楽曲音に対するフォルマントデータ列を記憶されており、相関レベルの高い楽曲を検出すると、楽曲情報とタイミング情報とを出力する。コンテンツサーバ30には、楽曲毎に楽曲音データが記憶されており、楽曲情報に基づいて、該当する楽曲音データを出力する。収音装置10の音声再生部は、音楽再生部として機能し、楽曲音データとタイミング情報とからエコーキャンセル用の音楽信号を生成する。
【符号の説明】
【0047】
1,1A,1B−収音システム、10,10A,10B−収音装置、11,11A−音声再生部、12−エコーキャンセル部、121−擬似エコー生成部、122−ポストプロセッサ、123−適応パラメータ設定部、13−遅延回路、20−音声認識サーバ、30−コンテンツサーバ、900−メディア再生装置、MC−マイクロホン、SP−スピーカ

【特許請求の範囲】
【請求項1】
収音信号を生成するマイクロホンと、
マイクロホンの収音信号に基づいてエコーと同じ音声再生信号を生成する音声再生部と、
エコーキャンセル後の収音信号から設定される適応パラメータと前記音声再生信号とから擬似エコー信号を生成して、前記収音信号から減算することでエコーキャンセル処理を行うエコーキャンセル部と、
を備えた収音装置。
【請求項2】
請求項1に記載の収音装置であって、
前記マイクロホンと前記エコーキャンセル部との間に配設され、前記マイクロホンから出力される収音信号を、前記音声再生信号の生成時間に基づいて遅延処理する遅延回路を、備えた収音装置。
【請求項3】
請求項1に記載の収音装置と、
前記マイクロホンから出力される収音信号からコンテンツ情報および再生タイミング情報を検出する音声認識サーバと、
前記コンテンツ情報から当該コンテンツの音声データを読み出すコンテンツサーバと、を備え、
前記音声再生部は、再生タイミング情報と音声データとに基づいて前記音声再生信号を生成する、収音システム。
【請求項4】
請求項3に記載の収音システムであって、
前記音声認識サーバは、音声認識にかかる時間を検出し、前記再生タイミング情報とともに、音声認識遅延時間情報を、前記音声再生部へ出力し、
前記音声再生部は、前記再生タイミング情報に基づく時間に、前記音声認識遅延時間情報に基づく時間を加算して、音声再生のタイミングを決定する、収音システム。
【請求項5】
請求項2に記載の収音装置と、
前記マイクロホンから出力される収音信号からコンテンツ情報および再生タイミング情報を検出する音声認識サーバと、
前記コンテンツ情報から当該コンテンツの音声データを読み出すコンテンツサーバと、を備え、
前記音声再生部は、再生タイミング情報と音声データとに基づいて前記音声再生信号を生成し、
前記遅延回路は、前記音声再生部への情報入力タイミングに基づく遅延量で、前記収音信号を遅延させる、収音システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−211547(P2011−211547A)
【公開日】平成23年10月20日(2011.10.20)
【国際特許分類】
【出願番号】特願2010−78099(P2010−78099)
【出願日】平成22年3月30日(2010.3.30)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】