説明

エコーキャンセラおよびエコー消去方法

【課題】音響エコーキャンセラのエコー抑圧効果をより高める。
【解決手段】エコーキャンセラ1において、線形エコーキャンセラ部106およびスペクトルサブトラクション部107によって音響エコーが消去された近端音声信号に含まれる残留エコー成分の特徴と、人の会話音声成分の特徴とが異なることを利用し、残留エコー消去部108は、この近端音声信号の音圧スペクトル情報の例えば1フレームシフト単位に対して、所定の周波数帯域毎に、着目する周波数帯域と時間方向および周波数方向において隣接する範囲の成分に基づいて、着目する周波数帯域から、音響エコーの残留成分である残留エコーを消去する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響エコー消去技術に関し、特にマイクおよびスピーカを備えた会議システムに好適な音響エコー消去技術に関する。
【背景技術】
【0002】
特許文献1には、電話会議システムもしくはテレビ会議システムにおいて、複数のマイクロホン素子を有するマイクロホンアレイを使って、マイク間位相差から、スピーカ音のみ存在する帯域を判定し、その帯域にのみ音響エコーキャンセラを適応制御する技術が開示されている。この技術によれば、会議室等の状況に応じて動的にエコーキャンセラの制御を行うことができ、音響エコーの抑圧性能を高めることができる。
【特許文献1】特開2008−141718号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
特許文献1に記載の技術では、マイクロホンアレイへの入力音声信号を複数の周波数帯域に分割し、それぞれの周波数帯域に対して音響経路の学習や推定を行っている。
【0004】
ところで、実使用環境において完全な推定を行うことは困難であり、実際には推定誤差が発生して、音響エコーの残留成分である残留エコーが発生することがある。このため、特許文献1に記載の技術では、フレーム毎に、入力音声信号に占める音響エコーの大きさを推定し、これが所定の閾値以上であるフレームの送信をボイススイッチにより遮断している(特許文献1の段落0034等参照)。しかし、このようにすると、瞬間的ではあるが、音声信号の送信が途切れ、全二重通話状態を維持することができない。
【0005】
本発明は上記事情に鑑みてなされたものであり、本発明の目的は、音響エコーキャンセラのエコー抑圧効果をより高めることが可能な技術を提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明は、フレームの送信を遮断することなく、音響エコーキャンセラ適応後の残留エコーを抑制する。音響エコーキャンセラ適応後の音声信号における残留エコー成分の特徴と、会話音声成分の特徴とが異なることに鑑み、音響エコーキャンセラ適応後の音声信号の音圧スペクトル情報から残留エコー成分を推定し抑圧する。
【0007】
例えば、本発明のエコーキャンセラは、
マイクに入力された音声信号である入力音声信号から、スピーカから出力された音声信号である出力音声信号の音響エコーを消去するエコーキャンセラであって、
前記出力音声信号の音響エコーを周波数帯域毎に推定して擬似エコー信号を生成する擬似エコー生成手段と、
前記入力音声信号から前記擬似エコー信号を差し引いて、前記入力音声信号から前記出力音声信号の音響エコーをキャンセルするエコーキャンセル手段と、
前記音響エコーがキャンセルされた前記入力音声信号について、周波数帯域毎に、時間方向および周波数方向において当該周波数帯域の信号成分と隣接する範囲の信号成分に基づいて、当該周波数帯域の信号成分から前記音響エコーの残留成分である残留エコーを消去する残留エコー消去手段と、を有する。
【発明の効果】
【0008】
本発明によれば、音響エコーキャンセラのエコー抑圧効果をより高めることができる。
【発明を実施するための最良の形態】
【0009】
本発明を、マイクおよびスピーカを備えた会議システムに用いられるマイクアレイ装置のエコーキャンセラに適用する場合を例にとり、本発明の実施の形態を説明する。なお、マイクアレイ装置は、IP網経由で音声信号を送受信する機能および音響エコーキャンセラ機能を備えている。
[第一実施の形態]
図1は、本発明の第一実施の形態に係るエコーキャンセラ1の概略構成図である。
【0010】
図示するように、エコーキャンセラ1は、遠端音声信号入力部101と、近端音声信号入力部102と、FFT部103、104と、擬似エコー生成部105と、線形エコーキャンセラ部106と、スペクトルサブトラクション部107と、残留エコー消去部108と、IFFT部109と、近端音声信号出力部110と、を有する。
【0011】
遠端音声信号入力部101は、通話相手から受信したデジタル音声信号(以下、遠端音声信号と呼ぶ)の入力端子である。なお、遠端音声信号は、DA変換された後にスピーカから出力される。
【0012】
近端音声信号入力部102は、マイクに入力され、AD変換されたデジタル音声信号(以下、近端音声信号)の入力端子である。近端音声信号は、本エコーキャンセラ1により音響エコーが消去された後、通話相手へ送信される。
【0013】
FFT部103は、遠端音声信号入力部101に入力された遠端音声信号にFFT(Fast Fourier Transform)を施して、遠端音声信号の周波数領域情報を出力する。
【0014】
FFT部104は、近端音声信号入力部102に入力された近端音声信号にFFTを施して、近端音声信号の周波数領域情報を出力する。
【0015】
擬似エコー生成部105は、FFT部103から出力された遠端音声信号の周波数領域情報に基づいて、所定の周波数帯域毎に、適応フィルタを用いて遠端音声信号の音響エコーの成分を推定して、擬似エコー信号の周波数領域情報を生成する。
【0016】
適応フィルタは、参照信号(ここでは遠端音声信号)が本フィルタに入力された場合に、その参照信号がスピーカから出力され、音波として伝わってマイクに到達するまでに発生する変化と(可能な限り)同等な変化をその参照信号に与えた結果(信号)を出力するように作成されたフィルタである。このような適応フィルタは、通話状況に応じて行われる音響環境学習の結果として作成される。擬似エコー生成部105および適応フィルタには、特許文献1に記載の技術を含む様々な既存の技術を利用できる。
【0017】
線形エコーキャンセラ部106は、FFT部104から出力された近端音声信号の周波数領域情報から擬似エコー信号の周波数領域情報を差し引くことで、近端音声信号に含まれている音響エコーを消去する。
【0018】
スペクトルサブトラクション部107は、線形エコーキャンセラ部106により音響エコーが消去された近端音声信号の音圧スペクトル情報に対して、所定の周波数帯域毎に、音圧を、擬似エコー信号の音圧スペクトル情報の同じ周波数帯域における音圧に応じて抑制する。スペクトルサブトラクション部107には、既存のスペクトルサブトラクション技術を用いることができる。
【0019】
残留エコー消去部108は、スペクトルサブトラクション部107より出力された近端音声信号の音圧スペクトル情報の例えば1フレームシフト単位に対して、所定の周波数帯域毎に、着目する周波数帯域の成分と時間方向および周波数方向において隣接する範囲の成分に基づいて、着目する周波数帯域の成分から、音響エコーの残留成分(残留エコー)を消去する。
【0020】
擬似エコー生成部105の適応フィルタの作成に必要な音響環境学習に誤りが全く存在しなければ、十分な音響エコーの抑圧が期待できる。しかし、実使用での音響環境は常時変化する。このため、音響環境の学習を完全に行うことは難しく、その学習結果には多少の誤差または誤りが発生する。このため、スペクトルサブトラクション部107から出力される近端音声信号の音圧スペクトル情報には、消去しきれなかった残留エコーが存在することとなる。そこで、本実施の形態においては、スペクトルサブトラクション部107から出力される近端音声信号の音圧スペクトル情報において、残留エコー成分の特徴と会話音声成分の特徴とが異なることに鑑み、残留エコー消去部108により、この音圧スペクトル情報から残留エコーの成分を推定し、残留エコーを抑圧している。なお、残留エコー消去部108の詳細については後述する。
【0021】
IFFT部109は、残留エコー消去部108から出力された近端音声信号の周波数領域情報にIFFT(Inverse FFT)を施して、近端音声信号を出力する。
【0022】
近端音声信号出力部110は、IFFT部109から出力された近端音声信号の出力端子である。
【0023】
次に、残留エコー消去部108の詳細を説明する。
【0024】
図1に示すように、残留エコー消去部108は、残留エコー推定部1081と、残留エコー抑圧部1082と、を有する。
【0025】
残留エコー推定部1081は、スペクトルサブトラクション部107より出力された近端音声信号の音圧スペクトル情報の例えば1フレームシフト単位に対して、所定の周波数帯域毎に、着目する周波数帯域と時間方向および周波数方向において隣接する範囲の成分のなかから、音圧レベルの高い成分を少なくとも一つ選定する。そして、選定した成分の音圧レベルと着目する周波数帯域の成分の音圧レベルとの比較結果に基づいて、着目する周波数帯域の成分に残留エコーが含まれているか否かを推定する。
【0026】
残留エコー抑圧部1082は、残留エコー推定部1081により残留エコーが含まれていると推定された周波数帯域の成分について、この周波数帯域と時間方向および周波数方向において隣接する範囲の成分のなかから、音圧レベルの低い成分を少なくとも一つ選定する。そして、選定した成分の音圧レベルとこの周波数帯域の成分の音圧レベルとの差に応じて、この周波数帯域の成分を抑圧する。
【0027】
図2は、残留エコーの推定・抑圧処理の第一の例を説明するための図である。ここでは、遠端音声信号入力部101に入力される遠端音声信号および近端音声信号入力部102に入力される近端音声信号がサンプリング周波数32kHzのデジタル音声信号であり、FFT部103、104が、入力されたデジタル音声信号をフレーム長2048ポイントのFFTにより1024個の周波数帯域に分割した上で、フレームシフト単位を1024ポイント(32ms)とする場合を想定している。
【0028】
図2において、符号20は、スペクトルサブトラクション部107より出力された近端音声信号の音圧スペクトル情報である。ここで、縦軸21は周波数、横軸22は時間である。図示するように、近端音声信号の音圧スペクトル情報20は1024個の周波数帯域に分割され、そのフレームシフト単位23は32msである。
【0029】
残留エコー推定部1081は、例えば1フレームシフト単位毎に、1024個の周波数帯域の一つ一つに着目し、着目する周波数帯域に残留エコー成分が存在するか否かを以下の要領で判断する。
【0030】
着目する周波数帯域を着目帯域Aとする。先ず、残留エコー推定部1081は、着目帯域Aおよび8個の比較候補周波数帯域B1〜B8を含む処理対象ブロックを決定する。具体的には、着目帯域Aの属するフレームシフト単位の直前のフレームシフト単位から、着目帯域Aと同じ周波数帯域B4および着目帯域Aの上下に隣接する周波数帯域B1、B6を比較候補周波数帯域として選出する。また、着目帯域Aの属するフレームシフト単位から、着目帯域Aの上下に隣接する周波数帯域B2、B7を比較候補周波数帯域として選出する。さらに、着目帯域Aの属する1フレームシフト単位の直後のフレームシフト単位から、着目帯域Aと同じ周波数帯域B5および着目帯域Aの上下に隣接する周波数帯域B3、B8を比較候補周波数帯域として選出する。
【0031】
次に、残留エコー推定部1081は、以上のようにして選出した、処理対象ブロック内の比較候補周波数帯域B1〜B8の音圧レベルと着目帯域Aの音圧レベルとを比較し、着目帯域Aの音圧レベルが比較候補周波数帯域B1〜B8の音圧レベルから乖離しているか否かを判断する。具体的には、図2の条件24に示すように、着目帯域Aの音圧レベルが、比較候補周波数帯域B1〜B4、B6〜B8の音圧レベルのうちの最も高い音圧レベルD1、および比較候補周波数帯域B1〜B3、B5〜B8の音圧レベルのうちの最も高い音圧レベルD2の少なくとも一方より高いか否かを判断する。その結果、着目帯域Aの音圧レベルが比較候補周波数帯域B1〜B8の音圧レベルから乖離しているならば(音圧レベルD1、音圧レベルD2の少なくとも一方よりも高いならば)、この着目帯域Aに残留エコー成分が存在すると推定する。
【0032】
残留エコー抑圧部1082は、残留エコー推定部1081により残留エコーが存在すると推定された着目帯域Aの音圧レベルを、着目帯域Aの音圧レベルが比較候補周波数帯域B1〜B8の音圧レベルから乖離しなくなるように抑圧する。具体的には、図2の条件25に示すように、着目帯域Aの音圧レベルから、音圧レベルD1、D2のうちの低い方の音圧レベルを差し引いた値を、着目帯域Aの音圧レベルの抑圧量Sに決定する。そして、着目帯域Aの音圧レベルを抑圧量Sだけ抑圧する。これにより、着目帯域Aに存在する残留エコー成分を抑圧する。
【0033】
例えば、着目帯域Aの音圧レベルが50、比較候補周波数帯域B1、B2、B3、B4、B5、B6、B7、B8の音圧レベルが、それぞれ10、20、10、20、60、10、10、10であるとする。この場合、比較候補周波数帯域B1〜B4、B6〜B8のうちの最高音圧レベルD1=20、比較候補周波数帯域B1〜B3、B5〜B8のうちの最高音圧レベルD2=60となり、着目帯域Aの音圧レベル「50」は一方の音圧レベルD1よりも高いので、着目帯域Aに残留エコー成分が存在すると推定される。そして、音圧レベルD1、D2のうちの低い方の音圧レベル「20」を着目帯域Aの音圧レベル「50」から差し引いた値「30」が着目帯域Aの音圧レベルの抑圧量Sに決定され、着目帯域Aの音圧レベルを、この抑圧量Sだけ抑圧する。これにより、着目帯域Aの音圧レベルは「20」となる。
【0034】
図3は、残留エコーの推定・抑圧処理の第二の例を説明するための図である。ここでは、遠端音声信号入力部101に入力される遠端音声信号および近端音声信号入力部102に入力される近端音声信号がサンプリング周波数32kHzのデジタル音声信号であり、FFT部103、104が、入力されたデジタル音声信号をフレーム長2048ポイントのFFTにより1024個の周波数帯域に分割した上で、フレームシフト単位を512ポイント(16ms)とする場合を想定している。
【0035】
図3において、図2と同じものには同じ符号を付している。図示するように、音圧スペクトル情報20は、1024個の周波数帯域に分割され、そのフレームシフト単位23は16msである。
【0036】
残留エコー推定部1081は、1フレームシフト単位毎に、1024個の周波数帯域の一つ一つに着目し、着目する周波数帯域(着目帯域)に残留エコー成分が存在するか否かを以下の要領で判断する。
【0037】
着目する周波数帯域を着目帯域Aとする。先ず、残留エコー推定部1081は、着目帯域Aおよび16個の比較候補周波数帯域C1〜C16を含む処理対象ブロックを決定とする。具体的には、着目帯域Aの属するフレームシフト単位の3つ前のフレームシフト単位から、着目帯域Aと同じ周波数帯域C7および着目帯域Aの上下に隣接する周波数帯域C1、C11を比較候補周波数帯域として選出する。また、着目帯域Aの属するフレームシフト単位の2つ前のフレームシフト単位から、着目帯域Aと同じ周波数帯域C8および着目帯域Aの上下に隣接する周波数帯域C2、C12を比較候補周波数帯域として選出する。また、着目帯域Aの属するフレームシフト単位の直前のフレームシフト単位から、着目帯域Aの上下に隣接する周波数帯域C3、C13を比較候補周波数帯域として選出する。また、着目帯域Aの属するフレームシフト単位から、着目帯域Aの上下に隣接する周波数帯域C4、C14を比較候補周波数帯域として選出する。また、着目帯域Aの属するフレームシフト単位の直後のフレームシフト単位から、着目帯域Aと同じ周波数帯域C9および着目帯域Aの上下に隣接する周波数帯域C5、C15を比較候補周波数帯域として選出する。さらに、着目帯域Aの属するフレームシフト単位の2つ後のフレームシフト単位から、着目帯域Aと同じ周波数帯域C10および着目帯域Aの上下に隣接する周波数帯域C6、C16を比較候補周波数帯域として選出する。
【0038】
次に、残留エコー推定部1081は、以上のようにして選出した、処理対象ブロック内の比較候補周波数帯域C1〜C16の音圧レベルと着目帯域Aの音圧レベルとを比較し、着目帯域Aの音圧レベルが比較候補周波数帯域C1〜C16の音圧レベルから乖離しているか否かを判断する。具体的には、図3の条件26に示すように、比較候補周波数帯域C1、C2の音圧レベルのうちの低い方をE1、比較候補周波数帯域C3、C4の音圧レベルのうちの低い方をE2、比較候補周波数帯域C5、C6の音圧レベルのうちの低い方をE3、比較候補周波数帯域C7、C8の音圧レベルのうちの低い方をE4、比較候補周波数帯域C9、C10の音圧レベルのうちの低い方をE5、比較候補周波数帯域C11、C12の音圧レベルのうちの低い方をE6、比較候補周波数帯域C13、C14の音圧レベルのうちの低い方をE7、比較候補周波数帯域C15、C16の音圧レベルのうちの低い方をE8とする。そして、着目帯域Aの音圧レベルが、音圧レベルE1〜E4、E6〜E8のうちの最も高い音圧レベルF1、および音圧レベルE1〜E3、E5〜E8のうち最も高い音圧レベルF2の少なくとも一方より高いか否かを判断する。その結果、着目帯域Aの音圧レベルが比較候補周波数帯域C1〜C16の音圧レベルから乖離しているならば(音圧レベルF1、音圧レベルF2の少なくとも一方より高いならば)、この着目帯域Aに残留エコー成分が存在すると推定する。
【0039】
残留エコー抑圧部1082は、残留エコー推定部1081により残留エコー成分が存在すると推定された着目帯域Aの音圧レベルを、着目帯域Aの音圧レベルが比較候補周波数帯域C1〜C16の音圧レベルから乖離しなくなるように抑圧する。具体的には、図3の条件27に示すように、着目帯域Aの音圧レベルから、音圧レベルF1、F2のうち低い方の音圧レベルを差し引いた値を、着目帯域Aの音圧レベルの抑圧量Sに決定する。そして、着目帯域Aの音圧レベルを抑圧量Sだけ抑圧する。これにより、着目帯域Aに存在する残留エコー成分を抑圧する。
【0040】
なお、図2および図3において、最も高い周波数帯域、あるいは最も低い周波数帯域が着目領域Aである場合、この着目帯域Aよりも高い周波数帯域、あるいは低い周波数帯域は存在しない。これらの例外的な取り扱いについては、実使用において残留エコーを消去する上でそれほど重要ではない。例えば、実際には存在しない隣接周波数帯域の音圧レベルを0と見なして抑圧量Sを決定してもよい。あるいは、無条件に抑圧量Sを0に決定してもよい。このことは、以降に、図5を用いて説明する第三の例の場合も同様である。
【0041】
以上、本発明の第一実施の形態について説明した。
【0042】
図2および図3に示す残留エコーの推定・抑圧処理は、線形エコーキャンセラ部106およびスペクトルサブトラクション部107によって音響エコーが消去された近端音声信号に含まれる残留エコー成分の特徴と人の会話音声成分の特徴とが異なることを利用している。音響エコーが消去された近端音声信号の音圧スペクトル情報において、任意の周波数帯域を着目帯域Aとして、それぞれの成分の特徴を説明する。
【0043】
着目帯域Aにおいて人の会話音声成分が主である場合、着目帯域Aの成分の音圧レベルは、着目帯域Aと時間方向および周波数方向において隣接する周波数帯域の成分の音圧レベルと近い値をとる傾向が強い。
【0044】
一方、着目帯域Aにおいて残留エコー成分が主である場合、着目帯域Aの成分の音圧レベルは、着目帯域Aと周波数方向において隣接する周波数帯域の成分の音圧レベルから乖離した値をとる傾向が強い。これは、音響環境学習および音響エコー消去処理が周波数帯域毎に行われるため、線形エコーキャンセラ部106およびスペクトルサブトラクション部107による音響エコーの消去量に周波数帯域毎の差が存在し、音響エコー消去処理によって消去しきれなかった残留エコー成分の音圧レベルが近隣帯域間で必ずしも近い値をとらないからである。
【0045】
また、音圧の高い残留エコー成分はとりわけ離散的に存在する傾向がある。これは、音響エコーの推定誤差が大きくなった周波数帯域および時間において、音圧の高い残留エコー成分が発生する一方、音響環境学習および音響エコー消去処理が概ね安定動作するエコーキャンセラにおいては、(フレームシフト単位における全周波数帯域の成分に占める割合としての)その発生確率が低いためである。
【0046】
また、時間方向については、(極短時間でみた場合、)同じ周波数帯域であれば共通の適応フィルタを用いて音響エコー消去処理を行うこととなるため、数フレームシフト時間程度(例えば64ms程度)にわたり音圧レベルの近い残留エコー成分が連続することがある。しかし、一般的な会話音声の音響エコー消去処理を行った音声信号では、それ以上の時間連続して残留エコー成分が存在することは稀である。
【0047】
本実施の形態では、以上のような、周波数帯域毎の音響環境学習およびエコー消去処理後の近端音声信号における残留エコー成分の特徴と、人の会話音声成分の特徴との相違に鑑み、残留エコー消去部108が、スペクトルサブトラクション部107より出力された近端音声信号について、周波数帯域毎に、着目する周波数帯域と時間方向および周波数方向において隣接する範囲の成分に基づいて、着目する周波数帯域の成分から残留エコーを消去している。
【0048】
具体的には、残留エコー推定部1081が、スペクトルサブトラクション部107より出力された近端音声信号について、周波数帯域毎に、着目する周波数帯域と時間方向および周波数方向において隣接する範囲の成分のなかから、音圧レベルの高い成分を少なくとも一つ選定し、選定した成分の音圧レベルと着目する周波数帯域の成分の音圧レベルとの比較結果に基づいて、着目する周波数帯域の成分に残留エコーが含まれているか否かを推定する。そして、残留エコー抑圧部1082は、残留エコーが含まれていると推定された周波数帯域の成分について、この周波数帯域と時間方向および周波数方向において隣接する範囲の成分のなかから音圧レベルの低い信号成分を選定し、選定した成分の音圧レベルとこの周波数帯域の成分の音圧レベルとの差に応じて、この周波数帯域の成分を抑圧する。
【0049】
したがって、本実施の形態によれば、会話音声の歪み(抑圧)を小さく抑えながら、線形エコーキャンセラ部106およびスペクトルサブトラクション部107で消去しきれない残留エコーを抑圧することができ、これによりエコーキャンセラ1のエコー抑圧効果を高めることができる。
[第二実施の形態]
図4は、本発明の第二実施の形態に係るエコーキャンセラ1Aの概略構成図である。
【0050】
図示するように、本実施の形態に係るエコーキャンセラ1Aが図1に示す第一実施の形態に係るエコーキャンセラ1と異なる点は、残留エコー消去部108に代えて残留エコー消去部108Aを有することである。
【0051】
また、残留エコー消去部108Aが残留エコー消去部108と異なる点は、それぞれ比較候補周波数帯域となる周波数帯域の範囲が異なる残留エコー推定部1081を複数有すること、および複数の残留エコー推定部1081のなかから残留エコーの推定に使用する残留エコー推定部1081を選択する選択部1083を有することである。
【0052】
選択部1083は、FFT部104から出力される近端音声信号の音圧スペクトル情報、擬似エコー生成部105により生成された擬似エコー信号の音圧スペクトル情報、および線形エコーキャンセラ部106より出力される音響エコー消去後の近端音声信号の音圧スペクトル情報に基づいて、音響エコーの大きさを推定する。そして、この音響エコーの大きさに応じて、比較候補周波数帯域の範囲が広くなるように、残留エコー推定部1081を選択する。
【0053】
例えば、擬似エコー信号の全周波数帯域における音圧レベルの合計値が、音響エコー消去後の近端音声信号の全周波数帯域における音圧レベルの合計値よりも一定割合(所定の基準値)以上大きい場合、すなわち近端音声信号に対して音響エコーが基準値以上の大きさである場合は、比較候補周波数帯域の範囲が広い、すなわち残留エコーの抑圧効果がより高い残留エコー推定部1081を選択する。そして、選択した残留エコー推定部1081に、残留エコーの推定を実施させる。
【0054】
図5は、残留エコーの推定・抑圧処理の第三の例を説明するための図である。ここでは、遠端音声信号入力部101に入力される遠端音声信号および近端音声信号入力部102に入力される近端音声信号がサンプリング周波数32kHzのデジタル音声信号であり、FFT部103、104が、入力されたデジタル音声信号をフレーム長2048ポイントのFFTにより1024個の周波数帯域に分割した上で、フレームシフト単位を512ポイント(16ms)とする場合を想定している。
【0055】
図5において、図3と同じものには同じ符号を付している。図3に示す場合と同様、音圧スペクトル情報20は、1024個の周波数帯域に分割され、そのフレームシフト単位23は16msである。
【0056】
残留エコー推定部1081は、1フレームシフト単位毎に、1024個の周波数帯域の一つ一つに着目し、着目する周波数帯域(着目帯域)に残留エコー成分が存在するか否かを以下の要領で判断する。
【0057】
着目する周波数帯域を着目帯域Aとする。先ず、残留エコー推定部1081は、着目帯域Aと28個の比較候補周波数帯域C1〜C28を含む処理対象ブロックを決定する。具体的には、着目帯域Aの属するフレームシフト単位の3つ前のフレームシフト単位から、着目帯域Aと同じ周波数帯域C13、着目帯域Aの上下に隣接する周波数帯域C7、C17、および周波数帯域C7、C17に隣接する周波数帯域C1、C23を比較候補周波数帯域として選出する。また、着目帯域Aの属するフレームシフト単位の2つ前のフレームシフト単位から、着目帯域Aと同じ周波数帯域C14、着目帯域Aの上下に隣接する周波数帯域C8、C18、および周波数帯域C8、C18に隣接する周波数帯域C2、C24を比較候補周波数領域として選出する。また、着目帯域Aの属するフレームシフト単位の直前のフレームシフト単位から、着目帯域Aの上下に隣接する周波数帯域C9、C19、および周波数帯域C9、C19に隣接する周波数帯域C3、C25を比較候補周波数帯域として選出する。また、着目帯域Aの属するフレームシフト単位から、着目帯域Aの上下に隣接する周波数帯域C10、C20、および周波数帯域C10、C20に隣接する周波数帯域C4、C26を比較候補周波数帯域として選出する。また、着目帯域Aの属するフレームシフト単位の直後のフレームシフト単位から、着目帯域Aと同じ周波数帯域C15、着目帯域Aの上下に隣接する周波数帯域C11、C21、および周波数帯域C11、C21に隣接する周波数帯域C5、C27を比較候補として選出する。さらに、着目帯域Aの属するフレームシフト単位の2つ後のフレームシフト単位から、着目帯域Aと同じ周波数帯域C16、着目帯域Aの上下に隣接する周波数帯域C12、C22、および周波数帯域C12、C22に隣接する周波数帯域C6、C28を比較候補周波数帯域として選出する。
【0058】
次に、残留エコー推定部1081は、以上のようにして選出した、処理対象ブロック内の比較候補周波数帯域C1〜C28の音圧レベルと着目帯域Aの音圧レベルとを比較し、着目帯域Aの音圧レベルが比較候補周波数帯域C1〜C16の音圧レベルから乖離しているか否かを判断する。具体的には、図5の条件28に示すように、比較候補周波数帯域C1、C2、C7、C8の音圧レベルのうちの低いものをE1、比較候補周波数帯域C3、C4、C9、C10の音圧レベルのうちの低いものをE2、比較候補周波数帯域C5、C6、C11、C12の音圧レベルのうちの低いものをE3、比較候補周波数帯域C13、C14の音圧レベルのうちの低いものをE4、比較候補周波数帯域C15、C16の音圧レベルのうちの低いものをE5、比較候補周波数帯域C17、C18、C23、C24の音圧レベルのうちの低いものをE6、比較候補周波数帯域C19、C20、C25、C26の音圧レベルのうちの低いものをE7、そして、比較候補周波数帯域C21、C22、C27、C28の音圧レベルのうちの低いものをE8とする。そして、着目帯域Aの音圧レベルが、音圧レベルE1〜E4、E6〜E8のうちの最も高い音圧レベルF1、および音圧レベルE1〜E3、E5〜E8のうちの最も高い音圧レベルF2の少なくとも一方より高いか否かを判断する。その結果、着目帯域Aの音圧レベルが比較候補周波数帯域C1〜C28の音圧レベルから乖離しているならば(音圧レベルF1、F2の少なくとも一方よりも高いならば)、この着目帯域Aに残留エコー成分が存在すると推定する。
【0059】
残留エコー抑圧部1082は、残留エコー推定部1081により残留エコー成分が存在すると推定された着目帯域Aの音圧レベルを、着目帯域Aの音圧レベルが比較候補周波数帯域C1〜C28の音圧レベルから乖離しなくなるように抑圧する。具体的には、図3の条件27の場合と同様である。
【0060】
図5に示す第三の例によれば、図3に示す第二の例に比べて比較候補周波数帯域の範囲が広くなっており、これにより残留エコーの検出感度がより高くなり、残留エコーの抑圧効果がより高まる。しかし、会話音声の歪みは増加する。そこで、例えば、選択部1083は、通常の場合、すなわち音響エコーの大きさが基準値未満の場合は、図3に示す第二の例で動作する残留エコー推定部1081を選択し、音響エコーの大きさが基準値以上となった場合にのみ、図5に示す第三の例で動作する残留エコー推定部1081を選択する。これにより、残留エコーを抑圧しつつも、会話音声の歪みが極力生じないようにしている。
【0061】
以上、本発明の第二実施の形態について説明した。
【0062】
本実施の形態では、音響エコーの大きさに応じて、残留エコーの抑圧効果の異なる残留エコーの推定・抑圧処理を使い分けているので、特許文献1に記載の技術であればボイススイッチを使って音声を完全に遮断せざるを得なかったような悪条件においても、全二重通話状態を維持し、より快適な通話環境を提供することができる。その他の効果は第一実施の形態と同様である。
【0063】
なお、本発明は上記の各実施の形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
【0064】
例えば、上記の各実施の形態において、エコーキャンセラ1、1Aの構成は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などの集積ロジックICによりハード的に実行されるものでもよい。あるいは、DSP(Digital Signal Processor)によりソフト的に実行されるものでもよい。もしくは、CPU、メモリ、HDD、DVD−ROM等の補助記憶装置、モデム、およびNIC(Network Interface Card)を備えたPC(Personal Computer)等の汎用コンピュータにおいて、CPUが、所定のプログラムを補助記憶装置からメモリ上にロードして実行することにより実現されるものでもよい。
【図面の簡単な説明】
【0065】
【図1】図1は、本発明の第一実施の形態に係るエコーキャンセラ1の概略構成図である。
【図2】図2は、残留エコーの推定・抑圧処理の第一の例を説明するための図である。
【図3】図3は、残留エコーの推定・抑圧処理の第二の例を説明するための図である。
【図4】図4は、本発明の第二実施の形態に係るエコーキャンセラ1Aの概略構成図である。
【図5】図5は、残留エコーの推定・抑圧処理の第三の例を説明するための図である。
【符号の説明】
【0066】
1、1A:エコーキャンセラ、101:遠端音声信号入力部、102:近端音声信号入力部、103、104:FFT部、105:擬似エコー生成部、106:線形エコーキャンセラ部、107:スペクトルサブトラクション部、108、108A:残留エコー消去部、109:IFFT部、110:近端音声信号出力部、1081:残留エコー推定部、1082:残留エコー抑圧部、1083:選択部

【特許請求の範囲】
【請求項1】
マイクに入力された音声信号である入力音声信号から、スピーカから出力された音声信号である出力音声信号の音響エコーを消去するエコーキャンセラであって、
前記出力音声信号の音響エコーを周波数帯域毎に推定して擬似エコー信号を生成する擬似エコー生成手段と、
前記入力音声信号から前記擬似エコー信号を差し引いて、前記入力音声信号から前記出力音声信号の音響エコーをキャンセルするエコーキャンセル手段と、
前記音響エコーがキャンセルされた前記入力音声信号について、周波数帯域毎に、時間方向および周波数方向において当該周波数帯域と隣接する範囲の信号成分に基づいて、当該周波数帯域の信号成分から前記音響エコーの残留成分である残留エコーを消去する残留エコー消去手段と、を有する
ことを特徴とするエコーキャンセラ。
【請求項2】
請求項1に記載のエコーキャンセラであって、
前記残留エコー消去手段は、
前記音響エコーがキャンセルされた前記入力音声信号について、周波数帯域毎に、時間方向および周波数方向において当該周波数帯域の信号成分と隣接する範囲の信号成分のなかから、音圧レベルの高い信号成分を少なくとも一つ選定し、当該選定した信号成分の音圧レベルと当該周波数帯域の信号成分の音圧レベルとの比較結果に基づいて、当該周波数帯域の信号成分に前記残留エコーが含まれているか否かを推定する残留エコー推定手段と、
前記残留エコーが含まれていると推定された周波数帯域の信号成分について、時間方向および周波数方向において当該周波数帯域と隣接する範囲の信号成分のなかから、音圧レベルの低い信号成分を選定し、当該選定した信号成分の音圧レベルと当該周波数帯域の信号成分の音圧レベルとの差に応じて、当該周波数帯域の信号成分を抑圧する残留エコー抑圧手段と、を有する
ことを特徴とするエコーキャンセラ。
【請求項3】
請求項2に記載のエコーキャンセラであって、
前記残留エコー推定手段および前記残留エコー抑圧手段は、
前記周波数帯域の信号成分と隣接する周波数方向の範囲を、前記擬似エコー信号の音圧レベルに基づいて変更する
ことを特徴とするエコーキャンセラ。
【請求項4】
マイクに入力された音声信号である入力音声信号から、スピーカから出力された音声信号である出力音声信号の音響エコーを消去するエコー消去方法であって、
前記出力音声信号の音響エコーを周波数帯域毎に推定して擬似エコー信号を生成し、
前記入力音声信号から前記擬似エコー信号を差し引いて、前記入力音声信号から前記出力音声信号の音響エコーをキャンセルし、
前記音響エコーがキャンセルされた前記入力音声信号について、周波数帯域毎に、時間方向および周波数方向において当該周波数帯域と隣接する範囲の信号成分に基づいて、当該周波数帯域の信号成分から前記音響エコーの残留成分である残留エコーを消去する
ことを特徴とするエコー消去方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2010−135936(P2010−135936A)
【公開日】平成22年6月17日(2010.6.17)
【国際特許分類】
【出願番号】特願2008−307912(P2008−307912)
【出願日】平成20年12月2日(2008.12.2)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】