反響消去方法、反響消去装置及び反響消去プログラム
【課題】状況に応じてエコー抑圧ゲインの大きさを変更し、十分にエコー抑圧をしながら、音声歪を同時に少なくする反響消去技術を提供する。
【解決手段】本発明に係る反響消去技術は、収音信号に基づいて得られる信号D(f,k)及び受話信号X(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求め、信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、抑圧対象の信号が母音であるか子音であるかを判定し、抑圧対象の信号が母音であると判定された場合にはγ2を緩和係数β(k)とし、それ以外の場合にはγ1(<γ2)を緩和係数β(k)とし、信号D(f,k)とエコー抑圧ゲインGb^(f,k)と緩和係数β(k)との積から信号D(f,k)と緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行う。
【解決手段】本発明に係る反響消去技術は、収音信号に基づいて得られる信号D(f,k)及び受話信号X(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求め、信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、抑圧対象の信号が母音であるか子音であるかを判定し、抑圧対象の信号が母音であると判定された場合にはγ2を緩和係数β(k)とし、それ以外の場合にはγ1(<γ2)を緩和係数β(k)とし、信号D(f,k)とエコー抑圧ゲインGb^(f,k)と緩和係数β(k)との積から信号D(f,k)と緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行う。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マイクで収音される収音信号からスピーカで再生される受話信号に起因するエコー成分を、周波数毎にゲインを乗じて抑圧する反響消去技術に関する。
【背景技術】
【0002】
反響消去装置は、適応フィルタによる線形エコー消去と、振幅スペクトル制御による非線形エコー抑圧の2段構成となっているものがある。非特許文献1記載の反響消去装置10が、2段構成の反響消去装置の従来技術として知られている。図1を用いて、反響消去装置10の概略を説明する。
【0003】
スピーカ2で再生された受話信号x(n)はエコー経路5を経て、マイク3に回り込む。反響消去装置10は、マイク3で収音される収音信号y(n)からスピーカ2で再生される受話信号x(n)に起因するエコー成分を抑圧する。なお、nは時刻を表す整数である。
【0004】
この構成では、適応フィルタ部11において、受話端1から入力される受話信号x(n)を用いて、収音信号y(n)から線形処理でエコー成分を消去し、残留エコー信号d1(n)を求める。さらに、周波数領域変換部13において、残留エコー信号d1(n)を現在時刻nからd1(n)、d1(n−1)、…、d1(n−L+1)のL個分を1フレームとし、周波数領域の信号D1(f,k)に変換する。D1(f,k)は残留エコー信号d1(n)をフーリエ変換したものであり、fは離散角周波数を、kはフレーム時刻を表し、フーリエ変換長をFとしたときfは1からFの整数である。
【0005】
雑音抑圧部15において、残留エコー信号D1(f,k)に含まれる雑音成分を抑圧し、雑音除去信号D2(f,k)を求める。周波数領域変換部17において、受話信号x(n)を周波数領域の信号X(f,k)に変換する。さらに、残留エコー抑圧部18において、この信号X(f,k)を用いて、雑音除去信号D2(f,k)に含まれる残留エコー成分を抑圧し、送話信号D3(f,k)を求める。時間領域変換部19において、送話信号D3(f,k)を時間領域の送話信号d3(n)に変換し、送話端4へ出力する。
【0006】
ここで残留エコー抑圧部18におけるエコー抑圧処理の部分に着目する。残留エコー抑圧部18では、エコー抑圧ゲインG(f,k)を求め、残留エコー抑圧部18の入力信号であるD2(f,k)に対して周波数領域でG(f,k)を乗ずることでエコーを抑圧している。具体的にはエコー抑圧ゲインG(f,k)を
G(f,k)=(|D2(f,k)|2−|Y^(f,k)|2)/|D2(f,k)|2 (1)
として計算する。|・|は絶対値を取ることを表す。さらに、送話信号D3(f,k)を
D3(f,k)=G(f,k)D2(f,k) (2)
として計算する。
式(1)のY^(f,k)は疑似残留エコーであり、非特許文献1では
E[|Y^(f,k)|2]=E[|H(f,k)|2]|X(f,k)|2+βE[|Y^(f,k-1)|2] (3)
として求めている。H(f,k)は疑似残留エコー経路を表し、E[|X(f,k)|2]とE[|D2(f,k)|2]の比の最小値等を用いて求める。E[・]は集合平均を取ることを表す。βは忘却定数で残響時間に合わせた値に設定する。
【0007】
残留エコー抑圧部18における振幅スペクトル制御は、適応フィルタ部11でエコーが消しきれなかった場合に残る残留エコー成分を消去することができる。しかし、適応フィルタ部11と異なり、エコー抑圧量に応じてエコーとは関係ない送話音声も一部抑圧してしまう。その結果、送話音声が歪んで聞き取りづらくなってしまう問題がある。
【0008】
そこで、非特許文献1では、音声歪を軽減する方法として原音付加率1−αを設定する方法を提案している。つまり、送話信号を式(2)の代わりに
D3(f,k)=(1−α)D3(f,k)+αG(f,k)D2(f,k)(4)
としてエコー抑圧ゲインG(f,k)の影響を軽減する。ここで原音付加率αは0から1の実数である。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】阪内澄宇、羽田陽一、田中雅史、佐々木潤子、片岡章俊著、”雑音抑圧及びエコー抑圧機能を備えた音響エコーキャンセラ”、電子情報通信学会論文誌A、2004年、Vol.J-87-A、No.4、pp.448-457
【発明の概要】
【発明が解決しようとする課題】
【0010】
原音付加率を大きくし、エコー抑圧ゲインを小さくすれば音声の歪は少なくなるが、その分エコー消去性能は悪くなり、この二つはトレードオフの関係になっている。最適な原音付加率は、抑圧対象の信号により異なるが、従来技術の原音付加率は固定であり、必ずしも状況に応じた値を設定することができず、最適な原音付加率を設定できないという問題がある。
【0011】
反響消去装置において、母音部分の信号に対して最適な原音付加率とした場合、子音部分の信号は、もともとの振幅が小さいことに加え、周波数スペクトルの特性が抑圧により変化するため別の子音に聞き間違えるという弊害が生じると考えられる。以下、図2を用いて説明する。送話音声が母音の場合、送話音声に残留エコーが重畳した信号(図2A参照)に、残留エコー抑圧処理により送話音声の欠損が生じた場合にも元のスペクトルと概形はあまり変わらない(図2B参照)。同様の原音付加率で送話音声が子音の場合、送話音声に残留エコーが重畳した信号(図2C参照)に、残留エコー抑圧処理により送話音声の欠損が生じると、もともとの振幅が小さいことに加え、周波数スペクトルの特性が抑圧により変化するため(図2D参照)、元のスペクトルと大きく異なるものとなり、別の子音に聞き間違える等の問題が生じる。
【0012】
逆に、子音部分の信号に対して最適な原音付加率とした場合には、母音部分で十分なエコー消去性能を得ることができないという問題が生じる。
【課題を解決するための手段】
【0013】
上記の課題を解決するために、本発明に係る反響消去技術は、収音信号に基づいて得られる信号d(n)及び受話信号x(n)を、フレーム毎にそれぞれ周波数領域の信号D(f,k)及びX(f,k)に変換し、信号D(f,k)及びX(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求め、信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、抑圧対象の信号が母音であるか子音であるかを判定し、抑圧対象の信号が母音であると判定された場合にはγ2を緩和係数β(k)とし、それ以外の場合にはγ1を緩和係数β(k)とし、信号D(f,k)とエコー抑圧ゲインGb^(f,k)と緩和係数β(k)との積から信号D(f,k)と緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行って、第2残留エコー抑圧信号D3(f,k)を求め、第2残留エコー抑圧信号D3(f,k)を時間領域の信号d3(n)に変換する。但し、nは時刻を、f=1,2,…,Fは離散角周波数を、kはフレーム時刻を表し、γ1<γ2とする。
【発明の効果】
【0014】
本発明は、状況に応じてエコー抑圧ゲインの大きさを変更し、十分にエコー抑圧をしながら、音声歪を同時に少なくするという効果を奏する。
【図面の簡単な説明】
【0015】
【図1】従来の反響消去装置10を説明するためのブロック図。
【図2】図2Aは送話音声が母音の場合の送話音声に残留エコーが重畳した信号を、図2Bは図2Aの信号に対し残留エコー抑圧処理を行った後の信号を、図2Cは送話音声が子音の場合の送話音声に残留エコーが重畳した信号を、図2Dは図2Cの信号に対し残留エコー抑圧処理を行った後の信号を表す図。
【図3】実施例1の反響消去装置100を説明するためのブロック図。
【図4】実施例1の反響消去装置100の処理フローを説明するための図。
【図5】実施例1の反響消去装置100の適応フィルタ部11を説明するためのブロック図。
【図6】実施例1の反響消去装置100の雑音抑圧部15を説明するためのブロック図。
【図7】実施例1の反響消去装置100の第1残留エコー抑圧部130、母音子音判定部140、緩和係数決定部150及び第2エコー抑圧部160を説明するためのブロック図。
【図8】実施例1の反響消去装置100の第1残留エコー抑圧部130の処理フローを説明するための図。
【図9】実施例1の反響消去装置100の母音子音判定部140、緩和係数決定部150及び第2エコー抑圧部160の処理フローを説明するための図。
【図10】実施例1の反響消去装置100の緩和係数決定部150を説明するためのブロック図。
【図11】図11Aは式D3(f,k)={1−β(k)(1−Gb^(f,k))}D2(f,k)を計算するための第2残留エコー抑圧部160aを説明するための、図11Aは式D3(f,k)=(1-β(k))D2(f,k)+β(k)D'3(f,k)を計算するための第2残留エコー抑圧部160bを説明するためのブロック図。
【図12】実施例2の反響消去装置200の緩和係数決定部250を説明するためのブロック図。
【図13】実施例2の反響消去装置200の緩和係数決定部250の処理フローを説明するための図。
【図14】実施例2の反響消去装置200の緩和係数決定部250を説明するための図。
【図15】実施例3の反響消去装置300の緩和係数決定部350を説明するためのブロック図。
【図16】実施例3の反響消去装置300の緩和係数決定部350の処理フローを説明するための図。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について、詳細に説明する。
【実施例1】
【0017】
<反響消去装置100>
反響消去装置100は、マイク3で収音される収音信号y(n)からスピーカ2で再生される受話信号x(n)に起因するエコー成分を周波数毎にエコー抑圧ゲインを乗じて抑圧する。
【0018】
反響消去装置100は、例えば、図3に示すように、適応フィルタ部11、周波数領域変換部13及び17、雑音抑圧部15、時間領域変換部19、第1残留エコー抑圧部130、母音子音判定部140、緩和係数決定部150及び第2残留エコー抑圧部160を有する。図3及び図4を用いて実施例1に係る反響消去装置100を説明する。なお、図3中、図1と対応する部分には同一の符号を付し、説明を省略する。以下の図についても同様に省略する。
<適応フィルタ部11>
適応フィルタ部11は、受話端1から入力される受話信号x(n)を用いて、マイク3から入力される収音信号y(n)から線形処理でエコー成分を消去し、残留エコー信号d1(n)を求め(s11)、周波数領域変換部13へ出力する。例えば図5に示すように、適応フィルタ部11は、エコー予測部11a、減算部11b及びエコー経路推定部11cを備える。
【0019】
エコー予測部11aは、フィルタ係数ベクトルH’(n)と受話信号x(n)を受け取り、これを以下の式のように畳み込み、疑似エコー信号y’(n)を求め、これを減算部11bへ送る。
【0020】
y’(n)=H’ T(n)X(n)
但し、
H’(n)=[h’(n,0)…h’(n,L−1)]T
X(n)=[x(n)…x(n−L+1)]T
であり、[ ]Tはベクトルの転置を、Lはフィルタ長を、h’(n,l)は各フィルタ係数を表す。
【0021】
減算部11bは、収音信号y(n)と疑似エコー信号y’(n)を受け取り、収音信号y(n)から疑似エコー信号y’(n)を差し引き、残留エコー信号d1(n)(=y(n)−y’(n))を求め、周波数領域変換部13とエコー経路推定部11cへ送る。
【0022】
エコー経路推定部11cは、残留エコー信号d1(n)と受話信号x(n)を受け取り、これに基づき、収音信号y(n)と疑似エコー信号y’(n)との誤差が小さくなるようにエコー予測部11aのフィルタ係数ベクトルH’(n)が更新し、エコー予測部11aに送る。例えば、NLMS(Normalized Least Mean Square)アルゴリズムを用いて、以下の式のようにフィルタ係数h’(n+1)を更新する。
【0023】
H’(n+1)=H’(n)+(μd1(n)X(n))/(XT(n)X(n))
但し、μは推定を安定にするために設定されるステップサイズである。
<周波数領域変換部13及び17>
周波数領域変換部13は、例えば、残留エコー信号d1(n)を受け取り、現在時刻nからd1(n)、d1(n−1)、…、d1(n−L+1)のL個分を1フレームとし、フレーム毎に周波数領域の信号D2(f,k)に変換し(s13)、雑音抑圧部15に送る。なお、反響消去装置100に適応フィルタ部11を設けない場合には、周波数領域変換部13は、収音信号y(n)を受け取る構成としてもよい。Lは通常10msや20msに対応するサンプル数を用いる。
【0024】
周波数領域変換部17は、受話信号x(n)を受け取り、フレーム毎に周波数領域の信号X(f,k)に変換し(s17)、第1エコー抑圧部130に送る。なお、変換方式としては、離散フーリエ変換(DFT:discrete Fourier transform)や短時間フーリエ変換(STFT:short-time Fourier transform)等がある。
<雑音抑圧部15>
雑音抑圧部15は、周波数領域の残留エコー信号D1(f,k)を受け取り、この信号D1(f,k)に含まれる雑音成分N(f,k)を抑圧し、雑音除去信号D2(f,k)を求め(s15)、第1残留エコー抑圧部130と第2残留エコー抑圧部160へ送る。雑音抑圧部15は、例えば図6に示すように、雑音レベル推定部15a、雑音抑圧ゲイン計算部15b、乗算部15cを備える。
【0025】
雑音レベル推定部15aは、信号D1(f,k)を受け取り、音声の存在しない区間の入力信号D1(f,k)から集合平均E[|N(f,k)|2]を求める。但し、N(f,k)は残留エコー信号D1(f,k)に含まれる雑音成分とする。
【0026】
雑音抑圧ゲイン計算部15bは、信号D1(f,k)と集合平均E[|N(f,k)|2]を受け取り、以下の式により、雑音抑圧ゲインGa^(f,k)を求める。
【0027】
【数1】
【0028】
乗算部15cは、残留エコー信号D1(f,k)に雑音抑圧ゲインGa^(f,k)を乗じて、雑音除去信号D2(f,k)を求める。その際、以下の式にように、雑音除去信号D2(f,k)に適当な割合1−αで残留エコー信号D1(f,k)(原音)を付加し、音声歪をマスクして雑音除去信号D2(f,k)の聴感上の劣化を抑える構成としてもよい。
D2(f,k)=(1−α)D1(f,k)+αGa^(f,k)D1(f,k)
【0029】
<第1残留エコー抑圧部130>
第1残留エコー抑圧部130は、雑音除去信号D2(f,k)と受話信号X(f,k)を受け取り、これを用いてエコー抑圧ゲインGb^(f,k)を求め、これを信号D2(f,k)に乗じて第1残留エコー抑圧信号D’3(f,k)を求める(s130)。第1残留エコー抑圧部130は、第1残留エコー抑圧信号D’3(f,k)を母音子音判定部140に送り、エコー抑圧ゲインGb^(f,k)を第2残留エコー抑圧部160に送る。
【0030】
第1残留エコー抑圧部130は、例えば図7に示すように、エコー抑圧ゲイン計算部131と乗算部135を備える。さらに、エコー抑圧ゲイン計算部131は、音響結合量推定部132、エコーレベル推定部133、ゲイン計算部134を備える。図7及び図8を用いて各部の処理を説明する。
【0031】
音響結合量推定部132は、雑音除去信号D2(f,k)と受話信号X(f,k)を受け取る。音響結合量推定部132は、雑音除去信号D2(f,k)と受話信号X(f,k)の集合平均E[|D2(f,k)|2]、E[|X(f,k)|2]をそれぞれ求め、E[|D2(f,k)|2]、E[|X(f,k)|2]の比の最小値を更新することによって、音響結合量の周波数特性E[|H(f,k)|2]を求め(s132)、エコーレベル推定部133へ送る。
【0032】
エコーレベル推定部133は、音響結合量の周波数特性E[|H(f,k)|2]と受話信号X(f,k)を受け取り、式(3)により、疑似残留エコーY^(f,k)の集合平均E[|Y^(f,k)|2]を求め(s133)、ゲイン計算部134に送る。
【0033】
E[|Y^(f,k)|2]=E[|H(f,k)|2]|X(f,k)|2+βE[|Y^(f,k-1)|2] (3)
ゲイン計算部134は、疑似残留エコーY^(f,k)と雑音除去信号D2(f,k)を受け取り、式(1)により、エコー抑圧ゲインGb^(f,k)を求め(s131,s134)、乗算部135と第2残留エコー抑圧部135に送る。
【0034】
G(f,k)=(|D2(f,k)|2−|Y^(f,k)|2)/|D2(f,k)|2 (1)
乗算部135は、式(2)により、雑音除去信号D2(f,k)にエコー抑圧ゲインGb^(f,k)を乗じて、第1残留エコー抑圧信号D’3(f,k)を求め(s135)、母音子音判定部140に送る。
D’3(f,k)=G(f,k)D2(f,k) (2)
【0035】
<母音子音判定部140>
母音子音判定部140は、第1残留エコー抑圧信号D’3(f,k)を受け取り、これを用いて、抑圧対象の信号D2(f,k)が母音であるか子音であるかを判定する(s140)。母音子音判定部140は、例えば図7に示すように、判定用評価値計算部141と判定部143を備える。図7及び図9を用いて各部の処理を説明する。
【0036】
判定用評価値計算部141は、第1残留エコー抑圧信号D’3(f,k)を受け取り、以下の式で、第1残留エコー抑圧信号D’3(f,k)のスペクトルのスパース性を示す値S(D’3(k))を求め(s141)、判定部143に送る。
【0037】
【数2】
【0038】
但し、D’3(k)はD’3(f,k)のベクトル表記であり、D’3(k)={D’3(0,k),D’3(1,k),…,D’3(F,k)}であり、fhは考慮する最高周波数を、flは考慮する最低周波数を表す。例えば、音声通話通信で用いられる300Hz〜3kHzや可聴域20Hz〜20kHzを最低周波数及び最高周波数として設定する。この式(5)において、
【0039】
【数3】
【0040】
であり、|D’3(f,k)|のfl≦f≦fhでの値が最もスパースなとき(1つの周波数成分のみ値を持ち、他の周波数成分は0のとき)に1をとり、最もスパースでないとき(全ての周波数成分が同じ値のとき)に√(fh−fl+1)をとる。そのため、0≦S(D’3(k))≦1であり、D’3(f,k)が母音のスペクトルの場合S(D’3(k))は1に近い値となり(図2B参照)、子音の場合S(D’3(k))は0に近い値となる(図2D参照)。
【0041】
そこで、判定部143は、スパース性を示す値S(D’3(k))を受け取り、S(D’3(k))が予め定められた閾値T以上か否か判定し、閾値T以上の場合には母音と判定し、閾値T未満の場合には子音と判定する(s143)。判定部143は、判定結果j(k)を緩和係数決定部150へ送る。閾値Tは0≦T≦1であり、実験等により予め母音子音を判定することができるように定められる(例えばT=0.5)。また、判定結果j(k)には、例えば、子音であることを表す情報として0を、母音であることを表す情報として1を設定してもよい。
【0042】
なお、母音子音判定に第1残留エコー抑圧信号D’3(f,k)を用いるのは、判定に用いる信号に、受話信号に由来するエコー成分が残っていると、抑圧対象の信号の性質を誤判定するためである。よって、エコー成分を取り除いた信号であれば、母音子音判定に用いることができる。エコー成分を取り除いた信号とは、例えば、適応フィルタ部11において線形処理でエコー成分を消去したか、または、第1残留エコー抑圧部130で非線形エコー抑圧したか、少なくとも一方の処理を行った信号であればよい。よって、図7中、長破線で示すように雑音除去信号D2(f,k)を母音子音判定部に送る構成としてもよい。但し、残留エコー成分が含まれるため、判定の精度は落ちる。
【0043】
<緩和係数決定部150>
緩和係数決定部150は、抑圧対象の信号が母音であると判定された場合には1を緩和係数β(k)とし、それ以外の場合にはγを緩和係数β(k)とする(s150)。但し、γは0≦γ<1とし、実験等により予め適切な値を求め、予め定めておく。
例えば、緩和係数決定部150は、図10に示すように、記憶部151、153及び切替部155を備える。図9及び図10を用いて各部の処理を説明する。緩和係数決定部150は、判定結果j(k)を受け取る。j(k)が母音であることを表す情報の場合には、切替部155は、記憶部151と接続する。緩和係数決定部150は、記憶部151から1を取り出し、β(k)=1として、緩和係数β(k)を決定し、出力する(s150、s151)。j(k)が子音であることを表す情報の場合には、切替部155は、記憶部153と接続する。緩和係数決定部150は、記憶部153からγを取り出し、β(k)=γとして、緩和係数β(k)を決定し、出力する(s150、s153)。
【0044】
なお、母音子音判定部140の判定部143と緩和係数決定部150の処理は、以下の式で表すことができる。
【0045】
【数4】
【0046】
<第2残留エコー抑圧部160>
第2残留エコー抑圧部160は、例えば、第2残留エコー抑圧部160は、D2(f,k)とGb^(f,k)とβ(k)を受け取り、以下の式により第2残留エコー抑圧信号D3(f,k)を求め(s160)、時間領域変換部19に送る。
【0047】
D3(f,k)={1−β(k)(1−Gb^(f,k))}D2(f,k) (7)
このときの第2残留エコー抑圧部160の構成例を図11Aに示す。以下、簡単に処理を説明する。減算部162aは、記憶部161aから取り出した値1から受け取ったエコー抑圧ゲインGb^(f,k)を差し引き、(1−Gb^(f,k))を求める。乗算部163aは、この値に緩和係数β(k)を乗じ、β(k)(1−Gb^(f,k)を求める。減算部165aは記憶部164aから取り出した値1からβ(k)(1−Gb^(f,k)を差し引き、{1―β(k)(1−Gb^(f,k))}を求める。乗算部166aにおいて、この値を雑音除去信号D2(f,k)に乗じて、第2残留エコー抑圧信号D3(f,k)を求め出力する。
このような構成とすることで、送話音声を子音と判定した場合、エコー抑圧ゲインを弱めて送話音声の子音の周波数成分の欠損を緩和することができる。
【0048】
<時間領域変換部19>
時間領域変換部19は、第2残留エコー抑圧信号D3(f,k)を受け取り、これを時間領域の信号d3(n)に変換し(s19)、送話端4に送る。なお、変換方式は、周波数領域変換部13及び17の変換方式に対応する逆フーリエ変換等であればよい。
[プログラム及び記録媒体]
上述した反響消去装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<効果>
このような構成とすることによって、状況に応じて緩和係数(原音付加率)を変更することができ、十分にエコー抑圧をしながら、音声歪を同時に少なくするという効果を奏する。そのため、従来技術と比較して、より音声が聞き取りやすくなる。
【0049】
抑圧対象の信号が子音か母音かを判定して、判定結果に応じて緩和係数(原音付加率)を変更するので、抑圧対象の信号が子音の場合には、エコー抑圧ゲインを小さく緩和し、音声の歪が小さくし、聞き取り誤りの発生等を防止する。抑圧対象の信号が母音の場合には、エコー抑圧ゲインを大きくし、十分なエコー消去性能を得ることができる。
【0050】
つまり、本実施例では、音声の性質に従って時刻毎に適切なエコー抑圧ゲインを設定でき、エコー消去量と音声の聞き取りやすさをバランスよく両立することができる。その結果、ハンズフリー通話等での音声がより聞き取りやすくなる。
【0051】
なお、このエコー抑圧ゲインの緩和に関しては非線形抑圧処理に対して有効なものであり、適応フィルタ部11の側へ導入しても、もともと音声歪がない上にエコー消去量が減少するだけで逆効果である。また、雑音抑圧の方へ導入することは可能だが、雑音は多くの場合音声の子音に近い広帯域なスペクトルを持つため、雑音が子音と判定され雑音抑圧性能を低下させる結果となり、本発明の効果を得ることはできない。
【0052】
[変形例]
反響消去装置100に入力される入力信号及び収音信号がアナログ信号の場合には、反響消去装置100は、アナログ信号をデジタル信号に変換する図示しないA/D変換部を有してもよい。また、送話端4にアナログ信号を出力する場合には、反響消去装置100は、デジタル信号をアナログ信号に変換する図示しないD/A変換部を有してもよい。
【0053】
適応フィルタ部11において、周波数領域の受話信号X(f,k)及び収音信号Y(f,k)を用いて、エコー成分を消去してもよい。その場合、周波数領域変換部13は、適応フィルタ部11の前段に設けられる。適応フィルタ部11は、周波数領域変換部13及び17の出力信号X(f,k)及びY(f,k)を受信する。
【0054】
第2残留エコー抑圧部160は、図7に長破線で示すように、Gb^(f,k)に代えてD’3(f,k)を受け取り、以下の式(8)により第2残留エコー抑圧信号D3(f,k)を求めてもよい。
【0055】
D3(f,k)=(1-β(k))D2(f,k)+β(k)D'3(f,k) (8)
なお、式(2)より、D’3(f,k)=Gb^(f,k)D2(f,k)である。この場合の第2残留エコー抑圧部160の構成を図11Bに示す。乗算部162bは記憶部161bから取り出した値1から、受け取った緩和係数β(k)を差し引き、(1−β(k))を求める。乗算部163は、受け取った雑音除去信号D2(f,k)にこの値(1−β(k))を乗じ、(1−β(k))D2(f,k)を求める。乗算部164bは、受け取ったD’3(f,k)に緩和係数β(k)を乗じ、β(k)D’3(f,k)を求める。加算部165bは、(1−β(k))D2(f,k)とβ(k)D’3(f,k)を加算し、第2残留エコー抑圧信号D3(f,k)を求め、出力する。
【0056】
なお、第2残留エコー抑圧部160の構成は図11A、図11Bの構成に限定されるものではなく、雑音除去信号D2(f,k)とエコー抑圧ゲインGb^(f,k)と緩和係数β(k)との積から雑音除去信号D2(f,k)と緩和係数β(k)との積を減算し、減算結果をD2(f,k)に加算した結果が得られるような処理を行って、第2残留エコー抑圧信号D3(f,k)を求めることができればよい。
【0057】
本発明のポイントは、母音子音判定部140で抑圧対象の信号が母音であるか子音であるかを判定し、判定結果を用いて緩和係数β(k)を変更することである。よって、図4中破線で示すように、適応フィルタ部11における線形エコー消去処理(s11)や、雑音抑圧部15の雑音抑圧処理(s15)は必ずしも行わなくともよく、対応する各部はそれぞれ設けなくともよい。また、母音子音判定部140に第1残留エコー抑圧信号D’3(f,k)以外の信号を送る場合には、第1残留エコー抑圧部130における第1残留エコー抑圧処理(s130)のうち、少なくともエコー抑圧ゲイン計算部131においてエコー抑圧ゲインを求めればよく(s131)、図8中破線で示すように、乗算部135での乗算処理(s135)は行わなくともよく、乗算部135は設けなくともよい。なお、適応フィルタ部11、雑音抑圧部15、第1残留エコー抑圧部130、母音子音判定部140における処理は例示であり、他の従来技術を用いてもよい。
【0058】
例えば、母音子音判定部140の判定用評価値計算部141において、参考文献1記載の方法で第1残留エコー抑圧信号D’3(f,k)のスペクトルのスパース性を求めてもよい。
[参考文献1]荒木章子、中谷智広、澤田宏著、"ディリクレ事前分布を用いた音声のスパース性に基づく音源数推定と音源分離"、音響学会2009年秋季研究発表会、2009
なお、参考文献1において、ディリクレ分布はφの値が1より小さい場合、ベクトルαがスパースなほど大きな値となる。
【0059】
また、母音子音判定部140は、スペクトルのスパース性を示す値を用いずに、例えば参考文献2または3記載の方法で、抑圧対象の信号D2(f,k)が母音であるか子音であるかを判定してもよい。
[参考文献2]澤田秀之、大加戸稔著、”雑音環境下における音声インターフェース構築のための特定話者のセンシング”、電気学会論文誌、2006、Vol.126, No.11, pp.1446-1453
[参考文献3]二矢田勝行、星見昌克著、”帯域パワーとLPCケプストラム係数の時系列を用いた不特定話者用子音認識法”、電子情報通信学会論文誌D、1986、Vol.J69-D、No.6、pp.949-957
この場合、参考文献2においては波形の絶対値の時間平均の大きさで母音子音を判断し、参考文献3においてはパワーの変動を見てパワーディップ(子音部)を抽出する。
【0060】
なお、適応フィルタ部11等を設けない場合には、周波数領域変換部13が受け取る信号は、残留エコー信号d1(n)以外の収音信号y(n)に基づいて得られる信号(例えば収音信号y(n)自体等)でもよい。
【0061】
また、第1残留エコー抑圧部130及び第2残留エコー抑圧部160が受け取る信号は、雑音除去信号D2(f,k)以外の周波数領域の各信号Y(f,k)、D1(f,k)の何れかであってもよく、反響消去装置の構成に合わせて適宜変更する。
【0062】
緩和係数決定部150では、β(k)=1またはγとしているが、これに限定されるものではなく、β(k)=γ1(=αγ)またはγ2(=α)(但し、0<α<1)として緩和係数に定数αを乗じてもよい。αとαγの値は実験等により母音に適切な緩和係数として、子音に適切な緩和係数として予め定められる(例えばα=0.5、γ=0.5とし、γ1=0.25、γ2=0.5など)。
【0063】
また、γ1、γ2、緩和係数β(k)は周波数毎に異なる値をとる構成としてもよい。このとき、γ1={γ1(0),γ1(1),…,γ1(F)}、γ2={γ2(0),γ2(1),…,γ2(F)}、β(k)={β(0,k),β(1,k),…,β(F,k)}であり、γ1(f)≦γ2(f)であり、少なくとも一部の離散角周波数f’において、γ1(f’)<γ2(f’)であればよい。このような構成とすることで、周波数毎に適切な緩和係数を設定することができる。例えば、周波数が高くなるほど、子音部分が多くなるので、緩和係数が小さくなるように設定する構成が考えられる。
【実施例2】
【0064】
<反響消去装置200>
図3、4、7、12、13を用いて実施例2に係る反響消去装置200について実施例1と異なる部分のみ説明する。緩和係数決定部250の構成及び処理内容が実施例1と異なる。
【0065】
母音子音判定部140は、判定結果j(k)に加えて、図7中一点鎖線で示すように、判定用評価値計算部141で求めたスパース性を示す値S(D’3(k))も緩和係数決定部250へ出力する。
<緩和係数決定部250>
緩和係数決定部250は、判定結果j(k)とスパース性を示す値S(D’3(k))を受け取る。j(k)が母音であることを表す情報の場合には、切替部258は、記憶部251と接続する。緩和係数決定部250は、記憶部251から1を取り出し、β(k)=1として、緩和係数β(k)を決定し、出力する(s250、s251)。
【0066】
j(k)が子音であることを表す情報の場合には、切替部258は、加算部257と接続する。緩和係数決定部250は、加算部257からγ1(k)=1−κ(T−S(D’(k))を受け取り、β(k)=γ1として、緩和係数β(k)を決定し、出力する(s250、s257)。なお、0≦κ≦1/Tとする。図13にS(D’(k))とβ(k)の関係を示す。
【0067】
なお、減算部254は、記憶部254から取り出した閾値Tから受け取ったS(D’(k))を差し引き、(T−S(D’(k)))を求める。乗算部256は、記憶部255から取り出した値κを(T−S(D’(k)))に乗じ、κ(T−S(D’(k))を求める。加算部257は、記憶部251から取り出した値1からκ(T−S(D’(k))を差し引き、γ1(k)を求め、格納しておく。
【0068】
なお、母音子音判定部140の判定部143と緩和係数決定部250の処理は、以下の式で表すことができる。
【0069】
【数5】
【0070】
<効果>
このような構成とすることで、実施例1と同様の効果を奏する。さらにS(D’(k))<Tとなる範囲のうちでも、非常にスパース性の低い信号は抑圧を小さ目に、ある程度スパース性のある信号に対しては抑圧を大き目に設定するといった柔軟な設定が可能となる。
【0071】
[変形例]
実施例2では、閾値TとS(D’(k))の関係により、場合分けして緩和係数β(k)を求めているが、場合分けせず、緩和係数β(k)はS(D’(k))が増加するにしたがって単調増加する値であるとしてもよい。
【0072】
前述のとおり、0≦S(D’3(k))≦1なので、閾値T=1とすれば、このような構成を実現することができる。さらに、母音子音判定部の処理を省き、簡略化することができる。つまり、図7において、母音子音判定部140は判定用評価値計算部141のみを備え、S(D’(k))のみを出力する。図12において、記憶部251と切替部258を設けず、緩和係数決定部250は、フレーム毎にβ(k)=1−κ(T−S(D’(k))を算出し、出力する。このような構成の場合にも、状況に応じてエコー抑圧ゲインの大きさを変更することができ、非常にスパース性の低い信号は抑圧を小さ目に、ある程度スパース性のある信号に対しては抑圧を大き目に設定するといった柔軟な設定が可能となる。
【0073】
なお、κは周波数毎に異なる値をとる構成としてもよい。このとき、κ={κ(0),κ(1),…,κ(F)}であり、少なくとも一部の離散角周波数f’において、1−κ(f’)(T−S(D’(k))<γ2(f’)であればよい。このような構成とすることで、β(k)を周波数毎に異なる値とし、より細かな緩和係数の設定を可能とする。
【実施例3】
【0074】
<反響消去装置300>
図3、4、7、15、16を用いて実施例3に係る反響消去装置300について実施例1と異なる部分のみ説明する。緩和係数決定部350の構成及び処理内容が実施例1と異なる。
<緩和係数決定部350>
緩和係数決定部350は、判定結果j(k)と受話信号X(k)と第1残留エコー抑圧信号D’3(k)を受け取る。j(k)が母音であることを表す情報の場合には、切替部356は、記憶部354と接続する。
【0075】
送話音声検知部351及び判定部352は、それぞれ判定結果j(k)を受け取り、j(k)が子音であることを表す情報の場合には、以下の処理を行う。
【0076】
まず、送話音声検知部351において、||D’3(k)||/||X(k)||を求める。なお、||・||はノルムをとることを表し、X(k)={X(0,k),X(1,k),…,X(F,k)}である。
【0077】
判定部352は、この値||D’3(k)||/||X(k)||を受け取り、閾値Trより小さいか否かを判定し、判定結果j2(k)を切替部356に出力する。j2(k)が閾値Trより小さいことを表す情報の場合には、切替部356は、判定結果j(k)の値に係らず、記憶部354と接続する。緩和係数決定部350は、記憶部354から1を取り出し、β(k)=1として、緩和係数β(k)を決定し、出力する(s350、s354)。但し、Trは予め定められた正の実数であり、送話音声の子音部分が受話信号よりも十分に小さくなった場合に緩和係数が1になるよう調整するための値であり、実験等により予め適切な値を求め、予め定めておく。Trは0より大きな値であり、例えばTr=0.01とする。
【0078】
切替部356は、上述の場合を除いて(つまり、判定結果j(k)が子音であることを表す情報を受け取り、かつ、判定結果j2(k)が閾値Trより大きいことを表す情報を受け取った場合)には、記憶部355と接続する。緩和係数決定部350は、記憶部355からγ1(0≦γ1<1)を取り出し、β(k)=γ1として、緩和係数β(k)を決定し、出力する(s350、s355)。
【0079】
なお、母音子音判定部140の判定部143と緩和係数決定部350の処理は、以下の式で表すことができる。
【0080】
【数6】
【0081】
<効果>
このような構成とすることで、実施例1と同様の効果を得ることができる。さらに、送話音声が存在しない、または、送話音声が非常に小さいときには、第1エコー抑圧信号D’3(f,k)がスパース性を持っていたとしても緩和係数を1にするので、抑圧ゲインを緩和することなく、十分なエコー消去が可能となる。このようにスパース性の判定と通話状態の判定の両方を用いてゲインを緩和することで、抑圧を緩和する必要がない送話音声がない区間等において、エコーを十分に抑圧することができる。
【産業上の利用可能性】
【0082】
本発明の反響消去方法は、ハンズフリー通話、ハンズフリー音声認識等に利用することができる。
【符号の説明】
【0083】
100、200、300 反響消去装置
11 適応フィルタ部
13、17 周波数領域変換部
15 雑音抑圧部
19 時間領域変換部
130 第1残留エコー抑圧部
140 母音子音判定部
150、250、350 緩和係数決定部
160 第2残留エコー抑圧部
【技術分野】
【0001】
本発明は、マイクで収音される収音信号からスピーカで再生される受話信号に起因するエコー成分を、周波数毎にゲインを乗じて抑圧する反響消去技術に関する。
【背景技術】
【0002】
反響消去装置は、適応フィルタによる線形エコー消去と、振幅スペクトル制御による非線形エコー抑圧の2段構成となっているものがある。非特許文献1記載の反響消去装置10が、2段構成の反響消去装置の従来技術として知られている。図1を用いて、反響消去装置10の概略を説明する。
【0003】
スピーカ2で再生された受話信号x(n)はエコー経路5を経て、マイク3に回り込む。反響消去装置10は、マイク3で収音される収音信号y(n)からスピーカ2で再生される受話信号x(n)に起因するエコー成分を抑圧する。なお、nは時刻を表す整数である。
【0004】
この構成では、適応フィルタ部11において、受話端1から入力される受話信号x(n)を用いて、収音信号y(n)から線形処理でエコー成分を消去し、残留エコー信号d1(n)を求める。さらに、周波数領域変換部13において、残留エコー信号d1(n)を現在時刻nからd1(n)、d1(n−1)、…、d1(n−L+1)のL個分を1フレームとし、周波数領域の信号D1(f,k)に変換する。D1(f,k)は残留エコー信号d1(n)をフーリエ変換したものであり、fは離散角周波数を、kはフレーム時刻を表し、フーリエ変換長をFとしたときfは1からFの整数である。
【0005】
雑音抑圧部15において、残留エコー信号D1(f,k)に含まれる雑音成分を抑圧し、雑音除去信号D2(f,k)を求める。周波数領域変換部17において、受話信号x(n)を周波数領域の信号X(f,k)に変換する。さらに、残留エコー抑圧部18において、この信号X(f,k)を用いて、雑音除去信号D2(f,k)に含まれる残留エコー成分を抑圧し、送話信号D3(f,k)を求める。時間領域変換部19において、送話信号D3(f,k)を時間領域の送話信号d3(n)に変換し、送話端4へ出力する。
【0006】
ここで残留エコー抑圧部18におけるエコー抑圧処理の部分に着目する。残留エコー抑圧部18では、エコー抑圧ゲインG(f,k)を求め、残留エコー抑圧部18の入力信号であるD2(f,k)に対して周波数領域でG(f,k)を乗ずることでエコーを抑圧している。具体的にはエコー抑圧ゲインG(f,k)を
G(f,k)=(|D2(f,k)|2−|Y^(f,k)|2)/|D2(f,k)|2 (1)
として計算する。|・|は絶対値を取ることを表す。さらに、送話信号D3(f,k)を
D3(f,k)=G(f,k)D2(f,k) (2)
として計算する。
式(1)のY^(f,k)は疑似残留エコーであり、非特許文献1では
E[|Y^(f,k)|2]=E[|H(f,k)|2]|X(f,k)|2+βE[|Y^(f,k-1)|2] (3)
として求めている。H(f,k)は疑似残留エコー経路を表し、E[|X(f,k)|2]とE[|D2(f,k)|2]の比の最小値等を用いて求める。E[・]は集合平均を取ることを表す。βは忘却定数で残響時間に合わせた値に設定する。
【0007】
残留エコー抑圧部18における振幅スペクトル制御は、適応フィルタ部11でエコーが消しきれなかった場合に残る残留エコー成分を消去することができる。しかし、適応フィルタ部11と異なり、エコー抑圧量に応じてエコーとは関係ない送話音声も一部抑圧してしまう。その結果、送話音声が歪んで聞き取りづらくなってしまう問題がある。
【0008】
そこで、非特許文献1では、音声歪を軽減する方法として原音付加率1−αを設定する方法を提案している。つまり、送話信号を式(2)の代わりに
D3(f,k)=(1−α)D3(f,k)+αG(f,k)D2(f,k)(4)
としてエコー抑圧ゲインG(f,k)の影響を軽減する。ここで原音付加率αは0から1の実数である。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】阪内澄宇、羽田陽一、田中雅史、佐々木潤子、片岡章俊著、”雑音抑圧及びエコー抑圧機能を備えた音響エコーキャンセラ”、電子情報通信学会論文誌A、2004年、Vol.J-87-A、No.4、pp.448-457
【発明の概要】
【発明が解決しようとする課題】
【0010】
原音付加率を大きくし、エコー抑圧ゲインを小さくすれば音声の歪は少なくなるが、その分エコー消去性能は悪くなり、この二つはトレードオフの関係になっている。最適な原音付加率は、抑圧対象の信号により異なるが、従来技術の原音付加率は固定であり、必ずしも状況に応じた値を設定することができず、最適な原音付加率を設定できないという問題がある。
【0011】
反響消去装置において、母音部分の信号に対して最適な原音付加率とした場合、子音部分の信号は、もともとの振幅が小さいことに加え、周波数スペクトルの特性が抑圧により変化するため別の子音に聞き間違えるという弊害が生じると考えられる。以下、図2を用いて説明する。送話音声が母音の場合、送話音声に残留エコーが重畳した信号(図2A参照)に、残留エコー抑圧処理により送話音声の欠損が生じた場合にも元のスペクトルと概形はあまり変わらない(図2B参照)。同様の原音付加率で送話音声が子音の場合、送話音声に残留エコーが重畳した信号(図2C参照)に、残留エコー抑圧処理により送話音声の欠損が生じると、もともとの振幅が小さいことに加え、周波数スペクトルの特性が抑圧により変化するため(図2D参照)、元のスペクトルと大きく異なるものとなり、別の子音に聞き間違える等の問題が生じる。
【0012】
逆に、子音部分の信号に対して最適な原音付加率とした場合には、母音部分で十分なエコー消去性能を得ることができないという問題が生じる。
【課題を解決するための手段】
【0013】
上記の課題を解決するために、本発明に係る反響消去技術は、収音信号に基づいて得られる信号d(n)及び受話信号x(n)を、フレーム毎にそれぞれ周波数領域の信号D(f,k)及びX(f,k)に変換し、信号D(f,k)及びX(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求め、信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、抑圧対象の信号が母音であるか子音であるかを判定し、抑圧対象の信号が母音であると判定された場合にはγ2を緩和係数β(k)とし、それ以外の場合にはγ1を緩和係数β(k)とし、信号D(f,k)とエコー抑圧ゲインGb^(f,k)と緩和係数β(k)との積から信号D(f,k)と緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行って、第2残留エコー抑圧信号D3(f,k)を求め、第2残留エコー抑圧信号D3(f,k)を時間領域の信号d3(n)に変換する。但し、nは時刻を、f=1,2,…,Fは離散角周波数を、kはフレーム時刻を表し、γ1<γ2とする。
【発明の効果】
【0014】
本発明は、状況に応じてエコー抑圧ゲインの大きさを変更し、十分にエコー抑圧をしながら、音声歪を同時に少なくするという効果を奏する。
【図面の簡単な説明】
【0015】
【図1】従来の反響消去装置10を説明するためのブロック図。
【図2】図2Aは送話音声が母音の場合の送話音声に残留エコーが重畳した信号を、図2Bは図2Aの信号に対し残留エコー抑圧処理を行った後の信号を、図2Cは送話音声が子音の場合の送話音声に残留エコーが重畳した信号を、図2Dは図2Cの信号に対し残留エコー抑圧処理を行った後の信号を表す図。
【図3】実施例1の反響消去装置100を説明するためのブロック図。
【図4】実施例1の反響消去装置100の処理フローを説明するための図。
【図5】実施例1の反響消去装置100の適応フィルタ部11を説明するためのブロック図。
【図6】実施例1の反響消去装置100の雑音抑圧部15を説明するためのブロック図。
【図7】実施例1の反響消去装置100の第1残留エコー抑圧部130、母音子音判定部140、緩和係数決定部150及び第2エコー抑圧部160を説明するためのブロック図。
【図8】実施例1の反響消去装置100の第1残留エコー抑圧部130の処理フローを説明するための図。
【図9】実施例1の反響消去装置100の母音子音判定部140、緩和係数決定部150及び第2エコー抑圧部160の処理フローを説明するための図。
【図10】実施例1の反響消去装置100の緩和係数決定部150を説明するためのブロック図。
【図11】図11Aは式D3(f,k)={1−β(k)(1−Gb^(f,k))}D2(f,k)を計算するための第2残留エコー抑圧部160aを説明するための、図11Aは式D3(f,k)=(1-β(k))D2(f,k)+β(k)D'3(f,k)を計算するための第2残留エコー抑圧部160bを説明するためのブロック図。
【図12】実施例2の反響消去装置200の緩和係数決定部250を説明するためのブロック図。
【図13】実施例2の反響消去装置200の緩和係数決定部250の処理フローを説明するための図。
【図14】実施例2の反響消去装置200の緩和係数決定部250を説明するための図。
【図15】実施例3の反響消去装置300の緩和係数決定部350を説明するためのブロック図。
【図16】実施例3の反響消去装置300の緩和係数決定部350の処理フローを説明するための図。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について、詳細に説明する。
【実施例1】
【0017】
<反響消去装置100>
反響消去装置100は、マイク3で収音される収音信号y(n)からスピーカ2で再生される受話信号x(n)に起因するエコー成分を周波数毎にエコー抑圧ゲインを乗じて抑圧する。
【0018】
反響消去装置100は、例えば、図3に示すように、適応フィルタ部11、周波数領域変換部13及び17、雑音抑圧部15、時間領域変換部19、第1残留エコー抑圧部130、母音子音判定部140、緩和係数決定部150及び第2残留エコー抑圧部160を有する。図3及び図4を用いて実施例1に係る反響消去装置100を説明する。なお、図3中、図1と対応する部分には同一の符号を付し、説明を省略する。以下の図についても同様に省略する。
<適応フィルタ部11>
適応フィルタ部11は、受話端1から入力される受話信号x(n)を用いて、マイク3から入力される収音信号y(n)から線形処理でエコー成分を消去し、残留エコー信号d1(n)を求め(s11)、周波数領域変換部13へ出力する。例えば図5に示すように、適応フィルタ部11は、エコー予測部11a、減算部11b及びエコー経路推定部11cを備える。
【0019】
エコー予測部11aは、フィルタ係数ベクトルH’(n)と受話信号x(n)を受け取り、これを以下の式のように畳み込み、疑似エコー信号y’(n)を求め、これを減算部11bへ送る。
【0020】
y’(n)=H’ T(n)X(n)
但し、
H’(n)=[h’(n,0)…h’(n,L−1)]T
X(n)=[x(n)…x(n−L+1)]T
であり、[ ]Tはベクトルの転置を、Lはフィルタ長を、h’(n,l)は各フィルタ係数を表す。
【0021】
減算部11bは、収音信号y(n)と疑似エコー信号y’(n)を受け取り、収音信号y(n)から疑似エコー信号y’(n)を差し引き、残留エコー信号d1(n)(=y(n)−y’(n))を求め、周波数領域変換部13とエコー経路推定部11cへ送る。
【0022】
エコー経路推定部11cは、残留エコー信号d1(n)と受話信号x(n)を受け取り、これに基づき、収音信号y(n)と疑似エコー信号y’(n)との誤差が小さくなるようにエコー予測部11aのフィルタ係数ベクトルH’(n)が更新し、エコー予測部11aに送る。例えば、NLMS(Normalized Least Mean Square)アルゴリズムを用いて、以下の式のようにフィルタ係数h’(n+1)を更新する。
【0023】
H’(n+1)=H’(n)+(μd1(n)X(n))/(XT(n)X(n))
但し、μは推定を安定にするために設定されるステップサイズである。
<周波数領域変換部13及び17>
周波数領域変換部13は、例えば、残留エコー信号d1(n)を受け取り、現在時刻nからd1(n)、d1(n−1)、…、d1(n−L+1)のL個分を1フレームとし、フレーム毎に周波数領域の信号D2(f,k)に変換し(s13)、雑音抑圧部15に送る。なお、反響消去装置100に適応フィルタ部11を設けない場合には、周波数領域変換部13は、収音信号y(n)を受け取る構成としてもよい。Lは通常10msや20msに対応するサンプル数を用いる。
【0024】
周波数領域変換部17は、受話信号x(n)を受け取り、フレーム毎に周波数領域の信号X(f,k)に変換し(s17)、第1エコー抑圧部130に送る。なお、変換方式としては、離散フーリエ変換(DFT:discrete Fourier transform)や短時間フーリエ変換(STFT:short-time Fourier transform)等がある。
<雑音抑圧部15>
雑音抑圧部15は、周波数領域の残留エコー信号D1(f,k)を受け取り、この信号D1(f,k)に含まれる雑音成分N(f,k)を抑圧し、雑音除去信号D2(f,k)を求め(s15)、第1残留エコー抑圧部130と第2残留エコー抑圧部160へ送る。雑音抑圧部15は、例えば図6に示すように、雑音レベル推定部15a、雑音抑圧ゲイン計算部15b、乗算部15cを備える。
【0025】
雑音レベル推定部15aは、信号D1(f,k)を受け取り、音声の存在しない区間の入力信号D1(f,k)から集合平均E[|N(f,k)|2]を求める。但し、N(f,k)は残留エコー信号D1(f,k)に含まれる雑音成分とする。
【0026】
雑音抑圧ゲイン計算部15bは、信号D1(f,k)と集合平均E[|N(f,k)|2]を受け取り、以下の式により、雑音抑圧ゲインGa^(f,k)を求める。
【0027】
【数1】
【0028】
乗算部15cは、残留エコー信号D1(f,k)に雑音抑圧ゲインGa^(f,k)を乗じて、雑音除去信号D2(f,k)を求める。その際、以下の式にように、雑音除去信号D2(f,k)に適当な割合1−αで残留エコー信号D1(f,k)(原音)を付加し、音声歪をマスクして雑音除去信号D2(f,k)の聴感上の劣化を抑える構成としてもよい。
D2(f,k)=(1−α)D1(f,k)+αGa^(f,k)D1(f,k)
【0029】
<第1残留エコー抑圧部130>
第1残留エコー抑圧部130は、雑音除去信号D2(f,k)と受話信号X(f,k)を受け取り、これを用いてエコー抑圧ゲインGb^(f,k)を求め、これを信号D2(f,k)に乗じて第1残留エコー抑圧信号D’3(f,k)を求める(s130)。第1残留エコー抑圧部130は、第1残留エコー抑圧信号D’3(f,k)を母音子音判定部140に送り、エコー抑圧ゲインGb^(f,k)を第2残留エコー抑圧部160に送る。
【0030】
第1残留エコー抑圧部130は、例えば図7に示すように、エコー抑圧ゲイン計算部131と乗算部135を備える。さらに、エコー抑圧ゲイン計算部131は、音響結合量推定部132、エコーレベル推定部133、ゲイン計算部134を備える。図7及び図8を用いて各部の処理を説明する。
【0031】
音響結合量推定部132は、雑音除去信号D2(f,k)と受話信号X(f,k)を受け取る。音響結合量推定部132は、雑音除去信号D2(f,k)と受話信号X(f,k)の集合平均E[|D2(f,k)|2]、E[|X(f,k)|2]をそれぞれ求め、E[|D2(f,k)|2]、E[|X(f,k)|2]の比の最小値を更新することによって、音響結合量の周波数特性E[|H(f,k)|2]を求め(s132)、エコーレベル推定部133へ送る。
【0032】
エコーレベル推定部133は、音響結合量の周波数特性E[|H(f,k)|2]と受話信号X(f,k)を受け取り、式(3)により、疑似残留エコーY^(f,k)の集合平均E[|Y^(f,k)|2]を求め(s133)、ゲイン計算部134に送る。
【0033】
E[|Y^(f,k)|2]=E[|H(f,k)|2]|X(f,k)|2+βE[|Y^(f,k-1)|2] (3)
ゲイン計算部134は、疑似残留エコーY^(f,k)と雑音除去信号D2(f,k)を受け取り、式(1)により、エコー抑圧ゲインGb^(f,k)を求め(s131,s134)、乗算部135と第2残留エコー抑圧部135に送る。
【0034】
G(f,k)=(|D2(f,k)|2−|Y^(f,k)|2)/|D2(f,k)|2 (1)
乗算部135は、式(2)により、雑音除去信号D2(f,k)にエコー抑圧ゲインGb^(f,k)を乗じて、第1残留エコー抑圧信号D’3(f,k)を求め(s135)、母音子音判定部140に送る。
D’3(f,k)=G(f,k)D2(f,k) (2)
【0035】
<母音子音判定部140>
母音子音判定部140は、第1残留エコー抑圧信号D’3(f,k)を受け取り、これを用いて、抑圧対象の信号D2(f,k)が母音であるか子音であるかを判定する(s140)。母音子音判定部140は、例えば図7に示すように、判定用評価値計算部141と判定部143を備える。図7及び図9を用いて各部の処理を説明する。
【0036】
判定用評価値計算部141は、第1残留エコー抑圧信号D’3(f,k)を受け取り、以下の式で、第1残留エコー抑圧信号D’3(f,k)のスペクトルのスパース性を示す値S(D’3(k))を求め(s141)、判定部143に送る。
【0037】
【数2】
【0038】
但し、D’3(k)はD’3(f,k)のベクトル表記であり、D’3(k)={D’3(0,k),D’3(1,k),…,D’3(F,k)}であり、fhは考慮する最高周波数を、flは考慮する最低周波数を表す。例えば、音声通話通信で用いられる300Hz〜3kHzや可聴域20Hz〜20kHzを最低周波数及び最高周波数として設定する。この式(5)において、
【0039】
【数3】
【0040】
であり、|D’3(f,k)|のfl≦f≦fhでの値が最もスパースなとき(1つの周波数成分のみ値を持ち、他の周波数成分は0のとき)に1をとり、最もスパースでないとき(全ての周波数成分が同じ値のとき)に√(fh−fl+1)をとる。そのため、0≦S(D’3(k))≦1であり、D’3(f,k)が母音のスペクトルの場合S(D’3(k))は1に近い値となり(図2B参照)、子音の場合S(D’3(k))は0に近い値となる(図2D参照)。
【0041】
そこで、判定部143は、スパース性を示す値S(D’3(k))を受け取り、S(D’3(k))が予め定められた閾値T以上か否か判定し、閾値T以上の場合には母音と判定し、閾値T未満の場合には子音と判定する(s143)。判定部143は、判定結果j(k)を緩和係数決定部150へ送る。閾値Tは0≦T≦1であり、実験等により予め母音子音を判定することができるように定められる(例えばT=0.5)。また、判定結果j(k)には、例えば、子音であることを表す情報として0を、母音であることを表す情報として1を設定してもよい。
【0042】
なお、母音子音判定に第1残留エコー抑圧信号D’3(f,k)を用いるのは、判定に用いる信号に、受話信号に由来するエコー成分が残っていると、抑圧対象の信号の性質を誤判定するためである。よって、エコー成分を取り除いた信号であれば、母音子音判定に用いることができる。エコー成分を取り除いた信号とは、例えば、適応フィルタ部11において線形処理でエコー成分を消去したか、または、第1残留エコー抑圧部130で非線形エコー抑圧したか、少なくとも一方の処理を行った信号であればよい。よって、図7中、長破線で示すように雑音除去信号D2(f,k)を母音子音判定部に送る構成としてもよい。但し、残留エコー成分が含まれるため、判定の精度は落ちる。
【0043】
<緩和係数決定部150>
緩和係数決定部150は、抑圧対象の信号が母音であると判定された場合には1を緩和係数β(k)とし、それ以外の場合にはγを緩和係数β(k)とする(s150)。但し、γは0≦γ<1とし、実験等により予め適切な値を求め、予め定めておく。
例えば、緩和係数決定部150は、図10に示すように、記憶部151、153及び切替部155を備える。図9及び図10を用いて各部の処理を説明する。緩和係数決定部150は、判定結果j(k)を受け取る。j(k)が母音であることを表す情報の場合には、切替部155は、記憶部151と接続する。緩和係数決定部150は、記憶部151から1を取り出し、β(k)=1として、緩和係数β(k)を決定し、出力する(s150、s151)。j(k)が子音であることを表す情報の場合には、切替部155は、記憶部153と接続する。緩和係数決定部150は、記憶部153からγを取り出し、β(k)=γとして、緩和係数β(k)を決定し、出力する(s150、s153)。
【0044】
なお、母音子音判定部140の判定部143と緩和係数決定部150の処理は、以下の式で表すことができる。
【0045】
【数4】
【0046】
<第2残留エコー抑圧部160>
第2残留エコー抑圧部160は、例えば、第2残留エコー抑圧部160は、D2(f,k)とGb^(f,k)とβ(k)を受け取り、以下の式により第2残留エコー抑圧信号D3(f,k)を求め(s160)、時間領域変換部19に送る。
【0047】
D3(f,k)={1−β(k)(1−Gb^(f,k))}D2(f,k) (7)
このときの第2残留エコー抑圧部160の構成例を図11Aに示す。以下、簡単に処理を説明する。減算部162aは、記憶部161aから取り出した値1から受け取ったエコー抑圧ゲインGb^(f,k)を差し引き、(1−Gb^(f,k))を求める。乗算部163aは、この値に緩和係数β(k)を乗じ、β(k)(1−Gb^(f,k)を求める。減算部165aは記憶部164aから取り出した値1からβ(k)(1−Gb^(f,k)を差し引き、{1―β(k)(1−Gb^(f,k))}を求める。乗算部166aにおいて、この値を雑音除去信号D2(f,k)に乗じて、第2残留エコー抑圧信号D3(f,k)を求め出力する。
このような構成とすることで、送話音声を子音と判定した場合、エコー抑圧ゲインを弱めて送話音声の子音の周波数成分の欠損を緩和することができる。
【0048】
<時間領域変換部19>
時間領域変換部19は、第2残留エコー抑圧信号D3(f,k)を受け取り、これを時間領域の信号d3(n)に変換し(s19)、送話端4に送る。なお、変換方式は、周波数領域変換部13及び17の変換方式に対応する逆フーリエ変換等であればよい。
[プログラム及び記録媒体]
上述した反響消去装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<効果>
このような構成とすることによって、状況に応じて緩和係数(原音付加率)を変更することができ、十分にエコー抑圧をしながら、音声歪を同時に少なくするという効果を奏する。そのため、従来技術と比較して、より音声が聞き取りやすくなる。
【0049】
抑圧対象の信号が子音か母音かを判定して、判定結果に応じて緩和係数(原音付加率)を変更するので、抑圧対象の信号が子音の場合には、エコー抑圧ゲインを小さく緩和し、音声の歪が小さくし、聞き取り誤りの発生等を防止する。抑圧対象の信号が母音の場合には、エコー抑圧ゲインを大きくし、十分なエコー消去性能を得ることができる。
【0050】
つまり、本実施例では、音声の性質に従って時刻毎に適切なエコー抑圧ゲインを設定でき、エコー消去量と音声の聞き取りやすさをバランスよく両立することができる。その結果、ハンズフリー通話等での音声がより聞き取りやすくなる。
【0051】
なお、このエコー抑圧ゲインの緩和に関しては非線形抑圧処理に対して有効なものであり、適応フィルタ部11の側へ導入しても、もともと音声歪がない上にエコー消去量が減少するだけで逆効果である。また、雑音抑圧の方へ導入することは可能だが、雑音は多くの場合音声の子音に近い広帯域なスペクトルを持つため、雑音が子音と判定され雑音抑圧性能を低下させる結果となり、本発明の効果を得ることはできない。
【0052】
[変形例]
反響消去装置100に入力される入力信号及び収音信号がアナログ信号の場合には、反響消去装置100は、アナログ信号をデジタル信号に変換する図示しないA/D変換部を有してもよい。また、送話端4にアナログ信号を出力する場合には、反響消去装置100は、デジタル信号をアナログ信号に変換する図示しないD/A変換部を有してもよい。
【0053】
適応フィルタ部11において、周波数領域の受話信号X(f,k)及び収音信号Y(f,k)を用いて、エコー成分を消去してもよい。その場合、周波数領域変換部13は、適応フィルタ部11の前段に設けられる。適応フィルタ部11は、周波数領域変換部13及び17の出力信号X(f,k)及びY(f,k)を受信する。
【0054】
第2残留エコー抑圧部160は、図7に長破線で示すように、Gb^(f,k)に代えてD’3(f,k)を受け取り、以下の式(8)により第2残留エコー抑圧信号D3(f,k)を求めてもよい。
【0055】
D3(f,k)=(1-β(k))D2(f,k)+β(k)D'3(f,k) (8)
なお、式(2)より、D’3(f,k)=Gb^(f,k)D2(f,k)である。この場合の第2残留エコー抑圧部160の構成を図11Bに示す。乗算部162bは記憶部161bから取り出した値1から、受け取った緩和係数β(k)を差し引き、(1−β(k))を求める。乗算部163は、受け取った雑音除去信号D2(f,k)にこの値(1−β(k))を乗じ、(1−β(k))D2(f,k)を求める。乗算部164bは、受け取ったD’3(f,k)に緩和係数β(k)を乗じ、β(k)D’3(f,k)を求める。加算部165bは、(1−β(k))D2(f,k)とβ(k)D’3(f,k)を加算し、第2残留エコー抑圧信号D3(f,k)を求め、出力する。
【0056】
なお、第2残留エコー抑圧部160の構成は図11A、図11Bの構成に限定されるものではなく、雑音除去信号D2(f,k)とエコー抑圧ゲインGb^(f,k)と緩和係数β(k)との積から雑音除去信号D2(f,k)と緩和係数β(k)との積を減算し、減算結果をD2(f,k)に加算した結果が得られるような処理を行って、第2残留エコー抑圧信号D3(f,k)を求めることができればよい。
【0057】
本発明のポイントは、母音子音判定部140で抑圧対象の信号が母音であるか子音であるかを判定し、判定結果を用いて緩和係数β(k)を変更することである。よって、図4中破線で示すように、適応フィルタ部11における線形エコー消去処理(s11)や、雑音抑圧部15の雑音抑圧処理(s15)は必ずしも行わなくともよく、対応する各部はそれぞれ設けなくともよい。また、母音子音判定部140に第1残留エコー抑圧信号D’3(f,k)以外の信号を送る場合には、第1残留エコー抑圧部130における第1残留エコー抑圧処理(s130)のうち、少なくともエコー抑圧ゲイン計算部131においてエコー抑圧ゲインを求めればよく(s131)、図8中破線で示すように、乗算部135での乗算処理(s135)は行わなくともよく、乗算部135は設けなくともよい。なお、適応フィルタ部11、雑音抑圧部15、第1残留エコー抑圧部130、母音子音判定部140における処理は例示であり、他の従来技術を用いてもよい。
【0058】
例えば、母音子音判定部140の判定用評価値計算部141において、参考文献1記載の方法で第1残留エコー抑圧信号D’3(f,k)のスペクトルのスパース性を求めてもよい。
[参考文献1]荒木章子、中谷智広、澤田宏著、"ディリクレ事前分布を用いた音声のスパース性に基づく音源数推定と音源分離"、音響学会2009年秋季研究発表会、2009
なお、参考文献1において、ディリクレ分布はφの値が1より小さい場合、ベクトルαがスパースなほど大きな値となる。
【0059】
また、母音子音判定部140は、スペクトルのスパース性を示す値を用いずに、例えば参考文献2または3記載の方法で、抑圧対象の信号D2(f,k)が母音であるか子音であるかを判定してもよい。
[参考文献2]澤田秀之、大加戸稔著、”雑音環境下における音声インターフェース構築のための特定話者のセンシング”、電気学会論文誌、2006、Vol.126, No.11, pp.1446-1453
[参考文献3]二矢田勝行、星見昌克著、”帯域パワーとLPCケプストラム係数の時系列を用いた不特定話者用子音認識法”、電子情報通信学会論文誌D、1986、Vol.J69-D、No.6、pp.949-957
この場合、参考文献2においては波形の絶対値の時間平均の大きさで母音子音を判断し、参考文献3においてはパワーの変動を見てパワーディップ(子音部)を抽出する。
【0060】
なお、適応フィルタ部11等を設けない場合には、周波数領域変換部13が受け取る信号は、残留エコー信号d1(n)以外の収音信号y(n)に基づいて得られる信号(例えば収音信号y(n)自体等)でもよい。
【0061】
また、第1残留エコー抑圧部130及び第2残留エコー抑圧部160が受け取る信号は、雑音除去信号D2(f,k)以外の周波数領域の各信号Y(f,k)、D1(f,k)の何れかであってもよく、反響消去装置の構成に合わせて適宜変更する。
【0062】
緩和係数決定部150では、β(k)=1またはγとしているが、これに限定されるものではなく、β(k)=γ1(=αγ)またはγ2(=α)(但し、0<α<1)として緩和係数に定数αを乗じてもよい。αとαγの値は実験等により母音に適切な緩和係数として、子音に適切な緩和係数として予め定められる(例えばα=0.5、γ=0.5とし、γ1=0.25、γ2=0.5など)。
【0063】
また、γ1、γ2、緩和係数β(k)は周波数毎に異なる値をとる構成としてもよい。このとき、γ1={γ1(0),γ1(1),…,γ1(F)}、γ2={γ2(0),γ2(1),…,γ2(F)}、β(k)={β(0,k),β(1,k),…,β(F,k)}であり、γ1(f)≦γ2(f)であり、少なくとも一部の離散角周波数f’において、γ1(f’)<γ2(f’)であればよい。このような構成とすることで、周波数毎に適切な緩和係数を設定することができる。例えば、周波数が高くなるほど、子音部分が多くなるので、緩和係数が小さくなるように設定する構成が考えられる。
【実施例2】
【0064】
<反響消去装置200>
図3、4、7、12、13を用いて実施例2に係る反響消去装置200について実施例1と異なる部分のみ説明する。緩和係数決定部250の構成及び処理内容が実施例1と異なる。
【0065】
母音子音判定部140は、判定結果j(k)に加えて、図7中一点鎖線で示すように、判定用評価値計算部141で求めたスパース性を示す値S(D’3(k))も緩和係数決定部250へ出力する。
<緩和係数決定部250>
緩和係数決定部250は、判定結果j(k)とスパース性を示す値S(D’3(k))を受け取る。j(k)が母音であることを表す情報の場合には、切替部258は、記憶部251と接続する。緩和係数決定部250は、記憶部251から1を取り出し、β(k)=1として、緩和係数β(k)を決定し、出力する(s250、s251)。
【0066】
j(k)が子音であることを表す情報の場合には、切替部258は、加算部257と接続する。緩和係数決定部250は、加算部257からγ1(k)=1−κ(T−S(D’(k))を受け取り、β(k)=γ1として、緩和係数β(k)を決定し、出力する(s250、s257)。なお、0≦κ≦1/Tとする。図13にS(D’(k))とβ(k)の関係を示す。
【0067】
なお、減算部254は、記憶部254から取り出した閾値Tから受け取ったS(D’(k))を差し引き、(T−S(D’(k)))を求める。乗算部256は、記憶部255から取り出した値κを(T−S(D’(k)))に乗じ、κ(T−S(D’(k))を求める。加算部257は、記憶部251から取り出した値1からκ(T−S(D’(k))を差し引き、γ1(k)を求め、格納しておく。
【0068】
なお、母音子音判定部140の判定部143と緩和係数決定部250の処理は、以下の式で表すことができる。
【0069】
【数5】
【0070】
<効果>
このような構成とすることで、実施例1と同様の効果を奏する。さらにS(D’(k))<Tとなる範囲のうちでも、非常にスパース性の低い信号は抑圧を小さ目に、ある程度スパース性のある信号に対しては抑圧を大き目に設定するといった柔軟な設定が可能となる。
【0071】
[変形例]
実施例2では、閾値TとS(D’(k))の関係により、場合分けして緩和係数β(k)を求めているが、場合分けせず、緩和係数β(k)はS(D’(k))が増加するにしたがって単調増加する値であるとしてもよい。
【0072】
前述のとおり、0≦S(D’3(k))≦1なので、閾値T=1とすれば、このような構成を実現することができる。さらに、母音子音判定部の処理を省き、簡略化することができる。つまり、図7において、母音子音判定部140は判定用評価値計算部141のみを備え、S(D’(k))のみを出力する。図12において、記憶部251と切替部258を設けず、緩和係数決定部250は、フレーム毎にβ(k)=1−κ(T−S(D’(k))を算出し、出力する。このような構成の場合にも、状況に応じてエコー抑圧ゲインの大きさを変更することができ、非常にスパース性の低い信号は抑圧を小さ目に、ある程度スパース性のある信号に対しては抑圧を大き目に設定するといった柔軟な設定が可能となる。
【0073】
なお、κは周波数毎に異なる値をとる構成としてもよい。このとき、κ={κ(0),κ(1),…,κ(F)}であり、少なくとも一部の離散角周波数f’において、1−κ(f’)(T−S(D’(k))<γ2(f’)であればよい。このような構成とすることで、β(k)を周波数毎に異なる値とし、より細かな緩和係数の設定を可能とする。
【実施例3】
【0074】
<反響消去装置300>
図3、4、7、15、16を用いて実施例3に係る反響消去装置300について実施例1と異なる部分のみ説明する。緩和係数決定部350の構成及び処理内容が実施例1と異なる。
<緩和係数決定部350>
緩和係数決定部350は、判定結果j(k)と受話信号X(k)と第1残留エコー抑圧信号D’3(k)を受け取る。j(k)が母音であることを表す情報の場合には、切替部356は、記憶部354と接続する。
【0075】
送話音声検知部351及び判定部352は、それぞれ判定結果j(k)を受け取り、j(k)が子音であることを表す情報の場合には、以下の処理を行う。
【0076】
まず、送話音声検知部351において、||D’3(k)||/||X(k)||を求める。なお、||・||はノルムをとることを表し、X(k)={X(0,k),X(1,k),…,X(F,k)}である。
【0077】
判定部352は、この値||D’3(k)||/||X(k)||を受け取り、閾値Trより小さいか否かを判定し、判定結果j2(k)を切替部356に出力する。j2(k)が閾値Trより小さいことを表す情報の場合には、切替部356は、判定結果j(k)の値に係らず、記憶部354と接続する。緩和係数決定部350は、記憶部354から1を取り出し、β(k)=1として、緩和係数β(k)を決定し、出力する(s350、s354)。但し、Trは予め定められた正の実数であり、送話音声の子音部分が受話信号よりも十分に小さくなった場合に緩和係数が1になるよう調整するための値であり、実験等により予め適切な値を求め、予め定めておく。Trは0より大きな値であり、例えばTr=0.01とする。
【0078】
切替部356は、上述の場合を除いて(つまり、判定結果j(k)が子音であることを表す情報を受け取り、かつ、判定結果j2(k)が閾値Trより大きいことを表す情報を受け取った場合)には、記憶部355と接続する。緩和係数決定部350は、記憶部355からγ1(0≦γ1<1)を取り出し、β(k)=γ1として、緩和係数β(k)を決定し、出力する(s350、s355)。
【0079】
なお、母音子音判定部140の判定部143と緩和係数決定部350の処理は、以下の式で表すことができる。
【0080】
【数6】
【0081】
<効果>
このような構成とすることで、実施例1と同様の効果を得ることができる。さらに、送話音声が存在しない、または、送話音声が非常に小さいときには、第1エコー抑圧信号D’3(f,k)がスパース性を持っていたとしても緩和係数を1にするので、抑圧ゲインを緩和することなく、十分なエコー消去が可能となる。このようにスパース性の判定と通話状態の判定の両方を用いてゲインを緩和することで、抑圧を緩和する必要がない送話音声がない区間等において、エコーを十分に抑圧することができる。
【産業上の利用可能性】
【0082】
本発明の反響消去方法は、ハンズフリー通話、ハンズフリー音声認識等に利用することができる。
【符号の説明】
【0083】
100、200、300 反響消去装置
11 適応フィルタ部
13、17 周波数領域変換部
15 雑音抑圧部
19 時間領域変換部
130 第1残留エコー抑圧部
140 母音子音判定部
150、250、350 緩和係数決定部
160 第2残留エコー抑圧部
【特許請求の範囲】
【請求項1】
nは時刻を、f=1,2,…,Fは離散角周波数を、kはフレーム時刻を表し、γ1<γ2とし、
収音信号に基づいて得られる信号d(n)及び受話信号x(n)を、フレーム毎にそれぞれ周波数領域の信号D(f,k)及びX(f,k)に変換する周波数領域変換ステップと、
前記信号D(f,k)及びX(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求めるエコー抑圧ゲイン計算ステップと、
前記信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、抑圧対象の信号が母音であるか子音であるかを判定する母音子音判定ステップと、
前記母音子音判定ステップにおいて、前記抑圧対象の信号が母音であると判定された場合には前記γ2を緩和係数β(k)とし、それ以外の場合には前記γ1を緩和係数β(k)とする緩和係数決定ステップと、
前記信号D(f,k)と前記エコー抑圧ゲインGb^(f,k)と前記緩和係数β(k)との積から前記信号D(f,k)と前記緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行って、第2残留エコー抑圧信号D3(f,k)を求める第2残留エコー抑圧ステップと、
第2残留エコー抑圧信号D3(f,k)を時間領域の信号d3(n)に変換する時間領域変換ステップと、
を有する反響消去方法。
【請求項2】
請求項1記載の反響消去方法であって、fhは最高周波数を、flは最低周波数を表すものとし、
前記母音子音判定ステップにおいて、前記信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、当該信号のスペクトルのスパース性を示す値S(D’(k))を求め、当該値S(D’(k))が閾値T以上の場合には母音と判定し、閾値T未満の場合には子音と判定する、
ことを特徴とする反響消去方法。
【請求項3】
請求項1または2記載の反響消去方法であって、
前記緩和係数決定ステップにおいて、前記抑圧対象の信号が母音であると判定された場合には前記γ2=1を緩和係数β(k)とし、それ以外の場合には前記0≦γ1<1を緩和係数β(k)とする、
ことを特徴とする反響消去方法。
【請求項4】
請求項2記載の反響消去方法であって、0≦S(D’(k))≦1、0≦T≦1、0≦κ≦1/Tとし、
前記緩和係数決定ステップにおいて、前記抑圧対象の信号が母音であると判定された場合には前記γ2=1を緩和係数β(k)とし、それ以外の場合には前記γ1(k)=1−κ(T−S(D’(k))を緩和係数β(f)とする、
ことを特徴とする反響消去方法。
【請求項5】
請求項1または2記載の反響消去方法であって、
Trは予め定められた正の実数であり、
前記緩和係数決定ステップにおいて、前記抑圧対象の信号が母音であると判定された場合、または、(||D’(k)||/||X(k)||)<Trを満たす場合には前記γ2=1を緩和係数β(k)とし、それ以外の場合には前記0≦γ1<1を緩和係数β(k)とする、
ことを特徴とする反響消去方法。
【請求項6】
nは時刻を、f=1,2,…,Fは離散角周波数を、kはフレーム時刻を表し、
収音信号に基づいて得られる信号d(n)及び受話信号x(n)を、フレーム毎にそれぞれ周波数領域の信号D(f,k)及びX(f,k)に変換する周波数領域変換ステップと、
前記信号D(f,k)及びX(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求めるエコー抑圧ゲイン計算ステップと、
前記信号D(f,k)のスペクトルのスパース性を示す値S(D’(k))を求める母音子音判定用評価値計算ステップと、
前記S(D’(k))の値が大きいほど、緩和係数β(k)を大きくする緩和係数決定ステップと、
前記信号D(f,k)と前記エコー抑圧ゲインGb^(f,k)と前記緩和係数β(k)との積から前記信号D(f,k)と前記緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行って、第2残留エコー抑圧信号D3(f,k)を求める第2残留エコー抑圧ステップと、
第2残留エコー抑圧信号D3(f,k)を時間領域の信号d3(n)に変換する時間領域変換ステップと、
を有する反響消去方法。
【請求項7】
請求項1から請求項6の何れかに記載の反響消去方法であって、
前記γ1、γ2、β(k)は周波数毎に異なる値をとることができ、γ1={γ1(0),γ1(1),…,γ1(F)}、γ2={γ2(0),γ2(1),…,γ2(F)}、β(k)={β(0,k),β(1,k),…,β(F,k)}であり、少なくとも一部の離散角周波数f’において、γ1(f’)<γ2(f’)である、
ことを特徴とする反響消去方法。
【請求項8】
nは時刻を、f=1,2,…,Fは離散角周波数を、kはフレーム時刻を表し、γ1<γ2とし、
収音信号に基づいて得られる信号d(n)及び受話信号x(n)を、フレーム毎にそれぞれ周波数領域の信号D(f,k)及びX(f,k)に変換する周波数領域変換部と、
前記信号D(f,k)及びX(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求めるエコー抑圧ゲイン計算部と、
前記信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、抑圧対象の信号が母音であるか子音であるかを判定する母音子音判定部と、
前記母音子音判定部において、前記抑圧対象の信号が母音であると判定された場合には前記γ2を緩和係数β(k)とし、それ以外の場合には前記γ1を緩和係数β(k)とする緩和係数決定部と、
前記信号D(f,k)と前記エコー抑圧ゲインGb^(f,k)と前記緩和係数β(k)との積から前記信号D(f,k)と前記緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行って、第2残留エコー抑圧信号D3(f,k)を求める第2残留エコー抑圧部と、
第2残留エコー抑圧信号D3(f,k)を時間領域の信号d3(n)に変換する時間領域変換部と、
を有する反響消去装置。
【請求項9】
コンピュータに請求項1から請求項7の何れかに記載の反響消去方法を実行させるための反響消去プログラム。
【請求項1】
nは時刻を、f=1,2,…,Fは離散角周波数を、kはフレーム時刻を表し、γ1<γ2とし、
収音信号に基づいて得られる信号d(n)及び受話信号x(n)を、フレーム毎にそれぞれ周波数領域の信号D(f,k)及びX(f,k)に変換する周波数領域変換ステップと、
前記信号D(f,k)及びX(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求めるエコー抑圧ゲイン計算ステップと、
前記信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、抑圧対象の信号が母音であるか子音であるかを判定する母音子音判定ステップと、
前記母音子音判定ステップにおいて、前記抑圧対象の信号が母音であると判定された場合には前記γ2を緩和係数β(k)とし、それ以外の場合には前記γ1を緩和係数β(k)とする緩和係数決定ステップと、
前記信号D(f,k)と前記エコー抑圧ゲインGb^(f,k)と前記緩和係数β(k)との積から前記信号D(f,k)と前記緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行って、第2残留エコー抑圧信号D3(f,k)を求める第2残留エコー抑圧ステップと、
第2残留エコー抑圧信号D3(f,k)を時間領域の信号d3(n)に変換する時間領域変換ステップと、
を有する反響消去方法。
【請求項2】
請求項1記載の反響消去方法であって、fhは最高周波数を、flは最低周波数を表すものとし、
前記母音子音判定ステップにおいて、前記信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、当該信号のスペクトルのスパース性を示す値S(D’(k))を求め、当該値S(D’(k))が閾値T以上の場合には母音と判定し、閾値T未満の場合には子音と判定する、
ことを特徴とする反響消去方法。
【請求項3】
請求項1または2記載の反響消去方法であって、
前記緩和係数決定ステップにおいて、前記抑圧対象の信号が母音であると判定された場合には前記γ2=1を緩和係数β(k)とし、それ以外の場合には前記0≦γ1<1を緩和係数β(k)とする、
ことを特徴とする反響消去方法。
【請求項4】
請求項2記載の反響消去方法であって、0≦S(D’(k))≦1、0≦T≦1、0≦κ≦1/Tとし、
前記緩和係数決定ステップにおいて、前記抑圧対象の信号が母音であると判定された場合には前記γ2=1を緩和係数β(k)とし、それ以外の場合には前記γ1(k)=1−κ(T−S(D’(k))を緩和係数β(f)とする、
ことを特徴とする反響消去方法。
【請求項5】
請求項1または2記載の反響消去方法であって、
Trは予め定められた正の実数であり、
前記緩和係数決定ステップにおいて、前記抑圧対象の信号が母音であると判定された場合、または、(||D’(k)||/||X(k)||)<Trを満たす場合には前記γ2=1を緩和係数β(k)とし、それ以外の場合には前記0≦γ1<1を緩和係数β(k)とする、
ことを特徴とする反響消去方法。
【請求項6】
nは時刻を、f=1,2,…,Fは離散角周波数を、kはフレーム時刻を表し、
収音信号に基づいて得られる信号d(n)及び受話信号x(n)を、フレーム毎にそれぞれ周波数領域の信号D(f,k)及びX(f,k)に変換する周波数領域変換ステップと、
前記信号D(f,k)及びX(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求めるエコー抑圧ゲイン計算ステップと、
前記信号D(f,k)のスペクトルのスパース性を示す値S(D’(k))を求める母音子音判定用評価値計算ステップと、
前記S(D’(k))の値が大きいほど、緩和係数β(k)を大きくする緩和係数決定ステップと、
前記信号D(f,k)と前記エコー抑圧ゲインGb^(f,k)と前記緩和係数β(k)との積から前記信号D(f,k)と前記緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行って、第2残留エコー抑圧信号D3(f,k)を求める第2残留エコー抑圧ステップと、
第2残留エコー抑圧信号D3(f,k)を時間領域の信号d3(n)に変換する時間領域変換ステップと、
を有する反響消去方法。
【請求項7】
請求項1から請求項6の何れかに記載の反響消去方法であって、
前記γ1、γ2、β(k)は周波数毎に異なる値をとることができ、γ1={γ1(0),γ1(1),…,γ1(F)}、γ2={γ2(0),γ2(1),…,γ2(F)}、β(k)={β(0,k),β(1,k),…,β(F,k)}であり、少なくとも一部の離散角周波数f’において、γ1(f’)<γ2(f’)である、
ことを特徴とする反響消去方法。
【請求項8】
nは時刻を、f=1,2,…,Fは離散角周波数を、kはフレーム時刻を表し、γ1<γ2とし、
収音信号に基づいて得られる信号d(n)及び受話信号x(n)を、フレーム毎にそれぞれ周波数領域の信号D(f,k)及びX(f,k)に変換する周波数領域変換部と、
前記信号D(f,k)及びX(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求めるエコー抑圧ゲイン計算部と、
前記信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、抑圧対象の信号が母音であるか子音であるかを判定する母音子音判定部と、
前記母音子音判定部において、前記抑圧対象の信号が母音であると判定された場合には前記γ2を緩和係数β(k)とし、それ以外の場合には前記γ1を緩和係数β(k)とする緩和係数決定部と、
前記信号D(f,k)と前記エコー抑圧ゲインGb^(f,k)と前記緩和係数β(k)との積から前記信号D(f,k)と前記緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行って、第2残留エコー抑圧信号D3(f,k)を求める第2残留エコー抑圧部と、
第2残留エコー抑圧信号D3(f,k)を時間領域の信号d3(n)に変換する時間領域変換部と、
を有する反響消去装置。
【請求項9】
コンピュータに請求項1から請求項7の何れかに記載の反響消去方法を実行させるための反響消去プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【公開番号】特開2011−254420(P2011−254420A)
【公開日】平成23年12月15日(2011.12.15)
【国際特許分類】
【出願番号】特願2010−128725(P2010−128725)
【出願日】平成22年6月4日(2010.6.4)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成23年12月15日(2011.12.15)
【国際特許分類】
【出願日】平成22年6月4日(2010.6.4)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]