説明

雑音抑圧装置とその方法とプログラム

【課題】非定常雑音に頑健な雑音抑圧装置を提供する。
【解決手段】音声存在確率計算手段は観測対数スペクトルと雑音平均対数スペクトルと雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する。第一所望音声推定手段は観測対数スペクトルと雑音平均対数スペクトルと雑音分散スペクトルを入力として、観測スペクトル中に音声が存在すると仮定した場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する。そして、観測対数スペクトルと雑音平均対数スペクトルと雑音分散スペクトルを入力として、観測スペクトル中に音声が存在しないと仮定した場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算し、音声存在確率ベクトルと第一強調対数スペクトルと第二強調対数スペクトルを入力として雑音抑圧利得を計算する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、雑音スペクトルの局所的な推定誤差に影響され難い雑音抑圧装置とその方法と、プログラムに関する。
【背景技術】
【0002】
雑音抑圧装置は、所望の音声信号に重畳されている雑音を取り除く装置である。図13に、典型的な雑音抑圧装置900の機能構成を示し、その動作を簡単に説明する。雑音抑圧装置900は、スペクトル計算部90、雑音推定部91、利得計算部92、フィルタ計算部93、フィルタ適用部94、を具備する。
【0003】
スペクトル計算部90は、所定時間幅の短時間フレーム毎の観測信号から、観測信号のスペクトルである観測スペクトルを計算する。雑音推定部91は、観測スペクトルに含まれる雑音のスペクトルである雑音スペクトルを計算する。利得計算部92は、雑音抑圧利得を計算する。雑音抑圧利得は、周波数ビン毎に定義される0以上1以下の実数のベクトルであり、これを観測スペクトルに乗算することで雑音が抑圧されたスペクトルである強調スペクトルが得られる。
【0004】
フィルタ計算部93は、周波数領域で定義された雑音抑圧利得を、時間領域の雑音抑圧フィルタに変換する。フィルタ適用部94は、観測信号に雑音抑圧フィルタを適用して雑音を抑圧した強調信号を求める。また、雑音抑圧利得を観測スペクトルに乗算して得られる強調スペクトルから強調信号を求める構成も広く用いられている。
【0005】
利得計算部92については、OMLSA(Optimally Modified Log-Spectral Amplitude Estimator)と称される雑音抑圧利得を計算する方法が知られている(非特許文献1)。その方法を図14を参照して説明する。OMLSAは、音声存在確率計算手段920、第一所望音声推定手段921、第二所望音声推定手段922、利得決定手段923、から成る。
【0006】
音声存在確率計算手段920は、音声存在確率ベクトルを計算する。音声存在確率ベクトルは、各周波数ビンについて定義された音声存在確率の全周波数ビンに亘るベクトルである。ある周波数ビンにおける音声存在確率は、当該周波数ビンにおいて観測スペクトル中に音声が存在する確率を表す。第一所望音声推定手段921は、全ての周波数ビンにおいて観測スペクトル中に音声が存在すると仮定した場合の所望音声のスペクトルの推定値を第一強調スペクトルとして計算する。
【0007】
第二所望音声推定手段922は、全ての周波数ビンにおいて観測スペクトル中に音声が存在しないと仮定した場合の所望音声のスペクトルの推定値を第二強調スペクトルとして計算する。利得決定手段923は、音声存在ベクトルと第一強調スペクトルと第二強調スペクトルとから、雑音抑圧利得を計算する。
【0008】
OMLSAを用いた雑音抑圧装置900は、小さい音声歪と高い雑音抑圧量を両立できる。音声はスパース性をもつため、音声のエネルギーは一部の周波数ビンに集中する傾向があることが知られている。そうした周波数ビンでは音声が存在すると見做せる。一方、音声のエネルギーがほとんど存在しない周波数ビンには音声が存在しないと見做せる。OMLSAでは、音声が存在するか否かを周波数ビン毎に推定しながら雑音抑圧利得を計算するので、所望音声のエネルギーが集中する周波数ビンにおける音声の歪みを小さく保ったまま、所望音声のエネルギーがほとんど存在しない周波数ビンにおいて雑音を大幅に抑圧することが可能である。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】I. Cohen, “Optimal speech enhancement under signal presence uncertainty using log-spectral amplitude estimator,” IEEE SP Letters, vol.9, no.4, pp.113-116, 2002.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、OMLSAの音声存在確率計算は、雑音が非定常である場合、音声存在確率ベクトルを正しく求められないという課題がある。OMLSAの音声存在確率計算では、各周波数ビンに対して当該周波数ビンに時間的ないし周波数的に近接した周波数ビンにおけるSN比を求め、その大小に基づいて音声存在確率を計算する。
【0011】
雑音が非定常である場合、雑音スペクトルの推定値には局所的な誤差が含まれがちである。このためSN比を正確に求めることが出来ないので、適切な音声存在確率が得られない。すなわち、OMLSAは雑音スペクトルの推定値の局所的な誤差に頑健ではない。
【0012】
この発明は、このような課題に鑑みてなされたものであり、音声の大局的な構造上の特徴に着目することで、雑音スペクトルの推定値に誤差が含まれる場合でも音声存在確率を高精度に求めることができる雑音抑圧装置と、その方法とプログラムを提供することを目的とする。この発明で着目する音声の大局的な構造上の特徴とは、対数スペクトル包絡が混合正規分布で精度良くモデル化できること、及び基本周波数に依存した調波構造を持つことである。対数スペクトル包絡と基本周波数は物理的には、それぞれ音韻と声の高さに対応する。
【課題を解決するための手段】
【0013】
この発明の雑音抑圧装置は、スペクトル計算部と、対数計算部と、雑音統計量推定部と、利得計算部と、フィルタ計算部と、フィルタ適用部とを具備し、その利得計算部が、音声存在確率計算手段と、第一所望音声推定手段と、第二所望音声推定手段と、利得決定手段と、を備えることを特徴とする。
【0014】
その音声存在確率計算手段は、観測対数スペクトルと雑音平均対数スペクトルと雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する。第一所望音声推定手段は、観測対数スペクトルと雑音平均対数スペクトルと雑音分散スペクトルを入力として、観測対数スペクトル中に音声が存在する場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する。第二所望音声推定手段は、観測対数スペクトルと雑音平均対数スペクトルと雑音分散スペクトルを入力として、観測対数スペクトル中に音声が存在しない場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算する。利得決定手段は、観測対数スペクトルと音声存在確率ベクトルと第一強調対数スペクトルと第二強調対数スペクトルを入力として雑音抑圧利得を計算する。
【発明の効果】
【0015】
この発明の雑音抑圧装置の音声存在確率計算手段は、所望音声の対数スペクトル包絡と調波構造を考慮して音声存在確率を計算する。すなわち、音声存在確率を、所望音声の対数スペクトルの大局的な構造を考慮して計算するため、雑音平均対数スペクトル及び雑音分散対数スペクトルの推定値に含まれる局所的な誤差の影響を受け難くすることができる。
【図面の簡単な説明】
【0016】
【図1】音声の有声区間における所望音声と劣化音声のスペクトルを例示する図。
【図2】調波構造のプロトタイプを示す図。
【図3】音声の対数スペクトル包絡のプロトタイプを示す図。
【図4】この発明の雑音抑圧装置100の機能構成例を示す図。
【図5】雑音抑圧装置100の動作フローを示す図。
【図6】雑音統計量推定部11の機能構成例を示す図。
【図7】利得計算部12の機能構成例を示す図。
【図8】利得計算部12の動作フローを示す図。
【図9】音声存在確率計算手段120の機能構成例を示す図。
【図10】音声存在確率計算手段120の動作フローを示す図。
【図11】第一所望音声推定手段121の機能構成例を示す図。
【図12】評価実験結果を示す図。
【図13】従来の雑音抑圧装置900の機能構成を示す図。
【図14】利得計算部92の機能構成を示す図。
【発明を実施するための形態】
【0017】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【0018】
〔この発明の基本的な考え〕
この発明の目的は、音声の大局的な構造上の特徴を考慮して音声存在確率を計算することで、雑音スペクトルの局所的な推定誤差に頑健に音声存在確率を得る方法を提供することである。
【0019】
まず、音声存在確率の概念について、図1を参照しながら説明する。図1は、音声の有声区間における所望音声と劣化音声のスペクトルを例示している。矢印で示した範囲に含まれる周波数ビンでは、劣化音声と所望音声の差が極めて小さい。一方、それ以外の周波数ビンでは、その差は極めて大きい。これは音声のスパース性に起因する。スパース性とは、音声のエネルギーが一部の周波数ビンに集中し易いことを意味する。そのような周波数ビンでは劣化音声と所望音声の差は小さくなる。一方、それ以外の周波数ビンでは、劣化音声にはほとんど雑音しか含まれない。したがって、矢印で示した音声のエネルギーが集中している周波数ビンを同定できれば、そのような周波数ビンでの音声歪みを小さく保ったまま、それ以外の周波数ビンで雑音を大きく抑圧できる。音声存在確率は、各周波数ビンに対して定義され、当該周波数ビンに音声のエネルギーが集中している確率を表す。
【0020】
この発明では、二種類の音声の大局的な構造上の特徴を利用して、音声存在確率を計算する。一つは、音声のエネルギーが集中する周波数ビンは、基本周波数の整数倍近傍に現れ易いということである。これは音声の調波構造として知られる特徴である。したがって、図2に示すような基本周波数毎の調波構造のプロトタイプを予め用意しておき、何れのプロトタイプが観測スペクトルに適合するかを判断すれば、調波構造を考慮した音声存在確率が得られる。
【0021】
もう一つの特徴は、音声の対数スペクトル包絡に関する。音声の対数スペクトル包絡は音韻を表現するものである。よって、図3に示すような有限個のプロトタイプで近似的に表現できる。具体的には、以下で説明する実施例では、離散的なプロトタイプの集合の代わりに混合正規分布で表現された音声の対数スペクトル包絡のモデルを用いる。混合正規分布の各要素分布が、対数スペクトル包絡の一つのプロトタイプに相当する。上述した観測スペクトルと調波構造のプロトタイプの適合度合いを計算する際に、更にこの混合正規分布を同時に用いることで、音声の対数スペクトル包絡と調波構造の両方を考慮した音声存在確率が得られる。予め定義された調波構造と対数スペクトル包絡のモデルを用いているため、雑音スペクトルの局所的な推定誤差に対して頑健に音声存在確率を計算することができる。
【実施例1】
【0022】
図4に、この発明の雑音抑圧装置100の機能構成例を示す。その動作フローを図5に示す。
【0023】
雑音抑圧装置100は、スペクトル計算部90と、対数計算部10と、雑音統計量推定部11と、利得計算部12と、フィルタ計算部93と、フィルタ適用部94と、を具備する。スペクトル計算部90と、フィルタ計算部93と、フィルタ適用部94とは、従来技術で説明した雑音抑圧装置900と同じものである。雑音抑圧装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0024】
スペクトル計算部90は、短時間フレームの観測信号y={y(1),…,y(N)}、を入力としてそのパワースペクトルである観測スペクトルY={Y,…,Y}を計算する(ステップS90)。ここで、Nはフレーム幅、Lは周波数ビンの個数を表す。観測スペクトルYの計算は、観測信号yを高速フーリエ変換によって周波数ビン毎の成分に分解した後、各周波数成分の振幅の絶対値の自乗をとることで実施される。なお、振幅の絶対値の自乗を取る代わりに振幅の絶対値のζ乗(ζは任意の正の実数)をとっても良い。また、高速フーリエ変換の代わりに、任意のスペクトル分析法を用いても良い。
【0025】
対数計算部10は、観測スペクトルYを入力として、その対数値である観測対数スペクトルy={y,…,y}を計算する(ステップS10)。
【0026】
雑音統計量推定部11は、観測対数スペクトルyを入力として、観測信号yに含まれる雑音の対数スペクトルの平均の推定値である雑音平均対数スペクトルμ={μ,…,μ}と、その分散の推定値である雑音分散対数スペクトルσ={σ,…,σ}を計算する(ステップS11)。雑音平均対数スペクトルμと雑音分散対数スペクトルσの具体的な計算方法については後述する。
【0027】
利得計算部12は、観測対数スペクトルyと雑音平均対数スペクトルμと雑音分散対数スペクトルσを入力として雑音抑圧利得g={g,…,g}を計算する(ステップS12)。
【0028】
フィルタ計算部93は、逆離散コサイン変換によって雑音抑圧利得gを雑音抑圧フィルタg={g(−J),…,g(J)}に変換する(ステップS93)。ここでJは、2J+1が雑音抑圧フィルタの次数であるような整数である。なお、gに対して逆離散コサイン変換を適用する代わりに、gを折り返した{g,…,gL−1,g, ̄gL−1,…, ̄g}に対して逆離散フーリエ変換を適用しても良いし、Parks-McClellanアルゴリズムなどを用いても良い。ここで ̄xはxの複素共役を表し、 ̄は変数の上に記述されるのが正しい表記である。
【0029】
フィルタ適用部94は、観測信号yと雑音抑圧フィルタgを入力として、短時間フレームの強調信号u={u(1),…,u(N)}を式(1)で計算する(ステップS94)。
【0030】
【数1】

【0031】
ここで、n≦0及びn>Nに対するy(n)の値は0であると仮定する。なお、フィルタ計算部93とフィルタ適用部94を用いて強調信号uを求める代わりに、雑音抑圧利得gを観測スペクトルYに乗算して得られる強調スペクトルから強調信号uを求めても良い。
【0032】
この発明の要部である雑音統計量推定部11と利得計算部12について、より具体的な機能構成例を示して更に詳しく説明する。
【0033】
〔雑音統計量推定部〕
図6に、雑音統計量推定部11の機能構成例を示す。雑音統計量推定部11は、音声区間検出手段110と、雑音対数スペクトル記録手段111と、統計量計算手段112と、を備える。この雑音統計量推定部11の構成では、観測信号のうち音声を含まない無音区間を検出し、当該区間から雑音の統計量を計算する。
【0034】
音声区間検出手段110は、観測対数スペクトルyを入力として、現在の短時間フレームが音声区間に属するか否かを示す音声区間フラグzを計算する。音声区間フラグzは二値の変数であり、z=1ならば現在の短時間フレームが音声区間に属し、z=0ならば現在の短時間フレームが音声区間に属さないことを表す。音声区間検出手段110には、任意の公知の音声検出区間検出手段を用いることが可能である。よって、その詳しい動作説明は省略する。
【0035】
雑音対数スペクトル記録手段111は、B個の雑音の対数スペクトルを、その記録時刻と共に記録している。雑音対数スペクトル記録手段111は、観測対数スペクトルyと音声区間フラグzを入力として、z=1ならば何もせず、z=0ならばB個の雑音の対数スペクトルの内、最も古いものを観測対数スペクトルyで置き換える。
【0036】
統計量計算手段112は、雑音対数スペクトル記録手段111からB個の雑音の対数スペクトルを読み出し、その平均である雑音平均対数スペクトルμと分散である雑音分散対数スペクトルσを計算する。なお、雑音統計量推定部11の構成は、少なくとも観測対数スペクトルを入力として、雑音平均対数スペクトルμと雑音分散対数スペクトルσを計算するという制約の範囲内で任意に変更が可能である。
【0037】
例えば、雑音統計量推定部11は観測対数スペクトルyに加えて観測信号yを入力とし、音声区間検出手段110は観測信号yを入力として用いても良い。或いは、音声区間検出手段110を用いる代わりに、参考文献(”Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging,” IEEE Trans. SAP, vol. 11, no.5, pp.466-475, 2003.)に開示されている雑音推定装置を用いて雑音の対数スペクトルを推定し、その平均と分散を計算する構成にしても良い。
【0038】
〔利得計算部〕
図7に、利得計算部12の機能構成例を示す。その動作フローを図8に示す。利得計算部12は、音声存在確率計算手段120と、第一所望音声推定手段121と、第二所望音声推定手段122と、利得決定手段123と、を備える。
【0039】
音声存在確率計算手段120は、観測対数スペクトルyと雑音平均対数スペクトルμと雑音分散対数スペクトルσを入力として、音声存在確率ベクトルr={r,…,r}とKH個の状態事後確確率{w1,1,…,w1,H,…,wK,H}を計算する(ステップS120)。
【0040】
第一所望音声推定手段121は、観測対数スペクトルyと、KH個の状態事後確率の集合W={w1,1,…,w1,H,…,wK,H}と、雑音平均対数スペクトルμと雑音分散対数スペクトルσと、を入力として第一強調対数スペクトル^x(1)={^x(1),…,^x(1)}を計算する(ステップS121)。Wを状態事後確率集合と称する。第一強調対数スペクトル^x(1)の計算方法は後述する。
【0041】
第二所望音声推定手段122は、観測対数スペクトルyを入力として式(2)で第二強調対数スペクトル^x(2)={^x(2),…,^x(2)}を計算する(ステップS122)。
【0042】
【数2】

【0043】
ここで、gFLRは、観測対数スペクトルy中に音声が存在しないと仮定した場合の雑音抑圧利得を表す所与の定数である。なお、式(2)を用いて第二強調対数スペクトル^x(2)を計算する代わりに、観測対数スペクトルy中に音声が存在しない場合の所望音声の対数スペクトルを推定するための任意の方法を用いても良い。例えば、参考文献(M. Fujimoto, et al., “Study of integration of statistical model-based voice activity detection and noise suppression,” in Proc. ICSLP, 2008, pp. 2008-2011.)に開示されている方法を用いることもできる。
【0044】
利得決定手段123は、観測対数スペクトルyと、第一強調対数スペクトル^x(1)と、第二強調対数スペクトル^x(2)と、音声存在確率ベクトルrと、を入力として次式により雑音抑圧利得g={g,…,g}を計算する(ステップS123)。
【0045】
【数3】

【0046】
図9に、音声存在確率計算手段120のより具体的な機能構成例を示してその動作を更に詳しく説明する。音声存在確率計算手段120の動作フローを図10に示す。音声存在確率計算手段120は、無劣化音声対数スペクトル包絡モデル記録手段1200と、モデル合成手段1201と、劣化音声対数スペクトル包絡モデル記録手段1202と、調波構造モデル記録手段1203と、条件付き音声存在確率計算手段1204と、状態事後確率計算手段1205と、音声存在確率決定手段1206と、を備える。
【0047】
無劣化音声対数スペクトル包絡モデル記録手段1200は、無劣化音声の対数スペクトル包絡のモデルを記録している。具体的には、無劣化音声対数スペクトル包絡のモデルは混合正規分布の形式で表現されると仮定し、各要素分布の重みと平均スペクトル、分散スペクトルが記録される。各要素分布の平均スペクトルを無劣化音声平均対数スペクトル、その分散スペクトルを無劣化音声分散対数スペクトルと称する。この実施例では、要素分布の個数をKとし、k番目の無劣化音声平均対数スペクトル包絡をμ={μk,1,…,μk,L}、k番目の無劣化音声分散対数スペクトル包絡をσ={σk,1,…,σk,L}、k番目の重みをπと表記する。各要素分布の無劣化音声平均対数スペクトル包絡μと無劣化音声分散対数スペクトル包絡σと重みπとは、無劣化音声のデータベースからEMアルゴリズムによって予め計算されたものが用いられる。
【0048】
モデル合成手段1201は、雑音平均対数スペクトルμと雑音分散対数スペクトルσとが入力された後に、無劣化音声対数スペクトル包絡モデル記録手段1200から、各要素分布kの無劣化音声平均対数スペクトル包絡μと無劣化音声分散対数スペクトル包絡σと重みπを読み出し、劣化音声平均対数スペクトル包絡μ={μk,1,…,μk,L}と劣化音声分散対数スペクトル包絡σ={σk,1,…,σk,L}を計算する。計算された劣化音声平均対数スペクトル包絡μと劣化音声分散対数スペクトル包絡σは重みπと共に劣化音声対数スペクトル包絡モデル記録手段1202に記録される。各要素分布の重みと劣化音声平均対数スペクトル包絡、及び劣化音声分散対数スペクトル包絡は、劣化音声の対数スペクトル包絡のモデルを規定する。
【0049】
劣化音声平均対数スペクトル包絡μは式(5)、無劣化音声分散対数スペクトル包絡σは式(6)で定義される。
【0050】
【数4】

【0051】
なお、式(5)と式(6)は参考文献(A. Acero, L. Deng, T.Kristjansson, and J. Zhang, “HMM adaptation using vector Taylor series for noisy speech recognition,” in Proc. Int’l Conf. Spoken Lang. Process., vol.3, 2000, pp. 869-872.)に開示されたVTS(Vector Taylor Series)に基づいているが、VTSの代わりにPMC(Parallel Model Combination)等の類似のモデル合成方法を用いても良い。
【0052】
なお、劣化音声対数スペクトル包絡モデル記録手段1202に記録される各要素分布の劣化音声平均対数スペクトル包絡μと劣化音声分散対数スペクトル包絡σと重みπの計算方法として、これらを無劣化音声対数スペクトル包絡モデル記録手段1200とモデル合成手段1201を用いて計算する例について説明したが、この例に限定されるものではない。例えば、各要素分布の劣化音声平均対数スペクトル包絡μと劣化音声分散対数スペクトル包絡σと重みπを、劣化音声のデータベースからEMアルゴリズムによって予め計算しても良い。
【0053】
調波構造モデル記録手段1203は、音声存在確率ベクトルを計算するための事前確率のベクトルである音声存在事前確率ベクトルのモデルを記録している。具体的には、音声存在事前確率ベクトルは符号帳の形式で表現されると仮定し、各符号に対応する音声存在事前確率ベクトルとその重みを記録している。この実施例では、符号帳の大きさをHとし、h番目の符号に対応する音声存在事前確率ベクトルをq={qh,1,…,qh,L}、重みをθと表記する。符号帳は、例えばh番目の符号に対応する基本周波数oを式(7)で計算する。
【0054】
【数5】

【0055】
ここで、HとHはそれぞれ基本周波数の存在する範囲の下限と上限を表す所与の定数である。この基本周波数を用いて音声存在事前確率ベクトルqを式(8)で計算する。
【0056】
【数6】

【0057】
ここで、fは周波数ビンlの中心周波数を表し、f=lf/2Lによって計算される。fはサンプリング周波数である。βは音声存在事前確率ベクトルqを0〜1の範囲の値に制限するための定数である。また、γ,δは所与の定数、fは一般化正規分布の確率密度関数である。なお、調波構造モデル記録手段1203に記録されるH個の音声存在事前確率ベクトルの作成方法は、上記した方法に限定されるものではなく、音声存在事前確率ベクトルqの値を0〜1の範囲にすることができるものであれば何れの方法を用いてもよい。
【0058】
条件付き音声存在確率計算手段1204は、1種1類〜K種H類まで合計KH個の部分条件付き音声存在確率計算ユニット120411〜1204KHで構成される。部分条件付き音声存在確率計算ユニット1204khは、観測対数スペクトルyを入力として、劣化音声対数スペクトル包絡モデル記録手段1202からk番目の要素分布の劣化音声平均対数スペクトル包絡μと劣化音声分散対数スペクトル包絡σを、調波構造モデル記録手段1203からh番目の符号に対応する音声存在事前確率ベクトルqを読み出す。そして、観測対数スペクトルyの包絡のモデルとしてk番目の要素分布、観測対数スペクトルyの調波構造のモデルとしてh番目の符号を選択した場合の音声存在確率ベクトルrk,h={rk,h,1,…,rk,h,L}を計算して音声存在確率決定手段1206に出力する(ステップS1204)。rk,hをk種h類条件付き音声存在確率ベクトルと称する。また、KH個の条件付き音声存在確率ベクトルをまとめてR={r1,1,…,rK,H}と書き、これを条件付き音声存在確率ベクトル集合と称する。
【0059】
k種h類条件付き音声存在確率ベクトルと称するrk,hは式(9)で計算される。
【0060】
【数7】

【0061】
ここで、p(x)及びpY|K(x|k)は、それぞれ雑音対数スペクトルの正規分布、劣化音声対数スペクトル包絡のモデルのk番目の要素分布に対応する正規分布であり、各々次式で定義される。
【0062】
【数8】

【0063】
ここで、fは正規分布の確率密度関数である。
【0064】
状態事後確率計算手段1205は、1種1類〜K種H類まで合計KH個の部分的状態事後確率計算ユニット120511〜1205KHで構成される。部分的状態事後確率計算ユニット1205khは、観測対数スペクトルyを入力として、劣化音声対数スペクトル包絡記録手段1202からk番目の要素分布の劣化音声平均対数スペクトル包絡μと劣化音声分散対数スペクトル包絡σと重みπを、調波構造モデル記録手段1203からh番目の符号に対応する音声存在事前確率ベクトルqと重みθを読み出し、観測対数スペクトルyの包絡のモデルがk番目の要素分布であり、かつ観測対数スペクトル包絡の調波構造のモデルがh番目の符号である事後確率wk,hを計算して出力する(ステップS1205)。wk,hをk種h類状態事後確率と称する。k種h類状態事後確率wk,hは次式で計算される。
【0065】
【数9】

【0066】
音声存在確率決定手段1206は、1種1類〜K種H類条件付き音声存在確率ベクトル{r1,1,…,r1,H,…,rK,H}と、1種1類〜K種H類状態事後確率{w1,1,…,w1,H,…,wK,H}を入力として音声存在確率ベクトルr={r,…,r}を式(14)で計算して、利得決定手段123に出力する(ステップS1206)。
【0067】
【数10】

【0068】
図11に、第一所望音声推定手段121のより具体的な機能構成例を示してその動作を説明する。第一所望音声推定手段121は、条件付き所望音声推定手段1210と、所望音声推定値決定手段1211と、を備える。条件付き所望音声推定手段1210は、1種〜K種まで合計K個の部分的条件付き所望音声推定ユニット1210〜1210で構成される。
【0069】
部分的条件付き所望音声推定ユニット1210は、観測対数スペクトルyを入力として、音声存在確率計算手段120の無劣化音声対数スペクトル包絡モデル記録手段1200からK番目の要素分布の無劣化音声平均対数スペクトル包絡μと無劣化音声分散対数スペクトル包絡σを読み出して、観測対数スペクトルの包絡のモデルとしてk番目の要素分布を選択した場合の所望音声の対数スペクトルの推定値であるk種強調対数スペクトル^x={^xk,1,…,^xk,L}を計算し、これを所望音声推定値決定手段1211に出力する。k種強調対数スペクトルは式(15)にしたがって計算される。
【0070】
【数11】

【0071】
所望音声推定値決定手段1211は、第一強調対数スペクトル{^x(1),…,^x(1)}を次式にしたがって計算し、これを利得決定部123に出力する。
【0072】
【数12】

【0073】
なお、第一所望音声推定手段121において無劣化音声対数スペクトル包絡及び劣化音声対数スペクトル包絡のモデルを用いる例について説明したが、第一所望音声推定手段121の構成方法はこの例に限定されない。例えば、無劣化音声対数スペクトル包絡及び劣化音声対数スペクトル包絡のモデルを用いずに、非特許文献1に開示されている利得計算部の第一所望音声推定手段を用いてもよい。
【0074】
〔評価実験〕
この発明の雑音抑圧装置の効果を確認する目的で、雑音抑圧装置100と非特許文献1に開示された雑音抑圧装置により得られた信号対雑音比を比較する評価実験を行った。その結果を図12に示す。図12の横軸は時間(秒)、縦軸はSN比(dB)である。
【0075】
実験に用いた観測信号には、まず3つの連続した数字を読み上げる一人の女性の約2秒間の所望音声信号を用意し、その信号にバブル雑音をSN比が5dBとなるように重畳することで作成した。バブル雑音は非定常雑音の代表例である。
【0076】
図12中の一点鎖線は雑音抑圧前のSN比の時系列を示す。太い実線は、この発明の雑音抑圧装置100で雑音抑圧した後のSN比の時系列である。細い実線は、非特許文献1に開示された雑音抑圧装置で雑音抑圧した後のSN比の時系列である。
【0077】
この発明の雑音抑圧装置100の方が、従来の装置よりも約5dB、SN比を改善できていることが分かる。この結果は、この発明の雑音抑圧装置100が、従来の雑音抑圧装置と比較して、非定常雑音に対して頑健であることを示唆する。
【0078】
以上述べたように、この発明の雑音抑圧装置100は、所望音声の対数スペクトル包絡と調波構造を考慮して音声存在確率を計算する。その結果、雑音の非定常性の度合いが大きい場合に生じる雑音スペクトルの局所的な推定誤差に対して頑健に、音声存在確率を求めることができる。よって、非定常雑音に頑健な雑音除去装置を実現することができる。
【0079】
なお、この発明は、上記した実施例に限定されるものではない。この発明の所望音声の対数スペクトル包絡と調波構造を考慮して音声存在確率を求める技術思想の範囲内において、雑音抑圧装置は様々な変更が可能である。
【0080】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0081】
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムとして記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0082】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な任意の記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリがある。より具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0083】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0084】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアとして実現することとしてもよい。

【特許請求の範囲】
【請求項1】
観測信号を入力としてそのパワースペクトルである観測スペクトルを計算するスペクトル計算部と、
上記観測スペクトルを入力としてその対数値である観測対数スペクトルを計算する対数計算部と、
上記観測対数スペクトルを入力として雑音平均対数スペクトルと雑音分散対数スペクトルを計算する雑音統計量推定部と、
上記雑音平均対数スペクトルと上記雑音分散対数スペクトルと上記観測対数スペクトルを入力として雑音抑圧利得を計算する利得計算部と、
上記雑音抑圧利得を入力として雑音抑圧フィルタを計算するフィルタ計算部と、
上記観測信号と上記雑音抑圧フィルタを入力として強調信号を計算するフィルタ適用部とを具備し、
上記利得計算部は、上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する音声存在確率計算手段と、
上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散スペクトルを入力として、上記観測スペクトル中に音声が存在する場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する第一所望音声推定手段と、
上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散スペクトルを入力として、上記観測スペクトル中に音声が存在しない場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算する第二所望音声推定手段と、
上記観測対数スペクトルと上記音声存在確率ベクトルと上記第一強調対数スペクトルと上記第二強調対数スペクトルを入力として上記雑音抑圧利得を計算する利得決定手段と、
を備えることを特徴とする雑音抑圧装置。
【請求項2】
請求項1に記載した雑音抑圧装置において、
上記音声存在確率計算手段は、
劣化音声の対数スペクトル包絡のモデルである劣化音声混合正規分布を規定する各要素分布の劣化音声平均対数スペクトル包絡と、劣化音声分散対数スペクトル包絡と、重みとを記録する劣化音声対数スペクトル包絡モデル記録手段と、
調波構造のモデルである音声存在事前確率ベクトルの符号帳を記録する調波構造モデル記録手段と、
上記観測対数スペクトルを入力として上記劣化音声混合正規分布の要素分布と上記符号帳の符号の全組み合わせの夫々について、当該要素分布と当該符号が選択された場合の条件付き音声存在確率ベクトルを計算する条件付き音声存在確率計算手段と、
上記観測対数スペクトルを入力として上記全組み合わせの夫々について、当該要素分布と当該符号が選択される状態事後確率を計算する状態事後確率計算手段と、
上記全組み合わせに対する上記条件付き音声存在確率ベクトルと上記状態事後確率とを入力として、上記音声存在確率ベクトルを計算する音声存在確率決定手段と、
を備えることを特徴とする雑音抑圧装置。
【請求項3】
観測信号を入力としてそのパワースペクトルである観測スペクトルを計算するスペクトル計算過程と、
上記観測スペクトルを入力としてその対数値である観測対数スペクトルを計算する対数計算過程と、
上記観測対数スペクトルを入力として雑音平均対数スペクトルと雑音分散対数スペクトルを計算する雑音統計量推定過程と、
上記雑音平均対数スペクトルと上記雑音分散対数スペクトルと上記観測対数スペクトルを入力として雑音抑圧利得を計算する利得計算過程と、
上記雑音抑圧利得を入力として雑音抑圧フィルタを計算するフィルタ計算過程と、
上記観測信号と上記雑音抑圧フィルタを入力として強調信号を計算するフィルタ適用過程とを備え、
上記利得計算過程は、上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する音声存在確率計算ステップと、
上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散スペクトルを入力として、上記観測スペクトル中に音声が存在する場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する第一所望音声推定ステップと、
上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散スペクトルを入力として、上記観測スペクトル中に音声が存在しない場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算する第二所望音声推定ステップと、
上記観測対数スペクトルと上記音声存在確率ベクトルと上記第一強調対数スペクトルと上記第二強調対数スペクトルを入力として上記雑音抑圧利得を計算する利得決定ステップと、
を含むことを特徴とする雑音抑圧方法。
【請求項4】
請求項3に記載した雑音抑圧方法において、
上記音声存在確率計算ステップは、
上記観測対数スペクトルを入力として、劣化音声対数スペクトル包絡モデル記録手段に記録された劣化音声の対数スペクトル包絡のモデルである劣化音声混合正規分布の要素分布と調波構造モデル記録手段に記録された調波構造のモデルである音声存在事前確率ベクトルの符号帳の符号の全組み合わせの夫々について、当該要素分布と当該符号が選択された場合の条件付き音声存在確率ベクトルを計算する条件付き音声存在確率計算ステップと、
上記観測対数スペクトルを入力として、上記全組み合わせの夫々について、当該要素分布と当該符号が選択される状態事後確率を計算する状態事後確率計算ステップと、
上記全組み合わせに対する上記条件付き音声存在確率ベクトルと上記状態事後確率とを入力として上記音声存在確率ベクトルを計算する音声存在確率決定ステップと、
を含むことを特徴とする雑音抑圧方法。
【請求項5】
コンピュータを、請求項1又は2に記載した雑音抑圧装置として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2012−150227(P2012−150227A)
【公開日】平成24年8月9日(2012.8.9)
【国際特許分類】
【出願番号】特願2011−8129(P2011−8129)
【出願日】平成23年1月18日(2011.1.18)
【出願人】(000004226)日本電信電話株式会社 (13,992)