雑音抑圧装置とその方法とプログラム

【課題】非定常雑音に頑健な雑音抑圧装置を提供する。
【解決手段】音声存在確率計算手段は観測対数スペクトルと雑音平均対数スペクトルと雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する。第一所望音声推定手段は観測対数スペクトルと雑音平均対数スペクトルと雑音分散スペクトルを入力として、観測スペクトル中に音声が存在すると仮定した場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する。そして、観測対数スペクトルと雑音平均対数スペクトルと雑音分散スペクトルを入力として、観測スペクトル中に音声が存在しないと仮定した場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算し、音声存在確率ベクトルと第一強調対数スペクトルと第二強調対数スペクトルを入力として雑音抑圧利得を計算する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、雑音スペクトルの局所的な推定誤差に影響され難い雑音抑圧装置とその方法と、プログラムに関する。
【背景技術】
【０００２】
雑音抑圧装置は、所望の音声信号に重畳されている雑音を取り除く装置である。図１３に、典型的な雑音抑圧装置９００の機能構成を示し、その動作を簡単に説明する。雑音抑圧装置９００は、スペクトル計算部９０、雑音推定部９１、利得計算部９２、フィルタ計算部９３、フィルタ適用部９４、を具備する。
【０００３】
スペクトル計算部９０は、所定時間幅の短時間フレーム毎の観測信号から、観測信号のスペクトルである観測スペクトルを計算する。雑音推定部９１は、観測スペクトルに含まれる雑音のスペクトルである雑音スペクトルを計算する。利得計算部９２は、雑音抑圧利得を計算する。雑音抑圧利得は、周波数ビン毎に定義される０以上１以下の実数のベクトルであり、これを観測スペクトルに乗算することで雑音が抑圧されたスペクトルである強調スペクトルが得られる。
【０００４】
フィルタ計算部９３は、周波数領域で定義された雑音抑圧利得を、時間領域の雑音抑圧フィルタに変換する。フィルタ適用部９４は、観測信号に雑音抑圧フィルタを適用して雑音を抑圧した強調信号を求める。また、雑音抑圧利得を観測スペクトルに乗算して得られる強調スペクトルから強調信号を求める構成も広く用いられている。
【０００５】
利得計算部９２については、ＯＭＬＳＡ（Optimally Modified Log-Spectral Amplitude Estimator）と称される雑音抑圧利得を計算する方法が知られている（非特許文献１）。その方法を図１４を参照して説明する。ＯＭＬＳＡは、音声存在確率計算手段９２０、第一所望音声推定手段９２１、第二所望音声推定手段９２２、利得決定手段９２３、から成る。
【０００６】
音声存在確率計算手段９２０は、音声存在確率ベクトルを計算する。音声存在確率ベクトルは、各周波数ビンについて定義された音声存在確率の全周波数ビンに亘るベクトルである。ある周波数ビンにおける音声存在確率は、当該周波数ビンにおいて観測スペクトル中に音声が存在する確率を表す。第一所望音声推定手段９２１は、全ての周波数ビンにおいて観測スペクトル中に音声が存在すると仮定した場合の所望音声のスペクトルの推定値を第一強調スペクトルとして計算する。
【０００７】
第二所望音声推定手段９２２は、全ての周波数ビンにおいて観測スペクトル中に音声が存在しないと仮定した場合の所望音声のスペクトルの推定値を第二強調スペクトルとして計算する。利得決定手段９２３は、音声存在ベクトルと第一強調スペクトルと第二強調スペクトルとから、雑音抑圧利得を計算する。
【０００８】
ＯＭＬＳＡを用いた雑音抑圧装置９００は、小さい音声歪と高い雑音抑圧量を両立できる。音声はスパース性をもつため、音声のエネルギーは一部の周波数ビンに集中する傾向があることが知られている。そうした周波数ビンでは音声が存在すると見做せる。一方、音声のエネルギーがほとんど存在しない周波数ビンには音声が存在しないと見做せる。ＯＭＬＳＡでは、音声が存在するか否かを周波数ビン毎に推定しながら雑音抑圧利得を計算するので、所望音声のエネルギーが集中する周波数ビンにおける音声の歪みを小さく保ったまま、所望音声のエネルギーがほとんど存在しない周波数ビンにおいて雑音を大幅に抑圧することが可能である。
【先行技術文献】
【非特許文献】
【０００９】
【非特許文献１】I. Cohen, “Optimal speech enhancement under signal presence uncertainty using log-spectral amplitude estimator,” IEEE SP Letters, vol.9, no.4, pp.113-116, 2002.
【発明の概要】
【発明が解決しようとする課題】
【００１０】
しかしながら、ＯＭＬＳＡの音声存在確率計算は、雑音が非定常である場合、音声存在確率ベクトルを正しく求められないという課題がある。ＯＭＬＳＡの音声存在確率計算では、各周波数ビンに対して当該周波数ビンに時間的ないし周波数的に近接した周波数ビンにおけるＳＮ比を求め、その大小に基づいて音声存在確率を計算する。
【００１１】
雑音が非定常である場合、雑音スペクトルの推定値には局所的な誤差が含まれがちである。このためＳＮ比を正確に求めることが出来ないので、適切な音声存在確率が得られない。すなわち、ＯＭＬＳＡは雑音スペクトルの推定値の局所的な誤差に頑健ではない。
【００１２】
この発明は、このような課題に鑑みてなされたものであり、音声の大局的な構造上の特徴に着目することで、雑音スペクトルの推定値に誤差が含まれる場合でも音声存在確率を高精度に求めることができる雑音抑圧装置と、その方法とプログラムを提供することを目的とする。この発明で着目する音声の大局的な構造上の特徴とは、対数スペクトル包絡が混合正規分布で精度良くモデル化できること、及び基本周波数に依存した調波構造を持つことである。対数スペクトル包絡と基本周波数は物理的には、それぞれ音韻と声の高さに対応する。
【課題を解決するための手段】
【００１３】
この発明の雑音抑圧装置は、スペクトル計算部と、対数計算部と、雑音統計量推定部と、利得計算部と、フィルタ計算部と、フィルタ適用部とを具備し、その利得計算部が、音声存在確率計算手段と、第一所望音声推定手段と、第二所望音声推定手段と、利得決定手段と、を備えることを特徴とする。
【００１４】
その音声存在確率計算手段は、観測対数スペクトルと雑音平均対数スペクトルと雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する。第一所望音声推定手段は、観測対数スペクトルと雑音平均対数スペクトルと雑音分散スペクトルを入力として、観測対数スペクトル中に音声が存在する場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する。第二所望音声推定手段は、観測対数スペクトルと雑音平均対数スペクトルと雑音分散スペクトルを入力として、観測対数スペクトル中に音声が存在しない場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算する。利得決定手段は、観測対数スペクトルと音声存在確率ベクトルと第一強調対数スペクトルと第二強調対数スペクトルを入力として雑音抑圧利得を計算する。
【発明の効果】
【００１５】
この発明の雑音抑圧装置の音声存在確率計算手段は、所望音声の対数スペクトル包絡と調波構造を考慮して音声存在確率を計算する。すなわち、音声存在確率を、所望音声の対数スペクトルの大局的な構造を考慮して計算するため、雑音平均対数スペクトル及び雑音分散対数スペクトルの推定値に含まれる局所的な誤差の影響を受け難くすることができる。
【図面の簡単な説明】
【００１６】
【図１】音声の有声区間における所望音声と劣化音声のスペクトルを例示する図。
【図２】調波構造のプロトタイプを示す図。
【図３】音声の対数スペクトル包絡のプロトタイプを示す図。
【図４】この発明の雑音抑圧装置１００の機能構成例を示す図。
【図５】雑音抑圧装置１００の動作フローを示す図。
【図６】雑音統計量推定部１１の機能構成例を示す図。
【図７】利得計算部１２の機能構成例を示す図。
【図８】利得計算部１２の動作フローを示す図。
【図９】音声存在確率計算手段１２０の機能構成例を示す図。
【図１０】音声存在確率計算手段１２０の動作フローを示す図。
【図１１】第一所望音声推定手段１２１の機能構成例を示す図。
【図１２】評価実験結果を示す図。
【図１３】従来の雑音抑圧装置９００の機能構成を示す図。
【図１４】利得計算部９２の機能構成を示す図。
【発明を実施するための形態】
【００１７】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【００１８】
〔この発明の基本的な考え〕
この発明の目的は、音声の大局的な構造上の特徴を考慮して音声存在確率を計算することで、雑音スペクトルの局所的な推定誤差に頑健に音声存在確率を得る方法を提供することである。
【００１９】
まず、音声存在確率の概念について、図１を参照しながら説明する。図１は、音声の有声区間における所望音声と劣化音声のスペクトルを例示している。矢印で示した範囲に含まれる周波数ビンでは、劣化音声と所望音声の差が極めて小さい。一方、それ以外の周波数ビンでは、その差は極めて大きい。これは音声のスパース性に起因する。スパース性とは、音声のエネルギーが一部の周波数ビンに集中し易いことを意味する。そのような周波数ビンでは劣化音声と所望音声の差は小さくなる。一方、それ以外の周波数ビンでは、劣化音声にはほとんど雑音しか含まれない。したがって、矢印で示した音声のエネルギーが集中している周波数ビンを同定できれば、そのような周波数ビンでの音声歪みを小さく保ったまま、それ以外の周波数ビンで雑音を大きく抑圧できる。音声存在確率は、各周波数ビンに対して定義され、当該周波数ビンに音声のエネルギーが集中している確率を表す。
【００２０】
この発明では、二種類の音声の大局的な構造上の特徴を利用して、音声存在確率を計算する。一つは、音声のエネルギーが集中する周波数ビンは、基本周波数の整数倍近傍に現れ易いということである。これは音声の調波構造として知られる特徴である。したがって、図２に示すような基本周波数毎の調波構造のプロトタイプを予め用意しておき、何れのプロトタイプが観測スペクトルに適合するかを判断すれば、調波構造を考慮した音声存在確率が得られる。
【００２１】
もう一つの特徴は、音声の対数スペクトル包絡に関する。音声の対数スペクトル包絡は音韻を表現するものである。よって、図３に示すような有限個のプロトタイプで近似的に表現できる。具体的には、以下で説明する実施例では、離散的なプロトタイプの集合の代わりに混合正規分布で表現された音声の対数スペクトル包絡のモデルを用いる。混合正規分布の各要素分布が、対数スペクトル包絡の一つのプロトタイプに相当する。上述した観測スペクトルと調波構造のプロトタイプの適合度合いを計算する際に、更にこの混合正規分布を同時に用いることで、音声の対数スペクトル包絡と調波構造の両方を考慮した音声存在確率が得られる。予め定義された調波構造と対数スペクトル包絡のモデルを用いているため、雑音スペクトルの局所的な推定誤差に対して頑健に音声存在確率を計算することができる。
【実施例１】
【００２２】
図４に、この発明の雑音抑圧装置１００の機能構成例を示す。その動作フローを図５に示す。
【００２３】
雑音抑圧装置１００は、スペクトル計算部９０と、対数計算部１０と、雑音統計量推定部１１と、利得計算部１２と、フィルタ計算部９３と、フィルタ適用部９４と、を具備する。スペクトル計算部９０と、フィルタ計算部９３と、フィルタ適用部９４とは、従来技術で説明した雑音抑圧装置９００と同じものである。雑音抑圧装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。
【００２４】
スペクトル計算部９０は、短時間フレームの観測信号ｙ_Ｔ＝{ｙ（１），…，ｙ（Ｎ）}、を入力としてそのパワースペクトルである観測スペクトルＹ＝{Ｙ_１，…，Ｙ_Ｌ}を計算する（ステップＳ９０）。ここで、Ｎはフレーム幅、Ｌは周波数ビンの個数を表す。観測スペクトルＹの計算は、観測信号ｙ_Ｔを高速フーリエ変換によって周波数ビン毎の成分に分解した後、各周波数成分の振幅の絶対値の自乗をとることで実施される。なお、振幅の絶対値の自乗を取る代わりに振幅の絶対値のζ乗（ζは任意の正の実数）をとっても良い。また、高速フーリエ変換の代わりに、任意のスペクトル分析法を用いても良い。
【００２５】
対数計算部１０は、観測スペクトルＹを入力として、その対数値である観測対数スペクトルｙ＝{ｙ_１，…，ｙ_Ｌ}を計算する（ステップＳ１０）。
【００２６】
雑音統計量推定部１１は、観測対数スペクトルｙを入力として、観測信号ｙ_Ｔに含まれる雑音の対数スペクトルの平均の推定値である雑音平均対数スペクトルμ^Ｎ＝{μ_１^Ｎ，…，μ_Ｌ^Ｎ}と、その分散の推定値である雑音分散対数スペクトルσ^Ｎ＝{σ_１^Ｎ，…，σ_Ｌ^Ｎ}を計算する（ステップＳ１１）。雑音平均対数スペクトルμ^Ｎと雑音分散対数スペクトルσ^Ｎの具体的な計算方法については後述する。
【００２７】
利得計算部１２は、観測対数スペクトルｙと雑音平均対数スペクトルμ^Ｎと雑音分散対数スペクトルσ^Ｎを入力として雑音抑圧利得ｇ＝{ｇ_１，…，ｇ_Ｌ}を計算する（ステップＳ１２）。
【００２８】
フィルタ計算部９３は、逆離散コサイン変換によって雑音抑圧利得ｇを雑音抑圧フィルタｇ_Ｔ＝{ｇ（−Ｊ），…，ｇ（Ｊ）}に変換する（ステップＳ９３）。ここでＪは、２Ｊ＋１が雑音抑圧フィルタの次数であるような整数である。なお、ｇに対して逆離散コサイン変換を適用する代わりに、ｇを折り返した{ｇ_１，…，ｇ_Ｌ−１，ｇ_Ｌ，￣ｇ_Ｌ−１，…，￣ｇ_２}に対して逆離散フーリエ変換を適用しても良いし、Parks-McClellanアルゴリズムなどを用いても良い。ここで￣ｘはｘの複素共役を表し、￣は変数の上に記述されるのが正しい表記である。
【００２９】
フィルタ適用部９４は、観測信号ｙ_Ｔと雑音抑圧フィルタｇ_Ｔを入力として、短時間フレームの強調信号ｕ_Ｔ＝{ｕ（１），…，ｕ（Ｎ）}を式（１）で計算する（ステップＳ９４）。
【００３０】
【数１】

【００３１】
ここで、ｎ≦０及びｎ＞Ｎに対するｙ（ｎ）の値は０であると仮定する。なお、フィルタ計算部９３とフィルタ適用部９４を用いて強調信号ｕ_Ｔを求める代わりに、雑音抑圧利得ｇを観測スペクトルＹに乗算して得られる強調スペクトルから強調信号ｕ_Ｔを求めても良い。
【００３２】
この発明の要部である雑音統計量推定部１１と利得計算部１２について、より具体的な機能構成例を示して更に詳しく説明する。
【００３３】
〔雑音統計量推定部〕
図６に、雑音統計量推定部１１の機能構成例を示す。雑音統計量推定部１１は、音声区間検出手段１１０と、雑音対数スペクトル記録手段１１１と、統計量計算手段１１２と、を備える。この雑音統計量推定部１１の構成では、観測信号のうち音声を含まない無音区間を検出し、当該区間から雑音の統計量を計算する。
【００３４】
音声区間検出手段１１０は、観測対数スペクトルｙを入力として、現在の短時間フレームが音声区間に属するか否かを示す音声区間フラグｚを計算する。音声区間フラグｚは二値の変数であり、ｚ＝１ならば現在の短時間フレームが音声区間に属し、ｚ＝０ならば現在の短時間フレームが音声区間に属さないことを表す。音声区間検出手段１１０には、任意の公知の音声検出区間検出手段を用いることが可能である。よって、その詳しい動作説明は省略する。
【００３５】
雑音対数スペクトル記録手段１１１は、Ｂ個の雑音の対数スペクトルを、その記録時刻と共に記録している。雑音対数スペクトル記録手段１１１は、観測対数スペクトルｙと音声区間フラグｚを入力として、ｚ＝１ならば何もせず、ｚ＝０ならばＢ個の雑音の対数スペクトルの内、最も古いものを観測対数スペクトルｙで置き換える。
【００３６】
統計量計算手段１１２は、雑音対数スペクトル記録手段１１１からＢ個の雑音の対数スペクトルを読み出し、その平均である雑音平均対数スペクトルμ^Ｎと分散である雑音分散対数スペクトルσ^Ｎを計算する。なお、雑音統計量推定部１１の構成は、少なくとも観測対数スペクトルを入力として、雑音平均対数スペクトルμ^Ｎと雑音分散対数スペクトルσ^Ｎを計算するという制約の範囲内で任意に変更が可能である。
【００３７】
例えば、雑音統計量推定部１１は観測対数スペクトルｙに加えて観測信号ｙ_Ｔを入力とし、音声区間検出手段１１０は観測信号ｙ_Ｔを入力として用いても良い。或いは、音声区間検出手段１１０を用いる代わりに、参考文献（”Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging,” IEEE Trans. SAP, vol. 11, no.5, pp.466-475, 2003.）に開示されている雑音推定装置を用いて雑音の対数スペクトルを推定し、その平均と分散を計算する構成にしても良い。
【００３８】
〔利得計算部〕
図７に、利得計算部１２の機能構成例を示す。その動作フローを図８に示す。利得計算部１２は、音声存在確率計算手段１２０と、第一所望音声推定手段１２１と、第二所望音声推定手段１２２と、利得決定手段１２３と、を備える。
【００３９】
音声存在確率計算手段１２０は、観測対数スペクトルｙと雑音平均対数スペクトルμ^Ｎと雑音分散対数スペクトルσ^Ｎを入力として、音声存在確率ベクトルｒ＝{ｒ_１，…，ｒ_Ｌ}とＫＨ個の状態事後確確率{ｗ_１，１，…，ｗ_１，Ｈ，…，ｗ_Ｋ，Ｈ}を計算する（ステップＳ１２０）。
【００４０】
第一所望音声推定手段１２１は、観測対数スペクトルｙと、ＫＨ個の状態事後確率の集合Ｗ＝{ｗ_１，１，…，ｗ_１，Ｈ，…，ｗ_Ｋ，Ｈ}と、雑音平均対数スペクトルμ^Ｎと雑音分散対数スペクトルσ^Ｎと、を入力として第一強調対数スペクトル＾ｘ^（１）＝{＾ｘ_１^（１），…，＾ｘ_Ｌ^（１）}を計算する（ステップＳ１２１）。Ｗを状態事後確率集合と称する。第一強調対数スペクトル＾ｘ^（１）の計算方法は後述する。
【００４１】
第二所望音声推定手段１２２は、観測対数スペクトルｙを入力として式（２）で第二強調対数スペクトル＾ｘ^（２）＝{＾ｘ_１^（２），…，＾ｘ_Ｌ^（２）}を計算する（ステップＳ１２２）。
【００４２】
【数２】

【００４３】
ここで、ｇ_ＦＬＲは、観測対数スペクトルｙ中に音声が存在しないと仮定した場合の雑音抑圧利得を表す所与の定数である。なお、式（２）を用いて第二強調対数スペクトル＾ｘ^（２）を計算する代わりに、観測対数スペクトルｙ中に音声が存在しない場合の所望音声の対数スペクトルを推定するための任意の方法を用いても良い。例えば、参考文献（M. Fujimoto, et al., “Study of integration of statistical model-based voice activity detection and noise suppression,” in Proc. ICSLP, 2008, pp. 2008-2011.）に開示されている方法を用いることもできる。
【００４４】
利得決定手段１２３は、観測対数スペクトルｙと、第一強調対数スペクトル＾ｘ^（１）と、第二強調対数スペクトル＾ｘ^（２）と、音声存在確率ベクトルｒと、を入力として次式により雑音抑圧利得ｇ＝{ｇ_１，…，ｇ_Ｌ}を計算する（ステップＳ１２３）。
【００４５】
【数３】

【００４６】
図９に、音声存在確率計算手段１２０のより具体的な機能構成例を示してその動作を更に詳しく説明する。音声存在確率計算手段１２０の動作フローを図１０に示す。音声存在確率計算手段１２０は、無劣化音声対数スペクトル包絡モデル記録手段１２００と、モデル合成手段１２０１と、劣化音声対数スペクトル包絡モデル記録手段１２０２と、調波構造モデル記録手段１２０３と、条件付き音声存在確率計算手段１２０４と、状態事後確率計算手段１２０５と、音声存在確率決定手段１２０６と、を備える。
【００４７】
無劣化音声対数スペクトル包絡モデル記録手段１２００は、無劣化音声の対数スペクトル包絡のモデルを記録している。具体的には、無劣化音声対数スペクトル包絡のモデルは混合正規分布の形式で表現されると仮定し、各要素分布の重みと平均スペクトル、分散スペクトルが記録される。各要素分布の平均スペクトルを無劣化音声平均対数スペクトル、その分散スペクトルを無劣化音声分散対数スペクトルと称する。この実施例では、要素分布の個数をＫとし、ｋ番目の無劣化音声平均対数スペクトル包絡をμ_ｋ^Ｘ＝{μ_ｋ，１^Ｘ，…，μ_ｋ，Ｌ^Ｘ}、ｋ番目の無劣化音声分散対数スペクトル包絡をσ_ｋ^Ｘ＝{σ_ｋ，１^Ｘ，…，σ_ｋ，Ｌ^Ｘ}、ｋ番目の重みをπ_ｋと表記する。各要素分布の無劣化音声平均対数スペクトル包絡μ_ｋ^Ｘと無劣化音声分散対数スペクトル包絡σ_ｋ^Ｘと重みπ_ｋとは、無劣化音声のデータベースからＥＭアルゴリズムによって予め計算されたものが用いられる。
【００４８】
モデル合成手段１２０１は、雑音平均対数スペクトルμ^Ｎと雑音分散対数スペクトルσ^Ｎとが入力された後に、無劣化音声対数スペクトル包絡モデル記録手段１２００から、各要素分布ｋの無劣化音声平均対数スペクトル包絡μ_ｋ^Ｘと無劣化音声分散対数スペクトル包絡σ_ｋ^Ｘと重みπ_ｋを読み出し、劣化音声平均対数スペクトル包絡μ_ｋ^Ｙ＝{μ_ｋ，１^Ｙ，…，μ_ｋ，Ｌ^Ｙ}と劣化音声分散対数スペクトル包絡σ_ｋ^Ｙ＝{σ_ｋ，１^Ｙ，…，σ_ｋ，Ｌ^Ｙ}を計算する。計算された劣化音声平均対数スペクトル包絡μ_ｋ^Ｙと劣化音声分散対数スペクトル包絡σ_ｋ^Ｙは重みπ_ｋと共に劣化音声対数スペクトル包絡モデル記録手段１２０２に記録される。各要素分布の重みと劣化音声平均対数スペクトル包絡、及び劣化音声分散対数スペクトル包絡は、劣化音声の対数スペクトル包絡のモデルを規定する。
【００４９】
劣化音声平均対数スペクトル包絡μ_ｋ^Ｙは式（５）、無劣化音声分散対数スペクトル包絡σ_ｋ^Ｙは式（６）で定義される。
【００５０】
【数４】

【００５１】
なお、式（５）と式（６）は参考文献（A. Acero, L. Deng, T.Kristjansson, and J. Zhang, “HMM adaptation using vector Taylor series for noisy speech recognition,” in Proc. Int’l Conf. Spoken Lang. Process., vol.3, 2000, pp. 869-872.）に開示されたＶＴＳ（Vector Taylor Series）に基づいているが、ＶＴＳの代わりにＰＭＣ（Parallel Model Combination）等の類似のモデル合成方法を用いても良い。
【００５２】
なお、劣化音声対数スペクトル包絡モデル記録手段１２０２に記録される各要素分布の劣化音声平均対数スペクトル包絡μ_ｋ^Ｙと劣化音声分散対数スペクトル包絡σ_ｋ^Ｙと重みπ_ｋの計算方法として、これらを無劣化音声対数スペクトル包絡モデル記録手段１２００とモデル合成手段１２０１を用いて計算する例について説明したが、この例に限定されるものではない。例えば、各要素分布の劣化音声平均対数スペクトル包絡μ_ｋ^Ｙと劣化音声分散対数スペクトル包絡σ_ｋ^Ｙと重みπ_ｋを、劣化音声のデータベースからＥＭアルゴリズムによって予め計算しても良い。
【００５３】
調波構造モデル記録手段１２０３は、音声存在確率ベクトルを計算するための事前確率のベクトルである音声存在事前確率ベクトルのモデルを記録している。具体的には、音声存在事前確率ベクトルは符号帳の形式で表現されると仮定し、各符号に対応する音声存在事前確率ベクトルとその重みを記録している。この実施例では、符号帳の大きさをＨとし、ｈ番目の符号に対応する音声存在事前確率ベクトルをｑ_ｈ＝{ｑ_ｈ，１，…，ｑ_ｈ，L}、重みをθ_ｈと表記する。符号帳は、例えばｈ番目の符号に対応する基本周波数ｏ_ｈを式（７）で計算する。
【００５４】
【数５】

【００５５】
ここで、Ｈ_ＬとＨ_Ｈはそれぞれ基本周波数の存在する範囲の下限と上限を表す所与の定数である。この基本周波数を用いて音声存在事前確率ベクトルｑ_ｈを式（８）で計算する。
【００５６】
【数６】

【００５７】
ここで、ｆ_ｌは周波数ビンｌの中心周波数を表し、ｆ_ｌ＝ｌｆ_Ｓ/２Ｌによって計算される。ｆ_Ｓはサンプリング周波数である。β_ｈは音声存在事前確率ベクトルｑ_ｈを０〜１の範囲の値に制限するための定数である。また、γ，δは所与の定数、ｆ_Ｇは一般化正規分布の確率密度関数である。なお、調波構造モデル記録手段１２０３に記録されるＨ個の音声存在事前確率ベクトルの作成方法は、上記した方法に限定されるものではなく、音声存在事前確率ベクトルｑ_ｈの値を０〜１の範囲にすることができるものであれば何れの方法を用いてもよい。
【００５８】
条件付き音声存在確率計算手段１２０４は、１種１類〜Ｋ種Ｈ類まで合計ＫＨ個の部分条件付き音声存在確率計算ユニット１２０４_１１〜１２０４_ＫＨで構成される。部分条件付き音声存在確率計算ユニット１２０４_ｋｈは、観測対数スペクトルｙを入力として、劣化音声対数スペクトル包絡モデル記録手段１２０２からｋ番目の要素分布の劣化音声平均対数スペクトル包絡μ_ｋ^Ｙと劣化音声分散対数スペクトル包絡σ_ｋ^Ｙを、調波構造モデル記録手段１２０３からｈ番目の符号に対応する音声存在事前確率ベクトルｑ_ｈを読み出す。そして、観測対数スペクトルｙの包絡のモデルとしてｋ番目の要素分布、観測対数スペクトルｙの調波構造のモデルとしてｈ番目の符号を選択した場合の音声存在確率ベクトルｒ_ｋ，ｈ＝{ｒ_{ｋ，ｈ，１}，…，ｒ_{ｋ，ｈ，Ｌ}}を計算して音声存在確率決定手段１２０６に出力する（ステップＳ１２０４）。ｒ_ｋ，ｈをｋ種ｈ類条件付き音声存在確率ベクトルと称する。また、ＫＨ個の条件付き音声存在確率ベクトルをまとめてＲ＝{ｒ_１，１，…，ｒ_Ｋ，Ｈ}と書き、これを条件付き音声存在確率ベクトル集合と称する。
【００５９】
ｋ種ｈ類条件付き音声存在確率ベクトルと称するｒ_ｋ，ｈは式（９）で計算される。
【００６０】
【数７】

【００６１】
ここで、ｐ_Ｎ（ｘ）及びｐ_Ｙ|Ｋ（ｘ|ｋ）は、それぞれ雑音対数スペクトルの正規分布、劣化音声対数スペクトル包絡のモデルのｋ番目の要素分布に対応する正規分布であり、各々次式で定義される。
【００６２】
【数８】

【００６３】
ここで、ｆ_Ｎは正規分布の確率密度関数である。
【００６４】
状態事後確率計算手段１２０５は、１種１類〜Ｋ種Ｈ類まで合計ＫＨ個の部分的状態事後確率計算ユニット１２０５_１１〜１２０５_ＫＨで構成される。部分的状態事後確率計算ユニット１２０５_ｋｈは、観測対数スペクトルｙを入力として、劣化音声対数スペクトル包絡記録手段１２０２からｋ番目の要素分布の劣化音声平均対数スペクトル包絡μ_ｋ^Ｙと劣化音声分散対数スペクトル包絡σ_ｋ^Ｙと重みπ_ｋを、調波構造モデル記録手段１２０３からｈ番目の符号に対応する音声存在事前確率ベクトルｑ_ｈと重みθ_ｈを読み出し、観測対数スペクトルｙの包絡のモデルがｋ番目の要素分布であり、かつ観測対数スペクトル包絡の調波構造のモデルがｈ番目の符号である事後確率ｗ_ｋ，ｈを計算して出力する（ステップＳ１２０５）。ｗ_ｋ，ｈをｋ種ｈ類状態事後確率と称する。ｋ種ｈ類状態事後確率ｗ_ｋ，ｈは次式で計算される。
【００６５】
【数９】

【００６６】
音声存在確率決定手段１２０６は、１種１類〜Ｋ種Ｈ類条件付き音声存在確率ベクトル{ｒ_１，１，…，ｒ_１，Ｈ，…，ｒ_Ｋ，Ｈ}と、１種１類〜Ｋ種Ｈ類状態事後確率{ｗ_１，１，…，ｗ_１，Ｈ，…，ｗ_Ｋ，Ｈ}を入力として音声存在確率ベクトルｒ_ｌ＝{ｒ_１，…，ｒ_Ｊ}を式（１４）で計算して、利得決定手段１２３に出力する（ステップＳ１２０６）。
【００６７】
【数１０】

【００６８】
図１１に、第一所望音声推定手段１２１のより具体的な機能構成例を示してその動作を説明する。第一所望音声推定手段１２１は、条件付き所望音声推定手段１２１０と、所望音声推定値決定手段１２１１と、を備える。条件付き所望音声推定手段１２１０は、１種〜Ｋ種まで合計Ｋ個の部分的条件付き所望音声推定ユニット１２１０_１〜１２１０_Ｋで構成される。
【００６９】
部分的条件付き所望音声推定ユニット１２１０_ｋは、観測対数スペクトルｙを入力として、音声存在確率計算手段１２０の無劣化音声対数スペクトル包絡モデル記録手段１２００からＫ番目の要素分布の無劣化音声平均対数スペクトル包絡μ_ｋ^Ｘと無劣化音声分散対数スペクトル包絡σ_ｋ^Ｘを読み出して、観測対数スペクトルの包絡のモデルとしてｋ番目の要素分布を選択した場合の所望音声の対数スペクトルの推定値であるｋ種強調対数スペクトル＾ｘ_ｋ＝{＾ｘ_ｋ，１，…，＾ｘ_ｋ，Ｌ}を計算し、これを所望音声推定値決定手段１２１１に出力する。ｋ種強調対数スペクトルは式（１５）にしたがって計算される。
【００７０】
【数１１】

【００７１】
所望音声推定値決定手段１２１１は、第一強調対数スペクトル{＾ｘ_１^（１），…，＾ｘ_Ｌ^（１）}を次式にしたがって計算し、これを利得決定部１２３に出力する。
【００７２】
【数１２】

【００７３】
なお、第一所望音声推定手段１２１において無劣化音声対数スペクトル包絡及び劣化音声対数スペクトル包絡のモデルを用いる例について説明したが、第一所望音声推定手段１２１の構成方法はこの例に限定されない。例えば、無劣化音声対数スペクトル包絡及び劣化音声対数スペクトル包絡のモデルを用いずに、非特許文献１に開示されている利得計算部の第一所望音声推定手段を用いてもよい。
【００７４】
〔評価実験〕
この発明の雑音抑圧装置の効果を確認する目的で、雑音抑圧装置１００と非特許文献１に開示された雑音抑圧装置により得られた信号対雑音比を比較する評価実験を行った。その結果を図１２に示す。図１２の横軸は時間（秒）、縦軸はＳＮ比（ｄＢ）である。
【００７５】
実験に用いた観測信号には、まず３つの連続した数字を読み上げる一人の女性の約２秒間の所望音声信号を用意し、その信号にバブル雑音をＳＮ比が５ｄＢとなるように重畳することで作成した。バブル雑音は非定常雑音の代表例である。
【００７６】
図１２中の一点鎖線は雑音抑圧前のＳＮ比の時系列を示す。太い実線は、この発明の雑音抑圧装置１００で雑音抑圧した後のＳＮ比の時系列である。細い実線は、非特許文献１に開示された雑音抑圧装置で雑音抑圧した後のＳＮ比の時系列である。
【００７７】
この発明の雑音抑圧装置１００の方が、従来の装置よりも約５ｄＢ、ＳＮ比を改善できていることが分かる。この結果は、この発明の雑音抑圧装置１００が、従来の雑音抑圧装置と比較して、非定常雑音に対して頑健であることを示唆する。
【００７８】
以上述べたように、この発明の雑音抑圧装置１００は、所望音声の対数スペクトル包絡と調波構造を考慮して音声存在確率を計算する。その結果、雑音の非定常性の度合いが大きい場合に生じる雑音スペクトルの局所的な推定誤差に対して頑健に、音声存在確率を求めることができる。よって、非定常雑音に頑健な雑音除去装置を実現することができる。
【００７９】
なお、この発明は、上記した実施例に限定されるものではない。この発明の所望音声の対数スペクトル包絡と調波構造を考慮して音声存在確率を求める技術思想の範囲内において、雑音抑圧装置は様々な変更が可能である。
【００８０】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【００８１】
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムとして記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【００８２】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な任意の記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリがある。より具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。
【００８３】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【００８４】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアとして実現することとしてもよい。

【特許請求の範囲】
【請求項１】
観測信号を入力としてそのパワースペクトルである観測スペクトルを計算するスペクトル計算部と、
上記観測スペクトルを入力としてその対数値である観測対数スペクトルを計算する対数計算部と、
上記観測対数スペクトルを入力として雑音平均対数スペクトルと雑音分散対数スペクトルを計算する雑音統計量推定部と、
上記雑音平均対数スペクトルと上記雑音分散対数スペクトルと上記観測対数スペクトルを入力として雑音抑圧利得を計算する利得計算部と、
上記雑音抑圧利得を入力として雑音抑圧フィルタを計算するフィルタ計算部と、
上記観測信号と上記雑音抑圧フィルタを入力として強調信号を計算するフィルタ適用部とを具備し、
上記利得計算部は、上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する音声存在確率計算手段と、
上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散スペクトルを入力として、上記観測スペクトル中に音声が存在する場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する第一所望音声推定手段と、
上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散スペクトルを入力として、上記観測スペクトル中に音声が存在しない場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算する第二所望音声推定手段と、
上記観測対数スペクトルと上記音声存在確率ベクトルと上記第一強調対数スペクトルと上記第二強調対数スペクトルを入力として上記雑音抑圧利得を計算する利得決定手段と、
を備えることを特徴とする雑音抑圧装置。
【請求項２】
請求項１に記載した雑音抑圧装置において、
上記音声存在確率計算手段は、
劣化音声の対数スペクトル包絡のモデルである劣化音声混合正規分布を規定する各要素分布の劣化音声平均対数スペクトル包絡と、劣化音声分散対数スペクトル包絡と、重みとを記録する劣化音声対数スペクトル包絡モデル記録手段と、
調波構造のモデルである音声存在事前確率ベクトルの符号帳を記録する調波構造モデル記録手段と、
上記観測対数スペクトルを入力として上記劣化音声混合正規分布の要素分布と上記符号帳の符号の全組み合わせの夫々について、当該要素分布と当該符号が選択された場合の条件付き音声存在確率ベクトルを計算する条件付き音声存在確率計算手段と、
上記観測対数スペクトルを入力として上記全組み合わせの夫々について、当該要素分布と当該符号が選択される状態事後確率を計算する状態事後確率計算手段と、
上記全組み合わせに対する上記条件付き音声存在確率ベクトルと上記状態事後確率とを入力として、上記音声存在確率ベクトルを計算する音声存在確率決定手段と、
を備えることを特徴とする雑音抑圧装置。
【請求項３】
観測信号を入力としてそのパワースペクトルである観測スペクトルを計算するスペクトル計算過程と、
上記観測スペクトルを入力としてその対数値である観測対数スペクトルを計算する対数計算過程と、
上記観測対数スペクトルを入力として雑音平均対数スペクトルと雑音分散対数スペクトルを計算する雑音統計量推定過程と、
上記雑音平均対数スペクトルと上記雑音分散対数スペクトルと上記観測対数スペクトルを入力として雑音抑圧利得を計算する利得計算過程と、
上記雑音抑圧利得を入力として雑音抑圧フィルタを計算するフィルタ計算過程と、
上記観測信号と上記雑音抑圧フィルタを入力として強調信号を計算するフィルタ適用過程とを備え、
上記利得計算過程は、上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する音声存在確率計算ステップと、
上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散スペクトルを入力として、上記観測スペクトル中に音声が存在する場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する第一所望音声推定ステップと、
上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散スペクトルを入力として、上記観測スペクトル中に音声が存在しない場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算する第二所望音声推定ステップと、
上記観測対数スペクトルと上記音声存在確率ベクトルと上記第一強調対数スペクトルと上記第二強調対数スペクトルを入力として上記雑音抑圧利得を計算する利得決定ステップと、
を含むことを特徴とする雑音抑圧方法。
【請求項４】
請求項３に記載した雑音抑圧方法において、
上記音声存在確率計算ステップは、
上記観測対数スペクトルを入力として、劣化音声対数スペクトル包絡モデル記録手段に記録された劣化音声の対数スペクトル包絡のモデルである劣化音声混合正規分布の要素分布と調波構造モデル記録手段に記録された調波構造のモデルである音声存在事前確率ベクトルの符号帳の符号の全組み合わせの夫々について、当該要素分布と当該符号が選択された場合の条件付き音声存在確率ベクトルを計算する条件付き音声存在確率計算ステップと、
上記観測対数スペクトルを入力として、上記全組み合わせの夫々について、当該要素分布と当該符号が選択される状態事後確率を計算する状態事後確率計算ステップと、
上記全組み合わせに対する上記条件付き音声存在確率ベクトルと上記状態事後確率とを入力として上記音声存在確率ベクトルを計算する音声存在確率決定ステップと、
を含むことを特徴とする雑音抑圧方法。
【請求項５】
コンピュータを、請求項１又は２に記載した雑音抑圧装置として機能させるためのプログラム。

【図１】