説明

雑音抑圧装置とその方法とプログラム

【課題】雑音の音響特徴量を、時間変化を伴わないバイアス成分と残差成分とに分けて推定する雑音抑圧装置を提供する。
【解決手段】雑音バイアス成分推定部は、対数メルスペクトルと、無音GMMとクリーン音声GMMのパラメータと、を入力として雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定し、雑音残差成分推定部が、対数メルスペクトルとバイアス成分と、無音GMMとクリーン音声GMMのパラメータと、を入力として雑音信号とバイアス成分との差分である残差成分を最適推定する。そして、雑音抑圧部は、対数メルスペクトルと複素数スペクトルと、バイアス成分と残差成分と、無音GMMとクリーン音声GMMのパラメータと、を入力として雑音信号を抑圧した音響信号を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、目的信号である音声信号に雑音信号が重畳した音響信号から、雑音信号を抑圧して目的信号を抽出する雑音抑圧装置と、その方法とプログラムに関する。
【背景技術】
【0002】
自動音声認識技術を実際の環境で利用する場合においては、処理対象とする目的信号(音声信号)以外の信号、つまり雑音が含まれる音響信号から雑音を取り除き、所望の目的信号のみを抽出する必要がある。その雑音抑圧性能の向上は、早急に解決されるべき課題である。
【0003】
非特許文献1には、予め推定した音声信号と雑音信号の確率モデルから入力信号の確率モデルを生成して確率モデルと入力信号全体の統計量との差分をテイラー展開で表現し、その差分をEMアルゴリズムを用いて推定して入力信号の確率モデルを最適化する。そして、その後、最適化された入力信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている。
【0004】
また、非特許文献2には、並列非線形カルマンフィルタにより雑音信号を推定して音声信号区間検出と雑音抑圧で確率モデルを共有して情報の共有を密にし、音声信号区間検出結果に応じた最適な雑音抑圧フィルタを設計する音声信号区間検出機能付き雑音抑圧方法が開示されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】P. J. Moreno, B. Raj, and R. M. Stern, “A vector Taylor series approach for environment-independent speech recognition,” in Proceedings of ICASSP ’96, vol. II, pp. 733-736, May 1996.
【非特許文献2】Masakiyo Fujimoto, Kentaro Ishizuka, and Tomohiro Nakatani, “Study of Integration of Statistical Model-Based Voice Activity Detection and Noise Suppression,” in Proceedings of Interspeech ’08, pp. 2008-2011, Sept. 2008.
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1に開示された技術では、収音された入力信号全体を用いてEMアルゴリズムにより入力信号の確率モデルを最適化するが、入力音響信号に含まれる雑音信号の特徴が定常的なものであるという前提のもとで雑音抑圧を行う。しかし、実環境における雑音信号の多くは非定常的な特徴を持っている。つまり、雑音信号の統計的な特徴が時間の経過に伴って変動するので、雑音の時間変動に対応できず、十分な雑音抑圧性能が得られない。
【0007】
非特許文献2には、並列非線形カルマンフィルタにより非定常的な雑音信号を逐次的に推定する方法が開示されているが、雑音の潜在的な成分(パラメータ)の存在について考慮されておらず、並列非線形カルマンフィルタの逐次推定手法に適さない成分が存在しても逐次推定手法によって雑音信号を推定してしまう。その結果、雑音信号の推定誤差が増大し、十分な雑音抑圧性能が得られない場合がある。
【0008】
この発明は、このような点に鑑みてなされたものであり、雑音信号を、定常成分(バイアス成分)と非定常成分(残差成分)とに分解することで、高精度に雑音を推定して抑圧することが可能な雑音抑圧装置と、その方法とプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
この発明の雑音抑圧装置は、音響特徴抽出部と、雑音バイアス成分推定部と、雑音残差成分推定部と、雑音抑圧部と、を具備する。音響特徴抽出部は、目的信号である音声信号に雑音信号が重畳した音響信号を入力として、上記音響信号の一定時間長をフレームとしたフレーム毎に複素数スペクトルと対数メルスペクトルを音響特徴量として抽出する。雑音バイアス成分推定部は、対数メルスペクトルと、無音GMMとクリーン音声GMMのパラメータと、を入力として雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定する。雑音残差成分推定部は、対数メルスペクトルとバイアス成分と、無音GMMとクリーン音声GMMのパラメータと、を入力として雑音信号とバイアス成分との差分である残差成分を最適推定する。雑音抑圧部は、対数メルスペクトルと複素数スペクトルと、バイアス成分と残差成分と、無音GMMとクリーン音声GMMのパラメータと、を入力として雑音信号を抑圧した音響信号を出力する。
【発明の効果】
【0010】
この発明の雑音抑圧装置は、雑音信号が重畳した音響信号を、時間変化を伴わないバイアス成分と、時間変動を伴う残差成分とに分解し、各々の成分に適した推定方法を適用して雑音を高精度に推定するので、雑音抑圧性能を高めることが出来る。
【図面の簡単な説明】
【0011】
【図1】雑音信号の2次元特徴量空間を概念的に示す図。
【図2】この発明の雑音抑圧装置100の機能構成例を示す図。
【図3】雑音抑圧装置100の動作フローを示す図。
【図4】雑音バイアス成分推定部11の機能構成例を示す図。
【図5】雑音バイアス成分推定部11の動作フローを示す図。
【図6】雑音残差成分推定部12の機能構成例を示す図。
【図7】雑音残差成分推定部12の動作フローを示す図。
【図8】雑音抑圧部14の機能構成例を示す図。
【図9】雑音抑圧フィルタ推定部140の機能構成例を示す図。
【図10】雑音抑圧フィルタ推定部140の動作フローを示す図。
【図11】雑音抑圧フィルタ適用部141の機能構成例を示す図。
【図12】雑音抑圧フィルタ適用部141の動作フローを示す図。
【図13】時間領域の音声波形を示す図であり、(a)は目的信号である音声信号に空港ロビー雑音を重畳させた音響信号oτであり、(b)はこの発明の雑音抑圧装置にその音響信号oτを入力して得られた雑音抑圧音声^sτを示す図である。
【発明を実施するための形態】
【0012】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。なお、以下の説明において、説明の中で使用する記号「^」、「〜」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においては、これらの記号は本来の位置に記述している。また、各変数は特にことわりの無い限り縦ベクトルである。実施例の説明の前に、この発明の基本的な考えについて説明する。
【0013】
〔この発明の基本的な考え〕
この発明の雑音抑圧装置は、雑音信号を、時間不変の定常成分(バイアス成分)と時間変動を伴う非定常成分(残差成分)とに分解して考える。
【0014】
図1の横軸は1次元目の音響特徴量を表し、縦軸は2次元目の音響特徴量を表す。描写の問題から2次元の音響特徴量空間のみを示している。雑音信号をバイアス成分と残差成分の2つから構成されるものと考えると、バイアス成分μは雑音Nの音響特徴量空間の重心とみなすことができ、残差成分〜Nは雑音〜Nとバイアス成分μとの差分であるとみなすことが出来る。
【0015】
このように考えると、あるフレームtにおける雑音の音響特徴量(例えば、24次元の対数メルスペクトルベクトル)をNとすると、Nは式(1)に示すように時間変化を伴わないバイアス成分μと残差成分〜Nとに分解することが可能である。
【0016】
【数1】

【0017】
そして、この発明では、残差成分の時間変化を予測誤差Uを伴って式(2)に示すような自己回帰モデルを用いて表現する。
【0018】
【数2】

【0019】
ここで、Fは自己回帰係数を対角成分に持つ行列である。予測誤差Uは平均ベクトル0、対角分散行列Σの多次元白色雑音とする。Σの各対角成分は微小な値(例えば0.001)を持つものとする。
式(2)を式(1)に代入することにより対数メルスペクトルベクトルNは、式(3)に示すようなバイアス付き自己回帰モデルで表現することが出来る。
【0020】
【数3】

【0021】
この発明は、式(3)に示したバイアス付き自己回帰モデルに基づいて雑音を推定し、雑音抑圧処理を行うものである。
【実施例1】
【0022】
図2に、この発明の雑音抑圧装置100の機能構成例を示す。その動作フローを図2に示す。雑音抑圧装置100は、音響特徴抽出部10と、雑音バイアス成分推定部11と、雑音残差成分推定部12と、GMM記憶部13と、雑音抑圧部14と、を具備する。GMM記憶部13は、無音GMM130とクリーン音声GMM131とで構成される。
【0023】
GMM記憶部13を除く各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0024】
雑音抑圧装置100は、目的信号である音声信号に雑音信号が重畳した音響信号oτを入力信号として、時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出して、1フレーム毎に雑音抑圧処理を行う。音響信号oτは、図示しないA/D変換器によって離散値化された信号であり、添え字τはその離散信号のサンプル点を表わす。1フレームは、例えば、サンプリング周波数を16KHzとした場合にFrame=320個のサンプル点(1/16KHz×320)の20msに設定される。
【0025】
音響特徴抽出部10は、フレーム毎に複素スペクトルSpcと対数メルスペクトルOを、音響特徴量として抽出する(ステップS10)。雑音バイアス成分推定部11は、対数メルスペクトルOと、無音GMM130とクリーン音声GMM131のパラメータとを入力として、雑音信号の音響特徴量空間の重心であるバイアス成分μを最適推定する(ステップS11)。
【0026】
雑音残差成分推定部12は、対数メルスペクトルOとバイアス成分μと、無音GMM130とクリーン音声GMM131のパラメータとを入力として、雑音信号とバイアス成分μとの差分である残差成分〜Nと二乗誤差分散行列〜ΣN,tを最適推定する(ステップS12)。雑音抑圧部14は、対数メルスペクトルOと複素数スペクトルSpcと、バイアス成分μと残差成分〜Nと二乗誤差分散行列〜ΣN,tと、無音GMM130とクリーン音声GMM131のパラメータと、を入力として雑音信号を抑圧した音響信号^sτを出力する(ステップS14)。
【0027】
このように雑音抑圧装置100は、雑音信号が重畳した音響信号を、時間変化を伴わないバイアス成分と、時間変動を伴う残差成分〜Nとに分解し、各々の成分に適した推定方法を適用するので雑音抑圧性能を向上させることが可能である。以下、雑音抑圧装置の各機能構成部の動作を詳しく説明する。
【0028】
音響特徴抽出部10は、音響信号ot,nを例えばShift=160個のサンプル点ずつ始点を移動させながら切り出す。その際、例えば、式(4)に示すハミング窓のような窓関数wを掛け合わせて切り出す。
【0029】
【数4】

【0030】
ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。切り出し後の音響信号ot,nに対して、2のべき乗で且つフレーム以上の値のM点(例えば512)の高速フーリエ変換処理を適用して複素数スペクトルSpc={Spct,0,…,Spct,m,…,Spct,M−1}を得る。mは周波数ビン番号である。
【0031】
次に、複素スペクトルSpct,mの絶対値に対してメルフィルタバンク分析処理と対数化処理を適用してL次元(例えばL=24)の対数メルスペクトルを要素に持つベクトルO={Ot,0,…,Ot,l,…,Ot,L−1}を算出する。lはベクトルの要素番号である。
【0032】
音響特徴抽出部10は、複素数スペクトルSpcを雑音抑圧部14、対数メルスペクトルOを雑音バイアス成分推定部11と雑音残差成分推定部12と雑音抑圧部14に出力する。
【0033】
〔雑音バイアス成分推定部〕
図4に、雑音バイアス成分推定部11の機能構成例を示す。その動作フローを図5に示す。雑音バイアス成分推定部11は、バイアス成分初期値推定手段110と、確率モデル生成手段111と、期待値計算処理手段112と、パラメータ更新処理手段113と、収束判定処理手段114と、を備える。
【0034】
バイアス成分初期値推定手段110は、対数メルスペクトルOを入力として、その対数メルスペクトルOを所定のフレーム数毎に平均化したバイアス成分初期値^μ(i=0)と、そのバイアス成分初期値^μ(i=0)の対角分散行列Σを推定する(ステップS110)。
【0035】
バイアス成分初期値^μ(i=0)は、繰り返しインデックスiを初期化(ステップS110a)した後、式(5)で計算される(ステップS110b)。
【0036】
【数5】

【0037】
ここでAは、初期値推定に要するフレーム数である(例えばA=10)。iは、i回目の繰り返し回数を示す。バイアス成分の対角分散行列Σを式(6)で推定する(ステップS110b)。
【0038】
【数6】

【0039】
対角分散行列Σは、繰り返しのインデックスiに非依存のパラメータである。
確率モデル生成手段111は、バイアス成分初期値^μ(i=0),Σと、無音GMM130とクリーン音声GMM131のパラメータを用いて対数メルスペクトルOの確率モデルをGMMで構成する(ステップS111)。対数メルスペクトルOの確率モデルは式(7)に示すようなGMMで構成する。
【0040】
【数7】

【0041】
Bias(i)(O)は、確率モデル生成手段111で生成される対数メルスペクトルOの確率モデルであり、j=0は無音GMM130のパラメータから生成した確率モデル、j=1はクリーン音声GMM131のパラメータから生成した確率モデルであることを示す。また、関数N(・)は、式(8)で与えられる正規分布の確率密度関数である。
【0042】
【数8】

【0043】
ここで、kはGMMに含まれる正規分布の番号、Kは総正規分布数である(例えばK=256)。また、wj,kは無音GMM130若しくはクリーン音声GMM131の混合重み、μO,j,k(i)とΣO,j,k(i)はバイアス成分^μ(i)と無音GMM130若しくはクリーン音声GMM131のパラメータから生成された対数メルスペクトルOの確率モデルの平均ベクトルと対角分散行列である。
対数メルスペクトルOの確率モデルμO,j,k(i)と対角分散行列ΣO,j,k(i)は次式で与えられる。
【0044】
【数9】

【0045】
ここで、μS,j,kとΣS,j,kは、それぞれ無音GMM130若しくはクリーン音声GMM131の平均ベクトルと対角分散行列である。関数log(・)とexp(・)はベクトルの要素毎に演算を行う。また、「1」は全ての要素が1の縦ベクトル、Iは単位行列、Hj、k(i)は関数h(・)のヤコビ行列である。
【0046】
期待値計算処理手段112は、所定フレーム数毎の繰り返し推定における対数スペクトルSpcの確率モデルのコスト関数Q(・)の期待値を計算する(ステップS112)。コスト関数Q(・)の期待値は、式(12)により計算する。この計算は、EMアルゴリズムにおけるE−stepに当たる。
【0047】
【数10】

【0048】
ここで、O0:T−1={O,…,O,…,OT−1}であり、Tは対数メルスペクトルOの総フレーム数、Pt,j(i)とPt,j,k(i)はそれぞれ次式で与えられるフレームtにおけるGMM種別j若しくは正規分布kに対する事後確率である。特に、Pt,j=0(i)を音声非存在確率、Pt,j=1(i)を音声存在確率と定義する。
【0049】
【数11】

【0050】
パラメータ更新処理手段113は、コスト関数Q(・)の期待値を最大化するバイアス成分^μ(i)をニュートン法によって最適化して更新する(ステップS113)。この更新ステップは、EMアルゴリズムにおけるM−stepに当たる。
【0051】
バイアス成分^μ(i)の更新は、式(12)のコスト関数Q(・)を最大にするような^μ(i)を求めることにより行う。その方法は、通常、コスト関数Q(・)のバイアス成分^μ(i)に関する偏微分を0にすることにより求める。しかし、式(12)のコスト関数Q(・)は非線形関数で与えられるため、バイアス成分^μ(i)の解析解を求めることは困難である。
従って、パラメータ更新処理手段113は、次式のニュートン法によってバイアス成分^μ(i)を最適化する。
【0052】
【数12】

【0053】
ここで、∇Q(i)と∇(i)は、それぞれi回目の繰り返し推定におけるコスト関数Q(・)の勾配ベクトルとヘッセ行列である。
収束判定処理手段114は、バイアス成分^μ(i)が収束するまで確率モデル生成手段111と期待値計算処理手段112とパラメータ更新処理手段113の動作を繰り返す(ステップS114)。
収束条件の例を次式に示す。η=0.0001とする。
【0054】
【数13】

【0055】
式(16)の収束条件を満たす場合はμ=^μ(i)として、雑音バイアス成分推定部11の処理を終了する(ステップS114aのYes)。満たさない場合は繰り返しのインデックスiをインクリメントして(ステップS114b)、確率モデル生成ステップS111以降の処理を繰り返す。
【0056】
〔雑音残差成分推定部〕
図6に、雑音残差成分推定部12の機能構成例を示す。その動作フローを図7に示す。雑音残差成分推定部12は、残差成分初期値推定手段120と、残差成分予測処理手段121と、残差成分推定処理手段122と、確率モデル生成処理手段123と、加重平均処理手段124と、期待値計算処理手段125と、パラメータ更新処理手段126と、収束判定処理手段127と、を備える。
【0057】
残差成分初期値推定手段120は、対数メルスペクトルOと雑音バイアス成分推定部11が出力するバイアス成分μの差である残差成分を、所定フレーム数毎に平均して残差成分の初期値を推定する(ステップS120)。残差成分の初期値は、繰り返しのインデックスiに非依存のパラメータとして次式によって推定し、全ての繰り返し推定の初期値として利用する。
【0058】
【数14】

【0059】
また、残差成分初期値推定手段120は、自己回帰行列Fの初期値を以下のように設定する。各要素に対して、自己回帰係数の次元は例えば1次元とする。
【0060】
【数15】

【0061】
残差成分予測処理手段121は、1フレーム前の残差成分推定値と自己回帰行列を乗じて、現在のフレームの残差成分予測値を自己回帰モデルによって予測する(ステップS121)。現在のフレームのパラメータは、次式に示すように自己回帰モデルによって予測する。
【0062】
【数16】

【0063】
式(20)と式(21)において、〜Nt|t−1(i),〜ΣN,t|t−1(i)はi回目の繰り返し推定、及びフレームtにおける残差成分〜Nの予測値であり、t=0の場合は初期値を用いて式(22)と(23)に示すように予測処理を行う。
【0064】
【数17】

【0065】
残差成分推定処理手段122は、対数メルスペクトルOと雑音バイアス成分推定部11が出力するバイアス成分μと、残差成分予測処理手段121が予測した残差成分予測値〜Nt|t−1(i),〜ΣN,t|t−1(i)と無音GMM130とクリーン音声GMM131のパラメータμS,j,kとΣS,j,kを入力として、それぞれのGMMに含まれる正規分布の合計数と同数の残差成分推定値候補を計算する(ステップS122)。
各GMMの推定は次式により行う。
【0066】
【数18】

【0067】
上式において、〜Nt,j,k(i),〜ΣN,t,j,k(i)はi回目の繰り返し推定、及びフレームtにおける残差成分〜Nの推定値候補である。
確率モデル生成処理手段123は、残差成分推定処理手段122で計算された残差成分推定値候補〜Nt,j,k(i),〜ΣN,t,j,k(i)と、雑音バイアス成分推定部11が出力するバイアス成分μと、無音GMM130とクリーン音声GMM131のパラメータμS,j,kとΣS,j,kを入力として、現在のフレームtにおける対数メルスペクトルのGMMパラメータ〜μO,t,j,k(i),〜ΣO,t,j,k(i)を生成する(ステップS123)。
対数メルスペクトルOのフレームtにおけるGMMのパラメータを次式に示すように生成する。
【0068】
【数19】

【0069】
加重平均処理手段124は、対数メルスペクトルOと、現在のフレームにおける対数メルスペクトルのGMMパラメータを入力として、音声非存在確率/存在確率と事後確率を計算し、残差成分推定値候補を加重平均して残差成分の推定値を計算する(ステップS124)。式(31)に示すように加重平均することにより、i回目の繰り返し推定及びフレームtにおける残差成分の推定値を得る。
【0070】
【数20】

【0071】
【数21】

【0072】
期待値計算処理手段125は、所定フレーム数毎の繰り返し推定における対数メルスペクトルの確率モデルのコスト関数Q(・)の期待値を、並列非線形カルマンフィルタの確率モデルで計算する(ステップS125)。この計算は、EMアルゴリズムにおけるE−stepに当たる。
フレームtにおける並列非線形カルマンフィルタの確率モデルと尤度bMNKF(O)は式(35)に示すように構成される。
【0073】
【数22】

【0074】
すなわち、並列非線形カルマンフィルタの確率モデルのコスト関数Q(・)の期待値は次式より得られる。
【0075】
【数23】

【0076】
式(36)において、並列非線形カルマンフィルタは各フレームtにて確率モデルが変化するため、計算の効率化のため、コスト関数Q(・)の期待値を以下に示すように再帰的に計算する。
【0077】
【数24】

【0078】
フレームtにてコスト関数Q(・)の期待値を計算すると、次のフレームt+1の処理に移る(ステップS125b)。フレームt≧Tならば、i回目の繰り返し推定における並列非線形カルマンフィルタによる残差成分の推定を終了する(ステップS125cのYes)。
【0079】
パラメータ更新処理手段126は、コスト関数Q(・)の期待値を最大化するように自己回帰行列^F(i)を更新する(ステップS126)。コスト関数Q(・)の期待値を最大化する自己回帰行列^F(i)は、コスト関数Q(・)の^F(i)に関する偏微分を0にすることにより求める。すなわち、自己回帰行列^F(i)は次式により与えられる。
【0080】
【数25】

【0081】
収束判定処理手段127は、自己回帰行列^F(i)が収束するまで残差成分予測処理手段121と残差成分推定処理手段122と確率モデル生成処理手段123と加重平均処理手段124と期待値計算処理手段125とパラメータ更新処理手段126の動作を繰り返す(ステップS127aのNo)。
収束条件の例を次式に示す。η=0.0001とする。
【0082】
【数26】

【0083】
式(39)の収束条件を満たす場合はF=^F(i)として、パラメータ更新処理手段126の処理を終了する(ステップS127aのYes)。満たさない場合は繰り返しのインデックスiをインクリメントした後にt=0として(ステップS127b)、残差成分予測処理ステップS121以降の処理を繰り返す。
【0084】
〔雑音抑圧部〕
図8に、雑音抑圧部14の機能構成例を示す。雑音抑圧部14は、雑音抑圧フィルタ推定部140と、雑音抑圧フィルタ適用部141と、を備える。雑音抑圧フィルタ推定部140は、対数メルスペクトルOと、バイアス成分μと、残差成分〜N,〜ΣN,tと、無音GMM130とクリーン音声GMM131のパラメータWj,k,μS,j,k,ΣS,j,kと、を入力として雑音抑圧フィルタWt,mLinを推定する。
【0085】
雑音抑圧フィルタ適用部141は、複素スペクトルSpcと、雑音抑圧フィルタWt,mLinを入力として雑音を抑圧した雑音抑圧信号^sτを出力する。雑音抑圧フィルタ推定部140と、雑音抑圧フィルタ適用部141の動作を詳しく説明する。
【0086】
〔残響抑圧フィルタ推定部〕
図9に、雑音抑圧フィルタ推定部140の機能構成例を示す。その動作フローを図10に示す。雑音抑圧フィルタ推定部140は、確率モデル生成処理手段1400と、確率計算処理手段1401と、雑音抑圧フィルタ推定処理手段1402と、雑音抑圧フィルタ変換処理手段1403と、を備える。
【0087】
確率モデル生成処理手段1400は、雑音バイアス推定部11が出力するバイアス成分μと、雑音残差成分推定部12が出力する残差成分〜N,〜ΣN,tと、無音GMM130とクリーン音声GMMのパラメータμS,j,k,ΣS,j,kと、を入力として、対数メルスペクトルOのフレームtにおけるGMMのパラメータを以下のように生成する(ステップS1400)。
【0088】
【数27】

【0089】
確率計算処理手段1401は、対数メルスペクトルOと、確率モデル生成処理手段140が出力するGMMパラメータと、無音GMM130とクリーン音声GMMのパラメータwj,kとを入力として、音声非存在確率/存在確率Pt,jと事後確率Pt,j,kを計算する。
音声非存在確率/存在確率Pt,jは式(43)、事後確率Pt,j,kは式(44)で計算する(ステップS1401)。
【0090】
【数28】

【0091】
雑音抑圧フィルタ推定処理手段1402は、バイアス成分μと残差成分〜N,〜ΣN,tと、事後確率Pt,j,kと音声非存在確率/存在確率Pt,jと、を入力としてメル周波数軸上での雑音抑圧フィルタWt,lMelを次式により推定する(ステップS1402)。次式はベクトル要素毎の表記である。
【0092】
【数29】

【0093】
雑音抑圧フィルタ変換処理手段1403は、メル周波数軸上での雑音抑圧フィルタWt,lMelを3次スプライン補間により線形周波数軸上での雑音抑圧フィルタWt,mLinに変換する(ステップS1403)。
【0094】
〔雑音抑圧フィルタ適用部〕
図11に、雑音抑圧フィルタ適用部141の機能構成例を示す。その動作フローを図12に示す。雑音抑圧フィルタ適用部141は、フィルタリング処理手段1410と、逆高速フーリエ変換処理手段1411と、波形連結処理手段1412と、を備える。
フィルタリング処理手段1410は、複素数スペクトルSpcに雑音抑圧フィルタWt,lMelを掛け合わせることにより雑音抑圧された複素数スペクトル^St,m(式(46))を出力する(ステップS1410)。式(46)はベクトルの要素毎の標記である。
【0095】
【数30】

【0096】
逆高速フーリエ変換処理手段1411は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧音声^st,nを得る(ステップS1411)。
波形連結処理手段1412は、各フレームの雑音抑圧音声^st,nを、次式に示すように窓関数wを解除しながら連結して連続した雑音抑圧音声^st,nを得る(ステップS1412)。
【0097】
【数31】

【0098】
〔評価実験結果〕
この発明の効果を確認する目的で、この発明の雑音抑圧装置の雑音抑圧性能を評価する実験を行った。先ず、実験条件を説明する。
【0099】
評価用データには、IPA(Information-technology promotion agency,Japan)-98-TestSetのうち、男声23名が発声したデータ100文を用いており、これらの音声データに対して、空港ロビー、駅プラットフォーム、街頭にて別途収録した雑音をそれぞれS/N比0dB,5dB,10dBにて計算機上で重畳した。つまり、雑音3種類×S/N比3種類の9種類の評価データを作成した。
【0100】
それぞれの音声データは、サンプリング周波数16KHz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、1フレームの時間長を20ms(1フレーム=320サンプル点)とし、10ms毎にフレームの始点を移動させて音響特徴抽出部10を適用した。
【0101】
無音GMM130、クリーン音声GMM131には、L=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=256のGMMを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。
【0102】
残差成分初期値推定手段120の自己回帰係数の次元は1次元とした。初期値推定に要するフレーム数はA=10とした。収束判定処理手段114と127の収束条件のパラメータはη=0.0001とした。残差成分予測処理ステップS121において、Σの各対角成分には0.001を与えた。
性能の評価は音声認識により行い、評価尺度は次式の単語誤り率WERで行った。
【0103】
【数32】

【0104】
ここで、Nは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さいほど音声認識性能が高いことを示す。
【0105】
音声認識は、有限状態トランスデューサに基づく認識器(T.hori, et al., “Efficient WFST-based one-pass decoding with on-the fly hypothesis rescoring in extremely large vocabulary continuous speech recognition,” IEEE Trans. On ALSP, vol. 15, no. 4. pp.1352-1365, May 2007.)により行い、音響モデルには話者独立のTriphon HMMを用いており、各HMMの構造は3状態のLeft-to-right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は3,000である。
【0106】
音声認識の音響特徴量は、1フレームの時間長を20msとし、10ms毎にフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient)、対数パワー値、各々の1次及び2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri-gramを用い語彙数は20,000単語である。
表1に評価結果を示す。
【0107】
【表1】

【0108】
このようにこの発明の雑音抑圧装置は、従来技術よりも優れた雑音抑圧性能を示すことが確認できた。図13に、時間領域の音声波形を示す。図13(a)は、目的信号である音声信号に空港ロビー雑音を重畳させた音響信号oτである。図13(b)は、この発明の雑音抑圧装置にその音響信号oτを入力して得られた雑音抑圧音声^sτである。雑音が効果的に抑圧されている様子が分かる。
【0109】
以上述べたようにこの発明の雑音抑圧装置は、雑音信号が重畳した音響信号を、時間変化を伴わないバイアス成分と時間変動を伴う残差成分とに分解して、それぞれの成分を高精度に推定するので、雑音抑圧性能を高めることが出来る。
【0110】
なお、説明した実施例では、窓関数wにハミング窓を用いて説明したが、方形窓、ハニング窓、ブラックマン窓などの他の窓関数を用いても良い。また、無音GMM130とクリーン音声GMM131の代わりに、音声信号の確率モデルとしてHMM(Hidden Markov Model)等の他の確率モデルを用いても良い。また、無音GMM130とクリーン音声GMM131の2つのGMMだけでなく、より多くのGMMを用いても良い。また、自己回帰係数の次元を2以上に設定しても良い。そうすることで自己回帰係数の次数に応じて残差成分の推定性能が向上することが期待される。また、加重平均処理手段124において重み付け平均ではなく、最大の重みを持つ推定結果をそのまま用いるようにしても良い。
【0111】
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0112】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0113】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0114】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0115】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
目的信号である音声信号に雑音信号が重畳した音響信号を入力として、上記音響信号の一定時間長をフレームとしたフレーム毎に複素数スペクトルと対数メルスペクトルを音響特徴量として抽出する音響特徴抽出部と、
上記対数メルスペクトルと、無音GMMとクリーン音声GMMのパラメータと、を入力として上記雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定する雑音バイアス成分推定部と、
上記対数メルスペクトルと上記バイアス成分と、上記無音GMMと上記クリーン音声GMMのパラメータと、を入力として上記雑音信号と上記バイアス成分との差分である残差成分を最適推定する雑音残差成分推定部と、
上記対数メルスペクトルと上記複素数スペクトルと、上記バイアス成分と上記残差成分と、上記無音GMMと上記クリーン音声GMMのパラメータと、を入力として上記雑音信号を抑圧した音響信号を出力する雑音抑圧部と、
を具備した雑音抑圧装置。
【請求項2】
請求項1に記載した雑音抑圧装置において、
上記雑音信号を、上記バイアス成分と自己回帰モデルで表現した上記残差成分の和で表し、その雑音信号の時系列をバイアス付き自己回帰モデルで推定することを特徴とする雑音抑圧装置。
【請求項3】
請求項1又は2に記載した雑音抑圧装置において、
上記雑音バイアス成分推定部は、
上記対数メルスペクトルを入力として、その対数メルスペクトルを所定のフレーム数毎に平均化したバイアス成分初期値と、そのバイアス成分初期値の対角分散行列を推定するバイアス成分初期値推定手段と、
上記バイアス成分初期値と、無音GMMとクリーン音声GMMのパラメータを用いて対数メルスペクトルの確率モデルをGMMで構成する確率モデル生成手段と、
上記所定フレーム数毎の繰り返し推定における上記対数スペクトルの確率モデルのコスト関数の期待値を計算する期待値計算処理手段と、
上記コスト関数の期待値を最大化するバイアス成分をニュートン法によって最適化して更新するパラメータ更新処理手段と、
上記バイアス成分が収束するまで上記確率モデル生成手段と期待値計算処理手段とパラメータ更新処理手段の動作を繰り返す収束判定処理手段と、
を備えることを特徴とする雑音抑圧装置。
【請求項4】
請求項1乃至3の何れかに記載した雑音抑圧装置において、
上記雑音残差成分推定部は、
上記対数メルスペクトルと上記バイアス成分の差である残差成分を所定フレーム数毎に平均化して残差成分の初期値を推定する残差成分初期値推定手段と、
1フレーム前の残差成分推定値と自己回帰行列を乗じて、現在のフレームの残差成分予測値を自己回帰モデルによって予測する残差成分予測処理手段と、
上記対数メルスペクトルと上記バイアス成分と上記残差成分予測値と、上記無音GMMと上記クリーン音声GMMのパラメータを入力として、上記それぞれのGMMに含まれる正規分布の合計数と同数の残差成分推定値候補を計算する残差成分推定処理手段と、
上記残差成分推定値候補と、上記無音GMMと上記クリーン音声GMMのパラメータを入力として現在のフレームにおける対数メルスペクトルのGMMパラメータを生成する確率モデル生成処理手段と、
上記対数メルスペクトルと現在のフレームにおける対数スペクトルのGMMパラメータを入力として、音声非存在確率/存在確率と事後確率とを計算し、上記残差成分推定値候補を加重平均して残差成分の推定値を計算する加重平均処理手段と、
上記所定フレーム数毎の繰り返し推定における上記対数スペクトルの確率モデルのコスト関数の期待値を並列非線形カルマンフィルタの確率モデルで計算する期待値計算処理手段と、
上記コスト関数の期待値を最大化するように上記自己回帰行列を更新するパラメータ更新処理手段と、
上記自己回帰行列が収束するまで上記残差成分予測処理手段と上記残差成分推定処理手段と上記確率モデル生成処理手段と上記加重平均処理手段と上記期待値計算処理手段と上記パラメータ更新処理手段の動作を繰り返す収束判定処理手段と、
を備えることを特徴とする雑音抑圧装置。
【請求項5】
請求項4に記載した雑音抑圧装置において、
上記パラメータ更新処理手段は、
上記自己回帰行列を、上記残差成分の時系列とEMアルゴリズムを用いて最適化するものであることを特徴とする雑音抑圧装置。
【請求項6】
目的信号である音声信号に雑音信号が重畳した音響信号を入力として、上記音響信号の一定時間長をフレームとしたフレーム毎に複素数スペクトルと対数メルスペクトルを音響特徴量として抽出する音響特徴抽出過程と、
上記対数メルスペクトルと、無音GMMとクリーン音声GMMのパラメータと、を入力として上記雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定する雑音バイアス成分推定過程と、
上記対数メルスペクトルと上記バイアス成分と、上記無音GMMと上記クリーン音声GMMのパラメータと、を入力として上記雑音信号と上記バイアス成分との差分である残差成分を最適推定する雑音残差成分推定過程と、
上記対数メルスペクトルと上記複素数スペクトルと、上記バイアス成分と上記残差成分と、上記無音GMMと上記クリーン音声GMMのパラメータと、を入力として上記雑音信号を抑圧した音響信号を出力する雑音抑圧過程と、
を備えた雑音抑圧方法。
【請求項7】
請求項6に記載した雑音抑圧方法において、
上記雑音信号を、上記バイアス成分と自己回帰モデルで表現した上記残差成分の和で表し、その雑音信号の時系列をバイアス付き自己回帰モデルで推定することを特徴とする雑音抑圧方法。
【請求項8】
請求項6又は7に記載した雑音抑圧方法において、
上記雑音バイアス成分推定過程は、
上記対数メルスペクトルを入力として、その対数メルスペクトルを所定のフレーム数毎に平均化したバイアス成分初期値と、そのバイアス成分初期値の対角分散行列を推定するバイアス成分初期値推定ステップと、
上記バイアス成分初期値と、無音GMMとクリーン音声GMMのパラメータを用いて対数メルスペクトルの確率モデルをGMMで構成する確率モデル生成ステップと、
上記所定フレーム数毎の繰り返し推定における上記対数スペクトルの確率モデルの確率モデルのコスト関数の期待値を計算する期待値計算処理ステップと、
上記コスト関数の期待値を最大化するバイアス成分をニュートン法によって最適化して更新するパラメータ更新処理ステップと、
上記バイアス成分が収束するまで上記確率モデル生成手段と期待値計算処理手段とパラメータ更新処理手段の動作を繰り返す収束判定処理ステップと、
を含むことを特徴とする雑音抑圧方法。
【請求項9】
請求項6乃至8の何れかに記載した雑音抑圧方法において、
上記雑音残差成分推定過程は、
上記対数スペクトルと上記バイアス成分の差である残差成分を所定フレーム数毎に平均化して残差成分の初期値を推定する残差成分初期値推定ステップと、
1フレーム前の残差成分推定値と自己回帰行列を乗じて、現在のフレームの残差成分予測値を自己回帰モデルによって予測する残差成分予測処理ステップと、
上記対数スペクトルと上記バイアス成分と上記残差成分予測値と、上記無音GMMと上記クリーン音声GMMのパラメータを入力として、上記それぞれのGMMに含まれる正規分布の合計数と同数の残差成分推定値候補を計算する残差成分推定処理ステップと、
上記残差成分推定値候補と、上記無音GMMと上記クリーン音声GMMのパラメータを入力として現在のフレームにおける対数スペクトルのGMMパラメータを生成する確率モデル生成処理ステップと、
上記対数メルスペクトルと現在のフレームにおける対数スペクトルのGMMパラメータを入力として、音声非存在確率/存在確率と事後確率とを計算し、上記残差成分推定値候補を加重平均して残差成分の推定値を計算する加重平均処理ステップと、
上記所定フレーム数毎の繰り返し推定における上記対数スペクトルの確率モデルのコスト関数の期待値を並列非線形カルマンフィルタの確率モデルで計算する期待値計算処理ステップと、
上記コスト関数の期待値を最大化するように上記自己回帰行列を更新するパラメータ更新処理ステップと、
上記自己回帰行列が収束するまで上記残差成分予測処理手段と上記残差成分推定処理手段と上記確率モデル生成処理手段と上記加重平均処理手段と上記期待値計算処理手段と上記パラメータ更新処理手段の動作を繰り返す収束判定処理ステップと、
を含むことを特徴とする雑音抑圧方法。
【請求項10】
請求項9に記載した雑音抑圧方法において、
上記パラメータ更新処理ステップは、
上記自己回帰行列を、上記残差成分の時系列とEMアルゴリズムを用いて最適化するステップであることを特徴とする雑音抑圧方法。
【請求項11】
請求項6乃至10の何れかに記載した雑音抑圧方法をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−123185(P2012−123185A)
【公開日】平成24年6月28日(2012.6.28)
【国際特許分類】
【出願番号】特願2010−273702(P2010−273702)
【出願日】平成22年12月8日(2010.12.8)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】