雑音抑圧装置とその方法とプログラム

【課題】雑音の音響特徴量を、時間変化を伴わないバイアス成分と残差成分とに分けて推定する雑音抑圧装置を提供する。
【解決手段】雑音バイアス成分推定部は、対数メルスペクトルと、無音ＧＭＭとクリーン音声ＧＭＭのパラメータと、を入力として雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定し、雑音残差成分推定部が、対数メルスペクトルとバイアス成分と、無音ＧＭＭとクリーン音声ＧＭＭのパラメータと、を入力として雑音信号とバイアス成分との差分である残差成分を最適推定する。そして、雑音抑圧部は、対数メルスペクトルと複素数スペクトルと、バイアス成分と残差成分と、無音ＧＭＭとクリーン音声ＧＭＭのパラメータと、を入力として雑音信号を抑圧した音響信号を出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、目的信号である音声信号に雑音信号が重畳した音響信号から、雑音信号を抑圧して目的信号を抽出する雑音抑圧装置と、その方法とプログラムに関する。
【背景技術】
【０００２】
自動音声認識技術を実際の環境で利用する場合においては、処理対象とする目的信号（音声信号）以外の信号、つまり雑音が含まれる音響信号から雑音を取り除き、所望の目的信号のみを抽出する必要がある。その雑音抑圧性能の向上は、早急に解決されるべき課題である。
【０００３】
非特許文献１には、予め推定した音声信号と雑音信号の確率モデルから入力信号の確率モデルを生成して確率モデルと入力信号全体の統計量との差分をテイラー展開で表現し、その差分をＥＭアルゴリズムを用いて推定して入力信号の確率モデルを最適化する。そして、その後、最適化された入力信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている。
【０００４】
また、非特許文献２には、並列非線形カルマンフィルタにより雑音信号を推定して音声信号区間検出と雑音抑圧で確率モデルを共有して情報の共有を密にし、音声信号区間検出結果に応じた最適な雑音抑圧フィルタを設計する音声信号区間検出機能付き雑音抑圧方法が開示されている。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】P. J. Moreno, B. Raj, and R. M. Stern, “A vector Taylor series approach for environment-independent speech recognition,” in Proceedings of ICASSP ’96, vol. II, pp. 733-736, May 1996.
【非特許文献２】Masakiyo Fujimoto, Kentaro Ishizuka, and Tomohiro Nakatani, “Study of Integration of Statistical Model-Based Voice Activity Detection and Noise Suppression,” in Proceedings of Interspeech ’08, pp. 2008-2011, Sept. 2008.
【発明の概要】
【発明が解決しようとする課題】
【０００６】
非特許文献１に開示された技術では、収音された入力信号全体を用いてＥＭアルゴリズムにより入力信号の確率モデルを最適化するが、入力音響信号に含まれる雑音信号の特徴が定常的なものであるという前提のもとで雑音抑圧を行う。しかし、実環境における雑音信号の多くは非定常的な特徴を持っている。つまり、雑音信号の統計的な特徴が時間の経過に伴って変動するので、雑音の時間変動に対応できず、十分な雑音抑圧性能が得られない。
【０００７】
非特許文献２には、並列非線形カルマンフィルタにより非定常的な雑音信号を逐次的に推定する方法が開示されているが、雑音の潜在的な成分（パラメータ）の存在について考慮されておらず、並列非線形カルマンフィルタの逐次推定手法に適さない成分が存在しても逐次推定手法によって雑音信号を推定してしまう。その結果、雑音信号の推定誤差が増大し、十分な雑音抑圧性能が得られない場合がある。
【０００８】
この発明は、このような点に鑑みてなされたものであり、雑音信号を、定常成分（バイアス成分）と非定常成分（残差成分）とに分解することで、高精度に雑音を推定して抑圧することが可能な雑音抑圧装置と、その方法とプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００９】
この発明の雑音抑圧装置は、音響特徴抽出部と、雑音バイアス成分推定部と、雑音残差成分推定部と、雑音抑圧部と、を具備する。音響特徴抽出部は、目的信号である音声信号に雑音信号が重畳した音響信号を入力として、上記音響信号の一定時間長をフレームとしたフレーム毎に複素数スペクトルと対数メルスペクトルを音響特徴量として抽出する。雑音バイアス成分推定部は、対数メルスペクトルと、無音ＧＭＭとクリーン音声ＧＭＭのパラメータと、を入力として雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定する。雑音残差成分推定部は、対数メルスペクトルとバイアス成分と、無音ＧＭＭとクリーン音声ＧＭＭのパラメータと、を入力として雑音信号とバイアス成分との差分である残差成分を最適推定する。雑音抑圧部は、対数メルスペクトルと複素数スペクトルと、バイアス成分と残差成分と、無音ＧＭＭとクリーン音声ＧＭＭのパラメータと、を入力として雑音信号を抑圧した音響信号を出力する。
【発明の効果】
【００１０】
この発明の雑音抑圧装置は、雑音信号が重畳した音響信号を、時間変化を伴わないバイアス成分と、時間変動を伴う残差成分とに分解し、各々の成分に適した推定方法を適用して雑音を高精度に推定するので、雑音抑圧性能を高めることが出来る。
【図面の簡単な説明】
【００１１】
【図１】雑音信号の２次元特徴量空間を概念的に示す図。
【図２】この発明の雑音抑圧装置１００の機能構成例を示す図。
【図３】雑音抑圧装置１００の動作フローを示す図。
【図４】雑音バイアス成分推定部１１の機能構成例を示す図。
【図５】雑音バイアス成分推定部１１の動作フローを示す図。
【図６】雑音残差成分推定部１２の機能構成例を示す図。
【図７】雑音残差成分推定部１２の動作フローを示す図。
【図８】雑音抑圧部１４の機能構成例を示す図。
【図９】雑音抑圧フィルタ推定部１４０の機能構成例を示す図。
【図１０】雑音抑圧フィルタ推定部１４０の動作フローを示す図。
【図１１】雑音抑圧フィルタ適用部１４１の機能構成例を示す図。
【図１２】雑音抑圧フィルタ適用部１４１の動作フローを示す図。
【図１３】時間領域の音声波形を示す図であり、（ａ）は目的信号である音声信号に空港ロビー雑音を重畳させた音響信号ｏ_τであり、（ｂ）はこの発明の雑音抑圧装置にその音響信号ｏ_τを入力して得られた雑音抑圧音声＾ｓ_τを示す図である。
【発明を実施するための形態】
【００１２】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。なお、以下の説明において、説明の中で使用する記号「＾」、「〜」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においては、これらの記号は本来の位置に記述している。また、各変数は特にことわりの無い限り縦ベクトルである。実施例の説明の前に、この発明の基本的な考えについて説明する。
【００１３】
〔この発明の基本的な考え〕
この発明の雑音抑圧装置は、雑音信号を、時間不変の定常成分（バイアス成分）と時間変動を伴う非定常成分（残差成分）とに分解して考える。
【００１４】
図１の横軸は１次元目の音響特徴量を表し、縦軸は２次元目の音響特徴量を表す。描写の問題から２次元の音響特徴量空間のみを示している。雑音信号をバイアス成分と残差成分の２つから構成されるものと考えると、バイアス成分μ_Ｎは雑音Ｎ_ｔの音響特徴量空間の重心とみなすことができ、残差成分〜Ｎ_ｔは雑音〜Ｎ_ｔとバイアス成分μ_Ｎとの差分であるとみなすことが出来る。
【００１５】
このように考えると、あるフレームｔにおける雑音の音響特徴量（例えば、２４次元の対数メルスペクトルベクトル）をＮ_ｔとすると、Ｎ_ｔは式（１）に示すように時間変化を伴わないバイアス成分μ_Ｎと残差成分〜Ｎ_ｔとに分解することが可能である。
【００１６】
【数１】

【００１７】
そして、この発明では、残差成分の時間変化を予測誤差Ｕ_ｔを伴って式（２）に示すような自己回帰モデルを用いて表現する。
【００１８】
【数２】

【００１９】
ここで、Ｆは自己回帰係数を対角成分に持つ行列である。予測誤差Ｕ_ｔは平均ベクトル０、対角分散行列Σ_Ｕの多次元白色雑音とする。Σ_Ｕの各対角成分は微小な値（例えば0.001）を持つものとする。
式（２）を式（１）に代入することにより対数メルスペクトルベクトルＮ_ｔは、式（３）に示すようなバイアス付き自己回帰モデルで表現することが出来る。
【００２０】
【数３】

【００２１】
この発明は、式（３）に示したバイアス付き自己回帰モデルに基づいて雑音を推定し、雑音抑圧処理を行うものである。
【実施例１】
【００２２】
図２に、この発明の雑音抑圧装置１００の機能構成例を示す。その動作フローを図２に示す。雑音抑圧装置１００は、音響特徴抽出部１０と、雑音バイアス成分推定部１１と、雑音残差成分推定部１２と、ＧＭＭ記憶部１３と、雑音抑圧部１４と、を具備する。ＧＭＭ記憶部１３は、無音ＧＭＭ１３０とクリーン音声ＧＭＭ１３１とで構成される。
【００２３】
ＧＭＭ記憶部１３を除く各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。
【００２４】
雑音抑圧装置１００は、目的信号である音声信号に雑音信号が重畳した音響信号ｏ_τを入力信号として、時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出して、１フレーム毎に雑音抑圧処理を行う。音響信号ｏ_τは、図示しないＡ/Ｄ変換器によって離散値化された信号であり、添え字τはその離散信号のサンプル点を表わす。１フレームは、例えば、サンプリング周波数を１６ＫＨｚとした場合にＦｒａｍｅ＝３２０個のサンプル点（1/16KHz×320）の２０ｍｓに設定される。
【００２５】
音響特徴抽出部１０は、フレーム毎に複素スペクトルＳｐｃ_ｔと対数メルスペクトルＯ_ｔを、音響特徴量として抽出する（ステップＳ１０）。雑音バイアス成分推定部１１は、対数メルスペクトルＯ_ｔと、無音ＧＭＭ１３０とクリーン音声ＧＭＭ１３１のパラメータとを入力として、雑音信号の音響特徴量空間の重心であるバイアス成分μ_Ｎを最適推定する（ステップＳ１１）。
【００２６】
雑音残差成分推定部１２は、対数メルスペクトルＯ_ｔとバイアス成分μ_Ｎと、無音ＧＭＭ１３０とクリーン音声ＧＭＭ１３１のパラメータとを入力として、雑音信号とバイアス成分μ_Ｎとの差分である残差成分〜Ｎ_ｔと二乗誤差分散行列〜Σ_Ｎ，ｔを最適推定する（ステップＳ１２）。雑音抑圧部１４は、対数メルスペクトルＯ_ｔと複素数スペクトルＳｐｃ_ｔと、バイアス成分μ_Ｎと残差成分〜Ｎ_ｔと二乗誤差分散行列〜Σ_Ｎ，ｔと、無音ＧＭＭ１３０とクリーン音声ＧＭＭ１３１のパラメータと、を入力として雑音信号を抑圧した音響信号＾ｓ_τを出力する（ステップＳ１４）。
【００２７】
このように雑音抑圧装置１００は、雑音信号が重畳した音響信号を、時間変化を伴わないバイアス成分と、時間変動を伴う残差成分〜Ｎ_ｔとに分解し、各々の成分に適した推定方法を適用するので雑音抑圧性能を向上させることが可能である。以下、雑音抑圧装置の各機能構成部の動作を詳しく説明する。
【００２８】
音響特徴抽出部１０は、音響信号ｏ_ｔ，ｎを例えばＳｈｉｆｔ＝１６０個のサンプル点ずつ始点を移動させながら切り出す。その際、例えば、式（４）に示すハミング窓のような窓関数ｗ_ｎを掛け合わせて切り出す。
【００２９】
【数４】

【００３０】
ここでｔはフレーム番号、ｎはフレーム内のｎ番目のサンプル点を表す。切り出し後の音響信号ｏ_ｔ，ｎに対して、２のべき乗で且つフレーム以上の値のＭ点（例えば５１２）の高速フーリエ変換処理を適用して複素数スペクトルＳｐｃ_ｔ＝{Ｓｐｃ_ｔ，０，…，Ｓｐｃ_ｔ，ｍ，…，Ｓｐｃ_{ｔ，Ｍ−1}}を得る。ｍは周波数ビン番号である。
【００３１】
次に、複素スペクトルＳｐｃ_ｔ，ｍの絶対値に対してメルフィルタバンク分析処理と対数化処理を適用してＬ次元（例えばＬ＝２４）の対数メルスペクトルを要素に持つベクトルＯ_ｔ＝{Ｏ_ｔ，０，…，Ｏ_ｔ，ｌ，…，Ｏ_{ｔ，Ｌ−１}}を算出する。ｌはベクトルの要素番号である。
【００３２】
音響特徴抽出部１０は、複素数スペクトルＳｐｃ_ｔを雑音抑圧部１４、対数メルスペクトルＯ_ｔを雑音バイアス成分推定部１１と雑音残差成分推定部１２と雑音抑圧部１４に出力する。
【００３３】
〔雑音バイアス成分推定部〕
図４に、雑音バイアス成分推定部１１の機能構成例を示す。その動作フローを図５に示す。雑音バイアス成分推定部１１は、バイアス成分初期値推定手段１１０と、確率モデル生成手段１１１と、期待値計算処理手段１１２と、パラメータ更新処理手段１１３と、収束判定処理手段１１４と、を備える。
【００３４】
バイアス成分初期値推定手段１１０は、対数メルスペクトルＯ_ｔを入力として、その対数メルスペクトルＯ_ｔを所定のフレーム数毎に平均化したバイアス成分初期値＾μ_Ｎ^{（ｉ＝０）}と、そのバイアス成分初期値＾μ_Ｎ^{（ｉ＝０）}の対角分散行列Σ_Ｎを推定する（ステップＳ１１０）。
【００３５】
バイアス成分初期値＾μ_Ｎ^{（ｉ＝０）}は、繰り返しインデックスｉを初期化（ステップＳ１１０a）した後、式（５）で計算される（ステップＳ１１０ｂ）。
【００３６】
【数５】

【００３７】
ここでＡは、初期値推定に要するフレーム数である（例えばＡ＝１０）。ｉは、ｉ回目の繰り返し回数を示す。バイアス成分の対角分散行列Σ_Ｎを式（６）で推定する（ステップＳ１１０ｂ）。
【００３８】
【数６】

【００３９】
対角分散行列Σ_Ｎは、繰り返しのインデックスｉに非依存のパラメータである。
確率モデル生成手段１１１は、バイアス成分初期値＾μ_Ｎ^{（ｉ＝０）}，Σ_Ｎと、無音ＧＭＭ１３０とクリーン音声ＧＭＭ１３１のパラメータを用いて対数メルスペクトルＯ_ｔの確率モデルをＧＭＭで構成する（ステップＳ１１１）。対数メルスペクトルＯ_ｔの確率モデルは式（７）に示すようなＧＭＭで構成する。
【００４０】
【数７】

【００４１】
ｂ_ｊ^{Ｂｉａｓ（ｉ）}（Ｏ_ｔ）は、確率モデル生成手段１１１で生成される対数メルスペクトルＯ_ｔの確率モデルであり、ｊ＝０は無音ＧＭＭ１３０のパラメータから生成した確率モデル、ｊ＝１はクリーン音声ＧＭＭ１３１のパラメータから生成した確率モデルであることを示す。また、関数Ｎ（・）は、式（８）で与えられる正規分布の確率密度関数である。
【００４２】
【数８】

【００４３】
ここで、ｋはＧＭＭに含まれる正規分布の番号、Ｋは総正規分布数である（例えばＫ＝２５６）。また、ｗ_ｊ，ｋは無音ＧＭＭ１３０若しくはクリーン音声ＧＭＭ１３１の混合重み、μ_{Ｏ，ｊ，ｋ}^（ｉ）とΣ_{Ｏ，ｊ，ｋ}^（ｉ）はバイアス成分＾μ_Ｎ^（ｉ）と無音ＧＭＭ１３０若しくはクリーン音声ＧＭＭ１３１のパラメータから生成された対数メルスペクトルＯ_ｔの確率モデルの平均ベクトルと対角分散行列である。
対数メルスペクトルＯ_ｔの確率モデルμ_{Ｏ，ｊ，ｋ}^（ｉ）と対角分散行列Σ_{Ｏ，ｊ，ｋ}^（ｉ）は次式で与えられる。
【００４４】
【数９】

【００４５】
ここで、μ_{Ｓ，ｊ，ｋ}とΣ_{Ｓ，ｊ，ｋ}は、それぞれ無音ＧＭＭ１３０若しくはクリーン音声ＧＭＭ１３１の平均ベクトルと対角分散行列である。関数ｌｏｇ（・）とｅｘｐ（・）はベクトルの要素毎に演算を行う。また、「１」は全ての要素が１の縦ベクトル、Ｉは単位行列、Ｈ_ｊ、ｋ^（ｉ）は関数ｈ（・）のヤコビ行列である。
【００４６】
期待値計算処理手段１１２は、所定フレーム数毎の繰り返し推定における対数スペクトルＳｐｃ_ｔの確率モデルのコスト関数Ｑ（・）の期待値を計算する（ステップＳ１１２）。コスト関数Ｑ（・）の期待値は、式（１２）により計算する。この計算は、ＥＭアルゴリズムにおけるＥ−ｓｔｅｐに当たる。
【００４７】
【数１０】

【００４８】
ここで、Ｏ_{０：Ｔ−１}＝{Ｏ_０，…，Ｏ_ｔ，…，Ｏ_Ｔ−１}であり、Ｔは対数メルスペクトルＯ_ｔの総フレーム数、Ｐ_ｔ，ｊ^（ｉ）とＰ_{ｔ，ｊ，ｋ}^（ｉ）はそれぞれ次式で与えられるフレームｔにおけるＧＭＭ種別ｊ若しくは正規分布ｋに対する事後確率である。特に、Ｐ_{ｔ，ｊ＝０}^（ｉ）を音声非存在確率、Ｐ_{ｔ，ｊ＝１}^（ｉ）を音声存在確率と定義する。
【００４９】
【数１１】

【００５０】
パラメータ更新処理手段１１３は、コスト関数Ｑ（・）の期待値を最大化するバイアス成分＾μ_Ｎ^（ｉ）をニュートン法によって最適化して更新する（ステップＳ１１３）。この更新ステップは、ＥＭアルゴリズムにおけるＭ−ｓｔｅｐに当たる。
【００５１】
バイアス成分＾μ_Ｎ^（ｉ）の更新は、式（１２）のコスト関数Ｑ（・）を最大にするような＾μ_Ｎ^（ｉ）を求めることにより行う。その方法は、通常、コスト関数Ｑ（・）のバイアス成分＾μ_Ｎ^（ｉ）に関する偏微分を０にすることにより求める。しかし、式（１２）のコスト関数Ｑ（・）は非線形関数で与えられるため、バイアス成分＾μ_Ｎ^（ｉ）の解析解を求めることは困難である。
従って、パラメータ更新処理手段１１３は、次式のニュートン法によってバイアス成分＾μ_Ｎ^（ｉ）を最適化する。
【００５２】
【数１２】

【００５３】
ここで、∇Ｑ^（ｉ）と∇^２Ｑ^（ｉ）は、それぞれｉ回目の繰り返し推定におけるコスト関数Ｑ（・）の勾配ベクトルとヘッセ行列である。
収束判定処理手段１１４は、バイアス成分＾μ_Ｎ^（ｉ）が収束するまで確率モデル生成手段１１１と期待値計算処理手段１１２とパラメータ更新処理手段１１３の動作を繰り返す（ステップＳ１１４）。
収束条件の例を次式に示す。η＝0.0001とする。
【００５４】
【数１３】

【００５５】
式（１６）の収束条件を満たす場合はμ_Ｎ＝＾μ_Ｎ^（ｉ）として、雑音バイアス成分推定部１１の処理を終了する（ステップＳ１１４ａのＹｅｓ）。満たさない場合は繰り返しのインデックスｉをインクリメントして（ステップＳ１１４ｂ）、確率モデル生成ステップＳ１１１以降の処理を繰り返す。
【００５６】
〔雑音残差成分推定部〕
図６に、雑音残差成分推定部１２の機能構成例を示す。その動作フローを図７に示す。雑音残差成分推定部１２は、残差成分初期値推定手段１２０と、残差成分予測処理手段１２１と、残差成分推定処理手段１２２と、確率モデル生成処理手段１２３と、加重平均処理手段１２４と、期待値計算処理手段１２５と、パラメータ更新処理手段１２６と、収束判定処理手段１２７と、を備える。
【００５７】
残差成分初期値推定手段１２０は、対数メルスペクトルＯ_ｔと雑音バイアス成分推定部１１が出力するバイアス成分μ_Ｎの差である残差成分を、所定フレーム数毎に平均して残差成分の初期値を推定する（ステップＳ１２０）。残差成分の初期値は、繰り返しのインデックスｉに非依存のパラメータとして次式によって推定し、全ての繰り返し推定の初期値として利用する。
【００５８】
【数１４】

【００５９】
また、残差成分初期値推定手段１２０は、自己回帰行列Ｆの初期値を以下のように設定する。各要素に対して、自己回帰係数の次元は例えば１次元とする。
【００６０】
【数１５】

【００６１】
残差成分予測処理手段１２１は、１フレーム前の残差成分推定値と自己回帰行列を乗じて、現在のフレームの残差成分予測値を自己回帰モデルによって予測する（ステップＳ１２１）。現在のフレームのパラメータは、次式に示すように自己回帰モデルによって予測する。
【００６２】
【数１６】

【００６３】
式（２０）と式（２１）において、〜Ｎ_{ｔ|ｔ−１}^（ｉ），〜Σ_{Ｎ，ｔ|ｔ−１}^（ｉ）はｉ回目の繰り返し推定、及びフレームｔにおける残差成分〜Ｎ_ｔの予測値であり、ｔ＝０の場合は初期値を用いて式（２２）と（２３）に示すように予測処理を行う。
【００６４】
【数１７】

【００６５】
残差成分推定処理手段１２２は、対数メルスペクトルＯ_ｔと雑音バイアス成分推定部１１が出力するバイアス成分μ_Ｎと、残差成分予測処理手段１２１が予測した残差成分予測値〜Ｎ_{ｔ|ｔ−１}^（ｉ），〜Σ_{Ｎ，ｔ|ｔ−１}^（ｉ）と無音ＧＭＭ１３０とクリーン音声ＧＭＭ１３１のパラメータμ_{Ｓ，ｊ，ｋ}とΣ_{Ｓ，ｊ，ｋ}を入力として、それぞれのＧＭＭに含まれる正規分布の合計数と同数の残差成分推定値候補を計算する（ステップＳ１２２）。
各ＧＭＭの推定は次式により行う。
【００６６】
【数１８】

【００６７】
上式において、〜Ｎ_{ｔ，ｊ，ｋ}^（ｉ），〜Σ_{Ｎ，ｔ，ｊ，ｋ}^（ｉ）はｉ回目の繰り返し推定、及びフレームｔにおける残差成分〜Ｎ_ｔの推定値候補である。
確率モデル生成処理手段１２３は、残差成分推定処理手段１２２で計算された残差成分推定値候補〜Ｎ_{ｔ，ｊ，ｋ}^（ｉ），〜Σ_{Ｎ，ｔ，ｊ，ｋ}^（ｉ）と、雑音バイアス成分推定部１１が出力するバイアス成分μ_Ｎと、無音ＧＭＭ１３０とクリーン音声ＧＭＭ１３１のパラメータμ_{Ｓ，ｊ，ｋ}とΣ_{Ｓ，ｊ，ｋ}を入力として、現在のフレームｔにおける対数メルスペクトルのＧＭＭパラメータ〜μ_{O，ｔ，ｊ，ｋ}^（ｉ），〜Σ_{O，ｔ，ｊ，ｋ}^（ｉ）を生成する（ステップＳ１２３）。
対数メルスペクトルＯ_ｔのフレームｔにおけるＧＭＭのパラメータを次式に示すように生成する。
【００６８】
【数１９】

【００６９】
加重平均処理手段１２４は、対数メルスペクトルＯ_ｔと、現在のフレームにおける対数メルスペクトルのＧＭＭパラメータを入力として、音声非存在確率／存在確率と事後確率を計算し、残差成分推定値候補を加重平均して残差成分の推定値を計算する（ステップＳ１２４）。式（３１）に示すように加重平均することにより、ｉ回目の繰り返し推定及びフレームｔにおける残差成分の推定値を得る。
【００７０】
【数２０】

【００７１】
【数２１】

【００７２】
期待値計算処理手段１２５は、所定フレーム数毎の繰り返し推定における対数メルスペクトルの確率モデルのコスト関数Ｑ（・）の期待値を、並列非線形カルマンフィルタの確率モデルで計算する（ステップＳ１２５）。この計算は、ＥＭアルゴリズムにおけるＥ−ｓｔｅｐに当たる。
フレームｔにおける並列非線形カルマンフィルタの確率モデルと尤度ｂ_ｊ^ＭＮＫＦ（Ｏ_ｔ）は式（３５）に示すように構成される。
【００７３】
【数２２】

【００７４】
すなわち、並列非線形カルマンフィルタの確率モデルのコスト関数Ｑ（・）の期待値は次式より得られる。
【００７５】
【数２３】

【００７６】
式（３６）において、並列非線形カルマンフィルタは各フレームｔにて確率モデルが変化するため、計算の効率化のため、コスト関数Ｑ（・）の期待値を以下に示すように再帰的に計算する。
【００７７】
【数２４】

【００７８】
フレームｔにてコスト関数Ｑ（・）の期待値を計算すると、次のフレームｔ＋１の処理に移る（ステップＳ１２５ｂ）。フレームｔ≧Ｔならば、ｉ回目の繰り返し推定における並列非線形カルマンフィルタによる残差成分の推定を終了する（ステップＳ１２５ｃのＹｅｓ）。
【００７９】
パラメータ更新処理手段１２６は、コスト関数Ｑ（・）の期待値を最大化するように自己回帰行列＾Ｆ^（ｉ）を更新する（ステップＳ１２６）。コスト関数Ｑ（・）の期待値を最大化する自己回帰行列＾Ｆ^（ｉ）は、コスト関数Ｑ（・）の＾Ｆ^（ｉ）に関する偏微分を０にすることにより求める。すなわち、自己回帰行列＾Ｆ^（ｉ）は次式により与えられる。
【００８０】
【数２５】

【００８１】
収束判定処理手段１２７は、自己回帰行列＾Ｆ^（ｉ）が収束するまで残差成分予測処理手段１２１と残差成分推定処理手段１２２と確率モデル生成処理手段１２３と加重平均処理手段１２４と期待値計算処理手段１２５とパラメータ更新処理手段１２６の動作を繰り返す（ステップＳ１２７ａのＮｏ）。
収束条件の例を次式に示す。η＝0.0001とする。
【００８２】
【数２６】

【００８３】
式（３９）の収束条件を満たす場合はＦ＝＾Ｆ^（ｉ）として、パラメータ更新処理手段１２６の処理を終了する（ステップＳ１２７ａのＹｅｓ）。満たさない場合は繰り返しのインデックスｉをインクリメントした後にｔ＝０として（ステップＳ１２７ｂ）、残差成分予測処理ステップＳ１２１以降の処理を繰り返す。
【００８４】
〔雑音抑圧部〕
図８に、雑音抑圧部１４の機能構成例を示す。雑音抑圧部１４は、雑音抑圧フィルタ推定部１４０と、雑音抑圧フィルタ適用部１４１と、を備える。雑音抑圧フィルタ推定部１４０は、対数メルスペクトルＯ_ｔと、バイアス成分μ_Ｎと、残差成分〜Ｎ_ｔ，〜Σ_Ｎ，ｔと、無音ＧＭＭ１３０とクリーン音声ＧＭＭ１３１のパラメータＷ_ｊ，ｋ，μ_{Ｓ，ｊ，ｋ}，Σ_{Ｓ，ｊ，ｋ}と、を入力として雑音抑圧フィルタＷ_ｔ，ｍ^Ｌｉｎを推定する。
【００８５】
雑音抑圧フィルタ適用部１４１は、複素スペクトルＳｐｃ_ｔと、雑音抑圧フィルタＷ_ｔ，ｍ^Ｌｉｎを入力として雑音を抑圧した雑音抑圧信号＾ｓ_τを出力する。雑音抑圧フィルタ推定部１４０と、雑音抑圧フィルタ適用部１４１の動作を詳しく説明する。
【００８６】
〔残響抑圧フィルタ推定部〕
図９に、雑音抑圧フィルタ推定部１４０の機能構成例を示す。その動作フローを図１０に示す。雑音抑圧フィルタ推定部１４０は、確率モデル生成処理手段１４００と、確率計算処理手段１４０１と、雑音抑圧フィルタ推定処理手段１４０２と、雑音抑圧フィルタ変換処理手段１４０３と、を備える。
【００８７】
確率モデル生成処理手段１４００は、雑音バイアス推定部１１が出力するバイアス成分μ_Ｎと、雑音残差成分推定部１２が出力する残差成分〜Ｎ_ｔ，〜Σ_Ｎ，ｔと、無音ＧＭＭ１３０とクリーン音声ＧＭＭのパラメータμ_{Ｓ，ｊ，ｋ}，Σ_{Ｓ，ｊ，ｋ}と、を入力として、対数メルスペクトルＯ_ｔのフレームｔにおけるＧＭＭのパラメータを以下のように生成する（ステップＳ１４００）。
【００８８】
【数２７】

【００８９】
確率計算処理手段１４０１は、対数メルスペクトルＯ_ｔと、確率モデル生成処理手段１４０が出力するＧＭＭパラメータと、無音ＧＭＭ１３０とクリーン音声ＧＭＭのパラメータｗ_ｊ，ｋとを入力として、音声非存在確率／存在確率Ｐ_ｔ，ｊと事後確率Ｐ_{ｔ，ｊ，ｋ}を計算する。
音声非存在確率／存在確率Ｐ_ｔ，ｊは式（４３）、事後確率Ｐ_{ｔ，ｊ，ｋ}は式（４４）で計算する（ステップＳ１４０１）。
【００９０】
【数２８】

【００９１】
雑音抑圧フィルタ推定処理手段１４０２は、バイアス成分μ_Ｎと残差成分〜Ｎ_ｔ，〜Σ_Ｎ，ｔと、事後確率Ｐ_{ｔ，ｊ，ｋ}と音声非存在確率／存在確率Ｐ_ｔ，ｊと、を入力としてメル周波数軸上での雑音抑圧フィルタＷ_ｔ，ｌ^Ｍｅｌを次式により推定する（ステップＳ１４０２）。次式はベクトル要素毎の表記である。
【００９２】
【数２９】

【００９３】
雑音抑圧フィルタ変換処理手段１４０３は、メル周波数軸上での雑音抑圧フィルタＷ_ｔ，ｌ^Ｍｅｌを３次スプライン補間により線形周波数軸上での雑音抑圧フィルタＷ_ｔ，ｍ^Ｌｉｎに変換する（ステップＳ１４０３）。
【００９４】
〔雑音抑圧フィルタ適用部〕
図１１に、雑音抑圧フィルタ適用部１４１の機能構成例を示す。その動作フローを図１２に示す。雑音抑圧フィルタ適用部１４１は、フィルタリング処理手段１４１０と、逆高速フーリエ変換処理手段１４１１と、波形連結処理手段１４１２と、を備える。
フィルタリング処理手段１４１０は、複素数スペクトルＳｐｃ_ｔに雑音抑圧フィルタＷ_ｔ，ｌ^Ｍｅｌを掛け合わせることにより雑音抑圧された複素数スペクトル＾Ｓ_ｔ，ｍ（式（４６））を出力する（ステップＳ１４１０）。式（４６）はベクトルの要素毎の標記である。
【００９５】
【数３０】

【００９６】
逆高速フーリエ変換処理手段１４１１は、複素数スペクトル＾Ｓ_ｔ，ｍに対して逆高速フーリエ変換を適用することにより、フレームｔにおける雑音抑圧音声＾ｓ_ｔ，ｎを得る（ステップＳ１４１１）。
波形連結処理手段１４１２は、各フレームの雑音抑圧音声＾ｓ_ｔ，ｎを、次式に示すように窓関数ｗ_ｎを解除しながら連結して連続した雑音抑圧音声＾ｓ_ｔ，ｎを得る（ステップＳ１４１２）。
【００９７】
【数３１】

【００９８】
〔評価実験結果〕
この発明の効果を確認する目的で、この発明の雑音抑圧装置の雑音抑圧性能を評価する実験を行った。先ず、実験条件を説明する。
【００９９】
評価用データには、ＩＰＡ（Information-technology promotion agency,Japan）-98-TestSetのうち、男声２３名が発声したデータ１００文を用いており、これらの音声データに対して、空港ロビー、駅プラットフォーム、街頭にて別途収録した雑音をそれぞれＳ/Ｎ比０dB，５dB，１０dBにて計算機上で重畳した。つまり、雑音３種類×Ｓ/Ｎ比３種類の９種類の評価データを作成した。
【０１００】
それぞれの音声データは、サンプリング周波数１６KHz、量子化ビット数１６ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、１フレームの時間長を２０ｍｓ（１フレーム＝３２０サンプル点）とし、１０ｍｓ毎にフレームの始点を移動させて音響特徴抽出部１０を適用した。
【０１０１】
無音ＧＭＭ１３０、クリーン音声ＧＭＭ１３１には、Ｌ＝２４次元の対数メルスペクトルを音響特徴量とする混合分布数Ｋ＝２５６のＧＭＭを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。
【０１０２】
残差成分初期値推定手段１２０の自己回帰係数の次元は１次元とした。初期値推定に要するフレーム数はＡ＝１０とした。収束判定処理手段１１４と１２７の収束条件のパラメータはη＝0.0001とした。残差成分予測処理ステップＳ１２１において、Σ_Ｕの各対角成分には0.001を与えた。
性能の評価は音声認識により行い、評価尺度は次式の単語誤り率ＷＥＲで行った。
【０１０３】
【数３２】

【０１０４】
ここで、Ｎは総単語数、Ｄは脱落誤り単語数、Ｓは置換誤り単語数、Ｉは挿入誤り単語数であり、ＷＥＲの値が小さいほど音声認識性能が高いことを示す。
【０１０５】
音声認識は、有限状態トランスデューサに基づく認識器（T.hori, et al., “Efficient WFST-based one-pass decoding with on-the fly hypothesis rescoring in extremely large vocabulary continuous speech recognition,” IEEE Trans. On ALSP, vol. 15, no. 4. pp.1352-1365, May 2007.）により行い、音響モデルには話者独立のTriphon ＨＭＭを用いており、各ＨＭＭの構造は３状態のLeft-to-right型ＨＭＭであり、各状態は１６の正規分布を持つ。ＨＭＭ全体の状態数は3,000である。
【０１０６】
音声認識の音響特徴量は、１フレームの時間長を２０ｍｓとし、１０ｍｓ毎にフレームの始点を移動させて分析した１２次元のＭＦＣＣ（Mel-frequency cepstral coefficient）、対数パワー値、各々の１次及び２次の回帰係数を含む合計３９次元のベクトルである。また、言語モデルにはTri-gramを用い語彙数は20,000単語である。
表１に評価結果を示す。
【０１０７】
【表１】

【０１０８】
このようにこの発明の雑音抑圧装置は、従来技術よりも優れた雑音抑圧性能を示すことが確認できた。図１３に、時間領域の音声波形を示す。図１３（ａ）は、目的信号である音声信号に空港ロビー雑音を重畳させた音響信号ｏ_τである。図１３（ｂ）は、この発明の雑音抑圧装置にその音響信号ｏ_τを入力して得られた雑音抑圧音声＾ｓ_τである。雑音が効果的に抑圧されている様子が分かる。
【０１０９】
以上述べたようにこの発明の雑音抑圧装置は、雑音信号が重畳した音響信号を、時間変化を伴わないバイアス成分と時間変動を伴う残差成分とに分解して、それぞれの成分を高精度に推定するので、雑音抑圧性能を高めることが出来る。
【０１１０】
なお、説明した実施例では、窓関数ｗ_ｎにハミング窓を用いて説明したが、方形窓、ハニング窓、ブラックマン窓などの他の窓関数を用いても良い。また、無音ＧＭＭ１３０とクリーン音声ＧＭＭ１３１の代わりに、音声信号の確率モデルとしてＨＭＭ（Hidden Markov Model）等の他の確率モデルを用いても良い。また、無音ＧＭＭ１３０とクリーン音声ＧＭＭ１３１の２つのＧＭＭだけでなく、より多くのＧＭＭを用いても良い。また、自己回帰係数の次元を２以上に設定しても良い。そうすることで自己回帰係数の次数に応じて残差成分の推定性能が向上することが期待される。また、加重平均処理手段１２４において重み付け平均ではなく、最大の重みを持つ推定結果をそのまま用いるようにしても良い。
【０１１１】
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【０１１２】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【０１１３】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。
【０１１４】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【０１１５】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項１】
目的信号である音声信号に雑音信号が重畳した音響信号を入力として、上記音響信号の一定時間長をフレームとしたフレーム毎に複素数スペクトルと対数メルスペクトルを音響特徴量として抽出する音響特徴抽出部と、
上記対数メルスペクトルと、無音ＧＭＭとクリーン音声ＧＭＭのパラメータと、を入力として上記雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定する雑音バイアス成分推定部と、
上記対数メルスペクトルと上記バイアス成分と、上記無音ＧＭＭと上記クリーン音声ＧＭＭのパラメータと、を入力として上記雑音信号と上記バイアス成分との差分である残差成分を最適推定する雑音残差成分推定部と、
上記対数メルスペクトルと上記複素数スペクトルと、上記バイアス成分と上記残差成分と、上記無音ＧＭＭと上記クリーン音声ＧＭＭのパラメータと、を入力として上記雑音信号を抑圧した音響信号を出力する雑音抑圧部と、
を具備した雑音抑圧装置。
【請求項２】
請求項１に記載した雑音抑圧装置において、
上記雑音信号を、上記バイアス成分と自己回帰モデルで表現した上記残差成分の和で表し、その雑音信号の時系列をバイアス付き自己回帰モデルで推定することを特徴とする雑音抑圧装置。
【請求項３】
請求項１又は２に記載した雑音抑圧装置において、
上記雑音バイアス成分推定部は、
上記対数メルスペクトルを入力として、その対数メルスペクトルを所定のフレーム数毎に平均化したバイアス成分初期値と、そのバイアス成分初期値の対角分散行列を推定するバイアス成分初期値推定手段と、
上記バイアス成分初期値と、無音ＧＭＭとクリーン音声ＧＭＭのパラメータを用いて対数メルスペクトルの確率モデルをＧＭＭで構成する確率モデル生成手段と、
上記所定フレーム数毎の繰り返し推定における上記対数スペクトルの確率モデルのコスト関数の期待値を計算する期待値計算処理手段と、
上記コスト関数の期待値を最大化するバイアス成分をニュートン法によって最適化して更新するパラメータ更新処理手段と、
上記バイアス成分が収束するまで上記確率モデル生成手段と期待値計算処理手段とパラメータ更新処理手段の動作を繰り返す収束判定処理手段と、
を備えることを特徴とする雑音抑圧装置。
【請求項４】
請求項１乃至３の何れかに記載した雑音抑圧装置において、
上記雑音残差成分推定部は、
上記対数メルスペクトルと上記バイアス成分の差である残差成分を所定フレーム数毎に平均化して残差成分の初期値を推定する残差成分初期値推定手段と、
１フレーム前の残差成分推定値と自己回帰行列を乗じて、現在のフレームの残差成分予測値を自己回帰モデルによって予測する残差成分予測処理手段と、
上記対数メルスペクトルと上記バイアス成分と上記残差成分予測値と、上記無音ＧＭＭと上記クリーン音声ＧＭＭのパラメータを入力として、上記それぞれのＧＭＭに含まれる正規分布の合計数と同数の残差成分推定値候補を計算する残差成分推定処理手段と、
上記残差成分推定値候補と、上記無音ＧＭＭと上記クリーン音声ＧＭＭのパラメータを入力として現在のフレームにおける対数メルスペクトルのＧＭＭパラメータを生成する確率モデル生成処理手段と、
上記対数メルスペクトルと現在のフレームにおける対数スペクトルのＧＭＭパラメータを入力として、音声非存在確率／存在確率と事後確率とを計算し、上記残差成分推定値候補を加重平均して残差成分の推定値を計算する加重平均処理手段と、
上記所定フレーム数毎の繰り返し推定における上記対数スペクトルの確率モデルのコスト関数の期待値を並列非線形カルマンフィルタの確率モデルで計算する期待値計算処理手段と、
上記コスト関数の期待値を最大化するように上記自己回帰行列を更新するパラメータ更新処理手段と、
上記自己回帰行列が収束するまで上記残差成分予測処理手段と上記残差成分推定処理手段と上記確率モデル生成処理手段と上記加重平均処理手段と上記期待値計算処理手段と上記パラメータ更新処理手段の動作を繰り返す収束判定処理手段と、
を備えることを特徴とする雑音抑圧装置。
【請求項５】
請求項４に記載した雑音抑圧装置において、
上記パラメータ更新処理手段は、
上記自己回帰行列を、上記残差成分の時系列とＥＭアルゴリズムを用いて最適化するものであることを特徴とする雑音抑圧装置。
【請求項６】
目的信号である音声信号に雑音信号が重畳した音響信号を入力として、上記音響信号の一定時間長をフレームとしたフレーム毎に複素数スペクトルと対数メルスペクトルを音響特徴量として抽出する音響特徴抽出過程と、
上記対数メルスペクトルと、無音ＧＭＭとクリーン音声ＧＭＭのパラメータと、を入力として上記雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定する雑音バイアス成分推定過程と、
上記対数メルスペクトルと上記バイアス成分と、上記無音ＧＭＭと上記クリーン音声ＧＭＭのパラメータと、を入力として上記雑音信号と上記バイアス成分との差分である残差成分を最適推定する雑音残差成分推定過程と、
上記対数メルスペクトルと上記複素数スペクトルと、上記バイアス成分と上記残差成分と、上記無音ＧＭＭと上記クリーン音声ＧＭＭのパラメータと、を入力として上記雑音信号を抑圧した音響信号を出力する雑音抑圧過程と、
を備えた雑音抑圧方法。
【請求項７】
請求項６に記載した雑音抑圧方法において、
上記雑音信号を、上記バイアス成分と自己回帰モデルで表現した上記残差成分の和で表し、その雑音信号の時系列をバイアス付き自己回帰モデルで推定することを特徴とする雑音抑圧方法。
【請求項８】
請求項６又は７に記載した雑音抑圧方法において、
上記雑音バイアス成分推定過程は、
上記対数メルスペクトルを入力として、その対数メルスペクトルを所定のフレーム数毎に平均化したバイアス成分初期値と、そのバイアス成分初期値の対角分散行列を推定するバイアス成分初期値推定ステップと、
上記バイアス成分初期値と、無音ＧＭＭとクリーン音声ＧＭＭのパラメータを用いて対数メルスペクトルの確率モデルをＧＭＭで構成する確率モデル生成ステップと、
上記所定フレーム数毎の繰り返し推定における上記対数スペクトルの確率モデルの確率モデルのコスト関数の期待値を計算する期待値計算処理ステップと、
上記コスト関数の期待値を最大化するバイアス成分をニュートン法によって最適化して更新するパラメータ更新処理ステップと、
上記バイアス成分が収束するまで上記確率モデル生成手段と期待値計算処理手段とパラメータ更新処理手段の動作を繰り返す収束判定処理ステップと、
を含むことを特徴とする雑音抑圧方法。
【請求項９】
請求項６乃至８の何れかに記載した雑音抑圧方法において、
上記雑音残差成分推定過程は、
上記対数スペクトルと上記バイアス成分の差である残差成分を所定フレーム数毎に平均化して残差成分の初期値を推定する残差成分初期値推定ステップと、
１フレーム前の残差成分推定値と自己回帰行列を乗じて、現在のフレームの残差成分予測値を自己回帰モデルによって予測する残差成分予測処理ステップと、
上記対数スペクトルと上記バイアス成分と上記残差成分予測値と、上記無音ＧＭＭと上記クリーン音声ＧＭＭのパラメータを入力として、上記それぞれのＧＭＭに含まれる正規分布の合計数と同数の残差成分推定値候補を計算する残差成分推定処理ステップと、
上記残差成分推定値候補と、上記無音ＧＭＭと上記クリーン音声ＧＭＭのパラメータを入力として現在のフレームにおける対数スペクトルのＧＭＭパラメータを生成する確率モデル生成処理ステップと、
上記対数メルスペクトルと現在のフレームにおける対数スペクトルのＧＭＭパラメータを入力として、音声非存在確率／存在確率と事後確率とを計算し、上記残差成分推定値候補を加重平均して残差成分の推定値を計算する加重平均処理ステップと、
上記所定フレーム数毎の繰り返し推定における上記対数スペクトルの確率モデルのコスト関数の期待値を並列非線形カルマンフィルタの確率モデルで計算する期待値計算処理ステップと、
上記コスト関数の期待値を最大化するように上記自己回帰行列を更新するパラメータ更新処理ステップと、
上記自己回帰行列が収束するまで上記残差成分予測処理手段と上記残差成分推定処理手段と上記確率モデル生成処理手段と上記加重平均処理手段と上記期待値計算処理手段と上記パラメータ更新処理手段の動作を繰り返す収束判定処理ステップと、
を含むことを特徴とする雑音抑圧方法。
【請求項１０】
請求項９に記載した雑音抑圧方法において、
上記パラメータ更新処理ステップは、
上記自己回帰行列を、上記残差成分の時系列とＥＭアルゴリズムを用いて最適化するステップであることを特徴とする雑音抑圧方法。
【請求項１１】
請求項６乃至１０の何れかに記載した雑音抑圧方法をコンピュータに実行させるためのプログラム。

【図１】