雑音抑圧装置、方法及びプログラム
【課題】音響信号から雑音信号を効果的に抑圧することができる雑音抑圧技術を提供する。
【解決手段】雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを音響信号に含まれる音声信号の話者に適応させるための話者適応パラメータと、雑音信号の確率モデルである雑音モデルと、話者独立音声モデルとを用いて、音響信号の確率モデルである第一確率モデルを生成し、第一確率モデルと音響信号の音響特徴とに基づいて雑音信号を推定し、推定した雑音信号を学習データとして雑音モデルを教師無し学習し、音響信号の音響特徴と話者独立音声モデルと雑音モデルとを用いて、音響信号に含まれる音声信号を推定し、推定した音声信号を学習データとして、話者適応パラメータを教師無し推定し、音響信号の音響特徴と話者独立音声モデルと雑音モデルと話者適応パラメータとを用いて雑音信号を抑圧する。
【解決手段】雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを音響信号に含まれる音声信号の話者に適応させるための話者適応パラメータと、雑音信号の確率モデルである雑音モデルと、話者独立音声モデルとを用いて、音響信号の確率モデルである第一確率モデルを生成し、第一確率モデルと音響信号の音響特徴とに基づいて雑音信号を推定し、推定した雑音信号を学習データとして雑音モデルを教師無し学習し、音響信号の音響特徴と話者独立音声モデルと雑音モデルとを用いて、音響信号に含まれる音声信号を推定し、推定した音声信号を学習データとして、話者適応パラメータを教師無し推定し、音響信号の音響特徴と話者独立音声モデルと雑音モデルと話者適応パラメータとを用いて雑音信号を抑圧する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は入力音響信号に含まれる雑音信号を抑圧して所望の信号を抽出するための雑音抑圧技術に関する。
【背景技術】
【0002】
処理対象とする音声信号と、音声信号以外の信号(以下「雑音信号」という)とを含む音響信号から音声信号を聞き取りやすくするために雑音信号を抑制する従来技術が知られている。特に、自動音声認識技術を実際の環境で利用する場合においては、正しく音声認識を行うために、音響信号から雑音信号を取り除き所望の音声信号のみを抽出する必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。雑音抑圧に係る従来技術として非特許文献1及び2が知られている。
【0003】
非特許文献1には、以下の雑音抑圧方法が開示されている。音響信号を入力とし、予め推定した音声信号及び雑音信号それぞれの確率モデルから音響信号の確率モデルを生成する。その際、音響信号の確率モデルを構成する音声信号及び雑音信号それぞれの確率モデルと、音響信号に含まれる音声信号及び雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。EMアルゴリズム(以下「期待値最大化法」ともいう)を用いてその差分を推定し、音響信号の確率モデルを最適化する。その後、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。
【0004】
非特許文献2には、以下の雑音抑圧方法が開示されている。音響信号を入力とし、統計的な性質が多峰的な分布に従う雑音信号に対処するため、音響信号から雑音信号のみを推定する。推定した雑音信号を用いて、多峰的な分布に従う雑音信号の確率モデルをEMアルゴリズムにより推定する。その後、予め推定しておいた音声信号の確率モデルと、推定した雑音信号の確率モデルとから、音響信号の最適な確率モデルを生成する。そして、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylorseries approach for environment-independent speech recognition", in Proceedings of ICASSP '96, May 1996, vol. II, pp. 733-736
【非特許文献2】藤本雅清、中谷智広、渡部晋治、「雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討」、電子情報通信学会技術研究報告、2011年5月、SP-2011−2、pp.7−12
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1は音響信号に含まれる雑音信号の特徴が定常的であり、その分布(頻度分布もしくは確率分布)が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の特徴は非定常的であり、その分布は多峰性であることが多い。そのため、非特許文献1記載の技術では、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。また、音響信号に含まれる音声信号と雑音信号との関係が非線形関数により表現されるため、テイラー級数近似を用いても音声信号及び雑音信号それぞれの確率モデルのパラメータ推定の際に解析解が得られない。そのため、非特許文献1記載の技術では音声信号及び雑音信号それぞれの確率モデルパラメータの最適解が得られず、十分な雑音抑圧性能が得られない。
【0007】
非特許文献2では、音響信号から雑音信号のみを抽出し、抽出された雑音信号のみを用いて多峰的な分布に従う雑音信号の確率モデルを推定する方法が開示されている。そのため、非特許文献2記載の技術では、非定常的な雑音信号に対応することが可能となっている。しかし、非特許文献2記載の技術には以下の問題が存在する。音響信号から雑音信号のみを抽出する際には、音声信号の確率モデルが必要となる。一般に、音声信号の確率モデルは、多数話者の学習用音声データを用いて学習され、これは話者独立モデルと呼ばれる。しかし、音声信号の統計的な性質は話者によって大きく異なるので、十分な雑音抑圧性能を得るためには、音声信号の確率モデルとして話者独立モデルではなく、特定話者の学習用音声データを用いて学習された話者依存モデルか、もしくは話者独立モデルを特定話者の統計量に適応させた話者依存モデルを用いる必要がある。しかしながら、非特許文献2記載の技術では、このような話者依存モデルについて考慮されておらず、十分な雑音抑圧性能が得られない。
【0008】
また、雑音信号の確率モデルを推定し、話者独立モデルを特定話者の音声信号の統計量に適応させるためには、それぞれ雑音信号及び音声信号のみの学習データが必要となるが、通常、雑音抑圧を行う際に観測可能な信号は、雑音信号と音声信号が混合された信号のみであり、雑音信号及び音声信号のみを単独で観測することは不可能である。このため、非特許文献1では、音響信号から雑音信号もしくは音声信号のみが存在する時間区間を推定し、雑音信号もしくは音声信号のみの学習データを得ていた。しかしながら、このような方法では、音声信号が存在する時間区間における雑音信号、もしくは雑音信号が存在する時間区間における音声信号を学習データとして利用することができない。そのため、当該区間で発生した雑音信号及び音声信号の変化や特徴を、雑音信号の確率モデル及び話者依存モデルに反映することができない。よって、非特許文献1では雑音信号の多峰的な分布を正確に推定し、話者独立モデルを特定話者の音声信号の統計量に適応させることが困難となる。一方、非特許文献2では前述の通り話者依存モデルについて考慮されていない。
【0009】
本発明は、音響信号に含まれる雑音信号及び音声信号を推定し、音声信号の存在有無に関わらず雑音信号を学習データとして利用して雑音信号の確率モデルに反映し、かつ雑音信号の存在有無にかかわらず音声信号を学習データとして利用して、話者独立モデルを特定話者の音声信号の統計量に適応させるためのパラメータである話者適応パラメータに反映し、多峰的な分布に基づく雑音信号の確率モデルと話者適応処理により得られた話者依存モデルとを用いて、音響信号から雑音信号を効果的に抑圧することができる雑音抑圧技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記の課題を解決するために、本発明の第一の態様によれば、雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する。音響信号の音響特徴を抽出する。雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを音響信号に含まれる音声信号の話者に適応させるための話者適応パラメータと、雑音信号の確率モデルである雑音モデルと、話者独立音声モデルとを用いて、音響信号の確率モデルである第一確率モデルを生成する。第一確率モデルと音響信号の音響特徴とに基づいて、雑音信号を推定し、推定した雑音信号を学習データとして雑音モデルを教師無し学習する。音響信号の音響特徴と話者独立音声モデルと雑音モデルとを用いて、音響信号に含まれる音声信号を推定し、推定した音声信号を学習データとして、話者適応パラメータを教師無し推定する。音響信号の音響特徴と話者独立音声モデルと雑音モデルと話者適応パラメータとを用いて音響信号に含まれる雑音信号を抑圧する。
【発明の効果】
【0011】
本発明に係る雑音抑圧技術は、音響信号に含まれる雑音信号及び音声信号を推定し、推定した雑音信号を利用して多峰的な雑音信号の確率モデルを推定し、推定した音声信号を利用して話者適応パラメータを推定することで、様々な雑音が存在する環境であっても音響信号から雑音信号を効果的に抑圧して目的とする音声信号を取り出すことができるという効果を奏する。
【図面の簡単な説明】
【0012】
【図1】第一実施形態の雑音抑圧装置の機能ブロック図。
【図2】第一実施形態の雑音抑圧装置の処理フローを示す図。
【図3】音響特徴量抽出部の処理フローを示す図。
【図4】パラメータ推定部の機能ブロック図。
【図5】パラメータ推定部の処理フローを示す図。
【図6】雑音モデル推定部の機能ブロック図。
【図7】雑音モデル推定部の処理フローを示す図。
【図8】話者適応パラメータ推定部の機能ブロック図。
【図9】話者適応パラメータ推定部の処理フローを示す図。
【図10】雑音抑圧部の機能ブロック図。
【図11】雑音抑圧フィルタ推定手段の処理フローを示す図。
【図12】雑音抑圧フィルタ適用手段の処理フローを示す図。
【図13】第一実施形態の雑音抑圧装置のシミュレーション結果を示す図。
【発明を実施するための形態】
【0013】
以下、図面を参照しつつ、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同一の機能を持つ構成部や同一の処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「−」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りがない限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
【0014】
<第一実施形態>
本実施形態においては、多峰的な分布に基づく雑音信号の確率モデル及び話者依存モデルとして、混合正規分布(Gaussian Mixture Model、以下「GMM」ともいう)を採用する。
【0015】
図1に示すように雑音抑圧装置100は、音響特徴抽出部104と、話者独立音声モデルを構成する無音GMMとクリーン音声GMMとが格納されるGMM記憶部107と、パラメータ推定部105と、雑音抑圧部106とを含む。雑音抑圧装置100は、音声信号sτと雑音信号nτとが混合された音響信号oτを収録し、または、入力され、音響信号oτから雑音信号nτを抑圧した雑音抑圧信号^sτを出力する。但し、τは離散信号のサンプル点を表す。以下、本実施形態の概要を説明する。
【0016】
図2に示すように音響特徴抽出部104は音響信号oτから雑音抑圧を実施するための特徴量である複素数スペクトルSpctと対数メルスペクトルOtとを抽出する(s104)。
【0017】
パラメータ推定部105は対数メルスペクトルOtと、GMM記憶部107で主記憶上に保持された話者独立(Speaker Independent、以下「SI」という)の音声信号の確率モデル(以下「SI音声モデル」という)であるSIGMMのパラメータセットλSIを用いて、雑音信号の確率モデル(以下「雑音モデル」という)である雑音GMMのパラメータセットλNと、SIGMMを音響信号oτに含まれる音声信号sτの話者に適応させるための話者適応パラメータbとを推定する(s105)。
【0018】
雑音抑圧部106は、複素数スペクトルSpctと対数メルスペクトルOtとSIGMMのパラメータセットλSIと雑音GMMのパラメータセットλNと話者適応パラメータbとを用いて雑音抑圧フィルタを設計し、音響信号oτから雑音信号nτを抑圧して雑音抑圧信号^sτを得る(s106)。以下、各部の詳細を説明する。
【0019】
<音響特徴抽出部104>
音響特徴抽出部104は、音響信号oτを受け取り、音響信号oτの音響特徴を抽出し(s104)、パラメータ推定部105と雑音抑圧部106とに出力する。抽出する音響特徴は、音響信号から雑音信号を抑圧する際に用いるものであり、例えば、複素数スペクトルと対数メルスペクトルである。音響特徴抽出部104は、例えば、図3に示す流れで処理を行う。
【0020】
まず、ある周波数(例えば16,000Hz)で標本化された音響信号oτを時間軸方向に一定時間幅(シフト幅)で始点を移動させながら、一定時間長(フレーム幅)の音響信号をフレームとして切り出す(s201)。例えばフレーム幅Frame=320個のサンプル点(16,000Hz×20ms)の音響信号ot={ot,0,ot,1,…,ot,n,…,ot,Frame−1}を、シフト幅Shift=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。なお、複数チャネルの音響信号を入力とする場合には、チャネル毎にフレームを切り出せばよい。また、フレームを切り出す際に、例えば以下のハミング窓のような窓関数wnを掛け合わせて切り出してもよい。
【0021】
【数1】
【0022】
次に、音響特徴抽出部104は音響信号ot,nに対してM点の高速フーリエ変換処理を適用して、複素数スペクトルSpct={Spct,0,…,Spct,m,…,Spct,M−1}を得る(s202)。但し、Mは2のべき乗、かつフレーム幅Frame以上の値を設定する必要があり、例えば512とする。またmは周波数ビンの番号である。
【0023】
次に、音響特徴抽出部104は、Spct,mの絶対値に対してメルフィルタバンク分析を行い(s203)、フィルタバンクの出力に対し、対数化処理を適用する(s204)。このような処理により、R次元(例えばR=24)の対数メルスペクトルを要素に持つベクトル(以下、このベクトルを単に「対数メルスペクトル」という)Ot={Ot,0,…,Ot,r,…,Ot,R−1}を算出する。但しrはベクトルの要素番号を示す。すなわち、音響特徴抽出部104の出力は複素数スペクトルSpctと対数メルスペクトルOtである。複素数スペクトルSpctは、雑音抑圧部106の入力となり、対数メルスペクトルOtは、パラメータ推定部105と、雑音抑圧部106との入力となる。
【0024】
<GMM記憶部107>
図示しない記憶部には、雑音を含まない、多数話者の音声信号を学習データとして学習されたSIGMMが予め記憶される。SIGMMは無音GMMとクリーン音声GMMとからなる。なお、無音GMMは雑音信号を含まない音声信号の無音部分より取得した音響信号に基づき学習されたGMMであり、クリーン音声GMMは雑音のない環境において無音部分を除く音声のみからなる音響信号に基づき学習されたGMMである。
SIGMMは次式により与えられる。
【0025】
【数2】
【0026】
但し、jは無音GMMと、クリーン音声GMMとを識別するインデックスであり、j=0は無音GMMを、j=1はクリーン音声GMMを示す。また、kは無音GMMもしくはクリーン音声GMMに含まれる正規分布の番号、Kは総正規分布数である(例えばK=128)。また、Stは雑音を含まない、音声信号の対数メルスペクトルであり、bSI,j(St)はSIGMMの尤度である。wSI,j,kとμSI,j,kとΣSI,j,kとはそれぞれSIGMMの混合重みと平均ベクトルと対角分散行列であり、多数話者の学習用音声データを用いて事前に推定しておく。なお、SIGMMのパラメータセット(以下「SIモデルパラメータセット」ともいう)をλSI={wSI,j,k,μSI,j,k,ΣSI,j,k}と定義する。下付添え字SIは、SIGMMに係る尤度やパラメータであることを示している。関数N(・)は、次式で与えられる多次元正規分布の確率密度関数である。
【0027】
【数3】
【0028】
上式において「T」は転置を表す。
以下、本実施形態で用いる話者依存モデルである話者依存GMM(Speaker Dependent GMM、以下「SDGMM」という)と雑音モデルである雑音GMMについて概略を説明する。SDGMMは、特定話者の学習用音声データから推定されたパラメータから構成されるGMMである。前述の通り、話者依存モデルとして、特定話者の学習用音声データを用いて学習されたモデルか、もしくは話者独立モデルを特定話者の統計量に適応させたモデルがある。特定話者の学習用音声データのみからSDGMMを得ることは、実用上、現実的ではないため、本実施形態では、SIGMMに対して話者適応処理を施しSDGMMを得る。すなわち、次式の話者適応処理によりSIGMMの平均ベクトルμSI,j,kをSDGMMの平均ベクトルμSD,j,kに変換する。
【0029】
【数4】
【0030】
上式においてbはR次元ベクトルで構成される話者適応パラメータであり、j、kに対して独立のパラメータとする。なお、下付添え字SDはSDGMMに係る尤度やパラメータであることを示している。
また、雑音GMMは次式により与えられる。
【0031】
【数5】
【0032】
上式においてl(エル)は雑音GMMに含まれる正規分布の番号、Lは総正規分布数である(例えばL=4)。また、Ntは雑音信号の対数メルスペクトルであり、bN(Nt)は雑音GMMの尤度である。wN,lとμN,lとΣN,lとはそれぞれ雑音GMMの混合重みと平均ベクトルと対角分散行列である。以後、雑音GMMのパラメータセット(以下「雑音モデルパラメータセット」ともいう)をλN={wN,l,μN,l,ΣN,l}と定義する。なお、下付添え字Nは、雑音GMMに係る尤度やパラメータであることを示している。
【0033】
非特許文献1では、雑音信号の特徴が定常的かつ、その分布が単峰性であるという前提のもとで雑音抑圧を行っている。一方、本実施形態では、雑音信号が、多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音モデルを単一の正規分布ではなく、GMMにて表現している。なお、後述のパラメータ推定部105において、雑音モデルを教師無し学習する。
【0034】
また、非特許文献2では、話者依存モデルを用いない。一方、本実施形態では、SIGMMに対して話者適応処理を施しSDGMMを得て、雑音抑圧において話者依存モデルを用いる。なお、後述のパラメータ推定部105において、適応パラメータを推定する。
【0035】
<パラメータ推定部105>
パラメータ推定部105は対数メルスペクトルOtとSIモデルパラメータセットλSIとを受け取り、これらの値を用いて、雑音モデルパラメータセットλNと話者適応パラメータbとを最適推定し(s105)、雑音抑圧部106に出力する。
【0036】
パラメータ推定部105において,雑音モデルパラメータセットλNと話者適応パラメータbは、入れ子構造となった3種類のEMアルゴリズムにより推定する。以後、第一EMアルゴリズム、第2EMアルゴリズム及び第3EMアルゴリズムと呼ぶ。EMアルゴリズムは、ある確率モデルのパラメータ推定に利用される方法であり、確率モデルのコスト関数(対数尤度関数)の期待値を計算するExpectation-step(E-step)と、コスト関数を最大化するMaximization-step(M-step)とを収束条件を満たすまで繰り返すことによりパラメータを最適推定する。
【0037】
パラメータ推定部105は、第一初期値推定手段302と第一確率モデル生成手段303と第一期待値計算手段304と雑音モデル推定手段305と話者適応パラメータ推定手段306と第一収束判定手段307とを含む(図4参照)。図5を用いてパラメータ推定部105の処理フローを説明する。
【0038】
(第一初期値推定手段302)
第一初期値推定手段302は第一EMアルゴリズムの繰り返しインデックスiを初期化する(s301)。例えばi=1とする。さらに、第一初期値推定手段302は音響信号otの対数メルスペクトルOtを受け取り、この値を用いて第一EMアルゴリズムにおける雑音モデルパラメータセットλNの初期値λN(i=0)={wN,l(i=0),μN,l(i=0),ΣN,l(i=0)}を以下の式(6)〜(8)により推定し、話者適応パラメータbの初期値を以下の式(9)により設定し(s302)、第一確率モデル生成手段303に出力する。
【0039】
【数6】
【0040】
上式において、−0は全ての要素が0のベクトル、Uは初期値推定に要するフレーム数である(例えばU=10)。diagはかっこ内を要素とする対角行列を、上付添え字(i)は第一EMアルゴリズムにおける、i回目の繰り返し推定におけるパラメータであることを示す。
【0041】
(第一確率モデル生成手段303)
第一確率モデル生成手段303は、i−1回目の繰り返し推定における雑音モデルパラメータセットλ(i−1)Nと話者適応パラメータb(i−1)とを後述する第一収束判定手段307から受け取る。但し、i−1回目の雑音モデルパラメータセットλN(i−1)及び話者適応パラメータb(i−1)が存在しない場合、つまり、0回目の場合、前述の初期値λN(i=0)及びb(i=0)を第一初期値推定手段302から受け取る。さらに第一確率モデル生成手段303は、SIモデルパラメータセットλSIを受け取り、これらの値を利用して、音響信号otの対数メルスペクトルOtの確率モデル(以下「第一確率モデル」という)を以下のようなGMMで構成する。
【0042】
【数7】
【0043】
上式においてbO1,j(Ot)は対数メルスペクトルOtの確率モデルの尤度であり、関数N(・)は式(3)で与えられ、wO1,j,k,l(i)とμO1,j,k,l(i)とΣO1,j,k,l(i)とは、i−1回目の繰り返し推定における雑音モデルパラメータセットλN(i−1)と話者適応パラメータb(i−1)とSIモデルパラメータセットλSIとから生成された、対数メルスペクトルOtの確率モデルの混合重みと平均ベクトルと対角分散行列とであり、以下の式(11)〜(13)で与えられる。
【0044】
【数8】
【0045】
上式において関数log(・)とexp(・)は、ベクトルの要素r毎に演算を行う。また、−1は全ての要素が1のベクトル、Iは単位行列、Hj,k,l(i)は関数h(・)のヤコビ行列である。
【0046】
第一確率モデルのパラメータセット(以下「第一確率モデルパラメータセット」という)をλO1(i)={wO1,j,k,l(i),μO1,j,k,l(i),ΣO1,j,k,l(i)}と定義する。
【0047】
第一確率モデル生成手段303は、式(11)〜(13)に基づきλO1(i)を生成し(s303)、第一期待値計算手段304と雑音モデル推定手段305とに出力する。
(第一期待値計算手段304)
第一期待値計算手段304は、第一確率モデルパラメータセットλO1(i)と音響信号otの対数メルスペクトルOtとを受け取り、i回目の繰り返し推定における対数メルスペクトルOtの確率モデルのコスト関数Q1(・)の期待値を次式により計算する(第一EMアルゴリズムのE−step)(s304)。
【0048】
【数9】
【0049】
上式において、O0:T−1={O0,…,Ot,…,OT−1}であり、Tは対数メルスペクトルOtの総フレーム数であり、Pt,j(i)は式(16)で与えられるフレームtにおけるGMM種別jに対する事後確率である。特にPt,j=0(i)を音声非存在確率、Pt,j=1(i)を音声存在確率と定義する。Pt,j,k,l(i)は式(17)で与えられるフレームtにおける正規分布番号kとlとに対する事後確率である。λO1(i)={wO1,j,k,l(i),μO1,j,k,l(i),ΣO1,j,k,l(i)}は式(11)〜(13)で与えられる。
【0050】
【数10】
【0051】
第一期待値計算手段304は、求めた第一期待値Q1を第一収束判定手段307に、事後確率Pt,j(i)、Pt,j,k,l(i)を雑音モデル推定手段305に出力する。
【0052】
なお、第一EMアルゴリズムのM−stepは、以下の雑音モデル推定手段305と話者適応パラメータ推定手段306における処理からなる。雑音モデル推定手段305内の雑音モデルパラメータ推定手段402において第二EMアルゴリズムが実施され、話者適応パラメータ推定手段306内の話者適応パラメータ更新手段503において第三アルゴリズムが実施される。
【0053】
(雑音モデル推定手段305)
雑音モデル推定手段305は、第一確率モデルパラメータセットλO1(i)と音響信号otの対数メルスペクトルOtと事後確率Pt,j(i)、Pt,j,k,l(i)を受け取り、これらの値を用いて、雑音信号の対数メルスペクトルNtを推定し、推定した雑音信号^Ntを学習データとして雑音モデルを教師無し学習し(s305)、雑音モデルパラメータセットλN(i)を話者適応パラメータ推定手段306と第一収束判定手段307とに出力する。雑音モデル推定手段305は、雑音信号推定手段401と雑音モデルパラメータ推定手段402とを備える(図6参照)。
【0054】
[雑音信号推定手段401]
雑音信号推定手段401は、対数メルスペクトルOtを用いて、雑音信号の対数メルスペクトルNtを推定する(図7のs401)。例えば、雑音信号推定手段401は、事後確率Pt,j(i)、Pt,j,k,l(i)と、第一確率モデルパラメータセットλO1(i)(に含まれる平均ベクトルμO1,j=1,k,l(i))と、対数メルスペクトルOtと、i−1回目の繰り返し推定における雑音モデルパラメータセットλN(i−1)(に含まれる平均ベクトルμN(i−1))とを受け取り、これらの値を用いて、雑音モデルパラメータセットλN(i−1)を更新するために用いる雑音信号の対数メルスペクトルNt(i)を推定し、推定値^Nt(i)を雑音モデルパラメータ推定手段402に出力する。雑音の対数メルスペクトルNt(i)は、次式により推定される。
【0055】
【数11】
【0056】
[雑音モデルパラメータ推定手段402]
雑音モデルパラメータ推定手段402は、雑音信号の対数メルスペクトルの推定値^Nt(i)を受け取り、これを学習データとして、雑音モデルパラメータセットλN(i)を推定し(図7のs402〜s407)、第一収束判定手段307と話者適応パラメータ推定手段306とに出力する。雑音モデルパラメータセットλN(i)の具体的な推定方法(s402〜s407)については後述する。
【0057】
(話者適応パラメータ推定手段306)
話者適応パラメータ推定手段306は、対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλN(i)とを受け取り、これらの値を用いて、音響信号otに含まれる音声信号stを推定し、推定した音声信号^stを学習データとして、話者適応パラメータb(i)を教師無し推定し(図5のs306)、第一収束判定手段307に出力する。
【0058】
話者適応パラメータ推定手段306は、第二確率モデル生成手段501と音声信号推定手段502と話者適応パラメータ更新手段503とを備える(図8参照)。
[第二確率モデル生成手段501]
第二確率モデル生成手段501は、雑音モデルパラメータセットλN(i)と話者適応パラメータb(i−1)とSIモデルパラメータセットλSIとを受け取り、これらの値を利用して、対数メルスペクトルOtの確率モデル(以下「第二確率モデル」という)を以下のようなGMMで構成する。
【0059】
【数12】
【0060】
上式において、bO2,j(Ot)は対数メルスペクトルOtの確率モデルの尤度であり、関数N(・)は式(3)で与えられ、wO2,j,k,l(i)、μO2,j,k,l(i)、ΣO2,j,k,l(i)は、それ第二確率モデルの混合重みと平均ベクトルと対角分散行列とであり、式(20)〜(22)で与えられる。
【0061】
【数13】
【0062】
第二確率モデルのパラメータセット(以下「第二確率モデルパラメータセット」という)をλO2(i)={wO2,j,k,l(i),μO2,j,k,l(i),ΣO2,j,k,l(i)}と定義する。
第二確率モデル生成手段501は、式(20)〜(22)に基づき第二確率モデルパラメータセットλO2(i)を生成し(図9のs501)、λO2(i)と対数メルスペクトルOtとSIモデルパラメータセットλSIとを音声信号推定手段502に出力する。
【0063】
[音声信号推定手段502]
音声信号推定手段502は、対数メルスペクトルOtとSIモデルパラメータセットλSI(に含まれる平均ベクトルμSI,J,k)と第二確率モデルパラメータセットλO2(i)とi−1回目の繰り返し推定における話者適応パラメータb(i−1)とを受け取り、これらの値を用いて、話者適応パラメータb(i)を更新するために用いる、音響信号otに含まれるクリーン音声の対数メルスペクトルStを次式により推定し(s502)、推定値^St(i)を話者適応パラメータ更新手段503に出力する。
【0064】
【数14】
【0065】
なお、事後確率Pt,j(i)、Pt,j,k,l(i)は、第一確率モデルパラメータセットλO1(i)に代えて第二確率モデルパラメータセットλO2(i)を用いて、式(16)、(17)により与えられる。
【0066】
[話者適応パラメータ更新手段503]
話者適応パラメータ更新手段503は、推定したクリーン音声の対数メルスペクトル^St(i)とSIモデルパラメータセットλSIとを受け取り、これらの値を用いて話者適応パラメータb(i−1)を更新し(図9のs503〜s508)、第一収束判定手段307に出力する。話者適応パラメータb(i)の具体的な更新方法(s503〜s508)については後述する。
【0067】
(第一収束判定手段307)
第一収束判定手段307は、第一期待値Q1を受け取り、この値を用いて収束条件を満たすか否かを判定し(図5のs307)、満たす場合はλN=λN(i)、b=b(i)とし、λNとbを雑音抑圧部106に出力しパラメータ推定部105の処理を終了する。満たさない場合はλN(i)とb(i)を第一確率モデル生成手段303に出力し、i←i+1(s308)として、繰り返し処理を行うように各部に制御信号を出力し、s303〜s306の処理を繰り返す。例えば、収束条件は、最新の第一期待値Q1(O0:T−1,b(i),λN(i))と一つ前の第一期待値Q1(O0:T−1,b(i−1),λN(i−1))との差が所定値η1以下である場合や、繰り返し回数iが所定値I1以上になった場合等とすることができる。例えば次式で表すことができる。
【0068】
【数15】
【0069】
であり、例えば、η1=0.0001、I1=100である。
<雑音モデルパラメータ推定手段402の詳細>
雑音モデルパラメータ推定手段402は、第二初期値推定手段403と第二期待値計算手段404とパラメータ更新手段405と第二収束判定手段406とを含む(図6参照)。図7を用いて雑音モデルパラメータ推定手段402の処理内容を説明する。
【0070】
(第二初期値推定手段403)
第二初期値推定手段403は、まず第二EMアルゴリズムの繰り返し回数を示すインデックスi’を初期化する(s402)。例えば、i’=1とする。次に第二初期値推定手段403は、推定した雑音信号の対数メルスペクトル^Nt(i)を受け取り、この値を用いて、第二EMアルゴリズムにおける雑音モデルパラメータセットλN(i’)の初期値λN(i’=0)={wN,l(i’=0),μN,l(i’=0),ΣN,l(i’=0)}を式(26)〜(30)により推定し(s403)、第二期待値計算手段404に出力する。
【0071】
【数16】
【0072】
上式において、上付添え字(i’)はi’回目の繰り返し推定におけるパラメータであることを示す。また、GaussRand(a,b)は平均a、分散bの正規乱数の発生器である。
【0073】
(第二期待値計算手段404)
第二期待値計算手段404は、推定した雑音信号の対数メルスペクトル^Nt(i)を雑音信号推定手段401から受け取る。また第二EMアルゴリズムにおける雑音モデルパラメータセットλN(i’−1)を第二収束判定手段406から受け取る。但し、i’−1回目の雑音モデルパラメータセットλN(i’−1)が存在しない場合、つまり、0回目の場合、前述の初期値λN(i’=0)を第二初期値推定手段403から受け取る。これらの値を用いて第二期待値計算手段404はi’回目の繰り返し推定における雑音GMMのコスト関数Q2(・)の期待値を式(31)により計算し(第二EMアルゴリズムのE−step)(s404)、第二収束判定手段406に出力する。
【0074】
【数17】
【0075】
上式において、^N0:T−1(i)={^N0(i),…,^Nt(i),…,^NT−1(i)}であり、
関数N(・)は式(3)で与えられ、Pt,l(i’)は次式で与えられるフレームtにおける正規分布番号lに対する事後確率である。
【0076】
【数18】
【0077】
第二期待値計算手段404は、求めたPt,l(i’)をパラメータ更新手段405に出力する。
(パラメータ更新手段405)
パラメータ更新手段405は、事後確率Pt,l(i’)と対数メルスペクトル^Nt(i)とを受け取り、雑音モデルパラメータセットλN(i’−1)を次式により更新し(第二EMアルゴリズムのM−step)(s405)、更新した雑音モデルパラメータセットλN(i’)を第二収束判定手段406に出力する。
【0078】
【数19】
【0079】
(第二収束判定手段406)
第二収束判定手段406は、第二期待値Q2を受け取り、この値を用いて収束条件を満たすか否かを判定し(s406)、満たす場合はλN(i)=λN(i’)としλN(i)を、第一収束判定手段307と話者適応パラメータ更新手段503とに出力し雑音モデルパラメータ推定手段402の処理を終了する。満たさない場合はλN(i’)を第二期待値計算手段404に出力し、i’←i’+1(s407)として、繰り返し処理を行うように各部に制御信号を出力し、s404、s405の処理を繰り返す。例えば、収束条件は、最新の第二期待値Q2(^N0:T−1,λN(i’))と一つ前の第二期待値Q2(^N0:T−1,λN(i’−1))との差が所定値η2以下である場合や、繰り返し回数i’が所定値I2以上になった場合等とすることができる。例えば以下の式で表すことができる。
【0080】
【数20】
【0081】
であり、例えば、η2=0.0001、I2=100である。
<話者適応パラメータ更新手段503の詳細>
話者適応パラメータ更新手段503は、初期値設定手段504と第三期待値計算手段505と話者適応パラメータ算出手段506と第三収束判定手段507とを含む(図8参照)。
【0082】
図9を用いて話者適応パラメータ更新手段503の処理内容を説明する。
(初期値設定手段504)
初期値設定手段504は、まず第三EMアルゴリズムの繰り返し回数を示すインデックスi”を初期化する(s503)。例えば、i”=1とする。次に初期値設定手段504は、第三EMアルゴリズムにおける話者適応パラメータb(i”)の初期値b(i”=0)を次式により設定し(s504)、第三期待値計算手段505に出力する。
【0083】
【数21】
【0084】
上式において、上付添え字(i”)は第三EMアルゴリズムにおける、i”回目の繰り返し推定におけるパラメータであることを示す。
(第三期待値計算手段505)
第三期待値計算手段505は、SIモデルパラメータセットλSIと推定したクリーン音声の対数メルスペクトル^St(i)とを受け取る。また第三収束判定手段507からi”−1回目の話者適応パラメータb(i”−1)を受け取る。但し、i”−1回目の話者適応パラメータb(i”−1)が存在しない場合、つまり、0回目の場合、前述の初期値b(i”=0)を初期値設定手段504から受け取る。これらの値を用いて第三期待値計算手段505はi”回目の繰り返し推定におけるSDGMMのコスト関数Q3(・)の期待値を次式により計算し(第三EMアルゴリズムのE−step)(s505)、第三収束判定手段507に出力する。
【0085】
【数22】
【0086】
上式において、^S0:T−1(i)={^S0(i),…,^St(i),…,^ST−1(i)}であり、Pt,j(i”)は以下の式(39)で与えられるフレームtにおけるGMM種別jに対する事後確率であり、Pt,j,k(i”)は以下の式(40)で与えられるフレームtにおける正規分布番号kに対する事後確率である。
【0087】
【数23】
【0088】
第三期待値計算手段505は、求めた事後確率Pt,j(i”)、Pt,j,k(i”)を話者適応パラメータ算出手段506に出力する。
【0089】
(話者適応パラメータ算出手段506)
話者適応パラメータ算出手段506は、事後確率Pt,j(i”)、Pt,j,k(i”)とSIモデルパラメータセットλSIとクリーン音声の対数メルスペクトル^St(i)とを受け取り、以下の式(41)を用いて話者適応パラメータb(i”)を求め、これを新たな話者適応パラメータb(i”)として更新し(第三EMアルゴリズムのM−step)(s506)、第三収束判定手段507に出力する。
【0090】
【数24】
【0091】
(第三収束判定手段507)
第三収束判定手段507は、第三期待値Q3を受け取り、この値を用いて収束条件を満たすか否かを判定し(s507)、満たす場合はb(i)=b(i”)としb(i)を第一収束判定手段307に出力し話者適応パラメータ更新手段503の処理を終了する。満たさない場合はb(i”)を第三期待値計算手段505に出力し、i”←i”+1(s508)として、繰り返し処理を行うように各部に制御信号を出力し、s505、s506の処理を繰り返す。例えば、収束条件は、最新の第三期待値Q3(^S0:T−1(i),b(i”))と一つ前の第三期待値Q3(^S0:T−1(i),b(i”−1))との差が所定値η3以下である場合や、繰り返し回数i”が所定値I3以上になった場合等とすることができる。例えば以下の式で表すことができる。
【0092】
【数25】
【0093】
であり、例えば、η3=0.0001、I3=100である。よって、第三EMアルゴリズムのM−stepにおいて話者適応パラメータ算出手段506で最終的に算出した話者適応パラメータb(i)=b(i”)が、第一EMアルゴリズムのi回目の繰り返しにおけるSDGMMの尤度を最大とするものとなる。
【0094】
<雑音抑圧部106>
雑音抑圧部106は、音響信号otの音響特徴である対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbと受け取り、これらの値を用いて音響信号otに含まれる雑音信号ntを抑圧し(s106)、雑音抑圧信号^sτを雑音抑圧装置100の出力値として出力する。例えば、図10に示すように雑音抑圧部106は、雑音抑圧フィルタ推定手段601と雑音抑圧フィルタ適用手段602を含む。雑音抑圧フィルタ推定手段601は音響信号の対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbとを受け取り、雑音抑圧フィルタWLint,mを推定する。雑音抑圧フィルタ適用手段602は、複素数スペクトルSpctと雑音抑圧フィルタWLint,mとを受け取り、雑音を抑圧して雑音抑圧信号^sτを得る。以下、各手段の詳細を説明する。
【0095】
(雑音抑圧フィルタ推定手段601)
雑音抑圧フィルタ推定手段601は図11に示す流れで処理を行う。まず、雑音抑圧フィルタ推定手段601は、SIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbを受け取り、これらの値を用いて、音響信号の対数メルスペクトルOtの確率モデルである第三確率モデルのパラメータセット(以下「第三確率モデルパラメータセット」という)λO3={wO3,j,k,l,μO3,j,k,l,ΣO3,j,k,l}を以下のように生成する(s601)。
【0096】
【数26】
【0097】
上式において関数h(・)、g(・)は、式(12)、(13)により与えられる。
【0098】
次に、雑音抑圧フィルタ推定手段601は、求めた第三確率モデルパラメータセットλO3と対数メルスペクトルOtとを用いて、式(48)、(49)により事後確率Pt,j、Pt,j,k,lを計算する(s602)。
【0099】
【数27】
【0100】
次に、雑音抑圧フィルタ推定手段601は、SIモデルパラメータセットλSIと雑音モデルパラメータセットλNと事後確率Pt,j、Pt,j,k,lとを用いて、メル周波数軸上での雑音抑圧フィルタWMelt,rを次式のように推定する(s603)。
【0101】
【数28】
【0102】
上式はベクトルの要素r毎の表記である。
【0103】
次に、雑音抑圧フィルタ推定手段601は、メル周波数軸上での雑音抑圧フィルタWMelt,rを線形周波数軸上での雑音抑圧フィルタWLint,mに変換し(s604)、雑音抑圧フィルタ適用手段602に出力する。なお、変換は3次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値を推定することにより行う。
(雑音抑圧フィルタ適用手段602)
雑音抑圧フィルタ適用手段602は図12に示す流れで処理を行う。雑音抑圧フィルタ適用手段602は、雑音抑圧フィルタWLint,mと複素数スペクトルSpctとを受け取り、複素数スペクトルSpctに対して雑音抑圧フィルタWLint,mを次式のように掛け合わせることにより雑音抑圧された複素数スペクトル^St,mを得る(s701)。
【0104】
【数29】
【0105】
上式はベクトルの要素m毎の表記である。
【0106】
次に、雑音抑圧フィルタ適用手段602は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧信号^st,nを得る(s702)。
【0107】
次に、雑音抑圧フィルタ適用手段602は、各フレームの雑音抑圧信号^st,nを次式のように窓関数wnを解除しながら連結して連続した雑音抑圧信号^sτを得て(s703)、これを雑音抑圧装置100の出力値として出力する。
【0108】
【数30】
【0109】
<効果>
本実施形態では、多峰的な雑音信号の確率モデルのパラメータを推定する雑音信号モデルパラメータ推定手段と、話者独立の音声信号のモデルを話者依存の音声信号の確率モデルに適応させるためのパラメータを推定する話者適応パラメータ推定手段を具備し、それぞれを同時に実施しながらパラメータの更新を行う。このような構成により、話者の特徴を反映して、予め分かっていない非定常雑音をより高精度に抑圧することができる。また、信号に含まれる雑音信号が多峰性の分布に従う非定常雑音であっても、非線形問題を解くことなく確率モデルパラメータ(雑音モデルパラメータ及び話者適応パラメータ)を容易に最適化することができ、最適な雑音抑圧フィルタを設計し、高品質に目的音声信号を得ることができる。
【0110】
なお、推定された雑音信号、及び音声信号には誤差が含まれる可能性があるが、雑音信号の確率モデルの推定、及び話者適応においては、学習データの統計的な性質を推定して処理を行っているため、誤差の問題は致命的な問題とならない。
<その他の変形例>
第一実施形態において、各部及び各手段が、図示しない記憶部に各信号や、処理途中の信号、各種パラメータ等が記憶し、記憶部を介して各データの読み書きを行ってもよい。
【0111】
第一実施形態において、フレーム化処理(図3のs201)にて窓関数wnにはハミング窓以外に方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。
【0112】
第一実施形態において、音声信号の確率モデルとして、無音GMM、クリーン音声GMMの代わりに、隠れマルコフモデル(Hidden Markov Model:HMM)等の他の確率モデルを用いてもよい。
【0113】
第一実施形態において、無音GMM、クリーン音声GMMの2つのGMMだけでなく、より多くのGMMを用いてもよい。例えば、無音GMM、無声音GMM、有声音GMMや、音素毎のGMMを用いてもよい。
【0114】
第一実施形態において、雑音GMMの代わりに、雑音信号の確率モデルとしてHMM等の他の確率モデルを用いてもよい。
【0115】
第一実施形態において、話者適応処理を次式のようなR×R次元のアフィン変換行列Aを用いて実施してもよい。
【0116】
【数31】
【0117】
第一実施形態において、話者適応処理を次式のようなR×R次元のアフィン変換行列Aと、ベクトルbを用いて実施してもよい。
【0118】
【数32】
【0119】
第一実施形態において、話者適応処理のパラメータであるアフィン変換行列Aと、ベクトルbを、次式のように無音GMMと、クリーン音声GMMとを識別するインデックスj、及び無音GMM、もしくはクリーン音声GMMに含まれる正規分布の番号kに依存するパラメータとしてもよい。
【0120】
【数33】
【0121】
もしくは、
【0122】
【数34】
【0123】
もしくは、
【0124】
【数35】
【0125】
第一実施形態において、雑音抑圧フィルタ推定処理(図11のs603)にて、重み付け平均ではなく、最大の重み、すなわち最大の音声非存在/存在確率Pt,jと、事後確率Pt,j,k,lとの積を持つ推定結果をそのまま使用してもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。
【0126】
第一実施形態において、式(26)、(29)、(30)に代えて、以下の式により初期値を設定してもよい。
【0127】
【数36】
【0128】
第一実施形態において、式(37)に代えて、以下の式により初期値を設定してもよい。
【0129】
【数37】
【0130】
第一実施形態において、各EMアルゴリズムにおいて、M−stepを実施した後にE−stepを実施する構成としてもよい。また、M−stepを実施直後に収束判定を行い、収束していない場合にE−stepを実施する構成としてもよい。このような構成とすることで、収束している場合にM−stepを実施する処理を省略することができる。
【0131】
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<シミュレーション結果>
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を第一実施形態の雑音抑圧装置に入力し、雑音抑圧を実施した例を示す。以下実験方法、及び結果について説明する。
【0132】
本実験では、評価用データには、IPA(Information-technology promotion agency, Japan)-98-TestSetのうち、男性23名が発声したデータ100文を用いており、これらの音声データに対して、空港ロビー、駅プラットホーム、街頭にて別途収録した雑音を、それぞれS/N比(信号対雑音比)0dB、5dB、10dBにて計算機上で重畳した。すなわち、雑音3種類×S/N比3種類の合計9種類の評価データを作成した。それぞれの音声データは、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、1フレームの時間長を20ms(Frame=320サンプル点)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて、音響特徴抽出部104を適用した。
【0133】
無音GMM、クリーン音声GMMには、R=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=128のGMMを用い、それぞれ多数話者の学習用音声データを用いて学習した。雑音GMMの混合分布数にはL=4を与えた。
【0134】
性能の評価は音声認識により行い、評価尺度は次式の単語誤り率(Word error rate: WER)で行った。
【0135】
【数38】
【0136】
上式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程音声認識性能が高いことを示す。
【0137】
音声認識は、有限状態トランスデューサーに基づく認識器(T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365)により行い、音響モデルには話者独立のTriphone HMMを用いており、各HMMの構造は3状態のLeft−to−right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は2,000である。音声認識の音響特徴量は、1フレームの時間長を20ms(Frame=320)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient)、対数パワー値、各々の1次及び2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri−gramを用い、語彙数は20,000単語である。
【0138】
図13は、雑音抑圧の結果であり、雑音抑圧処理を行わない場合と、非特許文献1に開示された方法と、非特許文献2に開示された方法と、第一実施形態とによる音声認識の評価結果を示している。図13の結果からも、第一実施形態により従来技術に比べて高い性能を得られることが明らかである。
<プログラム及び記録媒体>
上述した雑音抑圧装置は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現してもよい。これらのプログラムは例えば磁気ディスクあるいはCD−ROMのようなコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。
【産業上の利用可能性】
【0139】
本発明は、自動音声認識の前段において、音響信号から雑音を抑圧し、雑音抑圧信号を用いて自動音声認識に利用することができる。また、TV会議システム等の通話システムや録音システムにおいて、受信または収録した音響信号から雑音信号を抑圧する際に利用することができる。
【技術分野】
【0001】
本発明は入力音響信号に含まれる雑音信号を抑圧して所望の信号を抽出するための雑音抑圧技術に関する。
【背景技術】
【0002】
処理対象とする音声信号と、音声信号以外の信号(以下「雑音信号」という)とを含む音響信号から音声信号を聞き取りやすくするために雑音信号を抑制する従来技術が知られている。特に、自動音声認識技術を実際の環境で利用する場合においては、正しく音声認識を行うために、音響信号から雑音信号を取り除き所望の音声信号のみを抽出する必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。雑音抑圧に係る従来技術として非特許文献1及び2が知られている。
【0003】
非特許文献1には、以下の雑音抑圧方法が開示されている。音響信号を入力とし、予め推定した音声信号及び雑音信号それぞれの確率モデルから音響信号の確率モデルを生成する。その際、音響信号の確率モデルを構成する音声信号及び雑音信号それぞれの確率モデルと、音響信号に含まれる音声信号及び雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。EMアルゴリズム(以下「期待値最大化法」ともいう)を用いてその差分を推定し、音響信号の確率モデルを最適化する。その後、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。
【0004】
非特許文献2には、以下の雑音抑圧方法が開示されている。音響信号を入力とし、統計的な性質が多峰的な分布に従う雑音信号に対処するため、音響信号から雑音信号のみを推定する。推定した雑音信号を用いて、多峰的な分布に従う雑音信号の確率モデルをEMアルゴリズムにより推定する。その後、予め推定しておいた音声信号の確率モデルと、推定した雑音信号の確率モデルとから、音響信号の最適な確率モデルを生成する。そして、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylorseries approach for environment-independent speech recognition", in Proceedings of ICASSP '96, May 1996, vol. II, pp. 733-736
【非特許文献2】藤本雅清、中谷智広、渡部晋治、「雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討」、電子情報通信学会技術研究報告、2011年5月、SP-2011−2、pp.7−12
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1は音響信号に含まれる雑音信号の特徴が定常的であり、その分布(頻度分布もしくは確率分布)が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の特徴は非定常的であり、その分布は多峰性であることが多い。そのため、非特許文献1記載の技術では、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。また、音響信号に含まれる音声信号と雑音信号との関係が非線形関数により表現されるため、テイラー級数近似を用いても音声信号及び雑音信号それぞれの確率モデルのパラメータ推定の際に解析解が得られない。そのため、非特許文献1記載の技術では音声信号及び雑音信号それぞれの確率モデルパラメータの最適解が得られず、十分な雑音抑圧性能が得られない。
【0007】
非特許文献2では、音響信号から雑音信号のみを抽出し、抽出された雑音信号のみを用いて多峰的な分布に従う雑音信号の確率モデルを推定する方法が開示されている。そのため、非特許文献2記載の技術では、非定常的な雑音信号に対応することが可能となっている。しかし、非特許文献2記載の技術には以下の問題が存在する。音響信号から雑音信号のみを抽出する際には、音声信号の確率モデルが必要となる。一般に、音声信号の確率モデルは、多数話者の学習用音声データを用いて学習され、これは話者独立モデルと呼ばれる。しかし、音声信号の統計的な性質は話者によって大きく異なるので、十分な雑音抑圧性能を得るためには、音声信号の確率モデルとして話者独立モデルではなく、特定話者の学習用音声データを用いて学習された話者依存モデルか、もしくは話者独立モデルを特定話者の統計量に適応させた話者依存モデルを用いる必要がある。しかしながら、非特許文献2記載の技術では、このような話者依存モデルについて考慮されておらず、十分な雑音抑圧性能が得られない。
【0008】
また、雑音信号の確率モデルを推定し、話者独立モデルを特定話者の音声信号の統計量に適応させるためには、それぞれ雑音信号及び音声信号のみの学習データが必要となるが、通常、雑音抑圧を行う際に観測可能な信号は、雑音信号と音声信号が混合された信号のみであり、雑音信号及び音声信号のみを単独で観測することは不可能である。このため、非特許文献1では、音響信号から雑音信号もしくは音声信号のみが存在する時間区間を推定し、雑音信号もしくは音声信号のみの学習データを得ていた。しかしながら、このような方法では、音声信号が存在する時間区間における雑音信号、もしくは雑音信号が存在する時間区間における音声信号を学習データとして利用することができない。そのため、当該区間で発生した雑音信号及び音声信号の変化や特徴を、雑音信号の確率モデル及び話者依存モデルに反映することができない。よって、非特許文献1では雑音信号の多峰的な分布を正確に推定し、話者独立モデルを特定話者の音声信号の統計量に適応させることが困難となる。一方、非特許文献2では前述の通り話者依存モデルについて考慮されていない。
【0009】
本発明は、音響信号に含まれる雑音信号及び音声信号を推定し、音声信号の存在有無に関わらず雑音信号を学習データとして利用して雑音信号の確率モデルに反映し、かつ雑音信号の存在有無にかかわらず音声信号を学習データとして利用して、話者独立モデルを特定話者の音声信号の統計量に適応させるためのパラメータである話者適応パラメータに反映し、多峰的な分布に基づく雑音信号の確率モデルと話者適応処理により得られた話者依存モデルとを用いて、音響信号から雑音信号を効果的に抑圧することができる雑音抑圧技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記の課題を解決するために、本発明の第一の態様によれば、雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する。音響信号の音響特徴を抽出する。雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを音響信号に含まれる音声信号の話者に適応させるための話者適応パラメータと、雑音信号の確率モデルである雑音モデルと、話者独立音声モデルとを用いて、音響信号の確率モデルである第一確率モデルを生成する。第一確率モデルと音響信号の音響特徴とに基づいて、雑音信号を推定し、推定した雑音信号を学習データとして雑音モデルを教師無し学習する。音響信号の音響特徴と話者独立音声モデルと雑音モデルとを用いて、音響信号に含まれる音声信号を推定し、推定した音声信号を学習データとして、話者適応パラメータを教師無し推定する。音響信号の音響特徴と話者独立音声モデルと雑音モデルと話者適応パラメータとを用いて音響信号に含まれる雑音信号を抑圧する。
【発明の効果】
【0011】
本発明に係る雑音抑圧技術は、音響信号に含まれる雑音信号及び音声信号を推定し、推定した雑音信号を利用して多峰的な雑音信号の確率モデルを推定し、推定した音声信号を利用して話者適応パラメータを推定することで、様々な雑音が存在する環境であっても音響信号から雑音信号を効果的に抑圧して目的とする音声信号を取り出すことができるという効果を奏する。
【図面の簡単な説明】
【0012】
【図1】第一実施形態の雑音抑圧装置の機能ブロック図。
【図2】第一実施形態の雑音抑圧装置の処理フローを示す図。
【図3】音響特徴量抽出部の処理フローを示す図。
【図4】パラメータ推定部の機能ブロック図。
【図5】パラメータ推定部の処理フローを示す図。
【図6】雑音モデル推定部の機能ブロック図。
【図7】雑音モデル推定部の処理フローを示す図。
【図8】話者適応パラメータ推定部の機能ブロック図。
【図9】話者適応パラメータ推定部の処理フローを示す図。
【図10】雑音抑圧部の機能ブロック図。
【図11】雑音抑圧フィルタ推定手段の処理フローを示す図。
【図12】雑音抑圧フィルタ適用手段の処理フローを示す図。
【図13】第一実施形態の雑音抑圧装置のシミュレーション結果を示す図。
【発明を実施するための形態】
【0013】
以下、図面を参照しつつ、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同一の機能を持つ構成部や同一の処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「−」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りがない限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
【0014】
<第一実施形態>
本実施形態においては、多峰的な分布に基づく雑音信号の確率モデル及び話者依存モデルとして、混合正規分布(Gaussian Mixture Model、以下「GMM」ともいう)を採用する。
【0015】
図1に示すように雑音抑圧装置100は、音響特徴抽出部104と、話者独立音声モデルを構成する無音GMMとクリーン音声GMMとが格納されるGMM記憶部107と、パラメータ推定部105と、雑音抑圧部106とを含む。雑音抑圧装置100は、音声信号sτと雑音信号nτとが混合された音響信号oτを収録し、または、入力され、音響信号oτから雑音信号nτを抑圧した雑音抑圧信号^sτを出力する。但し、τは離散信号のサンプル点を表す。以下、本実施形態の概要を説明する。
【0016】
図2に示すように音響特徴抽出部104は音響信号oτから雑音抑圧を実施するための特徴量である複素数スペクトルSpctと対数メルスペクトルOtとを抽出する(s104)。
【0017】
パラメータ推定部105は対数メルスペクトルOtと、GMM記憶部107で主記憶上に保持された話者独立(Speaker Independent、以下「SI」という)の音声信号の確率モデル(以下「SI音声モデル」という)であるSIGMMのパラメータセットλSIを用いて、雑音信号の確率モデル(以下「雑音モデル」という)である雑音GMMのパラメータセットλNと、SIGMMを音響信号oτに含まれる音声信号sτの話者に適応させるための話者適応パラメータbとを推定する(s105)。
【0018】
雑音抑圧部106は、複素数スペクトルSpctと対数メルスペクトルOtとSIGMMのパラメータセットλSIと雑音GMMのパラメータセットλNと話者適応パラメータbとを用いて雑音抑圧フィルタを設計し、音響信号oτから雑音信号nτを抑圧して雑音抑圧信号^sτを得る(s106)。以下、各部の詳細を説明する。
【0019】
<音響特徴抽出部104>
音響特徴抽出部104は、音響信号oτを受け取り、音響信号oτの音響特徴を抽出し(s104)、パラメータ推定部105と雑音抑圧部106とに出力する。抽出する音響特徴は、音響信号から雑音信号を抑圧する際に用いるものであり、例えば、複素数スペクトルと対数メルスペクトルである。音響特徴抽出部104は、例えば、図3に示す流れで処理を行う。
【0020】
まず、ある周波数(例えば16,000Hz)で標本化された音響信号oτを時間軸方向に一定時間幅(シフト幅)で始点を移動させながら、一定時間長(フレーム幅)の音響信号をフレームとして切り出す(s201)。例えばフレーム幅Frame=320個のサンプル点(16,000Hz×20ms)の音響信号ot={ot,0,ot,1,…,ot,n,…,ot,Frame−1}を、シフト幅Shift=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。なお、複数チャネルの音響信号を入力とする場合には、チャネル毎にフレームを切り出せばよい。また、フレームを切り出す際に、例えば以下のハミング窓のような窓関数wnを掛け合わせて切り出してもよい。
【0021】
【数1】
【0022】
次に、音響特徴抽出部104は音響信号ot,nに対してM点の高速フーリエ変換処理を適用して、複素数スペクトルSpct={Spct,0,…,Spct,m,…,Spct,M−1}を得る(s202)。但し、Mは2のべき乗、かつフレーム幅Frame以上の値を設定する必要があり、例えば512とする。またmは周波数ビンの番号である。
【0023】
次に、音響特徴抽出部104は、Spct,mの絶対値に対してメルフィルタバンク分析を行い(s203)、フィルタバンクの出力に対し、対数化処理を適用する(s204)。このような処理により、R次元(例えばR=24)の対数メルスペクトルを要素に持つベクトル(以下、このベクトルを単に「対数メルスペクトル」という)Ot={Ot,0,…,Ot,r,…,Ot,R−1}を算出する。但しrはベクトルの要素番号を示す。すなわち、音響特徴抽出部104の出力は複素数スペクトルSpctと対数メルスペクトルOtである。複素数スペクトルSpctは、雑音抑圧部106の入力となり、対数メルスペクトルOtは、パラメータ推定部105と、雑音抑圧部106との入力となる。
【0024】
<GMM記憶部107>
図示しない記憶部には、雑音を含まない、多数話者の音声信号を学習データとして学習されたSIGMMが予め記憶される。SIGMMは無音GMMとクリーン音声GMMとからなる。なお、無音GMMは雑音信号を含まない音声信号の無音部分より取得した音響信号に基づき学習されたGMMであり、クリーン音声GMMは雑音のない環境において無音部分を除く音声のみからなる音響信号に基づき学習されたGMMである。
SIGMMは次式により与えられる。
【0025】
【数2】
【0026】
但し、jは無音GMMと、クリーン音声GMMとを識別するインデックスであり、j=0は無音GMMを、j=1はクリーン音声GMMを示す。また、kは無音GMMもしくはクリーン音声GMMに含まれる正規分布の番号、Kは総正規分布数である(例えばK=128)。また、Stは雑音を含まない、音声信号の対数メルスペクトルであり、bSI,j(St)はSIGMMの尤度である。wSI,j,kとμSI,j,kとΣSI,j,kとはそれぞれSIGMMの混合重みと平均ベクトルと対角分散行列であり、多数話者の学習用音声データを用いて事前に推定しておく。なお、SIGMMのパラメータセット(以下「SIモデルパラメータセット」ともいう)をλSI={wSI,j,k,μSI,j,k,ΣSI,j,k}と定義する。下付添え字SIは、SIGMMに係る尤度やパラメータであることを示している。関数N(・)は、次式で与えられる多次元正規分布の確率密度関数である。
【0027】
【数3】
【0028】
上式において「T」は転置を表す。
以下、本実施形態で用いる話者依存モデルである話者依存GMM(Speaker Dependent GMM、以下「SDGMM」という)と雑音モデルである雑音GMMについて概略を説明する。SDGMMは、特定話者の学習用音声データから推定されたパラメータから構成されるGMMである。前述の通り、話者依存モデルとして、特定話者の学習用音声データを用いて学習されたモデルか、もしくは話者独立モデルを特定話者の統計量に適応させたモデルがある。特定話者の学習用音声データのみからSDGMMを得ることは、実用上、現実的ではないため、本実施形態では、SIGMMに対して話者適応処理を施しSDGMMを得る。すなわち、次式の話者適応処理によりSIGMMの平均ベクトルμSI,j,kをSDGMMの平均ベクトルμSD,j,kに変換する。
【0029】
【数4】
【0030】
上式においてbはR次元ベクトルで構成される話者適応パラメータであり、j、kに対して独立のパラメータとする。なお、下付添え字SDはSDGMMに係る尤度やパラメータであることを示している。
また、雑音GMMは次式により与えられる。
【0031】
【数5】
【0032】
上式においてl(エル)は雑音GMMに含まれる正規分布の番号、Lは総正規分布数である(例えばL=4)。また、Ntは雑音信号の対数メルスペクトルであり、bN(Nt)は雑音GMMの尤度である。wN,lとμN,lとΣN,lとはそれぞれ雑音GMMの混合重みと平均ベクトルと対角分散行列である。以後、雑音GMMのパラメータセット(以下「雑音モデルパラメータセット」ともいう)をλN={wN,l,μN,l,ΣN,l}と定義する。なお、下付添え字Nは、雑音GMMに係る尤度やパラメータであることを示している。
【0033】
非特許文献1では、雑音信号の特徴が定常的かつ、その分布が単峰性であるという前提のもとで雑音抑圧を行っている。一方、本実施形態では、雑音信号が、多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音モデルを単一の正規分布ではなく、GMMにて表現している。なお、後述のパラメータ推定部105において、雑音モデルを教師無し学習する。
【0034】
また、非特許文献2では、話者依存モデルを用いない。一方、本実施形態では、SIGMMに対して話者適応処理を施しSDGMMを得て、雑音抑圧において話者依存モデルを用いる。なお、後述のパラメータ推定部105において、適応パラメータを推定する。
【0035】
<パラメータ推定部105>
パラメータ推定部105は対数メルスペクトルOtとSIモデルパラメータセットλSIとを受け取り、これらの値を用いて、雑音モデルパラメータセットλNと話者適応パラメータbとを最適推定し(s105)、雑音抑圧部106に出力する。
【0036】
パラメータ推定部105において,雑音モデルパラメータセットλNと話者適応パラメータbは、入れ子構造となった3種類のEMアルゴリズムにより推定する。以後、第一EMアルゴリズム、第2EMアルゴリズム及び第3EMアルゴリズムと呼ぶ。EMアルゴリズムは、ある確率モデルのパラメータ推定に利用される方法であり、確率モデルのコスト関数(対数尤度関数)の期待値を計算するExpectation-step(E-step)と、コスト関数を最大化するMaximization-step(M-step)とを収束条件を満たすまで繰り返すことによりパラメータを最適推定する。
【0037】
パラメータ推定部105は、第一初期値推定手段302と第一確率モデル生成手段303と第一期待値計算手段304と雑音モデル推定手段305と話者適応パラメータ推定手段306と第一収束判定手段307とを含む(図4参照)。図5を用いてパラメータ推定部105の処理フローを説明する。
【0038】
(第一初期値推定手段302)
第一初期値推定手段302は第一EMアルゴリズムの繰り返しインデックスiを初期化する(s301)。例えばi=1とする。さらに、第一初期値推定手段302は音響信号otの対数メルスペクトルOtを受け取り、この値を用いて第一EMアルゴリズムにおける雑音モデルパラメータセットλNの初期値λN(i=0)={wN,l(i=0),μN,l(i=0),ΣN,l(i=0)}を以下の式(6)〜(8)により推定し、話者適応パラメータbの初期値を以下の式(9)により設定し(s302)、第一確率モデル生成手段303に出力する。
【0039】
【数6】
【0040】
上式において、−0は全ての要素が0のベクトル、Uは初期値推定に要するフレーム数である(例えばU=10)。diagはかっこ内を要素とする対角行列を、上付添え字(i)は第一EMアルゴリズムにおける、i回目の繰り返し推定におけるパラメータであることを示す。
【0041】
(第一確率モデル生成手段303)
第一確率モデル生成手段303は、i−1回目の繰り返し推定における雑音モデルパラメータセットλ(i−1)Nと話者適応パラメータb(i−1)とを後述する第一収束判定手段307から受け取る。但し、i−1回目の雑音モデルパラメータセットλN(i−1)及び話者適応パラメータb(i−1)が存在しない場合、つまり、0回目の場合、前述の初期値λN(i=0)及びb(i=0)を第一初期値推定手段302から受け取る。さらに第一確率モデル生成手段303は、SIモデルパラメータセットλSIを受け取り、これらの値を利用して、音響信号otの対数メルスペクトルOtの確率モデル(以下「第一確率モデル」という)を以下のようなGMMで構成する。
【0042】
【数7】
【0043】
上式においてbO1,j(Ot)は対数メルスペクトルOtの確率モデルの尤度であり、関数N(・)は式(3)で与えられ、wO1,j,k,l(i)とμO1,j,k,l(i)とΣO1,j,k,l(i)とは、i−1回目の繰り返し推定における雑音モデルパラメータセットλN(i−1)と話者適応パラメータb(i−1)とSIモデルパラメータセットλSIとから生成された、対数メルスペクトルOtの確率モデルの混合重みと平均ベクトルと対角分散行列とであり、以下の式(11)〜(13)で与えられる。
【0044】
【数8】
【0045】
上式において関数log(・)とexp(・)は、ベクトルの要素r毎に演算を行う。また、−1は全ての要素が1のベクトル、Iは単位行列、Hj,k,l(i)は関数h(・)のヤコビ行列である。
【0046】
第一確率モデルのパラメータセット(以下「第一確率モデルパラメータセット」という)をλO1(i)={wO1,j,k,l(i),μO1,j,k,l(i),ΣO1,j,k,l(i)}と定義する。
【0047】
第一確率モデル生成手段303は、式(11)〜(13)に基づきλO1(i)を生成し(s303)、第一期待値計算手段304と雑音モデル推定手段305とに出力する。
(第一期待値計算手段304)
第一期待値計算手段304は、第一確率モデルパラメータセットλO1(i)と音響信号otの対数メルスペクトルOtとを受け取り、i回目の繰り返し推定における対数メルスペクトルOtの確率モデルのコスト関数Q1(・)の期待値を次式により計算する(第一EMアルゴリズムのE−step)(s304)。
【0048】
【数9】
【0049】
上式において、O0:T−1={O0,…,Ot,…,OT−1}であり、Tは対数メルスペクトルOtの総フレーム数であり、Pt,j(i)は式(16)で与えられるフレームtにおけるGMM種別jに対する事後確率である。特にPt,j=0(i)を音声非存在確率、Pt,j=1(i)を音声存在確率と定義する。Pt,j,k,l(i)は式(17)で与えられるフレームtにおける正規分布番号kとlとに対する事後確率である。λO1(i)={wO1,j,k,l(i),μO1,j,k,l(i),ΣO1,j,k,l(i)}は式(11)〜(13)で与えられる。
【0050】
【数10】
【0051】
第一期待値計算手段304は、求めた第一期待値Q1を第一収束判定手段307に、事後確率Pt,j(i)、Pt,j,k,l(i)を雑音モデル推定手段305に出力する。
【0052】
なお、第一EMアルゴリズムのM−stepは、以下の雑音モデル推定手段305と話者適応パラメータ推定手段306における処理からなる。雑音モデル推定手段305内の雑音モデルパラメータ推定手段402において第二EMアルゴリズムが実施され、話者適応パラメータ推定手段306内の話者適応パラメータ更新手段503において第三アルゴリズムが実施される。
【0053】
(雑音モデル推定手段305)
雑音モデル推定手段305は、第一確率モデルパラメータセットλO1(i)と音響信号otの対数メルスペクトルOtと事後確率Pt,j(i)、Pt,j,k,l(i)を受け取り、これらの値を用いて、雑音信号の対数メルスペクトルNtを推定し、推定した雑音信号^Ntを学習データとして雑音モデルを教師無し学習し(s305)、雑音モデルパラメータセットλN(i)を話者適応パラメータ推定手段306と第一収束判定手段307とに出力する。雑音モデル推定手段305は、雑音信号推定手段401と雑音モデルパラメータ推定手段402とを備える(図6参照)。
【0054】
[雑音信号推定手段401]
雑音信号推定手段401は、対数メルスペクトルOtを用いて、雑音信号の対数メルスペクトルNtを推定する(図7のs401)。例えば、雑音信号推定手段401は、事後確率Pt,j(i)、Pt,j,k,l(i)と、第一確率モデルパラメータセットλO1(i)(に含まれる平均ベクトルμO1,j=1,k,l(i))と、対数メルスペクトルOtと、i−1回目の繰り返し推定における雑音モデルパラメータセットλN(i−1)(に含まれる平均ベクトルμN(i−1))とを受け取り、これらの値を用いて、雑音モデルパラメータセットλN(i−1)を更新するために用いる雑音信号の対数メルスペクトルNt(i)を推定し、推定値^Nt(i)を雑音モデルパラメータ推定手段402に出力する。雑音の対数メルスペクトルNt(i)は、次式により推定される。
【0055】
【数11】
【0056】
[雑音モデルパラメータ推定手段402]
雑音モデルパラメータ推定手段402は、雑音信号の対数メルスペクトルの推定値^Nt(i)を受け取り、これを学習データとして、雑音モデルパラメータセットλN(i)を推定し(図7のs402〜s407)、第一収束判定手段307と話者適応パラメータ推定手段306とに出力する。雑音モデルパラメータセットλN(i)の具体的な推定方法(s402〜s407)については後述する。
【0057】
(話者適応パラメータ推定手段306)
話者適応パラメータ推定手段306は、対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλN(i)とを受け取り、これらの値を用いて、音響信号otに含まれる音声信号stを推定し、推定した音声信号^stを学習データとして、話者適応パラメータb(i)を教師無し推定し(図5のs306)、第一収束判定手段307に出力する。
【0058】
話者適応パラメータ推定手段306は、第二確率モデル生成手段501と音声信号推定手段502と話者適応パラメータ更新手段503とを備える(図8参照)。
[第二確率モデル生成手段501]
第二確率モデル生成手段501は、雑音モデルパラメータセットλN(i)と話者適応パラメータb(i−1)とSIモデルパラメータセットλSIとを受け取り、これらの値を利用して、対数メルスペクトルOtの確率モデル(以下「第二確率モデル」という)を以下のようなGMMで構成する。
【0059】
【数12】
【0060】
上式において、bO2,j(Ot)は対数メルスペクトルOtの確率モデルの尤度であり、関数N(・)は式(3)で与えられ、wO2,j,k,l(i)、μO2,j,k,l(i)、ΣO2,j,k,l(i)は、それ第二確率モデルの混合重みと平均ベクトルと対角分散行列とであり、式(20)〜(22)で与えられる。
【0061】
【数13】
【0062】
第二確率モデルのパラメータセット(以下「第二確率モデルパラメータセット」という)をλO2(i)={wO2,j,k,l(i),μO2,j,k,l(i),ΣO2,j,k,l(i)}と定義する。
第二確率モデル生成手段501は、式(20)〜(22)に基づき第二確率モデルパラメータセットλO2(i)を生成し(図9のs501)、λO2(i)と対数メルスペクトルOtとSIモデルパラメータセットλSIとを音声信号推定手段502に出力する。
【0063】
[音声信号推定手段502]
音声信号推定手段502は、対数メルスペクトルOtとSIモデルパラメータセットλSI(に含まれる平均ベクトルμSI,J,k)と第二確率モデルパラメータセットλO2(i)とi−1回目の繰り返し推定における話者適応パラメータb(i−1)とを受け取り、これらの値を用いて、話者適応パラメータb(i)を更新するために用いる、音響信号otに含まれるクリーン音声の対数メルスペクトルStを次式により推定し(s502)、推定値^St(i)を話者適応パラメータ更新手段503に出力する。
【0064】
【数14】
【0065】
なお、事後確率Pt,j(i)、Pt,j,k,l(i)は、第一確率モデルパラメータセットλO1(i)に代えて第二確率モデルパラメータセットλO2(i)を用いて、式(16)、(17)により与えられる。
【0066】
[話者適応パラメータ更新手段503]
話者適応パラメータ更新手段503は、推定したクリーン音声の対数メルスペクトル^St(i)とSIモデルパラメータセットλSIとを受け取り、これらの値を用いて話者適応パラメータb(i−1)を更新し(図9のs503〜s508)、第一収束判定手段307に出力する。話者適応パラメータb(i)の具体的な更新方法(s503〜s508)については後述する。
【0067】
(第一収束判定手段307)
第一収束判定手段307は、第一期待値Q1を受け取り、この値を用いて収束条件を満たすか否かを判定し(図5のs307)、満たす場合はλN=λN(i)、b=b(i)とし、λNとbを雑音抑圧部106に出力しパラメータ推定部105の処理を終了する。満たさない場合はλN(i)とb(i)を第一確率モデル生成手段303に出力し、i←i+1(s308)として、繰り返し処理を行うように各部に制御信号を出力し、s303〜s306の処理を繰り返す。例えば、収束条件は、最新の第一期待値Q1(O0:T−1,b(i),λN(i))と一つ前の第一期待値Q1(O0:T−1,b(i−1),λN(i−1))との差が所定値η1以下である場合や、繰り返し回数iが所定値I1以上になった場合等とすることができる。例えば次式で表すことができる。
【0068】
【数15】
【0069】
であり、例えば、η1=0.0001、I1=100である。
<雑音モデルパラメータ推定手段402の詳細>
雑音モデルパラメータ推定手段402は、第二初期値推定手段403と第二期待値計算手段404とパラメータ更新手段405と第二収束判定手段406とを含む(図6参照)。図7を用いて雑音モデルパラメータ推定手段402の処理内容を説明する。
【0070】
(第二初期値推定手段403)
第二初期値推定手段403は、まず第二EMアルゴリズムの繰り返し回数を示すインデックスi’を初期化する(s402)。例えば、i’=1とする。次に第二初期値推定手段403は、推定した雑音信号の対数メルスペクトル^Nt(i)を受け取り、この値を用いて、第二EMアルゴリズムにおける雑音モデルパラメータセットλN(i’)の初期値λN(i’=0)={wN,l(i’=0),μN,l(i’=0),ΣN,l(i’=0)}を式(26)〜(30)により推定し(s403)、第二期待値計算手段404に出力する。
【0071】
【数16】
【0072】
上式において、上付添え字(i’)はi’回目の繰り返し推定におけるパラメータであることを示す。また、GaussRand(a,b)は平均a、分散bの正規乱数の発生器である。
【0073】
(第二期待値計算手段404)
第二期待値計算手段404は、推定した雑音信号の対数メルスペクトル^Nt(i)を雑音信号推定手段401から受け取る。また第二EMアルゴリズムにおける雑音モデルパラメータセットλN(i’−1)を第二収束判定手段406から受け取る。但し、i’−1回目の雑音モデルパラメータセットλN(i’−1)が存在しない場合、つまり、0回目の場合、前述の初期値λN(i’=0)を第二初期値推定手段403から受け取る。これらの値を用いて第二期待値計算手段404はi’回目の繰り返し推定における雑音GMMのコスト関数Q2(・)の期待値を式(31)により計算し(第二EMアルゴリズムのE−step)(s404)、第二収束判定手段406に出力する。
【0074】
【数17】
【0075】
上式において、^N0:T−1(i)={^N0(i),…,^Nt(i),…,^NT−1(i)}であり、
関数N(・)は式(3)で与えられ、Pt,l(i’)は次式で与えられるフレームtにおける正規分布番号lに対する事後確率である。
【0076】
【数18】
【0077】
第二期待値計算手段404は、求めたPt,l(i’)をパラメータ更新手段405に出力する。
(パラメータ更新手段405)
パラメータ更新手段405は、事後確率Pt,l(i’)と対数メルスペクトル^Nt(i)とを受け取り、雑音モデルパラメータセットλN(i’−1)を次式により更新し(第二EMアルゴリズムのM−step)(s405)、更新した雑音モデルパラメータセットλN(i’)を第二収束判定手段406に出力する。
【0078】
【数19】
【0079】
(第二収束判定手段406)
第二収束判定手段406は、第二期待値Q2を受け取り、この値を用いて収束条件を満たすか否かを判定し(s406)、満たす場合はλN(i)=λN(i’)としλN(i)を、第一収束判定手段307と話者適応パラメータ更新手段503とに出力し雑音モデルパラメータ推定手段402の処理を終了する。満たさない場合はλN(i’)を第二期待値計算手段404に出力し、i’←i’+1(s407)として、繰り返し処理を行うように各部に制御信号を出力し、s404、s405の処理を繰り返す。例えば、収束条件は、最新の第二期待値Q2(^N0:T−1,λN(i’))と一つ前の第二期待値Q2(^N0:T−1,λN(i’−1))との差が所定値η2以下である場合や、繰り返し回数i’が所定値I2以上になった場合等とすることができる。例えば以下の式で表すことができる。
【0080】
【数20】
【0081】
であり、例えば、η2=0.0001、I2=100である。
<話者適応パラメータ更新手段503の詳細>
話者適応パラメータ更新手段503は、初期値設定手段504と第三期待値計算手段505と話者適応パラメータ算出手段506と第三収束判定手段507とを含む(図8参照)。
【0082】
図9を用いて話者適応パラメータ更新手段503の処理内容を説明する。
(初期値設定手段504)
初期値設定手段504は、まず第三EMアルゴリズムの繰り返し回数を示すインデックスi”を初期化する(s503)。例えば、i”=1とする。次に初期値設定手段504は、第三EMアルゴリズムにおける話者適応パラメータb(i”)の初期値b(i”=0)を次式により設定し(s504)、第三期待値計算手段505に出力する。
【0083】
【数21】
【0084】
上式において、上付添え字(i”)は第三EMアルゴリズムにおける、i”回目の繰り返し推定におけるパラメータであることを示す。
(第三期待値計算手段505)
第三期待値計算手段505は、SIモデルパラメータセットλSIと推定したクリーン音声の対数メルスペクトル^St(i)とを受け取る。また第三収束判定手段507からi”−1回目の話者適応パラメータb(i”−1)を受け取る。但し、i”−1回目の話者適応パラメータb(i”−1)が存在しない場合、つまり、0回目の場合、前述の初期値b(i”=0)を初期値設定手段504から受け取る。これらの値を用いて第三期待値計算手段505はi”回目の繰り返し推定におけるSDGMMのコスト関数Q3(・)の期待値を次式により計算し(第三EMアルゴリズムのE−step)(s505)、第三収束判定手段507に出力する。
【0085】
【数22】
【0086】
上式において、^S0:T−1(i)={^S0(i),…,^St(i),…,^ST−1(i)}であり、Pt,j(i”)は以下の式(39)で与えられるフレームtにおけるGMM種別jに対する事後確率であり、Pt,j,k(i”)は以下の式(40)で与えられるフレームtにおける正規分布番号kに対する事後確率である。
【0087】
【数23】
【0088】
第三期待値計算手段505は、求めた事後確率Pt,j(i”)、Pt,j,k(i”)を話者適応パラメータ算出手段506に出力する。
【0089】
(話者適応パラメータ算出手段506)
話者適応パラメータ算出手段506は、事後確率Pt,j(i”)、Pt,j,k(i”)とSIモデルパラメータセットλSIとクリーン音声の対数メルスペクトル^St(i)とを受け取り、以下の式(41)を用いて話者適応パラメータb(i”)を求め、これを新たな話者適応パラメータb(i”)として更新し(第三EMアルゴリズムのM−step)(s506)、第三収束判定手段507に出力する。
【0090】
【数24】
【0091】
(第三収束判定手段507)
第三収束判定手段507は、第三期待値Q3を受け取り、この値を用いて収束条件を満たすか否かを判定し(s507)、満たす場合はb(i)=b(i”)としb(i)を第一収束判定手段307に出力し話者適応パラメータ更新手段503の処理を終了する。満たさない場合はb(i”)を第三期待値計算手段505に出力し、i”←i”+1(s508)として、繰り返し処理を行うように各部に制御信号を出力し、s505、s506の処理を繰り返す。例えば、収束条件は、最新の第三期待値Q3(^S0:T−1(i),b(i”))と一つ前の第三期待値Q3(^S0:T−1(i),b(i”−1))との差が所定値η3以下である場合や、繰り返し回数i”が所定値I3以上になった場合等とすることができる。例えば以下の式で表すことができる。
【0092】
【数25】
【0093】
であり、例えば、η3=0.0001、I3=100である。よって、第三EMアルゴリズムのM−stepにおいて話者適応パラメータ算出手段506で最終的に算出した話者適応パラメータb(i)=b(i”)が、第一EMアルゴリズムのi回目の繰り返しにおけるSDGMMの尤度を最大とするものとなる。
【0094】
<雑音抑圧部106>
雑音抑圧部106は、音響信号otの音響特徴である対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbと受け取り、これらの値を用いて音響信号otに含まれる雑音信号ntを抑圧し(s106)、雑音抑圧信号^sτを雑音抑圧装置100の出力値として出力する。例えば、図10に示すように雑音抑圧部106は、雑音抑圧フィルタ推定手段601と雑音抑圧フィルタ適用手段602を含む。雑音抑圧フィルタ推定手段601は音響信号の対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbとを受け取り、雑音抑圧フィルタWLint,mを推定する。雑音抑圧フィルタ適用手段602は、複素数スペクトルSpctと雑音抑圧フィルタWLint,mとを受け取り、雑音を抑圧して雑音抑圧信号^sτを得る。以下、各手段の詳細を説明する。
【0095】
(雑音抑圧フィルタ推定手段601)
雑音抑圧フィルタ推定手段601は図11に示す流れで処理を行う。まず、雑音抑圧フィルタ推定手段601は、SIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbを受け取り、これらの値を用いて、音響信号の対数メルスペクトルOtの確率モデルである第三確率モデルのパラメータセット(以下「第三確率モデルパラメータセット」という)λO3={wO3,j,k,l,μO3,j,k,l,ΣO3,j,k,l}を以下のように生成する(s601)。
【0096】
【数26】
【0097】
上式において関数h(・)、g(・)は、式(12)、(13)により与えられる。
【0098】
次に、雑音抑圧フィルタ推定手段601は、求めた第三確率モデルパラメータセットλO3と対数メルスペクトルOtとを用いて、式(48)、(49)により事後確率Pt,j、Pt,j,k,lを計算する(s602)。
【0099】
【数27】
【0100】
次に、雑音抑圧フィルタ推定手段601は、SIモデルパラメータセットλSIと雑音モデルパラメータセットλNと事後確率Pt,j、Pt,j,k,lとを用いて、メル周波数軸上での雑音抑圧フィルタWMelt,rを次式のように推定する(s603)。
【0101】
【数28】
【0102】
上式はベクトルの要素r毎の表記である。
【0103】
次に、雑音抑圧フィルタ推定手段601は、メル周波数軸上での雑音抑圧フィルタWMelt,rを線形周波数軸上での雑音抑圧フィルタWLint,mに変換し(s604)、雑音抑圧フィルタ適用手段602に出力する。なお、変換は3次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値を推定することにより行う。
(雑音抑圧フィルタ適用手段602)
雑音抑圧フィルタ適用手段602は図12に示す流れで処理を行う。雑音抑圧フィルタ適用手段602は、雑音抑圧フィルタWLint,mと複素数スペクトルSpctとを受け取り、複素数スペクトルSpctに対して雑音抑圧フィルタWLint,mを次式のように掛け合わせることにより雑音抑圧された複素数スペクトル^St,mを得る(s701)。
【0104】
【数29】
【0105】
上式はベクトルの要素m毎の表記である。
【0106】
次に、雑音抑圧フィルタ適用手段602は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧信号^st,nを得る(s702)。
【0107】
次に、雑音抑圧フィルタ適用手段602は、各フレームの雑音抑圧信号^st,nを次式のように窓関数wnを解除しながら連結して連続した雑音抑圧信号^sτを得て(s703)、これを雑音抑圧装置100の出力値として出力する。
【0108】
【数30】
【0109】
<効果>
本実施形態では、多峰的な雑音信号の確率モデルのパラメータを推定する雑音信号モデルパラメータ推定手段と、話者独立の音声信号のモデルを話者依存の音声信号の確率モデルに適応させるためのパラメータを推定する話者適応パラメータ推定手段を具備し、それぞれを同時に実施しながらパラメータの更新を行う。このような構成により、話者の特徴を反映して、予め分かっていない非定常雑音をより高精度に抑圧することができる。また、信号に含まれる雑音信号が多峰性の分布に従う非定常雑音であっても、非線形問題を解くことなく確率モデルパラメータ(雑音モデルパラメータ及び話者適応パラメータ)を容易に最適化することができ、最適な雑音抑圧フィルタを設計し、高品質に目的音声信号を得ることができる。
【0110】
なお、推定された雑音信号、及び音声信号には誤差が含まれる可能性があるが、雑音信号の確率モデルの推定、及び話者適応においては、学習データの統計的な性質を推定して処理を行っているため、誤差の問題は致命的な問題とならない。
<その他の変形例>
第一実施形態において、各部及び各手段が、図示しない記憶部に各信号や、処理途中の信号、各種パラメータ等が記憶し、記憶部を介して各データの読み書きを行ってもよい。
【0111】
第一実施形態において、フレーム化処理(図3のs201)にて窓関数wnにはハミング窓以外に方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。
【0112】
第一実施形態において、音声信号の確率モデルとして、無音GMM、クリーン音声GMMの代わりに、隠れマルコフモデル(Hidden Markov Model:HMM)等の他の確率モデルを用いてもよい。
【0113】
第一実施形態において、無音GMM、クリーン音声GMMの2つのGMMだけでなく、より多くのGMMを用いてもよい。例えば、無音GMM、無声音GMM、有声音GMMや、音素毎のGMMを用いてもよい。
【0114】
第一実施形態において、雑音GMMの代わりに、雑音信号の確率モデルとしてHMM等の他の確率モデルを用いてもよい。
【0115】
第一実施形態において、話者適応処理を次式のようなR×R次元のアフィン変換行列Aを用いて実施してもよい。
【0116】
【数31】
【0117】
第一実施形態において、話者適応処理を次式のようなR×R次元のアフィン変換行列Aと、ベクトルbを用いて実施してもよい。
【0118】
【数32】
【0119】
第一実施形態において、話者適応処理のパラメータであるアフィン変換行列Aと、ベクトルbを、次式のように無音GMMと、クリーン音声GMMとを識別するインデックスj、及び無音GMM、もしくはクリーン音声GMMに含まれる正規分布の番号kに依存するパラメータとしてもよい。
【0120】
【数33】
【0121】
もしくは、
【0122】
【数34】
【0123】
もしくは、
【0124】
【数35】
【0125】
第一実施形態において、雑音抑圧フィルタ推定処理(図11のs603)にて、重み付け平均ではなく、最大の重み、すなわち最大の音声非存在/存在確率Pt,jと、事後確率Pt,j,k,lとの積を持つ推定結果をそのまま使用してもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。
【0126】
第一実施形態において、式(26)、(29)、(30)に代えて、以下の式により初期値を設定してもよい。
【0127】
【数36】
【0128】
第一実施形態において、式(37)に代えて、以下の式により初期値を設定してもよい。
【0129】
【数37】
【0130】
第一実施形態において、各EMアルゴリズムにおいて、M−stepを実施した後にE−stepを実施する構成としてもよい。また、M−stepを実施直後に収束判定を行い、収束していない場合にE−stepを実施する構成としてもよい。このような構成とすることで、収束している場合にM−stepを実施する処理を省略することができる。
【0131】
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<シミュレーション結果>
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を第一実施形態の雑音抑圧装置に入力し、雑音抑圧を実施した例を示す。以下実験方法、及び結果について説明する。
【0132】
本実験では、評価用データには、IPA(Information-technology promotion agency, Japan)-98-TestSetのうち、男性23名が発声したデータ100文を用いており、これらの音声データに対して、空港ロビー、駅プラットホーム、街頭にて別途収録した雑音を、それぞれS/N比(信号対雑音比)0dB、5dB、10dBにて計算機上で重畳した。すなわち、雑音3種類×S/N比3種類の合計9種類の評価データを作成した。それぞれの音声データは、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、1フレームの時間長を20ms(Frame=320サンプル点)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて、音響特徴抽出部104を適用した。
【0133】
無音GMM、クリーン音声GMMには、R=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=128のGMMを用い、それぞれ多数話者の学習用音声データを用いて学習した。雑音GMMの混合分布数にはL=4を与えた。
【0134】
性能の評価は音声認識により行い、評価尺度は次式の単語誤り率(Word error rate: WER)で行った。
【0135】
【数38】
【0136】
上式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程音声認識性能が高いことを示す。
【0137】
音声認識は、有限状態トランスデューサーに基づく認識器(T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365)により行い、音響モデルには話者独立のTriphone HMMを用いており、各HMMの構造は3状態のLeft−to−right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は2,000である。音声認識の音響特徴量は、1フレームの時間長を20ms(Frame=320)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient)、対数パワー値、各々の1次及び2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri−gramを用い、語彙数は20,000単語である。
【0138】
図13は、雑音抑圧の結果であり、雑音抑圧処理を行わない場合と、非特許文献1に開示された方法と、非特許文献2に開示された方法と、第一実施形態とによる音声認識の評価結果を示している。図13の結果からも、第一実施形態により従来技術に比べて高い性能を得られることが明らかである。
<プログラム及び記録媒体>
上述した雑音抑圧装置は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現してもよい。これらのプログラムは例えば磁気ディスクあるいはCD−ROMのようなコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。
【産業上の利用可能性】
【0139】
本発明は、自動音声認識の前段において、音響信号から雑音を抑圧し、雑音抑圧信号を用いて自動音声認識に利用することができる。また、TV会議システム等の通話システムや録音システムにおいて、受信または収録した音響信号から雑音信号を抑圧する際に利用することができる。
【特許請求の範囲】
【請求項1】
雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧装置であって、
前記音響信号の音響特徴を抽出する音響特徴抽出手段と、
雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルが記憶される記憶手段と、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成手段と、
前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧手段と、
を含む雑音抑圧装置。
【請求項2】
請求項1記載の雑音抑圧装置であって、
前記話者適応パラメータ推定手段は、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成手段と、
前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定手段と、
推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出手段とを含む、
雑音抑圧装置。
【請求項3】
請求項2記載の雑音抑圧装置であって、
前記話者適応パラメータ推定手段は、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出手段の処理を繰り返し、
当該雑音抑圧装置は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成手段と前記雑音モデル推定手段と前記話者適応パラメータ推定手段の処理を繰り返す、
雑音抑圧装置。
【請求項4】
雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧方法であって、
前記音響信号の音響特徴を抽出する音響特徴抽出ステップと、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成ステップと、
前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定ステップと、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定ステップと、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧ステップと、
を含む雑音抑圧方法。
【請求項5】
請求項4記載の雑音抑圧方法であって、
前記話者適応パラメータ推定ステップは、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成ステップと、
前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定ステップと、
推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出ステップとを含む、
雑音抑圧方法。
【請求項6】
請求項5記載の雑音抑圧方法であって、
前記話者適応パラメータ推定ステップは、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出ステップの処理を繰り返し、
当該雑音抑圧方法は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成ステップと前記雑音モデル推定ステップと前記話者適応パラメータ推定ステップの処理を繰り返す、
雑音抑圧方法。
【請求項7】
請求項1から3の何れかに記載の雑音抑圧装置として、コンピュータを機能させるためのプログラム。
【請求項1】
雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧装置であって、
前記音響信号の音響特徴を抽出する音響特徴抽出手段と、
雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルが記憶される記憶手段と、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成手段と、
前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧手段と、
を含む雑音抑圧装置。
【請求項2】
請求項1記載の雑音抑圧装置であって、
前記話者適応パラメータ推定手段は、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成手段と、
前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定手段と、
推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出手段とを含む、
雑音抑圧装置。
【請求項3】
請求項2記載の雑音抑圧装置であって、
前記話者適応パラメータ推定手段は、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出手段の処理を繰り返し、
当該雑音抑圧装置は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成手段と前記雑音モデル推定手段と前記話者適応パラメータ推定手段の処理を繰り返す、
雑音抑圧装置。
【請求項4】
雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧方法であって、
前記音響信号の音響特徴を抽出する音響特徴抽出ステップと、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成ステップと、
前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定ステップと、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定ステップと、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧ステップと、
を含む雑音抑圧方法。
【請求項5】
請求項4記載の雑音抑圧方法であって、
前記話者適応パラメータ推定ステップは、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成ステップと、
前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定ステップと、
推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出ステップとを含む、
雑音抑圧方法。
【請求項6】
請求項5記載の雑音抑圧方法であって、
前記話者適応パラメータ推定ステップは、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出ステップの処理を繰り返し、
当該雑音抑圧方法は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成ステップと前記雑音モデル推定ステップと前記話者適応パラメータ推定ステップの処理を繰り返す、
雑音抑圧方法。
【請求項7】
請求項1から3の何れかに記載の雑音抑圧装置として、コンピュータを機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2013−114151(P2013−114151A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−261767(P2011−261767)
【出願日】平成23年11月30日(2011.11.30)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願日】平成23年11月30日(2011.11.30)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]