説明

音響モデル作成装置、音響モデル作成方法、及び音響モデル作成システム

【課題】本発明が解決しようとする課題は、任意の雑音抑圧方式で作成された雑音抑圧信号にマッチした音響モデルを作る技術を提供することにある。
【解決手段】本願発明は、雑音の無い環境で収録した音声であるクリーン信号に、リアルタイムで収録している雑音信号を付加して雑音付加信号を作成し、前記作成された雑音付加信号から雑音を取り除いて雑音抑圧信号を作成し、前記作成した雑音抑圧信号を用いて計算したGMMを、前記クリーン信号を学習したモデルであるクリーンモデルのGMMと入れ替えることで、雑音抑圧モデルを作成することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響モデル作成装置、音響モデル作成方法、及び音響モデル作成システムに関する。
【背景技術】
【0002】
一般に音声認識では、統計的手法が良く用いられている。これは大量の発話を記録した学習用データから音声の特徴を蓄積し、入力された音声信号(以下入力信号と記す)と蓄積された特徴とを比較しながら、最も特徴に近い言語系列を認識結果として出力する技術である。このような技術では、音声の音響的な特徴と言語的な特徴を分離して扱うことが多い。音響的な特徴とは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したもので、音響モデルと呼ばれる。音響モデルの表現としては、混合正規分布(以下GMMと記す)を出力確率とした隠れマルコフモデル(以下HMMと記す)が広く用いられている。
【0003】
ここで、雑音環境下における音声認識を考える。雑音環境下において、入力信号と音響モデルとの間にミスマッチが生じる。このミスマッチが認識性能の劣化を招く。しかし、実運用で想定される雑音環境下で収録したデータを学習データとすれば、入力信号と音響モデルとの間のミスマッチを減らすことができ、雑音環境においても高い認識性能を実現できる。なお、この方法では、同じ環境雑音を含む学習データと入力信号の双方に対して雑音抑圧法を用いることでSN比を高くすることができる。特に、識別能力を低下させてしまうような低SN比のデータを扱う場合に効果がある。しかし、学習データから音響モデルを作成するには多大な計算量を必要とするため、周囲の雑音が変化する環境においては、入力信号と音響モデルの間のミスマッチの制御が間に合わない。
【0004】
これに対して、雑音の変化に追従することを目的として、より少ないデータ量、少ない計算時間で、雑音に適応した音響モデルを作る方法、モデル適応法がある。これは、雑音のないクリーンな音声信号と雑音、入力信号の関係を数式で書き下すことで、クリーンモデル(雑音のないクリーンな環境で収録された音声信号を学習データとして学習した音響モデルとして以下、クリーンモデルと記す)から、雑音モデル(雑音を含む入力データにマッチした音響モデルとして以下雑音モデルと記す)に変換する。しかし、モデル適応法では、雑音抑圧モデル(雑音抑圧法によって得られる雑音抑圧信号にマッチした音響モデルとして、以下、雑音抑圧モデルと記す)を生成することは難しい。これは、クリーンな音声信号と雑音抑圧法における抑圧誤差と雑音抑圧信号の間の関係を数式によって書き下すことが難しいことによる。
【0005】
これに対して、特許文献1や非特許文献1には、周囲の雑音の変化に追従しつつ雑音抑圧モデルを作成する方式が記されている。例えば、特許文献1の方法は、雑音パワースペクトルから平均雑音パワースペクトルを減算して、消し残りパワースペクトルを算出し、雑音モデルを消し残りのパワースペクトルから、消し残り雑音モデルを学習する。そして、この消し残り雑音モデルとクリーンモデルと合成する方法が紹介されている。
【0006】
また、非特許文献1では、入力信号のそれぞれのフレームの特徴量に適した抑圧誤差の分散を計算し、尤度計算の際にこれらの抑圧誤差の分散をクリーンモデルの分散に反映させる方法が紹介されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平10‐97278号公報
【非特許文献】
【0008】
【非特許文献1】Li Deng, Droppo, J, Acero, A, Dynamic compensation of HMM variancesusing the feature enhancement uncertainty computed from parametric model ofspeech distortion.
【発明の概要】
【発明が解決しようとする課題】
【0009】
特許文献1の技術は、無音区間から得られる抑圧誤差から雑音モデルを作成し、クリーンモデルとHMM合成している。しかし、雑音抑圧信号の無音区間で学習されたガウシアンがHMMに加わるだけで発話に対応するガウシアンはクリーンのままである。従って、厳密には、雑音抑圧信号にマッチした音響モデルを作れていない。一方、非特許文献1では、限られた雑音抑圧方式で作成された雑音抑圧信号にマッチした音響モデルしか作ることができない。
【0010】
そこで、本発明が解決しようとする課題は、上記問題点を解決することであり、任意の雑音抑圧方式で作成された雑音抑圧信号にマッチした音響モデルを作る技術を提供することにある。
【課題を解決するための手段】
【0011】
上記課題を解決するための本発明は、音響モデル作成装置であって、雑音の無い環境で収録され、さらにアライメント情報を有する音声であるクリーン信号に、雑音信号を付加して雑音付加信号を作成する雑音付加信号作成手段と、前記作成された雑音付加信号から雑音を取り除いて雑音抑圧信号を作成する雑音抑圧手段と、前記作成した雑音抑圧信号と前記アライメント情報より計算したGMMを、前記クリーン信号で学習した音響モデルであるクリーンモデルのGMMと入れ替えることで、雑音抑圧モデルを作成する雑音抑圧モデル作成手段と、を有することを特徴とする。
【0012】
上記課題を解決するための本発明は、音響モデル作成方法であって、雑音の無い環境で収録され、さらにアライメント情報を有する音声であるクリーン信号に、雑音信号を付加して雑音付加信号を作成する雑音付加信号作成ステップと、前記作成された雑音付加信号から雑音を取り除いて雑音抑圧信号を作成する雑音抑圧ステップと、前記作成した雑音抑圧信号と前記アライメント情報より計算したGMMを、前記クリーン信号で学習した音響モデルであるクリーンモデルのGMMと入れ替えることで、雑音抑圧モデルを作成する雑音抑圧モデル作成ステップと、を有することを特徴とする。
【0013】
上記課題を解決するための本発明は、音響モデル作成システムであって、雑音の無い環境で収録され、さらにアライメント情報を有する音声であるクリーン信号に、雑音信号を付加して雑音付加信号を作成する雑音付加信号作成手段と、前記作成された雑音付加信号から雑音を取り除いて雑音抑圧信号を作成する雑音抑圧手段と、前記作成した雑音抑圧信号と前記アライメント情報より計算したGMMを、前記クリーン信号で学習した音響モデルであるクリーンモデルのGMMと入れ替えることで、雑音抑圧モデルを作成する雑音抑圧モデル作成手段と、を有することを特徴とする。
【発明の効果】
【0014】
本発明によると、任意の雑音抑圧方式によって得られる雑音抑圧信号にマッチした音響モデルを作成することが可能であることである。そして、雑音信号を学習データとしてモデル学習するよりも高速で作成することが可能であることである。
【図面の簡単な説明】
【0015】
【図1】第1の実施の形態の音響モデル生成システムのブロック図である。
【図2】第1の実施の形態のフロー図である。
【図3】第2の実施の形態の音響モデル生成システムのブロック図である。
【図4】第2の実施の形態のフロー図である。
【図5】第3の実施の形態の音響モデル生成システムのブロック図である。
【図6】第4の実施の形態の音響モデル生成システムのブロック図である。
【図7】第4の実施の形態のフロー図である。
【発明を実施するための形態】
【0016】
本発明の特徴を説明するために、以下において、図面を参照して具体的に述べる。
〈第一の実施の形態〉
第一の実施の形態を、図1を参照して説明する。図1は本実施の形態における音響モデル生成システムのブロック図である。以下、第一の実施の形態における音響モデル適応装置100が備える各構成要素、及び、音響モデル適応装置を動作させるために必要な要素について説明する。
【0017】
本願の音響モデル生成システムは、音響モデル適応装置100、クリーンモデル格納部001、雑音抑圧モデル格納部002、クリーン信号格納部003、及び雑音信号格納部004を有する。
【0018】
音響モデル適応装置100は、雑音付加信号作成部101、雑音抑圧部102、及び雑音モデル作成部103を有する。
【0019】
雑音付加信号作成部101は、クリーン信号格納部003のクリーン信号と雑音信号格納部004の雑音信号とを入力とし、雑音付加信号を出力とする。雑音付加信号はクリーン信号と雑音信号とを足すことで作成される。
【0020】
雑音抑圧部102は、雑音付加信号作成部101で作成された雑音付加信号を入力とし、雑音抑圧信号を出力する。雑音抑圧信号は、雑音付加信号を、雑音抑圧法によって雑音を抑圧することで作成される。尚、ここで用いられる雑音抑圧法は、特定な技術ではなく、いかなる技術であってもよい。
【0021】
雑音抑圧信号HMM作成部103は、雑音抑圧部102で作成された雑音抑圧信号と、クリーンモデル格納部003のクリーンモデルと、クリーン信号のアライメント情報を入力とし、雑音抑圧モデルを出力する。雑音抑圧モデルは、雑音抑圧信号とアライメント情報を元にクリーンモデルのガウシアンを雑音抑圧信号に適応することで作成される。クリーン信号のアライメント情報とは、ある時刻での信号が、クリーンモデルのどのHMMのどの状態に由来するかを示す情報である。
【0022】
クリーンモデル格納部001には、クリーンな環境で収録したクリーン信号で学習したクリーンモデルが格納されている。なお、ここで格納されているクリーンモデルの各HMMの各状態におけるGMMの各ガウシアンの平均と分散とを、
平均(μh,s,k, Δμh,s,k, ΔΔμh,s,k)、分散(Σh,s,k, ΔΣh,s,k, ΔΔΣh,s,k)
と表現する。平均と分散とは、音声の特徴量(メルケプストラムとその一次、二次動的成分)で計算されるため、平均は39次元のベクトル、分散は39×39次元の対角行列の対角成分で作るベクトルとして格納される。Δ、ΔΔはそれぞれ一次、二次動的成分を示す。添え字である、hはHMM番号を示し、sは状態番号を示し、kはガウシアン番号を示す。そして、それぞれ、H個、S個、K個あるとする。
【0023】
雑音抑圧モデル格納部002には、雑音抑圧モデル作成部103で出力される雑音抑圧モデルが格納されている。なお、ここで格納されているクリーンモデルの各HMMの各状態におけるGMMの各ガウシアンの平均と分散を、

と表現する。平均と分散とは、音声の特徴量(メルケプストラムとその一次、二次動的成分)で計算されるため、平均は39次元のベクトル、分散は39×39次元の対角行列の対角成分で作るベクトルとして格納される。
【0024】
クリーン信号格納部003には、クリーン信号と、クリーン信号のアライメント情報とが格納されている。なお、クリーン信号のアライメント情報は、予め、クリーンモデル格納部001のクリーンモデルを用いて、これらのクリーン信号を認識したときの認識結果としてもよい。クリーン信号のアライメント情報は、信号が、ある時刻においてクリーンモデルのどのHMMのどの状態に由来するかを示す情報である。なお、ここで格納されるクリーン信号は、全I個とし、1個のクリーン信号には1発声から数発声が収録されているとする。これらのクリーン信号を以下、xi(t),i=0, …I−1t.=0, …, Nxi-1と表現する。iは、I個のクリーン信号の番号を示し、tはサンプル番号を示し、i番目のクリーン信号のサンプル数をNxiとする。クリーン信号のアライメント情報はクリーン信号と同じ数だけ存在し、li(τ),i=0…,I-1.τ=0,…,N’i,x-1と表現する。li(τ)は(h,s)を値としてもつ。また、τは、サンプル番号を示すが、ここでは、特徴量のサンプル番号を示す。そして、N’i,xは、xi(t)を特徴量変換した後のサンプル数を示す。
【0025】
雑音信号格納部004には、雑音信号が格納されている。雑音信号格納部004に格納される雑音信号は常に更新される。なお、格納される雑音信号は、n(t),t=0,…,Nn-1と表現する。ここでは雑音信号のサンプル数はNnとする。なお、この雑音信号n(t),t=0,…,Nn-1は常に更新されるため、リングバッファに格納しているとする。
【0026】
図2は本実施の形態における音響モデル適応装置100の動作の概要を示すフローチャートである。図2を用いて、第一の実施の形態における動作の概要を説明する。
【0027】
まず、雑音付加信号作成過程(S101)について説明する。
クリーン信号格納部に格納されているI個のクリーン信号xi(t),i=0, …I−1t.=0, …, Nxi-1と、雑音信号格納部004に格納されている雑音信号n(t),t=0,…,Nn-1を取得し、これらを雑音付加信号作成部101に入力する。そして、雑音付加信号作成部101から雑音付加信号が出力される。なお、雑音付加信号作成部101では、全I個の雑音付加信号が作成され、yi(t),i=0,…,I-1,t=0,…,Nxi-1と表現する。なお、それぞれの雑音付加信号のサンプル数は、クリーン信号のサンプル数と変わらない。
【0028】
ここで、雑音付加信号yi(t)は、例えば、数1のように計算される。
【数1】

続いて、雑音抑圧過程(S102)について説明する。
【0029】
雑音付加信号作成部101が出力するI個の雑音付加信号yi(t),i=0,…,I-1,t=0,…,Nxi-1を雑音抑圧部102に入力する。そして、雑音抑圧部102から雑音付加信号が作成され、

と表現する。なお、それぞれの雑音付加信号のサンプル数は、クリーン信号のサンプル数と変わらない。ここでは、例えば、雑音抑圧法には、Wiener Filter法などの方法が考えられる。
【0030】
次に、雑音抑圧モデル作成過程(S103)について説明する。
【0031】
雑音抑圧部102が出力するI個の雑音抑圧信号

と、クリーンモデル格納部001に格納されているクリーンモデルと、クリーン信号格納部003に格納されているクリーン信号のアライメント情報li(τ),i=0…,I-1.τ=0,…,N’i,x-1を雑音抑圧モデル作成部103に入力し、雑音抑圧モデルを出力し、雑音抑圧モデル格納部002に格納する。ここで、雑音抑圧モデルの作成法を述べる。
【0032】
まず、I個の雑音抑圧信号

を特徴量に変換する。ここで、I個の雑音抑圧信号の特徴量を

と表現する。なお、特徴量のサンプル番号はτで表現し、特徴量変換後のサンプル数はN’xiで表現する。
【0033】
次に、実際に、クリーンモデル格納部001に格納されているクリーンモデルの全てのHMMの、全ての状態のGMMを雑音抑圧信号に適応するが、ここでは、h番目のHMM,S番目の状態についてのGMMの適応法を述べる。まず、アライメント情報li(τ)を参照して、h,sに対応するτを全て選び、これら全てのτに対応した雑音抑圧信号の特徴量

を集める。集められた特徴量の集合を

とし、その元を

とする。集合

の中の全ての

とについて、EMアルゴリズムなどでGMMを作成する。作成したGMMをクリーンモデルのh番目のHMM, s番目の状態のGMMと換える。クリーンモデルの全てのh,sでGMMを換えて、雑音抑圧信号のモデルを作成する。
【0034】
上記実施の形態の効果は、任意の雑音抑圧方式によって得られる雑音抑圧信号にマッチした音響モデルを作成することが可能である。そして、雑音信号を学習データとしてモデル学習するよりも高速で作成することが可能である。
【0035】
〈第二の実施の形態〉
第二の実施の形態を、図3を参照して説明する。以下、第二の実施の形態における音響モデル適応装置200が備える各構成要素、及び、音響モデル適応装置を動作させるために必要な要素について説明する。第一の実施の形態との違いは、第二の実施の形態ではクリーン信号格納部003が存在せず、クリーンモデル格納部001に格納されているHMMのガウシアンの情報を用いて、クリーン信号作成部201によってクリーン信号が作られる。これにより、第二の実施の形態の雑音抑圧モデル作成部203は第一の実施の形態の抑圧モデル作成部103とは異なる。尚、上記実施の形態と同様の構成については同一番号を付して詳細な説明は省略し、ここでは、クリーン信号作成部と、雑音抑圧モデル作成部203の説明をする。
【0036】
クリーン信号作成部201は、クリーンモデル格納部001に格納されているクリーンモデルを入力とし、クリーン信号を出力とする。なお、出力されたクリーン信号には、クリーンモデルのどのHMMのどの状態のどのガウシアンから作られたかの情報が残っているとする。
【0037】
雑音抑圧モデル作成部203は、雑音抑圧部102が出力する雑音抑圧信号と、クリーンモデル格納部001に格納されているクリーンモデルを入力とし、雑音抑圧モデルを出力とする。なお、入力とする雑音抑圧信号にはクリーン信号作成部201の出力であるクリーン信号により作成されるが(雑音信号作成部101,雑音抑圧部102によって作成される)、雑音抑圧信号にも、クリーン信号同様に、クリーンモデルのどのHMMのどの状態のどのガウシアンから作られたかの情報が残っているとする。
【0038】
図4は、本発明の第二の実施の形態における音響モデル適応装置100の動作の概要を示すフローチャートである。図4を用いて、第二の実施の形態における動作の概要を説明する。なお、第一の実施の形態のフローチャートとの違いは、クリーン信号作成過程S201が加わったことと、第1の実施の形態の雑音抑圧モデル作成過程S103が雑音抑圧モデル作成過程S203に変わることである。したがって、クリーン信号作成過程S201及び雑音抑圧モデル作成過程S203について説明する。
【0039】
まず、クリーン信号作成過程S201について説明する。
クリーンモデル格納部001からH×S×K個のクリーンモデルのガウシアンの平均(μh,s,k, Δμh,s,k, ΔΔμh,s,k)、分散(Σh,s,k, ΔΣh,s,k, ΔΔΣh,s,k)を入力とする。H×S×K個の全てのガウシアンについて、それぞれのガウシアンに従うN個の正規乱数を生成する。ここで作られる乱数を

と記す。ここで上添え字nはN個の正規乱数の番号を示す。なお、Nが大きいと、後により精度の高い強調信号HMMを作成できるが、大きいと後の計算量に影響を与えるため、CPUなどの性能を顧慮して決めることが望ましい。次の処理(雑音付加信号作成部102)音声波形を入力とするため、一次動的成分、二次動的成分を入力できない。従って、このステップにて、一次動的成分、二次動的成分を静的成分の時系列で表現する。ここで解くべき問題は、Δxnh,s,k, ΔΔxnh,s,kに対応する、xnh,s,kの時系列xn,th,s,kを導出することである。まず、ΔΔxnh,s,kからΔxnh,s,kの時系列ΔΔxn,th,s,kを導出する一例を述べる。ΔΔxt, Δxtが与えられたときに、4つの未知数Δxt-2, Δxt-1, Δxt+1, Δxt+2を解く問題になる。制約付き最適化問題に帰着してこれら4つの未知数を求める。ここで考慮する点は、時間変化が最も小さくなる時系列を見つけることする。つまり、
【数2】

を解けばよい。
【0040】
次に、xtとΔxt-2, Δxt-1, Δxt+1, Δxt+2が与えられたときに、xt-5, …,
xt-1, xt+1, …, xt+5を導出する。これも、Δxt-2, Δxt+1, Δxt+2を導出した要領と同様な制約付き最適化問題に帰着して解く。
【数3】

以上が、ガウシアンの正規乱数xnh,s,k, Δxnh,s,k,
ΔΔxnh,s,kから、メルケプストラムの時系列

を推定する方法である。この時系列

は一次動的成分xnh,s,k、二次動的成分ΔΔxnh,s,kの情報を持つ。
【0041】
次にこの時系列

に特徴量逆変換を行い、合成クリーン信号

を作る。このとき、合成クリーン信号の長さはTになるとする。
クリーン信号作成部201は、H×S×K個の

を出力する。
【0042】
雑音抑圧モデル作成過程S203について説明する。
S101及びS102を通して、H×S×K×N個の合成クリーン信号

は、雑音付加信号作成部101、雑音抑圧部102により、H×S×K×N個の雑音抑圧信号

になる。
【0043】
雑音抑圧モデル作成過程S203では、まず、H×S×K×N個の雑音抑圧信号

と、クリーンモデル格納部001が格納するクリーン音響モデルが雑音抑圧モデル作成部203に入力される。次に、H×S×K×N個の雑音抑圧信号

は全て特徴量変換され、雑音抑圧信号の特徴量時系列

が作成される。
【0044】
時系列

から、静的成分、一次動的成分、二次動的成分

を計算する。そして、

の、(h,s,k)毎にnについて

及び

を計算する。最後にクリーンモデルのh番目の状態番号sのk番目のガウシアンの平均(μh,s,k, Δμh,s,k, ΔΔμh,s,k)、分散(Σh,s,k, ΔΣh,s,k, ΔΔΣh,s,k)を

及び

に書き換えることで、雑音抑圧モデルが作成される。最後に、雑音抑圧モデル格納部002に雑音抑圧モデルが格納される。
【0045】
第二の実施の形態によるとは、クリーンモデルに基づいて雑音抑圧モデルが作られることである。また、乱数の個数を任意に選ぶことが可能であることから、計算量を調整することが可能である。
【0046】
〈第三の実施の形態〉
第三の実施の形態を、図5を参照して説明する。第三の実施の形態は、第二の実施の形態の構成に加えて雑音統計量計算部302をさらに備える。尚、上記実施の形態と同様の構成については説明を省略する。
【0047】
雑音統計量計算部302は、雑音信号格納部004の雑音の統計量(パワーなど)を計算し、雑音の性質を調べる。この性質の雑音から影響を受けやすいガウシアンのみを選び、これらのガウシアンのみ、雑音抑圧信号に適応する。
【0048】
第三の実施の形態によると、計算量を削減できるという効果が得られる。
【0049】
〈第四の実施の形態〉
第四の実施の形態を、図6を参照して説明する。以下、第四の実施の形態における音響モデル適応装置400が備える各構成要素、及び、音響モデル適応装置を動作させるために必要な要素について説明し、上記実施の形態と同様の構成については同一番号を付し、詳細な説明は省略する。
【0050】
第四の実施の形態では雑音抑圧モデル作成部403を有し、第一の実施の形態における雑音抑圧モデル作成部103と動作が異なる。
【0051】
ここでは、第四の実施の形態におけるについて雑音抑圧モデル作成部403について説明する。
【0052】
雑音抑圧モデル作成部403は、クリーン信号と、それに対応した雑音抑圧信号と、クリーンモデルを入力とし、雑音抑圧モデルを出力する。クリーンモデルのガウシアンの平均をある基準により複数のクラスに分類し、クラス毎に与えられた平均、分散の変換式でクリーンモデルを雑音抑圧モデルに変換する。クラス毎に与える平均、分散の変換式は、クリーン信号、前記雑音信号に基づいて作られる。
【0053】
図7は本発明の第四の実施の形態における音響モデル適応装置400の動作の概要を示すフローチャートである。図7を用いて、第四の実施の形態における動作の概要を説明する。なお、フローチャートとしては、第一の実施の形態におけるフローチャート(図1)と同じであるが、雑音抑圧モデル作成過程の代わりに、雑音抑圧信号HMM作成過程ステップ403となる。ここでは、雑音抑圧信号HMM作成過程403の説明をする。なお、第四の実施の形態の説明をする上で、クリーン信号格納部003(図6)にはN個の発声のクリーン信号xn(t), n=0, …, N-1が格納されているとし、これら全てを処理に使うとする。
【0054】
雑音抑圧信号HMM作成過程S403について説明する。
まず、図7のステップ101、ステップ102により、N個のクリーン信号xn(t), n=0, …, N-1から、それぞれ同じ長さのN個の雑音抑圧信号

が生成されたとする。
【0055】
本ステップでは、N個のクリーン信号xn(t), n=0, …, N-1とN個の雑音抑圧信号

及び、クリーンモデル格納部001(図6)に格納されているクリーンモデル(ガウシアンの平均(μh,s,k, Δμh,s,k, ΔΔμh,s,k)、分散(Σh,s,k, ΔΣh,s,k, ΔΔΣh,s,k)とする)を入力とする。
【0056】
クリーンモデルのガウシアンを、N個のクリーン信号xn(t)とN個の雑音抑圧信号

の情報を用いて、雑音抑圧モデルのガウシアン(


)を作成し、雑音抑圧モデル格納部002に格納する。この雑音抑圧モデルのガウシアンの導出は、クリーンモデルのガウシアンを静的平均μh,s,kの対数メルケプストラム

が、要素P毎にある基準を元に作ったQ個のクラス

のうちどのクラスに属するかを調べ、クラス毎に導出する。クラス作成の基準として、例えば、全ての静的平均対数メルスペクトルの



を用いて、

とするなど考えられる。
【0057】
クリーンモデルのガウシアンから雑音抑圧モデルのガウシアンへの具体的な変換式を導出する。なお、ここでは、ガウシアンの静的平均μh,s,kの対数メルスペクトルの各要素は、

に属するとする。このとき、雑音抑圧モデルのガウシアン(


)は以下のように計算される。

ここで、

は、以下のように、N個のクリーン信号xn(t)とN個の雑音抑圧信号

の対数メルスペクトル

を用いて計算する。なお、τは、N個の波形をn=0, …, N-1の順番に並べてからフレーム処理したときのフレーム番号を示す。pは対数メルスペクトルの要素を示す。すなわちp=1, …, 23である。

また、

のDCT行列を示し、

でq=(q1, q2, …, q23)を示す。


ただし、

以上が、クリーンモデルのガウシアンから、雑音抑圧モデルのガウシアンへの変換式である。
【0058】
第四の実施の形態の効果としては、少ない波形データでしかも、アライメント情報を必要としないで、計算量を抑えて、雑音抑圧モデルを作ることができる。
【0059】
尚、上述した本発明の端末は、上記説明からも明らかなように、ハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。このような構成の場合、プログラムメモリに格納されているプログラムで動作するプロセッサによって、上述した実施の形態と同様の機能、動作を実現させる。尚、上述した実施の形態の一部の機能のみをコンピュータプログラムにより実現することも可能である。
【0060】
以上、実施の形態及び実施例をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び実施例に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
【符号の説明】
【0061】
001 クリーンモデル格納部
002 雑音抑圧モデル格納部
003 クリーン信号格納部
004 雑音信号格納部
101 雑音付加信号作成部
102 雑音抑圧部
103 雑音抑圧モデル作成部
302 雑音統計量計算部

【特許請求の範囲】
【請求項1】
雑音の無い環境で収録され、さらにアライメント情報を有する音声であるクリーン信号に、雑音信号を付加して雑音付加信号を作成する雑音付加信号作成手段と、
前記作成された雑音付加信号から雑音を取り除いて雑音抑圧信号を作成する雑音抑圧手段と、
前記作成した雑音抑圧信号と前記アライメント情報より計算したGMMを、前記クリーン信号で学習した音響モデルであるクリーンモデルのGMMと入れ替えることで、雑音抑圧モデルを作成する雑音抑圧モデル作成手段と、
を有することを特徴とする音響モデル作成装置。
【請求項2】
雑音付加信号作成手段は、前記クリーン信号を学習したモデルであるクリーンモデルから生成されたクリーン信号に、前記雑音信号を付加することを特徴とする請求項1に記載の音響モデル作成装置。
【請求項3】
前記クリーンモデルのHMMのガウシアンからクリーン信号を作成するクリーン信号作成手段を有することを特徴とする請求項2に記載の音響モデル作成装置。
【請求項4】
前記クリーン信号作成手段は、計算された雑音信号の統計量を用いて、前記雑音信号から影響を受けやすいガウシアンを選択し、前記選択されたガウシアンを用いてクリーン信号を生成することを特徴とする請求項3に記載の音響モデル作成装置。
【請求項5】
前記雑音抑圧モデル作成手段は、前記クリーンモデルのガウシアンをクラス分けし、クリーン信号と雑音抑圧信号との関係を元に、クラス毎に作った変換式を用いて、雑音抑圧モデルのガウシアンを作成することを特徴とする請求項4に記載の音響モデル適応装置。
【請求項6】
雑音の無い環境で収録され、さらにアライメント情報を有する音声であるクリーン信号に、雑音信号を付加して雑音付加信号を作成する雑音付加信号作成ステップと、
前記作成された雑音付加信号から雑音を取り除いて雑音抑圧信号を作成する雑音抑圧ステップと、
前記作成した雑音抑圧信号と前記アライメント情報より計算したGMMを、前記クリーン信号で学習した音響モデルであるクリーンモデルのGMMと入れ替えることで、雑音抑圧モデルを作成する雑音抑圧モデル作成ステップと、
を有することを特徴とする音響モデル作成方法。
【請求項7】
雑音の無い環境で収録され、さらにアライメント情報を有する音声であるクリーン信号に、雑音信号を付加して雑音付加信号を作成する雑音付加信号作成手段と、
前記作成された雑音付加信号から雑音を取り除いて雑音抑圧信号を作成する雑音抑圧手段と、
前記作成した雑音抑圧信号と前記アライメント情報より計算したGMMを、前記クリーン信号で学習した音響モデルであるクリーンモデルのGMMと入れ替えることで、雑音抑圧モデルを作成する雑音抑圧モデル作成手段と、
を有することを特徴とする音響モデル作成システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2013−68801(P2013−68801A)
【公開日】平成25年4月18日(2013.4.18)
【国際特許分類】
【出願番号】特願2011−207366(P2011−207366)
【出願日】平成23年9月22日(2011.9.22)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】