説明

音声認識装置及びその方法

【課題】雑音下でも安定して音声認識を行う音声認識装置を提供する。
【解決手段】入力したノイジー音声から、ノイジー音声特徴ベクトルをフレーム毎に抽出し、前記ノイジー音声に重畳されたノイズに関するノイズ特徴ベクトルのノイズ特徴分布パラメータを推定し、前記ノイズ特徴分布パラメータと、予め記憶したクリーン音声特徴ベクトルの事前分布パラメータとから、アンセンテッド変換を用いて、前記クリーン音声特徴ベクトルと前記ノイジー音声特徴ベクトルの結合ガウス分布パラメータを算出し、前記結合ガウス分布パラメータを用いて、前記ノイジー音声特徴ベクトルから、前記クリーン音声特徴ベクトルの事後分布パラメータを算出し、前記事後分布パラメータと、予め記憶した単語の標準パターンとを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、雑音下において発声された音声を認識する音声認識装置及びその方法に関する。
【背景技術】
【0002】
雑音下において音声認識性能が低下することは、音声認識システムに関する主要な問題の一つである。音声認識システムのノイズ(雑音)に対する耐性を改善するための方法として、「音声強調法」がある。この音声強調法は、クリーン音声にノイズが重畳したノイジー音声からクリーン音声を推定する方法である。特に、音声特徴領域においてクリーン音声を推定する方法を「音声特徴強調法」又は「特徴強調法」と呼ぶ。
【0003】
この特徴強調法を実現できる音声認識装置は、以下のように動作する。
【0004】
まず、音声認識装置は、ノイズが重畳したノイジー音声からノイジー音声特徴ベクトルを抽出する。
【0005】
次に、音声認識装置は、ノイジー音声の特徴ベクトルから、クリーン音声特徴ベクトルの推定を行う。
【0006】
最後に、音声認識装置は、推定されたクリーン音声特徴ベクトルと、単語の標準パターンとの照合を行い、認識結果の単語列を出力する。
【0007】
非特許文献1には、結合ガウス分布の性質を応用した特徴強調法が開示されている。この特徴強調法は、クリーン音声特徴ベクトルとノイジー音声特徴ベクトルが結合ガウス分布するものとし、かつ、この結合ガウス分布のパラメータが既知であるとする。そして、この特徴強調法は、ノイジー音声特徴ベクトルを観測したときのクリーン音声特徴ベクトルの事後平均及び事後共分散を算出する。
【0008】
ここで、この結合ガウス分布のパラメータをいかに算出するかが問題となる。ノイズによる音声特徴ベクトルの劣化過程は非線形性を伴うため、結合ガウス分布パラメータの推定は非線形推定問題となり、解析的に解くことはできない。
【0009】
従来技術では、非特許文献1に開示されるように、1次テイラー近似を用いることで、この非線形推定問題を線形の推定問題にまず置き換え、この線形推定問題を解析することにより、結合ガウス分布パラメータを算出する。
【非特許文献1】V. Stouten, H. Van hamme, and P. Wambacq, 「Model-based feature enhancement with uncertainty decoding for noise robust ASR,」 Speech Communication, vol. 48, pp. 1502-1514, 2006.
【発明の開示】
【発明が解決しようとする課題】
【0010】
しかし、上記従来技術は、非線形関数を1次テイラー展開によって線形近似するため、大きな近似誤差が発生する。そのため、結合ガウス分布パラメータの算出精度が低く、その結果、雑音下で十分な音声認識性能が得られないという問題点があった。
【0011】
そこで本発明は、上記従来技術の問題点を解決し、雑音下でも安定して音声認識が行える音声認識装置及びその方法を提供する。
【課題を解決するための手段】
【0012】
本発明は、入力したノイジー音声から、ノイジー音声特徴ベクトルをフレーム毎に抽出する特徴抽出部と、前記ノイジー音声に重畳されたノイズに関するノイズ特徴ベクトルのノイズ特徴分布パラメータを推定するノイズ推定部と、クリーン音声に関するクリーン音声特徴ベクトルの事前分布パラメータを記憶する事前分布パラメータ記憶部と、前記ノイズ特徴分布パラメータと前記事前分布パラメータとから、アンセンテッド変換を用いて、前記クリーン音声特徴ベクトルと前記ノイジー音声特徴ベクトルの結合ガウス分布パラメータを前記フレーム毎に算出するガウス分布算出部と、前記結合ガウス分布パラメータを用いて、前記ノイジー音声特徴ベクトルから、前記クリーン音声特徴ベクトルの事後分布パラメータを前記フレーム毎に算出する算出実行部と、前記事後分布パラメータと、予め記憶した単語の標準パターンとを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する照合部と、を備えることを特徴とする音声認識装置である。
【発明の効果】
【0013】
本発明によれば、雑音下でも安定して音声認識を行うことができる。
【発明を実施するための最良の形態】
【0014】
以下、図面を参照して本発明の実施形態の音声認識装置10について説明する。
【0015】
(第1の実施形態)
第1の実施形態の音声認識装置10について図1〜図3に基づいて説明する。
【0016】
図1は、本実施形態に係る音声認識装置10のブロック図である。
【0017】
図1に示すように、音声認識装置10は、特徴抽出部11、ノイズ推定部12、特徴強調部13、照合部14を備える。
【0018】
なお、この音声認識装置10は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、特徴抽出部11、ノイズ推定部12、特徴強調部13、照合部14は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声認識装置10は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、又はネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。
【0019】
特徴抽出部11について説明する。
【0020】
特徴抽出部11は、入力したノイジー音声の信号から音声の特徴を表わすベクトルを抽出する。このノイジー音声は、クリーン音声にノイズが重畳されている。
【0021】
具体的には、特徴抽出部11は、ノイジー音声である音声信号が入力されてくる。次に、特徴抽出部11は、時系列に沿って切り出し窓を少しずつずらしながら音声信号から短時間フレーム(以下、単にフレームという)を切り出す。次に、特徴抽出部11は、特徴ベクトルにフレーム毎に変換し、時系列のノイジー音声の特徴ベクトルを出力する。特徴ベクトルとして、例えばMFCC(Mel-Frequency Cepstral Coefficients)ベクトルを用いる。以降では、ノイジー音声特徴ベクトル(以下、ノイジーベクトルという)をyとおく。
【0022】
ノイズ推定部12について説明する。
【0023】
ノイズ推定部12は、各フレームについて、ノイジーベクトルyから、ノイズ特徴ベクトルのノイズ特徴分布パラメータ(以下、単にノイズパラメータという)を推定する。
【0024】
ノイズパラメータは、具体的には、ノイズ特徴ベクトルの平均と共分散である。例えば、発話開始前の音声を含まないノイズのみの区間(時間)から抽出された特徴ベクトルの集合から平均と共分散を算出し、以降は発話中ノイズは変動しないと仮定して、発話中の全てのフレームについてこの平均と共分散を出力する。
【0025】
また、発話中にノイズが変動すると仮定する場合には、音声区間検出器を用いて、音声が含まれない区間を検出する度に、該区間の特徴ベクトルを用いてノイズパラメータを更新してもよい。
【0026】
以降の説明では、ノイズ特徴ベクトルをnとおく。また、ノイズパラメータ、すなわち、ノイズ特徴ベクトルnの平均と共分散を、それぞれμnとΣnとおく。
【0027】
特徴強調部13について説明する。
【0028】
特徴強調部13は、ノイジーベクトルyと、ノイズパラメータから、クリーン音声特徴ベクトル(以下、クリーンベクトルという)の事後分布パラメータであるクリーン音声特徴事後分布パラメータ(以下、事後分布パラメータという)を算出する。
【0029】
事後分布パラメータとは、具体的には、ノイジーベクトルyを観測したときの、クリーンベクトルの事後平均と事後共分散である。
【0030】
以降の説明では、クリーンベクトルをxとおく。また、事後分布パラメータ、すなわち、ノイジーベクトルyを観測したときのクリーンベクトルxの事後平均と事後共分散を、それぞれμx|yとΣx|yとおく。特徴強調部13の詳細については後述する。
【0031】
照合部14について説明する。
【0032】
照合部14は、クリーンベクトルxの事後分布パラメータと、予め記憶した単語の標準パターンを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。
【0033】
特徴強調部13で算出された事後平均μx|yを、クリーンベクトルxの推定値として用いて、標準的なビタビデコーディングを行う。
【0034】
また、非特許文献2(L. Deng, J. Droppo, and A. Acero, 「Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion,」 IEEE Transactions on Speech and Audio Processing, vol. 13, no. 3, pp. 412-412, May 2005.)に開示されているように、事後平均μx|yと事後共分散Σx|yの両方用いて、アンサーテンティデコーディングを行ってもよい。
【0035】
事後共分散(アンサーテンティ)の大きさを考慮しながら照合を行うことで、アンサーテンティの大きなフレームは不確実なフレームとして照合における影響が小さくなり、逆にアンサーテンティの小さなフレームは確実なフレームとして照合における影響が大きくなり、音声認識性能が向上する。
【0036】
次に、特徴強調部13の詳細について、図2のブロック図を参照しながら説明する。
【0037】
図2に示すように、特徴強調部13は、事前分布パラメータ記憶部131、ガウス分布記憶部132、ガウス分布算出部133、算出実行部134とを備える。
【0038】
事前分布パラメータ記憶部131について説明する。
【0039】
事前分布パラメータ記憶部131は、クリーンベクトルxのクリーン音声特徴事前分布パラメータ(以下、単に事前分布パラメータという)を記憶する。
【0040】
具体的には、クリーンベクトルxの事前平均μxと事前共分散Σxを記憶する。事前分布パラメータは、静粛な環境で収録された音声コーパスを用いて、事前に算出しておく。
【0041】
より具体的には、クリーン音声のコーパスから抽出された特徴ベクトルの集合から、平均と共分散を算出しておく。話者、又は、発話内容が事前に分かっている場合には、該話者、又は、該発話内容に特化したコーパスを用いることができる。
【0042】
また、話者、又は、発話内容が事前に特定されない場合には、さまざまな話者、さまざまな発話内容を含んだコーパスを用いることが好ましい。
【0043】
ガウス分布記憶部132について説明する。
【0044】
ガウス分布記憶部132は、クリーンベクトルxとノイジーベクトルyとの、結合ガウス分布のパラメータである結合ガウス分布パラメータ(以下、単にガウスパラメータという)を記憶する。すなわち、ガウス分布記憶部132は、ガウス分布算出部133から出力されたガウスパラメータを記憶する。
【0045】
ガウスパラメータとは、クリーンベクトルxの事前平均μxと事前共分散Σx、ノイジーベクトルyの平均μyと共分散Σy、及び、クリーンベクトルxとノイジーベクトルyのクロス共分散Σxyである。
【0046】
これらのパラメータを用いて、クリーンベクトルxとノイジーベクトルyの結合ガウス分布は、式(1)のように表わされる。但し、N(μ,Σ)は、平均μ及び共分散Σによって規定されるガウス分布を表わす。
【数1】

【0047】
ガウス分布算出部133について説明する。
【0048】
ガウス分布算出部133は、ノイズパラメータと事前分布パラメータとから、アンセンテッド変換を用いて、ガウスパラメータを算出して、ガウス分布記憶部132に出力する。
【0049】
ここで、ガウスパラメータの算出にあたって、クリーンベクトルx、ノイズ特徴ベクトルn、ノイジーベクトルyを関連付けるための非線形関数y=f(x,n)が既知である必要がある。例えば、特徴ベクトルとしてMFCCベクトルを用いる場合には、この非線形関数は式(2)のように表される。但し、行列Cは離散コサイン変換を表わし、その逆行列は逆離散コサイン変換を表わす。また、log及びexpは、ベクトルの各要素に作用するものとする。
【数2】

【0050】
非特許文献1に開示される従来技術では、1次テイラー近似を用いてガウスパラメータを算出した。それに対して、本実施形態では、アンセンテッド変換を用いてガウスパラメータを算出する。
【0051】
以下、まず従来技術の詳細について説明し、その問題点を指摘する。その後、本実施形態の方法についてその詳細を説明する。
【0052】
従来技術である1次テイラー近似を用いたガウスパラメータ算出方法について説明する。
【0053】
まず、式(2)の非線形関数を、下記の式(3)に示すように1次テイラー展開で近似する。
【数3】

【0054】
但し、行列FとGは、下記の式(4)に示すように、非線形関数fをそれぞれクリーンベクトルxとノイズ特徴ベクトルnで偏微分したものである。
【数4】

【0055】
また、テイラー展開の展開点(x0,n0)は、下記の式(5)に示すように、クリーンベクトルxの事前平均μx、及び、ノイズ特徴ベクトルnの平均μnに、それぞれ設定される。
【数5】

【0056】
このように、非線形関数を1次テイラー近似すると、ガウスパラメータを線形演算で算出できる。すなわち、ノイジーベクトルyの平均μy及び共分散Σy、クリーンベクトルxとノイジーベクトルyのクロス共分散Σxyは、それぞれ式(6)、式(7)、式(8)により算出される。
【数6】

【数7】

【数8】

【0057】
しかし、上記した従来技術の方法では、非線形関数を1次テイラー近似する際に発生する近似誤差の影響により、ガウスパラメータの算出誤差が大きいという問題点があった。
【0058】
次に、本実施形態に係るアンセンテッド変換を用いたガウスパラメータ算出方法について説明する。
【0059】
「アンセンテッド変換」は、非線形システムにおいて高精度に所望の統計量を算出する方法である。アンセンテッド変換の詳細については、例えば非特許文献3(S. Julier and J. Uhlmann, 「Unscented filtering and nonlinear estimation,」 Proceedings of the IEEE, vol. 92, no. 3, pp. 401-422, March 2004.)に開示されている。
【0060】
このアンセンテッド変換について説明する。
【0061】
第1の確率変数xがあり、その平均μx及び共分散Σxは既知とする。
【0062】
第2の確率変数nがあり、その平均μn及び共分散Σnは既知とする。
【0063】
第3の確率変数yがあり、第3の確率変数yは、第1の確率変数xと第2の確率変数nとから、既知の非線形関数y=f(x,n)によって算出されるものとする。
【0064】
このとき、第3の確率変数yの平均μyと共分散Σy、及び、第1の確率変数xと第3の確率変数yの間のクロス共分散Σxyを算出する問題を考える。この問題を高精度に解決する方法として、上記のアンセンテッド変換が知られている。
【0065】
ガウス分布算出部133では、このアンセンテッド変換を用いて、ガウスパラメータの算出を行う。
【0066】
まず、下記の式(9)に示すように、クリーンベクトルxとノイズ特徴ベクトルnを連結したベクトルaを考える。
【数9】

【0067】
クリーンベクトルxの次元がNx、ノイズ特徴ベクトルnの次元がNnであるとき、ベクトルaの次元はNa=Nx+Nnとなる。このベクトルaの平均μaと共分散Σaは、それぞれ下記の式(10)及び式(11)のように表わされる。
【数10】

【数11】

【0068】
次に、「シグマポイント」と呼ばれるサンプルの集合を生成する。すなわち、p個のNa次元ベクトルaiと、その各々に関連付けられた重みwiを生成する。シグマポイントの生成法として、さまざまな方法が知られており、例えば非特許文献3にそれらは開示されている。ここでは、「シンメトリックシグマポイント生成法」について説明する。なお、他の任意のシグマポイント生成法を用いてよい。
【0069】
シンメトリックシグマポイント生成法では、p=2Na個のベクトルaiと、それに関連付けられた重みwiを、下記の式(12)のように生成する。
【数12】

【0070】
但し、式(12)の中で、
【数13】

【0071】
は行列NaΣaの平方根の第i列(又は行)を表す。
【0072】
次に、ガウス分布算出部133は、p個のシグマポイントaiのそれぞれについて、非線形関数y=f(x,n)を用いて、yiを算出する。例えば、特徴ベクトルがMFCCである場合には、非線形関数y=f(x,n)は式(2)で表わされる。また、i番目のサンプルaiのxに対応する部分を取り出したベクトルをxiとする。
【0073】
以上のようにして生成したxi及びyi、(i=1,・・・p)を用いて、求めるガウスパラメータを算出する。すなわち、ガウス分布算出部133は、ノイジーベクトルyの平均μyと共分散Σy、及び、クリーンベクトルxとノイジーベクトルyのクロス共分散Σxyを下記の式(14)から式(16)のように算出する。
【数14】

【数15】

【数16】

【0074】
ガウス分布算出部133は、以上に説明したように、アンセンテッド変換を用いて、事前分布パラメータとノイズパラメータとから、ガウスパラメータを算出する。従来技術では非線形関数y=f(x,n)を1次テイラー展開で近似したため算出誤差が大きかったが、アンセンテッド変換を用いることで算出誤差を小さく抑えることができる。
【0075】
算出実行部134について説明する。
【0076】
算出実行部134は、ガウス分布記憶部132に記憶されたガウスパラメータに基づき、ノイジーベクトルyから、事後分布パラメータを算出する。事後分布パラメータとは、上記したように、事後平均μx|yと事後共分散Σx|yである。
【0077】
二つの確率変数xとyが式(1)のように結合ガウス分布で分布するとき、第3の確率変数であるノイジーベクトルyを観測したときの、第1の確率変数であるクリーンベクトルxの事後平均と事後共分散を算出する下記の式(17)が知られている。算出実行部134は、この式(17)を用いて、事後分布パラメータを算出する。
【数17】

【0078】
次に、本実施形態に係る音声認識装置10の動作について図3を参照しながら説明する。
【0079】
まず、ステップS31において、特徴抽出部11は、ノイジー音声の一つのフレームからノイジーベクトルyを算出する。
【0080】
次に、ステップS32において、ノイズ推定部12は、ノイジーベクトルyから、ノイズ特徴ベクトルnのノイズパラメータを推定する。
【0081】
次に、ステップS33において、ガウス分布算出部133は、アンセンテッド変換を用いてガウスパラメータを算出して、ガウス分布記憶部132は、そのガウスパラメータを記憶する。
【0082】
次に、ステップS34において、算出実行部134は、ガウス分布記憶部132に記憶されたガウスパラメータに基づいて、事後分布パラメータを算出する。
【0083】
次に、ステップS35において、照合部14は、クリーンベクトルxの事後分布パラメータと、予め記憶した単語の標準パターンを照合する。
【0084】
次に、ステップS36において、音声認識装置10は、全てのフレームの処理が完了したかどうかを判定する。まだ処理していないフレームが残っている場合には、ステップS31に戻って、次のフレームの処理を行う。全てのフレームの処理が完了した場合には、ステップS37へと進む。
【0085】
最後に、ステップS37において、照合部14は、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。
【0086】
このように本実施形態によれば、アンセンテッド変換を用いることで、ガウスパラメータを精度良く算出できるため、特徴強調効果を高め、雑音下においても高い音声認識性能を保つことができる。
【0087】
(第2の実施形態)
次に、第2の実施形態の音声認識装置10について図4と図5に基づいて説明する。
【0088】
第1の実施形態の音声認識装置10では、クリーンベクトルxの事前分布を単一のガウス分布で表現するため、事前分布を十分精緻に表現できない場合がある。
【0089】
そこで本実施形態の音声認識装置10では、クリーンベクトルxの事前分布をガウス混合モデルで表現することにより、事前分布がより精緻に表現されるため、特徴強調がより有効に働き、雑音下での音声認識性能が向上する。
【0090】
まず最初に、クリーンベクトルxの事前分布を表現するガウス混合モデル、及び、その学習法について説明する。まず、本実施形態では、M個(M>1)の特徴強調部13を有している。そして、クリーンベクトルxの事前分布p(x)は、ガウス混合モデルを用いて下記の式(18)のように表わされる。
【数18】

【0091】
ここで、M(但し、M>1である)は混合数、k(但し、1<=k<=Mである)は特徴強調部13の番号、πk、μx(k)、Σx(k)はそれぞれ第k番目の特徴強調部13−kのガウス分布の混合重み、平均、共分散を表わす。
【0092】
第1の実施形態では、単一のガウス分布で事前分布を表現したが、本実施形態では複数のガウス分布の混合を用いるため、事前分布をより精緻に表現することができる。
【0093】
クリーンベクトルxの事前分布を表わすためのガウス混合モデルパラメータは、クリーン音声のコーパスから予め学習して記憶しておく。具体的には、クリーン音声のコーパスから抽出された特徴ベクトルの集合を学習データとして、EMアルゴリズムを用いることによって、上記の式(18)のガウス混合モデルパラメータを算出する。そして、各特徴強調部13は、例えば、各音素に対応するように生成され、特徴強調部13毎に、音素に対応するガウスパラメータを算出する。
【0094】
次に、本実施形態の音声認識装置10の構成について、図4を参照しながら説明する。図4は、音声認識装置10を示すブロック図である。
【0095】
図4に示すように、音声認識装置10は、特徴抽出部11、ノイズ推定部12、M個の特徴強調部13−1,・・・13−M、重み算出部41、統合部42、照合部14を備える。特徴抽出部11、ノイズ推定部12、照合部14については、第1の実施形態と同一であるので、同一の符号を付与してここでは説明を省略する。
【0096】
特徴強調部13について説明する。
【0097】
M個の特徴強調部13−1,・・・13−Mの一つ一つは、第1の実施形態における特徴強調部13と同一であるが、これを複数備える点が第1の実施形態と異なる。M個の特徴強調部13−1,・・・13−Mは、それぞれ独自の互いに異なったパラメータを持つ。
【0098】
すなわち、第k番目の特徴強調部13−kが備える事前分布パラメータ記憶部131−kは、上記したガウス混合モデルの第k番目のガウス混合モデルパラメータμx(k)とΣx(k)を記憶する。
【0099】
また、ガウス分布算出部133−kは、ノイズパラメータ(μnとΣn)と、事前分布パラメータ(μx(k)とΣx(k))から、ガウスパラメータ(μy(k)、Σy(k)、Σxy(k))を算出し、ガウス分布記憶部132−kに記憶させる。
【0100】
算出実行部134−kは、ガウス分布記憶部132−kに記憶したガウスパラメータに基づいて、第k番目の事後分布パラメータ、すなわち、事後平均μx|y(k)と事後共分散μx|y(k)を算出する。
【0101】
重み算出部41について説明する。
【0102】
重み算出部41は、M個の特徴強調部13−1,・・・13−Mからの出力を統合する際に用いる統合重みを算出する。すなわち。各ガウス分布算出部133−kがそれぞれ算出したガウスパラメータに基づいて、各事後分布パラメータに対する統合重みをフレーム毎に算出する。
【0103】
具体的には、ノイジーベクトルyを観測したときに、該フレームが特徴強調部13−kに属する事後確率p(k|y)を統合重みとして用いる。事後確率p(k|y)は、下記の式(19)によって算出する。
【数19】

【0104】
πkは上記したガウス混合モデルの混合重みである。μy(k)及びΣy(k)は第k番目の特徴強調部13−kのガウス分布記憶部132−kの値を参照する。
【0105】
統合部42について説明する。
【0106】
統合部42は、M個の特徴強調部13−1,・・・13−Mからの出力を統合する。
【0107】
具体的には、M個の特徴強調部13−1,・・・13−Mからの出力μx|y(k)とΣx|y(k)を、下記の式(20)によって統合し、μx|yとΣx|yを出力する。
【数20】

【0108】
次に、本実施形態に係る音声認識装置10の動作について、図5を参照しながら説明する。なお、第1の実施形態と同一のステップについては、同一符号を付与して説明を簡略におこなう。
【0109】
まず、ステップS31の特徴抽出処理、ステップS32のノイズ推定処理が行われる。
【0110】
次に、ステップS33において、特徴強調部13−kのガウス分布算出部133−kは、アンセンテッド変換を用いて、ガウスパラメータを算出し、ガウス分布記憶部132−kは、そのガウスパラメータを記憶する。
【0111】
次に、ステップS34において、算出実行部134−kは、ガウス分布記憶部132−kに記憶されたガウスパラメータに基づいて、事後分布パラメータを算出する。
【0112】
次に、ステップS51において、音声認識装置10は、全ての特徴強調部13−1,・・・13−Mについての処理が完了していなければステップS33に戻り、完了していればステップS52へと進む。
【0113】
次に、ステップS52において、重み算出部41は、統合重みを算出する。
【0114】
次に、ステップS53において、統合部42は、M個の特徴抽出部13−1,・・・13−Mからの出力を統合する。
【0115】
次に、ステップS35において、照合部14は、単語の標準パターンとの照合を行う。
【0116】
次に、ステップS36において、音声認識装置10は、全てのフレームの処理が完了していなければステップS31へ戻り、完了していればステップS37へと進む。
【0117】
最後に、ステップS37において、照合部14は、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。
【0118】
このように本実施形態は、ガウス混合モデルを用いることで、単一のガウス分布を用いる場合よりも、より精緻に事前分布を表現することができ、特徴強調効果を高め、雑音下でも高い音声認識性能を得ることができる。
【0119】
(第3の実施形態)
次に、第3の実施形態の音声認識装置10について図6〜図8に基づいて説明する。
【0120】
第1及び第2の実施形態では、全てのフレームにおいてガウスパラメータの算出を行うため、演算量が大きくなる。
【0121】
そこで本実施形態では、各フレームにおいて、ガウスパラメータを再び算出する必要があるかどうかを判定し、不必要と判定された場合にはガウスパラメータの再算出を省略することで、演算量を削減する。
【0122】
本実施形態と、第1及び第2の実施形態との違いは、特徴強調部13の構成のみであるため、その他の構成についての説明は省略する。
【0123】
本実施形態の特徴強調部13について図6に基づいて説明する。図6は、本実施形態における特徴強調部13のブロック図である。
【0124】
特徴強調部13は、事前分布パラメータ記憶部131、ガウス分布記憶部132、ガウス分布算出部133、算出実行部134、判定部61、第1スイッチ部62を備える。判定部61、第1スイッチ部62以外は、第1及び第2の実施形態と同一であるため、同一符号を付与して説明を省略する。
【0125】
判定部61について説明する。
【0126】
判定部61は、ある一つのフレームにおいて、ガウスパラメータの再算出が必要か否かを判定する。
【0127】
判定部61には、フレーム毎に、ノイズ推定部12からノイズパラメータが入力される。判定部61は、ノイズパラメータが大きく変化した場合には、ガウスパラメータの値もそれに伴って大きく変動するため、ガウスパラメータの再算出が必要と判定する。逆に、ノイズパラメータがあまり変化していない場合には、ガウスパラメータの値もあまり変化しないので、ガウスパラメータの再算出は不必要と判定する。
【0128】
図7は、判定部61のブロック図である。図7に示すように、判定部61は、ノイズパラメータ記憶部611、変動量算出部612、比較部613を備える。
【0129】
まず、ノイズパラメータ記憶部611は、ガウス分布算出部133が過去の最後にガウスパラメータの算出を行ったフレームのノイズパラメータを記憶する。
【0130】
変動量算出部612は、現在のフレームにおいてノイズ推定部12から入力された現在のノイズパラメータと、ノイズパラメータ記憶部611に記憶された過去のノイズパラメータから、ノイズパラメータの変動量を算出する。例えば、下記の式(21)に示されるようなユークリッド距離によって、ノイズパラメータの変動量を算出する。
【数21】

【0131】
ここで、Δはノイズパラメータの変動量、μnは現在のフレームにおける現在のノイズパラメータ、μnに上付き棒を付したものはノイズパラメータ記憶部611に記憶された過去のノイズパラメータである。
【0132】
比較部613は、変動量を任意の閾値と比較し、閾値より大きければ、過去の最後にガウスパラメータの算出を行った時からノイズパラメータが大きく変動したみなし、ガウスパラメータの再算出が必要との判定を出力する。
【0133】
また、同時に、比較部613からノイズパラメータ記憶部611に記憶指令を送信し、現在のフレームにおける現在のノイズパラメータをノイズパラメータ記憶部611に記憶して過去のノイズパラメータを更新する。
【0134】
閾値より小さければ、ノイズパラメータはあまり変動していないとみなし、ガウスパラメータの再算出は不要との判定を出力する。この時、ノイズパラメータ記憶部611の値は更新しない。
【0135】
第1スイッチ部62は、判定部61の判定に従って、ガウス分布算出部133の動作を制御する。すなわち、ガウスパラメータの再算出が必要と判断された場合には、ガウス分布算出部133を実行し、結果をガウス分布記憶部132に新たに保存し、この新たなガウスパラメータを用いて算出実行部134は事後分布パラメータの算出を実行する。
【0136】
一方、再算出が不必要と判定された場合には、第1スイッチ部62は、ガウス分布算出部133の実行を省略する。そして、ガウス分布記憶部132の内容は変更しない。算出実行部134は、ガウス分布記憶部132に記憶された過去のガウスパラメータを用いて事後分布パラメータの算出を実行する。
【0137】
なお、第2の実施形態のような複数の特徴強調部13−1,・・・13−Mを備えている場合には、各々の特徴強調部13−1,・・・13−Mが判定部61を備えているが、処理の内容は同一であるので、単一の判定部61を全ての特徴強調部13−1,・・・13−Mで共有することができる。
【0138】
次に、本実施形態の音声認識装置10の動作について図8を参照しながら説明する。図8は、音声認識装置10の動作を示すフローチャートである。ここでは、複数の特徴強調部13−1,・・・13−Mを用いた構成についての動作を説明する。
【0139】
第1の実施形態のような単一の特徴強調部13を用いた構成についての動作は、複数の場合と同様であるので、説明を省略する。また、第1又は第2の実施形態と同一のステップについては、同一符号を付与して説明を簡潔におこなう。
【0140】
まず、ステップS31の特徴抽出処理、ステップS32のノイズ推定処理が行われる。
【0141】
次に、ステップS81において、判定部61は、特徴強調部13−kについて、ノイズパラメータの変動量に基づき、ガウスパラメータの再算出が必要か不必要かを判定する。必要と判定された場合には、ステップS33において、ガウスパラメータの算出を実行する。不必要と判定された場合には、ガウスパラメータの算出を省略する。
【0142】
次に、ステップS34において、算出実行部134−kは、ガウス分布記憶部132−kに記憶されたガウスパラメータに基づいて、事後分布パラメータを算出する。
【0143】
次に、ステップS51において、音声認識装置10は、全ての特徴強調部13−1,・・・13−Mについて処理が完了していればステップS52へ進む。そうでなければステップS81へ戻る。
【0144】
次に、ステップS52において、重み算出部41は、統合重みを算出する。
【0145】
次に、ステップS53において、統合部42は、M個の特徴強調部13−1,・・・13−Mからの出力を統合する。
【0146】
次に、ステップS35において、照合部14は、単語の標準パターンとの照合を行う。
【0147】
次に、ステップS36において、音声認識装置10は、全てのフレームの処理が完了していなければステップS31へと戻り、全てのフレームの処理が完了していればステップS37へと進む。
【0148】
最後に、ステップS37において、照合部14は、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。
【0149】
このように本実施形態では、ノイズパラメータの変動量に基づきガウスパラメータの再算出が必要か不必要かを判定し、再算出が不必要と判定されたフレームではガウス分布算出部133の実行を省略することにより、演算量を削減することができる。
【0150】
(第4の実施形態)
次に、第4の実施形態の音声認識装置10について図9〜図10に基づいて説明する。
【0151】
本実施形態は、第3の実施形態と同様に特徴強調部13における演算量を削減することを目的としたものである。すなわち、本実施形態では、判定部61がガウスパラメータの再算出が不必要と判定した場合には、ガウス分布算出部133よりも演算量が少ない簡易算出部91でガウスパラメータの演算を実行し、少なくとも一部のパラメータを更新する。
【0152】
本実施形態と、第3の実施形態の違いは、特徴強調部13の構成のみであるため、その他の構成についての説明は省略する。
【0153】
本実施形態の特徴強調部13について図9に基づいて説明する。図9は、特徴強調部13のブロック図である。
【0154】
特徴強調部13は、事前分布パラメータ記憶部131、ガウス分布記憶部132、ガウス分布算出部133、簡易算出部91、判定部61、第2スイッチ部92、算出実行部134を備える。簡易算出部91と第2スイッチ部92以外は、第1乃至第3の実施形態と同一であるため、同一符号を付与して説明を省略する。
【0155】
簡易算出部91は、ガウス分布算出部133よりも少ない演算量で、ガウスパラメータの少なくとも一部を更新する。
【0156】
具体的には、現在のフレームにおけるノイズパラメータ(μn、Σn)の一つである平均μnを用いて、ガウスパラメータの一つであるノイズパラメータの平均μyの値をμy=f(μx,μn)によって算出する。その他のガウスパラメータ(Σy,Σxy)の値は算出しない。
【0157】
ガウス分布算出部133は、アンセンテッド変換を用いてノイズパラメータの一つである平均μy、ガウスパラメータ(Σy,Σxy)を算出するため、精度良くパラメータを算出できる代わりに演算量が多いという欠点がある。一方、簡易算出部91は、精度は下がるが演算量が少ない。そこで、ノイズパラメータの変動量に基づき、ガウスパラメータの算出が不必要と判定されたフレームについては、少ない演算量で実行できる簡易算出部91に切り替えることで、特徴強調部13における演算量を抑えることができる。
【0158】
次に、本実施形態の音声認識装置10の動作について図10を参照しながら説明する。図10は、音声認識装置10の動作を示すフローチャートである。
【0159】
ここでは、M個の特徴強調部13−1,・・・13−Mを用いた構成についての動作を説明する。第1の実施形態のような単一の特徴強調部13を用いた構成についての動作は、複数の場合と同様であるので、説明を省略する。また、第1乃至第3の実施形態と同一のステップについては、同一符号を付与して説明を簡潔におこなう。
【0160】
まず、ステップS31の特徴抽出処理、ステップS32のノイズ推定処理が実行される。
【0161】
次に、ステップS81において、判定部61は、特徴強調部13−kについて、ノイズパラメータの変動量に基づき、ガウスパラメータの再算出が必要か不必要かを判定する。この判定は、第3の実施形態と同様である。再算出が必要と判定された場合には、ステップS33においてガウス分布算出部133−kの動作を実行する。再算出が不必要と判定された場合には、ステップS101において簡易算出部91−kの上記動作を実行する。
【0162】
次に、ステップS34において、算出実行部134−kは、ガウス分布記憶部132−kに記憶されたガウスパラメータに基づいて、事後分布パラメータを算出する。
【0163】
次に、ステップS51において、音声認識装置10は、全ての特徴強調部13−1,・・・13−Mについて処理が完了していればステップS52へ進む。終了していなければ、ステップS81へと戻る。
【0164】
次に、ステップS52において、重み算出部41は、統合重みを算出する。
【0165】
次に、ステップS53において、M個の特徴強調部13−1,・・・13−Mからの出力を統合する。
【0166】
次に、ステップS35において、照合部14は、単語の標準パターンとの照合を行う。
【0167】
次に、ステップS36において、音声認識装置10は、全てのフレームの処理が完了していなければステップS31へと戻り、全てのフレームの処理が完了していればステップS37へと進む。
【0168】
最後に、ステップS37において、照合部14は、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。
【0169】
このように本実施形態では、ノイズパラメータの変動量に基づきガウスパラメータの再算出が必要か不必要かを判定し、再算出が不必要と判定されたフレームでは、演算量の少ない簡易算出部91に切り替えることによって、演算量を削減することができる。
【0170】
(変更例)
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
【図面の簡単な説明】
【0171】
【図1】第1の実施形態の音声認識装置の構成を示すブロック図である。
【図2】第1の実施形態の特徴強調部の構成を示すブロック図である。
【図3】第1の実施形態の音声認識装置の動作を示すフローチャートである。
【図4】第2の実施形態の音声認識装置の構成を示すブロック図である。
【図5】第2の実施形態の音声認識装置の動作を示すフローチャートである。
【図6】第3の実施形態の特徴強調部の構成を示すブロック図である。
【図7】判定部の構成を示すブロック図である。
【図8】第3の実施形態の音声認識装置の動作を示すフローチャートである。
【図9】第4の実施形態の特徴強調部の構成を示すブロック図である。
【図10】第4の実施形態の音声認識装置の動作を示すフローチャートである。
【符号の説明】
【0172】
10 音声認識装置
11 特徴抽出部
12 ノイズ推定部
13 特徴強調部
14 照合部
41 重み算出部
42 統合部
61 判定部
62 第1スイッチ部
91 簡易算出部
92 第2スイッチ部
131 事前分布パラメータ記憶部
132 ガウス分布記憶部
133 ガウス分布算出部
134 算出実行部
611 ノイズパラメータ記憶部
612 変動量算出部
613 比較部

【特許請求の範囲】
【請求項1】
入力したノイジー音声から、ノイジー音声特徴ベクトルをフレーム毎に抽出する特徴抽出部と、
前記ノイジー音声に重畳されたノイズに関するノイズ特徴ベクトルのノイズ特徴分布パラメータを推定するノイズ推定部と、
クリーン音声に関するクリーン音声特徴ベクトルの事前分布パラメータを記憶する事前分布パラメータ記憶部と、
前記ノイズ特徴分布パラメータと前記事前分布パラメータとから、アンセンテッド変換を用いて、前記クリーン音声特徴ベクトルと前記ノイジー音声特徴ベクトルの結合ガウス分布パラメータを前記フレーム毎に算出するガウス分布算出部と、
前記結合ガウス分布パラメータを用いて、前記ノイジー音声特徴ベクトルから、前記クリーン音声特徴ベクトルの事後分布パラメータを前記フレーム毎に算出する算出実行部と、
前記事後分布パラメータと、予め記憶した単語の標準パターンとを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する照合部と、
を備えることを特徴とする音声認識装置。
【請求項2】
前記事前分布パラメータ記憶部、前記ガウス分布算出部、及び、前記算出実行部とをそれぞれ複数備え、
前記各ガウス分布算出部がそれぞれ算出した前記結合ガウス分布パラメータに基づいて、前記各事後分布パラメータに対する統合重みを前記フレーム毎に算出する重み算出部と、
前記各統合重みに基づいて前記各事後分布パラメータを統合して、統合した事後分布パラメータを前記照合部に前記フレーム毎に出力する統合部と、
をさらに備えることを特徴とする請求項1記載の音声認識装置。
【請求項3】
前記ガウス分布算出部が算出した前記結合ガウス分布パラメータを前記フレーム毎に記憶するガウス分布記憶部と、
前記ノイズ特徴分布パラメータの変動量を前記フレーム毎に求め、前記変動量が任意の閾値より小さかった場合には前記結合ガウス分布パラメータの再算出が不必要と判定し、前記閾値より大きかった場合には前記結合ガウス分布パラメータの再算出が必要と判定する判定部と、
(1)前記再算出が必要と判定した前記フレームに関しては、前記ガウス分布算出部において再算出した前記結合ガウス分布パラメータを前記算出実行部に送り、(2)前記再算出が不必要と判定した前記フレームに関しては、前記ガウス分布算出部において算出された、前記フレームより前の過去のフレームに関して記憶された前記結合ガウス分布パラメータを前記算出実行部に送る第1スイッチ部と、
をさらに備えることを特徴とする請求項1又は2記載の音声認識装置。
【請求項4】
前記ガウス分布算出部が算出した前記結合ガウス分布パラメータを前記フレーム毎に記憶するガウス分布記憶部と、
前記ノイズ特徴分布パラメータの変動量を前記フレーム毎に求め、前記変動量が任意の閾値より小さかった場合には前記結合ガウス分布パラメータの再算出が不必要と判定し、前記閾値より大きかった場合には前記結合ガウス分布パラメータの再算出が必要と判定する判定部と、
前記ノイズ特徴分布パラメータと前記事前分布パラメータとから、前記結合ガウス分布パラメータの中の一つのパラメータを前記フレーム毎に算出する簡易算出部と、
(1)前記再算出が必要と判定した前記フレームに関しては、前記ガウス分布算出部において再算出した前記結合ガウス分布パラメータを前記算出実行部に送り、(2)前記再算出が不必要と判定した前記フレームに関しては、前記簡易算出部において算出した前記一つのパラメータ及び前記ガウス分布記憶部に記憶した前記一つのパラメータを除く前記結合ガウス分布パラメータを前記算出実行部に送る第2スイッチ部と、
をさらに備えることを特徴とする請求項1又は2記載の音声認識装置。
【請求項5】
入力したノイジー音声から、ノイジー音声特徴ベクトルをフレーム毎に抽出する特徴抽出ステップと、
前記ノイジー音声に重畳されたノイズに関するノイズ特徴ベクトルのノイズ特徴分布パラメータを推定するノイズ推定ステップと、
前記ノイズ特徴分布パラメータと、予め記憶したクリーン音声に関するクリーン音声特徴ベクトルの事前分布パラメータとから、アンセンテッド変換を用いて、前記クリーン音声特徴ベクトルと前記ノイジー音声特徴ベクトルの結合ガウス分布パラメータを前記フレーム毎に算出するガウス分布算出ステップと、
前記結合ガウス分布パラメータを用いて、前記ノイジー音声特徴ベクトルから、前記クリーン音声特徴ベクトルの事後分布パラメータを前記フレーム毎に算出する算出実行ステップと、
前記事後分布パラメータと、予め記憶した単語の標準パターンとを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する照合ステップと、
を備えることを特徴とする音声認識方法。
【請求項6】
入力したノイジー音声から、ノイジー音声特徴ベクトルをフレーム毎に抽出する特徴抽出機能と、
前記ノイジー音声に重畳されたノイズに関するノイズ特徴ベクトルのノイズ特徴分布パラメータを推定するノイズ推定機能と、
前記ノイズ特徴分布パラメータと、予め記憶したクリーン音声に関するクリーン音声特徴ベクトルの事前分布パラメータとから、アンセンテッド変換を用いて、前記クリーン音声特徴ベクトルと前記ノイジー音声特徴ベクトルの結合ガウス分布パラメータを前記フレーム毎に算出するガウス分布算出機能と、
前記結合ガウス分布パラメータを用いて、前記ノイジー音声特徴ベクトルから、前記クリーン音声特徴ベクトルの事後分布パラメータを前記フレーム毎に算出する算出実行機能と、
前記事後分布パラメータと、予め記憶した単語の標準パターンとを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する照合機能と、
をコンピュータによって実現する音声認識プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2010−78650(P2010−78650A)
【公開日】平成22年4月8日(2010.4.8)
【国際特許分類】
【出願番号】特願2008−243885(P2008−243885)
【出願日】平成20年9月24日(2008.9.24)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】