音声認識装置及びその方法

【課題】雑音下でも安定して音声認識を行う音声認識装置を提供する。
【解決手段】入力したノイジー音声から、ノイジー音声特徴ベクトルをフレーム毎に抽出し、前記ノイジー音声に重畳されたノイズに関するノイズ特徴ベクトルのノイズ特徴分布パラメータを推定し、前記ノイズ特徴分布パラメータと、予め記憶したクリーン音声特徴ベクトルの事前分布パラメータとから、アンセンテッド変換を用いて、前記クリーン音声特徴ベクトルと前記ノイジー音声特徴ベクトルの結合ガウス分布パラメータを算出し、前記結合ガウス分布パラメータを用いて、前記ノイジー音声特徴ベクトルから、前記クリーン音声特徴ベクトルの事後分布パラメータを算出し、前記事後分布パラメータと、予め記憶した単語の標準パターンとを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、雑音下において発声された音声を認識する音声認識装置及びその方法に関する。
【背景技術】
【０００２】
雑音下において音声認識性能が低下することは、音声認識システムに関する主要な問題の一つである。音声認識システムのノイズ（雑音）に対する耐性を改善するための方法として、「音声強調法」がある。この音声強調法は、クリーン音声にノイズが重畳したノイジー音声からクリーン音声を推定する方法である。特に、音声特徴領域においてクリーン音声を推定する方法を「音声特徴強調法」又は「特徴強調法」と呼ぶ。
【０００３】
この特徴強調法を実現できる音声認識装置は、以下のように動作する。
【０００４】
まず、音声認識装置は、ノイズが重畳したノイジー音声からノイジー音声特徴ベクトルを抽出する。
【０００５】
次に、音声認識装置は、ノイジー音声の特徴ベクトルから、クリーン音声特徴ベクトルの推定を行う。
【０００６】
最後に、音声認識装置は、推定されたクリーン音声特徴ベクトルと、単語の標準パターンとの照合を行い、認識結果の単語列を出力する。
【０００７】
非特許文献１には、結合ガウス分布の性質を応用した特徴強調法が開示されている。この特徴強調法は、クリーン音声特徴ベクトルとノイジー音声特徴ベクトルが結合ガウス分布するものとし、かつ、この結合ガウス分布のパラメータが既知であるとする。そして、この特徴強調法は、ノイジー音声特徴ベクトルを観測したときのクリーン音声特徴ベクトルの事後平均及び事後共分散を算出する。
【０００８】
ここで、この結合ガウス分布のパラメータをいかに算出するかが問題となる。ノイズによる音声特徴ベクトルの劣化過程は非線形性を伴うため、結合ガウス分布パラメータの推定は非線形推定問題となり、解析的に解くことはできない。
【０００９】
従来技術では、非特許文献１に開示されるように、１次テイラー近似を用いることで、この非線形推定問題を線形の推定問題にまず置き換え、この線形推定問題を解析することにより、結合ガウス分布パラメータを算出する。
【非特許文献１】V. Stouten, H. Van hamme, and P. Wambacq, 「Model-based feature enhancement with uncertainty decoding for noise robust ASR,」 Speech Communication, vol. 48, pp. 1502-1514, 2006.
【発明の開示】
【発明が解決しようとする課題】
【００１０】
しかし、上記従来技術は、非線形関数を１次テイラー展開によって線形近似するため、大きな近似誤差が発生する。そのため、結合ガウス分布パラメータの算出精度が低く、その結果、雑音下で十分な音声認識性能が得られないという問題点があった。
【００１１】
そこで本発明は、上記従来技術の問題点を解決し、雑音下でも安定して音声認識が行える音声認識装置及びその方法を提供する。
【課題を解決するための手段】
【００１２】
本発明は、入力したノイジー音声から、ノイジー音声特徴ベクトルをフレーム毎に抽出する特徴抽出部と、前記ノイジー音声に重畳されたノイズに関するノイズ特徴ベクトルのノイズ特徴分布パラメータを推定するノイズ推定部と、クリーン音声に関するクリーン音声特徴ベクトルの事前分布パラメータを記憶する事前分布パラメータ記憶部と、前記ノイズ特徴分布パラメータと前記事前分布パラメータとから、アンセンテッド変換を用いて、前記クリーン音声特徴ベクトルと前記ノイジー音声特徴ベクトルの結合ガウス分布パラメータを前記フレーム毎に算出するガウス分布算出部と、前記結合ガウス分布パラメータを用いて、前記ノイジー音声特徴ベクトルから、前記クリーン音声特徴ベクトルの事後分布パラメータを前記フレーム毎に算出する算出実行部と、前記事後分布パラメータと、予め記憶した単語の標準パターンとを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する照合部と、を備えることを特徴とする音声認識装置である。
【発明の効果】
【００１３】
本発明によれば、雑音下でも安定して音声認識を行うことができる。
【発明を実施するための最良の形態】
【００１４】
以下、図面を参照して本発明の実施形態の音声認識装置１０について説明する。
【００１５】
（第１の実施形態）
第１の実施形態の音声認識装置１０について図１〜図３に基づいて説明する。
【００１６】
図１は、本実施形態に係る音声認識装置１０のブロック図である。
【００１７】
図１に示すように、音声認識装置１０は、特徴抽出部１１、ノイズ推定部１２、特徴強調部１３、照合部１４を備える。
【００１８】
なお、この音声認識装置１０は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、特徴抽出部１１、ノイズ推定部１２、特徴強調部１３、照合部１４は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声認識装置１０は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、又はネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。
【００１９】
特徴抽出部１１について説明する。
【００２０】
特徴抽出部１１は、入力したノイジー音声の信号から音声の特徴を表わすベクトルを抽出する。このノイジー音声は、クリーン音声にノイズが重畳されている。
【００２１】
具体的には、特徴抽出部１１は、ノイジー音声である音声信号が入力されてくる。次に、特徴抽出部１１は、時系列に沿って切り出し窓を少しずつずらしながら音声信号から短時間フレーム（以下、単にフレームという）を切り出す。次に、特徴抽出部１１は、特徴ベクトルにフレーム毎に変換し、時系列のノイジー音声の特徴ベクトルを出力する。特徴ベクトルとして、例えばＭＦＣＣ（Mel-Frequency Cepstral Coefficients）ベクトルを用いる。以降では、ノイジー音声特徴ベクトル（以下、ノイジーベクトルという）をｙとおく。
【００２２】
ノイズ推定部１２について説明する。
【００２３】
ノイズ推定部１２は、各フレームについて、ノイジーベクトルｙから、ノイズ特徴ベクトルのノイズ特徴分布パラメータ（以下、単にノイズパラメータという）を推定する。
【００２４】
ノイズパラメータは、具体的には、ノイズ特徴ベクトルの平均と共分散である。例えば、発話開始前の音声を含まないノイズのみの区間（時間）から抽出された特徴ベクトルの集合から平均と共分散を算出し、以降は発話中ノイズは変動しないと仮定して、発話中の全てのフレームについてこの平均と共分散を出力する。
【００２５】
また、発話中にノイズが変動すると仮定する場合には、音声区間検出器を用いて、音声が含まれない区間を検出する度に、該区間の特徴ベクトルを用いてノイズパラメータを更新してもよい。
【００２６】
以降の説明では、ノイズ特徴ベクトルをｎとおく。また、ノイズパラメータ、すなわち、ノイズ特徴ベクトルｎの平均と共分散を、それぞれμｎとΣｎとおく。
【００２７】
特徴強調部１３について説明する。
【００２８】
特徴強調部１３は、ノイジーベクトルｙと、ノイズパラメータから、クリーン音声特徴ベクトル（以下、クリーンベクトルという）の事後分布パラメータであるクリーン音声特徴事後分布パラメータ（以下、事後分布パラメータという）を算出する。
【００２９】
事後分布パラメータとは、具体的には、ノイジーベクトルｙを観測したときの、クリーンベクトルの事後平均と事後共分散である。
【００３０】
以降の説明では、クリーンベクトルをｘとおく。また、事後分布パラメータ、すなわち、ノイジーベクトルｙを観測したときのクリーンベクトルｘの事後平均と事後共分散を、それぞれμｘ｜ｙとΣｘ｜ｙとおく。特徴強調部１３の詳細については後述する。
【００３１】
照合部１４について説明する。
【００３２】
照合部１４は、クリーンベクトルｘの事後分布パラメータと、予め記憶した単語の標準パターンを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。
【００３３】
特徴強調部１３で算出された事後平均μｘ｜ｙを、クリーンベクトルｘの推定値として用いて、標準的なビタビデコーディングを行う。
【００３４】
また、非特許文献２（L. Deng, J. Droppo, and A. Acero, 「Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion,」 IEEE Transactions on Speech and Audio Processing, vol. 13, no. 3, pp. 412-412, May 2005.）に開示されているように、事後平均μｘ｜ｙと事後共分散Σｘ｜ｙの両方用いて、アンサーテンティデコーディングを行ってもよい。
【００３５】
事後共分散（アンサーテンティ）の大きさを考慮しながら照合を行うことで、アンサーテンティの大きなフレームは不確実なフレームとして照合における影響が小さくなり、逆にアンサーテンティの小さなフレームは確実なフレームとして照合における影響が大きくなり、音声認識性能が向上する。
【００３６】
次に、特徴強調部１３の詳細について、図２のブロック図を参照しながら説明する。
【００３７】
図２に示すように、特徴強調部１３は、事前分布パラメータ記憶部１３１、ガウス分布記憶部１３２、ガウス分布算出部１３３、算出実行部１３４とを備える。
【００３８】
事前分布パラメータ記憶部１３１について説明する。
【００３９】
事前分布パラメータ記憶部１３１は、クリーンベクトルｘのクリーン音声特徴事前分布パラメータ（以下、単に事前分布パラメータという）を記憶する。
【００４０】
具体的には、クリーンベクトルｘの事前平均μｘと事前共分散Σｘを記憶する。事前分布パラメータは、静粛な環境で収録された音声コーパスを用いて、事前に算出しておく。
【００４１】
より具体的には、クリーン音声のコーパスから抽出された特徴ベクトルの集合から、平均と共分散を算出しておく。話者、又は、発話内容が事前に分かっている場合には、該話者、又は、該発話内容に特化したコーパスを用いることができる。
【００４２】
また、話者、又は、発話内容が事前に特定されない場合には、さまざまな話者、さまざまな発話内容を含んだコーパスを用いることが好ましい。
【００４３】
ガウス分布記憶部１３２について説明する。
【００４４】
ガウス分布記憶部１３２は、クリーンベクトルｘとノイジーベクトルｙとの、結合ガウス分布のパラメータである結合ガウス分布パラメータ（以下、単にガウスパラメータという）を記憶する。すなわち、ガウス分布記憶部１３２は、ガウス分布算出部１３３から出力されたガウスパラメータを記憶する。
【００４５】
ガウスパラメータとは、クリーンベクトルｘの事前平均μｘと事前共分散Σｘ、ノイジーベクトルｙの平均μｙと共分散Σｙ、及び、クリーンベクトルｘとノイジーベクトルｙのクロス共分散Σｘｙである。
【００４６】
これらのパラメータを用いて、クリーンベクトルｘとノイジーベクトルｙの結合ガウス分布は、式（１）のように表わされる。但し、Ｎ（μ，Σ）は、平均μ及び共分散Σによって規定されるガウス分布を表わす。
【数１】

【００４７】
ガウス分布算出部１３３について説明する。
【００４８】
ガウス分布算出部１３３は、ノイズパラメータと事前分布パラメータとから、アンセンテッド変換を用いて、ガウスパラメータを算出して、ガウス分布記憶部１３２に出力する。
【００４９】
ここで、ガウスパラメータの算出にあたって、クリーンベクトルｘ、ノイズ特徴ベクトルｎ、ノイジーベクトルｙを関連付けるための非線形関数ｙ＝ｆ（ｘ，ｎ）が既知である必要がある。例えば、特徴ベクトルとしてＭＦＣＣベクトルを用いる場合には、この非線形関数は式（２）のように表される。但し、行列Ｃは離散コサイン変換を表わし、その逆行列は逆離散コサイン変換を表わす。また、ｌｏｇ及びｅｘｐは、ベクトルの各要素に作用するものとする。
【数２】

【００５０】
非特許文献１に開示される従来技術では、１次テイラー近似を用いてガウスパラメータを算出した。それに対して、本実施形態では、アンセンテッド変換を用いてガウスパラメータを算出する。
【００５１】
以下、まず従来技術の詳細について説明し、その問題点を指摘する。その後、本実施形態の方法についてその詳細を説明する。
【００５２】
従来技術である１次テイラー近似を用いたガウスパラメータ算出方法について説明する。
【００５３】
まず、式（２）の非線形関数を、下記の式（３）に示すように１次テイラー展開で近似する。
【数３】

【００５４】
但し、行列ＦとＧは、下記の式（４）に示すように、非線形関数ｆをそれぞれクリーンベクトルｘとノイズ特徴ベクトルｎで偏微分したものである。
【数４】

【００５５】
また、テイラー展開の展開点（ｘ０，ｎ０）は、下記の式（５）に示すように、クリーンベクトルｘの事前平均μｘ、及び、ノイズ特徴ベクトルｎの平均μｎに、それぞれ設定される。
【数５】

【００５６】
このように、非線形関数を１次テイラー近似すると、ガウスパラメータを線形演算で算出できる。すなわち、ノイジーベクトルｙの平均μｙ及び共分散Σｙ、クリーンベクトルｘとノイジーベクトルｙのクロス共分散Σｘｙは、それぞれ式（６）、式（７）、式（８）により算出される。
【数６】

【数７】

【数８】

【００５７】
しかし、上記した従来技術の方法では、非線形関数を１次テイラー近似する際に発生する近似誤差の影響により、ガウスパラメータの算出誤差が大きいという問題点があった。
【００５８】
次に、本実施形態に係るアンセンテッド変換を用いたガウスパラメータ算出方法について説明する。
【００５９】
「アンセンテッド変換」は、非線形システムにおいて高精度に所望の統計量を算出する方法である。アンセンテッド変換の詳細については、例えば非特許文献３（S. Julier and J. Uhlmann, 「Unscented filtering and nonlinear estimation,」 Proceedings of the IEEE, vol. 92, no. 3, pp. 401-422, March 2004.）に開示されている。
【００６０】
このアンセンテッド変換について説明する。
【００６１】
第１の確率変数ｘがあり、その平均μｘ及び共分散Σｘは既知とする。
【００６２】
第２の確率変数ｎがあり、その平均μｎ及び共分散Σｎは既知とする。
【００６３】
第３の確率変数ｙがあり、第３の確率変数ｙは、第１の確率変数ｘと第２の確率変数ｎとから、既知の非線形関数ｙ＝ｆ（ｘ，ｎ）によって算出されるものとする。
【００６４】
このとき、第３の確率変数ｙの平均μｙと共分散Σｙ、及び、第１の確率変数ｘと第３の確率変数ｙの間のクロス共分散Σｘｙを算出する問題を考える。この問題を高精度に解決する方法として、上記のアンセンテッド変換が知られている。
【００６５】
ガウス分布算出部１３３では、このアンセンテッド変換を用いて、ガウスパラメータの算出を行う。
【００６６】
まず、下記の式（９）に示すように、クリーンベクトルｘとノイズ特徴ベクトルｎを連結したベクトルａを考える。
【数９】

【００６７】
クリーンベクトルｘの次元がＮｘ、ノイズ特徴ベクトルｎの次元がＮｎであるとき、ベクトルａの次元はＮａ＝Ｎｘ＋Ｎｎとなる。このベクトルａの平均μａと共分散Σａは、それぞれ下記の式（１０）及び式（１１）のように表わされる。
【数１０】

【数１１】

【００６８】
次に、「シグマポイント」と呼ばれるサンプルの集合を生成する。すなわち、ｐ個のＮａ次元ベクトルａｉと、その各々に関連付けられた重みｗｉを生成する。シグマポイントの生成法として、さまざまな方法が知られており、例えば非特許文献３にそれらは開示されている。ここでは、「シンメトリックシグマポイント生成法」について説明する。なお、他の任意のシグマポイント生成法を用いてよい。
【００６９】
シンメトリックシグマポイント生成法では、ｐ＝２Ｎａ個のベクトルａｉと、それに関連付けられた重みｗｉを、下記の式（１２）のように生成する。
【数１２】

【００７０】
但し、式（１２）の中で、
【数１３】

【００７１】
は行列ＮａΣａの平方根の第ｉ列（又は行）を表す。
【００７２】
次に、ガウス分布算出部１３３は、ｐ個のシグマポイントａｉのそれぞれについて、非線形関数ｙ＝ｆ（ｘ，ｎ）を用いて、ｙｉを算出する。例えば、特徴ベクトルがＭＦＣＣである場合には、非線形関数ｙ＝ｆ（ｘ，ｎ）は式（２）で表わされる。また、ｉ番目のサンプルａｉのｘに対応する部分を取り出したベクトルをｘｉとする。
【００７３】
以上のようにして生成したｘｉ及びｙｉ、（ｉ＝１，・・・ｐ）を用いて、求めるガウスパラメータを算出する。すなわち、ガウス分布算出部１３３は、ノイジーベクトルｙの平均μｙと共分散Σｙ、及び、クリーンベクトルｘとノイジーベクトルｙのクロス共分散Σｘｙを下記の式（１４）から式（１６）のように算出する。
【数１４】

【数１５】

【数１６】

【００７４】
ガウス分布算出部１３３は、以上に説明したように、アンセンテッド変換を用いて、事前分布パラメータとノイズパラメータとから、ガウスパラメータを算出する。従来技術では非線形関数ｙ＝ｆ（ｘ，ｎ）を１次テイラー展開で近似したため算出誤差が大きかったが、アンセンテッド変換を用いることで算出誤差を小さく抑えることができる。
【００７５】
算出実行部１３４について説明する。
【００７６】
算出実行部１３４は、ガウス分布記憶部１３２に記憶されたガウスパラメータに基づき、ノイジーベクトルｙから、事後分布パラメータを算出する。事後分布パラメータとは、上記したように、事後平均μｘ｜ｙと事後共分散Σｘ｜ｙである。
【００７７】
二つの確率変数ｘとｙが式（１）のように結合ガウス分布で分布するとき、第３の確率変数であるノイジーベクトルｙを観測したときの、第１の確率変数であるクリーンベクトルｘの事後平均と事後共分散を算出する下記の式（１７）が知られている。算出実行部１３４は、この式（１７）を用いて、事後分布パラメータを算出する。
【数１７】

【００７８】
次に、本実施形態に係る音声認識装置１０の動作について図３を参照しながら説明する。
【００７９】
まず、ステップＳ３１において、特徴抽出部１１は、ノイジー音声の一つのフレームからノイジーベクトルｙを算出する。
【００８０】
次に、ステップＳ３２において、ノイズ推定部１２は、ノイジーベクトルｙから、ノイズ特徴ベクトルｎのノイズパラメータを推定する。
【００８１】
次に、ステップＳ３３において、ガウス分布算出部１３３は、アンセンテッド変換を用いてガウスパラメータを算出して、ガウス分布記憶部１３２は、そのガウスパラメータを記憶する。
【００８２】
次に、ステップＳ３４において、算出実行部１３４は、ガウス分布記憶部１３２に記憶されたガウスパラメータに基づいて、事後分布パラメータを算出する。
【００８３】
次に、ステップＳ３５において、照合部１４は、クリーンベクトルｘの事後分布パラメータと、予め記憶した単語の標準パターンを照合する。
【００８４】
次に、ステップＳ３６において、音声認識装置１０は、全てのフレームの処理が完了したかどうかを判定する。まだ処理していないフレームが残っている場合には、ステップＳ３１に戻って、次のフレームの処理を行う。全てのフレームの処理が完了した場合には、ステップＳ３７へと進む。
【００８５】
最後に、ステップＳ３７において、照合部１４は、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。
【００８６】
このように本実施形態によれば、アンセンテッド変換を用いることで、ガウスパラメータを精度良く算出できるため、特徴強調効果を高め、雑音下においても高い音声認識性能を保つことができる。
【００８７】
（第２の実施形態）
次に、第２の実施形態の音声認識装置１０について図４と図５に基づいて説明する。
【００８８】
第１の実施形態の音声認識装置１０では、クリーンベクトルｘの事前分布を単一のガウス分布で表現するため、事前分布を十分精緻に表現できない場合がある。
【００８９】
そこで本実施形態の音声認識装置１０では、クリーンベクトルｘの事前分布をガウス混合モデルで表現することにより、事前分布がより精緻に表現されるため、特徴強調がより有効に働き、雑音下での音声認識性能が向上する。
【００９０】
まず最初に、クリーンベクトルｘの事前分布を表現するガウス混合モデル、及び、その学習法について説明する。まず、本実施形態では、Ｍ個（Ｍ＞１）の特徴強調部１３を有している。そして、クリーンベクトルｘの事前分布ｐ（ｘ）は、ガウス混合モデルを用いて下記の式（１８）のように表わされる。
【数１８】

【００９１】
ここで、Ｍ（但し、Ｍ＞１である）は混合数、ｋ（但し、１＜＝ｋ＜＝Ｍである）は特徴強調部１３の番号、πｋ、μｘ（ｋ）、Σｘ（ｋ）はそれぞれ第ｋ番目の特徴強調部１３−ｋのガウス分布の混合重み、平均、共分散を表わす。
【００９２】
第１の実施形態では、単一のガウス分布で事前分布を表現したが、本実施形態では複数のガウス分布の混合を用いるため、事前分布をより精緻に表現することができる。
【００９３】
クリーンベクトルｘの事前分布を表わすためのガウス混合モデルパラメータは、クリーン音声のコーパスから予め学習して記憶しておく。具体的には、クリーン音声のコーパスから抽出された特徴ベクトルの集合を学習データとして、ＥＭアルゴリズムを用いることによって、上記の式（１８）のガウス混合モデルパラメータを算出する。そして、各特徴強調部１３は、例えば、各音素に対応するように生成され、特徴強調部１３毎に、音素に対応するガウスパラメータを算出する。
【００９４】
次に、本実施形態の音声認識装置１０の構成について、図４を参照しながら説明する。図４は、音声認識装置１０を示すブロック図である。
【００９５】
図４に示すように、音声認識装置１０は、特徴抽出部１１、ノイズ推定部１２、Ｍ個の特徴強調部１３−１，・・・１３−Ｍ、重み算出部４１、統合部４２、照合部１４を備える。特徴抽出部１１、ノイズ推定部１２、照合部１４については、第１の実施形態と同一であるので、同一の符号を付与してここでは説明を省略する。
【００９６】
特徴強調部１３について説明する。
【００９７】
Ｍ個の特徴強調部１３−１，・・・１３−Ｍの一つ一つは、第１の実施形態における特徴強調部１３と同一であるが、これを複数備える点が第１の実施形態と異なる。Ｍ個の特徴強調部１３−１，・・・１３−Ｍは、それぞれ独自の互いに異なったパラメータを持つ。
【００９８】
すなわち、第ｋ番目の特徴強調部１３−ｋが備える事前分布パラメータ記憶部１３１−ｋは、上記したガウス混合モデルの第ｋ番目のガウス混合モデルパラメータμｘ（ｋ）とΣｘ（ｋ）を記憶する。
【００９９】
また、ガウス分布算出部１３３−ｋは、ノイズパラメータ（μｎとΣｎ）と、事前分布パラメータ（μｘ（ｋ）とΣｘ（ｋ））から、ガウスパラメータ（μｙ（ｋ）、Σｙ（ｋ）、Σｘｙ（ｋ））を算出し、ガウス分布記憶部１３２−ｋに記憶させる。
【０１００】
算出実行部１３４−ｋは、ガウス分布記憶部１３２−ｋに記憶したガウスパラメータに基づいて、第ｋ番目の事後分布パラメータ、すなわち、事後平均μｘ｜ｙ（ｋ）と事後共分散μｘ｜ｙ（ｋ）を算出する。
【０１０１】
重み算出部４１について説明する。
【０１０２】
重み算出部４１は、Ｍ個の特徴強調部１３−１，・・・１３−Ｍからの出力を統合する際に用いる統合重みを算出する。すなわち。各ガウス分布算出部１３３−ｋがそれぞれ算出したガウスパラメータに基づいて、各事後分布パラメータに対する統合重みをフレーム毎に算出する。
【０１０３】
具体的には、ノイジーベクトルｙを観測したときに、該フレームが特徴強調部１３−ｋに属する事後確率ｐ（ｋ｜ｙ）を統合重みとして用いる。事後確率ｐ（ｋ｜ｙ）は、下記の式（１９）によって算出する。
【数１９】

【０１０４】
πｋは上記したガウス混合モデルの混合重みである。μｙ（ｋ）及びΣｙ（ｋ）は第ｋ番目の特徴強調部１３−ｋのガウス分布記憶部１３２−ｋの値を参照する。
【０１０５】
統合部４２について説明する。
【０１０６】
統合部４２は、Ｍ個の特徴強調部１３−１，・・・１３−Ｍからの出力を統合する。
【０１０７】
具体的には、Ｍ個の特徴強調部１３−１，・・・１３−Ｍからの出力μｘ｜ｙ（ｋ）とΣｘ｜ｙ（ｋ）を、下記の式（２０）によって統合し、μｘ｜ｙとΣｘ｜ｙを出力する。
【数２０】

【０１０８】
次に、本実施形態に係る音声認識装置１０の動作について、図５を参照しながら説明する。なお、第１の実施形態と同一のステップについては、同一符号を付与して説明を簡略におこなう。
【０１０９】
まず、ステップＳ３１の特徴抽出処理、ステップＳ３２のノイズ推定処理が行われる。
【０１１０】
次に、ステップＳ３３において、特徴強調部１３−ｋのガウス分布算出部１３３−ｋは、アンセンテッド変換を用いて、ガウスパラメータを算出し、ガウス分布記憶部１３２−ｋは、そのガウスパラメータを記憶する。
【０１１１】
次に、ステップＳ３４において、算出実行部１３４−ｋは、ガウス分布記憶部１３２−ｋに記憶されたガウスパラメータに基づいて、事後分布パラメータを算出する。
【０１１２】
次に、ステップＳ５１において、音声認識装置１０は、全ての特徴強調部１３−１，・・・１３−Ｍについての処理が完了していなければステップＳ３３に戻り、完了していればステップＳ５２へと進む。
【０１１３】
次に、ステップＳ５２において、重み算出部４１は、統合重みを算出する。
【０１１４】
次に、ステップＳ５３において、統合部４２は、Ｍ個の特徴抽出部１３−１，・・・１３−Ｍからの出力を統合する。
【０１１５】
次に、ステップＳ３５において、照合部１４は、単語の標準パターンとの照合を行う。
【０１１６】
次に、ステップＳ３６において、音声認識装置１０は、全てのフレームの処理が完了していなければステップＳ３１へ戻り、完了していればステップＳ３７へと進む。
【０１１７】
最後に、ステップＳ３７において、照合部１４は、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。
【０１１８】
このように本実施形態は、ガウス混合モデルを用いることで、単一のガウス分布を用いる場合よりも、より精緻に事前分布を表現することができ、特徴強調効果を高め、雑音下でも高い音声認識性能を得ることができる。
【０１１９】
（第３の実施形態）
次に、第３の実施形態の音声認識装置１０について図６〜図８に基づいて説明する。
【０１２０】
第１及び第２の実施形態では、全てのフレームにおいてガウスパラメータの算出を行うため、演算量が大きくなる。
【０１２１】
そこで本実施形態では、各フレームにおいて、ガウスパラメータを再び算出する必要があるかどうかを判定し、不必要と判定された場合にはガウスパラメータの再算出を省略することで、演算量を削減する。
【０１２２】
本実施形態と、第１及び第２の実施形態との違いは、特徴強調部１３の構成のみであるため、その他の構成についての説明は省略する。
【０１２３】
本実施形態の特徴強調部１３について図６に基づいて説明する。図６は、本実施形態における特徴強調部１３のブロック図である。
【０１２４】
特徴強調部１３は、事前分布パラメータ記憶部１３１、ガウス分布記憶部１３２、ガウス分布算出部１３３、算出実行部１３４、判定部６１、第１スイッチ部６２を備える。判定部６１、第１スイッチ部６２以外は、第１及び第２の実施形態と同一であるため、同一符号を付与して説明を省略する。
【０１２５】
判定部６１について説明する。
【０１２６】
判定部６１は、ある一つのフレームにおいて、ガウスパラメータの再算出が必要か否かを判定する。
【０１２７】
判定部６１には、フレーム毎に、ノイズ推定部１２からノイズパラメータが入力される。判定部６１は、ノイズパラメータが大きく変化した場合には、ガウスパラメータの値もそれに伴って大きく変動するため、ガウスパラメータの再算出が必要と判定する。逆に、ノイズパラメータがあまり変化していない場合には、ガウスパラメータの値もあまり変化しないので、ガウスパラメータの再算出は不必要と判定する。
【０１２８】
図７は、判定部６１のブロック図である。図７に示すように、判定部６１は、ノイズパラメータ記憶部６１１、変動量算出部６１２、比較部６１３を備える。
【０１２９】
まず、ノイズパラメータ記憶部６１１は、ガウス分布算出部１３３が過去の最後にガウスパラメータの算出を行ったフレームのノイズパラメータを記憶する。
【０１３０】
変動量算出部６１２は、現在のフレームにおいてノイズ推定部１２から入力された現在のノイズパラメータと、ノイズパラメータ記憶部６１１に記憶された過去のノイズパラメータから、ノイズパラメータの変動量を算出する。例えば、下記の式（２１）に示されるようなユークリッド距離によって、ノイズパラメータの変動量を算出する。
【数２１】

【０１３１】
ここで、Δはノイズパラメータの変動量、μｎは現在のフレームにおける現在のノイズパラメータ、μｎに上付き棒を付したものはノイズパラメータ記憶部６１１に記憶された過去のノイズパラメータである。
【０１３２】
比較部６１３は、変動量を任意の閾値と比較し、閾値より大きければ、過去の最後にガウスパラメータの算出を行った時からノイズパラメータが大きく変動したみなし、ガウスパラメータの再算出が必要との判定を出力する。
【０１３３】
また、同時に、比較部６１３からノイズパラメータ記憶部６１１に記憶指令を送信し、現在のフレームにおける現在のノイズパラメータをノイズパラメータ記憶部６１１に記憶して過去のノイズパラメータを更新する。
【０１３４】
閾値より小さければ、ノイズパラメータはあまり変動していないとみなし、ガウスパラメータの再算出は不要との判定を出力する。この時、ノイズパラメータ記憶部６１１の値は更新しない。
【０１３５】
第１スイッチ部６２は、判定部６１の判定に従って、ガウス分布算出部１３３の動作を制御する。すなわち、ガウスパラメータの再算出が必要と判断された場合には、ガウス分布算出部１３３を実行し、結果をガウス分布記憶部１３２に新たに保存し、この新たなガウスパラメータを用いて算出実行部１３４は事後分布パラメータの算出を実行する。
【０１３６】
一方、再算出が不必要と判定された場合には、第１スイッチ部６２は、ガウス分布算出部１３３の実行を省略する。そして、ガウス分布記憶部１３２の内容は変更しない。算出実行部１３４は、ガウス分布記憶部１３２に記憶された過去のガウスパラメータを用いて事後分布パラメータの算出を実行する。
【０１３７】
なお、第２の実施形態のような複数の特徴強調部１３−１，・・・１３−Ｍを備えている場合には、各々の特徴強調部１３−１，・・・１３−Ｍが判定部６１を備えているが、処理の内容は同一であるので、単一の判定部６１を全ての特徴強調部１３−１，・・・１３−Ｍで共有することができる。
【０１３８】
次に、本実施形態の音声認識装置１０の動作について図８を参照しながら説明する。図８は、音声認識装置１０の動作を示すフローチャートである。ここでは、複数の特徴強調部１３−１，・・・１３−Ｍを用いた構成についての動作を説明する。
【０１３９】
第１の実施形態のような単一の特徴強調部１３を用いた構成についての動作は、複数の場合と同様であるので、説明を省略する。また、第１又は第２の実施形態と同一のステップについては、同一符号を付与して説明を簡潔におこなう。
【０１４０】
まず、ステップＳ３１の特徴抽出処理、ステップＳ３２のノイズ推定処理が行われる。
【０１４１】
次に、ステップＳ８１において、判定部６１は、特徴強調部１３−ｋについて、ノイズパラメータの変動量に基づき、ガウスパラメータの再算出が必要か不必要かを判定する。必要と判定された場合には、ステップＳ３３において、ガウスパラメータの算出を実行する。不必要と判定された場合には、ガウスパラメータの算出を省略する。
【０１４２】
次に、ステップＳ３４において、算出実行部１３４−ｋは、ガウス分布記憶部１３２−ｋに記憶されたガウスパラメータに基づいて、事後分布パラメータを算出する。
【０１４３】
次に、ステップＳ５１において、音声認識装置１０は、全ての特徴強調部１３−１，・・・１３−Ｍについて処理が完了していればステップＳ５２へ進む。そうでなければステップＳ８１へ戻る。
【０１４４】
次に、ステップＳ５２において、重み算出部４１は、統合重みを算出する。
【０１４５】
次に、ステップＳ５３において、統合部４２は、Ｍ個の特徴強調部１３−１，・・・１３−Ｍからの出力を統合する。
【０１４６】
次に、ステップＳ３５において、照合部１４は、単語の標準パターンとの照合を行う。
【０１４７】
次に、ステップＳ３６において、音声認識装置１０は、全てのフレームの処理が完了していなければステップＳ３１へと戻り、全てのフレームの処理が完了していればステップＳ３７へと進む。
【０１４８】
最後に、ステップＳ３７において、照合部１４は、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。
【０１４９】
このように本実施形態では、ノイズパラメータの変動量に基づきガウスパラメータの再算出が必要か不必要かを判定し、再算出が不必要と判定されたフレームではガウス分布算出部１３３の実行を省略することにより、演算量を削減することができる。
【０１５０】
（第４の実施形態）
次に、第４の実施形態の音声認識装置１０について図９〜図１０に基づいて説明する。
【０１５１】
本実施形態は、第３の実施形態と同様に特徴強調部１３における演算量を削減することを目的としたものである。すなわち、本実施形態では、判定部６１がガウスパラメータの再算出が不必要と判定した場合には、ガウス分布算出部１３３よりも演算量が少ない簡易算出部９１でガウスパラメータの演算を実行し、少なくとも一部のパラメータを更新する。
【０１５２】
本実施形態と、第３の実施形態の違いは、特徴強調部１３の構成のみであるため、その他の構成についての説明は省略する。
【０１５３】
本実施形態の特徴強調部１３について図９に基づいて説明する。図９は、特徴強調部１３のブロック図である。
【０１５４】
特徴強調部１３は、事前分布パラメータ記憶部１３１、ガウス分布記憶部１３２、ガウス分布算出部１３３、簡易算出部９１、判定部６１、第２スイッチ部９２、算出実行部１３４を備える。簡易算出部９１と第２スイッチ部９２以外は、第１乃至第３の実施形態と同一であるため、同一符号を付与して説明を省略する。
【０１５５】
簡易算出部９１は、ガウス分布算出部１３３よりも少ない演算量で、ガウスパラメータの少なくとも一部を更新する。
【０１５６】
具体的には、現在のフレームにおけるノイズパラメータ（μｎ、Σｎ）の一つである平均μｎを用いて、ガウスパラメータの一つであるノイズパラメータの平均μｙの値をμｙ＝ｆ（μｘ，μｎ）によって算出する。その他のガウスパラメータ（Σｙ，Σｘｙ）の値は算出しない。
【０１５７】
ガウス分布算出部１３３は、アンセンテッド変換を用いてノイズパラメータの一つである平均μｙ、ガウスパラメータ（Σｙ，Σｘｙ）を算出するため、精度良くパラメータを算出できる代わりに演算量が多いという欠点がある。一方、簡易算出部９１は、精度は下がるが演算量が少ない。そこで、ノイズパラメータの変動量に基づき、ガウスパラメータの算出が不必要と判定されたフレームについては、少ない演算量で実行できる簡易算出部９１に切り替えることで、特徴強調部１３における演算量を抑えることができる。
【０１５８】
次に、本実施形態の音声認識装置１０の動作について図１０を参照しながら説明する。図１０は、音声認識装置１０の動作を示すフローチャートである。
【０１５９】
ここでは、Ｍ個の特徴強調部１３−１，・・・１３−Ｍを用いた構成についての動作を説明する。第１の実施形態のような単一の特徴強調部１３を用いた構成についての動作は、複数の場合と同様であるので、説明を省略する。また、第１乃至第３の実施形態と同一のステップについては、同一符号を付与して説明を簡潔におこなう。
【０１６０】
まず、ステップＳ３１の特徴抽出処理、ステップＳ３２のノイズ推定処理が実行される。
【０１６１】
次に、ステップＳ８１において、判定部６１は、特徴強調部１３−ｋについて、ノイズパラメータの変動量に基づき、ガウスパラメータの再算出が必要か不必要かを判定する。この判定は、第３の実施形態と同様である。再算出が必要と判定された場合には、ステップＳ３３においてガウス分布算出部１３３−ｋの動作を実行する。再算出が不必要と判定された場合には、ステップＳ１０１において簡易算出部９１−ｋの上記動作を実行する。
【０１６２】
次に、ステップＳ３４において、算出実行部１３４−ｋは、ガウス分布記憶部１３２−ｋに記憶されたガウスパラメータに基づいて、事後分布パラメータを算出する。
【０１６３】
次に、ステップＳ５１において、音声認識装置１０は、全ての特徴強調部１３−１，・・・１３−Ｍについて処理が完了していればステップＳ５２へ進む。終了していなければ、ステップＳ８１へと戻る。
【０１６４】
次に、ステップＳ５２において、重み算出部４１は、統合重みを算出する。
【０１６５】
次に、ステップＳ５３において、Ｍ個の特徴強調部１３−１，・・・１３−Ｍからの出力を統合する。
【０１６６】
次に、ステップＳ３５において、照合部１４は、単語の標準パターンとの照合を行う。
【０１６７】
次に、ステップＳ３６において、音声認識装置１０は、全てのフレームの処理が完了していなければステップＳ３１へと戻り、全てのフレームの処理が完了していればステップＳ３７へと進む。
【０１６８】
最後に、ステップＳ３７において、照合部１４は、前記照合結果に基づいて前記ノイジー音声の単語列を出力する。
【０１６９】
このように本実施形態では、ノイズパラメータの変動量に基づきガウスパラメータの再算出が必要か不必要かを判定し、再算出が不必要と判定されたフレームでは、演算量の少ない簡易算出部９１に切り替えることによって、演算量を削減することができる。
【０１７０】
（変更例）
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
【図面の簡単な説明】
【０１７１】
【図１】第１の実施形態の音声認識装置の構成を示すブロック図である。
【図２】第１の実施形態の特徴強調部の構成を示すブロック図である。
【図３】第１の実施形態の音声認識装置の動作を示すフローチャートである。
【図４】第２の実施形態の音声認識装置の構成を示すブロック図である。
【図５】第２の実施形態の音声認識装置の動作を示すフローチャートである。
【図６】第３の実施形態の特徴強調部の構成を示すブロック図である。
【図７】判定部の構成を示すブロック図である。
【図８】第３の実施形態の音声認識装置の動作を示すフローチャートである。
【図９】第４の実施形態の特徴強調部の構成を示すブロック図である。
【図１０】第４の実施形態の音声認識装置の動作を示すフローチャートである。
【符号の説明】
【０１７２】
１０音声認識装置
１１特徴抽出部
１２ノイズ推定部
１３特徴強調部
１４照合部
４１重み算出部
４２統合部
６１判定部
６２第１スイッチ部
９１簡易算出部
９２第２スイッチ部
１３１事前分布パラメータ記憶部
１３２ガウス分布記憶部
１３３ガウス分布算出部
１３４算出実行部
６１１ノイズパラメータ記憶部
６１２変動量算出部
６１３比較部

【特許請求の範囲】
【請求項１】
入力したノイジー音声から、ノイジー音声特徴ベクトルをフレーム毎に抽出する特徴抽出部と、
前記ノイジー音声に重畳されたノイズに関するノイズ特徴ベクトルのノイズ特徴分布パラメータを推定するノイズ推定部と、
クリーン音声に関するクリーン音声特徴ベクトルの事前分布パラメータを記憶する事前分布パラメータ記憶部と、
前記ノイズ特徴分布パラメータと前記事前分布パラメータとから、アンセンテッド変換を用いて、前記クリーン音声特徴ベクトルと前記ノイジー音声特徴ベクトルの結合ガウス分布パラメータを前記フレーム毎に算出するガウス分布算出部と、
前記結合ガウス分布パラメータを用いて、前記ノイジー音声特徴ベクトルから、前記クリーン音声特徴ベクトルの事後分布パラメータを前記フレーム毎に算出する算出実行部と、
前記事後分布パラメータと、予め記憶した単語の標準パターンとを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する照合部と、
を備えることを特徴とする音声認識装置。
【請求項２】
前記事前分布パラメータ記憶部、前記ガウス分布算出部、及び、前記算出実行部とをそれぞれ複数備え、
前記各ガウス分布算出部がそれぞれ算出した前記結合ガウス分布パラメータに基づいて、前記各事後分布パラメータに対する統合重みを前記フレーム毎に算出する重み算出部と、
前記各統合重みに基づいて前記各事後分布パラメータを統合して、統合した事後分布パラメータを前記照合部に前記フレーム毎に出力する統合部と、
をさらに備えることを特徴とする請求項１記載の音声認識装置。
【請求項３】
前記ガウス分布算出部が算出した前記結合ガウス分布パラメータを前記フレーム毎に記憶するガウス分布記憶部と、
前記ノイズ特徴分布パラメータの変動量を前記フレーム毎に求め、前記変動量が任意の閾値より小さかった場合には前記結合ガウス分布パラメータの再算出が不必要と判定し、前記閾値より大きかった場合には前記結合ガウス分布パラメータの再算出が必要と判定する判定部と、
（１）前記再算出が必要と判定した前記フレームに関しては、前記ガウス分布算出部において再算出した前記結合ガウス分布パラメータを前記算出実行部に送り、（２）前記再算出が不必要と判定した前記フレームに関しては、前記ガウス分布算出部において算出された、前記フレームより前の過去のフレームに関して記憶された前記結合ガウス分布パラメータを前記算出実行部に送る第１スイッチ部と、
をさらに備えることを特徴とする請求項１又は２記載の音声認識装置。
【請求項４】
前記ガウス分布算出部が算出した前記結合ガウス分布パラメータを前記フレーム毎に記憶するガウス分布記憶部と、
前記ノイズ特徴分布パラメータの変動量を前記フレーム毎に求め、前記変動量が任意の閾値より小さかった場合には前記結合ガウス分布パラメータの再算出が不必要と判定し、前記閾値より大きかった場合には前記結合ガウス分布パラメータの再算出が必要と判定する判定部と、
前記ノイズ特徴分布パラメータと前記事前分布パラメータとから、前記結合ガウス分布パラメータの中の一つのパラメータを前記フレーム毎に算出する簡易算出部と、
（１）前記再算出が必要と判定した前記フレームに関しては、前記ガウス分布算出部において再算出した前記結合ガウス分布パラメータを前記算出実行部に送り、（２）前記再算出が不必要と判定した前記フレームに関しては、前記簡易算出部において算出した前記一つのパラメータ及び前記ガウス分布記憶部に記憶した前記一つのパラメータを除く前記結合ガウス分布パラメータを前記算出実行部に送る第２スイッチ部と、
をさらに備えることを特徴とする請求項１又は２記載の音声認識装置。
【請求項５】
入力したノイジー音声から、ノイジー音声特徴ベクトルをフレーム毎に抽出する特徴抽出ステップと、
前記ノイジー音声に重畳されたノイズに関するノイズ特徴ベクトルのノイズ特徴分布パラメータを推定するノイズ推定ステップと、
前記ノイズ特徴分布パラメータと、予め記憶したクリーン音声に関するクリーン音声特徴ベクトルの事前分布パラメータとから、アンセンテッド変換を用いて、前記クリーン音声特徴ベクトルと前記ノイジー音声特徴ベクトルの結合ガウス分布パラメータを前記フレーム毎に算出するガウス分布算出ステップと、
前記結合ガウス分布パラメータを用いて、前記ノイジー音声特徴ベクトルから、前記クリーン音声特徴ベクトルの事後分布パラメータを前記フレーム毎に算出する算出実行ステップと、
前記事後分布パラメータと、予め記憶した単語の標準パターンとを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する照合ステップと、
を備えることを特徴とする音声認識方法。
【請求項６】
入力したノイジー音声から、ノイジー音声特徴ベクトルをフレーム毎に抽出する特徴抽出機能と、
前記ノイジー音声に重畳されたノイズに関するノイズ特徴ベクトルのノイズ特徴分布パラメータを推定するノイズ推定機能と、
前記ノイズ特徴分布パラメータと、予め記憶したクリーン音声に関するクリーン音声特徴ベクトルの事前分布パラメータとから、アンセンテッド変換を用いて、前記クリーン音声特徴ベクトルと前記ノイジー音声特徴ベクトルの結合ガウス分布パラメータを前記フレーム毎に算出するガウス分布算出機能と、
前記結合ガウス分布パラメータを用いて、前記ノイジー音声特徴ベクトルから、前記クリーン音声特徴ベクトルの事後分布パラメータを前記フレーム毎に算出する算出実行機能と、
前記事後分布パラメータと、予め記憶した単語の標準パターンとを前記フレーム毎に照合し、前記照合結果に基づいて前記ノイジー音声の単語列を出力する照合機能と、
をコンピュータによって実現する音声認識プログラム。

【図１】