音声認識方法とその装置とプログラム

【課題】認識対象の音声品質を事前推定して音声品質の変動に対する認識処理時間の増減の影響を少なくした音声認識方法を提供する。
【解決手段】スコアレンジ計算部は、音声特徴量系列を入力として当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分をフレーム毎の音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジＲを出力する。そして、認識処理制御部は、外部から入力されるスコアレンジ基準Ｒ_０と音響スコアレンジＲを入力として、音響スコアレンジＲをスコアレンジ基準Ｒ_０で除した値に基づくスコアビーム変動係数ｋを計算して出力する。音声認識処理部は、音声特徴量系列とスコアビーム変動係数ｋを入力として、スコアビーム変動係数ｋの値に応じて探索ビーム幅を可変して音声認識処理を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、音声認識対象の音声データの音質の変化の影響を受け難くい音声認識方法とその装置とプログラムに関する。
【背景技術】
【０００２】
近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や認識処理時間が大きく変動する問題が発生する。
【０００３】
音声データの音声品質が悪いと、ビーム探索アルゴリズムで探索した音声認識結果候補（仮説）の内の最尤の仮説とのスコア差が小さくなりビーム探索による枝刈りの効きが悪く処理速度が増加してしまう場合がある。ビーム探索アルゴリズムとは、フレーム毎に最も高い累積尤度（音響モデルの尤度と言語モデルの尤度の和）から最終的に最も累積尤度が高い認識結果の存在をおおよそ保証できる所定の範囲（探索ビーム幅）の音声認識結果候補（仮説）を残しながら探索する手順である。
【０００４】
この問題を解決する音声認識装置として、例えば、音声認識処理の前に音声信号の事前信頼度スコアを求め、その事前信頼度スコアの値が低い音声信号に対する音声認識処理を行わないようにした音声認識装置９００（特許文献１）が知られている。図１４を参照して音声認識装置９００の動作を簡単に説明する。
【０００５】
音声認識装置９００は、Ａ/Ｄ変換部９０、特徴量分析部９１、事前信頼度スコア計算部９２、音響モデルパラメータメモリ９３、言語モデルパラメータメモリ９４、音声認識処理部９５、を備える。Ａ/Ｄ変換部９０は、音声信号を、例えばサンプリング周波数１６kHzで離散値化して音声ディジタル信号に変換する。なお、破線は、音声ディジタル信号が直接入力される場合はＡ/Ｄ変換部９０が不要であることを意味している。
【０００６】
特徴量分析部９１は、音声ディジタル信号を入力として、例えば３２０個の音声ディジタル信号を１フレーム（２０ms）としたフレーム毎に、音声特徴量系列を出力する。音声特徴量としては、例えば、ＭＦＣＣ（Mel-Frequenct Cepstrum Coefficient）の１〜１２元と、その変化量であるΔＭＦＣＣ等の動的パラメータや、パワーやΔパワー等を用いる。また、さらにケプストラム平均正規化（ＣＭＮ）等の正規化処理を加えた音声特徴量を用いる場合もある。
【０００７】
事前信頼度スコア計算部９２は、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデル（に含まれるＧＭＭ）の中の最尤状態との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する。
【０００８】
音声認識処理部９５は、音響モデルパラメータメモリ９３に記録された音響モデルと、言語モデルパラメータメモリ９４に記録された言語モデルとを参照して、音声特徴量系列について音声認識処理を行う。その際、音声ファイルの信頼度スコアの値に応じて音声認識処理の実行の有無を切り替える。
【０００９】
モノフォンの音響モデルを用いて求めた事前信頼度は、音声認識結果から信頼度スコアを求める方法に比べて計算量が少なくて済む。その信頼度スコアの値が低い、つまり音声認識精度が低い音声ファイルの認識処理を行わないことで、複数の音声ファイルの音声認識処理の処理効率を向上させることが出来る。
【先行技術文献】
【特許文献】
【００１０】
【特許文献１】特開２０１１−１１２９６３号公報
【発明の概要】
【発明が解決しようとする課題】
【００１１】
しかし、従来の方法は、探索ビーム幅を変えず（固定）に信頼度スコアの値の低い音声ファイルの認識処理を行わないことで、認識処理時間の増加を抑制する考えである。したがって、認識処理が行われ無い音声ファイルが残存してしまう課題がある。また、全ての音声ファイルを音声認識しようとすると上記したように認識処理時間が膨大となる課題がある。また、音声認識処理に必要な認識処理時間の見積もりができず、必要な計算機リソースの事前確保が困難である等の課題がある。
【００１２】
この発明は、このような問題点に鑑みてなされたものであり、高速に事前推定した推定値に基づいて探索ビーム幅を可変して認識処理時間を制御するようにした音声認識方法と、その装置とプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１３】
この発明の音声認識方法は、特徴量分析過程と、スコアレンジ計算過程と、認識処理制御過程と、音声認識処理過程と、を備える。特徴量分析過程は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する。スコアレンジ計算過程は、音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジＲを出力する。認識処理制御過程は、外部から入力されるスコアレンジ基準Ｒ_０と音響スコアレンジＲを入力として、音響スコアレンジＲをスコアレンジ基準Ｒ_０で除した値に基づくスコアビーム変動係数ｋを計算して出力する。音声認識処理過程は、音声特徴量系列とスコアビーム変動係数ｋを入力として、スコアビーム変動係数ｋの値に応じて探索ビーム幅を可変して音声認識処理を行う。
【発明の効果】
【００１４】
この発明の音声認識方法は、音声データの品質に対応させて探索ビーム幅を可変して認識処理を行う。よって、音声品質の悪い音声ディジタル信号の認識処理を行う際の探索ビーム幅を、音声品質の良い音声ファイルに対する探索ビーム幅よりも小さく可変することで、音声認識処理時間の増加を抑制することが出来る。つまり、音声品質の悪い音声ディジタル信号を適当な精度で音声認識処理することが可能である。また、スコアビーム変動係数ｋの値と認識処理時間との関係に着目することで、必要な認識処理時間を見積もることも可能になる効果を奏する。
【図面の簡単な説明】
【００１５】
【図１】正規分布を対数化した尤度ｙ＝ｆ（ｘ）の分布を示す図。
【図２】図１の縦軸と横軸を入れ替えて、横軸を尤度ｙ、縦軸を特徴量ｘとおいた逆関数を示す図。
【図３】スコア差ΔＬ（ｘ）を示す図。
【図４】特徴量ｘ^{ｃｌｅａｎ}と特徴量ｘ^{ｎｏｉｓｙ}付近のスコア差ΔＬ（ｘ）を拡大して示す図。
【図５】高品質（clean）な音声に対する尤度分布と低品質（noisy）な音声に対する尤度分布の形状を示す図。
【図６】この発明の音声認識装置１００の機能構成例を示す図。
【図７】音声認識装置１００の動作フローを示す図。
【図８】スコアレンジ計算部１０の機能構成例を示す図。
【図９】この発明の音声認識装置２００の機能構成例を示す図。
【図１０】認識処理する音声データ量と認識処理時間との関係を例示する図。
【図１１】音声認識処理部６０と実測認識処理部７０の動作フローを示す図。
【図１２】文字認識率とＳＮ比との関係の評価実験結果を示す図。
【図１３】実時間比とＳＮ比との関係の評価実験結果を示す図。
【図１４】従来の音声認識装置９００の機能構成例を示す図。
【発明を実施するための形態】
【００１６】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の考えについて説明する。
【００１７】
〔この発明の考え方〕
この発明の音声認識方法は、簡単な処理で高速に音声ディジタル信号の音声品質を推定し、事前推定した音声品質に対応させて探索ビーム幅を設定して認識処理を行う全く新しい考えに基づくものである。音声ディジタル信号の音声品質を推定する方法を詳しく説明する。
【００１８】
図１に、正規分布を対数化した尤度ｙ＝ｆ（ｘ）の分布を示す。横軸は特徴量、縦軸は尤度（認識スコア）である。式（１）に示す最大尤度ｙ_ｍａｘは、尤度分布の頂点に当たる。
【００１９】
【数１】

【００２０】
この尤度分布を、例えば音素「ア」の特徴量ｘを与えると高い認識スコアを出す尤度分布であると仮定する。音素「ア」の音声品質が良好な場合は、その特徴量ｘはＧＭＭの分布の頂点付近に集中し高い認識スコアが得られる。一方、同じ音素「ア」でも、音声品質が悪いと尤度分布の裾の方に特徴量ｘが分布するので認識スコアは低くなる。
【００２１】
スコアビーム幅が固定の場合、音声品質が悪いと認識スコアの差が出難くなるので、認識過程における仮説（以下、音声認識結果候補とも称する）数(枝の数)の削減（「枝刈り」とも称する）が行われ難くなるので、多くの仮設数が残り続けるため時間が掛かることになる。スコアビーム幅とは、探索ビーム幅に概念上含まれる文言であり、スコアに対応させた探索ビーム幅のことである。以降、「スコアビーム幅」の文言を用いて説明する。
【００２２】
このスコアビーム幅Ｂ_Ｓで枝刈りした後に生き残る仮説の割合は、ｙ（ｈ）＞ｙ_ｔｈとなる範囲であり、スコアビーム幅が大きいと、対応する特徴量の範囲が広くなり小さな尤度の仮説が枝刈りされず残る事となる。ここで、スコアビーム幅Ｂ_ｓで枝刈りをする場合の尤度の閾値ｙ_ｔｈは、式（２）で表せる。
【００２３】
【数２】

【００２４】
ｙ（ｈ）＞ｙ_ｔｈとなる範囲は、スコアビーム幅内に収まる尤度の総和、つまり面積Ｓで表せる。正規分布の拡がりは、分散（標準偏差）に依存するが、この面積Ｓの値が同一になるようにすれば異なる分散を持つ尤度分布であっても枝刈り後に生き残る仮説の割合が同一になり、処理速度も一定に保つ事が可能であると思われる。
【００２５】
面積Ｓを求める場合、図２に示すように図１の縦軸と横軸を入れ替えて、横軸を尤度ｙ、縦軸を特徴量ｘとおいた逆関数（式３）を用いると簡単に積分により求めることが出来る（式（４））。ここでｙ＾はスコア差である（図１参照）。
【００２６】
【数３】

【００２７】
尤度分布は正規分布を対数化したものが通常用いられる（式（５））。簡単化のため、各音素は状態数１、分布数１として考える。
【００２８】
【数４】

【００２９】
ここで、式（５）の第１項は尤度曲線の頂点ｙ_ｍａｘに当たり、第２項が最大尤度ｙ_ｍａｘとの差ｙ＾に当たる（式（６））。
【００３０】
【数５】

【００３１】
ここで簡単のために式（７）とおくと、ｙ＾＝αｘ^２となる。
【００３２】
【数６】

【００３３】
ｙ＾＝αｘ^２から、ｘは式（８）となることから逆関数ｇ（ｙ＾）（式（９））が求められる。
【００３４】
【数７】

【００３５】
逆関数ｇ（ｙ＾）の積分関数Ｇ（ｙ＾）を考えると式（１０）となる。
【００３６】
【数８】

【００３７】
式（１０）を式（３）に代入すると面積Ｓは式（１１）で表せる。
【００３８】
【数９】

【００３９】
式（１１）から面積Ｓは、分布の拡がり方に関わる係数αとスコアビーム幅Ｂ_Ｓに基づいて決まることが分かる。面積Ｓは逆関数を用いて求めたが、逆関数を用いないで面積Ｓを計算しても良い。例えば以下のように式変形して求めても良い。
【００４０】
【数１０】

【００４１】
ｙ＾＝αｘ^２と、スコア差ｙ＾が２次関数で表現できることを説明したが、このスコア差は下に凸の２次関数となる。その根拠を式で説明する。最尤スコアＬ^ｂｅｓｔを式（１３）と最低スコアＬ^{ｗｏｒｓｔ}を式（１４）で表して、そのスコア差ΔＬを計算すると下記のようになる。
【００４２】
【数１１】

【００４３】
式（１５）に示すようにスコア差ΔＬは２次関数で表現できる。図３に、スコア差ΔＬ（ｘ）を示す。点線で示す分布Ａはある音素のＧＭＭから得られる尤度分布である。一点鎖線で示す分布Ｂが他の音素のＧＭＭから得られる尤度分布である。例えば、入力される特徴量に対して、最尤スコアを出力する分布Ａを考える。分布Ａに対応する音素が良好な音声品質で得られたと仮定すると、その特徴量ｘ^{ｃｌｅａｎ}に対応するスコア差ΔＬ（ｘ）は、特徴量ｘ^{ｃｌｅａｎ}を通る破線と分布Ａと分布Ｂとの交点部分の尤度差で与えられる。音質が悪い特徴量ｘ^{ｎｏｉｓｙ}で音素が得られた場合、その特徴量ｘ^{ｎｏｉｓｙ}に対応するスコア差ΔＬ（ｘ）は、特徴量ｘ^{ｃｌｅａｎ}を通る破線と分布Ａと分布Ｂとの交点部分の尤度差で与えられる。そのようにして求められるスコア差ΔＬ（ｘ）を、図３に実線で示す。
【００４４】
図４に、特徴量ｘ^{ｃｌｅａｎ}と特徴量ｘ^{ｎｏｉｓｙ}付近のスコア差ΔＬ（ｘ）を拡大して示す。式（１５）を微分した傾きΔＬ′を式（１６）に示す。
【００４５】
【数１２】

【００４６】
特徴量ｘ^{ｃｌｅａｎ}付近の特徴量ｘに対するスコア差の傾きは大きく、特徴量ｘ^{ｎｏｉｓｙ}付近のスコア差の傾きは小さい。この特性からも、音声品質が悪いと枝刈りがし難くなることが分かる。
【００４７】
以上の考察の下、高品質（clean）な音声に対する尤度分布と低品質（noisy）な音声に対する尤度分布の形状は、図５に示すようになると考えられる。つまり、音声の品質によって尤度分布の分散に違いが出る。尤度分布の形状を２次曲線に例えて言えば、高品質な音声に対する尤度分布はその曲線の２次係数の値が大きく、低品質な音声に対する尤度分布の２次係数は相対的に小さい。
【００４８】
このことに着目して、基準となるスコアビーム幅Ｂ_{Ｓｂａｓｅ}に対応する分布の拡がり方に関わる係数α_ｂａｓｅを予め決めておくことで、面積Ｓを等しくするスコアビーム幅α_{ｔａｅｒｇｅｔ}を求めることが出来る（式（１７））。
【００４９】
【数１３】

【００５０】
ここで係数（式（１９））を求める必要がある。
【００５１】
【数１４】

【００５２】
スコア差ΔＬ（ｘ）＝ｙ＾は、ｙ＾＝αｘ^２で表せるようにαに比例する。したがって、尤度差の比率を見れば係数を求めることが可能である。そこで認識処理時間を高速化する目的でモノフォンに属する全状態の尤度を計測し、その最大値Ｌ^ｍａｘ_ｍｏｎｏと最小値Ｌ^ｍｉｎ_ｍｏｎｏの差分ΔＬ^ｍｏｎｏを元に係数（式（１９））を計算する。すなわち差分ΔＬ^ｍｏｎｏがαに比例するものと考える（式（２０））。
【００５３】
【数１５】

【００５４】
従って、スコアビーム幅はモノフォンの全状態の尤度の差分を元に次式で決定することが可能である。
【００５５】
【数１６】

【００５６】
ここでＢ_{Ｓｂａｓｅ}は基準となるスコアビーム幅、Ｂ_{Ｓｔａｒｇｅｔ}は求めたいスコアビーム幅である。基準となるスコアビーム幅Ｂ_{Ｓｂａｓｅ}は、例えば予め開発用音声データベースを用いて調整を行ったものであり、従来のスコアビーム幅を固定して認識処理する場合のスコアビーム幅を用いる。
【００５７】
以上説明したように、モノフォン音響モデルから求めた音声ディジタル信号の尤度差からその音声品質を評価することが可能である。そして、その音声品質の評価結果を用いてスコアビーム幅を可変することで、例えば面積Ｓを一定にした音声認識処理を実現するのがこの発明の考えである。
【実施例１】
【００５８】
図６に、この発明の音声認識装置１００の機能構成例を示す。その動作フローを図７に示す。音声認識装置１００は、特徴量分析部９１と、スコアレンジ計算部１０と、認識処理制御部２０と、音声認識処理部３０と、音響モデルパラメータメモリ９３と、言語モデルパラメータメモリ９４と、制御部４０と、を具備する。特徴量分析部９１と音響モデルパラメータメモリ９３と言語モデルパラメータメモリ９４は、従来の音声認識装置９００と同じものである。アナログ信号の音声信号が入力される場合にＡ/Ｄ変換部９０が設けられる点も、音声認識装置９００と同じである。音声認識装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。
【００５９】
音声認識装置１００は、従来の音声認識装置９００と比較してスコアレンジ計算部１０と、認識処理制御部２０を具備する点で新しい。以降の説明では、その異なる部分を中心に説明を行う。
【００６０】
特徴量分析部９１は、入力される音声ディジタル信号の音声特徴量をフレーム単位（例えば１フレーム：２０ms）で分析して音声特徴量系列を出力する（ステップＳ９１）。スコアレンジ計算部１０は、音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分をフレーム毎の音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジＲを出力する（ステップＳ１０）。
【００６１】
認識処理制御部２０は、外部から入力されるスコアレンジ基準Ｒ_０と音響スコアレンジＲを入力として、音響スコアレンジＲをスコアレンジ基準Ｒ_０で除した値に基づくスコアビーム変動係数ｋを計算して出力する（ステップＳ２０）。音声認識処理部３０は、音声特徴量系列とスコアビーム変動係数ｋを入力として、スコアビーム変動係数ｋの値に応じてスコアビーム幅を可変して音声認識処理を行う（ステップＳ３０）。
【００６２】
特徴量分析部９１から音声認識処理部３０の処理は、音声ディジタル信号の全てのフレームについての処理が終了するまで繰り返される（ステップＳ４０）。この音声認識装置１００の各部の動作及び繰り返し動作の制御は、制御部４０が行う。なお、制御部４０は、フレーム毎に処理するばかりでなく、音声ファイル単位や、発話単位毎に、上記した動作が繰り返されるように各部を制御しても良い。
【００６３】
音声認識装置１００によれば、認識処理制御部２０がフレーム毎に出力するスコアビーム変動係数ｋに応じてスコアビーム幅を適応的に可変して音声認識処理を行う。つまり、音声ディジタル信号の音声品質に対応させてスコアビーム幅を可変した認識処理を行うことが可能である。次に、各部の具体的な構成例を示して更に詳しく音声認識装置１００の動作を説明する。
【００６４】
〔スコアレンジ計算部〕
図８に、スコアレンジ計算部１０の機能構成例を示す。スコアレンジ計算部１０は、音響スコアレンジ計算手段１０１と、音響スコアレンジ平均化手段１０２を備える。音響スコアレンジ計算手段１０１は、音声特徴量系列の各フレームの特徴量ｏ_ｔに対するモノフォンＨＭＭ中のＧＭＭから得られる出力確率（尤度）を計算し、モノフォンＨＭＭのうち出力確率ｂ_Ｓ（ｏ_ｔ）から得られたスコアｌｏｇ（ｂｓ（ｏ_ｔ））が最も高い（最尤）状態のスコアをモノフォン最尤スコアｌｏｇ（ｂ_{Ｓｂｅｓｔ}（ｏ_ｔ））とし、最も低い状態のスコアをモノフォン最低スコアｌｏｇ（ｂ_{Ｓｗｏｒｓｔ}（ｏ_ｔ））として、例えばフレーム毎の音響スコアレンジｒ（ｏ_ｔ）を計算する（式（２２））。
【００６５】
【数１７】

【００６６】
このとき、モノフォン最尤スコアおよびモノフォン最低スコアは当該フレーム内で選ぶこととするが、過去のフレームを含めた最尤・最低スコアを活用しても良い。
【００６７】
そして、音響スコアレンジ平均化手段１０２が、その差分ｒ（ｏ_ｔ）を時間方向に平均化して音響スコアレンジＲを計算する（式（２３））。
【００６８】
【数１８】

【００６９】
この音響スコアレンジＲは、上記したこの発明の考え方で述べたスコア差ΔＬに相当する値であり、上記したα_{ｔａｒｇｅｔ}に当たる。
【００７０】
〔認識処理制御部〕
認識処理制御部２０は、外部から入力されるスコアレンジ基準Ｒ_０と、スコアレンジ計算部１０が出力する音響スコアレンジＲを入力として、音声認識処理部３０が認識処理をする際のスコアビーム幅を可変するスコアビーム変動係数ｋを計算して出力する（式（２４））。
【００７１】
【数１９】

【００７２】
外部から入力されるスコアレンジ基準Ｒ_０は、開発用音声データベースの音響スコアレンジＲの平均値であり予め求めておく。開発用音声データベースとしては、音声認識対象の音声データと同じ種類の音声データを用いるのが望ましい。なお、経験的に良く用いる値をデフォルト値として用いても良い。
【００７３】
スコアレンジ基準Ｒ_０は、認識処理速度を制御するパラメータとなる。スコアレンジ基準基準Ｒ_０の値を大きくするとスコアビーム変動係数ｋは小さくなる。スコアレンジ基準Ｒ_０の値を大きくするとスコアビーム変動係数ｋは大きくなる。後述する音声認識処理部３０は、このスコアビーム変動係数ｋの値に応じてスコアビーム幅を、スコアビーム変動係数ｋが小で狭く、スコアビーム変動係数ｋが大で広くして音声認識処理を実行する。
【００７４】
〔音声認識処理部〕
音声認識処理部３０は、音声特徴量系列ｏ_ｔとスコアビーム変動係数ｋと、音響モデルパラメータメモリ９３に記憶された音響モデルと、言語モデルパラメータメモリ９４に記憶された言語モデルと、を入力として、上記スコアビーム変動係数ｋの値に応じてスコアビーム幅を可変して音声認識処理を行う。音声認識処理部３０は、スコアビーム変動係数ｋの値に応じてスコアビーム幅を可変して認識処理を行う点が従来の音声認識処理部と異なる。
【００７５】
スコアビーム変動係数ｋに応じてスコアビーム幅を可変する際、過度なスコアビーム幅の変更は認識精度の大幅な劣化を招く場合がある。
【００７６】
そこで、スコアビーム変動係数ｋに制限を設けると良い。例えば、スコアビーム幅を狭くする方向のスコアビーム変動係数ｋの下限値を０．７５とする。一方、スコアビーム幅を広くする方向のスコアビーム変動係数ｋの上限を１．０とすると、認識処理の処理時間の増加を抑制することが可能である。
【００７７】
スコアビーム幅は、基準とするスコアビーム幅Ｂ_{Ｓｂａｓｅ}を例えば１０^６とした場合には、スコアビーム変動係数ｋ＝１の時は例えば１０^６、ｋ＝０．７５の時は例えば０．７５×１０^６とする。なお、スコアビーム変動係数ｋの値を１以上にすることで認識精度を向上させることも可能である。基準とするスコアビーム幅Ｂ_{Ｓｂａｓｅ}は、上記したように予め開発用音声データベースを用いて調整されたものであり、音声認識処理部３０に予め設定しておいても良いし、外部から与えるようにしても良い。
【００７８】
上記した例では、スコアレンジ基準Ｒ_０を、開発用音声データベースの音響スコアレンジＲの平均値としたが、平均値の代わりに最大値を用いることで認識処理の処理時間を短縮することが出来る。なお、単純に最大値を用いると認識処理の動作が不安定になる場合も考えられる。そこで、音響スコアレンジＲの平均値をμ、標準偏差をσとした時にμ＋２σをスコアレンジ基準Ｒ_０としても良い。このように統計的に処理したスコアレンジ基準Ｒ_０を用いることで認識処理の動作を安定化させることが出来る。
【００７９】
また、スコアレンジ基準Ｒ_０を、音声区間に絞って決めることで、非音声区間の影響を排除することが可能である。つまり、非音声区間は他の音素の特徴量と大きく異なるので、枝刈りのされ方が変わってくる。スコアレンジ基準Ｒ_０を、音声区間に絞って求めることで非音声区間の影響を排除した安定したスコアビーム幅の制御が可能となる。
【実施例２】
【００８０】
図９に、この発明の音声認識装置２００の機能構成例を示す。音声認識装置２００は、上記した音声認識装置１００に対して、更に音声データバッファ部５０と実測認識処理部７０を備える点で異なる。また、音声認識処理部６０が、実測認識処理部７０の出力する実測スコアビーム変動係数ｋ′の値に応じた処理を行う点で異なる。
【００８１】
音声データバッファ部５０は、音声認識対象の音声ディジタル信号を保持した後に当該音声ディジタル信号を経過時間順に出力すると共に、上記音声ディジタル信号の全体のデータ量情報Ｄ_{ｔｏｔａｌ}を出力する。実測認識処理部７０は、スコアビーム幅情報Ｂ_Ｓprevと処理済音声データ量情報Ｄ_{ｍｅａｓｕｒｅ}と、上記音声ディジタル信号の全体のデータ量情報Ｄ_{ｔｏｔａｌ}とを入力として、処理済時間Ｔ_{ｍｅａｓｕｒｅ}を処理済音声データ量情報Ｄ_{ｍｅａｓｕｒｅ}で除した実測実時間比ＲＴＦ_measureと、目標処理時間Ｔ_{ｔｏｔａｌ}から処理済時間Ｔ_{ｍｅａｓｕｒｅ}を減算した時間を残りの音声データ量情報Ｄ_ｌｅｆｔで除した目標実時間比ＲＴＦ_targetとを計算し、実測実時間比ＲＴＦ_measureと目標実時間比ＲＴＦ_targetとの比に依存する実測スコアビーム変動係数ｋ′を計算して出力する。実測スコアビーム変動係数ｋ′は後述する式（２５）で計算する。音声ディジタル信号の全体のデータ量情報Ｄ_{ｔｏｔａｌ}は、予め実測認識処理部７０に記憶されていても良いし、外部から設定するようにしても良い。
【００８２】
音声認識処理部６０は、音声特徴量系列ｏ_ｔとスコアビーム変動係数ｋと実測スコアビーム変動係数ｋ′を入力として、スコアビーム変動係数ｋと実測スコアビーム変動係数ｋ′の値に応じたスコアビーム幅情報Ｂ_Ｓprevを求めそのスコアビーム幅で音声認識処理を行い処理済音声データ量情報Ｄ_{ｍｅａｓｕｒｅ}を計測し、音声認識結果とスコアビーム幅情報Ｂ_Ｓprevと処理済音声データ量情報Ｄ_{ｍｅａｓｕｒｅ}を出力する。スコアビーム幅情報Ｂ_Ｓprevと処理済音声データ量情報Ｄ_{ｍｅａｓｕｒｅ}は、実測認識処理部７０に出力される。
【００８３】
図１０に、音声認識装置２００の認識処理する音声データ量Ｄ_{ｔｏｔａｌ}と、目標処理時間Ｔ_{ｔｏｔａｌ}との関係を例示する。横軸は認識対象の音声認識対象の音声ディジタル信号のデータ量であり、縦軸はその音声ディジタル信号を音声認識処理した認識処理時間である。音声認識対象の音声ディジタル信号の音声品質が一定の水準に有れば、目標処理時間Ｔ_{ｔｏｔａｌ}を越えない範囲で認識処理時間は推移する。例えば、処理済時間Ｔ_{ｍｅａｓｕｒｅ}は、原点と座標（Ｄ_{ｔｏｔａｌ}，Ｔ_{ｔｏｔａｌ}）を直線で結んだ直線を大きく越えない範囲で推移する。しかし、音声ディジタル信号の音声品質が一定の水準に達していない場合（音声品質が悪い場合）、上記したように探索ビームの枝刈りの効きが悪く認識処理時間が増大してしまい、図１０中に破線で示すように認識処理時間が目標処理時間Ｔ_{ｔｏｔａｌ}をオーバーしてしまう。音声認識装置２００は、音声認識処理の途中の実測の認識処理時間を元にして、音声ディジタル信号の全体のデータ量情報Ｄ_{ｔｏｔａｌ}を目標処理時間Ｔ_{ｔｏｔａｌ}で認識処理が終了するように処理速度を制御するようにしたものである。
【００８４】
認識処理時間をβ倍することを考える。上記したこの発明の考え方で説明したように、認識処理時間は面積Ｓに比例するので、式（１７）をβ倍した式からスコアビーム変動係数ｋとβとの関係式を求める。
【００８５】
【数２０】

【００８６】
つまり、認識処理速度をβ倍にするには、スコアビーム幅はβ^2/3倍にすれば良い。
【００８７】
そこで、実測認識処理部７０は、所定の時間間隔で次式に示す計算によって実測スコアビーム変動係数ｋ′を求め、その値を音声認識処理部６０に出力する。
【００８８】
【数２１】

【００８９】
この時、βは目標とする目標実時間比ＲＴＦ_targetと処理済の実測実時間比ＲＴＦ_measureの比から求める。また、直前まで使われていたスコアビーム幅が処理速度を決めるので、基準となるスコアビーム幅Ｂ_{Ｓｂａｓｅ}とスコアビーム幅情報Ｂ_{Ｓｐｒｅｖ}も計算に用いる。スコアビーム幅情報Ｂ_{Ｓｐｒｅｖ}は、直前のスコアビーム幅を用いるか、または過去のスコアビーム幅を平均化したものを用いても良い。
【００９０】
図１１に示す音声認識処理部６０と実測認識処理部７０の動作フローを参照して、音声認識装置２００の動作を説明する。音声認識処理部６０は、認識処理制御部２０が出力するスコアビーム変動係数ｋに対応するスコアビーム幅Ｂ_{Ｓｐｒｅｖ}を設定する（ステップＳ６０）。例えば基準とするスコアビーム幅Ｂ_{Ｓｂａｓｅ}をｋ倍（ｋ＝1）してスコアビーム幅Ｂ_{Ｓｐｒｅｖ}をＢ_{Ｓｐｒｅｖ}＝１０^６に設定する。
【００９１】
音声認識処理部６０は、スコアビーム幅Ｂ_{Ｓｐｒｅｖ}＝１０^６で認識処理を実行する（ステップＳ６１）。そして、認識処理済データ量Ｄ_{ｍｅａｓｕｒｅ}を集計する。集計するとは、認識処理済フレームを１フレーム加算することを意味する。スコアビーム幅Ｂ_{Ｓｐｒｅｖ}と認識処理済データ量Ｄ_{ｍｅａｓｕｒｅ}は実測認識処理部７０に出力される。
【００９２】
実測認識処理部７０は、認識処理済データ量Ｄ_{ｍｅａｓｕｒｅ}若しくは他の計時手段から得た経過時間情報を元にスコアビーム幅Ｂ_{Ｓｐｒｅｖ}＝１０^６での認識処理が所定時間実行されたか否かを判定する。所定時間に満たない場合は、スコアビーム幅Ｂ_{Ｓｐｒｅｖ}＝１０^６での認識処理が繰り返される。
【００９３】
所定時間を経過した場合（ステップＳ７０のＹ）、実測認識処理部７０は実測スコアビーム変動係数ｋ′（式（２５））を計算して、音声認識処理部６０に出力する（ステップＳ７１）。ここで基準となるスコアビーム幅Ｂ_{Ｓｂａｓｅ}は、予め開発用音声データベースを用いて決められた値であり、事前に音声認識処理部３０に記憶させておいても良いし、外部から入力するようにしても良い。
【００９４】
音声認識処理部６０は、実測スコアビーム変動係数ｋ′に対応する新たなスコアビーム幅Ｂ_{Ｓｐｒｅｖ}を設定する（ステップＳ６３）。この時、例えばｋ′＝０．７５で有ったとすると新たなスコアビーム幅Ｂ_{Ｓｐｒｅｖ}は例えばＢ_{Ｓｐｒｅｖ}＝０．７５×１０^６に設定される。音声認識処理部６０は、新たに設定されたスコアビーム幅Ｂ_{Ｓｐｒｅｖ}＝０．７５×１０^６で認識処理を実行する（ステップＳ６４）。そして、認識処理済データ量Ｄ_{ｍｅａｓｕｒｅ}を集計する（ステップＳ６５）。
【００９５】
実測認識処理部７０は、新たなスコアビーム幅Ｂ_{Ｓｐｒｅｖ}＝０．７５×１０^６での認識処理が所定時間実行されたか否かを判定する（ステップＳ７２）。所定時間に満たない場合は、スコアビーム幅Ｂ_{Ｓｐｒｅｖ}＝０．７５×１０^６での認識処理が継続される（ステップＳ７２のＮ）。所定時間を経過した場合は、実測認識処理部７０が実測スコアビーム変動係数ｋ′を計算する処理から繰り返される（ステップＳ７２のＹ）。
【００９６】
つまり、所定時間間隔を経過する度に、新たに実測スコアビーム変動係数ｋ′が計算され、ｋ′に対応するスコアビーム幅Ｂ_{Ｓｐｒｅｖ}が更新される。このように、認識処理中のスコアビーム幅を適応的に制御することで、音声品質の異なる複数の音声信号を音声認識する処理を目標時間内に処理することが可能になる。
【００９７】
なお、図１０に示した音声データ量Ｄ_{ｔｏｔａｌ}と目標処理時間Ｔ_{ｔｏｔａｌ}との関係は、認識処理に必要なオーバーヘッド時間を含まない形で例示した。オーバーヘッド時間とは、認識処理に必要な音響・言語モデルのロード、アンロード等の時間であり、このオーバーヘッド時間を含めた時間を一般的に認識処理時間とする。したがって、オーバーヘッド時間を目標処理時間Ｔ_{ｔｏｔａｌ}に含めても良い。予めオーバーヘッド時間を計測しておき、それを処理済時間Ｔ_{ｍｅａｓｕｒｅ}に含めて計算することで、オーバーヘッド時間を含めた認識処理時間の制御を容易に実現することが出来る。
【００９８】
なお、認識処理済データ量Ｄ_{ｍｅａｓｕｒｅ}は、フレーム単位で全ての音声データを集計する例で説明を行ったが、音声・非音声判定結果を元にした音声区間に絞ってそのデータ量を集計しても良い。つまり、非音声区間のフレームは最初から処理対象外として扱っても良い。また、所定時間の間スコアビーム幅Ｂ_{Ｓｐｒｅｖ}での処理が継続される例で説明を行ったが、発話ごとにスコアビーム幅Ｂ_{Ｓｐｒｅｖ}を変えるようにしても良い。
【００９９】
〔評価実験結果〕
この発明の音声認識装置の性能を確認する目的で、２４０個の音声ファイルを用いた音声認識実験を行った。図１２に文字認識率とＳＮ比との関係、図１３に実時間比とＳＮ比との関係を示す。横軸はＳＮ比であり、縦軸は各ＳＮ比の音声ファイル２４０個を処理したそれぞれの値である。
【０１００】
文字認識率について、本発明の音声認識装置は、ベースライン（従来の音声認識装置）と同じ性能を示す（図１２）。実時間比について、ＳＮ比が４０〜２０[dB]に低下するのにしたがってベースラインが増加するのに対して、本発明では実時間比が増加しない。ＳＮ比が２０[dB]以下でベースラインと本発明の両者の実時間が低下しているのは、ＳＮ比が悪化し過ぎて無音に近づき音声と判定された区間が短くなってしまうためと考えられる。
【０１０１】
このように、音声品質の劣化に対応させてスコアビーム幅を可変することで、認識率を悪化させずに認識処理の増加を抑制できることが分かる。
【０１０２】
以上述べたように、簡単な処理で高速に音声ディジタル信号の音声品質を推定し、事前推定した音声品質に対応させてスコアビーム幅を設定して認識処理を行う全く新しい考えに基づく本発明の音声認識方法によれば、音声品質の悪い音声ディジタル信号の認識処理を行う際のスコアビーム幅を、音声品質の良い音声ファイルに対するスコアビーム幅よりも小さく可変することで、音声認識処理時間の増加を抑制することが出来る。つまり、音声品質の悪い音声ディジタル信号を適当な精度で音声認識処理することが可能である。
【０１０３】
また、音声認識装置２００で説明したようにスコアビーム変動係数ｋ及び実測スコアビーム変動係数ｋ′の値から音声認識処理に必要な処理時間を見積もることが出来る。したがって、その値から認識処理に必要な計算機リソースを適切に見積もることも出来る。また、音声品質が未知の大量の音声データに対する音声認識処理を、既存の計算機リソースを用いてある程度の精度で実行することが出来る効果も奏する。
【０１０４】
なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【０１０５】
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【０１０６】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。
【０１０７】
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【０１０８】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項１】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジＲを出力するスコアレンジ計算過程と、
外部から入力されるスコアレンジ基準Ｒ_０と上記音響スコアレンジＲを入力として、上記音響スコアレンジＲを上記スコアレンジ基準Ｒ_０で除した値に基づくスコアビーム変動係数ｋを計算して出力する認識処理制御過程と、
上記音声特徴量系列と上記スコアビーム変動係数ｋを入力として、上記スコアビーム変動係数ｋの値に応じて探索ビーム幅を可変して音声認識処理を行う音声認識処理過程と、
を備える音声認識方法。
【請求項２】
音声認識対象の音声ディジタル信号を保持した後に当該音声ディジタル信号を経過時間順に出力すると共に、上記音声ディジタル信号の全体のデータ量情報を出力する音声データバッファ過程と、
上記音声バッファ部が出力する音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジＲを出力するスコアレンジ計算過程と、
外部から入力されるスコアレンジ基準Ｒ_０と上記音響スコアレンジＲを入力として、上記音響スコアレンジＲを上記スコアレンジ基準Ｒ_０で除した値に基づくスコアビーム変動係数ｋを計算して出力する認識処理制御過程と、
スコアビーム幅情報Ｂ_Ｓprevと処理済音声データ量情報Ｄ_{ｍｅａｓｕｒｅ}と、上記音声ディジタル信号の全体のデータ量情報とを入力として、処理済時間を上記処理済音声データ量情報で除した実測実時間比ＲＴＦ_measureと、目標処理時間から処理済時間を減算した時間を残りの音声データ量情報で除した目標実時間比ＲＴＦ_targetとを計算し、上記実測実時間比ＲＴＦ_measureと上記目標実時間比ＲＴＦ_targetとの比に依存する実測スコアビーム変動係数ｋ′を計算して出力する実測認識処理制御過程と、
上記音声特徴量系列と上記スコアビーム変動係数ｋと上記実測スコアビーム変動係数ｋ′を入力として、上記スコアビーム変動係数ｋと上記実測スコアビーム変動係数ｋ′の値に応じた上記スコアビーム幅情報Ｂ_Ｓprevを求めそのスコアビーム幅で音声認識処理を行い上記処理済音声データ量情報Ｄ_{ｍｅａｓｕｒｅ}を集計し、音声認識結果と上記スコアビーム幅情報Ｂ_Ｓprevと上記処理済音声データ量情報を出力する音声認識処理過程と、
を備える音声認識方法。
【請求項３】
請求項１又は２に記載した音声認識方法において、
上記認識処理制御過程は、上記スコアビーム変動係数ｋを次式で、
【数２２】

求める過程であることを特徴とする音声認識方法。
【請求項４】
請求項２に記載した音声認識方法において、
実測認識処理制御過程は、上記実測スコアビーム変動係数ｋ′をスコアビーム幅の基準をＢ_Ｓbaseとして次式で、
【数２３】

求める過程であることを特徴とする音声認識方法。
【請求項５】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジＲを出力するスコアレンジ計算部と、
外部から入力されるスコアレンジ基準Ｒ_０と上記音響スコアレンジＲを入力として、上記音響スコアレンジＲを上記スコアレンジ基準Ｒ_０で除した値に基づくスコアビーム変動係数ｋを計算して出力する認識処理制御部と、
上記音声特徴量系列と上記スコアビーム変動係数ｋを入力として、上記スコアビーム変動係数ｋの値に応じて探索ビーム幅を可変して音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。
【請求項６】
音声認識対象の音声ディジタル信号を保持した後に当該音声ディジタル信号を経過時間順に出力すると共に、上記音声ディジタル信号の全体のデータ量情報を出力する音声データバッファ部と、
上記音声バッファ部が出力する音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジＲを出力するスコアレンジ計算部と、
外部から入力されるスコアレンジ基準Ｒ_０と上記音響スコアレンジＲを入力として、上記音響スコアレンジＲを上記スコアレンジ基準Ｒ_０で除した値に基づくスコアビーム変動係数ｋを計算して出力する認識処理制御部と、
スコアビーム幅情報Ｂ_Ｓprevと処理済音声データ量情報と、上記音声ディジタル信号の全体のデータ量情報とを入力として、処理済時間を上記処理済音声データ量情報で除した実測実時間比ＲＴＦ_measureと、目標処理時間から処理済時間を減算した時間を残りの音声データ量情報で除した目標実時間比ＲＴＦ_targetとを計算し、上記実測実時間比ＲＴＦ_measureと上記目標実時間比ＲＴＦ_targetとの比に依存する実測スコアビーム変動係数ｋ′を計算して出力する実測認識処理制御部と、
上記音声特徴量系列と上記スコアビーム変動係数ｋと上記実測スコアビーム変動係数ｋ′を入力として、上記スコアビーム変動係数ｋと上記実測スコアビーム変動係数ｋ′の値に応じた上記スコアビーム幅情報Ｂ_Ｓprevを求めそのスコアビーム幅で音声認識処理を行い上記処理済音声データ量情報Ｄ_{ｍｅａｓｕｒｅ}を集計し、音声認識結果と上記スコアビーム幅情報Ｂ_Ｓprevと上記処理済音声データ量情報を出力する音声認識処理部と、
を具備する音声認識装置。
【請求項７】
請求項５又は６に記載した音声認識装置において、
上記認識処理制御部は、上記スコアビーム変動係数ｋを次式で、
【数２４】