説明

音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体

【課題】突発性雑音の影響を受け難い音声認識装置と音響モデル作成装置を提供する。
【解決手段】GMM尤度計算部が、GMMと音声特徴量を照合してフレーム毎にGMM尤度を計算し、GMM尤度判定部が、GMM尤度が所定の範囲内であるか否かを判定してその判定結果とGMM尤度とを出力する。音声認識処理部は、所定の範囲内のフレームについては音声特徴量に対応する音響尤度に基づいて音声認識処理を行い、所定の範囲外のフレームについてはGMM尤度を音響尤度に代用して音声認識処理を行う。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、未知の非定常雑音が入力されても認識誤りの発生が少ない音声認識装置と、未知の非定常雑音が入力されても精度の高い音響モデルを作成する音響モデル作成装置とそれらの方法と、プログラムと記録媒体に関する。
【背景技術】
【0002】
近年、統計的手法に基づく音声認識技術の進歩により、静かな環境における音声認識は高い精度で行うことが可能になった。しかし、実際の環境では、雑音の存在、特に未知の非定常な雑音によって認識性能が劣化することが問題になっている。
【0003】
図9に従来の音声認識装置900の機能構成を示す。音声認識装置900は、A/D変換部10、特徴量分析部20、音声認識処理部30、音響モデルパラメータメモリ40、言語モデルパラメータメモリ50を備える。
【0004】
A/D変換部10は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量分析部20は、離散値化された音声ディジタル信号を入力として、例えば320個の音声ディジタル信号を1フレーム(20ms)としたフレーム毎に、音声特徴量Oを算出する。音声特徴量Oは、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。
【0005】
音声認識処理部30は、音声特徴量Oを入力として音響モデルパラメータメモリ40に記録された音響モデルと、言語モデルパラメータメモリ50に記録された言語モデルとを参照して、音響モデルの尤度と言語モデルの尤度の和が最も高い音声認識結果候補を音声認識結果として出力する。
【0006】
従来の音声認識装置900においては、未知な非定常雑音である突発性雑音に対処する目的で、音響モデルの尤度を補正する方法が取られていた。音響モデルは、HMM(Hidden Markov Model:隠れマルコフモデル)で表現され、その出現確率分布には正規分布が広く用いられる。その出現確率の対数である尤度は、2次関数となり分布平均からのずれの2乗に従い低下する特性を示す。この音響モデルの出現確率と尤度との特性の差が、突発性雑音による認識誤りの一因と考えられる。その差を補正する考えが、例えば非特許文献1に開示されている。
【0007】
図10に非特許文献1の尤度補正の考えを示す。図10の左上側は、音素|a|と音素|o|の出現確率分布を示す。同左下側はそれぞれの音素の尤度の特性を示す。図10の横軸は音声特徴量である。音声特徴量yが観測されたとき、出現確率は、音素|a|よりも音素|o|の確率が高い。左下側に示す尤度も同じ傾向を示す。
【0008】
しかし、音声特徴量yが重畳雑音等の影響でyに変化したとき、出現確率はどちらも小さくなるが、左下側に示す尤度では音素|a|と音素|o|で大小関係が逆転するだけでなく、2次曲線によってその間に大きな差が生じてしまう。このように、出現確率の差は小さいのにもかかわらず尤度に大きな差が発生することが、認識誤りの一因になると考えられる。
【0009】
そこで、非特許文献1では、突発性雑音に対する頑健性の向上のため、観測されたデータの分布N(y)に正の微小な補正定数εを加え、その値の尤度(式(1))を用いることで、線形の出現確率の小さな差が尤度の大きな差になる問題を回避している。
【0010】
【数1】

【0011】
ここでN(y)は観測されたデータの音声特徴量の分布である。つまり、図10の音素|a|や音素|o|の分布である。εは補正定数である。
この補正定数εを加える処理は、音声認識処理部30で行われる。この処理によって、図10の右下側に示すように尤度の差を縮小することが可能である。よって、突発性雑音が発生したときの尤度の変化量を少なくすることができるので、認識誤りの発生を抑制する効果が期待できる。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】山本仁、篠田浩一、嵯峨山茂樹「正規分布の尤度補正による突発性雑音に頑健な音声認識」、音響学会秋季講演論文集、1-9-10,pp.19-20,2002
【発明の概要】
【発明が解決しようとする課題】
【0013】
従来の補正定数εを導入する考えは、その定数の設定によっては認識精度が劣化してしまう危険性がある。最適な定数は、認識対象のデータによって異なるため一律に決められない。定数を一律に固定してしまうと、音素モデルによって、補正の影響に強弱が発生してしまい本来正しい尤度が得られる場合も、それを阻害してしまう心配がある。
【0014】
この発明は、このような点に鑑みてなされたものであり、尤度が一定の範囲を超えた場合にそのデータを対象外にすることで、認識誤りの発生を少なくした音声認識装置とその方法と、それと同じ考えに基づく音響モデル作成装置とその方法と、プログラムと記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0015】
この発明の音声認識装置は、特徴量分析部と、GMM尤度計算部と、GMM尤度判定部と、音声認識処理部とを具備する。特徴量分析部は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する。GMM尤度計算部は、GMM(Gaussian Mixture Model:混合正規分布モデル)と上記音声特徴量を照合してフレーム毎にGMM尤度を計算する。GMM尤度判定部は、GMM尤度が所定の範囲内であるか否かを判定し、その判定結果とGMM尤度とを出力する。音声認識処理部は、音声特徴量とGMM尤度と判定結果を入力として、上記所定の範囲内のフレームについては音声特徴量に対応する音響尤度に基づいて音声認識処理を行い、上記所定の範囲外のフレームについてはGMM尤度を利用した音響尤度を用いて音声認識処理を行う。
【0016】
また、この発明の音響モデル作成装置は、学習処理部と、上記したと同じGMM尤度計算部とGMM尤度判定部とを具備し、学習処理部は、判定結果が範囲外と判定されたフレームを音響モデルの統計量計算の対象外として学習後音響モデルを生成する。
【発明の効果】
【0017】
この発明の音声認識装置と音響モデル作成装置は、殆どの音素を包含し、分散が広くなる混合ガウス分布モデルであるGMMから求めた尤度を用いる。よって、従来問題になっていた分布の端において発生する尤度の逆転現象や、尤度の差が増大してしまう問題を低減できる。
つまり、GMM尤度判定部で範囲外と判定されたフレームの音響尤度が、GMM尤度計算部でGMMに基づいて計算されたGMM尤度に代用されるので、突発性雑音が入力されたときの音響尤度を安定化させることが出来る。その結果、音声認識処理及び音響モデルの学習処理の精度を向上させる効果を奏する。
【図面の簡単な説明】
【0018】
【図1】音素モデルを構成する1状態を模式的に示す図。
【図2】音素モデルの一例を示す図。
【図3】この発明の音声認識装置100の機能構成例を示す図。
【図4】音声認識装置100の動作フローを示す図。
【図5】GMMを用いた音声特徴量とGMM尤度との関係を示す図。
【図6】音声認識装置100′の動作フローを示す図。
【図7】この発明の音響モデル作成装置200の機能構成例を示す図。
【図8】音響モデル作成装置200の動作フローを示す図。
【図9】従来の音声認識装置900の機能構成を示す図。
【図10】非特許文献1に開示された尤度補正の考えを示す図。
【発明を実施するための形態】
【0019】
この発明の実施例の説明をする前に、この発明の考えについて説明する。
〔この発明の考え〕
この発明の考えを説明するに当たって先ず音響モデルについて説明する。音響モデルを構成する音素モデルは、約3個程度の状態の確率連鎖によって構築される。各状態は、混合正規分布として表現される。図1に、例えば混合数を3の場合での3つの正規分布、N(μ,U),N(μ,U),N(μ,U)、重み係数c,c,cで構成される状態sを示す。μは平均ベクトル、Uは共分散行列である。
【0020】
図2に3状態で構成される音素モデルの概念図を一例として示す。この例は、left−to−right型HMMと呼ばれるもので、3つの状態s(第1状態)、s(第2状態)、s(第3状態)を並べたものであり、状態の確率連鎖(状態遷移確率)としては、自己遷移a11、a22、a33と、次状態へのa12、a23、a34からなる。この状態遷移系列の中で最も尤度の高い音素モデルの組み合わせが、音声認識結果として出力される。この音素モデルの集合が音響モデルである。
状態sから得られる出現確率P(s,O)は式(2)で求められる。
【0021】
【数2】

【0022】
ここでOはフレームtの音声特徴量、N(O;μms,Ums)は平均ベクトルμms、共分散行列Umsからなる正規分布から計算される確率、cmsは混合重み係数、Mは状態sに属する分布数である。各状態におけるこの出現確率P(s,O)と前述の状態遷移確率の対数値の総和が音響尤度である。
背景技術で説明した補正定数εを音声特徴量の分布に加える考え方では、突発性雑音が入力されると、上記した説明から明らかなように、音響尤度が大きく変動する可能性が有り、それが認識誤りの原因になっていた。
【0023】
その従来の方法に対してこの発明の音声認識方法は、音声認識処理の前にGMMと音声特徴量を照合してGMM尤度を計算する。そして、そのGMM尤度が所定の範囲内であるか否かを判定する。GMM尤度が所定の範囲内であれば、音声認識処理過程で音声特徴量に基づいた音響尤度を求め、その音響尤度を用いて音声認識処理を行う。
逆にGMM尤度が所定の範囲外の場合、例えば、突発性雑音が入力されたGMMから求めたGMM尤度を、音響尤度に代用して音声認識処理するので、音響尤度が大きく変化することがない。
【0024】
したがって従来の方法のように、そもそも音声特徴量に対する小さな出現確率の差が逆転したり、その小さな出現確率の差が大きな尤度差に変化してしまうことが無い。このようにこの発明の考えによれば、音響尤度の値を安定化することが可能である。その結果、音声認識の誤認識を減らすことが出来る。また、この考えは音響モデル作成装置にも適用することが可能である。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0025】
図3にこの発明の音声認識装置100の機能構成例を示す。その動作フローを図4に示す。音声認識装置100は、A/D変換部10と、特徴量分析部20と、音響モデルパラメータメモリ40と、GMM尤度計算部60と、GMM尤度判定部70と、音声認識処理部80と、言語モデルパラメータメモリ50と、制御部90とを具備する。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0026】
音声認識装置100は、従来の音声認識装置900と比較してGMM尤度計算部60と、GMM尤度判定部70とを具備する点で新しい。また、音声認識処理部80の動作が従来の音声認識処理部30と異なる。他の機能構成は音声認識装置900と同じものである。以降の説明では、その異なる部分を中心に説明を行う。
【0027】
A/D変換部10は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する(ステップS10、図4)。特徴量分析部20は、離散値化された音声ディジタル信号を入力として、所定の数の音声ディジタル信号を1フレーム(例えば20ms)としたフレーム毎に、音声特徴量Oを算出する(ステップS20)。
GMM尤度計算部60は、GMMと音声特徴量Oを照合してフレーム毎にGMM尤度を計算する(ステップS60)。GMMは、音響モデルの学習データ中の全ての音素から学習した(場合によっては無音を除く)混合正規分布モデル(GMM)である。GMMは、この例では音響モデルパラメータメモリ40内に記録されている。
【0028】
図5にGMMと音声特徴量Oを照合してGMM尤度を求める方法を模式的に示す。図5は、GMM尤度の分布を正規分布に近い形と仮定した場合である。横軸は音声特徴量Oであり、縦軸はGMM尤度である。
GMM尤度の計算は、上記した式(2)で求めた出現確率の対数値として求められる。この場合、GMMは、式(2)のように混合重み係数cms、平均ベクトルμms、共分散行列Umsで表現される。図5に示すように音声特徴量yやyに対応するGMM尤度が計算される。
【0029】
GMM尤度判定部70は、GMM尤度が所定の範囲内であるか否かを判定し、その判定結果を出力する(ステップS70)。所定の範囲とは、例えば、図5に示すGMM尤度分布の最大値〜最小値の範囲である。その範囲は、学習した音声データに対するGMM尤度の上下限値の範囲ということになる。つまり、GMM尤度判定部70は、学習していない突発性雑音等の影響を受けたフレームをフィルタリングすることが出来る。
【0030】
音声認識処理部80は、GMM尤度が所定の範囲内である場合(ステップS70のY)は、音声特徴量Otに対応する音響尤度を求め(ステップS801)、その音響尤度に基づいて音声認識処理を行う(ステップS802)。GMM尤度が所定の範囲外である場合(ステップS70のN)は、音響尤度の代わりにGMM尤度を用いて音声認識処理を行う(ステップS803)。
以上の動作は、全てのフレームについて終了するまで繰り返される(ステップS90のN)。この音声認識装置100の各部の動作及び繰り返し動作の制御は、制御部90が行う。
【0031】
音声認識装置100によれば、音声特徴量OとGMMとから求めたGMM尤度を用いることで、その音声特徴量Oが学習済みの特徴量の集合から大きく逸脱しないかどうかを判定する。そして、突発性雑音等のように学習データの集合には含まれないような音声特徴量Oが入力された場合は、その音響尤度をGMM尤度に置換えて音声認識処理を行う。したがって、突発性雑音等が入力された場合でも音響尤度を安定化することが可能である。その結果、音声認識の誤認識の発生を抑制することが出来る。
【0032】
なお、所定の範囲は、図5のGMM分布の下限値以下のみとしても良い。又は、上述したようにGMM尤度の分布の上限値以上及び下限値以下としても良く、そのどちらでも良い。GMM尤度判定部70がGMM尤度の上限値も判定する場合、上限値を超えたフレームの音響尤度もそのGMM尤度に代用される。そのGMM尤度の値は、殆どの音素を包含した分布の大きなGMMから求めているので大きく変化した値にならない。よって、尤度値が不安定になることは無い。
【0033】
なお、所定の範囲を、学習した全ての音声特徴量に対応した尤度の上下限値の範囲として説明したが、この発明はこの例に限定されない。例えば、音響モデル学習時のGMM尤度の分布を正規分布と過程して予め求めたGMM尤度の平均値μと標準偏差σに基づき、GMM尤度計算部60内に設けられた所定範囲設定手段601が、所定の範囲をμ±2σ(上限値=μ+2σ、下限値=μ−2σ)と、計算して設定しても良い。このようにすることで所定の範囲を、学習したGMM尤度の値から任意の範囲に設定することが可能となる。なお、予めGMM尤度の平均値μと標準偏差σに基づいて任意の所定の範囲を設定し、その値を音響モデルパラメータメモリに記録して置いても良い。その場合、所定範囲設定手段601は無くても良い。
【0034】
また、GMM尤度判定部70内に、上下限値設定手段701を備え、所定の範囲外のフレームのGMM尤度を所定の上下限値にしても良い。つまり、上下限値にGMM尤度を丸め込んでも良い。丸め込むことで尤度の範囲を更に狭めることが出来る。
図6に所定の範囲外のGMM尤度を上下限値に丸め込む動作を行う音声認識装置100′の動作フローを示す。GMM尤度判定過程(ステップS70)以外は、音声認識装置100と同じである。
GMM尤度判定部70′は、GMM尤度が所定の範囲内か否かを判定する(ステップS701)。範囲内の場合(ステップS701のY)は、音声特徴量から音響尤度を求めて音声認識処理を行うステップS801以降の動作を行う。
【0035】
GMM尤度が所定の範囲外の場合は、GMM尤度が下限値以下(ステップS702)であるか、上限値以上であるかを判定する(ステップS704)。上下限値設定手段701はその判定結果に基づいてGMM尤度を、下限値若しくは上限値に設定して音声認識処理部80へ出力する(ステップS703,S705)。
なお、図6では上下限の両方を所定の上下限値に設定する例を説明したが、上下限のどちらか一方を設定するようにしても良い。
【実施例2】
【0036】
図7にこの発明の音響モデル作成装置200の機能構成例を示す。その動作フローを図8に示す。音響モデル作成装置200は、特徴量分析部20と、GMM尤度計算部60と音響モデルパラメータメモリ40と、GMM尤度判定部70と、学習処理部90と、学習後音響モデルメモリ95と、制御部96とを具備する。音響モデル作成装置200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0037】
音響モデル作成装置200の特徴量分析部20と、GMM尤度計算部60と、GMM尤度判定部70は、音声認識装置100と同じものである。
学修処理部90が、学習ラベルと音声特徴量とGMM尤度と判定結果を入力として、GMM尤度が所定の範囲内のフレームについては音声特徴量と学習ラベルを対応付けて音響モデルの学習処理を行い(ステップS90)。所定の範囲外のフレームについては音響モデルの統計量計算の対象外(ステップS70のN)、異常フレームとして廃棄し、次のフレームの処理を行う(ステップS98)。
【0038】
以上の動作は、全てのフレームについて終了するまで繰り返される(ステップS97のN)。この音響モデル作成装置200の各部の動作及び繰り返し動作の制御は、制御部95が行う。上記所定の範囲をGMM尤度の平均値μと標準偏差σに基づいて設定する場合には、学習によって更新されたGMM尤度の平均値μと標準偏差σは、学習後音響モデルメモリ95に記録される。学習処理部90において、所定の範囲も、更新された平均値μと標準偏差σに連動させて更新し、その値を学習後音響モデルメモリ95に記録するようにしても良い。また、上記所定の範囲をGMM尤度の上下限値に基づいて設定する場合は、GMM尤度の上下限値は、学習後音響モデルメモリ95に記録される。学習処理部90において、所定の範囲も、更新された上下限値に連動させて更新し、その値を学習後音響モデルメモリ95に記録するようにしても良い。
【0039】
音響モデル作成装置200も、GMM尤度計算部60とGMM尤度判定部70を備え、所定の範囲外のフレームは対象外として音響モデルの学習を行うので、突発性雑音等の影響を受けないで音響モデルを作成することが出来る。よって、精度の高いよりクリーンな音響モデルの作成を可能にする。
【0040】
以上説明した音声認識装置100によれば、殆どの音素を包含し、最も分散が広くなるGMMから求めたGMM尤度を、所定範囲外のフレームの音響尤度に代用するので、突発性雑音等が入力されても音響尤度が大きく変化しない。つまり、音響尤度を安定化することが出来る。また、所定の範囲は、学習時のGMMのGMM尤度に基づいて決められるので、その範囲を決定するための開発用データが不要である。
また、音響モデル作成装置200によれば、学習時に異常フレームを除去するので、異常な分布が生成される可能性を低減することが出来る。よって、より精度の高い音響モデルの作成を可能にする。
【0041】
この発明の方法及び装置は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、GMMは、無音データを含めて、無音データも学習対象にしても良いし、又は音声の特徴量のみを記録させ、音声区間のみを学習対象にしても良い。音声区間のみを学習対象にする場合には、音響モデルパラメータメモリ40に、音声認識の前処理の音声区間検出等の用途でも利用される音響モデルをそのまま用いることが可能である。
【0042】
なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0043】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0044】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
GMM(Gaussian Mixture Model:混合正規分布モデル)と上記音声特徴量を照合して上記フレーム毎にGMM尤度を計算するGMM尤度計算部と、
上記GMM尤度が所定の範囲内であるか否かを判定し、その判定結果を出力するGMM尤度判定部と、
上記音声特徴量と上記GMM尤度と上記判定結果を入力として、上記所定の範囲内のフレームについては上記音声特徴量に対応する音響尤度に基づいて音声認識処理を行い、上記所定の範囲外のフレームについては上記GMM尤度を利用した音響尤度を用いて音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。
【請求項2】
請求項1に記載した音声認識装置において、
上記所定の範囲は、学習した音響モデルのGMM(Gaussian Mixture Model:混合正規分布モデル)の尤度分布範囲であることを特徴とする音声認識装置。
【請求項3】
請求項1に記載した音声認識装置において、
GMM尤度計算部は、
上記GMM尤度の平均値μや上記GMM尤度の標準偏差σを入力として上記所定の範囲を設定する所定範囲設定手段と、
を備えることを特徴とする音声認識装置。
【請求項4】
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
GMM尤度計算部が、GMM(Gaussian Mixture Model:混合正規分布モデル)と上記音声特徴量を照合して上記フレーム毎にGMM尤度を計算するGMM尤度計算過程と、
GMM尤度判定部が、上記GMM尤度が所定の範囲内であるか否かを判定し、その判定結果を出力するGMM尤度判定過程と、
音声認識処理部が、上記音声特徴量と上記GMM尤度と上記判定結果を入力として、上記所定の範囲内のフレームについては上記音声特徴量に対応する音響尤度に基づいて音声認識処理を行い、上記所定の範囲外のフレームについては上記GMM尤度を利用した音響尤度を用いて音声認識処理を行う音声認識処理過程と、
を備える音声認識方法。
【請求項5】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
GMM(Gaussian Mixture Model:混合正規分布モデル)と上記音声特徴量を照合して上記フレーム毎にGMM尤度を計算するGMM尤度計算部と、
上記GMM尤度が所定の範囲内であるか否かを判定し、その判定結果と上記GMM尤度とを出力するGMM尤度判定部と、
学習ラベルと上記音声特徴量と上記GMM尤度と上記判定結果を入力として、上記所定の範囲内のフレームについては上記音声特徴量に基づく音響モデルの学習処理を行い、上記所定の範囲外のフレームについては音響モデルの統計量計算の対象外として学習後音響モデルを生成する学習処理部と、
を具備する音響モデル作成装置。
【請求項6】
請求項5に記載した音響モデル作成装置において、
上記所定の範囲は、学習した音響モデルのGMM(Gaussian Mixture Model:混合正規分布モデル)の尤度分布範囲であることを特徴とする音響モデル作成装置。
【請求項7】
請求項5に記載した音響モデル作成装置において、
GMM尤度計算部は、
上記GMM尤度の平均値μや上記GMM尤度の標準偏差σを入力として上記所定の範囲を設定する所定範囲設定手段と、
を備えることを特徴とする音響モデル作成装置。
【請求項8】
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
GMM(Gaussian Mixture Model:混合正規分布モデル)と上記音声特徴量を照合して上記フレーム毎にGMM尤度を計算するGMM尤度計算過程と、
GMM尤度判定部が、上記GMM尤度が所定の範囲内であるか否かを判定し、その判定結果と上記GMM尤度とを出力するGMM尤度判定過程と、
学習処理部が、学習ラベルと上記音声特徴量と上記GMM尤度と上記判定結果を入力として、上記所定の範囲内のフレームについては上記音声特徴量に基づく音響モデルの学習処理を行い、上記所定の範囲外のフレームについては音響モデルの統計量計算の対象外として学習後音響モデルを生成する学習処理過程と、
を備える音響モデル作成方法。
【請求項9】
請求項1乃至3の何れか、又は請求項5乃至7の何れかに記載した各装置としてコンピュータを機能させるための装置プログラム。
【請求項10】
請求項9に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2010−286586(P2010−286586A)
【公開日】平成22年12月24日(2010.12.24)
【国際特許分類】
【出願番号】特願2009−138987(P2009−138987)
【出願日】平成21年6月10日(2009.6.10)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】