説明

音声認識装置とその方法と、プログラムとその記録媒体

【課題】音声認識装置を高速・省メモリ化する。
【解決手段】この発明の音声認識装置は、特徴量算出部と、音響モデルパラメータメモリと、言語モデルパラメータメモリと、音声認識部と、フレーム内統計量蓄積部と、音響モデル更新部とを具備する。フレーム内統計量蓄積部は、音響特徴量と状態尤度と音響モデルとを入力としてフレーム毎に最尤状態の統計量を蓄積する。音響モデル更新部は、蓄積された統計量が所定値より大きい場合に音響モデルパラメータメモリの音響モデルを、蓄積された統計量を用いて求めた音響モデルに更新する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、発声内容が不明の音声を与えて話者適応するいわゆる教師なし音響モデル適応化技術を用いた音声認識装置と、その方法とプログラムと記録媒体に関する。
【背景技術】
【0002】
音声認識装置は、入力される音声信号を分析して得られる音響的特徴量ベクトルの系列と、音声をモデル化した音響モデルとの間の尤度を算出し、認識すべき語彙、単語間の接続のし易さ、規則を表わす言語モデルなどの言語的制約の中において、尤度の最も高い単語列を認識結果として出力するものである。音響モデルの数が多ければ多いほど音声の認識率は向上する。しかし、メモリ資源の関係から音響モデルの数は自ずと制限される。したがって、音声認識装置には、実際に使用される場面における話者や環境によって変わる音響的特徴に、限られた音響モデルを適応させる音響モデル適応化技術が用いられる。
【0003】
音響モデル適応化技術には、発声内容を教えて話者適応を行う教師あり話者適応と、発声内容が不明な音声を与える教師なし話者適応の二つがある。人手で書き起こした発話内容が事前に得られない場合には、必然的に教師なし話者適応となる。
図7に不特定話者の音声認識結果を用いて教師なし話者適応を行う従来の音声認識装置700の機能構成例を示してその動作を説明する。音声認識装置700は、A/D変換部70と、特徴量算出部71と、言語モデルパラメータメモリ72と、音響モデルパラメータメモリ73と、音声認識部74と、認識結果ラベル付与部75と、音響モデル適応処理部76とを備える。
【0004】
A/D変換部70は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量算出部71は、離散値化された音声信号を例えば320個を1フレーム(20ms)としてフレーム毎に音響特徴量を算出する。音響特徴量は、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。音声認識部74は尤度計算部741を含み、音響特徴量と、言語モデルパラメータメモリ72と音響モデルパラメータメモリ73とからの言語モデルと音響モデルとを入力として、音響モデル内の状態尤度と、言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する。認識結果ラベル付与部75は、その音声認識結果にラベルを付す。音響モデル適応処理部76は、統計量蓄積部761と音響モデル更新部762とから成り、ラベルを付した音声認識結果を教師信号として適応処理を行う。統計量蓄積部761は、ラベルに対応する音響モデル内の状態jのk番目の混合要素に存在する事後確率γ(j,k)を求めて各分布の統計量を蓄積する。
【0005】
ここで音響モデルを構成する音素モデルについて図8と図9を用いて説明する。音素モデルは、図8に示す状態によって構築される。各状態jは、混合正規分布Mとして表現される。混合正規分布Mは、例えば3つの正規分布、N(μj1,Uj1),N(μj2,Uj2),N(μj3,Uj3)で構成される。ここでμjkは状態j分布kの平均ベクトル、Ujkは状態j分布kの共分散行列を示す。
この状態jが、数個〜十数個程度の確率連鎖によって音素モデルが構築される。図9に3状態で構成される音素モデルの概念図を一例として示す。図9に示す例は、left−to−right型HMM(Hidden Markov Model)と呼ばれるもので、3つの状態j(第1状態)、j(第2状態)、j(第3状態)を並べたものであり、状態の確率連鎖(状態遷移)としては、自己遷移a11、a22、a33と、次状態へのa12、a23、a34からなる。この状態遷移系列の中で最も尤度の高い音素モデルの組み合わせが、音声認識結果として出力される。
【0006】
ある状態jに所属する分布kに着目してその分布に音響特徴量oが当てはまる確率は、式(1)に示す事後確率γ(j,k)で求められる。
【0007】
【数1】

【0008】
ここで、α(j)は時刻tにおける状態jの前向き確率、β(j)は後ろ向き確率である。cjk又はcjmは重み係数、oは時刻tの音響特徴量である。μjkは状態j分布kの平均ベクトル、Ujkは状態j分布kの共分散行列を示す。式の表記の都合からkとmと表記しているが、k,mのどちらも、ある状態の混合正規分布の内の一つの正規分布を意味する。
例えば、最尤推定に基づく音響モデル適応方法は、事後確率γ(j,k)から各混合正規分布の平均ベクトルμjkと共分散行列Ujkを、式(2)と式(3)で求めることで行う。ここで*は転置を意味する。
【0009】
【数2】

【0010】
音響モデル更新部762は、音響モデルパラメータメモリ73の音響モデルを、蓄積した十分統計量から求めた平均ベクトルμjkと共分散行列Ujkに更新する。十分統計量とは、統計データの分布の平均値と分散値を求めるのに十分な量の統計量のことである。音響モデルが統計量で更新されることで話者適応される。話者適応の方法は、最尤推定に基づく方法の他、最大事後確率や回帰行列に基づく方法などが用いられる。
以上述べたような音響モデル教師なし適応化技術を用いた音声認識装置700は、例えば特許文献1と2に開示されている。また、回帰行列を用いた適応方法については、例えば特許文献3と非特許文献1に示されている。
【特許文献1】特開平9−114482号公報
【特許文献2】特開平9−258770号公報
【特許文献3】特開2007−248742号公報
【非特許文献1】C.J.Leggetter and P.C.Woodland,“Speaker Adaptation of HMMs using Linear Regression”,CUED/F-INFENG/TR.181,1994.
【発明の開示】
【発明が解決しようとする課題】
【0011】
従来の音声認識装置は、一度音声認識を行った上で、その認識結果を教師信号として用いて十分統計量を蓄積し、その結果で音響モデルの適応処理を行うため、処理時間を必要とする問題点があった。式(1)から明らかなように音響モデル適応に必要な分布に関する事後確率γ(j,k)を算出するためには、前向き確率と後ろ向き確率を必要とするため、発話終端まで待たないと計算できない。よって待ち時間が必要であり応答性が悪い。また、単語単位若しくは文章単位の全ての状態系列を保存する必要があることから多くのメモリを消費してしまう問題点もあった。
【0012】
この発明は、このような点に鑑みてなされたものであり、高速・省メモリ化できる音声認識装置とその方法と、プログラムとその記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0013】
この発明の音声認識装置は、特徴量算出部と、音響モデルパラメータメモリと、言語モデルパラメータメモリと、音声認識部と、フレーム内統計量蓄積部と、音響モデル更新部とを具備する。特徴量算出部は、離散値化された音声信号のフレーム毎に音響特徴量を算出する。音声認識部は、音響特徴量に対して音響モデル内の状態毎の尤度である状態尤度を計算する尤度計算部を含み、状態尤度と言語モデルに基づく言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する。フレーム内統計量蓄積部は、音響特徴量と状態尤度と音響モデルを入力としてフレーム毎に最尤状態の統計量を蓄積する。音響モデル更新部は、蓄積された統計量が所定値より大きい場合に音響モデルを、蓄積された統計量を用いて更新する。
【発明の効果】
【0014】
この発明の音声認識装置は、フレーム毎にフレーム内の最大尤度になる状態の統計量を蓄積する。そして、音響モデル更新部が、蓄積されたフレーム毎の統計量が所定値を超えた場合に音響モデルを更新する。したがって、メモリ量が少なくて済む。また、フレーム毎に統計量蓄積動作が行われるので、単語単位や文章単位で統計量蓄積動作を行う従来の音声認識装置よりも処理速度が速い。これにより音響モデル更新前の待ち時間が少なく、高い応答性を持つ。
【発明を実施するための最良の形態】
【0015】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0016】
図1にこの発明の音声認識装置100の機能構成例を示す。図2にその動作フローを示す。音声認識装置100は、A/D変換部70と、特徴量算出部71と、言語モデルパラメータメモリ72と、音響モデルパラメータメモリ73と、音声認識部74と、フレーム内統計量蓄積部10と、音響モデル更新部11と、制御部12とを備える。A/D変換部70と、特徴量算出部71と、言語モデルパラメータメモリ72と、音響モデルパラメータメモリ73と、音声認識部74とは、図7の従来の音声認識装置70と同じものである。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0017】
音声認識装置70と同じ構成については、図2の動作フローを参照した簡単な説明とする。特徴量算出部71は、フレーム毎に音声信号の音響特徴量を、例えばMFCC分析を行うことで算出する(ステップS71)。音響特徴量としては、一般的に、MFCC12次元、ΔMFCC12次元、Δパワー、パワーなどが音声認識に用いられる。音声認識部74内の尤度計算部741は、音響特徴量に対して、音響モデルパラメータメモリ73に記録された音響モデル内の状態毎の尤度である状態尤度を計算する(ステップS741)。
【0018】
音声認識部74は、尤度計算部741で計算した状態尤度と、言語モデルパラメータメモリ72に記録された言語モデルに基づく言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する(ステップS74)。音声認識部74は公知の音声認識技術によって実現されるものである。
この発明の音声認識装置100の新しい部分は、ステップS74の音声認識過程と並行してフレーム内統計量蓄積部10と音響モデル更新部11とが動作する点である。フレーム内統計量蓄積部10は、音響特徴量と状態尤度と音響モデルを入力としてフレーム毎に最尤状態の統計量を蓄積して学習する(ステップS10)。音響モデル更新部11は、音響モデルパラメータメモリ73に記録された音響モデルを、フレーム毎に蓄積された最尤状態の統計量を用いて求めた適応音響モデルμjk,adapt,Ujk,adaptに更新する(ステップS11)。学習データ量(蓄積量)が少ない場合は、ステップS11はスキップされる(ステップ10からステップ12への破線)。適応音響モデルμjk,adapt,Ujk,adaptは、例えば回帰行列Wを用いて求めることが可能である。詳しくは後述する。
【0019】
制御部12は、音声認識装置100の各部の動作を制御すると共に、図示しない外部からの動作停止を指示する制御信号の入力により音声認識装置100の動作を停止させる(ステップS12のY)。動作停止の制御信号が入力されるまでは、上記したステップS71〜ステップS11の動作を繰り返す(ステップS12のN)。
以上述べたように、この発明の音声認識装置100のフレーム内統計量蓄積部10は、フレーム毎に統計量蓄積動作を行う。音響モデル更新部11が、その統計量から更新する音響モデルμjk,adapt,Ujk,adaptを生成して音響モデルパラメータメモリ73内の音響モデルを更新する。
【0020】
次に、図3にフレーム内統計量蓄積部10のより具体的な機能構成例を示して更に詳しく説明する。図4にその動作フローを示す。フレーム内統計量蓄積部10は、フレーム内最尤状態探索部101と、近似事後確率計算部102と、フレーム内最尤状態統計量蓄積部103と、統計蓄積量判定部104とを備える。
フレーム内最尤状態探索部101は、尤度計算部741が計算した状態尤度のうち、最も高い状態尤度を持つ状態を最尤状態として求める(ステップS101、図4)。近似事後確率計算部102は、フレーム内最尤状態探索部101が求めた最尤状態j(図8と図9を参照)に属する分布kに対する尤度と、尤度計算部741が計算した状態尤度の総和から式(4)に示す近似事後確率γ´(j,k)を計算する(ステップS102)。
【0021】
【数3】

【0022】
ここで、右辺の分子はフレーム内の最高尤度の状態jの分布kの尤度に重み係数cjk
乗じた値であり、分母はフレーム内の状態尤度の総和である。これを図5に模式的に表
す。図5の横軸は時間経過でありフレーム番号で表す。縦軸は、各フレームの状態である。
各状態は図8に示したように混合正規分布からなる。式(4)の分母は、図5に破線で示
すように1フレーム内の全状態の状態尤度の総和である。分子は、図5に●で示すフレー
ム内の最高尤度の状態jの各分布である。
【0023】
従来の事後確率は、式(1)に示したように全フレームに渡る全状態の尤度の和に対し
てその状態jを通る尤度を事後確率計算に用いていた。それに対してこの実施例は、全状
態フレーム内最高尤度と、そのフレーム内の状態尤度の総和の比に基づいて事後確率を近
似的に求める点で異なる。
フレーム内最尤状態統計量蓄積部103は、フレーム毎に近似事後確率計算部102が求めた近似事後確率γ´(j,k)と、特徴量算出部71が算出した特徴量oを入力として、適応に必要な統計量を最尤状態jに属する分布kに対応させて蓄積する(ステップS103)。ここで、適応に必要な統計量とは、例えば式(5)、式(6)、式(7)に示すものである。
【0024】
【数4】

【0025】
ここでtはフレーム番号であり、Tはそれまでに処理を行ったフレーム数である。
統計蓄積量判定部104は、フレーム内最尤状態統計量蓄積部103が蓄積した適応に必要な統計量を用いて式(8)に示す統計量の学習データ量の期待値Nexpを計算する。
【0026】
【数5】

【0027】
ここでJは音響モデル中の全状態数、Kは状態jに属する分布数である。そして、統計蓄積量判定部104は、統計量の学習データ量の期待値Nexpが、予め設定した音響モデルを更新するための学習データ量の閾値Nmin(例えば、500フレーム=0.5秒)より大きい場合(Nexp>Nmin)に、音響モデルを更新するための更新指示を出力する(ステップS104)。
ここで回帰行列Wを用いた適応音響モデルを求める例について説明する。式(9)に回帰行列Wを用いた分布kの平均ベクトルの適応音響モデルμjk,adaptを示す。
【0028】
【数6】

【0029】
ここで、μjk^=(b,μjk,base=(b,μjk,1,μjk,2,…,μjk,n)であり、bはオフセット項、μjk,baseは適応前の分布kの平均ベクトルである。^は式(9)の表記が正しい。この回帰行列Wを求めることで適応が可能である。回帰行列Wは、例えば式(10)に示すようにオフセット項と対角共分散行列から構成される。
【0030】
【数7】

【0031】
回帰行列Wの要素は式(11)と式(12)を用いて求められる。
【0032】
【数8】

【0033】
ここでγは状態jの分布kにおける事後確率、oは時刻tにおける特徴量ベクトル、Djkは状態jの分布kにおける平均ベクトルから得られる式(13)に示す行列、Ujkは状態jの分布kにおける共分散行列である。
【0034】
【数9】

【0035】
式(12)から明らかなように、回帰行列Wはフレーム内最尤状態統計量蓄積部103に蓄積した統計量から求めることが可能である。ここで、bの値はb=1として良い。ここでは、回帰行列Wをオフセット項と対角分散行列で構成されるものを用いて説明したが、この実施例はこの例に限定したものではなく、対角成分以外の要素が0でないものも含む。なお、回帰行列に基づく適応方法は、特許文献3、非特許文献1が詳しい。適応方法に関しては、回帰行列に基づく方法に限らず、事後確率を用いる適応方法であれば利用することが可能である。
【実施例2】
【0036】
実施例2の音声認識装置200は、尤度選択部20を備える。実施例1を説明した図1中に尤度選択部20を破線で示す。その動作フローを図2に示す。尤度選択部20は、尤度計算部741が計算した状態尤度のうち、モノフォンに対応する状態尤度のみを選択してフレーム内最尤状態探索部101と近似事後確率計算部102に出力する(ステップS20、図2)。この場合、フレーム内最尤状態統計量蓄積部103と、統計蓄積量判定部104もモノフォンのみについて処理を行う。
モノフォンのみについて処理を行うことで、更に計算量を削減することができる。実施例1の場合では、前後の音素環境を考慮した環境独立音素(トライフォン)や片側依存音素(バイフォン)を用いるために状態数は、例えば2000状態である。音素数を30とした場合のトライフォンの音素数は30×30×30であり、バイフォンの音素数は2×30×30であるので最終的な音素数は28800個になる。各音素の状態数を3とするとこの音素数に3を乗じた値が総状態数となる。しかし、存在しない音素や共有化することでおよそ2000状態に縮退させることができる。処理する状態をモノフォンのみに絞ることで、その2000状態が音素数30×状態数3=90状態になる。したがって、計算量は、およそ90/2000×100=4.5%の計算量で済む。よって処理を高速化できる。
【0037】
また、更に、計算量を削減する方法として、音声GMMとモノフォンのポーズ(無音モデル)に対応する尤度を用いたフレーム内最尤状態探索部101と近似事後確率計算部102にしても良い。通常、音声GMMは状態数1で表現されることが多く、またモノフォンのポーズを3状態とすると合わせて4状態となり、モノフォンを用いた90状態から統計量を蓄積する方法に比べて更に計算量を削減することが可能である。
また、フレーム内最尤状態統計量蓄積部103で蓄積する統計量の種類を減らすことで、更に計算量を削減することが可能である。実施例1の説明では、式(5)、式(6)、式(7)に示したように分散に関する統計量も(式(7))計算する例を説明したが、平均値のみの統計量を用いた適応の場合は、式(7)の計算を削減することができるので、更に処理を高速化できる。
【実施例3】
【0038】
音声認識する音声の音量が未知の場合のパワーは、音響モデルの構築に用いた学習データのパワーと整合性が取れない。よってパワーを尤度計算に用いない方が良い。しかし、一度適応した後は、パワーの値が正規化できるのでパワーを尤度計算に用いた方が適応の精度を向上させることが期待できる。そこで、音響モデル更新部が、最初に音響モデルを更新するまでの尤度計算過程(ステップS741)にはパワーを用いず、音響モデル更新後にパワーを用いる方法が考えられる。
その考えを図6に模式的に示す。図6に示す考えに基づく音声認識装置の機能構成は、実施例1,2と同じ構成で実現できる。音声信号は、横方向に音声区間と非音声区間とを繰り返している。音声区間T1における音声認識は、一度も音響モデルが更新されていない状態で行われる。この時の音響モデルをベースライン音響モデルと称する。音声区間T1では、そのベースライン音響モデルを用いた尤度計算が行われ統計量が蓄積される。非音声区間T2において音響モデルが更新されるが、この例では学習データ量が不十分なため非音声区間T2において期待値Nexpが、音響モデルを更新するための学習データ量の閾値Nminよりも小さい(Nexp<Nmin)ため更新されない。よって、引き続き音声区間T3においてもベースライン音響モデルで尤度計算が行われる。
【0039】
音声区間T3において学習データ量の期待値Nexpが、閾値Nminよりも大きく(Nexp>Nmin)なると、非音声区間T4において音響モデルが更新され、音響モデルは適応済音響モデルになる。その後の音声区間T5以降の尤度計算には、パワーを用いることで適応動作の精度を向上させることができる。
〔シミュレーション結果〕
この発明の音声認識方法の有効性を確認する目的でシミュレーションを行った。シミュ
レーション条件は、サンプリング周波数を16kHz、ウインドウタイプはハミング窓、
フレーム長を20ms、フレームシフトを10msとした。語彙数は59,390個、発話者は女性、録音時間を48.96分とした。
【0040】
この発明の方法による音声認識率と、音声認識精度と、処理時間比とを比較した結果を
表1に示す。ベースラインとは教師なし適応処理を行わない手法である。実施例1,2は、共に、音響モデル更新後の尤度計算にパワーを用いる音声認識方法である。
【0041】
【表1】

実施例2のモノフォンに対応する状態尤度のみを選択する手法の場合、処理時間比をベースラインの93%にすることができた。また、音声認識率と音声認識精度もベースラインよりも良い結果が得られた。実施例1のトライフォンやバイフォンを用いた場合でも、処理時間比をベースラインの97.3%と処理時間を2.7%削減できた。この場合は扱う状態数が増えるので、音声認識率と音声認識精度の両方もモノフォンに比べて良い結果が得られた。
【0042】
このようにこの発明の音声認識装置によれば、フレーム毎に統計量蓄積動作が行われるが、適応による音声認識精度の向上から探索精度が上がり、処理速度を速くすることが出来る。また、フレーム毎にフレーム内の最大尤度になる状態の統計量のみを蓄積するのでメモリ資源を節約できる。また、表1に示したように音声認識率も向上する結果が得られた。
この発明の技術思想に基づく音声認識装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。例えば、上記した実施例は、回帰行列Wを用いて適応音響モデルを求める例を示したが、従来技術で説明したように分布kの個々の正規分布の平均ベクトルや共分散行列を、式(2)と式(3)から求めても良く、回帰行列に基づく方法に限らず、事後確率を用いる適応方法であれば何れも利用することが可能である。
【0043】
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
【0044】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【図面の簡単な説明】
【0045】
【図1】この発明の音声認識装置100,200の機能構成例を示す図。
【図2】音声認識装置100,200の動作フローを示す図。
【図3】フレーム内統計量蓄積部10の機能構成例を示す図。
【図4】フレーム内統計量蓄積部10の動作フローを含む音声認識装置の動作フローを示す図。
【図5】フレームと状態jとの関係を模式的に示す図。
【図6】この発明の実施例3の考えを模式的に示す図。
【図7】従来の音声認識装置700の機能構成例を示す図。
【図8】音素モデルを構成する1状態を模式的に示す図。
【図9】音素モデルの一例を示す図。

【特許請求の範囲】
【請求項1】
離散値化された音声信号のフレーム毎に音響特徴量を算出する特徴量算出部と、
音響モデルを記録した音響モデルパラメータメモリと、
言語モデルを記録した言語モデルパラメータメモリと、
上記音響特徴量に対して上記音響モデル内の状態毎の尤度である状態尤度を計算する尤度計算部を含み、上記状態尤度と上記言語モデルに基づく言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する音声認識部と、
上記音響特徴量と上記状態尤度と上記音響モデルとを入力として上記フレーム毎に最尤状態の統計量を蓄積するフレーム内統計量蓄積部と、
上記音響モデルを上記フレーム毎に蓄積された最尤状態の統計量を用いて更新する音響モデル更新部と、
を具備する音声認識装置。
【請求項2】
請求項1に記載の音声認識装置において、
上記フレーム内統計量蓄積部は、
上記状態尤度の最も高い最尤状態を求めるフレーム内最尤状態探索部と、
上記最尤状態に属する分布に対する尤度と上記状態尤度の総和から近似事後確率を求める近似事後確率計算部と、
上記近似事後確率と上記音響特徴量とを入力として適応に必要な統計量を最尤状態に属する分布に対応させて蓄積して保存するフレーム内最尤状態統計量蓄積部と、
上記蓄積された統計量が所定値より大きい場合に上記音響モデルの更新を指示する統計蓄積量判定部と、
を備える音声認識装置。
【請求項3】
請求項1又は2に記載した音声認識装置において、
上記状態尤度の内、モノフォン又は音声GMMに対応する状態尤度のみを選択して上記フレーム内統計量蓄積部に入力する尤度選択部を備えたことを特徴とする音声認識装置。
【請求項4】
特徴量算出部が、離散値化された音声信号のフレーム毎の音響特徴量を算出する特徴量算出過程と、
音声認識部内の尤度計算部が、特徴量に対して音響モデルの状態毎の尤度である状態尤度を計算する尤度計算過程と、
音声認識部が、上記状態尤度と言語モデルに基づく言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する音声認識過程と、
フレーム内統計量蓄積部が、上記音響特徴量と上記状態尤度と上記音響モデルとを入力として上記フレーム毎に上記フレーム内の最尤状態の統計量を蓄積するフレーム内統計量蓄積過程と、
音響モデル更新部が、上記音響モデルを上記蓄積された統計量を用いて更新する音響モデル更新過程と、
を含む音声認識方法。
【請求項5】
請求項4に記載した音声認識方法において、
上記フレーム内統計量蓄積過程は、
フレーム内最尤状態探索部が、上記状態尤度の最も高い最尤状態を求めるフレーム内最尤状態探索ステップと、
近似事後確率計算部が、上記最尤状態に属する分布に対する尤度と上記状態尤度の総和から近似事後確率を求める近似事後確率計算ステップと、
フレーム内最尤状態統計量蓄積部が、上記近似事後確率と上記音響特徴量を入力として適応に必要な統計量を最尤状態に属する分布に対応させて蓄積して保存するフレーム内最尤状態統計量蓄積ステップと、
統計蓄積量判定部が、上記蓄積された統計量が所定値より大きい場合に上記音響モデルの更新を指示する統計蓄積量判定ステップと、
を含む音声認識方法。
【請求項6】
請求項4又は5に記載した音声認識方法において、
尤度選択部が、上記状態尤度の内、モノフォン又は音声GMMに対応する状態尤度のみを選択して上記フレーム内統計量蓄積過程に入力する尤度選択ステップを含むことを特徴とする音声認識方法。
【請求項7】
請求項4乃至6の何れかに記載した音声認識方法において、
上記フレーム内統計量蓄積過程は、平均に関する統計量のみを蓄積する過程であることを特徴とする音声認識方法。
【請求項8】
請求項4乃至7の何れかに記載した音声認識方法において、
上記音響モデル更新部が、最初の上記音響モデルを更新するまでの上記尤度計算過程は、パワーを尤度計算に用いないことを特徴とする音声認識方法。
【請求項9】
請求項4乃至8の何れかに記載した音声認識方法としてコンピュータを機能させるための方法プログラム。
【請求項10】
請求項9に記載した何れかの方法プログラムを記録したコンピュータで読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2009−300716(P2009−300716A)
【公開日】平成21年12月24日(2009.12.24)
【国際特許分類】
【出願番号】特願2008−154933(P2008−154933)
【出願日】平成20年6月13日(2008.6.13)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】