音声認識方法、音声認識装置及び音声認識プログラム
【課題】音声認識処理を行うこと無く短い処理時間で信頼度スコアを計算し、言語モデルに依存しない信頼度スコアを出力する音声認識装置と音声認識方法と、音声認識プログラムを提供する。
【解決手段】フレーム毎の音声特徴量系列を用いて、その音声特徴量系列に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数または出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求め、音声特徴量系列を用いて、信頼度スコアに基づき音声認識処理を行う。
【解決手段】フレーム毎の音声特徴量系列を用いて、その音声特徴量系列に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数または出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求め、音声特徴量系列を用いて、信頼度スコアに基づき音声認識処理を行う。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、様々な音質の音声データを効率良く音声認識する音声認識方法、音声認識装置及び音声認識プログラムに関する。
【背景技術】
【0002】
近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する。
【0003】
そこで、従来から音声認識結果に信頼度を付与することで、音声認識誤りに起因する不具合を抑制する方法が検討されている。例えば、特許文献1が音声認識結果に信頼度を付与する従来技術として知られている。図1に特許文献1の音声認識装置900の機能構成を示す。音声認識装置900は、音響分析部120、音響モデル格納部140、辞書・言語モデル格納部150、探索部160、信頼度計算部190を備える。
【0004】
音響分析部120は、入力音声信号110を、数十msのフレームと呼ばれる単位で例えばメル周波数ケプストラム係数(MFCC)分析して音響特徴パラメータ系列130を生成する。探索部160は、音響特徴パラメータ系列130について、音響モデル格納部140と辞書・言語モデル格納部150とを用いて音声認識結果候補の探索を行う。探索の結果、上位〜N位までの音声認識結果170と、各音声認識結果に対するスコア180が出力される。
【0005】
信頼度計算部190は、音声認識結果170とスコア180に基づいて複数の音声認識結果170にそれぞれ対応する信頼度スコア195を計算して出力する。その信頼度スコア195は、例えば音声認識結果として得られたNベスト候補及びそれらのスコアの単純なスコア差と加算平均から求められる。
【0006】
この信頼度スコア195を参照することで、その信頼度スコア195に対応する音声認識結果170を廃棄したり、発話者に対して音声認識結果を確認したりする。このような処理を行うことで、誤認識による不具合の発生を抑制していた。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2005−148342号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、従来の音声認識装置900では、信頼度スコアを、音声認識処理を行った後の音声認識結果や音声認識結果に付随するスコアから計算していた。従って、信頼度スコアを得るのに音声認識処理の処理時間を必要としていた。S/N比が悪い等の理由により認識精度の低いものの中には、例え探索時のビーム幅を広げたり、教師なし適応を行ったとしても、誤認識ばかりで、認識精度を向上することができない利用不能な音声データも存在する。よって、音声認識処理を行った後のスコアから信頼度スコアを計算する場合、利用不能な音声データに余分な処理時間をかけてしまうという問題がある。また、大量の音声ファイルに対して音声認識処理を行う場合に、音声認識精度の低い音声ファイルの処理に時間がかかり、他の音声認識精度の高い音声ファイルの処理が進まず、音声認識処理全体の処理効率を低下させるという問題がある。また、言語モデルを用いた音声認識結果に基づく処理のため、信頼度スコアの値が言語モデルに依存してしまうという問題もある。
【0009】
この発明は、このような問題点に鑑みてなされたものであり、音声認識処理を行うこと無く短い処理時間で信頼度スコアが計算可能であり、言語モデルに依存しない信頼度スコアを出力する音声認識装置と音声認識方法と、音声認識プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記の課題を解決するために、本発明に係る音声認識方法は、音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求め、フレーム毎の音声特徴量系列を用いて、その音声特徴量系列に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数または出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求め、音声特徴量系列を用いて、信頼度スコアに基づき音声認識処理を行う。
【0011】
また、本発明に係る音声認識装置は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数または出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、音声特徴量系列を入力として、信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える。
【発明の効果】
【0012】
本発明は、音声認識処理を行う前に、音声認識の結果として得られる音声認識結果に対する信頼度を事前に推定し、求められた信頼度に基づき音声認識処理を行う。そのため、利用不能な音声データに対する処理時間を削減することができるという効果を奏する。また、信頼度の高い音声データ、つまり、音声認識精度の高いことが期待できる音声データの処理を優先的に行い、音声認識処理全体の処理効率を向上させることができるという効果を奏する。さらに、信頼度を求める際に、言語モデルを用いないため、言語モデルに依存しない(事前)信頼度を求めることができるという効果を奏する。
【図面の簡単な説明】
【0013】
【図1】特許文献1に開示された従来の音声認識装置900の機能構成を示す図。
【図2】音素モデルの一例を示す図。
【図3】音素モデルを構成する1状態を模式的に示す図。
【図4】音声認識装置100、200の機能構成例を示す図。
【図5】音声認識装置100の動作フローを示す図。
【図6】事前信頼度スコア計算部30、30’の機能構成例を示す図。
【図7】モノフォン最尤状態と音声/ポーズ最尤状態の時間経過を模式的に示す図。
【図8】図7を二種の音響モデルにした場合を示す図。
【図9】実験結果を示す図。
【図10】事前信頼度スコア計算部230の機能構成例を示す図。
【図11】実施例2の基本的な考え方を説明するために音声特徴量と尤度(または出力確率)との関係を模式的に示す図。
【図12】音声認識装置300の機能構成例を示す図。
【図13】信頼度スコアCとビーム探索幅N(C)との関係の例を示す図。
【図14】音声認識装置400の機能構成例を示す図。
【図15】音声認識装置400の動作フローを示す図。
【図16】音声認識装置500の機能構成例を示す図。
【図17】音声認識装置500の動作フローを示す図。
【発明を実施するための形態】
【0014】
以下、図面を参照して、この発明の実施の形態を説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の基本的な考え方について説明する。
[この発明の基本的な考え方]
一般的な信頼度尺度は、以下の単語事後確率P(W^|O)で表現される。
【0015】
【数1】
【0016】
なお、Oは音響特徴量系列であり(O=(o1,o2,…,oT))、Wは音声認識結果単語系列であり、P(W)は音声認識の結果に基づき求まる音声認識結果単語系列の出現確率であり、”^”は尤度の最も高い単語、状態、及び、尤度の高い単語系列や状態系列を示す。
【0017】
ここで、大語彙の辞書を含む言語モデルを用いた音声認識結果単語系列Wを得るためには音声認識処理にかかる膨大な計算が必要となる。この計算量を減らすために、本発明では、言語モデルは使用せず、音声認識結果単語系列Wの代わりに状態系列Sを用いることにする。よって、単語事後確率P(W^|O)は以下の式により近似される。
【0018】
【数2】
【0019】
なお、状態系列Sの種類は、とりうる全ての状態sj(但し、j=1,2,…,J)から生じうる全ての状態系列からなることが望ましいが、計算量を削減するために、音声認識で用いられている高速化手法を導入し、可能性の低い状態を予め計算対象から外してもよい。
【0020】
さらに、高速化するために、状態系列S内の各状態sjは、モノフォンに含まれる状態のみに限定する。ここで、モノフォンとは、環境独立音素モデルのことであり、前後の音素環境に制約を持つ環境依存音素モデル(例えばトライフォン)に対して、前後の音素の制約がない音素モデルであり、その種類は少ない。例えば、音素の数を30個とした場合、モノフォン音響モデル中の音素モデルの数は30個であるが、トライフォンの場合の数は303個(27000個)である。また、モノフォンは、音声以外の部分、つまり、非音声部分のモデルであるポーズモデルを含むものとする。モノフォンの音素モデルは、1以上(通常3個程度)の状態の確率連鎖によって構築され、モノフォンHMM(Hidden Markov Model)として表される。モノフォンHMMは、例えば、図2に示すようにleft−to−right型HMMで表される。図2は、3つの状態s1(第1状態)、s2(第2状態)、s3(第3状態)を並べたものであり、状態の確率連鎖(状態遷移)としては、自己遷移a11、a22、a33と、次状態へのa12、a23、a34からなる。各状態sは、1以上の基底分布からなる混合分布(以下、混合正規分布GMM:Gaussian Mixture Modelを含めて混合分布とする)から構成され、例えば、図3に示すように、混合正規分布Mとして表現される。混合正規分布Mは、例えば3つの(基底)正規分布、N(μs,1,Σs,1),N(μs,2,Σs,2),N(μs,3,Σs,3)で構成される。ここでμs,mは状態sに属する正規分布mの平均ベクトル、Σsmは状態sに属する正規分布mの共分散行列を示す。
【0021】
さらに、式(2)において計算量を減らすために、多くの音声認識デコーダが遷移確率を無視するのと同様に(参考文献1参照)、本発明においても遷移確率を無視し、モノフォンHMMの各状態に属するGMM(以下、単に「モノフォンGMM」という)から得られる出力確率のみを用いて、フレーム毎の信頼度を推定する。
[参考文献1]J. R. Glass, "A probabilistic framework for segmentbased speech recognition", Computer Speech and Language, Elsevier, 2003, Vol.17, No.2-3, pp.137-152
よって、式(2)の状態事後確率P(S^|O)は、時刻tにおける音響特徴量otに対するフレーム毎の状態事後確率P(s^|ot)から近似的に以下のように、計算される。
【0022】
【数3】
【0023】
なお、Tは総フレーム数を表す。さらに、フレーム毎の状態事後確率P(s^|ot)は、以下のように状態sの出力確率bs(ot)からフレーム毎に計算される。
【0024】
【数4】
【0025】
なお、s^は時刻tにおいてP(s)・bs(ot)の値が最も高いときの状態(以下「最尤状態s^」という)であり、Msは状態sに属する混合分布数であり、ws,mは正規分布mの混合重み係数であり、Ns,m(・)は正規分布mのガウス分布関数を意味し、Ns,m(ot|μs,mΣs,m)は、時刻tの音響特徴量otに対する状態sに属する正規分布mの出力確率を意味する。なおws,mは音響モデル学習の結果で決まるものであり、0≦ws,m≦1の範囲を取る値である。例えば、混合分布数Msが16であるとすると平均すると1/16の値となる。
【0026】
参考文献2では、モノフォンは音素環境依存モデル(トライフォン)の近似モデルであるという仮定に基づき、モノフォンを用いて音響尤度計算量を削減することで高速化を行っている。本発明においても同様に、式(4)の計算において、モノフォンのみを用いることで高速化を実現する。
[参考文献2]A.Lee, T.Kawahara, K.Shikano, "Gaussian mixture selection using context-independent HMM", in Proceedings of ICASSP, 2001, vol.1, pp.69-72
式(4)の分母ΣsP(s)bs(ot)は、ポーズ以外の全ての音素の特徴量から学習した音声GMMからなる音声モデルを使って、以下のように近似される。
【0027】
【数5】
【0028】
gは前記音声モデルに属する状態であり、全ての音素の音響特徴、言い換えると、全ての状態から学習される。ここで、この音声モデルはただ1つの状態gのみを持つように構築すると、音声フレームにおいて、gの出現確率P(g)は1となる。よって、
【0029】
【数6】
【0030】
従って、式(4)と式(6)’から、フレーム毎の状態事後確率P(s^|ot)は以下の式により近似的に計算される。
【0031】
【数7】
【0032】
ここで、通常、音声認識では確率値を対数スコア領域に変換したものを計算に用いるため、フレーム毎の事前信頼度c(ot)は、式(7)で近似的に求めたフレーム毎の状態事後確率P(s^|ot)を、以下の式のように、対数スコア領域にしたものとする。
【0033】
【数8】
【0034】
フレーム毎の事前信頼度c(ot)は、前記音声モデルをUBM(Universal Background Model)と考え、状態出現確率P(s^)を無視すると、例えば参考文献3に見られるような話者照合でしばしば用いられる尤度比を対数化したものと等価となる。本発明では、状態出現確率P(s^)が導入されることによって、最尤状態s^の推定に状態の出現頻度ひいては音素毎の出現頻度が考慮されている。
[参考文献3]
D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, “Speaker verification using adapted gaussian mixture models,” Digital Signal Processing, 2000, vol.10, pp.19-41
信頼度スコアCはフレーム毎の事前信頼度c(ot)から計算される。その際、異なる長さの音声データの比較を可能とするために、総フレーム数Tによって、以下のように、正規化される。
【0035】
【数9】
【0036】
本発明は、このような考え方に基づき、音声認識結果を用いずに、モノフォン及び音声データを用いて、信頼度スコアを求める。
以下、本発明の実施の形態について、詳細に説明する。
【実施例1】
【0037】
<音声認識装置100>
図4及び図5を用いて実施例1に係る音声認識装置100を説明する。音声認識装置100は、A/D変換部10と、特徴量分析部20と、事前信頼度スコア計算部30と、音声認識処理部40と、音響モデルパラメータメモリ50と、言語モデルパラメータメモリ60とを具備する。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0038】
A/D変換部10は、音声信号x(u)を、例えばサンプリング周波数16kHzで離散値化して音声ディジタル信号x(v)に変換する(ステップS10)。但し、uは連続時間を、vは離散時間を表す。なお、音声ディジタル信号x(v)が直接入力される場合は、A/D変換部10は不要である。
【0039】
特徴量分析部20は、音声ディジタル信号x(v)を入力として、例えば320個の音声ディジタル信号x(v)を1フレーム(例えば、20ms)とし、このフレーム毎に、その音声特徴量otを分析し、音声特徴量系列Oを出力する(ステップS20)。音声特徴量としては、例えば、MFCC(Mel-Frequenct Cepstrum Coefficient)の1〜12元と、その変化量であるΔMFCC等の動的パラメータや、パワーやΔパワー等を用いる。また、ケプストラム平均正規化(CMN)等の処理を行っても良い。
【0040】
事前信頼度スコア計算部30は、音声特徴量系列Oを入力として、フレーム毎の音声特徴量otに対するモノフォンGMMから得られる出力確率bs(ot)とそのGMMの属する状態sの出現確率P(s)の積が最も高いもの(以下「モノフォン最尤値P(s^)bs^(ot)」という)を求める。さらに、事前信頼度スコア計算部30は、入力otに対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMM(以下「音声/ポーズGMM」という)から得られる出力確率が最も高いもの(以下「音声/ポーズ最尤値bg^(ot)」という)を求める。なお、この音声モデルとは前述の通り、ポーズ以外の全ての音素の特徴量から学習される。さらに、求めたモノフォン最尤値P(s^)bs^(ot)の対数と音声/ポーズ最尤値bg^(ot)の対数との差を当該フレームの事前信頼度c(ot)とし(式(8)参照)、その事前信頼度c(ot)を平均化して音声ファイル単位の信頼度スコアCを求め、出力する(ステップS30)。
【0041】
音声認識処理部40は、音声特徴量系列Oと信頼度スコアCを入力として、信頼度スコアに基づき音声認識処理を行う。例えば、信頼度スコアCに応じて音声認識処理を行うか否かを判断し(ステップS40a)、音声認識処理を行うと判断した場合には、音響モデルパラメータメモリ50に記録された音響モデルと、言語モデルパラメータメモリ60に記録された言語モデルとを参照して、音声特徴量系列Oについて音声認識処理を行い、その音声認識結果Wと信頼度スコアCを出力する(ステップS40b)。
【0042】
なお、ステップS40a、s40bの音声認識処理過程は、音声ファイルの全フレームについて処理が終了するまで繰り返される。
【0043】
音声認識装置100によれば、事前信頼度スコア計算部30が、フレーム毎に事前信頼度c(ot)を付与して、これを平均化して(つまり1フレーム当たりの平均事前信頼度を計算して)、音声ファイル単位の信頼度スコアCを計算する。音声特徴量系列Oに基づいた信頼度スコアCは、従来の音声認識結果から信頼度スコアを求める方法と比べて計算量が少なくて済む。また、複数の音声ファイルを処理する場合に、信頼度スコアCの値に応じて音声認識処理を行うか否かを判断をすることで、信頼度Cが低い、つまり音声認識精度が低い音声ファイルの音声認識処理に時間がかかるという問題も解決される。次に、実施例1の主要部である事前信頼度スコア計算部30のより具体的な構成例を示してさらに詳しく説明する。
【0044】
<事前信頼度スコア計算部30>
図6を用いて、事前信頼度スコア計算部30を説明する。事前信頼度スコア計算部30は、モノフォン最尤検出手段32と、音声/ポーズ最尤検出手段33と、事前信頼度算出手段34と、信頼度スコア算出手段35とを備える。
【0045】
図7に、モノフォンの出力確率とポーズモデルと音声モデルの出力確率の時間経過を模式的に示す。横方向は時間経過をフレームtで表す。縦方向はフレームt毎の複数のモノフォンと音声モデルのそれぞれの状態を表す。例えば、各モノフォンは、それぞれ3つの状態から成り、モノフォン「*−a+*」は状態a1,a2,a3から成る。太い丸の状態がモノフォン最尤値P(s^)bs^(ot)に対応するモノフォン最尤状態s^を表す。斜線入り丸の状態が音声/ポーズ最尤値bg^(ot)に対応する音声/ポーズ最尤状態g^を表す。モノフォン最尤状態s^と、音声/ポーズ最尤状態g^が、一致する場合(s^=g^)には斜線入りの太い丸で示す。
【0046】
時刻t1〜t3では、モノフォン最尤状態s^は、それぞれポーズモデルの第1状態p1〜第3状態p3である。同様に音声/ポーズ最尤状態g^は、それぞれポーズモデルの第1状態p1〜第3状態p3である。このことから、時刻t1〜t3は非音声状態である。例えば、時刻t1では、式(8)を用いて、モノフォン「*−pause+*」の第1状態p1の出現確率P(p1)と、状態p1に属するGMMの出力確率bp1(ot1)の積の対数と、ポーズモデルの状態p1に属するGMMの出力確率bp1(ot1)の対数との差を事前信頼度c(ot1)とする。つまり以下のように求められる。
c(ot1)=log(P(p1)bp1(ot1))−logbp1(ot1)
【0047】
時刻t4では、モノフォン最尤状態s^は、モノフォン「*−a+*」の第3状態a3であり、音声/ポーズ最尤状態g^が音声モデルの状態gであることから音声状態であると考えられる。式(8)を用いて、モノフォン「*−a+*」の第3状態a3の出現確率P(a3)と、状態a3に属するGMMの出力確率ba3(ot4)の積の対数と、音声モデルの状態gに属するGMMの出力確率bg(ot4)の対数との差を事前信頼度c(ot4)とする。つまり以下のように求められる。
c(ot4)=log(P(a3)ba3(ot4))−logbg(ot4)
【0048】
また、時刻t19では、モノフォン最尤状態s^は、モノフォン「*−i+*」の第2状態i2であり、音声/ポーズ最尤状態g^がポーズモデルの第3状態p3である。このとき、式(8)を用いて、モノフォン「*−i+*」の第2状態i2の出現確率P(i2)と、状態i2に属するGMMの出力確率bi2(ot19)の積の対数と、ポーズモデルの第3状態p3に属するGMMの出力確率bp3(ot19)の対数との差を事前信頼度c(ot19)とする。つまり以下のように求められる。
c(ot19)=log(P(i2)bi2(ot19))−logbp3(ot19)
なお、図7は、一部の時間しか示していない。音声ファイルの長さは例えば数分(例えば30,000フレーム)程度である。以下、各手段の処理を具体的に説明する。
【0049】
(モノフォン最尤検出手段32)
モノフォン最尤検出手段32は、フレームt毎の音声特徴量otに対する各モノフォンGMMから得られる出力確率bs(ot)とそのGMMが属する状態sの出現確率P(s)の積P(s)bs(ot)から、モノフォン最尤値P(s^)bs^(ot)を求め、その対数log(P(s^)bs^(ot))を事前信頼度算出手段34に出力する。なお、モノフォン最尤検出手段32は、音響モデルパラメータメモリ50を参照して、各モノフォンGMMと各状態sの出現確率P(s)を取得することができる。また、モノフォン最尤検出手段32は、各モノフォンGMMと各状態sの出現確率P(s)を予め音響モデルパラメータメモリ50から取得しておき、記憶しておいてもよい。
【0050】
なお、モノフォン最尤状態s^の出現確率P(s^)は、音響モデルの学習データと目的の音声認識対象である評価音声データにおける各状態の出現確率には差がないと仮定することで、以下の式(10)により、近似的に求めてもよい。
【0051】
【数10】
【0052】
式(10)の分母は音響モデルの学習データにおける各状態sの出現頻度の和を表し、分子は音響モデルの学習データにおける最尤状態s^の出現頻度を表す。音響モデルの学習時に得られる各状態sの出現頻度の期待値Γ(s)を、音響モデルパラメータメモリ50に保存しておけば、それを利用することで容易に実現することができる。
【0053】
(音声/ポーズ最尤検出手段33)
音声/ポーズ最尤検出手段33は、フレームt毎の音声特徴量otに対する音声/ポーズGMMから得られる出力確率から、音声/ポーズ最尤値bg^(ot)を求め、その対数logbg^(ot)を事前信頼度算出手段34に出力する。なお、音声/ポーズ最尤検出手段33は、音響モデルパラメータメモリ50を参照して、音声/ポーズGMMを取得することができる。また、音声/ポーズ最尤検出手段33は、音声/ポーズGMMを予め音響モデルパラメータメモリ50から取得しておき、記憶しておいてもよい。
【0054】
(事前信頼度算出手段34)
事前信頼度算出手段34は、モノフォン最尤値の対数log(P(s^)bs^(ot))と音声/ポーズ最尤値の対数logbg^(ot)とを入力され、以下の式(11)によりその差を当該フレームの事前信頼度c(ot)として求め、信頼度スコア算出手段35に出力する。
【0055】
【数11】
【0056】
(信頼度スコア算出手段35)
信頼度スコア算出手段35は、フレーム毎の事前信頼度c(ot)を入力され、式(9)により、フレーム毎の事前信頼度c(ot)を平均化して音声ファイル単位のもの(言い換えると、事前信頼度c(ot)を音声ファイルの継続時間T(総フレーム数)の間累積して平均したもの)を信頼度スコアCとして求め、出力する。
【0057】
【数12】
【0058】
このように、事前信頼度スコア計算部30は、フレーム単位の事前信頼度c(ot)を音声ファイルの総フレーム数Tで平均することで音声ファイル単位の信頼度を表す信頼度スコアCを計算する。なお、音声ファイル単位の信頼度スコアCを求めるので精緻な処理を必要としない。また、このような構成とすることで、入力音声信号の品質や音響モデル等との整合性によって処理速度が変化することなく、安定した処理速度で事前信頼度計算を行うことができる。次に音声認識処理部40の詳細を説明する。
【0059】
<音声認識処理部40>
音声認識処理部40は、特徴量分析部20が出力する音声特徴量系列O(=o1,o2,…,oT)と信頼度スコアCを入力として、音響モデルパラメータメモリ50及び言語モデルパラメータ60を参照して、音声認識処理を行い、音声認識結果Wを出力する。この時、信頼度スコアCを同時に出力しても良い。ここでの音声認識処理は、音響モデルパラメータメモリ50に記録された全ての音響モデルを用いた認識処理が行われる。音声認識処理部40は、信頼度スコアCの値に応じて音声認識処理の実行の有無を切り替える。
【0060】
例えば、音声認識処理部40は、信頼度スコアCが一定値Cth以下の場合に音声認識処理を停止する。信頼度スコアCは音声ファイル毎に計算される値であるので、音声認識処理部40は音声ファイル単位で音声認識処理の実行の有無を切り替える。一定値Cthは、例えば、音響モデルの学習データに対する信頼度スコア分布から算出する方法が考えられる。信頼度スコア分布の平均値μ、標準偏差σとした場合に、例えばCth=μ−2σとする。また、例えば、音声認識処理部40は、複数の音声ファイルの信頼度スコアCを求め蓄積しておき、上位N個(例えば、全音声認識対象音声ファイル中の20%に当たる個数等)の音声ファイルのみを音声認識処理する構成としてもよい。
【0061】
<効果>
以上述べたように、この発明の音声認識装置によれば、音声特徴量に基づいた事前信頼度を求め、フレーム毎の事前信頼度を平均化して音声ファイル単位の信頼度スコアを計算する。従って、従来の音声認識装置よりも軽い処理で信頼度スコアが求められる。また、音声特徴量に基づく処理なので、言語モデルに依存しない信頼度スコアを得ることができる。また、求められた信頼度スコアの値に応じて音声認識処理を行うか否かを判断することで、例えばS/N比が悪い等の理由により音声認識精度の低い音声ファイルの音声認識処理に時間がかかる問題も解決できる。また、従来は単語やキーワード単位、あるいは、発話(文)単位での信頼度計算であったのに対し、本実施例の音声認識装置100は、複数発話からなる音声ファイル単位での信頼度スコアを計算することができる。
【0062】
<変形例1>
図4及び図6を用いて、実施例1と異なる部分のみ説明する。実施例1とは、事前信頼度スコア計算部30’の処理内容が異なる。
【0063】
<事前信頼度スコア計算部30’>
事前信頼度スコア計算部30’は、モノフォン最尤検出手段32’と、音声/ポーズ最尤検出手段33’と、事前信頼度算出手段34と、信頼度スコア算出手段35とを備える。モノフォン最尤検出手段32’と音声/ポーズ最尤検出手段33’の処理が実施例1と異なる。事前信頼度スコア計算部30’では、二種以上の音響モデル中に含まれるモノフォン及び音声モデルに基づいて計算したフレーム毎の事前信頼度を平均化して音声ファイル単位の信頼度スコアCを計算する。図8に、二種以上の音響モデルを、男性音響モデルと女性音響モデルとした場合の出力確率の時間経過の一例を示す。
【0064】
(モノフォン最尤検出手段32’)
モノフォン最尤検出手段32’は、まず、フレームt毎の音声特徴量otに対する男性モノフォンHMMの状態smに属するGMM(以下「男性モノフォンGMM」という)から得られる出力確率bsm(ot)とそのGMMが属する状態smの出現確率P(sm)の積P(sm)bsm(ot)から、最も高い値(以下、「男性モノフォン最尤値P(s^m)bs^m(ot)」という)を求める。次に、音声特徴量otに対する女性モノフォンHMMの状態sfに属するGMM(以下「女性モノフォンGMM」という)から得られる出力確率bsf(ot)とそのGMMが属する状態sfの出現確率P(sf)の積P(sf)bsf(ot)から、最も高い値(以下、「女性モノフォン最尤値P(s^f)bs^f(ot)」という)を求める。男性モノフォン最尤値P(s^m)bs^m(ot)と女性モノフォン最尤値P(s^f)bs^f(ot)のうち、大きい方をモノフォン最尤値P(s^)bs^(ot)とし、その対数を事前信頼度算出手段34に出力する。
【0065】
(音声/ポーズ最尤検出手段33’)
音声/ポーズ最尤検出手段33’は、まずフレームt毎の音声特徴量otに対する男性音声/ポーズGMMから得られる出力確率から、男性音声/ポーズ最尤値bg^m(ot)を求める。次に、まずフレームt毎の音声特徴量otに対する女性音声/ポーズGMMから得られる出力確率から、女性音声/ポーズ最尤値bg^f(ot)を求める。男性音声/ポーズ最尤値bg^m(ot)と女性音声/ポーズ最尤値bg^f(ot)のうち、大きい方を音声/ポーズ最尤値bg^(ot)とし、その対数を事前信頼度算出手段34に出力する。
【0066】
事前信頼度算出手段34は、モノフォン最尤値の対数log(P(s^)bs^(ot))と音声/ポーズ最尤値の対数logbg^(ot)から式(11)によりその差を当該フレームの事前信頼度c(ot)として求める。信頼度スコア算出手段35は、フレーム毎の事前信頼度c(ot)を入力され、式(9)により、フレーム毎の事前信頼度c(ot)を平均化して音声ファイル単位のものを信頼度スコアCとして求める。
【0067】
このような構成とすることによって、後段の音声認識処理が複数の音響モデルを用いる場合でも、同様に複数の種別の音響モデルを事前信頼度スコア計算に用いることで、信頼度スコアCを音声認識処理に合わせて精度よく求めることができる。なお、事前信頼度スコア計算部30’に用いる音響モデルの種別は三種以上の複数であっても良い。
【0068】
また、信頼度スコアCは、音声特徴量系列に対する二種以上の音声モデル又はポーズモデルの最尤状態の出力確率を比較し、出力確率が大きい種別のモノフォンに限定して計算された値であっても良い。つまり、前記した例のように男性と女性のモノフォンの最尤値P(s^m)bs^m(ot)とP(s^f)bs^f(ot)を全てのフレームについて求めるのでは無く、音声モデル又はポーズモデルの出力確率が女性(男性)よりも男性(女性)が高くなるフレームは、男性(女性)モノフォンに限定して計算する方法も考えられる。
【0069】
すなわち、音声/ポーズ最尤検出手段33”は、男性と女性の音声/ポーズ最尤値bg^m(ot)とbg^f(ot)のうち大きい方を音声/ポーズ最尤値bg^(ot)とするものである。そして、モノフォン最尤検出手段32”は、その判定結果を入力としてどちらか一方のモノフォン最尤値P(s^)bs^(ot)を求める。この例の場合、全ての種別のモノフォンの出力確率bs(ot)とその状態の出現確率P(s)の積P(s)bs(ot)を計算しないので、計算量を削減する効果が期待できる。
【0070】
<その他の変形例>
特徴量分析部20の前段に、図示しない音声区間判定部を設けても良い。例えば、音声区間判定部は、パワーが所定値以下のフレームが所定時間以上継続したときに、音声区間ではないと判断する。そして、非音声区間と判定した場合には、その区間に対するそれ以降の処理を停止するように指示信号を出力する。このような構成とすることで、非音声区間の音声認識処理を省略することができる。なお、大きな雑音等は、音声区間判定部で省略することはできないが、モノフォン最尤検出手段32及び音声/ポーズ最尤検出手段33において、音声か非音声(ポーズ)か判定するため、誤認識を防ぐことができる。
【0071】
モノフォン最尤検出手段32で用いる各状態sの出現頻度、または、出現確率は、実際の音声認識処理には用いないため、この情報を保持しない音響モデルパラメータメモリ50も存在する。その場合には、全ての出現頻度を1として(P(s)=1)、式(8)によりフレーム毎の事前信頼度c(ot)を求めてもよい。また、一部の状態についてのみ出現頻度または出現確率が保存されている音響モデルパラメータメモリ50も存在する。その場合には、保存されている一部の状態の出現頻度または出現確率の平均値を求め、求めた平均値を他の状態(出現頻度または出現確率の保存されていない状態)の出現頻度または出現確率として代用してもよい。
【0072】
また、事前信頼度スコア計算部において、複数の音響モデルを用いる場合、発話区間を推定し、発話区間毎に最適な音響モデルを推定する構成としてもよい。例えば、参考文献4のように、音声/ポーズGMMを用いて事前に性別を推定し、推定した性別に適合する音響モデル(男性音響モデルまたは女性音響モデル)を用いる構成とする。
[参考文献4]S. Kobashikawa, A. Ogawa, Y. Yamaguchi, and S. Takahashi,“Rapid unsupervised adaptation using frame independent output probabilities of gender and context independent phoneme models”, INTERSPEECH, 2009, pp.1615-1618.
モノフォン最尤検出手段32及び音声/ポーズ最尤検出手段33は、それぞれ対数log(P(s^)bs^(ot))及び対数logbg^(ot)に代えて、P(s^)bs^(ot)及びbg^(ot)を出力し、事前信頼度算出手段34において、対数log(P(s^)bs^(ot))及びlogbg^(ot)を求めてもよい。
【0073】
なお、前記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0074】
<実験結果>
本実験の音響分析条件は、標本化周波数16kHz、窓幅20msecのハミング窓、窓シフト10msecで、特徴量は25次元(MFCC12、ΔMFCC12、ΔPOWER)であり、評価タスクは、話者48名(男性17名、女性31名)による計240通話(合計19.81時間、17,672発話)で、発話内容は1対1対話における自由発話である。音響モデルは、男女別不特定話者モデルで、総状態数は1,958、総分布数は男性26,567、女性29,836である。性別選択は参考文献4と同様に音声/ポーズGMMを用いて事前に行った。言語モデルは、対話音声の書き起こしをベースに構築した単語trigramであり、語彙サイズは59,676単語である。デコーダには、音声認識エンジンVoiceRex(参考文献5参照)を用いた。
[参考文献5]H. Masataki, D. Shibata, Y. Nakazawa, S. Kobashikawa, A. Ogawa, and K. Ohtsuki, “VoiceRex - Spontaneous speech recognition technology for contact-center conversations,” NTT Tech. Rev., 2007, vol. 5, no. 1, pp. 22-27
【0075】
提案する事前信頼度推定による認識対象データ選択の有効性を示すために、通話単位でのデータ選択率に対する選択された通話音声の平均認識率(文字単位) で評価し、理想条件:認識精度が高い順に選択した理想条件、平均認識率:実験に用いた全通話音声の平均認識率、従来技術:音声認識処理後の音声認識結果を用いた事後的な信頼度スコアの高い順に選択、提案技術:提案する事前信頼度の高い順に選択(実施例1の音声認識装置100)、の4条件で比較を行った。また、従来技術は、参考文献6のように音声認識結果のNベストに基づき信頼度を推定している手法を採用した。さらに、事前信頼度推定の速度に関しては、音声認識処理を含む従来技術との比較により評価を行った。
[参考文献6]B. Rueber, “Obtaining confidence measures from sentence probabilities”, In EUROSPEECH-1997, pp.739-742
【0076】
提案手法による認識対象データの選択の効果を、図9に示す。実施例1の音声認識装置100は、理想条件には及ばないものの、全ての選択率で平均認識率よりも高い認識率を示しており、選択が認識率の改善に効果を示している。さらに、音声認識処理後の事後的な信頼度に基づく手法(従来技術)と同等の性能を示した。また、事前信頼度推定の処理時間は、従来技術との比で、僅か0.0184であり、50倍以上の速度向上を実現した。限られた計算資源の下で全ての通話音声を認識処理できない場合においては、図9に示すような事後的な信頼度による選択は実現できないため、提案する事前信頼度に基づく選択が有効であると言える。
【0077】
本稿では、環境独立音素モデル及び音声モデルを用いた高速な事前信頼度推定に基づき、認識対象音声データを音声認識処理前に選択する手法を提案した。実験の結果、音声認識処理後の事後的な信頼度推定に比べておよそ54倍の速度で同等の選択性能を実現した。
【実施例2】
【0078】
<音声認識装置200>
図4を用いて実施例2に係る音声認識装置200について、実施例1と異なる部分のみを説明する。音声認識装置200は、事前信頼度スコア計算部230の処理内容が実施例1と異なる。
【0079】
<事前信頼度スコア計算部230>
図10を用いて、事前信頼度スコア計算部230を説明する。事前信頼度スコア計算部230は、モノフォン最尤検出手段232と、音声/ポーズ最尤検出手段33と、事前信頼度算出手段234と、信頼度スコア算出手段35とを備え、モノフォン最尤検出手段232と事前信頼度算出手段234の処理内容が実施例1と異なる。
【0080】
(モノフォン最尤検出手段232)
モノフォン最尤検出手段232は、フレームt毎の音声特徴量otに対する各モノフォンGMMから得られる出力確率bs(ot)とそのGMMが属する状態sの出現確率P(s)の積P(s)bs(ot)から、モノフォン最尤値P(s^)bs^(ot)を求め、モノフォン最尤状態s^に属するGMMから得られる出力確率bs^(ot)の対数logbs^(ot)を事前信頼度算出手段34に出力する。
【0081】
(事前信頼度算出手段234)
事前信頼度算出手段234は、モノフォン最尤状態s^に属するGMMから得られる出力確率bs^(ot)の対数logbs^(ot)と音声/ポーズ最尤値の対数logbg^(ot)とを入力され、式(12)によりその差を当該フレームの事前信頼度c(ot)として求め、信頼度スコア算出手段35に出力する。
【0082】
【数13】
【0083】
式(11)に代えて、式(12)を用いても、実施例1と同様に事前信頼度c(ot)を求めることができる。
【0084】
なお、式(12)が以下の観点からも、事前信頼度として有効であることがわかる。図11に、音声特徴量と尤度との関係を示す。尤度は、尤もらしさを表す値であり、出力確率値で代用しても良い。横軸が音声特徴量、縦軸が尤度である。図中に、音響モデル中に含まれる音声モデル(破線)とモノフォンの音素モデル「*−a+*」,「*−i+*」,「*−u+*」のそれぞれの分布を表す。なお、−は左側依存、+は右側依存を表し、*はどのような音素でもよいことを表す。図11では、簡略化のため音素モデルの状態数を1、混合分布数を1として表現している。
【0085】
音声モデルに用いるGMMは、全ての音声すなわち全ての音素の学習データに基づき学習されたモデルである。そのため、その分布は、音声特徴量に対する尤度の値が比較的なだらかな分布となる。それに対して、モノフォンは、各音素の学習データで学習されたモデルである。そのため、当該音素に対応する音声特徴量に対する尤度の値が急峻な分布である。
【0086】
従って、ある音声特徴量に対する音声モデルの尤度と、同じ音声特徴量に対するモノフォンの尤度を比較することで、音声ファイルの信頼度を判定することが可能である。つまり、雑音の影響を受けずに収録された音素aの音声特徴量otclean(a)に対するモノフォン「*−a+*」の尤度bs(otclean(a))は大きな値を示す。一方、同じ音声特徴量otclean(a)に対する音声モデルの尤度bg(otclean(a))は相対的に小さな値を示す。その結果、それらの値の間には大きな差が生じる。
【0087】
これに対して、雑音の影響を強く受けて収録された音素aの音声特徴量otnoisy(a)は、本来の特徴量とは異なるのでモノフォンでの尤度bs(otnoisy(a))と、音声モデルにおける尤度bg(otnoisy(a))との間の差が小さくなる。
【0088】
このように音声特徴量に対するモノフォンの尤度bs(ot)と、音声モデルの尤度bg(ot)との差を見ることで、収録音声の品質を評価することができる。よって式(12)により事前信頼度c(ot)を求めることができることがわかる。
【0089】
このような構成とすることで、実施例1と同様の効果を得ることができる。また、実施例1で用いる式(11)では第1項に、最尤状態s^の出現確率P(s^)(<1)を含むため、事前信頼度c(ot)の値が小さくなり、負の領域になる可能性が高い。実施例2で用いる式(12)では、第1項と第2項とも同様の出力確率の対数スコアであり、かつ前述の通り音声モデルの分布がモノフォンの分布に比べてなだらかなことから、第2項の値は第1項に比べて小さくなり、正の領域になる可能性が高い。すなわち、事前信頼度c(ot)、ひいては信頼度スコアCの値の取り得る値の範囲が制限される。従って、後段で音声認識処理制御を行う場合、音声認識処理を制御する閾値Cthの設定が容易になる。
【実施例3】
【0090】
<音声認識装置300>
図12を用いて実施例3に係る音声認識装置300を説明する。音声認識装置300は、認識処理制御部380を備える点、及び音声認識装置340の処理内容が音声認識装置100、200と異なる。
<認識処理制御部380>
認識処理制御部380は、制御信号としてビーム探索幅N(C)を出力する。その一例を式(13)に示す。
【0091】
【数14】
【0092】
図13に信頼度スコアCとビーム探索幅N(C)との関係を例示する。横軸は信頼度スコアCであり、縦軸はビーム探索幅N(C)である。
図13に示すように式(13)は、所定の範囲の信頼度スコアC(Cmin〜Cmax)に対応するビーム探索幅N(C)(Nmin〜Nmax)を、信頼度スコアCの値で比例配分する考えである。ここでは、比例係数が負の値なので、信頼度スコアCが小でビーム探索幅N(C)が大であり、Cが大でN(C)が小となる関係である。もちろん、信頼度スコアCとビーム探索幅N(C)との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅N(C)を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
【0093】
ここで、例えばCmax=μ+σ、Cmin=μ―σとして、Nmaxを通常用いるビーム幅の1.5倍、Nminを通常用いるビーム幅の半分等としても良い。また、平均音質が極端に悪い場合(例えばC<Cmin)には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばNminにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。また、音声認識処理を停止させる信号とビーム探索幅の制御信号を並存させても良い。
【0094】
<音声認識処理部340>
音声認識処理部340は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列を入力として音声認識処理を行う。例えば、認識処理制御部380から音声認識処理を停止させる信号を受信した場合には、対応する音声ファイルについては、音声認識処理を停止させる。また、ビーム探索幅N(C)の制御信号を受信した場合には、そのビーム探索幅N(C)に基づき、音声認識処理を行う。
【0095】
<効果>
このように、認識処理制御部380を備えた音声認識装置300は、複数の音声ファイルの音声認識処理の効率化と、認識精度の向上を図ることができる。なお、認識処理制御部380の機能は、音声認識処理部40に持たせても良い。
【実施例4】
【0096】
<音声認識装置400>
図14及び図15を用いて実施例4に係る音声認識装置400を説明する。
音声認識装置400は、音声ファイル処理部401と、ソート音声認識処理部440と、を備える点で音声認識装置100、200と異なる。
【0097】
<音声ファイル処理部401>
音声ファイル処理部401は、複数の音声ファイルの信頼度スコアCの高い順番に複数の音声ファイルを並び替える(ステップS401)。
<ソート音声認識処理部440>
ソート音声認識処理部440は、信頼度スコアCの高い順番に音声認識処理を行う(ステップS440)。
【0098】
<効果>
このような構成とすることで、実施例1と同様の効果を得ることができる。さらに、このように信頼度スコアCの大きさ順に音声認識処理を実行することで、複数の音声ファイルの音声認識処理を行う場合の処理効率を向上させることができる。例えば、全音声ファイルに対して音声認識処理を行うことが、計算機資源や処理時間の関係等によって難しい場合には、信頼度スコアCが小さい音声ファイルは音声認識処理が行われず、音声認識精度が高い事が期待される信頼度スコアCが大きな音声ファイルにのみ音声認識処理が行われることになり、高精度な音声認識結果を収集することが可能になる。なお、音声ファイル処理部401の機能は、ソート音声認識処理部440の機能に含めても良い。なお、実施例3の音声認識装置300と音声ファイル処理部401及びソート音声認識処理部440を組み合わせても、同様の効果をえることができる。
【実施例5】
【0099】
<音声認識装置500>
図16及び図17を用いて実施例5に係る音声認識装置500を説明する。
音声認識装置500は、教師なし適応制御部501と、教師なし適応部502と、適応後音響モデルパラメータメモリ503と、第2認識処理部504とを備える点で音声認識装置100、200と異なる。
【0100】
<教師なし適応制御部501>
教師なし適応制御部501は、事前信頼度Cを入力として、その事前信頼度Cの値が一定範囲内(例えばC>Cth2であり、Cth2>Cthとする。ここで、Cth2は、前述の信頼度スコア分布の平均値μ、標準偏差σを用いて、例えばCth2=μ―σ等としてもよい)か否かを判定して教師なし適応制御信号pを出力する(ステップS501)。事前信頼度Cの値が一定範囲内でない場合、その音声ファイルの処理を終了する(ステップS501のNO)。教師なし適応制御信号とは、音声認識処理部40が出力する音声認識結果を適応用ラベルとして用いるか否かを制御する信号である。
【0101】
<教師なし適応部502>
教師なし適応部502は、教師なし適応制御信号pが、音声認識処理部40が出力する音声認識結果Wを適応用ラベルとして用いることを指示していた場合、音声認識結果Wを適応用ラベルとして音響モデルパラメータメモリ50に記録された音響モデルを学習して、適応後音響モデルを生成する(ステップS502)。適応後音響モデルは、適応後音響モデルパラメータメモリ503に記録される。
【0102】
<第2認識処理部504>
第2認識処理部504は、適応後音響モデルパラメータメモリ503に記録された適応後音響モデルを用いて音声特徴量系列Oの音声認識処理を行い、音声認識結果W’を出力する(ステップS504)。なお、このとき、事前信頼度スコア計算部30で求めた信頼度スコアCを一緒に出力してもよい。
【0103】
<効果>
このような構成とすることで実施例1と同様の効果を得ることができる。さらに、音声認識装置500は、事前信頼度Cの値が一定範囲内にある場合に限って、音声認識結果Wを適応用ラベルとして音響モデルを学習し、さらに音声認識処理を行う。事前信頼度スコアCが低く音声ファイルの認識精度の低い場合には、そのときの音声認識処理結果Wは、教師なし適応における適応用ラベルとしてふさわしくなく、教師なし適応による音響モデルの精度向上が期待できない。そのような場合に、教師なし適応や第2音声認識処理を省略することで、その計算時間を削減できる。また、信頼度スコアCが高く音声ファイルの認識精度の高い音声認識結果Wを適応用ラベルとして音響モデルを学習するので、音響モデルの精度を自動的に向上させることができる。なお、実施例3、4の音声認識装置300、400と教師なし適応制御部501、教師なし適応部502、適応後音響モデルパラメータメモリ503及び第2認識処理部504を組み合わせても、同様の効果をえることができる。
【0104】
<プログラム>
また、前記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0105】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0106】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0107】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0108】
100、200、300、400、500、900 音声認識装置
20 特徴量分析部
30、30’、230 事前信頼度スコア計算部
40、340 音声認識処理部
50 音響モデルパラメータメモリ
60 言語モデルパラメータメモリ
380 認識処理制御部
401 音声ファイル処理部
440 ソート音声認識処理部
501 教師なし適応制御部
502 教師なし適応部
503 適応後音響モデルパラメータメモリ
504 第2認識処理部
【技術分野】
【0001】
本発明は、様々な音質の音声データを効率良く音声認識する音声認識方法、音声認識装置及び音声認識プログラムに関する。
【背景技術】
【0002】
近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する。
【0003】
そこで、従来から音声認識結果に信頼度を付与することで、音声認識誤りに起因する不具合を抑制する方法が検討されている。例えば、特許文献1が音声認識結果に信頼度を付与する従来技術として知られている。図1に特許文献1の音声認識装置900の機能構成を示す。音声認識装置900は、音響分析部120、音響モデル格納部140、辞書・言語モデル格納部150、探索部160、信頼度計算部190を備える。
【0004】
音響分析部120は、入力音声信号110を、数十msのフレームと呼ばれる単位で例えばメル周波数ケプストラム係数(MFCC)分析して音響特徴パラメータ系列130を生成する。探索部160は、音響特徴パラメータ系列130について、音響モデル格納部140と辞書・言語モデル格納部150とを用いて音声認識結果候補の探索を行う。探索の結果、上位〜N位までの音声認識結果170と、各音声認識結果に対するスコア180が出力される。
【0005】
信頼度計算部190は、音声認識結果170とスコア180に基づいて複数の音声認識結果170にそれぞれ対応する信頼度スコア195を計算して出力する。その信頼度スコア195は、例えば音声認識結果として得られたNベスト候補及びそれらのスコアの単純なスコア差と加算平均から求められる。
【0006】
この信頼度スコア195を参照することで、その信頼度スコア195に対応する音声認識結果170を廃棄したり、発話者に対して音声認識結果を確認したりする。このような処理を行うことで、誤認識による不具合の発生を抑制していた。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2005−148342号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、従来の音声認識装置900では、信頼度スコアを、音声認識処理を行った後の音声認識結果や音声認識結果に付随するスコアから計算していた。従って、信頼度スコアを得るのに音声認識処理の処理時間を必要としていた。S/N比が悪い等の理由により認識精度の低いものの中には、例え探索時のビーム幅を広げたり、教師なし適応を行ったとしても、誤認識ばかりで、認識精度を向上することができない利用不能な音声データも存在する。よって、音声認識処理を行った後のスコアから信頼度スコアを計算する場合、利用不能な音声データに余分な処理時間をかけてしまうという問題がある。また、大量の音声ファイルに対して音声認識処理を行う場合に、音声認識精度の低い音声ファイルの処理に時間がかかり、他の音声認識精度の高い音声ファイルの処理が進まず、音声認識処理全体の処理効率を低下させるという問題がある。また、言語モデルを用いた音声認識結果に基づく処理のため、信頼度スコアの値が言語モデルに依存してしまうという問題もある。
【0009】
この発明は、このような問題点に鑑みてなされたものであり、音声認識処理を行うこと無く短い処理時間で信頼度スコアが計算可能であり、言語モデルに依存しない信頼度スコアを出力する音声認識装置と音声認識方法と、音声認識プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記の課題を解決するために、本発明に係る音声認識方法は、音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求め、フレーム毎の音声特徴量系列を用いて、その音声特徴量系列に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数または出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求め、音声特徴量系列を用いて、信頼度スコアに基づき音声認識処理を行う。
【0011】
また、本発明に係る音声認識装置は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数または出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、音声特徴量系列を入力として、信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える。
【発明の効果】
【0012】
本発明は、音声認識処理を行う前に、音声認識の結果として得られる音声認識結果に対する信頼度を事前に推定し、求められた信頼度に基づき音声認識処理を行う。そのため、利用不能な音声データに対する処理時間を削減することができるという効果を奏する。また、信頼度の高い音声データ、つまり、音声認識精度の高いことが期待できる音声データの処理を優先的に行い、音声認識処理全体の処理効率を向上させることができるという効果を奏する。さらに、信頼度を求める際に、言語モデルを用いないため、言語モデルに依存しない(事前)信頼度を求めることができるという効果を奏する。
【図面の簡単な説明】
【0013】
【図1】特許文献1に開示された従来の音声認識装置900の機能構成を示す図。
【図2】音素モデルの一例を示す図。
【図3】音素モデルを構成する1状態を模式的に示す図。
【図4】音声認識装置100、200の機能構成例を示す図。
【図5】音声認識装置100の動作フローを示す図。
【図6】事前信頼度スコア計算部30、30’の機能構成例を示す図。
【図7】モノフォン最尤状態と音声/ポーズ最尤状態の時間経過を模式的に示す図。
【図8】図7を二種の音響モデルにした場合を示す図。
【図9】実験結果を示す図。
【図10】事前信頼度スコア計算部230の機能構成例を示す図。
【図11】実施例2の基本的な考え方を説明するために音声特徴量と尤度(または出力確率)との関係を模式的に示す図。
【図12】音声認識装置300の機能構成例を示す図。
【図13】信頼度スコアCとビーム探索幅N(C)との関係の例を示す図。
【図14】音声認識装置400の機能構成例を示す図。
【図15】音声認識装置400の動作フローを示す図。
【図16】音声認識装置500の機能構成例を示す図。
【図17】音声認識装置500の動作フローを示す図。
【発明を実施するための形態】
【0014】
以下、図面を参照して、この発明の実施の形態を説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の基本的な考え方について説明する。
[この発明の基本的な考え方]
一般的な信頼度尺度は、以下の単語事後確率P(W^|O)で表現される。
【0015】
【数1】
【0016】
なお、Oは音響特徴量系列であり(O=(o1,o2,…,oT))、Wは音声認識結果単語系列であり、P(W)は音声認識の結果に基づき求まる音声認識結果単語系列の出現確率であり、”^”は尤度の最も高い単語、状態、及び、尤度の高い単語系列や状態系列を示す。
【0017】
ここで、大語彙の辞書を含む言語モデルを用いた音声認識結果単語系列Wを得るためには音声認識処理にかかる膨大な計算が必要となる。この計算量を減らすために、本発明では、言語モデルは使用せず、音声認識結果単語系列Wの代わりに状態系列Sを用いることにする。よって、単語事後確率P(W^|O)は以下の式により近似される。
【0018】
【数2】
【0019】
なお、状態系列Sの種類は、とりうる全ての状態sj(但し、j=1,2,…,J)から生じうる全ての状態系列からなることが望ましいが、計算量を削減するために、音声認識で用いられている高速化手法を導入し、可能性の低い状態を予め計算対象から外してもよい。
【0020】
さらに、高速化するために、状態系列S内の各状態sjは、モノフォンに含まれる状態のみに限定する。ここで、モノフォンとは、環境独立音素モデルのことであり、前後の音素環境に制約を持つ環境依存音素モデル(例えばトライフォン)に対して、前後の音素の制約がない音素モデルであり、その種類は少ない。例えば、音素の数を30個とした場合、モノフォン音響モデル中の音素モデルの数は30個であるが、トライフォンの場合の数は303個(27000個)である。また、モノフォンは、音声以外の部分、つまり、非音声部分のモデルであるポーズモデルを含むものとする。モノフォンの音素モデルは、1以上(通常3個程度)の状態の確率連鎖によって構築され、モノフォンHMM(Hidden Markov Model)として表される。モノフォンHMMは、例えば、図2に示すようにleft−to−right型HMMで表される。図2は、3つの状態s1(第1状態)、s2(第2状態)、s3(第3状態)を並べたものであり、状態の確率連鎖(状態遷移)としては、自己遷移a11、a22、a33と、次状態へのa12、a23、a34からなる。各状態sは、1以上の基底分布からなる混合分布(以下、混合正規分布GMM:Gaussian Mixture Modelを含めて混合分布とする)から構成され、例えば、図3に示すように、混合正規分布Mとして表現される。混合正規分布Mは、例えば3つの(基底)正規分布、N(μs,1,Σs,1),N(μs,2,Σs,2),N(μs,3,Σs,3)で構成される。ここでμs,mは状態sに属する正規分布mの平均ベクトル、Σsmは状態sに属する正規分布mの共分散行列を示す。
【0021】
さらに、式(2)において計算量を減らすために、多くの音声認識デコーダが遷移確率を無視するのと同様に(参考文献1参照)、本発明においても遷移確率を無視し、モノフォンHMMの各状態に属するGMM(以下、単に「モノフォンGMM」という)から得られる出力確率のみを用いて、フレーム毎の信頼度を推定する。
[参考文献1]J. R. Glass, "A probabilistic framework for segmentbased speech recognition", Computer Speech and Language, Elsevier, 2003, Vol.17, No.2-3, pp.137-152
よって、式(2)の状態事後確率P(S^|O)は、時刻tにおける音響特徴量otに対するフレーム毎の状態事後確率P(s^|ot)から近似的に以下のように、計算される。
【0022】
【数3】
【0023】
なお、Tは総フレーム数を表す。さらに、フレーム毎の状態事後確率P(s^|ot)は、以下のように状態sの出力確率bs(ot)からフレーム毎に計算される。
【0024】
【数4】
【0025】
なお、s^は時刻tにおいてP(s)・bs(ot)の値が最も高いときの状態(以下「最尤状態s^」という)であり、Msは状態sに属する混合分布数であり、ws,mは正規分布mの混合重み係数であり、Ns,m(・)は正規分布mのガウス分布関数を意味し、Ns,m(ot|μs,mΣs,m)は、時刻tの音響特徴量otに対する状態sに属する正規分布mの出力確率を意味する。なおws,mは音響モデル学習の結果で決まるものであり、0≦ws,m≦1の範囲を取る値である。例えば、混合分布数Msが16であるとすると平均すると1/16の値となる。
【0026】
参考文献2では、モノフォンは音素環境依存モデル(トライフォン)の近似モデルであるという仮定に基づき、モノフォンを用いて音響尤度計算量を削減することで高速化を行っている。本発明においても同様に、式(4)の計算において、モノフォンのみを用いることで高速化を実現する。
[参考文献2]A.Lee, T.Kawahara, K.Shikano, "Gaussian mixture selection using context-independent HMM", in Proceedings of ICASSP, 2001, vol.1, pp.69-72
式(4)の分母ΣsP(s)bs(ot)は、ポーズ以外の全ての音素の特徴量から学習した音声GMMからなる音声モデルを使って、以下のように近似される。
【0027】
【数5】
【0028】
gは前記音声モデルに属する状態であり、全ての音素の音響特徴、言い換えると、全ての状態から学習される。ここで、この音声モデルはただ1つの状態gのみを持つように構築すると、音声フレームにおいて、gの出現確率P(g)は1となる。よって、
【0029】
【数6】
【0030】
従って、式(4)と式(6)’から、フレーム毎の状態事後確率P(s^|ot)は以下の式により近似的に計算される。
【0031】
【数7】
【0032】
ここで、通常、音声認識では確率値を対数スコア領域に変換したものを計算に用いるため、フレーム毎の事前信頼度c(ot)は、式(7)で近似的に求めたフレーム毎の状態事後確率P(s^|ot)を、以下の式のように、対数スコア領域にしたものとする。
【0033】
【数8】
【0034】
フレーム毎の事前信頼度c(ot)は、前記音声モデルをUBM(Universal Background Model)と考え、状態出現確率P(s^)を無視すると、例えば参考文献3に見られるような話者照合でしばしば用いられる尤度比を対数化したものと等価となる。本発明では、状態出現確率P(s^)が導入されることによって、最尤状態s^の推定に状態の出現頻度ひいては音素毎の出現頻度が考慮されている。
[参考文献3]
D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, “Speaker verification using adapted gaussian mixture models,” Digital Signal Processing, 2000, vol.10, pp.19-41
信頼度スコアCはフレーム毎の事前信頼度c(ot)から計算される。その際、異なる長さの音声データの比較を可能とするために、総フレーム数Tによって、以下のように、正規化される。
【0035】
【数9】
【0036】
本発明は、このような考え方に基づき、音声認識結果を用いずに、モノフォン及び音声データを用いて、信頼度スコアを求める。
以下、本発明の実施の形態について、詳細に説明する。
【実施例1】
【0037】
<音声認識装置100>
図4及び図5を用いて実施例1に係る音声認識装置100を説明する。音声認識装置100は、A/D変換部10と、特徴量分析部20と、事前信頼度スコア計算部30と、音声認識処理部40と、音響モデルパラメータメモリ50と、言語モデルパラメータメモリ60とを具備する。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0038】
A/D変換部10は、音声信号x(u)を、例えばサンプリング周波数16kHzで離散値化して音声ディジタル信号x(v)に変換する(ステップS10)。但し、uは連続時間を、vは離散時間を表す。なお、音声ディジタル信号x(v)が直接入力される場合は、A/D変換部10は不要である。
【0039】
特徴量分析部20は、音声ディジタル信号x(v)を入力として、例えば320個の音声ディジタル信号x(v)を1フレーム(例えば、20ms)とし、このフレーム毎に、その音声特徴量otを分析し、音声特徴量系列Oを出力する(ステップS20)。音声特徴量としては、例えば、MFCC(Mel-Frequenct Cepstrum Coefficient)の1〜12元と、その変化量であるΔMFCC等の動的パラメータや、パワーやΔパワー等を用いる。また、ケプストラム平均正規化(CMN)等の処理を行っても良い。
【0040】
事前信頼度スコア計算部30は、音声特徴量系列Oを入力として、フレーム毎の音声特徴量otに対するモノフォンGMMから得られる出力確率bs(ot)とそのGMMの属する状態sの出現確率P(s)の積が最も高いもの(以下「モノフォン最尤値P(s^)bs^(ot)」という)を求める。さらに、事前信頼度スコア計算部30は、入力otに対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMM(以下「音声/ポーズGMM」という)から得られる出力確率が最も高いもの(以下「音声/ポーズ最尤値bg^(ot)」という)を求める。なお、この音声モデルとは前述の通り、ポーズ以外の全ての音素の特徴量から学習される。さらに、求めたモノフォン最尤値P(s^)bs^(ot)の対数と音声/ポーズ最尤値bg^(ot)の対数との差を当該フレームの事前信頼度c(ot)とし(式(8)参照)、その事前信頼度c(ot)を平均化して音声ファイル単位の信頼度スコアCを求め、出力する(ステップS30)。
【0041】
音声認識処理部40は、音声特徴量系列Oと信頼度スコアCを入力として、信頼度スコアに基づき音声認識処理を行う。例えば、信頼度スコアCに応じて音声認識処理を行うか否かを判断し(ステップS40a)、音声認識処理を行うと判断した場合には、音響モデルパラメータメモリ50に記録された音響モデルと、言語モデルパラメータメモリ60に記録された言語モデルとを参照して、音声特徴量系列Oについて音声認識処理を行い、その音声認識結果Wと信頼度スコアCを出力する(ステップS40b)。
【0042】
なお、ステップS40a、s40bの音声認識処理過程は、音声ファイルの全フレームについて処理が終了するまで繰り返される。
【0043】
音声認識装置100によれば、事前信頼度スコア計算部30が、フレーム毎に事前信頼度c(ot)を付与して、これを平均化して(つまり1フレーム当たりの平均事前信頼度を計算して)、音声ファイル単位の信頼度スコアCを計算する。音声特徴量系列Oに基づいた信頼度スコアCは、従来の音声認識結果から信頼度スコアを求める方法と比べて計算量が少なくて済む。また、複数の音声ファイルを処理する場合に、信頼度スコアCの値に応じて音声認識処理を行うか否かを判断をすることで、信頼度Cが低い、つまり音声認識精度が低い音声ファイルの音声認識処理に時間がかかるという問題も解決される。次に、実施例1の主要部である事前信頼度スコア計算部30のより具体的な構成例を示してさらに詳しく説明する。
【0044】
<事前信頼度スコア計算部30>
図6を用いて、事前信頼度スコア計算部30を説明する。事前信頼度スコア計算部30は、モノフォン最尤検出手段32と、音声/ポーズ最尤検出手段33と、事前信頼度算出手段34と、信頼度スコア算出手段35とを備える。
【0045】
図7に、モノフォンの出力確率とポーズモデルと音声モデルの出力確率の時間経過を模式的に示す。横方向は時間経過をフレームtで表す。縦方向はフレームt毎の複数のモノフォンと音声モデルのそれぞれの状態を表す。例えば、各モノフォンは、それぞれ3つの状態から成り、モノフォン「*−a+*」は状態a1,a2,a3から成る。太い丸の状態がモノフォン最尤値P(s^)bs^(ot)に対応するモノフォン最尤状態s^を表す。斜線入り丸の状態が音声/ポーズ最尤値bg^(ot)に対応する音声/ポーズ最尤状態g^を表す。モノフォン最尤状態s^と、音声/ポーズ最尤状態g^が、一致する場合(s^=g^)には斜線入りの太い丸で示す。
【0046】
時刻t1〜t3では、モノフォン最尤状態s^は、それぞれポーズモデルの第1状態p1〜第3状態p3である。同様に音声/ポーズ最尤状態g^は、それぞれポーズモデルの第1状態p1〜第3状態p3である。このことから、時刻t1〜t3は非音声状態である。例えば、時刻t1では、式(8)を用いて、モノフォン「*−pause+*」の第1状態p1の出現確率P(p1)と、状態p1に属するGMMの出力確率bp1(ot1)の積の対数と、ポーズモデルの状態p1に属するGMMの出力確率bp1(ot1)の対数との差を事前信頼度c(ot1)とする。つまり以下のように求められる。
c(ot1)=log(P(p1)bp1(ot1))−logbp1(ot1)
【0047】
時刻t4では、モノフォン最尤状態s^は、モノフォン「*−a+*」の第3状態a3であり、音声/ポーズ最尤状態g^が音声モデルの状態gであることから音声状態であると考えられる。式(8)を用いて、モノフォン「*−a+*」の第3状態a3の出現確率P(a3)と、状態a3に属するGMMの出力確率ba3(ot4)の積の対数と、音声モデルの状態gに属するGMMの出力確率bg(ot4)の対数との差を事前信頼度c(ot4)とする。つまり以下のように求められる。
c(ot4)=log(P(a3)ba3(ot4))−logbg(ot4)
【0048】
また、時刻t19では、モノフォン最尤状態s^は、モノフォン「*−i+*」の第2状態i2であり、音声/ポーズ最尤状態g^がポーズモデルの第3状態p3である。このとき、式(8)を用いて、モノフォン「*−i+*」の第2状態i2の出現確率P(i2)と、状態i2に属するGMMの出力確率bi2(ot19)の積の対数と、ポーズモデルの第3状態p3に属するGMMの出力確率bp3(ot19)の対数との差を事前信頼度c(ot19)とする。つまり以下のように求められる。
c(ot19)=log(P(i2)bi2(ot19))−logbp3(ot19)
なお、図7は、一部の時間しか示していない。音声ファイルの長さは例えば数分(例えば30,000フレーム)程度である。以下、各手段の処理を具体的に説明する。
【0049】
(モノフォン最尤検出手段32)
モノフォン最尤検出手段32は、フレームt毎の音声特徴量otに対する各モノフォンGMMから得られる出力確率bs(ot)とそのGMMが属する状態sの出現確率P(s)の積P(s)bs(ot)から、モノフォン最尤値P(s^)bs^(ot)を求め、その対数log(P(s^)bs^(ot))を事前信頼度算出手段34に出力する。なお、モノフォン最尤検出手段32は、音響モデルパラメータメモリ50を参照して、各モノフォンGMMと各状態sの出現確率P(s)を取得することができる。また、モノフォン最尤検出手段32は、各モノフォンGMMと各状態sの出現確率P(s)を予め音響モデルパラメータメモリ50から取得しておき、記憶しておいてもよい。
【0050】
なお、モノフォン最尤状態s^の出現確率P(s^)は、音響モデルの学習データと目的の音声認識対象である評価音声データにおける各状態の出現確率には差がないと仮定することで、以下の式(10)により、近似的に求めてもよい。
【0051】
【数10】
【0052】
式(10)の分母は音響モデルの学習データにおける各状態sの出現頻度の和を表し、分子は音響モデルの学習データにおける最尤状態s^の出現頻度を表す。音響モデルの学習時に得られる各状態sの出現頻度の期待値Γ(s)を、音響モデルパラメータメモリ50に保存しておけば、それを利用することで容易に実現することができる。
【0053】
(音声/ポーズ最尤検出手段33)
音声/ポーズ最尤検出手段33は、フレームt毎の音声特徴量otに対する音声/ポーズGMMから得られる出力確率から、音声/ポーズ最尤値bg^(ot)を求め、その対数logbg^(ot)を事前信頼度算出手段34に出力する。なお、音声/ポーズ最尤検出手段33は、音響モデルパラメータメモリ50を参照して、音声/ポーズGMMを取得することができる。また、音声/ポーズ最尤検出手段33は、音声/ポーズGMMを予め音響モデルパラメータメモリ50から取得しておき、記憶しておいてもよい。
【0054】
(事前信頼度算出手段34)
事前信頼度算出手段34は、モノフォン最尤値の対数log(P(s^)bs^(ot))と音声/ポーズ最尤値の対数logbg^(ot)とを入力され、以下の式(11)によりその差を当該フレームの事前信頼度c(ot)として求め、信頼度スコア算出手段35に出力する。
【0055】
【数11】
【0056】
(信頼度スコア算出手段35)
信頼度スコア算出手段35は、フレーム毎の事前信頼度c(ot)を入力され、式(9)により、フレーム毎の事前信頼度c(ot)を平均化して音声ファイル単位のもの(言い換えると、事前信頼度c(ot)を音声ファイルの継続時間T(総フレーム数)の間累積して平均したもの)を信頼度スコアCとして求め、出力する。
【0057】
【数12】
【0058】
このように、事前信頼度スコア計算部30は、フレーム単位の事前信頼度c(ot)を音声ファイルの総フレーム数Tで平均することで音声ファイル単位の信頼度を表す信頼度スコアCを計算する。なお、音声ファイル単位の信頼度スコアCを求めるので精緻な処理を必要としない。また、このような構成とすることで、入力音声信号の品質や音響モデル等との整合性によって処理速度が変化することなく、安定した処理速度で事前信頼度計算を行うことができる。次に音声認識処理部40の詳細を説明する。
【0059】
<音声認識処理部40>
音声認識処理部40は、特徴量分析部20が出力する音声特徴量系列O(=o1,o2,…,oT)と信頼度スコアCを入力として、音響モデルパラメータメモリ50及び言語モデルパラメータ60を参照して、音声認識処理を行い、音声認識結果Wを出力する。この時、信頼度スコアCを同時に出力しても良い。ここでの音声認識処理は、音響モデルパラメータメモリ50に記録された全ての音響モデルを用いた認識処理が行われる。音声認識処理部40は、信頼度スコアCの値に応じて音声認識処理の実行の有無を切り替える。
【0060】
例えば、音声認識処理部40は、信頼度スコアCが一定値Cth以下の場合に音声認識処理を停止する。信頼度スコアCは音声ファイル毎に計算される値であるので、音声認識処理部40は音声ファイル単位で音声認識処理の実行の有無を切り替える。一定値Cthは、例えば、音響モデルの学習データに対する信頼度スコア分布から算出する方法が考えられる。信頼度スコア分布の平均値μ、標準偏差σとした場合に、例えばCth=μ−2σとする。また、例えば、音声認識処理部40は、複数の音声ファイルの信頼度スコアCを求め蓄積しておき、上位N個(例えば、全音声認識対象音声ファイル中の20%に当たる個数等)の音声ファイルのみを音声認識処理する構成としてもよい。
【0061】
<効果>
以上述べたように、この発明の音声認識装置によれば、音声特徴量に基づいた事前信頼度を求め、フレーム毎の事前信頼度を平均化して音声ファイル単位の信頼度スコアを計算する。従って、従来の音声認識装置よりも軽い処理で信頼度スコアが求められる。また、音声特徴量に基づく処理なので、言語モデルに依存しない信頼度スコアを得ることができる。また、求められた信頼度スコアの値に応じて音声認識処理を行うか否かを判断することで、例えばS/N比が悪い等の理由により音声認識精度の低い音声ファイルの音声認識処理に時間がかかる問題も解決できる。また、従来は単語やキーワード単位、あるいは、発話(文)単位での信頼度計算であったのに対し、本実施例の音声認識装置100は、複数発話からなる音声ファイル単位での信頼度スコアを計算することができる。
【0062】
<変形例1>
図4及び図6を用いて、実施例1と異なる部分のみ説明する。実施例1とは、事前信頼度スコア計算部30’の処理内容が異なる。
【0063】
<事前信頼度スコア計算部30’>
事前信頼度スコア計算部30’は、モノフォン最尤検出手段32’と、音声/ポーズ最尤検出手段33’と、事前信頼度算出手段34と、信頼度スコア算出手段35とを備える。モノフォン最尤検出手段32’と音声/ポーズ最尤検出手段33’の処理が実施例1と異なる。事前信頼度スコア計算部30’では、二種以上の音響モデル中に含まれるモノフォン及び音声モデルに基づいて計算したフレーム毎の事前信頼度を平均化して音声ファイル単位の信頼度スコアCを計算する。図8に、二種以上の音響モデルを、男性音響モデルと女性音響モデルとした場合の出力確率の時間経過の一例を示す。
【0064】
(モノフォン最尤検出手段32’)
モノフォン最尤検出手段32’は、まず、フレームt毎の音声特徴量otに対する男性モノフォンHMMの状態smに属するGMM(以下「男性モノフォンGMM」という)から得られる出力確率bsm(ot)とそのGMMが属する状態smの出現確率P(sm)の積P(sm)bsm(ot)から、最も高い値(以下、「男性モノフォン最尤値P(s^m)bs^m(ot)」という)を求める。次に、音声特徴量otに対する女性モノフォンHMMの状態sfに属するGMM(以下「女性モノフォンGMM」という)から得られる出力確率bsf(ot)とそのGMMが属する状態sfの出現確率P(sf)の積P(sf)bsf(ot)から、最も高い値(以下、「女性モノフォン最尤値P(s^f)bs^f(ot)」という)を求める。男性モノフォン最尤値P(s^m)bs^m(ot)と女性モノフォン最尤値P(s^f)bs^f(ot)のうち、大きい方をモノフォン最尤値P(s^)bs^(ot)とし、その対数を事前信頼度算出手段34に出力する。
【0065】
(音声/ポーズ最尤検出手段33’)
音声/ポーズ最尤検出手段33’は、まずフレームt毎の音声特徴量otに対する男性音声/ポーズGMMから得られる出力確率から、男性音声/ポーズ最尤値bg^m(ot)を求める。次に、まずフレームt毎の音声特徴量otに対する女性音声/ポーズGMMから得られる出力確率から、女性音声/ポーズ最尤値bg^f(ot)を求める。男性音声/ポーズ最尤値bg^m(ot)と女性音声/ポーズ最尤値bg^f(ot)のうち、大きい方を音声/ポーズ最尤値bg^(ot)とし、その対数を事前信頼度算出手段34に出力する。
【0066】
事前信頼度算出手段34は、モノフォン最尤値の対数log(P(s^)bs^(ot))と音声/ポーズ最尤値の対数logbg^(ot)から式(11)によりその差を当該フレームの事前信頼度c(ot)として求める。信頼度スコア算出手段35は、フレーム毎の事前信頼度c(ot)を入力され、式(9)により、フレーム毎の事前信頼度c(ot)を平均化して音声ファイル単位のものを信頼度スコアCとして求める。
【0067】
このような構成とすることによって、後段の音声認識処理が複数の音響モデルを用いる場合でも、同様に複数の種別の音響モデルを事前信頼度スコア計算に用いることで、信頼度スコアCを音声認識処理に合わせて精度よく求めることができる。なお、事前信頼度スコア計算部30’に用いる音響モデルの種別は三種以上の複数であっても良い。
【0068】
また、信頼度スコアCは、音声特徴量系列に対する二種以上の音声モデル又はポーズモデルの最尤状態の出力確率を比較し、出力確率が大きい種別のモノフォンに限定して計算された値であっても良い。つまり、前記した例のように男性と女性のモノフォンの最尤値P(s^m)bs^m(ot)とP(s^f)bs^f(ot)を全てのフレームについて求めるのでは無く、音声モデル又はポーズモデルの出力確率が女性(男性)よりも男性(女性)が高くなるフレームは、男性(女性)モノフォンに限定して計算する方法も考えられる。
【0069】
すなわち、音声/ポーズ最尤検出手段33”は、男性と女性の音声/ポーズ最尤値bg^m(ot)とbg^f(ot)のうち大きい方を音声/ポーズ最尤値bg^(ot)とするものである。そして、モノフォン最尤検出手段32”は、その判定結果を入力としてどちらか一方のモノフォン最尤値P(s^)bs^(ot)を求める。この例の場合、全ての種別のモノフォンの出力確率bs(ot)とその状態の出現確率P(s)の積P(s)bs(ot)を計算しないので、計算量を削減する効果が期待できる。
【0070】
<その他の変形例>
特徴量分析部20の前段に、図示しない音声区間判定部を設けても良い。例えば、音声区間判定部は、パワーが所定値以下のフレームが所定時間以上継続したときに、音声区間ではないと判断する。そして、非音声区間と判定した場合には、その区間に対するそれ以降の処理を停止するように指示信号を出力する。このような構成とすることで、非音声区間の音声認識処理を省略することができる。なお、大きな雑音等は、音声区間判定部で省略することはできないが、モノフォン最尤検出手段32及び音声/ポーズ最尤検出手段33において、音声か非音声(ポーズ)か判定するため、誤認識を防ぐことができる。
【0071】
モノフォン最尤検出手段32で用いる各状態sの出現頻度、または、出現確率は、実際の音声認識処理には用いないため、この情報を保持しない音響モデルパラメータメモリ50も存在する。その場合には、全ての出現頻度を1として(P(s)=1)、式(8)によりフレーム毎の事前信頼度c(ot)を求めてもよい。また、一部の状態についてのみ出現頻度または出現確率が保存されている音響モデルパラメータメモリ50も存在する。その場合には、保存されている一部の状態の出現頻度または出現確率の平均値を求め、求めた平均値を他の状態(出現頻度または出現確率の保存されていない状態)の出現頻度または出現確率として代用してもよい。
【0072】
また、事前信頼度スコア計算部において、複数の音響モデルを用いる場合、発話区間を推定し、発話区間毎に最適な音響モデルを推定する構成としてもよい。例えば、参考文献4のように、音声/ポーズGMMを用いて事前に性別を推定し、推定した性別に適合する音響モデル(男性音響モデルまたは女性音響モデル)を用いる構成とする。
[参考文献4]S. Kobashikawa, A. Ogawa, Y. Yamaguchi, and S. Takahashi,“Rapid unsupervised adaptation using frame independent output probabilities of gender and context independent phoneme models”, INTERSPEECH, 2009, pp.1615-1618.
モノフォン最尤検出手段32及び音声/ポーズ最尤検出手段33は、それぞれ対数log(P(s^)bs^(ot))及び対数logbg^(ot)に代えて、P(s^)bs^(ot)及びbg^(ot)を出力し、事前信頼度算出手段34において、対数log(P(s^)bs^(ot))及びlogbg^(ot)を求めてもよい。
【0073】
なお、前記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0074】
<実験結果>
本実験の音響分析条件は、標本化周波数16kHz、窓幅20msecのハミング窓、窓シフト10msecで、特徴量は25次元(MFCC12、ΔMFCC12、ΔPOWER)であり、評価タスクは、話者48名(男性17名、女性31名)による計240通話(合計19.81時間、17,672発話)で、発話内容は1対1対話における自由発話である。音響モデルは、男女別不特定話者モデルで、総状態数は1,958、総分布数は男性26,567、女性29,836である。性別選択は参考文献4と同様に音声/ポーズGMMを用いて事前に行った。言語モデルは、対話音声の書き起こしをベースに構築した単語trigramであり、語彙サイズは59,676単語である。デコーダには、音声認識エンジンVoiceRex(参考文献5参照)を用いた。
[参考文献5]H. Masataki, D. Shibata, Y. Nakazawa, S. Kobashikawa, A. Ogawa, and K. Ohtsuki, “VoiceRex - Spontaneous speech recognition technology for contact-center conversations,” NTT Tech. Rev., 2007, vol. 5, no. 1, pp. 22-27
【0075】
提案する事前信頼度推定による認識対象データ選択の有効性を示すために、通話単位でのデータ選択率に対する選択された通話音声の平均認識率(文字単位) で評価し、理想条件:認識精度が高い順に選択した理想条件、平均認識率:実験に用いた全通話音声の平均認識率、従来技術:音声認識処理後の音声認識結果を用いた事後的な信頼度スコアの高い順に選択、提案技術:提案する事前信頼度の高い順に選択(実施例1の音声認識装置100)、の4条件で比較を行った。また、従来技術は、参考文献6のように音声認識結果のNベストに基づき信頼度を推定している手法を採用した。さらに、事前信頼度推定の速度に関しては、音声認識処理を含む従来技術との比較により評価を行った。
[参考文献6]B. Rueber, “Obtaining confidence measures from sentence probabilities”, In EUROSPEECH-1997, pp.739-742
【0076】
提案手法による認識対象データの選択の効果を、図9に示す。実施例1の音声認識装置100は、理想条件には及ばないものの、全ての選択率で平均認識率よりも高い認識率を示しており、選択が認識率の改善に効果を示している。さらに、音声認識処理後の事後的な信頼度に基づく手法(従来技術)と同等の性能を示した。また、事前信頼度推定の処理時間は、従来技術との比で、僅か0.0184であり、50倍以上の速度向上を実現した。限られた計算資源の下で全ての通話音声を認識処理できない場合においては、図9に示すような事後的な信頼度による選択は実現できないため、提案する事前信頼度に基づく選択が有効であると言える。
【0077】
本稿では、環境独立音素モデル及び音声モデルを用いた高速な事前信頼度推定に基づき、認識対象音声データを音声認識処理前に選択する手法を提案した。実験の結果、音声認識処理後の事後的な信頼度推定に比べておよそ54倍の速度で同等の選択性能を実現した。
【実施例2】
【0078】
<音声認識装置200>
図4を用いて実施例2に係る音声認識装置200について、実施例1と異なる部分のみを説明する。音声認識装置200は、事前信頼度スコア計算部230の処理内容が実施例1と異なる。
【0079】
<事前信頼度スコア計算部230>
図10を用いて、事前信頼度スコア計算部230を説明する。事前信頼度スコア計算部230は、モノフォン最尤検出手段232と、音声/ポーズ最尤検出手段33と、事前信頼度算出手段234と、信頼度スコア算出手段35とを備え、モノフォン最尤検出手段232と事前信頼度算出手段234の処理内容が実施例1と異なる。
【0080】
(モノフォン最尤検出手段232)
モノフォン最尤検出手段232は、フレームt毎の音声特徴量otに対する各モノフォンGMMから得られる出力確率bs(ot)とそのGMMが属する状態sの出現確率P(s)の積P(s)bs(ot)から、モノフォン最尤値P(s^)bs^(ot)を求め、モノフォン最尤状態s^に属するGMMから得られる出力確率bs^(ot)の対数logbs^(ot)を事前信頼度算出手段34に出力する。
【0081】
(事前信頼度算出手段234)
事前信頼度算出手段234は、モノフォン最尤状態s^に属するGMMから得られる出力確率bs^(ot)の対数logbs^(ot)と音声/ポーズ最尤値の対数logbg^(ot)とを入力され、式(12)によりその差を当該フレームの事前信頼度c(ot)として求め、信頼度スコア算出手段35に出力する。
【0082】
【数13】
【0083】
式(11)に代えて、式(12)を用いても、実施例1と同様に事前信頼度c(ot)を求めることができる。
【0084】
なお、式(12)が以下の観点からも、事前信頼度として有効であることがわかる。図11に、音声特徴量と尤度との関係を示す。尤度は、尤もらしさを表す値であり、出力確率値で代用しても良い。横軸が音声特徴量、縦軸が尤度である。図中に、音響モデル中に含まれる音声モデル(破線)とモノフォンの音素モデル「*−a+*」,「*−i+*」,「*−u+*」のそれぞれの分布を表す。なお、−は左側依存、+は右側依存を表し、*はどのような音素でもよいことを表す。図11では、簡略化のため音素モデルの状態数を1、混合分布数を1として表現している。
【0085】
音声モデルに用いるGMMは、全ての音声すなわち全ての音素の学習データに基づき学習されたモデルである。そのため、その分布は、音声特徴量に対する尤度の値が比較的なだらかな分布となる。それに対して、モノフォンは、各音素の学習データで学習されたモデルである。そのため、当該音素に対応する音声特徴量に対する尤度の値が急峻な分布である。
【0086】
従って、ある音声特徴量に対する音声モデルの尤度と、同じ音声特徴量に対するモノフォンの尤度を比較することで、音声ファイルの信頼度を判定することが可能である。つまり、雑音の影響を受けずに収録された音素aの音声特徴量otclean(a)に対するモノフォン「*−a+*」の尤度bs(otclean(a))は大きな値を示す。一方、同じ音声特徴量otclean(a)に対する音声モデルの尤度bg(otclean(a))は相対的に小さな値を示す。その結果、それらの値の間には大きな差が生じる。
【0087】
これに対して、雑音の影響を強く受けて収録された音素aの音声特徴量otnoisy(a)は、本来の特徴量とは異なるのでモノフォンでの尤度bs(otnoisy(a))と、音声モデルにおける尤度bg(otnoisy(a))との間の差が小さくなる。
【0088】
このように音声特徴量に対するモノフォンの尤度bs(ot)と、音声モデルの尤度bg(ot)との差を見ることで、収録音声の品質を評価することができる。よって式(12)により事前信頼度c(ot)を求めることができることがわかる。
【0089】
このような構成とすることで、実施例1と同様の効果を得ることができる。また、実施例1で用いる式(11)では第1項に、最尤状態s^の出現確率P(s^)(<1)を含むため、事前信頼度c(ot)の値が小さくなり、負の領域になる可能性が高い。実施例2で用いる式(12)では、第1項と第2項とも同様の出力確率の対数スコアであり、かつ前述の通り音声モデルの分布がモノフォンの分布に比べてなだらかなことから、第2項の値は第1項に比べて小さくなり、正の領域になる可能性が高い。すなわち、事前信頼度c(ot)、ひいては信頼度スコアCの値の取り得る値の範囲が制限される。従って、後段で音声認識処理制御を行う場合、音声認識処理を制御する閾値Cthの設定が容易になる。
【実施例3】
【0090】
<音声認識装置300>
図12を用いて実施例3に係る音声認識装置300を説明する。音声認識装置300は、認識処理制御部380を備える点、及び音声認識装置340の処理内容が音声認識装置100、200と異なる。
<認識処理制御部380>
認識処理制御部380は、制御信号としてビーム探索幅N(C)を出力する。その一例を式(13)に示す。
【0091】
【数14】
【0092】
図13に信頼度スコアCとビーム探索幅N(C)との関係を例示する。横軸は信頼度スコアCであり、縦軸はビーム探索幅N(C)である。
図13に示すように式(13)は、所定の範囲の信頼度スコアC(Cmin〜Cmax)に対応するビーム探索幅N(C)(Nmin〜Nmax)を、信頼度スコアCの値で比例配分する考えである。ここでは、比例係数が負の値なので、信頼度スコアCが小でビーム探索幅N(C)が大であり、Cが大でN(C)が小となる関係である。もちろん、信頼度スコアCとビーム探索幅N(C)との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅N(C)を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
【0093】
ここで、例えばCmax=μ+σ、Cmin=μ―σとして、Nmaxを通常用いるビーム幅の1.5倍、Nminを通常用いるビーム幅の半分等としても良い。また、平均音質が極端に悪い場合(例えばC<Cmin)には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばNminにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。また、音声認識処理を停止させる信号とビーム探索幅の制御信号を並存させても良い。
【0094】
<音声認識処理部340>
音声認識処理部340は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列を入力として音声認識処理を行う。例えば、認識処理制御部380から音声認識処理を停止させる信号を受信した場合には、対応する音声ファイルについては、音声認識処理を停止させる。また、ビーム探索幅N(C)の制御信号を受信した場合には、そのビーム探索幅N(C)に基づき、音声認識処理を行う。
【0095】
<効果>
このように、認識処理制御部380を備えた音声認識装置300は、複数の音声ファイルの音声認識処理の効率化と、認識精度の向上を図ることができる。なお、認識処理制御部380の機能は、音声認識処理部40に持たせても良い。
【実施例4】
【0096】
<音声認識装置400>
図14及び図15を用いて実施例4に係る音声認識装置400を説明する。
音声認識装置400は、音声ファイル処理部401と、ソート音声認識処理部440と、を備える点で音声認識装置100、200と異なる。
【0097】
<音声ファイル処理部401>
音声ファイル処理部401は、複数の音声ファイルの信頼度スコアCの高い順番に複数の音声ファイルを並び替える(ステップS401)。
<ソート音声認識処理部440>
ソート音声認識処理部440は、信頼度スコアCの高い順番に音声認識処理を行う(ステップS440)。
【0098】
<効果>
このような構成とすることで、実施例1と同様の効果を得ることができる。さらに、このように信頼度スコアCの大きさ順に音声認識処理を実行することで、複数の音声ファイルの音声認識処理を行う場合の処理効率を向上させることができる。例えば、全音声ファイルに対して音声認識処理を行うことが、計算機資源や処理時間の関係等によって難しい場合には、信頼度スコアCが小さい音声ファイルは音声認識処理が行われず、音声認識精度が高い事が期待される信頼度スコアCが大きな音声ファイルにのみ音声認識処理が行われることになり、高精度な音声認識結果を収集することが可能になる。なお、音声ファイル処理部401の機能は、ソート音声認識処理部440の機能に含めても良い。なお、実施例3の音声認識装置300と音声ファイル処理部401及びソート音声認識処理部440を組み合わせても、同様の効果をえることができる。
【実施例5】
【0099】
<音声認識装置500>
図16及び図17を用いて実施例5に係る音声認識装置500を説明する。
音声認識装置500は、教師なし適応制御部501と、教師なし適応部502と、適応後音響モデルパラメータメモリ503と、第2認識処理部504とを備える点で音声認識装置100、200と異なる。
【0100】
<教師なし適応制御部501>
教師なし適応制御部501は、事前信頼度Cを入力として、その事前信頼度Cの値が一定範囲内(例えばC>Cth2であり、Cth2>Cthとする。ここで、Cth2は、前述の信頼度スコア分布の平均値μ、標準偏差σを用いて、例えばCth2=μ―σ等としてもよい)か否かを判定して教師なし適応制御信号pを出力する(ステップS501)。事前信頼度Cの値が一定範囲内でない場合、その音声ファイルの処理を終了する(ステップS501のNO)。教師なし適応制御信号とは、音声認識処理部40が出力する音声認識結果を適応用ラベルとして用いるか否かを制御する信号である。
【0101】
<教師なし適応部502>
教師なし適応部502は、教師なし適応制御信号pが、音声認識処理部40が出力する音声認識結果Wを適応用ラベルとして用いることを指示していた場合、音声認識結果Wを適応用ラベルとして音響モデルパラメータメモリ50に記録された音響モデルを学習して、適応後音響モデルを生成する(ステップS502)。適応後音響モデルは、適応後音響モデルパラメータメモリ503に記録される。
【0102】
<第2認識処理部504>
第2認識処理部504は、適応後音響モデルパラメータメモリ503に記録された適応後音響モデルを用いて音声特徴量系列Oの音声認識処理を行い、音声認識結果W’を出力する(ステップS504)。なお、このとき、事前信頼度スコア計算部30で求めた信頼度スコアCを一緒に出力してもよい。
【0103】
<効果>
このような構成とすることで実施例1と同様の効果を得ることができる。さらに、音声認識装置500は、事前信頼度Cの値が一定範囲内にある場合に限って、音声認識結果Wを適応用ラベルとして音響モデルを学習し、さらに音声認識処理を行う。事前信頼度スコアCが低く音声ファイルの認識精度の低い場合には、そのときの音声認識処理結果Wは、教師なし適応における適応用ラベルとしてふさわしくなく、教師なし適応による音響モデルの精度向上が期待できない。そのような場合に、教師なし適応や第2音声認識処理を省略することで、その計算時間を削減できる。また、信頼度スコアCが高く音声ファイルの認識精度の高い音声認識結果Wを適応用ラベルとして音響モデルを学習するので、音響モデルの精度を自動的に向上させることができる。なお、実施例3、4の音声認識装置300、400と教師なし適応制御部501、教師なし適応部502、適応後音響モデルパラメータメモリ503及び第2認識処理部504を組み合わせても、同様の効果をえることができる。
【0104】
<プログラム>
また、前記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0105】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0106】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0107】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0108】
100、200、300、400、500、900 音声認識装置
20 特徴量分析部
30、30’、230 事前信頼度スコア計算部
40、340 音声認識処理部
50 音響モデルパラメータメモリ
60 言語モデルパラメータメモリ
380 認識処理制御部
401 音声ファイル処理部
440 ソート音声認識処理部
501 教師なし適応制御部
502 教師なし適応部
503 適応後音響モデルパラメータメモリ
504 第2認識処理部
【特許請求の範囲】
【請求項1】
音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求める特徴量分析過程と、
前記フレーム毎の音声特徴量系列を用いて、その音声特徴量系列に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求める事前信頼度スコア計算過程と、
前記音声特徴量系列を用いて、前記信頼度スコアに基づき音声認識処理を行う音声認識処理過程と、を備える、
ことを特徴とする音声認識方法。
【請求項2】
音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求める特徴量分析過程と、
前記フレーム毎の音声特徴量系列を用いて、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いときの出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求める事前信頼度スコア計算過程と、
前記音声特徴量系列を用いて、前記信頼度スコアに基づき音声認識処理を行う音声認識処理過程と、を備える、
ことを特徴とする音声認識方法。
【請求項3】
請求項1または請求項2に記載した音声認識方法において、
前記事前信頼度スコアを用いて、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方を求める認識処理制御過程を、さらに備え、
前記音声認識処理過程は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列の音声認識処理を行う、
ことを特徴とする音声認識方法。
【請求項4】
請求項1乃至3の何れかに記載した音声認識方法において、
複数の音声ファイルの前記事前信頼度スコアから、事前信頼度スコアの高い順番に前記複数の音声ファイルを並び替える音声ファイル処理過程と、
事前信頼度スコアの高い順番で音声認識処理を行うソート音声認識処理過程と、
をさらに備えることを特徴とする音声認識方法。
【請求項5】
請求項1乃至4の何れかに記載した音声認識方法において、
前記事前信頼度スコアを用いて、その事前信頼度スコアの値が一定範囲内か否かを判定して適応制御信号を求める教師なし適応制御過程と、
前記音声認識の結果と前記教師なし適応制御信号を用いて、前記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応過程と、
前記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて前記音声特徴量系列の音声認識処理を行う第2認識処理過程と、
をさらに備えることを特徴とする音声認識方法。
【請求項6】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
前記フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、
前記音声特徴量系列を入力として、前記信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える、
ことを特徴とする音声認識装置。
【請求項7】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
前記フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いときの出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、
前記音声特徴量系列を入力として、前記信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える、
ことを特徴とする音声認識装置。
【請求項8】
請求項6または請求項7に記載した音声認識装置において、
前記事前信頼度スコアを入力として、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方を求める認識処理制御部を、さらに備え、
前記音声認識処理部は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列を入力として音声認識処理を行う、
ことを特徴とする音声認識装置。
【請求項9】
請求項6乃至8の何れかに記載した音声認識装置において、
複数の音声ファイルの前記事前信頼度スコアから、事前信頼度スコアの高い順番に前記複数の音声ファイルを並び替える音声ファイル処理部と、
事前信頼度スコアの高い順番で音声認識処理を行うソート音声認識処理部と、
をさらに備えることを特徴とする音声認識装置。
【請求項10】
請求項6乃至9の何れかに記載した音声認識装置において、
前記事前信頼度スコアを入力として、その事前信頼度スコアの値が一定範囲内か否かを判定して適応制御信号を出力する教師なし適応制御部と、
前記音声認識の結果と前記教師なし適応制御信号を入力として、前記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応部と、
前記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて前記音声特徴量系列の音声認識処理を行う第2認識処理部と、
をさらに備えることを特徴とする音声認識装置。
【請求項11】
請求項1から5の何れかに記載した音声認識方法をコンピュータに実行させるためのプログラム。
【請求項1】
音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求める特徴量分析過程と、
前記フレーム毎の音声特徴量系列を用いて、その音声特徴量系列に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求める事前信頼度スコア計算過程と、
前記音声特徴量系列を用いて、前記信頼度スコアに基づき音声認識処理を行う音声認識処理過程と、を備える、
ことを特徴とする音声認識方法。
【請求項2】
音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求める特徴量分析過程と、
前記フレーム毎の音声特徴量系列を用いて、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いときの出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求める事前信頼度スコア計算過程と、
前記音声特徴量系列を用いて、前記信頼度スコアに基づき音声認識処理を行う音声認識処理過程と、を備える、
ことを特徴とする音声認識方法。
【請求項3】
請求項1または請求項2に記載した音声認識方法において、
前記事前信頼度スコアを用いて、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方を求める認識処理制御過程を、さらに備え、
前記音声認識処理過程は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列の音声認識処理を行う、
ことを特徴とする音声認識方法。
【請求項4】
請求項1乃至3の何れかに記載した音声認識方法において、
複数の音声ファイルの前記事前信頼度スコアから、事前信頼度スコアの高い順番に前記複数の音声ファイルを並び替える音声ファイル処理過程と、
事前信頼度スコアの高い順番で音声認識処理を行うソート音声認識処理過程と、
をさらに備えることを特徴とする音声認識方法。
【請求項5】
請求項1乃至4の何れかに記載した音声認識方法において、
前記事前信頼度スコアを用いて、その事前信頼度スコアの値が一定範囲内か否かを判定して適応制御信号を求める教師なし適応制御過程と、
前記音声認識の結果と前記教師なし適応制御信号を用いて、前記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応過程と、
前記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて前記音声特徴量系列の音声認識処理を行う第2認識処理過程と、
をさらに備えることを特徴とする音声認識方法。
【請求項6】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
前記フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、
前記音声特徴量系列を入力として、前記信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える、
ことを特徴とする音声認識装置。
【請求項7】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
前記フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いときの出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、
前記音声特徴量系列を入力として、前記信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える、
ことを特徴とする音声認識装置。
【請求項8】
請求項6または請求項7に記載した音声認識装置において、
前記事前信頼度スコアを入力として、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方を求める認識処理制御部を、さらに備え、
前記音声認識処理部は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列を入力として音声認識処理を行う、
ことを特徴とする音声認識装置。
【請求項9】
請求項6乃至8の何れかに記載した音声認識装置において、
複数の音声ファイルの前記事前信頼度スコアから、事前信頼度スコアの高い順番に前記複数の音声ファイルを並び替える音声ファイル処理部と、
事前信頼度スコアの高い順番で音声認識処理を行うソート音声認識処理部と、
をさらに備えることを特徴とする音声認識装置。
【請求項10】
請求項6乃至9の何れかに記載した音声認識装置において、
前記事前信頼度スコアを入力として、その事前信頼度スコアの値が一定範囲内か否かを判定して適応制御信号を出力する教師なし適応制御部と、
前記音声認識の結果と前記教師なし適応制御信号を入力として、前記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応部と、
前記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて前記音声特徴量系列の音声認識処理を行う第2認識処理部と、
をさらに備えることを特徴とする音声認識装置。
【請求項11】
請求項1から5の何れかに記載した音声認識方法をコンピュータに実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公開番号】特開2012−32538(P2012−32538A)
【公開日】平成24年2月16日(2012.2.16)
【国際特許分類】
【出願番号】特願2010−171020(P2010−171020)
【出願日】平成22年7月29日(2010.7.29)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り ・発行者名 社団法人日本音響学会 ・刊行物名 日本音響学会2010年春季研究発表会 講演論文集 講演論文CD−ROM ・発行年月日 平成22年3月1日
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成24年2月16日(2012.2.16)
【国際特許分類】
【出願日】平成22年7月29日(2010.7.29)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り ・発行者名 社団法人日本音響学会 ・刊行物名 日本音響学会2010年春季研究発表会 講演論文集 講演論文CD−ROM ・発行年月日 平成22年3月1日
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]