説明

音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体

【課題】音響分析パラメータ生成装置を高速・省メモリ化する。
【解決手段】この発明の音響分析パラメータ生成装置の出力確率計算部は、調整パラメータを用いて算出されたフレーム単位の音響特徴量と音響モデルとを入力としてフレーム毎の各状態の出力確率を計算する。スコア計算部が、出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求める。スコア評価部は、出力確率スコアを評価して出力確率スコアが最大になる調整パラメータを最適調整パラメータ候補として出力する。最適調整パラメータ候補記録部が、その最適調整パラメータ候補を記録する。所定フレーム数に対して調整パラメータをそれぞれ出力した後に記録した最適調整パラメータ候補を調整パラメータとして出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、調整パラメータを用いて音響特徴量を求める音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体に関する。
【背景技術】
【0002】
近年、統計的手法に基づく音声認識技術は、色々な場面で使用されるようになって来た。よって、環境変動、特に雑音に対して頑健な音声認識技術の確立が重要な課題となっている。音声認識装置に雑音が重畳した音声信号が入力されると、その入力音声の音響特徴量の分布が変化し、音響モデルとのミスマッチが生じる。それが誤認識の原因となる。
【0003】
従来の音声認識装置では、雑音抑圧を目的として調整パラメータを用いて音響分析特徴量の正規化を行う方法が用いられている。図7にその方法を用いた音声認識装置700の機能構成を示して簡単に説明する。音声認識装置700は、A/D変換部70、特徴量算出部71、言語モデルパラメータメモリ72、音響モデルパラメータメモリ73、音声認識部74、正解文メモリ75、精度評価部76、調整パラメータ管理部77、調整パラメータ記録部78を備える。
【0004】
A/D変換部70は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量算出部71は、離散値化された音声信号を入力として、調整パラメータ記録部78に記録された調整パラメータを用い、例えば320個の音声信号を1フレーム(20ms)としたフレーム毎に、音響特徴量を算出する。音響特徴量は、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。
【0005】
音声認識部74は、音響特徴量と、言語モデルパラメータメモリ72と音響モデルパラメータメモリ73とからの言語モデルと音響モデルとを入力として、音響モデル内の状態尤度と、言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する。精度評価部76は、音声認識された単語列と、正解文メモリ75に記録されたその単語列に対応する正解文とを比較して認識精度を評価する。
【0006】
調整パラメータ管理部77は、事前に用意された複数の調整パラメータの全てについての認識精度値の中から、最も認識精度値が高い調整パラメータを求めて調整パラメータ記録部78に記録する。最も認識精度が高くなる調整パラメータに設定された後は、その調整パラメータを用いて音声認識が行われる。
このように調整パラメータを用いて音響モデルと音響特徴量とのミスマッチを減らす音響分析パラメータ生成方法を用いることで、雑音に対して頑健な音声認識装置とすることが出来る。この音響分析パラメータ生成方法は、例えば非特許文献1にスペクトルサブトラクション法として示されている。
【非特許文献1】松本 弘「雑音環境下の音声認識手法」、平成15年9月10日、情報処理学会、インターネット<URL:http://https//www.ipsj.or.jp/10jigyo/fit/fit2003/fit2003program/html/>
【発明の開示】
【発明が解決しようとする課題】
【0007】
従来の音響分析パラメータ生成方法は、認識精度値を求めるのに正解文を必要とするので正解文を作成するコストが必要であった。また、単語単位、文章単位で認識精度を求めるので調整パラメータを求めるのに多くの処理時間を要し、応答性が悪化する問題点があった。また、正解文を必要とするのでメモリを消費してしまう問題点もあった。
この発明は、このような点に鑑みてなされたものであり、高速・省メモリ化できる音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0008】
この発明の音響分析パラメータ生成装置は、出力確率計算部と、スコア計算部と、スコア評価部と、最適調整パラメータ候補記録部と、調整パラメータ管理部とを具備する。出力確率計算部は、調整パラメータを用いて算出されたフレーム単位の音響特徴量と音響モデルとを入力としてフレーム毎の各状態の出力確率を計算する。スコア計算部は、出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求める。スコア評価部は、出力確率スコアを評価して出力確率スコアが最大になる調整パラメータを最適調整パラメータ候補として出力する。最適調整パラメータ候補記録部は、最適調整パラメータ候補を記録する。調整パラメータ管理部は、調整パラメータを複数個備え、所定フレーム数に対して調整パラメータをそれぞれ出力した後に最適調整パラメータ候補を調整パラメータとして出力する。
【発明の効果】
【0009】
この発明の音響分析パラメータ生成装置は、調整パラメータを用いて算出されたフレーム単位の音響特徴量と音響モデルとを用いてフレーム毎の各状態の出力確率を計算する。そして、最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求め、出力確率スコアが最大になる調整パラメータを、それ以降に使用する最適調整パラメータとして出力する。したがって、従来法のように正解文を必要とせずに調整パラメータが生成できるので、正解文を用意するコストが発生しない。また、所定フレーム数単位で処理するので調整パラメータが短時間で求められ応答性が改善される。また、所定フレーム数単位の状態系列を保存するだけで良く、正解文も必要としないので装置のメモリ資源を消費しない効果を奏する。
【発明を実施するための最良の形態】
【0010】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0011】
図1にこの発明の音響分析パラメータ生成装置100を用いた音声認識装置200の機能構成例を示す。音声認識装置200は、音響分析パラメータ生成装置100の生成する調整パラメータを、音響特徴量の算出に用いて雑音抑圧するものである。音声認識装置200として特徴付けているA/D変換部70、特徴量算出部71、言語モデルパラメータメモリ72、音響モデルパラメータメモリ73、音声認識部74は、従来の音声認識装置700と同じものである。よって、その部分の説明は省略する。
音響分析パラメータ生成装置100とそれを含んだ音声認識装置200のそれぞれは、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0012】
図2に音響分析パラメータ生成装置100の動作フローを示し、図1と図2を参照して音響分析パラメータ生成装置100の動作を説明する。音響分析パラメータ生成装置100は、出力確率計算部10と、スコア計算部11と、スコア評価部12と、最適調整パラメータ候補記録部13と、調整パラメータ管理部14とを備える。
出力確率計算部10は、調整パラメータ管理部14が出力する調整パラメータを用いて算出されたフレーム単位の音響特徴量と、音響モデルパラメータメモリ73に記録された音響モデルとを入力としてフレーム毎の各状態の出力確率を計算する(ステップS10)。音響モデルと各状態については後述する。
【0013】
スコア計算部11は、出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求める(ステップS11)。スコア評価部12は、出力確率スコアを評価して出力確率スコアが最大になる調整パラメータを最適調整パラメータ候補として出力する(ステップS12)。最適調整パラメータ候補記録部13は、その最適調整パラメータ候補を記録する(ステップS13)。
【0014】
調整パラメータ管理部14は、複数の調整パラメータを備え、その複数の調整パラメータを、出力確率スコアを求めた所定フレーム数に対してそれぞれ出力した後に、最適調整パラメータ候補記録部13に記録された最適調整パラメータ候補を調整パラメータとして出力する(ステップS14)。つまり、全ての調整パラメータを、所定フレーム数に対して出力するまでの間、ステップS10〜ステップS14までの動作が繰り返される。
【0015】
以上述べたように動作することで、所定フレーム数の単位で調整パラメータが更新されて音響特徴量が算出され、その音響特徴量に対応する最尤状態系列から出力確率スコアが求められる。そして、出力確率スコアが最大になる最適調整パラメータ候補が調整パラメータとして出力される。したがって、予め用意された調整パラメータの数にもよるが、所定フレーム数の整数倍の比較的短い時間で調整パラメータを最適化することが出来る。また、従来法のように正解文を必要とすることも無い。
【0016】
ここで各状態と音素モデルについて図3と図4を用いて説明する。音響モデルを構成する音素モデルは、図3に示す状態によって構築される。各状態sは、混合正規分布Msとして表現される。混合正規分布Msは、例えば3つの正規分布、N(μs1,Us1),N(μs2,Us2),N(μs3,Us3)で構成される。
【0017】
音素モデルは、状態sの数個〜十数個程度の確率連鎖によって構築される。図4に3状態で構成される音素モデルの概念図を一例として示す。図4に示す例は、left−to−right型HMM(Hidden Markov Model)と呼ばれるもので、3つの状態s(第1状態)、s(第2状態)、s(第3状態)を並べたものであり、状態の確率連鎖(状態遷移)としては、自己遷移a11、a22、a33と、次状態へのa12、a23、a34からなる。この状態遷移系列の中で最も尤度の高い音素モデルの組み合わせが、音声認識結果として出力される。
状態sから得られる出力確率P(s,o(α))は式(1)で求められる。
【0018】
【数1】

【0019】
ここでoは調整パラメータαiを用いて求めたフレームtの音響特徴量、N(o(α);μms,Ums)は平均ベクトルμms,共分散行列Umsから計算されるスコア、cmsは重み係数、Mは状態sに属する分布数である。
図5に、状態sとフレームtとの時系列の関係を示す。横軸は時間経過でありフレーム
番号で表す。縦軸は、各フレームの状態sである。各状態sは図3に示したように混合正
規分布からなる。●は各フレーム内で出力確率スコアが最大になる最尤状態P(sbest,o(α))である。各フレームの最尤状態P(sbest,o(α))を時系列で見たのが、●を線で結んだ最尤状態系列である。
【0020】
図6に、音響分析パラメータ生成装置100のより具体的な動作フローを示して更に詳しく説明する。調整パラメータ管理部14は、予め調整パラメータαを複数個備える。調整パラメータ管理部14が、例えば、0.8〜1.2の範囲を0.1の分解能で5種類の調整パラメータαを持ち、例えば小さな値のパラメータから順に出力するものと仮定する。
【0021】
音響分析パラメータ生成装置100が動作を開始すると、調整パラメータ管理部14は、調整パラメータα=0.8を出力する(ステップS140)。出力確率計算部10は、調整パラメータα=0.8を用いて算出された音響特徴量o(α)と音響モデルμms,Umsとを入力として式(1)により出力確率を計算する(ステップS10)。スコア計算部11は、調整パラメータαに対する出力確率スコアSCORE(α)を式(2)で求める(ステップS110)。
【0022】
【数2】

【0023】
ここでTは認識対象データの時間長である所定フレーム数、sbest(t)はフレームtにおける最尤状態である(図5の●)。フレームtが所定フレーム数Tになるまで、ステップS10〜S11が繰り返される(ステップS111のN)。ここで、所定フレーム数Tは、認識対象データの時間長に限らず、計算量削減のため、認識対象データ長よりも短い時間長としても構わない。
【0024】
スコア評価部12は、フレームtが所定フレーム数に達すると前回の出力確率スコアSCORE(αi-1)と、今回計算した出力確率スコアSCORE(α)とを比較する(ステップS12)。最初の比較動作では、前回の出力確率スコアSCORE(αi-1)が存在しない。よって、スコア評価部12は最適調整パラメータとして今回の調整パラメータαi(初回i=0なのでαと等価)を最適調整パラメータ候補として出力する(ステップS12のY)。2回目以降の比較動作では、前回の出力確率スコアSCORE(αi-1)と最新の出力確率スコアSCORE(α)とを比較して、出力確率スコアの大きい方の調整パラメータを最適調整パラメータ候補として出力する(ステップS12のY又はN)。最適調整パラメータ候補記録部13は、スコア評価部12が出力する調整パラメータαを最適調整パラメータ候補として記録する(ステップS130又はS131)。
【0025】
調整パラメータ管理部14は、出力確率計算過程(ステップS10)、スコア計算過程(ステップS11)、スコア評価過程(ステップS12)、最適調整パラメータ候補記録過程(ステップS13)の動作を、調整パラメータαが最終値になるまで繰り返す(ステップS141のN)。調整パラメータαは、最終値になるまでステップS143で次の調整パラメータαi+1に更新される。この例では、予め用意された調整パラメータαの種類が5種類であるので、ステップS143は4回繰り返される。調整パラメータ管理部14は、全ての調整パラメータαを出力した後、最適調整パラメータ候補記録部13に記録されている最適調整パラメータ候補を調整パラメータとして出力する。以上の動作により、調整パラメータ管理部14は、所定フレーム数内で出力確率スコアSCORE(α)を最大にする調整パラメータαを出力する(ステップS142)。
【実施例2】
【0026】
実施例2の音響分析パラメータ生成装置120は、計算対象状態取得部20を備える。実施例1を説明した図1中に計算対象状態取得部20を破線で示す。その動作フローを図2に示す。計算対象状態取得部20は、音響モデルパラメータメモリ73に記録された音響モデルの内、環境独立音素モデル(モノフォン)に絞って、その音素モデルのみを出力確率計算部10に出力する(ステップS20、図2)。この場合、出力確率計算部10と、スコア計算部11とはモノフォンのみについて処理を行う。
【0027】
モノフォンのみについて処理を行うことで、計算量を削減することができる。実施例1の場合では、前後の音素環境を考慮した環境独立音素(トライフォン)や片側依存音素(バイフォン)を用いるため、その状態数はおおよそ2000状態である。音素数を30とした場合のトライフォンの音素数は30×30×30であり、バイフォンの音素数は2×30×30であるので最終的な音素数は計算上28800個になる。各音素の状態数を3とするとこの音素数に3を乗じた値が総状態数となる。しかし、存在しない音素や共有化することでおよそ2000状態に縮退させることができる。
【0028】
この2000状態をモノフォンのみに絞ることで、音素数30×状態数3=90状態にすることが出来る。計算量は約90/2000×100=4.5%で済む。よって処理を高速化できる。
また、更に、計算量を削減する方法として、音声GMMと無音モデルに対応する状態尤度を用いて出力確率計算部10が出力確率を計算するようにしても良い。通常、音声GMMは状態数1で表現されることが多く、また無音モデルを3状態とすると、合わせて4状態となり、モノフォンを用いた90状態から統計量を蓄積する方法に比べて更に計算量を削減することが可能である。
【実施例3】
【0029】
実施例3の音響分析パラメータ生成装置130は、計算対象状態取得部20と最尤状態系列記録部30とを備える。実施例1を説明した図1中に計算対象状態取得部20と最尤状態系列記録部30を破線で示す。その動作フローを図2に示す。最尤状態系列記録部30は、最尤状態系列を記録する。そして、実施例3の出力確率計算部10は、その最尤状態系列のみの各状態について出力確率を計算するようにしたものである。
この実施例3の最尤状態系列を求める計算も、図5に示す縦軸方向の全ての状態sについて行うが、一度、最尤状態系列を求めた後は、各フレーム毎に最尤状態系列の1状態のみの出力確率を計算するものである。つまり、最初に求めた最尤状態系列を2回目以降も用いることで計算量を削減する考えである。
【0030】
音響分析パラメータ生成装置130が置かれた環境は、個々に異なることが予想されるが、最尤状態系列は、調整パラメータの値が変わっても大きく変化することは少ない。特に、初期の調整パラメータが最適調整パラメータに近い場合は、初期の調整パラメータの最尤状態系列を、2回目以降も用いることが可能になる。その点に注目してこの実施例では、最初に求めた最尤状態系列を最尤状態系列記録部30に記録する(ステップS30、図2)。そして、調整パラメータ管理部14がステップS143で次の調整パラメータαi+1に更新する。その後、計算対象状態取得部20が、最尤状態系列記録部30に所定フレーム数Tの時間幅で記録された最尤状態系列に対応する状態のみを出力確率計算部10に入力する(ステップS20)。よって、一度、最尤状態系列が求められると以降の出力確率は、フレーム毎に最尤状態の1状態のみが計算される。このように、求めた最尤状態系列を2回目以降も用いることで実施例1の計算量を削減することが出来る。また、この実施例3の考えを実施例2と組み合わせることで、更に実施例2の計算量も削減することが可能である。
【0031】
なお、出力確率計算部10が、最尤状態系列記録部30に記録された最尤状態系列を参照して、最尤状態系列のみの出力確率を計算するように構成しても良い。
この発明の技術思想に基づく音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0032】
なお、この発明の音響分析パラメータ生成装置を、音声認識装置の雑音抑圧を目的とした調整パラメータを生成するものとして説明を行った。しかし、この発明の音響分析パラメータ生成装置は、声道長正規化に関する調整パラメータ等、他の目的の音響特徴量に関する調整パラメータの最適化に関して利用することも可能である。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0033】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
【0034】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【図面の簡単な説明】
【0035】
【図1】この発明の音響分析パラメータ生成装置100,120,130を用いた音声認識装置200の機能構成例を示す図。
【図2】音響分析パラメータ生成装置100,120,130の動作フローを示す図。
【図3】音素モデルを構成する1状態を模式的に示す図。
【図4】音素モデルの一例を示す図。
【図5】フレームと状態sとの関係を模式的に示す図。
【図6】音響分析パラメータ生成装置100,120のより具体的な動作フローを示す図。
【図7】従来の音声認識装置700の機能構成例を示す図。

【特許請求の範囲】
【請求項1】
調整パラメータを用いて算出されたフレーム単位の音響特徴量と音響モデルとを入力として上記フレーム毎の各状態の出力確率を計算する出力確率計算部と、
上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求めるスコア計算部と、
上記出力確率スコアを評価して上記出力確率スコアが最大になる上記調整パラメータを最適調整パラメータ候補として出力するスコア評価部と、
上記最適調整パラメータ候補を記録する最適調整パラメータ候補記録部と、
上記調整パラメータを複数個備え、上記所定フレーム数に対して上記複数の調整パラメータをそれぞれ出力した後に上記最適調整パラメータ候補を上記調整パラメータとして出力する調整パラメータ管理部と、
を具備する音響分析パラメータ生成装置。
【請求項2】
請求項1に記載した音響分析パラメータ生成装置において、
上記音響モデルを環境独立音素モデルに絞って上記出力確率計算部に出力する計算対象状態取得部を具備することを特徴とする音響分析パラメータ生成装置。
【請求項3】
請求項1又は2に記載した音響分析パラメータ生成装置において、
上記最尤状態系列を記録する最尤状態系列記録部を備え、
上記出力確率計算部は上記最尤状態系列のみの出力確率を計算することを特徴とする音響分析パラメータ生成装置。
【請求項4】
出力確率計算部が、調整パラメータを用いて算出されたフレーム単位の音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を計算する出力確率計算過程と、
スコア計算部が、上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求めるスコア計算過程と、
スコア評価部が、上記出力確率スコアを評価して上記出力確率スコアが最大になる上記調整パラメータを最適調整パラメータ候補として出力するスコア評価過程と、
最適調整パラメータ候補記録部が、上記最適調整パラメータ候補を記録する最適調整パラメータ候補記録過程と、
調整パラメータ管理部が、上記調整パラメータを複数個備え上記所定フレーム数に対して上記調整パラメータをそれぞれ出力した後に上記最適調整パラメータ候補を上記調整パラメータとして出力する調整パラメータ管理過程と、
を含む音響分析パラメータ生成方法。
【請求項5】
請求項4に記載した音響分析パラメータ生成方法において、
計算対象状態取得部が、上記音響モデルを環境独立音素モデルに絞って上記出力確率計算部に出力する計算対象状態取得過程を含むことを特徴とする音響分析パラメータ生成方法。
【請求項6】
請求項4に記載した音響分析パラメータ生成方法において、
計算対象状態取得部が、上記音響モデルを音声GMMと無音モデルから生成して上記出力確率計算部に出力する計算対象状態取得過程を含むことを特徴とする音響分析パラメータ生成方法。
【請求項7】
請求項4乃至6の何れかに記載した音響分析パラメータ生成方法において、
最尤状態系列記録部が、上記最尤状態系列を記録する最尤状態系列記録過程を含み、
上記出力確率計算過程は、上記最尤状態系列のみの出力確率を計算する過程であることを特徴とする音響分析パラメータ生成方法。
【請求項8】
請求項4乃至7の何れかに記載した音響分析パラメータ生成方法を用いたことを特徴とする音声認識装置。
【請求項9】
請求項4乃至7の何れかに記載した音響分析パラメータ生成方法をコンピュータに機能させるための方法プログラム。
【請求項10】
請求項9に記載した何れかの方法プログラムを記録したコンピュータで読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2009−300837(P2009−300837A)
【公開日】平成21年12月24日(2009.12.24)
【国際特許分類】
【出願番号】特願2008−156501(P2008−156501)
【出願日】平成20年6月16日(2008.6.16)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】