説明

音声認識装置およびその特徴量正規化方法

【課題】音声認識の実施環境にかかわらず、応答遅延を生じること無く、入力音声の音響特徴量と音響モデルとのミスマッチを解消できる正規化用のCM値を算出する。
【解決手段】背景雑音レベル計測部101は背景雑音レベルL0を計測する。蓄積部102には背景雑音レベルL0が蓄積される。比較部103は、今回の背景雑音レベルL0と直近(前回)の音声認識の開始タイミングで計測されて蓄積部102に蓄積されている背景雑音レベルL1とを比較する。補正値算出部100は、背景雑音レベルの差分に基づいて今回の音声認識の実施環境と直近の音声認識の実施環境との違いを定量的に把握し、実施環境の変化が所定の閾値以上であれば、直近の音声認識で算出されたCM値を今回のCM値に反映させない非反映モードによりCM値を算出する。実施環境の変化が所定の閾値未満であれば、直近の音声認識で算出されたCM値を今回のCM値に反映させる反映モードによりCM値を算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置およびその特徴量正規化方法に係り、特に、音声信号から抽出された音響特徴量を正規化して音響モデルと照合する音声認識装置およびその特徴量正規化方法に関する。
【背景技術】
【0002】
従来の音声認識装置は、図10に一例を示したように、マイクロフォン(図示せず)で検出されてA/D変換された入力音声を分析して音響特徴量を抽出する音響分析部1と、この音響特徴量と音響モデルとのミスマッチを解消するために、予め記憶されている固定補正値6を用いて音響特徴量を正規化する特徴量正規化部2と、辞書4による制限下で正規化後の音響特徴量と音響モデル5とを比較・照合し、入力音声として尤もらしい音(素)の並びを出力する辞書探索部3とから構成される。
【0003】
音響特徴量は、MFCC(Mel-Frequency Cepstrum Coefficient)等の次元ベクトルであり、入力音声から単位時間毎に得られる時系列データである。音声認識で用いる音素(子音や母音など)に多数の音声データから分析された音響特徴量の分布を集計すると、次元毎に複数の正規分布の重み付け和で近似される統計モデルが作成できる。このように学習された統計モデルは音響モデルと呼ばれ、音声認識処理においては、入力音声から分析された音響特徴量と音響モデルとの照合が行われる。
【0004】
しかしながら、マイク特性、背景雑音あるいは話者の音声等の特性差が入力音声と音響モデル学習用音声データとで異なることから、入力音声の音響特徴量の分布と音響モデルの確率密度分布との間にミスマッチが生じ、認識精度が低下するという問題がある。このミスマッチを解消するために、入力音声全体にわたって各時刻の音響特徴量の平均値(CM値)を算出し、音響特徴量を各時刻において音響モデルと照合する際に、音響特徴量からCM値を減算した正規化後の音響特徴量を用いるCMN(Cepstral Mean Normalization)が広く利用されている。CMNでは、次式(1)で算出されるCM値を音響特徴量x(t)から減算し、音響特徴量の平均値をゼロとすることで、入力音声の音響特徴量と音響モデルとのミスマッチが解消される。
【0005】
【数1】

【0006】
ここで、Tは入力音声全体の単位時間数、x(t)は時刻tにおける音響特徴量を表す。また、入力音声の音響特徴量の平均値に加えて分散値を用いるMVN(Mean and Variance Normalization)も提案されている。以下ではCMNについて述べるが、MVNで用いる平均値についてもCMNにおけるCM値と同様に取り扱うことができる。
【0007】
特許文献1には、入力発声全体の特徴量を用いてCM値を算出することによる処理遅延を回避するため、1つ以上前に入力された音声の音響特徴量を用いて算出したCM値を正規化処理に利用する方法が開示されている。また、1つ以上前に入力された複数音声を用いてそれぞれCM値を算出し、それらの平均CM値を正規化処理に利用することで、単一音声を用いる場合と比較してCM値の精度を向上させる技術も開示されている。
【0008】
特許文献2には、入力発声の特徴量の平均値であるCM値に加えて分散値を正規化に用いるMVNにおいて、局所的な分散値の算出を繰り返すことで認識精度を改善する正規化法が開示されている。CM値に関しては、入力発声全体の特徴量により算出されたCM値、または予め多数の発声データ等により算出されたCM値を用いる方法と、分散値同様局所的なCM値を用いる方法とが開示されている。局所的なCM値は、直前局所CM値と現在の局所CM値との重み付け和をとることにより算出される。
【0009】
特許文献3には、音声認識の実施場所において、予め背景雑音および空間伝達関数をモデル化しておき、音声認識時にその実施場所に対応するモデルを用いることで認識精度の向上を図る技術が開示されている。音声認識の実施場所は、屋内であれば通信中継器の位置に基づいて測位され、屋外であればGPS信号に基づいて測位される。また、この特許文献3ではユーザの動作と場所を固定的に関連付けておき、加速度センサで得られるデータにより動作を推定し、音声認識の実施場所を特定する技術も提案されている。
【0010】
特許文献4には、特許文献3の技術に加えて、さらにユーザ本人の動作雑音をモデル化し、音声認識時に背景雑音のモデルと併せて動作雑音のモデルを用いる技術が開示されている。ユーザの動作内容は加速度データに基づいて特定される。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特開平9−90990号公報
【特許文献2】特開2008−233782号公報
【特許文献3】特開2008−242067号公報
【特許文献4】特開2008−250059号公報
【発明の概要】
【発明が解決しようとする課題】
【0012】
音響特徴量を正規化後に音響モデルと比較、照合すれば、CMNにより入力音声と音響特徴量とのミスマッチが解消されるために音声認識精度の低下を防ぐことができる。しかしながら、上式(1)から明らかなように、CM値の算出には入力音声全体にわたる音響特徴量が必要となるため、入力音声全体の音響特徴量が得られるまで辞書探索処理が開始できず、応答遅延が生じてしまう。
【0013】
このような技術課題を解決するために、(a)入力開始から一定時間分の音響特徴量のみを用いてCM値を算出する方法、(b)予め算出しておいた固定CM値を用いる方法、(c)現入力音声以前の1つ以上のユーザ入力音声の特徴量を用いてCM値を算出する方法、などが従来から提案されている。
【0014】
しかしながら、従来法(a)であっても、少なくとも入力開始から一定時間が経過するまでは辞書探索処理を開始できない。従来法(b), (c)についても、CM値を予め算出する際に用いた音声データと現入力音声との特性差が小さければ認識精度低下の可能性が低いものの、特性差が大きければ認識精度が低下するため、応答速度より認識精度が優先される利用環境には不向きである。
【0015】
このように、従来法(a),(b),(c)の何れかを固定的に採用すると、音声認識の実施環境の変動に伴って現入力音声に特性変化が生じたときなどに、認識精度および応答速度の何れかを犠牲にしなければならなかった。
【0016】
また、特許文献3,4には、音声認識の実施環境の変動に対して、予め実施場所やユーザ動作に依存する雑音をモデル化しておき、実施場所やユーザ動作に対応したモデルを用いることで認識精度低下を抑制する方法が提案されている。
【0017】
しかしながら、このような方法ではモデル化されていない環境で音声認識が実施されると効果が得られない。そして、携帯電話での音声認識を考えると、あらゆる場所で音声認識が実施されることになるが、その全てについて環境をモデル化することは非常に困難である。更に、種々の環境に対する多数の雑音モデルを保持しなければならないので、携帯電話単体への適用が難しい。
【0018】
本発明の目的は、上記した従来技術の課題を全て解決し、音声認識の実施環境が変化しても、応答遅延を生じさせること無く、CMNにおいて入力音声の音響特徴量と音響モデルとのミスマッチを十分に解消して高い認識精度が得られる音声認識装置およびその特徴量正規化方法を提供することにある。
【課題を解決するための手段】
【0019】
上記の目的を達成するために、本発明は、音声信号から抽出された音響特徴量を正規化して音響モデルと照合する音声認識装置において、正規化用の補正値を算出する手段と、音声認識の実施環境を検知する手段と、今回の実施環境と以前の実施環境とを比較する手段とを具備し、補正値を算出する手段は、今回の実施環境と以前の実施環境との差分が所定の閾値未満のときに、以前の音声認識で算出された補正値を今回の補正値に反映させる反映モードと、今回の実施環境と以前の実施環境との差分が所定の閾値以上のときに以前の音声認識で算出された補正値を今回の補正値に反映させない非反映モードとを含むことを特徴とする。
【発明の効果】
【0020】
本発明によれば、音声認識の実施環境に合わせて正規化用補正値を最適化できるようになる。すなわち、
【0021】
(1)今回の音声認識の実施環境と以前の音声認識の実施環境とを比較し、両者が類似していれば、以前の音声認識で算出された正規化用補正値の値が今回の音声認識における正規化用補正値に反映されるので、今回の音声認識における正規化用補正値を、音声認識の開始段階から適正な値に設定できるようになる。
【0022】
(2)今回の音声認識の実施環境と以前の音声認識の実施環境とを比較し、今回の環境が前回よりも劣っていれば、応答よりも認識精度を優先させて正規化用補正値が算出されるので、環境劣化による認識精度の低下を抑制できるようになる。
【0023】
(3)今回の音声認識の実施環境と以前の音声認識の実施環境とを比較し、今回の環境が前回より劣ってはいないものの極めてクリーンな環境とはいえない場合には、音響特徴量の時系列に基づいて正規化用補正値が適応的に算出されるので、応答遅延を生じさせることなく十分に高精度の音声認識が可能になる。
【0024】
(4)今回の音声認識の実施環境が極めてクリーンであれば、予めクリーン環境で実験的に求められた正規化用補正値をそのまま採用するので、クリーン環境での音声認識では正規化用補正値を音声認識の開始段階から最適値に設定できるようになる。
【図面の簡単な説明】
【0025】
【図1】本発明に係る音声認識装置の第1実施形態の構成を示したブロック図である。
【図2】第3モードM3の機能ブロック図である。
【図3】第3モードM3によるCM値の算出手順を示したフローチャートである。
【図4】第4モードM4の機能ブロック図である。
【図5】第1実施形態の動作を示したフローチャートである。
【図6】本発明に係る音声認識装置の第2実施形態の構成を示したブロック図である。
【図7】第2実施形態の動作を示したフローチャートである。
【図8】本発明に係る音声認識装置の第3実施形態の構成を示したブロック図である。
【図9】第3実施形態の動作を示したフローチャートである。
【図10】従来の音声認識装置の構成を示したブロック図である。
【発明を実施するための形態】
【0026】
以下、図面を参照して本発明の実施形態について詳細に説明する。
【実施例1】
【0027】
図1は、本発明に係る音声認識装置の第1実施形態の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表している。本実施形態では、特徴量正規化部2において音響特徴量を正規化するために使用される補正値(CM値)が、補正値決定部10により音声認識の実施環境を考慮して適応的に決定される。
【0028】
補正値決定部10において、背景雑音レベル計測部101は、音声認識ごとにその開始タイミング(例えば、音声入力の開始からユーザ音声が実際に検出されるまでの期間)で背景雑音レベルL0を計測する。蓄積部102には前記背景雑音レベルL0が履歴情報として蓄積される。比較部103は、今回の音声認識の開始タイミングで計測された背景雑音レベルL0と、直近(前回)の音声認識の開始タイミングで計測されて蓄積部102に蓄積されている背景雑音レベルL1とを比較し、比較結果を補正値算出部100へ通知する。
【0029】
補正値算出部100は、前記比較部103から通知される背景雑音レベルの差分に基づいて、今回の音声認識の実施環境と直近の音声認識の実施環境との違いを定量的に把握する。そして、実施環境の変化が所定の閾値以上であれば、直近の音声認識で算出されたCM値を今回のCM値に反映させない第1、第2および第3モードM1,M2,M3のいずれかによりCM値を算出する。また、実施環境の変化が所定の閾値未満であれば、直近の音声認識で算出されたCM値を今回のCM値に反映させる第4モードM4によりCM値を算出する。
【0030】
このように、本実施形態ではCM値の算出モードとして、直近の音声認識で算出されたCM値を今回のCM値に反映させない3つの非反映モードM1,M2,M3,および直近の音声認識で算出されたCM値を今回のCM値に反映させる1つの反映モードM4の計4モードが用意されている。
(1)第1モードM1は、音声認識の環境がクリーン環境であり、従来技術と同様に、予めクリーン環境で算出された固定CM値を採用するモードである。
(2)第2モードM2は、従来技術と同様に、音声入力の開始タイミングまたはユーザ発声の検出タイミングから一定期間内に抽出された音響特徴量から算出されるCM値を採用するモードである。
(3)第3モードM3は、前回までの音声認識において計測された音響特徴量の履歴に基づいてCM値の初期値cm_initを算出し、この初期CM値cm_initと今回の音声認識において音声入力の開始タイミングまたはユーザ発声の検出タイミングから現時刻までの音響特徴量から算出された各時刻CM値との重み付け和を取ることで単位時間毎にCM値を適応的に算出するモードである。
(4)第4モードM4は、直近の音声認識において、そのモードにかかわらずバックグラウンドで全ての音声区間の音響特徴量の平均値に基づいて算出された最も精度の高いCM値を今回の初期CM値cm_initとして採用し、この初期CM値cm_initと今回の音声認識において音声入力の開始タイミングまたはユーザ発声の検出タイミングから現時刻までの音響特徴量から算出された各時刻CM値との重み付け和を取ることで単位時間毎にCM値を適応的に算出するモードである。
【0031】
図2は、前記第3モードM3の主要部の構成を示した機能ブロック図であり、初期補正値蓄積部31には、正規化用CM値の初期値cm_initが予め蓄積されている。この初期CM値cm_initは、後に詳述するように、音響特徴量の履歴に基づいて周期的あるいは所定のイベントを契機に更新される。
【0032】
なお、音声信号を検出するマイクロフォンやA/D変換器等の入力デバイスが複数種用意されている場合には、入力デバイスごとに初期CM値cm_initを蓄積しておき、使用する入力デバイスに対応した初期CM値cm_initが用いられるようにすることが望ましい。同様に、音声認識の対象者が限られている場合には、認識対象者ごとに初期CM値cm_initを蓄積しておき、認識対象者に対応した初期CM値cm_initが用いられるようにすることが望ましい。
【0033】
各時刻補正値算出部32は、音声認識ごとに所定の時刻周期で入力される音響特徴量x(t)の、開始時刻sから現在時刻cまでの経過期間Tc(=c-s+1)におけるCM値[cm_current(c)]を次式(2)に基づいて算出する。
【0034】
【数2】

【0035】
前記開始時刻sは、入力音声が検知された時刻であっても良いし、入力音声が検知されてから所定の期間が経過した時刻であっても良いし、あるいは音声認識装置によりユーザ発声の入力が検出された時刻であっても良い。
【0036】
なお、音声認識装置により認識されたユーザ発声の開始時刻と現在時刻との間であっても、息継ぎ等による無音区間が挿入されている場合があり、これがCM値に誤差を生じさせる原因となることがある。したがって、例えば入力音声のパワー変化を閾値処理する等により前記無音区間を検出し、この無音区間を除外した厳密なユーザ発声区間Tdのみを対象に、CM値[cm_current(c)]を次式(3)に基づいて算出するようにしても良い。
【0037】
【数3】

【0038】
補正値更新部33は、初期補正値蓄積部31に蓄積されている現在の初期CM値cm_init、および前記各時刻補正値算出部32で算出された現在時刻cにおける各時刻CM値cm_current(c)を次式(4)に適用して現在時刻cにおける正規化用CM値cm(c)を算出し、これを特徴量正規化部2にCM値として更新登録する。
【0039】
【数4】

【0040】
ここで、符号τは単位時間当たりのCM値更新度を決定する重み係数であり、τにより現入力音声へのCM値の適応速度を調節することができるため、例えば背景雑音レベルの大きさに応じて異なるτを用いるようにしても良い。すなわち、音声認識では始めに背景雑音レベルが計測され、この背景雑音レベルを基準に設定される所定の閾値を超える入力信号がユーザ発声と認識される。一般的に初期CM値cm_initは背景雑音レベルが低い環境を想定して設定されるので、前記計測された背景雑音レベルが小さければ重み係数τを大きめの値に設定して初期値の影響を大きくする一方、背景雑音レベルが大きければ重み係数τを小さめ値に設定して現入力音声の影響を大きくすることが望ましい。
【0041】
特徴量正規化部2は、前記補正値更新部33により更新された現在時刻cにおけるCM値cm(c)および音響特徴量x(c)を単位時間毎に次式(5)に適用し、正規化された音響特徴量x'(c)を得る。
【0042】
【数5】

【0043】
音響特徴量蓄積部34は、音声認識ごとに音響特徴量x(t)を入力音声全体にわたって蓄積する。このとき、音声認識装置により検出されたユーザ発声の始端時刻および終端時刻も併せて記憶される。初期補正値算出部35は、音響特徴量蓄積部104に蓄積された1つ以上の音声の音響特徴量を用いて、初期補正値蓄積部31に蓄積する初期CM値cm_initを次式(6)に従って算出する。ここで、符号Mは算出に用いる音声データ数であり、符号eは音声データにおいて算出に用いる最終時刻である。
【0044】
【数6】

【0045】
なお、前記初期CM値cm_initが入力デバイス毎あるいは認識対象者毎に蓄積されている場合には、初期補正値算出部35も音響特徴量xi(t)を入力デバイス毎あるいは認識対象者毎に上式(6)に適用し、初期CM値cm_initを入力デバイス毎あるいは認識対象者毎に算出して初期補正値蓄積部31に更新登録することが望ましい。
【0046】
図3は、この第3モードM3によるCM値cm(c)の決定手順を示したフローチャートである。ステップS51において音声認識の開始が検知され、ステップS52において、時刻tjで検出された入力音声の音響特徴量x(tj)が補正値決定部10へ入力されると、ステップS53では、当該音響特徴量x(tj)が蓄積部34に蓄積される。各音響特徴量x(tj)には、その検出時刻tjと共に今回の入力音声系列に固有の識別子iが記述されており、各音響特徴量x(tj)は、その検出時刻tjおよび入力音声系列識別子iと共に蓄積される。また、音声分析部1により検出されたユーザ発声の始端時刻tsおよび終端時刻teも、所定のタイミングで補正値決定部10に通知され、入力音声系列識別子iと対応付けられて蓄積部34に蓄積される。
【0047】
ステップS54では、前記各時刻補正値算出部32により現在時刻cに固有の各時刻CM値cm_current(c)が上式(2)または(3)に基づいて算出される。ステップS55では、補正値更新部33により初期補正値蓄積部31から初期CM値cm_initが読み込まれる。ステップS56では、前記各時刻補正値算出部32により算出された各時刻CM値cm_current(c)と前記初期CM値cm_initとが上式(4)に適用されて現在時刻cにおけるCM値cm(c)が算出される。ステップS57では、前記CM値cm(c)が特徴量正規化部2へ通知されて音響特徴量の正規化に利用される。ステップS58では、今回の音声認識に関する音声入力が完了したか否かが判定される。完了していなければステップS52へ戻り、続いて入力される音響特徴量に関して上記の各処理が繰り返される。
【0048】
音声入力が完了し、これがステップS58で検知されるとステップS59へ進む。ステップS59では、初期CM値cm_initに関して所定の更新タイミングであるか否かが判定される。更新タイミングであればステップS60へ進み、音響特徴量蓄積部34に蓄積されている正規化前の音響特徴量(履歴)が初期補正値算出部35に取り込まれる。ステップS61では、音響特徴量の履歴が上式(6)に適用されて初期CM値cm_initが算出される。ステップS62では、前記初期補正値蓄積部31に既登録の初期CM値cm_initが、前記ステップS61で新たに算出された初期CM値cm_initに更新登録される。
【0049】
図4は、前記第4モードM4の主要部の構成を示した機能ブロック図である。上記の第3モードM3では、初期CM値cm_initが前回までの音声認識において計測された音響特徴量の履歴に基づいて算出されていたが、この第4モードM4では、直近の音声認識において算出されたCM値が初期CM値cm_initとして利用される。
【0050】
直近補正値記憶部36には、直近の音声認識において、各時刻補正値算出部32により全ての音声区間の音響特徴量の平均値に基づいて算出された最も精度の高いCM値が記憶される。補正値更新部33は、直近の音声認識において算出されて前記直近補正値記憶部36に記憶されているCM値、および今回の音声認識において各時刻補正値算出部32で算出された現在時刻cにおける各時刻CM値cm_current(c)を次式(7)に適用して現在時刻cにおける正規化用CM値cm(c)を算出し、これを特徴量正規化部2で用いるCM値として更新登録する。
【0051】
【数7】

【0052】
なお、各時刻補正値算出部32による各時刻CM値cm_current(c)の算出およびその直近補正値記憶部36への記憶は、各音声認識において第4モードM4が採用されていない場合であってもバックグラウンドで常に実行される。したがって、直近の音声認識において第4モードM4が採用されていなくても、今回の音声認識において第4モードM4が採用されれば初期CM値cm_initを当所から最適化できる。
【0053】
次いで、図5のフローチャートを参照して本発明の第1実施形態の動作を詳細に説明する。ステップS11では、今回の音声認識の開始タイミングで計測された今回の背景雑音レベルL0が取得される。ステップS12では、前回の音声認識の開始タイミングで計測された直近の背景雑音レベルL1が蓄積部102から取り込まれ、比較部103において今回の背景雑音レベルL0と比較される。L0,L1が同等であれば、今回の音声認識と直近の音声認識とで実施環境に大きな差が無いのでステップS17へ進み、今回の音声認識で使用するCM値に直近の音声認識で算出されたCM値を反映させる前記第4モードM4が選択される。すなわち、原理的に応答遅延を生じさせない上式(7)において、直近の音声認識で算出されたCM値を今回のCM値の初期CM値cm_initとして採用することで、音声認識の開始直後から入力音声の音響特徴量と音響モデルとのミスマッチを解消できるようになる。
【0054】
これに対して、L0,L1が同等ではなく、ステップS13においてL0>L1と判定されるとステップS18へ進み、今回の音声認識に直近の音声認識で算出されたCM値を反映させない前記第2モードM2が選択される。すなわち、L0>L1であれば今回の実施環境では直近の実施環境よりも背景雑音レベルが高いので、応答遅延の解消よりも認識精度の低下抑制が優先される第2モードM2が選択される。
【0055】
L0>L1でなければ更にステップS14へ進み、今回の背景雑音レベルL0が低雑音レベルLlowと比較される。L0≦LlowであればステップS15へ進み、CM値を所定の固定値に設定する前記第1モードM1が選択される。すなわち、L0≦Llowであれば今回の実施環境は極めてクリーンなので、クリーン環境で求められた固定値の初期CM値として利用すべく第1モードM1が選択される。これにより、応答遅延を生じさせることなく高精度の音声認識が可能になる。
【0056】
これに対して、L0>LlowであればステップS19へ進み、今回の音声認識に直近の音声認識で算出されたCM値を反映させない前記第3モードM3が選択される。すなわち、L1>L0>Llowであれば、今回の実施環境は極めてクリーンとは見なせないまでも十分にクリーンな環境であり、音響特徴量の時系列に基づいてCM値を適応的に設定することで、応答遅延を生じさせることなく十分に高精度の音声認識を可能にする前記第3モードM3が選択される。
【実施例2】
【0057】
図6は、本発明の第2実施形態の主要部の構成を示した機能ブロック図であり、前記と同一の符号は同一または同等部分を表している。本実施形態では、音声認識の実施環境として、前記背景雑音レベルに加えて音声認識の実施時刻が考慮される。
【0058】
計時部111は、音声認識ごとにその実施時刻T0を計測する。蓄積部112には、前記実施時刻T0の履歴が蓄積される。比較部113は、今回の音声認識の実施時刻(今回時刻)T0と直近の音声認識の実施時刻(直近時刻)T1とを比較し、比較結果を補正値算出部100へ通知する。条件設定部130は、音声認識の実施環境の変化を定量的に把握するにあたり、実施時刻の変化に加えて背景雑音レベルの変化も併用するか否かを設定する。
【0059】
補正値算出部100は、前記各比較部103,113から通知される背景雑音レベルの差分(L0-L1)または実施時刻の差分(T0-T1)に基づいて、今回の音声認識の実施環境と直近の音声認識の実施環境の違いを定量的に把握する。そして、実施環境の変化が所定の閾値以上であれば、直近の音声認識で算出されたCM値を今回のCM値に反映させない第1、第2および第3モードM1,M2,M3のいずれかによりCM値が算出される。また、環境変化が所定の閾値未満であれば、直近の音声認識で算出されたCM値を今回のCM値に反映させる第4モードM4によりCM値が算出される。
【0060】
次いで、図7のフローチャートを参照して本実施形態の動作を詳細に説明する。ステップS21では今回時刻T0が取得される。ステップS22では直近時刻T1が蓄積部112から取り込まれ、前記比較部113において今回時刻T0と比較される。両者の差分(T0-T1)が所定の閾値Trefを超えていればステップS23へ進み、今回の背景雑音レベルL0が低雑音レベルLlowと比較される。L0>LlowでなければステップS24へ進み、今回の音声認識に直近のCM値を反映させない第3モードM3が選択される。これに対して、L0>LlowであればステップS25へ進み、今回の音声認識に直近のCM値を反映させない前記第2モードM2が選択される。
【0061】
一方、前記ステップS22において、今回時刻T0と直近時刻T1との差(T0-T1)が所定の閾値Tref以下と判定されるとステップS26へ進む。ステップS26では、背景雑音レベルに基づく補正値決定処理が併用されているか否かが判定される。併用されていれば、前記背景雑音レベルに基づく補正値決定処理へ移行する。これに対して、併用されていなければステップS27へ進み、今回の音声認識に直近のCM値を反映させる前記第4モードM4が選択される
【実施例3】
【0062】
図8は、本発明の第3実施形態の主要部の構成を示した機能ブロック図であり、前記と同一の符号は同一または同等部分を表している。本実施形態では、音声認識の実施環境として、前記背景雑音レベルに加えて、音声認識の実施時刻および実施位置が考慮される。
【0063】
測位部121は、音声認識のイベントごとに、その実施位置P0をGPS信号または無線基地局の位置に基づいて測位する。蓄積部122には、前記実施位置P0の履歴が蓄積される。比較部123は、今回の音声認識の実施位置(今回位置)P0と直近の音声認識の実施位置(直近位置)P1とを比較し、比較結果を補正値算出部100へ通知する。条件設定部130は、音声認識の実施環境の変化を定量的に把握するにあたり、実施位置の変化に加えて背景雑音レベルの変化や実施時刻の変化も併用するか否かを設定する。
【0064】
補正値算出部100は、前記各比較部103,113,123から通知される背景雑音レベルの差分(L0-L1),実施時刻の差分(T0-T1)または実施位置の差分(P0-P1)に基づいて、今回の音声認識の実施環境と直近の音声認識の実施環境の違いを定量的に把握する。そして、実施環境の変化が所定の閾値以上であれば、直近の音声認識で算出されたCM値を今回の補正値算出に反映させない第1、第2および第3モードM1,M2,M3のいずれかによりCM値を算出する。また、環境変化が所定の閾値未満であれば、直近の音声認識で算出されたCM値を今回のCM値算出に反映させる第4モードM4によりCM値を算出する。
【0065】
次いで、図9のフローチャートを参照して本実施形態の動作を詳細に説明する。ステップS31では今回位置P0が取得される。ステップS32では直近位置P1が蓄積部122から取り込まれ、前記比較部123において今回位置P0と比較される。両者の差分(P0-P1)が所定の閾値Prefを超えていればステップS33へ進み、今回の背景雑音レベルL0が低雑音レベルLlowと比較される。L0>LlowでなければステップS34へ進み、今回の音声認識に直近のCM値を反映させない第3モードM3が選択される。これに対して、L0>LlowであればステップS35へ進み、今回の音声認識に直近のCM値を反映させない前記第2モードM2が選択される。
【0066】
一方、前記ステップS32において、今回位置P0と直近位置P1との差(P0-P1)が所定の閾値Pref以下と判定されるとステップS36へ進む。ステップS36では、音声認識の実施時刻に基づく補正値決定処理が併用されているか否かが判定される。併用されていれば、実施時刻に基づく補正値決定処理へ移行する。ステップS37では、背景雑音レベルに基づく補正値決定処理が併用されているか否かが判定される。併用されていれば、背景雑音レベルに基づく補正値決定処理へ移行する。これに対して、他の補正処理が併用されていなければステップS38へ進み、今回の音声認識に直近のCM値を反映させる前記第4モードM4が選択される。
【0067】
なお、上記の各実施形態では、今回の音声認識の実施環境と直近の音声認識の実施環境とを比較する際に、背景雑音レベル、音声認識の実施時刻あるいは実施位置の相違を定量的に求めるものとして説明したが、本発明はこれのみに限定されるものではなく、背景雑音の種類、音声信号の入力デバイスあるいは入力音声の発話者を類別し、その相違に基づいて実施環境の変化を判定するようにしても良い。
【0068】
また、上記の一連の処理はコンピュータにより実行可能なプログラム言語で記述することができ、当該プログラムをCD-ROMやDVDなどの記憶媒体に記録し、これをコンピュータに読み込ませて実行させることにより音声認識装置を構成することができる。
【0069】
さらに、上記の各実施形態では、今回の音声認識の実施環境が直近の音声認識の実施環境と比較されるものとして説明したが、本発明はこれのみに限定されるものではなく、今回よりも前の音声認識の実施環境であれば、直近の音声認識の実施環境でなくても良い。
【符号の説明】
【0070】
1…音響分析部,2…特徴量正規化部,3…辞書探索部,4…辞書,5…音響モデル,6…固定補正値,10…補正値決定部,100…補正値算出部,101…背景雑音レベル計測部,102,112,122…蓄積部,103、113,123…比較部

【特許請求の範囲】
【請求項1】
音声信号から抽出された音響特徴量を正規化して音響モデルと照合する音声認識装置において、
正規化用の補正値を算出する手段と、
音声認識の実施環境を検知する手段と、
今回の実施環境と以前の実施環境とを比較する手段とを具備し、
前記補正値を算出する手段は、今回の実施環境と以前の実施環境との差分に基づき、正規化用補正値の算出方法を変更することを特徴とする音声認識装置。
【請求項2】
前記補正値を算出する手段は、
今回の実施環境と以前の実施環境との差分が所定の閾値未満のときに、以前の音声認識で算出された補正値を今回の補正値に反映させる反映モードと、
今回の実施環境と以前の実施環境との差分が所定の閾値以上のときに、以前の音声認識で算出された補正値を今回の補正値に反映させない非反映モードとを含むことを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記非反映モードは、補正値として固定値を採用する第1モード、音響特徴量の時系列に基づいて補正値を算出する第2モード、および音響特徴量の時系列に基づいて算出される各時刻補正値と初期補正値との重み付け和として補正値を算出する第3モードの少なくとも一つを含むことを特徴とする請求項2に記載の音声認識装置。
【請求項4】
前記反映モードは、音響特徴量の時系列に基づいて算出される各時刻補正値と初期補正値との重み付け和として補正値を算出する第4モードを含み、以前の音声認識で算出された補正値が初期補正値に反映されることを特徴とする請求項2または3に記載の音声認識装置。
【請求項5】
前記実施環境を検知する手段が、背景雑音レベルを計測する手段であることを特徴とする請求項1ないし4のいずれかに記載の音声認識装置。
【請求項6】
前記実施環境を検知する手段が、音声認識の実施時刻を計時する手段であることを特徴とする請求項1ないし5のいずれかに記載の音声認識装置。
【請求項7】
前記実施環境を検知する手段が、音声認識の実施位置を測位する手段であることを特徴とする請求項1ないし6のいずれかに記載の音声認識装置。
【請求項8】
前記実施環境を検知する手段が、背景雑音の種類を類別する手段であることを特徴とする請求項1ないし7のいずれかに記載の音声認識装置。
【請求項9】
前記実施環境を検知する手段が、音声信号の入力デバイスを類別する手段であることを特徴とする請求項1ないし8のいずれかに記載の音声認識装置。
【請求項10】
前記実施環境を検知する手段が、入力音声の発話者を類別する手段であることを特徴とする請求項1ないし9のいずれかに記載の音声認識装置。
【請求項11】
音声信号から抽出された音響特徴量を正規化して音響モデルと照合する音声認識装置の特徴量正規化方法において、
正規化用の補正値を算出する手順と、
音声認識の実施環境を検知する手順と、
今回の実施環境と以前の実施環境とを比較する手順とを含み、
前記補正値を算出する手順は、今回の実施環境と以前の実施環境との差分に基づき、正規化用補正値の算出方法を変更することを特徴とする音声認識装置の特徴量正規化方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2011−48008(P2011−48008A)
【公開日】平成23年3月10日(2011.3.10)
【国際特許分類】
【出願番号】特願2009−194368(P2009−194368)
【出願日】平成21年8月25日(2009.8.25)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】