説明

音響モデル構築方法、音響モデル構築装置、音声認識方法、音声認識装置、音響モデル構築プログラム、音声認識プログラム、これらのプログラムを記録した記録媒体

【課題】反響を含む音声の音声認識精度を向上させる。
【解決手段】音声認識対象とは異なる環境において、観測された音声信号に対し、残響除去を施し、残響除去が施された音声信号の音響モデルパラメータを推定し、音響モデルパラメータの推定結果に従って音響モデルを構築すると共に、音声認識時は認識対象とする音声から残響を除去し、残響が除去された音声で音響モデルを適応化し、残響除去時に受けた歪みを除去して音声認識を実行し得るようにし、この結果として認識精度を高めた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、連続的に発話された音声信号に残響が付加された場合、高精度な音声認識を達成することを可能とした音響モデル構築方法及びこの音響モデル構築方法を実現するための装置と、更に、音響モデル構築方法で構築した音響モデルを利用して高精度な音声認識を達することができる音声認識方法及びこの音声認識方法を実現する音声認識装置に関するものであり、更には、これらの音響モデル構築装置及び音声認識装置をコンピュータで機能させるためのプログラムと、このプログラムを記録した記録媒体に関するものである。
【背景技術】
【0002】
音声信号は、残響のある環境で収音されると、本来の音声信号に残響が重畳された信号として観測される。このため、本来の音声信号の性質を抽出することが困難となり、音声認識率も著しく低下してしまう。これに対し、残響除去処理は、重畳した残響を取り除くことで、音声本来の性質を抽出し易くするとともに、音声認識手法と組み合わせることにより高い音声認識率を回復することができる。これはほかのさまざまな残響信号処理システムの要素技術として用いることで、そのシステム全体の性能向上につながる技術である。連続発話された音声信号の残響除去処理、およびそれを用いた音声認識が要素技術として性能向上に寄与できるような音響信号処理技術は、例えば残響除去を前処理として用いる音声認識システムに用いることができる。
【0003】
残響環境下での音声認識方法の従来例1を図6を参照して説明する。この従来手法は非特許文献1で提案されている手法である。従来例1では、複数のセンサ10〜10で測定された観測信号S1〜Snを入力としているデジタル信号処理装置20により本来の音源の方向から来る音は通過させつつ、本来の音源から出た音が壁に反射する方向から来る音には死角を向けるような指向特性を形成することで残響除去を行い、次にその残響の除去された信号をもとに音声認識手段30が音声認識を行なう。
このためにデジタル処理装置20には目的音源位置推定手段21と、残響反射位置推定手段22と、死角型指向性形成手段23とを備え、死角型指向性形成手段23において、目的音源位置推定手段21と、残響反射位置推定手段22の各推定結果と、各観測信号S1〜Snとから死角指向性を求め、残響除去を実現する。
【0004】
残響環境下での音声認識方法の従来例2を図7を参照して説明する。従来例2ではあらかじめ音源11からセンサ10までの伝達関数DNを測定しておいて(非特許文献2)、観測信号に対してはその逆関数を適用することで残響除去を行なう。つまり、逆伝達関数データ格納手段50にあらかじめ測定した音源11とセンサ10との間の伝達関数DNを記憶しておく、音声認識対象となる観測信号に逆伝達関数乗算手段40で逆伝達関数を乗算することにより、その乗算結果に残響が除去された音声信号を得ることができる。音声認識手段30は、残響が除去された音声信号の音声認識を実行し、認識結果を出力する。
【0005】
残響環境下での音声認識方法の従来例3を図8を参照して説明する。従来例3では特許文献1で提案されている調波構造に基づく残響除去方法を用いて音源11からセンサ10までの伝達関数DNの逆フィルタを推定し、観測信号に対してはその逆フィルタを適用することで残響除去を行なう。図8に示す調波構造に基づく残響除去手段60は音源11からセンサ10までの伝達関数DNの逆フィルタを推定し、その逆フィルタを用いて残響除去を実行し、音声認識手段30は残響除去手段60が出力する残響が除去された出力信号の音声認識を実行し、認識結果を出力する。
【特許文献1】特開2004−109742号公報
【非特許文献1】J.L. Flanagan, “Computer-steered Microphone Arrays for Sound Transduction in Large Rooms,” Journal of Acoustical Society of America, 78(11), pp. 1508-1518, Nov., 1985
【非特許文献2】M.Miyoshi and Y.Kaneda, “Inverse filtering of room acoustics,” IEEE Trans, on Acoustics, Speech and Signal Processing, 36(2), pp.145-152, 1988
【発明の開示】
【発明が解決しようとする課題】
【0006】
上述した残響環境下での音声認識法の従来例1では、デジタル信号処理により形成する死角の数をnとすると、原理的にn+1個以上のセンサが必要になる。したがって残響が周囲のいたるところから到来するような環境においては、非常に多数のセンサによる観測信号が必要になる。さらに、目的音と同じ方向から来る残響についてはこの方法では除去できない。そのため、特に長い残響時間を持つような残響環境下では、高い認識率を維持することはできない。
上述した残響環境下での音声認識法の従来例2では、少数のセンサによる観測音でいたるところから到来する残響を除去することができるが、あらかじめ伝達関数を測定しておく必要がある。
【0007】
更に、上述した残響環境下での音声認識法の従来例3では、残響除去を施した音声には除去しきれなかった残響成分(乗法性歪み)が残っているため、高精度な音声認識を達成することができなかった。
このように、従来用いられてきた残響環境下の音声認識法では、観測信号のセンサが一つで、かつ音源からセンサへの伝達関数が既知でない場合には、高い認識精度を達成することができなかった。
因みに、従来技術で得られる音声認識精度を図9に示す。図9Aは女性の単語正解精度、図9Bは男性の単語正解精度を示す。この図から明らかなように、従来技術によれば、残響を除去したとしても、正解精度は良くて40%程度(男性の場合)、女性では20%程度であり、音声認識精度は低い。尚、図9に示すベースラインは、クリーンな音声(残響を含まない音声)を音声認識した際の単語正解精度を示しており、音声認識システムの認識精度の上限である。図9から明らかなように、残響除去を施しただけでは単語正解精度を高く保つことが難しいことが見てとれる。
【0008】
残響環境下で高精度な音声認識を達成できる理由の一つに、音響モデル構築時に用いた音声と、実際の認識対象となる音声の間にミスマッチがあることが挙げられる。特に従来では音響モデル構築時には残響を含まないクリーンな音声を用いて音響モデルを構築する方法を採るため、音響モデル構築時に用いた音声と残響環境下で入力される認識対象となる音声との間に大きなミスマッチが存在し、このミスマッチが認識精度の低減につながっているものと考えられる。
この発明の目的は音響モデル構築時に用いる音声と、残響環境下で入力される音声認識対象となる音声とのミスマッチを解消し、このミスマッチの解消により音声認識精度を向上させようとするものである。
【課題を解決するための手段】
【0009】
音響モデル構築時に用いる音声と、残響環境下で入力される音声認識対象となる音声とのミスマッチを解消するために、本発明では音声認識対象とは別の環境において観測された音声信号に対し、残響除去を施し、残響除去が施された音声信号の音響モデルパラメータを推定し、音響モデルパラメータの推定結果に従って音響モデルを構築する音響モデル構築方法と、音声認識対象となる観測信号から残響を除去する残響除去処理と、残響が除去された信号を元に前記音響モデル構築方法で構築した音響モデルを音声認識対象となる観測信号に適応させる適応処理と、適応された音響モデルと残響除去処理で残響が除去された観測信号を用いて音声認識を行なう音声認識処理とを実行する音声認識方法を提案する。
【発明の効果】
【0010】
本発明による音響モデル構築方法によれば、音響モデルの構築に用いる音声に対し、仮に音声がクリーンな音声であっても残響除去処理を施す。この残響除去処理によって音声には残響除去時に乗法性歪み(除去しきれなかった残響成分が存在すること)と呼ばれる歪みが付加される。この残響除去処理により音響モデルにあらかじめ残響除去後の乗法性歪みを学ばせておくことができる。
音声認識時に乗法性歪みを学習した音響モデルを用いることにより、音声認識時も音声認識対象となる音声にも残響除去を施すから、音声認識対象となる音声にも乗法性歪みが付加される。
【0011】
この結果として、音響モデル構築時に用いる音声と音声認識対象となる音声とのミスマッチが解消され、音声認識精度を向上することができる。
更にこの発明では音声認識時に用いる音響モデルを残響除去処理を施した音声認識対象となる音声で適応処理し、適応処理を施した音響モデルを用いて音声認識を実行する。このように音声認識に用いる音響モデルを残響除去処理された音声で適応処理することにより、音響モデルに与えられた乗法性歪みを取り除くことができる。この点にに関しては「C.J. Leggetter and P.C. Woodland, “Maximun Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models,” Computer Speech and Language, vol.9, pp.171-185, 1995」を参照。以下この手法をMLLRと称す。
【0012】
また、乗法性歪みを取り除く手法としては「B.S. Atal, “Effectiveness of Linear Prediction Characteristics of the Speech Wave for Automatic Speaker Identification and Verification,” Journal of Acoustical Society of America, 55(6), pp.1304-1312, 1974.」(以下この手法を「CMN」と称す。)を組み合わせることも可能である。
【発明を実施するための最良の形態】
【0013】
本発明による音響モデル構築方法及びこの方法を用いた装置、更には音声認識方法及び装置はハードウェアにより実現することができるが、現実には本発明で提案する音響モデル構築プログラム及び音声認識プログラムをコンピュータにインストールし、コンピュータに音響モデル構築装置及び音声認識装置として機能させる実施形態が最良の実施形態である。
コンピュータを音源モデル構築装置として機能させる場合、コンピュータには音声認識対象とは別の環境において観測された音声信号に対し、残響処理を施す残響除去手段と、残響除去手段で残響が除去された音声信号の音響モデルパラメータを推定処理する音響モデルパラメータ推定手段と、音響モデルパラメータ推定手段の推定結果に従って音響モデルを構築する音響モデル構築手段とが備えられ、残響除去処理によって乗法性歪みが付加された音声信号の音響パラメータを推定し、音響モデルを構築する。
【0014】
この発明では更に、コンピュータを音声認識装置として機能させる場合、コンピュータには音声認識対象となる観測信号から残響を除去する残響除去手段と、残響が除去された信号を元に本発明で提案する音響モデル構築装置で構築した音響モデルを音声認識対象となる観測信号に適応させる適応手段と、適応された音響モデルと残響除去手段で残響が除去された観測信号を用いて音声認識を行なう音声認識手段とを備え、乗法性歪みを学習した音響モデルを認識対象となる音声に適応させ、適応された音響モデルを用いて、乗法性歪みが付加された認識対象となる音声信号の音声認識を実行する。これにより、高い音声認識精度が得られるとする本発明の効果が得られる。
【実施例1】
【0015】
図1に本発明による音響モデル構築方法を適用して動作する音響モデル構築装置と、本発明による音声認識方法を適用して動作する音声認識装置の実施例を示す。
図中100は本発明による音響モデル構築装置、200は本発明による音声認識装置を示す。本発明による音響モデル構築装置100は残響除去手段101と、音響モデルパラメータ推定手段102とによって構成される。残響除去手段101には予め、音声認識対象とは別の環境において観測された音声信号を入力する。音声認識対象とは別の環境とは残響環境であることは無論のこと、クリーンな音声が得られる環境であってもよい。
【0016】
残響除去手段101及び201の実施例を図2を参照して説明する。図2に示す実施例では基本波推定法、調波構造抽出処理等、特許文献1で提案されている手法と同じ手法を用いた場合を示す。残響を含む連続的な信号(図中観測音信号)が入力されると、ステップSP−1で入力信号は分析窓と呼ばれる短時間(数10ミリ秒)の信号区間(フレーム)に分割される。ステップSP−2ではそれぞれのフレーム内で基本周波数推定処理が実行され、基本周波数F0及び調波構造が含まれたフレーム(調波構造区間)を推定する。
次に、ステップSP−3では求められた基本周波数と調波構造区間を元に、調波成分抽出処理が実行され、調波成分を抽出する。最後にステップSP−4で逆伝達関数を推定し、ステップSP−5でその逆伝達関数を適用し、残響除去信号を得る。その後、逆伝達関数推定の精度を上げるために、残響が除去された出力信号を元に基本波を推定し、ステップSP−1〜SP−5を複数回繰り返す方法が提案されているが、本発明でも同様に繰り返し処理を施すことが可能である。
【0017】
本発明による音響モデル構築装置100は上述した動作を実行する残響除去手段101と音響モデルパラメータ推定手段102とから構成され、入力を音声信号とし、音響モデルが出力される。先ず、入力された音声信号は、残響除去手段101に入り、図2を用いて説明した残響除去処理が施された音声信号として出力される。
その出力された音声信号は、音響モデルパラメータ推定手段102に入力され、音響モデルという形で出力される。音響モデルのパラメータ推定はオフラインで行われる。音響モデルのパラメータを推定する手段としては、従来手法を用いる。例えば、EM(Expectation Maximization)アルゴリズム等を用いることが可能である。
【0018】
パラメータ推定のために、いくつかの残響環境下で観測された信号を残響除去した信号を用意した。例えば、認識対象である未知の残響環境を1.0秒の環境とした場合、その外に0.1秒、0.2秒、0.5秒、の残響下で観測され残響除去が施された音声信号を音響モデルパラメータ推定に用いる。
音声認識装置200は図1に示したように残響除去手段201と音響モデル適応手段202と、音声認識手段203とによって構成することができる。残響除去手段201は音響モデル構築装置100を構成する残響除去手段201とほぼ同一の構成の残響除去手段を用いることができる。残響が除去された音声信号は音響モデル適応手段202で音声認識対象となる音声信号で音響モデルの適応処理を施し、適応処理された音響モデルを用いて音声認識手段203は残響除去手段201で残響が除去された認識対象となる音声信号の音声認識処理を実行し、認識結果を出力する。
【0019】
図3に図1に示した音響モデル適応手段202の詳細を示す。音響モデル適応手段202は音声認識手段202Aと歪み除去手段202Bとによって構成される。歪み除去手段202Bは先に説明したMLLR手法を適用するか、又はMLLR手法とCMN手法とを組み合わせた手法を適用することができる。まず、何も適応を行っていない音響モデルを用いて認識実験を行い、認識結果(トランスクリプションともいう)を出力させる。そして、残響除去された音声と認識結果を用いて、歪み除去手段202Bを構成するMLLRが音響モデルの適応化を行い、入力音声に適用した音響モデルを出力する。
【0020】
音響モデルの中では、平均μ、分散σで表されるガウス分布がいくつも重なったガウス混合分布で一つの音素が表されている。MLLR手法は、このガウス分布の平均値μに、次式で表される変形を加える手法である。
μ=W×μ+β (1)
μは変換前のガウス分布の平均値で、μは変換後のガウス分布の平均値である。入力のトランスクリプションに最も適応するように、式1中の未知のパラメータでるWとβを最尤推定(Maximum likelihood estimation)で決定することで、線形写像を行なうことが可能となる。実際は、この処理をひとつひとつのガウス分布に行なうことはほとんどなく、いくつかの音素をまとめた音素クラスのすべての混合ガウス分布に対して、共通のWとβを計算し、線形写像を行なう。
【0021】
また、短い乗法性歪みを取り除くことを目的として、CMNを併用することも可能である。時間領域での乗法性の歪みは、ケプストラム領域では加法性歪みとなることが一般的に知られている。音声の変動に対して乗法性歪みの変動は充分に緩やかであり、また、クリーンな音声のケプストラムの平均値はゼロであるとした場合、乗法性歪みの付加された音声のケプストラムの平均は、含まれる乗法性歪みのケプストラムの平均を示す。そのため、観測音からケプストラム領域でケプストラムの時間平均を減算する事により、含まれる乗法性歪みを低減することが出来る。CMNを併用する場合は、音響モデル構築に用いられる音声及び、残響除去後の認識対象の音声共に、CMNを施す必要がある。
【実施例2】
【0022】
図4に本発明の有効性を実証するための実施例を示す。この実施例では環境A、B、C、Dの4つの残響環境をシミュレートした例を示す。例えばそれぞれの環境を残響時間が0.1秒、0.2秒、0.5秒、1.0秒に対応させ、環境Dが認識対象の未知の環境とした場合、環境Aで観測された残響音声、環境Bで観測された残響音声、環境Cで観測された残響音声はそれぞれ残響除去手段101A、101B、101Cで残響が除去され、残響が除去された音声A、B、Cを用いて音響モデルパラメータ推定手段102でそれぞれの音響モデルのパラメータを予め推定しておく。次にオンライン環境Dで残響音声を観測し、残響除去手段201で残響除去を施し、この残響除去された認識対象音声を用いて音響モデルを環境Dに適応し、その環境Dに適応された音響モデルを用いて最終的な認識結果を得た。
【0023】
本発明の効果を実証すべく、以下の条件で単語正解率を求めた。連続発話データベースから、男女一名の各503文を音源信号とし、可変残響室で測定した4種類のインパルス応答(残響時間が0.1、0.2、0.5、1.0秒)を畳み込んで観測信号を合成した。
図5は、本発明を適用して音声認識率改善を試みたときの単語正解率を示している。女性、男性ともに、それぞれの残響環境下で非常に高い単語正解率を示していることが見てとれる。
【0024】
以上説明した音響モデル構築装置100A及び音声認識装置200はハードウェアによって構成することも可能であるが、それよりむしろコンピュータに本発明による音響モデル構築プログラム及び音声認識プログラムをインストールし、コンピュータに音響モデル構築装置及び音声認識装置として機能させる実施形態が最も望ましい実施形態である。
本発明による音響モデル構築プログラム及び音声認識プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク或はCD−ROMのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールするか、或は通信回線を通じてインストールされ、コンピュータに備えられたCPUに解読されて実行される。
【産業上の利用可能性】
【0025】
本発明による音響モデル構築装置及び音声認識装置は残響除去を前処理として用いる音声認識システム、或は、残響の含まれた講演録音から、音声認識を用いて講演議事録を作成するシステム、或は、人が発した声に反応して機械にコマンドをわたす機械制御インターフェース、及び機械と人間の対話装置などに活用される。
【図面の簡単な説明】
【0026】
【図1】この発明の一実施例を説明するためのブロック図。
【図2】図1に示した実施例で用いた残響除去手段の処理手順を説明するためのフローチャート。
【図3】図1に示した実施例で用いる音響モデル適応手段の詳細を説明するためのブロック図。
【図4】本発明の効果を実証するために行なった実施例を説明するためのブロック図。
【図5】図4に示した実施例で得られた単語正解精度を説明するための図。
【図6】従来技術の一例を説明するためのブロック図。
【図7】従来技術の他の例を説明するためのブロック図。
【図8】従来技術の更に他の例を説明するためのブロック図。
【図9】従来技術で得られる単語正解精度を説明するための図。
【符号の説明】
【0027】
100 音響モデル構築装置 201 残響除去手段
101 残響除去手段 202 音響モデル適応手段
102 音響モデルパラメータ推定手段 203 音声認識手段
200 音声認識装置

【特許請求の範囲】
【請求項1】
音声認識対象とは別の環境において観測された音声信号に対し、
残響除去を施し、残響除去が施された音声信号の音響モデルパラメータを推定し、音響モデルパラメータの推定結果に従って音響モデルを構築することを特徴とする音響モデル構築方法。
【請求項2】
請求項1記載の音響モデル構築方法において、前記音声信号は残響を含む音声信号か、残響を含まないクリーンな音声信号の何れかであることを特徴とする音響モデル構築方法。
【請求項3】
音声認識対象となる観測信号から残響を除去する残響除去処理と、
残響が除去された信号を元に前記請求項1又は2の何れかに記載の音響モデル構築方法で構築した音響モデルを前記音声認識対象となる観測信号に適応させる適応処理と、
適応された音響モデルと前記残響除去処理で残響が除去された観測信号を用いて音声認識を行なう音声認識処理と、
を含むことを特徴とする音声認識方法。
【請求項4】
音声認識対象とは別の環境において観測された音声信号に対し残響処理を施す残響除去手段と、
残響除去手段で残響が除去された音声信号の音響モデルパラメータを推定処理する音響モデルパラメータ推定手段と、
音響モデルパラメータ推定手段の推定結果に従って音響モデルを構築する音響モデル構築手段と、
を備えることを特徴とする音響モデル構築装置。
【請求項5】
音声認識対象となる観測信号から残響を除去する残響除去手段と、
残響が除去された信号を元に前記請求項4記載の音響モデル構築装置で構築した音響モデルを前記音声認識対象となる観測信号に適応させる適応手段と、
適応された音響モデルと前記残響除去手段で残響が除去された観測信号を用いて音声認識を行なう音声認識手段と、
を備えることを特徴とする音声認識装置。
【請求項6】
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項4記載の音響モデル構築装置として機能させる音響モデル構築プログラム。
【請求項7】
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項5記載の音声認識装置として機能させる音声認識プログラム。
【請求項8】
コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に少なくとも請求項6又は7の何れかに記載の音響モデル構築プログラム又は音声認識プログラムを記録した記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2006−91743(P2006−91743A)
【公開日】平成18年4月6日(2006.4.6)
【国際特許分類】
【出願番号】特願2004−280228(P2004−280228)
【出願日】平成16年9月27日(2004.9.27)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】