音声認識装置及び音声認識方法

【課題】ハードウェア資源の大幅な増加を伴わず、また実環境での不安定性の少ない特徴をもった、様々な環境で高い認識性能が得られる音声認識装置及び音声認識方法を提供することにある。
【解決手段】減算処理部は、過去Ｌフレーム分の観測信号Ｙ（ｆ，ｍ−１）〜Ｙ（ｆ，ｍ−Ｌ）を記憶する信号記憶部８と、現在の時間フレームの観測信号Ｙ（ｆ，ｍ）から、信号記憶部８に記憶した過去の時間フレームの各観測信号Ｙ（ｆ，ｍ−１）〜Ｙ（ｆ，ｍ−Ｌ）に対応する減算係数記憶部９の減算係数α_１〜α_Ｌを夫々乗じた信号をパワースペクトル減算してその結果を推定信号Sｅｓｔ（ｆ，ｍ）として出力する減算部１０とで構成され、音声特徴量抽出部４は推定信号Sｅｓｔ（ｆ，ｍ）から音声特徴量を抽出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、居室内など残響のある環境において、利用者の入力した音声を認識する音声認識装置及び音声認識方法に関するものである。
【背景技術】
【０００２】
音声認識技術は、優れたヒューマンインターフェースを具現する上で重要な役割を担っている。音声認識技術を適用した音声認識装置としては図７に示すような構成の装置が従来提供されている（例えば特許文献１）。
【０００３】
この音声認識装置は、音声を入力するマイクロフォンからなる音声入力部１と、音声入力部１からの出力信号をＡ／Ｄ変換するＡ／Ｄ変換部２と、Ａ／Ｄ変換部２からの出力信号を周波数変換する周波数変換部３と、周波数変換部３からの出力信号から音声の特徴量を抽出する音声特徴量抽出部４と、標準音声から作成された音声認識用の標準パターンを記憶している標準パターン記憶部７と、音声特徴量抽出部４から出力される入力音声の音声特徴量と標準パターン記憶部７に記憶されている標準パターンとの類似度を計算して認識結果６を出力するパターン照合部５とから構成されており、標準パターン記憶部７に記憶させる標準パターンは、予め標準音声の特徴パターンを収集し、これを隠れマルコフモデルなどのモデル化手法を用いて作成したものが用いられている。
【０００４】
ところで、装置の使用環境と標準パターンを作成したときの環境が異なる場合に、利用者の音声と標準パターンとの間に相違が生じることにより、認識率が低下するという問題があるため、特許文献１に開示されている音声認識装置では環境の残響時間に応じた複数の標準パターンを標準パターン記憶部７に記憶しておき、環境に応じて標準パターンを選択して使用するようになっている。
【０００５】
また、入力音声を分析することにより、環境の逆フィルタを推定し、入力音声を環境の影響をうけていない状態に変換してから認識する音声認識装置も提供されている（例えば非特許文献１）
【特許文献１】特開２００４−１１７７２４号公報（図１，段落番号００２５）
【非特許文献１】「調波構造を用いた残響除去法の明瞭性と認識率による音声品質評価」、日本音響学会講演論文集、６１１頁〜６１２頁、２００４年３月発行
【発明の開示】
【発明が解決しようとする課題】
【０００６】
特許文献１に開示されている音声認識装置のような、複数の標準パターンを使用する方式では、複数の標準パターンを保持するためにメモリ容量が増加するという問題がある。音声認識装置では、メモリ容量全体に占める標準パターンの割合が大きいので、複数の標準パターンを用意すると、全体のメモリ容量が倍増するという問題がある。
【０００７】
また非特許文献１に開示されている、環境の逆フィルタを入力音声から推定する手法は、十分に精度良く逆フィルタを推定するためには、大量の入力音声が必要となる。しかしながら、環境の特性はユーザーの位置変化や、室内の温度変化により変化するので、環境の特性が一定な期間内に必要な入力音声データ量を得ることは難しいので、結果として不安定な逆フィルタが学習され、十分な認識性能を得ることは困難である。
【０００８】
本発明は上述の点に鑑みて為されたもので、その目的とするところはハードウェア資源の大幅な増加を伴わず、また実環境での不安定性の少ない特徴をもった、様々な環境で高い認識性能が得られる音声認識装置方法及び音声認識方法を提供することにある。
【課題を解決するための手段】
【０００９】
上述の目的を達成するために、請求項１の音声認識装置の発明では、残響環境下で音声を捉える音声入力部と、該音声入力部からの出力信号をＡ／Ｄ変換するＡ／Ｄ変換部と、該Ａ／Ｄ変換部からの出力信号を周波数変換して現在の時間フレームの観測信号を出力する周波数変換部と、過去の所定時間フレームの観測信号を記憶し、現在の時間フレームの観測信号から、前記過去の所定時間フレームの観測信号に所定の減算係数を乗じて得られた信号を減算して推定信号として出力する減算処理部と、該減算処理部から出力される推定信号から音声の特徴量を抽出する音声特徴量抽出部と、残響時間が異なる環境下での標準音声から作成された標準パターンを記憶している標準パターン記憶部と、前記音声特徴量抽出部から抽出された特徴量と前記標準パターン記憶部で記憶している標準パターンとのとの類似度を求めて認識結果を出力するパターン照合部とを備えていることを特徴とする。
【００１０】
請求項１の音声認識装置の発明によれば、複数の標準パターンを記憶する必要がなくなって容量の大きな標準パターン記憶部を必要とせず、しかも残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、様々な環境において高い性能で音声認識が行える音声認識装置を実現できる。
【００１１】
請求項２の音声認識装置では、残響環境下で音声を捉える音声入力部と、該音声入力部からの出力信号をＡ／Ｄ変換するＡ／Ｄ変換部と、該Ａ／Ｄ変換部からの出力信号を周波数変換して現在の時間フレームの観測信号を出力する周波数変換部と、現在の時間フレームの観測信号から、過去の所定時間フレームに対応する所定の信号に所定の減算係数を乗じて得られた信号を減算して推定信号として出力し、且つ前記所定の信号に用いる信号として前記推定信号を記憶する減算処理部と、該減算処理部から出力される前記推定信号から音声の特徴量を抽出する音声特徴量抽出部と、残響時間が異なる環境下での標準音声から作成された標準パターンを記憶している標準パターン記憶部と、前記音声特徴量抽出部から抽出された特徴量と前記標準パターン記憶部で記憶している標準パターンとのとの類似度を求めて認識結果を出力するパターン照合部とを備えていることを特徴とする。
【００１２】
請求項２の音声認識装置の発明によれば、複数の標準パターンを記憶する必要がなくなって容量の大きな標準パターン記憶部を必要とせず、しかも残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、様々な環境において高い性能で音声認識が行え、特に減算に使用する過去の所定フレームまでの時間フレームに対応する信号がより正確となる音声認識装置を実現できる。
【００１３】
請求項３の音声認識装置の発明では、請求項１又は２の発明において、前記減算係数は、前記残響環境の伝達関数の１フレーム目の観測信号と所定フレーム目の観測信号のパワー比に所定の係数を乗じた値とすることを特徴とする。
【００１４】
請求項３の音声認識装置の発明によれば、減数係数をより正確に導出することができ、その結果音声認識の性能を一層向上させることができる。
【００１５】
請求項４の音声認識装置の発明では、請求項１乃至３の何れかの発明において、減算に使用する前記過去の所定時間フレームが複数のフレームであって、各所定時間フレームの信号に対して夫々の所定時間フレームに対応する所定の減算係数を乗じるとともに乗じた結果を加算して該加算結果を現在の時間フレームの観測信号から減算することを特徴とする。
【００１６】
請求項４の音声認識装置の発明によれば、様々な遅れ時間で到来する音声の遅れ成分に対しても、より正確に残響抑圧が行え、その結果音声認識の性能を更に向上させることができる。
【００１７】
請求項５の音声認識装置の発明では、請求項１乃至４の何れかの発明において、前記減算処理部は、減算処理においてスムージングにより残響の揺らぎを緩和する機能を備えたことを特徴とする。
【００１８】
請求項５の音声認識装置の発明によれば、残響の揺らぎを緩和させることができ、その結果音声認識の性能を向上させることができる。
【００１９】
請求項６の音声認識装置の発明では、請求項１乃至３の何れかの発明において、前記減算処理部は、前記推定信号の出力に対して前記過去の所定時間フレームを一つ用いる場合、減算処理を行う周波数帯毎又は周波数毎に前記過去の所定時間フレームを選択することを特徴とする。
【００２０】
請求項６の音声認識装置の発明によれば、周波数によって遅れ時間が異なる遅れ成分に対してもより正確に残響抑圧が行え、その結果音声認識の性能を向上させることができる。
【００２１】
請求項７の音声認識方法の発明では、残響環境下で捉えた音声の特徴量と、標準音声から作成した標準パターンとの類似度を求めて認識結果を得る音声認識方法であって、残響環境下で捉えた音声信号を周波数変換する過程と、周波数変換されて得られた現在の時間フレームの観測信号から、過去の所定時間フレームの観測信号に所定の減算係数を乗じて得られる信号を減算して推定信号を得る過程と、前記推定信号から音声の特徴量を抽出する過程と、該抽出した特徴量と前記標準パターンとの類似度から音声認識を行う過程とを有することを特徴とする。
【００２２】
請求項７の音声認識方法の発明によれば、残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、ハードウェアの大幅な増加を伴うことなく、様々な環境で音声認識の性能の向上が図れる。
【００２３】
請求項８の音声認識方法の発明では、残響環境下で捉えた音声の特徴量と、標準音声から作成した標準パターンとの類似度を求めて認識結果を得る音声認識方法であって、残響環境下で捉えた音声信号を周波数変換する過程と、周波数変換されて得られた現在の時間フレームの観測信号から、過去の所定時間フレームに対応する所定の信号に所定の減算係数を乗じて得られる信号を減算して推定信号を得、且つ前記所定の信号に用いる信号として前記推定信号を記憶する過程と、前記推定信号から音声の特徴量を抽出する過程と、該抽出した特徴量と前記標準パターンとの類似度から音声認識を行う過程とを有することを特徴とする。
【００２４】
請求項８の音声認識方法の発明によれば、残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、ハードウェアの大幅な増加を伴うことなく、様々な環境で音声認識の性能の向上が図れ、特に減算に使用する過去の所定フレームまでの時間フレームに対応する信号がより正確となる。
【発明の効果】
【００２５】
音声認識装置の発明は、数の標準パターンを記憶する必要がなくなって容量の大きな標準パターン記憶部を必要とせず、しかも残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、様々な環境において高い性能で音声認識が行える音声認識装置を実現できるという効果がある。
【００２６】
また音声認識方法の発明は、残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、ハードウェアの大幅な増加を伴うことなく、様々な環境で音声認識の性能の向上が図れる。
【発明を実施するための最良の形態】
【００２７】
以下本発明を実施形態により説明する。
【００２８】
（実施形態１）
図１は本実施形態の構成を示しており、本実施形態では、周波数変換部３で周波数変換された観測信号Ｙ（ｆ，ｍ）を所定フレームまでの過去の時間フレーム、例えばＬフレーム分、つまりＹ（ｆ，ｍ−１）〜Ｙ（ｆ，ｍ−Ｌ）まで記憶する信号記憶部８と、この信号記憶部８で記憶されているＬ個の過去の観測信号Ｙ（ｆ，ｍ−１）〜Ｙ（ｆ，ｍ−Ｌ）夫々に対応するＬ個の減算係数α_１〜α_Ｌを記憶している減算係数記憶部９と、信号記憶部８に記憶している過去の各観測信号Ｙ（ｆ，ｍ−１）〜Ｙ（ｆ，ｍ−Ｌ）に、減算係数記憶部９に記憶している夫々の観測信号観測信号Ｙ（ｆ，ｍ−１）〜Ｙ（ｆ，ｍ−Ｌ）に対応する減算係数α_１〜α_Ｌを乗じ、その乗じて得られた信号を、周波数変換部３から出力されている現在の時間フレームの観測信号から減算することでパワースペクトルの減算を行う減算部１０とを減算処理部として備え、減算部１０から出力される減算結果を、音声特徴量を抽出する推定信号として音声特徴量抽出部４へ出力する点に特徴がある。
【００２９】
信号記憶部８は周波数変換部３から出力される観測信号を上述のようにＬフレーム分記憶するもので、観測信号が入力されるたびに最も旧いフレームの観測信号を消去して新たなフレームの観測信号を記憶するようになっている。
【００３０】
尚マイクロフォンからなる音声入力部１は従来例と同様に残響環境下で音声を捉え、音声入力部１から出力される音声信号はＡ／Ｄ変換部２でＡ／Ｄ変換された後周波数変換部３で周波数変換されるようになっている。
【００３１】
またパターン照合部５は音声特徴量抽出部４で抽出された音声特徴量と、標準パターン記憶部７で記憶されている標準音声の標準パターンとの類似度を求めて類似度に対応した認識結果６を出力するようになっている。標準パターン記憶部７は複数の環境下での標準パターンを記憶するのではなく、一つの標準音声による音声パターンを記憶しているのみで、従来例のように複数の標準パターンを記憶する場合に比して大幅に少ない記憶容量のメモリで構成している。
【００３２】
次に本実施形態の動作を説明する。
【００３３】
まず、ユーザーは、装置が利用される環境におけるユーザー位置からマイクロフォンたる音声入力部１までの伝達関数を測定する。図２は伝達関数ｈ（ｔ）のその測定の結果例を示している。
【００３４】
次に、例えば式(１）のようなのフレーム間のパワー比に所定の定数βを乗算した値をα_ｐとする。ここで、窓幅Ｗは例えば周波数変換部３での窓長と同じ値とし、窓のシフト幅（図２ではｔ＝０からｔ＝Ｔ_１までの幅）も同様に周波数変換部３での窓シフト幅と同じ値とする。
【００３５】
【数１】

【００３６】
図３は求まったα_ｐの値と各フレームとの関係例を示す。
【００３７】
以上のように算出されたα_ｐを、予め減算係数記憶部９に記憶させておくのである。この記憶させる手段には適宜な手段を用いれば良いのでここでは省略する。
【００３８】
上述のように算出されたα_ｐを減算係数記憶部９にＬフレーム分（α_１〜α_Ｌ）記憶させて準備が完了することになる。
【００３９】
さて本実施形態の音声認識装置が入力音声の認識を行う動作は次の通りである。今既にＬフレーム分の過去の観測信号Ｙ（ｆ，ｍ−１）〜Ｙ（ｆ，ｍ−Ｌ）が信号記憶部８に記憶されている状態において、現在の時間フレームに対応する観測信号Ｙ（ｆ，ｍ）が減算部１０に入力すると、減算部１０は信号記憶部８に対して観測信号Ｙ（ｆ，ｍ−１）〜Ｙ（ｆ，ｍ−Ｌ）を順次読み出すとともに減算係数記憶部９からＬフレーム分の減算係数α_１〜α_Ｌを読み出し、例えば式（２−１）のようなパワースペクトル領域での減算処理を行い、推定信号Sｅｓｔ（ｆ，ｍ）を出力する。
【００４０】
【数２】

【００４１】
尚、減算した結果（式（２−２）で示す）が負の値となった場合には、式（３）のようなフロアリング処理、あるいは式（４）のように零信号として処理しても良い。
【００４２】
Sｅｓｔ（ｆ，ｍ）＝Ｙ（ｆ，ｍ）×０．５ …（３）
Sｅｓｔ（ｆ，ｍ）＝Ｙ（ｆ，ｍ）×０ …（４）
以上のように本実施形態の音声認識装置では、信号記憶部８、減算係数記憶部９、減算部１０からなる減算処理部を有するので、壁や床などに反射することにより遅延して音声入力部１に入力される音声の成分を、観測信号から除去することができ、そのため減算処理によって減算部１０から出力される推定信号が標準パターンと同質になり、この推定信号から音声特徴量抽出部４で抽出した特徴量と標準音声による標準パターンとの類似度をパターン照合部５で計算してその結果に基づいて出力する認識結果６が高い認識率によって得られ、装置としての音声認識の性能が向上する。
【００４３】
また、複数のフレームによって減算処理を行うので、床や壁など様々な反射経路による複数の遅延成分に対応することができ、より認識性能の向上が得られる。
【００４４】
更にまた、減算係数α_ｐを伝達関数から算出しているので、より正確な減算処理を行うことができ、その結果認識性能が向上する。
【００４５】
尚α_ｐは音声認識装置が実際に使用される環境下で測定した伝達関数に基づいて上述のように算出しているが、例えば音声認識装置が利用されうる複数の環境下において算出したα_ｐの平均値としても良い。
【００４６】
また減算処理により得られる推定信号を逆周波数変換すると、残響感の減少した音声信号を得ることができるので、音声認識装置以外にもハンズフリー電話やインターホンなどに応用できる。
（実施形態２）
本実施形態は、実施形態１の構成に加え、図４に示すように信号記憶部８と減算部１０の間に信号記憶部８に記憶している過去のフレームの観測信号Ｙ（ｆ，ｍ−ｐ）を周波数軸方向への平滑化を行うフィルタ部１１を設けた点に特徴がある。
【００４７】
その他の構成は実施形態１と同じであるので、実施形態１と共通の構成要素には同一符号を付して、その共通の構成要素についての説明は省略する。
【００４８】
而して減算部１０が、信号記憶部８に記憶されている過去のフレームの観測信号Ｙ（ｆ，ｍ−ｐ）の読み出しを行うと、前後の周波数に相当する信号Ｙ（ｆ−１，ｍ−ｐ）、Ｙ（ｆ＋１，ｍ−ｐ）を信号記憶部８から読み出し、例えば式（５）に示すような平滑化処理を行った信号を減算部１０に出力する。
【００４９】
【数３】

【００５０】
図５は音声信号が空間を伝わる際の周波数の様子を示しており、同図（ａ）は周波数の揺らぎがない場合を示し、同図（ｂ）は壁等で音声が反射する際に、周波数が揺らぐ様子を示している場合を示す。
【００５１】
図５（ａ）の（イ）に示すように、例えばＫフレーム前にユーザーが発生した音声の周波数ｆ_０の要素（●印）が、空間を伝わり壁等の反射を経てＫフレームの遅延を生じ、現在のフレームに減衰して混入されると、現在のフレームでは、図５（ａ）の（ロ）に示すようにユーザーの発生する音声の周波数ｆ_０の要素（▲印）が観測されているので、観測信号は両者が混合された音声となり、前述のような残響のある音声が観測される。
【００５２】
一方壁等で音声が反射する際には、図５（ｂ）の（イ）に示すように、Ｋフレーム前にユーザーが発生した音声の周波数ｆ_０の要素（●印）は、周波数の揺らぎにより、図５（ｂ）の（ロ）に示すように、例えば現在のフレームの周波数ｆ_０−１の要素（△印）に混入されるが、フィルタ部１１により上述した（５）式に基づいて平滑化処理するのである。
【００５３】
尚減算部１０の減算処理で得られた推定信号Sｅｓｔ（ｆ，ｍ）から認識結果を得るまでの処理動作は実施形態１と同じであるので、説明は省略する。
【００５４】
以上のように本実施形態の音声認識装置では、残響による遅延成分が周波数軸方向に揺らいでいる場合においても、減算に用いる過去の時間フレームの観測信号Ｙ（ｆ，ｍ−ｐ）をフィルタ部１１により平滑化してＹａｖｅ（ｆ，ｍ−ｐ）とすることで、現在の観測信号Ｙ（ｆ，ｍ）の周波数成分から遅延成分を減算部１０で減算処理することが可能となり、その結果遅延成分を除去することができ、その結果認識性能が向上する。
（実施形態３）
上述の実施形態１では減算処理において過去の時間フレームの観測信号を使用しているが、観測信号の代わりに本実施形態は過去の推定信号を減算に用いる点に特徴がある。
【００５５】
つまり本実施形態では、図６に示すように減算部１０での減算結果として出力される推定信号Sｅｓｔ（ｆ，ｍ）を音声特徴量抽出部４へ出力するとともに、信号記憶部８へも出力するようになっている。
【００５６】
信号記憶部８は減算部１０から出力される推定信号を過去Ｌフレーム分に渡って記憶しておき、減算部１０からの読み出しに応じて順次出力するようになっている。
【００５７】
その他の構成には実施形態１と同じであるので、共通の構成要素には同一符号を付して、その共通の構成要素についての説明は省略する。
【００５８】
而して本実施形態の音声認識装置の減算部１０では信号記憶部８から読み出した推定信号Sｅｓｔ（ｆ，ｍ−ｐ）とともに対応して減算係数記憶部９から読み出す減算係数α_ｐを用いて実施形態１の場合と同様な減算処理を行うのである。
【００５９】
このように減算部１０での減算処理に使用する信号が、観測信号Ｙ（ｆ，ｍ−ｐ）ではなく反射による遅れ成分の取り除かれた推定信号Sｅｓｔ（ｆ，ｍ−ｐ）になるので、本実施形態の音声認識装置では、より正確に遅れ成分だけを減算することができ、その結果認識性能が向上する。
【００６０】
尚本実施形態では初期においては信号記憶部８には過去の時間フレームに対応する推定信号Sｅｓｔ（ｆ，ｍ−ｐ）が記憶されていない零信号で状態あるので、このときの減算結果はSｅｓｔ（ｆ，ｍ）＝Ｙ（ｆ，ｍ）×ｅ^{ｊａｒｇ（Ｙ（ｆ，ｍ））} となって、これが１フレーム前の推定信号Sｅｓｔ（ｆ，ｍ−ｐ）として信号記憶部８に記憶されることになる。以後Ｌフレーム分の推定信号Sｅｓｔ（ｆ，ｍ−１）〜Sｅｓｔ（ｆ，ｍ−Ｌ）が記憶されるまで、推定信号が記憶されていない過去の時間フレームについては零信号が当該フレームの推定信号として用いられる。
【００６１】
また本実施形態において、信号記憶部１１から出力される推定信号Sｅｓｔ（ｆ，ｍ−ｐ）に対して平滑処理するために実施形態２と同様なフィルタ部１１を設けても良い。
（実施形態４）
まず、実施形態1において、減算処理に使用する過去の観測信号として１フレームだけを用いる場合には、減算処理部は、過去Ｋフレーム目の過去の観測信号Ｙ（ｆ，ｍ−Ｋ）を用いて減算処理を行う。但し、Ｋは、１，２，…Lの何れか一つの値である。
【００６２】
ここで、本実施形態では、周波数帯毎又は周波数毎に上述のＫの値を変更する点が実施形態1とは異なる箇所である。本実施形態では、例えば、Ｋとしてお互い異なるＫ_１、K_２、Ｋ３を選択する。
【００６３】
そして、周波数０〜ｆ_１については、Ｋ_１フレーム前の観測信号Ｙ(０，ｍ−Ｋ_１)、
Ｙ(１，ｍ−Ｋ_１)、…、Ｙ（ｆ_１，ｍ−Ｋ_１)を信号記憶部８に記憶させる。また、周波数帯域ｆ１＋１〜ｆ２についてはK２フレーム前の観測信号Ｙ(ｆ_１＋１，ｍ−K_２)、Ｙ(ｆ_１＋２，ｍ−K_２)、…、Ｙ（ｆ_２，ｍ−K_２)を信号記憶部８に記憶させる。また、周波数ｆ_２＋１についてはＫ_３フレーム前の観測信号Ｙ(ｆ_２＋１，ｍ−Ｋ_３)を信号記憶部８に記憶させる。
【００６４】
而して信号記憶部８は、周波数変換部３から周波数変換された信号を受信すると、周波数帯毎に所定の時間フレーム数だけ遅延させて各観測信号を上述のように記憶しておき、減算部１０から読み出し信号を受信すると、記憶している観測信号を順次減算部１０へ出力するのである。尚減衰係数記憶部９で記憶させる減衰係数も対応させる形で記憶させる。
【００６５】
その他の構成及び動作は実施形態１と同じであるので、構成は図１を参照して説明は省略する。
【００６６】
以上のように本実施形態の音声認識装置では、音声の反射等による遅れ成分に相当する信号を、周波数帯毎に遅れ量を変えて記憶しておくことができるので、周波数毎に異なる遅れ成分を精度良く減算することができ、その結果結果認識性能が向上する。
【００６７】
尚減算係数α_ｐと乗じる信号を観測信号Ｙ（ｆ，ｍ−ｐ）の代わりに実施形態３と同様に過去の所定フレームに対応する推定信号Sｅｓｔ（ｆ．ｍ−ｐ）を用いるようにしても良い。
【図面の簡単な説明】
【００６８】
【図１】実施形態１及び実施形態４の回路構成図である。
【図２】使用環境での伝達関数の測定例図である。
【図３】実施形態１に用いる減衰係数値とフレームとの関係説明図である。
【図４】実施形態２の回路構成図である。
【図５】音声信号が空間を伝わる際の周波数の揺らぎの説明図である。
【図６】実施形態３の回路構成図である。
【図７】従来例の回路構成図である。
【符号の説明】
【００６９】
１音声入力部
２Ａ／Ｄ変換部
３周波数変換部
４音声特徴量抽出部
５パターン照合部
６認識結果
７標準パターン記憶部
８信号記憶部８
９減算係数記憶部９
１０減算部

【特許請求の範囲】
【請求項１】
残響環境下で音声を捉える音声入力部と、該音声入力部からの出力信号をＡ／Ｄ変換するＡ／Ｄ変換部と、該Ａ／Ｄ変換部からの出力信号を周波数変換して現在の時間フレームの観測信号を出力する周波数変換部と、過去の所定時間フレームの観測信号を記憶し、現在の時間フレームの観測信号から、前記過去の所定時間フレームの観測信号に所定の減算係数を乗じて得られた信号を減算して推定信号として出力する減算処理部と、該減算処理部から出力される推定信号から音声の特徴量を抽出する音声特徴量抽出部と、残響時間が異なる環境下での標準音声から作成された標準パターンを記憶している標準パターン記憶部と、前記音声特徴量抽出部から抽出された特徴量と前記標準パターン記憶部で記憶している標準パターンとのとの類似度を求めて認識結果を出力するパターン照合部とを備えていることを特徴とする音声認識装置。
【請求項２】
残響環境下で音声を捉える音声入力部と、該音声入力部からの出力信号をＡ／Ｄ変換するＡ／Ｄ変換部と、該Ａ／Ｄ変換部からの出力信号を周波数変換して現在の時間フレームの観測信号を出力する周波数変換部と、現在の時間フレームの観測信号から、過去の所定時間フレームに対応する所定の信号に所定の減算係数を乗じて得られた信号を減算して推定信号として出力し、且つ前記所定の信号に用いる信号として前記推定信号を記憶する減算処理部と、該減算処理部から出力される前記推定信号から音声の特徴量を抽出する音声特徴量抽出部と、残響時間が異なる環境下での標準音声から作成された標準パターンを記憶している標準パターン記憶部と、前記音声特徴量抽出部から抽出された特徴量と前記標準パターン記憶部で記憶している標準パターンとのとの類似度を求めて認識結果を出力するパターン照合部とを備えていることを特徴とする音声認識装置。
【請求項３】
前記減算係数は、前記残響環境の伝達関数の１フレーム目の観測信号と所定フレーム目の観測信号のパワー比に所定の係数を乗じた値とすることを特徴とする請求項１又は２に記載の音声認識装置。
【請求項４】
減算に使用する前記過去の所定時間フレームが複数のフレームであって、各所定時間フレームに対応する信号に対して夫々の所定時間フレームに対応する所定の減算係数を乗じるとともに乗じた結果を加算して該加算結果を現在の時間フレームの観測信号から減算することを特徴とする請求項１乃至３の何れか記載の音声認識装置。
【請求項５】
前記減算処理部は、減算処理においてスムージングにより残響の揺らぎを緩和する機能を備えたことを特徴とする請求項１乃至４の何れか記載の音声認識装置。
【請求項６】
前記減算処理部は、前記推定信号の出力に対して前記過去の所定時間フレームを一つ用いる場合、減算処理を行う周波数帯毎又は周波数毎に前記過去の所定時間フレームを選択することを特徴とする請求項１乃至３の何れか記載の音声認識装置。
【請求項７】
残響環境下で捉えた音声の特徴量と、標準音声から作成した標準パターンとの類似度を求めて認識結果を得る音声認識方法であって、残響環境下で捉えた音声信号を周波数変換する過程と、周波数変換されて得られた現在の時間フレームの観測信号から、過去の所定時間フレームの観測信号に所定の減算係数を乗じて得られる信号を減算して推定信号を得る過程と、前記推定信号から音声の特徴量を抽出する過程と、該抽出した特徴量と前記標準パターンとの類似度から音声認識を行う過程とを有することを特徴とする音声認識方法。
【請求項８】
残響環境下で捉えた音声の特徴量と、標準音声から作成した標準パターンとの類似度を求めて認識結果を得る音声認識方法であって、残響環境下で捉えた音声信号を周波数変換する過程と、周波数変換されて得られた現在の時間フレームの観測信号から、過去の所定時間フレームに対応する所定の信号に所定の減算係数を乗じて得られる信号を減算して推定信号を得、且つ前記所定の信号に用いる信号として前記推定信号を記憶する過程と、前記推定信号から音声の特徴量を抽出する過程と、該抽出した特徴量と前記標準パターンとの類似度から音声認識を行う過程とを有することを特徴とする音声認識方法。

【図１】